CN106558314B - 一种混音处理方法和装置及设备 - Google Patents

一种混音处理方法和装置及设备 Download PDF

Info

Publication number
CN106558314B
CN106558314B CN201510631912.3A CN201510631912A CN106558314B CN 106558314 B CN106558314 B CN 106558314B CN 201510631912 A CN201510631912 A CN 201510631912A CN 106558314 B CN106558314 B CN 106558314B
Authority
CN
China
Prior art keywords
signal
ymax
mixed
signals
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510631912.3A
Other languages
English (en)
Other versions
CN106558314A (zh
Inventor
赵伟峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Kugou Computer Technology Co Ltd
Original Assignee
Guangzhou Kugou Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Kugou Computer Technology Co Ltd filed Critical Guangzhou Kugou Computer Technology Co Ltd
Priority to CN201510631912.3A priority Critical patent/CN106558314B/zh
Priority to JP2018515556A priority patent/JP6587742B2/ja
Priority to US15/761,745 priority patent/US10283134B2/en
Priority to EP16850119.5A priority patent/EP3358567B1/en
Priority to PCT/CN2016/084718 priority patent/WO2017054494A1/zh
Priority to KR1020187008481A priority patent/KR102084338B1/ko
Publication of CN106558314A publication Critical patent/CN106558314A/zh
Application granted granted Critical
Publication of CN106558314B publication Critical patent/CN106558314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/46Volume control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3089Control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/34Muting amplifier when no signal is present or when only weak signals are present, or caused by the presence of noise signals, e.g. squelch systems
    • H03G3/342Muting when some special characteristic of the signal is sensed which distinguishes it from noise, e.g. using speech detector
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/02Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information
    • H04H60/04Studio equipment; Interconnection of studios
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

本发明实施例提供一种混音处理方法和装置及设备,以解决几种现有混音技术不能支持各路信号按比例进行混音等问题。在本发明一些可行的实施方式中,方法包括:提取第一路信号中的一帧信号sm(n),以及需要与所述第一路信号混音的第二路信号中的与所述sm(n)对应的一帧信号vm(n),n表示采样点个数;对所述信号sm(n)和vm(n)分别进行加权处理,并将加权处理后的两帧信号相加,得到混合信号ym(n);根据所述混合信号ym(n)序列的最大值ymax计算可变衰减因子,利用所述可变衰减因子对所述混合信号ym(n)进行衰减处理,生成输出信号Zm(n)。

Description

一种混音处理方法和装置及设备
技术领域
本发明涉及混音技术领域,具体涉及一种混音处理方法和装置及设备。
背景技术
K歌系统中的混音算法是最基础,但是也最难做好的一个方面。现在网络及开源码中常见的混音算法包括以下几种:
一种是相加求平均,该算法的缺陷就是音量很小,优点是无溢出,但如果直接乘以一个系数放大,则肯定会溢出。
另一种是直接相加法,该算法音量保持的好,缺点是溢出的时候需要掐断,造成掐断出频率失真,音质丢失。
还一种是国外一篇博客提供的算法,含有公式Y=A+B-(A*B/(-(2pow(n-1)-1))),其中,A和B是需要混音的两路信号,n是采样点个数,pow表示幂运算。此算法无溢出,但是对中频有削弱。另外此算法不符合我们需要将A和B乘以一个放大倍数的情况。当加一个放大倍数后,该算法会溢出。
实践发现,上述算法均有各自的缺陷,且均不能支持各路信号按比例进行混音的场景。
发明内容
本发明实施例提供一种混音处理方法和装置及设备,以解决几种现有混音技术不能支持各路信号按比例进行混音等问题。
本发明第一方面提供一种混音处理方法,包括:
提取第一路信号中的一帧信号sm(n),以及需要与所述第一路信号混音的第二路信号中的与所述sm(n)对应的一帧信号vm(n),n表示采样点个数;
对所述信号sm(n)和vm(n)分别进行加权处理,并将加权处理后的两帧信号相加,得到混合信号ym(n);
根据所述混合信号ym(n)序列的最大值ymax计算可变衰减因子,利用所述可变衰减因子对所述混合信号ym(n)进行衰减处理,生成输出信号Zm(n)。
本发明第二方面提供一种混音处理装置,包括:
提取模块,用于提取第一路信号中的一帧信号sm(n),以及需要与所述第一路信号混音的第二路信号中的与所述sm(n)对应的一帧信号vm(n),n表示采样点个数;
混合模块,用于对所述信号sm(n)和vm(n)分别进行加权处理,并将加权处理后的两帧信号相加,得到混合信号ym(n);
衰减处理模块,用于根据所述混合信号ym(n)序列的最大值ymax计算可变衰减因子,利用所述可变衰减因子对所述混合信号ym(n)进行衰减处理,生成输出信号Zm(n)。
本发明第三方面提供一种计算机设备,包括:处理器、存储器、总线和通信接口;
所述存储器用于存储计算机执行指令,所述处理器与所述存储器通过所述总线连接,当所述计算机设备运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以使所述计算机设备执行如下步骤:
提取第一路信号中的一帧信号sm(n),以及需要与所述第一路信号混音的第二路信号中的与所述sm(n)对应的一帧信号vm(n),n表示采样点个数;
对所述信号sm(n)和vm(n)分别进行加权处理,并将加权处理后的两帧信号相加,得到混合信号ym(n);
根据所述混合信号ym(n)序列的最大值ymax计算可变衰减因子,利用所述可变衰减因子对所述混合信号ym(n)进行衰减处理,生成输出信号Zm(n)。
由上可见,在本发明的一些可行的实施方式中,采用按帧提取待混音的各路信号,分别加权后相加,再用可变衰减因子进行衰减处理,从而实现混音的技术方案,取得了以下技术效果:
一方面,可以支持各路信号按比例进行混音的场景;例如,适用于把人声或者伴奏音量中的至少一种放大两倍甚至更多的情况。
另一方面,采用衰减因子对加权相加后的混合信号进行衰减处理,可以避免得到的输出信号产生溢出问题;
另外,本发明实施例方案的音质保持的非常完好,毛刺噪音等很少。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的混音处理方法的流程图;
图2是测试结果的示意图;
图3是本发明实施例提供的一种混音处理装置的结构示意图;
图4是本发明实施例提供的另一种混音处理装置的结构示意图;
图5是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明实施例技术方案,应用于K歌系统,所说的K歌系统包括但不限于KTV中使用的K歌系统,家庭用的K歌系统,以及,安装了K歌软件的计算机设备,所述计算机设备可以是通用计算机、客户定制机、手机终端或平板机等便携设备中的一种。K歌系统一般还包括有音响系统和麦克风。
下面通过具体实施例,分别进行详细的说明。
本发明第一实施例提供一种混音处理方法,该方法按帧提取待混音的各路信号,分别加权后相加,再用可变衰减因子进行衰减处理,以衰减处理后的混合信号作为输出信号。
请参考图1,本发明实施例提供的混音处理方法的具体过程包括:
110、提取第一路信号中的一帧信号sm(n),以及需要与所述第一路信号混音的第二路信号中的与所述sm(n)对应的一帧信号vm(n),n表示采样点个数。
本文中以对两路信号进行混音处理为例进行说明,但需要说明的是,本发明技术方案并不限制混音的各路信号的数量,多路信号的混音总是可以简化为为两路信号的混音。
当K歌系统运行时,具体的,K歌系统中的计算机设备安装的K歌软件运行时,计算机设备的处理器获取到需要进行混音的两路信号,本文中用s(n)表示第一路信号,用v(n)表示第二路信号,其中,n表示采样点个数,举例来说,单位时间例如1秒内可以包括1024个采样点。
本发明实施例中,将两路信号s(n)和v(n)按比例进行混音,假设混合的比例是p和q,即,将信号s(n)放大p倍,将信号v(n)放大q倍,其中q和p可以是大于0的任意数,一般的,可以将p和q分别取为不大于10的数。
本发明实施例中,对两路信号s(n)和v(n)按帧进行处理,对s(n)和v(n)当前的帧信号进行混音后,再继续对下一帧信号进行混音。其中,帧长度N可以任意设置,例如,可以设一帧信号的长度N为1024个采样点。需要说明的是,s(n)中的一帧信号和v(n)中的一帧信号的长度应相同。
例如,在某一时刻对第m帧信号进行混音,则提取第一路信号s(n)中的第m帧信号sm(n),以及需要与所述第一路信号s(n)混音的第二路信号v(n)中的与所述sm(n)对应的第m帧信号vm(n)。其中,m为正整数。
120、对所述信号sm(n)和vm(n)分别进行加权处理,并将加权处理后的两帧信号相加,得到混合信号ym(n)。
本步骤中,采用p和q作为加权系数分别对两帧信号sm(n)和vm(n)进行加权并将加权处理后的两帧信号相加,公式如下:
ym(n)=p*sm(n)+q*vm(n),其中,n=0,1,2……N-1,N为所述帧信号sm(n)和vm(n)的帧长;
其中,ym(n)是加权处理并相加后得到的混合信号,容易理解,ym(n)的长度与sm(n)和vm(n)的长度相同,均为N,例如1024。
130、根据所述混合信号ym(n)序列的最大值ymax计算可变衰减因子,利用所述可变衰减因子对所述混合信号ym(n)进行衰减处理,生成输出信号Zm(n)。
当混合信号ym(n)的最大值ymax较大时,该混合信号会有溢出的风险,因此不宜直接将ym(n)作为输出信号。为了解决溢出的问题,本发明实施例中,根据所述混合信号ym(n)序列的最大值ymax计算一个可变衰减因子deta,并利用所述可变衰减因子deta对所述混合信号ym(n)进行衰减处理,使得信号ym(n)处于临界值以内而不会溢出,同时,还可以使数据变化的较为平缓。需要说明的是,该可变衰减因子是可变的,是基于当前的一帧ym(n)序列的最大值ymax计算得到,因而,在对不同帧信号进行混音时,deta是不同的。
本发明一种实施方式中,计算衰减因子并进行衰减处理的过程如下:
首先,定义一个全局参考值f,该全局参考值f可以保留其历史数据。本文中,在初始时刻,也就是在对s(n)的第一帧信号和v(n)的第一帧信号进行混音处理时,可以将f赋值为1.0。而在后续处理其它帧的信号时,f始终在变化之中,具体在下文说明。本文中还定义一个临时参考值fnew。
当对ym(n)进行衰减处理时,首先获取ym(n)的最大值ymax,ymax=max(abs(ym)),其中,abs表示取绝对值,max表示取最大值;另外,其中n的取值为0,1,2直到N-1。n取某个值时,ym具有最大值。
然后,将ymax与一个预设值Ma进行比较,根据比较的结果决定一个临时参考值fnew的值。其中,在所述最大值ymax不大于预设值Ma时,令临时参考值fnew=1.0,在所述最大值ymax大于预设值Ma时,令临时参考值fnew=Ma/ymax,此时fnew是一个比1.0稍小的数,这时,对ymax乘以系数fnew,正好等于Ma,而不会大于Ma。
一般的,声音信号用16个bite(比特)表示,其最大值为216-1,也就是32767,因此,优选的,可以令Ma=32767。在其它应用场景中,假设声音信号用p个bite表示,则可以令Ma=2p-1。P可以是8,16,24,或32等。
再然后,计算可变衰减因子,公式为:deta=(f–fnew)/N;其中,deta表示可变衰减因子;N为ym(n)的帧长,本文以1024为例。
接下来,利用deta对ym(n)进行衰减处理,生成输出信号Zm(n),采用的公式为:Zm(n)=(f–n*deta)*ym(n),其中,n=0,1,2……N-1,N为所述帧信号sm(n)和vm(n)的帧长,也即是Zm(n)的帧长。由公式Zm(n)=(f–n*deta)*ym(n)可以看出,信号ym(n)可以被限制在临界值以内而不会溢出,同时,还可以使数据变化的较为平缓。
举例来说,初始时f=1.0,如果ymax不大于预设值Ma,表示声音信号不会溢出,此时fnew=1.0,则:deta=0,于是Zm(n)=ym(n),可见,由于声音信号不会溢出,直接以ym(n)为输出信号而未进行衰减处理。
最后,对所述全局参考值f进行更新,使所述全局参考值f等于临时参考值fnew,以用于下一帧信号的处理。举例来说,在对第一帧信号进行处理时,f等于其初始值1.0,假设此时fnew等于0.95;则对第一帧信号进行处理完毕后,令f=fnew=0.95;于是,在对第二帧信号进行处理时,f当前的值为0.95。
本发明实施例中,采用上述方法依次对每一帧信号进行混音处理,直到所有帧信号被处理完毕,至此完成按比例混音。
请参考图2,是测试结果的示意图。其中,(a)是采用现有混音技术进行混音的测试结果示意图,(b)是本发明实施例方法进行混音的测试结果示意图,可以看出图2(a)在不少地方有很明显的毛刺冲击(即,图中竖线),其反应在人耳上是比较难以听出来的背景噪音。而图2(b)就很干净,毛刺噪音基本为无。可见,经过算法测试结果显示,采用本发明实施例技术方案的混音方法,最终音质保持的非常完好,毛刺噪音等很少。
由上可见,在本发明的一些可行的实施方式中,公开了一种混音处理方法,该方法采用按帧提取待混音的各路信号,分别加权后相加,再用可变衰减因子进行衰减处理,从而实现混音的技术方案,取得了以下技术效果:
一方面,可以支持各路信号按比例进行混音的场景;例如,适用于把人声或者伴奏音量中的至少一种放大两倍甚至更多的情况。
另一方面,采用衰减因子对加权相加后的混合信号进行衰减处理,可以避免得到的输出信号产生溢出问题;
另外,本发明实施例技术方案的混音方法音质保持的非常完好,毛刺噪音等很少。
为便于更好的理解本发明实施例提供的技术方案,下面通过一个具体场景下的实施方式为例进行介绍,具体过程如下:
假设需要混音的是s(n)和v(n),混合的比例是p和q,p和q都大于0,小于M,M可以是大于0的任何数,尤先地取M=10;
处理步骤包括:
首先设置一个可以保留历史数据的值f,开始时候初始化为1.0,(以后帧不再初始化,而保留历史值)。
S1、从s(n)和v(n)中分别取出第一帧信号sm(n)和vm(n),其中帧长任意设置,优先地可以设为帧长为N=1024个采样点。
S2、生成ym(n)=p*sm(n)+q*vm(n),长度为N。
S3、求取ym(n)序列的最大值ymax=max(ym);
S4、如果ymax≤32767,fnew=1.0;
S5、如果ymax>32767,fnew=32767/ymax;
S6、计算deta=(f–fnew)/N;
S7、得到Zm(n)=(f–n*deta)*ym(n),其中,n的取值从0~N-1。
S8、设f=fnew;
S9、将zm作为处理完成的一帧数据输出。
S10、将f的值作为下一帧的初始化,作为下一帧使用。
依次处理第2、第3、第4……,直到所有帧都处理完毕。
至此完成按比例混音。
为了更好的实施本发明实施例的上述方案,下面还提供用于配合实施上述方案的相关装置。
请参考图3,本发明第二实施例提供一种混音处理装置,可包括:
提取模块310,用于提取第一路信号中的一帧信号sm(n),以及需要与所述第一路信号混音的第二路信号中的与所述sm(n)对应的一帧信号vm(n),n表示采样点个数;
混合模块320,用于对所述信号sm(n)和vm(n)分别进行加权处理,并将加权处理后的两帧信号相加,得到混合信号ym(n);
衰减处理模块330,用于根据所述混合信号ym(n)序列的最大值ymax计算可变衰减因子,利用所述可变衰减因子对所述混合信号ym(n)进行衰减处理,生成输出信号Zm(n)。
请参考图4,在本发明的一些实施例中,所述衰减处理模块330包括:
获取单元3301,用于获取ym(n)序列的最大值ymax,ymax=max(abs(ym)),其中,abs表示取绝对值,max表示取最大值,并获取当前的全局参考值f;
赋值单元3302,用于在所述最大值ymax不大于预设值Ma时,令临时参考值fnew=1.0,在所述最大值ymax大于预设值Ma时,令临时参考值fnew=Ma/ymax;
计算单元3303,用于计算预设的可变衰减因子deta,deta=(f–fnew)/N。
进一步的,所述衰减处理模块330还可以包括:
衰减处理单元3304,用于利用所述可变衰减因子deta对所述混合信号ym(n)进行衰减处理,得到信号Zm(n),Zm(n)=(f–n*deta)*ym(n),其中,n=0,1,2……N-1,N为所述帧信号sm(n)和vm(n)的帧长;以衰减处理后得到的信号Zm(n)为输出信号。
更进一步的,所述衰减处理模块330还包括:
更新单元3305,用于对所述全局参考值f进行更新,使所述全局参考值f等于临时参考值fnew,以用于下一帧信号的处理。
可选的,所述全局参考值f的初始值为1.0;所述预设值Ma等于32767。
可以理解,本发明实施例的混音处理装置的各个功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述方法实施例中的相关描述,此处不再赘述。
由上可见,在本发明的一些可行的实施方式中,公开了一种混音处理装置,该方法采用按帧提取待混音的各路信号,分别加权后相加,再用可变衰减因子进行衰减处理,从而实现混音的技术方案,取得了以下技术效果:
一方面,可以支持各路信号按比例进行混音的场景;例如,适用于把人声或者伴奏音量中的至少一种放大两倍甚至更多的情况。
另一方面,采用衰减因子对加权相加后的混合信号进行衰减处理,可以避免得到的输出信号产生溢出问题;
另外,本发明实施例技术方案的混音方法音质保持的非常完好,毛刺噪音等很少。
请参考图5,本发明第三实施例还提供一种计算机设备500,可包括:
处理器501、存储器502、总线503和通信接口504;
所述存储器502用于存储计算机执行指令,所述处理器501与所述存储器502通过所述总线503连接,当所述计算机设备500运行时,所述处理器501执行所述存储器502存储的所述计算机执行指令,以使所述计算机设备500执行如下步骤:
提取第一路信号中的一帧信号sm(n),以及需要与所述第一路信号混音的第二路信号中的与所述sm(n)对应的一帧信号vm(n),n表示采样点个数;
对所述信号sm(n)和vm(n)分别进行加权处理,并将加权处理后的两帧信号相加,得到混合信号ym(n);
根据所述混合信号ym(n)序列的最大值ymax计算可变衰减因子,利用所述可变衰减因子对所述混合信号ym(n)进行衰减处理,生成输出信号Zm(n)。
在本发明的一些实施例中,处理器501根据所述混合信号ym(n)序列的最大值ymax计算可变衰减因子包括:获取ym(n)序列的最大值ymax,ymax=max(abs(ym)),其中,abs表示取绝对值,max表示取最大值,并获取当前的全局参考值f;在所述最大值ymax不大于预设值Ma时,令临时参考值fnew=1.0,在所述最大值ymax大于预设值Ma时,令临时参考值fnew=Ma/ymax;计算可变衰减因子deta,deta=(f–fnew)/N。
在本发明的一些实施例中,处理器501利用所述可变衰减因子对所述混合信号ym(n)进行衰减处理,生成输出信号Zm(n)包括:利用所述可变衰减因子deta对所述混合信号ym(n)进行衰减处理,得到信号Zm(n),Zm(n)=(f–n*deta)*ym(n),其中,n=0,1,2……N-1,N为所述帧信号sm(n)和vm(n)的帧长;以衰减处理后得到的信号Zm(n)为输出信号。
在本发明的一些实施例中,处理器540还可以执行如下步骤:对所述全局参考值f进行更新,使所述全局参考值f等于临时参考值fnew,以用于下一帧信号的处理。
在本发明的一些实施例中,所述全局参考值f的初始值为1.0;所述预设值Ma等于32767。
由上可见,在本发明的一些可行的实施方式中,公开了一种混音处理装置,该方法采用按帧提取待混音的各路信号,分别加权后相加,再用可变衰减因子进行衰减处理,从而实现混音的技术方案,取得了以下技术效果:
一方面,可以支持各路信号按比例进行混音的场景;例如,适用于把人声或者伴奏音量中的至少一种放大两倍甚至更多的情况。
另一方面,采用衰减因子对加权相加后的混合信号进行衰减处理,可以避免得到的输出信号产生溢出问题;
另外,本发明实施例技术方案的混音方法音质保持的非常完好,毛刺噪音等很少。
本发明第四实施例还提供一种计算机存储介质,该计算机存储介质可存储有程序,该程序执行时包括上述方法实施例中记载的混音处理方法的部分或全部步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上对本发明实施例所提供的混音处理方法和装置及设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种混音处理方法,其特征在于,包括:
提取第一路信号中的一帧信号sm(n),以及需要与所述第一路信号混音的第二路信号中的与所述sm(n)对应的一帧信号vm(n),n表示采样点个数;
对所述信号sm(n)和vm(n)分别进行加权处理,并将加权处理后的两帧信号相加,得到混合信号ym(n);
根据所述混合信号ym(n)序列的最大值ymax计算可变衰减因子,利用所述可变衰减因子对所述混合信号ym(n)进行衰减处理,生成输出信号Zm(n);
所述根据所述混合信号ym(n)序列的最大值ymax计算可变衰减因子包括:
获取ym(n)序列的最大值ymax,ymax=max(abs(ym)),其中,abs表示取绝对值,max表示取最大值,并获取当前的全局参考值f;
在所述最大值ymax不大于预设值Ma时,令临时参考值fnew=1.0,在所述最大值ymax大于所述预设值Ma时,令临时参考值fnew=Ma/ymax;
计算可变衰减因子deta,deta=(f–fnew)/N。
2.根据权利要求1所述的方法,其特征在于,所述利用所述可变衰减因子对所述混合信号ym(n)进行衰减处理,生成输出信号Zm(n)包括:
利用所述可变衰减因子deta对所述混合信号ym(n)进行衰减处理,得到信号Zm(n),Zm(n)=(f–n*deta)*ym(n),其中,n=0,1,2……N-1,N为所述帧信号sm(n)和vm(n)的帧长;以衰减处理后得到的信号Zm(n)为输出信号。
3.根据权利要求2所述的方法,其特征在于,还包括:
对所述全局参考值f进行更新,使所述全局参考值f等于临时参考值fnew,以用于下一帧信号的处理。
4.根据权利要求1至3任一所述的方法,其特征在于,
所述全局参考值f的初始值为1.0;
所述预设值Ma等于32767。
5.一种混音处理装置,其特征在于,包括:
提取模块,用于提取第一路信号中的一帧信号sm(n),以及需要与所述第一路信号混音的第二路信号中的与所述sm(n)对应的一帧信号vm(n),n表示采样点个数;
混合模块,用于对所述信号sm(n)和vm(n)分别进行加权处理,并将加权处理后的两帧信号相加,得到混合信号ym(n);
衰减处理模块,用于根据所述混合信号ym(n)序列的最大值ymax计算可变衰减因子,利用所述可变衰减因子对所述混合信号ym(n)进行衰减处理,生成输出信号Zm(n);
所述衰减处理模块包括:
获取单元,用于获取ym(n)序列的最大值ymax,ymax=max(abs(ym)),其中,abs表示取绝对值,max表示取最大值,并获取当前的全局参考值f;
赋值单元,用于在所述最大值ymax不大于预设值Ma时,令临时参考值fnew=1.0,在所述最大值ymax大于所述预设值Ma时,令临时参考值fnew=Ma/ymax;
计算单元,用于计算预设的可变衰减因子deta,deta=(f–fnew)/N。
6.根据权利要求5所述的装置,其特征在于,所述衰减处理模块还包括:
衰减处理单元,用于利用所述可变衰减因子deta对所述混合信号ym(n)进行衰减处理,得到信号Zm(n),Zm(n)=(f–n*deta)*ym(n),其中,n=0,1,2……N-1,N为所述帧信号sm(n)和vm(n)的帧长;以衰减处理后得到的信号Zm(n)为输出信号。
7.根据权利要求6所述的装置,其特征在于,所述衰减处理模块还包括:
更新单元,用于对所述全局参考值f进行更新,使所述全局参考值f等于临时参考值fnew,以用于下一帧信号的处理。
8.根据权利要求5至7任一所述的装置,其特征在于,
所述全局参考值f的初始值为1.0;
所述预设值Ma等于32767。
9.一种计算机设备,其特征在于,包括:处理器、存储器、总线和通信接口;
所述存储器用于存储计算机执行指令,所述处理器与所述存储器通过所述总线连接,当所述计算机设备运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以使所述计算机设备执行如下步骤:
提取第一路信号中的一帧信号sm(n),以及需要与所述第一路信号混音的第二路信号中的与所述sm(n)对应的一帧信号vm(n),n表示采样点个数;
对所述信号sm(n)和vm(n)分别进行加权处理,并将加权处理后的两帧信号相加,得到混合信号ym(n);
根据所述混合信号ym(n)序列的最大值ymax计算可变衰减因子,利用所述可变衰减因子对所述混合信号ym(n)进行衰减处理,生成输出信号Zm(n);
具体用于获取ym(n)序列的最大值ymax,ymax=max(abs(ym)),其中,abs表示取绝对值,max表示取最大值,并获取当前的全局参考值f;
在所述最大值ymax不大于预设值Ma时,令临时参考值fnew=1.0,在所述最大值ymax大于所述预设值Ma时,令临时参考值fnew=Ma/ymax;
计算可变衰减因子deta,deta=(f–fnew)/N。
CN201510631912.3A 2015-09-29 2015-09-29 一种混音处理方法和装置及设备 Active CN106558314B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201510631912.3A CN106558314B (zh) 2015-09-29 2015-09-29 一种混音处理方法和装置及设备
JP2018515556A JP6587742B2 (ja) 2015-09-29 2016-06-03 サウンド混合処理方法および装置、装置、並びに記憶媒体
US15/761,745 US10283134B2 (en) 2015-09-29 2016-06-03 Sound-mixing processing method, apparatus and device, and storage medium
EP16850119.5A EP3358567B1 (en) 2015-09-29 2016-06-03 Sound-mixing processing method, apparatus and device, and storage medium
PCT/CN2016/084718 WO2017054494A1 (zh) 2015-09-29 2016-06-03 一种混音处理方法、装置、设备及存储介质
KR1020187008481A KR102084338B1 (ko) 2015-09-29 2016-06-03 사운드-믹싱 처리 방법, 장치 및 디바이스 및 저장 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510631912.3A CN106558314B (zh) 2015-09-29 2015-09-29 一种混音处理方法和装置及设备

Publications (2)

Publication Number Publication Date
CN106558314A CN106558314A (zh) 2017-04-05
CN106558314B true CN106558314B (zh) 2021-05-07

Family

ID=58416857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510631912.3A Active CN106558314B (zh) 2015-09-29 2015-09-29 一种混音处理方法和装置及设备

Country Status (6)

Country Link
US (1) US10283134B2 (zh)
EP (1) EP3358567B1 (zh)
JP (1) JP6587742B2 (zh)
KR (1) KR102084338B1 (zh)
CN (1) CN106558314B (zh)
WO (1) WO2017054494A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109559763B (zh) * 2017-09-26 2021-01-15 华为技术有限公司 一种实时数字音频信号混音的方法及装置
CN108831425B (zh) * 2018-06-22 2022-01-04 广州酷狗计算机科技有限公司 混音方法、装置及存储介质
CN109859729B (zh) * 2019-01-21 2021-03-05 北京小唱科技有限公司 对音频进行波形幅度控制方法及装置
CN111510549A (zh) * 2020-04-26 2020-08-07 厦门亿联网络技术股份有限公司 无线通信设备、语音数据处理方法及装置
CN111770413B (zh) * 2020-06-30 2021-08-27 浙江大华技术股份有限公司 一种多音源混音方法、装置及存储介质
CN113113046B (zh) * 2021-04-14 2024-01-19 杭州网易智企科技有限公司 音频处理的性能检测方法、装置、存储介质及电子设备
CN113257257B (zh) * 2021-07-14 2021-11-09 统信软件技术有限公司 多路语音信号的混音处理方法、装置、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002299975A (ja) * 2001-04-02 2002-10-11 Matsushita Electric Ind Co Ltd デジタルagc装置
KR20030017839A (ko) * 2001-08-23 2003-03-04 삼성전자주식회사 오디오 출력 이득 조정장치 및 그 방법
US7379961B2 (en) * 1997-04-30 2008-05-27 Computer Associates Think, Inc. Spatialized audio in a three-dimensional computer-based scene
US20080162127A1 (en) * 2006-12-27 2008-07-03 Laura Laaksonen Network entity, method and computer program product for mixing signals during a conference session
US20080219473A1 (en) * 2007-03-06 2008-09-11 Nec Corporation Signal processing method, apparatus and program
US20080228470A1 (en) * 2007-02-21 2008-09-18 Atsuo Hiroe Signal separating device, signal separating method, and computer program
CN101674450A (zh) * 2008-09-10 2010-03-17 深圳市邦彦信息技术有限公司 视频指挥调度系统中的混音方法
CN101989430A (zh) * 2009-07-30 2011-03-23 比亚迪股份有限公司 一种混音处理系统及混音处理方法
CN102226944A (zh) * 2011-05-25 2011-10-26 贵阳朗玛信息技术股份有限公司 混音方法及设备
CN102610235A (zh) * 2011-12-22 2012-07-25 深圳市万兴软件有限公司 混音处理方法、装置及智能设备
CN103021419A (zh) * 2012-12-26 2013-04-03 大唐移动通信设备有限公司 一种混合音频的处理方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6404892B1 (en) 1995-09-06 2002-06-11 Apple Computer, Inc. Reduced complexity audio mixing apparatus
US6728584B1 (en) * 1998-09-02 2004-04-27 Ati Technologies Synchronization and mixing of multiple streams at different sampling rates
US7145883B2 (en) * 2002-02-25 2006-12-05 Sonexis, Inc. System and method for gain control of audio sample packets
WO2008021110A2 (en) * 2006-08-09 2008-02-21 Dolby Laboratories Licensing Corporation Audio-peak limiting in slow and fast stages
KR20090022551A (ko) * 2007-08-31 2009-03-04 삼성전자주식회사 무선 오디오 믹싱 장치 및 방법
US9113240B2 (en) * 2008-03-18 2015-08-18 Qualcomm Incorporated Speech enhancement using multiple microphones on multiple devices
WO2009120387A1 (en) * 2008-03-27 2009-10-01 Analog Devices, Inc. Method and apparatus for scaling signals to prevent amplitude clipping
US9349385B2 (en) * 2012-02-22 2016-05-24 Htc Corporation Electronic device and gain controlling method
US9070371B2 (en) * 2012-10-22 2015-06-30 Ittiam Systems (P) Ltd. Method and system for peak limiting of speech signals for delay sensitive voice communication
US10469947B2 (en) * 2014-10-07 2019-11-05 Nokia Technologies Oy Method and apparatus for rendering an audio source having a modified virtual position

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7379961B2 (en) * 1997-04-30 2008-05-27 Computer Associates Think, Inc. Spatialized audio in a three-dimensional computer-based scene
JP2002299975A (ja) * 2001-04-02 2002-10-11 Matsushita Electric Ind Co Ltd デジタルagc装置
KR20030017839A (ko) * 2001-08-23 2003-03-04 삼성전자주식회사 오디오 출력 이득 조정장치 및 그 방법
US20080162127A1 (en) * 2006-12-27 2008-07-03 Laura Laaksonen Network entity, method and computer program product for mixing signals during a conference session
US20080228470A1 (en) * 2007-02-21 2008-09-18 Atsuo Hiroe Signal separating device, signal separating method, and computer program
US20080219473A1 (en) * 2007-03-06 2008-09-11 Nec Corporation Signal processing method, apparatus and program
CN101674450A (zh) * 2008-09-10 2010-03-17 深圳市邦彦信息技术有限公司 视频指挥调度系统中的混音方法
CN101989430A (zh) * 2009-07-30 2011-03-23 比亚迪股份有限公司 一种混音处理系统及混音处理方法
CN102226944A (zh) * 2011-05-25 2011-10-26 贵阳朗玛信息技术股份有限公司 混音方法及设备
CN102610235A (zh) * 2011-12-22 2012-07-25 深圳市万兴软件有限公司 混音处理方法、装置及智能设备
CN103021419A (zh) * 2012-12-26 2013-04-03 大唐移动通信设备有限公司 一种混合音频的处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Novel sound mixing method for voice and background music";W. Owaki 等;《2015 IEEE International Conference on Acoustics, Speech and Signal Processing》;20150806;第290-294页 *
"基于WebRTC语音引擎的会议混音技术研究";王亚辉;《中国优秀硕士学位论文全文数据库信息科技辑》;20131215;第I136-1154页 *

Also Published As

Publication number Publication date
EP3358567A1 (en) 2018-08-08
KR102084338B1 (ko) 2020-03-03
JP6587742B2 (ja) 2019-10-09
CN106558314A (zh) 2017-04-05
WO2017054494A1 (zh) 2017-04-06
US10283134B2 (en) 2019-05-07
EP3358567A4 (en) 2019-05-29
KR20180048786A (ko) 2018-05-10
EP3358567B1 (en) 2020-07-22
JP2018533294A (ja) 2018-11-08
US20180268833A1 (en) 2018-09-20

Similar Documents

Publication Publication Date Title
CN106558314B (zh) 一种混音处理方法和装置及设备
CN110827843B (zh) 音频处理方法、装置、存储介质及电子设备
US11462225B2 (en) Method for processing speech/audio signal and apparatus
CN112770062B (zh) 一种图像生成方法及装置
CN105027540A (zh) 回波抑制
CN113763977A (zh) 消除回声信号的方法、装置、计算设备和存储介质
CN110648680A (zh) 语音数据的处理方法、装置、电子设备及可读存储介质
CN103929692B (zh) 一种音频信息处理方法及电子设备
CN112750444A (zh) 混音方法、装置及电子设备
CN104851423B (zh) 一种声音信息处理方法及装置
CN114025235A (zh) 视频生成方法、装置、电子设备及存储介质
CN114333912B (zh) 语音激活检测方法、装置、电子设备和存储介质
CN112309418B (zh) 一种抑制风噪声的方法及装置
CN111124874A (zh) 调试网页的方法、调试服务器以及主控设备
CN112002339B (zh) 语音降噪方法和装置、计算机可读的存储介质及电子装置
JP6842497B2 (ja) 混合信号の雑音を低減するための方法及び装置
CN113362839A (zh) 音频数据处理方法、装置、计算机设备及存储介质
CN112634921B (zh) 一种语音处理方法、装置和存储介质
CN110366068B (zh) 音频调节方法、电子设备以及装置
CN111048107B (zh) 音频处理方法和装置
CN110931038B (zh) 一种语音增强方法、装置、设备及存储介质
CN115273872A (zh) 语音转换方法、装置、电子设备及存储介质
CN113707163A (zh) 语音处理方法及其装置和模型训练方法及其装置
CN117690443A (zh) 语音处理的方法及装置、电子设备、存储介质
CN114446295A (zh) 语音数据集生成方法、装置、设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information

Address after: 510000 Guangzhou City, Guangzhou, Guangdong, Whampoa Avenue, No. 315, self - made 1-17

Applicant after: Guangzhou KuGou Networks Co., Ltd.

Address before: 510665 Guangzhou City, Tianhe District Province branch Yun Yun Road, No. 16, building No. 1301, room 2

Applicant before: Guangzhou KuGou Networks Co., Ltd.

CB02 Change of applicant information
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant