CN113257257A - 多路语音信号的混音处理方法、装置、设备及存储介质 - Google Patents

多路语音信号的混音处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113257257A
CN113257257A CN202110795299.4A CN202110795299A CN113257257A CN 113257257 A CN113257257 A CN 113257257A CN 202110795299 A CN202110795299 A CN 202110795299A CN 113257257 A CN113257257 A CN 113257257A
Authority
CN
China
Prior art keywords
signal
voice signals
value
clamping
sum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110795299.4A
Other languages
English (en)
Other versions
CN113257257B (zh
Inventor
张旭东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Uniontech Software Technology Co Ltd
Original Assignee
Uniontech Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Uniontech Software Technology Co Ltd filed Critical Uniontech Software Technology Co Ltd
Priority to CN202110795299.4A priority Critical patent/CN113257257B/zh
Publication of CN113257257A publication Critical patent/CN113257257A/zh
Application granted granted Critical
Publication of CN113257257B publication Critical patent/CN113257257B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种多路语音信号的混音处理方法,包括步骤:获取多路语音信号混音后的和值,多路语音信号混音后的和值为多路语音信号的PCM值之和的最大值;当多路语音信号混音后的和值编码位数超过设定位数阈值时,计算第一比例因子;使用第一比例因子对多路语音信号的混音信号进行箝位处理,获取第一箝位信号;当第一箝位信号的编码位数超过设定位数阈值时,计算第二比例因子,使用第二比例因子对第一箝位信号进行箝位处理,直至多路语音信号的混音信号的编码位数低于设定位数阈值。本发明还一并公开了一种多路语音信号的混音处理装置,计算设备及存储介质。本发明能够保证多路语音混音后的通话质量,而且算法实现简单,具备更优的实时性要求。

Description

多路语音信号的混音处理方法、装置、设备及存储介质
技术领域
本发明涉及音频处理技术领域,尤其是一种多路语音信号的混音处理方法、装置、电子设备及存储介质。
背景技术
近年来,随着信息科技的发展逐渐成熟,计算设备所具备的处理能力也大幅提升,使得许多复杂的应用得以实现,其中之一便是多路音频信号的混音的相关技术。
音频混音的原理是量化的语音信号的叠加等价于空气中声波的叠加。现有技术中对混音的处理方法主要有以下急重,一是采用线性叠加求平均法,这种方法会导致音频的衰减过大,影响通话质量;二是采用归一化混音法,这种方法是将相同采样率的音频PCM信号直接相加,这会导致叠加后的PCM溢出问题,使高频部分发生峰值切割失真。
因此,需要一种操作方便、又能够保证混音后的通话质量的语音处理方案。
发明内容
为此,本发明提供了一种多路语音信号的混音处理方法、装置、电子设备及存储介质,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明的一个方面,提供了一种多路语音信号的混音处理方法,该方法适于采用自适应箝位法对多路视音频数据进行混音处理,该方法包括步骤:获取多路语音信号混音后的和值,所述多路语音信号混音后的和值为多路语音信号的PCM值之和的最大值;当所述多路语音信号混音后的和值编码位数超过设定位数阈值时,计算第一比例因子;使用所述第一比例因子对所述多路语音信号的混音信号进行箝位处理,获取第一箝位信号;当第一箝位信号的编码位数超过设定位数阈值时,计算第二比例因子,使用所述第二比例因子对所述第一箝位信号进行箝位处理,直至多路语音信号的混音信号的编码位数低于设定位数阈值。
可选地,在根据本发明的多路语音信号的混音处理方法中,所述获取多路语音信号混音后的和值的步骤包括:获取多路语音信号中每一路语音信号的PCM编码;依据多路语音信号中每一路语音信号的PCM编码,获取多路语音信号中每一路语音信号的PCM编码值;依据多路语音信号中每一路语音信号的PCM编码值,对多路语音信号中混音后的每一路语音信号的PCM编码值求和,获取多路语音信号混音后的和值。
可选地,在根据本发明的多路语音信号的混音处理方法中,设定位数阈值为16位编码值。
可选地,在根据本发明的多路语音信号的混音处理方法中,当所述多路语音信号混音后的和值编码位数超过设定位数阈值时,计算第一比例因子的步骤包括:获取16位PCM编码的最大正值;判断多路语音信号混音后的和值的编码是否超过16位编码值;如果否,则对多路语音信号混音后的和值进行16位PCM编码;如果是,则计算第一比例因子。
可选地,在根据本发明的多路语音信号的混音处理方法中,计算第一比例因子为:将所述16位PCM编码的最大正值除以所述多路语音信号混音后的和值。
可选地,在根据本发明的多路语音信号的混音处理方法中,16位PCM编码的最大正值为:0x7fff。
可选地,在根据本发明的多路语音信号的混音处理方法中,使用所述第一比例因子对所述多路语音信号的混音信号进行箝位处理,获取第一箝位信号的步骤包括:将所述多路语音信号的混音信号乘以所述第一比例因子;获取所述多路语音信号的混音信号与所述第一比例因子的乘积作为第一箝位信号。
可选地,在根据本发明的多路语音信号的混音处理方法中,当第一箝位信号的编码位数超过设定位数阈值时,计算第二比例因子,使用所述第二比例因子对所述第一箝位信号进行箝位处理,直至多路语音信号的混音信号的编码位数低于设定位数阈值的步骤包括:获取16位PCM编码的最大正值和第一箝位信号的最大值;判断第一箝位信号的最大值编码是否超过16位编码值;如果否,则对第一箝位信号进行16位PCM编码;如果是,则将所述16位PCM编码的最大正值除以所述第一箝位信号作为第二比例因子;将所述第一箝位信号与所述第二比例因子相乘输出结果的编码位数继续与设定位数阈值比较,直至多路语音信号的混音信号的编码位数低于设定位数阈值。
根据本发明的又一方面,公开了一种多路语音信号的混音处理装置,该装置适于采用自适应箝位法对多路视音频数据进行混音处理,该装置包括:
获取模块,用于获取多路语音信号混音后的和值,所述多路语音信号混音后的和值为多路语音信号的PCM值之和的最大值;
处理模块,用于当所述多路语音信号混音后的和值编码位数超过设定位数阈值时,计算第一比例因子;使用所述第一比例因子对所述多路语音信号的混音信号进行箝位处理,获取第一箝位信号;当第一箝位信号的编码位数超过设定位数阈值时,计算第二比例因子,使用所述第二比例因子对所述第一箝位信号进行箝位处理,直至多路语音信号的混音信号的编码位数低于设定位数阈值。
根据本发明的又一方面,提供了一种计算设备,包括:一个或多个处理器;和存储器;一个或多个程序,其中所述一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,所述一个或多个程序包括用于执行如上所述多路语音信号的混音处理方法中的任一方法的指令。
根据本发明的又一方面,提供了一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当计算设备执行时,使得计算设备执行如上所述多路语音信号的混音处理方法中的任一方法。
根据本发明的多路语音信号的混音处理方案,在多路语音信号混音后的和值超过设定位数阈值时,通过计算第一比例因子,将多路语音信号的混音信号进行箝位处理,获取第一箝位信号,在第一箝位信号超过设定位数阈值时,通过计算第二比例因子,将第一箝位信号进行箝位处理,直至多路语音信号的混音信号的编码位数低于设定位数阈值,能过实现多路语音混音后的通话质量,而且算法实现简单,复杂度低,具备更优的实时性要求。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的计算设备100的构造示意图;以及
图2示出了根据本发明一个实施例的多路语音信号的混音处理方法200的流程图;以及
图3示出了根据本发明一个实施例的多路语音信号的混音处理装置300的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1是示例计算设备100的框图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(µP)、微控制器(µC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作系统上利用程序数据124进行操作。在一些实施例中,计算设备100被配置为执行多路语音信号的混音处理方法200,该方法200能够根据目标语音数据的节奏对待处理语音数据进行变速处理,得到富有说唱音乐节奏感的语音数据,程序数据124中包含了用于执行该方法200的指令。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。在本实施例中,可以通过诸如语音输入设备实时获取待处理的语音数据。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。在一些实施例中,计算机可读介质中存储一个或多个程序,这一个或多个程序中包括执行某些方法的指令,如根据本发明的实施例,计算设备100通过所述指令来执行多路语音信号的混音处理方法200。
计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。
图2示出了根据本发明一个实施例的多路语音信号的混音处理方法200的流程图。如图2所示,该方法200方法适于采用自适应箝位法对多路视音频数据进行混音处理,方法200始于步骤S210,获取多路语音信号混音后的和值,所述多路语音信号混音后的和值为多路语音信号的PCM值之和的最大值。
具体的,由于接收的多路语音信号均为模拟信号,通过PCM调制之后,用二进制数值来对语音信号的模拟信号进行数字化处理,获取语音信号的数字信号,多路语音信号混音后,就是将每一路语音信号的PCM值进行加法、箝位灯运算,叠加成一路PCM信号,然后将一路PCM输出后,将数字信号转换成模拟信号以后,得到输出的声音信号,多路语音信号混音后的和值就是将多路语音信号进行模数转换以后的PCM值之和的最大值,由此可知,如果同时接收的语音信号路数越多,语音信号混音后的和值越大,如果不对多路语音信号的混音后信号进行处理,那么直接输出的混音信号将非常大,会影响人们正常的听觉效果。
根据本发明的实施方式,首先获取多路语音信号中每一路语音信号的PCM编码,通过对每一路语音信号进行PCM编码,获取每一路语音信号的数字量,以此来求取多路语音信号的PCM和值;再获取每一路语音信号的PCM编码以后,可以通过每一路语音信号的PCM编码而获取多路语音信号中每一路语音信号的PCM编码值;对于多路语音信号而言,其一个采样时间点上的PCM和值,就是对多路语音信号中混音后的每一路语音信号的PCM编码值求和,以获取多路语音信号混音后的和值。
依据PCM编码的规则,对音频信号的PCM编码一般为16位,那么,由于混音后的多路语音信号是通过将每一路语音信号的PCM编码值进行求和,因此,如果将求和之后的多路语音信号按照原有的PCM编码规则进行编码,那么,这个编码长度可能会大于16位,此时将导致语音编码出现混乱,或者导致语音信号无法解码,此时,需要对多路语音信号的PCM值进行处理,以使输出的PCM信号编码不大于16位。
通过步骤S220,当所述多路语音信号混音后的和值编码位数超过设定位数阈值时,计算第一比例因子。具体的,如果所述多路语音信号混音后的和值编码位数超过设定位数阈值,说明按照原有的PCM编码规则对多路语音信号混音后进行编码,其PCM编码位数要超过16位,此时,如果继续按照原有的编码规则进行编码,那么终端对混音信号进行解码时会出现缺帧、失真或无法解码的问题,这时候就需要对多路语音信号的混音信号进行处理,此时,第一比例因子就是对多路语音信号混音后信号进行处理的参数。在本申请的实施例中,设定位数阈值为16位编码值。
具体的,所述多路语音信号混音后的和值编码位数超过设定位数阈值时,计算第一比例因子的步骤包括:
获取16位PCM编码的最大正值;具体的,16位PCM编码的最大正值就是语音编码的最大值,如果语音编码超过该最大正值,则语音解码时会出现错误或失真,如果语音编码不超过该最大正值,则语音解码时不会出现错误或失真,通过获取16位PCM编码的最大正值,就可以判断多路语音信号混音后的和值进行PCM编码时,是否能够不失真的进行解码。
判断多路语音信号混音后的和值的编码是否超过16位编码值;如果否,则对多路语音信号混音后的和值进行16位PCM编码;如果是,则计算第一比例因子。具体的,如果多路语音信号混音后的和值的编码超过16位编码值,则需要将多路语音信号混音后的和值进行处理,确保混音后的语音信号能够正常进行编解码,而对多路语音信号的混音信号进行处理的参数就是第一比例因子。
具体的,所述计算第一比例因子为:将所述16位PCM编码的最大正值除以所述多路语音信号混音后的和值。所述16位PCM编码的最大正值为:0x7fff。由此可知,第一比例因子的值是小于等于1的,在初始化时,如果多路语音信号混音后的和值的编码不超过16位编码值,可以将第一比例因子设定为1,只有在判断到多路语音信号混音后的和值的编码超过16位编码值时,才进行第一比例因子的计算。
通过步骤S230,使用所述第一比例因子对所述多路语音信号的混音信号进行箝位处理,获取第一箝位信号。具体的,对多路语音信号的混音信号进行箝位处理,就是在多路语音信号混音后的和值超过所述16位PCM编码的最大正值时,将多路语音信号混音后的和值处理成低于所述16位PCM编码的最大正值,处理后的多路语音信号混音后的和值就是第一箝位信号。
具体的,在本申请的一个实施例中,所述使用所述第一比例因子对所述多路语音信号的混音信号进行箝位处理,获取第一箝位信号的步骤包括:
将所述多路语音信号的混音信号乘以所述第一比例因子;获取所述多路语音信号的混音信号与所述第一比例因子的乘积作为第一箝位信号。
具体的,比如,16位PCM编码的最大正值为:0x7fff,多路语音信号混音后的和值为1x0000,即16位PCM编码的最大正值为32767,多路语音信号混音后的和值为32768,由于多路语音信号混音后的和值超过16位PCM编码的最大正值,此时需要计算第一比例因子,由第一比例因子的计算公式得:第一比例因子为32767/32768,此时第一箝位信号就是多路语音信号的混音信号乘以第一比例因子而得。
通过步骤S240,当第一箝位信号的编码位数超过设定位数阈值时,计算第二比例因子,使用所述第二比例因子对所述第一箝位信号进行箝位处理,直至多路语音信号的混音信号的编码位数低于设定位数阈值。
具体的,在实际的应用中,对多路语音信号的混音信号经过第一比例因子处理后,可能对于当前的混音信号而言,能够满足第一箝位信号的PCM编码值不大于16位PCM编码的最大正值,第一箝位信号能够正常传输,但是,如果原始多路语音信号中又增加了一路或多路语音信号,那么多路语音信号混音后的和值将变大,此时再经过第一比例因子处理多路语音信号的混音信号而得到的第一箝位信号的PCM编码值也将大于16位PCM编码的最大正值,此时,还需要继续对第一箝位信号进行箝位处理,以使处理后的diyi箝位信号的PCM编码值不大于16位PCM编码的最大正值。
具体的,所述当第一箝位信号的编码位数超过设定位数阈值时,计算第二比例因子,使用所述第二比例因子对所述第一箝位信号进行箝位处理,直至多路语音信号的混音信号的编码位数低于设定位数阈值的步骤包括:
获取16位PCM编码的最大正值和第一箝位信号的最大值;
判断第一箝位信号的最大值编码是否超过16位编码值;
如果否,则对第一箝位信号进行16位PCM编码;
如果是,则将所述16位PCM编码的最大正值除以所述第一箝位信号作为第二比例因子;
将所述第一箝位信号与所述第二比例因子相乘输出结果的编码位数继续与设定位数阈值比较,直至多路语音信号的混音信号的编码位数低于设定位数阈值。
特别的,随着多路音频信号的混音信号的箝位次数越来越多,多路音频信号经过最终箝位后的混音信号相对于原始的多路音频信号的和值也越来越小,多路音频信号的衰减也越来越大,当多路音频信号衰减到一定程度之后,如果减少音频信号的路数,此时由于多路音频信号混音后的和值变小,但是如果衰减的参数不变,那么最终输出的音频信号变得非常小,甚至听不见声音,因此,本申请的上述方法对于增加混音路数的多路音频信号是适用的。如果对于减少混音路数的多路音频信号,则使用上述方法的逆向处理。具体的,比如,原始多路音频信号的路数为1路,信号PCM编码为H,第一比例因子为a1,后来多路音频信号的路数变为2路,此时的比例因子为a2,依次将多路音频信号的路数变为N路,对应的比例因子为An;此时,最终输出的音频信号相对于原始的多路音频信号为:H*a1*a2*……*aN;如果多路音频信号的路数减少一路,此时多路音频信号的路数变为N-1路,那么此时最终输出的音频信号相对于原始的多路音频信号为:H*a1*a2*……*aN-1;但是,在具体的实施过程中,由于不能使输出音频信号的声音变化太大,一般会采取一个合适的步长来调整比例因子增大的速度。根据本发明的一个实施例,增大的步长可实现为每0.1秒增大0.1。随着多路音频路数的减少,最终的比例因子将变成1,此时将不能在增加比例因子的大小。
具体的,在实际的应用中,为了提高多路音频信号的混音处理效率,预先把比例因子做成一张表,通过查表得方法来获取比例因子。
在实际的应用中,可以使用webrtc函数来实现跨平台的终端设备音频信号采集,webrtc函数可同时支持Android、IOS、PC等多种设备,RecordedDataIsAvailable该函数是来自于webrtc中的一个音频采样回调。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种多路语音信号的混音处理装置300,所述装置300包括:获取模块、处理模块。
获取模块,用于获取多路语音信号混音后的和值,所述多路语音信号混音后的和值为多路语音信号的PCM值之和的最大值;
处理模块,用于当所述多路语音信号混音后的和值编码位数超过设定位数阈值时,计算第一比例因子;使用所述第一比例因子对所述多路语音信号的混音信号进行箝位处理,获取第一箝位信号;当第一箝位信号的编码位数超过设定位数阈值时,计算第二比例因子,使用所述第二比例因子对所述第一箝位信号进行箝位处理,直至多路语音信号的混音信号的编码位数低于设定位数阈值。
具体的,在本申请的另一个实施例中,所述获取模块用于获取多路语音信号中每一路语音信号的PCM编码;依据多路语音信号中每一路语音信号的PCM编码,获取多路语音信号中每一路语音信号的PCM编码值;依据多路语音信号中每一路语音信号的PCM编码值,对多路语音信号中混音后的每一路语音信号的PCM编码值求和,获取多路语音信号混音后的和值
具体的,在本申请的另一个实施例中,所述处理模块用于获取16位PCM编码的最大正值;判断多路语音信号混音后的和值的编码是否超过16位编码值;如果否,则对多路语音信号混音后的和值进行16位PCM编码;如果是,则计算第一比例因子。
具体的,在本申请的另一个实施例中,所述处理模块用于将所述多路语音信号的混音信号乘以所述第一比例因子;获取所述多路语音信号的混音信号与所述第一比例因子的乘积作为第一箝位信号。
具体的,在本申请的另一个实施例中,所述处理模块用于获取16位PCM编码的最大正值和第一箝位信号的最大值;判断第一箝位信号的最大值编码是否超过16位编码值;如果否,则对第一箝位信号进行16位PCM编码;如果是,则将所述16位PCM编码的最大正值除以所述第一箝位信号作为第二比例因子;将所述第一箝位信号与所述第二比例因子相乘输出结果的编码位数继续与设定位数阈值比较,直至多路语音信号的混音信号的编码位数低于设定位数阈值。
应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
A8、如A3所述的方法,其中,所述当第一箝位信号的编码位数超过设定位数阈值时,计算第二比例因子,使用所述第二比例因子对所述第一箝位信号进行箝位处理,直至多路语音信号的混音信号的编码位数低于设定位数阈值的步骤包括:
获取16位PCM编码的最大正值和第一箝位信号的最大值;
判断第一箝位信号的最大值编码是否超过16位编码值;
如果否,则对第一箝位信号进行16位PCM编码;
如果是,则将所述16位PCM编码的最大正值除以所述第一箝位信号作为第二比例因子;
将所述第一箝位信号与所述第二比例因子相乘输出结果的编码位数继续与设定位数阈值比较,直至多路语音信号的混音信号的编码位数低于设定位数阈值。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种多路语音信号的混音处理方法,所述方法适于采用自适应箝位法对多路视音频数据进行混音处理,所述方法包括步骤:
获取多路语音信号混音后的和值,所述多路语音信号混音后的和值为多路语音信号的PCM值之和的最大值;
当所述多路语音信号混音后的和值编码位数超过设定位数阈值时,计算第一比例因子;
使用所述第一比例因子对所述多路语音信号的混音信号进行箝位处理,获取第一箝位信号;
当第一箝位信号的编码位数超过设定位数阈值时,计算第二比例因子,使用所述第二比例因子对所述第一箝位信号进行箝位处理,直至多路语音信号的混音信号的编码位数低于设定位数阈值。
2.如权利要求1所述的方法,其中,所述获取多路语音信号混音后的和值的步骤包括:
获取多路语音信号中每一路语音信号的PCM编码;
依据多路语音信号中每一路语音信号的PCM编码,获取多路语音信号中每一路语音信号的PCM编码值;
依据多路语音信号中每一路语音信号的PCM编码值,对多路语音信号中混音后的每一路语音信号的PCM编码值求和,获取多路语音信号混音后的和值。
3.如权利要求1所述的方法,其中,所述设定位数阈值为16位编码值。
4.如权利要求3所述的方法,其中,所述当所述多路语音信号混音后的和值编码位数超过设定位数阈值时,计算第一比例因子的步骤包括:
获取16位PCM编码的最大正值;
判断多路语音信号混音后的和值的编码是否超过16位编码值;
如果否,则对多路语音信号混音后的和值进行16位PCM编码;
如果是,则计算第一比例因子。
5.如权利要求4所述的方法,其中,所述计算第一比例因子为:将所述16位PCM编码的最大正值除以所述多路语音信号混音后的和值。
6.如权利要求4所述的方法,其中,所述16位PCM编码的最大正值为:0x7fff。
7.如权利要求1所述的方法,其中,所述使用所述第一比例因子对所述多路语音信号的混音信号进行箝位处理,获取第一箝位信号的步骤包括:
将所述多路语音信号的混音信号乘以所述第一比例因子;
获取所述多路语音信号的混音信号与所述第一比例因子的乘积作为第一箝位信号。
8.一种多路语音信号的混音处理装置,所述装置适于采用自适应箝位法对多路视音频数据进行混音处理,所述装置包括:
获取模块,用于获取多路语音信号混音后的和值,所述多路语音信号混音后的和值为多路语音信号的PCM值之和的最大值;
处理模块,用于当所述多路语音信号混音后的和值编码位数超过设定位数阈值时,计算第一比例因子;使用所述第一比例因子对所述多路语音信号的混音信号进行箝位处理,获取第一箝位信号;当第一箝位信号的编码位数超过设定位数阈值时,计算第二比例因子,使用所述第二比例因子对所述第一箝位信号进行箝位处理,直至多路语音信号的混音信号的编码位数低于设定位数阈值。
9.一种计算设备,包括:
一个或多个处理器;和
存储器;
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-7所述的方法中的任一方法的指令。
10.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当计算设备执行时,使得所述计算设备执行根据权利要求1-7所述的方法中的任一方法。
CN202110795299.4A 2021-07-14 2021-07-14 多路语音信号的混音处理方法、装置、设备及存储介质 Active CN113257257B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110795299.4A CN113257257B (zh) 2021-07-14 2021-07-14 多路语音信号的混音处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110795299.4A CN113257257B (zh) 2021-07-14 2021-07-14 多路语音信号的混音处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113257257A true CN113257257A (zh) 2021-08-13
CN113257257B CN113257257B (zh) 2021-11-09

Family

ID=77191286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110795299.4A Active CN113257257B (zh) 2021-07-14 2021-07-14 多路语音信号的混音处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113257257B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114285830A (zh) * 2021-12-21 2022-04-05 北京百度网讯科技有限公司 语音信号处理方法、装置、电子设备及可读存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1990002402A1 (en) * 1988-08-24 1990-03-08 Integrated Applications, Inc. Training method and apparatus with audio and digital signals recording and play back
US20020099458A1 (en) * 2000-12-06 2002-07-25 Rudolph Eric H. Methods and systems for mixing digital audio signals
CN102005206A (zh) * 2010-11-16 2011-04-06 上海华平信息技术股份有限公司 多路音频的混音方法
US20120007941A1 (en) * 2010-07-09 2012-01-12 Meyer Arndt M Systems and methods of providing video features in a standard telephone system
CN102543087A (zh) * 2011-12-28 2012-07-04 中兴长天信息技术(南昌)有限公司 一种应用于多点移动音频通信系统的混音方法
CN103021419A (zh) * 2012-12-26 2013-04-03 大唐移动通信设备有限公司 一种混合音频的处理方法及装置
CN104167210A (zh) * 2014-08-21 2014-11-26 华侨大学 一种轻量级的多方会议混音方法和装置
CN104822108A (zh) * 2015-03-13 2015-08-05 广州市保伦电子有限公司 全数字会议音频混音装置及方法
CN105719653A (zh) * 2016-01-28 2016-06-29 腾讯科技(深圳)有限公司 一种混音处理方法和装置
CN106375905A (zh) * 2016-11-30 2017-02-01 北京酷我科技有限公司 一种多路音频的合成和调节的方法
CN106558314A (zh) * 2015-09-29 2017-04-05 广州酷狗计算机科技有限公司 一种混音处理方法和装置及设备
CN111583942A (zh) * 2020-05-26 2020-08-25 腾讯科技(深圳)有限公司 语音会话的编码码率控制方法、装置和计算机设备
CN111833892A (zh) * 2019-04-22 2020-10-27 浙江宇视科技有限公司 音视频数据处理方法及装置
CN112951251A (zh) * 2021-05-13 2021-06-11 北京百瑞互联技术有限公司 一种lc3音频混合方法、装置及存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1990002402A1 (en) * 1988-08-24 1990-03-08 Integrated Applications, Inc. Training method and apparatus with audio and digital signals recording and play back
US20020099458A1 (en) * 2000-12-06 2002-07-25 Rudolph Eric H. Methods and systems for mixing digital audio signals
US20120007941A1 (en) * 2010-07-09 2012-01-12 Meyer Arndt M Systems and methods of providing video features in a standard telephone system
CN102005206A (zh) * 2010-11-16 2011-04-06 上海华平信息技术股份有限公司 多路音频的混音方法
CN102543087A (zh) * 2011-12-28 2012-07-04 中兴长天信息技术(南昌)有限公司 一种应用于多点移动音频通信系统的混音方法
CN103021419A (zh) * 2012-12-26 2013-04-03 大唐移动通信设备有限公司 一种混合音频的处理方法及装置
CN104167210A (zh) * 2014-08-21 2014-11-26 华侨大学 一种轻量级的多方会议混音方法和装置
CN104822108A (zh) * 2015-03-13 2015-08-05 广州市保伦电子有限公司 全数字会议音频混音装置及方法
CN106558314A (zh) * 2015-09-29 2017-04-05 广州酷狗计算机科技有限公司 一种混音处理方法和装置及设备
CN105719653A (zh) * 2016-01-28 2016-06-29 腾讯科技(深圳)有限公司 一种混音处理方法和装置
CN106375905A (zh) * 2016-11-30 2017-02-01 北京酷我科技有限公司 一种多路音频的合成和调节的方法
CN111833892A (zh) * 2019-04-22 2020-10-27 浙江宇视科技有限公司 音视频数据处理方法及装置
CN111583942A (zh) * 2020-05-26 2020-08-25 腾讯科技(深圳)有限公司 语音会话的编码码率控制方法、装置和计算机设备
CN112951251A (zh) * 2021-05-13 2021-06-11 北京百瑞互联技术有限公司 一种lc3音频混合方法、装置及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ARCHONTIS POLITIS ET AL: "Enhancement of ambisonic binaural reproduction using directional audio coding with optimal adaptive mixing", 《2017 IEEE WORKSHOP ON APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS (WASPAA)》 *
姜健: "基于差别化衰减的混音信号溢出自适应处理算法", 《中北大学学报(自然科学版)》 *
王文林等: "多媒体会议中新型快速实时混音算法", 《电子与信息学报》 *
马旋,王衡,汪国平等: "视频会议中混音后溢出问题的研究及解决方法", 《第 13 届全国多媒体学术会议论文集》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114285830A (zh) * 2021-12-21 2022-04-05 北京百度网讯科技有限公司 语音信号处理方法、装置、电子设备及可读存储介质
CN114285830B (zh) * 2021-12-21 2024-05-24 北京百度网讯科技有限公司 语音信号处理方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN113257257B (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
CN109361495B (zh) 一种极化码构造方法、装置、电子设备及可读存储介质
JPH08316789A (ja) 多重通信タスクを実行する集積回路上で用いられるdspコプロセッサ
US9311920B2 (en) Voice processing method, apparatus, and system
CN113257257B (zh) 多路语音信号的混音处理方法、装置、设备及存储介质
JP2002073066A (ja) 雑音抑圧装置及び雑音抑圧方法
CN110379414B (zh) 声学模型增强训练方法、装置、可读存储介质及计算设备
US9245529B2 (en) Adaptive encoding of a digital signal with one or more missing values
KR101279857B1 (ko) 적응적 멀티 레이트 코덱 모드 디코딩 방법 및 장치
CN114550732B (zh) 一种高频音频信号的编解码方法和相关装置
WO2009109120A1 (zh) 一种音频信号的编解码方法和装置
US8626518B2 (en) Multi-channel signal encoding and decoding method, apparatus, and system
US20080130793A1 (en) Systems and methods for dynamic normalization to reduce loss in precision for low-level signals
CN104269177A (zh) 一种语音处理方法及电子设备
CN109087654A (zh) 对高阶高保真立体声信号应用动态范围压缩的方法和设备
CN110363291B (zh) 神经网络的运算方法、装置、计算机设备和存储介质
JP2004304620A (ja) ターボ復号器及びターボ復号方法
CN112995425B (zh) 一种等响度混音方法及装置
US10340946B2 (en) Encoders, decoders, and methods
TW200906199A (en) Audio encoding method with function of accelerating a quantization iterative loop process
CN111933162A (zh) 一种优化lc3编码器残差编码和噪声估计编码的方法
US20140370858A1 (en) Call device and voice modification method
CN114449413B (zh) 音频信号的响度控制方法、装置、设备及存储介质
JP2000347679A (ja) オーディオ符号化装置及びオーディオ符号化方法
CN106464701A (zh) 一种数据处理设备和方法
CN111131839B (zh) 数据处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant