CN113990338A - 一种音频处理方法及装置 - Google Patents
一种音频处理方法及装置 Download PDFInfo
- Publication number
- CN113990338A CN113990338A CN202111159614.0A CN202111159614A CN113990338A CN 113990338 A CN113990338 A CN 113990338A CN 202111159614 A CN202111159614 A CN 202111159614A CN 113990338 A CN113990338 A CN 113990338A
- Authority
- CN
- China
- Prior art keywords
- audio data
- parameter
- target
- target audio
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 79
- 238000000034 method Methods 0.000 claims abstract description 50
- 238000001514 detection method Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 description 17
- 230000009467 reduction Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了一种音频处理方法及装置,所述方法包括:首先对获得的第一音频数据进行第一处理,得到第一目标音频数据和第二目标音频数据,第一目标音频数据和所述第二目标音频数据至少具有时序上的关联性;之后基于所述第一目标音频数据和/或所述第二目标音频数据的属性参数确定调整参数;最后至少基于所述调整参数对所述第一音频数据进行第二处理,得到待输出的第二音频数据。由此能够对第一音频数据的属性参数进行自动调节,从而使得待输出的第二音频数据中第一目标音频数据的属性参数保持一致,解决了相关技术由于用户与音频采集组件的距离差异或者用户说话音量不同导致的通话对方听到的声音忽大忽小的问题,进而提高了通话或会议的质量。
Description
技术领域
本申请涉及通信技术领域,尤其涉及一种音频处理方法及装置。
背景技术
随着移动互联网的快速发展,人们对语音通话提出了更高的要求,例如语音信号中音质的优劣等。影响语音信号中音质的主要因素有:语音信号音量的大小、信噪比、瞬态特性、立体声分离度等。
例如,在线会议或者网络通话等场景中,当用户在电脑等网络通话设备前移动位置,由于用户与网络通话设备之间距离的差异或者用户说话音量的不同,会导致麦克风采集到语音信号的幅度大小不一,从而使得通话对方听到的声音忽大忽小,进而影响用户的通话体验。
发明内容
相关技术通话或会议本申请实施例第一方面,提供一种音频处理方法,所述方法包括:对获得的第一音频数据进行第一处理,得到第一目标音频数据和第二目标音频数据,所述第一目标音频数据与所述第二目标音频数据至少具有时序上的关联性;基于所述第一目标音频数据和/或所述第二目标音频数据的属性参数确定调整参数;至少基于所述调整参数对所述第一音频数据进行第二处理,得到待输出的第二音频数据。
可选的,所述基于所述第一目标音频数据的属性参数确定调整参数,包括:获得预设的第一标准参数,基于所述第一目标音频数据对应所述第一标准参数的目标属性参数与所述第一标准参数之间的差异确定所述调整参数;或,如果所述第一目标音频数据来自第一对象,获得对应所述第一对象的第二标准参数,基于所述第一目标音频数据对应所述第二标准参数的目标属性参数与所述第二标准参数之间的差异确定所述调整参数;或,如果所述第一目标音频数据来自多个对象,获得对应所述多个对象的第三标准参数,基于所述第一目标音频数据对应所述第三标准参数的目标属性参数与所述第三标准参数之间的差异确定所述调整参数。
可选的,获得对应所述多个对象的第三标准参数,包括:获得所述多个对象中每个对象对应的标准参数,将其中符合预定条件的标准参数确定为所述第三标准参数;或,确定所述多个对象中与目标接收对象具有第一关联关系的第二对象,获得对应所述第二对象的第三标准参数。。
可选的,所述方法还包括:对音频采集组件获得的第三音频数据进行第三处理,得到所述第一音频数据,其中,所述第一音频数据的数据量小于所述第三音频数据。
可选的,所述基于所述第二目标音频数据的属性参数确定调整参数,包括:获得所述第二目标音频数据的第一属性参数,将所述第一属性参数确定为所述调整参数;或,获得所述第三音频数据中对应所述第二目标音频数据的第二属性参数,基于所述第二属性参数与所述第一属性参数之间的差异确定所述调整参数。
可选的,所述基于所述第一目标音频数据和所述第二目标音频数据的属性参数确定调整参数,包括:基于对应时序的第二目标音频数据的属性参数对所述第一目标音频数据对应的标准参数进行调整,得到目标标准参数,基于所述第一目标音频数据对应所述目标标准参数的目标属性参数与所述目标标准参数之间的差异确定所述调整参数。
可选的,所述方法还包括:获得目标对象与音频采集组件的相对位置信息,基于所述相对位置确定所述调整参数或更新所述调整参数。
可选的,所述对获得的第一音频数据进行第一处理,得到第一目标音频数据和第二目标音频数据,包括:对获得第一音频数据的属性参数进行检测;获取第一目标音频数据的标准属性参数范围;基于检测结果和所述第一音频数据的标准属性参数范围,得到第一目标音频数据和第二目标音频数据;或者,获取第二目标音频数据的标准属性参数范围;基于检测结果和所述第二音频数据的标准属性参数范围,得到第一目标音频数据和第二目标音频数据。
可选的,所述至少基于所述调整参数对所述第一音频数据进行第二处理,得到待输出的第二音频数据,包括:基于所述调整参数对所述第一音频数据中的第一目标音频数据进行增益处理,得到待输出的第二音频数据。
为实现上述目的,根据本申请实施例第二方面,还提供一种音频处理装置,所述装置包括:第一处理模块,用于对获得的第一音频数据进行第一处理,得到第一目标音频数据和第二目标音频数据,所述第一目标音频数据与所述第二目标音频数据至少具有时序上的关联性;确定模块,用于基于所述第一目标音频数据和/或所述第二目标音频数据的属性参数确定调整参数;第二处理模块,用于至少基于所述调整参数对所述第一音频数据进行第二处理,得到待输出的第二音频数据。
为实现上述目的,根据本申请实施例第三方面,还提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一方面所述的音频处理方法。
与相关技术相比,本申请实施例提供的一种音频处理方法及装置,所述方法包括:首先对获得的第一音频数据进行第一处理,得到第一目标音频数据和第二目标音频数据,所述第一目标音频数据和所述第二目标音频数据至少具有时序上的关联性;之后基于所述第一目标音频数据和/或所述第二目标音频数据的属性参数确定调整参数;最后至少基于所述调整参数对所述第一音频数据进行第二处理,得到待输出的第二音频数据。由此能够对第一音频数据的属性参数进行自动调节,从而使得待输出的第二音频数据中第一目标音频数据的属性参数保持一致,解决了相关技术中由于用户与音频采集组件或配置所述音频采集组件的电子设备的距离差异或者用户说话音量不同导致的通话对方听到的声音忽大忽小的问题,进而提高了通话或会议的质量。
需要理解的是,本申请的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本申请的其他实施方式还能够实现上面未提到的有益效果。
附图说明
附图用于更好地理解本申请,不构成对本申请的不当限定。其中在附图中,相同或对应的标号表示相同或对应的部分。
图1为本申请一实施例音频处理方法的示意性流程图;
图2为本申请一实施例中基于第一目标音频数据的属性参数确定调整参数的示意性流程图;
图3为本申请一实施例中基于第二目标音频数据的属性参数确定调整参数的示意性流程图;
图4为本申请一实施例中基于第一目标音频数据和第二目标音频数据的属性参数确定调整参数的示意性流程图;
图5为本申请一实施例音频处理过程示意图;
图6为本申请另一实施例音频处理方法的示意性流程图;
图7为本申请一实施例音频处理装置示意性框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如图1所示,本申请一实施例音频处理方法的示意性流程图。一种音频处理方法;该方法至少包括如下操作流程:S101,对获得的第一音频数据进行第一处理,得到第一目标音频数据和第二目标音频数据,第一目标音频数据与第二目标音频数据至少具有时序上的关联性;S102,基于第一目标音频数据和/或第二目标音频数据的属性参数确定调整参数;S103,至少基于调整参数对第一音频数据进行第二处理,得到待输出的第二音频数据。
在S101中,第一音频数据是指具有噪声的音频数据;通常第一音频数据包括通话语音和噪声。第一处理可以理解成是识别处理。具体地,对获得第一音频数据的属性参数进行检测;基于检测结果,从第一音频数据中选取满足预设条件的音频数据,得到第一目标音频数据;将不满足预设条件的音频数据确定为第二目标音频数据。属性参数可以是音频的频率值、波形、幅度值,或者能够区别不同音频的其他属性参数中的一种或多种。在这里,对于其他属性参数不作一一列举了。
预设条件可以是基于音频的一个参数或者多个参数进行设定,例如预设条件可以是人声频率标准范围;或者噪声波的波形范围以外的波形;或者人声幅度标准范围。预设条件还可以是音频的频率满足人声频率标准范围且音频的幅度满足人声幅度标准范围。
在优选的实施例中,对获得第一音频数据的属性参数进行检测;获取第一目标音频数据的标准属性参数范围;基于检测结果和所述第一音频数据的标准属性参数范围,得到第一目标音频数据和第二目标音频数据;或者,获取第二目标音频数据的标准属性参数范围;基于检测结果和所述第二音频数据的标准属性参数范围,得到第一目标音频数据和第二目标音频数据。更具体地,对获得第一音频数据的幅度值进行检测;获取人声标准幅度值,这里的人声标准幅度值是预先设定好的;之后基于检测结果,从第一音频数据中选取满足人声标准幅度值的第一音频,得到第一目标音频数据;将第一音频数据中除第一目标音频数据的第一音频作为第二目标音频,得到第二目标音频数据。或者,对获得第一音频数据进行波形检测;获取噪声标准波形范围,这里的噪声标准波形范围是预先存储在数据库中的;之后基于检测结果,从第一音频数据中选取满足噪声标准波形的第一音频,得到第二目标音频数据;将第一音频数据中除第二目标音频数据的第一音频作为第一目标音频,得到第一目标音频数据。
由此,在对第一音频数据进行属性参数检测后能够基于检测结果和人声的标准属性参数或者噪声的标准属性参数,对第一音频数据中的第一目标音频数据和第二目标音频数据进行有效识别,提高了识别的准确率和速率。
在S102,在这里,可以基于第一目标音频数据的属性参数确定调整参数;也可以基于第二目标音频数据的属性参数确定调整参数;还可以是基于第一目标音频数据和第二目标音频数据的属性参数确定调整参数。这里对于确定过程不作太多限定,例如基于预设第一标准参数,以及第一目标音频数据对应第一标准参数的目标属性参数之间的差异确定调整参数;或者,获得第二目标音频数据的第一属性参数,基于第二目标音频数据的第一属性参数确定调整参数;或者,基于对应时序的第二目标音频数据的属性参数对第一目标音频数据对应的预设第一标准参数进行调整,得到目标标准参数,基于第一目标音频数据对应目标标准参数的目标属性参数与目标标准参数之间的差异确定调整参数。
在S103中,若调整参数是基于第一目标音频数据获取的,则可以基于调整参数对第一音频数据中的第一目标音频数据进行增益处理,得到待输出的第二音频数据;若调整参数是基于第二目标音频数据获取的,则可以基于调整参数对第一音频数据中第一目标音频数据进行增益处理,得到待输出的第二音频数据;若调整参数是基于第一目标音频数据和第二目标音频数据获取的,则可以基于调整参数对第一音频数据中的第一目标音频数据进行增益处理,并基于调整参数对第二目标音频数据进行消减处理,得到待输出的第二音频数据。在这里,针对基于调整参数对第一音频数据进行增益处理和消减处理的具体过程不作太多限定了,可以基于相关技术实现。
需要说明的是,第一音频数据可以是某一时刻的音频,还可以是某一时段的音频。
由此,通过利用调整参数对第一音频数据进行增益处理,从而能够抑制第一音频数据中的噪声,提高了通话或会议的质量。
本申请实施例首先对获得的第一音频数据进行第一处理,得到第一目标音频数据和第二目标音频数据,第一目标音频数据和第二目标音频数据至少具有时序上的关联性;之后基于第一目标音频数据和/或第二目标音频数据的属性参数确定调整参数;最后至少基于调整参数对第一音频数据进行第二处理,得到待输出的第二音频数据。由此能够对第一音频数据的属性参数进行自动调节,从而使得待输出的第二音频数据中第一目标音频数据的属性参数保持一致,解决了相关技术中由于用户与音频采集组件的距离差异或者用户说话音量不同导致的通话对方听到的声音忽大忽小的问题,进而提高了通话或会议的质量。
在优选的实施例中,还可以基于目标对象与音频采集组件的相对位置信息,更新调整参数。相对位置信息包括:变化趋势,远离或者靠近。
如图2所示,本申请一实施例中基于第一目标音频数据的属性参数确定调整参数的示意性流程图。本实施例是在前述实施例的基础上进一步优化得到的。基于第一目标音频数据的属性参数确定调整参数,该方法至少包括如下操作流程:S201,获得预设的第一标准参数;S202,基于第一目标音频数据对应第一标准参数的目标属性参数与所述第一标准参数之间的差异确定所述调整参数。
具体地,当第一目标音频数据是特定时段的目标音频数据时,针对第一目标音频数据中的任一第一目标音频:基于第一目标音频对应的第一标准参数的目标属性参数与第一标准参数之间的差异确定第一目标音频的调整参数;例如调整参数为第一目标音频的权重。
例如,预设的第一标准参数为预设幅度值;针对第一目标音频数据中任一第一目标音频:计算第一目标音频的目标幅度值与预设幅度值之间的差值,将差值确定为调整参数。当差值大于0时,则将第一目标音频的目标幅度值降低至预设幅度值;当差值小于0时,则将第一目标音频的目标幅度值增加至预设幅度值,从而实现对第一音频数据的中第一目标音频的属性参数进行有效调整,使得第一目标音频数据的幅度值保持一致。
本实施例通过利用第一目标音频数据的第一标准参数及每个第一目标音频对应的目标属性参数确定每个第一目标音频对应的调整参数,由此能够基于不同的调整参数对第一目标音频数据中对应的第一目标音频进行有效调整,从而使得待输出的第二音频数据中第一目标音频数据的属性参数保持一致,解决了相关技术中由于用户与音频采集组件的距离差异或者用户说话音量不同导致的通话对方听到的声音忽大忽小的问题,进而提高了通话或会议的体验性。
本申请还提供一种基于第一目标音频数据的属性参数确定调整参数的方法。该实施例是在前述实施例的基础上进一步优化得到的。基于第一目标音频数据的属性参数确定调整参数,该方法至少包括如下操作流程:S210,判断第一目标音频数据是否来自同一对象,若是,则执行S211步骤;若否,则执行S213步骤;S211,获得对应第一对象的第二标准参数;S212,基于第一目标音频数据对应第二标准参数的目标属性参数与第二标准参数之间的差异确定调整参数;S213,获得对应多个对象的第三标准参数;S214,基于第一目标音频数据对应第三标准参数的目标属性参数与第三标准参数之间的差异确定调整参数。
其中,S212以及S214的具体实现过程与图2所示实施例中S202的具体实现过程相类似,这里不再赘述。
在S210中,获取第一目标音频数据中每一目标音频对应的声纹,得到若干声纹;判断若干声纹是否属于同一声纹,若是,则确定第一目标音频数据来自同一对象;若否,则确定第一目标音频数据来自多个对象。
在S211和S212中,适用于环境中只有一人通话的场景。第二标准参数可以是预先设定的音频幅度值。
在S213和S214中,适用于环境中有多人通话的场景。获得多个对象中每个对象对应的标准参数,将其中符合预定条件的标准参数确定为第三标准参数;或,确定多个对象中与目标接收对象具有第一关联关系的第二对象,获得对应第二对象的第三标准参数。例如,确定多个对象中每个对象对应的标准幅度值,得到多个标准幅度值;从多个标准幅度值中选取幅度值最大的标准幅度值作为第三标准幅度值。再例如,获取多个对象中每个对象对应的标准声纹,得到多个标准声纹;从多个标准声纹中选取与目标接收对象具有第一关联关系的标准声纹,并将所选取的标准声纹对应的对象确定为第二对象,之后将第二对象的平均幅度值、最高幅度值或者最低幅度值作为第三标准幅度值。
本实施例首先是基于第一目标音频数据的声纹判断第一目标音频数据是否来自同一对象,之后基于判断结果确定标准参数,并基于标准参数和第一目标音频数据的目标属性参数之间的差异确定调整参数,从而能够根据不同的场景确定调整参数,提高了调整参数的准确性,有利于第一音频数据的平滑处理。
如图3所示,本申请一实施例中基于第二目标音频数据的属性参数确定调整参数的示意性流程图。本实施例是在前述实施例的基础上进一步优化得到的。基于第二目标音频数据的属性参数确定调整参数,该方法至少包括如下操作流程:S301,获得第二目标音频数据的第一属性参数,S302,将第一属性参数确定为调整参数。
具体地,对第三音频数据依次进行回声处理和降噪处理,得到第一音频数据;对第一音频数据进行第一处理,得到第一目标音频数据和第二目标音频数据。由于第二目标音频数据是对回声处理和降噪处理后的第一音频数据进行识别而获得的,因此第二目标音频数据的属性参数比较平稳,存在波动的可能性比较小。例如:第二目标音频数据可以是通话过程中通话者说话停顿时音频采集组件采集到的音频数据。虽然第二目标音频数据中包括噪声,但是噪声比较平稳,因此获得第二目标音频数据的第一属性参数可能是一个常数,也可能是一个范围值,在这里不作太多限定。
本申请还提供一种基于第二目标音频数据的属性参数确定调整参数的方法。本实施例是在前述实施例的基础上进一步优化得到的。基于第二目标音频数据的属性参数确定调整参数,该方法至少包括如下操作流程:S310,获得第三音频数据中对应第二目标音频数据的第二属性参数;S311,基于第二属性参数与第一属性参数之间的差异确定调整参数。
具体地,由于第三音频数据是未经过回声处理和降噪处理的,第三音频数据中存在不同程度的噪声,因此第三音频数据中对应第二目标音频数据的第二属性参数是随着噪声变化的。
由于第一音频数据是经过回声处理和降噪处理的后得到的,因此第一音频数据中第二目标音频数据对应的第一属性参数是一个常数或者范围值。
基于第二属性参数和第一属性参数之间的差异确定第一目标音频数据对应的第一调整参数,以及第二目标音频数据对应的第二调整参数;利用第一调整参数对第一目标音频数据进行增益处理,并利用第二调整参数对第二目标音频数据进行消减处理,得到待输出的第二音频数据。
如图4所示,本申请一实施例中基于第一目标音频数据和第二目标音频数据的属性参数确定调整参数的示意性流程图。本实施例是在前述实施例的基础上进一步优化得到的。基于第一目标音频数据和第二目标音频数据的属性参数确定调整参数,包括:S401,基于对应时序的第二目标音频数据的属性参数对第一目标音频数据对应的标准参数进行调整,得到目标标准参数;S402,基于第一目标音频数据对应目标标准参数的目标属性参数与目标标准参数之间的差异确定调整参数。
例如,对象A说话时突然有一个比较大的噪声,此时,需要根据噪声幅度值将对象A当前音频对应的标准幅度值进行自适应调整,使标准幅度值大于噪声幅度值,得到目标标准幅度值;然后基于目标标准幅度值和对象A当前音频对应的目标幅度值确定对象A当前音频的调整参数。
本实施例能够基于环境噪声的属性参数对说话者的音频属性参数对应的标准参数进行适应调整,从而能够准确获得说话者音频对应的目标标准参数,进而提高了调整参数的准确性。
下面将结合具体场景对上述实施例的具体实现过程进行详细说明。如图5所示,本申请一实施例音频处理过程示意图。具体地,将音频采集组件获得的第三音频数据(例如语音数据)分别经过回声消除(Acoustic Echo Cancellation,缩写AEC)处理和降噪(NoiseSuppression,缩写NS)处理,输出第一音频数据;其中,第一音频数据的数据量小于第三音频数据;之后对第一音频数据进行信号幅度值检测;并基于检测结果识别获得第一目标音频数据(例如人声信号数据)和第二目标音频数据(例如噪声信号数据);基于第一目标音频数据和第二目标音频数据的信号幅度值确定调整参数;最后基于调整参数对第一目标音频数据的信号幅度值进行增益处理,得到待输出的第二音频数据(例如增益后的人声数据);获取第一音频数据的采集时间;获取待输出第二音频数据的生成时间;基于采集时间和生成时间,得到音频数据的时延;将时延添加至待输出的第二音频数据的时间序列中,得到第二音频数据(例如平滑后语音数据)。将第二音频数据通过操作系统层输入APP。由此,通过计算出人声信号需要的调整参数,同时保持噪声信号幅度增益不变,最后将计算出的调整参数导入到人声信号中,实现在一定距离内的人声信号,无论幅度大小,距离远近,使通话对方听到人声信号幅度保持一致的同时噪声信号幅度得到抑制,提升通话体验性。
如图6所示,本申请另一实施例音频处理方法的示意性流程图。一种音频处理方法;该方法至少包括如下操作流程:S601,对获得的第一音频数据进行第一处理,得到第一目标音频数据和第二目标音频数据,第一目标音频数据与第二目标音频数据至少具有时序上的关联性;S602,获得目标对象与音频采集组件的相对位置信息,并基于相对位置确定调整参数;S603,至少基于调整参数对第一音频数据进行第二处理,得到待输出的第二音频数据。
其中,S601以及S603的具体实现过程分别与图1所示实施例中S101和S103的具体实现过程相类似,这里不再赘述。
在S602中,获取第一目标音频属性参数随目标对象距离的变化曲线;目标对象距离用于指示目标对象与音频采集组件之间的距离;获取目标对象的当前位置信息;基于当前位置信息、变化曲线,以及音频采集组件的位置信息,确定调整参数。
应理解,在本申请的各实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在的逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
如图7所示,本申请一实施例音频处理装置示意性框图。一种音频处理装置,该装置700包括:第一处理模块701,用于对获得的第一音频数据进行第一处理,得到第一目标音频数据和第二目标音频数据,所述第一目标音频数据与所述第二目标音频数据至少具有时序上的关联性;确定模块702,用于基于所述第一目标音频数据和/或所述第二目标音频数据的属性参数确定调整参数;第二处理模块703,用于至少基于所述调整参数对所述第一音频数据进行第二处理,得到待输出的第二音频数据。
在可选的实施例中,确定包括:获取单元,用于获得预设的第一标准参数;确定单元,用于基于所述第一目标音频数据对应所述第一标准参数的目标属性参数与所述第一标准参数之间的差异确定所述调整参数;或,第一处理模块包括:获取单元,用于如果所述第一目标音频数据来自第一对象,获得对应所述第一对象的第二标准参数;确定单元,用于基于所述第一目标音频数据对应所述第二标准参数的目标属性参数与所述第二标准参数之间的差异确定所述调整参数;或,第一处理模块包括:获取单元,用于如果所述第一目标音频数据来自多个对象,获得对应所述多个对象的第三标准参数;确定单元,用于基于所述第一目标音频数据对应所述第三标准参数的目标属性参数与所述第三标准参数之间的差异确定所述调整参数。
在可选的实施例中,第一处理模块的获取单元包括:获取子单元,用于获得所述多个对象中每个对象对应的标准参数;确定子单元,用于将其中符合预定条件的标准参数确定为所述第三标准参数;或,第一处理模块的获取单元包括:确定子单元,用于确定所述多个对象中与目标接收对象具有第一关联关系的第二对象;获取子单元,用于获得对应所述第二对象的第三标准参数。
在可选的实施例中,该装置还包括:第三处理模块,用于对音频采集组件获得的第三音频数据进行第三处理,得到所述第一音频数据,其中,所述第一音频数据的数据量小于所述第三音频数据。
在可选的实施例中,获取单元进一步用于,获得所述第二目标音频数据的第一属性参数;确定单元进一步用于,将所述第一属性参数确定为所述调整参数;或,获取单元进一步用于,获得所述第三音频数据中对应所述第二目标音频数据的第二属性参数;确定单元进一步用于,基于所述第二属性参数与所述第一属性参数之间的差异确定所述调整参数。
在可选的实施例中,确定模块还包括:调整单元,用于基于对应时序的第二目标音频数据的属性参数对所述第一目标音频数据对应的标准参数进行调整,得到目标标准参数;确定单元进一步用于,基于所述第一目标音频数据对应所述目标标准参数的目标属性参数与所述目标标准参数之间的差异确定所述调整参数。
在可选的实施例中,该装置还包括:更新模块,用于获得目标对象与音频采集组件的相对位置信息,基于所述相对位置更新所述调整参数。
在可选的实施例中,第一处理模块包括:检测单元,用于对获得第一音频数据的属性参数进行检测;识别单元,用于获取第一目标音频数据的标准属性参数范围;基于检测结果和所述第一音频数据的标准属性参数范围,得到第一目标音频数据和第二目标音频数据;或,识别单元,用于获取第二目标音频数据的标准属性参数范围;基于检测结果和所述第二音频数据的标准属性参数范围,得到第一目标音频数据和第二目标音频数据。
在可选的实施例中,第二处理模块包括:增益处理单元,用于基于所述调整参数对所述第一音频数据中的第一目标音频数据进行增益处理,得到待输出的第二音频数据。
本申请另一实施例还提供一种音频处理装置。该装置包括:第一处理模块,用于对获得的第一音频数据进行第一处理,得到第一目标音频数据和第二目标音频数据,所述第一目标音频数据与所述第二目标音频数据至少具有时序上的关联性;确定模块,用于获得目标对象与音频采集组件的相对位置信息,基于所述相对位置确定所述调整参数;第二处理模块,用于至少基于所述调整参数对所述第一音频数据进行第二处理,得到待输出的第二音频数据。
上述装置可执行本申请一实施例所提供的音频处理方法,具备执行调节显示屏显示参数的方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的音频处理方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以利用硬件的形式实现,也可以利用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储介质、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例方法的全部或部分。而前述的存储介质包括:移动存储介质、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种音频处理方法,包括:
对获得的第一音频数据进行第一处理,得到第一目标音频数据和第二目标音频数据,所述第一目标音频数据与所述第二目标音频数据至少具有时序上的关联性;
基于所述第一目标音频数据和/或所述第二目标音频数据的属性参数确定调整参数;
至少基于所述调整参数对所述第一音频数据进行第二处理,得到待输出的第二音频数据。
2.根据权利要求1所述的方法,所述基于所述第一目标音频数据的属性参数确定调整参数,包括:
获得预设的第一标准参数,基于所述第一目标音频数据对应所述第一标准参数的目标属性参数与所述第一标准参数之间的差异确定所述调整参数;或,
如果所述第一目标音频数据来自第一对象,获得对应所述第一对象的第二标准参数,基于所述第一目标音频数据对应所述第二标准参数的目标属性参数与所述第二标准参数之间的差异确定所述调整参数;或,
如果所述第一目标音频数据来自多个对象,获得对应所述多个对象的第三标准参数,基于所述第一目标音频数据对应所述第三标准参数的目标属性参数与所述第三标准参数之间的差异确定所述调整参数。
3.根据权利要求2所述的方法,其中,获得对应所述多个对象的第三标准参数,包括:
获得所述多个对象中每个对象对应的标准参数,将其中符合预定条件的标准参数确定为所述第三标准参数;或,
确定所述多个对象中与目标接收对象具有第一关联关系的第二对象,获得对应所述第二对象的第三标准参数。
4.根据权利要求1所述的方法,还包括:
对音频采集组件获得的第三音频数据进行第三处理,得到所述第一音频数据,其中,所述第一音频数据的数据量小于所述第三音频数据。
5.根据权利要求4所述的方法,所述基于所述第二目标音频数据的属性参数确定调整参数,包括:
获得所述第二目标音频数据的第一属性参数,将所述第一属性参数确定为所述调整参数;或,
获得所述第三音频数据中对应所述第二目标音频数据的第二属性参数,基于所述第二属性参数与所述第一属性参数之间的差异确定所述调整参数。
6.根据权利要求2所述的方法,所述基于所述第一目标音频数据和所述第二目标音频数据的属性参数确定调整参数,包括:
基于对应时序的第二目标音频数据的属性参数对所述第一目标音频数据对应的标准参数进行调整,得到目标标准参数,基于所述第一目标音频数据对应所述目标标准参数的目标属性参数与所述目标标准参数之间的差异确定所述调整参数。
7.根据权利要求1所述的方法,还包括:
获得目标对象与音频采集组件的相对位置信息,基于所述相对位置确定所述调整参数或更新所述调整参数。
8.根据权利要求1所述的方法,其特征在于,所述对获得的第一音频数据进行第一处理,得到第一目标音频数据和第二目标音频数据,包括:
对获得第一音频数据的属性参数进行检测;
获取第一目标音频数据的标准属性参数范围;基于检测结果和所述第一音频数据的标准属性参数范围,得到第一目标音频数据和第二目标音频数据;
或者,获取第二目标音频数据的标准属性参数范围;基于检测结果和所述第二音频数据的标准属性参数范围,得到第一目标音频数据和第二目标音频数据。
9.根据权利要求1所述的方法,所述至少基于所述调整参数对所述第一音频数据进行第二处理,得到待输出的第二音频数据,包括:
基于所述调整参数对所述第一音频数据中的第一目标音频数据进行增益处理,得到待输出的第二音频数据。
10.一种音频处理装置,包括:
第一处理模块,用于对获得的第一音频数据进行第一处理,得到第一目标音频数据和第二目标音频数据,所述第一目标音频数据与所述第二目标音频数据至少具有时序上的关联性;
确定模块,用于基于所述第一目标音频数据和/或所述第二目标音频数据的属性参数确定调整参数;
第二处理模块,用于至少基于所述调整参数对所述第一音频数据进行第二处理,得到待输出的第二音频数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111159614.0A CN113990338A (zh) | 2021-09-30 | 2021-09-30 | 一种音频处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111159614.0A CN113990338A (zh) | 2021-09-30 | 2021-09-30 | 一种音频处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113990338A true CN113990338A (zh) | 2022-01-28 |
Family
ID=79737379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111159614.0A Pending CN113990338A (zh) | 2021-09-30 | 2021-09-30 | 一种音频处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113990338A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217728A (zh) * | 2014-09-09 | 2014-12-17 | 联想(北京)有限公司 | 一种音频处理方法及电子设备 |
CN104735232A (zh) * | 2013-12-18 | 2015-06-24 | 深圳桑菲消费通信有限公司 | 一种在移动终端上实现助听器功能的方法和装置 |
CN104754099A (zh) * | 2015-03-12 | 2015-07-01 | 深圳市金立通信设备有限公司 | 一种通话音量的调节方法 |
CN107172256A (zh) * | 2017-07-27 | 2017-09-15 | 广东欧珀移动通信有限公司 | 耳机通话自适应调整方法、装置、移动终端及存储介质 |
CN107360496A (zh) * | 2017-06-13 | 2017-11-17 | 东南大学 | 可根据环境自动调节音量的扬声器系统及调节方法 |
CN107452394A (zh) * | 2017-07-31 | 2017-12-08 | 上海斐讯数据通信技术有限公司 | 一种基于频率特性降低噪音的方法和系统 |
CN110970057A (zh) * | 2018-09-29 | 2020-04-07 | 华为技术有限公司 | 一种声音处理方法、装置与设备 |
CN111370018A (zh) * | 2020-02-28 | 2020-07-03 | 维沃移动通信有限公司 | 音频数据的处理方法、电子设备及介质 |
CN111988704A (zh) * | 2019-05-21 | 2020-11-24 | 北京小米移动软件有限公司 | 声音信号处理方法、装置以及存储介质 |
-
2021
- 2021-09-30 CN CN202111159614.0A patent/CN113990338A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104735232A (zh) * | 2013-12-18 | 2015-06-24 | 深圳桑菲消费通信有限公司 | 一种在移动终端上实现助听器功能的方法和装置 |
CN104217728A (zh) * | 2014-09-09 | 2014-12-17 | 联想(北京)有限公司 | 一种音频处理方法及电子设备 |
CN104754099A (zh) * | 2015-03-12 | 2015-07-01 | 深圳市金立通信设备有限公司 | 一种通话音量的调节方法 |
CN107360496A (zh) * | 2017-06-13 | 2017-11-17 | 东南大学 | 可根据环境自动调节音量的扬声器系统及调节方法 |
CN107172256A (zh) * | 2017-07-27 | 2017-09-15 | 广东欧珀移动通信有限公司 | 耳机通话自适应调整方法、装置、移动终端及存储介质 |
CN107452394A (zh) * | 2017-07-31 | 2017-12-08 | 上海斐讯数据通信技术有限公司 | 一种基于频率特性降低噪音的方法和系统 |
CN110970057A (zh) * | 2018-09-29 | 2020-04-07 | 华为技术有限公司 | 一种声音处理方法、装置与设备 |
CN111988704A (zh) * | 2019-05-21 | 2020-11-24 | 北京小米移动软件有限公司 | 声音信号处理方法、装置以及存储介质 |
CN111370018A (zh) * | 2020-02-28 | 2020-07-03 | 维沃移动通信有限公司 | 音频数据的处理方法、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11823679B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
US11483434B2 (en) | Method and apparatus for adjusting volume of user terminal, and terminal | |
US10453443B2 (en) | Providing an indication of the suitability of speech recognition | |
CN110556103B (zh) | 音频信号处理方法、装置、系统、设备和存储介质 | |
CN107910011B (zh) | 一种语音降噪方法、装置、服务器及存储介质 | |
US11158333B2 (en) | Multi-stream target-speech detection and channel fusion | |
EP3164871B1 (en) | User environment aware acoustic noise reduction | |
CN110970057B (zh) | 一种声音处理方法、装置与设备 | |
KR102423670B1 (ko) | 디지털 어시스턴트를 위한 음성 트리거 | |
US9494683B1 (en) | Audio-based gesture detection | |
CN105118522B (zh) | 噪声检测方法及装置 | |
US20140329511A1 (en) | Audio conferencing | |
JP2024507916A (ja) | オーディオ信号の処理方法、装置、電子機器、及びコンピュータプログラム | |
CN110169082A (zh) | 组合音频信号输出 | |
JP6268916B2 (ja) | 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム | |
CN112447184B (zh) | 语音信号处理方法及装置、电子设备、存储介质 | |
CN111326159B (zh) | 一种语音识别方法、装置、系统 | |
CN115516553A (zh) | 用于多麦克风自动临床文档化的系统和方法 | |
CN113990338A (zh) | 一种音频处理方法及装置 | |
CN110580910B (zh) | 一种音频处理方法、装置、设备及可读存储介质 | |
US20220084505A1 (en) | Communication between devices in close proximity to improve voice control of the devices | |
CN116320872A (zh) | 耳机的模式切换方法、装置、电子设备及存储介质 | |
KR20150045967A (ko) | 음성 데이터를 감성 데이터로 변환하는 알고리즘 | |
CN115910090A (zh) | 数据信号处理方法、装置、设备及存储介质 | |
CN114416018A (zh) | 音频播放方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |