CN110265046B - 一种编码参数调控方法、装置、设备及存储介质 - Google Patents

一种编码参数调控方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110265046B
CN110265046B CN201910677220.0A CN201910677220A CN110265046B CN 110265046 B CN110265046 B CN 110265046B CN 201910677220 A CN201910677220 A CN 201910677220A CN 110265046 B CN110265046 B CN 110265046B
Authority
CN
China
Prior art keywords
rate
frequency band
masking
audio signal
code rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910677220.0A
Other languages
English (en)
Other versions
CN110265046A (zh
Inventor
梁俊斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910677220.0A priority Critical patent/CN110265046B/zh
Publication of CN110265046A publication Critical patent/CN110265046A/zh
Priority to PCT/CN2020/098396 priority patent/WO2021012872A1/zh
Priority to US17/368,609 priority patent/US11715481B2/en
Application granted granted Critical
Publication of CN110265046B publication Critical patent/CN110265046B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请实施例公开了一种编码参数调控方法、装置、设备和存储介质,该方法包括:获取发送端录制的第一音频信号,确定第一音频信号中业务频段内各频点的心理声学掩蔽阈值;获取接收端录制的第二音频信号,确定第二音频信号中业务频段内各频点的背景环境噪声估计值;根据第一音频信号的心理声学掩蔽阈值和第二音频信号的背景环境噪声估计值,确定业务频段内各频点对应的掩蔽标记;根据业务频段内各频点对应的掩蔽标记确定业务频段的掩蔽率;根据业务频段的掩蔽率确定第一参考码率;至少基于第一参考码率,配置音频编码器的编码码率。该方法能够有效地提高编码质量转换效率,保证发送端与接收端之间具有较好的语音通话效果。

Description

一种编码参数调控方法、装置、设备及存储介质
技术领域
本申请涉及音频编码技术领域,尤其涉及一种编码参数调控方法、装置、设备及存储介质。
背景技术
音频编码是将声音从能量波形式经过一系列处理生成数字编码的过程。音频编码是为了保证声音信号在传输过程中占据较小的传输带宽和存储空间并且能够保证较高的声音质量。
在实际应用时通常基于音频编码器对音频信号进行编码,编码质量主要取决于音频编码器所配置的编码参数是否合适。基于此,为了追求较好的编码质量,现有技术方案通常在音频编码时会基于设备处理能力和网络带宽特点来适应性配置编码参数,例如在高音质业务需求的情况下配置高码率和高采样率,使得信源编码质量较好。
但在实际应用中常常会出现虽然发送方信源编码采用了较高的码率和较高的采样率使得信源编码质量较高,但是接听方却无法听清发送方的声音,更加无法辨识音质好坏,如此编码质量转换效率较低,语音通信效果不好。
基于此,目前亟需提出一种解决方案以实现适应性配置编码参数提高编码质量转换效率,保证语音通话效果。
发明内容
本申请实施例提供了一种编码参数调控方法、装置、设备及存储介质,能够有效地提高编码质量转换效率,保证发送端与接收端之间具有较好的语音通话效果。
有鉴于此,本申请第一方面提供了一种编码参数调控方法,所述方法包括:
获取发送端录制的第一音频信号,确定所述第一音频信号中目标业务指定的业务频段内各频点的心理声学掩蔽阈值;
获取接收端录制的第二音频信号,确定所述第二音频信号中所述业务频段内各频点的背景环境噪声估计值;
根据所述第一音频信号中所述业务频段内各频点的心理声学掩蔽阈值和所述第二音频信号中所述业务频段内各频点的背景环境噪声估计值,确定所述业务频段内各频点对应的掩蔽标记;
根据所述业务频段内各频点对应的掩蔽标记确定所述业务频段的掩蔽率;
根据所述业务频段的掩蔽率确定第一参考码率;
至少基于所述第一参考码率,配置音频编码器的编码码率。
本申请第二方面提供了一种编码参数调控装置,所述装置包括:
心理声学掩蔽阈值确定模块,用于获取发送端录制的第一音频信号,确定所述第一音频信号中目标业务指定的业务频段内各频点的心理声学掩蔽阈值;
背景环境噪声估计值确定模块,用于获取接收端录制的的第二音频信号,确定所述第二音频信号中所述业务频段内各频点的背景环境噪声估计值;
掩蔽标记模块,用于根据所述第一音频信号中所述业务频段内各频点的心理声学掩蔽阈值和所述第二音频信号中所述业务频段内各频点的背景环境噪声估计值,确定所述业务频段内各频点对应的掩蔽标记;
掩蔽率确定模块,用于根据所述业务频段内各频点对应的掩蔽标记确定所述业务频段的掩蔽率;
第一参考码率确定模块,用于根据所述业务频段的掩蔽率确定第一参考码率;
配置模块,用于至少基于所述第一参考码率,配置音频编码器的编码码率。
本申请第三方面提供了一种设备,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行第一方面所述的编码参数调控方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行第一方面所述的编码参数调控方法。
本申请第五方面提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行上述第一方面所述的编码参数调控方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供了一种编码参数调控方法,该方法从端到端效果最优协同的角度出发,基于接收端反馈的背景环境噪声情况,对发送端进行音频编码时采用的编码参数进行调控,从而保证接收端能够清楚地听见发送端发来的音频信号。具体的,在本申请实施例提供的编码参数调控方法中,获取发送端录制的第一音频信号,并确定该第一音频信号中目标业务指定的业务频段内各频点的心理声学掩蔽值;获取接收端录制的第二音频信号,并确定该第二音频信号中业务频段内各频点的背景环境噪声估计值;基于第一音频信号中业务频段内各频点的心理声学掩蔽值和第二音频信号中业务频段内各频点的背景环境噪声估计值,确定出业务频段内各频点对应的掩蔽标记;进而,根据业务频段内各频点对应的掩蔽标记确定业务频段的掩蔽率,根据业务频段的掩蔽率确定第一参考码率;最终,基于该第一参考码率配置音频编码器的编码码率。如此,根据发送端采集的第一音频信号中业务频段内各频点的心理声学掩蔽阈值和接收端采集的第二音频信号中业务频段内各频点的背景环境噪声估计值,确定接收端实际所处的背景环境中的噪声对于发送端发来的音频信号是否会产生掩蔽,并以减小或消除掩蔽为目的对音频信号的编码参数进行调控,从而提高音频信号的编码质量转换效率,保证发送端与接收端之间能够达到较好的语音通话效果。
附图说明
图1为本申请实施例提供的编码参数调控方法的应用场景示意图;
图2为本申请实施例提供的编码参数调控方法的流程示意图;
图3为本申请实施例提供的编码采样率调控方法的流程示意图;
图4a为本申请实施例提供的编码采样率调控方法的整体原理示意图;
图4b为相关技术中编码参数调控方法与本申请实施例提供的编码参数调控方法的效果对比图;
图5为本申请实施例提供的一种编码参数调控装置的结构示意图;
图6为本申请实施例提供的另一种编码参数调控装置的结构示意图;
图7为本申请实施例提供的一种终端设备的结构示意图;
图8为本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
相关技术中,通常基于设备处理能力和网络带宽等因素,对音频编码时采用的编码参数进行适应性地调整。然而,在实际应用中,常常会出现即使发送端采用了较高的编码码率和采样率使得信源编码质量较高,但是接收方仍然无法听清发送端发来的音频信号的现象,也就是说,基于相关技术中的编码参数调控方式对音频信号的编码参数进行调整,经常无法达到较好的语音通话效果。
经发明人研究发现,基于相关技术中的编码参数调控方式之所以无法达到较好的语音通话效果,其原因在于,相关技术对音频编码参数进行调整时,仅考虑了音频信号质量以及传输质量,而忽略了通话接收方所处的听觉声学环境对于接收方收听的音频信号产生的影响,而在很多情况下,接收方所处的听觉声学环境往往能够决定接受方是否能够听清发送端发来的音频信号。
基于此,本申请实施例提供了一种编码参数调控方法,该方法从端到端效果最优协同的角度出发,考虑接收端实际所处的听觉声学环境对于发送端发来的音频信号产生的影响,基于接收方反馈的背景环境噪声估计值,实现对于音频信号编码参数的端到端闭环反馈调控,如此,有效地提高音频信号的编码质量转换效率,保证发送端与接收端之间能够达到较好的语音通话效果。
应理解,本申请实施例提供的编码参数调控方法可以应用于具备数据处理能力的设备,如终端设备、服务器等;其中,终端设备具体可以为智能手机、计算机、个人数字助理(Personal Digital Assitant,PDA)、平板电脑等;服务器具体可以为应用服务器,也可以为Web服务器,在实际部署时,该服务器可以为独立服务器,也可以为集群服务器。
当本申请实施例提供的编码参数调控方法由终端设备执行时,该终端设备可以为音频信号的发送端,也可以为音频信号的接收端;若终端设备为音频信号的发送端,则该终端设备需要从对应的接收端处获取该接收端录制的第二音频信号,进而执行本申请实施例提供的编码参数调控方法,针对自身所要发送的音频信号配置编码参数;若终端设备为音频信号的接收端,则该终端设备需要从对应的发送端处获取该发送端录制的第一音频信号,进而执行本申请实施例提供的编码参数调控方法,针对发送端所要发送的音频信号配置编码参数,并将其配置的编码参数发送给发送端,以使发送端基于该编码参数对所要发送的音频信号进行编码。
当本申请实施例提供的编码参数调控方法由服务器执行时,服务器可以从音频信号的发送端处获取第一音频信号,从音频信号的接收端处获取第二音频信号,进而执行本申请实施例提供的编码参数调控方法,针对发送端所要发送的音频信号配置编码参数,并将所配置的编码参数发送给发送端,以使发送端基于该编码参数对所要发送的音频信号进行编码。
为了便于理解本申请实施例提供的技术方案,下面以本申请实施例提供的编码参数调控方法应用于作为发送端的终端设备为例,对本申请实施例提供的编码参数调控方法适用的应用场景进行示例性介绍。
参见图1,图1为本申请实施例提供的编码参数调控方法的应用场景示意图。如图1所示,该应用场景包括:终端设备101和终端设备102;终端设备101作为实时通话的发送端,终端设备102作为实时通话的接收端,终端设备101与终端设备102之间可以通过网络进行通信,终端设备101用于执行本申请实施例提供的编码参数调控方法,为其自身所要发送的音频信号相应地配置编码参数。
具体应用时,终端设备101获取自身通过麦克风录制的第一音频信号,该第一音频信号为实时通话过程中终端设备101向终端设备102发送的音频信号,进而,确定该第一音频信号中目标业务的指定业务频段内各频点的心理声学掩蔽阈值。终端设备101通过网络获取终端设备102通过麦克风录制的第二音频信号,该第二音频信号为实时通话过程中终端设备102所处的背景环境中的声音信号,进而,确定该第二音频信号中业务频段内各频点的背景环境噪声估计值。
终端设备101根据第一音频信号中业务频段内各频点的心理声学掩蔽阈值和第二音频信号中业务频段内各频点的背景环境噪声估计值,相应地确定业务频段内各频点对应的掩蔽标记,即确定发送端发送的音频信号在业务频段内各频点上是否被接收端的背景环境噪声所掩蔽。进而,终端设备101根据业务频段内各频点对应的掩蔽标记确定业务频段的掩蔽率,该业务频段的掩蔽率能够表征被掩蔽的频点占频点总数的比例,并根据该业务频段的掩蔽率确定第一参考码率,至少基于该第一参考码率配置音频编码器的编码码率,即为终端设备101所要发送的音频信号配置编码码率。
如此,终端设备101在确定编码码率的过程中,考虑了接收端(即终端设备102)实际所处的听觉声学环境对于发送端发来的音频信号产生的影响,基于接收端反馈的第二音频信号中业务频段内各频点的背景环境噪声估计值,实现对于编码码率的端到端闭环反馈调控,从而,保证基于如此调控得到的编码码率编码出的音频信号能够被接收方清晰有效地收听。
应理解,图1所示的应用场景仅为示例,在实际应用中,本申请实施例提供的编码参数调控方法除了应用于双人实时通话的应用场景外,也可以应用于多人实时通话的应用场景,甚至还可以应用于其他需要发送音频信号的应用场景中,在此不对本申请实施例提供的编码参数调控方法所适用的应用场景做任何限定。
下面通过实施例对本申请提供的编码参数调控方法进行介绍。
参见图2,图2为本申请实施例提供的编码参数调控方法的流程示意图。为了便于描述,下述实施例以作为发送端的终端设备为执行主体为例,对该编码参数调控方法进行介绍。如图2所示,该编码参数调控方法包括以下步骤:
步骤201:获取发送端录制的第一音频信号,确定所述第一音频信号中目标业务指定的业务频段内各频点的心理声学掩蔽阈值。
终端设备获取自身配置的麦克风录制的第一音频信号,该第一音频信号可以是终端设备与其他终端设备进行实时通话的过程中,终端设备需要向其他终端设备发送的音频信号,该第一音频信号也可以是在其他需要发送音频信号的场景中终端设备录制的音频信号,在此不对该第一音频信号的产生场景做任何限定。
应理解,目标业务是指第一音频信号当前所处的音频类业务,所谓音频类业务可以粗略分为语音业务、音乐业务或者其他支持音频传输的业务类型,也可以更精细地根据业务所涉及的频率范围进行业务划分。而目标业务指定的业务频段是指在目标业务中重要程度最高的频率范围,也就是能够承载业务下所产生的音频信号的频率范围,这也是每种业务所关注的频率范围。
以语言业务为例(如实时语音通话、语音发送业务等),其指定的业务频段通常为3.4kHz以下的频段,即中低频段;以音乐业务为例,音乐业务一般会涉及整个频段,因此音乐业务所指的的业务频段为设备所支持的音频的全频段,也被称为全频带。
终端设备获取到第一音频信号后,进一步确定该音频信号中业务频段内各频点的心理声学掩蔽阈值,目前相关技术中已有一些较为成熟的心理声学掩蔽阈值计算方法,本申请在此可以直接参考相关技术中已有的心理声学掩蔽阈值计算方法,计算第一音频信号中各频点的心理声学掩蔽阈值。
由于心理声学掩蔽阈值需要基于第一音频信号的功率谱计算获得,因此,在计算第一音频信号中业务频段内各频点的心理声学掩蔽阈值之前,需要先计算第一音频信号的功率谱。
具体的,可以先经过分帧加窗处理和离散傅里叶变换,将终端设备的麦克风采集的第一音频信号从时域信号转换为频域信号。对时域信号进行分帧加窗处理时,以20ms为一帧的窗长度为例,此处的窗具体可以选择汉明窗,窗函数如式(1)所示:
其中,n属于N为单个窗长度,即单个窗中的样点总个数。
分帧加窗后,进一步对信号进行傅里叶变换,具体变换方式如式(2)所示:
傅里叶变换后,进一步基于式(3)计算第一音频信号中各频点的功率谱值:
S(i,k)=|X(i,k)|2k=1,2,3,…,N (3)
接下来,以采用Johnston隐蔽阈值计算方法为例,基于式(3)计算得到的功率谱值进一步计算第一音频信号中各频点的心理声学掩蔽阈值。
人耳可以分辨出离散的带通滤波器组,每个滤波器对应的临界频率具体划分如表1所示,一个临界频带通常被称为一个Bark。
表1
将线性频率向Bark域进行转换,可以基于式(4)实现:
z(f)=13*arctan(0.76*fkhz)+3.5*arctan(fkhz/7.52) (4)
其中,z(f)为频率fkhz对应的Bark域值。
然后,基于式(5)计算Bark域上的信号功率谱:
其中,b1(m)和b2(m)分别代表第m个Bark临界域的上下限频率对应频率索引号,P(i,l)为基于式(3)计算得到的功率谱值。
接下来,计算扩展函数SF(m),此处使用的是Schroeder提出的一种扩展函数,如式(6)所示:
其中,δz等于被掩蔽信号Bark域索引值减去掩蔽信号Bark域索引值。考虑到频带间的相互影响,扩展Bark频谱可以表示为C(i,z)=B(i,z)×SF(δz)。
进而,计算Bark子带的全局噪声掩蔽值,Bark子带的全局噪声掩蔽值T′(z)等于子带噪声掩蔽阈值与绝对听力阈值的最大值,子带噪声掩蔽阈值T(i,z)的具体计算公式如式(7)所示:
其中,z为Bark域索引值。
绝对听力阈值Tabs(z)的计算公式如式(8)所示:
Bark域转线性频率的公式如式(9)所示:
最终,基于式(10)计算声压级转电子域的心理声学掩蔽阈值:
应理解,在实际应用中,除了可以采用上述心理声学掩蔽阈值计算方法,计算第一音频信号中业务频段内各频点的心理声学掩蔽阈值外,还可以采用其他心理声学掩蔽阈值计算方法计算第一音频信号中业务频段内各频点的心理声学掩蔽阈值,在此不对本申请所采用的心理声学掩蔽阈值计算方法做任何限定。
步骤202:获取接收端录制的第二音频信号,确定所述第二音频信号中所述业务频段内各频点的背景环境噪声估计值。
为了保证接收端能够清晰地听见发送端发来的第一音频信号,作为发送端的终端设备还需要从接收端处获取其录制的第二音频信号,进而,基于所获取的第二音频信号,确定该第二音频信号中业务频段内各频点的背景环境噪声估计值,如此,根据接收端的背景环境噪声情况来反向调节发送端的编码参数。
需要说明的是,在实际应用中,也可以由作为接收端的终端设备获取其自身录制的第二音频信号,并且由该作为接收端的终端设备确定该第二音频信号中业务频段内各频点的背景环境噪声估计值,进而,将该第二音频信号中业务频段内各频点的背景环境噪声估计值发送给作为发送端的终端设备。也就是说,在实际应用中,既可以由作为接收端的终端设备确定第二音频信号中业务频段内各频点的背景环境噪声估计值,又可以由作为发送端的终端设备确定第二音频信号中业务频段内各频点的背景环境噪声估计值。
具体实现时,终端设备可以采用最小统计量控制递归平均法(Minima ControlledRecursive Averaging,MCRA),基于第二音频信号确定其中业务频段内各频点的背景环境噪声估计值。具体的,终端设备可以先确定第二音频信号的功率谱,并对该第二音频信号的功率谱进行时频域平滑处理;然后,基于平滑处理后的功率谱,通过最小跟踪法求带噪声语音的最小值,作为噪声的粗略估计;进而,根据上述噪声的粗略估计和平滑处理后的功率谱,确定语音存在概率,并根据语音存在概率确定第二音频信号中业务频段内各频点的背景环境噪声估计值。
具体的,终端设备可以先通过分帧加窗处理和离散傅里叶变换,将第二音频信号从时域信号转换为频域信号,进而,基于转换得到的频域信号确定第二音频信号的功率谱;确定该第二音频信号的功率谱的方式与确定第一音频信号的功率谱的方式相同,详细参见上文基于式(1)至式(3)确定第一音频信号的功率谱的实现方式。
然后,终端设备对第二音频信号的功率谱进行时频域平滑处理,具体处理时基于式(11)和式(12)实现:
其中,b为频域平滑加权因子组,例如,b[5]=[0.1,0.2,0.4,0.2,0.1]。
其中,a0为时域平滑因子,例如,a0=0.9。
接下来,使用最小值跟踪法求带噪音的最小值Smin(i,k),作为噪声的粗略估计;如果mod(k,d)等于0,则基于式(13)和式(14)计算Smin(i,k):
如果mod(k,d)不等于0,则基于式(15)和式(16)计算Smin(i,k):
进而,根据经式(11)和式(12)计算得到的平滑处理后的功率谱,以及经式(13)至式(16)计算得到的噪声的粗略估计,采用式(17)、式(18)和式(19)计算语音存在概率
最后,根据式(19)计算得到的语音存在概率基于式(20)确定第二音频信号中各频点的背景环境噪声估计值/>
应理解,在实际应用中,除了可以采用MCRA计算第二音频信号中业务频段内各频点的背景环境噪声估计值外,还可以采用其他算法计算第二音频信号中业务频段内各频点的背景环境噪声估计值,在此不对本申请所采用的背景环境噪声估计值计算方法做任何限定。
需要说明的是,在实际应用中,终端设备可以先执行步骤201,后执行步骤202,也可以先执行步骤202,后执行步骤201,还可以同时执行步骤201和步骤202,在此不对本申请实施例提供的步骤201和步骤202的执行顺序做任何限定。
步骤203:根据所述第一音频信号中所述业务频段内各频点的心理声学掩蔽阈值和所述第二音频信号中所述业务频段内各频点的背景环境噪声估计值,确定所述业务频段内各频点对应的掩蔽标记。
终端设备计算得到第一音频信号中业务频段内各频点的心理声学掩蔽阈值和第二音频信号中业务频段内各频点的背景环境噪声估计值后,进一步根据该第一音频信号中业务频段内各频点的心理声学掩蔽阈值和第二音频信号中业务频段内各频点的背景环境噪声估计值,确定业务频段内各频点对应的掩蔽标记,即确定发送端发送的音频信号在业务频段内各频点上是否被接收端的背景环境噪声所掩蔽。若频点的心理声学掩蔽阈值远低于频点的背景环境噪声估计值,则可以认为发送端录制的音频在该频点上被接收端听清的概率较低,极有可能被接收端的背景环境噪音所掩蔽;反之,则可以认为发送端录制的音频在该频点上被接收端听清的概率较高,没有被接收端的背景环境噪声所掩蔽。
具体实现时,终端设备可以预先设置阈值比例β,进而,计算业务频段内各频点上背景环境噪声估计值与心理声学掩蔽阈值之间的比例,并判断计算得到的比例是否大于阈值比例β,若是,则表明发送端录制的音频信号可能被接收端的背景环境噪声所掩蔽,相应地将掩蔽标记设置为1;反之,若计算得到的比例小于或等于阈值比例β,则表明发送端录制的音频信号没有被接收端的背景环境噪声所掩蔽,相应地将掩蔽标记设置为0。
应理解,在实际应用中,终端设备可以根据实际需求设置上述阈值比例β,在此不对该阈值比例β的值做具体限定。
应理解,在实际应用中,除了可以通过上述方式确定业务频段内各频点对应的掩蔽标记外,还可以采用其他方式确定业务频段内各频点对应的掩蔽标记,在此不对本申请确定业务频段内各频点对应的掩蔽标记所采用的方式做任何限定。
步骤204:根据所述业务频段内各频点对应的掩蔽标记确定业务频段的掩蔽率。
终端设备确定出业务频段内各频点对应的掩蔽标记后,进一步,根据所确定的业务频段内各频点的掩蔽标记确定业务频段的掩蔽率,该业务频段的掩蔽率能够表示第一音频信号中业务频段内被掩蔽的频点个数占频点总数的比例。
具体实现时,终端设备可以基于式(21)计算业务频段的掩蔽率:
其中,Ratiomark_global为业务频段的掩蔽率,K2为第一音频信号中的最高频率。
步骤205:根据所述业务频段的掩蔽率确定第一参考码率。
终端设备确定出业务频段的掩蔽率后,进一步根据该业务频段的掩蔽率确定第一参考码率,该第一参考码率可作为最终确定音频编码器的编码码率时依据的参考数据。
在一种可能的实现方式中,终端设备可以基于业务频段的掩蔽率,从预设第一可用码率和预设第二可用码率中选取出第一参考码率。具体的,当业务频段的掩蔽率小于第一预设阈值时,终端设备可以将预设第一可用码率作为第一参考码率;当业务频段的掩蔽率不小于第一预设阈值时,终端设备可以将第二可用码率作为第一参考码率,上述预设第二可用码率小于预设第一可用码率。
例如,假设第一预设阈值a2=0.5,当业务频段的掩蔽率Ratiomark_global小于0.5时,说明第一音频信号中业务频段内被掩蔽的频点个数占频点总数的比例较低,发送端发送的音频信号被接收端的背景环境噪声掩蔽的可能性较低,此时可以选择较大的预设第一可用码率作为第一参考码率,以对音频信号进行高质量的编码;当Ratiomark_global大于或等于0.5时,说明第一音频信号中业务频段内被掩蔽的频点个数占频点总数的比例较高,发送端发送的音频信号被接收端的背景环境噪声掩蔽的可能性较高,此时采用高码率的高质量编码意义不大,可以相应地选择质量可接受而数值偏低编码码率作为第一参考码率,即选择较小的预设第二可用码率作为第一参考码率。
应理解,在实际应用中,可以根据实际需求设定上述第一预设阈值,在此不对该第一预设阈值做具体限定。此外,在实际应用中,也可以根据实际需求设定预设第一可用码率和预设第二可用码率,在此也不对预设第一可用码率和预设第二可用码率做具体限定。
在另一种可能的实现方式中,为了保证第一参考码率的配置结果更加精准,终端设备可以预先设置多个相邻阈值区间,每个相邻阈值区间对应于不同的参考码率,进而基于业务频段的掩蔽率,从这多个参考码率中选择第一参考码率。
具体的,终端设备可以将业务频段的掩蔽率与预设多个相邻阈值区间进行匹配,确定与业务频段的掩蔽率相匹配的阈值区间作为目标阈值区间,此处不同相邻阈值区间分别对应于不同参考码率;将目标阈值区间对应的参考码率作为第一参考码率。
例如,假设终端设备预先设置的相邻阈值区间包括[0,0.2)、[0.2,0.4)、[0.4,0.6)、[0.6,0.8)和[0.8,1],终端设备计算得到的业务频段的掩蔽率Ratiomark_global为0.7;该Ratiomark_global与阈值区间[0.6,0.8)相匹配,则终端设备可以选择阈值区间[0.6,0.8)对应的参考码率,作为第一参考码率。
应理解,上述相邻的阈值区间仅为示例,在实际应用中,终端设备可以划分出其他形式的多个相邻阈值区间,在此不对确定第一参考码率时所基于的相邻阈值区间做任何限定。此外,每个阈值区间对应的参考码率也可以根据实际需求进行设定,在此也不对每个阈值区间对应的参考码率做具体限定。
步骤206:至少基于所述第一参考码率,配置音频编码器的编码码率。
终端设备确定出第一参考码率后,进一步基于该第一参考码率配置自身的音频编码器的编码码率,该编码码率即为终端设备编码其向接收端发送的音频信号时所基于的编码码率。
在一种可能的实现方式中,终端设备可以直接将经步骤205确定出的第一参考码率,配置为音频编码器的编码码率。
在另一种可能的实现方式中,为了保证编码得到的音频信号既能够被接收端听清,又能够被顺利地传输至接收端,传输过程中不发生卡顿、丢包等现象;终端设备可以结合上述第一参考码率和根据网络带宽确定的第二参考码率,确定音频编码器的编码码率。具体的,终端设备可以获取第二参考码率,该第二参考码率是根据网络带宽确定的;进而,选择第一参考码率和第二参考码率中的最小值,为音频编码器的编码码率进行赋值。
具体实现时,终端设备可以预估当前上行网络带宽,并基于预估的结果,为音频编码器设置其编码音频信号时可以采用的第二参考码率,基于该第二参考码率编码所要传输的音频信号,能够保证传输该音频信号的过程中不发生卡顿、丢包等现象;进而,终端设备从该第二参考码率和经步骤205确定出的第一参考码率中,选择最小值作为赋值给音频编码器的编码码率。
如此,基于第一参考码率和第二参考码率中的最小值,为发送端所要传输的音频信号进行编码,既能够保证传输至接收端的音频信号不会被接收端的背景环境噪声所掩蔽,又能够保证音频信号在传输过程中不会发生卡顿、丢包等现象。
上述编码参数调控方法从端到端效果最优协同的角度出发,考虑接收端实际所处的听觉声学环境对于发送端发来的音频信号产生的影响,基于接收方反馈的背景环境噪声估计值,实现对于音频信号编码参数的端到端闭环反馈调控,如此,有效地提高音频信号的编码质量转换效率,保证发送端与接收端之间能够达到较好的语音通话效果。
为了保证接收端能够更加清晰地听见发送端发来的音频信号,本申请实施例提供的编码参数调控方法除了可以对音频编码器采用的编码码率进行调控外,还可以对音频编码器采用的编码采样率进行调控。即本申请实施例提供的编码参数调控方法可以根据接收端反馈的背景环境噪声情况,对音频编码时采用的编码采样率也进行适应性地调控,从而保证接收端收听到的音频信号具有更好的效果。
需要说明的是,本申请实施例提供的编码参数调控方法可以在对音频编码器的编码码率进行配置之前,执行下述图3所示的方法对编码采样率进行调控,进而,基于在图2所示方法中确定的第一参考码率以及与调控后的编码采样率相匹配的第二参考码率,对音频编码器的编码码率进行配置,使得所配置的编码码率更匹配当前环境。
下面结合图3,对本申请实施例提供的编码采样率调控方法进行介绍。参见图3,图3为本申请实施例提供的编码采样率调控方法的流程示意图。为了便于描述,下述实施例仍以作为发送端的终端设备为执行主体为例,对该编码采样率调控方法进行介绍。如图3所示,该编码采样率调控方法包括以下步骤:
步骤301:从候选采样率列表中选择满足第一预设条件的最大候选采样率,作为第一参考采样率;所述第一预设条件是指候选采样率对应的目标频带的掩蔽率大于第二预设阈值,所述候选采样率的目标频带是指候选采样率对应的目标频率以上的频率区域,所述候选采样率对应的目标频率是根据所述候选采样率对应的最高频率和预设比例确定的。
终端设备可以判断候选采样率列表中各候选采样率是否满足第一预设条件,即判断各候选采样率对应的目标频带的掩蔽值是否大于第二预设阈值,进而,从满足第一预设条件的候选采样率中,选择最大的候选采样率作为第一参考采样率。
需要说明的是,上述候选采样率对应的目标频带具体是指该候选采样率对应的目标频率以上的频率区域,而候选采样率对应的目标频率是根据候选采样率对应的最高频率和预设比例确定的,候选采样率对应的最高频率通常根据香农定理确定,预设比例可以根据实际需求设定,例如设定预设比例为3/4。
在一种可能的实现方式中,终端设备可以按照降序顺序对候选采样率列表中的候选采样率进行排序,以便后续按照该顺序依次确定当前候选采样率对应的目标频带的掩蔽率是否满足上述第一预设条件;当当前候选采样率满足第一预设条件时,即可将当前候选采样率作为第一参考采样率;当当前候选采样率不满足第一预设条件时,将排序在该当前候选采样率之后的下一个候选采样率作为新的当前候选采样率,继续判断新的当前候选采样率是否满足第一预设条件,直至确定出满足第一预设条件的候选采样率为止,在各候选采样率均不满足第一预设条件的情况下,将候选采样率列表中最小的候选采样率作为第一参考采样率。
为了便于理解上述确定第一参考采样率的过程,下面对上述第一参考采样率的确定过程进行示例性介绍:
假设候选采样率列表中包括有按照降序顺序排列的以下候选采样率:96khz、48khz、32khz、16khz和8khz;终端设备按照降序顺序从96khz开始判决,即先将96khz作为当前候选采样率,根据香农定理要求采样率至少为最高频率频率的2倍,可以确定候选采样率96khz对应的最高频率为48khz。假设预设比例为3/4,第二预设阈值为0.8,则终端设备需要进一步判断48khz的3/4以上的频带的掩蔽率是否大于0.8,若是,则可以直接确定96khz为第一参考采样率,无需对后续的其他候选采样率进行判断;若否,则确定96khz不可被作为第一参考采样率,需要进一步将48khz作为当前候选采样率,针对48khz执行上述判断过程,以此类推,直至从候选采样率列表中选取出最高频率的3/4以上的频带的掩蔽率大于0.8的候选采样率为止,若候选采样率列表中各候选采样率均不满足上述条件,则将候选采样率列表中最小的候选采样率作为第一参考采样率。
上述候选采样率对应的目标频带的掩蔽率具体可以基于式(22)计算得到:
其中,Ratiomask为候选采样率对应的目标频带的掩蔽率,K1为候选采样率对应的目标频率,K2为候选采样率对应的最高频率。
应理解,在实际应用中,候选采样率列表中包括的候选采样率可以根据实际需求设定,在此不对候选采样率中包括的候选采样率做任何限定。上述第二预设阈值也可以根据实际需求进行设定,在此也不对第二预设阈值做任何限定。
步骤302:至少基于所述第一参考采样率,配置音频编码器的编码采样率。
终端设备确定出第一参考采样率后,进一步基于该第一参考采样率配置自身的音频编码器的编码采样率,该编码采样率即为终端设备编码其向接收端发送的音频信号时基于的编码采样率。
在一种可能的实现方式中,终端设备可以直接将经步骤301确定出的第一参考采样率,配置为音频编码器的编码采样率。
在另一种可能的实现方式中,为了保证编码得到的音频信号既不被接收端的背景环境噪声所掩蔽,又具有较好的音质,终端设备可以结合上述第一参考采样率和根据终端处理能力确定的第二参考采样率,确定音频编码器的编码采样率。具体的,终端设备可以获取第二参考采样率,该第二参考采样率是根据终端处理能力确定的;进而,选择第一参考采样率和第二参考采样中的最小值,为音频编码器的编码采样率进行赋值。
具体实现时,终端设备可以基于相关的采样率确定方式,根据所要传输的音频信号的特点以及终端设备的处理能力,确定第二参考采样率,基于该第二参考采样率编码所要传输的音频信号,能够保证获得音质较好的音频信号;进而,终端设备从该第二参考采样率和经步骤301确定出的第一参考采样率中,选择最小值作为赋值为音频编码器的编码采样率。
如此,基于第一参考采样率和第二参考采样率中的最小值,为发送端所要传输的音频信号进行编码,既能够保证传输至接收端的音频信号不会被接收端的背景环境噪声所掩蔽,又能够保证该音频信号具备较好的音质。
在完成编码采样率的配置后,终端设备可以进一步基于在图2所示实施例中确定出的第一参考码率以及与编码采样率匹配的第二参考码率,配置音频编码器的编码码率。具体的,在不同的网络带宽条件下,编码采样率与不同的参考码率相对应,终端设备可以将当前网络带宽条件下编码采样率对应的码率作为第二参考码率,进而,从第一参考码率和第二参考码率中选择较小的码率,为音频编码器进行赋值。
上述编码采样率调控方法从端到端效果最优协同的角度出发,考虑接收端实际所处的听觉声学环境对于发送端发来的音频信号产生影响,实现音频信号编码参数的端到端的闭环反馈调控,如此,有效地提高音频信号的编码质量转换效率,保证发送端与接收端之间能够达到较好的语音通话效果。
为了便于进一步理解本申请实施例提供的编码参数调控方法,下面仍以作为发送端的终端设备为执行主体为例,结合实时语音通话的应用场景,对图2和图3所示的编码参数调控方法进行整体性介绍。
参见图4a,图4a为本申请实施例提供的编码参数调控方法的整体原理示意图。
如图4a所示,在进行实时语音通话的过程中,作为发送端的终端设备获取自身的麦克风录制的第一音频信号,该第一音频信号为发送端需要向接收端发送的音频信号,并采用相关技术中的心理声学掩蔽阈值计算方法,计算第一音频信号中业务频段内各频点的心理声学掩蔽阈值。
此外,作为发送端的终端设备还需要从对应的接收端处获取接收端录制的第二音频信号中业务频段内各频点的背景环境噪声估计值,该第二音频信号能够反映实时语音通话过程中接收端所处的听觉声学环境,接收端具体可以采用MCRA等噪声估计方法,计算第二音频信号中业务频段内各频点的背景环境噪声估计值。应理解,在实际应用中,接收端也可以直接将其录制的第二音频信号发送给发送端,由发送端计算第二音频信号中业务频段内各频点的背景环境噪声估计值。
进而,作为发送端的终端设备可以根据第一音频信号中业务频段内各频点的心理声学掩蔽阈值和第二音频信号中业务频段内各频点的背景环境噪声估计值,确定业务频段内各频点对应的掩蔽标记;当频点上的心理声学掩蔽阈值远低于背景环境噪声估计值时,可以认为发送端录制的音频信号在该频点上的语音可闻概率较低,极有可能被接收端的背景环境噪声所掩蔽,对于会被掩蔽的频点可以设置其对应的掩蔽标记为1,对于不会被掩蔽的频点可以设置其对应的掩蔽标记为0。
根据业务频段内各频点对应的掩蔽标记确定业务频段的掩蔽率,当该业务频段的掩蔽率大于或等于第一预设阈值时,表明接收端的背景环境噪声对于发送端发送的音频信号具有较强的掩蔽效应,此时高码率的高质量编码意义不大,可以相应地选择质量可接受而数值偏低的编码码率,即选择较小的预设第二可用码率作为第一参考码率;反之,当该业务频段的掩蔽率小于第一预设阈值时,表明接收端的背景环境噪声基本不会对发送端发来的音频信号产生掩蔽效应,此时可以相应地选择数值偏高的编码码率,即选择较大的预设第一可用码率作为第一参考码率。
最终,终端设备可以从上述第一参考码率和根据网络带宽确定出的第二参考码率中,选择最小值作为音频编码器进行音频编码时采用的编码码率。当接收端的背景环境噪声对发送端发送的音频信号产生较强的掩蔽效应时,终端设备如此可以选择较小的编码码率进行音频编码,从而节省网络带宽,并将节省出的网络带宽用于前向纠错技术(ForwardError Correction,FEC)的冗余信道编码,以提升网络抗丢包能力,确保接收端的音频信号的连续可懂性。
此外,在配置编码码率之前,终端设备还可以从候选采样列表中选择满足第一预设条件的最大候选采样率,即终端设备还可以计算候选采样率列表中各候选采样率对应的目标频带的掩蔽率,并从目标频带的掩蔽率大于第二预设阈值的候选采样率中,选取最大的候选采样率作为第一参考采样率;进而,从该第一参考采样率和根据终端设备处理能力确定的第二参考采样率中,选择最小值作为音频编码器进行音频编码时采用的编码采样率。相应地,配置编码码率时,终端设备可以从第一参考码率以及与该编码采样率匹配的第二参考码率中,选择较小的码率作为最终的编码码率赋值给音频编码器。
经发明人实验验证,在接收端背景环境噪声较大的场景下,如白噪声、信噪比为5db的场景下,以silk编码器为例,采用现有技术的方案通常为将音频信号的编码码率设置为24kbps,将编码采样率设置为16khz;而采用本申请实施例提供的编码参数调控方法,将接收端录制的第二音频信号中的背景环境噪声估计值和发送端录制的第一音频信号中的心理声学掩蔽阈值结合起来,最终确定的编码码率为8kpbs,编码采样率为8khz。
如图4b所示,从接收端主观实测的角度,基于现有技术确定的编码码率和编码采样率对音频信号进行编码,与基于本申请实施例提供的技术方案确定的编码码率和编码采样率对音频信号进行编码,接收端听到的音频信号效果几乎一致,没有明显区别,但是基于本申请实施例提供的技术方案确定的编码参数编码得到的音频信号,其传输过程索占用的整体带宽仅有现有技术的三分之一,极大程度地节省了编码带宽,真正意义上提高了编码转换效率。
针对上文描述的编码参数调控方法,本申请还提供了对应的编码参数调控装置,以使上述编码参数调控方法在实际中得以应用和实现。
参见图5,图5是与上文图2所示的编码参数调控方法对应的一种编码参数调控装置500的结构示意图,该编码参数调控装置500包括:
心理声学掩蔽阈值确定模块501,用于获取发送端录制的第一音频信号,确定所述第一音频信号中目标业务指定的业务频段内各频点的心理声学掩蔽阈值;
背景环境噪声估计值确定模块502,用于获取接收端录制的的第二音频信号,确定所述第二音频信号中所述业务频段内各频点的背景环境噪声估计值;
掩蔽标记模块503,用于根据所述第一音频信号中所述业务频段内各频点的心理声学掩蔽阈值和所述第二音频信号中所述业务频段内各频点的背景环境噪声估计值,确定各频点对应的掩蔽标记;
掩蔽率确定模块504,用于根据所述业务频段内各频点对应的掩蔽标记确定所述业务频段的掩蔽率;
第一参考码率确定模块505,用于根据所述业务频段的掩蔽率确定第一参考码率;
配置模块506,用于至少基于所述第一参考码率,配置音频编码器的编码码率。
可选的,在图5所示的编码参数调控装置的基础上,所述第一参考模块确定模块505,具体用于:
当所述业务频段的掩蔽率小于第一预设阈值时,将预设第一可用码率作为第一参考码率;
当所述业务频段的掩蔽率不小于第一预设阈值时,将预设第二可用码率作为第一参考码率;其中,所述预设第二可用码率小于所述预设第一可用码率。
可选的,在图5所示的编码参数调控装置的基础上,所述第一参考模块确定模块505,具体用于:
将所述业务频段的掩蔽率与预设多个相邻阈值区间进行匹配,确定与所述业务频段的掩蔽率匹配的阈值区间作为目标阈值区间;其中,不同相邻阈值区间对应的不同参考码率;
将所述目标阈值区间对应的参考码率作为第一参考码率。
可选的,在图5所示的编码参数调控装置的基础上,所述配置模块506,具体用于:
获取第二参考码率,所述第二参考码率根据网络带宽而确定;
基于所述第一参考码率和所述第二参考码率中最小值,为音频编码器的编码码率进行赋值。
可选的,在图5所示的编码参数调控装置的基础上,参见图6,图6为本申请实施例提供的另一种编码参数调控装置的结构示意图,如图6所示,所述编码参数调控装置还包括:
第一参考采样率确定模块601,用于从候选采样率列表中选择满足第一预设条件的最大候选采样率,作为第一参考采样率;所述第一预设条件是指候选采用率对应的目标频带的掩蔽率大于第二预设阈值,所述候选采样率的目标频带是指候选采样率对应的目标频率以上的频率区域,所述候选采样率对应的目标频率是根据所述候选采样率对应的最高频率和预设比例确定的;
则所述配置模块506还用于:至少基于所述第一参考采样率,配置音频编码器的编码采样率;并且在配置音频编码器的编码码率时,具体用于:
基于所述第一参考码率以及与所述编码采样率匹配的第二参考码率,配置音频编码器的编码码率。
可选的,在图6所示的编码参数调控装置的基础上,所述第一参考采样率确定模块601,具体用于:
按照所述候选采样率列表中候选采样率的降序排序顺序,依次确定当前候选采样率对应的目标频带的掩蔽率是否满足所述第一预设条件;
当所述当前候选采样率满足所述第一预设条件时,则将所述当前候选采样率作为第一参考采样率;
当所述当前候选采样率不满足所述第一预设条件时,则按照所述候选采用率列表的降序排序确定所述当前候选采样率的下一个候选采样率是否满足所述第一预设条件。
可选的,在图6所示的编码参数调控装置的基础上,所述配置模块506,具体用于:
获取第二参考采样率,所述第二参考采样率根据终端处理能力而确定;
基于所述第一参考采样率和所述第二参考采样率中最小值,为音频编码器的编码采样率进行赋值。
可选的,在图5所示的编码参考调控装置的基础上,所述背景环境噪声估计值确定模块502,具体用于:
确定所述第二音频信号的功率谱;
对所述第二音频信号的功率谱进行时频域平滑处理;
基于所述平滑处理后的功率谱,通过最小跟踪法求带噪声语音的最小值,作为噪声的粗略估计;
根据所述噪声的粗略估计和所述平滑处理后的功率谱,确定语音存在概率;
根据所述语音存在概率确定所述第二音频信号中所述业务频段内各频点的背景环境噪声估计值。
上述编码参数调控装置从端到端效果最优协同的角度出发,考虑接收端实际所处的听觉声学环境对于发送端发来的音频信号产生的影响,基于接收方反馈的背景环境噪声估计值,实现对于音频信号编码参数的端到端闭环反馈调控,如此,有效地提高音频信号的编码质量转换效率,保证发送端与接收端之间能够达到较好的语音通话效果。
本申请实施例还提供了一种用于调控编码参数的终端设备和服务器,下面将从硬件实体化的角度对本申请实施例提供的用于调控编码参数的终端设备和服务器进行介绍。
参见图7,为本申请实施例提供的一种终端设备的结构示意图。为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称:Personal DigitalAssistant,英文缩写:PDA)、销售终端(英文全称:Point of Sales,英文缩写:POS)、车载电脑等任意终端设备,以终端为手机为例:
图7示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图7,手机包括:射频(英文全称:Radio Frequency,英文缩写:RF)电路710、存储器720、输入单元730、显示单元740、传感器750、音频电路760、无线保真(英文全称:wireless fidelity,英文缩写:WiFi)模块770、处理器780、以及电源790等部件。本领域技术人员可以理解,图7中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储器720可用于存储软件程序以及模块,处理器780通过运行存储在存储器720的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器720可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器780是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器720内的软件程序和/或模块,以及调用存储在存储器720内的数据,执行手机的各种功能和处理数据。可选的,处理器780可包括一个或多个处理单元;优选的,处理器780可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器780中。
在本申请实施例中,该终端所包括的处理器780还具有以下功能:
获取发送端录制的第一音频信号,确定所述第一音频信号中目标业务指定的业务频段内各频点的心理声学掩蔽阈值;
获取接收端录制的第二音频信号,确定所述第二音频信号中所述业务频段内各频点的背景环境噪声估计值;
根据所述第一音频信号中所述业务频段内各频点的心理声学掩蔽阈值和所述第二音频信号中所述业务频段内各频点的背景环境噪声估计值,确定所述业务频段内各频点对应的掩蔽标记;
根据所述业务频段内各频点对应的掩蔽标记确定所述业务频段的掩蔽率;
根据所述业务频段内的掩蔽率确定第一参考码率;
至少基于所述第一参考码率,配置音频编码器的编码码率。
可选的,所述处理器780还用于执行本申请实施例提供的编码参数调控方法的任意一种实现方式的步骤。
本申请实施例还提供了一种服务器,图8是本申请实施例提供的一种服务器的结构示意图,该服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)822(例如,一个或一个以上处理器)和存储器832,一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器822可以设置为与存储介质830通信,在服务器800上执行存储介质830中的一系列指令操作。
服务器800还可以包括一个或一个以上电源826,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口858,和/或,一个或一个以上操作系统841,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图8所示的服务器结构。
其中,CPU 822用于执行如下步骤:
获取发送端录制的第一音频信号,确定所述第一音频信号中目标业务指定的业务频段内各频点的心理声学掩蔽阈值;
获取接收端录制的第二音频信号,确定所述第二音频信号中所述业务频段内各频点的背景环境噪声估计值;
根据所述第一音频信号中所述业务频段内各频点的心理声学掩蔽阈值和所述第二音频信号中所述业务频段内各频点的背景环境噪声估计值,确定所述业务频段内各频点对应的掩蔽标记;
根据所述业务频段内各频点对应的掩蔽标记确定所述业务频段的掩蔽率;
根据所述业务频段的掩蔽率确定第一参考码率;
至少基于所述第一参考码率,配置音频编码器的编码码率。
可选的,CPU 822还可以用于执行本申请实施例中编码参数调控方法的任意一种实现方式的步骤。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行前述各个实施例所述的一种编码参数调控方法中的任意一种实施方式。
本申请实施例还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例所述的一种编码参数调控方法中的任意一种实施方式。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (16)

1.一种编码参数调控方法,其特征在于,包括:
获取发送端录制的第一音频信号,确定所述第一音频信号中目标业务指定的业务频段内各频点的心理声学掩蔽阈值;
获取接收端录制的第二音频信号,确定所述第二音频信号中所述业务频段内各频点的背景环境噪声估计值;
根据所述第一音频信号中所述业务频段内各频点的心理声学掩蔽阈值和所述第二音频信号中所述业务频段内各频点的背景环境噪声估计值,确定所述业务频段内各频点对应的掩蔽标记,其中,若频点的背景环境噪声估计值与心理声学掩蔽阈值之间的比例大于预设阈值比例,则确定频点对应的掩蔽标记表征所述第一音频信号在该频点上被接收端的背景环境噪声所掩蔽,否则,确定频点对应的掩蔽标记表征所述第一音频信号在该频点上没有被接收端的背景环境噪声所掩蔽;
根据所述业务频段内各频点对应的掩蔽标记确定所述业务频段的掩蔽率;
根据所述业务频段的掩蔽率确定第一参考码率;
至少基于所述第一参考码率,配置音频编码器的编码码率。
2.根据权利要求1所述方法,其特征在于,所述根据所述业务频段的掩蔽率确定第一参考码率,包括:
当所述业务频段的的掩蔽率小于第一预设阈值时,将预设第一可用码率作为第一参考码率;
当所述业务频段的掩蔽率不小于第一预设阈值时,将预设第二可用码率作为第一参考码率;其中,所述预设第二可用码率小于所述预设第一可用码率。
3.根据权利要求1所述方法,其特征在于,所述根据所述业务频段的掩蔽率确定第一参考码率,包括:
将所述业务频段的掩蔽率与预设多个相邻阈值区间进行匹配,确定与所述业务频段的掩蔽率匹配的阈值区间作为目标阈值区间;其中,不同相邻阈值区间对应于不同参考码率;
将所述目标阈值区间对应的参考码率作为第一参考码率。
4.根据权利要求1至3中任一项所述方法,其特征在于,所述至少基于所述第一参考码率,配置音频编码器的编码码率,包括:
获取第二参考码率,所述第二参考码率根据网络带宽而确定;
基于所述第一参考码率和所述第二参考码率中最小值,为音频编码器的编码码率进行赋值。
5.根据权利要求1所述方法,其特征在于,在所述至少基于所述第一参考码率,配置音频编码器的编码码率之前,所述方法还包括:
从候选采样率列表中选择满足第一预设条件的最大候选采样率,作为第一参考采样率;所述第一预设条件是指候选采样率对应的目标频带的掩蔽率大于第二预设阈值,所述候选采样率的目标频带是指候选采样率对应的目标频率以上的频率区域,所述候选采样率对应的目标频率是根据所述候选采样率对应的最高频率和预设比例确定的;
至少基于所述第一参考采样率,配置音频编码器的编码采样率;
所述至少基于所述第一参考码率,配置音频编码器的编码码率包括:
基于所述第一参考码率以及与所述编码采样率匹配的第二参考码率,配置音频编码器的编码码率。
6.根据权利要求5所述方法,其特征在于,所述从候选采样率列表中选择满足第一预设条件的最大候选采样率,包括:
按照所述候选采样率列表中候选采样率的降序排序顺序,依次确定当前候选采样率对应的目标频带的掩蔽率是否满足所述第一预设条件;
当所述当前候选采样率满足所述第一预设条件时,则将所述当前候选采样率作为第一参考采样率;
当所述当前候选采样率不满足所述第一预设条件时,则按照所述候选采用率列表的降序排序确定所述当前候选采样率的下一个候选采样率是否满足所述第一预设条件。
7.根据权利要求5或6所述方法,其特征在于,所述至少基于所述第一参考采样率,配置音频编码器的编码采样率,包括:
获取第二参考采样率,所述第二参考采样率根据终端处理能力而确定;
基于所述第一参考采样率和所述第二参考采样率中最小值,为音频编码器的编码采样率进行赋值。
8.根据权利要求1至3以及5至6中任一项所述方法,其特征在于,针对所述接收端接收到的第二音频信号,确定所述第二音频信号中所述业务频段内各频点的背景环境噪声估计值,包括:
确定所述第二音频信号的功率谱;
对所述第二音频信号的功率谱进行时频域平滑处理;
基于所述平滑处理后的功率谱,通过最小跟踪法求带噪声语音的最小值,作为噪声的粗略估计;
根据所述噪声的粗略估计和所述平滑处理后的功率谱,确定语音存在概率;
根据所述语音存在概率确定所述第二音频信号中所述业务频段内各频点的背景环境噪声估计值。
9.一种编码参数调控装置,其特征在于,包括:
心理声学掩蔽阈值确定模块,用于获取发送端录制的第一音频信号,确定所述第一音频信号中目标业务指定的业务频段内各频点的心理声学掩蔽阈值;
背景环境噪声估计值确定模块,用于获取接收端录制的的第二音频信号,确定所述第二音频信号中所述业务频段内各频点的背景环境噪声估计值;
掩蔽标记模块,用于根据所述第一音频信号中所述业务频段内各频点的心理声学掩蔽阈值和所述第二音频信号中所述业务频段内各频点的背景环境噪声估计值,确定所述业务频段内各频点对应的掩蔽标记,其中,若频点的背景环境噪声估计值与心理声学掩蔽阈值之间的比例大于预设阈值比例,则确定频点对应的掩蔽标记表征所述第一音频信号在该频点上被接收端的背景环境噪声所掩蔽,否则,确定频点对应的掩蔽标记表征所述第一音频信号在该频点上没有被接收端的背景环境噪声所掩蔽;
掩蔽率确定模块,用于根据所述业务频段内各频点对应的掩蔽标记确定所述业务频段的掩蔽率;
第一参考码率确定模块,用于根据所述业务频段的掩蔽率确定第一参考码率;
配置模块,用于至少基于所述第一参考码率,配置音频编码器的编码码率。
10.根据权利要求9所述装置,其特征在于,所述第一参考码率确定模块,具体用于:
当所述业务频段的掩蔽率小于第一预设阈值时,将预设第一可用码率作为第一参考码率;
当所述业务频段的掩蔽率不小于第一预设阈值时,将预设第二可用码率作为第一参考码率;其中,所述预设第二可用码率小于所述预设第一可用码率。
11.根据权利要求9所述装置,其特征在于,所述第一参考码率确定模块,具体用于:
将所述业务频段的掩蔽率与预设多个相邻阈值区间进行匹配,确定与所述业务频段的掩蔽率匹配的阈值区间作为目标阈值区间;其中,不同相邻阈值区间对应的不同参考码率;
将所述目标阈值区间对应的参考码率作为第一参考码率。
12.根据权利要求9至11中任一项所述装置,其特征在于,所述配置模块,具体用于:
获取第二参考码率,所述第二参考码率根据网络带宽而确定;
基于所述第一参考码率和所述第二参考码率中最小值,为音频编码器的编码码率进行赋值。
13.根据权利要求9所述装置,其特征在于,所述装置还包括:
第一参考采样率确定模块,用于从候选采样率列表中选择满足第一预设条件的最大候选采样率,作为第一参考采样率;所述第一预设条件是指候选采用率对应的目标频带的掩蔽率大于第二预设阈值,所述候选采样率的目标频带是指候选采样率对应的目标频率以上的频率区域,所述候选采样率对应的目标频率是根据所述候选采样率对应的最高频率和预设比例确定的;
所述配置模块还用于:至少基于所述第一参考采样率,配置音频编码器的编码采样率;并且在配置音频编码器的编码码率时,具体用于:
基于所述第一参考码率以及与所述编码采样率匹配的第二参考码率,配置音频编码器的编码码率。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行权利要求1至8中任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1至8中任一项所述的方法。
16.一种计算机程序产品,其特征在于,包含指令,当其在计算机上运行时,使得所述计算机执行权利要求1至8中任一项所述的方法。
CN201910677220.0A 2019-07-25 2019-07-25 一种编码参数调控方法、装置、设备及存储介质 Active CN110265046B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910677220.0A CN110265046B (zh) 2019-07-25 2019-07-25 一种编码参数调控方法、装置、设备及存储介质
PCT/CN2020/098396 WO2021012872A1 (zh) 2019-07-25 2020-06-28 一种编码参数调控方法、装置、设备及存储介质
US17/368,609 US11715481B2 (en) 2019-07-25 2021-07-06 Encoding parameter adjustment method and apparatus, device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910677220.0A CN110265046B (zh) 2019-07-25 2019-07-25 一种编码参数调控方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110265046A CN110265046A (zh) 2019-09-20
CN110265046B true CN110265046B (zh) 2024-05-17

Family

ID=67928164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910677220.0A Active CN110265046B (zh) 2019-07-25 2019-07-25 一种编码参数调控方法、装置、设备及存储介质

Country Status (3)

Country Link
US (1) US11715481B2 (zh)
CN (1) CN110265046B (zh)
WO (1) WO2021012872A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110265046B (zh) 2019-07-25 2024-05-17 腾讯科技(深圳)有限公司 一种编码参数调控方法、装置、设备及存储介质
CN110992963B (zh) * 2019-12-10 2023-09-29 腾讯科技(深圳)有限公司 网络通话方法、装置、计算机设备及存储介质
CN111292768B (zh) * 2020-02-07 2023-06-02 腾讯科技(深圳)有限公司 丢包隐藏的方法、装置、存储介质和计算机设备
CN113314133A (zh) * 2020-02-11 2021-08-27 华为技术有限公司 音频传输方法及电子设备
CN112820306B (zh) * 2020-02-20 2023-08-15 腾讯科技(深圳)有限公司 语音传输方法、系统、装置、计算机可读存储介质和设备
CN111341302B (zh) * 2020-03-02 2023-10-31 苏宁云计算有限公司 一种语音流采样率确定方法及装置
CN111370017B (zh) * 2020-03-18 2023-04-14 苏宁云计算有限公司 一种语音增强方法、装置、系统
CN111462764B (zh) * 2020-06-22 2020-09-25 腾讯科技(深圳)有限公司 音频编码方法、装置、计算机可读存储介质及设备
CN117392994B (zh) * 2023-12-12 2024-03-01 腾讯科技(深圳)有限公司 一种音频信号处理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101494054A (zh) * 2009-02-09 2009-07-29 深圳华为通信技术有限公司 一种音频码率控制方法及系统
CN104837042A (zh) * 2015-05-06 2015-08-12 腾讯科技(深圳)有限公司 数字多媒体数据的编码方法和装置
CN108736982A (zh) * 2017-04-24 2018-11-02 腾讯科技(深圳)有限公司 声波通信处理方法、装置及电子设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3131542B2 (ja) * 1993-11-25 2001-02-05 シャープ株式会社 符号化復号化装置
JP2002196792A (ja) * 2000-12-25 2002-07-12 Matsushita Electric Ind Co Ltd 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム
CN1461112A (zh) * 2003-07-04 2003-12-10 北京阜国数字技术有限公司 一种基于极小化全局噪声掩蔽比准则和熵编码的量化的音频编码方法
KR100851970B1 (ko) * 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
KR20090122142A (ko) * 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
ATE550754T1 (de) * 2009-07-30 2012-04-15 Nxp Bv Verfahren und vorrichtung zur aktiven geräuschsminderung unter anwendung von wahrnehmungsmaskierung
CA2916150C (en) * 2013-06-21 2019-06-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method realizing improved concepts for tcx ltp
CN110265046B (zh) * 2019-07-25 2024-05-17 腾讯科技(深圳)有限公司 一种编码参数调控方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101494054A (zh) * 2009-02-09 2009-07-29 深圳华为通信技术有限公司 一种音频码率控制方法及系统
CN104837042A (zh) * 2015-05-06 2015-08-12 腾讯科技(深圳)有限公司 数字多媒体数据的编码方法和装置
CN108736982A (zh) * 2017-04-24 2018-11-02 腾讯科技(深圳)有限公司 声波通信处理方法、装置及电子设备

Also Published As

Publication number Publication date
CN110265046A (zh) 2019-09-20
US11715481B2 (en) 2023-08-01
US20210335378A1 (en) 2021-10-28
WO2021012872A1 (zh) 2021-01-28

Similar Documents

Publication Publication Date Title
CN110265046B (zh) 一种编码参数调控方法、装置、设备及存储介质
TWI463817B (zh) 可適性智慧雜訊抑制系統及方法
JP4968147B2 (ja) 通信端末、通信端末の音声出力調整方法
US20120263317A1 (en) Systems, methods, apparatus, and computer readable media for equalization
US20070136056A1 (en) Noise Pre-Processor for Enhanced Variable Rate Speech Codec
US10311879B2 (en) Audio signal coding apparatus, audio signal decoding apparatus, audio signal coding method, and audio signal decoding method
CN103915103A (zh) 语音质量增强系统
CN112334980B (zh) 自适应舒适噪声参数确定
WO2009097417A1 (en) Improving sound quality by intelligently selecting between signals from a plurality of microphones
WO2009135192A1 (en) System and method for dynamic sound delivery
EP1769492A1 (en) Comfort noise generator using modified doblinger noise estimate
JP6073456B2 (ja) 音声強調装置
US11037581B2 (en) Signal processing method and device adaptive to noise environment and terminal device employing same
US6999920B1 (en) Exponential echo and noise reduction in silence intervals
CN112530444A (zh) 音频编码方法和装置
US9172791B1 (en) Noise estimation algorithm for non-stationary environments
JP2003514264A (ja) 雑音抑圧装置
CN110168640B (zh) 用于增强信号中需要分量的装置和方法
JP4509413B2 (ja) 電子機器
JP4533517B2 (ja) 信号処理方法および信号処理装置
CN112151046A (zh) Lc3编码器自适应调节多声道传输码率的方法、装置及介质
US20240144947A1 (en) Near-end speech intelligibility enhancement with minimal artifacts
US20230138240A1 (en) Compensating Noise Removal Artifacts
JP6098038B2 (ja) 音声補正装置、音声補正方法及び音声補正用コンピュータプログラム
CN115713942A (zh) 音频处理方法、装置、计算设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant