CN112382305B - 调节音频信号的方法、装置、设备和存储介质 - Google Patents

调节音频信号的方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN112382305B
CN112382305B CN202011199552.1A CN202011199552A CN112382305B CN 112382305 B CN112382305 B CN 112382305B CN 202011199552 A CN202011199552 A CN 202011199552A CN 112382305 B CN112382305 B CN 112382305B
Authority
CN
China
Prior art keywords
audio signal
frequency
relationship
reverberation time
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011199552.1A
Other languages
English (en)
Other versions
CN112382305A (zh
Inventor
张在东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011199552.1A priority Critical patent/CN112382305B/zh
Publication of CN112382305A publication Critical patent/CN112382305A/zh
Application granted granted Critical
Publication of CN112382305B publication Critical patent/CN112382305B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了一种调节音频信号的方法、装置、设备和存储介质,应用于智能语音领域和云计算领域。具体实现方案为:获取当前环境中的测试音频信号;确定在当前环境中测试音频信号的混响时间与频率之间的第一关系;以及根据第一关系调节待输出音频信号的增益与待输出音频信号的频率之间的第二关系,以调节待输出音频信号的音质。

Description

调节音频信号的方法、装置、设备和存储介质
技术领域
本申请涉及信号处理领域,具体涉及智能语音领域和云计算领域,更具体地涉及一种调节音频信号的方法、装置、设备和存储介质。
背景技术
随着智能设备的发展和经济水平的提高,人们对智能设备提出更高的视听要求。
相关技术中,为了使得智能设备的输出音频能够满足不同场景的需求,可以通过调节智能设备中喇叭的转向,或者输出音频信号的增益与频率之间的关系来提高输出音频的音质。但相关技术中的调节方法存在调节精度低,输出音频的音质仍无法满足高音质需求的情况。
发明内容
提供了一种用于根据实际场景精准调整音频音质的调节音频信号的方法、装置、设备以及存储介质。
根据第一方面,提供了一种调节音频信号的方法,包括:获取当前环境中的测试音频信号;确定在当前环境中测试音频信号的混响时间与频率之间的第一关系;以及根据第一关系调节待输出音频信号的增益与待输出音频信号的频率之间的第二关系,以调节待输出音频信号的音质。
根据第二方面,提供了一种调节音频信号的装置,包括:音频获取模块,用于获取当前环境中的测试音频信号;关系确定模块,用于确定在当前环境中测试音频信号的混响时间与频率之间的第一关系;以及关系调节模块,用于根据第一关系调节待输出音频信号的增益与待输出音频信号的频率之间的第二关系,以调节待输出音频信号的音质。
根据第三方面,提供了一种电子设备,包括:播放器,用于播放测试音频信号;拾音器,用于获取电子设备所在环境中的测试音频信号;至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行以下操作:确定在电子设备所在环境中测试音频信号的混响时间与频率之间的第一关系;以及根据第一关系调节待输出音频信号的增益与待输出音频信号的频率之间的第二关系,以调节待输出音频信号的音质。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本申请提供的调节音频信号的方法。
根据第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本申请提供的调节音频信号的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例的调节音频信号的方法、装置、设备和存储介质的应用场景示意图;
图2是根据本申请实施例的调节音频信号的方法的流程示意图;
图3是根据本申请实施例的确定测试音频信号的混响时间与频率之间的第一关系的原理示意图;
图4是根据本申请实施例的根据第一关系调节第二关系的原理示意图;
图5是根据本申请实施例的根据差值调节第二关系的原理示意图;
图6是根据本申请实施例的获取混响时间与频率之间的基准关系的原理示意图;
图7是根据本申请实施例的调节音频信号的装置的结构框图;以及
图8是用来实现本申请实施例的调节音频信号的方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请提供了一种调节音频信号的方法。该方法先获取当前环境中的测试音频信号。随后确定在当前环境中测试音频信号的混响时间与频率之间的第一关系。最后根据第一关系调节待输出音频信号的增益与待输出音频信号的频率之间的第二关系,以调节待输出音频信号的音质。
以下将结合图1对本申请提供的方法和装置的应用场景进行描述。
图1是根据本申请实施例的调节音频信号的方法、装置、设备和存储介质的应用场景图。
如图1所示,该实施例的应用场景100例如可以包括放置在空间110中的电子设备120,该电子设备120具有音频采集功能和音频输出功能。
根据本申请的实施例,空间110例如可以为用户的居住场所、商场、会议室、电影院、演奏大厅等围成的封闭或半封闭空间。电子设备120例如可以包括台式计算机、膝上型便携计算机、智能手机、平板电脑、智能音箱、智能手表等设备。
示例性地,电子设备120中可以至少设置有喇叭、麦克风和处理器。处理器用于控制喇叭播放音频,并控制麦克风用于拾取音频。在一实施例中,如图1所示,处理器可以控制喇叭播放测试音频130,该测试音频130经由音箱所在空间110中的墙壁反射后,由麦克风拾取到电子设备120中。电子设备120可以根据拾取到的音频信号来确定空间110的混响参数,并根据混响参数对输出音频进行调整。从而使得喇叭最终输出的音频140更贴合空间110对音质的需求,提高用户体验。
示例性地,电子设备120例如还可以与云端平台通信连接,电子设备120例如还可以将经由麦克风拾取到的音频发送给云端平台。由云端平台对拾取到的音频进行处理得到混响参数,并根据混响参数对输出音频进行调整。此种情况下,云端平台可以仅将调整后的输出音频发送给电子设备120,供电子设备120播放。
需要说明的是,本申请实施例提供的调节音频信号的方法一般可以由电子设备120执行,或者与电子设备120通信连接的云端平台执行。相应地,本申请实施例提供的调节音频信号的装置一般可以设置在电子设备120中,或者可以为设置在云端平台的虚拟模块等。
应该理解,图1中的电子设备、空间、电子设备包括的拾取音频的器件和播放音频的器件的类型仅仅是示意性的。根据实现需要,可以具有任意类型的电子设备、空间、拾取音频的器件和播放音频的器件。
以下将结合图1描述的应用场景,通过图2~图6对本申请实施例提供的调节音频信号的方法进行详细描述。
如图2所示,该实施例的调节音频信号的方法200可以包括操作S220、操作S240和操作S260。
在操作S220,获取当前环境中的测试音频信号。
根据本申请的实施例,测试音频信号可以为电子设备发出的白噪声信号、周期性产生的声音信号等。该测试音频信号可以通过电子设备中的拾音器(例如麦克风)拾取电子设备所在环境中测试音频信号的反射信号来得到。或者,测试音频信号可以由电子设备通过对喇叭播放的测试音频进行录音来得到测试音频信号。
根据本申请的实施例,在该调节音频信号的方法由与电子设备通信连接的云端平台或其他设备执行时,操作S220可以定期从电子设备中获取电子设备采集到的测试音频信号。
在操作S240,确定在当前环境中测试音频信号的混响时间与频率之间的第一关系。
根据本申请的实施例,可以在获取到测试音频信号后,通过电子设备或云端平台中安装的音频频响测试软件来计算测试音频信号各频率的混响时间(ReverberationTime)。其中,混响时间是指空间内声源达到稳定状态后,声源停止发声后,声压级减少预定值所需要的时间,其单位为秒。混响时间的大小取决于空间尺寸和形状以及吸音表面的数量、质量和位置。空间的吸音性能越好,混响时间越小。其中,预定值例如可以为60dB、45dB、30dB等任意的值,该预定值的取值可以根据实际需求进行设定。
根据本申请的实施例,可以预先在电子设备中存储计算混响时间的逻辑代码。在电子设备获取到测试音频信号后,电子设备的处理器通过运行该逻辑代码可以得到测试音频信号的各频率的混响时间。
在得到测试音频信号的各频率的混响时间后,可以根据该混响时间与频率的对应关系,模拟得到混响时间与频率之间的第一关系。根据该第一关系,可以获取到任一频率的混响时间。
示例性地,可以以频率为横坐标,以混响时间为纵坐标构建坐标系。随后根据得到的混响时间与频率的对应关系模拟得到混响时间-频率曲线。并以该曲线反应的混响时间与频率之间的关系作为第一关系。
在操作S260,根据第一关系调节待输出音频信号的增益与待输出音频信号的频率之间的第二关系,以调节待输出音频信号的音质。
根据本申请的实施例,可以在根据第一关系确定的混响时间小于第一预定值时,增大待输出音信号中各音频的增益值,以此延长输出的音频信号的延续时长,使得音频的听感更加饱满。可以在根据第一关系确定的混响时间大于第二预定值时,减小待输出音信号中各音频的增益值,以此缩短输出的音频信号的延续时长,使得音频更加清晰,避免音频的轰鸣浑浊。其中,第一预定值和第二预定值可以根据电子设备所在环境中对音频的实际需求进行设定。例如,对于演奏大厅,可以设定较大的第一预定值和第二预定值,对于会议室,可以设定较小的第一预定值和第二预定值。
综上可知,本申请实施例通过根据电子设备所在环境中的测试音频信号确定混响时间与频率之间的第一关系,并根据第一关系调节待输出音频信号的增益,可以使得最终输出的音频信号适配于电子设备所在环境,从而可以针对不同环境提高输出音频信号的音质,提高用户体验。
以下将通过一实施例详细描述确定测试音频信号的混响时间与频率之间的第一关系的原理。
图3是根据本申请实施例的确定测试音频信号的混响时间与频率之间的第一关系的原理示意图。
确定在当前环境中测试音频信号的混响时间与频率之间的第一关系的操作例如可以通过以下原理来实现。
如图3所示,在该实施例300中,可以先根据获取到的测试音频信号,确定测试音频信号的振荡幅值与频率之间的第三关系。其中,该第三关系例如可以由频率谱密度曲线(即频谱曲线310)来体现。该频谱曲线的横坐标为频率,纵坐标为能量值,即音频信号的振荡幅值。
示例性地,电子设备的麦克风可以对喇叭播放的测试音频进行录音后,按照固定采样点长度对录制得到的音频S1进行快速傅里叶变换(Fast Fourier Transform,FFT)分析,以将音频信号从时域变换至频域,得到频谱曲线310。
随后根据第三关系,确定测试音频信号中多个预设频率信号各自的信号强度随时间的衰减关系。示例性地,可以从测试音频信号中确定多个频率点。如图3所示,例如可以确定得到第一频率点321、第二频率点322、...、第n频率点323总共n个频率点,其中,n为正整数。针对每个频率点,得到信号强度随时间变化的衰减曲线,分别得到第一衰减曲线331、第二衰减曲线332、...、第n衰减曲线333。
示例性地,可以根据预设倍频程来确定测试音频信号中的多个预设频率信号。其中,预设倍频程例如可以取1/3oct、1/6oct、1/12oct、1/24oct等。本申请对该预设倍频程的取值不作限定,可以根据实际需求来设定预设倍频程的取值。预设倍频程的取值越小,则确定的频率点的个数越多。其中,频程的划分采用恒定带宽比,即保持频带的上、下限之比为一常数。若使每一频带的上限频率比下限频率高一倍,即频率之比为2,这样划分的每一个频程为1倍频程,如果在一个倍频程的上、下限频率之间再插入两个频率,使4个频率之间的比值相同,这样将一个倍频程划分为3个频程,称这种频程为1/3oct。
示例性地,可以针对选择的每个频率点,对频谱曲线进行希尔伯特变换,可以转换得到每个频率点的信号强度随时间的衰减曲线(Energy Time Curve,ETC)。
在得到各预设频率信号的衰减关系后,可以根据衰减关系,确定多个预设频率信号各自的混响时间。其中,根据每个频率点的衰减关系,可以得到一个混响时间。例如,如图3所示,可以分别得到针对第一频率点的第一混响时间341、针对第二频率点的第二混响时间342、...、针对第n频率点的第n混响时间343。
根据本申请的实施例,在实际测量中,可以根据衰减曲线在预设信号强度衰减范围内的平均斜率确定混响时间。其中,衰减范围与混响时间对应的声压级的降低值相对应。例如,若混响时间为声压级降低30dB的时长时,衰减范围可以为5dB-35dB。
示例性地,通常采用声压级降低60dB所需的时长来表示混响时间。本实施例考虑到衰减量程的限制和本底噪音的干扰,选择声压级降低30dB所需的时长为混响时间。其中,本底噪声是指电声系统中除有用信号以外的总噪声。对于电子设备(例如音箱)而言,本底噪声为电子设备产生的噪声和电子设备所在环境产生的噪声。
在得到多个预设频率信号各自的混响时间后,可根据该混响时间确定测试音频信号的混响时间与频率之间的第一关系。
根据本申请的实施例,可以根据混响时间与频率之间的对应关系,拟合得到混响时间与频率之间的函数关系,并将该函数关系作为第一关系。或者,如图3所示,可以根据混响时间与频率之间的对应关系,拟合得到混响时间随频率变化的变化曲线350,通过该曲线350体现混响时间与频率之间的第一关系。
以下将通过一实施例详细描述根据第一关系调节第二关系的原理。
图4是根据本申请实施例的根据第一关系调节第二关系的原理示意图。
根据本申请的实施例,如图4所示,该实施例400中可以预先设定有混响时间与频率之间的基准关系410。
示例性地,基准关系410例如可以在标准混响室条件,通过采用与前述获取到第一关系的方法类似的方法获取得到。
示例性地,基准关系410例如还可以在获取测试音频信号的当前环境中预先测量到混响时间与频率之间的关系后,用户根据感受到的输出音频的音质对混响时间与频率之间的关系进行人为调节之后得到。通过在该当前环境中调节得到基准关系410,可以使得基准关系410能够更贴合当前环境中的音质要求。例如,对于可能使用电子设备的各种环境,可以预先得到针对各个环境的基准关系。
根据本申请的实施例,如图4所示,在根据第一关系调节第二关系时,可以先获取该预先得到的混响时间与频率之间的基准关系。随后针对前述n个频率点中的第i个频率点,得到根据前述确定的混响时间与频率之间的第一关系420确定的混响时间Ti1,并得到根据基准关系410确定的混响时间Ti2。随后根据混响时间Ti1与混响时间Ti2的差值来对第二关系进行调节,得到调节后的第二关系。
示例性地,如图4所示,针对n个频率点中的第一频率点431,可以得到混响时间T11441a和混响时间T12 441b,并根据两者的差值得到第一混响时间差值451。类似地,针对n个频率点中的第二频率点432,可以得到混响时间T21 442a和混响时间T22 442b,并根据两者的差值得到第一混响时间差值452。以此类推,针对n个频率点中的第n频率点433,可以得到混响时间Tn1 443a和混响时间Tn2 443b,并根据两者的差值得到第n混响时间差值453,总共得到n个混响时间差值。最后,根据n个混响时间差值对第二关系进行调节,得到调节后的第二关系,具体可以是得到调节后的增益-频率曲线460。
根据本申请的实施例,在对第二关系进行调节时,若混响时间Ti1大于混响时间Ti2,则可以减小第二关系中对应频率处输出音频信号的增益,以避免因输出音频信号的混响时间过长导致的声音轰鸣浑浊的情况。若混响时间Ti1小于混响时间Ti2,则可以增大第二关系中对应频率处输出音频信号的增益,以避免因输出音频信号的混响时间过短导致的声音饱满度较低,视听享受差的情况。
综上可知,本申请实施例的方法通过引入基准关系,可以向根据第一关系调节第二关系的过程提供参考,使得最终输出音频信号的音质更贴合各个环境的要求,从而提高用户的视听享受。
以下将通过一实施例详细描述根据n个差值调节第二关系的原理。
图5是根据本申请实施例的根据差值调节第二关系的原理示意图。
如图5所示,该实施例500可以先将输出音频信号510划分为多个频段的音频信号。例如,可以划分得到第一频段511的音频信号、第二频段512的音频信号、...、第p频段513的音频信号,总共得到p个频段的音频信号。其中,在对音频信号进行划分时,可以根据预设规则进行划分,以将频率相近、对音质的影响相似的多个频率点划分至同一个频段。
示例性地,可以将输出音频信号510划分为如下表所示的六个频段的音频信号。六个频段分别为低频、中低频、中频、中高频、高频和极高频。各频段对应的频率范围如下表所示。
频段 低频/HZ 中低频/HZ 中频/HZ 中高频/HZ 高频/HZ 极高频/HZ
频率范围 40~80 80~160 160~1280 1280~2560 2560~5120 5120~20K
根据本申请的实施例,在划分得到p个频段的情况下,如图5所示,可以根据各频段中各频率点的混响时间的差值,来确定各频率点的增益调节量。例如,对于第一频段511,可以得到各频率点的混响时间的差值521,并根据该差值521确定第一频段中各频率点的增益调节量531。对于第二频段512,可以得到各频率点的混响时间的差值522,并根据该差值522确定第二频段中各频率点的增益调节量532。以此类推,对于第p频段513,可以得到各频率点的混响时间的差值523,并根据该差值523确定第p频段中各频率点的增益调节量533。最后根据各频率点的增益调节量,调节待输出音频信号在各频率点的增益值,得到调整后的增益-频率曲线540。
采用该实施例的确定增益调节量的方法,可以考虑到不同频段的音频对输出音频的听觉效果影响的不同,且用户对各频段的音频信号敏感度的不同,对各频段的增益调节量针对性地进行调节,从而精准地提高输出音频的音质。例如,低频音频信号的增益值的提高能够提升输出音频的强有力的感觉,但若提高过多,则会因为过响而造成不佳的听感。中低频音频信号的增益值的提高能够提升输出音频的饱满度,但若提高过多容易衰减频段的音频,导致声音变单薄等。
根据本申请的实施例,各频率点的混响时间的差值与增益调节量之间例如可以负相关,以此在混响时间的差值大于0时,降低各频率点的增益值,在混响时间的差值小于0时,增大各频率点的增益值。
示例性地,对于属于低频和中低频段的频率点的音频信号,若混响时间的差值小于0,可以增大该频率点的增益值,以增强该频段的音频信号所烘托出的氛围感和密度感。若混响时间的差值大于0,可以对该频率点的增益值进行衰减,以避免出现音频信号轰鸣浑浊的情况。
示例性地,对于属于中频和中高频段的频率点的音频信号,若混响时间的差值小于0,可以增大该频率点的增益值,以增强音频信号的饱满度。若混响时间的差值大于0,可以对该频率点的增益值进行衰减,以避免因混响时间过长而导致的音频浑浊不清晰的情况。其中,在输出音频信号为根据文本转换得到的语音信号时,通过前述增大增益值的方法,可以使得语音信号更加清晰明亮;通过前述对增益值进行衰减的方法,可以避免语音信号因回音影响导致不清晰的情况。
示例性地,对于属于高频段的频率点的音频信号,若混响时间的差值小于0,可以增大该频率点的增益值。若混响时间的差值大于0,可以对该频率点的增益值进行衰减,以提高音频的还原度。其中,考虑到电子设备发出的音频信号一般不包括极高频段的频率,则该实施例可以不予考虑。
根据本申请的实施例,可以通过以下公式来调节第二关系。其中,f(x)为初始的第二关系,fex(x)为调节后的第二关系,T(x)为根据第一关系确定的混响时间,Tref(x)为根据基准关系确定的混响时间,-F[T(x)-Tref(x)]为增益调节量与混响时间差值之间的函数关系。A为常量,用于修正增益值,该常量可以根据实际需求进行设定,本申请对此不作限定。
fex(x)=f(x)-F[T(x)-Tref(x)]+A
示例性地,对于不同频段的音频信号,增益调节量与混响时间差值之间的函数关系可以不同。例如,在增益调节量与混响时间差值之间负相关时,负相关的相关系数与差值的取值所在的频段相关联。例如,若增益调节量ΔG与差值的比值为k,则对于不同的频段,k的取值不相等。例如,对于上述多个频段,在低频频段、中低频频段和高频频段,该k的取值可以较大;而在中频频段,k的取值可以较小。通过该相关系数的设置,可以实现对各频段的增益值的针对性调节,从而可以提高音频信号的音质的调节精度,使得音频信号能够更精准的适配于不同的环境。
以下将通过一实施例详细描述获取基准关系的原理。
图6是根据本申请实施例的获取混响时间与频率之间的基准关系的原理示意图。
根据本申请的实施例,在电子设备为智能语音设备,用于与用户进行交互时,该实施例可以根据预先测量的对音质的评价值和预先测量的唤醒识别率,确定所述混响时间与频率之间的基准关系。从而使得电子设备输出的音频信号的音质能够在满足用户的听觉享受的同时,保证电子设备安装的语音助手具有较高的唤醒识别率。
如图6所示,该实施例600可以在标准混响室条件下,采用前述确定第一关系的类似方法得到混响时间曲线,以作为初始基准关系610。随后将电子设备放置到所需环境中,根据该初始基准关系610输出音频信号620。根据多次输出的音频信号620确定音质的评价值630和电子设备的唤醒识别率640。最后,根据音质的评价值630和电子设备的唤醒识别率640对初始基准关系610进行调节,以在保证唤醒识别率640达到预设识别率的基础上,尽可能的提高音质的评价值630。其中,预设识别率可以为90%、95%等接近于1的值。可以理解的是,预设识别率可以根据实际需求进行设定,本申请对此不作限定。
示例性地,可以使用客观语音质量评估(Perceptual evaluation of speechquality,PESQ)工具来对电子设备输出的音频信号的语音质量进行量化评测,得到音质的评价值。可以采用播测方式测试得到电子设备的唤醒识别率。
示例性地,在电子设备所在环境的回声较大时,会影响电子设备的唤醒识别率。考虑到播放器在低频的谐波失真相对较大,该谐波失真会对声学回声消除(Acoustic EchoCancellation,AEC)的效果带来严重的影响。为了提高唤醒识别率,一般需要将低频音频信号滤除。但若通过降低低频音频信号的增益值而将低频的音频信号滤除,会降低输出的音频信号的音质。因此,本申请实施例通过前述确定基准关系的方法,可以较好的平衡唤醒识别率和音质。例如可以在保证唤醒识别率满足需求的情况下,尽可能地提高音频信号的音质,从而可以提高用户体验。
以下将结合图7,对基于前述调节音频信号的方法提出的调节音频信号的装置进行描述。
图7是根据本申请实施例的调节音频信号的装置的结构框图。
如图7所示,该实施例的调节音频信号的装置700可以包括音频获取模块720、关系确定模块740和关系调节模块760。
音频获取模块720用于获取当前环境中的测试音频信号。在一实施例中,音频获取模块720可以用于执行图2描述的操作S220,在此不再赘述。
关系确定模块740用于确定在当前环境中测试音频信号的混响时间与频率之间的第一关系。在一实施例中,关系确定模块740可以用于执行图2描述的操作S240,在此不再赘述。
关系调节模块760用于根据第一关系调节待输出音频信号的增益与待输出音频信号的频率之间的第二关系,以调节待输出音频信号的音质。在一实施例中,关系调节模块760可以用于执行图2描述的操作S260,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。计算机程序产品包括计算机程序,所述计算机程序在被处理器执行时可以实现上述任意实施例的方法。
如图8所示,是用来实现本申请实施例的调节音频信号的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图8所示,该电子设备800包括:一个或多个处理器801、存储器802,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。
存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的调节音频信号的方法中的以下操作:确定在电子设备800所在环境中测试音频信号的混响时间与频率之间的第一关系;以及根据第一关系调节待输出音频信号的增益与待输出音频信号的频率之间的第二关系,以调节待输出音频信号的音质。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的调节音频信号的方法中前述处理器所执行的操作。
存储器802作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的调节音频信号的方法对应的程序指令/模块(例如,附图7所示的关系确定模块740和关系调节模块760)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的调节音频信号的方法。
存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据适于调节音频信号的电子设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器802可选包括相对于处理器801远程设置的存储器,这些远程存储器可以通过网络连接至适于调节音频信号的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
适于执行调节音频信号的方法的电子设备800还可以包括:拾音器803和播放器804。处理器801、存储器802、拾音器803和播放器804可以通过总线或者其他方式连接,图8中以通过总线连接为例。其中,播放器804用于播放测试音频信号和调节后的待输出音频信号,播放器804例如可以为喇叭。拾音器803用户获取电子设备800所在环境中的测试音频信号,拾音器803例如可以为麦克风。
电子设备800例如还可以包括输入装置,用于接收输入的数字或字符信息,以及产生与适于调节音频信号的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。电子设备800例如还可以包括输出装置,输出装置可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过根据电子设备所在环境中的测试音频信号确定混响时间与频率之间的第一关系,并根据第一关系调节待输出音频信号的增益,可以使得最终输出的音频信号适配于电子设备所在环境,从而可以针对不同环境提高输出的音频信号的音质,提高用户体验。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (10)

1.一种调节音频信号的方法,包括:
获取当前环境中的测试音频信号;
确定在所述当前环境中所述测试音频信号的混响时间与频率之间的第一关系;以及
根据所述第一关系调节待输出音频信号的增益与所述待输出音频信号的频率之间的第二关系,以调节所述待输出音频信号的音质;
其中,所述根据所述第一关系调节待输出音频信号的增益与所述待输出音频信号的频率之间的第二关系包括:
获取混响时间与频率之间的基准关系,所述基准关系是根据预先测量的对音质的评价值和预先测量的唤醒识别率来确定的;
针对多个频率,分别确定在同一频率处根据所述第一关系确定的混响时间与根据所述基准关系确定的混响时间之间的差值;以及
根据所述差值调节所述第二关系。
2.根据权利要求1所述的方法,其中,所述待输出音频信号的频率被划分为多个频段;根据所述差值调节所述第二关系包括针对所述多个频段中的每个频段:
根据所述差值在所述每个频段中各频率点的取值,确定所述待输出音频信号在所述各频率点的增益调节量;以及
根据所述各频率点的增益调节量,调节所述待输出音频信号在所述各频率点的增益值。
3.根据权利要求2所述的方法,其中:所述差值与所述增益调节量之间负相关。
4.根据权利要求3所述的方法,其中,所述负相关的相关系数与所述差值的取值所在的频段相关联。
5.根据权利要求1所述的方法,其中,确定在所述当前环境中所述测试音频信号的混响时间与频率之间的第一关系包括:
确定所述测试音频信号的振荡幅值与频率之间的第三关系;
根据所述第三关系,确定所述测试音频信号中多个预设频率信号各自的信号强度随时间的衰减关系;
根据所述衰减关系,确定所述多个预设频率信号各自的混响时间;以及
根据所述多个预设频率信号的混响时间,确定所述测试音频信号的混响时间与频率之间的第一关系。
6.根据权利要求5所述的方法,其中,确定在所述当前环境中所述测试音频信号的混响时间与频率之间的第一关系还包括:
根据预设倍频程,确定所述测试音频信号中的所述多个预设频率信号。
7.根据权利要求5所述的方法,其中,确定所述多个预设频率信号各自的混响时间包括:
确定所述多个预设频率信号各自的声压级降低30dB所需的时长为所述混响时间。
8.一种调节音频信号的装置,包括:
音频获取模块,用于获取当前环境中的测试音频信号;
关系确定模块,用于确定在当前环境中所述测试音频信号的混响时间与频率之间的第一关系;以及
关系调节模块,用于根据所述第一关系调节待输出音频信号的增益与所述待输出音频信号的频率之间的第二关系,以调节所述待输出音频信号的音质;
其中,所述关系确定模块根据所述第一关系调节待输出音频信号的增益与所述待输出音频信号的频率之间的第二关系包括:
获取混响时间与频率之间的基准关系,所述基准关系是根据预先测量的对音质的评价值和预先测量的唤醒识别率来确定的;
针对多个频率,分别确定在同一频率处根据所述第一关系确定的混响时间与根据所述基准关系确定的混响时间之间的差值;以及
根据所述差值调节所述第二关系。
9.一种电子设备,包括:
播放器,用于播放测试音频信号;
拾音器,用于获取所述电子设备所在环境中的所述测试音频信号;
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行以下操作:
确定在所述电子设备所在环境中所述测试音频信号的混响时间与频率之间的第一关系;以及
根据所述第一关系调节待输出音频信号的增益与所述待输出音频信号的频率之间的第二关系,以调节所述待输出音频信号的音质;
其中,所述根据所述第一关系调节待输出音频信号的增益与所述待输出音频信号的频率之间的第二关系包括:
获取混响时间与频率之间的基准关系,所述基准关系是根据预先测量的对音质的评价值和预先测量的唤醒识别率来确定的;
针对多个频率,分别确定在同一频率处根据所述第一关系确定的混响时间与根据所述基准关系确定的混响时间之间的差值;以及
根据所述差值调节所述第二关系。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1~7中任一项所述的方法。
CN202011199552.1A 2020-10-30 2020-10-30 调节音频信号的方法、装置、设备和存储介质 Active CN112382305B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011199552.1A CN112382305B (zh) 2020-10-30 2020-10-30 调节音频信号的方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011199552.1A CN112382305B (zh) 2020-10-30 2020-10-30 调节音频信号的方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN112382305A CN112382305A (zh) 2021-02-19
CN112382305B true CN112382305B (zh) 2023-09-22

Family

ID=74576779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011199552.1A Active CN112382305B (zh) 2020-10-30 2020-10-30 调节音频信号的方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN112382305B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103067322A (zh) * 2011-12-09 2013-04-24 微软公司 评估单通道音频信号中的音频帧的语音质量的方法
JP2018049228A (ja) * 2016-09-23 2018-03-29 ヤマハ株式会社 音響処理装置および音響処理方法
CN108449688A (zh) * 2018-03-19 2018-08-24 长沙世邦通信技术有限公司 室内广播音频处理方法、装置及系统
CN109686347A (zh) * 2018-11-30 2019-04-26 北京达佳互联信息技术有限公司 音效处理方法、音效处理装置、电子设备和可读介质
CN110475181A (zh) * 2019-08-16 2019-11-19 北京百度网讯科技有限公司 设备配置方法、装置、设备和存储介质
CN111627460A (zh) * 2020-05-13 2020-09-04 广州国音智能科技有限公司 环境混响检测方法、装置、设备与计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018210143A1 (de) * 2018-06-21 2019-12-24 Sivantos Pte. Ltd. Verfahren zur Unterdrückung eines akustischen Nachhalls in einem Audiosignal

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103067322A (zh) * 2011-12-09 2013-04-24 微软公司 评估单通道音频信号中的音频帧的语音质量的方法
JP2018049228A (ja) * 2016-09-23 2018-03-29 ヤマハ株式会社 音響処理装置および音響処理方法
CN108449688A (zh) * 2018-03-19 2018-08-24 长沙世邦通信技术有限公司 室内广播音频处理方法、装置及系统
CN109686347A (zh) * 2018-11-30 2019-04-26 北京达佳互联信息技术有限公司 音效处理方法、音效处理装置、电子设备和可读介质
CN110475181A (zh) * 2019-08-16 2019-11-19 北京百度网讯科技有限公司 设备配置方法、装置、设备和存储介质
CN111627460A (zh) * 2020-05-13 2020-09-04 广州国音智能科技有限公司 环境混响检测方法、装置、设备与计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Numerical Simulation of the Field Properties in a Reverberation Chamber in Time Domain;Markus Rothenhaeusler et al.;《Proceedings of the 41st European Microwave Conference》;全文 *
小型厅堂可调混响设计的研究与实践;张义忠, 王永平;电声技术(11);全文 *

Also Published As

Publication number Publication date
CN112382305A (zh) 2021-02-19

Similar Documents

Publication Publication Date Title
CN109658942B (zh) 一种音频数据处理方法、装置以及相关设备
CN106664473B (zh) 信息处理装置、信息处理方法和程序
JP6580990B2 (ja) オーディオ干渉推定のための方法及び装置
US9210504B2 (en) Processing audio signals
CN109845288B (zh) 用于麦克风之间的输出信号均衡的方法和装置
US9584940B2 (en) Wireless exchange of data between devices in live events
JP2020507955A (ja) ミキシング後音響エコーキャンセルシステム及び方法
GB2495472B (en) Processing audio signals
CN108235181B (zh) 在音频处理装置中降噪的方法
US10461712B1 (en) Automatic volume leveling
JP2017530396A (ja) 音源を強調するための方法及び機器
JP7325445B2 (ja) ギャップ信頼度を用いた背景雑音推定
US11335357B2 (en) Playback enhancement in audio systems
CN109905808B (zh) 用于调节智能语音设备的方法和装置
CN105764008B (zh) 一种调试扩声系统传输频率特性的方法及装置
CN112382305B (zh) 调节音频信号的方法、装置、设备和存储介质
CN112997249B (zh) 语音处理方法、装置、存储介质及电子设备
CN111782859A (zh) 一种音频可视化方法、装置和存储介质
US9886939B2 (en) Systems and methods for enhancing a signal-to-noise ratio
WO2023070792A1 (zh) 通话式门铃的音量均衡方法、设备和可读存储介质
CN111370017B (zh) 一种语音增强方法、装置、系统
TW201506913A (zh) 麥克風系統及其聲音處理方法
WO2017171864A1 (en) Acoustic environment understanding in machine-human speech communication
CN116320899B (zh) 一种发声方法、装置及设备
WO2022198538A1 (zh) 主动降噪音频设备和用于主动降噪的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant