CN104025192B - 智能自动音频录制调平器 - Google Patents

智能自动音频录制调平器 Download PDF

Info

Publication number
CN104025192B
CN104025192B CN201280066032.0A CN201280066032A CN104025192B CN 104025192 B CN104025192 B CN 104025192B CN 201280066032 A CN201280066032 A CN 201280066032A CN 104025192 B CN104025192 B CN 104025192B
Authority
CN
China
Prior art keywords
audio
recording
level
file
conversion coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201280066032.0A
Other languages
English (en)
Other versions
CN104025192A (zh
Inventor
P.伊斯贝里
B.格罗恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Mobile Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Mobile Communications Inc filed Critical Sony Mobile Communications Inc
Publication of CN104025192A publication Critical patent/CN104025192A/zh
Application granted granted Critical
Publication of CN104025192B publication Critical patent/CN104025192B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/32Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier
    • G11B27/322Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier used signal is digitally coded
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals

Abstract

本申请针对用于在录制音频后调节音频属性的系统、方法以及计算机程序产品。示范性的方法包括:利用音频捕获系统录制音频,其中录制的音频与音频电平相关联;确定与录制的音频相关联的一种或多种音频信号属性;比较音频电平与第一预定阈值电平;以及响应于确定音频电平大于第一预定阈值电平,至少部分基于修改一种或多种确定的音频信号属性而调节录制的音频,其中调节步骤在跟随录制步骤之后的有限时间间隔执行。

Description

智能自动音频录制调平器
背景技术
音频可以在每个音频源产生与不同音频属性相关联的音频的地点录制。音频属性的例子是音频电平。此外,每个音频源的音频属性可以在录制时段期间改变。音频可以是孤立的音频录制,或者是与视频录制相关联的音频。收听其中每个音频源产生与不同音频属性相关联的音频的音频、或者其中在录制时段期间特定音频源的音频改变的音频的听众可能有不适的收听体验。例如,在录制时段期间,一个音频源可能产生关联于比另一音频源更高的音频电平的音频。作为另一个例子,在录制时段期间,音频源的音频可能在音频电平方面变化。因此,需要一种处理系统,其调节音频属性以使音频的听众具有更佳的收听体验。
发明内容
本发明的实施方案针对用于在录制音频后调节音频属性的系统、方法和计算机程序产品。示范性方法包括;利用音频捕获系统录制音频,其中录制的音频与音频电平相关联;确定与录制的音频相关联的一种或者多种音频信号属性;比较音频电平与第一预定阈值电平;以及响应于确定音频电平大于第一预定阈值电平,至少部分基于修改一种或者多种确定的音频信号属性而调节录制的音频,其中调节步骤在跟随录制步骤之后的有限时间间隔执行。
在某些实施方案中,调节步骤包括把增益系数或者换算系数应用至录制的音频,以使得与录制的音频相关联的音频电平减小。
在某些实施方案中,确定步骤与录制步骤同时执行。在其他实施方案中,确定步骤在录制步骤之后执行。
在某些实施方案中,该方法还包括编码录制的音频。
在某些实施方案中,调节包括至少部分基于把换算系数应用至编码后的音频而调节该编码后的音频。在某些实施方案中,换算系数作为元数据被存储在包括该编码后的音频的文件中。
在某些实施方案中,该方法还包括解码编码后的音频;并且调节步骤包括:至少部分基于把增益系数应用至解码后的音频而调节该解码后的音频。
在某些实施方案中,调节步骤或是由音频录制系统或是由分开的计算系统执行。
在某些实施方案中,调节步骤或是直接在所录制音频的回放之前执行,或是在所录制音频的回放期间实时执行。
在某些实施方案中,该方法还包括:访问数据库,该数据库包括一组或多组音频信号属性;从数据库中选取一组音频信号属性;至少部分基于选取的音频信号属性组来确定增益系数或者换算系数;以及至少部分基于所确定的增益系数或者换算系数而调节录制的音频,其中调节步骤或是直接在所录制音频的回放之前执行,或是在所录制音频的回放期间实时执行。
在某些实施方案中,该方法还包括:比较音频电平与第二预定阈值电平;并响应于确定音频电平小于第二预定阈值电平,至少部分基于修改一种或者多种确定的音频信号属性而调节录制的音频,其中调节步骤包括把增益系数或者换算系数应用至录制的音频,以使得与录制的音频相关联的音频电平增大。
在某些实施方案中,信号属性包括以下的至少一种:均方根电平、峰值电平、平均电平以及峰间电平(peak-to-peak level)。
在某些实施方案中,调节步骤减小与录制的音频相关联的动态范围。
在某些实施方案中,调节步骤减小录制的音频中的听觉人工产物(audibleartifact)。
在某些实施方案中,该方法还包括:比较音频电平与第三预定阈值电平;并响应于确定音频电平小于第三预定阈值电平,至少部分基于修改一种或者多种确定的音频信号属性而调节录制的音频,其中调节步骤包括把增益系数或者换算系数应用至录制的音频,以使得与录制的音频相关联的音频电平减小。
在某些实施方案中,该方法还包括:比较音频电平与第四预定阈值电平;并响应于确定音频电平大于第四预定阈值电平,至少部分基于修改一种或者多种确定的音频信号属性而调节录制的音频,其中调节步骤包括把增益系数或者换算系数应用至录制的音频,以使得与录制的音频相关联的音频电平增大。
在某些实施方案中,调节步骤包括:把一个或者多个增益系数或者换算系数应用至录制的音频,以使得单独的增益系数或者换算系数被应用至所录制音频的每个子时段,或者应用至与所录制音频中每个音频源相关联的音频。
在某些实施方案中,调节后的音频与录制的音频分开地存储。
在某些实施方案中,还提供了用于调节音频的系统。示范性的系统包括音频捕获系统,其被配置为:录制音频,其中录制的音频与音频电平相关联;确定与录制的音频相关联的一种或者多种音频信号属性;比较音频电平与第一预定阈值电平;并响应于确定音频电平大于第一预定阈值电平,至少部分基于修改一种或者多种确定的音频信号属性而调节录制的音频,其中调节步骤在跟随录制步骤之后的有限时间间隔执行。
在某些实施方案中,还提供用于调节音频的计算机程序产品。示范性的计算机程序产品包括非瞬时的计算机可读介质,其包括代码,该代码被配置成使计算机:录制音频,其中录制的音频与音频电平相关联;确定与录制的音频相关联的一种或者多种音频信号属性;比较音频电平与第一预定阈值电平;并响应于确定音频电平大于第一预定阈值电平,至少部分基于修改一种或者多种确定的音频信号属性而调节录制的音频,其中调节步骤在跟随录制步骤之后的有限时间间隔执行。
附图说明
在已经这样概括地描述了本发明的实施方案后,现在将参考附图,其中:
图1是依照本发明实施方案的、用于调节音频的示范性处理流程;
图2是依照本发明实施方案的、用于录制音频和/或调节所录制音频的示范性设备;
图3是一个简图,其举例说明依照本发明的实施方案,图2所描绘的用于录制音频和/或调节所录制音频的设备的示范性外部组件的后视图;以及
图4是一个简图,其举例说明依照本发明的实施方案,图2所描绘的用于录制音频和/或调节所录制音频的设备的示范性内部组件。
具体实施方式
现在,下文可以参考附图更充分地描述本发明的实施方案,附图中显示了本发明的一些而非全部实施方案。实际上,本发明可以以许多不同形式体现,并且不应被诠释为限于本文所阐明的实施方案;相反,提供这些实施方案,是使得本公开内容能满足适用的法律要求。贯穿全文,同样的标号指同样的元素。
当在本文中使用时,音频属性指一种或者多种与由音频源输出的音频相关联的属性。音频属性也可以被称为声音属性。这些属性可以包括均方根(RMS)电平、峰值电平或者振幅(正峰值或者负峰值)、峰间值(正峰值与负峰值之间的差值)、平均值、频率、波长、波数、相位等。信号属性不限于本文所描述的信号属性。其他音频或者声音属性可以包括声压、声音强度、声速、声音方向、声音方位等。
音频属性的实时动态处理是在录制音频时实时处理音频属性。存在与音频属性的实时动态处理相关联的缺点。例如,实时处理可造成录制的音频中的听觉人工产物。当在本文中使用时,听觉人工产物指在音频的最初录制中不存在的声音或者音效(例如,抽气效应(pumping))。有时,当回放处理后的音频时,从音频轻柔部分(例如,与低或者中音频电平相关联)到音频响亮部分(例如,与高音频电平相关联)的实时处理的过渡可能听起来不自然。这是因为实时过渡导致音频的增益突然增大。相似地,当回放处理后的音频时,从音频响亮部分(例如,与高音频电平相关联)到音频轻柔部分(例如,与低或者中音频电平相关联)的实时处理的过渡可能听起来不自然。这是因为实时过渡导致音频的增益突然减小。这些听觉人工产物是不合需要的,而本发明的系统、方法以及计算机程序产品针对减小或者消除这些不合需要的听觉人工产物。
因为一种或者多种音频属性(例如,音频电平或者音量级)可能在录制时段期间改变,所以实时处理可造成听觉人工产物(例如,抽气效应)。实时动态处理的例子是动态范围压缩。动态范围压缩包括向下压缩和向上压缩两者。向下压缩减小高于某一阈值电平的响亮声音的声级。向上压缩增大低于某一阈值电平的声音的声级。向上压缩和向下压缩两者都减小音频信号的动态范围。动态处理的另一个例子是动态扩展。动态扩展扩大音频信号的动态范围。向下扩展减小低于某一阈值电平的声音的声级(使安静的声音更安静)。向上扩展增大高于某一阈值电平的声音的声级(使响亮的声音更响亮)。当音频信号的动态压缩或者动态扩展变得可以听见时,会出现抽气效应或者听觉人工产物的引入。当在本文中使用时,动态范围指与系统相关联的和/或与由系统录制或者播放的特定音频文件相关联的最响亮与最安静的音频电平之间的差值。当在本文中使用时,音频电平也可以指声级或者音量级。
本发明的实施方案针对增强(boosting)录制的音频剪辑。在某些实施方案中,增强过程可以由录制音频的设备或者由分开的后处理设备执行。在某些实施方案中,录制的音频包括中和低电平(例如,轻柔的)音频信号,并且不包括高电平(例如,响亮的)音频信号。在这样的实施方案中,增益系数(或者换算系数)被应用至中及低电平音频信号两者。在某些实施方案中,录制的音频也包括高电平音频信号。在这样的实施方案中,可以把本文所描述的设备配置成把增益系数(或者换算系数)应用至中及低电平音频信号,但不把增益系数(或者换算系数)应用至高电平音频信号。在这样的实施方案中,可以把本文所描述的设备配置成确定及区分低电平、中电平以及高电平音频信号,以使得可分开地配置或者调节每个类型的音频信号。在本发明的某些实施方案中,本文所描述的录制设备按支持单一增益系数(或者换算系数)的文件格式来录制(和/或编码)音频,以使得单一增益系数(或者换算系数)被应用至中和低电平音频信号,而不被应用至高电平音频电平信号。当在本文中使用时,本文所描述的各种音频信号可以是与录制的音频或者视频相关联的音频信号。本发明的实施方案针对用于在录制音频后的有限时间间隔自动调节音频属性的系统、方法以及计算机程序产品。在本发明的某些实施方案中,在录制音频期间确定或者收集一种或者多种信号属性。例如,这些信号属性可以包括RMS电平、峰值电平、或者本文列举或本文未列举的其他任何信号属性。在本发明的某些实施方案中,在录制音频后的有限时间间隔做出这些属性的调节。
在其他实施方案中,在录制音频期间不确定或者收集这些信号属性。替代地,在录制音频后确定这些信号属性。因此,本文所描述的系统可以访问录制的音频并确定用于该录制的音频的信号属性(例如,RMS电平、峰值电平等)。一旦确定信号属性,系统就可以修改这些属性。
当在本文中使用时,执行音频录制的系统或者设备可以是任一种计算设备或者非计算设备。音频录制系统的例子包括,但不局限于:移动计算设备(例如,移动电话)、图像捕获设备(例如,相机)、游戏设备、膝上型电脑、便携式媒体播放器、平板电脑、电子阅读器、扫描仪、其他便携式或者非便携式计算或者非计算设备,以及在某些实施方案中,还包括其的一个或者多个组件和/或一个或者多个与其相关联的外围设备。录制音频的系统或者设备可以与在其上调节音频信号属性的系统或者设备相同或者不同。
当在本文中使用时,执行对已录制音频的音频信号属性的调节的系统或者设备可以是任一种计算或者非计算设备。音频调节系统的例子包括,但不局限于:移动计算设备(例如,移动电话)、图像捕获设备(例如,相机)、游戏设备、膝上型电脑、便携式媒体播放器、平板电脑、电子阅读器、扫描仪、其他便携式或者非便携式计算或者非计算设备,以及在某些实施方案中,还包括其的一个或者多个组件和/或一个或者多个与其相关联的外围设备。
本发明的实施方案不局限于在录制音频与调节音频属性之间的任何特定时间间隔。在某些实施方案中,调节过程可仅在已经录制完整的音频文件(即,音频已经被写入存储器或者存储装置驱动器的临时或者永久部分)后开始。在其他实施方案中,调节过程甚至可在已经录制完整的音频文件前开始。在这样的实施方案中,本文所描述的系统调节与已经录制的音频相关联的音频信号属性。因此,在音频正被写入文件的同时,本文所描述的系统调节与已经被写入文件的音频相关联的音频信号属性。因此,例如,本文所描述的系统调节与比当前正被录制到音频文件的音频早有限时间间隔(例如,几秒钟或者甚至更小的时间单位,例如以毫秒、微秒、纳秒、皮秒等的量级)被录制的音频相关联的信号属性。在某些实施方案中,调节后的音频盖写之前未调节的音频。在这样的实施方案中,在跟随音频录制完成之后的有限时间间隔后,音频文件仅包括调节后的音频。在其他实施方案中,把调节后的音频保存至不同文件,以使得在音频录制完成后,在录制音频的系统上存在有两个可用的音频文件:未调节的最初的音频文件和调节后的音频文件。
本发明的实施方案提供几种不同的方式来调节与录制的音频相关联的音频属性。在某些实施方案中,本文所描述的系统录制音频文件。在某些实施方案中,录制的音频文件是原始(raw)音频文件。与系统相关联的编解码器可以编码原始音频文件。按照本文所述的实施方案,编码是指基于音频文件格式或者流媒体文件格式来处理原始音频文件数据(其可以是模拟音频数据或者数字音频数据),以使得处理后的音频文件数据可以由能播放所选音频文件格式或者流媒体文件格式的软件回放。在某些实施方案中,系统可以自动确定用于编码原始音频文件数据的文件格式。在其他实施方案中,编码时,系统可以经由系统的用户界面提示系统用户去指定文件格式。在此外的其他实施方案中,先于编码的时间,系统可以允许用户存储用户的对于一个或者多个音频文件格式的首选项,而在编码时,系统可以至少部分基于用户存储的首选项来自动编码音频文件。在某些实施方案中,编码后的音频文件可以作为与最初的原始音频文件分开的音频文件被存储。本文所描述的编解码器可以是硬件模块、软件模块、或者包括硬件及软件组件的模块。
在录制并编码音频文件后,与本文所描述的相同的系统或者不同的系统解码编码后的音频文件。与系统相关联的编解码器可以解码编码后的音频文件。用于解码步骤的编解码器可以是用于对音频文件编码的相同编解码器,或者可以是与用来编码原始音频文件的编解码器不同的。按照本文所述的实施方案,解码指按照音频文件格式或者流媒体文件格式解码编码后的音频文件数据(其可以是模拟音频数据或者数字音频数据)的过程。在某些实施方案中,系统可以自动确定用于解码原始音频文件数据的文件格式。在其他实施方案中,在解码时,系统可以经由系统的用户界面提示系统用户去指定文件格式。在此外的其他实施方案中,先于解码的时间,系统可以允许用户存储用户的对于一个或者多个音频文件格式的首选项,而在解码时,系统可以至少部分基于用户存储的首选项来自动解码编码后的音频文件。在某些实施方案中,解码后的音频文件数据可以镜像(mirror)最初的原始音频文件数据,而在其他实施方案中,解码后的音频文件数据可与最初的原始音频文件数据不同(轻微不同或者严重不同)。在某些实施方案中,解码后的音频文件可以作为与最初的原始音频文件或者编码后的音频文件分开的文件被存储。
然后,系统把增益(或者增益系数)应用至解码后的文件。在某些实施方案中,应用增益至解码后的文件改变了存储在解码后的文件中的音频信号的一种或者多种信号属性(例如,RMS电平、峰值电平等)。在某些实施方案中,应用增益改变了音频文件的动态范围。
在某些实施方案中,应用增益减小了音频文件的动态范围(压缩)。在这样的实施方案中,应用大于一的增益增大了小于第一阈值电平的声音的电平(例如,RMS电平、峰值电平等)(向上压缩)。此外,在这样的实施方案中,应用小于一的增益减小了大于第二阈值电平的声音的电平(向下压缩)。在某些实施方案中,第一阈值电平可等于第二阈值电平,然而在其他实施方案中,第一阈值电平与第二阈值电平不同。
在某些实施方案中,应用增益增大了音频文件的动态范围(扩展)。在这样的实施方案中,应用小于一的增益减小了小于第三阈值电平的声音的电平(向下扩展)。此外,在这样的实施方案中,应用大于一的增益增大了高于第四阈值电平的声音的电平(向上扩展)。在某些实施方案中,第三阈值电平可等于第四阈值电平,然而在其他实施方案中,第三阈值电平与第四阈值电平不同。
在某些实施方案中,用户可以预定义要根据情况(例如,向下压缩、向上压缩、向下扩展、向上扩展等)而被应用的一个或者多个增益系数,然而在其他实施方案中,系统可以自动定义要根据情况而被应用的一个或者多个增益系数。此外,在某些实施方案中,用户可以预定义本文所描述的各种阈值电平,或者在其他实施方案中,系统可以自动确定本文所描述的各种阈值电平。
在某些实施方案中,增益的值至少部分基于先前确定或者收集的、与录制的音频相关联的信号属性。在某些实施方案中,增益的值可另外地至少部分基于用来解码编码后的音频文件的解码类型,和/或用来编码原始音频文件的编码类型。在某些实施方案中,增益的值可能已经由系统用户预先选取。在某些实施方案中,增益的值至少部分基于由用户指定的或者由系统自动确定的期望的输出音频电平。如前所述,音频文件可以包括由多个音频源输出的音频。在某些实施方案中,把单一增益系数应用至整个音频文件,以使得每个音频源的音频电平(例如,音量级)基于该单一增益系数而被修改。在某些实施方案中,该单一应用的增益系数导致由每个音频源输出的音频处在预定的音频电平范围内。在某些实施方案中,该单一应用的增益系数导致由每个音频源输出的音频大致处在相似的音频电平。在其他实施方案中,多个变化的增益系数被应用至音频文件。在这样的实施方案中,系统可能能够确定显著不同的音频源(基于分析音频信号的信号特征的改变),并可能能够应用单独的增益系数至每个音频源的音频电平。通过应用单独的增益系数至每个音频源的音频电平,系统可以将与每个音频源相关联的音频电平带入预定的音频电平范围内。替换地,通过应用单独的增益系数至每个音频源的音频电平,系统使与每个音频源相关联的音频电平基本上和谐(harmonize)或者均衡(equalize),以使得由每个音频源输出的音频大致在相似的音频电平。
在某些实施方案中,单一音频源的音频电平可在录制时段期间变化。在这些实施方案中,系统可能能够在录制时段期间分析录制的音频并确定一个或者多个子时段,其中每个子时段包括属于大致单一音频电平的(或者在预定的窄的音频电平范围内的)并与单一音频源相关联的(或者可以与多个音频源相关联的)音频。在这样的实施方案中,系统可以应用单独的增益系数至每个子时段。通过应用单独的增益系数到每个子时段,系统可以将与每个子时段相关联的音频电平带入预定的音频电平范围内。替换地,通过应用单独的增益系数至每个子时段,系统使与每个子时段相关联的音频电平基本上和谐或者均衡,以使得当与其他子时段相比时,在每个子时段期间输出的音频大致在相似的音频电平。
应用一个或者多个增益系数至解码后的音频文件的过程减小或者消除了可能的听觉人工产物,该听觉人工产物可能是在使用动态处理(例如,调平(leveling))时引入的。在某些实施方案中,具有新增益系数的解码后的音频文件可以作为与具有旧增益系数的解码后的音频文件分开的不同文件被存储。
随后,跟随在应用增益至解码后的音频文件的步骤之后,系统再次编码文件。本文所描述的编解码器可以被用来再次编码文件。在某些实施方案中,系统可以自动确定用于编码原始音频文件数据的文件格式。在某些实施方案中,该文件格式可以与之前用于编码原始音频文件的文件格式相同,而在其他实施方案中,该文件格式可以与之前用来编码音频文件的文件格式不同。在其他实施方案中,在编码时,系统可以经由系统用户界面提示系统用户去指定文件格式。在此外的其他实施方案中,先于编码的时间,系统可以允许用户存储用户的对于一个或者多个音频文件格式的首选项,而在编码时,系统可以至少部分基于用户存储的首选项来自动编码音频文件。
在某些实施方案中,在如前所述的录制和编码音频文件之后,与系统(调节系统或者录制系统)相关联的编解码器不解码编码后的文件。如前所述,编码后的音频文件可以是处理后的音频文件。该处理后的音频文件与换算系数相关联。在某些实施方案中,系统或是修改该换算系数或是直接把换算系数应用至编码后的文件。在某些实施方案中,修改换算系数或者应用新换算系数至编码后的文件改变了存储在编码后的文件中的音频信号的一种或者多种信号属性(例如,RMS电平、峰值电平等)。在某些实施方案中,修改换算系数或者应用新换算系数改变了音频文件的动态范围。
在某些实施方案中,修改换算系数或者应用新换算系数减小了音频文件的动态范围(压缩)。在这样的实施方案中,应用大于一的换算系数增大了小于第一阈值电平的声音的电平(例如,RMS电平、峰值电平等)(向上压缩)。此外,在这样的实施方案中,应用小于一的换算系数减小了大于第二阈值电平的声音的电平(向下压缩)。在某些实施方案中,第一阈值电平可与第二阈值电平相等,然而在其他实施方案中,第一阈值电平与第二阈值电平不同。
在某些实施方案中,应用换算系数增大了音频文件的动态范围(扩展)。在这样的实施方案中,应用小于一的换算系数减小了小于第三阈值电平的声音的电平(向下扩展)。此外,在这样的实施方案中,应用大于一的换算系数增大了高于第四阈值电平的声音的电平(向上扩展)。在某些实施方案中,第三阈值电平可与第四阈值电平相等,然而在其他实施方案中,第三阈值电平与第四阈值电平不同。
在某些实施方案中,用户可以预定义要根据情况(例如,向下压缩、向上压缩、向下扩展、向上扩展等)而被应用的一个或者多个换算系数,然而在其他实施方案中,系统可以自动定义要根据情况而被应用的一个或者多个换算系数。此外,在某些实施方案中,用户可以预定义本文所述的各种阈值电平,或者在其他实施方案中,系统可以自动确定本文所述的各种阈值电平。
在某些实施方案中,系统确定新换算系数或者修改换算系数的值是至少部分基于之前确定的或者收集的、与录制的音频相关联的信号属性。在其他实施方案中,也可以至少部分基于应用至原始音频文件的编码类型而修改换算系数的值。在某些实施方案中,新换算系数或者要被应用至编码后的音频文件的换算系数的修改量可以由系统用户预先选取。在某些实施方案中,要被应用的换算系数的值是至少部分基于由用户指定的或者由系统自动确定的期望的输出音频电平。如前所述,音频文件可以包括由多个音频源输出的音频。在某些实施方案中,修改应用至整个编码后音频文件的换算系数,以使得每个音频源的音频电平(例如,音量级)基于修改后的换算系数被修改。在某些实施方案中,单一应用的修改后的换算系数导致由每个音频源输出的音频处在预定的音频电平范围内。在某些实施方案中,单一应用的修改后的换算系数导致由每个音频源输出的音频大致在相似的音频电平。在其他实施方案中,修改应用至音频文件的换算系数以使得多个变化的换算系数被应用至音频文件。在这样的实施方案中,系统可能能够确定显著不同的音频源(基于分析音频信号的信号特征的改变),并且可能能够应用单独的换算系数到每个音频源的音频电平。通过应用单独的增益系数至每个音频源的音频电平,系统可以将与每个音频源相关联的音频电平带入预定的音频电平范围内。替换地,通过应用单独的换算系数至每个音频源的音频电平,系统使与每个音频源相关联的音频电平基本上和谐或者均衡,以使得由每个音频源输出的音频大致在相似的音频电平。
在某些实施方案中,单一音频源的音频电平可以在录制时段期间变化。在这些实施方案中,系统可能能够在录制时段期间分析录制的音频并确定一个或者多个子时段,其中每个子时段包括属于大致单一音频电平的(或者在预定的窄的音频电平范围内的)并与单一音频源相关联的(或者可与多个音频源相关联的)音频。在这样的实施方案中,系统可以应用单独的换算系数至每个子时段。通过应用单独的增益系数至每个子时段,系统可以将与每个子时段相关联的音频电平带入预定的音频电平范围内。替换地,通过应用单独的换算系数至每个子时段,系统使与每个子时段相关联的音频电平基本上和谐或者均衡,以使得当与其他子时段比较时,在每个子时段期间输出的音频大致在相似的音频电平。
因此,在某些实施方案中,当与系统相关联的解码器被使用来解码(或者回放)具有修改后换算系数的编码后音频文件时,该解码器回放音频文件,其中由每个音频源输出的音频处在预定的音频电平范围内。在录制和编码音频文件之后修改编码后音频文件的换算系数的过程减小或者消除了可能的听觉人工产物,该听觉人工产物可能是在使用动态处理(例如,调平)时引入的。在某些实施方案中,具有修改后的或者新的换算系数的编码后音频文件可以作为与最初的编码后音频文件分开的文件被存储。
在某些实施方案中,在录制音频的系统内存储信号属性的数据库。该数据库可以包括多组信号属性。信号属性可以包括与本文所描述的音频信号的各种信号属性相关联的值。例如,信号属性组包括均方根(RMS)电平、峰值电平或者振幅(正峰值或者负峰值)、峰间值(正峰值与负峰值之间的差值)、平均值、频率、波长、波数等。其他可以存储在与音频信号相关联的特定信号属性组中的值是声压、声音强度、声速、声音方向、声音方位等。在某些实施方案中,数据库也存储与音频信号相关联的期望的增益和/或期望的换算系数。这些值可以存储在数据库的每个信号属性组中,或者可以与数据库的信号属性组分开地存储。在其他实施方案中,系统不在数据库中存储期望的增益和/或期望的换算系数。而是,系统基于从数据库访问的所选取的信号属性组来计算增益和/或换算系数。
数据库中的每组信号属性可以针对音频文件的所期望回放的特定类型。在某些实施方案中,系统用户可以预先配置多组信号属性的每一组,并且可以为选择特定信号属性组来指定一种或者多种条件。当录制的音频文件(其可以是录制的原始音频文件或者编码后的音频文件)将要由系统(录制音频文件的系统或者不同的系统)回放时,系统可以自动选择特定的信号属性组以使得正在回放的音频文件至少部分基于所选择的信号属性组来被配置。因此,在这个实施方案中,音频文件不在音频文件的录制后被自动处理;而是,音频文件或者是基于在回放期间实时选择的信号属性而被配置,或者是基于直接在回放前选择的信号属性而被配置。在某些实施方案中,“配置音频文件”指基于选定的信号属性组来确定增益系数(和/或换算系数)并且把该增益系数应用至音频文件的过程。在某些实施方案中,把单一增益系数应用至整个音频文件以使得每个音频源的音频电平(例如,音量级)基于单一增益系数而被修改。在某些实施方案中,单一应用的增益系数导致由每个音频源输出的音频处在预定的音频电平范围内。在某些实施方案中,单一应用的增益系数导致由每个音频源输出的音频大致在相似的音频电平。在其他实施方案中,把多个变化的增益系数应用至音频文件。在这样的实施方案中,系统可能能够确定显著不同的音频源(基于分析音频信号中信号特征的改变),或者可能能够把单独的增益系数应用至每个音频源的音频电平(其中基于选定的信号属性组计算每个单独的增益系数)。通过应用单独的增益系数至每个子时段,系统可以将与每个子时段相关联的音频电平带入预定的音频电平范围内。替换地,通过应用单独的增益系数至每个音频源的音频电平,系统使与每个音频源相关联的音频电平基本上和谐或者均衡,以使得由每个音频源输出的音频大致在相似的音频电平。应用一个或者多个增益系数至解码后的音频文件的过程减小或者消除了可能的听觉人工产物,该听觉人工产物可能是在使用录制音频时的动态处理(例如,调平)时被引入的。
系统可以基于一个或者多个预先配置的用户首选项而自动选择特定的信号属性组,其中所述首选项是关于期望的回放的类型(快回放、慢回放等)或者与回放相关联的环境(例如,安静的环境、拥挤的环境等)。在某些实施方案中,系统可以自动选择导致在回放期间听觉人工产物的最佳减小的特定信号属性组。在其他实施方案中,当录制的音频文件将要由系统回放时,系统可以提示用户去选取特定的信号属性组来应用至正由系统回放的音频文件。因此,系统基于所选定的信号属性组来配置录制的音频,并且回放配置后的录制的音频,其中该信号属性组或者是由系统自动选择,或者是由系统的用户选择。在某些实施方案中,配置录制的音频的过程不影响最初录制的文件的属性。在其他实施方案中,配置录制的音频的过程改变了最初录制的音频文件的属性,以使得最初录制的音频文件现在包括配置后的音频。
在某些实施方案中,当用户选取要由系统回放的录制的音频文件时,用户的选取自动触发对信号属性组数据库的访问,以使得当回放音频时,回放的音频基于所选定的信号属性组来配置。基于所选定的信号属性组来回放录制的音频文件的过程减小或者消除了人工产物,如果回放录制的音频文件而未选取某个选定的音频属性组,或者如果在录制音频期间动态处理录制的音频文件,则该人工产物可被听见。
在某些实施方案中,本文所描述的数据库与录制的音频文件分开地存储。在这样的实施方案中,当用户传送录制的音频文件至不同的系统时,如果用户希望回放该录制的音频文件的话,则用户也需要传送数据库至那个不同的系统,以使得至少部分基于从数据库中选取的所选定信号属性组来回放音频文件。
在其他实施方案中,数据库与录制的音频文件一起存储。在某些实施方案中,数据库被存储在录制的音频文件中,以使得当传送录制的音频文件至不同的系统时,也传送数据库至那个不同的系统。在其他实施方案中,数据库与录制的音频文件分开地存储,但是与录制的音频文件紧密地相关联,以使得当传送录制的音频文件至不同的系统时,也自动传送数据库至那个不同的系统。
在某些实施方案中,在捕获音频的系统中发生的对音频的处理(基于本文所述的数据库)可以是非正式的(casual)处理,该非正式的处理使系统用户能够听到处理后的音频(具有很少或者最少的音频人工产物),而无需由录制音频的系统进行大量的音频处理。随后可以经由一个或者多个传输机制把录制的音频传送到不同的系统,以对录制的音频执行更大量的处理。
在某些实施方案中,换算系数或者增益系数作为元数据被存储在编码后的音频文件中。如本文所述,换算系数或者增益系数可被应用于编码后的音频文件或者解码后的音频文件。此外,如本文所述,元数据可以由录制音频的系统或者不同的后处理系统访问。
现在参考图1,图1给出了用于在录制音频后调节音频属性的处理流程100。在方块110处,本文所述的音频捕获系统录制音频。录制的音频可以与一个或者多个音频电平相关联。在方块120处,音频捕获系统或者一个单独的系统确定与录制的音频相关联的一种或者多种音频信号属性。在方块130处,音频捕获系统或者一个单独的系统比较与录制的音频相关联的音频电平和第一预定阈值电平。在方块140处,响应于确定音频电平大于第一预定阈值电平,音频捕获系统或者一个单独的系统至少部分基于修改一种或者多种确定的音频信号属性而调节录制的音频,其中调节步骤在录制步骤之后的有限时间间隔执行。
现在参考图2,图2为简图,其举例说明用于录制音频和/或调节所录制的音频的示范性设备的外部组件的前视图。如图2所例示,设备112可以包括外壳305、麦克风310、扬声器320、小键盘330、功能键340、显示器350以及相机按钮360。
外壳305可以包括被配置成包含或者至少部分包含设备112的组件的结构。例如,外壳305可以由塑料、金属、或者其他自然或合成的材料、或者材料的组合形成,并且可以被配置成支持麦克风310、扬声器320、小键盘330、功能键340、显示器350以及相机按钮360。
麦克风310可以包括能把气压波转换成对应的电信号的任何组件。例如,用户可以在电话呼叫期间对着麦克风310说话。麦克风310可以被使用来接收来自用户或者来自设备112周围环境的音频。扬声器320可以包括能把电信号转换成对应的声波的任何组件。例如,用户可以通过扬声器320听音乐。
小键盘330可以包括能提供输入至设备112的任何组件。小键盘330可以包括标准电话小键盘。小键盘330也可以包括一个或者多个特定用途键。在一种实现中,小键盘330的每个键例如可以是按钮。小键盘330也可以包括触摸屏。用户可以利用小键盘330输入诸如文本或者电话号码的信息,或者激活特定的功能。
功能键340可以包括能提供输入至设备112的任何组件。功能键340可以包括允许用户使设备112执行一个或者多个操作的键。与功能键340的键相关联的功能性可以根据设备112的模式而改变。例如,功能键340可以执行各种各样的操作,诸如录制音频、进行电话呼叫、播放各种媒体、设置各种相机特性(例如,聚焦、变焦等)或者访问应用。功能键340可以包括提供光标功能以及选择功能的键。在一种实现中,功能键340的每个键例如可以是按钮。
显示器350可以包括能提供视觉信息的任何组件。例如,在一种实现中,显示器350可以是液晶显示器(LCD)。在另一种实现中,显示器350可以是其他显示器技术的任一种,诸如等离子显示板(PDP)、场发射显示器(FED)、薄膜晶体管(TFT)显示器等。显示器350可以用来显示例如文本、图像和/或视频信息。显示器350也可以作为取景器操作,如后面将描述的。显示器350也可以被用作为用户界面,以使得用户能够配置录制音频和/或调节所录制的音频的过程。相机按钮360可以是使得用户能够拍摄图像的按钮。
由于在图2中举例说明的设备112本质上是示范性的,所以设备112打算广泛地被解释为包括任何类型的电子设备,包括图像捕获组件。例如,设备112可以包括无线电话、个人数字助理(PDA)、便携式计算机、相机或者手表。在其他实例中,设备112可以包括例如安全设备或者军用设备。相应地,虽然图3举例说明了设备112的示范性外部组件,但在其他实现中,设备112可以包含与图2所描绘的外部组件相比更少的、不同的、或者附加的外部组件。附加地或者替换地,设备112的一个或者多个外部组件可以包括设备112的一个或者多个其他外部组件的能力。例如,显示器350可以是输入组件(例如,触摸屏)。附加地或者替换地,外部组件可以与图2所描绘的外部组件不同地被安排。
现在参考图3,图3为简图,其举例说明了示范性设备的外部组件的后视图。如所例示的,除了之前所述的组件之外,设备112还可以包括相机470、镜头组(less assembly)472、近程传感器476以及闪光灯474。
相机470可以包括能捕捉图像或者图像流(视频)的任何组件。相机470可以是数字相机或者数字摄像机。当设备112的用户操作相机470时,显示器350可以作为取景器操作。相机470可以供给相机设置的自动和/或手动调节。在一种实现中,设备112可以包括相机软件,该相机软件可显示在显示器350上以允许用户调节相机设置。例如,用户可能能够通过操作功能键340来调节相机设置。
镜头组472可以包括能够操纵光以使得图像可以被捕获的任何组件。镜头组472可以包括多个光学镜头元件。光学镜头元件可以有不同形状(例如,凸面的、两面凸的、平凸的、凹面的等)以及不同的分开距离。光学镜头元件可以由玻璃、塑料(例如,丙烯酸)或者树脂玻璃制成。光学镜头可以被多层涂覆(例如,防反射涂料或者紫外线(UV)涂料)以便最小化不需要的效果,诸如镜头眩光以及不准确的颜色。在一种实现中,镜头组472可以永久地固定在相机470上。在其他实现中,镜头组472可以与其他具有不同光学特性的镜头互换。镜头组472可以供给可变孔径尺寸(例如,可调节的光圈值)。
近程传感器476(在图3中未示出)可以包括能够收集并提供可以用于使相机470能够适当地捕获图像的距离信息的任何组件。例如,近程传感器476可以包括红外(IR)近程传感器,该红外近程传感器允许相机470基于例如反射的红外强度、调制的红外或者三角测量来计算到目标——例如人脸——的距离。在另一种实现中,近程传感器476可以包括声学近程传感器。声学近程传感器可以包括用来测量超声波的回声返回的计时电路。在包括近程传感器476的实施方案中,近程传感器可以被使用来确定至一个或者多个移动物体的距离,该移动物体在场景的图像帧的捕获之前、期间或者之后可能在或者可能不在焦点上。
闪光灯474可以包括当相机470捕获图像时提供照明的任何类型的发光组件。例如,闪光灯474可以是发光二极管(LED)闪光灯(例如,白LED)或者氙闪光灯。在另一种实现中,闪光灯474可以包括闪光模块。
虽然图3示出示范性外部组件,但在其他实现中,设备112可以包括与图3描绘的示范性外部组件相比更少的、附加的、和/或不同的组件。例如,在其他实现中,相机470可以是胶片摄影机。附加地或者替换地,取决于设备112,闪光灯474可以是便携式闪光枪(flashgun)。附加地或者替换地,设备112可以是单镜头反射式照相机。在此外的其他实现中,设备112的一个或者多个外部组件可以被不同地安排。
现在参考图4,图4为简图,其举例说明用于录制音频和/或调节所录制的音频的示范性系统的内部组件。如所例示的,设备112可以包括麦克风310、扬声器320、小键盘330、功能键340、显示器350、存储器500、收发器520以及控制单元530。
存储器500可以包括用来存储与设备112的操作及使用有关的数据和指令的任何类型的存储组件。例如,存储器500可以包括存储器组件,诸如随机存取存储器(RAM)、只读存储器(ROM)和/或可编程只读存储器(PROM)。此外,存储器500可以包括存储装置组件,诸如磁存储装置组件(例如,硬盘驱动器)或者其他类型的计算机可读或者计算机可执行介质。存储器500也可以包括外部存储组件,诸如通用串行总线(USB)记忆棒、数字照相机存储卡、和/或用户身份模块(SIM)卡。
存储器500可以包括代码组件510,该代码组件510包括计算机可读或者计算机可执行指令,以用来执行一个或者多个功能。这些功能包括发起和/或执行图1所例示的过程。然而,功能不局限于在图1所例示的那些。代码组件510可以与和设备112相关联的一个或者多个其他硬件或者软件组件一起工作,以便发起和/或执行图1所例示的过程或者本文所描述的其他过程。此外,代码组件510可以包括计算机可读或者计算机可执行的指令,以提供除了本文所述之外的其他功能性。
收发器520可以包括能够无线地或者经由有线连接地传送及接收信息的任何组件。例如,收发器520可以包括提供与网络或者其他设备的无线通信的无线电电路。
控制单元530可以包括可解译及执行指令的任何逻辑,以及可以控制设备112的整体操作。当在本文中使用时,逻辑可以包括硬件、软件和/或硬件及软件的组合。控制单元530可以包括例如通用处理器、微处理器、数据处理器、协处理器和/或网络处理器。控制单元530可以从存储器500、从设备112的其他组件、和/或从设备112的外部源(例如,网络或者其他设备)访问指令。
控制单元530可以供给与设备112相关联的不同操作模式。例如,第一模式是音频和/或视频录制模式,并且第二模式是音频调节模式。此外,控制单元530可以同时在多种模式下操作。例如,控制单元530可以在相机模式、随身听模式和/或电话模式下操作。例如,当在相机模式时,逻辑可以使设备112能够捕获视频和/或音频。
虽然图4举例说明了示范性内部组件,但在其他实现中,设备112可以包括与图4所描绘的示范性内部组件相比更少的、附加的、和/或不同的组件。例如,在一种实现中,设备112可能不包括收发器520。在此外的其他实现中,设备112的一个或者多个内部组件可以包括设备112的一个或者多个其他组件的能力。例如,收发器520和/或控制单元530可以包括它们自己的机载(on-board)存储器。
依照本发明的实施方案,相对于系统(或者设备)的术语“模块”可以指系统的硬件组件、系统的软件组件、或者系统的包括硬件及软件两者的组件。当在本文中使用时,模块可以包括一个或者多个模块,其中每个模块可以驻留在硬件或者软件的单独部分(piece)内。
当在本文中使用时,术语“自动的”指在事件或条件发生而无用户介入后由计算机软件执行的功能、过程、方法或其任何部分。
虽然上文描述了本发明的许多实施方案,但本发明可以以很多不同的形式来体现,并且本发明不应被解释为局限于本文所阐明的实施方案;相反,这些实施方案被提供来使得本公开内容将满足适用的法律要求。同样,将理解的是,在可能的情况下,这里所描述的和/或预期的本发明的任何实施方案的任何优点、特征、功能、设备和/或操作方面可以被包括在这里所描述的和/或预期的本发明的任何其他实施方案中,并且/或者反之亦然。此外,除非另外明确地表述,否则在可能的情况下,本文中以单数形式表达的任何术语也旨在包括复数形式,并且/或者反之亦然。当在本文中使用时,“至少一个”应意指“一个或者多个”,并且这些短语被规定为可互换。相应地,术语“一”和/或“一个”(“a”和/或“an”)应意指“至少一个”或者“一个或者多个”,即便短语“一个或者多个”或者“至少一个”也在本文中使用。贯穿全文,同样的标号指同样的元素。
正如本领域技术人员鉴于本公开内容将会意识到的,本发明可以包括和/或被体现为设备(包括例如系统、机器、设备、计算机程序产品等)、方法(包括例如商业方法、计算机实现的过程等)、或前述的任何组合。相应地,本发明的实施方案可以采取以下形式:全部商业方法实施方案、全部软件实施方案(包括固件、驻留软件、微代码、在数据库中存储的过程,等等)、全部硬件实施方案、或者组合商业方法、软件以及硬件方面的实施方案——其在本文中可以一般性地称为“系统”。此外,本发明的实施方案可以采取计算机程序产品的形式,该计算机程序产品包括在其中存储有一个或者多个计算机可执行程序代码部分的计算机可读存储介质。当在本文中使用时,处理器——其可以包括一个或者多个处理器——可以被“配置成”以各种各样的方式执行某一功能,包括例如通过执行在计算机可读介质中体现的一个或者多个计算机可执行程序代码部分而使一个或者多个通用电路执行该功能,和/或使一个或者多个专用电路执行该功能。
应理解的是,可以利用任何适合的计算机可读介质。计算机可读介质可以包括但不局限于:非瞬时的计算机可读介质,例如有形的电子的、磁的、光学的、电磁的、红外线的;和/或半导体系统、设备和/或其他装置。例如,在某些实施方案中,非瞬时的计算机可读介质包括有形的介质,诸如便携式计算机软磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或者闪存)、压缩盘只读存储器(CD-ROM)、和/或某些其他有形的光学和/或磁存储设备。然而,在本发明的其他实施方案中,计算机可读介质可以是瞬时性的,诸如像在其中包括所体现的计算机可执行程序代码部分的传播信号。
用于实行本发明的操作的一个或者多个计算机可执行程序代码部分可以包括面向对象的、脚本的和/或非脚本的编程语言,诸如像Java、Perl、Smalltalk、C++、SAS、SQL、Python、Objective C、JavaScript等等。在某些实施方案中,用于实行本发明的实施方案的操作的一个或者多个计算机可执行程序代码部分以传统过程程序设计语言编写,诸如“C”编程语言和/或类似的编程语言。计算机程序代码可替换地或附加地以一种或者多种多范型(multi-paradigm)编程语言——诸如像F#——来编写。
在本文中,参考设备和/或方法的流程图图解和/或方框图,描述了本发明的某些实施方案。将理解的是,包括在流程图图解和/或方框图中的每个方块、和/或包括在流程图图解和/或方框图中的方块的组合,可以由一个或者多个计算机可执行程序代码部分来实现。这些一个或者多个计算机可执行程序代码部分可以被提供给通用计算机、专用计算机和/或某些其他可编程数据处理设备的处理器以便产生特定的机器,以使得经由计算机和/或其他可编程数据处理设备的处理器执行的一个或者多个计算机可执行程序代码部分创建用于实施由流程图和/或方框图方块代表的步骤和/或功能的机制。
一个或者多个计算机可执行程序代码部分可以被存储在瞬时的和/或非瞬时的计算机可读介质(例如,存储器等),该介质可以指导、指示和/或导致计算机和/或其他可编程数据处理设备以特定的方式起作用,以使得存储在计算机可读介质的计算机可执行程序代码部分产生制造品,该制造品包括指令机制,该指令机制实现在流程图和/或方框图方块中规定的步骤和/或功能。
一个或者多个计算机可执行程序代码部分也可以被加载到计算机和/或其他可编程数据处理设备上,以导致一系列的操作步骤在计算机和/或其他可编程设备上被执行。在某些实施方案中,这产生了计算机实现的过程,以使得在计算机和/或其他可编程设备上执行的一个或者多个计算机可执行程序代码部分提供操作步骤,来实现在流程图中规定的步骤和/或在方框图方块中规定的功能。替换地,计算机实现的步骤可以与操作者和/或人工实现的步骤相结合,和/或被后者替代,以便实行本发明的实施方案。
虽然已经描述并且在附图中显示了某些示范性实施方案,但应当理解的是,这样的实施方案对于广义的发明只是说明性的而不是限制性的,并且本发明不局限于所显示以及所描述的特定构造和安排,因为除了上面段落所阐明的那些构造和安排之外,各种其他改变、组合、省略、修改以及置换都是可能的。本领域的技术人员将会意识到,刚才所述的实施方案的各种改编、修改以及组合能够被配置,而并不背离本发明的范围和精神。因此,应当理解的是,在所附权利要求的范围内,本发明可以与本文所明确描述的那些不同地被实践。

Claims (16)

1.一种用于调节音频的方法,该方法包括:
利用音频捕获系统将第一音频录制到音频文件,其中录制的第一音频与音频电平相关联;
与录制步骤同时地,确定与录制的第一音频相关联的至少一种音频信号属性;
比较该音频电平与第一预定阈值电平;以及
响应于确定该音频电平大于第一预定阈值电平,通过修改至少一种确定的音频信号属性而调节录制的第一音频,其中调节步骤跟随录制步骤之后执行,同时将第二音频录制到该音频文件,使得在录制音频文件的完成之前调节后的音频盖写音频文件中的未调节的音频。
2.权利要求1的方法,其中调节步骤包括把增益系数或者换算系数应用至录制的音频,以使得与录制的音频相关联的音频电平减小。
3.权利要求1的方法,还包括编码所述录制的音频。
4.权利要求3的方法,其中调节步骤包括至少部分基于把换算系数应用至编码后的音频而调节该编码后的音频。
5.权利要求4的方法,其中换算系数作为元数据被存储在包括该编码后的音频的文件中。
6.权利要求3的方法,还包括:
解码所述编码后的音频;以及
其中调节步骤包括至少部分基于把增益系数应用至解码后的音频而调节该解码后的音频。
7.权利要求1的方法,其中调节步骤或是由音频录制系统或是由分开的计算系统执行。
8.权利要求1的方法,还包括:
访问包括至少一组音频信号属性的数据库;
从数据库中选取一组音频信号属性;
至少部分基于所选取的音频信号属性组来确定增益系数或者换算系数;以及
至少部分基于所确定的增益系数或者换算系数而调节录制的第一音频,其中调节步骤跟随录制步骤之后执行,同时将第二音频录制到该音频文件,使得在录制音频文件的完成之前调节后的音频盖写音频文件中的未调节的音频。
9.权利要求1的方法,还包括:
比较音频电平与第二预定阈值电平;以及
响应于确定音频电平小于第二预定阈值电平,通过修改至少一种确定的音频信号属性而调节录制的第一音频,其中调节步骤包括把增益系数或者换算系数应用至录制的音频,以使得与录制的音频相关联的音频电平增大。
10.权利要求1的方法,其中所述信号属性包括以下的至少一种:均方根电平、峰值电平、平均电平以及峰间电平。
11.权利要求1的方法,其中调节步骤减小与录制的音频相关联的动态范围。
12.权利要求1的方法,其中调节步骤减小录制的音频中的听觉人工产物。
13.权利要求1的方法,还包括:
比较音频电平与第三预定阈值电平;以及
响应于确定音频电平小于第三预定阈值电平,通过修改至少一种确定的音频信号属性而调节录制的第一音频,其中调节步骤包括把增益系数或者换算系数应用至录制的音频,以使得与录制的音频相关联的音频电平减小。
14.权利要求1的方法,还包括:
比较音频电平与第四预定阈值电平;以及
响应于确定音频电平大于第四预定阈值电平,通过修改至少一种确定的音频信号属性而调节录制的第一音频,其中调节步骤包括把增益系数或者换算系数应用至录制的音频,以使得与录制的音频相关联的音频电平增大。
15.权利要求1的方法,其中调节步骤包括把至少一个增益系数或者换算系数应用至录制的音频,以使得单独的增益系数或者换算系数或是应用至所录制音频的每个子时段,或是应用至与所录制音频中每个音频源相关联的音频。
16.一种用于调节音频的系统,该系统包括:
音频捕获系统,其被配置为:
将第一音频录制到音频文件,其中录制的第一音频与音频电平相关联;
与录制步骤同时地,确定与录制的音频相关联的至少一种音频信号属性;
比较音频电平与第一预定阈值电平;以及
响应于确定音频电平大于第一预定阈值电平,通过修改至少一种确定的音频信号属性而调节该录制的第一音频,其中调节步骤跟随录制步骤之后执行,同时将第二音频录制到该音频文件,使得在录制音频文件的完成之前调节后的音频盖写音频文件中的未调节的音频。
CN201280066032.0A 2012-01-06 2012-01-06 智能自动音频录制调平器 Expired - Fee Related CN104025192B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2012/050090 WO2013102799A1 (en) 2012-01-06 2012-01-06 Smart automatic audio recording leveler

Publications (2)

Publication Number Publication Date
CN104025192A CN104025192A (zh) 2014-09-03
CN104025192B true CN104025192B (zh) 2018-12-18

Family

ID=45531502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280066032.0A Expired - Fee Related CN104025192B (zh) 2012-01-06 2012-01-06 智能自动音频录制调平器

Country Status (4)

Country Link
US (1) US9692382B2 (zh)
EP (1) EP2801095A1 (zh)
CN (1) CN104025192B (zh)
WO (1) WO2013102799A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9559651B2 (en) 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
US10776419B2 (en) 2014-05-16 2020-09-15 Gracenote Digital Ventures, Llc Audio file quality and accuracy assessment
CN105375896A (zh) * 2014-08-29 2016-03-02 中兴通讯股份有限公司 自动调节音量的方法及电子设备
US9916836B2 (en) 2015-03-23 2018-03-13 Microsoft Technology Licensing, Llc Replacing an encoded audio output signal
US9837086B2 (en) 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
KR102371004B1 (ko) * 2015-08-12 2022-03-07 삼성전자 주식회사 오디오 신호 처리 방법 및 이를 지원하는 전자 장치
US10032456B2 (en) 2016-08-17 2018-07-24 International Business Machines Corporation Automated audio data selector
JP6953771B2 (ja) * 2017-04-11 2021-10-27 船井電機株式会社 再生装置
GB2560395B (en) * 2017-08-23 2019-03-27 Allen & Heath Ltd A programmable audio level indicator
CN111045634B (zh) * 2018-10-12 2023-07-07 北京微播视界科技有限公司 音频处理方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2429346A (en) * 2006-03-15 2007-02-21 Nec Technologies User-selectable limits in audio level control
CN101790843A (zh) * 2007-08-31 2010-07-28 模拟设备公司 用于任何期望的压缩曲线的可变自动限幅控制(alc)阈值
CN102007777A (zh) * 2008-04-09 2011-04-06 皇家飞利浦电子股份有限公司 用于声音换能器的驱动信号的生成

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3789143A (en) * 1971-03-29 1974-01-29 D Blackmer Compander with control signal logarithmically related to the instantaneous rms value of the input signal
US5101310A (en) * 1988-01-28 1992-03-31 The United States Of America As Represented By The Secretary Of The Navy Matched record/playback AGC amplifier system
US7333863B1 (en) * 1997-05-05 2008-02-19 Warner Music Group, Inc. Recording and playback control system
US6959220B1 (en) * 1997-11-07 2005-10-25 Microsoft Corporation Digital audio signal filtering mechanism and method
US7089181B2 (en) 2001-05-30 2006-08-08 Intel Corporation Enhancing the intelligibility of received speech in a noisy environment
CA2435771A1 (en) 2002-07-22 2004-01-22 Chelton Avionics, Inc. Dynamic noise supression voice communication device
US7617109B2 (en) * 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
DE102008036924B4 (de) 2008-08-08 2011-04-21 Gunnar Kron Verfahren zur Mehrkanalbearbeitung in einem Mehrkanaltonsystem
JP2010244602A (ja) * 2009-04-03 2010-10-28 Sony Corp 信号処理装置及び方法、並びにプログラム
US8879750B2 (en) * 2009-10-09 2014-11-04 Dts, Inc. Adaptive dynamic range enhancement of audio recordings
US8675900B2 (en) * 2010-06-04 2014-03-18 Exsilent Research B.V. Hearing system and method as well as ear-level device and control device applied therein

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2429346A (en) * 2006-03-15 2007-02-21 Nec Technologies User-selectable limits in audio level control
CN101790843A (zh) * 2007-08-31 2010-07-28 模拟设备公司 用于任何期望的压缩曲线的可变自动限幅控制(alc)阈值
CN102007777A (zh) * 2008-04-09 2011-04-06 皇家飞利浦电子股份有限公司 用于声音换能器的驱动信号的生成

Also Published As

Publication number Publication date
US9692382B2 (en) 2017-06-27
US20140341396A1 (en) 2014-11-20
CN104025192A (zh) 2014-09-03
WO2013102799A1 (en) 2013-07-11
EP2801095A1 (en) 2014-11-12

Similar Documents

Publication Publication Date Title
CN104025192B (zh) 智能自动音频录制调平器
CN112400325B (zh) 数据驱动的音频增强
US20160234606A1 (en) Method for augmenting hearing
US20170289681A1 (en) Method, apparatus and computer program product for audio capture
CN104991754B (zh) 录音方法及装置
JP2021514497A (ja) 顔部認識方法及び装置、電子機器並びに記憶媒体
JP2022522456A (ja) 歌の録音方法、音声補正方法、および電子デバイス
US20180152163A1 (en) Noise control method and device
CN103777351A (zh) 多媒体眼镜
KR20100095232A (ko) 화이트 밸런스 조정 방법, 상기 방법을 기록한 기록 매체, 화이트 밸런스 조정 장치
CN111583944A (zh) 变声方法及装置
US20160372099A1 (en) Noise control method and device
US9495608B2 (en) Smart feeling sensing tag for pictures
CN115273831A (zh) 语音转换模型训练方法、语音转换方法和装置
WO2023231686A1 (zh) 一种视频处理方法和终端
JP2013034057A (ja) 電子機器、音響再生方法、及びプログラム
US9161125B2 (en) High dynamic microphone system
CN104038611A (zh) 依据环境调整音量的装置与方法
CN116403599A (zh) 一种高效的语音分离方法及其模型搭建方法
WO2019184745A1 (zh) 智能画框的控制方法、控制系统及计算机可读存储介质
CN113345452B (zh) 语音转换方法、语音转换模型的训练方法、装置和介质
JP2024509873A (ja) ビデオ処理方法、装置、媒体、及びコンピュータプログラム
CN114694685A (zh) 语音质量评估方法、装置及存储介质
CN111696566B (zh) 语音处理方法、装置和介质
CN108364631B (zh) 一种语音合成方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Longde, Sweden

Applicant after: Sony Mobile Communications AB

Address before: Longde, Sweden

Applicant before: SONY ERICSSON MOBILE COMMUNICATIONS AB

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20181022

Address after: Tokyo, Japan

Applicant after: SONY MOBILE COMMUNICATIONS Inc.

Address before: Longde, Sweden

Applicant before: Sony Mobile Communications AB

GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181218

Termination date: 20200106