CN109891504A - 信息处理设备和方法以及程序 - Google Patents
信息处理设备和方法以及程序 Download PDFInfo
- Publication number
- CN109891504A CN109891504A CN201780060448.4A CN201780060448A CN109891504A CN 109891504 A CN109891504 A CN 109891504A CN 201780060448 A CN201780060448 A CN 201780060448A CN 109891504 A CN109891504 A CN 109891504A
- Authority
- CN
- China
- Prior art keywords
- value
- audio
- metadata
- target
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title abstract description 117
- 230000005236 sound signal Effects 0.000 claims abstract description 193
- 238000012545 processing Methods 0.000 claims description 252
- 238000012937 correction Methods 0.000 claims description 233
- 238000004364 calculation method Methods 0.000 claims description 97
- 230000003595 spectral effect Effects 0.000 claims description 77
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000003672 processing method Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 40
- 238000003860 storage Methods 0.000 abstract description 39
- 230000008569 process Effects 0.000 description 95
- 230000033458 reproduction Effects 0.000 description 64
- 238000004458 analytical method Methods 0.000 description 60
- 238000007619 statistical method Methods 0.000 description 58
- 230000006870 function Effects 0.000 description 38
- 238000010606 normalization Methods 0.000 description 30
- 230000000694 effects Effects 0.000 description 22
- 230000005540 biological transmission Effects 0.000 description 18
- 238000004519 manufacturing process Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 13
- 238000001514 detection method Methods 0.000 description 12
- 238000009826 distribution Methods 0.000 description 12
- 238000011045 prefiltration Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000005259 measurement Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000005538 encapsulation Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000005096 rolling process Methods 0.000 description 4
- 235000013399 edible fruits Nutrition 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 238000013481 data capture Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/002—Control of digital or coded signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/3089—Control of digital or coded signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G5/00—Tone control or bandwidth control in amplifiers
- H03G5/005—Tone control or bandwidth control in amplifiers of digital signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G5/00—Tone control or bandwidth control in amplifiers
- H03G5/16—Automatic control
- H03G5/165—Equalizers; Volume or gain control in limited frequency bands
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/005—Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/02—Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
- H03G9/12—Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers having semiconductor devices
- H03G9/18—Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers having semiconductor devices for tone control and volume expansion or compression
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本技术涉及使得能够有效地校正音量以更好地匹配听感特性的信息处理设备、方法和程序。本发明被配置成获取作为音频信号组的每个音频信号的元数据的统计值的目标数据,获取要再现的音频信号的元数据,以及通过使用所获取的目标数据和元数据来计算要再现的音频信号的音量的校正值或要再现的音频信号的音质的校正值或两者。本发明可以应用于例如信息处理设备、电子设备、计算机、服务器、程序、存储介质和系统。
Description
技术领域
本技术涉及信息处理设备、信息处理方法和程序,并且更具体地,涉及能够获得更适合于听感特性的音量校正效果的信息处理设备、信息处理方法和程序。
背景技术
过去,在不同音频源(在音乐的情况下是音乐作品)之间调平音量(响度)并改善收听者的舒适性和便利性(例如,消除针对每个音乐作品调节音量的不便等)的技术已经开发并且投入实际使用(例如,参见专利文献1至3)。
例如,在已知的相关技术中,使用整个音乐作品的有效值来计算音量校正值。此外,在这种情况下,使用预滤波器来改善听感特性与有效值之间的相关性。作为预滤波器的特性,例如,经常使用K特性等。
引用列表
专利文献
专利文献1:JP 4981123B
专利文献2:JP 5101292B
专利文献3:JP 2016-509693T
发明内容
技术问题
然而,在相关技术中,可能难以使音量校正效果与用户的听感特性相匹配。例如,在使用K特性作为预滤波器的特性的情况下,考虑到滤波器的简单实现,通过两个双二阶滤波器的级联连接来实现K特性,并且不必然严格地反映听觉特性。因此,可能难以执行准确反映用户的听感特性的音量校正。
此外,即使使用具有不妥协特性的预滤波器来严格地再现听觉特性,在再现设备的频率特性不平坦的情况下,由于如下原因,其可能难以获得与用户的听感特性相匹配的音量校正效果:原则上它不会变成由收听者最终感知的真实有效值,除非在考虑特性的情况下计算有效值。
鉴于前述内容提出了本技术,并且本技术的目的是获得更适合于听感特性的音量校正效果。
问题的解决方案
本技术的一个方面的信息处理设备是如下信息处理设备,该信息处理设备包括:目标数据获取单元,其被配置成获取目标数据,该目标数据是音频信号组的每个音频信号的元数据的统计值;元数据获取单元,其被配置成获取再现目标的音频信号的元数据;以及校正值计算单元,其被配置成使用由目标数据获取单元获取的目标数据和由元数据获取单元获取的元数据来计算再现目标的音频信号的音量的校正值和再现目标的音频信号的音质的校正值中的任一者或两者。
元数据可以包括音频信号的功率谱密度和音频信号的样本值的绝对值直方图。
目标数据可以包括功率谱密度的平均值和标准偏差值以及绝对值直方图的平均值和标准偏差值。
校正值计算单元可以使用再现目标的音频信号的样本值的绝对值直方图和音频信号组的样本值的绝对值直方图的平均值来计算音量的校正值。
校正值计算单元可以使用再现目标的音频信号的样本值的绝对值直方图的基准峰值水平和模式值以及音频信号组的样本值的绝对值直方图的平均值的基准峰值水平和模式值来计算音量的校正值。
校正值计算单元可以使用再现目标的音频信号的样本值的绝对值直方图对再现目标的音频信号的功率谱密度进行规范化,并且使用规范化的功率谱密度来计算音质的校正值。
校正值计算单元可以利用具有再现目标的音频信号的样本值的绝对值直方图的预定概率密度的值对再现目标的音频信号的功率谱密度进行规范化。
校正值计算单元可以使用再现目标的音频信号的样本值的绝对值直方图的基准峰值水平对再现目标的音频信号的功率谱密度进行规范化。
校正值计算单元可以获得再现目标的音频信号的规范化的功率谱密度与音频信号组的功率谱密度的平均值之间的差异,并且使用该差异来计算音质的校正值。
校正值计算单元可以使用上述差异和音频信号组的功率谱密度的标准偏差值来计算再现目标的音频信号的功率谱密度的校正值,并且使用再现目标的音频信号的功率谱密度的校正值来计算音质的校正值。
还可以包括校正单元,该校正单元被配置成使用由校正值计算单元计算的校正值来校正再现目标的音频信号的音量和音质中的任一者或两者。
还可以包括加工部,该加工部被配置成在不使用由校正值计算单元计算的校正值的情况下对再现目标的音频信号的音质进行加工。
还可以包括输出单元,该输出单元被配置成再现和输出再现目标的音频信号。
还可以包括元数据生成单元,该元数据生成单元被配置成生成音频信号的元数据。
元数据生成单元可以通过频率稀疏来生成元数据。
元数据生成单元可以生成再现目标的音频信号的元数据,并且校正值计算单元可以被配置成使用由元数据生成单元生成的元数据来计算再现目标的音频信号的音量的校正值和再现目标的音频信号的音质的校正值中的任一者或两者。
元数据生成单元可以被配置成生成音频信号组的每个音频信号的元数据,并且还可以包括目标数据生成单元,该目标数据生成单元被配置成使用由元数据生成单元生成的音频信号组的每个音频信号的元数据来生成音频信号组的目标数据。
还可以包括数据库,该数据库被配置成管理由目标数据生成单元生成的目标数据。
本技术的一个方面的信息处理方法是如下信息处理方法,该信息处理方法包括:获取目标数据,该目标数据是音频信号组的每个音频信号的元数据的统计值;获取再现目标的音频信号的元数据;以及使用所获取的目标数据和所获取的元数据来计算再现目标的音频信号的音量的校正值和再现目标的音频信号的音质的校正值中的任一者或两者。
本技术的一个方面的程序是使得计算机用作以下的程序:目标数据获取单元,其被配置成获取目标数据,该目标数据是音频信号组的每个音频信号的元数据的统计值;元数据获取单元,其被配置成获取再现目标的音频信号的元数据;以及校正值计算单元,其被配置成使用由目标数据获取单元获取的目标数据和由元数据获取单元获取的元数据来计算再现目标的音频信号的音量的校正值和再现目标的音频信号的音质的校正值中的任一者或两者。
在本技术的一个方面,获取作为音频信号组的每个音频信号的元数据的统计值的目标数据,获取再现目标的音频信号的元数据,以及使用所获取的目标数据和所获取的元数据来计算再现目标的音频信号的音量的校正值和再现目标的音频信号的音质的校正值中的任一者或两者。
发明的有益效果
根据本技术,可以对信息进行处理。此外,根据本技术,可以获得更适合于听感特性的音量校正效果。
附图说明
[图1]图1是示出音频信号再现系统的主要配置示例的框图。
[图2]图2是示出目标数据提供服务器的主要配置示例的框图。
[图3]图3是示出目标数据提供服务器的主要功能示例的功能框图。
[图4]图4是示出音频源分析单元的主要配置示例的功能框图。
[图5]图5是示出规范化单元的主要配置示例的功能框图。
[图6]图6是示出统计分析单元的主要配置示例的功能框图。
[图7]图7是示出用作统计分析目标的音频信号组的PSD的示例的图。
[图8]图8是示出用作统计分析目标的音频信号组的HIST的示例的图。
[图9]图9是示出PSD的平均值和标准偏差值的示例的图。
[图10]图10是示出HIST的平均值和标准偏差值的示例的图。
[图11]图11是示出1990年制作的音乐作品的音频信号波形、PSD和HIST的示例的图。
[图12]图12是示出2012年制作的音乐作品的音频信号波形、PSD和HIST的示例的图。
[图13]图13是示出1990年制作的音乐作品的HIST(横轴线性)的示例的图。
[图14]图14是示出2012年制作的音乐作品的HIST(横轴线性)的示例的图。
[图15]图15是示出在没有规范化的情况下的统计处理结果的示例的图。
[图16]图16是示出在利用最大值(P=0.0)执行规范化的情况下PSD的统计处理结果的示例的图。
[图17]图17是示出在利用最大值(P=0.0001)执行规范化的情况下PSD的统计处理结果的示例的图。
[图18]图18是示出在利用最大值(P=0.001)执行规范化的情况下PSD的统计处理结果的示例的图。
[图19]图19是示出在利用最大值(P=0.01)执行规范化的情况下PSD的统计处理结果的示例的图。
[图20]图20是示出在利用最大值(P=0.03)执行规范化的情况下PSD的统计处理结果的示例的图。
[图21]图21是示出在利用模式值执行规范化的情况下PSD的统计处理结果的示例的图。
[图22]图22是示出在利用450Hz的值执行规范化的情况下PSD的统计处理结果的示例的图。
[图23]图23是示出PSD规范化方法与标准偏差值之间的关系的示例的图。
[图24]图24是示出用于PSD规范化的参数的示例的图。
[图25]图25是示出用于PSD规范化的参数的示例的图。
[图26]图26是示出目标数据登记处理的流程的示例的流程图。
[图27]图27是用于说明音频源分析处理的流程的示例的流程图。
[图28]图28是示出规范化处理的流程的示例的流程图。
[图29]图29是示出统计分析处理的流程的示例的流程图。
[图30]图30是示出终端设备的主要配置示例的框图。
[图31]图31是示出终端设备的主要功能示例的功能框图。
[图32]图32是示出用于音量校正值计算的参数的示例的图。
[图33]图33是示出PSD规范化的形式的示例的图。
[图34]图34是示出用于计算PSD校正值的PSD的平均值和标准偏差值的示例的图。
[图35]图35是示出PSD校正值的示例的图。
[图36]图36是示出音质校正的形式的示例的图。
[图37]图37是示出音质校正的形式的示例的图。
[图38]图38是示出再现控制处理的流程的示例的流程图。
[图39]图39是示出目标数据获取处理的流程的示例的流程图。
[图40]图40是示出元数据获取处理的流程的示例的流程图。
[图41]图41是示出校正滤波器特性计算处理的流程的示例的流程图。
[图42]图42是图41之后的示出了校正滤波器特性计算处理的流程的示例的流程图。
[图43]图43是示出应用校正的再现处理的流程的示例的流程图。
[图44]图44是示出没有应用校正的再现处理的流程的示例的流程图。
具体实施方式
在下文中,将描述用于执行本公开的模式(下文中称为“实施方式”)。此外,将按照以下顺序进行描述。
1.第一实施方式(音频信号再现系统)
2.第二实施方式(其他)
<1.第一实施方式>
<音频信号的音量调节>
过去,在不同音频源(在音乐的情况下的音乐作品)之间调平音量(响度)并改善收听者的舒适性和便利性(例如,消除针对每个音乐作品调节音量的不便等)的技术已经开发并且投入实际使用。音频源(音乐作品)的音量或音质不必然是均匀的,并且通常根据其制作情况(例如,制作者、制作年份、记录设备等)而变化。换句话说,例如,在具有例如不同的制作者、歌手(表演者)、制作年份、存储音频源的单曲或曲集等的多个音乐作品被随机播放的情况下,音量或音质可能会变化,导致收听者感到不舒服。在这方面,考虑如上所描述的通过再现设备调平音量的方法。
作为调平技术,存在不对音乐作品进行初步分析的技术和对音乐作品进行初步分析的技术。在前一种技术中,与音频源的再现处理并行地决定音量校正参数,控制音量,并且随着音频源的再现内容的改变而顺序地更新校正处理的参数。在后一种技术中,预先分析整个音频源(在音乐的情况下的整个音乐作品),获取音频源特征量(元信息),并且在再现时基于该信息在整个音频源之上利用恒定音量校正参数来控制音量。例如,在更广泛的意义上,还包括如无线电工商业协会(ARIB)TR-B32中定义的电视声音的响度调节等。
在前一种技术的情况下,由于在音频源中音量校正参数变化,在音频源是音乐的情况下,音乐作品的原始节奏(动态)可能受损,但是由于初步分析是不必要的,因而即使在嵌入式声学乐器等中也很容易实现。此外,存在它还适用于连续内容(广播或唱片骑师(DJ)混合)等的优点。
在后一种技术的情况下,音乐的原始动态不太可能像在前一种技术的情况下那样受损,但是为了实现它,初步分析是必要的,因此对处理系统的配置存在限制。此外,作为另一问题,存在音量的校正结果与在听感方面期望感到的结果不一致的情况。在已知的相关技术中,使用整个音乐作品的有效值来计算音量校正值。在这种情况下,使用预滤波器来改善听感特性与有效值之间的相关性。作为预滤波器的特性,例如,使用K特性(在ARIB TR-B32的情况下),但是考虑到滤波器的容易实现,通过两个双二阶滤波器的级联连接来实现K特性,并且不必然使得严格反映听觉特性。此外,即使使用具有不妥协特性的预滤波器来严格地再现听觉特性,在再现设备的频率特性不平坦的情况下,由于除非在考虑特性的情况下计算有效值,否则原则上它不会变成由收听者最终感知的真实有效值,因此难以针对每个单独的再现设备获得这样的有效值,因为再现设备的频率特性可以无限地存在。
此外,在20世纪90年代前半期起的致密盘(CD)中,由于用于改进被称为所谓的声压竞争的营销效果并且通过限制器或压缩器的效果增加有效值的母带处理过程(音质调整过程),音乐信号的波峰因子(最大值与有效值的比率)趋于差别很大,并且在这些音乐作品或唱片(CD唱片)与诸如有效值的一个值混合的情况下难以准确地评估音乐作品的响度关系。
此外,通过相关技术的方法不能校正音质。上述声压竞争不仅限于音量的变化,还与音质的变化相关联。此外,即使声压竞争不是主要原因,取决于音乐制作者的意图、偏好等,每个音乐作品也可能具有不同音质的趋势。在这种情况下,即使这些音乐作品之间的音量感很好地对准,但音质的趋势的差异仍然存在。因此,特别是在收听者连续地再现这些音乐作品的情况下,即使在数字音量对准的情况下,也可能给出由音质的不规则性引起的不适感(不连续性或不一致性)。
此外,根据再现设备,收听者可能能够使用嵌入在再现设备中的均衡器等来校正以得到期望的音质。然而,如上所描述的在音乐作品之间存在音质差异的情况下,收听者必须针对每个音乐作品操纵均衡器的设置,使得每个音乐作品可以以适合于收听者的音质再现。因此,收听者由于其复杂性而不能舒适地和实用地使用均衡器。
<使用目标数据和元数据的音量/音质校正>
在这方面,使用作为音频信号组的每个音频信号的元数据的统计值的目标数据和再现目标的音频信号的元数据来计算再现目标的音频信号的音量的校正值或者再现目标的音频信号的音质的校正值中的任一者或两者。音频信号组是任意音频信号的集合。例如,音频信号组可以是在相对宽松的约束条件下从总体中选择的样本(即,假设存在根据正态分布的变化的集合)。在以下描述中,假设音频信号组是根据特定标准从总体中提取的音频信号组(样本)。此外,该标准是任意的。
因此,可以获得更适合于听感特性的音量校正效果。换句话说,可以有效地校正音乐作品的音量和音质的变化,并且即使在收听者连续地按顺序收听不同的音乐作品的情况下,收听者也可以舒适地收听音乐作品,而没有任何不适。此外,在收听者通过使用诸如安装在再现设备中的均衡器的音质校正功能来校正音质的情况下,可以抑制收听者感觉对于每个音乐作品最佳的均衡器设置的差异,并且提高收听者进行质量调整的便利性。
<音频信号再现系统>
图1是示出作为应用本技术的信息处理系统的实施方式的音频信号再现系统的主要配置示例的图。图1所示的音频信号再现系统100是用于在终端设备103再现诸如音乐的音频信号的情况下校正音频信号的音量或音质的系统。
终端设备103使用添加到要再现的音频信号的元数据和由目标数据提供服务器101提供的目标数据来校正要再现的音频信号的音量或音质,目标数据提供服务器101经由网络102可通信地连接至终端设备103。
添加到音频信号的元数据包括与音频信号的音量或音质或其校正值有关的信息等。此外,目标数据是根据特定标准从总体提取的多个音频信号(音频信号组)的每个音频信号的元数据的统计值(统计信息)。
如上所述,通过不仅使用再现目标的音频信号的元数据而且还使用根据特定标准从总体提取的音频信号组的目标数据来执行音量校正,终端设备103可以有效地校正音乐作品的音量的变化,并且获得更适合于听感特性的音量校正效果。
<声源分析和统计分析>
<目标数据提供服务器的物理配置>
图2是示出目标数据提供服务器101的主要配置示例的框图。如图2所示,目标数据提供服务器101包括中央处理单元(CPU)111、只读存储器(ROM)112和随机存取存储器(RAM)113。
输入/输出接口120还连接至总线114。输入单元121、输出单元122、存储单元123、通信单元124和驱动器125连接至输入/输出接口120。
输入单元121包括任意输入设备,例如,比如键盘、鼠标、触摸板、图像传感器、麦克风、开关、输入端子等。此外,输入单元121包括任意传感器,例如,比如加速度传感器。输出单元122包括任意输出设备,例如,比如显示器、扬声器或输出端子。存储单元123包括任意存储介质,例如,比如非易失性存储器,诸如硬盘、RAM盘、固态驱动器(SSD)或通用串行总线(USB)存储器。通信单元124包括例如以太网(注册商标)、蓝牙(注册商标)、USB、高清多媒体接口(HDMI)(注册商标)或红外数据协会(IrDA)等的任意通信标准的有线和/或无线通信接口。驱动器125驱动加载到驱动器125上的可移除介质131,该可移除介质131具有任意存储介质,例如磁盘、光盘、磁光盘或半导体存储器。
在如上所描述的那样配置的目标数据提供服务器101中,例如,通过经由输入/输出接口120和总线114将存储在存储单元123中的程序加载到RAM 113上并且由CPU 111执行程序来实现后面描述的功能。此外,CPU 111执行各种类型的处理所需的数据等被适当地存储在RAM 113中。
由CPU 111执行的程序可以被记录在用作例如封装介质等的可移除介质131中并被应用。在这种情况下,可移除介质131被加载到驱动器125上,然后程序可以经由输入/输出接口120安装在存储单元123中。此外,还可以经由诸如局域网、因特网或数字卫星广播的有线或无线传输介质来提供程序。在这种情况下,程序可以由通信单元124来接收并且被安装在存储单元123中。此外,可以将该程序预先安装在ROM 112或存储单元123中。
<目标数据提供服务器的功能配置>
图3是示出由目标数据提供服务器101实现的主要功能的示例的功能框图。如图3所示,目标数据提供服务器101包括音频源分析单元141、规范化单元142、统计分析单元143和目标数据数据库144作为功能块。
音频源分析单元141是应用本技术的元数据生成单元的实施方式,并且对处理目标的音频源文件(音频信号)执行与音量或音质相关的分析,并且生成包括与分析结果有关的信息(即,与音频信号的音量或音质或者其校正值有关的信息)的元数据。音频源分析单元141将所生成的元数据与处理目标的音频源文件相关联。音频源分析单元141将音频源文件和元数据提供给规范化单元142。
此外,例如,术语“关联”意味着当处理一条数据时可以使用(链接)其他数据,并且数据的物理配置是任意的。换句话说,例如,元数据可以嵌入在音频源文件中(即,音频源文件和元数据可以组合为一条数据)作为标签信息等,或者它们可以是具有彼此链接的信息的单独的数据。换句话说,音频源文件和元数据可以一起传送或记录,或者可以单独传送或记录(例如,可以经由不同的传输路径传送或者可以记录在不同的存储区域或记录介质中)。
此外,在本说明书中,术语“嵌入”、“添加”、“合成”、“多路复用”、“集成”、“包括”、“存储”、“放入”、“附接”、“插入”、“链接”、“关联”等指的是以上描述的“关联”的一种方法。换句话说,在本说明书中,术语“关联”包括这些术语和与这些术语具有类似含义的其他术语的所有含义。
规范化单元142针对从音频源分析单元141提供的元数据执行与规范化相关的处理。规范化单元142向统计分析单元143提供音频源文件、经规范化的元数据等。统计分析单元143是应用本技术的目标数据生成单元的实施方式,并且使用从规范化单元142提供的音频源文件或元数据对根据特定标准从总体提取的音频源文件组(音频信号组)(也被称为集群)执行与元数据的统计值的计算相关的处理。统计值也被称为目标数据。统计分析单元143将获得的目标数据与音频源文件、元数据等一起(与音频源文件、元数据等相关联地)登记在目标数据数据库144中。
这些功能(音频源分析单元141、规范化单元142和统计分析单元143的功能)例如通过CPU 111执行加载到RAM 113上的程序、数据等来实现。
目标数据数据库144是应用本技术的数据库的实施方式,并且执行与从统计分析单元143提供的音频源文件、元数据、元数据的统计信息等的管理有关的处理。例如,目标数据数据库144将音频源文件、元数据或统计信息存储在存储单元123中并且对其进行管理,并且如果需要则读取并提供信息。目标数据数据库144的功能例如通过CPU 111执行加载到RAM 113上的程序、数据等并且使用存储单元123来实现。
<声源分析单元>
接下来,将描述音频源分析单元141的功能。图4是示出音频源分析单元141的主要功能的示例的功能框图。如图4所示,音频源分析单元141包括样本值获取单元151、功率谱密度计算单元152、绝对值直方图生成单元153、加法单元161、除法单元162、频率平滑单元163、频率稀疏处理单元164和除法单元165作为功能块。
音频源分析单元141分析处理目标的音频源文件171的音频信号150,并且获得功率谱密度(PSD)和样本值的绝对值直方图。音频源分析以一个音频源为单位执行(例如,在CD的情况下以一个音轨为单位。在古典音乐作品的情况下,在许多情况下,一个音轨=一个移动)。当然,音频源分析的处理单位是任意的,并且例如,可以一起分析多个音频源。此外,在下文中,假设音频源分析以一个音乐作品(=一个音频源=一个音轨等)为单位执行。一整个音乐作品的功率谱密度的平均(平均功率谱密度)也被称为I_PSD(i)。此外,一整个音乐作品的样本的绝对值直方图也被称为I_HIST(m)。此外,“i”指示频率的索引,并且“m”指示样本绝对值箱(bin)的索引。
样本值获取单元151执行与音频信号的采样相关的处理。例如,样本值获取单元151以预定的采样频率对处理目标的音频源文件171的音频信号150进行采样并获取样本值。样本值获取单元151将所获得的样本值提供给功率谱密度单元152和绝对值直方图生成单元153。
<功率谱密度>
功率谱密度计算单元152执行与使用由样本值获取单元151获得的样本值的功率谱密度的计算相关的处理。例如,功率谱密度计算单元152针对每个预定数据单位(测量块)计算功率谱密度。
对于PSD的分析,例如,使用采用汉宁窗作为窗函数的巴特利特(Barlett)技术(相当于交叠=0[样本]的韦尔奇(Welch)技术)。快速傅立叶变换(FFT)的点数(fft_size)被设置成例如fft_size=16384,以便在可听频率下限附近获得足够的频率分辨率。在这种情况下,采样频率fs=44.1kHz的音频源的频率分辨率是2.7Hz(=44.1kHz÷16384)。如果用于L声道和R声道的m个测量块中的第n个测量块的第i个样本值是L(i,n)和R(i,n),则通过以下公式(1)和(2)获得立体声音频源的L声道和R声道两者的平均功率谱密度(以下公式中的PSD(ω),因为它是频率的函数)。此外,假设幅度值以±1.0的满量程规范化。
[数学式1]
[数学式2]
这里,j是虚数单位,ω是角频率,并且W(i)是汉宁窗函数且如下面的公式(3)所定义。
[数学式3]
在公式(1)中,KPCF是通过窗函数的能量减少率的校正值,并且被称为功率校正因子(PCF)。利用KPCF进行校正,可以在使用不同窗函数分析的功率谱密度之间进行相对比较。PCF(KPCF)通过以下公式(4)获得。
[数学式4]
此外,在公式(1)中,KPSD是用于将离散FFT结果(功率谱)转换为连续功率谱密度(每带宽1Hz的功率)的系数,并且使用采样频率fs如下面的公式(5)中那样地定义。
[数学式5]
此外,在公式(2)中,三角移动平均(TMA)指示三角移动平均,第一自变量指示目标数据序列,并且第二自变量指示移动平均宽度。执行一个倍频程宽度(octave width)的三角移动平均处理以增强分析结果与人类感觉的音乐作品的音质特征之间的相关性,因为听感特性的临界带宽在500Hz或更低频率处大致为100Hz并且在500Hz或更高频率处为1/3到1/4倍频程宽度。
返回图4,加法单元161计算如上所描述的那样由功率谱密度计算单元152生成的测量块的功率谱密度之和。除法单元162将由加法单元161计算的功率谱密度之和除以测量块的数目。换句话说,加法单元161和除法单元162计算一整个音乐作品的功率谱密度的平均(I_PSD(i))。频率平滑单元163在频率方向上平滑所计算出的一整个音乐作品的功率谱密度的平均(I_PSD(i))。如果需要,频率稀疏处理单元164对如上所描述的那样获得的一整个音乐作品的功率谱密度的平均(I_PSD(i))执行频率稀疏处理。换句话说,频率稀疏处理单元164省略了某些频率的功率谱密度。换句话说,频率稀疏处理单元164提取某些频率的功率谱密度。因此,可以减少元数据的数据量。在V是幅度的单位的情况下,PSD的单位是W/Hz,但是在实施方式中,PSD的单位是1/Hz,因为幅度是无量纲的。此外,对于后续处理,执行dB转换,并且它是dB/Hz。
频率稀疏处理单元164将与如上所描述的那样生成的功率谱密度(PSD)(即,一整个音乐作品的功率谱密度的平均(I_PSD(i))相关的信息与音频源文件171相关联作为元数据。换句话说,例如,频率稀疏处理单元164将元数据添加到音频源文件171。可替选地,例如,频率稀疏处理单元164将元数据与音频源文件171相关联。
<绝对值直方图>
绝对值直方图生成单元153执行与由样本值获取单元151获得的样本值的绝对值直方图的生成相关的处理。例如,绝对值直方图生成单元153针对每个测量块生成绝对值直方图(HIST)。
对于样本值的绝对值直方图(HIST)的分析,例如,使用以与PSD的间隔相同的16384点且交叠=0[样本]的间隔获取的数据(即,一个音轨中的左右声道两者的所有非交叠样本)。获得绝对值后,将样本值转换为dB值(假设最大值为0dBFS),以确保分析结果的动态范围,并在-60dBFS至0dBFS的范围中以每0.5dB步长的箱对样本值进行计数。
加法单元161将由绝对值直方图生成单元153如上所描述的那样生成的各个测量块的绝对值直方图(HIST)进行组合,并且生成与一个音轨相对应的绝对值直方图。如果如上所描述的那样完成一个音轨的所有样本的计数,则除法单元165针对由加法单元161生成的与一个音轨相对应的绝对值直方图(HIST),将每个箱的计数数目除以所有样本的数目(测量样本的数目),并且将其转换为出现概率密度函数(一整个音乐作品的样本的绝对值的直方图(I_HIST(m)))。单位是每0.5dB宽度出现概率(=1/0.5dB),但是对于该值的规范化,通过除以二将该单位转换为每1dB宽度出现概率(=1/dB)。
除法单元165将与如上所描述的那样生成的出现概率密度函数有关的信息(一整个音乐作品的样本的绝对值的直方图(I_HIST(m))与音频源文件171相关联作为元数据。换句话说,例如,除法单元165将元数据加到音频源文件171。可替选地,例如,除法单元165将元数据与音频源文件171链接。
<其它>
音频源分析单元141将与I_PSD(i)或I_HIST(m)相关联的音频源文件171作为元数据提供给规范化单元142。
此外,在上面的示例中,使用0[样本]的间隔计算PSD或HIST,但是可以根据音频源分析处理系统的能力使用与0[样本]不同的值。例如,它可以是恒定值,可以是随机数,或者可以采取使得测量样本交叠的负值。在间隔增加的情况下,需要考虑分析结果的准确性降低,但是由于准确性降低量在统计上是可预测的,因此在实际范围内是可允许的。
此外,由于在许多情况下在音乐作品之前和之后添加约1秒至2秒的静音间隔,特别地,在间隔长并且测量样本的数目少的情况下,可以通过从分析目标排除音乐作品之前和之后的静音间隔来改进准确性。此外,可以从分析目标排除音乐作品的前奏或后奏。例如,音乐作品的前奏或后奏可以具有与主要部分的音量或音质不同的音量或音质,例如,可以具有与主要部分不同的乐器配置。此外,还存在使用例如所谓的淡入或淡出的未包括在主要部分中的效果的情况。通过从分析目标排除这样的特殊区段可以提高准确性。当然,可以从分析目标中排除音乐作品的中间部分。例如,桥等也可以具有与主要部分的音量或音质不同的音量或音质。通过从分析目标排除这样的特殊区段可以提高准确性。换句话说,可以从音频信号(对应于一个音轨)的一些任意样本获得PSD或HIST。
此外,用于计算PSD的窗函数不限于汉宁窗。此外,HIST的箱的步长不限于0.5dB。PSD和HIST是通过测量块的数目和测量样本的数目规范化的密度函数,并且设计能够对如下结果进行比较的计算方法是足够的:这些结果除了由间隔设置的差异引起的准确性差异之外,在FFT的点数、窗函数或间隔方面不同。
<规范化单元>
接下来,将描述规范化单元142的功能。图5是示出规范化单元142的主要功能的示例的功能框图。如图5所示,规范化单元142具有基准峰值水平检测单元181和规范化处理单元182作为功能块。
基准峰值水平检测单元181根据由音频源分析单元141获得的一整个音乐作品的样本的绝对值的直方图(I_HIST(m))来检测音频源的基准峰值水平(IPL)。基准峰值水平(IPL)指示使用预定的出现概率密度(例如,出现概率密度P=0.01[/dB],在下文中,省略单位[/dB])作为下限阈值从HIST搜索的最大箱的类值(水平值)。规范化处理单元182使用由基准峰值水平检测单元181检测的处理目标音频源的基准峰值水平(IPL)对功率谱密度(PSD)(即,一整个音乐作品的功率谱密度的平均(I_PSD(i))进行规范化。稍后将详细描述规范化。
规范化单元142将音频源文件和与音频源文件相关联的经规范化的PSD和HIST提供给统计分析单元143。
<统计分析单元>
接下来,将描述统计分析单元143的功能。图6是示出统计分析单元143的主要功能的示例的功能框图。如图6所示,统计分析单元143包括PSD平均值计算单元191、PSD标准偏差计算单元192、HIST平均值计算单元193和HIST标准偏差计算单元194作为功能块。
统计分析单元143对多个音频源文件执行统计分析。统计分析是用于获得用作处理目标的多个音频源文件(音频信号组)(也称为“集群”)的每个音频源分析结果的统计信息的处理。例如,利用统计分析,对于处理目标集群,统计分析单元143获得集群中所有音频源文件的功率谱密度的平均值(T_PSD_A(i))、集群中所有音频源文件的功率谱密度的标准偏差值(T_PSD_S(i))、集群中所有音频源文件的样本绝对值的直方图的平均值(T_HIST_A(m))和集群中所有音频源文件的样本绝对值的直方图的标准偏差(T_HIST_S(m))。此外,“i”指示频率的索引,并且“m”指示样本绝对值箱的索引。
换句话说,音频源分析单元141获得处理目标的集群的各个音频源文件的特征量(一整个音乐作品的功率谱密度的平均(I_PSD(i))和一整个音乐作品的样本的绝对值的直方图(I_HIST(m)))。例如,在图6的示例中,音频源分析单元141分析n个音频源文件(n是任意自然数),并且获得每个音频源特征量190(音频源1的特征量190-1,音频源2的特征量190-2,...,音频源n的特征量190-n)。如图6所示,每个音频源特征量190包括一整个音乐作品的功率谱密度的平均(I_PSD(i))和一整个音乐作品的样本的绝对值的直方图(I_HIST(m))。
每个音频源特征量190经由规范化单元142提供给统计分析单元143。换句话说,每个音频源特征量190被规范化。
统计分析单元143的PSD平均值计算单元191根据每个音频源特征量190计算集群中所有音频源文件的功率谱密度的平均值(T_PSD_A(i))。例如,PSD平均值计算单元191通过针对每个频率箱将所有音频源的I_PSD(i)相加并且针对每个频率箱将相加结果除以音频源数目n来计算T_PSD_A(i)。
此外,统计分析单元143的PSD标准偏差计算单元192根据每个音频源特征量190计算集群中所有音频源文件的功率谱密度的标准偏差值(T_PSD_S(i))。例如,PSD标准偏差计算单元192通过以下处理来计算T_PSD_S(i):针对每个频率箱将I_PSD(i)除以T_PSD_A(i)的值,针对每个频率箱对除法结果求平方,针对每个频率箱将所有音频源的平方结果相加,以及针对每个频率箱将相加结果除以音频源的数目n。
此外,统计分析单元143的HIST平均值计算单元193根据每个音频源特征量190计算集群中所有音频源文件的样本绝对值的直方图的平均值(T_HIST_A(m))。例如,HIST平均值计算单元193通过针对每个样本绝对值箱将所有音频源的I_HIST(m)相加并且针对每个样本绝对值箱将相加结果除以音频源的数目n来计算T_HIST_A(m)。
此外,统计分析单元143的HIST标准偏差计算单元194根据每个音频源特征量190计算集群中所有音频源文件的样本绝对值的直方图的标准偏差值(T_HIST_S(m))。例如,HIST标准偏差计算单元194通过以下处理来计算T_HIST_S(m):针对每个样本绝对值箱将I_HIST(m)除以T_HIST_A(m)的值,针对每个样本绝对值箱对除法结果求平方,针对每个样本绝对值箱将所有音频源的平方结果相加,以及针对每个样本绝对值箱将相加结果除以音频源的数目n。
统计分析单元143将这些值作为集群特征量194(即,目标数据)提供给目标数据数据库144,以便登记这些值。
此外,统计分析单元143可以使用任意元素作为分类标准将音频信号组分类为集群。例如,在音频信号是音乐的情况下,可以使用类型作为分类标准,并且针对每个类型执行集群。此外,例如,代替类型,表演者、制作者、制作时间等可以用作分类标准。当然,其他元素可以用作分类标准。此外,例如,可以使用多个元素作为分类标准。此外,要用作分类标准的元素可以是预定的或者可以是可设置的(可更新的)。
<PSD和HIST的示例>
例如,图7和图8示出了对属于作为流行音乐的类型的集群的音频源文件(音乐作品)、即具有流行音乐的类型的多个音乐作品执行音频源分析的结果。图7示出了集群的所有音频源文件的PSD,并且图8示出了集群的所有音频源文件的HIST。
统计分析单元143使用如上所描述的这种音频源分析结果来执行统计分析。图9是示出图7所示的处理目标集群的所有音频源文件的PSD的平均值和平均值±标准偏差值的图。在图9中,在图7所示的曲线上叠加示出的三条曲线中,中间曲线指示PSD的平均值,并且上曲线和下曲线指示PSD的平均值±标准偏差值。图10是示出图8所示的处理目标集群的所有音频源文件的HIST的平均值和平均值±标准偏差值的图。在图10中,在图8所示的曲线上叠加示出的三条曲线中,中间曲线指示HIST的平均值,并且上曲线和下曲线指示HIST的平均值±标准偏差值。
<音频源的音量差异>
例如,在流行音乐中,在作为最终制作步骤的母带处理中,通常为了包括在唱片中的多个音轨之间的音量平衡和音质调整而执行音量调节和均衡处理。此外,特别是近年来的流行音乐中,通常还通过限制器或压缩器处理进行动态范围调整,并且存在许多积极使用由过度的限制器或压缩器处理引起的音质变化来进行音频制作的制作者。
图11示出了1990年制作的音乐作品A的包络波形和分析结果。图11的A示出了音乐作品A的包络波形。图11的B示出了音乐作品A的PSD。图11的C示出了音乐作品A的HIST。
图12示出了2012年制作的音乐作品B的包络波形和分析结果。图12的A示出了音乐作品B的包络波形。此外,纵轴的标度与图11的A(音乐作品A的包络波形)的纵轴标度相同。图12的B示出了音乐作品B的PSD。图12的C示出了音乐作品B的HIST。
理论上,如果不执行限制器或压缩器处理,根据中心极限定理,混合波形的幅度分布被认为能够随着音频源元素的数目(诸如人声、贝司、鼓等音频源元素的数目)增加近似基本上正态的分布。例如,图13示出了线性地设置音乐作品A的HIST(图11的C)的横轴并且执行分析的结果。此外,图14示出了线性地设置音乐作品B的HIST(图12的C)的横轴并且执行分析的结果。
在被认为难以应用限制器或压缩器处理的音乐作品A的情况下,除了幅度绝对值0附近的部分之外,HIST变为接近正态分布的分布,如图13所示。此外,音乐作品A的幅度绝对值的最大值处于图13所示的位置。如上所述,未应用限制器或压缩器处理的音乐作品采取峰值附近的幅值的频率非常小。另一方面,在音乐作品B的情况下,由于过度应用限制器或压缩器处理,波形满刻度值饱和,如图14所示。
此外,特别是在CD发行的开始阶段,经常看到在唱片中的任何音乐作品中使用与CD的量化位数相对应的16位中的一些的母带处理(整个唱片音乐作品的峰值未规范化为0dBFS)。这被认为是因为下述原因而发生的:当时对CD制作环境的限制(数字音频工作站(DAW))不受欢迎,规范化处理无法轻松执行,并且存在母带处理要求的历史背景(没有必要识别竞争的音频源并且过度增加音量),但音量的这种差异不仅出现在HIST中,而且出现在PSD中作为纵轴方向上的平行移动(变化)。
在这方面,在由统计分析单元143进行统计分析(集群分析)时或者在后面将要描述的终端设备103的再现处理时的音质校正量的计算时,通过校正(规范化)使由音量的差异引起的纵轴方向上的PSD的变化最小化,以便从PSD集中地提取音质特征。
<PSD的规范化>
图15示出了在不改变流行音乐集群的情况下使用PSD的信息执行统计分析的结果。此外,图16示出了根据针对相同集群的每个音乐作品的HIST检测削波水平(具有最高索引的箱的水平值,其出现概率密度P=0.0或更高)作为基准水平并且在将其中该值为0dBFS的规范化处理应用于每个音乐作品的PSD之后执行统计分析的结果。在这个结果中,由于PSD的标准偏差值由于规范化处理的添加而略微降低,但是没有大的变化,要理解的是,在该规范化方法中没有充分地获得(从PSD集中地提取音质特征的)规范化处理的效果。
这是因为,在假设幅度值具有接近正态分布的分布的情况下,具有削波水平的样本的出现频率极低并且在统计上不稳定,因此不稳定性的影响变为规范化处理的变化因素。换句话说,为了获得规范化处理的效果,需要在具有特定出现频率或更高出现频率并且在统计上比削波水平更稳定的基准水平处而不是削波水平处执行规范化。
在图17至图20中示出了如下处理的结果:将根据每个音乐作品的HIST检测基准水平的方法从削波水平的“具有出现概率密度P等于或大于0.0的最高指数的箱”改变为“具有等于或者大于P=0.0或更大的预定值的最高指数的箱”,根据HIST检测基准水平,执行对PSD的规范化处理,然后执行统计分析。图17是示出在利用最大值(P=0.0001)执行规范化之后执行统计分析的结果的图。图18是示出在利用最大值(P=0.001)执行规范化之后执行统计分析的结果的图。图19是示出在利用最大值(P=0.01)执行规范化之后执行统计分析的结果的图。图20是示出在利用最大值(P=0.03)执行规范化之后执行统计分析的结果的图。
此外,为了比较,在图21中示出了以下处理的结果:根据每个音乐作品的HIST的信息检测模式值(“出现概率密度最大的箱”),将该值(箱的类值)规范化为“集群中所有音频源的模式值的平均值”以及执行统计分析。此外,在图22中示出了以下处理的结果:将每个音乐作品的450Hz的值规范化为“集群中的所有音频源的450Hz的值的平均值”以及执行统计分析。
图23示出了通过从这些结果仅提取PSD的标准偏差值并且绘制它们而获得的图。在图23中,曲线301是指示在不对PSD进行规范化的情况下执行统计分析的结果(图15)的标准偏差值的曲线。曲线302是指示在用最大值(P=0.0)、即削波水平对PSD进行规范化之后执行统计分析的结果(图16)的标准偏差值的曲线。曲线303是指示在用最大值(P=0.0001)对PSD进行规范化之后执行统计分析的结果(图17)的标准偏差值的曲线。曲线304是指示在用最大值(P=0.001)对PSD进行规范化之后执行统计分析的结果(图18)的标准偏差值的曲线。曲线305是指示在用最大值(P=0.01)对PSD进行规范化之后执行统计分析的结果(图19)的标准偏差值的曲线。曲线306是指示在用最大值(P=0.03)对PSD进行规范化之后执行统计分析的结果(图20)的标准偏差值的曲线。曲线307是指示在用模式值对PSD进行规范化之后执行统计分析的结果(图21)的标准偏差值的曲线。曲线308是指示在用450Hz的值对PSD进行规范化之后执行统计分析的结果(图22)的标准偏差值的曲线。
根据图23的曲线图可以理解,“在以出现概率密度P=0.01的阈值根据每个音乐作品的HIST检测最大值并且基于该值校正PSD的情况下”,标准偏差在PSD的整个频率上降低(可以最大程度地从PSD中消除记录水平的影响)。因此,在这种情况下,通过“以出现概率密度P=0.01的阈值根据每个音乐作品的HIST检测最大值并且基于该值校正PSD”可以进一步抑制PSD在纵轴方向上的变化。例如,以上描述的规范化单元142通过该方法对PSD执行规范化以用于统计分析。
此外,这仅是示例,并且用于PSD的规范化的值可以是任何值。例如,它可以是根据如图24所示的HIST获得的值,或者可以是根据如图25所示的PSD获得的值。例如,它可以是HIST的最大值(图24中的削波水平[1])或HIST的模式值(图24中的模式水平[2]),可以是在其处HIST具有特定概率密度的值(图24中的基于特定概率密度的水平[3](在其基于P=0.01的情况下)),可以是在其处HIST的累积概率密度具有特定值的值(图24中的基于累积概率密度的水平[4](在0dBFS用作右端的情况下),可以是PSD的频率积分值是输入信号的有效值(图24和图25的有效值[5]),或者可以是PSD的频率加权积分值是输入信号的预滤波处理之后的有效值(图25的频率加权有效值[6](K特性、设备的再现频率特性等))。此外,它可以是以上面描述的多个值作为输入的函数的值、表格参考值等。通过基于与音量感(响度)的相关值较高并且统计稳定性较高的基准值对PSD进行规范化,可以进一步集中地从PSD提取音质特征。
<目标数据登记处理的流程>
接下来,将描述由目标数据提供服务器101(图1)执行的处理。首先,将参照图26的流程图描述当目标数据提供服务器101生成目标数据并且将目标数据登记在数据库中时执行的目标数据登记处理的流程的示例。
如果开始目标数据登记处理,则在步骤S101中,音频源分析单元141(图3)执行音频源分析处理并且分析处理目标的音频源文件(音频信号)。音频源分析单元141对属于处理目标集群的每个音频源文件(每个音频信号)执行音频源分析处理。此外,稍后将详细描述音频源分析处理。
在步骤S102中,规范化单元142执行规范化处理并且对在步骤S101的处理中获得的分析结果进行规范化。规范化单元142对属于处理目标集群的每个音频源文件(每个音频信号)的分析结果执行规范化处理。此外,稍后将详细描述规范化处理。
在步骤S103中,统计分析单元143执行统计分析处理,并且获得在步骤S102的处理中规范化的分析结果的统计值。统计分析单元143对属于处理目标集群的所有音频源文件(所有音频信号)的分析结果执行统计分析处理,并且计算处理目标集群的分析结果的统计值(即,目标数据)。此外,稍后将详细描述统计分析处理。
在步骤S104中,目标数据数据库144登记并且管理在步骤S103的处理中获得的目标数据。
如果步骤S104的处理结束,则目标数据登记处理结束。
通过执行如上所描述的目标数据登记处理,目标数据提供服务器101可以更容易地生成和管理更有用的目标数据。换句话说,目标数据提供服务器101可以更容易地提供更有用的目标数据。因此,终端设备103可以获得更适合于听感特性的音量校正效果。
<音频源分析处理的流程>
接下来,将参照图27的流程图描述在图26的步骤S101中执行的音频源分析处理的流程的示例。
如果开始音频源分析处理,则在步骤S121中,样本值获取单元151(图4)获取处理目标的音频源文件的音频信号150的样本值。在音频信号150是模拟信号的情况下,样本值获取单元151对音频信号150进行采样并且生成样本值。此外,在音频信号150是数字信号的情况下,样本值获取单元151获取音频信号150的信号水平作为样本值。
在步骤S122中,功率谱密度计算单元152使用在步骤S121中获取的样本值针对每个测量块计算功率谱密度。
在步骤S123中,绝对值直方图生成单元153使用在步骤S121中获取的样本值针对每个测量块生成样本值的绝对值直方图。
在步骤S124中,加法单元161和除法单元162通过将在步骤S122中计算的各个测量块的功率谱密度相加并且将相加的结果除以测量块的数目来计算一整个音乐作品的功率谱密度的平均(I_PSD(i))。此外,频率平滑单元163在频率方向上使一整个音乐作品的功率谱密度的平均(I_PSD(i))平滑。
在步骤S125中,频率稀疏处理单元164执行对一整个音乐作品的功率谱密度的平均(I_PSD(i))的频率进行稀疏的频率稀疏处理。
在步骤S126中,加法单元161和除法单元165通过针对每个样本绝对值箱将在步骤S123中生成的每个测量块的绝对值直方图相加并且针对每个样本绝对值箱将相加结果除以测量样本的数目,而将绝对值直方图转换为出现概率密度函数(即,一整个音乐作品的样本的绝对值的直方图(I_HIST(m)))。
在步骤S127中,音频源分析单元141将一整个音乐作品的功率谱密度的平均和一整个音乐作品的绝对值直方图(出现概率密度函数)与音频源文件171相关联作为元数据。
如果步骤S127的处理结束,则音频源分析处理结束,并且处理返回到图26。
通过执行如上所描述的音频源分析处理,可以更容易且有效地获得音频源分析结果(功率谱密度或绝对值直方图)。换句话说,音频源分析结果(功率谱密度和绝对值直方图)可以更容易且有效地用于音量校正或音质校正。因此,终端设备103可以获得更适合于听感特性的音量校正效果。
<规范化处理的流程>
接下来,将参照图28的流程图描述在图26的步骤S102中执行的规范化处理的流程的示例。
如果开始规范化处理,则在步骤S141中,基准峰值水平检测单元181(图5)根据在音频源分析处理(图26中的步骤S101)中获得的绝对值直方图(HIST)检测处理目标音频源的基准峰值水平(IPL)。在步骤S142中,规范化处理单元182使用基准峰值水平对PSD进行规范化。
如果步骤S142的处理结束,则规范化处理结束,并且处理返回到图26。
通过执行如上所描述的规范化处理,可以抑制由PSD的音量差异引起的纵轴方向的变化。因此,可以更加集中地从PSD提取音质特征。
<统计分析处理的流程>
接下来,将参照图29的流程图描述在图26的步骤S103中执行的统计分析处理的流程的示例。
如果开始统计分析处理,则在步骤S161中,PSD平均值计算单元191(图6)通过针对每个频率箱将所有音频源的I_PSD(i)相加并且针对每个频率箱将相加结果除以音频源的数目n来获得要分析的所有样本音频源的PSD的平均值。在步骤S162中,PSD标准偏差计算单元192(图6)通过以下处理获得要分析的所有样本音频源的PSD的标准偏差值:针对每个频率箱将I_PSD(i)除以T_PSD_A(i)的值,针对每个频率箱对除法结果求平方,针对每个箱将所有音频源的平方结果相加,以及针对每个频率箱将相加结果除以音频源的数目n。
在步骤S163中,HIST平均值计算单元193(图6)通过针对每个样本绝对值箱将所有音频源的I_HIST(m)相加并且针对每个样本绝对值箱将相加结果除以音频源的数目n,来获得要分析的所有样本音频源的HIST的平均值。在步骤S164中,HIST标准偏差计算单元194(图6)通过以下处理来获得要分析的所有样本音频源的HIST的标准偏差值:针对每个样本绝对值箱将I_HIST(m)除以T_HIST_A(m)的值,针对每个样本绝对值箱对除法结果求平方,针对每个样本绝对值箱将所有音频源的平方结果相加,以及针对每个样本绝对值箱将相加结果除以音频源的数目n。
如果步骤S164的处理结束,则统计分析处理结束,并且处理返回到图26。
通过执行如上所描述的统计分析处理,可以更容易且有效地获取集群的统计信息(例如,PSD的平均值和标准偏差值或者HIST的平均值和标准偏差值)。因此,可以更容易且有效地使用统计信息进行音量校正或音质校正。因此,终端设备103可以获得更适合于听感特性的音量校正效果。
<其它>
此外,在对再现目标音频源文件进行再现之前执行目标数据的生成和目标数据在数据库中的登记是足够的。此外,开始执行处理的指令等可以由收听者给出,或者可以通过除收听者之外的第三方、另外的处理等执行。
此外,与目标数据的生成和目标数据在数据库中的登记有关的处理可以由目标数据提供服务器101执行,或者可以由另外的设备执行。例如,终端设备103可以执行与目标数据的生成和目标数据在数据库中的登记有关的处理。当然,除了目标数据提供服务器101和终端设备103之外的设备可以执行该处理。此外,多个设备(例如,目标数据提供服务器101和终端设备103等)可以彼此协作地执行该处理。
此外,目标数据数据库144可以形成在目标数据提供服务器101中,可以形成在终端设备103中,或者可以形成在任何其他信息处理设备中。换句话说,目标数据可以由任意设备管理。在由作为再现设备的终端设备103管理目标数据的情况下,由于目标数据是取决于再现设备的唯一信息,因此可以将目标数据优化(调整)为取决于再现设备的信息。
此外,可以将目标数据添加到再现目标音频源文件的标签信息等。
此外,在上面的示例中,获得PSD和HIST作为音频源分析结果,但是其他信息可以包括在音频源分析结果中。换句话说,与除PSD和HIST之外的分析结果相关的统计信息可以包括在目标数据中。此外,除了PSD和HIST的平均值和平均值±标准偏差之外的统计信息可以包括在目标数据中。
<再现、音量校正和音质校正>
<终端设备的物理配置>
接下来,将描述音频源文件(音频信号)的再现和那时的音量校正/音质校正。图30是示出执行处理的再现设备103的主要配置示例的框图。如图30所示,终端设备103包括经由总线404彼此连接的CPU 401、ROM 402和RAM 403。
输入/输出接口410还连接至总线404。输入单元411、输出单元412、存储单元413、通信单元414和驱动器415连接至输入/输出接口410。
输入单元411包括任意输入设备,例如,比如键盘、鼠标、触摸板、图像传感器、麦克风、开关、输入端子等。此外,输入单元411包括任意传感器,例如,比如加速度传感器。输出单元412包括任意输出设备,例如,比如显示器、扬声器或输出端子。存储单元413包括任意存储介质,例如,比如非易失性存储器,诸如硬盘、RAM盘、SSD或USB存储器。通信单元414包括例如以太网(注册商标)、蓝牙(注册商标)、USB、HDMI(注册商标)或IrDA等的任意通信标准的有线和/或无线通信接口。驱动器415驱动加载到驱动器415上的可移除介质421,该可移除介质421具有任意存储介质,例如磁盘、光盘、磁光盘或半导体存储器。
在如上所描述的那样配置的终端设备103中,例如,通过经由输入/输出接口410和总线404将存储在存储单元413中的程序加载到RAM 403上并且由CPU 401执行该程序来实现后面描述的功能。此外,CPU 401执行各种类型的处理所需的数据等被适当地存储在RAM403中。
由CPU 401执行的程序可以被记录在用作例如封装介质等的可移除介质421中并被应用。在这种情况下,可移除介质421被加载到驱动器415上,然后程序可以经由输入/输出接口410安装在存储单元413中。此外,还可以经由诸如局域网、因特网或数字卫星广播的有线或无线传输介质来提供程序。在这种情况下,程序可以由通信单元414接收并且被安装在存储单元413中。此外,可以将该程序预先安装在ROM 402或存储单元413中。
<终端设备的功能配置>
图31是示出由终端设备103实现的主要功能的示例的功能框图。如图31所示,终端设备103包括再现目标音频源获取单元431、目标数据获取单元432、元数据获取单元433、音频源分析单元434、校正值计算单元435、校正单元436、均衡器处理单元437和再现/传送单元438作为功能块。
再现目标音频源获取单元431执行与作为再现目标的音频源文件(音频信号)或其元数据的获取有关的处理。例如,再现目标音频源获取单元431获取指定要再现的音频源文件。音频源文件的存储位置(获取源)是任意的。可以获取存储在终端设备103中的音频源文件,或者可以获取存储在另外的设备中的音频源文件。
此外,在元数据与音频源文件相关联的情况下,再现目标音频源获取单元431还获取元数据。例如,在将元数据添加到音频源文件(元数据嵌入在音频源文件中)的情况下或者在元数据与音频源文件链接(音频源文件和元数据是不同的数据)的情况下,再现目标音频源获取单元431还获取元数据。在音频源文件及其元数据链接的情况下,元数据的存储位置(获取源)是任意的。例如,再现目标音频源获取单元431可以从与音频源文件相同的位置(例如,从相同的存储区域、相同的设备等)获取元数据,或者可以在与音频源文件不同的位置(例如,不同的存储区域、不同的设备等)处获取元数据。
此外,在元数据不与音频源文件相关联的情况下,再现目标音频源获取单元431获取音频源文件。然后,在这种情况下,再现目标音频源获取单元431可以将音频源文件提供给音频源分析单元434,并且使音频源分析单元434分析音频源文件并生成与音频源文件对应的元数据。
此外,例如,一整个音乐作品的功率谱密度的平均(I_PSD(i))和一整个音乐作品的样本的绝对值的直方图(I_HIST(m))(“i”指示频率索引,并且“m”指示样本绝对值箱的索引)被包括在元数据中。
再现目标音频源获取单元431将再现目标的音频源文件的元数据提供给元数据获取单元433。此外,再现目标音频源获取单元431将再现目标的音频源文件提供给校正单元436。
目标数据获取单元432执行与目标数据的获取有关的处理。例如,目标数据获取单元432获取与再现目标的音频源文件相对应的集群的目标数据。例如,目标数据获取单元432经由网络102从目标数据提供服务器101获取目标数据。例如,目标数据获取单元432经由网络102向目标数据提供服务器101提供对包括指定与再现目标的音频源文件相对应的集群的信息的集群的目标数据的请求。目标数据提供服务器101从由目标数据数据库144管理的目标数据搜索所请求的集群的目标数据。在存在所请求的目标数据的情况下,目标数据提供服务器101经由网络102将目标数据提供给终端设备103。在没有请求的目标数据的情况下,目标数据提供服务器101经由该网络102向终端设备103给出指示不存在所请求的目标数据的通知。
目标数据的存储位置(获取源)是任意的,并且可以从除了目标数据提供服务器101之外的位置、诸如终端设备103的存储单元413、另外的设备或另外的服务器获取目标数据。例如,在未从目标数据提供服务器101获得所请求的目标数据的情况下,目标数据获取单元432可以从另外的位置(例如,终端设备103的存储单元413、另外的设备、另外的服务器等)获取(搜索或请求)目标数据。
此外,例如,目标集群中的所有音频源的功率谱密度的平均值(T_PSD_A(i))、目标集群中的所有音频源的功率谱密度的标准偏差值(T_PSD_S(i))、目标集群中的所有音频源的样本值的绝对值的直方图的平均值(T_HIST_A(m))以及目标集群中的所有音频源文件的样本绝对值的直方图的标准偏差值(T_HIST_S(m))(“i”指示频率索引,并且“m”指示样本绝对值箱的索引)包括在目标数据中。
元数据获取单元433从再现目标音频源获取单元431获取再现目标的音频源文件的元数据。音频源分析单元434是应用本技术的元数据生成单元的实施方式,并且对从再现目标音频源获取单元431提供的再现目标的音频源文件(音频信号)执行音频源分析处理并生成元数据。该音频源分析处理是与由目标数据提供服务器101的音频源分析单元141(图3、图4)执行的音频源分析处理(图27)类似的处理。音频源分析单元434将生成的元数据(与再现目标的音频源文件相关联地)提供给再现目标音频源获取单元431。
校正值计算单元435执行与用于校正再现目标的音频源文件的音量或音质的校正值的计算有关的处理。校正单元436使用由校正值计算单元435计算的校正值来执行与校正从再现目标音频源获取单元431提供的再现目标的音频源文件(音频信号)的音量或音质相关的处理。校正单元436将经校正的再现目标的音频源文件提供给均衡器处理单元437。
均衡器处理单元437是应用本技术的加工部的实施方式,并且执行与音量或音质已经由校正单元436校正的再现目标的音频源文件(音频信号)的音质的加工(频率特性的加工)有关的处理。均衡器处理单元437在不使用通过校正值计算单元435计算出的校正值的情况下,基于例如用户的指令(操纵)等处理再现目标的音频源文件(音频信号)的音质。换句话说,利用该处理,均衡器处理单元437根据用户的请求等设置频率特性。均衡器处理单元437将再现目标的音频源文件提供给再现/传送单元438。
再现/传送单元438是应用本技术的输出单元的实施方式,并且执行与再现目标的音频源文件(音频信号)的再现或传送有关的处理。例如,再现/传送单元438再现从均衡器处理单元437提供的再现目标的音频源文件(音频信号),并且将其从诸如扬声器的输出设备输出。此外,例如,再现/传送单元438经由输出终端、通信设备等,将从均衡器处理单元437提供的再现目标的音频源文件(音频信号)作为数据输出至终端设备103的外部(例如,另外的设备)等。
<校正值计算单元的功能配置>
如图31所示,校正值计算单元435包括音量校正值计算单元441和音质校正值计算单元442作为功能块。
音量校正值计算单元441执行与和再现目标的音频源文件的音量的校正有关的校正值的计算有关的处理。如在图32的A中所示的示例中,元数据获取单元433根据与再现目标的音频源文件相对应的元数据的一整个音乐作品的样本的绝对值的直方图(I_HIST(m))检测再现目标音频源的基准峰值水平(IPL)和再现目标音频源的模式值(具有最高频率的箱的类值(水平值))(IML)。元数据获取单元433将检测到的IPL和IML提供给音量校正值计算单元441。此外,如在图32的B中所示的示例中,目标数据获取单元432根据再现目标的音频源文件所属的集群中的所有音频源的样本值的绝对值的直方图的平均值(T_HIST_A(m))检测目标数据的基准峰值水平(TPL)和目标数据的模式值(TML)。此外,检测TPL或TML的方法类似于检测IPL或IML的方法。目标数据获取单元432将检测到的TPL和TML提供给音量校正值计算单元441。
音量校正值计算单元441使用这些参数(IPL、IML、TPL和TML)获得音量校正值VC。音量校正值计算单元441将获得的音量校正值VC提供给校正单元436(音量校正单元461)。此外,计算音量校正值VC的方法是任意的。例如,音量校正值VC可以通过操作计算,或者可以参考表信息等获得。在通过操作进行计算的情况下,例如,可以如下面的公式(6)中那样地计算音量校正值VC。
VC=PARAM_WP*(TPL-IPL)+PARAM_WM*(TML-IML)
···(6)
这里,PARAM_WP和PARAM_WM分别是权重系数,并且例如,被设置有诸如0.5的值。此外,在再现目标音频源文件不属于目标数据的集群的情况下,在不执行适当的校正量的计算的情况下,音量校正值VC的绝对值可能异常地增加。为了防止这种事件,可以设置音量校正值VC的上限值PARAM_VCMAX或下限值PARAM_VCMIN中的任一者或两者,并且可以使用它们来限制音量校正值VC的范围。
音质校正值计算单元442执行与和再现目标的音频源文件的音质校正有关的校正值的计算有关的处理。
<音质校正值计算单元的功能配置>
如图31所示,音质校正值计算单元442包括PSD规范化单元451、差异计算单元452和PSD校正值计算单元453作为功能块。
PSD规范化单元451执行与PSD的规范化有关的处理。规范化处理是用于抑制如上面在<音频源的音量差异>、<PSD的规范化>等中描述的由音量差异引起的PSD在纵轴方向上的变化的处理,并且是为了从PSD集中地提取音质特征而执行的处理。对于PSD的规范化,元数据获取单元433向PSD规范化单元451提供根据与再现目标的音频源文件相对应的元数据的一整个音乐作品的样本的绝对值的直方图(I_HIST(m))获得的再现目标音频源的基准峰值水平(IPL)和一整个音乐作品的功率谱密度的平均(I_PSD(i))。
通过使用IPL对I_PSD(i)进行规范化,如图33所示,PSD规范化单元451从I_PSD(i)去除由音量变化引起的分量,并且计算作为适合于音质校正的PSD的经校正的功率频谱密度的平均C_PSD(i)。PSD规范化单元451向差异计算单元452提供计算的经校正的功率谱密度的平均C_PSD(i)。例如,PSD规范化单元451如下面的公式(7)中那样地计算经校正的功率谱密度的平均C_PSD(i)。
C_PSD(i)=I_PSD(i)-IPL
···(7)
此外,作为用于I_PSD(i)的规范化的值,使用与由规范化单元142执行的规范化中使用的值相同的值,以实现与目标数据的一致性。如上面在<PSD的规范化>中所描述的,用于规范化的值可以是任何值,只要它是反映再现目标音频源文件的音量的值即可。
差异计算单元452执行与目标数据的PSD与元数据的PSD之间的差异的计算有关的处理。对于差异计算,目标数据获取单元432向差异计算单元452提供目标集群中的所有音频源的功率谱密度的平均值(T_PSD_A(i))(图34中的三条曲线中的中间曲线)。
差异计算单元452如下面的公式(8)中那样地计算T_PSD_A(i)与C_PSD(i)之间的PSD差异D_PSD(i)。
D_PSD(i)=C_PSD(i)-T_PSD_A(i)
···(8)
差异计算单元452向PSD校正值计算单元453提供计算出的PSD差异D_PSD(i)。
PSD校正值计算单元453计算用于音质校正的校正值,即PSD的校正值。为了计算校正值,目标数据获取单元432向PSD校正值计算单元453提供目标集群中的所有音频源的功率谱密度的标准偏差值(T_PSD_S(i))(通过从图34的三条曲线中的顶部曲线排除中间曲线而获得的一条曲线,即,通过从图34的三条曲线中的中间曲线排除底部曲线而获得的曲线)。
PSD校正值计算单元453如下面的公式(9)中那样地使用D_PSD(i)和T_PSD_S(i)来计算PSD校正值F_PSD(i)。
F_PSD(i)=f(D_PSD(i))
···(9)
这里,f()指示非线性运算或表引用。例如,如图35所示,PSD校正值计算单元453可以通过使标准偏差值T_PSD_S(i)作为参数的多个点的线性插值从PSD的差异D_PSD(i)获得校正值F_PSD(i)。PSD校正值计算单元453设计用于通过校正单元436(音质校正单元462)进行的音质校正(频率特性的校正)的滤波器系数,以近似所计算出的PSD校正值F_PSD(i)。PSD校正值计算单元453向校正单元436(音质校正单元462)提供设计的滤波器系数。
如上所述,PSD的差异D_PSD(i)用作反映由于PSD规范化单元451对PSD进行的规范化而引起的与集群的平均音质的差异的信息。在流行音频源制作的最后阶段执行的音量或音质调整称为母带处理,但是母带处理过程中工作人员的调整量的变化是导致D_PSD(i)的绝对值增加的重要因素。由于声音大小的感测量是对数标度(Fechener定律),因此在母带处理过程中发生的工作人员的调整量的变化趋于很好地遵循对数正态分布。因此,如图36所示,通过在假定对数正态分布作为D_PSD(i)的每个频率箱的分布的情况下计算F_PSD(i)以使得对数正态分布的变化减小,可以有效地校正母带处理过程中的变化,如图37所示的那样。
这里,有效校正是如下校正:通过在再现目标音频源属于目标数据的集群的概率被认为是高的情况下给出大的校正量来增加期望的音质校正效果,并且通过在再现目标音频源属于目标数据的集群的概率被认为是低的情况下给出小的校正量来降低因错误集群的目标数据而引起的不期望的音质校正效果。
如上所述,通过PSD校正值计算单元453进行的从D_PSD(i)到F_PSD(i)的转换是通过以目标数据的T_PSD_S(i)和D_PSD(i)作为输入、表格参考等的非线性运算来执行的,并且根据对数正态分布的概率分布形状执行增加期望的校正效果或减小不期望的校正效果的转换。
<校正单元的功能配置>
如图31所示,校正单元436包括音量校正单元461和音质校正单元462作为功能块。
音量校正单元461使用从音量校正值计算单元441提供的音量校正值VC来校正从再现目标音频源获取单元431提供的再现目标的音频源文件(音频信号)的音量。音量校正单元461向音质校正单元462提供其中音量被校正的再现目标的音频源文件。
音质校正单元462使用从PSD校正值计算单元453提供的滤波器系数(近似PSD校正值F_PSD(i)的滤波器系数)对再现目标的音频源文件(音频信号)执行滤波处理,并且校正频率特性。此外,用于音质校正的滤波器是任意的,并且可以是例如有限脉冲响应(FIR)滤波器或无限脉冲响应(IIR)滤波器。音质校正单元462向均衡器处理单元437提供其中音质被校正的再现目标的音频源文件。
在使用以上描述的专利文献中描述的有效值等进行音量校正的情况下,当再现设备的频率特性不平坦时,除非在考虑特性的情况下计算有效值,否则原则上其不会变为由收听者最终感知的真实有效值,并且不能充分地获得音量校正效果。另一方面,在通过以上描述的终端设备103进行音量校正的情况下,由于通过音质校正操作的动作同等地校正包括在所有频带中的能量(有效值),所以即使在再现设备的频率特性不平坦的情况下,收听者通过再现设备感知的有效值可以对准,因此可以使音量校正效果与用户的听感特性进一步相匹配。
<再现控制处理的流程>
接下来,将描述由终端设备103(图1)执行的处理。首先,将参照图38的流程图描述当终端设备103再现音频源文件时执行的再现控制处理的流程的示例。
如果开始再现控制处理,则在步骤S401中,目标数据获取单元432(图31)执行目标数据获取处理并且获取目标数据。此外,稍后将详细描述目标数据获取处理。
在步骤S402中,再现目标音频源获取单元431确定是否开始再现,并且待机,直到确定开始再现。在确定开始再现的情况下,处理进行到步骤S403。
在步骤S403中,再现目标音频源获取单元431确定是否存在再现目标的音频源文件的元数据。在确定不存在元数据的情况下,处理进行到步骤S404。
在步骤S404中,音频源分析单元434确定在再现之前是否生成元数据。在确定生成元数据的情况下,处理进行到步骤S405。
在步骤S405中,音频源分析单元434执行音频源分析处理,并且生成再现目标的音频源文件的元数据。此外,与参照图27的流程图描述的音频源分析处理类似地执行音频源分析处理。
如果音频源分析处理结束,则处理进行到步骤S406。此外,在步骤S403中确定在再现目标的音频源文件中存在元数据的情况下,跳过步骤S404和步骤S405的处理,并且处理进行到步骤S406。
在步骤S406中,校正单元436确定是否校正再现目标的音频源文件的音量或音质。在确定执行校正的情况下,处理进行到步骤S407。
在步骤S407中,元数据获取单元433执行元数据获取处理,并且获取再现目标的音频源文件的元数据。稍后将详细描述元数据获取处理。
在步骤S408中,校正值计算单元435执行校正滤波器特性计算处理并且计算校正滤波器的特性。稍后将详细描述校正滤波器特性计算处理。
在步骤S409中,校正单元436、均衡器处理单元437和再现/传送单元438执行应用校正的再现处理,并且通过应用校正来对再现目标的音频源文件进行再现。稍后将详细描述应用校正的再现处理。如果应用校正的再现处理结束,则处理进行到步骤S414。
此外,在步骤S406中确定不执行校正的情况下,处理进行到步骤S410。在步骤S410中,校正单元436、均衡器处理单元437和再现/传送单元438执行不应用校正的再现处理,并且在不进行校正的情况下对再现目标的音频源文件进行再现。稍后将详细描述不应用校正的再现处理。如果不应用校正的再现处理结束,则处理进行到步骤S414。
此外,在步骤S404中确定在再现之前不生成元数据的情况下,处理进行到步骤S411。在步骤S411中,校正单元436、均衡器处理单元437和再现/传送单元438执行不应用校正的再现处理,并且在不进行校正的情况下对再现目标的音频源文件进行再现。与步骤S410的处理类似地执行该不应用校正的再现处理。
与步骤S411的不应用校正的再现处理并行地执行步骤S412和步骤S413的处理。在步骤S412中,音频源分析单元434确定在再现时是否生成元数据。在确定生成元数据的情况下,处理进行到步骤S413。在步骤S413中,音频源分析单元434执行音频源分析处理,并且生成再现目标的音频源文件的元数据。此外,与步骤S405的处理类似地执行音频源分析处理。
如果步骤S411的不应用校正的再现处理和步骤S413的音频源分析处理结束,则处理进行到步骤S414。此外,在步骤S412中确定不生成元数据的情况下,跳过步骤S413的处理。在这种情况下,如果步骤S411的不应用校正的再现处理结束,则处理进行到步骤S414。
在步骤S414中,再现目标音频源获取单元431确定是否再现另外的音频源文件。在确定再现另外的音频源文件的情况下,处理返回到步骤S403,并且使用另外的音频源文件作为新的再现目标来执行后续处理。此外,在步骤S414中确定不再现另外的音频源文件的情况下,再现控制处理结束。
通过执行如上所描述的再现控制处理,终端设备103可以通过使用再现音频源文件的元数据或目标数据来校正再现目标的音频源文件。因此,终端设备103可以执行音质校正以及音量校正,并且可以获得更适合于听感特性的音量校正效果。
<目标数据获取处理的流程>
接下来,将参照图39的流程图描述在图38的步骤S401中执行的目标数据获取处理的流程的示例。
如果开始目标数据获取处理,则在步骤S431中,目标数据获取单元432(图31)读取目标集群中的所有音频源的样本值的绝对值的直方图(T_HIST(m))。此外,在步骤S432中,目标数据获取单元432(图31)根据在步骤S431中读取的T_HIST(m)检测目标数据的基准峰值水平(TPL)。此外,在步骤S433中,目标数据获取单元432(图31)根据在步骤S431中读取的T_HIST(m)检测目标数据的模式值(TML)。
在步骤S434中,目标数据获取单元432读取目标集群中的所有音频源的功率谱密度的平均值(T_PSD_A(i))。此外,在步骤S435中,目标数据获取单元432读取目标集群中的所有音频源的功率谱密度的标准偏差值(T_PSD_S(i))。如果步骤S435的处理结束,则处理返回到图38。
通过执行如上所描述的目标数据获取处理,可以更容易地获取目标数据。因此,可以更容易地将目标数据用于音量校正或音质校正。因此,终端设备103可以获得更适合于听感特性的音量校正效果。
<元数据获取处理的流程>
接下来,将参照图40的流程图描述在图38的步骤S407中执行的元数据获取处理的流程的示例。
如果开始元数据获取处理,则在步骤S451中,元数据获取单元433(图31)读取再现目标的音频源文件的全部(一整个音乐作品)的样本的绝对值的直方图(I_HIST(m))。在步骤S452中,元数据获取单元433根据在步骤S451中读取的I_HIST(m)检测再现目标音频源的基准峰值水平(IPL)。在步骤S453中,元数据获取单元433根据在步骤S451中读取的I_HIST(m)检测再现目标音频源的模式值(IML)。
在步骤S454中,元数据获取单元433读取再现目标的音频源文件的全部(一整个音乐作品)的功率谱密度的平均值(I_PSD(i))。如果步骤S454的处理结束,则处理返回到图38。
通过执行如上所描述的元数据获取处理,可以更容易且有效地获取元数据。因此,可以更容易且有效地使用元数据进行音量校正或音质校正。因此,终端设备103可以获得更适合于听感特性的音量校正效果。
<校正滤波器特性计算处理的流程>
接下来,将参照图41和图42的流程图描述在图38的步骤S408中执行的校正滤波器特性计算处理的流程的示例。
如果开始校正滤波器特性计算处理,则在步骤S471中,音量校正值计算单元441(图31)使用再现目标音频源的基准峰值水平(IPL)、再现目标音频源的模式值(IML)、目标数据的基准峰值水平(TPL)以及目标数据的模式值(TML)获得音量校正值VC。例如,音量校正值计算单元441如上述公式(6)中那样地计算音量校正值VC。
在步骤S472中,音量校正值计算单元441确定在步骤S471中计算的音量校正值VC是否大于上限值PARAM_VCMAX。在确定音量校正值VC大于上限值PARAM_VCMAX的情况下,处理进行到步骤S473。
在步骤S473中,音量校正值计算单元441将音量校正值VC更新为上限值PARAM_VCMAX。如果步骤S473的处理结束,则处理进行到步骤S474。此外,在步骤S472中确定音量校正值VC不大于上限值PARAM_VCMAX的情况下,跳过步骤S473的处理,并且处理进行到步骤S474。
在步骤S474中,音量校正值计算单元441确定在步骤S471中计算的音量校正值VC是否小于下限值PARAM_VCMIN。在确定音量校正值VC小于下限值PARAM_VCMIN的情况下,处理进行到步骤S475。
在步骤S475中,音量校正值计算单元441将音量校正值VC更新为下限值PARAM_VCMIN。如果步骤S475的处理结束,则处理进行到图42的步骤S481。此外,在图41的步骤S474中确定音量校正值VC不小于下限值PARAM_VCMIN的情况下,跳过步骤S475的处理,并且处理进行到图42的步骤S481。
在步骤S481中,音质校正值计算单元442将变量i设置为初始值(例如,“0”)。在步骤S482中,音质校正值计算单元442使变量i递增(例如,使其增加“1”)。
在步骤S483中,PSD规范化单元451使用再现目标音频源的基准峰值水平(IPL)对一整个音乐作品的功率谱密度的平均值(I_PSD(i))进行规范化。例如,PSD规范化单元451如上述公式(7)那样地,计算校正后的一整个音乐作品的功率谱密度的平均值(C_PSD(i))。
在步骤S484中,差异计算单元452计算目标集群中的所有音频源的功率谱密度的平均值(T_PSD_A(i))与校正后的一整个音乐作品的功率谱密度的平均值(C_PSD(i))之间的差异(D_PSD(i))(公式(8))。
在步骤S485中,PSD校正值计算单元453将差异(D_PSD(i))设置为X轴,并且将目标集群中的所有音频源的功率谱密度的标准偏差值(T_PSD_S(i))设置为σ。在步骤S486中,PSD校正值计算单元453获得D_PSD(i)与F_PSD(i)之间的关系,例如,如图35所示。在步骤S487中,PSD校正值计算单元453基于该关系将D_PSD(i)转换为F_PSD(i)(F_PSD(i)←Y)。
在步骤S488中,音质校正值计算单元442确定所有样本是否均已经被处理。在确定变量i的值未达到样本的数目并且存在未处理的样本的情况下,处理返回到步骤S482,并且重复后续处理。换句话说,从未处理的样本中选择新的处理目标,并且针对新的处理目标获得PSD校正值F_PSD(i)。在步骤S488中确定变量i的值达到样本的数目并且所有样本均已经被处理的情况下,校正滤波器特性计算处理结束,并且处理返回到图38。
如上所述,通过执行校正滤波器特性计算处理,可以使用元数据或目标数据更容易且有效地计算校正值。因此,可以更容易且有效地使用校正值进行音量校正或音质校正。因此,终端设备103可以获得更适合于听感特性的音量校正效果。
<应用校正的再现处理的流程>
接下来,将参照图43的流程图描述在图38的步骤S409中执行的应用校正的再现处理的流程的示例。
如果开始应用校正的再现处理,则音量校正单元461(图31)确定是否校正再现目标的音频源文件的音量。在确定校正再现目标的音频源文件的音量的情况下,处理进行到步骤S502。在步骤S502中,音量校正单元461通过使用在图38的步骤S408中获得的音量校正值VC来校正再现目标的音频源文件的音量。如果步骤S502的处理结束,则处理进行到步骤S503。此外,在步骤S501中确定不校正音量的情况下,跳过步骤S502的处理,并且处理进行到步骤S503。
在步骤S503中,音质校正单元462确定是否校正再现目标的音频源文件的音质。在确定校正再现目标的音频源文件的音质的情况下,处理进行到步骤S504。在步骤S504中,音质校正单元462使用与在图38的步骤S408中获得的PSD校正值F_PSD(i)相对应的滤波器系数来执行滤波处理,并且校正再现目标的音频源文件的音质。如果步骤S504的处理结束,则处理进行到步骤S505。此外,在步骤S503中确定不校正音质的情况下,跳过步骤S504的处理,并且处理进行到步骤S505。
在步骤S505中,均衡器处理单元437确定是否加工再现目标的音频源文件的音质(频率特性)。在确定加工再现目标的音频源文件的音质(频率特性)的情况下,处理进行到步骤S506。在步骤S506中,均衡器处理单元437执行均衡器处理,并且响应于来自用户等的请求加工再现目标的音频源文件的音质。如果步骤S506的处理结束,则处理进行到步骤S507。此外,在步骤S505中确定不加工音质的情况下,跳过步骤S506的处理,并且处理进行到步骤S507。
在步骤S507中,再现/传送单元438再现和传送音频源文件。如果步骤S507的处理结束,则处理返回到图38。
通过执行如上所描述的应用校正的再现处理,可以更容易且有效地使用元数据或目标数据来实现音量校正和音质校正。因此,终端设备103可以获得更适合于听感特性的音量校正效果。
<不应用校正的再现处理的流程>
接下来,将参照图44的流程图描述在图38的步骤S410或步骤S411中执行的不应用校正的再现处理的流程的示例。
如果开始不应用校正的再现处理,则校正单元436在不执行音量校正或音质校正的情况下将再现目标的音频源文件提供给均衡器处理单元437。然后,在步骤S521中,均衡器处理单元437确定是否加工再现目标的音频源文件的音质(频率特性)。在确定加工再现目标的音频源文件的音质(频率特性)的情况下,处理进行到步骤S522。在步骤S522中,均衡器处理单元437执行均衡器处理,并且响应于来自用户等的请求加工再现目标的音频源文件的音质。如果步骤S522的处理结束,则处理进行到步骤S523。此外,在步骤S521中确定不校正音质的情况下,跳过步骤S522的处理,并且处理进行到步骤S523。
在步骤S523中,再现/传送单元438再现和传送音频源文件。如果步骤S523的处理结束,则处理返回到图38。
通过执行如上所描述的不应用校正的再现处理,终端设备103可以在不使用元数据或目标数据执行音量校正或音质校正的情况下再现音频源文件。
<其它>
此外,在上述示例中,以音量校正、音质校正和均衡器处理的顺序执行各个处理,但是这些处理的处理顺序是任意的。此外,可以组合这些处理中的两个或更多个。在上述示例中,校正值计算单元435计算音量校正的校正值和音质校正的校正值两者,但是校正值计算单元435可以计算音量的校正值和音质的校正值中的任何一个。在这种情况下,校正单元436执行音量校正和音质校正中的针对其计算校正值的校正。
通常,由于母带处理是以唱片为单位进行的,因此它成为唱片中所有音乐作品的音量或音质对准的状态。此外,在诸如现场唱片的音轨之间没有插入静音间隔的唱片的情况下,如果以一个音乐作品为单位对音量和音质进行校正,则在收听者收听通过一个唱片的情况下,在音乐作品之间出现样本值的不连续,并且引起噪音。因此,在收听者收听通过一个唱片的情况下,期望在将一个唱片的所有音乐作品视为一个音乐作品的情况下校正音量和音质,而不是以一个音乐作品(音轨)为单位校正音量和音质。
在以上描述的校正方法的情况下,由于分析的元数据具有线性,因此终端设备103可以通过利用线性运算将多个音乐作品的元数据进行组合来获得与在一个唱片的所有音乐作品间接地被视为一个音乐作品的情况下的元数据相同的元数据。换句话说,如下面的公式(10),通过利用音乐作品的长度获得唱片中包括的所有音乐作品的加权平均值,可以获得一整个唱片的元数据。
一整个唱片的元数据
=(第一音乐作品的长度×第一音乐作品的元数据值
+第二音乐作品的长度×第二音乐作品的元数据值+
...
+第N音乐作品的长度×第N音乐作品的元数据)
÷(第一音乐作品的长度+第二音乐作品的长度+...+第N音乐作品的长度)
...(10)
<对本技术的应用>
通过应用如上所描述的本技术,可以有效地校正音乐作品的音量和音质的变化,并且即使在收听者连续地按顺序收听不同的音乐作品的情况下,收听者也可以舒适地收听音乐作品,而没有任何不适。此外,在收听者通过使用诸如安装在再现设备中的均衡器的音质校正功能来校正音质的情况下,可以抑制收听者对于每个音乐作品感觉为最佳的均衡器设置的差异,并且提高收听者进行质量调整的便利性。
<2.第二实施方式>
<其他系统>
本技术不限于以上描述的电子货架标签系统,并且可以应用到用于例如交通、医疗、犯罪预防、农业、畜牧业、采矿、美容、工厂、家电、天气和自然监控等的任意领域中的任意应用的系统。
<计算机>
以上描述的一系列处理可以由硬件执行或者可以由软件执行。在通过软件执行一系列处理的情况下,提供用作可以执行该软件的计算机的配置是足够的。计算机的示例包括结合到专用硬件中的计算机和能够通过安装在其中的各种程序执行任意功能的通用计算机。
例如,在图2的目标数据提供服务器101的情况下,当CPU 111经由输入/输出接口120和总线114将例如存储在存储单元123中的程序加载到RAM 113上并且执行该程序时,可以实现与上面在每个实施方式中描述的硬件部件中的一些或全部等效的功能。换句话说,执行以上描述的一系列处理的至少一部分。RAM 113还适当地存储CPU 111执行各种类型的处理所需的数据等。
由CPU 111执行的程序可以被记录在用作例如封装介质等的可移除介质131中并被应用。在这种情况下,可移除介质131被加载到驱动器125上,然后程序可以经由输入/输出接口120安装在存储单元123中。此外,还可以经由诸如局域网、因特网或数字卫星广播的有线或无线传输介质来提供程序。在这种情况下,程序可以由通信单元124接收并且被安装在存储单元123中。此外,可以将该程序预先安装在ROM 112或存储单元123中。
此外,例如,在图30的终端设备103的情况下,当CPU 401经由输入/输出接口410和总线404将例如存储在存储单元413中的程序加载到RAM 403上并且执行该程序时,可以实现与上面在每个实施方式中描述的硬件部件中的一些或全部等效的功能。换句话说,执行以上描述的一系列处理的至少一部分。RAM 403还适当地存储CPU 401执行各种类型的处理所需的数据等。
例如,由CPU 401执行的程序可以通过被记录在作为封装介质等的可移除介质421上而被应用。在这种情况下,可以通过将可移除介质421插入驱动器415,经由输入/输出接口410将程序安装在存储单元413中。另外,还可以经由诸如局域网、因特网或数字卫星广播的有线或无线传输介质来提供程序。在这种情况下,程序可以由通信单元414接收并被安装在存储单元413中。另外,程序可以预先安装在ROM 402或存储单元413中。
此外,可以使硬件执行以上描述的一系列处理的一部分,并使其他处理由软件执行。
<其它>
本技术的实施方式不限于上述实施方式,并且在不偏离本技术的范围的情况下可以做出各种改变和修改。
此外,例如,本技术可以作为例如用作系统大规模集成(LSI)等的处理器、使用多个处理器等的模块、使用多个模块等的单元、将其他功能添加到单元的集合等(即,设备的一些部件)的构成设备或系统的任何部件来执行。
注意,在本说明书中,系统意味着多个组成元素(例如,设备或模块(部件))的集合,而不管所有组成元素是否在同一壳体中。因此,包含在不同壳体中并经由网络连接的多个设备和其中多个模块包含在一个壳体中的一个设备均是系统。
此外,例如,描述为单个设备(或处理单元)的元素可以被划分并配置为多个设备(或处理单元)。相反,上面描述为多个设备(或处理单元)的元素可以被共同配置为单个设备(或处理单元)。此外,可以将除上述那些元素之外的元素添加到每个设备(或处理单元)的配置。此外,只要作为整体的系统的配置或操作基本相同,给定设备(或处理单元)的配置的一部分可以包括在另外的设备(或另外的处理单元)的配置中。
另外,例如,本技术可以采用经由网络通过多个设备分配和共享一个功能来执行处理的云计算的配置。
另外,例如,以上描述的程序可以在任何设备中执行。在这种情况下,如果设备具有需要的功能(功能块等)并且可以获得需要的信息,则是足够的。
另外,例如,由以上描述的流程图描述的每个步骤可以由一个设备执行或者通过分配给多个设备来执行。此外,在一个步骤中包括多个处理的情况下,包括在该一个步骤中的多个处理可以由一个设备执行或者通过分配给多个设备来执行。换句话说,包括在一个步骤中的多个处理可以作为多个步骤的处理而执行。相反,描述为多个步骤的处理可以作为一个步骤共同执行。
注意,在由计算机执行的程序中,描述程序的步骤中的处理可以按照本说明书中描述的顺序按时间顺序执行,或者可以同时执行,或者在需要的定时、诸如进行调用时单独执行。换句话说,除非出现矛盾,否则可以以与以上描述的顺序不同的顺序执行步骤中的处理。此外,描述程序的步骤中的处理可以与另外的程序的处理同时执行,或者可以与另外的程序的处理组合执行。
注意,除非出现矛盾,否则本说明书中描述的多种技术可以彼此独立地执行。当然,可以组合执行任何多种技术。例如,任何实施方式中描述的本技术的部分或全部可以与另外的实施方式中描述的本技术的部分或全部组合执行。另外,以上描述的本技术中的任何的部分或全部可以与上面未描述的另外的技术组合执行。
此外,本技术还可以被如下配置。
(1)
一种信息处理设备,包括:
目标数据获取单元,其被配置成获取目标数据,所述目标数据是音频信号组的每个音频信号的元数据的统计值;
元数据获取单元,其被配置成获取再现目标的音频信号的元数据;以及
校正值计算单元,其被配置成使用由所述目标数据获取单元获取的所述目标数据和由所述元数据获取单元获取的所述元数据来计算所述再现目标的音频信号的音量的校正值和所述再现目标的音频信号的音质的校正值中的任一者或两者。
(2)
根据(1)所述的信息处理设备,其中,所述元数据是所述音频信号的功率谱密度和所述音频信号的样本值的绝对值直方图。
(3)
根据(1)或(2)所述的信息处理设备,其中,所述目标数据是所述功率谱密度的平均值和标准偏差值以及所述绝对值直方图的平均值和标准偏差值。
(4)
根据(1)至(3)中任一项所述的信息处理设备,其中,所述校正值计算单元使用所述再现目标的音频信号的样本值的所述绝对值直方图和所述音频信号组的样本值的所述绝对值直方图的平均值来计算所述音量的校正值。
(5)
根据(1)至(4)中任一项所述的信息处理设备,其中,所述校正值计算单元使用所述再现目标的音频信号的样本值的所述绝对值直方图的基准峰值水平和模式值以及所述音频信号组的样本值的所述绝对值直方图的平均值的基准峰值水平和模式值来计算所述音量的校正值。
(6)
根据(1)至(5)中任一项所述的信息处理设备,其中,所述校正值计算单元:
使用所述再现目标的音频信号的样本值的所述绝对值直方图对所述再现目标的音频信号的所述功率谱密度进行规范化,以及
使用经规范化的所述功率谱密度来计算所述音质的校正值。
(7)
根据(1)至(6)中任一项所述的信息处理设备,其中,所述校正值计算单元利用具有所述再现目标的音频信号的样本值的所述绝对值直方图的预定概率密度的值来对所述再现目标的音频信号的所述功率谱密度进行规范化。
(8)
根据(1)至(7)中任一项所述的信息处理设备,其中,所述校正值计算单元使用所述再现目标的音频信号的样本值的所述绝对值直方图的基准峰值水平对所述再现目标的音频信号的所述功率谱密度进行规范化。
(9)
根据(1)至(8)中任一项所述的信息处理设备,其中,所述校正值计算单元
获得经规范化的所述再现目标的音频信号的所述功率谱密度与所述音频信号组的所述功率谱密度的平均值之间的差异,以及
使用所述差异计算所述音质的校正值。
(10)
根据(1)至(9)中任一项所述的信息处理设备,其中,所述校正值计算单元:
使用所述差异和所述音频信号组的所述功率谱密度的标准偏差值来计算所述再现目标的音频信号的功率谱密度的校正值,以及
使用所述再现目标的音频信号的功率谱密度的校正值来计算所述音质的校正值。
(11)
根据(1)至(10)中任一项所述的信息处理设备,还包括:
校正单元,其被配置成使用由所述校正值计算单元计算的所述校正值来校正所述再现目标的音频信号的音量和音质中的任一者或两者。
(12)
根据(1)至(11)中任一项所述的信息处理设备,还包括
加工部,其被配置成在不使用由所述校正值计算单元计算的所述校正值的情况下对所述再现目标的音频信号的音质进行加工。
(13)
根据(1)至(12)中任一项所述的信息处理设备,还包括
输出单元,其被配置成再现并输出所述再现目标的音频信号。
(14)
根据(1)至(13)中任一项所述的信息处理设备,还包括:
元数据生成单元,其被配置成生成音频信号的元数据。
(15)
根据(1)至(14)中任一项所述的信息处理设备,其中,所述元数据生成单元通过频率稀疏来生成所述元数据。
(16)
根据(1)至(15)中的任意一项所述的信息处理设备,
其中,所述元数据生成单元生成再现目标的音频信号的元数据,以及
所述校正值计算单元被配置成使用由所述元数据生成单元生成的所述元数据来计算所述再现目标的音频信号的音量的校正值和所述再现目标的音频信号的音质的校正值中的任一者或两者。
(17)
根据(1)至(16)中任一项所述的信息处理设备,其中,所述元数据生成单元被配置成生成音频信号组的每个音频信号的元数据,以及
所述信息处理设备还包括目标数据生成单元,所述目标数据生成单元被配置成使用由所述元数据生成单元生成的所述音频信号组的每个音频信号的元数据来生成所述音频信号组的目标数据。
(18)
根据(1)至(17)中任一项所述的信息处理设备,还包括
数据库,其被配置成管理由所述目标数据生成单元生成的所述目标数据。
(19)
一种信息处理方法,包括:
获取目标数据,所述目标数据是音频信号组的每个音频信号的元数据的统计值;
获取再现目标的音频信号的元数据;以及
使用所获取的目标数据和所获取的元数据来计算所述再现目标的音频信号的音量的校正值和所述再现目标的音频信号的音质的校正值中的任一者或两者。
(20)
一种程序,所述程序使得计算机用作:
目标数据获取单元,其被配置成获取目标数据,所述目标数据是音频信号组的每个音频信号的元数据的统计值;
元数据获取单元,其被配置成获取再现目标的音频信号的元数据;以及
校正值计算单元,其被配置成使用由所述目标数据获取单元获取的所述目标数据和由所述元数据获取单元获取的所述元数据来计算所述再现目标的音频信号的音量的校正值和所述再现目标的音频信号的音质的校正值中的任一者或两者。
附图标记列表
100音频信号再现系统,101目标数据提供服务器,102网络,103终端设备,141音频源分析单元,142规范化单元,143统计分析单元,144目标数据数据库,150音频信号,151样本值获取单元,152功率谱密度计算单元,153绝对值直方图生成单元,161加法单元,162除法单元,163频率平滑单元,164频率稀疏处理单元,165除法单元,171音频源文件,181基准峰值水平检测单元,182规范化处理单元,190音频源特征量,191PSD平均值计算单元,192PSD标准偏差计算单元,193HIST平均值计算单元,194HIST标准偏差计算单元,195集群特征量,431再现目标音频源获取单元,432目标数据获取单元,433元数据获取单元,434音频源分析单元,435校正值计算单元,436校正单元,437均衡器处理单元,438再现/传送单元,441音量校正值计算单元,442音量校正值计算单元,451PSD规范化单元,452差异计算单元,453PSD校正值计算单元,461音量校正单元,462音质校正单元
Claims (20)
1.一种信息处理设备,包括:
目标数据获取单元,其被配置成获取目标数据,所述目标数据是音频信号组的每个音频信号的元数据的统计值;
元数据获取单元,其被配置成获取再现目标的音频信号的元数据;以及
校正值计算单元,其被配置成使用由所述目标数据获取单元获取的所述目标数据和由所述元数据获取单元获取的所述元数据来计算所述再现目标的音频信号的音量的校正值和所述再现目标的音频信号的音质的校正值中的任一者或两者。
2.根据权利要求1所述的信息处理设备,其中,所述元数据是所述音频信号的功率谱密度和所述音频信号的样本值的绝对值直方图。
3.根据权利要求2所述的信息处理设备,其中,所述目标数据是所述功率谱密度的平均值和标准偏差值以及所述绝对值直方图的平均值和标准偏差值。
4.根据权利要求3所述的信息处理设备,其中,所述校正值计算单元使用所述再现目标的音频信号的样本值的所述绝对值直方图和所述音频信号组的样本值的所述绝对值直方图的平均值来计算所述音量的校正值。
5.根据权利要求4所述的信息处理设备,其中,所述校正值计算单元使用所述再现目标的音频信号的样本值的所述绝对值直方图的基准峰值水平和模式值以及所述音频信号组的样本值的所述绝对值直方图的平均值的基准峰值水平和模式值来计算所述音量的校正值。
6.根据权利要求3所述的信息处理设备,其中,所述校正值计算单元:
使用所述再现目标的音频信号的样本值的所述绝对值直方图对所述再现目标的音频信号的所述功率谱密度进行规范化,以及
使用经规范化的所述功率谱密度来计算所述音质的校正值。
7.根据权利要求6所述的信息处理设备,其中,所述校正值计算单元利用具有所述再现目标的音频信号的样本值的所述绝对值直方图的预定概率密度的值对所述再现目标的音频信号的所述功率谱密度进行规范化。
8.根据权利要求7所述的信息处理设备,其中,所述校正值计算单元使用所述再现目标的音频信号的样本值的所述绝对值直方图的基准峰值水平对所述再现目标的音频信号的所述功率谱密度进行规范化。
9.根据权利要求6所述的信息处理设备,其中,所述校正值计算单元:
获得经规范化的所述再现目标的音频信号的所述功率谱密度与所述音频信号组的所述功率谱密度的平均值之间的差异,以及
使用所述差异计算所述音质的校正值。
10.根据权利要求9所述的信息处理设备,其中,所述校正值计算单元:
使用所述差异和所述音频信号组的所述功率谱密度的标准偏差值来计算所述再现目标的音频信号的功率谱密度的校正值,以及
使用所述再现目标的音频信号的功率谱密度的校正值来计算所述音质的校正值。
11.根据权利要求1所述的信息处理设备,还包括:
校正单元,其被配置成使用由所述校正值计算单元计算的所述校正值来校正所述再现目标的音频信号的音量和音质中的任一者或两者。
12.根据权利要求1所述的信息处理设备,还包括:
加工部,其被配置成在不使用由所述校正值计算单元计算的所述校正值的情况下对所述再现目标的音频信号的音质进行加工。
13.根据权利要求1所述的信息处理设备,还包括:
输出单元,其被配置成再现并输出所述再现目标的音频信号。
14.根据权利要求1所述的信息处理设备,还包括:
元数据生成单元,其被配置成生成音频信号的元数据。
15.根据权利要求14所述的信息处理设备,其中,所述元数据生成单元通过频率稀疏来生成所述元数据。
16.根据权利要求14所述的信息处理设备,
其中,所述元数据生成单元生成再现目标的音频信号的元数据,以及
所述校正值计算单元被配置成使用由所述元数据生成单元生成的所述元数据来计算所述再现目标的音频信号的音量的校正值和所述再现目标的音频信号的音质的校正值中的任一者或两者。
17.根据权利要求14所述的信息处理设备,其中,所述元数据生成单元被配置成生成音频信号组的每个音频信号的元数据,以及
所述信息处理设备还包括目标数据生成单元,所述目标数据生成单元被配置成使用由所述元数据生成单元生成的所述音频信号组的每个音频信号的元数据来生成所述音频信号组的目标数据。
18.根据权利要求17所述的信息处理设备,还包括:
数据库,其被配置成管理由所述目标数据生成单元生成的所述目标数据。
19.一种信息处理方法,包括:
获取目标数据,所述目标数据是音频信号组的每个音频信号的元数据的统计值;
获取再现目标的音频信号的元数据;以及
使用所获取的目标数据和所获取的元数据来计算所述再现目标的音频信号的音量的校正值和所述再现目标的音频信号的音质的校正值中的任一者或两者。
20.一种程序,所述程序使得计算机用作:
目标数据获取单元,其被配置成获取目标数据,所述目标数据是音频信号组的每个音频信号的元数据的统计值;
元数据获取单元,其被配置成获取再现目标的音频信号的元数据;以及
校正值计算单元,其被配置成使用由所述目标数据获取单元获取的所述目标数据和由所述元数据获取单元获取的所述元数据来计算所述再现目标的音频信号的音量的校正值和所述再现目标的音频信号的音质的校正值中的任一者或两者。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016-198749 | 2016-10-07 | ||
JP2016198749 | 2016-10-07 | ||
PCT/JP2017/034239 WO2018066383A1 (ja) | 2016-10-07 | 2017-09-22 | 情報処理装置および方法、並びにプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109891504A true CN109891504A (zh) | 2019-06-14 |
Family
ID=61832151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780060448.4A Withdrawn CN109891504A (zh) | 2016-10-07 | 2017-09-22 | 信息处理设备和方法以及程序 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10630254B2 (zh) |
CN (1) | CN109891504A (zh) |
WO (1) | WO2018066383A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI778437B (zh) * | 2020-10-23 | 2022-09-21 | 財團法人資訊工業策進會 | 用於音頻裝置的瑕疵檢測裝置及瑕疵檢測方法 |
CN114071220B (zh) * | 2021-11-04 | 2024-01-19 | 深圳Tcl新技术有限公司 | 音效调节方法、装置、存储介质及电子设备 |
CN115798502B (zh) * | 2023-01-29 | 2023-04-25 | 深圳市深羽电子科技有限公司 | 一种用于蓝牙耳机的音频去噪方法 |
CN118348562B (zh) * | 2024-06-18 | 2024-09-10 | 烟台欣飞智能系统有限公司 | 一种导航诱骗信号干扰信号识别标记系统 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002109824A (ja) | 2000-09-29 | 2002-04-12 | Matsushita Electric Ind Co Ltd | ディジタル音声信号の記録方法、およびその装置 |
AU2005299410B2 (en) | 2004-10-26 | 2011-04-07 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
US20060106472A1 (en) | 2004-11-16 | 2006-05-18 | Romesburg Eric D | Method and apparatus for normalizing sound recording loudness |
CN1964187B (zh) * | 2005-11-11 | 2011-09-28 | 鸿富锦精密工业(深圳)有限公司 | 音量管理系统、方法及装置 |
JP4981123B2 (ja) | 2006-04-04 | 2012-07-18 | ドルビー ラボラトリーズ ライセンシング コーポレイション | オーディオ信号の知覚音量及び/又は知覚スペクトルバランスの計算と調整 |
US9047876B2 (en) * | 2010-03-30 | 2015-06-02 | Panasonic Intellectual Property Managment Co., Ltd. | Audio device |
WO2013068637A1 (en) * | 2011-11-08 | 2013-05-16 | Nokia Corporation | A method and an apparatus for automatic volume leveling of audio signals |
RU2639663C2 (ru) | 2013-01-28 | 2017-12-21 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Способ и устройство для нормализованного проигрывания аудио медиаданных с вложенными метаданными громкости и без них на новых медиаустройствах |
WO2014148845A1 (ko) | 2013-03-21 | 2014-09-25 | 인텔렉추얼디스커버리 주식회사 | 오디오 신호 크기 제어 방법 및 장치 |
KR101482946B1 (ko) | 2013-03-21 | 2015-01-16 | 인텔렉추얼디스커버리 주식회사 | 오디오 신호 크기 제어 방법 및 장치 |
KR101482945B1 (ko) | 2013-04-03 | 2015-01-16 | 인텔렉추얼디스커버리 주식회사 | 단말 장치 및 그의 오디오 신호 출력 방법 |
WO2014148848A2 (ko) | 2013-03-21 | 2014-09-25 | 인텔렉추얼디스커버리 주식회사 | 오디오 신호 크기 제어 방법 및 장치 |
WO2014148844A1 (ko) | 2013-03-21 | 2014-09-25 | 인텔렉추얼디스커버리 주식회사 | 단말 장치 및 그의 오디오 신호 출력 방법 |
CN104078050A (zh) | 2013-03-26 | 2014-10-01 | 杜比实验室特许公司 | 用于音频分类和音频处理的设备和方法 |
JP6409163B2 (ja) | 2014-04-22 | 2018-10-24 | 富士通コネクテッドテクノロジーズ株式会社 | 音声処理装置、音声処理プログラムおよび音声処理方法 |
-
2017
- 2017-09-22 US US16/328,876 patent/US10630254B2/en not_active Expired - Fee Related
- 2017-09-22 CN CN201780060448.4A patent/CN109891504A/zh not_active Withdrawn
- 2017-09-22 WO PCT/JP2017/034239 patent/WO2018066383A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US10630254B2 (en) | 2020-04-21 |
WO2018066383A1 (ja) | 2018-04-12 |
US20190222188A1 (en) | 2019-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Choisel et al. | Evaluation of multichannel reproduced sound: Scaling auditory attributes underlying listener preference | |
CN102378085B (zh) | 基于等响曲线的响度补偿方法、补偿装置及音频处理系统 | |
RU2541183C2 (ru) | Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания | |
US20200403590A1 (en) | Transforming audio content for subjective fidelity | |
Pons et al. | Remixing music using source separation algorithms to improve the musical experience of cochlear implant users | |
CN103189915B (zh) | 使用具有时间演化信息的基底函数来分解音乐信号 | |
CN109891504A (zh) | 信息处理设备和方法以及程序 | |
JP5957446B2 (ja) | 音響処理システム及び方法 | |
CN107851440A (zh) | 经编码音频扩展的基于元数据的动态范围控制 | |
TW201137862A (en) | Adaptive dynamic range enhancement of audio recordings | |
CN108432130A (zh) | 基于对象的音频信号平衡 | |
CN102761312A (zh) | 信号处理装置及其方法、程序以及数据记录介质 | |
CN109147816B (zh) | 对音乐进行音量调节的方法及设备 | |
CN103137136A (zh) | 声音处理装置 | |
Colonel et al. | Reverse engineering of a recording mix with differentiable digital signal processing | |
WO2023221559A1 (zh) | K歌音频处理方法、装置及计算机可读存储介质 | |
JP2023071787A (ja) | 音高に依存しない音色属性をメディア信号から抽出する方法及び装置 | |
Deruty et al. | Human–made rock mixes feature tight relations between spectrum and loudness | |
Fenton et al. | A Perceptual Model of “Punch” Based on Weighted Transient Loudness | |
CN105632523A (zh) | 调节音频数据的音量输出值的方法和装置及终端 | |
US20240170000A1 (en) | Signal processing device, signal processing method, and program | |
KR20240093766A (ko) | 디지털 오디오 파일에 대해 톤 호환이 가능하고 동기화된 신경 비트 생성 | |
EP3920049A1 (en) | Techniques for audio track analysis to support audio personalization | |
Osses Vecchi et al. | Assessing the perceived reverberation in different rooms for a set of musical instrument sounds | |
CN114678038A (zh) | 音频噪声检测方法、计算机设备和计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190614 |