CN102761312A

CN102761312A - 信号处理装置及其方法、程序以及数据记录介质

Info

Publication number: CN102761312A
Application number: CN2012101191859A
Authority: CN
Inventors: 河野明文; 知念彻; 辻实
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-04-28
Filing date: 2012-04-20
Publication date: 2012-10-31
Also published as: EP2518897A2; EP2518897A3; JP2012235310A; US20120275625A1

Abstract

本发明提供了一种信号处理装置及其方法、程序以及数据记录介质，该信号处理装置包括：分析单元，用于分析输入信号的特性并生成分析特征；映射控制信息确定单元，用于基于分析特征以及通过学习生成的且用于从分析特征获得映射控制信息的信息，确定映射控制信息；以及映射处理单元，用于基于根据映射控制信息确定的线性或非线性映射函数对输入信号执行幅度变换，并生成输出信号。

Description

信号处理装置及其方法、程序以及数据记录介质

技术领域

本技术涉及一种信号处理装置及其方法、程序以及数据记录介质，更具体地，涉及一种使得能够更容易且高效地增强音频信号的再现水平而无需预先分析的额外信息的信号处理装置及其方法、程序以及数据记录介质。

背景技术

例如，当通过其中嵌入有小型扬声器的便携式设备再现音量的动态范围宽的电影内容或音乐内容时，不仅声音的总音量变小，而且音量特别低的对话等变得难以辨认出来。

因此，作为用于使得这些内容的声音更易听见的技术，存在归一化和自动增益控制技术，但是除非预取了足够长度的数据，否则从听觉的角度来看，音量控制变得不稳定。

此外，还存在如下技术：该技术通过针对声音的动态范围使用压缩处理，提升具有低音量的声音部分以及压缩具有高音量的部分。然而，对于压缩处理，如果使得音量的提升和压缩的特性可适用于多种情况，则将难以获得显著的声音增强效果，并且为了获得显著效果，必须针对每个内容改变特性。

例如，存在如下技术：该技术以通过对话归一化指定的声压水平作为基准，并且提升具有较低声压水平的信号以及压缩具有较高声压水平的信号。然而，利用该技术，为了获得充分的效果，需要在对音频信号编码时指定对话归一化的声压水平和关于提升和压缩的特性。

此外，关于压缩声音的音量的动态范围的情况，还提出了如下技术：该技术通过将音频信号乘以由音频信号的绝对值的平均值确定的系数，使得音频信号的小声音更易听见(例如，参见JP H05-275950A)。

发明内容

现在，近年来，其中嵌入有小型扬声器的便携式设备再现各种类型的内容，诸如电影、音乐、自制内容等。然而，这些内容的多数不包括如上所述的基于编码时的预先分析的、用于有效音量控制的额外信息。因此，期望如下技术：即使通过预先分析获得的额外信息没有被添加到内容的音频信号，该技术也执行有效音量控制。

通过使用JP H05-275950A中描述的技术，可以在抑制声音水平的急剧改变的同时通过压缩处理而使得音频信号的小声音更易听见，而不需要对音频信号的预先分析。然而，该技术没有充分增强音频信号的再现水平。

例如，JP H05-275950A中描述的技术仅将幅度衰减音频信号的恒定倍数，因此限制了关于幅度变换的特性的自由度且很难说音频信号的再现水平被有效增强。另外，仅当通过音频信号的幅度变换缩窄音量的动态范围时才可以使用该技术，并且不允许在不改变音量的动态范围或不加宽音量的动态范围的情况下执行幅度变换。

本技术是考虑到上述情形而做出的，并且使得能够更容易且高效地增强音频信号的再现水平，而不需要预先分析的额外信息。

根据本公开内容的实施例，提供了一种信号处理装置，其包括：分析单元，用于分析输入信号的特性并生成分析特征；映射控制信息确定单元，用于基于分析特征以及通过学习生成的且用于从分析特征获得映射控制信息的信息，确定映射控制信息；以及映射处理单元，用于基于根据映射控制信息确定的线性或非线性映射函数对输入信号执行幅度变换，并生成输出信号。

针对每个信号处理装置可以已学习了用于获得映射控制信息的信息。

用于获得映射控制信息的信息可以是用于获得如下函数或表的信息：该函数用于从分析特征推出映射控制信息，该表用于从分析特征获得映射控制信息。

该函数可包括与分析特征无关的项。

分析单元可对用于学习的学习声音源信号的特性进行分析并生成分析特征。还可设置学习单元，其用于通过使用学习声音源信号的分析特征和用户添加到学习声音源信号的映射控制信息进行的学习，生成用于获得映射控制信息的信息。

分析特征可以是输入信号的均方值、输入信号的对数均方值、输入信号的均方根、输入信号的对数均方根或者输入信号的过零率。

在针对多个声道中的每个声道对输入信号执行幅度变换并且生成每个声道的输出信号的情况下，分析单元可基于多个声道中的每个声道的输入信号，生成每个声道共同的一个分析特征。

信号处理装置还可包括用于将输入信号划分成多个频带的信号的带划分单元。分析单元可通过对信号的均方值、信号的对数均方值、信号的均方根或者信号的对数均方根执行加权相加而生成分析特征。

根据本公开内容的实施例，一种信号处理方法或程序包括：分析输入信号的特性并生成分析特征；基于分析特征和通过学习生成的且用于从分析特征获得映射控制信息的信息，确定映射控制信息；以及基于根据映射控制信息确定的线性或非线性映射函数对输入信号执行幅度变换，并生成输出信号。

根据本公开内容的实施例，一种数据记录介质，其记录通过如下步骤获得的输出信号：分析输入信号的特性并生成分析特征；基于分析特征和通过学习生成的且用于从分析特征获得映射控制信息的信息，确定映射控制信息；以及基于根据映射控制信息确定的线性或非线性映射函数对输入信号执行幅度变换。

根据本公开内容的实施例，分析输入信号的特性，生成分析特征，基于分析特征和通过学习生成的且用于从分析特征获得映射控制信息的信息，确定映射控制信息，基于根据映射控制信息确定的线性或非线性映射函数对输入信号执行幅度变换，并生成输出信号。

根据本公开内容的实施例，可以更容易且高效地增强音频信号的再现水平，而不需要预先分析的额外信息。

附图说明

图1是示出音频信号处理装置的实施例的示例配置的图；

图2是示出学习装置的示例配置的图；

图3是描述学习处理的流程图；

图4是示出映射函数的示例的图；

图5是示出基于映射控制模型的回归曲线的示例的图；

图6是示出变换处理的流程图；

图7是示出音频信号处理装置的另一示例配置的图；

图8是示出音频信号处理装置的另一示例配置的图；

图9是描述变换处理的流程图；

图10是示出音频信号处理装置的另一示例配置的图；

图11是描述变换处理的流程图；以及

图12是示出计算机的示例配置的图。

具体实施方式

在下文中，将参照附图详细描述本公开内容的优选实施例。注意，在该说明书和附图中，具有基本上相同的功能和配置的结构元件以相同的附图标记来表示，并且省略这些结构元件的重复说明。

以下，将参照附图描述采用本技术的实施例。

(第一实施例)

[音频信号处理装置的示例配置]

图1是示出采用本技术的音频信号处理装置的实施例的示例配置的图。

该音频信号处理装置11被设置在便携式再现装置中，并且对输入音频信号执行幅度变换以增强再现水平，并输出执行了幅度变换的音频信号，其中，该便携式再现装置用于再现由例如视频信号和音频信号构成的内容。另外，以下将输入到音频信号处理装置11的音频信号称为输入信号，并且将通过对输入信号执行幅度变换而获得的音频信号称为输出信号。

音频信号处理装置11由分析单元21、映射控制信息确定单元22、记录单元23、映射处理单元24、输出单元25以及驱动器26构成。

分析单元21分析已提供的输入信号的特性，并且将指示分析结果的分析特征提供到映射控制信息确定单元22。

映射控制信息确定单元22基于从分析单元21提供的分析特征和记录在记录单元23中的映射控制模型，确定要用于输入信号的映射处理的映射控制信息，并且将该映射控制信息提供到映射处理单元24。

另外，映射处理是映射处理单元24执行的处理，并且对于映射处理，使用基于映射控制信息确定的线性或非线性映射函数，且对输入信号执行线性或非线性幅度变换。此外，映射控制模型是用于从分析特征获得映射控制信息的信息。

记录单元23记录从外部装置提供的映射控制模型，并且根据需要将该映射控制模型提供到映射控制信息确定单元22。

映射处理单元24使用从映射控制信息确定单元22提供的映射控制信息，对所提供的输入信号执行映射处理，并且增强输入信号的再现水平。映射处理单元24将通过映射处理获得的输出信号提供到输出单元25。

输出单元25将从映射处理单元24提供的输出信号输出到后级的音频输出单元等，或者将该输出信号提供到驱动器26。驱动器26记录从输出单元25提供的输出信号，并且将该信号记录在可移除介质27中，可移除介质27是可以自由地附接到驱动器26或从驱动器26拆卸的记录介质。

[学习装置的示例配置]

一般地，输入信号的记录水平取决于内容而不同，并且有效的是，由音频信号处理装置在动态地改变映射函数的特性的同时通过映射处理而将输入信号的再现水平调整到适当的水平。

然而，可以再现的声音的水平可取决于音频信号处理装置而不同，或者听见声音的方式可能取决于用户而不同。因此，如果对于映射处理使用同一映射控制模型，则即使通过映射处理获得的输出信号被再现，从听觉的角度来看，取决于用于再现的音频信号处理装置或取决于用户，声音的音量也可能过大或过小。

因此，对于音频信号处理装置11，通过使用多个声音源执行学习而获得的映射控制模型被每个音频信号处理装置11(例如，每个单独的音频信号处理装置11或每种类型的音频信号处理装置11)使用。

例如，如图2所示地配置学习装置，其通过学习获得音频信号处理装置11使用的映射控制模型。

学习装置51由输入单元61、映射控制信息添加单元62、映射处理单元63、扬声器64、分析单元65、映射控制模型学习单元66以及记录单元67构成。在学习装置51处，将要用于映射控制模型的学习的学习声音源信号提供到映射控制信息添加单元62、分析单元65以及映射处理单元63。

输入单元61例如是要由用户操作的按钮等，并且将根据用户的操作的信号提供到映射控制信息添加单元62。映射控制信息添加单元62根据来自输入单元61的信号将映射控制信息添加到所提供的学习声音源信号的每个样本，并且将该映射控制信息提供到映射处理单元63或映射控制模型学习单元66。

映射处理单元63使用来自映射控制信息添加单元62的映射控制信息对所提供的学习声音源信号执行映射处理，并且将作为结果获得的学习输出信号提供到扬声器64。扬声器64基于从映射处理单元63提供的学习输出信号而再现声音。

分析单元65分析所提供的学习声音源信号的特性，并且将指示分析结果的分析特征提供到映射控制模型学习单元66。映射控制模型学习单元66通过统计学习获得映射控制模型，并且将该映射控制模型提供到记录单元67，其中，统计学习使用来自分析单元65的分析特征和来自映射控制信息添加单元62的映射控制信息。

记录单元67记录从映射控制模型学习单元66提供的映射控制模型。将以此方式记录在记录单元67中的映射控制模型提供并记录在音频信号处理装置11的记录单元23中。

[学习处理的说明]

接下来，将参照图3的流程图描述学习装置51的学习处理。

根据该学习处理，一个或多个学习声音源信号被提供到学习装置51。另外，在该情况下，假设分析单元65、映射处理单元63、扬声器64等与音频信号处理装置11的每个相应块(诸如分析单元21、映射处理单元24等)相同，其中通过学习获得的映射控制模型被提供到音频信号处理装置11。即，假设块的特性或用于处理的算法相同。

在步骤S11中，输入单元61从用户接收映射控制信息的输入或调整。

例如，如果输入了学习声音源信号，则映射处理单元63将已提供的学习声音源信号按原样提供到扬声器64，并且使得输出基于学习声音源信号的声音。然后，当听到输出的声音时，用户操作输入单元61，以取学习声音源信号的预定样本作为处理目标样本，并且给出用于将映射控制信息添加到处理目标样本的指令。

另外，例如，通过用户直接输入映射控制信息或从多条映射控制信息中指定期望的映射控制信息而给出用于添加映射控制信息的指令。另外，可通过用户给出用于调整曾经指定的映射控制信息的指令而给出用于添加映射控制信息的指令。

当用户以此方式操作输入单元61时，映射控制信息添加单元62根据用户的操作将映射控制信息添加到处理目标样本。然后，映射控制信息添加单元62将已添加到处理目标样本的映射控制信息提供到映射处理单元63。

在步骤S12中，映射处理单元63使用从映射控制信息添加单元62提供的映射控制信息对已提供的学习声音源信号的处理目标样本执行映射处理，并且将作为结果获得的学习输出信号提供到扬声器64。

例如，映射处理单元63通过将学习声音源信号的处理目标样本的样本值x代入以下公式(1)中示出的非线性映射函数f(x)来执行幅度变换。即，通过将样本值x代入映射函数f(x)而获得的值被视为学习输出信号的处理目标样本的样本值。

f (x) = \frac{α}{α - 1} (x - \frac{1}{α} x^{3})

(-1.0≤x≤1.0)···(1)

另外，在公式(1)中，假设学习声音源信号的样本值x已被归一化为-1与1之间的值。另外，在公式(1)中，α指示映射控制信息。

如图4所示，该映射函数f(x)是这样的函数：随着映射控制信息α变得越小，该函数变化越陡。另外，在图4中，水平轴指示学习声音源信号的样本值x，并且垂直轴指示映射函数f(x)的值。另外，曲线f11至f13表示映射函数f(x)，其中映射控制信息α分别为“3”、“5”以及“50”。

如从图4可以看出，使用映射函数f(x)对学习声音源信号执行幅度变换，根据映射函数f(x)，当映射控制信息α越小时，f(x)关于样本值x的改变的改变量总体越大。当以此方式改变映射控制信息α时，关于学习声音源信号的放大量改变。

返回到图3的流程图的说明，在步骤S13中，扬声器64再现从映射处理单元63提供的学习输出信号。

另外，更具体地，再现通过对包括处理目标样本的预定片段执行映射处理而获得的学习输出信号。这里，例如，作为再现目标的片段是由针对其已指定映射控制信息的样本构成的片段。在该情况下，使用为这些样本指定的映射控制信息对作为再现目标的片段的每个样本执行映射处理，并且再现作为结果获得的学习输出信号。

当以此方式再现学习输出信号时，收听从扬声器64输出的声音的用户评估映射处理的效果。即，评估学习输出信号的声音的音量是否合适。然后，用户操作输入单元61，并且基于评估结果，给出用于调整映射控制信息的指令，或者在假设所指定的映射控制信息最优的情况下，给出用于固定所指定的映射控制信息的指令。

在步骤S14中，映射控制信息添加单元62基于根据从输入单元61输入的用户操作的信号，判定是否获得了最优映射控制信息。例如，在用户给出用于固定映射控制信息的指令的情况下，判定获得了最优映射控制信息。

在步骤S14中判定尚未获得最优映射控制信息的情况下，即，在给出了用于调整映射控制信息的指令的情况下，处理返回到步骤S11，并且重复上述处理。

在该情况下，将新的映射控制信息添加到作为处理目标的样本，并且执行映射控制信息的评估。以此方式，通过在实际收听学习输出信号的声音的同时评估映射处理的效果，可以添加从听觉的角度而言最优的映射控制信息。

另一方面，在步骤S14中判定获得了最优映射控制信息的情况下，处理前进到步骤S15。在步骤S15中，映射控制信息添加单元62将已添加到作为处理目标的样本的映射控制信息提供到映射控制模型学习单元66。

在步骤S16中，分析单元65分析所提供的学习声音源信号的特性，并且将作为结果而获得的分析特征提供到映射控制模型学习单元66。

例如，当假设学习声音源信号的第n个样本是作为处理目标的样本时，分析单元65执行以下公式(2)的计算，并且计算关于学习声音源信号的第n个样本的均方根RMS(n)作为第n个样本的分析特征。

RMS (n) = 20.0 \times \log_{10} (\sqrt{\frac{1}{N} \cdot Σ_{m = n - N / 2}^{n + N / 2 - 1} {(x (m))}^{2}}) - - - (2)

另外，在公式(2)中，x(m)指示学习声音源信号的第m个样本的样本值(学习声音源信号的值)。另外，在公式(2)中，假设学习声音源信号的值(即，学习声音源信号的各个样本的样本值)已被归一化为使得-1≤x(m)≤1成立。

因此，关于由以第n个样本为中心的N个连续样本构成的片段，通过对该片段中包括的样本的样本值的均方值的平方根取对数，并将所获得的值乘以常数“20”，来获得均方根RMS(n)。

以作为处理目标的学习声音源信号的第n个样本作为中心的特定片段的各个样本的样本值的绝对值越小，以此方式获得的均方根RMS(n)的值变得越小。即，学习声音源信号的包括处理目标样本的特定片段的全部声音的音量越低，均方根RMS(n)变得越小。

另外，均方根RMS(n)被描述为分析特征的示例，但是分析特征也可以是RMS(n)的t次幂值(其中t≥2)、学习声音源信号的过零率、学习声音源信号的频率包络的斜率或者其组合。

当以此方式将分析特征从分析单元65提供到映射控制模型学习单元66时，映射控制模型学习单元66彼此相关联地暂时记录针对作为处理目标的样本而获得的分析特征和该样本的映射控制信息。

在步骤S17中，学习装置51判定是否获得了足够的映射控制信息。例如，在获得了足够用于学习映射控制模型的、暂时记录的分析特征和映射控制信息的集合的情况下，判定获得了足够的映射控制信息。

在步骤S17中判定尚未获得足够的映射控制信息的情况下，处理返回到步骤S11，并且重复上述处理。即，以学习声音源信号的、作为当前处理目标的样本之后的样本作为新的处理目标样本并且向其添加映射控制信息，或者例如将映射控制信息添加到新的学习声音源信号的样本。或者，不同的用户可将映射控制信息添加到该学习声音源信号的样本。

在步骤S17中判定获得了足够的映射控制信息的情况下，在步骤S18中，映射控制模型学习单元66使用暂时记录的分析特征和映射控制信息的集合，学习映射控制模型。

例如，映射控制模型学习单元66假设可以通过执行以下公式(3)的计算从分析特征获得映射控制信息α，并通过以公式(3)中示出的函数作为映射控制模型进行学习来获得该映射控制信息α。

α＝a×F²+b×F+c···(3)

另外，在公式(3)中，F指示分析特征，并且a、b和c是常数。特别地，常数c是与分析特征F无关的补偿项。

在该情况下，映射控制模型学习单元66取均方根RMS(n)以及与公式(3)中的F和F²对应的均方根RMS(n)的平方值作为说明性变量并且取映射控制信息α作为所说明的变量，并且通过最小二乘法执行线性回归模型的学习并获得常数a、b和c。

例如，从而获得图5所示的结果。另外，在图5中，垂直轴指示映射控制信息α，并且水平轴指示作为分析特征的均方根RMS(n)。在图5中，曲线C11指示针对各个分析特征的值确定的映射控制信息α的值，即，以上公式(3)中指示的函数的曲线图。

在该示例中，随着音频信号(诸如学习声音源信号或输入信号)的声音的音量变得越低且分析特征越小，映射控制信息α的值变得越小。

当通过如上所述的学习确定常数a、b和c并且获得用于从分析特征获得映射控制信息的函数aF²+bF+c时，映射控制模型学习单元66将所获得的函数aF²+bF+c作为映射控制模型提供到记录单元67，并且使得记录单元67记录该映射控制模型。

当通过学习获得的映射控制模型被记录在记录单元67中时，学习处理结束。然后，记录单元67中记录的映射控制模型被记录在音频信号处理装置11的记录单元23中并且用于映射处理。

学习装置51通过使用多个学习声音源信号或多个用户指定的多条映射控制信息，通过以上述方式进行学习，来获得每个音频信号处理装置11的映射控制模型。

因此，当使用所获得的映射控制模型时，可以获得统计上对于音频信号处理装置11最优的映射控制信息，而不管作为再现目标的输入信号或将收听再现声音的用户如何。特别地，如果仅使用一个用户添加的映射控制信息执行学习，则可以创建映射控制模型，通过该映射控制模型获得对于该用户最优的映射控制信息。

另外，以上描述了关于学习声音源信号、针对每个样本执行映射控制信息的输入或调整的情况，但是也可每次针对学习声音源信号的两个或更多个连续样本的集合执行映射控制信息的输入或调整。

此外，这里使用关于RMS(n)的二次方程作为映射控制模型，但是也可使用三次或更高阶的函数。

此外，说明了使用均方根RMS(n)及其平方值作为映射控制模型的说明性变量，但是可任意相加或组合其它分析特征作为说明性变量。例如，作为其它分析特征，可存在均方根RMS(n)的t次幂值(其中t≥3)、学习声音源信号的过零率、学习声音源信号的频率包络的斜率等。

[变换处理的说明]

当从学习装置51提供的映射控制模型被记录在音频信号处理装置11的记录单元23中时，音频信号处理装置11变得能够通过使用该映射控制模型将输入信号变换为具有更适当的音量的输出信号。

当被提供了输入信号时，音频信号处理装置11执行变换处理，生成输出信号并输出该输出信号。以下将参照图6的流程图描述音频信号处理装置11的变换处理。

在步骤S41中，分析单元21分析所提供的输入信号的特性，并且生成分析特征。另外，使用与用于学习的分析特征相同的分析特征作为分析特征。

具体地，例如，分析单元21执行上述公式(2)的计算，并且计算输入信号的第n个样本的均方根RMS(n)作为第n个样本的分析特征。

另外，在该情况下，假设公式(2)的x(m)为输入信号的第m个样本的样本值。另外，在计算输入信号的均方根RMS(n)时，假设输入信号的各个样本的样本值已被归一化为使得-1≤x(m)≤1成立。

此外，输入信号的分析特征也可以是输入信号的均方值、输入信号的对数均方值、输入信号的均方值的平方根、RMS(n)的t次幂值(其中t≥2)、输入信号的过零率、输入信号的频率包络的斜率等，或者可以是这些特征或其它特征的任意组合。

当获得了分析特征时，分析单元21将所获得的分析特征提供到映射控制信息确定单元22。

在步骤S42中，映射控制信息确定单元22基于从分析单元21提供的分析特征和记录单元23中记录的映射控制模型确定映射控制信息，并且将映射控制信息提供到映射处理单元24。

例如，映射控制信息确定单元22基于上述被记录为映射控制模型的函数和分析特征而执行公式(3)的计算，并且获得映射控制信息α。

另外，已描述了在记录单元23中记录映射控制模型的示例，但是只要可以从分析特征获得映射控制信息，记录单元23中记录的信息可以是任意信息。

例如，记录单元23中可记录各个分析特征的值与映射控制信息相关联的表。在这样的情况下，映射控制信息确定单元22参考记录单元23中的表，并且将表中与所提供的分析特征相关联的映射控制信息提供到映射处理单元24。

在步骤S43中，映射处理单元24通过使用从映射控制信息确定单元22提供的映射控制信息，对所提供的输入信号执行映射处理，并且生成输出信号。这里，使用与用于学习的函数相同的函数作为映射函数f(x)。

具体地，映射处理单元24将输入信号的第n个样本的样本值x代入以上公式(1)所示的非线性映射函数f(x)，并且对输入信号执行幅度变换。即，以通过将样本值x代入映射函数f(x)而获得的值作为输出信号的第n个样本的样本值。另外，还是在该情况下，假设输入信号的样本值x已被归一化为-1与1之间的值。另外，在计算公式(1)时，取映射控制信息的值作为公式(1)中的α的值。

在获得均方根RMS(n)作为分析特征的情况下，由于输入信号的声音的音量越低则分析特征变得越小，因此映射控制信息α的值也变得越小。另外，如图4所示，映射函数f(x)的斜率随着映射控制信息α变得越小而变得越陡。

因此，使用如下映射函数f(x)对输入信号执行幅度变换：在包括样本值x＝0的样本x的片段的大部分中，f(x)的特性是随着输入信号的声音的总音量变得越小而越陡地改变。

结果，在输入信号的声音的总音量低的片段中，以使得具有低音量的声音被变换为具有较高音量的声音的方式对输入信号执行幅度变换，并且增强输入信号的再现水平。因此，即使当通过其中嵌入有小型扬声器的便携式设备再现音量的动态范围宽的内容(诸如电影)时，通过对输入信号的映射处理而可以更容易地知晓过去难以辨认的小声音。

此外，使用如下映射函数f(x)对输入信号执行幅度变换：甚至在输入信号的声音的总音量高的片段中，f(x)的特性为对于样本值x小的信号也适度陡地改变。

结果，以如下方式对输入信号执行幅度变换：在该方式中，在输入信号的总音量高的片段中，也将具有低音量的片段中的声音变换为具有高音量的声音，并且增强了输入信号的再现水平。因此，使得过去相对响亮地再现的声音更响亮。

另外，利用音频信号处理装置11，不需要通过首先预先对输入信号执行分析并且将用于幅度变换的额外信息添加到输入信号或者通过首先预取输入信号的长片段并且对已读取的输入信号执行分析，来执行幅度变换。

此外，通过根据映射控制信息α改变非线性映射函数f(x)，可以以更高的自由度执行幅度变换。即，通过根据输入信号的整个特定片段的特性将具有最高效特性的非线性函数作为映射函数，可以执行不仅考虑了包括作为处理目标的样本的片段的特性而且考虑了样本的样本值的大小的幅度变换。

例如，根据上述JP H05-275950A中描述的技术，将音频信号乘以通过音频信号的绝对值的平均值确定的常数，而不管音频信号的值如何。即，总是将音频信号的样本乘以常数，而不管样本的幅度水平如何。

因此，如果以使得根据具有相对低音量的声音增加声音的音量的方式确定与音频信号相乘的常数的计算方法，则即使音频信号与常数相乘，对于具有高音量的声音也无法获得适当音量。

另一方面，利用音频信号处理装置11，如果映射函数是非线性函数，则可以以例如如下方式以更高的自由度执行幅度变换：在样本的幅度(样本值)大的情况下不极大地改变幅度，而在样本的幅度小的情况下极大地改变幅度。因而可以有效地增强音频信号的再现水平，以防止具有高音量的声音的音量极大地改变，同时将具有低音量的声音变换为具有较高音量的声音。

另外，由于使用通过学习而针对每个音频信号处理装置11获得的映射控制模型来决定确定映射函数的特性的映射控制信息α，因此可以执行对于每个音频信号处理装置11或每个用户最优的幅度变换。

此外，通过适当地设置映射函数f(x)，可以通过幅度变换使得声音的音量的动态范围更宽、保持不变或者更窄。

以此方式，利用音频信号处理装置11，可以容易且高效地增强音频信号的再现水平。

另外，用于映射处理的映射函数f(x)不限于非线性函数，并且可以是任意函数，诸如线性函数、指数函数等，只要对于-1≤x≤1成立的样本值x，-1≤f(x)≤1成立即可。例如，可使用映射处理的效果被高度评价或适合于听觉的函数作为映射函数。

此外，替代计算输入信号的每个样本的映射控制信息，可通过计算输入信号的两个或更多个连续样本的集合的映射控制信息，执行映射处理。

返回到图6的流程图的说明，在通过映射处理生成输出信号之后，映射处理单元24将所获得的输出信号提供到输出单元25。

在步骤S44中，输出单元25将映射处理单元24提供的输出信号输出到后级，并且结束变换处理。必要时，输出单元25还将输出信号提供到驱动器26，并且驱动器26将所提供的输出信号记录在可移除介质27中。

如上所述，音频信号处理装置11分析输入信号的特性，使用根据分析结果而改变的映射函数对输入信号执行映射处理，并且生成输出信号。

作为通过分析输入信号而获得的分析特征的均方根RMS(n)示出了输入信号的预定片段中的平均样本值的大小，即，预定片段中的样本的幅度的分布。例如，在均方根RMS(n)小的情况下，输入信号包括多个小幅度的样本，而在均方根RMS(n)大的情况下，输入信号包括多个大幅度的样本。

利用音频信号处理装置11，通过使用均方根RMS(n)生成具有更高效特性的映射函数并执行映射处理，可以容易地将输入信号变换成具有理想幅度分布的输出信号。

另外，基于先前的统计分析，针对每个音频信号处理装置11或每个用户创建音频信号处理装置11使用的、用于从分析特征获得映射控制信息的映射控制模型。因此，可以针对每个音频信号处理装置11或每个用户实现最优再现水平控制。

<变型例1>

[音频信号处理装置的示例配置]

另外，以上描述了通过学习装置51执行映射控制模型的学习的情况，但是也可将用于执行映射控制模型的学习的功能设置在音频信号处理装置内。

在这样的情况下，例如，如图7所示地配置音频信号处理装置。另外，在图7中，以相同的标记来表示与图1和图2中的那些部分对应的部分，并且适当地省略其说明。

音频信号处理装置91由分析单元21、映射控制信息确定单元22、记录单元23、映射处理单元24、输出单元25、驱动器26、扬声器64、输入单元61、映射控制信息添加单元62以及映射控制模型学习单元66构成。

对于该音频信号处理装置91，作为要再现的输入信号或作为要用于学习的学习声音源信号的音频信号被提供到映射处理单元24、分析单元21以及映射控制信息添加单元62。此外，分析单元21分析所提供的音频信号的特性，并且将作为结果获得的分析特征提供到映射控制信息确定单元22或映射控制模型学习单元66。

接下来，将描述音频信号处理装置91的操作。

首先，在学习映射控制模型的情况下，音频信号处理装置91执行参照图3描述的学习处理。

即，映射控制信息添加单元62将映射控制信息添加到所提供的学习声音源信号的样本，并且将映射控制信息提供到映射处理单元24。然后，映射处理单元24通过使用来自映射控制信息添加单元62的映射控制信息，对所提供的学习声音源信号执行映射处理，并且将由此获得的学习输出信号经由输出单元25提供到扬声器64且使得再现该学习输出信号。

例如，收听了从扬声器64输出的声音的用户操作输入单元61，从而调整所添加的映射控制信息，或者使得所添加的映射控制信息固定。当用户选择了最优映射控制信息时，映射控制信息添加单元62将所添加的映射控制信息提供到映射控制模型学习单元66。

另外，分析单元21分析所提供的学习声音源信号，并且将所获得的分析特征提供到映射控制模型学习单元66。然后，映射控制模型学习单元66通过使用来自分析单元21的分析特征和来自映射控制信息添加单元62的映射控制信息的学习而创建映射控制模型，并且使得记录单元23记录该映射控制模型。

当以此方式获得了映射控制模型时，能够对输入信号进行变换处理。接下来，将描述音频信号处理装置91的变换处理。音频信号处理装置91执行参照图6描述的变换处理。

即，分析单元21分析所提供的输入信号的特性，并且将所获得的分析特征提供到映射控制信息确定单元22。映射控制信息确定单元22从记录单元23中记录的映射控制模型和来自分析单元21的分析特征获得映射控制信息，并且将该映射控制信息提供到映射处理单元24。

映射处理单元24通过使用来自映射控制信息确定单元22的映射控制信息对所提供的输入信号执行映射处理，并且将所获得的输出信号提供到输出单元25。提供到输出单元25的输出信号被提供到扬声器64并被再现，或者被提供到驱动器26并记录在例如可移除介质27中。

<第二实施例>

[音频信号处理装置的示例配置]

另外，在对于输入信号存在两个或更多个声道的情况下，如果针对每个声道单独对输入信号执行映射处理(幅度变换)，则输入信号的声道之间的音量平衡会改变。因此，在输入具有多个声道的音频信号作为输入信号的情况下，期望对于所有声道使用具有相同特性的映射函数来执行映射处理。

例如，在要输入具有左右两个声道的音频信号(立体声信号)作为输入信号并且要对各个声道执行使用具有相同特性的映射函数的映射处理的情况下，如图8所示地配置音频信号处理装置。另外，在图8中，以相同的标记表示与图1中的那些部分对应的部分，并且适当地省略其说明。

图8的音频信号处理装置121由分析单元131、映射控制信息确定单元22、记录单元23、映射处理单元24、映射处理单元132、输出单元25以及驱动器26构成。

对于音频信号处理装置121，左声道的输入信号被提供到分析单元131和映射处理单元24，并且右声道的输入信号被提供到分析单元131和映射处理单元132。

分析单元131分析已提供的左声道和右声道的输入信号的特性，生成一个分析特征，并且将该分析特征提供到映射控制信息确定单元22。另外，映射控制信息确定单元22从来自分析单元131的分析特征获得左声道和右声道共同的映射控制信息，并且将该映射控制信息提供到映射处理单元24和映射处理单元132。

映射处理单元132对所提供的输入信号执行使用来自映射控制信息确定单元22的映射控制信息的映射处理，并且将作为结果获得的输出信号提供到输出单元25。

[变换处理的说明]

接下来，将参照图9的流程图描述音频信号处理装置121执行的变换处理。

在步骤S71中，分析单元131分析已提供的左声道和右声道的输入信号的特性。例如，分析单元131执行上述公式(2)的计算，并且计算左声道的均方根RMS(n)和右声道的均方根RMS(n)。

在步骤S72中，分析单元131基于输入信号的特性的分析结果生成分析特征，并且将该分析特征提供到映射控制信息确定单元22。例如，分析单元131获得左声道的均方根RMS(n)和右声道的均方根RMS(n)的平均值，并且以所获得的平均值作为分析特征。

另外，也可将左声道的均方根RMS(n)和右声道的均方根RMS(n)中的较大值或较小值按原样作为分析特征。

当执行了步骤S72的处理并且生成了分析特征时，然后执行步骤S73至S75的处理，并且结束变换处理。这些处理与图6的步骤S42至S44的处理相同，并且省略其说明。

另外，在步骤S74中，映射处理单元24和映射处理单元132通过使用相同的映射控制信息以及通过具有相同特性的映射函数而分别生成左声道的输出信号和右声道的输出信号。

然后，在步骤S75中，将左声道和右声道的这些输出信号输出到后级或经由例如驱动器26而记录在可移除介质27中。

以此方式，音频信号处理装置121分析左声道和右声道的输入信号的特性，生成左声道和右声道共同的映射控制信息，并且使用所获得的映射控制信息对每个声道执行相同的映射处理。通过使用左声道和右声道共同的映射控制信息并且对各个声道的输入信号执行相同的映射处理，可以增强音频信号的再现水平而不改变声道之间的音量平衡。

另外，以上描述了输入左右两个声道的输入信号的情况，但是在具有三个或更多个声道的输入信号的情况下，同样地生成所有声道共同的映射控制信息。

<第三实施例>

[音频信号处理装置的示例配置]

此外，从作为输入信号的音频信号再现的声音或音乐对于每个频带具有不同的特性。因此，如果对每个频带执行适合于每个频带的分析，则可以从所获得的分析特征获得更适当的映射控制信息。

在通过针对输入信号的每个频带执行特性分析来生成分析特征的情况下，例如如图10所示地配置音频信号处理装置。另外，在图10中，以相同的标记表示与图1中的那些部分对应的部分，并且适当地省略其说明。

图10的音频信号处理装置161由带划分滤波器171、分析单元21、映射控制信息确定单元22、记录单元23、映射处理单元24、输出单元25以及驱动器26构成。此外，提供到音频信号处理装置161的输入信号被提供到带划分滤波器171和映射处理单元24。

带划分滤波器171对所提供的输入信号执行带划分，将输入信号划分成高频分量和低频分量，并且将作为高频分量的高频信号和作为低频分量的低频信号提供到分析单元21。分析单元21从来自带划分滤波器171的高频信号和低频信号生成分析特征，并且将该分析特征提供到映射控制信息确定单元22。

[变换处理的说明]

接下来，将参照图11的流程图描述音频信号处理装置161执行的变换处理。

在步骤S101中，带划分滤波器171通过执行滤波处理等对已提供的输入信号执行带划分，并且将作为结果获得的高频信号和低频信号提供到分析单元21。

例如，输入信号在约300Hz的频率处被带限，并且被划分成300Hz频率分量或更小频率分量的低频信号以及高于300Hz的频率分量的高频信号。

另外，描述了输入信号的频带在300Hz处被划分为两个频带的示例，但是可在诸如200Hz、400Hz、1kHz或3.4kHz的任意频率处划分输入信号的带。另外，输入信号可以被划分成三个或更多个频带。

此外，可通过如下操作获得各个频带的信号：利用傅立叶变换等将输入信号变换成频域中的信号，然后将该信号划分成各个频带中的分量并在划分之后通过傅立叶逆变换等使得各个频带中的分量成为各个频带中的时间信号。

在步骤S102中，分析单元21对从带划分滤波器171提供的高频信号和低频信号的特性进行分析。

例如，分析单元21执行以下公式(4)的计算，并且计算低频信号的第n个样本的均方根RMS_l(n)。

RM S_{_l} (n) = 20.0 \times \log_{10} (\sqrt{\frac{1}{M} \cdot Σ_{m = n - M / 2}^{n + M / 2 - 1} {(x_{_l} (m))}^{2}}) - - - (4)

另外，在公式(4)中，x_l(m)指示低频信号的第m个样本的样本值。另外，在公式(4)中，假设低频信号的值(即，低频信号的每个样本的样本值)已被归一化为使得-1≤x_l(m)≤1成立。公式(4)的计算是用于获得由以第n个样本为中心的M个连续的样本构成的片段的均方根的计算。

此外，分析单元21执行以下公式(5)的计算，并且计算高频信号的第n个样本的均方根RMS_h(n)。

RM S_{_h} (n) = 20.0 \times \log_{10} (\sqrt{\frac{1}{N} \cdot Σ_{m = n - N / 2}^{n + N / 2 - 1} {(x_{_h} (m))}^{2}}) - - - (5)

另外，在公式(5)中，x_h(m)指示高频信号的第m个样本的样本值。另外，在公式(5)中，假设高频信号的值(即，高频信号的每个样本的样本值)已被归一化为使得-1≤x_h(m)≤1成立。公式(5)的计算是用于获得由以第n个样本为中心的N个连续的样本构成的片段的均方根的计算。

以此方式，在分析单元21处，对低频信号和高频信号中的每个执行不同的分析。

另外，对于低频信号和高频信号的特性的分析，可获得低频信号或高频信号的均方值、低频信号或高频信号的对数均方值、低频信号或高频信号的均方值的平方根、低频信号或高频信号的均方值的对数平方根的t次幂值(其中t≥2)等。可选地，也可获得这些信号的过零率、频率包络的斜率等。

在步骤S103中，分析单元21基于高频信号和低频信号的特性的分析结果生成分析特征，并且将该分析特征提供到映射控制信息确定单元22。

例如，分析单元21执行以下公式(6)的计算，并且计算均方根RMS_l(n)和均方根RMS_h(n)的加权相加值作为分析特征。

RMS’(n)＝p×RMS__|(n)+q×RMS__h(n)(p＝q＝0.5)···(6)

另外，在公式(6)中，p和q指示权重，并且例如假设p和q为0.5。另外，这里假设各个带的分析结果的权重p和q为相同值，但是可为特定带的分析结果分配更大的权重。

将以此方式获得的RMS’(n)作为输入信号的第n个样本的分析特征。当生成了分析特征时，执行步骤S104至S106的处理并且结束变换处理。这些处理与图6的步骤S42至S44的处理相同，并且将省略其说明。

如所述的，音频信号处理装置161对输入信号的每个频带的特性进行分析，并且从各个频带的信号的分析结果生成分析特征。然后，音频信号处理装置161通过使用从分析特征获得的映射控制信息对输入信号执行映射处理，并且生成输出信号。

通过关于输入信号的每个频带执行适合于每个频带的分析，可以从所获得的分析特征获得更适当的映射控制信息。从而可以有效地增强音频信号的再现水平。

另外，可对输入信号和频带的信号(诸如高频信号和低频信号)执行不同的分析，并且可从分析结果生成分析特征。作为分析特征，可使用映射处理的效果将被高度评价的分析特征或适合于映射控制的分析特征。

现在，为了获得用于将输入信号的声音的音量变换为用户期望的理想音量的映射控制信息，最适当的是用户自己执行映射控制信息的输入或调整。

因此，例如，可以通过统计地评估多个用户输入的映射控制信息与通过使用分析特征而不使用通过统计学习获得的映射控制模型进行计算而获得的每条映射控制信息和通过本技术获得的映射控制信息之间的误差，检验本技术的效果。

作为本申请人进行的评估的结果，确认了与不使用映射控制模型从分析特征获得映射控制信息的方法(下文中称为比较方法)相比，通过第一实施例中描述的方法可以获得更理想的映射控制信息。还确认了与第一实施例中描述的方法相比，通过第三实施例中描述的方法可以获得更理想的映射控制信息。

此外，另外根据比较方法、第一实施例中描述的方法以及第三实施例中描述的方法的输出信号的主观评估，确认了第一实施例中描述的方法比比较方法得到更高的评价，并且第三实施例中描述的方法比第一实施例中描述的方法得到更高的评价。如所述的，根据本技术，可以实现用户更期望的音量控制。

上述系列处理可通过硬件或软件来执行。在通过软件执行该系列处理的情况下，将构成软件的程序从程序记录介质安装在专用硬件中包含的计算机、例如通过安装各种程序能够执行各种功能的通用个人计算机等上。

图12是示出通过程序执行上述系列处理的计算机的硬件的示例配置的框图。

在该计算机中，CPU(中央处理单元)301、ROM(只读存储器)302以及RAM(随机存取存储器)303经由总线304彼此连接。

输入/输出接口305也连接到总线304。此外，以下组件连接到输入/输出接口305：由键盘、鼠标、麦克风等构成的输入单元306，由显示器、扬声器等构成的输出单元307，由硬盘、非易失性存储器等构成的记录单元308，由网络接口等构成的通信单元309以及用于驱动可移除介质311(诸如磁盘、光盘、磁光盘、半导体存储器等)的驱动器310。

对于以上述方式配置的计算机，例如，通过CPU 301经由输入/输出接口305和总线304将记录单元308中记录的程序加载到RAM 303上并且执行该程序来执行上述系列处理。

如下提供计算机(CPU 301)要执行的程序：被记录在可移除介质311中或者经由有线或无线传输介质(诸如局域网、因特网或数字卫星广播)来提供，可移除介质311是由磁盘(包括软盘)、光盘(CD-ROM(光盘-只读存储器)、DVD(数字多功能盘)等)、磁光盘、半导体存储器等构成的封装介质。

然后，通过将可移除介质311安装在驱动器310上，可以经由输入/输出接口305将程序安装在记录单元308上。另外，可以经由有线或无线传输介质由通信单元309接收程序并且将其安装在记录单元308上。可选地，可以将程序预先安装在ROM 302或记录单元308中。

计算机要执行的程序可以是按照根据本说明书中描述的顺序的时间顺序执行处理的程序，或者它们可以是并行地或在必要的定时(诸如当存在调用时)执行处理的程序。

本领域技术人员应理解，在所附权利要求或其等同方案的范围内，根据设计要求和其它因素，可进行各种修改、组合、子组合和变更。

另外，也可如下配置本技术。

(1)一种信号处理装置，包括：

分析单元，用于分析输入信号的特性并生成分析特征；

映射控制信息确定单元，用于基于所述分析特征以及通过学习生成的且用于从所述分析特征获得映射控制信息的信息，确定所述映射控制信息；以及

映射处理单元，用于基于根据所述映射控制信息确定的线性或非线性映射函数对所述输入信号执行幅度变换，并且生成输出信号。

(2)根据(1)所述的信号处理装置，其中，已针对每个信号处理装置学习了所述用于获得映射控制信息的信息。

(3)根据(1)或(2)所述的信号处理装置，其中，所述用于获得映射控制信息的信息是用于获得以下函数或表的信息：所述函数用于从所述分析特征推出所述映射控制信息，所述表用于从所述分析特征获得所述映射控制信息。

(4)根据(3)所述的信号处理装置，其中，所述函数包括与所述分析特征无关的项。

(5)根据(1)至(4)中任一项所述的信号处理装置，

其中，所述分析单元对用于学习的学习声音源信号的特性进行分析并生成所述分析特征，以及

其中，所述信号处理装置还包括学习单元，用于通过使用所述学习声音源信号的分析特征和用户添加到所述学习声音源信号的所述映射控制信息进行的学习而生成所述用于获得映射控制信息的信息。

(6)根据(1)至(5)中任一项所述的信号处理装置，其中，所述分析特征是所述输入信号的均方值、所述输入信号的对数均方值、所述输入信号的均方根、所述输入信号的对数均方根或者所述输入信号的过零率。

(7)根据(1)至(5)中任一项所述的信号处理装置，其中，在针对多个声道中的每个声道对输入信号执行幅度变换并且生成每个声道的输出信号的情况下，所述分析单元基于所述多个声道中的每个声道的输入信号生成每个声道共同的一个分析特征。

(8)根据(1)至(5)中任一项所述的信号处理装置，还包括：

带划分单元，用于将所述输入信号划分成多个频带的信号，

其中，所述分析单元通过执行所述信号的均方值、所述信号的对数均方值、所述信号的均方根或所述信号的对数均方根的加权相加来生成所述分析特征。

本申请包含与2011年4月28日向日本专利局提交的日本优先权专利申请JP 2011-102394中公开的主题内容相关的主题内容，其全部内容在此通过引用而合并于此。

Claims

1.一种信号处理装置，包括：

分析单元，用于分析输入信号的特性并生成分析特征；

映射处理单元，用于基于根据所述映射控制信息确定的线性或非线性映射函数对输入信号执行幅度变换，并且生成输出信号。

2.根据权利要求1所述的信号处理装置，其中，已针对每个信号处理装置学习了所述用于获得映射控制信息的信息。

3.根据权利要求2所述的信号处理装置，其中，所述用于获得映射控制信息的信息是用于获得以下函数或表的信息：所述函数用于从所述分析特征推出所述映射控制信息，所述表用于从所述分析特征获得所述映射控制信息。

4.根据权利要求3所述的信号处理装置，其中，所述函数包括与所述分析特征无关的项。

5.根据权利要求4所述的信号处理装置，

其中，所述信号处理装置还包括学习单元，所述学习单元通过使用所述学习声音源信号的分析特征和用户添加到所述学习声音源信号的所述映射控制信息进行的学习，生成所述用于获得映射控制信息的信息。

6.根据权利要求5所述的信号处理装置，其中，所述分析特征是所述输入信号的均方值、所述输入信号的对数均方值、所述输入信号的均方根、所述输入信号的对数均方根或者所述输入信号的过零率。

7.根据权利要求5所述的信号处理装置，其中，在针对多个声道中的每个声道对输入信号执行幅度变换并且生成每个声道的输出信号的情况下，所述分析单元基于所述多个声道中的每个声道的输入信号生成每个声道共同的一个分析特征。

8.根据权利要求5所述的信号处理装置，还包括：

带划分单元，用于将所述输入信号划分成多个频带的信号，

其中，所述分析单元通过执行所述信号的均方、所述信号的对数均方、所述信号的均方根或所述信号的对数均方根的加权相加来生成所述分析特征。

9.一种信号处理装置的信号处理方法，所述信号处理装置包括：分析单元，用于分析输入信号的特性并生成分析特征；映射控制信息确定单元，用于基于所述分析特征以及通过学习生成的且用于从所述分析特征获得映射控制信息的信息，确定所述映射控制信息；以及映射处理单元，用于基于根据所述映射控制信息确定的线性或非线性映射函数对输入信号执行幅度变换，并生成输出信号，所述信号处理方法包括：

通过所述分析单元生成所述分析特征；

通过所述映射控制信息确定单元确定所述映射控制信息；以及

通过所述映射处理单元输出所述输出信号。

10.一种用于使得计算机执行以下处理的程序，所述处理包括：

分析输入信号的特性并生成分析特征；

基于所述分析特征以及通过学习生成的且用于从所述分析特征获得映射控制信息的信息，确定所述映射控制信息；以及

基于根据所述映射控制信息确定的线性或非线性映射函数对输入信号执行幅度变换，并生成输出信号。

11.一种数据记录介质，用于记录通过以下处理获得的输出信号：

分析输入信号的特性并生成分析特征；

基于根据所述映射控制信息确定的线性或非线性映射函数对输入信号执行幅度变换。