CN101800919A

CN101800919A - 音响信号处理装置及再现装置

Info

Publication number: CN101800919A
Application number: CN201010002030A
Authority: CN
Inventors: 吉田昌弘; 奥智岐; 山中诚
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2009-01-16
Filing date: 2010-01-07
Publication date: 2010-08-11
Also published as: JP2010187363A; US20100185308A1

Abstract

本发明提供一种音响信号处理装置及再现装置，所述音响信号处理装置，具有：输出对象音响信号的信号输出部，所述对象音响信号是通过收音来自多个音源的声音而得到的；以及根据各音源的方向或位置及各音源的种类，对所述对象音响信号中的各音源的音量进行调整的音量控制部。

Description

音响信号处理装置及再现装置

本正式申请以35U.S.C.§119(a)于2009年1月16日在日本提交的专利申请No.2009-007172和于2009年11月20在日本提交的专利申请No.2009-264565为基础，并引用了它们的全部内容。

技术领域

本发明涉及对音响信号进行处理的音响信号处理装置及再现音响信号的再现装置。此外，还涉及利用该音响信号处理装置的录音装置、再现装置或摄像装置等。

背景技术

在能够记录音响信号的录音装置(IC录音机等)或摄像装置(数字摄像机等)中，大多采用以要记录的音响信号的信号电平保持大致恒定电平的方式来修正该信号电平的控制。该控制，一般地，称为自动增益控制(以下，称为AGC)或自动电平控制(以下，称为ALC)。

在AGC或ALC中，先通过放大输入音响信号来生成输出音响信号，而后进行将输出音响信号的电压振幅保持于大致恒定振幅的控制。如图2所示，当输入音响信号的电压振幅变化时，输出音响信号的电压振幅，再次以向上述恒定振幅变化的方式慢慢地使对于输入音响信号的放大量(放大率)变化。这样的AGC或ALC中的信号处理，在时域(time domain)上被执行。

作为利用AGC或ALC的现有方法，公开了根据前方向音响信号与后方向音响信号的输出最大值来控制前方向音响信号与后方向音响信号的各音量的平衡的方法(以下，称为第一现有方法)。

此外，一般公知通过按照细分化后的各频带来进行音量控制，从而使得整体音量不被放烟花等的特定频率的大音量声音所支配的方法(以下，称为第二现有方法)。

然而，在第一现有方法中，即使当前方向音响信号是人的声音等所必要的声音，后方向音响信号是杂音等所不必要的声音时，由于也以相同尺度来调整双方的音量，所以有时反而难于听到必要的声音。

此外，根据第二现有方法，虽然能够降低与不要的声音(对应于放烟花的声音)对应的特定频率的信号成分，但当不要的声音与必要的声音的频率重复时，需要的声音的信号成分也会被降低。

若能适当地调整被认为必要的音源的音量与被认为不要的音源的音量，则对于用户而言，十分有益。

若考虑到用户的操作负担等，则在录音装置或再现装置等中所设置的音响信号处理装置侧能自动地完成音量等的调整也是有益的。然而，从什么方向到来的什么样的声音是必要/不必要的，是随用户在其各个时刻的希望而变化的。因此，要按照这种用户希望也是很重要的，此时，向用户提示辅助判断必要/不必要的信息也很重要。

另一方面，用户有时希望从记录音响信号中提取或强调特定的音源的声音来听取。例如，对孩子的表演会等的声音进行录音时，虽然录音了多数人物的说话音或音乐等，但有时仅想将在舞台上绕行的特定人物(录音者的孩子等)的说话音从记录音响信号中提取出来进行再现。此时，若对记录音响信号进行指向性控制，则能够仅提取来自特定方向的声音进行再现。然而，若作为音源的上述特定人物做出各种移动(或者若上述特定人物静止而在录音中录音装置在移动)，则在伴随指向性控制的记录音响信号的再现中，上述特定人物的说话声音偏离出指向性方向，特定人物的说话声音会从再现声音中被排除。希望开发能够避免发生这种情况的技术。

发明内容

本发明的音响信号处理装置，具有：信号输出部，其输出对象音响信号，所述对象音响信号是通过收音来自多个音源的声音而得到的；以及音量控制部，其根据各音源的方向或位置及各音源的种类，对所述对象音响信号中的各音源的音量进行调整。

具体而言，例如，所述多个音源由第1～第n音源构成(n是2以上的整数)且所述对象音响信号包括与所述第1～第n音源对应的相互分离的第1～第n单位音响信号，所述第1～第n单位音响信号，通过从配置于彼此不同位置的多个麦克风的检测信号中提取，或者对来自所述第1～第n音源的声音个别地进行收音而获得。

即例如，所述第1～第n单位音响信号，从所述多个麦克风的检测信号中被提取，所述信号输出部，由所述多个麦克风的检测信号生成并输出n个音响信号作为所述第1～第n单位音响信号，所述n个音响信号具有对从第1～第n方向到来的声音的信号成分进行强调后的指向性，所述音量控制部，根据对所述第1～第n音源的方向进行表示的所述第1～第n方向和各音源的种类，来调整所述对象音响信号中的各音源的音量。

或者例如，所述第1～第n单位音响信号，是通过对来自所述第1～第n音源的声音个别地进行收音而得到的，各音源的方向或位置，是根据用于对来自所述第1～第n音源的声音个别地进行收音的各麦克风的指向性或设置位置来确定的。

此外具体而言，例如，还具有音源种类检测部，其基于各单位音响信号来判断各单位音响信号的音源的种类；和音量检测部，其检测各单位音响信号的信号电平，所述音量控制部，通过根据各音源的方向或位置、由所述音源种类检测部所判断出的各音源的种类、由所述音量检测部所检测出的信号电平来个别地调整各单位音响信号的信号电平，从而调整所述对象音响信号中的各音源的音量。

此外，例如，在所述音量控制部中，各单位音响信号的频带被分割为多个子频带，并按照每个子频带个别地调整各单位音响信号的信号电平。

并且，例如，可形成一种设备，具有所述的音响信号处理装置，并记录或再现输出音响信号，所述输出音响信号是基于由所述音响信号处理装置的音量控制部进行音量调整后的对象音响信号、或该音量调整后的对象音响信号的音响信号。

例如，所述设备包括：录音装置，其进行所述输出音响信号的记录；再现装置，其进行所述输出音响信号的再现；或摄像装置，其将所述输出音响信号的记录与拍摄图像的图像信号一同进行记录或再现。

本发明的再现装置，将基于输入音响信号的输出音响信号再现为声音，所述输入音响信号通过对来自多个音源的声音进行收音而获得，所述再现装置的特征在于，具有：声音特性分析部，其通过按照每个声音的到来方向对所述输入音响信号进行分析，来生成按照每个所述到来方向来表示声音的特性的特性信息；报知部，其向该再现装置的外部报知所述特性信息；操作接收部，其从外部接收包括方向指定操作的输入操作，所述方向指定操作对作为声音的到来方向而存在的彼此不同的第1～第m到来方向中的任意一个以上的到来方向进行指定，其中，m是2以上的整数；以及信号处理部，其通过对所述输入音响信号实施与所述输入操作相应的信号处理，来生成所述输出音响信号。

具体而言例如，所述信号处理部，通过从所述输入音响信号中提取来自由所述输入操作所指定的到来方向的信号成分，来生成所述输出音响信号；或通过对所述输入音响信号实施使由所述输入操作所指定的到来方向的信号成分强调或衰减的信号处理，来生成所述输出音响信号；或通过根据所述输入操作对由所述输入音响信号所包含的各到来方向的信号成分进行混合，来生成所述输出音响信号。

本发明的其它再现装置，将基于输入音响信号的输出音响信号再现为声音，所述输入音响信号通过对来自多个音源的声音进行收音而获得，所述再现装置的特征在于，具有：声音特性分析部，其通过按照每个声音的到来方向对所述输入音响信号进行分析，来生成按照每个所述到来方向来表示声音的特性的特性信息；以及信号处理部，其通过对作为声音的到来方向而存在的相互不同的第1～第m到来方向中的任意一个以上的到来方向进行选择，并对所述输入音响信号实施从所述输入音响信号中提取来自选择到来方向的信号成分的信号处理、或强调来自选择到来方向的信号成分的信号处理，来生成所述输出音响信号，其中，m是2以上的整数，所述信号处理部根据所述特性信息来切换所选择的到来方向。

具体而言例如，在上述其它再现装置中，所述输入音响信号的全区间包括相互不同的第一及第二区间，所述信号处理部，根据所述第一及第二区间中的所述输入音响信号的特性信息来决定所述第一及第二区间中的选择到来方向，以使具有特定的特性的声音的信号成分的到来方向与所述第一及第二区间中的选择到来方向共同地被包含。

本发明的其它再现装置，由输入音响信号生成输出音响信号，并将该输出音响信号再现为声音，所述输入音响信号包括通过对来自多个音源的声音个别地进行收音而获得的多个单位音响信号，所述再现装置的特征在于，具有：声音特性分析部，其对各单位音响信号进行分析，来生成按照每个所述单位音响信号来表示声音的特性的特性信息；报知部，其向该再现装置的外部报知所述特性信息；操作接收部，其从外部接收包括指定操作的输入操作，所述指定操作对所述多个单位音响信号中的任意一个以上的单位音响信号进行指定，其中，m是2以上的整数；以及信号处理部，其通过对所述输入音响信号实施与所述输入操作相应的信号处理，来生成所述输出音响信号。

具体而言例如，在所述其它再现装置中，所述信号处理部，通过从所述输入音响信号中提取由所述输入操作所指定的单位音响信号，来生成所述输出音响信号；或通过对所述输入音响信号实施使由所述输入操作所指定的单位音响信号强调或衰减的信号处理，来生成所述输出音响信号；或通过根据所述输入操作对来自所述输入音响信号中所包括的各单位音响信号的信号成分进行混合，来生成所述输出音响信号。

此外例如，在上述各再现装置中，各特性信息(每个所述到来方向的特性信息或每个所述单位音响信号的特性信息)包括以下信息之中的任意一个以上的信息：音量信息，其表示声音的音量；音种信息，其表示声音的种类；人声有无信息，其表示声音中是否含有人的声音；以及说话者信息，其表示声音是人的声音时的说话者。

本发明的意义或效果，通过以下所示的实施方式的说明，得到进一步的明确。但是，以下的实施方式，只是本发明的一个实施方式而已，从本发明或各构成要素的术语的意思，并不局限于以下实施方式所记载的内容。

附图说明

图1是表示本发明的第一实施方式的两个麦克风的位置关系的示意图。图2是表示在与两个麦克风的关系中，将空间分割为六个区域的样子的示意图。图3是本发明的第一实施方式的音响信号处理装置的内部方框图。图4是图3的音源分离部的内部方框图的一个示例。图5是表示音源的配置例的示意图。图6是表示数字音响信号以帧作为单位被分割的样子的示意图。图7是表示基于人的声音的音响信号的频谱的示例的示意图。图8是表示通过离散傅里叶变换所得到的频谱的示例的示意图。图9是表示对时域上的数字音响信号设定基准块和评估块的样子的示意图。图10是表示周期性地超过规定的阈值的自相关值的示意图。图11是表示杂音的频谱的时间变化的示意图。图12是表示将音响信号的频带分割为八个子频带的样子的示意图。图13(a)～(c)是用于说明基于图3的音量控制量决定部的上限放大量决定处理的示意图。图14是表示在空间上分散有多个音源的样子的示意图。图15是对于正面音响信号的放大量的计算步骤流程图。图16是对于非正面音响信号的放大量的计算步骤流程图。图17是本发明的第一实施方式的录音装置的概略方框图。图18是本发明的第一实施方式的音响信号再现装置的概略方框图。图19是本发明的第一实施方式的摄像装置的概略方框图。图20是表示现有技术的自动增益控制或自动电平控制的处理内容的示意图。图21是表示本发明的第四实施方式的录音再现装置的概略方框图。图22是第四实施方式的包括音响信号处理装置的内部方框图的录音再现装置的一部分方框图。图23是图22的信号分离部的内部方框图。图24是用于说明本发明的第四实施方式中所定义的多个区域等的示意图。图25是用于说明本发明的第四实施方式中所定义的多个区域等的示意图。图26是表示本发明的第四实施方式的特性信息的结构的示意图。图27是表示本发明的第四实施方式的在显示部中所显示的图像的示意图。图28(a)～(c)是表示本发明的第四实施方式的在显示部中所显示的音源图标的示意图。图29(a)及(b)是表示本发明的第四实施方式的各个显示图像第一及第二示例的示意图。图30(a)～(c)是用于说明本发明的第四实施方式的全区间、特定区间、第一区间及第二区间的意义的示意图。图31是表示本发明的第四实施方式的与说话中的人物对应的音源图标正点亮的样子的示意图。图32是表示本发明的第四实施方式的在显示部中所表示的其它图像的示意图。图33是多个音响信号的合成处理的概念图。图34(a)及(b)是用于说明本发明的第四实施方式的对希望方向的音响信号的音量进行增减操作的示意图。图35(a)～(c)是用于说明本发明的第四实施方式的对某特定区域进行放大的操作的示意图。图36是本发明的第四实施方式的音源跟踪功能的实现时的录音再现装置的工作流程图。图37(a)及(b)是用于说明本发明的第四实施方式的音源跟踪功能的处理内容的示意图。图38(a)及(b)是用于说明本发明的第四实施方式中可适用的应用技术的示意图。图39是本发明的第五实施方式的包括音响信号处理装置的内部方框图的录音再现装置的一部分方框图。图40是表示本发明的第五实施方式的在显示部中所表示的图像的示意图。

具体实施方式

以下，参照附图来对本发明的几个实施方式进行具体说明。在被参照的各图中，相同的部分赋予相同的符号，原则上省略对相同部分的重复说明。第一实施方式为其它实施方式的基本的实施方式，在第一实施方式中所阐述的事项，只要没有矛盾则也适用于其它实施方式。此外，只要没有矛盾，则也可将某实施方式中记载的事项与其它实施方式中记载的事项进行组合来实施。

《第一实施方式》对本发明的第一实施方式进行说明。首先，参照图1对后述的音响信号处理装置中能够利用的麦克风1L及1R的位置关系进行说明。

现在，假设具有互相正交的X轴及Y轴作为坐标轴的二维坐标面。X轴与Y轴在原点O处正交。将原点O作为基准，将X轴的正方向侧为右侧，X轴的负方向侧为左侧，Y轴的正方向侧为前方向侧，Y轴的负方向侧为后方侧。Y轴的正方向是主要的音源应该存在的方向。

麦克风1L及1R配置于X轴上相互不同的位置。麦克风1L被配置于从原点O向左侧离开距离1的位置上，麦克风1R被配置于从原点O向右侧离开距离1的位置上。距离1是数cm(厘米)。此外，分别用2R、2L、2SL及2SR参照从原点O向XY坐标面上的第一、第二、第三及第四象限延伸的四个线段。线段2R是相对于Y轴向顺时针方向倾斜30°，线段2L是相对于Y轴向逆时针方向倾斜30°。线段2SR是相对于Y轴向逆时针方向倾斜45°，线段2SL是相对于Y轴向顺时针方向倾斜45°。

现在，如图2所示，认为以X轴和Y轴、以及线段2R、2L、2SL和2SR作为边界而将XY坐标面分割为六个区域3C、3L、3SL、3B、3SR及3R。区域3C，位于线段2R及2L之间，是XY坐标面的第一及第二象限的局部区域。区域3SL夹于X轴及线段2SL之间，是XY坐标面的第三象限的局部区域。区域3B夹于线段2SL及2SR之间，是XY坐标面的第三及第四象限的局部区域。区域3SR夹于线段2SR及X轴之间，是XY坐标面的第四象限的局部区域。区域3R夹于X轴及线段2R之间，是XY坐标面的第一象限的局部区域。

麦克风1L，将自身收音到的声音变换为电信号而输出表示该声音的检测信号。麦克风1R，将自身收音到的声音变换为电信号而输出表示该声音的检测信号。这些检测信号是模拟音响信号。麦克风1L及麦克风1R的检测信号即模拟音响信号，分别由未图示的A/D转换器变换为数字音响信号。该A/D转换器中的从模拟音响信号变换为数字音响信号时的取样频率设为48kHz(千赫)。作为麦克风1L及麦克风1R，能够采用没有指向性的无指向性麦克风。

认为使麦克风1L对应于左声道，使麦克风1R对应于右声道。将通过对麦克风1L及1R的检测信号进行数字变换而得到的数字音响信号，分别称为原信号L及原信号R。原信号L及R是时域(time domain)上的信号。

图3是表示本发明的第一实施方式的音响信号处理装置10的内部方框图。音响信号处理装置10具有：音源分离部11，其生成并输出由收音来自空间上分散的多个音源的声音而获取到的音响信号即分离提取来自各音源的信号后的音响信号；音源种类检测部12，其根据来自音源分离部11的音响信号来检测各音源的种类；音量检测部13，其根据来自音源分离部11的音响信号来检测各音源的音量；音量控制量决定部14，其根据音源种类检测部12及音量检测部13的检测结果来决定对各音源的音量的放大量；和音量控制部15，其根据音量控制量决定部14的决定内容，通过对音源分离部11的输出音响信号中所包括的各音源的信号电平进行调整来调整各音源的音量。

从音源分离部11所输出的音响信号，如上所述，根据基于音量控制部15的信号电平调整而被修正。因此，为了方便，将从音源分离部11所输出的音响信号称为对象音响信号，将通过对对象音响信号进行上述信号电平调整而获取的音量控制部15的输出音响信号称为修正音响信号。

对象音响信号是包括表示来自第一音源的声音的第一单位音响信号、表示来自第二音源的声音的第二单位音响信号、…、表示来自第(n-1)音源的声音的第(n-1)单位音响信号，和表示来自第n音源的声音的第n单位音响信号的音响信号。其中，n是2以上的整数。设为：在实际空间中所看到的XY坐标面上分散有第一～第n音源。

[音源分离部]音源分离部11，生成并输出针对各音源的单位音响信号。例如，音源分离部11，根据多个麦克风的检测信号，能够通过指向性控制来强调从特定方向到来的声音的信号成分，从而生成各单位音响信号。作为指向性控制的方法，已经提出了各种方法，音源分离部11，能够使用包括公知的方法的任意的指向性控制方法(例如，JP特开2000-81900号公报、JP特开平10-313497号公报中记载的方法)来生成各单位音响信号。

作为更具体的示例，对由麦克风1L及1R的检测信号即原信号L及R生成各单位音响信号的方法进行说明。图4是作为图3的音源分离部11能够利用的音源分离部11a的内部方框图。音源分离部11a具有FFT部21L及21R、比较部22、不要频带去除部23[1]～23[n]和IFFT部24[1]～24[n]。

FFT部21L及21R，通过对时域上的信号即原信号L及R进行离散傅里叶变换，计算出频域(frequency domain)上的信号即左及右声道的频谱。通过离散傅里叶变换，原信号L及R的频带被细分化为多个频带，但是，按照通过细分化而得到的各频带仅包含来自一个音源的音响信号成分的程度，来设定FFT部21L及21R的离散傅里叶变换中的频率标本间隔。通过进行这样的设定，能够通过包括多个音源的音响信号的信号来分离提取各音源的音响信号成分。以下，将被细分化后的各频带称为细分化频带。

比较部22，根据表示基于FFT部21L及21R的离散傅里叶变换的结果，按照每个细分化频带，计算出该细分化频带中的左及右声道的信号成分的相位。并且，分别关注于各细分化频带，根据所关注的细分化频带中的左右声道间的相位差，来判定该细分化频带中的信号的主成分是从何方向来的。在对全部细分化频带执行了该判定之后，将信号的主成分判定为从第i方向来的细分化频带设定为第i必要频带。当信号的主成分判定为从第i方向到来的细分化频带有多个时，将这些多个细分化频带的合成频带设定为第i必要频带。该设定处理，分别对i＝1、2、…(n-1)、n执行，其结果，设定与第1～第n方向对应的第1～第n必要频带。

不要频带去除部23[1]，将不属于第1必要频带的细分化频带看作是不要频带，在由FFT部21L所计算出的频谱内，将不要频带的信号电平进行一定量的降低。例如，在此降低中，使不要频带的信号电平以电压比降低12dB(分贝)。在不要频带去除部23[1]中，第1必要频带的信号电平不降低。IFFT部24[1]，使用离散傅里叶反变换，将基于不要频带去除部23[1]的信号电平降低后的频谱变换为时域上的信号，将由该变换所得到的信号作为第一单位音响信号进行输出。而且，信号电平表示所关注的信号的功率。但是，也能够将信号电平作为所关注的信号的振幅。

针对不要频带去除部23[2]～23[n]及IFFT部24[2]～24[n]也同样。即例如，不要频带去除部23[2]，将不属于第二必要频带的细分化频带看作是不要频带，在由FFT部21L所计算出的频谱内，将不要频带的信号电平进行一定量的降低。例如，在此降低中，使不要频带的信号电平以电压比降低12dB(分贝)。在不要频带去除部23[2]中，第2必要频带的信号电平不降低。IFFT部24[2]，使用离散傅里叶反变换，将基于不要频带去除部23[2]的信号电平降低后的频谱变换为时域上的信号，将由该变换所得到的信号作为第二单位音响信号进行输出。

如此所得到的第i单位音响信号，是由麦克风部所收音的，仅表示来自第i音源的声音的音响信号(但是，误差等忽略不计)。i是1、2、…(n-1)或n。在当前的示例中，麦克风部由麦克风1L及1R构成。第1～第n单位音响信号，分别作为第1～第n音源的音响信号，从音源分离部11a输出。

第i方向(第i音源方向)以及与其关联地记述的方向，是指以原点O为基准的方向(参照图1)。第1～第n方向，是指从所关注的音源向原点O的方向，第1～第n方向彼此不同。例如，如图5所示，当音源4C位于区域3C内作为第一音源、且音源4L位于区域3L内作为第二音源时，从音源4C向原点O的方向是第1方向，并且从音源4L向原点O的方向是第2方向，由音源分离部11a分别提取来自音源4C及4L的声音所表示的音响信号作为第一及第二单位音响信号。第i方向能够解释为具有某程度的宽度的方向，例如，能够将从区域3C内的任意点向原点O的方向及从区域3L内的任意点向原点O的方向分别解释为第1及第2方向。

而且，在音源分离部11a中，虽然通过降低不要频带的信号电平来生成各单位音响信号，但也可以通过使必要频带的信号电平增大，或者，通过使不要频带的信号电平降低并且使必要频带的信号电平增大来生成各单位音响信号。此外，也可取代左右声道间的相位差，而使用左右声道间的功率差来进行与上述相同的处理。此外，在音源分离部11a中，虽然为了生成n个单位音响信号，设置了n组不要频带去除部及IFFT部，但只要将多个单位音响信号分配给一组不要频带去除部及IFFT部，并以时分方式使用一组不要频带去除部及IFFT部，就能够将不要频带去除部及IFFT部的组数设为小于n个。此外，在音源分离部11a中，虽然根据两个麦克风的检测信号来生成各单位音响信号，但也可根据在相互不同的位置所配置的三个以上的麦克风的检测信号来生成各单位音响信号。

此外，也可以设置为以下方式，即，不是利用由音源分离部11a所执行的那样的指向性控制，而是使用以单体能够立体声收音的立体声麦克风个别地对来自各音源的声音进行收音，从而直接获取彼此分离的多个单位音响信号。或者，使用n个指向性麦克风(具有指向性的麦克风)，通过将第1～第n指向性麦克风的灵敏度高的方向朝向与第1～第n音源对应的第1～第n方向，个别地对来自各音源的声音进行收音，以互相分离的形式直接地获取第1～第n单位音响信号。

再或者，当预先知道第1～第n音源的位置时，也可以使用第1～第n无线麦克风，并以第i无线麦克风对第i音源的声音进行收音的方式将第1～第n无线麦克风配置于第1～第n音源的位置上(i＝1、2、…(n-1)、n)。若如此，则由第1～第n无线麦克风，以互相分离的形式直接地获取与第1～第n音源对应的第1～第n单位音响信号。

再或者，也可使用独立成分分析(Independent Component Analysis)，从多个麦克风(例如，麦克风1L及1R)的检测信号生成第1～第n单位音响信号。在独立成分分析中，假设在相同时刻不存在多个来自相同音源的音响信号，在此前提下使用音源的独立性来分离并收音各音源的音响信号。

在由音源分离部11所输出的第1～第n单位音响信号中，附加表示上述第1～第n方向或表示第1～第n音源的存在位置的音源位置信息。该音源位置信息，在图3的音量控制量决定部14及音量控制部15的处理中被利用。表示第i音源的方向的第i方向，由与第i音源对应的上述的相位差、上述立体声麦克风的指向性的方向或上述指向性麦克风的指向性的方向来决定(i＝1、2、…(n-1)、n)。第i音源的存在位置，由与第i音源对应的上述无线麦克风的配置位置来决定(i＝1、2、…(n-1)、n)。

由音源分离部11所输出的各单位音响信号，是时域上的数字音响信号，其数字化的取样频率设为48kHz。如图6所示，时域上的各单位音响信号，以1024样品即21.3msec

为单位来划分，且由1024样品形成一个帧。将时域上连续的帧按从时间早的顺序称为第一、第二、第三帧…。

[音源种类检测部]接着，针对图3的音源种类检测部12的功能进行说明。音源种类检测部12，根据从音源分离部11所输出的第1～第n单位音响信号，按照每个音源来判定第1～第n音源的种类。

在数码摄像机或IC记录器等的用途中，针对人的声音的音响信号最重要。此外，在录音环境中播放中的音乐，由于在再现其场所的气氛方面很重要，所以优选以不妨碍人的声音的程度的音量进行记录。另一方面，杂音要被控制以使尽可能降低其音量。在此，在本实施方式中，对以三个种类，即人的声音、音乐及杂音中的任意一个来分类各音源的种类的方法进行说明。

音源种类检测部12，个别地关注各个第1～第n单位音响信号，并根据所关注的单位音响信号，判定与该关注单位音响信号对应的音源的种类。在以下的说明中，虽然对根据第一单位音响信号来判定第一音源种类的方法进行说明，但对第2～第n音源的种类也根据第2～第n单位音响信号同样地进行判定。

首先，对判定第一音源的种类是否是人的声音的方法进行说明。一般地，基于人的声音的音响信号在100Hz～4kHz左右功率集中，关于有声声音，具有由比较低频的峰值频率与其倍音成分构成的谐波结构。所谓峰值频率，是基于声带振动的音响信号的基本频率。

图7是表示基于人的声音的音响信号的频谱的示例的示意图。在表示图7的频谱的图表中，横轴是频率，纵轴是音压位准(sound pressure level)。如图7所示，在人的声音的频谱中，音压位准成为极大的频率与成为极小的频率以大致恒定频率间隔重复存在。在音压位准成为极大的多个频率内，最小频率是峰值频率f0，在其倍音成分的频率即f0×2、f0×3、f0×4、…中，音压位准也取极大值。关注这种特性来进行第一单位音响信号的频率分析，当在规定的频带中具有谐波结构的信号成分存在时，能够判定第一音源的种类是人的声音。

作为判定第一音源的种类是否是人的声音的方法，已经公知有各种方法，在音源种类检测部12中，能够利用包括公知的方法的任意的方法。以下，简单地说明可利用的具体的方法示例。

音源种类检测部12，以约21.3msec间隔，即按照每帧对第一单位音响信号进行离散傅里叶变换(参照图6)。由S_j[m·Δf]表示由此所得的表示第j帧中的第一单位音响信号的频谱的信号。J是自然数。Δf是离散傅里叶变换中的频率的标本间隔。现在，通过对单位音响信号的离散傅里叶变换以Δf间隔计算出M个信号(M是2以上的整数，例如M＝256)。这样，m取0≤m≤(M-1)的范围内的各整数值，第j帧中的第一单位音响信号的频谱，根据频率区域上的信号S_j[0·Δf]～S_j[M-1·Δf]形成。图8是表示频谱的信号S_j[m·Δf]的示例的示意图。

音源种类检测部12，对于所得到的频谱的规定的频带成分进行自相关处理。例如，从信号S_j[0·Δf]～S_j[M-1·Δf]内的100Hz～4kHz的频带内的信号中搜索峰值频率，并且搜索峰值频率的倍音成分的有无。然后，当确认出存在峰值频率及其倍音成分时，与第一单位音响信号相对应的第一音源的种类判定为人的声音，当确认出不存在峰值频率及它的倍音成分时，第一音源的种类判定为不是人的声音。

接着，对判定第一音源的种类是否是音乐的方法进行说明。一般地，基于音乐的音响信号是宽带信号并且具有恒定的周期性。为此，当第一单位音响信号的频带比较宽并且第一单位音响信号在时域中具有恒定的周期性时，能够判定第一音源的种类是音乐。

对具体的方法进行例示。在以形成第一单位音响信号的48Hz进行离散化后的数字音响信号列之中，或者从基准时刻观察，以x(t)表示第t号数字音响信号的信号值或能量(t是整数)。而且，如图9所示，从上述基准时刻观察，在使用由第1～第t₀号的x(t)构成的块作为基准块的基础上，计算自相关(t₀是2以上的整数)。即，对于第t₀号以后的x(t)，定义由t₀个连续的x(t)构成的评估块，一边沿时间方向依次错开评估块的位置，一边求出基准块与评估块之间的相关。更具体而言，按照下式(1)计算出自相关值S(p)。自相关值S(p)，是决定评估块的位置的变量p的函数(p是整数)。

S (p) = \frac{1}{t_{0}} Σ_{t = 1}^{t_{0}} {x (t) \cdot x (t + p)} . . . (1)

图10表示所求出的自相关值S(p)的变量p依存性。在图10中，横轴及纵轴分别表示变量p及自相关值S(p)。图10对应于第一音源的种类是音乐的情况。此时，对于变量p的变化，自相关值S(p)取周期性的大值。音源种类检测部12，当判断为对于第一单位音响信号所求出的自相关值S(p)已周期性地超过规定的阈值TH时，判定为第一音源的种类是音乐，当判断为对于第一单位音响信号所求出的自相关值S(p)未周期性地超过规定的阈值TH时，判定为第一音源的种类不是音乐。例如，当满足不等式“S(p)＞TH”的变量p的间隔是恒定(或者大致恒定)时，可判断为自相关值S(p)已周期性地超过规定的阈值TH。

此外，也可以进一步考虑第一单位音响信号的频带。例如，即使在对第一单位音响信号所求出的自相关值S(p)被判断为已周期性地超过规定的阈值TH的情况下，当判断为在第一单位音响信号中完全或几乎不包括规定的频带的信号成分时，也可以判定为第一音源的种类不是音乐。例如，当第一单位音响信号的5kHz以上且15kHz以下的频带中的信号电平的最大值是规定电平以下时，能够判断为在第一单位音响信号中完全或几乎不包括规定的频带的信号成分。

接着，对判定第一音源的种类是否是杂音的方法进行说明。以空调机噪音或电路噪声(正弦波状的噪声)等为代表的杂音，是固定的信号且频率特性中时间上的变动少。因此，能通过判断第一单位音响信号是否具有这样的信号特性来判定杂音。

具体而言，例如可以按以下的方式进行。关注于数秒间部分的帧，对于关注帧的第一单位音响信号按照每个帧实施离散傅里叶变换。假设关注帧是第1～第J帧的情况(J是整数，例如J＝200)。然后，按照下式(2)计算出杂音评估值E_NOISE，当杂音评估值E_NOISE是规定的基准值以下时，若判断为频率特性的时间的变动少，则判定为第一音源的种类是杂音，若判断为频率特性的时间的变动不少，则判定为第一音源的种类不是杂音。

E_{NOISE} = Σ_{m = 0}^{M - 1} Σ_{j = 1}^{J} | S_{AVE} [m \cdot Δf] - S_{j} [m \cdot Δf] | . . . (2)

其中，S_AVE[m·Δf]是表示第一单位音响信号中的频率(m×Δf)的信号成分的第1～J帧的平均。即，S_AVE[m·Δf]是S₁[m·Δf]～S_J[m·Δf]的平均值。如图11所示，由于杂音的频谱的时间上的变动少，所以对杂音所计算出的杂音评估值E_NOISE取比较小的值。

而且，通过按照上述的方法，当判断为第一音源的种类不是人的声音、音乐及杂音中的任意一个时，判断为第一音源的种类是人的声音、音乐及杂音以外的第四种类。

[音量检测部]接着，针对图3的音量检测部13的功能进行说明。音量检测部13，通过检测从音源分离部11输出的第1～第n单位音响信号的信号电平，来对各单位音响信号中的音源的音量进行检测。此时，将各单位音响信号的频带分割为八个，并按照由分割所得到的每个频带来检测信号电平。

更具体而言，如下按照每个单位音响信号对单位音响信号的信号电平进行检测。为了明确说明，仅关注于第一单位音响信号来说明信号电平检测方法。通过按照每帧对第一单位音响信号实施离散傅里叶变换，来计算每帧的频谱。由于第一单位音响信号的取样频率是48kHz，所以计算出的频谱的频带是0～24kHz。将此频带(即，0～24kHz)分割为八个频带，将由分割所得的频带从频率小的称为第一、第二、…第八子频带(参照图12)。

音量检测部13，按照每帧且按照每个子频带，对频谱的信号电平的最大值进行确定。例如，当第一子频带是0kHz以上且(10·Δf)kHz以下的频带时，根据频谱中的信号S₁[0·Δf]～S₁[10·Δf]，对频率0·Δf、1·Δf、…9·Δf及10·Δf中的成为最大的信号电平的频率进行确定，并提取所确定的频率中的信号电平，作为第一帧的第一子频带的代表信号电平(参照图12)。该代表信号电平，要由音量检测部13来检测，并作为第一帧的第一子频带的信号电平来处理。同样地，也提取第一帧的第2～第8子频带的代表信号电平，而且，对于第一帧以后的各帧依次执行相同的提取处理。

虽然针对第一单位音响信号进行了说明，但第2～第n单位音响信号的代表信号电平也与第一单位音响信号的代表信号电平同样地被检测。

[音量控制量决定部]接着，针对图3的音量控制量决定部14的功能进行说明。音量控制量决定部14，首先，根据由上述音源位置信息和音源种类检测部12所判定的各音源的种类，按照所预定的表格数据，按每个单位音响信号来决定上限放大量。虽然各单位音响信号通过音量控制部15而被放大，但上限放大量对其放大的上限值进行规定。而且，虽然有时单位音响信号的信号电平通过音量控制部15来降低，但此时的信号电平的变动是负的放大。可将放大量改读为控制量或调整量。

由音源位置信息来确定各音源是否存在于六个区域3C、3L、3SL、3B、3SR及3R的任一个区域中(参照图2)，根据其确定内容，按照每个单位音响信号来决定第一放大量。图13(a)表示用于决定第一放大量的表格数据的内容。即，分别关注第1～第n单位音响信号的每个，当与所关注的单位音响信号对应的音源，位于区域C时，位于区域3L或3R时，位于区域3SL或3SR时，位于区域B时，第一放大量用电压比被分别设定为6dB、3dB、0dB、(-3dB)。

根据由音源种类检测部12所判定的各音源的种类，按照每个单位音响信号来决定第二放大量。图13(b)表示用于决定第二放大量的表格数据的内容。即，分别关注第1～第n单位音响信号的每个，当与所关注的单位音响信号对应的音源的种类，是人的声音时、是音乐时、是杂音时、是第四种类时，第二放大量用电压比被分别设定为12dB、6dB、(-6dB)、0dB。但是，当与所关注的单位音响信号对应的音源的种类是人的声音时，第二放大量仅对所关注的单位音响信号的整个频带中的音声频带设定为12dB，第二放大量仅对关注的单位音响信号的整个频带中的非音声频带设定为0dB。所谓音声频带，是人的声音的功率集中的频带。例如，100Hz以上且4kHz以下的频带被设定为音声频带，除此以外的频带被设定为非音声频带。

音量控制量决定部14，如图13(c)所示，将第一放大量与第二放大量相加后的值设定为上限放大量。现在，如图14所示(也参照图2)，n＝4，假设根据音源位置信息表示第一、第二、第三及第四音源分别位于区域3C、3R、3SR及3B内，并且由音源种类检测部12判定为第一、第二、第三及第四音源的种类分别是人的声音、音乐、杂音及人的声音。为了方便将该假设称为假设α。在该假设α下，对第一单位音响信号的上限放大量在音声频带中设为18dB(＝6dB+12dB)，并且在非音声频带中设为6dB(＝6dB+0dB)，对第二及第三单位音响信号的上限放大量分别设为9dB(＝3dB+6dB)及-6dB(＝0dB-6dB)，对第四单位音响信号的上限放大量在音声频带中设为9dB(-3dB+12dB)，并且在非音声频带中设为-3dB(-3dB+0dB)。

包括单位音响信号的各音响信号是电压信号，随着该电压的振幅增大，对应的音量及信号电平增大。在音量控制量决定部14及音量控制部15的说明中所述的单位“dB(分贝)”是表示将具有规定的全范围振幅(全量程)的电压信号作为基准的关注信号的电压比。

决定了上限放大量之后，音量控制量决定部14决定实际的放大量，以使由音量检测部13所检测出的第1～第8子频带的每个中的代表信号电平的电压振幅通过基于音量控制部15的放大处理成为-20dB(即，全范围振幅的1/10)。按照该放大量的决定及所决定的放大量进行的放大处理，是按照每个单位音响信号及每个子频带来执行的。

但是，对放大量的决定值施加限制，以使实际的放大量不超过上限放大量。此外，为了防止由于突然的音量变化使听者觉得不舒服，而将相邻的帧间的放大量的变动的大小限制在6dB以下。此外，为了使来自主要的音源应该存在的区域3C的声音不被来自其它的区域的声音掩盖，对区域3L、3SL、3B、3SR及3R内的音源的放大量施加限制，以使其比对区域3C内的音源的放大量小6dB左右。通过这些限制，在音量控制部15的放大处理之后，有时各子频带的代表信号电平的电压振幅与目标振幅(即，-20dB)不同。

参照图15及图16，详细地说明与这些要求对应的放大量的决定工作步骤。图15是对应的音源位于区域C内的对单位音响信号的放大量的计算步骤流程图。图16是对应的音源位于区域3L、3SL、3B、3SR、或3R内的对单位音响信号的放大量的计算步骤流程图。将对应的音源位于区域C内的单位音响信号称为正面音响信号，将对应的音源位于区域3L、3SL、3B、3SR、或3R内的单位音响信号称为非正面音响信号。在假设α下，第一单位音响信号是正面音响信号，第2～第4单位音响信号的每个是非正面音响信号。通过图15的步骤S11～S18的处理，按照每个子频带来决定正面音响信号的放大量，通过图16的步骤S21～S30的处理，按照每个子频带来决定非正面音响信号的放大量。

参照图15，说明对正面音响信号(例如，假设α下的第一单位音响信号)所执行的步骤S11～S18的处理。其中，以P_k[j]表示第j帧中的正面音响信号的第k子频带的代表信号电平的电压振幅。将其电压振幅相对于全范围振幅(全量程)的电压比进行对数表示后是P_k[j]。因此，P_k[j]的单位是db。P_k[j]由音量检测部13进行检测。k取1以上8以下的整数。

通过在对第j帧的步骤S11～S18的处理之前执行对第(j-1)帧的步骤S11～S18的处理，决定第(j-1)帧中的对正面音响信号的第k子频带的放大量，以AMP_k[j-1]表示该决定值。而且，以AMP_k[j]表示第j帧中的对正面音响信号的第k子频带的放大量的暂定值或决定值。AMP_k[j-1]及AMP_k[j]的单位也是dB。

首先，在步骤S11中，音量控制量决定部14判定第一不等式“P_k[j]+AMP_k[j-1]≤-20dB”是否成立。即，当假设以对第(j-1)帧所决定的放大量来放大第j帧的信号时，判定放大后的信号的电压振幅是否为规定的全范围振幅以下。当第一不等式成立时，即，当将电压振幅P_k[j]放大AMP_k[j-1]时的电压振幅是-20dB以下时，转移到步骤S12来执行步骤S12的处理，另一方面，当第一不等式不成立时，转移到步骤S17来执行步骤S17的处理。

在步骤S12中，音量控制量决定部14判定第二不等式“P_k[j]+AMP_k[j-1]+6dB≤-20dB”是否成立。当第二不等式成立时，即，当将电压振幅P_k[j]放大(AMP_k[j-1]+6dB)时的电压振幅是-20dB以下时，在步骤S13中，将(AMP_k[j-1]+6dB)代入到放大量AMP_k[j]中，而后转移到步骤S15，另一方面，当第二不等式不成立时，在步骤S14中将(-20dB-P_k[j])代入到放大量AMP_k[j]中，转移至步骤S15。

在步骤S15中，确认在步骤S13或步骤S14中暂时设定的放大量AMP_k[j]是否在上限放大量以下，当暂时设定的放大量AMP_k[j]在上限放大量以下时，最终决定将该暂时设定的放大量AMP_k[j]作为第j帧中的对正面音响信号的第k子频带的放大量(步骤S18)。

另一方面，当在步骤S13或步骤S14中暂时设定的放大量AMP_k[j]超过上限放大量时，在步骤S16中对放大量AMP_k[j]进行修正。即，通过将对放大量AMP_k[j-1]加算了上限放大量后的结果重新代入到放大量AMP_k[j]中来修正放大量AMP_k[j](步骤S16)，最终决定修正后的放大量AMP_k[j]，作为第j帧中的对正面音响信号的第k子频带的放大量(步骤S18)。

此外，当在步骤S11中判定为上述第一不等式不成立时，在步骤S17中，将使放大量AMP_k[j-1]减少了6dB后的值代入到放大量AMP_k[j]中，最终决定该代入后的放大量AMP_k[j-1](＝AMP_k[j-1]-6dB)，作为第j帧中的对正面音响信号的第k子频带的放大量(步骤S18)。

参照图16，对非正面音响信号(例如，假设α下的第二单位音响信号)所执行的步骤S21～S30的处理进行说明。其中，以P’_k[j]表示第j帧中的非正面音响信号的第k子频带的代表信号电平的电压振幅。将该电压振幅相对于全范围振幅(全量程)的电压比进行对数表示后是P’_k[j]。因此，P’_k[j]的单位是dB。P’_k[j]由音量检测部13检测。k取1以上8以下的整数。

通过在对第j帧的步骤S21～S30的处理之前先执行对第(j-1)帧的步骤S21～S30的处理，决定第(j-1)帧中的对非正面音响信号的第k子频带的放大量，以AMP’_k[j-1]表示该决定值。而且，以AMP’_k[j]表示第j帧中的对非正面音响信号的第k子频带的放大量的暂定值或决定值。AMP’_k[j-1]及AMP’_k[j]的单位也是dB。

首先，在步骤S21中，音量控制量决定部14判定第三不等式“P’_k[j]+AMP’_k[j-1]+6dB≤P_k[j]+AMP_k[j]”是否成立。在第三不等式及后述的第四不等式中，P_k[j]是与图15的流程图的说明中所述的相同，AMP_k[j]是图15的由步骤S18在最终决定的第j帧中的对正面音响信号的第k子频带的放大量。当第三不等式成立时，即，使电压振幅P’_k[j]放大了放大量(AMP’_k[j-1]+6dB)时的电压振幅为使电压振幅P_k[j]放大了放大量AMP_k[j]时的电压振幅以下时，转移至步骤S22来执行步骤S22的处理，另一方面，当第三不等式不成立时，转移至步骤S27而执行步骤S27的处理。

在步骤S22中，音量控制量决定部14判定第四不等式“P’_k[j]+AMP’_k[j-1]+12dB≤P_k[j]+AMP_k[j]”是否成立。当第四不等式成立时，在步骤S23中，将(AMP’_k[j-1]+6dB)代入到AMP’_k[j]中，转移到步骤S25，另一方面，当第四不等式不成立时，在步骤S24中将(-20dB-P’_k[j])代入到放大量AMP’_k[j]中，转移至步骤S25。

在步骤S25中，确认在步骤S23或步骤S24中暂时设定的放大量AMP’_k[j]是否在上限放大量以下，当暂时设定的放大量AMP’_k[j]在上限放大量以下时，最终决定该暂时设定的放大量AMP’_k[j]，作为第j帧中的对正面音响信号的第k子频带的放大量(步骤S30)。

另一方面，当在步骤S23或步骤S24中暂时设定的放大量AMP’_k[j]超过上限放大量时，在步骤S26中对放大量AMP’_k[j]进行修正。即，通过对放大量AMP’_k[j-1]加算了上限放大量后的结果重新代入到放大量AMP’_k[j]中来修正放大量AMP’_k[j](步骤S26)，最终决定修正后的放大量AMP’_k[j]，作为第j帧中的对非正面音响信号的第k子频带的放大量(步骤30)。

此外，在步骤S21中，当判定上述第三不等式不成立时，在步骤S27中，进一步确认第五不等式“AMP’_k[j-1]≤-26dB”是否成立。而且，当第五不等式成立时，在步骤S28中，将放大量AMP’_k[j-1]保持原样地代入到放大量AMP’_k[j]中，最终决定该代入后的放大量AMP’_k[j](＝AMP’_k[j-1])，作为第j帧中的对非正面音响信号的第k子频带的放大量(步骤S30)。另一方面，当第五不等式不成立时，在步骤S29中将使放大量AMP’_k[j-1]减少了6dB后的结果代入到放大量AMP’_k[j]中，并最终决定该代入后的放大量AMP’_k[j](＝AMP’_k[j-1]-6dB)，作为第j帧中的对非正面音响信号的第k子频带的放大量(步骤S30)。

[音量控制部]接着，针对图3的音量控制部15的功能进行说明。音量控制部15，以在音量控制量决定部14中按照每个单位音响信号且按照每个子频带所决定的放大量，按照每个单位音响信号且按照每个子频带对第1～第n单位音响信号进行放大。该放大在频域上进行。因此，对通过离散傅里叶所得到的各单位音响信号的频谱进行上述放大，通过离散傅里叶反变换将放大后的各频谱复原回时域上的信号。由此，修正了信号电平后的第1～第n单位音响信号由音量控制部15输出。音量控制部15的输出音响信号即修正音响信号，由该信号电平修正后的第1～第n单位音响信号形成。

如此，音响信号处理装置10，根据第1～第n的音源的存在方向或存在位置、各音源的种类及与各音源对应的各单位音响信号的信号电平，按照每个单位音响信号且按照每个子频带来决定放大量，对各单位音响信号的信号电平进行调整，由此个别地调整对象音响信号中的各音源的音量。

[对各种设备的应用例]如上述的音响信号处理装置10，搭载于利用多个麦克风的检测信号的任意设备。在利用多个麦克风的检测信号的任意设备中，包括录音装置(IC录音机等)、摄像装置(数码摄像机等)及音响信号再现装置等。此外，在摄像装置中，能够实现作为录音装置的功能或作为音响信号再现装置的功能或它们两者的功能。此外，录音装置、摄像装置或音响信号再现装置，可组装于便携式终端(手机等)。

作为示例，图17表示录音装置100的概略结构图。录音装置100具有音响信号处理装置101、磁盘或存储卡等的记录介质102、设置于录音装置100的壳体上相互不同的位置上的麦克风1L及1R。作为音响信号处理装置101，可采用上述的音响信号处理装置10。音响信号处理装置101由麦克风1L及1R的检测信号生成修正音响信号，并在记录介质102中记录该修正音响信号。

此外，图18表示音响信号再现装置120的概略结构图。音响信号再现装置120具有音响信号处理装置121、磁盘或存储卡等的记录介质122、和扬声器部123。在记录介质122中记录有麦克风1L及1R的检测信号。作为音响信号处理装置121，可采用上述音响信号处理装置10。但是，在音响信号再现装置120中，由记录介质122读出的麦克风1L及1R的检测信号被输入给音响信号处理装置121，从该输入的麦克风1L及1R的检测信号通过音响信号处理装置121生成修正音响信号。

在音响信号再现装置120中所生成的修正音响信号，作为声音由扬声器部123再现输出。修正音响信号，作为由在互相不同的方向上具有指向性的n个音响信号(信号电平修正后的第1～第n单位音响信号)构成的立体声信号或多声道信号，由扬声器部123或设置于音响信号再现装置120外的扬声器部(未图示)再现输出。此外，能够在记录介质122中记录在音响信号再现装置120中所生成的修正音响信号。

此外，扬声器部123由于将立体声信号或多声道信号再现输出，所以由多个扬声器形成(后述的扬声器部146也同样)。此外，也能够通过计算机或在计算机上运行的软件来实现音响信号再现装置120。此外，也能够形成同时兼有录音装置100与音响信号再现装置120的功能的录音再现装置。

此外，图19表示摄像装置140的概略结构图。摄像装置140，在图17的录音装置100的结构要素中，通过附加CCD(Charger Coupled Device)或CMOS(Complementary Metal Semiconductor)摄像传感器等构成的摄像元件143、通过附加对使用摄像元件143的摄像所得到的图像实施规定的图像处理的图像处理部144、进行摄影图像的显示的显示部145及进行声音输出的扬声器部146等而形成。在摄像装置140中所设置的音响信号处理装置101、记录介质102和麦克风1L及1R，与录音装置100的相同。麦克风1L及1R被设置于摄像装置140的壳体上相互不同的位置。

摄像装置140使用摄像元件143来拍摄与被摄体相应的运动图像或静止图像。表示该运动图像或静止图像的图像信号(例如，YUV形式的视频信号)，通过图像处理部144被记录在记录介质102中。特别地，在运动图像的拍摄时，根据麦克风1L及1R的检测信号的修正音响信号与运动图像的图像信号在时间上建立关联的基础上被记录在记录介质102中。此外，摄像装置140也具有作为对记录介质102中所记录的音响信号(修正音响信号)进行再现的音响信号再现装置的功能。因此，能够使用显示部145及扬声器部146，将所拍摄的运动图像与修正音响信号一同再现。并且，将麦克风1L及1R的检测信号与运动图像的图像信号在时间上建立关联地预先记录在记录介质102中，在运动图像的再现时，可通过记录于记录介质102中的麦克风1L及1R的检测信号来生成修正音响信号。

摄像装置140，对从原点O观察位于Y轴正方向上的被摄体进行拍摄(参照图1)。例如，在区域3C、3L、3SL、3B、3SR及3R内，摄像装置140的视野中仅包括区域3C(参照图2)。但是，根据摄像装置140的视角，区域3L及3R的一部分可包含于摄像装置140的视野，区域3C的一部分也可不包含于摄像装置140的视野。

根据本实施方式，由于根据音源的方向(或位置)和音源的种类，按照各频带来调整各音源的音量，所以能够以比较大的音量来记录或再现必要的声音(主要是人的声音)，并以比较小的音量来记录或再现不必要的声音(杂音等)。当在特定方向上有杂音的音源时，由于借助声音种类判定来降低杂音的音量，所以在最终所记录或再现的音响信号中，杂音的影响变小。另一方面，音乐等的背景音以不掩盖必要的声音(主要是人的声音)程度的适当的音量被记录，所以能够成为具有临场感的再现。

并且，在按照细分化的各频带进行音量控制的上述第二现有方法中，虽能够降低在特定频带中存在的杂音成分，但当杂音成分与必要的信号成分的频率重复时，不可能仅降低杂音成分。相对于此，在本实施方式中，由于根据音源的方向(或位置)并还根据音源的种类来进行音量调整(调整信号电平)，所以使得仅降低杂音成分的情况成为可能。

此外，根据本实施方式的摄像装置，能够明确地记录或再现匹配到摄影图像中的声音。特别地，由于在摄影图像中所拍摄的正面方向的人的声音以比其它声音大的音量被记录或被再现，所以拍摄者关注的被摄体的声音易于听取。

《第二实施方式》接着，对本发明的第二实施方式进行说明。在第二实施方式中也使用图3的音响信号处理装置10。但是，在第二实施方式中，将从区域3C、3L、3R、3SL及3SR内的任意的点向原点O的方向分别作为第一、第二、第三、第四及第五方向来进行处理，使用音源分离部11中的指向性控制，将强调了来自位于区域3C、3L、3R、3SL及3SR内的音源的声音的音响信号分别作为第一、第二、第三、第四及第五单位音响信号来生成。

其结果，对象音响信号(参照图4)成为由强调了来自前方(正面方向)的声音的信号成分的第一单位音响信号(中心信号)、强调了来自左斜前方的声音的信号成分的第二单位音响信号(左信号)、强调了来自右斜前方的声音的信号成分的第三单位音响信号(右信号)、强调了来自左斜后方的声音的信号成分的第四单位音响信号(环绕左信号)和强调了来自右斜后方的声音的信号成分的第五单位音响信号(环绕右信号)构成的5声道的多声道信号。

音量控制部15，通过第一实施方式中所述的方法对如此得到的第1～第5单位音响信号的信号电平进行修正，并生成信号电平修正后的第1～第5单位音响信号。虽然能够将该信号电平修正后的第1～第5单位音响信号作为5声道的多声道信号记录到记录介质(例如，图19的记录介质102)中或在扬声器部(例如，图19的扬声器部146)进行再现输出，但在第二实施方式中，通过进行缩混(downmixing)来记录或再现2声道的信号。

即，通过将信号电平修正后的第一、第二及第四单位音响信号以规定的比率进行混合来生成第一声道信号，并且通过将信号电平修正后的第一、第三及第五单位音响信号以规定的比率进行混合来生成第二声道信号。具体而言，例如，在音量控制部15中，按照下式(3)及(4)进行缩混。其中，x_C(t)、x_L(t)、x_R(t)、x_SL(t)及x_SR(t)，分别表示上述信号电平修正后的第一、第二、第三、第四及第五单位音响信号的信号值，x₁(t)及x₂(t)分别表示由缩混所得到的第一声道信号及第二声道信号的信号值。并且，计算x₁(t)时的x_C(t)、x_L(t)及x_SL(t)的混合比率是可变更的(针对x₂(t)也同样)。x₁(t)＝0.7×x_C(t)+x_L(t)+x_SL(t) …(3)x₂(t)＝0.7×x_C(t)+x_R(t)+x_SR(t) …(4)

第一及第二声道信号，形成立体声信号。由第一及第二声道信号形成的立体声信号，作为修正音响信号从音量控制部15输出。第二实施方式的音响信号处理装置10，也能够作为音响信号处理装置101或121来利用(参照图17～图19)。

《第三实施方式》接着，对本发明的第三实施方式进行说明。在第三实施方式中，对图3的音响信号处理装置10、图17～图19的录音装置100、音响信号再现装置120及摄像装置140(以下，分别简略记述为装置10、100、120及140)中可利用的第1～第5应用技术进行说明。只要没有矛盾，就能够对第1～第5应用技术内的2个以上的应用技术进行组合来实施。

[第一应用技术]也能够以手动操作指示是否执行基于音量控制部15的信号电平修正(换言之，调整音量)的方式形成装置10、100、120或140。当指示不执行信号电平修正时，由音源分离部11所生成的第1～第n单位音响信号或麦克风1L及1R的检测信号，保持原样地记录于记录介质(例如，图19的记录介质102)中或由扬声器部(例如，图19的扬声器部146)再现输出。

[第二应用技术]也可以设置为：将基于音量控制部15的信号电平修正(换言之，调整音量)的方法用第一实施方式中所述的方法与其它方法来切换执行。用户能够通过手动操作来指示该切换。例如，能够选取其一地对第一音量调整方法和第二音量调整方法进行选择，当选择了第一音量调整方法时，进行如第一实施方式中所述的那样的工作来记录或再现修正音响信号。

另一方面，当选择了第二音量调整方法时，在音量控制部15中进行对各单位音响信号的AGC或ALC。即，通过信号放大处理对从音源分离部11向音量控制部15输入的各单位音响信号的电压振幅进行修正，以使从音量控制部15输出的各单位音响信号的电压振幅保持一定振幅。基于AGC或ALC的电压振幅修正后的第1～第n单位音响信号也作为形成修正音响信号的音响信号而被记录于记录介质中(例如，图19的记录介质102)或由扬声器部(例如，图19的扬声器部146)再现输出(在以下的第三及第四应用技术中也同样)。

[第三应用技术]也可以设置为：以能够将基于音量控制部15的信号电平修正(换言之，调整音量)的方法用第一实施方式中所述的方法与其它方法来切换执行的方式形成装置10、100、120或140，对于包含主要的声音成分的8kHz以下的频带，以第一实施方式所述的方法进行音量调整来生成修正音响信号，另一方面，对于大于8kHz的频带通过其它方法(例如，AGC或ALC)进行音量调整。

[第四应用技术]也可以设置为：以能够将基于音量控制部15的信号电平修正(换言之，调整音量)的方法用第一实施方式中所述的方法与其它方法来切换执行的方式形成摄像装置140，当判断为在基于摄像装置140的摄影图像中映现了人物时，以前者的方法进行音量调整来生成修正音响信号，另一方面，当判断为在摄影图像中未映现人物时，通过后者的方法(例如，AGC或ALC)进行音量调整。图19的图像处理部144，根据摄影图像的图像信号，利用公知的脸检测处理等，能够判断摄影图像中是否映现了人物。

[第五应用技术]虽然记述了通过图3的音源种类检测部12，将与单位音响信号对应的音源的种类按照四种中的任何一种，即人的声音、音乐、杂音及第四种类中的任何一种进行分类的示例，但所分类的音源的种类也可以是4种以外。

在实际的环境下，有时由多个种类的多个音源产生的音响信号会从相同或相似的方向同时来到麦克风。为了应对这样的情况，也可以形成音源种类检测部12，以便能够判断为与第i单位音响信号对应的音源是两种以上的音源的混合音源。

例如，也可以设置为：根据第一实施方式中所述的方法，通过调查第i单位音响信号的频域上的自相关来判断在与第i单位音响信号对应的音源中是否包括人的声音，并且通过调查第i单位音响信号的时域上的自相关来判断在与第i单位音响信号对应的音源中是否包括音乐，由此，判断与i单位音响信号对应的音源是否是人的声音与音乐的混合音源。而且，根据频域上的自相关与时域上的自相关的强弱关系，能够检测出在混合音源的整个音量中所占有的人的声音的音量比例与音乐的音量比例。音量控制量决定部14，考虑到与第i单位音响信号对应的音源是否是混合音源或对混合音源所检测出的上述音量比例，来决定对各单位音响信号的放大量。

《第四实施方式》对本发明的第四实施方式进行说明。图21表示第四实施方式的录音再现装置200的概略结构图。录音再现装置200在记录音响信号时作为录音装置发挥功能，在再现音响信号时作为再现装置发挥功能。因此，可将录音再现装置200理解为录音装置或再现装置。此外，可将图19的摄像元件143及图像处理部144追加到录音再现装置200中，实施了该追加后的录音再现装置200，也可称为摄像装置。

录音再现装置200具有：设置于录音再现装置200的壳体上相互不同的位置上的麦克风1L及1R、磁盘或存储卡等的记录介质201、音响信号处理装置202、扬声器部203、由液晶显示器等构成的显示部204，和作为操作接收部发挥功能的操作部205。

麦克风1L及1R与第一实施方式中所述的相同，原点O与麦克风1L及1R的位置关系也与第一实施方式中所述的相同(参照图1)。在记录介质201中，将麦克风1L及1R的检测信号进行数字变换所得到的原信号L及原信号R，或者它们的压缩信号作为录音音响信号来进行记录。

图22是包括音响信号处理装置202的内部方框图的录音再现装置200的一部分方框图。音响信号处理装置202具有：信号分离部211、声音特性分析部212和再现音响信号生成部(信号处理部)213。

信号分离部211根据来自记录介质201的录音音响信号生成第1～第m的方向信号。其中，m是2以上的整数。各方向信号，是由记录音响信号提取的具有指向性的音响信号，当将i及j理解为相互不同的整数时，指向性的指向在第i及第j的方向信号间不同。在本实施方式中，只要没有特别事先声明，就设为m＝3。当然，m也可以是3以外的数。而且，作为第一、第二及第三的方向信号，分别假设生成L方向信号、C方向信号及R方向信号的情况。

图23是信号分离部211的内部方框图。信号分离部211中具有音源分离部221及方向分离处理部222。音源分离部221，生成并输出对来自在空间上分散的多个音源的声音进行收音后得到的音响信号，即对来自各音源的信号进行分离提取后的音响信号。作为音源分离部221能够采用图3的音源分离部11，在本实施方式中，设为音源分离部221与音源分离部11相同。因此，从音源分离部221所输出的音响信号，是第一实施方式中所述的对象音响信号。如第一实施方式所述，对象音响信号是包括表示来自第一音源的声音的第一单位音响信号、表示来自第二音源的声音的第二单位音响信号、…、表示来自第(n-1)音源的声音的第(n-1)单位音响信号、表示来自第n音源的声音的第n单位音响信号的音响信号(如上述，n是2以上的整数)，第1～第n单位音响信号，分别作为第1～第n音源的音响信号，从音源分离部221输出。第i单位音响信号是从i方向来到录音再现装置200(更具体而言，是录音再现装置200上的原点O)的音响信号(i是整数)。第i到来方向要说的是第i方向的意思，如第一实施方式中所述。

音源分离部221，根据第一实施方式中所述的指向性控制，能够从记录音响信号中分离提取各单位音响信号。而且，与第一实施方式相同，在从音源分离部221所输出的第1～第n单位音响信号中，附加表示第1～第n的方向或表示第1～第n音源的存在位置的音源位置信息。

方向分离处理部222，根据音源位置信息，从对象音响信号分离提取L方向信号、C方向信号及R方向信号。对该分离的方法进行说明。方向分离处理部222，如图24所示，以线段301～304为边界在XY坐标面上设定三个区域300L、300C及300R。虽然能够通过用户指示等对每个线段301～304与X轴及Y轴的关系进行变更(在后面详述)，只要没有该变更，则线段301设为从原点O向X轴的负方向与X轴平行地延伸的线段，线段304设为从原点O向X轴的正方向与X轴平行地延伸的线段，线段302设为从原点O向XY坐标面上的第二象限延伸的线段，线段303设为从原点O向XY坐标面上的第一象限延伸的线段。此时，虽然线段301及304是X轴上的线段，为了便于图示，在图24中，表示为将线段301及304与X轴错开一些(后述的图25也同样)。例如，线段302相对于Y轴按逆时针旋转方向倾斜30°，线段303相对于Y轴按顺时针旋转方向倾斜30°。区域300L夹于线段301及302之间，是XY坐标面的第二象限的局部区域，区域300C夹于线段302及303之间，是XY坐标面的第一及第二象限的局部区域，区域300R，夹于线段303及304之间，是XY坐标面的第一象限的局部区域。

方向分离处理部222，根据音源位置信息，将第一单位音响信号包含于L、C及R方向信号的任一个中。具体而言，如果第一单位音响信号的到来方向，即与第一单位音响信号对应的第一方向是从区域300L内的任一位置向原点O的方向，则在L方向信号中包含第一单位音响信号，如果该第一方向是从区域300C内的任一位置向原点O的方向，则在C方向信号中包含第一单位音响信号，如果该第一方向是从区域300R内的任一位置向原点O的方向，则在R方向信号中包含第一单位音响信号。对第2～第n单位音响信号也进行与此相同的操作。由此，各个单位音响信号包含于L、C及R方向信号的任一个中。

例如，n＝3，如图25所示，若作为第一音源的音源311、作为第二音源的音源312及作为第三音源的音源313分别位于区域300L、300C及300R，则L、C及R方向信号，分别成为第一、第二及第三单位音响信号。在一个区域内有多个音源存在的情况也同样。即，例如如果n＝6，且第一、第二及第三音源位于区域300L，第四及第五音源位于区域300C，第六音源位于区域300R，则L方向信号成为第一、第二及第三单位音响信号的合成信号，C方向信号成为第四及第五单位音响信号的合成信号，R方向信号成为第六单位音响信号。

如上述说明所理解，L方向信号是从对象音响信号中分离提取来自位于区域300L内的音源的音响信号而获得的。L方向信号也可理解为是从区域300L内的任一位置到来的音响信号。针对C及R方向信号也同样。以下，为了方便说明，将从区域300L内的任一位置向原点O的方向称为L方向，将从区域300C内的任一位置向原点O的方向称为C方向，将从区域300R内的任一位置向原点O的方向称为R方向。

此外，在本示例中，虽然借助单位音响信号的生成来生成了L、C及R方向信号，但也可不进行单位音响信号的生成，而从作为输入音响信号的记录音响信号中，即从多个麦克风的检测信号中，通过对L、C及R方向信号进行指向性控制来直接提取。在对象音响信号或记录音响信号内，声音的到来方向是L方向的信号成分为L方向信号(对于C及R方向信号也同样)。

由图22的分析部212L、212C及212R构成的声音特性分析部212，通过按照每个声音的到来方向将对象音响信号进行分析(换言之，通过对记录音响信号进行分析)，按照每个到来方向生成表示声音特性的特性信息。在音响信号处理装置202中，声音的到来方向被分类为L、C及R方向，提取了L、C及R方向信号作为L、C及R方向的信号成分。因此，在分析部212L、212C及212R中，分别对L、C及R方向信号进行个别地分析。分析部212L，根据L方向信号，对由L方向信号所表示的声音的特性进行分析来生成表示该声音特性的L特性信息。同样地，分析部212C，根据C方向信号，对由C方向信号所表示的声音的特性进行分析来生成表示该声音特性的C特性信息，分析部212R，根据R方向信号，对由R方向信号所表示的声音的特性进行分析来生成表示该声音的特性的R特性信息。

图26表示L、C及R特性信息的结构。L特性信息的结构分别与C及R特性信息的结构相同，分析部212L的工作与分析部212C及212R的各工作相同。因此，代表分析部212L、212C及212R，对分析部212L的工作进行说明。

分析部212L，将表示由L方向信号所表示的声音的音量的音量信息包含在L特性信息中。由于由L方向信号所表示的声音的音量随着L方向信号的信号电平的增大而增大，所以通过检测L方向信号的信号电平来检测出该音量后，生成音量信息。并且，所谓“声音的音量”，与第一实施方式中所述的所谓“音源的音量”是相同的意义。

分析部212L，将表示由L方向信号所表示的声音的种类的音种信息包含在L特性信息中。所谓“声音的种类”，与第一实施方式中所述的所谓“音源的种类”是相同的意义。此外，将声音的种类也简称为音种。分析部212L，根据L方向信号，对由L方向信号所表示的声音的种类(换言之，L方向信号的音源的种类)进行判定。作为该判定方法，可以使用图3的音源种类检测部12的方法。因此，在分析部212L中，能够将L方向信号的音源的种类分类为人的声音、音乐及杂音中的任一个，能够在音种信息中包含该分类结果。当L方向信号是多个单位音响信号的合成信号时，只要按照每个单位音响信号对单位音响信号的音源进行判定即可。此时，在某区间的L特性信息中，包含针对多个音源的音种信息。

分析部212L，根据L方向信号检测出由L方向信号所表示的声音中是否包含人的声音，并将表示该检测结果的人声有无信息包含于L特性信息中。在生成上述音种信息的过程中，由于分析了L方向信号的音源的种类，所以若引用此分析结果则能够生成人声有无信息。

当由L方向信号所表示的声音中包含有人的声音时，分析部212L根据L方向信号，检测出该声音的发音者(以下，称为说话者)，并将所检测出的表示说话者的说话者信息包含在L特性信息中。当由L方向信号所表示的声音的人物是预先登录的人物(以下称为登录人物)时，完成基于分析部212L的说话者的检测。登录人物可以是一人，但是当前，作为登录人物，假设存在相互不同的第一及第二登录人物。用户可以将各登录人物的声音的音响信号预先记录在设置于录音再现装置200的登录人物用存储器(未图示)中。分析部212L使用登录人物用存储器来对各登录人物的声音的特征进行分析，并使用该分析结果生成说话者信息。作为用于生成说话者信息的分析技术，能够利用公知的任意的说话者识别技术。

图22的再现音响信号生成部213L，根据L、C及R方向信号生成再现音响信号。该再现音响信号发送给由一个或多个扬声器构成的扬声器部203，作为声音来再现。虽在后面详述，但根据L、C及R方向信号生成再现音响信号的方法，是根据来自声音特性分析部212的特性信息及/或来自操作部205的输入操作信息来决定的。用户能够对由开关等构成的操作部205进行各种操作(以下，称为输入操作)，能够借助输入操作向录音再现装置200提供所要的指示。输入操作信息是表示输入操作的内容的信息。在本实施方式及后述的第五实施方式中，假设在显示部204中设置了所谓触控面板功能。因此，输入操作的一部分或全部，通过对显示部204的触控面板操作来实现。

[特性信息的显示]在录音再现装置200中，作为特殊的功能，具有显示特性信息的功能。用户能够在观察该显示内容的基础上完成输入操作。对基于显示部204的特性信息的显示方法进行说明。此外，在本实施方式及后述的第五实施方式中，所谓显示，只要没有特别地记述，就是指显示部204的显示。因此，例如当单指显示画面时，就是指显示部204的显示画面。

首先，参照图27，对基础的图像350进行说明。图像350由模仿了扬声器的图标351、模仿了区域300L、300C及300R的区域图标352L、352C及352R构成。在图27所示的示例中，区域图标352L、352C及352R的各自的形状呈三角形。在图像350上定义与图24的XY坐标面相同的二维坐标面，并在图像350中，在与原点O对应的位置上配置图标351，并在与区域300L、300C及300R对应的位置上分别配置区域图标352L、352C及352R。

显示部204，表示包含图标351、352L、352C及352R的图像350，并根据特性信息，在图像350上重叠显示音源图标。如图28(a)～(c)所示，音源图标中有表示音源是人物的声音的人物图标361、表示音源是音乐的音乐图标362、表示音源是杂音的杂音图标363。

因此，例如，当在特性信息中表示了C方向信号的音源是音乐并且R方向信号的音源是人的声音时，表示如图29(a)所示的图像350a。图像350a在图像350上重叠了音乐图标362及人物图标361，在图像350a上，音乐图标362及人物图标361分别配置于区域图标352C及区域图标352R内。并且，例如，当在特性信息中表示了C方向信号的音源是人物并且R方向信号的音源是杂音时，表示如图29(b)所示的图像350b。图像350b在图像350上重叠了人物图标361及杂音图标363，在图像350b上，人物图标361及杂音图标363分别配置于区域图标352C及区域图标352R内。L方向上有音源存在的情况也相样地进行处理。此外，在以下的说明中，作为明示各方向的音种的图像的代表，适当参照图29(a)的图像350a。

在以下的说明中，如图30(a)所示，将某音响信号的存在区间(时间的区间)的整体称为全区间。记录音响信号的全区间的时间长度等于记录音响信号的录音时间的长度。由记录音响信号所生成的音响信号(对象音响信号、L、C及R方向信号)的全区间的时间长度等于记录音响信号的时间长度。此外，在以下的说明中，有时将全区间的一部分区间称为特定区间、第一区间或第二区间(参照图30(b)及(c))。但是，第一及第二区间是相互不同的区间，设：第一区间结束后第二区间存在。例如，如图30(c)所示，第一和第二区间是连续的区间。

特性信息的显示，当再现与特性信息对应的再现音响信号时，能够实时地进行。将此称为特性信息的实时显示。在特性信息的实时显示中，当由扬声器203再现基于特定区间的L、C及R方向信号的再现音响信号时，在显示部204中显示基于特定区间的L、C及R方向信号的特性信息。在此情况下，例如，如果在基于特定区间的L、C及R方向信号的再现音响信号中包括特定区间的C及R方向信号，并且，特定区间的C及R方向信号的音源分别是音乐和人的声音，则在由扬声器部203正在再现基于特定区间的L、C及R方向信号的再现音响信号时，显示图29(a)的图像350a。而且，也可以在针对R方向信号的人的声音实际由扬声器部203输出的时刻，进行向用户通知该输出的发话显示。例如，在该时刻，如图31所示，可以使图像350a上的人物图标361或配置了人物图标361的区域图标352R闪烁。

在扬声器部203实际再现基于记录音响信号的再现音响信号之前，也可以由记录音响信号生成特性信息而在显示部204中显示该特性信息。将此称为特性信息的事前显示。当进行特性信息的事前显示时，可在生成再现音响信号前，从记录介质210中读出记录音响信号来进行特性信息的生成。此时，特性信息生成用的分析区间可以是全区间，但也可以是全区间中所限定的一部分区间。在特性信息的事前显示中，由显示部204显示基于分析区间的记录音响信号的特性信息。

而且，当进行特性信息的事前显示时，按各方向提取代表音响信号，并在再现音响信号的再现前，从扬声器部203输出代表音响信号。具体而言，在分析区间中的L方向信号内，提取基于人的声音的音响信号作为L方向的代表音响信号，或者，在分析区间中的L方向信号内，提取具有最大音量的区间的L方向信号作为L方向的代表音响信号，或者，在全区间的L方向信号内，提取最初发声的声音的音响信号作为L方向的代表音响信号。然后，当进行特性信息的事前显示时，可以按照用户的指示或与有无用户的指示无关地从扬声器部203输出L方向的代表音响信号。针对C方向及R方向也同样。

此外，可以根据特性信息中所包含的音量信息，生成个别显示L、C及R方向信号的音量的如图32那样的图像370，并显示该图像370。由与各方向的音量时时刻刻在变化，所以在特性信息的实时显示中进行图像370的显示。既可以将图像370以单体方式在显示部204中进行显示，也可以将图像370与图29(a)的图像350a同时进行显示。此外，也可以在录音再现装置200中预先设置好能由多种颜色发光的L方向用、C方向用及R方向用的LED(Light Emitting Diode；未图示)，并根据特性信息，通过使各LED的发光颜色发生变化，向用户报知各方向的音量。此时，由L特性信息的音量信息来决定L方向用的LED的发光颜色。对于C方向及R方向也同样。

虽然在图29(a)的图像350a中明示了各方向的音种，并在图32的图像370中明示了各方向的音量，但也可以与图像350a及/或图像370另行或者在图像350a及/或图像370上显示针对L、C及R特性信息的人声有无信息及说话者信息(参照图26)。不过，可认为人声有无信息，在图29(a)的图像350a中已经显示了。也可以在图29(a)的图像350a中重叠显示说话者信息。即，例如，在显示图29(a)的图像350a时，当在R特性信息中显示出作为R方向信号的音源的人的声音是第一登录人物时，也可以在图像350a上的区域图标352R内重叠表示第一登录人物的人名等。

虽然对用于向用户明示音量或音种等的图像结构进行了描述，但上述的图像的结构是示例，只要能够向用户通知各方向的特性信息，就可以将上述的图像的结构进行各种变形。而且，虽然对通过图像的显示或LED在视觉上向用户报知特性信息的方法(即，将显示部或LED作为报知部使用的方法)进行了说明，但只要能够向用户通知各方向的特性信息，特性信息的报知方法是任意的。

[与输入操作信息相应的再现音响信号的生成]接着，对与输入操作信息相应的再现音响信号的生成方法进行说明。用户在第1～第m方向(换言之，第1～第m到来方向)内，能够对操作部205进行指定1个以上并且m个以下的方向的方向指定操作。输入操作中至少包括方向指定操作。将由方向指定操作所指定的方向称为指定方向(或指定到来方向)。在本实施方式的示例中，m＝3，第1～第m方向，由L、C及R方向构成。例如，在显示图29(a)的图像350a时，用户能够通过触控面板操作来指定图像350a上人物图标361或区域图标352R，从而将R方向指定为指定方向，通过触控面板操作指定图像350a上的音乐图标362或区域图标352C，从而将C方向指定为指定方向(对于L方向也同样)。用户也能够通过触控面板操作以外的操作对指定方向进行指定。例如，在操作部205中设置了十字键(未图示)或操纵杆(joystick)等时，也可以使用它们对指定方向进行指定。

再现音响信号生成部213，虽然能够将记录音响信号或对象音响信号保持原样地作为再现音响信号来输出，但也能够通过对由L、C及R方向信号构成的对象音响信号实施与基于用户的输入操作相应的信号处理，来生成如下的再现音响信号。作为上述信号处理，对第1～第3信号处理进行例示。

-第一信号处理-对第一信号处理进行说明。在第一信号处理中，通过根据由L、C及R方向信号构成的对象音响信号，提取指定方向的信号成分，从而生成再现音响信号。第一信号处理，在指定方向的个数为(m-1)以下时(即，1或2时)，有利于发挥功能。

例如，当通过方向指定操作只指定C方向时，从L、C及R方向信号中仅选择C方向信号，生成C方向信号作为再现音响信号。仅指定L方向或R方向时也同样。此外，例如，由方向指定操作指定C和R方向时，从L、C及R方向信号中选择C及R方向信号，生成对C及R方向信号进行合成后的信号作为再现音响信号。此外，生成再现音响信号时的合成，如图33所示，是通过在共同的区间上将成为合成对象的多个音响信号进行相加来实现的。

若使用第一信号处理，则用户能够考虑到特性信息的显示内容来对所希望的方向进行指定，并且仅听到来自所希望的方向的声音。

-第二信号处理-对第二信号处理进行说明。在第二信号处理中，通过对由L、C及R方向信号构成的对象音响信号实施强调或衰减指定方向的信号成分的处理来生成再现音响信号。第二信号处理，在指定方向的个数是m以下时(即，1，2或3时)，有利于发挥功能。

例如，用户在指定了C方向作为指定方向的状态下，能够通过输入操作对C方向信号的放大或衰减进行指示。此时，放大的程度或衰减的程度也能够由输入操作自由地指示。所谓C方向信号的放大是指使C方向信号的信号电平增大，所谓C方向信号的衰减是指使C方向信号的信号电平衰减。理所当然，当进行了C方向信号的放大时，C方向的信号成分被强调，当进行了C方向信号的衰减时，C方向的信号成分被衰减。在接收到对C方向信号的放大或衰减进行指示的输入操作之后，再现音响信号生成部213，生成将从信号分离部211发送来的L方向信号及R方向信号与进行了放大或衰减的C方向信号进行合成后的信号作为再现音响信号。虽然对指定C方向作为指定方向时的再现音响信号的生成方法进行了说明，但对于指定L或R方向作为指定方向时也同样。

用户能够指定L、C及R方向内的两个或三个方向作为指定方向，并按照每个指定方向，通过输入操作对与指定方向对应的方向信号的放大或衰减进行指示。例如，一旦对操作部205进行了指示C方向信号的放大及R方向信号的衰减的输入操作，则在该输入操作后，再现音响信号生成部213生成将从信号分离部211发送来的L方向信号、进行了放大的C方向信号和进行了衰减的R方向信号进行合成后的信号作为再现音响信号。

当显示了对按各方向的音量信息进行表示的图32的图像370时，用户通过对显示画面上的与C方向对应的部位进行规定的触控面板操作，能够设定C方向作为指定方向，而且，也能够进行C方向信号的放大或衰减的指示和放大或衰减的程度的指示。当显示图29(a)的图像350a时，也能够通过触控面板操作，对信号的放大等进行指示。例如，当显示了图29(a)的图像350a时，如图34(a)所示，若将用户的手指放置在图标351与区域图标352C的边界部分，并一边在显示画面上滑动该手指，一边使该手指在区域图标352C内从图标351向远离方向移动，则指示C方向信号的放大来实现该放大。相反，如图34(b)所示，若用户进行了与上述手指的移动相反方向的手指移动，则指示C方向信号的衰减来实现该衰减。

若使用第二信号处理，则用户能够考虑到特性信息的显示内容，对所希望的方向进行指定，并在强调或衰减了来自所希望的方向的声音的状态下，听到记录音响。

-第三信号处理-对第三信号处理进行说明。在第三信号处理中，通过以所希望的混合比率对各方向的信号成分进行混合来生成再现音响信号。

第三信号处理可理解为与指定方向的个数是3个时的第二信号处理等效。用户能够按照每个方向信号，借助输入操作来指示使方向信号放大还是衰减、以及方向信号的放大的程度或衰减的程度。能够将该指示方法设为与第二信号处理的方法相同。

再现音响信号生成部213，根据该指示，通过对进行了放大或衰减的L、C及R方向信号进行合成来生成再现音响信号。但是，根据输入操作的内容，有时对L、C及R方向信号中的一个或两个方向信号不进行放大或衰减。

用户有时希望对来自特定音源的音响信号(例如，针对第一登录人物的音响信号，或具有最大音量或最小音量的音响信号)进行提取或强调后来听取，或有时想听以将所有方向的音量设置为平均音量的再现音响信号。若采用第1～第3信号处理，则能够实现这些愿望。

此外，当在音响信号处理装置202中预先记录了规定特性信息时，与输入操作无关，再现音响信号生成部213可根据规定特性信息及特性信息自动地选择指示方向，实施第一或第二信号处理。在规定特性信息中规定了音量信息、音种信息、人声有无信息及说话者信息中的任意一个以上的信息。然后，再现音响信号生成部213，当规定特性信息与L特性信息一致时，选择L方向作为指定方向，当规定特性信息与C特性信息一致时，选择C方向作为指定方向，当规定特性信息与R特性信息一致时，选择R方向作为指定方向。

用户能够借助操作部205预先设定好规定特性信息，并能够预先设定好针对由规定特性信息所选择的指定方向的方向信号，通过再现音响信号生成部213要进行什么样的信号处理。

例如，能够将音种是人的声音的音种信息作为规定特性信息而预先设定好。在此情况下，若在C特性信息中表示出C方向信号的音种是人的声音，则由于规定特性信息与C特性信息一致，所以在选择了C方向作为指定方向的基础上进行第一信号处理。即，生成C方向信号作为再现音响信号。或者，在选择了C方向作为指定方向的基础上进行第二信号处理。即例如，生成将从信号分离部211发送来的L方向信号及R方向信号、进行了放大或衰减的C方向信号进行合成后的信号作为再现音响信号。用户也能够预先设定放大或衰减的程度。规定特性信息与L或R特性信息一致时也同样。

[区域变更操作]此外，用户能够通过对操作部205的规定的操作(包括触控面板操作)，来变更与区域300L、300C及300R对应的方向和方向的宽度(参照图24)，根据该变更，与区域300L、300C及300R对应的声音的到来方向发生变化。特别地，将实现与区域300L、300C及300R相关的上述变更的操作称为区域变更操作。也可认为区域变更操作包含在输入操作中。

如图24所示，区域300L是夹于线段301及302之间的区域，所以通过使线段301及/或302以原点O为轴进行旋转，以使线段301及/或302与X轴形成的角度发生变化，从而能够改变与区域300L对应的声音的到来方向。对于区域300C及R也同样。即，用户能够通过借助区域变更操作，使线段301～304以原点O为轴进行旋转，从而自由地设定与区域300L、300C及300R对应的声音的到来方向。

作为区域变更操作的具体的操作方法，可采用如下的操作方法。可考虑在显示了图29(a)的图像350a的状态下，用户进行将区域300C放大，并伴随于此将区域300L及R的区域缩小的区域变更操作的情况。此时，首先，用户借助触控面板操作等来选择区域图标352C。由此，如图35(a)所示，三角形状的区域图标352C被强调显示。在选择了区域图标352C的状态下，用两个手指按压比区域图标352C及352L间的边界部分更位于区域图标352L一侧的点401和比区域图标352C及352R间的边界部分更位于区域图标352R一侧的点402。

基于手指的该区域变更操作的内容，被传递给图23的方向分离处理部222，且方向分离处理部222按照该区域变更操作，使图24的线段302及303以原点O为轴旋转。即，以使线段302成为以原点O为起点向与点401对应的方向延伸的线段的方式对线段302进行修正，并以使线段303成为以原点O为起点向与点402对应的方向延伸的线段的方式对线段303进行修正。通过修正该线段302及303，区域300C被放大修正，区域300L及R被缩小修正。而且，显示部204随着区域300L、C及R的修正，以按照该修正内容的方式，对显示画面上的区域图标352C进行放大修正，并对区域图标352L及R进行缩小修正。通过进行该修正，显示画面上的图像从图35(a)的图像350a变更为图35(b)的图像350a’。通过上述区域330C的放大修正，有时在修正前属于L方向信号的人的声音的音响信号，在修正后会变为属于C方向信号。此时，如图35(c)所示，在修正前显示于区域图标352R内的人物图标361在修正后会变为显示于区域图标352C内。

此外，当扬声器部203由多个扬声器构成时，用户能够通过对操作部205的规定操作，按照每个扬声器来指定再现声音的方向。例如，在扬声器部203由左扬声器及右扬声器构成的情况下，假设：当用户通过操作部205指定了要从左扬声器再现L方向的声音和要从右扬声器再现R方向的声音时，再现音响信号生成部213，根据该指定，选择L方向信号作为左扬声器用的再现音响信号，通过将此L方向信号发送给左扬声器，使L方向信号由左扬声器再现，并且选择R方向信号作为右扬声器用的再现音响信号，通过将此R方向信号发送给右扬声器，使R方向信号由右扬声器再现。此时，还能够通过进行区域变更操作，使来自左90°方向的声音由左扬声器再现，使来自右90°方向的声音由右扬声器再现。

此外，还能够由上述左扬声器使来自多个方向的声音再现。对于右扬声器也同样。例如，假设：当用户通过操作部205指定要由左扬声器再现L及C方向的声音时，再现音响信号生成部213根据该指定，选择L及C方向信号作为左扬声器用的再现音响信号，将L及C方向信号进行合成后的信号发送给左扬声器而由左扬声器再现。

[音源跟踪功能]录音再现装置200中具有音源跟踪功能，用户能够自由地设定音源跟踪功能是有效还是无效。参照图36，针对音源跟踪功能的工作进行说明。图36是表示音源跟踪功能有效时的录音再现装置200的再现工作步骤的流程图。

首先，在步骤S11中开始通常再现。所谓通常再现，是指不进行上述第1～第3信号处理，而将记录音响信号(即，将L、C及R方向信号单纯地进行了合成的信号)作为再现音响信号赋予扬声器部203来进行再现的工作。在步骤S11中的通常再现的开始之后，虽执行步骤S12以后的各处理，但与其并列地进行基于记录音响信号的再现音响信号的再现。

在通常再现的开始之后，在步骤S12中，再现音响信号生成部213检测是否有方向指定操作，并仅在有方向指定操作时，执行从步骤S12向步骤S13的转移。

在步骤S13中，再现音响信号生成部213，设定由方向指定操作所指定的指定方向作为选择方向，并将有方向指定操作的时刻的选择方向的特性信息记录在设置于录音再现装置200中的特性信息记录存储器(未图示)中。

由步骤S13进行了记录之后，在步骤S14中，再现音响信号生成部213，通过从对象音响信号中提取选择方向的方向信号，或者，通过强调选择方向的方向信号，来生成再现音响信号。即，在将选择方向设为指定方向的基础上，通过在由L、C及R方向信号形成的对象音响信号中实施上述第一或第二信号处理来生成再现音响信号。不过，虽在上述第二信号处理中进行指定方向的方向信号的强调或衰减，但在音源跟踪功能中设为进行强调。

以与步骤S14的再现并行执行的方式，再现音响信号生成部213，在步骤S15中，检查在选择方向的特性信息中是否产生了变化。即，将记录于特性信息记录存储器中的特性信息(以下，称为记录特性信息)与当前时刻的选择方向的特性信息进行对比。然后，当两者的特性信息中没有差异时，保持原样地继续进行步骤S14的再现，而当两者的特性信息有差异时，从步骤S15转移至步骤S16。

在步骤S16中，再现音响信号生成部213，将记录特性信息与当前时刻的L、C及R特性信息的每一个进行对比，并检查与记录特性信息一致的特性信息是否存在于L、C及R特性信息之中。当确认出其存在时，从步骤S16转移到步骤S17。在步骤S17中，再现音响信号生成部213，将与判断为与记录特性信息一致的特性信息对应的方向作为选择方向来进行再设定，并将再设定后的选择方向的特性信息在特性信息记录存储器中进行更新记录。即，由再设定后的选择方向的特性信息来置换记录特性信息。在步骤S17的处理之后，返回步骤S14，进行再设定后的选择方向的方向信号的提取或强调再现。

在步骤S16中，当与记录特性信息一致的特性信息不存在于L、C及R特性信息之中时，转移至步骤S18而重新开始通常再现。在由步骤S18正在进行通常再现的情况下，当判断为与记录特性信息一致的特性信息存在于L、C及R特性信息之中时，可经由步骤S17的处理，而返回步骤S14。此外，若当由步骤S18正在进行通常再现时进行了方向指定操作，则可返回步骤S13，进行步骤S13以后的处理。

假设了通过步骤S12的方向指定操作指定了R方向的情况，对步骤S12以后的处理内容的具体示例进行说明。此时，在步骤S13中，设定R方向作为选择方向，有了方向指定操作的时刻的R特性信息被记录于特性信息记录存储器中。接着，在步骤S14中，通过由L、C及R方向信号构成的对象音响信号来选择提取R方向信号，并生成R方向信号作为再现音响信号而由扬声器部203再现。或者，放大R方向信号，并生成将从信号分离部211发送来的L方向信号及C方向信号与进行了放大的R方向信号进行合成后的信号作为再现音响信号，由扬声器部203再现。放大的程度，可预先确定，也可以由用户进行指定。

除了假设当前时刻的选择方向是R方向，还假设在步骤S15及S16中所检查的特性信息的变化及一致性是音种信息中的变化及一致性，并且，在记录特性信息中所表示的声音的种类是人的声音，来对步骤S15及步骤S16的处理内容的具体示例进行说明。

在当前时刻的选择方向是R方向时，在步骤S15中，将记录特性信息与当前时刻的R特性信息进行对比。由于当前假设记录特性信息中所表示的声音的种类是人的声音，所以若当前时刻的R特性信息中所表示的声音的种类是人的声音，则由于与对比特性信息间没有差异(即，由于在选择方向的特性信息中没有变化)，所以从步骤S15返回步骤S14。另一方面，若当前时刻的R特性信息中所表示的声音的种类不是人的声音，则判断为在对比特性信息间存在差异(即判断为在选择方向的特性信息中有变化)，而从步骤S15转移至步骤S16。

在步骤S16中，将记录特性信息与当前时刻的L、C及R特性信息的每一个进行对比。假设在步骤S16中，L、C及R特性信息中所表示的声音的种类分别是“杂音”、“人的声音”及“杂音”时，判断为C特性信息与记录特性信息一致，接着在步骤S17中重新设定C方向作为选择方向，之后，对C方向信号进行提取或强调再现(步骤S14)。或者假设，在步骤S16中，L、C及R特性信息中所表示的声音的种类分别是“人的声音”、“杂音”及“杂音”时，判断为L特性信息与记录特性信息一致，接着在步骤S17中重新设定L方向作为选择方向，之后，对L方向信号进行提取或强调再现(步骤S14)。总之，以跟踪与“人的声音”的条件一致的音源的方式进行再现。而且，或者，在步骤S16中，L、C及R特性信息中所表示的声音的种类分别是“人的声音”、“人的声音”及“杂音”时，判断为L及C特性信息与记录特性信息一致，接着在步骤S17中重新设定L及C方向作为选择方向，之后，对L及C方向信号提取或强调再现(步骤S14)。但是，由于基本上音源是连续移动的，所以R方向的音源在下一瞬间位于L方向的区域的可能性比较小。因此，在步骤S16中，若L、C及R特性信息中所表示的声音的种类分别是“人的声音”、“人的声音”及“杂音”，则在接着的步骤S17中仅重新设定C方向作为选择方向。

接着，除了假设当前时刻的选择方向是R方向，还假设步骤S15及步骤S16中所检查的特性信息的变化及一致性是说话者信息中的变化及一致性，并且，在记录特性信息中所表示的说话者是第一登录人物，来对步骤S15及S16的处理内容的具体示例进行说明。

在当前时刻的选择方向是R方向时，在步骤S15中，将记录特性信息与当前时刻的R特性信息进行对比。由于当前假设记录特性信息中所表示的说话者是第一登录人物，所以若当前时刻的R特性信息中所表示的说话者是第一登录人物，则由于与对比特性信息间没有差异(即，由于在选择方向的特性信息中没有变化)，所以从步骤S15返回步骤S14。另一方面，若当前时刻的R特性信息中所表示的说话者不是第一登录人物，则判断为在对比特性信息间存在差异(即判断为在选择方向的特性信息中有变化)而从步骤S15转移至步骤S16。

在步骤S16中，将记录特性信息与当前时刻的L、C及R特性信息的每一个进行对比。假设在步骤S16中，L、C及R特性信息中所表示的说话者分别是“无说话者”、“第一登录人物”及“说话者不明”时，判断为C特性信息与记录特性信息一致，接着在步骤S17中重新设定C方向作为选择方向，之后，对C方向信号进行提取或强调再现(步骤S14)。此外，在特性信息中所表示的说话者是“无说话者”，意味着与该特性信息对应的方向信号中不包含人的声音。在特性信息中所表示的说话者是“说话者不明”，意味着虽与该特性信息对应的方向信号中包含人的声音，但不能检测出该声音的说话者。或者假设，在步骤S16中，L、C及R特性信息中所表示的说话者分别是“无说话者”、“说话者不明”及“无说话者”时，任一特性信息都不与记录特性信息一致。然而，此时，由于仅在与C特性信息对应的C方向信号中包含人的声音，所以认为在L、C及R特性信息中，C特性信息与记录特性信息最接近。在此，在步骤S16中，当C及R特性信息中所表示的说话者分别是“无说话者”、“说话者不明”及“无说话者”时，判断为C特性信息与记录特性信息近似一致(或者最近似)，接着在步骤S17中，可重新设定C方向作为选择方向。对于在L、C及R特性信息中所表示的说话者分别是“无说话者”、“说话者不明”及“第二登录人物”的情况也同样。

假设在步骤S15及S16中所检查的特性信息的变化及一致性是说话者信息中的变化及一致性的基础上，参照图37(a)及(b)来补充说明音源的跟踪示例。在图37(a)及(b)中，假设在记录音响信号的录音时的说话者中包括第一登录人物，且第一登录人物在录音中，从区域300R经过区域300C向区域300L进行了移动。

考虑如下情况，即通过步骤S12的方向指定操作设定R方向作为选择方向，并在进行了方向指定操作的时刻的R方向信号中包括第一登录人物的声音。此时，记录特性信息的说话者信息表示第一登录人物。在R特性信息的说话者信息中包括有第一登录人物的区间中，R方向是选择方向，接着对R方向信号进行提取或强调再现(步骤S14)。如果在之后访问的第一区间中，R特性信息的说话者信息中不包括第一登录人物，取而代之是C特性信息的说话者信息中包括第一登录人物，则通过步骤S15～S17的处理，重新设定C方向作为选择方向。在C特性信息的说话者信息中包括有第一登录人物的第一区间中，C方向成为选择方向，对C方向信号进行提取或强调再现(步骤S14)。而且，如果在此后访问的第二区间中，C特性信息的说话者信息中不包括第一登录人物，取而代之是L特性信息的说话者信息中包括第一登录人物，则通过步骤S15～S17的处理，重新设定L方向作为选择方向。在L特性信息的说话者信息中包括有第一登录人物的第二区间中，L方向成为选择方向，对L方向信号进行提取或强调再现(步骤S14)。

如此，在音源跟踪功能中，根据由第一区间的对象音响信号生成的第一区间中的L、C及R特性信息来决定第一区间的选择方向(选择到来方向)，并且，根据由第二区间的对象音响信号生成的第二区间的L、C及R特性信息来决定第二区间的选择方向(选择到来方向)。此时，第一及第二区间的选择方向被设定，以使成为跟踪对象的音源的信号成分的到来方向，即，具有特定的特性的声音(例如，种类是人的声音的声音，或说话者是第一登录人物的声音)的信号成分的到来方向共同包含于第一及第二区间中的选择方向中。

通过上述的音源跟踪功能，能够输出跟踪了具有特定特性的声音的再现声音。

虽然假设在步骤S15及S16中所检查的特性信息的变化及一致性是音种信息或说话者信息中的变化及一致性，对音源跟踪功能的具体工作进行了记述，但该具体的工作是示例而已。

此外，在音源跟踪功能的上述说明中，首先，由方向指定操作设定了选择方向，但当在音响信号处理装置202中预先记录了规定特性信息时，与方向指定操作无关，再现音响信号生成部213，可根据规定特性信息及特性信息自动地设定选择方向。如上所述，用户能够通过操作部205预先设定好规定特性信息。再现音响信号生成部213，当规定特性信息与R特性信息一致时，能够与方向指定操作无关地在步骤S13中设定R方向作为选择方向，并且将规定特性信息作为记录特性信息进行记录(对于C及L方向也同样)。

例如，能够将音种是人的声音的音种信息作为规定特性信息来预先设定好。此时，由于若C特性信息中表示C方向信号的音种是人的声音则C特性信息与规定特性信息一致，所以设定C方向作为选择方向，并且将该规定特性信息作为记录特性信息进行记录(步骤S13)。此后执行的步骤S14以后的处理如上所述。

此外，在上述的说明中，虽然在各个时刻作为选择方向而设定的方向是一个，但也可同时设定多个方向作为选择方向。即，在步骤S12中，指定了L及C方向时，分别将L及C方向设定为选择方向，而将进行了该指定的时刻的L及C特性信息记录为第一及第二记录特性信息，按照上述方法，可以对与各记录特性信息一致的方向信号进行提取或强调再现。

[应用技术]以下列举在录音再现装置200中可利用的应用技术。

在对指定方向或选择方向使用第一信号处理的情况下，即，在选择性地将指定方向或选择信号的方向信号再现为再现音响信号的情况下，当指定方向或选择信号的方向信号中存在无音区间时，也可以跳过该无音区间的再现，也可以使用公知的话速变换来进行快送再现。无音区间是指所关注的音响信号的信号电平在一定电平以下的区间。

在录音再现装置200具有作为摄像装置的功能的情况下，当在记录音响信号的录音前进行了静止图像或运动图像的拍摄而在记录介质201中记录了该静止图像或运动图像数据时，可以在记录音响信号的再现时，在显示部204中显示该静止图像或运动图像。该静止图像或运动图像，在记录音响信号的再现时，显示于图29(a)图像350a上或图32的图像370上，或者与图像350a及/或图像370并列显示。

可将按照用户的方向指定操作所生成的再现音响信号与记录音响信号相区别地记录于记录介质201中。

根据记录音响信号的记录条件，可以变更由音响信号处理装置202进行的信号处理的参数。例如，当以比较低的比特率记录了记录音响信号时(即，以比较高的压缩率来压缩了记录音响信号时)，由于记录音响信号中包含大的失真，所以难于实现本来要进行的理想的信号处理。因此，当以比较低的比特率记录了记录音响信号时，只要减弱指向性控制等即可。具体而言，例如，当以比较高的比特率记录了记录音响信号时，在上述第二信号处理中对L方向信号的信号电平放大了5倍，而在以比较低的比特率记录了记录音响信号时，对该信号电平的放大倍率减少到3倍。

当判断为第1～第3信号处理或音源跟踪功能难以有效地发挥作用时，可在再现之前，向用户提示该意思，由录音再现装置200向用户提问是否即使如此也使用第1～第3信号处理或音源跟踪功能。例如，当以比较低的比特率记录了记录音响信号时，判断为由于大的失真的影响，而使得第1～第3信号处理或音源跟踪功能难于有效地发挥作用。对于使用由指向性方向相互不同的多个指向性麦克风构成的麦克风部来生成记录音响信号的情况也同样。这是因为即使通过图22的信号分离部211，对由指向性麦克风所得到的具有指向性的音响信号进一步进行指向性控制，也难于得到所期待的效果。

当判断为第1～第3信号处理或音源跟踪功能未有效地发挥作用，而未能获取所期望的再现音响信号时(例如，未能按意图进行指向性控制，从记录音响信号中未生成出L、C及R方向信号时)，可中断实施第1～第3信号处理或音源跟踪功能，并使用显示部204等向用户提示该意思。

当从L方向信号的全区间、C方向信号的全区间、R方向信号的全区间之中分别提取出与规定特性信息一致的声音的发生区间，且提取区间有多个时，可按时序顺序个别地再现多个提取区间。例如，在设定了音种是人的声音的音种信息作为规定特性信息的情况下，如图38(a)所示，当L方向信号的区间451中的L特性信息、C方向信号的区间452中的C特性信息及R方向信号的区间453中的R特性信息分别与规定特性信息一致时，从全区间的L、C及R方向信号中提取出区间451中的L方向信号461、区间452中的C方向信号462及区间453中的R方向信号463。然后，可以按照发生时间顺序地排列所提取的信号来个别地进行再现。即，例如，若区间451的开始时刻早于区间452的开始时刻，并且区间452的开始时刻也早于区间453的开始时刻，则如图38(b)所示，可将信号461、462及463以该顺序结合后包含到再现音响信号中，并将信号461、462及463以该顺序个别地进行再现。若利用此方法，则能够在对三个人物在大致同时说话时的声音进行了录音时，个别地再现各人物的说话内容。

《第五实施方式》对本发明的第五实施方式进行说明。在第五实施方式中也对录音再现装置200的工作进行说明。但是，相对于在第四实施方式中假设了记录音响信号是基于麦克风1L及1R的检测信号的音响信号，而在第五实施方式中所不同的在于，记录音响信号的生成源的麦克风与麦克风1L及1R不同。以下，具体地进行说明。

在第五实施方式中，假设如以下那样获取第1～第n单位音响信号，并在记录介质201中作为记录音响信号，记录有包括第1～第n单位音响信号的音响信号。通过使用能以单体进行立体声收音的立体声麦克风来对来自各音源的声音进行个别地收音，从而直接地获取相互分离的第1～第n单位音响信号。或者，通过使用第1～第n指向性麦克风(具有指向性的麦克风)，将第1～第n指向性麦克风的灵敏度高的方向指向与第1～第n的音源对应的第1～第n方向来对来自各音源的声音进行个别地收音，从而以相互分离的形式直接地获取第1～第n单位音响信号。或者，当预先知道了第1～第n音源的位置时，可使用第1～第n无线麦克风，将第1～第n无线麦克风配置于第1～第n音源的位置，以使第i无线麦克风对第i音源的声音进行收音(i＝1、2、…(n-1)、n)。若如此，则通过第1～第n无线麦克风，以相互分离的形式直接地获取与第1～第n音源对应的第1～第n单位音响信号。

可以通过在录音再现装置200中预先设置好上述立体声麦克风、或第1～第n指向性麦克风、或第1～第n无线麦克风，从而在录音再现装置200中进行第1～第n单位音响信号的获取，也可以通过与录音再现装置200不同的录音装置进行第1～第n单位音响信号的获取，而在记录介质201中保存包括第1～第n单位音响信号的音响信号。

特别地，将设置于第五实施方式的录音再现装置200中的音响信号处理装置202称为音响信号处理装置202a。图39是包括音响信号处理装置202a的内部方框图的录音再现装置200的局部方框图。音响信号处理装置202a具有信号分离部211a、声音特性分析部212a，和再现音响信号生成部(信号处理部)213a。

在第五实施方式的假设下，如上述那样获取到的记录音响信号从记录介质201赋予信号分离部211a。信号分离部211a，从记录音响信号中对第1～第n单位音响信号进行分离提取，并将第1～第n单位音响信号输出给声音特性分析部212a及再现音响信号生成部213a。由于使用指向性麦克风等来生成了记录音响信号，所以该分离提取易于实现。

声音特性分析部212a，通过按照每个单位音响信号对单位音响信号进行分析，从而生成按照每个单位音响信号表示声音的特性的特性信息。即，声音特性分析部212a根据第i单位音响信号，分析由第i单位音响信号所表示的声音的特性来生成表示该声音的特性的第i特性信息(i是整数)。基于第i单位音响信号的第i特性信息，是与第四实施方式中所述的基于L方向信号的L特性信息相同的信息。因此，声音特性分析部212a能够在第i特性信息中包含音量信息、音种信息、人声有无信息及说话者信息之中的任一种以上的信息。在第i特性信息中，音量信息表示由第i单位音响信号所表示的声音的音量，音种信息表示由第i单位音响信号所表示的声音的种类，人声有无信息表示由第i单位音响信号所表示的声音中是否包括人的声音，说话者信息表示第i单位音响信号中所包含的人的声音的说话者。声音特性分析部212a的音响信号的分析法方法及特性信息的生成方法，与声音信息分析部212的相同。

由声音特性分析部212a所生成的各特性信息被显示在显示部204中。再现音响信号生成部213a，由第1～第n单位音响信号生成再现音响信号。该再现音响信号，发送给由一个或多个扬声器构成的扬声器部203，而后作为声音被再现。

用户能够对操作部205进行在第1～第n单位音响信号(换言之，第1～第n音源)之中指定一个以上且n个以下的单位音响信号的音源指定操作。对操作部205的输入操作中，至少包括音源指定操作。将由音源指定操作所指定的单位音响信号及音源称为指定单位信号及指定音源。

如上所述，n是2以上的任意整数，但在本实施方式中，假设n＝3。

显示部204，能够对第1～第3特性信息个别地进行切换显示，也能够同时显示第1～第3特性信息。作为能够在显示部204中进行显示的图像的示例，在图40中表示图像500。在图像500中，明示了针对第1～第3音源的(即，针对第1～第3单位音响信号的)音量信息、音种信息及说话者信息。可以将针对第1～第3音源的(即，针对第1～第3单位音响信号的)人声有无信息，代替图像500或者与图像500一起在显示部204中进行显示。在图40中，虽然以文字表示了各音源的音种，但也可以如实施方式四那样以表示音种的图标进行显示。对于说话者信息等也同样。与第四实施方式相同，在音响信号处理装置202a中，能够进行特性信息的实时显示，也能够进行特性信息的事前显示。而且，只要能够按照每个单位音响信号向用户报知特性信息，就能够对特性信息的报知方法进行各种变形。

用户能够通过触控面板操作，或对设置于操作部205的十字键(未图示)的操作，来进行音源指定操作。再现音响信号生成部213a，虽然能够将记录音响信号保持原样地作为再现音响信号来进行输出(即，能够将单纯地对第1～第3单位音响信号进行合成后的信号作为再现音响信号来输出)，但也能够通过对由第1～第3单位音响信号构成的记录音响信号实施与基于用户的输入操作相应的信号处理，来生成再现音响信号。能由再现音响信号生成部213a执行的上述信号处理，是在第四实施方式中所述的第1～第3信号处理中的任一个。

-第一信号处理-对基于再现音响信号生成部213a的第一信号处理进行说明。在第一信号处理中，通过根据由第1～第3单位音响信号构成的记录音响信号提取指定单位信号来生成再现音响信号。第一信号处理，当指定单位信号的个数在(n-1)以下时(即，1或2时)，有利于发挥功能。

例如，由音源指定操作仅指定了第一单位音响信号时，生成第一单位音响信号作为再现音响信号。仅指定了第二或第三单位音响信号时也同样。此外，例如，由音源指定操作指定了第一及第二单位音响信号时，生成对第一及第二单位音响信号进行合成后的信号作为再现音响信号。

若使用第一信号处理，则用户考虑到特性信息的显示内容，而仅能够听取来自希望的音源的声音。

-第二信号处理-对基于再现音响信号生成部213a的第二信号处理进行说明。在第二信号处理中，通过对由第1～第3单位音响信号构成的记录音响信号实施使指定单位信号强调或衰减的处理来生成再现音响信号。第二信号处理，当指定单位信号的个数在n以下时(即，1、2或3时)，有利于发挥功能。

例如，用户能够在指定了第一单位音响信号作为指定单位信号的状态下，通过输入操作来指示第一单位音响信号的放大或衰减。此时，放大的程度或衰减的程度也能够通过输入操作自由地进行指示。音响信号的放大与音响信号的强调是相同意思。在接收到指示第一单位音响信号的放大或衰减的输入操作之后，再现音响信号生成部213a，生成对由信号分离部211a发送来的第二及第三单位音响信号与进行了放大或衰减后的第一单位音响信号进行合成后的信号，作为再现音响信号。虽然对指定了第一单位音响信号作为指定单位信号时的再现音响信号的生成方法进行了说明，但指定了第二或第三单位音响信号作为指定单位信号时的再现音响信号的生成方法也同样。

用户能够指定第1～第3单位音响信号中的两个或三个单位音响信号作为指定单位信号，并按照每个指定单位信号，由输入操作指示指定单位信号的放大或衰减。例如，若对操作部205进行了指示第一单位音响信号的放大及第二单位音响信号的衰减的输入操作，则在该输入操作之后，再现音响信号生成部213a，生成对由信号分离部211a发送来的第三单位音响信号、放大后的第一单位音响信号和衰减后的第二单位音响信号进行合成后的信号，作为再现音响信号。

若使用第二信号处理，则用户考虑到特性信息的显示内容，而能够在强调或衰减来自所希望的音源的声音的状态下，听取记录音响。

-第三信号处理-对基于再现音响信号生成部213a的第三信号处理进行说明。在第三信号处理中，通过以希望的混合比率对各单位音响信号进行混合来生成再现音响信号。

第三信号处理可认为与指定单位信号的个数是3个时所实现的第二信号处理等效。用户能够按照每个指定单位信号，通过输入操作来指示使指定单位信号放大还是衰减，以及指定单位信号的放大的程度或衰减的程度。再现音响信号生成部213a，根据该指示，通过对进行了个别地放大或衰减的第1～第3单位音响信号进行合成来生成再现音响信号。但是，根据输入操作的内容，有时对第1～第3单位音响信号中的一个或两个单位音响信号未进行放大或衰减。

用户有时希望对来自特定音源的音响信号(例如，针对第一登录人物的音响信号，或具有最大音量或最小音量的音响信号)进行提取或强调后来听取，或有时想听取将来自所有音源的音量设置为平均音量的再现音响信号。若使用第1～第3信号处理，则能够实现这些愿望。

此外，当在音响信号处理装置202a中预先记录了规定特性信息时，与输入操作无关，再现音响信号生成部213a，能够根据规定特性信息及特性信息自动地选择指定单位信号，来实施第一或第二信号处理。在规定特性信息中，决定音量信息、音种信息、人声有无信息及说话者信息之中的任意一个以上的信息。然后，再现音响信号生成部213a，当规定特性信息与第i特性信息一致时，选择第i单位音响信号作为指定单位信号(其中，i是1、2或3)。

用户能够通过操作部205预先设定好规定特性信息，并能够对由规定特性信息所选择的指定单位信号，预先设定好由再现音响信号生成部213a要进行什么样的信号处理。

例如，能够将音种是人的声音的音种信息预先设定为规定特性信息。在该情况下，若在第一特性信息中表示了第一单位音响信号的音种是人的声音，则由于规定特性信息与第一特性信息一致，所以在选择第一单位音响信号作为指定单位信号的基础上进行第一信号处理。即，生成第一单位音响信号作为再现音响信号。或者，在选择第一单位音响信号作为指定单位信号的基础上进行第二信号处理。即，例如，生成对从信号分离部211a发送来的第二及第三单位音响信号与进行了放大或衰减的第一单位音响信号进行合成后的信号，作为再现音响信号。放大或衰减的程度，也能够由用户预先设定。当规定特性信息与第二或第三特性信息一致时也同样。

在本实施方式中除了上述的各技术，在第四实施方式中所述的任意的技术也能够适用于音响信号处理装置202a。此时，若第1～第3音源分别是图25的音源311、312及313，则在使第四实施方式中的L、C及R方向与第一、第二及第三音源的方向对应的基础上，将第四实施方式中所述的技术适用于音响信号处理装置202a即可。即，例如，若第1～第3音源分别是音源311～313，则在第五实施方式中分别将第四实施方式中的L、C及R方向改读为第一、第二及第三音源方向，并且，在第五实施方式中分别将第四实施方式中的L、C及R方向信号改读为第一、第二及第三单位音响信号，并且，在第五实施方式中分别将第四实施方式中的L、C及R特性信息改读为第一、第二及第三特性信息，并且，在第五实施方式中将第四实施方式中的方向指定操作改读为音源指定操作，并且，在第五实施方式中将第四实施方式中的指定方向改读为指定单位信号或指定音源的基础上，将第四实施方式中所述的技术适用于音响信号处理装置202a即可(在进行这些改读的基础上，第四实施方式中所述的事项，只要不矛盾，就适用于音响信号处理装置202a)。

《变形等》上述的说明文中所示的具体的数值，是单独的示例，当然，能够将它们变更为各种数值。作为上述实施方式的变形例或注释事项，以下，标记为注释1及注释2。在各注释中所记载的内容，只要不矛盾，就可进行任意的组合。

[注释1]在说明的简化及方便上，虽假设在二维的XY坐标面上分散有多个音源来进行了各实施方式的说明，但在三维空间分散有多个音源的情况也同样。

[注释2]由音响信号处理装置(10、202等)所实现的功能的全部或一部分，能够通过硬件、软件，或者硬件与软件的组合来实现。当使用软件来构成音响信号处理装置(10、202等)时，针对由软件所实现的部位的方框图，将表示该部位的功能方框图。可以将由音响信号处理装置(10、202等)所实现的功能的全部或一部分记述为程序，并通过在程序执行装置上执行该程序，来实现其功能的全部或一部分。

Claims

1.一种音响信号处理装置，具有：

信号输出部，其输出对象音响信号，所述对象音响信号是通过收音来自多个音源的声音而得到的；以及

音量控制部，其根据各音源的方向或位置及各音源的种类，对所述对象音响信号中的各音源的音量进行调整。

2.根据权利要求1所述的音响信号处理装置，其特征在于，

所述多个音源由第1～第n音源构成，且所述对象音响信号包括与所述第1～第n音源对应的相互分离的第1～第n单位音响信号，其中，n是2以上的整数，

所述第1～第n单位音响信号，通过从配置于彼此不同位置的多个麦克风的检测信号中提取，或者对来自所述第1～第n音源的声音个别地进行收音而获得。

3.根据权利要求2所述的音响信号处理装置，其特征在于，

所述第1～第n单位音响信号，从所述多个麦克风的检测信号中被提取，

所述信号输出部，由所述多个麦克风的检测信号生成并输出n个音响信号作为所述第1～第n单位音响信号，所述n个音响信号具有对从第1～第n方向到来的声音的信号成分进行强调后的指向性，

所述音量控制部，根据对所述第1～第n音源的方向进行表示的所述第1～第n方向和各音源的种类，来调整所述对象音响信号中的各音源的音量。

4.根据权利要求2所述的音响信号处理装置，其特征在于，

所述第1～第n单位音响信号，是通过对来自所述第1～第n音源的声音个别地进行收音而得到的，

各音源的方向或位置，是根据用于对来自所述第1～第n音源的声音个别地进行收音的各麦克风的指向性或设置位置来确定的。

5.根据权利要求2所述的音响信号处理装置，其特征在于，还具有：

音源种类检测部，其基于各单位音响信号来判断各单位音响信号的音源的种类；和

音量检测部，其检测各单位音响信号的信号电平，

所述音量控制部，通过根据各音源的方向或位置、由所述音源种类检测部所判断出的各音源的种类、由所述音量检测部所检测出的信号电平来个别地调整各单位音响信号的信号电平，从而调整所述对象音响信号中的各音源的音量。

6.根据权利要求5所述的音响信号处理装置，其特征在于，

在所述音量控制部中，各单位音响信号的频带被分割为多个子频带，并按照每个子频带个别地调整各单位音响信号的信号电平。

7.一种设备，其具有权利要求1所述的音响信号处理装置，并记录或再现输出音响信号，所述输出音响信号是基于由所述音响信号处理装置的音量控制部进行音量调整后的对象音响信号、或该音量调整后的对象音响信号的音响信号。

8.根据权利要求7所述的设备，其特征在于，具有：

录音装置，其进行所述输出音响信号的记录；

再现装置，其进行所述输出音响信号的再现；或

摄像装置，其将所述输出音响信号与拍摄图像的图像信号一同进行记录或再现。

9.一种再现装置，将基于输入音响信号的输出音响信号再现为声音，所述输入音响信号通过对来自多个音源的声音进行收音而获得，

所述再现装置的特征在于，具有：

声音特性分析部，其通过按照每个声音的到来方向对所述输入音响信号进行分析，来生成按照每个所述到来方向来表示声音的特性的特性信息；

报知部，其向该再现装置的外部报知所述特性信息；

操作接收部，其从外部接收包括方向指定操作的输入操作，所述方向指定操作对作为声音的到来方向而存在的彼此不同的第1～第m到来方向中的任意一个以上的到来方向进行指定，其中，m是2以上的整数；以及

信号处理部，其通过对所述输入音响信号实施与所述输入操作相应的信号处理，来生成所述输出音响信号。

10.根据权利要求9所述的再现装置，其特征在于，

所述信号处理部，通过从所述输入音响信号中提取来自由所述输入操作所指定的到来方向的信号成分，来生成所述输出音响信号；或

通过对所述输入音响信号实施使由所述输入操作所指定的到来方向的信号成分强调或衰减的信号处理，来生成所述输出音响信号；或

通过根据所述输入操作对由所述输入音响信号所包含的各到来方向的信号成分进行混合，来生成所述输出音响信号。

11.根据权利要求9所述的再现装置，其特征在于，

各特性信息包括以下信息中的任意一个以上的信息：

音量信息，其表示声音的音量；

音种信息，其表示声音的种类；

人声有无信息，其表示声音中是否含有人的声音；以及

说话者信息，其表示声音是人的声音时的说话者。

12.一种再现装置，将基于输入音响信号的输出音响信号再现为声音，所述输入音响信号通过对来自多个音源的声音进行收音而获得，

所述再现装置的特征在于，具有：

声音特性分析部，其通过按照每个声音的到来方向对所述输入音响信号进行分析，来生成按照每个所述到来方向来表示声音的特性的特性信息；以及

信号处理部，其通过对作为声音的到来方向而存在的相互不同的第1～第m到来方向中的任意一个以上的到来方向进行选择，并对所述输入音响信号实施从所述输入音响信号中提取来自选择到来方向的信号成分的信号处理、或强调来自选择到来方向的信号成分的信号处理，来生成所述输出音响信号，其中，m是2以上的整数，

所述信号处理部根据所述特性信息来切换所选择的到来方向。

13.根据权利要求12所述的再现装置，其特征在于，

所述输入音响信号的全区间包括相互不同的第一及第二区间，

所述信号处理部，根据所述第一及第二区间中的所述输入音响信号的特性信息来决定所述第一及第二区间中的选择到来方向，以使具有特定的特性的声音的信号成分的到来方向与所述第一及第二区间中的选择到来方向共同地被包含。

14.根据权利要求12所述的再现装置，其特征在于，

各特性信息包括以下信息中的任意一个以上的信息：

音量信息，其表示声音的音量；

音种信息，其表示声音的种类；

人声有无信息，其表示声音中是否含有人的声音；以及

说话者信息，其表示声音是人的声音时的说话者。

15.一种再现装置，由输入音响信号生成输出音响信号，并将该输出音响信号再现为声音，所述输入音响信号包括通过对来自多个音源的声音个别地进行收音而获得的多个单位音响信号，

所述再现装置的特征在于，具有：

声音特性分析部，其对各单位音响信号进行分析，来生成按照每个所述单位音响信号来表示声音的特性的特性信息；

报知部，其向该再现装置的外部报知所述特性信息；

操作接收部，其从外部接收包括指定操作的输入操作，所述指定操作对所述多个单位音响信号中的任意一个以上的单位音响信号进行指定，其中，m是2以上的整数；以及

16.根据权利要求15所述的再现装置，其特征在于，

所述信号处理部，通过从所述输入音响信号中提取由所述输入操作所指定的单位音响信号，来生成所述输出音响信号；或

通过对所述输入音响信号实施使由所述输入操作所指定的单位音响信号强调或衰减的信号处理，来生成所述输出音响信号；或

通过根据所述输入操作对来自所述输入音响信号中所包括的各单位音响信号的信号成分进行混合，来生成所述输出音响信号。

17.根据权利要求15所述的再现装置，其特征在于，

各特性信息包括以下信息之中的任意一个以上的信息：

音量信息，其表示声音的音量；

音种信息，其表示声音的种类；

人声有无信息，其表示声音中是否含有人的声音；以及

说话者信息，其表示声音是人的声音时的说话者。