CN113574596A

CN113574596A - 音频信号编码方法、音频信号解码方法、程序、编码装置、音频系统及解码装置

Info

Publication number: CN113574596A
Application number: CN202080015479.XA
Authority: CN
Inventors: 西口正之; 加藤巧大
Original assignee: Akita Prefectural University
Current assignee: Akita Prefectural University
Priority date: 2019-02-19
Filing date: 2020-02-18
Publication date: 2021-10-29
Anticipated expiration: 2040-02-18
Also published as: EP3929918A1; WO2020171049A1; JPWO2020171049A1; EP3929918A4; JP7232546B2; US20230136085A1

Abstract

本发明提供即使是声道数较多的音频信号也能够以充分的比特率进行编码的音频信号编码方法。该音频信号编码方法由编码装置1执行，对多个声道的音频信号进行编码。首先，计算对应于听觉的空间上的掩蔽效应的掩蔽阈值。然后，利用计算出的掩蔽阈值，对多个声道的音频信号决定分配给各声道的信息量。在此基础上，对多个声道的音频信号以各自被分配的信息量进行编码。由此，即使是多个声道的音频信号，也能够以充分的比特率进行编码。

Description

音频信号编码方法、音频信号解码方法、程序、编码装置、音频系统及解码装置

技术领域

本发明特别涉及音频信号编码方法、音频信号解码方法、程序、编码装置、音频系统及解码装置。

背景技术

以往，在音频信号(audio信号)的编码中，存在以下的音频编码技术：基于在时间轴或频率轴自适应地分配输入到多个声道的音频信号的每个声道的量化中的位数的位分配(Bit allocation)的音频编码技术。

近年来，标准使用的MPEG-2AAC、MPEG-4AAC、MP3等音频信号的编码中，在该位分配中，利用了频率轴上的听觉的掩蔽效应。

该听觉上的掩蔽效应是指某个声音由于其他声音的存在而难以听到的效应。

专利文献1中记载了一例利用了听觉的掩蔽效应的音频信号编码的技术。专利文献1的技术中，为了利用听觉的掩蔽效应，计算掩蔽效应的位分配的阈值(以下，称为“掩蔽阈值”。)。

现有技术文献

专利文献

专利文献1：日本特开5-248972号公报。

非专利文献1：Andreas Spanias等著“Audio Sigal Processing and Coding(音频信号处理和编码)”，美国Wiley-Interscience，John Wiley&Sons公司，2007年。

发明内容

发明要解决的问题

但是，以往的掩蔽阈值的计算中，没有考虑多个声道彼此的空间上的关系，因此，存在对于声道数较多的音频信号比特率(带宽)有可能不足的问题。

本发明是鉴于这样的情况完成的，其目的在于消除上述的问题。

解决问题的方案

本发明的音频信号编码方法是由编码装置执行的对多个声道的音频信号进行编码的音频信号编码方法，其特征在于，计算与听觉的空间上的掩蔽效应对应的掩蔽阈值，利用计算出的所述掩蔽阈值决定分配给各所述声道的信息量，对多个所述声道的音频信号以各自被分配的所述信息量进行编码。

本发明的程序是由编码装置执行的对多个声道的音频信号进行编码的程序，其特征在于，使所述编码装置计算与听觉的空间上的掩蔽效应对应的掩蔽阈值，使所述编码装置利用计算出的所述掩蔽阈值，决定分配给各所述声道的信息量，使所述编码装置对多个所述声道的音频信号以各自被分配的所述信息量进行编码。

本发明的编码装置是对多个声道的音频信号和/或声源对象以及该声源对象的位置信息进行编码的编码装置，其特征在于，具备：掩蔽阈值计算部，计算与听觉的空间上的掩蔽效应对应的掩蔽阈值；信息量决定部，利用由所述掩蔽阈值计算部计算出的所述掩蔽阈值，决定分配给各所述声道和/或所述声源对象的信息量；以及编码部，对多个所述声道的音频信号、和/或所述声源对象以及所述声源对象的位置信息以各自被分配的所述信息量进行编码。

本发明的音频系统具备所述编码装置和解码装置，该音频系统的特征在于，所述解码装置具备：方向计算部，计算收听人所朝向的方向；发送部，将由所述方向计算部计算出的所述方向向所述编码装置发送；以及解码部，将由所述编码装置编码的多个所述声道的音频信号和/或所述声源对象解码为语音信号，所述编码装置的所述掩蔽阈值计算部对应于基于相对于所述收听人的位置和所述方向的、各所述声道间和/或各所述声源对象间的空间上的距离和/或方向的所述空间上的掩蔽效应，计算所述掩蔽阈值。

本发明的解码装置的特征在于，具备：信号获得部，获得利用与听觉的空间上的掩蔽效应对应的掩蔽阈值决定分配给各声道和/或声源对象的信息量，并对多个所述声道的音频信号、和/或所述声源对象以及所述声源对象的位置信息以各自被分配的所述信息量进行了编码的信号；以及解码部，从由所述信号获得部获得的信号，将编码后的多个所述声道的音频信号和/或所述声源对象解码为语音信号。

发明效果

根据本发明，可以提供以下音频信号编码方法：计算与听觉的空间上的掩蔽效应对应的掩蔽阈值，利用计算出的掩蔽阈值，对多个声道的音频信号决定分配给各所述声道的信息量，以被分配的信息量进行编码，从而即使是声道数较多的音频信号也能够以充分的比特率进行编码的音频信号编码方法。

附图说明

图1是本发明的实施方式的音频系统的系统结构图。

图2是本发明的实施方式的音频编码解码处理的流程图。

图3是图2所示的音频编码解码处理的概念图。

图4是图2所示的音频编码解码处理的概念图。

图5是表示本发明的实施例的收听实验的测定系统的概念图。

图6是表示本发明的实施例的收听实验中的阈值查找的概念图。

图7是本发明的实施例的收听实验中的回答画面的画面例。

图8是将本发明的实施例的掩蔽音的方位为0°时的掩蔽阈值的峰值以横轴为被掩蔽音的方位而绘出的图表。

图9是将本发明的实施例的掩蔽音的方位为45°时的掩蔽阈值的峰值以横轴为被掩蔽音的方位而绘出的图表。

图10是将本发明的实施例的掩蔽音的方位为90°时的掩蔽阈值的峰值以横轴为被掩蔽音的方位而绘出的图表。

图11是将本发明的实施例的掩蔽音的方位为135°时的掩蔽阈值的峰值以横轴为被掩蔽音的方位而绘出的图表。

具体实施方式

<实施方式>

〔音频系统X的控制结构〕

首先，参照图1对本发明的实施方式的音频系统X的控制结构进行说明。

音频系统X是能够获得多个声道的音频信号，利用编码装置1进行编码并传输，利用解码装置2进行解码并播放的系统。

编码装置1是对音频信号进行编码的装置。本实施方式中，编码装置1例如是PC(Personal Computer，个人电脑)、服务器、安装于这些中的编码器板、专用的编码器等。本实施方式的编码装置1对多个声道的音频信号、和/或声源对象以及该声源对象的位置信息进行编码。例如，编码装置1与MPEG-2AAC、MPEG-4AAC、MP3、Dolby(注册商标)Digital(杜比数字)、DTS(注册商标)等音频编码的方式对应，进行关于2声道、5.1声道、7.1声道、22.2声道等多个声道的音频信号的编码。

解码装置2是对由解码装置2编码的音频信号进行解码的装置。本实施方式中，解码装置2例如是VR(Virtual Reality，虚拟现实)或AR(Augmented Reality，增强现实)用的HMD(Head-Mounted Display，头盔式显示器)、智能手机(Smart Phone)、游戏机、家庭电视、无线头戴耳机、虚拟多声道头戴耳机、电影院和公众观看场所的设备、专用解码器及头部追踪传感器等。解码装置2将由编码装置1编码的通过有线或无线传输的音频信号进行解码并播放。

音频系统X构成为主要包含麦克风阵列10、集音部20、频域转换部30、掩蔽阈值计算部40、信息量决定部50、编码部60、方向计算部70、发送部80、解码部90、立体音频播放部100及头戴耳机110。

其中，频域转换部30、掩蔽阈值计算部40、信息量决定部50及编码部60作为本实施方式的编码装置1(发送侧)发挥功能。

方向计算部70、发送部80、解码部90、立体音频播放部100及头戴耳机110作为本实施方式的解码装置2(接收侧)发挥功能。

麦克风阵列10对各种各样的声音存在于各种各样的地点那样的空间即声音空间的语音进行拾取。具体地，例如，麦克风阵列10获得360°的多个方向的声波。此时，通过波束成形处理控制指向性并使波束朝向各方向，由此能够进行声音空间的空间采样，获得多声道的语音波束信号。具体地，本实施方式的波束成形中，通过滤波器控制到达麦克风阵列10的各麦克风的声波的相位差，加强到达各麦克风的方向的信号。在这基础上，作为空间采样，在空间上将声场切分，并保持包含空间上的信息不变，通过多声道进行集音。

集音部20是汇集多个声道的语音并作为音频信号向编码装置1发送的混频器等设备。

频域转换部30将通过空间采样得到的按方向不同的语音波束信号剪切为数微秒～数十毫秒左右的窗(帧)，通过DFT(discrete Fourier transformation，离散傅里叶变换)或MDCT(Modified Discrete Cosine Transform，修正的离散余弦变换)等从时域变换为频域。例如优选，该帧是以采样频率48kHz，且量化位数16位，使用约2048个采样。频域转换部30将该帧作为各声道的音频信号输出。即，本实施方式的音频信号是频域的信号。

掩蔽阈值计算部40根据由频域转换部30转换后的各声道的音频信号计算与听觉的空间上的掩蔽效应对应的掩蔽阈值。这时，掩蔽阈值计算部40适用考虑了空间上的掩蔽效应的模型，在此基础上计算频域中的掩蔽阈值。例如能够通过非专利文献1中记载的方式实现该频域中的掩蔽阈值的计算自身。

或者，掩蔽阈值计算部40也能够获得声源对象，同样地计算出与听觉的空间上的掩蔽效应对应的掩蔽阈值。该声源对象表示从空间上不同的位置产生的多个音频信号的每个。该声源对象例如是带有位置信息的音频信号。其例如也可以是将录音乐队的各乐器那样的麦克风的输出信号、游戏等中使用的采样得到的语音信号等转换为频域的音频信号而得到的。

进而，掩蔽阈值计算部40也能够获得暂时集音并保存在闪存、HDD、光学记录介质等记录介质中的音频信号，进行转换后，计算频率掩蔽。

具体地，作为上述的空间上的掩蔽效应的模型，掩蔽阈值计算部40也能够对应于基于相对于收听人的位置方向信息的、各声道间和/或各声源对象间的空间上的距离和/或方向的空间上的掩蔽效应，计算掩蔽阈值。

或者，掩蔽阈值计算部40也可以对应于基于各声道间和/或各声源对象间的空间上的距离和/或方向的空间上的掩蔽效应，计算掩蔽阈值。

更具体地，掩蔽阈值计算部40也可以对应于声道和/或声源对象间的空间上的距离和/或方向越接近则相互带来的影响越大，而越远离则相互带来的影响越小那样的空间上的掩蔽效应，计算掩蔽阈值。

此外，掩蔽阈值计算部40也可以关于从收听人来看位于前后对称的位置的声道和/或声源对象，对应于使声源对象间的关于空间上的距离和/或方向的相互带来的影响的程度变化那样的空间上的掩蔽效应，计算掩蔽阈值。

进而，掩蔽阈值计算部40也可以关于从收听人来看位于后方的位置的声道和/或声源对象，对应于在属于前后对称的位置的前方存在该声道和/或该对象那样的空间上的掩蔽效应，计算掩蔽阈值。

具体地，掩蔽阈值计算部40在计算掩蔽阈值时，也可以利用以下的式(1)进行调整。

T＝β{max(y1，αy2)-1}

y1＝f(x-θ)

y2＝f(180-x-θ)……式(1)

其中，T表示为了计算所述掩蔽阈值而与各声道信号的频域上的掩蔽阈值相乘的权重，θ表示掩蔽音的方位，α表示由掩蔽音的频率控制的常数，β表示对应于掩蔽音的信号是音调性信号还是噪音性信号而被控制的常数，x表示求出的方向或被掩蔽音的方位。

更具体的进行说明，本实施方式中，将妨碍听见的声音称为“掩蔽音”，将听见被妨碍的声音称为“被掩蔽音”。max是返回参数中的最大值的函数。关于常数，在掩蔽音为400Hz的情况下能够使用α＝1那样的值，在掩蔽音为1kHz的情况下能够使用α＝0.8那样的值。在掩蔽音是噪音性的情况下，可以使用β＝11～14左右的值，在是纯音(音调性)的情况下，可以使用3～5左右的值。即，在掩蔽音是音调性的情况下，不管x的值如何，针对全部的θ，T是平坦的。

对于该式(1)的f(x)，例如可以使用下述的式(2)所示的三角波那样的线性函数。

其中，x能够使用求出的方位、或被掩蔽音的方位。该方位对应于麦克风的波束成形的方向、声源对象的方向等。

此外，作为f(x)，也能够使用f(x)＝cos(x)那样的式。进而，作为f(x)，除此以外，例如也可以使用根据实际的掩蔽音、被掩蔽音的实验结果计算出的函数等。

掩蔽阈值计算部40也可以对应于根据各声道和/或声源对象的信号是音调性信号还是噪音性信号而使各声道和/或声源对象的信号相互带来的影响的程度变化的空间上的掩蔽效应，计算掩蔽阈值。

信息量决定部50利用由掩蔽阈值计算部40计算出的掩蔽阈值，决定对声源对象分配的信息量。本实施方式中，作为该信息量，进行基于掩蔽阈值的各音频信号的位分配。作为该位分配，信息量决定部50可以利用感知熵Perceptual Entropy(以下，称为“PE”。)，对应于由掩蔽阈值计算部40计算出的掩蔽阈值，计算每一个采样的平均位数。

编码部60将多个声道的音频信号、和/或声源对象以及声源对象的位置信息以各自被分配的信息量进行编码。本实施方式中，编码部60基于由信息量决定部50分配的位数对各音频信号进行量化，并向传输路径发送。该传输路径例如能够使用Bluetooth(蓝牙，注册商标)、HDMI(注册商标)、WiFi、USB(Universal Serial Bus，通用串行总线)、其他有线或无线的信息传输手段。更具体地，能够通过借助互联网或WiFi等网络的点对点(Peer toPeer)通信进行传输。

方向计算部70计算收听人所朝向的方向。方向计算部70例如包括：能够进行头部追踪的加速度传感器、陀螺仪传感器、地磁传感器等；以及将它们的输出转换为方向信息的电路。

在此基础上，方向计算部70能够计算出位置方向信息，该位置方向信息是对计算出的方向信息加上位置信息而得到的信息，该位置信息考虑了相对于收听人的关于声源对象或多个声道的音频信号的位置的关系。

发送部80将由方向计算部70计算出的位置方向信息向编码装置1发送。发送部80例如能够通过与音频信号的传输路径同样的有线或无线的传输，将位置方向信息以掩蔽阈值计算部40能够接收的方式发送出。

解码部90将由编码装置1编码后的多个声道的音频信号和/或声源对象解码为语音信号。解码部90例如首先将从传输路径接收到的信号进行逆量化。接着，通过IDFT(Inverse Discrete Fourier Transform，逆离散傅里叶变换，离散傅里叶逆变换)、IMDCT(Inverse Modified Discrete Cosine Transform，反离散余弦变换)等，将频域的信号返回到时域，变换为各声道的语音信号。

立体音频播放部100将由解码部90解码后的语音信号转换为对收听人播放立体音频那样的立体音频信号。具体地，立体音频播放部100将返回到时域的按方向不同的波束信号看做从位于其方向的声源发出的信号，分别将波束方向的HRTF(Head-Related TransferFunction，头部相关传递函数)与之卷积。HRTF是将由于包括耳郭、人头及肩膀的周边物而产生的声音的变化表达为传递函数而得到的。

接着，对进行了HRTF卷积后的信号进行按波束方向不同的加权来进行加法计算，由此生成对收听人呈现的2声道的双耳信号。其中，按波束方向不同的加权是，进行使得作为L信号及R信号的双耳信号更接近想要再现的声音空间中的双耳信号那样的加权的处理。具体地，通过对存在于某个声音空间的各声源分别使声源方向的HRTF与之卷积进行加法计算，来生成双耳信号。以该双耳信号为目标信号，以使作为输出而得到的双耳信号与目标信号相等的方式，对输出信号进行附加权重的处理。

立体音频播放部100能够除了上述的掩蔽阈值外利用由方向计算部70计算出的位置方向信息来更新HRTF，播放立体音频。

头戴耳机110是收听人播放被解码并被立体声化的音频的设备。头戴耳机110具备D/A转换器、放大器(Amplifier)、电磁驱动器、用户佩带的耳套等。

此外，编码装置1及解码装置2例如包含ASIC(Application Specific Processor，面向特定用途处理器)、DSP(Digital Signal Processor，数字信号处理器)、CPU(CentralProcessing Unit，中央处理装置)、MPU(Micro Processing Unit，微处理单元)、GPU(Graphics Processing Unit，可编程图形单元)等作为控制运算单元的控制部，作为各种电路。

另外，编码装置1及解码装置2包含ROM(Read Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)等半导体存储器、HDD(Hard Disk Drive，硬盘驱动器)等作为磁记录介质、光记录介质等的存储部，作为存储单元。该存储部中保存有用于实现本发明的实施方式的各方法的控制程序。

进而，编码装置1及解码装置2也可以包含液晶显示器、有机EL显示器等显示单元、键盘或鼠标、触摸面板等指示设备等输入单元、LAN板、无线LAN板、串行、并行、USB(Universal Serial Bus)等接口。

另外，编码装置1及解码装置2能够使用主要在存储单元中保存的各种程序并由控制部执行，来使用硬件资源来实现本发明的实施方式涉及的各方法。

此外，也可以通过IC、可编程逻辑或FPGA(Field-Programmable Gate Array，现场可编程门阵列)等在硬件上、电路上构成上述结构的一部分或任意的组合。

〔音频系统X的音频编码解码处理〕

接着，参照图2及图3，对本发明的实施方式的音频系统X的音频信号编码解码处理进行说明。

对于本实施方式的音频信号编码解码处理，主要在编码装置1及解码装置2中，分别地由控制部与各部协作使用硬件资源进行控制来执行保存在存储部的控制程序，或通过各电路直接执行。

下面，参照图2的流程图按每个步骤对音频信号编码解码处理详细地进行说明。

(步骤S101)

首先，编码装置1的频域转换部30进行语音数据获得处理。

在此，声音采集人来到体育场等使用麦克风阵列10进行拾音。由此，获得以麦克风阵列10为中心的各方向(θ)的语音信号。这时，在拾音侧，基于“空间采样”的想法进行拾音。空间采样是将声场在空间上进行切分通过多声道进行拾音。本实施方式中，例如，对应于多个声道对将左右0°～360°分段后的特定步长的语音信号进行拾音。此外，关于上下方向的0°～360°，也能够分段为特定步长进行拾音。

频域转换部30将这些被采集到的语音数据等剪切，通过DFT、MDCT等从时域转换为频域的信号，作为音频信号保存在存储部。

(步骤S201)

在此，解码装置2的方向计算部70进行方向计算处理。

方向计算部70计算收听人所朝向的方向信息、和针对音频数据的位置信息。

(步骤S202)

接着，发送部80进行方向发送处理。

发送部80将由方向计算部70计算出的位置方向信息向编码装置1发送。

(步骤S102)

在此，编码装置1的掩蔽阈值计算部40进行掩蔽阈值计算处理。本实施方式中，在频域计算掩蔽阈值T，进而计算出后述的空间上的掩蔽的掩蔽阈值，并决定位分配。因此，掩蔽阈值计算部40首先计算频带中的掩蔽阈值T。

利用图3的(a)，对听觉上的掩蔽效应进行说明。听觉上的掩蔽效应是某个声音由于其他声音的存在而变得难以听见的效应。以下，将妨碍听见的声音称为“掩蔽音”，将听见被妨碍的声音称为“被掩蔽音”。

掩蔽效应大致分为频率掩蔽(同时掩蔽)和时间掩蔽(继时掩蔽)。频率掩蔽是在掩蔽音与被掩蔽音在时间上重叠的情况下产生的掩蔽，时间掩蔽是在时间上分离的情况下产生的掩蔽。

在图3的(a)的图表中，横轴是频率，纵轴是信号的能量。即，图3的(a)是在将某个信号中包含的某1条频谱(纯音)作为掩蔽音时，被该掩蔽音掩蔽的频谱(被掩蔽音)的范围及阈值的例的图表。这样，即使关于不存在信号成分的掩蔽音的频率附近，被掩蔽音的阈值也上升。另外，阈值上升的频率范围相对于掩蔽音的频率不对称，相对于掩蔽音，如果被掩蔽音的频率高，则与较低频率的声音相比容易被掩蔽。因此，听觉上，掩蔽音会产生不只具有掩蔽音的频率成分，还具有向其两侧扩展的成分那样的情况。

利用图3的(b)示出编码中的频率掩蔽应用的概念。在该图表中，横轴是频率，纵轴是信号的能量。较粗的黑曲线表示信号的频谱。另外，灰色的曲线表示掩蔽阈值。在此，在图3的(b)中，被涂抹的范围是通过频率掩蔽被掩蔽而不能感知的部分。这时，图3的(b)中，实际上对声音的感知有贡献的部分是夹在表示信号的频谱的曲线与表示掩蔽阈值的曲线之间的部分。另外，如图3的(b)中的高域所示，信号频谱的能量比掩蔽阈值小的频率不对声音的感知有贡献。也就是，即使只分配与从信号频谱的能量减去掩蔽阈值后的能量相应的位，也能够以在听觉上感觉不到劣化的状态传输信号。这样，通过使用频域中的掩蔽效应，能够保持听觉上的质量不变地削减传输所需的位数。

此外，图3的(b)那样的表示涉及整个频带的掩蔽阈值的曲线是，使用与单一的频谱或杂音有关的掩蔽的知识，计算与各频率成分有关的掩蔽阈值，并将它们综合而得到的。

在此，对该频带中的掩蔽阈值T的详细的计算方法进行说明。

掩蔽阈值计算部40例如将掩蔽阈值计算式(Spreading Function，以下称为“SF”。)与专利文献1记载的那样的Bark频谱卷积。然后，掩蔽阈值计算部40使用频谱平滑度(Spectral Flatness measure，SFM)及调整因数计算扩展(Spread)掩蔽阈值T_spread。在此基础上，掩蔽阈值计算部40通过利用反卷积将Spread掩蔽阈值T_spread返回到Bark频谱的区域，来计算暂时阈值T。在此基础上，本实施方式中，掩蔽阈值计算部40将暂时阈值T除以属于各Bark刻度的DFT频谱的条数，并与绝对阈值比较，由此，将暂时阈值T转换为频率掩蔽的最终的阈值T_final。

更具体地进行说明，作为掩蔽阈值计算部40用以与暂时阈值T比较的绝对阈值，利用下述式(3)计算频率f(Hz)中的绝对阈值的近似式T_qf[dBSPL]。

T_qf＝3.64(f/1000)^-0.8-6.5exp{-0.6(f/1000-3.3)²}+10^-3(f/1000)⁴+O_LSB……式(3)

其中，在式(3)中被相加的O_LSB是使得频率4kHz时的绝对阈值T^q4000＝min(T_qf)与频率4kHz/振幅1比特的信号的能量一致那样的偏移值。

具体地，掩蔽阈值计算部40利用下述式(4)计算频率掩蔽的第i个频带(最终频带)中的阈值T_final。

在此基础上，掩蔽阈值计算部40根据该频带的阈值T_final进一步计算与听觉的空间上的掩蔽效应对应的掩蔽阈值。这时，掩蔽阈值计算部40使用音频信号的方向信息，计算考虑了空间上的掩蔽的频率掩蔽阈值。

利用图3的(c)对与听觉的空间上的掩蔽效应对应的掩蔽阈值进行说明。

以往的音频编码方式中的掩蔽阈值的计算中，多数情况下，只使用自身声道的信号成分计算自身声道的掩蔽阈值。也就是，在存在多个声道的音频信号中，不将对象声道以外的声道的信号产生的掩蔽考虑到对象声道的掩蔽中，各声道独立地决定掩蔽阈值。

在此，可以认为，本实施方式中使用的那样的空间采样得到的音频信号中，相邻的声道间的信号的相关性较大，波形类似的部分和波形不类似的部分混合存在。因此，若从掩蔽的观点考虑，空间采样得到的信号的编码中，存在能够将各声道中的掩蔽的信息在声道间相互适用的可能性。因此，本实施方式中，为了对空间采样得到的信号编码，使用将掩蔽效应扩展到空间区域的“空间上的掩蔽”。

图3的(c)的概念图中，横轴表示信号的空间上的方向，纵深表示频率，纵轴表示信号的能量。位于掩蔽音信号的坡度缓慢区域的、四角锥的内侧的区域表示将被该信号掩蔽的区域。与图3的(b)的频率掩蔽比较可知，图3的(c)中增加了方向的维度，维度增加了一个。此外，在空间上的方向中，包含方位角及仰角。如图3的(c)所示，空间上的掩蔽中，表示掩蔽阈值的曲线为三维。也就是，即使在空间方向也产生了掩蔽以及被掩蔽的信号。对于这样的空间上的掩蔽，成为两耳信息相互作用的与听觉的中枢神经系统有关的掩蔽。

利用图4对空间上的掩蔽的掩蔽阈值的计算进行说明。图4是针对从1到N的N方向的信号中的i方向的信号计算考虑了空间上的掩蔽后的掩蔽阈值的例。各图表的横轴是频率，纵轴是信号的能量。各图表中，都是黑实线表示信号频谱，灰色实线表示根据那些计算的掩蔽阈值。黑色的虚线是对各方向的信号的掩蔽阈值进行了加权。灰色的点线表示将基于各方向的信号的掩蔽全部考虑后的i方向的信号的掩蔽阈值。

更具体地进行说明，本发明者们根据后述的实施例的收听实验的结果，制成考虑了全方位声源中的空间上的掩蔽后的掩蔽模型，如下述那样进行了计算。

计算顺序如下。首先，关于各方向的信号，以与以往的频域掩蔽同样的想法计算掩蔽阈值。接着，为了得到这些各方向的掩蔽阈值T，利用与上述的式(1)对应的函数T_spatial(θ，x)计算与各声道信号的频域中的掩蔽阈值相乘的权重，分别进行加权。其中，对自身即i方向的信号的掩蔽阈值的加权为零dB，即，使得线性比例为1。接着，以线性比例对加权后的全方向的掩蔽阈值求总合。由此，得到考虑了空间上的掩蔽的i方向的信号的掩蔽阈值。关于其他方向的信号也同样进行以上的处理，从而能够对整周的信号，得到考虑了空间上的掩蔽的阈值。

下面对函数T_spatial详细地进行说明。函数T_spatial是在将掩蔽音的方位及被掩蔽音的方位作为变量进行了输入时以分贝输出距掩蔽音存在的方位的掩蔽阈值的衰减量的函数。因此，将T_spatial决定为，在掩蔽音存在的方位最大值成为0[dB]。

本实施方式中，将掩蔽音的方位设为[deg.]，将被掩蔽音的方位设为x[deg.]，将函数T_spatial(θ，x)[dB]利用下述式(4之2)计算出。

T_spatial(θ，x)＝β{max(f(x-θ)，αf(180°-x-θ))-1}……式(4之2)

其中，α，β是定标因子，且0≦α≦1，0≦β。max是返回参数内的最大值的函数。f设为在相位0°取最大值那样的周期360°的任意的周期函数。

本实施方式中，作为该周期函数f(x)，例如能够使用与上述的式(2)同样的三角波。若这样定义了函数f，则f(x-θ)表示在掩蔽音存在的方位为0dB，在与此正相反的方位即前进180°的方位水平成为最小那样的阈值的变化。相对于此，f(180-x-θ)在与掩蔽音存在的方位前后对称的方位为0dB，在与此正相反的方位即前进180°的方位水平成为最小那样的阈值的变化。也就是，准备两个以分别表现“距掩蔽音存在的方位的阈值的衰减”及“距与掩蔽音存在的方位为前后对称的方位的阈值的衰减”的方式将相位配合的函数f，通过取它们的最大值进行定标，能够计算出同时表现“被掩蔽音越位于远离掩蔽音的方位则阈值越降低的现象”及“阈值以冠状平面折回那样的现象”这两个现象的掩蔽阈值。

定标因子α(0≦α≦1)是用于反映“掩蔽音的频率(中心频率)越低，则被掩蔽音位于与掩蔽音前后对称的方位时的阈值的上升看起来更明显”这样的掩蔽效应的系数。以掩蔽音的频率越低则越接近1且掩蔽音的频率越高则越接近0的方式，决定α。通过这样做，能够根据掩蔽音的频率将f(180-x-θ)定标，调整阈值以冠状平面折回的程度。

定标因子β(0≦β)是用于反映“在掩蔽音为纯音时，基于被掩蔽音的方位的阈值的变化是平坦的”这样的见解的系数。以掩蔽音的音调越是音调性则越接近0，且掩蔽音的音调越是噪音性则值越大的方式，决定β。通过这样做，能够根据掩蔽音是纯音还是噪音调整θ及x发生变化时的作为函数T_spatial整体的值的幅度。

这样，本实施方式中，适用与各声道信号的频域中的掩蔽阈值相乘的权重T。通过整合乘以该权重后的各方向的频域掩蔽的阈值，能够(在频率轴上)计算该方向(x方向)的掩蔽阈值。

此外，对于α、β，通过如实施例所示那样通过实际的实验进行循环计算，也能够计算出与频率及SFM对应的最优值，并将其作为表套用。

(步骤S103)

接着，信息量决定部50进行信息量决定处理。

本实施方式的音频系统X中，利用空间采样得到的信号的方向信息，在频域进行考虑了空间区域的位分配。另外，为了进行考虑了空间区域的位分配，使用掩蔽效应。

为此，信息量决定部50利用由掩蔽阈值计算部40计算出的掩蔽阈值，决定分配给各声道和/或声源对象的信息量。通过使用与听觉的空间上的掩蔽效应对应的掩蔽阈值，能够进行考虑了空间区域的频率轴上的位分配。即，通过使用听觉的空间上的掩蔽效应，能够保持听觉上的质量不变地削减传输所需的信号的位数。

本实施方式中，信息量决定部50为了积极利用听觉的掩蔽效应，例如使用PE计算位分配，作为信息量。设为在低于掩蔽阈值的信号中没有对于人类的听觉来说有意义的信息即湮没在量化噪声中也可以，计算出音乐信号具有的平均信息量而得到的量是PE。

能够通过下述式(5)计算该PE。

其中，T_i为Bark域中的临界频带的阈值，作为T_i/k_i＝T_{final i}嵌入。

(步骤S104)

接着，编码部60进行编码处理。

编码部60将多个声道的音频信号、和/或声源对象以及声源对象的位置信息以各自被分配的信息量进行编码。

编码后的数据被向接收侧的解码装置2传输。该传输例如通过点对点通信进行。或者也可以，作为数据被下载，或作为存储卡、光学记录介质被解码装置2读取。

(步骤S203)

在此，解码装置2的解码部90进行解码处理。

解码部90将由编码装置1编码后的多个声道的音频信号和/或声源对象解码为语音信号。具体地，在解码装置2是智能手机等的情况下，将由编码装置1传输来的音频信号通过特定的编解码器等解码器等进行解码。

(步骤S204)

接着，立体音频播放部100进行立体音频播放处理。

立体音频播放部100将由解码部90解码后的语音信号转换为对收听人播放立体音频那样的立体音频信号。

具体地，立体音频播放部100将多声道的语音信号作为2声道的语音信号含有空间上的信息不变地进行播放。这能够通过对各语音信号附加从声源到人的耳根为止的声音的传输特性，涉及全方向进行加法计算来实现。也就是，立体音频播放部100将按方向不同的声音信号合成，并使用头戴耳机播放。为此，将与各语音信号的方向对应的头部相关传递函数(HRTF)卷积，转换为2声道的声音信号。具体地，立体音频播放部100例如对各音频信号附加与各信号的方向对应的HRTF的传输特性，在L声道、R声道分别取信号的总和进行输出。由此，作为基于头戴耳机的2声道的语音信号的播放，能够不依赖于拾音侧的声道数，简单地播放。

以上，结束本发明的实施方式涉及的音频信号编码解码处理。

通过如以上那样构成，能够得到以下那样的效果。

近年来，伴随音频播放环境的多声道化、或AR(Augmented Reality，增强现实)、VR(Virtual Reality，虚拟现实)中的双耳播放的普及，3D声场的拾音、传输、播放、增强技术的重要性不断增加。

其中，在空间采样得到的信号的编码中，需要以环绕收听人的整周的声音信号为对象，因此，随着进行采样的方向增加，声道数变得庞大，需要更高的总比特率。

作为例，考虑使用智能手机等经由互联网进行传输。作为音乐分发服务之一的Spotify(注册商标)中，流媒体播放时的比特率以2声道的立体声为最高320kbps左右。在空间采样中，可以假定传输比2声道多的声道数的信号，因此，需要使每1声道的比特率进一步进行低比特率化。

另一方面，以往，音频信号的编码(MPEG等数据压缩)中，利用了听觉的掩蔽效应。但是，其掩蔽主要只是使用了频率轴上的掩蔽效应。MPEG-2AAC、MPEG-4AAC、MP3等音频编码中，还是多声道信号的编码中，都是利用了每声道的频率轴上的听觉的掩蔽效应。

但是，一般地由多声道信号表现的声场由空间上散布的多个声源构成。对此，关于同时刻在空间上配置了多个声源时的相互的掩蔽效应或听时感觉，其作用、效果不明确，未到达应用。即，三维空间中配置的声源相互带来怎样的掩蔽效应，怎样带来影响的同时形成与听觉有关的感知，对此，什么都不知道。即，以往的掩蔽阈值的计算中，未考虑声道彼此的空间上的关系。

相对于此，本发明的实施方式涉及的编码装置1是对多个声道的音频信号、和/或声源对象以及该声源对象的位置信息进行编码的编码装置，其特征在于，具备：掩蔽阈值计算部40，计算与听觉的空间上的掩蔽效应对应的掩蔽阈值；信息量决定部50，利用由掩蔽阈值计算部40计算出的掩蔽阈值，决定分配给各声道和/或声源对象的信息量；以及编码部60，对多个声道的音频信号、和/或声源对象以及声源对象的位置信息，以各自被分配的信息量进行编码。

这样进行构成，通过在对多个声道的音频信号或声源对象和其位置信息进行编码时，考量听觉的空间上的掩蔽效应决定分配给各声道及声源对象的位数，从而能够应用于具有方向信息的多声道信号的压缩中。由此，能够实现考虑了声道彼此的空间上的关系的编码。

在此，以往的掩蔽阈值的计算中，由于未考虑声道彼此的空间上的关系，因此，对于22.2声道音频等、更加提高临场感的声道数较多的音频信号，有可能基于位分配的压缩不充分，传输时等的比特率(带宽)不足。

相对于此，本发明的实施方式涉及的音频信号编码方法中，由多声道信号表现的声场由空间上散布的多个声源构成。在空间采样得到的信号中包含空间上的信息，因此，通过进行除了以往的频域以外还考虑了空间区域的位分配，也能够进一步削减传输位数。

由此，即使22.2声道等声道数较多的音频信号，也能够提供能够以充分的比特率编码的音频信号编码方法。也就是，关于空间上散布的多个声源，通过基于相互的掩蔽效应求出掩蔽阈值，进行基于该阈值的位分配，能够削减比特率。根据本发明者们的实验，与以往相比，能够削减5％～20％比特率。

本发明的音频系统X具备记载的编码装置1和解码装置2，该音频系统的特征在于，解码装置2具备：方向计算部70，计算收听人所朝向的方向；发送部80，将由方向计算部70计算出的方向向编码装置1发送；以及解码部90，将由编码装置1编码的多个声道的音频信号和/或声源对象解码为语音信号，编码装置1的掩蔽阈值计算部40对应于基于相对于收听人的位置和方向的、各声道间和/或各声源对象间的空间上的距离和/或方向的空间上的掩蔽效应，计算掩蔽阈值。

通过这样构成，在对使用与上述的听觉的空间上的掩蔽效应对应的掩蔽阈值通过编码而编码后的音频信号进行解码时，通过头部追踪等计算收听人所朝向的方向信息，能够实现控制声像的位置的听觉显示。即，能够将各声道的声源的位置、或声源对象的位置与收听人之间的相对的位置关系反馈到编码装置1，基于该位置关系进行编码以及进行解码。

由此，能够提供能够将360°球形声音空间在用户间简单地进行拾音、传输、播放并欣赏的音频系统。

以往，作为3D(三维)声场播放技术，开发了将音乐、广播/电影内容通过头戴耳机或通过两个前置扬声器以环绕方式欣赏的基于双耳/听觉传输的听觉显示技术、模拟在面向家庭影院的5.1声道或7.1声道环绕播放环境中实际存在的大厅或剧场的声场的声场再现技术等。并且，基于扬声器阵列的使用波阵面合成的3D声场播放技术的开发也在推进。随着这样的播放方式的发展，拾音及内容表现的多声道化被普及。

但是，作为3D音频的播放技术，都在积极研究与头部相关传递函数和定位有关的实施方式，但是，未研究与空间上的掩蔽之间的关联。

相对于此，本发明的音频系统的特征在于，解码装置2还具备立体音频播放部100，该立体音频播放部100将由解码部90解码后的语音信号转换为对收听人播放立体音频那样的立体音频信号。

通过这样构成，能够关于空间上的音频信号的感知与头部相关传递函数(HRTF)建立关联地，利用2声道播放适用在3维空间的声场散布的多个声源的相互关系或掩蔽效应而高效地编码后的音频信号。即，将对应于人类怎样捕捉3D声场而被编码后的音频信号，作为立体音频播放，由此，能够播放比以往真实感更高的声场。

可以认为这，与在图像中“与忠实地进行颜色再现相比，通过将人类感受的“印象”作为“存储色”再现，从而进一步增加现实感”这样的效果是同样的效果。即，能够实现真实感更高的声场再现。

本发明的音频信号编码方法的特征在于，对应于基于各声道间和/或各声源对象间的空间上的距离和/或方向的空间上的掩蔽效应，计算掩蔽阈值。

这样进行构成，例如，能够使用基于各声道间和/或各声源对象间的空间上的距离或者方向计算出的模型，实现基于空间上的掩蔽效应的编码。即，当人听取在3维空间上散布的声音时，通过将基于空间上配置的声源的空间上的距离和/或方向的相互的掩蔽效应应用于编码，能够实现更高效的编码，能够削减数据的传输比特率。

本发明的音频信号编码方法的特征在于，对应于声道和/或声源对象间的空间上的距离和/或方向越接近则相互带来的影响越大，而越远离则相互带来的影响越小的空间上的掩蔽效应，计算掩蔽阈值。

这样进行构成，例如，能够利用声道和/或声源对象间的空间上的距离或者方向越接近则声道相互和/或声源对象相互带来的影响越大，而越远离则其影响越小那样的模型，计算空间上的掩蔽效应。利用这样的空间上的掩蔽效应，能够实现更高效的编码，能够削减数据的传输比特率。

本发明的音频信号编码方法的特征在于，关于从收听人来看位于前后对称的位置的声道和/或声源对象，对应于使声源对象间的关于空间上的距离和/或方向的相互带来的影响的程度变化的空间上的掩蔽效应，计算掩蔽阈值。

这样进行构成，关于从收听人来看位于前后对称的位置的声道或声源对象，能够利用不一定是声源对象间的空间上的距离或者方向越接近则声道相互或声源对象相互带来的影响越大，而越远离则其影响越小那样的模型，计算空间上的掩蔽效应。由此，例如，能够对应于如果是与掩蔽音前后对称的位置则空间上的距离远离但是影响变强那样的空间上的掩蔽效应，较大地计算出掩蔽阈值的上升。

利用这样的空间上的掩蔽效应，能够实现更高效的编码，能够削减数据的传输比特率。

本发明的音频信号编码方法的特征在于，关于从收听人来看位于后方的位置的声道和/或声源对象，对应于在属于前后对称的位置的前方存在该声道和/或该对象的空间上的掩蔽效应，计算掩蔽阈值。

这样进行构成，关于从收听人来看位于后方的位置的声道或声源对象，能够计算出使用了在属于前后对称的位置的作为镜像副本的前方存在该声道或该对象的空间上的掩蔽效应的掩蔽阈值。即，以将两耳连结的直线为轴，以使得位于比该轴靠后方的位置的声源移动到属于以该轴为中心的线对称的位置的、轴的前方的方式，计算掩蔽阈值。

本发明的音频信号编码方法的特征在于，对应于根据各声道和/或声源对象的信号是音调性信号还是噪音性信号使各声道和/或声源对象的信号相互带来的影响的程度变化的空间上的掩蔽效应，计算掩蔽阈值。

这样进行构成，作为空间上的掩蔽效应，能够利用根据各声道信号或声源对象是音调性信号还是噪音性信号使各声道信号或声源对象信号相互带来的影响的程度变化的模型，计算掩蔽阈值。

通过这样构成，能够实现更高效的编码，能够削减数据的传输比特率。

本发明的音频信号编码方法中，利用下述式(1)调整掩蔽阈值。

T＝β{max(y1、αy2)-1}

y1＝f(x-θ)

y2＝f(180-x-θ)……式(1)

其中，T表示为了计算所述掩蔽阈值而与各声道信号的频域上的掩蔽阈值相乘的权重，θ表示掩蔽音的方位，α表示由掩蔽音的频率控制的常数，β表示对应于掩蔽音的信号是音调性信号还是噪音性信号而被控制的常数，x表示所述方向或被掩蔽音的方位。

通过这样构成，能够容易地计算与上述的各模型对应的空间上的掩蔽效应。由此，能够实现高效的编码，能够削减数据的传输比特率。

以往，一般是只考虑立体声信号的各声道的频域上的掩蔽效应来计算PE。

相对于此，本发明的音频信号编码方法的特征在于，考虑跨声道间的空间上的掩蔽效应，利用PE计算每一采样的平均位数。

若这样构成来进行针对掩蔽阈值的位分配，能够削减数据的传输比特率。根据本发明者们的实验，已经确认，能够削减百分之5～25左右的比特率。

本发明的音频信号解码方法是由解码装置2执行的音频信号解码方法，其特征在于，对通过上述的音频信号编码方法编码的多个声道的音频信号进行解码。

这样进行构成，对通过上述的编码装置1编码的音频信号进行解码，从而即使传输比特率较低，也能够播放高质量的音频信号。

〔其他实施方式〕

此外，本发明的实施方式中，作为多个声道的音频信号的编码，提到22.2声道的编码。

对此，本实施方式的音频信号编码方法也能够适用于5.1声道、7.1声道等多声道的音频编码到对空间进行了采样的3D音频编码、MPEG-H 3D AUDIO为代表的对象编码、或已有的2声道的立体声音频编码。

即，编码装置1不使用上述的实施方式的图1所示那样的麦克风阵列10进行拾音，通过图2的步骤S101，从已经集音得到的多声道的语音数据、语音对象等，当然也能够获得语音数据。

进而，在上述的实施方式中，对音频系统X使用能够头部追踪的头戴耳机作为对传输到的音频信号进行解码的解码装置2的例进行了记载。

但是，如果是能够使用作用于在3维空间散布的声源的听觉的掩蔽效应的音频系统，本实施方式的音频信号编码方法及音频解码方法对于任意的系统都能够适用。例如，也能够适用于这以外的3D声场的捕捉、传输、播放系统、以及也能够适用于VR/AR应用等。

举出具体的例进行说明，上述的实施方式中，对使用可佩带的头戴耳机或入耳式耳机等作为播放立体音频的头戴耳机110的例进行了说明。

但是，头戴耳机110当然也可以如实施例所示那样是固定式的多个扬声器等。

进而，上述的实施方式中，记载了从头戴耳机将位置方向信息向编码装置1反馈，但是，也可以不这样。这样，在不进行位置方向信息的反馈的情况下，当然，不使用该位置方向信息也能够计算掩蔽阈值。

在该情况下，立体音频播放部100也可以不配合位置方向信息更新头部相关传递函数(HRTF)的卷积。

除此以外，上述的实施方式中，对解码装置2具备方向计算部70及发送部80的结构进行了说明。

但是，本实施方式的音频信号编码方法及音频解码方法中，并不是一定要知道收听人所朝向的方向。因此，也可以是不具备方向计算部70及发送部80的结构。

上述的实施方式中，对计算将频率掩蔽扩展后的空间上的掩蔽效应的例进行了记载。

相对于此，即使将频率替代为时间，也能够计算同样的空间上的掩蔽效应。并且，作为空间上的掩蔽效应，也能够使用频率方向间的掩蔽与时间方向间的掩蔽的组合。

并且，上述的实施方式中，对利用空间上的掩蔽效应，保持较低地抑制比特率不变地进行传输的例进行了说明。即，对以与以往的高比特率的音频编码等同的质量对多个声道的音频信号进行编码的例进行了记载。

相对于此，不是只进行高质量的编码，也能够强调重要的音，或使定位感变形，来进行编码。或，也可以通过空间上的掩蔽效应，增大对听觉上重要的场所分配的信息量，或相反地，进一步减少对听觉上不重要的场所分配的信息量，由此，也能够增强临场感。

除此以外，上述的实施方式中，对作为信息量的分配进行位分配的例进行了记载。

但是，该信息量的分配也可以不是按每个频带简单地决定(分配)位数，而是与熵编码或其他编码对应的信息量的分配。

进而，如上述的实施方式记载的那样，在存在位置方向信息的反馈的情况下，能够使用该位置方向信息计算高效的掩蔽阈值。

因此，能够构成为，根据位置方向信息的反馈的有无，改变分发(传输)的比特率。即，对编码装置1反馈位置方向信息的解码装置2，与未反馈位置方向信息的解码装置2相比，能够以较低的比特率传输数据。

通过这样构成，能够实现更廉价地提供内容的服务。

接着，基于附图利用实施例对本发明进一步地进行说明，以下的具体例不限定本发明。

实施例

(考虑了空间上的掩蔽的掩蔽模型的实验)

(实验方法)

利用图5、图6说明关于被掩蔽音的各方位测定掩蔽音存在下的被掩蔽音的各频率下的阈值的实验。

图5是表示测定系统的结构图。在此，将被试验者的正面设为0°，将反时针方向设为正。而且，在被试验者的正面配置有PC(Personal Computer，个人电脑)。被试验者坐在椅子上，用两耳收听由扬声器呈现的刺激音。以在离开被试验者1.5m的位置，以被试验者为中心环绕整周的方式，以45°间隔在8个地方配置有扬声器。此外，通过使用噪音计(RION NA-27)测量，来进行实验系统的输出中的声压水平[dBSPL]的校正。

将实验方法记载如下。一开始，为了使被试验者把握在实验中使用的声源，进行单独地呈现各声源的演示。接着，开始测定。测定中，总是呈现掩蔽音。被掩蔽音以持续时间0.7秒呈现，在隔0.7秒的静音后，重复呈现。被试验者一边看回答画面，一边针对被掩蔽音的各频率、各声压水平，在呈现3次被掩蔽音期间，向PC输入“是否对掩蔽音感到变化”。这时，对被试验者给出指示，使其不移动头部而只移动视线来输入回答。在此，“对掩蔽音感到变化”是指，不只是包含感知到被掩蔽音时，也包含感知到不是掩蔽音也不是被掩蔽音的声音的情况。例如，可以例举，在频率稍微不同的两个纯音同时呈现时，由于声波的干扰，感知到与2音的频率差相等的频率的声音的“差拍”。感知到这样的声音的情况也包含于“对掩蔽音感到变化”的情况。

此外，为了习惯实验方法，开始进行数次不反映于实验结果的测试测定。

图6示出本实验中的阈值查找方法的说明图。以符合自适应方法的方式进行本实验中的阈值的查找方法。自适应方法是指，根据被试验者的应答，实验者调整刺激的物理参数值，决定阈值的方法。

图6中，横轴是被掩蔽音的组数，纵轴是被掩蔽音的声压水平。被掩蔽音的组数“1组”是指被掩蔽音3次呈现的期间，将其设为声源呈现的单位。

首先，将被掩蔽音的频率固定为f1，以声压水平SPLmax向收听人呈现。接着，将声压水平改变为SPLmin向收听人呈现。SPLmax指声压水平的测定范围中的最大值，SPLmin指声压水平的测定范围中的最小值。在此，在被试验者未能检出声压水平SPLmax的被掩蔽音的情况下，将SPLmax视为阈值，在能够检出声压水平SPLmin的被掩蔽音的情况下，将SPLmin视为阈值。这时，可以认为实际的阈值存在于测定范围外。作为如上面那样考虑的例子，例举图6中的频率f2的被掩蔽音的阈值。图6中，示出即使声压水平SPLmin也不能检出频率f2的被掩蔽音的情况。这样，被试验者必须进行回答的声压水平的组数根据被试验者的应答而变化。在以声压水平SPLmin呈现被掩蔽音后，根据被试验者的回答，通过二分查找来查找阈值。即，将位于通过至此为止的测定能够检出的被掩蔽音的声压水平的最小值、和未能检出的被掩蔽音的声压水平的最大值的中间那样的值，设置为下一个声压水平的值。继续这样的查找，最终能够设置的声压水平只剩一个。将最终剩下的声压水平作为频率f1的被掩蔽音的阈值。

对于以上那样的查找，如图6那样使频率按f1、f2、f3、……的顺序连续地变化，来进行调查。本实验中，从低频率侧开始，依次对被掩蔽音的阈值进行调查。

图7中示出对被试验者呈现的回答画面。掩蔽音为1声源时的回答画面是图7中(a)，掩蔽音为2声源时的回答画面是图7中(b)。画面中分别显示了：掩蔽音的方位、掩蔽音的声压水平、被掩蔽音的方位、被掩蔽音的频率、在被掩蔽音播放过程中点亮的灯、表示被掩蔽音的播放次数的计数器、输入被掩蔽音的检出有无的按钮。被试验者能够感知各声源从哪个方向以怎样的大小何时呈现。显示被掩蔽音的频率的理由是因为，测定是连续地使掩蔽音的频率(掩蔽音的种类)变化的同时进行调查的测定，因此，使被试验者明确当前正在输入关于哪个被掩蔽音的回答，防止回答的混乱。被试验者自己通过打开输入被掩蔽音的检出有无的按钮来向PC通知“检出被掩蔽音”，另外，通过关闭按钮来向PC通知“未能检出被掩蔽音”。此外，表示被掩蔽音的播放次数的计数器的初值为0，根据被掩蔽音的播放次数，如0、1、2、3、0……进行变化。若计数到0，则回答复位，即输入被掩蔽音的检出有无的按钮成为关闭，被掩蔽音向下一个声压水平或频率转移。被试验者在该计数器显示1、2、3期间必须输入检出的有无。

此外，对于收听实验的回答用程序，通过Cycling’74公司的Max ver.7进行编程。关于这以外的程序，通过MathWorks公司的MATLAB ver.R2018a进行编程。

(掩蔽音的一览表)

实验中使用的掩蔽音的一览表示于下述表1。

[表1]

使用的掩蔽音

名字	声源信号
		掩蔽音A(maskerA)	中心频率400Hz、带宽100Hz的频带杂音
掩蔽音B(maskerB)	中心频率1000Hz、带宽150Hz的频带杂音
		抢蔽音C(maskerC)	频率400Hz的纯音
掩蔽音D(maskerD)	频率1000Hz的纯音

对于掩蔽音，准备了将频率(中心频率)设为400Hz或1000Hz的频带杂音和纯音。以后，将这些掩蔽音用掩蔽音A(masker A)～掩蔽音D(masker D)的名字进行描述。此外，以与临界频带的带宽大致一致的方式决定频带杂音的带宽。已知，对某个纯音的掩蔽做贡献的杂音成分限于以该纯音为中心频率的频带杂音中的某个带宽的成分。临界频带是对这样的纯音的掩蔽做贡献的频带。

(实验条件)

作为实验条件，关于将掩蔽音的数量设为1个的情况和设为2个的情况这样两种进行实验。都是在消音室中进行实验，将声源信号的采样频率设为48kHz。

首先，将进行配置的掩蔽音的数量为1个时的条件示于下述的表2。

[表2]

实验条件(将掩蔽音设为1声源时)

被试验者是听力正常的20多岁的男性2名(被试验者a、被试验者b)。掩蔽音中，使用了上述的掩蔽音A～掩蔽音D中的声源中任意一个。对于掩蔽音的声压水平，使用了60dBSPL和80dBSPL这两种。对于掩蔽音的方位，设为0°、45°、90°、135°这四个方位中的任意1个方位。即，掩蔽音的方位只以左耳侧的4方位为对象。若如上述那样准备了4方位的掩蔽音的方位进行实验，则能够得到关于受验者的半周部分的阈值的数据。如果假定人类的头部形状为左右对称，则可以认为阈值是以正中面为对称，因此，本实验中未得到的剩余半周部分的阈值的数据为与本实验中得到的数据对称的结果。

被掩蔽音使用纯音1声源，其频率及声压水平如下。具体地，以如果是接近掩蔽音的频率(中心频率)的频率则变得密集的方式，决定被掩蔽音的频率。此外，在掩蔽音为纯音的情况下，可以认为，在被掩蔽音的频率与掩蔽音的频率完全一致时(400Hz、1000Hz)，在所有声压水平下，不能够感知被掩蔽音，因此，将这样的频率从测定对象中除去。将被掩蔽音的声压水平可以取的值设为每隔3dB的值，其最大水平设为掩蔽音的声压水平，最小水平设为20dBSPL或18dBSPL。对于最大水平，根据在被掩蔽音的声压水平比掩蔽音的声压水平大时，能够完全地感知被掩蔽音的预想，进行了决定。对于最小水平，考虑作为实验场所的消音室内的背景噪音水平，测定范围大概达到比背景噪音水平小15dB的水平，如此进行了决定。将被掩蔽音的方位设为45°或315°。在被掩蔽音的方位为45°时，由于掩蔽音与被掩蔽音的方位一致，因此，作为结果得到以往研究过的频率掩蔽的阈值。在被掩蔽音的方位为315°时，掩蔽音与被掩蔽音存在于彼此不同的方位，因此，作为结果得到立体声的声道间的掩蔽即空间上的掩蔽的阈值。

将被掩蔽音的方位设为从0°起每个45°到315°的8方位中的任意1方位。

接着，将进行配置的掩蔽音的数量为2个时的条件示于下述的表3。

[表3]

实验条件(将掩蔽音设为2声源时)

被试验者只是被试验者a。掩蔽音中，分别地将掩蔽音A配置于方位45°，将掩蔽音B配置于方位315°。被掩蔽音使用纯音1声源。被掩蔽音的频率使用符合掩蔽音的频率(中心频率)为400Hz时的条件和为1000Hz时的条件的频率。此外，由于进行配置的掩蔽音(掩蔽音A、掩蔽音B)都是带噪声，因此，可以认为，即使在被掩蔽音的频率与掩蔽音的中心频率完全一致时(400Hz、1000Hz)，也与纯音不同，如果在某个声压水平以上，则能够感知被掩蔽音。因此，也将400Hz及1000Hz加到测定对象。另外，取被掩蔽音的声压水平的最大值比表2大9dB。这是考虑到，由于掩蔽音存在2声源，从而，进行收听的声音的声压水平最大上升6dB程度。

将被掩蔽音的方位设为225°。

(掩蔽阈值的计算)

(实验结果与思考)

利用图8～图11对与被试验者a有关的实验结果进行说明。

将上述的式(5)中记载的α、β在下述的表4所示的值的范围查找。

[表4]

α、β的循环计算的范围

参数	循环计算的范围
		α	0、0.01、0.02、…、1
β	0、0.01、0.02、…、20

本实施例中，如下述那样计算α、β的最优值。首先，针对掩蔽音的种类(掩蔽音A～掩蔽音D)、方位、声压水平的全部的组合，计算某个α、β的值下的T_spatial与作为实验结果得到的被掩蔽音的各方位下的阈值的最大值之间的均方误差(Mean Squared Error，MSE)。接着，按每个掩蔽音的种类，将计算得到的均方误差求和。使α、β的值变化来重复进行以上的操作，将均方误差的按每个掩蔽音的种类的和为最小时的、α、β的组，作为α、β的最优值。

在此，按下述的式(6)计算第j个的掩蔽音的方位下的均方误差MSE(j)。

在此，式(6)中，T_spatial(i)表示第i个被掩蔽音的方位[deg。]下的函数T_spatial的输出值，T_measured(i)表示第i个被掩蔽音的方位[deg。]下的通过被掩蔽音的阈值的实验得到的实测值。L_{masker azimuth}表示掩蔽音存在的方位下的被掩蔽音的阈值[dBSPL]。由于T_spatial表示距掩蔽音存在的方位的阈值的衰减量，因此，这具有调整T_spatial与T_measured之间的偏移的作用。N是T_spatial及T_measured的条目数(被掩蔽音的方位的总数)。本计算中，将被掩蔽音的方位的刻度设为从0°到360°的1°刻度，因此N＝361。但是，T_measured是被掩蔽音的方位的刻度作为实测值时的45°刻度，因此，对于作为1°刻度时缺损的部分，通过进行线性插值来将值进行推定。

循环计算的结果，如下述的表5那样关于掩蔽音A～掩蔽音D得到α、β的最优值。

[表5]

通过循环计算得到的α、β的最优值

抢蔽音的种类	α的最优值	β的最优值
			掩蔽音A	0.40	11.96
掩蔽音B	0.28	9.24
			掩蔽音C	0.52	1.12
掩蔽音D	0.30	5.82

图8～图11中分别示出使用表5的值将T_spatial与被掩蔽音的阈值的实测值拟合后的值。各图的左上的图表是与掩蔽音A有关的结果，右上的图表是与掩蔽音B有关的结果，左下的图表是与掩蔽音C有关的结果，右下的图表是与掩蔽音D有关的结果。

各图表的横轴是被掩蔽音的方位，纵轴是声压水平。将属于掩蔽音方位的方位用纵的点线表示。分别地，黑色的实线表示掩蔽音的声压水平为80dBSPL时的被掩蔽音的阈值的实测值，灰色的实线表示掩蔽音的声压水平为60dBSPL时的被掩蔽音的阈值的实测值。相对于此，分别地，红色的虚线表示使用函数T_spatial与红色的实线拟合后的值，灰色的虚线表示使用函数T_spatial与灰色的实线拟合后的值。

此外，各虚线是对函数T_spatial的输出加上偏移L_{masker azimuth}后的值。

根据图8～图11可知，各图表都大概与实测值相拟合。其中，例如，如图8的左上的图表和图9的左上的图表等，观察掩蔽音A、掩蔽音B那样的频带杂音的情况下的与掩蔽音前后对称的方位处的阈值是上升，则能够看到虚线未与实线很好地拟合的部分。其理由可以认为是因为，在掩蔽音为频带杂音，掩蔽音的方位为90°时，阈值的方位引起的变化比较小，在要使均方误差的和为最小时，进行影响而使α的值变小地起作用。为了使上述的部分很好地拟合，在掩蔽音的方位为90°时的实测值与模型函数之间的误差较大也没关系的情况下，较大地设定α的值即可。

另外，本实施例中，通过循环计算，求出α、β的值，但是，关于β的值，可以基于判别掩蔽音的音调(音调性、噪音性)那样的指标进行决定。作为判别掩蔽音的音调那样的指标，例如，有自相关或Spectral Flatness Measure(SFM，频谱平滑度)等。通过使用这些指标，能够作为参数决定β并拟合。

(总结)

本实施例中，为了确认空间上的掩蔽，进行基础性的收听实验，并且，能够反映通过实验得到的见解，实现考虑了空间上的掩蔽的掩蔽阈值计算法及模型化。

首先，在收听实验中，即使在使掩蔽音和被掩蔽音存在于不同的方位的情况下，也看到掩蔽音的频率附近的阈值上升，根据这一情况，确认了空间上的掩蔽的存在。

掩蔽阈值根据掩蔽音的方位和被掩蔽音的方位而变化，基本上，被掩蔽音的方位越远离掩蔽音的方位，则阈值越降低。关于2声道立体声环境，也可以使用对自身声道的信号给自身声道带来的掩蔽的阈值附加15dB的权重后的值，作为自身声道的信号给其他声道的信号带来的掩蔽的阈值。关于全方位，在掩蔽音为频带杂音时，在与掩蔽音前后对称的方位，与其周围的方向相比，看到被掩蔽音的阈值的上升，掩蔽音的中心频率越低，则这越明显。另外，在掩蔽音为纯音时，基于被掩蔽音的方位的阈值的变化是平坦的。

进而，使用各掩蔽音单独存在时的、与掩蔽音相同方位的信号的掩蔽阈值和这以外方位的信号的掩蔽的阈值的线性标度下的和，作为除了自身方位的信号以外还考虑了这以外的方位的信号的掩蔽阈值，也没关系。

下面，对这些结果进行总结：

在掩蔽音为0°时，被掩蔽音的位置为0°时的阈值最高。45°、90°时，被掩蔽音位置越远离掩蔽音，则阈值越下降。但是，从135°开始上升，180°时，直到与0°时几乎同程度，阈值上升。即，基于掩蔽音的掩蔽阈值的值在收听人的前后几乎为对称的关系。

在掩蔽音为45°时，被掩蔽音位置为45°时阈值变得最高。90°时，阈值下降。认为135°时会进一步下降，但是，与预想相反，阈值上升，接近45°时的阈值。180°时，阈值下降，225°时进一步下降。这与掩蔽音为0°时同样地，在收听人的前后，掩蔽阈值几乎成为对称的关系。即，以连结90°～270°的线为中心地成为线对称。

掩蔽音为90°和掩蔽音为135°时，都是同样的倾向。

根据以上那样的见解，如下提出考虑了空间上的掩蔽的掩蔽阈值计算法：在2声道的立体声环境下，将对自身声道的掩蔽阈值和其他声道的掩蔽阈值进行-15dB加权后的值，以线性标度求和。关于全方位，利用周期360°的任意的周期函数、和将该周期函数以在90°及270°成线对称的方式进行了相位偏移后的周期函数，将被掩蔽音的阈值的峰值的方位引起的变化模型化。使用该模型化后的函数，对各声道的掩蔽阈值加权来以线性标度求和。

即，利用上述式(1)能够计算掩蔽阈值。基于此计算掩蔽阈值，从而能够削减信号的传输所需的位数。

此外，上述实施方式的构成及动作为例子，当然可以在不脱离本发明的主旨的范围内进行适当变更来执行。

工业实用性

本发明的生物序列分析方法通过利用听觉的空间上的掩蔽效应可以提供比以往进一步降低了比特率的音频信号编码方法，能够在工业上利用。

附图标记说明

1 编码装置

2 解码装置

10 麦克风阵列

20 集音部

30 频域转换部

40 掩蔽阈值计算部

50 信息量决定部

60 编码部

70 方向计算部

80 发送部

90 解码部

100 立体音频播放部

110 头戴耳机

X 音频系统

Claims

1.一种音频信号编码方法，是由编码装置执行的对多个声道的音频信号进行编码的音频信号编码方法，其特征在于，

计算与听觉的空间上的掩蔽效应对应的掩蔽阈值，

利用计算出的所述掩蔽阈值决定分配给各所述声道的信息量，

对多个所述声道的音频信号以各自被分配的所述信息量进行编码。

2.一种音频信号编码方法，是由编码装置执行的对声源对象及该声源对象的位置信息进行编码的音频信号编码方法，其特征在于，

计算与听觉的空间上的掩蔽效应对应的掩蔽阈值，

利用计算出的所述掩蔽阈值，决定分配给所述声源对象的信息量，

对所述声源对象及所述声源对象的位置信息以被分配的所述信息量进行编码。

3.如权利要求1或2所述的音频信号编码方法，其特征在于，

对应于基于各所述声道间和/或各所述声源对象间的空间上的距离和/或方向的所述空间上的掩蔽效应，计算所述掩蔽阈值。

4.如权利要求3所述的音频信号编码方法，其特征在于，

对应于所述声道和/或所述声源对象间的空间上的距离和/或方向越接近则相互带来的影响越大，而越远离则相互带来的影响越小的所述空间上的掩蔽效应，计算所述掩蔽阈值。

5.如权利要求3或4所述的音频信号编码方法，其特征在于，

关于从收听人来看位于前后对称的位置的所述声道和/或所述声源对象，对应于使所述声源对象间的关于空间上的距离和/或方向的相互带来的影响的程度变化的所述空间上的掩蔽效应，计算所述掩蔽阈值。

6.如权利要求3至5中任意一项所述的音频信号编码方法，其特征在于，

关于从所述收听人来看位于后方的位置的所述声道和/或所述声源对象，对应于在属于前后对称的位置的前方存在该声道和/或该对象的所述空间上的掩蔽效应，计算所述掩蔽阈值。

7.如权利要求3至6中任意一项所述的音频信号编码方法，其特征在于，

对应于根据各所述声道和/或所述声源对象的信号是音调性信号还是噪音性信号使各所述声道和/或声源对象的信号相互带来的影响的程度变化的所述空间上的掩蔽效应，计算所述掩蔽阈值。

8.如权利要求7所述的音频信号编码方法，其特征在于，

利用下述式(1)调整所述掩蔽阈值，

T＝β{max(y1、αy2)-1}

y1＝f(x-θ)

y2＝f(180-x-θ)……式(1)

其中，T表示为了计算所述掩蔽阈值而与各声道信号的频域上的掩蔽阈值相乘的权重，θ表示掩蔽音的方位，α表示由掩蔽音的频率控制的常数，β表示对应于掩蔽音的信号是音调性信号还是噪音性信号而被控制的常数，x表示所述方向或掩蔽音的方位。

9.如权利要求1至8中任意一项所述的音频信号编码方法，其特征在于，

利用感知熵(Perceptual Entropy)，计算每一采样的平均位数。

10.一种音频信号解码方法，是由解码装置执行的音频信号解码方法，其特征在于，

对通过权利要求1至9中记载的音频信号编码方法编码的多个所述声道的音频信号进行解码。

11.一种程序，是由编码装置执行的对多个声道的音频信号进行编码的程序，其特征在于，

使所述编码装置计算与听觉的空间上的掩蔽效应对应的掩蔽阈值，

使所述编码装置利用计算出的所述掩蔽阈值，决定分配给各所述声道的信息量，

使所述编码装置对多个所述声道的音频信号以各自被分配的所述信息量进行编码。

12.一种编码装置，是对多个声道的音频信号、和/或声源对象以及该声源对象的位置信息进行编码的编码装置，其特征在于，具备：

掩蔽阈值计算部，计算与听觉的空间上的掩蔽效应对应的掩蔽阈值；

信息量决定部，利用由所述掩蔽阈值计算部计算出的所述掩蔽阈值，决定分配给各所述声道和/或所述声源对象的信息量；以及

编码部，对多个所述声道的音频信号、和/或所述声源对象以及所述声源对象的位置信息，以各自被分配的所述信息量进行编码。

13.一种音频系统，具备权利要求12所述的编码装置和解码装置，该音频系统的特征在于，

所述解码装置具备解码部，该解码部将由所述编码装置编码的多个所述声道的音频信号和/或所述声源对象，解码为语音信号。

14.一种音频系统，具备权利要求12所述的编码装置和解码装置，该音频系统的特征在于，

所述解码装置具备：

方向计算部，计算收听人所朝向的方向；

发送部，将由所述方向计算部计算出的所述方向向所述编码装置发送；以及

解码部，将由所述编码装置编码的多个所述声道的音频信号和/或所述声源对象解码为语音信号，

所述编码装置的所述掩蔽阈值计算部对应于基于相对于所述收听人的位置和所述方向的、各所述声道间和/或各所述声源对象间的空间上的距离和/或方向的所述空间上的掩蔽效应，计算所述掩蔽阈值。

15.如权利要求13或14所述的音频系统，其特征在于，

所述解码装置还具有立体音频播放部，该立体音频播放部将由所述解码部解码后的语音信号转换为对所述收听人播放立体音频那样的立体音频信号。

16.一种解码装置，其特征在于，具备：

信号获得部，获得利用与听觉的空间上的掩蔽效应对应的掩蔽阈值，决定分配给各声道和/或声源对象的信息量，并对多个所述声道的音频信号、和/或所述声源对象以及所述声源对象的位置信息以各自被分配的所述信息量进行了编码的信号；以及

解码部，从由所述信号获得部获得的信号，将编码后的多个所述声道的音频信号和/或所述声源对象解码为语音信号。

17.如权利要求16所述的解码装置，其特征在于，还具备：

方向计算部，计算收听人所朝向的方向；以及

发送部，将由所述方向计算部计算出的所述方向向编码装置发送。

18.如权利要求16或17所述的解码装置，其特征在于，

还具备立体音频播放部，该立体音频播放部将由所述解码部解码后的语音信号转换为对所述收听人播放立体音频那样的立体音频信号。