CN117652159A

CN117652159A - 信息处理装置、信息处理方法和程序

Info

Publication number: CN117652159A
Application number: CN202280048095.7A
Authority: CN
Inventors: 大迫庆一; 松井丈; 林宽晃; 福井隆郎
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2021-07-15
Filing date: 2022-03-02
Publication date: 2024-03-05
Also published as: EP4373134A1; WO2023286326A1

Abstract

本发明抑制了硬件规模和成本的任何增加，并且使得能够执行对应于输入信号的信号处理。提供了一种信息处理装置，包括：滤波处理单元，其用于对输入信号进行滤波；以及滤波设置单元，其用于将滤波的设置配置成对输入信号中的待控制的声源类型的声音进行控制的设置，并且该设置是使用通过估计算法从输入信号获得的估计结果确定的。

Description

信息处理装置、信息处理方法和程序

技术领域

本公开内容涉及信息处理装置、信息处理方法和程序。

背景技术

当允许用户收听音乐、游戏、语音呼叫等的音频信号时，通过引入诸如均衡器或噪声滤波的信号处理，变得可以控制要收听的声音。

例如，在玩游戏时，可能期望容易听到游戏操作所需的声音，例如游戏的再现声音中包括的枪击声和脚步声。在这种情况下，通过放大或衰减要收听的声音的特定频带，变得可以容易地收听目标声音。例如，通过放大包括枪击声的频带或者通过衰减不包括枪击声的频带，变得可以强调枪击声以使其易于收听。

此外，例如，在语音呼叫中，除了期望的声音(例如，交互声音)之外的噪声诸如空调声音或电噪声可能被混合，使得难以收听期望的声音。在这种情况下，例如，通过衰减噪声的频带，变得可以去除噪声以使其易于收听。

为了实现这种声音控制，目前，例如，根据用户想收听或不想收听的声音，手动或通过预设定来适当地调整声音控制功能诸如均衡器。然而这种调整是复杂的，或者在没有音高感的情况下难以操作。

同时，下面陈述的专利文献1提出了自动控制声音的技术(具体地，基于上下文的环境声音增强和声学噪声消除技术)。专利文献1中公开的技术将放大或衰减的周围信号添加至声学噪声消除信号，声学噪声消除信号是针对噪声消除耳机的。具体地，这种处理通过调制环境声音频率的滤波器和声学噪声消除技术的组合来实现。

引用列表

专利文献

专利文献1：日本专利申请公开第2020-197712号。

发明内容

发明要解决的问题

然而，由于专利文献1中公开的技术需要麦克风来获得环境声音，因此存在硬件规模和成本增加的问题。此外，基本上，例如，可以仅控制用户周围的声音，并且仅对游戏、语音呼叫等的输入(再现)信号执行诸如预定均衡器的信号处理。因此，可能无法根据输入信号控制声音。

本公开内容的目的是提供能够根据输入信号执行处理同时抑制硬件规模和成本增加的信息处理装置、信息处理方法和程序。

问题的解决方案

例如，本公开内容涉及：

一种信息处理装置，包括：

滤波处理单元，其对输入信号执行滤波；以及

滤波设置单元，其进行滤波的设置使得输入信号中的目标音频源类型的声音被控制，并且使用通过估计算法从输入信号获得的估计结果来确定该设置。

例如，本公开内容涉及：

一种信息处理方法，包括：

使用通过估计算法从输入信号获得的估计结果确定对输入信号执行滤波的滤波处理单元的滤波的设置，以对控制输入信号中的目标音频源类型的声音。

例如，本公开内容涉及：

一种用于使计算机执行处理的程序，所述处理包括：

使用通过估计算法从输入信号获得的估计结果确定对输入信号执行滤波的滤波处理单元的滤波的设置，以控制输入信号中的目标音频源类型的声音。

附图说明

图1是示出常用均衡器的配置示例的框图。

图2是示出用于声音质量调整的设置指令屏幕的示例性显示的图。

图3是示出更新的均衡器的示例性显示的图。

图4是示出信息处理装置的功能块的配置示例的图。

图5是示出由神经网络进行的示例性音频源分离的图。

图6是示出信息处理装置的硬件配置示例的图。

图7是示出由信息处理装置执行的处理的示例的流程图。

图8是示出滤波系数计算处理的示例的流程图。

图9是示出信息处理装置的其他功能块的配置示例的图。

图10是示出由神经网络进行的滤波系数计算的示例的图。

图11是示出信息处理装置的其他功能块的配置示例的图。

图12是示出信息处理装置的其他功能块的配置示例的图。

具体实施方式

在下文中，将参照附图描述本公开内容的实施方式等。注意，将按照以下顺序给出描述。

<1.背景>

<2.第一实施方式>

<3.第二实施方式>

<4.第三实施方式>

<5.第四实施方式>

<6.变型>

下面要描述的实施方式等是本公开内容的优选具体示例，并且本公开内容的内容不限于这些实施方式等。注意，在以下描述中，具有基本上相同的功能配置的部件由相同的附图标记表示，并且将适当地省略冗余的描述。

<1.背景>

首先，将描述本公开内容的背景。图1示出了常用均衡器的配置示例。例如，用户可以根据用户想收听或不想收听的声音，通过旋钮操作等来调整均衡器的每个频带的增益(具体地，增益值)。无限冲击响应(IIR)滤波器或有限脉冲响应(FIR)滤波器通常用作内部信号处理。特别地，在使用IIR滤波器的情况下，从输入到输出的延迟时间大约是几百微秒到几毫秒，并且因此感觉不到明显的声音延迟。因此，由于声音质量可以被实时调整，所以它被广泛用于实时性重要的应用例如游戏和语音呼叫中。

然而，在使用均衡器的声音质量调整中，每个频带的增益值的精细调整是复杂的，并且此外，在当前条件下，在没有音高感的情况下难以操作。对该问题及其难题有效的现有技术如上面在背景技术中所述。

同时，近年来，使用人工智能(AI)技术移除或提取包括在音频信号中的特定声音已经变得可能。例如，如下面陈述的非专利文献1中公开的，已知一种技术，在该技术中训练和构造分离预定目标声音的神经网络，以使用训练的神经网络实现音频源分离。使用这种技术，变得可以从输入信号中分离任何和所有声音，使得可以直接收听期望的声音。

非专利文献1：Stefan Uhlich等人，“Improving music source separationbased on deep neural networks through data augmentation and network blending”2017IEEE声学、语音与信号处理国际会议(ICASSP 2017)，2017年。

然而，根据非专利文献1中公开的技术，由于神经网络的结构，需要将输入信号缓冲几十毫秒至几百毫秒，这意味着在输出信号中出现延迟。因此，例如，在如上所述实时性重要的应用中，这种延迟变成难题，并且因此不可以使用基于神经网络的音频源分离技术。

鉴于以上所述，本公开内容解决了那些难题，并且自动地采取最佳声音控制使得用户不需要精细地调整均衡器，并且此外，可以以低延迟进行输出。

<2.第一实施方式>

[2-1.应用的具体示例]

首先，将描述根据第一实施方式的应用的具体示例。注意，将在本实施方式中描述执行游戏再现声音的声音质量调整的示例性情况。图2示出了用于声音质量调整的设置指令屏幕的示例性显示。在示出的示例中，在游戏期间，声音质量调整功能被合并到屏幕中。利用这种布置，例如，可以在游戏期间执行声音质量调整。

具体地，在显示屏幕1中，游戏屏幕2显示在左侧，并且均衡器3显示在右侧。均衡器3是如上所述通常使用的类型。用户可以通过操作均衡器3来调整游戏的输出信号的声音质量。具体地，用户可以根据用户想收听或不想收听的声音，通过旋钮操作(移动旋钮位置的操作)等来调整均衡器3的每个频带的增益(增益值)。

此外，在均衡器3的下侧，显示了用于自动调整均衡器3(具体地，内部频率调制滤波器)的用户指令输入单元4(显示为“自动均衡器”的部分)。在附图中，显示为“增益”的部分是增益设置单元41，增益设置单元41允许用户做出关于增益设置的指令。具体地，增益设置单元41使用户指定是放大还是衰减由稍后要描述的“声音类型”指定的目标音频源类型的声音。例如，在“声音类型”指定了用户想要收听的声音的情况下，选择“上升(放大)”，而在指定了用户不想收听的声音的情况下，选择“下降(衰减)”。注意，增益设置单元41的功能不限于简单地允许用户选择放大或衰减，并且可以设置放大或衰减的水平，例如+○dB或-○dB(“○”表示预定数值)。

显示为“声音类型”的部分是目标音频源指定单元42，目标音频源指定单元42允许用户指定目标音频源类型。在此提到的目标音频源类型指示例如用户想要控制的声音的类型。具体地，目标音频源指定单元42允许用户选择用户想收听或不想收听的声音的类型。作为目标音频源类型，例如，可以准备各种类别，诸如期望在游戏中放大和收听“脚步声”或“枪击声”的声音的情况，以及期望衰减“风噪声”的情况。可以选择一种、两种或更多种“声音类型”。

在此，在该示例中，将“增益”和“声音类型”的组合描述为一组，并且仅选择放大和衰减中的一个。取决于用户，可能出现诸如脚步声放大和风噪声衰减的组合，并且因此可以提供两组或更多组设置项目以启用那些设置。

显示为“更新定时”的部分是允许用户指定系数更新设置的系数更新设置单元43。具体地，系数更新设置单元43允许用户指定执行声音质量的自动调整的定时(时间、间隔等)。例如，当选择“自动”模式时，在没有游戏声音的部分、在切换场景的时刻等，调整均衡器3。利用这种布置，均衡器3可以被改变，而不会对于用户正在专心收听的游戏声音不适，并且因此沉浸式感受不会受到损害。

此外，当指定“无”模式时，在指定上述“增益”或“声音类型”之后(在设置改变之后)，均衡器3被立即更新。也就是说，响应于用户操作立即改变声音质量变得可行。此外，当选择了“手动”模式时，均衡器3根据指定的间隔时间被定期地更新。利用这种布置，变得可以满足用户不断和连续更新均衡器3的需求。例如，可以设置诸如每0.5秒或每2秒的数值。例如，由用户指令输入单元4指定的各种类型的设置信息以可读的方式存储在存储区域中。

具体地，本申请使用游戏再现声音的音频信号作为输入信号，根据由用户指令输入单元4指定的设置对输入信号执行信号处理(具体地，滤波)，并且使得用户能够收听其输出信号。此外，在信号处理的设置被更新的情况下，使示出更新前后之间的差异的图像被显示在显示装置上。例如，如图3所示，对于每个频带已经改变的增益和旋钮位置被颜色编码并以可辨别的方式显示。注意，在图3中示出的示例中，颜色的差异由阴影表达。具体地，浅色的旋钮表示更新前的旋钮位置，以及深色的旋钮表示更新后的旋钮位置，即当前旋钮位置。利用这种布置，使用户能够容易地掌握均衡器已经改变(包括改变内容)。注意，可以添加指示设置的符号，例如“脚步声放大”，以便可以一眼识别均衡器的设置。

[2-2.信息处理装置的配置示例]

图4示出了根据第一实施方式的信息处理装置(信息处理装置10)的功能块的配置示例。信息处理装置10实现例如适用于上述应用(具体地，再现信号)的信号处理电路。信息处理装置10对输入信号(具体地，音频信号)执行信号处理以控制声音。音频信号从例如上述游戏、语音呼叫(例如，网络会议系统)等的应用中获得。信息处理装置10可以包括处理音频信号的各种电子装置(具体地，计算机装置)，诸如个人计算机、智能电话、平板终端、游戏机、扬声器装置、头戴式耳机、耳机、智能电器、电视、播放器、记录器、电话、车载单元、监测装置或医疗装置。

信息处理装置10包括滤波处理单元11、音频源分离系数选择单元12、音频源分离单元13、频率特性估计单元14、滤波系数计算单元15、系数更新单元16和屏幕显示更新单元17，并且根据上述设置执行信号处理。

滤波处理单元11对输入信号(具体地，输入音频信号)进行滤波和输出。利用这种布置，例如，输出信号(具体地，滤波后的音频信号)的频率特性被改变。具体地，滤波处理单元11包括滤波电路(频率调制滤波器)，并且使用该滤波电路执行滤波。例如，该滤波电路可以由上述IIR滤波器或FIR滤波器实现。也就是说，可以使用IIR滤波器或FIR滤波器来执行滤波。注意，执行滤波的滤波电路不限于此，并且可以是例如执行以下处理的滤波器：执行快速傅立叶变换(FFT)，放大或衰减转换到频域的信号的幅度谱的增益，以及执行快速傅立叶逆变换(IFFT)以将信号返回到时域波形。

在本实施方式中，具体地，假设IIR滤波器执行低延迟处理。利用这种布置，滤波可以作为实时处理被执行，并且可以应用于如上所述实时性重要的应用，即没有任何问题的实时处理。注意，只要用户感觉不到的低延迟处理是可以的，甚至可以用除IIR滤波器之外的滤波器来执行实时处理。

滤波设置的初始值(具体地，滤波系数)可以具有平坦的频率特性，即，输入信号被直接输出的属性。替选地，可以保留先前使用的系数，并在相同的设置中再次使用。以这种方式，可以使用滤波设置的适当确定的初始值。从滤波处理单元11输出的输出信号被输出至耦接在后一级的另一信号处理模块，诸如扬声器或耳机的输出(再现)装置等。

音频源分离系数选择单元12和音频源分离单元13执行与音频源分离有关的处理。音频源分离系数选择单元12基于设置目标音频源类型选择音频源分离系数。目标音频源类型例如是如上所述指定的类型(声音类别，诸如“脚步声”或“枪击声”)，所述类型作为文本信息或数字参数被输入至音频源分离系数选择单元12。

具体地，音频源分离系数选择单元12预先将音频源分离单元13中的音频源分离处理所需的系数组保存在诸如硬盘驱动器(HDD)的存储区域中，基于指定的目标音频源类型加载对应的系数，并将其传输至音频源分离单元13。具体地，需要为要被分离的声音类别的数目准备该系数组，以及由音频源分离来控制该系数组。换言之，只要准备好该音频源分离系数，任何和所有声音都可以被分离和控制。因此，在新的声音类别出现的情况下，可以在此附加地记录其系数以处理该新的声音类别。

音频源分离单元13执行音频源分离处理。关于音频源分离的估计算法被用于音频源分离处理。具体地，该估计算法从输入信号(具体地，输入音频信号)中估计并分离指定的目标音频源类型的声音，以及输出分离的声音作为估计结果。作为估计算法，例如，可以采用基于神经网络的方法(具体地，上面提及的非专利文献1中公开的方法)。例如，在使用神经网络训练目标音频源类型“脚步声”的情况下，用于训练“脚步声”的大量(例如，100000至1000000)输入信号被用于执行从输入信号中的每个中分离“脚步声”的声音的训练。在这种情况下，训练后的神经网络的参数被保存为在音频源分离单元13中分离“脚步声”的音频源所需的系数(要由音频源分离系数选择单元12加载的系数)。

图5示出了基于神经网络的示例性音频源分离。在本处理中，首先，包括要分离的信号的输入信号经受频率转换，并且其幅度谱被设置为输入信号矢量。由于矢量大小取决于频率转换的转换长度，所以其是例如1024、2048等。该矢量被输入至神经网络，并且通过使用从音频源分离系数选择单元12传输的系数的内部处理来获得作为估计结果的输出信号矢量。该输出信号矢量是分离信号的幅度谱。以固定的间隔(成帧处理)对输入信号数据执行该处理，从而获得每帧中的分离信号的幅度谱。分离信号的幅度谱，即基于估计算法的估计结果被输出至图4中示出的频率特性估计单元14。

如上所述，即使几十毫秒到几百毫秒的延迟出现，基于神经网络的音频源分离也可以高度准确地分离期望的声音。包括在输入信号中的目标音频源类型的声音在频率特性方面可能改变。也就是说，变得可以准确地分离可能根据输入信号而改变的目标音频源类型的声音。例如，在“脚步声”被指定为目标音频源类型的情况下，即使在走在沥青上的脚步声被改变为走在草地上的脚步声的情况下，脚步声也可以被适当地分离。

注意，估计算法不限于非专利文献1中公开的使用基于神经网络的方法的算法。可以使用任何方法，只要它是提取目标音频源类型的声音的方法即可，并且例如，它可以是使用非负矩阵分解(NMF)的方法。如上所述，在也使用另一估计算法的情况下，即使延迟可能以类似的方式出现，也可以高度准确地分离期望的声音。

图4中示出的频率特性估计单元14估计频率特性。该估计使用从音频源分离单元13输入的分离信号的幅度谱，即，由用户预先指定的类别的声音的幅度谱。具体地，由于针对每一帧顺序地输入幅度谱，因此可以通过例如计算具有平均值或时间常数的权重的加权和来估计期望声音的频率特性。在此，可能既有其中像“脚步声”一样产生期望声音的部分，也有无声部分。在这种情况下，由于当无声片段被包括在平均计算中时可能出现误差，所以在等于或低于某个阈值的情况下可以将其确定为无声片段，并从平均计算中排除。注意，频率特性估计单元14不限于此，并且可以通过另一方法来估计频率特性。

滤波系数计算单元15计算要在滤波处理单元11中使用的滤波系数。具体地，滤波系数计算单元15首先读取由用户设置的增益设置。如上所述，这可以通过设置是放大还是衰减指定的目标音频源类型的声音或者诸如+○dB或-○dB的特定数值来设置。以这种方式，滤波系数计算单元15设置控制包括在输入信号中的目标音频源类型的声音的滤波系数。具体地，滤波系数计算单元15基于增益设置和由频率特性估计单元14估计的频率特性来确定目标滤波特性。如果在确定特性之后，计算符合由滤波处理单元11使用的格式(例如，IIR滤波器、FIR滤波器等)的系数就足够了。该计算可以使用任何算法，诸如从传递函数获得的经典方法或基于数值优化的方法。具体地，以这种方式计算的滤波系数适当地放大或衰减输入信号的每个频带，使得目标音频源类型的声音被放大或衰减。计算的系数被输出至系数更新单元16和屏幕显示更新单元17。

系数更新单元16是执行滤波处理单元11中的滤波设置的滤波设置单元。具体地，系数更新单元16将滤波处理单元11中的滤波系数的设置设定为从滤波系数计算单元15输入的系数。也就是说，如上所述，系数更新单元16被设置成控制输入信号中的目标音频源类型的声音，并且使用通过估计算法从输入信号获得的估计结果来确定。

在此，系数更新单元16基于由用户设置的系数更新设置来控制滤波系数更新的定时。系数更新单元16基于例如输入信号(具体地，输入音频信号)来检测定时。在此，应当注意，滤波处理单元11一直持续滤波并输出输入信号，具体地，具有几百微秒到几毫秒的低延迟。也就是说，滤波处理单元11中的滤波是至少与估计算法相比延迟较低的处理(具体地，实时处理)。也就是说，用户不会感觉到延迟，并且处于以常规方式收听均衡器的输出声音的状态。以这种方式，通过仅更新滤波系数，变得可以实现用于控制由目标音频源类型指定的声音(具体地，放大或衰减所述声音的频率特性)的高度准确滤波，同时维持低延迟。

具体地，如参照图2所述，在系数更新设置为“无”的情况下，系数更新单元16在用户改变系数设置(具体地，上述“增益”或“声音类型”的设置)并且新接收到滤波指令时的时刻更新滤波系数。此外，在系数更新设置为“手动”的情况下，系数更新单元16根据用户设置等以固定的间隔更新滤波系数。此外，在系数更新设置为“自动”的情况下，系数更新单元16在不会给用户带来不适的定时更新滤波系数。

使用指示声音切换定时的预定确定信息(例如，音频信号、视频信号等)来确定定时是否带来不适。例如，输入信号被监测为确定信息，并且输入信号可以在音量(幅度值)变得小于某个阈值时的定时改变。替选地，在游戏或音乐的情况下，当场景改变时，输入信号可以在声音改变部分改变。利用这种布置，变得可以避免由滤波系数变化引起的突然声音变化。注意，在滤波系数被更新的情况下，系数更新单元16向屏幕显示更新单元17输出指示更新的信息。

屏幕显示更新单元17将已经显示的均衡器3、滤波设置参数等更新为最新的均衡器3、滤波设置参数等。具体地，在系数更新单元16更新滤波系数的情况下，即，在从系数更新单元16输入指示执行了更新的信息的情况下，屏幕显示更新单元17使显示装置输出指示更新前后之间的差异的信息。具体地，如图3中所示，屏幕显示更新单元17使显示装置显示均衡器3的图像，均衡器3可以由用户操作，该图像包括指示差异的信息。注意，指示差异的信息不限于图3中的图示，并且例如，它可以从除显示装置之外的再现装置输出(具体地，作为声音从扬声器等输出)。

[2-3.信息处理装置的硬件配置示例]

图6示出了信息处理装置10的硬件配置示例。信息处理装置10包括通过总线彼此耦接的控制单元101、存储单元102、输入单元103、通信单元104和输出单元105。

控制单元101包括例如中央处理单元(CPU)、随机存取存储器(RAM)、只读存储器(ROM)等。ROM存储要由CPU读取和操作的程序等。RAM用作CPU的工作存储器。CPU通过根据存储在ROM中的程序执行各种处理并发出命令来控制整个信息处理装置10。

存储单元102是包括例如HDD、固态驱动器(SSD)、半导体存储器等的存储介质，并且存储诸如图像数据、视频数据、音频数据、文本数据以及此外程序(例如应用)的数据等的内容数据。

输入单元103是用于向信息处理装置10输入各种类型的信息的装置。当输入单元103输入信息时，控制单元101根据输入的信息执行各种类型的处理。除了鼠标和键盘之外，输入单元103可以是麦克风、各种传感器、触摸面板、与监视器集成配置的触摸屏、物理按钮等。注意，各种类型的信息可以经由稍后描述的通信单元104输入至信息处理装置10。

通信单元104是根据预定通信标准与其他装置和因特网通信的通信模块。通信方案的示例包括无线局域网(LAN)诸如无线保真(Wi-Fi)、长期演进(LTE)、第五代移动通信系统(5G)、宽带、蓝牙(注册商标)等。

输出单元105是用于从信息处理装置10输出各种类型的信息的装置。输出单元105包括例如显示图像和视频的显示器(显示装置)和输出声音的输出装置诸如扬声器。注意，各种类型的信息可以经由通信单元104从信息处理装置10输出。

控制单元101通过例如读取和执行存储在存储单元102中的程序(例如，应用)来执行各种类型的处理。也就是说，信息处理装置10具有作为计算机的功能。

注意，程序(例如，应用)可以不存储在存储单元102中。例如，存储在由信息处理装置10可读的存储介质中的程序可以被读取和执行。存储介质的示例包括光盘、磁盘、半导体存储器、能够从信息处理装置10拆卸的HDD等。此外，程序(例如，应用)或数据可以存储在连接至诸如因特网的网络的装置(例如，云存储装置)中，并且信息处理装置10可以从中读取程序或数据以执行程序或数据。此外，程序可以是例如向现有应用添加处理的部分或全部的插件程序。例如，程序可以执行如上所述的整个应用，或者可以是将上述声音控制功能添加至应用的插件程序。

[2-4.由信息处理装置进行的示例性处理]

图7按照流程图示出了上述一系列处理(声音质量调整处理)。注意，在本示例中，描述了基于上述用户操作要作为输入的目标音频源类型、增益和系数更新的每个设置在开始时仅设置一次，以使流程更容易理解。然而，这种设置改变可以随时进行。

当声音质量调整处理开始时，信息处理装置10首先初始化滤波处理单元11的设置(步骤S10)。具体地，系数更新单元16为滤波系数设置初始值。然后，当根据用户操作进行声音质量调整设置时，信息处理装置10设置目标音频源类型、增益和系数更新(步骤S20)。具体地，通过图2中示出的设置指令屏幕指示设置，以将、增益和系数更新保存在存储区域中。

然后，在进行这些设置之后，信息处理装置10输入音频信号(步骤S30)。利用这种布置，音频信号(输入信号)被输入至滤波处理单元11、音频源分离单元13和系数更新单元16。接下来，信息处理装置10确定滤波系数更新定时是否达到(步骤S40)。具体地，该确定由系数更新单元16基于上述系数更新设置来进行。在在步骤S40中更新定时被确定为达到(是)的情况下，信息处理装置10更新滤波系数(步骤S50)。具体地，系数更新单元16使用(稍后要描述的)滤波系数计算处理的计算结果来更新滤波系数。

接下来，信息处理装置10根据滤波系数的更新来更新屏幕显示(步骤S60)。具体地，屏幕显示更新单元17使显示装置输出指示更新前后之间的差异的信息(例如，如图3中示出的均衡器3的图像)。

在在步骤S60中更新屏幕显示之后，或者在在步骤S40中滤波系数更新定时被确定为没有达到(否)的情况下，信息处理装置10执行低延迟滤波(步骤S70)，并且输出滤波的音频信号(步骤S80)。具体地，滤波处理单元11对音频信号执行滤波，并输出滤波的音频信号。然后，输出的音频信号被传输至诸如扬声器或耳机的输出装置，并被输出。

接下来，信息处理装置10确定信号是否正在继续(步骤S90)，并且在信号被确定为继续(是)的情况下，处理返回至步骤S30。另一方面，在信号被确定为不继续(否)的情况下，终止声音质量调整处理。

图8是示出由信息处理装置10执行的滤波系数计算处理的流程的流程图。例如，当音频信号被输入至音频源分离单元13时，滤波系数计算处理开始。首先，信息处理装置10对音频信号执行信号缓冲(步骤S110)。接下来，信息处理装置10选择音频源分离系数(步骤S120)。具体地，音频源分离系数选择单元12基于设置的目标音频源类型选择音频源分离系数，并将其输出至音频源分离单元13。

随后，信息处理装置10对音频信号执行音频源分离(步骤S130)。具体地，音频源分离单元13基于音频源分离系数从音频信号中分离目标音频源类型的声音，并将其输出至频率特性估计单元14。接下来，信息处理装置10估计频率特性(步骤S140)。具体地，频率特性估计单元14估计分离的目标音频源类型的声音的频率特性，并将其输出至滤波系数计算单元。最后，信息处理装置10计算滤波系数(步骤S150)，并终止滤波系数计算处理。具体地，滤波系数计算单元15使用估计的频率特性计算滤波系数，并将其输出至系数更新单元16。该滤波系数用于上述滤波系数的更新(步骤S50)。

[2-5.结论]

在根据本实施方式的信息处理装置10中，系数更新单元16确定滤波处理单元11的滤波的设置，该滤波处理单元11使用通过估计算法从输入信号获得的估计结果对输入信号执行滤波，以控制输入信号中的目标音频源类型的声音。利用这种布置，变得可以根据输入信号生成最佳滤波，而不需要诸如麦克风的附加硬件。更具体地，可以生成对于包括在输入信号中的目标音频源类型的声音的特性最佳的滤波。利用这种布置，变得可以为用户再现具有最佳声学特性的信号。

此外，由于滤波处理单元11中的滤波与估计算法的处理相比具有较低的延迟(具体地，实时处理)，所以由滤波处理单元11滤波的输出信号可以以低延迟(例如，大约几百微秒到几毫秒的延迟)输出。此外，由于滤波的设置根据系数更新设置被自动更新，所以用户不需要精细地调整滤波的设置(具体地，均衡器等)。

此外，滤波的设置不仅可以以固定的间隔更新，而且可以在接收到改变滤波设置的指令时的定时(用户的可选定时)或者在不会给用户带来不适的定时更新。利用这种布置，变得可以使滤波系数更新时的声音质量的改变更加自然，并且不会损害内容中的沉浸式的感觉。

此外，在系数更新单元16更新滤波系数的情况下，使显示装置输出用户可操作的均衡器的图像，使得可以理解更新前后之间的差异，从而变得可以允许用户直观地掌握滤波条件。

<3.第二实施方式>

根据第二实施方式的信息处理装置与根据第一实施方式的信息处理装置10的不同之处在于滤波系数本身是通过估计算法来估计的。其他要点(应用的具体示例、硬件的配置示例等)与信息处理装置10的要点基本上相同。在下文中，将描述与上述信息处理装置10的差异。

图9示出了根据本实施方式的信息处理装置(信息处理装置10A)的功能块的配置示例。信息处理装置10A包括滤波处理单元11、音频源分离系数选择单元12、音频源分离单元13A、系数更新单元16和屏幕显示更新单元17。

音频源分离单元13A执行滤波系数输出类型的音频源分离处理。简单地说，音频源分离单元13A不设置幅度谱值作为输出，而是在滤波处理单元11中直接估计滤波设置(具体地，滤波系数)本身。关于音频源分离的估计算法被用于音频源分离处理。具体地，估计算法使用从音频源分离系数选择单元12输入的系数和设置的增益设置从输入信号估计滤波系数，并将其作为估计结果输出。例如，神经网络可以用作估计算法。注意，估计算法可以不同于此，只要可以执行类似的处理即可。

图10示出了由神经网络进行的滤波系数计算的示例。以与第一实施方式中已经描述的图5中的示例性音频源分离的情况类似的方式，该神经网络使用通过将输入信号转换到频域而获得的幅度谱作为输入信号矢量。另外，增益设置的值(例如，+○dB，-○dB等)作为输入给出。神经网络的输出被设置为要由滤波处理单元11使用的滤波系数。由于只要预先准备一组输入数据和输出数据，就能够使神经网络执行训练，所以也可以实现这种不规则的输入/输出。以这种方式获得的滤波系数被输出至系数更新单元16和屏幕显示更新单元17。

系数更新单元16使用从音频源分离单元13A输入的滤波系数来更新滤波处理单元11的滤波系数。屏幕显示更新单元17使用从音频源分离单元13A输入的滤波系数来更新显示装置的显示。其他要点类似于第一实施方式的要点。以这种方式，在本实施方式中，在由根据第一实施方式的信息处理装置10进行的滤波系数计算处理(参见图8)中的从音频源分离(步骤S130)到滤波系数计算(步骤S150)的处理在音频源分离单元13A中共同执行。其他要点如参照图7和图8所述。

因此，根据本实施方式，除了第一实施方式中描述的效果之外，还发挥了以下效果。通过在音频源分离单元13A中直接输出滤波系数本身，变得可以省略根据第一实施方式的信息处理装置10中包括的频率特性估计单元14和滤波系数计算单元15(参见图4)。也就是说，变得可以通过减少功能块的数目来简化处理。

此外，神经网络本身的操作也可以减少输出矢量的维数。具体地，尽管在输出幅度谱的情况下需要1024或2048的大小，但是IIR滤波系数的输出需要几到几十的大小。因此，变得可以减少神经网络的后续阶段中的乘法/加法运算。因此，与图5中示出的情况(输出分离声音的情况)相比，变得可以减少计算量，即减少功耗。

<4.第三实施方式>

根据第三实施方式的信息处理装置与第一实施方式的不同之处在于通过根据输出装置校正频率特性来计算滤波系数。其他要点类似于第一实施方式的要点。

图11示出了根据本实施方式的信息处理装置(信息处理装置10B)的功能块的配置示例。以与根据第一实施方式的信息处理装置10类似的方式，信息处理装置10B包括滤波处理单元11、音频源分离系数选择单元12、音频源分离单元13、频率特性估计单元14、滤波系数计算单元15、系数更新单元16和屏幕显示更新单元17。

此外，信息处理装置10B包括频率特性校正单元18，频率特性校正单元18在频率特性估计单元14和滤波系数计算单元15之间执行上述校正。也就是说，在本实施方式中，由频率特性估计单元14估计的频率特性被输出至频率特性校正单元18。

频率特性校正单元18使用输出装置频率特性来校正从音频源分离输出估计的频率特性。输出装置频率特性是对输出滤波的输出信号的输出装置(例如，诸如耳机和扬声器的再现装置)的硬件唯一的频率特性。输出装置频率特性例如被预先测量并以可读方式存储在存储区域中。例如，在确定了输出装置的使用型号的情况下，存储该型号的特性，而在未确定使用型号的情况下，存储每个型号(例如，智能电话A的扬声器、耳机B等)的频率特性。然后，根据需要确定模型(不论它是自动确定的还是手动确定的)，并且使用根据确定结果的特性。

具体地，鉴于在再现时应用输出装置的特性的事实，频率特性校正单元18通过将其负特性应用于音频源分离输出的频率特性来执行校正。例如，虽然取决于输出装置的型号可能难以输出低音调声音，但是在这种情况下，执行校正以使低音调声音更容易输出。利用这种布置，变得可以获得对于输出装置最佳的滤波系数。

注意，尽管在示出的示例中，频率特性校正单元18校正从频率特性估计单元14输入的频率特性，并且将校正的频率特性输出至滤波系数计算单元15，但是频率特性估计单元14可以读取输出装置频率特性，并直接估计校正的频率特性。

如上所述，根据本实施方式，除了第一实施方式中描述的效果之外，还发挥了以下效果。变得可以根据输入信号和输出装置频率特性生成更最佳滤波。也就是说，考虑到内容和再现装置二者来调整声音质量，由此可以提供具有更高声音质量的声音。

<5.第四实施方式>

根据第四实施方式的信息处理装置与第一实施方式的不同之处在于处理的一部分在服务器侧执行。其他要点类似于第一实施方式的要点。

图12示出了根据本实施方式的信息处理装置(信息处理装置10C)的功能块的配置示例。要在客户端侧的信息处理装置10C包括滤波处理单元11、系数更新单元16和屏幕显示更新单元17。此外，信息处理装置10C具有能够经由诸如因特网的网络与要在服务器侧的另一信息处理装置10D通信的通信功能。

同时，另一信息处理装置10D包括音频源分离系数选择单元12、音频源分离单元13、频率特性估计单元14和滤波系数计算单元15。此外，另一信息处理装置10D具有能够经由网络与信息处理装置10C通信的通信功能。如上所述，在本实施方式中，在服务器侧执行音频源分离系数选择单元12、音频源分离单元13、频率特性估计单元14和滤波系数计算单元15的处理(具体地，图8中示出的滤波系数计算处理)。注意，另一信息处理装置10D的硬件配置类似于信息处理装置10C的硬件配置(参见图6)。

具体地，信息处理装置10C将输入信号和指定的目标音频源类型和增益设置发送至另一信息处理装置10D。另一信息处理装置10D使用它们利用音频源分离系数选择单元12、音频源分离单元13、频率特性估计单元14和滤波系数计算单元15计算滤波系数，并将计算的滤波系数发送至信息处理装置10C。

信息处理装置10C接收从另一信息处理装置10D发送的滤波系数。具体地，系数更新单元16和屏幕显示更新单元17中的每一个使用接收到的滤波系数来执行上述处理。以这种方式，信息处理装置10C经由网络获得由另一信息处理装置10D确定的滤波系数。

因此，根据本实施方式，除了第一实施方式中描述的效果之外，还发挥了以下效果。客户端侧的信息处理装置10C向服务器侧的另一信息处理装置10D发送要用于声音质量调整的各种设置和输入信号，并从另一信息处理装置10D接收滤波系数，由此变得可以获得低延迟、低计算量和高性能的滤波系数。也就是说，通过在服务器侧执行具有相对大的计算量的处理(具体地，音频源分离)，变得可以显著地抑制客户端侧的计算负荷。

<6.变型>

尽管已经具体描述了本公开内容的实施方式，但是本公开内容不限于上述实施方式，并且可以进行基于本公开内容的技术构思的各种修改。例如，可以进行下面要描述的各种修改。此外，可以适当地组合下面要描述的修改的一个或多个可选选择的各方面。此外，上述实施方式的配置、方法、处理、形状、材料、数值等可以在不脱离本公开内容的主旨的情况下彼此组合或交换。此外，可以将一个划分成两个或更多个，并且可以省略其一部分。

例如，尽管上述第一实施方式例示了使用图2中示出的设置指令屏幕来设置目标音频源类型、增益和系数更新中的每一个的设置的配置，但是设置指令不限于此。例如，设置指令屏幕可以具有另一种屏幕配置。具体地，用户指令输入单元4可以与游戏屏幕2单独显示。此外，每个设置的指令不限于使用设置指令屏幕的指令，并且可以是例如通过语音输入发出的指令。此外，每个设置不限于由用户适当设置的设置，并且可以使用预定设置。

此外，尽管图2中示出的均衡器3被例示为用于第一实施方式中的声音质量调整的均衡器，但是例如，可应用的均衡器不限于此，并且任何均衡器(例如，类型、功能等)可以被选择。在这种情况下，如果要由用户设置的设置项目、滤波处理单元11的配置等根据要使用的均衡器在必要时改变就足够了。例如，均衡器3可以是图形均衡器或参数均衡器，并且设置项目可以适当地设置要使用的均衡器的参数。

此外，尽管第一实施方式例示了放大或衰减目标音频源类型的声音的配置，但是例如声音控制不限于此。例如，可以提取或移除目标音频源类型的声音，或者可以改变目标音频源类型的声音的频率特性(例如，音高)。例如，通过将特定人的声音、特定乐器的声音、噪声等设置为目标音频源类型，其可以应用于强调、改变、提取或移除这些声音。

此外，尽管第一实施方式例示了游戏作为信息处理装置10的声音质量调整功能能够应用于的应用的具体示例，但是例如其不限于此，并且可以应用于其他应用，诸如网络会议系统、直播流媒体系统和呼叫应用。

此外，尽管校正输出装置(频率特性校正单元18)的频率特性的功能被提供给上述第三实施方式中的包括第一实施方式中描述的音频源分离单元13的信息处理装置10B，但是例如，该功能可以被提供给包括第二实施方式中描述的音频源分离单元13A的信息处理装置。在这种情况下，如果例如以与图5中示出的增益设置类似的方式将输出装置频率特性输入至音频源分离单元13A以获得估计结果就足够了。

此外，尽管在上述第四实施方式中，在服务器侧执行第一实施方式中描述的音频源分离系数选择单元12、音频源分离单元13、频率特性估计单元14和滤波系数计算单元15的处理，但是例如，要在服务器侧执行的处理不限于此。例如，在根据第二实施方式的信息处理装置10A中，音频源分离系数选择单元12和音频源分离单元13A的处理可以在服务器侧执行。此外，例如，这些处理的一部分可以在服务器侧执行。

注意，本公开内容也可以采用以下配置。

(1)

一种信息处理装置，包括：

滤波处理单元，其对输入信号执行滤波；以及

滤波设置单元，其进行所述滤波的设置使得所述输入信号中的目标音频源类型的声音被控制，并且使用通过所述估计算法从所述输入信号获得的估计结果来确定所述设置。

(2)

根据(1)所述的信息处理装置，其中，

所述滤波包括与所述估计算法相比延迟较低的处理。

(3)

根据(1)或(2)所述的信息处理装置，其中，

所述滤波是实时处理。

(4)

根据(1)至(3)中任一项所述的信息处理装置，其中，

所述估计算法从所述输入信号估计和分离所述目标音频源类型的声音，以及

所述滤波的设置是基于由所述估计算法分离的所述目标音频源类型的声音的频率特性确定的。

(5)

根据(1)至(3)中任一项所述的信息处理装置，其中，

所述估计算法直接估计所述滤波的设置。

(6)

根据(1)至(5)中任一项所述的信息处理装置，其中，

所述滤波的设置适当地放大或衰减所述输入信号的每个频带，使得所述目标音频源类型的声音被放大或衰减。

(7)

根据(1)至(6)中任一项所述的信息处理装置，其中，

使用无限冲击响应(IIR)滤波器执行所述滤波，以及

所述滤波的设置包括所述滤波器的滤波系数。

(8)

根据(1)至(7)中任一项所述的信息处理装置，其中，

所述估计算法使用神经网络，所述神经网络被训练成通过输入用于训练的输入信号来获得所述估计结果。

(9)

根据(1)至(8)中任一项所述的信息处理装置，其中，

在接收到所述滤波的指令的定时、以固定的间隔、或者在基于预定的确定信息确定没有不适的定时，更新所述滤波的设置。

(10)

根据(1)至(9)中任一项所述的信息处理装置，其中，

在所述滤波的设置被更新的情况下，使输出装置输出指示更新前后之间的差异的信息。

(11)

根据(1)至(10)中任一项所述的信息处理装置，其中，

输出装置包括显示装置，以及

使所述输出装置显示用户可操作的均衡器的图像，所述图像包括指示差异的信息。

(12)

根据(1)至(11)中任一项所述的信息处理装置，其中，

根据输出滤波之后的输出信号的输出装置的频率特性来校正滤波的设置。

(13)

根据(1)至(12)中任一项所述的信息处理装置，其中，

所述滤波的设置由另一信息处理装置确定，并经由网络获得。

(14)

一种信息处理方法，包括：

使用通过估计算法从输入信号获得的估计结果确定对所述输入信号执行滤波的滤波处理单元的滤波的设置，以控制所述输入信号中的目标音频源类型的声音。

(15)

一种用于使计算机执行处理的程序，所述处理包括：

附图标记列表

3 均衡器

10、10A、10B、10C 信息处理装置

11 滤波处理单元

13、13A 音频源分离单元

14 频率特性估计单元

15 滤波系数计算单元

16 系数更新单元

17 屏幕显示更新单元

18 频率特性校正单元

Claims

1.一种信息处理装置，包括：

滤波处理单元，其对输入信号执行滤波；以及

滤波设置单元，其进行所述滤波的设置使得所述输入信号中的目标音频源类型的声音被控制，并且使用通过估计算法从所述输入信号获得的估计结果来确定所述设置。

2.根据权利要求1所述的信息处理装置，其中，

所述滤波包括与所述估计算法相比延迟较低的处理。

3.根据权利要求1所述的信息处理装置，其中，

所述滤波包括实时处理。

4.根据权利要求1所述的信息处理装置，其中，

5.根据权利要求1所述的信息处理装置，其中，

所述估计算法直接估计所述滤波的设置。

6.根据权利要求1所述的信息处理装置，其中，

7.根据权利要求1所述的信息处理装置，其中，

使用无限冲击响应(IIR)滤波器执行所述滤波，以及

所述滤波的设置包括所述滤波器的滤波系数。

8.根据权利要求1所述的信息处理装置，其中，

9.根据权利要求1所述的信息处理装置，其中，

10.根据权利要求1所述的信息处理装置，其中，

11.根据权利要求10所述的信息处理装置，其中，

所述输出装置包括显示装置，以及

使所述输出装置显示用户可操作的均衡器的图像，所述图像包括指示所述差异的信息。

12.根据权利要求1所述的信息处理装置，其中，

根据输出滤波之后的输出信号的输出装置的频率特性来校正所述滤波的设置。

13.根据权利要求1所述的信息处理装置，其中，

14.一种信息处理方法，包括：

15.一种用于使计算机执行处理的程序，所述处理包括：