CN113038343A

CN113038343A - 音频输出装置及其控制方法

Info

Publication number: CN113038343A
Application number: CN202011426770.4A
Authority: CN
Inventors: 黄仁雨; 金善民; 金起范
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2019-12-09
Filing date: 2020-12-09
Publication date: 2021-06-25
Also published as: WO2021118107A1; KR20210072388A; KR102712458B1; US11564050B2; EP3836571A1; US20210176580A1

Abstract

公开了一种音频输出装置。音频输出装置通过设置在不同位置的多个扬声器输出多声道音频信号，音频输出装置包括输入器和处理器，处理器配置成：基于通过输入器输入的多声道音频信号，获得与包括在多声道音频信号中的音频类型有关的场景信息以及与基于虚拟用户的、由包括在多声道音频信号中的音频类型的声像形成的角度有关的声像角信息；以及基于所获得的场景信息和声像角信息，从多声道音频信号生成要通过多个扬声器输出的输出信号，其中音频类型包括音效、叫喊声、音乐和言语中的至少一种，并且多个扬声器的数量等于或大于多声道音频信号的声道数量。

Description

音频输出装置及其控制方法

相关申请的交叉引用

本申请以2019年12月9日在韩国知识产权局提交的第10-2019-0162659号韩国专利申请为基础并且要求其优先权，该韩国专利申请的公开内容以全文引用的方式并入本文。

技术领域

本公开涉及音频输出装置及其控制方法。更具体地，本公开涉及通过多个扬声器输出多声道音频信号的音频输出装置及其控制方法。

背景技术

随着电子技术的发展，随着大屏幕显示和高分辨率内容的出现，对高真实感的声音的期望也在增加。因此，已经尝试了通过多声道扬声器来提供高真实感的声音的技术，在多声道扬声器中，将附加声道(例如，高声道)添加到现有立体声声道扬声器。

然而，由于在现实生活中遇到的大多数音频内容具有立体声声道或5.1声道，因此当通过具有多于音频内容的声道数量的多声道扬声器播放音频内容时，可能出现通过多声道扬声器呈现声音的问题。

本公开的一个或多个方面提供了一种通过充分考虑音频内容的制作目的来向用户提供高真实感的声音的方法。

发明内容

根据本公开的一个方面，提供了一种音频输出装置，其包括：接收器，配置成接收多声道音频信号；以及处理器，配置成：基于通过接收器接收的多声道音频信号，从多声道音频信号获得与音频类型有关的场景信息以及与对应于虚拟用户的、由音频类型的声像形成的角度有关的声像角信息，并且基于所获得的场景信息和声像角信息，从多声道音频信号生成将通过多个扬声器输出的输出信号，其中音频类型包括音效、叫喊声、音乐和言语中的至少一种，并且多个扬声器的数量等于或大于多声道音频信号的声道数量。

多声道音频信号可以包括多个音频帧，并且处理器还可以配置成从多个音频帧中的一个或多个音频帧的每个获得场景信息，并且针对一个或多个音频帧的每个获得对于每个频带的声像角信息。

多个扬声器可以包括具有与虚拟用户对应的第一水平面角度的多个第一扬声器以及具有与虚拟用户对应的第二水平面角度的多个第二扬声器。第一水平面角度可以大于第二水平面角度。

基于识别出包括在场景信息中的音频类型是音效，处理器还可以配置成：通过对包括音效的音频帧的整个频带的信号之中的、声像角信息等于或大于预定角度的频带的信号执行傅立叶逆变换，生成将通过多个第一扬声器输出的第一输出信号；以及通过对包括音效的音频帧的整个频带的信号之中的、声像角信息小于预定角度的频带的信号进行傅立叶逆变换，生成将通过多个第二扬声器输出的第二输出信号。

基于识别出包括在场景信息中的音频类型是声音，处理器还可以配置成：通过对包括声音的音频帧的整个频带之中的、声像角信息不是0°的频带的信号执行傅立叶逆变换，生成将通过多个第一和第二扬声器输出的输出信号。

基于识别出包括在场景信息中的音频类型是音乐，处理器还可以配置成：通过对包括音乐的音频帧的整个频带的信号执行傅立叶逆变换，生成要通过多个第二扬声器输出的输出信号。

处理器可还配置成：获得关于多声道音频信号的至少一个音频特征，并且基于所获得的至少一个音频特征获得场景信息。

处理器可还配置成：使用训练成识别包括在多声道音频信号中的音频类型的人工智能模型来获得场景信息。

处理器可还配置成：基于多声道音频信号的声道间响度差(ILD)和声道间时间差(ITD)中的至少一者来获得声像角信息。

处理器可还配置成：基于场景信息将声音效果施加到所生成的输出信号。

多个扬声器设置在音频输出装置中。

音频输出装置还可以包括通信器。处理器还可以配置成：控制通信器通过存在于音频输出装置外部的多个扬声器输出输出信号。

基于识别出包括在场景信息中的音频类型包括多种音频类型，处理器还可以配置成：通过反映在所有一个或多个音频帧中的多种音频类型中的每一种所占用的能量比来生成输出信号。

根据本公开的另一方面，提供了一种控制音频输出装置的方法，该方法包括：接收多声道音频信号；从多声道音频信号中获取关于音频类型的场景信息，以及从多声道音频信号中获取关于与虚拟用户对应的、由音频类型的声像形成的角度的声像角信息；以及基于所获得的场景信息和声像角信息，从多声道音频信号生成要通过多个扬声器输出的输出信号，其中，音频类型包括音效、叫喊声、音乐和言语中的至少一种，并且多个扬声器的数量等于或大于多声道音频信号的声道数量。

多声道音频信号可以包括多个音频帧。场景信息可以配置成是从多个音频帧中的一个或多个音频帧的每个获得的，并且可以配置成针对一个或多个音频帧的每个获得对于每个频带的声像角信息。

基于识别出包括在场景信息中的音频类型是音效，所述生成可以包括：通过对包括音效的音频帧的整个频带的信号之中的、声像角信息等于或大于预定角度的频带的信号执行傅立叶逆变换，生成要通过多个第一扬声器输出的第一输出信号，以及通过对包括音效的音频帧的整个频带的信号之中的、声像角信息小于预定角度的频带的信号进行傅立叶逆变换，来生成将通过多个第二扬声器输出的第二输出信号。

基于识别出包括在场景信息中的音频类型是叫喊声，所述生成可以包括：对包括声音的音频帧的整个频带之中的、声像角信息不是0°的频带的信号执行傅立叶逆变换，以生成要通过多个第一和第二扬声器输出的输出信号。

基于识别出包括在场景信息中的音频类型是音乐，所述生成可以包括：对包括音乐的音频帧的整个频带的信号执行傅立叶逆变换，以生成要通过多个第二扬声器输出的输出信号。

根据本公开的另一方面，提供了一种非暂时性计算机可读介质，其包括用于执行控制音频输出装置的方法的程序，该方法包括：接收多声道音频信号；从多声道音频信号中获取关于音频类型的场景信息，以及从多声道音频信号中获取关于与虚拟用户对应的、由音频类型的声像形成的角度的声像角信息；以及基于所获得的场景信息和声像角信息，从多声道音频信号中生成要通过多个扬声器输出的输出信号，其中，音频类型包括音效、叫喊声、音乐和言语中的至少一种，并且多个扬声器的数量等于或大于多声道音频信号的声道数量。

根据本公开的另一方面，提供了一种音频输出装置，其包括：存储器，存储一个或多个指令；以及处理器，配置成执行一个或多个指令以：接收多声道音频信号，获得关于包括在多声道音频信号中的音频类型的场景信息，从多声道音频信号获得关于对应于虚拟用户的、由音频类型的声像形成的角度的声像角信息，以及基于多声道音频信号、所获得的场景信息和声像角信息来生成将通过多个扬声器输出的输出信号，其中多个扬声器的数量等于或大于多声道音频信号的声道数量。

附图说明

图1是示出根据本公开的实施例的通过网络向音频输出装置提供音频内容的环境的视图；

图2是根据本公开的实施例的音频输出装置的框图；

图3A是示出根据本公开的实施例的声像角的视图；

图3B是示出根据本公开的实施例的包括在多声道音频信号中的多个音频帧的视图；

图3C是示出根据本公开的实施例的每个频带的声像角信息的曲线图；

图4是示出根据本公开的实施例的处理器的功能框图；

图5A是根据本公开的实施例的音频输出装置的示例性视图；

图5B是设置在图5A的音频输出装置上的多个扬声器的水平面角度的视图；

图6是根据本公开的实施例的音频输出装置的详细框图；

图7A是示出根据本公开的另一个实施例的包括音频输出装置的音频系统的视图；

图7B是示出设置在图7A的音频系统上的多个扬声器的水平面角度的视图；

图8是示出根据本公开的另一个实施例的处理器的功能框图；和

图9是示出根据本公开的实施例的控制音频输出装置的方法的流程图。

具体实施方式

本发明的一个目的是提供这样一种音频输出装置以及控制音频输出装置的方法，该音频输出装置能够经由多声道扬声器通过提供考虑了制作音频内容的目的的声音来向用户提供高真实感的声音。

在下面的描述中，不详细描述公知的功能或结构，因为它们将会以不必要的细节使得本申请不清楚。此外，将省略对相同配置的冗余描述。

在以下描述中使用的术语用于解释示例性实施例，而不旨在限制范围。单数形式旨在包括复数形式，除非上下文另外清楚地指出。

应当理解，在本说明书通篇，术语“包括”及其变体，例如“包含”，指出存在说明书中所描述的特征、数字、步骤、操作、组件、部件或其组合，但不排除存在或添加一个或多个其他的特征、数字、步骤、操作、组件、部件或其组合。

在描述中，术语“第一”、“第二”等用于描述各种元件，而不管它们的顺序和/或重要性，并且用于将一个元件与其他元件区分开，但不限制相应的元件。

当元件(例如，第一元件)与另一个元件(例如，第二元件)可操作地或通信地联接或连接到另一个元件(例如，第二元件)时，元件可以直接与该另一个元件联接，或者可以通过又一个元件(例如，第三元件)与该另一个元件联接。另一方面，当元件(例如，第一元件)直接与另一个元件(例如，第二元件)联接或直接连接到另一个元件(例如，第二元件)时，该元件和该另一个元件之间不存在元件。

在本公开的实施例中使用的术语可以被解释为本领域技术人员通常知晓的含义，除非这些术语被不同地定义。

在下文中，将参考附图详细描述本公开。

图1是示出根据本公开的实施例通过通信介质5向音频输出装置100-1至100-4提供音频内容的环境10的视图。

如图1所示，音频内容(或音源)可以通过通信介质5从广播发射站1、卫星2、内容提供服务器3等提供给音频输出装置100-1至100-4。

音频内容可以以立体声声道音频信号或诸如5.1声道音频信号的多声道音频信号的形式被提供给音频输出装置100-1至100-4。根据实施例，根据内容的类型，可以仅提供音频内容，或者可以向音频内容提供视频内容。

广播发射站1可以包括用于发射地面广播内容的发射机或中继器。卫星2可以包括用于发送数据或卫星广播内容的通信卫星。内容提供服务器3可以指通信网络上的服务器，其提供IPTV的广播内容、有线电视的广播内容、各种音源内容和VOD内容。

通信介质5可以包括空中介质或已建立的通信网络。在这种情况下，通信网络可以包括无线蜂窝网络、因特网、广域网(WAN)、局域网(LAN)、有线电话网络、电缆网络等。

音频输出装置100-1至100-4包括能够一起播放或再现视频和音频的显示设备100-1、100-2和100-4以及能够仅播放或再现音频内容的音频设备100-3。

显示设备100-1、100-2、100-4配备有例如智能电视、监视器、智能电话、台式计算机、膝上型计算机、平板电脑、导航和数字标牌等的显示器以播放视频，并通过扬声器输出音频。

音频设备100-3是配置成仅播放和输出音频的电子设备。例如，音频设备100-3可以包括无线电设备、音频设备、录音机、语音识别扬声器设备、包括扬声器的光盘播放器、数字音频播放器(DAP)、用于车辆的音频设备、具有扬声器的家用电器、声霸、或能够执行其他声音输出操作的各种设备。

音频输出装置100-1至100-4可以通过设置在不同位置的多个扬声器输出多声道音频信号。具体地，当通过通信介质5接收音频内容时，音频输出装置100-1至100-4可以基于接收到的音频内容生成输出信号，并且通过多个扬声器输出生成的输出信号。

根据本公开的各种实施例，多个扬声器的数量或多个扬声器的声道数量可以大于或等于传送到音频输出装置100-1至100-4的音频内容(或多声道音频信号)的声道数量。

如上所述，当通过具有比音频内容的声道数量多的声道的扬声器播放音频内容时，可以通过考虑制作音频内容的目的以呈现输出来向用户提供高真实感的声音。

具体地，制作内容的目的根据制作者而变化很大，但是对于每个流派可能存在共同的规则。例如，在体育流派的情况下，通过记录从粉丝的视点发出的声音来尽可能多地再现场景的声音；在音乐流派的情况下，在标准的2声道(立体声)环境中生动地再现乐器和歌声；而在电影流派的情况下，在多声道环境中再现与视频匹配的声音。因此，当通过使用音频内容的流派信息来执行关于多声道扬声器的声音呈现时，可以通过更紧密地反映制作内容的目的来再现音频内容。

根据本公开的各种实施例，音频输出装置100-1至100-4可以基于与所接收的多声道音频信号有关的场景信息和声像角信息来生成要通过扬声器输出的输出信号，以反映制作音频内容的目的。

场景信息是流派信息的子概念，并且包括关于包括在多声道音频信号中的音频类型对应于音效、叫喊声、言语和音乐中的哪种的信息。例如，“电影”流派的音频内容可以包括各种音频类型，例如言语、音效、叫喊声、音乐等。在这种情况下，诸如音效、叫喊声、音乐和言语的每种音频类型都可以是包括在音频内容(或多声道音频信号)中的场景。声像角信息可以包括与由包括在多声道音频信号中的音频类型的声像形成的角度有关的信息。

下面将描述音频输出装置100-1至100-4基于场景信息和声像角信息生成输出信号的更详细的描述。

另一方面，根据实施例，所生成的输出信号可以通过设置在音频输出装置100-1至100-4中的多个扬声器输出，或者可以通过安装在音频输出装置100-1至100-4外部的多个单独的扬声器输出。

如上所述，根据本公开的各种实施例，通过经由多声道扬声器根据音频内容的目的提供声音，可以向用户提供高真实感的声音。

另一方面，在上面的描述中，已经描述了通过通信介质5从音频输出装置100-1至100-4的外部提供音频内容，但不限于此。

例如，音频内容可以通过诸如通用串行总线(USB)、安全数字(SD)存储卡等便携式存储介质或各种光学存储介质提供给音频输出装置100-1至100-4。此外，音频内容可以存储在音频输出装置100-1至100-4本身的存储器(例如，硬盘驱动器(HDD)、固态驱动器(SSD)、系统存储器(Rom、BIOS等))中，并且当需要通过扬声器输出时，可以由音频输出装置100-1至100-4输出。

在下文中，将参考图2、图3A至图3C、图4和图5A至图5B详细描述根据本公开的各种实施例的音频输出装置的具体操作。在图2、图3A至图3C、图4和图5A至图5B中，为了便于描述，将假设多声道音频信号是2声道音频信号并且多个扬声器是4声道扬声器来进行描述。然而，本公开不限于2声道音频信号和4声道扬声器。这样，根据另一个实施例，多声道音频信号的数量可以不同，并且扬声器的数量可以不同。

图2是根据本公开的实施例的音频输出装置的框图。参照图2，音频输出装置100包括接收器110和处理器120。

接收器110可以通过输入接口或输入电路接收多声道音频信号，并将接收到的多声道音频信号提供给处理器120。如上所述，由于可以通过通信介质5或通过外部便携式存储介质将多声道音频信号提供给音频输出装置100，所以接收多声道音频信号的各种有线和无线通信接口可以执行接收器110的功能。

此外，由于可以从包括在音频输出装置100中的存储器向处理器120提供多声道音频信号，因此包括在音频输出装置100中的存储器可以执行接收器110的功能。

处理器120控制音频输出装置100的整体操作。特别地，当接收到通过接收器110输入的多声道音频信号时，处理器120可以基于虚拟用户和与包括在多声道音频信号中的音频类型有关的场景信息来获取与由音频类型的声像形成的角度有关的声像信息。

场景信息包括与包括在如上所述的多声道音频信号中的音频类型有关的信息，并且音频类型可以包括音效、叫喊声和音乐中的至少一种。

声像角是指当虚拟用户的前方方向基于虚拟用户为0°时，特定声音的声像与虚拟用户形成的角度。声像是实际上形成声音的焦点。例如，在音乐内容的情况下，当它感觉到实际的声音来自左和右扬声器，但歌手的声音来自中心、钢琴的声音来自左后面一点、而鼓的声音来自右后面一点时，感觉到歌手的声音、钢琴的声音和鼓的声音的焦点成为声像。换句话说，声像是某种声音被聚焦的位置，并且由声像与虚拟用户形成的角度指声像的角度。

图3A是示出根据本公开的实施例的声像角的视图。例如，如图3A所示，假设存在虚拟用户30，当包括在多声道音频信号中的音效的声像基于用户的正面形成在左侧的a°时以及当包括在多声道音频信号中的音乐的声像相对于用户的正面形成在右侧的b°时，音乐的声像角是b°。包括在多声道音频信号中的音频类型，即每个场景的声像角(例如，音效、叫喊声、音乐、言语等)，可以由制作者(例如，声音工程师)在制作音频内容时调谐或设置。当接收到包括具有已调谐或设置的声像角的场景的多声道音频信号时，处理器120可以如下所述的那样从接收到的多声道音频信号中获取包括在多声道音频信号中的每个场景的信息。

当获得多声道音频信号的场景信息和声像角信息时，处理器120可以基于所获得的场景信息和声像角信息从多声道音频信号生成要通过多个扬声器输出的输出信号，并通过多个扬声器输出所生成的输出信号。

具体地，处理器120可以根据声像角信息来划分所接收的多声道音频信号并且通过多个扬声器将其输出。在这种情况下，处理器120可以基于声像角是否落在一个范围内，分别从多声道音频信号生成要输出到多个扬声器中的每个的输出信号，并分别通过多个扬声器输出所生成的输出信号中的每个。根据实施例，该范围可以是预定范围。预定范围可以是下限因子(floor factor)，但是该术语不限于此。

基于0°的声像角，预定范围可以左(L)和右(R)成对存在。然而，其不限于此，并且预定范围可以仅存在于左(L)和右(R)中的一个中，或者可以具有在左(L)中的第一范围和在右(R)中的第二范围，其中第一范围和第二范围是不同的。另一方面，可以根据场景信息来不同地应用预定范围。

例如，预定范围可以被设定为具有分别相对于左(L)和右(R)的开始角x和结束角y，例如Lx_Scene°至Ly_Scene°、Rx_Scene°至Ry_Scene°，这取决于场景，但不限于此。

具体地，当音频类型是音效时，音频输出装置100的开发者可以基于多个扬声器的辐射模式、水平面布置或收听测试来设置预定范围。

此外，当音频类型是音乐并且多个扬声器由主扬声器(例如，下面将描述的第二扬声器)和其余扬声器(例如，下面将描述的第一扬声器)组成时，可以将预定范围设置为输出来自主扬声器的大部分输出信号。

此外，当音频类型是叫喊声时，通过设置预定范围使得除了0°的声像角之外的所有声像角的多声道音频信号分别通过所有多个扬声器输出，可以提供被叫喊声包围的效果。另一方面，根据本公开的实施例，多个扬声器可以包括基于虚拟用户具有相对大的水平面角度的多个第一扬声器以及基于虚拟用户具有相对小的水平面角度的多个第二扬声器。此外，多个扬声器可以嵌入在音频输出装置100中，或者可以安装在外部以实现与音频输出装置100的通信。

因此，处理器120可以基于场景信息和声像角信息分别生成要通过多个第一扬声器输出的输出信号和要通过多个第二扬声器输出的输出信号，并通过多个第一扬声器和多个第二扬声器输出所生成的输出信号以向用户提供忠实于制作音频内容的目的的声音，这将在下面更详细地描述。

在下文中，将通过图3B和图3C更详细地描述根据本公开的各种实施例的场景信息和声像角信息。

多声道音频信号包括多个音频帧。例如，以44100Hz的采样率采样的双声道音频信号包括组合左声道和右声道的每秒88,200个音频帧。

图3B是示出根据本公开的实施例的包括在多声道音频信号中的多个音频帧的视图。参考图3B，双声道音频信号包括左L声道的音频帧20-1至20-4和右R声道的音频帧40-1至40-4。

在图3B中，相对于音频帧20-1至20-4和40-1至40-4，在破折号(-)之后具有相同数量的音频帧表示同时采样的音频帧。换句话说，L声道的音频帧20-1和R声道的音频帧40-1以及L声道的音频帧20-2和R声道的音频帧40-2分别表示同时采样的L声道和R声道的音频帧，其余的音频帧同样如此。

在这种情况下，根据本公开的实施例，处理器120可以获取多个音频帧中的、每隔预定数量的音频帧的场景信息，从而获得关于相应的预定数量的音频帧中的每个是什么类型的音频帧的信息。

例如，在2声道音频信号的情况下，处理器120可以获取同时采样的一组(或一对)L和R的每个音频帧的场景信息。换句话说，在图3B的示例中，处理器120可以分别获取对于音频帧20-1和40-1以及对于音频帧20-2和40-2的场景信息，并且可以获取用于一组L和R中的每个音频帧的场景信息。在这种情况下，每一组音频帧组可以对应于音效、叫喊声声音和音乐中的至少一种。

然而，该实施例不限于此，并且处理器120可以获得每两组音频帧的场景信息。在这种情况下，处理器120可以以获取音频帧20-1、40-1、20-2和40-2中的每个以及音频帧20-3、40-3、20-4和40-4中的每个的场景信息的方式来获取每两组音频帧的场景信息。在这种情况下，两组音频帧中的每一组可以对应于音效、叫喊声和音乐中的至少一种。

根据实施例，处理器120可以获取每三个或更多个音频帧组的场景信息。

另一方面，处理器120可以针对预定数量的音频帧中的每个获得每个频带的声像角信息。图3C是示出根据本公开的实施例的每个频带的声像角信息的曲线图。在图3C中，水平轴表示频带，而竖直轴表示声像角。在这种情况下，水平轴的频带可以是倍频程单元、梅尔单元、等效矩形带宽(ERB)单元、临界频带单元，但不限于此。

例如，当针对每组音频帧获得场景信息时，如图3C所示，处理器120可以针对每个频带获得一组音频帧(例如图3B中的音频帧20-1和40-1)的声像角信息。

类似地，即使当针对每两组音频帧获得场景信息时，如图3C所示，处理器120也可以针对每个频带获得关于两组音频帧(例如图3B中的音频帧20-1、40-1、20-2和40-2)的声像角信息。

在如上所述的本公开的各种实施例中，场景信息可以指根据包括在多声道音频信号中的多个音频帧之中的、预定数量的音频帧的单元所获得的信息，并且声像角信息可以指根据预定数量的音频帧中的每个根据频带获得的信息。在下文中，将参考图4更详细地描述根据本公开的各种实施例的处理器120的配置和操作。图4是说明根据本公开的实施例的处理器的功能框图。参照图4，处理器120可以包括场景分析器121、声像角分析器122和音频混合器123。

场景分析器121可以通过分析输入信号(即，多声道音频信号)来获得场景信息。具体地，场景分析器121可以针对包括在多声道音频信号中的多个音频帧之中的、预定数量的音频帧获取至少一个音频特征，并且可以基于所获取的音频特征获取针对预定数量的音频帧的场景信息。

音频特征可以包括时域特征和频域特征，其中，时域特征诸如短期能量(STE)、零交叉率(ZCR)、低短期能量比(LSTER)、高零交叉率(HZCRR)等，频域特征诸如Mel频率倒谱系数(MFCC)、总功率谱、子带功率、频率质心、带宽、音调频率、频谱通量(SF)等。

例如，在从每对L和R音频帧获得场景信息的示例中，场景分析器121可以通过分析一对L和R音频帧来提取音频特征中的至少一个，并且可以从音效、叫喊声和音乐中识别对应的L和R音频帧所包括的音频种类。

从多声道音频信号中提取音频特征的特定方法以及从所提取的音频特征中识别在预定数量的音频帧中包括音效、叫喊声和音乐中的哪种音频类型的特定方法不限于本公开，而是可以采用本领域已知的任何合适的方法，下面将省略详细描述。

另一方面，根据本公开的另一个实施例，场景分析器121可以通过使用学习成识别包括在多声道音频中的音频类型的人工智能模型来获得场景信息。人工智能模型可以包括深度学习模型、卷积神经网络(CNN)模型和递归神经网络(RNN)模型中的至少一个。

例如，在从每一对L和R音频帧获得场景信息的示例中，场景分析器121可以通过利用训练后的CNN模型以及将一对L和R音频帧转换为二维轴的频谱图，通过利用音频类型计算匹配概率的方法来识别相应的L和R音频帧包括音效、叫喊声和音乐中的哪种音频类型。

另一方面，人工智能模型可以包括在音频输出装置100的存储器中并且由场景分析器121使用，或者可以包括在存在于音频输出装置100外部的服务器中并且通过服务器和音频输出装置100之间的通信来由场景分析器121使用。

声像角分析器122通过分析输入信号(即，多声道音频信号)来获得声像角信息。具体地，声像角分析器122可以基于多声道音频信号的频率分量的声道之间的相似性和相干性来获得声像角信息。

在这种情况下，声像角分析器122可以通过傅立叶变换将包括在多声道音频信号中的每个声道的音频信号转换到频域，并且计算转换后的频域中的每个频带的频率分量的声道之间的相似性和一致性，以获得关于多声道音频信号的每个频带的声像角信息。

例如，当输入立体声声道音频信号时，声像角分析器122可以基于L声道信号和R声道信号的声道间响度差或耳间电平差(ILD)以及声道间时间差或耳间时间差(ITD)中的至少一个来获取对于每个频带的声像角信息。当假定某一声音的音频到达用户的双耳时，ILD是指双耳之间的声级差，而ITD是指双耳之间的时间级差。

另一方面，如上所述，声像角分析器122可以以从其中获得场景信息的预定数量的单元为单位，根据每个音频帧获得对于每个频带的声像角信息。

音频混合器123可以基于从场景分析器121和声像角分析器122获得的场景信息和声像角信息来生成要通过多个扬声器输出的输出信号。在这种情况下，音频混合器123可以通过基于场景信息和声像角信息对每个频带的信号执行傅立叶逆变换(IFT)来生成输出信号。

在下文中，将参考图5A和图5B更详细地描述音频混合器123的操作。图5A是根据本公开的实施例的音频输出装置的示例性视图。图5B是设置在图5A的音频输出装置上的多个扬声器的水平面角度的视图。

如图5A所示，根据本公开的实施例，音频输出装置100-5可以是平板，该平板包括设置在平板上的不同位置处的多个扬声器50-1至50-4，但不限于此。在这种情况下，多个扬声器50-1至50-4可以根据它们的位置具有水平面角度和竖直面角度。

水平面角度是指当在多个扬声器设置在不同位置处的情况下通过多个扬声器输出声音时，在基于虚拟用户的正面分别感觉到多个扬声器所处的位置处的水平面。

因此，参考图5B，音频输出装置100-5包括基于虚拟用户30具有相对大的水平面角度的多个第一扬声器50-3和50-4以及具有相对小的水平面角度的多个第二扬声器50-1和50-2。

可以通过扬声器的特征、扬声器的布置信息、收听测试等来获得与多个扬声器的水平面角度相关的信息。如图5A所示，当多个扬声器50-1至50-4嵌入音频输出装置100-5中时，多个扬声器50-1至50-4的布置信息或关于水平面角度的信息可以由音频输出装置100-5的开发者或制造商预先存储在音频输出装置100的存储器中。

另一方面，在图5A中，当输入的音频内容是立体声声道音频信号时，多个第二扬声器50-1和50-2可以是对应于每个声道信号的立体声声道扬声器。此外，多个第一扬声器50-3和50-4可以是基于立体声声道音频信号的附加声道的扬声器。在这种情况下，由于附加声道的扬声器(即，多个第一扬声器50-3和50-4)以比立体声声道扬声器(即，第二扬声器)50-1和50-2更高的竖直面角度设置，所以附加声道的扬声器可以被称为高声道扬声器，但不限于此。

在这种情况下，通过根据音频类型经由多个第一扬声器50-3和50-4输出适当的声音，可以反映制作音频的目的。

例如，在音效的情况下，正确地传送左/右环绕声是重要的。因此，左/右环绕声可以通过具有相对大的水平面角度的附加声道的扬声器传送给观众。

根据本公开的实施例，当包括在场景信息中的音频类型是音效时，音频混合器123可以对音频帧的整个频带的信号之中的、具有声像角信息等于或大于预定角度的频带的信号执行傅立叶逆变换，以生成要通过多个第一扬声器50-3和50-4输出的第一输出信号，并且可以对具有小于预定角度的声像角信息的频带的信号执行傅立叶逆变换，以生成要通过多个第二扬声器50-1和50-2更输出的第二输出信号。

这样，在音效的情况下，通过多个第一扬声器50-3和50-4输出具有大于预定角度的声像角的频带的信号，并且通过多个第二扬声器50-1和50-2输出具有小于预定角度的声像角的频带的信号，环绕声可以被适当地传送给用户，其中第一扬声器50-3和50-4具有相对较大的水平面角度，第二扬声器50-1和50-2具有相对较小的水平面角度。

另一方面，体育中的叫喊声对观看者感受到的真实感有很大的影响。因此，除了声像角为0°的投手和评论员的言语之外，在声像角处的叫喊声可以通过经由设置在音频输出装置100-5中的所有声道的扬声器输出叫喊声来增强真实感。

因此，根据本公开的另一个实施例，当包括在场景信息中的音频类型是叫喊声时，音频混合器123可以对包括叫喊声的音频帧的整个频带的信号之中的、声像角不是0°的频带的信号执行傅立叶逆变换，以生成要通过多个第一和第二扬声器50-1至50-4输出的输出信号。

这样，在叫喊声的情况下，通过分别向所有多个扬声器50-1至50-4输出具有0°之外的声像角的所有频带的信号，可以向用户正确地传递真实感。

另一方面，对于音频设备来说，根据音乐的制作者的目的来提供声音可能是重要的。换句话说，如果作为立体声声道音频信号的音乐随着被输出到立体声声道扬声器一起被输出到附加声道的扬声器，则制作者想要的声像和听众感觉到的声像可能不同，因此需要使附加声道的扬声器的输出最小化。

因此，根据本公开的另一个实施例，当包括在场景信息中的音频类型是音乐时，音频混合器123可以对包括音乐的音频帧的所有频带的信号执行傅立叶逆变换，以生成要通过多个第二扬声器50-1和50-2输出的输出信号。

在音乐的情况下，通过仅经由与多声道音频信号的声道对应的声道的扬声器(即，与立体声声道音频信号对应的立体声声道扬声器50-1和50-2)输出声音，可以充分反映音乐内容制作者的制作目的。

另一方面，根据本公开的实施例，音频混合器123可以无条件地通过多个第二扬声器50-1和50-2输出频带信号之中的、具有0°的声像角的中心分量，而不考虑场景信息，并且对除了0°的声像角之外的其余角度的环境分量执行上述处理。

在上面的描述中，已经描述了处理器120直接分析或处理多声道音频信号以获得场景信息和声像角信息，但是实施例不限于此。例如，处理器120可以通过从外部服务器接收与所接收的多声道音频信号对应的场景信息和声像角信息来获得所述场景信息和声像角信息，并且可以基于从外部服务器获得的场景信息和声像角信息来生成输出信号，其中该外部服务器生成和管理对于音频内容的场景信息和声像角信息。

另一方面，处理器120可以包括中央处理单元(CPU)、微控制器单元(MCU)、微处理器(MICOM)、电子控制单元(ECU)或者设置成控制场景分析器121、声像角分析器122和音频混合器123的操作的应用处理器(AP)、和/或能够进行各种计算处理和生成控制信号的另一电子单元(下文称为“CPU”等)。在这种情况下，CPU等可以以集成到场景分析器121、声像角分析器122和音频混合器123的至少一个或一部分中的形式提供。

另一方面，场景分析器121、声像角分析器122和音频混合器123可以集成到一个或多个功能模块中以形成处理器120。例如，场景分析器121和声像角分析器122可以被集成以形成单个信号处理模块，或者场景分析器121、声像角分析器122和音频混合器123可以被集成以形成单个信号处理模块。在这种情况下，信号处理模块可以是数字信号处理器(DSP)，但不限于此。

图6是根据本公开的实施例的音频输出装置的详细框图。将省略对图6中的音频输出装置100的、与图2中的音频输出装置100重叠的部分的描述。根据图6，音频输出装置100包括处理器120、存储器130、显示器140、用户输入电路150、通信器180和多个扬声器50-1至50-n。根据实施例，可以省略图6所示的音频输出装置100的一些配置，并且可以添加未示出的其他配置。

通信器180执行与外部设备的通信。通信器180可以包括无线通信器181、有线通信器182和输入接口183。

无线通信器181可以使用无线通信技术或移动通信技术与外部的广播发射站1、卫星2、内容提供服务器3和其他终端设备进行通信。这种无线通信技术可以包括：例如，蓝牙、蓝牙低功耗、控制器区域网络(CAN)通信、Wi-Fi、Wi-Fi直连、超宽带通信(UWB)、zigbee、红外数据关联(IrDA)或近场通信(NFC)等，并且移动通信技术可以包括3GPP、Wi-Max、长期演进(LTE)、5G等。

无线通信器181可以从其他终端设备或服务器接收音频内容，并将接收到的音频内容发送到处理器120。对于该操作，无线通信器181可以使用能够向外部发射电磁波或接收从外部发射的电磁波的天线、通信芯片、衬底等来实现。

有线通信器182可以基于有线通信网络与外部的广播发射站1、卫星2、内容提供服务器3和其他终端设备进行通信。有线通信网络可以例如使用物理电缆来实现，诸如对电缆、同轴电缆、光纤电缆、以太网电缆等。有线通信器182可以从其他终端设备或服务器接收音频内容，并将接收到的音频内容发送到处理器120。

根据实施例，可以省略无线通信器181和有线通信器182中的任何一个。因此，音频输出装置100可以仅包括无线通信器181或有线通信器182。此外，音频输出装置100可以包括支持无线通信器181的无线接入和有线通信器182的有线接入的集成通信器。

输入接口183可以提供为可连接到与音频输出装置100分开提供的其他设备，例如外部存储设备，并且从其他设备接收音频内容以将所接收的音频内容发送到处理器120。例如，输入接口183可以是通用串行总线(USB)终端，并且可以包括诸如高清晰度多媒体接口(HDMI)终端、Thunderbolt终端等各种接口终端中的至少一种。

在图6中，多个扬声器50-1至50-n直接连接到音频输出装置100的处理器120(具体地，处理器120的音频混合器123)，并嵌入到音频输出装置100中，但不限于此。

如上所述，由处理器120生成的输出信号可以通过安装在音频输出装置100外部的多个外部的扬声器50-1至50-n输出。在这种情况下，多个外部的扬声器50-1至50-n可以以各种有线和无线方法通过通信器180连接到音频输出装置100，并且由处理器120生成的多个输出信号可以通过多个外部的扬声器50-1至50-n通过通信器180输出。

此外，根据本公开的实施例，通信器180可以与外部服务器(未示出)通信，并且从外部服务器获得关于多声道音频信号的场景信息和声像角信息，其中，该外部服务器生成并管理关于音频内容的场景信息和声像角信息。

存储器130可以临时或非临时地存储音频内容，并根据处理器120的调用将音频内容发送到处理器120。此外，存储器130可以存储计算、处理或控制操作所需的各种类型的信息。

例如，存储器130可存储处理器120的操作所需的各种数据、应用、过滤器、算法等的全部或部分，并根据需要将其提供给处理器120。应用可以通过无线通信器181或有线通信器182经由可接入的电子软件分发网络来获得。

存储器130可以包括例如主存储器设备和辅助存储器设备中的至少一个。主存储器设备可使用半导体存储介质(例如ROM和/或RAM)来实施。ROM可以包括例如常规ROM、EPROM、EEPROM、掩膜ROM等。RAM可以包括例如DRAM、SRAM等。辅助存储器设备可以通过使用能够预先或半永久地存储数据的至少一种存储介质来实现，该存储介质例如光学介质、磁带、磁光盘、软盘等，其中光学介质包括闪存设备、安全数字(SD)卡、固态驱动器(SSD)、硬盘驱动器(HDD)、磁鼓、光盘(CD)、DVD、激光盘等。

另一方面，当多个扬声器50-1至50-n被嵌入到音频输出装置100中时，关于多个扬声器50-1至50-n的水平面角度的信息可以存储在存储器130中。当多个扬声器50-1至50-n独立地设置在音频输出装置100的外部时，可以通过用户的收听测试或用户的输入来获得与多个外部的扬声器50-1至50-n的水平面角度相关的信息，并且可以将这样获得的与水平面角度相关的信息存储在存储器130中。

在图2的音频输出装置100中，接收器110定义为接收音频内容(即，多声道音频信号)并将其提供给处理器120的配置。在图6中，由于通过通信器180或存储器130将音频内容提供给处理器120，图6的通信器180和存储器130可以对应于上述图2中的接收器110。

显示器140显示各种图像。特别地，当通过通信器180或存储器130接收到视频信号时，处理器120可以通过显示器140播放视频。对于该操作，显示器140可以包括各种类型的显示面板，例如液晶显示(LCD)面板、有机发光二极管(OLED)面板、等离子体显示面板(PDP)、无机LED面板、微型LED面板等，但不限于此。另一方面，显示器140可以与触摸面板一起配置触摸屏。

用户输入电路150可以是配置成接收各种用户输入的用户接口。例如，用户输入电路150可以包括各种按钮、触摸面板等，但不限于此。

处理器120控制音频输出装置100的整体操作。特别地，处理器120可以执行上面通过图2至图5B描述的操作。

另一方面，根据本公开的实施例，当在场景信息中包括多种音频类型时，处理器120可以反映在所有预定数量的音频帧中由多种音频类型中的每一种所占据的能量比(或信号强度)。

例如，当输入的多声道音频信号是立体声声道音频信号并且针对每组L和R音频帧获取场景信息时，音效和叫喊声可能包括在相应的L和R音频帧中。在这种情况下，处理器120可以识别每个音效和叫喊声在相应的L和R帧中所占据的信号的能量比或强度比。

例如，如果对应的L和R帧包括70％的音效和30％的叫喊声，则对于每个频带的信号，处理器120可以生成具有70％的强度的信号并且生成具有30％的强度的信号以生成输出信号，其中，具有70％的强度的信号执行关于前述音效的处理(根据音像角是高于还是低于预定角度而通过其他声道的扬声器输出)，具有30％的强度的信号执行对叫喊声的处理(经由所有声道的扬声器输出0°之外的信号)。

更具体地，例如，如果第一频带f1的声像角等于或大于预定角度，则处理器120可以生成这样的输出信号，其用于通过多个第一扬声器50-3和50-4输出对应于频带f1的信号的70％以及用于通过所有的多个第一和第二扬声器50-1至50-4输出对应于频带f1的信号的30％。

此外，如果第二频带f2的声像角小于预定角度，则处理器120可以生成这样的输出信号，其用于通过多个第一扬声器50-3和50-4输出对应于频带f2的信号的70％以及通过多个第一和第二扬声器50-1至50-4中的所有扬声器输出对应于频带f2的信号的30％。

另一方面，当通过存储器130或通信器180发送音频内容时，处理器120可以对音频内容进行解码并将其转换为未压缩的格式。解码可以指将以音频压缩格式压缩的音频信号恢复为未压缩音频信号的过程，音频压缩格式例如是MPEG第3层(MP3)、高级音频编码(AAC)、音频编解码器-3(AC-3)、数字影院系统(DTS)、自由无损音频编解码器(FLAC)、视窗媒体音频(WMA)。如果音频内容没有被压缩，则可以省略这种解码过程。恢复的音频信号可以包括一个或多个声道。

例如，如果音频内容是立体声声道音频信号，则至少一个声道可以是L声道和R声道。在这种情况下，如果多个扬声器50-1至50-n是4，并且关于多个扬声器50-1至50-4的水平面角度的信息是如图5B所示的那样，则处理器120可以处理L声道音频信号和R声道音频信号以执行上面通过图2至图5B所描述的操作。无论多个扬声器50-1至50-4是嵌入在音频输出装置100中还是设置在其外部，这种操作是相同的。

如果音频内容是5.1声道音频信号，则至少一个声道可以是包括低音炮信号的6个声道(L、R、C、LFE、Ls、Rs)。即使在这种情况中，如果多个扬声器50-1至50-n包括等于或大于5.1声道的附加声道的扬声器，则处理器120可以获取关于5.1声道音频信号的场景信息和声像角信息，并基于场景信息和声像角信息生成要通过附加声道的扬声器输出的输出信号。

例如，当多声道音频信号是5.1声道音频信号并且扬声器除了5.1声道扬声器之外还包括两个高声道扬声器时，当5.0声道音频信号中包括的音频类型是音效时，处理器可以对其中声像角不是0°的所有频带的信号执行傅立叶逆变换，以生成要通过所有声道的扬声器(包括5.1声道扬声器和高声道扬声器)输出的输出信号。

图7A是示出包括根据本公开的另一个实施例的音频输出装置的音频系统的视图，并且图7B是示出设置在图7A的音频系统上的多个扬声器的水平面角度的视图。

具体地，图7A示出5.1声道扬声器环境。C表示中心扬声器，SW表示低音炮扬声器，FL和FR表示前左和前右扬声器，RL和RR表示后左和后右扬声器。在这种情况下，每个扬声器的水平面角度如图7B所示。

在这样的环境中，音频输出装置100-6和多个扬声器C、SW、FL、FR、RL和RR可以通过各种有线或无线通信方法连接，并且由音频输出装置100-6生成的输出信号可以通过多个扬声器C、SW、FL、FR、RL和RR输出。

例如，当输入5.1声道音频信号时，音频输出装置100-6可以将每个声道的音频信号输出到相应声道的扬声器。

然而，例如，当输入立体声声道音频信号时，如上所述，音频输出装置100-6可以获得关于立体声声道音频信号的场景信息和声像角信息，并且基于所获得的场景信息和声像角信息生成要通过5.1声道扬声器输出的输出信号。

换句话说，根据本公开的各种实施例，输入到音频输出装置100和100-6的立体声声道音频信号可以基于场景信息和声像角信息混合成两个或更多个输出信号，并且所生成的输出信号可以通过如上图2至图5B所述的内置于音频输出装置100中的4声道扬声器输出，但是也可以通过如图7A所示的安装在音频输出装置100-6外部的5.1声道扬声器输出。

在图7A中，假设针对包括在立体声声道音频信号中的一组多个音频帧中的一个音频帧的每个L和R音频帧获取场景信息，当包括在对于L和R音频帧的场景信息中的音频类型是音效时，处理器120可以通过FL和FR声道的扬声器对具有小于预定角度的声像角的频带的信号执行傅立叶逆变换，并且对要通过RL和RR声道的扬声器输出的输出信号进行傅立叶逆变换。在这种情况下，预定角度可以由音频输出装置100-6的开发者或制造商适当地和实验地确定。

另一方面，当包括在场景信息中的音频类型是叫喊声时，处理器120可以对包括叫喊声的音频帧的整个频带的信号中的、声像角不是0°的频带的信号执行傅立叶逆变换，以生成要通过FL、FR、RL和RR声道的扬声器输出的输出信号。

如果包括在场景信息中的音频类型是音乐，则处理器120可以对包括音乐的音频帧的整个频带的信号执行傅立叶逆变换，以生成要通过FL和FR声道的扬声器输出的输出信号。

另一方面，图7A的音频输出装置100-6还包括用于特定频率或特定声像角的声道的扬声器，例如C和SW。例如，处理器120可以对具有声像角为0°的所有频带的信号执行傅立叶逆变换，以生成要通过C声道扬声器输出的输出信号，并且对具有小于预定频率的频带的信号执行傅立叶逆变换，以生成要通过SW声道扬声器输出的输出信号。

然而，实施例不限于此，并且音频输出装置100-6的开发者或制造商可以配置音频输出装置100-6以基于输入的立体声声道音频信号的场景信息和声像角信息来生成任何不同形式的输出信号。

另一方面，根据本公开的实施例，处理器120可以基于场景信息对如上所述的那样生成的输出信号施加声音效果。图8是说明根据本公开的另一个实施例的处理器的功能框图。与图4的处理器120相比，图8的处理器120是相同的，除了处理器120还包括音效施加器124。

音效施加器124可以将音效施加到如上所述的那样基于场景信息生成的输出信号。例如，当包括在场景信息中的音频类型是音乐时，音效施加器124可以将诸如头部相关传递函数(HRTF)的虚拟立体音效施加到输出信号以加宽声级。

此外，当包括在场景信息中的音频类型是叫喊声时，音效施加器124可以通过在多个第二扬声器50-1和50-2与多个第一扬声器50-3和50-4之间添加彼此异相分量来施加由叫喊声包围的效果，这是通过将彼此异相分量添加到多个第二扬声器50-1和50-2与多个第一扬声器50-3和50-4之间来实现的。

图9是示出根据本公开的实施例的控制音频输出装置的方法的流程图。参照图9，当接收到多声道音频信号时(S910)，音频输出装置100可以获得与包括在多声道音频信号中的音频类型有关的场景信息以及与包括在多声道音频信号中的音频的声像基于虚拟用户的角度有关的声像角信息(S920)。在这种情况下，多声道音频信号可以包括多个音频帧，其中场景信息可以是针对多个音频帧中的预定数量的音频帧中的每个获得的信息，并且声像角信息可以是针对每个频带获得的、对于预定数量的音频帧中的每个的信息。

因此，音频输出装置100可以基于所获得的场景信息和声像角信息从多声道音频信号生成要通过多个扬声器输出的输出信号(S930)。在这种情况下，基于虚拟用户，多个扬声器可以包括具有相对大的水平面角度的多个第一扬声器和具有相对小的水平面角度的多个第二扬声器。

另一方面，根据本公开的实施例，当包括在场景信息中的音频类型是音效时，音频输出装置100可以对具有等于或大于预定角度的声像角信息的频带的信号执行傅立叶逆变换(IFT)，以生成要通过多个第一扬声器输出的第一输出信号，并且可以对具有小于预定角度的声像角信息的频带的信号执行傅立叶逆变换，以生成通过多个第二扬声器输出的第二输出信号。

当包括在场景信息中的音频类型是叫喊声时，音频输出装置100可以对包括叫喊声的音频帧的整个频带的信号之中的、声像角信息不是0°的频带的信号执行傅立叶逆变换，以生成要通过多个第一和第二扬声器输出的输出信号。

当包括在场景信息中的音频类型是音乐时，音频输出装置100可以对包括音乐的音频帧的所有频带的信号执行傅立叶逆变换，以生成要通过多个第二扬声器输出的输出信号。

根据如上所述的本公开的各种实施例，通过经由多声道扬声器提供忠实于制作音频内容的目的的声音，可以向用户提供高真实感的声音。

另一方面，上述各种实施例可以实现为S/W程序，该S/W程序包括存储在机器可读(例如，计算机可读)的存储介质上的指令。该机器是能够从存储介质调用所存储的指令并根据被调用的指令进行操作的设备，并且可以包括根据上述实施例的音频输出装置100、100-1至100-6。

当指令由处理器执行时，处理器可以直接执行对应于指令的功能或者在处理器的控制下使用其他组件来执行对应于指令的功能。该命令可以包括由编译器或解释器生成或执行的代码。机器可读存储介质可以以非暂时性存储介质的形式提供。这里，术语“非暂时性”仅表示存储介质不包括信号而是有形的，而不区分数据半永久性地存储在存储介质中的情况与数据临时存储在存储介质中的情况。

根据示例性实施例，根据上述各示例性实施例的方法可以提供为包括在计算机程序产品中。计算机程序产品可以作为产品在卖方和消费者之间进行交易。计算机程序产品可以机器可读存储介质(例如，光盘只读存储器(CD-ROM))的形式或通过应用商店(例如，Play Store^TM)在线分发。在在线分发的情况下，计算机程序产品的至少一部分可以至少在制造商的服务器、应用商店的服务器或诸如存储器的存储介质中被临时存储或临时生成。

根据各示例性实施例的相应组件(例如，模块或程序)可以包括单个实体或多个实体，并且可以省略上述相应子组件中的一些，或者可以将另一子组件进一步添加到各示例性实施例。可替换地或附加地，一些组件(例如，模块或程序)可以被组合以形成单个实体，其执行与在被组合之前由相应元件执行的功能相同或相似的功能。根据各示例性实施例，由模块、程序模块或其他组件执行的操作可以顺序地、并行地或共同地、迭代地、或者试探地执行，或者至少一些操作可以以不同的顺序执行、被省略，或者可以添加其他操作。

尽管已经说明和描述了本公开的示例性实施例，但是应当理解，本公开不限于所公开的实施例，并且在不脱离本公开的精神和范围的情况下可以进行各种改变。此外，根据本公开的实施例并不限制本公开的技术思想，而是用于描述，并且本公开的技术思想的范围不受这些实施例的限制。因此，本公开的保护范围应当由所附权利要求来解释，并且在其等同范围内的所有技术思想应当被解释为包括在本公开的范围内。

Claims

1.音频输出装置，包括：

接收器，配置成接收多声道音频信号；以及

处理器，配置成：

基于通过所述接收器接收的所述多声道音频信号，从所述多声道音频信号获得关于音频类型的场景信息，并且从所述多声道音频信号获得与对应于虚拟用户的、由所述音频类型的声像形成的角度有关的声像角信息，以及

基于所获得的场景信息和所获得的声像角信息，从所述多声道音频信号生成要通过多个扬声器输出的输出信号；

其中，所述音频类型包括音效、叫喊声、音乐和言语中的至少一种，并且所述多个扬声器的数量等于或大于所述多声道音频信号的声道数量。

2.如权利要求1所述的音频输出装置，

其中，所述多声道音频信号包括多个音频帧，以及

其中，所述处理器还配置成：从所述多个音频帧中的一个或多个音频帧中的每个获得所述场景信息，并且针对所述一个或多个音频帧中的每个获得对于每个频带的所述声像角信息。

3.如权利要求2所述的音频输出装置，其中，所述多个扬声器包括具有与所述虚拟用户对应的第一水平面角度的多个第一扬声器以及具有与所述虚拟用户对应的第二水平面角度的多个第二扬声器，其中，所述第一水平面角度大于所述第二水平面角度。

4.如权利要求3所述的音频输出装置，其中，所述处理器还配置成：基于识别出包括在所述场景信息中的所述音频类型是所述音效，

通过对包括所述音效的音频帧的整个频带的信号之中的、所述声像角信息等于或大于预定角度的频带的信号进行傅立叶逆变换，生成要通过所述多个第一扬声器输出的第一输出信号；以及

通过对包括所述音效的音频帧的整个频带的信号之中的、所述声像角信息小于所述预定角度的频带的信号进行傅立叶逆变换，生成要通过所述多个第二扬声器输出的第二输出信号。

5.如权利要求3所述的音频输出装置，其中，所述处理器还配置成：基于识别出包括在所述场景信息中的所述音频类型是所述叫喊声，通过对包括所述叫喊声的音频帧的整个频带之中的、所述声像角信息不是0°的频带的信号执行傅立叶逆变换，生成要通过所述多个第一扬声器和所述多个第二扬声器输出的输出信号。

6.如权利要求3所述的音频输出装置，其中，所述处理器还配置成：基于识别出包括在所述场景信息中的所述音频类型是所述音乐，通过对包括所述音乐的音频帧的整个频带的信号执行傅立叶逆变换，生成要通过所述多个第二扬声器输出的输出信号。

7.如权利要求1所述的音频输出装置，其中，所述处理器还配置成：获得关于所述多声道音频信号的至少一个音频特征，并且基于所获得的至少一个音频特征获得所述场景信息。

8.如权利要求1所述的音频输出装置，其中，所述处理器还配置成：使用训练成识别包括在所述多声道音频信号中的所述音频类型的人工智能模型来获得所述场景信息。

9.如权利要求1所述的音频输出装置，其中，所述处理器还配置成：基于所述多声道音频信号的声道间响度差和声道间时间差中的至少一者来获得所述声像角信息。

10.如权利要求1所述的音频输出装置，其中，所述处理器还配置成：基于所述场景信息将声音效果施加到所生成的输出信号。

11.如权利要求1所述的音频输出装置，其中，所述多个扬声器设置在所述音频输出装置中。

12.如权利要求1所述的音频输出装置，还包括：

通信器，

其中，所述处理器还配置成：控制所述通信器通过存在于所述音频输出装置外部的所述多个扬声器输出所述输出信号。

13.如权利要求2所述的音频输出装置，其中，所述处理器还配置成：基于识别出包括在所述场景信息中的所述音频类型包括多种音频类型，通过反映由所述多种音频类型中的每种在所有所述一个或多个音频帧中占用的能量比来生成所述输出信号。

14.控制音频输出装置的方法，所述方法包括：

接收多声道音频信号；

从所述多声道音频信号中获得关于音频类型的场景信息，并且从所述多声道音频信号中获得与对应于虚拟用户的、由所述音频类型的声像形成的角度有关的声像角信息；以及

15.如权利要求14所述的方法，

其中，所述多声道音频信号包括多个音频帧，以及

其中，所述场景信息配置成是从所述多个音频帧中的一个或多个音频帧中的每个获得的，并且所述场景信息配置成针对所述一个或多个音频帧中的每个获得对于每个频带的所述声像角信息。