CN113016189A

CN113016189A - 识别音频场景的电子设备和方法

Info

Publication number: CN113016189A
Application number: CN201980075358.1A
Authority: CN
Inventors: 许勋; 金善民; 姜基雄; 金起范; 黄仁雨
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-11-16
Filing date: 2019-11-15
Publication date: 2021-06-22
Anticipated expiration: 2039-11-15
Also published as: EP3654334A1; US20200160878A1; WO2020101453A1; CN113016189B; KR20200063290A; EP3654334B1; US11462233B2; KR102691543B1

Abstract

提供了一种识别音频场景的电子设备和方法。识别音频场景的方法包括：根据预定的标准，将输入音频信号分离为声道；根据每个分离的声道，通过使用被训练为识别音频场景的多个神经网络，从输入音频信号中识别至少一个音频场景；以及基于对至少一个音频场景的识别的结果，通过使用被训练为结合各个声道的音频场景识别结果的神经网络，确定音频内容中包括的至少一个音频场景，其中，多个神经网络包括：第一神经网络，被训练为基于音频信号的时频形状来识别音频场景；第二神经网络，被训练为基于音频信号的频谱包络的形状来识别音频场景；以及第三神经网络，被训练为基于从音频信号中提取的特征向量来识别音频场景。

Description

识别音频场景的电子设备和方法

技术领域

本公开涉及一种识别音频场景的电子设备和方法，并且更具体地，涉及一种通过使用被训练为识别音频场景的多个神经网络来识别音频场景的电子设备和方法。

背景技术

显示设备包括向用户显示图像的功能。用户可以在显示设备上观看广播节目。显示设备显示由用户从广播电台发送的广播节目中选择的广播节目。广播的最新趋势是从模拟广播到数字广播的世界范围内转变。

数字广播是指广播数字视频和音频信号。与模拟广播相比，数字广播具有许多优势，例如抗外部噪声的鲁棒性、更少的数据丢失、易于纠错以及提供高清、清晰图像的能力。与模拟广播相比，数字广播还允许交互式查看器服务。

另外，已经变得流行的智能电视(TV)除了数字广播功能之外还提供各种类型的内容。智能TV被设计为在无需用户干预的情况下分析和提供用户想要的内容，而不是根据用户的选择被动地操作。

当用户通过使用扬声器、条形音箱等在显示设备上观看广播节目或各种类型的内容时，声音的传送以及内容中图像的呈现很重要。

近年来，需要研究通过有效地分析音频内容来准确地识别音频场景的方法，以有效地执行与音频信号有关的各种功能。

发明内容

技术方案

提供了一种用于识别音频场景的电子设备及其方法。

附图说明

根据结合附图的以下描述，本公开的某些实施例的上述和其他方面、特征和优点将变得更加明显，其中：

图1是示出实施例的示图；

图2是用于描述根据实施例的电子设备的操作的框图；

图3是用于描述根据实施例的电子设备的操作的框图；

图4是示出根据实施例的电子设备的操作方法的流程图；

图5是示出根据实施例的在电子设备中预处理音频信号的方法的流程图；

图6是示出根据实施例的通过使用电子设备中的多个神经网络从音频信号识别音频场景的方法的示图；

图7是示出根据实施例的通过使用电子设备中的多个神经网络从音频信号识别音频场景的方法的示图；

图8是示出根据实施例的通过使用电子设备中的多个神经网络从音频信号识别音频场景的方法的示图；

图9是示出根据实施例的确定电子设备中的音频信号中包括的音频场景的方法的示图；

图10是示出根据实施例的电子设备的框图；

图11是示出根据实施例的电子设备的框图；

图12是示出根据实施例的处理器的框图；

图13是示出根据实施例的数据学习器的框图；以及

图14是示出根据实施例的数据识别器的框图。

具体实施例

提供了一种用于识别音频场景的电子设备及其方法。

其他的方面部分地将在下面的描述中阐述，并且部分地将通过该描述而变得清楚明白，或者可以通过实践所呈现的实施例而获知。

根据本公开的一方面，一种识别音频场景的方法包括：根据预定的标准，将输入音频信号分离为声道；根据每个分离的声道，通过使用被训练为识别音频场景的多个神经网络，从输入音频信号中识别至少一个音频场景；基于对至少一个音频场景的识别的结果，通过使用被训练为结合各个声道的音频场景识别结果的神经网络，确定音频内容中包括的至少一个音频场景，其中多个神经网络包括：第一神经网络，被训练为基于音频信号的时频形状来识别音频场景；第二神经网络，被训练为基于音频信号的频谱包络的形状来识别音频场景；以及第三神经网络，被训练为基于从音频信号中提取的特征向量来识别音频场景。

分离可以包括：将输入音频信号分离为中间声道和侧声道。

分离可以包括：配置每个分离的声道中的预定音频场景的识别。

分离可以包括：将输入音频信号预处理为被训练为识别音频场景的多个神经网络中的每一个神经网络的输入数据格式。

预处理可以包括：通过对输入音频信号进行降采样并将降采样的音频信号转换为基于时间和频率的频谱图，将输入音频信号处理为第一神经网络的输入数据格式和第三神经网络的输入数据格式。

预处理可以包括：通过将输入音频信号的频谱包络的形状的维数减小到低维，将输入音频信号处理为第二神经网络的输入数据格式。

识别至少一个音频场景可以包括：根据每个分离的声道，计算识别出的至少一个音频场景中的每一个音频场景的概率。

识别至少一个音频场景可以包括：基于通过将预定的权重施加到被预处理为第二神经网络的输入数据格式的频谱包络而调整了大小的频谱包络，来计算至少一个音频场景的概率。

特征向量可以包括主导向量、平均频谱功率、单音性或频谱过零率中的至少一个。

确定至少一个音频场景可以包括：基于至少一个音频场景中的每一个音频场景的、针对被分离为中间声道和侧声道的每个声道而计算的概率，来计算音频内容中包括的至少一个音频场景中的每一个音频场景的概率。

根据本公开的另一方面，一种用于识别音频场景的电子设备，包括：存储器，存储至少一个指令；以及至少一个处理器，被配置为执行所述至少一个指令以实现：预处理模块，被配置为根据预定的标准将输入音频信号分离为声道；场景识别模块，被配置为根据每个分离的声道，通过使用被训练为识别音频场景的多个神经网络，从输入音频信号中识别至少一个音频场景；决策模块，被配置为基于识别出的至少一个音频场景，通过使用被训练为结合各个声道的音频场景识别结果的神经网络，确定音频内容中包括的至少一个音频场景，其中，多个神经网络包括：第一神经网络，被训练为基于音频信号的时频形状来识别音频场景；第二神经网络，被训练为基于音频信号的频谱包络的形状来识别音频场景；以及第三神经网络，被训练为基于从音频信号中提取的特征向量来识别音频场景。

预处理模块可以进一步被配置为将输入音频信号分离为中间声道和侧声道。

预处理模块可以进一步被配置为配置每个分离的声道中的预定音频场景的识别。

预处理模块可以进一步被配置为将输入音频信号预处理为被训练为识别音频场景的多个神经网络中的每一个神经网络的输入数据格式。

预处理模块可以进一步被配置为通过对输入音频信号进行降采样并将降采样的音频信号转换为基于时间和频率的频谱图，将输入音频信号处理为第一神经网络的输入数据格式和第三神经网络的输入数据格式。

预处理模块可以进一步被配置为通过将输入音频信号的频谱包络的形状的维数减小到低维，将输入音频信号处理为第二神经网络的输入数据格式。

场景识别模块可以进一步被配置为根据每个分离的声道，计算识别出的至少一个音频场景中的每一个音频场景的概率。

特征向量可以包括主导向量、平均频谱功率、单音性或频谱过零率中的至少一项。

决策模块可以进一步被配置为基于至少一个音频场景中的每一个音频场景的、针对被分离为中间声道和侧声道的每个声道而计算的概率，来计算音频内容中包括的至少一个音频场景中的每一个音频场景的概率。

根据本公开的另一方面，一种非暂时性计算机可读记录介质，其上记录有程序，该程序能够由至少一个处理器执行以执行识别至少一个音频场景的方法。

根据本公开的另一方面，一种识别音频场景的方法包括：通过使用被训练为识别音频场景的多个神经网络来识别音频信号的至少一个音频场景；以及基于识别至少一个音频场景的结果，通过使用被训练为结合音频场景识别结果的神经网络，来确定音频内容中包括的至少一个音频场景，其中多个神经网络包括：第一神经网络，被训练为基于音频信号的时频形状来识别音频场景；第二神经网络，被训练为基于音频信号的频谱包络的形状来识别音频场景；以及第三神经网络，被训练为基于从音频信号中提取的特征向量来识别音频场景。

该方法可以进一步包括将音频信号预处理为被训练为识别音频场景的多个神经网络中的每一个神经网络的输入数据格式。

预处理可以包括通过对输入音频信号进行降采样并将降采样的音频信号转换为基于时间和频率的频谱图，将输入音频信号处理为第一神经网络的输入数据格式和第三神经网络的输入数据格式。

预处理可以包括通过将输入音频信号的频谱包络的形状的维数减小到低维，将输入音频信号处理为第二神经网络的输入数据格式。

确定至少一个音频场景可以包括：基于至少一个音频场景中的每一个音频场景的、针对中间声道和侧声道中的每一个而计算的概率，来计算音频内容中包括的至少一个音频场景中的每一个音频场景的概率。

这里参照附图详细描述实施例，使得本领域普通技术人员可以容易地实施本公开。然而，本公开可以以许多不同的方式来体现，并且不限于在此阐述的实施例。在附图中，贯穿本公开，相似的附图标记表示相同的元件。

尽管考虑到其功能选择了当前广泛使用的通用术语来描述本公开，但是这些通用术语可以根据本领域普通技术人员的意图、案例先例、新技术的出现等而变化。因此，定义术语应基于它们的含义和整个说明书的内容，而不是通过简单地说明这些术语来定义它们。

将理解的是，尽管在本文中可以使用术语“第一”、“第二”等来描述各种组件，但是这些组件不应受到这些术语的限制。这些术语仅用于将一个组件与另一个组件区分开。

本公开中使用的术语仅用于描述某些实施例，而无意于限制本公开。应当理解，除非相关上下文另外明确指出，否则与一个事物对应的名词的单数形式可以包括一个或多个事物。当一个元件被称为与另一个元件“耦接”、“耦接至”另一个元件、与另一个元件“连接”或“连接至”另一个元件时，意味着该元件可以通过介于两者之间的第三元件“直接地”或“电气性地”与另一个元件耦接。另外，当在本说明书中使用时，术语“包括”指定存在所述元件，但不排除存在或增加一个或多个其他元件。

在描述本公开的上下文中，尤其是在以下权利要求的上下文中，术语“一”、“一种”、“所述”和类似指代的使用应被解释为涵盖单数和复数。而且，除非本文另外指出或与上下文明显矛盾，否则本文描述的所有方法的步骤可以以任何合适的顺序执行。本公开不限于所描述的操作顺序。

在下文中，诸如“A和/或B中的至少一个”或“A和/或B中的一个或多个”之类的表述包括所列事物的所有可能的结合。例如，“A和B中的至少一个”或“A或B中的至少一个”包括(1)至少一个A、(2)至少一个B或(3)至少一个A和至少一个B中的任何一种。

整个公开中使用的表达“根据一些实施例”或“根据一个实施例”不一定表示本公开的相同实施例。

可以根据功能块组件和各种处理操作来描述本公开的前述实施例。这些功能块中的一些或全部可以通过被配置为执行指定的功能的任何数量的硬件和/或软件组件来实现。例如，根据本公开的功能块可以通过一个或多个微处理器或用于预定的功能的电路组件来实现。另外，例如，根据本公开的功能块可以用任何编程或脚本语言来实现。可以以在一个或多个处理器上执行的算法来实现功能块。另外，本文所述的公开内容可采用根据用于电子配置、信号处理和/或控制、数据处理等的相关的技术的任何数量的技术。词语“机制”、“元件”、“单元”和“配置”被广泛地使用，并且不限于本公开的机械的或物理的实施例。

另外，在所呈现的各个附图中示出的部件之间的连接线或连接器旨在表示部件之间的示例性功能关系和/或物理或逻辑耦接。组件之间的连接可以通过实际设备中的许多替代性或附加的功能关系、物理连接或逻辑连接来表示。

参照附图，下面将详细描述某些实施例。

图1是示出一个实施例的示图。

根据一个实施例，电子设备100(例如，如图10和图11所示)可以识别包括在音频内容中的至少一个音频场景并将音频内容分类为音频场景。

根据一个实施例，音频场景可以指基于包括在音频内容中的多个声源而分类的单元。音频内容可以被分类为包括语音、音乐、效果声音等的音频场景。

例如，在广播体育内容中，广播体育场景可以包括两个主要声源：评论员的语音和人群声音。根据一个实施例，电子设备100可以通过分析音频信号来识别含有评论者的语音和人群声音的音频场景，并且对音频场景进行分类。

根据一个实施例，电子设备100可以通过使用被训练为识别音频场景的多个神经网络，从输入音频信号中识别至少一个音频场景。

根据一个实施例，多个神经网络可以包括：第一神经网络，被训练为基于音频信号的时频形状来识别音频场景；第二神经网络，被训练为基于音频信号的频谱包络的形状来识别音频场景；以及第三神经网络，被训练为基于从音频信号中提取的特征向量来识别音频场景。

可以考虑训练后的模型的应用领域、训练的目的、或设备的计算机能力来构造神经网络。例如，训练后的模型可以是但不限于卷积神经网络(CCN)、深度神经网络(DNN)、递归神经网络(RNN)或双向递归神经网络(BiRNN)。

例如，被训练为基于音频信号的时频形状来识别音频场景的第一神经网络可以被配置为CNN。被训练为基于音频信号的频谱包络的形状来识别音频场景的第二神经网络可以被配置为DNN。被训练为基于从音频信号提取的特征向量来识别音频场景的第三神经网络可以被配置为DNN。

另外，被训练为结合各个声道的音频场景识别结果的神经网络可以被配置为RNN。

如图1所示，输入音频信号后，根据实施例的电子设备100可以将输入音频信号分离为声道(声道分离)。另外，电子设备100可以将音频信号预处理为每个神经网络的输入数据格式。电子设备100可以将预处理的音频信号提供给被训练为识别音频场景的多个神经网络(例如，第一神经网络、第二神经网络和第三神经网络)中的至少一个。

另外，根据一个实施例，基于从多个神经网络输出的音频场景识别结果，通过使用被训练为结合各个声道的音频场景识别结果的神经网络(决策网络)，电子设备100可以在分离的逐个声道的基础上确定音频内容中包括的至少一个音频场景(例如，语音和人群声音)。

根据一个实施例，通过识别音频内容中包括的音频场景，电子设备100可以确定激活将要基于该音频场景执行的多个功能的适当时间。即，高精度的音频场景识别可能会阻止在不适当的时间执行功能。例如，电子设备100可以通过准确地识别音频内容中的人群声音的时间段来施加增强存在感的声音效果。

另外，根据一个实施例，电子设备100可以通过识别音频内容中包括的音频场景来收集再现历史，并且在提供用户定制功能时使用收集的再现历史。

另外，根据一个实施例，电子设备100可以在电子设备100上实时地识别各种类型的音频场景。也就是说，因为数据是在没有被发送到诸如云服务器之类的外部计算设备或从外部计算设备接收的情况下在电子设备100上处理的，所以电子设备100可以快速操作，没有数据发送和接收中的额外延迟，并且也没有连接到互联网。

图2和图3是用于描述根据一个或多个实施例的电子设备100的操作的框图。

参照图2，根据一个实施例的电子设备100可以包括预处理模块201、场景识别模块202和决策模块203。

预处理模块201可以将输入音频信号预处理为适合在场景识别模块202中处理的输入数据格式。

场景识别模块202可以通过使用至少一个神经网络来识别音频信号中的音频场景。

决策模块203可以基于获得的各个声道的音频场景识别结果，来确定音频内容中包括的至少一个音频场景。

将参照图3描述根据一个实施例的每个模块的具体操作。

参照图3，预处理模块201可以接收立体声音频信号(301)，并将接收到的立体声音频信号分离为中间声道和侧声道(声道分离)(302)。

中间声道可以是立体声音频信号的左声道和右声道的和，而侧声道可以是左声道和右声道之间的差。

场景识别模块202可以通过使用被训练为识别音频信号的中间声道和侧声道中的每一个上的音频场景的多个神经网络，来识别至少一个音频场景(303)。

多个神经网络可以包括：第一神经网络，被训练为基于音频信号的时频形状来识别音频场景(时频形状匹配网络)；第二神经网络，被训练为基于音频信号的频谱包络的形状来识别音频场景(频谱包络匹配网络)；以及第三神经网络，被训练为基于从音频信号中提取的特征向量来识别音频场景(声学特征匹配网络)。

另外，场景识别模块202可以针对每个分离的声道计算至少一个音频场景的概率(场景类别概率)。

电子设备100可以通过利用前馈神经网络传递音频场景识别结果，来计算每个音频场景的概率，该音频场景识别结果是通过使用被训练为识别音频场景的多个神经网络(例如，第一神经网络、第二神经网络和第三神经网络)而获得的。

另外，根据一个实施例，决策模块203可以通过将各个声道的音频场景识别结果输入到被训练为结合各个声道的音频场景识别结果的神经网络(决策网络)(304)，来计算音频内容中包括的至少一个音频场景中的每一个音频场景的概率(305)。

图4是示出根据一个实施例的电子设备100的操作方法的流程图。

参照图4，在操作S401中，电子设备100可以根据预定的标准将输入音频信号分离为声道。

例如，电子设备100可以将输入立体声音频信号分离为中间声道和侧声道。中间声道(mid channel)可以是立体声音频信号的左声道和右声道的和，而侧声道(sidechannel)可以是左声道和右声道之间的差。

在操作S402中，电子设备100可以通过使用被训练为识别音频场景的多个神经网络，根据每个分离的声道从输入音频信号中识别至少一个音频场景。

根据一个实施例，多个神经网络可以包括：第一神经网络，被训练为基于音频信号的时频形状来识别音频场景(时频形状匹配网络)；第二神经网络，被训练为基于音频信号的频谱包络的形状来识别音频场景(频谱包络匹配网络)；以及第三神经网络，被训练为基于从音频信号中提取的特征向量来识别音频场景(声学特征匹配网络)。

电子设备100可以针对被分离为中间声道和侧声道的每个声道，计算至少一个音频场景中的每一个音频场景的概率。

在操作S403中，电子设备100可以基于识别至少一个音频场景的结果，通过使用被训练为结合各个声道的音频场景识别结果的神经网络，来确定音频内容中包括的至少一个音频场景。

电子设备100可以通过将从中间声道和侧声道中的每个声道输出的音频场景识别结果输入到被训练为结合各个声道的音频场景识别结果的神经网络，来确定音频内容中包括的至少一个音频场景中的每一个音频场景的概率。

图5是示出根据一个实施例的在电子设备100将音频信号输入到被训练为识别音频场景的多个神经网络之前在电子设备100中预处理音频信号的方法的流程图。

参照图5，在操作S501中，电子设备100可以将输入音频信号分离为中间声道和侧声道。操作S501与图4中的操作S401相同或基本类似。

另外，电子设备100可以被配置为在操作S502中识别每个分离的声道中的预定音频场景。

例如，在广播体育内容中，评论员的语音均等地在左声道和右声道上，并且在许多情况下不在侧声道上。在侧声道上可能存在强调诸如人群声音之类的周围感的场景。可以配置每个声道中的预定音频场景的识别，其中，在分离的声道之间，从中间声道识别语音，从侧声道识别人群声音。

根据一个实施例，可以通过将要识别的预定的音频场景分配给每个声道来提高音频场景的识别精度。

另外，在图5的操作S503中，电子设备100可以将输入音频信号预处理为被训练为识别音频场景的多个神经网络中的每一个神经网络的输入数据格式。

根据一个实施例，电子设备100可以将音频信号转换成适合于输入到每个神经网络的格式。例如，由于被训练为基于音频信号的时频形状来识别音频场景的第一神经网络和被训练为基于从音频信号中提取的特征向量来识别音频场景的第三神经网络需要高达3kHz频段的高分辨率，所以电子设备100可以通过预处理来对原始信号进行降采样并且将降采样的信号转换为作为二维(2D)时频表示的频谱图。

另外，由于被训练为基于音频信号的频谱包络的形状来识别音频信号的第二神经网络需要低维频谱能量以进行有效计算，因此电子设备100可以通过利用梅尔尺度滤波器组(mel-scale filterbank)传递多维频谱能量，而将高达24kHz的多维频谱能量降低为低维频谱能量。

图6至图8是示出根据一个或多个实施例的通过使用电子设备100中的多个神经网络从音频信号中识别音频场景的方法的图。

参照图6，根据实施例的电子设备100可以通过使用第一神经网络从音频信号中识别音频场景。

电子设备100可以基于被预处理为第一神经网络的输入数据格式的数据(即，通过对输入音频信号进行降采样并将降采样的音频信号转换为基于时间和频率的频谱图而获得的数据)，通过使用第一神经网络来识别音频场景。

第一神经网络可以是CNN，其接收音频信号的作为2D时频表示的频谱图并计算频谱图与每个音频场景匹配的概率。

根据一个实施例，第一神经网络可以通过将第一神经网络的层深度设置为1来在电子设备100上更快地操作并且实时获取识别结果。

第一神经网络可以通过在第一神经网络的学习阶段中使用内核初始化来有效地学习表示在音频声谱图中经常观察到的线和曲线的图案的2D卷积内核。

另外，如图7所示，电子设备100可以通过使用第二神经网络从音频信号识别音频场景。

电子设备100可以基于被预处理为第二神经网络的输入数据格式的数据(即，通过将输入音频信号的频谱包络的形状的维数减小到低维而获得的数据)，通过使用第二神经网络来识别音频场景。

根据一个实施例，第二神经网络可以是通过分析音频信号的关键特征之一(即，频谱包络的形状)来计算每个音频场景的概率的神经网络。

另外，电子设备100可以基于通过将预定的权重施加到预处理为第二神经网络的输入数据格式的频谱包络而调整了大小的频谱包络，来计算至少一个音频场景的概率。

例如，降维的低维梅尔尺度频谱能量向量由X_mel表示。在这种情况下，可以通过以下等式调整频谱能量向量的大小，其中w_env和b_env是通过深度学习预先获得的权重。

X_env＝w_envX_mel+b_env

另外，如图8所示，电子设备100可以通过使用第三神经网络从音频信号识别音频场景。

电子设备100可以基于被预处理为第三神经网络的输入数据格式的数据(即，通过对输入音频信号进行降采样并将降采样的音频信号转换为基于时间和频率的频谱图而获得的数据)，通过使用第三神经网络来识别音频场景。

第三神经网络可以是通过提取并比较对于音频场景分析有效的特征向量来从音频信号中识别音频场景的神经网络。

可以通过使用立体声音频信号的傅立叶变换结果计算左右声道在特定时间点的相似度来获得主导向量。

平均频谱功率可以指音频信号的强度。

单音性(monophony)可以指在特定时间点包括在音频信号中的基频的唯一性程度。

频谱过零率可以指每个频带中随着时间推移发生明显能量变化的频率的数字表示。

图9是示出根据一个实施例的由电子设备100确定音频信号中包括的音频场景的方法的示图。

参照图9，电子设备100可以通过使用被训练为结合各个声道的音频场景识别结果的神经网络(决策网络)，基于中间声道中的每个音频场景的概率和侧声道中的每个音频场景的概率，来确定包括在音频内容中的至少一个音频场景。

根据一个实施例，被训练为结合各个声道的音频场景识别结果的神经网络(决策网络)可以是RNN，其结合针对每个分离的声道获得的各个音频场景的概率，并充分考虑过去的预定时间段内的概率估计来计算各个音频场景的最终概率。

由于RNN会随时间对动态特征进行建模，因此RNN可以考虑过去的结果。

可以通过使用RNN考虑中间声道和侧声道的所有输出值来计算各个音频场景的最终概率。

图10和图11是示出根据一个或多个实施例的电子设备100和100a的框图。

参照图10，电子设备100可以包括存储器120和处理器130(例如，至少一个处理器)。然而，应当理解，电子设备100可以用比图10中示出的更多或更少的组件来实现。

例如，如图11所示，根据一个实施例的电子设备100a除了存储器120和处理器130之外，还包括显示器110、调谐器140、通信接口150、检测器160、输入/输出(I/O)接口170、视频处理器180、音频处理器115、音频输出器126、电源190和感测单元191(例如，至少一个传感器)。

图10的处理器130的操作可以包括图2所示的预处理模块201、场景识别模块202和决策模块203的操作。

图11的电子设备100a可以是图10的电子设备100的实施例。

上面的组件将在下面详细描述。

处理器130向电子设备100提供全面控制，控制电子设备100的内部组件之间的信号流，并处理数据。在接收到用户输入时或当满足预定的和存储的条件时，处理器130可以执行操作系统(OS)和存储在存储器120中的各种应用。

处理器130可以包括：随机存取存储器(RAM)，其存储外部输入信号或数据，或者用作在电子设备100和100a中执行的各种操作的存储空间；只读存储器(ROM)，其存储用于控制电子设备100和100a的控制程序；和处理器。

处理器130可以包括用于与视频对应的图形处理的图形处理器(GPU)。处理器130可以被实现为其中集成了内核和GPU的片上系统(SoC)。处理器130可以包括单核、双核、三核、四核或多核。

另外，处理器130可以包括多个处理器。例如，处理器130可以包括主处理器和以睡眠模式操作的子处理器。

根据一个实施例，处理器130可以根据预定的标准将输入音频信号分离为声道。处理器130可以通过执行存储在存储器120中的一个或多个指令来将输入音频信号分离为中间声道和侧声道。另外，处理器130可以被配置为识别在每个分离的声道中的预定的音频场景。

另外，处理器130可以将输入音频信号预处理为被训练为识别音频场景的多个神经网络中的每一个神经网络的输入数据格式。根据一个实施例，处理器130可以通过对输入音频信号进行降采样并将降采样的音频信号转换成基于时间和频率的频谱图，来将输入音频信号处理为第一神经网络和第三神经网络的输入数据格式。另外，处理器130可以通过将输入音频信号的频谱包络的形状的维数减小到低维，来将输入音频信号处理为第二神经网络的输入数据格式。

另外，处理器130可以通过使用被训练为从音频信号中识别音频场景的多个神经网络，在分离的逐个声道的基础上，从输入音频信号中识别至少一个音频场景。处理器130可以在分离的逐个声道的基础上计算至少一个音频场景中的每一个音频场景的概率。

处理器130还可以通过使用被训练为结合各个声道的音频场景识别结果的神经网络，基于音频场景识别的结果来确定音频内容中包括的至少一个音频场景。处理器130可以基于至少一个音频场景中的每一个音频场景的、针对被分离的中间声道和侧声道中的每个声道计算的概率，来计算包括在音频内容中的至少一个音频场景中的每一个音频场景的概率。

存储器120可以存储各种数据、程序和/或应用，以在处理器130的控制下操作和控制电子设备100和100a。存储器120可以存储与视频处理器180、显示器110、音频处理器115、音频输出器126、电源190、调谐器140、通信接口150、检测器160和I/O接口170的操作对应的输入/输出信号或数据。

存储器120可以存储：OS 121，用于控制电子设备100和100a或处理器130；由制造商最初提供或从外部下载的应用；与应用有关的GUI；对象(例如，图像、文本、图标、按钮等中的至少一种)，用于提供GUI；用户信息；文本；数据库或相关数据。

另外，存储器120可以包括：电视(TV)观看器模块123，该TV观看器模块123包括一个或多个指令，以从遥控器接收输入信号并控制与该输入信号对应的频道，或者当该输入信号与预设的输入对应时，进入频道滚动用户界面模式；字符识别模块124，其包括一个或多个指令以识别从外部设备接收到的内容的信息；以及多品牌遥控器(MBR)模块125，其包括用于从外部装置进行频道控制的一个或多个指令。

存储器120包括安装在电子设备100和100a中的ROM、RAM或存储卡(例如，微安全数字(SD)卡或通用串行总线(USB)存储器)。另外，存储器120可以包括非易失性存储器、易失性存储器、硬盘驱动器(HDD)或固态驱动器(SSD)。

而且，存储器120可以包括以下中的至少一种类型的存储介质：闪存类型、硬盘类型、多媒体卡微型、卡型存储器(例如，SD或极限数字(XD)存储器)、RAM、静态RAM(SRAM)、ROM、电可擦可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁存储器、磁盘或光盘。

显示器110在处理器130的控制下在屏幕上显示通过调谐器140接收到的广播信号中包括的视频。另外，显示器110可以显示通过通信接口150或I/O输出接口170接收到的内容(例如，视频)。显示器110可以在处理器130的控制下输出存储在存储器120中的图像。

显示器110通过转换由处理器130处理的图像信号、数据信号、屏上显示(OSD)信号、控制信号等来生成驱动信号。显示器110可以被实现为等离子显示器面板(PDP)、液晶显示器(LCD)、有机发光二极管(OLED)显示器、柔性显示器、阴极射线管(CRT)显示器、有源矩阵OLED(AMOLED)等。另外，显示器110可以被实现为三维(3D)显示器。另外，显示器110可以被配置为触摸屏，并且因此被用作输入设备和输出设备。

调谐器140可以通过有线或无线接收的广播信号的放大、混合或共振中的至少一种，从多个无线电波组件中调谐并仅选择将由电子设备100a接收的期望频道的频率。广播信号包括音频、视频和附加信息(例如，电子节目指南(EPG))中的至少一种。

调谐器140可以根据用户输入(例如，从遥控器接收的控制信号，诸如频道号输入、频道上下输入和EPG屏幕上的频道选择输入)来接收与频道号对应的频带中的广播信号。

调谐器140可以从诸如地面广播、有线广播、卫星广播和互联网广播之类的各种来源接收广播信号。调谐器140还可以从诸如模拟广播或数字广播之类的来源接收广播信号。通过调谐器140接收的广播信号被解码(例如，通过音频解码、视频解码或附加信息解码)，并且被划分为音频、视频和/或附加信息。音频、视频和/或附加信息可以在处理器130的控制下存储在存储器120中。

电子设备100a中包括一个或多个调谐器140。调谐器140可以与电子设备100a一体地实现，作为电耦接到电子设备100a的配备有调谐器的单独的设备(例如，机顶盒)，或者作为与I/O接口170耦接的调谐器。

通信接口150可以在处理器130的控制下将电子设备100a连接到外部设备(例如，音频设备)。处理器130可以向通过通信接口150连接的外部设备发送内容或从其接收内容，从外部设备下载应用或执行Web浏览。通信接口150可以包括用于与电子设备100a的能力和结构对应的、无线局域网(WLAN)151、蓝牙152和有线以太网153中的通信方法的至少一个接口。

另外，通信接口150可以在处理器130的控制下从遥控器接收控制信号。该控制信号可以被配置为蓝牙类型、红外类型、射频(RF)信号类型或无线保真(WiFi)类型。

另外，通信接口150可以进一步包括其他短距离通信(例如，近场通信(NFC)和蓝牙低能耗(BLE))。

检测器160可以检测用户的语音、用户的图像或用户的交互，并且包括麦克风161、相机162和光接收器163中的至少一个。

麦克风161接收用户发出的语音。麦克风161可以将接收到的语音转换为电信号并输出电信号。用户的语音可以包括例如与电子设备100a的菜单或功能对应的语音。

相机162可以获得静止图像或运动图片的视频帧。通过图像传感器捕获的图像可以由处理器130或单独的图像处理器处理。

在相机162中处理的视频帧可以被存储在存储器120中，或者可以通过通信接口150被发送到外部。根据电子设备100a的规格或设计，可以提供两个或更多个相机162。

光接收器163从外部遥控器接收光信号(包括控制信号)。光接收器163可以从遥控器接收与用户输入(例如，触摸输入、按下输入、触摸手势输入、语音输入或动作输入)对应的光信号。可以在处理器130的控制下从接收到的光信号中提取控制信号。例如，光接收器163可以从遥控器接收与用于频道切换的频道上/下按钮对应的控制信号。

I/O接口170在处理器130的控制下从电子设备100a的外部接收视频(例如，运动图像)、音频(例如，语音或音乐)和附加信息(例如，EPG)。I/O接口170可以包括高清多媒体接口(HDMI)端口171、组件插孔172、PC端口173或USB端口174中的至少一个。I/O接口170可以包括HDMI端口171、组件插孔172、PC端口173和USB端口174中的一个、或者两个或多个的组合。外部图像提供设备可以通过HDMI端口171连接。

视频处理器180处理由电子设备100a接收的视频数据。视频处理器180可以对视频数据执行各种图像处理，诸如解码、缩放、噪声过滤、帧率转换和分辨率转换之类。

GPU 181通过使用计算单元和渲染器来生成包括诸如图标、图像和文本之类的各种对象的屏幕。计算单元通过使用检测器160检测到的用户输入来计算诸如坐标、形状、大小和颜色之类的属性值，以根据屏幕布局显示每个对象。渲染器以各种布局中的任何一种生成屏幕，包括基于由计算单元计算出的属性值的对象。由渲染器生成的屏幕被显示在显示器110的显示区域中。

音频处理器115处理音频数据。音频处理器115可以使音频数据经受各种处理，诸如解码、放大和噪声过滤中的至少一种。音频处理器115可以设置有多个音频处理模块，以处理与多个内容对应的音频。

音频输出器126在处理器130的控制下输出包括在通过调谐器140接收的广播信号中的音频。音频输出器126可以输出通过通信接口150或I/O接口170接收的音频(例如，语音或声音)。另外，音频输出器126可以在处理器130的控制下输出存储在存储器120中的音频。音频输出器126可以包括扬声器127、耳机输出终端128或索尼/飞利浦数字接口(SONY/PHILLIPS DIGITAL INTERFACE，S/PDIF)输出端子129中的至少一个。音频输出器126可以包括扬声器127、耳机输出端子128和S/PDIF输出端子129中的一个、或者两个或多个的组合。

电源190在处理器130的控制下将从外部电源接收的电力提供给电子设备100a的内部组件。另外，电源190可以在处理器130的控制下将从布置在电子设备100a内部的一个或多个电池输出的电力提供给电子设备100a的内部组件。

感测单元191可以感测电子设备100a的状态或电子设备100a的环境状态，并将感测到的信息提供给处理器130。

感测单元191可以包括但不限于以下至少一个：地磁传感器192、加速度传感器193、温度/湿度传感器194、红外(IR)传感器195、陀螺仪传感器196、位置传感器(例如，全球定位系统(GPS))197、大气压传感器198、接近传感器199或红、绿、蓝(RGB)传感器(照度传感器)200。

另外，包括显示器110的电子设备100a可以电耦接到包括调谐器140的单独的外部设备(例如，机顶盒)。

另外，本领域技术人员将容易理解，电子设备100和100a可以被实现为但不限于模拟TV、数字TV、3D TV、智能TV、LED TV、OLED TV、等离子TV、监视器等。

电子设备100或100a的示出的框图是用于实施例的。可以根据电子设备100或100a的规格来集成、添加或省略框图的一个或多个组件。即，当被需要或被期望时，可以将两个或更多个组件集成为一个组件，或者可以将一个组件分离为两个或更多个组件。另外，给出每个框的功能是为了说明实施例，并且其特定的操作或装置不限制本公开的范围。

图12是根据实施例的处理器1300的框图。

图12的处理器1300可以是图10和图11中所示的处理器130的示例。

参照图12，处理器1300可以包括数据学习器1310和数据识别器1320。然而，应当理解，框图中示出的处理器1300的组件不限于数据学习器1310和数据识别器1320。根据电子设备100的规格或设计，可以将数据学习器1310和数据识别器1320集成在一起，可以省略处理器1300的一个或多个组件，或者可以向处理器1300中添加一个或多个其他组件。即，当被需要或被期望时，可以将两个或更多个组件集成到一个组件中，或者可以将一个组件分离为两个或更多个组件。另外，一些组件可以被实现为可连接到电子设备100的外部设备。

数据学习器1310可以学习情况决策标准。数据学习器1310可以学习关于哪个数据将用于确定某种情况以及如何通过使用该数据来确定该情况的标准。数据学习器1310可以通过获取要用于学习的数据并将获取的数据应用于以下描述的数据确定模型，来学习情况决策标准。

数据识别器1320可以基于数据来确定情况。数据识别器1320可以通过使用训练后的数据确定模型从特定数据中识别情况。数据识别器1320可以通过根据预定的基于学习的标准获得特定数据，并将获得的数据用作输入值而使用数据确定模型，来基于该特定数据确定特定情况。另外，针对用作输入值的获得的数据的输入而从数据确定模型输出的结果值可以用于完善数据确定模型。

数据学习器1310或数据识别器1320中的至少一个可以以硬件芯片的形式制造并安装在电子设备上。例如，数据学习器1310或数据识别器1320中的至少一个可以以用于人工智能(AI)的专用硬件芯片的形式、或作为现有通用处理器(例如，CPU或应用处理器)的一部分或纯图形处理器(例如GPU)的一部分来制造，并安装在上述电子设备100和100a中的任何一个上。

然后，数据学习器1310和数据识别器1320可以被安装在相同的或不同的电子设备上。例如，数据学习器1310和数据识别器1320之一可以被包括在电子设备100或100a中，而另一者可以被包括在服务器中。另外，由于数据学习器1310和数据识别器1320有线或无线地彼此连接，因此可以将由数据学习器1310构造的模型信息提供给数据识别器1320，并且可以将输入到数据识别器1320的数据作为附加训练数据提供给数据学习器1310。

数据学习器1310或数据识别器1320中的至少一个可以被实现为软件模块。当数据学习器1310或数据识别器1320中的至少一个被实现为软件模块(或包括指令的编程模块)时，该软件模块可以被存储在非暂时性计算机可读介质中。在这种情况下，可以由OS或预定的应用提供至少一个软件模块。可替代地，至少一个软件模块的一部分可以由OS提供，其余部分可以由预定的应用提供。

图13是示出根据一个实施例的数据学习器1310的框图。

参照图13，数据学习器1310可以包括数据获取器1310-1、预处理器1310-2、训练数据选择器1310-3、模型训练器1310-4和模型评估器1310-5。

数据获取器1310-1可以获取情况决策所需要的或使用的数据。数据获取器1310-1可以针对情况决策获取训练所需的或使用的数据。

根据一个实施例，数据获取器1310-1可以获取音频数据。

例如，数据获取器1310-1可以通过与电子设备进行通信的外部设备来获取音频数据。

作为另一示例，数据获取器1310-1可以通过包括数据获取器1310的电子设备的相机或者与包括数据获取器1310的电子设备进行通信的外部相机来接收运动图片。

相机可以包括一个或多个图像传感器(例如，前传感器或后传感器)、镜头、图像信号处理器(ISP)和/或闪光灯(例如，LED或氙气灯)。

预处理器1310-2可以预处理所获得的数据，其中所获得的数据可以用于情况决策的训练。预处理器1310-2可以将获得的数据处理为预定的格式，其中下面描述的模型训练器1310-4可以将获得的数据用于情况决策的训练。

训练数据选择器1310-3可以从预处理的数据中选择训练所需的或使用的数据。所选择的数据可以被提供给模型训练器1310-4。训练数据选择器1310-3可以根据用于情况决策的预定的标准，从预处理的数据中选择训练所需的或使用的数据。另外，训练数据选择器1310-3可以根据通过学习以下描述的模型训练器1310-4而预定的标准来选择数据。

模型训练器1310-4可以基于训练数据来学习关于如何确定情况的标准。另外，模型训练器1310-4可以学习关于什么训练数据将用于情况决策的标准。

另外，模型训练器1310-4可以通过使用训练数据来训练用于情况决策的数据确定模型。在这种情况下，数据确定模型可以是预先构建的模型。例如，数据确定模型可以是基于接收到的基本训练数据(例如，样本音频数据)预先构建的模型。

可以考虑数据确定模型所应用的领域、学习的目的或设备的计算机能力中的至少一个来构造数据确定模型。数据确定模型可以是例如基于神经网络的模型。例如，数据确定模型可以是但不限于CNN、DNN、RNN或BiRNN。

根据一些实施例，在存在多个预先构造的数据确定模型的情况下，模型训练器1310-4可以将输入训练数据和基本训练数据之间具有较大相关性的数据确定模型确定为要训练的数据确定模型。在这种情况下，可以针对每种数据类型预先分类基本训练数据，并且可以针对每种数据类型预先构建数据确定模型。例如，可以根据各种标准(诸如，在其中生成训练数据的区域、生成训练数据的时间、训练数据的类型、训练数据的生成器以及训练数据中对象的类型)对基本训练数据进行预分类。

另外，模型训练器1310-4可以通过学习算法来训练数据确定模型，该学习算法包括例如误差反向传播或梯度下降。

另外，模型训练器1310-4可以通过监督学习来训练数据确定模型，在监督学习中训练数据被用作输入值。而且，模型训练器1310-4可以通过无监督学习来训练数据确定模型，其中，模型训练器1310-4通过在没有监督的情况下自主学习情况决策所需的或使用的数据的类型，来找到用于情况决策的标准。另外，模型训练器1310-4可以使用关于基于学习的情况决策结果是否正确的反馈，通过强化学习来训练数据确定模型。

另外，一旦训练了数据确定模型，则模型训练器1310-4可以存储训练后的数据确定模型。在这种情况下，模型训练器1310-4可以将训练后的数据确定模型存储在包括数据识别器1320的电子设备的存储器中。或者，模型训练器1310-4可以将训练后的数据确定模型存储在电子设备的存储器中，该电子设备的存储器包括将在下面描述的数据识别器1320。可替代地，模型训练器1310-4可以将训练后的数据确定模型存储在通过有线或无线网络连接到电子设备的服务器的存储器中。

在这种情况下，存储训练后的数据确定模型的存储器还可以存储例如与电子设备的至少一个其他组件有关的命令或数据。另外，存储器可以存储软件和/或程序。该程序可以包括例如内核、中间件、应用编程接口(API)和/或应用程序(或“应用”)。

模型评估器1310-5可以将评估数据输入到数据确定模型。当关于评估数据输出的识别结果不满足预定的标准时，模型评估器1310-5可以使模型训练器1310-4再次学习。在这种情况下，评估数据可以是评估数据确定模型所基于的预定的数据。

例如，当训练后的数据确定模型相对于评估数据的识别结果中识别结果不正确的评估数据的数量或比例超过预定的阈值时，模型评估器1310-5可以评估或确定预定的标准还不满足。例如，当预定的标准被定义为2％的比率并且训练后的数据确定模型输出总共1000个评估数据中的超过20个评估数据的错误识别结果时，模型评估器1310-5可以评估训练后的数据确定模型不合适。

另一方面，在存在多个训练后的数据确定模型的情况下，模型评估器1310-5可以评估每个训练后的视频确定模型是否满足预定的标准，并且将满足预定的标准的模型确定为最终的数据确定模型。在这种情况下，当多个模型满足预定的标准时，模型评估器1310-5可以以评估分数的降序确定一个模型或预定数目的模型作为最终的数据确定模型。

数据学习器1310中的数据获取器1310-1、预处理器1310-2、训练数据选择器1310-3、模型训练器1310-4或模型评估器1310-5中的至少一个可以以至少一个硬件芯片的形式制造并安装在电子设备上。例如，数据学习器1310中的数据获取器1310-1、预处理器1310-2、训练数据选择器1310-3、模型训练器1310-4或模型评估器1310-5中的至少一个可以以用于AI的专用硬件芯片的形式、或作为现有的通用处理器(例如，CPU或应用处理器)或纯图形处理器(例如，GPU)的一部分制造，并安装在上述电子设备100或100a中的任意一个上。

另外，数据获取器1310-1、预处理器1310-2、训练数据选择器1310-3、模型训练器1310-4和模型评估器1310-5可以被安装在相同或不同的电子设备上。例如，数据获取器1310-1、预处理器1310-2、训练数据选择器1310-3、模型训练器1310-4和模型评估器1310-5中的一部分可以被包括在电子设备100或100a中，而其余部分可以被包括在服务器中。

而且，数据获取器1310-1、预处理器1310-2、训练数据选择器1310-3、模型训练器1310-4或模型评估器1310-5中的至少一个可以被实现为软件模块。当数据获取器1310-1、预处理器1310-2、训练数据选择器1310-3、模型训练器1310-4或模型评估器1310-5中的至少一个被实现为软件模块(或包括指令的编程模块)时，该软件模块可以存储在非暂时性计算机可读介质中。另外，在这种情况下，可以由OS或预定的应用提供至少一个软件模块。可替代地，至少一个软件模块的一部分可以由OS提供，其余部分可以由预定的应用提供。

图14是示出根据一个实施例的数据识别器1320的框图。

参照图14，数据识别器1320可以包括数据获取器1320-1、预处理器1320-2、特征数据选择器1320-3、识别结果提供器1320-4和模型改进器1320-5。

数据获取器1320-1可以获取情况决策所需的或使用的数据，并且预处理器1320-2可以预处理所获得的数据，其中所获得的数据可以用于情况决策。预处理器1320-2可以将所获得的数据处理成预定的格式，其中下面描述的识别结果提供器1320-4可以将获得的数据用于情况决策。

特征数据选择器1320-3可以从预处理的数据中选择情况决策所需的或使用的数据。所选择的数据可以被提供给识别结果提供器1320-4。特征数据选择器1320-3可以根据用于情况决策的预定的标准来选择全部或部分的预处理的数据。另外，特征数据选择器1320-3可以根据通过下面将要描述的模型训练器1310-4的学习而预定的标准来选择数据。

识别结果提供器1320-4可以通过将所选择的数据应用于数据确定模型来确定情况。识别结果提供器1320-4可以根据数据识别的目的来提供识别结果。识别结果提供器1320-4可以通过使用由特征数据选择器1320-3选择的数据作为输入值，将选择的数据应用于数据确定模型。另外，可以通过数据确定模型来确定识别结果。

模型改进器1320-5可以基于由识别结果提供器1320-4提供的识别结果的评估来改进数据确定模型。例如，模型改进器1320-5可以通过将从识别结果提供器1320-4接收的识别结果提供给模型训练器1310-4，来允许模型训练器1310-4改进数据确定模型。

数据识别器1320中的数据获取器1320-1、预处理器1320-2、特征数据选择器1320-3、识别结果提供器1320-4或模型改进器1320-5中的至少一个可以以至少一个硬件芯片的形式制造并且安装在电子设备上。例如，数据识别器1320中的数据获取器1320-1、预处理器1320-2、特征数据选择器1320-3、识别结果提供器1320-4或模型改进器1320-5中的至少一个可以以用于人工智能(AI)的专用硬件芯片的形式、或作为现有的通用处理器(例如，CPU或应用处理器)的一部分或纯图形处理器(例如，GPU)的一部分制造，并安装在上述电子设备100或100a中的任意一个上。

另外，数据获取器1320-1、预处理器1320-2、特征数据选择器1320-3、识别结果提供器1320-4和模型改进器1320-5可以安装在相同或不同的电子设备上。例如，数据获取器1320-1、预处理器1320-2、特征数据选择器1320-3、识别结果提供器1320-4和模型改进器1320-5中的一部分可以被包括在电子设备中，其余部分包括在服务器中。

数据获取器1320-1、预处理器1320-2、特征数据选择器1320-3、识别结果提供器1320-4或模型改进器1320-5中的至少一个可以被实现为软件模块。当数据获取器1320-1、预处理器1320-2、特征数据选择器1320-3、识别结果提供器1320-4或模型改进器1320-5中的至少一个被实现为软件模块(或包括指令的程序模块)时，该软件模块可以存储在非暂时性计算机可读介质中。在这种情况下，可以由OS或预定的应用提供至少一个软件模块。可替代地，至少一个软件模块的一部分可以由OS提供，其余部分可以由预定的应用提供。

根据一个实施例，电子设备100可以被实现为包括显示器(图11中的110)的设备。

根据一个实施例，电子设备100可以是但不限于TV。例如，电子设备100可以被实现为各种电子设备中的任何一种，包括台式计算机、平板个人计算机(PC)、膝上型计算机、移动电话、电子书(e-book)终端、移动设备、用于数字广播的终端、个人数字助理(PDA)、便携式多媒体播放器(PMP)、导航器、数字照相机、便携式摄像机、MP3播放器、可穿戴设备等。另外，电子设备100可以是固定的或移动的，并且可以是被配置为接收数字广播的数字广播接收器。

另外，根据实施例，电子设备100可以被实现为弯曲显示设备(其屏幕具有曲率)、或具有可调节的曲率的柔性显示设备、或平板显示设备。电子设备100的输出分辨率可以包括，例如高清(HD)、全HD、超HD或比超HD更高的分辨率。

本文所述的设备可以包括：处理器，存储程序数据并执行程序数据的存储器，诸如磁盘驱动器之类的永久性存储单元，与外部设备进行通信的通信端口，以及包括触摸面板、按键、按钮等的用户界面设备。当涉及软件模块或算法时，这些软件模块可以在计算机可读介质上被存储为处理器上可执行的程序指令或计算机可读代码。计算机可读记录介质的示例包括磁性存储介质(例如，ROM、软盘、硬盘等)和光学记录介质(例如，CD-ROM或DVD)。计算机可读记录介质还可以分布在通过网络连接的计算机系统上，从而以分散方式存储和执行计算机可读代码。该介质可以由计算机读取，存储在存储器中，并由处理器执行。

可以根据功能块组件和各种处理步骤来描述一个或多个实施例。可以通过被配置为执行指定功能的任何数量的硬件和/或软件组件来实现这样的功能块。例如，一个或多个实施例可以采用各种集成电路(IC)组件，例如，存储器元件、处理元件、逻辑元件、查找表等，其可在一个或多个的微处理器或其他控制设备的控制下执行多种功能。类似地，在使用软件编程或软件元件来实现元件的情况下，可以用诸如C、C++、Java、汇编语言等之类的任何编程或脚本语言来实现本公开，并且可以通过数据结构、对象、进程、例程或其他编程元素的任意组合来实现各种算法。功能方面可以以在一个或多个处理器上执行的算法来实现。另外，一个或多个实施例可采用根据用于电子配置、信号处理和/或控制、数据处理等的相关技术的任何数量的技术。词语“机制”、“元件”、“单元”和“配置”被广泛地使用，并且不限于本公开的机械的或物理的实施例。这些术语可能包括与处理器等结合的软件例程。

本文中示出和描述的具体实施例是本发明构思的说明性示例，并非意图相反地以任何方式限制本发明的范围。为了简洁起见，可以不详细描述根据现有技术的系统的电子设备、控制系统、软件开发和其他功能方面。

尽管已经出于说明性目的公开了某些实施例，但是本领域技术人员将理解，在不脱离本公开的精神和范围的情况下，各种变化和修改是可能的。因此，在所有方面，上述实施例不应被理解为是限制性的而是说明性的。例如，可以分开使用以整体的形式描述的各个元件，并且可以在被结合的状态下使用分开的元件。

除非另外要求，否则使用本文中提供的任何和所有示例或示例性语言仅旨在更好地说明本公开，并且不对本公开的范围构成限制。

另外，除非将元件具体描述为“必要的”或“关键的”，否则没有事物或组件对于实施本发明构思是必不可少的。

本领域技术人员将理解，可以在不脱离本公开的基本特征的情况下以不同的方式来实现本公开。

参考附图描述了各种实施例。然而，本公开的范围不旨在限于具体的实施例，并且应理解，本公开涵盖落入本公开的范围和精神内的各种修改、等同物和/或替代物。因此，应当从说明性的角度而不是限制性的角度理解上述实施例。

本公开的范围根据权利要求书(而不是本公开的详细描述)是明显的，并且权利要求书的含义和范围以及从其等同概念得出的所有修改或变化应被解释为落入本公开的范围内。

如本文所使用的术语“单元”、“模块”等是执行至少一个功能或操作的单元，并且可以以硬件、软件或其组合来实现。

“单元”或“模块”可以由存储在可寻址的存储介质中并由处理器执行的程序来实现。

例如，“单元”或“模块”可以由诸如软件组件、面向对象的软件组件、类组件以及任务组件、进程、函数、属性、过程、子例程、程序代码段、驱动器、固件、微码、电路、数据、数据库、数据结构、表、数组和变量之类的组件实现。

在本说明书中，表述“A可以包括a1、a2和a3之一”广义上是指可以被包括在元素A中的示例性元素是a1、a2或a3。

上述表述未必意味着能够构成元素A的元素被限制为a1、a2或a3。因此，应当注意，可能构成A的元素并不是在它们排除了a1，a2和a3以外的未示出的元素的意义上被排它性地解释的。

另外，上述表述意味着A可以包括a1，包括a2，或包括a3。上面的表述并不意味着构成A的元素基本上是在给定的集合内确定的。例如，应当注意，以上表述不必解释为意味着从包括a1、a2和a3的集合中选择的a1，a2或a3构成组件A。

在本说明书中，表述“a1、a2和a3中的至少一个”是指“a1”、“a2”、“a3”、“a1和a2”、“a1和a3”、“a2和a3”以及“a1、a2和a3”中的一个。因此，除非明确指定为“a1中的至少一个、a2中的至少一个和a3中的至少一个”，否则表述“a1、a2和a3中的至少一个”不应被限制性地解释为“a1中的至少一个”、“a2中的至少一个”和“a3中的至少一个”。

Claims

1.一种识别音频场景的方法，所述方法包括：

根据预定的标准，将输入音频信号分离为声道；

根据每个分离的声道，通过使用被训练为识别音频场景的多个神经网络，从所述输入音频信号中识别至少一个音频场景；以及

基于对所述至少一个音频场景的识别的结果，通过使用被训练为结合各个声道的音频场景识别结果的神经网络，确定音频内容中包括的至少一个音频场景，

其中，所述多个神经网络包括：

第一神经网络，被训练为基于音频信号的时频形状来识别音频场景，

第二神经网络，被训练为基于音频信号的频谱包络的形状来识别音频场景，以及

第三神经网络，被训练为基于从音频信号中提取的特征向量来识别音频场景。

2.根据权利要求1所述的方法，其中，所述分离包括：将所述输入音频信号分离为中间声道和侧声道。

3.根据权利要求1所述的方法，其中，所述分离包括：配置每个分离的声道中的预定音频场景的识别。

4.根据权利要求1所述的方法，其中，所述分离包括：将所述输入音频信号预处理为被训练为识别音频场景的所述多个神经网络中的每一个神经网络的输入数据格式。

5.根据权利要求4所述的方法，其中，所述预处理包括：通过对所述输入音频信号进行降采样并将降采样的音频信号转换为基于时间和频率的频谱图，将所述输入音频信号处理为所述第一神经网络的输入数据格式和所述第三神经网络的输入数据格式。

6.根据权利要求4所述的方法，其中，所述预处理包括：通过将所述输入音频信号的频谱包络的形状的维数减小到低维，将所述输入音频信号处理为所述第二神经网络的输入数据格式。

7.根据权利要求1所述的方法，其中，识别至少一个音频场景包括：根据每个分离的声道，计算识别出的至少一个音频场景中的每一个音频场景的概率。

8.根据权利要求1所述的方法，其中，识别至少一个音频场景包括：基于通过将预定的权重应用于被预处理为所述第二神经网络的输入数据格式的频谱包络而调整了大小的频谱包络，来计算所述至少一个音频场景的概率。

9.根据权利要求1所述的方法，其中，所述特征向量包括主导向量、平均频谱功率、单音性或频谱过零率中的至少一个。

10.根据权利要求1所述的方法，其中，确定至少一个音频场景包括：基于所述至少一个音频场景中的每一个音频场景的、针对被分离为中间声道和侧声道的每个声道而计算的概率，来计算所述音频内容中包括的所述至少一个音频场景中的每一个音频场景的概率。

11.一种用于识别音频场景的电子设备，所述电子设备包括：

存储至少一条指令的存储器；以及

至少一个处理器，被配置为执行所述至少一条指令以实现：

预处理模块，被配置为根据预定的标准将输入音频信号分离为声道；

场景识别模块，被配置为根据每个分离的声道，通过使用被训练为识别音频场景的多个神经网络，从所述输入音频信号中识别至少一个音频场景；以及

决策模块，被配置为基于识别出的至少一个音频场景，通过使用被训练为结合各个声道的音频场景识别结果的神经网络，确定音频内容中包括的至少一个音频场景，

其中，所述多个神经网络包括：

12.根据权利要求11所述的电子设备，其中，所述预处理模块还被配置为将所述输入音频信号分离为中间声道和侧声道。

13.根据权利要求11所述的电子设备，其中，所述预处理模块还被配置为配置每个分离的声道中的预定音频场景的识别。

14.根据权利要求11所述的电子设备，其中，所述预处理模块还被配置为将所述输入音频信号预处理为被训练为识别音频场景的所述多个神经网络中的每一个神经网络的输入数据格式。

15.一种非暂时性计算机可读记录介质，其上记录有程序，所述程序能够由至少一个处理器执行以执行根据权利要求1所述的方法。