CN111868821A

CN111868821A - 从媒体信号提取与音调无关的音色属性的方法和装置

Info

Publication number: CN111868821A
Application number: CN201980018804.5A
Authority: CN
Inventors: Z·拉菲
Original assignee: Nielsen Co US LLC
Current assignee: Nielsen Co US LLC
Priority date: 2018-03-13
Filing date: 2019-03-12
Publication date: 2020-10-30
Also published as: JP2023071787A; US11749244B2; EP3766062A1; WO2019178108A1; US20230368761A1; US20190287506A1; US10482863B2; US10902831B2; US20210151021A1; US20200051538A1; EP3766062A4; US10186247B1; JP2021517267A; US10629178B2; US20200219473A1; JP7235396B2

Abstract

公开了从媒体信号中提取与音调无关的音色属性的方法和装置。示例性装置包括用于接收媒体信号的接口；以及音频特征提取器，该音频特征提取器用于确定对应于媒体信号的音频的频谱；并且基于该频谱的变换的幅度的逆变换来确定该音频的与音调无关的音色属性。

Description

从媒体信号提取与音调无关的音色属性的方法和装置

技术领域

本公开总体上涉及音频处理，更具体地，涉及从媒体信号中提取与音调无关的音色属性的方法和装置。

背景技术

音色(例如，音色/音色属性)是音频的质量/特征，而与音频音调或响度无关。音色使两种不同的声音彼此不同，即使它们具有相同的音调和响度。例如，吉他和长笛以相同的幅度演奏相同的音符，因为吉他和长笛具有不同的音色，所以声音不同。音色对应于音频事件的频率和时间包络(例如，能量沿时间和频率的分布)。对应于音色感知的音频特征包括频谱和包络。

附图说明

图1是用于从媒体信号中提取与音调无关的音色属性的示例性计量器的图示。

图2是图1的示例性音频分析器和示例性音频确定器的框图。

图3是表示示例性机器可读指令的流程图，所述指令可被执行以实现图1和图2的示例性音频分析器，以从媒体信号中提取与音调无关的音色属性和/或从媒体信号中提取与音色无关的音调。

图4是表示示例性机器可读指令的流程图，所述指令可被执行以实现图1和图2的示例性音频确定器，以基于无音调音色对数频谱来表征音频和/或标识媒体。

图5示出了可以使用图1和图2的示例性音频分析器确定的示例性音频信号、音频信号的示例性音调以及音频信号的示例性音色。

图6是被构造为执行图3的示例性机器可读指令以控制图1和图2的示例性音频分析器的处理器平台的框图。

图7是被构造为执行图4的示例性机器可读指令以控制图1和图2的示例性音频确定器的处理器平台的框图。

这些附图未按比例绘制。只要可能，贯穿所有附图和所附书面描述将使用相同的附图标记来指代相同或相似的部分。

具体实施方式

音频计量器是(例如，直接或间接地)捕获音频信号以对这些音频信号进行处理的装置。例如，当专门小组成员签约以使他们对媒体的曝光量受到受众测量实体的监视时，受众测量实体可以派遣技术人员到专门小组成员的家中，以安装能够从媒体输出设备(例如，电视、收音机、计算机等)收集媒体曝光数据的计量器(例如，媒体监视器)。在另一示例中，计量器可以对应于在智能电话中的处理器上执行的指令，以例如对接收到的音频和/或视频数据进行处理，以确定媒体的特征。

通常，计量器包括或以其它方式连接到接口，以直接从媒体源或间接地接收媒体信号(例如，从麦克风和/或磁耦合设备收集环境音频)。例如，当媒体输出设备“开启”时，麦克风可以接收由媒体输出设备发送的声信号。计量器可以对所接收到的声信号进行处理，以确定可用于表征和/或标识音频或音频源的音频特征。当计量器对应于在媒体输出设备内和/或与媒体输出设备一起操作以接收要由媒体输出设备输出的音频和/或视频信号的指令时，计量器可以对输入的音频和/或视频信号进行处理/分析，以直接确定与信号相关的数据。例如，计量器可以在机顶盒、接收机、移动电话等中操作，以在媒体输出设备输出之前、期间或之后接收和处理输入的音频/视频数据。

在一些示例中，音频计量设备/指令利用音频的各种特征来分类和/或标识音频和/或音频源。这样的特征可以包括媒体信号的能量、媒体信号频带的能量、媒体信号的离散余弦变换(DCT)系数等。本文所公开的示例基于对应于媒体信号的音频的音色来分类和/或标识媒体。

音色(例如，音色/音色属性)是音频的质量/特征，而与音频音调或响度无关。例如，吉他和长笛以相同的幅度演奏相同的音符，因为吉他和长笛具有不同的音色，所以声音不同。音色对应于音频事件的频率和时间包络(例如，能量沿时间和频率的分布)。传统上，音色通过各种特征来表征。然而，音色还没有独立于音频的其它方面(例如，音调)而从音频中提取出。因此，基于音调相关音色测量来标识媒体将需要对应于每个类别和每个音调的参考音调相关音色的大数据库。本文所公开的示例从与音调无关的测量音频中提取与音调无关的音色对数频谱，从而减少基于音色分类和/或标识媒体所需的资源。

如上所述，所提取的与音调无关的音色可以用于对媒体进行分类和/或标识和/或可以用作签名算法的一部分。例如，所提取的与音调无关的音色属性(例如，对数频谱)可用于确定所测得的音频(例如，音频样本)与小提琴相对应，而不管小提琴正在演奏的音符。在一些示例中，特征音频可以用于调节媒体输出设备的音频设置，以为用户提供更好的音频体验。例如，一些音频均衡器设置可能更适合于来自特定乐器和/或风格的音频。因此，本文所公开的示例可以基于对应于所提取的音色标识的乐器/风格来调节媒体输出设备的音频均衡器设置。在另一示例中，所提取的与音调无关的音色可用于通过将所提取的与音调无关的音色属性与数据库中的参考音色属性进行比较来标识正由媒体呈现设备(例如，电视、计算机、收音机、智能电话、平板电脑等)输出的媒体。以这种方式，所提取的音色和/或音调可以用于向受众测量实体提供比仅考虑所接收音频的音调的传统技术更详细的媒体曝光信息。

图1示出了从媒体信号中提取与音调无关的音色属性的示例性音频分析器100。图1包括示例性音频分析器100、示例性媒体输出设备102、示例性扬声器104a、104b、示例性媒体信号106以及示例性音频确定器108。

图1的示例性音频分析器100从设备(例如，示例性媒体输出设备102和/或示例性扬声器104a、104b)接收媒体信号，并对媒体信号进行处理以确定与音调无关的音色属性(例如，对数频谱)和与音色无关的音调属性。在一些示例中，音频分析器100可以包括(或以其他方式连接到)麦克风，以通过感测环境音频来接收示例性媒体信号106。在这样的示例中，音频分析器100可以在利用麦克风的计量器或其它计算设备(例如，计算机、平板电脑、智能电话、智能手表等)中实现。在一些示例中，分析器100包括用于直接(例如，经由有线或无线连接)从示例性媒体输出设备102接收示例性媒体信号106的接口和/或向媒体输出设备102呈现媒体的媒体呈现设备。例如，音频分析器100可以直接从机顶盒、移动电话、游戏设备、音频接收机、DVD播放器、蓝光播放器、平板电脑和/或提供要由媒体输出设备102和/或示例性扬声器104a、104b输出的媒体的任何其它设备接收媒体信号106。如下面结合图2进一步描述的，示例性音频分析器100从媒体信号106中提取与音调无关的音色属性和/或与音色无关的音调属性。如果媒体信号106是具有音频分量的视频信号，则示例性音频分析器100在提取音调和/或音色之前从媒体信号106中提取音频分量。

图1的示例性媒体输出设备102是输出媒体的设备。尽管图1的示例性媒体输出设备102被示出为电视，但是示例性媒体输出设备102可以是收音机、MP3播放器、视频游戏机、立体声系统、移动设备、平板电脑、计算设备、平板计算机、膝上型计算机、投影仪、DVD播放器、机顶盒、顶置设备和/或能够输出媒体(例如，视频和/或音频)的任何设备。示例性媒体输出设备可以包括扬声器104a和/或可以经由有线或无线连接联接或连接到便携式扬声器104b。示例性扬声器104a、104b输出由示例性媒体输出设备输出的媒体的音频部分。在图1所示的示例中，媒体信号106表示由示例性扬声器104a、104b输出的音频。附加地或另选地，示例性媒体信号106可以是音频信号和/或视频信号，其被发送到示例性媒体输出设备102和/或示例性扬声器104a、104b，以由示例性媒体输出设备102和/或示例性扬声器104a、104b输出。例如，示例性媒体信号106可以是来自游戏机的信号，其被发送到示例性媒体输出设备102和/或示例性扬声器104a、104b以输出视频游戏的音频和视频。示例性音频分析器100可以直接从媒体呈现设备(例如，游戏机)和/或从环境音频接收媒体信号106。以这种方式，音频分析器100甚至可以在扬声器104a、104b关闭、不工作或关机时从媒体信号中分类和/或标识音频。

图1的示例性音频确定器108基于从示例性音频分析器100接收的与音调无关的音色属性表征音频和/或标识媒体。例如，音频确定器108可以包括与分类和/或标识相对应的与参考音调无关的音色属性的数据库。以这种方式，示例性音频确定器108可以将接收到的与音调无关的音色属性与参考与音调无关的属性进行比较，以识别匹配。如果示例性音频确定器108标识出匹配，则示例性音频确定器108对音频进行分类和/或标识与匹配的参考音色属性相对应的信息上的媒体。例如，如果接收到的音色属性与对应于喇叭的参考属性相匹配，则示例性音频确定器108将与接收到的音色属性相对应的音频分类为来自喇叭的音频。在这样的示例中，如果音频分析器100是移动电话的一部分，则示例性音频分析器100可以接收播放歌曲的喇叭的音频信号(例如，经由接收音频/视频信号的接口或者经由接收音频信号的移动电话的麦克风)。以此方式，音频确定器108可以识别出对应于所接收到的音频的乐器是小号，并向用户标识所述小号(例如，使用移动设备的用户接口)。在另一示例中，如果接收到的音色属性与对应于特定视频游戏的参考属性相匹配，则示例性音频确定器108可将对应于接收到的音色属性的音频标识为来自特定视频游戏。示例性音频确定器108可以生成报告以标识音频。以这种方式，受众测量实体可以基于该报告信任对视频游戏的曝光。在一些示例中，音频确定器108直接从音频分析器100接收音色(例如，音频分析器100和音频确定器108都位于同一设备中)。在一些示例中，音频确定器108位于不同的位置并且经由无线通信从示例性音频分析器100接收音色。在一些示例中，音频确定器108向示例性音频媒体输出设备102和/或示例性音频分析器100发送指令(例如，当在示例性媒体输出设备102中实现示例性音频分析器100时)以基于音频分类来调节音频均衡器设置。例如，如果音频确定器108将媒体输出设备102输出的音频分类为来自喇叭，则示例性音频确定器108可以发送指令以将音频均衡器设置调节到对应于喇叭音频的设置。下面结合图2进一步描述示例性音频确定器108。

图2包括图1的示例性音频分析器100和示例性音频确定器108的示例性实现的框图。图2的示例性音频分析器100包括示例性媒体接口200、示例性音频提取器202、示例性音频特征提取器204以及示例性设备接口206。图2的示例性音频确定器108包括示例性设备接口210、示例性音色处理器212、示例性音色数据库214以及示例性音频设置调节器216。在一些示例中，示例性音频分析器100的元件可以在示例性音频确定器108中实现和/或示例性音频确定器108的元件可以在示例性音频分析器100中实现。

图2的示例性媒体接口200接收(例如，采样)图1的示例性媒体信号106。在一些示例中，媒体接口200可以是用于通过感测环境音频来收集媒体信号106以获得作为音频的媒体信号106的麦克风。在一些示例中，媒体接口200可以是直接接收将由示例性媒体输出设备102输出的音频和/或视频信号(例如，媒体信号的数字表示)的接口。在一些示例中，媒体接口200可以包括两个接口，用于检测和采样环境音频的麦克风和用于直接接收和/或采样音频和/或视频信号的接口。

图2的示例性音频提取器202从接收/采样的媒体信号106提取音频。例如，音频提取器202确定所接收的媒体信号106是否对应于音频信号或具有音频分量的视频信号。如果媒体信号对应于具有音频分量的视频信号，则示例性音频提取器202提取音频分量以生成音频信号/样本以便进一步处理。

图2的示例性音频特征提取器204对音频信号/样本进行处理以提取与音调无关的音色对数频谱和/或与音色无关的音调对数频谱。对数频谱是与音调无关的(例如，无音调)音色对数频谱和与音色无关的(例如，无音色)音调对数频谱之间的卷积(例如，X＝T*P，其中X是音频信号的对数频谱，T是与音调无关的对数频谱，而P是与音色无关的音调对数频谱)。因此，在傅立叶域中，音频信号上的对数频谱的傅立叶变换(FT)的幅度可以对应于音色的FT的近似值(例如，F(X)＝F(T)×F(P)，其中F(.)是傅立叶变换，F(T)≈|F(X)|，并且F(P)≈e^jarg(F(X)))。复自变量是幅度和相位的组合(例如，对应于能量和偏移)。因此，音色的FT可以通过对数频谱的FT的幅度来近似。因此，为了确定音频信号的与音调无关的音色对数频谱和/或与音色无关的音调对数频谱，示例性音频特征提取器204确定音频信号的对数频谱(例如，使用常数Q变换(CQT))并将对数频谱变换到频域(例如，使用FT)。以这种方式，示例性音频特征提取器204(A)基于逆变换(例如，变换输出的幅度的傅立叶逆变换(F^-1)(例如，T＝F^-1(|F(X)|))来确定音调相关音色对数频谱，并且(B)基于变换输出的复自变量的逆变换(例如，P＝F^-1(e^jarg(F(X))))来确定无音色音调对数频谱。音频信号的音频频谱的对数频率标度允许音调偏移等于垂直平移。因此，示例性音频特征提取器204使用CQT确定音频信号的对数频谱。

在一些示例中，如果图2的示例性音频特征提取器204确定结果音色和/或音调不令人满意，则音频特征提取器204过滤该结果以改进分解。例如，音频特征提取器204可通过强调音色中的特定谐波或通过强制音调中的单个峰值/线并更新结果的其它分量来过滤结果。示例性音频特征提取器204可以过滤一次或者可以执行迭代算法，同时在每次迭代时更新滤波器/音调，由此确保音调和音色的整体卷积产生音频的原始对数频谱。音频特征提取器204可以基于用户和/或制造商偏好来确定结果是否令人满意。

图2的示例性音频分析器100的示例性设备接口206与示例性音频确定器108和/或其它设备(例如，用户接口、处理设备等)接口连接。例如，当音频特征提取器204确定与音调无关的音色属性时，示例性设备接口206可以将该属性发送到示例性音频确定器108，以对音频进行分类和/或标识媒体。作为响应，设备接口206可以从示例性音频确定器108(例如，在信号或报告中)接收分类和/或标识(例如，对应于媒体信号106的源的标识符)。在这样的示例中，示例性设备接口206可以将分类和/或标识发送到其它设备(例如，用户接口)以向用户显示该分类和/或标识。例如，如果音频分析器100正与智能电话结合使用，则设备接口206可以经由智能电话的接口(例如，屏幕)向智能电话的用户输出分类和/或标识的结果。

图2的示例性音频确定器108的示例性设备接口210从示例性音频分析器100接收与音调无关的音色属性。另外，示例性设备接口210输出表示由示例性音频确定器108确定的分类和/或标识的信号/报告。该报告可以是对应于基于所接收的音色的分类和/或标识的信号。在一些示例中，设备接口210将报告(例如，包括对应于音色的媒体的标识)发送到处理器(例如，受众测量实体的处理器)以用于进一步处理。例如，接收设备的处理器可以对该报告进行处理，以生成媒体曝光度量、受众测量度量等。在一些示例中，设备接口210将报告发送至示例性音频分析器100。

图2的示例性音色处理器212对所接收的示例性音频分析器100的音色属性进行处理，以表征音频和/或标识音频的源。例如，音色处理器212可以将接收到的音色属性与示例性音色数据库214中的参考属性进行比较。以这种方式，如果示例性音色处理器212确定所接收到的音色属性与参考属性匹配，则示例性音色处理器212基于与匹配的参考音色属性相对应的数据来分类和/或标识音频的源。例如，如果音色处理器212确定所接收到的音色属性与对应于特定商业广告的参考音色属性相匹配，则音色处理器212将音频的源标识为特定商业广告。在一些示例中，分类可以包括类型分类。例如，如果示例性音色处理器212基于音色确定多个乐器，则示例性音色处理器212可以基于所识别出的乐器和/或基于音色本身来标识音频的风格(例如，古典、摇滚、hiphop等)。在一些示例中，当音色处理器212未找到匹配时，示例性音色处理器212将接收到的音色属性存储在音色数据库214中以变成新的参考音色属性。如果示例性音色处理器212将新的参考音色存储在示例性音色数据库214中，则示例性设备接口210向示例性音频分析器100发送指令以提示用户标识信息(例如，什么是音频分类、什么是媒体源等)。以这种方式，如果音频分析器100响应附加信息，则音色数据库214可以结合新的参考音色来存储附加信息。在一些示例中，技术人员对新的参考音色进行分析以确定附加信息。示例性音色处理器212基于分类和/或标识生成报告。

图2的示例性音频设置调节器216基于分类的音频确定音频均衡器设置。例如，如果分类的音频对应于一个或更多个乐器和/或风格，则示例性音频设置调节器216可以确定与所述一个或更多个乐器和/或风格相对应的音频均衡器设置。在一些示例中，如果音频被分类为古典音乐，则示例性音频设置调节器216可以选择对应于古典音乐的古典音频均衡器设置(例如，基于低音等级、颤音等级等)。以这种方式，示例性设备接口210可以将音频均衡器设置发送到示例性媒体输出设备102和/或示例性音频分析器100，以调节示例性媒体输出设备102的音频均衡器设置。

虽然在图2中示出了实现图1的示例性音频分析器100和示例性音频确定器108的示例性方式，但是图2中示出的一个或更多个元件、过程和/或设备可以以任何其它方式进行组合、划分、重新布置、省略、去除和/或实现。此外，示例性媒体接口200、示例性音频提取器202、示例性音频特征提取器204、示例性设备接口206、示例性音频设置调节器216和/或(更一般地)图2的示例性音频分析器100和/或示例性设备接口210、示例性音色处理器212、示例性音色数据库214、示例性音频设置调节器216和/或(更一般地)图2的示例性音频确定器108可以由硬件、软件、固件和/或硬件、软件和/或固件的任何组合来实现。因此，例如，示例性媒体接口200、示例性音频提取器202、示例性音频特征提取器204、示例性设备接口206和/或(更一般地)图2的示例性音频分析器100和/或示例性设备接口210、示例性音色处理器212、示例性音色数据库214、示例性音频设置调节器216和/或(更一般地)图2的示例性音频确定器108可以由一个或更多个模拟或数字电路、逻辑电路、可编程处理器、可编程控制器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、可编程逻辑器件(PLD)和/或现场可编程逻辑器件(FPLD)来实现。当阅读本专利的任何装置或系统权利要求以覆盖纯软件和/或固件实现时，示例性媒体接口200、示例性音频提取器202、示例性音频特征提取器204、示例性设备接口206、和/或(更一般地)图2的示例性音频分析器100和/或示例性设备接口210、示例性音色处理器212、示例性音色数据库214、示例性音频设置调节器216和/或(更一般地)图2的示例性音频确定器108中的至少一个由此被明确地定义为包括非暂时性计算机可读存储设备或存储盘，诸如包括软件和/或固件的存储器、数字通用盘(DVD)、光盘(CD)、蓝光盘等。此外，图1的示例性音频分析器100和/或示例性音频确定器108还可以包括除图2中所示的那些之外或替代其的一个或更多个元件、过程和/或设备，和/或可以包括多于一个的任何或所有所示元件、过程和设备。如本文所使用的，包括其变体的短语“在通信中”涵盖直接通信和/或通过一个或更多个中间组件的间接通信，并且不需要直接物理(例如，有线)通信和/或恒定通信，而是另外包括以周期性间隔、预定间隔、非周期性间隔和/或一次性事件的选择性通信。

图3中示出了表示用于实现图2的音频分析器100的示例性硬件逻辑或机器可读指令的流程图，并且图4中示出了表示用于实现图2的音频确定器108的示例性硬件逻辑或机器可读指令的流程图。机器可读指令可以是由处理器(例如下面结合图6和/或图7讨论的示例性处理器平台600、700中所示的处理器612、712)执行的程序或程序的一部分。所述程序可以以存储在非暂时性计算机可读存储介质上的软件来实现，所述非暂时性计算机可读存储介质诸如是CD-ROM、软盘、硬盘驱动器、DVD、蓝光盘或与处理器612、712相关联的存储器，但是整个程序和/或其部分可以另选地由处理器612、712之外的设备712来执行和/或以固件或专用硬件来实现。此外，尽管参照图3和图4中所示的流程图描述了示例性程序，但是另选地可以使用实现示例性音频分析器100和/或示例性音频确定器108的许多其它方法。例如，可以改变框的执行顺序，和/或可以改变、去除或组合所描述的一些框。附加地或另选地，任何或所有的框可以由一个或更多个硬件电路(例如，离散和/或集成的模拟和/或数字电路、FPGA、ASIC、比较器、运算放大器(op-amp)，逻辑电路等)实现，所述硬件电路被构造为执行相应的操作而不执行软件或固件。

如上所述，图3和图4的示例性过程使用存储在非暂时性计算机和/或机器可读介质上的可执行指令(例如，计算机和/或机器可读指令)来实现，所述非暂时性计算机和/或机器可读介质诸如是硬盘驱动器、闪存、只读存储器、光盘、数字通用盘、高速缓存、随机存取存储器和/或任何其它存储设备或存储盘，其中存储信息达任何持续时间(例如，延长的时间段、对于简短的实例是永久的、临时缓冲和/或信息的高速缓存)。如本文所使用的，术语非暂时性计算机可读介质被明确地定义为包括任何类型的计算机可读存储设备和/或存储盘，并且排除传播信号和传输介质。

“包括”和“包含”在本文中用作开放式术语。因此，每当权利要求采用任何形式的“包括”或“包含”作为前序时或在任何类型的权利要求陈述内，应当理解，可以存在附加的元素、术语等而不落入相应的权利要求或陈述的范围之外。如本文所使用的，当短语“至少”被用作例如权利要求的前序中的过渡术语时，其以与术语“包括”和“包含”相同也是开放式的。当例如以诸如A、B和/或C的形式使用时，术语“和/或”是指A、B、C的任何组合或子集，诸如(1)单独的A、(2)单独的B、(3)单独的C、(4)A与B、(5)A与C以及(6)B与C。

图3是表示示例性机器可读指令的示例性流程图300，所述指令可以由图1和图2的示例性音频分析器100执行以从媒体信号(例如，媒体信号的音频信号)提取音调无关的音色属性。虽然结合图1的示例性音频分析器100描述了图3的指令，但是示例性指令可以由音频分析器在任何环境中使用。

在框302，示例性媒体接口200接收一个或更多个媒体信号或媒体信号的采样(例如，示例性媒体信号106)。如上所述，示例性媒体接口200可以直接接收媒体信号106(例如，作为去往/来自媒体输出设备102的信号)或间接接收媒体信号(例如，作为通过感测环境音频来检测媒体信号的麦克风)。在框304，示例性音频提取器202确定媒体信号是否对应于视频或音频。例如，如果使用麦克风接收到媒体信号，则音频提取器202确定该媒体对应于音频。然而，如果媒体信号是接收到的信号，则音频提取器202对接收到的媒体信号进行处理，以确定该媒体信号是否对应于音频或具有音频分量的视频。如果示例性音频提取器202确定媒体信号对应于音频(框304：音频)，过程继续到框308。如果示例性音频提取器202确定媒体信号对应于视频(框306：视频)，则示例性音频提取器202从媒体信号中提取音频分量(框306)。

在框308，示例性音频特征提取器204确定音频信号(例如，X)的对数频谱。例如，音频特征提取器204可以通过执行CQT来确定音频信号的对数频谱。在框310，示例性音频特征提取器204将对数频谱变换到频域。例如，音频特征提取器204对对数频谱执行FT(例如，F(X))。在框312，示例性音频特征提取器204确定变换更新的幅度(例如，|F(X)|)。在框314，示例性音频特征提取器204基于变换输出的幅度的逆变换(例如，逆FT)来确定音频的与音调无关的音色对数频谱(例如，T＝F^-1|F(X)|)。在框316，示例性音频特征提取器204确定变换输出的复自变量(例如，e^jarg(F(X)))。在框318，示例性音频特征提取器204基于变换输出的复自变量的逆变换(例如，逆FT)来确定音频的无音色音调对数频谱(例如，P＝F^-1(e^jarg(F ^(X)))。

在框320，示例性音频特征提取器204确定结果(例如，确定的音调和/或确定的音色)是否令人满意。如上结合图2所述，示例性音频特征提取器204基于用户和/或制造商结果偏好来确定结果是否令人满意。如果示例性音频特征提取器204确定结果令人满意(框320：是)，则过程继续到框324。如果示例性音频特征提取器204确定结果不令人满意(框320：否)，则示例性音频特征提取器204过滤结果(框322)。如上结合图2所述，示例性音频特征提取器204可以通过强调音色中的谐波或强制音调中的单个峰值/线来(例如，一次或迭代地)过滤结果。

在框324，示例性设备接口206将结果发送至示例性音频确定器108。在框326，示例性音频特征提取器204接收与音频信号相对应的分类和/或标识数据。另选地，如果音频确定器108不能将音频信号的音色与基准相匹配，则设备接口206可以发送用于与音频信号相对应的附加数据的指令。在这样的示例中，设备接口206可以向用户接口发送提示以便为用户提供附加数据。因此，示例性设备接口206可以向示例性音频确定器108提供附加数据以生成新的参考音色属性。在框328，示例性音频特征提取器204将分类和/或标识发送到其它连接的设备。例如，音频特征提取器204可以将分类发送至用户接口以向用户提供分类。

图4是表示示例机器可读指令的示例性流程图400，其可以由图1和图2的示例性音频确定器108执行以基于音频的与音调无关的音色属性来分类音频和/或标识媒体。尽管结合图1的示例性音频确定器108描述了图4的指令，但示例性指令可由任何环境中的音频确定器使用。

在框402，示例性设备接口210从示例性音频分析器100接收测得的(例如，确定的或提取的)无音调音色对数频谱。在框404，示例性音色处理器212将所测得的无音调音色对数频谱与示例性音色数据库214中的参考无音调音色对数频谱进行比较。在框406，示例性音色处理器212确定是否在所接收到的无音调音色属性和参考无音调音色属性之间找到匹配。如果示例性音色处理器212确定匹配被确定(框406：是)，则示例性音色处理器212基于匹配对音频进行分类(例如，标识乐器和/或风格)和/或使用存储在示例性音色数据库214中的与匹配的参考音色属性相对应的附加数据来标识与音频相对应的媒体(框408)。

在框410，示例性音频设置调节器216确定是否可以调节媒体输出设备102的音频设置。例如，可以存在使能设置，以允许基于由示例性媒体输出设备102输出的音频的分类来调节媒体输出设备102的音频设置。如果示例性音频设置调节器216确定不调节媒体输出设备102的音频设置(框410：否)，则过程继续到框414。如果示例性音频设置调节器216确定要调节媒体输出设备102的音频设置(框410：是)，则示例性音频设置调节器216基于分类的音频确定媒体输出设备设置调节。例如，示例性音频设置调节器216可以基于一个或更多个所识别出的乐器和/或所识别出的风格(例如，从音色或基于所识别出的乐器)来选择音频均衡器设置(框412)。在框414，示例性设备接口210输出与分类、标识和/或媒体输出设备设置调节相对应的报告。在一些示例中，设备接口210将报告输出到另一设备用于进一步处理/分析。在一些示例中，设备接口210将报告输出到示例性音频分析器100以经由用户接口将结果显示给用户。在一些示例中，为了调节媒体输出设备102的音频设置，设备接口210将报告输出至示例性媒体输出设备102。

如果示例性音色处理器212确定匹配未被确定(框406：否)，则示例性设备接口210提示对应于音频信号的附加信息(框416)。例如，设备接口210可以向示例性音频分析器100发送指令，以(A)提示用户提供对应于音频的信息，或者(B)提示音频分析器100用完整的音频信号应答。在框418，示例性音色数据库214结合可能已经接收到的相应数据来存储所测得的无音色音调对数频谱。

图5示出了音频信号的对数频谱500的示例性FT，音频信号的示例性无音色音调对数频谱502以及音频信号的示例性无音调音色对数频谱504。

如结合图2所述，当示例性音频分析器100接收到示例性媒体信号106(例如，或者媒体信号的样本)时，示例性音频分析器100确定音频信号/样本的示例性对数频谱(例如，如果媒体样本对应于视频信号，则音频分析器100提取音频分量)。另外，示例性音频分析器100确定对数频谱的FT。图5的示例性FT对数频谱500对应于音频信号/样本的对数频谱的示例性变换输出。示例性无音色音调对数频谱502对应于对数频谱500的示例性FT的复自变量的逆FT(例如，P＝F^-1(e^jarg(F(X))))，而无音调音色对数频谱504对应于对数频谱500的示例性FT的幅度的逆FT(例如，T＝F^-1(|F(X)|))。如图5所示，对数频谱500的示例性FT对应于示例无音色音调对数频谱502与示例性无音调音色对数频谱504的卷积。示例性音调对数频谱502的具有峰值的卷积增加了偏移。

图6是示例性处理器平台600的框图，其被构造为执行图3的指令以实现图2的音频分析器100。处理器平台600可以是例如服务器、个人计算机、工作站、自学习机器(例如，神经网络)、移动设备(例如，蜂窝电话、智能电话、诸如iPad^TM的平板电脑)、个人数字助理(PDA)、互联网设备、DVD播放器、CD播放器、数字录像机、蓝光播放器游戏机、个人录像机、机顶盒、耳机或其它可穿戴设备，或任何其它类型的计算设备。

所示示例的处理器平台600包括处理器612。所示示例的处理器612是硬件。例如，处理器612可以由来自任何期望的家族或制造商的一个或更多个集成电路、逻辑电路、微处理器、GPU、DSP或控制器来实现。硬件处理器可以是基于半导体的(例如，基于硅的)设备。在该示例中，处理器实现图2的示例性媒体接口200、示例性音频提取器202、示例性音频特征提取器204和/或示例性设备接口。

所示示例的处理器612包括本地存储器613(例如，高速缓存)。所示示例的处理器612经由总线618与包括易失性存储器614和非易失性存储器616的主存储器进行通信。易失性存储器614可以由同步动态随机存取存储器(SDRAM)、动态随机存取存储器(DRAM)、

动态随机存取存储器

和/或任何其它类型的随机存取存储器设备来实现。非易失性存储器616可由快闪存储器和/或任何其它所需类型的存储器设备来实现。对主存储器614、616的访问由存储器控制器进行控制。

所示示例的处理器平台600还包括接口电路620。接口电路620可以通过任何类型的接口标准来实现，例如以太网接口、通用串行总线(USB)、蓝牙

接口、近场通信(NFC)接口和/或PCI Express接口。

在所示示例中，一个或更多个接口电路622被连接到接口电路620。输入设备622允许用户将数据和/或命令输入到处理器612中。输入设备可以由例如音频传感器、麦克风、摄像头(静止或视频)、键盘、按钮、鼠标、触摸屏、跟踪板、跟踪球、isopoint和/或语音识别系统来实现。

一个或更多个输出设备624也连接到所示示例的接口电路620。输出设备624可以例如由显示设备(例如发光二极管(LED)、有机发光二极管(OLED)、液晶显示器(LCD)、阴极射线管显示器(CRT)、同位切换(IPS)显示器、触摸屏等)、触觉输出设备、打印机和/或扬声器来实现。因此，所示示例的接口电路620通常包括图形驱动器卡、图形驱动器芯片和/或图形驱动器处理器。

为了便于经由网络626与外部机器(例如任何类型的计算设备)交换数据，所示示例的接口电路620还包括通信设备，例如发射机、接收机、收发机、调制解调器、住宅网关、无线接入点和/或网络接口。通信可以通过例如以太网连接、数字用户线路(DSL)连接、电话线连接、同轴电缆系统、卫星系统、直线对传式(line-of-site)无线系统、蜂窝电话系统等来实现。

所示示例的处理器平台600还包括用于存储软件和/或数据的一个或更多个大容量存储设备628。这种大容量存储设备628的示例包括软盘驱动器、硬盘驱动器、光盘驱动器、蓝光光盘驱动器、独立磁盘冗余阵列(RAID)系统以及数字通用盘(DVD)驱动器。

图3的机器可执行指令632可以存储在大容量存储设备628中、易失性存储器614中、非易失性存储器616中和/或诸如CD或DVD的可移动非暂时性计算机可读存储介质上。

图7是示例性处理器平台700的框图，其被构造为执行图4的指令以实现图2的音频确定器108。处理器平台700可以是例如服务器、个人计算机、工作站、自学习机器(例如，神经网络)、移动设备(例如，蜂窝电话、智能电话，诸如iPad^TM的平板电脑)、个人数字助理(PDA)、互联网设备、DVD播放器、CD播放器、数字录像机、蓝光播放器、游戏机、个人录像机、机顶盒、耳机或其它可穿戴设备，或任何其它类型的计算设备。

所示示例的处理器平台700包括处理器712。所示示例的处理器712是硬件。例如，处理器712可以由来自任何期望的家族或制造商的一个或更多个集成电路、逻辑电路、微处理器、GPU、DSP或控制器来实现。硬件处理器可以是基于半导体的(例如，基于硅的)设备。在该示例中，处理器实现示例性设备接口210、示例性音色处理器212、示例性音色数据库214和/或示例性音频设置调节器216。

所示示例的处理器712包括本地存储器713(例如，高速缓存)。所示示例的处理器712经由总线718与包括易失性存储器714和非易失性存储器716的主存储器进行通信。易失性存储器714可以由同步动态随机存取存储器(SDRAM)、动态随机存取存储器(DRAM)、

动态随机存取存储器

和/或任何其它类型的随机存取存储器设备来实现。非易失性存储器716可以由快闪存储器和/或任何其它所需类型的存储器装置来实现。对主存储器714、716的访问由存储器控制器进行控制。

所示示例的处理器平台700还包括接口电路720。接口电路720可以通过任何类型的接口标准来实现，例如以太网接口、通用串行总线(USB)、蓝牙

接口、近场通信(NFC)接口和/或PCI Express接口。

在所示示例中，一个或更多个输入设备722连接到接口电路720。输入设备722允许用户将数据和/或命令输入到处理器712中。输入设备可以由例如音频传感器、麦克风、摄像头(静止或视频)、键盘、按钮、鼠标、触摸屏、跟踪板、跟踪球、isopoint和/或语音识别系统来实现。

一个或更多个输出设备724也连接到所示示例的接口电路720。输出设备724可以例如通过显示设备(例如发光二极管(LED)、有机发光二极管(OLED)、液晶显示器(LCD)、阴极射线管显示器(CRT)、同位切换(IPS)显示器、触摸屏等)、触觉输出设备、打印机和/或扬声器来实现。因此，所示示例的接口电路720通常包括图形驱动器卡、图形驱动器芯片和/或图形驱动器处理器。

为了便于经由网络726与外部机器(例如任何类型的计算设备)交换数据，所示示例的接口电路720还包括通信设备，例如发射机、接收机、收发机、调制解调器、住宅网关、无线接入点和/或网络接口。通信可以通过例如以太网连接、数字用户线路(DSL)连接、电话线连接、同轴电缆系统、卫星系统、直线对传式(line-of-site)无线系统、蜂窝电话系统等来实现。

所示示例的处理器平台700还包括用于存储软件和/或数据的一个或更多个大容量存储设备728。这种大容量存储设备728的示例包括软盘驱动器、硬盘驱动器、光盘驱动器、蓝光光盘驱动器、独立磁盘冗余阵列(RAID)系统和数字通用盘(DVD)驱动器。

图4的机器可执行指令732可以存储在大容量存储设备728中、易失性存储器714中、非易失性存储器716中和/或诸如CD或DVD的可移动非暂时性计算机可读存储介质上。

从上述内容可以理解，上述公开的方法、装置和制品从媒体信号中提取与音调无关的音色属性。本文所公开的示例基于直接或间接从媒体输出设备接收的音频来确定无音调独立音色对数频谱。本文所公开的示例还包括基于音色对音频进行分类(例如，标识乐器)和/或基于音色标识音频的媒体源(例如，歌曲、视频游戏、广告等)。使用本文所公开的示例，音色可被用于以比传统技术少得多的资源来分类和/或标识音频，因为提取音色是与音调无关的。因此，可以对音频进行分类和/或标识，而不需要多个音调的多个参考音色属性。相反，独立于音调的音色可用来分类音频而与音调无关。

尽管本文已经描述了某些示例性方法、装置和制品，但是其它实现方式也是可能的。本专利的覆盖范围不限于此。相反，本专利覆盖了完全落入本专利权利要求范围内的所有方法、装置和制品。

Claims

1.一种从媒体信号中提取与音调无关的音色属性的装置，所述装置包括：

用于接收媒体信号的接口；以及

音频特征提取器，所述音频特征提取器用于：

确定对应于所述媒体信号的音频的频谱；并且

基于所述频谱的变换的幅度的逆变换来确定所述音频的与音调无关的音色属性。

2.根据权利要求1所述的装置，其中，所述媒体信号是音频。

3.根据权利要求1所述的装置，其中，所述媒体信号是具有音频分量的视频信号，所述装置还包括用于从所述视频信号中提取所述音频的音频提取器。

4.根据权利要求1所述的装置，其中，所述音频特征提取器使用常数Q变换来确定所述音频的频谱。

5.根据权利要求1所述的装置，其中，所述音频特征提取器使用傅立叶变换来确定所述频谱的所述变换，并且使用傅立叶逆变换来确定所述逆变换。

6.根据权利要求1所述的装置，其中，所述音频特征提取器基于所述频谱的所述变换的复自变量的逆变换来确定所述音频的与音色无关的音调属性。

7.根据权利要求1所述的装置，其中，所述接口是第一接口，所述装置还包括第二接口，所述第二接口用于：

将所述与音调无关的音色属性发送至处理设备；并且

响应于将所述与音调无关的音色属性发送至所述处理设备，从所述处理设备接收所述音频的分类或对应于所述媒体信号的标识符中的至少一者。

8.根据权利要求7所述的装置，其中，所述第二接口将所述音频的所述分类或对应于所述媒体信号的标识符中的所述至少一者发送至用户接口。

9.根据权利要求1所述的装置，其中，所述接口是用于经由环境音频接收所述媒体信号的麦克风。

10.根据权利要求1所述的装置，其中，所述媒体信号对应于要由媒体输出设备输出的媒体信号。

11.根据权利要求1所述的装置，其中，所述接口从麦克风接收所述媒体信号。

12.一种包括指令的非暂时性计算机可读存储介质，所述指令在被执行时使机器至少：

访问媒体信号；

确定对应于所述媒体信号的音频的频谱；并且

基于所述频谱的变换的幅度的逆变换确定所述音频的与音调无关的音色属性。

13.根据权利要求12所述的计算机可读存储介质，其中，所述媒体信号是音频。

14.根据权利要求12所述的计算机可读存储介质，其中，所述媒体信号是具有音频分量的视频信号，其中，所述指令在被执行时使所述机器从所述视频信号中提取所述音频。

15.根据权利要求12所述的计算机可读存储介质，其中，所述指令在被执行时使所述机器使用常数Q变换来确定所述音频的频谱。

16.根据权利要求12所述的计算机可读存储介质，其中，所述指令在被执行时使所述机器使用傅立叶变换来确定所述频谱的所述变换，并且使用傅立叶逆变换来确定所述逆变换。

17.根据权利要求12所述的计算机可读存储介质，其中，所述指令在被执行时使所述机器基于所述频谱的所述变换的复自变量的逆变换来确定所述音频的与音色无关的音调属性。

18.根据权利要求12所述的计算机可读存储介质，其中，所述指令在被执行时使所述机器：

将所述与音调无关的音色属性发送至处理设备；并且

19.根据权利要求18所述的计算机可读存储介质，其中，所述指令在被执行时使所述机器将所述音频的所述分类或对应于所述媒体信号的标识符中的所述至少一者发送至用户接口。

20.一种从媒体信号中提取与音调无关的音色属性的方法，该方法包括：

通过利用处理器执行指令来确定与所接收到的媒体信号相对应的音频的频谱；以及

通过利用所述处理器执行指令，基于所述频谱的变换的幅度的逆变换来确定所述音频的与音调无关的音色属性。