CN116866816A

CN116866816A - 用于控制响度级的音频信号处理方法和装置

Info

Publication number: CN116866816A
Application number: CN202310883141.1A
Authority: CN
Inventors: 田相培; 朴奎泰; 权宁勋; 吴贤午; 徐正勋; 李泰圭; 郑炫周
Original assignee: Gaudio Lab Inc
Current assignee: Gaudio Lab Inc
Priority date: 2019-03-14
Filing date: 2020-03-12
Publication date: 2023-10-10
Also published as: CN116962954A; JP7266916B2; KR20210019415A; KR20230156156A; US11791789B2; CN113647120B; KR20230027333A; US20240030881A1; WO2020185025A1; US11316490B2; CN113647120A; JP2023103223A; US20210367574A1; JP2022526271A; US20220231649A1; KR102502521B1

Abstract

本公开涉及用于控制响度级的音频信号处理方法和装置。一种音频信号处理设备包括：接收器，其用于接收输入音频信号；处理器，其用于产生对应于输入音频信号的响度元数据；以及输出单元，其用于传输由处理器生成的响度元数据。处理器被配置为获取从输入内容分析出的响度信息，通过测量输入音频信号的响度来获取关于输入音频信号的响度信息，通过转换响度信息来生成响度元数据，以及通过输出单元将所生成的响度元数据传输到输出设备以输出输入音频信号。

Description

用于控制响度级的音频信号处理方法和装置

本申请是2021年9月13日提交进入中国专利局的国际申请日为2020年3月12日的申请号为202080020871.3(PCT/KR2020/003489)的，发明名称为“用于控制响度级的音频信号处理装置”的专利申请的分案申请。

技术领域

本发明涉及一种用于有效地回放音频信号的音频信号处理方法和音频信号处理装置，更具体地，涉及一种用于通过调整输出内容的音频信号的响度级，向用户提供更加沉浸式的音频信号的音频信号处理方法和音频信号处理装置。

背景技术

随着向用户提供音频的方法已经从模拟转变为数字，回放具有更宽音量范围的声音变得可能。此外，根据与音频信号相对应的内容而多样化音频信号的音量。这是因为，在产生音频内容的过程中，可以不同地设置旨在用于每个音频内容的响度。相应地，国际标准组织(诸如国际电信联盟(ITU)和欧洲广播联盟(EBU))已经发布了音频响度的标准。但是，由于测量响度的方法和标准因国家而异，因此难以应用由国际标准组织发布的标准。

内容创建者试图产生大量混合响度的内容并将其提供给用户。这是由于当音频信号的声音幅度增加时，感知音频信号的音质已经改善的心理声音特性。因此，形成了竞争性竞赛，称为响度战争。结果，内容本身或多个内容之间存在响度差异，并且用户可能会体验必须反复地调整设备的音量以回放相应内容的不便。因此，用户使用内容回放设备的便利性，需要一种技术来归一化音频内容的响度。

发明内容

技术问题

在回放包括音频信号的内容的音频信号处理方法中，本发明的实施例是有效地调整相应内容的输出响度级。

技术解决方案

根据本发明的实施例，一种音频信号处理装置，包括：接收器，所述接收器用于接收输入音频信号；处理器，所述处理器用于生成对应于输入音频信号的响度元数据；以及输出器，所述输出器用于传输由所述处理器生成的响度元数据。所述处理器可以被配置为通过测量所述输入音频信号的响度以获取关于所述输入音频信号的响度信息；通过转换所述响度信息来生成响度元数据；以及将所生成的响度元数据通过输出器发送到用于输出所述输入音频信号的输出设备。所述响度信息可以包括表示所述输入音频信号的质量安全直方图指数(QSHI)的信息，以及所述QSHI可以表示认知音质损害不发生的阈值响度级。

所述处理器可以被配置为基于所述输入音频信号的响度直方图来获取所述QSHI。

所述处理器可以被配置为基于所述输入音频信号的至少一个短期响度级的分布来获取所述响度直方图；以及可以基于所述响度直方图来获取所述QSHI。可以在比所述输入音频信号的整个片段更短的片段中测量所述短期响度级。

所述响度直方图可以是与用于所述输入音频信号的每个片段的峰值包络或均方根(RMS)相关的幅度直方图。

所述处理器可以被配置为当根据目标响度级输出所述输入音频信号时，基于所述输入音频信号的响度直方图来预测响度参数；基于所述预测响度参数来获取所述输入音频信号的预测响度直方图；以及基于所获取的预测响度直方图来获取所述QSHI。

所述响度信息可以包括所述输入音频信号的综合响度级，所述QHSI可以大于所述输入音频信号的综合响度级，以及所述综合响度级可以是基于从由所述音频信号处理装置设置的设置时间点所获取的响度测量值计算出的响度级。

所述QHSI可以是根据是否在所述输出设备中对所述输入音频信号执行后处理而校正的参数。

所述处理器可以设置所述QHSI，使得从所述输出设备输出的所述输入音频信号的整个片段的短期响度级小于或等于预定级。

根据本发明的另一方面，一种音频信号处理装置包括处理器，所述处理器用于调整输入音频信号的输出响度级。所述处理器可以被配置为接收对应于所述输入音频信号的响度元数据；解析所述响度元数据以获取所述输入音频信号的响度信息；基于所述响度信息和目标响度级来确定所述输入音频信号的响度增益；以及基于所述响度增益来调整所述输入音频信号的输出响度级。所述响度信息可以包括表示所述输入音频信号的质量安全直方图指数(QSHI)的信息，以及所述QSHI可以表示认知音质损害不发生的阈值响度级。

所述处理器可以被配置为：将所述输入音频信号的目标响度级与所述QSHI进行比较；以及基于所述比较结果来确定所述响度增益。

所述处理器可以被配置为基于所述输入音频信号的目标响度级和所述QSHI中的较小者来确定所述响度增益。

所述处理器可以被配置为接收所述输入音频信号的综合响度级；以及基于所述输入音频信号的综合响度级、所述QSHI和所述目标响度级来确定所述响度增益。所述综合响度级可以是基于从由用于测量输入音频信号的响度的装置设置的设置时间点所获取的响度测量值计算出的响度级。

所述QSHI可以是基于所述输入音频信号的响度直方图计算出的响度参数。

所述响度直方图可以是所述输入音频信号的短期响度级随时间的幅度直方图，并且在比所述输入音频信号的整个片段更短的片段中可以测量所述短期响度级。

所述QSHI可以是基于从所述输入音频信号的响度直方图预测的预测响度直方图计算出的参数，并且所述预测响度直方图可以是基于当根据所述目标响度级输出所述输入音频信号时预测的响度参数生成的直方图。

所述QHSI可以大于所述输入音频信号的综合响度级，并且所述综合响度级可以是基于从由用于测量输入音频信号的响度的装置设置的设置时间点获取的响度测量值计算出的响度级。

所述处理器可以被配置为根据所述响度增益调整所述输入音频信号的输出响度级来生成输出音频信号；以及可以通过应用响度限制器以将输出音频信号的响度级限制到所述输出音频信号来输出所述输出音频信号。

所述QSHI可以是基于在所述音频信号处理装置中驱动所述限制器的次数所确定的响度参数。

所述处理器可以被配置为对所述输入音频信号执行后处理；接收表示对所述输入音频信号的后处理的特性的后处理信息；基于所述后处理信息来校正所获取的QSHI；以及基于所述校正的QSHI来确定所述响度增益。

所述处理器可以被配置为基于所述后处理信息和预存函数来校正所述QSHI。

所述处理器可以被配置为基于所述后处理信息和预先存储的查找表来校正所述QSHI。所述预先存储的查找表可以包括关于所述后处理的特性的QSHI校正的信息。

关于QSHI校正的信息可以包括表示根据后处理特性的QSHI校正值的信息。所述处理器可以被配置为根据所述预先存储的查找表来获取与对所述输入音频信号的后处理相对应的QSHI校正值；以及通过将所述QSHI校正值添加到所获取的QSHI来校正所述QSHI。

所述响度增益可以是在所述输入音频信号的整个片段中具有固定值的固定增益。

所述响度增益可以是在回放所述输入音频信号的时间期间随时间变化的增益。

所述处理器可以被配置为通过根据所述响度增益调整所述输入音频信号的输出响度级来生成输出音频信号。所述QHSI可以是参数集使得所述输出音频信号的整个片段的短期响度级小于或等于预定级。

有益效果

在根据本发明的实施例的装置和方法中，可以在包括音频信号的回放内容时有效地归一化音频信号的响度级。此外，根据本发明的实施例的装置和方法可以向用户提供用于改善音质和调节音量的便利。

特别地，根据本发明的实施例，可以在不影响音质的情况下控制响度级。另外，根据本发明的另一方面的音频信号处理装置可以使用响度元数据提供具有更稳定的输出响度级的输出内容。此外，可以执行响度归一化，其接近收听者实际感知的响度。

附图说明

图1是示出根据本发明的实施例，在回放多个内容的时间期间随时间改变的响度级的视图。

图2是示出根据本发明的实施例的包括第一音频信号处理装置和第二音频信号处理装置的系统的示意图。

图3是示出根据本发明的实施例的用于调整输入音频信号的响度级的方法的流程图。

图4是具体示出根据本发明的实施例的音频信号处理装置提取输入音频信号的响度信息的方法的框图。

图5示出了ITU-R BS.1770-4中定义的初级预滤波器的频率响应。

图6示出了次级预滤波器的频率响应。

图7是示出根据本发明的实施例的服务器生成输入音频信号的响度元数据的方法的视图。

图8是示出根据本发明的实施例的客户端使用响度元数据输出输入音频信号的方法的视图。

图9是示出根据本发明的实施例的输入音频信号的每个短期响度幅度的直方图的视图。

图10是示出根据本发明的实施例的系统的框图，其中音频信号处理装置考虑到目标响度级和认知音质劣化来优化输入音频信号的响度增益。

图11和图12是示出用于输入音频信号的响度级和目标响度级随时间的固定增益的视图。

图13和图14分别是示出根据本发明的实施例的用于调整输入音频信号的输出响度级的方法的示意图。

图15是示出根据本发明的实施例的音频信号处理装置获取输入音频信号的响度信息的方法的视图。

图16是示出根据本发明的实施例的音频信号处理装置调整输入音频信号的输出响度级的方法的视图。

图17是示出根据本发明的实施例的音频信号处理装置基于目标响度范围调整输入音频信号的输出响度级的方法的视图。

图18是示出根据本发明的实施例的音频信号处理装置测量输入内容的响度的方法的视图。

图19是示出根据本发明的实施例的音频信号处理装置的操作的流程图。

图20是示出根据本发明的实施例的音频信号处理装置2000的配置的框图。

图21是示出根据本发明的实施例的输入音频信号的每个时间段的峰值包络的视图。

图22是描述根据本发明的实施例的音频信号处理装置使用平滑来调整使用输入音频信号的输出响度级的方法的视图。

具体实施方式

在下文中，将参照附图详细地描述本发明的实施例，使得本发明所属领域的技术人员可以容易地实施这些实施例。然而，本发明可以以许多不同的形式实施，并且不限于本文阐述的实施例。另外，为了清楚地描述本发明，在附图中省略了与描述无关的片段，并且在整个说明书中相同的附图标记表示相同的元件。此外，当一部分被称为“包括”任何组件时，除非另有说明，否则意味着该部分可以进一步包括其他组件而不是排除其他组件。

本公开涉及一种音频信号处理装置调整输入内容的输出响度级的方法。在本公开中，输入内容可以是包括音频信号的内容。在本公开中，输入内容可以被称为输入音频信号。另外，响度可以指示通过听觉感知的声音大小。响度级可以是指示响度的数值。例如，可以通过使用诸如相对于满刻度加权的响度K(LKFS)或相对于满刻度的响度单位(LUFS)的单位来表示响度级。此外，可以通过使用诸如宋(sone)或方(phon)的单位来指示响度级。

在下文中，参照图1，将描述音频信号的响度。图1是示出根据本发明的实施例的在回放多个内容的时间期间随时间变化的响度级的视图。参考图1，示出了随时间变化的平均响度、短期响度和响度动态范围。平均响度级可以是对应于一个内容的单个响度值。平均响度级对每个内容(内容1、内容2和内容3)可能不同。在图1中，实线表示用于每个内容(内容1、内容2和内容3)的平均响度级。图1的平均响度可以表示综合响度。上述综合响度和短期响度可以遵循响度标准的定义，诸如ITU-R BS.1770-4、EBU R 128、EBU TECH 3341和EBUTECH 3342。

根据实施例，短期响度级可以是在比输入音频信号的整个片段短的片段中测量的响度级。短期响度级可以是部分内容的响度测量值。在这种情况下，该部分内容可以是包括在一个测量窗口中的部分。音频信号处理装置可以获取用于一个内容的多个短期响度级。此外，平均响度级可以是多个短期响度级的平均值。

在图1中，回放和切换的多个内容中的每个具有不同的响度特性。例如，当在提供图像提供服务的平台中切换不同的内容时，可以在要切换的内容之间插入广告内容。在这种情况下，音频信号处理装置可能难以将响度级保持在预定范围内。此外，不同内容之间的响度动态范围的差异可能很大。在这样的环境中，音频信号处理装置可能无法提供收听者期望的范围内的响度级。

具体地，当内容切换时，收听者可能首先注意到短期响度级快速变化。因此，收听者可能需要调整输出音频信号的设备的音量。此外，在回放切换内容时，收听者可能需要再次调整音量，以根据平均响度设置适当的增益。例如，当根据基于被切换内容的初始片段的响度调整的音量来回放被切换的内容时，取决于内容的特性，响度级可以快速增加或快速降低。当响度级快速增加或快速降低以致无法识别内容的内容时，收听者可能需要再次调整输出音频信号的设备的音量。

因此，根据本发明的实施例的音频信号处理装置可以控制输入内容的输出响度级，从而可以增加收听者的便利性。具体地，音频信号处理装置可以基于输入内容的响度增益来调整响度级。在这种情况下，音频信号处理装置可以使用包括输入音频信号的响度信息的响度元数据。

根据本发明的实施例，可以基于目标响度级对由不同标准或没有特定标准创建的输入内容的响度级进行归一化。在此，目标响度级可以是音频信号处理装置想要输出的响度级。例如，目标响度级可以由输入内容的内容创建者设置。在这种情况下，音频信号处理装置可以与输入内容一起接收关于目标响度的信息。此外，可以取决于输入内容的类型，将目标响度级设置为不同的值。在这种情况下，音频信号处理装置可以基于输入内容的类型来确定目标响度级。目标响度级可以被设置为预先存储在音频信号处理装置中的默认值。在这种情况下，目标响度级可以被设置为与输入内容或输入内容的类型无关的值。音频信号处理装置可以基于目标响度级来调整输入内容的输出响度级。

根据实施例，音频信号处理装置可以基于输入内容的响度级与目标响度级之间的关系来获取响度增益。输入内容的响度级与目标响度级之间的关系可以包括输入内容的响度级与目标响度级的差值或比值。

例如，音频信号处理装置可以基于输入内容的代表性响度级与目标响度级之间的关系来获取响度增益。在此，代表响度级可以是代表用于输入内容的所有片段的响度级的响度级。音频信号处理装置可以与输入内容一起接收输入内容的代表性响度级。可替选地，音频信号处理装置可以基于从输入内容分析的响度信息来获取代表性响度级。在这种情况下，音频信号处理装置可以基于用于输入内容的响度测量值来获取响度信息。在本公开中，输入音频信号的响度信息可以包括转换为元数据格式的响度元数据。

此外，音频信号处理装置可以基于响度增益来调整输入内容的输出响度级。具体地，音频信号处理装置可以输出通过将响度增益应用于输入内容来调整其响度级的输出音频信号。

根据本发明的实施例的音频信号处理装置可以通过使用输入音频信号的响度元数据来调整输入音频信号的输出响度级。结果，音频信号处理装置可以在不影响输入内容中包括的输入音频信号的音质的情况下控制输入内容的响度级。

例如，预定目标响度级可以大于输入音频信号的代表性响度级。在这种情况下，当根据预定目标响度级输出输入音频信号时，可能会影响音质。因此，音频信号处理装置可以基于响度特性和预定目标响度来获取响度增益。音频信号处理装置可以基于响度特性在不影响输入音频信号的音质的情况下获取响度增益。音频信号处理装置可以基于所获取的响度增益来调整输入内容的输出响度级。

在这种情况下，音频信号处理装置可以通过使用输入音频信号的响度元数据来获取响度信息。具体地，音频信号处理装置可以从音频信号处理装置的外部设备接收输入音频信号的响度元数据。外部设备可以分析输入音频信号的响度特性，并且可以基于所分析的响度特性来生成输入音频信号的响度元数据。此外，外部设备可以将输入音频信号的响度元数据发送到音频信号处理装置。

在下文中，将参照图2描述根据本发明的实施例的用于调整输入内容的输出响度级的方法。图2是示出根据本发明的实施例的包括第一音频信号处理装置210和第二音频信号处理装置220的系统200的示意图。在图2中，第一音频信号处理装置210可以是服务器。在图2中，第二音频信号处理装置220可以是客户端设备。

图2图示了由服务器-客户端结构的系统执行输入内容的响度归一化的一系列操作，但本公开不限于此。例如，可以通过单个音频信号处理装置来执行参考图2描述的一系列操作。

根据实施例，第一音频信号处理装置210可以产生输入音频信号的响度元数据。第一音频信号处理装置210可以将生成的响度元数据发送到第二音频信号处理装置220，第二音频信号处理装置220将输出相应的输入音频信号。第二音频信号处理装置220可以从第一音频信号处理装置210接收响度元数据。另外，第二音频信号处理装置220可以基于所接收的响度元数据来调整输入音频信号的输出响度级。具体地，第二音频信号处理装置220可以基于响度元数据来确定要应用于输入音频信号的响度增益。此外，第二音频信号处理装置220可以基于所确定的响度增益来调整输入音频信号的响度级。

具体地，第一音频信号处理装置210可以接收输入内容。在本公开中，输入内容可以是由多个帧组成的输入音频信号。接下来，第一音频信号处理装置210可以测量输入内容的响度级。第一音频信号处理装置210可以通过使用基于听觉尺度的响度滤波器来获取音频信号的响度测量值。具体地，响度滤波器可以是等响曲线的逆滤波器或与其近似的K加权滤波器中的至少一个。

例如，第一音频信号处理装置210可以通过将响度滤波器应用于接收到的输入内容的至少一些片段来获取响度测量值。在此，一些片段可以是用于获取一个响度测量值的单位时间。一些片段可能包括至少一帧。在本公开中，用于获取一个响度测量值的单位时间可以被称为测量窗口。

第一音频信号处理装置210可以为用于输入内容的每个测量窗口获取响度测量值。在这种情况下，取决于测量窗口的长度，所获取的响度测量值可以是瞬时响度级或短期响度级。瞬时响度级可以是与短期响度级相比，在更短的时间段上测量的测量值。例如，用于获取一个瞬时响度级的测量窗口的长度可以是400毫秒(ms)。另外，用于获取一个短期响度级的测量窗口的长度可以是3秒。然而，本公开不限于此。用于响度分析的测量窗口的长度可以因输入内容而变化。根据实施例，可以基于输入内容的附加信息来确定测量窗口的长度。稍后将参考图8描述音频信号处理装置确定测量窗口的长度的方法。

接下来，第一音频信号处理装置210可以基于用于输入内容的响度测量值来获取输入内容的响度信息。响度信息可以包括用于输入内容的至少一个响度测量值。此外，响度信息可以包括基于用于输入内容的响度测量值计算出的信息。第一音频信号处理装置210可以实时地更新响度信息。例如，响度信息可以包括综合响度级、短期响度级或瞬时响度级中的至少一个。第一音频信号处理装置210可以获取表示从开始用于输入内容的响度测量的时间点到当前时间点整合的多个响度测量值的综合响度级。

在本公开中，综合响度级可以表示从已经在用于测量响度级的设备中设置的设置时间点整合的响度级。根据实施例，综合响度级可以是基于从已经在第一音频信号处理装置210中设置的设置时间点测量的响度级所计算出的响度级。例如，综合响度级可以是基于用于从设置时间点获取的每个片段的响度测量值所计算出的平均响度级。在这种情况下，用于每个片段的响度测量值可以表示短期响度级或瞬时响度级。

根据实施例，可以基于从设置时间点到当前时间点所测量的有效响度测量值的平均值来获取综合响度级。在此，有效响度测量值可以是在从设置时间点到当前时间点所测量的多个响度测量值之中满足至少一个准则要求的响度测量值。

例如，有效响度测量值可以是其响度级高于某一级别的响度测量值。首先，第一音频信号处理装置210可以计算多个响度测量值之中其响度级高于第一阈值的响度测量值的第一平均值。在这种情况下，第一阈值可以是基于最小可听幅度设置的值。接下来，第一音频信号处理装置210可以计算在用于计算第一平均值的响度测量值之中其响度级高于第二阈值的响度测量值的第二平均值。在这种情况下，第二阈值可以是通过从第一平均值减去预定值而获得的值。此外，第一音频信号处理装置210可以将第二平均值用作输入内容的综合响度级。同时，第一音频信号处理装置210可以根据具体要求来重新设置综合响度级的设置时间点。

接下来，第一音频信号处理装置210可以基于响度信息来产生响度元数据。例如，第一音频信号处理装置210可以从响度信息去除不必要的信息并且以第二音频信号处理装置220可以理解的语法的形式来生成响度元数据。另外，第一音频信号处理装置210可以生成包括与输入音频信号相关的附加信息的响度元数据。与输入音频信号相关的附加信息可以包括表示输入音频信号的长度、类型、内容提供者、内容创建者、流行度、观看次数、专辑和频道的每个的信息中的至少一个。结果，第一音频信号处理装置210使得输出输入音频信号的另一设备能够通过使用附加信息来调整输入音频信号的输出响度级。

例如，输入音频信号可以是先前回放的音频信号的相同内容创建者的声源。在这种情况下，输入音频信号和先前回放的音频信号可以具有相似的声音特性，诸如风格/音调。因此，用于输出输入音频信号的装置(例如，第二音频信号处理装置220)可以基于先前回放的音频信号的目标响度级来确定输入音频信号的响度增益。在这种情况下，第二音频信号处理装置220可以被用于包括附加信息的响度元数据。

接下来，由第一音频信号处理装置210产生的响度元数据可以被存储在元数据数据库(在下文中，“DB”)中。第一音频信号处理装置210可以从第二音频信号处理装置220接收对输入音频信号的响度元数据的请求。在这种情况下，第一音频信号处理装置210可以将相应输入音频信号的响度元数据发送到第二音频信号处理装置220。

根据本发明的实施例的第二音频信号处理装置220可以从第一音频信号处理装置210获取输入音频信号的响度信息。具体地，第二音频信号处理装置220可以从第一音频信号处理装置210请求输入音频信号的响度元数据。另外，第二音频信号处理装置220可以从第一音频信号处理装置210接收输入音频信号的响度元数据。第二音频信号处理装置220可以基于接收到的响度元数据来获取输入音频信号的响度信息。

第二音频信号处理装置220可以基于响度信息来获取应用于输入内容的响度增益。具体地，第二音频信号处理装置220可以基于响度信息和目标响度级来获取响度增益。根据实施例，第二音频信号处理装置220可以获取应用于输入内容的特定帧的响度增益。可以随时间动态地调整对输入内容的一些特定片段中的每一帧应用的响度增益。应用于除了特定片段之外的其余片段中的每一帧的响度增益可以是非动态调整的静态增益。此外，输入内容的一些特定片段的响度增益可以被限制到特定范围内的值。

接下来，第二音频信号处理装置220可以基于响度增益来调整输入内容的输出响度级。例如，第二音频信号处理装置220可以通过将响度增益应用于输入内容来调整输出响度级。根据实施例，响度增益可以应用于构成输入内容的每一帧。在这种情况下，第二音频信号处理装置220可以通过将与每一帧相对应的音频信号乘以响度增益来调整输入内容的输出响度级。第二音频信号处理装置220可以从输入内容获取其输出响度级通过响度增益调整的输出内容。另外，第二音频信号处理装置220可以输出获取的输出内容。例如，第二音频信号处理装置220可以回放输出内容。可替选地，第二音频信号处理装置220可以通过有线/无线接口将输出内容发送到回放设备。

此外，第二音频信号处理装置220可以控制所调整的输出响度级的动态范围。这是因为当用于输入内容的特定帧的输出响度级超出预定动态范围时，会出现由削波(clipping)引起的音质失真。第二音频信号处理装置220可以基于预定动态范围来控制输出响度级的动态范围。例如，第二音频信号处理装置200可以使用诸如限制器和动态范围压缩器(DRC)的处理来控制输出响度级的动态范围。

图3是示出了根据本发明的实施例的用于调整输入音频信号的响度级的方法的流程图。为了描述方便，在图3中，用于调整输入音频信号的输出响度级的一系列操作被描述为由单个音频信号处理装置执行，但本公开不限于此。例如，参考图3描述的一些操作可以由服务器执行，其余可以由客户端执行。

在图3的步骤S301中，音频信号处理装置可以对输入音频信号执行后处理操作。例如，音频信号处理装置可以对输入音频信号执行均衡或声场模式中的至少一个操作。在这种情况下，由音频信号处理装置执行的均衡和声场模式可以是典型的媒体回放系统的操作。

在步骤S303中，音频信号处理装置可以提取输入音频信号的响度信息。根据实施例，当执行步骤S301时，在步骤S303中，音频信号处理装置可以基于后处理的频率特性来提取响度信息。音频信号处理装置可以基于后处理的频率特性来获取通过后处理改变的用于每个带的响度级信息(后处理的权重，w_Proc)。此外，音频信号处理装置可以使用w_Proc来提取响度信息。

例如，当对输入音频信号执行上述均衡时，w_Proc可以包括相应频域中的均衡曲线信息。音频信号处理装置可以基于均衡曲线信息来提取输入音频信号的响度信息。当上述声场模式应用于输入音频信号时，w_Proc可以包括在相应的声场模式中使用的滤波器的混响信息或特性信息中的至少一个。

根据另一实施例，输出输入音频信号的环境可以是频率特性不均匀且对低频响应小的环境，诸如手机中使用的小型扬声器。在这种情况下，w_Proc可以包括相应输出环境的频率特性信息。最后，音频信号处理装置可以基于w_Proc来调整输入内容的输出响度级。结果，音频信号处理装置可以提供反映从其输出输入音频信号的设备的特性的输出响度级调整。

根据本公开的实施例，在步骤S303中提取的响度信息可以包括综合亮度L_Integ、质量安全直方图指数QSHI或通过后处理的响度差dL_Proc中的至少一个。在这种情况下，L_Integ可以遵循ITU-R BS.1770-4标准规格。此外，QSHI可以代表由输出终端限制器引起的认知音质损害不会发生的阈值响度级。在本公开中，QSHI可以包括最大目标响度Max_TL。QSHI可以基于自动算法计算或由内容创建者定义。稍后将参考图4描述用于获取QSHI的详细方法。另外，dL_Proc可以是后处理之后用于输入音频信号的响度的变化的预测值。音频信号处理装置可以基于由用户设置的后处理信息来获取dL_Proc。音频信号处理装置可以基于用于每个频率的输入音频信号的特性或w_Proc中的至少一个来获取dL_Proc。

在步骤S305中，音频信号处理装置可以确定输入音频信号的响度增益G_target。例如，音频信号处理装置可以基于步骤S303中提取的响度信息和预定的目标响度级L_target来确定响度增益G_target。在这种情况下，预定的目标响度级可以是用户设置的值。在步骤S307中，音频信号处理装置可以通过将最终响度增益应用于在步骤S301中后处理的输入音频信号来将输出音频信号输出。

在这种情况下，输出音频信号可以是通过限制器的信号。音频信号处理装置可以通过将最终响度增益应用于后处理的输入音频信号来输出第一输出音频信号。此外，音频信号处理装置可以通过将限制器应用于第一输出音频信号来产生第二输出音频信号。最后，音频信号处理装置可以输出对其应用了限制器的第二输出音频信号。

在下文中，将参考图4，详细地描述音频信号处理装置提取响度信息的方法。图4是具体示出了根据本发明的实施例的音频信号处理装置提取输入音频信号的响度信息的方法的框图。为便于描述，在图4中，每个单元/部件被描述为执行每个操作。然而，本公开不限于此。例如，图4中的响度信息提取单元400的每个单元/部件的操作可以是由包括在音频信号处理装置中的处理器执行的一系列操作。

参照图4，响度信息提取单元400可以包括响度测量单元401、用于每个频率的响度分析单元402、后处理响度预测单元403和QSHI提取单元404。响度信息提取单元400可以执行参照图3的步骤S303描述的操作。

根据实施例，响度测量单元401可以获取输入音频信号的响度测量值。例如，响度测量单元401可以获取输入音频信号的短期响度级或其综合响度级中的至少一个。具体地，响度测量单元401可以通过如标准规范ITU-R BS.1770-4的示例中的过程来从输入音频信号获取综合响度信息L_Integ和短期响度信息L_ShortTerm。

根据实施例，用于每个频率的响度分析单元402可以获取用于整个输入音频信号的每个频率的响度比(响度的多带加权WLoud_MB)。例如，用于每个频率的响度分析单元402可以通过对输入音频信号应用k加权滤波器来获取WLoud_MB。用于每个频率的响度分析单元402可以通过转换对其应用了k加权滤波器的信号的频率来计算WLoud_MB。

在下文中，将参考等式1至等式8来描述用于每个频率的响度分析单元402计算WLoud_MB的详细方法。

[等式1]

x_k＝filter(h_kweight，x_in)，

或者

x_k＝filter(h_pre2_kweight，filter(h_pre1_kweight，x_in))

在等式1中，x_k表示已经对输入音频信号x_in应用了k加权滤波器的信号。在等式1中，“filter(A,B)”表示利用滤波器系数A对输入音频信号B进行滤波的操作。在等式1中，h_kweight可以代表单个k加权滤波器。此外，h_pre2_kweight和h_pre1_kweight中的每个可以代表在ITU-R BS.1770-4中定义的初级预滤波器和次级预滤波器。用于每个频率的响度分析单元402可以滤波并且然后将k加权滤波器系数应用到输入音频信号。图5示出了ITU-R BS.1770-4中定义的初级预滤波器的频率响应。此外，图6示出了次级预滤波器的频率响应。

如在等式2中，可以表示通过等式1获得的信号x_k的逐帧信号。在等式2中，x_frame[l]表示信号x_k的第i帧的信号。在此，NF可以表示帧的长度，并且NH可以代表跳跃大小。

[等式2]

x_frame[l]＝x_k[((l-1)*NH+1)：((l-1)*NH+NF)]

接下来，参考等式3，用于每个频率的响度分析单元402可以通过窗口化x_frame[l]来获取xw_frame[l][-]。在这种情况下，用于每个频率的响度分析单元402可以通过使用矩形窗函数来获取xw_frame[l][-]，其中窗口函数的所有系数都为1。可替选地，用于每个频率的响度分析单元402可以通过使用诸如汉明窗函数(hamming window function)或汉宁窗函数(hanning window function)的各种窗函数来获取xw_frame[l][-]。窗口化可以是输入音频信号的频率分析的操作。在等式3中，wind[n]表示窗函数的第n系数，以及n可以是窗的样本数。

例如，当NF为512时，n的值可以是1到512中的任意一个。

[等式3]

xw_frame[l][n]＝x_frame[l][n]*wind[n]，对于n＝1,2,…,NF

此外，用于每个频率的响度分析单元402可以对xw_frame[l][-]执行离散傅立叶变换(DFT)。如在等式4中，可以表示从xw_frame[l][-]

离散傅立叶变换的频域信号XW_frame[l]。在等式4中，DFT{x}表示时域中的信号'x'的离散傅立叶变换。

[等式4]

XW_frame[l]＝DFT{xw_frame[l][1：NF]}

接下来，参考等式5，用于每个频率的响度分析单元402可以获取用于变换的频率信号XW_frame[l]的每个频率区间(bin)的功率。在等式5中，P_frame_bin[l][k]表示第i帧的第k频率区间的功率。另外，conj(x)表示'x'的共轭函数。

[等式5]

P_frane_bin[l][k]＝XW_frame[l][k]*conj(XW_frame[l][k])，对于k＝1,2,…,NF

接下来，参考等式6，用于每个频率的响度分析单元402可以通过将P_frame_bin[l][k]映射到预定频带来获取第i帧P_frame_band[l][b]的用于每个频带的功率。在等式6中，band[b]表示b频段的起始频率区间(frequency bin)的索引。即，用于每个频率的响度分析单元402可以通过使从band[b]到band[b+1]-1的每个频率区间的功率相加来获取用于每个频段的功率。在等式6中，sum_{y}(x)可以表示用于具有索引k作为因子的函数'x'的每个索引的总和。在这种情况下，“y”可以表示用于相应操作的索引的范围。

[等式6]

P_frame_babd[l][b]

＝sum_{k从band[b]到band[b+1]-1}(P_frame_bin[l][k])

参考等式7，用于每个频率的响度分析单元402可以基于第i帧P_frame_band[l][b]的每个频带的功率来获取用于输入音频信号P_band[b]的整个片段的每个频带的功率。用于每个频率的响度分析单元402可以通过将用于由同一频段对于每一帧所获取的每个频带P_frame_band[l][b]的功率相加来获取用于输入音频信号P_band[b]的整个片段的每个频带的功率。在等式7中，NumberOfFrames代表帧总数。另外，在1到NumberOfFrames的范围内定义表示帧索引的I。

[等式7]

P_band[b]＝sum_{l从1到NumberOfFrames}(P_frame_bin[l][k])

接下来，参考等式8，用于每个频率的响度分析单元402可以基于用于每个频带P_band[b]的功率来获取用于每个频带WLoud_MB[b]的响度比。具体地，用于每个频率的响度分析单元402可以基于用于每个频带的每个功率的总和来归一化用于每个特定频带的功率P_band[b]。在等式8中，NumberOfBands表示划分的频带的总数。另外，在1到NumberOfBands的范围内定义表示频带索引的B。

[等式8]

WLoud_MB[b]＝P_band[b]/[sum_{b从1到NumberOfBands}(P_band[b])]

由等式8计算出的WLoud_MB[b]表示输入音频信号的每个频段的综合响度级的比值。例如，输入音频信号可以是2-频段信号，输入音频信号的综合响度级可以是L_Integ＝-20LKFS，以及WLoud_MB[10]＝0.8和WLoud_MB[1]＝0.2。在这种情况下，输入音频信号的第一频带的响度级可以被预测为-20+10*log10(0.8)＝-20.97LKFS，而用于第二频段的响度级可以预测为-20+10*log10(0.2)＝-26.99LKFS。

根据实施例，后处理响度预测单元403可以基于通过后处理改变的每个带的响度级信息w_Proc或用于整个输入音频信号的每个频率的响度比WLoud_MB中的至少一个，通过后处理获取响度差异。

在这种情况下，后处理响度预测单元403可以使用通过用于每个频率的响度分析单元402获取的整个输入音频信号的每个频率的响度比WLoud_MB。另外，可以根据对输入音频信号的后处理的特性来获取通过后处理改变的用于每个带的响度级信息w_Proc。可以基于由用户输入的信息来确定对输入音频信号的后处理的特性。

具体地，可以应用由用户设置的均衡，可以对NumberOfBands频带的每个，以十进制为单位，将相应均衡的每个频段的增益设置为w_ProcBand_dB，并且可以将相应均衡的总增益设置为w_ProcGain_dB。在这种情况下，用于每个频率的响度分析单元402可以基于用于每个频带的增益w_ProcBand_dB和总增益w_ProcGain_dB来获取用于每个频带的响度比WLoud_MB[b]。如在等式9中，可以表示用于每个频率的响度分析单元402计算用于每个频带的响度比的方法。

[等式9]

w_Proc[b]＝10^((w_ProcBand_dB[b]+0.5*w_ProcGain_dB)/10)

对于1＝＜b＝＜NumberOfBands

此外，如在等式10中，可以表示后处理响度预测单元403通过后处理获取响度差dL_Proc的方法。

[等式10]

dL_Proc＝10*log10(sum_{b从1到NumberOfBands}(WLoud_MB[b]*w_Proc[b]))

根据实施例，QSHI提取单元404可以基于短期响度信息L_ShortTerm提取质量安全直方图指数(QSHI)。如上所述，质量安全直方图指数(以下，QSHI)可以是认知音质损害不会发生的阈值响度级。QSHI提取单元404可以基于由响度测量单元401获取的短期响度信息L_ShortTerm来获取QSHI。

例如，QSHI提取单元404可以通过分析短期响度信息L_ShortTerm来获取QSHI。在这种情况下，短期响度信息L_ShortTerm可以包括输入音频的一个或多个短期响度级。具体地，QSHI提取单元404可以基于一个或多个短期响度级来获取用于输入音频信号的每个短期响度幅度的直方图。此外，QSHI提取单元404可以基于对每个短期响度幅度所获取的直方图来获取输入音频信号的QSHI。

在下文中，参考等式11和等式12，将描述QSHI提取单元404从输入音频信号的短期响度信息L_ShortTerm提取QSHI的详细方法。在等式11中，L_ShortTerm_Sorted表示按幅度、输入音频信号的短期响度信息L_ShortTerm中包含的级别的顺序来排列一个或多个短期响度级的信息。例如，QSHI提取单元404可以按“降序”排列一个或多个短期响度级。

[等式11]

L_ShortTerm_Sorted＝sort(L_ShortTerm，′descending′)

另外，QSHI提取单元404可以基于L_ShortTerm_Sorted来获取输入音频信号的一个或多个短期响度级之中与预定索引相对应的响度级。在等式12中，EffectiveIndex可以表示预定有效索引。具体地，预定有效索引EffectiveIndex可以指示输入音频信号的一个或多个短期响度级之中的预定幅度级的短期响度级。即，QSHI提取单元404可以获取输入音频信号的一个或多个短期响度级之中第EffectiveIndex最大的短期响度级。在这种情况下，输入音频信号的一个或多个短期响度级之中的第EffectiveIndex最大的短期响度级可以被称为输入音频信号的有效短期响度级L_ShortTerm_Effective。

[等式12]

L_ShortTerm_Effective＝L_ShortTerm_Sorted[EffectiveIndex]

接下来，QSHI提取单元404可以基于输入音频信号的有效短期响度级L_ShortTerm_Effective或综合响度级中的至少一个来获取QSHI。另外，QSHI可以是大于或等于综合响度级的值。

另外，QSHI提取单元404可以获取当根据预定的目标响度级来输出输入音频信号时要改变的有效短期响度级L_ShortTerm_Effective_Shift。具体地，QSHI提取单元404可以预测基于输入音频信号的短期响度信息L_ShortTerm将改变的短期响度信息L_ShortTerm_Shft。在这种情况下，短期响度信息L_ShortTerm_Shft可以包括当根据预定目标响度级输出输入音频信号时要改变的一个或多个短期响度级。在这种情况下，QSHI提取单元404可以基于所获取的L_ShortTerm_Effective_Shift来获取QSHI。例如，当L_ShortTerm_Effective_Shift[EffectiveIndex]被限制为小于或等于短期响度级的阈值时，QSHI可以是最大目标响度。

例如，输入音频信号的L_ShortTerm_Effective_Shift可以被用作短期响度级阈值L_Threshold。QSHI提取单元404可以基于L_ShortTerm_Effective_Shift来校正最大目标响度。QSHI提取单元404可以将校正的最大目标响度用作QSHI值。可替选地，QSHI提取单元404可以将如上所述调整的最大目标响度和输入音频信号的综合响度中的较大值选择为QSHI值。

通过上述方法，音频信号处理装置可以相对有效地防止由限制器对输入音频信号的音质劣化。这是因为在输入音频信号的整个片段中，在音量设置相对较高的部分，可能由限制器劣化音质。

根据实施例，QSHI可以是被设置为使得输入音频信号的一个或多个短期响度级之中大于特定值的短期响度级的数量小于EffectiveIndex的值。在这种情况下，EffectiveIndex可以是基于音频信号处理装置的限制器的特性所确定的值。例如，可以根据由限制器的操作所引起的音质劣化的程度来改变EffectiveIndex。另外，短期响度阈值L_Threshold可以是基于音频信号处理装置的限制器的特性所确定的值。例如，可以根据由限制器的操作所引起的音质劣化的程度来改变短期响度阈值L_Threshold。

根据具体实施例，输入音频信号可以具有相对大的动态范围。例如，输入音频信号的综合响度级可以是L_Integ＝-24LKFS，并且有效的短期响度级可以被提取为L_ShortTerm_Effective＝-10LKFS。在这种情况下，当EffectiveIndex＝10且短期响度阈值＝-7LKFS时，QSHI可以被计算为-21LKFS。

在上述实施例中，已经描述了基于用于每个短期响度幅度的直方图来提取输入音频信号的QSHI的方法，但是本公开不限于此。例如，输入音频信号的QSHI可以被定义为由包括输入音频信号的内容的创建者或由输出输入音频信号的音响系统的操作者任意设置的值。另外，音频信号处理装置可以通过对除了短期响度级之外，输入音频信号的峰值包络或其RMS中的至少一个执行直方图分析来获取QSHI。

根据实施例，输入音频信号的QSHI可以取决于用于每个短期响度幅度的直方图的变化而改变。例如，上述用于每个短期响度幅度的直方图可以取决于是否存在根据用户输入确定的后处理而改变。在这种情况下，基于预定表,可以将输入音频信号的QSHI改变为不同值。可替选地，输入音频信号的QSHI可以被改变为基于后处理的特性计算出的值。

另外，将描述根据本公开的实施例的音频信号处理装置基于上述响度信息确定输入音频信号的响度增益的方法。等式13表示当对输入音频信号执行后处理过程时输入音频信号的改变的综合响度级L_IntegProc。音频信号处理装置可以基于因后处理导致的响度差dL_Proc，获取输入音频信号的改变的综合响度级L_IntegProc。参考等式13，音频信号处理装置可以通过将因后处理导致的响度差dL_Proc与输入音频信号的综合响度级L_IntegProc相加来获取改变的综合响度级L_IntegProc。

[等式13]

L_IntegProc＝L_Integ+dL_Proc

音频信号处理装置可以基于上述QSHI、预定目标响度级L_Target和通过后处理改变的综合响度级来计算用于调整输出响度级的响度增益。

在上述实施例中，目标响度级L_Target可以是用户设置的值。然而，本公开不限于此。例如，预定目标响度级L_Target可以是从输出输入音频信号的回放系统提供的默认值。可替选地，预定目标响度级L_Target可以是基于输出输入音频信号的回放环境设置的值。音频信号处理装置可以将响度增益G_Target应用于从输入音频信号后处理的第一中间音频信号。出于实际实现的原因，可以在将后处理前的输入音频信号乘以响度增益G_Target后执行后处理。另外，音频信号处理装置可以通过限制器输出对其应用了响度增益G_Target的第二中间音频信号。

同时，多媒体流传输服务是目前媒体市场中广泛使用的一种方法。提供多媒体流传输服务的系统通常可以由存储待流传输的内容的服务器和用户设备(即客户端)组成。在这种情况下，在客户端侧，可以以在应用或Web中回放的形式提供多媒体流传输服务。服务器和客户端中的每个可以是执行本公开中描述的操作的音频信号处理装置。在这种服务器-客户端结构中，服务器可以通过执行输入内容分析来提供响度信息。另外，客户端可以基于服务器提供的响度信息来调整输入内容的输出响度级。具体来说，服务器可以将包括输入音频信号的响度信息的响度元数据发送到客户端。客户端可以从服务器接收输入音频信号的响度元数据。另外，客户端可以基于输入音频信号的响度元数据来获取应用于输入音频信号的响度增益。

图7是示出根据本发明的实施例的服务器生成输入音频信号的响度元数据的方法的视图。根据本发明的实施例的服务器可以通过对输入音频信号进行编码来生成和/或输出音频流。根据本发明的实施例的服务器可以提取输入音频信号的响度信息。例如，图7的服务器可以执行参考图3的响度信息提取步骤S303描述的操作以及参照图4的响度信息提取单元400描述的操作。另外，服务器可以生成包括所提取的响度信息的响度元数据。服务器可以将所生成的响度元数据输出到外部设备。例如，服务器可以将所生成的响度元数据以元数据流的形式发送给客户端。

图8是示出根据本发明的实施例的客户端使用响度元数据输出输入音频信号的方法的视图。根据本发明的实施例的客户端可以接收音频流。此外，客户端可以通过对所接收的音频流进行解码来获取输入音频信号。客户端可以对输入音频信号执行后处理过程。在这种情况下，是否执行后处理过程及其特性可以基于从用户接收的输入或存储在系统中的预定值来确定。

根据本发明的实施例的客户端可以基于输入音频信号的响度元数据来确定输入音频信号的响度增益。例如，客户端可以以元数据流的形式接收响度元数据。客户端可以通过解析输入音频信号的响度元数据，获取输入音频信号的响度信息。具体地，客户端可以从输入音频信号的响度元数据，获取以上参考图3和图4描述的WLoud_MB、L_Integ和QSHI中的至少一个。客户端可以基于所获取的响度信息来确定输入音频信号的响度增益。客户端可以通过将响度增益应用于输入音频信号来调整输出响度级。客户端可以通过对输出响度级已经被调整的中间音频信号应用限制器来生成输出音频信号。此外，客户端可以输出该输出音频信号。

根据实施例，图8的客户端可以执行参考图3的后处理步骤S301、响度增益确定步骤S305、响度增益应用步骤S307描述的操作以及参考图4的后处理响度预测单元403描述的操作。

同时，根据内容的年龄和/或类型，音乐内容可以具有多种响度。例如，古典音乐的综合响度级相对较低以便提供宽动态范围，而2000年代的流行音乐的综合响度级相对较大。具体来说，2000年代流行音乐的综合响度级可能在约-13到约-8LKFS，并且古典音乐作品中的安静乐章的综合响度级可能为约-30LKFS。

在确定目标响度级时，可以使用被定义为广播标准的-23到-24LKFS。然而，相对于嘈杂环境中(诸如在地铁中)的外部噪声，这可能无法提供足够的音量。因此，根据本发明的实施例的音频信号处理装置可以取决于回放环境来确定不同的目标响度级。当2000年代流行音乐的目标响度级被设置为-10时，2000年代流行音乐的音量可以不会显著地改变。另一方面，当综合响度级相对较低的音乐(诸如古典音乐或1970年代至1980年代)被设置为-10时，音量的变化可能较大。

图9是示出根据本发明的实施例的用于输入音频信号的每个短期响度幅度的直方图的视图。在参考图9描述的实施例中，输入音频信号的类型可能是古典音乐。此外，在参考图9描述的实施例中，输入音频信号的综合响度可能为约-21LKFS。例如，相应输入音频信号的目标响度级可能是L_Target＝-10LKFS。在这种情况下，每个短期响度幅度的直方图向右移动+11LKFS。在这种情况下，会生成短期响度级大于-7LKFS的片段。

根据实施例，在具有大于-7LKFS的短期响度级的片段中，可能发生由限制器引起的音质劣化。因此，根据本发明的实施例的音频信号处理装置可以如上所述，基于QSHI来执行输入音频信号的响度归一化。在这种情况下，虽然响度归一化性能的性能可能相对降低，但可以采用尽力而为的方法进行最佳对齐，以防止损坏音质。

根据本发明的实施例，音频信号处理装置可以基于输入音频信号的响度信息，使用响度增益校正方法以尽可能接近目标响度级。音频信号处理装置可以使用相应的方法以提供响度级不改变的均衡。

均衡是调整用于输入音频信号的每个频率的能量，从而获得用户想要的音调。在这种情况下，整体能量可能取决于输入音频信号的调整程度而增加。在这种情况下，输入音频信号可能被削波。此外，限制器可能对输入音频信号的音质造成损害。因此，根据本发明的实施例的音频信号处理装置可以将预先确定的目标响度级L_Target、综合响度级L_Integ和QSHI设置为相同的任意值。在这种情况下，如在等式14中，表示输入音频信号的响度增益G_Target。也就是说，音频信号处理装置可以获取线性响度增益G_Target。这是因为目标响度级L_Target、综合响度级L_Integ和QSHI相互抵消。

[等式14]

G_Target＝power(10，-dL_Proc)/20

音频信号处理装置可以将等式14的响度增益G_Target应用于输入音频信号。音频信号处理装置可以通过校正由后处理引起的响度的变化来提供与输入音频信号的响度级相同的输出响度级。音频信号处理装置可以通过校正由后处理引起的响度变化来保持输入内容的响度级。音频信号处理装置可以通过后处理来使用响度差，将中间音频信号的响度级设置为与输入音频信号的响度级相同。在这种情况下，中间音频信号可以是从输入音频信号后处理的信号。这意味着音频信号处理装置通过后处理改变相对于输入音频信号的音调，但提供与原始输入音频信号相同的响度级。同时，通过上述参考图3和图4描述的方法，可以获得通过后处理获得的响度差。可以基于通过分析提供的WLoud_MB或基于内容的特性的WLoud_MB，获取后处理的响度差。

图10是示出根据本发明的实施例的，音频信号处理装置考虑到目标响度级和认知音质劣化来优化输入音频信号的响度增益的系统的框图。音频信号处理装置可以基于输入音频信号的目标响度级和响度信息来确定动态处理器可接受的目标响度级。在此，动态处理器可以表示削波根据响度级的信号的处理过程，诸如上述限制器或压缩器。输入音频信号的响度信息可以包括综合响度级、短期响度级、瞬时响度级、样本峰值、真实峰值、响度范围或均方根(RMS)中的至少一个。

在下文中，将描述音频信号处理装置确定输入音频信号的响度增益的详细实施例。根据实施例可由用户设置的目标响度级的最大值可以是大约-10LKFS，并且输入音频信号的综合响度可以约为-22LKFS。另外，输入音频信号的多个短期响度级中的第十个短期响度级可以约为-18LKFS。在这种情况下，第十短期响度级可以是参考如上所述的图4的QSHI提取单元404描述的有效短期响度级L_ShortTerm_Effective的详细实施例。即，-18LKFS可以被用作确定音质是否被DRC劣化的指标。当目标响度级的最大值大约为-10LKFS时，最大放大量可以大约为12响度单位(LU)。在这种情况下，音频信号处理装置可以基于被放大最大放大量的第十短期响度级来获取QSHI。

音频信号处理装置可以将由用户输入的预定目标响度级与QSHI进行比较。音频信号处理装置可以基于比较结果来确定输入音频信号的响度增益。例如，音频信号处理装置可以基于所输入的预定目标响度级和QSHI中较小者来确定输入音频信号的响度增益。在上述实施例中，为了获得确定DRC音质劣化的指标，当按降序排列短期响度级时，选择从顶部开始的第十短期响度级，但本公开不限于此。另外，音频信号处理装置可以通过对除了短期响度级之外的峰值包络或RMS中的至少一个执行直方图分析来获取QSHI。

图11和图12是示出输入音频信号的响度级和目标响度级随时间的固定增益的视图。图11示出了用于将具有小于目标响度级的响度分布的第一输入音频信号的响度级调整到目标响度级的固定增益。在这种情况下，在大于0dBFS的片段中削波第一输入音频信号使得过度音调失真。如上所述，为了获得接近目标响度级的值，对通过固定增益的响度级调整方法存在限制。因此，音频信号处理装置可以将小于固定增益值的增益应用于第一输入音频信号的第(2)和第(4)片段。

参照图12，第二输入音频信号具有比图11的第一输入音频信号更宽的动态范围。因此，当音频信号处理装置对第二输入音频信号应用针对目标响度级的固定增益时，一些片段中的响度级可能相对较小。因此，音频信号处理装置可以将大于固定增益值的增益应用于第二输入音频信号的第(1)片段和第(3)片段。

根据另外的实施例，音频信号处理装置可以应用增益提升。例如，音频信号处理装置可以获取目标响度范围。音频信号处理装置可以基于所获取的目标响度范围，对输入音频信号的每个片段设置附加增益。具体地，音频信号处理装置可以将设置的附加增益应用于随着时间的输入音频信号的整个片段中，具有在目标响度范围之外的响度级的片段。

如上所述，根据本发明的实施例的音频信号处理装置可以通过将随时间的不同增益应用于输入音频信号来调整输入音频信号的输出响度级。音频信号处理装置可以基于输入音频信号的响度元数据，调整输入内容的输出响度级。在这种情况下，输入音频信号的响度元数据可以包括随时间变化的信息。为了应用随时间不同的增益，音频信号处理装置可以参考随时间不同的元数据并且根据目标响度级和目标响度范围对输入音频信号的输出响度级进行归一化。因此，在本公开中，当通过对输入音频信号应用固定增益以进行响度归一化的补偿时，音频信号处理装置可以解决如上所述的限制。

图13和图14是分别示出根据本发明的实施例的用于调整输入音频信号的输出响度级的方法的示意图。图13示出在单个音频信号处理装置中提取输入音频信号的响度信息并且调整输入音频信号的输出响度级的实施例。在这种情况下，音频信号处理装置可以测量输入音频信号的响度级。音频信号处理装置可以从响度测量值中获取输入内容的响度信息。将参考图19来详细地描述音频信号处理装置实时测量输入音频信号的响度级的方法。

图14示出了以上参考图7和图8描述的服务器-客户端结构。首先，服务器可以通过对输入音频信号的分析来提取输入音频信号的响度信息。此外，服务器可以通过将输入音频信号的响度信息转换为元数据格式来生成响度元数据。接下来，客户端可以接收输入音频信号，并且可以与输入音频信号分开地接收输入音频信号的响度元数据。另外，客户端可以通过解析响度元数据来获取在调整输入音频信号的输出响度级中使用的响度信息。此外，客户端可以基于响度信息和预定目标响度级来获取输入音频信号的响度增益。客户端可以基于输入音频信号的响度增益来调整输入音频信号的输出响度级。

图15是示出根据本发明的实施例的音频信号处理装置获取输入音频信号的响度信息的方法的视图。音频信号处理装置可以通过分析输入音频信号来获取响度信息。例如，图15的方法可以在图7的服务器中执行。音频信号处理装置可以以响度元数据的形式输出响度信息。

根据实施例，响度信息可以包括静态响度元数据和动态响度元数据。静态响度元数据可以包括至少一个静态响度参数。例如，静态响度元数据可以包括综合响度级、最大样本峰值、响度范围(LRA)、峰响范围(PLR)、专辑综合响度、相对阈值、最小瞬时响度、最大瞬时响度或输入音频信号的每帧样本中的至少一个。

音频信号处理装置可以获取输入音频信号的静态响度元数据。具体地，音频信号处理装置可以基于听觉量表，通过使用响度滤波器，测量输入音频信号的瞬时响度或输入音频信号的短期响度级中的至少一个。音频信号处理装置可以生成包括至少一个静态响度参数的静态响度元数据。

动态响度元数据可以表示随时间变化的响度信息。动态响度元数据可以包括至少一个动态响度参数。例如，动态响度元数据可以包括随时间变化的短期响度级或输入音频信号的峰值中的至少一个。将参照图21详细地描述音频信号处理装置获取峰值包络的方法。

根据实施例，音频信号处理装置可以获取输入音频信号的动态响度元数据。例如，音频信号处理装置可以获取用于输入音频信号的特定片段的短期响度测量值。信号处理设备可以获取用于相应片段的输入音频信号的峰值包络。音频信号处理装置可以生成包括至少一个动态响度参数的动态响度元数据。此外，音频信号处理装置可以校正时间延迟或者动态响度参数的前导，诸如短期响度测量值和峰值。例如，音频信号处理装置可以变动动态响度范围。将参考图21详细地描述。

音频信号处理装置可以获取在特定时间点之前输入的样本值和在特定时间点之后输入的样本值的短期响度级。结果，音频信号处理装置可以利用输入音频信号的响度变化，更稳定地控制响度级。例如，音频信号处理装置可以通过变动已经获取的动态响度参数的时间参考值，获取特定时间点之前输入的样本值和特定时间点之后输入的样本值的短期响度级。另外，音频信号处理装置可以通过使用缓冲器，获取特定时间点之前输入的采样值和特定时间点之后输入的采样值的短期响度级。在这种情况下，音频信号处理装置可以设置足够的前瞻时间。

图16是示出根据本发明的实施例的音频信号处理装置调整输入音频信号的输出响度级的方法的视图。音频信号处理装置可以基于输入音频信号的响度元数据和目标响度级，获取输入音频信号的响度增益。具体地，音频信号处理装置可以基于目标响度级和静态响度元数据来计算增益参数。音频信号处理装置可以基于计算的增益参数和动态响度元数据来获取应用于输入音频信号的特定帧的响度增益。例如，音频信号处理装置可以解析动态响度元数据以获取与相应帧相对应的峰值包络或短期响度级中的至少一个。音频信号处理装置可以基于与相应帧相对应的峰值包络和短期响度级中的至少一个，获取应用于相应帧的响度增益。具体来说，音频信号处理装置可以基于所计算的与相应帧相对应的短期响度级和增益参数，获取应用于相应帧的响度增益。在这种情况下，可以限制应用于相应帧的响度增益，使得根据响度级进行削波在相应帧中不会发生。音频信号处理装置可以基于峰值包络，校正应用于相应帧的响度增益，从而在相应帧中不会发生根据响度级的削波。音频信号处理装置可以通过将最终响度增益应用于输入音频信号来生成中间音频信号。此外，音频信号处理装置可以通过将限制器应用于中间音频信号来生成输出音频信号。音频信号处理装置可以输出该输出音频信号。根据另外的实施例，当用于相邻帧之间的每一帧的响度增益差大于或等于预定大小时，音频信号处理装置可以针对每一帧校正响度增益。在这种情况下，音频信号处理装置可以使用被称为平滑的方法来进行调整，使得平滑地改变响度增益。因此，音频信号处理装置可以防止由于每帧响度增益的变化或音量级突然显著改变的音量猛升而导致的音调失真。将参考图22详细地描述音频信号处理装置对响度增益执行平滑的方法。

图17是示出根据本发明的实施例的音频信号处理装置基于目标响度范围来调整输入音频信号的输出响度级的方法的视图。音频信号处理装置可以在上述计算图16的增益参数的过程中另外考虑目标响度范围。如参考图12所述，目标响度范围可能窄于输入音频信号的动态范围。当取决于环境以小音量收听视频/声音时，或者在嘈杂的环境中(诸如在地铁中或在街上)听音乐时，有必要通过降低输入音频信号的动态范围来回放。

因此，音频信号处理装置可以基于输入音频信号的目标响度范围来计算输入音频信号的增益参数。在这种情况下，增益参数可以包括用于响度压缩的增益比。音频信号处理装置可以基于增益比，为输入音频信号中包括的多个帧之中具有小于预定幅度的短期响度的帧应用附加提升增益。音频信号处理装置可以基于增益比，为包括在输入音频信号中的多个帧之中具有大于预定幅度的短期响度的帧应用附加削减增益。因此，音频信号处理装置可以调整输入音频信号的整个片段的输出响度级以接近目标扬声器电平。

根据附加实施例，音频信号处理装置可以基于针对每个时间段不同地测量的响度参数来对每个时间段执行响度归一化。具体地，音频信号处理装置可以基于目标响度级L_T、综合响度级L_I、短期响度级L_S、相对阈值L_Rel、本底噪声水平L_Noise和峰值包络P，确定用于输入音频信号的每个时间段的响度增益G_loud。在此，L_Rel可以是通过将预定值与在输入音频信号的整个片段中有效的动态响度参数的平均值相加而获得的值。在这种情况下，预定值可以是大约-20LU。另外，动态响度参数可以是瞬时响度级或短期响度级。

例如，L_Rel可以是基于在用于输入音频信号的每个片段的短期响度级之中具有至少大于有效响度级的值的短期响度级的平均值所计算的值。L_Rel可以是基于在输入音频信号的每个片段的短期响度级之中具有至少大于有效响度级的值的瞬时响度级的平均值计算出的值。在此，有效响度级可以是基于难以被听觉感知的响度级设置的值。有效响度级可以是基于几乎没有声音的音频信号的响度级设置的值。例如，有效响度级可以是基于大约-70LKFS设置的值。

另外，L_Noise可以是基于输入音频信号中几乎没有声音的片段的响度级或与输入音频信号中的非常低的背景噪声级相对应的片段的响度级中的至少一个所计算出的值。

根据实施例，可以通过上述响度元数据来获取L_T、L_I、L_S、L_Rel、L_Noise和P中的每个。另外，时间段可以包括帧。在所描述的实施例中，短期响度级L_S可以由表示特定时间段的代表性响度值代替。例如，短期响度级L_S可以由输入音频信号的瞬时响度级代替。如在下述等式16中，表示音频信号处理装置基于L_T、L_I、L_S、L_Rel、L_Noise和P获取用于每个时间段的响度增益G_loud的方法。

[等式16]

其中1≥r₁≥r₂＞0

在等式16中，r_1和r_2可以表示用于控制相对于输入音频信号的输出音频信号的动态范围的响度压缩比。r1可以是用于获取在输入音频信号的输入响度级至少小于综合响度级的片段中的相应片段的响度增益的响度压缩比。可以基于表示输入响度范围的LRA、PLR或瞬时响度最大值中的至少一个来设置r_1。r_1可以是0到1之间的任意常数。r_2可以是压缩比，该压缩比用于在输入音频信号的输入响度级小于综合响度级并且输入音频信号的输入响度级小于L_Rel的片段中的相应片段的响度增益。在这种情况下，可以将r_2设置为至少小于r_1的值以最小化噪声分量的提升。音频信号处理装置可以对G_loud[n]执行平滑以将平滑后的G_loud[n]应用于输入音频信号。另外，clippingThreshold可以表示允许最大样本峰值包络。clippingThreshold可以是基于上述QSHI、最大真实峰值truePeak和允许最大样本峰值包络中的至少一个所设置的值。例如，clippingThreshold可以是与QSHI相同的值。可替选地，clippingThreshold可以是在音频信号处理装置中或在音频提供系统中任意设置的值。

在下文中，将参照图18详细地描述根据本发明的实施例的音频信号处理装置获取响度测量值的方法。图18是示出根据本发明的实施例的音频信号处理装置测量输入内容的响度的方法的视图。根据实施例，音频信号处理装置可以基于上述测量窗口来测量输入内容的响度。此外，音频信号处理装置可以获取用于输入内容的每个测量窗口的响度测量值。音频信号处理装置可以基于用于每个测量窗口的响度测量值来获取响度信息。

在图18的实施例中，音频信号处理装置可以基于测量窗口801的长度来获取用于每个测量窗口的测量值。在这种情况下，测量窗口801的长度可以是预先存储在音频信号处理装置中的默认值。根据本发明的实施例，测量窗口801的长度可以取决于输入内容而改变。例如，音频信号处理装置可以基于输入内容的附加信息来获取与输入内容相对应的测量窗口的长度。在图18的实施例中，与输入内容相对应的测量窗口的长度可以是大约400ms。音频信号处理装置可以获取与输入内容的所有片段之中具有大约400ms长度的特定片段相对应的响度测量值。

根据实施例，可以基于附加信息来获取测量窗口的长度。例如，可以基于输入内容的响度范围来获取测量窗口的长度。在此，响度范围可以是表示内容的所有片段的响度级分布的值。可以通过使用表示相对测量量的单位，诸如LU来指示响度范围。音频信号处理装置可以从附加信息获取关于输入内容的响度范围的信息。接下来，音频信号处理装置可以基于输入内容的响度范围来确定测量窗口的长度。在这种情况下，可以将输入内容的测量窗口的长度设置为小于响度范围的宽度比输入内容的响度范围更宽的其他内容的测量窗口的长度的值。例如，当第一输入内容的响度范围大于第二输入内容的响度范围时，第一输入内容的测量窗口的长度可以大于第二输入内容的测量窗口的长度。

另外，音频信号处理装置可以根据用于获取输入内容的测量值的测量周期来获取每个测量窗口的响度测量值。在本公开中，测量周期可以表示移动测量窗口的时间距离。参照图18，第一测量值802可以是对应于基于开始回放输入内容的时间点的片段(300ms至700ms)的响度测量值。另外，第一测量值803可以是对应于基于输入内容开始回放的时间点的片段(400ms至800ms)的响度测量值。当从输入内容开始回放的时间点到当前时间点的时间长度小于测量窗口的长度时，音频信号处理装置可以在当前时间点之后的最近测量周期中获取响度测量值。在这种情况下，音频信号处理装置可以获取对应于短于测量窗口的长度的片段的响度测量值。

具体地，音频信号处理装置可以基于附加信息来确定测量周期。例如，可以基于输入内容的长度来确定测量周期。例如，当第二输入内容的长度大于第一输入内容的长度时，第一输入内容的测量周期可以短于第二输入内容的测量周期。另外，音频信号处理装置可以基于所确定的测量周期，获取用于每个测量窗口的响度测量值。在图18的实施例中，测量周期可以是大约100ms。音频信号处理装置可以通过每100mn移动测量窗口来获取用于每个测量窗口的响度测量值。另外，音频信号处理装置可以基于通过图18测量的多个响度测量值来获取上述响度信息。

图19是示出根据本发明的实施例的音频信号处理装置的操作的流程图。根据本发明的实施例的音频信号处理装置可以接收输入音频信号(步骤S1901)。在这种情况下，输入音频信号可以包括参考图2描述的输入内容。接下来，音频信号处理装置可以接收对应于输入音频信号的响度元数据(步骤S1902)。

接下来，音频信号处理装置可以通过解析响度元数据来获取输入音频信号的响度信息(步骤S1903)。根据本发明的实施例，响度信息可以包括表示输入音频信号的综合响度级的每个的信息、至少一个短期响度级、质量安全直方图指数(QSHI)、输入音频信号的动态范围、每个频率的响度能量、每个频率的响度比或峰值包络中的至少一个。对于音频信号处理装置获取包括在响度信息中的每个信息的方法，可以应用上文参考上述图2至图18描述的实施例。

QSHI可以表示认知音质损害不会发生的阈值响度级。可以根据上述图3的步骤S303、图4的QSHI提取单元404和参考图10所述的实施例获取QSHI。例如，QSHI可以是基于输入音频信号的响度直方图所计算的响度参数。在这种情况下，响度直方图可以是输入音频信号随时间变化的短期响度级的幅度直方图。可替选地，响度直方图可以是与用于输入音频信号的每个片段的峰值包络或均方根(RMS)相关的幅度直方图。QHSI可以大于输入音频信号的综合响度级。

根据实施例，QSHI是基于由输入音频信号的响度直方图预测的预测响度直方图所计算的参数。在这种情况下，预测响度直方图可以是基于当根据目标响度级输出输入音频信号时预测的响度参数生成的直方图。

根据实施例，可以基于在音频信号处理装置中驱动限制器的次数来确定QSHI。在这种情况下，音频信号处理装置可以通过将用于限制输出音频信号的响度级的响度限制器应用于输出音频信号来将输出音频信号输出。在这种情况下，输出音频信号可以是根据响度增益来调整输入音频信号的输出响度级的信号。QHSI可以是使得输出音频信号的整个片段的短期响度级小于或等于预定水平而设置的参数。

接下来，音频信号处理装置可以基于响度信息和目标响度级来获取输入音频信号的响度增益(S1904)。根据实施例，输入音频信号的响度增益可以是在输入音频信号的整个片段中，具有固定值的固定增益。根据另一实施例，输入音频信号的响度增益可以是在回放输入音频信号期间随时间改变的增益。

根据本发明的实施例，音频信号处理装置可以接收输入音频信号的综合响度。另外，音频信号处理装置可以基于输入音频信号的综合响度、QSHI和目标响度级来确定响度增益。

根据实施例，音频信号处理装置可以将输入音频信号的目标响度级与QSHI进行比较。另外，音频信号处理装置可以基于比较结果来确定响度增益。音频信号处理装置可以基于输入音频信号的目标响度级和QSHI中的较小来确定响度增益。为此，可以应用参考图10所述的具体实施例。

根据实施例，音频信号处理装置可以基于从输入音频信号的QSHI校正的QSHI来获取输入音频信号的响度增益。例如，音频信号处理装置可以对输入音频信号执行后处理。在这种情况下，音频信号处理装置可以接收表示对输入音频信号的后处理的特性的后处理信息。此外，音频信号处理装置可以基于后处理信息来校正预先获取的QSHI。根据实施例，音频信号处理装置可以基于后处理信息和预存储函数来校正预先获取的QSHI。音频信号处理装置可以基于后处理信息和预存的查找表来校正预先获取的QSHI。在这种情况下，预存的查找表可以包括根据后处理的特性的关于QSHI校正的信息。另外，关于QSHI校正的信息可以包括表示根据后处理的特性的QSHI校正值的信息。音频信号处理装置可以基于预先存储的查找表，获取对应于对输入音频信号的后处理的QSHI校正值。音频信号处理装置可以通过将QSHI校正值添加到所获取的QSHI中来校正QSHI。音频信号处理装置可以基于通过上述方法校正的QSHI来确定输入音频信号的响度增益。

根据实施例，音频信号处理装置可以基于每个频率的响度能量和表示对输入音频信号的后处理的特性的后处理信息来确定输入音频信号的响度增益。音频信号处理装置可以基于通过后处理改变的用于每个带的响度级来确定输入音频信号的响度增益。

根据实施例，音频信号处理装置可以基于每个频率的响度能量和表示对输入音频信号的后处理的特性的后处理信息，获取通过后处理改变的用于每个带的响度级。音频信号处理装置可以基于每个频率的响度比和输入音频信号的后处理信息来获取通过后处理改变的用于每个带的响度级。可以基于用于输入音频信号的每个频率的响度比的点积来计算由后处理改变的用于每个带的响度级。由后处理改变的用于每个带的响度级也可以是基于认知响度特性获得的参数。音频信号处理装置可以基于以听觉量表为基础的响度滤波器，获取由输入音频信号的后处理改变的用于每个带的响度级。具体地，响度滤波器可以是等响曲线的逆滤波器或近似该逆滤波器的K加权滤波器中的至少一个。当在输入音频信号中包括的多个帧中的特定帧的响度级小于或等于相对阈值时，音频信号处理装置可以不计算通过对应于相应帧的后处理改变的用于每个带的响度级。又例如，由输入音频信号的后处理改变的用于每个带的响度级可以是基于输入音频信号的类型或用户输入中的至少一个所设置的参数。

用于输入音频信号的每个频率的响度比和/或用于输入音频信号的每个频率的响度能量可以是基于用于输入音频信号的响度测量值所计算的值。输入音频信号的每个频率的响度比可以是基于认知响度特性获取的参数。音频信号处理装置可以基于以听觉量表为基础的响度滤波器，获取用于输入音频信号的每个频率的响度比。具体地，响度滤波器可以是等响曲线的逆滤波器或近似该逆滤波器的K加权滤波器中的至少一个。当输入音频信号中包括的多个帧中的特定帧的响度级小于或等于相对阈值时，音频信号处理装置可以不计算与对应帧相对应的每个频率的响度比。可以参考图4的用于每个频率的响度分析单元402描述的实施例来获取用于每个频率的响度比。作为另一示例，用于输入音频信号的每个频率的响度比可以是基于输入音频信号的类型或用户输入中的至少一个所设置的参数。

音频信号处理装置可以基于用户输入来获取关于输入音频信号的后处理信息。在这种情况下，用户输入可以是与输入音频信号相关的输入。另外，用户可以是使用音频信号处理装置的用户。后处理信息可以包括表示音频信号处理装置的输出特性的每个的信息、输入音频信号的类型、根据用户输入的后处理模式、均衡的类型、混响或房间补偿中的至少一个。对于音频信号处理装置基于通过后处理改变的用于每个带的响度级来确定输入音频信号的响度增益的方法，可以应用参考图3的步骤S303描述的实施例。

根据实施例，音频信号处理装置可以基于响度差来确定输入音频信号的响度增益。响度差可以是由于后处理导致的用于输入音频信号的响度变化的预测值。音频信号处理装置可以基于由用户设置的后处理信息获取响度差。音频信号处理装置可以基于由后处理改变的用于每个带的响度级或用于每个频率的输入音频信号的特征中的至少一个来获取响度差。可以基于用于输入音频信号的每个频率的响度比的点积来计算响度差。响度差可以是基于认知响度特性所获得的参数。音频信号处理装置可以基于以听觉量表为基础的响度滤波器，获取输入音频信号的响度差。具体地，响度滤波器可以是等响曲线的逆滤波器或近似逆滤波器的K加权滤波器中的至少一个。当包括在输入音频信号中的多个帧中的特定帧的响度级小于或等于相对阈值时，音频信号处理装置可以不计算对应帧相对应的响度差。对于音频信号处理装置获取响度差的方法，可以应用参考图4的用于每个频率的响度分析单元402以及图4的后处理响度预测单元403描述的实施例。

根据实施例，音频信号处理装置可以基于输入音频信号的每一帧的响度信息来确定输入音频信号的响度增益。音频信号处理装置可以基于输入音频信号的每一帧的响度信息，获取输入音频信号的每一帧的响度增益。输入音频信号的响度增益可以是在回放输入音频信号期间随时间改变的增益。根据实施例，音频信号处理装置可以接收包括用于输入音频信号的每一帧的响度信息的响度元数据。音频信号处理装置可以通过解析响度元数据来获取用于输入音频信号的每一帧的响度信息。用于每一帧的响度信息可以包括动态响度参数。根据实施例，用于每一帧的响度信息可以包括表示用于每一帧的峰值包络的信息。可以基于包括在具有预定长度的帧中的音频信号的最大绝对值来获取用于每一帧的峰值包络。

根据实施例，音频信号处理装置可以基于用于输入音频信号的每一帧的峰值包络来确定用于输入音频信号的每一帧的响度增益。音频信号处理装置可以基于目标响度级和输入音频信号的每一帧的峰值包络来确定用于输入音频信号的每一帧的响度增益。例如，音频信号处理装置可以基于目标响度级来设置用于每一帧的响度增益以便不超出用于每一帧的峰值包络。此外，音频信号处理装置可以基于用于每一帧的响度增益来调整输入音频信号的相应帧的输出响度级。对音频信号处理装置基于用于每一帧的响度信息来确定响度增益的方法，可以应用上述参考图17描述的实施例。

接下来，音频信号处理装置可以基于响度增益来调整输入音频信号的输出响度级(S1905)。根据实施例，音频信号处理装置可以通过调整输入音频信号的输出响度级来生成输出音频信号。在这种情况下，音频信号处理装置可以使用所确定的响度增益。根据实施例，音频信号处理装置可以通过对其应用响度限制器来输出所生成的输出音频信号。

根据本发明的附加实施例，音频信号处理装置可以基于输入音频信号的整个片段中的一些片段的片段响度增益来调整输入音频信号的输出响度级。根据实施例，音频信号处理装置可以基于与输入音频信号的特定片段相对应的响度参数来获取与相应片段相对应的响度增益。例如，与输入音频信号的特定片段相对应的响度参数可以包括用于相应片段的至少一个代表值。在这种情况下，代表值可以包括对应于相应片段的输入音频信号的响度级的绝对值的最大值或短期响度级中的至少一个。

根据实施例，音频信号处理装置可以基于目标响度级、综合响度级和输入响度级来确定输入音频信号的每个时间段的响度增益。在这种情况下，输入响度级可以是表示特定片段的响度级。例如，输入响度级可以是短期响度级。音频信号处理装置可以将目标响度级、综合响度级、输入响度级、相对阈值、本底噪声水平L_Noise或峰值包络中的至少两个或更多个相互比较。此外，音频信号处理装置可以基于比较结果来确定用于输入音频信号的每个时间段的响度增益。

例如，音频信号处理装置可以比较目标响度级和综合响度级。音频信号处理装置可以比较输入响度级和综合响度级。当目标响度级小于综合响度级，并且输入响度级大于综合响度级时，音频信号处理装置可以将用于每个片段的第一响度增益应用于相应片段的输入音频信号。

又例如，当目标响度级大于综合响度级、输入响度级小于综合响度级并且输入响度级大于相对阈值时，音频信号处理装置可以将用于每个片段的第二响度增益应用于相应片段的输入音频信号。

又例如，当目标响度级大于综合响度级时，输入响度级小于综合响度级、输入响度级小于相对阈值且输入响度级大于本底噪声水平时，音频信号处理装置可以将用于每个片段的第三响度增益应用于相应片段的输入音频信号。

又例如，当目标响度级大于综合响度级时、输入响度级小于综合响度级、输入响度级小于相对阈值且输入响度级小于本底噪声水平时，音频信号处理装置可以将用于每个片段的第四响度增益应用于相应片段的输入音频信号。在这种情况下，用于每个片段的第四响度增益可以是相应帧前的帧的响度增益。例如，当目标响度级大于综合响度级、对应于第N帧的输入响度级小于综合响度级、对应于第N帧的输入响度级小于相对阈值，并且对应于第N帧的输入响度级小于本底噪声水平，音频信号处理装置可以将对应于第N-1帧的响度增益用作对应于第N帧的响度增益。

根据另一实施例，用于每个片段的第四响度增益可以表示应用于整个输入音频信号的固定增益。另外，用于每个片段的第一响度增益、用于每个片段的第二响度增益和用于每个片段的第三响度增益中的每个可以是通过与用于每个片段的第四响度增益不同的方法校正的增益。另外，用于每个片段的第一响度增益、用于每个片段的第二响度增益和用于每个片段的第三响度增益可以是具有不同值的增益。

根据实施例，输入音频信号的第N片段的响度代表值可以是对应于与输入音频信号的第N片段相邻的片段的代表值。例如，输入音频信号的第N特定片段的代表响度值可以是对应于第N+L片段或第N-L片段的代表值。在这种情况下，L可以是对应于小于用于获取代表值的时间片段的片段的索引值。例如，用于获取代表值的时间段可以是三秒。另外，音频信号处理装置可以基于延时的输入音频信号来获取输入音频信号的特定段的代表值。在这种情况下，音频信号处理装置可以通过基于预定延迟时间延迟输入音频信号来获取用于获取代表值的至少一个响度测量值。

根据实施例，音频信号处理装置可以获取应用于整个输入音频信号的响度固定增益。在这种情况下，音频信号处理装置可以基于与输入音频信号的特定片段相对应的响度参数来校正响度固定增益。此外，音频信号处理装置可以基于校正增益来调整相应片段的输入音频信号的输出响度级。对于输入音频信号处理装置基于用于输入音频信号的整个片段的一些片段的片段响度增益来调整输入音频信号的输出响度级的方法，可以应用上文参考图17描述的实施例。

图20是示出根据本发明的实施例的音频信号处理装置2000的配置的框图。根据实施例，音频信号处理装置2000可以包括接收器2100、处理器2200和输出器2300。然而，并非图10中所示的所有组件都是音频信号处理装置的必要组件。音频信号处理装置2000可以进一步包括未在图20中示出的组件。例如，根据实施例的音频信号处理装置可以进一步包括存储单元(未示出)。此外，可以省略图20中示出的音频信号处理装置2000的至少一些组件。例如，根据实施例的音频信号处理装置可以不包括接收器2100或输出器2300中的至少一个。

接收器2100可以接收输入到音频信号处理装置2000的输入内容。接收器2100可以接收其输出响度级由处理器2200调整的输入内容。如上所述，输入内容可以包括音频信号。在这种情况下，音频信号可以包括环绕声信号、对象信号或声道信号中的至少一个。音频信号可以是一个对象信号或单声道信号。音频信号可以是多对象信号或多声道信号。根据实施例，接收器2100可以包括接收以有线方式发送的输入内容的输入端。另外，接收器2100可以包括接收以无线方式发送的输入内容的无线接收模块。

根据实施例，音频信号处理装置2000可以包括单独的解码器。在这种情况下，接收器2100可以接收输入内容的编码比特流。另外，编码比特流可以通过解码器被解码为输入内容。另外，接收器2100可以接收与输入内容相关的附加信息。

根据实施例，接收器2100可以包括用于通过网络向外部设备发送数据和从外部设备接收数据的发送/接收装置。在这种情况下，数据可以包括输入内容的比特流或附加信息中的至少一个。接收器2100可以包括用于接收以有线方式发送的数据的有线发送/接收终端。另外，接收器2100可以包括用于接收以无线方式发送的数据的无线发送/接收终端。在这种情况下，接收器2100可以使用蓝牙或Wi-Fi通信方法来接收以无线方式发送的数据。此外，接收器2100可以接收根据诸如长期演进(LTE)和高级LTE的移动通信标准发送的数据，但是本公开不限于此。接收器2100可以接收根据各种有线和无线通信标准传输的各种形式的数据。

处理器2200可以控制音频信号处理装置2000的整体操作。处理器2200可以控制音频信号处理装置2000的每个组件。处理器2200可以执行各种数据和信号的计算和处理。处理器2200可以是以半导体芯片或电子电路的形式被实现为硬件，或者可以被实现为控制硬件的软件。处理器2200可以以硬件和软件相结合的形式来实现。例如，处理器2200可以通过执行至少一个程序来控制接收器2100和输出器2300的操作。另外，处理器2200可以通过执行至少一个程序来执行如上所述的参考图1至图19所述的操作。

根据实施例，处理器2200可以调整输入内容的输出响度级。例如，处理器2200可以基于响度增益来调整输入内容的输出响度级。响度信息可以是从输入内容分析的输入内容的响度特性。在这种情况下，可以基于响度信息来获取响度增益。此外，处理器2200可以输出其输出响度级已经根据输入内容进行调整的输出内容。在这种情况下，处理器2200可以通过稍后描述的输出器2300输出该输出内容。

输出器2300可以将输出内容输出。输出器2300可以输出其输出响度级已经由处理器2200从输入内容调整的输出内容。在此，输出内容可以包括输出音频信号。在这种情况下，输出音频信号可以包括环绕声信号、对象信号或声道信号中的至少一个。输出音频信号可以是多对象信号或多声道信号。另外，输出音频信号可以包括分别对应于听者的双耳的2声道输出音频信号。输出音频信号可以包括双耳2声道输出音频信号。输出器2300可以输出由处理器2200调整其输出响度级的音频耳机信号。

根据实施例，输出器2300可以包括用于将输出内容输出的输出装置。例如，输出器2300可以包括将输出音频信号输出到外部的输出端子。在这种情况下，音频信号处理装置2000可以将输出音频信号输出到连接到输出端子的外部设备。输出器2300可以包括将输出音频信号输出到外部的无线发送/接收模块。在这种情况下，输出器2300可以使用无线通信方法(诸如蓝牙或Wi-Fi)，将输出音频信号输出到外部。

另外，输出器2300可以包括扬声器。在这种情况下，音频信号处理装置2000可以通过扬声器将输出音频信号输出。此外，输出器2300可以进一步包括转换器(例如，数模转换器DAC)，其将数字音频信号转换成模拟音频信号。另外，输出器2300可以包括用于输出包括在输出内容中的视频信号的显示装置。

如上所述，音频信号处理装置2200可以进一步包括存储单元(未示出)。存储单元可以存储用于处理和控制处理器2200的数据或程序中的至少一个。此外，存储单元可以存储响度信息。存储单元可以存储从接收到的响度元数据提取的响度信息。存储单元可以存储接收到的目标响度级。此外，存储单元可以存储通过处理器2200获取的响度测量值。此外，存储单元可以在处理器2200中计算的结果。例如，存储单元可以存储基于响度信息所确定的响度增益。此外，存储单元可以存储输入到音频信号处理装置2000的数据或从音频信号处理装置2000输出的数据。

存储单元可以包括至少一个内存。在这种情况下，内存可以包括闪存类型存储介质、硬盘类型存储介质、多媒体卡微型类型存储介质、卡式存储器(例如，SD或XD存储器)、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁存储器、磁盘或光盘之中的至少一种存储介质。

图21是示出根据本发明的实施例的用于输入音频信号的每个时间段的峰值包络的视图。在图21的实施例中，用于每个时间段的峰值包络可以是基于从输入音频信号测量的响度测量值所获取的值。在图21中，由实线指示的值表示输入音频信号随时间的响度测量值。此外，由第一虚线(-*-)所指示的值表示用于输入音频信号随时间变化的响度测量值的每个时间段的代表值。音频信号处理装置可以基于用于每个时间段的代表值来获取用于每个时间段的峰值包络。在这种情况下，基于输入到响度计的输入缓冲器的值来计算相应的代表值，因此基于实际输入的音频信号会发生错误。

在图21中，由第二虚线(-△-)指示的值可以是通过大约15ms的时间延迟所获取的用于每个时间段的代表值。音频信号处理装置可以通过将时间延迟应用于输入音频信号来获取用于每个时间段的代表值。因此，音频信号处理装置可以校正所获取的峰值包络，以便更好地对应于输入音频信号的响度变化。在这种情况下，可以基于输入音频信号的测量帧的长度来设置用于时间延迟的延迟持续时间。可以将参考图21描述的用于校正峰值包络的时间延迟的方法应用于参考图15描述的其他动态响度参数。例如，音频信号处理装置可以通过使用时间延迟来获取短期响度级。

图22是描述根据本发明的实施例的音频信号处理装置使用平滑来调整使用的输入音频信号的输出响度级的方法的视图。根据本发明的实施例，音频信号处理装置可以调整输入音频信号的输出响度级，使得通过平滑来平滑地改变响度增益。在这种情况下，由于基于输入音频信号的响度测量值来执行平滑(因果处理)，音频信号处理装置可能无法相对于实际响度变化来适当地提供相应帧中所需的参数。

相应地，音频信号处理装置可以通过使用通过时间延迟获取的响度参数，对输入音频信号的响度增益执行平滑操作。在这种情况下，通过时间延迟获取的响度参数可以是通过上文参考图21描述的方法获取的参数。

在图22中，由实线指示的值可以表示用于输入音频信号的每一帧的响度增益。在这种情况下，由实线指示的值可以表示没有应用平滑的响度增益。另外，由第三虚线(--)和第四虚线(-·-)指示的值可以是从用于每帧的响度增益应用平滑的响度增益。在这种情况下，由第三虚线(--)指示的用于每一帧的每个响度增益可以表示基于应用了时间延迟的测量值获取的用于每一帧(从变动输入平滑)的第一响度增益。另一方面，由第四虚线(-·-)指示的用于每一帧的每个响度增益可以表示基于未应用时间延迟的测量值所获取的用于每一帧(从原始输入平滑)的第二响度增益。

参照图22，与用于每一帧的第一响度增益相比，用于每一帧的第二响度增益可以更类似于输入音频信号的响度级而改变。参考图22的部分，其中，作为水平轴的帧索引为大约110至大约130，快速地减小用于对其没有应用平滑的输入音频信号的每一帧的响度增益。在相应部分中，用于每一帧的第一响度增益与用于每一帧的第二响度增益相比逐渐减小。用于每一帧的第二响度增益与用于每一帧的第一响度增益相比迅速地减小。此外，用于每一帧的第一响度增益与用于每一帧的第二响度增益相比开始减小预定帧。因此，音频信号处理装置可以通过使用用于基于对其应用了时间延迟的测量值获取的每一帧的第一响度增益来防止收听者经历响度的突然变化。

根据本发明的实施例，音频信号处理装置可以将对每个片段确定的响度增益应用于输入音频信号，以便根据目标响度级来处理输入音频信号的特性。在这种情况下，可能在特定片段中应用过大的响度增益值。因此，可能发生大于0dBFS或大于预定义值(阈值)的削波。因此，音频信号处理装置可以将限制器应用于输出音频信号。结果，音频信号处理装置可以将限制器应用于已经从输入音频信号调整了其输出响度级的输出音频信号的响度级大于预定响度级的片段。

在这种情况下，根据与限制器相关的限制器参数，实时或根据时间顺序处理在限制器中处理的输出音频信号的方法(因果处理)。当音频信号处理装置使用限制器时，音频信号处理装置可能导致意外的音调失真。如上所述，音频信号处理装置可以通过使用为每个片段确定的响度增益来调整输入音频信号的输出响度级。在这种情况下，为每个片段确定的响度增益可以是在考虑到用于每个片段的峰值包络情况下的增益。音频信号处理装置可以基于每个片段的峰值包络来预测相应片段中发生的削波或具有超出目标响度级的级别的片段的生成。此外，音频信号处理装置可以基于上述预测来确定用于输入音频信号的每个片段的响度增益。即，音频信号处理装置可以基于预测，对响度增益进行逆校正。因此，音频信号处理装置可以防止由限制器引起的输出音频信号的音调失真。

一些实施例还可以以包括可由计算机执行的指令(诸如由计算机执行的程序模块)的记录介质的形式来实现。计算机可读介质可以是可以由计算机访问的任何可用介质，并且可以包括易失性和非易失性介质以及可移动和不可移动介质。此外，计算机可读介质可以包括计算机存储介质。计算机存储介质可以包括以用于存储信息的任何方法或技术(诸如计算机可读指令、数据结构、程序模块或其他数据)实现的易失性和非易失性介质以及可移动和不可移动介质。

虽然已经参照具体实施例描述了本公开，但是本公开不限于此。因此，本领域技术人员将容易理解到，在不脱离本公开的范围的情况下可以对其进行各种改进和改变。即，虽然已经参考调整了音频信号的响度级的实施例描述了本公开，但是本公开可以同等地适用和扩展到包括视频信号以及音频信号的各种多媒体信号。因此，解释为属于本公开所属技术领域的人员可以易于从本公开的详细描述和实施例中推断出的内容均属于本公开的范围。

Claims

1.一种用于控制响度级的音频信号处理装置，所述音频信号处理装置包括：

接收器，所述接收器用于接收输入音频信号；

处理器，所述处理器用于生成与所述输入音频信号相对应的响度元数据；以及

输出器，所述输出器用于传输在所述处理器中生成的所述响度元数据，

其中，所述处理器被配置为：

测量所述输入音频信号的响度以获取所述输入音频信号的响度信息；

转换所述响度信息以生成所述响度元数据；以及

将所述生成的响度元数据输出到输出设备用于通过所述输出器输出所述输入音频信号，其中，所述响度信息包括表示用于所述输入音频信号的每个帧的峰值包络的信息。

2.根据权利要求1所述的音频信号处理装置，所述响度信息进一步包括所述输入音频信号的时变响度。

3.根据权利要求2所述的音频信号处理装置，所述输入音频信号的时变响度是随时间的短期响度级或瞬时响度级。

4.根据权利要求1所述的音频信号处理装置，基于包括在帧中的音频信号的最大绝对值来获取用于所述输入音频信号的每个帧的所述峰值包络。

5.根据权利要求1所述的音频信号处理装置，所述帧的长度被预定。

6.根据权利要求1所述的音频信号处理装置，所述响度信息进一步包括静态响度元数据。

7.根据权利要求6所述的音频信号处理装置，所述静态元数据包括综合响度级、最大样本峰值、响度范围(LRA)、峰响范围(PLR)、专辑综合响度、相对阈值、最小瞬时响度、最大瞬时响度或所述输入音频信号的每帧样本数中的至少一个。

8.一种用于控制响度级的音频信号处理装置，所述音频信号处理装置包括：

处理器，所述处理器用于调整输入音频信号的输出响度级，其中所述处理器被配置为：

接收与所述输入音频信号相对应的响度元数据；

解析所述响度元数据以获取所述输入音频信号的响度信息，其中所述响度信息包括表示用于所述输入音频信号的每个帧的峰值包络的信息；

基于所述响度信息和目标响度级，确定所述输入音频信号的响度增益；

为了防止削波，基于所述响度增益以及用于所述输入音频信号的每个帧的所述峰值包络调整所述输入音频信号的输出响度级。

9.根据权利要求8所述的音频信号处理装置，所述响度信息进一步包括所述输入音频信号的时变响度，

其中，所述处理器进一步被配置为确定所述输入音频信号的时变响度增益。

10.根据权利要求9所述的音频信号处理装置，所述输入音频信号的时变响度是随时间的短期响度级或瞬时响度级。

11.根据权利要求8所述的音频信号处理装置，所述帧的长度被预定。

12.根据权利要求8所述的音频信号处理装置，所述响度信息进一步包括静态响度元数据。

13.根据权利要求12所述的音频信号处理装置，所述静态元数据包括综合响度级、最大样本峰值、响度范围(LRA)、峰响范围(PLR)、专辑综合响度、相对阈值、最小瞬时响度、最大瞬时响度或所述输入音频信号的每帧样本数中的至少一个。

14.根据权利要求8所述的音频信号处理装置，基于包括在帧中的音频信号的最大绝对值来获取用于所述输入音频信号的每个帧的所述峰值包络。

15.根据权利要求8所述的音频信号处理装置，其中，所述处理器被配置为基于所述目标响度级调整应用于每个帧的每个响度增益，使得用于每个帧的所述峰值包络不超过预定值。

16.一种通过音频信号处理装置调整输入音频信号的输出响度级的方法，包括：

接收与所述输入音频信号相对应的响度元数据；

17.根据权利要求16所述的方法，所述响度信息进一步包括所述输入音频信号的时变响度，

其中，基于所述响度信息和目标响度级确定所述输入音频信号的响度增益包括

确定所述输入音频信号的时变响度增益。

18.根据权利要求17所述的方法，所述输入音频信号的时变响度是随时间的短期响度级或瞬时响度级。

19.根据权利要求16所述的方法，所述帧的长度被预定。

20.一种由音频信号处理装置生成用于输入音频信号的响度元数据的方法，包括：

转换所述响度信息以生成所述响度元数据；以及

将所述生成的响度元数据输出到输出装置用于输出所述输入音频信号，其中所述响度信息包括表示用于所述输入音频信号的每个帧的峰值包络的信息。

21.根据权利要求20所述的方法，所述响度信息进一步包括所述音频信号的时变响度。