CN108292506A

CN108292506A - 使用视频信息的音频编码

Info

Publication number: CN108292506A
Application number: CN201680070050.4A
Authority: CN
Inventors: 彭谭; 兰德尔·布朗; 亚西尔·M·克汗; 叶建飞
Original assignee: ATI Technologies ULC
Current assignee: ATI Technologies ULC
Priority date: 2015-12-01
Filing date: 2016-10-21
Publication date: 2018-07-17
Anticipated expiration: 2036-10-21
Also published as: US10762911B2; WO2017091887A1; EP3384491A1; KR20180088807A; EP3384491A4; US20170154634A1; CN108292506B; JP2019504340A; JP6856644B2; KR102419514B1; EP3384491B1

Abstract

公开各种音频解码器及其使用方法。根据本发明的一个方面，提供一种包括音频编码器(80)和音频编码器模式选择器(60)的装置。所述音频编码器模式选择器可操作以分析视频数据，并且基于所述分析的视频数据来调整所述音频编码器的编码模式。

Description

使用视频信息的音频编码

相关申请的交叉引用

本申请要求于2015年12月1日提交的美国专利申请号14/955,549的优先权，其全部内容特此以引用方式并入本文。

发明背景

1.发明领域

本发明总体涉及视听信号处理，并且更具体地，涉及用于对音频信号进行编码的方法和装置。

2.相关技术描述

记录带声音的动作图片的过程涉及视频图像和声音两者的获取，并且在每种类型的内容的情况下，所述获取涉及采样另外连续的信息流。例如，视频图像通常以每秒24帧的速率采样。音频通常被记录为模拟信号，所述模拟信号接下来以某比特或采样速率采样，以便将模拟电压信号转换成数字数据。模数转换的质量取决于许多因素，诸如以数字形式表示的可能电压电平的数量。虽然也可能简单地记录或以其他方式存储所有音频样本，但是在存储在某种形式的媒体(诸如磁盘或硬盘驱动器等)上之前对采样的音频信号执行某种音频编码通常更有效。

许多当前的音频编码器在将压缩数据发送到回放设备或存储设备之前使用各种技术来压缩采样的音频信号。这些压缩技术的实例包括预测、量化(矢量和标量两者)和霍夫曼(Huffman)编码。许多视听记录在记录的持续过程中涉及视频和音频内容的显著变化。一个场景可能涉及具有的音频内容吵闹和对话很少的嘈杂动作序列，而下一个场景可能涉及具有很少或不具有音乐背景的人物之间的亲密会话，等等。

当前的音频编码器对音频信号进行编码，而并不考虑哪些可能是有价值的视频信息(诸如，场景变化、对话密集型场景的存在等)。因此，当前的音频编码器通常在没有视频信号辅助或端信息的情况下确定模式(即，预测开/关)、比特率分配和量化参数。因此，音频编码器用户无法利用视频信息来改进适用的音频编码器。

雅马哈公司销售YAS-103和YAS-93型号的前置环绕系统(条形音箱)。这些型号使用称为“清晰语音”的功能，旨在提高用户观看视频内容时的语音质量。当启用清晰语音时，条形音箱在将模拟音频信号发送到条形音箱的扬声器之前对其进行调整。这种处理与音频编码不同，因为它是对经过数模转换的模拟信号执行的。

本发明旨在克服或降低前述缺点中的一个或多个的影响。

发明的公开内容

根据本发明的一个方面，提供一种包括音频编码器和音频编码器模式选择器的装置。所述音频编码器模式选择器可操作以分析视频数据，并且基于所述分析的视频数据来调整所述音频编码器的编码模式。

根据本发明的另一个方面，提供一种对音频数据进行编码的方法，所述方法包括用音频编码器对所述音频数据进行编码，并且基于对视频数据的分析来调整所述音频编码器的音频编码模式。

根据本发明的另一个方面，提供一种对音频数据进行编码的方法，所述方法包括用记录设备来记录视频和音频以创建视频数据和音频数据。所述音频数据用音频编码器来编码，并且所述音频编码器的音频编码模式基于对所述视频数据的分析而被调整。

根据本发明的另一个方面，提供一种具有用于执行方法的计算机可读指令的非暂态计算机可读介质。所述方法包括用音频编码器对所述音频数据进行编码，并且基于对视频数据的分析来调整所述音频编码器的音频编码模式。

附图简述

在阅读以下详细描述并且参考附图后，本发明的前述和其他优点将变得明白易懂，在附图中：

图1是包括可控音频编码级的示例性视听系统的示意图；

图2是包括音频编码模式选择级的示例性音频编码器的示意图；

图3是示例性可控音频编码器的示例性半导体芯片实现方式；

图4是示例性基于记录设备的选择性模式音频编码器；并且

图5是示例性音频编码方法的流程图。

实施本发明的模式

公开一种使用从对应视频数据推断的信息来改进音频编码效率和/或质量的机制。视频信息从视频分析器/编码器中继到音频编码器。音频编码器将视频信息与其他决策参数加权，并相应地调整音频编码行为。可用来调整音频编码的视频信息的实例包括场景变化以及视频中人物对话量的增多或减少。现在将描述其它细节。

在以下所描述的附图中，当相同元件出现在一个以上附图中时，附图标号一般会重复。现在转至附图，并且具体地转至图1，其中所描绘的是示例性视听(AV)系统10的示意图，所述示例性视听(AV)系统10能够记录来自多个场景(例如，Scene 1(场景1)、Scene 2等)的视频和音频，然后使用本文所公开的新颖编码方案来处理所记录的视频和音频。包括麦克风20的记录设备(诸如照相机15)可用来记录Scene 1、Scene 2等。照相机的视频输出25可以被传递到视频采样级30，所述视频采样级30可操作以执行众所周知的采样操作，其中视频数据以视频帧35的形式输出。在输出25是模拟输出或可用于采样数字的情况下，此视频采样级30可以执行经典的模数转换。视频帧35被传递到视频编码器40。视频编码器40可以实现为硬件、软件或两者的组合。例如，视频编码器40可以是非暂态计算机可读介质上的指令和数据的形式。视频编码器40可操作以将编码视频45传递到存储设备50或某一其他位置。另外，视频编码器40具有将视频信息55传递到音频编码器模式选择级60的能力，所述音频编码器模式选择级60将被用来控制来自麦克风20的音频信号的处理，如以下更详细描述。

麦克风将输出65传递到音频采样级70，所述音频采样级70可以充当典型的模数采样器。音频采样级70的输出由以音频帧75形式的音频数据组成，所述音频帧75被传送到音频编码器80。音频编码器80可操作以将编码音频85传递到存储设备50或根据需要传递到某个其他位置。如以下将结合其它附图所描述，音频编码器80可操作以接收来自如上所述的音频编码器模式选择级60的控制信号87，所述控制信号87响应于从视频编码器40发送的视频信息55，以便控制音频帧75的编码并最终控制编码音频85的内容。以此方式，音频编码器80可以基于视频信息55来调整音频帧75的编码。例如，Scene 1可以包括自然场景，诸如所描绘的美洲狮90，因此可以包括很少或者不包括对话，而Scene 2可以包括到照相机15的对话较密集的多媒体输入，诸如儿子95与他母亲100之间的会话。视频编码器40可操作以感测这些场景变化和/或例如对话的增多或减少，并且将表示检测出这些变化的视频信息55传递到音频编码器模式选择器60，所述音频编码器模式选择器60随后可以通过控制信号87相应地修改音频编码器80的设置。

设备和级集成的级别可能具有多种可能性。例如，视频编码器、音频编码器模式选择器60和音频编码器80可以全部并入到照相机15中。视频采样级30和音频采样级70也是如此。在其他实施方案中，视频编码器40、音频编码器模式选择器60和音频编码器80可以在独立的设备/软件中实现。在另一个实施方案中，视频编码器40、音频编码器模式选择器60和音频编码器80可以实现为独立的设备/软件。例如，音频编码器80和/或音频编码器模式选择器60可以是非暂态计算机可读介质上的指令和数据的形式。这些仅表示功能集成的几个例子。

应明白，音频编码器80可以具有很多种实现方式。图2表示跟踪众所周知的DTS^TM编码器方案的一类音频编码器的示意图。在此说明性实施方案中，音频编码器80可以包括正交镜像滤波器组(QMF组)105。QMF组105可以包括多个频带，示出了其中的两个并且分别标记为Subband 0和Subband n。子频带的数量n可以变化。在示例性实施方案中，QMF组105可以使用32个不同的子频带，并且n＝31。可根据需要使用48kHz、24比特采样或其他频率和比特长度来将音频帧75传递到QMF组105。全局比特率模块112可操作以针对子频带Subband0…Subband n选择性地设置信号处理比特率。Subband 0接收来自QMF组105的输出110。Subband 0可以包括压缩管线114，所述压缩管线114包括各级中的一个或多级，以促进被传递到信号封隔器120的编码音频输出115的压缩。例如，Subband 0可以包括自适应预测模块120，所述自适应预测模块120接收QMF组105的输出110，并且将输出125作为输入传递到线性标度量化级130。数字信号处理中的量化涉及将的输入值的大集合映射到(可数的)较小集合，诸如将值舍入成某个精度单位。例如，使用中点型量化的线性标度量化级130的输出可以表示成：

其中sgn(x)是符号函数(也称为正负号函数)，并且Δ是量化步长。步长Δ可以响应于控制信号160而改变，通过例如减少或增加分配给线性量化级130的比特数。另外，输出110被传递到矢量量化级135。矢量量化是来自信号处理的量化技术，其允许通过分配原型矢量对概率密度函数进行建模。它的工作方式是：通过将点(矢量)(诸如采样的音频信号)的大集合分成数量与最接近它们的点的数量相同的组。每组由其质心点表示，如在k均值和其他一些聚类算法中那样。矢量量化级135的输出140被连接到输出115。最后，可以使用霍夫曼编码级145来选择性地对线性标度量化级130的输出进行编码，以根据需要将音频数据进一步压缩到输出115。

自适应预测级120与线性标度量化级130和矢量量化级135协同工作。自适应预测级120通过比较预测残差的方差与子频带样本(即，输入110处的样本)的方差来连续计算预测增益。如果预测增益足够大，那么使用线性标度量化级130中的中点水平标量量化对预测残差进行量化，并且预测系数由矢量量化级135进行量化。然而，如果所计算的预测增益不高于某个期望的阈值，那么来自输入端110的子频带样本由线性标度量化级130使用中点水平标量量化来量化。在此说明性实施方案中，视频信息55被传送到音频编码器模式选择器60。音频编码器模式选择器60对预测增益和视频信息55进行加权，并且基于所述比较，提供控制信号160以指示线性标度量化级130使用中点型标量量化来从输入110量化Subband 0采样，而不是用矢量量化级135来量化这些采样。

其他子频带(诸如Subband n)可以类似地接收QMF组105的输出150并且包括压缩管线152，所述压缩管线152可以包括可操作以将输出155传递到封隔器120的自适应预测级120、线性标度量化级130、矢量量化级135和霍夫曼编码级145或这些的一些子集。封隔器120可操作以将编码音频85传递到本文所描述的某些位置。Subband n接收自音频编码器模式选择器60的控制信号165，所述控制信号165指示编码模式(诸如自适应预测级开/关、全局比特率、量化级参数等)。

音频编码器模式选择器60可操作以将控制信号160和165传送到子频带Subband0...Subband n。这些控制信号(在图1中共同标记为87)可以控制由线性标度量化级130使用的各种参数，以根据从视频编码器40传递的视频信息55对各种Subband 0...Subband n进行编码，所述视频信息55基于视频帧35的内容和如上所述的各种场景(Scene 1、Scene 2等)的特征。现在将描述两个实例。

实例#1-使用视频场景变化通知

在视频场景变化期间(比如说从Scene 1到Scene 2)，音频帧75可能同时变化，因此使得使用先前的音频帧75作为参考变得低效。如以上背景章节中所述，现有的音频编码器的模式选择不受视频场景变化的影响。然而，在所公开的实施方案中，视频编码器40提供视频信息55以通知音频编码器模式选择器60任何场景变化。在用其他参数进行加权之后，音频编码器模式选择器60可以通过控制信号160和165指示音频编码器80以更高效的模式对音频帧75进行编码，诸如不使用自适应预测级120来执行帧间预测技术(例如，差分脉冲编码调制或线谱对预测)。可由音频编码器模式选择器60改变的其他参数包括音频编码器全局比特率，和/或由线性标度量化级130和矢量量化级135使用的量化参数，以实现更好的编码效率和/或质量。

实例#2-使用对话场景通知

如以上背景章节中所述，现有的音频编码器不使用视频场景的内容(诸如存在人物对话的情况下)来调整音频编码模式。然而，在所公开的实施方案中，视频编码器40提供视频信息55以在检测到对话场景(诸如，在Scene 2中)时通知音频编码器模式选择器60。音频编码器模式选择器60在用其他决定参数对事件进行加权之后，可以通过控制信号160和165指示音频编码器80使用更高比特率进行编码，和/或改变滤波器设置(例如，QMF组105的设置)以增加语音信号的范围而不是提高或降低音频信号的频率。这允许更好地重构音频信号质量和/或效率。

如上所述，根据所公开的实施方案设想到各种级别的设备和编码集成。例如，图3描绘以半导体芯片形式的集成电路200的示意图，或以其他方式在其上或在其中可以实现可操作以传递视频信息55的视频编码器40和音频编码器选择60以及音频编码器80的示意图。这可以作为独立IC或者作为一些较大数字信号处理设备的一部分(诸如编码器/解码器(CODEC)或其他类型的集成电路)来完成。

图4是表示用于视频信息控制音频编码器系统的另一种类型的设备和编码集成的示意图。在这里，记录设备(诸如照相机15)可以包括电路板或包含视频编码器40的其他基板，所述视频编码器40可操作以将视频信息55传递到音频编码器模式选择器60并且最终传送到音频编码器80。

图5是描绘根据所公开实施方案的示例性信号处理方法的示例性流程图。在300处开始之后，在步骤310处将以帧或其他形式的视频内容输入到视频编码器。这可能涉及图1中所示的将视频帧35传递到视频编码器40。此步骤可能与视频帧的实际记录一致，或者在记录过程之后的某个时间通过分立设备来完成。在步骤320处，针对表明特定音频编码模式的特征分析视频帧。步骤320可能涉及寻找场景变化、对话的增多或表明音频编码方案的潜在变化的其他场景标记。如果在步骤330处，视频编码器40检测出表明音频编码变化的条件，那么在步骤340处，将视频信息传送到图1中所描绘的音频编码器模式选择器60。然而，如果在步骤330处，视频编码器40没有检测出表明音频编码变化的特征，那么返回到步骤320以继续分析视频帧。如果在步骤340处将视频信息传送到音频编码器，那么在步骤350处，基于传送的视频信息来选择音频编码器模式。再次地，这可能需要选择自适应预测或者不需要自适应预测或与音频编码器中的数据压缩相关联的一些其他参数。接下来在步骤360处，对音频进行编码，并且最后在步骤370处，将编码音频输出到例如图2中所描绘的封隔器120。

虽然本发明可能会受到各种修改和替代形式的影响，但是具体的实施方案已经以举例方式在附图中示出并且已经在本文中进行了详细描述。然而，应明白，本发明并不意图限于所公开的具体形式。相反地，本发明涵盖落入如以下附加权利要求书限定的本发明的精神和范围内的所有修改、等效物和替代方案。

Claims

1.一种装置，其包括：

音频编码器(80)；以及

音频编码器模式选择器(60)，所述音频编码器模式选择器可操作以分析视频数据，并且基于所述分析的视频数据来调整所述音频编码器的编码模式。

2.如权利要求1所述的装置，其中所述音频编码器和/或所述音频编码器模式选择器包括具有计算机可读指令的非暂态计算机可读介质。

3.如权利要求1所述的装置，其包括半导体芯片(200)，所述半导体芯片(200)包括所述音频编码器和/或所述音频编码器模式选择器。

4.如权利要求1所述的装置，其包括记录设备(15)，所述记录设备(15)包括所述音频编码器和/或所述音频编码器模式选择器。

5.如权利要求1所述的装置，其中所述音频编码器模式选择器可操作以针对场景变化或人物对话的变化分析所述视频数据。

6.如权利要求1所述的装置，其中所述音频编码器包括响应于所述音频编码器模式选择器的所述编码模式调整的数据压缩管线。

7.如权利要求6所述的装置，其中所述数据压缩管线包括量化级、预测级或霍夫曼编码级。

8.如权利要求1所述的装置，其包括用于记录视频和音频的记录设备，所述音频编码器和所述音频编码器模式选择器是所述记录设备的一部分。

9.一种对音频数据进行编码的方法，其包括：

用音频编码器(80)对所述音频数据进行编码；以及

基于对视频数据的分析来调整所述音频编码器的音频编码模式。

10.如权利要求9所述的方法，其包括用音频编码器模式选择器(60)来分析所述视频数据，所述音频编码器模式选择器可操作以分析视频数据，并且基于所述分析的视频数据来调整所述音频编码器的编码模式。

11.如权利要求9所述的方法，其中所述音频编码器和/或所述音频编码器模式选择器包括具有计算机可读指令的非暂态计算机可读介质。

12.如权利要求9所述的方法，其中所述音频编码器和/或所述音频编码器模式选择器包括半导体芯片(200)的部分。

13.如权利要求9所述的方法，其中所述音频编码器和/或所述音频编码器模式选择器包括记录设备(15)的部分。

14.如权利要求9所述的方法，其中对所述视频数据的所述分析包括识别场景变化或人物对话的变化。

15.如权利要求9所述的方法，其中所述音频编码器包括响应于所述音频编码器模式选择器的所述编码模式调整的数据压缩管线。

16.如权利要求15所述的方法，其中所述数据压缩管线包括量化级、预测级或霍夫曼编码级。

17.一种对音频数据进行编码的方法，其包括：

用记录设备(15)来记录视频和音频以创建视频数据和音频数据；

用音频编码器(80)对所述音频数据进行编码；以及

基于对所述视频数据的分析来调整所述音频编码器的音频编码模式。

18.如权利要求17所述的方法，其包括用音频编码器模式选择器(60)来分析所述视频数据，所述音频编码器模式选择器可操作以分析视频数据，并且基于所述分析的视频数据来调整所述音频编码器的编码模式。

19.如权利要求17所述的方法，其中所述音频编码器和/或所述音频编码器模式选择器包括具有计算机可读指令的非暂态计算机可读介质。

20.如权利要求17所述的方法，其中所述音频编码器和/或所述音频编码器模式选择器包括半导体芯片(200)的部分。

21.如权利要求17所述的方法，其中所述音频编码器和/或所述音频编码器模式选择器包括记录设备(15)的部分。

22.如权利要求17所述的方法，其中对所述视频数据的所述分析包括识别场景变化或人对话的变化。

23.一种具有用于执行方法的计算机可读指令的非暂态计算机可读介质，所述方法包括：

用音频编码器(80)对所述音频数据进行编码；并且