CN108292506A - 使用视频信息的音频编码 - Google Patents

使用视频信息的音频编码 Download PDF

Info

Publication number
CN108292506A
CN108292506A CN201680070050.4A CN201680070050A CN108292506A CN 108292506 A CN108292506 A CN 108292506A CN 201680070050 A CN201680070050 A CN 201680070050A CN 108292506 A CN108292506 A CN 108292506A
Authority
CN
China
Prior art keywords
audio
audio coder
video
data
coder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680070050.4A
Other languages
English (en)
Other versions
CN108292506B (zh
Inventor
彭谭
兰德尔·布朗
亚西尔·M·克汗
叶建飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATI Technologies ULC
Original Assignee
ATI Technologies ULC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATI Technologies ULC filed Critical ATI Technologies ULC
Publication of CN108292506A publication Critical patent/CN108292506A/zh
Application granted granted Critical
Publication of CN108292506B publication Critical patent/CN108292506B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/179Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scene or a shot
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/87Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving scene cut or scene change detection in combination with video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/802Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving processing of the sound signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8211Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a sound signal
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • G11B2020/00014Time or data compression or expansion the compressed signal being an audio signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

公开各种音频解码器及其使用方法。根据本发明的一个方面,提供一种包括音频编码器(80)和音频编码器模式选择器(60)的装置。所述音频编码器模式选择器可操作以分析视频数据,并且基于所述分析的视频数据来调整所述音频编码器的编码模式。

Description

使用视频信息的音频编码
相关申请的交叉引用
本申请要求于2015年12月1日提交的美国专利申请号14/955,549的优先权,其全部内容特此以引用方式并入本文。
发明背景
1.发明领域
本发明总体涉及视听信号处理,并且更具体地,涉及用于对音频信号进行编码的方法和装置。
2.相关技术描述
记录带声音的动作图片的过程涉及视频图像和声音两者的获取,并且在每种类型的内容的情况下,所述获取涉及采样另外连续的信息流。例如,视频图像通常以每秒24帧的速率采样。音频通常被记录为模拟信号,所述模拟信号接下来以某比特或采样速率采样,以便将模拟电压信号转换成数字数据。模数转换的质量取决于许多因素,诸如以数字形式表示的可能电压电平的数量。虽然也可能简单地记录或以其他方式存储所有音频样本,但是在存储在某种形式的媒体(诸如磁盘或硬盘驱动器等)上之前对采样的音频信号执行某种音频编码通常更有效。
许多当前的音频编码器在将压缩数据发送到回放设备或存储设备之前使用各种技术来压缩采样的音频信号。这些压缩技术的实例包括预测、量化(矢量和标量两者)和霍夫曼(Huffman)编码。许多视听记录在记录的持续过程中涉及视频和音频内容的显著变化。一个场景可能涉及具有的音频内容吵闹和对话很少的嘈杂动作序列,而下一个场景可能涉及具有很少或不具有音乐背景的人物之间的亲密会话,等等。
当前的音频编码器对音频信号进行编码,而并不考虑哪些可能是有价值的视频信息(诸如,场景变化、对话密集型场景的存在等)。因此,当前的音频编码器通常在没有视频信号辅助或端信息的情况下确定模式(即,预测开/关)、比特率分配和量化参数。因此,音频编码器用户无法利用视频信息来改进适用的音频编码器。
雅马哈公司销售YAS-103和YAS-93型号的前置环绕系统(条形音箱)。这些型号使用称为“清晰语音”的功能,旨在提高用户观看视频内容时的语音质量。当启用清晰语音时,条形音箱在将模拟音频信号发送到条形音箱的扬声器之前对其进行调整。这种处理与音频编码不同,因为它是对经过数模转换的模拟信号执行的。
本发明旨在克服或降低前述缺点中的一个或多个的影响。
发明的公开内容
根据本发明的一个方面,提供一种包括音频编码器和音频编码器模式选择器的装置。所述音频编码器模式选择器可操作以分析视频数据,并且基于所述分析的视频数据来调整所述音频编码器的编码模式。
根据本发明的另一个方面,提供一种对音频数据进行编码的方法,所述方法包括用音频编码器对所述音频数据进行编码,并且基于对视频数据的分析来调整所述音频编码器的音频编码模式。
根据本发明的另一个方面,提供一种对音频数据进行编码的方法,所述方法包括用记录设备来记录视频和音频以创建视频数据和音频数据。所述音频数据用音频编码器来编码,并且所述音频编码器的音频编码模式基于对所述视频数据的分析而被调整。
根据本发明的另一个方面,提供一种具有用于执行方法的计算机可读指令的非暂态计算机可读介质。所述方法包括用音频编码器对所述音频数据进行编码,并且基于对视频数据的分析来调整所述音频编码器的音频编码模式。
附图简述
在阅读以下详细描述并且参考附图后,本发明的前述和其他优点将变得明白易懂,在附图中:
图1是包括可控音频编码级的示例性视听系统的示意图;
图2是包括音频编码模式选择级的示例性音频编码器的示意图;
图3是示例性可控音频编码器的示例性半导体芯片实现方式;
图4是示例性基于记录设备的选择性模式音频编码器;并且
图5是示例性音频编码方法的流程图。
实施本发明的模式
公开一种使用从对应视频数据推断的信息来改进音频编码效率和/或质量的机制。视频信息从视频分析器/编码器中继到音频编码器。音频编码器将视频信息与其他决策参数加权,并相应地调整音频编码行为。可用来调整音频编码的视频信息的实例包括场景变化以及视频中人物对话量的增多或减少。现在将描述其它细节。
在以下所描述的附图中,当相同元件出现在一个以上附图中时,附图标号一般会重复。现在转至附图,并且具体地转至图1,其中所描绘的是示例性视听(AV)系统10的示意图,所述示例性视听(AV)系统10能够记录来自多个场景(例如,Scene 1(场景1)、Scene 2等)的视频和音频,然后使用本文所公开的新颖编码方案来处理所记录的视频和音频。包括麦克风20的记录设备(诸如照相机15)可用来记录Scene 1、Scene 2等。照相机的视频输出25可以被传递到视频采样级30,所述视频采样级30可操作以执行众所周知的采样操作,其中视频数据以视频帧35的形式输出。在输出25是模拟输出或可用于采样数字的情况下,此视频采样级30可以执行经典的模数转换。视频帧35被传递到视频编码器40。视频编码器40可以实现为硬件、软件或两者的组合。例如,视频编码器40可以是非暂态计算机可读介质上的指令和数据的形式。视频编码器40可操作以将编码视频45传递到存储设备50或某一其他位置。另外,视频编码器40具有将视频信息55传递到音频编码器模式选择级60的能力,所述音频编码器模式选择级60将被用来控制来自麦克风20的音频信号的处理,如以下更详细描述。
麦克风将输出65传递到音频采样级70,所述音频采样级70可以充当典型的模数采样器。音频采样级70的输出由以音频帧75形式的音频数据组成,所述音频帧75被传送到音频编码器80。音频编码器80可操作以将编码音频85传递到存储设备50或根据需要传递到某个其他位置。如以下将结合其它附图所描述,音频编码器80可操作以接收来自如上所述的音频编码器模式选择级60的控制信号87,所述控制信号87响应于从视频编码器40发送的视频信息55,以便控制音频帧75的编码并最终控制编码音频85的内容。以此方式,音频编码器80可以基于视频信息55来调整音频帧75的编码。例如,Scene 1可以包括自然场景,诸如所描绘的美洲狮90,因此可以包括很少或者不包括对话,而Scene 2可以包括到照相机15的对话较密集的多媒体输入,诸如儿子95与他母亲100之间的会话。视频编码器40可操作以感测这些场景变化和/或例如对话的增多或减少,并且将表示检测出这些变化的视频信息55传递到音频编码器模式选择器60,所述音频编码器模式选择器60随后可以通过控制信号87相应地修改音频编码器80的设置。
设备和级集成的级别可能具有多种可能性。例如,视频编码器、音频编码器模式选择器60和音频编码器80可以全部并入到照相机15中。视频采样级30和音频采样级70也是如此。在其他实施方案中,视频编码器40、音频编码器模式选择器60和音频编码器80可以在独立的设备/软件中实现。在另一个实施方案中,视频编码器40、音频编码器模式选择器60和音频编码器80可以实现为独立的设备/软件。例如,音频编码器80和/或音频编码器模式选择器60可以是非暂态计算机可读介质上的指令和数据的形式。这些仅表示功能集成的几个例子。
应明白,音频编码器80可以具有很多种实现方式。图2表示跟踪众所周知的DTSTM编码器方案的一类音频编码器的示意图。在此说明性实施方案中,音频编码器80可以包括正交镜像滤波器组(QMF组)105。QMF组105可以包括多个频带,示出了其中的两个并且分别标记为Subband 0和Subband n。子频带的数量n可以变化。在示例性实施方案中,QMF组105可以使用32个不同的子频带,并且n=31。可根据需要使用48kHz、24比特采样或其他频率和比特长度来将音频帧75传递到QMF组105。全局比特率模块112可操作以针对子频带Subband0…Subband n选择性地设置信号处理比特率。Subband 0接收来自QMF组105的输出110。Subband 0可以包括压缩管线114,所述压缩管线114包括各级中的一个或多级,以促进被传递到信号封隔器120的编码音频输出115的压缩。例如,Subband 0可以包括自适应预测模块120,所述自适应预测模块120接收QMF组105的输出110,并且将输出125作为输入传递到线性标度量化级130。数字信号处理中的量化涉及将的输入值的大集合映射到(可数的)较小集合,诸如将值舍入成某个精度单位。例如,使用中点型量化的线性标度量化级130的输出可以表示成:
其中sgn(x)是符号函数(也称为正负号函数),并且Δ是量化步长。步长Δ可以响应于控制信号160而改变,通过例如减少或增加分配给线性量化级130的比特数。另外,输出110被传递到矢量量化级135。矢量量化是来自信号处理的量化技术,其允许通过分配原型矢量对概率密度函数进行建模。它的工作方式是:通过将点(矢量)(诸如采样的音频信号)的大集合分成数量与最接近它们的点的数量相同的组。每组由其质心点表示,如在k均值和其他一些聚类算法中那样。矢量量化级135的输出140被连接到输出115。最后,可以使用霍夫曼编码级145来选择性地对线性标度量化级130的输出进行编码,以根据需要将音频数据进一步压缩到输出115。
自适应预测级120与线性标度量化级130和矢量量化级135协同工作。自适应预测级120通过比较预测残差的方差与子频带样本(即,输入110处的样本)的方差来连续计算预测增益。如果预测增益足够大,那么使用线性标度量化级130中的中点水平标量量化对预测残差进行量化,并且预测系数由矢量量化级135进行量化。然而,如果所计算的预测增益不高于某个期望的阈值,那么来自输入端110的子频带样本由线性标度量化级130使用中点水平标量量化来量化。在此说明性实施方案中,视频信息55被传送到音频编码器模式选择器60。音频编码器模式选择器60对预测增益和视频信息55进行加权,并且基于所述比较,提供控制信号160以指示线性标度量化级130使用中点型标量量化来从输入110量化Subband 0采样,而不是用矢量量化级135来量化这些采样。
其他子频带(诸如Subband n)可以类似地接收QMF组105的输出150并且包括压缩管线152,所述压缩管线152可以包括可操作以将输出155传递到封隔器120的自适应预测级120、线性标度量化级130、矢量量化级135和霍夫曼编码级145或这些的一些子集。封隔器120可操作以将编码音频85传递到本文所描述的某些位置。Subband n接收自音频编码器模式选择器60的控制信号165,所述控制信号165指示编码模式(诸如自适应预测级开/关、全局比特率、量化级参数等)。
音频编码器模式选择器60可操作以将控制信号160和165传送到子频带Subband0...Subband n。这些控制信号(在图1中共同标记为87)可以控制由线性标度量化级130使用的各种参数,以根据从视频编码器40传递的视频信息55对各种Subband 0...Subband n进行编码,所述视频信息55基于视频帧35的内容和如上所述的各种场景(Scene 1、Scene 2等)的特征。现在将描述两个实例。
实例#1-使用视频场景变化通知
在视频场景变化期间(比如说从Scene 1到Scene 2),音频帧75可能同时变化,因此使得使用先前的音频帧75作为参考变得低效。如以上背景章节中所述,现有的音频编码器的模式选择不受视频场景变化的影响。然而,在所公开的实施方案中,视频编码器40提供视频信息55以通知音频编码器模式选择器60任何场景变化。在用其他参数进行加权之后,音频编码器模式选择器60可以通过控制信号160和165指示音频编码器80以更高效的模式对音频帧75进行编码,诸如不使用自适应预测级120来执行帧间预测技术(例如,差分脉冲编码调制或线谱对预测)。可由音频编码器模式选择器60改变的其他参数包括音频编码器全局比特率,和/或由线性标度量化级130和矢量量化级135使用的量化参数,以实现更好的编码效率和/或质量。
实例#2-使用对话场景通知
如以上背景章节中所述,现有的音频编码器不使用视频场景的内容(诸如存在人物对话的情况下)来调整音频编码模式。然而,在所公开的实施方案中,视频编码器40提供视频信息55以在检测到对话场景(诸如,在Scene 2中)时通知音频编码器模式选择器60。音频编码器模式选择器60在用其他决定参数对事件进行加权之后,可以通过控制信号160和165指示音频编码器80使用更高比特率进行编码,和/或改变滤波器设置(例如,QMF组105的设置)以增加语音信号的范围而不是提高或降低音频信号的频率。这允许更好地重构音频信号质量和/或效率。
如上所述,根据所公开的实施方案设想到各种级别的设备和编码集成。例如,图3描绘以半导体芯片形式的集成电路200的示意图,或以其他方式在其上或在其中可以实现可操作以传递视频信息55的视频编码器40和音频编码器选择60以及音频编码器80的示意图。这可以作为独立IC或者作为一些较大数字信号处理设备的一部分(诸如编码器/解码器(CODEC)或其他类型的集成电路)来完成。
图4是表示用于视频信息控制音频编码器系统的另一种类型的设备和编码集成的示意图。在这里,记录设备(诸如照相机15)可以包括电路板或包含视频编码器40的其他基板,所述视频编码器40可操作以将视频信息55传递到音频编码器模式选择器60并且最终传送到音频编码器80。
图5是描绘根据所公开实施方案的示例性信号处理方法的示例性流程图。在300处开始之后,在步骤310处将以帧或其他形式的视频内容输入到视频编码器。这可能涉及图1中所示的将视频帧35传递到视频编码器40。此步骤可能与视频帧的实际记录一致,或者在记录过程之后的某个时间通过分立设备来完成。在步骤320处,针对表明特定音频编码模式的特征分析视频帧。步骤320可能涉及寻找场景变化、对话的增多或表明音频编码方案的潜在变化的其他场景标记。如果在步骤330处,视频编码器40检测出表明音频编码变化的条件,那么在步骤340处,将视频信息传送到图1中所描绘的音频编码器模式选择器60。然而,如果在步骤330处,视频编码器40没有检测出表明音频编码变化的特征,那么返回到步骤320以继续分析视频帧。如果在步骤340处将视频信息传送到音频编码器,那么在步骤350处,基于传送的视频信息来选择音频编码器模式。再次地,这可能需要选择自适应预测或者不需要自适应预测或与音频编码器中的数据压缩相关联的一些其他参数。接下来在步骤360处,对音频进行编码,并且最后在步骤370处,将编码音频输出到例如图2中所描绘的封隔器120。
虽然本发明可能会受到各种修改和替代形式的影响,但是具体的实施方案已经以举例方式在附图中示出并且已经在本文中进行了详细描述。然而,应明白,本发明并不意图限于所公开的具体形式。相反地,本发明涵盖落入如以下附加权利要求书限定的本发明的精神和范围内的所有修改、等效物和替代方案。

Claims (23)

1.一种装置,其包括:
音频编码器(80);以及
音频编码器模式选择器(60),所述音频编码器模式选择器可操作以分析视频数据,并且基于所述分析的视频数据来调整所述音频编码器的编码模式。
2.如权利要求1所述的装置,其中所述音频编码器和/或所述音频编码器模式选择器包括具有计算机可读指令的非暂态计算机可读介质。
3.如权利要求1所述的装置,其包括半导体芯片(200),所述半导体芯片(200)包括所述音频编码器和/或所述音频编码器模式选择器。
4.如权利要求1所述的装置,其包括记录设备(15),所述记录设备(15)包括所述音频编码器和/或所述音频编码器模式选择器。
5.如权利要求1所述的装置,其中所述音频编码器模式选择器可操作以针对场景变化或人物对话的变化分析所述视频数据。
6.如权利要求1所述的装置,其中所述音频编码器包括响应于所述音频编码器模式选择器的所述编码模式调整的数据压缩管线。
7.如权利要求6所述的装置,其中所述数据压缩管线包括量化级、预测级或霍夫曼编码级。
8.如权利要求1所述的装置,其包括用于记录视频和音频的记录设备,所述音频编码器和所述音频编码器模式选择器是所述记录设备的一部分。
9.一种对音频数据进行编码的方法,其包括:
用音频编码器(80)对所述音频数据进行编码;以及
基于对视频数据的分析来调整所述音频编码器的音频编码模式。
10.如权利要求9所述的方法,其包括用音频编码器模式选择器(60)来分析所述视频数据,所述音频编码器模式选择器可操作以分析视频数据,并且基于所述分析的视频数据来调整所述音频编码器的编码模式。
11.如权利要求9所述的方法,其中所述音频编码器和/或所述音频编码器模式选择器包括具有计算机可读指令的非暂态计算机可读介质。
12.如权利要求9所述的方法,其中所述音频编码器和/或所述音频编码器模式选择器包括半导体芯片(200)的部分。
13.如权利要求9所述的方法,其中所述音频编码器和/或所述音频编码器模式选择器包括记录设备(15)的部分。
14.如权利要求9所述的方法,其中对所述视频数据的所述分析包括识别场景变化或人物对话的变化。
15.如权利要求9所述的方法,其中所述音频编码器包括响应于所述音频编码器模式选择器的所述编码模式调整的数据压缩管线。
16.如权利要求15所述的方法,其中所述数据压缩管线包括量化级、预测级或霍夫曼编码级。
17.一种对音频数据进行编码的方法,其包括:
用记录设备(15)来记录视频和音频以创建视频数据和音频数据;
用音频编码器(80)对所述音频数据进行编码;以及
基于对所述视频数据的分析来调整所述音频编码器的音频编码模式。
18.如权利要求17所述的方法,其包括用音频编码器模式选择器(60)来分析所述视频数据,所述音频编码器模式选择器可操作以分析视频数据,并且基于所述分析的视频数据来调整所述音频编码器的编码模式。
19.如权利要求17所述的方法,其中所述音频编码器和/或所述音频编码器模式选择器包括具有计算机可读指令的非暂态计算机可读介质。
20.如权利要求17所述的方法,其中所述音频编码器和/或所述音频编码器模式选择器包括半导体芯片(200)的部分。
21.如权利要求17所述的方法,其中所述音频编码器和/或所述音频编码器模式选择器包括记录设备(15)的部分。
22.如权利要求17所述的方法,其中对所述视频数据的所述分析包括识别场景变化或人对话的变化。
23.一种具有用于执行方法的计算机可读指令的非暂态计算机可读介质,所述方法包括:
用音频编码器(80)对所述音频数据进行编码;并且
基于对视频数据的分析来调整所述音频编码器的音频编码模式。
CN201680070050.4A 2015-12-01 2016-10-21 使用视频信息的音频编码 Active CN108292506B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/955,549 US10762911B2 (en) 2015-12-01 2015-12-01 Audio encoding using video information
US14/955,549 2015-12-01
PCT/CA2016/051220 WO2017091887A1 (en) 2015-12-01 2016-10-21 Audio encoding using video information

Publications (2)

Publication Number Publication Date
CN108292506A true CN108292506A (zh) 2018-07-17
CN108292506B CN108292506B (zh) 2023-10-31

Family

ID=58777722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680070050.4A Active CN108292506B (zh) 2015-12-01 2016-10-21 使用视频信息的音频编码

Country Status (6)

Country Link
US (1) US10762911B2 (zh)
EP (1) EP3384491B1 (zh)
JP (1) JP6856644B2 (zh)
KR (1) KR102419514B1 (zh)
CN (1) CN108292506B (zh)
WO (1) WO2017091887A1 (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008020931A (ja) * 1999-06-21 2008-01-31 Dts Inc デコーダの互換性を失わない確立済み低ビット・レートのオーディオ・コード化システムの音質の改善
US20080152310A1 (en) * 2006-12-20 2008-06-26 Eiji Miyagoshi Audio/video stream compressor and audio/video recorder
TW200908746A (en) * 2007-08-09 2009-02-16 Inventec Appliances Corp Dynamic multimedia coding method for of cell phone
JP2009098510A (ja) * 2007-10-18 2009-05-07 Sanyo Electric Co Ltd 音声記録装置
US8311120B2 (en) * 2006-12-22 2012-11-13 Qualcomm Incorporated Coding mode selection using information of other coding modes
US20140233917A1 (en) * 2013-02-15 2014-08-21 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data
CN104904212A (zh) * 2012-12-12 2015-09-09 法国布雷维茨公司 对传输至设备的音频和/或视频流的编码进行动态调整的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07202820A (ja) 1993-12-28 1995-08-04 Matsushita Electric Ind Co Ltd ビットレート制御システム
KR20040103158A (ko) * 2003-05-31 2004-12-08 주식회사 대우일렉트로닉스 돌비 프로로직 오디오 신호 출력 장치
US8036903B2 (en) * 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
US8780978B2 (en) 2009-11-04 2014-07-15 Qualcomm Incorporated Controlling video encoding using audio information
US9800905B2 (en) * 2015-09-14 2017-10-24 Comcast Cable Communications, Llc Device based audio-format selection

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008020931A (ja) * 1999-06-21 2008-01-31 Dts Inc デコーダの互換性を失わない確立済み低ビット・レートのオーディオ・コード化システムの音質の改善
US20080152310A1 (en) * 2006-12-20 2008-06-26 Eiji Miyagoshi Audio/video stream compressor and audio/video recorder
US8311120B2 (en) * 2006-12-22 2012-11-13 Qualcomm Incorporated Coding mode selection using information of other coding modes
TW200908746A (en) * 2007-08-09 2009-02-16 Inventec Appliances Corp Dynamic multimedia coding method for of cell phone
JP2009098510A (ja) * 2007-10-18 2009-05-07 Sanyo Electric Co Ltd 音声記録装置
CN104904212A (zh) * 2012-12-12 2015-09-09 法国布雷维茨公司 对传输至设备的音频和/或视频流的编码进行动态调整的方法
US20140233917A1 (en) * 2013-02-15 2014-08-21 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data

Also Published As

Publication number Publication date
US10762911B2 (en) 2020-09-01
WO2017091887A1 (en) 2017-06-08
EP3384491A1 (en) 2018-10-10
KR20180088807A (ko) 2018-08-07
EP3384491A4 (en) 2019-04-10
US20170154634A1 (en) 2017-06-01
CN108292506B (zh) 2023-10-31
JP2019504340A (ja) 2019-02-14
JP6856644B2 (ja) 2021-04-07
KR102419514B1 (ko) 2022-07-11
EP3384491B1 (en) 2023-06-21

Similar Documents

Publication Publication Date Title
RU2455709C2 (ru) Способ и устройство для обработки аудиосигнала
US7774205B2 (en) Coding of sparse digital media spectral data
US7974840B2 (en) Method and apparatus for encoding/decoding MPEG-4 BSAC audio bitstream having ancillary information
CA2833868C (en) Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor
CN1878001B (zh) 对音频数据编码及解码的设备及方法
AU2003294528A1 (en) Method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding
KR101116363B1 (ko) 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치
USRE46082E1 (en) Method and apparatus for low bit rate encoding and decoding
WO2008046492A1 (en) Apparatus and method for encoding an information signal
US20050091066A1 (en) Classification of speech and music using zero crossing
CN102576534A (zh) 音频解码器、音频编码器、系统
US20100114566A1 (en) Method and apparatus for encoding/decoding speech signal
CN114097028A (zh) 用于编解码音频流中的元数据及用于灵活对象内和对象间比特率适配的方法和系统
CN106256001B (zh) 信号分类方法和装置以及使用其的音频编码方法和装置
CN110235197A (zh) 立体声音频信号编码器
JP7477247B2 (ja) ステレオ信号符号化方法および装置、ならびにステレオ信号復号方法および装置
CN108292506A (zh) 使用视频信息的音频编码
CN105122358B (zh) 用于处理编码信号的装置和方法与用于产生编码信号的编码器和方法
EP2680259A1 (en) Method and apparatus for watermarking an AC-3 encoded bit stream
CA2511516A1 (en) Method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant