CN1679082A - 控制包含语音和其它类型音频素材的信号中的语音响度 - Google Patents

控制包含语音和其它类型音频素材的信号中的语音响度 Download PDF

Info

Publication number
CN1679082A
CN1679082A CN03819918.1A CN03819918A CN1679082A CN 1679082 A CN1679082 A CN 1679082A CN 03819918 A CN03819918 A CN 03819918A CN 1679082 A CN1679082 A CN 1679082A
Authority
CN
China
Prior art keywords
loudness
audio
frequency information
voice
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN03819918.1A
Other languages
English (en)
Other versions
CN100371986C (zh
Inventor
马克·S.·温登
查尔斯·Q.·鲁宾逊
肯尼思·J.·刚德瑞
史蒂文·J.·维尼兹尔
杰弗里·C.·瑞德米勒尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN1679082A publication Critical patent/CN1679082A/zh
Application granted granted Critical
Publication of CN100371986C publication Critical patent/CN100371986C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Diaphragms For Electromechanical Transducers (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

通过将音频信息各段分类为语音或非语音来获得包含语音和其它类型音频素材的音频信号的响度指示。估计语音段的响度并且该估计用于导出响度指示。响度指示可以用于控制音频信号电平以减少不同节目之间的语音响度的变化。公开了分类语音段的一种优选方法。

Description

控制包含语音和其它类型 音频素材的信号中的语音响度
技术领域
本发明涉及与度量和控制包含语音和其它类型音频素材的音频信号中的语音响度有关的音频系统和方法。
背景技术
当听收音机或电视广播时,听者经常选择音量控制设置以获得满意的语音响度。所需的音量控制设置受到多种因素的影响,如收听环境中的背景噪声,再现系统的频率响应以及个人喜好等。在选择了音量控制设置之后,听者通常希望不管其它节目素材如音乐或声音效果存在与否,语音的响度都保持相对恒定。
当节目发生变化或者选择了其它频道时,新节目中的语音响度通常是不同的,需要调整音量控制设置以恢复所需的响度。若有的话,在通过模拟广播技术传送的节目中该设置通常仅仅需要适度的变化以调整语音响度,这是因为大多数模拟广播传送节目的语音都接近通过模拟广播系统可能传送的最大允许电平。这通常通过压缩音频节目素材的动态范围来提高相对于广播系统各个组件引入的噪声的语音信号电平。即便如此,对于不同频道接收的节目以及对于相同频道接收的不同类型的节目如商业通告或“广告”和它们打断的节目,在语音响度方面仍然存在着不希望有的差别。
因为数字广播可能以足够的信噪比传送信号而不压缩动态范围,不设置语音电平为接近最大的允许电平,所以数字广播技术的引入可能使该问题恶化。结果,在相同频道的不同节目之间和不同频道节目之间的语音响度很有可能存在大得多的差别。例如,已经发现在由模拟和数字电视频道接收的节目之间语音电平的差别有时会超过20dB。
可以减少响度差别的一个方法是所有的数字广播将语音电平设置为一个正好低于最大电平的标准响度,这将为宽动态范围素材提供足够的峰值储备以避免压缩或限幅的需要。不幸的是,该解决方法需要改变广播实际,是不可能发生的。
通过在美国为数字电视广播采用的AC-3音频编码技术提供了另一种解决方法。遵守AC-3标准的数字广播将元数据与编码的音频数据一起传送。元数据包括已知为“调节规格(dialnorm)”的控制信息,该信息可以在接收机端用于调整信号电平以提供一致的或规格化的语音响度。换句话说,调节规格信息允许接收机自动完成否则是听者必须做的工作,适当为每个节目或频道调整音量。听者为一个特定的节目调整音量控制设置以获得所需的语音响度水平,而尽管在不同节目或频道之间存在其他方面的差别,接收机使用调节规格信息以保证维持所需的水平。可以从高级电视系统委员会(ATSC)2001年8月20日出版的标题为“Revision A to Digital Audio Compression(AC-3)Standard”的A/52A文件和ATSC 1995年10月4日出版的标题为“Guide to Use of the ATSC Digital Television Standard”A/54文件获得描述调节规格信息使用的附加信息。
调节规格的适当值对于生成AC-3适应编码信号的编码系统部分必须是可用的。编码处理需要一个衡量或估计特定节目的语音响度的方法,以确定可以用于保持来自接收机的该节目语音响度的调节规格的值。
估计语音响度的方法有许多种。国际电工技术委员会(IEC)出版的标题为“Integrating-averaging sound level meters”的标准IEC60804(2000-10)描述了一个基于频率加权和时间平均声压级的度量。国际标准化组织出版的标题为“Method for calculating loudness level”的ISO标准532:1975描述了从计算的频率子带功率水平的组合中获得响度度量的方法。可以用于估计响度的心理声学模型的示例参见Moore,Glasberg和Baer的文章“A model for prediction of thresholds,loudness and partial loudness”,J.Audio Eng.Soc.,vol.45,no.4,April 1997,和Glasberg与Moore的文章“A model of loudnessapplicable to time-varying sounds”,J.Audio Eng.Soc.,vol.50,no.5,May 2002。
不幸的是,没有应用这些及其它已知技术的便利的途径。例如,在广播应用中广播者必须选择音频素材的一个片段,衡量或估计该选择片段的语音响度并把该度量传递给将调节规格信息插入AC-3适应数字数据流的设备。选择的片段必须包含代表性的语音而不包含会使响度度量失真的其他类型的音频素材。因为节目中包含特意比语音更响或更低音的其他成分,所以度量一个音频节目的整个响度一般是不可接受的。通常需要比推荐的语音电平响得多的音乐和声音效果。而对于背景声音效果如风、遥远的交通或静静流淌的水就不需要和语音一样的响度,这也是显而易见的。
发明人已经意识到确定音频信号是否包含语音的技术可以用于改进调节规格信息的适当值的创建。可以采用多种语音检测技术的任何一种。下面几种技术的说明参见引用的参考文献。
1981年7月28日发布的美国专利4281218说明的技术通过提取一个或多个语音特征如短时功率来划分信号是语音还是非语音。该划分用于为语音或非语音选择适当的信号处理方法。
1992年3月17日发布的美国专利5097510说明的技术分析输入信号幅度包络的变化。快速的变化被认为是语音并从信号中滤掉,将剩余部分划分为四种噪声类型的一种,该划分用于选择对输入信号消噪滤波的不同类型。
1995年10月10日发布的美国专利5457769说明的技术检测语音以操作语音控制开关。通过辨别信号中的频率分量相互之间的间隔大约为150Hz来检测语音,该条件指示信号可能传送语音共振峰。
1999年10月14日出版的EP专利申请公报0737011和1999年3月2日发布的美国专利5878391说明的技术生成表示音频信号是语音信号的概率的信号。该概率是通过提取一个或多个信号特征来导出的,如不同频谱部分之间功率比值的变化。这些参考文献指出如果推导中采用更多的特征可以提高导出概率的可靠性。
2000年5月9日发布的美国专利6061647说明了一种检测语音的技术,该技术通过存储没有语音的噪声模型,将输入信号与该模型相比较来确定是否存在语音,并使用辅助探测器来决定什么时候输入信号可以用于噪声模型的更新。
1998年6月25日出版的国际专利申请公报WO 98/27543说明了一种从音乐中辨别语音的技术。该技术通过从输入信号中提取一系列特征并对每个特征使用几种分类技术中的一个。最佳的特征序列及适用于每个特征的分类技术是通过经验确定的。
这些参考文献中说明的技术和所有其它已知的语音检测技术都试图检测语音或将音频信号分类,以便可以用一种不同于用来处理或控制非语音信号的方法处理或控制语音。
1998年10月6日发布的美国专利5819247说明的技术构造一个用于分类装置的假设,如光学字符识别设备。从实例中构造弱的假设然后进行估计,通过一个迭代的过程为弱的假设构造一个更强的假设。虽然没有提及语音检测,但发明人已经意识到该技术可以用于改进已知的语音检测技术。
发明内容
提供包含语音和其它类型音频素材的信号中的语音响度控制是本发明的一个目的。
根据本发明,信号的处理是通过接收输入信号并从输入信号中获得代表音频信号片段的音频信息,检查该音频信息以划分音频信息段是属于语音段还是非语音段,检查该音频信息以获得语音段的估计响度,并通过生成比对于非语音段代表的音频信号部分的响度更响应于语音段估计响度的控制信息来提供该音频信号片段的响度指示。
响度指示可以用于控制音频信号的响度以减少语音段响度的变化。当该语音段代表的音频信号部分的响度增加时,由非语音段代表的音频信号部分的响度随之增加。
通过参考下面的说明和附图,可以更好的理解本发明的各个特征及其最佳实施例,附图的几个图中相同的参考编号是指相同的单元。下面说明的内容仅仅作为实施例列出且不能理解为对本发明范畴的限定。
附图简述
图1是可包含本发明各个方面的音频系统的示意框图。
图2是可以用于控制包含语音和其它类型音频素材的音频信号响度的装置示意框图。
图3是可以用于生成和发送代表音频信号的音频信息和代表语音响度的控制信息的装置示意框图。
图4是可以用于提供包含语音和其它类型音频素材的音频信号中语音响度指示的装置示意框图。
图5是可以用于分类音频信息段的装置示意框图。
图6是可以用于实施本发明的各个方面的装置示意框图。
具体实施方式
A.系统概述
图1是一个音频系统的示意框图,其中发射机2接收来自路径1的音频信号,处理该音频信号以生成代表音频信号的音频信息,然后沿路径3发送音频信息。路径3可以代表一个传送即时应用的音频信息的通信路径,或者可以代表一个与存储媒体相匹配的信号路径,该媒体存储音频信息以用于后续的检索和应用。接收机4接收来自路径3的音频信息,处理该音频信息以生成音频信号,并将该音频信号沿路径5发送给收听者。
图1所示的系统包含一个单独的发射机和接收机,但本发明可以应用于包含多个发射机和/或多个接收机的系统。本发明的各个方面可以仅仅在发射机2,仅仅在接收机4,或者在发射机2和接收机4实施。
在一个实施例中,发射机2执行的处理是将音频信号编码为比音频信号信息容量需求更低的编码音频信息,使得音频信息可以在更低带宽的信道中传输或存储于更少空间的媒体中。解码器4执行的处理是将编码音频信息解码为可以用于生成感知上与输入音频信号类似或相同的更适宜的音频信号的形式。例如,发射机2和接收机4可以按照AC-3编码标准或运动图像专家组(MPEG)发布的几种标准中的任何一个编码和解码数字比特流。本发明可以应用于且有益于使用编码和解码处理的系统,但是这些处理对于本发明的实施并不是必需的。
虽然本发明可以用模拟信号处理技术实施,但用数字信号处理技术实施通常更方便。下面的实施例尤其参考数字信号处理。
B.语音响度
本发明针对在包含语音和其它类型音频素材的信号中控制语音的响度。表I和III的条目表示在不同节目中不同类型音频素材的声音水平。
表I包括如同那些可能传送给电视接收者的三个节目中语音相对响度的信息。在新闻广播1中,两个人以不同的音量说话。在新闻广播2中,一个人以低的音量说话而其所在的位置其他声音的音量有时会超过语音。音乐有时会以低音量出现。在广告中,一个人以非常高的音量说话而音乐的响度有时候甚至更高。
表I
    新闻广播1     新闻广播2     广告
    语音1  -24dB   其他声音 -33dB     音乐  -17dB
    语音2  -27dB   语音     -37dB     语音  -20dB
  音乐     -38dB
本发明允许音频系统自动控制这三个节目中音频素材的响度以自动减少语音响度的变化。也可以控制新闻广播1中音频素材的响度以减少两个语音音量之间的差别。例如,如果所有语音的所需音量是-24dB,那么表I中所示音频素材的响度可以调整为如表II所示的水平。
表II
    新闻广播1 新闻广播2(+13dB)     广告(-4dB)
语音1        -24dB   其他声音 -20dB     音乐   -21dB
语音2(+3dB)  -24dB   语音     -24dB     语音   -24dB
  音乐     -25dB
表III包括一个或多个运动画面的三个不同场景中不同声音的相对响度的信息。在场景1中,人们在一艘船的甲板上说话。背景声音包括音量大大低于语音音量的波浪拍击和远处汽笛声。该场景还包括一阵比语音响得多的该船的汽笛声。在场景2中,人们在低声说话而背景中有钟的嘀嗒声。该场景的语音比正常语音响度小而钟的嘀嗒声就更小了。在场景3中,人们在一个响声非常大的机器旁边高声说话。高声说话的音量高于正常语音。
表III
    场景1     场景2     场景3
  本船的汽笛声 -12dB   机器声   -18dB
  正常语音     -27dB   轻声细语   -37dB   高声说话 -20dB
  远处汽笛     -33dB   钟的嘀嗒声 -43dB
  波浪         -40dB
本发明允许音频系统自动控制这三个场景中音频素材的响度以自动减少语音响度的变化。例如,可以调整音频素材的响度以使所有场景的语音响度相同或基本相同。
另一方面,可以调整音频素材的响度以使语音的响度位于一个特定的范围内。例如,如果语音响度的特定范围是-24dB到-30dB,那么表III中所示音频素材的响度可以调整为如表IV所示的水平。
表IV
    场景1(不变)    场景2(+7dB)   场景3 (-4dB)
  本船的汽笛声 -12dB   机器声   -22dB
  正常语音     -27dB   轻声细语   -30dB   高声说话 -24dB
  远处汽笛     -33dB   钟的嘀嗒声 -36dB
  波浪         -40dB
在另一个实施例中,控制音频信号的音量以使估计响度的某个平均值保持在所需的水平。该平均可以得自一个特定的时间间隔如10分钟,或得自所有节目或其特定的一部分。仍然参考表III所示的响度信息,假设这三个场景位于同一个运动画面,则整个运动画面的平均语音响度的估计值为-25dB,而所需的语音响度是-27dB。控制这三个场景的信号音量以使每个场景的估计响度得到如表V所示的修改。在该实施例中,保留了节目或运动画面中的语音响度的变化,却减少了与其他节目或运动画面中的平均响度的变化。换句话说,节目或部分节目之间语音响度的变化可以在不需要压缩那些节目或部分节目的动态范围的情况下获得。
表V
    场景1(-2dB)   场景2(-2dB)   场景3(-2dB)
  本船的汽笛声-14dB   机器声   -20dB
  正常语音    -29dB   轻声细语   -39dB   高声说话 -22dB
  远处汽笛    -35dB   钟的嘀嗒声 -45dB
  波浪        -42dB
动态范围的压缩也可能是需要的,但是该特征是可选的并可以在需要的时候提供。
C.控制语音响度
可以通过在发射机或接收机内执行的独立过程,或者通过在发射机和接收机内联合执行的协作过程来实施本发明。
1.独立过程
图2是可以用于在发射机或接收机内实施独立过程的装置示意框图。该装置接收来自路径11代表音频信号片段的音频信息。分类器12检查音频信息并将音频信息段分类,即将代表属于语音的音频信号部分归类为“语音段”,或者将代表不属于语音的音频信号部分归类为“非语音段”。分类器12也可以将非语音段划分为若干类型。前面提及了可以用于划分音频信息类型的技术。下面说明一种优选的技术。
由音频信息段表示的音频信号的每一部分都具有相应的响度。响度估计器检查语音段并得到该语音段响度的估计,该估计响度的指示沿路径15传递。在另一个实施例中,响度估计器14至少还检查部分非语音段并得到这些段的响度估计。前面提及了可以估计响度的一些方法。
控制器16接收来自路径15的响度指示和来自路径11的音频信息,然后对音频信息进行必要的修改以减少语音段所代表的部分音频信号响度的变化。如果控制器16增加了语音段的响度,那么它也会增加包括那些响度甚至高于语音段的所有非语音段的响度。修改的音频信息沿路径17传递以备后续的处理。例如,在发射机中,可以编码或者准备传送或存储修改的音频信息。在接收机中,可以处理修改的音频信息并将其提供给收听者。
分类器12、响度估计器14和控制器16按照这样的方式排列,即语音段的估计响度用于控制非语音段以及语音段的响度。这可以用多种方式进行,在一个实施例中,响度估计器14为每个语音段提供估计响度。控制器16利用该估计响度对被估计响度的语音段的响度进行任何需要的调整,该控制器还利用相同的估计对后续的非语音段的响度进行任何需要的调整,直到接收到下一个语音段的新估计。当不能预先检查音频信号而信号的电平必须实时调整时,该实施例是适合的。然而在另一个实施例中,估计的电平对应于音频信息语音和非语音段的一个或多个特征进行调整,该信息可以由分类器12通过图中虚线所示的路径提供。
在优选的实施例中,控制器16也接收所有段的响度或信号能量指示并仅仅在响度或能量水平低于某个阈值的段内进行调整。另一方面,分类器12或响度估计器14可以提供给控制器16一个该段可以进行调整的段指示。
2.协作过程
图3是可以用于在发射机中实施部分协作过程的装置示意框图。发射机接收来自路径11代表音频信号片段的音频信息。分类器12和响度估计器14的工作基本上与前面描述的相同。响度估计器14提供的估计响度的指示沿路径15传递。在如图所示的实施例中,编码器18沿路径19生成从路径11接收的音频信息的编码表示。编码器18基本上可以采用可能需要的任何类型的编码,包括所谓的感知编码。例如,图3所示的装置可以与音频编码器相结合以提供集成到AC-3适应编码数据流中的调节规格信息。编码器18对本发明并不是不可缺少的。在另一个实施例中忽略了编码器18,音频信息本身沿路径19传递。格式化器20将从路径19接收的音频信息表示和从路径15接收的估计响度指示和成为输出信号,并沿路径21传递以用于发送或存储。
在没有图示出的互补接收机中,接收沿路径21生成的信号并进行处理以提取音频信息表示和估计响度指示。估计响度指示用于控制由音频信息表示生成的音频信号的信号电平。
3.响度仪
图4是可以用于提供包含语音和其他类型音频素材的音频信号中语音的响度指示的装置示意图。该装置接收来自路径11代表音频信号片段的音频信息。分类器12和响度估计器14的工作基本上与前面描述的相同。响度估计器14提供的估计响度指示沿路径15传递。该指示可以以任何需要的形式显示,或者也可以提供给其他装置作后续的处理。
D.段分类
本分发明基本上可以采用任何能够将音频信息段划分为包括语音类型在内的两类或更多类型的技术。前面提及了几种合适的分类技术的实例。在优选的实施例中,音频信息段的分类采用下面所描述技术的几种形式。
图5是可以用于按照优选分类技术划分音频信息段的装置示意框图。采样频率转换器30接收来自路径11的音频信息数字样本,并对音频信息进行必要的重采样以获得特定采样率的数字样本。在下面说明的实施例中,采样率是每秒16k个样本。采样率转换对本发明的实施不是必需的,但是当输入采样率高于划分语音信息所需的频率且较低的采样率允许更有效执行分类过程时,转换音频信息采样频率通常是值得的。此外,如果将每个组件设计为仅仅工作在一个采样频率,那么提取特征组件的实施通常可以得到简化。
在所示的实施例中,通过提取组件31,32和33提取音频信息的三个特征。在另一个实施例中,可以提取少至一个特征多至有效处理资源可以处理的许多特征。语音检测器35接收提取的特征并利用它们确定是否应该将音频信息段归类为语音。下面说明特征提取和语音检测。
1.特征
为了便于说明,如图5所示特定的实施例中仅仅示出了从音频信息中提取三个特征的组件。但是在优选的实施例中,段分类是基于下面描述的7个特征。每个特征提取组件通过对按帧排列的样本块进行计算来提取音频信息的一个特征。用于七个特征每一个的块大小以及每帧块的数目如表VI所示。
表VI
              特征   块大小(样本数)   块长度(毫秒)   每帧的块数
  加权频谱通量的平均平方l2范数     1024     64     32
  功率谱密度最佳拟合回归线的斜度     512     32     64
  停顿数     256     16     128
  过零率的倾斜系数     256     16     128
  过零率的均值与中值比     256     16     128
  短节奏度量     256     16     128
  长节奏度量     256     16     128
在该实施例中,每帧是32768个样本或大约2.057秒的长度。下面说明该表中七个特征的每一个。在下面的说明中,块中的样本数目用符号N表示,每帧中块的数目用符号M表示。
a)加权频谱通量的平均平方l2范数
加权频谱通量的平均平方l2范数利用了语音通常具有快速变化的频谱这个事实。语音信号通常有两种形式之一:类似乐音的浊音,或类似噪声的清音。这两种形式的过渡引起了频谱的突变。此外,在语音的浊音期间,大多数说话人改变基频以表示强调,语言的因袭,或者因为该变化是语言的本质组分。非语音信号如音乐可能也会有快速的频谱变化,但这些变化通常不经常发生。即使音乐的歌唱部分也没有频繁的变化,这是因为歌手通常在某个可以感知的时间内以相同的频率歌唱。
计算加权频谱通量平均平方l2范数的过程中第一步是对音频信息样本块应用变换,如离散傅里叶变换(DFT),得到变换系数的幅值。在应用变换之前最好用窗函数w[n],如汉明窗函数对样本块加权。DFT系数的幅值可以用下面所示的公式计算。
| X m [ k ] | = | Σ n = 0 N - 1 x [ mN + n ] · w [ n ] · e - j 2 πkn N | 0 ≤ k ≤ N / 2 - - - ( 1 )
其中,N表示块中的样本数;
x[n]表示第m块的第n个样本;以及
Xm[k]表示第m块中样本的第k个变换系数。
下一步由当前和前面块的平均功率计算当前块的权值W。如果样本x[n]是实数而不是复数或虚数,那么利用PARSEVAL定理可以由变换系数按照下面所示的公式计算平均功率。
W m = Σ k = 0 N 2 - 1 ( | X m - 1 [ k ] | 2 + | X m [ k ] | 2 ) N - - - ( 2 )
其中Wm表示当前块m的权值。
下一步计算当前和前面块的频谱分量差的平方,并将结果除以按照公式2计算的当前块的块权值Wm以产生加权频谱通量,然后计算l2范数或欧几里得距离。加权频谱通量和l2范数的计算公式如下所示。
| | l m | | = Σ k = 0 N 2 - 1 | ( X m - 1 [ k ] - X m [ k ] ) | 2 W m - - - ( 3 )
其中‖lm‖表示块m加权频谱通量的l2范数。
通过计算该帧内每个块的l2范数平方和得到一帧的特征。这个和如下面的公式所示。
F 1 ( t ) = Σ m = 0 M - 1 ( | | l m | | ) 2 - - - ( 4 )
其中M表示一帧中块的数目;以及
F1(t)表示第t帧加权频谱通量平均平方l2范数的特征。
b)功率谱密度最佳拟合回归线的斜度
对数功率谱密度最佳拟合回归线的梯度或斜度给出了信号谱倾斜或谱强调的一个估计。如果信号强调较低频率,则信号倾斜的谱形状的近似直线向下指向较高频率,该直线的斜率是负的。如果信号强调较高频率,则信号倾斜的谱形状的近似直线向上指向较高频率,该直线的斜率是正的。
语音在浊音期间强调低频而在清音期间强调高频。浊音频谱形状近似直线的斜率是负的而清音频谱形状近似直线的斜率是正的。因为与清音相比语音中浊音占大多数,所以语音频谱形状近似直线的斜率在大多数时间都是负的,仅在正和负斜率中间快速变化。结果,直线斜率或梯度的分布必然强烈倾向于负值。对于音乐和其他类型的音频素材斜率的分布更加对称。
可以通过计算信号的对数功率谱密度最佳拟合回归线来获得信号频谱形状的近似直线。通过计算变换系数可以获得信号的功率谱密度,该系数采用的变换如前面公式1所示。功率谱密度的计算如下面公式所示。
| X m [ k ] | 2 = | Σ n = 0 N - 1 x [ mN + n ] · w [ n ] · e - j 2 πkn N | 2 0 ≤ k ≤ N / 2 - - - ( 5 )
然后将公式5中计算的功率谱密度转换到对数域,如下式所示。
X m dB [ k ] = 10 · log 10 ( | X m [ k ] | 2 ) 0 ≤ k ≤ N / 2 - - - ( 6 )
然后计算最佳拟合回归线的梯度,如下式所示,这是用最小二乘法推导出来的。
G m = N 2 Σ k = 0 N 2 - 1 k X m dB - Σ k = 0 N 2 - 1 k · Σ k = 0 N 2 - 1 X m dB [ k ] N 2 Σ k = 0 N 2 - 1 k 2 - ( Σ k = 0 N 2 - 1 k ) 2 - - - ( 7 )
其中Gm表示块m的回归系数。
第t帧的特征是对整个帧斜度的估计,如下面给出的公式。
F 2 ( t ) = Σ m = 0 M - 1 ( G m - Σ m = 0 m - 1 G m M ) 3 - - - ( 8 )
其中F2(t)表示第t帧对数功率谱密度最佳拟合回归线的梯度特征。
c)停顿数
停顿数特征利用的事实是信号中具有很小或没有音频功率的停顿或短时间隔通常出现在语音中而其他类型的音频素材通常没有这种停顿。
特征提取的第一步是计算一帧内各个块m音频信息的功率P[m]。这可以用下面的公式来表示。
P [ m ] = Σ n = 0 N - 1 x [ n ] 2 N - - - ( 9 )
其中P[m]表示块m的计算功率。
第二步是计算该帧内的音频信息的功率PF。第t帧的停顿数特征F3(t)等于在该帧内相应功率小于等于PF的块的数目。该四分之一的值是由经验导出的。
d)过零率的倾斜系数
过零率是音频信息所代表的音频信号在一段时间内穿过零值的次数。过零率可以通过统计一短时音频信息样本穿过零的次数来估计。在此说明的实施例中,样本块的持续时间是16毫秒256个样本。
虽然概念很简单,但是过零率导出的信息可以提供当前音频信号是否是语音的一个相当有效的指示。语音的浊音部分具有相对低的过零率,而语音的清音部分具有相对高的过零率。而且因为与清音部分相比,语音通常包含更多的浊音部分和停顿,过零率的分布一般向更低的比值倾斜。一个可以提供帧t内倾斜指示的特征是过零率的倾斜系数,可以用下面的公式计算
F 4 ( t ) = Σ m = 0 M - 1 ( Z m - Σ m = 0 M - 1 Z m M ) 3 ( Σ m = 0 M - 1 ( Z m - Σ m = 0 M - 1 Z m M ) 2 ) 3 / 2 - - - ( 10 )
其中Zm表示块m的过零数;以及
F4(t)表示帧t的过零率的倾斜系数特征。
e)过零率的均值与中值比
可以提供帧t内过零率倾斜分布指示的另一个特征是过零率的均值与中值比,这可以用下面的公式得出
F 5 ( t ) = Z median Σ m = 0 M - 1 Z m M - - - ( 11 )
其中Zmedian表示帧t内所有块的块过零数的中值;以及
F5(t)表示帧t的过零率的均值与中值比特征。
f)短节奏度量
使用前面所描述特征的技术可以检测许多类型音频素材中的语音,但是在高节奏音频素材中,如所谓的“rap”和许多pop音乐的场合这些技术就会产生检测错误。通过检测高节奏素材并将这些素材从分类中除去或者提高将该素材归类为语音所需要的置信级可以更可靠地将音频信息段归类为语音。
按照如下所示的公式先计算每个块中样本的方差可以计算一帧的短节奏度量。
σ x 2 [ m ] = Σ n = 0 N - 1 ( x [ n ] - x ‾ m ) 2 N - - - ( 12 )
其中σx 2[m]表示块m内样本x的方差;以及
xm表示块m内样本x的均值。
帧内所有块的方差导出一个零均值序列,如下式所示。
δ [ m ] = σ x 2 [ m ] - σ ‾ x 2 0 ≤ m ≤ M - - - ( 13 )
其中δ[m]表示零均值序列中对应于块m的元素;以及
σx 2表示对于帧内所有块的方差的均值。
按照如下所示的公式可以得到零均值序列的自相关。
A t [ l ] = 1 M Σ m = 0 M - 1 - l δ [ m ] · δ [ m + l ] 0 ≤ l ≤ M - - - ( 14 )
其中At[l]表示第t帧与块滞后l的自相关的值。
短节奏度量特征由这些自相关值的最大值导出。该最大值不包括针对块滞后l=0的值,所以最大值是得自块滞后l≥L的一组值。L值代表所期望的最快节奏的周期。在一个实施例中L的值为10,表示最小周期是160毫秒。如下式所示,通过用最大值除以块滞后l=0的自相关值来计算该特征。
F 6 ( t ) = max L &le; n < M ( A t [ n ] ) A t [ 0 ] - - - ( 15 )
其中F6(t)表示第t帧的短节奏度量特征。
g)长节奏度量
除了用频谱权值代替零均值序列,长节奏度量按照与前面短节奏度量类似的方法导出。通过先得到对数功率谱密度来计算这些频谱权值,如前面公式5和6所示,其描述与对数功率谱密度最佳拟合回归线的梯度的斜度有关。有必要指出的是,在此描述的实施例中,计算长节奏度量的块长度并不等于用于梯度斜度计算的块长度。
下一步按照下面的公式所示得到对数域功率谱值的最大值。
O m = max 0 &le; k &le; N 2 ( X m dB [ k ] ) - - - ( 16 )
其中Om表示块m中最大对数功率谱值。
由超过阈值(Om·α)的对数域功率谱峰值的数目来确定每个块的谱权值。这可以用下面的公式来表示。
W [ m ] = &Sigma; k = 0 N 2 - 1 sign ( X m dB [ k ] - O m &CenterDot; &alpha; ) + 1 2 - - - ( 17 )
其中W[m]表示块m的谱权值;
如果n≥0,则sign(n)=+1;如果n<0则sign(n)=-1;以及
α表示经验导出的常数,等于0.1。
在每一帧的末尾,将前面帧的M个谱权值的序列和当前帧的M个谱权值的序列串联起来构造一个2M个谱权值的序列。然后按照下面的公式计算该长序列的自相关。
AL t [ l ] = 1 2 M &Sigma; m = - M + 1 M - 1 - l W [ m ] &CenterDot; W [ m + l ] 0 &le; l < 2 M - - - ( 18 )
其中ALt[l]表示第t帧的自相关值。
长节奏度量特征由这些自相关值的最大值导出。该最大值不包括针对块滞后l=0的值,所以最大值是得自块滞后l≥LL的一组值。LL值代表所期望的最快节奏的周期。在此说明的一个实施例中LL的值为10。如下式所示,通过用最大值除以块滞后l=0的自相关值来计算该特征。
F 7 ( t ) = max LL &le; n < M ( AL t [ n ] ) AL t [ 0 ] - - - ( 19 )
其中F7(t)表示第t帧的长节奏度量特征。
2.语音检测
语音检测器35合并针对各个帧提取的特征以确定是否应该将音频信息段归类为语音。可以采用的一种合并特征的方法是实现一组简单的或中间分类器。一个中间分类器通过将前面讨论的特征之一与一个阈值相比较来计算一个二元值。然后将该二元值用系数加权。每个中间分类器基于一个特征进行中间分类。特定特征可以由超过一个的中间分类器使用。中间分类器的实现可以按照下面的公式计算。
Cj=cj·sign(Fi-Thj)
其中Cj表示中间分类器j提供的二元值分类;
cj表示中间分类器j的系数;
Fi表示从音频信息提取的特征i;以及
Thj表示中间分类器j的阈值。
在该特定实施例中,中间分类值Cj=1说明中间分类器j倾向于支持的结论是音频信息的特定帧应该归类为语音。中间分类值Cj=-1说明中间分类器j倾向于支持的结论是音频信息的特定帧不应该归类为语音。
表VII的条目示出的系数和阈值以及几个中间分类器的适当特征可以用于一个对音频信息进行分类的实施例。
表VII
  中间分类器序号j     系数cj     阈值Thj     特征序号i
    1   1.175688     5.721547     1
    2   -.672672     0.833154     5
    3   0.631083     5.826363     1
    4   -0.29152     0.232458     6
    5   0.5.2359     1.474436     4
    6   -0.310641     0.269663     7
    7   0.266078     5.806366     1
    8   -0.101095     0.218851     6
    9   0.097274     1.474855     4
    10   0.058117     5.810558     1
    11   -0.042538     0.264982     7
    12   0.034076     5.811342     1
    13   -0.044324     0.850407     5
    14   -0.066890     5.902452     3
    15   -0.029350     0.263540     7
    16   0.035183     5.812901     1
    17   0.033141     1.497580     4
    18   -0.015365     0.849056     5
    19   0.016036     5.813189     1
    20   -0.016559     0.263945     7
最终的分类基于中间分类的组合。可以按照下面的公式进行。
C final = sign ( &Sigma; j = 1 J C j ) - - - ( 21 )
其中Cfinal表示音频信息帧的最终分类;以及
J表示用于分类的中间分类器的数目。
通过优化中间分类器的选择,优化中间分类器的系数和阈值可以提高语音检测器的可靠性。这种优化可以用多种方式实施,包括前面引用的美国5819247号专利以及Schapire于1999年发表在Proc.of the16th Int.Joint Conf.on Artificial Intelligence的文章“A BriefIntroduceion to Boosting”中的技术。
在另一个实施例中,语音检测不是通过二元判决来指示的,而是用分级度量的分类来表示。该度量可以表示语音分类中语音的估计概率或者置信级。这可以以多种方式进行,例如从中间分类的和得到最终的分类结果而不是得到一个如公式21所示的二值结果。
3.样本块
前面描述的实施例是对相连的、不重叠的固定长度块提取特征。作为选择,分类技术可以应用于相连的不重叠的可变长度块,应用于固定或可变长度的重叠块,或者应用于固定或可变长度的非相连块。例如,块长度可以针对瞬变,停顿或极小或无能量段而进行适应以使得每个块的音频信息更加稳定。帧长度也可以通过变换每一帧块的数目和/或变换一帧中块的长度来适应。
E.响度估计
响度估计器14检查音频信息段以获得该语音段的响度估计。在一个实施例中,对归类为语音段的每一帧估计响度。基本上可以对所需任意时长估计响度。
在另一个实施例中,估计过程开始于启动处理的一个请求并且持续至接收到一个停止处理的请求。例如在接收机4中,这些请求可以通过路径3接收信号中的特殊编码来传递。另一方面,这些请求可以通过用于估计响度的装置上的开关或控制来提供。可以提供附加的控制来促使响度估计器14暂停处理并保持当前的估计。
在一个实施例中,对归类为语音段的所有音频信息段估计响度。但是原则上可以仅对选择的语音段估计响度,例如仅仅针对音频能量超过阈值的那些段。通过一个分类器12把低能量段归类为非语音段然后对所有的语音段估计响度也可以获得类似的效果。可能有其它的变化,例如在估计响度计算中较过时的段可以赋于较低的权值。
在另一个实施例中,响度估计器14至少估计一些非语音段的响度。非语音段的估计响度可以用于音频信息段的响度计算;这些计算应该更加对应于语音段的估计。非语音段的估计也可以用于提供段类型分级度量的实施例中。音频信息段的响度计算可以用考虑分类分级度量的方式反应语音和非语音段的估计响度。例如,分级度量可以代表音频信息段包含语音的置信级指示。通过在响度估计计算中赋予具有较高置信级的段以较高的权值可以使响度的估计更加针对这些段。
可以用包括前面讨论的那些方法在内的多种方法估计响度。对于本发明特定的估计技术是不重要的;但是,在实际的实施例中通常优先选择需要更少计算资源的更简单的技术。
F.实施
本发明的各个方面可以用非常多的方法实施,包括通用计算机系统中或其它一些装置中的软件,这些装置包括更专门化的元件如与元件相连的数字信号处理器(DSP)电路,其元件类似于通用计算机中的那些元件。图6是可以用于在音频编码发射机或音频解码接收机上实施本发明各个方面的装置70的框图。DSP 72提供计算资源。RAM73是系统的随机存储器(RAM),被DSP 72用于信号处理。ROM 74代表永久存储的某种形式以存储需要操作装置70的程序,如只读存储器(ROM)。I/O控制器75代表通过信道76、77接收和发送信号的接口电路。当需要接收和/或发送模拟音频信号时,I/O控制器75可以包含模-数转换器和数-模转换器。在所示装置中,所有主要的系统组件都与总线71相连,该总线代表的物理总线可不止一种;但总线结构对于本发明的实施不是必需的。
在通用计算机系统的实施例中,可以包含附加的元件,用于连接键盘或鼠标以及显示器等装置,以及用于控制具有如磁带或磁盘或光学介质等存储媒体的存储装置。存储介质可以用于记录操作系统、实用程序及应用的指令程序,可以包含实施本发明各个方面的程序本身。
实践本发明各个方面所需的功能可以用通过很多种方法实现的专用元件来执行,包括离散逻辑元件,一个或多个ASIC和/或程控处理器。这些元件的实现方式对于本发明都是不重要的。
本发明的软件实施可以通过多种机器可读媒体传输,如覆盖从超声到紫外频段频率范围的基带或调制通信线路,或通过包含使用基本上任何磁性或光学记录技术传送信息的存储介质传送,包括磁带、磁盘和光盘。也可以在计算机系统70的各个组件中采用处理电路实施各个方面,如ASIC,通用集成电路,通过包含在各种ROM或RAM中的程序控制的微处理器以及其它技术。

Claims (36)

1.一种信号处理的方法,包括:
接收输入信号并从输入信号中获得音频信息,其中该音频信息代表音频信号的一个片段;
检查该音频信息以将该音频信息的各段分类为代表归类为语音的音频信号部分的语音段或代表不归类为语音的音频信号部分的非语音段,其中由一段代表的该音频信号的每部分具有相应响度,并且所述语音段的响度低于一个或多个音量大的非语音段的响度;
检查该音频信息以获得所述语音段的估计响度;以及
通过生成比对于所述非语音段代表的音频信号部分的响度更响应于所述语音段估计响度的控制信息,提供该音频信号片段的响度指示。
2.权利要求1的方法,该方法包括:
响应于控制信息而控制所述音频信号片段的响度,以减少该语音段响度的变化,其中当该语音段代表的音频信号部分的响度增加时,由所述一个或多个音量大的非语音段代表的音频信号部分的响度增加。
3.权利要求1的方法,该方法包括:
将该音频信息的表示和控制信息组合到一个输出信号中并发送该输出信号。
4.权利要求1或2的方法,该方法通过计算语音段代表的音频信号的频率加权形式的平均功率来获得该语音段的估计响度。
5.权利要求1或2的方法,该方法通过对音频信息应用响度心理声学模型来获得该语音段的估计响度。
6.权利要求1或2的方法,该方法通过从该音频信息导出音频信号的多个特征,用各自重要性的度量加权每个特征,并按照各加权特征的组合分类各段来对各段分类。
7.权利要求1或2的方法,该方法通过仅在音频能量的度量小于阈值的音频信号片段期间调整响度来控制该音频信号片段的响度。
8.权利要求1或2的方法,其中音频信号片段的响度指示仅响应于语音段的估计响度。
9.权利要求1或2的方法,该方法包括估计所述一个或多个非语音段的响度,其中该音频信号片段的响度指示比对于所述一个或多个非语音段的估计响度更响应于所述语音段的估计响度。
10.权利要求1或2的方法,该方法包括:
提供指示相应段代表的音频信号具有语音特征的程度的语音度量;以及
提供该响度指示以使其根据相应段的语音度量响应于该相应段的估计响度。
11.权利要求1或2的方法,该方法包括提供该响度指示以使其根据各段的时间次序响应于相应段的估计响度。
12.权利要求1或2的方法,该方法包括响应于音频信息的特征而适配音频信息各段的长度。
13.一种媒体,该媒体对于某一装置是可读的并且传送该装置可执行的指令程序以执行信号处理方法,其中该方法包括执行下面操作的步骤:
接收输入信号并从输入信号中获得音频信息,其中该音频信息代表音频信号的一个片段;
检查该音频信息以将该音频信息的各段分类为代表归类为语音的音频信号部分的语音段或代表不归类为语音的音频信号部分的非语音段,其中由一段代表的该音频信号的每部分具有相应响度,并且所述语音段的响度低于一个或多个音量大的非语音段的响度;
检查该音频信息以获得所述语音段的估计响度;以及
通过生成比对于所述非语音段代表的音频信号部分的响度更响应于所述语音段估计响度的控制信息,提供该音频信号片段的响度指示。
14.权利要求13的媒体,其中的方法包括:
响应于控制信息控制音频信号片段的响度以减少该语音段响度的变化,其中当该语音段代表的音频信号部分的响度增加时由一个或多个音量大的非语音段代表的音频信号部分的响度增加。
15.权利要求13的媒体,其中的方法包括:
将该音频信息和控制信息合成为一个输出信号并发送该输出信号。
16.权利要求13或14的媒体,其中的方法通过计算语音段代表的音频信号频率加权复本的平均功率来获得该语音段的估计响度。
17.权利要求13或14的媒体,其中的方法通过对音频信息应用响度心理声学模型来获得该语音段的估计响度。
18.权利要求13或14的媒体,其中的方法通过从该音频信息导出多个音频信号特征,用各自重要性的度量加权每个特征,并按照该加权特征的组合分类来划分段的类型。
19.权利要求13或14的媒体,其中的方法通过仅对音频能量的度量小于阈值的音频信号片段调整响度来控制该音频信号片段的响度。
20.权利要求13或14的媒体,其中音频信号片段的响度指示仅对应于语音段的估计响度。
21.权利要求13或14的媒体,其中的方法包括估计一个或多个非语音段的响度,其中该音频信号片段的响度指示比一个或多个非语音段的估计响度更反映语音段的估计响度。
22.权利要求13或14的媒体,其中的方法包括:
提供指示相应段代表的音频信号具有语音特征的程度的语音度量;
提供响度指示以使其根据相应段的语音度量反映该相应段的估计响度。
23.权利要求13或14的媒体,其中的方法包括提供响度指示使其根据该段的时间次序反映相应段的估计响度。
24.权利要求13或14的媒体,其中的方法包括针对音频信息的特征调整音频信息段的长度。
25.一种信号处理的装置,其中该装置包括:
一个接收输入信号的输入终端;
存储器;以及
与输入终端和存储器相连的处理电路;其中该处理电路适合于:
接收输入信号并从输入信号中获得音频信息,其中该音频信息代表音频信号的一个片段;
检查该音频信息以将该音频信息的各段分类为代表归类为语音的音频信号部分的语音段或代表不归类为语音的音频信号部分的非语音段,其中由一段代表的该音频信号的每部分具有相应响度,并且所述语音段的响度低于一个或多个音量大的非语音段的响度;
检查该音频信息以获得所述语音段的估计响度;以及
通过生成比对于所述非语音段代表的音频信号部分的响度更响应于所述语音段估计响度的控制信息,提供该音频信号片段的响度指示。
26.权利要求25的装置,其中处理电路适合于根据控制信息来控制音频信号片段的响度以减少该语音段响度的变化,其中当该语音段代表的音频信号部分的响度增加时,由所述一个或多个音量大的非语音段代表的音频信号部分的响度随之增加。
27.权利要求25的装置,其中处理电路适合于将该音频信息的表示和控制信息组合到一个输出信号并发送该输出信号。
28.权利要求25或26的装置,其中处理电路适合于通过计算语音段代表的音频信号的频率加权形式的平均功率来获得该语音段的估计响度。
29.权利要求25或26的装置,其中处理电路适合于通过对音频信息应用响度心理声学模型来获得该语音段的估计响度。
30.权利要求25或26的装置,其中处理电路适合于通过从该音频信息导出音频信号的多个特征,用各自重要性的度量加权每个特征,并按照各加权特征的组合分类来对各段分类。
31.权利要求25或26的装置,其中处理电路适合于通过仅在音频能量的度量小于阈值的音频信号片段期间调整响度来控制该音频信号片段的响度。
32.权利要求25或26的装置,其中音频信号片段的响度指示仅响应于语音段的估计响度。
33.权利要求25或26的装置,其中处理电路适合于估计一个或多个非语音段的响度,其中该音频信号片段的响度指示比对于所述一个或多个非语音段的估计响度更响应于所述语音段的估计响度。
34.权利要求25或26的装置,其中处理电路适合于:
提供指示相应段代表的音频信号具有语音特征的程度的语音度量;以及
提供该响度指示以使其根据相应段的语音度量响应于该相应段的估计响度。
35.权利要求25或26的装置,其中处理电路适合于提供该响度指示以使其根据各段的时间次序响应于相应段的估计响度。
36.权利要求25或26的装置,其中处理电路适合于检测音频信息的特征以及根据检测的特征适配音频信息各段的长度。
CNB038199181A 2002-08-30 2003-08-15 控制包含语音和其它类型音频素材的信号中的语音响度 Expired - Lifetime CN100371986C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/233,073 2002-08-30
US10/233,073 US7454331B2 (en) 2002-08-30 2002-08-30 Controlling loudness of speech in signals that contain speech and other types of audio material

Publications (2)

Publication Number Publication Date
CN1679082A true CN1679082A (zh) 2005-10-05
CN100371986C CN100371986C (zh) 2008-02-27

Family

ID=31977143

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB038199181A Expired - Lifetime CN100371986C (zh) 2002-08-30 2003-08-15 控制包含语音和其它类型音频素材的信号中的语音响度

Country Status (15)

Country Link
US (2) US7454331B2 (zh)
EP (1) EP1532621B1 (zh)
JP (1) JP4585855B2 (zh)
KR (1) KR101019681B1 (zh)
CN (1) CN100371986C (zh)
AT (1) ATE328341T1 (zh)
AU (1) AU2003263845B2 (zh)
CA (1) CA2491570C (zh)
DE (1) DE60305712T8 (zh)
HK (1) HK1073917A1 (zh)
IL (1) IL165938A (zh)
MX (1) MXPA05002290A (zh)
MY (1) MY133623A (zh)
TW (1) TWI306238B (zh)
WO (1) WO2004021332A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102017402A (zh) * 2007-12-21 2011-04-13 Srs实验室有限公司 用于调节音频信号的感知响度的系统
CN101411060B (zh) * 2006-04-04 2011-04-13 杜比实验室特许公司 用于多声道音频信号的响度修改的方法和设备
CN101483416B (zh) * 2009-01-20 2011-09-14 杭州火莲科技有限公司 一种语音的响度均衡处理方法
CN102946520A (zh) * 2012-10-30 2013-02-27 深圳创维数字技术股份有限公司 一种自动控制频道音量的方法及数字电视终端
CN102057423B (zh) * 2008-06-10 2013-04-03 杜比实验室特许公司 用于隐藏音频伪迹的方法、系统、计算机系统用途
CN105845145A (zh) * 2010-12-03 2016-08-10 杜比实验室特许公司 用于处理媒体数据的方法和媒体处理系统
CN110231087A (zh) * 2019-06-06 2019-09-13 江苏省广播电视集团有限公司 一种高清电视音频响度分析报警及归一化制作方法和设备

Families Citing this family (93)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US20040045022A1 (en) * 2002-09-03 2004-03-04 Steven Riedl Digital message insertion technique for analog video services
KR101164937B1 (ko) * 2003-05-28 2012-07-12 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 신호의 인식된 라우드니스를 계산 및 조정하는방법, 장치 및 컴퓨터 프로그램
US7353169B1 (en) * 2003-06-24 2008-04-01 Creative Technology Ltd. Transient detection and modification in audio signals
US8086448B1 (en) * 2003-06-24 2011-12-27 Creative Technology Ltd Dynamic modification of a high-order perceptual attribute of an audio signal
US7398207B2 (en) * 2003-08-25 2008-07-08 Time Warner Interactive Video Group, Inc. Methods and systems for determining audio loudness levels in programming
EP1531458B1 (en) * 2003-11-12 2008-04-16 Sony Deutschland GmbH Apparatus and method for automatic extraction of important events in audio signals
US7970144B1 (en) 2003-12-17 2011-06-28 Creative Technology Ltd Extracting and modifying a panned source for enhancement and upmix of audio signals
CA2992097C (en) 2004-03-01 2018-09-11 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters
US7376890B2 (en) * 2004-05-27 2008-05-20 International Business Machines Corporation Method and system for checking rotate, shift and sign extension functions using a modulo function
US7617109B2 (en) 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
US8199933B2 (en) 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
AU2005299410B2 (en) 2004-10-26 2011-04-07 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US7962327B2 (en) * 2004-12-17 2011-06-14 Industrial Technology Research Institute Pronunciation assessment method and system based on distinctive feature analysis
PL1931197T3 (pl) * 2005-04-18 2015-09-30 Basf Se Preparat zawierający co najmniej jeden fungicyd konazolowy, inny fungicyd i jeden kopolimer stabilizujący
MX2007015118A (es) * 2005-06-03 2008-02-14 Dolby Lab Licensing Corp Aparato y metodo para codificacion de senales de audio con instrucciones de decodificacion.
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
WO2007045797A1 (fr) * 2005-10-20 2007-04-26 France Telecom Procede, programme et dispositif de description d'un fichier musical, procede et programme de comparaison de deux fichiers musicaux entre eux, et serveur et terminal pour la mise en oeuvre de ces procedes
US7986790B2 (en) * 2006-03-14 2011-07-26 Starkey Laboratories, Inc. System for evaluating hearing assistance device settings using detected sound environment
US8494193B2 (en) * 2006-03-14 2013-07-23 Starkey Laboratories, Inc. Environment detection and adaptation in hearing assistance devices
US8068627B2 (en) 2006-03-14 2011-11-29 Starkey Laboratories, Inc. System for automatic reception enhancement of hearing assistance devices
CN101410892B (zh) * 2006-04-04 2012-08-08 杜比实验室特许公司 改进的离散余弦变换域中的音频信号响度测量及修改
US8682654B2 (en) * 2006-04-25 2014-03-25 Cyberlink Corp. Systems and methods for classifying sports video
DE602007011594D1 (de) 2006-04-27 2011-02-10 Dolby Lab Licensing Corp Tonverstärkungsregelung mit erfassung von publikumsereignissen auf der basis von spezifischer lautstärke
JP4940308B2 (ja) 2006-10-20 2012-05-30 ドルビー ラボラトリーズ ライセンシング コーポレイション リセットを用いるオーディオダイナミクス処理
US8521314B2 (en) 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
US20100046765A1 (en) 2006-12-21 2010-02-25 Koninklijke Philips Electronics N.V. System for processing audio data
JP4938862B2 (ja) * 2007-01-03 2012-05-23 ドルビー ラボラトリーズ ライセンシング コーポレイション ハイブリッドデジタル/アナログラウドネス補償音量調節
BRPI0807703B1 (pt) 2007-02-26 2020-09-24 Dolby Laboratories Licensing Corporation Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador
US8204359B2 (en) * 2007-03-20 2012-06-19 At&T Intellectual Property I, L.P. Systems and methods of providing modified media content
EP2162879B1 (en) * 2007-06-19 2013-06-05 Dolby Laboratories Licensing Corporation Loudness measurement with spectral modifications
US8054948B1 (en) * 2007-06-28 2011-11-08 Sprint Communications Company L.P. Audio experience for a communications device user
JP2009020291A (ja) * 2007-07-11 2009-01-29 Yamaha Corp 音声処理装置および通信端末装置
US8396574B2 (en) * 2007-07-13 2013-03-12 Dolby Laboratories Licensing Corporation Audio processing using auditory scene analysis and spectral skewness
JP5414684B2 (ja) 2007-11-12 2014-02-12 ザ ニールセン カンパニー (ユー エス) エルエルシー 音声透かし、透かし検出、および透かし抽出を実行する方法および装置
US8457951B2 (en) * 2008-01-29 2013-06-04 The Nielsen Company (Us), Llc Methods and apparatus for performing variable black length watermarking of media
US20090226152A1 (en) * 2008-03-10 2009-09-10 Hanes Brett E Method for media playback optimization
WO2009119460A1 (ja) * 2008-03-24 2009-10-01 日本ビクター株式会社 オーディオ信号処理装置及びオーディオ信号処理方法
EP2329492A1 (en) 2008-09-19 2011-06-08 Dolby Laboratories Licensing Corporation Upstream quality enhancement signal processing for resource constrained client devices
ES2385293T3 (es) * 2008-09-19 2012-07-20 Dolby Laboratories Licensing Corporation Procesamiento de señales ascendentes para dispositivos clientes en una red inalámbrica de células pequeñas
US7755526B2 (en) * 2008-10-31 2010-07-13 At&T Intellectual Property I, L.P. System and method to modify a metadata parameter
JP4826625B2 (ja) * 2008-12-04 2011-11-30 ソニー株式会社 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器
ATE552651T1 (de) * 2008-12-24 2012-04-15 Dolby Lab Licensing Corp Audiosignallautheitbestimmung und modifikation im frequenzbereich
US8428758B2 (en) * 2009-02-16 2013-04-23 Apple Inc. Dynamic audio ducking
EP2237269B1 (en) * 2009-04-01 2013-02-20 Motorola Mobility LLC Apparatus and method for processing an encoded audio data signal
KR101616054B1 (ko) * 2009-04-17 2016-04-28 삼성전자주식회사 음성 검출 장치 및 방법
US8761415B2 (en) 2009-04-30 2014-06-24 Dolby Laboratories Corporation Controlling the loudness of an audio signal in response to spectral localization
EP2425426B1 (en) * 2009-04-30 2013-03-13 Dolby Laboratories Licensing Corporation Low complexity auditory event boundary detection
TWI503816B (zh) * 2009-05-06 2015-10-11 Dolby Lab Licensing Corp 調整音訊信號響度並使其具有感知頻譜平衡保持效果之技術
US8302047B2 (en) * 2009-05-06 2012-10-30 Texas Instruments Incorporated Statistical static timing analysis in non-linear regions
US8996538B1 (en) 2009-05-06 2015-03-31 Gracenote, Inc. Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects
DE112009005215T8 (de) * 2009-08-04 2013-01-03 Nokia Corp. Verfahren und Vorrichtung zur Audiosignalklassifizierung
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
GB0919672D0 (en) * 2009-11-10 2009-12-23 Skype Ltd Noise suppression
TWI447709B (zh) 2010-02-11 2014-08-01 Dolby Lab Licensing Corp 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
TWI525987B (zh) 2010-03-10 2016-03-11 杜比實驗室特許公司 在單一播放模式中組合響度量測的系統
WO2011141772A1 (en) * 2010-05-12 2011-11-17 Nokia Corporation Method and apparatus for processing an audio signal based on an estimated loudness
US8731216B1 (en) * 2010-10-15 2014-05-20 AARIS Enterprises, Inc. Audio normalization for digital video broadcasts
KR101726738B1 (ko) * 2010-12-01 2017-04-13 삼성전자주식회사 음성처리장치 및 그 방법
US9620131B2 (en) 2011-04-08 2017-04-11 Evertz Microsystems Ltd. Systems and methods for adjusting audio levels in a plurality of audio signals
US9135929B2 (en) * 2011-04-28 2015-09-15 Dolby International Ab Efficient content classification and loudness estimation
JP2013041197A (ja) * 2011-08-19 2013-02-28 Funai Electric Co Ltd デジタル放送受信装置
US9373334B2 (en) 2011-11-22 2016-06-21 Dolby Laboratories Licensing Corporation Method and system for generating an audio metadata quality score
WO2013101342A1 (en) * 2011-12-29 2013-07-04 Raytheon Bbn Technologies Corp. Non-contiguous spectral-band modulator and method for non-contiguous spectral-band modulation
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
EP2837094B1 (en) 2012-04-12 2016-03-30 Dolby Laboratories Licensing Corporation System and method for leveling loudness variation in an audio signal
US9053710B1 (en) * 2012-09-10 2015-06-09 Amazon Technologies, Inc. Audio content presentation using a presentation profile in a content header
CN103841241B (zh) * 2012-11-21 2017-02-08 联想(北京)有限公司 音量调整方法及装置
US8958586B2 (en) 2012-12-21 2015-02-17 Starkey Laboratories, Inc. Sound environment classification by coordinated sensing using hearing assistance devices
US9171552B1 (en) * 2013-01-17 2015-10-27 Amazon Technologies, Inc. Multiple range dynamic level control
IL287218B (en) * 2013-01-21 2022-07-01 Dolby Laboratories Licensing Corp Audio encoder and decoder with program loudness and boundary metada
CN112652316B (zh) * 2013-01-21 2023-09-15 杜比实验室特许公司 利用响度处理状态元数据的音频编码器和解码器
IN2015MN01766A (zh) 2013-01-21 2015-08-28 Dolby Lab Licensing Corp
JP6179122B2 (ja) * 2013-02-20 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
US20140278911A1 (en) * 2013-03-15 2014-09-18 Telemetry Limited Method and apparatus for determining digital media audibility
WO2014148845A1 (ko) * 2013-03-21 2014-09-25 인텔렉추얼디스커버리 주식회사 오디오 신호 크기 제어 방법 및 장치
CN107093991B (zh) 2013-03-26 2020-10-09 杜比实验室特许公司 基于目标响度的响度归一化方法和设备
CN104078050A (zh) 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
TWI502582B (zh) * 2013-04-03 2015-10-01 Chung Han Interlingua Knowledge Co Ltd 服務點之語音客服系統
TWM487509U (zh) * 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
US9344825B2 (en) 2014-01-29 2016-05-17 Tls Corp. At least one of intelligibility or loudness of an audio program
US9578436B2 (en) 2014-02-20 2017-02-21 Bose Corporation Content-aware audio modes
US9473094B2 (en) * 2014-05-23 2016-10-18 General Motors Llc Automatically controlling the loudness of voice prompts
US9842608B2 (en) 2014-10-03 2017-12-12 Google Inc. Automatic selective gain control of audio data for speech recognition
EP3518236B8 (en) * 2014-10-10 2022-05-25 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
JP6395558B2 (ja) * 2014-10-21 2018-09-26 オリンパス株式会社 第1の録音装置、第2の録音装置、録音システム、第1の録音方法、第2の録音方法、第1の録音プログラム、および第2の録音プログラム
US20160283566A1 (en) * 2015-03-27 2016-09-29 Ca, Inc. Analyzing sorted mobile application operational state sequences based on sequence metrics
EP3369175B1 (en) 2015-10-28 2024-01-10 DTS, Inc. Object-based audio signal balancing
WO2020123424A1 (en) * 2018-12-13 2020-06-18 Dolby Laboratories Licensing Corporation Dual-ended media intelligence
US11138477B2 (en) * 2019-08-15 2021-10-05 Collibra Nv Classification of data using aggregated information from multiple classification modules

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4281218A (en) 1979-10-26 1981-07-28 Bell Telephone Laboratories, Incorporated Speech-nonspeech detector-classifier
DE3314570A1 (de) * 1983-04-22 1984-10-25 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und anordnung zur einstellung der verstaerkung
US5097510A (en) 1989-11-07 1992-03-17 Gs Systems, Inc. Artificial intelligence pattern-recognition-based noise reduction system for speech processing
JP2961952B2 (ja) * 1991-06-06 1999-10-12 松下電器産業株式会社 音楽音声判別装置
EP0517233B1 (en) 1991-06-06 1996-10-30 Matsushita Electric Industrial Co., Ltd. Music/voice discriminating apparatus
JP2737491B2 (ja) * 1991-12-04 1998-04-08 松下電器産業株式会社 音楽音声処理装置
US5548638A (en) * 1992-12-21 1996-08-20 Iwatsu Electric Co., Ltd. Audio teleconferencing apparatus
US5457769A (en) 1993-03-30 1995-10-10 Earmark, Inc. Method and apparatus for detecting the presence of human voice signals in audio signals
BE1007355A3 (nl) 1993-07-26 1995-05-23 Philips Electronics Nv Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.
IN184794B (zh) 1993-09-14 2000-09-30 British Telecomm
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
GB9419388D0 (en) 1994-09-26 1994-11-09 Canon Kk Speech analysis
CA2167748A1 (en) 1995-02-09 1996-08-10 Yoav Freund Apparatus and methods for machine learning hypotheses
DE19509149A1 (de) 1995-03-14 1996-09-19 Donald Dipl Ing Schulz Codierverfahren
JPH08328599A (ja) 1995-06-01 1996-12-13 Mitsubishi Electric Corp Mpegオーディオ復号器
US5712954A (en) 1995-08-23 1998-01-27 Rockwell International Corp. System and method for monitoring audio power level of agent speech in a telephonic switch
EP0820212B1 (de) 1996-07-19 2010-04-21 Bernafon AG Lautheitsgesteuerte Verarbeitung akustischer Signale
JP2953397B2 (ja) 1996-09-13 1999-09-27 日本電気株式会社 ディジタル補聴器の聴覚補償処理方法及びディジタル補聴器
US6570991B1 (en) 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US6125343A (en) * 1997-05-29 2000-09-26 3Com Corporation System and method for selecting a loudest speaker by comparing average frame gains
US6272360B1 (en) 1997-07-03 2001-08-07 Pan Communications, Inc. Remotely installed transmitter and a hands-free two-way voice terminal device using same
US6233554B1 (en) * 1997-12-12 2001-05-15 Qualcomm Incorporated Audio CODEC with AGC controlled by a VOCODER
US6298139B1 (en) * 1997-12-31 2001-10-02 Transcrypt International, Inc. Apparatus and method for maintaining a constant speech envelope using variable coefficient automatic gain control
US6182033B1 (en) 1998-01-09 2001-01-30 At&T Corp. Modular approach to speech enhancement with an application to speech coding
US6353671B1 (en) 1998-02-05 2002-03-05 Bioinstco Corp. Signal processing circuit and method for increasing speech intelligibility
US6311155B1 (en) * 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
US6351731B1 (en) * 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US6823303B1 (en) * 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
US6411927B1 (en) 1998-09-04 2002-06-25 Matsushita Electric Corporation Of America Robust preprocessing signal equalization system and method for normalizing to a target environment
DE19848491A1 (de) 1998-10-21 2000-04-27 Bosch Gmbh Robert Rundfunkempfänger zum Empfang von Radio-Daten und Verfahren zur Beeinflussung einer Klangcharakteristik eines wiederzugebenden Audiosignals in einem Rundfunkempfänger
US6314396B1 (en) * 1998-11-06 2001-11-06 International Business Machines Corporation Automatic gain control in a speech recognition system
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
EP1089242B1 (en) * 1999-04-09 2006-11-08 Texas Instruments Incorporated Supply of digital audio and video products
US6985594B1 (en) * 1999-06-15 2006-01-10 Hearing Enhancement Co., Llc. Voice-to-remaining audio (VRA) interactive hearing aid and auxiliary equipment
JP3473517B2 (ja) * 1999-09-24 2003-12-08 ヤマハ株式会社 指向性拡声装置
US6351733B1 (en) * 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US6889186B1 (en) * 2000-06-01 2005-05-03 Avaya Technology Corp. Method and apparatus for improving the intelligibility of digitally compressed speech
US6625433B1 (en) * 2000-09-29 2003-09-23 Agere Systems Inc. Constant compression automatic gain control circuit
US6807525B1 (en) * 2000-10-31 2004-10-19 Telogy Networks, Inc. SID frame detection with human auditory perception compensation
DE10058786A1 (de) * 2000-11-27 2002-06-13 Philips Corp Intellectual Pty Verfahren zum Steuerung eines eine akustische Ausgabeeinrichtung aufweisenden Geräts
US7068723B2 (en) * 2002-02-28 2006-06-27 Fuji Xerox Co., Ltd. Method for automatically producing optimal summaries of linear media
US7155385B2 (en) * 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101411060B (zh) * 2006-04-04 2011-04-13 杜比实验室特许公司 用于多声道音频信号的响度修改的方法和设备
CN102017402A (zh) * 2007-12-21 2011-04-13 Srs实验室有限公司 用于调节音频信号的感知响度的系统
CN102017402B (zh) * 2007-12-21 2015-01-07 Dts有限责任公司 用于调节音频信号的感知响度的系统
CN102057423B (zh) * 2008-06-10 2013-04-03 杜比实验室特许公司 用于隐藏音频伪迹的方法、系统、计算机系统用途
US8892228B2 (en) 2008-06-10 2014-11-18 Dolby Laboratories Licensing Corporation Concealing audio artifacts
CN101483416B (zh) * 2009-01-20 2011-09-14 杭州火莲科技有限公司 一种语音的响度均衡处理方法
CN105845145A (zh) * 2010-12-03 2016-08-10 杜比实验室特许公司 用于处理媒体数据的方法和媒体处理系统
CN102946520A (zh) * 2012-10-30 2013-02-27 深圳创维数字技术股份有限公司 一种自动控制频道音量的方法及数字电视终端
WO2014067206A1 (zh) * 2012-10-30 2014-05-08 深圳创维数字技术股份有限公司 一种自动控制频道音量的方法及数字电视终端
CN102946520B (zh) * 2012-10-30 2016-12-21 深圳创维数字技术有限公司 一种自动控制频道音量的方法及数字电视终端
CN110231087A (zh) * 2019-06-06 2019-09-13 江苏省广播电视集团有限公司 一种高清电视音频响度分析报警及归一化制作方法和设备
CN110231087B (zh) * 2019-06-06 2021-07-23 江苏省广播电视集团有限公司 一种高清电视音频响度分析报警及归一化制作方法和设备

Also Published As

Publication number Publication date
IL165938A (en) 2010-04-15
USRE43985E1 (en) 2013-02-05
MXPA05002290A (es) 2005-06-08
JP2005537510A (ja) 2005-12-08
EP1532621B1 (en) 2006-05-31
DE60305712T8 (de) 2007-07-12
KR20050057045A (ko) 2005-06-16
ATE328341T1 (de) 2006-06-15
EP1532621A1 (en) 2005-05-25
IL165938A0 (en) 2006-01-15
MY133623A (en) 2007-11-30
US20040044525A1 (en) 2004-03-04
CA2491570C (en) 2011-10-18
CN100371986C (zh) 2008-02-27
AU2003263845A1 (en) 2004-03-19
DE60305712D1 (de) 2006-07-06
CA2491570A1 (en) 2004-03-11
TW200404272A (en) 2004-03-16
AU2003263845B2 (en) 2008-08-28
TWI306238B (en) 2009-02-11
HK1073917A1 (en) 2005-10-21
US7454331B2 (en) 2008-11-18
KR101019681B1 (ko) 2011-03-07
WO2004021332A1 (en) 2004-03-11
JP4585855B2 (ja) 2010-11-24
DE60305712T2 (de) 2007-03-08

Similar Documents

Publication Publication Date Title
CN1679082A (zh) 控制包含语音和其它类型音频素材的信号中的语音响度
CN1264138C (zh) 复制语音信号、解码语音、合成语音的方法和装置
JP6279686B2 (ja) オーディオデコーダ及び復号方法
CN1220179C (zh) 在通信系统中确定速率的装置和方法
CN1288622C (zh) 编码设备和解码设备
CN1030129C (zh) 高效数字数据编码和译码装置
CN1669074A (zh) 话音增强装置
CN1154013A (zh) 信号编码方法和装置
JP2002014689A (ja) デジタルに圧縮されたスピーチの了解度を向上させる方法および装置
CN1816847A (zh) 保真度优化的可变帧长编码
CN1795490A (zh) 用于计算和调节音频信号的感觉响度的方法、设备和计算机程序
CN1156872A (zh) 语音编码的方法和装置
CN1174457A (zh) 语音信号传输方法及语音编码和解码系统
CN1161750C (zh) 语音编码译码方法和装置、电话装置、音调变换方法和介质
CN1261713A (zh) 接收装置和方法,通信装置和方法
EP2133873A1 (en) Audio information processing apparatus, audio information processing method and associated computer program
US20050246170A1 (en) Audio signal processing apparatus and method
CN1155139A (zh) 降低语音信号噪声的方法
JP2003216196A (ja) 音声符号化装置及びその方法
JP2003216197A (ja) 音声復号化装置及びその方法
JP2005025216A (ja) 音声復号化装置及びその方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term

Granted publication date: 20080227

CX01 Expiry of patent term