CN102113315B - 用于处理音频信号的方法和装置 - Google Patents

用于处理音频信号的方法和装置 Download PDF

Info

Publication number
CN102113315B
CN102113315B CN2009801298871A CN200980129887A CN102113315B CN 102113315 B CN102113315 B CN 102113315B CN 2009801298871 A CN2009801298871 A CN 2009801298871A CN 200980129887 A CN200980129887 A CN 200980129887A CN 102113315 B CN102113315 B CN 102113315B
Authority
CN
China
Prior art keywords
signal
audio signal
phase
channel
monophonic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009801298871A
Other languages
English (en)
Other versions
CN102113315A (zh
Inventor
文种何
吴贤午
李凖一
李铭勋
郑亮源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of CN102113315A publication Critical patent/CN102113315A/zh
Application granted granted Critical
Publication of CN102113315B publication Critical patent/CN102113315B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/05Generation or adaptation of centre channel in multi-channel audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

公开了一种用于处理音频信号的方法。本发明包括:获取包括语音分量信号和其他分量信号的立体声音频信号;获取用于所述音频信号的每个声道的增益值;确定所述音频信号是否是包括左声道和相位相反的右声道的反相单声道信号;当所述音频信号是反相单声道信号时,将对应于所述音频信号的一个声道的所述已获取的增益值的相位进行反相;基于所述增益值的反相相位,修改所述语音分量信号;并且产生包括所述已修改的语音分量信号的已修改音频信号,其中所述已修改的音频信号是同相单声道信号。因此,一种对反相音频信号的语音信号的音量进行独立控制的装置及其方法,在该装置及方法中,通过用于确定输入信号是否是包括左声道和相位相反的右声道的反相单信号的处理,来改变对应于音频信号的一个声道的最终增益值的标记或者调整对应于音频信号的一个声道的最终增益的值。

Description

用于处理音频信号的方法和装置
技术领域
本发明涉及用于对从音频信号提取的语音信号的音量进行独立控制的装置及其方法,并且更具体地涉及一种用于通过将对应于左声道和相位相反的右声道中的一个声道的增益值的相位进行反相,来对音信号的音量进行独立控制的装置及其方法。
背景技术
一般而言,音频放大技术用于在家庭娱乐系统、立体声系统和其他消费者电子设备中放大低频信号和实施各种收听环境(例如,音乐厅等)。例如,分离对话音量(SDV)意指这样一种技术,其用于从立体声/多声道音频信号提取语音信号(例如,对话),并然后对提取出的语音信号的音量进行独立控制,以解决在观看电视或电影中递送语音存在困难的问题。
发明内容
【技术问题】
一般而言,用于对包括在音频/视频信号中的语音信号的音量进行控制的方法和装置,使得可以根据用户在诸如电视接收机、数字多媒体广播(DMB)播放器、个人媒体播放器(PMP)之类的用于回放音频信号的各种设备之中的请求来有效控制语音信号。
然而,当由于诸如传输误差或有意的原因,使得左声道和右声道信号的相位相反时,如果即使为单声道信号,但在左声道和右声道信号之间的相关性具有负值(例如,如果输入信号扩展很宽而不是集中在特定的声音点上),则由于SDV算法的特性,不把对应的信号识别为语音信号。因此,不能控制对应的音量。
同时,SDV算法的操作需要根据用户的请求来手动控制,而对于用户使用电视接收机等可能是不方便的。
【技术解决方案】
因此,本发明涉及对从音频信号提取出的语音信号的音量进行独立控制的装置及其方法,其基本避免了由于相关技术的限制和缺点而导致的一个或多个问题。
本发明的一个目的是提供一种用于对反相音频信号的语音信号的音量进行独立控制的装置及其方法,在其中,通过用于确定输入信号是否是包括左声道和相位相反的右声道的反相单声道信号的处理,来改变对应于音频信号的一个声道的最终增益值的标记或者调整对应于音频信号的一个声道的最终增益的值。
本发明的另一目的是提供一种用于通过自动控制激活SDV的定时点来对语音信号的音量进行独立控制的装置。
【有益效果】
因此,本发明提供以下效果或优点。
首先,在反相输入音频信号中,可以通过改变最终增益的标记或者调整对应于音频信号的左声道和右声道中的一个声道的最终增益的值,来控制语音信号的音量。
第二,在反相输入音频信号中,可以通过对音频信号的左声道或右声道的相位进行反相,来控制语音信号的音量。
第三,通过确定输入音频信号的声道间相关性,可以检查输入音频信号的相位是否反相。
第四,通过自动控制激活SDV的定时点,可以独立控制语音信号的音量。
附图说明
包括附图以提供对本发明的进一步理解,并且附图被并入和组成本说明一部分,图示本发明的实施例,并与描述一起用作解释本发明的原理。
在附图中:
图1是用于经由TV等来回放音频信号的处理的示意图;
图2是用于在一般单声道信号环境或者反相单声道信号环境中,经由TV等来回放音频信号的处理的示意图;
图3是用于语音信号控制技术的混合模型的示意图;
图4是通过使用时间-频率片来分解立体声信号的曲线图;
图5是根据本发明的实施例,包括反相相位检测单元的语音信号控制系统的框图;
图6是根据本发明的实施例,包括自动SDV e检测单元的语音信号控制系统的框图;
图7是根据本发明实施,基于检测到的声音的特征的音频处理装置的框图;
图8是根据本发明的实施例,包括ICLD检测单元的语音信号控制系统的框图;
图9是包括具有用于控制对话音量的SDV控制器的遥控器音量按钮的遥控器的部分示意图;
图10和图11是经由电视接收机的OSD(屏幕显示)通知对话音量控制信息的方法的示意图;以及
图12是用于执行对话放大技术的数字电视系统1200的示例的框图。
具体实施方式
将在以下说明中阐述本发明的其他特征和优点,并且部分将从描述中变得明显,或是可以通过本发明的实践而习得。通过在撰写的描述及其权利要求以及附图中具体指出的结构,可以实现并获得本发明的目的和其它优点。
为了实现这些和其他优点并且根据本发明的目的,按具体实现和广泛描述的那样,一种用于处理音频信号的方法,包括:获取包括语音分量信号和其他分量信号的立体声音频信号;获取用于所述音频信号的每个声道的增益值;确定所述音频信号是否是包括左声道和相位相反的右声道的反相单声道信号;当所述音频信号是反相单声道信号时,将对应于所述音频信号的一个声道的所述已获取的增益值的相位进行反相;基于所述增益值的反相相位,修改所述语音分量信号;并且产生包括已修改的语音分量信号的已修改音频信号,其中所述已修改的音频信号是同相单声道信号。
优选地是,所述已修改的音频信号是反相单声道信号。
优选地是,所述确定进一步包括:确定在所述音频信号的两个声道之间的声道间相关性;将一个或多个阈值与所述声道间相关性进行比较;并且基于所述比较的结果,确定所述音频信号是否是反相单声道信号。
更加优选地是,确定每子带所述声道间相关性。在该实例中,如果所述声道间相关性的和小于一个或多个阈值,则所述音频信号是反相单声道信号。
更优选地是,确定每子带所述声道间相关性,如果所述声道间相关性的和小于一个或多个阈值,则所述音频信号是反相单声道信号。
优选地是,所述确定进一步包括:确定在所述音频信号的两个声道之间的声道间相关性;将一个或多个阈值与为负值的所述声道间相关性的数量进行比较;并且基于所述比较的结果,确定所述音频信号是否是反相单声道信号。
更优选地是,确定每子带所述声道间相关性,如果为负值的所述声道间相关性的数量大于一个或多个阈值,则所述音频信号是反相单声道信号。
为了进一步实现这些和其他优点并且根据本发明的目的,一种用于处理音频信号的方法,包括:获取包括语音分量信号和其他分量信号的立体声音频信号;确定音频信号是否是包括左声道和相位相反的右声道的反相单声道信号;当所述音频信号是反相单声道信号时,将所述音频信号的一个声道的相位进行反相;获取用于音频信号的每个声道的增益值;基于所述已获取的增益值,修改所述语音分量信号;并且产生包括所述已修改的语音分量信号的已修改音频信号,其中所述已修改的音频信号是同相单声道信号。
为了进一步实现这些和其他优点并且根据本发明的目的,一种用于处理音频信号的装置,包括:增益获取单元,获取包括语音分量信号和其他分量信号的立体声音频信号,并且获取用于所述音频信号的每个声道的增益值;反相检测单元,确定所述音频信号是否是包括左声道和相位相反的右声道的反相单声道信号;增益修改单元,当所述音频信号是反相单声道信号时,将对应于所述音频信号的一个声道的所述已获取的增益值的相位进行反相;以及信号修改单元,基于所述增益值的反相相位,修改所述语音分量信号,并且产生包括所述已修改的语音分量信号的已修改的音频信号,其中所述已修改的音频信号是同相单声道信号。
为了进一步实现这些和其他优点并且根据本发明的目的,一种用于处理音频信号的装置,包括:增益获取单元,获取包括语音分量信号和其他分量信号的立体声音频信号;反相检测单元,确定所述音频信号是否是包括左声道和相位相反的右声道的反相单声道信号;以及信号修改单元,当所述音频信号是反相单声道信号时,将所述音频声道的一个声道的相位进行反相,获取所述音频信号的每个声道的增益值,基于所述已获取的增益值,修改所述语音分量信号,并且产生包括所述已修改的语音分量信号的已修改的音频信号,其中所述已修改的音频信号是同相单声道信号。
应当理解,上述一般描述和以下具体描述是示例性和解释性的,并且意在提供如所要求的对本发明的进一步解释。
【发明模式】
现在将具体参考本发明的优选实施例,在附图中图示其示例。首先,基于发明人能够适当地定义术语的概念以最佳方式描述发明人的发明这一原理,在本说明和权利要求中使用的术语和词语不被解释为受限于一般或字典含义,且不应被解释为与本发明的技术想法匹配的含义和概念。在本公开中公开的实施例和附图中示出的配置仅是一种优选实施例,并不代表本发明的所有技术思想。因此,应当理解,本发明涵盖本发明的修改和变化,只要这些修改和变化落入在提交本申请时所附权利要求及其等效内容的范围之内。
具体而言,在本公开中的“信息”是通常包括值、参数、系数、元素等的术语,并且其含义根据情况而不同地解释,本发明不受限于此。
根据本发明的语音信号(具体而言,对话分量)音量控制技术与由于传输误差或有意造成的左声道和右声道的相位是反相的反相单声道信号环境中修改语音信号的音频信号处理装置和方法相关。首先,在以下描述中,将要解释用于在一般环境而不是反相单声道信号环境中修改语音信号的音频信号处理装置和方法。
图1是用于经由TV等来回放音频信号的处理的示意图。
参考图1,将语音信号C作为相等信号施加到左和右扬声器,接着通过观众所处的收听空间递送到收听者的双耳。在这样做时,SDV提取作为相同信号施加到左声道和右声道的语音信号C,并且然后控制已提取语音信号的音量,让收听者听得清楚或是不清楚。在该单声道信号是新闻的情况下,当SDV从左声道和右声道信号中提取了相同信号时,就提取了整个信号。当SDV控制语音信号时,并且更具体地,当控制对话音量时,带来了控制整个音量的效果。
图2是用于在一般单声道信号环境或者反相单声道信号环境中,经由TV等来回放音频信号的处理的示意图。
参考图2,在一般单声道信号环境中,左声道和右声道信号的功率和相位相同。但是,为了给特定广播的单声道信号环境提供轻微的立体声效果,可以以左声道和右声道信号的相位是反相的方式发送左声道和右声道信号。这称为反相单声道信号环境。在该情况下,如果发送广播站有意反相的信号、如果发送因传输误差导致的误差信号、或者如果原始信号具有该特性,则可以产生反相单声道信号环境。在反相单声道信号环境中,尽管左声道和右声道信号构成相同的信号,但由于左和右信号的相位是反相的,因此一般SDV无法发现左声道和右声道信号的相同分量。因此,完全不能提取任何语音分量。
图3是用于对话增强技术的混合模型300的框图。在模型100中,收听者从左声道和右声道接收音频信号。音频信号s对应于来自于由因子a所确定的方向的本地化声音。对应于横向反射或者回响声音的独立音频信号n1和n2常被称为周围环境声或周围环境。可以录制或混合立体声信号,从而对于给定的音频源,音频信号可以以特定的方向指示(例如,水平差、时间差)相干地进入左和右音频信号声道,并且横向反射或者回响的独立信号n1和n2进入确定听觉事件宽度和收听者环绕指示的声道。模型300可以在数学上表示为在一个音频源捕捉音频源和周围环境的本地化的情况下,立体声信号的感知激励分解(perceptuallymotivated decomposition)。
[数学式1]
x1(n)=s(n)+n1(n)
x2(n)=as(n)+n2(n)
为了在多个同时活动的音频源的情况下,获得在非固定情景中有效的分解,分解[1]可以在多个频带中独立执行并且可以在时间上进行调整。
[数学式2]
X1(i,k)=S(i,k)+N1(i,k)
X2(i,k)=A(i,k)S(i,k)+N2(i,k),
其中i是子带索引,k是子带时间索引。
图4是通过使用时间-频率片图示立体声信号的分解的曲线图。在每个具有索引i和k的时间-频率片200中,可以独立估计信号S、N1、N2和分解增益因子A。为了注释的简洁,在以下描述中省略子带和时间索引i和k。
当在感知激励子带带宽的情况下使用子带分解时,可以选择子带的带宽等于一个重要的频带。在每个子带中,可以大约每t毫秒(例如,20ms)估计一次S、N1、N2和A。为了低的计算复杂性,可以使用短时傅里叶变换(STFT)实施快速傅里叶变换(FFT)。在立体声子带信号、X1和X2的情况下,估计S、A、N1、N2。对X1的功率的短时估计可以表示为:
[数学式3]
P X 1 ( i , k ) = E { X 1 2 ( i , k ) } ,
其中E{.}是短时间平均运算。对于其他信号,可以使用相同的规则,即PX2、PS和PN=PN1=PN2是对应的短时功率估计。假定N1和N2的功率相同,即假定对于左声道和右声道,横向独立声音的数量相同。
在给出立体声信号的子带表示的情况下,可以确定功率(PX1、PX2)和归一化互相关。在左声道和右声道之间的归一化互相关是:
[数学式4]
Φ ( i , k ) = E { X 1 ( i , k ) X 2 ( i , k ) } E { X 1 2 ( i , k ) E { X 2 2 ( i , k ) } .
可以将A、PS、PN计算为估计的PX1、PX2和Φ的函数。与已知和未知变量相关的三个等式是:
[数学式5]
PX1=PS+PN
PX2=A2PS+PN
Φ = a P S P X 1 P X 2 .
可以从等式[5]解出A、PS和PN,得到
[数学式6]
A = B 2 C
P S = 2 C 2 B
P N = X 1 - 2 C 2 B ,
[数学式7]
B = P X 2 - P X 1 + ( P X 1 - P X 2 ) 2 + 4 P X 1 P X 2 Φ 2
C = Φ P X 1 P X 2 .
接着,将S、N1、N2的最小二乘估计计算为A、PS和PN的函数。对于每个i和k,可以将信号S估计为:
[数学式8]
S ^ = w 1 X 1 + w 2 X 2
= w 1 ( S + N 1 ) + w 2 ( AS + N 2 ) ,
其中w1和w2是实值的权重。估计误差为:
[数学式9]
E=(1-w1-w2A)S-w1N1-w2N2.
当误差E与X1和X2正交时,权重w1和w2在最小二乘意义下是最优的,即
[数学式10]
E{EX1}=0
E{EX2}=0,
产生两个等式:
[数学式11]
(1-w1-w2A)PS-w1PN=0
A(1-w1-w2A)PS-w2PN=0,
从数学式11计算出权重。
[数学式12]
w 1 = P S P N ( A 2 + 1 ) P S P N + P N 2
w 2 = AP S P N ( A 2 + 1 ) P S P N + P N 2 .
N1的估计可以为:
[数学式13]
N ^ 1 = w 3 X 1 + w 4 X 2
= w 3 ( S + N 1 ) + w 4 ( AS + N 2 ) .
估计误差为:
[数学式14]
E=(-w3-w4A)S-(1-w3)N1-w2N2.
同样,将权重计算为使得估计误差与X1和X2正交,得到:
[数学式15]
w 3 = A 2 P S P N + P N 2 ( A 2 + 1 ) P S P N + P N 2
w 4 = - AP S P N ( A 2 + 1 ) P S P N + P N 2 .
计算N2的最小二乘估计的权重:
[数学式16]
N ^ 2 = w 5 X 1 + w 6 X 2
= w 5 ( S + N 1 ) + w 6 ( AS + N 2 ) ,
[数学式17]
w 5 = - AP S P N ( A 2 + 1 ) P S P N + P N 2
w 6 = P S P N + P N 2 ( A 2 + 1 ) P S P N + P N 2 .
在一些实施中,最小二乘估计可以是后调整的,从而估计的功率等于PS并且PN=PN1=PN2
Figure BPA00001307911400123
的功率是
[数学式18]
P S ^ = ( w 1 + aw 2 ) 2 P S + ( w 1 2 + w 2 2 ) P N .
因此,为了用功率PS获得对S的估计,调整
Figure BPA00001307911400125
[数学式19]
S ^ ′ = P S ( w 1 + a w 2 ) 2 P S + ( w 1 2 + w 2 2 ) P N S ^ .
出于类似原因,调整
Figure BPA00001307911400127
[数学式20]
N ^ 1 ′ = P N ( w 3 + aw 4 ) 2 P S + ( w 3 2 + w 4 2 ) P N N ^ 1
N ^ 2 ′ = P N ( w 5 + aw 6 ) 2 P S + ( w 5 2 + w 6 2 ) P N N ^ 2 .
假定在之前描述的信号分解的情况下,可以通过每次对于每个子带施加[2],并且将子带转换回到时域来获取类似于原始立体声信号的信号。
为了利用修改后的对话增益产生信号,将子带计算为:
[数学式21]
Y 1 ( i , k ) = 10 g ( i , k ) 20 S ( i , k ) + N 1 ( i , k )
Y 2 ( i , k ) = 10 g ( i , k ) 20 A ( i , k ) S ( i , k ) + N 2 ( i , k ) ,
其中g(i,k)是以dB为单位计算的增益因子,使得对话增益根据需要进行修改。
这些观察值意味着将g(i,k)在很低的频率和8kHz以上设置为0dB,以尽可能少地潜在修改立体声信号。
如在以上描述中所提到的,在公式2中X1和X2分别指示SDV的左和右输入信号。并且,在公式21中Y1和Y2分别指示SDV的左和右输出信号。但是,在输入具有相反相位的反相单声道信号环境中,在SDV的左和右输入信号中,变为X2=-X1。如果将此插入公式中并展开(develop),则其变为Y1=X1和Y2=X2[A=1]。结果是,如果输入具有相反相位,一般SDV在输入中识别不具有任何语音信号的背景声,然后保持原样地将输入进行输出。
但是,反相单声道信号环境不是全都不具有语音信号的环境。相反,反相单声道信号环境是为了提供立体声效果所产生的,或者由于在传输过程中的误差而出现的。因此,将整个信号识别为语音信号,接着对其进行处理。
为了防止X1和X2在公式21中产生Y1和Y2时被抵消,有必要将X1或X2的相位或者对应于X1或X2的增益值的相位进行反相。
通过使用以上公式,可以如下表示X和Y之间的关系。
[数学式22]
Y 1 ( i , k ) = 10 g ( i , k ) 20 ( w 1 X 1 + w 2 X 2 ) + ( w 3 X 1 + w 4 X 2 )
= ( 10 g ( i , k ) 20 w 1 + w 3 ) X 1 + ( w 2 + w 4 ) X 2
Y 2 ( i , k ) = 10 g ( i , k ) 20 A ( i , k ) ( w 1 X 1 + w 2 X 2 ) X 1 + ( w 3 X 1 + w 4 X 2 )
= ( 10 g ( i , k ) 20 A ( i , k ) w 1 + w 3 ) X 1 + ( Aw 2 + w 4 ) X 2
在该实例中,
Figure BPA00001307911400145
指示增益X1Y1,w2+w4指示增益X1Y2
Figure BPA00001307911400146
指示增益X2Y2,而Aw2+w4指示增益X2Y1
在公式22中,由于通过添加与原始相位反相的具有增益X1Y2和X2Y1的相位,抵消了语音信号,因此可以通过将X1或X2的相位或者增益的相位进行反相来输出非抵消语音信号。
本发明涉及一种对在具有将增益的相位进行反相所产生的反相相位的输入信号中的语音信号进行独立控制的方法,本发明并受该方法的限制。在反相单声道信号环境中,如果增益X1Y2和X2Y1的相位是相反的,则可以在保持X1和X2的相位的同时输出Y1和Y2。即,在保持反相单声道信号环境的同时,语音信号可以受控输出(例如,对话音量受控)。另一方面,如果增益X2Y1和X2Y2的相位是反相的,Y1和Y2作为具有输入X1的相同相位的一般单声道环境信号输出,而不是反相单声道信号环境。如果增益X1Y1和X1Y2的相位相反,则将Y1和Y2作为具有输入X2的相同相位的一般单声道环境信号输出。
图5是根据本发明的实施例,包括反相检测单元的语音信号控制系统的框图。
参考图5,使用输入信号,通过语音信号估计单元520估计语音信号。规定的增益(例如,用户设置的增益)可以应用于估计的语音信号。随后,通过增益获取单元540获取输出信号的增益。同时,通过反相检测单元520确定输入信号是否是反相单声道信号。通过增益修改单元550对增益获取单元540获取的增益的标记或值进行修改。因此,可以修改语音信号。为了本发明描述的简洁和便利,解释了在输入音频信号的整个带宽上估计或控制语音信号的方法,本发明并不受限于此。即,根据规定的实施例,系统500包括:解析滤波器组、功率估计器、信号估计器、后调整模块、信号合成模块和合成滤波器组。因此,如果在多个子带上划分输入音频信号,并且通过语音信号估计器(附图中未示出)估计每个子带上的语音信号将是更有效的。语音信号控制系统500的元素可以作为分离的处理而存在。而且,至少两个或多个元素的处理可以组合为一个元素。
本发明需要通过反相检测单元520确定输入信号环境是否是反相单声道信号环境。根据规定的实施例,反相检测单元530检查每子带输入信号帧的声道间相关性。如果它们的和未能达到阈值,则将对应的帧认为是反相单声道信号帧。替代性地,反相检测单元520检查每子带输入信号帧的声道间相关性。如果为负值的子带号大于阈值,则可以将对应的帧看作为反相单声道信号帧。此外,上述方法可以一起使用。
图6是根据本发明的实施例,包括自动SDV e检测单元的语音信号控制系统的框图。如果音频信号的对话显著大于音频信号的噪声分量或外部噪声,则SDV的必要性降低。因此,可以通过自动确定SDV操作的必要性来确定SDV操作的方法。参考图6,语音信号控制系统包括:自动SDV检测单元610和SDV处理单元620。可以经由自动SDV检测单元610自动确定SDV操作的必要性来改变SDV操作的存在与否以及增益范围。具体而言,通过语音信号估计单元630来估计语音信号。通过增益获取单元640来获取输出信号的增益。而且,增益修改单元650改变增益的标记或者修改通过自动SDV检测单元610确定的增益值。而且,信号修改单元660可以基于已修改的增益来修改语音信号。
根据规定的实施例,首先,自动SDV检测单元610确定仅在对话分量信号的功率Pc小于信号内的噪声分量的功率Pn或者外部噪声的功率Ps(可以限定为特定比值)时,才执行SDV操作。其次,自动SDV检测单元610可以通过将诸如麦克风等的测量外部噪声的这类设备附接到具有SDV设备的应用的外部,并接着测量通过该设备获取的外部噪声的范围,来确定执行SDV操作。选择性地,自动SDV检测单元610可以将上述两种方法一起使用。
通过根据以上方法确定SDV操作的存在与否,根据输入信号或者外部环境的噪声范围激活SDV或者可以将输入保持原样地进行输出。根据输入信号或者外部环境的噪声值,可以改变用于音频信号的对话分量的增益值。解释了参考根据本发明实施例的功率的自动SDV方法,本发明并不受限于此。而且,本发明可以将包括绝对值等的其他公式和参数纳入考虑范围。
图7是根据本发明实施例,基于检测到的声音的特征的音频处理装置的框图。
参考图7,独立声音质量增强方法适用于对话、定向声和环绕声,分别使用SDV处理单元710来检测。具体而言,可以根据已检测到的声音的特性不同地执行信号处理。例如,可以在SDV之后通过使用声音区分,对声音质量加强或者每信号音色变化、水印和其他信号处理执行均衡来作为输入。在对话的情况下,可以执行诸如用于商业的语音取消和其他用途的信号处理。在定向声的情况下,可以执行诸如用于环绕效果增强的声音扩展的信号处理。在环绕声的情况下,可以执行诸如3D声音效果增前的信号处理。同时,通过获得从SDV处理单元710输入的信号的特性,能够通过频率、成像位置等来区分对话或定向声。而且,由于对话的特性及其位置不变,因此对话主要位于中心。具体而言,在声道间水平差异(ICLD)变化较小的情况下,输入信号极有可能是对话。
图8是根据本发明的实施例,包括ICLD检测单元的语音信号控制系统的框图。
参考图8,SDV处理单元820对于输入信号帧计算每频带的ICLD,然后,将信息递送给ICLD变化检测单元810。ICLD变化检测单元810接着将已传送的当前帧的每频带上的ICLD信息与先前帧的每频带ICLD信息进行比较。如果ICLD没有变化或者存在小的ICLD变化(被确定为对话),则将输入信号帧的分类传递给SDV处理单元。如果ICLD变化大,则尽管SDV处理单元确定输入信号帧是对话,ICLD变化检测单元810仍确定输入信号帧不是对话,而且接着可以使用增益控制的信息。
图9是包括具有用于控制对话音量的SDV控制器的遥控器音量按钮的遥控器的部分示意图。
参考图9,用于增加或降低主音量(例如,整个信号的音量)的主音量控制按钮910位于顶部或底部。而且,用于增加或降低经由语音信号估计单元计算出的作为语音信号的该特定音频信号的音量的语音信号音量控制按钮920可以位于右边或左边。遥控器音量按钮是用于控制语音信号音量的设备的一个实施例,本发明并不受限于此。
图10和图11是经由电视接收机的OSD(屏幕显示)通知对话音量控制信息的方法的示意图。
参考图10,音量条的长度指示主音量,而音量条的宽度指示对话音量的水平。具体而言,如果音量条的长度增加地更多,则其可以指示主音量的水平上升得更高。如果音量条的宽度增加地更多,则其可以意指对话音量的水平上升得更高。
参考图11,可以通过使用音量条的颜色而不是音量条的宽度来表示对话音量水平。具体而言,如果音量条的颜色的密度增加,则其可以意指对话音量的水平上升。
图12是用于实施参考图1-11所描述的特性和处理的示例数字电视系统1200的框图。数字电视(DTV)是用于借助于数字信号广播和接收移动图像和声音的电信系统。DTV使用被数字压缩的数字调制数据,并且需要用专门设计的电视机、或者具有机顶盒的标准接收机或者安装有电视卡的PC来进行解码。尽管图12中的系统是DTV系统,但是所公开的用于对话增强的实施例也可以应用于模拟TV系统或者任何其他能够进行对话增强的系统。
在一些实施例中,系统1200可以包括:接口1202、解调器1204、解码器1206、和音频/视频输出1208、用户输入接口1210、一个或多个处理器1212和一个或多个计算机可读取介质1214(例如,RAM、ROM、SDRAM、硬盘、光盘、闪存、SAN等)。这些组件中的每个均耦合到一个或多个通信声道1216(例如,总线)。在一些实施中,接口1202包括用于获取音频信号或者组合的音频/视频信号的各种电路。例如,在模拟电视系统中,接口可以包括:天线电子、调谐器或混频器、射频(RF)放大器、本振、中频(IF)放大器、一个或多个滤波器、解调器、音频放大器等。系统1200的其他实施例是可能的,包括具有更多或更少组件的实施。
调谐器1202可以是用于接收包括是视频和音频内容的数字电视信号的DTV调谐器。解调器1204从数字电视信号中提取视频和音频信号。如果视频和音频信号是被编码的(例如,MPEG编码的),则解码器1206对这些信号进行解码。A/V输出是能够显示视频和播放音频的任何设备(例如,TV显示器、计算机监视器、LCD、扬声器、音频系统)。
在一些实施中,例如,可以通过使用遥控器上的显示设备或者屏幕显示(OSD)向用户显示对话音量水平,而且,用户输入接口可以包括用于对遥控器产生的红外或无线信号进行接收和解码的电路(例如,无线或红外接收机)和/或软件。遥控器可以包括参考图10-11描述的分离的对话音量控制按键或按钮、或者主音量控制按钮和对话音量控制按钮。
在一些实施中,一个或多个处理器可以执行在计算机可读取介质1214中存储的代码,以实施特性和操作1218、1220、1222、1226、1228、1230和1232。
计算机可读取介质进一步包括:操作系统1218、解析/合成滤波器组1220、功率估计器1222、信号估计器1224、后调整模块1226和信号合成器1228。
尽管这里已经参照优选实施例对本发明进行了描述和说明,但是对于本领域的技术人员来说,显然在不偏离本发明的精神和范围的前提下,可以做出各种修改和变化。因此,意在使本发明涵盖在所附权利要求及其等效内容内的本发明的修改和变化。
【工业可应用性】
因此,本发明可以应用于对音频信号的编码/解码。

Claims (7)

1.一种用于处理音频信号的方法,包括:
获取包括语音分量信号和其他分量信号的立体声音频信号;
获取用于所述音频信号的每个声道的增益值;
确定所述音频信号是否是包括左声道和相位相反的右声道的反相单声道信号;
当所述音频信号是反相单声道信号时,将对应于所述音频信号的一个声道的已获取的增益值的相位进行反相;
基于所述增益值的反相相位,修改所述语音分量信号;以及
产生包括已修改的语音分量信号的已修改音频信号,
其中所述已修改的音频信号是同相单声道信号。
2.如权利要求1所述的方法,其中所述已修改的音频信号是反相单声道信号。
3.如权利要求1或2所述的方法,其中所述确定进一步包括:
确定在所述音频信号的两个声道之间的声道间相关性;
将一个或多个阈值与所述声道间相关性进行比较;以及
基于所述比较的结果,确定所述音频信号是否是反相单声道信号。
4.如权利要求3所述的方法,其中,确定每子带所述声道间相关性,并且如果所述声道间相关性的和小于一个或多个阈值,则所述音频信号是反相单声道信号。
5.如权利要求1或2所述的方法,其中所述确定进一步包括:
确定在所述音频信号的两个声道之间的声道间相关性;
将一个或多个阈值与为负值的所述声道间相关性的数量进行比较;以及
基于所述比较的结果,确定所述音频信号是否是反相单声道信号。
6.如权利要求5所述的方法,其中确定每子带所述声道间相关性,以及如果为负值的所述声道间相关性的数量大于一个或多个阈值,则所述音频信号是反相单声道信号。
7.一种用于处理音频信号的装置,所述装置包括:
增益获取单元,获取包括语音分量信号和其他分量信号的立体声音频信号,并且获取用于所述音频信号的每个声道的增益值;
反相检测单元,确定所述音频信号是否是包括左声道和相位相反的右声道的反相单声道信号;
增益修改单元,当所述音频信号是反相单声道信号时,将对应于所述音频信号的一个声道的所述已获取的增益值的相位进行反相;以及
信号修改单元,基于所述增益值的反相相位,修改所述语音分量信号,并且产生包括所述已修改的语音分量信号的已修改的音频信号,
其中所述已修改的音频信号是同相单声道信号。
CN2009801298871A 2008-07-29 2009-07-29 用于处理音频信号的方法和装置 Expired - Fee Related CN102113315B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US8426708P 2008-07-29 2008-07-29
US61/084,267 2008-07-29
PCT/KR2009/004219 WO2010013940A2 (en) 2008-07-29 2009-07-29 A method and an apparatus for processing an audio signal

Publications (2)

Publication Number Publication Date
CN102113315A CN102113315A (zh) 2011-06-29
CN102113315B true CN102113315B (zh) 2013-03-13

Family

ID=41217682

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2009801298871A Expired - Fee Related CN102113315B (zh) 2008-07-29 2009-07-29 用于处理音频信号的方法和装置
CN200980129785XA Expired - Fee Related CN102113314B (zh) 2008-07-29 2009-07-29 用于处理音频信号的方法和设备

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN200980129785XA Expired - Fee Related CN102113314B (zh) 2008-07-29 2009-07-29 用于处理音频信号的方法和设备

Country Status (6)

Country Link
US (2) US8265299B2 (zh)
EP (2) EP2149878A3 (zh)
KR (2) KR101599534B1 (zh)
CN (2) CN102113315B (zh)
TW (2) TWI413421B (zh)
WO (2) WO2010013946A2 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2144229A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
EP2565667A1 (en) 2011-08-31 2013-03-06 Friedrich-Alexander-Universität Erlangen-Nürnberg Direction of arrival estimation using watermarked audio signals and microphone arrays
CN105359214A (zh) * 2013-05-03 2016-02-24 石哲 二重唱模式的媒体内容物制作方法及用于其的媒体内容物制作装置
US10141004B2 (en) * 2013-08-28 2018-11-27 Dolby Laboratories Licensing Corporation Hybrid waveform-coded and parametric-coded speech enhancement
WO2015089733A1 (zh) * 2013-12-17 2015-06-25 华为终端有限公司 一种在多媒体终端中播放音频文件的方法及多媒体终端
TWI554943B (zh) * 2015-08-17 2016-10-21 李鵬 音訊處理方法及其系統
JP7023848B2 (ja) 2016-01-29 2022-02-22 ドルビー ラボラトリーズ ライセンシング コーポレイション バイノーラル・ダイアログ向上
JP2018159759A (ja) * 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
KR102468799B1 (ko) * 2017-08-11 2022-11-18 삼성전자 주식회사 전자장치, 그 제어방법 및 그 컴퓨터프로그램제품
CN108170399B (zh) * 2017-12-26 2021-04-30 上海展扬通信技术有限公司 一种双声道处理方法及终端
WO2020000427A1 (zh) * 2018-06-29 2020-01-02 华为技术有限公司 一种语音控制方法、可穿戴设备及终端
CN110232931B (zh) * 2019-06-18 2022-03-22 广州酷狗计算机科技有限公司 音频信号的处理方法、装置、计算设备及存储介质
US10904690B1 (en) * 2019-12-15 2021-01-26 Nuvoton Technology Corporation Energy and phase correlated audio channels mixer
CN111200777B (zh) * 2020-02-21 2021-07-20 北京达佳互联信息技术有限公司 信号处理方法及装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1898988A (zh) * 2003-12-25 2007-01-17 雅马哈株式会社 声音输出装置
CN2938669Y (zh) * 2006-06-29 2007-08-22 彭发龙 低音处理电路

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3148287A (en) * 1961-03-09 1964-09-08 Columbia Broadcasting Syst Inc Signal phase sensing and maintaining system
US3772479A (en) * 1971-10-19 1973-11-13 Motorola Inc Gain modified multi-channel audio system
GB1522599A (en) * 1974-11-16 1978-08-23 Dolby Laboratories Inc Centre channel derivation for stereophonic cinema sound
US4415768A (en) * 1981-05-28 1983-11-15 Carver R W Tuning apparatus and method
KR100198289B1 (ko) 1996-12-27 1999-06-15 구자홍 마이크 시스템의 지향성 제어장치와 제어방법
US6311155B1 (en) * 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
US7206420B2 (en) * 1999-11-29 2007-04-17 Syfx Tekworks Softclip method and apparatus
US7039201B1 (en) * 2000-10-31 2006-05-02 Leetronics Corporation Audio signal phase detection system and method
KR20030059624A (ko) * 2002-01-03 2003-07-10 삼성전자주식회사 휴대용컴퓨터의 볼륨제어시스템 및 볼륨제어방법
KR20040023084A (ko) * 2002-09-10 2004-03-18 엘지전자 주식회사 사운드 레벨 조절장치 및 방법
KR100542129B1 (ko) * 2002-10-28 2006-01-11 한국전자통신연구원 객체기반 3차원 오디오 시스템 및 그 제어 방법
JP4694763B2 (ja) * 2002-12-20 2011-06-08 パイオニア株式会社 ヘッドホン装置
US7970144B1 (en) * 2003-12-17 2011-06-28 Creative Technology Ltd Extracting and modifying a panned source for enhancement and upmix of audio signals
NO320942B1 (no) * 2003-12-23 2006-02-13 Tandberg Telecom As System og fremgangsmate for forbedret stereolyd
KR20060007243A (ko) * 2004-07-19 2006-01-24 엘지전자 주식회사 휴대용 컴퓨터의 볼륨 제어 방법
CN101015230B (zh) * 2004-09-06 2012-09-05 皇家飞利浦电子股份有限公司 音频信号增强
EP1761110A1 (en) * 2005-09-02 2007-03-07 Ecole Polytechnique Fédérale de Lausanne Method to generate multi-channel audio signals from stereo signals
KR100733965B1 (ko) * 2005-11-01 2007-06-29 한국전자통신연구원 객체기반 오디오 전송/수신 시스템 및 그 방법
WO2007136187A1 (en) * 2006-05-19 2007-11-29 Electronics And Telecommunications Research Institute Object-based 3-dimensional audio service system using preset audio scenes
CN101473645B (zh) 2005-12-08 2011-09-21 韩国电子通信研究院 使用预设音频场景的基于对象的三维音频服务系统
KR100802179B1 (ko) 2005-12-08 2008-02-12 한국전자통신연구원 프리셋 오디오 장면을 이용한 객체기반 3차원 오디오서비스 시스템 및 그 방법
KR100648394B1 (ko) 2006-06-15 2006-11-24 (주)엑스파미디어 스테레오 음원의 음성 제거 방법 및 장치
JP4835298B2 (ja) 2006-07-21 2011-12-14 ソニー株式会社 オーディオ信号処理装置、オーディオ信号処理方法およびプログラム
JP2010515290A (ja) * 2006-09-14 2010-05-06 エルジー エレクトロニクス インコーポレイティド ダイアログエンハンスメント技術のコントローラ及びユーザインタフェース

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1898988A (zh) * 2003-12-25 2007-01-17 雅马哈株式会社 声音输出装置
CN2938669Y (zh) * 2006-06-29 2007-08-22 彭发龙 低音处理电路

Also Published As

Publication number Publication date
EP2149878A2 (en) 2010-02-03
EP2149877A3 (en) 2014-06-04
US20100054485A1 (en) 2010-03-04
TWI413421B (zh) 2013-10-21
WO2010013940A3 (en) 2010-06-03
KR20110042305A (ko) 2011-04-26
EP2149877B1 (en) 2020-12-09
TWI429302B (zh) 2014-03-01
US8396223B2 (en) 2013-03-12
WO2010013946A3 (en) 2010-06-03
KR20110036830A (ko) 2011-04-11
WO2010013946A2 (en) 2010-02-04
US20100034394A1 (en) 2010-02-11
KR101599534B1 (ko) 2016-03-03
CN102113314B (zh) 2013-08-07
KR101599533B1 (ko) 2016-03-03
WO2010013940A2 (en) 2010-02-04
TW201012246A (en) 2010-03-16
EP2149878A3 (en) 2014-06-11
CN102113314A (zh) 2011-06-29
TW201012247A (en) 2010-03-16
US8265299B2 (en) 2012-09-11
CN102113315A (zh) 2011-06-29
EP2149877A2 (en) 2010-02-03

Similar Documents

Publication Publication Date Title
CN102113315B (zh) 用于处理音频信号的方法和装置
US8275610B2 (en) Dialogue enhancement techniques
EP3189521B1 (en) Method and apparatus for enhancing sound sources
RU2576467C2 (ru) Шумоподавление на основе прогнозирования в стереофоническом радиосигнале с частотной модуляцией
CN101518100B (zh) 对话增强技术
US9743215B2 (en) Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
US9521502B2 (en) Method for determining a stereo signal
EP4161105A1 (en) Spatial audio filtering within spatial audio capture
US20160344902A1 (en) Streaming reproduction device, audio reproduction device, and audio reproduction method
WO2008087577A1 (en) Receiver for a multi-channel audio signal, method for processing a multi-channel audio signal and signal processing device
EP3029671A1 (en) Method and apparatus for enhancing sound sources
EP4161106A1 (en) Spatial audio capture

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130313

Termination date: 20200729

CF01 Termination of patent right due to non-payment of annual fee