CN102113314A - 用于处理音频信号的方法和设备 - Google Patents

用于处理音频信号的方法和设备 Download PDF

Info

Publication number
CN102113314A
CN102113314A CN200980129785XA CN200980129785A CN102113314A CN 102113314 A CN102113314 A CN 102113314A CN 200980129785X A CN200980129785X A CN 200980129785XA CN 200980129785 A CN200980129785 A CN 200980129785A CN 102113314 A CN102113314 A CN 102113314A
Authority
CN
China
Prior art keywords
signal
gain
audio signal
modification
speech components
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200980129785XA
Other languages
English (en)
Other versions
CN102113314B (zh
Inventor
文种何
吴贤午
李凖一
李铭勋
郑亮源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of CN102113314A publication Critical patent/CN102113314A/zh
Application granted granted Critical
Publication of CN102113314B publication Critical patent/CN102113314B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/05Generation or adaptation of centre channel in multi-channel audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

公开了一种用于处理音频信号的方法。本发明包括:获得多信道音频信号,所述多信道音频信号包括语音分量信号和其他分量信号;获得所述音频信号的增益;获得修改强度参数,所述修改强度参数确定所述语音分量信号的修改的强度;基于所述修改强度参数来修改所述增益;以及,基于所述修改的增益来修改所述语音分量信号。

Description

用于处理音频信号的方法和设备
技术领域
本发明涉及一种用于独立地控制从音频信号提取的语音信号的音量的设备及其方法,更具体地涉及一种用于通过将与相位被反转的、左右信道中的一个信道对应的增益值的相位反转来独立地控制语音信号的音量的设备及其方法。
背景技术
通常,使用音频放大技术来在家庭娱乐系统、立体声系统、和其他消费电子装置中放大低频信号,并且实现各种收听环境(例如,音乐厅等)。例如,独立的对话音量(SDV)表示如下一种技术,其用于从立体声/多信道音频信号提取语音信号(例如,对话),然后独立地控制所提取的语音信号的音量,以便解决难于在观看电视或电影时提供语音的问题。
发明内容
通常,一种用于控制在音频/视频信号中包括的语音信号的音量的方法和设备能够在诸如电视接收机、数字多媒体广播(DMB)播放机和个人媒体播放机(PMP)等的、用于回放音频信号的各种装置中,根据由用户发出的请求来有效地控制语音信号。
然而,当左右信道信号的相位由于诸如在传输中的误差的原因或者被有意地被反转时,尽管在单信道信号的情况下如果在左右信道信号之间的相关性具有负值,例如,如果输入信号被较宽地扩展而不是集中在声音上的特定点,则因为SDV算法的特性,所述对应的信号不被识别为语音信号。因此,不能控制对应的音量。
同时,需要根据由用户发出的请求来人为地控制SDV算法的操作,对于使用电视接收机等的用户而言可能造成不便。
技术方案
因此,本发明涉及一种用于独立地控制从音频信号提取的语音信号的音量的设备及其方法,该设备及其方法基本上消除了由于现有技术的限制和缺点导致的问题中的一个或多个。
本发明的目的是提供一种用于独立地控制反相音频信号的语音信号的音量的设备及其方法,在其中,通过用于确定输入信号是否是相位被反转的、包括左右信道的反相单信道信号的处理,与所述音频信号的一个信道对应的最后增益值的符号被改变,或与所述音频信号的一个信道对应的最后增益的值被调整。
本发明的另一个目的是提供一种用于通过自动地控制启动SDV的定时点来独立地控制语音信号的音量的设备。
有益效果
因此,本发明提供了下面的效果或优点。
首先,在反相输入音频信号中,能够通过改变最后增益的符号或调整与所述音频信号的左右信道中的一个信道对应的所述最后增益的值来控制语音信号的音量。
其次,在反相输入音频信号中,能够通过反转所述音频信号的左信道或右信道的相位来控制语音信号的音量。
第三,通过确定输入的音频信号的信道间相关性,能够查看所述输入音频信号的相位是否被反转。
第四,通过自动地控制启动SDV的定时点,能够独立地控制语音信号的音量。
附图说明
附图被包括来进一步理解本发明,并且被包含在本说明书中并且构成本说明书的一部分,附图图示本发明的实施例,并且与描述一起用于解释本发明的原理。
在附图中:
图1是用于经由TV等来回放音频信号的处理的图;
图2是用于在一般的单信道信号环境或反相单信道信号环境中经由TV等来回放音频信号的处理的图;
图3是用于音频信号控制技术的混合模型的图;
图4是使用时间-频率网格的立体声信号的分析的图;
图5是根据本发明的实施例的、包括反相检测单元的语音信号控制系统的框图;
图6是根据本发明的实施例的、包括自动SDV检测单元的语音信号控制系统的框图;
图7是根据本发明的实施例的、由于所检测的声音的特性而导致的语音信号处理设备的框图;
图8是根据本发明的实施例的、包括ICLD检测单元的语音信号控制系统的框图;
图9是遥控器的部分视图,该遥控器包括遥控器音量按钮,该遥控器音量按钮具有用于控制对话音量的SDV控制器;
图10和图11是用于经由电视接收机的OSD(在屏显示)来通知对话音量控制信息的方法的图;以及
图12是执行对话放大技术的数字电视机系统1200的示例的框图。
具体实施方式
本发明的另外的特征和优点将在随后的描述中被给出,并且根据该描述,部分的特征和优点将变得显而易见,或可以通过本发明的实施来学习本发明的另外的特征和优点。将通过在书面描述及其权利要求以及附图中具体指出的结构来实现和获得本发明的目的和其他优点。
为了实现这些和其他优点并且根据本发明的目的,如具体表达和宽泛地描述,一种用于处理音频信号的方法包括:获得多信道音频信号,所述多信道音频信号包括语音分量信号和其他分量信号;获得所述音频信号的增益;获得修改强度参数,所述修改强度参数确定所述语音分量信号的修改的强度;基于所述修改强度参数来修改所述增益;以及,基于所述修改的增益来修改所述语音分量信号。
优选的是,所述方法进一步包括:修改所述获得的增益。
优选的是,基于所述语音分量信号和其他分量信号的功率来确定所述修改强度参数。
更优选的是,基于在所述语音分量信号的功率和其他分量信号的功率之间的差来修改所述增益。
优选的是,基于外部噪声的值来确定所述修改强度参数。
更优选的是,基于外部噪声的所述值来修改所述增益。
为了进一步实现这些和其他优点,并且根据本发明的目的,一种用于处理音频信号的设备包括:增益获得单元,用于获得多信道音频信号,并且获得所述音频信号的增益,其中,所述多信道音频信号包括语音分量信号和其他分量信号;自动SDV检测单元,用于获得修改强度参数,所述修改强度参数确定所述语音分量信号的修改的强度;增益修改单元,用于基于所述修改强度参数来修改所述增益;以及,信号修改单元,用于基于所述修改的增益来修改所述语音分量信号。
应当明白,上述的一般描述和下面的详细描述两者是示例性和解释性的,并且意欲提供所要求保护的本发明的进一步的描述。
本发明的模式
现在详细参考本发明的优选实施例,在附图中示出该优选实施例的示例。首先,在本说明书和权利要求中使用的术语或词汇不应当被解释为限于一般或词典的含义,并且应当被解释为基于以下原理的与本发明的技术思想匹配的含义和概念:即,发明人能够适当地限定该术语的概念以便以最佳的方式来描述发明人的发明。在本公开中公开的实施例和在附图中所述的配置仅是一个优选实施例,并且不表示本发明的所有的技术思想。因此,可以明白,本发明涵盖本发明的修改和变型,只要该修改和变型处于提交本申请时的所附的权利要求及其等同内容的范围内。
优选的是,在本公开中的“信息”是一般包括值、参数、系数、和元素等的术语,并且其含义偶尔可以被解释为不同,本发明不限于此。
根据本发明的语音信号(特别是对话分量)音量控制技术可以涉及如下的音频信号处理设备和方法,其用于在由于传输上的误差而导致或有意地反转左右信道的相位的反相单信道信号环境中修改语音信号。首先,在下面的描述中,将描述如下的音频信号处理设备和方法,其用于在一般环境中而不是反相单信道信号环境中修改语音信号。
图1是用于经由TV等来回放音频信号的处理的图。
参见图1,语音信号C被作为等价的信号施加到左右扬声器,然后通过观众所位于的收听空间被提供到收听者的两耳。由此,SDV提取作为相同的信号被施加到左右信道的语音信号C,然后控制所提取的语音信号的音量,以使其被收听者清楚地或不清楚地听到。在诸如新闻的单信道信号的情况下,当SDV从左右信道信号提取相同的信号时,提取了整个信号。当SDV控制语音信号时,更具体地,当控制对话音量时,带来控制整个音量的效果。
图2是用于在一般的单信道信号环境或反相单信道信号环境中经由TV等来回放音频信号的处理的图。
参见图2,在一般的单信道信号环境中,左右信道信号的功率和相位相等。但是,为了向特定广播的单信道信号环境提供轻微的立体声效果,可以以被反转的左右信道信号的相位的方式来发送正确的左右信道信号(right left and right channel signal)。这被称为反相单信道信号环境。在该情况下,如果发送由广播站有意反转的信号,如果发送由于在传输中的误差而导致的错误信号,或如果原始信号具有这种特性,则可以建立反相单信道信号环境。在反相单信道信号环境中,虽然左右信道信号构造相同的信号,但是因为左右信道信号的相位被反转,所以一般的SDV不能发现左右信道信号的相同分量。因此,根本不能提取任何语音分量。
图3是用于对话增强技术的混合模型300的框图。在模型100中,收听者从左右信道接收音频信号。音频信号s对应于来自由因子a确定的方向的本地化声音(localized sound)。独立的音频信号n1和n2对应于横向反射或反响的声音,其经常被称为环境声音或周围环境。立体声信号可以被记录或混合,以便对于给定的音源,源音频信号以特定的方向提示(例如,电平差、时间差)来连贯地进入左右音频信号信道,并且,横向反射或反响的独立信号n1和n2进入信道内以确定收听事件宽度和收听者的包围提示。模型300可以被数学地表示为具有一个音源的立体声信号的感知刺激的分解,以捕获该音源和周围环境的定位。
[数学式1]
x1(n)=s(n)+n1(n)
x2(n)=as(n)+n2(n)
为了获得在具有多个同时活动的音源的非稳定情况中有效的分解,可以在多个频带中独立地并且在时间上自适应地执行[1]的分解。
[数学式2]
X1(i,k)=S(i,k)+N1(i,k)
X2(i,k)=A(i,k)S(i,k)+N2(i,k)
其中,i是子带指数,并且k是子带时间指数。
图4是图示使用时间-频率网格的立体声信号的分解的图。在具有指数i和k的每一个时间-频率网格200中,可以独立地估计信号S、N1、N2和分解增益系数A。为了表示的简洁,在下面的描述中忽略子带和时间指数i和k。
当使用具有感知刺激的子带宽度的子带分解时,子带的宽度可以被选择得等于一个临界带。可以在每一个子带中,每t毫秒(例如,20毫秒)地近似估计S、N1、N2和A。对于低计算复杂度,可以使用短时间傅立叶变换(STFT)来实现快速傅立叶变换(FFT)。在给出立体声子带信号X1和X2的情况下,可以确定估计值S、A、N1、N2。可以如下表示X1的功率的短时间估计值
[数学式3]
P X 1 ( i , k ) = E { X 1 2 ( i , k ) }
其中,E{.}是短时间平均运算。对于其他信号,可以使用相同的协定,即,PX2、PS和PN=PN1=PN2是对应的短时间功率估计值。假定N1和N2的功率是相同的,即,假定横向独立声音的数量对于左右信道是相同的。
在给定立体声信号的子带表示的情况下,可以确定功率(Px1,Px2)以及标准化的互相关性。在左右信道之间的标准化的互相关性是:
[数学式4]
Φ ( i , k ) = E { X 1 ( i , k ) X 2 ( i , k ) } E { X 1 2 ( i , k ) E { X 2 2 ( i , k ) }
可以根据估计的PX1、PX2和Φ来计算A、PS、PN。与已知和未知的变量相关性的三个等式是:
[数学式5]
PX1=PS+PN
PX2=A2PS+PN
Φ = aP S P X 1 P X 2
可以对于A、PS和PN求解等式[5],以得出:
[数学式6]
A = B 2 C
P S = 2 C 2 B
P N = X 1 - 2 C 2 B
其中
[数学式7]
B = P X 2 - P X 1 + ( P X 1 - P X 2 ) 2 + 4 P X 1 P X 2 Φ 2
C = Φ P X 1 P X 2
接下来,根据A、PS和PN来计算S、N1、N2的最小平方估计值。对于每一个i和k,可以将信号S估计为
[数学式8]
S ^ = w 1 X 1 + w 2 X 2
= w 1 ( S + N 1 ) + w 2 ( AS + N 2 )
其中,w1和w2是实数值的加权。估计误差是:
[数学式9]
E=(1-w1-w2A)S-w1N1-w2N2
当误差E与X1和X2正交时,即
[数学式10]
E{EX1}=0
E{EX2}=0
时,加权w1和w2在最小平方的意义上是最佳的,得出两个等式:
[数学式11]
(1-w1-w2A)PS-w1PN=0
A(1-w1-w2A)PS-w2PN=0
从其计算加权:
[数学式12]
w 1 = P S P N ( A 2 + 1 ) P S P N + P N 2
w 2 = AP S P N ( A 2 + 1 ) P S P N + P N 2
N1的估计值可以是:
[数学式13]
N ^ 1 = w 3 X 1 + w 4 X 2
= w 3 ( S + N 1 ) + w 4 ( AS + N 2 )
估计误差是:
[数学式14]
E=(-w3-w4A)S-(1-w3)N1-w2N2
再一次计算加权,使得估计误差与X1和X2正交,产生:
[数学式15]
w 3 = A 2 P S P N + P N 2 ( A 2 + 1 ) P S P N + P N 2
w 4 = - A P S P N ( A 2 + 1 ) P S P N + P N 2
用于计算N2的最小平方估计值
[数学式16]
N ^ 2 = w 5 X 1 + w 6 X 2
= w 5 ( S + N 1 ) + w 6 ( AS + N 2 )
的加权是
[数学式17]
w 5 = - A P S P N ( A 2 + 1 ) P S P N + P N 2
w 6 = P S P N + P N 2 ( A 2 + 1 ) P S P N + P N 2
在一些实施方式中,可以后缩放最小平方估计值,使得估计值的功率等于PS和PN=PN1=PN2
Figure BPA00001308067000115
的功率是:
[数学式18]
P S ^ = ( w 1 + aw 2 ) 2 P S + ( w 1 2 + w 2 2 ) P N
因此,为了获得具有功率PS的S的估计值,
Figure BPA00001308067000117
被缩放:
[数学式19]
S ^ ′ = P S ( w 1 + aw 2 ) 2 P S + ( w 1 2 + w 2 2 ) P N S ^
使用类似的推理,
Figure BPA00001308067000119
被缩放:
[数学式20]
N ^ 1 ′ = P N ( w 3 + aw 4 ) 2 P S + ( w 3 2 + w 4 2 ) P N N ^ 1
N ^ 2 ′ = P N ( w 5 + aw 6 ) 2 P S + ( w 5 2 + w 6 2 ) P N N ^ 2
在给出先前描述的信号分解的情况下,可以通过下述方式来获得与原始立体声信号类似的信号:即,在每一时间并且对于每一个子代应用[2],并且将子带转换回时域。
为了产生具有修改的对话增益的信号,将子带计算为:
[数学式21]
Y 1 ( i , k ) = 10 g ( i , k ) 20 S ( i , k ) + N 1 ( i , k )
Y 2 ( i , k ) = 10 g ( i , k ) 20 A ( i , k ) S ( i , k ) + N 2 ( i , k )
其中,g(i,k)是以dB为单位的增益系数,其被计算使得根据需要来修改对话增益。
这些观察暗示,g(i,k)在很低频率和大于8kHz的频率上被设置为0dB,以可能尽可能小地修改立体声信号。
如在上面的描述中所述,X1和X2分别指示在公式2中的SDV的左右输入信号。并且,Y1和Y2分别指示在公式21中的SDV的左右输出信号。但是,在输入具有反相的反相单信道信号环境中,在SDV的左右输入信号中变为X2=-X1。如果将此插入公式中然后展开,则变为Y1=X1,并且Y2=X2[A=1]。因此,如果输入具有相反的相位,则一般的SDV识别在输入中根本不存在任何语音信号的背景声音,然后完整地输出该输入。
但是,反相单信道信号环境不是根本没有语音信号的情况。相反,反相单信道信号环境被产生来强制产生立体声效果,或其由于在传输过程中的误差而发生。因此,整个信号被识别为语音信号,然后被处理。
为了防止在公式21中产生的Y1和Y2中抵消X1和X2,必须反转X1或者X2的相位,或者与X1或X2对应的增益值的相位。
使用上面的公式,可以将在X和Y之间的关系表示如下:
[数学式22]
Y 1 ( i , k ) = 10 g ( i , k ) 20 ( w 1 X 1 + w 2 X 2 ) + ( w 3 X 1 + w 4 X 2 )
= ( 10 g ( i , k ) 20 w 1 + w 3 ) X 1 + ( w 2 + w 4 ) X 2
Y 2 ( i , k ) = 10 g ( i , k ) 20 A ( i , k ) ( w 1 X 1 + w 2 X 2 ) X 1 + ( w 3 X 1 + w 4 X 2 )
= ( 10 g ( i , k ) 20 A ( i , k ) w 1 + w 3 ) X 1 + ( Aw 2 + w 4 ) X 2
在该情况下,
Figure BPA00001308067000135
指示增益X1Y1,w2+w4指示增益X1Y2
Figure BPA00001308067000136
指示增益X2Y2,并且,Aw2+w4指示增益X2Y1
在公式22中,因为通过向原始相位加上使得增益X1Y2和X2Y1反相的相位来抵消语音信号,所以能够通过反转X1或X2的相位,或者通过反转增益的相位来输出未抵消的语音信号。
本发明涉及一种用于独立地控制在具有通过反转增益的相位而产生的反转的相位的输入信号中的语音信号的方法,本发明不限于此。在反相单信道信号环境中,如果增益X1Y2和X2Y1的相位被反转,则可以在保持X1和X2的相位的同时,输出Y1和Y2。即,可以在保持反相单信道信号环境的同时,通过控制语音信号(例如,控制对话音量)来输出语音信号。另一方面,如果增益X2Y1和X2Y2的相位被反转,Y1和Y2被输出为具有与输入X1相同的相位的一般的单信道环境信号,而不是反相单信道信号环境的信号。如果增益X1Y1和X1Y2的相位被反相,则将Y1和Y2输出为具有与输入X2相同的相位的一般单信道环境信号。
图5是根据本发明的实施例的、包括反相检测单元的语音信号控制系统的框图。
参见图5,语音信号估计单元520使用输入信号来估计语音信号。指定的增益(例如,由用户设置的增益)可被应用到估计的语音信号。随后,通过增益获得单元540来获得输出信号的增益。同时,通过反相检测单元520确定输入信号是否是反相单信道信号。增益修改单元550修改由增益获得单元540获得的增益的符号或值。因此,可以修改语音信号。为了本发明的描述的清楚和方便,说明了一种用于在输入音频信号的整个频带上估计或控制语音信号的方法,本发明不限于此。即,根据指定实施例,系统500包括分析滤波器组、功率估计器、信号估计器、后缩放模块、信号合成模块、和合成滤波器组。因此,如果在多个子带上划分输入音频信号,并且然后通过语音信号估计器[在附图中未示出],在每一个子带上估计语音信号。语音信号控制系统500的元件可以作为独立的处理而存在。并且,至少两个或更多元件的处理可以被组合为一个元件。
本发明需要通过反相检测单元520来确定输入信号环境是否是反相单信道信号环境。根据一个指定实施例,反相检测单元520查看每一个子带的输入信号帧的信道之间的相关性。如果它们的和不能达到阈值,则将对应的帧看作反相单信道信号帧。替代地,反相检测单元520查看每一个子带的输入信号帧的信道之间的相关性。如果负的子带数量大于阈值,则能够将对应的帧看作反相单信道信号帧。而且,能够一起使用上面的方法。
图6是根据本发明的实施例的、包括自动SDV检测单元的语音信号控制系统的框图。如果音频信号的对话比音频信号的噪声分量或外部噪声大得多,则降低了SDV的必要性。因此,能够通过自动地确定SDV操作的必要性来确定SDV操作的方法。参见图6,语音信号控制系统包括自动SDV检测单元610和SDV处理单元620。能够经由自动SDV检测单元610,通过自动地确定SDV操作的必要性,来改变SDV操作的存在与否以及改变增益的程度。具体地说,通过语音信号估计单元630估计语音信号。通过增益获得单元640来获得输出信号的增益。并且,增益修改单元650改变增益的符号,或者修改由自动SDV检测单元610确定的增益的值。并且,信号修改单元660可以基于修改的增益来修改语音信号。
根据指定实施例,首先,只有对话分量信号的功率PC小于在信号中的噪声分量的功率Pn或者外部噪声的功率PS(其可以限于特定比率)时,自动SDV检测单元610才确定执行SDV操作。其次,自动SDV检测单元610能够通过下述方式来确定执行SDV操作:即,将诸如麦克风等的用于测量外部噪声的装置附接到具有SDV装置的应用的外部,然后测量通过这个装置而获得的外部噪声的程度。可选地,自动SDV检测单元610可以一起使用上面的两种方法。
通过根据上面的方法来确定SDV操作的存在与不存在,根据输入信号或外部环境的噪声程度来启动SDV,或可以完整地输出输入。根据输入信号或外部环境的噪声的值,能够改变用于音频信号的对话分量的增益的值。描述了根据本发明的实施例的关于功率的自动SDV方法,但本发明不限于此。并且,本发明能够考虑包括绝对值等的其他公式和参数。
图7是根据本发明的实施例的、由于所检测的声音的特性而导致的语音信号处理设备的框图。
参见图7,独立的声音质量加强方法适用于使用SDV处理单元710而分别检测的对话、定向声音、和环绕声。具体地说,可以根据所检测的声音的特性来不同地执行信号处理。例如。能够使用在SDV后识别的声音作为输入来执行用于每一个信号的声音质量加强或音色改变的均衡、水印、和其他信号处理。在对话的情况下,可以执行用于商业和其他用途的诸如声音消除的信号处理。在定向声音的情况下,可以执行用于环绕效果增强的诸如声音加宽的信号处理。在环绕声的情况下,可以执行诸如三维声音效果增强的信号处理。同时,通过获得从SDV处理单元710输入的信号的特性,能够通过频率或成像位置等来区别对话或定向声音。并且,由于其特性,对话大多数位于中心,并且其位置不改变。具体地说,如果信道之间的大小差异(ICLD)改变得较小,则很可能输入信号是对话。
图8是根据本发明的实施例的、包括ICLD检测单元的语音信号控制系统的框图。
参见图8,SDV处理单元820计算输入信号帧的每一个频带的ICLD,然后将该信息提供到ICLD改变检测单元810。ICLD改变检测单元810然后将所提供的当前帧的每一个频带的ICLD信息与前一个帧的每一个频带ICLD信息作比较。如果没有ICLD的改变或存在ICLD的小的改变(被确定为对话),则将输入信号帧的分类递交到SDV处理单元。如果ICLD改变较大,则尽管SDV处理单元确定输入信号帧是对话,但是ICLD改变检测单元810也确定输入信号帧不是对话,然后能够使用用于增益控制的信息。
图9是遥控器的部分视图,该遥控器包括遥控器音量按钮,该遥控器音量按钮具有用于控制对话音量的SDV控制器。
参见图9,可以自上而下定位用于提高或降低主音量(例如,整个信号的音量)的主音量控制按钮910。并且,从右向左定位用于提高或降低诸如经由语音信号估计单元计算的语音信号的特定音频信号的音量的语音信号音量控制按钮920。遥控器音量按钮是用于控制语音信号音量的装置的一个实施例,但是本发明不限于此。
图10和图11是用于经由电视接收机的OSD(在屏显示)来通知对话音量控制信息的方法的图。
参见图10,音量条长度指示主音量,而音量条的宽度指示对话音量的大小。具体地说,如果音量条的长度增大得更多,则这可以指示主音量的大小被提高得越高。如果音量条的宽度提高得更多,则这可以指示对话音量的大小被提高得越高。
参见图11,可以使用音量条的颜色而不是音量条的宽度来表示对话音量大小。具体地说,如果音量条的颜色的密度提高,则这可以表示对话音量的大小提高。
图12是用于实现参考图1-11描述的特征和处理的示例数字电视机系统1200的框图。数字电视机(DTV)是电信系统,用于通过数字信号的方式来广播和接收移动画面和声音。DTV使用数字压缩的数字调制数据,并且要求通过特殊设计的电视机或具有机顶盒的标准接收器或被配备了电视卡的PC来进行解码。虽然在图12中的系统是DTV系统,但是也可以将所公开的用于对话增强的实施方式应用到能够对话增强的模拟TV系统或任何其他系统。
在一些实施方式中,系统1200可以包括接口1202、解调器1204、解码器1206、音频/视频输出1208、用户输入接口1210、一个或多个处理器1212、和一个或多个计算机可读介质1214(例如,RAM、ROM、SDRAM、硬盘、光盘、快闪存储器、SAN等)。这些部件的每一个耦合到一个或多个通信信道1216(例如,总线)。在一些实施方式中,接口1202包括用于获得音频信号或组合的音频/视频信号的各种电路。例如,在模拟电视系统中,接口可以包括天线电子部件、调谐器或混合器、射频(RF)放大器、本地振荡器、中频(IF)放大器、一个或多个滤波器、解调器、音频放大器等,系统1200的其他实施方式可以是包括具有更多或更少部件的实施方式。
调谐器1202可以是DTV调谐器,用于接收包括视频和音频内容的数字电视信号。解调器1204从数字电视信号提取视频和音频信号。如果视频和音频信号被编码(例如,MPEG编码),则解码器1206解码那些信号。A/V输出可以是能够显示视频和播放音频的任何装置(例如,TV显示器、计算机监控器、LCD、扬声器、音频系统)。
在一些实施方式中,可以使用例如在遥控器上的显示装置或在屏显示器(OSD)来向用户显示对话音量大小,并且,用户输入接口可以包括电路(例如,无线或红外线接收器)和/或软件,用于接收和解码由遥控器产生的红外线或无线信号。遥控器可以包括参考图10-11所述的独立对话音量控制按键或按钮,或主音量控制按钮和对话音量控制按钮。
在一些实施方式中,该一个或多个处理器可以执行在计算机可读介质1214中存储的代码,以实现操作和特征1218、1220、1222、1226、1228、1230、和1232。
计算机可读介质进一步包括操作系统1218、分析/合成滤波器组1220、功率估计器1222、信号估计器1224、后缩放模块1226、和信号合成器1228。
虽然已经参考其优选实施例来在此描述和说明本发明,但是对于本领域内的技术人员而言显而易见的是,在不偏离本发明的精神和范围的情况下,可以在其中进行各种修改和改变。因此,本发明旨在使其涵盖在所附的权利要求及其等同内容的范围内的本发明的修改和改变。
工业适用性
因此,本发明可以适用于音频信号的编码/解码。

Claims (12)

1.一种用于处理音频信号的方法,所述方法包括:
获得多信道音频信号,所述多信道音频信号包括语音分量信号和其他分量信号;
获得所述音频信号的增益;
获得修改强度参数,所述修改强度参数确定所述语音分量信号的修改的强度;
基于所述修改强度参数来修改所述增益;以及,
基于所述修改的增益来修改所述语音分量信号。
2.根据权利要求1所述的方法,进一步包括:修改所述获得的增益。
3.根据权利要求1或2所述的方法,其中,基于所述语音分量信号和其他分量信号的功率来确定所述修改强度参数。
4.根据权利要求3所述的方法,其中,基于在所述语音分量信号的功率和其他分量信号的功率之间的差来修改所述增益。
5.根据权利要求1或2所述的方法,其中,基于外部噪声的值来确定所述修改强度参数。
6.根据权利要求5所述的方法,其中,基于外部噪声的值来修改所述增益。
7.一种用于处理音频信号的设备,所述设备包括:
增益获得单元,用于获得多信道音频信号,并且获得音频信号的增益,所述多信道音频信号包括语音分量信号和其他分量信号;
自动SDV检测单元,用于获得修改强度参数,所述修改强度参数确定所述语音分量信号的修改的强度;
增益修改单元,用于基于所述修改强度参数来修改所述增益;以及,
信号修改单元,用于基于所述修改的增益来修改所述语音分量信号。
8.根据权利要求7所述的设备,其中,所述增益获得单元修改所述获得的增益。
9.根据权利要求7或8所述的设备,其中,基于所述语音分量信号和其他分量信号的功率来确定所述修改强度参数。
10.根据权利要求9所述的设备,其中,基于在所述语音分量信号的功率和其他分量信号的功率之间的差来修改所述增益。
11.根据权利要求7或8所述的设备,其中,基于外部噪声的值来确定所述修改强度参数。
12.根据权利要求11所述的设备,其中,基于外部噪声的值来修改所述增益。
CN200980129785XA 2008-07-29 2009-07-29 用于处理音频信号的方法和设备 Expired - Fee Related CN102113314B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US8426708P 2008-07-29 2008-07-29
US61/084,267 2008-07-29
PCT/KR2009/004226 WO2010013946A2 (en) 2008-07-29 2009-07-29 A method and an apparatus for processing an audio signal

Publications (2)

Publication Number Publication Date
CN102113314A true CN102113314A (zh) 2011-06-29
CN102113314B CN102113314B (zh) 2013-08-07

Family

ID=41217682

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2009801298871A Expired - Fee Related CN102113315B (zh) 2008-07-29 2009-07-29 用于处理音频信号的方法和装置
CN200980129785XA Expired - Fee Related CN102113314B (zh) 2008-07-29 2009-07-29 用于处理音频信号的方法和设备

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN2009801298871A Expired - Fee Related CN102113315B (zh) 2008-07-29 2009-07-29 用于处理音频信号的方法和装置

Country Status (6)

Country Link
US (2) US8396223B2 (zh)
EP (2) EP2149877B1 (zh)
KR (2) KR101599534B1 (zh)
CN (2) CN102113315B (zh)
TW (2) TWI413421B (zh)
WO (2) WO2010013946A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110574103A (zh) * 2018-06-29 2019-12-13 华为技术有限公司 一种语音控制方法、可穿戴设备及终端

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2144229A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
EP2565667A1 (en) 2011-08-31 2013-03-06 Friedrich-Alexander-Universität Erlangen-Nürnberg Direction of arrival estimation using watermarked audio signals and microphone arrays
US20160054976A1 (en) * 2013-05-03 2016-02-25 Cheol SEOK Method for producing media contents in duet mode and apparatus used therein
EP3503095A1 (en) 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement
WO2015089733A1 (zh) * 2013-12-17 2015-06-25 华为终端有限公司 一种在多媒体终端中播放音频文件的方法及多媒体终端
TWI554943B (zh) * 2015-08-17 2016-10-21 李鵬 音訊處理方法及其系統
WO2017132396A1 (en) 2016-01-29 2017-08-03 Dolby Laboratories Licensing Corporation Binaural dialogue enhancement
JP2018159759A (ja) * 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
KR102468799B1 (ko) 2017-08-11 2022-11-18 삼성전자 주식회사 전자장치, 그 제어방법 및 그 컴퓨터프로그램제품
CN108170399B (zh) * 2017-12-26 2021-04-30 上海展扬通信技术有限公司 一种双声道处理方法及终端
CN110232931B (zh) * 2019-06-18 2022-03-22 广州酷狗计算机科技有限公司 音频信号的处理方法、装置、计算设备及存储介质
US10904690B1 (en) * 2019-12-15 2021-01-26 Nuvoton Technology Corporation Energy and phase correlated audio channels mixer
CN111200777B (zh) * 2020-02-21 2021-07-20 北京达佳互联信息技术有限公司 信号处理方法及装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020172378A1 (en) * 1999-11-29 2002-11-21 Bizjak Karl M. Softclip method and apparatus
CN1898944A (zh) * 2003-12-23 2007-01-17 坦德伯格电信公司 用于增强的立体声音频的系统和方法
CN1898988A (zh) * 2003-12-25 2007-01-17 雅马哈株式会社 声音输出装置
WO2007026025A2 (en) * 2005-09-02 2007-03-08 Lg Electronics Inc. Method to generate multi-channel audio signals from stereo signals
CN101015230A (zh) * 2004-09-06 2007-08-08 皇家飞利浦电子股份有限公司 音频信号增强

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3148287A (en) * 1961-03-09 1964-09-08 Columbia Broadcasting Syst Inc Signal phase sensing and maintaining system
US3772479A (en) * 1971-10-19 1973-11-13 Motorola Inc Gain modified multi-channel audio system
GB1522599A (en) * 1974-11-16 1978-08-23 Dolby Laboratories Inc Centre channel derivation for stereophonic cinema sound
US4415768A (en) * 1981-05-28 1983-11-15 Carver R W Tuning apparatus and method
KR100198289B1 (ko) * 1996-12-27 1999-06-15 구자홍 마이크 시스템의 지향성 제어장치와 제어방법
US6311155B1 (en) * 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
US7039201B1 (en) * 2000-10-31 2006-05-02 Leetronics Corporation Audio signal phase detection system and method
KR20030059624A (ko) * 2002-01-03 2003-07-10 삼성전자주식회사 휴대용컴퓨터의 볼륨제어시스템 및 볼륨제어방법
KR20040023084A (ko) 2002-09-10 2004-03-18 엘지전자 주식회사 사운드 레벨 조절장치 및 방법
KR100542129B1 (ko) * 2002-10-28 2006-01-11 한국전자통신연구원 객체기반 3차원 오디오 시스템 및 그 제어 방법
JP4694763B2 (ja) * 2002-12-20 2011-06-08 パイオニア株式会社 ヘッドホン装置
US7970144B1 (en) * 2003-12-17 2011-06-28 Creative Technology Ltd Extracting and modifying a panned source for enhancement and upmix of audio signals
KR20060007243A (ko) 2004-07-19 2006-01-24 엘지전자 주식회사 휴대용 컴퓨터의 볼륨 제어 방법
KR100733965B1 (ko) * 2005-11-01 2007-06-29 한국전자통신연구원 객체기반 오디오 전송/수신 시스템 및 그 방법
US8705747B2 (en) * 2005-12-08 2014-04-22 Electronics And Telecommunications Research Institute Object-based 3-dimensional audio service system using preset audio scenes
KR100802179B1 (ko) 2005-12-08 2008-02-12 한국전자통신연구원 프리셋 오디오 장면을 이용한 객체기반 3차원 오디오서비스 시스템 및 그 방법
EP2369836B1 (en) * 2006-05-19 2014-04-23 Electronics and Telecommunications Research Institute Object-based 3-dimensional audio service system using preset audio scenes
KR100648394B1 (ko) 2006-06-15 2006-11-24 (주)엑스파미디어 스테레오 음원의 음성 제거 방법 및 장치
CN2938669Y (zh) * 2006-06-29 2007-08-22 彭发龙 低音处理电路
JP4835298B2 (ja) * 2006-07-21 2011-12-14 ソニー株式会社 オーディオ信号処理装置、オーディオ信号処理方法およびプログラム
WO2008035227A2 (en) * 2006-09-14 2008-03-27 Lg Electronics Inc. Dialogue enhancement techniques

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020172378A1 (en) * 1999-11-29 2002-11-21 Bizjak Karl M. Softclip method and apparatus
CN1898944A (zh) * 2003-12-23 2007-01-17 坦德伯格电信公司 用于增强的立体声音频的系统和方法
CN1898988A (zh) * 2003-12-25 2007-01-17 雅马哈株式会社 声音输出装置
CN101015230A (zh) * 2004-09-06 2007-08-08 皇家飞利浦电子股份有限公司 音频信号增强
WO2007026025A2 (en) * 2005-09-02 2007-03-08 Lg Electronics Inc. Method to generate multi-channel audio signals from stereo signals

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110574103A (zh) * 2018-06-29 2019-12-13 华为技术有限公司 一种语音控制方法、可穿戴设备及终端
CN110574103B (zh) * 2018-06-29 2020-10-23 华为技术有限公司 一种语音控制方法、可穿戴设备及终端

Also Published As

Publication number Publication date
WO2010013946A2 (en) 2010-02-04
WO2010013940A3 (en) 2010-06-03
TW201012246A (en) 2010-03-16
EP2149877A3 (en) 2014-06-04
KR101599534B1 (ko) 2016-03-03
CN102113315A (zh) 2011-06-29
EP2149878A3 (en) 2014-06-11
TW201012247A (en) 2010-03-16
US20100034394A1 (en) 2010-02-11
EP2149877A2 (en) 2010-02-03
TWI413421B (zh) 2013-10-21
KR20110042305A (ko) 2011-04-26
CN102113315B (zh) 2013-03-13
WO2010013940A2 (en) 2010-02-04
KR101599533B1 (ko) 2016-03-03
TWI429302B (zh) 2014-03-01
EP2149878A2 (en) 2010-02-03
US8265299B2 (en) 2012-09-11
US20100054485A1 (en) 2010-03-04
WO2010013946A3 (en) 2010-06-03
US8396223B2 (en) 2013-03-12
CN102113314B (zh) 2013-08-07
KR20110036830A (ko) 2011-04-11
EP2149877B1 (en) 2020-12-09

Similar Documents

Publication Publication Date Title
CN102113314B (zh) 用于处理音频信号的方法和设备
EP2070389B1 (en) Dialogue enhancement techniques
CN101518102B (zh) 对话增强技术
CN105493182A (zh) 混合波形编码和参数编码语音增强
WO2008087577A1 (en) Receiver for a multi-channel audio signal, method for processing a multi-channel audio signal and signal processing device
CN103854650A (zh) 立体声音频编码的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130807

Termination date: 20200729