CN1265217A - 在语音通信系统中语音增强的方法和装置 - Google Patents
在语音通信系统中语音增强的方法和装置 Download PDFInfo
- Publication number
- CN1265217A CN1265217A CN98807458A CN98807458A CN1265217A CN 1265217 A CN1265217 A CN 1265217A CN 98807458 A CN98807458 A CN 98807458A CN 98807458 A CN98807458 A CN 98807458A CN 1265217 A CN1265217 A CN 1265217A
- Authority
- CN
- China
- Prior art keywords
- voice
- frequency
- amplitude
- speech
- communication system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004891 communication Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000001228 spectrum Methods 0.000 claims description 68
- 230000008859 change Effects 0.000 claims description 65
- 206010038743 Restlessness Diseases 0.000 claims description 33
- 230000002708 enhancing effect Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 abstract description 4
- 230000001965 increasing effect Effects 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000013139 quantization Methods 0.000 description 5
- 238000006073 displacement reaction Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 230000035807 sensation Effects 0.000 description 3
- 238000005728 strengthening Methods 0.000 description 3
- 206010011878 Deafness Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 210000004704 glottis Anatomy 0.000 description 2
- 230000010370 hearing loss Effects 0.000 description 2
- 231100000888 hearing loss Toxicity 0.000 description 2
- 208000016354 hearing loss disease Diseases 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/43—Signal processing in hearing aids to enhance the speech intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephonic Communication Services (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Telephone Function (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
- Interconnected Communication Systems, Intercoms, And Interphones (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
语音通信系统包括一个接收单元(14),它接收语音数据和使用该数据以便输出语音(15)。在语音输出之前,由处理单元(10)基于收听人当前的背景噪声的分析改变由解码单元接收的语音的特性以便增强到收听人的语音的清晰度。分析单元(12)确定使用麦克风(13)的背景噪声的类型和等级。判定单元(11)则确定当前接收和重放的语音对在当前的背景噪声中的平均的收听人是否是易理解的。如果判定单元确定该语音是容易理解的,则不需要处理并且处理单元(10)不改变已经传递到它的语音。然而,如果判定单元(11)确定该语音是无法了解的,则必须处理并且在传递它到输出端之前处理单元(10)改变该语音以便使语音更容易理解。也描述一种操作该装置的方法。在特别优选的实施例中,通过改变表示该语音的线路频谱对来改变语音特性。
Description
本发明涉及在语音通信系统中语音增强的方法和装置,特别涉及用于增强语音以便使它对于在多噪声的环境中的收听人更加易理解的这样的一个方法和装置。
语音通信系统例如移动电话机和无线电设备经常用于多噪声的环境中,例如在汽车内。此外,在会话期间这个环境噪声可能变化。这个变化环境噪声可能对于收听人很难懂得由他们的电话机或者无线电设备输出的语音。
根据本发明的一个方面,提供对于使用该系统的收听人增加由语音通信系统输出的语音的清晰度的一个方法,包括:
分析该语音通信系统的当前的背景声频噪声环境;
使用背景噪声分析的结果确定输出给收听人的语音对在当前的背景噪声中的收听人是否是易理解的;以及
在所述确定的基础上改变由语音通信系统输出的语音的特性,使得由语音通信系统输出的改变的语音对在当前的背景噪声中的收听人具有增强的清晰度。
根据本发明的第二方面,提供一个语音通信系统,包括:
分析该语音通信系统的当前的背景声频噪声环境的装置;
使用背景噪声分析的结果确定由语音通信系统输出的语音对在当前的背景噪声中的收听人是否是易理解的装置;以及
根据所述确定装置的输出改变由语音通信系统输出的语音的特性,以便增强对在当前的背景噪声中的收听人的语音的清晰度。
因此本发明监视正在使用语音通信系统的背景噪声(即,在收听人邻近的外部环境的声频噪声)和可以调整由语音通信系统输出给该收听人的语音的特性,使它在当前的背景声频噪声中更容易理解。因此提供在用于多噪声的环境时例如由移动电话机或者无线电设备的扬声器或者耳机听起来的语音输出的增强的清晰度。
此外,因为本发明分析当前的背景噪声,它可以考虑背景噪声的变化以及因此增强该语音。在本发明中因此背景声频噪声最好连续地分析和在该分析的基础上连续地改变语音。这提供了语音的动态增强,并且在背景噪声可以连续地和显著地变化的环境中例如在汽车中是特别有利的。
背景声频环境噪声可以通过各种的技术分析,如在本领域已知的技术。它例如可以使用拾取语音通信系统的用户的语音的通常的麦克风(例如移动电话机或者无线电设备)或者一个单独的麦克风拾取或者取样。
一个实例的背景噪声分析系统是一个过程,即检测(使用许多通常的技术例如在给定的时间间隔加上所有的输入噪声值和比较这些噪声与阈值)用户的语音(例如麦克风信号)和在语音周期之间的间隙期间分析声频的背景噪声。
然后分析(也许使用线性预测)取样的噪声,以便确定它的频谱内容和它的幅度。由线性预测分析得到的LPC(线性预测系数)值包含足够的频谱信息和可用于相关LPC参数的相对幅度与绝对幅度的一个增益参数。
在当前的背景噪声中由语音通信系统输出的语音的清晰度可以使用任何已知的标准技术确定,以便确定该语音对在当前的背景噪声中一个平均的收听人是否是易理解的(即用于评价该语音的收听人的感觉的噪声效果的任何适当的技术)。
最好,比较以频谱分析和幅度定标因数(增益)的形式描述该语音和背景噪声,以便确定该语音对在该噪声中的收听人是否是听得见的。
在一个优选的实施例中,该语音首先区分为两个或者更多个类别,在一个或者更多个频率的语音类别之一的幅度与在那些频率的噪声幅度比较。
在一个这样的比较过程中,语音内容在开始可以区分为非语音,有声的语音或者无声的语音。如果存在非语音(也许在字之间的停顿),则这个可听度是不重要的,因此可以忽略。
如果存在有声的语音,则需要确定它的清晰度。这最好分别在峰值或者共振峰的频率具有噪声幅度的有声的语音中通过比较一个或者多个或者最好每个频谱的峰值和/或一个或者多个或者最好每个共振峰(如在本领域已知的,有声的语音包含称为共振峰的在变化频率的一系列谐振的峰值,它传递大量的信息和在该语音的频谱曲线中频谱的峰值经常对应该信息)的幅度进行。如果考虑一个以上的峰值或者共振峰,则每个峰值或者共振峰的幅度应该与在相应的峰值或者共振峰的频率的噪声幅度比较。
最好,如果在任何共振峰频率或者频谱的峰值或者在特定数量的共振峰或者频谱的峰值频率的噪声幅度超过相应的共振峰或者频谱的峰值振幅,则确定该语音是无法了解的。
在具有背景噪声的语音中频谱峰值和共振峰的相对幅度的这样的比较给出语音清晰度的好的指示,因为它根据清晰度的收听人模型有效地确定语音的清晰度,即它以接近收听人的语音的实际的感觉的模型的方式评价该语音的清晰度。正如熟知的音质理论指出的,给定频率的声音被类似的频率的第二一致的声音掩蔽,而如果第二声音足够大声的,则早先的声音将听不见。因此本申请人认为在语音情况下,具有类似于语音中的共振峰或者频谱峰值的频率的大声的噪音将掩蔽该语音。因此在该语音中一个或者多个或者每个共振峰或者一个或多个或者每个频谱峰值的幅度与在相应的频率或者多频率的噪声幅度的比较将给出那个(或者那些)共振峰或者频谱峰值的可听度的好的指示,因此给出对收听人的语音清晰度的好的指示。
如果期望可以使用另外的语音类别与类别。例如,语音可以区分为元音和子音声音(或者另外的话音声音)。最好使用对确定清晰度是有益的或者适当的类别。因此最好正如在上面的例子中,该类别包括包含语音的共振峰(最好仅仅包含共振峰)的一个类别和那个类别与噪声比较。最好该类别是共振峰包含和非共振峰包含类别。
一旦已经确定了语音的清晰度,该语音可以根据该确定改变,使它更易理解。最好,如果确定该语音是无法了解的,则改变该语音特性,否则不改变。
语音特性的替代可以以各种方式如本领域已知的方式进行。最好增加音量(幅度)和/或改变语音成分的频率,特别是改变该语音中的共振峰和/或频谱峰值。
在特别地优选的这样的安排中,将通过调节语音频谱曲线中共振峰和/或频谱峰值的位置改变语音特性。这样的替代对收听人的语音具有更可察觉的效果以及因此对于增加语音的清晰度是特别地有效。例如,一个或者多个峰值或者共振峰可以在频率中向上或者向下偏移,或者一个或者多个峰值或者共振峰的幅度可以增加(相应于带宽减小),或者一个或者多个峰值或者共振峰的带宽可以增加(相应于幅度减小)。
因此,例如,共振峰的音量可以增加,使得他们在该背景噪声是听得见的。然而,这可能是不希望的改变语音特性的方式,因为足够引起听觉损耗的语言音量电平(如果支持)可以要求使该语音在一定的情形中是易理解的,显著地在多噪声的电动机汽车内的情形。
因此最好调节语音分量的频率例如语音频谱中共振峰或者峰值。这最好是移动它们到噪声电平低的一个频率,使得在该频率该分量例如峰值或者共振峰是听得见的(即具有大于该噪声的幅度)。
语音特性的替代最好根据背景噪声分析的结果实现,并且可以取决于噪声的存在或者过去值。使用噪声的当前值,可能进行直接比较和对该语音特性进行替代;使用过去值,进行预测变化是可能的。例如,如果噪声分析指示在特定的频率噪声幅度降低到目前听不见的共振峰是可听得见的电平,该语音特性可以改变以便变化共振峰的频率为那个特定的频率。
语音特性的实际的替代可以以许多种方式如本领域已知的方式进行。例如,语言信号可以通过一个自适应滤波,例如知觉的差错加权滤波器(正如在IEEE J.Scl.Ateas Commum.1992年,10.(5)第830-849页,CHEN,J.H.,Cok,E.V.,LIN,Y.,JAYANT,N.,和MIECHER,M.J.的文章“A loW delay CELPcoder for the CCITT 16kb/s speech coding standard”)描述的,以便变窄或者变宽共振峰带宽。做为选择幅度峰值可以限制以使语音的无声部分的能量变成总的语音能量的更有效部分。这可能增加清晰度但是以声音质量为代价。
在特别优选的实施例中,该语音特性通过改变代表语音的线路频谱配对(LSP)数据来改变。
正如本领域已知的,线路频谱配对是代表对于声音周期导出的线性预测参数。该声音是语音,在语音或者共振峰中的谐振频率可以在线性预测频谱中指示。LSP值通常唯一地涉及在线性预测频谱中的这样的谐振或者共振峰的位置。因此LSP数据可用于代表语音,申请人已经认为通过改变LSP数据,例如在该语音中的共振峰的频率和幅度特性可以调节。这允许语音特性容易相对地调节和以可以轻易地改变该语言的方式如通过一个收听人的感觉以及在比使用时低得多的计算开销,例如自适应滤波。而且,这样的调节不消除语音频谱部分,而是修改它们。
此外,用于移动电话或者现代数字无线系统的许多语音通信系统例如语音编码/解码系统利用语音的线性预测模型,和变换线性预测模型为用于传输的LSP表示法。LSP表示法由于信息保密和传输效率的理由通常在这样的语音系统内使用。
因此本发明的这个实施例在使用语言传输的LSP的这样的系统中是特别有利的,因为当它被接收以便增强该语音的清晰度时,发送的LSP信息可以在该语音通信方法中改变。然后这个改变的LSP数据被变回到线性预测参数,因此重建为语音和作为声音输出,但是改变了特性。
相信在语音通信系统中代表语音的LSP的调节以便改变由那个系统输出的语音特性它本身是有利的。
因此根据本发明的另一个方面,提供改变输出到语音通信系统中的收听人的语音的特性的一种方法,其中由语音通信系统处理和输出的语音数据包含线路频谱配对数据,包括改变语音数据中的线路频谱的配对数据。
根据本发明的另外方面,提供一种语音通信系统,其中由语音通信系统处理的语音数据包含线路频谱的配对数据,包括用于改变在由语音通信系统处理的语音数据中的线路频谱配对数据以便变化由收听人听到的处理的语音的特性的装置。
在本发明的这些方面中语音数据中的LSP数据的变更最好用于增强当在多噪声的环境中收听时输出语音的清晰度的目的(但是在期望改变由收听人听到的语音的特性的另外的情形中可能是有用的,例如掩饰扬声器的话音)。因此本发明的这些方面最好包括基于该系统(即该收听人)的背景声频噪声环境的分析调节在语音数据内得到的LSP值的技术。最好,用这种方式改变在该语音中得到的特定频率畴特性例如共振峰的频率或者功率和带宽。
LSB变更可以设计用于以特定的方式实现重建的语音,特别用于增强语音对背景噪声的清晰度,正如上面讨论的。例如,可以识别与共振峰相关的特定的线路频谱配对(LSP),然后变宽或者变窄它的间距(或者间隔)以增加或减少共振峰带宽。做为选择或者另外地,线路频谱配对可以在频率中向较高的或者较低的移动以便增加或减少特定的共振峰的频率。
LSP信息最好通过对一个或者多个LSP(或者LSP线路)增加或者减去值,或者通过在语音频谱中移动一个或者多个LSP(或者LSP线路)进行改变。该值可以根据背景噪声的分析确定,并且可以取决于每个LSP的当前或者过去值。使用LSP数据的当前值,可以进行与环境噪声直接比较和对LSP数据进行调节。使用过去值,进行预测变化是可能的。
在特别优选的这样的安排中,本发明包含在任何或者所有的定义语音的LSP(或者LSP线路)组的值中进行数值的递增或者递减。因此各个LSP或者LSP组可以移动到:在频率中位移一个或者多个频谱的峰值或者共振峰(向上或向下);或者改变一个或者多个频谱的峰值或者共振峰的幅度((或者增加幅度(减小带宽)或者减小幅度(增加带宽))。
例如,在一组LSP线路的两个或者多个值之间(最好在一对LSP线路之间)的间距可以变窄或者变宽以便变窄或者变宽在语音频谱中得到的频率特性(例如频谱的峰值或者共振峰)。做为选择或者另外地,一组LSP线路的(最好一对LSB线路的)两个或者多个值可以递增或者递减,最好以相同的数量(或者以绝对项或者作为它们的原始值的百分数)调整在语音的频谱中得到的特性(例如频谱的峰值或者共振峰)的中心频率。
在特别优选的实施例中,线路频谱配对以频率进行翻译,以便改变语音数据中的特定的峰值或者共振峰的中心频率。正如上面讨论的,这是改变由收听人听到的语音特性的特别有利的方式,例如在背景噪声上增加清晰度。
从它的频谱内容的前面改变的分析中预言背景噪声的特性也是可能的,以便允许更快或者更适当的调节LSP。这是特别适用于重复的噪声,例如在警察汽车,火灾应用或者救护车中的警报汽笛。知道改变干扰噪声频率的方式可以进行判定有关那一个方式偏移共振峰频率。
根据收听人的背景噪声的分析,任何或者所有上述调节可以个别地或者组合地用于改变由语音通信系统输出的该语音的语音特性,使得由语音通信系统输出的语音对于收听人更易理解。
本发明已经相对于语音通信系统例如移动电话机和无线电设备描述了。它特别适合于在语音解码器中使用,例如在移动电话机或者移动式无线电装置中使用的。然而,它也可应用(和特别适用于LSP变更方面)在语音编码器中使用,在语音编码器中它期望改变由语音编码器传送的用户输入语音的特性(例如在扬声器的背景噪声上增加清晰度)。它也可应用无线电接收机,电视机或者给听众广播话音的其它装置。虽然已经描述利用特定的基准增加语音的清晰度,但是它还可以用于增加另外的声音例如音乐的清晰度。
现在仅仅通过例子和参见附图描述本发明的优选的实施例,附图中:
图1表示一般的CELP编译码器结构;
图2表示根据本发明的典型的语音通信系统的方框图;
图3利用以垂直线覆盖的声音的已编号LSP值表示声音周期的频谱;和
图4表示利用特定的变更从图3的LSP值获得的声音周期的频谱。该声音改变的LSP值以垂直线覆盖。
本发明特别适用于在语音编译码器系统,例如用于移动电话机或者无线电系统。在图1以一般的CELP编码器的形式表示一个实例的这样的编译码器结构。
一般的CELP(码簿激励的线性预测)结构在1985年引入(例如参见Shroeder MR,Atal BS,的文章“码激励的线性预测(CELP):在非常低比特率的高质量的语音”,ICASSP,第937-940页,1985年),从那时起已经进行了许多修改。
图1表示一般的CELP编译码器结构22。图1表示由线性预测分析器单元或装置2分析导致线性预测(LPC)参数3的输入语音21。不能描述线性预测的剩余的输入信号通过音调滤波器(pitch filter),产生例如表示语音增益和音调的参数的VQ编码方框4。这些过程对本发明是不重要的,并且在它们的细节不同的CELP实现之间广泛地变化,然而它们导致各种的其它参数这些参数和LPC参数一起描述输入语音。
描述该输入语音的LPC参数3和任何其它参数(例如增益和音调)5由量化器6量化并且发送(作为传输参数7)给CELP解码器14,CELP解码器14使用一个解量化器8解量化它们。然后这些解量化的值用于重建作为声音输出给收听人的语音15。(解量化器8分别利用一个LPC合成器30和音调滤波器,VQ解码方框31再现LPC参数3和其它参数5,再现作为声音15输出的语音。)
做为选择LPC参数可以在编码器中量化之前变换为不同的形式(而且在解量化之后变换回到LPC系数),这样的形式可以包含登记区域比率,PARCOR(反射系数)和线路频谱对。
使用的LPC参数的表示法和音调滤波器的类型(或者使用率)以及矢量量化器(VQ)的差别导致许多CELP变形。例子的小的选择是:MELP(混合激发线性预测);VSELP(可变斜率的激发线性预测);SB-CELP(子波段CELP);LD-CELP(低迟延CELP);RELP(剩余激励线性预测);RPE-LP(残余脉冲激发线性预测);等等。
正如上面指出的,在许多这样的codec中LPC参数作为LSPP发送。
术语‘LSP’是指通过使用线路频谱对方法变换线性预测系数产生该参数,正如在由Sugamura和Itakura(Sugamura N,Itakura F,“Speech analysis andsynthesis methods developed at ECL in NTT-from LPC to LSP-”,语音通信,第5卷第199-213页,1986年)的论文中描述的。线性预测系数本身是通过操作一组数据(语音)的任何很好建立的分析方法产生的,例如在1975年Proc.IEEE,第63卷第4期第561-580页Makhoul J的文章“Linear prediction:atutorial review”中描述的方法。
LSP是通过从LPC的数学变换产生的,因此具有相同的信息内容而不同的形式。已经确定了从LPC的许多其它数学变换,但是没有结果参数可以与LSP相同的方式改变,正如在本发明中描述的。
线路频谱对参数可以称为线路频谱频率,然而这个术语仅仅不应用于LSP。
以算术方法来讲,LSP参数可以定义为:通过逆线性予测多项式系数的特定的再安排形成两个多项式的根。这两个多项式可以称作P和Q,并且使用具有下列递归关系的线性预测系数Ap组形成(式中P是阵列的索引,通常从O运行到滤波器命令P):
P(z-1)=Ap(z-1)-z-(p+1)Ap(z)
Q(z-1)=Ap(z-1)+Z-(P+1)Ap(z)
通过求解多项式获得的根P和Q给出线路频谱频率参数,称为线路频谱对。存在许多方法确定这些根,正如在上面指出的Sugamura和Itakura的论文中说明的。方法的选择与本发明的目的无关。
经常标定该组LSP。关于‘基本的’LSP值,它们的余弦或者正弦也称为LSP。另外,基本的LSP可以驻留在各种畴之一中,即它的最大和最小值可能在O和π之间,在O和4000Hz(典型的取样频率)之间,或者在其它任意的范围内,例如O至1。
为理解本发明,也考虑非数学的线路频谱对(LSP)的叙述。当从LPC和反射系数获得LSP时,必须首先包含这些内容。
线性预测是使用固定长度公式模仿一个未知的系统。公式结构是固定的但是插入该公式的值必须找到。线性预测分析是寻找该公式的的最好的一组值。这些值是线性预测系数,而这些值的最好一组是当到两个系统的输入是相同时使该方程式输出类似模仿的系统的输出最接近。
如果那个公式的方程式以算术方法再安排,则可以得到另一个标准方程式。新的方程式的系数称作反射系数并且可以容易地从LPC系数得到。
反射系数方程式非常容易涉及真正的系统。对于语音处理,LPC分析是试图找到模仿语音的短周期的最好的参数。在物理术语中,模仿是许多不同的宽度但是相等的长度管子串联连接组成的。反射系数很好地适合这个物理模型,因为反射系数直接地涉及每个连续的管子之间的差。
当空气被吹到管子时,谐振出现(机构管)。在人们的发声管道中空气在声门始发(它迅速地开和关)并且通过发声管道从嘴里发出。由于谐振,声音与发声管道非常相关。
每个LSP参数涉及一个连接的管子的谐振频率。参数的一半假设管子的信号源端是开路产生的,而参数的一半是假设它是闭合产生的。实际上,声门迅速地开与关,因此是既不开路又不闭合。因此在两个附近的线路频谱频率之间出现每个真的频谱的谐振,并且认为这两个值是一对(因此线路频谱对)。
在语音通信系统中本发明的一个实施例包括一个语音编译码器,和使用LSP变更增强在多噪声的环境中的语音的清晰度表示在图2,而信号处理表示在图3和4。正如图2表示的系统具有与图1的系统共有的许多特性,因此相同的标号用于该系统的同样的特性。
LSP变更机制可以在图2表示的位置中(即在语音解码器24中)的一个语音编译码器内起作用(一个codec包括编码22和解码14机制)。语音编码器22变换输入语音21为适合于通过无线电或者其它装置传输给接收单元14的一组压缩参数20。(应该指出,在这个安排中,在由量化器6量化之前,由线性预测分析器2产生的LPC参数由一个LPC至LSP变频器32变换为线路频谱对数据)然后接收单元解码发送的数据以便重建语音15。举例来说,编码单元22可以驻留在办公室电话中而解码单元14可以驻留在移动电话机手机内。
在这个实施例中,执行对由解码单元接收的数据的变更,该数据包括LSP信息。这个变更单元在图2作为LSP处理器10表示。
LSP处理取决于在收听人的环境中存在的声频噪声背景16的程度和类型。在图2表示的分析单元12确定使用麦克风13的背景噪声的类型和等级,除了别的以外麦克风13拾取收听人的环境的实际的外部背景声频噪声。
一个实例的噪声分析系统是一个过程,即检测(使用许多通常的技术之一,例如在给定时间间隔增加所有的输入噪声值并且比较这些噪声与阈值)用户的语音并且在语音周期之间的间隙期间考虑外部的声频背景噪声。
然后必须分析(也许使用线性预测)取样的噪声,以便确定它的频谱内容和它的幅度。由线性预测分析得到的LPC(线性预测系数)值包含足够的频谱信息和一个增益参数将使LPC参数的相对幅度与绝对幅度有关。
判定装置或单元11确定当前由解码器接收并且作为声音经过移动电话单元的扬声器或者耳机重放的语音数据对在移动电话单元的当前的背景声频噪声16中的平均的收听人(即收听人)是否是易理解的。
如果判定单元确定该语音是容易理解的,则不需要处理并且在传递它们到LSP-LPC变换器33O之前,处理单元10不改变已经由标准语音解码器通过它的解量化的LSP参数17。
另一方面,如果该判定单元确定该语音是无法了解的,则必须处理并且在传递它们给LSP-LPC变换器之前,处理单元10将改变解量化LSP参数以便改变该语音特性,用于接着给收听人重放。判定单元也可以预言该语音不久将变成无法了解。
判定过程的输入是以频谱分析和幅度定标因数(增益)的形式描述语音和背景噪声。必须比较语音和噪声数据以便确定该语音对在该噪声中的收听人是否是听得见的。
在开始比较可以分类语言信号的内容为非语音,有声的语音或者无声的语音,如果非语音存在(也许在字之间有间歇),则这个可听度是不重要的,因此不要求增强,和LSP过程模块将命令不执行处理。
如果存在有声的语音(有声的语音包含在称为共振峰的不同的频率的一系列谐振峰),则每个共振峰的幅度与在那个频率的噪声幅度比较以便确定它的可听度。如果在任何共振峰频率的噪声幅度超过共振峰幅度,则要求共振峰调节。
如果要求,可使用其它已知的技术确定输出的语音的清晰度。
LSP处理单元10对各个LSP执行数学运算以便在该判定单元的控制下增强该语音。
准确的工作将取决于判定过程的方向。一个语音增强功能将要求位移LSP线路到更有利的位置。
例如,如果向上或者向下偏移共振峰频率10%也许可以改进事件,则可以显示共振峰频率周围的噪声幅度的自动检查。如果这是可能的(或许因为在一个频率噪声幅度降低比共振峰频率低10%),则LSP处理方框导向位移适当的LSP相应的数量。
例如,如果要求移动的共振峰位于600Hz,则将存在两个LSP系数,通常非常接近于和在600Hz任一侧。如果可听度是通过向下偏移10%改进的,则这两个LSP参数值每个将乘以0.9以便完成那个位移。LSP调节本身限制在LSP处理方框内。
作为另外的例子,如果判定模块确定一组LSP的线路1和2频率向下位移10%将改进清晰度,则线路1和2的值两者乘以一个因数0.9。
如果该判定模块确定将线路3向上位移100Hz改进清晰度,则一个数量将加到线路3。如果标定LSP参数具有Hz的值,这个数量将等于100,或者更通常是
(100×2π)/fS
式中fS是系统的取样率,和LSP的值限制在角频率畴。
其它的处理类型是可能的,但是可以全部描述为对一个或者多个LSP线路增加/减去值(增加LSP线路使它们自己相当于乘数)。该值可以由判定模块确定或者可以根据每个LSP线路的现在或者过去值。
这样的LSP处理的实例表示在图3,其中画出声音周期的频谱,和已经覆盖从分析这个声音获得的10 LSP线路。LSP值可以容易地变换为和从画出的频谱中的LPC参数变换。对于正讨论的特定的例子,因此图3显示从图2的CELP编码器22中语音21的分析中获得的声音的频谱。
在没有本发明的利益工作的标准CELP译码器情况下,输出语音15使用图3的数据重建。当包含本发明时,LSP处理方框10能够改变LSP值,以便改变输出语音15。
对于图4的特定的例子,图3的一定的频谱的LSP值已经改变并且因此产生新的组的LPC系数,形成图4表示的频谱。参见图3的原始频谱的LSP值,已经执行三个操作:
1.线路1和2之间的间距通过移动开两线路已经增加了(换句话说1已经降低频率而2已经提高);
2.线路5和6已经增加频率;
3.线路10已经增加频率。
三个动作对传送的声音具有特定的结果:
1.线路1和2在频谱峰值的任一侧。两个线路移动已经引起这个频谱峰值降低幅度和变宽(相当于增加带宽)。
2.线路5和6在第二频谱峰值的任一侧。这两线路的移动已经引起峰值增加频率。
3.线路10预先位于非常小的频谱的‘凸起’的右边,这时凸起不再明显了,因为该线路已经增加频率一个实质上的数量。
在语音编译码器的这个特定的例子中,分析的声音是语音。正如上面讨论的,频谱曲线明显的频谱峰值经常对应于共振峰,传递大量的信息的语音的重要成分。因此上面讨论的基于LSP的调节改变了输出的语音的特性并且将由收听人感觉到。例如,在元音情况下,已经发现适当地变宽相应于频谱峰值的线路(即增加共振峰的带宽)改进了清晰度。
在图2表示的例子另外分析在收听人的环境中存在的噪声,以便确定对收听人重放的语音是否为易理解的。如果不是,在本发明中改变语音特性以便通过移动各个或者LSP组的操作以提供下列操作组改进该语音的清晰度:
1.向上位移峰值/共振峰频率。
2.向下位移峰值/共振峰频率。
3.增加峰值/共振峰的幅度(减小带宽)。
4.增加峰值/共振峰的带宽(减小幅度)。
熟知的音质理论表明给定频率的声音将被类似频率的第二一致的声音掩蔽。如果第二声音足够大声,则早先的声音听不见。因此在语音情况下,本申请人认为具有类似于共振峰的那些频率的大声的噪音将掩蔽该语音。为了听到该语音,必须增加音量或者改变语音部件的频率。
音量变更是相对地简单的,但是应该注意:足够引起听觉损耗的语言音量电平(如果支持)可以要求使语音在一定的情形中是易理解的,特别在多噪声的汽车内。因此优选的改变语音部件的频率。
正如可以看到的,本发明提供减少由声频的背景噪声掩蔽语音(因此改进清晰度)的一种方法,通过可以与许多当前的标准移动电话机和无线电系统,和在这样的系统中标准语音codecs组合的一个有效的处理。
当分析收听人的背景噪声环境时语音增强结果与改正的LSP变更组合,调整接收的对收听人重放的发送语音数据,以便改进收听人收听处理的声音的概率。基于收听人的背景声频噪声环境的分析,那技术调整在语音数据codec内得到的LSP值。最好用这种方式改变接收语音中发现的特定的频率畴特性的频率或者功率和带宽。
Claims (38)
1.一种增加由语音通信系统输出语音对使用该系统的收听人的清晰度的方法,包括:
分析该收听人的当前的背景声频噪声环境;
使用背景噪声分析的结果确定输出给收听人的语音对在它们的当前的背景噪声中的收听人是否是易理解的;以及
在所述确定的基础上改变由语音通信系统输出的语音的特性,使得改变的语音对在它们的当前的背景噪声环境中的收听人具有增强的清晰度。
2.根据权利要求1的方法,其中通过分类语音的内容为至少两个类别,和比较在一个频率的一个类别中的语音幅度与在该频率的噪声幅度确定输出的语音的清晰度。
3.根据权利要求1或者2的方法,其中通过分类语音内容为一个类别确定输出语音的清晰度,该类别包含语音中的共振峰,和比较包含在一个频率的语音类别的共振峰的幅度与在那个频率的噪声幅度。
4.根据权利要求1至3的任何一个权利要求的方法,其中通过分类语音内容为非语音、有声的语音或者无声的语音和比较在一个频率的有声的的幅度与在那个频率的噪声幅度,确定输出语音的清晰度。
5.根据权利要求1至4的任何一个权利要求的方法,其中通过分类语音内容为非语音、有声的语音或者无声的语音和比较具有一个中心频率的有声语音的频谱峰值的幅度与在该频谱峰值的中心频率的噪声幅度,确定输出语音的清晰度。
6.根据权利要求1至5的任何一个权利要求的方法,其中通过分类语音内容为非语音、有声的语音或者无声的语音和比较具有一个中心频率的有声语音的共振峰的幅度与在该共振峰的中心频率的噪声幅度,确定输出语音的清晰度。
7.根据权利要求1至6的任何一个权利要求的方法,其中如果大体上与在该语音中频谱峰值一样的频率的背景噪声幅度超过频谱峰值的幅度,则确定该语音是无法了解的。
8.根据权利要求1至7的任何一个权利要求的方法,其中如果大体上与在该语音中共振峰一样频率的背景噪声幅度超过共振峰的幅度,则确定该语音是无法了解的。
9.根据权利要求1至8的任何一个权利要求的方法,其中通过改变代表该语音的线路频谱对(LSP)数据来改变该语音特性。
10.根据权利要求9的方法,其中通过移动在语音频谱中的线路频谱对改变该语音特性。
11.根据权利要求1至10的任何一个权利要求的方法,其中通过改变在语音频谱中的频率分量来改变该语音特性。
12.根据权利要求11的方法,其中改变在语音频谱中的共振峰的频率。
13.根据权利要求12的方法,其中改变该语音中的共振峰频率以便移动该共振峰到背景噪声幅度较低的频率处。
14.根据权利要求11,12或者13的方法,其中该语音频谱包括具有一个中心频率的频谱峰值,和改变在该语音频谱中的频谱峰值的中心频率。
15.一个语音通信系统,包括:
用于分析该语音通信系统的当前背景声频噪声环境的装置;
使用背景噪声分析的结果确定由语音通信系统输出给收听该语音通信系统的收听人的语音对在当前的背景噪声中的收听人是否是易理解的装置;以及
根据所述确定装置的输出改变由语音通信系统输出给该收听人的语音的特性,以便增强给在当前的背景噪声中的收听人的语音的清晰度。
16.根据权利要求15的系统,其中用于确定输出的语音是否是易理解的装置包括通过分类语音的内容为不同的类别的装置,和用于比较在一个频率的一个类别中的语音幅度与在该频率的噪声幅度的装置。
17.根据权利要求16的系统,其中通过分类语音内容为不同的类别的装置分类语音内容为一个类别,该类别包含语音中的共振峰,和比较装置比较包含在一个频率的语音类别的共振峰的幅度与在那个频率的噪声幅度。
18.根据权利要求15至17任何一个权利要求的系统,其中用于确定输出的语音是否是易理解的装置包括用于比较在大体上与在该语音中的共振峰频率相同的噪声幅度与该共振峰的幅度的装置。
19.根据权利要求15至18的任何一个权利要求的系统,其中该语音是由包括线路频谱对(LSP)数据的数据表示,和用于改变由语音通信系统输出的语音特性的装置包括用于改变代表该语音的线路频谱对(LSP)数据的装置。
20.根据权利要求15至19的任何一个权利要求的系统,其中用于改变由语音通信系统输出的语音特性的装置包括用于改变在语音频谱中的频率分量的装置。
21.根据权利要求20的系统,其中用于改变由语音通信系统输出的语音特性的装置包括用于改变在该语音中的共振峰频率的装置,以使振峰移到噪声幅度较低的频率。
22.一种改变输出到语音通信系统中的收听人的语音特性的方法,其中由语音通信系统处理并且作为声音输出的该语音数据包含线路频谱的对数据,该方法包括改变语音数据中的线路频谱对数据。
23.根据权利要求22的方法,其中改变语音数据中的线路频谱对数据来改变在语音频谱中的频率分量。
24.根据权利要求23的方法,其中改变在语音频谱中的共振峰的频率。
25.根据权利要求23或者24的方法,其中改变在语音频谱中的频谱峰值的中心频率。
26.根据权利要求22至25的任何一个权利要求的方法,其中通过改变在该语音频谱中的线路频谱的对的频率来改变线路频谱对数据。
27.根据权利要求22至26的任何一个权利要求的方法,其中通过减少在该语音频谱中的线路频谱对的间隔来改变该线路频谱对数据。
28.一种语音通信系统,其中由语音通信系统处理的语音数据包含线路频谱对数据,该系统包括用于改变在由该语音通信系统处理的语音数据中的线路频谱对数据以便改变由收听人收听的处理的语音特性的装置。
29.根据权利要求28的系统,其中用于改变线路频谱对数据的装置包括以改变在语音频谱中的频率分量的方式改变线路频谱对数据的装置。
30.根据权利要求29的系统,其中用于改变线路频谱对数据的装置包括用于改变在语音频谱中的共振峰频率的装置。
31.根据权利要求29或者30的系统,其中用于改变线路频谱对数据的装置包括用于改变在语音频谱中的频谱峰值频率的装置。
32.根据权利要求28至31的任何一个权利要求的系统,其中用于改变线路频谱对数据的装置包括用于改变在语音频谱中的线路频谱对频率的装置。
33.根据权利要求28至32的任何一个权利要求的系统,其中用于改变线路频谱对数据的装置包括用于减少在语音频谱中的线路频谱对间隔的装置。
34.一种增加由语音通信系统输出语音对使用该系统的收听人的清晰度的方法,包括:
分析该收听人的当前的背景声频噪声环境;
使用背景噪声分析的结果比较输出到收听人的语音的语音频谱中的共振峰幅度与该背景噪声的幅度;以及
在所述比较的基础上改变由语音通信系统输出的语音的特性,使得改变的语音对在它们的当前的背景噪声环境中的收听人具有增强的清晰度。
35.一种语音通信系统,包括:
用于分析该语音通信系统的当前背景声频噪声环境的装置;
使用背景噪声分析的结果,比较由语音通信系统输出的语音的语音频谱中的共振峰幅度与该背景噪声的幅度的装置;以及
根据所述比较装置的输出改变由语音通信系统输出给该收听人的语音的特性,以便增强给在当前的背景噪声中的收听人的语音的清晰度。
36.一种语音通信系统,大体上如上面参见任何一个附图描述的那样。
37.一种增加由语音通信系统输出给使用该系统的收听人的语音清晰度的方法,大体上如上面参见任何一个附图描述的那样。
38.一种改变输出到语音通信系统中的收听人的语音特性的方法,大体上如上面参见任何一个附图描述的那样。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB9714001.6 | 1997-07-02 | ||
GBGB9714001.6A GB9714001D0 (en) | 1997-07-02 | 1997-07-02 | Method and apparatus for speech enhancement in a speech communication system |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1265217A true CN1265217A (zh) | 2000-08-30 |
Family
ID=10815285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN98807458A Pending CN1265217A (zh) | 1997-07-02 | 1998-07-01 | 在语音通信系统中语音增强的方法和装置 |
Country Status (12)
Country | Link |
---|---|
EP (1) | EP0993670B1 (zh) |
JP (1) | JP2002507291A (zh) |
KR (1) | KR20010014352A (zh) |
CN (1) | CN1265217A (zh) |
AT (1) | ATE214832T1 (zh) |
AU (1) | AU8227798A (zh) |
CA (1) | CA2235455A1 (zh) |
DE (1) | DE69804310D1 (zh) |
GB (2) | GB9714001D0 (zh) |
PL (1) | PL337717A1 (zh) |
WO (1) | WO1999001863A1 (zh) |
ZA (1) | ZA985607B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1303586C (zh) * | 2003-11-21 | 2007-03-07 | 三星电子株式会社 | 使用共振峰增强对话的方法和装置 |
CN1316448C (zh) * | 2001-03-08 | 2007-05-16 | 松下电器产业株式会社 | 适用于提高合成语音可懂性的运行时合成语音的方法 |
CN1319045C (zh) * | 2001-05-17 | 2007-05-30 | 西门子公司 | 信号接收和传输方法及相应的背景信号发生器 |
CN1681002B (zh) * | 2002-03-04 | 2010-04-28 | 株式会社Ntt都科摩 | 语音合成系统及方法 |
CN102194460A (zh) * | 2010-03-11 | 2011-09-21 | 奥迪康有限公司 | 语音清晰度预测器及其应用 |
CN101091412B (zh) * | 2004-09-07 | 2012-12-26 | 森塞尔有限公司 | 用于声音增强的装置和方法 |
CN101620855B (zh) * | 2008-07-02 | 2013-08-07 | 富士通株式会社 | 语音增强装置 |
CN103297896A (zh) * | 2012-02-27 | 2013-09-11 | 联想(北京)有限公司 | 一种音频输出方法及电子设备 |
CN106796803A (zh) * | 2014-10-14 | 2017-05-31 | 汤姆逊许可公司 | 用于在音频通信中将语音数据与背景数据分离的方法和装置 |
CN108369805A (zh) * | 2017-12-27 | 2018-08-03 | 深圳前海达闼云端智能科技有限公司 | 一种语音交互方法、装置和智能终端 |
CN109346058A (zh) * | 2018-11-29 | 2019-02-15 | 西安交通大学 | 一种语音声学特征扩大系统 |
CN110915238A (zh) * | 2017-01-03 | 2020-03-24 | 立声公司 | 语音清晰度增强系统 |
CN114747233A (zh) * | 2019-12-09 | 2022-07-12 | 杜比实验室特许公司 | 内容和环境感知的环境噪声补偿 |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE9903553D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
FR2794322B1 (fr) * | 1999-05-27 | 2001-06-22 | Sagem | Procede de suppression de bruit |
EP1210765B1 (en) | 1999-07-28 | 2007-03-07 | Clear Audio Ltd. | Filter banked gain control of audio in a noisy environment |
US20050246170A1 (en) * | 2002-06-19 | 2005-11-03 | Koninklijke Phillips Electronics N.V. | Audio signal processing apparatus and method |
EP1609134A1 (en) * | 2003-01-31 | 2005-12-28 | Oticon A/S | Sound system improving speech intelligibility |
US8280730B2 (en) | 2005-05-25 | 2012-10-02 | Motorola Mobility Llc | Method and apparatus of increasing speech intelligibility in noisy environments |
GB2433849B (en) | 2005-12-29 | 2008-05-21 | Motorola Inc | Telecommunications terminal and method of operation of the terminal |
DE102006001730A1 (de) | 2006-01-13 | 2007-07-19 | Robert Bosch Gmbh | Beschallungsanlage, Verfahren zur Verbesserung der Sprachqualität und/oder Verständlichkeit von Sprachdurchsagen sowie Computerprogramm |
EP1814109A1 (en) * | 2006-01-27 | 2007-08-01 | Texas Instruments Incorporated | Voice amplification apparatus for modelling the Lombard effect |
JP2007295347A (ja) * | 2006-04-26 | 2007-11-08 | Mitsubishi Electric Corp | 音声処理装置 |
KR101414233B1 (ko) | 2007-01-05 | 2014-07-02 | 삼성전자 주식회사 | 음성 신호의 명료도를 향상시키는 장치 및 방법 |
JP4926005B2 (ja) | 2007-11-13 | 2012-05-09 | ソニー・エリクソン・モバイルコミュニケーションズ株式会社 | 音声信号処理装置及び音声信号処理方法、通信端末 |
EP2232700B1 (en) | 2007-12-21 | 2014-08-13 | Dts Llc | System for adjusting perceived loudness of audio signals |
US8538042B2 (en) | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
WO2013019562A2 (en) * | 2011-07-29 | 2013-02-07 | Dts Llc. | Adaptive voice intelligibility processor |
CN103002105A (zh) * | 2011-09-16 | 2013-03-27 | 宏碁股份有限公司 | 可增加通讯内容清晰度的移动通讯方法 |
US9020818B2 (en) | 2012-03-05 | 2015-04-28 | Malaspina Labs (Barbados) Inc. | Format based speech reconstruction from noisy signals |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
JP6565206B2 (ja) * | 2015-02-20 | 2019-08-28 | ヤマハ株式会社 | 音声処理装置および音声処理方法 |
EP3107097B1 (en) | 2015-06-17 | 2017-11-15 | Nxp B.V. | Improved speech intelligilibility |
US9847093B2 (en) | 2015-06-19 | 2017-12-19 | Samsung Electronics Co., Ltd. | Method and apparatus for processing speech signal |
JP6790732B2 (ja) * | 2016-11-02 | 2020-11-25 | ヤマハ株式会社 | 信号処理方法、および信号処理装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5870292A (ja) * | 1981-10-22 | 1983-04-26 | 日産自動車株式会社 | 車両用音声認識装置 |
US4538295A (en) * | 1982-08-16 | 1985-08-27 | Nissan Motor Company, Limited | Speech recognition system for an automotive vehicle |
DE3689035T2 (de) * | 1985-07-01 | 1994-01-20 | Motorola Inc | Rauschminderungssystem. |
GB8801014D0 (en) * | 1988-01-18 | 1988-02-17 | British Telecomm | Noise reduction |
US5235669A (en) * | 1990-06-29 | 1993-08-10 | At&T Laboratories | Low-delay code-excited linear-predictive coding of wideband speech at 32 kbits/sec |
CA2056110C (en) * | 1991-03-27 | 1997-02-04 | Arnold I. Klayman | Public address intelligibility system |
FI102337B1 (fi) * | 1995-09-13 | 1998-11-13 | Nokia Mobile Phones Ltd | Menetelmä ja piirijärjestely audiosignaalin käsittelemiseksi |
GB2306086A (en) * | 1995-10-06 | 1997-04-23 | Richard Morris Trim | Improved adaptive audio systems |
-
1997
- 1997-07-02 GB GBGB9714001.6A patent/GB9714001D0/en not_active Ceased
-
1998
- 1998-04-21 CA CA002235455A patent/CA2235455A1/en not_active Abandoned
- 1998-06-26 ZA ZA9805607A patent/ZA985607B/xx unknown
- 1998-07-01 DE DE69804310T patent/DE69804310D1/de not_active Expired - Lifetime
- 1998-07-01 GB GB9814279A patent/GB2327835B/en not_active Expired - Fee Related
- 1998-07-01 CN CN98807458A patent/CN1265217A/zh active Pending
- 1998-07-01 KR KR1019997012508A patent/KR20010014352A/ko not_active Application Discontinuation
- 1998-07-01 AT AT98932337T patent/ATE214832T1/de not_active IP Right Cessation
- 1998-07-01 EP EP98932337A patent/EP0993670B1/en not_active Expired - Lifetime
- 1998-07-01 PL PL98337717A patent/PL337717A1/xx unknown
- 1998-07-01 AU AU82277/98A patent/AU8227798A/en not_active Abandoned
- 1998-07-01 JP JP50665899A patent/JP2002507291A/ja active Pending
- 1998-07-01 WO PCT/GB1998/001936 patent/WO1999001863A1/en not_active Application Discontinuation
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1316448C (zh) * | 2001-03-08 | 2007-05-16 | 松下电器产业株式会社 | 适用于提高合成语音可懂性的运行时合成语音的方法 |
CN1319045C (zh) * | 2001-05-17 | 2007-05-30 | 西门子公司 | 信号接收和传输方法及相应的背景信号发生器 |
CN1681002B (zh) * | 2002-03-04 | 2010-04-28 | 株式会社Ntt都科摩 | 语音合成系统及方法 |
CN1303586C (zh) * | 2003-11-21 | 2007-03-07 | 三星电子株式会社 | 使用共振峰增强对话的方法和装置 |
CN101091412B (zh) * | 2004-09-07 | 2012-12-26 | 森塞尔有限公司 | 用于声音增强的装置和方法 |
CN101620855B (zh) * | 2008-07-02 | 2013-08-07 | 富士通株式会社 | 语音增强装置 |
CN102194460B (zh) * | 2010-03-11 | 2015-09-09 | 奥迪康有限公司 | 语音清晰度预测器及其应用 |
CN102194460A (zh) * | 2010-03-11 | 2011-09-21 | 奥迪康有限公司 | 语音清晰度预测器及其应用 |
CN103297896A (zh) * | 2012-02-27 | 2013-09-11 | 联想(北京)有限公司 | 一种音频输出方法及电子设备 |
CN103297896B (zh) * | 2012-02-27 | 2016-07-06 | 联想(北京)有限公司 | 一种音频输出方法及电子设备 |
CN106796803A (zh) * | 2014-10-14 | 2017-05-31 | 汤姆逊许可公司 | 用于在音频通信中将语音数据与背景数据分离的方法和装置 |
CN106796803B (zh) * | 2014-10-14 | 2023-09-19 | 交互数字麦迪逊专利控股公司 | 用于在音频通信中将语音数据与背景数据分离的方法和装置 |
CN110915238A (zh) * | 2017-01-03 | 2020-03-24 | 立声公司 | 语音清晰度增强系统 |
CN110915238B (zh) * | 2017-01-03 | 2022-04-05 | 立声公司 | 语音清晰度增强系统 |
CN108369805A (zh) * | 2017-12-27 | 2018-08-03 | 深圳前海达闼云端智能科技有限公司 | 一种语音交互方法、装置和智能终端 |
WO2019127112A1 (zh) * | 2017-12-27 | 2019-07-04 | 深圳前海达闼云端智能科技有限公司 | 一种语音交互方法、装置和智能终端 |
CN108369805B (zh) * | 2017-12-27 | 2019-08-13 | 深圳前海达闼云端智能科技有限公司 | 一种语音交互方法、装置和智能终端 |
CN109346058A (zh) * | 2018-11-29 | 2019-02-15 | 西安交通大学 | 一种语音声学特征扩大系统 |
CN114747233A (zh) * | 2019-12-09 | 2022-07-12 | 杜比实验室特许公司 | 内容和环境感知的环境噪声补偿 |
Also Published As
Publication number | Publication date |
---|---|
GB2327835B (en) | 2000-04-19 |
WO1999001863A1 (en) | 1999-01-14 |
GB2327835A (en) | 1999-02-03 |
CA2235455A1 (en) | 1999-01-02 |
JP2002507291A (ja) | 2002-03-05 |
ATE214832T1 (de) | 2002-04-15 |
GB9714001D0 (en) | 1997-09-10 |
EP0993670B1 (en) | 2002-03-20 |
ZA985607B (en) | 2000-06-01 |
GB9814279D0 (en) | 1998-09-02 |
EP0993670A1 (en) | 2000-04-19 |
AU8227798A (en) | 1999-01-25 |
KR20010014352A (ko) | 2001-02-26 |
DE69804310D1 (de) | 2002-04-25 |
PL337717A1 (en) | 2000-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1265217A (zh) | 在语音通信系统中语音增强的方法和装置 | |
US10885926B2 (en) | Classification between time-domain coding and frequency domain coding for high bit rates | |
EP3301674B1 (en) | Adaptive bandwidth extension and apparatus for the same | |
US8600740B2 (en) | Systems, methods and apparatus for context descriptor transmission | |
RU2636685C2 (ru) | Решение относительно наличия/отсутствия вокализации для обработки речи | |
CN101061535A (zh) | 用于人工扩展语音信号的带宽的方法和装置 | |
CN1161750C (zh) | 语音编码译码方法和装置、电话装置、音调变换方法和介质 | |
Sun et al. | Speech compression | |
Kroon | Speech and Audio Compression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |