CN109416914B - 适于噪声环境的信号处理方法和装置及使用其的终端装置 - Google Patents

适于噪声环境的信号处理方法和装置及使用其的终端装置 Download PDF

Info

Publication number
CN109416914B
CN109416914B CN201780039330.3A CN201780039330A CN109416914B CN 109416914 B CN109416914 B CN 109416914B CN 201780039330 A CN201780039330 A CN 201780039330A CN 109416914 B CN109416914 B CN 109416914B
Authority
CN
China
Prior art keywords
signal
noise
band
speech
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780039330.3A
Other languages
English (en)
Other versions
CN109416914A (zh
Inventor
朱基岘
霍利·弗朗索斯
吴殷美
金昌容
成昊相
郑庚训
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN109416914A publication Critical patent/CN109416914A/zh
Application granted granted Critical
Publication of CN109416914B publication Critical patent/CN109416914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

提供了一种适于嘈杂环境的用于对信号进行处理的方法,所述方法包括:基于接收侧或者近端装置的噪声频谱和接收到的语音频谱来确定与可懂度增强有关的类别;基于噪声频谱、语音频谱和所确定的类别来产生用于可懂度增强的引导信息;通过将引导信息应用于语音频谱来产生改变的语音频谱。

Description

适于噪声环境的信号处理方法和装置及使用其的终端装置
技术领域
本公开涉及音频和/或语音信号处理,并且更具体地,涉及一种适于接收端或近端嘈杂环境、用于改变音频和/或语音信号的信号处理方法和设备,以及使用其的终端装置。
背景技术
当在具有各种类型的背景噪声的环境中通过使用移动装置进行与对方的语音呼叫时,由于背景噪声而可能不能很好地听到对方的语音。例如,当在嘈杂地点(诸如地铁站台或车辆经过的街道上)进行呼叫时,听到对方的语音远低于在没有噪声的安静地点的呼叫的语音。可通过掩蔽效应来描述使背景噪声降低语音的可懂度或声音质量的最大原因。
考虑到背景噪声,提供了各种语音处理方法,具体地,可根据远端和近端环境对语音处理方法进行分类。考虑到远端环境的语音处理方法具有不考虑各种近端背景噪声环境的限制,因此,需要一种能够考虑具有背景噪声的各种接收环境,根据近端装置或接收模块的用户周围的背景噪声来有效地处理从远端装置发送的或从发送模块提供的语音信号的技术。
发明内容
技术问题
提供一种适于接收侧或近端嘈杂环境、用于改变已由接收侧或近端解码的信号以增强呼叫质量并增强解码信号的可懂度和/或声音质量的信号处理方法和设备,以及计算机可读记录介质。
提供一种使用信号处理方法或设备或记录介质的终端装置。
技术方案
根据本公开的一方面,一种信号处理方法包括:基于接收侧或近端装置的噪声频谱和接收到的语音频谱来确定与可懂度增强有关的类别;基于噪声频谱、语音频谱和所确定的类别来产生用于可懂度增强的引导信息;通过将
引导信息应用于语音频谱来产生改变的语音频谱。
根据本公开的另一方面,一种信号处理方法包括:针对接收侧或近端装置的噪声频谱和接收到的对方的语音频谱的每个带,确定与可懂度增强有关的带类别;基于所确定的噪声频谱的带类别和所确定的语音频谱的带类别来产生用于可懂度增强的引导信息;通过将引导信息应用于语音频谱来产生改变的语音频谱。
根据本公开的另一方面,一种信号处理设备包括:第一接收器,被配置为通过麦克风接收接收侧或近端装置的噪声信号;第二接收器,被配置为从发送侧或远端装置接收对方的语音信号;处理器,被配置为:针对噪声信号和语音信号中的每一个确定与语音信号的可懂度增强有关的类别,基于噪声频谱、语音频谱和所确定的类别来产生用于可懂度增强的引导信息,并通过将引导信息应用于语音频谱来产生改变的语音频谱。
根据本公开的另一方面,一种信号处理设备包括:第一接收器,被配置为通过麦克风接收接收侧或近端装置的噪声信号;第二接收器,被配置为从发送侧或远端装置接收对方的语音信号;处理器,被配置为:针对噪声信号和语音信号的每个带确定与可懂度增强有关的带类别,基于所确定的噪声频谱的带类别和所确定的语音频谱的带类别来产生用于可懂度增强的引导信息,并通过将引导信息应用于语音信号来产生改变的语音频谱。
根据本公开的另一方面,一种计算机可读记录介质上记录有指令,通过该指令可执行信号处理方法中的每一种。
根据本公开的另一方面,一种终端装置包括:至少一个麦克风,被配置为接收包括讲话者的语音信号和/或噪声信号的周围环境信号;处理器,被配置为:基于接收侧或近端装置的噪声频谱和接收到的对方的语音频谱来确定与可懂度增强有关的类别,基于噪声频谱、语音频谱和所确定的类别来产生用于可懂度增强的引导信息,通过将引导信息应用于语音频谱来产生改变的语音频谱,并且将改变的语音频谱提供给扬声器。
有益效果
适于接收侧或近端的嘈杂环境可增强呼叫质量。另外,可在使音调变化最小化的同时增强可懂度和/或声音质量。另外,可响应于终端的音量级别和基于用户输入的用户意图来增强解码的音频和/或语音信号的可懂度。
附图说明
图1示出了用于语音呼叫的发送端和接收端的结构以及分组网络。
图2是根据实施例的用于语音呼叫的移动通信装置的框图。
图3是根据实施例的在分组网络中的用于语音呼叫的移动通信装置的框图。
图4是根据另一实施例的用于语音呼叫的移动通信装置的框图。
图5是根据另一实施例的在分组网络中的用于语音呼叫的移动通信装置的框图。
图6是根据实施例的信号处理设备的框图。
图7是根据另一实施例的信号处理设备的框图。
图8是图7中所示的编码伪像减少器的详细框图。
图9示出了图7中所示的编码伪像减少器的操作。
图10示出了根据实施例的用于在远端装置和近端装置中产生远端输入和输出以及近端输入和输出的信号。
图11示出了根据另一实施例的用于在远端装置和近端装置中产生远端输入和输出以及近端输入和输出的信号。
图12是根据实施例的信号处理设备的详细框图。
图13是根据实施例的图12中所示的带类别确定器的详细框图。
图14是根据实施例的图13中所示的信号分析器的详细框图。
图15是根据实施例的图12中所示的引导信息产生器的详细框图。
图16示出了图12中所示的引导信息产生器的操作。
图17是根据另一实施例的信号处理设备的详细框图。
图18示出了频率仓的类别。
图19是根据实施例的图17中所示的引导信息应用器的详细框图。
图20是根据另一实施例的信号处理设备的详细框图。
图21是用于描述根据实施例的产生已增强了可懂度的语音信号的方法的框图。
图22是用于描述根据另一实施例的产生已增强了可懂度的语音信号的方法的框图。
图23是根据实施例的使用信号处理设备的装置的框图。
具体实施方式
本公开可允许各种类型的改变或修改并且具有各种实施例,并且具体实施例将在附图中示出并在说明书中详细描述。然而,应该理解的是,具体实施例并不将本公开限制于特定的公开形式,而是包括本公开的精神和技术范围内的每个修改的、等同的或替换的形式。在实施例的描述中,当确定有关公知特征的具体描述可能使本公开的要点模糊时,省略其详细描述。
尽管诸如“第一”和“第二”的术语可用于描述各种元件,但是这些元件不受这些术语的限制。这些术语仅用于将特定元件与另一元件进行分类。
本公开中使用的术语仅用于描述特定实施例,并且没有任何意图限制本公开。本公开中使用的术语是当前在本领域中广泛使用的那些通用术语,但是术语可以根据本领域普通技术人员的意图、先例或本领域的新技术而变化。此外,申请人可选择指定术语,并且在这种情况下,将在详细描述中描述其详细含义。因此,说明书中使用的术语不应理解为简单的名称,而应基于术语的含义和整体描述来理解。
单数形式的表述包括复数形式的表述,除非它们在上下文中彼此明显不同。在本公开中,应当理解,诸如“包括”或“具有”的术语被用于指示存在所实现的特征、数量、步骤、操作、元件、部分或其组合而不预先排除存在或添加一个或多个其他特征、数量、步骤、操作、元件、部分或其组合的可能性。
本公开中要处理的信号包括:包括音乐的音频信号、语音信号、音频信号和语音信号的混合信号等,但为了便于描述,将其称为语音信号。
在本公开中,可以按照超帧单位、帧单位或子帧单位对信号进行处理,但为了便于描述,作为示例,将按照帧单位来对信号进行处理。
在下文中,将参照附图详细描述实施例。
图1示出了应用了根据本公开的信号处理设备的用于语音呼叫的发送终端和接收终端的结构,以及服务器网络。图1中使用的网络的示例是长期演进(LTE)网络,并且LTE网络中的基于分组的语音呼叫服务被称为长期演进语音(VoLTE)。根据本公开的信号处理设备不仅可应用于VoLTE,还可应用于电路交换方案的语音呼叫服务。
通常,为了实现语音呼叫,可通过网络结构中的发送端和接收端之间的信令路径来预先执行呼叫条件协商处理,其中,网络结构包括发送终端、发送终端所连接到的运营商A的网络、接收终端以及接收终端所连接到的运营商B的网络。通过呼叫条件协商处理,可确定发送速率、编解码器、编解码器比特率、采样频率Fs、带宽和声道数中的至少一个。发送速率表示实际发送所需的通信信道的数据量,并且编解码器可表示实际使用的语音编解码器的名称。编解码器的示例可包括自适应多速率(AMR)编解码器、AMR宽带(AMR-WB)编解码器、增强型语音服务(EVS)编解码器、增强型可变速率编解码器(EVRC)等,但是不限于此。编解码器比特率表示将被用于所确定的编解码器的比特率,其中,可根据协商的编解码器比特率来压缩语音信号,并且可通过分组网络将压缩后的数据发送到接收端。每个编解码器包括具有各种比特率的多个模式,并且可预先定义在每个模式中使用的比特率。采样频率表示编解码器的编码器输入信号或解码器输出信号的采样频率。带宽表示信号的带宽,并且表示与采样频率不同的实际编码发生的带宽。由EVS编解码器支持的信号带的示例是窄带(NB)(20Hz至4000Hz)、宽带(WB)(20Hz至8000Hz)、超宽带(SWB)(20Hz至16000Hz)和全带(FB)(20Hz到20000Hz),并且可针对比在每个采样频率支持的带更低的带宽执行实际编码。例如,可在32KHz的采样频率支持的带是FB、SWB、WB和NB。另外,声道数表示将要编码的信号或解码信号(诸如单声道或立体声信号)支持的声道数。
当呼叫条件协商处理完成时,发送端可执行编码,并且接收端可执行解码。可通过媒体路径将作为编码的结果而产生的比特流发送到接收端。对于VoLTE服务,可通过调制解调器以无线方式将由发送端压缩的数据上发到无线电接入网络(RAN),并可通过分组交换(PS)域将由发送端压缩的数据从RAN发送到对方的运营商。接收端使用的运营商可与发送端使用的运营商相同或不同。
参照图1,发送(Tx)终端110与发送端装置相应,接收(Rx)终端130与接收端装置相应。可通过网络170将根据实施例的与声音质量和/或可懂度增强有关的信号处理算法(其将在下面描述)加载到Tx终端110和Rx终端130中的至少一个上,或者加载到连接到Tx终端110和Rx终端130的服务器150上。可选地,可将根据实施例的信号处理算法加载到Tx终端110和Rx终端130以及服务器150的全部上。
网络170连接Tx终端110、Rx终端130和服务器150。网络170包括单独或组合使用的专用线、局域网(LAN)、增值网络(VAN)、内联网、私人电话网络、公共电话网络和公共交换电话网络(PSTN),并且可包括作为综合数据通信网络的有线互联网、无线互联网和移动无线通信网络,使得图1中所示的网络形成实体能够彼此平稳地通信。
Tx终端110和Rx终端130可以是下面将描述的参照图2至图5公开的Tx和Rx终端,并且可使用分组网络结构。
当呼叫协商完成并且发送端噪声信号和发送端语音信号被输入到Tx终端110时,Tx终端110可将关于发送端噪声的信息发送到服务器150。当呼叫协商完成并且接收端噪声信号被输入到Rx终端130时,Rx终端130可将关于接收端噪声的信息发送到服务器150。根据另一实施例,Tx终端110或Rx终端130还可将每个呼叫的上下文信息发送到服务器150。
服务器150可基于从Tx终端110接收到的发送端噪声信息,为Tx终端110确定用于将被应用于预处理器113的声音质量增强算法的至少一个参数,以用于增强发送端语音信号的声音质量。另外,服务器150可基于从Rx终端130接收到的接收端噪声信息,为Rx终端130确定用于将被应用于后处理器137的声音质量增强算法的至少一个参数,以用于增强接收端语音信号的声音质量。用于声音质量增强算法的至少一个参数可被称为如下所述的频谱特定引导信息或增益信息。
当用于将被应用于Tx终端110的预处理器113的声音质量增强算法的至少一个参数被确定时,服务器150将用于声音质量增强算法的至少一个参数发送到Tx终端110。Tx终端110可通过使用已从服务器150发送的用于声音质量增强算法的至少一个参数执行预处理,来增强输入的发送端语音信号的声音质量和/或可懂度。根据实施例,在预处理过程中,可包括噪声抑制或回声消除。Tx终端110将已通过预处理增强了声音质量和/或可懂度的发送端语音信号发送到Rx终端130。
另外,当用于将被应用于Rx终端130的后处理器137的声音质量增强算法的至少一个参数被确定时,服务器150将用于声音质量增强算法的至少一个参数发送到Rx终端130。当从服务器150接收到用于声音质量增强算法的至少一个参数时,Rx终端130可通过使用用于声音质量增强算法的至少一个参数执行后处理,来增强从Tx终端110接收到的发送端语音信号的声音质量和/或可懂度。根据实施例,在后处理过程中,还可包括动态语音增强(DyVE)。
Tx终端110、Rx终端130和服务器150还可包括通信接口、控制器、存储器、处理器、显示器和用户输入单元(未示出)。
图2是根据实施例的用于语音呼叫的移动通信装置的框图。
图2中所示的移动通信装置可包括远端装置210和近端装置230,远端装置210可包括第一转换器211、发送处理器213和编码器215,并且近端装置230可包括解码器231、信号改变器233、接收处理器235和第二转换器237。除了应该用单独的硬件实现远端装置210和/或近端装置230中的每个组件的情况之外,远端装置210和/或近端装置230中的组件可通过集成在至少一个处理器中来实现。远端装置210和近端装置230可分别被提供给多个用户设备的发送侧和接收侧。
在图2中,第一转换器211可将通过诸如麦克风的输入装置提供的模拟信号转换为数字信号。
发送处理器213可对从第一转换器211提供的数字信号执行各种类型的信号处理。信号处理的示例包括噪声消除、回声减少等,但是不限于此。
编码器215可通过使用预定义的编解码器对从发送处理器213提供的信号进行编码。可通过发送信道将作为编码的结果而产生的比特流发送到接收侧或者将所述比特流存储在存储介质中,使得所述比特流被用于解码。
解码器231可通过使用预定义的编解码器对接收到的比特流进行解码。
信号改变器233可响应于近端终端的环境噪声信号,根据接收环境改变解码信号。信号改变器233可响应于诸如音量级别的终端状态信息和与音量调节有关的用户输入,根据接收环境改变解码信号。根据实施例,信号改变器233可针对噪声信号和语音信号的每个带来确定与可懂度增强有关的带类别,基于所确定的噪声信号的带类别和所确定的语音信号的带类别来产生用于可懂度增强的引导信息,并通过将引导信息应用于语音信号来产生改变的语音信号。
根据另一实施例,信号改变器233可基于接收侧或近端装置的噪声频谱和接收的语音频谱来确定与可懂度增强有关的类别,基于噪声频谱、语音频谱和所确定的类别来产生用于可懂度增强的引导信息,通过将引导信息应用于语音频谱来产生改变的语音频谱。为此,可基于从噪声频谱、语音频谱、已反映所产生的引导信息的语音频谱和所确定的类别而建模的语音可懂度模型来产生引导信息,例如频率仓特定增益信息。
接收处理器235可对从信号改变器233提供的信号执行各种类型的信号处理。信号处理的示例包括噪声消除、高频恢复等,但是不限于此。
第二转换器237可将从接收处理器235提供的信号转换为模拟信号。可通过扬声器或接收器回放从第二转换器237提供的模拟信号。
图2中使用的编解码器的示例可以是EVS编解码器。
图3是根据实施例的在分组网络中的用于语音呼叫的移动通信装置的框图。
图3中所示的移动通信装置包括远端装置310和近端装置330,远端装置310可包括第一转换器311、发送处理器313、编码器315和格式化器317,近端装置330可包括去格式化器331、解码器333、信号改变器335、接收处理器337和第二转换器339。除了应该用单独的硬件实现远端装置310和/或近端装置330中的每个组件的情况之外,远端装置310和/或近端装置330中的组件可通过集成在至少一个处理器中来实现。远端装置310和近端装置330可分别被提供给多个用户设备的发送侧和接收侧。除了格式化器317和去格式化器331之外,图3中的移动通信装置共享图2中的的组件,因此不描述其重复操作。
在图3中,格式化器317可将从编码器315提供的比特流格式化为用于在分组网络中进行通信的实时传输协议(RTP)有效载荷包。可通过发送信道将由格式化器317产生的RTP有效载荷包发送到接收侧或者将所述RTP有效载荷包存储在存储介质中,使得所述RTP有效载荷包被用于解码。
去格式化器331可通过对所接收的RTP有效载荷包进行去格式化来提取必要信息。必要信息的示例可包括时间戳信息、包丢失信息、EVS比特流等。
解码器333可包括抖动缓存器管理器(未示出),并且可通过使用由去格式化器331提取的信息来抵消网络抖动,然后执行解码处理。
图3中使用的编解码器的示例可以是EVS编解码器。
图4是根据另一实施例的用于语音呼叫的移动通信装置的框图。
图4中所示的移动通信装置可包括发送模块410和接收模块430,发送模块410可包括第一转换器411、发送处理器413和编码器415,接收模块430可包括解码器431、信号改变器433、接收处理器435和第二转换器437。除了应该用单独的硬件实现发送模块410和/或接收模块430中的每个组件的情况之外,发送模块410和/或接收模块430中的组件可通过集成在至少一个处理器中来实现。可将发送模块410和接收模块430分别提供给近端装置的发送侧和接收侧。除了图4中的组件被包括在发送模块410和接收模块430中之外,图4中的组件与图2中的组件相同,因此不描述其详细操作。另外,由于发送模块410和接收模块430被包括在一个近端装置中,所以可将第一转换器411和发送处理器413的输出信号或编码器415中使用的编码参数提供给信号改变器433。另外,信号改变器433还可接收终端状态信息或与音量控制有关的用户输入。
图5是根据另一实施例的在分组网络中的用于语音呼叫的移动通信装置的框图。
图5中所示的移动通信装置可包括发送模块510和接收模块530,发送模块510可包括第一转换器511、发送处理器513、编码器515和格式化器517,接收模块530可包括去格式化器531、解码器533、信号改变器535、接收处理器537和第二转换器539。除了应该用单独的硬件实现发送模块510和/或接收模块530中的每个组件的情况之外,发送模块510和/或接收模块530中的组件可通过集成在至少一个处理器中来实现。可将发送模块510和接收模块530分别提供给近端装置的发送侧和接收侧。除了图5中的组件被包括在发送模块510和接收模块530中之外,图5中的组件与图3中的组件相同,因此不描述其详细操作。另外,由于发送模块510和接收模块530被包括在一个近端装置中,因此可将从第一转换器511、发送处理器513、编码器515和格式化器517的信号处理过程获得的信息提供给信号改变器535。另外,信号改变器535还可接收终端状态信息或与音量控制有关的用户输入。
图6是根据实施例的信号处理设备的框图,并且可与图2至图5中的信号改变器233、335、433和535相应。图6所示的信号处理设备可被嵌入在近端装置或接收模块中,或者可拆卸地实现在终端装置中。
图6中所示的信号处理设备可包括模式确定器610、第一可懂度增强器630和第二可懂度增强器650。这里,模式确定器610和第二可懂度增强器650可以是可选的,因此可使用第一可懂度增强器630来实现信号处理设备。
可懂度是表示语音的质量的度量,并且可通过表示收听者理解实际语音信号的音节的程度如何的比率来表示。可选地,可懂度是表示针对有意义的词语或句子的理解程度的度量,并且可懂度越高,理解程度越高。
可懂度被度量为诸如语音传输指数(STI)或直接声音与反射声音比率(D_50)的数值,但是与诸如信噪比(SNR)的客观声音质量不具有比例关系,并且可具有根据收听者的主观和感知的特征。因此,可懂度增强可与增强主观声音质量的方法相应。
参照图6,模式确定器610可通过确定当接收音量达到设置的最大值时是否从用户另外接收到音量提高输入,来确定第一模式和第二模式中的一个。根据另一实施例,模式确定器610可在接收到灾难广播或检测到诸如911拨号的紧急情况时确定第一模式或第二模式。这里,第一模式可被称为基本模式,第二模式可被称为积极模式。根据实施例,第一模式被设置为默认模式。
第一可懂度增强器630在由模式确定器610确定了第一模式时进行操作,并且可针对噪声信号和语音信号中的每个带确定与可懂度增强有关的带类别,基于所确定的噪声信号的带类别和所确定的语音信号的带类别来产生用于可懂度增强的引导信息,并通过将引导信息应用于语音信号来产生改变的语音信号。在这种情况下,可执行信号处理,使得帧的总能量守恒。作为结果,即使当语音信号改变时,也可使音调改变最小化。
根据另一实施例,第一可懂度增强器630可基于接收侧或近端装置的噪声频谱和接收到的语音频谱来确定与可懂度增强有关的类别,基于噪声频谱、语音频谱和所确定的类别来产生用于可懂度增强的引导信息,并通过将引导信息应用于语音频谱来产生改变的语音频谱。为此,可基于从噪声频谱、语音频谱、已反映所产生的引导信息的语音频谱和所确定的类别而建模的语音可懂度模型,来产生引导信息,例如,频率仓特定增益信息。
第二可懂度增强器650在由模式确定器610确定了第二模式时进行操作,并且除了可执行信号处理以允许帧的总能量增加预定百分比(例如,大约20%)之外,以与第一可懂度增强器630相同的方式进行操作。根据另一实施例,第二可懂度增强器650可针对已由第一可懂度增强器630确定的用于可懂度增强的有效带中的活跃带另外增加能量。根据另一实施例,第二可懂度增强器650可将在第一可懂度增强器630中使用的Lim值或音调掩蔽噪声(TMN)值的常量设置为更大的值。
图7是根据另一实施例的信号处理设备的框图,并且可与图2至图5中的信号改变器233、335、433和535相应。
图7中所示的信号处理设备可包括降噪器710和可懂度增强器730。这里,可懂度增强器730可如图6中那样实现。可不根据终端用户的需要或诸如接收环境的条件来使用降噪器710。
参照图7,降噪器710可减少或去除编码伪像,诸如在编码处理中产生的高频噪声。根据另一实施例,降噪器710可通过使用从麦克风接收的噪声信号来降低来自整个接收信号的噪声。
可懂度增强器730可基于近端终端的环境噪声信号来增强解码信号或降噪器710的输出信号的可懂度。在这种情况下,可懂度增强器730可通过另外接收终端状态信息和与音量增大有关的用户输入来在积极模式下进行操作。这里,终端状态信息可与音量级别是否达到最大值有关,并且用户输入可与用户是否在音量级别达到最大值之后按下了音量增大按钮有关。当用户在音量级别达到最大值之后连续按下音量增大按钮预定次数或更多次时,或者当用户在音量级别达到最大值之后的预定时间内按下音量增大按钮至少一次时,可激活积极模式。根据另一实施例,用户可通过用户的语音或用户界面直接输入用于积极模式的命令。根据另一实施例,当周围噪声级别高于预设最大值时,也可激活积极模式。
图8是图7中所示的降噪器710的详细框图。
图8中示出的降噪器710可包括带宽确定器810和后处理器830,并且可由至少一个处理器实现。
参照图8,带宽确定器810可基于解码带信息、解码采样频率和解码比特率来检测解码信号的最佳编码带宽,以确定解码带宽。这里,解码带信息可以是NB、WB、SWB或FB。
后处理器830可通过基于由带宽确定器810检测的最佳编码带宽执行低通滤波来去除在编码处理中一起发送的高频噪声。
图9示出了图7中所示的降噪器710的操作,并且示出了通过基于检测的最佳编码带宽执行低通滤波来去除高频带中的噪声。
图10示出了根据实施例的用于在远端装置1010和近端装置1030中产生远端输入和输出以及近端输入和输出的信号,其中,终端包括两个麦克风。根据本实施例,为了增强可懂度,可使用来自位于下端或者下端的前表面或后表面上的第一麦克风的噪声NI1以及来自位于上端或者上端的前表面或后表面上的第三麦克风的噪声NI2。
接收端输出NO是通过经由网络将发送端输入语音信号FI发送到接收端装置而获得的信号,最终输出信号NO1是通过使用经由接收端装置的麦克风接收到的接收端噪声而产生的。
图11示出了根据另一实施例的用于在远端装置1110和近端装置1130中产生远端输入和输出以及近端输入和输出的信号,其中,终端包括三个麦克风。根据本实施例,为了增强可懂度,可使用来自位于下端或者下端的前表面或后表面上的第一麦克风或第二麦克风的噪声NI1或NI2以及来自位于上端或者上端的前表面或后表面上的第三麦克风的噪声NI3。
尽管图10和11分别示出了两个麦克风和三个麦克风,但是根据实施例的信号处理设备不限于麦克风的所述数量和/或位置。
根据图10和图11,可通过将近端装置的初始输出NO改变为基于从至少一个麦克风提供的噪声而增加音量来产生近端装置的最终输出NO1。
图12是根据实施例的信号处理设备的详细框图,并且可与图6的第一可懂度增强器630或图7的可懂度增强器730相应。
图12中所示的信号处理设备可包括带类别确定器1210、引导信息产生器1230和引导信息应用器1250。可将这些组件集成到至少一个处理器中。尽管未示出,但是还可在每个组件的前端或后端包括被配置为存储输入/输出信号的存储器。
参照图12,带类别确定器1210可针对发送的语音信号和输入到麦克风的噪声信号确定带类别,以选择用于可懂度增强的至少一个有效带。在这种情况下,可针对语音信号和噪声信号中的每一个,基于心理声学原理来确定带类别。
引导信息产生器1230可基于已由带类别确定器1210确定的语音信号的带类别和噪声信号的带类别,来产生用于可懂度增强的引导信息。引导信息可包括将执行可懂度增强的有效带和有效带的改变值。有效带可以按照帧单位而变化。
引导信息应用器1250可通过将所产生的引导信息应用于语音频谱来产生改变的语音频谱。
图13是根据实施例的图12中所示的带类别确定器1210的详细框图。
图13中所示的带类别确定器1210可包括第一掩蔽阈值计算器1310、第一带类别确定器1330、信号分析器1350、第二掩蔽阈值计算器1370和第二带类别确定器1390。可将所述组件集成到至少一个处理器。尽管未示出,还可在每个组件的前端或后端处包括被配置为存储输入/输出信号的存储器。
参照图13,第一掩蔽阈值计算器1310可通过分析转换到频域的语音信号来估计语音掩蔽阈值。可基于心理声学原理计算语音掩蔽阈值,并且可将例如移动画面专家组(MPEG)标准中使用的方法应用到其中。语音掩蔽阈值可根据带而变化。
第一带类别确定器1330可基于由第一掩蔽阈值计算器1310获得的语音掩蔽阈值来确定针对语音信号的每个带的类别。第一带类别确定器1330可基于频带将语音信号分类为捐赠带和残余带,并且根据语音信号的能量和语音掩蔽阈值之间的比较结果将残余带分类为活跃带或非活跃带。详细地,捐赠类别与位于低频带的带相应,并且可将来自最低带的至少一个带设置为捐赠类别。当语音信号的能量大于或等于语音掩蔽阈值时,可将语音信号设置为活跃类别;否则,可将语音信号设置为非活跃类别。
信号分析器1350可通过分析从麦克风接收的信号来提取噪声信号。各种已知方法可被应用于噪声信号的提取。
第二掩蔽阈值计算器1370可通过分析从信号分析器1350提供的噪声信号来估计噪声掩蔽阈值。同样地,可基于心理声学原理计算噪声掩蔽阈值,并且可将例如MPEG标准中使用的方法应用到其中。噪声掩蔽阈值也可根据带而变化。
第二带类别确定器1390可基于由第二掩蔽阈值计算器1370计算出的噪声掩蔽阈值来确定针对噪声信号的每个带的类别。在这种情况下,可根据噪声信号的能量和噪声掩蔽阈值之间的比较结果将噪声信号分类为活跃带或非活跃带。当噪声信号的能量大于或等于噪声掩蔽阈值时,可将噪声信号设置为活跃类别;否则可将噪声信号设置为非活跃类别。噪声信号的带类别可被用于确定语音信号的带类别。根据另一实施例,可将噪声信号中的与语音信号的捐赠带相应的带分配到非活跃带。
图14是根据实施例的图13中所示的信号分析器1350的详细框图。这里,可以按照帧或子帧单位来执行信号分析。另外,可以按照子带单位来处理单个帧或子帧。这里,子带可包括阈值带或巴克带单元,并且可被配置为使得子带之间的间隙在较低带中窄并在较高带中宽。在下文中,作为示例,将描述帧单位信号分析。
图14中所示的信号分析器1350可包括语音活动检测器1410和噪声信号估计器1430。
参照图14,语音活动检测器1410可检测从麦克风输入的当前帧的语音活动。在这种情况下,也可使用信号活动来代替语音活动。另外,也可使用嵌入在编解码器中的语音活动检测(VAD)或信号活动检测(SAD)单元来代替语音活动检测器1410。
噪声信号估计器1430可根据从语音活动检测器1410提供的语音活动和预定阈值之间的比较结果将当前帧分类为活跃帧或非活跃帧。活跃帧指示讲话者向近端终端讲话的时间段,并且在这种情况下,噪声信号估计器1430可将先前非活跃帧的噪声信号估计为当前帧的噪声信号。非活跃帧指示讲话者不讲话的时间段,并且在这种情况下,噪声信号估计器1430可将麦克风的输入信号估计为当前帧的噪声信号。
图15是根据实施例的图12中所示的引导信息产生器1230的详细框图。
图15中所示的引导信息产生器1230可包括第一能量计算器1510、第二能量计算器1530和改变值计算器1570。
参照图15,第一能量计算器1510可通过将语音的总能量与噪声的总能量进行比较来计算助推能量。在这种情况下,可使用语音和噪声中的每一个的活跃带来计算语音的总能量和噪声的总能量。可通过考虑语音可掩蔽噪声的级别来确定助推能量。同样地,可通过考虑噪声可掩蔽语音的级别来确定助推能量。为此,可使用通过将语音假设为心理声学音调信号而计算的音调掩蔽噪声比(TMNR)或噪声掩蔽音调比(NMTR)。可由第一带类别确定器1330从设置为活跃类别的带计算语音的总能量。可由第二带类别确定器1390从设置为活跃类别的带计算噪声的总能量。每个总能量可由dB标度表示。
例如,助推能量可由等式1来表示。
等式1中使用的参数可由等式2至等式6来表示。
BandiT(k)∈{b|b>k并且ET,dB(k)>Mth,T,dB(k)} (5)
BandiN(k)∈{b|b>k并且EN,dB(k)>Mth,N,dB(k)} (6)
这里,表示噪声的总能量,/>表示语音的总能量,Mth,N,dB表示噪声的掩蔽阈值,以及Mth,T,dB表示语音的掩蔽阈值。另外,b表示带索引,k表示指示最后捐赠带的索引,BandiT(k)表示当最后捐赠带是k时属于语音信号的活跃带的带信息,BandiN(k)表示当最后捐赠带是k时属于噪声信号的活跃带的带信息,B表示帧的带的总数,TMNdB(k)表示噪声信号中的活跃带的比率,以及LimdB(k)表示语音信号中的活跃带的比率。这表示考虑了语音信号和噪声信号中的每一个的频谱动力学。
第二能量计算器1530可基于捐赠带确定捐赠能量。在这种情况下,可将相同值的捐赠能量分配给每个捐赠带。例如,可由等式7表示捐赠能量。
在等式2中,DdB可由等式8表示。
这里,表示噪声信号中的总活跃带能量,/>表示语音信号中的总活跃带能量。
改变值计算器1570可通过使用先前带的平滑后的助推能量来平滑当前带的助推能量,以防止声音质量劣化。在这种情况下,当前带的助推能量可不被平滑。
例如,可由等式9表示捐赠带之外的带的助推能量和捐赠带的助推能量。
b>k并且b∈助推带
这里,助推带表示活跃带。
改变值计算器1570可通过将平滑后的助推能量和捐赠能量从dB标度变换到线性标度来计算帧的总助推能量和总捐赠能量,并且通过考虑能量增加/减小部分来计算带特定改变值。
例如,可由等式10表示带特定改变值,例如,增益Gain(b)。
这里,ET,lin(b)表示带(b)的线性标度语音能量。
根据等式4,被变换到线性标度的平滑后的助推能量或捐赠能量的值被加到语音能量,并且然后可基于与原始语音能量的差来计算增益Gain(b)。
改变值计算器1570可确定在帧中总助推能量小于总捐赠能量的点处的允许的捐赠带的数量,同时增加捐赠带的数量。
这可由等式11表示。
/>
BandiT(k)∈{b|b>k并且ET,dB(b)>Mth,T,dB(b)} (11)
也就是说,在总助推能量小于总捐赠能量/>的点处的k的值与允许的捐赠带的数量相应。这里,b表示带索引,k表示指示最后捐赠带的索引。BandiT(k)表示当最后捐赠带是k时属于语音信号的活跃带的带信息,并且可在逐个地从低频到高频增加捐赠带的同时计算等式5。
改变值计算器1570可基于总助推能量和总捐赠能量校正捐赠带,根据经过校正的捐赠带校正活跃带和非活跃带,并且针对经过校正的捐赠带和活跃带计算带特定改变值Gain(b)。相应地,针对非活跃带,可保持原始信号。
图16示出了图12中所示的引导信息产生器1230的操作。
参照图16,在操作1610,校正带索引k被设置为1。
在操作1630,使用图15中的第一能量计算器1510和第二能量计算器1530计算助推能量和捐赠能量。
在操作1650,使用图15中的改变值计算器1570来比较总助推能量和总捐赠能量。
在操作1670,当作为操作1650中的比较的结果,总捐赠能量小于总助推能量时,将捐赠带索引增加1,并且引导信息产生器1230返回到操作1630。
在操作1690,当作为操作1650中的比较的结果,总捐赠能量大于或等于总助推能量时,满足相应条件的捐赠带索引k被确定为帧中允许的捐赠带的数量,并且通过基于允许的捐赠带的数量考虑能量增加/减少部分来计算带特定改变值。
图17是根据另一实施例的信号处理设备的详细框图,并且可与图6的第一可懂度增强器630或图7的可懂度增强器730相应。
图17所示出的信号处理设备可包括类别确定器1710、主导级别确定器1730、引导信息产生器1750和引导信息应用器1770。可将组件集成到至少一个处理器中。尽管未示出,但是在每个组件的前端或后端还可包括被配置为存储输入/输出信号的存储器。这里,可以可选地使用主导级别确定器1730,并且在这种情况下,当计算将在语音可懂度模型中使用的失真D时,可不考虑主导级别确定器1730。
参照图17,类别确定器1710可确定针对发送的语音信号的每个频谱的类别。根据实施例,可以按照频率仓单位来确定类别。为此,将语音信号和噪声信号变换到频域,并且可将作为变换的结果获得的语音频谱和噪声频谱提供给类别确定器1710。变换方案可包括离散傅立叶变换(DFT)、快速傅立叶变换(FFT)或修改的离散余弦变换(MDCT)+修改的离散正弦变换(MDST),但不限于此。类别确定器1710可以按照频率仓单位执行与语音掩蔽阈值的比较,并且当频率仓的大小小于语音掩蔽阈值时,可将相应的频率仓设置为类别B,以保持相应的频率仓而不改变。也就是说,即使是不可听的语音仍然保持为其原样。类别确定器1710可以按照频率仓单位将噪声能量与舒适噪声级别进行比较,并且当噪声能量小于舒适噪声级别时,可将相应的频率仓设置为类别B以保持相应的频率仓而不改变。也就是说,当噪声级别低时,相应的频率仓保持为其原样。当在频率仓单位中语音能量E1大于噪声能量E2时,例如,当E2*64<E1时,可将相应的频率仓设置为类别C以改变相应的频率仓,使得相应频率仓的大小减小。可将不与类别B和类别C相应的频率仓设置为类别A以改变频率仓,使得频率仓的大小增大或减小。针对设置为类别A的频率仓,当频率仓小于由特定频率仓设置的频率阈值Th时,可改变频率仓使得其大小减小;否则,当频率仓大于或等于由特定频率仓设置的频率阈值Th时,可改变频率仓使得其大小增大。在这种情况下,可通过考虑语音信号的绝对阈值来确定语音掩蔽阈值。可通过考虑扬声器的特性来确定频率阈值Th,并且可排除太低频率的信号。
主导级别确定器1730可从噪声频谱获得SNR或有效噪声级别,并且基于SNR或有效噪声级别确定主导级别。SNR或有效噪声级别越高,主导级别的值越大,并且主导级别越大,语音信号中的改变的程度越大。也就是说,主导级别越大,语音信号的能量增加越大。通过反映心理声学原理而不是照其原样反映噪声频谱中存在的实际噪声的大小,有效噪声级别可大于实际噪声的大小。主导级别确定器1730可包括SNR或有效噪声级别被映射到主导级别的表。
引导信息产生器1750可通过接收语音频谱、噪声频谱、频谱类别信息和主导级别来计算频谱特定改变值,并且产生频谱特定改变值作为引导信息。引导信息产生器1750可基于语音可懂度(VI)模型来计算频谱特定改变值。通用的VI模型可被定义为产生将被用于产生Sp'的引导信息的算法,其中,Sp'使语音信号Sp和噪声接收环境中的语音信号Sp'+N之间的差异最小化,其中,引导信息被反映到语音信号Sp'+N。失真D可被定义为[Sp-(Sp'+N)]2,并且可定义约束S以保持帧的总能量。更详细地,通过考虑所确定的类别,VI模型可被建模以产生使接收到的语音信号S与语音信号S*Gain之间的差异(即,失真D)最小化的引导信息Gain,其中,噪声信号Noise和将产生的引导信息Gain被反映到语音信号S*Gain。
对于优化问题,通过拉格朗日乘数表示L=D+λS,并且可确定使D最小化的α和β。在这种情况下,可通过在将频率阈值Th从0移动到特定频率(例如,最后的频率仓)的同时使用频率阈值Th来确定使D最小化的α和β。引导信息产生器1750可使用不考虑频谱间重要性的通用VI模型或考虑频谱间重要性的加权VI模型。
在下文中,将更详细地描述通过使用通用VI模型获得频谱特定改变值的方法。
首先,可基于频率仓的类别由等式12定义D。
这里,α表示被分类为类别C的频率仓和被分类为类别A的频率仓中的小于频率阈值Th的频率仓(例如,0至Th-1而非k的频率仓)的增益,β表示被分类为类别A的频率仓中的大于或等于频率阈值Th的频率仓(例如,Th至N-1而非k的频率仓)的增益,γ表示发送的语音信号X对麦克风的噪声信号Y的主导级别,k表示不可听的频率仓。当不考虑主导级别时,可将γ设置为1。
在等式12中,是在被分类为类别C的频率仓和被分类为类别A的频率仓中的小于频率阈值Th的频率仓的项,相应的频率仓与表示能量减少的α有关,/>是在被分类为类别A的频率仓中的大于或等于的频率阈值Th的频率仓的项,相应的频率仓与表示能量增加的β有关,以及是被分类为类别B的频率仓的项,相应的频率仓被保持而没有能量增加或减少。
可通过等式13简化等式12中的D。
总之,可通过等式14来使优化问题形式化。
这里,E表示在帧中将增加或减少的能量。
通过一系列的处理,可基于等式15获得解。
详细地,根据能量守恒约束,可由等式16来表示等式15。
然后,可根据最佳增益由等式17来表示α和β。
然后,可使用等式18来确定参数λ。
可通过将由等式18获得的λ代入等式11来获得α和β。
可由等式12至等式18来确定最终的α和β,并且作为结果,可获得使D最小化的频率阈值Th。可将频率阈值Th划界到大于或等于1KHz且小于Nyq_frq/4的范围。这里,Nyq_frq表示奈奎斯特频率。可选地,响应于采样率,可将频率阈值Th划界到另一个范围。
如上所述,根据频率阈值Th从初始值按照预定单位的调整,也可调整α和β,并且可在重复从调整后的α和β计算D的处理的同时确定使D最小化的频率阈值Th。响应于所确定的频率阈值Th,α和β被确定,其中,最终确定的α表示被确定为类别C的频率仓(即,能量减小)和被确定为类别A的频率仓中被确定为能量减少的频率仓的改变值,并且β表示被确定为类别A的频率仓中的被确定为能量增加的频率仓的改变值。
然后,将更详细地描述通过使用加权VI模型来获得频谱特定改变值的方法。
首先,可基于频率仓的类别由等式19来定义D。
等式19与等式12的不同之处在于使用权重W。可基于频谱重要性来获得权重W。重要性可以是相对重要性或绝对重要性。可通过基于心理声学模型中使用的不可预测性使用先前频谱来获得相对重要性。
可由等式20简化等式19的D。
总之,可通过等式21来使优化问题形式化。
通过一系列的处理,可基于等式22获得解。
详细地,根据能量守恒约束,可由等式23来表示等式22。
然后,可根据最佳增益由等式24来表示α和β。
然后,可使用等式25来确定参数λ。
由于等式25的逻辑解不存在,因此,可通过将权重插入约束S将等式21形式化为等式26。
通过一系列的处理,可基于等式27获得解。
如上所述,由于约束被改变,基于加权VI模型来获得解的方法不能满足能量守恒约束。因此,为了满足能量守恒约束,需要通过使用等式28来改变α和β。
可由等式19至等式28来确定最终的α和β,并且作为结果,可获得使D最小化的频率阈值Th。频率阈值Th可具有大于或等于1KHz且小于Nyq_frq/4的范围,但不仅限于此。这里,Nyq_frq表示奈奎斯特频率。
引导信息产生器1750可根据基于VI模型的变量值来产生用于可懂度增强的引导信息。引导信息可包括要对其执行可懂度增强的有效频率仓和有效频率仓的改变值。有效频率仓可以按照帧单位而变化。详细地,当基于VI模型获得使D最小化的频率阈值Th时,可响应于频率阈值Th确定α和β。这里,最终确定的α表示被确定为类别C的频率仓(即,能量减少)和被确定为类别A的频率仓中的被确定为能量减少的频率仓的频谱变化值,并且β表示被确定为类别A的频率仓中被确定为能量增加的频率仓的频谱变化值。
根据另一实施例,引导信息应用器1770可通过将要执行可懂度增强的带限制为发送的语音频谱中有意义的频带,来从被排除的带中确保附加能量。要执行可懂度增强的频带可以是包括感知重要信息的带。附加能量可用于VI模型以影响增益确定。在这种情况下,通过考虑语音信号的SNR,当SBR高时可将小值添加到附加能量,并且当SBR低时可将大值添加到附加能量。为此,可使用与音频编解码器的比特率控制类似的能量储存器方案。
根据另一实施例,引导信息应用器1770可通过考虑长期历史来计算有效噪声能量比率以防止噪声信号的快速改变,将计算出的有效噪声能量比率乘以从麦克风获得的噪声频谱的大小,然后使用乘法结果。
引导信息应用器1770可将由引导信息产生器1750获得的频谱特定改变值(例如,增益)应用于能量需要被减小的频率仓组和能量需要被增加的频率仓组。引导信息应用器1770可另外将帧特定增益(例如,全局增益)应用于已应用了频谱特定增益的每个频率仓。可将帧特定增益设置为与终端的音量级别相应。引导信息应用器1770可存储终端的音量级别被映射到全局增益的表。
图18示出了频率仓或频谱仓的类别,其中,1810表示设置为类别A的频率仓,1830表示设置为类别B的频率仓,1850表示设置为类别C的频率仓。
图19是根据实施例的图17中所示的引导信息应用器1770的详细框图,并且也可被应用于图12的引导信息应用器1250。
图19中所示出的引导信息应用器1770可包括第一增益应用器1910、第二增益应用器1930和逆变换器1950。这里,可将第二增益应用器1930布置为紧接着逆变换器1950之后,以将全局增益应用于变换到时域的语音信号。
参照图19,第一增益应用器1910可将按照频率仓单位确定的局域增益应用于相应的频率仓。
第二增益应用器1930可将响应于终端的音量级别的全局增益应用于已应用了局域增益的每个频率仓。
逆变换器1950可将包括已由第二增益应用器1930应用了全局增益的频率仓的帧逆变换到时域。在这种情况下,可将频谱特定改变值(例如,增益)应用于每个频率仓。引导信息应用器1770可另外将帧特定增益(例如,全局增益)应用于已应用了频谱特定增益的每个频率仓。可响应于终端的音量级别设置帧特定增益。
当图19的引导信息应用器1770被应用于图12的引导信息应用器1250时,第一增益应用器1910可将按照带单位确定的局域增益应用于相应的带。
图20是根据另一实施例的信号处理设备的详细框图。
图20中所示出的信号处理设备可包括第一接收器2010、第二接收器2030和处理器2050。
参照图20,第一接收器2010可通过麦克风接收接收侧或近端装置的噪声信号。第二接收器2030可从发送侧或远端装置接收对方的语音信号。
根据实施例,处理器2050可基于从第一接收器2010提供的噪声信号和来自第二接收器2030的语音信号来确定与语音信号的可懂度增强有关的类别,基于噪声信号、语音信号和所确定的类别来产生用于可懂度增强的引导信息,并通过将引导信息应用于语音信号来产生改变的语音信号。根据另一实施例,处理器2050可针对从第一接收器2010提供的噪声信号和来自第二接收器2030的语音信号的每个带确定与可懂度增强有关的带类别,基于所确定的噪声信号的带类别和所确定的语音信号的带类别来产生用于可懂度增强的引导信息,并通过将引导信息应用于语音信号来产生改变的语音信号。
图21是用于描述根据实施例的产生已增强了可懂度的语音信号的方法的框图。
降噪器(图7的710)可减少或去除对方的解码信号或语音信号的噪声,并且执行每个信号的时间对准和成帧以便与可懂度增强器(图7的730)匹配时间和帧同步。
可懂度增强器(图7的730)可另外执行噪声信号改变处理。噪声信号改变器可通过在操作2110中对噪声信号和降噪器(图7的710)的输出信号执行时频变换并且在操作2120中基于降噪器(图7的710)的输出信号对频域中的噪声信号的频谱进行校正,来改变噪声信号。当可懂度增强器(图7的730)不执行噪声信号改变处理时,可照其原样使用噪声信号。
可懂度增强器(图7的730)在操作2130中基于改变的噪声信号来确定变换的语音信号的频谱特定类别,在操作2140中基于语音信号的频谱特定类别信息产生语音信号改变信息,并输出频谱特定增益。
根据实施例,可基于VI模型改变语音信号。
图22是用于描述根据另一实施例的产生已增强了可懂度的语音信号的方法的框图。
与图21的实施例相比,根据图22的实施例的接收端装置2200还包括预处理器2220和编解码器2260。
接收端语音信号、接收端噪声信号、发送端语音信号和关于来自发送端终端的呼入呼叫的信息被传送到预处理器2220。
在这种情况下,接收端语音信号包括通过第一麦克风2211接收的噪声语音信号和通过第二麦克风接收的噪声信号,并且发送端语音信号包括从发送端终端传送的语音信号。关于呼入呼叫的信息可包括编解码器类型、编解码器的核心模式、非连续发送(DTX)信息等。
预处理器2220对所传送的信号进行预处理以获取语音信号、噪声信号和误差信号并将获取的语音信号、噪声信号和误差信号传送到控制器2230和编解码器2260,并且将所传送的关于呼入呼叫的信息传送到控制器2230和编解码器2260。在这种情况下,预处理器2220可包括回声消除器等。
编解码器2260的编码器2261对接收端语音信号进行编码,并且编解码器2260的解码器2262对发送端语音信号进行解码。编解码器2260将由解码器解码的发送端语音信号s_f(n)传送到控制器2230。
控制器2230基于接收端语音信号、接收端噪声信号、发送端语音信号和呼叫信息来控制降噪器2250和可懂度增强器2270的操作。控制器2230可控制降噪器2250的输出和可懂度增强器2270的功率输出,或者控制降噪器2250和可懂度增强器2270使得降噪器2250和可懂度增强器2270根据噪声类型选择性地进行操作。
另外,控制器2230可基于接收端语音信号、接收端噪声信号、发送端语音信号和呼叫信息来确定降噪器2250的降噪信息或者可懂度增强器2270的可懂度增强程度。
降噪器2250可被配置为与图7的降噪器相同,或者可将各种公知技术应用于降噪器2250。
可懂度增强器2270通过处理发送端语音信号来增强可懂度。可懂度增强器2270使用从控制器2230传送的控制信号和从降噪器2250传送的降噪信号以增强发送端语音信号的可懂度。
图23是根据实施例的使用信号处理设备的装置的框图。
如图23所示,信号处理设备可嵌入在声音质量增强器2330中。装置2300可包括收发器2310、显示器2320、声音质量增强器2330、控制器2340、存储器2350、输入单元2360和输出单元2370。
收发器2310可向通过网络连接的另一终端发送数据并从通过网络连接的另一终端接收数据,根据呼入呼叫接收从发送端装置(未示出)请求的呼入呼叫信号和发送端语音信号,将通过输入单元2360获取的接收端噪声信号环境的接收端语音信号发送到发送端装置。
根据实施例,收发器2310可将关于通过输入单元2360获取的接收端噪声信号的信息发送到服务器(图1的150),并且从服务器150接收用于声音质量增强算法的至少一个参数。根据另一实施例,收发器2310可从发送端装置(未示出)接收已应用了声音质量增强预处理的发送端语音信号。
显示器2320可将关于使用信号处理设备的装置2300的状态或配置的信息提供给用户,并且获取通过诸如触摸的手段的用户输入。根据实施例,显示器2320可从用户获取关于声音质量增强性能的反馈信息。根据另一实施例,显示器2320可通过用户输入获取关于呼叫的上下文信息。
声音质量增强器2330基于存储在存储器2350中的语音信号和通过输入单元2360获取的接收端噪声信号,获取用于嘈杂环境中的声音质量增强算法的至少一个参数。
根据实施例,可另外使用关于呼入呼叫的上下文信息,并且可基于每个上下文信息确定权重。
另外,声音质量增强器2330基于用于声音质量增强算法的至少一个参数的组合来增强发送端语音信号的声音质量。
控制器2340控制装置2300的整个操作。控制器2340和声音质量增强器2330可由一个处理器来实现。
存储器2350可存储用于声音质量增强算法的至少一个参数。
输入单元2360获取接收端噪声信号和接收端语音信号,并且可由麦克风来实现。输入单元2360的数量不受限制,并且输入单元2360通常位于用户的嘴和耳朵附近。
输出单元2370输出声音质量增强的发送端语音信号,并且可由扬声器来实现。根据实施例,输出单元2370可输出获取的接收端噪声信号的反相信号,并且在这种情况下,可动态去除噪声。
一些实施例可由包括计算机可执行指令(诸如可由计算机系统执行的程序模块)的记录介质来实现。计算机可读介质可以是可由计算机系统访问的任意可用介质,并且包括所有类型的易失性和非易失性介质以及单独的和非单独的介质。另外,计算机可读介质可包括所有类型的计算机存储介质和通信介质。计算机存储介质包括通过用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任意方法或技术实现的所有类型的易失性和非易失性介质以及单独的和非单独的介质。通信介质通常包括计算机可读指令、数据结构、程序模块、调制信号(诸如载波)的其他数据、其他传输机制和任意信息传送介质。
另外,在本公开中,术语诸如“…单元”或“…模块”指诸如处理器或电路的硬件组件和/或由诸如处理器的硬件组件执行的软件组件。
上述实施例仅是说明性的,并且实施例所属领域的普通技术人员将理解,在不改变本公开的技术精神和约束特征的情况下,可在实施例中做出形式和细节上的各种改变。因此,上述实施例应仅按照说明性意义来理解,而不是为了在所有方面进行限制的目的。例如,被描述为单个类型的每个组件可通过被分布而被实现,并且同样地,被描述为分布式类型的组件也可通过被结合而被实现。
本公开的范围由下面描述的权利要求而不是详细描述来限定,并且应该分析出权利要求的含义和范围以及源自它们的等同概念的所有变化或修改的形式包括在本公开的范围中。

Claims (15)

1.一种信号处理方法,包括:
通过基于心理声学原理分析变换到频域的发送的语音信号来估计语音掩蔽阈值;
通过基于频带将语音信号分类为捐赠带和剩余带,并且通过比较语音信号的能量和语音掩蔽阈值将剩余带分类为活跃带或不活跃带,来确定语音信号的每个带的类别,其中,捐赠带被设置为最低带中的至少一个带;
通过分析从麦克风接收的信号来提取噪声信号;
通过基于心理声学原理分析所述噪声信号来估计噪声掩蔽阈值;
通过比较所述噪声信号的能量和所述噪声掩蔽阈值将所述噪声信号分类为活跃带或非活跃带,来确定所述噪声信号的每个带的类别;
基于所述语音信号的每个带的类别和所述噪声信号的每个带的类别,来产生用于可懂度增强的引导信息;
通过将引导信息应用于所述发送的语音信号的语音频谱来产生改变的语音频谱。
2.如权利要求1所述的信号处理方法,其中,每个步骤中的处理是按照频率仓单位来执行的。
3.如权利要求1所述的信号处理方法,其中,确定类别的步骤包括将以下类别中的一个确定为语音频谱的频率仓的类别:照其原样保持频率仓的第一类别、减小频率仓的大小的第二类别以及减小或增大频率仓的大小的第三类别。
4.如权利要求1所述的信号处理方法,其中,确定类别的步骤包括:
针对语音频谱的语音能量小于语音掩蔽阈值的频率仓或者接收侧或者近端装置的噪声频谱的噪声能量小于舒适噪声级别的频率仓设置第一类别;
针对语音频谱的语音能量相对大于噪声频谱的噪声能量的频率仓设置第二类别;
针对语音频谱的语音能量大于或等于语音掩蔽阈值的频率仓设置第三类别。
5.如权利要求4所述的信号处理方法,其中,设置第三类别的步骤包括:设置第三类别,使得频率仓的频率小于预定频率阈值的频率仓的大小减小并且频率仓的频率大于或等于所述预定频率阈值的频率仓的大小增大。
6.如权利要求1所述的信号处理方法,其中,产生引导信息的步骤包括:基于从接收侧或者近端装置的噪声频谱、语音频谱、已反映所产生的引导信息的语音频谱以及所确定的类别建模的语音可懂度模型来产生引导信息。
7.如权利要求6所述的信号处理方法,其中,产生引导信息的步骤包括:使用通过考虑语音频谱的频率仓的重要性而建模的语音可懂度模型。
8.如权利要求6所述的信号处理方法,其中,语音可懂度模型通过基于心理声学特征反映有效噪声级别而被建模。
9.如权利要求1所述的信号处理方法,其中,产生引导信息的步骤包括:产生包括频率仓单位增益信息和帧单位增益信息中的至少一个的引导信息。
10.一种计算机可读记录介质,其上记录有用于执行权利要求1所述的信号处理方法的程序。
11.一种用于执行语音呼叫的终端装置,所述终端装置包括:
至少一个麦克风,被配置为接收包括讲话者的语音信号和/或噪声信号的周围环境信号;和
处理器,被配置为:
通过基于心理声学原理分析变换到频域的发送的语音信号来估计语音掩蔽阈值,
通过基于频带将语音信号分类为捐赠带和剩余带,并且通过比较语音信号的能量和语音掩蔽阈值将剩余带分类为活跃带或不活跃带,来确定语音信号的每个带的类别,其中,捐赠带被设置为最低带中的至少一个带,
通过分析从麦克风接收的信号来提取噪声信号,
通过基于心理声学原理分析所述噪声信号来估计噪声掩蔽阈值,
通过比较所述噪声信号的能量和所述噪声掩蔽阈值将所述噪声信号分类为活跃带或非活跃带,来确定所述噪声信号的每个带的类别,
基于所述语音信号的每个带的类别和所述噪声信号的每个带的类别,来产生用于可懂度增强的引导信息,
通过将引导信息应用于所述发送的语音信号的语音频谱来产生改变的语音频谱,并且将改变的语音频谱提供给扬声器。
12.如权利要求11所述的终端装置,其中,用于可懂度增强的引导信息包括关于有效频率仓的信息和有效频率仓的增益信息。
13.如权利要求12所述的终端装置,其中,有效频率仓根据帧而变化。
14.如权利要求12所述的终端装置,其中,有效频率仓包括需要减少能量的频率仓组和需要增加能量的频率仓组。
15.如权利要求11所述的终端装置,其中,处理器被配置为:基于从接收侧或者近端装置的噪声频谱、语音频谱、已反映所产生的引导信息的语音频谱和所确定的类别建模的语音可懂度模型来产生引导信息。
CN201780039330.3A 2016-06-24 2017-06-26 适于噪声环境的信号处理方法和装置及使用其的终端装置 Active CN109416914B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2016-0079692 2016-06-24
KR20160079692 2016-06-24
PCT/KR2017/006728 WO2017222356A1 (ko) 2016-06-24 2017-06-26 잡음 환경에 적응적인 신호 처리방법 및 장치와 이를 채용하는 단말장치

Publications (2)

Publication Number Publication Date
CN109416914A CN109416914A (zh) 2019-03-01
CN109416914B true CN109416914B (zh) 2023-09-26

Family

ID=60784405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780039330.3A Active CN109416914B (zh) 2016-06-24 2017-06-26 适于噪声环境的信号处理方法和装置及使用其的终端装置

Country Status (5)

Country Link
US (1) US11037581B2 (zh)
EP (1) EP3457402B1 (zh)
KR (1) KR102417047B1 (zh)
CN (1) CN109416914B (zh)
WO (1) WO2017222356A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110313031B (zh) * 2017-02-01 2023-09-12 惠普发展公司,有限责任合伙企业 针对语音隐私的自适应语音可懂度控制
US11601483B2 (en) * 2018-02-14 2023-03-07 Genband Us Llc System, methods, and computer program products for selecting codec parameters
CN110390830A (zh) * 2019-08-08 2019-10-29 西北民族大学 一种基于智能控制和语音识别引导功能的车载系统
CN111131616B (zh) * 2019-12-28 2022-05-17 科大讯飞股份有限公司 基于智能终端的音频共享方法及相关装置
KR102424795B1 (ko) * 2020-08-25 2022-07-25 서울과학기술대학교 산학협력단 음성 구간 검출 방법
CN113409803B (zh) * 2020-11-06 2024-01-23 腾讯科技(深圳)有限公司 语音信号处理方法、装置、存储介质及设备
CN113823307B (zh) * 2021-09-17 2023-05-23 广州华多网络科技有限公司 语音信号处理方法及其装置、设备、介质、产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090009560A (ko) * 2007-07-20 2009-01-23 에스케이 텔레콤주식회사 수신 음성 인지율 향상을 위한 음성 처리 장치 및 방법
WO2010091339A1 (en) * 2009-02-06 2010-08-12 University Of Ottawa Method and system for noise reduction for speech enhancement in hearing aid
US8180064B1 (en) * 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1994026036A1 (en) * 1993-05-04 1994-11-10 Motorola Inc. Apparatus and method for substantially eliminating noise in an audible output signal
CA2354755A1 (en) 2001-08-07 2003-02-07 Dspfactory Ltd. Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank
JP2004235737A (ja) 2003-01-28 2004-08-19 Hitachi Kokusai Electric Inc 通信機
JP4460256B2 (ja) 2003-10-02 2010-05-12 日本電信電話株式会社 雑音低減処理方法、この方法を実施する装置、プログラム、記録媒体
JP4260046B2 (ja) 2004-03-03 2009-04-30 アルパイン株式会社 音声明瞭度改善装置及び音声明瞭度改善方法
KR101435411B1 (ko) 2007-09-28 2014-08-28 삼성전자주식회사 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치
KR100910384B1 (ko) 2007-11-05 2009-08-04 권영현 환경소음에 따른 스피커 음량 자동 제어 시스템 및 그 제어방법
KR101238731B1 (ko) * 2008-04-18 2013-03-06 돌비 레버러토리즈 라이쎈싱 코오포레이션 서라운드 경험에 최소한의 영향을 미치는 멀티-채널 오디오에서 음성 가청도를 유지하는 방법과 장치
US9373339B2 (en) 2008-05-12 2016-06-21 Broadcom Corporation Speech intelligibility enhancement system and method
WO2010091399A2 (en) 2009-02-09 2010-08-12 University Of South Florida Reelin rescues cognitive function
JP5127754B2 (ja) 2009-03-24 2013-01-23 株式会社東芝 信号処理装置
KR20100136629A (ko) 2009-06-19 2010-12-29 인하대학교 산학협력단 근단 배경잡음 환경에서 지.729에이 음성부호화기 파라미터에 기반한 음성강화 방법
KR101639331B1 (ko) 2009-12-04 2016-07-25 삼성전자주식회사 잡음 환경에서 음성 신호를 강화하는 방법 및 그 장치
US8744091B2 (en) 2010-11-12 2014-06-03 Apple Inc. Intelligibility control using ambient noise detection
US20140365212A1 (en) * 2010-11-20 2014-12-11 Alon Konchitsky Receiver Intelligibility Enhancement System
JP2012163682A (ja) 2011-02-04 2012-08-30 Nec Casio Mobile Communications Ltd 音声処理装置及び方法
KR20120091701A (ko) 2011-02-09 2012-08-20 삼성전자주식회사 오디오 신호 출력 방법 및 그에 따른 오디오 신호 출력 장치
KR102060208B1 (ko) * 2011-07-29 2019-12-27 디티에스 엘엘씨 적응적 음성 명료도 처리기
US8666753B2 (en) 2011-12-12 2014-03-04 Motorola Mobility Llc Apparatus and method for audio encoding
JP5443547B2 (ja) 2012-06-27 2014-03-19 株式会社東芝 信号処理装置
CN104685563B (zh) 2012-09-02 2018-06-15 质音通讯科技(深圳)有限公司 用于嘈杂环境噪里的回放的音频信号整形
US20150019213A1 (en) * 2013-07-15 2015-01-15 Rajeev Conrad Nongpiur Measuring and improving speech intelligibility in an enclosure
GB2520048B (en) * 2013-11-07 2018-07-11 Toshiba Res Europe Limited Speech processing system
EP3701527B1 (en) * 2017-10-27 2023-08-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for generating a bandwidth-enhanced audio signal using a neural network processor
US10896674B2 (en) * 2018-04-12 2021-01-19 Kaam Llc Adaptive enhancement of speech signals
US10672414B2 (en) * 2018-04-13 2020-06-02 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved real-time audio processing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090009560A (ko) * 2007-07-20 2009-01-23 에스케이 텔레콤주식회사 수신 음성 인지율 향상을 위한 음성 처리 장치 및 방법
US8180064B1 (en) * 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
WO2010091339A1 (en) * 2009-02-06 2010-08-12 University Of Ottawa Method and system for noise reduction for speech enhancement in hearing aid

Also Published As

Publication number Publication date
EP3457402A1 (en) 2019-03-20
KR102417047B1 (ko) 2022-07-06
US20190348058A1 (en) 2019-11-14
US11037581B2 (en) 2021-06-15
CN109416914A (zh) 2019-03-01
EP3457402B1 (en) 2021-09-15
EP3457402A4 (en) 2019-05-22
WO2017222356A1 (ko) 2017-12-28
KR20190057052A (ko) 2019-05-27

Similar Documents

Publication Publication Date Title
CN109416914B (zh) 适于噪声环境的信号处理方法和装置及使用其的终端装置
JP6887995B2 (ja) セカンダリチャンネルを符号化するためにプライマリチャンネルのコーディングパラメータを使用するステレオ音声信号を符号化するための方法およびシステム
US9646616B2 (en) System and method for audio coding and decoding
US11380338B2 (en) Signal processing methods and apparatuses for enhancing sound quality
KR20060131851A (ko) 통신 장치 및 신호 부호화/복호화 방법
US20210272575A1 (en) Adaptive comfort noise parameter determination
KR20190139872A (ko) 멀티-소스 환경에서의 비-고조파 음성 검출 및 대역폭 확장
US20180261232A1 (en) Inter-channel bandwidth extension spectral mapping and adjustment
AU2023254936A1 (en) Multi-channel signal generator, audio encoder and related methods relying on a mixing noise signal
CN112309422A (zh) 对音频信号中的噪声进行估计的方法和装置以及传输音频信号的装置和系统
EP4179530A1 (en) Comfort noise generation for multi-mode spatial audio coding
EP4330963A1 (en) Method and device for multi-channel comfort noise injection in a decoded sound signal

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant