CN103004084B - 用于语音质量增强的方法及设备 - Google Patents
用于语音质量增强的方法及设备 Download PDFInfo
- Publication number
- CN103004084B CN103004084B CN201180004253.0A CN201180004253A CN103004084B CN 103004084 B CN103004084 B CN 103004084B CN 201180004253 A CN201180004253 A CN 201180004253A CN 103004084 B CN103004084 B CN 103004084B
- Authority
- CN
- China
- Prior art keywords
- voice quality
- strengthens
- audio signal
- vqe
- detector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q3/00—Selecting arrangements
Abstract
一种用于从网络的前一个网络元件接收音频信号的网络元件的语音质量增强(VQE)检测器,其中所述语音质量增强检测器(2)适于:基于所述接收到的音频信号执行语音质量增强检测,其中所述语音质量增强检测包括检测所述网络(1)的至少一个前一个网络元件已将至少一个语音质量增强功能VQEF应用于所述接收到的音频信号;以及依据检测结果来控制对接收到的音频信号的语音质量增强处理。
Description
技术领域
本发明涉及一种用于在网络中检测及处理语音质量增强(voicequalityenhancement,VQE)的方法及设备,特别是涉及一种用于网络元件的语音质量增强VQE检测器及一种用于控制语音质量增强VQE装置VED提供的语音质量增强VQE的方法。
背景技术
在电信系统中,如果语音信号的质量降级,则要求语音质量增强VQE。回声、背景噪声或回响可能形成通信网络中输送的语音信号发生信号降级的可能原因中的一些原因。可在终端中或在通信网络的中间网络节点中或这两者中应用语音质量增强VQE。通过去除回声及背景噪声,并且通过调整话音电平以实现对于用户来说一致且舒适的收听体验,语音质量增强可显著改善通话质量。
当在电信网络中应用语音质量增强VQE时,可由例如ITU-TG.160中规定的语音增强装置VED来进行此处理。语音增强装置VED可提供某些信号处理网络功能SPNF,例如通信网络的数字发射路径中的降噪及回声消除,其中所述功能可对可能穿越电信网络的语音频带信号执行语音质量增强功能。网络可为有线及/或无线通信网络。
一般来说,例如移动电话等通信网络的终端可能包含语音质量增强VQE模型,例如用于降噪及回声消除的模型。回声消除模型只对通信装置或终端的数字取样音频信号起作用。回声消除模型使用声环境从通信装置的扬声器到麦克风的转移功能,估计所述功能可消除从麦克风信号接收到的回音信号。回声消除模型形成用于向网络的任何形式的语音通信装置提供语音质量增强VQE功能的基本部分。此外,降噪模块可自适应地减少背景噪声,并有效地提高话音信号的SNR。在声环境中可能存在由不同频谱特性组成的许多噪声来源,其不随时间变化或随时间变化。降噪模块提供的降噪必须对于所有类型的噪声表现稳健。此外,在常规网络中,可能仍然存在例如移动电话等许多设计不良的终端,其留下语音信号的高水平降级。终端的不良设计可能源于设计不良的声接口,也可能源于使用VQE模块提供的表现不良的语音质量增强功能。这种情况导致通话质量总体不良,并且促使需要将语音信号从一个终端输送到另一个终端的通信网络的网络元件提供的网络语音质量增强功能(VQEF)。网络元件提供的语音质量增强功能可例如补偿来自用户的移动终端的残余回声,还可执行额外的降噪。因此,常规通信网络的一个常见功能性是通信网络的网络元件提供的语音质量增强功能(VQEF)。此VQE功能可形成通信网络的关键功能,并且是相应网络运营商向客户提供的通话质量的特色。
尽可能靠近声音前端(即终端)执行总的音频信号处理,特别是语音质量增强(VQE)信号处理,目的是从用户的角度来说保证高质量通信。可在终端中更好地应用语音质量增强功能,因为可能会在不可靠的通信信道(例如无线电链路)上编码、调制且发射音频信号,这会增加所发射的信号的失真,例如非线性及编码噪声,这样会降低网络中的语音质量增强功能(VQEF)特别是基于模型的语音质量增强(VQE)处理的性能。另一方面,在相应终端中不可能有信号处理能力的情况下(例如在PSDN电话中),或者如果终端中提供的能力的性能较低的情况下,一般会使用通信网络中的信号处理功能的实施方案。因此,在常规通信网络中,可能会发生“串联情况”,其中向话音信号应用两次或两次以上语音质量增强功能(VQEF),即既在终端中又在通信网络的至少一个网络元件中应用。非线性及随时间变化的信号处理功能的此类型的串联对于用户所察觉的总体话音质量是不利的。在大多情况下,话音信号由于此串联信号处理而降级。典型的实例是由于串联噪声消除引起的上行链路连接中的话音降级,或由于串联回声消除引起的不良的双端通话性能。例如削波等严重假象可能被引入到经处理的话音信号中,这可导致更容易被用户察觉的质量降级。
在ITU-TG.799.2“MechanismforDynamicCoordinationforSignalProcessingFunction”(信号处理功能的动态协调机制)ITU-TSG16中,近来定义了一种用于在终端及网络元件中的实施机制,其可形成跨终端及通信网络的网络元件的信号处理功能的控制的基础。此常规机制的内容是:在通信网络中添加信令以通知是否已向信号应用了语音质量增强VQE功能。在ITU-TSG.11中研发了意在实施此信令机制的用于有线及光学网络的适当协议。对于移动通信网络来说,类似类型的协议是必要的。当移动电话及移动网络元件支持此常规信令机制时,可实现用户的总质量感觉的提高。连接中不需要的信号处理功能被关闭。提供此信令的问题是网络当前并不知道相应终端何时利用其信号处理能力时。因此,如果未使用信令,则此用以避免语音质量增强VQE串联的常规机制失败或者缺失。
使通信网络的网络元件知道终端中存在或不存在语音质量增强装置(VED)的信号处理能力的信令的引入仍然有许多缺点。通过引入此信令,通信网络的所有网络元件必须知道如何发信号通知及如何解释接收到的信令,以便获得高效的处理。如果引入使用此信令的额外终端,则旧式语音增强装置无法解释此信令。因此,引入此信令需要更新网络元件的所有现有的语音增强装置VED,使得语音增强装置能够解释此信令。因此,在现有通信网络中实施此控制机制需要高成本及精力。此外,任何信令机制及协议均必须首先标准化,特别是在通信网络是由多个厂商的网络部署组成的情况下。此标准化过程可能是一个漫长的过程。
因此,本发明的目标是提供一种用于提供允许例如避免VQE串联或VQE双重处理的语音质量增强VQE的改善的设备及改善的方法。
发明内容
根据第一方面,本发明提供一种用于从网络的先前网络元件接收音频信号的网络元件的语音质量增强(VQE)检测器,其中所述语音质量增强(VQE)检测器适于:基于所述接收到的音频信号执行语音质量增强检测,其中所述语音质量增强检测包括检测所述网络的至少一个先前网络元件已将至少一个语音质量增强功能VQEF应用于所述接收到的音频信号;以及依据检测结果来控制对接收到的音频信号的语音质量增强处理。
所述先前网络元件可包括将两个终端彼此连接的通信链或网络路径内的一个或若干个网络元件。所述网络元件可包括终端或网络的中间网络节点。因此,术语先前网络元件是指网络的任何网络元件,其是关于音频信号被发送通过网络的网络路径,位于网络的执行语音质量增强检测的当前或实际网络元件之前。
网络的至少一个先前网络元件应用于接收到的音频信号的语音质量增强功能(VQEF)可能已经由实际网络元件直接从其接收到音频信号的先前网络元件应用于音频信号,或由网络的相对于音频信号的网络路径的任何早先网络元件应用于音频信号。
根据本发明的第一方面的语音质量增强(VQE)检测器不依赖于载运到网络的网络元件的控制信令,而是执行其自身的关于是否已将语音质量增强功能VQEF应用于音频信号的检测。根据本发明的第一方面的用于网络元件的语音质量增强(VQE)检测器可检测先前或在接收到音频信号之前是否已经对接收到的音频信号执行了语音质量增强功能(VQEF),且任选地还检测先前或在接收到音频信号之前已对接收到的音频信号执行了哪个语音质量增强功能(VQEF),以避免例如在网络元件中及/或在网络的终端中执行同一语音质量增强功能(VQEF)一次以上,以便可避免话音信号的降级。
根据本发明的第一方面的用于网络元件的语音质量增强(VQE)检测器可提供于通信网络内的通信链的任何网络元件中。确切地说,用于网络元件的语音质量增强(VQE)检测器可提供于通信网络的网络终端中或中间网络节点中。
在根据本发明的第一方面的语音质量增强(VQE)检测器的可能的实施方案中,所述语音质量增强检测包括检测由至少一个先前网络元件已应用于接收到的音频信号的至少一个特定语音质量增强功能VQEF。
在根据本发明的第一方面的语音质量增强(VQE)检测器的可能的实施方案中,所述至少一个语音质量增强VQE功能(VQEF)是降噪功能及/或回音消除功能。其它语音质量增强(VQE)功能也是可能的,例如动态范围压缩功能及/或自动增益控制功能。
在根据本发明的第一方面的语音质量增强(VQE)检测器的可能的实施方案中,所述接收到的音频信号是经编码的音频信号,且所述语音质量增强(VQE)检测器连接到信号输入端,且处理在对所述语音质量增强检测的信号输入端处接收到的经编码的音频信号的比特流。
在根据本发明的第一方面的语音质量增强(VQE)检测器的可能的实施方案中,所述语音质量增强(VQE)检测器连接到比特流解码器的输出端,且基于接收到的经编码音频信号来处理所述比特流解码器产生的解码器信号,以执行所述语音质量增强检测。
因此,语音质量增强(VQE)检测器可在信号域(即,对经解码的话音信号)中操作,或在经编码的域中对接收到的经编码的音频信号的比特流操作。
在根据本发明的第一方面的语音质量增强(VQE)检测器的可能的实施方案中,语音质量增强(VQE)检测器可依据检测结果来调整自适应语音质量增强装置VED的参数。因此,在此实施方案中,语音质量增强(VQE)检测器执行软决策,且控制由语音质量增强装置VED执行的VQE处理的参数化。
在根据本发明的第一方面的语音质量增强(VQE)检测器的另一可能的实施方案中,所述语音质量增强VQE检测器依据检测结果来进行控制以打开或关闭所述语音质量增强装置VED提供的至少一个语音质量增强VQE功能(VQEF)。因此,在此实施方案中,语音质量增强(VQE)检测器执行硬决策,且根据检测结果来激活或去激活语音质量增强装置VED提供的VQE功能。
在根据本发明的第一方面的语音质量增强(VQE)检测器的另一可能的实施方案中,所述语音质量增强检测是闭环语音质量增强检测,且包括:由所述语音质量增强装置将语音质量增强功能应用于所述接收到的音频信号,以获得所述接收到的音频信号的经处理的版本;以及如果对所述接收到的音频信号获得的语音质量度量及对所述接收到的音频信号的所述经处理的版本获得的语音质量度量的评估满足预定准则,则检测至少一个语音质量增强功能VQEF,或检测所述先前网络元件中的一者已将至少所述所应用的质量增强功能应用于所述接收到的音频信号。
举例来说,语音质量度量是平均意见得分(MOS)或主观差异等级(SDG)。举例来说,可通过将对接收到的音频信号获得的语音质量度量与对接收到的音频信号的经处理的版本获得的语音质量度量进行比较来执行对语音质量度量的评估,但所述评估还可包含更复杂的评估。语音质量度量可直接提供接收到的音频信号与接收到的音频信号的经处理的版本之间的比较。在此情况下,正值可指示经处理的版本比接收到的音频信号好,且负值可指示经处理的版本降级。
在根据本发明的第一方面的语音质量增强VQE检测器的再一可能的实施方案中,语音质量增强(VQE)检测器对接收到的音频信号执行非侵入性话音质量评价。非侵入性话音质量评价技术提供仅基于接收到的音频信号的对话音质量的估计。
在根据本发明的第一方面的VQE检测器的可能的实施方案中,VQE在闭环中运行,其中将接收到的音频信号与经VQE处理的信号之间的MOS得分进行比较。检测则是基于具有最高得分的一者。
在根据本发明的第一方面的语音质量增强(VQE)检测器的可能的实施方案中,语音质量增强(VQE)检测器适于检测由先前网络元件中的一者或由所述语音质量增强装置VED应用于接收到的音频信号的语音质量增强VQE功能(VQEF)的强度,且相应地调整经调适的语音质量增强装置VED的参数。
在根据本发明的第一方面的语音质量增强(VQE)检测器的另一可能的实施方案中,语音质量增强(VQE)检测器适于提取及分析来自接收到的未经解码或经解码的音频信号的信号特征,以执行所述语音质量增强检测。
在根据本发明的第一方面的语音质量增强(VQE)检测器的可能的实施方案中,所述语音质量增强(VQE)检测器提取及分析的所述接收到的音频信号的所述信号特征可包括:接收到的音频信号的频谱平坦性量度及/或频谱动态及/或基音周期及/或基音增益及/或话音变化。也可使用其它信号特征。
在根据本发明的第一方面的语音质量增强(VQE)检测器的可能的实施方案中,所使用的统计模型是高斯混合模型GMM。
在根据本发明的第一方面的语音质量增强VQE检测器的另一可能的实施方案中,将语音质量增强(VQE)检测器提供的检测结果发信号通知给所述网络的其它网络元件。这些网络元件可包括终端及网络的中间网络节点。此外,检测结果可被发信号通知给同一通信链内的其它网络元件,或者网络的相应通信链内未提供的网络元件。有可能第一网络元件中的VQE检测器执行VQE检测,且相应地控制另一网络元件中的VED装置。
根据本发明的第二方面,本发明提供有线及/或无线通信网络的一种网络元件,其包括根据本发明的第一方面的语音质量增强(VQE)检测器及/或其实施方案中的一者,以及受所述语音质量增强(VQE)检测器控制的用于接收到的音频信号的语音质量增强处理的至少一个语音质量增强装置(VED)。
在可能的实施方案中,网络元件的语音质量增强(VQE)检测器及语音质量增强装置(VED)形成集成单元,其可为硬件或软件实施的。
在根据本发明的第二方面的网络元件的可能的实施方案中,网络元件是用户终端。在可能的实施方案中,网络元件可由用户设备(UE)装置或移动电话形成。
在根据本发明的第二方面的网络元件的另一可能的实施方案中,网络元件可为用户终端之间的光、电或电磁通信网络的通信链内的网络节点。网络节点可例如为例如网关等中间网络节点。
根据第三方面,本发明进一步提供一种通信网络,其包括根据本发明的第二方面的网络元件。此通信网络可为无线或有线通信网络,或无线或有线通信子网络的组合。
根据第四方面,本发明进一步提供一种用于控制从通信网络的网络元件接收音频信号的网络元件的语音质量增强装置(VED)提供的语音质量增强(VQE)的方法,所述方法包括以下步骤:基于所述接收到的音频信号执行语音质量增强检测,其中所述语音质量增强检测包括检测所述先前网络元件中的一者已将至少一个语音质量增强功能VQEF应用于所述接收到的音频信号;以及依据检测结果来控制对接收到的音频信号的语音质量增强处理。
在第四方面的可能的实施方案中,所述语音质量增强检测包括检测所述至少一个先前网络元件已应用于所述接收到的音频信号的至少一个特定语音质量增强功能VQEF。
关于本发明的第一方面及其实施方案提供的解释对应地适用于第四方面及其实施方案。
附图说明
下文中,参照附图描述本发明的不同方面的可能的实施方案。
图1绘示网络中的包括根据本发明的第一方面的语音质量增强(VQE)检测器的网络元件的框图;
图2绘示包括根据本发明的第一方面的语音质量增强检测器的网络元件的另一可能实施方案的框图;
图3绘示包括根据本发明的第一方面的语音质量增强检测器的网络元件的另一可能实施方案的框图;
图4绘示用于解释由根据本发明的第一方面的另一可能实施方案的语音质量增强检测器执行的特征提取及分析的图;
图5绘示根据本发明的另一方面的通信网络内的网络元件的通信链的框图。
具体实施方式
在图1的框图中,绘示了网络的网络元件1,其中网络元件1包括根据本发明的第一方面的语音质量增强(VQE)检测器2。网络元件1-i包括信号输入端3,用于从至少一个先前网络元件1-(i-1)接收音频信号。先前网络元件1-(i-1)可由网络中的通信链内的先前网络元件形成。根据本发明定义网络元件的排序,使其与信号路径一致,即,网络元件的先前网络元件将接收信号,对其进行处理,且将其发射到网络元件。例如图1所示的网络元件可由终端或中间网络节点形成。在图1的实施方案中,可看出语音质量增强VQE检测器2可集成在通信网络的网络元件1-i中。语音质量增强(VQE)检测器2适于检测先前网络元件中的一者已将至少一个语音质量增强功能(VQEF)应用于接收到的音频信号,或检测由先前网络元件中的一者应用于接收到的音频信号的至少一个特定语音质量增强功能(VQEF),如图1的实施方案中所示。语音质量增强VQE检测器2进一步适于控制相应网络元件1的语音质量增强装置(VED)4。依据检测结果来控制语音质量增强装置(VED)4。在所绘示的实施方案中,使用检测结果来控制两个开关6、7。
在图1的所绘示的实施方案中,语音质量增强检测器2在信号域中操作,即,基于比特流解码器5产生的经解码的音频信号而操作。比特流解码器5接收从先前网络元件供应到网络节点1的输入端3的比特流或音频信号,且对接收到的音频信号比特流进行解码。在图1中绘示的实施方案中,语音质量增强检测器2连接到比特流解码器5的输出端,且处理由比特流解码器5产生的经解码的信号,以检测由先前网络元件中的一者应用于由比特流解码器5解码的接收到的音频信号的至少一个语音质量增强功能VQEF。
检测到的语音质量增强功能VQEF可由不同类型的语音质量增强功能VQEF中的一种形成,特别是语音质量增强(VQE)降噪功能及/或语音质量增强(VQE)回音消除功能。此外,VQE功能可包括动态范围压缩功能及/或自动增益控制功能。在可能的实施方案中,语音质量增强检测器2可被调谐或配置以检测至少一个特定语音质量增强功能,例如语音质量增强检测器2可适于检测回音消除功能及/或降噪功能是否已由至少一个先前网络节点应用于接收到的音频信号。如果语音质量增强检测器2在接收到的音频信号上检测到例如降噪或回声消除等特定语音质量增强功能VQEF,则检测器根据检测结果来控制图1所示的开关6、7。如果已检测到特定语音质量增强功能VQEF,则语音质量增强(VQE)检测器2控制开关,以便不在当前网络元件1-i中将检测到的同一VQE功能的语音质量增强功能处理应用于接收到的信号。举例来说,如果检测到特定的语音质量增强功能(VQEF),则可如图1中图解说明通过相应地控制开关6、7来绕过在网络元件1-i内为此特定语音质量增强功能VQEF提供的对应的语音增强装置4,以便不对接收到的音频信号执行语音质量增强。相反,如果语音质量增强检测器2未检测到特定语音质量增强功能VQEF,则控制开关6、7,使得提供此特定语音质量增强功能VQEF的语音质量增强装置4从比特流解码器5接收经解码的信号,且如图1中图解说明将语音质量增强信号输出到编码器8。编码器8在网络元件1-i的输出端9处输出最终输出比特流。此输出比特流可能被应用于网络的通信链内的另一网络元件1-(i+1)。
如果语音质量增强VQE检测器2检测到特定语音质量增强功能VQEF,则仍可例如通过同一网络元件的VED4或连续网络元件的VED,用其它语音质量增强功能算法来处理接收到的信号,从而实现将不同功能性传输到下一网络元件。
如果在接收到的音频信号中,检测到所有预定语音质量增强功能(VQEF)已经被应用于接收到的信号,则相应网络元件1-i的语音质量增强装置(4)不执行语音质量增强(VQE)。相反,如果在接收到的信号中根本未检测到语音质量增强,则可使用网络元件1-i中可用的所有语音质量增强VQE处理来处理接收到的音频信号。在图1的框图中可看出,网络元件1-i的语音质量增强(VQE)检测器2不使用在网络上载运的来自其它网络元件的任何控制信号,而是其执行其自身的对是否已应用语音质量增强VQE的本地检测,且依据检测结果而适当地停用或启用网络元件1-i内的对应的语音质量增强VQE处理单元或语音增强装置4。
图2绘示包括根据本发明的第一方面的语音质量增强(VQE)检测器2的网络元件1-i的另一可能的实施方案。在语音质量增强的所绘示的实施方案中,不在信号域中而是直接在经编码的域中执行检测,即在应用于网络元件1-i的输入端3的输入的经编码音频信号的接收到的比特流中执行。在此实施方案中,语音质量增强检测器2连接到信号输入端3,且处理在信号输入端3处接收的音频信号的比特流,以检测由网络的先前网络元件中的一者应用于接收到的音频信号的至少一个语音质量增强(VQE)功能。在VQE检测的结果使得不需要或将不执行VQE处理的情况下,使用开关10直接在经编码的域中在当前网络元件处停用VQE,因此不需要编码及解码的步骤。换句话说,在此情况下,开关10绕过在信号域中由比特流解码器5、语音质量增强装置4及编码器8执行的语音质量增强处理。应注意,对于某些VED,也可在经编码的信号域中执行VQE功能。在此情况下,可能不需要比特流解码器5及编码器8,因为将由语音质量增强装置4在经编码的信号域中直接执行语音质量增强,无需事先解码及后续重新编码。
图3绘示包括根据本发明的第一方面的语音质量增强(VQE)检测器2的网络元件1-i的另一可能的实施方案。图3的实施方案包括基于非侵入性话音质量评估的语音质量增强(VQE)解码器2。VQE检测器2使用的非侵入性话音质量评估技术提供仅基于接收到的信号的对话音质量的估计。
在可能的实施方案中,语音质量增强检测器2是闭环语音质量增强检测,且适于由语音质量增强装置将语音质量增强功能应用于接收到的音频信号,以获得接收到的音频信号的经处理的版本;且检测至少一个语音质量增强功能VQEF,或在对接收到的音频信号获得的语音质量度量及对接收到的音频信号的经处理的版本获得的语音质量度量的评估满足预定准则的情况下,由先前网络元件中的一者至少所应用的质量增强功能已应用于接收到的音频信号。
在可能的实施方案中,在使用非侵入性话音质量评价技术将当前网络元件1-i内的语音质量增强装置4提供的语音质量增强VQE应用于接收到的音频信号之前及之后,语音质量增强检测器2可例如估计平均意见分(MOS)降级。在绘示的示范性实施方案中,如果在执行语音质量增强功能之后所估计的MOS值降级,则不使用语音质量增强VQE装置4提供的语音质量增强功能(VQEF)。这意味着,虽然为了测量增强程度而增强了输入信号,但输出信号对应于输入信号,即,开关10未将VED4提供的音频信号的经处理版本选为网络元件的输出,且总地来说,网络元件尚未执行输入信号的增强。MOS值的比较结果是对检测到对接收到的音频信号的VQE处理的指示,因为在大多数情况下,如果VQE装置4的输出端处的所估计的MOS得分低于输入信号的得分,那么存在已应用了VQE的强烈指示,且因此在此情况下不使用VQE装置。因此,在所绘示的实施方案中,语音质量增强(VQE)检测器2将比特流解码器5提供的经解码的信号与语音质量增强装置4输出的经增强的信号进行比较,以检查语音质量是否已得到改善。如果在语音质量增强VQE之后MOS值降级,或至少未改善预定程度,则通过控制开关10而不使用语音质量增强装置(VED)4提供的语音质量增强功能。因此,编码器8输出的经增强比特流被阻断,且接收到的比特流在网络元件1-i的输出端9处作为最终输出比特流直接输出。相反,如果检测到的MOS值得到改善,则假设先前未将语音质量增强功能或至少未将所述特定语音质量增强功能应用于音频信号,且通过将编码器8的输出端切换到网络元件1的输出端9而应用语音质量增强功能VQEF,使得语音质量增强装置4对接收到的音频信号执行语音质量增强VQE。
在图1、2、3的不同实施方案中绘示的语音质量增强装置4可为自适应语音质量增强装置。在可能的实施方案中,语音质量增强VQE检测器2可通过控制自适应语音质量增强处理装置4的参数化来执行软决策。语音质量增强VQE检测器2可依据检测结果来调整经调适的语音质量增强装置4的参数。在可能的实施方案中,语音质量增强(VQE)检测器2适于检测应用于先前网络元件中的一者的接收到的音频信号或由相应网络元件的语音质量增强装置4应用的语音质量增强(VQE)功能的强度,且依据检测结果及检测到的语音质量增强(VQE)功能的强度来调整经调适的语音质量增强装置4的参数。
在另一可能的替代实施方案中,语音质量增强检测器2可提供硬决策,且激活或去激活对应的语音质量增强功能VQEF。在可能的实施方案中,语音质量增强(VQE)检测器2依据检测结果来打开或关闭由网络元件1-i的语音质量增强装置(VED)4提供的至少一个语音质量增强(VQE)功能。在形成软决策的实施方案中,语音质量增强检测器2可检测先前语音质量增强功能VQEF的强度。如果先前应用的语音质量增强功能VQEF被检测为强处理,例如具有非常有限的残余背景噪声的强降噪,则语音质量增强检测器2控制语音质量增强装置4,以便不将对应的语音质量增强功能应用于当前网络元件1-i中的接收到的音频信号。如果检测到先前的语音质量增强处理,但检测到的语音质量增强功能VQEF不强,例如具有仍然高水平的背景噪声的降噪,则语音质量增强检测器2可控制语音质量增强装置4以进一步通过相应地调整语音质量增强VQE装置4的参数来处理接收到的音频信号。如果语音质量增强VQE检测器2在接收到的音频信号中检测到所有语音质量增强功能VQEF,且如果检测到所有检测到的语音质量增强功能VQEF经过强处理,则当前网络元件1-i的VQE装置4不将语音质量增强功能VQEF应用于接收到的音频信号。
在又一可能的实施方案中,语音质量增强VQE检测器2适于借助于统计模型提取及分析来自接收到的音频信号的信号特征,以检测应用于接收到的音频信号的至少一个语音质量增强(VQE)功能。通常,可在由已在其上应用了特定类型的VQE的若干信号或已在其上应用了不同类型的VQE的信号组成的大数据库上建立及训练统计模型。在可能的实施方案中,接收到的音频信号的所提取及分析的信号特征可包括接收到的音频信号的频谱平坦性量度及/或频谱动态及/或基音周期及/或基音增益及/或话音变化。可在经VQE处理的信号的大数据库上估计及训练所提取及分析的特征的分布。可由高斯混合模型GMM来形成所采用的统计模型。混合模型可为使用混合分布的密度估计的概率模型。也就是说,假设混合模型中的观测结果是根据预定混合密度而分布的。可将混合模型视为一种类型的不受监管的学习或群集。此统计建模也可基于统计检测技术,例如贝叶斯检测或支持向量机。
图4图解说明根据可能的实施方案的语音质量增强检测器2使用高斯混合模型GMM执行的对信号特征的特征提取及分析。从接收到的比特流中提取第一局部特征,借助于统计描述从第一局部特征导出全局特征,接着将全局特征应用于高斯混合模型GMM映射,用于检测应用于接收到的音频信号的语音质量增强功能。所述检测可基于对经解码的信号的分析及特征提取,或直接基于接收到的比特流,或基于使用MOS降级。网络元件1-i中的语音质量增强VQE处理的应用的条件是在接收到的信号中未检测到类似的语音质量增强VQE处理,或检测到集成语音质量增强装置4对信号质量的改善。语音质量增强VQE功能检测可为全局的,从而引起去激活当前网络元件1-i中的所有语音质量增强VQE功能,或者是部分的,从而引起去激活当前网络元件1-i中的至少一个特定语音质量增强功能(如果在接收到的音频信号中检测到此VQE功能)。检测可为硬检测或软检测。在软检测中,可估计先前VQE处理的强度,且可与检测一起使用所述强度来自适应地参数化当前网络元件1-i中的语音质量增强装置4。
根据本发明的第一方面的语音质量增强VQE检测器2不需要任何额外信令。因此,此信令不需要标准化或实施,且因此根据本发明的第一方面的语音质量增强VQE检测器2对于现有的网络部署是向后兼容的。根据本发明的第一方面的语音质量增强VQE检测器2可用于产生信令。其可例如用于使用根据ITU-TG.799.2构想的信令方案。这有益于旧式终端,且一般来说,不支持根据第一方面的语音质量增强检测器2的信令的旧式语音质量增强VQE设备可触发整个通信网络中的信令。
图5绘示由网络元件1-i组成的通信网络1内的通信链的框图。图5绘示的通信链将第一终端1-1连接到远程第二终端1-N,其是借助于中间网络节点彼此连接。换句话说,在将音频信号从作为信号源的网络元件1-1发送到作为信号汇的网络元件1-N的情况下,网络链1-1到1-N形成描述通过网络的音频信号的路径的网络路径,其中网络元件1-1到1-(i-1)相对于网络元件1-i是先前网络元件。根据本发明的第二方面,提供有线及/或无线通信网络的至少一个网络元件1-i,其包括至少一个语音质量增强VQE检测器2及至少一个受语音质量增强检测器2控制的语音质量增强(VQE)装置4。此网络元件可为例如终端1-1、1-N等终端,或通信链的中间网络节点1-i。网络元件可通过无线或有线链路连接。此外,网络可包括电或电磁通信网络或光学通信网络。
根据本发明的另一方面,提供一种用于控制从通信网络的至少一个先前网络元件接收音频信号的网络元件1的语音质量增强装置4提供的语音质量增强VQE的方法,其中检测由先前网络元件中的一者应用于接收到的音频信号的至少一个语音质量增强(VQE)功能或因相应网络元件1的语音质量增强装置4应用于接收到的音频信号的至少一个语音质量增强VQE功能引起的信号质量增强,且依据检测结果来控制相应网络元件1的语音质量增强VQE装置4。根据本发明的第四方面的方法可由语音质量增强(VQE)检测器2的执行单元执行的控制程序来执行。本发明提供一种由网络内的通信链的至少一个网络元件进行的语音质量增强VQE检测,其中此检测可基于对经解码的信号的分析及特征提取,或直接基于接收到的比特流,或基于使用MOS降级。当前网络元件中的语音质量增强VQE处理的应用的条件可为未检测到对接收到的音频信号的类似语音质量增强VQE处理或功能,或条件为同一网络元件中集成的语音质量增强装置4引起的信号质量的改善。此外,检测可为全局的,从而引起去激活当前网络元件内的所有语音质量增强功能VQEF,或者是部分的,从而引起去激活当前网络元件中的至少特定语音质量增强功能VQEF(如果在接收到的音频信号中已检测到对应的语音质量增强VQE)。
检测可为硬检测或软检测。在软检测中,可估计先前处理的强度,且可与检测一起使用所述强度来自适应地参数化当前网络元件中的语音质量增强功能VQEF。根据本发明的方法不需要标准化或实施任何额外信令,且其对现有网络部署是向后兼容的。
根据本发明的第四方面的方法避免了话音降级,且改善了话音质量。其避免了当在网络的通信链中应用语音质量增强处理两次或两次以上时可能发生的话音或信号降级。只要在网络中引入所述方法,所述方法便对通信链的每一网络元件有效。
Claims (15)
1.一种语音质量增强检测器(2),所述语音质量增强检测器(2)用在从前一个网络元件接收音频信号的网络元件(1),
所述语音质量增强检测器(2)用于:
对接收到的音频信号进行本地的语音质量增强检测,其中所述语音质量增强检测包括借助于统计模型提取及分析来自接收到的音频信号的信号特征,以检测网络的至少一个前一个网络元件(1)将至少一个语音质量增强VQE功能应用于所述接收到的音频信号;以及
所述语音质量增强检测器(2)还用于检测由所述前一个网络元件中的所述至少一者相应地应用于所述接收到的音频信号的语音质量增强VQE功能的强度,根据检测结果及检测到的语音质量增强VQE功能的强度来调整对所述接收到的音频信号的语音质量增强处理的参数,其中所述语音质量增强处理是自适应语音质量增强处理;或者,根据检测结果来打开或关闭由所述语音质量增强处理提供的至少一个语音质量增强VQE功能。
2.根据权利要求1所述的语音质量增强检测器,
其中所述语音质量增强检测包括检测所述至少一个前一个网络元件应用于所述接收到的音频信号的至少一个特定语音质量增强VQE功能。
3.根据权利要求1所述的语音质量增强检测器,
其中所述至少一个语音质量增强VQE功能是降噪功能及/或回音消除功能及/或动态范围压缩功能及/或自动增益控制功能。
4.根据前述权利要求1到3中任一权利要求所述的语音质量增强检测器,
其中所述接收到的音频信号是经编码的音频信号;且
其中所述语音质量增强VQE检测器(2)连接到信号输入端(3),并且处理在所述信号输入端(3)处接收到的所述经编码的音频信号的比特流,以执行所述语音质量增强检测;或
其中所述语音质量增强VQE检测器(2)连接到比特流解码器(5)的输出端,且基于所述接收到的经编码的音频信号来处理由所述比特流解码器(5)产生的经解码的信号,以执行所述语音质量增强检测。
5.根据前述权利要求1到3中任一权利要求所述的语音质量增强检测器,其中所述语音质量增强检测是闭环语音质量增强检测,且包括:
由语音质量增强装置(4)将语音质量增强功能应用于所述接收到的音频信号,以获得所述接收到的音频信号的经处理的版本;以及
如果对所述接收到的音频信号获得的语音质量度量及对所述接收到的音频信号的所述经处理的版本获得的语音质量度量的评估满足预定准则,则检测至少一个语音质量增强VQE功能,或检测所述前一个网络元件(1)中的一者将至少所述所应用的语音质量增强功能应用于所述接收到的音频信号。
6.根据前述权利要求1所述的语音质量增强检测器,
其中所述语音质量增强VQE检测器(2)包括对所述接收到的音频信号的非侵入性话音质量评价。
7.根据权利要求5所述的语音质量增强检测器,
其中所述语音质量增强VQE在闭环中应用,其中将所述接收到的音频信号与经VQE处理的信号之间的MOS得分进行比较。
8.根据前述权利要求1到3中任一权利要求所述的语音质量增强检测器,
其中所述语音质量增强VQE检测器(2)适于提取及分析来自所述接收到的音频信号的信号特征以执行所述语音质量增强检测,其中所述接收到的音频信号经过编码或未经编码。
9.根据权利要求8所述的语音质量增强检测器,
其中所述接收到的音频信号的所述经提取及分析的信号特征包括以下特征中的至少一者:
所述接收到的音频信号的频谱平坦性量度,
频谱动态,
基音周期,
基音增益及/或
话音变化。
10.根据权利要求8所述的语音质量增强检测器,
其中所述统计模型是高斯混合模型GMM。
11.根据前述权利要求1到3中任一权利要求所述的语音质量增强检测器,
其特征在于,向网络的至少一个其它网络元件发信号通知所述语音质量增强VQE检测器(2)提供的所述检测结果。
12.一种有线或无线通信网络的网络元件,其包括:
根据前述权利要求1到10中任一权利要求所述的语音质量增强VQE检测器(2);以及
至少一个语音质量增强装置(4),用于接收所述语音质量增强VQE检测器(2)控制以对接收到的音频信号进行语音质量增强处理。
13.根据权利要求12所述的网络元件,
其中所述网络元件(1)是用户终端或用户终端之间的光、电或电磁有线或无线通信网络的通信链内的网络节点。
14.一种包括根据前述权利要求12或13中任一权利要求所述的网络元件的通信网络。
15.一种用于控制语音质量增强的方法,该方法由从通信网络中前一个网络元件接收音频信号的网络元件(1)的语音质量增强装置(4)提供,该方法包括:
对接收到的音频信号进行本地的语音质量增强检测,其中所述语音质量增强检测包括借助于统计模型提取及分析来自接收到的音频信号的信号特征,以检测应由至少一个所述前一个网络元件(1)应用于所述接收到的音频信号的至少一个语音质量增强VQE功能;以及
检测由所述前一个网络元件中的所述至少一者相应地应用于所述接收到的音频信号的语音质量增强VQE功能的强度,依据检测结果及检测到的语音质量增强VQE功能的强度来调整对所述接收到的音频信号的语音质量增强处理的参数,其中所述语音质量增强处理是自适应语音质量增强处理;或者,根据检测结果来打开或关闭由所述语音质量增强处理提供的至少一个语音质量增强VQE功能。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2011/070288 WO2012094827A1 (en) | 2011-01-14 | 2011-01-14 | A method and an apparatus for voice quality enhancement |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103004084A CN103004084A (zh) | 2013-03-27 |
CN103004084B true CN103004084B (zh) | 2015-12-09 |
Family
ID=46506768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180004253.0A Active CN103004084B (zh) | 2011-01-14 | 2011-01-14 | 用于语音质量增强的方法及设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9299359B2 (zh) |
EP (1) | EP2664062B1 (zh) |
CN (1) | CN103004084B (zh) |
WO (1) | WO2012094827A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9578161B2 (en) * | 2013-12-13 | 2017-02-21 | Nxp B.V. | Method for metadata-based collaborative voice processing for voice communication |
GB2523984B (en) * | 2013-12-18 | 2017-07-26 | Cirrus Logic Int Semiconductor Ltd | Processing received speech data |
CN105900170B (zh) * | 2014-01-07 | 2020-03-10 | 哈曼国际工业有限公司 | 压缩音频信号的以信号质量为基础的增强和补偿 |
WO2016091332A1 (en) * | 2014-12-12 | 2016-06-16 | Huawei Technologies Co., Ltd. | A signal processing apparatus for enhancing a voice component within a multi-channel audio signal |
US9591125B1 (en) * | 2016-02-23 | 2017-03-07 | Verizon Patent And Licensing Inc. | Testing audio quality associated with a user device during a double talk communication |
US20230419987A1 (en) * | 2022-06-24 | 2023-12-28 | Microsoft Technology Licensing, Llc | Dynamic speech enhancement component optimization |
US20230419986A1 (en) * | 2022-06-24 | 2023-12-28 | Microsoft Technology Licensing, Llc | Dynamic speech enhancement component optimization |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6490552B1 (en) * | 1999-10-06 | 2002-12-03 | National Semiconductor Corporation | Methods and apparatus for silence quality measurement |
CN1504042A (zh) * | 2000-12-29 | 2004-06-09 | ��˹��ŵ�� | 数字网络中的音频信号质量增强 |
CN101313484A (zh) * | 2005-11-21 | 2008-11-26 | 艾利森电话股份有限公司 | 用于改进呼叫质量的方法和设备 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001258090A (ja) | 2000-03-13 | 2001-09-21 | Sony Corp | スピーカ駆動回路 |
EP1526639A3 (en) * | 2000-08-14 | 2006-03-01 | Clear Audio Ltd. | Voice enhancement system |
US7103539B2 (en) * | 2001-11-08 | 2006-09-05 | Global Ip Sound Europe Ab | Enhanced coded speech |
US20040243404A1 (en) * | 2003-05-30 | 2004-12-02 | Juergen Cezanne | Method and apparatus for improving voice quality of encoded speech signals in a network |
US7599483B2 (en) * | 2003-12-12 | 2009-10-06 | Temic Automotive Of North America, Inc. | Echo canceler circuit and method |
US7990865B2 (en) | 2004-03-19 | 2011-08-02 | Genband Us Llc | Communicating processing capabilities along a communications path |
US8027265B2 (en) | 2004-03-19 | 2011-09-27 | Genband Us Llc | Providing a capability list of a predefined format in a communications network |
US20060187851A1 (en) * | 2005-02-18 | 2006-08-24 | Waldorf Michelle M | Method and apparatus for evaluating network usage |
JP4161983B2 (ja) * | 2005-06-06 | 2008-10-08 | ヤマハ株式会社 | 音質調整装置 |
US8705727B2 (en) * | 2005-07-26 | 2014-04-22 | Livewire Mobile, Inc. | Methods and apparatus for enhancing ringback tone quality during telephone communications |
FR2894707A1 (fr) * | 2005-12-09 | 2007-06-15 | France Telecom | Procede de mesure de la qualite percue d'un signal audio degrade par la presence de bruit |
US8032366B2 (en) * | 2008-05-16 | 2011-10-04 | Tellabs Operations, Inc. | Method and apparatus for low bit rate speech coding detection |
KR101475724B1 (ko) * | 2008-06-09 | 2014-12-30 | 삼성전자주식회사 | 오디오 신호 품질 향상 장치 및 방법 |
-
2011
- 2011-01-14 EP EP11855669.5A patent/EP2664062B1/en not_active Not-in-force
- 2011-01-14 WO PCT/CN2011/070288 patent/WO2012094827A1/en active Application Filing
- 2011-01-14 CN CN201180004253.0A patent/CN103004084B/zh active Active
-
2013
- 2013-07-12 US US13/940,494 patent/US9299359B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6490552B1 (en) * | 1999-10-06 | 2002-12-03 | National Semiconductor Corporation | Methods and apparatus for silence quality measurement |
CN1504042A (zh) * | 2000-12-29 | 2004-06-09 | ��˹��ŵ�� | 数字网络中的音频信号质量增强 |
CN101313484A (zh) * | 2005-11-21 | 2008-11-26 | 艾利森电话股份有限公司 | 用于改进呼叫质量的方法和设备 |
Non-Patent Citations (1)
Title |
---|
Non-intrusive single-ended speech quality assessment in VoIP;Lijing Ding等;《Speech Communication》;20070601;第49卷(第6期);第477-489页 * |
Also Published As
Publication number | Publication date |
---|---|
US20130304461A1 (en) | 2013-11-14 |
EP2664062A1 (en) | 2013-11-20 |
EP2664062A4 (en) | 2013-11-20 |
CN103004084A (zh) | 2013-03-27 |
US9299359B2 (en) | 2016-03-29 |
WO2012094827A1 (en) | 2012-07-19 |
EP2664062B1 (en) | 2015-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103004084B (zh) | 用于语音质量增强的方法及设备 | |
CN100393085C (zh) | 数字网络中的音频信号质量增强 | |
US7797162B2 (en) | Audio encoding device and audio encoding method | |
US20110044324A1 (en) | Method and Apparatus for Voice Communication Based on Instant Messaging System | |
US20060215683A1 (en) | Method and apparatus for voice quality enhancement | |
EP1858006B1 (en) | Sound encoding device and sound encoding method | |
JP2009518663A (ja) | エコー検出 | |
US20060217972A1 (en) | Method and apparatus for modifying an encoded signal | |
US20060217969A1 (en) | Method and apparatus for echo suppression | |
US8874437B2 (en) | Method and apparatus for modifying an encoded signal for voice quality enhancement | |
WO2008051401A1 (en) | Method and apparatus for injecting comfort noise in a communications signal | |
KR102307355B1 (ko) | 잡음 환경의 통화 품질을 개선하는 방법 및 장치 | |
US20060217970A1 (en) | Method and apparatus for noise reduction | |
US20060217988A1 (en) | Method and apparatus for adaptive level control | |
US20060217983A1 (en) | Method and apparatus for injecting comfort noise in a communications system | |
US20060217971A1 (en) | Method and apparatus for modifying an encoded signal | |
US20040243404A1 (en) | Method and apparatus for improving voice quality of encoded speech signals in a network | |
US7076316B2 (en) | Method and apparatus for controlling an operative setting of a communications link | |
KR101715198B1 (ko) | 가변 전력 예산을 이용한 음성 강화 방법 | |
US20190132688A1 (en) | Speech intelligibility-based hearing devices and associated methods | |
KR100772199B1 (ko) | VoIP 서비스의 품질보장을 위한 통화 잡음 제거장치 및방법, 그리고 이를 적용한 VoIP 단말 | |
US20240005930A1 (en) | Personalized bandwidth extension | |
CN113206773A (zh) | 与语音质量估计相关的改进方法和设备 | |
KR20100035205A (ko) | 고품질 통화 시스템 및 그 방법 | |
Vary | Advanced signal processing in speech communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210428 Address after: Unit 3401, unit a, building 6, Shenye Zhongcheng, No. 8089, Hongli West Road, Donghai community, Xiangmihu street, Futian District, Shenzhen, Guangdong 518040 Patentee after: Honor Device Co.,Ltd. Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd. |