CN1682280A - 控制用来传送语音的信号中可能有害的信号的方法与系统 - Google Patents

控制用来传送语音的信号中可能有害的信号的方法与系统 Download PDF

Info

Publication number
CN1682280A
CN1682280A CNA038058243A CN03805824A CN1682280A CN 1682280 A CN1682280 A CN 1682280A CN A038058243 A CNA038058243 A CN A038058243A CN 03805824 A CN03805824 A CN 03805824A CN 1682280 A CN1682280 A CN 1682280A
Authority
CN
China
Prior art keywords
characteristic
signal
established
frequency
loudness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA038058243A
Other languages
English (en)
Other versions
CN1332374C (zh
Inventor
迈克尔·J·A·弗希尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hear IO Pty. Ltd.
Original Assignee
Hearworks Pty Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hearworks Pty Ltd filed Critical Hearworks Pty Ltd
Publication of CN1682280A publication Critical patent/CN1682280A/zh
Application granted granted Critical
Publication of CN1332374C publication Critical patent/CN1332374C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/19Arrangements of transmitters, receivers, or complete sets to prevent eavesdropping, to attenuate local noise or to prevent undesired transmission; Mouthpieces or receivers specially adapted therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/738Interface circuits for coupling substations to external telephone lines
    • H04M1/74Interface circuits for coupling substations to external telephone lines with means for reducing interference; with means for reducing effects due to line faults
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Fire-Extinguishing By Fire Departments, And Fire-Extinguishing Equipment And Control Thereof (AREA)
  • Control Of Vehicles With Linear Motors And Vehicles That Are Magnetically Levitated (AREA)
  • Alarm Systems (AREA)

Abstract

描述了一种控制用来传送语音的信号中可能有害的信号的方法与系统。该方法包含以下步骤:确立当信号传送语音时的信号特性;监控所述信号;以及相对于所确立的特性来控制所述信号。

Description

控制用来传送语音的信号中可能有害的信号的方法与系统
技术领域
本发明涉及一种控制在用来传送语音的信号中可能有害的信号的方法与系统。
背景技术
语音通信系统传送可能包含非语音信号以及语音信号的信号。这些非语音信号包含由诸如传真机等电话装备有意制造的噪声,以及诸如尖叫声与劈啪声等非确定来源的不希望的噪声。当转换为声音时,这些非语音信号可能通过例如使听者经历声震而对听者有害。当接收方通过例如电话听筒将电声换能器贴近听者的耳朵时,就增加了声震的可能性。如果接收方不能通过例如电话听筒将电声换能器从耳朵旁迅速拿开,则声震的风险更高。此类语音通信系统的例子有固定以及移动电话系统、双向无线电、录音机、VoIP系统、助听器以及对讲机。
有理由相信声震现象对于在诸如呼叫中心等组织中工作的工作人员、接线员、以及在使用通信设备的任何区域中的工作人员具有不利影响。不仅在这些天期间以及在其后的几天中感到痛苦以及不适,某些呼叫中心工作人员还会抱怨持续数天或几周的头疼、恶心、紧张、以及对于声音的过敏反应等症状。在有些情形中,有报告说症状持续了几年。
已经有几种通过控制向听者呈现的声级来最小化声震的发生次数与强度的方法。这些方法包括削峰以及压缩限制(compression limiting)。
削峰器通过防止施加到接收方电声换能器的电压超过给定幅度,来控制向听者呈现的声级。削峰可以通过在接收方电声换能器的线圈上放置极性相反的一对二极管来实现。由这一削峰产生的声信号的频率内容是接收方电声换能器响应的函数。削峰也可以在向接收方电声换能器提供信号的电路之内实现。在将消峰后的信号提供给接收方电声换能器之前,该电路可以提供对削峰后信号的过滤。在这种情况下,从该削峰中产生的声信号的频率内容为滤波器以及接收方电声换能器的响应两者的函数。
压缩限制器通过以下方法控制向听者呈现的声级:当将向接收方电声换能器施加的信号具有高幅度时,提供该信号的减小的放大率。压缩限制可以通过以下方法实现:将信号所通过的放大器的增益降低输入信号包络超过给定阈值的量。该增益降低可以以宽带或特定频率的方式实现,并且可以随后进行滤波。从压缩限制中产生的声信号的频率内容为压缩限制后滤波以及接收方电声换能器的响应的函数。削峰器可以与压缩限制结合使用。
削峰器与压缩限制器两者都可能对语音的质量及可辨性产生不利影响。在这些设备所提供的声保护以及它们对语音的质量和可辨性的影响之间存在平衡。因为这些设备只控制施加到接收方电声换能器的电压,所以接收方电声换能器敏感度的任何变化将导致呈现给听者的结果声级的变化。已知用户将更换换能器。如果用户替换了用于较高敏感度的换能器,则仍会向用户呈现有害信号。各个人对于声震的敏感性是不同的,并且根据个人的状态也是不同的。限制在固定级别上将在给定点时间上为给定个人提供足够的保护,但是在其他时间或者对于其他个体,该级别可能导致保护不足、语音响度不足、或者语音失真。对于高度受控限制器用户的声震损伤的报道表明信号的感知频率特定响度在引起该类损伤中扮演了重要角色。
发明内容
根据本发明的第一方面,提供了一种控制用来传送语音的信号中可能有害的信号的方法,包含以下步骤:确立当信号传送语音时的信号特性;以及相对于所确立的特性控制所述信号。
这些特性可能包含任何可测量的特性,包含:信号的幅度、信号的功率、信号的响度、信号在特定频带上的幅度、信号在特定频带上的功率、以及信号的特定响度;所有上述都是以时间为基础进行测量的。
通过以上方法,相对于先前确定的当信号传送语音时的特性,来控制所述信号。优选地,如果所述信号显示了在所确立的特性之外的特性,则控制信号。因此,可以提供对可能有害的信号幅度的降低。另外,也可以独立于用户所使用的特定声音再现装备的敏感度来提供对于可能有害的信号的控制。可选地,以预定间隔再次确立所述特性。信号的特性可以随时间而变化。这可能是由于许多因素,包括谈话者的变化而引起的。定期重新确立信号特性使该方法能够适应信号条件的变化。这是因为相对于对信号的最近分析来控制信号。
可选地,该方法还包含以下步骤:提供预定的所确立的特性。这些特性可以存储在存储器中,从而该方法一启动,例如当启动用来实施该方法的软件程序时,就具有可使用的特性。优选地,所述存储器为非易失存储器。
根据本发明的第二方面,提供了一种控制用来传送语音的信号中可能有害的信号的系统,该系统包含:确立部件,用来确立当信号传送语音时的信号特性;以及控制部件,相对于所确立的特性来控制所述信号。
根据本发明的第三方面,提供了一种计算机软件,其提供用于控制计算机系统执行根据本发明第一方面的方法的指令。
根据本发明的第四方面,提供了一种提供根据本发明的第三方面的计算机软件的计算机可读介质。
附图说明
现在将参照附图通过示例的方式描述本发明的实施方式,其中:
图1为语音传送系统的示意图,其包含根据本发明的、用来控制信号中可能有害的信号的系统的实施例;
图2为图1的系统10的详细示意图;
图3为图2的特征提取器26的详细示意图;
图4为图2的语音特征计算器30的详细示意图;
图5为图2的特征比较器32的详细示意图;
图6为图2的修改参数生成器34的详细示意图;
图7为显示图2的系统相对于所确立的特性而在第三倍频程频带内控制信号幅度的图;
图8为图2的特征提取器26的第二实施方式的详细示意图;
图9为图1的系统10的第二实施方式的详细示意图;
图10为图9的语音特征计算器701的详细示意图;
图11为图1的系统10的第三实施方式的详细示意图;
图12为图11的语音特征计算器803的详细示意图;
图13为显示图11的系统相对于所确立的特性而在第三倍频程频带内控制信号幅度的图;
图14为图1的系统10的第四实施方式的详细示意图;
图15为图14的语音特征计算器1001的详细示意图。
具体实施方式
参照图1,显示语音传送系统,其包含用于控制在用来传送语音的信号中可能有害的信号的系统10。设置系统10在输入端12接收数字编码的信号。设置该系统在输出端14产生数字编码的输出信号。设置该系统10使得系统10处理接收信号的采样速度等于接收信号的采样速度,该采样速度典型地为每秒8000个样本。本领域技术人员应该理解,只要采取了适当措施以最小化混淆,就可以在较低采样速度上进行接收信号的某些处理,而具有对于信号处理质量的最小影响。
系统10耦合至用来接收模拟信号的模拟数字转换器16,以及用来产生模拟输出信号的数字模拟转换器18。
系统10可选地接收来自声音重现级20的反馈。该反馈包含在输入端22处的处理后音量控制设置信号,以及在输入端24处的从数字级别到声级信号的转换函数。
参照图2,显示了图1的系统10的详细示意图。在该例子中,系统10以控制数字信号处理硬件的软件来实现。图2显示系统10的功能块。系统10包含确立部件,其由特征提取器26、语音检测器28、以及语音特征计算器30构成。该系统还包括监视部件,其形式为特征提取器26与特征比较器32相结合;以及控制部件,其形式为修改参数生成器34与自适应修改器26。
在运行时,系统10在输入端12接收用来传送语音的数字信号。特征提取器26用来提取并存储信号的特征,此后称为所提取的特征40。根据所接收的信号的编码性质,该步骤可以包括从编码格式解码该信号。
由特征提取器26提取的特征被传送给语音检测器28,语音检测器28分析所提取的特征以确定其是否属于语音。本领域技术人员应该知道分析信号并确定信号特性的许多现有技术,所述确定信号特性诸如确定是否存在语音以及语音是否在特定频率区域的信号中或者在宽带信号中占主导地位。这些技术一般涉及对信号特性与已知特性进行模式匹配的结果的统计分析。这些技术将以二级或多级形式产生对给定信号类型的存在的识别分级。此类技术包含施加到使用诸如短期频率分析、短期倒频谱(cepstral)分析、以及线性预测分析等技术而从信号产生的参数的人工神经网络、主分量分析、以及模糊逻辑。如果所提取的特征被判定属于语音,则语音检测器28指示语音特征计算器30通过采样所提取的特征并且将其存储在缓冲器中,而将这些特征添加到所确立的特性记录中,以后将详细描述。
与上述语音检测操作平行,特征比较器32将信号的所提取的特征40与所确立的特性44进行比较。如果信号的所提取的特征40超过了所确立的特性44,则差别的细节被传送给修改参数生成器34。修改参数生成器生成指示自适应修改器36控制信号所需的参数。
输入信号12通过延迟器38传送给自适应修改器36。延迟器38补偿上述特征提取、特征比较、以及修改参数生成所需的有限时间。将来自自适应修改器的修改后的信号送入输出端14。自适应修改器36可以被控制用来提供宽带衰减以及频率选择性衰减。在一种形式中,自适应修改器36为自适应滤波器,可以指示这样的滤波器衰减特定频率范围中的信号分量。本领域技术人员应该知道自适应地滤波信号的许多方法,包括自适应IIR滤波器、自适应FIR滤波器、其后跟随带内幅度的自适应修改以及重建合成的IIR滤波器组分析、其后跟随带内幅度的自适应修改以及重建合成的FIR滤波器组分析、使用诸如重叠相加或重叠存储等技术的其后跟随复谱的自适应修改以及重建的离散傅立叶逆分析的离散傅立叶分析。
如果到自适应修改器的输入信号50不是线性脉冲码调制的离散时间采样的格式,则其被转换为此格式以用于调制。可替换地,通过直接以其编码格式进行修改,例如施加到线性预测系数与残数的直接修改,可以对其进行控制。
该系统配备有信号的、所存储的预定确立特性。系统一加电就使用这些存储的特性。
参照图3,显示了图2的特征提取器26的更详细的示意图。如果到特征提取器的输入信号12不是线性脉冲码调制离散时间样本格式,则通过处理信号格式转换到线性PCM 100将其转换为这一格式。本领域技术人员应该知道其他数字编码格式,包含Δ调制、自适应Δ脉冲码调制、线性预测编码、μ法则编码、A法则编码G711编码、以及代码激发线性预测编码,以及将这些格式的信号转换为线性脉冲码调制的离散时间样本的方法。
格式转换后的信号101被传送给延迟器102并传送给语音检测器28。延迟器补偿进行上述语音检测所需的有限时间。延迟后的信号103被传送给滤波器组104。滤波器组将信号分割为多个(K)频带。选择这些频带的中心频率与带宽,以近似由人的耳蜗进行的频率分析。在一种形式中,频带的中心频率相隔第三倍频程间隔。每个频带的带宽等于该频带中心频率倍频程的三分之一。可以使用其他中心频率与带宽,诸如那些基于临界频带、CB量程或等同矩形带宽、ERB量程的中心频率与带宽。本领域技术人员应该知道将信号分离为多个频带的许多技术,包括IIR滤波器组、FIR滤波器组、小波与离散傅立叶分析。
乘法器106用数字到声校正因子24对频带信号105加权,以产生校正后的频带信号107。倚赖于频率的校正因子是在相应于频带中心频率处的测定的数字到声转换函数24,加上对于测定中任何未计入的耳道响应以及中耳响应的校正因子。在没有这些测定的转换数据的情况下,校正因子可以来自估计数据。选择校正因子以与耳朵及中耳相结合地补偿声音再现级20(图1)的效果,以近似耳蜗通道中对信号的过滤。
校正后的频带信号107由求和器108组合,以产生总信号109。校正后的频带信号107与总信号109被乘方,以分别产生频带功率信号110与总功率信号111。将频带功率信号施加到短期包络检测器112,以产生频带包络113。这些检测器被设计来近似由听觉系统产生的频率特定响度的短期感知。使用公知的被称为“漏积分”(leaky integration)的方法,在短期上对该信号进行平均提供了短期包络检测。“漏积分”的上升与释放(attack and release)时间常量一般为50到150毫秒。
短期包络检测的一种形式为具有可变换系数的第一级IIR低通滤波器。这些系数确定了时间常量,并且根据到包络检测器的输入样本是否大于或等于所计算的先前包络样本而变换。如果输入样本大于或等于先前所计算的包络样本,则上升系数及其相应的输入换算因子分别选择为滤波器的A1与B0系数,其中B0=1-A1。否则,释放系数及其相应的输入换算因子分别选择为滤波器的A1与B0系数。当输入样本大于或等于先前所计算的包络样本时,从“漏积分”产生的包络信号以由上升系数确定的变换率指数增大。否则,该包络以由释放系数确定的变换率指数减消。
总功率信号111施加到两个包络检测器,即峰值包络检测器114以及短期包络检测器115,以产生峰值包络116以及总包络117。包络检测器114、115与上述短期包络检测器相同,只是峰值包络检测器使用更快的时间常量。峰值包络检测器的上升与释放时间常量一般分别为1与20毫秒。
峰值包络116、总包络117、以及频带包络113由功率到分贝转换器118转换为分贝,以产生包含瞬时、总、以及频带(k)的所提取的特征40。本领域技术人员应该知道进行该转换的几种方法,包含幂级数近似与查找表。
参照图4,显示了语音特征计算器30(图2)的更详细的示意图。语音特征计算器30包含一组单独的语音特征计算器,即瞬时语音特征计算器201、总语音特征计算器202、以及K个单独的频带语音特征计算器203,以从瞬时、总、以及频带(k)的所提取的特征40计算语音特征。
因为每个单独的语音特征计算器都相同,所以只描述瞬时语音特征计算器201。瞬时语音特征计算器201包括:S样本环形缓冲器204,其中S为该缓冲器包含的样本的数目;缓冲器样本最大值计算器205;以及加法器206。现在将描述语音特征计算器的运行。在初始化时,用一组与将由特征提取器26对低级别语音产生的值相对应的初始值207,来确立环形缓冲器的S个样本元素。
由语音特征计算器30从语音检测器28接收到控制信号42。控制信号42包括多个单独的控制信号,包括信号语音主宰(predominant)(瞬间)208。控制信号42用来控制语音特征计算器30对于所提取的特征40的存储。当控制信号具有值0时,这表示没有检测到语音。当该信号具有值1时,这表示检测到语音。
针对瞬时语音特征计算器201,当控制信号语音主宰(瞬间)208为0时,忽略由特征提取器提供的新样本209。当控制信号语音主宰(瞬间)208为1时,环形缓冲器用新样本覆盖其最老的样本。缓冲器样本最大值211由缓冲器样本最大值计算器205根据所有的环形缓冲器样本210来计算。加法器206将差值(瞬间)212加到该最大值,以产生确立的特性(瞬间),作为确立的特性44之一。
对于响度的人类听觉记忆的准确性随时间而降低,合理的准确度一般在移除刺激之后延续几秒。在先前时段内的最大短期级别最接近地近似于响度记忆。设置环形缓冲器的长度,使得器在语音主宰时记录几秒的时间段上的短期级别。几秒的语音足以获得对语音的典型最大功率特征的良好记录。将该记录的最大值用来近似语音响度的记忆。如果长时间没有检测到语音,则用减低的值覆盖环形缓冲器样本,以解决人类听觉记忆准确性随时间的降低,以及作为结果的、听觉系统对较低声音级别的适应。可以采用近似语音响度记忆的其他方法,诸如那些基于先前语音最大特征的“漏积分”的方法。
添加差值的目的在于允许未被语音检测器正确识别的、但具有超过先前语音最大特征级别的特征的语音。当设置为零时,不允许对具有超过先前语音最大特征级别的特征的语音的不正确识别。虽然零差值提供最好的保护,但是一般设置为几个分贝的可选择差值提供了在保护与施加到语音的不正确修改之间的较好平衡。
参照图5,显示了图2的特征比较器32的更详细的示意图。特征比较器32通过分析由特征提取器26输出的所提取的特征40,并且将其与所确立的特性44比较,来监视信号。特征比较器32包含一组减法器,即瞬时特征减法器301、总特征减法器302、以及对于K个频带的特征减法器303。通过从所提取的特征40减去所确立的特性44,每个减法器产生所提取的特征40与所确立的特性44之间的差异。每个结果差异与0的最大值由最大值运算304、305、306产生,从而得到瞬时307、总308、以及K个频带309特征的每一个的超过数量。瞬时与总超过量的最大值由最大值运算310得到。该最大值311的输出表示使用这两种方法的宽带超过量。宽带超过量311与每个频带309的超过量的最大值由一组K个最大值运算312取得,以产生K个频带的每一个的超过量,其除了频率特定超过量之外还并入了宽带超过量。频带超过量表示信号需要被衰减、以保持在所确立特性之内的量。
参照图6,显示了图2的修改参数生成器34的更详细的示意图。修改参数生成器34从特征比较器接收每个频带的超过量46的量度。每个频带的处理是相同的,因此只描述一个频带。符号变换处理401将来自特征比较器的频带超过量的符号进行变换,使得以分贝表示的超过量成为以分贝表示的衰减。向低通滤波器403施加衰减402,以平滑掉衰减突变,该衰减突变可能导致可听到的处理假象。分贝到线性处理404将以分贝表示的低通滤波器的输出转换为线性修改参数48。这K个频带修改参数48适合于在自适应修改器的将K个频带信号幅度的直接缩放。可能需要其他的修改参数生成方法,以适合于除了在频带内的信号幅度的直接缩放或者滤波器系数的直接缩放以外的自适应修改方法,诸如当直接修改线性预测系数时。
参照图7,该图显示了由系统10接收的信号12的所提取特征501、由系统10生成的所确立的特性44、以及系统10的受控输出信号14的谱分析。所显示的提取的特征40为第三倍频程频带内的短期功率级别。所显示的确立的特性44为在其中语音占主宰地位的、总共5秒的先前时段期间内采样的第三倍频程频带中的最大短期功率级别。从所提取的特征40可以看出,输入信号12具有以下特征:在2kHz频带中具有峰值504,这可能由传真机音调产生,其可能对听者有害。在2000Hz频带中,可能有害的信号级别超过了所确立的特性44 10dB,所确立的特性44为听者所习惯的最大短期语音级别。系统10将该频带内的信号衰减其超过所确立特性的量。因此,2000Hz频带中可能有害的信号被衰减到与该频带的所确立特性44基本相同的级别。假定听者将调整其声音再现装备上的音量控制以舒适地聆听语音,则存在于受控输出信号中的衰减后的可能有害的信号就比较不可能惊吓或者冲击听者。这是因为其频带特定的短期级别没有超过听者最近所习惯听到的语音的最大频带特定短期级别。
图8显示图3所示的特征提取器28的可替换实施方式280。由处理100与102进行的信号处理与图3中的那些相同。在101与103处的信号与图3中的那些相同。本领域技术人员应该知道根据数字信号进行以宋表示的特定与总响度估计的几种方法。这些方法可以提供以接近瞬时为基础的、对于特定与总响度的估计,以及短期总响度估计。图8所示的响度估计器601提供特定响度估计602与总响度估计603。这两个响度估计都以宋为单位,并且以接近瞬时为基础根据数字信号103进行估计,其中数字信号103与测定或者估计的数字到声校正因子24一起提供到其输入端。这些校正因子由响度估计器使用,以得到对于在耳鼓处信号谱内容的估计。
特定响度信号602被施加到短期包络检测器604,以产生短期特定响度量度605,其中短期包络检测器604与图3中的短期包络检测器112相同。这些检测器被设计用来近似由听觉系统产生的对于频率特定响度的短期感知。时间常量与图3中短期包络检测器112所使用的相类似。
总响度信号603施加到两个包络检测器,即峰值响度包络检测器606以及短期响度包络检测器607,以产生峰值响度估计608以及总短期响度估计609。包络检测器606、607与图3中的包络检测器114、115结构相同,并且采用类似的时间常量。
通过宋到分贝转换器610将峰值响度608、总短期响度包络609、以及频带特定短期响度605转换为分贝,以分别产生瞬时、总、以及频带(k)的所提取特征40。本领域技术人员应该知道进行该转换的几种方法,包括幂级数近似与查找表等。
现在将描述根据本发明的第二实施方式,其包括倚赖于处理后音量控制设置形式的反馈的处理。参照图9,显示了降低用来传送语音的信号中可能有害的信号的系统200。在第一实施方式中对图2的描述也总体适用于该实施方式,但该实施方式与图2所示的实施方式在以下方面有所不同:系统200在输入端22处接收处理后音量控制设置形式的反馈,系统200使用该反馈来控制所确立的特性44。如果处理后音量控制设置从其所确立的位置增大,则语音的所确立特性被类似地降低。这使信号被维持在处理后音量控制输出端处的语音的所确立特性之内,从而相对于听者所感受的最后的语音级别来控制信号,而不管增大了音量控制设置。因此,对于增大音量控制设置的情况,达到了对于可能有害的信号的增强的保护。图3与图5至9及其详细描述同样适用于本实施方式。系统200与图2中所示的实施方式的不同在于:接收音量控制设置22的语音特征计算器701的实现与运行。
参照图10,显示了语音特征计算器701的更详细的示意图。这是图4所示语音特征计算器的增强形式。除了与现在要描述的、添加的音量控制设置22有关的方面,对于语音特征计算器701的详细描述与对图4的描述相同。
音量控制设置22是表示以分贝为单位的音量控制设置的数字离散时间信号。音量控制功率调整计算器702包括:单位采样延迟器703、加法器704、以及最小值函数705。现在描述音量控制功率调整计算器的运行。通过从由单位采样延迟器703产生的先前音量控制设置707中减去音量控制设置22,生成在样本706之间的音量控制设置的符号变换的变化。最小值函数705产生在样本706之间的音量控制设置的符号变换的变化与0的最小值,以产生功率调整708。如此运行使得如果音量控制设置22被减小或者保持恒定,则功率调整708为0分贝。如果音量控制设置22被增大,则功率调整708被减少相等的分贝量。
所有的单独语音特征计算器,即瞬时201、总202、以及K个波段203的形式都相同,因此只描述瞬时201语音特征计算器。S样本环形缓冲器709与图4中的S样本环形缓冲器204的不同之处在于:每个采样周期,从在所有样本(写入)输入端710处提供的样本,同时覆盖所有的样本。用于写入的样本由加法器711提供。加法器711包含一组S个加法器,一个加法器用于S样本环形缓冲器中的一个样本。加法器711将环形缓冲器210的输出加到功率调整708,以产生所有样本(写入)输入710的值。因此,S样本环形缓冲器中的值被与音量控制设置的增大成比例地降低。可替换地,语音特征计算器201以及特别是加法器711与S样本环形缓冲器709可以被重新设置,使得只有当检测到音量控制增大时,才发生环形缓冲器整个内容的相加与更新。在所有其他方面,音量特征计算器701与图4的音量特征计算器30相同。
现在将描述根据本发明的第三实施方式,其包括对存在可能有害信号的概率的响应的所确立特性的变化。参照图11,显示了减少用来传送语音的信号中可能有害的信号的系统500。在第一实施方式中给出的对图2的描述与该实施方式总体相同,但该实施方式与第一实施方式的不同在于:系统500包含响应于存在可能有害的信号的概率,对于所确立特性44的生成的修改。系统500包含可能有害信号检测器801。可能有害信号检测器从特征提取器26接收所提取的特征40,并且以存在可能有害的信号的概率802的形式产生可能有害信号识别分级,该概率802由语音特征计算器803在生成所确立的特性时使用。图3与图5至9及其详细描述同样适用于该实施方式。
现在描述可能有害信号检测器801的运行。分析由特征提取器26所提取的特征,以确定它们是否属于可能有害的信号的已知特性。本领域技术人员应该知道可用来分析信号并确定信号特性的许多现有技术,所述确定信号特性诸如确定是否存在特定的可能有害信号类型,并且其是否在信号的特定频率范围中或者在宽带信号中占主导地位。这些技术一般涉及对信号特性与已知特性进行模式匹配的结果的统计分析。这些技术可以二级或多级形式产生给定信号类型的存在的识别分级。此类技术包含施加到使用诸如短期频率分析、短期倒频谱分析、以及线性预测分析等技术而从信号产生的参数的人工神经网络、主分量分析、以及模糊逻辑。可能有害信号检测器801以存在可能有害信号的概率的形式产生可能有害信号识别分级802。对瞬时、总、以及K频带的每一个所提取的特征,产生存在可能有害信号的概率。
参照图12,显示了图11的语音特征计算器803的更详细的示意图。这是图4所示语音特征计算器的增强形式。除了有关于现在要描述的、倚赖于存在可能有害信号的概率802的特性确立的方面,对于语音特征计算器803的详细描述与对图4的描述是相同的。
从可能有害信号检测器801接收存在可能有害信号的概率802。每个概率都具有从0到1的范围,其中0表示存在可能有害信号的低概率,而1表示存在可能有害信号的高概率。因为单独的语音特征计算器,即瞬时、总、与K频带,的运行基本相同,所以只描述瞬时语音特征计算器201对存在可能有害信号的概率的倚赖。额外的处理为乘法器804与加法器805。现在将描述这些处理的操作。由乘法器804将存在可能有害信号的概率(对于瞬时语音特征计算器)806乘以最大减少范围807,以便产生以分贝表示的减少因子808,该因子与存在可能有害信号的概率成比例。最大减少范围一般在5到30分贝级别上。加法器805从差别212中减去以分贝表示的减少因子808,以产生偏移809。加法器206将该偏移加到所有缓冲器样本的最大值211,以产生所确立的特性44。
参照图13,该图显示了由系统500接收的信号12的所提取特征40;由系统500生成的、存在可能有害信号的概率为低的所确立的特性902;当存在可能有害信号的概率为低时,系统500的受控输出信号14的谱分析903;由系统500生成的、存在可能有害信号的概率为高的所确立的特性904;以及当存在可能有害信号的概率为高时,系统500的受控输出信号14的谱分析905。所提取特征40以第三倍频程频带内的短期功率级别显示。所确立的特性以在其中语音占主宰地位的、总共5秒的先前时段期间内采样的第三倍频程频带中的最大短期功率级别显示,其中适当的偏移倚赖于所选择的差值、所选择的最大减少范围、以及存在可能有害信号的概率。
可以看出接收信号12具有以下特征:在2000Hz频带中具有峰值906,这可能由传真机音调产生,其可能对听者有害。在2000Hz频带中,可能有害的信号级别超过了存在可能有害信号的概率为低的所确立的特性902 10分贝,所述确立的特性902听者所习惯的。系统500将该频带内的信号衰减其超过存在可能有害信号的概率为低的所确立特性902的量。因此,输出信号谱分析905的2000Hz频带中可能有害的信号的级别基本与对于该频率存在可能有害信号的概率为低的所确立的特性的级别907相同。其他频带中的信号保持不变。
当存在可能有害信号的概率为高时,通过存在可能有害信号的概率为高的所确立的特性904、如图所示地减小所确立地特性。可以看出在2000Hz频带中具有峰值的接收信号超过了该频带内所确立的特性908 20分贝。系统500将该频带内的信号衰减其超过存在可能有害信号的概率为低的所确立特性908的量。因此,输出信号谱分析909的2000Hz频带中可能有害的信号的级别基本与对于该频率存在可能有害信号的概率为高的所确立的特性的级别908相同。在这种情况下,与在该频率范围中存在可能有害信号的概率为低不同,作为检测到可能有害信号的概率为高的结果,在该频率上还提供了额外的10分贝的保护。
可以看出在2500Hz频带内的信号的所提取特征40 910没有超出存在可能有害信号的概率为低的所确立特性911。然而,其超过了存在可能有害信号的概率为高的所确立特性912几个分贝,并且在输出信号14的谱分析905中由系统500减少了这一数量。该图示出了当被传送的信号显示出与已知可能有害的信号接近的属性时所提供的较高程度的保护。
在图14中显示了根据本发明的系统600的第四实施方式,其包括倚赖于处理后音量控制设置22形式的反馈的处理以及作为对存在可能有害信号的概率的响应的所确立特性的减小两者。在第一实施方式中对图2的描述也一般地适用于该实施方式,但第四实施方式包括在第二与第三实施方式两者中的、向第一实施方式的添加。
参照图15,显示了图14的系统600的语音特征计算器1001的更详细的示意图。再次地,语音特征计算器的该实施方式包括图10与12中所示的在第二与第三实施方式两者中的、向第一实施方式的添加。
上述发明可用于电话呼叫中心、包括移动电话系统的总体电话系统、以及其中信号被转换为声音的任何应用,其中该信号也许包含可能有害的信号。
本发明的上述实施方式采用数字信号处理技术。然而,本发明不限于这些技术,并且可以类似地使用模拟信号处理技术。
本领域技术人员应该理解,通过使用与上述具体描述不同的其他手段也可以实施本发明的方法。
除非另外指明,此处所包含的对现有技术的任何引用都不应该被理解为是对所述信息为公知常识的承认。
最后,应该理解,在不脱离本发明精神与范围的前提下可以对上述部件进行各种改变或添加。

Claims (36)

1.一种控制用来传送语音的信号中可能有害的信号的方法,该方法包含以下步骤:
确立当信号传送语音时的信号特性;以及
相对于所确立的特性控制所述信号。
2.根据权利要求1的方法,其中所确立的特性包含幅度、功率、响度或者特定响度。
3.根据权利要求2的方法,其中所述幅度特性包含幅度变化率或者倚赖于频率的幅度特性。
4.根据权利要求3的方法,其中所述倚赖于频率的幅度特性包含频带内的短期级别。
5.根据权利要求4的方法,其中所述频带内的短期级别包含第三倍频程频带内的最大短期级别。
6.根据权利要求2的方法,其中通过对倚赖于频率的幅度特性的非线性映射的求和或者通过对特定响度特性的求和来确立所述响度特性。
7.根据权利要求2的方法,其中所述响度特性包含最大响度或者最大特定响度。
8.根据权利要求2的方法,其中所述功率特性包含功率的短期级别或者倚赖于频率的功率特性。
9.根据权利要求8的方法,其中所述倚赖于频率的功率特性包含频带内的短期级别。
10.根据以上权利要求中任一项的方法,其中所述特性通过测量或者估计来确立。
11.根据以上权利要求中任一项的方法,其中以预定间隔再次确立所确立的特性。
12.根据以上权利要求中任一项的方法,还包含以下步骤:提供预定的所确立的特性。
13.根据以上权利要求中任一项的方法,其中控制所述信号使得其特性不超出所确立的特性。
14.根据以上权利要求中任一项的方法,其中所述信号通过衰减来控制。
15.根据权利要求14的方法,其中所述衰减包括宽带或者频率选择性衰减。
16.根据以上权利要求中任一项的方法,其中根据在所述信号中存在可能有害的信号的概率,修改所确立的特性。
17.根据以上权利要求中任一项的方法,其中根据声音再现系统音量控制的调整,修改所确立的特性。
18.一种控制用来传送语音的信号中可能有害的信号的系统,该系统包含:
确立部件,用来确立当信号传送语音时的信号特性;以及
控制部件,用来相对于所确立的特性控制所述信号。
19.根据权利要求18的系统,其中所述确立部件用来确立幅度、功率、响度或者特定响度的特性。
20.根据权利要求19的系统,其中所述幅度特性包含幅度变化率或者倚赖于频率的幅度特性。
21.根据权利要求20的系统,其中所述倚赖于频率的幅度特性包含频带内的短期级别。
22.根据权利要求21的系统,其中所述频带内的短期级别包含第三倍频程频带内的最大短期级别。
23.根据权利要求19的系统,其中所述确立部件用来通过对倚赖于频率的幅度特性的非线性映射的求和或者通过对特定响度特性的求和来确立响度特性。
24.根据权利要求19的系统,其中所述响度特性包含最大响度或者最大特定响度。
25.根据权利要求19的系统,其中所述功率特性包含功率的短期级别或者倚赖于频率的功率特性。
26.根据权利要求25的系统,其中所述倚赖于频率的功率特性包含频带内的短期级别。
27.根据权利要求18至26中任一项的系统,其中所述确立部件用来通过测量或者估计来确立特性。
28.根据权利要求18至27中任一项的系统,其中所述确立部件用来以预定间隔再次确立所确立的特性。
29.根据权利要求18至28中任一项的系统,还包含预定的所确立的特性。
30.根据权利要求18至29中任一项的系统,其中所述控制部件用来控制所述信号,使得其特性不超出所确立的特性。
31.根据权利要求18至30中任一项的系统,其中所述控制部件用来通过衰减来控制所述信号。
32.根据权利要求31的系统,其中所述衰减包括宽带或者频率选择性衰减。
33.根据权利要求18至32中任一项的系统,还包含修改部件,用来根据在所述信号中存在可能有害的信号的概率,修改所确立的特性。
34.根据权利要求18至33中任一项的系统,还包含修改部件,用来根据声音再现系统音量控制的调整,修改所确立的特性。
35.一种计算机软件程序,用来提供控制计算机执行根据权利要求1至17中任一项的方法的指令。
36.一种提供根据权利要求35的计算机软件程序的计算机可读介质。
CNB038058243A 2002-03-13 2003-03-13 控制用来传送语音的信号中可能有害的信号的方法与系统 Expired - Fee Related CN1332374C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
AUPS1029 2002-03-13
AUPS1029A AUPS102902A0 (en) 2002-03-13 2002-03-13 A method and system for reducing potentially harmful noise in a signal arranged to convey speech

Publications (2)

Publication Number Publication Date
CN1682280A true CN1682280A (zh) 2005-10-12
CN1332374C CN1332374C (zh) 2007-08-15

Family

ID=3834627

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB038058243A Expired - Fee Related CN1332374C (zh) 2002-03-13 2003-03-13 控制用来传送语音的信号中可能有害的信号的方法与系统

Country Status (5)

Country Link
US (1) US7565283B2 (zh)
CN (1) CN1332374C (zh)
AU (1) AUPS102902A0 (zh)
GB (1) GB2401765B (zh)
WO (1) WO2003077236A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104658546A (zh) * 2013-11-19 2015-05-27 腾讯科技(深圳)有限公司 录音处理方法和装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8165319B2 (en) * 2005-05-25 2012-04-24 Hearworks Pty Ltd Method and system for reproducing an audio signal
US8457754B2 (en) * 2006-06-16 2013-06-04 Second Sight Medical Products, Inc. Apparatus and method for electrical stimulation of human neurons
US8311634B2 (en) * 2006-06-16 2012-11-13 Second Sight Medical Products Inc. Apparatus and method for electrical stimulation of human retina
US8407044B2 (en) * 2008-10-30 2013-03-26 Telefonaktiebolaget Lm Ericsson (Publ) Telephony content signal discrimination
KR101397512B1 (ko) * 2009-03-11 2014-05-22 후아웨이 테크놀러지 컴퍼니 리미티드 선형 예측 코딩 분석을 위한 방법, 장치 및 시스템
TWI413111B (zh) * 2010-09-06 2013-10-21 Byd Co Ltd Method and apparatus for eliminating noise background noise (2)
US8831935B2 (en) * 2012-06-20 2014-09-09 Broadcom Corporation Noise feedback coding for delta modulation and other codecs
EP2963817B1 (en) 2014-07-02 2016-12-28 GN Audio A/S Method and apparatus for attenuating undesired content in an audio signal
US10079031B2 (en) * 2015-09-23 2018-09-18 Marvell World Trade Ltd. Residual noise suppression
US9773912B2 (en) 2016-01-28 2017-09-26 Taiwan Semiconductor Manufacturing Company Limited Semiconductor device and manufacturing method thereof
US10540985B2 (en) * 2018-01-31 2020-01-21 Ford Global Technologies, Llc In-vehicle media vocal suppression

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4139825A (en) * 1977-05-04 1979-02-13 Hitachi, Ltd. Audio frequency amplifier
US4112384A (en) * 1977-05-24 1978-09-05 Morgan Industries Controlled recovery automatic gain control amplifier
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
WO1994018756A1 (en) * 1993-02-11 1994-08-18 Motorola, Inc. Method and apparatus for controlling a power level of a subscriber unit of a wireless communication system
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
US5457769A (en) * 1993-03-30 1995-10-10 Earmark, Inc. Method and apparatus for detecting the presence of human voice signals in audio signals
IT1266569B1 (it) * 1993-07-23 1997-01-09 Alcatel Italia Metodo per generare una base dati vocale,base dati vocale generata con lo stesso,e metodo e macchina per il riconoscimento del parlato
PL174216B1 (pl) * 1993-11-30 1998-06-30 At And T Corp Sposób redukcji w czasie rzeczywistym szumu transmisji mowy
US5485515A (en) * 1993-12-29 1996-01-16 At&T Corp. Background noise compensation in a telephone network
JPH07273840A (ja) * 1994-03-25 1995-10-20 Nec Corp 音声帯域制御機能を有する移動電話機
US5506885A (en) 1994-08-11 1996-04-09 Hamilton; Chris Method of adapting processing parameters in a call processing system
JP3484801B2 (ja) * 1995-02-17 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び装置
US5790446A (en) * 1995-07-05 1998-08-04 Sun Microsystems, Inc. Floating point multiplier with reduced critical paths using delay matching techniques
FI102337B (fi) * 1995-09-13 1998-11-13 Nokia Mobile Phones Ltd Menetelmä ja piirijärjestely audiosignaalin käsittelemiseksi
US5742694A (en) * 1996-07-12 1998-04-21 Eatwell; Graham P. Noise reduction filter
US6097820A (en) * 1996-12-23 2000-08-01 Lucent Technologies Inc. System and method for suppressing noise in digitally represented voice signals
JP3119204B2 (ja) * 1997-06-27 2000-12-18 日本電気株式会社 音声符号化装置
FR2768544B1 (fr) * 1997-09-18 1999-11-19 Matra Communication Procede de detection d'activite vocale
GB2330961B (en) * 1997-11-04 2002-04-24 Nokia Mobile Phones Ltd Automatic Gain Control
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6169971B1 (en) * 1997-12-03 2001-01-02 Glenayre Electronics, Inc. Method to suppress noise in digital voice processing
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
DK1141948T3 (da) * 1999-01-07 2007-08-13 Tellabs Operations Inc Fremgangsmåde og apparat til adaptiv undertrykkelse af stöj
US7120579B1 (en) * 1999-07-28 2006-10-10 Clear Audio Ltd. Filter banked gain control of audio in a noisy environment
GB2355607B (en) * 1999-10-20 2002-01-16 Motorola Israel Ltd Digital speech processing system
US20020041678A1 (en) * 2000-08-18 2002-04-11 Filiz Basburg-Ertem Method and apparatus for integrated echo cancellation and noise reduction for fixed subscriber terminals
US6862567B1 (en) * 2000-08-30 2005-03-01 Mindspeed Technologies, Inc. Noise suppression in the frequency domain by adjusting gain according to voicing parameters
US7206418B2 (en) * 2001-02-12 2007-04-17 Fortemedia, Inc. Noise suppression for a wireless communication device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104658546A (zh) * 2013-11-19 2015-05-27 腾讯科技(深圳)有限公司 录音处理方法和装置
CN104658546B (zh) * 2013-11-19 2019-02-01 腾讯科技(深圳)有限公司 录音处理方法和装置

Also Published As

Publication number Publication date
WO2003077236A1 (en) 2003-09-18
AUPS102902A0 (en) 2002-04-11
US7565283B2 (en) 2009-07-21
GB2401765A (en) 2004-11-17
US20050228647A1 (en) 2005-10-13
GB0420326D0 (en) 2004-10-13
GB2401765B (en) 2006-06-21
CN1332374C (zh) 2007-08-15

Similar Documents

Publication Publication Date Title
US9196258B2 (en) Spectral shaping for speech intelligibility enhancement
CN102804260B (zh) 声音信号处理装置以及声音信号处理方法
US6212496B1 (en) Customizing audio output to a user's hearing in a digital telephone
US8204742B2 (en) System for processing an audio signal to enhance speech intelligibility
CN1223109C (zh) 回波抑制系统中增强近端语音信号
US20090287496A1 (en) Loudness enhancement system and method
EP1667416A2 (en) Reverberation estimation and suppression system
CN1416564A (zh) 减噪仪器及方法
CN1451225A (zh) 用于消除收发信机单元中回波的回波消除设备
CN101208991A (zh) 具有加强的高频再现功能的助听器以及处理声频信号的方法
CN104823237A (zh) 用于修复压缩音频信号的系统、计算机可读存储介质和方法
CN101207663A (zh) 网络通信装置及消除网络通信装置的噪音的方法
JP2011511962A (ja) コンテキスト・デスクリプタ伝送のためのシステム、方法、および装置
JP2002237785A (ja) 人間の聴覚補償によりsidフレームを検出する方法
CN1682280A (zh) 控制用来传送语音的信号中可能有害的信号的方法与系统
CN101345055A (zh) 语音处理器和通信终端设备
US20080219457A1 (en) Enhancement of Speech Intelligibility in a Mobile Communication Device by Controlling the Operation of a Vibrator of a Vibrator in Dependance of the Background Noise
CN1716764A (zh) 用于调整音频信号的系统和方法
CN115314823A (zh) 一种基于数字发声芯片的助听方法、系统及设备
US8254590B2 (en) System and method for intelligibility enhancement of audio information
EP2230664B1 (en) Method and apparatus for attenuating noise in an input signal
JP3933909B2 (ja) 音声/音楽混合比推定装置およびそれを用いたオーディオ装置
JP6942282B2 (ja) 補助信号を用いたオーディオデバイスの送信制御
JP2002064617A (ja) 反響抑圧方法・反響抑圧装置
CN113571081A (zh) 语音增强方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: HEAR IP PTY LTD.

Free format text: FORMER OWNER: HEARWORKS PTY LTD.

Effective date: 20120227

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20120227

Address after: Vitoria Australia

Patentee after: Hear IO Pty. Ltd.

Address before: Vitoria Australia

Patentee before: Hearworks Pty Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070815

Termination date: 20200313