CN1192309A - 信号质量的评估 - Google Patents

信号质量的评估 Download PDF

Info

Publication number
CN1192309A
CN1192309A CN96195935A CN96195935A CN1192309A CN 1192309 A CN1192309 A CN 1192309A CN 96195935 A CN96195935 A CN 96195935A CN 96195935 A CN96195935 A CN 96195935A CN 1192309 A CN1192309 A CN 1192309A
Authority
CN
China
Prior art keywords
signal
distortion
mentioned
produces
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN96195935A
Other languages
English (en)
Inventor
M·P·霍利尔
P·J·舍帕尔德
P·格赖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB9604315.3A external-priority patent/GB9604315D0/en
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of CN1192309A publication Critical patent/CN1192309A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2236Quality of speech transmission monitoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Testing Electric Properties And Detecting Electric Faults (AREA)

Abstract

语音信号(2)送至分析器进入处理,而处理后的输出由神经元网络(5)进入分析。将神经元网络的输出与存于网络定义函数(4)的参数进入比较,以导出提供给源(2)的信号的质量。通过提供给可训练的处理装置一个失真感性测量度来确定网络定义函数。比失真感性测量度是对所者能感性的失真程度的指示。

Description

信号质量的评估
本发明涉及对携带语音的音频信号的评估。它对于使用中的通信系统状况的评估有特殊的应用。
在通信链路传载中的信号会经过一些值得注意的变换,如数字化、数据压缩、数据减缩,放大等等。所有的这些处理都可能使信号失真。例如,在对一个幅度大于最大数字化值的波形进行数字化时,此波形的尖峰将被转换成一段顶部平坦的波形(一种被称作去尖峰的处理)。这就给信号增加了一些不希望有的谐波。失真也能由外部源的电磁干扰造成。
很多上述处理引入的失真都是非线性的,所以一个简单的测试信号可能不会与复杂波形的信号,如语音信号以相同形式产生失真。对于传输数据的通信链路,可以用所有可能的数据字符来测试此链路(如对于二进制链路的字符1和0,或DTMF(双音多频系统)的12音对)。然而,语音不是由有限数量的定义好的信号单元组成的,而是个连续变化的信号,它的信号单元的变化不仅依赖于语音的内容(和所使用的语言),也依赖于不同说话人的生理和心理特征,这些特征会影响音调、音量、特征元音等。
我们已知通过运行使用语音采样的测试序列可用来测试通信设备。通过比较经过被测试设备改变的测试序列和原始测试序列,即可鉴别出被测试设备产生的失真。然而,这一方案需使用预先准备好的测试序列,这就意味着它们不能用于实时传输的通信链路,也即正在使用中的链路,这是因为测试序列将干扰正在进行的通信业务,且这种干扰可被用户听到,也因为正在进行的通信业务(不能被预知)本身将被测试设备作为测试信号的失真而检测出来。
为了测试使用中的设备,而不干扰设备正在传输的信号(因此称作无扰测试)因此希望用实时传输的语音信号本身作为测试信号进行测试。但是,这样做的问题是没有一种在测量点上瞬时获得一个原始信号的采样的方法。在链路被测试时,任何一种将原始信号传送给测试设备的装置都将可能产生与被测试链路相似的失真。
本申请人的共同未决国际专利申请WO 6/06495和WO 96/06496(都公开于96年2月29日)提出了两种可能的解决此问题的办法。WO 96/06495描述了对和讲话者无关的特定语音特征的分析,其目的是找出通信链路是如何改变信号的。它也描述了某种相对于其它特性变化的语音的特定特性的分析,它们不是直接可测量的,而是通过在个体说话者之间一致的方法,这将因此用于获得关于其它那些特征的信息。例如,一未知清擦音的频谱随音量(幅度)而变化,但此变化很大程度上与个体说话者无关。因此频谱内容可用来估计原始信号的振幅,并用它与接收信号的幅度相比较以估计说话者和测量点之间的衰减。
在WO 96/06496中,接收到的信号的内容由语音识别器分析,分析结果经语音合成器处理以再生出无失真的语音信号。对此信号在音调和持续时间上进行归一化,产生出原始语音信号的估计值,将此估计值与接收信号进行比较,即可识别出失真或干扰,例如,使用如国际专利申请WO 94/00922和WO 95/15035中所述的感觉分析技术。
一般地,通过带宽受限的语音传输使用数据减缩技术,如线性预测编码器(LPCs)。这种编码器是建立在对人的声道近似的基础上并将语音波形段表示为被要求用来在声道模型中激发等效行为的参数。
根据本发明的第一个方面,提供了一个评估语音信号质量的方法,它根据频谱表示模型来分析信号,以产生输出参数,此输出参数根据预设的网络定义函数而被加权,由加权的输出参数可推导产生出输出。
根据本发明的第二个方面,提供了一个评估携带语音信号质量的装置,包含用于分析使用频谱表示的信号以产生输出参数的装置,及存储定义网络定义函数的一组加权值的存贮装置,和用于由输出参数及网络定义函数来产生输出值的装置。
优选地,在初始步骤中网络定义函数由输出值已知的数据导出。
优选地,频谱表示模型是一个不完善的声道模型,但是频谱表示模型如听觉模型也是可以用的。
“听觉模型”在上下文中指对刺激的响应与人的听觉系统相似的模型。(也就是耳-脑的组合)。它是更普遍的“感觉模型”的特殊类型,即对刺激的响应和人的听觉系统相似的模型。
“不完善的听觉模型”在本文中指非理想的声道模型,但此模型能产生与人的声道不能产生的听觉频谱单元有关的系数。它特指可同时用参数来表示语音和失真信号单元的模型,这不是声道模型设计的通常目标。
在优选实施例中,有已知的特性,如好状态或坏状态的语音采样,都用声道模型来分析,识别出产生的与好或坏状态信号有关的参数,优选地,通过诸如神经元网络的可训练过程进行处理。通过这种方法,与每种类型信号相关的声道参数的加权即可建立起来。(因此与任意与二者都相关的参数由此为不可靠指示,并只产生较少的,或产生不出加权),因此当一未知信号被处理时,就可用前面产生的与那些参数有关的加权值产生输出,那些参数与未知信号相关。
优选地,网络定义函数的加权依赖于输出参数的时域范围。为此,参数序列和分立的参数可被给予加权值,后续时间帧的参数序列应跟在对应于实际语音的许多识别出来的序列之一的后面。若一时间帧的一组参数被识别出,而它们不应跟在前面序列的后面,或根本不应出现,这表明了产生失真。
在一实施例中,装置可进一步包含用于产生存储的一组加权值的训练装置,训练装置应包含用于提供语音采样给模拟装置的第一个输出装置;用于提供与已知语音采样有关的输出信息(指下文的“标签”)的第二个输入装置;用于在标签的基础上从模型装置产生加权的装置,以及存储由模拟装置产生的加权值的存储装置。
因此,每个在训练采样中使用的语音段都必须被标上好状态(“好”)和坏状态(“坏”)。这是一个主要的保证,因为一个典型的采样包含几小时的语音,并要求许多这种采样来训练系统正确响应一定范围的说话者、状态和其它的变量。通常,一个单个分段的持续时间为20ms,因此,数百万的分段都必须标记出来。
根据优选实施例,训练装置包含用于提供包含第一个信号和此信号失真版本的训练序列的装置;和用于接收训练序列和产生一个失真感性测量度,以显示失真可被听者察觉的强度的分析装置;以及为将失真感性测量度应用到训练处理装置以决定网络定义函数的装置。
优选地,可训练过程包含提供包含第一个信号和此信号的失真信号的训练序列的步骤,及通过测量在于每个分段中出现的失真感知度以决定网络定义函数的步骤,此失真感知度由一个包含产生失真感性测量度的分析过程确定,失真感性测量度指示出上述信号的失真对人来说是可察觉时的失真强度。
在一优选方案中,分析过程估计由同一信号的失真和非失真信号在人的听觉系统上产生的效果,并得出上述效果间的差别。根据上述差别,产生上述失真感性测量度。优选地,分析过程产生上述失真感性测量度,此感性测量度依赖于上述失真的感知度,且非线性地依赖于上述失真的幅度。
分析过程优选地产生上述测试信号与/或失真信号的大量谱分量信号,并估计每个谱分量信号将产生于人类听觉系统的掩蔽效果。
在优选的方案中,通过分析失真信号为大量的谱分量带,分析过程可估计出上述失真将产生于人类听觉系统的效果。谱分量带被整形以提供频谱掩蔽;计算由此信号前面和/或后面的时域部分造成的信号的时域掩蔽;为每个谱分量信号产生失真信号分量和相应的计算出的测试信号分量之间的差别,并从上述差别值产生上述失真感性测量度。在一种具体的优选方案中,分析过程根据上述差别信号产生出一个失真的频谱和时域分布的范围。
为了计算发音者特征的变化,每个训练序列将是一个自然语音的大集合。在一个优选实施例中,分析过程包含分解失真语言信号为大量谱分量带的步骤,和将谱分量带整形以提供频谱掩蔽。根据前面与/或后面的有关时域部分,计算信号的时域掩蔽,为每个信号谱分量形成一个失真的信号分量和相应计算出的测试信号分量间差别的表示,并从上述差别值中产生上述的失真感性测量度。
合适的语音分析过程在国际专利申请WO 94/00922、WO95/01011和WO 95/15035中有叙述。通过自动地标注分段,使用失真感性测量度,即可连续地,但仍然根据听者的可感知因素来获得网络定义函数,。
下面将参照附图描述本发明的一个示范性实施例,附图显示了实施例不同部份之间的功能性关系。这项发明有利地可用软件实现,用以在普通计算机上运行,将是很有意义的。
图1显示了为训练过程配置的训练系统的功能单元。
图2显示了为运行未知数据配置的相同系统功能单元。
图3更详细显示了图1的训练装置。
图4更详细显示了图3的分析装置。
图5显示了一个装置,通过它可产生由数据源提供的初始化语音采样。
图1和图2的系统包含训练数据1的源和实时通信业务(真实数据)2的源,这两者都提供一个输入至声道分析器3。与训练数据相关的参数也由训练装置1提供给分类单元5,它被作为训练过程显示出来。具体说,是神经元网络5。分析器单元3的输出参数反馈给神经元网络5,在训练过程中神经元网络5提供参数给存贮器4,这些参数定义一个网络定义函数。当读取实时数据时,参数被从存贮器4中取出,用于神经元网络5,在用声道分析器3产生值上执行网络定义函数,以产生出提供给输出6的分类数据。一般输出数据的形式是依据分析器3产生的值分类的形式,根据网络定义函数而被加权,并显示了系统识别出的失真度。例如,如果所有的加权参数超过一个预定的值,与/或一些加权参数的算术组合(如它们的总和)超过一个预定的值,信号可被分类为‘好’;一些可测量的特性有可从一个或其它多个测量结果中预测的特征值。如果实际测出的值和预测值不一致,那么此值或其它的多个值已经失真,由此给出另一个信号质量的显示,通过设置一些阈值,可以定义出一些质量级别。
为了实用的目的,信号是作为一个时间帧序列而被分析的。从与第一个时间帧相关的数据得来的参数可被用于时间帧子序列的分析。为此,声道分析器3的输出被存在缓冲存贮器7中,为了在后面的神经元网络的子序列操作时使用。
图3更详细显示了训练装置1,它包括一个数据存贮器8,此存贮置包含第一个“好”信号的存贮器8a和第二个存贮8a中“好”信号的失真信号的存贮器8b。从存贮器8a中来的“好”信号和相应地来自8b的有失真的信号,分别通过第一和第二个输入11、12反馈给分析单元9,分析单元9产生一个包含一组将被传入神经元网络5的标签的输出。信号的失真版本也将被传给分段器10,分段置10被信号分成与标签相应的分立段,然后,这些分段被传给声道分析器3(图1)。
图4详细显示了分析单元9,来自第一和第二个存贮器(8a和8b)的传载“好”信号和有失真的信号的输入11和12被分别反馈给听觉模型(分别为13、14),听觉模型的输出在比较器15中进行比较。在另一个可选方案中,“好”信号和失真信号的对应段交替通过同样的听觉模型,这对熟练的读者来说是显然的,并且听觉模型的输出被用于为这个“好”的和失真信号的各段作比较。比较器15的输出被误差面产生器16用来产生一个误差面。这些标签和分段器10中的信号的分段将同步产生。标签被输出至神经元网络5(图1)。
图5显示了数据存贮器8中的数据的产生。象后面将要讲到的,原始测试信号18由任何一个合适的装置产生,并被直接传送给第一个存贮器8a,同样的信号也通过一个失真装置19传输,产生的失真信号被存贮在第二个存贮器8b中。
在这里简单地讨论一下声道分析系统的特性和可训练过程是适当的。声道是个不均匀的从声门延伸到嘴唇的形状作为时间函数而变化的声学管道,[Fant G C M,“Acoustic Theory of speech Production”,Morton and Co.Sgravehage,the Netherlands,1960],导致随时间而改变的主要解剖部位是嘴唇,颚舌头和盖膜。为计算简单,我们认为这个系统模型是线性时不变的。但是,人的发音机制不符合这些特性中的任何一个。语音是个连续的时变过程,另外,声门和声道不是分开的,这就导致了非线性特征,[Flanagan J L“Source-System Interactions in theVocal Tract”,Ann.New York Acad.Sci 155,9-15,1968]。然而,作个合理的假定,在短时间间隔内开发线性时不变模型用于描述语音是可行的[Markel J D,Gray A H,“Linear Prediction of Speech”,Springer-Verlag Berlin Heidelberg New York,1976]。线性预测器将语音事件分成短的时间段或帧,用过去的语音帧产生唯一的一组预测参数以在当前帧表示语音[Atal B S,Hanauer SL“Speech Analysis and  Synthesis byLinear Prediction of the Speech Wave”J.Acoust.Soc.Amer.,Vol.50,pp.637-655,1971]。线性预测分析已成为一种广泛应用的估计语音参数,如音调、共振峰、频谱等的方法。听觉模型(时间/频率/幅度谱图)依赖于被监测声音的听觉特性,而不考虑它们是怎么产生的。然而一个声道模型能识别信号是否是类语音的,即是否是一个实际的声道能产生的。因此,听觉模型不能识别出来的非听觉差别,仍然能被声道模型识别出来。
为了测量信号质量的目的,产生的输出参数必须对被测量的属性,即能感知的语音质量敏感。因此,模型必须能模拟非类语音的失真。并因此,一个理想的声道模型将不合适。一个理想的模型将把所有的输入信号转换为类语音形式(若失真严重,则不必是原始的信号)。这将使分类过程不可靠,因为有失真的输入和纯输入都被将分类为类语音,以致训练过程变得不可能。在前面定义的意义的基础上,由于此过程依赖于来自声道模型的输出参数,为区分坏状态和好状态的信号,此参数对非人为失真单元的出现是敏感的。因此,声道模型的“不完善”是非常重要的。一个如分析器3的适于应用的声道模型就象在“语音信号的数字处理”:Rabiner L.R.;Schafer R.W;(Prentice-Hall 1978)page 396。中描述过的线性预测模型。
频谱分析可被作为相对于声道模型另一选择,如由R.B.Randall所著的“频谱分析”,(Pubilished by Bruel & Kjaer,1987 ISBN 8787355078)的第3.6部分讨论的“1/3音阶分析”。
现在将着重讨论可训练过程的特性和神经元网络。为将一组输入映射到较少的预定分类结果中,应使用一系列规则,特别是当映射过程代表一个自然系统时。然而,如果自然系统太复杂,或所需映射对抽象参数进行操作,那么为响应一组称为训练数据的已知的结果,一个训练过程将被用于开发需要的映射。已知的结果被用来决定输入参数和分类结果之间的关系,以使随后输入的未知组合能被分类。一个神经元网络被设计用于模拟大脑执行特殊任务或感兴趣的功能的方法,经过一个学习过程去训练神经元网络执行有用的计算是可行的[Haykin S,“NeuralNetworks,A Comprehensive Foundation”,Macmillan IEEE Press,1994]。为获得好的性能,神经元网络将大量的简单处理单元相互联接起来。交互处理单元联接的加强,如已知的加权,被用来存贮系统知识[Aleksander,1,Morton H“An Introduction of Neural Computing”Chapman and Hall London,1990]。执行学习过程的处理称作学习算法。它的功能是按一定的顺序修改网络加权值,以获得所期望的设计结果。神经元网络的能力得自大量的并行分布结构和它的学习与归纳能力,归纳指网络为训练中没遇到的输入产生合理的输出。监督下的学习是训练的一种形式,它包括显示已知分类的示例给网络以及修改相关联的加权值以缩小期望的与系统实际响应之间的差别,训练为每个输入分类的很多示例重复进行,直到网络达到一个稳定状态。在神经元网络执行的输入-输出映射和非参数统计推论所实现的分类之间有精确的类似。
系统的操作描述如下:先参照图2,实时数据由源2提供给声道分析系统3,失真和干扰也许将导致一些原始信号的分立时间帧产生失真,或一起丢失。如果一个给定帧只能出现在一个可能帧的小子集之后,则它在此子集的一部分之后出现表明目标帧或它的前一个帧(或两者)已经从与前后帧相适的原始帧中产生失真。每个独立的帧的参数也许将被“允许”(即参数处于可希望范围内),但一参数序列放在一起考虑时,也许将是不可行的,即表明失真已发生。存贮在存贮器4中的参数,定义了一个包含这种效应的网络定义函数,声道分析产生的参数经反馈作为神经元网络5的输入,它将网络定义函数用于声道分析产生的数据,用以产生输出6。网络定义函数由存贮在存贮器4中的参数定义,以获得提供给源2的信号质量的分类。
为包含依赖时间特性的参数,如不仅鉴别模型输出的时域特性是否在人的声道能力之内,也鉴别时变特性是否也在这个能力之内。声道分析的输出被存贮于缓冲存贮器7中,除现有采样外,存贮参数的一个预设数可作为输入反馈给神经元网络5,作为历史数据,由此来测量信号的时间特性。存贮的参数可同时涉及当前采样前后的事件,以使采样的“在先历史”和“在后历史”采样都被考虑。显然,在后一种情况下,当前采样的分析,直到“在后历史”被组合后才能产生。
为监测大量链路的信号质量,源2可被顺序地连接至很多分立的通信链路中。虽然特别适于非侵入测量过程,本发明也适用于所谓的“侵入”测量,其中测试信号,而不是实时信号,被用来作为源的测量。
输出6可用一种合适的形式显示给用户,例如一个产生表示坏性能的分类的源,也许将向网络管理者表示应使源2代表的通信链路停止服务,并在必要时进行修理,可能的话,通过另一条路径重新建立连接,在可能的方案中,这种过程可自动控制,或留给控制者去执行输出6的指示。
为每个时间帧记录的参数可用短码存贮起来,以表示这些参数。这也将使用较少的内存,同时也相对缩短处理时间。后续时间帧的码序列应象它们代表的参数,跟在大量相应实时语音的识别出来的序列之一后。一个时间帧的一组参数被识别出来,这些参数中若有一个码不应跟在序列的前一成员之后时,或根本不是为它编的码,这就表明失真的存在。
为产生存在存贮器4中的参数,神经元网络5应首先用训练数据进行训练,以建立网络定义函数,这个过程示于图1,测试数据从训练装置1提供给声道分析器3。为定义将存于存贮器4中的网络定义函数,训练装置1也提供涉及测试数据的分类的参数给神经元网络5,以允许标签的产生。
这些标签的产生描述如下,为产生训练神经元网络需要的数据量而使用非常短的,以致于不能由操作者评估精度的语音段。自动产生这种信号的一种方法已经得到。这个过程依赖于感性分析模型的使用,即用于评估一个信号的失真对于听者来说是否显著的过程。初始时,提供与存贮器(8a,8b)相关联的测试信号8的源。第一个存贮器8a有个“好”信号采样,完整的采样一般有几小时长,第二存贮器通过后面将述的方法获得相同采样的相应信号,此信号已失真。存贮于第2个存贮器8b的采样包括失真的不同程序与不同类型。失真信号,被分成短的分段(一般为20ms),这些分段直接反馈给声道分析器3(图1)。分析单元9比较“好”采样和失真的采样,并产生一组标签以表示在每一段中出现的模型认为可被听者感知的失真程度。在此描述一下此分析过程。但用于公开的国际专利申请号WO 94/00922,WO95/01011和WO95/15035的分析技术是非常合适的。
分析系统详见图4,“好”采样和相应的失真采样分别通过输入端11和12反馈给听觉模型13和14。为简洁起见,这些都表示为分立的模型,两种采样输入通过同一模型将是很有意义的。总之,同样的处理作用于两种信号是非常重要的。模型产生大量涉及分立信号段特征的感性度参数,此过程可包含将采样分为不同的重叠频段,使用重叠滤波器去模拟时域的掩蔽现象。其中一个声音掩蔽一个较静的频谱上接近它的声音,也可包含将每个分段和一个或多个前后段相比较,以模拟时域掩蔽。其中,一个较静声在前或后有响声时相对在前或后无响声时较难感觉到。如前述专利说明描述的,听觉模型产生出听觉面,两个分别对应于“好”和失真采样的听觉面在比较器15中比较,从而产生一误差面。这些面对大量的时间段和频率或音调带(音调带的单个变化范围被确定为与感性特征相一致,例如使信号与“吼叫”音阶相一致)的测量是必不可少的,声音信号的感知幅度表示在与音调及时间的轴都垂直的轴上。不同的加权可用于正和负值,如表示由信号丢失造成的损耗和附加噪声的差值,若一点失真都没有,整个误差面将都是零值。在将要讨论的例子中,如误差面上的值被确定为听觉模型输出间差值的绝对值(也许是按上述方式加权),所有的误差面上的值都是正值。
如上述专利申请中描述的,误差面的特征可被用来产生一个值,此值表明误差的感性重要性。如国际专利申请WO 95/15035中专门描述的那样,分布在误差面上误差的绝对值是一个此值中系数。然而,另外的依赖于面形状的值也有用处,在说明中称作“误差熵”。
最终表示“听觉效果”的加权值,YLE,它表示了失真的绝对值,可表示如下:误差活力, E A = 10 log Σ i = 1 48 Σ j = 1 20 | c ( i , j ) |
其中c(i,j)是误差面第i时段和j音调带上的待分析的误差值。
在时间和音调上的误差分布(或更进一步说是失真熵,它和能量分布范围的倒数相对应)计算如下:误差熵: E E = - Σ i = 1 48 Σ j = 1 20 | a ( i , j ) | • ln ( a ( i , j ) ) 其中 a ( i , j ) = | c ( i , j ) | E A
上式中的自然对数(ln)项控制了能量幅度的变化影响熵EE的程度,起到了非线性压缩的功能。
已发现误差活力和误差熵判据在对失真的主观感觉层次上对应得很好,因为如果误差是分布在短暂的单音阶上,而不是集中在时间和音调上的,那么听者将发现一个的更引人注意的主层次误差。
误差熵EE给出了不依赖于总误差幅值的误差分布的量度,误差活力EA则给出了不依赖于误差分布的误差量的量度。
实际上,若考虑到本实施例中使用的听觉误差振幅比例的对数单元,那么将EA和EE改写为E′A和E′E就很方便: E A ′ = Σ i = 1 n Σ j = 1 m | 1 0 | C ( i , j ) | E E ′ = - Σ i = 1 n Σ j = 1 m | l o | C ( i , j ) , | E A ′ • L h ( | l o | C ( i , j ) , | E A ′ )
将误差活力和误差熵的测量值组合就可为听者对失真的主观反应给出更好的表示,它用一种比真实失真更稳定的方式。
我们已发现一个好的主观“听觉效应”的表示量YCE,给出如下:
YCE=-a1+a2log10E′A+a3E′E
其中a1=8.373;a2=0.05388;a3=0.4090
对YCE合适的阈值可用来判断一采样是否应标为“好状态”或“坏状态”。标签产生器17执行以上计算,并将标签输出至神经元网络5。此标签与对应的测试信号段相一致,该测试信号段由存贮器8b中提取的时域段10产生。
用于存贮器8的“好”信号及失真信号的信号源可由预产生存贮器提供,各种合适信号的主体已可被用,而更多的数据则能快速地产生,这类数据的产生相对直接,如图5所示。
一个初始信号被送入“好”信号存贮器8a它可能包含许多实际语音采样,为了确定有代表性的样本;使用了不同的说话者。同样的一个信号经失真产生器19馈入,产生的失真信号存于“失真”信号存贮器8b中。可能要使用多个不同的失真源。通过对不同测试信号和失真类型的不同排列,可产生大量的具有代表性的测试数据的主体,用来作训练数据,它由训练数据源1提供。
典型形式的失真也由失真发生器19提供给测试信号,目的是为测试信号提供具有代表性的测试信号。这些失真可被产生用于模拟不同的效果,它们可按一定的算法产生(即通过对采样的数学操作,如模仿一个原型系统)或通过使原始信号通过一个在测试设备或在诸如通信网络的实际系统中的实际装置而产生。
训练装置1提供给神经元网络5的标签将被传输的训练信号提供给自然网络,并因此使它提供合适的加权值给不同的存储在存储器4中的参数,这些参数对应于具有这些特性的数据。不同类型的失真和非失真信号的示例由训练装置1提供,以使输出6不仅识别出感性失真的存在,也识别出失真产生的损害程度,即,它为听者显示干扰的大小程度。
为确保网络定义是精确的,分类情况已知的测试数据由输入2提供,将由神经元网络5中网络定义函数产生的分类与已知的分类相比较(用此处未示出的方法)。

Claims (33)

1.一个评估携带语音的信号质量的方法,在该方法中,按照产生输出参数的频谱表示模型来分析信号,按照一个预先确定的网络定义函数来加权输出参数,并产生一个来源于被加权的输出参数的输出。
2.根据权利要求1的方法,其网络定义函数在一个初始步骤中由一个数据导出中,对于此数据来说,其输出值是已知的。
3.根据权利要求1或权利要求2中的方法,其频谱表示模型是不完善的声道模型。
4.根据上述任何权利要求的方法,使用可训练的过程,使用好条件与/或坏条件下的样本,以及用频谱表示来建模,从而产生网络定义函数。
5.根据权利要求4的方法,其网络定义函数通过以下步骤来建立:
提供一个训练序列,该序列包括第一个信号和该信号的失真版本;并且测量存在于每个段中的失真感知度来确定网络定义函数。这正如通过一个其中产生失真感性测量度的分析过程来确定一样。该测量度表明,语音信号的失真将会被人耳觉察到的程度。
6.根据权利要求5的方法,其分析过程估计了相同信号的失真和非失真版本在人的听觉系统中产生的效果,并且分析过程确定了上述效果间的差异,并根据于上述差异产生上述失真的感性测量度。
7.根据权利要求5或权利要求6的方法,其分析过程产生了上述失真的感性测量度,这取决于上述失真的感知强度,以及非线性地取决于上述失真的幅度。
8.根据权利要求5,6或7的方法,其分析过程产生了上述测试信号与/或上述失真信号的许多谱分量信号。
9.根据权利要求8的方法,其分析过程对于谱分量信号,估计了在人的听觉系统中由谱分量信号产生的掩蔽效应。
10.根据权利要求5、6、7、8或9的方法,上述分析过程估计了上述失真在人的听觉系统中产生的效果,同时考虑了上述效应的时域持续性。
11.根据权利要求5、6、7、8、9或10的方法,其分析过程将失真信号分解成许多谱分量带,提供谱掩蔽的正在整形的谱分量带;分析过程计算由其前面和/或后续时域部分造成的信号的时域掩蔽;对于每个谱分量信号,该分析过程形成一个失真信号的分量信号和一个测试信号相应的计算分量间的差异表示;分析过程还从上述差异表示中产生上述失真的感性测量度。
12.根据权利要求11的方法,其分析过程由上述差异信号产生了失真的频域和时域分布的测量值。
13.根据任何上述权利要求的方法,其网络定义函数的加权依赖于输出参数的时域前后关系。
14.根据权利要求13的方法,其参数序列将与由一组控制参数导出的加权值归入一类。
15.根据权利要求14的方法,对序列中的每个成员来说,被确定的参数以缩短的形式存储起来,并且按照一组标注的序列加权后的参数也以缩短的形式存储起来。
16.评估携带语音信号的质量的装置,包括用频谱表示产生输出参数的信号分析装置(3),用于存储一组决定网络定义函数的加权值的存储装置(4),以及由输出参数和网络定义函数产生输出值的装置。
17.根据权利要求16的方法,包括由输出值已知的数据中导出存储加权值的方法。
18.根据权利要求16或17的装置,其中频谱表示模型是一个不完善的声道模型。
19.根据权利要求16、17或18的装置,其中进一步包括产生一组存储的加权值的训练装置(1),训练装置包括将一个语音样本提供给分析装置(3)的装置(10);以及包括用于产生与语音样本相关的加权值,并将它们插入存储装置(4)中的装置(9)。
20.根据权利要求19中的装置,其训练装置包括提供一个含第一个信号(8a)和它的失真版本(8b)的训练序列的装置(8),接收训练序列和产生失真的感性测量度的分析装置(9),该失真的感性测量度用于指示能被听者觉察到的失真程度,以及将失真的感性测量度用于可训练的处理装置(5)以确定网络定义函数的分析装置(4)。
21.根据权利要求20的装置,其分析装置(9)包括用于估计相同信号失真和非失真版在人的听觉系统中产生的效果的测量装置(13,14),确定上述效果之间差异的装置(15),以及根据上述差异产生失真感性测量度的装置(17)。
22.根据权利要求20或21的装置,其分析装置(9)产生了一个失真的感性测量度,其值依赖于上述失真的感觉强度,并非线性地依赖于上述失真的幅度。
23.根据权利要求20、21或22的装置,其分析装置(9)包括产生许多上述测试信号和/或上述失真信号的谱分量信号的测量装置(13,14)。
24.根据权利要求23的装置,对于每个谱分量信号来说,测量装置(13,14)估计了在人的听觉系统中由谱分量信号产生的掩蔽效应。
25.根据权利要求20,21,22,23或24的装置,其分析装置包括估计在人的听觉系统中由上述失真产生的效应的测量装置(13,14),该装置考虑了上述效应的时域持续性。
26.根据权利要求25的装置,其分析装置(9)包括产生来自于上述测试信号与/或失真信号的后续处理信号段的时间序列,至少一些依赖于上述信号与/或失真信号部分(这些信号在上述信号段的前后)而形成的信号段值的测量装置。
27.根据权利要求21、22、23、24、25或26的装置,其分析装置(9)包括将失真信号分解成许多谱分量带(13,14),即提供频域掩蔽的正在整形的谱分量带,以及用于计算由前后时域部分造成的信号时域掩蔽的测量装置。对于每个谱分量信号,用于形成在失真信号和相应计算得到的测试信号分量之间差异表示的形成装置(15,16);以及从上述差异表示中产生失真感性测量度的计算装置(17)。
28.根据权利要求27的装置,其中计算装置(17)由上述差异信号产生信号的时域和频域分布的值。
29.根据权利要求16至28中之一的装置,其中决定网络定义函数的加权值依赖于输出参数的时域前后关系,并且包括用于存储涉及许多时域瞬时段的输出参数的装置(7),以及用于产生输出参数的装置(5),此装置被这样配置以由存储的输出参数与网络定义函数导出输出值。
30.根据权利要求29的装置,包括用于当输出参数序列被产生时存储它们的装置,以及用于对这种序列,根据一组预先确定的上述加权值,从上述序列产生输出的装置。
31.根据权利要求30的装置,包括以缩短形式存储序列参数的装置。
32.基本参照附图描述的装置。
33.基本参照附图描述的方法。
CN96195935A 1995-07-27 1996-07-25 信号质量的评估 Pending CN1192309A (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
EP95305313.9 1995-07-27
EP95305313 1995-07-27
GB9604315.3 1996-02-29
GBGB9604315.3A GB9604315D0 (en) 1996-02-29 1996-02-29 Training process
EP96301393.3 1996-02-29
EP96301393 1996-02-29

Publications (1)

Publication Number Publication Date
CN1192309A true CN1192309A (zh) 1998-09-02

Family

ID=27236875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN96195935A Pending CN1192309A (zh) 1995-07-27 1996-07-25 信号质量的评估

Country Status (12)

Country Link
US (1) US6035270A (zh)
EP (1) EP0840975B1 (zh)
JP (1) JP4005128B2 (zh)
KR (1) KR19990028694A (zh)
CN (1) CN1192309A (zh)
AU (1) AU694932B2 (zh)
CA (1) CA2225407C (zh)
DE (1) DE69626115T2 (zh)
MX (1) MX9800434A (zh)
NO (1) NO980331D0 (zh)
NZ (1) NZ313705A (zh)
WO (1) WO1997005730A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1327407C (zh) * 2001-03-13 2007-07-18 皇家Kpn公司 用于确定语音信号的质量的方法和设备
CN108573708A (zh) * 2017-03-08 2018-09-25 恩智浦有限公司 用于促进可靠样式检测的方法和系统
CN111179973A (zh) * 2020-01-06 2020-05-19 苏州思必驰信息科技有限公司 语音合成质量评价方法及系统

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9604315D0 (en) * 1996-02-29 1996-05-01 British Telecomm Training process
US6119083A (en) * 1996-02-29 2000-09-12 British Telecommunications Public Limited Company Training process for the classification of a perceptual signal
DE69823817T2 (de) * 1997-05-16 2005-04-14 British Telecommunications P.L.C. Prüfung von telekommunikationseinrichtungen
US6438373B1 (en) * 1999-02-22 2002-08-20 Agilent Technologies, Inc. Time synchronization of human speech samples in quality assessment system for communications system
KR100623214B1 (ko) * 1999-05-25 2006-09-12 내셔널 세미컨덕터 코포레이션 음성 및 오디오신호의 실시간 품질 분석기
ATE306116T1 (de) * 1999-07-08 2005-10-15 Koninkl Philips Electronics Nv Spracherkennungseinrichtung mit transfermitteln
WO2001035393A1 (en) 1999-11-08 2001-05-17 British Telecommunications Public Limited Company Non-intrusive speech-quality assessment
EP1297646B1 (en) * 2000-06-12 2006-04-19 BRITISH TELECOMMUNICATIONS public limited company In-service measurement of perceived speech quality by measuring objective error parameters
EP1244312A1 (en) * 2001-03-23 2002-09-25 BRITISH TELECOMMUNICATIONS public limited company Multimodal quality assessment
US7689406B2 (en) * 2002-03-08 2010-03-30 Koninklijke Kpn. N.V. Method and system for measuring a system's transmission quality
US7308403B2 (en) * 2002-07-01 2007-12-11 Lucent Technologies Inc. Compensation for utterance dependent articulation for speech quality assessment
US7165025B2 (en) * 2002-07-01 2007-01-16 Lucent Technologies Inc. Auditory-articulatory analysis for speech quality assessment
EP1443496B1 (en) * 2003-01-18 2006-07-19 Psytechnics Limited Non-intrusive speech signal quality assessment tool
US7305341B2 (en) * 2003-06-25 2007-12-04 Lucent Technologies Inc. Method of reflecting time/language distortion in objective speech quality assessment
EP1492084B1 (en) * 2003-06-25 2006-05-17 Psytechnics Ltd Binaural quality assessment apparatus and method
US7801280B2 (en) * 2004-12-15 2010-09-21 Verizon Laboratories Inc. Methods and systems for measuring the perceptual quality of communications
US7856355B2 (en) * 2005-07-05 2010-12-21 Alcatel-Lucent Usa Inc. Speech quality assessment method and system
JP2008185805A (ja) * 2007-01-30 2008-08-14 Internatl Business Mach Corp <Ibm> 高品質の合成音声を生成する技術
WO2009023807A1 (en) * 2007-08-15 2009-02-19 Massachusetts Institute Of Technology Speech processing apparatus and method employing feedback
JP2012503212A (ja) * 2008-09-19 2012-02-02 ニューサウス イノベーションズ ピーティーワイ リミテッド オーディオ信号分析方法
US20130080172A1 (en) * 2011-09-22 2013-03-28 General Motors Llc Objective evaluation of synthesized speech attributes
US20180082703A1 (en) * 2015-04-30 2018-03-22 Longsand Limited Suitability score based on attribute scores
CN105391873A (zh) * 2015-11-25 2016-03-09 上海新储集成电路有限公司 一种在移动设备中实现本地语音识别的方法
US9591125B1 (en) * 2016-02-23 2017-03-07 Verizon Patent And Licensing Inc. Testing audio quality associated with a user device during a double talk communication
US10249305B2 (en) * 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
CN106531190B (zh) * 2016-10-12 2020-05-05 科大讯飞股份有限公司 语音质量评价方法和装置
CN111370028A (zh) * 2020-02-17 2020-07-03 厦门快商通科技股份有限公司 一种语音失真检测方法及系统
CN112086100B (zh) * 2020-08-17 2022-12-02 杭州电子科技大学 基于量化误差熵的多层随机神经网络的城市噪音识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04345327A (ja) * 1991-05-23 1992-12-01 Nippon Telegr & Teleph Corp <Ntt> 通話品質客観測定方法
US5715372A (en) * 1995-01-10 1998-02-03 Lucent Technologies Inc. Method and apparatus for characterizing an input signal
US5867813A (en) * 1995-05-01 1999-02-02 Ascom Infrasys Ag. Method and apparatus for automatically and reproducibly rating the transmission quality of a speech transmission system
GB9604315D0 (en) * 1996-02-29 1996-05-01 British Telecomm Training process

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1327407C (zh) * 2001-03-13 2007-07-18 皇家Kpn公司 用于确定语音信号的质量的方法和设备
CN108573708A (zh) * 2017-03-08 2018-09-25 恩智浦有限公司 用于促进可靠样式检测的方法和系统
CN111179973A (zh) * 2020-01-06 2020-05-19 苏州思必驰信息科技有限公司 语音合成质量评价方法及系统
CN111179973B (zh) * 2020-01-06 2022-04-05 思必驰科技股份有限公司 语音合成质量评价方法及系统

Also Published As

Publication number Publication date
JPH11510334A (ja) 1999-09-07
KR19990028694A (ko) 1999-04-15
AU694932B2 (en) 1998-08-06
EP0840975A1 (en) 1998-05-13
DE69626115D1 (de) 2003-03-13
AU6623296A (en) 1997-02-26
US6035270A (en) 2000-03-07
EP0840975B1 (en) 2003-02-05
NZ313705A (en) 1998-11-25
JP4005128B2 (ja) 2007-11-07
WO1997005730A1 (en) 1997-02-13
CA2225407A1 (en) 1997-02-13
NO980331L (no) 1998-01-26
DE69626115T2 (de) 2003-11-20
CA2225407C (en) 2002-04-23
NO980331D0 (no) 1998-01-26
MX9800434A (es) 1998-04-30

Similar Documents

Publication Publication Date Title
CN1192309A (zh) 信号质量的评估
Huber et al. PEMO-Q—A new method for objective audio quality assessment using a model of auditory perception
US5715372A (en) Method and apparatus for characterizing an input signal
KR101269296B1 (ko) 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기
CN101411171B (zh) 非侵入信号质量评测的方法和设备
MXPA98000434A (en) Evaluation of quality of se
Dubey et al. Non-intrusive speech quality assessment using several combinations of auditory features
Mesgarani et al. Speech discrimination based on multiscale spectro-temporal modulations
CN106997765B (zh) 人声音色的定量表征方法
US5799133A (en) Training process
Li et al. Sams-net: A sliced attention-based neural network for music source separation
Kokkinis et al. A Wiener filter approach to microphone leakage reduction in close-microphone applications
CN112992172A (zh) 一种基于注意力机制的单通道时域鸟鸣声分离方法
Pahar et al. Coding and decoding speech using a biologically inspired coding system
Hansen et al. Using a quantitative psychoacoustical signal representation for objective speech quality measurement
Zha et al. Objective speech quality measurement using statistical data mining
Albuquerque et al. Automatic no-reference speech quality assessment with convolutional neural networks
JP4008497B2 (ja) トレーニングプロセス
Yadav et al. Compression Robust Synthetic Speech Detection Using Patched Spectrogram Transformer
Yadav et al. PS3DT: Synthetic Speech Detection Using Patched Spectrogram Transformer
Turner et al. Vowel normalisation: Time-domain processing of the internal dynamics of speech
WO2022103290A1 (en) Method for automatic quality evaluation of speech signals using neural networks for selecting a channel in multimicrophone systems
Kubo et al. Temporal AM–FM combination for robust speech recognition
Grancharov et al. Non-intrusive speech quality assessment with low computational complexity.
Catellier et al. Wideband Audio Waveform Evaluation Networks: Efficient, Accurate Estimation of Speech Qualities

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C01 Deemed withdrawal of patent application (patent law 1993)
WD01 Invention patent application deemed withdrawn after publication