CN1550001A - 用于语音质量评估的听觉发音分析 - Google Patents

用于语音质量评估的听觉发音分析 Download PDF

Info

Publication number
CN1550001A
CN1550001A CNA038009382A CN03800938A CN1550001A CN 1550001 A CN1550001 A CN 1550001A CN A038009382 A CNA038009382 A CN A038009382A CN 03800938 A CN03800938 A CN 03800938A CN 1550001 A CN1550001 A CN 1550001A
Authority
CN
China
Prior art keywords
power
articulation
articulation power
voice
voice quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA038009382A
Other languages
English (en)
Inventor
金度锡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia of America Corp
Original Assignee
Lucent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lucent Technologies Inc filed Critical Lucent Technologies Inc
Publication of CN1550001A publication Critical patent/CN1550001A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephone Function (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明提供了一种用于语音质量评估的听觉发音分析。这种发音分析以对与语音信号中的发音频率范围和非发音频率范围关联的功率进行比较为基础。在这种发音分析中既不用源语音也不用对源语音的估计。这种发音分析包括对一个语音信号的发音功率和非发音功率进行比较和根据比较结果评估语音质量的步骤,其中发音功率和非发音功率分别是与语音信号中的发音频率范围和非发音频率范围关联的功率。

Description

用于语音质量评估的听觉发音分析
技术领域
本本发明与通信系统有关,具体地说与语音质量评估(speechquality assessment)有关。
背景技术
可以测量无线通信系统的性能,其中之一是测量语音质量。在当前的技术中,对于评估语言质量来说,主观语音质量评估(subjectivespeech quality assessment)是最为可靠和普遍接受的方式。在主观语音质量评估中,由一些人类收听者来评估经处理的语音的语音质量,经处理的语音是经例如接收机解码处理的发送语音信号。这种技术是主观的,因为它是以各人的感觉为基础的。然而,主观语音质量评估是一种昂贵和费时的技术,因为为了得到统计上可靠的结果必需有足够多的语音样本和收听者。
客观语音质量评估(Objective speech quality assessment)是另一种评估语音质量的技术。与主观语音质量评估不同,客观语音质量评估不是以各人的感觉为基础。客观语音质量评估可以有两种类型。第一种客观语音质量评估以已知的源语音(source speech)为基础。在第一种客观语音质量评估中,移动台发送从已知的源语音得出(例如通过编码)的语音信号。接收、处理并随后记录该发送语音信号。利用众所周知的语音评估技术,诸如语音质量的感觉评估(Perceptual Evaluation ofSpeech Quality,PESQ),将所记录的经处理的语音信号与已知的源语音进行比较,确定语音质量。如果不知道源语音信号或者发送语音信号不是从已知的源语音得出,就不能使用第一种客观语音质量评估。
第二种客观语音质量评估不是根据已知的源语音。第二种客观语音质量评估的大多数实施方式涉及根据经处理的语音估计出源语音,然后利用众所周知的语音评估技术将估计的源语音与经处理的语音进行比较。然而,随着经处理的语音的失真增大,估计的源语音的质量下降,从而使第二种客观语音质量评估的这些实施方式不大可靠。
因此,有必要开发一种不用已知的源语音或估计的源语音的客观语音质量评估技术。
发明内容
本发明提供了一种用于语音质量评估的听觉发音分析技术(auditory-articulatory analysis technique)。本发明的发音分析技术以对与语音信号中的发音频率范围和非发音频率范围关联的功率进行比较为基础。在发音分析中既不用源语音也不用对源语音的估计。发音分析包括对一个语音信号的发音功率和非发音功率进行比较和根据比较评估语音质量的步骤,其中发音功率和非发音功率分别是与语音信号中的发音频率范围和非发音频率范围关联的功率。在一个实施例中,发音功率与非发音功率之间的比较是它们之比,发音功率是与2~12.5Hz之间的频率关联的功率,而非发音功率是与大于12.5Hz的频率关联的功率。
附图说明
从以下说明、所附权利要求书和附图可以更好地理解本发明的特征、情况和优点。在这些附图中:
图1示出了按照本发明设计的采用发音分析的语音质量评估设备;
图2示出了按照本发明的一个实施例在一个发音分析模块内处理多个包络ai(t)的流程图;以及
图3示出了一个例示功率与频率关系的调制频谱Ai(m,f)的例子。
具体实施方式
本发明提供了一种用于语音质量评估的听觉发音分析技术。本发明的发音分析技术以对与语音信号中的发音频率范围和非发音频率范围关联的功率进行比较为基础。在这种发音分析中既不用源语音也不用对源语音的估计。这种发音分析包括对一个语音信号的发音功率和非发音功率进行比较和根据比较评估语音质量的步骤,其中发音功率和非发音功率是分别与语音信号中的发音频率范围和非发音频率范围关联的功率。
图1示出了按照本发明设计的采用发音分析的语音质量评估设备10。语音质量评估设备10包括耳蜗滤波器组(cochlear filterbank)12、包络分析模块14和发音分析模块16。在语音质量评估设备10中,语音信号s(t)提供给耳蜗滤波器组12作为输入。耳蜗滤波器组12包括多个耳蜗滤波器hi(t),用来按照第一级外周听觉系统处理语音信号s(t),其中i=1,2,...,Nc表示具体的耳蜗滤波器信道,而Nc表示耳蜗滤波器信道的总数。具体地说,耳蜗滤波器组12对语音信号s(t)进行滤波,产生多个临界频带信号(critical band signal)si(t),其中临界频带信号si(t)等于s(t)*hi(t)。
这些临界频带信号si(t)提供给包络分析模块14作为输入。在包络分析模块14内,对这些临界频带信号si(t)进行处理,得到多个包络ai(t),其中 a i ( t ) = s i 2 ( t ) + s ^ i 2 ( t ) ,
Figure A0380093800062
是si(t)的Hilbert变换。
然后,这些包络ai(t)提供给发音分析模块16作为输入。在发音分析模块16内,对这些包络ai(t)进行处理,得到对语音信号s(t)的语音质量评估。具体地说,发音分析模块16对与人的发音系统产生的信号关联的功率(以下称为“发音功率PA(m,i)”)和与不是人的发音系统产生的信号关联的功率(以下称为“非发音功率PNA(m,i)”)进行比较。然后,用这种比较作出语音质量评估。
图2示出了按照本发明的一个实施例在发音分析模块16内处理多个包络ai(t)的流程图200。在步骤210,对这些包络ai(t)中的每个包络的帧m执行Fourier变换,产生调制频谱Ai(m,f),其中f为频率。
图3示出了一个例示功率与频率关系的调制频谱Ai(m,f)的例子30。在例子30中,发音功率PA(m,i)是与频率为2~12.5Hz关联的功率,而非发音功率PNA(m,i)是与频率高于12.5Hz关联的功率。与频率低于2Hz关联的功率PNo(m,i)是临界频带信号ai(t)的帧m的DC分量。在这个例子中,根据人发音的速度为2~12.5Hz而与发音功率PA(m,i)和非发音功率PNA(m,i)关联的频率范围(以下分别称为“发音频率范围”和“非发音频率范围”)是相邻而不相叠的频率范围这样的事实,选择发音功率PA(m,i)用作与频率2~12.5Hz关联的功率。可以理解,对这个申请来说,所谓“发音功率PA(m,i)”不应该局限于人发音的频率范围或者说上述的频率范围2~12.5Hz。同样,所谓“非发音功率PNA(m,i)”也不应该将频率范围局限于高于与发音功率PA(m,i)关联的频率范围。非发音频率范围可以与也可以不与发音频率范围交叠或邻接。非发音频率范围也可以包括低于发音频率范围内最低频率的频率,诸如与临界频带信号ai(t)的帧m的DC分量关联的那些频率。
在步骤220,对于每个调制频谱Ai(m,f),发音分析模块16将发音功率PA(m,i)与非发音功率PNA(m,i)进行比较。在发音分析模块16的这个实施例中,发音功率PA(m,i)与非发音功率PNA(m,i)之间的比较为发音与非发音功率之比ANR(m,i)。ANR由下式定义
ANR ( m , i ) = P A ( m , i ) + ϵ P NA ( m , i ) + ϵ - - - - ( 1 )
其中ε为某个小常数。发音功率PA(m,i)与非发音功率PNA(m,i)之间的其他比较方式也是可行的。例如,比较可以是式(1)的倒数,也可以是发音功率PA(m,i)与非发音功率PNA(m,i)之差。为了便于讨论,流程图200所示的发音分析模块16的实施例将就用式(1)的ANR(m,i)进行比较予以讨论。然而,不应将此以任何方式解释为对本发明的限制。
在步骤230,用ANR(m,i)确定帧m的局部语音质量LSQ(m)。局部语音质量LSQ(m)用所有信道i的发音与非发音比ANR(m,i)与一个基于DC分量功率PNo(m,i)的加权系数R(m,i)的总和来确定。具体地说,局部语音质量LSQ(m)用下式确定:
LSQ ( m ) = log [ Σ i = 1 N c ANR ( m , i ) R ( m , i ) ] - - - - ( 2 )
其中
R ( m , i ) = log ( 1 + P No ( m , i ) ) Σ k = 1 N c log ( 1 + P No ( m , k ) ) - - - - ( 3 )
而k为频率附标。
在步骤240,语音信号s(t)的总体语音质量SQ用帧m的局部语音质量LSQ(m)和对数功率Ps(m)确定。具体地说,语音质量SQ用下式确定:
SQ = L { P s ( m ) LSQ ( m ) } m = 1 T = [ Σ m = 1 , P s > P th T P s λ ( m ) LSQ λ ( m ) ] 1 λ - - - - ( 4 )
其中: P s ( m ) = log [ Σ t Im ^ s 2 ( t ) ] , L为Lp范数,T为语音信号s(t)内的帧的总数,λ为任何值,而Pth为可听信号与无声的区别门限。在一个实施例中,λ可取地为一个奇整数值。
发音分析模块16的输出是对所有的帧m的语音质量SQ的评估。也就是说,语音质量SQ是对语音信号s(t)的语音质量评估。
虽然以上结合一定的实施例对本发明作了相当详细的说明,但其他实施型式也是可行的。因此,本发明的精神实质和专利保护范围不应局限于在本说明中所说明的这些实施例。

Claims (16)

1.一种执行听觉发音分析的方法,所述方法包括下列步骤:
对一个语音信号的发音功率和非发音功率进行比较,其中发音功率和非发音功率分别是与语音信号的发音频率和非发音频率关联的功率;以及
根据比较结果评估语音质量。
2.权利要求1的方法,其中发音频率大致为2~12.5Hz。
3.权利要求1的方法,其中发音频率大致与人类发音的速度相应。
4.权利要求1的方法,其中非发音频率大致高于发音频率。
5.权利要求1的方法,其中发音功率与非发音功率之间的比较为发音功率与非发音功率之比。
6.权利要求5的方法,其中发音功率与非发音功率之比包括一个分母和一个分子,分子包括发音功率和一个小的常数,分母包括非发音功率加上这个小的常数。
7.权利要求1的方法,其中发音功率与非发音功率之间的比较为发音功率与非发音功率之差。
8.权利要求1的方法,其中评估语音质量的步骤包括下列步骤:
用比较确定局部语音质量。
9.权利要求1的方法,其中还用基于DC分量功率的加权系数确定局部语音质量。
10.权利要求9的方法,其中用局部语音质量确定总体语音质量。
11.权利要求10的方法,其中还用对数功率Ps确定总体语音质量。
12.权利要求1的方法,其中用对数功率Ps确定总体语音质量。
13.权利要求1的方法,其中比较步骤包括下列步骤:
对从多个临界频带信号得到的多个包络中的每个包络执行Fourier变换。
14.权利要求1的方法,其中比较步骤包括下列步骤:
对语音信号进行滤波,以得到多个临界频带信号。
15.权利要求14的方法,其中比较步骤包括下列步骤:
对多个临界频带信号进行包络分析,以得到多个调制频谱。
16.权利要求15的方法,其中比较步骤包括下列步骤:
对多个调制频谱的每个调制频谱进行Fourier变换。
CNA038009382A 2002-07-01 2003-06-27 用于语音质量评估的听觉发音分析 Pending CN1550001A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/186,840 US7165025B2 (en) 2002-07-01 2002-07-01 Auditory-articulatory analysis for speech quality assessment
US10/186,840 2002-07-01

Publications (1)

Publication Number Publication Date
CN1550001A true CN1550001A (zh) 2004-11-24

Family

ID=29779948

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA038009382A Pending CN1550001A (zh) 2002-07-01 2003-06-27 用于语音质量评估的听觉发音分析

Country Status (7)

Country Link
US (1) US7165025B2 (zh)
EP (1) EP1518223A1 (zh)
JP (1) JP4551215B2 (zh)
KR (1) KR101048278B1 (zh)
CN (1) CN1550001A (zh)
AU (1) AU2003253743A1 (zh)
WO (1) WO2004003889A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106653004A (zh) * 2016-12-26 2017-05-10 苏州大学 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7308403B2 (en) * 2002-07-01 2007-12-11 Lucent Technologies Inc. Compensation for utterance dependent articulation for speech quality assessment
US20040167774A1 (en) * 2002-11-27 2004-08-26 University Of Florida Audio-based method, system, and apparatus for measurement of voice quality
US7327985B2 (en) * 2003-01-21 2008-02-05 Telefonaktiebolaget Lm Ericsson (Publ) Mapping objective voice quality metrics to a MOS domain for field measurements
US7305341B2 (en) * 2003-06-25 2007-12-04 Lucent Technologies Inc. Method of reflecting time/language distortion in objective speech quality assessment
EP1492084B1 (en) * 2003-06-25 2006-05-17 Psytechnics Ltd Binaural quality assessment apparatus and method
US20050228655A1 (en) * 2004-04-05 2005-10-13 Lucent Technologies, Inc. Real-time objective voice analyzer
US7742914B2 (en) * 2005-03-07 2010-06-22 Daniel A. Kosek Audio spectral noise reduction method and apparatus
US7515966B1 (en) 2005-03-14 2009-04-07 Advanced Bionics, Llc Sound processing and stimulation systems and methods for use with cochlear implant devices
US7426414B1 (en) * 2005-03-14 2008-09-16 Advanced Bionics, Llc Sound processing and stimulation systems and methods for use with cochlear implant devices
US7856355B2 (en) * 2005-07-05 2010-12-21 Alcatel-Lucent Usa Inc. Speech quality assessment method and system
US20080259536A1 (en) * 2005-10-10 2008-10-23 Ah Hock Law Handheld Electronic Processing Apparatus and an Energy Storage Accessory Fixable Thereto
US8296131B2 (en) * 2008-12-30 2012-10-23 Audiocodes Ltd. Method and apparatus of providing a quality measure for an output voice signal generated to reproduce an input voice signal
CN101996628A (zh) * 2009-08-21 2011-03-30 索尼株式会社 提取语音信号的韵律特征的方法和装置
EP3494575B1 (en) 2016-08-09 2020-07-08 Huawei Technologies Co., Ltd. Devices and methods for evaluating speech quality
CN106782610B (zh) * 2016-11-15 2019-09-20 福建星网智慧科技股份有限公司 一种音频会议的音质测试方法
EP3961624B1 (de) 2020-08-28 2024-09-25 Sivantos Pte. Ltd. Verfahren zum betrieb einer hörvorrichtung in abhängigkeit eines sprachsignals
DE102020210919A1 (de) * 2020-08-28 2022-03-03 Sivantos Pte. Ltd. Verfahren zur Bewertung der Sprachqualität eines Sprachsignals mittels einer Hörvorrichtung

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3971034A (en) * 1971-02-09 1976-07-20 Dektor Counterintelligence And Security, Inc. Physiological response analysis method and apparatus
JPH078080B2 (ja) * 1989-06-29 1995-01-30 松下電器産業株式会社 音質評価装置
WO1992015090A1 (en) * 1991-02-22 1992-09-03 Seaway Technologies, Inc. Acoustic method and apparatus for identifying human sonic sources
US5454375A (en) * 1993-10-21 1995-10-03 Glottal Enterprises Pneumotachograph mask or mouthpiece coupling element for airflow measurement during speech or singing
NZ313705A (en) * 1995-07-27 1998-11-25 British Telecomm Assessment of signal quality
GB9604315D0 (en) * 1996-02-29 1996-05-01 British Telecomm Training process
US6052662A (en) * 1997-01-30 2000-04-18 Regents Of The University Of California Speech processing using maximum likelihood continuity mapping
US6246978B1 (en) * 1999-05-18 2001-06-12 Mci Worldcom, Inc. Method and system for measurement of speech distortion from samples of telephonic voice signals
JP4463905B2 (ja) * 1999-09-28 2010-05-19 隆行 荒井 音声処理方法、装置及び拡声システム
US7308403B2 (en) * 2002-07-01 2007-12-11 Lucent Technologies Inc. Compensation for utterance dependent articulation for speech quality assessment
US7305341B2 (en) * 2003-06-25 2007-12-04 Lucent Technologies Inc. Method of reflecting time/language distortion in objective speech quality assessment

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106653004A (zh) * 2016-12-26 2017-05-10 苏州大学 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法
CN106653004B (zh) * 2016-12-26 2019-07-26 苏州大学 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法

Also Published As

Publication number Publication date
EP1518223A1 (en) 2005-03-30
KR20050012711A (ko) 2005-02-02
AU2003253743A1 (en) 2004-01-19
US20040002852A1 (en) 2004-01-01
WO2004003889A1 (en) 2004-01-08
JP2005531811A (ja) 2005-10-20
JP4551215B2 (ja) 2010-09-22
KR101048278B1 (ko) 2011-07-13
US7165025B2 (en) 2007-01-16

Similar Documents

Publication Publication Date Title
CN1550001A (zh) 用于语音质量评估的听觉发音分析
EP1547061B1 (en) Multichannel voice detection in adverse environments
US7778825B2 (en) Method and apparatus for extracting voiced/unvoiced classification information using harmonic component of voice signal
CN1185626C (zh) 修改语音信号的系统和方法
EP1995723B1 (en) Neuroevolution training system
EP0676744B1 (en) Estimation of excitation parameters
CN1225736A (zh) 语音活动检测器
US20060200346A1 (en) Speech quality measurement based on classification estimation
Roman et al. Pitch-based monaural segregation of reverberant speech
CN1550000A (zh) 用于语音质量评估的与讲话相关的发音补偿
Crochiere et al. An interpretation of the log likelihood ratio as a measure of waveform coder performance
US6233551B1 (en) Method and apparatus for determining multiband voicing levels using frequency shifting method in vocoder
DE112014000945T5 (de) Sprachbetonungsgerät
CN100347988C (zh) 一种宽频带语音质量客观评价方法
CN1312463C (zh) 一种产生lsf矢量的方法和装置
US7260528B2 (en) System and method for obtaining reliable speech recognition coefficients in noisy environment
CN114401168A (zh) 一种适用于复杂强噪声环境下短波莫尔斯信号的语音增强方法
Morovati Increase the accuracy of speech signal categories in high noise environments
Voran Advances in objective estimation of perceived speech quality
Wrench et al. A new approach to noise-robust LPC
KR0171004B1 (ko) Samdf를 이용한 기본 주파수와 제1포만트의 비율 측정방법
CN117577125A (zh) 基于生成模型的空调外机异常声检测方法及系统
Varho et al. Spectral estimation of voiced speech with regressive linear prediction
Nakamura et al. Real time pitch detection using a digital signal processor
JPH02232699A (ja) 音声認識装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication