JP2002507291A - 音声通信システムにおける音声強調方法およびその装置 - Google Patents
音声通信システムにおける音声強調方法およびその装置Info
- Publication number
- JP2002507291A JP2002507291A JP50665899A JP50665899A JP2002507291A JP 2002507291 A JP2002507291 A JP 2002507291A JP 50665899 A JP50665899 A JP 50665899A JP 50665899 A JP50665899 A JP 50665899A JP 2002507291 A JP2002507291 A JP 2002507291A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- frequency
- audio
- amplitude
- communication system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000004891 communication Methods 0.000 title claims abstract description 51
- 238000001228 spectrum Methods 0.000 claims abstract description 65
- 238000004458 analytical method Methods 0.000 claims abstract description 25
- 230000008859 change Effects 0.000 claims abstract description 24
- 230000003595 spectral effect Effects 0.000 claims description 38
- 230000004044 response Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 18
- 230000001965 increasing effect Effects 0.000 description 12
- 230000007423 decrease Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000005284 excitation Effects 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 206010011878 Deafness Diseases 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 210000004704 glottis Anatomy 0.000 description 2
- 230000010370 hearing loss Effects 0.000 description 2
- 231100000888 hearing loss Toxicity 0.000 description 2
- 208000016354 hearing loss disease Diseases 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 241000269400 Sirenidae Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000011533 mixed conductor Substances 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/43—Signal processing in hearing aids to enhance the speech intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephonic Communication Services (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Interconnected Communication Systems, Intercoms, And Interphones (AREA)
- Telephone Function (AREA)
Abstract
(57)【要約】
音声通信システムは、音声データを受信し該データを用いて音声(15)を出力する受信装置(14)を含んでなる。復号装置によって受信された音声の特徴は、聞き手の現在の背景騒音の分析に基づいて、処理装置(10)によって変更され、その後、音声が出力されて聞き手に対する理解度を向上させる。分析器(12)はマイクロホン(13)を用いて背景騒音の種類とレベルを判定する。次に判定装置(11)が、現在受信され再生された音声が、その現在の背景騒音の中にいる平均的聞き手にとって理解容易か否かを判定する。もし判定装置(11)が音声は容易に理解可能であると判定すれば、処理は必要なく、処理装置(10)は送られてきた音声を変更しない。しかし、もし判定装置(11)が音声が理解不能であると判定すれば、処理が必要となり、処理装置(10)は出力前に音声を変更し、その音声をより理解容易にする。この装置を操作する方法もまた説明される。特に好ましい実施の形態において、音声の特徴は、音声を表わす線スペクトル対データを変更することにより変更される。
Description
【発明の詳細な説明】
音声通信システムにおける音声強調方法およびその装置
本発明は、音声通信システムにおける音声強調のための方法と装置に関し、特
に騒々しい環境において、聞き手により良く理解できるように音声を強調させる
ための方法と装置に関する。
携帯電話やラジオ等の音声通信システムは、しばしば、車両内等の騒々しい環
境下で用いられる。更にこの環境騒音は会話の最中に変化する。環境騒音が変化
すると、聞き手は、電話やラジオからの音声を理解するのが、非常に困難になる
。
本発明の1つの態様によれば、音声通信システムによって、該システムを用い
る聞き手に対して出力される音声の理解度を向上させる方法であって、
音声通信システムの現在の背景騒音を分析し、
その背景騒音分析の結果を用いて、聞き手に対して出力される音声が、現在の
背景騒音において聞き手にとって理解容易であるか否かを判定し、
その判定に基づいて、音声通信システムによって出力される音声の特徴を変更
して、変更された音声が、現在の背景騒音下において、聞き手に対して理解度を
高めたものとなるようにすることを特徴とする方法が提供される。
本発明の第2の態様によれば、音声通信システムであって、
該システムの現在の背景騒音環境を分析する手段と、
その背景騒音分析の結果を用いて、音声通信システムによって出力される音声
が、現在の背景騒音環境において聞き手にとって理解容易であるか否かを判定す
る手段と、
この判定手段の出力に従って、音声通信システムによって出力される音声の特
徴を変更し、現在の背景騒音の中にいる聞き手に対して、音声の理解度を強調さ
せる手段とを含んでなる音声通信システムが提供される。
本発明はこのように、音声通信システムが用いられる背景騒音(即ち、聞き手
の近傍の外部環境の騒音)をモニタし、その音声通信システムによって聞き手に
対して出力される音声の特徴を調整して、音声をその現在の背景騒音においても
理解容易にすることが出来る。従って本発明は、騒々しい環境において用いられ
た場合、例えばスピーカや携帯電話機の受話口、あるいはラジオから、出力され
る音声の理解度を高めるシステムを提供する。
更に、本発明は現在の背景騒音を分析するので、背景騒音の変化に注目して音
声を強調させることが出来る。従って本発明においては、背景騒音は好ましくは
連続的に分析され、音声はその分析に基づいて連続的に変更される。これにより
音声の動的強調がもたらされ、とりわけ、例えば車両内等の、背景騒音が連続的
に著しく変化しうる環境において有利である。
背景にある環境騒音は、当該分野において公知なように、様々な技術によって
分析することが出来る。騒音は、例えば音声通信システム(例えば携帯電話やラ
ジオ)の使用者の音声を捕捉する一般的なマイク、または分離型マイクを用いて
、捕捉したりサンプリングしたりすることが出来る。
背景騒音分析システムとしては、一例を挙げれば、(例えばマイクロホン信号
における)使用者の音声を(一定の時間内におけるすべての入力騒音値を加算し
てこれらを閾値と比較する等の、多くの一般的技法の1つを用いて)検出し、背
景騒音を、発声期間の間隙の間に分析するという方法がある。
サンプル騒音を次に(恐らく線形予測を用いて)分析して、そのスペクトルの
内容と振幅を判定する。線形予測分析の結果得られるLPC(線形予測係数)値
は、十分なスペクトル情報を含み、また利得パラメータは、このLPCパラメー
タの相対振幅値を絶対振幅値に結び付けるのに用いられる。
現在の背景騒音がある中で、音声通信システムによって出力される音声がどの
程度理解できるか(理解度)は、その音声が、現在の騒音の中で、一般的な聞き
手に理解容易であるか否かを判定する公知の様々な標準的技術(即ち、その騒音
が聞き手の音声認識力に与える影響を査定するのに適切な種々の技術)を用いて
判定することができる。
好ましくは、スペクトル分析と振幅換算係数(利得)の形態を用い、音声と背
景騒音の記述が比較されて、その騒音の中で音声が聞き手に聴取可能か否かが判
定される。
好ましい実施の形態では、音声は、最初に2つまたはそれ以上のカテゴリに分
類され、1つまたはそれ以上の周波数の音声カテゴリの1つの振幅が、それらの
周波数における騒音振幅と比較される。
そのような比較処理の1つにおいて、音声の内容を最初に、非音声、有声音声
、または無声音声に分類することが可能である。非音声(恐らく言葉と言葉の間
の休止)が存在する時は、その可聴性は重要ではなく、従ってそれは無視できる
。
有声音声が存在する時は、その理解度を判定する必要がある。これは好ましく
は、有声音声における1つまたはそれ以上の、最も好ましくは各々のスペクトル
ピークの振幅および/または1つまたはそれ以上の、最も好ましくは各々のフォ
ルマントの振幅を(当該分野において公知であるように、有声音声は、フォルマ
ントと呼ばれる変化する周波数の、一連の共振ピークを含み、該フォルマントは
多量の情報を伝達し、該フォルマントに音声のスペクトル図におけるスペクトル
ピークが対応する)、そのピークまたはフォルマントの周波数における騒音振幅
と比較することにより行われる。1つ以上のピークまたはフォルマントを考察す
る場合には、各ピークまたはフォルマントの振幅を、その各ピークまたはフォル
マントの周波数における騒音の振幅と比較しなければならない。
最も好ましくは、もしいかなるフォルマント周波数またはスペクトルピーク、
あるいは特定数のフォルマントまたはスペクトルピーク周波数における騒音振幅
が、対応するフォルマントまたはスペクトルピークの振幅を越えている場合、そ
の音声は理解不能と判定される。
音声におけるスペクトルピークおよびフォルマントと背景騒音との相対振幅を
比較することは、音声の理解度を示す良好な指針となる。こうした比較は、人間
の聞き手をモデルとして、音声の理解度を効果的に判定するからである。即ちそ
の比較は、人間の聞き手の音声に対する実際の理解力に近似のモデルを用いた手
法により、音声の理解度を査定する。周知の音響心理学理論で述べられるように
、所定の周波数の音は、類似の周波数の第2の同時発生音によってマスキングさ
れ、もし第2の音が十分に大きい場合には、前者の音は聞き取れない。そこで、
本出願の発明者は、音声の場合には、音声におけるフォルマントまたはスペクト
ルピークの周波数に類似の周波数を有する大きな騒音は、音声をマスキングする
ことを認識した。このように、音声における1つまたはそれ以上、または各々の
フォルマント、あるいは1つまたはそれ以上、または各々のスペクトルピークを
、対
応する1つまたは複数の周波数における騒音振幅と比較することは、その(また
はそれらの)フォルマントまたはスペクトルピークの可聴性に関する良好な指針
をもたらし、従って人間の聞き手にとっての音声の理解度に関する良好な指針を
もたらすことになろう。
必要に応じて、他の音声分類とカテゴリを用いることも出来る。例えば、音声
は母音と子音(または他の音声)に分類可能である。好ましくは、理解度を判定
するのに有用なまたは適切な分類を用いる。このように好ましくは、上述の例に
おけるように、その分類は音声のフォルマント(好ましくはフォルマントのみ)
を含むカテゴリを含み、そのカテゴリを騒音と比較する。好ましくは、その分類
はフォルマント包含カテゴリ、および非フォルマント包含カテゴリである。
一旦音声の理解度が判定されると、その判定に従って、音声をより理解容易に
するために変更することが出来る。もし音声が理解不能であると判定された場合
には、他に方法がなければ、例えば音声の特徴を変更する。
音声の特徴の変更は、当該分野で公知の様々の方法で行うことが出来る。好ま
しくは音量(振幅)を増加させることにより、および/または音声要素の周波数
、とりわけ音声のフォルマントおよび/またはスペクトルピークの周波数を変更
することにより行われる。
特に好ましい装置においては、音声スペクトル図におけるフォルマントおよび
/またはスペクトルピークの位置を調整することにより、音声の特徴を変更する
。そのような変更は、人間の聞き手にとっての音声を認識可能とする効果をもた
らし、従って音声の理解度を高めるのに、特に効果的である。例えば、1つまた
はそれ以上のピークまたはフォルマントの周波数を上方または下方に移動させた
り、1つまたはそれ以上のピークまたはフォルマントの振幅を増加させたり(帯
域幅を低減することに対応)、または1つまたはそれ以上のピークまたはフォル
マントの帯域幅を増加させたりすることが出来る(振幅を低減させることに対応
)。
このようにして、例えばフォルマントの音量を、背景騒音よりも聞き取れるよ
うに増大することが可能である。しかしながらこれは音声の特徴を変更するには
望ましくない方法である。なぜなら、とりわけ騒々しい自動車内といった状況下
においては、音声を理解容易とするためには、(もしそれが耐え得るならば)聴
力損失を起こすほどの音量レベルが要求されることもあるからである。
従って好ましくは、音声スペクトルのフォルマントまたはピーク等の音声要素
の周波数を調整する。これは好ましくは、これらの音声要素を騒音レベルがより
低い位置にある周波数に移動させ、その周波数においては、例えばピークまたは
フォルマント等の要素が可聴となる(即ち、騒音より大きな振幅を有する)よう
にして行われる。
音声の特徴の変更は、好ましくは背景騒音の分析の結果に応じて行なわれ、騒
音の現在または過去の値に基づいて行われてもよい。騒音の現在値を用いること
によって直接的比較が行なわれて、音声の特徴に対する変更が行われる。過去の
値を用いることによって、予測的変更が可能となる。例えば騒音分析の指摘によ
り、騒音振幅が特定の周波数においては、現在聞こえていないフォルマントが聞
こえるレベルまで低下することがわかれば、音声の特徴を変更して、そのフォル
マントの周波数をその特定の周波数に変化させることが出来る。
音声特徴の実際の変更は、当該分野で公知のように、多くの方法によって行う
ことが出来る。例えば音声信号を、知覚誤り重み付けフィルタ(CHEN,J.
H.,COK,E.V.,LIN,Y.,JAYANT,N.,およびMIEC
HER,M.J.の「CCITT 16kb/s音声符号化規格のための低遅延
CELP符号器」IEEE J.Scl.Ateas Commun.1992
,10.(5).830−849頁)等の適応フィルタを通過させ、フォルマン
トの帯域幅を狭めたり広げたりすることが出来る。あるいは、振幅ピークをクリ
ッピングして、音声の無声部分のエネルギーが、全音声エネルギーのより重要な
部分となるようにすることも出来る。この方法は理解度を高めるが、音質の犠牲
において行われる。
特に好ましい実施の形態においては、音声の特徴は、音声を表わす線スペクト
ル対(LSP)データを変更することにより変更される。
当該分野で公知のように、線スペクトル対は音の持続期間に引き出された線形
予測パラメータを表わしたものである。音が音声である場合、音声の共振周波数
またはフォルマントは線形予測スペクトルに記録される。LSP値は普通、線形
予測スペクトルの中のそのような共振またはフォルマントの位置に一義的に関連
する。このようにLSPデータを音声を表わすのに用いることができ、このLS
Pデータを変更することによって、音声におけるフォルマントの周波数および振
幅等の特徴を調整できるということを、本願の発明者は認識した。これにより、
音声の特徴を比較的容易に、聞き手が音声を認識するその時に、簡単に音を変化
させるように、かつ例えば適応フィルタリングを用いるよりもずっと低い計算オ
ーバーヘッドで、調整することが出来る。また、そのような調整は音声スペクト
ルの一部を削除するのではなく、修正するのである。
更に、携帯電話や最新のデジタルラジオ装置に用いられる音声符号/復号装置
等の多くの音声通信システムは、音声の線形予測モデルを用い、それを伝達用の
LSP表示に変換する。LSP表示は、情報保護と伝達効率の理由から、そのよ
うな音声システムにおいて広く用いられている。
このように、本発明の本実施の形態は、音声通信の目的でLSPを用いるシス
テムにおいてはとりわけ有利である。なぜなら伝達されるLSP情報は、受信さ
れた時に音声通信システムにおいて変更され、音声の理解度を高めるからである
。この変更されたLSPデータは次に線形予測パラメータに再変換され、音声と
して再構築されて音として出力されるが、その特徴は変更されている。
音声通信システムの音声を表わすLSPを調整して、そのシステムから出力さ
れる音声の特徴を変えることは、本質的に有利であると考えられる。
このように、本発明の別の態様において、音声通信システムにおける、聞き手
に対して出力される音声の特徴を変更する方法において、該音声通信システムに
おいては、該システムによって処理され出力される音声データは線スペクトル対
データを含み、音声データの線スペクトル対データを変更することを特徴とする
方法が提供される。
本発明の更に別の態様としては、音声通信システムによって処理される音声デ
ータが線スペクトル対データを含む音声通信システムにおいて、該システムによ
って処理される音声データの線スペクトル対データを変更して、聞き手によって
聞き取られる処理音声の特徴を変化させる手段を含んでなるシステムが提供され
る。
本発明のこれらの態様においては、音声データにおけるLSPデータの変更は
、
騒々しい環境において聞き取られる出力音声の理解度を向上させる目的で用いら
れる(が、例えば話し手の声を隠蔽するような、聞き手が耳にする音声の特徴を
変更したい他の状況においても用いることが出来る)。このように、本発明のこ
れらの態様は好ましくは、システムの(即ち聞き手の)背景騒音環境の分析に基
づいて、音声データにおいて発見されたLSPの値を調整する技術を含んでなる
。好ましくは、この音声において見出された、例えばフォルマントといった特定
の周波数領域の周波数、または出力と帯域幅を、上記の手法で変更する。
LSP変更は上述したように、再構築された音声に特殊な方法で作用し、特に
、背景騒音に対して音声の理解度を向上させるように設定することが出来る。例
えば、1つのフォルマントに関連する特定の線スペクトル対(LSP)を割り出
して、その離間距離(または間隔)を広げたり狭めたりして、フォルマントの帯
域幅を増加させたり減少させたりすることが出来る。選択的に、またはそれに加
えて、線クペクトル対の周波数を上方または下方に移動させて、特定のフォルマ
ントの周波数を増加させたり減少させたりすることも出来る。
LSP情報は好ましくは、音声スペクトルの1つまたはそれ以上のLSP(ま
たはLSP線)に値を加算したり減算したりして変更される。あるいは1つまた
はそれ以上のLSP(またはLSP線)を移動して変更される。その値は背景騒
音の分析に従って判定されてもよいし、現在または過去のLSP値に基づいて判
定されてもよい。騒音の現在値を用いることによって、周辺騒音との直接的比較
が行なわれて、LSPデータに対する変更が行われる。過去の値を用いることに
よって、予測的変更が可能となる。
そのような特に好ましい装置において、本発明は、音声を規定する幾つかのま
たはすべてのLSP(またはLSP線)の組み合わせの値を、数値的に増加また
は減少させることを含む。このように各LSPまたはLSPグループは移動して
、1つまたはそれ以上のスペクトルピークまたはフォルマントの周波数を(上方
かまたは下方に)移動させるか、あるいは1つまたはそれ以上のスペクトルピー
クまたはフォルマントの振幅を変更する(振幅を増加させる(帯域を減少させる
)か、振幅を減少させる(帯域を増加させる))。
例えば、2つまたはそれ以上の組み合わせのLSP線(最も好ましくは1対の
LSP線)の値の間の離隔を、狭めたり広げたりして、音声周波数スペクトルの
中で見出された周波数特徴(スペクトルピークまたはフォルマント)を狭めたり
広げたりすることが出来る。選択的にまたはそれに加えて、2つまたはそれ以上
の組み合わせのLSP線(最も好ましくは1対のLSP線)の値を、最も好まし
くは等しい値(定数項でもそれらの元の値のパーセンテージでもよい)で増加さ
せたり減少させたりして、音声の周波数スペクトルの中で見出された特徴(スペ
クトルピークまたはフォルマント)の中心周波数を調整することが出来る。
特に好ましい実施の形態においては、線スペクトル対の周波数を、音声データ
の特定のピークまたはフォルマントの中心周波数を変更するように変換する。上
述したように、これは、例えば聞き手によって聞き取られる音声の特徴を変更し
、背景騒音に対して理解度を高めるとりわけ有利な方法である。
背景騒音の挙動を、そのスペクトル内容のこれまでの変化の分析から予測し、
より迅速で適切にLSPを調整することができる。この方法は、とりわけパトカ
ーや消防車、救急車のサイレン等の反復的騒音に応用出来る。干渉騒音の周波数
が変化する方向についての知識は、フォルマント周波数をどの方向に移動させる
かについての判断に影響を与えるであろう。
上述のどの調整でも、またはすべての調整を独自にまたは組み合わせて用いて
、聞き手の背景騒音の分析に従って、音声通信システムによって出力される音声
の特徴を変更し、音声通信システムによって出力される音声を聞き手に対して、
より理解容易にすることが出来る。
本発明は、携帯電話やラジオ等の音声通信システムに関連づけて説明した。こ
の際には、例えば携帯電話や携帯ラジオなどに見られる音声復号器に用いること
が特にふさわしい。しかしながら、音声符号器によって伝達される使用者の入力
音声の特徴を変更することが求められる音声符号器において(例えば話し手の背
景騒音に対して理解度を高めるために)用いることも可能である(特にLSP変
更に関連する態様は、適用可能である)。また本発明は、聞き手に対して音声を
放送するラジオ受信機やテレビ、または他の装置にも適用可能である。また本発
明は、特に音声の理解度の向上について説明してきたが、音楽などの他の音の理
解度を高めるのに用いることも出来る。
本発明の好ましい実施の形態を、単に一例として、添付の図面を参照して詳述
する。図面においては、
図1は、一般的なCELP符復号器の構成を示す。
図2は、本発明の代表的な音声通信システムのブロック図を示す。
図3は、音の持続期間の周波数スペクトルを、番号を付したその音のLSP値
を垂直線として重ね合わせて示す。
図4は、図3のLSP値に一定の変更を施して引き出された音の持続期間の周
波数スペクトルを示す。その音の変更後のLSP値は垂直線として重ね合わされ
ている。
本発明は、とりわけ携帯電話やラジオ装置において用いられる音声符復号装置
での利用に適している。そのような符復号器の一例を、一般的CELP符号器の
形態で、図1に示す。
一般的なCELP(符号励起線形予測)構造は1985年に導入され(例えば
シュレーダー(Shroeder)MR、アタル(Atal)BSの「符号励起線形予測(CELP
):超低ビットレートでの高品質音声」ICASSP、937−940ページ(198
5年)参照)、それ以来多くの改良がなされてきた。
一般的なCELP符復号器22の構成を、図1に示す。図1は、入力音声21
が、線形予測分析器(装置)2によって分析されて、線形予測(LPC)パラメ
ータ3になる様子を示す。線形予測によっては記述できない入力信号の残りの部
分は、例えば音声の利得と音高(ピッチ)を表わすパラメータを生成する音高フ
ィルタ・VQ復号部4へと送られる。これらの処理は本発明にとっては重要では
なく、相異するCELPの具体例において、詳細な点で広範な変形例が可能であ
る。しかしながら、これらの処理の結果、他の様々なパラメータが生成され、こ
れらはLPCパラメータと共に入力音声を記述することになる。
入力音声を記述するLPCパラメータ3および他のパラメータ(たとえば利得
や音高)5は、量子化器6によって量子化され、(伝達パラメータ7として)C
ELP復号器14に伝達され、該CELP復号器は逆量子化器8を用いてこれら
のパラメータを逆量子化する。これらの逆量子化された値は次に、聞き手にとっ
ての音として出力される音声15を再現するのに用いられる。(逆量子化器8は
LPCパラメータ3および他のパラメータ5を、それぞれLPCシンセサイザ3
0および音高フィルタ・VQ復号部31によって再生する。これらのパラメータ
は音声を音15として出力する。)
選択的に、LPCパラメータを符号器で量子化するのに先立ち、相異する形態
に変換してもよい(また逆量子化の後LPC係数に再変換してもよい)。そのよ
うな形態としては、ログ面積比、PARCOR(反射係数)および線スペクトル
対などが知られている。
用いられるLPCパラメータの表示における相異、および音高フィルタおよび
ベクトル量子化器(VQ)の型(または用法)の相異は、CELPについて多く
の変形例を可能とする。その例を少し挙げれば、MELP(混合励起線形予測)
、VSELP(可変勾配励起線形予測)、SB−CELP(副帯CELP)、L
D−CELP(低遅延CELP)、RELP(残留励起線形予測)、PRE−L
P(残留パルス励起線形予測)、その他である。
上述したように、多くのそのような符復号器において、LPCパラメータはL
SPとして伝達される。
「LSP」という用語は、スガワラおよびイタクラによる論文に記載されるよ
うに、線スペクトル対近似を用いて線形予測係数を変換することによって生成さ
れるパラメータを指す(スガワラ N、イタクラ Fの「NTTのECLにおい
て開発した音声分析および合成方法−LPCからLSPへ−」スピーチコミュニ
ケーション第5巻、199−213ページ、1986年)。線形予測係数自体は
、マコール(Makhoul)Jの「線形予測:チュートリアル評論(tutorial review)
」(Proc.IEEE第63巻、No.4,561−580ページ、1975年)に記載さ
れるような、データ(音声)の組み合わせを操作する種々の定評のある分析方法
によって生成される。
LSPは数学的変形によってLPCから生成され、同一の情報を有するが、相
異する形態である。LPCからの他の多くの数学的変形も定量されているが、そ
の結果生じるパラメータはいずれも、LSPや本発明に記載されるような手法で
変更されたものではない。
線スペクトル対パラメータを、「線スペクトル周波数」と称してもよいが、こ
の用語はLSPに限定して適用されるものではない。
数学的にいえば、LSPパラメータは以下のように定義される:逆線形予測多
項式の係数の特殊な再配列によって形成された2つの多項式の根(解)。これら
の2つの多項式はPおよびQと称され、線形予測係数Apのセットを用いて形成
され(ここでpは通常0からフィルタ次数pまで続く配列の指数)、以下の再帰
的関係を有する:
P(z-1)=Ap(z-1)-z(p+1)Ap(z)
Q(z-1)=Ap(z-1)-z(p+1)Ap(z)
多項式PおよびQを解いて得られる根は、線スペクトル対と呼ばれる線スペク
トル周波数パラメータを提供する。これらの根を決定するのに、例えば上述のス
ガワラおよびイタクラによる論文に説明されるように、多くの方法が存在する。
方法の選択は本発明の目的とは関連しない。
LSPのセットはしばしば基準化される。「基本」LSP値に関して、これら
のコサインまたはサインもLSPと称される。更に、基本LSPは種々の領域の
1つに存在する。即ち、その最大および最小値は0とπの間、0と4000Hz
との間(代表的サンプル周波数)、または0から1といった任意の範囲に存在し
得る。
本発明を理解する一助として、線スペクトル対(LSP)の非数学的記述もま
た検討される。LSPはLPCおよび反射係数から導き出されるので、これらを
最初に対象として含む必要がある。
線形予測は、未知のシステムをモデル化するために、固定長の数式を通常用い
る。数式構造は固定されているが、式に代入される値を見出さなければならない
。線形予測分析は、その数式への値の最良のセットを見つけ出す方法である。こ
れらの値は線形予測係数であり、これらの値の最良のセットは、2つのシステム
への入力値が同一な場合、数式の出力値が、最も近似にモデル化されたシステム
の出力値に類似するような組み合わせである。
もしその数式の方程式が数学的に再配列された場合、別の標準方程式に到達す
る。新しい方程式の係数は反射係数と呼ばれ、LPC係数の中から容易に見出さ
れる。
反射係数方程式は、実際のシステムに非常に容易関連付けられる。音声処理の
ために、LPC分析は短い発音期間をモデル化する最良のパラメータを見出そう
とする。物理的用語で述べれば、モデルは、直列に接続された相異する幅で等し
い長さの多数のチューブによって構成される。反射係数は各々の連続するチュー
ブの間の相異と直接関連するので、反射係数はこの物理モデルによく適合する。
空気をチューブに吹き落とすと共振が起こる(オルガンのパイプ)。人間の声
道においては、空気は(迅速に開閉する)声門に生じ、声道を進み、口に放出さ
れる。音は共振のために、声道の形状に強く関連する。
LSPパラメータは各々、接続されたチューブの1つの共振周波数と関連があ
る。パラメータの半分は、チューブの供給元の端部が開放されていると仮定して
生成され、半分はそれが閉鎖されていると仮定して生成される。実際、声門は迅
速に開閉し、開放したり閉鎖のままになっていたりすることはない。このように
各々の本物のスペクトル共振が2つの隣接する線スペクトル周波数の間に生じ、
これらの2つの値が1対と見なされる(このように線スペクトル対となる)。
音声符復号器を含んでなり、LSP変更を用いて騒々しい環境下での音声の理
解度を向上させる音声通信システムにおける本発明の実施の形態を、図2に示し
、信号処理の様子を図3および4に示す。図2に示すシステムは、図1のシステ
ムと共通の多くの機能を有し、従ってシステムの同様の機能には同一の参照番号
を用いる。
LSP変更機構は、図2に示した音声符復号器(符復号器は、符号器22と復
号器14の両機構を含んでなる)内において(即ち、音声復号器14内において
)動作する。音声符号器22は入力音声21を、ラジオその他の手段によって受
信機14に送信するのに適した1組の圧縮パラメータ20に変換する。(この装
置において、線形予測分析器2によって生成されたLPCパラメータは、量子化
器6により量子化される前に、LPC−LSP変換器32によって線スペクトル
対データに変換されることに留意されたい。)受信した装置は、次に送信された
データを復号して、音声15を再構築する。一例として、符号器22はオフィス
電話機に備わっていてもよいし、復号器14は携帯電話機の受話器内に備わって
いてもよい。
本実施例においては、復号器によって受信された(LSP情報を含んでなる)
データに対する変更が行われる。この変更装置は、図2にLSP処理装置10と
して示した。
LSP処理は、聞き手の環境に存在する騒音背景16の程度と種類に依存する
。図2に示す分析装置12は、聞き手の環境における実際の外部の背景騒音を捕
捉するマイクロホンを用いて、背景騒音の種類とレベルを判定する。
騒音分析システムの一例は、使用者の音声を(一定の時間内におけるすべての
入力騒音値を加算してその値を閾値と比較する等の多くの一般的な技法の1つを
用いて)検出する方法であり、外部の背景騒音を発声期間の合間に考察する。
サンプル騒音を次に(恐らく線形予測を用いて)分析して、そのスペクトルの
内容と振幅を判定される。線形予測分析の結果得られるLPC(線形予測係数)
値は、十分なスペクトル情報を含み、また利得パラメータは、LPCパラメータ
の相対振幅を絶対振幅に関連付ける。
判定装置11は、現在復号器によって受信されて、スピーカまたは携帯電話機
の受話口を経由して音として再生されている音声データが、携帯電話機(即ち聞
き手)の現在の背景騒音16下において、平均的な聞き手に理解容易であるか否
かを判定する。
もし判定装置が、音声が容易に理解可能であると判定した場合には、処理は必
要なく、処理装置10は、標準的音声復号器によって該装置に送信された逆量子
化されたLSPパラメータ17を、LSP−LPC変換機33に送信する前に変
更することはない。
一方、判定装置が音声が理解不能であると判定した場合、処理が必要となり、
処理装置10は、逆量子化されたLSPパラメータを、聞き手用に再生すべくL
SP−LPC変換機への送出前に、そのLSPパラメータを変更して音声の特徴
を変更する。判定装置はまた、音声がまもなく不鮮明になるということも予測す
る。
判定処理に入力されるのは、スペクトル分析および振幅換算係数(利得)の形
態での音声と背景騒音との記述である。音声がその騒音の中で聞き手に聞こえる
かどうかを判定するために、音声データと騒音データを比較することが必要であ
る。
比較する際には、まず音声信号の内容を非音声、有声音声または無声音声に分
類する。非音声が存在する時は(恐らく言葉と言葉の間の休止)、その可聴性は
重要ではないのでその強調は必要でなく、LSP処理モジュールは処理を行わな
いように指示される。
有声音声が存在する時は(有声音声は、フォルマントと呼ばれる多様な周波数
の一連の共振ピークを含む)、各フォルマントの振幅をその周波数における騒音
振幅と比較し、その可聴性を判定する。もし騒音振幅が、いかなるフォルマント
周波数においてもフォルマント振幅を越える場合は、フォルマント調整が必要と
なる。
必要に応じて、出力される音声の理解度を判定する他の公知の技術を用いるこ
とも可能である。
LSP処理装置10は各LSPに対して数理操作を行い、判定装置の制御の下
で音声を強調する。
正確な操作は判定処理の方針に基づいて行われる。1つの音声強調作用ではL
SP線をより有利な位置に移動させることが求められる。
例えば、フォルマント周波数の周囲の騒音振幅を自動的に検査し、フォルマン
ト周波数を上方または下方に10%だけ移動させた場合、恐らく事態を改善する
だろうということが明示される場合がある。この可能性があれば(恐らく騒音振
幅は、フォルマント周波数よりも10%低い周波数において低減するから)、L
SP処理部は、適切なLSPを対応する量だけ移動させるよう指示される。
例えば、移動が必要なフォルマントが600Hzに位置している場合、一般に
600Hzに非常に近くてその両側にある2つのLSP係数が存在する。もし1
0%の下方移動によって可聴性が向上する場合は、これらの2つのLSPパラメ
ータの値にそれぞれ0.9を掛けて移動を行う。LSP調整それ自体は、LSP
処理部内に限って行なわれる。
更に別の実施例として、もし判定モジュールが、複数のLSPのセットから線
1および2を低周波数側に10%だけ移動させることによって、理解度を向上さ
せ得ると判定した場合、線1および2の値に0.9の係数を掛ければよい。
もし判定モジュールが線3を100Hzだけ上方に移動させると、理解度を向
上させ得ると判定した場合には、所定量を線3に加える。この量は、LSPパラ
メータがヘルツの値を取るように基準化されていれば100に等しいが、より一
般的には
100x2π/fs
であり、ここでfsはシステムのサンプリングレートであり、LSPは、角周
波数領域の値に限定される。
他の種類の処理も可能であるが、それらはすべて1つまたはそれ以上のLSP
線に値を加算または減算する処理として記述される(LSP線をそれ自体に加算
することは乗算に等しい)。それらの値は判定モジュールによって判定されるか
、あるいは各LSP線の現在または過去の値に基づく。
そのようなLSP処理の一例を図3に示す。この図は、音の持続期間の周波数
スペクトルが描き、この音を分析して得られた10個のLSP線が重ね合わせて
作られている。LSP値はLPCパラメータとの間で容易に変換可能であり、L
pCパラメータからはスペクトルが描かれる。当該実施例においては、図3は、
図2に示したCELP符号器22において音声21の分析から得られた音の周波
数スペクトルを示す。
一般的なCELP復号器の場合には、本発明による恩恵なしに操作する場合、
出力音声15は、図3のデータを用いて再構築される。本発明を包含した場合、
LSP処理部10は、出力音声15を変更するためにLSP値を変更することが
できる。
図4の具体的な実施例の場合、図3のスペクトルの特定のLSP値を変更し、
図4に示すスペクトルを形成する新しい組み合わせのLPC係数を生成した。図
3の元のスペクトルのLSP値に関して、3つの操作が行われた。
1.線1および2の間の離隔を、両線を更に引き離すことにより増加させた
(即ち線1は周波数を低くし、線2は高くした)。
2.線5および6の周波数を高くした。
3.線10の周波数を高くした。
これらの3つの操作は、発信された音に一定の結果をもたらす。
1.線1および2はスペクトルピークの両側に位置する。2つの線の移動によ
り、このスペクトルピークは振幅が低減し、より広くなる(帯域幅の増加と等し
い)。
2.線5および6は、第2のスペクトルピークの両側に位置する。これらの2
つの線の移動により、そのピークの周波数が高くなる。
3.線10は、以前は、非常に小さいスペクトルの「隆起」のすぐ右側に位置
していた。この隆起は、その線の周波数がかなりの量で増加したために、もはや
明瞭ではない。
音声符復号器のこの具体的な実施例においては、分析される音は音声である。
スペクトル図において明瞭なスペクトルピークは、これまで検討してきたように
、フォルマントに対応し、多量の情報を伝達する音声の重要な構成要素である。
上記で検討したLSPに基づく調整はこのように、聞き手に出力されて感知され
る音声の特徴を変化させた。例えば母音の場合、スペクトルピークに対応して緩
やかに線を広げることは(即ちフォルマントの帯域幅を増大させることは)、理
解度を増すことが明らかになった。
図2に示した実施例は更に、聞き手の環境に存在する騒音を分析し、その聞き
手に対して再生される音声が理解容易であるか否かを判定する。もし理解容易で
なければ、本発明においては音声の特徴を変更し、各LSPまたはLSPのグル
ープを、以下の操作を行うことにより移動操作し、音声の理解度を向上させる。
1.ピーク/フォルマントの周波数を上方に移動させる。
2.ピーク/フォルマントの周波数を下方に移動させる。
3.ピーク/フォルマントの振幅を増加させる(帯域幅を減少させる)。
4.ピーク/フォルマントの帯域幅を増加させる(振幅を減少させる)。
周知の音響心理学理論で述べられるように、所定の周波数の音は、類似の周波
数の第2の同時発生音によってマスキングされる。もし第2の音が十分に大きい
場合には、前者の音は聞き取れない。このように本出願の発明者は、音声の場合
には、音声におけるフォルマントの周波数に類似の周波数を有する大きな騒音は
、音声をマスキングすることを認識した。音声を聞き取るためには、音量を上げ
るか音声要素の周波数を変更することが必要である。
音量の変更は比較的単刀直入であるが、しかしここで注意したいのは、特に騒
々しい自動車内といった状況下においては、(もしそれが耐え得るならば)聴力
損失を起こすほどの音量レベルが要求されうるということである。従って音声要
素の周波数を変更することが好ましい。
以上見たように、本発明は効率的な処理により、背景騒音による音声のマスキ
ングを低減する(従って、音声の理解度を高める)方法を提供する。この処理は
多くの流通している標準的携帯電話やラジオ装置、およびそのような装置の標準
的音声符復号器と組み合わされて用いることが出来る。
音声の強調は、聞き手の背景騒音環境の分析が、修正用のLSPの変更と組み
合わされた時にも生じる。このLSPの変更は、処理された音を聞き手が聞き取
りやすくするために、受信した発信音声データを調整し、その音声データは聞き
手に対して再生される。本技術は、聞き手の背景騒音環境の分析に基づいて、音
声データ符復号器内で見出されたLSPの値を調整する。好ましくは、受信され
た音声の中に見出された特定の周波数領域特徴の周波数、または出力と帯域幅を
この方法で変更する。
─────────────────────────────────────────────────────
フロントページの続き
(81)指定国 EP(AT,BE,CH,CY,
DE,DK,ES,FI,FR,GB,GR,IE,I
T,LU,MC,NL,PT,SE),OA(BF,BJ
,CF,CG,CI,CM,GA,GN,ML,MR,
NE,SN,TD,TG),AP(GH,GM,KE,L
S,MW,SD,SZ,UG,ZW),EA(AM,AZ
,BY,KG,KZ,MD,RU,TJ,TM),AL
,AM,AT,AU,AZ,BA,BB,BG,BR,
BY,CA,CH,CN,CU,CZ,DE,DK,E
E,ES,FI,GB,GE,GH,GM,GW,HR
,HU,ID,IL,IS,JP,KE,KG,KP,
KR,KZ,LC,LK,LR,LS,LT,LU,L
V,MD,MG,MK,MN,MW,MX,NO,NZ
,PL,PT,RO,RU,SD,SE,SG,SI,
SK,SL,TJ,TM,TR,TT,UA,UG,U
Z,VN,YU,ZW
Claims (1)
- 【特許請求の範囲】 1. 音声通信システムによって、該システムを用いる聞き手に対して出力さ れる音声の理解度を向上する方法であって、 前記聞き手の現在の背景騒音環境を分析し、 前記背景騒音分析の結果を用いて、前記聞き手に対して出力される前記音声が 、現在の背景騒音環境において前記聞き手にとって理解容易であるか否かを判定 し、 前記判定に基づいて、前記音声通信システムによって出力される前記音声の特 徴を変更して、前記変更された音声が、現在の背景騒音環境において、前記聞き 手に対して強調した理解度を有するようにする 方法。 2. 前記出力される音声の前記理解度は、前記音声の内容を少なくとも2つ のカテゴリに分類して、かつ1つの周波数における1つのカテゴリの前記音声の 振幅を、その周波数における騒音の振幅と比較することによって判定される請求 の範囲第1項に記載の方法。 3. 前記出力される音声の前記理解度は、前記音声の内容を、前記音声のフ ォルマントを包含する1つのカテゴリに分類して、かつ1つの周波数における前 記フォルマントを包含する音声カテゴリにおける振幅を、その周波数における前 記騒音の振幅と比較することによって判定される請求の範囲第1項または第2項 に記載の方法。 4. 前記出力される音声の前記理解度は、前記音声の内容を、非音声、有声 音声、または無声音声に分類して、かつ1つの周波数における有声音声の振幅を 、その周波数における前記騒音の振幅と比較することによって判定される請求の 範囲第1項ないし第3項のいずれか記載の方法。 5. 前記出力される音声の前記理解度は、前記音声の内容を、非音声、有声 音声、または無声音声に分類して、かつ中心周波数を有する前記有声音声のスペ クトルピークの振幅を、前記スペクトルピークの前記中心周波数における前記騒 音の振幅と比較することによって判定される請求の範囲第1項ないし第4項のい ずれか記載の方法。 6. 前記出力される音声の前記理解度は、前記音声の内容を、非音声、有声 音声、または無声音声に分類して、かつ中心周波数を有する前記有声音声のフォ ルマントの振幅を、前記フォルマントの前記中心周波数における前記騒音の振幅 と比較することによって判定される請求の範囲第1項ないし第5項のいずれか記 載の方法。 7. 前記音声のスペクトルピークと実質的に同じ周波数における前記背景騒 音の振幅が、前記スペクトルピークの振幅より大きい場合は、前記音声は理解不 能と判定される請求の範囲第1項ないし第6項のいずれか記載の方法。 8. 前記音声のフォルマントと実質的に同じ周波数における前記背景騒音の 振幅が、前記フォルマントの振幅より大きい場合は、前記音声は理解不能と判定 される請求の範囲第1項ないし第7項のいずれか記載の方法。 9. 前記音声の特徴は、前記音声を表わす線スペクトル対(LSP)を変更 することにより変更される請求の範囲第1項ないし第8項のいずれか記載の方法 。 10. 前記音声の特徴は、前記音声スペクトルにおける線スペクトル対を移 動させることにより変更される請求の範囲第9項に記載の方法。 11. 前記音声の特徴は、前記音声スペクトルの要素の周波数を変更するこ とにより変更される請求の範囲第1項ないし第10項のいずれか記載の方法。 12. 前記音声スペクトルのフォルマントの周波数を変更する請求の範囲第 11記載の方法。 13. 前記音声のフォルマントの周波数を変更して、前記フォルマントを、 前記背景騒音の振幅がより低い位置における周波数に移動させる請求の範囲第1 2項に記載の方法。 14. 前記音声スペクトルは中心周波数を有するスペクトルピークを含み、 前記スペクトルピークの前記中心周波数が変更される請求の範囲第11項ないし 第13項のいずれか記載の方法。 15. 音声通信システムであって、 該システムの現在の背景騒音環境を分析する手段と、 前記背景騒音分析の結果を用いて、前記音声通信システムを聞いている聞き手 に対して、前記音声通信システムによって出力される音声が、現在の背景騒音環 境において前記聞き手にとって理解容易であるか否かを判定する手段と、 前記判定手段の出力に従って、前記音声通信システムによって聞き手に対して 出力される前記音声の特徴を変更し、現在の背景騒音環境の中にいる前記聞き手 に対して、前記音声の理解度を向上させる手段と を備えた音声通信システム。 16. 前記出力される音声が理解容易か否かを判定する前記手段は、前記音 声の内容を相異するカテゴリに分類する手段と、1つの周波数における前記音声 カテゴリのうちの1つのカテゴリの振幅を、その周波数における前記騒音の振幅 と比較する手段とを含んでなる請求の範囲第15項に記載のシステム。 17. 前記音声の内容を相異するカテゴリに分類する前記手段は、前記音声 の内容を前記音声のフォルマントを包含する1つのカテゴリに分類し、前記比較 手段は、1つの周波数における前記フォルマント包含音声カテゴリの振幅を、そ の周波数における前記騒音の振幅と比較する請求の範囲第16項に記載のシステ ム。 18. 前記出力される音声が理解容易か否かを判定する前記手段は、前記音 声のフォルマントと実質的に同じ周波数にある騒音の振幅を、そのフォルマント の振幅と比較する請求の範囲第15項ないし第17項のいずれか記載のシステム 。 19. 前記音声は線スペクトル対(LSP)データを含むデータによって表 わされ、前記音声通信システムによって出力される前記音声の特徴を変更する前 記手段は、前記音声を表わす前記線スペクトル対(LSP)データを変更する手 段を備えた請求の範囲第15項ないし第18項のいずれか記載のシステム。 20. 前記音声通信システムによって出力される前記音声の特徴を変更する 前記手段は、前記音声スペクトルの要素の周波数を変更する手段を備える請求の 範囲第15項ないし第19項のいずれか記載のシステム。 21. 前記音声通信システムによって出力される前記音声の特徴を変更する 前記手段は、前記音声のフォルマントの周波数を変更して、前記フォルマントを 、前記騒音の振幅がより低い位置における周波数に移動させる手段を備える請求 の範囲第20項に記載のシステム。 22. 音声通信システムにおける、聞き手に対して出力される音声の特徴を 変更する方法であって、前記音声通信システムにおいては、該システムによって 処理されて音として出力される音声データは線スペクトル対データを含み、前記 方法は前記音声データの前記線スペクトル対データを変更する方法。 23. 前記音声データの前記線スペクトル対データを変更して、前記音声ス ペクトルの要素の周波数を変更する請求の範囲第22項に記載の方法。 24. 前記音声スペクトルのフォルマントの周波数を変更する請求の範囲第 23項に記載の方法。 25. 前記音声スペクトルのスペクトルピークの中心周波数を変更する請求 の範囲第23項または第24項に記載の方法。 26. 前記線スペクトル対データは、前記音声スペクトルの1つの線スペク トル対の周波数を変更することによって変更される請求の範囲第22項ないし第 25項のいずれか記載の方法。 27. 前記線スペクトル対データは、前記音声スペクトルの1つの線スペク トル対の間隔を低減することによって変更される請求の範囲第22項ないし第2 6項のいずれか記載の方法。 28. 音声通信システムによって処理される音声データが線スペクトル対デ ータを含む音声通信システムであって、前記音声通信システムによって処理され る前記音声データの前記線スペクトル対データを変更して、聞き手によって聞き 取られる処理音声の特徴を変化させる手段を備えたシステム。 29. 前記線スペクトル対データを変更する前記手段は、前記音声スペクト ルの要素の周波数を変更するようにして前記線スペクトル対データを変更する手 段を備えた請求の範囲第28項に記載のシステム。 30. 前記線スペクトル対データを変更する前記手段は、前記音声スペクト ルのフォルマントの周波数を変更する手段を備えた請求の範囲第29項に記載の システム。 31. 前記線スペクトル対データを変更する前記手段は、前記音声スペクト ルの1つのスペクトルピークの周波数を変更する手段を備えた請求の範囲第29 項または第30項に記載のシステム。 32. 前記線スペクトル対データを変更する前記手段は、前記音声スペクト ルの1つの線スペクトル対の周波数を変更する手段を備えた請求の範囲第28項 ないし第31項のいずれか記載のシステム。 33. 前記線スペクトル対データを変更する前記手段は、前記音声スペクト ルの1つの線スペクトル対の間隔を減少させる手段を備えた請求の範囲第28項 ないし第32項のいずれか記載のシステム。 34. 音声通信システムによって、該システムを用いる聞き手に対して出力 される音声の理解度を向上させる方法であって、 前記聞き手の現在の背景騒音環境を分析し、 前記背景騒音分析の結果を用いて、前記聞き手に対して出力される前記音声の 、音声スペクトルのフォルマントの振幅を前記背景騒音の振幅と比較し、 前記比較に基づいて、前記音声通信システムによって出力される前記音声の特 徴を変更して、前記変更された音声が、現在の背景騒音環境において、前記聞き 手に対して向上した理解度を有するようにする 方法。 35. 音声通信システムであって、 該システムの現在の背景騒音環境を分析する手段と、 前記背景騒音分析の結果を用いて、前記音声通信システムによって出力される 前記音声の音声スペクトルのフォルマントの振幅を、前記背景騒音の振幅と比較 する手段と、 前記比較装置の出力に従って、前記音声通信システムによって聞き手に対して 出力される前記音声の特徴を変更して、現在の背景騒音の中にいる前記聞き手に 対して、前記音声の理解度を向上させる手段と を備えた音声通信システム。 36. 添付の図面のいずれか1つを参照して実質的にこれまでに記載された 音声通信システム。 37. 音声通信システムを用いる聞き手に対して該システムによって出力さ れる音声の理解度を向上させる方法であって、添付の図面のいずれか1つを参照 して実質的にこれまでに記載された方法。 38. 音声通信システムにおいて、聞き手に対して出力される音声の特徴を 変更する方法であって、添付の図面のいずれか1つを参照して実質的にこれまで に記載された方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GBGB9714001.6A GB9714001D0 (en) | 1997-07-02 | 1997-07-02 | Method and apparatus for speech enhancement in a speech communication system |
GB9714001.6 | 1997-07-02 | ||
PCT/GB1998/001936 WO1999001863A1 (en) | 1997-07-02 | 1998-07-01 | Method and apparatus for speech enhancement in a speech communication system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002507291A true JP2002507291A (ja) | 2002-03-05 |
Family
ID=10815285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP50665899A Pending JP2002507291A (ja) | 1997-07-02 | 1998-07-01 | 音声通信システムにおける音声強調方法およびその装置 |
Country Status (12)
Country | Link |
---|---|
EP (1) | EP0993670B1 (ja) |
JP (1) | JP2002507291A (ja) |
KR (1) | KR20010014352A (ja) |
CN (1) | CN1265217A (ja) |
AT (1) | ATE214832T1 (ja) |
AU (1) | AU8227798A (ja) |
CA (1) | CA2235455A1 (ja) |
DE (1) | DE69804310D1 (ja) |
GB (2) | GB9714001D0 (ja) |
PL (1) | PL337717A1 (ja) |
WO (1) | WO1999001863A1 (ja) |
ZA (1) | ZA985607B (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005157363A (ja) * | 2003-11-21 | 2005-06-16 | Samsung Electronics Co Ltd | フォルマント帯域を利用したダイアログエンハンシング方法及び装置 |
JP2005530213A (ja) * | 2002-06-19 | 2005-10-06 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声信号処理装置 |
JP2007295347A (ja) * | 2006-04-26 | 2007-11-08 | Mitsubishi Electric Corp | 音声処理装置 |
JP2014524593A (ja) * | 2011-07-29 | 2014-09-22 | ディーティーエス・エルエルシー | 適応音声了解度プロセッサ |
JP2016153820A (ja) * | 2015-02-20 | 2016-08-25 | ヤマハ株式会社 | 音声処理装置 |
US9820044B2 (en) | 2009-08-11 | 2017-11-14 | Dts Llc | System for increasing perceived loudness of speakers |
US9847093B2 (en) | 2015-06-19 | 2017-12-19 | Samsung Electronics Co., Ltd. | Method and apparatus for processing speech signal |
JP2018072699A (ja) * | 2016-11-02 | 2018-05-10 | ヤマハ株式会社 | 信号処理方法、および信号処理装置 |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE9903553D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
FR2794322B1 (fr) * | 1999-05-27 | 2001-06-22 | Sagem | Procede de suppression de bruit |
US7120579B1 (en) | 1999-07-28 | 2006-10-10 | Clear Audio Ltd. | Filter banked gain control of audio in a noisy environment |
US6876968B2 (en) * | 2001-03-08 | 2005-04-05 | Matsushita Electric Industrial Co., Ltd. | Run time synthesizer adaptation to improve intelligibility of synthesized speech |
DE10124189A1 (de) * | 2001-05-17 | 2002-11-21 | Siemens Ag | Verfahren zum Signalempfang |
JP2003255993A (ja) * | 2002-03-04 | 2003-09-10 | Ntt Docomo Inc | 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム |
US20060126859A1 (en) * | 2003-01-31 | 2006-06-15 | Claus Elberling | Sound system improving speech intelligibility |
KR101215944B1 (ko) * | 2004-09-07 | 2012-12-27 | 센시어 피티와이 엘티디 | 청취보호기와 음향개선방법 |
US8280730B2 (en) | 2005-05-25 | 2012-10-02 | Motorola Mobility Llc | Method and apparatus of increasing speech intelligibility in noisy environments |
GB2433849B (en) | 2005-12-29 | 2008-05-21 | Motorola Inc | Telecommunications terminal and method of operation of the terminal |
DE102006001730A1 (de) | 2006-01-13 | 2007-07-19 | Robert Bosch Gmbh | Beschallungsanlage, Verfahren zur Verbesserung der Sprachqualität und/oder Verständlichkeit von Sprachdurchsagen sowie Computerprogramm |
EP1814109A1 (en) * | 2006-01-27 | 2007-08-01 | Texas Instruments Incorporated | Voice amplification apparatus for modelling the Lombard effect |
KR101414233B1 (ko) | 2007-01-05 | 2014-07-02 | 삼성전자 주식회사 | 음성 신호의 명료도를 향상시키는 장치 및 방법 |
JP4926005B2 (ja) * | 2007-11-13 | 2012-05-09 | ソニー・エリクソン・モバイルコミュニケーションズ株式会社 | 音声信号処理装置及び音声信号処理方法、通信端末 |
CN102017402B (zh) | 2007-12-21 | 2015-01-07 | Dts有限责任公司 | 用于调节音频信号的感知响度的系统 |
JP5453740B2 (ja) * | 2008-07-02 | 2014-03-26 | 富士通株式会社 | 音声強調装置 |
EP2372700A1 (en) * | 2010-03-11 | 2011-10-05 | Oticon A/S | A speech intelligibility predictor and applications thereof |
CN103002105A (zh) * | 2011-09-16 | 2013-03-27 | 宏碁股份有限公司 | 可增加通讯内容清晰度的移动通讯方法 |
CN103297896B (zh) * | 2012-02-27 | 2016-07-06 | 联想(北京)有限公司 | 一种音频输出方法及电子设备 |
US9015044B2 (en) | 2012-03-05 | 2015-04-21 | Malaspina Labs (Barbados) Inc. | Formant based speech reconstruction from noisy signals |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
EP3010017A1 (en) * | 2014-10-14 | 2016-04-20 | Thomson Licensing | Method and apparatus for separating speech data from background data in audio communication |
EP3107097B1 (en) | 2015-06-17 | 2017-11-15 | Nxp B.V. | Improved speech intelligilibility |
EP3566469B1 (en) | 2017-01-03 | 2020-04-01 | Lizn APS | Speech intelligibility enhancing system |
WO2019127112A1 (zh) * | 2017-12-27 | 2019-07-04 | 深圳前海达闼云端智能科技有限公司 | 一种语音交互方法、装置和智能终端 |
CN109346058B (zh) * | 2018-11-29 | 2024-06-28 | 西安交通大学 | 一种语音声学特征扩大系统 |
US11817114B2 (en) * | 2019-12-09 | 2023-11-14 | Dolby Laboratories Licensing Corporation | Content and environmentally aware environmental noise compensation |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5870292A (ja) * | 1981-10-22 | 1983-04-26 | 日産自動車株式会社 | 車両用音声認識装置 |
US4538295A (en) * | 1982-08-16 | 1985-08-27 | Nissan Motor Company, Limited | Speech recognition system for an automotive vehicle |
KR940009391B1 (ko) * | 1985-07-01 | 1994-10-07 | 모토로라 인코포레이티드 | 잡음 억제 시스템 |
GB8801014D0 (en) * | 1988-01-18 | 1988-02-17 | British Telecomm | Noise reduction |
US5235669A (en) * | 1990-06-29 | 1993-08-10 | At&T Laboratories | Low-delay code-excited linear-predictive coding of wideband speech at 32 kbits/sec |
CA2056110C (en) * | 1991-03-27 | 1997-02-04 | Arnold I. Klayman | Public address intelligibility system |
FI102337B (fi) * | 1995-09-13 | 1998-11-13 | Nokia Mobile Phones Ltd | Menetelmä ja piirijärjestely audiosignaalin käsittelemiseksi |
GB2306086A (en) * | 1995-10-06 | 1997-04-23 | Richard Morris Trim | Improved adaptive audio systems |
-
1997
- 1997-07-02 GB GBGB9714001.6A patent/GB9714001D0/en not_active Ceased
-
1998
- 1998-04-21 CA CA002235455A patent/CA2235455A1/en not_active Abandoned
- 1998-06-26 ZA ZA9805607A patent/ZA985607B/xx unknown
- 1998-07-01 JP JP50665899A patent/JP2002507291A/ja active Pending
- 1998-07-01 GB GB9814279A patent/GB2327835B/en not_active Expired - Fee Related
- 1998-07-01 EP EP98932337A patent/EP0993670B1/en not_active Expired - Lifetime
- 1998-07-01 KR KR1019997012508A patent/KR20010014352A/ko not_active Application Discontinuation
- 1998-07-01 PL PL98337717A patent/PL337717A1/xx unknown
- 1998-07-01 WO PCT/GB1998/001936 patent/WO1999001863A1/en not_active Application Discontinuation
- 1998-07-01 DE DE69804310T patent/DE69804310D1/de not_active Expired - Lifetime
- 1998-07-01 AT AT98932337T patent/ATE214832T1/de not_active IP Right Cessation
- 1998-07-01 CN CN98807458A patent/CN1265217A/zh active Pending
- 1998-07-01 AU AU82277/98A patent/AU8227798A/en not_active Abandoned
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005530213A (ja) * | 2002-06-19 | 2005-10-06 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声信号処理装置 |
JP2005157363A (ja) * | 2003-11-21 | 2005-06-16 | Samsung Electronics Co Ltd | フォルマント帯域を利用したダイアログエンハンシング方法及び装置 |
JP2007295347A (ja) * | 2006-04-26 | 2007-11-08 | Mitsubishi Electric Corp | 音声処理装置 |
US9820044B2 (en) | 2009-08-11 | 2017-11-14 | Dts Llc | System for increasing perceived loudness of speakers |
US10299040B2 (en) | 2009-08-11 | 2019-05-21 | Dts, Inc. | System for increasing perceived loudness of speakers |
JP2014524593A (ja) * | 2011-07-29 | 2014-09-22 | ディーティーエス・エルエルシー | 適応音声了解度プロセッサ |
JP2016153820A (ja) * | 2015-02-20 | 2016-08-25 | ヤマハ株式会社 | 音声処理装置 |
US9847093B2 (en) | 2015-06-19 | 2017-12-19 | Samsung Electronics Co., Ltd. | Method and apparatus for processing speech signal |
JP2018072699A (ja) * | 2016-11-02 | 2018-05-10 | ヤマハ株式会社 | 信号処理方法、および信号処理装置 |
Also Published As
Publication number | Publication date |
---|---|
GB9814279D0 (en) | 1998-09-02 |
CA2235455A1 (en) | 1999-01-02 |
DE69804310D1 (de) | 2002-04-25 |
EP0993670B1 (en) | 2002-03-20 |
ZA985607B (en) | 2000-06-01 |
GB9714001D0 (en) | 1997-09-10 |
GB2327835B (en) | 2000-04-19 |
PL337717A1 (en) | 2000-08-28 |
CN1265217A (zh) | 2000-08-30 |
GB2327835A (en) | 1999-02-03 |
ATE214832T1 (de) | 2002-04-15 |
WO1999001863A1 (en) | 1999-01-14 |
KR20010014352A (ko) | 2001-02-26 |
EP0993670A1 (en) | 2000-04-19 |
AU8227798A (en) | 1999-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2002507291A (ja) | 音声通信システムにおける音声強調方法およびその装置 | |
EP1252621B1 (en) | System and method for modifying speech signals | |
US9837092B2 (en) | Classification between time-domain coding and frequency domain coding | |
KR100726960B1 (ko) | 음성 처리에서의 인위적인 대역폭 확장 방법 및 장치 | |
KR100574031B1 (ko) | 음성합성방법및장치그리고음성대역확장방법및장치 | |
US8560307B2 (en) | Systems, methods, and apparatus for context suppression using receivers | |
EP0770987B1 (en) | Method and apparatus for reproducing speech signals, method and apparatus for decoding the speech, method and apparatus for synthesizing the speech and portable radio terminal apparatus | |
JP2002536692A (ja) | 分散された音声認識システム | |
US20110054889A1 (en) | Enhancing Receiver Intelligibility in Voice Communication Devices | |
JP4040126B2 (ja) | 音声復号化方法および装置 | |
JP2009541797A (ja) | 種々の音声フレーム・レートの混合励振線形予測(melp)ボコーダ間でトランスコーディングするボコーダ及び関連した方法 | |
EP0843302A2 (en) | Voice coder using sinusoidal analysis and pitch control | |
US5706392A (en) | Perceptual speech coder and method | |
KR100216018B1 (ko) | 배경음을 엔코딩 및 디코딩하는 방법 및 장치 | |
GB2343822A (en) | Using LSP to alter frequency characteristics of speech | |
Vicente-Peña et al. | Band-pass filtering of the time sequences of spectral parameters for robust wireless speech recognition | |
Cheng et al. | A robust front-end algorithm for distributed speech recognition | |
Nakatoh et al. | Low bit rate coding for speech and audio using mel linear predictive coding (MLPC) analysis | |
Ekeroth | Improvements of the voice activity detector in AMR-WB | |
McLoughlin | CELP and speech enhancement | |
Lee | A voice activity detection algorithm and comfort noise for communication systems with dynamically varying background acoustic noise | |
JPH09179588A (ja) | 音声符号化方法 | |
Chen | Adaptive variable bit-rate speech coder for wireless applications | |
EP1164577A2 (en) | Method and apparatus for reproducing speech signals |