JP2017223930A - 音声処理システムおよび音声処理方法 - Google Patents
音声処理システムおよび音声処理方法 Download PDFInfo
- Publication number
- JP2017223930A JP2017223930A JP2017029772A JP2017029772A JP2017223930A JP 2017223930 A JP2017223930 A JP 2017223930A JP 2017029772 A JP2017029772 A JP 2017029772A JP 2017029772 A JP2017029772 A JP 2017029772A JP 2017223930 A JP2017223930 A JP 2017223930A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- pause
- value
- word
- suitability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title description 5
- 238000003672 processing method Methods 0.000 title description 2
- 238000005259 measurement Methods 0.000 claims description 51
- 238000000034 method Methods 0.000 claims description 33
- 230000004044 response Effects 0.000 claims description 17
- 230000007704 transition Effects 0.000 claims description 8
- 230000001965 increasing effect Effects 0.000 claims description 7
- 230000036961 partial effect Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000013016 damping Methods 0.000 claims description 2
- 230000001419 dependent effect Effects 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 3
- 230000006872 improvement Effects 0.000 abstract description 3
- 230000005236 sound signal Effects 0.000 description 40
- 230000006870 function Effects 0.000 description 14
- 238000003780 insertion Methods 0.000 description 13
- 230000037431 insertion Effects 0.000 description 13
- 238000012360 testing method Methods 0.000 description 8
- 230000000873 masking effect Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 5
- 230000007423 decrease Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000001627 detrimental effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012966 insertion method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 206010021403 Illusion Diseases 0.000 description 1
- 238000000692 Student's t-test Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000009916 joint effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/057—Time compression or expansion for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
- G10L21/045—Time compression or expansion by changing speed using thinning out or insertion of a waveform
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
【課題】音声の明瞭度が低下する、残響環境での音声を向上させるための音声明瞭度向上システムを提供する。
【解決手段】音声入力によって受信された音声を、向上音声出力によって出力される向上された音声に変換するように構成されたプロセッサとを備える。プロセッサは、音声入力によって受信された音声の一部を抽出し、その一部のパワーを計算し、残響時の、後期残響による、音声の一部のパワーへの寄与を推定し、目標後期残響パワーを計算し、目標後期残響パワーに減衰させるために、後期残響による推定される寄与の時間を決定し、ポーズ長を計算する。計算された長さを有するポーズを、音声入力によって受信された音声に第1の位置で挿入し、第1の位置の後にその一部が続くように構成される。
【選択図】図2
【解決手段】音声入力によって受信された音声を、向上音声出力によって出力される向上された音声に変換するように構成されたプロセッサとを備える。プロセッサは、音声入力によって受信された音声の一部を抽出し、その一部のパワーを計算し、残響時の、後期残響による、音声の一部のパワーへの寄与を推定し、目標後期残響パワーを計算し、目標後期残響パワーに減衰させるために、後期残響による推定される寄与の時間を決定し、ポーズ長を計算する。計算された長さを有するポーズを、音声入力によって受信された音声に第1の位置で挿入し、第1の位置の後にその一部が続くように構成される。
【選択図】図2
Description
本開示は、音声処理システムおよび音声処理方法に関する。
残響は、過去に生成された音響信号が環境内の物体から反射し、後の時点で生成される音響信号と同時に観測される処理である。列車の駅やスタジアム、大規模な工場、コンサートホールや講堂などの残響環境での音声を理解する必要があることがしばしばある。オーバーラップマスキング、すなわち、音響信号の複数の、遅延された、および減衰されたコピーが同時に観察されることのために、残響環境における音声の明瞭度が低下する場合がある。
そのような環境においてより聞き取りやすいように、音声信号を向上させることが可能である。たとえば館内放送システム(public announcement system)を使用した、そのような聴取環境における提示前の信号修正が使用され得る。
次に、非限定的な構成によるシステムおよび方法を、添付の図面を参照して説明する。
一例によれば、音声を向上させるための音声明瞭度向上システムが提供され、本システムは、
向上されるべき音声を受信するための音声入力と、
向上された音声を出力するための向上音声出力と、
音声入力によって受信された音声を、向上音声出力によって出力される向上された音声に変換するように構成されたプロセッサと
を備え、
本プロセッサは、
音声入力によって受信された音声の一部を抽出し、
その一部のパワーを計算し、
残響時の、後期残響(late reverberation)による、音声の一部のパワーへの寄与を推定し、
目標後期残響パワーを計算し、
目標後期残響パワーに減衰させるために、後期残響による推定される寄与の時間tiを決定し、
ポーズ長を計算し、ここにおいて、ポーズ長は時間tiを使用して計算される、
計算された長さを有するポーズを、音声入力によって受信された音声に第1の位置で挿入し、ここにおいて、第1の位置の後にその一部が続く、
ように構成される。
向上されるべき音声を受信するための音声入力と、
向上された音声を出力するための向上音声出力と、
音声入力によって受信された音声を、向上音声出力によって出力される向上された音声に変換するように構成されたプロセッサと
を備え、
本プロセッサは、
音声入力によって受信された音声の一部を抽出し、
その一部のパワーを計算し、
残響時の、後期残響(late reverberation)による、音声の一部のパワーへの寄与を推定し、
目標後期残響パワーを計算し、
目標後期残響パワーに減衰させるために、後期残響による推定される寄与の時間tiを決定し、
ポーズ長を計算し、ここにおいて、ポーズ長は時間tiを使用して計算される、
計算された長さを有するポーズを、音声入力によって受信された音声に第1の位置で挿入し、ここにおいて、第1の位置の後にその一部が続く、
ように構成される。
音声信号にポーズを挿入すると、後期残響によって引き起こされるオーバーラップマスキングが減少する。このシステムでは、ポーズ長は後期残響のレベルを反映し、結果として明瞭度が向上する。
ある実施形態では、その一部は、単語の少なくとも第1の部分に対応する。したがって、第1の位置の後に単語が続く。この部分は、たとえば、単語の第1の音の遷移、または単語の開始時の固定された時間ウインドウに対応し得る。
この部分は、音声入力によって受信された音声に対応するテキストを使用して分割情報を決定し、次いで、分割情報からその部分の開始および終了位置を識別することによって抽出され得る。
ある実施形態では、音声信号は単語のシーケンスを備える文を備える。入力音声信号およびテキストから、文の音素分割情報(Phoneme segmentation information)が決定される。第1の部分の開始は、文中の第1の音素の左側の文脈の開始として識別され、第1の部分の終わりは、第2の音素の右側の文脈として識別される。この部分は、システムによって処理され、第1の音素の左側の文脈に続く位置についてポーズ長が計算される。次いで、次の部分の開始が文中の第2の単語内の第1の音素の左側の文脈の開始として識別され、次の部分の終わりが文中の第2の単語内の第2の音素の右側の文脈として識別される。この部分は、システムによって処理され、ポーズ長が計算され、次の部分が識別され、以下同様である。文中のすべての単語に対応する部分が処理された後、音声信号中の次の文に対して音素分割が決定され、以下同様である。
テキストは、たとえば、自動音声認識を使用して音声入力によって受信された音声とは別個に入力されてもよく、そこから抽出されてもよい。
テキストが別個に入力される場合、分割情報は、事前トレーニングされたガウス混合モデル隠れマルコフモデル(GMM−HMM)を使用した強制的なアラインメントを使用して決定され得る。
ある実施形態では、ポーズ長を計算することは、
音声入力によって受信された音声に対応するテキストを使用して、第1の位置にポーズを挿入するための適合性の測定を決定することを備え、
ここにおいて、ポーズ長は、時間tiおよび適合性の測定を使用して計算される。
音声入力によって受信された音声に対応するテキストを使用して、第1の位置にポーズを挿入するための適合性の測定を決定することを備え、
ここにおいて、ポーズ長は、時間tiおよび適合性の測定を使用して計算される。
ある実施形態では、音声信号は単語のシーケンスを備える文を備える。適合性の測定は、文中の単語が続く位置ごとに決定される。時間tiが文中の最初の単語が続く位置について計算され、ポーズ長が時間tiと適合性の測定を使用して計算され、その位置にポーズが挿入される。次いで、時間tiが文中の次の単語が続く位置について計算され、ポーズ長が時間tiと適合性の測定を使用して計算され、その位置にポーズが挿入され、以下同様である。文中の単語が続くすべての位置についてポーズ長が計算された後、適合性の測定が、音声信号内の次の文中の単語が続く位置ごとに決定され、以下同様である。
適合性の測定を決定することは、音声入力によって受信された音声に対応するテキストから、第1の位置がテキスト内の韻律的区切り(prosodic break)に対応するかどうかを決定することを備え得、ここにおいて、第1の位置が韻律的区切りに対応する場合、適合性の測定はより高い。
適合性の測定を決定することは、音声入力によって受信された音声に対応するテキストから、単語が1つまたは複数の条件を備えるあらかじめ定められたセットから1つまたは複数の条件を満たすかどうかを決定することをさらに備え得、ここにおいて、条件がテキストの特徴に関連する。
ある実施形態では、適合性の測定を決定することは、
第1の位置が韻律的区切りに対応しない場合は、第1のパラメータに0の値を割り振り、韻律的区切りに対応する場合は、第1のパラメータに0より大きいあらかじめ定められた値を割り振ることと、
セット内の各条件に対応するさらなるパラメータに値を割り振ることと、ここにおいて、単語が条件を満たさない場合に割り振られる値は0であり、単語が条件を満たす場合に割り振られる値は0以外のあらかじめ定められた値である、
第1のパラメータの値とさらなるパラメータの値とを組み合わせることによって、適合性の測定の値を計算することと
を備える。
第1の位置が韻律的区切りに対応しない場合は、第1のパラメータに0の値を割り振り、韻律的区切りに対応する場合は、第1のパラメータに0より大きいあらかじめ定められた値を割り振ることと、
セット内の各条件に対応するさらなるパラメータに値を割り振ることと、ここにおいて、単語が条件を満たさない場合に割り振られる値は0であり、単語が条件を満たす場合に割り振られる値は0以外のあらかじめ定められた値である、
第1のパラメータの値とさらなるパラメータの値とを組み合わせることによって、適合性の測定の値を計算することと
を備える。
ある実施形態では、音声入力によって受信された音声は、単語のシーケンスである文を備え、プロセッサは、
文中の単語が続く各位置にポーズを挿入するための適合性の測定を決定し、
文が、単語が続く位置にポーズを挿入するための適合性の測定が第1のしきい値よりも大きい、2つ以上の隣接単語のシーケンスを備えるかどうかを決定し、
そのような配列がある場合、そのシーケンスの適合性の測定を再評価する
ように構成される。
文中の単語が続く各位置にポーズを挿入するための適合性の測定を決定し、
文が、単語が続く位置にポーズを挿入するための適合性の測定が第1のしきい値よりも大きい、2つ以上の隣接単語のシーケンスを備えるかどうかを決定し、
そのような配列がある場合、そのシーケンスの適合性の測定を再評価する
ように構成される。
ある実施形態では、プロセッサはまた、あるいは代替で、
文中の単語が続く各位置にポーズを挿入するための適合性の測定を決定し、
文が、単語が続く位置にポーズを挿入するための適合性の測定が第2のしきい値未満である、6つ以上の隣接単語のシーケンスを備えるかどうかを決定し、
そのような配列がある場合、そのシーケンスの適合性の測定を再評価する
ように構成される。
文中の単語が続く各位置にポーズを挿入するための適合性の測定を決定し、
文が、単語が続く位置にポーズを挿入するための適合性の測定が第2のしきい値未満である、6つ以上の隣接単語のシーケンスを備えるかどうかを決定し、
そのような配列がある場合、そのシーケンスの適合性の測定を再評価する
ように構成される。
ある実施形態では、ポーズ長を計算することは、
適合性の測定を使用してポーズ強度値wiを計算することを備え、
ここにおいて、ポーズ長は、時間tiにポーズ強度値wiを乗算することによって計算される。
適合性の測定を使用してポーズ強度値wiを計算することを備え、
ここにおいて、ポーズ長は、時間tiにポーズ強度値wiを乗算することによって計算される。
ポーズ強度値wiを計算することは、適合性の測定が第3のしきい値Ib以上であるときに1のポーズ強度値wiを割り当てることと、適合性の測定が第3のしきい値Ib未満であるときに0のポーズ強度値wiを割り当てることとを備え得る。
代替的には、ポーズ強度値wiを計算することは、適合性の測定が第3のしきい値Ib未満であるときに0のポーズ強度値wiを割り当てることと、適合性の測定が第3のしきい値Ib以上であるときに、適合性の測定の単調増加関数からポーズ強度値wiを計算することとを備え得る。
ある実施形態では、時間tiは、指数関数的減衰関数を使用して計算される。時間tiを計算することは、
残響時の音声の一部のパワーに対する後期残響による推定される寄与で除算された目標後期残響パワーの対数を計算することと、
減衰時間値を与えるために、残響時間を使用してこの計算値をスケーリングすることとを備え得、
ここにおいて、時間tiは減衰時間値および0の最大値として計算される。
残響時の音声の一部のパワーに対する後期残響による推定される寄与で除算された目標後期残響パワーの対数を計算することと、
減衰時間値を与えるために、残響時間を使用してこの計算値をスケーリングすることとを備え得、
ここにおいて、時間tiは減衰時間値および0の最大値として計算される。
ある実施形態では、目標後期残響パワーは、その一部のパワーと目標信号対後期残響比とを使用して計算される。
後期残響による寄与は、音声信号の一部と時間的に一致する、出力された音声信号の前のセクションの後期残響である。
ある実施形態では、後期残響による寄与は、
環境のインパルス応答を、減衰関数で振幅変調されたパルス列としてモデル化することと、
その一部のモデル後期残響信号を与えるために、インパルス応答のセクションと、その一部の前のある時間に位置する向上された音声信号のセクションとの畳み込みを取ることと、
モデル後期残響信号のパワーを計算することと
によって推定される。
環境のインパルス応答を、減衰関数で振幅変調されたパルス列としてモデル化することと、
その一部のモデル後期残響信号を与えるために、インパルス応答のセクションと、その一部の前のある時間に位置する向上された音声信号のセクションとの畳み込みを取ることと、
モデル後期残響信号のパワーを計算することと
によって推定される。
その一部が続く位置は、その一部の始め、すなわち開始位置である。ある実施形態では、位置は、単語中の第1の音素の左側の文脈に関連付けられる第1のフレームである。位置は、その一部のちょうど始め、すなわちその一部の直前であることが好ましいが、任意で、あらかじめ設定されていても自動的に決定されてもよい、また単語間の典型的な長さよりも短い長さだけ先行することを含み得る。
別の例によれば、音声を向上させる方法であって、
音声入力によって受信された音声の一部を抽出することと、
その一部のパワーを計算することと、
残響時の、後期残響による、音声の一部のパワーへの寄与を推定することと、
目標後期残響パワーを計算することと、
目標後期残響パワーに減衰させるために、後期残響による推定される寄与の時間tiを決定することと、
ポーズ長を計算することと、ここにおいて、ポーズ長は時間tiを使用して計算される、
計算された長さを有するポーズを、音声入力によって受信された音声に第1の位置で挿入することと、ここにおいて、第1の位置の後にその一部が続く、
を備える方法が提供される。
音声入力によって受信された音声の一部を抽出することと、
その一部のパワーを計算することと、
残響時の、後期残響による、音声の一部のパワーへの寄与を推定することと、
目標後期残響パワーを計算することと、
目標後期残響パワーに減衰させるために、後期残響による推定される寄与の時間tiを決定することと、
ポーズ長を計算することと、ここにおいて、ポーズ長は時間tiを使用して計算される、
計算された長さを有するポーズを、音声入力によって受信された音声に第1の位置で挿入することと、ここにおいて、第1の位置の後にその一部が続く、
を備える方法が提供される。
別の例によれば、コンピュータに、
音声入力によって受信された音声の一部を抽出することと、
その一部のパワーを計算することと、
残響時の、後期残響による、音声の一部のパワーへの寄与を推定することと、
目標後期残響パワーを計算することと、
目標後期残響パワーに減衰させるために、後期残響による推定される寄与の時間tiを決定することと、
ポーズ長を計算することと、ここにおいて、ポーズ長は時間tiを使用して計算される、
計算された長さを有するポーズを、音声入力によって受信された音声に第1の位置で挿入することと、ここにおいて、第1の位置の後にその一部が続く、
を備える、音声を向上させる方法を実行させるように構成されたコンピュータ可読コードを備える搬送媒体が提供される。
音声入力によって受信された音声の一部を抽出することと、
その一部のパワーを計算することと、
残響時の、後期残響による、音声の一部のパワーへの寄与を推定することと、
目標後期残響パワーを計算することと、
目標後期残響パワーに減衰させるために、後期残響による推定される寄与の時間tiを決定することと、
ポーズ長を計算することと、ここにおいて、ポーズ長は時間tiを使用して計算される、
計算された長さを有するポーズを、音声入力によって受信された音声に第1の位置で挿入することと、ここにおいて、第1の位置の後にその一部が続く、
を備える、音声を向上させる方法を実行させるように構成されたコンピュータ可読コードを備える搬送媒体が提供される。
図1は、ある実施形態による、音声明瞭度向上システム1の概略図である。
システム1は、入力音声を受け取って、その明瞭度を向上させるために音声を向上させるプログラム5を備える、プロセッサ3を備える。ストレージ7は、プログラム5によって使用されるデータを記憶する。
システム1は、入力モジュール11および出力モジュール13をさらに備える。入力モジュール11は、向上されるべき音声に関するデータの音声入力15に接続される。入力15は、ユーザがデータを直接入力することを可能にするインターフェースであり得る。あるいは、入力は、外部ストレージ媒体またはネットワークからデータを受信するための受信機であり得る。入力15は、たとえば、マイクロフォンからデータを受信し得る。入力音声信号は、音響、アナログ、またはデジタルであり得、たとえば自然音声または合成音声が記録され得る。
出力モジュール13には、音声出力17が接続されている。出力17は、たとえば話者でもよく、データを送信するための送信機でもよい。
使用時には、システム1は、入力15を通じてデータを受信する。プロセッサ3上で実行されるプログラム5は、図2〜図7を参照して説明する方法で入力された音声を向上させる。次いで、向上された音声が出力モジュール13を通じて出力される。
システムは、記録された自然音声、または、たとえばテキスト読上げシステムによって生成された合成音声に対してポーズ挿入を実現する。
図2は、ある実施形態による、音声を向上させる方法のフローチャートを示す。ある実施形態では、プロセッサ3は、この方法を実行するように構成される。
ステップS101において、音声信号xが音声入力15によって受信される。ステップS101は、「入力音声信号をバッファする」である。このステップにおいて、入力音声信号はストレージ7に記憶され得る。入力音声信号が記憶されるので、ポーズが信号に挿入され、これが出力を「中断」する場合、連続的に入力された音声信号が処理および出力されるまで記憶され得る。
音声入力によって受信された音声信号xの一部xiが処理のために抽出される。iはその一部のインデックスを表す。
ある実施形態では、一部xiは、単語の少なくとも第1の部分である。この場合、iは単語インデックスを表す。この場合、一部を抽出するためには、単語の境界が最初に音声信号内に配置されなければならない。さらなる実施形態では、一部は、単語内の第1の音素の左側の文脈から開始し、単語内の第2の音素の右側の文脈で終了し得る。この場合、一部を抽出するために、単語内の音素の開始および終了が、最初に音声信号内に配置されなければならない。
S102は、分割情報を決定することを備える。分割情報は、単語境界を備え得る。たとえば、分割情報は、個々のトライフォンサウンドモデル(tri-phone sound models)の開始位置および終了位置を備え得る。この場合、各トライフォンは、アラインメント情報が音声信号内の開始位置および終了位置を示す、一連の状態によって表される。
ある実施形態では、音声信号xは、単語のシーケンスである文を備え得、文全体のための分割情報が1ステップで決定される。次いで、文中の各部分が順次抽出され、ステップS104以降において処理される。したがって、分割情報は、文ごとに1回決定され得、文中の各部分は、記憶された分割情報を使用して順次抽出され得る。
ステップS102において、単語分割情報は、音声入力15によって受信された音声xに対応するテキストuxを使用して決定される。テキストuxは、音声信号xとは別個に音声明瞭度向上システム1に入力され得、たとえば、テキスト入力モジュールに接続されたテキスト入力を通じて入力され得る。テキスト入力は、キーボードなどの、ユーザがテキストデータを直接入力することを可能にするインターフェースであり得る。あるいは、入力は、外部ストレージ媒体またはネットワークからテキストデータを受信するための受信機であり得る。
ある実施形態では、事前トレーニングされたガウス混合モデル隠れマルコフモデル(GMM−HMM)を使用した強制的なアラインメントは、テキストuxおよび音声信号xから分割情報を決定する。強制的なアラインメントは、音声信号から抽出されたフレームを、音素の異なる部分を表す音響モデルにマッチさせる。音響モデルはGMMとして実装され、入力テキストを考慮してモデルのシーケンスが識別される。強制的なアラインメントは、たとえばモノフォンまたはトライフォンモデルを使用して実行され得る。両方の場合において、音素状態は、3つの音響モデルのシーケンスによって表される。トライフォンを使用する場合、状態は左文脈、中央状態、および右文脈と呼ばれる。各トライフォン状態は、音声信号内の複数のフレームに対応し得る。トレーニングデータから推測された隣接状態間の遷移確率は、GMM−HMMモデルを完成させる。
ある実施形態では、たとえば、HTKに基づいて実装された、事前トレーニングされたGMM−HMM自動音声認識(ASR)エンジンからのモジュールを使用することによって、強制的なアラインメントが達成される。HMMはトレーニング音声コーパス(training speech corpus)を使用してトレーニングされる。ASRエンジンは、それぞれが音素に対応する音響モデルのセットと、関連付けられる遷移確率とを備える。モデルパラメータは、テキストトランスクリプションを含む音声コーパスを使用してトレーニングされる。ASRエンジンのトレーニングおよび検証は、明瞭度向上システムを導入する前に実行される。
システムが導入されると、すなわちシステムの使用時には、入力15およびテキストuxからの音声信号がASRエンジンコンポーネントによって処理される。重なり合ったフレームは音声信号から抽出される。強制的なアラインメントは、知られている音声シーケンスの事後確率を最大にするフレームとモデル間の割振りを識別することによって達成される。これは、信号フレームから特徴ベクトルを抽出し、音声トランスクリプションによって決定された音響モデルを与えられた特徴ベクトルの尤度を計算することを含む。その結果、音声信号から抽出された重なり合うフレームは特定の音響モデルに割り当てられ、次に、音素サブステートごとに、すなわち左文脈、中央状態、および右文脈に、開始および終了タイムスタンプを提供する。これが分割情報である。
音声明瞭度向上システム1は、たとえば、テキスト読上げシステムと組み合わせて動作し得る。そのようなシステムは、テキスト入力と、テキスト入力で入力されたテキストuxから音声信号xを生成して出力するように構成されたテキスト読上げモジュールとを備える。次いで、テキスト読上げモジュールから出力された音声信号xは、音声明瞭度向上システムの音声入力15に入力される。分割情報は、音声合成処理の一部として生成される。その結果、合成音声を修正する場合に強制的なアラインメントが適用される必要はない。
あるいは、音声信号xに対応するテキストuxは、たとえばASRを使用して、音声信号x自体から抽出され得る。テキストuxを抽出するために音声信号が使用されると、次いで分割情報がASR出力から直接取得される。
上述のように、ASRエンジンはHTKベースであり、音声コーパス上で事前トレーニングされたGMM−HMMを備え得る。あるいは、健全な分割情報を生成するために、DNN−HMMベースのシステムが使用され得る。この目的のために、KALDIベースのシステムが使用され得る。
システムが導入されると、すなわちシステムの使用時には、入力15からの音声信号がASRエンジンによって処理される。ある実施形態では、長さ25ミリ秒の重なり合うフレームから毎秒100フレームのレートで特徴ベクトルが抽出される。適切な言語モデルを使用して、事前トレーニングされたHMMおよび特徴ベクトルを使用する最も可能性の高い単語のシーケンスが識別される。状態レベルでの音素分割情報は、認識処理の結果として取得される。
正確な分割情報を取得することは、たとえば1つの音を2つに分割することによって引き起こされる可能性があるアーティファクトを減少させる。たとえば、テキスト読上げシステムによって生成された音声などの合成音声を音声入力として使用することは、強制的なアラインメントによる単語分割が使用されないことを意味し、したがってアーティファクトの導入が回避される。
S102の出力は、分割情報である。
ステップS103において、残響時の音声信号の後期残響に対するモデル信号
が生成される。
残響は、特定の環境のインパルス応答と音声信号との間の畳み込みとしてモデル化され得る。インパルス応答は、直接経路、初期反射、および後期残響の3つの成分に分割される。したがって、残響は、初期反射と後期残響の2つの成分を備える。
初期反射は高出力であり、空間の形状に依存し、個々に識別可能である。初期反射は、直接音の後、たとえば50ミリ秒などの短期間内に到来し、室内インパルス応答(RIR)を調べるときに容易に区別可能である。初期反射はホールの形状、ならびに話者および聞き手の位置に依存する。初期反射は明瞭度には有害ではないと考えられ、実際に明瞭度を向上させることができる。
後期残響は、反射の数が多く、音響経路が長いため、性質上拡散している。後期残響は、初期反射後に到来する反射の寄与である。個々の反射を識別することは、それらの数が増加する一方、それらの大きさが減少するため、困難である。後期残響は、初期反射よりも多くの回数反射し、大きさが減少する多数の反射を備える、遅延され減衰された複製から構成される。これは、隣接する音の間のマスキングによる明瞭度の低下の主な要因である。これは、列車の駅やスタジアム、大規模な工場、コンサートホールや講堂などの場所での通信に関連している可能性がある。後期残響は、音声信号中の異なる音の間のマスキングの主な原因であるため、明瞭度に対してより有害であると考えられる。
RIRにおける初期反射と後期残響との間の境界tlは、別個の反射が拡散混合物に変わる点である。tlの値は環境の特性である。ある実施形態では、tlは、直接経路、すなわち直接音に続く音の到着後、50〜100ミリ秒の範囲内にある。直接音が到着してからt1秒後、個々の反射は区別できなくなる。
一実施形態では、特定のホールの音響を再現するために、後期残響は正確にモデル化され得る。代替の実施形態では、目的が後期残響のパワー推定であるため、後期残響によるマスキングパワーに近似するより単純なモデルが使用され得る。後期残響パワーを予測するために、統計モデルが使用され得る。
ある実施形態では、インパルス応答の後期残響部分は、指数関数的に減衰するエンベロープを有するパルス列としてモデル化される。ある実施形態では、後期残響による寄与をモデル化するためにベルベットノイズ(Velvet Noise)モデルが使用され得る。
図3は、後期残響信号をモデリングするためのベルベットノイズモデルの使用に関する3つのプロットを示す。
第1のプロットは、20m×30m×8mに固定された寸法を有するホールである例示的な音響環境を示し、寸法はそれぞれ幅、長さ、および高さである。縦軸に長さ、横軸に幅が示されている。話者および聞き手の位置は、それぞれ{10m,5m,3m}および{10m,25m,1.8m}である。これらの値は、第2のプロットでRIRを例示するために使用されるモデルRIRを生成するために使用される。後期残響パワーモデリングでは、話者と聞き手の特定の位置は使用されない。
第2のプロットは室内インパルス応答を示し、伝播遅延と減衰が直接音に正規化される。時間は横軸に秒単位で表示されている。ここに示される正規化された室内インパルス応答は、意図された音響環境の知識に基づくモデルRIRであり、これは第1のプロットに示されている。応答は、第1のプロットに示されたホールの寸法と目標RT60が与えられている場合、画像ソース法で生成される。残響時間RT60は、後期残響パワーが直接音のパワーを60dB下回って減衰するために要する時間であり、また環境の特性でもある。応答を生成するために話者と聞き手の特定の位置は使用されない。
ある実施形態では、室内インパルス応答が測定され得、この測定から境界t1および残響時間RT60の値が得られ得る。
第3のプロットは、第2のプロットと同じ正規化された室内インパルス応答、ならびにRIRの後期残響部分のパルス列モデルの一部を示す。
後期残響のモデルは、後期残響のパワーが時間にともなって指数関数的に減衰するという仮定に基づく。ベルベットノイズモデルのフレームワークを使用して適切な密度のパルス列が生成され、減衰関数で振幅変調される。
後期残響室内インパルス応答モデルは、パルス列ι[k]とエンベロープe[k]との積として得られる。
上式で、e[k]は以下の式(3)で与えられ、ι[k]は以下の式(2)で与えられる。
上式で、a[m]は値+1または−1のランダムに生成された符号であり、rnd(m)は0と1の間に均等に分布する乱数であり、「round」は整数への丸めを表し、Tdはパルス間の平均時間(秒)であり、Tsはサンプリング間隔である。uは単位の大きさのパルスを示す。このパルス列はベルベットノイズモデルである。
ある実施形態では、後期残響パルス列がスケーリングされる。変調されたパルス列のエネルギーは、たとえば、測定値から計算されたRIRの後期残響部分のエネルギーに等しくされる。パルス密度Tdの初期値が選択される。ある実施形態では、2000パルス/秒を超える初期値が使用される。ある実施形態では、4000パルス/秒の初期値が使用される。パルス密度は、スケーリングステップの前に決定される。次いで、そのエネルギーが後期残響に対応する測定されたRIRの一部と同じであることを保証するために、RIRの後期残響部分の生成されたパルス列モデルがスケーリングされる。音響環境のためのRIRの記録は、後期残響パルス列をスケーリングするために使用され得る。話者と聞き手がどこにいるかは記録にとって重要ではない。t1およびRT60の値が記録から決定され得る。t1後のRIRの一部のエネルギーも測定される。エネルギーは、点t1後のRIRにおける値の二乗の和として計算される。次いで、後期残響パルス列の振幅が、後期残響パルス列のエネルギーがRIRから計算されたエネルギーと同じになるようにスケーリングされる。
記録されたRIRは、それが目標環境からのものであれば、スケーリングステップのために使用され得る。あるいは、モデルRIRが使用され得る。
離散化されたエンベロープは、以下によって与えられる。
この関係により、直接経路の到着に対応する最初のインスタントt=0と、残響時間RT60インスタントとの間の60dBのパワー減衰が保証される。fsはサンプリング周波数であり、
である。
後期残響のモデルは、(3)で与えられた形式の減衰関数で振幅変調される、適切な密度のパルス列としての後期残響に対応するRIRの一部を表す。具体的には、減衰関数は、パルスの符号がランダムに変化する振幅エンベロープを変調する。このモデルは、時間にともなう後期残響パワーの指数関数的減衰を仮定し、周波数上で定数RT60が使用される。
後期残響信号
への近似は、変調されたパルス列
と出力信号yとの畳み込みによって与えられる。
上式で、
は、(1)で与えられた後期残響室内インパルス応答モデル、すなわち、人工的なパルス列ベースのインパルス応答である。
式(3)から、k=0において、e(t)=1は直接経路の減衰がないことを意味し、これは参照として使用される。k=RT60/Tsにおいて、e(t)=10-3であり、これはパワー領域において−60dBに対応する。
y[k−tlfs−n]は、出力「バッファ」内の点、すなわち音声信号の前のセクションに対応するすでに修正された音声信号に対応する。t1以降の
の畳み込みと出力バッファからの信号履歴は、後期残響信号のサンプルまたはモデル実現を与える。
サンプルベースの後期残響モデル信号
は、パラメータkの値の範囲を考慮することによって
から得られる。ステップS103から信号
が出力される。
ある実施形態では、S102で決定された分割情報は、一部の限界を識別するために使用され、信号の一部に対応する後期残響信号が計算される。この場合の後期残響信号は、音声信号の一部と時間的に一致する、出力された音声信号の前のセクションの後期残響に対応する。
これは、一部の始まりを上記の式(5)の時間インデックスk=0に関連付けることによって計算される。次いで、その一部内のkの値ごとに
の値が決定され、値
のセットが得られ、各値は、その一部内のkの値に対応する。これらの値は、その一部のモデル後期残響信号、すなわち音声信号の一部と時間的に一致する出力された音声信号の前のセクションの後期残響を形成する。後期残響モデル信号は、後期残響による入力音声信号の一部への寄与である。
ステップS104において、一部の限界を識別するために分割情報が使用され、一部xiが音声信号から抽出される。次いで、音声信号xiの一部のパワーxiが計算される。xiは、その一部に対応する測定ウインドウ内の波形xiの信号パワーを示す。
たとえば、一部は、単語全体、または単語の第1の音の遷移、あるいは単語の開始時の固定時間セグメントまたはウインドウであり得る。たとえば、一部は単語の第1の128ミリ秒であり得る。実際には、単語における第1の音の遷移は、第1の音素の左側の文脈から開始し、第2の音素の右側の文脈で終わる6つの状態に対応する最初の2つの音の長さであり得る。あるいは、第2の音素の左の文脈で終わる一部であり得る。単一音素の単語の場合、3つの状態のみが考慮される。
次いで、後期残響パワーを評価するために、S103で決定された後期残響信号が使用される。後期残響パワーは、明瞭度に悪影響を与えると考えられる。残響時の音声の一部のパワーに対する後期残響による寄与は、後期残響信号
から推定される。残響時の音声の一部のパワーに対する後期残響による寄与
は、単純にモデル後期残響信号
のパワーである。このステップにおいて、ポーズ挿入の前の部分のウインドウに対する後期残響パワー
の推定値が、後期残響信号
から計算される。
ある実施形態では、後期残響パワーを推定するために複数の周波数帯域における入力音声信号の一部のパワー分布が使用され得る。その一部のパワーのあらかじめ定められた割合に対応する最も高い周波数帯域に対応する周波数帯域が決定され、これらの周波数帯域のそれぞれにおける後期残響信号のパワーの割合が計算される。この場合、残響時の音声の一部のパワーに対する後期残響による寄与は、これらの周波数帯域のそれぞれにおける後期残響信号のパワーの合計である。
あるいは、残響時の音声の一部のパワーに対する後期残響による寄与
は、たとえば、前の音声セグメントのパワーの指数加重として計算され得る。
したがって、ステップS104から値
およびxiが出力される。
S106において、ポーズ長が計算される。
記述された音声修正の方法は、計算された長さを有するポーズを、音声入力によって受信された音声に第1の位置で挿入することを含み、ここにおいて、第1の位置の後にその一部が続く。したがって、部分ごとに、S106においてポーズ長が計算され、次いで、計算された長さを有するポーズが、その後に部分が続く音声信号内の位置に挿入される。いくつかの位置については、計算されたポーズ長は0であり得る。これらの位置では、ポーズは挿入されず、または同等に0秒の長さを有するポーズが挿入される。
S106は、目標後期残響パワーを計算することと、ここにおいて、目標後期残響パワーは、一部xiのパワーを使用して計算され、目標後期残響パワーに減衰させるために、後期残響による推定される寄与の時間tiを決定することとを備える。次いで、時間tiを使用してポーズ長が計算される。
時間tiは、時間にともなう後期残響パワーの減少を指数関数的減衰関数としてモデル化することによって計算される。ある実施形態では、時間tiを計算することは、後期残響による推定される寄与で除算された目標後期残響パワーの対数を計算することと、減衰時間を与えるために、残響時間を使用してこの計算値をスケーリングすることとを備え、ここにおいて、時間tiは減衰時間値および0の最大値として計算される。
ある実施形態では、目標後期残響パワーは、目標信号対後期残響比(SLRR)基準から決定され、音声信号の一部が測定ウインドウを決定する。
ある実施形態では、目標後期残響パワーは、以下のとおりである。
上式で、ξは目標SLRRを示し、xiは波形xiの信号パワーを示し、それは、たとえば単語iの最初の2つの音を含み得る。
時間にともなう後期残響パワーの指数関数的減衰を仮定すると、減衰時間値は次のようになる。
上式で、liは、xiに対応する時間ウインドウに対する後期残響パワーである。
目標後期残響パワー
に減衰させるために、後期残響liによる推定される寄与の時間tiは、指数関数的減衰の単純なモデルから計算される。
これは、名目上のポーズ長である。減衰時間値および0の最大値をとることは、
のローカル時間スケールを保持する。
ξの値は、ユーザによって選択され得る。ある実施形態では、ξは−3dBである。明瞭度への初期反射の寄与は、ξの値に含まれ得る。初期反射は明瞭度に好影響を与えるので、初期反射からのパワー寄与を推定することによって、対応してξのより低い値が使用され得る。平均調整が使用され得る。たとえば、明瞭性のために許容可能であるように直接経路と後期残響との間の0dBのSLRRが選択され、初期反射が特定の領域に対して追加の3dBブーストを与えると推定される場合、ξの値は−3dBとして設定される。
ある実施形態では、ポーズ長は単に時間tiである。
代替の実施形態では、ポーズ長は、時間tiおよびポーズ強度値を使用して計算される。ポーズ強度はステップS105において計算される。ポーズ長は、ポーズ強度と、後期残響が目標後期残響パワーによって表される特定のレベルまで減衰するのに要する時間との関数として決定される。この方法では、tiは目標SLRRが達成されるように決定された、名目上のポーズ長である。たとえば、tiは、最初の、すなわち単語の完全な第1の音の遷移と、それに対応する後期残響パワーとの間に、目標SLRRが達成されるように決定される。次いで、最終ポーズ長を与えるために、これがポーズ強度値と組み合わされる。2つの要因の共同効果によって有効なポーズ長が決定され、強度が増し、残響時間が長くなると、ポーズ長が長くなる。
ある実施形態では、ポーズ強度値が第1の位置で特定され、ここにおいて、第1の位置の後にその一部が続く。
ある実施形態では、ポーズ強度は文の単語境界で識別される。ポーズ強度値が、1ステップで文中のすべての単語境界について識別され得、次に記憶されたポーズ強度を使用して文中の位置ごとにポーズ長が計算され得る。
ある実施形態では、ポーズ強度評価は、図4に示される多段階アーキテクチャを使用してテキストから実行される。ポーズ長を修正するこの方法によって、言語的文脈および音響環境に適応することが可能になる。したがって、ポーズ長の計算は、たとえばポーズ強度のレベルを示す0以上および1以下の数値を提供することによって、ポーズ強度の連続的な指標を使用する。
図4は、ある実施形態による音声向上方法の一部である、ポーズ強度を計算する方法のフローチャートである。ポーズ強度を計算する方法は、音声入力によって受信された音声に対応するテキストuxの文中の各単語境界にポーズを挿入し、この値をポーズ強度値にマッピングするための適合性の測定を決定することを備える。
ある実施形態では、ポーズ強度を決定することは、音声入力によって受信された音声に対応するテキストから、各単語境界がテキスト内の韻律的区切りに対応するかどうかを決定することを備える。これはステップS401において決定される。この実施形態では、機械学習アルゴリズムを使用した自然言語処理を使用して、入力がuxであることにより、適合性の測定、したがってポーズ強度が得られる。
ステップ401は、初期テキスト前処理および韻律チャンク予測である。このステップは、テキスト解析であるステップS401aと、テキスト正規化であるステップS401bと、韻律チャンク予測であるステップS401cとを備える。テキスト前処理、すなわち、このステップで実行されるテキスト解析およびテキスト正規化は、たとえば、トレーニングされたテキスト読上げシステムによって実行され得る。
ステップS401a「テキスト解析」は、入力テキストを複数の文が存在する文に分割することを備え得る。テキスト解析はまた、文をトークンに分割することを備え得、次いでそれらのトークンは記憶された辞書で検索される。辞書にない単語については、語彙情報が予測され得る。次いで、文はタグ付けされ解析された品詞であり得る。
ステップS401bにおいて、テキストが正規化される。これは、数字の拡大、略語等が含まれる。
ステップS401cにおいて、韻律チャンク予測が実行される。ある実施形態では、韻律チャンク予測は、テキスト読上げコーパス上でトレーニングされた決定木モデル(decision tree model)を使用して実行される。本モデルは、たとえば、TTSコーパス上でトレーニングされ得る。ある実施形態では、コーパスはトーンおよび区切りインデックス(ToBI)でラベル付けされる。コーパスは、たとえば手動でラベル付けされてもよく、自動的にラベル付けされてもよい。
ToBI注釈は、区切り層注釈(break tier annotation)に、隣接単語間の結合の減少および韻律句境界強度の増加に対応する0〜4の5つの基本レベルを有する。レベル0、1、および2は「非区切り」、すなわち韻律句境界なしでグループ化され、レベル3および4は単一の区切りレベルに統合され、「区切り」、すなわち韻律句境界と見なされる。
決定木は、テキストから導出された特徴およびその解析を使用して韻律的区切りをテキストに割り当てるようにトレーニングされる。ステップS401aにおいて、決定木モデルは、文中の単語接合点または境界ごとに関連する韻律タグを予測する。韻律タグは、各単語接合点で「区切り」または「区切りなし」のいずれかである。「区切り」の場合、ToBI区切りレベル3と4は1つの「区切り」タグとして統合され、したがって単語接合点における句の存在を識別するが、その強度は識別しない。したがって、文中の各単語接合点または単語境界ごとに韻律的区切りの有無が予測される。韻律チャンクは入力特徴として使用されるが、ポーズの最終シーケンスは韻律チャンク境界に限定されない。
各単語境界に対応する第1のパラメータには、単語境界が韻律的区切りに対応しない場合は0の値が割り振られ、韻律区切りに対応する場合は0より大きいあらかじめ定められた値が割り振られる。
ある実施形態では、あらかじめ定められた値は0.5である。この実施形態では、文中の単語境界ごとに、その境界が韻律的区切りに対応するかどうかに応じて、0または0.5のいずれかの対応する第1のパラメータが割り振られる。
S402において、第1のパラメータから、文中の単語境界にポーズを挿入するための適合性の測定が決定される。ある実施形態では、適合性の測定が第1のパラメータである。
代替の実施形態では、適合性の測定を決定することは、音声入力によって受信された音声に対応するテキストから、文中の各単語が1つまたは複数の条件を備えるあらかじめ定められたセットから1つまたは複数の条件を満たすかどうかを決定することと、ここにおいて、条件は、ステップS402aにおいて、テキストの特徴に関連し、セット内の各条件に対応するさらなるパラメータに値を割り振ることとを備え、ここにおいて、ステップS402bにおいて、単語が条件を満たさない場合に割り振られる値は0であり、単語が条件を満たす場合に割り振られる値は0以外のあらかじめ定められた値である。
この実施形態では、予測性能を改善するために、機械学習アルゴリズムがルールベースの方法と組み合わされる。ポーズ強度予測のための多段階手法が使用される。第1の段階では、韻律チャンク境界の位置は決定木によって予測され、第2の段階はこれらの境界をスコアリングアルゴリズムにおいて他の特徴と組み合わせる。
文中の単語ごとに、それぞれが割り振られた値を有する1つまたは複数のさらなるパラメータのセットが生成され、各さらなるパラメータは、セット内の条件に対応する。さらなるパラメータごとに割り振られた値は、条件が単語に対して満たされるかどうかに応じて、0または0以外のあらかじめ定められた値である。あらかじめ定められた値は、条件に依存する0と最大値との間の値の範囲のうちの1つであり得る。
最初のトレーニング段階の間に、対応する条件が満たされたときに各パラメータに割り振られる値を生成するために、複数の音声コーパスからの観測を含む開発データセットが使用され得る。たとえば、これらの値を決定するために、開発データにおける発生頻度が使用され得る。条件のセットと対応する値はシステムに記憶される。これらの値はあらかじめ決められた値である。
あらかじめ定められた値は、正でもよく、負でもよい。負のあらかじめ定められた値は、ある位置の適合性の測定を減少させる。ポーズ挿入のための特定の条件が満たされていないことを反映するために、負のあらかじめ定められた値が生成される。
セット内の条件は、たとえば「名詞」である単語の品詞などのテキストの単一の特徴に関連してもよく、または、たとえば、「名詞」である単語の品詞と「名詞句」である単語の構文的役割との両方の、テキストの特徴の組合せに関連してもよい。
条件の例示的なセット、および各条件に対応するあらかじめ定められた値が以下の表1に示される。しかしながら、条件セットおよび値の多くの変形形態が可能である。
次いで、ステップS402bにおいて、第1のパラメータの値は、単語境界に続く単語のさらなるパラメータのための割り振られた値と組み合わされる。ある実施形態では、第1のパラメータの値およびさらなるパラメータが合計される。第1のパラメータとさらなるパラメータ値との加重和がとられ得る。たとえば、重みは、出力値が第1パラメータの値とさらなるパラメータのための割り振られた値の平均である場合のパラメータの数であり得る。出力値は、単語が続く位置にポーズを挿入するための適合性の測定である。
ある実施形態では、出力値は、0以上および1以下の範囲に制限される。これは、次のさらなるパラメータの値で適合性の測定を増強する前に、適合性の測定の現在の値を調べることによって実施され得る。したがって、適合性の測定は、次の条件の各さらなるパラメータの値によってのみ増強される。1)単語が条件を満たす。および、2)条件が負のあらかじめ定められた値に対応する場合、適合性の測定の現在の値は0より大きく、条件が正のあらかじめ定められた値に対応する場合、適合性の測定の現在の値は1未満である。言い換えれば、適合性の測定は、各さらなるパラメータ値が割り振られた後も連続的に更新される。
このステップは、各単語の前の位置にポーズを挿入するための適合性を反映する連続値のスコアを出力する。スコアは、単語境界にポーズを挿入するための適合性の測定である。
したがって、特徴に関する条件は、所与の単語の前にポーズを挿入するための適合性を決定する単語ごとにスコアを生成するために使用される。適合性の測定は、個々の特性または特性の組合せについてスコアリングシステムで定義されたさらなるパラメータの値に基づく。単語が多数の非0のさらなるパラメータ値によって表される場合、それはより高いスコアをもたらし、そうでない場合、より低いスコアを受信する。
したがって、S402bの出力は、文中の単語が続く各位置にポーズを挿入するための適合性の測定を備える。したがって、S402bにおいて、韻律チャンク境界は、スコアリングアルゴリズムにおいて他の特徴と組み合わされ、ポーズを挿入するための適合性を反映する連続値スコアを出力する。この場合、適合性の測定は韻律境界予測によって影響を受けるが、韻律チャンク境界として予測されない位置では非0値もあり得る。したがって、この方法は、予測される韻律チャンク境界の位置でのポーズ挿入のみに限定されない。
このステップにおいて、韻律チャンクと特徴に関連する追加の条件とがスコアリングシステムにおいて組み合わされる。単一の特徴または特徴の組合せに関連し得る追加の条件は、ポーズの有無へのそれらの相対的な寄与に従ってスコア付けされる。スコアリングの結果は、入力文中の各単語の前にポーズを挿入するための適合性の測定を表す、たとえば0と1の間の数値である。
ある実施形態では、ステップS402cにおいて、以下のような極端なイベントを防止するために、ポーズシーケンス評価モジュールにおいて、ポーズ強度およびポーズ長を計算する前に、スコアが再評価される。i)複数の連続ポーズ、および/または、ii)たとえば、長い単語シーケンスにおけるポーズの不在。したがって、この実施形態では、ステップS402bにおいて出力される値は、適合性の測定の初期値である。次いで、ポーズシーケンス評価ステップは、これらの値から適合性の最終的な測定を生成する。
シーケンス評価ステップは、しきい値を与えられた予測されたポーズのシーケンスを再評価し、ポーズの削除または挿入をもたらし得る適合性の測定を修正し得る。再評価された値は、適合性の測定の最終値である。このステップは、所与の文中の単語接合点ごとに適合性値の測定を出力する。しきい値は、ユーザによって定義され得る。
ある実施形態では、S402cは、文が、単語が続く位置にポーズを挿入するための適合性の測定が、ユーザ定義の第1のしきい値よりも大きい、2つ以上の隣接単語のシーケンスを備えるかどうかを決定することと、そのようなシーケンスがある場合、そのシーケンスの適合性の測定を再評価することとを備える。適合性の測定を再評価することは、シーケンス内の適合性の測定の値を比較することと、ポーズのうちの1つまたは複数を、その位置の適合性の測定をユーザ定義の第1のしきい値を下回るように減少させることによって「削除する」か、または適合性の測定の元の値を保持することによって維持するかを決定するために、適合性値の測定間の差、適合性値の測定とユーザ定義の第1のしきい値との間の差、および各単語がテキストの特徴に関する1つまたは複数の条件を満たすかどうかを使用することとを備え得る。一般に、再評価することは、位置のうちの1つまたは複数に対する適合性の測定を減少させることを備え得る。
ある実施形態では、S402cは、文が、単語が続く位置にポーズを挿入するための適合性の測定が、ユーザ定義の第2のしきい値未満である、隣接単語のシーケンスを備えるかどうかを決定することと、そのようなシーケンスがある場合、そのシーケンスの適合性の測定を再評価することとをさらに備える。シーケンスは、たとえば、6つ以上の単語のシーケンスであり得る。適合性の測定を再評価することは、適合性の測定の値を比較することと、ポーズのうちの1つまたは複数を、その位置の適合性の測定をユーザ定義の第1のしきい値を上回るように増加することによって「追加する」か、または適合性の測定の元の値を保持することによって追加しないかを決定するために、適合性値の測定間の差、適合性値の測定とユーザ定義の第1のしきい値との間の差、および各単語がテキストの特徴に関する1つまたは複数の条件を満たすかどうかを使用することとを備え得る。再評価とは、しきい値に近い適合性の測定が増加される可能性がより高いことを意味する。一般に、再評価することは、位置のうちの1つまたは複数に対する適合性の測定を増加することを備え得る。
いずれかまたは両方のタイプの再評価が実行され得る。第1および第2のしきい値は、ユーザによって定義され、同じ値でもよく異なる値でもよい。ある実施形態では、第1および第2のしきい値は0.95である。第1および第2のしきい値は、音声コーパスのための聞き手の一団によって判断される知覚的歪みを最小化することによって決定され得る。適合性値の測定と、ポーズ挿入またはポーズ削除とをもたらすユーザ定義のしきい値との間の差もまた、たとえば評価音声コーパスによってユーザによって定義され得る。ある実施形態では、ユーザはしきい値を変更することができ、ポーズ挿入率の変更を可能にする。
この再評価ステップの出力はIで表され、これは、文中の単語境界ごとの適合性の測定の最終値のセットであり、I∈[0,1]である。
最後に、ステップS403において、Iの各値がポーズ強度値ωにマッピングされ、ポーズ強度値{ω1,...,ωn}のセットを出力し、それぞれが文中の単語境界に対応し、ω∈[0,1]である。
ポーズ強度は、Iに特定のマッピングを適用することによって異なるフォーマットで取得され得る。ある実施形態では、ポーズ強度値は、適合性の測定の単調増加関数から計算される。
図5は、適合性の測定を使用してポーズ強度値を計算するために使用され得るいくつかの例示的な関数を示す。適合性の測定は横軸に示され、ポーズ強度が縦軸に示されている。
第1の関数は破線で示され、第3のしきい値Ibに基づいてバイナリ強度ポーズをもたらす。
ある実施形態では、Ibは0.25である。Ibは、トレーニング段階中に決定されてもよく、たとえばユーザによって選択されてもよい。
第2の関数は実線で示され、しきい値Ibを超えて拡大する連続強度ポーズをもたらす。
連続ポーズ強度を使用することによって、ポーズ長の柔軟な調整が可能になる。
一般に、ポーズ強度値を計算することは、適合性の測定がIb未満であるときに0のポーズ強度値を割り当てることと、適合性の測定がIb以上であるときに適合性の測定値の単調増加関数からポーズ強度値を計算することとを備え得る。
Ibの使用はポーズ挿入率を減少させ、トレーニングデータ内のノイズによって引き起こされる偽ポーズのうちのいくつかを排除する。
ステップS105の出力は、第1の位置と呼ばれ得る、その一部が続く位置のポーズ強度の値を備える。ある実施形態では、S105は、文ごとに1回だけ実行され、ステップS105の出力は、文中の単語境界ごとのポーズ強度の値のセットであり得る。したがって、S105は、たとえば、第1の部分が処理されるときに文全体について1回実行される。
次いで、S106において、第1の位置に対するポーズ長
が、
から計算され、上式で、ωiは、たとえば、(9)または(10)から計算され得るポーズ強度であり、tiは、先行する音声信号によって生成された後期残響パワーが特定のレベルに低下するために要する時間であり、目標後期残響パワーであり、たとえば(8)から計算され得る。
したがって、ポーズ強度ωi、li、ξ、およびその部分の時間ウインドウに対する信号パワーxiが与えられると、有効なポーズ長
が計算される。
ポーズ強度を通じて言語的側面を考慮することによって、結果的にポーズ長が音声信号の自然で有効な中断につながる。計算されたポーズ長は、言語的文脈および環境の特性に適応する。
S107において、計算された長さを有するポーズが、音声入力によって受信された音声に第1の位置で挿入され、ここにおいて、第1の位置の後にその一部が続く。第1の位置は、たとえば単語境界に対応する。
処理された文中の単語境界うちのいくつかについて、たとえばポーズ強度値が0である場合、またはIb未満である場合、あるいは残響がほとんどまたはまったくない場合、計算されたポーズ長は0である。これらの位置では、ポーズは挿入されず、または同等に0秒の長さを有するポーズが挿入される。
したがって、割り当てられたポーズは、単語が続く出力信号yの後に挿入される。処理は次の単語で続行する。
ある実施形態では、処理は、一度に音声信号の1つの文に対して実行され得る。文ごとに、分割情報を決定するために、および、各単語境界に対応するポーズ強度の値を計算するために、文全体に対応するテキストが処理される。次いで、各単語境界から始まる音声信号の一部が順次抽出され、音声信号の以前に修正されたセクションから、その一部について残響時の音声の後期残響による寄与が推定される。これは、目標後期残響パワーまで減衰させるために、後期残響による推定される寄与の時間tiを計算するために使用される。時間tiおよびポーズ強度は、単語境界のポーズ長を計算するために使用される。次いで、ポーズが音声信号に挿入され、次の単語境界に対応する音声信号の新しい部分が抽出され、処理される。文中の各単語が処理されると、信号内の次の文が識別され、同じ方法で処理される。
図6は、RT60=1.8秒での提示のために前処理された3つの出力波形を示す。第1の波形は自然音声であり、参考として使用される。第2の波形は、式(9)に基づくバイナリポーズ強度(SPbin)が使用される実施形態による音声向上方法によって修正される。第3の波形は、式(10)に基づく連続ポーズ強度(SPcnt)が使用される実施形態による音声向上方法によって修正される。Ib=0.25が使用されている。
RIRを生成したソース画像法を使用して残響がシミュレートされている。仮定されるホールの大きさは20×30×8mであり、話者と聞き手の位置はそれぞれ{10,5,3}および{10,25,1.8}mである。便宜上、伝搬遅延と減衰は直接音に正規化されている。ti=0.05秒の値が仮定されている。目標SLLRξは−10dBに設定され、特定のRIR実現のために直接信号の10dBパワーの利点と後期残響に対する初期反射を反映している。2つの根本的な仮定は次のとおりである。i)後期残響に対する初期反射の完全なパワーの利点が、明瞭度の利得に変換され、ii)直接信号および初期反射の後期残響に対する割合の0dBレベルは、文中のポーズ区切りセグメントの正確な構文解析にとって十分である。
170文以上で測定される平均的な文の長さの増加は、連続強度ポーズの場合は16.9%であり、バイナリ強度ポーズの場合は26%である。すべての文の2%未満は、Ib=0.25を使用してどのようなポーズも割り振られなかった。有効なポーズ長はRT60とともに増加する。残響がない場合、ポーズは挿入されず、または同等に0の長さのポーズが挿入される。
適度な残響条件、およびバイナリポーズ強度と連続ポーズ強度の両方を考慮して、正式なリスニングテストが実行された。客観的および主観的な実験を行うために、テスト文のイギリス英語記録が使用された。表3に示される結果は、未修正の音声に比べて著しく明瞭度が向上していることを示すが、連続ポーズ強度はバイナリポーズ強度に比べてより高い明瞭度の利得を提供する。
表2は、出力波形のために使用される同じテスト文の各単語に先行する連続ポーズ強度およびバイナリポーズ強度を提示する。この例は、連続ポーズ強度を使用する利点を示している。「droop」の前のポーズは、準最適に配置され、バイナリマッピングが使用されるときに完全な強度を受信する。連続強度ポーズ強度マッピングはこのポーズを強調しない。
主観的な評価も実行された。性能を評価するために、ナイーブな、すなわち残響下での明瞭度テストからの以前の経験を持たない、平均年齢24歳の英語を母国語とする12人の話者にリスニングテストが行われた。被験者はいかなる聴覚障害も報告せず、参加に対して支払いがなされた。資料は、Sennheiser HD 558ヘッドホンを使用して、防音ブースで両耳に提示された。表3は、RT60=1.8秒での個々の平均単語認識率を示す。
最初のセッションは、聞き手にタスクとテストインターフェースを慣れさせた、10個の文を備える。各方法には、4つの10個の文のセットのマクロセットが割り当てられた。システムへのマクロセットの割振りおよびシステム提示順序は、聞き手ごとにランダムに選択された。一度文を聞くと、聞き手はその内容を入力するよう促された。単語認識率は、文中のキーワードの総数に対する正しく識別された割合として計算された。平均40文以上のマクロセット全体にわたる個々の認識率を表3に示されている。方法ごとの、すべてのテスト参加者の平均単語認識率および標準エラーが図7に示されている。
結果は、ポーズ挿入が、未修正の音声と比較して明瞭度を著しく向上させ、スチューデントのt検定でp<0.01であることを示す。連続強度ポーズは、著しくより短い平均の長さでバイナリ強度のポーズより高い明瞭度を達成し、バイナリの場合は26%に対し、連続している場合は平均で16.9%の絶対伸びである。
ある実施形態では、出力音声信号に対してさらなる修正が実行される。たとえば、ポーズを挿入し、韻律を保存することは、明瞭度の利得の制限につながる場合がある。したがって、ある実施形態では、韻律修正が実行され得る。韻律修正を伴うポーズ挿入は、自然音声により近い出力音声信号をもたらし、聞き手を混乱させる可能性は低くなり得る。
上述の実施形態では、言語的に動機付けされたポーズを導入することによって、オーバーラップマスキングの効果を低減するために時間スケール修正が採用される。音声信号の文、すなわち文のトランスクリプションに対応するテキストが与えられると、文中の単語境界でポーズ強度が予測され得る。ポーズ長は、ポーズ強度と、目標信号対後期残響比基準が満たされるレベルまで後期残響が減衰するために要する時間とを組み合わせることによって、文中の単語境界ごとに取得される。
明瞭度を向上させるために、音声信号に対応するテキスト、すなわち文のトランスクリプションを使用して、言語的に動機付けされたポーズが挿入される。ポーズ長値は、文中の単語境界ごとに計算される。非0のポーズ長値はポーズ位置に関連付けられ、0の長さのポーズ長値はポーズが配置されない位置である。選択されたポーズの位置は、全体的な短い文の長さを維持しながら、聞き手による文の構文解析を容易にする。ある実施形態では、ポーズ強度はテキストに基づいて単語境界で計算される。後期残響パワーに対する指数関数的減衰のモデルを使用して、目標信号対LR比を達成するために必要な時間分離が、単語の第1の音の遷移について計算される。有効なポーズ長は、あらかじめ定められたSLRRを達成するためのポーズ強度と時間分離との積として得られる。分割情報は、事前トレーニングされたGMM−HMMを使用した強制的なアラインメントによって得られる。
上述の実施形態では、ポーズ挿入は、残響下での音声の明瞭度向上のために使用される。いくつかの実施形態では、言語的文脈および環境の特性の両方を考慮に入れる基準が使用され、柔軟性を提供する。
ある実施形態では、音声明瞭度向上システムは、音声修正の組合せを実行するように構成される。ある実施形態では、ポーズ挿入方法は、適応利得制御と組み合わされる。さらなる実施形態では、ポーズ挿入方法は、適応利得制御および時間伸縮と組み合わされる。プロセッサは、音声入力から受信された音声のフレームを抽出し、非定常性の程度を反映するフレーム重要度の測定を計算し、残響時の音声のフレームパワーに対する後期残響による寄与を推定し、音声入力から受信された音声のフレーム利得を修正するように構成され、ここにおいて、修正量は、フレーム重要度の測定と後期残響による寄与とを使用して計算され、ローカル時間伸縮を適用する。上記のステップは、ポーズ挿入と組み合わせて入力音声信号に対して実行される。言い換えれば、これらのステップは、単語境界が到達されるまでフレームごとに実行される。この時点で、ポーズ長が計算され、ポーズが挿入される。これは、より高い明瞭度の利得、およびより自然に聞こえる音声をもたらす。また、適応利得制御が残響パワーを低減するため、ポーズ長がより短くなる。
音声修正方法は、残響環境における明瞭度向上のための自動ポーズ挿入を提供する。本方法は、自律的な操作と組み合わせて、実現するのが簡単で複雑さが低い。
音声明瞭度向上システムは、列車の駅、待合室および講堂、トンネルおよび屋根付きスタジアムなどの閉鎖空間での館内放送、または、たとえば反射が非常に遅れる(long-delay reflections)開放空間の遠方場の提示に使用され得る。
上述の音声修正方法は、シンセサイザによって生成された音声が言語的文脈および音響環境を考慮に入れたポーズを含むように、TTS領域に適用され得る。
ある実施形態では、プロセッサは、単語境界ごとにポーズ長値を計算するように構成される。これは、ポーズを挿入することが有利である位置、すなわち、非0のポーズ長が計算される位置のみにポーズを挿入することを可能にする。長さは、残響のレベル、ならびに人間が特定の位置にポーズを導入する可能性を反映する。言語的に動機付けされた位置でポーズすると、波形の伸びを小さく維持しながら、歪みが減少し、明瞭度の利得が向上する。
いくつかの構成が記載されているが、これらの構成は単なる一例として提示されたものであり、本発明の範囲を限定することが意図されるものではない。実際、本明細書に記載の装置および方法は、様々な他の形態で実施され得る。さらに、本明細書に記載の装置および方法の形態における様々な省略、置換、および変更が行われ得る。
Claims (20)
- 音声を向上させるための音声明瞭度向上システムであって、前記システムが、
向上されるべき音声を受信するための音声入力と、
前記向上された音声を出力するための向上音声出力と、
前記音声入力によって受信された音声を、前記向上音声出力によって出力される向上された音声に変換するように構成されたプロセッサと
を備え、
前記プロセッサが、
前記音声入力によって受信された前記音声の一部を抽出し、
前記一部のパワーを計算し、
残響時の、後期残響による、前記音声の前記一部の前記パワーへの寄与を推定し、
目標後期残響パワーを計算し、
前記目標後期残響パワーに減衰させるために、後期残響による前記推定される寄与の時間tiを決定し、
ポーズ長を計算し、ここにおいて、前記ポーズ長が前記時間tiを使用して計算される、
前記計算された長さを有するポーズを、前記音声入力によって受信された前記音声に第1の位置で挿入し、ここにおいて、前記第1の位置の後に前記一部が続く、
ように構成される、システム。 - 前記一部が、単語の少なくとも第1の部分に対応する、請求項1に記載のシステム。
- 前記一部が、単語の第1の音の遷移に対応する、請求項1に記載のシステム。
- 前記一部が、単語の開始時の固定された時間ウインドウに対応する、請求項1に記載のシステム。
- 前記一部が、
前記音声入力によって受信された前記音声に対応するテキストを使用して音素分割情報を決定することによって、前記音声入力によって受信された前記音声から抽出される、請求項2〜3のいずれか一項に記載のシステム。 - 前記テキストが、自動音声認識を使用して前記音声入力によって受信された前記音声から抽出される、請求項5に記載のシステム。
- 前記ポーズ長を計算することが、
前記音声入力によって受信された前記音声に対応するテキストを使用して、前記第1の位置にポーズを挿入するための前記適合性の測定を決定することを備え、
ここにおいて、前記ポーズ長が、前記時間tiおよび前記適合性の前記測定を使用して計算される、請求項1〜6のいずれか一項に記載のシステム。 - 前記一部が、単語の少なくとも前記第1の部分に対応し、適合性の前記測定を決定することが、
前記音声入力によって受信された前記音声に対応する前記テキストから、前記第1の位置が前記テキスト内の韻律的区切りに対応するかどうかを決定することを備え、ここにおいて、前記第1の位置が韻律的区切りに対応する場合、適合性の前記測定がより高い、請求項7に記載のシステム。 - 適合性の前記測定を決定することが、
前記音声入力によって受信された前記音声に対応する前記テキストから、前記単語が1つまたは複数の条件を備えるあらかじめ定められたセットから1つまたは複数の条件を満たすかどうかを決定することを備え、ここにおいて、前記条件が前記テキストの特徴に関連する、請求項7または8のいずれか一項に記載のシステム。 - 適合性の前記測定を決定することが、
前記第1の位置が韻律的区切りに対応しない場合は、第1のパラメータに0の値を割り振り、韻律的区切りに対応する場合は、第1のパラメータに0より大きいあらかじめ定められた値を割り振ることと、
前記セット内の各条件に対応するさらなるパラメータに値を割り振ることと、ここにおいて、前記単語が前記条件を満たさない場合に前記割り振られる値が0であり、前記単語が前記条件を満たす場合に割り振られる値は0以外のあらかじめ定められた値である、
前記第1のパラメータの前記値と前記さらなるパラメータの値とを組み合わせることによって、前記適合性の前記測定の値を計算することと
を備える、請求項8に従属する場合の請求項9に記載のシステム。 - 前記音声入力によって受信された前記音声が、単語のシーケンスである文を備え、ここにおいて、前記プロセッサが、
前記文中の単語が続く各位置にポーズを挿入するための適合性の測定を決定し、
前記文が、単語が続く位置にポーズを挿入するための適合性の前記測定が第1のしきい値よりも大きい、2つ以上の隣接単語のシーケンスを備えるかどうかを決定し、
そのような配列がある場合、前記シーケンスの適合性の前記測定を再評価する
ように構成される、請求項7〜10のいずれか一項に記載のシステム。 - 前記音声入力によって受信された前記音声が、単語のシーケンスである文を備え、ここにおいて、前記プロセッサが、
前記文中の単語が続く各位置にポーズを挿入するための適合性の測定を決定し、
前記文が、前記単語が続く位置にポーズを挿入するための適合性の前記測定が第2のしきい値未満である、6つ以上の隣接単語のシーケンスを備えるかどうかを決定し、
そのような配列がある場合、前記シーケンスの適合性の前記測定を再評価するように構成される、請求項7〜11のいずれか一項に記載のシステム。 - 前記ポーズ長を計算することが、
適合性の前記測定を使用してポーズ強度値wiを計算することを備え、
ここにおいて、前記ポーズ長が、前記時間tiに前記ポーズ強度値wiを乗算することによって計算される、請求項7〜12のいずれか一項に記載のシステム。 - 前記ポーズ強度値wiを計算することが、適合性の前記測定が第3のしきい値Ib以上であるときに1のポーズ強度値wiを割り当てることと、適合性の前記測定が前記第3のしきい値Ib未満であるときに0のポーズ強度値wiを割り当てることとを備える、請求項13に記載のシステム。
- 前記ポーズ強度値wiを計算することが、適合性の前記測定が第3のしきい値Ib未満であるときに0のポーズ強度値wiを割り当てることと、適合性の前記測定が前記第3のしきい値Ib以上であるときに、適合性の前記測定の単調増加関数からポーズ強度値wiを計算することとを備える、請求項13に記載のシステム。
- 後期残響の前記パワーの時間にともなう前記減衰をモデル化するために、前記時間tiが、指数関数的減衰関数を使用して計算される、請求項1〜15のいずれか一項に記載のシステム。
- 前記時間tiを計算することが、
残響時の前記音声の前記一部の前記パワーに対する後期残響による前記推定される寄与で除算された前記目標後期残響パワーの対数を計算することと、
減衰時間値を与えるために、残響時間を使用してこの計算値をスケーリングすることとを備え、
ここにおいて、前記時間tiが前記減衰時間値および0の最大値として計算される、請求項1〜16のいずれか一項に記載のシステム。 - 後期残響による前記寄与が、
前記環境の前記インパルス応答を、減衰関数で振幅変調されたパルス列としてモデル化することと、
前記一部のモデル後期残響信号を与えるために、前記インパルス応答のセクションと、前記一部の前のある時間に位置する前記向上された音声信号のセクションとの前記畳み込みを取ることと、
前記モデル後期残響信号の前記パワーを計算することと
によって推定される、請求項1〜17のいずれか一項に記載のシステム。 - 音声を向上させる方法であって、
音声入力によって受信された音声の一部を抽出することと、
前記一部のパワーを計算することと、
残響時の、後期残響による、前記音声の前記一部の前記パワーへの寄与を推定することと、
目標後期残響パワーを計算することと、
前記目標後期残響パワーに減衰させるために、後期残響による前記推定される寄与の時間tiを決定することと、
ポーズ長を計算することと、ここにおいて、前記ポーズ長が前記時間tiを使用して計算される、
前記計算された長さを有するポーズを、前記音声入力によって受信された前記音声に第1の位置で挿入することと、ここにおいて、前記第1の位置の後に前記一部が続く、
を備える、方法。 - コンピュータに、請求項19に記載の方法を実行させるように構成されたコンピュータ可読コードを備える、搬送媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1610623.9 | 2016-06-17 | ||
GB1610623.9A GB2551499B (en) | 2016-06-17 | 2016-06-17 | A speech processing system and speech processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017223930A true JP2017223930A (ja) | 2017-12-21 |
Family
ID=56895241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017029772A Pending JP2017223930A (ja) | 2016-06-17 | 2017-02-21 | 音声処理システムおよび音声処理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20170365256A1 (ja) |
JP (1) | JP2017223930A (ja) |
GB (1) | GB2551499B (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102421745B1 (ko) * | 2017-08-22 | 2022-07-19 | 삼성전자주식회사 | Tts 모델을 생성하는 시스템 및 전자 장치 |
JP6891144B2 (ja) * | 2018-06-18 | 2021-06-18 | ヤフー株式会社 | 生成装置、生成方法及び生成プログラム |
US11335324B2 (en) | 2020-08-31 | 2022-05-17 | Google Llc | Synthesized data augmentation using voice conversion and speech recognition models |
CN112562676B (zh) * | 2020-11-13 | 2023-12-29 | 北京捷通华声科技股份有限公司 | 一种语音解码方法、装置、设备及存储介质 |
CN114005438B (zh) * | 2021-12-31 | 2022-05-17 | 科大讯飞股份有限公司 | 语音识别方法、语音识别模型的训练方法以及相关装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007065285A (ja) * | 2005-08-31 | 2007-03-15 | Takayuki Arai | 音声信号処理方法、装置及びプログラム |
JP2013186428A (ja) * | 2012-03-09 | 2013-09-19 | Chiba Inst Of Technology | 音声合成装置 |
JP2014170135A (ja) * | 2013-03-04 | 2014-09-18 | Tohoku Univ | 屋外環境音声伝達装置、屋外環境音声伝達システム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19957221A1 (de) * | 1999-11-27 | 2001-05-31 | Alcatel Sa | Exponentielle Echo- und Geräuschabsenkung in Sprachpausen |
DE10119277A1 (de) * | 2001-04-20 | 2002-10-24 | Alcatel Sa | Verfahren zur Maskierung von Geräuschmodulationen und Störgeräuschen bei der Sprachübertragung |
EP1469703B1 (en) * | 2004-04-30 | 2007-06-13 | Phonak Ag | Method of processing an acoustical signal and a hearing instrument |
-
2016
- 2016-06-17 GB GB1610623.9A patent/GB2551499B/en active Active
-
2017
- 2017-02-21 JP JP2017029772A patent/JP2017223930A/ja active Pending
- 2017-02-22 US US15/439,233 patent/US20170365256A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007065285A (ja) * | 2005-08-31 | 2007-03-15 | Takayuki Arai | 音声信号処理方法、装置及びプログラム |
JP2013186428A (ja) * | 2012-03-09 | 2013-09-19 | Chiba Inst Of Technology | 音声合成装置 |
JP2014170135A (ja) * | 2013-03-04 | 2014-09-18 | Tohoku Univ | 屋外環境音声伝達装置、屋外環境音声伝達システム |
Non-Patent Citations (1)
Title |
---|
木幡 稔: "残響下において聞き取りやすい音声合成法に関する検討", 日本音響学会 2013年 春季研究発表会講演論文集CD−ROM, JPN6018013071, 13 March 2013 (2013-03-13) * |
Also Published As
Publication number | Publication date |
---|---|
GB2551499B (en) | 2021-05-12 |
US20170365256A1 (en) | 2017-12-21 |
GB201610623D0 (en) | 2016-08-03 |
GB2551499A (en) | 2017-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2017223930A (ja) | 音声処理システムおよび音声処理方法 | |
US10334384B2 (en) | Scheduling playback of audio in a virtual acoustic space | |
Su et al. | HiFi-GAN-2: Studio-quality speech enhancement via generative adversarial networks conditioned on acoustic features | |
US7536303B2 (en) | Audio restoration apparatus and audio restoration method | |
JPH10507536A (ja) | 言語認識 | |
Székely et al. | How to train your fillers: uh and um in spontaneous speech synthesis | |
RU2692051C1 (ru) | Способ и система для синтеза речи из текста | |
US11361780B2 (en) | Real-time speech-to-speech generation (RSSG) apparatus, method and a system therefore | |
US20120065968A1 (en) | Speech recognition method | |
Mandel et al. | Audio super-resolution using concatenative resynthesis | |
US6813604B1 (en) | Methods and apparatus for speaker specific durational adaptation | |
US11830481B2 (en) | Context-aware prosody correction of edited speech | |
US10438604B2 (en) | Speech processing system and speech processing method | |
Ferris | Techniques and challenges in speech synthesis | |
Fux et al. | Talker-to-listener distance effects on the variations of the intensity and the fundamental frequency of speech | |
KR20230106005A (ko) | 도메인특화 음성인식 모델 구성 방법 및 장치와 이를 이용한 종단형 음성인식기 | |
Nthite et al. | End-to-End Text-To-Speech synthesis for under resourced South African languages | |
Kobayashi et al. | Japanese speech intelligibility estimation and prediction using objective intelligibility indices under noisy and reverberant conditions | |
JP2022111977A (ja) | 音声認識システム及び方法 | |
Hasan et al. | An approach to voice conversion using feature statistical mapping | |
Agelfors et al. | Synthetic visual speech driven from auditory speech | |
Petkov et al. | Automated Pause Insertion for Improved Intelligibility Under Reverberation. | |
JP6251219B2 (ja) | 合成辞書作成装置、合成辞書作成方法および合成辞書作成プログラム | |
US11501091B2 (en) | Real-time speech-to-speech generation (RSSG) and sign language conversion apparatus, method and a system therefore | |
US20020016709A1 (en) | Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180327 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180417 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20181016 |