JP2017223930A

JP2017223930A - 音声処理システムおよび音声処理方法

Info

Publication number: JP2017223930A
Application number: JP2017029772A
Authority: JP
Inventors: スチリアノイオアニス; Stylianou Ioannis; ペトコフペトコ; Petkov Petko; ブラウンシュバイラーノーベルト; Braunschweiler Norbert
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2016-06-17
Filing date: 2017-02-21
Publication date: 2017-12-21
Also published as: GB2551499B; US20170365256A1; GB201610623D0; GB2551499A

Abstract

【課題】音声の明瞭度が低下する、残響環境での音声を向上させるための音声明瞭度向上システムを提供する。
【解決手段】音声入力によって受信された音声を、向上音声出力によって出力される向上された音声に変換するように構成されたプロセッサとを備える。プロセッサは、音声入力によって受信された音声の一部を抽出し、その一部のパワーを計算し、残響時の、後期残響による、音声の一部のパワーへの寄与を推定し、目標後期残響パワーを計算し、目標後期残響パワーに減衰させるために、後期残響による推定される寄与の時間を決定し、ポーズ長を計算する。計算された長さを有するポーズを、音声入力によって受信された音声に第１の位置で挿入し、第１の位置の後にその一部が続くように構成される。
【選択図】図２

Description

本開示は、音声処理システムおよび音声処理方法に関する。

残響は、過去に生成された音響信号が環境内の物体から反射し、後の時点で生成される音響信号と同時に観測される処理である。列車の駅やスタジアム、大規模な工場、コンサートホールや講堂などの残響環境での音声を理解する必要があることがしばしばある。オーバーラップマスキング、すなわち、音響信号の複数の、遅延された、および減衰されたコピーが同時に観察されることのために、残響環境における音声の明瞭度が低下する場合がある。

そのような環境においてより聞き取りやすいように、音声信号を向上させることが可能である。たとえば館内放送システム（public announcement system）を使用した、そのような聴取環境における提示前の信号修正が使用され得る。

次に、非限定的な構成によるシステムおよび方法を、添付の図面を参照して説明する。

音声明瞭度向上システムの概略図。音声を向上させる方法を示す流れ図。後期残響のモデリングに関する３つのプロットを示す図。ポーズ強度を計算する方法のフローチャート。適性の測定を使用してポーズ強度値を計算するために使用され得るいくつかの例示的な関数を示す図。第１の波形が自然音声であり、第２の波形がバイナリポーズ強度を使用して修正され、第３の波形が連続ポーズ強度を使用して修正される、３つの出力波形を示す図。自然音声、バイナリポーズ強度を使用して修正された音声、および連続ポーズ強度を使用して修正された音声の、すべてのテスト参加者の平均単語認識率および標準エラーを示す図。

一例によれば、音声を向上させるための音声明瞭度向上システムが提供され、本システムは、
向上されるべき音声を受信するための音声入力と、
向上された音声を出力するための向上音声出力と、
音声入力によって受信された音声を、向上音声出力によって出力される向上された音声に変換するように構成されたプロセッサと
を備え、
本プロセッサは、
音声入力によって受信された音声の一部を抽出し、
その一部のパワーを計算し、
残響時の、後期残響（late reverberation）による、音声の一部のパワーへの寄与を推定し、
目標後期残響パワーを計算し、
目標後期残響パワーに減衰させるために、後期残響による推定される寄与の時間ｔ_iを決定し、
ポーズ長を計算し、ここにおいて、ポーズ長は時間ｔ_iを使用して計算される、
計算された長さを有するポーズを、音声入力によって受信された音声に第１の位置で挿入し、ここにおいて、第１の位置の後にその一部が続く、
ように構成される。

音声信号にポーズを挿入すると、後期残響によって引き起こされるオーバーラップマスキングが減少する。このシステムでは、ポーズ長は後期残響のレベルを反映し、結果として明瞭度が向上する。

ある実施形態では、その一部は、単語の少なくとも第１の部分に対応する。したがって、第１の位置の後に単語が続く。この部分は、たとえば、単語の第１の音の遷移、または単語の開始時の固定された時間ウインドウに対応し得る。

この部分は、音声入力によって受信された音声に対応するテキストを使用して分割情報を決定し、次いで、分割情報からその部分の開始および終了位置を識別することによって抽出され得る。

ある実施形態では、音声信号は単語のシーケンスを備える文を備える。入力音声信号およびテキストから、文の音素分割情報（Phoneme segmentation information）が決定される。第１の部分の開始は、文中の第１の音素の左側の文脈の開始として識別され、第１の部分の終わりは、第２の音素の右側の文脈として識別される。この部分は、システムによって処理され、第１の音素の左側の文脈に続く位置についてポーズ長が計算される。次いで、次の部分の開始が文中の第２の単語内の第１の音素の左側の文脈の開始として識別され、次の部分の終わりが文中の第２の単語内の第２の音素の右側の文脈として識別される。この部分は、システムによって処理され、ポーズ長が計算され、次の部分が識別され、以下同様である。文中のすべての単語に対応する部分が処理された後、音声信号中の次の文に対して音素分割が決定され、以下同様である。

テキストは、たとえば、自動音声認識を使用して音声入力によって受信された音声とは別個に入力されてもよく、そこから抽出されてもよい。

テキストが別個に入力される場合、分割情報は、事前トレーニングされたガウス混合モデル隠れマルコフモデル（ＧＭＭ−ＨＭＭ）を使用した強制的なアラインメントを使用して決定され得る。

ある実施形態では、ポーズ長を計算することは、
音声入力によって受信された音声に対応するテキストを使用して、第１の位置にポーズを挿入するための適合性の測定を決定することを備え、
ここにおいて、ポーズ長は、時間ｔ_iおよび適合性の測定を使用して計算される。

ある実施形態では、音声信号は単語のシーケンスを備える文を備える。適合性の測定は、文中の単語が続く位置ごとに決定される。時間ｔ_iが文中の最初の単語が続く位置について計算され、ポーズ長が時間ｔ_iと適合性の測定を使用して計算され、その位置にポーズが挿入される。次いで、時間ｔ_iが文中の次の単語が続く位置について計算され、ポーズ長が時間ｔ_iと適合性の測定を使用して計算され、その位置にポーズが挿入され、以下同様である。文中の単語が続くすべての位置についてポーズ長が計算された後、適合性の測定が、音声信号内の次の文中の単語が続く位置ごとに決定され、以下同様である。

適合性の測定を決定することは、音声入力によって受信された音声に対応するテキストから、第１の位置がテキスト内の韻律的区切り（prosodic break）に対応するかどうかを決定することを備え得、ここにおいて、第１の位置が韻律的区切りに対応する場合、適合性の測定はより高い。

適合性の測定を決定することは、音声入力によって受信された音声に対応するテキストから、単語が１つまたは複数の条件を備えるあらかじめ定められたセットから１つまたは複数の条件を満たすかどうかを決定することをさらに備え得、ここにおいて、条件がテキストの特徴に関連する。

ある実施形態では、適合性の測定を決定することは、
第１の位置が韻律的区切りに対応しない場合は、第１のパラメータに０の値を割り振り、韻律的区切りに対応する場合は、第１のパラメータに０より大きいあらかじめ定められた値を割り振ることと、
セット内の各条件に対応するさらなるパラメータに値を割り振ることと、ここにおいて、単語が条件を満たさない場合に割り振られる値は０であり、単語が条件を満たす場合に割り振られる値は０以外のあらかじめ定められた値である、
第１のパラメータの値とさらなるパラメータの値とを組み合わせることによって、適合性の測定の値を計算することと
を備える。

ある実施形態では、音声入力によって受信された音声は、単語のシーケンスである文を備え、プロセッサは、
文中の単語が続く各位置にポーズを挿入するための適合性の測定を決定し、
文が、単語が続く位置にポーズを挿入するための適合性の測定が第１のしきい値よりも大きい、２つ以上の隣接単語のシーケンスを備えるかどうかを決定し、
そのような配列がある場合、そのシーケンスの適合性の測定を再評価する
ように構成される。

ある実施形態では、プロセッサはまた、あるいは代替で、
文中の単語が続く各位置にポーズを挿入するための適合性の測定を決定し、
文が、単語が続く位置にポーズを挿入するための適合性の測定が第２のしきい値未満である、６つ以上の隣接単語のシーケンスを備えるかどうかを決定し、
そのような配列がある場合、そのシーケンスの適合性の測定を再評価する
ように構成される。

ある実施形態では、ポーズ長を計算することは、
適合性の測定を使用してポーズ強度値ｗ_iを計算することを備え、
ここにおいて、ポーズ長は、時間ｔ_iにポーズ強度値ｗ_iを乗算することによって計算される。

ポーズ強度値ｗ_iを計算することは、適合性の測定が第３のしきい値Ｉ_b以上であるときに１のポーズ強度値ｗ_iを割り当てることと、適合性の測定が第３のしきい値Ｉ_b未満であるときに０のポーズ強度値ｗ_iを割り当てることとを備え得る。

代替的には、ポーズ強度値ｗ_iを計算することは、適合性の測定が第３のしきい値Ｉ_b未満であるときに０のポーズ強度値ｗ_iを割り当てることと、適合性の測定が第３のしきい値Ｉ_b以上であるときに、適合性の測定の単調増加関数からポーズ強度値ｗ_iを計算することとを備え得る。

ある実施形態では、時間ｔ_iは、指数関数的減衰関数を使用して計算される。時間ｔ_iを計算することは、
残響時の音声の一部のパワーに対する後期残響による推定される寄与で除算された目標後期残響パワーの対数を計算することと、
減衰時間値を与えるために、残響時間を使用してこの計算値をスケーリングすることとを備え得、
ここにおいて、時間ｔ_iは減衰時間値および０の最大値として計算される。

ある実施形態では、目標後期残響パワーは、その一部のパワーと目標信号対後期残響比とを使用して計算される。

後期残響による寄与は、音声信号の一部と時間的に一致する、出力された音声信号の前のセクションの後期残響である。

ある実施形態では、後期残響による寄与は、
環境のインパルス応答を、減衰関数で振幅変調されたパルス列としてモデル化することと、
その一部のモデル後期残響信号を与えるために、インパルス応答のセクションと、その一部の前のある時間に位置する向上された音声信号のセクションとの畳み込みを取ることと、
モデル後期残響信号のパワーを計算することと
によって推定される。

その一部が続く位置は、その一部の始め、すなわち開始位置である。ある実施形態では、位置は、単語中の第１の音素の左側の文脈に関連付けられる第１のフレームである。位置は、その一部のちょうど始め、すなわちその一部の直前であることが好ましいが、任意で、あらかじめ設定されていても自動的に決定されてもよい、また単語間の典型的な長さよりも短い長さだけ先行することを含み得る。

別の例によれば、音声を向上させる方法であって、
音声入力によって受信された音声の一部を抽出することと、
その一部のパワーを計算することと、
残響時の、後期残響による、音声の一部のパワーへの寄与を推定することと、
目標後期残響パワーを計算することと、
目標後期残響パワーに減衰させるために、後期残響による推定される寄与の時間ｔ_iを決定することと、
ポーズ長を計算することと、ここにおいて、ポーズ長は時間ｔ_iを使用して計算される、
計算された長さを有するポーズを、音声入力によって受信された音声に第１の位置で挿入することと、ここにおいて、第１の位置の後にその一部が続く、
を備える方法が提供される。

別の例によれば、コンピュータに、
音声入力によって受信された音声の一部を抽出することと、
その一部のパワーを計算することと、
残響時の、後期残響による、音声の一部のパワーへの寄与を推定することと、
目標後期残響パワーを計算することと、
目標後期残響パワーに減衰させるために、後期残響による推定される寄与の時間ｔ_iを決定することと、
ポーズ長を計算することと、ここにおいて、ポーズ長は時間ｔ_iを使用して計算される、
計算された長さを有するポーズを、音声入力によって受信された音声に第１の位置で挿入することと、ここにおいて、第１の位置の後にその一部が続く、
を備える、音声を向上させる方法を実行させるように構成されたコンピュータ可読コードを備える搬送媒体が提供される。

図１は、ある実施形態による、音声明瞭度向上システム１の概略図である。

システム１は、入力音声を受け取って、その明瞭度を向上させるために音声を向上させるプログラム５を備える、プロセッサ３を備える。ストレージ７は、プログラム５によって使用されるデータを記憶する。

システム１は、入力モジュール１１および出力モジュール１３をさらに備える。入力モジュール１１は、向上されるべき音声に関するデータの音声入力１５に接続される。入力１５は、ユーザがデータを直接入力することを可能にするインターフェースであり得る。あるいは、入力は、外部ストレージ媒体またはネットワークからデータを受信するための受信機であり得る。入力１５は、たとえば、マイクロフォンからデータを受信し得る。入力音声信号は、音響、アナログ、またはデジタルであり得、たとえば自然音声または合成音声が記録され得る。

出力モジュール１３には、音声出力１７が接続されている。出力１７は、たとえば話者でもよく、データを送信するための送信機でもよい。

使用時には、システム１は、入力１５を通じてデータを受信する。プロセッサ３上で実行されるプログラム５は、図２〜図７を参照して説明する方法で入力された音声を向上させる。次いで、向上された音声が出力モジュール１３を通じて出力される。

システムは、記録された自然音声、または、たとえばテキスト読上げシステムによって生成された合成音声に対してポーズ挿入を実現する。

図２は、ある実施形態による、音声を向上させる方法のフローチャートを示す。ある実施形態では、プロセッサ３は、この方法を実行するように構成される。

ステップＳ１０１において、音声信号ｘが音声入力１５によって受信される。ステップＳ１０１は、「入力音声信号をバッファする」である。このステップにおいて、入力音声信号はストレージ７に記憶され得る。入力音声信号が記憶されるので、ポーズが信号に挿入され、これが出力を「中断」する場合、連続的に入力された音声信号が処理および出力されるまで記憶され得る。

音声入力によって受信された音声信号ｘの一部ｘ_iが処理のために抽出される。ｉはその一部のインデックスを表す。

ある実施形態では、一部ｘ_iは、単語の少なくとも第１の部分である。この場合、ｉは単語インデックスを表す。この場合、一部を抽出するためには、単語の境界が最初に音声信号内に配置されなければならない。さらなる実施形態では、一部は、単語内の第１の音素の左側の文脈から開始し、単語内の第２の音素の右側の文脈で終了し得る。この場合、一部を抽出するために、単語内の音素の開始および終了が、最初に音声信号内に配置されなければならない。

Ｓ１０２は、分割情報を決定することを備える。分割情報は、単語境界を備え得る。たとえば、分割情報は、個々のトライフォンサウンドモデル（tri-phone sound models）の開始位置および終了位置を備え得る。この場合、各トライフォンは、アラインメント情報が音声信号内の開始位置および終了位置を示す、一連の状態によって表される。

ある実施形態では、音声信号ｘは、単語のシーケンスである文を備え得、文全体のための分割情報が１ステップで決定される。次いで、文中の各部分が順次抽出され、ステップＳ１０４以降において処理される。したがって、分割情報は、文ごとに１回決定され得、文中の各部分は、記憶された分割情報を使用して順次抽出され得る。

ステップＳ１０２において、単語分割情報は、音声入力１５によって受信された音声ｘに対応するテキストｕ_xを使用して決定される。テキストｕ_xは、音声信号ｘとは別個に音声明瞭度向上システム１に入力され得、たとえば、テキスト入力モジュールに接続されたテキスト入力を通じて入力され得る。テキスト入力は、キーボードなどの、ユーザがテキストデータを直接入力することを可能にするインターフェースであり得る。あるいは、入力は、外部ストレージ媒体またはネットワークからテキストデータを受信するための受信機であり得る。

ある実施形態では、事前トレーニングされたガウス混合モデル隠れマルコフモデル（ＧＭＭ−ＨＭＭ）を使用した強制的なアラインメントは、テキストｕ_xおよび音声信号ｘから分割情報を決定する。強制的なアラインメントは、音声信号から抽出されたフレームを、音素の異なる部分を表す音響モデルにマッチさせる。音響モデルはＧＭＭとして実装され、入力テキストを考慮してモデルのシーケンスが識別される。強制的なアラインメントは、たとえばモノフォンまたはトライフォンモデルを使用して実行され得る。両方の場合において、音素状態は、３つの音響モデルのシーケンスによって表される。トライフォンを使用する場合、状態は左文脈、中央状態、および右文脈と呼ばれる。各トライフォン状態は、音声信号内の複数のフレームに対応し得る。トレーニングデータから推測された隣接状態間の遷移確率は、ＧＭＭ−ＨＭＭモデルを完成させる。

ある実施形態では、たとえば、ＨＴＫに基づいて実装された、事前トレーニングされたＧＭＭ−ＨＭＭ自動音声認識（ＡＳＲ）エンジンからのモジュールを使用することによって、強制的なアラインメントが達成される。ＨＭＭはトレーニング音声コーパス（training speech corpus）を使用してトレーニングされる。ＡＳＲエンジンは、それぞれが音素に対応する音響モデルのセットと、関連付けられる遷移確率とを備える。モデルパラメータは、テキストトランスクリプションを含む音声コーパスを使用してトレーニングされる。ＡＳＲエンジンのトレーニングおよび検証は、明瞭度向上システムを導入する前に実行される。

システムが導入されると、すなわちシステムの使用時には、入力１５およびテキストｕ_xからの音声信号がＡＳＲエンジンコンポーネントによって処理される。重なり合ったフレームは音声信号から抽出される。強制的なアラインメントは、知られている音声シーケンスの事後確率を最大にするフレームとモデル間の割振りを識別することによって達成される。これは、信号フレームから特徴ベクトルを抽出し、音声トランスクリプションによって決定された音響モデルを与えられた特徴ベクトルの尤度を計算することを含む。その結果、音声信号から抽出された重なり合うフレームは特定の音響モデルに割り当てられ、次に、音素サブステートごとに、すなわち左文脈、中央状態、および右文脈に、開始および終了タイムスタンプを提供する。これが分割情報である。

音声明瞭度向上システム１は、たとえば、テキスト読上げシステムと組み合わせて動作し得る。そのようなシステムは、テキスト入力と、テキスト入力で入力されたテキストｕ_xから音声信号ｘを生成して出力するように構成されたテキスト読上げモジュールとを備える。次いで、テキスト読上げモジュールから出力された音声信号ｘは、音声明瞭度向上システムの音声入力１５に入力される。分割情報は、音声合成処理の一部として生成される。その結果、合成音声を修正する場合に強制的なアラインメントが適用される必要はない。

あるいは、音声信号ｘに対応するテキストｕ_xは、たとえばＡＳＲを使用して、音声信号ｘ自体から抽出され得る。テキストｕ_xを抽出するために音声信号が使用されると、次いで分割情報がＡＳＲ出力から直接取得される。

上述のように、ＡＳＲエンジンはＨＴＫベースであり、音声コーパス上で事前トレーニングされたＧＭＭ−ＨＭＭを備え得る。あるいは、健全な分割情報を生成するために、ＤＮＮ−ＨＭＭベースのシステムが使用され得る。この目的のために、ＫＡＬＤＩベースのシステムが使用され得る。

システムが導入されると、すなわちシステムの使用時には、入力１５からの音声信号がＡＳＲエンジンによって処理される。ある実施形態では、長さ２５ミリ秒の重なり合うフレームから毎秒１００フレームのレートで特徴ベクトルが抽出される。適切な言語モデルを使用して、事前トレーニングされたＨＭＭおよび特徴ベクトルを使用する最も可能性の高い単語のシーケンスが識別される。状態レベルでの音素分割情報は、認識処理の結果として取得される。

正確な分割情報を取得することは、たとえば１つの音を２つに分割することによって引き起こされる可能性があるアーティファクトを減少させる。たとえば、テキスト読上げシステムによって生成された音声などの合成音声を音声入力として使用することは、強制的なアラインメントによる単語分割が使用されないことを意味し、したがってアーティファクトの導入が回避される。

Ｓ１０２の出力は、分割情報である。

ステップＳ１０３において、残響時の音声信号の後期残響に対するモデル信号

が生成される。

残響は、特定の環境のインパルス応答と音声信号との間の畳み込みとしてモデル化され得る。インパルス応答は、直接経路、初期反射、および後期残響の３つの成分に分割される。したがって、残響は、初期反射と後期残響の２つの成分を備える。

初期反射は高出力であり、空間の形状に依存し、個々に識別可能である。初期反射は、直接音の後、たとえば５０ミリ秒などの短期間内に到来し、室内インパルス応答（ＲＩＲ）を調べるときに容易に区別可能である。初期反射はホールの形状、ならびに話者および聞き手の位置に依存する。初期反射は明瞭度には有害ではないと考えられ、実際に明瞭度を向上させることができる。

後期残響は、反射の数が多く、音響経路が長いため、性質上拡散している。後期残響は、初期反射後に到来する反射の寄与である。個々の反射を識別することは、それらの数が増加する一方、それらの大きさが減少するため、困難である。後期残響は、初期反射よりも多くの回数反射し、大きさが減少する多数の反射を備える、遅延され減衰された複製から構成される。これは、隣接する音の間のマスキングによる明瞭度の低下の主な要因である。これは、列車の駅やスタジアム、大規模な工場、コンサートホールや講堂などの場所での通信に関連している可能性がある。後期残響は、音声信号中の異なる音の間のマスキングの主な原因であるため、明瞭度に対してより有害であると考えられる。

ＲＩＲにおける初期反射と後期残響との間の境界ｔ_lは、別個の反射が拡散混合物に変わる点である。ｔ_lの値は環境の特性である。ある実施形態では、ｔ_lは、直接経路、すなわち直接音に続く音の到着後、５０〜１００ミリ秒の範囲内にある。直接音が到着してからｔ₁秒後、個々の反射は区別できなくなる。

一実施形態では、特定のホールの音響を再現するために、後期残響は正確にモデル化され得る。代替の実施形態では、目的が後期残響のパワー推定であるため、後期残響によるマスキングパワーに近似するより単純なモデルが使用され得る。後期残響パワーを予測するために、統計モデルが使用され得る。

ある実施形態では、インパルス応答の後期残響部分は、指数関数的に減衰するエンベロープを有するパルス列としてモデル化される。ある実施形態では、後期残響による寄与をモデル化するためにベルベットノイズ（Velvet Noise）モデルが使用され得る。

図３は、後期残響信号をモデリングするためのベルベットノイズモデルの使用に関する３つのプロットを示す。

第１のプロットは、２０ｍ×３０ｍ×８ｍに固定された寸法を有するホールである例示的な音響環境を示し、寸法はそれぞれ幅、長さ、および高さである。縦軸に長さ、横軸に幅が示されている。話者および聞き手の位置は、それぞれ｛１０ｍ，５ｍ，３ｍ｝および｛１０ｍ，２５ｍ，１．８ｍ｝である。これらの値は、第２のプロットでＲＩＲを例示するために使用されるモデルＲＩＲを生成するために使用される。後期残響パワーモデリングでは、話者と聞き手の特定の位置は使用されない。

第２のプロットは室内インパルス応答を示し、伝播遅延と減衰が直接音に正規化される。時間は横軸に秒単位で表示されている。ここに示される正規化された室内インパルス応答は、意図された音響環境の知識に基づくモデルＲＩＲであり、これは第１のプロットに示されている。応答は、第１のプロットに示されたホールの寸法と目標ＲＴ₆₀が与えられている場合、画像ソース法で生成される。残響時間ＲＴ₆₀は、後期残響パワーが直接音のパワーを６０ｄＢ下回って減衰するために要する時間であり、また環境の特性でもある。応答を生成するために話者と聞き手の特定の位置は使用されない。

ある実施形態では、室内インパルス応答が測定され得、この測定から境界ｔ₁および残響時間ＲＴ₆₀の値が得られ得る。

第３のプロットは、第２のプロットと同じ正規化された室内インパルス応答、ならびにＲＩＲの後期残響部分のパルス列モデルの一部を示す。

後期残響のモデルは、後期残響のパワーが時間にともなって指数関数的に減衰するという仮定に基づく。ベルベットノイズモデルのフレームワークを使用して適切な密度のパルス列が生成され、減衰関数で振幅変調される。

後期残響室内インパルス応答モデルは、パルス列ι［ｋ］とエンベロープｅ［ｋ］との積として得られる。

上式で、ｅ［ｋ］は以下の式（３）で与えられ、ι［ｋ］は以下の式（２）で与えられる。

上式で、ａ［ｍ］は値＋１または−１のランダムに生成された符号であり、ｒｎｄ（ｍ）は０と１の間に均等に分布する乱数であり、「ｒｏｕｎｄ」は整数への丸めを表し、Ｔ_dはパルス間の平均時間（秒）であり、Ｔ_sはサンプリング間隔である。ｕは単位の大きさのパルスを示す。このパルス列はベルベットノイズモデルである。

ある実施形態では、後期残響パルス列がスケーリングされる。変調されたパルス列のエネルギーは、たとえば、測定値から計算されたＲＩＲの後期残響部分のエネルギーに等しくされる。パルス密度Ｔ_dの初期値が選択される。ある実施形態では、２０００パルス／秒を超える初期値が使用される。ある実施形態では、４０００パルス／秒の初期値が使用される。パルス密度は、スケーリングステップの前に決定される。次いで、そのエネルギーが後期残響に対応する測定されたＲＩＲの一部と同じであることを保証するために、ＲＩＲの後期残響部分の生成されたパルス列モデルがスケーリングされる。音響環境のためのＲＩＲの記録は、後期残響パルス列をスケーリングするために使用され得る。話者と聞き手がどこにいるかは記録にとって重要ではない。ｔ₁およびＲＴ₆₀の値が記録から決定され得る。ｔ₁後のＲＩＲの一部のエネルギーも測定される。エネルギーは、点ｔ₁後のＲＩＲにおける値の二乗の和として計算される。次いで、後期残響パルス列の振幅が、後期残響パルス列のエネルギーがＲＩＲから計算されたエネルギーと同じになるようにスケーリングされる。

記録されたＲＩＲは、それが目標環境からのものであれば、スケーリングステップのために使用され得る。あるいは、モデルＲＩＲが使用され得る。

離散化されたエンベロープは、以下によって与えられる。

この関係により、直接経路の到着に対応する最初のインスタントｔ＝０と、残響時間ＲＴ₆₀インスタントとの間の６０ｄＢのパワー減衰が保証される。ｆ_sはサンプリング周波数であり、

である。

後期残響のモデルは、（３）で与えられた形式の減衰関数で振幅変調される、適切な密度のパルス列としての後期残響に対応するＲＩＲの一部を表す。具体的には、減衰関数は、パルスの符号がランダムに変化する振幅エンベロープを変調する。このモデルは、時間にともなう後期残響パワーの指数関数的減衰を仮定し、周波数上で定数ＲＴ₆₀が使用される。

後期残響信号

への近似は、変調されたパルス列

と出力信号ｙとの畳み込みによって与えられる。

上式で、

は、（１）で与えられた後期残響室内インパルス応答モデル、すなわち、人工的なパルス列ベースのインパルス応答である。

式（３）から、ｋ＝０において、ｅ（ｔ）＝１は直接経路の減衰がないことを意味し、これは参照として使用される。ｋ＝ＲＴ₆₀／Ｔ_sにおいて、ｅ（ｔ）＝１０^-3であり、これはパワー領域において−６０ｄＢに対応する。

ｙ［ｋ−ｔ_lｆ_s−ｎ］は、出力「バッファ」内の点、すなわち音声信号の前のセクションに対応するすでに修正された音声信号に対応する。ｔ₁以降の

の畳み込みと出力バッファからの信号履歴は、後期残響信号のサンプルまたはモデル実現を与える。

サンプルベースの後期残響モデル信号

は、パラメータｋの値の範囲を考慮することによって

から得られる。ステップＳ１０３から信号

が出力される。

ある実施形態では、Ｓ１０２で決定された分割情報は、一部の限界を識別するために使用され、信号の一部に対応する後期残響信号が計算される。この場合の後期残響信号は、音声信号の一部と時間的に一致する、出力された音声信号の前のセクションの後期残響に対応する。

これは、一部の始まりを上記の式（５）の時間インデックスｋ＝０に関連付けることによって計算される。次いで、その一部内のｋの値ごとに

の値が決定され、値

のセットが得られ、各値は、その一部内のｋの値に対応する。これらの値は、その一部のモデル後期残響信号、すなわち音声信号の一部と時間的に一致する出力された音声信号の前のセクションの後期残響を形成する。後期残響モデル信号は、後期残響による入力音声信号の一部への寄与である。

ステップＳ１０４において、一部の限界を識別するために分割情報が使用され、一部ｘ_iが音声信号から抽出される。次いで、音声信号ｘ_iの一部のパワーｘ_iが計算される。ｘ_iは、その一部に対応する測定ウインドウ内の波形ｘ_iの信号パワーを示す。

たとえば、一部は、単語全体、または単語の第１の音の遷移、あるいは単語の開始時の固定時間セグメントまたはウインドウであり得る。たとえば、一部は単語の第１の１２８ミリ秒であり得る。実際には、単語における第１の音の遷移は、第１の音素の左側の文脈から開始し、第２の音素の右側の文脈で終わる６つの状態に対応する最初の２つの音の長さであり得る。あるいは、第２の音素の左の文脈で終わる一部であり得る。単一音素の単語の場合、３つの状態のみが考慮される。

次いで、後期残響パワーを評価するために、Ｓ１０３で決定された後期残響信号が使用される。後期残響パワーは、明瞭度に悪影響を与えると考えられる。残響時の音声の一部のパワーに対する後期残響による寄与は、後期残響信号

から推定される。残響時の音声の一部のパワーに対する後期残響による寄与

は、単純にモデル後期残響信号

のパワーである。このステップにおいて、ポーズ挿入の前の部分のウインドウに対する後期残響パワー

の推定値が、後期残響信号

から計算される。

ある実施形態では、後期残響パワーを推定するために複数の周波数帯域における入力音声信号の一部のパワー分布が使用され得る。その一部のパワーのあらかじめ定められた割合に対応する最も高い周波数帯域に対応する周波数帯域が決定され、これらの周波数帯域のそれぞれにおける後期残響信号のパワーの割合が計算される。この場合、残響時の音声の一部のパワーに対する後期残響による寄与は、これらの周波数帯域のそれぞれにおける後期残響信号のパワーの合計である。

あるいは、残響時の音声の一部のパワーに対する後期残響による寄与

は、たとえば、前の音声セグメントのパワーの指数加重として計算され得る。

したがって、ステップＳ１０４から値

およびｘ_iが出力される。

Ｓ１０６において、ポーズ長が計算される。

記述された音声修正の方法は、計算された長さを有するポーズを、音声入力によって受信された音声に第１の位置で挿入することを含み、ここにおいて、第１の位置の後にその一部が続く。したがって、部分ごとに、Ｓ１０６においてポーズ長が計算され、次いで、計算された長さを有するポーズが、その後に部分が続く音声信号内の位置に挿入される。いくつかの位置については、計算されたポーズ長は０であり得る。これらの位置では、ポーズは挿入されず、または同等に０秒の長さを有するポーズが挿入される。

Ｓ１０６は、目標後期残響パワーを計算することと、ここにおいて、目標後期残響パワーは、一部ｘ_iのパワーを使用して計算され、目標後期残響パワーに減衰させるために、後期残響による推定される寄与の時間ｔ_iを決定することとを備える。次いで、時間ｔ_iを使用してポーズ長が計算される。

時間ｔ_iは、時間にともなう後期残響パワーの減少を指数関数的減衰関数としてモデル化することによって計算される。ある実施形態では、時間ｔ_iを計算することは、後期残響による推定される寄与で除算された目標後期残響パワーの対数を計算することと、減衰時間を与えるために、残響時間を使用してこの計算値をスケーリングすることとを備え、ここにおいて、時間ｔ_iは減衰時間値および０の最大値として計算される。

ある実施形態では、目標後期残響パワーは、目標信号対後期残響比（ＳＬＲＲ）基準から決定され、音声信号の一部が測定ウインドウを決定する。

ある実施形態では、目標後期残響パワーは、以下のとおりである。

上式で、ξは目標ＳＬＲＲを示し、ｘ_iは波形ｘ_iの信号パワーを示し、それは、たとえば単語ｉの最初の２つの音を含み得る。

時間にともなう後期残響パワーの指数関数的減衰を仮定すると、減衰時間値は次のようになる。

上式で、ｌ_iは、ｘ_iに対応する時間ウインドウに対する後期残響パワーである。

目標後期残響パワー

に減衰させるために、後期残響ｌ_iによる推定される寄与の時間ｔ_iは、指数関数的減衰の単純なモデルから計算される。

これは、名目上のポーズ長である。減衰時間値および０の最大値をとることは、

のローカル時間スケールを保持する。

ξの値は、ユーザによって選択され得る。ある実施形態では、ξは−３ｄＢである。明瞭度への初期反射の寄与は、ξの値に含まれ得る。初期反射は明瞭度に好影響を与えるので、初期反射からのパワー寄与を推定することによって、対応してξのより低い値が使用され得る。平均調整が使用され得る。たとえば、明瞭性のために許容可能であるように直接経路と後期残響との間の０ｄＢのＳＬＲＲが選択され、初期反射が特定の領域に対して追加の３ｄＢブーストを与えると推定される場合、ξの値は−３ｄＢとして設定される。

ある実施形態では、ポーズ長は単に時間ｔ_iである。

代替の実施形態では、ポーズ長は、時間ｔ_iおよびポーズ強度値を使用して計算される。ポーズ強度はステップＳ１０５において計算される。ポーズ長は、ポーズ強度と、後期残響が目標後期残響パワーによって表される特定のレベルまで減衰するのに要する時間との関数として決定される。この方法では、ｔ_iは目標ＳＬＲＲが達成されるように決定された、名目上のポーズ長である。たとえば、ｔ_iは、最初の、すなわち単語の完全な第１の音の遷移と、それに対応する後期残響パワーとの間に、目標ＳＬＲＲが達成されるように決定される。次いで、最終ポーズ長を与えるために、これがポーズ強度値と組み合わされる。２つの要因の共同効果によって有効なポーズ長が決定され、強度が増し、残響時間が長くなると、ポーズ長が長くなる。

ある実施形態では、ポーズ強度値が第１の位置で特定され、ここにおいて、第１の位置の後にその一部が続く。

ある実施形態では、ポーズ強度は文の単語境界で識別される。ポーズ強度値が、１ステップで文中のすべての単語境界について識別され得、次に記憶されたポーズ強度を使用して文中の位置ごとにポーズ長が計算され得る。

ある実施形態では、ポーズ強度評価は、図４に示される多段階アーキテクチャを使用してテキストから実行される。ポーズ長を修正するこの方法によって、言語的文脈および音響環境に適応することが可能になる。したがって、ポーズ長の計算は、たとえばポーズ強度のレベルを示す０以上および１以下の数値を提供することによって、ポーズ強度の連続的な指標を使用する。

図４は、ある実施形態による音声向上方法の一部である、ポーズ強度を計算する方法のフローチャートである。ポーズ強度を計算する方法は、音声入力によって受信された音声に対応するテキストｕ_xの文中の各単語境界にポーズを挿入し、この値をポーズ強度値にマッピングするための適合性の測定を決定することを備える。

ある実施形態では、ポーズ強度を決定することは、音声入力によって受信された音声に対応するテキストから、各単語境界がテキスト内の韻律的区切りに対応するかどうかを決定することを備える。これはステップＳ４０１において決定される。この実施形態では、機械学習アルゴリズムを使用した自然言語処理を使用して、入力がｕ_xであることにより、適合性の測定、したがってポーズ強度が得られる。

ステップ４０１は、初期テキスト前処理および韻律チャンク予測である。このステップは、テキスト解析であるステップＳ４０１ａと、テキスト正規化であるステップＳ４０１ｂと、韻律チャンク予測であるステップＳ４０１ｃとを備える。テキスト前処理、すなわち、このステップで実行されるテキスト解析およびテキスト正規化は、たとえば、トレーニングされたテキスト読上げシステムによって実行され得る。

ステップＳ４０１ａ「テキスト解析」は、入力テキストを複数の文が存在する文に分割することを備え得る。テキスト解析はまた、文をトークンに分割することを備え得、次いでそれらのトークンは記憶された辞書で検索される。辞書にない単語については、語彙情報が予測され得る。次いで、文はタグ付けされ解析された品詞であり得る。

ステップＳ４０１ｂにおいて、テキストが正規化される。これは、数字の拡大、略語等が含まれる。

ステップＳ４０１ｃにおいて、韻律チャンク予測が実行される。ある実施形態では、韻律チャンク予測は、テキスト読上げコーパス上でトレーニングされた決定木モデル（decision tree model）を使用して実行される。本モデルは、たとえば、ＴＴＳコーパス上でトレーニングされ得る。ある実施形態では、コーパスはトーンおよび区切りインデックス（ＴｏＢＩ）でラベル付けされる。コーパスは、たとえば手動でラベル付けされてもよく、自動的にラベル付けされてもよい。

ＴｏＢＩ注釈は、区切り層注釈（break tier annotation）に、隣接単語間の結合の減少および韻律句境界強度の増加に対応する０〜４の５つの基本レベルを有する。レベル０、１、および２は「非区切り」、すなわち韻律句境界なしでグループ化され、レベル３および４は単一の区切りレベルに統合され、「区切り」、すなわち韻律句境界と見なされる。

決定木は、テキストから導出された特徴およびその解析を使用して韻律的区切りをテキストに割り当てるようにトレーニングされる。ステップＳ４０１ａにおいて、決定木モデルは、文中の単語接合点または境界ごとに関連する韻律タグを予測する。韻律タグは、各単語接合点で「区切り」または「区切りなし」のいずれかである。「区切り」の場合、ＴｏＢＩ区切りレベル３と４は１つの「区切り」タグとして統合され、したがって単語接合点における句の存在を識別するが、その強度は識別しない。したがって、文中の各単語接合点または単語境界ごとに韻律的区切りの有無が予測される。韻律チャンクは入力特徴として使用されるが、ポーズの最終シーケンスは韻律チャンク境界に限定されない。

各単語境界に対応する第１のパラメータには、単語境界が韻律的区切りに対応しない場合は０の値が割り振られ、韻律区切りに対応する場合は０より大きいあらかじめ定められた値が割り振られる。

ある実施形態では、あらかじめ定められた値は０．５である。この実施形態では、文中の単語境界ごとに、その境界が韻律的区切りに対応するかどうかに応じて、０または０．５のいずれかの対応する第１のパラメータが割り振られる。

Ｓ４０２において、第１のパラメータから、文中の単語境界にポーズを挿入するための適合性の測定が決定される。ある実施形態では、適合性の測定が第１のパラメータである。

代替の実施形態では、適合性の測定を決定することは、音声入力によって受信された音声に対応するテキストから、文中の各単語が１つまたは複数の条件を備えるあらかじめ定められたセットから１つまたは複数の条件を満たすかどうかを決定することと、ここにおいて、条件は、ステップＳ４０２ａにおいて、テキストの特徴に関連し、セット内の各条件に対応するさらなるパラメータに値を割り振ることとを備え、ここにおいて、ステップＳ４０２ｂにおいて、単語が条件を満たさない場合に割り振られる値は０であり、単語が条件を満たす場合に割り振られる値は０以外のあらかじめ定められた値である。

この実施形態では、予測性能を改善するために、機械学習アルゴリズムがルールベースの方法と組み合わされる。ポーズ強度予測のための多段階手法が使用される。第１の段階では、韻律チャンク境界の位置は決定木によって予測され、第２の段階はこれらの境界をスコアリングアルゴリズムにおいて他の特徴と組み合わせる。

文中の単語ごとに、それぞれが割り振られた値を有する１つまたは複数のさらなるパラメータのセットが生成され、各さらなるパラメータは、セット内の条件に対応する。さらなるパラメータごとに割り振られた値は、条件が単語に対して満たされるかどうかに応じて、０または０以外のあらかじめ定められた値である。あらかじめ定められた値は、条件に依存する０と最大値との間の値の範囲のうちの１つであり得る。

最初のトレーニング段階の間に、対応する条件が満たされたときに各パラメータに割り振られる値を生成するために、複数の音声コーパスからの観測を含む開発データセットが使用され得る。たとえば、これらの値を決定するために、開発データにおける発生頻度が使用され得る。条件のセットと対応する値はシステムに記憶される。これらの値はあらかじめ決められた値である。

あらかじめ定められた値は、正でもよく、負でもよい。負のあらかじめ定められた値は、ある位置の適合性の測定を減少させる。ポーズ挿入のための特定の条件が満たされていないことを反映するために、負のあらかじめ定められた値が生成される。

セット内の条件は、たとえば「名詞」である単語の品詞などのテキストの単一の特徴に関連してもよく、または、たとえば、「名詞」である単語の品詞と「名詞句」である単語の構文的役割との両方の、テキストの特徴の組合せに関連してもよい。

条件の例示的なセット、および各条件に対応するあらかじめ定められた値が以下の表１に示される。しかしながら、条件セットおよび値の多くの変形形態が可能である。

次いで、ステップＳ４０２ｂにおいて、第１のパラメータの値は、単語境界に続く単語のさらなるパラメータのための割り振られた値と組み合わされる。ある実施形態では、第１のパラメータの値およびさらなるパラメータが合計される。第１のパラメータとさらなるパラメータ値との加重和がとられ得る。たとえば、重みは、出力値が第１パラメータの値とさらなるパラメータのための割り振られた値の平均である場合のパラメータの数であり得る。出力値は、単語が続く位置にポーズを挿入するための適合性の測定である。

ある実施形態では、出力値は、０以上および１以下の範囲に制限される。これは、次のさらなるパラメータの値で適合性の測定を増強する前に、適合性の測定の現在の値を調べることによって実施され得る。したがって、適合性の測定は、次の条件の各さらなるパラメータの値によってのみ増強される。１）単語が条件を満たす。および、２）条件が負のあらかじめ定められた値に対応する場合、適合性の測定の現在の値は０より大きく、条件が正のあらかじめ定められた値に対応する場合、適合性の測定の現在の値は１未満である。言い換えれば、適合性の測定は、各さらなるパラメータ値が割り振られた後も連続的に更新される。

このステップは、各単語の前の位置にポーズを挿入するための適合性を反映する連続値のスコアを出力する。スコアは、単語境界にポーズを挿入するための適合性の測定である。

したがって、特徴に関する条件は、所与の単語の前にポーズを挿入するための適合性を決定する単語ごとにスコアを生成するために使用される。適合性の測定は、個々の特性または特性の組合せについてスコアリングシステムで定義されたさらなるパラメータの値に基づく。単語が多数の非０のさらなるパラメータ値によって表される場合、それはより高いスコアをもたらし、そうでない場合、より低いスコアを受信する。

したがって、Ｓ４０２ｂの出力は、文中の単語が続く各位置にポーズを挿入するための適合性の測定を備える。したがって、Ｓ４０２ｂにおいて、韻律チャンク境界は、スコアリングアルゴリズムにおいて他の特徴と組み合わされ、ポーズを挿入するための適合性を反映する連続値スコアを出力する。この場合、適合性の測定は韻律境界予測によって影響を受けるが、韻律チャンク境界として予測されない位置では非０値もあり得る。したがって、この方法は、予測される韻律チャンク境界の位置でのポーズ挿入のみに限定されない。

このステップにおいて、韻律チャンクと特徴に関連する追加の条件とがスコアリングシステムにおいて組み合わされる。単一の特徴または特徴の組合せに関連し得る追加の条件は、ポーズの有無へのそれらの相対的な寄与に従ってスコア付けされる。スコアリングの結果は、入力文中の各単語の前にポーズを挿入するための適合性の測定を表す、たとえば０と１の間の数値である。

ある実施形態では、ステップＳ４０２ｃにおいて、以下のような極端なイベントを防止するために、ポーズシーケンス評価モジュールにおいて、ポーズ強度およびポーズ長を計算する前に、スコアが再評価される。ｉ）複数の連続ポーズ、および／または、ｉｉ）たとえば、長い単語シーケンスにおけるポーズの不在。したがって、この実施形態では、ステップＳ４０２ｂにおいて出力される値は、適合性の測定の初期値である。次いで、ポーズシーケンス評価ステップは、これらの値から適合性の最終的な測定を生成する。

シーケンス評価ステップは、しきい値を与えられた予測されたポーズのシーケンスを再評価し、ポーズの削除または挿入をもたらし得る適合性の測定を修正し得る。再評価された値は、適合性の測定の最終値である。このステップは、所与の文中の単語接合点ごとに適合性値の測定を出力する。しきい値は、ユーザによって定義され得る。

ある実施形態では、Ｓ４０２ｃは、文が、単語が続く位置にポーズを挿入するための適合性の測定が、ユーザ定義の第１のしきい値よりも大きい、２つ以上の隣接単語のシーケンスを備えるかどうかを決定することと、そのようなシーケンスがある場合、そのシーケンスの適合性の測定を再評価することとを備える。適合性の測定を再評価することは、シーケンス内の適合性の測定の値を比較することと、ポーズのうちの１つまたは複数を、その位置の適合性の測定をユーザ定義の第１のしきい値を下回るように減少させることによって「削除する」か、または適合性の測定の元の値を保持することによって維持するかを決定するために、適合性値の測定間の差、適合性値の測定とユーザ定義の第１のしきい値との間の差、および各単語がテキストの特徴に関する１つまたは複数の条件を満たすかどうかを使用することとを備え得る。一般に、再評価することは、位置のうちの１つまたは複数に対する適合性の測定を減少させることを備え得る。

ある実施形態では、Ｓ４０２ｃは、文が、単語が続く位置にポーズを挿入するための適合性の測定が、ユーザ定義の第２のしきい値未満である、隣接単語のシーケンスを備えるかどうかを決定することと、そのようなシーケンスがある場合、そのシーケンスの適合性の測定を再評価することとをさらに備える。シーケンスは、たとえば、６つ以上の単語のシーケンスであり得る。適合性の測定を再評価することは、適合性の測定の値を比較することと、ポーズのうちの１つまたは複数を、その位置の適合性の測定をユーザ定義の第１のしきい値を上回るように増加することによって「追加する」か、または適合性の測定の元の値を保持することによって追加しないかを決定するために、適合性値の測定間の差、適合性値の測定とユーザ定義の第１のしきい値との間の差、および各単語がテキストの特徴に関する１つまたは複数の条件を満たすかどうかを使用することとを備え得る。再評価とは、しきい値に近い適合性の測定が増加される可能性がより高いことを意味する。一般に、再評価することは、位置のうちの１つまたは複数に対する適合性の測定を増加することを備え得る。

いずれかまたは両方のタイプの再評価が実行され得る。第１および第２のしきい値は、ユーザによって定義され、同じ値でもよく異なる値でもよい。ある実施形態では、第１および第２のしきい値は０．９５である。第１および第２のしきい値は、音声コーパスのための聞き手の一団によって判断される知覚的歪みを最小化することによって決定され得る。適合性値の測定と、ポーズ挿入またはポーズ削除とをもたらすユーザ定義のしきい値との間の差もまた、たとえば評価音声コーパスによってユーザによって定義され得る。ある実施形態では、ユーザはしきい値を変更することができ、ポーズ挿入率の変更を可能にする。

この再評価ステップの出力はＩで表され、これは、文中の単語境界ごとの適合性の測定の最終値のセットであり、Ｉ∈［０，１］である。

最後に、ステップＳ４０３において、Ｉの各値がポーズ強度値ωにマッピングされ、ポーズ強度値｛ω₁，．．．，ω_n｝のセットを出力し、それぞれが文中の単語境界に対応し、ω∈［０，１］である。

ポーズ強度は、Ｉに特定のマッピングを適用することによって異なるフォーマットで取得され得る。ある実施形態では、ポーズ強度値は、適合性の測定の単調増加関数から計算される。

図５は、適合性の測定を使用してポーズ強度値を計算するために使用され得るいくつかの例示的な関数を示す。適合性の測定は横軸に示され、ポーズ強度が縦軸に示されている。

第１の関数は破線で示され、第３のしきい値Ｉ_bに基づいてバイナリ強度ポーズをもたらす。

ある実施形態では、Ｉ_bは０．２５である。Ｉ_bは、トレーニング段階中に決定されてもよく、たとえばユーザによって選択されてもよい。

第２の関数は実線で示され、しきい値Ｉ_bを超えて拡大する連続強度ポーズをもたらす。

連続ポーズ強度を使用することによって、ポーズ長の柔軟な調整が可能になる。

一般に、ポーズ強度値を計算することは、適合性の測定がＩ_b未満であるときに０のポーズ強度値を割り当てることと、適合性の測定がＩ_b以上であるときに適合性の測定値の単調増加関数からポーズ強度値を計算することとを備え得る。

Ｉ_bの使用はポーズ挿入率を減少させ、トレーニングデータ内のノイズによって引き起こされる偽ポーズのうちのいくつかを排除する。

ステップＳ１０５の出力は、第１の位置と呼ばれ得る、その一部が続く位置のポーズ強度の値を備える。ある実施形態では、Ｓ１０５は、文ごとに１回だけ実行され、ステップＳ１０５の出力は、文中の単語境界ごとのポーズ強度の値のセットであり得る。したがって、Ｓ１０５は、たとえば、第１の部分が処理されるときに文全体について１回実行される。

次いで、Ｓ１０６において、第１の位置に対するポーズ長

が、

から計算され、上式で、ω_iは、たとえば、（９）または（１０）から計算され得るポーズ強度であり、ｔ_iは、先行する音声信号によって生成された後期残響パワーが特定のレベルに低下するために要する時間であり、目標後期残響パワーであり、たとえば（８）から計算され得る。

したがって、ポーズ強度ω_i、ｌ_i、ξ、およびその部分の時間ウインドウに対する信号パワーｘ_iが与えられると、有効なポーズ長

が計算される。

ポーズ強度を通じて言語的側面を考慮することによって、結果的にポーズ長が音声信号の自然で有効な中断につながる。計算されたポーズ長は、言語的文脈および環境の特性に適応する。

Ｓ１０７において、計算された長さを有するポーズが、音声入力によって受信された音声に第１の位置で挿入され、ここにおいて、第１の位置の後にその一部が続く。第１の位置は、たとえば単語境界に対応する。

処理された文中の単語境界うちのいくつかについて、たとえばポーズ強度値が０である場合、またはＩ_b未満である場合、あるいは残響がほとんどまたはまったくない場合、計算されたポーズ長は０である。これらの位置では、ポーズは挿入されず、または同等に０秒の長さを有するポーズが挿入される。

したがって、割り当てられたポーズは、単語が続く出力信号ｙの後に挿入される。処理は次の単語で続行する。

ある実施形態では、処理は、一度に音声信号の１つの文に対して実行され得る。文ごとに、分割情報を決定するために、および、各単語境界に対応するポーズ強度の値を計算するために、文全体に対応するテキストが処理される。次いで、各単語境界から始まる音声信号の一部が順次抽出され、音声信号の以前に修正されたセクションから、その一部について残響時の音声の後期残響による寄与が推定される。これは、目標後期残響パワーまで減衰させるために、後期残響による推定される寄与の時間ｔ_iを計算するために使用される。時間ｔ_iおよびポーズ強度は、単語境界のポーズ長を計算するために使用される。次いで、ポーズが音声信号に挿入され、次の単語境界に対応する音声信号の新しい部分が抽出され、処理される。文中の各単語が処理されると、信号内の次の文が識別され、同じ方法で処理される。

図６は、ＲＴ₆₀＝１．８秒での提示のために前処理された３つの出力波形を示す。第１の波形は自然音声であり、参考として使用される。第２の波形は、式（９）に基づくバイナリポーズ強度（ＳＰ_bin）が使用される実施形態による音声向上方法によって修正される。第３の波形は、式（１０）に基づく連続ポーズ強度（ＳＰ_cnt）が使用される実施形態による音声向上方法によって修正される。Ｉ_b＝０．２５が使用されている。

ＲＩＲを生成したソース画像法を使用して残響がシミュレートされている。仮定されるホールの大きさは２０×３０×８ｍであり、話者と聞き手の位置はそれぞれ｛１０，５，３｝および｛１０，２５，１．８｝ｍである。便宜上、伝搬遅延と減衰は直接音に正規化されている。ｔ_i＝０．０５秒の値が仮定されている。目標ＳＬＬＲξは−１０ｄＢに設定され、特定のＲＩＲ実現のために直接信号の１０ｄＢパワーの利点と後期残響に対する初期反射を反映している。２つの根本的な仮定は次のとおりである。ｉ）後期残響に対する初期反射の完全なパワーの利点が、明瞭度の利得に変換され、ｉｉ）直接信号および初期反射の後期残響に対する割合の０ｄＢレベルは、文中のポーズ区切りセグメントの正確な構文解析にとって十分である。

１７０文以上で測定される平均的な文の長さの増加は、連続強度ポーズの場合は１６．９％であり、バイナリ強度ポーズの場合は２６％である。すべての文の２％未満は、Ｉ_b＝０．２５を使用してどのようなポーズも割り振られなかった。有効なポーズ長はＲＴ₆₀とともに増加する。残響がない場合、ポーズは挿入されず、または同等に０の長さのポーズが挿入される。

適度な残響条件、およびバイナリポーズ強度と連続ポーズ強度の両方を考慮して、正式なリスニングテストが実行された。客観的および主観的な実験を行うために、テスト文のイギリス英語記録が使用された。表３に示される結果は、未修正の音声に比べて著しく明瞭度が向上していることを示すが、連続ポーズ強度はバイナリポーズ強度に比べてより高い明瞭度の利得を提供する。

表２は、出力波形のために使用される同じテスト文の各単語に先行する連続ポーズ強度およびバイナリポーズ強度を提示する。この例は、連続ポーズ強度を使用する利点を示している。「ｄｒｏｏｐ」の前のポーズは、準最適に配置され、バイナリマッピングが使用されるときに完全な強度を受信する。連続強度ポーズ強度マッピングはこのポーズを強調しない。

主観的な評価も実行された。性能を評価するために、ナイーブな、すなわち残響下での明瞭度テストからの以前の経験を持たない、平均年齢２４歳の英語を母国語とする１２人の話者にリスニングテストが行われた。被験者はいかなる聴覚障害も報告せず、参加に対して支払いがなされた。資料は、ＳｅｎｎｈｅｉｓｅｒＨＤ５５８ヘッドホンを使用して、防音ブースで両耳に提示された。表３は、ＲＴ₆₀＝１．８秒での個々の平均単語認識率を示す。

最初のセッションは、聞き手にタスクとテストインターフェースを慣れさせた、１０個の文を備える。各方法には、４つの１０個の文のセットのマクロセットが割り当てられた。システムへのマクロセットの割振りおよびシステム提示順序は、聞き手ごとにランダムに選択された。一度文を聞くと、聞き手はその内容を入力するよう促された。単語認識率は、文中のキーワードの総数に対する正しく識別された割合として計算された。平均４０文以上のマクロセット全体にわたる個々の認識率を表３に示されている。方法ごとの、すべてのテスト参加者の平均単語認識率および標準エラーが図７に示されている。

結果は、ポーズ挿入が、未修正の音声と比較して明瞭度を著しく向上させ、スチューデントのｔ検定でｐ＜０．０１であることを示す。連続強度ポーズは、著しくより短い平均の長さでバイナリ強度のポーズより高い明瞭度を達成し、バイナリの場合は２６％に対し、連続している場合は平均で１６．９％の絶対伸びである。

ある実施形態では、出力音声信号に対してさらなる修正が実行される。たとえば、ポーズを挿入し、韻律を保存することは、明瞭度の利得の制限につながる場合がある。したがって、ある実施形態では、韻律修正が実行され得る。韻律修正を伴うポーズ挿入は、自然音声により近い出力音声信号をもたらし、聞き手を混乱させる可能性は低くなり得る。

上述の実施形態では、言語的に動機付けされたポーズを導入することによって、オーバーラップマスキングの効果を低減するために時間スケール修正が採用される。音声信号の文、すなわち文のトランスクリプションに対応するテキストが与えられると、文中の単語境界でポーズ強度が予測され得る。ポーズ長は、ポーズ強度と、目標信号対後期残響比基準が満たされるレベルまで後期残響が減衰するために要する時間とを組み合わせることによって、文中の単語境界ごとに取得される。

明瞭度を向上させるために、音声信号に対応するテキスト、すなわち文のトランスクリプションを使用して、言語的に動機付けされたポーズが挿入される。ポーズ長値は、文中の単語境界ごとに計算される。非０のポーズ長値はポーズ位置に関連付けられ、０の長さのポーズ長値はポーズが配置されない位置である。選択されたポーズの位置は、全体的な短い文の長さを維持しながら、聞き手による文の構文解析を容易にする。ある実施形態では、ポーズ強度はテキストに基づいて単語境界で計算される。後期残響パワーに対する指数関数的減衰のモデルを使用して、目標信号対ＬＲ比を達成するために必要な時間分離が、単語の第１の音の遷移について計算される。有効なポーズ長は、あらかじめ定められたＳＬＲＲを達成するためのポーズ強度と時間分離との積として得られる。分割情報は、事前トレーニングされたＧＭＭ−ＨＭＭを使用した強制的なアラインメントによって得られる。

上述の実施形態では、ポーズ挿入は、残響下での音声の明瞭度向上のために使用される。いくつかの実施形態では、言語的文脈および環境の特性の両方を考慮に入れる基準が使用され、柔軟性を提供する。

ある実施形態では、音声明瞭度向上システムは、音声修正の組合せを実行するように構成される。ある実施形態では、ポーズ挿入方法は、適応利得制御と組み合わされる。さらなる実施形態では、ポーズ挿入方法は、適応利得制御および時間伸縮と組み合わされる。プロセッサは、音声入力から受信された音声のフレームを抽出し、非定常性の程度を反映するフレーム重要度の測定を計算し、残響時の音声のフレームパワーに対する後期残響による寄与を推定し、音声入力から受信された音声のフレーム利得を修正するように構成され、ここにおいて、修正量は、フレーム重要度の測定と後期残響による寄与とを使用して計算され、ローカル時間伸縮を適用する。上記のステップは、ポーズ挿入と組み合わせて入力音声信号に対して実行される。言い換えれば、これらのステップは、単語境界が到達されるまでフレームごとに実行される。この時点で、ポーズ長が計算され、ポーズが挿入される。これは、より高い明瞭度の利得、およびより自然に聞こえる音声をもたらす。また、適応利得制御が残響パワーを低減するため、ポーズ長がより短くなる。

音声修正方法は、残響環境における明瞭度向上のための自動ポーズ挿入を提供する。本方法は、自律的な操作と組み合わせて、実現するのが簡単で複雑さが低い。

音声明瞭度向上システムは、列車の駅、待合室および講堂、トンネルおよび屋根付きスタジアムなどの閉鎖空間での館内放送、または、たとえば反射が非常に遅れる（long-delay reflections）開放空間の遠方場の提示に使用され得る。

上述の音声修正方法は、シンセサイザによって生成された音声が言語的文脈および音響環境を考慮に入れたポーズを含むように、ＴＴＳ領域に適用され得る。

ある実施形態では、プロセッサは、単語境界ごとにポーズ長値を計算するように構成される。これは、ポーズを挿入することが有利である位置、すなわち、非０のポーズ長が計算される位置のみにポーズを挿入することを可能にする。長さは、残響のレベル、ならびに人間が特定の位置にポーズを導入する可能性を反映する。言語的に動機付けされた位置でポーズすると、波形の伸びを小さく維持しながら、歪みが減少し、明瞭度の利得が向上する。

いくつかの構成が記載されているが、これらの構成は単なる一例として提示されたものであり、本発明の範囲を限定することが意図されるものではない。実際、本明細書に記載の装置および方法は、様々な他の形態で実施され得る。さらに、本明細書に記載の装置および方法の形態における様々な省略、置換、および変更が行われ得る。

Claims

音声を向上させるための音声明瞭度向上システムであって、前記システムが、
向上されるべき音声を受信するための音声入力と、
前記向上された音声を出力するための向上音声出力と、
前記音声入力によって受信された音声を、前記向上音声出力によって出力される向上された音声に変換するように構成されたプロセッサと
を備え、
前記プロセッサが、
前記音声入力によって受信された前記音声の一部を抽出し、
前記一部のパワーを計算し、
残響時の、後期残響による、前記音声の前記一部の前記パワーへの寄与を推定し、
目標後期残響パワーを計算し、
前記目標後期残響パワーに減衰させるために、後期残響による前記推定される寄与の時間ｔ_iを決定し、
ポーズ長を計算し、ここにおいて、前記ポーズ長が前記時間ｔ_iを使用して計算される、
前記計算された長さを有するポーズを、前記音声入力によって受信された前記音声に第１の位置で挿入し、ここにおいて、前記第１の位置の後に前記一部が続く、
ように構成される、システム。
前記一部が、単語の少なくとも第１の部分に対応する、請求項１に記載のシステム。
前記一部が、単語の第１の音の遷移に対応する、請求項１に記載のシステム。
前記一部が、単語の開始時の固定された時間ウインドウに対応する、請求項１に記載のシステム。
前記一部が、
前記音声入力によって受信された前記音声に対応するテキストを使用して音素分割情報を決定することによって、前記音声入力によって受信された前記音声から抽出される、請求項２〜３のいずれか一項に記載のシステム。
前記テキストが、自動音声認識を使用して前記音声入力によって受信された前記音声から抽出される、請求項５に記載のシステム。
前記ポーズ長を計算することが、
前記音声入力によって受信された前記音声に対応するテキストを使用して、前記第１の位置にポーズを挿入するための前記適合性の測定を決定することを備え、
ここにおいて、前記ポーズ長が、前記時間ｔ_iおよび前記適合性の前記測定を使用して計算される、請求項１〜６のいずれか一項に記載のシステム。
前記一部が、単語の少なくとも前記第１の部分に対応し、適合性の前記測定を決定することが、
前記音声入力によって受信された前記音声に対応する前記テキストから、前記第１の位置が前記テキスト内の韻律的区切りに対応するかどうかを決定することを備え、ここにおいて、前記第１の位置が韻律的区切りに対応する場合、適合性の前記測定がより高い、請求項７に記載のシステム。
適合性の前記測定を決定することが、
前記音声入力によって受信された前記音声に対応する前記テキストから、前記単語が１つまたは複数の条件を備えるあらかじめ定められたセットから１つまたは複数の条件を満たすかどうかを決定することを備え、ここにおいて、前記条件が前記テキストの特徴に関連する、請求項７または８のいずれか一項に記載のシステム。
適合性の前記測定を決定することが、
前記第１の位置が韻律的区切りに対応しない場合は、第１のパラメータに０の値を割り振り、韻律的区切りに対応する場合は、第１のパラメータに０より大きいあらかじめ定められた値を割り振ることと、
前記セット内の各条件に対応するさらなるパラメータに値を割り振ることと、ここにおいて、前記単語が前記条件を満たさない場合に前記割り振られる値が０であり、前記単語が前記条件を満たす場合に割り振られる値は０以外のあらかじめ定められた値である、
前記第１のパラメータの前記値と前記さらなるパラメータの値とを組み合わせることによって、前記適合性の前記測定の値を計算することと
を備える、請求項８に従属する場合の請求項９に記載のシステム。
前記音声入力によって受信された前記音声が、単語のシーケンスである文を備え、ここにおいて、前記プロセッサが、
前記文中の単語が続く各位置にポーズを挿入するための適合性の測定を決定し、
前記文が、単語が続く位置にポーズを挿入するための適合性の前記測定が第１のしきい値よりも大きい、２つ以上の隣接単語のシーケンスを備えるかどうかを決定し、
そのような配列がある場合、前記シーケンスの適合性の前記測定を再評価する
ように構成される、請求項７〜１０のいずれか一項に記載のシステム。
前記音声入力によって受信された前記音声が、単語のシーケンスである文を備え、ここにおいて、前記プロセッサが、
前記文中の単語が続く各位置にポーズを挿入するための適合性の測定を決定し、
前記文が、前記単語が続く位置にポーズを挿入するための適合性の前記測定が第２のしきい値未満である、６つ以上の隣接単語のシーケンスを備えるかどうかを決定し、
そのような配列がある場合、前記シーケンスの適合性の前記測定を再評価するように構成される、請求項７〜１１のいずれか一項に記載のシステム。
前記ポーズ長を計算することが、
適合性の前記測定を使用してポーズ強度値ｗ_iを計算することを備え、
ここにおいて、前記ポーズ長が、前記時間ｔ_iに前記ポーズ強度値ｗ_iを乗算することによって計算される、請求項７〜１２のいずれか一項に記載のシステム。
前記ポーズ強度値ｗ_iを計算することが、適合性の前記測定が第３のしきい値Ｉ_b以上であるときに１のポーズ強度値ｗ_iを割り当てることと、適合性の前記測定が前記第３のしきい値Ｉ_b未満であるときに０のポーズ強度値ｗ_iを割り当てることとを備える、請求項１３に記載のシステム。
前記ポーズ強度値ｗ_iを計算することが、適合性の前記測定が第３のしきい値Ｉ_b未満であるときに０のポーズ強度値ｗ_iを割り当てることと、適合性の前記測定が前記第３のしきい値Ｉ_b以上であるときに、適合性の前記測定の単調増加関数からポーズ強度値ｗ_iを計算することとを備える、請求項１３に記載のシステム。
後期残響の前記パワーの時間にともなう前記減衰をモデル化するために、前記時間ｔ_iが、指数関数的減衰関数を使用して計算される、請求項１〜１５のいずれか一項に記載のシステム。
前記時間ｔ_iを計算することが、
残響時の前記音声の前記一部の前記パワーに対する後期残響による前記推定される寄与で除算された前記目標後期残響パワーの対数を計算することと、
減衰時間値を与えるために、残響時間を使用してこの計算値をスケーリングすることとを備え、
ここにおいて、前記時間ｔ_iが前記減衰時間値および０の最大値として計算される、請求項１〜１６のいずれか一項に記載のシステム。
後期残響による前記寄与が、
前記環境の前記インパルス応答を、減衰関数で振幅変調されたパルス列としてモデル化することと、
前記一部のモデル後期残響信号を与えるために、前記インパルス応答のセクションと、前記一部の前のある時間に位置する前記向上された音声信号のセクションとの前記畳み込みを取ることと、
前記モデル後期残響信号の前記パワーを計算することと
によって推定される、請求項１〜１７のいずれか一項に記載のシステム。
音声を向上させる方法であって、
音声入力によって受信された音声の一部を抽出することと、
前記一部のパワーを計算することと、
残響時の、後期残響による、前記音声の前記一部の前記パワーへの寄与を推定することと、
目標後期残響パワーを計算することと、
前記目標後期残響パワーに減衰させるために、後期残響による前記推定される寄与の時間ｔ_iを決定することと、
ポーズ長を計算することと、ここにおいて、前記ポーズ長が前記時間ｔ_iを使用して計算される、
前記計算された長さを有するポーズを、前記音声入力によって受信された前記音声に第１の位置で挿入することと、ここにおいて、前記第１の位置の後に前記一部が続く、
を備える、方法。
コンピュータに、請求項１９に記載の方法を実行させるように構成されたコンピュータ可読コードを備える、搬送媒体。