JP6189970B2

JP6189970B2 - 音／母音／音節境界検出のための聴覚的注意合図と音素事後確率スコアの組み合わせ

Info

Publication number: JP6189970B2
Application number: JP2015544138A
Authority: JP
Inventors: カリンリ−アクバカク、オズレム
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2012-11-29
Filing date: 2013-11-21
Publication date: 2017-08-30
Anticipated expiration: 2033-11-21
Also published as: US9672811B2; US20190005943A1; WO2014085204A1; JP2016502140A; US20170263240A1; CN104756182B; EP2926335A4; EP2926335A1; US20140149112A1; EP2926335B8; US10424289B2; US10049657B2; CN104756182A; EP2926335B1

Description

関連出願の相互参照
本出願は、２０１１年４月１日出願の、「ＳＰＥＥＣＨＳＹＬＬＡＢＬＥ／ＶＯＷＥＬ／ＰＨＯＮＥＢＯＵＮＤＡＲＹＤＥＴＥＣＴＩＯＮＵＳＩＮＧＡＵＤＩＴＯＲＹＡＴＴＥＮＴＩＯＮＣＵＥＳ」と題する、ＯｚｌｅｍＫａｌｉｎｌｉらの共同所有の同時係属米国非仮特許出願第１３／０７８，８６６号に関し、その開示の全体は参照により本明細書に組み込まれる。

連続的発話を複数のセグメントにセグメント化することは、発話分析、自動発話認識（ＡＳＲ）、および発話合成を含む多くの用途に有益である。しかしながら、例えば、発音表記およびセグメント化を手動で決定することは専門知識を必要とし、大規模なデータベースに対するこの過程は困難かつ高価である。それ故に、この問題に対処するために、多くの自動セグメント化および標識方法が過去に提案されてきた。

提案された方法は、［１］Ｐｒｏｃ．ｏｆＩＣＳＬＰ，２００６中のＳ，ＤｕｓａｎａｎｄＬ．Ｒａｂｉｎｅｒ，"Ｏｎｔｈｅｒｅｌａｔｉｏｎｂｅｔｗｅｅｎｍａｘｉｍｕｍｓｐｅｃｔｒａｌｔｒａｎｓｉｔｉｏｎｐｏｓｉｔｉｏｎｓａｎｄｐｈｏｎｅｂｏｕｎｄａｒｉｅｓ"（以下「参考文献［１］」）、［２］Ｐｒｏｃ．ｏｆｌＣＡＳＳＰ，２００８中のｖ．Ｑｉａｏ，Ｎ，Ｓｈｉｍｏｍｕｒａ，ａｎｄＮ，Ｍｉｎｅｍａｔｓｕ，"Ｕｎｓｕｐｅｒｖｉｓｅｄｏｐｔｉｍａｌｐｈｏｎｅｍｅｓｅｇｍｅｎｔａｔｉｏｎ：ｏｂｊｅｃｔｉｖｅｓ，ａｌｇｏｒｉｔｈｍａｎｄｃｏｍｐａｒｉｓｏｎｓ"（以下「参考文献［２］」）、［３］Ｆ．Ｂｒｕｇｎａｒａ，Ｄ，Ｆａｌａｖｉｇｎａ，ａｎｄＭ，Ｏｍｏｌｏｇｏ，"Ａｕｔｏｍａｔｉｃｓｅｇｍｅｎｔａｔｉｏｎａｎｄｌａｂｅｌｉｎｇｏｆｓｐｅｅｃｈｂａｓｅｄｏｎｈｉｄｄｅｎｍａｒｋｏｖｍｏｄｅｌｓ，"ＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎ，ｖｏｌ．１２，ｎｏ，４，ｐｐ，３５７−３７０，１９９３（以下「参考文献［３］」）、［４］Ｐｒｏｃ．ｏｆＩＣＳＬＰ，２００２中のＡ．ＳｅｔｈｙａｎｄＳ，Ｓ，Ｎａｒａｙａｎａｎ，"Ｒｅｆｉｎｅｄｓｐｅｅｃｈｓｅｇｍｅｎｔａｔｉｏｎｆｏｒｃｏｎｃａｔｅｎａｔｉｖｅｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ"（以下「参考文献［４］」）、および［５］Ｐｒｏｃ．ｏｆＩＣＡＳＳＰ，２００７中のｖ．Ｅｓｔｅｖａｎ，Ｖ，Ｗａｎ，ａｎｄＯ，Ｓｃｈａｒｅｎｂｏｒｇ，"Ｆｉｎｄｉｎｇｍａｘｉｍｕｍｍａｒｇｉｎｓｅｇｍｅｎｔｓｉｎｓｐｅｅｃｈ"（以下「参考文献［５］」）を含む。

これら提案された方法は、ＯｚｌｅｍＫａｌｉｎｌｉによる"ＡｕｔｏｍａｔｉｃＰｈｏｎｅｍｅＳｅｇｍｅｎｔａｔｉｏｎＵｓｉｎｇＡｕｄｉｔｏｒｙＡｔｔｅｎｔｉｏｎＦｅａｔｕｒｅｓ"（ＩＮＴＥＲＳＰＥＥＣＨ２０１２，１３ｔｈＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎＡｓｓｏｃｉａｔｉｏｎ，Ｐｏｒｔｌａｎｄ，Ｏｒｅｇｏｎ，ＵＳＡ，Ｓｅｐｔｅｍｂｅｒ９−１３，２０１２）と題する音素セグメント化の論文に引用される、参考文献［１、２、３、４、５］に対応し、これは参照により本明細書に組み込まれる。

提案されたセグメント化方法の第１のグループは、常に利用可能ではない音写を必要とする。音写が利用可能でないとき、セグメント化のために音素認識装置を使用することを検討してもよい。しかしながら、ＨＭＭのような発話認識技術は、音配列の正しい識別のために最適化されているため、音境界を正確に判別できない。参考文献［４］を参照されたい。方法の第２のグループは、いかなる音写の予備知識または音素の音響モデルも必要としない。しかし、通常はそれらの性能は限られている。

本開示の態様が生じるのはこの脈絡においてである。

本発明の一実施形態に従う、発話内の音節／母音／音境界検出のための方法を図示する流れ図である。本発明の実施形態において使用することができるスペクトル経時的受容フィルタの例を図示する概略図である。本発明の実施形態において使用することができるスペクトル経時的受容フィルタの例を図示する概略図である。本発明の実施形態において使用することができるスペクトル経時的受容フィルタの例を図示する概略図である。本発明の実施形態において使用することができるスペクトル経時的受容フィルタの例を図示する概略図である。本発明の実施形態において使用することができるスペクトル経時的受容フィルタの例を図示する概略図である。本開示の態様に従う、境界検出のために聴覚的注意特徴を音事後確率と組み合わせる一手段を図示する流れ図である。本開示の態様に従う、境界検出のために聴覚的注意特徴を音事後確率と組み合わせる別の手段を図示する流れ図である。本発明の一実施形態に従う、発話内の音節／母音／音境界検出のための装置を図示するブロック図である。本発明の一実施形態に従う、発話内の音節／母音／音境界検出のための装置のセルプロセッサの実現の一例を図示するブロック図である。

以下の詳細な説明は、例示の目的のために多くの具体的詳細を含むが、当業者であれば誰でも、以下の詳細についての多くの変形および変更が本発明の範囲内であることを理解するだろう。したがって、以下に説明される本発明の例示的実施形態は、特許請求される発明に対する一般性の喪失なしに、かつそれに制限を課すことなく記載される。

［序文］
聴覚的注意特徴を使用する境界検出方法が提案されている。境界の精度をさらに改善するために、音素事後確率を聴覚的注意特徴と組み合わせることができる。音素事後確率は、音響特徴（ｍｆｃｃ、メルフィルタバンクなど）を与えられた音素クラス事後確率スコアを推定するモデル（例えば、深いニューラルネットワーク）を訓練することによって取得される。事後確率は互いと混同される傾向があるため、通常は境界周辺でこれらモデルの音素分類精度が低下する、即ち、音素セグメントの境界において明確な勝者クラスが典型的にない一方で、音素セグメントの中央では勝者（例えば、事後確率スコアの最大値）は明確であることが知られている。これは確かに、境界検出の目的のために非常に有用な情報である。音素事後確率を聴覚的注意特徴と組み合わせることによって、境界検出性能がさらに改善され得ることが提案される。現在のフレームの音素事後確率を、この目的のために使用することができる。さらに、近傍のフレームの事後確率は、コンテキスト情報を使用することによっても性能を改善するのにさらに役立ち得る。

本開示において、聴覚的注意特徴を音事後確率と組み合わせる新手のセグメント化方法が提案される。このアルゴリズムは、音写を必要とせず、セグメント化を正確に遂行することができる。

聴覚的注意特徴のみを使用する境界検出方法は、２０１１年４月１日出願の米国特許出願第１３／０７８，８６６号において説明されており、その全内容は参照により本明細書に組み込まれる。境界の精度をさらに改善するために、音素事後確率を聴覚的注意特徴と組み合わせることができる。音素事後確率は、音響特徴（ｍｆｃｃ、メルフィルタバンクなど）を与えられた音素クラス事後確率スコアを推定するモデル（例えば、深いニューラルネットワーク）を訓練することによって取得され得る。事後確率は互いとより混同しやすくなるため、通常は境界の周辺でこれらモデルの音素分類精度が低下することが知られている。例えば、音素事後確率が境界周辺にあるとき明確な勝者クラスがない一方で、音素セグメントの中央では勝者（例えば、事後確率スコアの最大）は明確である。これは確かに、境界検出目的のために非常に有用な情報である。したがって、音素事後確率を聴覚的注意特徴と組み合わせることによって、境界検出性能がさらに改善され得ることがここに提案される。現在のフレームの音素事後確率を、この目的のために使用することができる。さらに、近傍のフレームの事後確率は、コンテキスト情報を使用することによっても性能を改善するのにさらに役立ち得る。

［考察］
本開示の態様において、記録された音声に対応する信号を分析して、例えば音素境界などの境界を決定することができる。かかる境界検出は、この信号から聴覚的注意特徴を抽出すること、およびこの信号から音素事後確率を抽出することによって、実現することができる。次に聴覚的注意特徴および音素事後確率を組み合わせて、この信号内の境界を検出することができる。本開示の詳細は、以下の通りに要約され得る：第１の聴覚的注意特徴の抽出を説明する。次に、音事後確率の抽出を説明する。次に、境界検出のために聴覚的注意特徴および音素事後確率を組み合わせるための、２つの提案される手法を説明する。

本開示において、発話の音素セグメント化のために聴覚的注意合図を使用する新手の方法を提案する。いかなる動作理論に限定されることなく、提案される方法の背景にある動機は以下の通りである。発話スペクトルにおいて、それらは高エネルギーおよび明確なフォルマント構造を示すため、音素境界周辺、特に母音周辺にエッジおよび局所的不連続を通常は見ることができる。例えば、上述の論文"ＡｕｔｏｍａｔｉｃＰｈｏｎｅｍｅＳｅｇｍｅｎｔａｔｉｏｎＵｓｉｎｇＡｕｄｉｔｏｒｙＡｔｔｅｎｔｉｏｎＦｅａｔｕｒｅｓ"の図１において、「彼のキャプテンは（ｈｉｓｃａｐｔａｉｎｗａｓ）」として音写される発話セグメントのスペクトルが、おおよその音素境界と共に示されている。このスペクトルにおいて、例えば母音ｉｈ、ａｅ、ｉｘなどの境界などの音素境界に対応するこれら境界のうちのいくつかを目視観察できる。したがって、関連する配向エッジおよび聴覚スペクトル内の不連続を検出することによって、即ち、視覚的になされるように、発話内の音素セグメントおよび／または境界を位置付けることができる、ということが考えられている。

聴覚的注意特徴の抽出
聴覚的注意合図は、生物学的に刺激され、ヒト聴覚系における処理段階を模倣することによって抽出される。一組の多重スケール特徴は、中枢聴覚系における処理段階に基づいて、２Ｄスペクトル経時的フィルタを使用して、音響スペクトルから抽出され、低レベルの聴覚的要点特徴に変換される。文献中の先行技術とは異なり、聴覚的注意モデルは、エッジならびに局所時間的およびスペクトル的不連続を検出するための画像のように、音響の２Ｄスペクトルを分析する。したがって、それは、発話内の境界を成功裏に検出する。

聴覚的注意モデルでは、聴覚スペクトルは視覚的場面の画像に類似するものと見なされ得、対照特徴は複数のスケール内のスペクトルから２Ｄスペクトル経時的受容フィルタを使用して抽出される。抽出された特徴は、異なる局所的配向エッジに調整され得る：例えば、周波数対照特徴は、フォルマントおよびそれらの変化を検出およびキャプチャするために優れる局所的水平配向エッジに調整され得る。次に、低レベルの聴覚的要点特徴が取得され得、ニューラルネットワークを使用して関連する配向エッジを発見し、要点特徴と音素境界との間のマッピングを学習することができる。

入力発話信号からの聴覚的注意合図の抽出は、以下の通りに進めることができる。第１のスペクトルは、初期の聴覚系モデルまたは高速フーリエ変換（ＦＦＴ）に基づいて計算することができる。次に、中枢聴覚系に基づいて多重スケール特徴を抽出することができる。次に、センター−サラウンド差異を計算することができ、微細なスケールとより粗いスケールを比較することができる。各特徴マップをｍ行ｎ列のグリッドに分割し、グリッドの各少区域の平均を計算することによって、聴覚的要点特徴を計算することができる。次に、例えば、原理成分分析（ＰＣＡ）および／または離散コサイン変換（ＤＣＴ）を使用して、聴覚的要点特徴の寸法および重複性を低減することができる。次元縮小および重複性の低減は、本明細書において聴覚的要点と称される最終的な特徴を生成する。

聴覚特徴抽出の詳細は、米国特許出願第１３／０７８，８６６号において説明されている。注意モデルのブロック図および特徴抽出の流れ図を図１Ａに示す。図１Ａの流れ図は、本開示の態様に従う、聴覚的注意合図を使用する発話内の音節／母音／音境界検出のための方法を図示する。聴覚的注意モデルは、生物学的に刺激され、ヒト聴覚系における処理段階を模倣する。それは、音響信号がいつどこで人の注意を引きつけるかを決定するように設計されている。

初めに、音響の入力ウィンドウ１０１が受信される。限定としてではなく、例として、この音響の入力ウィンドウ１０１は、特定の音響の入力ウィンドウ１０１を特徴付ける音波をさらなる処理のための電気信号に変換する働きをするマイクロフォンを使用して、いくらかの有限継続時間の時間ウィンドウ上でキャプチャされ得る。音響の入力ウィンドウ１０１は、人の発話の任意のセグメントであり得る。限定としてではなく、例として、音響の入力ウィンドウ１０１は、単一の音節、単語、文章、またはこれらの任意の組み合わせを含んでもよい。

音響の入力ウィンドウ１０１は、次に、この音響のウィンドウ１０１を音声スペクトル１０５に変換するように動作する一組の処理段階１０３を通される。これらの処理段階１０３は、例えばヒト聴覚系などの聴覚系の初期の処理段階に基づき得る。限定としてではなく、例として、処理段階１０３は、蝸牛フィルタリング、内有毛細胞、および聴覚系内の鼓膜基底板から蝸牛神経核への過程を模倣する側方抑制段階から成る場合がある。蝸牛フィルタリングは、対数周波数軸に沿って均一に分布される中心周波数を有する、１２８の重なり定Ｑ非対称バンドパスフィルタのバンクを使用して実現することができる。これらのフィルタは、目的を持って作られ得る、適切に構成された電子ハードウェアによって実現されてもよい。あるいは、フィルタは、フィルタの機能を実現するソフトウェアをプログラムされた汎用コンピュータ上で実現されてもよい。分析のために、１０ｍｓのシフトを有する２０ｍｓの音声フレームを使用することができ、これは、それぞれが１２８次元のベクトルによって表される音声フレームをもたらす。

音響の入力ウィンドウ１０１が聴覚スペクトル１０５に変換されると、１０７において示される通り、中枢聴覚系内の情報処理段階を模倣することにより、多重スケール特徴１１７を抽出することによってスペクトル１０５が分析される。聴覚的注意は、例えば、強度（またはエネルギー）、周波数、時間、ピッチ、音色、ＦＭ方向、または傾き（ここでは「配向」と呼ばれる）などの、多種多様な聴覚特徴によってキャプチャされるか、またはそれらに自主的に向けられ得る。これらの特徴は、一次聴覚皮質内の受容野を模倣するように選択および実現され得る。

限定としてではなく、例として、モデル内に含まれ前述の特徴を包含し得る４つの特徴は、強度（Ｉ）、周波数対照（Ｆ）、時間的対照（Ｔ）、およびθ＝｛４５°，１３５°｝である配向（Ｏ_θ）である。強度特徴は、信号の強度またはエネルギーに関連する信号特性をキャプチャする。周波数対照特徴は、信号のスペクトル（周波数）変化に関連する信号特性をキャプチャする。時間的対照特徴は、信号の時間的変化に関連する信号特性をキャプチャする。配向フィルタは、信号内の移動するリップルに対して敏感である。

各特徴は、一次聴覚皮質内の特定の受容野を模倣する２次元スペクトル経時的受容フィルタ１０９、１１１、１１３、１１５を使用して抽出することができる。図１Ｂ〜１Ｆはそれぞれ、受容フィルタ（ＲＦ）１０９、１１１、１１３、１１５の例を図示する。特長抽出のためにシミュレートされる受容フィルタ（ＲＦ）１０９、１１１、１１３、１１５のそれぞれは、抽出される特長に対応するグレースケール画像と共に図示される。励振位相１１０および抑制位相１１２は、それぞれ白および黒色で示される。

これらフィルタ１０９、１１１、１１３、１１５のそれぞれは、信号特性の特定の変化を検出およびキャプチャすることができる。例えば、図１Ｂに図示される強度フィルタ１０９は、音響の入力ウィンドウの継続時間にわたる強度／エネルギーの変化を検出およびキャプチャするように、特定の区域に対して選択性のある励振位相のみを有する聴覚皮質内の受容野を模倣するように構成され得る。同様に、図１Ｃに表される周波数対照フィルタ１１１は、励振位相および同時対称抑制サイドバンドを有する一次聴覚皮質内の受容野に対応するように構成され得る。図１Ｄに図示される時間的対照フィルタ１１３は、抑制位相およびその後の励振位相を有する受容野に対応するように構成され得る。

聴覚スペクトルは、視覚的場面の画像に類似すると考えることができ、これらの特徴のいくつかは、異なる局所的配向エッジに調整される；即ち、周波数対照特徴は局所的水平配向エッジに調整され、これはフォルマントおよびそれらの変化を検出およびキャプチャするために良好であり得る。言い換えると、図１Ｃに示される周波数対照フィルタ１１１は、音響ウィンドウの継続時間にわたるスペクトル変化を検出およびキャプチャする。図１Ｄに示される時間的対照フィルタ１１３は、時間的領域内の変化を検出およびキャプチャする。配向フィルタ１１５’および１１５’’は、移動するリップルに対する聴覚ニューロン反応の動態を模倣する。配向フィルタ１１５’は、リップルが上方に移動しているときを検出およびキャプチャするように、図１Ｅに示す通り４５°の配向を有する励振および抑制位相で構成され得る。同様に、配向フィルタ１１５’’は、リップルが下方に移動しているときを検出およびキャプチャするように、図１Ｆに示す通り１３５°の配向を有する励振および抑制位相で構成され得る。１つの重要な点は、このモデルでは、絶対特徴強度ではなく特徴対照が計算されることであり、これは変化点／境界検出およびセグメント化のために決定的である。

周波数対照１１１、時間的対照１１３、および配向特徴１１５を生成するためのＲＦは、様々な角度で２次元ガボール（Ｇａｂｏｒ）フィルタを使用して実現され得る。周波数および時間的対照特徴に使用されるフィルタは、それぞれ水平および垂直配向フィルタとして解釈することができ、０°および９０°配向の２次元ガボールフィルタで実現することができる。同様に、配向特徴は、｛４５°，１３５°｝配向の２次元ガボールフィルタを使用して抽出され得る。強度特徴１０９を生成するためのＲＦは、２次元ガウスカーネルを使用して実現される。

特徴抽出１０７は、マルチスケールプラットフォームを使用して完了される。既定のデータセットのスケール空間表現を生成する動機は、オブジェクトは異なるスケールの異なる構造で構成されているという基礎観測に由来する。未知のデータのセットを分析するシステムでは、データに関連する興味深い構造を説明するためにどのようなスケールが適当かを事前に知る手段がない。それ故に、唯一の合理的な手法は、発生し得る未知のスケール変動をキャプチャするために、複数のスケールでの説明を考慮することである。本発明の実施形態では、多重スケール特徴１１７は、二項ピラミッドを使用して取得され得る（即ち、入力スペクトルはフィルタをかけられ、２分の１に間引かれ、これが繰り返される）。結果として、８つのスケールが作製され（ウィンドウの継続時間が１．２８秒を超える場合であり、さもなければより少ないスケールがある）、１：１（スケール１）〜１：１２８（スケール８）の範囲のサイズ減少係数をもたらす。

多重スケール特徴１１７の取得後、１１９に示されるように、これらの多重スケール特徴１１７を使用して特徴マップ１２１が生成される。これは、「センター」（微細）スケールを「サラウンド」（より粗い）スケールと比較することを伴う、「センター−サラウンド」差異を計算することによって達成される。センター−サラウンド操作は、局所的皮質抑制の性質を模倣し、局所時間的および空間的不連続を検出する。これは、「センター」の微細スケール（ｃ）と「サラウンド」のより粗いスケール（ｓ）との間の全体のスケールの減算（θ）によってシミュレートされ、特徴マップＭ（ｃ，ｓ）：Ｍ（ｃ，ｓ）＝｜Ｍ（ｃ）θＭ（ｓ）｜，Ｍ∈｛Ｉ，Ｆ，Ｔ，Ｏ_θ｝をもたらす。２つのスケールの間の全体のスケールの減算は、より微細なスケールへの補間および点別の減算によって計算される。限定としてではなく、例として、ｃ＝｛２，３，４｝であり、ｓ＝ｃ＋δであり、δ∈｛３，４｝が使用され得、これは、８つのスケールで特徴が抽出される際、合計３０の特徴マップをもたらす。

次に、１２３に示されるように、聴覚的要点ベクトル１２５の合計が低解像度の入力音響ウィンドウ１０１にカバーするように、Ｉ，Ｆ，Ｔ，Ｏ_θの各特徴マップ１２１から、「聴覚的要点」ベクトル１２５が抽出され得る。既定の特徴マップ１２１に対する聴覚的要点ベクトル１２５を決定するため、特徴マップ１２１は、まず少区域のｍ行ｎ列のグリッドに分割され、各少区域の、例えば最大値、最小値、平均値、標準偏差などの統計が計算され得る。限定としてではなく、例として、各少区域の平均値を計算して、マップの総合的性質をキャプチャすることができる。高さｈおよび幅ｗを有する特徴マップＭ_ｉについては、聴覚的要点ベクトルの計算は、以下のように記述され得る。

ｍ＝４、ｎ＝５である聴覚的要点ベクトル抽出１２３の一例が図１に示され、ここで、特徴マップを表すために２０次元の聴覚的要点ベクトルが使用され得る。これらのｍおよびｎの特定の値は、本発明のいかなる実施形態を制限するものとしてではなく、例示の目的で提供される。

各特徴マップ１２１から聴覚的要点ベクトル１２５を抽出した後、聴覚的要点ベクトルを増補し組み合わせて、累積的要点ベクトルを作製することができる。累積的要点ベクトルは次に次元縮小１２７を経て、音節／母音／音境界検出をより実用的にするために次元および重複性を低減することができる。限定としてではなく、例として、次元縮小１２７のために主成分分析（ＰＣＡ）を使用してもよい。次元縮小１２７の結果は、より少ない次元の累積的要点ベクトル内の情報を伝達する、本明細書において聴覚的要点特徴１２９と称される最終的な特徴である。ＰＣＡは、パターン認識における主要技術として一般的に使用される。一般的に理解されるように、ＰＣＡは、データの任意の投射による最大分散が、第１の座標（第１の主成分と呼ばれる）に置かれる用になり、第２の最大分散が第２の座標に置かれる用に成る、などとなるように、データを新しい座標系に変換する直交線形変換として数学的に定義される。ＰＣＡは、適切に構成されたソフトウェアをプログラムされたコンピュータ上で実現され得る。ＰＣＡを通じて次元縮小を実現することができる商業的に入手可能なソフトウェアの例としては、ＭａｔｈＷｏｒｋｓ，Ｉｎｃ．ｏｆＮａｔｉｃｋ，Ｍａｓｓａｃｈｕｓｅｔｔｓ，Ｕ．Ｓ．Ａ．によるＭａｔｌａｂ、またはＵｎｉｖｅｒｓｉｔｙｏｆＷａｉｋａｔｏ，ＮｅｗＺｅａｌａｎｄで開発されたＷｅｋａ機械学習ソフトウェアが挙げられる。あるいは、例えば因子分析、カーネルＰＣＡ、線形判別分析（ＬＤＡ）、および同類のものなどの他の線状および非線形次元縮小技術を使用して、次元縮小１２９を実現してもよい。

入力音響ウィンドウ１０１を特徴付ける聴覚的要点特徴１２７’が決定された後、聴覚的要点特徴および音事後確率から、音境界、母音境界、音節核、または音節境界が検出され得る。既定の入力音響ウィンドウ上でかかる検出を遂行するため、例えばニューラルネットワーク、最近傍分類器、決定木、および同類のものなどの機械学習アルゴリズム１３１を使用して、例えば音境界、母音境界、音節核、または音節境界などの境界を分類することができる。限定としてではなく、例として、ニューラルネットワークは、生物学的によく動機付けられるため、機械学習アルゴリズム１３１として使用することができる。そのような場合、ニューラルネットワーク１３１は、それに関連する累積的要点ベクトルを与えられる入力音響内の音境界、母音境界、音節核、または音節境界を識別することができる。

本明細書で使用される場合、用語「ニューラルネットワーク」とは、計算のコネクショニスト手法に基づいて情報を処理するための計算的／数学的モデルを使用する、自然または人工ニューロンの相互接続されたグループを意味する。ニューラルネットワークは、ネットワーク全体を流れる外部または内部情報に基づいて構造を変化させる適応システムである。それらは、非線形統計データのモデル化を実現するために使用され、入力と出力との間の複雑な関係をモデル化するために使用され得る。

ニューラルネットワーク出力推定値は、ｉ）硬判定、ｉｉ）軟判定という２つの方法で使用され得る。硬判定では、ニューラルネットワークの最終決定は二分決定として使用される；例えば、１つのフレームにおいて境界がある場合、１、さもなければゼロを出力する。軟判定では、［０，１］の間の値であるニューラルネットワーク確率スコアを、注意特徴を与えられた境界である現在のフレームの事後確率として使用することができる。また、軟判定では、推定事後確率を別のシステムに供給し、別の供給源からの情報と組み合わせて、いずれかのシステムの性能をさらに改善することができる。例えば、境界情報を使用して、発話認識性能を改善するか、または発話認識エンジンからの補足情報を使用して境界検出性能などをさらに改善することができる。さらに、本発明の特定の実施形態は、セグメント内の音節の数、例えば、毎秒または毎発声の音節の数（これは発声速度を推定するために使用され得る）に関する情報を随意に提供することもできる。次に、推定発声速度を使用して、他の口語処理アプリケーションを改善すること、例えば、発話速度に基づいて適当な音響モデルを選択すること、または発話の感情的セグメントを見つけることなどによって、発話認識性能を改善することができる。

音節／音／母音境界情報は、単独で、または発話認識などの他の口語処理システムを改善するために使用され得る。また、音／母音／音節境界を階級系として考えることができる。１種類の境界からの情報を使用して別の種類の境界を改善することもできる；即ち、母音境界情報を使用して音または音節境界検出を改善することができる。また、本発明の実施形態は、全ての種類の発話および発声スタイルならびに雑音条件、即ち、分離した発話、連続的発話、自発的発話、演説、クリーン／雑音の多い発話などの分析のために使用され得る。

音事後確率：
音事後確率の抽出は、音認識装置と同様である。基本的に、音響特徴が発話から抽出され、モデルまたは音モデルは、特徴と音との間のマッピングを学習するように訓練される。

限定としてではなく、例として、音事後確率は以下の通りフレーム毎に抽出され得る。音分類のために使用される第１の音響特徴は、各発話フレームに対して抽出され得る。発話は、シフティングウィンドウを使用して処理され得る；例えば、音響特徴は、１０ミリ秒（ｍｓ）毎に抽出され得る。特徴は、ＭＦＣＣ、メルフィルタバンク特徴、ＰＬＰ、聴覚的注意特徴、韻律特徴など、またはこれらの組み合わせであってもよい。コンテキストをキャプチャするため、複数のフレームの特徴を増補して、より大きな次元の特徴ベクトルを形成することができる。典型的に、フレームの数は約９〜２５フレームで変動し得る。次に、機械学習アルゴリズムを使用して、特徴と音クラスとの間のマッピングを学習することができる；例えば、ニューラルネットワーク、ｓｖｎ、ＨＭＭ、ＤＢＮ（深い信念ネットワーク）が、音分類または認識のために使用されるかかるツールの種類に含まれる。

限定としてではなく、例として、Ｊ．ＬｅｅａｎｄＳ．−Ｙ．Ｌｅｅ，Ｉｎｔｅｒｐｓｅｅｃｈ２０１１による"ＤｅｅｐＬｅａｒｎｉｎｇｏｆＳｐｅｅｃｈＦｅａｔｕｒｅｓｆｏｒＩｍｐｒｏｖｅｄＰｈｏｎｅｔｉｃＲｅｃｏｇｎｉｔｉｏｎ"に記載される最新鋭の音分類器を使用して、音事後確率を取得することができる。

数値例として、２５ｍｓの分析ウィンドウを１０ｍｓのシフトと共に使用して、２６バンドの対数メルスペクトル特徴を抽出することができる。２１０ｍｓの時間コンテキストに対応する２１の連続したフレームを増補して、５４６次元の特徴ベクトルを作製することができる。特徴は、ＤＢＮに供給される前に正規化された平均および分散であってもよい。

例として、ＤＢＮは、線形単位（５４６入力を取る）の１つの入力層、１０００二進単位の３つの隠れ層、および正規ロジスティック単位の１つの出力層を有し得る。実験では、原初の６１ＴＩＭＩＴ音クラスを使用した。しかしながら、副音素表現はモデル化を改善するため、音素の副音素表現を使用してもよい。各音素は３つの時間的状態を有すると仮定され、したがってＤＢＮの出力層は６１×３＝１８３出力を有する。

ＤＢＮを訓練するために、ＴＩＭＩＴ訓練データセットを使用することができる。副音素ラベルを取得するために、均一セグメント化がまず遂行される。ネットワークが収束した後、状態の再整合が、ビタビ（Ｖｉｔｅｒｂｉ）強制整合によって行われる。このアルゴリズムは、教師なしの手段（事前訓練）において層毎に初期化される単純な発生モデルの層と、その後の教師ありの技術を使用する全層の弁別訓練を特徴とする。より低いものからより高いものへ各層を事前訓練することは、制限されたボルツマンマシン（ＲＢＭ）に基づく教師なし学習アルゴリズムを使用して行われ、最終的な教師あり訓練は、その最終的な分類のためにネットワークを微調整するように周知の誤差逆伝播法アルゴリズムを使用して行われ得る。この訓練は、モデルパラメータが収束するまで、言い換えると、検証セットにおける誤差が増加し始めるまで繰り返される。ＤＢＮ構成および訓練手順のモデルの更なる詳細は、Ｌｅｅらによる論文（以前に引用）に見出すことができる。

ＤＢＮモデルが訓練されると、音クラス事後確率を抽出するために使用され得る。そのために、繰り返すが、対数メル特徴は音響から抽出される。次に、２１のフレームからの特徴は各フレームに対して増補され、ＤＢＮに供給され得る。ＤＢＮの出力において、各状態（副音素）に対する事後確率スコアが取得される。各フレームに対する音素事後確率スコアを取得するために、各音素に対する３つの状態の確率が単純に平均化される。

境界検出のための聴覚的注意特徴と音事後確率の組み合わせ
境界検出のために聴覚的注意特徴を音事後確率と組み合わせる１つの方法２００ａを、図２Ａに図示する。本明細書において「初期融合」と称されるこの技術において聴覚的注意（ＡＡ）特徴２３２および音事後確率（ＰＰ）２３４は、例えば、上述のように、音響信号から並行して抽出され得る。ＡＡ特徴および音事後確率は、増補されて機械学習アルゴリズム２３８、例えば、境界の推定のための３層ニューラルネットワーク（ＮＮ）に送信され得る。

例えば、音境界検出実験のために、ＴＩＭＩＴコア試験セット（１９２文）が試験のために使用され得、残りの公式試験セットは開発データとして使用される。開発データについては、ＡＡモデルを使用して第１の聴覚的注意特徴が抽出され得る。並行して、ＴＩＭＩＴ訓練セットを使用して訓練され得る、訓練されたＤＢＮモデルから対数メル特徴を渡す６１の音素事後確率が、各フレームに対して抽出される。次に、音素事後確率スコアは正規化され、各フレームに対して１に合計される。

３層ニューラルネットワーク２３８は、音境界分類のために使用され、ここで、ニューラルネットワークは、Ｄ入力（Ｄ＝Ｄ_ＡＡ＋ＡＡ特徴のＤ_ＰＰ次元プラス音事後確率の次元）、（Ｎ＋Ｄ）／２の隠れ単位、およびＮ＝２の出力単位（境界対非境界）を有する。ここで、１つの単一フレームからの音事後確率が上述のＤＢＮと併せて使用されるとき、ＤＢＮから取られた６１の音事後確率があるため、Ｄ_ＰＰ＝６１である。コンテキストも、音事後確率から音境界をトレースするためにも使用され得る。例えば、最高事後確率スコアを有する音を、そのフレームに対する音クラスとして割り当てることができる。同様に、音分類は以前または後続のフレームに対して遂行され得る。次に、音指数が１つのフレームから別のフレームに変化する場合、それは境界の存在を示す。コンテキストが使用されるとき、近傍の左および／または右フレームの音素事後確率も増補され得、これはより大きな特徴ベクトルをもたらす。例として、３つのコンテキストフレーム（現在のフレームならびに近傍の左および右フレームを含む）が使用され、６１×３＝１８３の音事後確率がＮＮに供給され、ここでＤ_ＰＰ＝１８３である。現在のフレームおよび近傍のフレームに対する推定音素指数ですら、境界検出のためにＮＮに供給され得る。例えば、特定の実験では、単一のフレーム、３つのコンテキストフレーム、および５つのコンテキストフレームを使用した。

図２Ｂに表される代替的な実施例２００ｂでは、２つの境界分類器２３８ａ〜ｂを、それぞれ１）聴覚的注意特徴２３８ａ、２）音事後確率２３８ｂを使用して訓練することができる。これらの分類器の出力は、境界事後確率、例えば、第１の次元が境界である確率を表し、第２の次元が非境界である確率を表す、２次元特徴である。２つの異なる分類器からのこれらの境界事後確率を使用する較正段階２３９の間、最良の性能を提示する重みを見つけるための回帰を使用する（即ち、ロジスティック線形回帰を使用する）か、またはデータ駆動型方式において、例えば、機械学習アルゴリズムまたは同様のアルゴリズムを使用するかのいずれかで、性能を最大化することができる。繰り返すが、コンテキストが使用され得、例えば、近傍のフレーム境界確率も較正段階の間に含まれ得る。

実験
ＴＩＭＩＴ上の音境界検出のための実験を行った。しかしながら、上記の見解は、例えば母音の終わり、音節核、音節核の中央および終わり、または音節の終わりなどの、発話内の母音境界および他の境界の検出のためにも使用され得る。

ニューラルネットワークは、そのフレームが境界である確率を返す。次に、ニューラルネットワーク確率スコアを使用して時間の関数としての１次元曲線を作製するように、軟判定を使用することができる。次に、その曲線にピーク検索を行い、閾値を超える場合に検出された境界としてカウントされる極大値を位置決定することができる。他の方法において行われるように、必要な場合は音素境界の周りの２０ｍｓの誤差を容認した。

閾値は、境界情報を使用する次のアプリケーションが必要とする通りに選択することができる。例えば、閾値を低下させることは、精度を低下させつつ（より多くの誤警報がある場合がある）リコール率を上昇させる（またはより多くの境界を検出する）が、閾値を上昇させることは、精度を上昇させ、リコールを減少させる。ここで、表１の結果については単純に０．５の閾値を選択し、パラメータ調整を回避した。

異なる方法で取得した結果の比較を以下に示す。表１において、「Ｄｕｓａｎら」および「Ｑｕｉａｏら」という注記は、上述の参考文献［１］および参考文献［２］に記述した以前の方法を意味する。音認識のためのＤＢＮフレームレベル音分類およびＤＢＮプラスビタビ復号は、ＤＢＮを直接使用して抽出した２つの音素境界検出の基準値である。ＤＢＮフレームレベル音分類では、１つのフレームから後続のフレームに音クラスが変化するたび、検出される境界をマークする。ビタビ復号器を通じて音素事後確率スコアを渡すことによって音認識が採用されるとき、発声に対応する音素列がそれらの音素境界と共に返される。表１では、聴覚的注意（ＡＡ）特徴およびｘフレーム事後確率（ＡＡ＋ＰＰ＿ｘｆ）を有する音事後確率（ＰＰ）を組み合わせることによって達成された音素境界検出結果も示され、ここで、ｘはフレームの数を表す。結果を以下の表１に示す。

上記の表１から解るように、聴覚的注意を音素事後確率スコアと組み合わせることは、総合的なＦ−スコアを改善し、３０％を超える相対的改善を提供することにより、基準値および以前に報告された数値をしのぐ。

本開示の態様に従う聴覚的注意と音素事後確率の組み合わせは、様々な音声認識（ＶＲ）アプリケーションにおいて有利に使用され得る。例えば、この技術を使用して、音素認識率を改善すること、および自動音声認識（ＶＲ）のロバスト性を改善することができる。本開示の態様を使用して、ＶＲの信頼基準を改善することもできる。

本開示の態様の具体的な用途は、ハミングまたは単に単一の母音音声による、歌もしくは音声検索を含む。本開示の態様は、発話合成においても使用され得る。本開示の態様は、発声速度を推定するため、歌のテンポを推定するため、音声の採点（歌の採点よりも一般的）を改善するためにも使用され得る。

本発明の実施形態は、適切に構成されたコンピュータ装置上で実現され得る。図３は、本発明の一実施形態に従う、音素事後確率と組み合わせた聴覚的注意合図を使用する音／音節／母音境界検出の方法を実現するために使用され得るコンピュータ装置のブロック図を図示する。装置３００は、プロセッサモジュール３０１およびメモリ３０５を一般的に含み得る。プロセッサモジュール３０１は、１つ以上のプロセッサコアを含み得る。複数のプロセッサモジュールを使用する処理システムの一例はセルプロセッサであり、その例は、例えば、ｈｔｔｐ：／／ｗｗｗ−３０６．ｉｂｍ．ｃｏｍ／ｃｈｉｐｓ／ｔｅｃｈｌｉｂ／ｔｅｃｈｌｉｂ．ｎｓｆ／ｔｅｃｈｄｏｃｓ／１ＡＥＥＥ１２７０ＥＡ２７７６３８７２５７０６０００６Ｅ６１ＢＡ／＄ｆｉｌｅ／ＣＢＥＡ＿０１＿ｐｕｂ．ｐｄｆにてオンラインで入手可能なＣｅｌｌＢｒｏａｄｂａｎｄＥｎｇｉｎｅＡｒｃｈｉｔｅｃｔｕｒｅに詳述されており、これは参照により本明細書に組み込まれる。

メモリ３０５は、集積回路、例えば、ＲＡＭ、ＤＲＡＭ、ＲＯＭ、および同類のものの形態であってもよい。メモリ３０５はまた、プロセッサモジュールの全てからアクセス可能なメインメモリであってもよい。いくつかの実施形態では、プロセッサモジュール３０１は、各コアに関連するローカルメモリを有し得る。プログラム３０３は、プロセッサモジュール上で実行可能なプロセッサ可読命令の形態で、メインメモリ３０５内に記憶され得る。プログラム３０３は、音素事後確率と組み合わせた聴覚的注意合図を使用して、音響のウィンドウ上で境界検出を遂行するように構成され得る。プログラム３０３は、任意の適切なプロセッサ可読言語、例えば、Ｃ、Ｃ＋＋、ＪＡＶＡ（登録商標）、アセンブリ、ＭＡＴＬＡＢ、ＦＯＲＴＲＡＮ、および多数の他の言語で書かれ得る。入力データ３０７も、メモリ内に記憶され得る。かかる入力データ３３７は、音響の入力ウィンドウ、特徴マップ、または聴覚的要点ベクトルを含み得る。プログラム３０３の実行中、プログラムコードおよび／またはデータの複数の部分は、複数のプロセッサコアによる並行処理のために、メモリまたはプロセッサコアのローカルストア内にロードされ得る。

装置３００はまた、例えば、入力／出力（Ｉ／Ｏ）要素３１１、電源（Ｐ／Ｓ）３１３、クロック（ＣＬＫ）３１５、およびキャッシュ３１７などの、周知の支援機能３０９を含んでもよい。装置３００は、例えば、ディスクドライブ、ＣＤ−ＲＯＭドライブ、テープドライブ、または同類のものなどの、プログラムおよび／またはデータを記憶するための大容量記憶デバイス３１９を、随意に含んでもよい。デバイス３００は、装置とユーザとの間の相互作用を容易にするための、ディスプレイユニット３２１、音声スピーカーユニット３２２、およびユーザインターフェースユニット３２５を、随意に含んでもよい。ディスプレイユニット３２１は、テキスト、数字、図示記号、もしくは画像を表示する陰極線管（ＣＲＴ）またはフラットパネルスクリーンの形態であり得る。ユーザインターフェース３２５は、キーボード、マウス、ジョイスティック、ライトペン、またはグラフィカルユーザインターフェース（ＧＵＩ）と併せて使用され得る他のデバイスを含み得る。装置３００はまた、例えばインターネットなどのネットワーク上で、デバイスが他のデバイスと通信することを可能にするための、ネットワークインターフェース３２３を含み得る。

いくつかの実施形態において、システム３００は、単一のマイクロフォンまたはマイクロフォンアレイであり得る随意のマイクロフォン３２９を含み得る。マイクロフォン３２９は、Ｉ／Ｏ要素３１１を介してプロセッサ３０１に連結され得る。限定としてではなく、例として、異なる音響の入力ウィンドウは、マイクロフォン３２９を使用して記録され得る。

プロセッサ３０１、メモリ３０５、支援機能３０９、大容量記憶デバイス３１９、ユーザインターフェース３２５、ネットワークインターフェース３２３、およびディスプレイ３２１を含む、システム３００の構成要素は、１つ以上のデータバス３２７を介して互いと作動可能に接続され得る。これらの構成要素は、ハードウェア、ソフトウェア、もしくはファームウェア、またはこれらのうちの２つ以上の何らかの組み合わせにおいて実現されてもよい。

装置内の複数のプロセッサを用いて並行処理を合理化する追加の手段が多数ある。例えば、例えば、２つ以上のプロセッサコアにコードを複製し、データの異なる部分を処理するように各プロセッサコアにそのコードを実現させることによって、処理ループを「展開する」ことが可能である。かかる実現は、ループの設定に関連する待ち時間を回避し得る。本発明の実施形態に適用されるように、複数のプロセッサは、入力音響ウィンドウから並行して異なる特徴を抽出することができる。強度抽出フィルタ、周波数対照抽出フィルタ、時間的対照抽出フィルタ、および配向抽出フィルタは全て、聴覚スペクトルを同時に処理することができ、異なるプロセッサ要素上で並行して実現される場合、対応する多重スケール特徴をはるかに効率的に生成することができる。さらに、特徴マップ、ならびにそれらの対応する聴覚的要点ベクトルも、並行して生成され得る。データを並行して処理する能力は貴重な処理時間を節約し、発話内の音／音節／母音境界検出のための、より効率的かつ合理化されたシステムをもたらす。

並行処理を実現することができる処理システムのとりわけ一例は、セルプロセッサとして知られている。セルプロセッサと分類され得る異なるプロセッサアーキテクチャが多数ある。限定としてではなく、例として、図４は、セルプロセッサの１つの種類を図示する。セルプロセッサ４００は、メインメモリ４０１、単一パワープロセッサ要素（ＰＰＥ）４０７、および８つのシネジスティックプロセッサ要素（ＳＰＥ）４１１を含む。あるいは、セルプロセッサは、任意の数のＳＰＥで構成されてもよい。図４に関して、メモリ４０１、ＰＰＥ４０７、およびＳＰＥ４１１は、互いと、そしてＩ／Ｏデバイス４１５と、リング型要素相互接続バス４１７上で通信することができる。メモリ４０１は、上述の入力データと共通する特徴を有する入力データ４０３、および上述のプログラムと共通する特徴を有するプログラム４０５を収容する。ＳＰＥ４１１のうちの少なくとも１つは、例えば、上述のように、音節／母音境界検出命令４１３および／または並行して処理されるべき入力データの一部を、そのローカルストア（ＬＳ）内に含み得る。ＰＰＥ４０７は、そのＬ１キャッシュ内に、上述のプログラムと共通する特徴を有する音節／母音境界検出命令４０９を含み得る。命令４０５およびデータ４０３も、必要なときにＳＰＥ４１１およびＰＰＥ４０７によるアクセスのために、メモリ４０１内に記憶され得る。

限定としてではなく、例として、異なるＳＰＥ４１１は、多重スケール特徴の抽出を実現することができる。具体的には、異なるＳＰＥ４１１は、スペクトルからの強度（Ｉ）、周波数対照（Ｆ）、時間的対照（Ｔ）、および配向（Ｏ_θ）特徴の並行抽出に、それぞれ専用であってもよい。同様に、異なるＳＰＥ４１１は、強度（Ｉ）、周波数対照（Ｆ）、時間的対照（Ｔ）、および配向（Ｏ_θ）特徴の、特徴マップ生成または聴覚的要点ベクトル抽出を、それぞれ実現することができる。

例として、ＰＰＥ４０７は、関連するキャッシュを有する６４ビットのＰｏｗｅｒＰＣプロセッサユニット（ＰＰＵ）であってもよい。ＰＰＥ４０７は、随意のベクトルマルチメディア拡張ユニットを含んでもよい。各ＳＰＥ４１１は、シネジスティックプロセッサユニット（ＳＰＵ）およびローカルストア（ＬＳ）を含む。いくつかの実施例では、ローカルストアは、例えば、プログラムおよびデータのための約２５６キロバイトのメモリの容量を有し得る。ＳＰＵは、典型的にシステム管理機能を遂行しないという点で、ＰＰＵよりも複雑でない計算単位である。ＳＰＵは、単一命令複数データ（ＳＩＭＤ）能力を有し得、典型的に、割り当てられたタスクを遂行するために、データを処理し、任意の必要なデータ転送を開始する（ＰＰＥによって設定されるアクセス性質に依存する）。ＳＰＥ４１１は、より高い計算単位密度を必要とするアプリケーションをシステムが実現することを可能にし、提供される命令セットを効果的に使用することができる。ＰＰＥ４０７によって著しい数のＳＰＥ４１１を管理することは、広範囲の用途にわたってコスト効果が高い処理を可能にする。例として、セルプロセッサは、セルブロードバンドエンジンアーキテクチャ（ＣＢＥＡ）として知られるアーキテクチャを特徴とする場合がある。ＣＢＥＡ対応アーキテクチャでは、複数のＰＰＥをＰＰＥグループに組み合わせることができ、複数のＳＰＥをＳＰＥグループに組み合わせることができる。例示目的のために、セルプロセッサは、単一のＳＰＥおよび単一のＰＰＥを有する、単一のＳＰＥグループおよび単一のＰＰＥグループのみを有するものとして示される。あるいは、セルプロセッサは、パワープロセッサ要素の複数のグループ（ＰＰＥグループ）およびシネジスティックプロセッサ要素の複数のグループ（ＳＰＥグループ）を含んでもよい。ＣＢＥＡ対応プロセッサは、例えば、ｈｔｔｐ：／／ｗｗｗ−３０６．ｉｂｍ．ｃｏｍ／ｃｈｉｐｓ／ｔｅｃｈｌｉｂ／ｔｅｃｈｌｉｂ．ｎｓｆ／ｔｅｃｈｄｏｃｓ／１ＡＥＥＥ１２７０ＥＡ２７７６３８７２５７０６０００Ｅ６１ＢＡ／＄ｆｉｌｅ／ＣＢＥＡ＿０１＿ｐｕｂ．ｐｄｆにてオンラインで入手可能なＣｅｌｌＢｒｏａｄｂａｎｄＥｎｇｉｎｅＡｒｃｈｉｔｅｃｔｕｒｅに詳述されており、これは参照により本明細書に組み込まれる。

上記は、好ましい本発明の実施形態の完全な説明であるが、様々な代替案、修正、および等価物を使用することが可能である。したがって、本発明の範囲は、上記説明を参照して決定されるべきではなく、代わりに、添付の特許請求の範囲をその等価物の全範囲と共に参照して決定されるべきである。好適であろうとなかろうと、本明細書に記載のいかなる特徴は、好適であろうとなかろうと、本明細書に記載の任意の他の特徴と組み合わされ得る。以下の特許請求の範囲において、不定冠詞「１つの（Ａ）」または「１つの（Ａｎ）」は、別段の明記がない限り、その冠詞に続く事項の１以上の量を意味する。添付の特許請求の範囲は、「するための手段（ｍｅａｎｓｆｏｒ）」という語句を使用して所与の特許請求の範囲においてかかる限定が明記されていない限り、機能と手段を用いた表現（ｍｅａｎｓ−ｐｌｕｓ−ｆｕｎｃｔｉｏｎ）の限定を含むものとして解釈されるべきではない。

Claims

音声信号の入力ウィンドウを処理するための方法であって、前記入力ウィンドウが複数のフレームを有し、前記方法が、
前記入力ウィンドウに対応する時間のセグメントの間、プロセッサを用いて前記音声信号をデジタルサンプリングすることによって、前記音声信号の前記入力ウィンドウを生成することと、
前記入力ウィンドウの前記フレームのそれぞれから、２次元のスペクトル経時的フィルタを使用して音響スペクトルから抽出され、低レベルの聴覚的要点特徴に変換される聴覚的注意特徴を抽出することと、
前記入力ウィンドウの前記フレームのそれぞれから、音（ｐｈｏｎｅ）事後確率を抽出することと、
前記聴覚的注意特徴および前記音事後確率の組み合わせから、組み合わせられた境界事後確率を、機械学習を使用して生成することと、
前記組み合わせられた境界事後確率から、前記音声信号内に含まれる発話内の境界を推定することと、を含み、
前記組み合わせられた境界事後確率を、機械学習を使用して生成することは、音事後コンテキスト情報を生成するために近傍フレームの前記音事後確率を機械学習アルゴリズムに供給して前記抽出された音事後確率を増補することにより、前記組み合わせられた境界事後確率を生成する、方法。
組み合わせられた境界事後確率の前記生成が、
前記聴覚的注意特徴および前記音事後確率の両方を、境界分類器の機械学習アルゴリズムに供給して、前記組み合わせられた境界事後確率を出力することを含む、請求項１に記載の方法。
組み合わせられた境界事後確率の前記生成が、
前記聴覚的注意特徴を、第１の境界分類器の機械学習アルゴリズムに供給して、第１の境界事後確率の組を出力することと、
前記音事後確率を、第２の境界分類器の機械学習アルゴリズムに供給して、第２の境界事後確率の組を出力することと、
前記第１の境界事後確率の組および前記第２の境界事後確率の組を較正して、前記第１の境界事後確率の組および第２の境界事後確率の組の相対的重みを決定することと、
前記相対的重みを、前記第１の境界事後確率の組および前記第２の境界事後確率の組に割り当てて、前記組み合わせられた境界事後確率を出力することと、を含む、請求項１に記載の方法。
音事後確率の前記抽出が、
前記入力ウィンドウの前記フレームのそれぞれから、音響特徴を抽出することと、
前記音響特徴を、音分類器の機械学習アルゴリズムに供給して、前記音事後確率を出力することと、を含む、請求項１に記載の方法。
聴覚的注意特徴の前記抽出が、
前記入力ウィンドウの聴覚スペクトルを決定することと、
前記聴覚スペクトルから、１つ以上の多重スケール特徴を抽出することであって、各多重スケール特徴が、別個の２次元のスペクトル経時的受容フィルタを使用して抽出される、抽出することと、
前記１つ以上の多重スケール特徴に対応する１つ以上の特徴マップを生成することと、
前記１つ以上の特徴マップのそれぞれから、聴覚的要点ベクトルを抽出することと、
前記１つ以上の特徴マップから抽出された各聴覚的要点ベクトルの増強を通して、累積的要点ベクトルを取得することと、
前記累積的要点ベクトルから前記聴覚的注意特徴を生成することと、を含む、請求項１に記載の方法。
前記境界分類器の前記機械学習アルゴリズムが、３層ニューラルネットワークである、請求項２に記載の方法。
前記第１の境界分類器の前記機械学習アルゴリズムが、３層ニューラルネットワークであり、前記第２の境界分類器の前記機械学習アルゴリズムが、３層ニューラルネットワークである、請求項３に記載の方法。
前記音分類器の前記機械学習アルゴリズムが、ディープビリーフネットワークである、請求項４に記載の方法。
前記音響特徴が、対数メルスペクトル特徴である、請求項４に記載の方法。
前記較正が、ロジスティック線形回帰を使用して前記相対的重みを決定することを含む、請求項３に記載の方法。
前記較正が、機械学習を使用して前記相対的重みを決定することを含む、請求項３に記載の方法。
前記推定される境界が、音節境界、母音境界、音素境界、またはこれらの組み合わせである、請求項１に記載の方法。
発話認識における境界検出のための装置であって、
プロセッサと、
メモリと、
前記メモリ内に具体化され、前記プロセッサによって実行可能なコンピュータ符号化命令と、を備え、前記コンピュータ符号化命令は、音声信号の入力ウィンドウを処理するための方法を実現するように構成され、前記方法は、
前記入力ウィンドウに対応する時間のセグメントの間、プロセッサを用いて前記音声信号をデジタルサンプリングすることによって、前記音声信号の前記入力ウィンドウを生成することと、
前記信号のフレームのそれぞれから、２次元のスペクトル経時的フィルタを使用して音響スペクトルから抽出され、低レベルの聴覚的要点特徴に変換される１つ以上の聴覚的注意特徴を抽出することと、
前記信号の前記フレームのそれぞれから、１つ以上の音（ｐｈｏｎｅ）事後確率を抽出することと、
前記聴覚的注意特徴および前記音事後確率の組み合わせから、１つ以上の組み合わせられた境界事後確率を、機械学習を使用して生成することと、
前記組み合わせられた境界事後確率から、前記音声信号に含まれる発話内の１つ以上の境界を推定することと、を含み、
前記組み合わせられた境界事後確率を、機械学習を使用して生成することは、音事後コンテキスト情報を生成するために近傍フレームの前記音事後確率を機械学習アルゴリズムに供給して前記抽出された音事後確率を増補することにより、前記組み合わせられた境界事後確率を生成する、装置。
前記プロセッサに連結されるマイクロフォンをさらに備え、前記方法は、前記マイクロフォンを用いて前記音声信号を検出することをさらに含む、請求項１３に記載の装置。
中に具体化されたプログラム命令を有する非一時的なコンピュータ可読媒体であって、コンピュータシステムのプロセッサによる前記プログラム命令の実行が、前記プロセッサに音声信号の入力ウィンドウを処理するための方法を遂行させ、前記方法は、
前記入力ウィンドウに対応する時間のセグメントの間、プロセッサを用いて前記音声信号をデジタルサンプリングすることによって、前記音声信号の前記入力ウィンドウを生成することと、
前記信号のフレームのそれぞれから、２次元のスペクトル経時的フィルタを使用して音響スペクトルから抽出され、低レベルの聴覚的要点特徴に変換される１つ以上の聴覚的注意特徴を抽出することと、
前記信号の前記フレームのそれぞれから、１つ以上の音（ｐｈｏｎｅ）事後確率を抽出することと、
前記聴覚的注意特徴および前記音事後確率の組み合わせから、１つ以上の組み合わせられた境界事後確率を、機械学習を使用して生成することと、
前記組み合わせられた境界事後確率から、前記音声信号に含まれる発話内の１つ以上の境界を推定することと、を含み、
前記組み合わせられた境界事後確率を、機械学習を使用して生成することは、音事後コンテキスト情報を生成するために近傍フレームの前記音事後確率を機械学習アルゴリズムに供給して前記抽出された音事後確率を増補することにより、前記組み合わせられた境界事後確率を生成する、非一時的なコンピュータ可読媒体。