JP6198872B2

JP6198872B2 - 聴覚注意手がかりを用いた音声の音節／母音／音素の境界の検出

Info

Publication number: JP6198872B2
Application number: JP2016046781A
Authority: JP
Inventors: カリンリ、オズレム; チェン、ルーシン
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2011-04-01
Filing date: 2016-03-10
Publication date: 2017-09-20
Anticipated expiration: 2031-11-02
Also published as: CN103503060B; EP2695160A1; US20120253812A1; JP2016128935A; WO2012134541A1; JP2014512572A; CN103503060A; JP5897107B2; US9251783B2; US8756061B2; CN105023573B; US20150073794A1; KR20130133858A; EP2695160B1; CN105023573A; EP2695160A4

Description

本発明は、音声言語処理、具体的には、他の従来の音声特性を使用、または従来の音声特性を使用しない聴覚注意手がかりを使用した音声の音素、母音、または音節の境界の検出に関する。

音声認識システムは、コンピュータ・システムの入力で一般的な形態となってきた。典型的な音声認識システムでは、可聴信号を取り込み、認識可能な人間の言葉の要素に分析する。音素、音節、または母音などの単位に音声をセグメント化することにより、音声の音韻的側面とリズム的側面の両方に関する情報を提供する。音素（phoneと呼ばれることもある）は、一般的に音声の最小有意の音韻セグメントであるとみなされる。音素には、母音と子音が含まれる。音節という用語は、母音のみ、または前後に子音がある母音で構成される音声のセグメントを表すために使用される。通常、母音は音節核を構成する。従って、音素、母音、音節の境界を検出することは、音声認識と自然言語の理解において重要な役割を果たす。多くの音声言語処理のアプリケーションでは、サンプル音声信号内のどこで音節が開始し、終了するかを判断することが有用である。口頭の音節には、通常、音節核として母音部が含まれ、子音部分を含む場合と含まない場合があり、音節境界の検出で重要な鍵となるのは、音節内での母音および／または母音の境界が重要となる。音素の境界は、母音または子音の境界が検出された後に、聴覚注意手がかり有り、または無しで、エネルギー、声確率、ゼロ交差、異なるＦＦＴ周波数ビンでのスペクトル変化率、ケプストラム、デルタ・ケプストラム、およびデルタ‐デルタ・ケプストラム、フレーム・ベースの音素確率、唇の分析動画像による唇の動きなどの従来の特性を使用して検出できる。
研究者らは、音節は人間の音声認識において最も重要な要素のひとつであることを示す主張の裏付けを発見した。音声を音節単位にセグメント化することで、音声の速度、リズム、韻律、および音声認識と音声合成に関する洞察を提供する。音節には、ソノリティ（音節核）の中央ピークがあり、これは通常、母音およびこの中央ピーク周囲に集まる子音である。音節核は正確な音節境界に比較して信頼性が高く、より容易に検出できるため、文献のほとんどの研究は音節核検出に焦点をあてたものである。音節核検出では、既存の方法のほとんどは、抽出された短時間の音響特性から抽出した一次元の連続曲線を推定し、この曲線を調べて、音節核を見つけることに依存している。音節核を見つけるために使用する音響特性としては、選択した臨界帯域でのエネルギー、線形予測符号化スペクトル、サブバンド・ベースの相関関係、ピッチ、有声音などがある。この分野の最新研究には、以下が含まれる。
“ＲｏｂｕｓｔＳｐｅｅｃｈＲａｔｅＥｓｔｉｍａｔｉｏｎｆｏｒＳｐｏｎｔａｎｅｏｕｓＳｐｅｅｃｈ”,ＤａｇｅｎＷａｎｇａｎｄＳｈｒｉｋａｎｔｈＳ．Ｎａｒａｙａｎａｎ，ｉｎＩＥＥＥＴＲＡＮＳＡＣＴＩＯＮＳＯＮＡＵＤＩＯ，ＳＰＥＥＣＨ，ＡＮＤＬＡＮＧＵＡＧＥＰＲＯＣＥＳＳＩＮＧ，ＶＯＬ．１５，ＮＯ. ８ＮＯＶＥＭＢＥＲ２００７，ｐｐ２１９０−２２０１
“ＳｅｇｍｅｎｔａｔｉｏｎｏｆＳｐｅｅｃｈｉｎｔｏＳｙｌｌａｂｌｅ−ｌｉｋｅｕｎｉｔｓ”Ｔ．Ｎａｇａｒａｊａｎｅｔａｌ，ＥＵＲＯＳＰＥＥＣＨ２００３−ＧＥＮＥＶＡ，ｐｐ２８９３−２８９６
“Ｓｐｅｅｃｈｒｈｙｔｈｍｇｕｉｄｅｄｓｙｌｌａｂｌｅｎｕｃｌｅｉｄｅｔｅｃｔｉｏｎ”，Ｙ．ＺｈａｎｇａｎｄＪ.Ｇｌａｓｓ，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ, ｐｐ３７９７−３８００, Ｔａｉｐｅｉ, ＴａｉｗａｎＡｐｒｉｌ２００９

通常、こうした従来の方法では、多くのパラメータのチューニングを必要とするが、様々な設定や条件、すなわち、発話スタイル、ノイズ条件などの新しいデータ、新しい条件で使用するのが困難になるため、これは望ましいことではない。さらに、従来方法は通常、あいまいな音節核検出に焦点をあてている。

こうした背景の範囲内で本発明の実施形態が生まれた。

本発明の実施形態は、添付の図面と共に以下の詳細な説明を参照することで容易に理解できるであろう。
本発明の音声における音節／母音／音素の境界の検出方法を示す流れ図である。本発明の実施形態で使用可能なスペクトル経時の受容フィルタの例を示す概略図である。従来の音声特性と本発明の実施形態の累積大局的骨子特徴ベクトルを組み合わせて使用することにより音声における音節／母音／音素の境界の検出方法を示す流れ図である。本発明の実施形態の音声における音節／母音／音素の境界を検出する装置を示すブロック図である。本発明の実施形態の音節／母音／音素の境界を検出する装置のセル・プロセッサの実施の例を示すブロック図である。本発明の実施形態の音節／母音／音素の境界の検出を実施するための命令が入ったコンピュータで読み取り可能な非一時的な記憶媒体の例を示す図である。

本発明の実施形態は、音声における音節／母音／音素の境界の検出のために聴覚注意手がかりを使用する音声言語の処理方法と装置に関する。曖昧な音節核検出に焦点をあてた従来の方法とは異なり、本発明の実施形態では、フレーム・レベルでより詳細な音節／母音／音素の境界情報を得ることができる。従来の方法とは異なり、本発明の実施形態による方法とシステムでは、音素の境界、母音の境界および／または音節の境界の検出のために聴覚注意手がかりを使用する。この注意特性は生物学的に着想を得たものであり、二次元スペクトル経時のフィルタを使用して音の信号の特性変化を捕捉して、音声の母音および／または音節をうまく検出する。さらに、聴覚注意特性は、従来の音素／母音／音節の境界検出のための音声特性と組み合わせて使用することができる。

図１Ａは、本発明の実施形態による聴覚注意手がかりを使う音声における音節／母音／音素の境界を検出する方法を示す流れ図である。聴覚注意モデルは、生物学的に着想を得たものであり、人間の聴覚系における処理段階を模倣したものである。音声信号がいつ、どこで人間の注意を喚起するかを判定するように設計されている。

最初に、音入力ウィンドウ１０１が受信される。例として、これに制限されるものではないが、この音入力ウィンドウ１０１は、特定の音入力ウィンドウ１０１を特徴付ける音波をさらなる処理のために電気信号に変換する働きをするマイクロフォンを使用し、ある有限持続期間の時間ウィンドウ上で捕捉される。音入力ウィンドウ１０１は、ある人の音声のどのセグメントであってもよい。例として、これに制限されるものではないが、音入力ウィンドウ１０１には、単独の音節、単語、文章、またはこれらを組み合わせたものが含まれてもよい。

音入力ウィンドウ１０１は、次にこの音入力ウィンドウ１０１を聴覚スペクトル１０５に変換するように機能する一連の処理段階１０３を通過する。こうした処理段階１０３は、人間の聴覚系などの初期処理段階に基づくことができる。例として、これに制限されるものではないが、処理段階１０３は、聴覚系における基底膜から蝸牛神経核までのプロセスを模倣した蝸牛フィルタリング、内有毛細胞、および側方抑制の段階から構成され得る。蝸牛フィルタリングは、対数周波数軸に沿って均一に分散された中心周波数を持つ１２８のオーバーラップする定数Ｑの非対称バンドパス・フィルタのバンクを使用して実施してもよい。こうしたフィルタは、適切に構成された電子ハードウェアによって実施されてもよく、このような電子ハードウェアは専用に設計されたものでもよい。または、フィルタは、フィルタの機能を実施するソフトウェアでプログラムされた汎用コンピュータで実施されてもよい。分析のために、１０ｍｓシフトのオーディオの２０ｍｓフレームを使用可能であり、その結果、各オーディオ・フレームは、１２８次元のベクトルによって表される。

音入力ウィンドウ１０１が、聴覚スペクトル１０５に変換されると、この聴覚スペクトル１０５は、１０７に示されているように、中枢聴覚系の情報処理段階を模倣して、マルチスケール特性１１７を抽出することにより分析される。聴覚注意は、強度（エネルギー）、周波数、経時、ピッチ、音色、ＦＭ方向またはスロープ（ここでは方向（orientation）という）などの幅広い音響特性によって捕捉され、または自発的にこうした音響特性に向けられる。こうした特性は、一次聴覚野皮質の受容野を模倣するために選択し、実施できる。

例として、これに制限されるものではないが、前述の特性を包含するモデルに含むことができる４つの特性としては、強度（Ｉ）、周波数コントラスト（Ｆ）、経時コントラスト（Ｔ）およびθ＝｛４５°、１３５°｝の方向（Ｏθ）がある。強度特性は、信号の強度すなわちエネルギーに関連する信号特性を捕捉する。周波数コントラスト特性では、信号のスペクトル（周波数）変化に関する信号特性を捕捉する。経時コントラスト特性では、信号の経時変化に関連する信号特性を捕捉する。方向フィルタは、信号の動くリップルに感受性がある。

各特性は、一次聴覚野皮質の特定の受容フィルタを模倣した二次元の経時スペクトル受容フィルタ１０９、１１１、１１３、１１５を使用して抽出してもよい。図１Ｂから１Ｆは、受容フィルタ（ＲＦ）１０９、１１１、１１３、１１５の例をそれぞれ示している。特性抽出のために模擬実験した受容フィルタ（ＲＦ）１０９、１１１、１１３、１１５のそれぞれは、抽出されている特性に対応するグレイスケールのイメージで図示される。励起フェーズ１１０は白色で、抑制フェーズ１１２は黒色でそれぞれ図示されている。

こうした受容フィルタ（ＲＦ）１０９、１１１、１１３、１１５は、信号特性における一定の変化を検出し、捕捉する機能がある。例えば、図１Ｂに図示されている強度フィルタ１０９は、音の入力ウィンドウの持続期間にわたる強度／エネルギーにおける変化を検出し、捕捉できるように特定の領域に対して選択的な励起フェーズのみで聴覚皮質にある受容野を模倣するように構成してもよい。同様に図１Ｃに示されている周波数コントラスト・フィルタ１１１は、励起フェーズと同時対称な抑制側波帯を有する一次聴覚皮質にある受容野に対応するように構成されてもよい。図１Ｄに図示されている経時コントラスト・フィルタ１１３は、抑制フェーズとその後の励起フェーズを有する受容野に対応するように構成されてもよい。

聴覚スペクトルは見えている場面のイメージに類似していると考えることが可能であり、こうした特性のいくつかは異なるローカルの方向のエッジにチューニングされる。すなわち、周波数コントラスト特性は、ローカルの水平方向のエッジにチューニングされるが、これはフォルマントとその変化を検出し、捕捉するために良い。つまり、図１Ｃの周波数コントラスト・フィルタ１１１は、音ウィンドウの持続期間にわたるスペクトル変化を検出し、捕捉する。図１Ｄの経時コントラスト・フィルタ１１３は、経時ドメインにおける変化を検出し、捕捉する。方向フィルタ１１５’と１１５’’は、動くリップルに反応する聴覚神経の応答の動態を模倣する。方向フィルタ１１５’は、図１Ｅに図示されているように、リップルが上方に移動しているときに検出し、捕捉するために、４５°の方向を有する励起フェーズと抑制フェーズを持つように構成できる。同様に、方向フィルタ１１５’’は、図１Ｆに図示されているように、リップルが下方に移動しているときに検出し、捕捉するために、１３５°の方向を有する励起フェーズと抑制フェーズを持つように構成できる。ひとつの重要なポイントとしては、このモデルでは、絶対特性の強度ではなく特性コントラストが計算されることであり、これは変化のポイント／領域の検出とセグメント化において重要である。

周波数コントラスト１１１、経時コントラスト１１３、および方向特性１１５を生成するためのＲＦは、二次元の角度が変化するガボール・フィルタを使用して実現できる。周波数コントラストと経時コントラスト特性のために使用するフィルタは、それぞれ水平方向フィルタおよび垂直方向フィルタとして解釈可能であり、０°と９０°の方向の二次元のガボール・フィルタで実現可能である。同様に、方向特性は、｛４５°と1３５°｝の方向の二次元のガボール・フィルタで実現可能である。強度特性１０９を生成するためのＲＦは、二次元ガウス・カーネルを用いて実現される。

特性抽出１０７は、マルチスケールのプラットフォームを用いて完了する。特定のデータセットをスケール空間で表すものを生成する動機は、オブジェクトは異なるスケールで異なる構造で構成されるという基本的観察から始まる。未知のデータのセットを分析するシステムでは、当該データに関連する対象となる構造を表すための適切なスケールを推測的に知る方法がない。従って、唯一の妥当なアプローチとしては、生じうる未知のスケールの変動を捕捉するために複数のスケールで表すことを考える。本発明の実施形態では、このマルチスケール特性１１７は、ダイアディック・ピラミッドを用いて取得してもよい（すなわち、入力スペクトルをフィルタリングし、２の倍数で間引き（デシメーション）し、これを繰り返す）。その結果、８つのスケールが作成され（当該ウィンドウの持続期間が１．２８秒よりも長い場合、そうでなければスケール数はより少なくなる）、１：１（スケール１）から１：１２８（スケール８）までの範囲のサイズ縮小係数が生じる。

マルチスケール特性１１７を取得後、１１９で示したようにこうしたマルチスケール特性１１７を用いて特性マップ１２１が生成される。これは、「中心周辺（center-surround）」差分を計算することで得られ、「中央」（微細）スケールと「周辺」（粗い）スケールと、を比較することを伴う。中央周辺のオペレーションでは、局所の皮質の抑制特性を模倣して、局所の経時と空間的な不連続性を検出する。「中央」の微細スケール（ｃ）と「周辺の」より粗いスケール（ｓ）との間のスケール間の減算（θ）によって模擬実験され、特性マップ、Ｍ（ｃ，ｓ）：Ｍ（ｃ，ｓ）＝｜Ｍ（ｃ）θＭ（ｓ）｜，Ｍ∈{Ｉ，Ｆ，Ｔ，Ｏ_θ}が得られる。２つのスケール間のスケール間の減算は、より微細なスケールとポイント毎の（point-wise）減算の補間によって計算される。例として、これに制限されるものではないが、σ∈{３、４}で、ｃ＝{２、３、４}、ｓ＝ｃ+σを使用してもよく、その結果、特性が８つのスケールで抽出される場合に、結果として合計３０の特性マップが得られる。

次に、１２３で示されているように、低解像度で入力音ウィンドウ１０１全体をカバーするように、Ｉ、Ｆ、Ｔ、Ｏ_θの各特性マップ１２１から「聴覚骨子特徴」ベクトル１２５が抽出される。ある特性マップ１２１に対する聴覚骨子特徴ベクトル１２５を決定するために、特性マップ１２１は最初にサブ領域のｍにｎを乗じたグリッドに分割され、各サブ領域の最大、最小、平均、標準偏差などの統計が計算できる。例として、これに限定されるものではないが、各サブ領域の平均は、そのマップの全体的なプロパティを捕捉するために計算できる。高さｈおよび幅ｗの特性マップＭｉに対して、聴覚骨子特徴ベクトルの計算は次のように表される。

聴覚骨子特徴ベクトル１２３（ｍ＝４、ｎ＝５）の例が図１に示されており、この場合、特性マップを表すために２０次元の聴覚骨子特徴ベクトル１２５が示されている。こうしたｍとｎの特定の値は、例示目的のものであり、本発明の実施形態を制限するものではない。

各特性マップ１２１から聴覚骨子特徴ベクトル１２５を抽出後、聴覚骨子特徴ベクトル１２５は拡張され、合成され、累積聴覚骨子特徴ベクトル１２７を作る。累積聴覚骨子特徴ベクトル１２７はさらに次元減少１２９の技術を経て、音節／母音／音素の境界検出をより実用的なものにするために次元と冗長性を減少させてもよい。例として、これに制限されるものではないが、次元減少１２９に対して主成分分析（ＰＣＡ）を使用できる。次元減少１２９の結果は最終特性であり、ここではより少ない次元で累積聴覚骨子特徴ベクトル１２７にある情報を伝える聴覚骨子特徴１２７’という。ＰＣＡは、パターン認識の主要技術として一般的に使用されている。一般的に理解されているように、ＰＣＡは、あるデータの投影による最大の分散が、第一座標（第一主成分という）に、２番目に大きい分散が第二座標にくるようになど、データを新しい座標系に変換する直交線形変換として数学的に定義されている。ＰＣＡは、適切に設定されたソフトウェアでプログラミングされたコンピュータで実現してもよい。ＰＣＡによる次元減少を実現できる市販のソフトウェアの例としては、米国マサチューセッツ州ＮａｔｉｃｋのＭａｔｈＷｏｒｋｓ，Ｉｎｃ．のＭａｔｌａｂやニュージーランドのワイカト大学で開発されたＷｅｋａ機械学習ソフトウェアがある。または、因子分析法、カーネルＰＣＡ、線形判別分析（ＬＤＡ）などの他の線形および非線形の次元減少技術を使用して次元減少１２９を実施してもよい。

最後に、入力音ウィンドウ１０１を特徴付ける聴覚骨子特徴１２７’が決定したら、音素の境界、母音の境界、音節核または音節の境界は、聴覚骨子特徴から検出しうる。特定の入力音ウィンドウでこうした検出をするには、ニューラル・ネットワーク、最近傍分類、決定木などの機械学習アルゴリズム１３１を使用して、累積骨子特徴１２７と、音素境界、母音境界、音節核または音節の境界との間のマッピングを見つけることができる。例として、これに制限されるものではないが、機械学習アルゴリズム１３１としてニューラル・ネットワークを使用することができるが、これは生物学的に十分に動機づけられたものであるためである。こうした場合、ニューラル・ネットワーク１３１は、関連する累積特徴骨子ベクトルが与えられると、入力音内の音素境界、母音境界、音節核または音節の境界を特定できる。

ここで使用したように、「ニューラル・ネットワーク」という用語は、計算へのコネクショニスト的アプローチに基づき情報処理のための計算／数学的モデルを使用する相互につながった自然または人口のニューロンの集まりのことをいう。ニューラル・ネットワークは、ニューラル・ネットワーク内を流れる外部の情報または内部の情報に基づき構造を変更する適応システムである。これは非線形の統計データ・モデリングを実現するために使用され、入力と出力の複雑な関係をモデル化するために使用してもよい。本発明の実施形態では、ニューラル・ネットワークを使用して聴覚累積骨子特徴ベクトル１２７または聴覚骨子特徴ベクトル１２７’、および1つ以上の音素境界、母音境界、音節核または音節の境界によって表される聴覚骨子特徴のグループの間の学習マッピングのために使用できる。例として、これに制限されるものではないが、３層のニューラル・ネットワークを使用してもよい。ニューラル・ネットワークは、Ｄ個の入力、（Ｄ+Ｎ）／２の隠れノード、およびＮの出力ノードを持ってもよく、この場合、ＤはＰＣＡ次元減少後の聴覚骨子特徴の長さであり、Ｎは区別するクラスの数であり、すなわち、音素／母音／音節の境界検出では、Ｎはあるフレームが境界であるか、否かを決定する場合、２に等しい。

ニューラル・ネットワーク出力の推定は、ｉ）硬判定、ii）軟判定の２つの方法で使用できる。硬判定では、ニューラル・ネットワークの最終判定が、バイナリ判定として使用される。例えば、フレームに境界がある場合、１を出力し、そうでなければゼロを出力する。軟判定では、［０,１］の間の値であるニューラル・ネットワークの確率スコアは、現在のフレームが注意特性を与えられた境界である事後確率として使用できる。また、軟判定では、推定事後確率を、他のシステムにフィードし、別のソースからの情報と組み合わせてさらにどちらかのシステムの性能を向上させることができる。例えば、境界情報を使用して、音声認識性能を向上させる、または音声認識エンジンからの補足情報を使用して境界検出性能などをさらに向上させることができる。また、本発明のある実施形態では、セグメントにある音節数に関する情報もオプションで提供可能であり、この数は例えば、1秒毎の音節数または一発話毎の音節数であり、発話速度推定に使用できる。次に、推定発話速度を使用して、発話速度に基づき適切な音響モデルを選択する、または会話の感情セグメントを見つけることによって音声認識性能を向上するなど他の音声言語処理アプリケーションを向上できる。

この音節／音素／母音の境界情報は単独で使用、または音声認識などの他の音声言語処理システムを向上させるために使用することができる。また、音素／母音／音節の境界を階層システムとして考えることもできる。ある境界タイプからの情報を使用して、他の境界タイプの情報を向上させることができる。すなわち、母音の境界情報を使用して、音素または音節の境界の検出を向上させることができる。また、本発明の実施形態は、あらゆるタイプの音声、発話スタイル、およびノイズ条件、すなわち孤立音声、連続音声、話し言葉の音声、朗読音声、クリーンな音声／ノイズがある音声などの分析に使用することができる。

図１Ｇは、本発明の他の実施形態による累積骨子特徴ベクトルを従来の音声特性と組み合わせて使用することにより音節／母音／音素の境界を検出する方法１４０を示す流れ図である。方法１４０では、累積特徴骨子ベクトル１４７が入力音ウィンドウの分析から、例えば、図１Ａに関して上記で説明しているように、生成されてもよい。さらに、従来の方法を使用して同じ入力音ウィンドウで従来の分析から従来の音声特性１４８が生成されてもよい。例として、従来の特性には、これに限定されるものではないが、フレーム・ベースのエネルギー、フレーム・ベースの最大音声振幅、ゼロ交差率、フレーム・ベースの音素確率、フレーム・ベースの声確率、異なるＦＦＴ周波数ビンでのスペクトル変化率、ケプストラム、デルタ・ケプストラムおよびデルタ‐デルタ・ケプストラム、動画から捕捉した唇の動きなどがある。

累積特徴骨子ベクトル１４７および従来の音声特性１４８は、次元減少モジュール１４９に対する入力として使用可能であり、次元減少モジュール１４９は音節／母音／音素の境界検出をより実用的なものにするために入力の次元と冗長性を減少させる。次元減少モジュール１４９は、図１Ａの次元減少１２９に関して上記で説明したように機能しうる。例として、これに制限されるものではないが、次元減少モジュール１４９は、累積特徴骨子ベクトル１４７および従来の音声特性１４８の次元を減らすために主成分分析（ＰＣＡ）を実施してもよい。次元減少モジュール１４９の出力は、より少ない次元で累積聴覚骨子特徴ベクトル１４７および従来の特性１４８にある情報を伝達し、入力音ウィンドウを特徴付ける聴覚骨子特徴１４７’である。聴覚骨子特徴１４７’は、図１Ａに関して上記で説明した聴覚骨子特徴１２７’と共通の特性を有してもよい。

聴覚骨子特徴ベクトル１４７’から、音素境界、母音境界、音節核または音節の境界を検出してもよい。例えば、機械学習アルゴリズム１４１を使用して、累積骨子特徴ベクトル１４７および／または従来の特性１４８と、音素境界、母音境界、音節核または音節の境界と、の間のマッピングを見つける。この機械学習アルゴリズムは、図１Ａの機械学習アルゴリズム１３１と共通の特性を持ちうる。例として、これに制限されるものではないが、機械学習アルゴリズム１４１は、ニューラル・ネットワーク、最近傍分類、決定木などを使用してもよい。

本発明の実施形態では、適切に構成されたコンピュータ装置で実施されてもよい。図２は、本発明の実施形態の聴覚注意手がかりを使用して音素／音節／母音の境界を検出する方法を実施するために使用しうるコンピュータ装置を示すブロック図である。装置２００は一般的にプロセッサ・モジュール２０１およびメモリ２０５を含みうる。プロセッサ・モジュール２０１は、１つ以上のプロセッサ・コアを含みうる。複数のプロセッサ・モジュールを使用する処理システムの例としては、セル・プロセッサ（ＣｅｌｌＰｒｏｃｅｓｓｏｒ）があり、この例は、例えばインターネットで入手可能な“ＣｅｌｌＢｒｏａｄｂａｎｄＥｎｇｉｎｅＡｒｃｈｉｔｅｃｔｕｒｅ”（ｈｔｔｐ：//ｗｗｗ−３０６．ｉｂｍ.ｃｏｍ／ｃｈｉｐｓ／ｔｅｃｈｌｉｂ／ｔｅｃｈｌｉｂ.ｎｓｆ／ｔｅｃｈｄｏｃｓ／1ＡＥＥＥ１２７０ＥＡ２７７６３８７２５７０６０００６Ｅ６１ＢＡ／＄ｆｉｌｅ／ＣＢＥＡ＿０１＿ｐｕｂ.ｐｄｆ）に詳細に示されており、これを本明細書の一部として援用する。

メモリ２０５は、ＲＡＭ、ＤＲＡＭ、ＲＯＭなどの集積回路の形式であってもよい。メモリ２０５は、すべてのプロセッサ・モジュールによってアクセス可能なメイン・メモリであってもよい。実施形態によっては、プロセッサ・モジュール２０１は、各コアに関連付けられたローカルのメモリを有してもよい。プログラム２０３は、プロセッサで読み取り可能な命令の形式でメイン・メモリ２０５に保存されてもよい。プログラム２０３は、聴覚注意手がかりを使用して音ウィンドウで音節／母音の境界検出を行うように構成されてもよい。プログラム２０３は、Ｃ、Ｃ＋＋、ＪＡＶＡ（登録商標），Ａｓｓｅｍｂｌｙ、ＭＡＴＬＡＢ（登録商標）、ＦＯＲＴＲＡＮ、および他の多くの言語など、任意の適切なプロセッサで読み取り可能な言語で記述されてもよい。入力データ２０７はメモリに保存してもよい。こうした入力データ２０７には、音の入力ウィンドウ、特性マップ、または聴覚骨子特徴ベクトルを含みうる。プログラム２０３の実行中、プログラム・コードおよび／またはデータの一部は、メモリまたは複数プロセッサ・コアによる並列処理のためにプロセッサ・コアのローカル・ストアにロードされてもよい。

装置２００には、入力／出力（Ｉ／Ｏ）要素２１１、電源（Ｐ／Ｓ）２１３、クロック（ＣＬＫ）２１５、およびキャッシュ２１７などの良く知られているサポート機能２０９が含まれてもよい。装置２００は、オプションでプログラムおよび／またはデータを保存するためのディスク・ドライブ、ＣＤ−ＲＯＭドライブ、テープ・ドライブ、または類似品などの大容量記憶装置２１９を含んでもよい。デバイス２００は、オプションで装置とユーザとの間のインタラクションを容易にするために、ディスプレイ・ユニット２２１、オーディオ・スピーカ・ユニット２２２、およびユーザ・インタフェース・ユニット２２５を含んでもよい。ディスプレイ・ユニット２２１は、文字、数字、図記号、または画像を表示するブラウン管（ＣＲＴ）またはフラット・パネル画面の形式であってもよい。ユーザ・インタフェース・ユニット２２５は、グラフィカル・ユーザ・インタフェース（ＧＵＩ）と合わせて使用可能なキーボード、マウス、ジョイスティック、ライトペン、またはその他のデバイスを含んでもよい。装置２００は、そのデバイスがインターネットなどのネットワーク上で他のデバイスと通信できるようにするネットワーク・インタフェース２２３を含んでもよい。

実施形態によっては、システム２００には、オプションのマイクロフォン２２９を含んでもよく、これは単独のマイクロフォン、またはマイクロフォンのアレイであってもよい。マイクロフォン２２９は、Ｉ／Ｏ要素２１１を介してプロセッサ２０１に接続できる。例として、これに制限されるものではないが、マイクロフォン２２９を使用して異なる音入力ウィンドウを録音してもよい。

プロセッサ２０１、メモリ２０５、サポート機能２０９、大容量記憶装置２１９、ユーザ・インタフェース２２５、ネットワーク・インタフェース２２３、およびディスプレイ２２１を含むシステム２００の構成要素は、１つ以上のデータ・バス２２７を介して動作可能に接続されてもよい。こうした構成要素は、ハードウェア、ソフトウェア、またはファームウェア、またはこれらを２つ以上組み合わせて実現してもよい。

装置内の複数プロセッサの並列処理を合理化するには多くの追加方法がある。例えば、２つ以上のプロセッサ・コアでコードを複製し、各プロセッサ・コアにデータの異なる部分を処理するコードを実行させるようにすることで処理ループを「展開（unroll）」することが可能である。こうした実施により、ループをセットアップする待機時間を回避しうる。本発明の実施形態に適用されるように、複数プロセッサは入力音ウィンドウから異なる特性を並列で抽出しうる。強度抽出フィルタ、周波数コントラスト抽出フィルタ、経時コントラスト抽出フィルタ、および方向抽出フィルタが、並列で異なるプロセッサ要素上で実行されれば、すべて同時に聴覚スペクトルを処理することが可能になり、より効率的に対応するマルチスケール特性を生成できる。さらに、特性マップも並列に生成し、それに対応する聴覚骨子特徴ベクトルも生成できるであろう。並列でデータを処理する機能があれば、貴重な処理時間を節約し、音声の音素／音節／母音の境界検出に対するシステムは、より効率的、合理的になる。

一例として、並列処理を実現する能力がある処理システムの中には、セル・プロセッサとして知られるものがある。セル・プロセッサの範疇に入りうるものには多くの異なるプロセッサ・アーキテクチャがある。例として、これに制限されるものではないが、図３は、セル・プロセッサの一例を示している。セル・プロセッサ３００には、メイン・メモリ３０１、単独のＰｏｗｅｒｐｒｏｃｅｓｓｏｒ要素（ＰＰＥ）３０７、および８個のＳｙｎｅｒｉｃｐｒｏｃｅｓｓｏｒｅｌｅｍｅｎｔ（ＳＰＥ）３１１が含まれる。または、セル・プロセッサは、任意の数のＳＰＥで構成されてもよい。図３に関して、メモリ３０１、ＰＰＥ３０７、およびＳＰＥ３１１は、互いに通信可能であり及びI/O 装置３１５とリングタイプの要素相互接続バス３１７上で通信可能である。メモリ３０１は、上記で説明した入力データと共通の特性を持つ入力データ３０３、および上記で説明したプログラムと共通の特性を持つプログラム３０５を含む。少なくとも１つのＳＰＥ３１１は、そのローカル・ストアに、音節／母音の境界検出命令３１３および／または例えば、上記で説明したように、並列に処理する入力データの一部を含みうる。ＰＰＥ３０７は、そのＬ１キャッシュに、上記で説明したプログラムと共通の特性を持つ音節／母音の境界検出命令３０９を含んでもよい。命令３０５とデータ３０３は、必要な場合、ＳＰＥ３１１とＰＰＥ３０７によるアクセスのためにメモリ３０１に保存されてもよい。

例として、これに制限されるものではないが、異なるＳＰＥ３１１がマルチスケール特性１１７を実施してもよい。特に、異なるＳＰＥ３１１は、そのスペクトルからの強度（Ｉ）、周波数コントラスト（Ｆ）、経時コントラスト（Ｔ）、および方向（Ｏ_θ）の特性それぞれの専用として並列抽出してもよい。同様に、異なるＳＰＥ３１１がそれぞれの強度（Ｉ）、周波数コントラスト（Ｆ）、経時コントラスト（Ｔ）、および方向（Ｏ_θ）の特性マップ生成１１９または聴覚骨子特徴ベクトル抽出１２３を実施してもよい。

例として、ＰＰＥ３０７は、関連するキャッシュを有する６４ビットのＰＰＵ（ＰｏｗｅｒＰＣＰｒｏｃｅｓｓｏｒＵｎｉｔ）であってもよい。ＰＰＥ３０７は、オプションのベクトル・マルチメディア拡張ユニットを含んでもよい。各ＳＰＥ３１１には、ＳｙｎｅｒｇｉｓｔｉｃＰｒｏｃｅｓｓｏｒＵｎｉｔ（ＳＰＵ）とローカル・ストア（ＬＳ）を含む。実施形態によっては、ローカル・ストアは、例えば、プログラムとデータ用に約２５６キロバイトのメモリ容量を持ち得る。ＳＰＵは、ＰＰＵに比べて複雑度が低い計算ユニットであり、そのため、通常システム管理機能は行わない。ＳＰＵは単独の命令、複数のデータ（ＳＩＭＤ）機能を持つ場合があり、割り当てられたタスクを行うために、通常データを処理し、（ＰＰＥが設定するアクセス特徴に従って）必要なデータ転送を開始する。ＳＰＥ３１１は、より高い計算ユニットの密度を必要とするアプリケーションをシステムが実行できるようにし、提供される命令セットを効果的に使用できる。非常に多くのＳＰＥ３１１をＰＰＥ３０７が管理することにより、幅広いアプリケーションに対してコスト効果が高い処理が可能になる。例として、セル・プロセッサは、ＣｅｌｌＢｒｏａｄｂａｎｄＥｎｇｉｎｅＡｒｃｈｉｔｅｃｔｕｒｅ（ＣＢＥＡ）として知られるアーキテクチャによって特徴付けられ得る。ＣＢＥＡ準拠のアーキテクチャでは、複数のＰＰＥをＰＰＥグループに結合し、複数のＳＰＥをＳＰＥグループに結合してもよい。例示目的で、セル・プロセッサはひとつのＳＰＥを持つ単独のＳＰＥグループとひとつのＰＰＥを持つ単独のＰＰＥグループだけを持っているように図示されている。または、セル・プロセッサには、Ｐｏｗｅｒｐｒｏｃｅｓｓｏｒｅｌｅｍｅｎｔのグループ（ＰＰＥのグループ）およびＳｙｎｅｒｇｉｓｔｉｃｐｒｏｃｅｓｓｏｒｅｌｅｍｅｎｔ（ＳＰＥグループ）を含むことができる。ＣＢＥＡ準拠のプロセッサについては例えば、以下に詳細に記載されており、ＣｅｌｌＢｒｏａｄｂａｎｄＥｎｇｉｎｅＡｒｃｈｉｔｅｃｔｕｒｅ（ｈｔｔｐ:／／ｗｗｗ.３０６．ｉｂｍ.ｃｏｍ／ｃｈｉｐｓ／ｔｅｃｈｌｉｂ／ｔｅｃｈｌｉｂ.ｎｓｆ／ｔｅｃｈｄｏｃｓ／１ＡＥＥＥ１２７０ＥＡ２７７６３８７２５７０６０００Ｅ６１ＢＡ／＄ｆｉｌｅ／ＣＢＥＡ＿０１＿ｐｕｂ.ｐｄｆ）で、オンラインで入手可能であり、これを本明細書の一部として援用する。

他の実施形態によれば、聴覚注意手がかりを用いた音素／音節／母音の境界検出の命令は、コンピュータで読み取り可能な記憶媒体に保存してもよい。例として、これに制限されるものではないが、図４は本発明の実施形態によるコンピュータで読み取り可能な非一時的な記憶媒体４００の例を示している。記憶媒体４００には、コンピュータ処理デバイスで取り出し、解釈、および実行可能な形式で保存されているコンピュータで読み取り可能な命令が含まれる。例として、これに制限されるものではないが、コンピュータで読み取り可能な記憶媒体４００は、ランダム・アクセス・メモリ（ＲＡＭ）、リード・オンリー・メモリ（ＲＯＭ）、固定ディスク・ドライブ（例、ハードディスク・ドライブ）用のコンピュータで読み取り可能な記憶ディスク、またはリムーバル・ディスク・ドライブなどのコンピュータで読み取り可能なメモリであってもよい。さらに、コンピュータで読み取り可能な記憶媒体４００は、フラッシュ・メモリ・デバイス、コンピュータで読み取り可能なテープ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、Ｂｌｕ−ｒａｙ（登録商標）、ＨＤ−ＤＶＤ、ユニバーサル・メディア・ディスク（ＵｎｉｖｅｒｓａｌＭｅｄｉａＤｉｓｃ、ＵＭＤ（登録商標））、または他の光学記憶媒体であってもよい。

記憶装置４００は、聴覚注意手がかりを使用した音声の音節／母音／音素の境界を検出するように構成された音節／母音／音素境界検出命令４０１を含む。音節／母音／音素境界検出命令４０１は、図１に関して上記で説明した方法による音節／母音／音素の境界検出を行うように構成されてもよい。特に、音節／母音／音素境界検出命令４０１は、オプションで音節／母音／音素の境界検出を行う対象である音入力ウィンドウを受信するために使用する入力音受信命令４０３を含んでもよい。音入力ウィンドウは、コンピュータで読み取り可能な形式で録音から、またはマイクロフォンやマイクロフォン・アレイによって実行時にライブでキャプチャされた音から取得されてもよい。音節／母音／音素境界検出命令４０１は、さらに上記で説明した蝸牛フィルタリング、内有毛細胞、および側方抑制の処理段階を使用して音入力ウィンドウの聴覚スペクトルを判定する聴覚スペクトル命令４０５の判定を含んでもよい。

音節／母音／音素境界検出命令４０１は、実行されると、聴覚スペクトルに関連するマルチスケール特性を抽出するマルチスケール特性命令４０７をさらに含んでもよい。こうしたマルチスケール特性には、上記で説明したように強度、周波数コントラスト、経時コントラスト、および方向が含まれてもよい。これは、実行されると、さらに上記のように各マルチスケール特性に対して対応する特性マップを生成する特性マップ生成命令４０９の実行をトリガーする。この時点で、音節／母音／音素境界検出命令４０１は、実行されると、各特性マップに対するマルチ・パラメータの聴覚骨子特徴ベクトルを抽出する聴覚骨子特徴ベクトル命令４１１の抽出を実行してもよい。

音節／母音／音素境界検出命令４０１は、さらに実行されると、すべての聴覚骨子特徴ベクトルを拡張、結合し、ひとつの累積骨子特徴ベクトルにする累積骨子特徴ベクトル４１３を取得することを含んでもよい。累積骨子特徴ベクトル４１３は、実行されると、主成分分析（ＰＣＡ）を実行して、冗長性を取り除き、累積骨子特徴ベクトルの次元を減らすように構成されてもよい。音節／母音／音素境界検出命令４０１は、実行されると、さらに累積骨子特徴ベクトルを対応する音素の境界、母音の境界、音節核または音節の境界にマッピングする音節／母音／音素の境界を検出する命令４１５を含んでもよい。

実験と結果
先行技術の音節検出技術に対して本発明の実施形態による音節境界検出を行うために多くの音節セグメント化の実験が行われた。この音節セグメント化の実験では、ＴＩＭＩＴデータセットを使用した。ＴＩＭＩＴコーパスは、音節の注釈を持たない。ＮＩＳＴの音節に分けるソフトウェア、ｔｓｙｌｌｂ２の音素トランスクリプションを使用して言葉を音節に分けた。続いて、ＴＩＭＩＴと合わせて提供される音素レベルのタイミング情報と各音節の音素シーケンスを使用して音節のタイミング情報が自動的に抽出された。この実験では、公式ＴＩＭＩＴトレインと試験スプリットが使用された。この試験セットには、１３４４の発声が含まれ、これには約１７，１９０の音節が含まれる。

この実験では、聴覚骨子特徴と音節境界との間のマッピングを学習するために３層のニューラル・ネットワークを使用した。ニューラル・ネットワークは、Ｄ個の入力、（Ｄ+Ｎ）／２の隠れノード、およびＮ個の出力ノードを持ち、分散の９５％が保持される場合に、ＤはＰＣＡ次元減少後の聴覚骨子特徴ベクトルの長さであり、Ｎはクラスの数であり、こうした特定の実験では、これは２、すなわち、境界と非境界である。聴覚要点骨子特徴は、コンテキストを捕捉するための現在のフレームを中心とするウィンドウを使用して５０ｍｓ毎に推定される。

複数音節の語に対する正確な音節境界は、英語では曖昧になることがあり、どの子音が第一の音節または第２の音節に属するかを判定するのは難しい。従って、実験は、通常母音から子音への移行部がある音節核の終わりを推定することを目標とした。同じ方法を使用して、音節核の始まりと終わりを検出できるが、ここでは音節核の終わりのみを検出することをターゲットにし、１つの音節で１つの検出のみが存在するようにする。これは、発話／秒毎の音節数を推定するうえで有用であった。従って、以下の考察では、音節境界という用語は、便宜上、音節核の終わりという意味で使用する。

音節境界検出では、５０ｍｓのエラー・マージンを認めた。例えば、１３０ｍｓに境界が存在する場合、１００ｍｓと１５０ｍｓのフレームに対応する聴覚骨子特徴は両方ともトレーニング中の境界としてラベル付けされた。同様に、評価中、５０ｍｓ内で検出された境界は、正確であるとして受け入れられた。

この実験では、平均音節持続期間であった０．２ｓから０．４ｓまで持続期間を変化させてコンテキストの隣接する左右のパフォーマンスへの影響を分析するためにウィンドウ持続期間Ｗの役割を調べた。選択されたグリッド・サイズによって、経時およびスペクトルの解像度が決まる。経時およびスペクトルの解像度を変えて聴覚骨子特徴を抽出するために異なるグリッド・サイズでテストを行った。グリッド・サイズ、４×１０が十分なものであり、妥当な特性次元で音節境界検出を性能良く行うことがわかった。さらに、スペクトル解像度を高めることで、複雑度を増しながら結果を向上させることもわかった。

以下の表Iにウィンドウ持続期間を変化させたフレーム・レベルの音節境界検出性能が、聴覚骨子特徴次元Ｄで示されている。ウィンドウの持続期間を延ばすことで、音節境界検出性能は向上するが、これはコンテキスト情報が境界検出に役立つことを意味している。達成された最高性能は、Ｗ＝０．４ｓのフレーム・レベルで８５．３２％の音節境界検出正確度である。以下の表Iで報告されている結果は、オリジナルのニューラル・ネットワークの出力スコアである。実のところ、各音節境界に対してフレームの１つを検出すれば十分であるため、実際のフレーム・レベルの正確度は、これよりも高い。すなわち、ニューラル・ネットワークは、参照音節境界が１３０ｍｓである場合、１００ｍｓと１５０ｍｓの両方の境界を予測する。そうでなければ、検出されなかったフレームを削除エラーとしてペナルティを課す。

本発明の実施形態は、先行技術との違いと先行技術と比べた利点を示している。具体的に、臨界帯域のエネルギー、線形予測符号化スペクトル、サブバンド・ベースの相関関係、ピッチ、有声音など短期間の音響特性を利用する先行技術とは異なり、本発明の実施形態では、音節のセグメント化に聴覚注意手がかりを使用する。従来の方法では、特定のデータと設定に固有のパラメータのチューニングが必要となる。これとは対象的に本発明の実施形態のモデルでは、パラメータのチューニングが不要である。

さらに、本発明の実施形態では、各フレームに対して、現在のフレームが音節の境界である可能性があるフレーム・レベルの結果を得る。これとは対象的に先行技術では、例えば、核の始まりから約５０ｍｓ前から、核の終わりの約５０ｍｓまで音節核周辺のピークを検出することを目的としており、従ってより大きなエラー・マージンを認めている。本発明の実施形態では、フレーム・レベルでより詳細な情報を得ることができる。本発明の実施形態では、あるセグメント内の音節数、例えば１秒毎または１発話毎の音節数などについての情報も提供可能であり、会話速度を推定するために使用できる。推定した会話速度を使用して、会話速度に基づき適切な音響モデルを選択する、または音声の感情セグメントを見つけることにより音声認識性能を向上させるなど他の音声言語処理アプリケーションを向上させることができる。

他の方法と比較するために、音節核検出の実験も実施し、音節レベルの結果も得た。最初に、音節核の中間に対応するフレーム／秒が検出対象のターゲットとしてラベル付けされるようにニューラル・ネットワークがトレーニングされた。次に、ニューラル・ネットワークの確率スコアを使用して時間の関数として一次元曲線をつくるように軟判定を使用した。続いて、検出された音節核としてカウントされる局所的な極値を見つけるためにその曲線に対してピーク検索を行った。他の方法で行われているように、必要に応じて音節核周囲の５０ｍｓエラーは許容した。この結果は、以下の文献から参照した最新の結果と共に表ＩＩに示す。
“ＲｏｂｕｓｔＳｐｅｅｃｈＲａｔｅＥｓｔｉｍａｔｉｏｎｆｏｒＳｐｏｎｔａｎｅｏｕｓＳｐｅｅｃｈ”,ＤａｇｅｎＷａｎｇａｎｄＳｈｒｉｋａｎｔｈＳ．Ｎａｒａｙａｎａｎ，ｉｎＩＥＥＥＴＲＡＮＳＡＣＴＩＯＮＳＯＮＡＵＤＩＯ，ＳＰＥＥＣＨ，ＡＮＤＬＡＮＧＵＡＧＥＰＲＯＣＥＳＳＩＮＧ，ＶＯＬ．１５，ＮＯ. 8ＮＯＶＥＭＢＥＲ２００７，ｐｐ２１９０−２２０１、これを本明細書の一部として援用する。
“Ｓｐｅｅｃｈｒｈｙｔｈｍｇｕｉｄｅｄｓｙｌｌａｂｌｅｎｕｃｌｅｉｄｅｔｅｃｔｉｏｎ”，Ｙ．ＺｈａｎｇａｎｄＪ.Ｇｌａｓｓ，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ, ｐｐ３７９７−３８００, Ｔａｉｐｅｉ, ＴａｉｗａｎＡｐｒｉｌ２００９、これを本明細書の一部として援用する。

他の方法では、パラメータを細かくチューニングして、最高のリコールと精度を得るものの、一度に同時に得ることはできないが、以下の式であらわされるＦ−ｓｃｏｒｅでは精度とリコールを一度に考えるため、以下の表ＩＩのＦ−ｓｃｏｒｅを比較のために参照できる。

上記の表ＩＩの結果は、本発明の実施形態の音節検出は、音節核検出の最新技術と同等または最新技術よりも優れていることを示している。

上記は本発明の好適な実施形態を完全に記述したものであるが、様々な代替、改良、および同等物を使用することが可能である。従って、本発明の範囲は、上記の明細書を参照して判断されるべきものではなく、代わりに添付の請求項と同等物の完全な範囲と共に判断されるものである。本明細書に記載した特性は好まれるか否かに関わらず本明細書に記載されている他の特性と組み合わせてもよい。以下の請求項では、不定冠詞、“ａ”、“aｎ”は、明確にそうでないと記載がない限り、冠詞の後に続く物の数量が１つ以上であることを示す。以下の請求項では、特に記載がない限り、“or”（「または」）という語は、非排他的であると解釈される。添付の請求項は、means forというフレーズを使用して特定の請求項でそうした制限が明示的に受け入れられていない限り、ミーンズ＋ファンクションの制限を含むものと解釈されないものとする。

Claims

音入力ウィンドウに対する聴覚スペクトルから１つ以上のマルチスケール特性を抽出し、この場合、各マルチスケール特性は、別個の２次元スペクトル経時受容フィルタを使用して抽出し、
前記１つ以上のマルチスケール特性に対応する１つ以上の特性マップを生成し、
前記１つ以上の特性マップの各々から聴覚骨子特徴ベクトルを抽出し、
前記１つ以上の特性マップから抽出した各聴覚骨子特徴ベクトルの拡張を通して累積骨子特徴ベクトルを取得し、
前記累積骨子特徴ベクトルを１つ以上の音節または母音または音素の境界にマッピングすることにより、音入力ウィンドウで１つ以上の音節または母音または音素の境界を検出し、および
音入力ウィンドウにおける１つ以上の音節または母音または音素の境界を用いて単位時間毎の音節数または一発話毎の音節数を判定することを含む方法。
さらに、検出された音節または母音または音素の境界を使用して認識された母音または音節または音素から、語彙的意味または文法的意味を抽出することを含む請求項１に記載の方法。
さらに、語彙的意味または文法的意味を表示する、または保存することを含む請求項２に記載の方法。
さらに、判定された単位時間毎の音節数または一発話毎の音節数から発話速度を推定することを含む請求項１に記載の方法。
さらに、判定された単位時間毎の音節数または一発話毎の音節数から発話速度を推定し、推定された発話速度を使用して、他の音声言語処理アプリケーションを向上することを含む請求項１に記載の方法。
さらに、判定された単位時間毎の音節数または一発話毎の音節数から発話速度を推定し、推定された発話速度を使用して、推定された発話速度に基づき適切な音響モデルを選択することによって音声認識性能を向上することを含む請求項１に記載の方法。
さらに、判定された単位時間毎の音節数または一発話毎の音節数から発話速度を推定し、推定された発話速度を使用して、音入力ウィンドウを含む信号内で１つ以上の会話の感情セグメントを見つけることを含む請求項１に記載の方法。
音入力ウィンドウで１つ以上の音節または母音または音素の境界を検出することは、前記累積骨子特徴ベクトルで１つ以上の聴覚注意特性を与えられた境界を現在のフレームが含むか否かを判定するために、バイナリ判定または確率スコアの生成を含む請求項１に記載の方法。
前記聴覚スペクトルを判定することをさらに含み、前記聴覚スペクトルを判定することは、音入力ウィンドウを、聴覚系における基底膜から蝸牛神経核の間の伝達を模倣した蝸牛フィルタリング段階、内有毛細胞段階、および側方抑制の段階を通過させることを含む請求項１に記載の方法。
前記蝸牛フィルタリング段階は、１２８のオーバーラップする定数Ｑの非対称バンドパス・フィルタのバンクを使用して実行される請求項９に記載の方法。
音入力ウィンドウに対する前記聴覚スペクトルの前記マルチスケール特性の１つは、前記聴覚スペクトルに関連する強度を特徴づける請求項１に記載の方法。
音入力ウィンドウに対する前記聴覚スペクトルの前記マルチスケール特性の１つは、前記聴覚スペクトルに関連する周波数コントラストを特徴づける請求項１１に記載の方法。
音入力ウィンドウに対する前記聴覚スペクトルの前記マルチスケール特性の１つは、前記聴覚スペクトルに関連する経時コントラストを特徴づける請求項１２に記載の方法。
音入力ウィンドウに対する前記聴覚スペクトルの前記マルチスケール特性の１つは、前記聴覚スペクトルに関連する方向を特徴づける請求項１３に記載の方法。
音入力ウィンドウに対する前記聴覚スペクトルの前記１つ以上のマルチスケール特性は、ダイアディック・ピラミッドを用いて取得される請求項１に記載の方法。
前記１つ以上の特性マップの各々はその特定のマルチスケール特性に関連する１つ以上の中央スケールとその特定のマルチスケール特性に関連する１つ以上の周辺スケールとの間の差異を計算することによって得られる請求項１に記載の方法。
各聴覚骨子特徴ベクトルは、その対応する特性マップを、ｍにｎを乗じたグリッドにサブ領域を分割し、各サブ領域の統計を計算することによって判定される請求項１に記載の方法。
次元減少のためにより大きな入力ベクトルを形成する目的で、骨子特徴ベクトルと組み合わせて追加の音声特性を使用する請求項１に記載の方法。
前記追加の音声特性には、各ＦＦＴ周波数ビンによって計算されるフレーム・ベースのエネルギー、フレーム・ベースの最大振幅、フレーム・ベースのゼロ交差率、フレーム・ベースの音素確率、フレーム・ベースのピッチ振動を有する音声信号である確率、またはフレーム・ベースのスペクトル変化率を含む請求項１８に記載の方法。
前記累積骨子特徴ベクトルを取得することは、前記累積骨子特徴ベクトルの冗長性を除去する、または次元を減らすために次元減少方法を使用することを含む請求項１に記載の方法。
装置であって、
プロセッサと、
メモリと、
前記メモリで実現し、プロセッサによって実行可能なコンピュータ・コーディングされた命令と、を含み、前記コンピュータ・コーディングされた命令は、音節／母音／音素の境界を検出する方法を実施するように構成され、前記方法は、
音入力ウィンドウに対する聴覚スペクトルから１つ以上のマルチスケール特性を抽出し、この場合、各マルチスケール特性は、別個の２次元スペクトル経時受容フィルタを使用して抽出し、
前記１つ以上のマルチスケール特性に対応する１つ以上の特性マップを生成し、
前記１つ以上の特性マップの各々から聴覚骨子特徴ベクトルを抽出し、
前記１つ以上の特性マップから抽出した各聴覚骨子特徴ベクトルの拡張を通して累積骨子特徴ベクトルを取得し、
前記累積骨子特徴ベクトルを１つ以上の音節または母音または音素の境界にマッピングすることにより、音入力ウィンドウで１つ以上の音節または母音または音素の境界を検出し、および
音入力ウィンドウにおける１つ以上の音節または母音または音素の境界を用いて単位時間毎の音節数または一発話毎の音節数を判定することを含む装置。
コンピュータで読み取り可能なプログラム・コードが具体化された非一時的なコンピュータで読み取り可能な記憶媒体であって、
音入力ウィンドウに対する聴覚スペクトルから１つ以上のマルチスケール特性を抽出し、この場合、各マルチスケール特性は、別個の２次元スペクトル経時受容フィルタを使用して抽出する処理と、
前記１つ以上のマルチスケール特性に対応する１つ以上の特性マップを生成する処理と、
前記１つ以上の特性マップの各々から聴覚骨子特徴ベクトルを抽出する処理と、
前記１つ以上の特性マップから抽出した各聴覚骨子特徴ベクトルの拡張を通して累積骨子特徴ベクトルを取得する処理と、
前記累積骨子特徴ベクトルを１つ以上の音節または母音または音素の境界にマッピングすることにより、音入力ウィンドウで１つ以上の音節または母音または音素の境界を検出する処理と、
音入力ウィンドウにおける１つ以上の音節または母音または音素の境界を用いて単位時間毎の音節数または一発話毎の音節数を判定する処理とをコンピュータに実行させるためのコンピュータで読み取り可能なプログラム・コードを含む記憶媒体。