JP5453107B2

JP5453107B2 - 音声セグメンテーションの方法および装置

Info

Publication number: JP5453107B2
Application number: JP2009543317A
Authority: JP
Inventors: デュ、ロバート; タオ、イエ; ズー、ダレン
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2006-12-27
Filing date: 2006-12-27
Publication date: 2014-03-26
Anticipated expiration: 2026-12-27
Also published as: EP2100294A1; CN101568957B; JP2010515085A; US8442822B2; EP2100294A4; US8775182B2; US20100153109A1; KR101140896B1; KR20120008088A; US20130238328A1; KR20090094106A; CN101568957A; WO2008077281A1

Description

音声セグメンテーションは、非構造化情報検索方法における一工程であって、非構造化情報を音声セグメントおよび非音声セグメントに分類し得る。音声セグメンテーションには、多岐にわたる方法が利用され得る。最も一般的な方法は、音声セグメントと非音声セグメントとを区別するメディアリソースから音声セグメントを手作業で抽出する方法である。

本明細書に記載する発明を添付図面において図示するが、これは例示を目的とするものであって本発明を限定するものではない。図示の便宜上、図面上の構成要素は必ずしも実寸に即したものとはなっていない。例えば、一部の構成要素の寸法は、分かりやすさを優先して、ほかの構成要素の寸法に対して強調されている場合がある。また、対応する構成要素または同様の構成要素を指し示す場合、複数の図面に渡って同じ参照符号を適宜繰り返している。

音声セグメンテーションシステムを備えるコンピューティングプラットフォームの実施形態を示す図である。

音声セグメンテーションシステムの実施形態を示す図である。

ファジールールの実施形態および当該ファジールールに基づいて音声セグメンテーションシステムがどのようにセグメントが音声であるか否かを決定するのかを示す図である。

音声セグメンテーションシステムが実行する音声セグメンテーション方法の実施形態を示す図である。

以下では、音声セグメンテーションの方法および装置に関する技術を説明する。以下の説明では、本発明を完全に理解して頂くべく、ロジック実装、疑似コード、オペランド特定手段、リソース分割／共有／複製実装、システム構成要素の種類および相対関係、およびロジック分割／統合の選択肢等、具体的且つ詳細な内容を数多く記載する。しかし、本発明はそういった具体的且つ詳細な記載を含まずとも実施し得る。また、制御構造、ゲートレベル回路、および完全なソフトウェア命令シーケンスについては、本発明をあいまいにすることを避けるべく、詳細な説明を省略している。当業者であれば、以下の記載に基づいて、過度の実験を行うことなく適切な機能を実装し得る。

本明細書で「一実施形態」、「実施形態」、「実施形態例」等の表現を用いる場合、説明されている実施形態は特定の特徴、構造または特性を含むことを指すが、実施形態全てがその特定の特徴、構造または特性を必ずしも含むわけではない。また、そのような表現は、必ずしも同じ実施形態に言及しているわけではない。さらに、特定の特徴、構造または特性が１つの実施形態に関連付けて説明されている場合、当該特徴、構造または特性をその他の実施形態に関連付けて実現することは、明示的に記載されているか否かに関わらず、当業者の知り得るところであると考えられたい。

本発明の実施形態は、ハードウェア、ファームウェア、ソフトウェアまたはこれらの任意の組み合わせにおいて実装され得る。本発明の実施形態は、１以上のプロセッサによって読み出されて実行される、機械可読媒体に格納されている命令として実装され得る。機械可読媒体は、機械（例えば、コンピューティングデバイス）によって読み出し可能な形式で情報を格納または送信するものであればどのような機構であってもよい。例えば、機械可読媒体としては、リードオンリーメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、磁気ディスク格納媒体、光格納媒体、フラッシュメモリデバイス、電気伝播信号、光学伝播信号、音響伝播信号、またはその他の形式の伝播信号（例えば、搬送波、赤外線信号、デジタル信号等）がある。

音声セグメンテーションシステム１２１を備えるコンピューティングプラットフォーム１０の実施形態を図１に示す。コンピューティングプラットフォームの例を挙げると、メインフレームコンピュータ、ミニコンピュータ、パーソナルコンピュータ、携帯可能コンピュータ、ノート型コンピュータ等、データを送受信および処理するデバイスがある。

コンピューティングプラットフォーム１０は、１以上のプロセッサ１１、メモリ１２、チップセット１３、Ｉ／Ｏデバイス１４等を備えるとしてよい。１以上のプロセッサ１１は、プロセッサバス等の１以上のバスを介して、さまざまな構成要素（例えば、メモリ１２）に対して通信可能に結合されている。プロセッサ１１は、コードを実行する処理コアを１以上有する集積回路（ＩＣ）として実装されるとしてよい。プロセッサ１１の例を挙げると、ＩｎｔｅｌＣｏｒｐｏｒａｔｉｏｎ（米国、カリフォルニア州、サンタクラーラ）製の、Ｉｎｔｅｌ（登録商標）Ｃｏｒｅ（商標）、Ｉｎｔｅｌ（登録商標）Ｃｅｌｅｒｏｎ（商標）、Ｉｎｔｅｌ（登録商標）Ｐｅｎｔｉｕｍ（登録商標）、Ｉｎｔｅｌ（登録商標）Ｘｅｏｎ（商標）、Ｉｎｔｅｌ（登録商標）Ｉｔａｎｉｕｍ（商標）等のアーキテクチャを含み得る。

メモリ１２は、プロセッサ１１によって実行されるコードを格納するとしてよい。メモリ１２の例を挙げると、以下に列挙する半導体デバイスのうち１つまたは２つ以上の組み合わせを含むとしてよい。例えば、シンクロナスダイナミックランダムアクセスメモリ（ＳＤＲＡＭ）デバイス、ＲＡＭＢＵＳダイナミックランダムアクセスメモリ（ＲＤＲＡＭ）デバイス、ダブルデータレート（ＤＤＲ）メモリデバイス、スタティックランダムアクセスメモリ（ＳＲＡＭ）、およびフラッシュメモリデバイスである。

チップセット１３は、プロセッサ１１と、メモリ１２と、Ｉ／Ｏデバイス１４と、その他の構成要素との間において、１以上の通信経路を実現するとしてよい。チップセット１３はさらに、上述の構成要素のそれぞれと通信するためのハブを有するとしてよい。例えば、チップセット１３は、メモリコントローラハブ、入出力コントローラハブ、およびその他のハブを有するとしてよい。

Ｉ／Ｏデバイス１４は、メディアデータ等のデータを、コンピューティングプラットフォーム１０との間でやり取りするとしてよい。Ｉ／Ｏデバイス１４の例としては、ネットワークカード、ブルートゥースデバイス、アンテナ等のデータ送受信デバイスが挙げられ得る。

図１に図示する実施形態によると、メモリ１２はさらに、メディアリソース１２０、音声セグメンテーションシステム１２１、音声セグメント１２２および非音声セグメント１２３として実装されるコードを有するとしてよい。

メディアリソース１２０は、オーディオリソースおよびビデオリソースを含むとしてよい。メディアリソース１２０は、Ｉ／Ｏデバイス１４、ディスクストレージ（不図示）、およびオーディオ／ビデオデバイス（不図示）等、さまざまな構成要素によって提供され得る。

音声セグメンテーションシステム１２１は、メディアリソース１２０を複数のメディアセグメントに分割して、メディアセグメントが音声セグメント１２２であるか非音声セグメント１２３であるかを決定し、メディアセグメントを音声セグメント１２２または非音声セグメント１２３として分類するとしてよい。音声セグメンテーションはさまざまな分野で利用され得る。例えば、音声分類技術および音声セグメンテーション技術は、オーディオ−テキストマッピングに利用され得る。この場合、音声セグメント１２２にはオーディオ−テキスト位置合わせ処理が施されて、音声セグメントにマッピングされるテキストが選択されるとしてよい。

音声セグメンテーションシステム１２１は、ファジー推論技術を用いて、音声セグメント１２２と非音声セグメント１２３とを区別するとしてよい。図２を参照しつつさらに詳細に説明する。

図２は、音声セグメンテーションシステム１２１の実施形態を示す図である。音声セグメンテーションシステム１２１は、ファジールール２０、メディア分割ロジック２１、入力変数抽出ロジック２２、メンバーシップ関数トレーニングロジック２３、ファジールール処理ロジック２４、非ファジー化ロジック２５、分類ロジック２６等の音声セグメンテーション用構成要素を備えるとしてよい。

ファジールール２０は、メディアリソース１２０の特性および音声データに関して事前に得られた知識等のさまざまな要素に基づいて決定される、１以上のファジールールを格納してよい。ファジールールは、メディアセグメントが音声であるか非音声であるかを決定するための言語学的なルールであってよく、ＩＦ−ＴＨＥＮ（〜ならば・・・）形式等のさまざまな形を取るとしてよい。ＩＦ−ＴＨＥＮルールは、前件部（ＩＦ）と後件部（ＴＨＥＮ）とを含むとしてよい。前件部は、後件部を得るための条件を特定するとしてよい。

前件部は、メディアデータのさまざまな特性を指定する１以上の入力変数を含むとしてよい。例えば、入力変数は、高ゼロクロス率比（ＨｉｇｈＺｅｒｏ−ＣｒｏｓｓｉｎｇＲａｔｅＲａｔｉｏ：ＨＺＣＲＲ）、「低エネルギーフレーム」率（Ｐｅｒｃｅｎｔａｇｅｏｆ "Ｌｏｗ−Ｅｎｅｒｇｙ" Ｆｒａｍｅｓ：ＬＥＦＰ）、スペクトル重心の分散（ＶａｒｉａｎｃｅｏｆＳｐｅｃｔｒａｌＣｅｎｔｒｏｉｄ：ＳＣＶ）、スペクトル変動の分散（ＶａｒｉａｎｃｅｏｆＳｐｅｃｔｒａｌＦｌｕｘ：ＳＦＶ）、スペクトルロールオフポイントの分散（ＶａｒｉａｎｃｅｏｆＳｐｅｃｔｒａｌＲｏｌｌ−ＯｆｆＰｏｉｎｔ：ＳＲＰＶ）および４Ｈｚ変調エネルギー（４Ｈｚ）を含む複数の特徴から選択されるとしてよい。後件部は、出力変数を含むとしてよい。図２に示す実施形態によると、出力変数は音声可能性であってよい。

以下に、信号ノイズ比（ＳＮＲ）が高い環境でメディアに利用されるファジールールの一例を説明する。

ルール１：ＬＥＦＰが高いまたはＳＦＶが低い場合には（ＩＦ）、音声可能性は音声とされる（ＴＨＥＮ）。

ルール２：ＬＥＦＰが低く且つＨＺＣＲＲが高い場合には（ＩＦ）、音声可能性は非音声とされる（ＴＨＥＮ）。

以下に、ＳＮＲが低い環境でメディアに利用されるファジールールの別の例を説明する。

ルール１：ＨＺＣＲＲが低い場合には（ＩＦ）、音声可能性は非音声とされる（ＴＨＥＮ）。

ルール２：ＬＥＦＰが高い場合には（ＩＦ）、音声可能性は音声とされる（ＴＨＥＮ）。

ルール３：ＬＥＦＰが低い場合には（ＩＦ）、音声可能性は非音声とされる（ＴＨＥＮ）。

ルール４：ＳＣＶが高く、且つ、ＳＦＶが高く、且つ、ＳＲＰＶが高い場合には（ＩＦ）、音声可能性は音声とされる（ＴＨＥＮ）。

ルール５：ＳＣＶが低く、且つ、ＳＦＶが低く、且つ、ＳＲＰＶが低い場合には（ＩＦ）、音声可能性は非音声とされる（ＴＨＥＮ）。

ルール６：４Ｈｚが非常に高い場合には（ＩＦ）、音声可能性は音声とされる（ＴＨＥＮ）。

ルール７：４Ｈｚが低い場合には（ＩＦ）、音声可能性は非音声とされる（ＴＨＥＮ）。

ルールの各ステートメントは、ステートメントにおける部分的なメンバーシップの可能性を認めるとしてもよい。つまり、ルールの各ステートメントは、入力変数または出力変数がメンバーシップにどれくらいの度合で属するかの問題であってよい。上述したルールによると、各入力変数は、「低い」および「高い」として定義されている２つのメンバーシップ関数を採用するとしてよい。出力変数は「音声」および「非音声」として定義されている２つのメンバーシップ関数を採用するとしてよい。ファジールールは、複数の異なる入力変数を複数の異なるメンバーシップ関数に対応付けているものと考えられたい。例えば、入力変数ＬＥＦＰは「中程度」メンバーシップ関数および「低い」メンバーシップ関数を採用する一方、入力変数ＳＦＶは「高い」メンバーシップ関数および「中程度」メンバーシップ関数を採用するとしてよい。

メンバーシップ関数トレーニングロジック２３は、各入力変数に対応付けられているメンバーシップ関数をトレーニングするとしてよい。メンバーシップ関数は、さまざまなパターンで形成されるとしてよい。一例を挙げると、最も簡潔なメンバーシップ関数は、直線、三角形または台形で形成され得る。２つのメンバーシップ関数は、ガウス分布曲線に基づいて構築されるとしてよい。例えば、１つの単純なガウス曲線と、２つの異なるガウス曲線を合成した１つの両側ガウス曲線とである。一般的な釣り鐘型メンバーシップ関数は、３つのパラメータによって特定される。

メディア分割ロジック２１は、メディアリソース１２０を、複数のメディアセグメント、例えば、１秒ウィンドウにつき１つのメディアセグメントへと分割してよい。入力変数抽出ロジック２２は、ファジールール２０に基づいて、各メディアセグメントから入力変数のインスタンスを抽出するとしてよい。ファジールール処理ロジック２４は、ファジールール２０に基づいて、入力変数のインスタンス、入力変数に対応付けられているメンバーシップ関数、出力変数、および出力変数に対応付けられているメンバーシップ関数を処理して、出力変数（つまり、音声可能性）がメンバーシップ（つまり、音声または非音声）に属する可能性を表す完全ファジー結論を得るとしてよい。

非ファジー化ロジック２５は、ファジールール処理ロジック２４からのファジー結論を非ファジー化して、出力変数について確定数値を得るとしてよい。非ファジー化は、さまざまな方法を利用して行ってよい。例えば、重み付け重心方法を用いて、各ファジールールの出力の重み付け集計結果の重心を見つけるとしてもよい。このような重心は、出力変数（つまり、音声可能性）の確定数値を特定するとしてよい。

分類ロジック２６は、各メディアセグメントに対する音声可能性の確定数値に基づいて、当該メディアセグメントを、音声セグメントまたは非音声セグメントとして、分類してよい。

図３は、ファジールール２０の実施形態と、音声セグメンテーションシステム１２１がどのようにファジールールに基づいてセグメントが音声であるか否かを決定するのかを示す図である。同図に示すように、ファジールール２０は２つのルールを含むとしてよい。

ルール１：ＬＥＦＰが高い、または、ＳＦＶが低い場合（ＩＦ）、音声可能性は音声とされる（ＴＨＥＮ）。

ルール２：ＬＥＦＰが低く、且つ、ＨＺＣＲＲが高い場合（ＩＦ）、音声可能性は非音声とされる（ＴＨＥＮ）。

まず、ファジールール処理ロジック２４は、抽出された入力変数のインスタンスおよびメンバーシップ関数に基づいて、各ルールの各入力変数をファジー化するとしてよい。上述したように、ファジールールの各ステートメントは、各ステートメントにおける部分的なメンバーシップの可能性を認めるとしてよく、ステートメントの真とは度合の問題であってよい。例えば、「ＬＥＦＰが高い」というステートメントは、ＬＥＦＰが高いことが、全面的でなく部分的に、真であることを認めるとしてよい。ＬＥＦＰが「高い」メンバーシップに属している度合は、０から１の間のメンバーシップ値によって示されるとしてよい。ＬＥＦＰに対応付けられている「高い」メンバーシップ関数は、図３のブロックＢ００に示すように、ＬＥＦＰのインスタンスを、対応する適切なメンバーシップ値に対してマッピングしているものであってよい。入力変数に対応付けられているメンバーシップ関数と抽出された入力変数のインスタンス（例えば、ＬＥＦＰ＝０．７、ＨＺＣＲＲ＝０．８、ＳＦＶ＝０．１）とを利用してメンバーシップ値を得る処理は、「入力ファジー化」と呼ばれ得る。このため、図３に示すように、ルール１の入力変数「ＬＥＦＰ」は、「高い」メンバーシップ値について０．４へとファジー化され得る。同様に、ルール１の入力変数「ＳＦＶ」は「低い」メンバーシップ値について０．８へとファジー化され、ルール２の入力変数「ＬＥＦＰ」は「低い」メンバーシップ値について０．１へとファジー化され、入力変数「ＨＺＣＲＲ」は「高い」メンバーシップ値について０．５へとファジー化されるとしてよい。

続いて、ファジールール処理ロジック２４は、各ルールのファジー化された入力を処理して、当該ルールについてファジー化出力を得るとしてよい。ルールの前件部が２つ以上の部分を含む場合、ファジー論理演算子（例えば、ＡＮＤ、ＯＲ、ＮＯＴ）を用いて前件部の結果を表す値を得るとしてよい。例えば、ルール１は「ＬＥＦＰが高い」および「ＳＦＶが低い」という２つの部分を含んでいる。ルール１はファジー論理演算子「ＯＲ」を用いて、ファジー化された入力の最大値を求める、つまり、ルール１の前件部の結果として、ファジー化された入力である０．４および０．８のうち最大値０．８を求めるとしてよい。ルール２は「ＬＥＦＰが低い」および「ＨＺＣＲＲが高い」という２つの部分を含んでいる。ルール２はファジー論理演算子「ＡＮＤ」を用いて、ファジー化された入力の最小値を求める、つまり、ルール２の前件部の結果として、ファジー化された入力である０．１および０．５のうち最小値０．１を求めるとしてよい。

続いて、それぞれのルールについて、ファジールール処理ロジック２４は、出力変数「音声可能性」に対応付けられているメンバーシップ関数とルールの前件部の結果とを用いて、音声可能性がメンバーシップ（つまり、音声または非音声）に属する一連の度合を示す一連のメンバーシップ値を求めてよい。ルール１について、ファジールール処理ロジック２４は、含意（ｉｍｐｌｉｃａｔｉｏｎ）法を適用して、音声可能性が「音声」メンバーシップに属する度合の最大値をルール１の前件部から得られた値、つまり０．８、に制限することによって、「音声」メンバーシップ関数を整形し直すとしてよい。図３のブロックＢ０４は、ルール１について音声可能性が「音声」メンバーシップに属する度合を表す一連の値を示している。同様に、図３のブロックＢ１４は、ルール２について音声可能性が「非音声」メンバーシップに属する度合を表す別の一連の値を示している。

続いて、非ファジー化ロジック２５は、各ルールの出力を非ファジー化して、出力変数である「音声可能性」について非ファジー化値を求めてよい。各ルールの出力は、出力変数「音声可能性」がメンバーシップに属する度合を表す完全ファジー集合であってよい。出力の絶対値を取得する処理を「非ファジー化」と呼ぶ。非ファジー化は、さまざまな方法を用いて実行してよい。例えば、非ファジー化ロジック２５は、前述した重み付け重心法を用いて、出力の絶対値を求めるとしてよい。

具体的に説明すると、非ファジー化ロジック２５は、各ルールの各出力、例えば、図３のブロックＢ０４に示すような度合を表す一連の値および図３のブロックＢ１４に示すような度合を表す一連の値、に重みを割り当ててよい。例えば、非ファジー化ロジック２５は、ルール１の出力およびルール２の出力に対して重み「１」を割り当てるとしてよい。続いて、非ファジー化ロジック２５は、重み付けされた出力を集計して、出力値の範囲を画定する和集合を求めてよい。図３のブロックＢ２０は、集計結果を示すとしてよい。最後に、非ファジー化ロジック２５は、出力される「音声可能性」の絶対値として、集計結果の重心を特定するとしてよい。図３に示すように、音声可能性値は０．８であってよく、この値に基づいて音声セグメンテーションシステム１２１は、メディアセグメントが音声であるか非音声であるかを決定してよい。

図４は、音声セグメンテーションシステム１２１が実行する音声セグメンテーション方法の実施形態を示す図である。ブロック４０１において、メディア分割ロジック２１が、メディアリソース１２０を複数のメディアセグメント、例えば、１秒ウィンドウにつき１つのメディアセグメントに分割するとしてよい。ブロック４０２において、ファジールール２０は、メディアセグメントが音声であるか非音声であるかを決定する条件を特定する１以上のルールを含むとしてよい。ファジールールは、メディアリソース１２０の特性および音声データについて事前に得た知識に基づいて決定されるとしてよい。

ブロック４０３において、メンバーシップ関数トレーニングロジック２３は、各ファジールールの各入力変数に対応付けられているメンバーシップ関数をトレーニングするとしてよい。メンバーシップ関数トレーニングロジック２３はさらに、ファジールールの出力変数「音声可能性」に対応付けられているメンバーシップ関数をトレーニングするとしてよい。ブロック４０４において、入力変数抽出ロジック２２は、各ファジールールの前件部に従って、各メディアセグメントから入力変数を抽出してよい。ブロック４０５において、ファジールール処理ロジック２４は、抽出された入力変数のインスタンスと入力変数に対応付けられているメンバーシップ関数とを用いて、各ファジールールの各入力変数をファジー化してよい。

ブロック４０６において、ファジールール処理ロジック２４は、前件部の結果を表す値を取得してよい。前件部に含まれる部分が１つの場合は、その部分からのファジー化入力が取得する値であってよい。前件部に含まれる部分が２つ以上の場合は、ファジールール処理ロジック２４は、各部分からの各ファジー化入力についてファジー論理演算子、例えば、ＡＮＤ、ＯＲまたはＮＯＴ等を用いてファジールールが指し示すように処理を行い、その結果の値を取得してよい。ブロック４０７において、ファジールール処理ロジック２４は、含意法を適用して、各ファジールールの出力変数に対応付けられているメンバーシップ関数の一部分を切り捨てるとしてよい。切り捨て処理後のメンバーシップ関数は、出力変数がメンバーシップに属する度合を示す値の範囲を画定するとしてよい。

ブロック４０８では、非ファジー化ロジック２５が各ファジールールの各出力に対して重みを割り当てて、重み付けされた出力を集計して、出力和集合を求めるとしてよい。ブロック４０９において、非ファジー化ロジック２５は重心法を適用して、出力変数「音声可能性」の値として、出力和集合の重心を特定してよい。ブロック４１０において、分類ロジック２６は、メディアセグメントが音声であるか非音声であるかを、音声可能性値に基づいて分類するとしてよい。

実施形態例を参照しつつ本発明の特徴を説明したが、上述の記載は本発明を限定するものと解釈されるべきではない。記載した実施形態例のさまざまな変形例は、上述以外の本発明の実施形態と共に、当業者には明らかであり、本発明の精神および範囲に含まれるものとする。

Claims

音声セグメントと非音声セグメントとを区別するファジールールであって、前件部が、メディアデータの特性を示す入力変数および入力変数メンバーシップを含み、後件部が、前記メディアデータの音声可能性を示す出力変数および出力変数メンバーシップを含むファジールールを決定する段階と、
セグメントから前記入力変数のインスタンスを抽出する段階と、
前記入力変数メンバーシップに対応付けられている入力変数メンバーシップ関数および前記出力変数メンバーシップに対応付けられている出力変数メンバーシップ関数をトレーニングする段階と、
前記入力変数の前記インスタンス、前記入力変数メンバーシップ関数、前記出力変数、および前記出力変数メンバーシップ関数を処理して、前記セグメントが前記音声セグメントであるか前記非音声セグメントであるかを決定する段階と
を備え、
前記入力変数は、低エネルギーフレーム率（ＬＥＦＰ）、高ゼロクロス率比（ＨＺＣＲＲ）、スペクトル重心の分散（ＳＣＶ）、スペクトル変動の分散（ＳＦＶ）、スペクトルロールオフポイントの分散（ＳＲＰＶ）、および、４Ｈｚ変調エネルギー（４Ｈｚ）を含む群から選択される少なくとも１つの変数を含み、
信号ノイズ比（ＳＮＲ）が高い環境で前記メディアデータに利用される前記ファジールールは、
ＬＥＦＰが高いか、または、ＳＦＶが低い場合には、前記音声可能性は音声とされることを記述する第１のルールと、
ＬＥＦＰが低く、且つ、ＨＺＣＲＲが高い場合には、前記音声可能性は非音声とされることを記述する第２のルールと
を含み、
前記ＳＮＲが低い環境で前記メディアデータに利用される前記ファジールールは、
ＨＺＣＲＲが低い場合には、前記音声可能性は非音声とされることを記述している第１のルールと、
ＬＥＦＰが高い場合には、前記音声可能性は音声とされることを記述している第２のルールと、
ＬＥＦＰが低い場合には、前記音声可能性は非音声とされることを記述している第３のルールと、
ＳＣＶが高く、且つ、ＳＦＶが高く、且つ、ＳＲＰＶが高い場合には、前記音声可能性は音声とされることを記述している第４のルールと、
ＳＣＶが低く、且つ、ＳＦＶが低く、ＳＲＰＶが低い場合には、前記音声可能性は非音声とされることを記述している第５のルールと、
４Ｈｚが高い場合には、前記音声可能性は音声とされることを記述している第６のルールと、
４Ｈｚが低い場合には、前記音声可能性は非音声とされることを記述している第７のルールと
を含む
方法。
前記処理する段階はさらに、
前記入力変数の前記インスタンスと前記入力変数メンバーシップ関数とに基づいて前記入力変数をファジー化して、前記入力変数が前記入力変数メンバーシップに属している第１の度合を示すファジー化入力を求める段階と、
前記ファジー化入力に基づいて前記出力変数メンバーシップ関数を整形し直して、前記出力変数が前記出力変数メンバーシップに属している第２の度合のグループを示す出力集合を求める段階と、
前記出力集合を非ファジー化して非ファジー化出力を求める段階と、
前記非ファジー化出力に基づいて前記セグメントが前記音声セグメントであるか前記非音声セグメントであるかを分類する段階と
を有する
請求項１に記載の方法。
前記非ファジー化する段階はさらに、
前記ファジールールが含むルールが１つの場合は、前記出力集合の重心を特定して前記非ファジー化出力を求める段階と、
前記ファジールールが含むルールが複数の場合は、
複数の前記ルールのそれぞれから得られた前記出力集合に複数の重みのそれぞれを乗算して、複数の重み付け出力集合のそれぞれを求める段階と、
前記複数の重み付け出力集合を集計して出力和集合を求める段階と、
前記出力和集合の重心を特定して前記非ファジー化出力を求める段階と
を含む
請求項２に記載の方法。
音声セグメントと非音声セグメントとを区別するファジールールであって、前件部が、メディアデータの特性を示す入力変数および入力変数メンバーシップを含み、後件部が、前記メディアデータの音声可能性を示す出力変数および出力変数メンバーシップを含むファジールールを決定する段階と、
セグメントから前記入力変数のインスタンスを抽出する段階と、
前記入力変数メンバーシップに対応付けられている入力変数メンバーシップ関数および前記出力変数メンバーシップに対応付けられている出力変数メンバーシップ関数をトレーニングする段階と、
前記入力変数の前記インスタンス、前記入力変数メンバーシップ関数、前記出力変数、および前記出力変数メンバーシップ関数を処理して、前記セグメントが前記音声セグメントであるか前記非音声セグメントであるかを決定する段階と
を備え、
前記処理する段階はさらに、
前記入力変数の前記インスタンスと前記入力変数メンバーシップ関数とに基づいて前記入力変数をファジー化して、前記入力変数が前記入力変数メンバーシップに属している第１の度合を示すファジー化入力を求める段階と、
前記ファジー化入力に基づいて前記出力変数メンバーシップ関数を整形し直して、前記出力変数が前記出力変数メンバーシップに属している第２の度合のグループを示す出力集合を求める段階と、
前記出力集合を非ファジー化して非ファジー化出力を求める段階と、
前記非ファジー化出力に基づいて前記セグメントが前記音声セグメントであるか前記非音声セグメントであるかを分類する段階と
を有し、
前記非ファジー化する段階はさらに、
前記ファジールールが含むルールが１つの場合は、前記出力集合の重心を特定して前記非ファジー化出力を求める段階と、
前記ファジールールが含むルールが複数の場合は、
複数の前記ルールのそれぞれから得られた前記出力集合に複数の重みのそれぞれを乗算して、複数の重み付け出力集合のそれぞれを求める段階と、
前記複数の重み付け出力集合を集計して出力和集合を求める段階と、
前記出力和集合の重心を特定して前記非ファジー化出力を求める段階と
を含む
方法。
前記入力変数は、低エネルギーフレーム率（ＬＥＦＰ）、高ゼロクロス率比（ＨＺＣＲＲ）、スペクトル重心の分散（ＳＣＶ）、スペクトル変動の分散（ＳＦＶ）、スペクトルロールオフポイントの分散（ＳＲＰＶ）、および、４Ｈｚ変調エネルギー（４Ｈｚ）を含む群から選択される少なくとも１つの変数を含む
請求項４に記載の方法。
前記ファジールールは、
ＬＥＦＰが高いか、または、ＳＦＶが低い場合には、前記音声可能性は音声とされることを記述する第１のルールと、
ＬＥＦＰが低く、且つ、ＨＺＣＲＲが高い場合には、前記音声可能性は非音声とされることを記述する第２のルールと
を含む
請求項５に記載の方法。
前記ファジールールは、
ＨＺＣＲＲが低い場合には、前記音声可能性は非音声とされることを記述している第１のルールと、
ＬＥＦＰが高い場合には、前記音声可能性は音声とされることを記述している第２のルールと、
ＬＥＦＰが低い場合には、前記音声可能性は非音声とされることを記述している第３のルールと、
ＳＣＶが高く、且つ、ＳＦＶが高く、且つ、ＳＲＰＶが高い場合には、前記音声可能性は音声とされることを記述している第４のルールと、
ＳＣＶが低く、且つ、ＳＦＶが低く、ＳＲＰＶが低い場合には、前記音声可能性は非音声とされることを記述している第５のルールと、
４Ｈｚが高い場合には、前記音声可能性は音声とされることを記述している第６のルールと、
４Ｈｚが低い場合には、前記音声可能性は非音声とされることを記述している第７のルールと
を含む
請求項５に記載の方法。
前記前件部は、前記入力変数が前記入力変数メンバーシップに属することを、第１の部分的度合で許容する
請求項１から７のいずれか一項に記載の方法。
前記後件部は、前記出力変数が前記出力変数メンバーシップに属することを、第２の部分的度合で許容する
請求項１から８のいずれか一項に記載の方法。
コンピュータに、
音声セグメントと非音声セグメントとを区別するファジールールであって、前件部が、メディアデータの特性を示す入力変数および入力変数メンバーシップを含み、後件部が、前記メディアデータの音声可能性を示す出力変数および出力変数メンバーシップを含むファジールールを決定する手順と、
セグメントから前記入力変数のインスタンスを抽出する手順と、
前記入力変数メンバーシップに対応付けられている入力変数メンバーシップ関数および前記出力変数メンバーシップに対応付けられている出力変数メンバーシップ関数をトレーニングする手順と、
前記入力変数の前記インスタンス、前記入力変数メンバーシップ関数、前記出力変数、および前記出力変数メンバーシップ関数を処理して、前記セグメントが前記音声セグメントであるか前記非音声セグメントであるかを決定する手順と
を実行させ、
前記入力変数は、低エネルギーフレーム率（ＬＥＦＰ）、高ゼロクロス率比（ＨＺＣＲＲ）、スペクトル重心の分散（ＳＣＶ）、スペクトル変動の分散（ＳＦＶ）、スペクトルロールオフポイントの分散（ＳＲＰＶ）、および、４Ｈｚ変調エネルギー（４Ｈｚ）を含む群から選択される少なくとも１つの変数を含み、
信号ノイズ（ＳＮＲ）が高い環境で前記メディアデータに利用される前記ファジールールは、
ＬＥＦＰが高いか、または、ＳＦＶが低い場合には、前記音声可能性は音声とされることを記述する第１のルールと、
ＬＥＦＰが低く、且つ、ＨＺＣＲＲが高い場合には、前記音声可能性は非音声とされることを記述する第２のルールと
を含み、
前記ＳＮＲが低い環境で前記メディアデータに利用される前記ファジールールは、
ＨＺＣＲＲが低い場合には、前記音声可能性は非音声とされることを記述している第１のルールと、
ＬＥＦＰが高い場合には、前記音声可能性は音声とされることを記述している第２のルールと、
ＬＥＦＰが低い場合には、前記音声可能性は非音声とされることを記述している第３のルールと、
ＳＣＶが高く、且つ、ＳＦＶが高く、且つ、ＳＲＰＶが高い場合には、前記音声可能性は音声とされることを記述している第４のルールと、
ＳＣＶが低く、且つ、ＳＦＶが低く、ＳＲＰＶが低い場合には、前記音声可能性は非音声とされることを記述している第５のルールと、
４Ｈｚが高い場合には、前記音声可能性は音声とされることを記述している第６のルールと、
４Ｈｚが低い場合には、前記音声可能性は非音声とされることを記述している第７のルールと
を含む
プログラム。
前記処理する手順は、
前記入力変数の前記インスタンスと前記入力変数メンバーシップ関数とに基づいて前記入力変数をファジー化して、前記入力変数が前記入力変数メンバーシップに属している第１の度合を示すファジー化入力を求める手順と、
前記ファジー化入力に基づいて前記出力変数メンバーシップ関数を整形し直して、前記出力変数が前記出力変数メンバーシップに属している第２の度合のグループを示す出力集合を求める手順と、
非ファジー化出力を求めるべく、前記出力集合を非ファジー化する手順と、
前記非ファジー化出力に基づいて前記セグメントが前記音声セグメントであるか前記非音声セグメントであるかを分類する手順と
を含む
請求項１０に記載のプログラム。
前記非ファジー化する手順はさらに、
前記ファジールールが含むルールが１つの場合に、前記出力集合の重心を特定して前記非ファジー化出力を求める手順と、
前記ファジールールが含むルールが複数の場合に、複数の前記ルールのそれぞれから得られた前記出力集合に複数の重みのそれぞれを乗算して、複数の重み付け出力集合のそれぞれを求める手順と、
前記複数の重み付け出力集合を集計して出力和集合を求める手順と、
前記出力和集合の重心を特定して前記非ファジー化出力を求める手順と
を含む
請求項１１に記載のプログラム。
コンピュータに、
音声セグメントと非音声セグメントとを区別するファジールールであって、前件部が、メディアデータの特性を示す入力変数および入力変数メンバーシップを含み、後件部が、前記メディアデータの音声可能性を示す出力変数および出力変数メンバーシップを含むファジールールを決定する手順と、
セグメントから前記入力変数のインスタンスを抽出する手順と、
前記入力変数メンバーシップに対応付けられている入力変数メンバーシップ関数および前記出力変数メンバーシップに対応付けられている出力変数メンバーシップ関数をトレーニングする手順と、
前記入力変数の前記インスタンス、前記入力変数メンバーシップ関数、前記出力変数、および前記出力変数メンバーシップ関数を処理して、前記セグメントが前記音声セグメントであるか前記非音声セグメントであるかを決定する手順と
を実行させ、
前記処理する手順は、
前記入力変数の前記インスタンスと前記入力変数メンバーシップ関数とに基づいて前記入力変数をファジー化して、前記入力変数が前記入力変数メンバーシップに属している第１の度合を示すファジー化入力を求める手順と、
前記ファジー化入力に基づいて前記出力変数メンバーシップ関数を整形し直して、前記出力変数が前記出力変数メンバーシップに属している第２の度合のグループを示す出力集合を求める手順と、
非ファジー化出力を求めるべく、前記出力集合を非ファジー化する手順と、
前記非ファジー化出力に基づいて前記セグメントが前記音声セグメントであるか前記非音声セグメントであるかを分類する手順と
を含み、
前記非ファジー化する手順は、
前記ファジールールが含むルールが１つの場合に、前記出力集合の重心を特定して前記非ファジー化出力を求める手順と、
前記ファジールールが含むルールが複数の場合に、複数の前記ルールのそれぞれから得られた前記出力集合に複数の重みのそれぞれを乗算して、複数の重み付け出力集合のそれぞれを求める手順と、
前記複数の重み付け出力集合を集計して出力和集合を求める手順と、
前記出力和集合の重心を特定して前記非ファジー化出力を求める手順と
を含む
プログラム。
前記入力変数は、低エネルギーフレーム率（ＬＥＦＰ）、高ゼロクロス率比（ＨＺＣＲＲ）、スペクトル重心の分散（ＳＣＶ）、スペクトル変動の分散（ＳＦＶ）、スペクトルロールオフポイントの分散（ＳＲＰＶ）、および、４Ｈｚ変調エネルギー（４Ｈｚ）を含む群から選択される少なくとも１つの変数を含む
請求項１３に記載のプログラム。
前記ファジールールは、
ＬＥＦＰが高いか、または、ＳＰＶが低い場合には、前記音声可能性は音声とされることを記述する第１のルールと、
ＬＥＦＰが低く、且つ、ＨＺＣＲＲが高い場合には、前記音声可能性は非音声とされることを記述する第２のルールと
を含む
請求項１４に記載のプログラム。
前記ファジールールは、
ＨＺＣＲＲが低い場合には、前記音声可能性は非音声とされることを記述している第１のルールと、
ＬＥＦＰが高い場合には、前記音声可能性は音声とされることを記述している第２のルールと、
ＬＥＦＰが低い場合には、前記音声可能性は非音声とされることを記述している第３のルールと、
ＳＣＶが高く、且つ、ＳＦＶが高く、且つ、ＳＲＰＶが高い場合には、前記音声可能性は音声とされることを記述している第４のルールと、
ＳＣＶが低く、且つ、ＳＦＶが低く、ＳＲＰＶが低い場合には、前記音声可能性は非音声とされることを記述している第５のルールと、
４Ｈｚが高い場合には、前記音声可能性は音声とされることを記述している第６のルールと、
４Ｈｚが低い場合には、前記音声可能性は非音声とされることを記述している第７のルールと
を含む
請求項１４に記載のプログラム。
前記前件部は、前記入力変数が前記入力変数メンバーシップに属することを、第１の部分的度合で許容する
請求項１０から１６のいずれか一項に記載のプログラム。
前記後件部は、前記出力変数が前記出力変数メンバーシップに属することを、第２の部分的度合で許容する
請求項１０から１７のいずれか一項に記載のプログラム。