JP2009109712A

JP2009109712A - オンライン話者逐次区別システム及びそのコンピュータプログラム

Info

Publication number: JP2009109712A
Application number: JP2007281441A
Authority: JP
Inventors: Markov Petrov Konstantin; コンスタンティン・マルコフ・ペトロフ; Satoru Nakamura; 哲中村
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2007-10-30
Filing date: 2007-10-30
Publication date: 2009-05-21

Abstract

【課題】オンラインで動作可能でレイテンシの低い発話逐次区別システムを提供する。
【解決手段】話者区別システム３０は、話者ＧＭＭ７４−７８を記憶する記憶部４２と、音声データをセグメント化する音声活動検出部３０と、現セグメントが話者ＧＭＭ７４−７８のいずれにも属していないかを判定する新規性判定部３４と、現セグメントが話者ＧＭＭ７４−７８のいずれにも属していないときに、新たな話者ＧＭＭを生成し、現セグメントを新たな話者ＧＭＭでラベル付けする新モデル生成部４０と、現セグメントが話者ＧＭＭ７４−７８の１つに属しているときに、話者を識別し、現セグメントをその話者でラベル付けする話者識別部４４と、現セグメントを利用して話者ＧＭＭをトレーニングするトレーニング部４８と、音声活動検出部３０が出力したセグメントのシーケンスに従ってセグメントラベルをマージするマージ部４６とを含む。
【選択図】図１

Description

この発明はオンラインの話者逐次区別（ｄｉａｒｉｚａｔｉｏｎ）に関し、特に、教師なしの適応学習が可能な、低レイテンシのオンラインかつ実時間より高速な逐次区別システムに関する。

放送、ボイスメール、会議等の、増大しつつある発話文書の記録に対し、効率的かつ効果的に自動で索引を作成し検索するタスクには、発話を書起こすのみならず、様々な種類の非言語情報を抽出できる、人間の言語技術が必要である。しばしばメタデータと称されるこの情報は、話者の順番、チャンネルの変更（ニュース番組でのスタジオのアナウンサに対し現場のリポータ、など）、等を含む。

発話文書内の音源を識別しラベル付けすることは音声逐次区別のタスクである。音声逐次区別では、音声セグメント内の同質な領域を突き止め、それらを、話者、性別、音楽、ノイズ等について一貫してラベル付けする。音声話者逐次区別処理の主な部分は、話者の逐次区別、すなわち、話者のセグメント化及びクラスタリングである。言い換えれば、このタスクは、「誰がいつ喋ったか」を見出す作業である。

話者逐次区別は、現在、音声逐次区別の研究において非常な注力の焦点となっており、これはまた、最近のＮＩＳＴＲｉｃｈＴｒａｎｓｃｒｉｐｔｉｏｎ（ＮＩＳＴリッチトランスクリプション）（非特許文献１）及びＳｐｅａｋｅｒＲｅｃｏｇｎｉｔｉｏｎ（話者認識）（非特許文献２）評価によって推進されているものである。ニュース放送の音声、会議の録音又は電話での会話は、話者逐次区別の研究開発の主なドメインの一つである。場合によっては、このタスクに関して情報が前もって利用可能なことがある。これは、会議での話者の発話の例であったり、放送の主な司会者等の発話の例であったりするかもしれない。しかし、システムの移植性の観点からは、先行する知識をあまり用いないか、又は全く用いないほうが良いだろう。

現在の話者逐次区別システムのほとんどは、いくつかの鍵となるサブタスクを行なっており、それには、発話検出、話者変化の検出、性による分類、及び話者のクラスタリングが含まれる。性能を向上させるために、場合によってはクラスタの再結合及び再分離もまた用いられる。

発話検出は、音声のうち、発話のみからなる領域を見出すことを目的とする。このタスクを行うための最も一般的な技術は、音響ガウス混合モデル（Ｇａｕｓｓｉａｎｍｉｘｕｔｒｅｍｏｄｅｌｓ：ＧＭＭ）を用いた最尤度分類である。モデルは通常、いくつかのラベル付けされたデータから前もってトレーニングされ、最も単純な場合には、発話データと非発話データの２つのモデルしかない。システムによっては、話者の性別とチャンネルの種類とに依存したいくつかのモデルを用いるものもある。別の方策で、有益であることがわかっているものとして、音声ストリームの単一パス又はマルチパスビタビセグメンテーションを行なうことがある。ニュース放送のデータでは、その発話検出の典型的な誤り率は２％から３％である。

発話セグメントが識別された後、話者変化検出を用いて、各セグメントで起こりうる何らかの話者の変化を見出す。もしこれが検出されれば、セグメントはさらに、各々が一人の話者に属する、より小さいセグメントに分割される。

変化検出には２つの主な技術がある。第１のものでは、ベイズ情報量基準（Ｂａｙｅｓｉａｎｉｎｆｏｍｒａｔｉｏｎｃｒｉｔｅｒｉｏｎ：ＢＩＣ）を用いて、１つの分布より２つとしたほうがよりよくモデル化できるか否かを判定することによって、ウィンドウ内の潜在的な変化点を発見する。第２のものは、最も多くの場合単一ガウス関数で表される２個の固定長ウィンドウ間の距離、ガウス発散又は一般化尤度比、を測定することに基づく。この場合、あるしきい値を超えた距離のピークが変化点と考えられる。問題は、単一ガウス関数は典型的には長さが２から５秒の１セグメントからのデータ分布であり、粗いモデルである、ということである。このために、必然的に検出誤りが生じ、決定しきい値に対する誤り率感度が増大する。

性による分類は、セグメントを２つのグループ（男性と女性）に分割するために用いられ、これによって次のクラスタリングの負荷を減じるとともに、話者についてより多くの情報を与える。通常、性別毎に１つの、２つのＧＭＭが前もってトレーニングされ、最尤度が決定基準として用いられる。報告されている性による分類の誤り率は１％から２％である。

最後のサブタスクである話者のクラスタリングは、各セグメントにその正しい話者ラベルを割当てることである。これは、セグメントを話者に対応する組へクラスタリングすることによって行われる。最も広く行なわれている方策は、ＢＩＣ終了基準を用いた階層的凝集型クラスタリングである。

クラスタの各々は単一ガウス関数で表され、一般化尤度比（Ｇｅｎｅｒａｌｉｚｅｄｌｉｋｅｌｉｈｏｏｄｒａｔｉｏ：ＧＬＲ）がクラスタ間距離測定に慣用される。この方法の変形もまた提案されているが、これらもまた、依然として同様のボトムアップ型クラスタリング技術に基づいている。
米国国立標準技術研究所、「ベンチマークテスト：リッチトランスクリプション（ＲＴ）」［ｏｎｌｉｎｅ］、２００７年９月、［平成１９年９月１１日検索］、インターネット＜ＵＲＬ：ｈｔｔｐ：／／ｗｗｗ．ｎｉｓｔ．ｇｏｖ／ｓｐｅｅｃｈ／ｔｅｓｔｓ／ｒｔ／＞（ＮＩＳＴ, "ＢｅｎｃｈｍａｒｋＴｅｓｔｓ：ＲｉｃｈＴｒａｎｓｃｒｉｐｔｉｏｎ（ＲＴ））米国国立標準技術研究所、「ベンチマークテスト：話者認識」、［ｏｎｌｉｎｅ］、１９９５年１２月、［平成１９年９月１１日検索］、インターネット＜ＵＲＬ：ｈｔｔｐ：／／ｗｗｗ．ｎｉｓｔ．ｇｏｖ／ｓｐｅｅｃｈ／ｔｅｓｔｓ／ｓｐｋ／＞（ＮＩＳＴ, "ＢｅｎｃｈｍａｒｋＴｅｓｔｓ：ＲｉｃｈＴｒａｎｓｃｒｉｐｔｉｏｎ（ＲＴ），［ｏｎｌｉｎｅ］）Ｄ．リウ及びＦ．クバラ「オンライン話者クラスタリング」ＩＣＡＳＳＰ予稿集、２００４年５月、３３３−３３６ページ（Ｄ．ＬｉｕａｎｄＦ．Ｋｕｂａｌａ，"ＯｎｌｉｎｅＳｐｅａｋｅｒＣｌｕｓｔｅｒｉｎｇ，"ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆＩＣＡＳＳＰ，Ｍａｙ２００４，ｐｐ．３３３−３３６）Ｒ．ドゥーダ、Ｐ．ハート及びＤ．ストーク、「パターン分類」、ジョンワイリー＆サンズ社、第２版、２００１年（Ｒ．Ｄｕｄａ，Ｐ．Ｈａｒｔ，ａｎｄＤ．Ｓｔｏｒｋ，ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．，ＳｅｃｏｎｄＥｄｉｔｉｏｎ，２００１）Ｍ．ニシダ及びＡ．アリキ、「部分空間法に基づく実時間の話者索引付け−ＴＶニュース及びディベートへの応用」、ＩＣＳＬＰ予稿集、１９９８年１２月、第４巻、１３４７−１３５０ページ（Ｍ．ＮｉｓｈｉｄａａｎｄＹ．Ａｒｉｋｉ，"Ｒｅａｌｔｉｍｅｓｐｅａｋｅｒｉｎｄｅｘｉｎｇｂａｓｅｄｏｎｓｕｂｓｐａｃｅｍｅｔｈｏｄ−ＡｐｐｌｉｃａｔｉｏｎｔｏＴＶｎｅｗｓａｒｔｉｃｌｅｓａｎｄｄｅｂａｔｅ，"ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆＩＣＬＳＰ，Ｄｅｃ．１９９８，ｖｏｌ．４，ｐｐ．１３４７−１３５０．）Ｋ．マルコフ及びＳ．ナカムラ、「ダイナミック隠れマルコフネットワークでの無限学習」ＩＮＴＥＲＳＰＥＥＣＨ予稿集、２００７年８月、出版予定（Ｋ．ＭａｒｋｏｖａｎｄＳ．Ｎａｋａｍｕｒａ，"Ｎｅｖｅｒ−ＥｎｄｉｎｇＬｅａｒｎｉｎｇｗｉｔｈＤｙｎａｍｉｃＨｉｄｄｅｎＭａｒｋｏｖＮｅｔｗｏｒｋ，"ｉｎＰｒｏｃ．ＩＮＴＥＲＳＰＥＥＣＨ，Ａｕｇｕｓｔ，２００７，ｔｏｂｅｐｕｂｌｉｓｈｅｄ．）Ｒ．ニール及びＧ．ヒントン、「増分、スパース及び他の変形を根拠付ける、ＥＭアルゴリズムに関する見解」、グラフィカルモデルにおける学習、Ｍ．ジョーダン編、３５５−３６８ページ、ＭＩＴプレス、１９９９年（Ｒ．ＮｅａｌａｎｄＧ．Ｈｉｎｔｏｎ，"ＡｖｉｅｗｏｆｔｈｅＥＭａｌｇｏｌｉｔｈｍｔｈａｔｊｕｓｔｉｆｉｅｓｉｎｃｒｅｍｅｎｔａｌ，ｓｐａｒｓｅａｎｄｏｔｈｅｒｖａｒｉａｎｔｓ，"ｉｎＬｅａｒｎｉｎｇｉｎＧｒａｐｈｉｃａｌＭｏｄｅｌｓ，Ｍ，Ｊｏｒｄａｎ，Ｅｄ．，ｐｐ．３５５−３６８．ＴｈｅＭＩＴＰｒｅｓｓ，１９９９．）Ｍ．サトー及びＳ．イシイ、「正規化ガウスネットワークのためのオンラインＥＭアルゴリズム」、ニューラルコンピューテーション、第１２巻、４０７−４３２ページ、２０００年（Ｍ．ＳａｔｏａｎｄＳ．Ｉｓｈｉｉ，"Ｏｎ−ＬｉｎｅＥＭａｌｇｏｒｉｔｈｍｓｆｏｒｔｈｅＮｏｒｍａｌｉｚｅｄＧａｕｓｓｉａｎＮｅｔｗｏｒｋ，"ＮｅｕｒａｌＣｏｍｐｕｔａｔｉｏｎ，Ｖｏｌ．１２，ｐｐ．４−７−４３２，２０００．）Ｈ．クシュナー及びＧ．イン、確率的近似アルゴリズム及び応用、シュプリンガーフェラーク、ニューヨーク、１９９７年（Ｈ．ＫｕｓｈｎｅｒａｎｄＧ．Ｙｉｎ，Ｓｔｏｃｈａｓｔｉｃａｐｐｒｏｘｉｍａｔｉｏｎａｌｇｏｒｉｔｈｍｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ，Ｓｐｒｉｎｇｅｒ−Ｖｅｒｌａｇ，ＮｅｗＹｏｒｋ，１９９７．）ＴＣ−ＳＴＡＲ、「発話から発話への翻訳のための技術とコーパス」、［ｏｎｌｉｎｅ］、２００７年３月、［平成１９年９月１１日検索］、インターネット＜ＵＲＬ：ｈｔｔｐ：／／ｗｗｗ．ｔｃ−ｓｔａｒ．ｏｒｇ／＞（ＴＣ−ＳＴＡＲ，"ＴｅｃｈｎｏｌｏｇｙａｎｄＣｏｒｐｏｒａｆｏｒＳｐｅｅｃｈｔｏＳｐｅｅｃｈＴｒａｎｓｉｔｉｏｎ，"））

極めて有効ではあるものの、凝集型クラスタリングの方策にはいくつかの欠点があり、このため実世界で、時間の応用における話者逐次区別システムの潜在的用途が制限される。第１に、クラスタリングを開始する前に全ての発話セグメントが利用可能である必要があり、このためオンライン処理が不可能である。第２に、セグメントの数によって計算の負荷がほとんど指数関数的に増加する。最後に、アルゴリズムの重要な部分であると考えられる停止基準によって、性能が大きく影響される。

リーダ−フォロワクラスタリング（非特許文献４）に基づくシーケンシャルアルゴリズムであって、オンライン動作に適したものが最近提案されている（非特許文献３）。しかし、凝集型クラスタリング法と同様に、発話セグメントは単一ガウス分布でモデル化され、距離尺度としてはＧＬＲが用いられる。このため、短いセグメントについてクラスタリングの精度が下がり、セグメント全体が受取られるまで決定が遅れる。この結果、システムのレイテンシがセグメント長に依存することとなるが、その長さは最大で３０秒又はそれ以上になることもある。話者が部分空間で表される、別のシーケンシャル技術もまた研究されている（非特許文献５）。しかし、これは少なくとも５秒の長い発話セグメントを必要とし、欠落及び誤報率が高い。

従って、この発明の目的の一つは、オンラインで動作可能であり、かつレイテンシの低い、オンライン発話逐次区別システム及びそのコンピュータプログラムを提供することである。

この発明の別の目的は、実時間より短い時間で、オンラインで動作可能であり、かつレイテンシの低い、オンライン発話逐次区別システム及びそのコンピュータプログラムを提供することである。

この発明の第１の局面に従ったオンライン話者逐次区別システムは、各々が一意の識別ラベルを有する話者依存音響モデルを記憶するための第１の記憶手段と、入来する音声データの音声活動を検出し前記音声データを一連の発話セグメントにセグメント化するための音声活動検出手段と、前記音声活動検出手段から出力された現在の発話セグメントが前記話者依存音響モデルのいずれにも属していないか否かを決定するための新規性検出手段と、前記新規性検出手段による、現在の発話セグメントが前記話者依存音響モデルのいずれにも属していないとの決定に応答して、前記現在の発話セグメントに対応する新しい話者依存音響モデルを前記第１の記憶手段に生成するための新モデル生成手段とを含む。新しい話者依存音響モデルは一意の識別ラベルを有する。新モデル生成手段は前記現在の発話セグメントを前記新しい話者依存音響モデルのラベルでラベル付けするためのものである。このシステムはさらに、前記新規性検出手段による、前記現在の発話セグメントが前記話者依存音響モデルの一つに属しているとの決定に応答して、前記話者依存音響モデルの前記一つを識別し、前記現在の発話セグメントを前記話者依存音響モデルの前記一つのラベルでラベル付けするための話者識別手段と、前記新モデル生成手段が前記新しい話者依存音響モデルを生成したことに応答して、又は前記話者識別手段が前記話者依存音響モデルの一つを識別したことに応答して、前記新たな話者依存音響モデル又は前記識別された話者依存音響モデルを、前記現在の発話セグメントの音響データを利用してそれぞれトレーニングするためのトレーニング手段と、前記新モデル生成手段と前記話者識別手段とによって出力される前記発話セグメントのラベルを、前記音声活動検出手段によって出力された前記発話セグメントのシーケンスに従ってマージするための手段とを含む。

好ましくは、オンライン話者逐次区別システムは、前記話者識別手段によって予め定められた期間にわたって識別されていない話者依存音響モデルを、前記第１の記憶手段から削除するための削除手段をさらに含む。

より好ましくは、前記音声活動検出手段は、無音データでトレーニングされた休止音響モデルを記憶するための第２の記憶手段と、包括的発話データでトレーニングされた包括的音響モデルを記憶するための第３の記憶手段と、前記音声データが前記休止音響モデル又は前記包括的音響モデルによってモデル化された話者によって生成されたそれぞれの尤度を累計するための尤度累計手段と、前記音声データ中の発話セグメントの始点及び終点を、前記尤度累計手段によって累計された前記尤度に基づいた最尤基準に従って検出し出力するための手段とを含む。

さらに好ましくは、前記包括的音響モデルは、男性の発話データでトレーニングされた男性音響モデルと、女性の発話データでトレーニングされた女性音響モデルとを含む。前記尤度累計手段は前記音声データが前記休止音響モデル、前記男性音響モデル及び前記女性音響モデルによって生成されたそれぞれの尤度を累計するための手段を含み、前記始点及び終点検出出力手段は、前記尤度累計手段によって累計された前記尤度に基づいた最尤基準に従って前記始点及び終点を検出し出力するための手段を含む。

前記新規性検出手段は、前記音声活動検出手段によって出力された前記セグメントが前記話者依存音響モデルによってモデル化された話者によって生成されたそれぞれの尤度を計算するための手段と、前記計算手段によって計算された前記尤度のいずれもが予め定められたしきい値より上でなければ第１の値をとり、それ以外では第２の値をとる第１の信号を出力するための手段とを含む。前記話者識別手段は、前記第１の信号が前記第２の値をとったことに応答して前記セグメントを、前記計算手段によって計算された尤度が最も高い前記話者依存音響モデルのラベルでラベル付けするための手段を含む。前記新モデル生成手段は、前記第１の信号が前記第１の値をとったことに応答して、前記新たな話者依存音響モデルを前記一意のラベルを付けて前記第１の記憶手段内に生成するための手段と、前記男性音響モデル及び前記女性音響モデルのうち、前記尤度累計手段によって累計された前記尤度が高いほうを選択するための手段と、前記新たな話者依存音響モデルが前記第１の記憶手段内に生成されたことに応答して、前記選択手段によって選択された音響モデルのモデルパラメータを前記新たな話者依存音響モデルにコピーするための手段とを含んでも良い。

好ましくは、前記トレーニング手段は、前記新モデル生成手段が前記新たな話者依存音響モデルを生成したことに応答して、前記新たな話者依存モデルのモデルパラメータを、現在の発話セグメントの一部をトレーニングデータとしたオンラインＥＭアルゴリズムに従って推定し更新するための第１の手段と、前記話者識別手段が前記話者依存音響モデルの前記一つを識別したことに応答して、前記識別された話者依存モデルのモデルパラメータを、現在の発話セグメントの一部を用いたオンラインＥＭアルゴリズムに従って推定し更新するための第２の手段とを含む。

この発明の第２の局面は、コンピュータで実行可能なプログラムは、コンピュータによって実行されると、コンピュータを、各々が一意の識別ラベルを有する話者依存音響モデルを記憶するための第１の記憶手段と、入来する音声データの音声活動を検出し前記音声データを一連の発話セグメントにセグメント化するための音声活動検出手段と、前記音声活動検出手段から出力された現在の発話セグメントが前記話者依存音響モデルのいずれにも属していないか否かを決定判断するための新規性検出手段と、前記新規性検出手段による、前記現在の発話セグメントが前記話者依存音響モデルのいずれにも属していないとの決定に応答して、前記現在の発話セグメントに対応する新しい話者依存音響モデルを前記第１の記憶手段に生成するための新モデル生成手段として動作させる。前記新しい話者依存音響モデルは一意の識別ラベルを有する。前記新モデル生成手段はさらに、前記現在の発話セグメントを前記新しい話者依存音響モデルのラベルでラベル付けするためのものである。コンピュータ実行可能プログラムはさらに、コンピュータを、前記新規性検出手段による、前記現在の発話セグメントが前記話者依存音響モデルの一つに属しているとの判断決定に応答して、前記話者依存音響モデルの前記一つを識別し、前記現在の発話セグメントを前記話者依存モデルの前記一つのラベルでラベル付けするための話者識別手段と、前記新モデル生成手段が前記新しい話者依存音響モデルを生成したことに応答して、又は前記話者識別手段が前記話者依存音響モデルの一つを識別したことに応答して、前記新たな話者依存音響モデル又は前記識別された話者依存音響モデルを、前記現在の発話セグメントの音響データを利用してそれぞれトレーニングするためのトレーニング手段と、前記新モデル生成手段と前記話者識別手段とによって出力される前記発話セグメントのラベルを、前記音声活動検出手段によって出力された前記発話セグメントのシーケンスに従ってマージするための手段として機能させる。

[第１の実施の形態]
システムの説明
概要
この実施の形態は新たな話者逐次区別システムに関するものであって、これは上述のものとは対照的に、実時間より短い時間でオンラインで動作し、最大でも数秒という低いレイテンシを有する。これは、セグメント内の話者変化の検出を除き、標準的な逐次区別システムの全てのサブタスクを行なう。ほとんどの話者変化点は非発話領域で生じるという観察に基づき、各発話セグメントは単一の話者に属するものと仮定した。この仮定が正当化できない場合には、話者変化検出モジュールを用いて、このシステムの性能を簡単に向上することができる。

このシステムを他のシステムと大いに異なるものとしているのは、セグメントのクラスタリングを行なう方法と、全体の動作アルゴリズムとであって、これは無限学習（Ｎｅｖｅｒ−ＥｎｄｉｎｇＬｅａｒｎｉｎｇ：ＮＥＬ）の原理（非特許文献６）に基づく。このシステムでは、所与のセグメントに話者ラベルを割当てる際に、まず、これが既知の話者に属するものか、新たな話者に属するものかを決定する。前者の場合には、話者の識別が行われ、勝利話者ラベルがセグメントに割当られる。後者の場合、新たな話者がシステムに登録され、その人のモデルが生成される。これは、古典的な開集合話者識別タスクと同様である。

各話者は、勝者となるたびにオンラインで学習されるＧＭＭによって表される。新たな話者のＧＭＭは対応の性別ＧＭＭから産出することによって生成される。加えて、各話者のＧＭＭは識別を勝取るたびにゼロにセットされるタイムカウンタを有する。その他の場合には、タイムカウンタは現在のセグメント長によって増分される。タイムカウンタが何らかのしきい値Ｔに達したモデルは、システムから削除される。こうして、システムは環境の変化、例えば話者の数及び特徴の変化に適応し、新たな話者という新たな知識を獲得しつつ、教師なしの方法で、かつ破滅的忘却なしで（すなわち、新たに学習した知識が過去の知識を拭い去ることなく）、無期限に動作することができる。このようなシステムを無限学習システムと称する。

図１に、この発明の第１の実施の形態に従った話者逐次区別システム２０のブロック図を示す。図１において、太い矢印はモジュールがこれらのモデルをどのように共有するかを示し、細い矢印は制御の流れを示す。

図１を参照して、システム２０は、休止ＧＭＭ６０を記憶するための記憶部３２と、２個の性別依存ＧＭＭ７０及び７２を記憶するための記憶部３６と、可変数の話者ＧＭＭ７４、７６、…、７８を記憶するための記憶部４２とを含む。記憶部４２はさらに、話者ＧＭＭ７４、７６、…、７８について、その話者ＧＭＭが前回勝者となってからの時間をカウントするためのタイムカウンタを記憶する。

システム２０はさらに、話者逐次区別システム２０に与えられるセグメント化されていない音声データ２２上で音声活動を検出し、休止ＧＭＭ６０、並びに、性別依存ＧＭＭ７０及び７２を利用して発話セグメントの始点及び終点を出力するための音声活動検出（ｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｉｏｎ：ＶＡＤ）モジュール３０と、セグメントが古い話者に属するか否かを決定するための新規性検出モジュール３４と、新規話者の検出に応答して、２つの性別依存ＧＭＭ７０、７２からの累積された尤度を用いて新たな話者の性別を判定する性別識別モジュール３８と、性別識別モジュール３８が新たな話者の性別を識別したことに応答して、性別識別モジュール３８によって識別された性別の新たなモデルを、対応する性別依存ＧＭＭ７０又は７２のパラメータをコピーすることによって産出するための新モデル生成モジュール４０とを含む。この新モデルは記憶部４２に記憶される。

話者逐次区別システム２０はさらに、新規性検出モジュール３４が古い話者を検出した場合に、話者ＧＭＭ７４、７６、…、７８からの尤度に基づいた最尤基準によって話者を識別し、このセグメントを識別された話者の名前でラベル付けするための話者識別モジュール４４と、話者識別モジュール４４によって識別されたか又は新モデル生成モジュール４０によって新たに生成されて記憶部４２に記憶された話者ＧＭＭ７４、７６、…、７８を、始点から学習時間（ＬｅａｒｎｉｎｇＴｉｍｅ：ＬＴ）と呼ばれるある時間までの発話データを用いてトレーニングするためのトレーニングモジュール４８と、話者識別モジュール４４が話者を識別したこと、又は新モデル生成モジュール４０が新たなＧＭＭを生成したことに応答して、記憶部４２に記憶されている話者ＧＭＭのタイムカウンタを更新し、識別を勝取ったＧＭＭのタイムカウンタをゼロにセットし他のタイムカウンタを現在のセグメント長だけ増分させる更新モジュール５０と、更新モジュール５０が記憶部４２内の全てのタイムカウンタを更新したことに応答して、タイムカウンタがしきい値Ｔに達した話者ＧＭＭを削除するための削除モジュール５２と、古い話者名でラベル付けされた話者識別モジュール４４からのセグメントと、新たな話者名でラベル付けされた新モデル生成モジュール４０からのセグメントとをマージして、「いつ誰が喋ったか」を示す話者逐次区別２４を出力するためのマージモジュール４６とを含む。

話者逐次区別システム２０は以下のように動作する。

セグメント化されていない音声データ２２がＶＡＤモジュール３０に与えられる。ＶＡＤモジュール３０は、休止ＧＭＭ６０と性別依存ＧＭＭ７０及び７２とからの尤度を累積して、最尤基準にしたがって発話セグメントを検出し、発話セグメントの始点と終点とを出力する。具体的には、各フレームについて、ＶＡＤモジュール３０は休止ＧＭＭ６０と性別依存ＧＭＭ７０及び７２との尤度をそれぞれ計算し、ＧＭＭ７０又は７２からの尤度のいずれかが休止ＧＭＭ６０のそれより大きい場合、発話セグメントを検出する。

始点が決定されると即座に、フレームごとに、ＧＭＭ７０、７２、７４、７６、…、７８の尤度がある時間にわたって新規性検出モジュール３４によって累積される。この時間は、決定時間（ｄｅｃｉｓｉｏｎｔｉｍｅ：ＤＴ）と呼ばれ、本質的にはシステムのレイテンシ時間であって、この実施の形態では外部から新規性検出モジュール３４に与えられる。その後、累積された尤度に基づいて、新規性検出モジュール３４は、最尤基準に従って、セグメントが古い話者に属するか否かを決定する。すなわち、話者ＧＭＭ７４、７６、…、７８からの尤度がいずれも予め定められたしきい値より高くなければ、発話セグメントは新たな話者に属すると判定される。そうでなければ、発話セグメントは尤度が最も高かった話者ＧＭＭでラベル付けされる。勝利ＧＭＭのラベルは、トレーニングモジュール４８と更新モジュール５０とにも与えられる。

新たな話者であれば、その話者の性別は、性別識別モジュール３８において性別依存ＧＭＭ７０及び７２のうち累積尤度が高いほうを選択することによって判定される。性別情報は新モデル生成モジュール４０に与えられる。その後、対応する性別ＧＭＭ（男性にはＧＭＭ７０、女性にはＧＭＭ７２）から、そのパラメータをコピーすることによって、新モデル生成モジュール４０で新たなＧＭＭが生み出される。このＧＭＭには新たな話者名が与えられ、記憶部４２に記憶されるシステムの話者ＧＭＭセットに挿入される。新モデル生成モジュール４０が記憶部４２に新たなＧＭＭを生み出すと、新モデル生成モジュール４０は新たな話者の名前をトレーニングモジュール４８と更新モジュール５０とに与える。新たなモデルは、発話データのＬＴを用いてトレーニングモジュール４８によってオンラインでトレーニングされる。ＬＴが現在のセグメント長より長い場合、これは現在のセグメントに限って、その長さに設定される。ＤＴについても同様である。更新モジュール５０は新たな話者ＧＭＭのタイムカウンタをゼロに設定し、他の全てのカウンタに現在のセグメント長を付加する。

新規性検出モジュール３４が、そのセグメントが古い話者に属すると決定した場合、この話者が、最尤基準に基づいて話者識別モジュール４４で識別される。各発話セグメントは新旧いずれかの勝利話者の名前でラベル付けされる。話者識別モジュール４４は勝利話者の名前をトレーニングモジュール４８及び更新モジュール５０に与える。これに応答して、トレーニングモジュール４８は識別された話者のＧＭＭをトレーニングする。更新モジュール５０は勝利話者ＧＭＭのタイムカウンタをゼロに設定し、他の全てのカウンタに現在のセグメント長を付加する。

新たな名前でラベル付けされたセグメントと古い名前でラベル付けされたセグメントとはマージモジュール４６でマージされ、話者逐次区別２４として出力される。

システム２０はオンラインで動き、その動作を図２で概略的に示す。発話セグメントとその参照話者ラベルが図の上部にある（ＳＰ_１，ＳＰ_２，…）。下の部分では話者ＧＭＭ７４、７６、…、７８とそれらが時間とともにどのように変化するかが示される。

各発話セグメントに対して、太い境界線で勝利モデルを示す。最初は、３個のＧＭＭしかない。休止のためのもの１個（図１の休止６０。簡潔のため図２では図示しない。）と、話者の性別各々のための２個（性別依存ＧＭＭ７０及び７２）である。これらはいくつかのラベル付けされたデータで前もってトレーニングされる。第１のセグメントについて、話者の性別が特定され（図２では男性）、男性ＧＭＭ７０から新たな話者ＧＭＭ７４が生成される。これはセグメントのデータでオンラインで学習され、この時点から、これが第１の話者（図２のＳＰ_１）のＧＭＭ７４となる。次のセグメントも同じ話者からのものであるので、ＳＰ_１のＧＭＭが話者識別モジュール４４（図１を参照）において勝者となる。これは第２のセグメントデータで再びオンラインで学習される。第３のセグメントは女性の話者からのものであり、同様の手順を繰返すことで第２の話者（ＳＰ_２）のための新たな話者ＧＭＭが結果として生じる。こうして、記憶部４２は２つの話者ＧＭＭ７２、７４の組を記憶することになる。

このようにして、システム２０はオンザフライで話者モデル（話者ＧＭＭ）の組を生成する。識別のたびに、勝利ＧＭＭのタイムカウンタがゼロに設定され、その他のものは現在のセグメント長で増分される。もしあるＧＭＭ（図２ではＳＰ１のＧＭＭ７４）が長時間にわたって勝者とならず、そのタイムカウンタがしきい値Ｔを超えると、これはシステム２０から削除される（図２では「Ｘ」で示す)。このような動作モードにより、システム２０は無限に動くことができる。

音声活動検出
音声活動検出のために、この実施の形態では標準モデルベースのアプローチを用いた。非音声のイベント（この場合は休止であるが、他のイベントもまたモデル化可能である）が単一の休止ＧＭＭ６０で表され、発話は２個の性別依存ＧＭＭ７０及び７２によってモデル化される。各フレームについて、非発話と発話（ＧＭＭ７０及び７２の良好な方）との尤度が２つの別個のメジアンフィルタを通され、フレームのラベル（発話／非発話）がフィルタ出力を比較することで割当られる。その後、最小セグメント長（ｍｉｎｉｍｕｍｓｅｇｕｍｅｎｔｌｅｎｇｔｈ：ＭＳＬ）、セグメント内最大休止（ｍａｘｉｍｕｍｐａｕｓｅｉｎｓｅｇｕｍｅｎｔ：ＭＰＳ）、休止内最大発話（ｍａｘｉｍｕｍｓｐｅｅｃｈｉｎｐａｕｓｅ：ＭＳＰ）等の要件を考慮して、簡単な論理でセグメントの始点と終点を決定する。

ＭＳＬは発話セグメントの最小長さを判定する。検出された発話セグメントがＭＳＬより短ければ、そのセグメントは廃棄される。ＭＰＳは発話セグメント中の休止の最大長さを判定する。もしある発話セグメント中の休止がＭＰＳより長ければ、発話セグメントはこの休止で２つに分割される。ＭＳＰは休止中の発話の最大長さを判定する。もし休止セグメント中の発話部分がＭＳＰより長ければ、休止セグメントは２つに分割され、発話部分は１つの発話セグメントとみなされる。

性別識別
性別識別モジュール３８はＶＡＤモジュール３０と同じ性別依存ＧＭＭ７０及び７２を用いる。音声活動検出の間にすでに計算されたフレーム尤度が、セグメントの始点から、ＤＴパラメータによって設定された時間だけ累積される。その後、性別依存ＧＭＭ７０及び７２の尤度間の単純な最尤分類によって、話者の性別が判定される。

新規性検出
このステップの目的は、現在のセグメントがシステムに登録された話者の一人からのものか、新たな話者からのものであるかを決定することである。これは典型的な仮説検定問題であり、標準的な解は尤度比試験である。これを式で表すと以下のようになる。

ここでＸ＝{Ｘ_ｉ}、ｉ＝１、…、ＤＬは決定長の発話セグメント、w_０は仮説Ｈ_０に対応するクラス、すなわち古い話者である。同様にw_１は仮説Ｈ_１に対応する、すなわち、新たな話者である。尤度比Ｌ（Ｘ）は以下で与えられる。

尤度ｐ（Ｘ｜wｉ）を規定するには様々な方法がある。利用可能なＧＭＭの組を考慮すれば、最も直截的なアプローチはこれらを以下のように定義することである。

ここでL＝｛lｊ｝は現在の話者ＧＭＭの組である。話者検証にしばしば用いられる別のアプローチでは、ｐ（Ｘ｜w_１）を以下のように定義する。

すなわち、勝利モデルを除くすべてのモデル尤度の平均である。ここでｎ＝｜L｜は話者の組のサイズである。発明者らは、実験的に、２つのアプローチを組み合わせるほうがどちらか一方よりも良好に動作することを検証した。この場合、尤度比は以下のようになる。

しきい値θは通常、開発データセットを用いて推定される。

異なるモジュールに分けられているが、話者識別は暗黙のうちに新規性検出タスクの間に行われる。なぜなら、尤度比の計算には最良の話者尤度が必要だからである。性別識別についても同じである。もし勝利仮説がＨ_０であれば、最良の話者はＰ_ｓｐから識別される。そうでなければ、Ｐ_ｇｅｎから勝利性別が見出される。

オンラインＧＭＭ学習
このステップは、システム２０全体がオンラインで動作することを可能にし、これを他の全てのシステムと異なるものにするためのステップである。オフラインのＧＭＭパラメータ推定の主なアルゴリズムは、期待値最大化（Ｅｘｐｅｃｔａｔｉｏｎ−Ｍａｘｉｍｉｚａｔｉｏｎ：ＥＭ）アルゴリズムである。最近、そのインクリメンタル方式のものが提案され（非特許文献７）、これによってオンラインの変形の開発が容易になった（非特許文献８）。オンラインＥＭでは、統計とパラメータとが観察ｘのたびに以下の式を用いて更新される。

ここで《ｆ（ｘ、ｙ）》_ｉ（ｔ）は完全なデータ（ｘ，ｙ）の統計的関数である。先行するパラメータの組Q_ｔ−１に対するガウス成分ｉの事後確率は、Ｐ_ｉ（ｔ）＝Ｐ（ｘ（ｔ），Ｙ（ｔ），Q_ｔ−１）で規定される。学習率h（ｔ）は以下の制約を満たす。

新たなパラメータQ_ｔは以下から求められる。

オンラインＥＭは標準ＥＭより速く収束するが、わずか数回の反復でもリアルタイムのシステムには計算の負荷が大きくなりすぎる。他方で、同じ分布から無限数のデータを与えられる場合、オンラインＥＭは確率近似と考えることができる（非特許文献９）。実際には、これは、充分なデータがある限り、モデルパラメータを１回のパスで近似できるという意味である。この場合、学習率h（ｔ）は以下の条件を満たさなければならない。

これらの条件と式（７）とを満たす、慣用の関数は以下で与えられる。

ここでａ及びｂは学習プロセスを制御するパラメータである。過去のサンプルの忘却速度はａに依存し、ｂは新たなサンプルの学習速度を設定する。

このアルゴリズムはシステムＧＭＭの高速で安価なオンライン学習を可能にする。バッチＥＭの場合と同様に、初期のパラメータ値が学習速度及び最終的推定の精度に重要な役割を果たす。したがって、初期値をできるだけ真の値に近く設定することが望ましい。この実施の形態のシステムでは、性別依存ＧＭＭが全ての話者モデルについて最良の利用可能な初期値であり、新たなＧＭＭ生成にこれらを用いるのはこのためである。

実験
データベース及び前処理
システムの評価のために、ＴＣ−ＳＴＡＲ２００７評価キャンペーン（非特許文献１０）のためにリリースされたデータを用いた。データは、欧州議会の本会議のスピーチの録音である。データベースのトレーニング部分から、２０分の無音データを選択して休止モデルを構築した。性別依存モデルについては、２０人の男性と１５人の女性の話者の各々からの約２分のスピーチを用いた。公式の開発セットを開発データとして用い、ＴＣ−ＳＴＡＲ２００６キャンペーンからの評価セットを、最終的なシステムの評価に用いた。

全ての音声データが、１２個のＭＦＣＣ係数、パワー及びそれらの一次微分からなる２６次元の特徴ベクトルに変換された。フレーム長及び速度はそれぞれ２０ミリ秒と１０ミリ秒であった。

予備的実験
オンラインの実験を行う前に、別個のオフラインテストによって、オンライン学習アルゴリズムの性能を調査した。はじめに、性別モデルのために選択されたデータを用いて、話者一人一人に１個のＧＭＭをオフラインでトレーニングした。これによって、オンラインとオフラインとの学習アルゴリズムの話者識別性能を比較することが可能となる。テストのために、各話者の、トレーニングに用いたのとは異なるデータ約３０秒を用いた。２種類の実験を行った。一方は、オフラインでトレーニングしたＧＭＭでの話者識別である。他方では、各話者のＧＭＭを１回に１つずつ、そのオンライン学習版と置換え、全話者について結果を平均した。表１は２秒又は４秒のデータを用いてオンライン学習を行なった場合の、異なる長さのテストデータでの識別率を示す。これらの実験でのＧＭＭのサイズは６４であり、オンライン学習パラメータは、最良の結果が得られるとわかったａ＝０．９９９、ｂ＝１０００に設定した。結果は、オンライン学習が、少量の学習データでも、オフラインでトレーニングされたものとかなり近いモデルを生成可能であることを示している。

同じテストデータを用いて、性別識別性能も調査した。１秒、２秒及び３秒のテストデータで性能はそれぞれ９７．３％、９８．４％、９９．６％であった。実際には、結果には多少バイアスがある。というのも、テストの話者は性別ＧＭＭトレーニングで使われたものだからである。しかし、実際のシステムで性能が有意に低下するとは予測していない。

オンラインの実験
これらの実験ではまず、音声活動検出の性能を評価した。評価尺度は、全ての発話セグメントが正しい話者ラベルを有するとした場合の、話者逐次区別誤り率（ｄｉａｒｉｚａｔｉｏｎｅｒｒｏｒｒａｔｅ：ＤＥＲ）である。ＤＥＲは欠落誤り、誤報及び話者誤りの時間で重み付けされた和である。実際には存在する音声活動をシステムが検出できなかった場合、これを欠落誤りと呼ぶ。活動がないにも関わらずシステムが音声活動を検出した場合、これを誤報と呼ぶ。システムが誤った話者を識別した場合、これを話者誤りと呼ぶ。

この設定では話者誤りはないので、ＤＥＲはＶＡＤの性能を示すことになり、これを、開発「ｄｅｖ」及び評価「ｅｖａｌ」データの両者について表２に示す。最小セグメント長（ＭＳＬ）は１秒又は２秒に設定した。値を大きくしても結果は改善されなかった。典型的には、ＤＥＲの計算に当たって基準セグメント境界付近の０．２５秒の猶予カラーを設定した。カラーなしの結果も表２に示す。

次の実験では、話者セグメント化の性能をテストした。ここで特定すべき主なパラメータは新規性検出のしきい値である。これについては開発データと、真のセグメント境界のみを用いた。こうすれば、ＤＥＲは話者誤りのみを示すことになる。最大決定長（ｄｅｃｉｓｉｏｎｌｅｎｇｔｈ：ＤＬ）を１から５まで変化させたときの結果を図３に示す。ここでは、オンライン学習時間（ＬＴ）を１０秒に設定した。ＬＴを大きくしても、さらには学習に全セグメントを用いても、性能は改善されず、計算負荷が増大するのみであった。数値が示すとおり、新規性の検出は、しきい値に関し極めて感度が低い。

話者逐次区別システム全体の評価のために、新規性検出のしきい値を０．８に設定した。開発及び評価データの両者に関するＤＥＲの結果を表３に示す。

最大ＤＬ、すなわちシステムレイテンシを１、２、３及び４秒に設定した場合のシステム性能を図３のグラフ１００、１０２、１０４及び１０６にそれぞれ示す。

見られるように、性能は最大ＤＬを３又は４秒に増加させると急激に向上し、その後はほぼ同じままである。評価データの誤り率は開発データの約２倍の高さであり、ＤＥＲがオンライン、１パスのシステムに固有の回復不能な誤りに対し感度が高いことを示唆している。しかし、全体の性能は１０％未満であり、これは最良のオフライン、マルチパスの話者逐次区別システムの範囲内である。処理速度については、システムの実時間係数は０．１×ＲＴ（実時間）未満であった。言換えれば、システムは実時間より短い時間でオンライン動作が可能である。

コンピュータによる実現
上述の実施の形態はコンピュータシステムとコンピュータシステム上で実行されるコンピュータプログラムで実現可能である。図４はこの実施の形態で用いられるコンピュータシステム３３０の外観を示す図であり、図５はコンピュータシステム３３０のブロック図である。ここで示すコンピュータシステム３３０は単なる例示であって、他の構成も利用可能である。

図４を参照して、コンピュータシステム３３０は、コンピュータ３４０と、全てコンピュータ３４０に接続された、モニタ３４２、キーボード３４６、マウス３４８、スピーカ３７２及びマイクロフォン３７０と、を含む。さらにコンピュータ３４０はＤＶＤ−ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ：ディジタル多用途ディスク読出専用メモリ）ドライブ３５０と、半導体メモリドライブ３５２とを含む。

図５を参照して、コンピュータ３４０はさらに、ＤＶＤ−ＲＯＭドライブ３５０及び半導体メモリドライブ３５２に接続されたバス３６６と、全てバス３６６に接続された、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：中央処理装置）３５６と、コンピュータ３４０のブートアッププログラムを記憶するＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ：読出専用メモリ）３５８と、ＣＰＵ３５６によって用いられる作業領域とＣＰＵ３５６によって実行されるプログラムの記憶領域とを提供するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ランダムアクセスメモリ）３６０と、音声データ、休止ＧＭＭ、性別依存ＧＭＭ及び話者ＧＭＭを記憶するハードディスクドライブ３５４とを含む。

上述の実施の形態のシステムを実現するソフトウェアは、ＤＶＤ−ＲＯＭ３６２又は半導体メモリ３６４等の記録媒体に記録されたオブジェクトコードの形で流通し、ＤＶＤ−ＲＯＭドライブ３５０又は半導体メモリドライブ３５２等の読出装置を介してコンピュータ３４０に提供され、ハードディスクドライブ３５４に記憶される。ＣＰＵ３５６がプログラムを実行する際には、プログラムはハードディスクドライブ３５４から読出されてＲＡＭ３６０に記憶される。図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ、実行される。ＣＰＵ３５６は処理すべきデータをハードディスクドライブ３５４、ＲＡＭ３６０又はＣＰＵ３５６内のレジスタ（図示せず）から読出し、処理の結果を再びハードディスクドライブ３５４、ＲＡＭ３６０、又はＣＰＵ３５６内のレジスタに記憶する。マイクロフォン３７０とサウンドボード３６８とは、上述の実施の形態のシステムで処理すべき音声データをキャプチャするために用いられる。

コンピュータシステム３３０の一般的な動作は周知であるので、その詳細な説明はここでは繰返さない。

ソフトウェア配布の方法については、これを記憶媒体に固定することは必ずしも必要でない。例えば、ソフトウェアはネットワークに接続された別のコンピュータから配布されてもよい。ソフトウェアの一部がハードディスク３５４に記憶され、ソフトウェアの残りの部分をネットワークを介してハードディスクドライブ３５４に読込み、実行時に統合してもよい。

典型的には、現代のコンピュータはコンピュータのオペレーティングシステム（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ：ＯＳ）で提供される一般的な機能を利用し、所望の目的に従って制御された様態でこれら機能を実行する。従って、ＯＳ又はサードパーティによって提供され得る一般的な機能を含まず単に一般的機能の実行順序の組合せを指定するのみのプログラムも、全体として所望の目的を達成する制御構造を有する限り、この発明の範囲に含まれる。

結論
オンラインで動作し、実時間より速く、高性能の、新たな話者逐次区別システムを説明した。このシステムはいくつかのモジュールからなり、その各々は従来の方法に基づくものであるが、システムの設計と、ＧＭＭ学習でのオンラインＥＭの使用とにより、無限動作、自己組織化及び知識の保存といった独自の能力を獲得することができる。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。

システムのブロック図であって、太い矢印はモジュールがどのようにＧＭＭを共有するかを示し、細い矢印は制御の流れを示す。システムの動作を示す図であって、各発話セグメントについて、勝利ＧＭＭが太い境界線で示される。異なる新規性検出しきい値についてＤＥＲによる話者セグメント化の性能を示す図である。コンピュータシステム３３０の正面図である。コンピュータシステム３３０のブロック図である。

符号の説明

２０話者逐次区別システム
３０音声活動検出モジュール
３２、３６、４２記憶部
３４新規性検出モジュール
３８性別識別モジュール
４０新モデル生成モジュール
４６マージモジュール
４８トレーニングモジュール
５０更新モジュール
６０休止ＧＭＭ
７０、７２性別依存ＧＭＭ
７４、７６、７８話者ＧＭＭ

Claims

オンラインの話者逐次区別（ｄｉａｒｉｚａｔｉｏｎ）システムであって、
各々が一意の識別ラベルを有する話者依存音響モデルを記憶するための第１の記憶手段と、
入来する音声データの音声活動を検出し前記音声データを一連の発話セグメントにセグメント化するための音声活動検出手段と、
前記音声活動検出手段から出力された現在の発話セグメントが前記話者依存音響モデルのいずれにも属していないか否かを決定するための新規性検出手段と、
前記新規性検出手段による、前記現在の発話セグメントが前記話者依存音響モデルのいずれにも属していないとの決定に応答して、前記現在の発話セグメントに対応する新しい話者依存音響モデルを前記第１の記憶手段に生成するための新モデル生成手段とを含み、前記新しい話者依存音響モデルは一意の識別ラベルを有し、前記手段はさらに、前記現在の発話セグメントを前記新しい話者依存音響モデルのラベルでラベル付けするためのものであり、
前記システムはさらに、
前記新規性検出手段による、前記現在の発話セグメントが前記話者依存音響モデルの一つに属しているとの決定に応答して、前記話者依存音響モデルの前記一つを識別し、前記現在の発話セグメントを前記話者依存音響モデルの前記一つのラベルでラベル付けするための話者識別手段と、
前記新モデル生成手段が前記新しい話者依存音響モデルを生成したことに応答して、又は前記話者識別手段が前記話者依存音響モデルの一つを識別したことに応答して、前記新たな話者依存音響モデル又は前記識別された話者依存音響モデルを、前記現在の発話セグメントの音響データを利用してそれぞれトレーニングするためのトレーニング手段と、
前記新モデル生成手段と前記話者識別手段とによって出力される前記発話セグメントのラベルを、前記音声活動検出手段によって出力された前記発話セグメントのシーケンスに従ってマージするための手段と、を含む、オンライン話者逐次区別システム。
前記話者識別手段によって予め定められた期間にわたって識別されていない話者依存音響モデルを、前記第１の記憶手段から削除するための削除手段をさらに含む、請求項１に記載のオンライン話者逐次区別システム。
前記音声活動検出手段は、
無音データでトレーニングされた休止音響モデルを記憶するための第２の記憶手段と、
包括的発話データでトレーニングされた包括的音響モデルを記憶するための第３の記憶手段と、
前記音声データが前記休止音響モデル又は前記包括的音響モデルによってモデル化された話者によって生成されたそれぞれの尤度を累計するための尤度累計手段と、
前記音声データ中の発話セグメントの始点及び終点を、前記尤度累計手段によって累計された前記尤度に基づいた最尤基準に従って検出し出力するための手段とを含む、請求項１に記載のオンライン話者逐次区別システム。
前記包括的音響モデルは、
男性の発話データでトレーニングされた男性音響モデルと、
女性の発話データでトレーニングされた女性音響モデルとを含み、
前記尤度累計手段は
前記音声データが前記休止音響モデル、前記男性音響モデル及び前記女性音響モデルによって生成されたそれぞれの尤度を累計するための手段を含み、
前記始点及び終点検出出力手段は、前記尤度累計手段によって累計された前記尤度に基づいた最尤基準に従って前記始点及び終点を検出し出力するための手段を含む、請求項１に記載のオンライン話者逐次区別システム。
前記新規性検出手段は
前記音声活動検出手段によって検出された前記セグメントが、前記話者依存音響モデルによってモデル化された話者によって生成されるそれぞれの尤度を計算するための手段と、
前記計算手段によって計算された前記尤度のいずれもが予め定められたしきい値より上でなければ第１の値をとり、それ以外では第２の値をとる第１の信号を出力するための手段とを含み
前記話者識別手段は、前記第１の信号が前記第２の値をとったことに応答して、前記セグメントを、前記計算手段によって計算される尤度が最も高い前記話者依存音響モデルのラベルでラベル付けするための手段を含み、
前記新モデル生成手段は、
前記第１の信号が前記第１の値をとったことに応答して、前記新たな話者依存音響モデルを前記一意のラベルを付けて前記第１の記憶手段内に生成するための手段と、
前記男性音響モデル及び前記女性音響モデルのうち、前記尤度累計手段によって累計された前記尤度が高いほうを選択するための手段と、
前記新たな話者依存音響モデルが前記第１の記憶手段内に生成されたことに応答して、前記選択手段によって選択された音響モデルのモデルパラメータを前記新たな話者依存音響モデルにコピーするための手段とを含む、請求項４に記載のオンライン話者逐次区別システム。
前記トレーニング手段は、
前記新モデル生成手段が前記新たな話者依存音響モデルを生成したことに応答して、前記新たな話者依存モデルのモデルパラメータを、現在の発話セグメントの一部をトレーニングデータとしたオンラインＥＭアルゴリズムに従って推定し更新するための第１の手段と、
前記話者識別手段が前記話者依存音響モデルの前記一つを識別したことに応答して、前記識別された話者依存モデルのモデルパラメータを、現在の発話セグメントの一部を用いたオンラインＥＭアルゴリズムに従って推定し更新するための第２の手段とを含む、請求項１に記載のオンライン話者逐次区別システム。
コンピュータによって実行されると、コンピュータを、
各々が一意の識別ラベルを有する話者依存音響モデルを記憶するための第１の記憶手段と、
入来する音声データの音声活動を検出し前記音声データを一連の発話セグメントにセグメント化するための音声活動検出手段と、
前記音声活動検出手段から出力された現在の発話セグメントが前記話者依存音響モデルのいずれにも属していないか否かを決定するための新規性検出手段と、
前記新規性検出手段による、前記現在の発話セグメントが前記話者依存音響モデルのいずれにも属していないとの決定に応答して、前記現在の発話セグメントに対応する新しい話者依存音響モデルを前記第１の記憶手段に生成するための新モデル生成手段として動作させるプログラムであって、前記新しい話者依存音響モデルは一意の識別ラベルを有し、前記手段はさらに前記現在の発話セグメントを前記新しい話者依存音響モデルのラベルでラベル付けするためのものであり、
前記プログラムはさらに、前記コンピュータを
前記新規性検出手段による、前記現在の発話セグメントが前記話者依存音響モデルの一つに属しているとの決定に応答して、前記話者依存音響モデルの前記一つを識別し、前記現在の発話セグメントを前記話者依存モデルの前記一つのラベルでラベル付けするための話者識別手段と、
前記新モデル生成手段が前記新しい話者依存音響モデルを生成したことに応答して、又は前記話者識別手段が前記話者依存音響モデルの一つを識別したことに応答して、前記新たな話者依存音響モデル又は前記識別された話者依存音響モデルを、前記現在の発話セグメントの音響データを利用してそれぞれトレーニングするためのトレーニング手段と、
前記新モデル生成手段と前記話者識別手段とによって出力される前記発話セグメントのラベルを、前記音声活動検出手段によって出力された前記発話セグメントのシーケンスに従ってマージするための手段として機能させる、コンピュータ実行可能プログラム。