JP2004053821A

JP2004053821A - 話者識別方法およびそのシステム、並びにプログラム

Info

Publication number: JP2004053821A
Application number: JP2002209662A
Authority: JP
Inventors: Katsuhiko Shirai; 白井　克彦; Idomuso Dawa; 達瓦　伊徳木草
Original assignee: LIVECOM CORP; Waseda University
Current assignee: LIVECOM CORP; Waseda University
Priority date: 2002-07-18
Filing date: 2002-07-18
Publication date: 2004-02-19
Anticipated expiration: 2022-07-18
Also published as: JP4098015B2

Abstract

【課題】実時間応答性が良好で、かつ、高精度な話者識別を行うことができる話者識別方法およびそのシステム、並びにプログラムを提供すること。
【解決手段】被識別音声から作成された特徴パラメータＸ_ｋと第一のコードブックとを用いて各登録話者についての話者性尤度Ｌ^ｎを算出し、第一段階の判定で、最小の話者性尤度Ｌ^ｘとその他の話者性尤度との各差ｍｉｎ_ｑが第一の閾値ηよりも大きいと判断した場合には、第二段階の判定で、Ｌ^ｘが第二の閾値θｍｉｎと第三の閾値θｍａｘとの間に入るか否かを判断して受理・棄却を行い、一方、η以下のｍｉｎ_ｑが存在すると判断した場合には、Ｘ_ｋと第二のコードブックとを用いて算出した絶対値平均ベクトル誤差ε_ｑに基づき第二段階の判定を行う。
【選択図】　図２

Description

【０００１】
【発明の属する技術分野】
本発明は、入力された被識別音声が、予め登録された複数の話者の中の誰の音声であるかを判定する話者識別方法およびそのシステム、並びにプログラムに係り、例えば、複数の話者による連続音声（例えば放送局の長時間のデータ等）の中から特定の話者（例えばアナウンサー等）の音声を検索したり、あるいは連続音声を各話者の音声に分類する場合、空港や港等で出入国管理を行う場合、警察や自衛隊等で犯罪者や要注意人物等の管理（登録、検索、捜査等）を行う場合、役所で住民管理を行う場合、商店等で顧客管理を行う場合、会社で社員管理（出社や退社の把握等）を行う場合、インターネットを利用した情報資源へのアクセスに対するセキュリティ管理を行う場合、言語や方言の自動分類を行う場合、ロボット通信（ロボットによる対話相手の把握等）に応用する場合、おもちゃによる対話相手の把握および応答の選択に応用する場合、音声により各種の警備、防犯、監督を行う場合などに利用できる。
【０００２】
【背景技術】
一般に、話者認識には、入力音声が予め登録されている音声の中の誰の音声であるかを判定する話者識別ＡＳＩ（Ａｕｔｏｍａｔｉｃ　Ｓｐｅａｋｅｒ　Ｉｄｅｎｔｉｆｉｃａｔｉｏｎ）と、入力音声が本人の音声であるか否かを判定する話者照合ＡＳＶ（Ａｕｔｏｍａｔｉｃ　Ｓｐｅａｋｅｒ　Ｖｅｒｉｆｉｃａｔｉｏｎ）とがある。
【０００３】
話者照合ＡＳＶの場合には、単にある人の身分だけを判定するという目的で、予め登録されている本人のサンプルデータと被識別者の入力データとのマッチングをとり、システムは単に「Ｙｅｓ」あるいは「Ｎｏ」の答えを出力するだけである。従って、これまでに数多くの研究や応用システムが報告されている。
【０００４】
一方、話者識別ＡＳＩの場合には、システムによる識別対象となる発話者が、予め登録されたＮ人の話者の中の誰であるかを、Ｎ回の比較処理を行いながら判断し、さらに識別対象となる発話者が、予め登録されたＮ人の話者以外の者であれば、最終的には棄却の判断を行わなければならないので、話者照合ＡＳＶの場合に比べ、システム処理に煩雑性・困難性を伴う。従って、これまでの研究では、効率的に発話者を推定できるような特徴パラメータは発見されておらず、研究報告は、あまりにも基礎理論的な研究に集中しているといえる。
【０００５】
【発明が解決しようとする課題】
ところで、実時間応答性が良く、かつ、高精度な話者認識システムを実現するにあたっては、発話内容、発話時期および発声時間の相違による音響特徴量の変動、実時間応答性の向上を図ることと識別精度の向上を図ることとの矛盾等の問題を解決しなければならない。このことは、話者照合ＡＳＶおよび話者識別ＡＳＩのいずれの場合にもいえることであるが、話者識別ＡＳＩの場合には、前述したように話者照合ＡＳＶの場合に比べてシステム処理に煩雑性・困難性を伴うので、解決すべき問題が、より一層大きくなることから、システム開発は遅れているのが現状である。
【０００６】
本発明の目的は、実時間応答性が良好で、かつ、高精度な話者識別を行うことができる話者識別方法およびそのシステム、並びにプログラムを提供するところにある。
【０００７】
【課題を解決するための手段】
本発明は、入力された被識別音声が、予め登録された複数の話者の中の誰の音声であるかを判定する話者識別方法であって、第一段階の判定処理用のサンプルデータとして複数の各話者本人から取得した音声データを用いて音声の特徴パラメータを各話者毎に作成した後、これらの特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第一のコードブックを作成し、これらの第一のコードブックを第一コードブック記憶手段に記憶しておくとともに、複数候補者に絞込後の第二段階の判定処理用の候補データとしてサンプルデータとは異なる環境で複数の各話者本人から取得した音声データを用いて音声の特徴パラメータを各話者毎に作成した後、これらの特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第二のコードブックを作成し、これらの第二のコードブックを第二コードブック記憶手段に記憶しておき、被識別音声が複数の話者の中の誰の音声であるかを判定する際には、被識別音声の入力データを用いて音声の特徴パラメータを作成した後、話者性尤度算出手段により、この特徴パラメータと第一コードブック記憶手段に記憶された第一のコードブックとを用いて複数の各話者についての話者性尤度を算出し、第一段階判定手段により、これらの話者性尤度のうち最小の話者性尤度とそれ以外の話者性尤度との各差が、予め設定された第一の閾値ηよりも大きいか否かまたは第一の閾値η以上か否かを判定し、各差の全てが第一の閾値ηよりも大きいかまたは第一の閾値η以上と判定された場合には、最小の話者性尤度の話者を唯一の候補者とし、第二段階唯一候補者判定手段により、最小の話者性尤度が、予め各話者毎に設定された第二の閾値θｍｉｎと第三の閾値θｍａｘとの間の範囲に入るか否かを判定し、これらの閾値θｍｉｎ，θｍａｘの間の範囲に入ると判定したときには候補者を受理し、入らないと判定したときには棄却し、一方、各差のうちの少なくとも一つの差が第一の閾値η以下または第一の閾値ηよりも小さいと判定された場合には、以下または小さいと判定された差となっている話者性尤度の話者および最小の話者性尤度の話者を複数の候補者とし、絶対値平均ベクトル誤差算出手段により、特徴パラメータと第二コードブック記憶手段に記憶された第二のコードブックとを用いて複数の各候補者についての絶対値平均ベクトル誤差を算出した後、第二段階複数候補者判定手段により、これらの絶対値平均ベクトル誤差のうち最小の絶対値平均ベクトル誤差が、第二の閾値θｍｉｎと第三の閾値θｍａｘとの間の範囲に入るか否かを判定し、これらの閾値θｍｉｎ，θｍａｘの間の範囲に入ると判定したときには最小の絶対値平均ベクトル誤差の候補者を受理し、入らないと判定したときには棄却することを特徴とするものである。
【０００８】
ここで、「各差の全てが第一の閾値ηよりも大きいかまたは第一の閾値η以上と判定された場合」とは、最小の話者性尤度に対し、それ以外の全ての話者性尤度が、第一の閾値ηよりも大きな値だけ離れているか、あるいは第一の閾値η以上離れていると判定された場合であり、要するに、最小の話者性尤度が、その他の話者性尤度に比べて突出して小さな値であると判定された場合である。
【０００９】
一方、「各差のうちの少なくとも一つの差が第一の閾値η以下または第一の閾値ηよりも小さいと判定された場合」とは、最小の話者性尤度以外の話者性尤度の中に、最小の話者性尤度との差が、第一の閾値η以下または第一の閾値ηよりも小さいものが存在すると判定された場合であり、要するに、最小の話者性尤度に近い値の話者性尤度が少なくとも一つ存在すると判定された場合である。
【００１０】
このような本発明の話者識別方法においては、先ず、話者性尤度を算出して第一の閾値ηを用いて第一段階の判定を行い、次に、その判定結果に応じ、第二段階の判定の処理内容を変える。すなわち、第一段階の判定において、最小の話者性尤度が、その他の話者性尤度に比べて突出して小さな値であると判定された場合には、最小の話者性尤度の話者をそのまま唯一の候補者とし、その最小の話者性尤度が第二の閾値θｍｉｎと第三の閾値θｍａｘとの間の範囲に入るか否かの第二段階の判定処理を行う。一方、第一段階の判定において、最小の話者性尤度に近い値の話者性尤度が少なくとも一つ存在すると判定された場合には、最小の話者性尤度の話者だけではなく、最小の話者性尤度に近い値の話者性尤度の話者も含めて複数の候補者とし、絶対値平均ベクトル誤差を算出して第二の閾値θｍｉｎおよび第三の閾値θｍａｘを用いて第二段階の判定処理を行う。
【００１１】
このため、話者識別を行うにあたって、判定を二つの段階で行うようにし、第一段階の判定結果に応じて第二段階の判定が簡易な処理になる場合とそれよりも複雑な処理になる場合とに分かれるようにしたので、全てについて一律な内容の判定処理を行う場合に比べ、話者識別に要する処理時間を短縮することが可能となり、実時間応答性の向上が図られる。
【００１２】
また、第一段階の判定処理において、最小の話者性尤度に近い値の話者性尤度が少なくとも一つ存在すると判定された場合には、最小の話者性尤度に近い値の話者性尤度の話者が、被識別音声を入力した者と一致する可能性もあるため、その場合には、絶対値平均ベクトル誤差を算出する処理を行ってから第二段階の判定を行うので、上述した如く実時間応答性の向上を図りつつ、同時に識別精度の向上を図ることが可能となり、これらにより前記目的が達成される。
【００１３】
また、前述した話者識別方法において、第一の閾値ηを設定する際には、第一閾値設定用テストデータとして複数の各話者本人のうちの任意の一人から取得した音声データを用いて音声の特徴パラメータを作成した後、話者性尤度算出手段により、この特徴パラメータと第一コードブック記憶手段に記憶された第一のコードブックとを用いて複数の各話者についての話者性尤度を算出し、前記任意の一人についての話者性尤度とこの話者性尤度に最も近い値の話者性尤度との差を第一の閾値ηとすることが望ましい。
【００１４】
このようにして第一の閾値ηを設定するようにした場合には、第一閾値設定用テストデータとしての音声データを提供した任意の一人の話者と、この話者に最も似た音声特徴を有する話者とについての話者性尤度の差に基づき、第一の閾値ηが設定されるので、第一段階の判定処理に用いる閾値として適切な値を設定することが可能となる。
【００１５】
さらに、前述した話者識別方法において、第二の閾値θｍｉｎおよび第三の閾値θｍａｘを設定する際には、第二・第三閾値設定用テストデータとして複数の各話者本人からそれぞれ複数ずつ取得した音声データを用いて音声の特徴パラメータを各話者毎に複数ずつ作成した後、話者性尤度算出手段により、これらの特徴パラメータと第一コードブック記憶手段に記憶された第一のコードブックとを用いて複数の各話者についての話者性尤度を各話者毎に複数ずつ算出し、各話者毎に算出した複数の話者性尤度のうちの最小値を各話者についての第二の閾値θｍｉｎとし、各話者毎に算出した複数の話者性尤度のうちの最大値を各話者についての第三の閾値θｍａｘとすることが望ましい。
【００１６】
このようにして第二の閾値θｍｉｎおよび第三の閾値θｍａｘを設定するようにした場合には、第二段階の判定処理に用いる閾値として適切な値を設定することが可能となる。
【００１７】
そして、上記のようにして第二の閾値θｍｉｎおよび第三の閾値θｍａｘを設定するようにした場合において、被識別音声が複数の話者の中の誰の音声であるかを判定する処理を行った結果、被識別音声を入力した者が複数の話者の中のいずれかの者であるとして受理された場合には、被識別音声の入力データとサンプルデータとを組み合わせることにより、複数の話者のうち被識別音声を入力した者と一致すると判定された話者についての第一のコードブックを作成し直し、この作成し直した第一のコードブックと、複数の話者のうち被識別音声を入力した者と一致すると判定された話者についての複数の第二・第三閾値設定用テストデータと、被識別音声の入力データとを用いて、複数の話者のうち被識別音声を入力した者と一致すると判定された話者についての第二の閾値θｍｉｎおよび第三の閾値θｍａｘの更新設定を行うことが望ましい。
【００１８】
このように本人の音声であるとして受理された被識別音声の入力データを用いて、第二の閾値θｍｉｎおよび前記第三の閾値θｍａｘの更新設定を行うようにした場合には、体調や健康等の変化に起因して、登録された複数の各話者の音声の特徴が変化したときには、それに追従させて第二の閾値θｍｉｎおよび第三の閾値θｍａｘの設定を徐々に変化させていくことが可能となる。
【００１９】
そして、以上に述べた話者識別方法において、被識別音声の入力データは、第一段階の判定処理用のサンプルデータよりも短時間のデータであることが望ましい。
【００２０】
例えば、被識別音声の入力データを、５〜１０秒間のデータとし、第一段階の判定処理用のサンプルデータを、２０〜３０秒間のデータとすることが望ましい。
【００２１】
このように被識別音声の入力データを短くした場合には、話者識別に要する時間を短縮することが可能となり、実時間応答性の向上が図られる。
【００２２】
また、以上に述べた話者識別方法において、第二のコードブックは、各話者毎に複数ずつ作成しておき、第二のコードブックを用いて複数の各候補者についての絶対値平均ベクトル誤差を算出する際には、各候補者毎に絶対値平均ベクトル誤差を複数ずつ算出し、これらの絶対値平均ベクトル誤差の平均値を算出することが望ましい。
【００２３】
このように各話者毎に第二のコードブックを複数ずつ用意し、各候補者毎に絶対値平均ベクトル誤差の平均値を算出するようにした場合には、話者識別の精度を、より一層向上させることが可能となる。
【００２４】
さらに、以上に述べた話者識別方法において、特徴パラメータとしては、メルケプストラム等を好適に用いることができる。そして、メルケプストラムとする場合には、処理時間短縮（計算量削減）と識別精度の確保との兼ね合い等から、１６次メルケプストラムとすることが好適であるが、これに限定されるものではない。
【００２５】
また、以上に述べた本発明の話者識別方法を実現するシステムとして、次のような本発明の話者識別システムを挙げることができる。
【００２６】
すなわち、本発明は、入力された被識別音声が、予め登録された複数の話者の中の誰の音声であるかを判定する話者識別システムであって、第一段階の判定処理用のサンプルデータとして複数の各話者本人から取得した音声データを用いて音声の特徴パラメータを各話者毎に作成するサンプルデータ用特徴パラメータ作成手段と、このサンプルデータ用特徴パラメータ作成手段により作成された特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第一のコードブックを作成する第一コードブック作成手段と、この第一コードブック作成手段により各話者毎に作成された第一のコードブックを記憶する第一コードブック記憶手段と、複数候補者に絞込後の第二段階の判定処理用の候補データとしてサンプルデータとは異なる環境で複数の各話者本人から取得した音声データを用いて音声の特徴パラメータを各話者毎に作成する候補データ用特徴パラメータ作成手段と、この候補データ用特徴パラメータ作成手段により作成された特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第二のコードブックを作成する第二コードブック作成手段と、この第二コードブック作成手段により各話者毎に作成された第二のコードブックを記憶する第二コードブック記憶手段と、被識別音声が複数の話者の中の誰の音声であるかを判定する際に被識別音声の入力データを用いて音声の特徴パラメータを作成する入力データ用特徴パラメータ作成手段と、この入力データ用特徴パラメータ作成手段により作成された特徴パラメータと第一コードブック記憶手段に記憶された第一のコードブックとを用いて複数の各話者についての話者性尤度を算出する話者性尤度算出手段と、この話者性尤度算出手段により算出された話者性尤度のうち最小の話者性尤度とそれ以外の話者性尤度との各差が、予め設定された第一の閾値ηよりも大きいか否かまたは第一の閾値η以上か否かを判定する第一段階判定手段と、この第一段階判定手段により各差の全てが第一の閾値ηよりも大きいかまたは第一の閾値η以上と判定された場合に、最小の話者性尤度の話者を唯一の候補者とし、最小の話者性尤度が、予め各話者毎に設定された第二の閾値θｍｉｎと第三の閾値θｍａｘとの間の範囲に入るか否かを判定し、これらの閾値θｍｉｎ，θｍａｘの間の範囲に入ると判定したときには候補者を受理し、入らないと判定したときには棄却する第二段階唯一候補者判定手段と、第一段階判定手段により各差のうちの少なくとも一つの差が第一の閾値η以下または第一の閾値ηよりも小さいと判定された場合に、以下または小さいと判定された差となっている話者性尤度の話者および最小の話者性尤度の話者を複数の候補者とし、入力データ用特徴パラメータ作成手段により作成された特徴パラメータと第二コードブック記憶手段に記憶された第二のコードブックとを用いて複数の各候補者についての絶対値平均ベクトル誤差を算出する絶対値平均ベクトル誤差算出手段と、この絶対値平均ベクトル誤差算出手段により算出された絶対値平均ベクトル誤差のうち最小の絶対値平均ベクトル誤差が、第二の閾値θｍｉｎと第三の閾値θｍａｘとの間の範囲に入るか否かを判定し、これらの閾値θｍｉｎ，θｍａｘの間の範囲に入ると判定したときには最小の絶対値平均ベクトル誤差の候補者を受理し、入らないと判定したときには棄却する第二段階複数候補者判定手段とを備えたことを特徴とするものである。
【００２７】
このような本発明の話者識別システムにおいては、前述した本発明の話者識別方法で得られる作用・効果をそのまま得ることができ、これにより前記目的が達成される。
【００２８】
また、前述した話者識別システムにおいて、第二の閾値θｍｉｎおよび第三の閾値θｍａｘの更新設定を自動的に行う第二・第三閾値自動更新手段を備え、この第二・第三閾値自動更新手段は、被識別音声が複数の話者の中の誰の音声であるかを判定する処理を行った結果、被識別音声を入力した者が複数の話者の中のいずれかの者であるとして受理された場合に、被識別音声の入力データとサンプルデータとを組み合わせることにより、複数の話者のうち被識別音声を入力した者と一致すると判定された話者についての第一のコードブックを作成し直し、この作成し直した第一のコードブックと、複数の話者のうち被識別音声を入力した者と一致すると判定された話者についての複数の第二・第三閾値設定用テストデータと、被識別音声の入力データとを用いて、複数の話者のうち被識別音声を入力した者と一致すると判定された話者についての第二の閾値θｍｉｎおよび第三の閾値θｍａｘの更新設定を行う構成とされていることが望ましい。
【００２９】
このような第二・第三閾値自動更新手段を設けた場合には、体調や健康等の変化に起因して、登録された複数の各話者の音声の特徴が変化したときには、それに追従させて第二の閾値θｍｉｎおよび第三の閾値θｍａｘの設定を徐々に自動的に変化させていくことが可能となる。
【００３０】
さらに、本発明は、入力された被識別音声が、予め登録された複数の話者の中の誰の音声であるかを判定する話者識別システムとして、コンピュータを機能させるためのプログラムであって、第一段階の判定処理用のサンプルデータとして複数の各話者本人から取得した音声データを用いて音声の特徴パラメータを各話者毎に作成するサンプルデータ用特徴パラメータ作成手段と、このサンプルデータ用特徴パラメータ作成手段により作成された特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第一のコードブックを作成する第一コードブック作成手段と、この第一コードブック作成手段により各話者毎に作成された第一のコードブックを記憶する第一コードブック記憶手段と、複数候補者に絞込後の第二段階の判定処理用の候補データとしてサンプルデータとは異なる環境で複数の各話者本人から取得した音声データを用いて音声の特徴パラメータを各話者毎に作成する候補データ用特徴パラメータ作成手段と、この候補データ用特徴パラメータ作成手段により作成された特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第二のコードブックを作成する第二コードブック作成手段と、この第二コードブック作成手段により各話者毎に作成された第二のコードブックを記憶する第二コードブック記憶手段と、被識別音声が複数の話者の中の誰の音声であるかを判定する際に被識別音声の入力データを用いて音声の特徴パラメータを作成する入力データ用特徴パラメータ作成手段と、この入力データ用特徴パラメータ作成手段により作成された特徴パラメータと第一コードブック記憶手段に記憶された第一のコードブックとを用いて複数の各話者についての話者性尤度を算出する話者性尤度算出手段と、この話者性尤度算出手段により算出された話者性尤度のうち最小の話者性尤度とそれ以外の話者性尤度との各差が、予め設定された第一の閾値ηよりも大きいか否かまたは第一の閾値η以上か否かを判定する第一段階判定手段と、この第一段階判定手段により各差の全てが第一の閾値ηよりも大きいかまたは第一の閾値η以上と判定された場合に、最小の話者性尤度の話者を唯一の候補者とし、最小の話者性尤度が、予め各話者毎に設定された第二の閾値θｍｉｎと第三の閾値θｍａｘとの間の範囲に入るか否かを判定し、これらの閾値θｍｉｎ，θｍａｘの間の範囲に入ると判定したときには候補者を受理し、入らないと判定したときには棄却する第二段階唯一候補者判定手段と、第一段階判定手段により各差のうちの少なくとも一つの差が第一の閾値η以下または第一の閾値ηよりも小さいと判定された場合に、以下または小さいと判定された差となっている話者性尤度の話者および最小の話者性尤度の話者を複数の候補者とし、入力データ用特徴パラメータ作成手段により作成された特徴パラメータと第二コードブック記憶手段に記憶された第二のコードブックとを用いて複数の各候補者についての絶対値平均ベクトル誤差を算出する絶対値平均ベクトル誤差算出手段と、この絶対値平均ベクトル誤差算出手段により算出された絶対値平均ベクトル誤差のうち最小の絶対値平均ベクトル誤差が、第二の閾値θｍｉｎと第三の閾値θｍａｘとの間の範囲に入るか否かを判定し、これらの閾値θｍｉｎ，θｍａｘの間の範囲に入ると判定したときには最小の絶対値平均ベクトル誤差の候補者を受理し、入らないと判定したときには棄却する第二段階複数候補者判定手段とを備えたことを特徴とする話者識別システムとして、コンピュータを機能させるためのものである。
【００３１】
なお、以上に述べたプログラムまたはその一部は、例えば、光磁気ディスク（ＭＯ）、コンパクトディスク（ＣＤ）を利用した読出し専用メモリ（ＣＤ−ＲＯＭ）、ＣＤレコーダブル（ＣＤ−Ｒ）、ＣＤリライタブル（ＣＤ−ＲＷ）、デジタル・バーサタイル・ディスク（ＤＶＤ）を利用した読出し専用メモリ（ＤＶＤ−ＲＯＭ）、ＤＶＤを利用したランダム・アクセス・メモリ（ＤＶＤ−ＲＡＭ）、フレキシブルディスク（ＦＤ）、磁気テープ、ハードディスク、読出し専用メモリ（ＲＯＭ）、電気的消去および書換可能な読出し専用メモリ（ＥＥＰＲＯＭ）、フラッシュ・メモリ、ランダム・アクセス・メモリ（ＲＡＭ）等の記録媒体に記録して保存や流通等させることが可能であるとともに、例えば、ローカル・エリア・ネットワーク（ＬＡＮ）、メトロポリタン・エリア・ネットワーク（ＭＡＮ）、ワイド・エリア・ネットワーク（ＷＡＮ）、インターネット、イントラネット、エクストラネット等の有線ネットワーク、あるいは無線通信ネットワーク、さらにはこれらの組合せ等の伝送媒体を用いて伝送することが可能であり、また、搬送波に載せて搬送することも可能である。さらに、以上に述べたプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。
【００３２】
【発明の実施の形態】
以下に本発明の一実施形態を図面に基づいて説明する。図１には、本実施形態の話者識別システム１０の全体構成が示されている。図２には、話者識別システム１０により、被識別音声が複数の話者の中の誰の音声であるかを判定する際の処理の流れの説明図が示されている。また、図３には、第一の閾値ηの初期設定を行う際の処理の流れの説明図が示され、図４には、第二の閾値θｍｉｎおよび第三の閾値θｍａｘの初期設定を行う際の処理の流れの説明図が示されている。さらに、図５には、第二の閾値θｍｉｎおよび第三の閾値θｍａｘの更新を行う際の処理の流れの説明図が示されている。
【００３３】
図１において、話者識別システム１０は、入力された被識別音声（識別対象となる音声）が、予め登録された複数の話者の中の誰の音声であるかを判定するシステムであり、話者識別に関する各種処理を行う処理手段２０と、話者識別に必要な各種データを記憶する記憶手段４０と、話者の音声を入力する音声入力手段６０と、話者識別の結果を表示する表示手段７０と、話者識別の結果を出力する出力手段８０とを備えて構成されている。登録される話者の総数Ｎは、例えば、Ｎ＝１００人等であり、各話者には、話者番号ｎ（ｎ＝１，２，３，…，Ｎ）を付すものとする。
【００３４】
また、音声入力手段６０と処理手段２０との間、あるいは表示手段７０や出力手段８０と処理手段２０との間には、ネットワークが介在していてもよい。すなわち、音声入力手段６０は、遠隔地にいる話者の音声を入力するものであってもよく、表示手段７０や出力手段８０は、遠隔地にいる閲覧者や利用者に識別結果を提供するものであってもよい。
【００３５】
ここで、ネットワークには、例えば、ＬＡＮ、ＭＡＮ、ＷＡＮ、インターネット、イントラネット、エクストラネット、あるいはこれらの組合せ等、様々な形態のものが含まれ、有線であるか無線であるか、さらには有線および無線の混在型であるかは問わず、要するに、複数地点（距離の長短は問わない。）間で、ある程度の速度をもって情報を伝送することができるものであればよい。
【００３６】
処理手段２０は、サンプルデータ用特徴パラメータ作成手段２１と、候補データ用特徴パラメータ作成手段２２と、入力データ用特徴パラメータ作成手段２３と、第一コードブック作成手段２４と、第二コードブック作成手段２５と、話者性尤度算出手段２６と、絶対値平均ベクトル誤差算出手段２７と、第一段階判定手段２８と、第二段階唯一候補者判定手段２９と、第二段階複数候補者判定手段３０と、第一閾値初期設定手段３１と、第二・第三閾値初期設定手段３２と、第二・第三閾値自動更新手段３３とを含んで構成されている。
【００３７】
記憶手段４０は、第一コードブック記憶手段４１と、第二コードブック記憶手段４２と、第一閾値記憶手段４３と、第二閾値記憶手段４４と、第三閾値記憶手段４５と、サンプルデータ記憶手段４６と、候補データ記憶手段４７と、被識別音声入力データ記憶手段４８と、第一閾値設定用テストデータ記憶手段４９と、第二・第三閾値設定用テストデータ記憶手段５０とを含んで構成されている。
【００３８】
サンプルデータ用特徴パラメータ作成手段２１は、第一段階の判定処理に用いるサンプルデータとして複数（Ｎ人）の各話者本人から取得した音声データを用いて、音声特徴量を抽出し、音声の特徴パラメータを各話者毎に作成する処理を行うものである。特徴パラメータとしては、１６次メルケプストラムが好適であるため、本実施形態では、１６次メルケプストラムとして説明を行うが、これに限定されるものではない。ここで、サンプルデータとして取得する音声データの長さは、１人の話者につき、例えば２０〜３０秒である。従って、１フレームを１０ミリ秒とすれば、例えば２０００〜３０００個の各フレームから１６次メルケプストラムがそれぞれ作成される。
【００３９】
候補データ用特徴パラメータ作成手段２２は、複数候補者に絞込後の第二段階の判定処理に用いる候補データとしてサンプルデータとは異なる環境で複数（Ｎ人）の各話者本人から取得した音声データを用いて、音声特徴量を抽出し、音声の特徴パラメータを各話者毎に作成する処理を行うものである。特徴パラメータは、上記のサンプルデータの場合と同様に、１６次メルケプストラムとする。ここで、候補データとして取得する音声データの長さは、１人の話者につき、例えば５〜１０秒である。従って、１フレームを１０ミリ秒とすれば、例えば５００〜１０００個の各フレームから１６次メルケプストラムがそれぞれ作成される。また、この５〜１０秒の長さの候補データは、１人の話者につき、ｔ個（例えば、ｔ＝３〜５等）用意される。候補データは、サンプルデータよりも短時間とすることが好ましい。
【００４０】
入力データ用特徴パラメータ作成手段２３は、被識別音声が複数の話者の中の誰の音声であるかを判定する際に、被識別音声の入力データを用いて、音声特徴量を抽出し、音声の特徴パラメータを作成する処理を行うものである。特徴パラメータは、上記のサンプルデータや候補データの場合と同様に、１６次メルケプストラムとする。ここで、話者識別を行うために入力される音声データの長さは、１人の話者につき、例えば５〜１０秒である。従って、１フレームを１０ミリ秒とすれば、例えば５００〜１０００個の各フレームから１６次メルケプストラムがそれぞれ作成される。これらの各メルケプストラムは、それぞれ１６個の数値により構成されるベクトルＸ_１，Ｘ_２，…，Ｘ_ｋ，…，Ｘ_Ｍである。ここで、Ｍはフレーム数であり、Ｘ_ｋ＝（Ｘ_ｋ（１），Ｘ_ｋ（２），…，Ｘ_ｋ（１６））（ｋ＝１，２，…，Ｍ）である。被識別音声の入力データは、サンプルデータよりも短時間とすることが好ましい。
【００４１】
第一コードブック作成手段２４は、サンプルデータ用特徴パラメータ作成手段２１により作成された特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第一のコードブックを作成する処理を行うものである。第一のコードブックは、セントロイドベクトルＣ_ｉ ^ｎの集合であり、ｎ＝１，２，…，Ｎであり、ｉ＝１，２，…，Ｌである。ここで、Ｎは、登録話者の総数であり、例えばＮ＝１００人等である。また、Ｌは、コードブックサイズ（量子化点数）であり、例えばＬ＝１２８やＬ＝２５６等である。従って、サイズＬの第一のコードブックが、Ｎ人分用意される。そして、各セントロイドベクトルＣ_ｉ ^ｎは、それぞれ１６個の数値により構成され、Ｃ_ｉ ^ｎ＝（Ｃ_ｉ ^ｎ（１），Ｃ_ｉ ^ｎ（２），…，Ｃ_ｉ ^ｎ（１６））である。
【００４２】
第二コードブック作成手段２５は、候補データ用特徴パラメータ作成手段２２により作成された特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第二のコードブックを作成する処理を行うものである。第二のコードブックは、セントロイドベクトルＣ_ｉ ^ｎ，ｖの集合であり、ｎ＝１，２，…，Ｎであり、ｉ＝１，２，…，Ｌであり、ｖ＝１，２，…，ｔである。ここで、ｔは、１人の候補者（話者）について用意する第二のコードブックの個数であり、例えばｔ＝３〜５等である。従って、サイズＬの第二のコードブックがＮ人分、すなわちＮ×ｔ個用意される。そして、各セントロイドベクトルＣ_ｉ ^ｎ，ｖは、それぞれ１６個の数値により構成され、Ｃ_ｉ ^ｎ，ｖ＝（Ｃ_ｉ ^ｎ，ｖ（１），Ｃ_ｉ ^ｎ，ｖ（２），…，Ｃ_ｉ ^ｎ，ｖ（１６））である。
【００４３】
話者性尤度算出手段２６は、入力データ用特徴パラメータ作成手段２３により作成された特徴パラメータＸ_ｋと、第一コードブック記憶手段４１に記憶された第一のコードブックＣ_ｉ ^ｎとを用いて、ベクトル量子化（ＶＱ：Ｖｅｃｔｏｒ　Ｑａｎｔｉｚａｔｉｏｎ）を行い、複数の各話者についての話者性尤度を算出する処理を行うものである。具体的には、次式（１）に基づく処理を行う。
【００４４】
【数１】

【００４５】
上式（１）において、Ｌ^ｎは、話者性尤度であり、上付の添字ｎは、話者番号（ｎ＝１，２，…，Ｎ）を示し、Ｎは、登録話者の総数で、例えばＮ＝１００人等である。Ｍは、フレーム数である。ｄ（Ｘ_ｋ，Ｃ_ｉ ^ｎ）は、ベクトルＸ_ｋとベクトルＣ_ｉ ^ｎとの各構成要素同士の差の２乗の和をとるという意味であり、Ｘ_ｋ＝（Ｘ_ｋ（１），Ｘ_ｋ（２），…，Ｘ_ｋ（１６））、Ｃ_ｉ ^ｎ＝（Ｃ_ｉ ^ｎ（１），Ｃ_ｉ ^ｎ（２），…，Ｃ_ｉ ^ｎ（１６））であるから、次のようになる。
【００４６】
ｄ（Ｘ_ｋ，Ｃ_ｉ ^ｎ）＝（Ｘ_ｋ（１）−Ｃ_ｉ ^ｎ（１））^２＋（Ｘ_ｋ（２）−Ｃ_ｉ ^ｎ（２））^２＋…＋（Ｘ_ｋ（１６）−Ｃ_ｉ ^ｎ（１６））^２
【００４７】
また、ｍｉｎ（１≦ｉ≦Ｌ）［ｄ（Ｘ_ｋ，Ｃ_ｉ ^ｎ）］は、コードブックサイズがＬ（例えばＬ＝２５６等）であるから、ｎ番目の話者についてＬ個の第一のコードブックが作成されているので、ｄ（Ｘ_ｋ，Ｃ_ｉ ^ｎ）をｉ＝１，２，…，Ｌについてそれぞれ求め、その中の最小値をとるという意味である。
【００４８】
そして、ｍｉｎ（１≦ｉ≦Ｌ）［ｄ（Ｘ_ｋ，Ｃ_ｉ ^ｎ）］をＭ個のフレームの全てについて求めると、Ｍ個のｍｉｎ（１≦ｉ≦Ｌ）［ｄ（Ｘ_ｋ，Ｃ_ｉ ^ｎ）］（ｋ＝１，２，…，Ｍ）が得られるので、これらのＭ個のｍｉｎ（１≦ｉ≦Ｌ）［ｄ（Ｘ_ｋ，Ｃ_ｉ ^ｎ）］を合計してＭで割ることにより、ｍｉｎ（１≦ｉ≦Ｌ）［ｄ（Ｘ_ｋ，Ｃ_ｉ ^ｎ）］の平均値を求める。この平均値が、ｎ番目の話者についての話者性尤度Ｌ^ｎである。以上のような計算をＮ人の話者の全てについて行い、Ｌ^１，Ｌ^２，…，Ｌ^Ｎを求める。
【００４９】
絶対値平均ベクトル誤差算出手段２７は、入力データ用特徴パラメータ作成手段２３により作成された特徴パラメータＸ_ｋと、第二コードブック記憶手段４２に記憶された第二のコードブックＣ_ｉ ^ｎ，ｖとを用いて、第一段階の判定処理で選出された複数の各候補者（話者）についての絶対値平均ベクトル誤差ε_ｑ，ｖあるいはε_ｑ，ε_ｑｍｉｎを算出する処理を行うものである。具体的には、次式（２）に基づく処理を行う。
【００５０】
【数２】

【００５１】
上式（２）において、ε_ｑ，ｖは、第一段階の判定処理で選出された複数の各候補者（話者）についての絶対値平均ベクトル誤差であり、下付の添字ｑは、候補者番号であり、下付の添字ｖは、各候補者（話者）についてそれぞれ複数個（ｔ個、例えばｔ＝３等）の候補データが用意され、それぞれ複数個（ｔ個、例えばｔ＝３等）の第二のコードブックが作成されているので、それらの第二のコードブックに付された番号（ｖ＝１，２，…，ｔ）である。Ｍは、フレーム数である。ｄ’（Ｘ_ｋ，Ｃ_ｉ ^ｎ，ｖ）は、話者性尤度Ｌ^ｎを求める前記式（１）におけるｄ（Ｘ_ｋ，Ｃ_ｉ ^ｎ）とは異なるものであり、ベクトルＸ_ｋとベクトルＣ_ｉ ^ｎ，ｖとの各構成要素同士の差の絶対値の和をとるという意味であり、Ｘ_ｋ＝（Ｘ_ｋ（１），Ｘ_ｋ（２），…，Ｘ_ｋ（１６））、Ｃ_ｉ ^ｎ，ｖ＝（Ｃ_ｉ ^ｎ，ｖ（１），Ｃ_ｉ ^ｎ，ｖ（２），…，Ｃ_ｉ ^ｎ，ｖ（１６））であるから、次のようになる。なお、ｄ’（Ｘ_ｋ，Ｃ_ｉ ^ｎ，ｖ）中のｎは、候補者番号ｑに対応する話者番号（第一段階の判定処理で候補者番号ｑを付された話者についての原始的話者番号）である。
【００５２】
ｄ’（Ｘ_ｋ，Ｃ_ｉ ^ｎ，ｖ）＝｜Ｘ_ｋ（１）−Ｃ_ｉ ^ｎ，ｖ（１）｜＋｜Ｘ_ｋ（２）−Ｃ_ｉ ^ｎ，ｖ（２）｜＋…＋｜Ｘ_ｋ（１６）−Ｃ_ｉ ^ｎ，ｖ（１６）｜
【００５３】
また、ｍｉｎ（１≦ｉ≦Ｌ）［ｄ’（Ｘ_ｋ，Ｃ_ｉ ^ｎ，ｖ）］は、コードブックサイズがＬ（例えばＬ＝２５６等）であるから、ｎ番目の話者のｖ番目の候補データについてＬ個の第二のコードブックが作成されているので、ｄ’（Ｘ_ｋ，Ｃ_ｉ ^ｎ，ｖ）をｉ＝１，２，…，Ｌについてそれぞれ求め、その中の最小値をとるという意味である。
【００５４】
そして、ｍｉｎ（１≦ｉ≦Ｌ）［ｄ’（Ｘ_ｋ，Ｃ_ｉ ^ｎ，ｖ）］をＭ個のフレームの全てについて求めると、Ｍ個のｍｉｎ（１≦ｉ≦Ｌ）［ｄ’（Ｘ_ｋ，Ｃ_ｉ ^ｎ，ｖ）］（ｋ＝１，２，…，Ｍ）が得られるので、これらのＭ個のｍｉｎ（１≦ｉ≦Ｌ）［ｄ’（Ｘ_ｋ，Ｃ_ｉ ^ｎ，ｖ）］を合計してＭで割ることにより、ｍｉｎ（１≦ｉ≦Ｌ）［ｄ’（Ｘ_ｋ，Ｃ_ｉ ^ｎ，ｖ）］の平均値を求める。この平均値が、ｎ番目の話者（候補者番号ｑに対応する話者）のｖ番目の候補データに基づく絶対値平均ベクトル誤差ε_ｑ，ｖである。
【００５５】
さらに、ｎ番目の話者（候補者番号ｑに対応する話者）について、ｖ＝１番目からｖ＝ｔ番目までの各候補データ（各第二のコードブック）に基づく各絶対値平均ベクトル誤差ε_ｑ，ｖの平均値を求めてε_ｑとする。すなわち、ｎ番目の話者（候補者番号ｑに対応する話者）についての絶対値平均ベクトル誤差ε_ｑは、次式で求められる。
【００５６】
ε_ｑ＝（ε_ｑ，１＋ε_ｑ，２＋…＋ε_ｑ，ｔ）／ｔ
【００５７】
以上のような計算を、第一段階の判定処理で選出された複数の各候補者（話者）の全てについて行い、全ての候補者の絶対値平均ベクトル誤差ε_ｑを求める。その後、これらのε_ｑの中の最小値を求め、ε_ｑｍｉｎとする。
【００５８】
第一段階判定手段２８は、話者性尤度算出手段２６により算出されたＮ個の話者性尤度Ｌ^ｎ（ｎ＝１，２，…，Ｎ）のうち最小の話者性尤度Ｌ^ｘと、それ以外の話者性尤度との各差ｍｉｎ_ｑが、予め設定された第一の閾値ηよりも大きいか否かを判定する処理を行うものである。
【００５９】
ここで、ｍｉｎ_ｑ＝Ｌ_ｑ−Ｌ_１（ｑ＝２，３，４，…）である。Ｌ_１は、算出されたＮ個の話者性尤度Ｌ^ｎ（ｎ＝１，２，…，Ｎ）のうち最小となるもの（Ｌ^ｘ）を、下付の添字１を使って置き換えたものであり、Ｌ_２，Ｌ_３，Ｌ_４，…は、二番目、三番目、四番目、…に小さいものを、下付の添字２，３，４，…を使って置き換えたものである。なお、このような置き換えは、説明の便宜上行うものであるため、計算処理上は、必ずしも上記と同様な方法での置き換えを行う必要はなく、要するに、結果的に上記のような判定処理が行われるようになっていればよい。
【００６０】
第二段階唯一候補者判定手段２９は、第一段階判定手段２８により各差ｍｉｎ_ｑの全てが、第一の閾値ηよりも大きいと判定された場合に、最小の話者性尤度Ｌ^ｘの話者（話者番号ｘの話者）を唯一の候補者とし、最小の話者性尤度Ｌ^ｘが、この話者番号ｘの話者のために設定された第二の閾値θｍｉｎ^ｘと第三の閾値θｍａｘ^ｘとの間の範囲に入るか否かを判定する。そして、これらの閾値θｍｉｎ^ｘ，θｍａｘ^ｘの間の範囲に入ると判定したときには、その唯一の候補者である話者番号ｘの話者が、識別音声を入力した者と一致するとして受理し、閾値θｍｉｎ^ｘ，θｍａｘ^ｘの間の範囲に入らないと判定したときには、棄却する処理を行うものである。
【００６１】
第二段階複数候補者判定手段３０は、絶対値平均ベクトル誤差算出手段２７により算出された絶対値平均ベクトル誤差ε_ｑのうち最小の絶対値平均ベクトル誤差ε_ｑｍｉｎが、このε_ｑｍｉｎの候補者（この候補者の話者番号をｙとする。）のために設定された第二の閾値θｍｉｎ^ｙと第三の閾値θｍａｘ^ｙとの間の範囲に入るか否かを判定する。そして、これらの閾値θｍｉｎ^ｙ，θｍａｘ^ｙの間の範囲に入ると判定したときには、ε_ｑｍｉｎの候補者（話者番号ｙの話者）が、識別音声を入力した者と一致するとして受理し、閾値θｍｉｎ^ｙ，θｍａｘ^ｙの間の範囲に入らないと判定したときには、棄却する処理を行うものである。
【００６２】
第一閾値初期設定手段３１は、第一の閾値ηの初期設定の処理を行うものである（図３参照）。
【００６３】
第二・第三閾値初期設定手段３２は、第二の閾値θｍｉｎ^ｎおよび第三の閾値θｍａｘ^ｎ（ｎ＝１，２，…，Ｎ）の初期設定の処理を行うものである（図４参照）。
【００６４】
第二・第三閾値自動更新手段３３は、第二の閾値θｍｉｎ^ｎおよび第三の閾値θｍａｘ^ｎ（ｎ＝１，２，…，Ｎ）の自動更新の処理を行うものである（図５参照）。
【００６５】
第一コードブック記憶手段４１は、第一のコードブックＣ_ｉ ^ｎを記憶するものである。サイズＬ（例えばＬ＝２５６等）の第一のコードブックが、Ｎ人の登録話者全員について一人一つずつ用意される。
【００６６】
第二コードブック記憶手段４２は、第二のコードブックＣ_ｉ ^ｎ，ｖを記憶するものである。サイズＬ（例えばＬ＝２５６等）の第二のコードブックが、Ｎ人の登録話者全員について一人複数個（ｔ個、例えばｔ＝３個等）ずつ用意される。
【００６７】
第一閾値記憶手段４３は、第一の閾値ηを記憶するものである。第一の閾値ηは、システム１０に一つだけ用意されるものであり、各登録話者毎に個別に用意されるものではない。
【００６８】
第二閾値記憶手段４４は、第二の閾値θｍｉｎ^ｎを記憶するものである。第二の閾値θｍｉｎ^ｎは、各登録話者（話者番号ｎ＝１，２，…，Ｎ）毎に個別に用意されるものである。
【００６９】
第三閾値記憶手段４５は、第三の閾値θｍａｘ^ｎを記憶するものである。第三の閾値θｍａｘ^ｎは、各登録話者（話者番号ｎ＝１，２，…，Ｎ）毎に個別に用意されるものである。
【００７０】
サンプルデータ記憶手段４６は、サンプルデータ（例えば２０〜３０秒／話者）としての音声データを記憶するものであり、例えば、ＷＡＶフォーマット等のファイル形式での保存を行う。サンプルデータは、Ｎ人の登録話者全員について一人一つずつ用意される。
【００７１】
候補データ記憶手段４７は、候補データ（例えば５〜１０秒／話者）としての音声データを記憶するものであり、例えば、ＷＡＶフォーマット等のファイル形式での保存を行う。候補データは、Ｎ人の登録話者全員について一人複数個（ｔ個、例えばｔ＝３個等）ずつ用意される。
【００７２】
被識別音声入力データ記憶手段４８は、被識別音声の入力データ（例えば５〜１０秒）を記憶するものであり、例えば、ＷＡＶフォーマット等のファイル形式での保存を行う。記憶された入力データは、システム１０による学習機能に用いられ、次回以降の話者識別処理に活かされる（図５参照）。
【００７３】
第一閾値設定用テストデータ記憶手段４９は、第一の閾値ηの初期設定に用いられる第一閾値設定用テストデータ（例えば５〜１０秒）としての音声データを記憶するものであり、例えば、ＷＡＶフォーマット等のファイル形式での保存を行う。第一閾値設定用テストデータは、Ｎ人の登録話者の中の任意の一人による音声データである。
【００７４】
第二・第三閾値設定用テストデータ記憶手段５０は、第二の閾値θｍｉｎ^ｎおよび第三の閾値θｍａｘ^ｎの初期設定に用いられる第二・第三閾値設定用テストデータ（例えば５〜１０秒）としての音声データを記憶するものであり、例えば、ＷＡＶフォーマット等のファイル形式での保存を行う。第二・第三閾値設定用テストデータは、Ｎ人の登録話者全員について一人複数回（Ｈ回、例えばＨ＝１０回等）ずつ入力して取得した音声データである。
【００７５】
そして、処理手段２０を構成する各手段２１〜３３は、コンピュータ本体（パーソナル・コンピュータのみならず、その上位機種のものも含む。）の内部に設けられた中央演算処理装置（ＣＰＵ）、およびこのＣＰＵの動作手順を規定する一つまたは複数のプログラムにより実現される。
【００７６】
また、処理手段２０は、一台のコンピュータあるいは一つのＣＰＵにより実現されるものに限定されず、複数のコンピュータ等で分散処理を行うことにより実現されるものであってもよい。
【００７７】
さらに、記憶手段４０を構成する各手段４１〜５０は、例えばハードディスク等により好適に実現されるが、記憶容量やアクセス速度等に問題が生じない範囲であれば、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュ・メモリ、ＲＡＭ、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＦＤ、磁気テープ、あるいはこれらの組合せ等を採用してもよい。
【００７８】
音声入力手段６０としては、各種の音声収録マイク等を採用することができる。
【００７９】
表示手段７０としては、例えば、液晶ディスプレイ、ＣＲＴディスプレイ、有機ＥＬ（エレクトロルミネッセンス）ディスプレイ、ＥＣＬ（エレクトロケミルミネッセンス）ディスプレイ、プロジェクタおよびスクリーン、あるいはこれらの組合せ等を採用することができる。
【００８０】
出力手段８０としては、プリンタ、プロッタ、あるいはこれらの組合せ等を採用することができる。
【００８１】
このような本実施形態においては、以下のようにして話者識別システム１０により被識別音声についての話者識別処理を行う。
【００８２】
図２において、先ず、音声入力手段６０を用いて、Ｎ人（例えばＮ＝１００人等）の登録話者全員から、サンプルデータとして、一人の話者につき例えば２０〜３０秒の音声データを取得し、これらの取得したサンプルデータを、サンプルデータ記憶手段４６に記憶保存する（ステップＳ１）。
【００８３】
続いて、各話者のサンプルデータを用いて、サンプルデータ用特徴パラメータ作成手段２１により音響特徴量を抽出し、各話者の音声についての特徴パラメータを作成する（ステップＳ２）。特徴パラメータは、１６次メルケプストラムである。
【００８４】
さらに、得られた各話者の特徴パラメータを用いて、第一コードブック作成手段２４によりクラスタリング処理を行い、Ｎ人の各話者（ｎ＝１，２，…，Ｎ）についての第一のコードブックＣ_ｉ ^ｎを作成し（ステップＳ３）、これらの作成した第一のコードブックＣ_ｉ ^ｎを第一コードブック記憶手段４１に記憶保存する（ステップＳ４）。話者一人（ｎ番目の話者）についての第一のコードブックＣ_ｉ ^ｎは、コードブックサイズがＬであるから、Ｌ個（例えば、Ｌ＝２５６個等）のコードブックベクトルにより構成されている。
【００８５】
次に、音声入力手段６０を用いて、Ｎ人（例えばＮ＝１００人等）の登録話者全員から、候補データとして、一人の話者につき例えば５〜１０秒の音声データを複数個（ｔ個、例えばｔ＝３個等）ずつ取得し、これらの取得した候補データを、候補データ記憶手段４７に記憶保存する（ステップＳ１１）。
【００８６】
続いて、各話者の候補データを用いて、候補データ用特徴パラメータ作成手段２２により音響特徴量を抽出し、各話者の音声についての特徴パラメータを作成する（ステップＳ１２）。特徴パラメータは、１６次メルケプストラムである。
【００８７】
さらに、得られた各話者の特徴パラメータを用いて、第二コードブック作成手段２５によりクラスタリング処理を行い、Ｎ人の各話者（ｎ＝１，２，…，Ｎ）について複数個（ｔ個）ずつの第二のコードブックＣ_ｉ ^ｎ，ｖを作成し（ステップＳ１３）、これらの作成した第二のコードブックＣ_ｉ ^ｎ，ｖを第二コードブック記憶手段４２に記憶保存する（ステップＳ１４）。話者一人（ｎ番目の話者）についての第二のコードブックＣ_ｉ ^ｎ，ｖは、複数個（ｔ個）用意され、これらの複数個の第二のコードブックＣ_ｉ ^ｎ，ｖ（ｖ＝１，２，…，ｔ）の各々は、コードブックサイズがＬであるから、Ｌ個（例えば、Ｌ＝２５６個等）のコードブックベクトルにより構成されている。
【００８８】
以上の前処理を行った後に、第一の閾値η、第二の閾値θｍｉｎ^ｎ、および第三の閾値θｍａｘ^ｎの初期設定を行うが、詳細は後述する（図３のステップＳ４１〜Ｓ４４、図４のステップＳ５１〜Ｓ５４）。
【００８９】
そして、前処理および各閾値の初期設定を行った後に、話者識別システム１０を稼働させ、実際に話者識別を行う際には、以下のような処理を行う。
【００９０】
図２において、先ず、音声入力手段６０を用いて、識別の対象となる被識別音声を入力して話者識別システム１０に取り込む（ステップＳ２１）。この際、取り込む入力データは、例えば５〜１０秒の音声データである。
【００９１】
続いて、被識別音声の入力データを用いて、入力データ用特徴パラメータ作成手段２３により音響特徴量を抽出し、被識別音声についての特徴パラメータを作成する（ステップＳ２２）。特徴パラメータは、１６次メルケプストラムであり、フレーム数がＭであるから、Ｍ個のベクトルＸ_１，Ｘ_２，…，Ｘ_Ｍが作成される。
【００９２】
さらに、得られた特徴パラメータであるＭ個のベクトルＸ_１，Ｘ_２，…，Ｘ_Ｍと、第一コードブック記憶手段４１に記憶保存されている第一のコードブックＣ_ｉ ^ｎとを用いて、話者性尤度算出手段２６により、ベクトル量子化（ＶＱ）を行い、各話者（ｎ＝１，２，…，Ｎ）についての話者性尤度Ｌ^ｎを算出する（ステップＳ２３）。
【００９３】
次に、算出した話者性尤度Ｌ^ｎ（上付の添字ｎは、話者番号であり、ｎ＝１，２，…，Ｎ）のうちの最小値Ｌ^ｘ（話者番号ｘの話者についての話者性尤度）を下付の添字１を使ってＬ_１と置き換えるものとする。また、算出した話者性尤度Ｌ^ｎのうち二番目に小さな値を下付の添字２を使ってＬ_２と置き換えるものとする。同様にして、算出した話者性尤度Ｌ^ｎのうち三番目、四番目、…に小さな値をＬ_３，Ｌ_４，…と置き換えるものとする。
【００９４】
そして、第一段階判定手段２８により、最小の話者性尤度Ｌ^ｘ（＝Ｌ_１）と、その他の話者性尤度Ｌ^ｎ（＝Ｌ_２，Ｌ_３，Ｌ_４，…）との差ｍｉｎ_ｑが、予め設定されている第一の閾値ηよりも大きいか否かを判定する（ステップＳ２４）。すなわち、ｍｉｎ_ｑ＝Ｌ_ｑ−Ｌ_１（ｑ＝２，３，４，…）であり、このｍｉｎ_ｑについて次式に基づく判定を行う。
【００９５】
ｍｉｎ_ｑ＞η
【００９６】
ここで、全てのｍｉｎ_ｑが第一の閾値ηよりも大きいと判断された場合には、Ｌ_２−Ｌ_１、Ｌ_３−Ｌ_１、Ｌ_４−Ｌ_１、…の全てが第一の閾値ηよりも大きいということであるから、Ｌ_１の値に対してＬ_２，Ｌ_３，Ｌ_４，…の各値が離れているということである。従って、最小の話者性尤度Ｌ^ｘ（＝Ｌ_１）が、その他の話者性尤度Ｌ^ｎ（＝Ｌ_２，Ｌ_３，Ｌ_４，…）と比べ、突出して小さな値であることを意味するので、この場合には、話者性尤度Ｌ^ｘ（＝Ｌ_１）の話者（話者番号ｘの話者）を唯一の候補者として次の第二段階の判定処理に進む。
【００９７】
続いて、話者性尤度Ｌ^ｘの話者を唯一の候補者とした後に、第二段階唯一候補者判定手段２９により、この唯一の候補者が、識別音声を入力した者と一致するか否かを判定する（ステップＳ２５）。この判定の際には、話者性尤度Ｌ^ｘが、話者番号ｘの話者について予め設定された第二の閾値θｍｉｎ^ｘと第三の閾値θｍａｘ^ｘとの間の範囲に入るか否かを判断する。
【００９８】
そして、話者性尤度Ｌ^ｘが、第二の閾値θｍｉｎ^ｘと第三の閾値θｍａｘ^ｘとの間の範囲に入ると判断された場合には、話者性尤度Ｌ^ｘの話者が、識別音声を入力した者と一致するとして受理し（ステップＳ２６）、話者性尤度Ｌ^ｘが、第二の閾値θｍｉｎ^ｘと第三の閾値θｍａｘ^ｘとの間の範囲に入らないと判断された場合には、話者性尤度Ｌ^ｘの話者は、識別音声を入力した者と一致しないとして棄却する（ステップＳ２７）。
【００９９】
一方、ステップＳ２４で、各差ｍｉｎ_ｑのうちの少なくとも一つが、第一の閾値η以下であると判断された場合には、Ｌ_２−Ｌ_１、Ｌ_３−Ｌ_１、Ｌ_４−Ｌ_１、…の中に第一の閾値η以下の差が存在するということであるから、Ｌ_１に近い値となる話者性尤度が、Ｌ_２，Ｌ_３，Ｌ_４，…の中に存在することを意味する。この場合には、最小の話者性尤度Ｌ^ｘ（＝Ｌ_１）に近いと判断された話者性尤度の話者（すなわち、最小の話者性尤度Ｌ^ｘとの差が第一の閾値η以下の話者性尤度の話者）および最小の話者性尤度Ｌ^ｘの話者を、複数の候補者として次の第二段階の判定処理に進む。例えば、Ｌ_２−Ｌ_１、Ｌ_３−Ｌ_１が第一の閾値η以下であると判断され、Ｌ_４−Ｌ_１、Ｌ_５−Ｌ_１、Ｌ_６−Ｌ_１、…が第一の閾値ηよりも大きいと判断された場合には、Ｌ_２およびＬ_３がＬ_１に近い値なので、Ｌ_１を含めて話者性尤度Ｌ_１，Ｌ_２，Ｌ_３の３人の話者が、複数の候補者となる。従って、複数の候補者が何人になるかは、ｍｉｎ_ｑ＞ηの判定結果により変化し、Ｎ人の登録話者全員になることもあり得る。なお、以下においては、ステップＳ２４の判定処理で、ｍｉｎ_ｑ≦ηと判断された話者性尤度Ｌ_ｑ（ｑ＝２，３，…）を、Ｌ_１を含めて候補者番号ｑを示す下付の添字を付してＬ_ｑ（ｑ＝１，２，…）と表現する。上記の例では、Ｌ_１，Ｌ_２，Ｌ_３がＬ_ｑとなる。
【０１００】
続いて、Ｌ_１に近い値の話者性尤度の話者を、話者性尤度Ｌ_１の話者を含めて複数の候補者とした後に、これらの複数の候補者についての絶対値平均ベクトル誤差を、絶対値平均ベクトル誤差算出手段２７により算出する（ステップＳ２８）。
【０１０１】
絶対値平均ベクトル誤差算出手段２７による処理は、先ず、入力データ用特徴パラメータ作成手段２３により作成された特徴パラメータＸ_ｋと、第二コードブック記憶手段４２に記憶された第二のコードブックＣ_ｉ ^ｎ，ｖとを用いて、ステップＳ２４の第一段階の判定処理で選出された複数の各候補者（話者）についての絶対値平均ベクトル誤差ε_ｑ，ｖを算出する。この際、絶対値平均ベクトル誤差は、一人の候補者につき、複数個（ｔ個、例えばｔ＝３個等）算出する。従って、候補者番号ｑの候補者については、ε_ｑ，１，ε_ｑ，２，…，ε_ｑ，ｔが算出されるので、これらのｔ個の絶対値平均ベクトル誤差の平均値を求めてε_ｑとする。さらに、複数の候補者全員について、ε_ｑを求め、これらのε_ｑの中の最小値を求めてε_ｑｍｉｎとする。
【０１０２】
その後、第二段階複数候補者判定手段３０により、最小の絶対値平均ベクトル誤差ε_ｑｍｉｎが、ε_ｑｍｉｎの候補者（この候補者の話者番号をｙとする。）について予め設定された第二の閾値θｍｉｎ^ｙと第三の閾値θｍａｘ^ｙとの間の範囲に入るか否かを判断する（ステップＳ２９）。
【０１０３】
そして、最小の絶対値平均ベクトル誤差ε_ｑｍｉｎが、第二の閾値θｍｉｎ^ｙと第三の閾値θｍａｘ^ｙとの間の範囲に入ると判断された場合には、ε_ｑｍｉｎの候補者である話者性尤度Ｌ^ｙ（＝Ｌ_ｑ）の話者が、識別音声を入力した者と一致するとして受理し（ステップＳ３０）、最小の絶対値平均ベクトル誤差ε_ｑｍｉｎが、第二の閾値θｍｉｎ^ｙと第三の閾値θｍａｘ^ｙとの間の範囲に入らないと判断された場合には、ε_ｑｍｉｎの候補者である話者性尤度Ｌ^ｙ（＝Ｌ_ｑ）の話者は、識別音声を入力した者と一致しないとして棄却する（ステップＳ３１）。
【０１０４】
なお、以上の処理による話者識別の結果は、適宜、表示手段７０により画面表示したり、出力手段８０により印刷してもよく、あるいは各種システムの個人認証処理に利用してもよい。
【０１０５】
次に、第一閾値初期設定手段３１により、第一の閾値ηの初期設定を行う際の処理を詳述する。
【０１０６】
図３において、音声入力手段６０を用いて、第一閾値設定用テストデータとして、Ｎ人の登録話者本人のうちの任意の一人（話者番号Ｐの話者とする。）の音声データを取り込むとともに、取り込んだ音声データを、第一閾値設定用テストデータ記憶手段４９に記憶保存する（ステップＳ４１）。この際、取り込む音声データは、例えば５〜１０秒のデータである。
【０１０７】
続いて、第一閾値設定用テストデータを用いて、入力データ用特徴パラメータ作成手段２３により音響特徴量を抽出し、音声についての特徴パラメータＸ_ｋ（ｋ＝１，２，…，Ｍ）を作成する（ステップＳ４２）。特徴パラメータＸ_ｋは、１６次メルケプストラムである。
【０１０８】
さらに、得られた特徴パラメータＸ_ｋと、第一コードブック記憶手段４１に記憶された第一のコードブックＣ_ｉ ^ｎとを用いて、話者性尤度算出手段２６によりベクトル量子化（ＶＱ）を行い、Ｎ人の各登録話者についての話者性尤度Ｌ^ｎ（ｎ＝１，２，…，Ｎ）を算出する（ステップＳ４３）。そして、前記任意の一人（話者番号Ｐの話者）についての話者性尤度Ｌ^Ｐと、Ｎ人の各話者についての話者性尤度Ｌ^ｎのうち話者性尤度Ｌ^Ｐに最も近い値の話者性尤度との差を、第一の閾値ηとして決定し、第一閾値記憶手段４３に記憶保存して設定する（ステップＳ４４）。
【０１０９】
次に、第二・第三閾値初期設定手段３２により、第二の閾値θｍｉｎ^ｎおよび第三の閾値θｍａｘ^ｎの初期設定を行う際の処理を詳述する。
【０１１０】
図４において、音声入力手段６０を用いて、第二・第三閾値設定用テストデータとして、Ｎ人の登録話者本人から、それぞれ複数個（Ｈ個、例えばＨ＝１０個等）ずつの音声データを取り込むとともに、取り込んだ音声データを、第二・第三閾値設定用テストデータ記憶手段５０に記憶保存する（ステップＳ５１）。この際、取り込む音声データは、一人の話者につき例えば５〜１０秒のデータである。
【０１１１】
続いて、第二・第三閾値設定用テストデータを用いて、入力データ用特徴パラメータ作成手段２３により音響特徴量を抽出し、音声についての特徴パラメータＸ_ｋ（ｋ＝１，２，…，Ｍ）をＮ人の各話者毎に複数個（Ｈ個）ずつ作成する（ステップＳ５２）。特徴パラメータＸ_ｋは、１６次メルケプストラムである。
【０１１２】
さらに、得られた特徴パラメータＸ_ｋと、第一コードブック記憶手段４１に記憶された第一のコードブックＣ_ｉ ^ｎとを用いて、話者性尤度算出手段２６によりベクトル量子化（ＶＱ）を行い、Ｎ人の各登録話者（ｎ＝１，２，…，Ｎ）について複数個（Ｈ個）ずつの話者性尤度Ｌ^ｎ，ｈ（ｈ＝１，２，…，Ｈ）を算出する（ステップＳ５３）。
【０１１３】
それから、登録番号ｎの話者について、Ｈ個の話者性尤度Ｌ^ｎ，ｈ（ｈ＝１，２，…，Ｈ）のうちの最小値を、その話者についての第二の閾値θｍｉｎ^ｎとし、最大値を、その話者についての第三の閾値θｍａｘ^ｎとし、このようなθｍｉｎ^ｎおよびθｍａｘ^ｎの決定をＮ人の登録話者全員について行う（ステップＳ５４）。そして、決定したθｍｉｎ^ｎおよびθｍａｘ^ｎを、第二閾値記憶手段４４および第三閾値記憶手段４５にそれぞれ記憶保存して設定する。
【０１１４】
次に、第二・第三閾値自動更新手段３３により、第二の閾値θｍｉｎ^ｎおよび第三の閾値θｍａｘ^ｎの自動更新を行う際の処理を詳述する。
【０１１５】
図５において、前述した図２のステップＳ２６でＬ^ｘの話者（話者番号ｘの話者）が受理されるか、または図２のステップＳ３０でＬ^ｙの話者（話者番号ｙの話者）が受理された場合には、それらの受理された話者についてのサンプルデータ（例えば２０〜３０秒）を、サンプルデータ記憶手段４６から読み込むとともに（ステップＳ６１）、その識別処理時に入力された被識別音声の入力データ（例えば５〜１０秒）を、被識別音声入力データ記憶手段４８から読み込む（ステップＳ６２）。
【０１１６】
続いて、読み込んだサンプルデータと、被識別音声の入力データとを組み合わせて用いることにより、サンプルデータ用特徴パラメータ作成手段２１により音響特徴量を抽出し、音声についての特徴パラメータを作成する（ステップＳ６３）。特徴パラメータは、１６次メルケプストラムである。
【０１１７】
さらに、得られた特徴パラメータを用いて、第一コードブック作成手段２４によりクラスタリング処理を行い、受理された話者（話者番号ｘまたはｙの話者）についての第一のコードブックＣ_ｉ ^ｎ（ｎ＝ｘまたはｙ）を作成し直し（ステップＳ６４）、この作成し直した第一のコードブックＣ_ｉ ^ｎを、第一コードブック記憶手段４１に記憶保存してデータを更新する（ステップＳ６５）。
【０１１８】
その後、受理された話者について複数個（Ｈ個、例えばＨ＝１０個等）用意された第二・第三閾値設定用テストデータ（例えば５〜１０秒）を、第二・第三閾値設定用テストデータ記憶手段５０から読み込む（ステップＳ６６）。
【０１１９】
続いて、読み込んだ第二・第三閾値設定用テストデータと、被識別音声の入力データとを用いて、入力データ用特徴パラメータ作成手段２３により音響特徴量を抽出し、音声についての特徴パラメータＸ_ｋ（ｋ＝１，２，…，Ｍ）を、受理された話者について（Ｈ＋１）個作成する（ステップＳ６７）。特徴パラメータＸ_ｋは、１６次メルケプストラムである。例えば、受理された話者について、第二・第三閾値設定用テストデータが当初Ｈ＝１０個用意されている場合には、新たに取得された被識別音声の入力データを学習データとし、（Ｈ＋１）＝１１個作成する。
【０１２０】
さらに、得られた特徴パラメータＸ_ｋと、第一コードブック記憶手段４１に記憶された更新後の第一のコードブックＣ_ｉ ^ｎ（ｎ＝ｘまたはｙ）とを用いて、話者性尤度算出手段２６によりベクトル量子化（ＶＱ）を行い、受理された話者（話者番号ｘまたはｙの話者）について（Ｈ＋１）個の話者性尤度Ｌ^ｎ，ｈ（ｈ＝１，２，…，Ｈ，Ｈ＋１）を算出する（ステップＳ６８）。
【０１２１】
そして、受理された話者（話者番号ｎ＝ｘまたはｙの話者）について、（Ｈ＋１）個の話者性尤度Ｌ^ｎ，ｈ（ｈ＝１，２，…，Ｈ，Ｈ＋１）のうちの最小値を、その話者についての更新後の第二の閾値θｍｉｎ^ｎとし、最大値を、その話者についての更新後の第三の閾値θｍａｘ^ｎとし、これらの更新後のθｍｉｎ^ｎおよびθｍａｘ^ｎを第二閾値記憶手段４４および第三閾値記憶手段４５にそれぞれ記憶保存して更新設定を行う（ステップＳ６９）。
【０１２２】
このような本実施形態によれば、次のような効果がある。すなわち、話者識別を行うにあたって、判定を二つの段階で行うようにし、第一段階判定手段２８による判定（図２のステップＳ２４）の結果に応じて、第二段階の判定が簡易な処理になる場合（ステップＳ２５）と、それよりも複雑な処理になる場合（ステップＳ２８，Ｓ２９）とに分かれるようにしたので、全てについて一律な内容の判定処理を行う場合に比べ、話者識別に要する処理時間を短縮することができ、実時間応答性の向上を図ることができる。
【０１２３】
また、第一段階判定手段２８による判定処理において、最小の話者性尤度Ｌ^ｘに近い値の話者性尤度が少なくとも一つ存在すると判定された場合には、最小の話者性尤度Ｌ^ｘに近い値の話者性尤度の話者が、被識別音声を入力した者と一致する可能性もあるため、その場合には、絶対値平均ベクトル誤差ε_ｑ，ｖあるいはε_ｑ，ε_ｑｍｉｎを算出する処理（図２のステップＳ２８）を行ってから第二段階の判定処理（ステップＳ２９）を行うので、上述した如く実時間応答性の向上を図りつつ、同時に識別精度の向上を図ることができる。
【０１２４】
さらに、第一閾値初期設定手段３１が設けられ、図３で述べたように、この第一閾値初期設定手段３１により、第一閾値設定用テストデータの提供者自身の話者性尤度Ｌ^Ｐと、話者性尤度Ｌ^Ｐに最も近い値の話者性尤度との差が、第一の閾値ηとして設定されるので、第一段階の判定処理に用いる閾値として適切な値を設定することができる。
【０１２５】
そして、第二・第三閾値初期設定手段３２が設けられ、図４で述べたように、この第二・第三閾値初期設定手段３２により、第二・第三閾値設定用テストデータとしてＮ人の各話者本人からそれぞれ複数個（Ｈ個）ずつ取得した音声データを用いて第二の閾値θｍｉｎおよび第三の閾値θｍａｘが設定されるので、第二段階の判定処理に用いる閾値として適切な値を設定することができる。
【０１２６】
また、第二・第三閾値自動更新手段３３が設けられているので、システム１０に学習機能を付加することができ、体調や健康等の変化に起因して、登録されたＮ人の各話者の音声の特徴が変化したときには、それに追従させて第二の閾値θｍｉｎおよび第三の閾値θｍａｘの設定を徐々に変化させていくことができる。
【０１２７】
さらに、被識別音声の入力データ（例えば５〜１０秒）は、第一段階の判定処理用のサンプルデータ（例えば２０〜３０秒）よりも短時間のデータとされているため、話者識別に要する時間を短縮することができ、実時間応答性の向上を図ることができる。
【０１２８】
また、絶対値平均ベクトル誤差算出手段２７は、Ｎ人の各話者毎に複数（ｔ個）ずつ作成された第二のコードブックＣ_ｉ ^ｎ，ｖを用いて、各候補者毎に複数（ｔ個）ずつの絶対値平均ベクトル誤差ε_ｑ，ｖを算出し、これらの絶対値平均ベクトル誤差ε_ｑ，ｖの平均値ε_ｑを算出する処理を行うので、話者識別の精度を、より一層向上させることができる。
【０１２９】
そして、特徴パラメータとして、１６次メルケプストラムを用いているので、、処理時間短縮（計算量削減）と識別精度の確保との兼ね合い等を考慮したシステム１０を実現することができる。
【０１３０】
また、音声データからスペクトル（本実施形態では、一例として１６次メルケプストラム）をとる処理を行うので、発話内容に影響されることなく話者識別を行うことができる。
【０１３１】
さらに、第一の閾値η、第二の閾値θｍｉｎ、第三の閾値θｍａｘの各値を調整することにより、中国語や日本語等の言語の相違、携帯電話やおもちゃ等の用途の相違、録音環境や録音機器等の各種環境の差異に対応することができる。
【０１３２】
また、本発明の効果を確かめるために、次のようなシステムの評価実験を行った。実験データおよび音声分析条件は、次の通りである。
【０１３３】
［実験データ］
（１）登録話者の総数：１００人
（２）評価用テストデータ：１００話者×（３回／話者）
（３）年齢・性別：２０〜５０才・男女５０人ずつ
（４）録音環境：背景室における一般騒音下
（５）発話内容：学会発表における自由発話
（６）発話時間：サンプルデータが２０〜３０秒であり、評価用テストデータが５〜１０秒である。
【０１３４】
［音声分析条件］
（１）サンプリング周波数：１６ｋＨｚ
（２）分析窓：１０ｍｓ
（３）分析周期：２１．３ｍｓ
（４）音響特徴量：１６次メルケプストラム
【０１３５】
表１には、評価用テストデータを５〜１０秒としたときのシステム評価結果が、サンプルデータを１０〜１５秒とした場合と、サンプルデータを２０〜３０秒とした場合とに分けて示されている。
【０１３６】
【表１】

【０１３７】
表１によれば、評価用テストデータ（つまり、被識別音声の入力データ）を５〜１０秒とし、サンプルデータを２０〜３０秒とした場合には、システムの有効性が明確である。すなわち、登録話者の総数を１００人として実際に話者識別処理を行った評価実験において、絶対値平均ベクトル誤差の算出処理を行わない場合（全てのｍｉｎ_ｑについて、ｍｉｎ_ｑ＞ηと判断された場合）には、平均正解率は、９９．３３％となり、誤認識率および誤棄却率は、０．１％以下に抑えられていることが確認できる。また、絶対値平均ベクトル誤差の算出処理を行う場合（少なくとも一つのｍｉｎ_ｑについて、ｍｉｎ_ｑ≦ηと判断された場合）でも、平均正解率は、９８．７５％と高くなっており、以上より本発明の効果が顕著に示された。
【０１３８】
なお、本発明は前記実施形態に限定されるものではなく、本発明の目的を達成できる範囲内での変形等は本発明に含まれるものである。
【０１３９】
すなわち、前記実施形態では、第二・第三閾値自動更新手段３３が設けられ、第二の閾値θｍｉｎおよび第三の閾値θｍａｘの設定を徐々に変化させることができるようになっていたが、第二・第三閾値自動更新手段３３の設置を省略してもよい。しかし、前記実施形態のように第二・第三閾値自動更新手段３３を設けておくことが、システム１０に学習機能を付加することができるという点で好ましい。
【０１４０】
また、第二・第三閾値自動更新手段３３による第二の閾値θｍｉｎおよび第三の閾値θｍａｘの自動更新処理は、システム１０により話者識別を実行した結果、受理された場合に行われるようになっているので、各登録話者の音声の特徴が徐々に変化していった場合にのみ対応することができる。従って、ある登録話者の音声の特徴が、急激に大きく変化したような場合には、サンプルデータを取り直して対応することが好ましい。
【０１４１】
【発明の効果】
以上に述べたように本発明によれば、話者識別を行うにあたって、判定を二つの段階で行うようにし、第一段階の判定結果に応じて第二段階の判定が簡易な処理になる場合とそれよりも複雑な処理になる場合とに分かれるようにしたので、実時間応答性が良好で、かつ、高精度な話者識別を行うことができるという効果がある。
【図面の簡単な説明】
【図１】本発明の一実施形態の話者識別システムの全体構成図。
【図２】前記実施形態の話者識別システムにより、被識別音声が複数の話者の中の誰の音声であるかを判定する際の処理の流れの説明図。
【図３】前記実施形態において第一の閾値ηの初期設定を行う際の処理の流れの説明図。
【図４】前記実施形態において第二の閾値θｍｉｎおよび第三の閾値θｍａｘの初期設定を行う際の処理の流れの説明図。
【図５】前記実施形態において第二の閾値θｍｉｎおよび第三の閾値θｍａｘの更新を行う際の処理の流れの説明図。
【符号の説明】
１０　話者識別システム
２１　サンプルデータ用特徴パラメータ作成手段
２２　候補データ用特徴パラメータ作成手段
２３　入力データ用特徴パラメータ作成手段
２４　第一コードブック作成手段
２５　第二コードブック作成手段
２６　話者性尤度算出手段
２７　絶対値平均ベクトル誤差算出手段
２８　第一段階判定手段
２９　第二段階唯一候補者判定手段
３０　第二段階複数候補者判定手段
３３　第二・第三閾値自動更新手段
４１　第一コードブック記憶手段
４２　第二コードブック記憶手段
Ｘ_ｋ　特徴パラメータ
Ｃ_ｉ ^ｎ　第一のコードブック
Ｃ_ｉ ^ｎ，ｖ　第二のコードブック
Ｌ^ｎ，Ｌ^ｎ，ｈ　話者性尤度
Ｌ^ｘ　最小の話者性尤度
ｍｉｎ_ｑ　最小の話者性尤度とそれ以外の話者性尤度との差
η　第一の閾値
θｍｉｎ^ｎ　第二の閾値
θｍａｘ^ｎ　第三の閾値
ε_ｑ，ｖ，ε_ｑ　絶対値平均ベクトル誤差
ε_ｑｍｉｎ　　最小の絶対値平均ベクトル誤差

Claims

入力された被識別音声が、予め登録された複数の話者の中の誰の音声であるかを判定する話者識別方法であって、
第一段階の判定処理用のサンプルデータとして前記複数の各話者本人から取得した音声データを用いて音声の特徴パラメータを各話者毎に作成した後、これらの特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第一のコードブックを作成し、これらの第一のコードブックを第一コードブック記憶手段に記憶しておくとともに、
複数候補者に絞込後の第二段階の判定処理用の候補データとして前記サンプルデータとは異なる環境で前記複数の各話者本人から取得した音声データを用いて音声の特徴パラメータを各話者毎に作成した後、これらの特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第二のコードブックを作成し、これらの第二のコードブックを第二コードブック記憶手段に記憶しておき、
前記被識別音声が前記複数の話者の中の誰の音声であるかを判定する際には、前記被識別音声の入力データを用いて音声の特徴パラメータを作成した後、話者性尤度算出手段により、この特徴パラメータと前記第一コードブック記憶手段に記憶された前記第一のコードブックとを用いて前記複数の各話者についての話者性尤度を算出し、
第一段階判定手段により、これらの話者性尤度のうち最小の話者性尤度とそれ以外の話者性尤度との各差が、予め設定された第一の閾値ηよりも大きいか否かまたは前記第一の閾値η以上か否かを判定し、
前記各差の全てが前記第一の閾値ηよりも大きいかまたは前記第一の閾値η以上と判定された場合には、
前記最小の話者性尤度の話者を唯一の候補者とし、第二段階唯一候補者判定手段により、前記最小の話者性尤度が、予め各話者毎に設定された第二の閾値θｍｉｎと第三の閾値θｍａｘとの間の範囲に入るか否かを判定し、これらの閾値θｍｉｎ，θｍａｘの間の範囲に入ると判定したときには前記候補者を受理し、入らないと判定したときには棄却し、
一方、前記各差のうちの少なくとも一つの差が前記第一の閾値η以下または前記第一の閾値ηよりも小さいと判定された場合には、
以下または小さいと判定された差となっている話者性尤度の話者および前記最小の話者性尤度の話者を複数の候補者とし、絶対値平均ベクトル誤差算出手段により、前記特徴パラメータと前記第二コードブック記憶手段に記憶された前記第二のコードブックとを用いて前記複数の各候補者についての絶対値平均ベクトル誤差を算出した後、第二段階複数候補者判定手段により、これらの絶対値平均ベクトル誤差のうち最小の絶対値平均ベクトル誤差が、前記第二の閾値θｍｉｎと前記第三の閾値θｍａｘとの間の範囲に入るか否かを判定し、これらの閾値θｍｉｎ，θｍａｘの間の範囲に入ると判定したときには前記最小の絶対値平均ベクトル誤差の候補者を受理し、入らないと判定したときには棄却することを特徴とする話者識別方法。
請求項１に記載の話者識別方法において、
前記第一の閾値ηを設定する際には、
第一閾値設定用テストデータとして前記複数の各話者本人のうちの任意の一人から取得した音声データを用いて音声の特徴パラメータを作成した後、話者性尤度算出手段により、この特徴パラメータと前記第一コードブック記憶手段に記憶された前記第一のコードブックとを用いて前記複数の各話者についての話者性尤度を算出し、前記任意の一人についての話者性尤度とこの話者性尤度に最も近い値の話者性尤度との差を前記第一の閾値ηとすることを特徴とする話者識別方法。
請求項１または２に記載の話者識別方法において、
前記第二の閾値θｍｉｎおよび前記第三の閾値θｍａｘを設定する際には、
第二・第三閾値設定用テストデータとして前記複数の各話者本人からそれぞれ複数ずつ取得した音声データを用いて音声の特徴パラメータを各話者毎に複数ずつ作成した後、話者性尤度算出手段により、これらの特徴パラメータと前記第一コードブック記憶手段に記憶された前記第一のコードブックとを用いて前記複数の各話者についての話者性尤度を各話者毎に複数ずつ算出し、各話者毎に算出した複数の話者性尤度のうちの最小値を各話者についての前記第二の閾値θｍｉｎとし、各話者毎に算出した複数の話者性尤度のうちの最大値を各話者についての前記第三の閾値θｍａｘとすることを特徴とする話者識別方法。
請求項３に記載の話者識別方法において、
前記被識別音声が前記複数の話者の中の誰の音声であるかを判定する処理を行った結果、前記被識別音声を入力した者が前記複数の話者の中のいずれかの者であるとして受理された場合には、
前記被識別音声の入力データと前記サンプルデータとを組み合わせることにより、前記複数の話者のうち前記被識別音声を入力した者と一致すると判定された話者についての前記第一のコードブックを作成し直し、
この作成し直した第一のコードブックと、前記複数の話者のうち前記被識別音声を入力した者と一致すると判定された話者についての複数の前記第二・第三閾値設定用テストデータと、前記被識別音声の入力データとを用いて、前記複数の話者のうち前記被識別音声を入力した者と一致すると判定された話者についての前記第二の閾値θｍｉｎおよび前記第三の閾値θｍａｘの更新設定を行うことを特徴とする話者識別方法。
請求項１〜４のいずれかに記載の話者識別方法において、
前記被識別音声の入力データは、前記第一段階の判定処理用のサンプルデータよりも短時間のデータであることを特徴とする話者識別方法。
請求項５に記載の話者識別方法において、
前記被識別音声の入力データは、５〜１０秒間のデータであり、前記第一段階の判定処理用のサンプルデータは、２０〜３０秒間のデータであることを特徴とする話者識別方法。
請求項１〜６のいずれかに記載の話者識別方法において、
前記第二のコードブックは、各話者毎に複数ずつ作成しておき、
前記第二のコードブックを用いて前記複数の各候補者についての絶対値平均ベクトル誤差を算出する際には、前記各候補者毎に絶対値平均ベクトル誤差を複数ずつ算出し、これらの絶対値平均ベクトル誤差の平均値を算出することを特徴とする話者識別方法。
請求項１〜７のいずれかに記載の話者識別方法において、前記特徴パラメータは、メルケプストラムであることを特徴とする話者識別方法。
入力された被識別音声が、予め登録された複数の話者の中の誰の音声であるかを判定する話者識別システムであって、
第一段階の判定処理用のサンプルデータとして前記複数の各話者本人から取得した音声データを用いて音声の特徴パラメータを各話者毎に作成するサンプルデータ用特徴パラメータ作成手段と、
このサンプルデータ用特徴パラメータ作成手段により作成された前記特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第一のコードブックを作成する第一コードブック作成手段と、
この第一コードブック作成手段により各話者毎に作成された前記第一のコードブックを記憶する第一コードブック記憶手段と、
複数候補者に絞込後の第二段階の判定処理用の候補データとして前記サンプルデータとは異なる環境で前記複数の各話者本人から取得した音声データを用いて音声の特徴パラメータを各話者毎に作成する候補データ用特徴パラメータ作成手段と、
この候補データ用特徴パラメータ作成手段により作成された前記特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第二のコードブックを作成する第二コードブック作成手段と、
この第二コードブック作成手段により各話者毎に作成された前記第二のコードブックを記憶する第二コードブック記憶手段と、
前記被識別音声が前記複数の話者の中の誰の音声であるかを判定する際に前記被識別音声の入力データを用いて音声の特徴パラメータを作成する入力データ用特徴パラメータ作成手段と、
この入力データ用特徴パラメータ作成手段により作成された前記特徴パラメータと前記第一コードブック記憶手段に記憶された前記第一のコードブックとを用いて前記複数の各話者についての話者性尤度を算出する話者性尤度算出手段と、この話者性尤度算出手段により算出された話者性尤度のうち最小の話者性尤度とそれ以外の話者性尤度との各差が、予め設定された第一の閾値ηよりも大きいか否かまたは前記第一の閾値η以上か否かを判定する第一段階判定手段と、
この第一段階判定手段により前記各差の全てが前記第一の閾値ηよりも大きいかまたは前記第一の閾値η以上と判定された場合に、前記最小の話者性尤度の話者を唯一の候補者とし、前記最小の話者性尤度が、予め各話者毎に設定された第二の閾値θｍｉｎと第三の閾値θｍａｘとの間の範囲に入るか否かを判定し、これらの閾値θｍｉｎ，θｍａｘの間の範囲に入ると判定したときには前記候補者を受理し、入らないと判定したときには棄却する第二段階唯一候補者判定手段と、
前記第一段階判定手段により前記各差のうちの少なくとも一つの差が前記第一の閾値η以下または前記第一の閾値ηよりも小さいと判定された場合に、以下または小さいと判定された差となっている話者性尤度の話者および前記最小の話者性尤度の話者を複数の候補者とし、前記入力データ用特徴パラメータ作成手段により作成された前記特徴パラメータと前記第二コードブック記憶手段に記憶された前記第二のコードブックとを用いて前記複数の各候補者についての絶対値平均ベクトル誤差を算出する絶対値平均ベクトル誤差算出手段と、
この絶対値平均ベクトル誤差算出手段により算出された絶対値平均ベクトル誤差のうち最小の絶対値平均ベクトル誤差が、前記第二の閾値θｍｉｎと前記第三の閾値θｍａｘとの間の範囲に入るか否かを判定し、これらの閾値θｍｉｎ，θｍａｘの間の範囲に入ると判定したときには前記最小の絶対値平均ベクトル誤差の候補者を受理し、入らないと判定したときには棄却する第二段階複数候補者判定手段と
を備えたことを特徴とする話者識別システム。
請求項９に記載の話者識別システムにおいて、
前記第二の閾値θｍｉｎおよび前記第三の閾値θｍａｘの更新設定を自動的に行う第二・第三閾値自動更新手段を備え、
この第二・第三閾値自動更新手段は、前記被識別音声が前記複数の話者の中の誰の音声であるかを判定する処理を行った結果、前記被識別音声を入力した者が前記複数の話者の中のいずれかの者であるとして受理された場合に、前記被識別音声の入力データと前記サンプルデータとを組み合わせることにより、前記複数の話者のうち前記被識別音声を入力した者と一致すると判定された話者についての前記第一のコードブックを作成し直し、この作成し直した第一のコードブックと、前記複数の話者のうち前記被識別音声を入力した者と一致すると判定された話者についての複数の第二・第三閾値設定用テストデータと、前記被識別音声の入力データとを用いて、前記複数の話者のうち前記被識別音声を入力した者と一致すると判定された話者についての前記第二の閾値θｍｉｎおよび前記第三の閾値θｍａｘの更新設定を行う構成とされている
ことを特徴とする話者識別システム。
入力された被識別音声が、予め登録された複数の話者の中の誰の音声であるかを判定する話者識別システムとして、コンピュータを機能させるためのプログラムであって、
第一段階の判定処理用のサンプルデータとして前記複数の各話者本人から取得した音声データを用いて音声の特徴パラメータを各話者毎に作成するサンプルデータ用特徴パラメータ作成手段と、
このサンプルデータ用特徴パラメータ作成手段により作成された前記特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第一のコードブックを作成する第一コードブック作成手段と、
この第一コードブック作成手段により各話者毎に作成された前記第一のコードブックを記憶する第一コードブック記憶手段と、
複数候補者に絞込後の第二段階の判定処理用の候補データとして前記サンプルデータとは異なる環境で前記複数の各話者本人から取得した音声データを用いて音声の特徴パラメータを各話者毎に作成する候補データ用特徴パラメータ作成手段と、
この候補データ用特徴パラメータ作成手段により作成された前記特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第二のコードブックを作成する第二コードブック作成手段と、
この第二コードブック作成手段により各話者毎に作成された前記第二のコードブックを記憶する第二コードブック記憶手段と、
前記被識別音声が前記複数の話者の中の誰の音声であるかを判定する際に前記被識別音声の入力データを用いて音声の特徴パラメータを作成する入力データ用特徴パラメータ作成手段と、
この入力データ用特徴パラメータ作成手段により作成された前記特徴パラメータと前記第一コードブック記憶手段に記憶された前記第一のコードブックとを用いて前記複数の各話者についての話者性尤度を算出する話者性尤度算出手段と、この話者性尤度算出手段により算出された話者性尤度のうち最小の話者性尤度とそれ以外の話者性尤度との各差が、予め設定された第一の閾値ηよりも大きいか否かまたは前記第一の閾値η以上か否かを判定する第一段階判定手段と、
この第一段階判定手段により前記各差の全てが前記第一の閾値ηよりも大きいかまたは前記第一の閾値η以上と判定された場合に、前記最小の話者性尤度の話者を唯一の候補者とし、前記最小の話者性尤度が、予め各話者毎に設定された第二の閾値θｍｉｎと第三の閾値θｍａｘとの間の範囲に入るか否かを判定し、これらの閾値θｍｉｎ，θｍａｘの間の範囲に入ると判定したときには前記候補者を受理し、入らないと判定したときには棄却する第二段階唯一候補者判定手段と、
前記第一段階判定手段により前記各差のうちの少なくとも一つの差が前記第一の閾値η以下または前記第一の閾値ηよりも小さいと判定された場合に、以下または小さいと判定された差となっている話者性尤度の話者および前記最小の話者性尤度の話者を複数の候補者とし、前記入力データ用特徴パラメータ作成手段により作成された前記特徴パラメータと前記第二コードブック記憶手段に記憶された前記第二のコードブックとを用いて前記複数の各候補者についての絶対値平均ベクトル誤差を算出する絶対値平均ベクトル誤差算出手段と、
この絶対値平均ベクトル誤差算出手段により算出された絶対値平均ベクトル誤差のうち最小の絶対値平均ベクトル誤差が、前記第二の閾値θｍｉｎと前記第三の閾値θｍａｘとの間の範囲に入るか否かを判定し、これらの閾値θｍｉｎ，θｍａｘの間の範囲に入ると判定したときには前記最小の絶対値平均ベクトル誤差の候補者を受理し、入らないと判定したときには棄却する第二段階複数候補者判定手段と
を備えたことを特徴とする話者識別システムとして、コンピュータを機能させるためのプログラム。