JP2004053821A - 話者識別方法およびそのシステム、並びにプログラム - Google Patents

話者識別方法およびそのシステム、並びにプログラム Download PDF

Info

Publication number
JP2004053821A
JP2004053821A JP2002209662A JP2002209662A JP2004053821A JP 2004053821 A JP2004053821 A JP 2004053821A JP 2002209662 A JP2002209662 A JP 2002209662A JP 2002209662 A JP2002209662 A JP 2002209662A JP 2004053821 A JP2004053821 A JP 2004053821A
Authority
JP
Japan
Prior art keywords
speaker
codebook
threshold
likelihood
speakers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002209662A
Other languages
English (en)
Other versions
JP4098015B2 (ja
Inventor
Katsuhiko Shirai
白井 克彦
Idomuso Dawa
達瓦 伊徳木草
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LIVECOM CORP
Waseda University
Original Assignee
LIVECOM CORP
Waseda University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LIVECOM CORP, Waseda University filed Critical LIVECOM CORP
Priority to JP2002209662A priority Critical patent/JP4098015B2/ja
Publication of JP2004053821A publication Critical patent/JP2004053821A/ja
Application granted granted Critical
Publication of JP4098015B2 publication Critical patent/JP4098015B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】実時間応答性が良好で、かつ、高精度な話者識別を行うことができる話者識別方法およびそのシステム、並びにプログラムを提供すること。
【解決手段】被識別音声から作成された特徴パラメータXと第一のコードブックとを用いて各登録話者についての話者性尤度Lを算出し、第一段階の判定で、最小の話者性尤度Lとその他の話者性尤度との各差minが第一の閾値ηよりも大きいと判断した場合には、第二段階の判定で、Lが第二の閾値θminと第三の閾値θmaxとの間に入るか否かを判断して受理・棄却を行い、一方、η以下のminが存在すると判断した場合には、Xと第二のコードブックとを用いて算出した絶対値平均ベクトル誤差εに基づき第二段階の判定を行う。
【選択図】 図2

Description

【0001】
【発明の属する技術分野】
本発明は、入力された被識別音声が、予め登録された複数の話者の中の誰の音声であるかを判定する話者識別方法およびそのシステム、並びにプログラムに係り、例えば、複数の話者による連続音声(例えば放送局の長時間のデータ等)の中から特定の話者(例えばアナウンサー等)の音声を検索したり、あるいは連続音声を各話者の音声に分類する場合、空港や港等で出入国管理を行う場合、警察や自衛隊等で犯罪者や要注意人物等の管理(登録、検索、捜査等)を行う場合、役所で住民管理を行う場合、商店等で顧客管理を行う場合、会社で社員管理(出社や退社の把握等)を行う場合、インターネットを利用した情報資源へのアクセスに対するセキュリティ管理を行う場合、言語や方言の自動分類を行う場合、ロボット通信(ロボットによる対話相手の把握等)に応用する場合、おもちゃによる対話相手の把握および応答の選択に応用する場合、音声により各種の警備、防犯、監督を行う場合などに利用できる。
【0002】
【背景技術】
一般に、話者認識には、入力音声が予め登録されている音声の中の誰の音声であるかを判定する話者識別ASI(Automatic Speaker Identification)と、入力音声が本人の音声であるか否かを判定する話者照合ASV(Automatic Speaker Verification)とがある。
【0003】
話者照合ASVの場合には、単にある人の身分だけを判定するという目的で、予め登録されている本人のサンプルデータと被識別者の入力データとのマッチングをとり、システムは単に「Yes」あるいは「No」の答えを出力するだけである。従って、これまでに数多くの研究や応用システムが報告されている。
【0004】
一方、話者識別ASIの場合には、システムによる識別対象となる発話者が、予め登録されたN人の話者の中の誰であるかを、N回の比較処理を行いながら判断し、さらに識別対象となる発話者が、予め登録されたN人の話者以外の者であれば、最終的には棄却の判断を行わなければならないので、話者照合ASVの場合に比べ、システム処理に煩雑性・困難性を伴う。従って、これまでの研究では、効率的に発話者を推定できるような特徴パラメータは発見されておらず、研究報告は、あまりにも基礎理論的な研究に集中しているといえる。
【0005】
【発明が解決しようとする課題】
ところで、実時間応答性が良く、かつ、高精度な話者認識システムを実現するにあたっては、発話内容、発話時期および発声時間の相違による音響特徴量の変動、実時間応答性の向上を図ることと識別精度の向上を図ることとの矛盾等の問題を解決しなければならない。このことは、話者照合ASVおよび話者識別ASIのいずれの場合にもいえることであるが、話者識別ASIの場合には、前述したように話者照合ASVの場合に比べてシステム処理に煩雑性・困難性を伴うので、解決すべき問題が、より一層大きくなることから、システム開発は遅れているのが現状である。
【0006】
本発明の目的は、実時間応答性が良好で、かつ、高精度な話者識別を行うことができる話者識別方法およびそのシステム、並びにプログラムを提供するところにある。
【0007】
【課題を解決するための手段】
本発明は、入力された被識別音声が、予め登録された複数の話者の中の誰の音声であるかを判定する話者識別方法であって、第一段階の判定処理用のサンプルデータとして複数の各話者本人から取得した音声データを用いて音声の特徴パラメータを各話者毎に作成した後、これらの特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第一のコードブックを作成し、これらの第一のコードブックを第一コードブック記憶手段に記憶しておくとともに、複数候補者に絞込後の第二段階の判定処理用の候補データとしてサンプルデータとは異なる環境で複数の各話者本人から取得した音声データを用いて音声の特徴パラメータを各話者毎に作成した後、これらの特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第二のコードブックを作成し、これらの第二のコードブックを第二コードブック記憶手段に記憶しておき、被識別音声が複数の話者の中の誰の音声であるかを判定する際には、被識別音声の入力データを用いて音声の特徴パラメータを作成した後、話者性尤度算出手段により、この特徴パラメータと第一コードブック記憶手段に記憶された第一のコードブックとを用いて複数の各話者についての話者性尤度を算出し、第一段階判定手段により、これらの話者性尤度のうち最小の話者性尤度とそれ以外の話者性尤度との各差が、予め設定された第一の閾値ηよりも大きいか否かまたは第一の閾値η以上か否かを判定し、各差の全てが第一の閾値ηよりも大きいかまたは第一の閾値η以上と判定された場合には、最小の話者性尤度の話者を唯一の候補者とし、第二段階唯一候補者判定手段により、最小の話者性尤度が、予め各話者毎に設定された第二の閾値θminと第三の閾値θmaxとの間の範囲に入るか否かを判定し、これらの閾値θmin,θmaxの間の範囲に入ると判定したときには候補者を受理し、入らないと判定したときには棄却し、一方、各差のうちの少なくとも一つの差が第一の閾値η以下または第一の閾値ηよりも小さいと判定された場合には、以下または小さいと判定された差となっている話者性尤度の話者および最小の話者性尤度の話者を複数の候補者とし、絶対値平均ベクトル誤差算出手段により、特徴パラメータと第二コードブック記憶手段に記憶された第二のコードブックとを用いて複数の各候補者についての絶対値平均ベクトル誤差を算出した後、第二段階複数候補者判定手段により、これらの絶対値平均ベクトル誤差のうち最小の絶対値平均ベクトル誤差が、第二の閾値θminと第三の閾値θmaxとの間の範囲に入るか否かを判定し、これらの閾値θmin,θmaxの間の範囲に入ると判定したときには最小の絶対値平均ベクトル誤差の候補者を受理し、入らないと判定したときには棄却することを特徴とするものである。
【0008】
ここで、「各差の全てが第一の閾値ηよりも大きいかまたは第一の閾値η以上と判定された場合」とは、最小の話者性尤度に対し、それ以外の全ての話者性尤度が、第一の閾値ηよりも大きな値だけ離れているか、あるいは第一の閾値η以上離れていると判定された場合であり、要するに、最小の話者性尤度が、その他の話者性尤度に比べて突出して小さな値であると判定された場合である。
【0009】
一方、「各差のうちの少なくとも一つの差が第一の閾値η以下または第一の閾値ηよりも小さいと判定された場合」とは、最小の話者性尤度以外の話者性尤度の中に、最小の話者性尤度との差が、第一の閾値η以下または第一の閾値ηよりも小さいものが存在すると判定された場合であり、要するに、最小の話者性尤度に近い値の話者性尤度が少なくとも一つ存在すると判定された場合である。
【0010】
このような本発明の話者識別方法においては、先ず、話者性尤度を算出して第一の閾値ηを用いて第一段階の判定を行い、次に、その判定結果に応じ、第二段階の判定の処理内容を変える。すなわち、第一段階の判定において、最小の話者性尤度が、その他の話者性尤度に比べて突出して小さな値であると判定された場合には、最小の話者性尤度の話者をそのまま唯一の候補者とし、その最小の話者性尤度が第二の閾値θminと第三の閾値θmaxとの間の範囲に入るか否かの第二段階の判定処理を行う。一方、第一段階の判定において、最小の話者性尤度に近い値の話者性尤度が少なくとも一つ存在すると判定された場合には、最小の話者性尤度の話者だけではなく、最小の話者性尤度に近い値の話者性尤度の話者も含めて複数の候補者とし、絶対値平均ベクトル誤差を算出して第二の閾値θminおよび第三の閾値θmaxを用いて第二段階の判定処理を行う。
【0011】
このため、話者識別を行うにあたって、判定を二つの段階で行うようにし、第一段階の判定結果に応じて第二段階の判定が簡易な処理になる場合とそれよりも複雑な処理になる場合とに分かれるようにしたので、全てについて一律な内容の判定処理を行う場合に比べ、話者識別に要する処理時間を短縮することが可能となり、実時間応答性の向上が図られる。
【0012】
また、第一段階の判定処理において、最小の話者性尤度に近い値の話者性尤度が少なくとも一つ存在すると判定された場合には、最小の話者性尤度に近い値の話者性尤度の話者が、被識別音声を入力した者と一致する可能性もあるため、その場合には、絶対値平均ベクトル誤差を算出する処理を行ってから第二段階の判定を行うので、上述した如く実時間応答性の向上を図りつつ、同時に識別精度の向上を図ることが可能となり、これらにより前記目的が達成される。
【0013】
また、前述した話者識別方法において、第一の閾値ηを設定する際には、第一閾値設定用テストデータとして複数の各話者本人のうちの任意の一人から取得した音声データを用いて音声の特徴パラメータを作成した後、話者性尤度算出手段により、この特徴パラメータと第一コードブック記憶手段に記憶された第一のコードブックとを用いて複数の各話者についての話者性尤度を算出し、前記任意の一人についての話者性尤度とこの話者性尤度に最も近い値の話者性尤度との差を第一の閾値ηとすることが望ましい。
【0014】
このようにして第一の閾値ηを設定するようにした場合には、第一閾値設定用テストデータとしての音声データを提供した任意の一人の話者と、この話者に最も似た音声特徴を有する話者とについての話者性尤度の差に基づき、第一の閾値ηが設定されるので、第一段階の判定処理に用いる閾値として適切な値を設定することが可能となる。
【0015】
さらに、前述した話者識別方法において、第二の閾値θminおよび第三の閾値θmaxを設定する際には、第二・第三閾値設定用テストデータとして複数の各話者本人からそれぞれ複数ずつ取得した音声データを用いて音声の特徴パラメータを各話者毎に複数ずつ作成した後、話者性尤度算出手段により、これらの特徴パラメータと第一コードブック記憶手段に記憶された第一のコードブックとを用いて複数の各話者についての話者性尤度を各話者毎に複数ずつ算出し、各話者毎に算出した複数の話者性尤度のうちの最小値を各話者についての第二の閾値θminとし、各話者毎に算出した複数の話者性尤度のうちの最大値を各話者についての第三の閾値θmaxとすることが望ましい。
【0016】
このようにして第二の閾値θminおよび第三の閾値θmaxを設定するようにした場合には、第二段階の判定処理に用いる閾値として適切な値を設定することが可能となる。
【0017】
そして、上記のようにして第二の閾値θminおよび第三の閾値θmaxを設定するようにした場合において、被識別音声が複数の話者の中の誰の音声であるかを判定する処理を行った結果、被識別音声を入力した者が複数の話者の中のいずれかの者であるとして受理された場合には、被識別音声の入力データとサンプルデータとを組み合わせることにより、複数の話者のうち被識別音声を入力した者と一致すると判定された話者についての第一のコードブックを作成し直し、この作成し直した第一のコードブックと、複数の話者のうち被識別音声を入力した者と一致すると判定された話者についての複数の第二・第三閾値設定用テストデータと、被識別音声の入力データとを用いて、複数の話者のうち被識別音声を入力した者と一致すると判定された話者についての第二の閾値θminおよび第三の閾値θmaxの更新設定を行うことが望ましい。
【0018】
このように本人の音声であるとして受理された被識別音声の入力データを用いて、第二の閾値θminおよび前記第三の閾値θmaxの更新設定を行うようにした場合には、体調や健康等の変化に起因して、登録された複数の各話者の音声の特徴が変化したときには、それに追従させて第二の閾値θminおよび第三の閾値θmaxの設定を徐々に変化させていくことが可能となる。
【0019】
そして、以上に述べた話者識別方法において、被識別音声の入力データは、第一段階の判定処理用のサンプルデータよりも短時間のデータであることが望ましい。
【0020】
例えば、被識別音声の入力データを、5〜10秒間のデータとし、第一段階の判定処理用のサンプルデータを、20〜30秒間のデータとすることが望ましい。
【0021】
このように被識別音声の入力データを短くした場合には、話者識別に要する時間を短縮することが可能となり、実時間応答性の向上が図られる。
【0022】
また、以上に述べた話者識別方法において、第二のコードブックは、各話者毎に複数ずつ作成しておき、第二のコードブックを用いて複数の各候補者についての絶対値平均ベクトル誤差を算出する際には、各候補者毎に絶対値平均ベクトル誤差を複数ずつ算出し、これらの絶対値平均ベクトル誤差の平均値を算出することが望ましい。
【0023】
このように各話者毎に第二のコードブックを複数ずつ用意し、各候補者毎に絶対値平均ベクトル誤差の平均値を算出するようにした場合には、話者識別の精度を、より一層向上させることが可能となる。
【0024】
さらに、以上に述べた話者識別方法において、特徴パラメータとしては、メルケプストラム等を好適に用いることができる。そして、メルケプストラムとする場合には、処理時間短縮(計算量削減)と識別精度の確保との兼ね合い等から、16次メルケプストラムとすることが好適であるが、これに限定されるものではない。
【0025】
また、以上に述べた本発明の話者識別方法を実現するシステムとして、次のような本発明の話者識別システムを挙げることができる。
【0026】
すなわち、本発明は、入力された被識別音声が、予め登録された複数の話者の中の誰の音声であるかを判定する話者識別システムであって、第一段階の判定処理用のサンプルデータとして複数の各話者本人から取得した音声データを用いて音声の特徴パラメータを各話者毎に作成するサンプルデータ用特徴パラメータ作成手段と、このサンプルデータ用特徴パラメータ作成手段により作成された特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第一のコードブックを作成する第一コードブック作成手段と、この第一コードブック作成手段により各話者毎に作成された第一のコードブックを記憶する第一コードブック記憶手段と、複数候補者に絞込後の第二段階の判定処理用の候補データとしてサンプルデータとは異なる環境で複数の各話者本人から取得した音声データを用いて音声の特徴パラメータを各話者毎に作成する候補データ用特徴パラメータ作成手段と、この候補データ用特徴パラメータ作成手段により作成された特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第二のコードブックを作成する第二コードブック作成手段と、この第二コードブック作成手段により各話者毎に作成された第二のコードブックを記憶する第二コードブック記憶手段と、被識別音声が複数の話者の中の誰の音声であるかを判定する際に被識別音声の入力データを用いて音声の特徴パラメータを作成する入力データ用特徴パラメータ作成手段と、この入力データ用特徴パラメータ作成手段により作成された特徴パラメータと第一コードブック記憶手段に記憶された第一のコードブックとを用いて複数の各話者についての話者性尤度を算出する話者性尤度算出手段と、この話者性尤度算出手段により算出された話者性尤度のうち最小の話者性尤度とそれ以外の話者性尤度との各差が、予め設定された第一の閾値ηよりも大きいか否かまたは第一の閾値η以上か否かを判定する第一段階判定手段と、この第一段階判定手段により各差の全てが第一の閾値ηよりも大きいかまたは第一の閾値η以上と判定された場合に、最小の話者性尤度の話者を唯一の候補者とし、最小の話者性尤度が、予め各話者毎に設定された第二の閾値θminと第三の閾値θmaxとの間の範囲に入るか否かを判定し、これらの閾値θmin,θmaxの間の範囲に入ると判定したときには候補者を受理し、入らないと判定したときには棄却する第二段階唯一候補者判定手段と、第一段階判定手段により各差のうちの少なくとも一つの差が第一の閾値η以下または第一の閾値ηよりも小さいと判定された場合に、以下または小さいと判定された差となっている話者性尤度の話者および最小の話者性尤度の話者を複数の候補者とし、入力データ用特徴パラメータ作成手段により作成された特徴パラメータと第二コードブック記憶手段に記憶された第二のコードブックとを用いて複数の各候補者についての絶対値平均ベクトル誤差を算出する絶対値平均ベクトル誤差算出手段と、この絶対値平均ベクトル誤差算出手段により算出された絶対値平均ベクトル誤差のうち最小の絶対値平均ベクトル誤差が、第二の閾値θminと第三の閾値θmaxとの間の範囲に入るか否かを判定し、これらの閾値θmin,θmaxの間の範囲に入ると判定したときには最小の絶対値平均ベクトル誤差の候補者を受理し、入らないと判定したときには棄却する第二段階複数候補者判定手段とを備えたことを特徴とするものである。
【0027】
このような本発明の話者識別システムにおいては、前述した本発明の話者識別方法で得られる作用・効果をそのまま得ることができ、これにより前記目的が達成される。
【0028】
また、前述した話者識別システムにおいて、第二の閾値θminおよび第三の閾値θmaxの更新設定を自動的に行う第二・第三閾値自動更新手段を備え、この第二・第三閾値自動更新手段は、被識別音声が複数の話者の中の誰の音声であるかを判定する処理を行った結果、被識別音声を入力した者が複数の話者の中のいずれかの者であるとして受理された場合に、被識別音声の入力データとサンプルデータとを組み合わせることにより、複数の話者のうち被識別音声を入力した者と一致すると判定された話者についての第一のコードブックを作成し直し、この作成し直した第一のコードブックと、複数の話者のうち被識別音声を入力した者と一致すると判定された話者についての複数の第二・第三閾値設定用テストデータと、被識別音声の入力データとを用いて、複数の話者のうち被識別音声を入力した者と一致すると判定された話者についての第二の閾値θminおよび第三の閾値θmaxの更新設定を行う構成とされていることが望ましい。
【0029】
このような第二・第三閾値自動更新手段を設けた場合には、体調や健康等の変化に起因して、登録された複数の各話者の音声の特徴が変化したときには、それに追従させて第二の閾値θminおよび第三の閾値θmaxの設定を徐々に自動的に変化させていくことが可能となる。
【0030】
さらに、本発明は、入力された被識別音声が、予め登録された複数の話者の中の誰の音声であるかを判定する話者識別システムとして、コンピュータを機能させるためのプログラムであって、第一段階の判定処理用のサンプルデータとして複数の各話者本人から取得した音声データを用いて音声の特徴パラメータを各話者毎に作成するサンプルデータ用特徴パラメータ作成手段と、このサンプルデータ用特徴パラメータ作成手段により作成された特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第一のコードブックを作成する第一コードブック作成手段と、この第一コードブック作成手段により各話者毎に作成された第一のコードブックを記憶する第一コードブック記憶手段と、複数候補者に絞込後の第二段階の判定処理用の候補データとしてサンプルデータとは異なる環境で複数の各話者本人から取得した音声データを用いて音声の特徴パラメータを各話者毎に作成する候補データ用特徴パラメータ作成手段と、この候補データ用特徴パラメータ作成手段により作成された特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第二のコードブックを作成する第二コードブック作成手段と、この第二コードブック作成手段により各話者毎に作成された第二のコードブックを記憶する第二コードブック記憶手段と、被識別音声が複数の話者の中の誰の音声であるかを判定する際に被識別音声の入力データを用いて音声の特徴パラメータを作成する入力データ用特徴パラメータ作成手段と、この入力データ用特徴パラメータ作成手段により作成された特徴パラメータと第一コードブック記憶手段に記憶された第一のコードブックとを用いて複数の各話者についての話者性尤度を算出する話者性尤度算出手段と、この話者性尤度算出手段により算出された話者性尤度のうち最小の話者性尤度とそれ以外の話者性尤度との各差が、予め設定された第一の閾値ηよりも大きいか否かまたは第一の閾値η以上か否かを判定する第一段階判定手段と、この第一段階判定手段により各差の全てが第一の閾値ηよりも大きいかまたは第一の閾値η以上と判定された場合に、最小の話者性尤度の話者を唯一の候補者とし、最小の話者性尤度が、予め各話者毎に設定された第二の閾値θminと第三の閾値θmaxとの間の範囲に入るか否かを判定し、これらの閾値θmin,θmaxの間の範囲に入ると判定したときには候補者を受理し、入らないと判定したときには棄却する第二段階唯一候補者判定手段と、第一段階判定手段により各差のうちの少なくとも一つの差が第一の閾値η以下または第一の閾値ηよりも小さいと判定された場合に、以下または小さいと判定された差となっている話者性尤度の話者および最小の話者性尤度の話者を複数の候補者とし、入力データ用特徴パラメータ作成手段により作成された特徴パラメータと第二コードブック記憶手段に記憶された第二のコードブックとを用いて複数の各候補者についての絶対値平均ベクトル誤差を算出する絶対値平均ベクトル誤差算出手段と、この絶対値平均ベクトル誤差算出手段により算出された絶対値平均ベクトル誤差のうち最小の絶対値平均ベクトル誤差が、第二の閾値θminと第三の閾値θmaxとの間の範囲に入るか否かを判定し、これらの閾値θmin,θmaxの間の範囲に入ると判定したときには最小の絶対値平均ベクトル誤差の候補者を受理し、入らないと判定したときには棄却する第二段階複数候補者判定手段とを備えたことを特徴とする話者識別システムとして、コンピュータを機能させるためのものである。
【0031】
なお、以上に述べたプログラムまたはその一部は、例えば、光磁気ディスク(MO)、コンパクトディスク(CD)を利用した読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)、デジタル・バーサタイル・ディスク(DVD)を利用した読出し専用メモリ(DVD−ROM)、DVDを利用したランダム・アクセス・メモリ(DVD−RAM)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去および書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等の記録媒体に記録して保存や流通等させることが可能であるとともに、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等の有線ネットワーク、あるいは無線通信ネットワーク、さらにはこれらの組合せ等の伝送媒体を用いて伝送することが可能であり、また、搬送波に載せて搬送することも可能である。さらに、以上に述べたプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。
【0032】
【発明の実施の形態】
以下に本発明の一実施形態を図面に基づいて説明する。図1には、本実施形態の話者識別システム10の全体構成が示されている。図2には、話者識別システム10により、被識別音声が複数の話者の中の誰の音声であるかを判定する際の処理の流れの説明図が示されている。また、図3には、第一の閾値ηの初期設定を行う際の処理の流れの説明図が示され、図4には、第二の閾値θminおよび第三の閾値θmaxの初期設定を行う際の処理の流れの説明図が示されている。さらに、図5には、第二の閾値θminおよび第三の閾値θmaxの更新を行う際の処理の流れの説明図が示されている。
【0033】
図1において、話者識別システム10は、入力された被識別音声(識別対象となる音声)が、予め登録された複数の話者の中の誰の音声であるかを判定するシステムであり、話者識別に関する各種処理を行う処理手段20と、話者識別に必要な各種データを記憶する記憶手段40と、話者の音声を入力する音声入力手段60と、話者識別の結果を表示する表示手段70と、話者識別の結果を出力する出力手段80とを備えて構成されている。登録される話者の総数Nは、例えば、N=100人等であり、各話者には、話者番号n(n=1,2,3,…,N)を付すものとする。
【0034】
また、音声入力手段60と処理手段20との間、あるいは表示手段70や出力手段80と処理手段20との間には、ネットワークが介在していてもよい。すなわち、音声入力手段60は、遠隔地にいる話者の音声を入力するものであってもよく、表示手段70や出力手段80は、遠隔地にいる閲覧者や利用者に識別結果を提供するものであってもよい。
【0035】
ここで、ネットワークには、例えば、LAN、MAN、WAN、インターネット、イントラネット、エクストラネット、あるいはこれらの組合せ等、様々な形態のものが含まれ、有線であるか無線であるか、さらには有線および無線の混在型であるかは問わず、要するに、複数地点(距離の長短は問わない。)間で、ある程度の速度をもって情報を伝送することができるものであればよい。
【0036】
処理手段20は、サンプルデータ用特徴パラメータ作成手段21と、候補データ用特徴パラメータ作成手段22と、入力データ用特徴パラメータ作成手段23と、第一コードブック作成手段24と、第二コードブック作成手段25と、話者性尤度算出手段26と、絶対値平均ベクトル誤差算出手段27と、第一段階判定手段28と、第二段階唯一候補者判定手段29と、第二段階複数候補者判定手段30と、第一閾値初期設定手段31と、第二・第三閾値初期設定手段32と、第二・第三閾値自動更新手段33とを含んで構成されている。
【0037】
記憶手段40は、第一コードブック記憶手段41と、第二コードブック記憶手段42と、第一閾値記憶手段43と、第二閾値記憶手段44と、第三閾値記憶手段45と、サンプルデータ記憶手段46と、候補データ記憶手段47と、被識別音声入力データ記憶手段48と、第一閾値設定用テストデータ記憶手段49と、第二・第三閾値設定用テストデータ記憶手段50とを含んで構成されている。
【0038】
サンプルデータ用特徴パラメータ作成手段21は、第一段階の判定処理に用いるサンプルデータとして複数(N人)の各話者本人から取得した音声データを用いて、音声特徴量を抽出し、音声の特徴パラメータを各話者毎に作成する処理を行うものである。特徴パラメータとしては、16次メルケプストラムが好適であるため、本実施形態では、16次メルケプストラムとして説明を行うが、これに限定されるものではない。ここで、サンプルデータとして取得する音声データの長さは、1人の話者につき、例えば20〜30秒である。従って、1フレームを10ミリ秒とすれば、例えば2000〜3000個の各フレームから16次メルケプストラムがそれぞれ作成される。
【0039】
候補データ用特徴パラメータ作成手段22は、複数候補者に絞込後の第二段階の判定処理に用いる候補データとしてサンプルデータとは異なる環境で複数(N人)の各話者本人から取得した音声データを用いて、音声特徴量を抽出し、音声の特徴パラメータを各話者毎に作成する処理を行うものである。特徴パラメータは、上記のサンプルデータの場合と同様に、16次メルケプストラムとする。ここで、候補データとして取得する音声データの長さは、1人の話者につき、例えば5〜10秒である。従って、1フレームを10ミリ秒とすれば、例えば500〜1000個の各フレームから16次メルケプストラムがそれぞれ作成される。また、この5〜10秒の長さの候補データは、1人の話者につき、t個(例えば、t=3〜5等)用意される。候補データは、サンプルデータよりも短時間とすることが好ましい。
【0040】
入力データ用特徴パラメータ作成手段23は、被識別音声が複数の話者の中の誰の音声であるかを判定する際に、被識別音声の入力データを用いて、音声特徴量を抽出し、音声の特徴パラメータを作成する処理を行うものである。特徴パラメータは、上記のサンプルデータや候補データの場合と同様に、16次メルケプストラムとする。ここで、話者識別を行うために入力される音声データの長さは、1人の話者につき、例えば5〜10秒である。従って、1フレームを10ミリ秒とすれば、例えば500〜1000個の各フレームから16次メルケプストラムがそれぞれ作成される。これらの各メルケプストラムは、それぞれ16個の数値により構成されるベクトルX,X,…,X,…,Xである。ここで、Mはフレーム数であり、X=(X(1),X(2),…,X(16))(k=1,2,…,M)である。被識別音声の入力データは、サンプルデータよりも短時間とすることが好ましい。
【0041】
第一コードブック作成手段24は、サンプルデータ用特徴パラメータ作成手段21により作成された特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第一のコードブックを作成する処理を行うものである。第一のコードブックは、セントロイドベクトルC の集合であり、n=1,2,…,Nであり、i=1,2,…,Lである。ここで、Nは、登録話者の総数であり、例えばN=100人等である。また、Lは、コードブックサイズ(量子化点数)であり、例えばL=128やL=256等である。従って、サイズLの第一のコードブックが、N人分用意される。そして、各セントロイドベクトルC は、それぞれ16個の数値により構成され、C =(C (1),C (2),…,C (16))である。
【0042】
第二コードブック作成手段25は、候補データ用特徴パラメータ作成手段22により作成された特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第二のコードブックを作成する処理を行うものである。第二のコードブックは、セントロイドベクトルC n,vの集合であり、n=1,2,…,Nであり、i=1,2,…,Lであり、v=1,2,…,tである。ここで、tは、1人の候補者(話者)について用意する第二のコードブックの個数であり、例えばt=3〜5等である。従って、サイズLの第二のコードブックがN人分、すなわちN×t個用意される。そして、各セントロイドベクトルC n,vは、それぞれ16個の数値により構成され、C n,v=(C n,v(1),C n,v(2),…,C n,v(16))である。
【0043】
話者性尤度算出手段26は、入力データ用特徴パラメータ作成手段23により作成された特徴パラメータXと、第一コードブック記憶手段41に記憶された第一のコードブックC とを用いて、ベクトル量子化(VQ:Vector Qantization)を行い、複数の各話者についての話者性尤度を算出する処理を行うものである。具体的には、次式(1)に基づく処理を行う。
【0044】
【数1】
Figure 2004053821
【0045】
上式(1)において、Lは、話者性尤度であり、上付の添字nは、話者番号(n=1,2,…,N)を示し、Nは、登録話者の総数で、例えばN=100人等である。Mは、フレーム数である。d(X,C )は、ベクトルXとベクトルC との各構成要素同士の差の2乗の和をとるという意味であり、X=(X(1),X(2),…,X(16))、C =(C (1),C (2),…,C (16))であるから、次のようになる。
【0046】
d(X,C )=(X(1)−C (1))+(X(2)−C (2))+…+(X(16)−C (16))
【0047】
また、min(1≦i≦L)[d(X,C )]は、コードブックサイズがL(例えばL=256等)であるから、n番目の話者についてL個の第一のコードブックが作成されているので、d(X,C )をi=1,2,…,Lについてそれぞれ求め、その中の最小値をとるという意味である。
【0048】
そして、min(1≦i≦L)[d(X,C )]をM個のフレームの全てについて求めると、M個のmin(1≦i≦L)[d(X,C )](k=1,2,…,M)が得られるので、これらのM個のmin(1≦i≦L)[d(X,C )]を合計してMで割ることにより、min(1≦i≦L)[d(X,C )]の平均値を求める。この平均値が、n番目の話者についての話者性尤度Lである。以上のような計算をN人の話者の全てについて行い、L,L,…,Lを求める。
【0049】
絶対値平均ベクトル誤差算出手段27は、入力データ用特徴パラメータ作成手段23により作成された特徴パラメータXと、第二コードブック記憶手段42に記憶された第二のコードブックC n,vとを用いて、第一段階の判定処理で選出された複数の各候補者(話者)についての絶対値平均ベクトル誤差εq,vあるいはε,εminを算出する処理を行うものである。具体的には、次式(2)に基づく処理を行う。
【0050】
【数2】
Figure 2004053821
【0051】
上式(2)において、εq,vは、第一段階の判定処理で選出された複数の各候補者(話者)についての絶対値平均ベクトル誤差であり、下付の添字qは、候補者番号であり、下付の添字vは、各候補者(話者)についてそれぞれ複数個(t個、例えばt=3等)の候補データが用意され、それぞれ複数個(t個、例えばt=3等)の第二のコードブックが作成されているので、それらの第二のコードブックに付された番号(v=1,2,…,t)である。Mは、フレーム数である。d’(X,C n,v)は、話者性尤度Lを求める前記式(1)におけるd(X,C )とは異なるものであり、ベクトルXとベクトルC n,vとの各構成要素同士の差の絶対値の和をとるという意味であり、X=(X(1),X(2),…,X(16))、C n,v=(C n,v(1),C n,v(2),…,C n,v(16))であるから、次のようになる。なお、d’(X,C n,v)中のnは、候補者番号qに対応する話者番号(第一段階の判定処理で候補者番号qを付された話者についての原始的話者番号)である。
【0052】
d’(X,C n,v)=|X(1)−C n,v(1)|+|X(2)−C n,v(2)|+…+|X(16)−C n,v(16)|
【0053】
また、min(1≦i≦L)[d’(X,C n,v)]は、コードブックサイズがL(例えばL=256等)であるから、n番目の話者のv番目の候補データについてL個の第二のコードブックが作成されているので、d’(X,C n,v)をi=1,2,…,Lについてそれぞれ求め、その中の最小値をとるという意味である。
【0054】
そして、min(1≦i≦L)[d’(X,C n,v)]をM個のフレームの全てについて求めると、M個のmin(1≦i≦L)[d’(X,C n,v)](k=1,2,…,M)が得られるので、これらのM個のmin(1≦i≦L)[d’(X,C n,v)]を合計してMで割ることにより、min(1≦i≦L)[d’(X,C n,v)]の平均値を求める。この平均値が、n番目の話者(候補者番号qに対応する話者)のv番目の候補データに基づく絶対値平均ベクトル誤差εq,vである。
【0055】
さらに、n番目の話者(候補者番号qに対応する話者)について、v=1番目からv=t番目までの各候補データ(各第二のコードブック)に基づく各絶対値平均ベクトル誤差εq,vの平均値を求めてεとする。すなわち、n番目の話者(候補者番号qに対応する話者)についての絶対値平均ベクトル誤差εは、次式で求められる。
【0056】
ε=(εq,1+εq,2+…+εq,t)/t
【0057】
以上のような計算を、第一段階の判定処理で選出された複数の各候補者(話者)の全てについて行い、全ての候補者の絶対値平均ベクトル誤差εを求める。その後、これらのεの中の最小値を求め、εminとする。
【0058】
第一段階判定手段28は、話者性尤度算出手段26により算出されたN個の話者性尤度L(n=1,2,…,N)のうち最小の話者性尤度Lと、それ以外の話者性尤度との各差minが、予め設定された第一の閾値ηよりも大きいか否かを判定する処理を行うものである。
【0059】
ここで、min=L−L(q=2,3,4,…)である。Lは、算出されたN個の話者性尤度L(n=1,2,…,N)のうち最小となるもの(L)を、下付の添字1を使って置き換えたものであり、L,L,L,…は、二番目、三番目、四番目、…に小さいものを、下付の添字2,3,4,…を使って置き換えたものである。なお、このような置き換えは、説明の便宜上行うものであるため、計算処理上は、必ずしも上記と同様な方法での置き換えを行う必要はなく、要するに、結果的に上記のような判定処理が行われるようになっていればよい。
【0060】
第二段階唯一候補者判定手段29は、第一段階判定手段28により各差minの全てが、第一の閾値ηよりも大きいと判定された場合に、最小の話者性尤度Lの話者(話者番号xの話者)を唯一の候補者とし、最小の話者性尤度Lが、この話者番号xの話者のために設定された第二の閾値θminと第三の閾値θmaxとの間の範囲に入るか否かを判定する。そして、これらの閾値θmin,θmaxの間の範囲に入ると判定したときには、その唯一の候補者である話者番号xの話者が、識別音声を入力した者と一致するとして受理し、閾値θmin,θmaxの間の範囲に入らないと判定したときには、棄却する処理を行うものである。
【0061】
第二段階複数候補者判定手段30は、絶対値平均ベクトル誤差算出手段27により算出された絶対値平均ベクトル誤差εのうち最小の絶対値平均ベクトル誤差εminが、このεminの候補者(この候補者の話者番号をyとする。)のために設定された第二の閾値θminと第三の閾値θmaxとの間の範囲に入るか否かを判定する。そして、これらの閾値θmin,θmaxの間の範囲に入ると判定したときには、εminの候補者(話者番号yの話者)が、識別音声を入力した者と一致するとして受理し、閾値θmin,θmaxの間の範囲に入らないと判定したときには、棄却する処理を行うものである。
【0062】
第一閾値初期設定手段31は、第一の閾値ηの初期設定の処理を行うものである(図3参照)。
【0063】
第二・第三閾値初期設定手段32は、第二の閾値θminおよび第三の閾値θmax(n=1,2,…,N)の初期設定の処理を行うものである(図4参照)。
【0064】
第二・第三閾値自動更新手段33は、第二の閾値θminおよび第三の閾値θmax(n=1,2,…,N)の自動更新の処理を行うものである(図5参照)。
【0065】
第一コードブック記憶手段41は、第一のコードブックC を記憶するものである。サイズL(例えばL=256等)の第一のコードブックが、N人の登録話者全員について一人一つずつ用意される。
【0066】
第二コードブック記憶手段42は、第二のコードブックC n,vを記憶するものである。サイズL(例えばL=256等)の第二のコードブックが、N人の登録話者全員について一人複数個(t個、例えばt=3個等)ずつ用意される。
【0067】
第一閾値記憶手段43は、第一の閾値ηを記憶するものである。第一の閾値ηは、システム10に一つだけ用意されるものであり、各登録話者毎に個別に用意されるものではない。
【0068】
第二閾値記憶手段44は、第二の閾値θminを記憶するものである。第二の閾値θminは、各登録話者(話者番号n=1,2,…,N)毎に個別に用意されるものである。
【0069】
第三閾値記憶手段45は、第三の閾値θmaxを記憶するものである。第三の閾値θmaxは、各登録話者(話者番号n=1,2,…,N)毎に個別に用意されるものである。
【0070】
サンプルデータ記憶手段46は、サンプルデータ(例えば20〜30秒/話者)としての音声データを記憶するものであり、例えば、WAVフォーマット等のファイル形式での保存を行う。サンプルデータは、N人の登録話者全員について一人一つずつ用意される。
【0071】
候補データ記憶手段47は、候補データ(例えば5〜10秒/話者)としての音声データを記憶するものであり、例えば、WAVフォーマット等のファイル形式での保存を行う。候補データは、N人の登録話者全員について一人複数個(t個、例えばt=3個等)ずつ用意される。
【0072】
被識別音声入力データ記憶手段48は、被識別音声の入力データ(例えば5〜10秒)を記憶するものであり、例えば、WAVフォーマット等のファイル形式での保存を行う。記憶された入力データは、システム10による学習機能に用いられ、次回以降の話者識別処理に活かされる(図5参照)。
【0073】
第一閾値設定用テストデータ記憶手段49は、第一の閾値ηの初期設定に用いられる第一閾値設定用テストデータ(例えば5〜10秒)としての音声データを記憶するものであり、例えば、WAVフォーマット等のファイル形式での保存を行う。第一閾値設定用テストデータは、N人の登録話者の中の任意の一人による音声データである。
【0074】
第二・第三閾値設定用テストデータ記憶手段50は、第二の閾値θminおよび第三の閾値θmaxの初期設定に用いられる第二・第三閾値設定用テストデータ(例えば5〜10秒)としての音声データを記憶するものであり、例えば、WAVフォーマット等のファイル形式での保存を行う。第二・第三閾値設定用テストデータは、N人の登録話者全員について一人複数回(H回、例えばH=10回等)ずつ入力して取得した音声データである。
【0075】
そして、処理手段20を構成する各手段21〜33は、コンピュータ本体(パーソナル・コンピュータのみならず、その上位機種のものも含む。)の内部に設けられた中央演算処理装置(CPU)、およびこのCPUの動作手順を規定する一つまたは複数のプログラムにより実現される。
【0076】
また、処理手段20は、一台のコンピュータあるいは一つのCPUにより実現されるものに限定されず、複数のコンピュータ等で分散処理を行うことにより実現されるものであってもよい。
【0077】
さらに、記憶手段40を構成する各手段41〜50は、例えばハードディスク等により好適に実現されるが、記憶容量やアクセス速度等に問題が生じない範囲であれば、ROM、EEPROM、フラッシュ・メモリ、RAM、MO、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、FD、磁気テープ、あるいはこれらの組合せ等を採用してもよい。
【0078】
音声入力手段60としては、各種の音声収録マイク等を採用することができる。
【0079】
表示手段70としては、例えば、液晶ディスプレイ、CRTディスプレイ、有機EL(エレクトロルミネッセンス)ディスプレイ、ECL(エレクトロケミルミネッセンス)ディスプレイ、プロジェクタおよびスクリーン、あるいはこれらの組合せ等を採用することができる。
【0080】
出力手段80としては、プリンタ、プロッタ、あるいはこれらの組合せ等を採用することができる。
【0081】
このような本実施形態においては、以下のようにして話者識別システム10により被識別音声についての話者識別処理を行う。
【0082】
図2において、先ず、音声入力手段60を用いて、N人(例えばN=100人等)の登録話者全員から、サンプルデータとして、一人の話者につき例えば20〜30秒の音声データを取得し、これらの取得したサンプルデータを、サンプルデータ記憶手段46に記憶保存する(ステップS1)。
【0083】
続いて、各話者のサンプルデータを用いて、サンプルデータ用特徴パラメータ作成手段21により音響特徴量を抽出し、各話者の音声についての特徴パラメータを作成する(ステップS2)。特徴パラメータは、16次メルケプストラムである。
【0084】
さらに、得られた各話者の特徴パラメータを用いて、第一コードブック作成手段24によりクラスタリング処理を行い、N人の各話者(n=1,2,…,N)についての第一のコードブックC を作成し(ステップS3)、これらの作成した第一のコードブックC を第一コードブック記憶手段41に記憶保存する(ステップS4)。話者一人(n番目の話者)についての第一のコードブックC は、コードブックサイズがLであるから、L個(例えば、L=256個等)のコードブックベクトルにより構成されている。
【0085】
次に、音声入力手段60を用いて、N人(例えばN=100人等)の登録話者全員から、候補データとして、一人の話者につき例えば5〜10秒の音声データを複数個(t個、例えばt=3個等)ずつ取得し、これらの取得した候補データを、候補データ記憶手段47に記憶保存する(ステップS11)。
【0086】
続いて、各話者の候補データを用いて、候補データ用特徴パラメータ作成手段22により音響特徴量を抽出し、各話者の音声についての特徴パラメータを作成する(ステップS12)。特徴パラメータは、16次メルケプストラムである。
【0087】
さらに、得られた各話者の特徴パラメータを用いて、第二コードブック作成手段25によりクラスタリング処理を行い、N人の各話者(n=1,2,…,N)について複数個(t個)ずつの第二のコードブックC n,vを作成し(ステップS13)、これらの作成した第二のコードブックC n,vを第二コードブック記憶手段42に記憶保存する(ステップS14)。話者一人(n番目の話者)についての第二のコードブックC n,vは、複数個(t個)用意され、これらの複数個の第二のコードブックC n,v(v=1,2,…,t)の各々は、コードブックサイズがLであるから、L個(例えば、L=256個等)のコードブックベクトルにより構成されている。
【0088】
以上の前処理を行った後に、第一の閾値η、第二の閾値θmin、および第三の閾値θmaxの初期設定を行うが、詳細は後述する(図3のステップS41〜S44、図4のステップS51〜S54)。
【0089】
そして、前処理および各閾値の初期設定を行った後に、話者識別システム10を稼働させ、実際に話者識別を行う際には、以下のような処理を行う。
【0090】
図2において、先ず、音声入力手段60を用いて、識別の対象となる被識別音声を入力して話者識別システム10に取り込む(ステップS21)。この際、取り込む入力データは、例えば5〜10秒の音声データである。
【0091】
続いて、被識別音声の入力データを用いて、入力データ用特徴パラメータ作成手段23により音響特徴量を抽出し、被識別音声についての特徴パラメータを作成する(ステップS22)。特徴パラメータは、16次メルケプストラムであり、フレーム数がMであるから、M個のベクトルX,X,…,Xが作成される。
【0092】
さらに、得られた特徴パラメータであるM個のベクトルX,X,…,Xと、第一コードブック記憶手段41に記憶保存されている第一のコードブックC とを用いて、話者性尤度算出手段26により、ベクトル量子化(VQ)を行い、各話者(n=1,2,…,N)についての話者性尤度Lを算出する(ステップS23)。
【0093】
次に、算出した話者性尤度L(上付の添字nは、話者番号であり、n=1,2,…,N)のうちの最小値L(話者番号xの話者についての話者性尤度)を下付の添字1を使ってLと置き換えるものとする。また、算出した話者性尤度Lのうち二番目に小さな値を下付の添字2を使ってLと置き換えるものとする。同様にして、算出した話者性尤度Lのうち三番目、四番目、…に小さな値をL,L,…と置き換えるものとする。
【0094】
そして、第一段階判定手段28により、最小の話者性尤度L(=L)と、その他の話者性尤度L(=L,L,L,…)との差minが、予め設定されている第一の閾値ηよりも大きいか否かを判定する(ステップS24)。すなわち、min=L−L(q=2,3,4,…)であり、このminについて次式に基づく判定を行う。
【0095】
min>η
【0096】
ここで、全てのminが第一の閾値ηよりも大きいと判断された場合には、L−L、L−L、L−L、…の全てが第一の閾値ηよりも大きいということであるから、Lの値に対してL,L,L,…の各値が離れているということである。従って、最小の話者性尤度L(=L)が、その他の話者性尤度L(=L,L,L,…)と比べ、突出して小さな値であることを意味するので、この場合には、話者性尤度L(=L)の話者(話者番号xの話者)を唯一の候補者として次の第二段階の判定処理に進む。
【0097】
続いて、話者性尤度Lの話者を唯一の候補者とした後に、第二段階唯一候補者判定手段29により、この唯一の候補者が、識別音声を入力した者と一致するか否かを判定する(ステップS25)。この判定の際には、話者性尤度Lが、話者番号xの話者について予め設定された第二の閾値θminと第三の閾値θmaxとの間の範囲に入るか否かを判断する。
【0098】
そして、話者性尤度Lが、第二の閾値θminと第三の閾値θmaxとの間の範囲に入ると判断された場合には、話者性尤度Lの話者が、識別音声を入力した者と一致するとして受理し(ステップS26)、話者性尤度Lが、第二の閾値θminと第三の閾値θmaxとの間の範囲に入らないと判断された場合には、話者性尤度Lの話者は、識別音声を入力した者と一致しないとして棄却する(ステップS27)。
【0099】
一方、ステップS24で、各差minのうちの少なくとも一つが、第一の閾値η以下であると判断された場合には、L−L、L−L、L−L、…の中に第一の閾値η以下の差が存在するということであるから、Lに近い値となる話者性尤度が、L,L,L,…の中に存在することを意味する。この場合には、最小の話者性尤度L(=L)に近いと判断された話者性尤度の話者(すなわち、最小の話者性尤度Lとの差が第一の閾値η以下の話者性尤度の話者)および最小の話者性尤度Lの話者を、複数の候補者として次の第二段階の判定処理に進む。例えば、L−L、L−Lが第一の閾値η以下であると判断され、L−L、L−L、L−L、…が第一の閾値ηよりも大きいと判断された場合には、LおよびLがLに近い値なので、Lを含めて話者性尤度L,L,Lの3人の話者が、複数の候補者となる。従って、複数の候補者が何人になるかは、min>ηの判定結果により変化し、N人の登録話者全員になることもあり得る。なお、以下においては、ステップS24の判定処理で、min≦ηと判断された話者性尤度L(q=2,3,…)を、Lを含めて候補者番号qを示す下付の添字を付してL(q=1,2,…)と表現する。上記の例では、L,L,LがLとなる。
【0100】
続いて、Lに近い値の話者性尤度の話者を、話者性尤度Lの話者を含めて複数の候補者とした後に、これらの複数の候補者についての絶対値平均ベクトル誤差を、絶対値平均ベクトル誤差算出手段27により算出する(ステップS28)。
【0101】
絶対値平均ベクトル誤差算出手段27による処理は、先ず、入力データ用特徴パラメータ作成手段23により作成された特徴パラメータXと、第二コードブック記憶手段42に記憶された第二のコードブックC n,vとを用いて、ステップS24の第一段階の判定処理で選出された複数の各候補者(話者)についての絶対値平均ベクトル誤差εq,vを算出する。この際、絶対値平均ベクトル誤差は、一人の候補者につき、複数個(t個、例えばt=3個等)算出する。従って、候補者番号qの候補者については、εq,1,εq,2,…,εq,tが算出されるので、これらのt個の絶対値平均ベクトル誤差の平均値を求めてεとする。さらに、複数の候補者全員について、εを求め、これらのεの中の最小値を求めてεminとする。
【0102】
その後、第二段階複数候補者判定手段30により、最小の絶対値平均ベクトル誤差εminが、εminの候補者(この候補者の話者番号をyとする。)について予め設定された第二の閾値θminと第三の閾値θmaxとの間の範囲に入るか否かを判断する(ステップS29)。
【0103】
そして、最小の絶対値平均ベクトル誤差εminが、第二の閾値θminと第三の閾値θmaxとの間の範囲に入ると判断された場合には、εminの候補者である話者性尤度L(=L)の話者が、識別音声を入力した者と一致するとして受理し(ステップS30)、最小の絶対値平均ベクトル誤差εminが、第二の閾値θminと第三の閾値θmaxとの間の範囲に入らないと判断された場合には、εminの候補者である話者性尤度L(=L)の話者は、識別音声を入力した者と一致しないとして棄却する(ステップS31)。
【0104】
なお、以上の処理による話者識別の結果は、適宜、表示手段70により画面表示したり、出力手段80により印刷してもよく、あるいは各種システムの個人認証処理に利用してもよい。
【0105】
次に、第一閾値初期設定手段31により、第一の閾値ηの初期設定を行う際の処理を詳述する。
【0106】
図3において、音声入力手段60を用いて、第一閾値設定用テストデータとして、N人の登録話者本人のうちの任意の一人(話者番号Pの話者とする。)の音声データを取り込むとともに、取り込んだ音声データを、第一閾値設定用テストデータ記憶手段49に記憶保存する(ステップS41)。この際、取り込む音声データは、例えば5〜10秒のデータである。
【0107】
続いて、第一閾値設定用テストデータを用いて、入力データ用特徴パラメータ作成手段23により音響特徴量を抽出し、音声についての特徴パラメータX(k=1,2,…,M)を作成する(ステップS42)。特徴パラメータXは、16次メルケプストラムである。
【0108】
さらに、得られた特徴パラメータXと、第一コードブック記憶手段41に記憶された第一のコードブックC とを用いて、話者性尤度算出手段26によりベクトル量子化(VQ)を行い、N人の各登録話者についての話者性尤度L(n=1,2,…,N)を算出する(ステップS43)。そして、前記任意の一人(話者番号Pの話者)についての話者性尤度Lと、N人の各話者についての話者性尤度Lのうち話者性尤度Lに最も近い値の話者性尤度との差を、第一の閾値ηとして決定し、第一閾値記憶手段43に記憶保存して設定する(ステップS44)。
【0109】
次に、第二・第三閾値初期設定手段32により、第二の閾値θminおよび第三の閾値θmaxの初期設定を行う際の処理を詳述する。
【0110】
図4において、音声入力手段60を用いて、第二・第三閾値設定用テストデータとして、N人の登録話者本人から、それぞれ複数個(H個、例えばH=10個等)ずつの音声データを取り込むとともに、取り込んだ音声データを、第二・第三閾値設定用テストデータ記憶手段50に記憶保存する(ステップS51)。この際、取り込む音声データは、一人の話者につき例えば5〜10秒のデータである。
【0111】
続いて、第二・第三閾値設定用テストデータを用いて、入力データ用特徴パラメータ作成手段23により音響特徴量を抽出し、音声についての特徴パラメータX(k=1,2,…,M)をN人の各話者毎に複数個(H個)ずつ作成する(ステップS52)。特徴パラメータXは、16次メルケプストラムである。
【0112】
さらに、得られた特徴パラメータXと、第一コードブック記憶手段41に記憶された第一のコードブックC とを用いて、話者性尤度算出手段26によりベクトル量子化(VQ)を行い、N人の各登録話者(n=1,2,…,N)について複数個(H個)ずつの話者性尤度Ln,h(h=1,2,…,H)を算出する(ステップS53)。
【0113】
それから、登録番号nの話者について、H個の話者性尤度Ln,h(h=1,2,…,H)のうちの最小値を、その話者についての第二の閾値θminとし、最大値を、その話者についての第三の閾値θmaxとし、このようなθminおよびθmaxの決定をN人の登録話者全員について行う(ステップS54)。そして、決定したθminおよびθmaxを、第二閾値記憶手段44および第三閾値記憶手段45にそれぞれ記憶保存して設定する。
【0114】
次に、第二・第三閾値自動更新手段33により、第二の閾値θminおよび第三の閾値θmaxの自動更新を行う際の処理を詳述する。
【0115】
図5において、前述した図2のステップS26でLの話者(話者番号xの話者)が受理されるか、または図2のステップS30でLの話者(話者番号yの話者)が受理された場合には、それらの受理された話者についてのサンプルデータ(例えば20〜30秒)を、サンプルデータ記憶手段46から読み込むとともに(ステップS61)、その識別処理時に入力された被識別音声の入力データ(例えば5〜10秒)を、被識別音声入力データ記憶手段48から読み込む(ステップS62)。
【0116】
続いて、読み込んだサンプルデータと、被識別音声の入力データとを組み合わせて用いることにより、サンプルデータ用特徴パラメータ作成手段21により音響特徴量を抽出し、音声についての特徴パラメータを作成する(ステップS63)。特徴パラメータは、16次メルケプストラムである。
【0117】
さらに、得られた特徴パラメータを用いて、第一コードブック作成手段24によりクラスタリング処理を行い、受理された話者(話者番号xまたはyの話者)についての第一のコードブックC (n=xまたはy)を作成し直し(ステップS64)、この作成し直した第一のコードブックC を、第一コードブック記憶手段41に記憶保存してデータを更新する(ステップS65)。
【0118】
その後、受理された話者について複数個(H個、例えばH=10個等)用意された第二・第三閾値設定用テストデータ(例えば5〜10秒)を、第二・第三閾値設定用テストデータ記憶手段50から読み込む(ステップS66)。
【0119】
続いて、読み込んだ第二・第三閾値設定用テストデータと、被識別音声の入力データとを用いて、入力データ用特徴パラメータ作成手段23により音響特徴量を抽出し、音声についての特徴パラメータX(k=1,2,…,M)を、受理された話者について(H+1)個作成する(ステップS67)。特徴パラメータXは、16次メルケプストラムである。例えば、受理された話者について、第二・第三閾値設定用テストデータが当初H=10個用意されている場合には、新たに取得された被識別音声の入力データを学習データとし、(H+1)=11個作成する。
【0120】
さらに、得られた特徴パラメータXと、第一コードブック記憶手段41に記憶された更新後の第一のコードブックC (n=xまたはy)とを用いて、話者性尤度算出手段26によりベクトル量子化(VQ)を行い、受理された話者(話者番号xまたはyの話者)について(H+1)個の話者性尤度Ln,h(h=1,2,…,H,H+1)を算出する(ステップS68)。
【0121】
そして、受理された話者(話者番号n=xまたはyの話者)について、(H+1)個の話者性尤度Ln,h(h=1,2,…,H,H+1)のうちの最小値を、その話者についての更新後の第二の閾値θminとし、最大値を、その話者についての更新後の第三の閾値θmaxとし、これらの更新後のθminおよびθmaxを第二閾値記憶手段44および第三閾値記憶手段45にそれぞれ記憶保存して更新設定を行う(ステップS69)。
【0122】
このような本実施形態によれば、次のような効果がある。すなわち、話者識別を行うにあたって、判定を二つの段階で行うようにし、第一段階判定手段28による判定(図2のステップS24)の結果に応じて、第二段階の判定が簡易な処理になる場合(ステップS25)と、それよりも複雑な処理になる場合(ステップS28,S29)とに分かれるようにしたので、全てについて一律な内容の判定処理を行う場合に比べ、話者識別に要する処理時間を短縮することができ、実時間応答性の向上を図ることができる。
【0123】
また、第一段階判定手段28による判定処理において、最小の話者性尤度Lに近い値の話者性尤度が少なくとも一つ存在すると判定された場合には、最小の話者性尤度Lに近い値の話者性尤度の話者が、被識別音声を入力した者と一致する可能性もあるため、その場合には、絶対値平均ベクトル誤差εq,vあるいはε,εminを算出する処理(図2のステップS28)を行ってから第二段階の判定処理(ステップS29)を行うので、上述した如く実時間応答性の向上を図りつつ、同時に識別精度の向上を図ることができる。
【0124】
さらに、第一閾値初期設定手段31が設けられ、図3で述べたように、この第一閾値初期設定手段31により、第一閾値設定用テストデータの提供者自身の話者性尤度Lと、話者性尤度Lに最も近い値の話者性尤度との差が、第一の閾値ηとして設定されるので、第一段階の判定処理に用いる閾値として適切な値を設定することができる。
【0125】
そして、第二・第三閾値初期設定手段32が設けられ、図4で述べたように、この第二・第三閾値初期設定手段32により、第二・第三閾値設定用テストデータとしてN人の各話者本人からそれぞれ複数個(H個)ずつ取得した音声データを用いて第二の閾値θminおよび第三の閾値θmaxが設定されるので、第二段階の判定処理に用いる閾値として適切な値を設定することができる。
【0126】
また、第二・第三閾値自動更新手段33が設けられているので、システム10に学習機能を付加することができ、体調や健康等の変化に起因して、登録されたN人の各話者の音声の特徴が変化したときには、それに追従させて第二の閾値θminおよび第三の閾値θmaxの設定を徐々に変化させていくことができる。
【0127】
さらに、被識別音声の入力データ(例えば5〜10秒)は、第一段階の判定処理用のサンプルデータ(例えば20〜30秒)よりも短時間のデータとされているため、話者識別に要する時間を短縮することができ、実時間応答性の向上を図ることができる。
【0128】
また、絶対値平均ベクトル誤差算出手段27は、N人の各話者毎に複数(t個)ずつ作成された第二のコードブックC n,vを用いて、各候補者毎に複数(t個)ずつの絶対値平均ベクトル誤差εq,vを算出し、これらの絶対値平均ベクトル誤差εq,vの平均値εを算出する処理を行うので、話者識別の精度を、より一層向上させることができる。
【0129】
そして、特徴パラメータとして、16次メルケプストラムを用いているので、、処理時間短縮(計算量削減)と識別精度の確保との兼ね合い等を考慮したシステム10を実現することができる。
【0130】
また、音声データからスペクトル(本実施形態では、一例として16次メルケプストラム)をとる処理を行うので、発話内容に影響されることなく話者識別を行うことができる。
【0131】
さらに、第一の閾値η、第二の閾値θmin、第三の閾値θmaxの各値を調整することにより、中国語や日本語等の言語の相違、携帯電話やおもちゃ等の用途の相違、録音環境や録音機器等の各種環境の差異に対応することができる。
【0132】
また、本発明の効果を確かめるために、次のようなシステムの評価実験を行った。実験データおよび音声分析条件は、次の通りである。
【0133】
[実験データ]
(1)登録話者の総数:100人
(2)評価用テストデータ:100話者×(3回/話者)
(3)年齢・性別:20〜50才・男女50人ずつ
(4)録音環境:背景室における一般騒音下
(5)発話内容:学会発表における自由発話
(6)発話時間:サンプルデータが20〜30秒であり、評価用テストデータが5〜10秒である。
【0134】
[音声分析条件]
(1)サンプリング周波数:16kHz
(2)分析窓:10ms
(3)分析周期:21.3ms
(4)音響特徴量:16次メルケプストラム
【0135】
表1には、評価用テストデータを5〜10秒としたときのシステム評価結果が、サンプルデータを10〜15秒とした場合と、サンプルデータを20〜30秒とした場合とに分けて示されている。
【0136】
【表1】
Figure 2004053821
【0137】
表1によれば、評価用テストデータ(つまり、被識別音声の入力データ)を5〜10秒とし、サンプルデータを20〜30秒とした場合には、システムの有効性が明確である。すなわち、登録話者の総数を100人として実際に話者識別処理を行った評価実験において、絶対値平均ベクトル誤差の算出処理を行わない場合(全てのminについて、min>ηと判断された場合)には、平均正解率は、99.33%となり、誤認識率および誤棄却率は、0.1%以下に抑えられていることが確認できる。また、絶対値平均ベクトル誤差の算出処理を行う場合(少なくとも一つのminについて、min≦ηと判断された場合)でも、平均正解率は、98.75%と高くなっており、以上より本発明の効果が顕著に示された。
【0138】
なお、本発明は前記実施形態に限定されるものではなく、本発明の目的を達成できる範囲内での変形等は本発明に含まれるものである。
【0139】
すなわち、前記実施形態では、第二・第三閾値自動更新手段33が設けられ、第二の閾値θminおよび第三の閾値θmaxの設定を徐々に変化させることができるようになっていたが、第二・第三閾値自動更新手段33の設置を省略してもよい。しかし、前記実施形態のように第二・第三閾値自動更新手段33を設けておくことが、システム10に学習機能を付加することができるという点で好ましい。
【0140】
また、第二・第三閾値自動更新手段33による第二の閾値θminおよび第三の閾値θmaxの自動更新処理は、システム10により話者識別を実行した結果、受理された場合に行われるようになっているので、各登録話者の音声の特徴が徐々に変化していった場合にのみ対応することができる。従って、ある登録話者の音声の特徴が、急激に大きく変化したような場合には、サンプルデータを取り直して対応することが好ましい。
【0141】
【発明の効果】
以上に述べたように本発明によれば、話者識別を行うにあたって、判定を二つの段階で行うようにし、第一段階の判定結果に応じて第二段階の判定が簡易な処理になる場合とそれよりも複雑な処理になる場合とに分かれるようにしたので、実時間応答性が良好で、かつ、高精度な話者識別を行うことができるという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施形態の話者識別システムの全体構成図。
【図2】前記実施形態の話者識別システムにより、被識別音声が複数の話者の中の誰の音声であるかを判定する際の処理の流れの説明図。
【図3】前記実施形態において第一の閾値ηの初期設定を行う際の処理の流れの説明図。
【図4】前記実施形態において第二の閾値θminおよび第三の閾値θmaxの初期設定を行う際の処理の流れの説明図。
【図5】前記実施形態において第二の閾値θminおよび第三の閾値θmaxの更新を行う際の処理の流れの説明図。
【符号の説明】
10 話者識別システム
21 サンプルデータ用特徴パラメータ作成手段
22 候補データ用特徴パラメータ作成手段
23 入力データ用特徴パラメータ作成手段
24 第一コードブック作成手段
25 第二コードブック作成手段
26 話者性尤度算出手段
27 絶対値平均ベクトル誤差算出手段
28 第一段階判定手段
29 第二段階唯一候補者判定手段
30 第二段階複数候補者判定手段
33 第二・第三閾値自動更新手段
41 第一コードブック記憶手段
42 第二コードブック記憶手段
 特徴パラメータ
 第一のコードブック
n,v 第二のコードブック
,Ln,h 話者性尤度
 最小の話者性尤度
min 最小の話者性尤度とそれ以外の話者性尤度との差
η 第一の閾値
θmin 第二の閾値
θmax 第三の閾値
εq,v,ε 絶対値平均ベクトル誤差
εmin  最小の絶対値平均ベクトル誤差

Claims (11)

  1. 入力された被識別音声が、予め登録された複数の話者の中の誰の音声であるかを判定する話者識別方法であって、
    第一段階の判定処理用のサンプルデータとして前記複数の各話者本人から取得した音声データを用いて音声の特徴パラメータを各話者毎に作成した後、これらの特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第一のコードブックを作成し、これらの第一のコードブックを第一コードブック記憶手段に記憶しておくとともに、
    複数候補者に絞込後の第二段階の判定処理用の候補データとして前記サンプルデータとは異なる環境で前記複数の各話者本人から取得した音声データを用いて音声の特徴パラメータを各話者毎に作成した後、これらの特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第二のコードブックを作成し、これらの第二のコードブックを第二コードブック記憶手段に記憶しておき、
    前記被識別音声が前記複数の話者の中の誰の音声であるかを判定する際には、前記被識別音声の入力データを用いて音声の特徴パラメータを作成した後、話者性尤度算出手段により、この特徴パラメータと前記第一コードブック記憶手段に記憶された前記第一のコードブックとを用いて前記複数の各話者についての話者性尤度を算出し、
    第一段階判定手段により、これらの話者性尤度のうち最小の話者性尤度とそれ以外の話者性尤度との各差が、予め設定された第一の閾値ηよりも大きいか否かまたは前記第一の閾値η以上か否かを判定し、
    前記各差の全てが前記第一の閾値ηよりも大きいかまたは前記第一の閾値η以上と判定された場合には、
    前記最小の話者性尤度の話者を唯一の候補者とし、第二段階唯一候補者判定手段により、前記最小の話者性尤度が、予め各話者毎に設定された第二の閾値θminと第三の閾値θmaxとの間の範囲に入るか否かを判定し、これらの閾値θmin,θmaxの間の範囲に入ると判定したときには前記候補者を受理し、入らないと判定したときには棄却し、
    一方、前記各差のうちの少なくとも一つの差が前記第一の閾値η以下または前記第一の閾値ηよりも小さいと判定された場合には、
    以下または小さいと判定された差となっている話者性尤度の話者および前記最小の話者性尤度の話者を複数の候補者とし、絶対値平均ベクトル誤差算出手段により、前記特徴パラメータと前記第二コードブック記憶手段に記憶された前記第二のコードブックとを用いて前記複数の各候補者についての絶対値平均ベクトル誤差を算出した後、第二段階複数候補者判定手段により、これらの絶対値平均ベクトル誤差のうち最小の絶対値平均ベクトル誤差が、前記第二の閾値θminと前記第三の閾値θmaxとの間の範囲に入るか否かを判定し、これらの閾値θmin,θmaxの間の範囲に入ると判定したときには前記最小の絶対値平均ベクトル誤差の候補者を受理し、入らないと判定したときには棄却することを特徴とする話者識別方法。
  2. 請求項1に記載の話者識別方法において、
    前記第一の閾値ηを設定する際には、
    第一閾値設定用テストデータとして前記複数の各話者本人のうちの任意の一人から取得した音声データを用いて音声の特徴パラメータを作成した後、話者性尤度算出手段により、この特徴パラメータと前記第一コードブック記憶手段に記憶された前記第一のコードブックとを用いて前記複数の各話者についての話者性尤度を算出し、前記任意の一人についての話者性尤度とこの話者性尤度に最も近い値の話者性尤度との差を前記第一の閾値ηとすることを特徴とする話者識別方法。
  3. 請求項1または2に記載の話者識別方法において、
    前記第二の閾値θminおよび前記第三の閾値θmaxを設定する際には、
    第二・第三閾値設定用テストデータとして前記複数の各話者本人からそれぞれ複数ずつ取得した音声データを用いて音声の特徴パラメータを各話者毎に複数ずつ作成した後、話者性尤度算出手段により、これらの特徴パラメータと前記第一コードブック記憶手段に記憶された前記第一のコードブックとを用いて前記複数の各話者についての話者性尤度を各話者毎に複数ずつ算出し、各話者毎に算出した複数の話者性尤度のうちの最小値を各話者についての前記第二の閾値θminとし、各話者毎に算出した複数の話者性尤度のうちの最大値を各話者についての前記第三の閾値θmaxとすることを特徴とする話者識別方法。
  4. 請求項3に記載の話者識別方法において、
    前記被識別音声が前記複数の話者の中の誰の音声であるかを判定する処理を行った結果、前記被識別音声を入力した者が前記複数の話者の中のいずれかの者であるとして受理された場合には、
    前記被識別音声の入力データと前記サンプルデータとを組み合わせることにより、前記複数の話者のうち前記被識別音声を入力した者と一致すると判定された話者についての前記第一のコードブックを作成し直し、
    この作成し直した第一のコードブックと、前記複数の話者のうち前記被識別音声を入力した者と一致すると判定された話者についての複数の前記第二・第三閾値設定用テストデータと、前記被識別音声の入力データとを用いて、前記複数の話者のうち前記被識別音声を入力した者と一致すると判定された話者についての前記第二の閾値θminおよび前記第三の閾値θmaxの更新設定を行うことを特徴とする話者識別方法。
  5. 請求項1〜4のいずれかに記載の話者識別方法において、
    前記被識別音声の入力データは、前記第一段階の判定処理用のサンプルデータよりも短時間のデータであることを特徴とする話者識別方法。
  6. 請求項5に記載の話者識別方法において、
    前記被識別音声の入力データは、5〜10秒間のデータであり、前記第一段階の判定処理用のサンプルデータは、20〜30秒間のデータであることを特徴とする話者識別方法。
  7. 請求項1〜6のいずれかに記載の話者識別方法において、
    前記第二のコードブックは、各話者毎に複数ずつ作成しておき、
    前記第二のコードブックを用いて前記複数の各候補者についての絶対値平均ベクトル誤差を算出する際には、前記各候補者毎に絶対値平均ベクトル誤差を複数ずつ算出し、これらの絶対値平均ベクトル誤差の平均値を算出することを特徴とする話者識別方法。
  8. 請求項1〜7のいずれかに記載の話者識別方法において、前記特徴パラメータは、メルケプストラムであることを特徴とする話者識別方法。
  9. 入力された被識別音声が、予め登録された複数の話者の中の誰の音声であるかを判定する話者識別システムであって、
    第一段階の判定処理用のサンプルデータとして前記複数の各話者本人から取得した音声データを用いて音声の特徴パラメータを各話者毎に作成するサンプルデータ用特徴パラメータ作成手段と、
    このサンプルデータ用特徴パラメータ作成手段により作成された前記特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第一のコードブックを作成する第一コードブック作成手段と、
    この第一コードブック作成手段により各話者毎に作成された前記第一のコードブックを記憶する第一コードブック記憶手段と、
    複数候補者に絞込後の第二段階の判定処理用の候補データとして前記サンプルデータとは異なる環境で前記複数の各話者本人から取得した音声データを用いて音声の特徴パラメータを各話者毎に作成する候補データ用特徴パラメータ作成手段と、
    この候補データ用特徴パラメータ作成手段により作成された前記特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第二のコードブックを作成する第二コードブック作成手段と、
    この第二コードブック作成手段により各話者毎に作成された前記第二のコードブックを記憶する第二コードブック記憶手段と、
    前記被識別音声が前記複数の話者の中の誰の音声であるかを判定する際に前記被識別音声の入力データを用いて音声の特徴パラメータを作成する入力データ用特徴パラメータ作成手段と、
    この入力データ用特徴パラメータ作成手段により作成された前記特徴パラメータと前記第一コードブック記憶手段に記憶された前記第一のコードブックとを用いて前記複数の各話者についての話者性尤度を算出する話者性尤度算出手段と、この話者性尤度算出手段により算出された話者性尤度のうち最小の話者性尤度とそれ以外の話者性尤度との各差が、予め設定された第一の閾値ηよりも大きいか否かまたは前記第一の閾値η以上か否かを判定する第一段階判定手段と、
    この第一段階判定手段により前記各差の全てが前記第一の閾値ηよりも大きいかまたは前記第一の閾値η以上と判定された場合に、前記最小の話者性尤度の話者を唯一の候補者とし、前記最小の話者性尤度が、予め各話者毎に設定された第二の閾値θminと第三の閾値θmaxとの間の範囲に入るか否かを判定し、これらの閾値θmin,θmaxの間の範囲に入ると判定したときには前記候補者を受理し、入らないと判定したときには棄却する第二段階唯一候補者判定手段と、
    前記第一段階判定手段により前記各差のうちの少なくとも一つの差が前記第一の閾値η以下または前記第一の閾値ηよりも小さいと判定された場合に、以下または小さいと判定された差となっている話者性尤度の話者および前記最小の話者性尤度の話者を複数の候補者とし、前記入力データ用特徴パラメータ作成手段により作成された前記特徴パラメータと前記第二コードブック記憶手段に記憶された前記第二のコードブックとを用いて前記複数の各候補者についての絶対値平均ベクトル誤差を算出する絶対値平均ベクトル誤差算出手段と、
    この絶対値平均ベクトル誤差算出手段により算出された絶対値平均ベクトル誤差のうち最小の絶対値平均ベクトル誤差が、前記第二の閾値θminと前記第三の閾値θmaxとの間の範囲に入るか否かを判定し、これらの閾値θmin,θmaxの間の範囲に入ると判定したときには前記最小の絶対値平均ベクトル誤差の候補者を受理し、入らないと判定したときには棄却する第二段階複数候補者判定手段と
    を備えたことを特徴とする話者識別システム。
  10. 請求項9に記載の話者識別システムにおいて、
    前記第二の閾値θminおよび前記第三の閾値θmaxの更新設定を自動的に行う第二・第三閾値自動更新手段を備え、
    この第二・第三閾値自動更新手段は、前記被識別音声が前記複数の話者の中の誰の音声であるかを判定する処理を行った結果、前記被識別音声を入力した者が前記複数の話者の中のいずれかの者であるとして受理された場合に、前記被識別音声の入力データと前記サンプルデータとを組み合わせることにより、前記複数の話者のうち前記被識別音声を入力した者と一致すると判定された話者についての前記第一のコードブックを作成し直し、この作成し直した第一のコードブックと、前記複数の話者のうち前記被識別音声を入力した者と一致すると判定された話者についての複数の第二・第三閾値設定用テストデータと、前記被識別音声の入力データとを用いて、前記複数の話者のうち前記被識別音声を入力した者と一致すると判定された話者についての前記第二の閾値θminおよび前記第三の閾値θmaxの更新設定を行う構成とされている
    ことを特徴とする話者識別システム。
  11. 入力された被識別音声が、予め登録された複数の話者の中の誰の音声であるかを判定する話者識別システムとして、コンピュータを機能させるためのプログラムであって、
    第一段階の判定処理用のサンプルデータとして前記複数の各話者本人から取得した音声データを用いて音声の特徴パラメータを各話者毎に作成するサンプルデータ用特徴パラメータ作成手段と、
    このサンプルデータ用特徴パラメータ作成手段により作成された前記特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第一のコードブックを作成する第一コードブック作成手段と、
    この第一コードブック作成手段により各話者毎に作成された前記第一のコードブックを記憶する第一コードブック記憶手段と、
    複数候補者に絞込後の第二段階の判定処理用の候補データとして前記サンプルデータとは異なる環境で前記複数の各話者本人から取得した音声データを用いて音声の特徴パラメータを各話者毎に作成する候補データ用特徴パラメータ作成手段と、
    この候補データ用特徴パラメータ作成手段により作成された前記特徴パラメータを用いてクラスタリングを行うことにより各話者毎に第二のコードブックを作成する第二コードブック作成手段と、
    この第二コードブック作成手段により各話者毎に作成された前記第二のコードブックを記憶する第二コードブック記憶手段と、
    前記被識別音声が前記複数の話者の中の誰の音声であるかを判定する際に前記被識別音声の入力データを用いて音声の特徴パラメータを作成する入力データ用特徴パラメータ作成手段と、
    この入力データ用特徴パラメータ作成手段により作成された前記特徴パラメータと前記第一コードブック記憶手段に記憶された前記第一のコードブックとを用いて前記複数の各話者についての話者性尤度を算出する話者性尤度算出手段と、この話者性尤度算出手段により算出された話者性尤度のうち最小の話者性尤度とそれ以外の話者性尤度との各差が、予め設定された第一の閾値ηよりも大きいか否かまたは前記第一の閾値η以上か否かを判定する第一段階判定手段と、
    この第一段階判定手段により前記各差の全てが前記第一の閾値ηよりも大きいかまたは前記第一の閾値η以上と判定された場合に、前記最小の話者性尤度の話者を唯一の候補者とし、前記最小の話者性尤度が、予め各話者毎に設定された第二の閾値θminと第三の閾値θmaxとの間の範囲に入るか否かを判定し、これらの閾値θmin,θmaxの間の範囲に入ると判定したときには前記候補者を受理し、入らないと判定したときには棄却する第二段階唯一候補者判定手段と、
    前記第一段階判定手段により前記各差のうちの少なくとも一つの差が前記第一の閾値η以下または前記第一の閾値ηよりも小さいと判定された場合に、以下または小さいと判定された差となっている話者性尤度の話者および前記最小の話者性尤度の話者を複数の候補者とし、前記入力データ用特徴パラメータ作成手段により作成された前記特徴パラメータと前記第二コードブック記憶手段に記憶された前記第二のコードブックとを用いて前記複数の各候補者についての絶対値平均ベクトル誤差を算出する絶対値平均ベクトル誤差算出手段と、
    この絶対値平均ベクトル誤差算出手段により算出された絶対値平均ベクトル誤差のうち最小の絶対値平均ベクトル誤差が、前記第二の閾値θminと前記第三の閾値θmaxとの間の範囲に入るか否かを判定し、これらの閾値θmin,θmaxの間の範囲に入ると判定したときには前記最小の絶対値平均ベクトル誤差の候補者を受理し、入らないと判定したときには棄却する第二段階複数候補者判定手段と
    を備えたことを特徴とする話者識別システムとして、コンピュータを機能させるためのプログラム。
JP2002209662A 2002-07-18 2002-07-18 話者識別方法およびそのシステム、並びにプログラム Expired - Fee Related JP4098015B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002209662A JP4098015B2 (ja) 2002-07-18 2002-07-18 話者識別方法およびそのシステム、並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002209662A JP4098015B2 (ja) 2002-07-18 2002-07-18 話者識別方法およびそのシステム、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2004053821A true JP2004053821A (ja) 2004-02-19
JP4098015B2 JP4098015B2 (ja) 2008-06-11

Family

ID=31933452

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002209662A Expired - Fee Related JP4098015B2 (ja) 2002-07-18 2002-07-18 話者識別方法およびそのシステム、並びにプログラム

Country Status (1)

Country Link
JP (1) JP4098015B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008117626A1 (ja) * 2007-03-27 2008-10-02 Nec Corporation 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
CN111583938A (zh) * 2020-05-19 2020-08-25 威盛电子股份有限公司 电子装置与语音识别方法
KR20200142666A (ko) * 2019-06-13 2020-12-23 대한민국(관리부서: 행정안전부 국립과학수사연구원장) 음성파일에 대한 화자인식장치 및 음성파일에 대한 화자인식시스템 그리고 음성파일에 대한 화자인식방법
JP2021520511A (ja) * 2018-12-03 2021-08-19 グーグル エルエルシーGoogle LLC テキスト非依存話者認識
JP7473910B2 (ja) 2020-03-27 2024-04-24 株式会社フュートレック 話者認識装置、話者認識方法およびプログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008117626A1 (ja) * 2007-03-27 2008-10-02 Nec Corporation 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
US8452596B2 (en) 2007-03-27 2013-05-28 Nec Corporation Speaker selection based at least on an acoustic feature value similar to that of an utterance speaker
JP5229219B2 (ja) * 2007-03-27 2013-07-03 日本電気株式会社 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
JP2021520511A (ja) * 2018-12-03 2021-08-19 グーグル エルエルシーGoogle LLC テキスト非依存話者認識
US11527235B2 (en) 2018-12-03 2022-12-13 Google Llc Text independent speaker recognition
KR20200142666A (ko) * 2019-06-13 2020-12-23 대한민국(관리부서: 행정안전부 국립과학수사연구원장) 음성파일에 대한 화자인식장치 및 음성파일에 대한 화자인식시스템 그리고 음성파일에 대한 화자인식방법
KR102203161B1 (ko) * 2019-06-13 2021-01-14 대한민국 음성파일에 대한 화자인식장치 및 음성파일에 대한 화자인식시스템 그리고 음성파일에 대한 화자인식방법
JP7473910B2 (ja) 2020-03-27 2024-04-24 株式会社フュートレック 話者認識装置、話者認識方法およびプログラム
CN111583938A (zh) * 2020-05-19 2020-08-25 威盛电子股份有限公司 电子装置与语音识别方法
CN111583938B (zh) * 2020-05-19 2023-02-03 威盛电子股份有限公司 电子装置与语音识别方法

Also Published As

Publication number Publication date
JP4098015B2 (ja) 2008-06-11

Similar Documents

Publication Publication Date Title
Li et al. Cn-celeb: multi-genre speaker recognition
US9318103B2 (en) System and method for recognizing a user voice command in noisy environment
CN100351899C (zh) 网络环境中语音处理的中间体
US20070027687A1 (en) Automatic donor ranking and selection system and method for voice conversion
Das et al. Recognition of isolated words using features based on LPC, MFCC, ZCR and STE, with neural network classifiers
Kekre et al. Speaker identification by using vector quantization
US20220343895A1 (en) User-defined keyword spotting
JP2016057461A (ja) 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
JP2011053563A (ja) 音声データ内の音声キーワード照合システム、その方法及び音声データ内の音声キーワード照合プログラム
Shahin et al. Talking condition recognition in stressful and emotional talking environments based on CSPHMM2s
CN113744742B (zh) 对话场景下的角色识别方法、装置和系统
Ananthi et al. Speech recognition system and isolated word recognition based on Hidden Markov model (HMM) for Hearing Impaired
Badhon et al. State of art research in bengali speech recognition
Wu et al. Speaker identification based on the frame linear predictive coding spectrum technique
Rabiner et al. Historical Perspective of the Field of ASR/NLU
JP2004053821A (ja) 話者識別方法およびそのシステム、並びにプログラム
Trabelsi et al. A multi level data fusion approach for speaker identification on telephone speech
Larcher et al. Constrained temporal structure for text-dependent speaker verification
CN113990288A (zh) 一种语音客服自动生成部署语音合成模型的方法及系统
Hmich et al. Automatic speaker identification by using the neural network
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム
JPH10254473A (ja) 音声変換方法及び音声変換装置
Kuah et al. A neural network-based text independent voice recognition system
JP5136621B2 (ja) 情報検索装置及び方法
Abd El-Moneim et al. Effect of reverberation phenomena on text-independent speaker recognition based deep learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050707

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20050707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20050707

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080312

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110321

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees