JP2004286805A

JP2004286805A - 話者識別装置および話者識別方法、並びにプログラム

Info

Publication number: JP2004286805A
Application number: JP2003075578A
Authority: JP
Inventors: Haru Kato; 晴加藤; Koji Asano; 康治浅野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-03-19
Filing date: 2003-03-19
Publication date: 2004-10-14

Abstract

【課題】話者識別の精度を向上させる。
【解決手段】有効区間設定部１３３は、ユーザの音声の音声認識結果を取得し、その音声認識結果に基づいて、話者識別処理に用いる音声の区間である有効区間を設定して、話者識別処理部１３４に供給する。話者識別処理部１３４は、有効区間設定部１３３から供給される有効区間の特徴ベクトル系列を、特徴ベクトルバッファ１１４から読み出し、その特徴ベクトル系列を用い、登録話者記憶部１３２に情報が記憶されている話者（ユーザ）を対象とした話者識別処理を行う。本発明は、例えば話者識別機能を搭載したロボットに適用できる。
【選択図】図９

Description

【０００１】
【発明の属する技術分野】
本発明は、話者識別装置および話者識別方法、並びにプログラムに関し、特に、話者識別処理の精度を高めることができるようにする話者識別装置および話者識別方法、並びにプログラムに関する。
【０００２】
【従来の技術】
最近、例えば、エンタテイメントその他の用途において、ロボットのニーズが高まってきている。さらに、特に、エンタテイメント用のロボットについては、音声認識や話者識別の機能を搭載し、ユーザが誰であるのかを識別し、その識別したユーザとの対話を行うことができるようにすることが要請されている。即ち、ロボットにおいて、ユーザが誰であるのかを識別し、ユーザとの対話を行うことにより、例えば、話しかけてきたユーザを識別し、そのユーザの名前を呼びかけること等が可能となり、ロボットのエンタテイメント性を一層高めることができる。
【０００３】
ここで、話者識別の方法としては、テキスト依存型話者認識、テキスト独立型話者認識、テキスト指定型話者認識が一般的に知られている（例えば、非特許文献１参照）。
【０００４】
また、話者識別は、一般には、入力されたユーザの音声の区間（後述する発話区間）全体を対象に行われることが多いが、音声のうちの有声音だけを対象として行う方法も提案されている（例えば、特許文献１参照）
【０００５】
【非特許文献１】
古井貞煕、「音声情報処理」第６章、森北出版株式会社
【０００６】
【特許文献１】
特開平６−３１８０９８号公報。
【０００７】
【発明が解決しようとする課題】
話者識別を、入力されたユーザの音声の区間全体を対象に行う場合、その区間には、ユーザの音声が存在する音声区間の前後の部分や無音部分などの話者識別に有効でない部分、さらには、話者識別に悪影響を与える部分が含まれていることがある。そして、この場合、話者識別の識別精度が劣化することになる。
【０００８】
そこで、特許文献１では、ユーザの音声から、例えば、パワー情報に基づいて有声音（の区間）を取り出し、その有声音のみを対象に、話者識別を行う方法が提案されている。従って、特許文献１に記載の話者識別の方法では、有声音以外、即ち、例えば、無音部分や雑音部分は勿論、無声音なども、話者識別に用いられない。
【０００９】
ところで、音声によって、話者（ユーザ）を識別するだけの場合、即ち、例えば、セキュリティの確保などのために、音声によって、話者を識別する場合には、ユーザの音声から有声音以外を削除し、残った有声音によって話者識別を行うだけで足りる。
【００１０】
しかしながら、エンタテイメント用のロボットなどについては、話者（ユーザ）を、その音声によって識別した上で、さらに、その音声を音声認識し、その音声認識結果を利用して、ロボットに行動をとらせたいことがある。従って、話者識別において、ユーザの音声から、有声音以外の部分を削除してしまうと、音声認識時には、元の音声から特徴抽出を行わねばならない。即ち、音声による話者識別は、一般に、ユーザの音声からその特徴量を抽出し、その特徴量を用いて行われるが、話者識別において、ユーザの音声から、有声音以外の部分を削除し、有声音についてだけ特徴量を抽出する場合には、音声認識において、その有声音と有声音以外の部分のすべてを含むユーザの音声から、再び、特徴量を抽出しなければならない。
【００１１】
また、有声音だけを対象として、話者識別を行う場合には、雑音だけの部分（雑音部分）が話者識別の対象とならないので、話者識別の精度を向上させることができる。
【００１２】
しかしながら、ユーザの音声において、そのユーザの特徴が反映されるのは、有声音だけに限られない。即ち、無音部分（例えば、破裂音における無音部分）や無声音などにも、ユーザの特徴が反映される。
【００１３】
従って、有声音だけを対象とし、ユーザの特徴が含まれる無音部分や無声音を対象とせずに、話者識別を行うのは、ユーザの特徴が含まれる部分を用いない分だけ、話者識別精度が劣化するおそれがある。
【００１４】
本発明は、このような状況に鑑みてなされたものであり、話者識別の精度を、より向上させることができるようにするものである。
【００１５】
【課題を解決するための手段】
本発明の話者識別装置は、音声認識結果に基づいて、話者の識別に用いる音声の区間である有効区間を設定する設定手段と、有効区間の音声に基づいて、話者を識別する識別処理を行う識別手段とを備えることを特徴とする。
【００１６】
本発明の話者識別方法は、音声認識結果に基づいて、話者の識別に用いる音声の区間である有効区間を設定する設定ステップと、有効区間の音声に基づいて、話者を識別する識別処理を行う識別ステップとを備えることを特徴とする。
【００１７】
本発明のプログラムは、音声認識結果に基づいて、話者の識別に用いる音声の区間である有効区間を設定する設定ステップと、有効区間の音声に基づいて、話者を識別する識別処理を行う識別ステップとを備えることを特徴とする。
【００１８】
本発明の話者識別装置および話者識別方法、並びにプログラムにおいては、音声認識結果に基づいて、話者の識別に用いる音声の区間である有効区間が設定され、その有効区間の音声に基づいて、話者を識別する識別処理が行われる。
【００１９】
【発明の実施の形態】
図１は、本発明を適用した２足歩行型のロボット１の正面方向の斜視図であり、図２は、ロボット１の背面方向からの斜視図である。また、図３は、ロボット１の軸構成について説明するための斜視図である。
【００２０】
ロボット１は、胴体部ユニット１１の上部に頭部ユニット１２が配設されるとともに、胴体部ユニット１１の上部左右に、同様の構成を有する腕部ユニット１３Ａおよび１３Ｂが所定位置にそれぞれ取り付けられ、かつ、胴体部ユニット１１の下部左右に、同様の構成を有する脚部ユニット１４Ａおよび１４Ｂが所定位置にそれぞれ取り付けられることにより構成されている。頭部ユニット１２には、タッチセンサ５１が設けられている。
【００２１】
胴体部ユニット１１においては、体幹上部を形成するフレーム２１および体幹下部を形成する腰ベース２２が、腰関節機構２３を介して連結することにより構成されており、体幹下部の腰ベース２２に固定された腰関節機構２３のアクチュエータＡ１、および、アクチュエータＡ２をそれぞれ駆動することによって、体幹上部を、図３に示す直交するロール軸２４およびピッチ軸２５の回りに、それぞれ独立に回転させることができるようになされている。
【００２２】
また頭部ユニット１２は、フレーム２１の上端に固定された肩ベース２６の上面中央部に首関節機構２７を介して取り付けられており、首関節機構２７のアクチュエータＡ３およびＡ４をそれぞれ駆動することによって、図３に示す直交するピッチ軸２８およびヨー軸２９の回りに、それぞれ独立に回転させることができるようになされている。
【００２３】
更に、腕部ユニット１３Ａおよび１３Ｂは、肩関節機構３０を介して肩ベース２６の左右にそれぞれ取り付けられており、対応する肩関節機構３０のアクチュエータＡ５およびＡ６をそれぞれ駆動することによって、図３に示す、直交するピッチ軸３１およびロール軸３２の回りに、それぞれを独立に回転させることができるようになされている。
【００２４】
腕部ユニット１３Ａおよび１３Ｂは、上腕部を形成するアクチュエータＡ７の出力軸に、肘関節機構３３を介して、前腕部を形成するアクチュエータＡ８が連結され、前腕部の先端に手部３４が取り付けられることにより構成されている。
【００２５】
そして腕部ユニット１３Ａおよび１３Ｂでは、アクチュエータＡ７を駆動することによって、前腕部を図３に示すヨー軸３５に対して回転させることができ、アクチュエータＡ８を駆動することによって、前腕部を図３に示すピッチ軸３６に対して回転させることができるようになされている。
【００２６】
脚部ユニット１４Ａおよび１４Ｂは、股関節機構３７を介して、体幹下部の腰ベース２２にそれぞれ取り付けられており、対応する股関節機構３７のアクチュエータＡ９乃至Ａ１１をそれぞれ駆動することによって、図３に示す、互いに直交するヨー軸３８、ロール軸３９、およびピッチ軸４０に対して、それぞれ独立に回転させることができるようになされている。
【００２７】
脚部ユニット１４Ａおよび１４Ｂは、大腿部を形成するフレーム４１の下端が、膝関節機構４２を介して、下腿部を形成するフレーム４３に連結されるとともに、フレーム４３の下端が、足首関節機構４４を介して、足部４５に連結されることにより構成されている。
【００２８】
これにより脚部ユニット１４Ａおよび１４Ｂにおいては、膝関節機構４２を形成するアクチュエータＡ１２を駆動することによって、図３に示すピッチ軸４６に対して、下腿部を回転させることができ、また足首関節機構４４のアクチュエータＡ１３およびＡ１４をそれぞれ駆動することによって、図３に示す直交するピッチ軸４７およびロール軸４８に対して、足部４５をそれぞれ独立に回転させることができるようになされている。
【００２９】
また、胴体部ユニット１１の体幹下部を形成する腰ベース２２の背面側には、後述するメイン制御部６１や周辺回路６２（いずれも図４）などを内蔵したボックスである、制御ユニット５２が配設されている。
【００３０】
図４は、ロボット１のアクチュエータとその制御系等の構成例を示している。
【００３１】
制御ユニット５２には、ロボット１全体の動作制御をつかさどるメイン制御部６１、電源回路および通信回路などの周辺回路６２、および、バッテリ７４（図５）などが収納されている
【００３２】
そして、制御ユニット５２は、各構成ユニット（胴体部ユニット１１、頭部ユニット１２、腕部ユニット１３Ａおよび１３Ｂ、並びに、脚部ユニット１４Ａおよび１４Ｂ）内にそれぞれ配設されたサブ制御部６３Ａ乃至６３Ｄと接続されており、サブ制御部６３Ａ乃至６３Ｄに対して必要な電源電圧を供給したり、サブ制御部６３Ａ乃至６３Ｄと通信を行う。
【００３３】
また、サブ制御部６３Ａ乃至６３Ｄは、対応する構成ユニット内のアクチュエータＡ１乃至Ａ１４と、それぞれ接続されており、メイン制御部６１から供給された各種制御コマンドに基づいて、構成ユニット内のアクチュエータＡ１乃至Ａ１４を、指定された状態に駆動させるように制御する。
【００３４】
図５は、ロボット１の電気的な内部構成例を示すブロック図である。
【００３５】
頭部ユニット１２には、ロボット１の「目」として機能するＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）カメラ８１Ｌおよび８１Ｒ、「耳」として機能するマイクロホン８２、タッチセンサ５１、並びに超音波センサ８３などからなる外部センサ部７１、および、「口」として機能するスピーカ７２などがそれぞれ所定位置に配設され、制御ユニット５２内には、バッテリセンサ９１および加速度センサ９２などからなる内部センサ部７３が配設されている。
【００３６】
そして、外部センサ部７１のＣＣＤカメラ８１Ｌおよび８１Ｒは、周囲の状況を撮像し、得られた画像信号Ｓ１Ａを、メイン制御部６１に送出する。マイクロホン８２は、ユーザから音声入力として与えられる「歩け」、「とまれ」または「右手を挙げろ」等の各種命令音声や周囲の背景雑音を集音し、得られた音声信号Ｓ１Ｂを、メイン制御部６１にそれぞれ送出する。なお、マイクロホン８２は、１つだけ設けても良いし、複数設けるようにしても良い。
【００３７】
また、タッチセンサ５１は、例えば、図１および図２に示されるように頭部ユニット１２の上部に設けられており、ユーザからの「撫でる」や「叩く」といった物理的な働きかけにより受けた圧力を検出し、その検出結果を、圧力検出信号Ｓ１Ｃとしてメイン制御部６１に送出する。
【００３８】
超音波センサ８３は、図示せぬ音源とマイクを有し、超音波センサ８３の内部の音源から、超音波パルスを発する。さらに、超音波センサ８３は、その超音波パルスがユーザその他の物体で反射され、返ってくる反射波を、マイクで受信し、超音波パルスを発してから、反射波を受信するまでの時間（以下、適宜、ラグ時間という）Ｓ１Ｄを求め、メイン制御部６１に送出する。
【００３９】
内部センサ部７３のバッテリセンサ９１は、バッテリ７４のエネルギ残量を所定の周期で検出し、検出結果をバッテリ残量検出信号Ｓ２Ａとして、メイン制御部６１に送出する。加速度センサ９２は、ロボット１の移動について、３軸方向（ｘ軸、ｙ軸およびｚ軸）の加速度を、所定の周期で検出し、その検出結果を、加速度検出信号Ｓ２Ｂとして、メイン制御部６１に送出する。
【００４０】
外部メモリ７５は、プログラムやデータ、および制御パラメータなどを記憶しており、そのプログラムやデータを必要に応じてメイン制御部６１に内蔵されるメモリ６１Ａに供給する。また、外部メモリ７５は、データ等をメモリ６１Ａから受け取り、記憶する。なお、外部メモリ７５は、ロボット１から着脱可能となされている。
【００４１】
通信部７６は、例えば、インターネット上のサイトや、リモートコマンダその他の通信可能な機器との間での通信を制御する。例えば、通信部７６において、インターネットの所定のサイトからプログラムをダウンロードすることにより、メモリ６１Ａや外部メモリ７５に記憶されたプログラムやデータなどをバージョンアップすることができる。また、通信部７６は、例えば、ＣＣＤカメラ８１Ｌおよび８１Ｒで撮像した画像や、マイクロホン８２で収集した音声などを、外部のコンピュータや、外出先のユーザの携帯電話機その他のＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）などに送信することができる。
【００４２】
メイン制御部６１は、メモリ６１ＡとＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）６１Ｂを内蔵している。メモリ６１Ａは、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）やアプリケーションなどのプログラム、必要なデータなどを記憶しており、ＣＰＵ６１Ｂは、メモリ６１Ａに記憶されたプログラムを実行することで、各種の処理を行う。即ち、メイン制御部６１は、外部センサ部７１のＣＣＤカメラ８１Ｌおよび８１Ｒ、マイクロホン８２、タッチセンサ５１、および超音波センサ８３からそれぞれ供給される、画像信号Ｓ１Ａ、音声信号Ｓ１Ｂ、圧力検出信号Ｓ１Ｃ、およびラグ時間Ｓ１Ｄ（以下、これらをまとめて外部センサ信号Ｓ１と称する）と、内部センサ部７３のバッテリセンサ９１および加速度センサ等からそれぞれ供給される、バッテリ残量検出信号Ｓ２Ａおよび加速度検出信号Ｓ２Ｂ（以下、これらをまとめて内部センサ信号Ｓ２と称する）に基づいて、ロボット１の周囲および内部の状況や、ユーザからの指令、または、ユーザからの働きかけの有無などを判断する。
【００４３】
そして、メイン制御部６１は、ロボット１の周囲および内部の状況や、ユーザからの指令、または、ユーザからの働きかけの有無の判断結果と、内部メモリ６１Ａに予め格納されている制御プログラム、あるいは、そのとき装填されている外部メモリ７５に格納されている各種制御パラメータなどに基づいて、ロボット１の行動を決定し、その決定結果に基づく制御コマンドを生成して、対応するサブ制御部６３Ａ乃至６３Ｄに送出する。サブ制御部６３Ａ乃至６３Ｄは、メイン制御部６１から供給された制御コマンドに基づいて、アクチュエータＡ１乃至Ａ１４のうち、対応するものの駆動を制御する。これにより、ロボット１は、例えば、頭部ユニット１２を上下左右に揺動かさせたり、腕部ユニット１３Ａ、あるいは、腕部ユニット１３Ｂを上に挙げたり、脚部ユニット１４Ａと１４Ｂを交互に駆動させて、歩行するなどの行動を行う。
【００４４】
また、メイン制御部６１は、必要に応じて、所定の音声信号Ｓ３をスピーカ７２に与えることにより、音声信号Ｓ３に基づく音声を外部に出力させる（ロボット１に発話を行わせる）。更に、メイン制御部６１は、外見上の「目」として機能する、頭部ユニット１２の所定位置に設けられた、図示しないＬＥＤに対して駆動信号を出力することにより、ＬＥＤを点滅させる。
【００４５】
このようにして、ロボット１は、周囲および内部の状況（状態）や、ユーザからの指令および働きかけの有無などに基づいて、自律的に行動する。
【００４６】
図６は、図５のメイン制御部６１の機能的構成例を示している。なお、図６に示す機能的構成は、メイン制御部６１のＣＰＵ６１Ｂが、メモリ６１Ａに記憶されたプログラムを実行することで実現されるようになっている。
【００４７】
メイン制御部６１は、特定の外部状態を認識する状態認識情報処理部１０１、状態認識情報処理部１０１の認識結果等に基づいて更新される、ロボット１の感情、本能、あるいは、成長の状態などのモデルを記憶するモデル記憶部１０２、状態認識情報処理部１０１の認識結果等に基づいて、ロボット１の行動を決定する行動決定機構部１０３、行動決定機構部１０３の決定結果に基づいて、実際にロボット１に行動を起こさせる姿勢遷移機構部１０４、合成音を生成する音声合成部１０５、から構成されている。
【００４８】
状態認識情報処理部１０１には、マイクロホン８２や、ＣＣＤカメラ８１Ｌおよび８１Ｒ、タッチセンサ５１等から音声信号、画像信号、圧力検出信号等が入力される。そして、状態認識情報処理部１０１は、マイクロホン８２や、ＣＣＤカメラ８１Ｌおよび８１Ｒ、タッチセンサ５１等から与えられる音声信号、画像信号、圧力検出信号等に基づいて、特定の外部状態や、ユーザからの特定の働きかけ、ユーザからの指示等を認識し、その認識結果を表す状態認識情報を、モデル記憶部１０２および行動決定機構部１０３に出力する。
【００４９】
状態認識情報処理部１０１は、音声認識部１０１Ａ、画像認識部１０１Ｂ、および圧力処理部１０１Ｃを有している。
【００５０】
音声認識部１０１Ａは、マイクロホン８２から与えられる音声信号Ｓ１Ｂについて音声認識を行う。そして、音声認識部１０１Ａは、例えば、「歩け」、「止まれ」、「右手を挙げろ」等の指令、その他の音声認識結果を、状態認識情報として、モデル記憶部１０２および行動決定機構部１０３に通知する。
【００５１】
さらに、音声認識部１０１Ａは、マイクロホン８２から与えられる音声信号Ｓ１Ｂを対象に話者識別も行う。音声認識部１０１Ａは、その話者識別の結果も、状態認識情報に含めて、モデル記憶部１０２および行動決定機構部１０３に通知する。
【００５２】
画像認識部１０１Ｂは、ＣＣＤカメラ８１Ｌおよび８１Ｒから与えられる画像信号Ｓ１Ａを用いて、画像認識処理を行う。そして、画像認識部１０１Ｂは、その処理の結果、例えば、「赤い丸いもの」や、「地面に対して垂直なかつ所定高さ以上の平面」等を検出したときには、「ボールがある」や、「壁がある」等の画像認識結果を、状態認識情報として、モデル記憶部１０２および行動決定機構部１０３に通知する。
【００５３】
ここで、ユーザは、一般に、ロボット１の正面方向から話しかけることが多いと予想されるため、周囲の状況を撮像するＣＣＤカメラ８１Ｌおよび８１Ｒは、その撮像方向が、ロボット１の正面方向になるように、頭部ユニット１２（図１）に設置されているものとする。
【００５４】
なお、ユーザが、ロボット１の正面方向からはずれた、例えば、側面や背面方向などから話しかけてきた場合には、ＣＣＤカメラ８１Ｌおよび８１Ｒにおいて、ユーザを撮像することができないことになる。そこで、例えば、マイクロホン８２に到達する音声信号のパワー差や位相差から音源の方向を推定し、最大の音声レベルが得られるものの方向に、頭部ユニット１２を動かすことによって、ＣＣＤカメラ８１Ｌおよび８１Ｒにおいて、ユーザを撮像することができるようにすることが可能である。
【００５５】
また、例えば、マイクロホン８２として、ＣＣＤカメラ８１Ｌおよび８１Ｒの撮像方向と同一方向の指向性を有するマイクロホンを採用し、マイクロホン８２に入力される音声レベルが最大となる方向に、頭部ユニット１２を動かし、これにより、ＣＣＤカメラ８１Ｌおよび８１Ｒにおいて、ユーザを撮像することができるようにすることも可能である。
【００５６】
圧力処理部１０１Ｃは、タッチセンサ５１から与えられる圧力検出信号Ｓ１Ｃを処理する。そして、圧力処理部１０１Ｃは、その処理の結果、例えば、所定の閾値以上で、かつ短時間の圧力を検出したときには、「叩かれた（しかられた）」と認識し、所定の閾値未満で、かつ長時間の圧力を検出したときには、「撫でられた（ほめられた）」と認識して、その認識結果を、状態認識情報として、モデル記憶部１０２および行動決定機構部１０３に通知する。
【００５７】
状態認識情報処理部１０１には、その他、超音波センサ８３の出力も供給されるようになっており、状態認識情報処理部１０１は、超音波センサ８３の出力に応じて、所定の物体までの距離を求め、行動決定機構部１０３に供給する。
【００５８】
モデル記憶部１０２は、ロボット１の感情、本能、成長の状態を表現する感情モデル、本能モデル、成長モデルをそれぞれ記憶、管理している。
【００５９】
ここで、感情モデルは、例えば、「うれしさ」、「悲しさ」、「怒り」、「楽しさ」等の感情の状態（度合い）を、所定の範囲（例えば、−１．０乃至１．０等）の値によってそれぞれ表し、状態認識情報処理部１０１からの状態認識情報や時間経過等に基づいて、その値を変化させる。本能モデルは、例えば、「食欲」、「睡眠欲」、「運動欲」等の本能による欲求の状態（度合い）を、所定の範囲の値によってそれぞれ表し、状態認識情報処理部１０１からの状態認識情報や時間経過等に基づいて、その値を変化させる。成長モデルは、例えば、「幼年期」、「青年期」、「熟年期」、「老年期」等の成長の状態（度合い）を、所定の範囲の値によってそれぞれ表し、状態認識情報処理部１０１からの状態認識情報や時間経過等に基づいて、その値を変化させる。
【００６０】
モデル記憶部１０２は、上述のようにして感情モデル、本能モデル、成長モデルの値で表される感情、本能、成長の状態を、状態情報として、行動決定機構部１０３に送出する。
【００６１】
なお、モデル記憶部１０２には、状態認識情報処理部１０１から状態認識情報が供給される他、行動決定機構部１０３から、ロボット１の現在または過去の行動、具体的には、例えば、「長時間歩いた」などの行動の内容を示す行動情報が供給されるようになっており、モデル記憶部１０２は、同一の状態認識情報が与えられても、行動情報が示すロボット１の行動に応じて、異なる状態情報を生成するようになっている。
【００６２】
即ち、例えば、ロボット１が、ユーザに挨拶をし、ユーザに頭を撫でられた場合には、ユーザに挨拶をしたという行動情報と、頭を撫でられたという状態認識情報とが、モデル記憶部１０２に与えられ、この場合、モデル記憶部１０２では、「うれしさ」を表す感情モデルの値が増加される。
【００６３】
一方、ロボット１が、何らかの仕事を実行中に頭を撫でられた場合には、仕事を実行中であるという行動情報と、頭を撫でられたという状態認識情報とが、モデル記憶部１０２に与えられ、この場合、モデル記憶部１０２では、「うれしさ」を表す感情モデルの値は変化されない。
【００６４】
このように、モデル記憶部１０２は、状態認識情報だけでなく、現在または過去のロボット１の行動を示す行動情報も参照しながら、感情モデルの値を設定する。これにより、例えば、何らかのタスクを実行中に、ユーザが、いたずらするつもりで頭を撫でたときに、「うれしさ」を表す感情モデルの値を増加させるような、不自然な感情の変化が生じることを回避することができる。
【００６５】
なお、モデル記憶部１０２は、本能モデルおよび成長モデルについても、感情モデルにおける場合と同様に、状態認識情報および行動情報の両方に基づいて、その値を増減させるようになっている。また、モデル記憶部１０２は、感情モデル、本能モデル、成長モデルそれぞれの値を、他のモデルの値にも基づいて増減させるようになっている。
【００６６】
行動決定機構部１０３は、状態認識情報処理部１０１からの状態認識情報や、モデル記憶部１０２からの状態情報、時間経過等に基づいて、次の行動を決定し、決定された行動の内容が、例えば、「ダンスをする」というような音声認識処理や画像認識処理を必要としない場合、その行動の内容を、行動指令情報として、姿勢遷移機構部１０４に送出する。
【００６７】
すなわち、行動決定機構部１０３は、ロボット１がとり得る行動をステート（状態：ｓｔａｔｅ）に対応させた有限オートマトンを、ロボット１の行動を規定する行動モデルとして管理しており、この行動モデルとしての有限オートマトンにおけるステートを、状態認識情報処理部１０１からの状態認識情報や、モデル記憶部１０２における感情モデル、本能モデル、または成長モデルの値、時間経過等に基づいて遷移させ、遷移後のステートに対応する行動を、次にとるべき行動として決定する。
【００６８】
ここで、行動決定機構部１０３は、所定のトリガ（ｔｒｉｇｇｅｒ）があったことを検出すると、ステートを遷移させる。即ち、行動決定機構部１０３は、例えば、現在のステートに対応する行動を実行している時間が所定時間に達したときや、特定の状態認識情報を受信したとき、モデル記憶部１０２から供給される状態情報が示す感情や、本能、成長の状態の値が所定の閾値以下または以上になったとき等に、ステートを遷移させる。
【００６９】
なお、行動決定機構部１０３は、上述したように、状態認識情報処理部１０１からの状態認識情報だけでなく、モデル記憶部１０２における感情モデルや、本能モデル、成長モデルの値等にも基づいて、行動モデルにおけるステートを遷移させることから、同一の状態認識情報が入力されても、感情モデルや、本能モデル、成長モデルの値（状態情報）によっては、ステートの遷移先は異なるものとなる。
【００７０】
また、行動決定機構部１０３では、上述したように、ロボット１の頭部や手足等を動作させる行動指令情報の他、ロボット１に発話を行わせる行動指令情報も生成される。ロボット１に発話を行わせる行動指令情報は、音声合成部１０５に供給されるようになっており、音声合成部１０５に供給される行動指令情報には、音声合成部１０５に生成させる合成音に対応するテキスト等が含まれる。そして、音声合成部１０５は、行動決定機構部１０３から行動指令情報を受信すると、その行動指令情報に含まれるテキストに基づき、合成音を生成し、スピーカ７２に供給して出力させる。
【００７１】
姿勢遷移機構部１０４は、上述したように、行動決定機構部１０３から供給される行動指令情報に基づいて、ロボット１の姿勢を、現在の姿勢から次の姿勢に遷移させるための姿勢遷移情報を生成し、これをサブ制御部６３Ａ乃至６３Ｄに送出する。
【００７２】
次に、図７は、図６の音声認識部１０１Ａの構成例を示している。
【００７３】
図５のマイクロホン８２が出力するアナログの音声信号は、Ａ／Ｄ（Ａｎａｌｏｇ／Ｄｉｇｉｔａｌ）変換部１１１に供給される。Ａ／Ｄ変換部１１１は、マイクロホン８２からのアナログの音声信号をＡ／Ｄ変換し、ディジタルの音声データにして、音声検出部１１２と特徴抽出部１１３とに供給する。
【００７４】
音声検出部１１２は、Ａ／Ｄ変換部１１１の出力から、ユーザの音声が入力されている（と思われる）区間を、発話区間として検出し、その発話区間における音声データを処理するように、特徴抽出部１１３、特徴ベクトルバッファ１１４、マッチング部１１５、および話者識別部１１９を制御する。ここで、発話区間の検出方法としては、例えば、Ａ／Ｄ変換部１１１の出力のパワー（例えば、ある期間ごとの平均パワーなど）が所定値以上（より大）の区間を、発話区間として検出する方法がある。従って、発話区間として検出される区間には、ユーザの音声の他、雑音だけの部分も含まれることがある。また、ユーザの音声ではない何らかの大きな物音が存在する区間なども、発話区間として検出されることがあり得る。
【００７５】
特徴抽出部１１３は、Ａ／Ｄ変換部１１２からの音声データについて、適当なフレームごとに音響分析処理を施し、これにより、例えば、ＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）等の特徴量としての特徴ベクトルを抽出する。なお、特徴抽出部１１３では、その他、例えば、スペクトルや、線形予測係数、ケプストラム係数、線スペクトル対等の特徴ベクトル（特徴パラメータ）を抽出することが可能である。
【００７６】
特徴抽出部１１３においてフレームごとに得られる特徴ベクトルは、特徴ベクトルバッファ１１４に順次供給されて記憶される。従って、特徴ベクトルバッファ１１４では、フレームごとの特徴ベクトルが時系列に記憶されていく。
【００７７】
なお、特徴ベクトルバッファ１１４は、例えば、音声検出部１１２で検出される発話区間に得られる時系列の特徴ベクトルを記憶する。
【００７８】
マッチング部１１５は、特徴ベクトルバッファ１１４に記憶された特徴ベクトルを用いて、音響モデルデータベース１１６、辞書データベース１１７、および文法データベース１１８を必要に応じて参照しながら、マイクロホン８２に入力された音声（入力音声）を、例えば、連続分布ＨＭＭ法等に基づいて音声認識する。即ち、音響モデルデータベース１１６は、音響モデルとして、例えば、ガウス分布等の確率密度関数を用いたＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を記憶している。辞書データベース１１７は、認識対象の各単語（語彙）について、その発音に関する情報（音韻情報）が記述された単語辞書を記憶している。文法データベース１１８は、辞書データベース１１７の単語辞書に登録されている各単語が、どのように連鎖する（つながる）かを記述した文法規則（言語モデル）を記憶している。ここで、文法規則としては、例えば、文脈自由文法（ＣＦＧ）や、正規文法（ＲＧ）、統計的な単語連鎖確率（Ｎ−ｇｒａｍ）などに基づく規則を用いることができる。
【００７９】
マッチング部１１５は、辞書データベース１１７の単語辞書を参照することにより、音響モデルデータベース１１６に記憶されている音響モデルを接続することで、単語の音響モデル（単語モデル）を構成する。さらに、マッチング部１１５は、幾つかの単語モデルを、文法データベース１１８に記憶された文法規則を参照することにより接続し、そのようにして接続された単語モデルを用いて、時系列の特徴ベクトルとのマッチングを、連続分布ＨＭＭ法によって行い、マイクロホン８２に入力された音声を認識する。即ち、マッチング部１１５は、上述したようにして構成された各単語モデルの系列から、特徴ベクトルバッファ１１４に記憶された時系列の特徴ベクトルが観測される尤度を表すスコアを計算する。そして、マッチング部１１５は、例えば、そのスコアが最も高い単語モデルの系列を検出し、その単語モデルの系列に対応する単語列を、音声の認識結果として出力する。
【００８０】
なお、ここでは、ＨＭＭ法により音声認識が行われるため、マッチング部１１５は、音響的には、接続された単語モデルに対応する単語列について、各特徴ベクトルの出現確率を累積し、その累積値をスコアとする。
【００８１】
即ち、マッチング部１１５におけるスコア計算は、音響モデルデータベース１１６に記憶された音響モデルによって与えられる音響的なスコア（以下、適宜、音響スコアという）と、文法データベース１１８に記憶された文法規則によって与えられる言語的なスコア（以下、適宜、言語スコアという）とを総合評価することで行われる。
【００８２】
具体的には、音響スコアは、例えば、ＨＭＭ法による場合には、単語モデルを構成する音響モデルから、特徴抽出部１１３が出力する特徴ベクトルの系列が観測される確率（出現する確率）に基づいて、単語ごとに計算される。また、言語スコアは、例えば、バイグラムによる場合には、注目している単語と、その単語の直前の単語とが連鎖（連接）する確率に基づいて求められる。そして、各単語についての音響スコアと言語スコアとを総合評価して得られる最終的なスコア（以下、適宜、最終スコアという）に基づいて、音声認識結果が確定される。
【００８３】
ここで、音声認識部１０１Ａは、文法データベース１１８を設けずに構成することも可能である。但し、文法データベース１１８に記憶された規則によれば、接続する単語モデルが制限され、その結果、マッチング部１１５における音響スコアの計算の対象とする単語数が限定されるので、マッチング部１１５の計算量を低減し、処理速度を向上させることができる。
【００８４】
なお、マッチング部１１５は、例えば、最も大きい最終スコアが得られた単語列（または単語）、その最終スコア、ＨＭＭ法において最終スコアが得られたときに確定する、その最終スコアが得られた単語に対応する音声の区間（音声区間）を、音声認識結果として出力する。この音声認識結果は、話者識別部１１９と、図６の行動決定機構部１０３に供給される。
【００８５】
話者識別部１１９は、特徴ベクトルバッファ１１４に記憶された時系列の特徴ベクトルとマッチング部１１５の音声認識結果を用いて、発話を行った話者（ユーザ）が、あらかじめ登録された話者のうち誰であるのかを判定、識別する。マッチング部１１５の音声認識結果には、入力音声（ユーザの音声）における単語（以下、適宜、認識単語という）、その単語の音声区間、最終スコア（音声認識結果の確からしさを表す尤度としてのコンフィデンスメジャー（ＣｏｎｆｉｄｅｎｃｅＭｅａｓｕｒｅ））が含められている。話者識別部１１９は、このような音声認識結果を利用して、例えば、無音部分を除く、有声音のみを用いるなどのルールを適用して話者識別を行う。
【００８６】
話者識別方法には、例えば、発話内容があらかじめ決まっているテキスト依存型、話者識別を行う際の発話内容を提示するテキスト指定型、発話内容に依存しないテキスト独立型などがあるが、話者識別部１１９では、いずれの方法を採用することもできる。さらに、話者識別のアルゴリズムも、特に限定されるものではない。なお、ここでは、例えば、ＨｅｒｂｅｒｔＧｉｓｈ，Ｍａｎ−ＨｕｎｇＳｉｕ，ａｎｄＲｏｂｉｎＲｏｈｌｉｃｅｋ， ”ＳｅｇｒｅｇａｔｉｏｎｏｆＳｐｅａｋｅｒｓｆｏｒＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎａｎｄＳｐｅａｋｅｒＩｄｅｎｔｉｆｉｃａｔｉｏｎ”，ＢＢＮＳｙｓｔｅｍｓａｎｄＴｅｃｈｎｏｌｏｇｉｅｓＰｒｏｃ．ＩＥＥＥＩＣＡＳＳＰ−９１，ｐｐ．８７３−８７６，Ｍａｙ１９９１に記載されているアルゴリズムなどを採用することができる。
【００８７】
話者識別部１１９は、話者識別により、発話を行った話者を特定する話者ＩＤ（Ｉｄｅｎｔｉｆｉｃａｔｉｏｎ）を求め、その話者ＩＤを、音声認識部１０１Ａによる音声認識結果に含めて、図６の行動決定機構部１０３に供給する。
【００８８】
この場合、行動決定機構部１０３は、話者識別部１１９から供給される話者ＩＤによって特定される話者（ユーザ）に応じて、ユーザの発話に対する応答文を生成したり、動作を決定したりといったロボット１の行動（反応）を決定する。
【００８９】
行動決定機構部１０３において、話者（ユーザ）に応じて、ロボット１の行動を決定することにより、ロボット１において、ユーザとのコミュニケーションを円滑に進める行動を行うことが可能となる。
【００９０】
即ち、例えば、ロボットにおいて、複数のユーザの名前を記憶しておき、あるユーザが近づいてきた場合には、そのユーザの名前を発話するようにすることができる。また、例えば、ロボットにおいて、ユーザの過去の発話内容を記憶しておき、そのユーザが近くに寄ってきた場合には、「以前、○○○って言っていたよね」などと、ユーザに話しかけるようにすることができる。さらに、例えば、ロボットにおいて、あるユーザＡとの会話の最中に、他のユーザＢが割り込んできた場合には、一旦は、他のユーザＢの方を向いて会話をし、その会話の終了後、元のユーザＡの方を振り向いて、「ごめんね、××さん。」（××は、ユーザＡの名前）などと発話するようにすることができる。
【００９１】
次に、図８は、音声検出部１１２が検出する発話区間と、マッチング部１１５で得られる音声区間との関係を示している。
【００９２】
音声検出部１１２では、例えば、Ａ／Ｄ変換部１１１の出力のある期間ごとの平均パワーが所定値以上の区間が、発話区間として検出される。従って、発話区間は、図８に示すように、ユーザの音声が存在する部分の他、そのユーザの音声が存在する部分の前後の部分も含む区間となる。図８では、時間ｔ_０乃至ｔ_５の区間が、発話区間として検出されている。但し、ｔ_０＜ｔ_５である。
【００９３】
一方、マッチング部１１５では、例えば、ＨＭＭ法において最終スコアが得られたときに確定する、その最終スコアが得られた単語に対応する音声の区間が、音声区間として得られる。従って、音声区間は、図８に示すように、ユーザの音声が存在する部分だけの区間となる。図８では、時間ｔ_０乃至ｔ_５の発話区間のうち、時間ｔ_１乃至ｔ_２の区間と、時間ｔ_３乃至ｔ_４の区間が、音声区間として検出されている。但し、ｔ_０＜ｔ_１＜ｔ_２＜ｔ_３＜ｔ_４＜ｔ_５である。
【００９４】
次に、図９は、図７の話者識別部１１９の構成例を示している。
【００９５】
話者登録部１３１は、話者識別に使用するユーザの情報と、そのユーザを特定する話者ＩＤとを対応付けて、登録話者記憶部１３２に供給することにより、話者識別の対象とするユーザを登録する。登録話者記憶部１３２は、話者登録部１３１から供給される情報を記憶する。
【００９６】
有効区間設定部１３３には、図７のマッチング部１１５が出力する音声認識結果としての認識単語（列）、最終スコア、および音声区間が供給されるようになっている。有効区間設定部１３３は、音声認識結果のうちの、例えば、最終スコアと音声区間に基づき、話者識別を行うのに有効な区間（以下、適宜、有効区間という）を設定し、話者識別処理部１３４に供給する。
【００９７】
話者識別処理部１３４は、有効区間設定部１３３から供給される有効区間の特徴ベクトル系列を、特徴ベクトルバッファ１１４から読み出し、その特徴ベクトル系列を用い、登録話者記憶部１３２に情報が記憶されている話者（ユーザ）を対象とした話者識別処理を行い、発話を行ったユーザの話者ＩＤを求める。そして、話者識別処理部１３４は、話者識別の結果得られる話者ＩＤを、話者の識別結果として出力する。
【００９８】
言語処理部１３５には、図７のマッチング部１１５が出力する音声認識結果としての認識単語、最終スコア、および音声区間が供給されるようになっている。言語処理部１３５は、音声認識結果のうちの認識単語を言語処理することにより、ユーザの発話内容を理解し、その発話内容に基づいて、同一ユーザによる発話が続いているかどうかを判定する。さらに、言語処理部１３５は、その判定結果に基づいて、話者識別処理部１３４を制御する。
【００９９】
次に、図１０のフローチャートを参照して、図９の話者識別部１１９の処理について説明する。
【０１００】
話者識別部１１９は、例えば、図７のマッチング部１１５から音声認識結果としての認識単語、最終スコア、および音声区間が供給された場合に、処理を開始する。
【０１０１】
即ち、マッチング部１１５から話者識別部１１９に対して、音声認識結果としての認識単語、最終スコア、および音声区間が供給されると、ステップＳ１において、有効区間設定部１３３と言語処理部１３５は、その音声認識結果としての認識単語、最終スコア、および音声区間を受信することにより取得し、ステップＳ２に進む。
【０１０２】
ステップＳ２では、有効区間設定部１３３が、ステップＳ１で取得した最終スコアが所定の条件を満たすかどうか、即ち、例えば、最終スコアが所定の閾値以上（より大）であるかどうかを判定する。ステップＳ２において、最終スコアが所定の閾値以上でないと判定された場合、即ち、マッチング部１１５から供給された音声認識結果の確からしさが低い場合、話者識別部１１９は、ステップＳ３乃至Ｓ７をスキップして、処理を終了する。
【０１０３】
即ち、音声認識結果の確からしさが低い場合は、例えば、大きな物音などの、ユーザの正常な音声以外について音声認識が行われたとして、話者識別部１１９は、話者識別処理を行わない。従って、この場合、誤った話者識別結果が得られることを防止することができる。
【０１０４】
なお、ステップＳ２で用いる閾値は、例えば、実験等によって決定しておくことができる。
【０１０５】
一方、ステップＳ２において、最終スコアが所定の閾値以上であると判定された場合、ステップＳ３に進み、有効区間設定部１３３は、音声区間内のある区間を、話者識別処理部１３４において話者識別処理の対象とする区間である有効区間として設定する。即ち、有効区間設定部１３３は、例えば、音声認識結果としての音声区間を、そのまま有効区間として設定する。また、有効区間設定部１３３は、例えば、音声認識結果としての音声区間から、有声音の部分だけを検出し、その区間を、有効区間として設定する。そして、有効区間設定部１３３は、設定した有効区間を、話者識別処理部１３４に供給して、ステップＳ３からＳ４に進む。
【０１０６】
ステップＳ４では、言語処理部１３５が、ステップＳ１で取得した音声認識結果としての認識単語を言語処理することにより、ユーザの発話内容を理解し、ステップＳ５に進む。ステップＳ５では、言語処理部１３５は、ステップＳ４で理解した発話内容に基づいて、直前の話者識別処理の対象となったユーザと同一ユーザによる発話が続いているかどうかを判定する。ステップＳ５において、直前の話者識別処理の対象となったユーザと同一ユーザによる発話が続いていると判定された場合、話者識別部１１９は、ステップＳ６およびＳ７をスキップして、処理を終了する。
【０１０７】
即ち、直前の話者識別処理の対象となったユーザと同一ユーザによる発話が続いている場合には、発話を行っているユーザは、その直前の話者識別処理によって識別されたユーザであるから、新たに、話者識別処理を行う必要性が低い。そこで、ここでは、直前の話者識別処理の対象となったユーザと同一ユーザによる発話が続いている場合には、話者識別処理部１３４による話者識別処理を停止するようになっている。
【０１０８】
一方、ステップＳ５において、直前の話者識別処理の対象となったユーザと同一ユーザによる発話が続いていると判定された場合、ステップＳ６に進み、話者識別処理部１３４は、ステップＳ３で有効区間設定部１３３から供給された有効区間を対象とした話者識別処理を行う。即ち、話者識別処理部１３４は、有効区間設定部１３３から供給される有効区間の特徴ベクトル系列を、特徴ベクトルバッファ１１４から読み出し、その特徴ベクトル系列を用い、登録話者記憶部１３２に情報が記憶されている話者（ユーザ）を対象とした話者識別処理を行う。
【０１０９】
なお、話者識別処理部１３４で採用する話者識別処理のアルゴリズムは、特に限定されない。また、ここでは、ユーザの音声から得られた特徴ベクトル系列を用いて話者識別処理を行うが、話者識別処理は、その他、例えば、ＣＣＤカメラ８１Ｌおよび８１Ｒがユーザを撮像することにより得られるユーザの画像も用いて行うことが可能である。
【０１１０】
話者識別処理部１３４は、ステップＳ６において話者識別処理を行うことにより、発話を行ったユーザの話者ＩＤを得ると、ステップＳ７に進み、その話者ＩＤを出力して処理を終了する。
【０１１１】
以上のように、話者識別部１１９では、音声認識結果に基づいて、有効区間を設定し、その有効区間の音声に基づいて、話者識別処理を行うので、ユーザの特徴が含まれる、話者識別処理に有効な音声の部分のみを対象として、話者識別処理を行うことができる。そして、その結果、高精度な話者識別結果を得ることができる。
【０１１２】
さらに、話者識別部１１９では、認識単語の最終スコアが大きい場合に、話者識別処理が行われるので、ユーザの音声でない部分を対象として話者識別処理が行われることによる処理精度の劣化を防止することができる。
【０１１３】
また、話者識別部１１９では、認識単語に基づいて、ユーザによる発話内容を理解し、その発話内容に基づいて、同一ユーザによる発話が続いているかどうかを判定し、前回識別したユーザと同一のユーザの発話が続いている場合には、話者識別処理を行わない（停止する）ようにしたので、図５のＣＰＵ６１Ｂの負担を軽減することができる。
【０１１４】
ここで、上述した一連の処理を実行するプログラムは、フレキシブルディスク、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ），ＭＯ（Ｍａｇｎｅｔｏｏｐｔｉｃａｌ）ディスク，ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することができ、メモリ６１Ａにインストールされる。
【０１１５】
さらに、プログラムは、上述したようなリムーバブル記録媒体からメモリ６１Ａにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを受信し、メモリ６１Ａにインストールすることができる。
【０１１６】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【０１１７】
また、話者識別部１１９では、認識単語の最終スコアの大小や、前回識別したユーザと同一のユーザの発話が続いているかどうかにかかわらず、音声認識結果を得た場合に、話者識別処理を行うようにすることが可能である。
【０１１８】
さらに、話者識別部１１９では、音声認識結果が得られるごとに、話者識別処理を行う他、無音がある程度連続した直後のユーザの音声（会話の開始直後のユーザの音声）の音声認識結果が得られた場合だけ、話者識別処理を行うようにすることが可能である。
【０１１９】
また、音声認識部１０１Ａにおいては、音響モデルデータベース１１６の音響モデルを、ユーザ（話者）ごとに適応させる話者適応（モデル適応）を行う機能を設けることができる。この場合、話者識別部１１９において話者識別処理結果としての話者ＩＤが得られた後は、別の話者ＩＤが得られるまでに入力されるユーザの音声を用い、そのユーザについての話者適応を行うようにすることができる。
【０１２０】
なお、本発明は、ロボット以外の話者識別を行う機能を備えるあらゆる装置に適用可能である。
【０１２１】
【発明の効果】
以上の如く、本発明によれば、話者識別の精度を向上させることができる。
【図面の簡単な説明】
【図１】本発明を適用したロボット１の外観構成を示す斜視図である。
【図２】ロボット１の外観構成を示す、背後側の斜視図である。
【図３】ロボット１の軸構成について説明するための略線図である。
【図４】ロボット１の制御系の構成例を示すブロック図である。
【図５】ロボット１の電気的構成例を示すブロック図である。
【図６】メイン制御部６１の機能的構成を示すブロック図である。
【図７】音声認識部１０１Ａの構成例を示すブロック図である。
【図８】発話区間と音声区間を説明する図である。
【図９】話者識別部１１９の構成例を示すブロック図である。
【図１０】話者識別部１１９の処理を説明するフローチャートである。
【符号の説明】
８２マイクロホン，１０１Ａ音声認識部，１１１Ａ／Ｄ変換部，１１２音声検出，１１３特徴抽出部，１１４特徴ベクトルバッファ，１１５マッチング部，１１９話者識別部，１３１話者登録部，１３２登録話者記憶部，１３３有効区間設定部，１３４話者識別処理部，１３５言語処理部

Claims

話者を識別する話者識別装置において、
音声を認識する音声認識手段による前記話者の音声認識結果を取得する取得手段と、
前記音声認識結果に基づいて、前記話者の識別に用いる音声の区間である有効区間を設定する設定手段と、
前記有効区間の音声に基づいて、前記話者を識別する識別処理を行う識別手段と
を備えることを特徴とする話者識別装置。
前記音声認識結果は、前記話者が発話した語彙の音声区間を少なくとも含み、
前記設定手段は、前記音声区間内の区間を、前記有効区間として設定する
ことを特徴とする請求項１に記載の話者識別装置。
前記音声認識結果は、その音声認識結果の確からしさを表すスコアを含み、
前記スコアが所定の条件を満たすかどうかを判定するスコア判定手段をさらに備え、
前記識別手段は、前記スコアが所定の条件を満たす場合に、前記識別処理を行う
ことを特徴とする請求項１に記載の話者識別装置。
前記音声認識結果は、前記話者が発話した語彙を含み、
前記話者が発話した語彙に基づいて、前記話者による発話内容を理解し、その発話内容に基づいて、同一話者による発話が続いているかどうかを判定する発話内容判定手段をさらに備え、
前記識別手段は、前回識別した話者と同一の話者の発話が続いている場合、前記識別処理を停止する
ことを特徴とする請求項１に記載の話者識別装置。
前記音声認識手段をさらに備える
ことを特徴とする請求項１に記載の話者識別装置。
話者を識別する話者識別方法において、
音声を認識する音声認識手段による前記話者の音声認識結果を取得する取得ステップと、
前記音声認識結果に基づいて、前記話者の識別に用いる音声の区間である有効区間を設定する設定ステップと、
前記有効区間の音声に基づいて、前記話者を識別する識別処理を行う識別ステップと
を備えることを特徴とする話者識別方法。
話者を識別する話者識別処理を、コンピュータに行わせるプログラムにおいて、
音声を認識する音声認識手段による前記話者の音声認識結果を取得する取得ステップと、
前記音声認識結果に基づいて、前記話者の識別に用いる音声の区間である有効区間を設定する設定ステップと、
前記有効区間の音声に基づいて、前記話者を識別する識別処理を行う識別ステップと
を備えることを特徴とするプログラム。