JP2002358095A

JP2002358095A - 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体

Info

Publication number: JP2002358095A
Application number: JP2002069603A
Authority: JP
Inventors: Masanori Omote; 雅則表; Lucke Helmut; ルッケヘルムート
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2001-03-30
Filing date: 2002-03-14
Publication date: 2002-12-13
Also published as: US20040030552A1; CN1462428A; KR20030007793A; WO2002080141A1; EP1376536A1; US7228276B2

Abstract

(57)【要約】【課題】辞書の大規模化をさけて、辞書に登録されて
いない未登録語の辞書への登録を容易に行う。【解決手段】クラスタリング部２９において、既に求
められている、未登録語をクラスタリングしたクラスタ
の中から、新未登録語を新たなメンバとして加えるクラ
スタ（検出クラスタ）を検出し、新未登録語を、その検
出クラスタの新たなメンバとして、検出クラスタを、そ
の検出クラスタのメンバに基づいて分割する。これによ
り、未登録語が、その音響的特徴が近似しているものど
うしにクラスタリングされる。さらに、メンテナンス部
３１において、そのようなクラスタリング結果に基づい
て、単語辞書が更新される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声処理装置およ
び音声処理方法、並びにプログラムおよび記録媒体に関
し、特に、例えば、音声認識の対象とする単語等の語句
を登録する辞書を、容易に更新することができるように
する音声処理装置および音声処理方法、並びにプログラ
ムおよび記録媒体に関する。

【０００２】

【従来の技術】従来の音声認識装置においては、音声認
識の対象とする単語が登録された辞書を参照することに
より、ユーザの発話が音声認識される。

【０００３】従って、音声認識装置において、音声認識
の対象となるのは、辞書に登録された単語（以下、適
宜、登録語という）だけであり、辞書に登録されていな
い単語は認識することができない。いま、辞書に登録さ
れていない語彙を未登録語というものとすると、従来の
音声認識装置では、ユーザの発話に、未登録語が含まれ
る場合には、その未登録語が、辞書に登録されているい
ずれかの単語（以下、適宜、登録語という）に認識さ
れ、その結果、未登録語は誤認識される。さらに、未登
録語が誤認識されると、その誤認識が、未登録語の前後
の単語等の認識にも影響する場合があり、この場合、未
登録語の前後の単語等も誤認識されることになる。

【０００４】従って、未登録語については、何らかの対
処を施す必要があり、従来より種々の方法が提案されて
いる。

【０００５】例えば、特開平９−８１１８１号公報に
は、未登録語を検出するためのガーベジモデルと、母音
等の幾つかの音素ごとにクラスタリングされたＨＭＭ(H
iddenMarkov Model)とを同時に用い、未登録語に許可す
る音韻系列を制限することによって、未登録語の検出
を、そのための計算量を低減して行う音声認識装置が開
示されている。

【０００６】また、例えば、特願平１１−２４５４６１
号には、データベースにない未登録語について、単語の
概念に基づき、データベースにある単語との間の類似度
を計算し、未登録語を含む単語の集合について、適切な
並びの単語列を構成して出力する情報処理装置が開示さ
れている。

【０００７】さらに、例えば、"Dictionary Learning:
Performance Through Consistency", Tilo Sloboda, Pr
oceedings of ICASSP 95, vol. 1, pp.453-456, 1995に
は、単語の音声区間に対応する音韻系列を検出し、コン
フュージョンマトリクス(confusion matrix)によって、
音声的に近い音韻系列を削除することにより、効果的
に、異音(variants)を含む辞書を構成する方法が開示さ
れている。

【０００８】また、例えば、「単語発声の複数サンプル
を利用した未知語の音韻系列の推定」、伊藤克亘他、
電子情報通信学会論文誌、Vol. J83-D-II No. 11 pp.21
52-2159, ２０００年１１月には、複数の音声サンプル
から音韻系列を推定し、未知語（未登録語）を辞書に登
録する際の音韻系列の推定精度を向上させる方法が開示
されている。

【０００９】

【発明が解決しようとする課題】ところで、未登録語に
対する対処法のうちの代表的なものの１つとしては、入
力音声に未登録語が含まれる場合に、その未登録語を、
辞書に登録し、以後は、登録語としてしまう方法があ
る。

【００１０】未登録語を辞書に登録するには、まず、そ
の未登録語の音声区間を検出し、その音声区間における
音声の音韻系列を認識する必要がある。ある音声の音韻
系列を認識する方法としては、例えば、音韻タイプライ
タと呼ばれる方法があり、音韻タイプライタでは、基本
的に、すべての音韻に対する自由な遷移を許可するガー
ベジモデルを用いて、入力音声に対する音韻系列が出力
される。

【００１１】さらに、未登録語を辞書に登録するには、
未登録語の音韻系列をクラスタリングする必要がある。
即ち、辞書においては、各単語の音韻系列が、その単語
のクラスタにクラスタリングされて登録されており、未
登録語を辞書に登録するには、その未登録語の音韻系列
をクラスタリングする必要がある。

【００１２】未登録語の音韻系列をクラスタリングする
方法としては、その未登録語を表す見出し（例えば、未
登録語の読み）を、ユーザに入力してもらい、その見出
しで表されるクラスタに、未登録語の音韻系列をクラス
タリングする方法があるが、この方法では、ユーザが見
出しの入力を必要とすることから面倒である。

【００１３】また、未登録語が検出されるたびに、新た
なクラスタを生成し、未登録語の音韻系列を、その新た
なクラスタにクラスタリングする方法がある。しかしな
がら、この方法では、未登録語が検出されるたびに、辞
書に、新たなクラスタに対応するエントリが登録される
こととなるから、辞書が大規模になり、その後の音声認
識に要する処理量や時間が増大することになる。

【００１４】本発明は、このような状況に鑑みてなされ
たものであり、辞書の大規模化をさけて、未登録語の辞
書への登録等を、容易に行うことができるようにするも
のである。

【００１５】

【課題を解決するための手段】本発明の音声処理装置
は、既に求められている、音声をクラスタリングしたク
ラスタの中から、入力音声を新たなメンバとして加える
クラスタを検出するクラスタ検出手段と、入力音声を、
クラスタ検出手段において検出されたクラスタの新たな
メンバとし、そのクラスタを、そのクラスタのメンバに
基づいて分割するクラスタ分割手段と、クラスタ分割手
段によるクラスタの分割結果に基づいて、辞書を更新す
る更新手段とを備えることを特徴とする。

【００１６】本発明の音声処理方法は、既に求められて
いる、音声をクラスタリングしたクラスタの中から、入
力音声を新たなメンバとして加えるクラスタを検出する
クラスタ検出ステップと、入力音声を、クラスタ検出ス
テップにおいて検出されたクラスタの新たなメンバと
し、そのクラスタを、そのクラスタのメンバに基づいて
分割するクラスタ分割ステップと、クラスタ分割ステッ
プによるクラスタの分割結果に基づいて、辞書を更新す
る更新ステップとを備えることを特徴とする。

【００１７】本発明のプログラムは、既に求められてい
る、音声をクラスタリングしたクラスタの中から、入力
音声を新たなメンバとして加えるクラスタを検出するク
ラスタ検出ステップと、入力音声を、クラスタ検出ステ
ップにおいて検出されたクラスタの新たなメンバとし、
そのクラスタを、そのクラスタのメンバに基づいて分割
するクラスタ分割ステップと、クラスタ分割ステップに
よるクラスタの分割結果に基づいて、辞書を更新する更
新ステップとを備えることを特徴とする。

【００１８】本発明の記録媒体は、既に求められてい
る、音声をクラスタリングしたクラスタの中から、入力
音声を新たなメンバとして加えるクラスタを検出するク
ラスタ検出ステップと、入力音声を、クラスタ検出ステ
ップにおいて検出されたクラスタの新たなメンバとし、
そのクラスタを、そのクラスタのメンバに基づいて分割
するクラスタ分割ステップと、クラスタ分割ステップに
よるクラスタの分割結果に基づいて、辞書を更新する更
新ステップとを備えるプログラムが記録されていること
を特徴とする。

【００１９】本発明の音声処理装置および音声処理方
法、並びにプログラムにおいては、既に求められてい
る、音声をクラスタリングしたクラスタの中から、入力
音声を新たなメンバとして加えるクラスタが検出され
る。さらに、入力音声が、検出されたクラスタの新たな
メンバとされ、そのクラスタが、そのクラスタのメンバ
に基づいて分割される。そして、その分割結果に基づい
て、辞書が更新される。

【００２０】

【発明の実施の形態】図１は、本発明を適用したロボッ
トの一実施の形態の外観構成例を示しており、図２は、
その電気的構成例を示している。

【００２１】本実施の形態では、ロボットは、例えば、
犬等の四つ足の動物の形状のものとなっており、胴体部
ユニット２の前後左右に、それぞれ脚部ユニット３Ａ，
３Ｂ，３Ｃ，３Ｄが連結されるとともに、胴体部ユニッ
ト２の前端部と後端部に、それぞれ頭部ユニット４と尻
尾部ユニット５が連結されることにより構成されてい
る。

【００２２】尻尾部ユニット５は、胴体部ユニット２の
上面に設けられたベース部５Ｂから、２自由度をもって
湾曲または揺動自在に引き出されている。

【００２３】胴体部ユニット２には、ロボット全体の制
御を行うコントローラ１０、ロボットの動力源となるバ
ッテリ１１、並びにバッテリセンサ１２および熱センサ
１３からなる内部センサ部１４などが収納されている。

【００２４】頭部ユニット４には、「耳」に相当するマ
イク（マイクロホン）１５、「目」に相当するＣＣＤ(C
harge Coupled Device)カメラ１６、触覚に相当するタ
ッチセンサ１７、「口」に相当するスピーカ１８など
が、それぞれ所定位置に配設されている。また、頭部ユ
ニット４には、口の下顎に相当する下顎部４Ａが１自由
度をもって可動に取り付けられており、この下顎部４Ａ
が動くことにより、ロボットの口の開閉動作が実現され
るようになっている。

【００２５】脚部ユニット３Ａ乃至３Ｄそれぞれの関節
部分や、脚部ユニット３Ａ乃至３Ｄそれぞれと胴体部ユ
ニット２の連結部分、頭部ユニット４と胴体部ユニット
２の連結部分、頭部ユニット４と下顎部４Ａの連結部
分、並びに尻尾部ユニット５と胴体部ユニット２の連結
部分などには、図２に示すように、それぞれアクチュエ
ータ３ＡＡ₁乃至３ＡＡ_K、３ＢＡ₁乃至３ＢＡ_K、３ＣＡ
₁乃至３ＣＡ_K、３ＤＡ₁乃至３ＤＡ_K、４Ａ₁乃至４Ａ_L、
５Ａ₁および５Ａ₂が配設されている。

【００２６】頭部ユニット４におけるマイク１５は、ユ
ーザからの発話を含む周囲の音声（音）を集音し、得ら
れた音声信号を、コントローラ１０に送出する。ＣＣＤ
カメラ１６は、周囲の状況を撮像し、得られた画像信号
を、コントローラ１０に送出する。

【００２７】タッチセンサ１７は、例えば、頭部ユニッ
ト４の上部に設けられており、ユーザからの「なでる」
や「たたく」といった物理的な働きかけにより受けた圧
力を検出し、その検出結果を圧力検出信号としてコント
ローラ１０に送出する。

【００２８】胴体部ユニット２におけるバッテリセンサ
１２は、バッテリ１１の残量を検出し、その検出結果
を、バッテリ残量検出信号としてコントローラ１０に送
出する。熱センサ１３は、ロボット内部の熱を検出し、
その検出結果を、熱検出信号としてコントローラ１０に
送出する。

【００２９】コントローラ１０は、ＣＰＵ(Central Pro
cessing Unit)１０Ａやメモリ１０Ｂ等を内蔵してお
り、ＣＰＵ１０Ａにおいて、メモリ１０Ｂに記憶された
制御プログラムが実行されることにより、各種の処理を
行う。

【００３０】即ち、コントローラ１０は、マイク１５
や、ＣＣＤカメラ１６、タッチセンサ１７、バッテリセ
ンサ１２、熱センサ１３から与えられる音声信号、画像
信号、圧力検出信号、バッテリ残量検出信号、熱検出信
号に基づいて、周囲の状況や、ユーザからの指令、ユー
ザからの働きかけなどの有無を判断する。

【００３１】さらに、コントローラ１０は、この判断結
果等に基づいて、続く行動を決定し、その決定結果に基
づいて、アクチュエータ３ＡＡ₁乃至３ＡＡ_K、３ＢＡ₁
乃至３ＢＡ_K、３ＣＡ₁乃至３ＣＡ_K、３ＤＡ₁乃至３ＤＡ
_K、４Ａ₁乃至４Ａ_L、５Ａ₁、５Ａ₂のうちの必要なもの
を駆動させる。これにより、頭部ユニット４を上下左右
に振らせたり、下顎部４Ａを開閉させる。さらには、尻
尾部ユニット５を動かせたり、各脚部ユニット３Ａ乃至
３Ｄを駆動して、ロボットを歩行させるなどの行動を行
わせる。

【００３２】また、コントローラ１０は、必要に応じ
て、合成音を生成し、スピーカ１８に供給して出力させ
たり、ロボットの「目」の位置に設けられた図示しない
ＬＥＤ（Light Emitting Diode）を点灯、消灯または点
滅させる。

【００３３】以上のようにして、ロボットは、周囲の状
況等に基づいて自律的に行動をとるようになっている。

【００３４】次に、図３は、図２のコントローラ１０の
機能的構成例を示している。なお、図３に示す機能的構
成は、ＣＰＵ１０Ａが、メモリ１０Ｂに記憶された制御
プログラムを実行することで実現されるようになってい
る。

【００３５】コントローラ１０は、特定の外部状態を認
識するセンサ入力処理部５０、センサ入力処理部５０の
認識結果を累積して、感情や、本能、成長の状態を表現
するモデル記憶部５１、センサ入力処理部５０の認識結
果等に基づいて、続く行動を決定する行動決定機構部５
２、行動決定機構部５２の決定結果に基づいて、実際に
ロボットに行動を起こさせる姿勢遷移機構部５３、各ア
クチュエータ３ＡＡ₁乃至５Ａ₁および５Ａ₂を駆動制御
する制御機構部５４、並びに合成音を生成する音声合成
部５５から構成されている。

【００３６】センサ入力処理部５０は、マイク１５や、
ＣＣＤカメラ１６、タッチセンサ１７等から与えられる
音声信号、画像信号、圧力検出信号等に基づいて、特定
の外部状態や、ユーザからの特定の働きかけ、ユーザか
らの指示等を認識し、その認識結果を表す状態認識情報
を、モデル記憶部５１および行動決定機構部５２に通知
する。

【００３７】即ち、センサ入力処理部５０は、音声認識
部５０Ａを有しており、音声認識部５０Ａは、マイク１
５から与えられる音声信号について音声認識を行う。そ
して、音声認識部５０Ａは、その音声認識結果として
の、例えば、「歩け」、「伏せ」、「ボールを追いかけ
ろ」等の指令その他を、状態認識情報として、モデル記
憶部５１および行動決定機構部５２に通知する。

【００３８】また、センサ入力処理部５０は、画像認識
部５０Ｂを有しており、画像認識部５０Ｂは、ＣＣＤカ
メラ１６から与えられる画像信号を用いて、画像認識処
理を行う。そして、画像認識部５０Ｂは、その処理の結
果、例えば、「赤い丸いもの」や、「地面に対して垂直
なかつ所定高さ以上の平面」等を検出したときには、
「ボールがある」や、「壁がある」等の画像認識結果
を、状態認識情報として、モデル記憶部５１および行動
決定機構部５２に通知する。

【００３９】さらに、センサ入力処理部５０は、圧力処
理部５０Ｃを有しており、圧力処理部５０Ｃは、タッチ
センサ１７から与えられる圧力検出信号を処理する。そ
して、圧力処理部５０Ｃは、その処理の結果、所定の閾
値以上で、かつ短時間の圧力を検出したときには、「た
たかれた（しかられた）」と認識し、所定の閾値未満
で、かつ長時間の圧力を検出したときには、「なでられ
た（ほめられた）」と認識して、その認識結果を、状態
認識情報として、モデル記憶部５１および行動決定機構
部５２に通知する。

【００４０】モデル記憶部５１は、ロボットの感情、本
能、成長の状態を表現する感情モデル、本能モデル、成
長モデルをそれぞれ記憶、管理している。

【００４１】ここで、感情モデルは、例えば、「うれし
さ」、「悲しさ」、「怒り」、「楽しさ」等の感情の状
態（度合い）を、所定の範囲（例えば、−１．０乃至
１．０等）の値によってそれぞれ表し、センサ入力処理
部５０からの状態認識情報や時間経過等に基づいて、そ
の値を変化させる。本能モデルは、例えば、「食欲」、
「睡眠欲」、「運動欲」等の本能による欲求の状態（度
合い）を、所定の範囲の値によってそれぞれ表し、セン
サ入力処理部５０からの状態認識情報や時間経過等に基
づいて、その値を変化させる。成長モデルは、例えば、
「幼年期」、「青年期」、「熟年期」、「老年期」等の
成長の状態（度合い）を、所定の範囲の値によってそれ
ぞれ表し、センサ入力処理部５０からの状態認識情報や
時間経過等に基づいて、その値を変化させる。

【００４２】モデル記憶部５１は、上述のようにして感
情モデル、本能モデル、成長モデルの値で表される感
情、本能、成長の状態を、状態情報として、行動決定機
構部５２に送出する。

【００４３】なお、モデル記憶部５１には、センサ入力
処理部５０から状態認識情報が供給される他、行動決定
機構部５２から、ロボットの現在または過去の行動、具
体的には、例えば、「長時間歩いた」などの行動の内容
を示す行動情報が供給されるようになっており、モデル
記憶部５１は、同一の状態認識情報が与えられても、行
動情報が示すロボットの行動に応じて、異なる状態情報
を生成するようになっている。

【００４４】即ち、例えば、ロボットが、ユーザに挨拶
をし、ユーザに頭を撫でられた場合には、ユーザに挨拶
をしたという行動情報と、頭を撫でられたという状態認
識情報とが、モデル記憶部５１に与えられ、この場合、
モデル記憶部５１では、「うれしさ」を表す感情モデル
の値が増加される。

【００４５】一方、ロボットが、何らかの仕事を実行中
に頭を撫でられた場合には、仕事を実行中であるという
行動情報と、頭を撫でられたという状態認識情報とが、
モデル記憶部５１に与えられ、この場合、モデル記憶部
５１では、「うれしさ」を表す感情モデルの値は変化さ
れない。

【００４６】このように、モデル記憶部５１は、状態認
識情報だけでなく、現在または過去のロボットの行動を
示す行動情報も参照しながら、感情モデルの値を設定す
る。これにより、例えば、何らかのタスクを実行中に、
ユーザが、いたずらするつもりで頭を撫でたときに、
「うれしさ」を表す感情モデルの値を増加させるよう
な、不自然な感情の変化が生じることを回避することが
できる。

【００４７】なお、モデル記憶部５１は、本能モデルお
よび成長モデルについても、感情モデルにおける場合と
同様に、状態認識情報および行動情報の両方に基づい
て、その値を増減させるようになっている。また、モデ
ル記憶部５１は、感情モデル、本能モデル、成長モデル
それぞれの値を、他のモデルの値にも基づいて増減させ
るようになっている。

【００４８】行動決定機構部５２は、センサ入力処理部
５０からの状態認識情報や、モデル記憶部５１からの状
態情報、時間経過等に基づいて、次の行動を決定し、決
定された行動の内容を、行動指令情報として、姿勢遷移
機構部５３に送出する。

【００４９】即ち、行動決定機構部５２は、ロボットが
とり得る行動をステート（状態）(state)に対応させた
有限オートマトンを、ロボットの行動を規定する行動モ
デルとして管理しており、この行動モデルとしての有限
オートマトンにおけるステートを、センサ入力処理部５
０からの状態認識情報や、モデル記憶部５１における感
情モデル、本能モデル、または成長モデルの値、時間経
過等に基づいて遷移させ、遷移後のステートに対応する
行動を、次にとるべき行動として決定する。

【００５０】ここで、行動決定機構部５２は、所定のト
リガ(trigger)があったことを検出すると、ステートを
遷移させる。即ち、行動決定機構部５２は、例えば、現
在のステートに対応する行動を実行している時間が所定
時間に達したときや、特定の状態認識情報を受信したと
き、モデル記憶部５１から供給される状態情報が示す感
情や、本能、成長の状態の値が所定の閾値以下または以
上になったとき等に、ステートを遷移させる。

【００５１】なお、行動決定機構部５２は、上述したよ
うに、センサ入力処理部５０からの状態認識情報だけで
なく、モデル記憶部５１における感情モデルや、本能モ
デル、成長モデルの値等にも基づいて、行動モデルにお
けるステートを遷移させることから、同一の状態認識情
報が入力されても、感情モデルや、本能モデル、成長モ
デルの値（状態情報）によっては、ステートの遷移先は
異なるものとなる。

【００５２】その結果、行動決定機構部５２は、例え
ば、状態情報が、「怒っていない」こと、および「お腹
がすいていない」ことを表している場合において、状態
認識情報が、「目の前に手のひらが差し出された」こと
を表しているときには、目の前に手のひらが差し出され
たことに応じて、「お手」という行動をとらせる行動指
令情報を生成し、これを、姿勢遷移機構部５３に送出す
る。

【００５３】また、行動決定機構部５２は、例えば、状
態情報が、「怒っていない」こと、および「お腹がすい
ている」ことを表している場合において、状態認識情報
が、「目の前に手のひらが差し出された」ことを表して
いるときには、目の前に手のひらが差し出されたことに
応じて、「手のひらをぺろぺろなめる」ような行動を行
わせるための行動指令情報を生成し、これを、姿勢遷移
機構部５３に送出する。

【００５４】また、行動決定機構部５２は、例えば、状
態情報が、「怒っている」ことを表している場合におい
て、状態認識情報が、「目の前に手のひらが差し出され
た」ことを表しているときには、状態情報が、「お腹が
すいている」ことを表していても、また、「お腹がすい
ていない」ことを表していても、「ぷいと横を向く」よ
うな行動を行わせるための行動指令情報を生成し、これ
を、姿勢遷移機構部５３に送出する。

【００５５】なお、行動決定機構部５２では、上述した
ように、ロボットの頭部や手足等を動作させる行動指令
情報の他、ロボットに発話を行わせる行動指令情報も生
成される。ロボットに発話を行わせる行動指令情報は、
音声合成部５５に供給されるようになっており、音声合
成部５５に供給される行動指令情報には、音声合成部５
５に生成させる合成音に対応するテキスト等が含まれ
る。そして、音声合成部５５は、行動決定部５２から行
動指令情報を受信すると、その行動指令情報に含まれる
テキストに基づき、合成音を生成し、スピーカ１８に供
給して出力させる。これにより、スピーカ１８からは、
例えば、ロボットの鳴き声、さらには、「お腹がすい
た」等のユーザへの各種の要求、「何？」等のユーザの
呼びかけに対する応答その他の音声出力が行われる。ま
た、行動決定機構部５２は、合成音を出力する場合に
は、下顎部４Ａを開閉させる行動指令情報を、必要に応
じて生成し、姿勢遷移機構部５３に出力する。この場
合、合成音の出力に同期して、下顎部４Ａが開閉し、ユ
ーザに、ロボットがしゃべっているかのような印象を与
えることができる。

【００５６】姿勢遷移機構部５３は、行動決定機構部５
２から供給される行動指令情報に基づいて、ロボットの
姿勢を、現在の姿勢から次の姿勢に遷移させるための姿
勢遷移情報を生成し、これを制御機構部５４に送出す
る。

【００５７】制御機構部５４は、姿勢遷移機構部５３か
らの姿勢遷移情報にしたがって、アクチュエータ３ＡＡ
₁乃至５Ａ₁および５Ａ₂を駆動するための制御信号を生
成し、これを、アクチュエータ３ＡＡ₁乃至５Ａ₁および
５Ａ₂に送出する。これにより、アクチュエータ３ＡＡ₁
乃至５Ａ₁および５Ａ₂は、制御信号にしたがって駆動
し、ロボットは、自律的に行動を起こす。

【００５８】次に、図４は、図３の音声認識部５０Ａの
構成例を示している。

【００５９】マイク１５からの音声信号は、ＡＤ(Analo
g Digital)変換部２１に供給される。ＡＤ変換部２１
は、マイク１５からのアナログ信号である音声信号をサ
ンプリング、量子化し、ディジタル信号である音声デー
タにＡ／Ｄ変換する。この音声データは、特徴抽出部２
２に供給される。

【００６０】特徴抽出部２２は、そこに入力される音声
データについて、適当なフレームごとに、例えば、ＭＦ
ＣＣ(Mel Frequency Cepstrum Coefficient)分析を行
い、その分析の結果得られるＭＦＣＣを、特徴ベクトル
（特徴パラメータ）として、マッチング部２３と未登録
語区間処理部２７に出力する。なお、特徴抽出部２２で
は、その他、例えば、線形予測係数、ケプストラム係
数、線スペクトル対、所定の周波数帯域ごとのパワー
（フィルタバンクの出力）等を、特徴ベクトルとして抽
出することが可能である。

【００６１】マッチング部２３は、特徴抽出部２２から
の特徴ベクトルを用いて、音響モデル記憶部２４、辞書
記憶部２５、および文法記憶部２６を必要に応じて参照
しながら、マイク１５に入力された音声（入力音声）
を、例えば、連続分布ＨＭＭ(Hidden Markov Model)法
に基づいて音声認識する。

【００６２】即ち、音響モデル記憶部２４は、音声認識
する音声の言語における個々の音素や、音節、音韻など
のサブワードについて音響的な特徴を表す音響モデル
（例えば、ＨＭＭの他、ＤＰ(Dynamic Programing)マッ
チングに用いられる標準パターン等を含む）を記憶して
いる。なお、ここでは、連続分布ＨＭＭ法に基づいて音
声認識を行うこととしているので、音響モデルとして
は、ＨＭＭ(Hidden MarkovModel)が用いられる。

【００６３】辞書記憶部２５は、認識対象の各単語ごと
にクラスタリングされた、その単語の発音に関する情報
（音韻情報）と、その単語の見出しとが対応付けられた
単語辞書を記憶している。

【００６４】ここで、図５は、辞書記憶部２５に記憶さ
れた単語辞書を示している。

【００６５】図５に示すように、単語辞書においては、
単語の見出しと、その音韻系列とが対応付けられてお
り、音韻系列は、対応する単語ごとにクラスタリングさ
れている。図５の単語辞書では、１つのエントリ（図３
の１行）が、１つのクラスタに相当する。

【００６６】なお、図５においては、見出しは、ローマ
字と日本語（仮名漢字）で表してあり、音韻系列は、ロ
ーマ字で表してある。但し、音韻系列における「N」
は、撥音「ん」を表す。また、図５では、１つのエント
リに、１つの音韻系列を記述してあるが、１つのエント
リには、複数の音韻系列を記述することも可能である。

【００６７】図４に戻り、文法記憶部２６は、辞書記憶
部２５の単語辞書に登録されている各単語が、どのよう
に連鎖する（つながる）かを記述した文法規則を記憶し
ている。

【００６８】ここで、図６は、文法記憶部２６に記憶さ
れた文法規則を示している。なお、図６の文法規則は、
ＥＢＮＦ(Extended Backus Naur Form)で記述されてい
る。

【００６９】図６においては、行頭から、最初に現れる
「;」までが、１つの文法規則を表している。また、先
頭に「$」が付されたアルファベット（列）は、変数を
表し、「$」が付されていないアルファベット（列）
は、単語の見出し（図５に示したローマ字による見出
し）を表す。さらに、[]で囲まれた部分は、省略可能で
あることを表し、「|」は、その前後に配置された見出
しの単語（あるいは変数）のうちのいずれか一方を選択
することを表す。

【００７０】従って、図６において、例えば、第１行
（上から１行目）の文法規則「$col =[kono | sono] ir
o wa;」は、変数$colが、「このいろ（色）は」または
「そのいろ（色）は」という単語列であることを表す。

【００７１】なお、図６に示した文法規則においては、
変数$silと$garbageが定義されていないが、変数$sil
は、無音の音響モデル（無音モデル）を表し、変数$gar
bageは、基本的には、音韻どうしの間での自由な遷移を
許可したガーベジモデルを表す。

【００７２】再び図４に戻り、マッチング部２３は、辞
書記憶部２５の単語辞書を参照することにより、音響モ
デル記憶部２４に記憶されている音響モデルを接続する
ことで、単語の音響モデル（単語モデル）を構成する。
さらに、マッチング部２３は、幾つかの単語モデルを、
文法記憶部２６に記憶された文法規則を参照することに
より接続し、そのようにして接続された単語モデルを用
いて、特徴ベクトルに基づき、連続分布ＨＭＭ法によっ
て、マイク１５に入力された音声を認識する。

【００７３】即ち、マッチング部２３は、特徴抽出部２
２が出力する時系列の特徴ベクトルが観測されるスコア
（尤度）が最も高い単語モデルの系列を検出し、その単
語モデルの系列に対応する単語列の見出しを、音声の認
識結果として出力する。

【００７４】より具体的には、マッチング部２３は、接
続された単語モデルに対応する単語列について、各特徴
ベクトルの出現確率（出力確率）を累積し、その累積値
をスコアとして、そのスコアを最も高くする単語列の見
出しを、音声認識結果として出力する。

【００７５】以上のようにして出力される、マイク１５
に入力された音声の認識結果は、状態認識情報として、
モデル記憶部５１および行動決定機構部５２に出力され
る。

【００７６】ここで、図６の実施の形態では、第９行
（上から９行目）に、ガーベジモデルを表す変数$garba
geを用いた文法規則（以下、適宜、未登録語用規則とい
う）「$pat1 = $color1 $garbage $color2;」がある
が、マッチング部２３は、この未登録語用規則が適用さ
れた場合には、変数$garbageに対応する音声区間を、未
登録語の音声区間として検出する。さらに、マッチング
部２３は、未登録語用規則が適用された場合における変
数$garbageが表すガーベジモデルにおける音韻の遷移と
しての音韻系列を、未登録語の音韻系列として検出す
る。そして、マッチング部２３は、未登録語用規則が適
用された音声認識結果が得られた場合に検出される未登
録語の音声区間と音韻系列を、未登録語区間処理部２７
に供給する。

【００７７】なお、上述の未登録語用規則「$pat1 = $c
olor1 $garbage $color2;」によれば、変数$color1で表
される、単語辞書に登録されている単語（列）の音韻系
列と、変数$color2で表される、単語辞書に登録されて
いる単語（列）の音韻系列との間にある１つの未登録語
が検出されるが、本発明は、発話に、複数の未登録語が
含まれている場合や、未登録語が、単語辞書に登録され
ている単語（列）の間に挟まれていない場合であって
も、適用可能である。

【００７８】未登録語区間処理部２７は、特徴抽出部２
２から供給される特徴ベクトルの系列（特徴ベクトル系
列）を一時記憶する。さらに、未登録語区間処理部２７
は、マッチング部２３から未登録語の音声区間と音韻系
列を受信すると、その音声区間における音声の特徴ベク
トル系列を、一時記憶している特徴ベクトル系列から検
出する。そして、未登録語区間処理部２７は、マッチン
グ部２３からの音韻系列（未登録語）に、ユニークなID
(Identification)を付し、未登録語の音韻系列と、その
音声区間における特徴ベクトル系列とともに、特徴ベク
トルバッファ２８に供給する。

【００７９】特徴ベクトルバッファ２８は、例えば、図
７に示すように、未登録語区間処理部２７から供給され
る未登録語のID、音韻系列、および特徴ベクトル系列を
対応付けて一時記憶する。

【００８０】ここで、図７においては、未登録語に対し
て、１からのシーケンシャルな数字が、IDとして付され
ている。従って、例えば、いま、特徴ベクトルバッファ
２８において、Ｎ個の未登録語のID、音韻系列、および
特徴ベクトル系列が記憶されている場合において、マッ
チング部２３が未登録語の音声区間と音韻系列を検出す
ると、未登録語区間処理部２７では、その未登録語に対
して、Ｎ＋１が、IDとして付され、特徴ベクトルバッフ
ァ２８では、図７に点線で示すように、その未登録語の
ID、音韻系列、および特徴ベクトル系列が記憶される。

【００８１】再び図４に戻り、クラスタリング部２９
は、特徴ベクトルバッファ２８に新たに記憶された未登
録語（以下、適宜、新未登録語という）について、特徴
ベクトルバッファ２８に既に記憶されている他の未登録
語（以下、適宜、既記憶未登録語という）それぞれに対
するスコアを計算する。

【００８２】即ち、クラスタリング部２９は、新未登録
語を入力音声とし、かつ、既記憶未登録語を、単語辞書
に登録されている単語とみなして、マッチング部２３に
おける場合と同様にして、新未登録語について、各既記
憶未登録語に対するスコアを計算する。具体的には、ク
ラスタリング部２９は、特徴ベクトルバッファ２８を参
照することで、新未登録語の特徴ベクトル系列を認識す
るとともに、既記憶未登録語の音韻系列にしたがって音
響モデルを接続し、その接続された音響モデルから、新
未登録語の特徴ベクトル系列が観測される尤度としての
スコアを計算する。

【００８３】なお、音響モデルは、音響モデル記憶部２
４に記憶されているものが用いられる。

【００８４】クラスタリング部２９は、同様にして、各
既記憶未登録語について、新未登録語に対するスコアも
計算し、そのスコアによって、スコアシート記憶部３０
に記憶されたスコアシートを更新する。

【００８５】さらに、クラスタリング部２９は、更新し
たスコアシートを参照することにより、既に求められて
いる、未登録語（既記憶未登録語）をクラスタリングし
たクラスタの中から、新未登録語を新たなメンバとして
加えるクラスタを検出する。さらに、クラスタリング部
２９は、新未登録語を、検出したクラスタの新たなメン
バとし、そのクラスタを、そのクラスタのメンバに基づ
いて分割し、その分割結果に基づいて、スコアシート記
憶部３０に記憶されているスコアシートを更新する。

【００８６】スコアシート記憶部３０は、新未登録語に
ついての、既記憶未登録語に対するスコアや、既記憶未
登録語についての、新未登録語に対するスコア等が登録
されたスコアシートを記憶する。

【００８７】ここで、図８は、スコアシートを示してい
る。

【００８８】スコアシートは、未登録語の「ID」、「音
韻系列」、「クラスタナンバ」、「代表メンバID」、お
よび「スコア」が記述されたエントリで構成される。

【００８９】未登録語の「ID」と「音韻系列」として
は、特徴ベクトルバッファ２８に記憶されたものと同一
のものが、クラスタリング部２９によって登録される。
「クラスタナンバ」は、そのエントリの未登録語がメン
バとなっているクラスタを特定するための数字で、クラ
スタリング部２９によって付され、スコアシートに登録
される。「代表メンバID」は、そのエントリの未登録語
がメンバとなっているクラスタを代表する代表メンバと
しての未登録語のIDであり、この代表メンバIDによっ
て、未登録語がメンバとなっているクラスタの代表メン
バを認識することができる。なお、クラスタの代表メン
バは、クラスタリング部２９によって求められ、その代
表メンバのIDが、スコアシートの代表メンバIDに登録さ
れる。「スコア」は、そのエントリの未登録語について
の、他の未登録語それぞれに対するスコアであり、上述
したように、クラスタリング部２９によって計算され
る。

【００９０】例えば、いま、特徴ベクトルバッファ２８
において、Ｎ個の未登録語のID、音韻系列、および特徴
ベクトル系列が記憶されているとすると、スコアシート
には、そのＮ個の未登録語のID、音韻系列、クラスタナ
ンバ、代表メンバID、およびスコアが登録されている。

【００９１】そして、特徴ベクトルバッファ２８に、新
未登録語のID、音韻系列、および特徴ベクトル系列が新
たに記憶されると、クラスタリング部２９では、スコア
シートが、図８において点線で示すように更新される。

【００９２】即ち、スコアシートには、新未登録語のI
D、音韻系列、クラスタナンバ、代表メンバID、新未登
録語についての、既記憶未登録語それぞれに対するスコ
ア（図８におけるスコアs(N+1,1),s(N+1,2),・・・,s(N
+1,N)）が追加される。さらに、スコアシートには、既
記憶未登録語それぞれについての、新未登録語に対する
スコア（図８におけるs(1,N+1),s(2,N+1),・・・，s(N,
N+1)）が追加される。さらに、後述するように、スコア
シートにおける未登録語のクラスタナンバと代表メンバ
IDが、必要に応じて変更される。

【００９３】なお、図８の実施の形態においては、IDが
iの未登録語（の発話）についての、IDがjの未登録語
（の音韻系列）に対するスコアを、s(i,j)として表して
ある。

【００９４】また、スコアシート（図８）には、IDがi
の未登録語（の発話）についての、IDがiの未登録語
（の音韻系列）に対するスコアs(i,i)も登録される。但
し、このスコアs(i,i)は、マッチング部２３において、
未登録語の音韻系列が検出されるときに計算されるた
め、クラスタリング部２９で計算する必要はない。

【００９５】再び図４に戻り、メンテナンス部３１は、
スコアシート記憶部３０における、更新後のスコアシー
トに基づいて、辞書記憶部２５に記憶された単語辞書を
更新する。

【００９６】ここで、クラスタの代表メンバは、次のよ
うに決定される。即ち、例えば、クラスタのメンバとな
っている未登録語のうち、他の未登録語それぞれについ
てのスコアの総和（その他、例えば、総和を、他の未登
録語の数で除算した平均値でも良い）を最大にするもの
が、そのクラスタの代表メンバとされる。従って、この
場合、クラスタに属するメンバのメンバIDをkで表すこ
ととすると、次式で示される値K（∈k）をIDとするメン
バが、代表メンバとされることになる。

【００９７】 K=max_k{Σs(k',k)} ・・・（１）

【００９８】但し、式（１）において、max_k{}は、{}内
の値を最大にするｋを意味する。また、k'は、kと同様
に、クラスタに属するメンバのIDを意味する。さらに、
Σは、k'を、クラスタに属するメンバすべてのIDに亘っ
て変化させての総和を意味する。

【００９９】なお、上述のように代表メンバを決定する
場合、クラスタのメンバが、１または２つの未登録語で
あるときには、代表メンバを決めるにあたって、スコア
を計算する必要はない。即ち、クラスタのメンバが、１
つの未登録語である場合には、その１つの未登録語が代
表メンバとなり、クラスタのメンバが、２つの未登録語
である場合には、その２つの未登録語のうちのいずれ
を、代表メンバとしても良い。

【０１００】また、代表メンバの決定方法は、上述した
ものに限定されるものではなく、その他、例えば、クラ
スタのメンバとなっている未登録語のうち、他の未登録
語それぞれとの特徴ベクトル空間における距離の総和を
最小にするもの等を、そのクラスタの代表メンバとする
ことも可能である。

【０１０１】以上のように構成される音声認識部５０Ａ
では、マイク１５に入力された音声を認識する音声認識
処理と、未登録語に関する未登録語処理が行われるよう
になっている。

【０１０２】そこで、まず最初に、図９のフローチャー
トを参照して、音声認識処理について説明する。

【０１０３】ユーザが発話を行うと、その発話された音
声は、マイク１５およびＡＤ変換部２１を介することに
より、ディジタルの音声データとされ、特徴抽出部２２
に供給される。特徴抽出部２２は、ステップＳ１におい
て、音声データを、所定のフレーム単位で音響分析する
ことにより、特徴ベクトルを抽出し、その特徴ベクトル
の系列を、マッチング部２３および未登録語区間処理部
２７に供給する。

【０１０４】マッチング部２３は、ステップＳ２におい
て、特徴抽出部２３からの特徴ベクトル系列について、
上述したようにスコア計算を行い、ステップＳ３に進
む。ステップＳ３では、マッチング部２３は、スコア計
算の結果得られるスコアに基づいて、音声認識結果とな
る単語列の見出しを求めて出力する。

【０１０５】さらに、マッチング部２３は、ステップＳ
４に進み、ユーザの音声に、未登録語が含まれていたか
どうかを判定する。

【０１０６】ステップＳ４において、ユーザの音声に、
未登録語が含まれていないと判定された場合、即ち、上
述の未登録語用規則「$pat1 = $color1 $garbage $colo
r2;」が適用されずに、音声認識結果が得られた場合、
ステップＳ５をスキップして、処理を終了する。

【０１０７】また、ステップＳ４において、ユーザの音
声に、未登録語が含まれていると判定された場合、即
ち、未登録語用規則「$pat1 = $color1 $garbage $colo
r2;」が適用されて、音声認識結果が得られた場合、ス
テップＳ５に進み、マッチング部２３は、未登録語用規
則の変数$garbageに対応する音声区間を、未登録語の音
声区間として検出するとともに、その変数$garbageが表
すガーベジモデルにおける音韻の遷移としての音韻系列
を、未登録語の音韻系列として検出し、その未登録語の
音声区間と音韻系列を、未登録語区間処理部２７に供給
して、処理を終了する。

【０１０８】一方、未登録語区間処理部２７は、特徴抽
出部２２から供給される特徴ベクトル系列を一時記憶し
ており、マッチング部２３から未登録語の音声区間と音
韻系列が供給されると、その音声区間における音声の特
徴ベクトル系列を検出する。さらに、未登録語区間処理
部２７は、マッチング部２３からの未登録語（の音韻系
列）にIDを付し、未登録語の音韻系列と、その音声区間
における特徴ベクトル系列とともに、特徴ベクトルバッ
ファ２８に供給する。

【０１０９】以上のようにして、特徴ベクトルバッファ
２８に、新たな未登録語（新未登録語）のID、音韻系
列、および特徴ベクトル系列が記憶されると、未登録語
処理が行われる。

【０１１０】即ち、図１０は、未登録語処理を説明する
フローチャートを示している。

【０１１１】未登録語処理では、まず最初に、ステップ
Ｓ１１において、クラスタリング部２９が、特徴ベクト
ルバッファ２８から、新未登録語のIDと音韻系列を読み
出し、ステップＳ１２に進む。

【０１１２】ステップＳ１２では、クラスタリング部２
９が、スコアシート記憶部３０のスコアシートを参照す
ることにより、既に求められている（生成されている）
クラスタが存在するかどうかを判定する。

【０１１３】ステップＳ１２において、既に求められて
いるクラスタが存在しないと判定された場合、即ち、新
未登録語が、初めての未登録語であり、スコアシート
に、既記憶未登録語のエントリが存在しない場合、ステ
ップＳ１３に進み、クラスタリング部２９は、その新未
登録語を代表メンバとするクラスタを新たに生成し、そ
の新たなクラスタに関する情報と、新未登録語に関する
情報とを、スコアシート記憶部３０のスコアシートに登
録することにより、スコアシートを更新する。

【０１１４】即ち、クラスタリング部２９は、特徴ベク
トルバッファ２８から読み出した新未登録語のIDおよび
音韻系列を、スコアシート（図８）に登録する。さら
に、クラスタリング部２９は、ユニークなクラスタナン
バを生成し、新未登録語のクラスタナンバとして、スコ
アシートに登録する。また、クラスタリング部２９は、
新未登録語のIDを、その新未登録語の代表メンバIDとし
て、スコアシートに登録する。従って、この場合は、新
未登録語は、新たなクラスタの代表メンバとなる。

【０１１５】なお、いまの場合、新未登録語とのスコア
を計算する既記憶未登録語が存在しないため、スコアの
計算は行われない。

【０１１６】ステップＳ１３の処理後は、ステップＳ２
２に進み、メンテナンス部３１は、ステップＳ１３で更
新されたスコアシートに基づいて、辞書記憶部２５の単
語辞書を更新し、処理を終了する。

【０１１７】即ち、いまの場合、新たなクラスタが生成
されているので、メンテナンス部３１は、スコアシート
におけるクラスタナンバを参照し、その新たに生成され
たクラスタを認識する。そして、メンテナンス部３１
は、そのクラスタに対応するエントリを、辞書記憶部２
５の単語辞書に追加し、そのエントリの音韻系列とし
て、新たなクラスタの代表メンバの音韻系列、つまり、
いまの場合は、新未登録語の音韻系列を登録する。

【０１１８】一方、ステップＳ１２において、既に求め
られているクラスタが存在すると判定された場合、即
ち、新未登録語が、初めての未登録語ではなく、従っ
て、スコアシート（図８）に、既記憶未登録語のエント
リ（行）が存在する場合、ステップＳ１４に進み、クラ
スタリング部２９は、新未登録語について、各既記憶未
登録語それぞれに対するスコアを計算するとともに、各
既記憶未登録語それぞれについて、新未登録語に対する
スコアを計算する。

【０１１９】即ち、例えば、いま、IDが１乃至ＮのＮ個
の既記憶未登録語が存在し、新未登録語のIDをN+1とす
ると、クラスタリング部２９では、図８において点線で
示した部分の新未登録語についてのＮ個の既記憶未登録
語それぞれに対するスコアs(N+1,1),s(N+1,2),・・・,s
(N+1,N)と、Ｎ個の既記憶未登録語それぞれについての
新未登録語に対するスコアs(1,N+1),s(2,N+1),・・・，
s(N,N+1)が計算される。なお、クラスタリング部２９に
おいて、これらのスコアを計算するにあたっては、新未
登録語とＮ個の既記憶未登録語それぞれの特徴ベクトル
系列が必要となるが、これらの特徴ベクトル系列は、特
徴ベクトルバッファ２８を参照することで認識される。

【０１２０】そして、クラスタリング部２９は、計算し
たスコアを、新未登録語のIDおよび音韻系列とともに、
スコアシート（図８）に追加し、ステップＳ１５に進
む。

【０１２１】ステップＳ１５では、クラスタリング部２
９は、スコアシート（図８）を参照することにより、新
未登録語についてのスコアs(N+1,i)（i=1,2,・・・,N)
を最も高く（大きく）する代表メンバを有するクラスタ
を検出する。即ち、クラスタリング部２９は、スコアシ
ートの代表メンバIDを参照することにより、代表メンバ
となっている既記憶未登録語を認識し、さらに、スコア
シートのスコアを参照することで、新未登録語について
のスコアを最も高くする代表メンバとしての既記憶未登
録語を検出する。そして、クラスタリング部２９は、そ
の検出した代表メンバとしての既記憶未登録語のクラス
タナンバのクラスタを検出する。

【０１２２】その後、ステップＳ１６に進み、クラスタ
リング部２９は、新未登録語を、ステップＳ１５で検出
したクラスタ（以下、適宜、検出クラスタという）のメ
ンバに加える。即ち、クラスタリング部２９は、スコア
シートにおける新未登録語のクラスタナンバとして、検
出クラスタの代表メンバのクラスタナンバを書き込む。

【０１２３】そして、クラスタリング部２９は、ステッ
プＳ１７において、検出クラスタを、例えば、２つのク
ラスタに分割するクラスタ分割処理を行い、ステップＳ
１８に進む。ステップＳ１８では、クラスタリング部２
９は、ステップＳ１７のクラスタ分割処理によって、検
出クラスタを２つのクラスタに分割することができたか
どうかを判定し、分割することができた判定した場合、
ステップＳ１９に進む。ステップＳ１９では、クラスタ
リング部２９は、検出クラスタの分割により得られる２
つのクラスタ（この２つのクラスタを、以下、適宜、第
１の子クラスタと第２の子クラスタという）どうしの間
のクラスタ間距離を求める。

【０１２４】ここで、第１と第２の子クラスタどうしの
間のクラスタ間距離とは、例えば、次のように定義され
る。

【０１２５】即ち、第１の子クラスタと第２の子クラス
タの両方の任意のメンバ（未登録語）のIDを、kで表す
とともに、第１と第２の子クラスタの代表メンバ（未登
録語）のIDを、それぞれk1またはk2で表すこととする
と、次式で表される値D(k1,k2)を、第１と第２の子クラ
スタどうしの間のクラスタ間距離とする。

【０１２６】 D(k1,k2)＝maxval_k{abs(log(s(k,k1))-log(s(k,k2)))} ・・・（２）

【０１２７】但し、式（２）において、abs()は、()内
の値の絶対値を表す。また、maxval_k{}は、kを変えて求
められる{}内の値の最大値を表す。また、logは、自然
対数または常用対数を表す。

【０１２８】いま、IDがiのメンバを、メンバ#iと表す
こととすると、式（２）におけるスコアの逆数1/s(k,k
1)は、メンバ#kと代表メンバk1との距離に相当し、スコ
アの逆数1/s(k,k2)は、メンバ#kと代表メンバk2との距
離に相当する。従って、式（２）によれば、第１と第２
の子クラスタのメンバのうち、第１の子クラスタの代表
メンバ#k1との距離と、第２の子クラスタの代表メンバ#
k2との距離との差の最大値が、第１と第２の子クラスタ
どうしの間の子クラスタ間距離とされることになる。

【０１２９】なお、クラスタ間距離は、上述したものに
限定されるものではなく、その他、例えば、第１の子ク
ラスタの代表メンバと、第２の子クラスタの代表メンバ
とのＤＰマッチングを行うことにより、特徴ベクトル空
間における距離の積算値を求め、その距離の積算値を、
クラスタ間距離とすることも可能である。

【０１３０】ステップＳ１９の処理後は、ステップＳ２
０に進み、クラスタリング部２９は、第１と第２の子ク
ラスタどうしのクラスタ間距離が、所定の閾値εより大
である（あるいは、閾値ε以上である）かどうかを判定
する。

【０１３１】ステップＳ２０において、クラスタ間距離
が、所定の閾値εより大であると判定された場合、即
ち、検出クラスタのメンバとしての複数の未登録語が、
その音響的特徴からいって、２つのクラスタにクラスタ
リングすべきものであると考えられる場合、ステップＳ
２１に進み、クラスタリング部２９は、第１と第２の子
クラスタを、スコアシート記憶部３０のスコアシートに
登録する。

【０１３２】即ち、クラスタリング部２９は、第１と第
２の子クラスタに、ユニークなクラスタナンバを割り当
て、検出クラスタのメンバのうち、第１の子クラスタに
クラスタリングされたもののクラスタナンバを、第１の
子クラスタのクラスタナンバにするとともに、第２の子
クラスタにクラスタリングされたもののクラスタナンバ
を、第２の子クラスタのクラスタナンバにするように、
スコアシートを更新する。

【０１３３】さらに、クラスタリング部２９は、第１の
子クラスタにクラスタリングされたメンバの代表メンバ
IDを、第１の子クラスタの代表メンバのIDにするととも
に、第２の子クラスタにクラスタリングされたメンバの
代表メンバIDを、第２の子クラスタの代表メンバのIDに
するように、スコアシートを更新する。

【０１３４】なお、第１と第２の子クラスタのうちのい
ずれか一方には、検出クラスタのクラスタナンバを割り
当てるようにすることが可能である。

【０１３５】クラスタリング部２９が、以上のようにし
て、第１と第２の子クラスタを、スコアシートに登録す
ると、ステップＳ２１からＳ２２に進み、メンテナンス
部３１が、スコアシートに基づいて、辞書記憶部２５の
単語辞書を更新し、処理を終了する。

【０１３６】即ち、いまの場合、検出クラスタが、第１
と第２の子クラスタに分割されたため、メンテナンス部
３１は、まず、単語辞書における、検出クラスタに対応
するエントリを削除する。さらに、メンテナンス部３１
は、第１と第２の子クラスタそれぞれに対応する２つの
エントリを、単語辞書に追加し、第１の子クラスタに対
応するエントリの音韻系列として、その第１の子クラス
タの代表メンバの音韻系列を登録するとともに、第２の
子クラスタに対応するエントリの音韻系列として、その
第２の子クラスタの代表メンバの音韻系列を登録する。

【０１３７】一方、ステップＳ１８において、ステップ
Ｓ１７のクラスタ分割処理によって、検出クラスタを２
つのクラスタに分割することができなかったと判定され
た場合、あるいは、ステップＳ２０において、第１と第
２の子クラスタのクラスタ間距離が、所定の閾値εより
大でないと判定された場合（従って、検出クラスタのメ
ンバとしての複数の未登録語の音響的特徴が、第１と第
２の２つの子クラスタにクラスタリングするほど似てい
ないものではない場合）、ステップＳ２３に進み、クラ
スタリング部２９は、検出クラスタの新たな代表メンバ
を求め、スコアシートを更新する。

【０１３８】即ち、クラスタリング部２９は、新未登録
語をメンバとして加えた検出クラスタの各メンバについ
て、スコアシート記憶部３０のスコアシートを参照する
ことにより、式（１）の計算に必要なスコアs(k',k)を
認識する。さらに、クラスタリング部２９は、その認識
したスコアs(k',k)を用い、式（１）に基づき、検出ク
ラスタの新たな代表メンバとなるメンバのIDを求める。
そして、クラスタリング部２９は、スコアシート（図
８）における、検出クラスタの各メンバの代表メンバID
を、検出クラスタの新たな代表メンバのIDに書き換え
る。

【０１３９】その後、ステップＳ２２に進み、メンテナ
ンス部３１が、スコアシートに基づいて、辞書記憶部２
５の単語辞書を更新し、処理を終了する。

【０１４０】即ち、いまの場合、メンテナンス部３１
は、スコアシートを参照することにより、検出クラスタ
の新たな代表メンバを認識し、さらに、その代表メンバ
の音韻系列を認識する。そして、メンテナンス部３１
は、単語辞書における、検出クラスタに対応するエント
リの音韻系列を、検出クラスタの新たな代表メンバの音
韻系列に変更する。

【０１４１】次に、図１１のフローチャートを参照し
て、図１０のステップＳ１７のクラスタ分割処理の詳細
について説明する。

【０１４２】クラスタ分割処理では、まず最初に、ステ
ップＳ３１において、クラスタリング部２９が、新未登
録語がメンバとして加えられた検出クラスタから、まだ
選択していない任意の２つのメンバの組み合わせを選択
し、それぞれを、仮の代表メンバとする。ここで、この
２つの仮の代表メンバを、以下、適宜、第１の仮代表メ
ンバと第２の仮代表メンバという。

【０１４３】そして、ステップＳ３２に進み、クラスタ
リング部２９は、第１の仮代表メンバと、第２の仮代表
メンバを、それぞれ代表メンバとすることができるよう
に、検出クラスタのメンバを、２つのクラスタに分割す
ることができるかどうかを判定する。

【０１４４】ここで、第１または第２の仮代表メンバを
代表メンバとすることができるかどうかは、式（１）の
計算を行う必要があるが、この計算に用いられるスコア
s(k',k)は、スコアシートを参照することで認識され
る。

【０１４５】ステップＳ３２において、第１の仮代表メ
ンバと、第２の仮代表メンバを、それぞれ代表メンバと
することができるように、検出クラスタのメンバを、２
つのクラスタに分割することができないと判定された場
合、ステップＳ３３をスキップして、ステップＳ３４に
進む。

【０１４６】また、ステップＳ３２において、第１の仮
代表メンバと、第２の仮代表メンバを、それぞれ代表メ
ンバとすることができるように、検出クラスタのメンバ
を、２つのクラスタに分割することができると判定され
た場合、ステップＳ３３に進み、クラスタリング部２９
は、第１の仮代表メンバと、第２の仮代表メンバが、そ
れぞれ代表メンバとなるように、検出クラスタのメンバ
を、２つのクラスタに分割し、その分割後の２つのクラ
スタの組を、検出クラスタの分割結果となる第１および
第２の子クラスタの候補（以下、適宜、候補クラスタの
組という）として、ステップＳ３４に進む。

【０１４７】ステップＳ３４では、クラスタリング部２
９は、検出クラスタのメンバの中で、まだ、第１と第２
の仮代表メンバの組として選択していない２つのメンバ
の組があるかどうかを判定し、あると判定した場合、ス
テップＳ３１に戻り、まだ、第１と第２の仮代表メンバ
の組として選択していない、検出クラスタの２つのメン
バの組が選択され、以下、同様の処理が繰り返される。

【０１４８】また、ステップＳ３４において、第１と第
２の仮代表メンバの組として選択していない、検出クラ
スタの２つのメンバの組がないと判定された場合、ステ
ップＳ３５に進み、クラスタリング部２９は、候補クラ
スタの組が存在するかどうかを判定する。

【０１４９】ステップＳ３５において、候補クラスタの
組が存在しないと判定された場合、ステップＳ３６をス
キップして、リターンする。この場合は、図１０のステ
ップＳ１８において、検出クラスタを分割することがで
きなかったと判定される。

【０１５０】一方、ステップＳ３５において、候補クラ
スタの組が存在すると判定された場合、ステップＳ３６
に進み、クラスタリング部２９は、候補クラスタの組が
複数存在するときには、各候補クラスタの組の２つのク
ラスタどうしの間のクラスタ間距離を求める。そして、
クラスタリング部２９は、クラスタ間距離が最小の候補
クラスタの組を求め、その候補クラスタの組を、検出ク
ラスタの分割結果として、即ち、第１と第２の子クラス
タとして、リターンする。なお、候補クラスタの組が１
つだけの場合は、その候補クラスタの組が、そのまま、
第１と第２の子クラスタとされる。

【０１５１】この場合は、図１０のステップＳ１８にお
いて、検出クラスタを分割することができたと判定され
る。

【０１５２】以上のように、クラスタリング部２９にお
いて、既に求められている、未登録語をクラスタリング
したクラスタの中から、新未登録語を新たなメンバとし
て加えるクラスタ（検出クラスタ）を検出し、新未登録
語を、その検出クラスタの新たなメンバとして、検出ク
ラスタを、その検出クラスタのメンバに基づいて分割す
るようにしたので、未登録語を、その音響的特徴が近似
しているものどうしに、容易にクラスタリングすること
ができる。

【０１５３】さらに、メンテナンス部３１において、そ
のようなクラスタリング結果に基づいて、単語辞書を更
新するようにしたので、単語辞書の大規模化を避けなが
ら、未登録語の単語辞書への登録を、容易に行うことが
できる。

【０１５４】また、例えば、仮に、マッチング部２３に
おいて、未登録語の音声区間の検出を誤ったとしても、
そのような未登録語は、検出クラスタの分割によって、
音声区間が正しく検出された未登録語とは別のクラスタ
にクラスタリングされる。そして、このようなクラスタ
に対応するエントリが、単語辞書に登録されることにな
るが、このエントリの音韻系列は、正しく検出されなか
った音声区間に対応するものとなるから、その後の音声
認識において、大きなスコアを与えることはない。従っ
て、仮に、未登録語の音声区間の検出を誤ったとして
も、その誤りは、その後の音声認識には、ほとんど影響
しない。

【０１５５】ここで、図１２は、未登録語の発話を行っ
て得られたクラスタリング結果を示している。なお、図
１２においては、各エントリ（各行）が、１つのクラス
タを表している。また、図１２の左欄は、各クラスタの
代表メンバ（未登録語）の音韻系列を表しており、図１
２の右欄は、各クラスタのメンバとなっている未登録語
の発話内容と数を表している。

【０１５６】即ち、図１２において、例えば、第１行の
エントリは、未登録語「風呂」の１つの発話だけがメン
バとなっているクラスタを表しており、その代表メンバ
の音韻系列は、「doroa:」（ドロアー）になっている。
また、例えば、第２行のエントリは、未登録語「風呂」
の３つの発話がメンバとなっているクラスタを表してお
り、その代表メンバの音韻系列は、「kuro」（クロ）に
なっている。

【０１５７】さらに、例えば、第７行のエントリは、未
登録語「本」の４つの発話がメンバとなっているクラス
タを表しており、その代表メンバの音韻系列は、「NhoN
de:su」（ンホンデース）になっている。また、例え
ば、第８行のエントリは、未登録語「オレンジ」の１つ
の発話と、未登録語「本」の１９の発話がメンバとなっ
ているクラスタを表しており、その代表メンバの音韻系
列は、「ohoN」（オホン）になっている。他のエントリ
も、同様のことを表している。

【０１５８】図１２によれば、同一の未登録語の発話に
ついて、良好にクラスタリングされていることが分か
る。

【０１５９】なお、図１２の第８行のエントリにおいて
は、未登録語「オレンジ」の１つの発話と、未登録語
「本」の１９の発話が、同一のクラスタにクラスタリン
グされている。このクラスタは、そのメンバとなってい
る発話から、未登録語「本」のクラスタとなるべきであ
ると考えられるが、未登録語「オレンジ」の発話も、そ
のクラスタのメンバとなっている。しかしながら、この
クラスタも、その後に、未登録語「本」の発話がさらに
入力されていくと、クラスタ分割され、未登録語「本」
の発話だけをメンバとするクラスタと、未登録語「オレ
ンジ」の発話だけをメンバとするクラスタにクラスタリ
ングされると考えられる。

【０１６０】以上、本発明を、エンターテイメント用の
ロボット（疑似ペットとしてのロボット）に適用した場
合について説明したが、本発明は、これに限らず、例え
ば、音声認識装置を搭載した音声対話システムその他に
広く適用することが可能である。また、本発明は、現実
世界のロボットだけでなく、例えば、液晶ディスプレイ
等の表示装置に表示される仮想的なロボットにも適用可
能である。

【０１６１】なお、第１実施の形態においては、上述し
た一連の処理を、ＣＰＵ１０Ａにプログラムを実行させ
ることにより行うようにしたが、一連の処理は、それ専
用のハードウェアによって行うことも可能である。

【０１６２】ここで、プログラムは、あらかじめメモリ
１０Ｂ（図２）に記憶させておく他、フレキシブルディ
スク、CD-ROM(Compact Disc Read Only Memory)，MO(Ma
gneto optical)ディスク，DVD(Digital Versatile Dis
c)、磁気ディスク、半導体メモリなどのリムーバブル記
録媒体に、一時的あるいは永続的に格納（記録）してお
くことができる。そして、このようなリムーバブル記録
媒体を、いわゆるパッケージソフトウエアとして提供
し、ロボット（メモリ１０Ｂ）にインストールするよう
にすることができる。

【０１６３】また、プログラムは、ダウンロードサイト
から、ディジタル衛星放送用の人工衛星を介して、無線
で転送したり、LAN(Local Area Network)、インターネ
ットといったネットワークを介して、有線で転送し、メ
モリ１０Ｂにインストールすることができる。

【０１６４】この場合、プログラムがバージョンアップ
されたとき等に、そのバージョンアップされたプログラ
ムを、メモリ１０Ｂに、容易にインストールすることが
できる。

【０１６５】なお、上述した例において、ＣＰＵ１０Ａ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理（例えば、並列処理あるい
はオブジェクトによる処理）も含むものである。

【０１６６】また、プログラムは、１のＣＰＵにより処
理されるものであっても良いし、複数のＣＰＵによって
分散処理されるものであっても良い。

【０１６７】図４の音声認識部５０Ａは、専用のハード
ウェアにより実現することもできるし、ソフトウェアに
より実現することもできる。音声認識部５０Ａをソフト
ウェアによって実現する場合には、そのソフトウェアを
構成するプログラムが、汎用のコンピュータ等にインス
トールされる。

【０１６８】そこで、図１３は、音声認識部５０Ａを実
現するためのプログラムがインストールされるコンピュ
ータの一実施の形態の構成例を示している。

【０１６９】即ち、図１３には、本発明が適用される他
の例の音声認識装置９１が示されている。

【０１７０】図１３に示されるように、プログラムは、
コンピュータに内蔵されている記録媒体としてのハード
ディスク１０５やＲＯＭ１０３に予め記録しておくこと
ができる。

【０１７１】あるいはまた、プログラムは、フレキシブ
ルディスク、CD-ROM，MOディスク，DVD、磁気ディス
ク、半導体メモリなどのリムーバブル記録媒体１１１
に、一時的あるいは永続的に格納（記録）しておくこと
ができる。このようなリムーバブル記録媒体１１１は、
いわゆるパッケージソフトウエアとして提供することが
できる。

【０１７２】なお、プログラムは、上述したようなリム
ーバブル記録媒体１１１からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN、インターネットといったネットワークを介
して、コンピュータに有線で転送し、コンピュータで
は、そのようにして転送されてくるプログラムを、通信
部１０８で受信し、内蔵するハードディスク１０５にイ
ンストールすることができる。

【０１７３】音声認識装置９１は、CPU(Central Proces
sing Unit)１０２を内蔵している。CPU１０２には、バ
ス１０１を介して、入出力インタフェース１１０が接続
されており、CPU１０２は、入出力インタフェース１１
０を介して、ユーザによって、キーボードや、マウス、
マイク、ＡＤ変換器等で構成される入力部１０７が操作
等されることにより指令が入力されると、それにしたが
って、ROM(Read OnlyMemory)１０３に格納されているプ
ログラムを実行する。あるいは、また、CPU１０２は、
ハードディスク１０５に格納されているプログラム、衛
星若しくはネットワークから転送され、通信部１０８で
受信されてハードディスク１０５にインストールされた
プログラム、またはドライブ１０９に装着されたリムー
バブル記録媒体１１１から読み出されてハードディスク
１０５にインストールされたプログラムを、RAM(Random
Access Memory)１０４にロードして実行する。これに
より、CPU１０２は、上述したフローチャートにしたが
った処理、あるいは上述したブロック図の構成により行
われる処理を行う。そして、CPU１０２は、その処理結
果を、必要に応じて、例えば、入出力インタフェース１
１０を介して、LCD(Liquid CryStal Display)等のディ
スプレイや、スピーカ、ＤＡ(Digital Analog)変換器等
で構成される出力部１０６から出力、あるいは、通信部
１０８から送信、さらには、ハードディスク１０５に記
録等させる。

【０１７４】図１４は、音声認識装置９１のソフトウエ
アプログラムの構成例を表している。このソフトウエア
プログラムは、複数のモジュールにより構成される。各
モジュールは、１つの独立したアルゴリズムを持ち、か
つ、そのアルゴリズムに従って固有の動作を実行する。
即ち、各モジュールは、RAM１３に記憶され、CPU１１に
より適宜読み出され、実行される。

【０１７５】図１４に示される各モジュールは、図４に
示される各ブロックに対応する。即ち、音響モデルバッ
ファ１３３は音響モデル記憶部２４に、辞書バッファ１
３４は辞書記憶部２５に、文法バッファ１３５は文法記
憶部２６に、特徴抽出モジュール１３１は特徴抽出部２
２に、マッチングモジュール１３２はマッチング部２３
に、未登録語区間処理モジュール１３６は未登録区間処
理部２７に、特徴ベクトルバッファ１３７は特徴ベクト
ルバッファ２８に、クラスタリングモジュール１３８は
クラスタリング部２９に、スコアシートバッファ１３９
にはスコアシート記憶部３０に、メンテナンスモジュー
ル１４０はメンテナンス部３１に、それぞれ対応する。

【０１７６】ただし、この例においては、入力部１０７
において、マイクロホンにより入力されるアナログの音
声信号は、AD変換部により、サンプリングされ、量子化
されて、デジタルの音声データにA/D変換（Analog / Di
gital変換)され、特徴抽出モジュール１３１に供給され
るものとする。

【０１７７】また、この例においては、特徴ベクトルバ
ッファ１３７には、例えば、図１５に示されるように、
未登録語区間処理モジュール１３６より供給される未登
録語のID、音韻系列、特徴ベクトル系列、および記録時
刻が対応付けられて記憶される。換言すると、特徴ベク
トルバッファ１３７には、複数の未登録語のエントリ
（行）により構成されるデータ群が記憶されている。

【０１７８】図１５の例では、未登録語に対して、１か
らのシーケンシャルな数字が、IDとして付されている。
従って、例えば、いま、特徴ベクトルバッファ１３７に
おいて、N個の未登録語のID、音韻系列、特徴ベクトル
系列、および記録時刻が記憶されているものとすると、
マッチングモジュール１３２が未登録語の音声区間と音
韻系列を新たに検出すると、未登録語区間処理モジュー
ル１３６では、その未登録語に対して、N+1がIDとして
付され、特徴ベクトルバッファ１３７では、図１５に点
線で示されるように、その未登録語のID（N+1）、音韻
系列、特徴ベクトル系列、および、記録時刻が記憶され
る。

【０１７９】なお、後述するように、クラスタリングモ
ジュール１３８は、新たな未登録語をクラスタリングす
る場合、特徴ベクトルバッファ１３７に記憶されている
「特徴ベクトル」を参照するが、未登録語がクラスタリ
ングされる場合に参照されるこのような「音声情報」
を、以下、「発話情報」と称する。

【０１８０】即ち、「発話情報」は、「特徴ベクトル」
のみに限定されるものではなく、例えば、特徴抽出モジ
ュール１３１に供給される音声データ等の「PCM（Pulse
Code Modulation）信号」でもよい。この場合、特徴ベ
クトルバッファ１３７には、「特徴ベクトル系列」の代
わりに、この「PCM信号」が記憶される。

【０１８１】このように、音声認識装置９１には、上述
した各モジュールが設けられているので、音声認識装置
９１は、図４の音声認識部５０Ａと同様の動作を実行す
ることができる。なお、これらの各モジュールの説明、
および、音声認識部５０Ａに対応する動作の説明は省略
する。

【０１８２】ところで、音声認識部５０Ａは、いまクラ
スタリングした未登録語の音声波形（例えば、デジタル
の音声データ等）または特徴ベクトル（例えば、デジタ
ルの音声データに対してMFCC（Mel Frequency Cepstrum
Coefficient）分析が施された場合に得られるMFCC等）
を、今後、新たに入力される未登録語をクラスタリング
するための発話情報として、所定の記憶領域またはメモ
リに記憶する必要がある。

【０１８３】即ち、音声認識部５０Ａは、上述した処理
のうち、既に求められている、音声をクラスタリングし
たクラスタの中から、未登録語を新たなメンバとして加
えるクラスタを検出する処理を実行する場合、この所定
の記憶領域またはメモリに記憶されている過去の発話情
報を参照する。

【０１８４】このように、音声認識部５０Ａは、未登録
語に対応する発話情報を全て記憶していくために、未登
録語の入力量または入力回数が増加すると（多くの未登
録語を獲得すると）、記憶領域またはメモリを大きく消
費するといった課題を有している。

【０１８５】そこで、この例においては、所定の条件が
満たされる場合、特徴ベクトルバッファ１３７に記憶さ
れている発話情報のうちの所定のものと、それに対応す
る各種のデータを消去する特徴ベクトル消去モジュール
１４１が、さらに設けられている。

【０１８６】具体的には、例えば、特徴ベクトル消去モ
ジュール１４１は、スコアシートバッファ１３９に図８
と同様のスコアシートが記憶されている場合、そのスコ
アシートを参照して、所定のクラスタに属するメンバの
数が、所定の数を超えたと判定した場合、特徴ベクトル
バッファ１３７に記憶されているデータの中で、その所
定のクラスタに属するメンバのうちの所定のものに対応
する発話情報と、それに対応する各種のデータを消去す
る。

【０１８７】これにより、特徴ベクトル消去モジュール
１４１は、クラスタの大きさがある一定以上の大きさに
なることを防止することができるので、メモリ（RAM１
０３等）の消費を抑制させることができるだけでなく、
音声認識装置９１の動作速度の遅れを防止すること、即
ち、そのパフォーマンスが悪くなることを防止すること
ができる。

【０１８８】さらに、特徴ベクトル消去モジュール１４
１は、例えば、未参照時間演算モジュール１４２より供
給されてくる所定のクラスタの未参照時間が、所定の時
間を超えたと判定した場合、特徴ベクトルバッファ１３
７に記憶されているデータの中で、その所定のクラスタ
に属するメンバのうちの所定のものに対応する発話情報
と、それに対応する各種のデータを消去する。

【０１８９】即ち、未参照時間演算モジュール１４２
は、所定のクラスタに属する各メンバに対応する発話情
報（図１５の例では、特徴ベクトル系列）が特徴ベクト
ルバッファ１３７に記憶された各時刻（図１５の例で
は、記録時刻）のうちの最新の時刻、即ち、その所定の
クラスタがクラスタリングモジュール１３８により最後
に参照された（検出された）時刻（以下、最終参照時刻
と称する）を、特徴ベクトルバッファ１３７より取得す
る。

【０１９０】さらに、未参照時間演算モジュール１４２
は、現在の時刻から、取得した最終参照時刻を減算し
て、所定のクラスタがクラスタリングモジュール１３８
により検出されていない未参照時間を演算し、特徴ベク
トル消去モジュール１４１に供給する。

【０１９１】なお、この例においては、未参照時間演算
モジュール１４２は、全てのクラスタに対して、所定の
時間間隔で、それらのクラスタの未参照時間を演算する
ものとするが、演算するクラスタの数は特に限定されな
い。即ち、未参照時間演算モジュール１４２は、ユーザ
等により指定されたクラスタの未参照時間のみを演算し
てもよい。

【０１９２】また、未参照時間演算モジュール１４２の
演算方法も限定されない。例えば、この例においては、
特徴ベクトルバッファ１３７に記憶された各記録時刻に
基づいて、未参照時間が演算されたが、これらの記録時
刻は、特徴ベクトルバッファ１３７に記憶されることは
必須とされず、この場合、未参照時間演算モジュール１
４２は、所定のクラスタの最終参照時刻を、直接監視
し、かつ記憶することで、未参照時間を演算するように
してもよい。

【０１９３】このように、特徴ベクトル消去モジュール
１４１は、未参照時間演算モジュール１４２より供給さ
れる未参照時間を参照して、特徴ベクトルバッファ１３
７に記憶されているデータの中で、メンバの新規登録が
長い時間行われていないクラスタに属するメンバのうち
の所定のものに対応する発話情報と、それに対応する各
種のデータを消去する。

【０１９４】また、特徴ベクトル消去モジュール１４１
は、例えば、所定のクラスタに対する消去指示（トリガ
信号）が入力部１０７（例えば、キーボード等）より供
給された場合、特徴ベクトルバッファ１３７に記憶され
ているデータの中で、その所定のクラスタに属するメン
バのうちの所定のものに対応する発話情報と、それに対
応する各種のデータを消去する。

【０１９５】このように、特徴ベクトル消去モジュール
１４１は、音声認識装置９１の内部状態によらず、その
外部からの刺激によって、所定の特徴ベクトル系列を消
去することができるので、例えば、音声認識装置９１が
上述した図１のペットロボット等に搭載された場合、強
い刺激によっておこる記憶喪失をそのロボットに再現さ
せることができる。

【０１９６】さらに、特徴ベクトル消去モジュール１４
１は、例えば、情動制御モジュール１４３より供給され
た情動のパラメータの値（情動量）が、所定の値（量）
を超えたと判定した場合、特徴ベクトルバッファ１３７
に記憶されているデータの中で、所定のクラスタに属す
るメンバのうちの所定のものに対応する発話情報と、そ
れに対応する各種のデータを消去する。

【０１９７】なお、例えば、いま、音声認識装置９１
が、図１のロボットに実装されているものとすると、情
報制御モジュール１４３は、図３のモデル記憶部５１に
より実現されることができる。即ち、この場合、モデル
記憶部５１は、上述したように、感情モデル、本能モデ
ル、および成長モデルの値で表される感情、本能、およ
び成長の状態を、状態情報（情動量）として、特徴ベク
トル消去モジュール１４１に供給することになる。

【０１９８】このように、特徴ベクトル消去モジュール
１４１は、情動制御モジュール１４３より供給される情
動量（情動のパラメータの値（モデルの値））を参照し
て、特徴ベクトルバッファ１３７に記憶されている所定
の発話情報を消去することができるので、例えば、図１
のロボットに強い怒りなどが起こった場合（「怒り」の
パラメータの値が所定の値を超えた場合）、いわゆる
「ど忘れ」をそのロボットに再現させることができる。

【０１９９】また、特徴ベクトル消去モジュール１４１
は、例えば、メモリ使用量演算モジュール１４４により
供給されたメモリ（例えば、特徴ベクトルバッファ１３
７およびスコアシートバッファ１３９等を含む図１のRA
M１０３等）の総使用量が、所定の量を超えたと判定し
た場合、特徴ベクトルバッファ１３７に記憶されている
データの中で、所定のクラスタに属するメンバのうちの
所定のものに対応する特徴ベクトル系列と、それに対応
する各種のデータを消去する。

【０２００】即ち、メモリ使用量演算モジュール１４４
は、メモリの総使用量（消費量）を常時演算し、特徴ベ
クトル消去モジュール１４１に所定の間隔で供給する。

【０２０１】このように、特徴ベクトル消去モジュール
１４１は、メモリ（RAM１０３等）の消費量を常時監視
し、その消費量がある一定以上の量になると、その消費
量を減らすべく、特徴ベクトルバッファ１３７に記憶さ
れている所定の特徴ベクトル系列と、それに対応する各
種のデータを消去するので、メモリ（RAM１０３等）の
消費を抑制させることができるだけでなく、音声認識装
置９１の動作速度の遅れを防止すること、即ち、そのパ
フォーマンスが悪くなることを防止することができる。

【０２０２】なお、この例においては、特徴ベクトル消
去モジュール１４１は、上述したように、クラスタのメ
ンバの数（特徴ベクトルバッファ１３７に記憶されてい
るそのクラスタのメンバに対応する発話情報の数）、未
参照時間演算モジュール１４２より供給される未参照時
間、または、メモリ使用量演算モジュール１４４より供
給される情動量といったパラメータの値が、予め設定さ
れている所定の閾値を超えるか否かを判定し、所定の閾
値を超えると判定した場合、所定の条件を満たすと判定
し、所定の発話情報を消去するように構成されている
が、発話情報の消去方法はこれに限定されない。

【０２０３】例えば、特徴ベクトル消去モジュール１４
１は、このような判定処理を特に設けずに、単にトリガ
信号（上述した入力部１０７より供給されてくる消去指
示等）が入力された場合、所定の条件を満たすと判定
し、所定の発話情報を消去するように構成されてもよ
い。

【０２０４】ただし、この場合、情動制御モジュール１
４３、未参照時間演算モジュール１４２、およびメモリ
使用量演算モジュール１４４は、例えば、それぞれ上述
した判定処理を設け、これらの判定処理において、これ
らのモジュールに対応するパラメータ（情動量、未参照
時間、または、メモリ総使用量等）の値が、所定の閾値
を超えると判定した場合、所定のトリガ信号を特徴ベク
トル消去モジュール１４１に供給するように構成され
る。

【０２０５】なお、特徴ベクトル消去モジュール１４１
に供給されるトリガ信号は、上述したものに限定される
ことなく、上述した以外の条件、例えば、ユーザ等によ
り後から設定される任意の条件により発生されるトリガ
信号等でもよい。

【０２０６】また、特徴ベクトル消去モジュール１４１
は、上述したように、所定の条件が満たされると判定す
ると、特徴ベクトルバッファ１３７に記憶されている発
話情報のうちの所定のものを消去するが、この消去され
る発話情報は任意に選択（設定）されることが可能であ
り、また、消去される発話情報の個数も任意に選択（設
定）されることが可能である。例えば、ユーザまたは製
造者等は、上述したそれぞれの条件によって、消去する
発話情報を個別にそれぞれ設定することも可能である。

【０２０７】ただし、上述したクラスタの代表メンバに
対応する発話情報、および、その代表メンバとの距離が
あまり大きくない発話情報等が消去されると、クラスタ
の構成そのものが大きく変化される恐れがあるため、こ
れらの発話情報は、消去されるものとしては不適であ
る。

【０２０８】一方、メンバの数が少ないクラスタに属す
る発話情報、代表メンバとの距離が大きく離れている発
話情報、および、メンバの新規登録が長い時間行われて
いないクラスタに属する発話情報等は、消去されるもの
として好適である。

【０２０９】また、特徴ベクトル消去モジュール１４１
は、特徴ベクトルバッファ１３７に記憶されている所定
の発話情報と、それに対応する各種のデータを消去する
が、これに伴い、スコアシートバッファ１３９に記憶さ
れているスコアシートも訂正（更新）される必要があ
る。

【０２１０】そこで、特徴ベクトル消去モジュール１４
１が、特徴ベクトルバッファ１３７に記憶されている所
定の発話情報を消去した場合、クラスタリングモジュー
ル１３８は、スコアシートのうちのその消去された発話
情報に対応する各種のデータを消去する。

【０２１１】例えば、いま、図１５のIDが３であるエン
トリ（行）のデータ（ID、音韻系列、特徴ベクトル系列
（発話情報）、および記録時刻）が消去されたものとす
ると、クラスタリングモジュール１３８は、図８のスコ
アシートの中で、IDが３であるエントリ（行）のデータ
（ID、音韻系列、クラスタナンバ、代表メンバID、およ
びスコアｓ（３，ｉ）（ｉは、１乃至N+1の値））を消
去するとともに、他のIDのメンバと、IDが３であるメン
バとのスコアｓ（ｊ，３）（ｊは、１乃至N+1の値）を
消去する。

【０２１２】さらに、クラスタリングモジュール１３８
は、その消去された発話情報が属していたクラスタ、即
ち、上述した例では、図８のIDが３であるメンバが属し
ていたクラスタ（クラスタナンバが１であるクラスタ）
に対して代表メンバを再選抜し（求めなおし）、代表メ
ンバが変更された場合（代表メンバとしてIDが１である
メンバ以外のメンバが選択された場合）には、全てのク
ラスタの構成が変更される可能性があるため、全てのID
の未登録語に対して再クラスタリングする。

【０２１３】なお、再クラスタリングの方法は、特に限
定されないが、この例においては、k-means法が適用さ
れるものとする。

【０２１４】即ち、クラスタリングモジュール１３８
は、次に示される（１）乃至（３）の処理を実行する。
ただし、いま、スコアシートバッファ１３９のスコアシ
ートには、N個の未登録語が登録されており、これらの
未登録語がk個のクラスタにそれぞれ分割されているも
のとする。

【０２１５】（１） N個の未登録語のうちのK個の任意
のものを、初期クラスタ中心とし、それらの初期クラス
タ中心がそれぞれ仮の代表メンバとなるk個のクラスタ
を生成する。（２）全てのデータ（N個の未登録語）について、そ
のｋ個の初期クラスタ中心とのスコアを再演算し、その
再演算したスコアに基づいて最も近い初期クラスタ中心
が属するクラスタのメンバとしてそれぞれ登録する。（３）新たにメンバが登録されたk個のクラスタの代
表メンバをそれぞれ選抜する。

【０２１６】なお、クラスタリングモジュール１３８
は、上述した（２）の処理において、スコアを演算する
場合、上述したように、全てのIDに対応する未登録語の
発話情報を必要とするが、これらの発話情報を、特徴ベ
クトルバッファ１３７を参照することで認識する。

【０２１７】また、図１５の例では、発話情報として、
特徴ベクトル系列が記憶されているが、上述したよう
に、特徴ベクトル系列の代わりにPCM信号（音声デー
タ）が記憶されてもよく、この場合、クラスタリングモ
ジュール１３８は、このPCM信号に基づいて、スコアを
演算する。

【０２１８】さらに、このk-means法の適用により、消
去された未登録語が属していたクラスタ以外のクラスタ
の構成が変更された場合には、クラスタリングモジュー
ル１３８は、この未登録語の消去処理に対する他への影
響が大きいものとみなして、その未登録語の消去自体を
とりやめ、その消去に伴って起こる全ての処理（スコア
シートの更新処理、再クラスタリング処理等）をキャン
セルし、消去前の状態に戻す（未登録語の消去の状態ま
で遡ってundoを実行する）。

【０２１９】次に、図１６のフローチャートを参照し
て、音声認識装置９１の音声認識処理について説明す
る。

【０２２０】なお、この例においては、特徴ベクトルバ
ッファ１３７には、図１５に示されるデータが記憶さ
れ、スコアシートバッファ１３９には、図８に示される
スコアシートが記憶されるものとする。即ち、この例に
おいては、発話情報は、特徴ベクトル系列とされる。

【０２２１】ステップＳ１０１において、特徴ベクトル
消去モジュール１４１は、未登録語の消去が指示された
か否かを判定する。

【０２２２】この例においては、特徴ベクトル消去モジ
ュール１４１は、例えば、次に示される（１）乃至
（５）のうちのいずれかの場合、未登録語の消去が指示
されたと判定する。

【０２２３】（１）スコアシートバッファ１３９のス
コアシートに登録されているクラスタのうちの所定のも
のに属するメンバの数が、所定の数を超えた場合（２）未参照時間演算モジュール１４２より供給され
た所定のクラスタの未参照時間が、所定の時間を超えた
場合（３）消去指示（トリガ信号）が入力部１０７より供
給された場合（４）情動制御モジュール１４３より供給された情動
のパラメータの値（情動量）が、所定の値（量）を超え
た場合（５）メモリ使用量演算モジュール１４４より供給さ
れたメモリ（RAM１０３等）の総使用量が、所定の量を
超えた場合

【０２２４】特徴ベクトル消去モジュール１４１は、ス
テップＳ１０１において、未登録語の消去が指示された
と判定した場合、ステップ１０２２において、その指示
された未登録語（以下、消去対象の未登録語と称する）
に対応する「未登録語消去処理」を実行し、ステップＳ
１０１に戻り、未登録語の消去が指示されたか否かを再
度判定する。

【０２２５】この例の「未登録語消去処理」の詳細は、
図１７に示されている。そこで、この例の「未登録語消
去処理」を、図１７を参照して説明する。

【０２２６】はじめに、ステップＳ１２１において、特
徴ベクトル消去モジュール１４１は、特徴ベクトルバッ
ファ１３７に記憶されているデータの中で、消去対象の
未登録語に対応するデータを消去する。

【０２２７】この例においては、例えば、消去対象の未
登録語が、IDが３である未登録語であるものとすると、
図１５に示されるデータのうちのIDが３であるエントリ
（行）のデータ（ID、音韻系列、特徴ベクトル（発話情
報）、および、記録時刻）が消去される。

【０２２８】ステップＳ１２２において、クラスタリン
グモジュール１３８は、スコアシートバッファ１３９の
スコアシートを訂正する。

【０２２９】この例においては、いま、ステップＳ１２
１の処理で、IDが３であるエントリのデータが消去され
たので、図８のスコアシートのデータのうちのIDが３で
あるエントリ（行）のデータ（ID、音韻系列、クラスタ
ナンバ、代表メンバID、および、スコアｓ（３，ｉ）
（iは、１乃至N+1の値））が消去されるとともに、その
消去されたIDが３である未登録語と、他のIDの未登録語
とのスコアｓ（ｊ，3）（ｊは、１乃至N+1の値）が消去
される。

【０２３０】ステップＳ１２３において、クラスタリン
グモジュール１３８は、消去対象の未登録語が属してい
たクラスタの代表メンバを再選する（求める）。

【０２３１】この例においては、消去対象の未登録語
は、IDが３である未登録語とされているので、図８のス
コアシートに示されるクラスタナンバが１であるクラス
タ（IDが３である未登録語が属していたクラスタ）の代
表メンバが上述した方法により再選される。

【０２３２】ステップＳ１２４において、クラスタリン
グモジュール１３８は、代表メンバが変更されたか否か
を判定し（ステップＳ１２３の処理で再選された代表メ
ンバが、その処理の直前の代表メンバと異なるか否かを
判定し）、代表メンバが変更されていないと判定した場
合、リターンする。即ち、図１６のステップＳ１０２の
処理が終了され、ステップＳ１０１に戻り、それ以降の
処理が繰り返される。

【０２３３】この例においては、いま、ステップＳ１２
３の処理でIDが１であるメンバが代表メンバとして再選
された場合、代表メンバが変更されていないと判定さ
れ、一方、再選された代表メンバがそれ以外のIDのメン
バであった場合、代表メンバが変更されたと判定され
る。

【０２３４】ステップＳ１２４において、クラスタリン
グモジュール１３８は、代表メンバが変更されたと判定
した場合、ステップＳ１２５において、全ての未登録語
（この例においては、図８のスコアシートに登録されて
いる未登録語のうちのIDが３であるものを除く全ての未
登録語）に対して再クラスタリングする。即ち、クラス
タリングモジュール１３８は、例えば、全ての未登録語
に対して上述したk-means法を適用する。

【０２３５】ステップＳ１２６において、クラスタリン
グモジュール１３８は、クラスタの構成が変更されたか
否かを判定し（ステップＳ１２５の処理で再クラスタリ
ングされたそれぞれのクラスタの構成が、その処理の直
前の構成と異なるか否かを判定し）、クラスタの構成が
変更されていないと判定した場合、リターンする。

【０２３６】一方、ステップＳ１２６において、クラス
タリングモジュール１３８は、クラスタの構成が変更さ
れたと判定した場合、ステップＳ１２７において、消去
前の元の状態に戻す（ステップＳ１２１の処理が実行さ
れる前の状態に戻す）。即ち、クラスタリングモジュー
ル１３８は、消去対象の未登録語を消去した状態まで遡
ってundoを実行し、リターンする。

【０２３７】なお、ステップＳ１２６およびＳ１２７の
処理（Undo処理）は、省略されてもよい。即ち、音声認
識装置９１は、クラスタの変更を許可して、Undo処理を
実行しないようにしてもよい。

【０２３８】また、ステップＳ１２６およびＳ１２７の
処理を実行させるか否かを、音声認識装置９１の外部よ
り（ユーザ等により）選択できるように音声認識装置９
１は構成されてもよい。

【０２３９】図１６に戻り、ステップＳ１０１におい
て、未登録語の消去が指示されていないと判定された場
合、ステップＳ１０２において、特徴抽出モジュール１
３１は、音声が入力されたか否かを判定する。

【０２４０】ステップＳ１０２において、音声が入力さ
れていないと判定された場合、ステップＳ１０１に戻
り、それ以降の処理が繰り返される。

【０２４１】即ち、特徴ベクトル消去モジュール１４１
は、未登録語の消去（特徴ベクトルバッファ１３７に記
憶されているその未登録語に対応する発話情報の消去）
が指示されたか否かを常時判定するとともに、特徴抽出
モジュール１３１は、特徴ベクトル消去モジュール１４
１とは独立して、音声が入力されたか否かを常時判定す
る。

【０２４２】いま、ユーザが発話を行ったものとする
と、その発話された音声は、入力部１０７のマイクロホ
ンおよびＡＤ変換部を介することにより、デジタルの音
声データとされ、特徴抽出モジュール１３１に供給され
る。

【０２４３】このとき、特徴抽出部モジュール１３１
は、ステップＳ１０３において、音声が入力されたか否
かを判定し、音声が入力された場合（音声が入力された
と判定した場合）、ステップＳ１０４において、その音
声データを、所定のフレーム単位で音響分析することに
より、特徴ベクトルを抽出し、その特徴ベクトルの系列
を、マッチングモジュール１３２および未登録語区間処
理モジュール１３６に供給する。

【０２４４】即ち、ステップＳ１０４乃至Ｓ１０８の処
理は、上述した図９のステップＳ１乃至Ｓ５と同様の処
理である。従って、ステップＳ１０４乃至Ｓ１０８の処
理の説明は、省略する。

【０２４５】上述したように、特徴ベクトル消去モジュ
ール１４１は、所定の条件が満たされると判定した場
合、特徴ベクトルバッファ１３７に記憶されているデー
タの中で、クラスタリングへの影響が少ないと判断され
る発話情報（図１５の例では、特徴ベクトル系列）と、
それに対応するデータ（図１５の例では、ID、音韻系
列、および記録時刻）を消去するので、未登録語を自動
獲得する機能を損なうことなく、記憶領域の消費を抑制
することができる。

【０２４６】さらにまた、この特徴ベクトル消去モジュ
ール１４１の消去処理に伴い、クラスタリングモジュー
ル１３８は、スコアシートバッファ１３９に記憶されて
いるスコアシートも訂正する（不要なデータを消去す
る）ので、記憶領域の消費をより抑制することができ
る。

【０２４７】なお、上述した例においても、記録媒体に
記録されるプログラムを記述するステップは、記載され
た順序に沿って時系列的に行われる処理はもちろん、必
ずしも時系列的に処理されなくとも、並列的あるいは個
別に実行される処理をも含むものである。

【０２４８】また、図１４の各モジュールは、その機能
を果たすものであれば、その形態は限定されない。即
ち、ハードウェアなどでモジュールが構成されてもよ
い。その場合、製造者等は、これらの各モジュールを、
図１４に示されるようにそれぞれ接続すればよい。換言
すると、上述した図３の音声認識部５０Ａの代わりに、
図１４に対応するハードウェアを音声認識部として利用
してもよい。

【０２４９】なお、上述した実施の形態においては、Ｈ
ＭＭ法により音声認識を行うようにしたが、本発明は、
その他、例えば、ＤＰマッチング法等により音声認識を
行う場合にも適用可能である。ここで、例えば、ＤＰマ
ッチング法による音声認識を行う場合には、上述のスコ
アは、入力音声と標準パターンとの間の距離の逆数に相
当する。

【０２５０】また、上述した実施の形態では、未登録語
をクラスタリングし、そのクラスタリング結果に基づい
て、単語辞書に、未登録語を登録するようにしたが、本
発明は、単語辞書に登録されている登録語についても適
用可能である。

【０２５１】即ち、同一単語の発話についてであって
も、異なる音韻系列が得られる場合があることから、単
語辞書に、１つの単語について、１つの音韻系列だけを
登録しておく場合には、その単語の発話として、単語辞
書に登録された登録語の音韻系列と異なる音韻系列が得
られるときには、発話が、その登録語に認識されないこ
とがある。これに対して、本発明によれば、同一の単語
についての異なる発話が、音響的に類似したものどうし
にクラスタリングされることとなるので、そのクラスタ
リング結果に基づいて、単語辞書を更新することによ
り、同一の単語について、多種の音韻系列が、単語辞書
に登録されることになり、その結果、同一単語につき、
種々の音韻に対処した音声認識を行うことが可能とな
る。

【０２５２】なお、単語辞書に登録する、未登録語のク
ラスタに対応するエントリには、音韻系列の他、例え
ば、次のようにして見出しを記述することができる。

【０２５３】即ち、例えば、行動決定機構部５２におい
て、画像認識部５０Ｂや圧力処理部５０Ｃが出力する状
態認識情報を、図３において点線で示すように、音声認
識部５０Ａに供給するようにし、音声認識部５０Ａのメ
ンテナンス部３１（図４）において、その状態認識情報
を受信するようにする。

【０２５４】一方、特徴ベクトルバッファ２８、ひいて
は、スコアシート記憶部３０においては、未登録語が入
力された絶対時刻（時間）も記憶しておくようにし、メ
ンテナンス部３１において、スコアシート記憶部３０に
おけるスコアシートの絶対時刻を参照することにより、
未登録語が入力されたときの、行動決定機構部５２から
供給される状態認識情報を、その未登録語の見出しとし
て認識する。

【０２５５】そして、メンテナンス部３１において、単
語辞書の、未登録語のクラスタに対応するエントリに
は、そのクラスタの代表メンバの音韻系列とともに、そ
の見出しとしての状態認識情報を登録するようにする。

【０２５６】この場合、マッチング部２３には、単語辞
書に登録された未登録語の音声認識結果として、その未
登録語の見出しとしての状態認識情報を出力させること
が可能となり、さらに、その見出しとしての状態認識情
報に基づいて、ロボットに所定の行動をとらせることが
可能となる。

【０２５７】具体的には、例えば、単語「赤」が未登録
語であるとして、ＣＣＤ１６において、赤い物体が撮像
されたときには、例えば、「赤い」という状態認識情報
が、画像認識部５０Ｂから、行動決定機構部５２を介し
て、音声認識部５０Ａに供給されるが、そのときに、ユ
ーザが、未登録語としての「赤」を発話すると、音声認
識部５０Ａでは、その未登録語「赤」の音韻系列が求め
られる。

【０２５８】そして、この場合、音声認識部５０Ａで
は、未登録語「赤」の音韻系列と、その見出しとしての
状態認識情報「赤い」とが、未登録語「赤」のエントリ
として、単語辞書に追加される。

【０２５９】その結果、次に、ユーザが「赤」と発話し
たときには、その発話についてのスコアとしては、単語
辞書に登録されている未登録語「赤」の音韻系列に対す
るものが大きくなり、音声認識部５０Ａでは、その見出
しとなっている状態認識情報「赤い」が、音声認識結果
として出力されることになる。

【０２６０】この音声認識結果は、音声認識部５０Ａか
ら行動決定機構部５２に供給されるが、この場合、行動
決定機構部５２では、画像認識部５０Ｂの出力に基づい
て、周囲の赤い物体を探し出し、その赤い物体に向かっ
ていくような行動を、ロボットにとらせるようにするこ
とが可能となる。

【０２６１】即ち、この場合、ロボットは、最初は、発
話「赤」を音声認識することはできないが、ロボット
が、赤い物体を撮像しているときに、ユーザが、「赤」
と発話すると、ロボットにおいて、その発話「赤」と、
撮像されている赤い物体とが対応付けられ、その後は、
ユーザが、「赤」と発話すると、その発話「赤」が音声
認識され、周囲にある赤い物体に向かって歩行していく
ようになる。

【０２６２】なお、図１３の音声認識装置９１における
場合も、同様である。

【０２６３】また、上述した実施の形態においては、ス
コアシートに、スコアを記憶しておくようにしたが、ス
コアは、必要に応じて、再計算するようにすることも可
能である。

【０２６４】また、上述した実施の形態では、検出クラ
スタを、２つのクラスタに分割するようにしたが、検出
クラスタは、３以上のクラスタに分割することが可能で
ある。さらに、検出クラスタは、一定以上のクラスタ間
距離となる任意の数のクラスタに分割することも可能で
ある。

【０２６５】さらに、上述した実施の形態では、スコア
シート（図８）に、スコアの他、未登録語の音韻系列
や、クラスタナンバ、代表メンバID等を登録するように
したが、これらのスコア以外の情報は、スコアシートに
登録するのではなく、スコアとは別に管理することが可
能である。

【０２６６】

【発明の効果】本発明の音声処理装置および音声処理方
法、並びにプログラムによれば、既に求められている、
音声をクラスタリングしたクラスタの中から、入力音声
を新たなメンバとして加えるクラスタが検出される。さ
らに、入力音声が、検出されたクラスタの新たなメンバ
とされ、そのクラスタが、そのクラスタのメンバに基づ
いて分割される。そして、その分割結果に基づいて、辞
書が更新される。従って、例えば、辞書の大規模化をさ
けて、辞書に登録されていない未登録語の辞書への登録
等を、容易に行うことが可能となる。

【図面の簡単な説明】

【図１】本発明を適用したロボットの一実施の形態の外
観構成例を示す斜視図である。

【図２】ロボットの内部構成例を示すブロック図であ
る。

【図３】図１のロボットのコントローラの機能的構成例
を示すブロック図である。

【図４】本発明の第１実施形態が適用される音声認識装
置としての、図１のロボットの音声認識部の構成例を示
すブロック図である。

【図５】単語辞書を示す図である。

【図６】文法規則を示す図である。

【図７】図４の音声認識部の特徴ベクトルバッファの記
憶内容を示す図である。

【図８】スコアシートを示す図である。

【図９】図４の音声認識部の音声認識処理を説明するフ
ローチャートである。

【図１０】図９の未登録語処理の詳細を説明するフロー
チャートである。

【図１１】図９のクラスタ分割処理の詳細を説明するフ
ローチャートである。

【図１２】シミュレーション結果を示す図である。

【図１３】本発明の第２実施形態が適用された音声認識
装置のハードウェアの構成例を示す図である。

【図１４】図１３の音声認識装置のソフトウエアの構成
例を示すブロック図である。

【図１５】図１４の音声認識装置の特徴ベクトルバッフ
ァの記憶内容を示す図である。

【図１６】図１４の音声認識装置の音声認識処理を説明
するフローチャートである。

【図１７】図１６の未登録語消去処理の詳細を説明する
フローチャートである。

【符号の説明】

１頭部ユニット，４Ａ下顎部，１０コントロ
ーラ，１０ＡＣＰＵ，１０Ｂメモリ，１５
マイク，１６ＣＣＤカメラ，１７タッチセン
サ，１８スピーカ，２１ＡＤ変換部，２２
特徴抽出部，２３マッチング部，２４音響モデ
ル記憶部，２５辞書記憶部，２６文法記憶部，
２７未登録語区間処理部，２８特徴ベクトルバッ
ファ，２９クラスタリング部，３０スコアシート
記憶部，３１メンテナンス部，５０センサ入力
処理部，５０Ａ音声認識部，５０Ｂ画像認識
部，５０Ｃ圧力処理部，５１モデル記憶部，
５２行動決定機構部，５３姿勢遷移機構部，５４
制御機構部，５５音声合成部，９１音声認識
装置，１０１バス，１０２ CPU，１０３ RO
M，１０４ RAM，１０５ハードディスク，１０
６出力部，１０７入力部，１０８通信部，１
０９ドライブ，１１０入出力インタフェース，
１１１リムーバブル記録媒体，１３１特徴抽出モジ
ュール，１３２マッチングモジュール，１３３
音響モデルバッファ，１３４辞書バッファ，１３
５文法バッファ，１３６未登録語区間処理モジュ
ール，１３７特徴ベクトルバッファ，１３８ク
ラスタリングモジュール，１３９スコアシートバッ
ファ，１４０メンテナンスモジュール，１４１
特徴ベクトル消去モジュール，１４２未参照時間演
算モジュール，１４３情動制御モジュール，１４
４メモリ使用量演算モジュール

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/24 Ｇ１０Ｌ 3/00 ５５１Ｈ５７１Ｑ

Claims

【特許請求の範囲】

【請求項１】入力音声を処理し、その処理結果に基づ
いて、言語処理に用いられる辞書を更新する音声処理装
置であって、既に求められている、音声をクラスタリングしたクラス
タの中から、前記入力音声を新たなメンバとして加える
クラスタを検出するクラスタ検出手段と、前記入力音声を、前記クラスタ検出手段において検出さ
れたクラスタの新たなメンバとし、そのクラスタを、そ
のクラスタのメンバに基づいて分割するクラスタ分割手
段と、前記クラスタ分割手段によるクラスタの分割結果に基づ
いて、前記辞書を更新する更新手段とを備えることを特
徴とする音声処理装置。
【請求項２】前記辞書は、音声認識の対象とする語彙
の音韻系列を記憶しており、前記更新手段は、分割後のクラスタのメンバを代表する
代表メンバに対応する音声の音韻系列を、前記辞書の新
たなエントリとして加えることにより、または前記辞書
のエントリを、分割後のクラスタのメンバを代表する代
表メンバに対応する音声の音韻系列に変更することによ
り、前記辞書を更新することを特徴とする請求項１に記
載の音声処理装置。
【請求項３】前記クラスタ検出手段は、前記クラスタのメンバから前記入力音声が観測される尤
度を、前記クラスタのメンバに対する前記入力音声につ
いてのスコアとして計算し、前記クラスタの中から、前記入力音声について求められ
る前記スコアを最も高くする、前記クラスタのメンバを
代表する代表メンバを求め、その代表メンバを代表とするクラスタを、前記入力音声
を新たなメンバとして加えるクラスタとして検出するこ
とを特徴とする請求項１に記載の音声処理装置。
【請求項４】前記入力音声は、前記辞書にあらかじめ
登録されていない未登録語であることを特徴とする請求
項１に記載の音声処理装置。
【請求項５】前記クラスタのメンバを代表する代表メ
ンバを、そのクラスタの他のメンバについてのスコアの
総和を最大にするメンバとする場合において、前記クラスタ分割手段は、前記入力音声をメンバとした
クラスタを、そのクラスタのメンバのうちの２つが前記
代表メンバとなる第１および第２のクラスタの２つのク
ラスタの組に分割することを特徴とする請求項３に記載
の音声処理装置。
【請求項６】前記クラスタ分割手段は、第１および第
２のクラスタの２つのクラスタの組が複数組存在する場
合、前記入力音声をメンバとしたクラスタを、前記第１
のクラスタと第２のクラスタとのクラスタ間距離を最小
にする２つのクラスタに分割することを特徴とする請求
項５に記載の音声処理装置。
【請求項７】前記クラスタ分割手段は、前記第１のク
ラスタと第２のクラスタとのクラスタ間距離を最小にす
る２つのクラスタどうしのクラスタ間距離が所定の閾値
より大である場合に、前記入力音声をメンバとしたクラ
スタを、その２つのクラスタに分割することを特徴とす
る請求項６に記載の音声処理装置。
【請求項８】前記クラスタのメンバについて、各クラ
スタの各メンバに対するスコアを記憶する記憶手段をさ
らに備えることを特徴とする請求項５に記載の音声処理
装置。
【請求項９】前記辞書は、音声認識の対象とする語彙
の音韻系列を記憶しており、前記辞書の音韻系列にしたがって構成される音響モデル
に基づいて、音声を認識する音声認識手段をさらに備え
ることを特徴とする請求項１に記載の音声処理装置。
【請求項１０】前記音響モデルは、ＨＭＭ(Hidden Ma
rkov model)であることを特徴とする請求項９に記載の
音声処理装置。
【請求項１１】前記音声認識手段は、サブワード単位
の前記ＨＭＭを接続することにより、前記辞書の音韻系
列に対応する音響モデルを構成し、その音響モデルに基
づいて、音声を認識することを特徴とする請求項９に記
載の音声処理装置。
【請求項１２】前記音声認識手段は、所定の文法規則
にも基づいて、音声を認識することを特徴とする請求項
９に記載の音声処理装置。
【請求項１３】前記音声認識手段は、前記所定の文法
規則に基づいて、前記入力音声の所定の区間を切り出
し、前記クラスタ検出手段およびクラスタ分割手段は、前記
所定の区間の前記入力音声を対象として処理を行うこと
を特徴とする請求項１２に記載の音声処理装置。
【請求項１４】前記音声認識手段は、前記入力音声か
ら、前記辞書に登録されていない未登録語の区間を、前
記所定の区間として切り出すことを特徴とする請求項１
３に記載の音声処理装置。
【請求項１５】前記音声認識手段は、ガーベジモデル
を用いた前記所定の文法規則に基づいて、前記未登録語
の区間を切り出すことを特徴とする請求項１４に記載の
音声処理装置。
【請求項１６】前記クラスタ分割手段は、ＥＭ(Expec
tation Maximum)法により、前記クラスタを分割するこ
とを特徴とする請求項１に記載の音声処理装置。
【請求項１７】前記入力音声に関する音声情報を記憶
する記憶手段と、所定の条件が満たされると判定した場
合、前記記憶手段に記憶された前記音声情報のうちの所
定のものを消去する消去手段とをさらに備えることを特
徴とする請求項１に記載の音声処理装置。
【請求項１８】前記記憶手段に記憶される前記音声情
報は、前記入力音声のデジタルデータであることを特徴
とする請求項１７に記載の音声処理装置。
【請求項１９】前記入力音声のデジタルデータより、
前記入力音声の所定の特徴を表す特徴ベクトルを抽出す
る特徴抽出手段をさらに備え、前記記憶手段に記憶される前記音声情報は、前記特徴抽
出手段により抽出された前記入力音声の前記特徴ベクト
ルであることを特徴とする請求項１８に記載の音声処理
装置。
【請求項２０】前記消去手段は、所定の前記クラスタ
に属する前記メンバの数が、所定の数を超えた場合、前
記所定の条件が満たされると判定することを特徴とする
請求項１７に記載の音声処理装置。
【請求項２１】前記クラスタ検出手段により所定の前
記クラスタが検出されていない未参照時間を演算する未
参照時間演算手段をさらに備え、前記消去手段は、前記未参照時間演算手段により演算さ
れた前記所定のクラスタの前記未参照時間が、所定の時
間を超えた場合、前記所定の条件が満たされると判定す
ることを特徴とする請求項１７に記載の音声処理装置。
【請求項２２】トリガ信号を入力する入力手段をさら
に備え、前記消去手段は、前記入力手段により前記トリガ信号が
入力された場合、前記所定の条件が満たされると判定す
ることを特徴とする請求項１７に記載の音声処理装置。
【請求項２３】情動のパラメータを制御する情動制御
手段をさらに備え、前記消去手段は、前記情動制御手段により制御された前
記情動のパラメータの値が、所定の値を超えた場合、前
記所定の条件が満たされると判定することを特徴とする
請求項１７に記載の音声処理装置。
【請求項２４】前記記憶手段の記憶領域の使用量を演
算する記憶領域使用量演算手段をさらに備え、前記消去手段は、前記記憶領域使用量演算手段により演
算された前記記憶領域の使用量が、所定の量を超えた場
合、前記所定の条件が満たされると判定することを特徴
とする請求項１７に記載の音声処理装置。
【請求項２５】前記クラスタ検出手段は、前記消去手段により前記音声情報が消去された場合、消
去された前記音声情報が属していた前記クラスタの前記
メンバを代表する代表メンバを選抜する代表メンバ選抜
手段と、前記代表メンバ選抜手段により選抜された前記代表メン
バが、前記代表メンバ選抜手段による処理が実行される
直前の前記代表メンバとは異なる場合、前記記憶手段に
記憶されている全ての前記音声情報に対応する音声に対
して、再クラスタリングするクラスタリング手段とをさ
らに有することを特徴とする請求項１７に記載の音声処
理装置。
【請求項２６】前記クラスタリング手段により再クラ
スタリングされた前記クラスタの構成が、前記クラスタ
リング手段による処理が実行される直前の前記クラスタ
の構成と異なる場合、前記消去手段による前記音声情報
に対する処理が実行される直前の状態に戻す消去処理取
消手段をさらに備えることを特徴とする請求項２５に記
載の音声処理装置。
【請求項２７】前記クラスタリング手段は、k-means
法を適用することを特徴とする請求項２５に記載の音声
処理装置。
【請求項２８】入力音声を処理し、その処理結果に基
づいて、言語処理に用いられる辞書を更新する音声処理
方法であって、既に求められている、音声をクラスタリングしたクラス
タの中から、前記入力音声を新たなメンバとして加える
クラスタを検出するクラスタ検出ステップと、前記入力
音声を、前記クラスタ検出ステップにおいて検出された
クラスタの新たなメンバとし、そのクラスタを、そのク
ラスタのメンバに基づいて分割するクラスタ分割ステッ
プと、前記クラスタ分割ステップによるクラスタの分割結果に
基づいて、前記辞書を更新する更新ステップとを備える
ことを特徴とする音声処理方法。
【請求項２９】入力音声を処理し、その処理結果に基
づいて、言語処理に用いられる辞書を更新する音声処理
を、コンピュータに行わせるプログラムであって、既に求められている、音声をクラスタリングしたクラス
タの中から、前記入力音声を新たなメンバとして加える
クラスタを検出するクラスタ検出ステップと、前記入力音声を、前記クラスタ検出ステップにおいて検
出されたクラスタの新たなメンバとし、そのクラスタ
を、そのクラスタのメンバに基づいて分割するクラスタ
分割ステップと、前記クラスタ分割ステップによるクラスタの分割結果に
基づいて、前記辞書を更新する更新ステップとを備える
ことを特徴とするプログラム。
【請求項３０】入力音声を処理し、その処理結果に基
づいて、言語処理に用いられる辞書を更新する音声処理
を、コンピュータに行わせるプログラムが記録されてい
る記録媒体であって、既に求められている、音声をクラスタリングしたクラス
タの中から、前記入力音声を新たなメンバとして加える
クラスタを検出するクラスタ検出ステップと、前記入力
音声を、前記クラスタ検出ステップにおいて検出された
クラスタの新たなメンバとし、そのクラスタを、そのク
ラスタのメンバに基づいて分割するクラスタ分割ステッ
プと、前記クラスタ分割ステップによるクラスタの分割結果に
基づいて、前記辞書を更新する更新ステップとを備える
プログラムが記録されていることを特徴とする記録媒
体。