JP2002358095A - 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体 - Google Patents

音声処理装置および音声処理方法、並びにプログラムおよび記録媒体

Info

Publication number
JP2002358095A
JP2002358095A JP2002069603A JP2002069603A JP2002358095A JP 2002358095 A JP2002358095 A JP 2002358095A JP 2002069603 A JP2002069603 A JP 2002069603A JP 2002069603 A JP2002069603 A JP 2002069603A JP 2002358095 A JP2002358095 A JP 2002358095A
Authority
JP
Japan
Prior art keywords
cluster
unit
speech
dictionary
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2002069603A
Other languages
English (en)
Other versions
JP2002358095A5 (ja
Inventor
Masanori Omote
雅則 表
Lucke Helmut
ルッケ ヘルムート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2002069603A priority Critical patent/JP2002358095A/ja
Priority to PCT/JP2002/003248 priority patent/WO2002080141A1/ja
Priority to KR1020027016297A priority patent/KR20030007793A/ko
Priority to EP02708744A priority patent/EP1376536A1/en
Priority to CN02801646A priority patent/CN1462428A/zh
Priority to US10/296,797 priority patent/US7228276B2/en
Publication of JP2002358095A publication Critical patent/JP2002358095A/ja
Publication of JP2002358095A5 publication Critical patent/JP2002358095A5/ja
Abandoned legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

(57)【要約】 【課題】 辞書の大規模化をさけて、辞書に登録されて
いない未登録語の辞書への登録を容易に行う。 【解決手段】 クラスタリング部29において、既に求
められている、未登録語をクラスタリングしたクラスタ
の中から、新未登録語を新たなメンバとして加えるクラ
スタ(検出クラスタ)を検出し、新未登録語を、その検
出クラスタの新たなメンバとして、検出クラスタを、そ
の検出クラスタのメンバに基づいて分割する。これによ
り、未登録語が、その音響的特徴が近似しているものど
うしにクラスタリングされる。さらに、メンテナンス部
31において、そのようなクラスタリング結果に基づい
て、単語辞書が更新される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声処理装置およ
び音声処理方法、並びにプログラムおよび記録媒体に関
し、特に、例えば、音声認識の対象とする単語等の語句
を登録する辞書を、容易に更新することができるように
する音声処理装置および音声処理方法、並びにプログラ
ムおよび記録媒体に関する。
【0002】
【従来の技術】従来の音声認識装置においては、音声認
識の対象とする単語が登録された辞書を参照することに
より、ユーザの発話が音声認識される。
【0003】従って、音声認識装置において、音声認識
の対象となるのは、辞書に登録された単語(以下、適
宜、登録語という)だけであり、辞書に登録されていな
い単語は認識することができない。いま、辞書に登録さ
れていない語彙を未登録語というものとすると、従来の
音声認識装置では、ユーザの発話に、未登録語が含まれ
る場合には、その未登録語が、辞書に登録されているい
ずれかの単語(以下、適宜、登録語という)に認識さ
れ、その結果、未登録語は誤認識される。さらに、未登
録語が誤認識されると、その誤認識が、未登録語の前後
の単語等の認識にも影響する場合があり、この場合、未
登録語の前後の単語等も誤認識されることになる。
【0004】従って、未登録語については、何らかの対
処を施す必要があり、従来より種々の方法が提案されて
いる。
【0005】例えば、特開平9−81181号公報に
は、未登録語を検出するためのガーベジモデルと、母音
等の幾つかの音素ごとにクラスタリングされたHMM(H
iddenMarkov Model)とを同時に用い、未登録語に許可す
る音韻系列を制限することによって、未登録語の検出
を、そのための計算量を低減して行う音声認識装置が開
示されている。
【0006】また、例えば、特願平11−245461
号には、データベースにない未登録語について、単語の
概念に基づき、データベースにある単語との間の類似度
を計算し、未登録語を含む単語の集合について、適切な
並びの単語列を構成して出力する情報処理装置が開示さ
れている。
【0007】さらに、例えば、"Dictionary Learning:
Performance Through Consistency", Tilo Sloboda, Pr
oceedings of ICASSP 95, vol. 1, pp.453-456, 1995に
は、単語の音声区間に対応する音韻系列を検出し、コン
フュージョンマトリクス(confusion matrix)によって、
音声的に近い音韻系列を削除することにより、効果的
に、異音(variants)を含む辞書を構成する方法が開示さ
れている。
【0008】また、例えば、「単語発声の複数サンプル
を利用した未知語の音韻系列の推定」、伊藤克亘 他、
電子情報通信学会論文誌、Vol. J83-D-II No. 11 pp.21
52-2159, 2000年11月には、複数の音声サンプル
から音韻系列を推定し、未知語(未登録語)を辞書に登
録する際の音韻系列の推定精度を向上させる方法が開示
されている。
【0009】
【発明が解決しようとする課題】ところで、未登録語に
対する対処法のうちの代表的なものの1つとしては、入
力音声に未登録語が含まれる場合に、その未登録語を、
辞書に登録し、以後は、登録語としてしまう方法があ
る。
【0010】未登録語を辞書に登録するには、まず、そ
の未登録語の音声区間を検出し、その音声区間における
音声の音韻系列を認識する必要がある。ある音声の音韻
系列を認識する方法としては、例えば、音韻タイプライ
タと呼ばれる方法があり、音韻タイプライタでは、基本
的に、すべての音韻に対する自由な遷移を許可するガー
ベジモデルを用いて、入力音声に対する音韻系列が出力
される。
【0011】さらに、未登録語を辞書に登録するには、
未登録語の音韻系列をクラスタリングする必要がある。
即ち、辞書においては、各単語の音韻系列が、その単語
のクラスタにクラスタリングされて登録されており、未
登録語を辞書に登録するには、その未登録語の音韻系列
をクラスタリングする必要がある。
【0012】未登録語の音韻系列をクラスタリングする
方法としては、その未登録語を表す見出し(例えば、未
登録語の読み)を、ユーザに入力してもらい、その見出
しで表されるクラスタに、未登録語の音韻系列をクラス
タリングする方法があるが、この方法では、ユーザが見
出しの入力を必要とすることから面倒である。
【0013】また、未登録語が検出されるたびに、新た
なクラスタを生成し、未登録語の音韻系列を、その新た
なクラスタにクラスタリングする方法がある。しかしな
がら、この方法では、未登録語が検出されるたびに、辞
書に、新たなクラスタに対応するエントリが登録される
こととなるから、辞書が大規模になり、その後の音声認
識に要する処理量や時間が増大することになる。
【0014】本発明は、このような状況に鑑みてなされ
たものであり、辞書の大規模化をさけて、未登録語の辞
書への登録等を、容易に行うことができるようにするも
のである。
【0015】
【課題を解決するための手段】本発明の音声処理装置
は、既に求められている、音声をクラスタリングしたク
ラスタの中から、入力音声を新たなメンバとして加える
クラスタを検出するクラスタ検出手段と、入力音声を、
クラスタ検出手段において検出されたクラスタの新たな
メンバとし、そのクラスタを、そのクラスタのメンバに
基づいて分割するクラスタ分割手段と、クラスタ分割手
段によるクラスタの分割結果に基づいて、辞書を更新す
る更新手段とを備えることを特徴とする。
【0016】本発明の音声処理方法は、既に求められて
いる、音声をクラスタリングしたクラスタの中から、入
力音声を新たなメンバとして加えるクラスタを検出する
クラスタ検出ステップと、入力音声を、クラスタ検出ス
テップにおいて検出されたクラスタの新たなメンバと
し、そのクラスタを、そのクラスタのメンバに基づいて
分割するクラスタ分割ステップと、クラスタ分割ステッ
プによるクラスタの分割結果に基づいて、辞書を更新す
る更新ステップとを備えることを特徴とする。
【0017】本発明のプログラムは、既に求められてい
る、音声をクラスタリングしたクラスタの中から、入力
音声を新たなメンバとして加えるクラスタを検出するク
ラスタ検出ステップと、入力音声を、クラスタ検出ステ
ップにおいて検出されたクラスタの新たなメンバとし、
そのクラスタを、そのクラスタのメンバに基づいて分割
するクラスタ分割ステップと、クラスタ分割ステップに
よるクラスタの分割結果に基づいて、辞書を更新する更
新ステップとを備えることを特徴とする。
【0018】本発明の記録媒体は、既に求められてい
る、音声をクラスタリングしたクラスタの中から、入力
音声を新たなメンバとして加えるクラスタを検出するク
ラスタ検出ステップと、入力音声を、クラスタ検出ステ
ップにおいて検出されたクラスタの新たなメンバとし、
そのクラスタを、そのクラスタのメンバに基づいて分割
するクラスタ分割ステップと、クラスタ分割ステップに
よるクラスタの分割結果に基づいて、辞書を更新する更
新ステップとを備えるプログラムが記録されていること
を特徴とする。
【0019】本発明の音声処理装置および音声処理方
法、並びにプログラムにおいては、既に求められてい
る、音声をクラスタリングしたクラスタの中から、入力
音声を新たなメンバとして加えるクラスタが検出され
る。さらに、入力音声が、検出されたクラスタの新たな
メンバとされ、そのクラスタが、そのクラスタのメンバ
に基づいて分割される。そして、その分割結果に基づい
て、辞書が更新される。
【0020】
【発明の実施の形態】図1は、本発明を適用したロボッ
トの一実施の形態の外観構成例を示しており、図2は、
その電気的構成例を示している。
【0021】本実施の形態では、ロボットは、例えば、
犬等の四つ足の動物の形状のものとなっており、胴体部
ユニット2の前後左右に、それぞれ脚部ユニット3A,
3B,3C,3Dが連結されるとともに、胴体部ユニッ
ト2の前端部と後端部に、それぞれ頭部ユニット4と尻
尾部ユニット5が連結されることにより構成されてい
る。
【0022】尻尾部ユニット5は、胴体部ユニット2の
上面に設けられたベース部5Bから、2自由度をもって
湾曲または揺動自在に引き出されている。
【0023】胴体部ユニット2には、ロボット全体の制
御を行うコントローラ10、ロボットの動力源となるバ
ッテリ11、並びにバッテリセンサ12および熱センサ
13からなる内部センサ部14などが収納されている。
【0024】頭部ユニット4には、「耳」に相当するマ
イク(マイクロホン)15、「目」に相当するCCD(C
harge Coupled Device)カメラ16、触覚に相当するタ
ッチセンサ17、「口」に相当するスピーカ18など
が、それぞれ所定位置に配設されている。また、頭部ユ
ニット4には、口の下顎に相当する下顎部4Aが1自由
度をもって可動に取り付けられており、この下顎部4A
が動くことにより、ロボットの口の開閉動作が実現され
るようになっている。
【0025】脚部ユニット3A乃至3Dそれぞれの関節
部分や、脚部ユニット3A乃至3Dそれぞれと胴体部ユ
ニット2の連結部分、頭部ユニット4と胴体部ユニット
2の連結部分、頭部ユニット4と下顎部4Aの連結部
分、並びに尻尾部ユニット5と胴体部ユニット2の連結
部分などには、図2に示すように、それぞれアクチュエ
ータ3AA1乃至3AAK、3BA1乃至3BAK、3CA
1乃至3CAK、3DA1乃至3DAK、4A1乃至4AL
5A1および5A2が配設されている。
【0026】頭部ユニット4におけるマイク15は、ユ
ーザからの発話を含む周囲の音声(音)を集音し、得ら
れた音声信号を、コントローラ10に送出する。CCD
カメラ16は、周囲の状況を撮像し、得られた画像信号
を、コントローラ10に送出する。
【0027】タッチセンサ17は、例えば、頭部ユニッ
ト4の上部に設けられており、ユーザからの「なでる」
や「たたく」といった物理的な働きかけにより受けた圧
力を検出し、その検出結果を圧力検出信号としてコント
ローラ10に送出する。
【0028】胴体部ユニット2におけるバッテリセンサ
12は、バッテリ11の残量を検出し、その検出結果
を、バッテリ残量検出信号としてコントローラ10に送
出する。熱センサ13は、ロボット内部の熱を検出し、
その検出結果を、熱検出信号としてコントローラ10に
送出する。
【0029】コントローラ10は、CPU(Central Pro
cessing Unit)10Aやメモリ10B等を内蔵してお
り、CPU10Aにおいて、メモリ10Bに記憶された
制御プログラムが実行されることにより、各種の処理を
行う。
【0030】即ち、コントローラ10は、マイク15
や、CCDカメラ16、タッチセンサ17、バッテリセ
ンサ12、熱センサ13から与えられる音声信号、画像
信号、圧力検出信号、バッテリ残量検出信号、熱検出信
号に基づいて、周囲の状況や、ユーザからの指令、ユー
ザからの働きかけなどの有無を判断する。
【0031】さらに、コントローラ10は、この判断結
果等に基づいて、続く行動を決定し、その決定結果に基
づいて、アクチュエータ3AA1乃至3AAK、3BA1
乃至3BAK、3CA1乃至3CAK、3DA1乃至3DA
K、4A1乃至4AL、5A1、5A2のうちの必要なもの
を駆動させる。これにより、頭部ユニット4を上下左右
に振らせたり、下顎部4Aを開閉させる。さらには、尻
尾部ユニット5を動かせたり、各脚部ユニット3A乃至
3Dを駆動して、ロボットを歩行させるなどの行動を行
わせる。
【0032】また、コントローラ10は、必要に応じ
て、合成音を生成し、スピーカ18に供給して出力させ
たり、ロボットの「目」の位置に設けられた図示しない
LED(Light Emitting Diode)を点灯、消灯または点
滅させる。
【0033】以上のようにして、ロボットは、周囲の状
況等に基づいて自律的に行動をとるようになっている。
【0034】次に、図3は、図2のコントローラ10の
機能的構成例を示している。なお、図3に示す機能的構
成は、CPU10Aが、メモリ10Bに記憶された制御
プログラムを実行することで実現されるようになってい
る。
【0035】コントローラ10は、特定の外部状態を認
識するセンサ入力処理部50、センサ入力処理部50の
認識結果を累積して、感情や、本能、成長の状態を表現
するモデル記憶部51、センサ入力処理部50の認識結
果等に基づいて、続く行動を決定する行動決定機構部5
2、行動決定機構部52の決定結果に基づいて、実際に
ロボットに行動を起こさせる姿勢遷移機構部53、各ア
クチュエータ3AA1乃至5A1および5A2を駆動制御
する制御機構部54、並びに合成音を生成する音声合成
部55から構成されている。
【0036】センサ入力処理部50は、マイク15や、
CCDカメラ16、タッチセンサ17等から与えられる
音声信号、画像信号、圧力検出信号等に基づいて、特定
の外部状態や、ユーザからの特定の働きかけ、ユーザか
らの指示等を認識し、その認識結果を表す状態認識情報
を、モデル記憶部51および行動決定機構部52に通知
する。
【0037】即ち、センサ入力処理部50は、音声認識
部50Aを有しており、音声認識部50Aは、マイク1
5から与えられる音声信号について音声認識を行う。そ
して、音声認識部50Aは、その音声認識結果として
の、例えば、「歩け」、「伏せ」、「ボールを追いかけ
ろ」等の指令その他を、状態認識情報として、モデル記
憶部51および行動決定機構部52に通知する。
【0038】また、センサ入力処理部50は、画像認識
部50Bを有しており、画像認識部50Bは、CCDカ
メラ16から与えられる画像信号を用いて、画像認識処
理を行う。そして、画像認識部50Bは、その処理の結
果、例えば、「赤い丸いもの」や、「地面に対して垂直
なかつ所定高さ以上の平面」等を検出したときには、
「ボールがある」や、「壁がある」等の画像認識結果
を、状態認識情報として、モデル記憶部51および行動
決定機構部52に通知する。
【0039】さらに、センサ入力処理部50は、圧力処
理部50Cを有しており、圧力処理部50Cは、タッチ
センサ17から与えられる圧力検出信号を処理する。そ
して、圧力処理部50Cは、その処理の結果、所定の閾
値以上で、かつ短時間の圧力を検出したときには、「た
たかれた(しかられた)」と認識し、所定の閾値未満
で、かつ長時間の圧力を検出したときには、「なでられ
た(ほめられた)」と認識して、その認識結果を、状態
認識情報として、モデル記憶部51および行動決定機構
部52に通知する。
【0040】モデル記憶部51は、ロボットの感情、本
能、成長の状態を表現する感情モデル、本能モデル、成
長モデルをそれぞれ記憶、管理している。
【0041】ここで、感情モデルは、例えば、「うれし
さ」、「悲しさ」、「怒り」、「楽しさ」等の感情の状
態(度合い)を、所定の範囲(例えば、−1.0乃至
1.0等)の値によってそれぞれ表し、センサ入力処理
部50からの状態認識情報や時間経過等に基づいて、そ
の値を変化させる。本能モデルは、例えば、「食欲」、
「睡眠欲」、「運動欲」等の本能による欲求の状態(度
合い)を、所定の範囲の値によってそれぞれ表し、セン
サ入力処理部50からの状態認識情報や時間経過等に基
づいて、その値を変化させる。成長モデルは、例えば、
「幼年期」、「青年期」、「熟年期」、「老年期」等の
成長の状態(度合い)を、所定の範囲の値によってそれ
ぞれ表し、センサ入力処理部50からの状態認識情報や
時間経過等に基づいて、その値を変化させる。
【0042】モデル記憶部51は、上述のようにして感
情モデル、本能モデル、成長モデルの値で表される感
情、本能、成長の状態を、状態情報として、行動決定機
構部52に送出する。
【0043】なお、モデル記憶部51には、センサ入力
処理部50から状態認識情報が供給される他、行動決定
機構部52から、ロボットの現在または過去の行動、具
体的には、例えば、「長時間歩いた」などの行動の内容
を示す行動情報が供給されるようになっており、モデル
記憶部51は、同一の状態認識情報が与えられても、行
動情報が示すロボットの行動に応じて、異なる状態情報
を生成するようになっている。
【0044】即ち、例えば、ロボットが、ユーザに挨拶
をし、ユーザに頭を撫でられた場合には、ユーザに挨拶
をしたという行動情報と、頭を撫でられたという状態認
識情報とが、モデル記憶部51に与えられ、この場合、
モデル記憶部51では、「うれしさ」を表す感情モデル
の値が増加される。
【0045】一方、ロボットが、何らかの仕事を実行中
に頭を撫でられた場合には、仕事を実行中であるという
行動情報と、頭を撫でられたという状態認識情報とが、
モデル記憶部51に与えられ、この場合、モデル記憶部
51では、「うれしさ」を表す感情モデルの値は変化さ
れない。
【0046】このように、モデル記憶部51は、状態認
識情報だけでなく、現在または過去のロボットの行動を
示す行動情報も参照しながら、感情モデルの値を設定す
る。これにより、例えば、何らかのタスクを実行中に、
ユーザが、いたずらするつもりで頭を撫でたときに、
「うれしさ」を表す感情モデルの値を増加させるよう
な、不自然な感情の変化が生じることを回避することが
できる。
【0047】なお、モデル記憶部51は、本能モデルお
よび成長モデルについても、感情モデルにおける場合と
同様に、状態認識情報および行動情報の両方に基づい
て、その値を増減させるようになっている。また、モデ
ル記憶部51は、感情モデル、本能モデル、成長モデル
それぞれの値を、他のモデルの値にも基づいて増減させ
るようになっている。
【0048】行動決定機構部52は、センサ入力処理部
50からの状態認識情報や、モデル記憶部51からの状
態情報、時間経過等に基づいて、次の行動を決定し、決
定された行動の内容を、行動指令情報として、姿勢遷移
機構部53に送出する。
【0049】即ち、行動決定機構部52は、ロボットが
とり得る行動をステート(状態)(state)に対応させた
有限オートマトンを、ロボットの行動を規定する行動モ
デルとして管理しており、この行動モデルとしての有限
オートマトンにおけるステートを、センサ入力処理部5
0からの状態認識情報や、モデル記憶部51における感
情モデル、本能モデル、または成長モデルの値、時間経
過等に基づいて遷移させ、遷移後のステートに対応する
行動を、次にとるべき行動として決定する。
【0050】ここで、行動決定機構部52は、所定のト
リガ(trigger)があったことを検出すると、ステートを
遷移させる。即ち、行動決定機構部52は、例えば、現
在のステートに対応する行動を実行している時間が所定
時間に達したときや、特定の状態認識情報を受信したと
き、モデル記憶部51から供給される状態情報が示す感
情や、本能、成長の状態の値が所定の閾値以下または以
上になったとき等に、ステートを遷移させる。
【0051】なお、行動決定機構部52は、上述したよ
うに、センサ入力処理部50からの状態認識情報だけで
なく、モデル記憶部51における感情モデルや、本能モ
デル、成長モデルの値等にも基づいて、行動モデルにお
けるステートを遷移させることから、同一の状態認識情
報が入力されても、感情モデルや、本能モデル、成長モ
デルの値(状態情報)によっては、ステートの遷移先は
異なるものとなる。
【0052】その結果、行動決定機構部52は、例え
ば、状態情報が、「怒っていない」こと、および「お腹
がすいていない」ことを表している場合において、状態
認識情報が、「目の前に手のひらが差し出された」こと
を表しているときには、目の前に手のひらが差し出され
たことに応じて、「お手」という行動をとらせる行動指
令情報を生成し、これを、姿勢遷移機構部53に送出す
る。
【0053】また、行動決定機構部52は、例えば、状
態情報が、「怒っていない」こと、および「お腹がすい
ている」ことを表している場合において、状態認識情報
が、「目の前に手のひらが差し出された」ことを表して
いるときには、目の前に手のひらが差し出されたことに
応じて、「手のひらをぺろぺろなめる」ような行動を行
わせるための行動指令情報を生成し、これを、姿勢遷移
機構部53に送出する。
【0054】また、行動決定機構部52は、例えば、状
態情報が、「怒っている」ことを表している場合におい
て、状態認識情報が、「目の前に手のひらが差し出され
た」ことを表しているときには、状態情報が、「お腹が
すいている」ことを表していても、また、「お腹がすい
ていない」ことを表していても、「ぷいと横を向く」よ
うな行動を行わせるための行動指令情報を生成し、これ
を、姿勢遷移機構部53に送出する。
【0055】なお、行動決定機構部52では、上述した
ように、ロボットの頭部や手足等を動作させる行動指令
情報の他、ロボットに発話を行わせる行動指令情報も生
成される。ロボットに発話を行わせる行動指令情報は、
音声合成部55に供給されるようになっており、音声合
成部55に供給される行動指令情報には、音声合成部5
5に生成させる合成音に対応するテキスト等が含まれ
る。そして、音声合成部55は、行動決定部52から行
動指令情報を受信すると、その行動指令情報に含まれる
テキストに基づき、合成音を生成し、スピーカ18に供
給して出力させる。これにより、スピーカ18からは、
例えば、ロボットの鳴き声、さらには、「お腹がすい
た」等のユーザへの各種の要求、「何?」等のユーザの
呼びかけに対する応答その他の音声出力が行われる。ま
た、行動決定機構部52は、合成音を出力する場合に
は、下顎部4Aを開閉させる行動指令情報を、必要に応
じて生成し、姿勢遷移機構部53に出力する。この場
合、合成音の出力に同期して、下顎部4Aが開閉し、ユ
ーザに、ロボットがしゃべっているかのような印象を与
えることができる。
【0056】姿勢遷移機構部53は、行動決定機構部5
2から供給される行動指令情報に基づいて、ロボットの
姿勢を、現在の姿勢から次の姿勢に遷移させるための姿
勢遷移情報を生成し、これを制御機構部54に送出す
る。
【0057】制御機構部54は、姿勢遷移機構部53か
らの姿勢遷移情報にしたがって、アクチュエータ3AA
1乃至5A1および5A2を駆動するための制御信号を生
成し、これを、アクチュエータ3AA1乃至5A1および
5A2に送出する。これにより、アクチュエータ3AA1
乃至5A1および5A2は、制御信号にしたがって駆動
し、ロボットは、自律的に行動を起こす。
【0058】次に、図4は、図3の音声認識部50Aの
構成例を示している。
【0059】マイク15からの音声信号は、AD(Analo
g Digital)変換部21に供給される。AD変換部21
は、マイク15からのアナログ信号である音声信号をサ
ンプリング、量子化し、ディジタル信号である音声デー
タにA/D変換する。この音声データは、特徴抽出部2
2に供給される。
【0060】特徴抽出部22は、そこに入力される音声
データについて、適当なフレームごとに、例えば、MF
CC(Mel Frequency Cepstrum Coefficient)分析を行
い、その分析の結果得られるMFCCを、特徴ベクトル
(特徴パラメータ)として、マッチング部23と未登録
語区間処理部27に出力する。なお、特徴抽出部22で
は、その他、例えば、線形予測係数、ケプストラム係
数、線スペクトル対、所定の周波数帯域ごとのパワー
(フィルタバンクの出力)等を、特徴ベクトルとして抽
出することが可能である。
【0061】マッチング部23は、特徴抽出部22から
の特徴ベクトルを用いて、音響モデル記憶部24、辞書
記憶部25、および文法記憶部26を必要に応じて参照
しながら、マイク15に入力された音声(入力音声)
を、例えば、連続分布HMM(Hidden Markov Model)法
に基づいて音声認識する。
【0062】即ち、音響モデル記憶部24は、音声認識
する音声の言語における個々の音素や、音節、音韻など
のサブワードについて音響的な特徴を表す音響モデル
(例えば、HMMの他、DP(Dynamic Programing)マッ
チングに用いられる標準パターン等を含む)を記憶して
いる。なお、ここでは、連続分布HMM法に基づいて音
声認識を行うこととしているので、音響モデルとして
は、HMM(Hidden MarkovModel)が用いられる。
【0063】辞書記憶部25は、認識対象の各単語ごと
にクラスタリングされた、その単語の発音に関する情報
(音韻情報)と、その単語の見出しとが対応付けられた
単語辞書を記憶している。
【0064】ここで、図5は、辞書記憶部25に記憶さ
れた単語辞書を示している。
【0065】図5に示すように、単語辞書においては、
単語の見出しと、その音韻系列とが対応付けられてお
り、音韻系列は、対応する単語ごとにクラスタリングさ
れている。図5の単語辞書では、1つのエントリ(図3
の1行)が、1つのクラスタに相当する。
【0066】なお、図5においては、見出しは、ローマ
字と日本語(仮名漢字)で表してあり、音韻系列は、ロ
ーマ字で表してある。但し、音韻系列における「N」
は、撥音「ん」を表す。また、図5では、1つのエント
リに、1つの音韻系列を記述してあるが、1つのエント
リには、複数の音韻系列を記述することも可能である。
【0067】図4に戻り、文法記憶部26は、辞書記憶
部25の単語辞書に登録されている各単語が、どのよう
に連鎖する(つながる)かを記述した文法規則を記憶し
ている。
【0068】ここで、図6は、文法記憶部26に記憶さ
れた文法規則を示している。なお、図6の文法規則は、
EBNF(Extended Backus Naur Form)で記述されてい
る。
【0069】図6においては、行頭から、最初に現れる
「;」までが、1つの文法規則を表している。また、先
頭に「$」が付されたアルファベット(列)は、変数を
表し、「$」が付されていないアルファベット(列)
は、単語の見出し(図5に示したローマ字による見出
し)を表す。さらに、[]で囲まれた部分は、省略可能で
あることを表し、「|」は、その前後に配置された見出
しの単語(あるいは変数)のうちのいずれか一方を選択
することを表す。
【0070】従って、図6において、例えば、第1行
(上から1行目)の文法規則「$col =[kono | sono] ir
o wa;」は、変数$colが、「このいろ(色)は」または
「そのいろ(色)は」という単語列であることを表す。
【0071】なお、図6に示した文法規則においては、
変数$silと$garbageが定義されていないが、変数$sil
は、無音の音響モデル(無音モデル)を表し、変数$gar
bageは、基本的には、音韻どうしの間での自由な遷移を
許可したガーベジモデルを表す。
【0072】再び図4に戻り、マッチング部23は、辞
書記憶部25の単語辞書を参照することにより、音響モ
デル記憶部24に記憶されている音響モデルを接続する
ことで、単語の音響モデル(単語モデル)を構成する。
さらに、マッチング部23は、幾つかの単語モデルを、
文法記憶部26に記憶された文法規則を参照することに
より接続し、そのようにして接続された単語モデルを用
いて、特徴ベクトルに基づき、連続分布HMM法によっ
て、マイク15に入力された音声を認識する。
【0073】即ち、マッチング部23は、特徴抽出部2
2が出力する時系列の特徴ベクトルが観測されるスコア
(尤度)が最も高い単語モデルの系列を検出し、その単
語モデルの系列に対応する単語列の見出しを、音声の認
識結果として出力する。
【0074】より具体的には、マッチング部23は、接
続された単語モデルに対応する単語列について、各特徴
ベクトルの出現確率(出力確率)を累積し、その累積値
をスコアとして、そのスコアを最も高くする単語列の見
出しを、音声認識結果として出力する。
【0075】以上のようにして出力される、マイク15
に入力された音声の認識結果は、状態認識情報として、
モデル記憶部51および行動決定機構部52に出力され
る。
【0076】ここで、図6の実施の形態では、第9行
(上から9行目)に、ガーベジモデルを表す変数$garba
geを用いた文法規則(以下、適宜、未登録語用規則とい
う)「$pat1 = $color1 $garbage $color2;」がある
が、マッチング部23は、この未登録語用規則が適用さ
れた場合には、変数$garbageに対応する音声区間を、未
登録語の音声区間として検出する。さらに、マッチング
部23は、未登録語用規則が適用された場合における変
数$garbageが表すガーベジモデルにおける音韻の遷移と
しての音韻系列を、未登録語の音韻系列として検出す
る。そして、マッチング部23は、未登録語用規則が適
用された音声認識結果が得られた場合に検出される未登
録語の音声区間と音韻系列を、未登録語区間処理部27
に供給する。
【0077】なお、上述の未登録語用規則「$pat1 = $c
olor1 $garbage $color2;」によれば、変数$color1で表
される、単語辞書に登録されている単語(列)の音韻系
列と、変数$color2で表される、単語辞書に登録されて
いる単語(列)の音韻系列との間にある1つの未登録語
が検出されるが、本発明は、発話に、複数の未登録語が
含まれている場合や、未登録語が、単語辞書に登録され
ている単語(列)の間に挟まれていない場合であって
も、適用可能である。
【0078】未登録語区間処理部27は、特徴抽出部2
2から供給される特徴ベクトルの系列(特徴ベクトル系
列)を一時記憶する。さらに、未登録語区間処理部27
は、マッチング部23から未登録語の音声区間と音韻系
列を受信すると、その音声区間における音声の特徴ベク
トル系列を、一時記憶している特徴ベクトル系列から検
出する。そして、未登録語区間処理部27は、マッチン
グ部23からの音韻系列(未登録語)に、ユニークなID
(Identification)を付し、未登録語の音韻系列と、その
音声区間における特徴ベクトル系列とともに、特徴ベク
トルバッファ28に供給する。
【0079】特徴ベクトルバッファ28は、例えば、図
7に示すように、未登録語区間処理部27から供給され
る未登録語のID、音韻系列、および特徴ベクトル系列を
対応付けて一時記憶する。
【0080】ここで、図7においては、未登録語に対し
て、1からのシーケンシャルな数字が、IDとして付され
ている。従って、例えば、いま、特徴ベクトルバッファ
28において、N個の未登録語のID、音韻系列、および
特徴ベクトル系列が記憶されている場合において、マッ
チング部23が未登録語の音声区間と音韻系列を検出す
ると、未登録語区間処理部27では、その未登録語に対
して、N+1が、IDとして付され、特徴ベクトルバッフ
ァ28では、図7に点線で示すように、その未登録語の
ID、音韻系列、および特徴ベクトル系列が記憶される。
【0081】再び図4に戻り、クラスタリング部29
は、特徴ベクトルバッファ28に新たに記憶された未登
録語(以下、適宜、新未登録語という)について、特徴
ベクトルバッファ28に既に記憶されている他の未登録
語(以下、適宜、既記憶未登録語という)それぞれに対
するスコアを計算する。
【0082】即ち、クラスタリング部29は、新未登録
語を入力音声とし、かつ、既記憶未登録語を、単語辞書
に登録されている単語とみなして、マッチング部23に
おける場合と同様にして、新未登録語について、各既記
憶未登録語に対するスコアを計算する。具体的には、ク
ラスタリング部29は、特徴ベクトルバッファ28を参
照することで、新未登録語の特徴ベクトル系列を認識す
るとともに、既記憶未登録語の音韻系列にしたがって音
響モデルを接続し、その接続された音響モデルから、新
未登録語の特徴ベクトル系列が観測される尤度としての
スコアを計算する。
【0083】なお、音響モデルは、音響モデル記憶部2
4に記憶されているものが用いられる。
【0084】クラスタリング部29は、同様にして、各
既記憶未登録語について、新未登録語に対するスコアも
計算し、そのスコアによって、スコアシート記憶部30
に記憶されたスコアシートを更新する。
【0085】さらに、クラスタリング部29は、更新し
たスコアシートを参照することにより、既に求められて
いる、未登録語(既記憶未登録語)をクラスタリングし
たクラスタの中から、新未登録語を新たなメンバとして
加えるクラスタを検出する。さらに、クラスタリング部
29は、新未登録語を、検出したクラスタの新たなメン
バとし、そのクラスタを、そのクラスタのメンバに基づ
いて分割し、その分割結果に基づいて、スコアシート記
憶部30に記憶されているスコアシートを更新する。
【0086】スコアシート記憶部30は、新未登録語に
ついての、既記憶未登録語に対するスコアや、既記憶未
登録語についての、新未登録語に対するスコア等が登録
されたスコアシートを記憶する。
【0087】ここで、図8は、スコアシートを示してい
る。
【0088】スコアシートは、未登録語の「ID」、「音
韻系列」、「クラスタナンバ」、「代表メンバID」、お
よび「スコア」が記述されたエントリで構成される。
【0089】未登録語の「ID」と「音韻系列」として
は、特徴ベクトルバッファ28に記憶されたものと同一
のものが、クラスタリング部29によって登録される。
「クラスタナンバ」は、そのエントリの未登録語がメン
バとなっているクラスタを特定するための数字で、クラ
スタリング部29によって付され、スコアシートに登録
される。「代表メンバID」は、そのエントリの未登録語
がメンバとなっているクラスタを代表する代表メンバと
しての未登録語のIDであり、この代表メンバIDによっ
て、未登録語がメンバとなっているクラスタの代表メン
バを認識することができる。なお、クラスタの代表メン
バは、クラスタリング部29によって求められ、その代
表メンバのIDが、スコアシートの代表メンバIDに登録さ
れる。「スコア」は、そのエントリの未登録語について
の、他の未登録語それぞれに対するスコアであり、上述
したように、クラスタリング部29によって計算され
る。
【0090】例えば、いま、特徴ベクトルバッファ28
において、N個の未登録語のID、音韻系列、および特徴
ベクトル系列が記憶されているとすると、スコアシート
には、そのN個の未登録語のID、音韻系列、クラスタナ
ンバ、代表メンバID、およびスコアが登録されている。
【0091】そして、特徴ベクトルバッファ28に、新
未登録語のID、音韻系列、および特徴ベクトル系列が新
たに記憶されると、クラスタリング部29では、スコア
シートが、図8において点線で示すように更新される。
【0092】即ち、スコアシートには、新未登録語のI
D、音韻系列、クラスタナンバ、代表メンバID、新未登
録語についての、既記憶未登録語それぞれに対するスコ
ア(図8におけるスコアs(N+1,1),s(N+1,2),・・・,s(N
+1,N))が追加される。さらに、スコアシートには、既
記憶未登録語それぞれについての、新未登録語に対する
スコア(図8におけるs(1,N+1),s(2,N+1),・・・,s(N,
N+1))が追加される。さらに、後述するように、スコア
シートにおける未登録語のクラスタナンバと代表メンバ
IDが、必要に応じて変更される。
【0093】なお、図8の実施の形態においては、IDが
iの未登録語(の発話)についての、IDがjの未登録語
(の音韻系列)に対するスコアを、s(i,j)として表して
ある。
【0094】また、スコアシート(図8)には、IDがi
の未登録語(の発話)についての、IDがiの未登録語
(の音韻系列)に対するスコアs(i,i)も登録される。但
し、このスコアs(i,i)は、マッチング部23において、
未登録語の音韻系列が検出されるときに計算されるた
め、クラスタリング部29で計算する必要はない。
【0095】再び図4に戻り、メンテナンス部31は、
スコアシート記憶部30における、更新後のスコアシー
トに基づいて、辞書記憶部25に記憶された単語辞書を
更新する。
【0096】ここで、クラスタの代表メンバは、次のよ
うに決定される。即ち、例えば、クラスタのメンバとな
っている未登録語のうち、他の未登録語それぞれについ
てのスコアの総和(その他、例えば、総和を、他の未登
録語の数で除算した平均値でも良い)を最大にするもの
が、そのクラスタの代表メンバとされる。従って、この
場合、クラスタに属するメンバのメンバIDをkで表すこ
ととすると、次式で示される値K(∈k)をIDとするメン
バが、代表メンバとされることになる。
【0097】 K=maxk{Σs(k',k)} ・・・(1)
【0098】但し、式(1)において、maxk{}は、{}内
の値を最大にするkを意味する。また、k'は、kと同様
に、クラスタに属するメンバのIDを意味する。さらに、
Σは、k'を、クラスタに属するメンバすべてのIDに亘っ
て変化させての総和を意味する。
【0099】なお、上述のように代表メンバを決定する
場合、クラスタのメンバが、1または2つの未登録語で
あるときには、代表メンバを決めるにあたって、スコア
を計算する必要はない。即ち、クラスタのメンバが、1
つの未登録語である場合には、その1つの未登録語が代
表メンバとなり、クラスタのメンバが、2つの未登録語
である場合には、その2つの未登録語のうちのいずれ
を、代表メンバとしても良い。
【0100】また、代表メンバの決定方法は、上述した
ものに限定されるものではなく、その他、例えば、クラ
スタのメンバとなっている未登録語のうち、他の未登録
語それぞれとの特徴ベクトル空間における距離の総和を
最小にするもの等を、そのクラスタの代表メンバとする
ことも可能である。
【0101】以上のように構成される音声認識部50A
では、マイク15に入力された音声を認識する音声認識
処理と、未登録語に関する未登録語処理が行われるよう
になっている。
【0102】そこで、まず最初に、図9のフローチャー
トを参照して、音声認識処理について説明する。
【0103】ユーザが発話を行うと、その発話された音
声は、マイク15およびAD変換部21を介することに
より、ディジタルの音声データとされ、特徴抽出部22
に供給される。特徴抽出部22は、ステップS1におい
て、音声データを、所定のフレーム単位で音響分析する
ことにより、特徴ベクトルを抽出し、その特徴ベクトル
の系列を、マッチング部23および未登録語区間処理部
27に供給する。
【0104】マッチング部23は、ステップS2におい
て、特徴抽出部23からの特徴ベクトル系列について、
上述したようにスコア計算を行い、ステップS3に進
む。ステップS3では、マッチング部23は、スコア計
算の結果得られるスコアに基づいて、音声認識結果とな
る単語列の見出しを求めて出力する。
【0105】さらに、マッチング部23は、ステップS
4に進み、ユーザの音声に、未登録語が含まれていたか
どうかを判定する。
【0106】ステップS4において、ユーザの音声に、
未登録語が含まれていないと判定された場合、即ち、上
述の未登録語用規則「$pat1 = $color1 $garbage $colo
r2;」が適用されずに、音声認識結果が得られた場合、
ステップS5をスキップして、処理を終了する。
【0107】また、ステップS4において、ユーザの音
声に、未登録語が含まれていると判定された場合、即
ち、未登録語用規則「$pat1 = $color1 $garbage $colo
r2;」が適用されて、音声認識結果が得られた場合、ス
テップS5に進み、マッチング部23は、未登録語用規
則の変数$garbageに対応する音声区間を、未登録語の音
声区間として検出するとともに、その変数$garbageが表
すガーベジモデルにおける音韻の遷移としての音韻系列
を、未登録語の音韻系列として検出し、その未登録語の
音声区間と音韻系列を、未登録語区間処理部27に供給
して、処理を終了する。
【0108】一方、未登録語区間処理部27は、特徴抽
出部22から供給される特徴ベクトル系列を一時記憶し
ており、マッチング部23から未登録語の音声区間と音
韻系列が供給されると、その音声区間における音声の特
徴ベクトル系列を検出する。さらに、未登録語区間処理
部27は、マッチング部23からの未登録語(の音韻系
列)にIDを付し、未登録語の音韻系列と、その音声区間
における特徴ベクトル系列とともに、特徴ベクトルバッ
ファ28に供給する。
【0109】以上のようにして、特徴ベクトルバッファ
28に、新たな未登録語(新未登録語)のID、音韻系
列、および特徴ベクトル系列が記憶されると、未登録語
処理が行われる。
【0110】即ち、図10は、未登録語処理を説明する
フローチャートを示している。
【0111】未登録語処理では、まず最初に、ステップ
S11において、クラスタリング部29が、特徴ベクト
ルバッファ28から、新未登録語のIDと音韻系列を読み
出し、ステップS12に進む。
【0112】ステップS12では、クラスタリング部2
9が、スコアシート記憶部30のスコアシートを参照す
ることにより、既に求められている(生成されている)
クラスタが存在するかどうかを判定する。
【0113】ステップS12において、既に求められて
いるクラスタが存在しないと判定された場合、即ち、新
未登録語が、初めての未登録語であり、スコアシート
に、既記憶未登録語のエントリが存在しない場合、ステ
ップS13に進み、クラスタリング部29は、その新未
登録語を代表メンバとするクラスタを新たに生成し、そ
の新たなクラスタに関する情報と、新未登録語に関する
情報とを、スコアシート記憶部30のスコアシートに登
録することにより、スコアシートを更新する。
【0114】即ち、クラスタリング部29は、特徴ベク
トルバッファ28から読み出した新未登録語のIDおよび
音韻系列を、スコアシート(図8)に登録する。さら
に、クラスタリング部29は、ユニークなクラスタナン
バを生成し、新未登録語のクラスタナンバとして、スコ
アシートに登録する。また、クラスタリング部29は、
新未登録語のIDを、その新未登録語の代表メンバIDとし
て、スコアシートに登録する。従って、この場合は、新
未登録語は、新たなクラスタの代表メンバとなる。
【0115】なお、いまの場合、新未登録語とのスコア
を計算する既記憶未登録語が存在しないため、スコアの
計算は行われない。
【0116】ステップS13の処理後は、ステップS2
2に進み、メンテナンス部31は、ステップS13で更
新されたスコアシートに基づいて、辞書記憶部25の単
語辞書を更新し、処理を終了する。
【0117】即ち、いまの場合、新たなクラスタが生成
されているので、メンテナンス部31は、スコアシート
におけるクラスタナンバを参照し、その新たに生成され
たクラスタを認識する。そして、メンテナンス部31
は、そのクラスタに対応するエントリを、辞書記憶部2
5の単語辞書に追加し、そのエントリの音韻系列とし
て、新たなクラスタの代表メンバの音韻系列、つまり、
いまの場合は、新未登録語の音韻系列を登録する。
【0118】一方、ステップS12において、既に求め
られているクラスタが存在すると判定された場合、即
ち、新未登録語が、初めての未登録語ではなく、従っ
て、スコアシート(図8)に、既記憶未登録語のエント
リ(行)が存在する場合、ステップS14に進み、クラ
スタリング部29は、新未登録語について、各既記憶未
登録語それぞれに対するスコアを計算するとともに、各
既記憶未登録語それぞれについて、新未登録語に対する
スコアを計算する。
【0119】即ち、例えば、いま、IDが1乃至NのN個
の既記憶未登録語が存在し、新未登録語のIDをN+1とす
ると、クラスタリング部29では、図8において点線で
示した部分の新未登録語についてのN個の既記憶未登録
語それぞれに対するスコアs(N+1,1),s(N+1,2),・・・,s
(N+1,N)と、N個の既記憶未登録語それぞれについての
新未登録語に対するスコアs(1,N+1),s(2,N+1),・・・,
s(N,N+1)が計算される。なお、クラスタリング部29に
おいて、これらのスコアを計算するにあたっては、新未
登録語とN個の既記憶未登録語それぞれの特徴ベクトル
系列が必要となるが、これらの特徴ベクトル系列は、特
徴ベクトルバッファ28を参照することで認識される。
【0120】そして、クラスタリング部29は、計算し
たスコアを、新未登録語のIDおよび音韻系列とともに、
スコアシート(図8)に追加し、ステップS15に進
む。
【0121】ステップS15では、クラスタリング部2
9は、スコアシート(図8)を参照することにより、新
未登録語についてのスコアs(N+1,i)(i=1,2,・・・,N)
を最も高く(大きく)する代表メンバを有するクラスタ
を検出する。即ち、クラスタリング部29は、スコアシ
ートの代表メンバIDを参照することにより、代表メンバ
となっている既記憶未登録語を認識し、さらに、スコア
シートのスコアを参照することで、新未登録語について
のスコアを最も高くする代表メンバとしての既記憶未登
録語を検出する。そして、クラスタリング部29は、そ
の検出した代表メンバとしての既記憶未登録語のクラス
タナンバのクラスタを検出する。
【0122】その後、ステップS16に進み、クラスタ
リング部29は、新未登録語を、ステップS15で検出
したクラスタ(以下、適宜、検出クラスタという)のメ
ンバに加える。即ち、クラスタリング部29は、スコア
シートにおける新未登録語のクラスタナンバとして、検
出クラスタの代表メンバのクラスタナンバを書き込む。
【0123】そして、クラスタリング部29は、ステッ
プS17において、検出クラスタを、例えば、2つのク
ラスタに分割するクラスタ分割処理を行い、ステップS
18に進む。ステップS18では、クラスタリング部2
9は、ステップS17のクラスタ分割処理によって、検
出クラスタを2つのクラスタに分割することができたか
どうかを判定し、分割することができた判定した場合、
ステップS19に進む。ステップS19では、クラスタ
リング部29は、検出クラスタの分割により得られる2
つのクラスタ(この2つのクラスタを、以下、適宜、第
1の子クラスタと第2の子クラスタという)どうしの間
のクラスタ間距離を求める。
【0124】ここで、第1と第2の子クラスタどうしの
間のクラスタ間距離とは、例えば、次のように定義され
る。
【0125】即ち、第1の子クラスタと第2の子クラス
タの両方の任意のメンバ(未登録語)のIDを、kで表す
とともに、第1と第2の子クラスタの代表メンバ(未登
録語)のIDを、それぞれk1またはk2で表すこととする
と、次式で表される値D(k1,k2)を、第1と第2の子クラ
スタどうしの間のクラスタ間距離とする。
【0126】 D(k1,k2)=maxvalk{abs(log(s(k,k1))-log(s(k,k2)))} ・・・(2)
【0127】但し、式(2)において、abs()は、()内
の値の絶対値を表す。また、maxvalk{}は、kを変えて求
められる{}内の値の最大値を表す。また、logは、自然
対数または常用対数を表す。
【0128】いま、IDがiのメンバを、メンバ#iと表す
こととすると、式(2)におけるスコアの逆数1/s(k,k
1)は、メンバ#kと代表メンバk1との距離に相当し、スコ
アの逆数1/s(k,k2)は、メンバ#kと代表メンバk2との距
離に相当する。従って、式(2)によれば、第1と第2
の子クラスタのメンバのうち、第1の子クラスタの代表
メンバ#k1との距離と、第2の子クラスタの代表メンバ#
k2との距離との差の最大値が、第1と第2の子クラスタ
どうしの間の子クラスタ間距離とされることになる。
【0129】なお、クラスタ間距離は、上述したものに
限定されるものではなく、その他、例えば、第1の子ク
ラスタの代表メンバと、第2の子クラスタの代表メンバ
とのDPマッチングを行うことにより、特徴ベクトル空
間における距離の積算値を求め、その距離の積算値を、
クラスタ間距離とすることも可能である。
【0130】ステップS19の処理後は、ステップS2
0に進み、クラスタリング部29は、第1と第2の子ク
ラスタどうしのクラスタ間距離が、所定の閾値εより大
である(あるいは、閾値ε以上である)かどうかを判定
する。
【0131】ステップS20において、クラスタ間距離
が、所定の閾値εより大であると判定された場合、即
ち、検出クラスタのメンバとしての複数の未登録語が、
その音響的特徴からいって、2つのクラスタにクラスタ
リングすべきものであると考えられる場合、ステップS
21に進み、クラスタリング部29は、第1と第2の子
クラスタを、スコアシート記憶部30のスコアシートに
登録する。
【0132】即ち、クラスタリング部29は、第1と第
2の子クラスタに、ユニークなクラスタナンバを割り当
て、検出クラスタのメンバのうち、第1の子クラスタに
クラスタリングされたもののクラスタナンバを、第1の
子クラスタのクラスタナンバにするとともに、第2の子
クラスタにクラスタリングされたもののクラスタナンバ
を、第2の子クラスタのクラスタナンバにするように、
スコアシートを更新する。
【0133】さらに、クラスタリング部29は、第1の
子クラスタにクラスタリングされたメンバの代表メンバ
IDを、第1の子クラスタの代表メンバのIDにするととも
に、第2の子クラスタにクラスタリングされたメンバの
代表メンバIDを、第2の子クラスタの代表メンバのIDに
するように、スコアシートを更新する。
【0134】なお、第1と第2の子クラスタのうちのい
ずれか一方には、検出クラスタのクラスタナンバを割り
当てるようにすることが可能である。
【0135】クラスタリング部29が、以上のようにし
て、第1と第2の子クラスタを、スコアシートに登録す
ると、ステップS21からS22に進み、メンテナンス
部31が、スコアシートに基づいて、辞書記憶部25の
単語辞書を更新し、処理を終了する。
【0136】即ち、いまの場合、検出クラスタが、第1
と第2の子クラスタに分割されたため、メンテナンス部
31は、まず、単語辞書における、検出クラスタに対応
するエントリを削除する。さらに、メンテナンス部31
は、第1と第2の子クラスタそれぞれに対応する2つの
エントリを、単語辞書に追加し、第1の子クラスタに対
応するエントリの音韻系列として、その第1の子クラス
タの代表メンバの音韻系列を登録するとともに、第2の
子クラスタに対応するエントリの音韻系列として、その
第2の子クラスタの代表メンバの音韻系列を登録する。
【0137】一方、ステップS18において、ステップ
S17のクラスタ分割処理によって、検出クラスタを2
つのクラスタに分割することができなかったと判定され
た場合、あるいは、ステップS20において、第1と第
2の子クラスタのクラスタ間距離が、所定の閾値εより
大でないと判定された場合(従って、検出クラスタのメ
ンバとしての複数の未登録語の音響的特徴が、第1と第
2の2つの子クラスタにクラスタリングするほど似てい
ないものではない場合)、ステップS23に進み、クラ
スタリング部29は、検出クラスタの新たな代表メンバ
を求め、スコアシートを更新する。
【0138】即ち、クラスタリング部29は、新未登録
語をメンバとして加えた検出クラスタの各メンバについ
て、スコアシート記憶部30のスコアシートを参照する
ことにより、式(1)の計算に必要なスコアs(k',k)を
認識する。さらに、クラスタリング部29は、その認識
したスコアs(k',k)を用い、式(1)に基づき、検出ク
ラスタの新たな代表メンバとなるメンバのIDを求める。
そして、クラスタリング部29は、スコアシート(図
8)における、検出クラスタの各メンバの代表メンバID
を、検出クラスタの新たな代表メンバのIDに書き換え
る。
【0139】その後、ステップS22に進み、メンテナ
ンス部31が、スコアシートに基づいて、辞書記憶部2
5の単語辞書を更新し、処理を終了する。
【0140】即ち、いまの場合、メンテナンス部31
は、スコアシートを参照することにより、検出クラスタ
の新たな代表メンバを認識し、さらに、その代表メンバ
の音韻系列を認識する。そして、メンテナンス部31
は、単語辞書における、検出クラスタに対応するエント
リの音韻系列を、検出クラスタの新たな代表メンバの音
韻系列に変更する。
【0141】次に、図11のフローチャートを参照し
て、図10のステップS17のクラスタ分割処理の詳細
について説明する。
【0142】クラスタ分割処理では、まず最初に、ステ
ップS31において、クラスタリング部29が、新未登
録語がメンバとして加えられた検出クラスタから、まだ
選択していない任意の2つのメンバの組み合わせを選択
し、それぞれを、仮の代表メンバとする。ここで、この
2つの仮の代表メンバを、以下、適宜、第1の仮代表メ
ンバと第2の仮代表メンバという。
【0143】そして、ステップS32に進み、クラスタ
リング部29は、第1の仮代表メンバと、第2の仮代表
メンバを、それぞれ代表メンバとすることができるよう
に、検出クラスタのメンバを、2つのクラスタに分割す
ることができるかどうかを判定する。
【0144】ここで、第1または第2の仮代表メンバを
代表メンバとすることができるかどうかは、式(1)の
計算を行う必要があるが、この計算に用いられるスコア
s(k',k)は、スコアシートを参照することで認識され
る。
【0145】ステップS32において、第1の仮代表メ
ンバと、第2の仮代表メンバを、それぞれ代表メンバと
することができるように、検出クラスタのメンバを、2
つのクラスタに分割することができないと判定された場
合、ステップS33をスキップして、ステップS34に
進む。
【0146】また、ステップS32において、第1の仮
代表メンバと、第2の仮代表メンバを、それぞれ代表メ
ンバとすることができるように、検出クラスタのメンバ
を、2つのクラスタに分割することができると判定され
た場合、ステップS33に進み、クラスタリング部29
は、第1の仮代表メンバと、第2の仮代表メンバが、そ
れぞれ代表メンバとなるように、検出クラスタのメンバ
を、2つのクラスタに分割し、その分割後の2つのクラ
スタの組を、検出クラスタの分割結果となる第1および
第2の子クラスタの候補(以下、適宜、候補クラスタの
組という)として、ステップS34に進む。
【0147】ステップS34では、クラスタリング部2
9は、検出クラスタのメンバの中で、まだ、第1と第2
の仮代表メンバの組として選択していない2つのメンバ
の組があるかどうかを判定し、あると判定した場合、ス
テップS31に戻り、まだ、第1と第2の仮代表メンバ
の組として選択していない、検出クラスタの2つのメン
バの組が選択され、以下、同様の処理が繰り返される。
【0148】また、ステップS34において、第1と第
2の仮代表メンバの組として選択していない、検出クラ
スタの2つのメンバの組がないと判定された場合、ステ
ップS35に進み、クラスタリング部29は、候補クラ
スタの組が存在するかどうかを判定する。
【0149】ステップS35において、候補クラスタの
組が存在しないと判定された場合、ステップS36をス
キップして、リターンする。この場合は、図10のステ
ップS18において、検出クラスタを分割することがで
きなかったと判定される。
【0150】一方、ステップS35において、候補クラ
スタの組が存在すると判定された場合、ステップS36
に進み、クラスタリング部29は、候補クラスタの組が
複数存在するときには、各候補クラスタの組の2つのク
ラスタどうしの間のクラスタ間距離を求める。そして、
クラスタリング部29は、クラスタ間距離が最小の候補
クラスタの組を求め、その候補クラスタの組を、検出ク
ラスタの分割結果として、即ち、第1と第2の子クラス
タとして、リターンする。なお、候補クラスタの組が1
つだけの場合は、その候補クラスタの組が、そのまま、
第1と第2の子クラスタとされる。
【0151】この場合は、図10のステップS18にお
いて、検出クラスタを分割することができたと判定され
る。
【0152】以上のように、クラスタリング部29にお
いて、既に求められている、未登録語をクラスタリング
したクラスタの中から、新未登録語を新たなメンバとし
て加えるクラスタ(検出クラスタ)を検出し、新未登録
語を、その検出クラスタの新たなメンバとして、検出ク
ラスタを、その検出クラスタのメンバに基づいて分割す
るようにしたので、未登録語を、その音響的特徴が近似
しているものどうしに、容易にクラスタリングすること
ができる。
【0153】さらに、メンテナンス部31において、そ
のようなクラスタリング結果に基づいて、単語辞書を更
新するようにしたので、単語辞書の大規模化を避けなが
ら、未登録語の単語辞書への登録を、容易に行うことが
できる。
【0154】また、例えば、仮に、マッチング部23に
おいて、未登録語の音声区間の検出を誤ったとしても、
そのような未登録語は、検出クラスタの分割によって、
音声区間が正しく検出された未登録語とは別のクラスタ
にクラスタリングされる。そして、このようなクラスタ
に対応するエントリが、単語辞書に登録されることにな
るが、このエントリの音韻系列は、正しく検出されなか
った音声区間に対応するものとなるから、その後の音声
認識において、大きなスコアを与えることはない。従っ
て、仮に、未登録語の音声区間の検出を誤ったとして
も、その誤りは、その後の音声認識には、ほとんど影響
しない。
【0155】ここで、図12は、未登録語の発話を行っ
て得られたクラスタリング結果を示している。なお、図
12においては、各エントリ(各行)が、1つのクラス
タを表している。また、図12の左欄は、各クラスタの
代表メンバ(未登録語)の音韻系列を表しており、図1
2の右欄は、各クラスタのメンバとなっている未登録語
の発話内容と数を表している。
【0156】即ち、図12において、例えば、第1行の
エントリは、未登録語「風呂」の1つの発話だけがメン
バとなっているクラスタを表しており、その代表メンバ
の音韻系列は、「doroa:」(ドロアー)になっている。
また、例えば、第2行のエントリは、未登録語「風呂」
の3つの発話がメンバとなっているクラスタを表してお
り、その代表メンバの音韻系列は、「kuro」(クロ)に
なっている。
【0157】さらに、例えば、第7行のエントリは、未
登録語「本」の4つの発話がメンバとなっているクラス
タを表しており、その代表メンバの音韻系列は、「NhoN
de:su」(ンホンデース)になっている。また、例え
ば、第8行のエントリは、未登録語「オレンジ」の1つ
の発話と、未登録語「本」の19の発話がメンバとなっ
ているクラスタを表しており、その代表メンバの音韻系
列は、「ohoN」(オホン)になっている。他のエントリ
も、同様のことを表している。
【0158】図12によれば、同一の未登録語の発話に
ついて、良好にクラスタリングされていることが分か
る。
【0159】なお、図12の第8行のエントリにおいて
は、未登録語「オレンジ」の1つの発話と、未登録語
「本」の19の発話が、同一のクラスタにクラスタリン
グされている。このクラスタは、そのメンバとなってい
る発話から、未登録語「本」のクラスタとなるべきであ
ると考えられるが、未登録語「オレンジ」の発話も、そ
のクラスタのメンバとなっている。しかしながら、この
クラスタも、その後に、未登録語「本」の発話がさらに
入力されていくと、クラスタ分割され、未登録語「本」
の発話だけをメンバとするクラスタと、未登録語「オレ
ンジ」の発話だけをメンバとするクラスタにクラスタリ
ングされると考えられる。
【0160】以上、本発明を、エンターテイメント用の
ロボット(疑似ペットとしてのロボット)に適用した場
合について説明したが、本発明は、これに限らず、例え
ば、音声認識装置を搭載した音声対話システムその他に
広く適用することが可能である。また、本発明は、現実
世界のロボットだけでなく、例えば、液晶ディスプレイ
等の表示装置に表示される仮想的なロボットにも適用可
能である。
【0161】なお、第1実施の形態においては、上述し
た一連の処理を、CPU10Aにプログラムを実行させ
ることにより行うようにしたが、一連の処理は、それ専
用のハードウェアによって行うことも可能である。
【0162】ここで、プログラムは、あらかじめメモリ
10B(図2)に記憶させておく他、フレキシブルディ
スク、CD-ROM(Compact Disc Read Only Memory),MO(Ma
gneto optical)ディスク,DVD(Digital Versatile Dis
c)、磁気ディスク、半導体メモリなどのリムーバブル記
録媒体に、一時的あるいは永続的に格納(記録)してお
くことができる。そして、このようなリムーバブル記録
媒体を、いわゆるパッケージソフトウエアとして提供
し、ロボット(メモリ10B)にインストールするよう
にすることができる。
【0163】また、プログラムは、ダウンロードサイト
から、ディジタル衛星放送用の人工衛星を介して、無線
で転送したり、LAN(Local Area Network)、インターネ
ットといったネットワークを介して、有線で転送し、メ
モリ10Bにインストールすることができる。
【0164】この場合、プログラムがバージョンアップ
されたとき等に、そのバージョンアップされたプログラ
ムを、メモリ10Bに、容易にインストールすることが
できる。
【0165】なお、上述した例において、CPU10A
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理(例えば、並列処理あるい
はオブジェクトによる処理)も含むものである。
【0166】また、プログラムは、1のCPUにより処
理されるものであっても良いし、複数のCPUによって
分散処理されるものであっても良い。
【0167】図4の音声認識部50Aは、専用のハード
ウェアにより実現することもできるし、ソフトウェアに
より実現することもできる。音声認識部50Aをソフト
ウェアによって実現する場合には、そのソフトウェアを
構成するプログラムが、汎用のコンピュータ等にインス
トールされる。
【0168】そこで、図13は、音声認識部50Aを実
現するためのプログラムがインストールされるコンピュ
ータの一実施の形態の構成例を示している。
【0169】即ち、図13には、本発明が適用される他
の例の音声認識装置91が示されている。
【0170】図13に示されるように、プログラムは、
コンピュータに内蔵されている記録媒体としてのハード
ディスク105やROM103に予め記録しておくこと
ができる。
【0171】あるいはまた、プログラムは、フレキシブ
ルディスク、CD-ROM,MOディスク,DVD、磁気ディス
ク、半導体メモリなどのリムーバブル記録媒体111
に、一時的あるいは永続的に格納(記録)しておくこと
ができる。このようなリムーバブル記録媒体111は、
いわゆるパッケージソフトウエアとして提供することが
できる。
【0172】なお、プログラムは、上述したようなリム
ーバブル記録媒体111からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN、インターネットといったネットワークを介
して、コンピュータに有線で転送し、コンピュータで
は、そのようにして転送されてくるプログラムを、通信
部108で受信し、内蔵するハードディスク105にイ
ンストールすることができる。
【0173】音声認識装置91は、CPU(Central Proces
sing Unit)102を内蔵している。CPU102には、バ
ス101を介して、入出力インタフェース110が接続
されており、CPU102は、入出力インタフェース11
0を介して、ユーザによって、キーボードや、マウス、
マイク、AD変換器等で構成される入力部107が操作
等されることにより指令が入力されると、それにしたが
って、ROM(Read OnlyMemory)103に格納されているプ
ログラムを実行する。あるいは、また、CPU102は、
ハードディスク105に格納されているプログラム、衛
星若しくはネットワークから転送され、通信部108で
受信されてハードディスク105にインストールされた
プログラム、またはドライブ109に装着されたリムー
バブル記録媒体111から読み出されてハードディスク
105にインストールされたプログラムを、RAM(Random
Access Memory)104にロードして実行する。これに
より、CPU102は、上述したフローチャートにしたが
った処理、あるいは上述したブロック図の構成により行
われる処理を行う。そして、CPU102は、その処理結
果を、必要に応じて、例えば、入出力インタフェース1
10を介して、LCD(Liquid CryStal Display)等のディ
スプレイや、スピーカ、DA(Digital Analog)変換器等
で構成される出力部106から出力、あるいは、通信部
108から送信、さらには、ハードディスク105に記
録等させる。
【0174】図14は、音声認識装置91のソフトウエ
アプログラムの構成例を表している。このソフトウエア
プログラムは、複数のモジュールにより構成される。各
モジュールは、1つの独立したアルゴリズムを持ち、か
つ、そのアルゴリズムに従って固有の動作を実行する。
即ち、各モジュールは、RAM13に記憶され、CPU11に
より適宜読み出され、実行される。
【0175】図14に示される各モジュールは、図4に
示される各ブロックに対応する。即ち、音響モデルバッ
ファ133は音響モデル記憶部24に、辞書バッファ1
34は辞書記憶部25に、文法バッファ135は文法記
憶部26に、特徴抽出モジュール131は特徴抽出部2
2に、マッチングモジュール132はマッチング部23
に、未登録語区間処理モジュール136は未登録区間処
理部27に、特徴ベクトルバッファ137は特徴ベクト
ルバッファ28に、クラスタリングモジュール138は
クラスタリング部29に、スコアシートバッファ139
にはスコアシート記憶部30に、メンテナンスモジュー
ル140はメンテナンス部31に、それぞれ対応する。
【0176】ただし、この例においては、入力部107
において、マイクロホンにより入力されるアナログの音
声信号は、AD変換部により、サンプリングされ、量子化
されて、デジタルの音声データにA/D変換(Analog / Di
gital変換)され、特徴抽出モジュール131に供給され
るものとする。
【0177】また、この例においては、特徴ベクトルバ
ッファ137には、例えば、図15に示されるように、
未登録語区間処理モジュール136より供給される未登
録語のID、音韻系列、特徴ベクトル系列、および記録時
刻が対応付けられて記憶される。換言すると、特徴ベク
トルバッファ137には、複数の未登録語のエントリ
(行)により構成されるデータ群が記憶されている。
【0178】図15の例では、未登録語に対して、1か
らのシーケンシャルな数字が、IDとして付されている。
従って、例えば、いま、特徴ベクトルバッファ137に
おいて、N個の未登録語のID、音韻系列、特徴ベクトル
系列、および記録時刻が記憶されているものとすると、
マッチングモジュール132が未登録語の音声区間と音
韻系列を新たに検出すると、未登録語区間処理モジュー
ル136では、その未登録語に対して、N+1がIDとして
付され、特徴ベクトルバッファ137では、図15に点
線で示されるように、その未登録語のID(N+1)、音韻
系列、特徴ベクトル系列、および、記録時刻が記憶され
る。
【0179】なお、後述するように、クラスタリングモ
ジュール138は、新たな未登録語をクラスタリングす
る場合、特徴ベクトルバッファ137に記憶されている
「特徴ベクトル」を参照するが、未登録語がクラスタリ
ングされる場合に参照されるこのような「音声情報」
を、以下、「発話情報」と称する。
【0180】即ち、「発話情報」は、「特徴ベクトル」
のみに限定されるものではなく、例えば、特徴抽出モジ
ュール131に供給される音声データ等の「PCM(Pulse
Code Modulation)信号」でもよい。この場合、特徴ベ
クトルバッファ137には、「特徴ベクトル系列」の代
わりに、この「PCM信号」が記憶される。
【0181】このように、音声認識装置91には、上述
した各モジュールが設けられているので、音声認識装置
91は、図4の音声認識部50Aと同様の動作を実行す
ることができる。なお、これらの各モジュールの説明、
および、音声認識部50Aに対応する動作の説明は省略
する。
【0182】ところで、音声認識部50Aは、いまクラ
スタリングした未登録語の音声波形(例えば、デジタル
の音声データ等)または特徴ベクトル(例えば、デジタ
ルの音声データに対してMFCC(Mel Frequency Cepstrum
Coefficient)分析が施された場合に得られるMFCC等)
を、今後、新たに入力される未登録語をクラスタリング
するための発話情報として、所定の記憶領域またはメモ
リに記憶する必要がある。
【0183】即ち、音声認識部50Aは、上述した処理
のうち、既に求められている、音声をクラスタリングし
たクラスタの中から、未登録語を新たなメンバとして加
えるクラスタを検出する処理を実行する場合、この所定
の記憶領域またはメモリに記憶されている過去の発話情
報を参照する。
【0184】このように、音声認識部50Aは、未登録
語に対応する発話情報を全て記憶していくために、未登
録語の入力量または入力回数が増加すると(多くの未登
録語を獲得すると)、記憶領域またはメモリを大きく消
費するといった課題を有している。
【0185】そこで、この例においては、所定の条件が
満たされる場合、特徴ベクトルバッファ137に記憶さ
れている発話情報のうちの所定のものと、それに対応す
る各種のデータを消去する特徴ベクトル消去モジュール
141が、さらに設けられている。
【0186】具体的には、例えば、特徴ベクトル消去モ
ジュール141は、スコアシートバッファ139に図8
と同様のスコアシートが記憶されている場合、そのスコ
アシートを参照して、所定のクラスタに属するメンバの
数が、所定の数を超えたと判定した場合、特徴ベクトル
バッファ137に記憶されているデータの中で、その所
定のクラスタに属するメンバのうちの所定のものに対応
する発話情報と、それに対応する各種のデータを消去す
る。
【0187】これにより、特徴ベクトル消去モジュール
141は、クラスタの大きさがある一定以上の大きさに
なることを防止することができるので、メモリ(RAM1
03等)の消費を抑制させることができるだけでなく、
音声認識装置91の動作速度の遅れを防止すること、即
ち、そのパフォーマンスが悪くなることを防止すること
ができる。
【0188】さらに、特徴ベクトル消去モジュール14
1は、例えば、未参照時間演算モジュール142より供
給されてくる所定のクラスタの未参照時間が、所定の時
間を超えたと判定した場合、特徴ベクトルバッファ13
7に記憶されているデータの中で、その所定のクラスタ
に属するメンバのうちの所定のものに対応する発話情報
と、それに対応する各種のデータを消去する。
【0189】即ち、未参照時間演算モジュール142
は、所定のクラスタに属する各メンバに対応する発話情
報(図15の例では、特徴ベクトル系列)が特徴ベクト
ルバッファ137に記憶された各時刻(図15の例で
は、記録時刻)のうちの最新の時刻、即ち、その所定の
クラスタがクラスタリングモジュール138により最後
に参照された(検出された)時刻(以下、最終参照時刻
と称する)を、特徴ベクトルバッファ137より取得す
る。
【0190】さらに、未参照時間演算モジュール142
は、現在の時刻から、取得した最終参照時刻を減算し
て、所定のクラスタがクラスタリングモジュール138
により検出されていない未参照時間を演算し、特徴ベク
トル消去モジュール141に供給する。
【0191】なお、この例においては、未参照時間演算
モジュール142は、全てのクラスタに対して、所定の
時間間隔で、それらのクラスタの未参照時間を演算する
ものとするが、演算するクラスタの数は特に限定されな
い。即ち、未参照時間演算モジュール142は、ユーザ
等により指定されたクラスタの未参照時間のみを演算し
てもよい。
【0192】また、未参照時間演算モジュール142の
演算方法も限定されない。例えば、この例においては、
特徴ベクトルバッファ137に記憶された各記録時刻に
基づいて、未参照時間が演算されたが、これらの記録時
刻は、特徴ベクトルバッファ137に記憶されることは
必須とされず、この場合、未参照時間演算モジュール1
42は、所定のクラスタの最終参照時刻を、直接監視
し、かつ記憶することで、未参照時間を演算するように
してもよい。
【0193】このように、特徴ベクトル消去モジュール
141は、未参照時間演算モジュール142より供給さ
れる未参照時間を参照して、特徴ベクトルバッファ13
7に記憶されているデータの中で、メンバの新規登録が
長い時間行われていないクラスタに属するメンバのうち
の所定のものに対応する発話情報と、それに対応する各
種のデータを消去する。
【0194】また、特徴ベクトル消去モジュール141
は、例えば、所定のクラスタに対する消去指示(トリガ
信号)が入力部107(例えば、キーボード等)より供
給された場合、特徴ベクトルバッファ137に記憶され
ているデータの中で、その所定のクラスタに属するメン
バのうちの所定のものに対応する発話情報と、それに対
応する各種のデータを消去する。
【0195】このように、特徴ベクトル消去モジュール
141は、音声認識装置91の内部状態によらず、その
外部からの刺激によって、所定の特徴ベクトル系列を消
去することができるので、例えば、音声認識装置91が
上述した図1のペットロボット等に搭載された場合、強
い刺激によっておこる記憶喪失をそのロボットに再現さ
せることができる。
【0196】さらに、特徴ベクトル消去モジュール14
1は、例えば、情動制御モジュール143より供給され
た情動のパラメータの値(情動量)が、所定の値(量)
を超えたと判定した場合、特徴ベクトルバッファ137
に記憶されているデータの中で、所定のクラスタに属す
るメンバのうちの所定のものに対応する発話情報と、そ
れに対応する各種のデータを消去する。
【0197】なお、例えば、いま、音声認識装置91
が、図1のロボットに実装されているものとすると、情
報制御モジュール143は、図3のモデル記憶部51に
より実現されることができる。即ち、この場合、モデル
記憶部51は、上述したように、感情モデル、本能モデ
ル、および成長モデルの値で表される感情、本能、およ
び成長の状態を、状態情報(情動量)として、特徴ベク
トル消去モジュール141に供給することになる。
【0198】このように、特徴ベクトル消去モジュール
141は、情動制御モジュール143より供給される情
動量(情動のパラメータの値(モデルの値))を参照し
て、特徴ベクトルバッファ137に記憶されている所定
の発話情報を消去することができるので、例えば、図1
のロボットに強い怒りなどが起こった場合(「怒り」の
パラメータの値が所定の値を超えた場合)、いわゆる
「ど忘れ」をそのロボットに再現させることができる。
【0199】また、特徴ベクトル消去モジュール141
は、例えば、メモリ使用量演算モジュール144により
供給されたメモリ(例えば、特徴ベクトルバッファ13
7およびスコアシートバッファ139等を含む図1のRA
M103等)の総使用量が、所定の量を超えたと判定し
た場合、特徴ベクトルバッファ137に記憶されている
データの中で、所定のクラスタに属するメンバのうちの
所定のものに対応する特徴ベクトル系列と、それに対応
する各種のデータを消去する。
【0200】即ち、メモリ使用量演算モジュール144
は、メモリの総使用量(消費量)を常時演算し、特徴ベ
クトル消去モジュール141に所定の間隔で供給する。
【0201】このように、特徴ベクトル消去モジュール
141は、メモリ(RAM103等)の消費量を常時監視
し、その消費量がある一定以上の量になると、その消費
量を減らすべく、特徴ベクトルバッファ137に記憶さ
れている所定の特徴ベクトル系列と、それに対応する各
種のデータを消去するので、メモリ(RAM103等)の
消費を抑制させることができるだけでなく、音声認識装
置91の動作速度の遅れを防止すること、即ち、そのパ
フォーマンスが悪くなることを防止することができる。
【0202】なお、この例においては、特徴ベクトル消
去モジュール141は、上述したように、クラスタのメ
ンバの数(特徴ベクトルバッファ137に記憶されてい
るそのクラスタのメンバに対応する発話情報の数)、未
参照時間演算モジュール142より供給される未参照時
間、または、メモリ使用量演算モジュール144より供
給される情動量といったパラメータの値が、予め設定さ
れている所定の閾値を超えるか否かを判定し、所定の閾
値を超えると判定した場合、所定の条件を満たすと判定
し、所定の発話情報を消去するように構成されている
が、発話情報の消去方法はこれに限定されない。
【0203】例えば、特徴ベクトル消去モジュール14
1は、このような判定処理を特に設けずに、単にトリガ
信号(上述した入力部107より供給されてくる消去指
示等)が入力された場合、所定の条件を満たすと判定
し、所定の発話情報を消去するように構成されてもよ
い。
【0204】ただし、この場合、情動制御モジュール1
43、未参照時間演算モジュール142、およびメモリ
使用量演算モジュール144は、例えば、それぞれ上述
した判定処理を設け、これらの判定処理において、これ
らのモジュールに対応するパラメータ(情動量、未参照
時間、または、メモリ総使用量等)の値が、所定の閾値
を超えると判定した場合、所定のトリガ信号を特徴ベク
トル消去モジュール141に供給するように構成され
る。
【0205】なお、特徴ベクトル消去モジュール141
に供給されるトリガ信号は、上述したものに限定される
ことなく、上述した以外の条件、例えば、ユーザ等によ
り後から設定される任意の条件により発生されるトリガ
信号等でもよい。
【0206】また、特徴ベクトル消去モジュール141
は、上述したように、所定の条件が満たされると判定す
ると、特徴ベクトルバッファ137に記憶されている発
話情報のうちの所定のものを消去するが、この消去され
る発話情報は任意に選択(設定)されることが可能であ
り、また、消去される発話情報の個数も任意に選択(設
定)されることが可能である。例えば、ユーザまたは製
造者等は、上述したそれぞれの条件によって、消去する
発話情報を個別にそれぞれ設定することも可能である。
【0207】ただし、上述したクラスタの代表メンバに
対応する発話情報、および、その代表メンバとの距離が
あまり大きくない発話情報等が消去されると、クラスタ
の構成そのものが大きく変化される恐れがあるため、こ
れらの発話情報は、消去されるものとしては不適であ
る。
【0208】一方、メンバの数が少ないクラスタに属す
る発話情報、代表メンバとの距離が大きく離れている発
話情報、および、メンバの新規登録が長い時間行われて
いないクラスタに属する発話情報等は、消去されるもの
として好適である。
【0209】また、特徴ベクトル消去モジュール141
は、特徴ベクトルバッファ137に記憶されている所定
の発話情報と、それに対応する各種のデータを消去する
が、これに伴い、スコアシートバッファ139に記憶さ
れているスコアシートも訂正(更新)される必要があ
る。
【0210】そこで、特徴ベクトル消去モジュール14
1が、特徴ベクトルバッファ137に記憶されている所
定の発話情報を消去した場合、クラスタリングモジュー
ル138は、スコアシートのうちのその消去された発話
情報に対応する各種のデータを消去する。
【0211】例えば、いま、図15のIDが3であるエン
トリ(行)のデータ(ID、音韻系列、特徴ベクトル系列
(発話情報)、および記録時刻)が消去されたものとす
ると、クラスタリングモジュール138は、図8のスコ
アシートの中で、IDが3であるエントリ(行)のデータ
(ID、音韻系列、クラスタナンバ、代表メンバID、およ
びスコアs(3,i)(iは、1乃至N+1の値))を消
去するとともに、他のIDのメンバと、IDが3であるメン
バとのスコアs(j,3)(jは、1乃至N+1の値)を
消去する。
【0212】さらに、クラスタリングモジュール138
は、その消去された発話情報が属していたクラスタ、即
ち、上述した例では、図8のIDが3であるメンバが属し
ていたクラスタ(クラスタナンバが1であるクラスタ)
に対して代表メンバを再選抜し(求めなおし)、代表メ
ンバが変更された場合(代表メンバとしてIDが1である
メンバ以外のメンバが選択された場合)には、全てのク
ラスタの構成が変更される可能性があるため、全てのID
の未登録語に対して再クラスタリングする。
【0213】なお、再クラスタリングの方法は、特に限
定されないが、この例においては、k-means法が適用さ
れるものとする。
【0214】即ち、クラスタリングモジュール138
は、次に示される(1)乃至(3)の処理を実行する。
ただし、いま、スコアシートバッファ139のスコアシ
ートには、N個の未登録語が登録されており、これらの
未登録語がk個のクラスタにそれぞれ分割されているも
のとする。
【0215】(1) N個の未登録語のうちのK個の任意
のものを、初期クラスタ中心とし、それらの初期クラス
タ中心がそれぞれ仮の代表メンバとなるk個のクラスタ
を生成する。 (2) 全てのデータ(N個の未登録語)について、そ
のk個の初期クラスタ中心とのスコアを再演算し、その
再演算したスコアに基づいて最も近い初期クラスタ中心
が属するクラスタのメンバとしてそれぞれ登録する。 (3) 新たにメンバが登録されたk個のクラスタの代
表メンバをそれぞれ選抜する。
【0216】なお、クラスタリングモジュール138
は、上述した(2)の処理において、スコアを演算する
場合、上述したように、全てのIDに対応する未登録語の
発話情報を必要とするが、これらの発話情報を、特徴ベ
クトルバッファ137を参照することで認識する。
【0217】また、図15の例では、発話情報として、
特徴ベクトル系列が記憶されているが、上述したよう
に、特徴ベクトル系列の代わりにPCM信号(音声デー
タ)が記憶されてもよく、この場合、クラスタリングモ
ジュール138は、このPCM信号に基づいて、スコアを
演算する。
【0218】さらに、このk-means法の適用により、消
去された未登録語が属していたクラスタ以外のクラスタ
の構成が変更された場合には、クラスタリングモジュー
ル138は、この未登録語の消去処理に対する他への影
響が大きいものとみなして、その未登録語の消去自体を
とりやめ、その消去に伴って起こる全ての処理(スコア
シートの更新処理、再クラスタリング処理等)をキャン
セルし、消去前の状態に戻す(未登録語の消去の状態ま
で遡ってundoを実行する)。
【0219】次に、図16のフローチャートを参照し
て、音声認識装置91の音声認識処理について説明す
る。
【0220】なお、この例においては、特徴ベクトルバ
ッファ137には、図15に示されるデータが記憶さ
れ、スコアシートバッファ139には、図8に示される
スコアシートが記憶されるものとする。即ち、この例に
おいては、発話情報は、特徴ベクトル系列とされる。
【0221】ステップS101において、特徴ベクトル
消去モジュール141は、未登録語の消去が指示された
か否かを判定する。
【0222】この例においては、特徴ベクトル消去モジ
ュール141は、例えば、次に示される(1)乃至
(5)のうちのいずれかの場合、未登録語の消去が指示
されたと判定する。
【0223】(1) スコアシートバッファ139のス
コアシートに登録されているクラスタのうちの所定のも
のに属するメンバの数が、所定の数を超えた場合 (2) 未参照時間演算モジュール142より供給され
た所定のクラスタの未参照時間が、所定の時間を超えた
場合 (3) 消去指示(トリガ信号)が入力部107より供
給された場合 (4) 情動制御モジュール143より供給された情動
のパラメータの値(情動量)が、所定の値(量)を超え
た場合 (5) メモリ使用量演算モジュール144より供給さ
れたメモリ(RAM103等)の総使用量が、所定の量を
超えた場合
【0224】特徴ベクトル消去モジュール141は、ス
テップS101において、未登録語の消去が指示された
と判定した場合、ステップ1022において、その指示
された未登録語(以下、消去対象の未登録語と称する)
に対応する「未登録語消去処理」を実行し、ステップS
101に戻り、未登録語の消去が指示されたか否かを再
度判定する。
【0225】この例の「未登録語消去処理」の詳細は、
図17に示されている。そこで、この例の「未登録語消
去処理」を、図17を参照して説明する。
【0226】はじめに、ステップS121において、特
徴ベクトル消去モジュール141は、特徴ベクトルバッ
ファ137に記憶されているデータの中で、消去対象の
未登録語に対応するデータを消去する。
【0227】この例においては、例えば、消去対象の未
登録語が、IDが3である未登録語であるものとすると、
図15に示されるデータのうちのIDが3であるエントリ
(行)のデータ(ID、音韻系列、特徴ベクトル(発話情
報)、および、記録時刻)が消去される。
【0228】ステップS122において、クラスタリン
グモジュール138は、スコアシートバッファ139の
スコアシートを訂正する。
【0229】この例においては、いま、ステップS12
1の処理で、IDが3であるエントリのデータが消去され
たので、図8のスコアシートのデータのうちのIDが3で
あるエントリ(行)のデータ(ID、音韻系列、クラスタ
ナンバ、代表メンバID、および、スコアs(3,i)
(iは、1乃至N+1の値))が消去されるとともに、その
消去されたIDが3である未登録語と、他のIDの未登録語
とのスコアs(j,3)(jは、1乃至N+1の値)が消去
される。
【0230】ステップS123において、クラスタリン
グモジュール138は、消去対象の未登録語が属してい
たクラスタの代表メンバを再選する(求める)。
【0231】この例においては、消去対象の未登録語
は、IDが3である未登録語とされているので、図8のス
コアシートに示されるクラスタナンバが1であるクラス
タ(IDが3である未登録語が属していたクラスタ)の代
表メンバが上述した方法により再選される。
【0232】ステップS124において、クラスタリン
グモジュール138は、代表メンバが変更されたか否か
を判定し(ステップS123の処理で再選された代表メ
ンバが、その処理の直前の代表メンバと異なるか否かを
判定し)、代表メンバが変更されていないと判定した場
合、リターンする。即ち、図16のステップS102の
処理が終了され、ステップS101に戻り、それ以降の
処理が繰り返される。
【0233】この例においては、いま、ステップS12
3の処理でIDが1であるメンバが代表メンバとして再選
された場合、代表メンバが変更されていないと判定さ
れ、一方、再選された代表メンバがそれ以外のIDのメン
バであった場合、代表メンバが変更されたと判定され
る。
【0234】ステップS124において、クラスタリン
グモジュール138は、代表メンバが変更されたと判定
した場合、ステップS125において、全ての未登録語
(この例においては、図8のスコアシートに登録されて
いる未登録語のうちのIDが3であるものを除く全ての未
登録語)に対して再クラスタリングする。即ち、クラス
タリングモジュール138は、例えば、全ての未登録語
に対して上述したk-means法を適用する。
【0235】ステップS126において、クラスタリン
グモジュール138は、クラスタの構成が変更されたか
否かを判定し(ステップS125の処理で再クラスタリ
ングされたそれぞれのクラスタの構成が、その処理の直
前の構成と異なるか否かを判定し)、クラスタの構成が
変更されていないと判定した場合、リターンする。
【0236】一方、ステップS126において、クラス
タリングモジュール138は、クラスタの構成が変更さ
れたと判定した場合、ステップS127において、消去
前の元の状態に戻す(ステップS121の処理が実行さ
れる前の状態に戻す)。即ち、クラスタリングモジュー
ル138は、消去対象の未登録語を消去した状態まで遡
ってundoを実行し、リターンする。
【0237】なお、ステップS126およびS127の
処理(Undo処理)は、省略されてもよい。即ち、音声認
識装置91は、クラスタの変更を許可して、Undo処理を
実行しないようにしてもよい。
【0238】また、ステップS126およびS127の
処理を実行させるか否かを、音声認識装置91の外部よ
り(ユーザ等により)選択できるように音声認識装置9
1は構成されてもよい。
【0239】図16に戻り、ステップS101におい
て、未登録語の消去が指示されていないと判定された場
合、ステップS102において、特徴抽出モジュール1
31は、音声が入力されたか否かを判定する。
【0240】ステップS102において、音声が入力さ
れていないと判定された場合、ステップS101に戻
り、それ以降の処理が繰り返される。
【0241】即ち、特徴ベクトル消去モジュール141
は、未登録語の消去(特徴ベクトルバッファ137に記
憶されているその未登録語に対応する発話情報の消去)
が指示されたか否かを常時判定するとともに、特徴抽出
モジュール131は、特徴ベクトル消去モジュール14
1とは独立して、音声が入力されたか否かを常時判定す
る。
【0242】いま、ユーザが発話を行ったものとする
と、その発話された音声は、入力部107のマイクロホ
ンおよびAD変換部を介することにより、デジタルの音
声データとされ、特徴抽出モジュール131に供給され
る。
【0243】このとき、特徴抽出部モジュール131
は、ステップS103において、音声が入力されたか否
かを判定し、音声が入力された場合(音声が入力された
と判定した場合)、ステップS104において、その音
声データを、所定のフレーム単位で音響分析することに
より、特徴ベクトルを抽出し、その特徴ベクトルの系列
を、マッチングモジュール132および未登録語区間処
理モジュール136に供給する。
【0244】即ち、ステップS104乃至S108の処
理は、上述した図9のステップS1乃至S5と同様の処
理である。従って、ステップS104乃至S108の処
理の説明は、省略する。
【0245】上述したように、特徴ベクトル消去モジュ
ール141は、所定の条件が満たされると判定した場
合、特徴ベクトルバッファ137に記憶されているデー
タの中で、クラスタリングへの影響が少ないと判断され
る発話情報(図15の例では、特徴ベクトル系列)と、
それに対応するデータ(図15の例では、ID、音韻系
列、および記録時刻)を消去するので、未登録語を自動
獲得する機能を損なうことなく、記憶領域の消費を抑制
することができる。
【0246】さらにまた、この特徴ベクトル消去モジュ
ール141の消去処理に伴い、クラスタリングモジュー
ル138は、スコアシートバッファ139に記憶されて
いるスコアシートも訂正する(不要なデータを消去す
る)ので、記憶領域の消費をより抑制することができ
る。
【0247】なお、上述した例においても、記録媒体に
記録されるプログラムを記述するステップは、記載され
た順序に沿って時系列的に行われる処理はもちろん、必
ずしも時系列的に処理されなくとも、並列的あるいは個
別に実行される処理をも含むものである。
【0248】また、図14の各モジュールは、その機能
を果たすものであれば、その形態は限定されない。即
ち、ハードウェアなどでモジュールが構成されてもよ
い。その場合、製造者等は、これらの各モジュールを、
図14に示されるようにそれぞれ接続すればよい。換言
すると、上述した図3の音声認識部50Aの代わりに、
図14に対応するハードウェアを音声認識部として利用
してもよい。
【0249】なお、上述した実施の形態においては、H
MM法により音声認識を行うようにしたが、本発明は、
その他、例えば、DPマッチング法等により音声認識を
行う場合にも適用可能である。ここで、例えば、DPマ
ッチング法による音声認識を行う場合には、上述のスコ
アは、入力音声と標準パターンとの間の距離の逆数に相
当する。
【0250】また、上述した実施の形態では、未登録語
をクラスタリングし、そのクラスタリング結果に基づい
て、単語辞書に、未登録語を登録するようにしたが、本
発明は、単語辞書に登録されている登録語についても適
用可能である。
【0251】即ち、同一単語の発話についてであって
も、異なる音韻系列が得られる場合があることから、単
語辞書に、1つの単語について、1つの音韻系列だけを
登録しておく場合には、その単語の発話として、単語辞
書に登録された登録語の音韻系列と異なる音韻系列が得
られるときには、発話が、その登録語に認識されないこ
とがある。これに対して、本発明によれば、同一の単語
についての異なる発話が、音響的に類似したものどうし
にクラスタリングされることとなるので、そのクラスタ
リング結果に基づいて、単語辞書を更新することによ
り、同一の単語について、多種の音韻系列が、単語辞書
に登録されることになり、その結果、同一単語につき、
種々の音韻に対処した音声認識を行うことが可能とな
る。
【0252】なお、単語辞書に登録する、未登録語のク
ラスタに対応するエントリには、音韻系列の他、例え
ば、次のようにして見出しを記述することができる。
【0253】即ち、例えば、行動決定機構部52におい
て、画像認識部50Bや圧力処理部50Cが出力する状
態認識情報を、図3において点線で示すように、音声認
識部50Aに供給するようにし、音声認識部50Aのメ
ンテナンス部31(図4)において、その状態認識情報
を受信するようにする。
【0254】一方、特徴ベクトルバッファ28、ひいて
は、スコアシート記憶部30においては、未登録語が入
力された絶対時刻(時間)も記憶しておくようにし、メ
ンテナンス部31において、スコアシート記憶部30に
おけるスコアシートの絶対時刻を参照することにより、
未登録語が入力されたときの、行動決定機構部52から
供給される状態認識情報を、その未登録語の見出しとし
て認識する。
【0255】そして、メンテナンス部31において、単
語辞書の、未登録語のクラスタに対応するエントリに
は、そのクラスタの代表メンバの音韻系列とともに、そ
の見出しとしての状態認識情報を登録するようにする。
【0256】この場合、マッチング部23には、単語辞
書に登録された未登録語の音声認識結果として、その未
登録語の見出しとしての状態認識情報を出力させること
が可能となり、さらに、その見出しとしての状態認識情
報に基づいて、ロボットに所定の行動をとらせることが
可能となる。
【0257】具体的には、例えば、単語「赤」が未登録
語であるとして、CCD16において、赤い物体が撮像
されたときには、例えば、「赤い」という状態認識情報
が、画像認識部50Bから、行動決定機構部52を介し
て、音声認識部50Aに供給されるが、そのときに、ユ
ーザが、未登録語としての「赤」を発話すると、音声認
識部50Aでは、その未登録語「赤」の音韻系列が求め
られる。
【0258】そして、この場合、音声認識部50Aで
は、未登録語「赤」の音韻系列と、その見出しとしての
状態認識情報「赤い」とが、未登録語「赤」のエントリ
として、単語辞書に追加される。
【0259】その結果、次に、ユーザが「赤」と発話し
たときには、その発話についてのスコアとしては、単語
辞書に登録されている未登録語「赤」の音韻系列に対す
るものが大きくなり、音声認識部50Aでは、その見出
しとなっている状態認識情報「赤い」が、音声認識結果
として出力されることになる。
【0260】この音声認識結果は、音声認識部50Aか
ら行動決定機構部52に供給されるが、この場合、行動
決定機構部52では、画像認識部50Bの出力に基づい
て、周囲の赤い物体を探し出し、その赤い物体に向かっ
ていくような行動を、ロボットにとらせるようにするこ
とが可能となる。
【0261】即ち、この場合、ロボットは、最初は、発
話「赤」を音声認識することはできないが、ロボット
が、赤い物体を撮像しているときに、ユーザが、「赤」
と発話すると、ロボットにおいて、その発話「赤」と、
撮像されている赤い物体とが対応付けられ、その後は、
ユーザが、「赤」と発話すると、その発話「赤」が音声
認識され、周囲にある赤い物体に向かって歩行していく
ようになる。
【0262】なお、図13の音声認識装置91における
場合も、同様である。
【0263】また、上述した実施の形態においては、ス
コアシートに、スコアを記憶しておくようにしたが、ス
コアは、必要に応じて、再計算するようにすることも可
能である。
【0264】また、上述した実施の形態では、検出クラ
スタを、2つのクラスタに分割するようにしたが、検出
クラスタは、3以上のクラスタに分割することが可能で
ある。さらに、検出クラスタは、一定以上のクラスタ間
距離となる任意の数のクラスタに分割することも可能で
ある。
【0265】さらに、上述した実施の形態では、スコア
シート(図8)に、スコアの他、未登録語の音韻系列
や、クラスタナンバ、代表メンバID等を登録するように
したが、これらのスコア以外の情報は、スコアシートに
登録するのではなく、スコアとは別に管理することが可
能である。
【0266】
【発明の効果】本発明の音声処理装置および音声処理方
法、並びにプログラムによれば、既に求められている、
音声をクラスタリングしたクラスタの中から、入力音声
を新たなメンバとして加えるクラスタが検出される。さ
らに、入力音声が、検出されたクラスタの新たなメンバ
とされ、そのクラスタが、そのクラスタのメンバに基づ
いて分割される。そして、その分割結果に基づいて、辞
書が更新される。従って、例えば、辞書の大規模化をさ
けて、辞書に登録されていない未登録語の辞書への登録
等を、容易に行うことが可能となる。
【図面の簡単な説明】
【図1】本発明を適用したロボットの一実施の形態の外
観構成例を示す斜視図である。
【図2】ロボットの内部構成例を示すブロック図であ
る。
【図3】図1のロボットのコントローラの機能的構成例
を示すブロック図である。
【図4】本発明の第1実施形態が適用される音声認識装
置としての、図1のロボットの音声認識部の構成例を示
すブロック図である。
【図5】単語辞書を示す図である。
【図6】文法規則を示す図である。
【図7】図4の音声認識部の特徴ベクトルバッファの記
憶内容を示す図である。
【図8】スコアシートを示す図である。
【図9】図4の音声認識部の音声認識処理を説明するフ
ローチャートである。
【図10】図9の未登録語処理の詳細を説明するフロー
チャートである。
【図11】図9のクラスタ分割処理の詳細を説明するフ
ローチャートである。
【図12】シミュレーション結果を示す図である。
【図13】本発明の第2実施形態が適用された音声認識
装置のハードウェアの構成例を示す図である。
【図14】図13の音声認識装置のソフトウエアの構成
例を示すブロック図である。
【図15】図14の音声認識装置の特徴ベクトルバッフ
ァの記憶内容を示す図である。
【図16】図14の音声認識装置の音声認識処理を説明
するフローチャートである。
【図17】図16の未登録語消去処理の詳細を説明する
フローチャートである。
【符号の説明】
1 頭部ユニット, 4A 下顎部, 10 コントロ
ーラ, 10A CPU, 10B メモリ, 15
マイク, 16 CCDカメラ, 17 タッチセン
サ, 18 スピーカ, 21 AD変換部, 22
特徴抽出部, 23 マッチング部, 24 音響モデ
ル記憶部, 25 辞書記憶部, 26文法記憶部,
27 未登録語区間処理部, 28 特徴ベクトルバッ
ファ,29 クラスタリング部, 30 スコアシート
記憶部, 31 メンテナンス部, 50 センサ入力
処理部, 50A 音声認識部, 50B 画像認識
部, 50C 圧力処理部, 51 モデル記憶部,
52 行動決定機構部,53 姿勢遷移機構部, 54
制御機構部, 55 音声合成部, 91 音声認識
装置, 101 バス, 102 CPU, 103 RO
M, 104 RAM, 105 ハードディスク, 10
6 出力部, 107 入力部, 108通信部, 1
09 ドライブ, 110 入出力インタフェース,
111リムーバブル記録媒体, 131 特徴抽出モジ
ュール, 132 マッチングモジュール, 133
音響モデルバッファ, 134 辞書バッファ, 13
5 文法バッファ, 136 未登録語区間処理モジュ
ール, 137 特徴ベクトルバッファ, 138 ク
ラスタリングモジュール, 139 スコアシートバッ
ファ, 140 メンテナンスモジュール, 141
特徴ベクトル消去モジュール, 142 未参照時間演
算モジュール, 143 情動制御モジュール, 14
4 メモリ使用量演算モジュール
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/24 G10L 3/00 551H 571Q

Claims (30)

    【特許請求の範囲】
  1. 【請求項1】 入力音声を処理し、その処理結果に基づ
    いて、言語処理に用いられる辞書を更新する音声処理装
    置であって、 既に求められている、音声をクラスタリングしたクラス
    タの中から、前記入力音声を新たなメンバとして加える
    クラスタを検出するクラスタ検出手段と、 前記入力音声を、前記クラスタ検出手段において検出さ
    れたクラスタの新たなメンバとし、そのクラスタを、そ
    のクラスタのメンバに基づいて分割するクラスタ分割手
    段と、 前記クラスタ分割手段によるクラスタの分割結果に基づ
    いて、前記辞書を更新する更新手段とを備えることを特
    徴とする音声処理装置。
  2. 【請求項2】 前記辞書は、音声認識の対象とする語彙
    の音韻系列を記憶しており、 前記更新手段は、分割後のクラスタのメンバを代表する
    代表メンバに対応する音声の音韻系列を、前記辞書の新
    たなエントリとして加えることにより、または前記辞書
    のエントリを、分割後のクラスタのメンバを代表する代
    表メンバに対応する音声の音韻系列に変更することによ
    り、前記辞書を更新することを特徴とする請求項1に記
    載の音声処理装置。
  3. 【請求項3】 前記クラスタ検出手段は、 前記クラスタのメンバから前記入力音声が観測される尤
    度を、前記クラスタのメンバに対する前記入力音声につ
    いてのスコアとして計算し、 前記クラスタの中から、前記入力音声について求められ
    る前記スコアを最も高くする、前記クラスタのメンバを
    代表する代表メンバを求め、 その代表メンバを代表とするクラスタを、前記入力音声
    を新たなメンバとして加えるクラスタとして検出するこ
    とを特徴とする請求項1に記載の音声処理装置。
  4. 【請求項4】 前記入力音声は、前記辞書にあらかじめ
    登録されていない未登録語であることを特徴とする請求
    項1に記載の音声処理装置。
  5. 【請求項5】 前記クラスタのメンバを代表する代表メ
    ンバを、そのクラスタの他のメンバについてのスコアの
    総和を最大にするメンバとする場合において、 前記クラスタ分割手段は、前記入力音声をメンバとした
    クラスタを、そのクラスタのメンバのうちの2つが前記
    代表メンバとなる第1および第2のクラスタの2つのク
    ラスタの組に分割することを特徴とする請求項3に記載
    の音声処理装置。
  6. 【請求項6】 前記クラスタ分割手段は、第1および第
    2のクラスタの2つのクラスタの組が複数組存在する場
    合、前記入力音声をメンバとしたクラスタを、前記第1
    のクラスタと第2のクラスタとのクラスタ間距離を最小
    にする2つのクラスタに分割することを特徴とする請求
    項5に記載の音声処理装置。
  7. 【請求項7】 前記クラスタ分割手段は、前記第1のク
    ラスタと第2のクラスタとのクラスタ間距離を最小にす
    る2つのクラスタどうしのクラスタ間距離が所定の閾値
    より大である場合に、前記入力音声をメンバとしたクラ
    スタを、その2つのクラスタに分割することを特徴とす
    る請求項6に記載の音声処理装置。
  8. 【請求項8】 前記クラスタのメンバについて、各クラ
    スタの各メンバに対するスコアを記憶する記憶手段をさ
    らに備えることを特徴とする請求項5に記載の音声処理
    装置。
  9. 【請求項9】 前記辞書は、音声認識の対象とする語彙
    の音韻系列を記憶しており、 前記辞書の音韻系列にしたがって構成される音響モデル
    に基づいて、音声を認識する音声認識手段をさらに備え
    ることを特徴とする請求項1に記載の音声処理装置。
  10. 【請求項10】 前記音響モデルは、HMM(Hidden Ma
    rkov model)であることを特徴とする請求項9に記載の
    音声処理装置。
  11. 【請求項11】 前記音声認識手段は、サブワード単位
    の前記HMMを接続することにより、前記辞書の音韻系
    列に対応する音響モデルを構成し、その音響モデルに基
    づいて、音声を認識することを特徴とする請求項9に記
    載の音声処理装置。
  12. 【請求項12】 前記音声認識手段は、所定の文法規則
    にも基づいて、音声を認識することを特徴とする請求項
    9に記載の音声処理装置。
  13. 【請求項13】 前記音声認識手段は、前記所定の文法
    規則に基づいて、前記入力音声の所定の区間を切り出
    し、 前記クラスタ検出手段およびクラスタ分割手段は、前記
    所定の区間の前記入力音声を対象として処理を行うこと
    を特徴とする請求項12に記載の音声処理装置。
  14. 【請求項14】 前記音声認識手段は、前記入力音声か
    ら、前記辞書に登録されていない未登録語の区間を、前
    記所定の区間として切り出すことを特徴とする請求項1
    3に記載の音声処理装置。
  15. 【請求項15】 前記音声認識手段は、ガーベジモデル
    を用いた前記所定の文法規則に基づいて、前記未登録語
    の区間を切り出すことを特徴とする請求項14に記載の
    音声処理装置。
  16. 【請求項16】 前記クラスタ分割手段は、EM(Expec
    tation Maximum)法により、前記クラスタを分割するこ
    とを特徴とする請求項1に記載の音声処理装置。
  17. 【請求項17】 前記入力音声に関する音声情報を記憶
    する記憶手段と、所定の条件が満たされると判定した場
    合、前記記憶手段に記憶された前記音声情報のうちの所
    定のものを消去する消去手段とをさらに備えることを特
    徴とする請求項1に記載の音声処理装置。
  18. 【請求項18】 前記記憶手段に記憶される前記音声情
    報は、前記入力音声のデジタルデータであることを特徴
    とする請求項17に記載の音声処理装置。
  19. 【請求項19】 前記入力音声のデジタルデータより、
    前記入力音声の所定の特徴を表す特徴ベクトルを抽出す
    る特徴抽出手段をさらに備え、 前記記憶手段に記憶される前記音声情報は、前記特徴抽
    出手段により抽出された前記入力音声の前記特徴ベクト
    ルであることを特徴とする請求項18に記載の音声処理
    装置。
  20. 【請求項20】 前記消去手段は、所定の前記クラスタ
    に属する前記メンバの数が、所定の数を超えた場合、前
    記所定の条件が満たされると判定することを特徴とする
    請求項17に記載の音声処理装置。
  21. 【請求項21】 前記クラスタ検出手段により所定の前
    記クラスタが検出されていない未参照時間を演算する未
    参照時間演算手段をさらに備え、 前記消去手段は、前記未参照時間演算手段により演算さ
    れた前記所定のクラスタの前記未参照時間が、所定の時
    間を超えた場合、前記所定の条件が満たされると判定す
    ることを特徴とする請求項17に記載の音声処理装置。
  22. 【請求項22】 トリガ信号を入力する入力手段をさら
    に備え、 前記消去手段は、前記入力手段により前記トリガ信号が
    入力された場合、前記所定の条件が満たされると判定す
    ることを特徴とする請求項17に記載の音声処理装置。
  23. 【請求項23】 情動のパラメータを制御する情動制御
    手段をさらに備え、 前記消去手段は、前記情動制御手段により制御された前
    記情動のパラメータの値が、所定の値を超えた場合、前
    記所定の条件が満たされると判定することを特徴とする
    請求項17に記載の音声処理装置。
  24. 【請求項24】 前記記憶手段の記憶領域の使用量を演
    算する記憶領域使用量演算手段をさらに備え、 前記消去手段は、前記記憶領域使用量演算手段により演
    算された前記記憶領域の使用量が、所定の量を超えた場
    合、前記所定の条件が満たされると判定することを特徴
    とする請求項17に記載の音声処理装置。
  25. 【請求項25】 前記クラスタ検出手段は、 前記消去手段により前記音声情報が消去された場合、消
    去された前記音声情報が属していた前記クラスタの前記
    メンバを代表する代表メンバを選抜する代表メンバ選抜
    手段と、 前記代表メンバ選抜手段により選抜された前記代表メン
    バが、前記代表メンバ選抜手段による処理が実行される
    直前の前記代表メンバとは異なる場合、前記記憶手段に
    記憶されている全ての前記音声情報に対応する音声に対
    して、再クラスタリングするクラスタリング手段とをさ
    らに有することを特徴とする請求項17に記載の音声処
    理装置。
  26. 【請求項26】 前記クラスタリング手段により再クラ
    スタリングされた前記クラスタの構成が、前記クラスタ
    リング手段による処理が実行される直前の前記クラスタ
    の構成と異なる場合、前記消去手段による前記音声情報
    に対する処理が実行される直前の状態に戻す消去処理取
    消手段をさらに備えることを特徴とする請求項25に記
    載の音声処理装置。
  27. 【請求項27】 前記クラスタリング手段は、k-means
    法を適用することを特徴とする請求項25に記載の音声
    処理装置。
  28. 【請求項28】 入力音声を処理し、その処理結果に基
    づいて、言語処理に用いられる辞書を更新する音声処理
    方法であって、 既に求められている、音声をクラスタリングしたクラス
    タの中から、前記入力音声を新たなメンバとして加える
    クラスタを検出するクラスタ検出ステップと、前記入力
    音声を、前記クラスタ検出ステップにおいて検出された
    クラスタの新たなメンバとし、そのクラスタを、そのク
    ラスタのメンバに基づいて分割するクラスタ分割ステッ
    プと、 前記クラスタ分割ステップによるクラスタの分割結果に
    基づいて、前記辞書を更新する更新ステップとを備える
    ことを特徴とする音声処理方法。
  29. 【請求項29】 入力音声を処理し、その処理結果に基
    づいて、言語処理に用いられる辞書を更新する音声処理
    を、コンピュータに行わせるプログラムであって、 既に求められている、音声をクラスタリングしたクラス
    タの中から、前記入力音声を新たなメンバとして加える
    クラスタを検出するクラスタ検出ステップと、 前記入力音声を、前記クラスタ検出ステップにおいて検
    出されたクラスタの新たなメンバとし、そのクラスタ
    を、そのクラスタのメンバに基づいて分割するクラスタ
    分割ステップと、 前記クラスタ分割ステップによるクラスタの分割結果に
    基づいて、前記辞書を更新する更新ステップとを備える
    ことを特徴とするプログラム。
  30. 【請求項30】 入力音声を処理し、その処理結果に基
    づいて、言語処理に用いられる辞書を更新する音声処理
    を、コンピュータに行わせるプログラムが記録されてい
    る記録媒体であって、 既に求められている、音声をクラスタリングしたクラス
    タの中から、前記入力音声を新たなメンバとして加える
    クラスタを検出するクラスタ検出ステップと、前記入力
    音声を、前記クラスタ検出ステップにおいて検出された
    クラスタの新たなメンバとし、そのクラスタを、そのク
    ラスタのメンバに基づいて分割するクラスタ分割ステッ
    プと、 前記クラスタ分割ステップによるクラスタの分割結果に
    基づいて、前記辞書を更新する更新ステップとを備える
    プログラムが記録されていることを特徴とする記録媒
    体。
JP2002069603A 2001-03-30 2002-03-14 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体 Abandoned JP2002358095A (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2002069603A JP2002358095A (ja) 2001-03-30 2002-03-14 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
PCT/JP2002/003248 WO2002080141A1 (fr) 2001-03-30 2002-04-01 Appareil de traitement du son
KR1020027016297A KR20030007793A (ko) 2001-03-30 2002-04-01 음성 처리 장치
EP02708744A EP1376536A1 (en) 2001-03-30 2002-04-01 Sound processing apparatus
CN02801646A CN1462428A (zh) 2001-03-30 2002-04-01 语音处理装置
US10/296,797 US7228276B2 (en) 2001-03-30 2002-04-01 Sound processing registering a word in a dictionary

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001-97843 2001-03-30
JP2001097843 2001-03-30
JP2002069603A JP2002358095A (ja) 2001-03-30 2002-03-14 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2002358095A true JP2002358095A (ja) 2002-12-13
JP2002358095A5 JP2002358095A5 (ja) 2005-09-02

Family

ID=26612647

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002069603A Abandoned JP2002358095A (ja) 2001-03-30 2002-03-14 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体

Country Status (6)

Country Link
US (1) US7228276B2 (ja)
EP (1) EP1376536A1 (ja)
JP (1) JP2002358095A (ja)
KR (1) KR20030007793A (ja)
CN (1) CN1462428A (ja)
WO (1) WO2002080141A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004252121A (ja) * 2003-02-20 2004-09-09 Sony Corp 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
WO2005122144A1 (ja) * 2004-06-10 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置、音声認識方法、及びプログラム
JP2006171710A (ja) * 2004-12-10 2006-06-29 Microsoft Corp 音響情報から意味的な意図を識別するためのシステムおよび方法
WO2007138875A1 (ja) * 2006-05-31 2007-12-06 Nec Corporation 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム
JP2009157119A (ja) * 2007-12-27 2009-07-16 Univ Of Ryukyus 音声単語自動獲得方法
US8423354B2 (en) 2008-05-09 2013-04-16 Fujitsu Limited Speech recognition dictionary creating support device, computer readable medium storing processing program, and processing method
KR20160014465A (ko) * 2014-07-29 2016-02-11 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070265834A1 (en) * 2001-09-06 2007-11-15 Einat Melnick In-context analysis
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7110949B2 (en) * 2004-09-13 2006-09-19 At&T Knowledge Ventures, L.P. System and method for analysis and adjustment of speech-enabled systems
US7729478B1 (en) * 2005-04-12 2010-06-01 Avaya Inc. Change speed of voicemail playback depending on context
US8438027B2 (en) * 2005-05-27 2013-05-07 Panasonic Corporation Updating standard patterns of words in a voice recognition dictionary
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
EP1934971A4 (en) 2005-08-31 2010-10-27 Voicebox Technologies Inc DYNAMIC LANGUAGE SCRIPTURE
KR100717385B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
JP2007286356A (ja) * 2006-04-17 2007-11-01 Funai Electric Co Ltd 電子機器
JP4181590B2 (ja) * 2006-08-30 2008-11-19 株式会社東芝 インタフェース装置及びインタフェース処理方法
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
DE102007033472A1 (de) * 2007-07-18 2009-01-29 Siemens Ag Verfahren zur Spracherkennung
US8868410B2 (en) * 2007-08-31 2014-10-21 National Institute Of Information And Communications Technology Non-dialogue-based and dialogue-based learning apparatus by substituting for uttered words undefined in a dictionary with word-graphs comprising of words defined in the dictionary
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8064290B2 (en) * 2009-04-28 2011-11-22 Luidia, Inc. Digital transcription system utilizing small aperture acoustical sensors
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US8645136B2 (en) * 2010-07-20 2014-02-04 Intellisist, Inc. System and method for efficiently reducing transcription error using hybrid voice transcription
CN103229233B (zh) * 2010-12-10 2015-11-25 松下电器(美国)知识产权公司 用于识别说话人的建模设备和方法、以及说话人识别系统
US9117444B2 (en) 2012-05-29 2015-08-25 Nuance Communications, Inc. Methods and apparatus for performing transformation techniques for data clustering and/or classification
CN103219007A (zh) * 2013-03-27 2013-07-24 谢东来 语音识别方法及装置
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
WO2016044290A1 (en) 2014-09-16 2016-03-24 Kennewick Michael R Voice commerce
EP3207467A4 (en) 2014-10-15 2018-05-23 VoiceBox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10403265B2 (en) * 2014-12-24 2019-09-03 Mitsubishi Electric Corporation Voice recognition apparatus and voice recognition method
US10515150B2 (en) * 2015-07-14 2019-12-24 Genesys Telecommunications Laboratories, Inc. Data driven speech enabled self-help systems and methods of operating thereof
US10455088B2 (en) 2015-10-21 2019-10-22 Genesys Telecommunications Laboratories, Inc. Dialogue flow optimization and personalization
US10382623B2 (en) 2015-10-21 2019-08-13 Genesys Telecommunications Laboratories, Inc. Data-driven dialogue enabled self-help systems
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
US20180254054A1 (en) * 2017-03-02 2018-09-06 Otosense Inc. Sound-recognition system based on a sound language and associated annotations
US20180268844A1 (en) * 2017-03-14 2018-09-20 Otosense Inc. Syntactic system for sound recognition
JP6711343B2 (ja) * 2017-12-05 2020-06-17 カシオ計算機株式会社 音声処理装置、音声処理方法及びプログラム
JP7000268B2 (ja) * 2018-07-18 2022-01-19 株式会社東芝 情報処理装置、情報処理方法、およびプログラム
US11375293B2 (en) 2018-10-31 2022-06-28 Sony Interactive Entertainment Inc. Textual annotation of acoustic effects
US10854109B2 (en) 2018-10-31 2020-12-01 Sony Interactive Entertainment Inc. Color accommodation for on-demand accessibility
US10977872B2 (en) 2018-10-31 2021-04-13 Sony Interactive Entertainment Inc. Graphical style modification for video games using machine learning
US11636673B2 (en) 2018-10-31 2023-04-25 Sony Interactive Entertainment Inc. Scene annotation using machine learning
CN115171702A (zh) * 2022-05-30 2022-10-11 青岛海尔科技有限公司 数字孪生声纹特征处理方法、存储介质及电子装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5745680A (en) * 1980-08-30 1982-03-15 Fujitsu Ltd Pattern recognition device
JPS6125199A (ja) * 1984-07-14 1986-02-04 日本電気株式会社 音声認識方式
US6243680B1 (en) * 1998-06-15 2001-06-05 Nortel Networks Limited Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
KR100277694B1 (ko) * 1998-11-11 2001-01-15 정선종 음성인식시스템에서의 발음사전 자동생성 방법
JP2002160185A (ja) 2000-03-31 2002-06-04 Sony Corp ロボット装置、ロボット装置の行動制御方法、外力検出装置及び外力検出方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004252121A (ja) * 2003-02-20 2004-09-09 Sony Corp 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
WO2005122144A1 (ja) * 2004-06-10 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置、音声認識方法、及びプログラム
US7813928B2 (en) 2004-06-10 2010-10-12 Panasonic Corporation Speech recognition device, speech recognition method, and program
JP2006171710A (ja) * 2004-12-10 2006-06-29 Microsoft Corp 音響情報から意味的な意図を識別するためのシステムおよび方法
WO2007138875A1 (ja) * 2006-05-31 2007-12-06 Nec Corporation 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム
JP2009157119A (ja) * 2007-12-27 2009-07-16 Univ Of Ryukyus 音声単語自動獲得方法
US8423354B2 (en) 2008-05-09 2013-04-16 Fujitsu Limited Speech recognition dictionary creating support device, computer readable medium storing processing program, and processing method
KR20160014465A (ko) * 2014-07-29 2016-02-11 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
KR102246900B1 (ko) 2014-07-29 2021-04-30 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법

Also Published As

Publication number Publication date
US20040030552A1 (en) 2004-02-12
CN1462428A (zh) 2003-12-17
KR20030007793A (ko) 2003-01-23
WO2002080141A1 (fr) 2002-10-10
EP1376536A1 (en) 2004-01-02
US7228276B2 (en) 2007-06-05

Similar Documents

Publication Publication Date Title
JP2002358095A (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
JP4296714B2 (ja) ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム
US7065490B1 (en) Voice processing method based on the emotion and instinct states of a robot
JP6550068B2 (ja) 音声認識における発音予測
JP4510953B2 (ja) 音声認識におけるノンインタラクティブ方式のエンロールメント
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
JP2001188555A (ja) 情報処理装置および方法、並びに記録媒体
JP2002268699A (ja) 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体
EP1906386A1 (en) Using child directed speech to bootstrap a model based speech segmentation and recognition system
JP2001188553A (ja) 音声合成装置および方法、並びに記録媒体
US20230186905A1 (en) System and method for tone recognition in spoken languages
JP2001154685A (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP2001188779A (ja) 情報処理装置および方法、並びに記録媒体
KR20030007866A (ko) 단어열 출력 장치
JP2002116792A (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP4600736B2 (ja) ロボット制御装置および方法、記録媒体、並びにプログラム
JP4587009B2 (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2002268663A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2001154693A (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2002307349A (ja) ロボット装置、情報学習方法、プログラム及び記録媒体
JP2002258886A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2004309523A (ja) ロボット装置の動作パターン共有システム、ロボット装置の動作パターン共有方法、及びロボット装置
JP2003271181A (ja) 情報処理装置および情報処理方法、並びに記録媒体およびプログラム
JP4656354B2 (ja) 音声処理装置および音声処理方法、並びに記録媒体
JP4178777B2 (ja) ロボット装置、記録媒体、並びにプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050301

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050301

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20080826