JP2003044080A

JP2003044080A - ロボット装置、文字認識装置及び文字認識方法、並びに、制御プログラム及び記録媒体

Info

Publication number: JP2003044080A
Application number: JP2002130905A
Authority: JP
Inventors: Atsuo Hiroe; 厚夫廣江; Katsuki Minamino; 活樹南野; Kenta Kawamoto; 献太河本; Kotaro Sabe; 浩太郎佐部; Takeshi Ohashi; 武史大橋
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2001-05-02
Filing date: 2002-05-02
Publication date: 2003-02-14

Abstract

(57)【要約】【課題】未登録の単語を新規単語として認識用辞書に
登録する。【解決手段】ＣＣＤカメラ２０において撮像された画
像の文字認識の結果から推定される複数の文字と、これ
ら各文字から推定される複数の読み仮名と、各読み仮名
に対応する読み方とを発音情報生成部１５０において生
成し、ここで得られた複数の読み方とマイク２３におい
て取得したユーザからの発声とをマッチングすることに
よって、生成された複数候補の中から１つの読み仮名及
び発音のしかた（読み方）を特定する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、内部状態に応じて
自律的に動作するロボット装置、文字認識装置及び文字
認識方法、並びに、制御プログラム及び記録媒体に関
し、特に、撮像した画像から所定パターンの画像を認識
し、この画像とともに取得した音声をこの認識画像と対
応付けて新規に登録するロボット装置、並びに、撮像さ
れた所定パターンの画像とともに取得した音声をこの認
識画像と対応付けて新規に登録する文字認識装置及び文
字認識方法、並びに、取得した画像から所定パターンの
画像を認識し、この画像とともに取得した音声をこの認
識画像と対応付けて新規に登録する処理を実行させる制
御プログラム及びこの制御プログラムが記録された記録
媒体に関する。

【０００２】

【従来の技術】電気的又は磁気的な作用を用いて人間
（生物）の動作に似た運動を行う機械装置を「ロボッ
ト」という。我が国においてロボットが普及し始めたの
は、１９６０年代末からであるが、その多くは、工場に
おける生産作業の自動化・無人化等を目的としたマニピ
ュレータや搬送ロボット等の産業用ロボット（Industri
al Robot）であった。

【０００３】最近では、人間のパートナーとして生活を
支援する、すなわち住環境その他の日常生活上の様々な
場面における人的活動を支援する実用ロボットの開発が
進められている。このような実用ロボットは、産業用ロ
ボットとは異なり、人間の生活環境の様々な局面におい
て、個々に個性の相違した人間、又は様々な環境への適
応方法を自ら学習する能力を備えている。例えば、犬、
猫のように４足歩行の動物の身体メカニズムやその動作
を模した「ペット型」ロボット、或いは、２足直立歩行
を行う動物の身体メカニズムや動作をモデルにしてデザ
インされた「人間型」又は「人間形」ロボット（Humano
id Robot）等の脚式移動ロボットは、既に実用化されつ
つある。これらの脚式移動ロボットは、動物や人間の容
姿にできるだけ近い外観形状を有し、産業用ロボットと
比較して動物や人間の動作に近い動作を行うことがで
き、更にエンターテインメント性を重視した様々な動作
を行うことができるため、エンターテインメントロボッ
トと呼称される場合もある。

【０００４】脚式移動ロボットの中には、「目」に相当
する小型カメラや、「耳」に相当する集音マイク等を備
えているものもある。この場合、脚式移動ロボットは、
取得した画像に対して画像処理を施すことによって、画
像情報として入力した周囲の環境を認識したり、入力し
た周囲の音から「言語」を認識したりできる。

【０００５】特に、外部から取得した音声を認識して文
字に変換したり、音声を認識して応答したりする手法
は、脚式移動ロボット以外にもパーソナルコンピュータ
や、その他の電子機器に音声認識装置として適用されて
いる。

【０００６】従来の音声認識の手法では、単語の発音と
表記とが対応付けされて記憶された音声認識用の辞書
（以下、認識用辞書と記す。）を用いて音声認識してい
る。そのため、認識用辞書に登録されていない単語に関
しては認識できないという欠点があった。更に、「文」
のような連続した単語の発音を認識する場合には、認識
用辞書に登録されている単語の組み合わせでなくてはな
らない。つまり、認証用辞書に登録されていない単語が
含まれる場合、誤認識されるか、認識できない。

【０００７】「北品川」という単語を例にとると、「北
品川」が認証用辞書に登録されていなければ、「北品
川」及び「北品川」を含む発音、例えば、「北品川は、
どこですか。」という単語の連続からなる音声は、認識
できないか、「北品川」の部分が誤認識される。そこ
で、認識用辞書に登録されていない単語を認識できるよ
うにするためには、未登録の単語を新たに追加登録する
ことが必要になる。

【０００８】音声認識装置が音声認識を可能とするため
に備える認識用辞書とは、他の単語と区別するための識
別子としての「単語シンボル」と、その単語の発音情報
を表す「ＰＬＵ列」とが対応付けられたものである。Ｐ
ＬＵ（Phonone-like unit）とは、音響的及び音韻的単
位となるものである。発音された音声は、ＰＬＵの組み
合わせ（ＰＬＵ列）として必ず表現することができる。

【０００９】したがって、認識用辞書に単語を登録する
場合は、単語シンボルとこれに対応するＰＬＵ列とを追
加すればよい。ただし、単語シンボルとＰＬＵ列とを追
加できる場合というのは、「北品川」や「ｋｉｔａｓｈ
ｉｎａｇａｗａ」という表記を、例えば、キーボード等
のような入力手段を用いて直接入力できる場合に限られ
る。

【００１０】そのため、ロボット装置のようにキーボー
ドのような入力手段を備えていない場合には、音声とし
て取得した単語の発音を音声認識して未知単語のＰＬＵ
列を得る方法もある。この場合、ガーベージモデル（ga
rbage model）を適用して認識している。ガーベージモ
デルとは、図２０（ａ）及び図２０（ｂ）に示すよう
に、音声を発音の基本的な単位となる「音素」の組み合
わせとして表した、また、単語の読み方の基本的な単位
となる「かな」の組み合わせとして表した（ただし、日
本語の場合。）モデルである。

【００１１】従来の音声認識装置では、ガーベージモデ
ルを適用することによって、音声による認識結果が得
て、この認識結果に単語シンボルを当てはめて、これら
を対応させて新規単語として認識用辞書に登録してい
る。

【００１２】ただし、ここで「音素」と「ＰＬＵ」と
は、ほぼ同義の単語として使用しており、「ＰＬＵ列」
は、複数の「ＰＬＵ」が接続されることで構成された単
語の発音を表記したものである。

【００１３】

【発明が解決しようとする課題】ところが、ガーベージ
モデルを適用した従来の音声認識の手法では、同じ単語
であってもユーザ毎に発声のしかたに微妙な違いがある
ことや、弱い音素（例えば、語頭の／ｓ／等）は、必然
的に認識されにくくなることや、周囲の雑音の影響によ
る音素の変化や、音声区間検出の失敗等が原因となっ
て、認識精度が悪くなるという欠点があった。

【００１４】特に、ロボット装置に音声認識装置を適用
した場合、音声認識装置側の音声取得用のマイクとユー
ザ（音声源）との距離が離れている状況下で使用される
ことが多いため、誤認識の頻度が高くなる。

【００１５】具体的に、例えば、「きたしながわ」を認
識させる場合について示すと、認識結果は、「ｈｉｔ
ｏｔｓｕｎａｎｏｇａ」や「ｉｔａｓｎａ
ｇａ：」のように「きたしながわ」と類似している
が、同一ではないＰＬＵ列として認識されることがあ
る。このような方法で単語登録された辞書を用いて音声
認識を行うと、認識精度の低下、また誤認識による表示
誤り等の問題が発生する。つまり、新規登録語には、不
正確なＰＬＵ列が付与されていることになるため、この
単語を認識する際の精度が低下するという問題点があっ
た。

【００１６】登録した人とは別の人が同じ単語を発音し
た場合、仮に「きたしながわ」が認識用辞書に登録され
ていたとしても、ユーザ毎の発音の癖から「きたしなが
わ」という単語を含む発音が認識されないこともあっ
た。

【００１７】また、音声認識の結果を文字に変換して表
示する場合、新規登録語には、表示に関する情報が与え
られていないため、誤った文字が表示されることがあ
る。ユーザが「きたしながわ」を音声で登録した後、音
声認識装置に対して「北品川に行きたい。」と発声した
場合、音声認識装置には「きたしながわ」が正しく認識
されたとしても、表示は「ｈｉｔｏｔｓｕｎａｎｏｇａ
に行きたい」や「『ひとつなのが』に行きたい」になる
ことがある。また、音声認識装置が認識結果のＰＬＵ列
を音声合成で反復する場合も、合成された新規登録語の
ＰＬＵ列の部分だけが不自然な繋がりとして発声される
という不都合も生じる。

【００１８】更に、このようにガーベージモデルによっ
て登録された新規登録語は、品詞や意味等の単語の属性
に関する情報を登録することができない。例えば、「北
品川」を登録したとしても、この単語が名詞であるか地
名であるかを表す情報を登録することができない。その
ため、仮に、例えば、対話用の文法や認識用の言語モデ
ル等に「＜地名を表す語＞＋は＋どこ＋です＋か」のよ
うな特定表現のための文法規則が予め記録されていたと
しても、新規登録語には適用できないという問題点があ
った。登録時に単語の属性についても音声で入力するこ
とができるが、ユーザが単語の属性を知っている必要が
あった。また、単語の登録操作に加えて属性を入力する
ことはユーザにとって煩わしい。

【００１９】そこで本発明は、このような従来の実情に
鑑みて提案されたものであり、提示された文字とともに
発音される音声に対して、撮像した画像から文字を認識
し取得した音声をこの文字の発音として認識することに
よって、未登録の単語を新規単語として認識用辞書に登
録でき、更に登録された新規単語を精度よく認識できる
ロボット装置、並びに、提示された文字とともに発音さ
れる音声に対して、撮像した画像から文字を認識し取得
した音声をこの文字の発音として認識することによっ
て、未登録の単語を新規単語として認識用辞書に登録で
き、登録された新規単語を精度よく認識できる文字認識
装置、及び、提示された文字を撮像し、撮像された画像
から文字を認識し、提示とともに発音された音声を取得
して認識された文字の発音として認識することによっ
て、認識用辞書に新規単語として登録する文字認識方
法、並びに、撮像した画像から文字を認識し取得した音
声をこの文字の発音として新規に登録する処理を実行さ
せる制御プログラム及びこの制御プログラムが記録され
た記録媒体を提供することを目的とする。

【００２０】

【課題を解決するための手段】上述した目的を達成する
ために、本発明に係るロボット装置は、単語と該単語の
発音のしかたとの対応関係が音声認識用辞書として記憶
された音声認識用記憶手段と、単語と該単語の表音文字
との対応関係が単語表音テーブルとして記憶された単語
表音記憶手段と、被写体を撮像する撮像手段と、撮像手
段において撮像された画像から所定パターンの画像を抽
出する画像認識手段と、周囲の音を取得する集音手段
と、集音手段において取得された音から音声を認識する
音声認識手段と、画像認識手段において抽出された所定
パターンの画像から推定される複数通りの表音文字を単
語表音テーブルに基づいて付与し、付与された複数通り
の表音文字の各々に対して発音のしかたと発音に相当す
る音声波形とを生成する発音情報生成手段と、発音情報
生成手段において生成された各音声波形と音声認識手段
において認識された音声の音声波形とを比較し、最も近
い音声波形を抽出した文字の発音のしかたであるとして
音声認識用辞書に新規に記憶する記憶制御手段とを備え
る。

【００２１】このようなロボット装置は、画像認識手段
において抽出された所定パターンの画像から推定される
複数通りの表音文字を単語表音テーブルに基づいて付与
し、付与された複数通りの表音文字の各々に対して発音
のしかたと発音に相当する音声波形とを生成し、発音情
報生成手段において生成された各音声波形と音声認識手
段において認識された音声の音声波形とを比較し、最も
近い音声波形を抽出した所定パターンの画像に対応する
発音のしかたであるとして音声認識用辞書に新規に記憶
する。

【００２２】ここで特に、所定パターンの画像は、文字
及び／又は複数個の文字からなる文字列である。

【００２３】また、本発明に係る文字認識装置は、単語
と該単語の発音のしかたとの対応関係が音声認識用辞書
として記憶された音声認識用記憶手段と、単語と該単語
の表音文字との対応関係が単語表音テーブルとして記憶
された単語表音記憶手段と、被写体を撮像する撮像手段
と、撮像手段において撮像された画像から文所定パター
ンの画像を抽出する画像認識手段と、周囲の音を取得す
る集音手段と、集音手段において取得された音から音声
を認識する音声認識手段と、画像認識手段において抽出
された所定パターンの画像から推定される複数通りの表
音文字を単語表音テーブルに基づいて付与し、付与され
た複数通りの表音文字の各々に対して発音のしかたと発
音に相当する音声波形とを生成する発音情報生成手段
と、発音情報生成手段において生成された各音声波形と
音声認識手段において認識された音声の音声波形とを比
較し、最も近い音声波形を抽出した文字の発音のしかた
であるとして音声認識用辞書に新規に記憶する記憶制御
手段とを備える。

【００２４】このような文字認識装置は、画像認識手段
において抽出された所定パターンの画像から推定される
複数通りの表音文字を単語表音テーブルに基づいて付与
し、付与された複数通りの表音文字の各々に対して発音
のしかたと発音に相当する音声波形とを生成し、発音情
報生成手段において生成された各音声波形と音声認識手
段において認識された音声の音声波形とを比較し、最も
近い音声波形を抽出した文字の発音のしかたであるとし
て音声認識用辞書に新規に記憶する。

【００２５】ここで特に、所定パターンの画像は、文字
及び／又は複数個の文字からなる文字列である。

【００２６】また、本発明に係る文字認識方法は、被写
体を撮像する撮像工程と、撮像工程において撮像された
画像から所定パターンの画像を抽出する画像認識工程
と、周囲の音を取得する集音工程と、集音工程において
取得された音から音声を認識する音声認識工程と、画像
認識工程において抽出された文字から推定される複数通
りの表音文字を単語と該単語の表音文字との対応関係が
記憶された単語表音テーブルに基づいて付与し、付与さ
れた複数通りの表音文字の各々に対して発音のしかたと
発音に相当する音声波形とを生成する発音情報生成工程
と、発音情報生成工程において生成された各音声波形と
音声認識工程において認識された音声の音声波形とを比
較し、最も近い音声波形を抽出した文字の発音のしかた
であるとして単語と該単語の発音のしかたとの対応関係
を記憶した音声認識用辞書に新規に記憶する記憶制御工
程とを備える。

【００２７】このような文字認識方法によれば、画像認
識工程において抽出された所定パターンの画像から推定
される複数通りの表音文字が単語表音テーブルに基づい
て付与され、付与された複数通りの表音文字の各々に対
して発音のしかたと発音に相当する音声波形が生成さ
れ、発音情報生成工程において生成された各音声波形と
音声認識工程において認識された音声の音声波形とが比
較され、最も近い音声波形が抽出した文字の発音のしか
たであるとして音声認識用辞書に新規に記憶される。

【００２８】ここで特に、所定パターンの画像は、文字
及び／又は複数個の文字からなる文字列である。

【００２９】更に、本発明に係る制御プログラムは、被
写体を撮像する撮像処理と、撮像処理によって撮像され
た画像から所定パターンの画像を抽出する画像認識処理
と、周囲の音を取得する集音処理と、集音処理によって
取得された音から音声を認識する音声認識処理と、画像
認識処理によって抽出された文字から推定される複数通
りの表音文字を単語と該単語の表音文字との対応関係が
記憶された単語表音テーブルに基づいて付与し、付与さ
れた複数通りの表音文字の各々に対して発音のしかたと
発音に相当する音声波形とを生成する発音情報生成処理
と、発音情報生成処理によって生成された各音声波形と
音声認識処理において認識された音声の音声波形とを比
較し、最も近い音声波形を抽出した文字の発音のしかた
であるとして単語と該単語の発音のしかたとの対応関係
を記憶した音声認識用辞書に新規に記憶する記憶処理と
をロボット装置に実行させる。

【００３０】ここで特に、所定パターンの画像は、文字
及び／又は複数個の文字からなる文字列である。また、
上述の制御プログラムを記録媒体に記録して提供する。

【００３１】

【発明の実施の形態】本発明の一構成例として示すロボ
ット装置は、内部状態に応じて自律動作するロボット装
置である。このロボット装置は、少なくとも上肢と体幹
部と下肢とを備え、上肢及び下肢、又は下肢のみを移動
手段とする脚式移動ロボットである。脚式移動ロボット
には、４足歩行の動物の身体メカニズムやその動きを模
倣したペット型ロボットや、下肢のみを移動手段として
使用する２足歩行の動物の身体メカニズムやその動きを
模倣したロボット装置があるが、本実施の形態として示
すロボット装置は、４足歩行タイプの脚式移動ロボット
である。

【００３２】このロボット装置は、住環境その他の日常
生活上の様々な場面における人的活動を支援する実用ロ
ボットであり、内部状態（怒り、悲しみ、喜び、楽しみ
等）に応じて行動できるほか、４足歩行の動物が行う基
本的な動作を表出できるエンターテインメントロボット
である。

【００３３】このロボット装置は、特に「犬」を模した
形体であり、頭部、胴体部、上肢部、下肢部、尻尾部等
を有している。各部の連結部分及び関節に相当する部位
には、運動の自由度に応じた数のアクチュエータ及びポ
テンショメータが備えられており、制御部の制御によっ
て目標とする動作を表出できる。

【００３４】このロボット装置は、周囲の状況を画像デ
ータとして取得するための撮像部、周囲の音声を取得す
るマイク部、外部から受ける作用を検出するための各種
センサ等を備えている。撮像部としては、小型のＣＣＤ
（Charge-Coupled Device）カメラを使用する。

【００３５】本実施の形態として示すロボット装置は、
画像認識装置及び音声認識装置を備えており、ＣＣＤカ
メラにおいて撮像された画像から所定パターンの画像を
抽出し、抽出された所定パターンの画像から推定される
複数通りの読み仮名を付与し、付与された複数通りの読
み仮名のそれぞれに相当する音声波形を生成する。ここ
での画像の所定パターンとしては、文字（文字列）、物
体の形状、輪郭、柄、物体そのものの画像等があげられ
る。そして、この音声波形とマイク部において取得した
音声の音声波形とを比較し、最も近い音声波形を抽出し
た所定パターンの画像に対応する発音のしかた（読み
方）であるとして音声認識用辞書に新規に記憶すること
ができるロボット装置である。

【００３６】以下、本発明の一構成例として示すロボッ
ト装置について、図面を参照して説明する。以下の説明
では、取得した画像から認識される所定パターンが文字
（文字列）である場合について詳細に説明する。

【００３７】本実施の形態では、ロボット装置１は、図
１に示すように、「犬」を模した形状のいわゆるペット
型ロボットである。ロボット装置１は、胴体部ユニット
２の前後左右に脚部ユニット３Ａ、３Ｂ、３Ｃ、３Ｄが
連結され、胴体部ユニット２の前端部に頭部ユニット４
が連結され、後端部に尻尾部ユニット５が連結されて構
成されている。

【００３８】胴体部ユニット２には、図２に示すよう
に、ＣＰＵ（Central Processing Unit）１０、ＤＲＡ
Ｍ（Dynamic Random Access Memory）１１、フラッシュ
ＲＯＭ（Read Only Memory）１２、ＰＣ（Personal Com
puter）カードインターフェイス回路１３及び信号処理
回路１４が内部バス１５を介して相互に接続されること
により形成されたコントロール部１６と、このロボット
装置１の動力源としてのバッテリ１７とが収納されてい
る。また、胴体部ユニット２には、ロボット装置１の向
きや動きの加速度を検出するための角速度センサ１８及
び加速度センサ１９が収納されている。

【００３９】頭部ユニット４には、外部の状況を撮像す
るためのＣＣＤ（Charge Coupled Device）カメラ２０
と、使用者からの「撫でる」や「叩く」といった物理的
な働きかけにより受けた圧力を検出するためのタッチセ
ンサ２１と、前方に位置する物体までの距離を測定する
ための距離センサ２２と、外部音を集音するためのマイ
ク２３と、鳴き声等の音声を出力するためのスピーカ２
４と、ロボット装置１の「目」に相当するＬＥＤ（Ligh
t Emitting Diode）（図示せず）等が所定位置にそれぞ
れ配置されている。ＣＣＤカメラ２０は、頭部ユニット
４の向く方向にある被写体を所定の画角で撮像すること
ができる。

【００４０】各脚部ユニット３Ａ〜３Ｄの関節部分、各
脚部ユニット３Ａ〜３Ｄと胴体部ユニット２との連結部
分、頭部ユニット４と胴体部ユニット２との連結部分、
尻尾部ユニット５と尻尾５Ａとの連結部分には、自由度
数分のアクチュエータ２５_１〜２５_ｎ及びポテンショメ
ータ２６_１〜２６_ｎがそれぞれ配設されている。アクチ
ュエータ２５_１〜２５_ｎは、例えば、サーボモータを構
成として有している。サーボモータの駆動により、脚部
ユニット３Ａ〜３Ｄが制御されて目標の姿勢、或いは動
作に遷移する。

【００４１】これら角速度センサ１８、加速度センサ１
９、タッチセンサ２１、距離センサ２２、マイク２３、
スピーカ２４及び各ポテンショメータ２６_１〜２６_ｎ等
の各種センサ並びにＬＥＤ及び各アクチュエータ２５_１
〜２５_ｎは、それぞれ対応するハブ２７_１〜２７_ｎを介
してコントロール部１６の信号処理回路１４と接続さ
れ、ＣＣＤカメラ２０及びバッテリ１７は、それぞれ信
号処理回路１４と直接接続されている。

【００４２】信号処理回路１４は、上述の各センサから
供給されるセンサデータや画像データ及び音声データを
順次取り込み、これらをそれぞれ内部バス１５を介して
ＤＲＡＭ１１内の所定位置に順次格納する。また信号処
理回路１４は、これとともにバッテリ１７から供給され
るバッテリ残量を表すバッテリ残量データを順次取り込
み、これをＤＲＡＭ１１内の所定位置に格納する。

【００４３】このようにしてＤＲＡＭ１１に格納された
各センサデータ、画像データ、音声データ及びバッテリ
残量データは、ＣＰＵ１０が当該ロボット装置１の動作
制御を行う際に使用される。

【００４４】ＣＰＵ１０は、ロボット装置１の電源が投
入された初期時において、フラッシュＲＯＭ１２に格納
された制御プログラムを読み出して、ＤＲＡＭ１１に格
納する。又は、ＣＰＵ１０は、図１に図示しない胴体部
ユニット２のＰＣカードスロットに装着された半導体メ
モリ装置、例えば、いわゆるメモリカード２８に格納さ
れた制御プログラムをＰＣカードインターフェイス回路
１３を介して読み出してＤＲＡＭ１１に格納する。

【００４５】ＣＰＵ１０は、上述のように信号処理回路
１４よりＤＲＡＭ１１に順次格納される各センサデー
タ、画像データ、音声データ、及びバッテリ残量データ
に基づいて自己及び周囲の状況や、使用者からの指示及
び働きかけの有無を判断している。

【００４６】更に、ＣＰＵ１０は、この判断結果とＤＲ
ＡＭ１１に格納した制御プログラムとに基づく行動を決
定する。ＣＰＵ１０は、当該決定結果に基づいてアクチ
ュエータ２５_１〜２５_ｎの中から必要とするアクチュエ
ータを駆動することによって、例えば、頭部ユニット４
を上下左右に動かしたり、尻尾部ユニット５の尻尾を動
かしたり、各脚部ユニット３Ａ乃至３Ｄを駆動して歩行
させたりする。また、ＣＰＵ１０は、必要に応じて音声
データを生成し、信号処理回路１４を介してスピーカ２
４に供給する。また、ＣＰＵ１０は、上述のＬＥＤの点
灯・消灯を指示する信号を生成し、ＬＥＤを点灯したり
消灯したりする。

【００４７】また、ＣＰＵ１０は、上述のようにロボッ
トを自律的に制御するほかに、後述する対話管理部１１
０等からの要求に応じてロボットを動作させる。

【００４８】これらの基本的な構成によって、ロボット
装置１は、自己及び周囲の状況や、使用者からの指示及
び働きかけに応じて自律的に行動する。

【００４９】更に、ロボット装置１は、認識した発音と
認識した文字との対応を新規登録語として音声認識用辞
書に登録するための構成として、胴体部ユニット２のコ
ントロール部１６に、画像音声認識部１００を備えてい
る。画像音声認識部１００は、図３に示すように、対話
管理部１１０と、音声認識部１２０と、出力生成部１３
０と、画像処理文字認識部１４０と、発音情報生成部１
５０とを有している。音声認識用辞書とは、図４に示す
ように、他の単語と区別するための識別子としての「単
語シンボル」と、この単語に対応する発音情報を表す
「ＰＬＵ列」とを記録したテーブルである。この辞書を
参照することによって、単語の発音のしかた（読み
方）、又は、発音に対応する単語の表記が抽出できる。

【００５０】具体的に、対話管理部１１０は、マイク２
３から入力したユーザの発話、対話履歴等から入力した
音声に対する応答を生成する。対話管理部１１０は、対
話規則テーブル１１１に記憶された種々の対話規則に基
づいて、入力した音声に対する応答パターンを生成す
る。

【００５１】音声認識部１２０は、ユーザの発話を対話
管理部１１０で処理できる形式、例えば、テキスト形
式、構文解析、対話用フレーム等に変換する。音声認識
部１２０は、具体的には、音声認識用辞書１２１、音響
モデル１２２、言語モデル１２３、音響分析部１２４等
からなる。音響分析部１２４では、認識に必要な特徴量
の抽出が微少時間間隔で行われる。例えば、得られた音
声信号のエネルギ、零交差数、ピッチ、周波数特性、及
びこれらの変化量等が抽出される。周波数分析には、線
形予測分析（ＬＰＣ）、高速フーリエ変換（ＦＦＴ）、
バンドパスフィルタ（ＢＰＦ）等が用いられる。

【００５２】音声認識部１２０は、音響モデル１２２と
言語モデル１２３とを用いて、音響分析部１２４で生成
された特徴量系列に対応する単語系列を決定する。認識
手法としては、例えば、隠れマルコフモデル（Hidden M
arkov Model：以下、ＨＭＭと記す。）等が用いられ
る。

【００５３】ＨＭＭとは、状態遷移確率と確率密度関数
とをもつ状態遷移モデルであり、状態を遷移しながら特
徴量系列を出力する確率値を累積して尤度を決定する。
その尤度の値を「スコア」として音声認識用辞書に記憶
されている単語の発音のしかたと後述する画像処理文字
認識部において認識された文字に対して付与される発音
のしかたとのマッチングに使用する手法である。ＨＭＭ
の遷移確率及び確率密度関数等は、学習用データに基づ
く学習過程を通じて、予め学習して用意される値であ
る。

【００５４】音響モデルは、音素（ＰＬＵ）、音節、単
語、フレーズ、文等、それぞれの単位毎に用意すること
ができる。例えば、日本語の仮名『あ』・『い』・『う』
・『え』・『お』・『か』・『き』…『ん』を単位とする音
響モデルを用いた場合、これらを組み合わせて接続する
ことによって、『はい』、『いいえ』、『おはよう』、
『いまなんじですか』等の言葉が構成できる。音素と
は、単語の発音情報を表すものであり、音響的及び音韻
的単位である。本明細書では、音素とＰＬＵ（Phonone-
like unit）とを区別しないで使用している。発音され
た音声は、音素（ＰＬＵ）の組み合わせ（ＰＬＵ列）と
して必ず表現することができる。

【００５５】ＨＭＭによれば、このように構成された言
葉とマイク２３において取得した音声の特徴量系列との
類似度をスコアとして計算することができる。音響モデ
ルから「言葉」を構成するための情報として、言語モデ
ル１２３と音声認識用辞書１２１とが利用される。音声
認識用辞書１２１とは、認識対象となる各単語を構成す
るための音響モデル（ここでは、仮名の一文字『あ』、
『い』、・・・等を示す。）の接続のしかたを対応テー
ブルとして示した辞書であり、言語モデル１２３とは、
単語と単語との接続のしかたの規則を示したものであ
る。

【００５６】以下に示す例では、「単語」とは、認識処
理の上で発音する際に、１つの纏まりとして扱う方が都
合がよい単位のことを示しており、言語学的な単語とは
必ずしも一致しない。例えば、以下の例では「北品川」
を一単語として扱う場合があるが、これを「北」「品
川」という２単語として扱っても構わない。更に、「北
品川駅」や「北品川駅はどこですか」を発音する上での
一単語として扱うこともできる。

【００５７】また、本明細書では、「読み仮名」とは、
漢字、英単語の読み方を表記したひらがな又はカタカナ
の意として用い、「発音のしかた」とは、読み仮名の実
際の発音をローマ字、又はローマ字と記号とを使用して
表記したものであり、言語学的における「音素記号」に
相当する。

【００５８】例えば、『〜時から、〜時まで』という文
を扱う場合について考える。この場合、まず、『０（ぜ
ろ）』「１（いち）』・・・『２４（にじゅうよん）』
という単語と、『時（じ）』・『から』・『まで』とい
う言葉のそれぞれに関して、音響モデル１２２を参照す
ることによって、単語の接続のしかたが決定される。

【００５９】次に、『（数字を表す単語）』、『時』、
『から』、『（数字を表す単語）』、『時』、『まで』
という各単語を言語モデル１２３を参照することによっ
て、文を構成するための各単語の接続のしかたが決定さ
れる。

【００６０】この音声認識用辞書１２１と言語モデル１
２３とを用いてＨＭＭを適用することによって、『１時
から２時まで』や『２時から５時まで』等の文と入力さ
れる特徴量系列との類似度がスコアとして計算できる。
その中で最も高いスコアを有する単語系列からなる文を
音声認識結果として出力する。

【００６１】音声認識処理におけるスコアの計算は、音
響モデル１２２によって与えられる音響的なスコアと、
言語モデル１２３によって与えられる言語的なスコアと
を総合評価して行われる場合もある。

【００６２】言語的なスコアとは、例えば、連続するｎ
個の単語間の遷移確率、又は連鎖確率に基づいて与えら
れるスコアである。遷移確率は、予め、大量のテキスト
から統計的に求められた値であり、ここでは、この遷移
確率を「ｎグラム」と呼称する。

【００６３】なお、言語モデルは、文法やｎグラム中に
単語を直接記述する以外にも、単語のクラス（単語をあ
る基準や属性にしたがって分類したもの）を記述する場
合もある。

【００６４】例えば、地名を表す単語を集め、それに＜
地名＞というクラス名称を与えた場合に「＜地名＞＋は
＋どこ＋です＋か」という文法を記述したり、ｎグラム
中に「＜地名＞＋は＋どこ」の遷移確率を用意しておく
こともできる。この場合、ｎ＝３であり、正確には、遷
移確率は、Ｐ（＜地名＞｜は、どこ｜）である。

【００６５】出力生成部１３０は、対話管理部１１０が
生成した応答パターンを実際の動作に変換する。例え
ば、対話管理部１１０が「首を左右に振る＋『いいえ』
と発声する」という応答パターンを生成した場合、出力
生成部１３０は、これを受けて「首を左右に振る」に対
応する動作パターンを生成しＣＰＵ１０に送るととも
に、「いいえ」に対応する音声波形を生成しスピーカ２
４から出力する。

【００６６】画像処理文字認識部１４０は、ＣＣＤカメ
ラ２０で取り込んた画像に含まれる文字列を文字パター
ンデータベース１４１に基づいて識別する。文字パター
ンデータベース１４１には、ひらがな、カタカナ、漢
字、アルファベット、記号類、必要に応じて各国語の文
字等の画像パターンが格納されている。画像処理文字識
別部１４０は、ＣＣＤカメラ２０からの入力画像と文字
パターンデータベース１４１に格納されている画像パタ
ーンとの間でマッチングを行い、入力画像に含まれてい
る文字列を認識する。

【００６７】発音情報生成部１５０は、画像処理文字認
識部１４０で認識された文字列に対応する発音情報、つ
まり文字列の読み仮名を生成し、更にその発音のしかた
（読み方）を生成する。例えば、入力画像から「北品
川」という文字列が認識された場合、「きたしながわ」
という読み仮名を生成し、ＰＬＵ列で「ｋｉｔａｓｈｉ
ｎａｇａｗａ」という発音のしかた（読み方）を生成す
る。

【００６８】単語読み属性テーブル１５１は、図４に示
すように、単語（文字列）と読み仮名と属性の組を記述
したテーブルである。属性とは、「地名」、「名前」、
「動物」のように単語のもつ意味を示している。

【００６９】画像処理文字認識部１４０で認識された文
字列がこのテーブルに含まれている場合は、このテーブ
ルから読み仮名を抽出することで、読み仮名からその文
字列の発音のしかた（読み方）を確定できる。単語読み
属性テーブル１５１は、音声認識用辞書１２１とは独立
に用意する。

【００７０】認識用辞書の語彙数には、認識速度や精度
や処理上の都合で上限がある（例えば６万５５３６語）
が、単語読み属性テーブル１５１にはそれらの制限とは
関係なく単語を記述することができる。この単語読み属
性テーブル１５１は、他の言語資源から流用することも
可能である。例えば、仮名漢字変換プログラムや形態素
解析プログラム等で使用されている辞書等を流用するこ
ともできる。

【００７１】文字読みテーブル１５２は、図６に示すよ
うに、文字と読み仮名との対応が記述されたテーブルで
ある。記号やアルファベットや単漢字毎に読み仮名を記
述しておく。使用可能な文字全てについて読み仮名を記
述しておけば、任意の文字列に対して読み仮名から発音
のしかた（読み方）を付与することができる。

【００７２】読み付与テーブル１５３は、２つのテーブ
ルだけでは読み仮名が付与できない場合に読み仮名を付
与するための規則や、読み仮名が特定できない場合に、
これを特定するための規則が記述してある。例えば、音
読み及び訓読みの統一、長音化に関する規則、連濁の規
則、繰り返し記号に関する規則、英単語に読みを付与す
る規則がある。

【００７３】具体的には、長音化に関する規則とは、
「・・・おう」「・・・えい」等を「・・・おー」「・
・・えー」等に変換する規則である。この規則によっ
て、例えば、「とうきょう」は、「とーきょー」に変換
される。連濁の規則とは、例えば、「品川口」の読みを
「しながわ（品川）」と「くち（口）」との結合から生
成する場合に、「くち」を濁らせて「ぐち」にする規則
である。また、繰り返し記号に関する規則とは、「々・
ヽ・ヾ・ゝ・ゞ」等の繰り返し記号に対応して読み仮名
を付ける規則である。更に、英単語に読み仮名を付与す
る規則とは、英単語の語末に“ｅ”がある場合は、
“ｅ”自体は、発音しないかわりに前の母音を母音読み
する等の規則である。例えば、“take”に「テーク」と
いう読み仮名を付与する際に、“ａ”に対して「エー」
という読み仮名を付与し、“ke”に対して、単に「ク」
という読み仮名を付与する規則である。

【００７４】次に、認識用辞書に新規単語を登録する際
の処理を、図７を用いて具体的に説明する。

【００７５】まず、ステップＳ１において、単語登録の
ための単語登録モードに移行する。単語登録モードへの
移行は、例えば、ロボット装置１は、ユーザが発する
「登録モード」や「言葉を覚えて」等の言葉をトリガと
して単語登録モードに移行する。このほかに、操作ボタ
ンを設け、この操作ボタンが押されたときに単語登録モ
ードへ移行するようにしてもよい。

【００７６】ステップＳ２において、ロボット装置１
は、ユーザに対して、登録したい単語の表記をロボット
装置１のＣＣＤカメラ２０の前に提示する旨の指示及び
／又は提示に加えてユーザが登録したい単語の読み方を
発声する旨の指示を促す。ユーザに対する指示は、ロボ
ット装置１が音声によって指示してもよいし、また、図
示しない表示部に指示内容を表示する場合でもよい。こ
こでは、「北品川」という単語を例として説明する。ユ
ーザによって提示される文字は、漢字でも仮名でもロー
マ字表記でもＰＬＵ列でも構わない。具体的には、ロボ
ット装置１は、「北品川」、「きたしながわ」、「キタ
シナガワ」、「ｋｉｔａｓｈｉｎａｇａｗａ」等の何れ
の表記も認識できる。

【００７７】ステップＳ３において、ロボット装置１
は、文字提示のみであるか、文字提示とともに発話があ
ったかを判断する。文字提示だけの場合は、ステップＳ
４へ進み、文字提示とともに発話があった場合は、後述
するステップＳ８へと進む。それ以外、すなわち、発声
のみの場合は、従来と同様にガーベージモデルによる認
識処理を行う。

【００７８】はじめに、文字提示のみの場合について説
明する。文字提示のみの場合、ステップＳ４において、
ロボット装置１における画像処理文字認識部１４０は、
ＣＣＤカメラ２０において撮像された画像にどのような
文字列が含まれているかを文字パターンデータベース１
４１に基づいて、文字認識（ＯＣＲ：Optical Characto
r Recognition）する。ここで、画像処理文字認識部１
４０は、文字認識結果の候補が１つに絞り込めない場
合、複数の候補を残す。例えば、「北品川」という文字
に対して「比晶川」という認識結果が得られた場合は、
「比晶川」も残す。

【００７９】続いて、ステップＳ５において、ロボット
装置１における発音情報生成部１５０は、ステップＳ４
での認識結果として得られた文字列に対して、文字列の
発音のしかた（読み方）を生成する。発音を生成する際
の詳細は、後述する。発音生成処理によって、文字列に
対して発音のしかた（読み方）が付与される。認識され
た文字列が複数ある場合及び／又は１つの文字列に対し
て複数の発音のしかたが有り得る場合には、全ての発音
パターンが適用される。

【００８０】ステップＳ６において、ロボット装置１
は、上述のように生成された文字列に対する発音のしか
た（読み方）が正しいか否か、又は、複数の読み方のう
ちどれを採用すべきかをユーザに確認する。発音のしか
た（読み方）が一通りのみの場合は、「読み方は、○○
で正しいですか。」のように質問する。ユーザが「正し
い」や「はい」等の応答を返した場合は、ステップＳ７
に進む。

【００８１】また、発音のしかた（読み方）が複数通り
ある場合は、それぞれについて「読み方は、○○です
か。」のように質問する。ユーザが「正しい」や「は
い」等の応答を返した読み方を採用してステップＳ７に
進む。

【００８２】ユーザから「いいえ」等の応答を受けた場
合、すなわち、正しい読み方が存在しない場合、ステッ
プＳ２若しくはステップＳ４の処理まで戻る。

【００８３】以上の処理によって、新規単語の読みを確
定した後、ステップＳ７に進み、取得した文字列とこの
文字列に対する発音のしかた（読み方）とを対応付けて
新規単語として認識用辞書に登録する。新規単語を追加
する際、図４に示す単語シンボル欄には、提示された文
字の認識結果を使用する。この文字列に対応するＰＬＵ
列欄には、ステップＳ６において確定した発音のしかた
（読み方）が記述される。新規単語を登録した後、登録
モードを終了する。その後、更新された認識用辞書を音
声認識に反映させるための処理、例えば、音声認識プロ
グラムの再起動等を行う。

【００８４】一方、ステップＳ３において、ユーザが文
字を提示するとともに表記した文字を発声した場合につ
いて説明する。文字提示ともに発話があった場合は、両
者から得られる情報を協調的に使用することによってＰ
ＬＵ列等の発音情報を精度よく生成することができる。

【００８５】具体的には、文字認識の結果から推定され
る複数の文字と、これら各文字から推定される複数の読
み仮名と、各読み仮名に対応する発音のしかた（読み
方）とを生成する。このようにして得られた複数の発音
のしかた（読み方）とマイク２３において取得したユー
ザからの発声とをマッチングすることによって、上述の
ように生成された複数候補の中から１つの読み仮名及び
発音のしかた（読み方）を特定する。

【００８６】文字提示とともに発話があった場合、ステ
ップＳ８において、ロボット装置１における画像処理文
字認識部１４０は、ＣＣＤカメラ２０において撮像され
た画像から文字認識する。ここで、画像処理文字認識部
１４０は、文字認識結果の候補が１つに絞り込めない場
合、複数の候補を残す。

【００８７】続いて、ステップＳ９において、ロボット
装置１における発音情報生成部１５０は、ステップＳ８
での認識結果として得られた文字列に対して、文字列の
読み仮名を生成する。発音生成処理によって、文字列に
対して発音のしかた（読み方）が付与される。認識され
た文字列が複数ある場合及び／又は１つの文字列に対し
て複数の読み方が可能な場合には、全ての発音パターン
が適用される。

【００８８】次に、ステップＳ１０において、文字列と
発音のしかた（読み方）とから、一時的に仮の認識用辞
書を生成する。この辞書を以下、新規単語用認識用辞書
と記す。例えば、ＣＣＤカメラ２０によって撮像された
「北品川」という文字が画像処理文字認識部１４０にお
いて、「北品川」と「比晶川」の２通りに認識されたと
する。音声情報生成部１５０は、「北品川」と「比晶
川」に読み仮名を付与する。「北品川」には「きたしな
がわ」が付与され、「比晶川」には「ひしょうがわ」と
「くらあきらがわ」の２通りが付与され、更に両者の発
音のしかた（読み方）、すなわち、ＰＬＵ列が生成され
る。この場合の新規単語用認識用辞書を図８に示す。

【００８９】ステップＳ１１において、新規単語用認識
用辞書を用いて、ユーザからの発声に対して音声認識を
行う。ここでの音声認識は、連続音声認識ではなく、単
語音声認識である。新規単語用認識用辞書が生成される
よりも前にユーザが発話している場合は、その発話を録
音しておき、その録音音声に対して音声認識を行う。ス
テップＳ１１における音声認識とは、新規単語用認識用
辞書に登録されている単語の中からユーザの発話と音響
的に最も近い単語を探し出すことである。ただし、ステ
ップＳ１１の処理では、単語シンボルが同一であって
も、ＰＬＵ列が異なる場合は別の単語とみなす。

【００９０】図８では、ここに登録されている３単語
（２つの「比晶川」は別単語とみなす）の中から、ユー
ザの発話である「きたしながわ」に最も近い単語を探し
出すことである。結果として、単語シンボルとＰＬＵ列
との組を１つに特定することができる。

【００９１】新規単語用認識用辞書の中から単語シンボ
ルとＰＬＵ列との組が特定されたら、ステップＳ７にお
いて、これを正規の音声認識用辞書１２１に登録する。
新規単語を登録した後、登録モードを終了する。その
後、更新された認識用辞書を音声認識に反映させるため
の処理、例えば、音声認識プログラムの再起動等を行
う。

【００９２】以上示した処理によって、ロボット装置１
は、音声認識用辞書１２１に記憶されていない単語を新
規単語として登録できる。

【００９３】上述したステップＳ５とステップＳ９での
文字列の発音のしかた（読み方）の生成に関して、図９
を用いて詳細に説明する。

【００９４】まず、ステップＳ２１において、画像処理
文字認識部１４０によって認識された文字列が仮名文字
だけで構成されているか否かを調べる。ただし、ここで
の仮名文字とは、ひらがな・カタカナのほかに長音記号
「ー」や繰り返し記号「々・…」等も含む。文字列が仮
名文字だけで構成されている場合は、ステップＳ２２に
おいて、認識された仮名文字をその文字列の読み方とす
る。このとき、長音化等の発音を若干修正する場合もあ
る。

【００９５】一方、ステップＳ２１において、画像処理
文字認識部１４０によって認識された文字列が仮名文字
以外の文字を含んでいる場合、ステップＳ２３におい
て、その文字列が単語読み属性テーブル１５１に含まれ
ているか否かを判別する。

【００９６】文字列が単語読み属性テーブル１５１に含
まれている場合は、そのテーブルから読み仮名を取得
し、更に発音のしかた（読み方）を生成する（ステップ
Ｓ２４）。また、単語読み属性テーブル１５１に単語の
属性が記述されている場合は、属性も同時に取得する。
この属性の利用方法については、後述する。

【００９７】文字列が単語読み属性テーブル１５１に含
まれていない場合、ステップＳ２５において、最長一致
法・分割最小法、文字読みテーブル１５２に基づく読み
付与、及び読み付与規則に基づく読み付与を組み合わせ
て読み仮名を取得する。

【００９８】最長一致法・分割数最小法とは、単語読み
属性テーブル１５１に含まれる単語を複数組み合わせる
ことで入力文字列と同じものが構成できないか試みる方
法である。例えば、入力文字列が「北品川駅前」である
場合、これが単語読み属性テーブル１５１に含まれてい
なくても「北品川」と「駅前」とが含まれていれば、こ
れらの組み合わせから「北品川駅前」が構成できること
から、結果として「きたしながわえきまえ」という読み
方が取得できる。構成方法が複数通りある場合は、より
長い単語が含まれる方を優先する（最長一致法）か、よ
り少ない単語で構成できる方を優先する（分割数最小
法）かして構成方法を選択する。

【００９９】また、文字読みテーブル１５２に基づく読
み付与とは、文字列を文字毎に分割し、分割した文字毎
に文字読みテーブル１５２から読み仮名を取得する方法
である。漢字の場合、１つの漢字には複数の読み仮名が
付与できるため、文字列全体としての読み仮名は、各漢
字の読み仮名の組み合わせになる。そのため、例えば、
「音読みと訓読とは混在しにくい」等の規則を用いて組
み合わせの数を減らす方法である。

【０１００】続いて、ステップＳ２６において、上述の
各方法で取得したそれぞれの読み仮名の候補に対してス
コア又は信頼度を計算し、高いものを選択する。これに
より、入力された文字列に読み仮名を付与できる。得ら
れた読み仮名から発音のしかた（読み方）を生成する。

【０１０１】ステップＳ２２、ステップＳ２４、ステッ
プＳ２６のそれぞれの工程を経たのち、最終的に、ステ
ップＳ２７において、読み仮名に対する発音のしかた
（読み方）を長音化や連濁化等の規則に基づいて修正す
る。

【０１０２】ここで、単語読み属性テーブル１５１につ
いて詳細に説明する。音声認識用辞書１２１に単語を新
規登録しただけでは、言語モデル１２３に記録された単
語間の接続規則を適用することはできない。例えば、
「北品川」を音声認識用辞書１２１に追加登録したとし
ても、それだけでは「北品川」に関する文法や「北品
川」と他の単語との連鎖確率等は、生成されない。した
がって、新規登録語に言語モデルの接続規則を反映させ
る方法は、理想的には、文法を追加したり、テキストデ
ータから連鎖確率を計算し直したりして、言語モデルを
構成し直すことであるが、以下に示す簡易的な方法によ
って新規登録後に言語モデルを適用することができる。

【０１０３】まず、言語モデルに含まれていない単語に
＜未知語＞というクラス名を付ける。言語モデルには＜
未知語＞と他の単語との連鎖確率を記述しておく。新規
登録語は、＜未知語＞とみなし、この新規登録語と他の
単語との連鎖確率は、＜未知語＞と他の単語との連鎖確
率から計算する。

【０１０４】クラスとは、単語をある基準や属性にした
がって分類したものである。例えば、意味にしたがって
分類し、それぞれを＜地名＞、＜姓＞、＜国名＞と命名
したり、品詞にしたがって分類し、それぞれを＜名詞
＞、＜動詞＞、＜形容詞＞と命名したりする。

【０１０５】言語モデルには、単語間の連鎖確率を記述
するかわりにクラス間の連鎖確率やクラスと単語との連
鎖確率を記述する。単語間の連鎖確率を求めるときは、
単語がどのクラスに属すかを調べ、次に対応するクラス
についての連鎖確率を求め、そこから単語間の連鎖確率
を計算する。

【０１０６】新規登録語についても、どのクラスに属す
る単語であるかを登録時に推定することでクラスモデル
が適用できる。

【０１０７】上述のようにすると未知語用モデルでは、
新規登録語には、全て同一の値の連鎖確率が付される。
それに対してクラスモデルでは、どのクラスに属するか
によって異なる値になる。そのため一般的には、新規登
録語についての言語的スコアは、クラスモデルを用いた
方がより適切なスコアとなり、結果的に適切に認識され
る。

【０１０８】したがって、音声認識による単語登録にお
いて、従来、困難であったクラス名称が、容易に入力で
きる。すなわち、文字認識で得られた文字列（単語）が
単語読み属性テーブル１５１に含まれている場合、この
テーブルの属性欄からクラス名称を取得できる。なお、
図５に示す例では、属性欄に属性を１つしか記述してな
いが、これを「＜地名＞、＜固有名詞＞、＜駅名＞」の
ように複数記述することもできる。この場合、例えば、
＜地名＞というクラスが存在する場合は、＜地名＞、＜
固有名詞＞、＜駅名＞の中から、クラス名称と一致する
分類名、すなわち＜地名＞を採用する。

【０１０９】文字認識では、一文字ずつ認識するより
も、文字の連鎖に関する情報を含めて認識する方が精度
が向上する場合がある。そこで、認識用辞書の「単語シ
ンボル」欄や、単語読み属性テーブル１５１の「単語」
欄等を文字の連鎖に関する情報として使用することによ
って、文字認識の精度を更に向上できる。

【０１１０】以上の説明では、取得画像における所定パ
ターンの認識として文字認識の場合に関して説明した
が、上述したように文字（文字列）のほか、物体の形
状、輪郭、柄、物体そのものの画像を認識し対応する文
字（文字列）を抽出し、抽出された文字から推定される
複数通りの読み仮名を付与し、付与された複数通りの読
み仮名のそれぞれに相当する音声波形を生成することも
できる。この場合は、図１に示した基本的な構成に加え
て、必要な構成が必要に応じて追加される。

【０１１１】このように、所定パターンとして文字列以
外にも種々のケースに対応して発音のしかたをマスター
できるようにすることにより、ロボット装置が外部から
情報を得て学習していく様子を表現でき、エンターテイ
ンメント性が向上できる。

【０１１２】ところで、本実施の形態として示すロボッ
ト装置１は、内部状態に応じて自律的に行動できるロボ
ット装置である。ロボット装置１における制御プログラ
ムのソフトウェア構成は、図１０に示すようになる。こ
の制御プログラムは、上述したように、予めフラッシュ
ＲＯＭ１２に格納されており、ロボット装置１の電源投
入初期時において読み出される。

【０１１３】図１０において、デバイス・ドライバ・レ
イヤ３０は、制御プログラムの最下位層に位置し、複数
のデバイス・ドライバからなるデバイス・ドライバ・セ
ット３１から構成されている。この場合、各デバイス・
ドライバは、ＣＣＤカメラ２０（図２）やタイマ等の通
常のコンピュータで用いられるハードウェアに直接アク
セスすることを許されたオブジェクトであり、対応する
ハードウェアからの割り込みを受けて処理を行う。

【０１１４】また、ロボティック・サーバ・オブジェク
ト３２は、デバイス・ドライバ・レイヤ３０の最下位層
に位置し、例えば上述の各種センサやアクチュエータ２
５_１〜２５_ｎ等のハードウェアにアクセスするためのイ
ンターフェイスを提供するソフトウェア群でなるバーチ
ャル・ロボット３３と、電源の切換え等を管理するソフ
トウェア群でなるパワーマネージャ３４と、他の種々の
デバイス・ドライバを管理するソフトウェア群でなるデ
バイス・ドライバ・マネージャ３５と、ロボット装置１
の機構を管理するソフトウェア群でなるデザインド・ロ
ボット３６とから構成されている。

【０１１５】マネージャ・オブジェクト３７は、オブジ
ェクト・マネージャ３８及びサービス・マネージャ３９
から構成されている。オブジェクト・マネージャ３８
は、ロボティック・サーバ・オブジェクト３２、ミドル
・ウェア・レイヤ４０、及びアプリケーション・レイヤ
４１に含まれる各ソフトウェア群の起動や終了を管理す
るソフトウェア群であり、サービス・マネージャ３９
は、メモリカード２８（図２）に格納されたコネクショ
ンファイルに記述されている各オブジェクト間の接続情
報に基づいて各オブジェクトの接続を管理するソフトウ
ェア群である。

【０１１６】ミドル・ウェア・レイヤ４０は、ロボティ
ック・サーバ・オブジェクト３２の上位層に位置し、画
像処理や音声処理等のこのロボット装置１の基本的な機
能を提供するソフトウェア群から構成されている。ま
た、アプリケーション・レイヤ４１は、ミドル・ウェア
・レイヤ４０の上位層に位置し、当該ミドル・ウェア・
レイヤ４０を構成する各ソフトウェア群によって処理さ
れた処理結果に基づいてロボット装置１の行動を決定す
るためのソフトウェア群から構成されている。

【０１１７】なお、ミドル・ウェア・レイヤ４０及びア
プリケーション・レイヤ４１の具体なソフトウェア構成
をそれぞれ図１１に示す。

【０１１８】ミドル・ウェア・レイヤ４０は、図１１に
示すように、騒音検出用、温度検出用、明るさ検出用、
音階認識用、距離検出用、姿勢検出用、タッチセンサ
用、動き検出用及び色認識用の各信号処理モジュール５
０〜５８並びに入力セマンティクスコンバータモジュー
ル５９等を有する認識系６０と、出力セマンティクスコ
ンバータモジュール６８並びに姿勢管理用、トラッキン
グ用、モーション再生用、歩行用、転倒復帰用、ＬＥＤ
点灯用及び音再生用の各信号処理モジュール６１〜６７
等を有する出力系６９とから構成されている。

【０１１９】認識系６０の各信号処理モジュール５０〜
５８は、ロボティック・サーバ・オブジェクト３２のバ
ーチャル・ロボット３３によりＤＲＡＭ１１（図２）か
ら読み出される各センサデータや画像データ及び音声デ
ータのうちの対応するデータを取り込み、当該データに
基づいて所定の処理を施して、処理結果を入力セマンテ
ィクスコンバータモジュール５９に与える。ここで、例
えば、バーチャル・ロボット３３は、所定の通信規約に
よって、信号の授受或いは変換をする部分として構成さ
れている。

【０１２０】入力セマンティクスコンバータモジュール
５９は、これら各信号処理モジュール５０〜５８から与
えられる処理結果に基づいて、「うるさい」、「暑
い」、「明るい」、「ボールを検出した」、「転倒を検
出した」、「撫でられた」、「叩かれた」、「ドミソの
音階が聞こえた」、「動く物体を検出した」又は「障害
物を検出した」等の自己及び周囲の状況や、使用者から
の指令及び働きかけを認識し、認識結果をアプリケーシ
ョン・レイヤ４１に出力する。

【０１２１】アプリケーション・レイヤ４１は、図１２
に示すように、行動モデルライブラリ７０、行動切換え
モジュール７１、学習モジュール７２、感情モデル７３
及び本能モデル７４の５つのモジュールから構成されて
いる。

【０１２２】行動モデルライブラリ７０には、図１３に
示すように、「バッテリ残量が少なくなった場合」、
「転倒復帰する」、「障害物を回避する場合」、「感情
を表現する場合」、「ボールを検出した場合」等の予め
選択されたいくつかの条件項目にそれぞれ対応させて、
それぞれ独立した行動モデルが設けられている。

【０１２３】そして、これら行動モデルは、それぞれ入
力セマンティクスコンバータモジュール５９から認識結
果が与えられたときや、最後の認識結果が与えられてか
ら一定時間が経過したとき等に、必要に応じて後述のよ
うに感情モデル７３に保持されている対応する情動のパ
ラメータ値や、本能モデル７４に保持されている対応す
る欲求のパラメータ値を参照しながら続く行動をそれぞ
れ決定し、決定結果を行動切換えモジュール７１に出力
する。

【０１２４】なお、この実施の形態の場合、各行動モデ
ルは、次の行動を決定する手法として、図１４に示すよ
うな１つのノード（状態）ＮＯＤＥ_０〜ＮＯＤＥ_ｎから
他のどのノードＮＯＤＥ_０〜ＮＯＤＥ_ｎに遷移するかを
各ノードＮＯＤＥ_０〜ＮＯＤＥ_ｎに間を接続するアーク
ＡＲＣ_１〜ＡＲＣ_ｎ１に対してそれぞれ設定された遷移
確率Ｐ_１〜Ｐ_ｎに基づいて確率的に決定する有限確率オ
ートマトンと呼ばれるアルゴリズムを用いる。

【０１２５】具体的に、各行動モデルは、それぞれ自己
の行動モデルを形成するノードＮＯＤＥ_０〜ＮＯＤＥ_ｎ
にそれぞれ対応させて、これらノードＮＯＤＥ_０〜ＮＯ
ＤＥ _ｎ毎に図１５に示すような状態遷移表８０を有して
いる。

【０１２６】この状態遷移表８０では、そのノードＮＯ
ＤＥ_０〜ＮＯＤＥ_ｎにおいて遷移条件とする入力イベン
ト（認識結果）が「入力イベント名」の行に優先順に列
記され、その遷移条件についての更なる条件が「データ
名」及び「データ範囲」の行における対応する列に記述
されている。

【０１２７】したがって、図１５の状態遷移表８０で表
されるノードＮＯＤＥ_１００では、「ボールを検出（Ｂ
ＡＬＬ）」という認識結果が与えられた場合に、当該認
識結果とともに与えられるそのボールの「大きさ（ＳＩ
ＺＥ）」が「0から1000」の範囲であることや、「障害
物を検出（ＯＢＳＴＡＣＬＥ）」という認識結果が与え
られた場合に、当該認識結果とともに与えられるその障
害物までの「距離（ＤＩＳＴＡＮＣＥ）」が「0から10
0」の範囲であることが他のノードに遷移するための条
件となっている。

【０１２８】また、このノードＮＯＤＥ_１００では、認
識結果の入力がない場合においても、行動モデルが周期
的に参照する感情モデル７３及び本能モデル７４にそれ
ぞれ保持された各情動及び各欲求のパラメータ値のう
ち、感情モデル７３に保持された「喜び（Joy）」、
「驚き（Surprise）」若しくは「悲しみ（Sadness）」
の何れかのパラメータ値が「50から100」の範囲である
ときには他のノードに遷移することができるようになっ
ている。

【０１２９】また、状態遷移表８０では、「他のノード
ヘの遷移確率」の欄における「遷移先ノード」の列にそ
のノードＮＯＤＥ_０〜ＮＯＤＥ_ｎから遷移できるノード
名が列記されているとともに、「入力イベント名」、
「データ名」及び「データの範囲」の行に記述された全
ての条件が揃ったときに遷移できるほかの各ノードＮＯ
ＤＥ_０〜ＮＯＤＥ_ｎへの遷移確率が「他のノードヘの遷
移確率」の欄内の対応する箇所にそれぞれ記述され、そ
のノードＮＯＤＥ_０〜ＮＯＤＥ_ｎに遷移する際に出力す
べき行動が「他のノードヘの遷移確率」の欄における
「出力行動」の行に記述されている。なお、「他のノー
ドヘの遷移確率」の欄における各行の確率の和は１００
［％］となっている。

【０１３０】したがって、図１５の状態遷移表８０で表
されるノードＮＯＤＥ_１００では、例えば「ボールを検
出（ＢＡＬＬ）」し、そのボールの「ＳＩＺＥ（大き
さ）」が「0から1000」の範囲であるという認識結果が
与えられた場合には、「30［％］」の確率で「ノードＮ
ＯＤＥ_１２０（node 120）」に遷移でき、そのとき「Ａ
ＣＴＩＯＮ１」の行動が出力されることとなる。

【０１３１】各行動モデルは、それぞれこのような状態
遷移表８０として記述されたノードＮＯＤＥ_０〜ＮＯ
ＤＥ_ｎが幾つも繋がるようにして構成されており、入力
セマンティクスコンバータモジュール５９から認識結果
が与えられたとき等に、対応するノードＮＯＤＥ_０〜Ｎ
ＯＤＥ_ｎの状態遷移表を利用して確率的に次の行動を決
定し、決定結果を行動切換えモジュール７１に出力する
ようになされている。

【０１３２】図１２に示す行動切換えモジュール７１
は、行動モデルライブラリ７０の各行動モデルからそれ
ぞれ出力される行動のうち、予め定められた優先順位の
高い行動モデルから出力された行動を選択し、当該行動
を実行すべき旨のコマンド（以下、これを行動コマンド
という。）をミドル・ウェア・レイヤ４０の出力セマン
ティクスコンバータモジュール６８に送出する。なお、
この実施の形態においては、図１３において下側に表記
された行動モデルほど優先順位が高く設定されている。

【０１３３】また、行動切換えモジュール７１は、行動
完了後に出力セマンティクスコンバータモジュール６８
から与えられる行動完了情報に基づいて、その行動が完
了したことを学習モジュール７２、感情モデル７３及び
本能モデル７４に通知する。

【０１３４】一方、学習モジュール７２は、入力セマン
ティクスコンバータモジュール５９から与えられる認識
結果のうち、「叩かれた」や「撫でられた」等、使用者
からの働きかけとして受けた教示の認識結果を入力す
る。

【０１３５】そして、学習モジュール７２は、この認識
結果及び行動切換えモジュール７１からの通知に基づい
て、「叩かれた（叱られた）」ときにはその行動の発現
確率を低下させ、「撫でられた（誉められた）」ときに
はその行動の発現確率を上昇させるように、行動モデル
ライブラリ７０における対応する行動モデルの対応する
遷移確率を変更する。

【０１３６】他方、感情モデル７３は、「喜び（Jo
y）」、「悲しみ（Sadness）」、「怒り（Anger）」、
「驚き（Surprise）」、「嫌悪（Disgust）」及び「恐
れ（Fear）」の合計６つの情動について、各情動毎にそ
の情動の強さを表すパラメータを保持している。そし
て、感情モデル７３は、これら各情動のパラメータ値
を、それぞれ入力セマンティクスコンバータモジュール
５９から与えられる「叩かれた」及び「撫でられた」等
の特定の認識結果と、経過時間及び行動切換えモジュー
ル７１からの通知と等に基づいて周期的に更新する。

【０１３７】具体的には、感情モデル７３は、入力セマ
ンティクスコンバータモジュール５９から与えられる認
識結果と、そのときのロボット装置１の行動と、前回更
新してからの経過時間と等に基づいて所定の演算式によ
り算出されるそのときのその情動の変動量を△Ｅ
［ｔ］、現在のその情動のパラメータ値をＥ［ｔ］、そ
の情動の感度を表す係数をｋ_ｅとして、（１）式によっ
て次の周期におけるその情動のパラメータ値Ｅ［ｔ＋
１］を算出し、これを現在のその情動のパラメータ値Ｅ
［ｔ］と置き換えるようにしてその情動のパラメータ値
を更新する。また、感情モデル７３は、これと同様にし
て全ての情動のパラメータ値を更新する。

【０１３８】

【数１】

【０１３９】なお、各認識結果や出力セマンティクスコ
ンバータモジュール６８からの通知が各情動のパラメー
タ値の変動量△Ｅ［ｔ］にどの程度の影響を与えるかは
予め決められており、例えば「叩かれた」といった認識
結果は「怒り」の情動のパラメータ値の変動量△Ｅ
［ｔ］に大きな影響を与え、「撫でられた」といった認
識結果は「喜び」の情動のパラメータ値の変動量△Ｅ
［ｔ］に大きな影響を与えるようになっている。

【０１４０】ここで、出力セマンティクスコンバータモ
ジュール６８からの通知とは、いわゆる行動のフィード
バック情報（行動完了情報）であり、行動の出現結果の
情報であり、感情モデル７３は、このような情報によっ
ても感情を変化させる。これは、例えば、「吠える」と
いった行動により怒りの感情レベルが下がるといったよ
うなことである。なお、出力セマンティクスコンバータ
モジュール６８からの通知は、上述した学習モジュール
７２にも入力されており、学習モジュール７２は、その
通知に基づいて行動モデルの対応する遷移確率を変更す
る。

【０１４１】なお、行動結果のフィードバックは、行動
切換えモジュレータ７１の出力（感情が付加された行
動）によりなされるものであってもよい。

【０１４２】一方、本能モデル７４は、「運動欲（exer
cise）」、「愛情欲（affection）」、「食欲（appetit
e）」及び「好奇心（curiosity）」の互いに独立した４
つの欲求について、これら欲求毎にその欲求の強さを表
すパラメータを保持している。そして、本能モデル７４
は、これらの欲求のパラメータ値を、それぞれ入力セマ
ンティクスコンバータモジュール５９から与えられる認
識結果や、経過時間及び行動切換えモジュール７１から
の通知等に基づいて周期的に更新する。

【０１４３】具体的には、本能モデル７４は、「運動
欲」、「愛情欲」及び「好奇心」については、認識結
果、経過時間及び出力セマンティクスコンバータモジュ
ール６８からの通知等に基づいて所定の演算式により算
出されるそのときのその欲求の変動量をΔＩ［ｋ］、現
在のその欲求のパラメータ値をＩ［ｋ］、その欲求の感
度を表す係数ｋ_ｉとして、所定周期で（２）式を用いて
次の周期におけるその欲求のパラメータ値Ｉ［ｋ＋１］
を算出し、この演算結果を現在のその欲求のパラメータ
値Ｉ［ｋ］と置き換えるようにしてその欲求のパラメー
タ値を更新する。また、本能モデル７４は、これと同様
にして「食欲」を除く各欲求のパラメータ値を更新す
る。

【０１４４】

【数２】

【０１４５】なお、認識結果及び出力セマンティクスコ
ンバータモジュール６８からの通知等が各欲求のパラメ
ータ値の変動量△Ｉ［ｋ］にどの程度の影響を与えるか
は予め決められており、例えば出力セマンティクスコン
バータモジュール６８からの通知は、「疲れ」のパラメ
ータ値の変動量△Ｉ［ｋ］に大きな影響を与えるように
なっている。

【０１４６】なお、本実施の形態においては、各情動及
び各欲求（本能）のパラメータ値がそれぞれ0から100ま
での範囲で変動するように規制されており、また係数ｋ
_ｅ、ｋ_ｉの値も各情動及び各欲求毎に個別に設定されて
いる。

【０１４７】一方、ミドル・ウェア・レイヤ４０の出力
セマンティクスコンバータモジュール６８は、図１１に
示すように、上述のようにしてアプリケーション・レイ
ヤ４１の行動切換えモジュール７１から与えられる「前
進」、「喜ぶ」、「鳴く」又は「トラッキング（ボール
を追いかける）」といった抽象的な行動コマンドを出力
系６９の対応する信号処理モジュール６１〜６７に与え
る。

【０１４８】そしてこれら信号処理モジュール６１〜６
７は、行動コマンドが与えられると当該行動コマンドに
基づいて、その行動をするために対応するアクチュエー
タ２５_１〜２５_ｎ（図２）に与えるべきサーボ指令値
や、スピーカ２４（図２）から出力する音の音声データ
及び又は「目」のＬＥＤに与える駆動データを生成し、
これらのデータをロボティック・サーバ・オブジェクト
３２のバーチャル・ロボット３３及び信号処理回路１４
（図２）を順次介して対応するアクチュエータ２５_１〜
２５_ｎ又はスピーカ２４又はＬＥＤに順次送出する。

【０１４９】このようにしてロボット装置１は、制御プ
ログラムに基づいて、自己（内部）及び周囲（外部）の
状況や、使用者からの指示及び働きかけに応じた自律的
な行動ができる。したがって、上述した文字認識処理を
実行するためプログラムを備えていないロボット装置に
対しても、文字認識処理によって画像から抽出した文字
の発音のしかたを音声認識処理によって周囲の音から認
識された音声に基づいて決定する処理を実行するための
制御プログラムを読み込ませることによって、図７に示
した文字認識処理を実行させることができる。

【０１５０】このような制御プログラムは、ロボット装
置が読取可能な形式で記録された記録媒体を介して提供
される。制御プログラムを記録する記録媒体としては、
磁気読取方式の記録媒体（例えば、磁気テープ、フロッ
ピー（登録商標）ディスク、磁気カード）、光学読取方
式の記録媒体（例えば、ＣＤ−ＲＯＭ、ＭＯ、ＣＤ−
Ｒ、ＤＶＤ）等が考えられる。記録媒体には、半導体メ
モリ（いわゆるメモリカード（矩形型、正方形型等形状
は問わない。）、ＩＣカード）等の記憶媒体も含まれ
る。また、制御プログラムは、いわゆるインターネット
等を介して提供されてもよい。

【０１５１】これらの制御プログラムは、専用の読込ド
ライバ装置、又はパーソナルコンピュータ等を介して再
生され、有線又は無線接続によってロボット装置１に伝
送されて読み込まれる。また、ロボット装置は、半導体
メモリ、又はＩＣカード等の小型化された記憶媒体のド
ライブ装置を備える場合、これら記憶媒体から制御プロ
グラムを直接読み込むこともできる。ロボット装置１で
は、メモリカード２８から読み込むことができる。

【０１５２】なお、本発明は、上述した実施の形態のみ
に限定されるものではなく、本発明の要旨を逸脱しない
範囲において種々の変更が可能であることは勿論であ
る。本実施の形態では、４足歩行のロボット装置に関し
て説明したが、ロボット装置は、２足歩行であってもよ
く、更に、移動手段は、脚式移動方式に限定されない。

【０１５３】以下に、本発明の別の実施の形態として示
す人間型ロボット装置の詳細について説明する。図１６
及び図１７には、人間型ロボット装置２００を前方及び
後方の各々から眺望した様子を示している。更に、図１
８には、この人間型ロボット装置２００が具備する関節
自由度構成を模式的に示している。

【０１５４】図１６に示すように、人間型ロボット装置
２００は、２本の腕部と頭部２０１を含む上肢と、移動
動作を実現する２本の脚部からなる下肢と、上肢と下肢
とを連結する体幹部とで構成される。

【０１５５】頭部２０１を支持する首関節は、首関節ヨ
ー軸２０２と、首関節ピッチ軸２０３と、首関節ロール
軸２０４という３自由度を有している。

【０１５６】また、各腕節は、肩関節ピッチ軸２０８
と、肩関節ロール軸２０９と、上腕ヨー軸２１０と、肘
関節ピッチ軸２１１と、前腕ヨー軸２１２と、手首関節
ピッチ軸２１３と、手首関節ロール輪２１４と、手部２
１５とで構成される。手部２１５は、実際には、複数本
の指を含む多関節・多自由度構造体である。ただし、手
部２１５の動作は人間型ロボット装置２００の姿勢制御
や歩行制御に対する寄与や影響が少ないので、本明細書
ではゼロ自由度と仮定する。したがって、各腕部は７自
由度を有するとする。

【０１５７】また、体幹部は、体幹ピッチ軸２０５と、
体幹ロール軸２０６と、体幹ヨー軸２０７という３自由
度を有する。

【０１５８】また、下肢を構成する各々の脚部は、股関
節ヨー軸２１６と、股関節ピッチ軸２１７と、股関節ロ
ール軸２１８と、膝関節ピッチ軸２１９と、足首関節ピ
ッチ軸２２０と、足首関節ロール軸２２１と、足部２２
２とで構成される。本明細書中では、股関節ピッチ軸２
１７と股関節ロール軸２１８の交点は、人間型ロボット
装置２００の股関節位置を定義する。人体の足部２２２
は、実際には多関節・多自由度の足底を含んだ構造体で
あるが、人間型ロボット装置２００の足底は、ゼロ自由
度とする。したがって、各脚部は、６自由度で構成され
る。

【０１５９】以上を総括すれば、人間型ロボット装置２
００全体としては、合計で３＋７×２＋３＋６×２＝３
２自由度を有することになる。ただし、エンターテイン
メント向けの人間型ロボット装置２００が必ずしも３２
自由度に限定される訳ではない。設計・制作上の制約条
件や要求仕様等に応じて、自由度すなわち関節数を適宜
増減することができることはいうまでもない。

【０１６０】上述したような人間型ロボット装置２００
がもつ各自由度は、実際にはアクチュエータを用いて実
装される。外観上で余分な膨らみを排してヒトの自然体
形状に近似させること、２足歩行という不安定構造体に
対して姿勢制御を行うことなどの要請から、アクチュエ
ータは小型且つ軽量であることが好ましい。

【０１６１】図１９には、人間型ロボット装置２００の
制御システム構成を模式的に示している。同図に示すよ
うに、人間型ロボット装置２００は、ヒトの四肢を表現
した各機構ユニット２３０，２４０，２５０Ｒ／Ｌ，２
６０Ｒ／Ｌと、各機構ユニット間の協調動作を実現する
ための適応制御を行う制御ユニット２８０とで構成され
る（ただし、Ｒ及びＬの各々は、右及び左の各々を示す
接尾辞である。以下同様）。

【０１６２】人間型ロボット装置２００全体の動作は、
制御ユニット２８０によって統括的に制御される。制御
ユニット２８０は、ＣＰＵ（Central Processing Uni
t）やメモリ等の主要回路コンポーネント（図示しな
い）で構成される主制御部２８１と、電源回路や人間型
ロボット装置２００の各構成要素とのデータやコマンド
の授受を行うインターフェイス（何れも図示しない）な
どを含んだ周辺回路２８２とで構成される。この制御ユ
ニット２８０の設置場所は、特に限定されない。図１９
では体幹部ユニット２４０に搭載されているが、頭部ユ
ニット２３０に搭載してもよい。或いは、人間型ロボッ
ト装置２００外に制御ユニット２８０を配備して、人間
型ロボット装置２００の機体とは有線若しくは無線で交
信するようにしてもよい。

【０１６３】図１９に示した人間型ロボット装置２００
内の各関節自由度は、それぞれに対応するアクチュエー
タによって実現される。すなわち、頭部ユニット２３０
には、首関節ヨー軸２０２、首関節ピッチ２０３、首関
節ロール軸２０４の各々を表現する首関節ヨー軸アクチ
ュエータＡ_２、首関節ピッチ軸アクチュエータＡ_３、首
関節ロール軸アクチュエータＡ_４が配設されている。

【０１６４】また、頭部ユニット２３０には、外部の状
況を撮像するためのＣＣＤ（ChargeCoupled Device）カ
メラが設けられているほか、前方に位置する物体までの
距離を測定するための距離センサ、外部音を集音するた
めのマイク、音声を出力するためのスピーカ、使用者か
らの「撫でる」や「叩く」といった物理的な働きかけに
より受けた圧力を検出するためのタッチセンサ等が配設
されている。

【０１６５】また、体幹部ユニット２４０には、体幹ピ
ッチ軸２０５、体幹ロール軸２０６、体幹ヨー軸２０７
の各々を表現する体幹ピッチ軸アクチュエータＡ_５、体
幹ロール軸アクチュエータＡ_６、体幹ヨー軸アクチュエ
ータＡ_７が配設されている。また、体幹部ユニット２４
０には、この人間型ロボット装置２００の起動電源とな
るバッテリを備えている。このバッテリは、充放電可能
な電池によって構成されている。

【０１６６】また、腕部ユニット２５０Ｒ／Ｌは、上腕
ユニット２５１Ｒ／Ｌと、肘関節ユニット２５２Ｒ／Ｌ
と、前腕ユニット２５３Ｒ／Ｌに細分化されるが、肩関
節ピッチ軸８、肩関節ロール軸２０９、上腕ヨー軸２１
０、肘関節ピッチ軸２１１、前腕ヨー軸２１２、手首関
節ピッチ軸２１３、手首関節ロール軸２１４の各々表現
する肩関節ピッチ軸アクチュエータＡ_８、肩関節ロール
軸アクチュエータＡ_９、上腕ヨー軸アクチュエータＡ
_１０、肘関節ピッチ軸アクチュエータＡ_１１、肘関節ロ
ール軸アクチュエータＡ_１２、手首関節ピッチ軸アクチ
ュエータＡ_１３、手首関節ロール軸アクチュエータＡ
_１４が配備されている。

【０１６７】また、脚部ユニット２６０Ｒ／Ｌは、大腿
部ユニット２６１Ｒ／Ｌと、膝ユニット２６２Ｒ／Ｌ
と、脛部ユニット２６３Ｒ／Ｌに細分化されるが、股関
節ヨー軸２１６、股関節ピッチ軸２１７、股関節ロール
軸２１８、膝関節ピッチ軸２１９、足首関節ピッチ軸２
２０、足首関節ロール軸２２１の各々を表現する股関節
ヨー軸アクチュエータＡ_１６、股関節ピッチ軸アクチュ
エータＡ_１７、股関節ロール軸アクチュエータＡ_１８、
膝関節ピッチ軸アクチュエータＡ_１９、足首関節ピッチ
軸アクチュエータＡ_２０、足首関節ロール軸アクチュエ
ータＡ_２１が配備されている。各関節に用いられるアク
チュエータＡ_２，Ａ_３・・・は、より好ましくは、ギア直
結型で旦つサーボ制御系をワンチップ化してモータ・ユ
ニット内に搭載したタイプの小型ＡＣサーボ・アクチュ
エータで構成することができる。

【０１６８】頭部ユニット２３０、体幹部ユニット２４
０、腕部ユニット２５０、各脚部ユニット２６０などの
各機構ユニット毎に、アクチュエータ駆動制御部の副制
御部２３５，２４５，２５５Ｒ／Ｌ，２６５Ｒ／Ｌが配
備されている。更に、各脚部２６０Ｒ，Ｌの足底が着床
したか否かを検出する接地確認センサ２９１及び２９２
を装着するとともに、体幹部ユニット２４０内には、姿
勢を計測する姿勢センサ２９３を装備している。

【０１６９】接地確認センサ２９１及び２９２は、例え
ば足底に設置された近接センサ又はマイクロ・スイッチ
などで構成される。また、姿勢センサ２９３は、例え
ば、加速度センサとジャイロ・センサの組み合わせによ
って構成される。

【０１７０】接地確認センサ２９１及び２９２の出力に
よって、歩行・走行などの動作期間中において、左右の
各脚部が現在立脚又は遊脚何れの状態であるかを判別す
ることができる。また、姿勢センサ２９３の出力によ
り、体幹部分の傾きや姿勢を検出することができる。

【０１７１】主制御部２８１は、各センサ２９１〜２９
３の出力に応答して制御目標をダイナミックに補正する
ことができる。より具体的には、副制御部２３５，２４
５，２５５Ｒ／Ｌ，２６５Ｒ／Ｌの各々に対して適応的
な制御を行い、人間型ロボット装置２００の上肢、体
幹、及び下肢が協調して駆動する全身運動パターンを実
現できる。

【０１７２】人間型ロボット装置２００の機体上での全
身運動は、足部運動、ＺＭＰ（ZeroMoment Point）軌
道、体幹運動、上肢運動、腰部高さなどを設定するとと
もに、これらの設定内容にしたがった動作を指示するコ
マンドを各副制御部２３５，２４５，２５５Ｒ／Ｌ，２
６５Ｒ／Ｌに転送する。そして、各々の副制御部２３
５，２４５，・・・等では、主制御部２８１からの受信
コマンドを解釈して、各アクチュエータＡ_２，Ａ_３・・
・等に対して駆動制御信号を出力する。ここでいう「Ｚ
ＭＰ」とは、歩行中の床反力によるモーメントがゼロと
なる床面上の点のことであり、また、「ＺＭＰ軌道」と
は、例えば人間型ロボット装置２００の歩行動作期間中
にＺＭＰが動く軌跡を意味する。

【０１７３】歩行時には、重力と歩行運動に伴って生じ
る加速度によって、歩行系から路面には重力と慣性力、
並びにこれらのモーメントが作用する。いわゆる「ダラ
ンベールの原理」によると、それらは路面から歩行系へ
の反作用としての床反力、床反力モーメントとバランス
する。力学的推論の帰結として、足底接地点と路面の形
成する支持多角形の辺上或いはその内側にピッチ及びロ
ール軸モーメントがゼロとなる点、すなわち「ＺＭＰ
（Zero Moment Point）」が存在する。

【０１７４】脚式移動ロボットの姿勢安定制御や歩行時
の転倒防止に関する提案の多くは、このＺＭＰを歩行の
安定度判別の規範として用いたものである。ＺＭＰ規範
に基づく２足歩行パターン生成は、足底着地点を予め設
定することができ、路面形状に応じた足先の運動学的拘
束条件を考慮しやすいなどの利点がある。また、ＺＭＰ
を安定度判別規範とすることは、力ではなく軌道を運動
制御上の目標値として扱うことを意味するので、技術的
に実現可能性が高まる。なお、ＺＭＰの概念並びにＺＭ
Ｐを歩行ロボットの安定度判別規範に適用する点につい
ては、Miomir Vukobratovic著“LEGGED LOCOMOTION ROB
OTS”（加藤一郎外著『歩行ロボットと人工の足』（日
刊工業新聞社））に記載されている。

【０１７５】一般には、４足歩行よりもヒューマノイド
のような２足歩行のロボットの方が、重心位置が高く、
且つ、歩行時のＺＭＰ安定領域が狭い。したがって、こ
のような路面状態の変化に伴う姿勢変動の問題は、２足
歩行ロボットにおいてとりわけ重要となる。

【０１７６】以上のように、人間型ロボット装置２００
は、各々の副制御部２３５，２４５，・・・等が、主制
御部２８１からの受信コマンドを解釈して、各アクチュ
エータＡ_２，Ａ_３・・・に対して駆動制御信号を出力
し、各ユニットの駆動を制御している。これにより、人
間型ロボット装置２００は、目標の姿勢に安定して遷移
し、安定した姿勢で歩行できる。

【０１７７】また、人間型ロボット装置２００における
制御ユニット２８０では、上述したような姿勢制御のほ
かに、加速度センサ、タッチセンサ、接地確認センサ等
の各種センサ、及びＣＣＤカメラからの画像情報、マイ
クからの音声情報等を統括して処理している。制御ユニ
ット２８０では、図示しないが加速度センサ、ジャイロ
・センサ、タッチセンサ、距離センサ、マイク、スピー
カなどの各種センサ、各アクチュエータ、ＣＣＤカメラ
及びバッテリが各々対応するハブを介して主制御部２８
１と接続されている。

【０１７８】主制御部２８１は、上述の各センサから供
給されるセンサデータや画像データ及び音声データを順
次取り込み、これらをそれぞれ内部インターフェイスを
介してＤＲＡＭ内の所定位置に順次格納する。また、主
制御部２８１は、バッテリから供給されるバッテリ残量
を表すバッテリ残量データを順次取り込み、これをＤＲ
ＡＭ内の所定位置に格納する。ＤＲＡＭに格納された各
センサデータ、画像データ、音声データ及びバッテリ残
量データは、主制御部２８１がこの人間型ロボット装置
２００の動作制御を行う際に利用される。

【０１７９】主制御部２８１は、人間型ロボット装置２
００の電源が投入された初期時、制御プログラムを読み
出し、これをＤＲＡＭに格納する。また、主制御部２８
１は、上述のように主制御部２８１よりＤＲＡＭに順次
格納される各センサデータ、画像データ、音声データ及
びバッテリ残量データに基づいて自己及び周囲の状況
や、使用者からの指示及び働きかけの有無などを判断す
る。更に、主制御部２８１は、この判断結果及びＤＲＡ
Ｍに格納した制御プログラムに基づいて自己の状況に応
じて行動を決定するとともに、当該決定結果に基づいて
必要なアクチュエータを駆動させることにより人間型ロ
ボット装置２００に、いわゆる「身振り」、「手振り」
といった行動をとらせる。

【０１８０】したがって、人間型ロボット装置２００
は、制御プログラムに基づいて自己及び周囲の状況を判
断し、使用者からの指示及び働きかけに応じて自律的に
行動できる。また、人間型ロボット装置２００は、ＣＣ
Ｄカメラにおいて撮像された画像から抽出した文字の発
音のしかた（読み方）を、抽出された文字から推定され
る読み方と集音マイクにおいて集音された音声とをマッ
チングして決定する。したがって、人間型ロボット装置
２００の音声認識の精度が向上し、新規単語が音声認識
用辞書に登録できる。

【０１８１】

【発明の効果】以上詳細に説明したように、本発明に係
るロボット装置は、単語と該単語の発音のしかたとの対
応関係が音声認識用辞書として記憶された音声認識用記
憶手段と、単語と該単語の表音文字との対応関係が単語
表音テーブルとして記憶された単語表音記憶手段と、被
写体を撮像する撮像手段と、撮像手段において撮像され
た画像から所定パターンの画像を抽出する画像認識手段
と、周囲の音を取得する集音手段と、集音手段において
取得された音から音声を認識する音声認識手段と、画像
認識手段において抽出された所定パターンの画像から推
定される複数通りの表音文字を単語表音テーブルに基づ
いて付与し、付与された複数通りの表音文字の各々に対
して発音のしかたと発音に相当する音声波形とを生成す
る発音情報生成手段と、発音情報生成手段において生成
された各音声波形と音声認識手段において認識された音
声の音声波形とを比較し、最も近い音声波形を抽出した
文字の発音のしかたであるとして音声認識用辞書に新規
に記憶する記憶制御手段とを備える。

【０１８２】本発明に係るロボット装置は、撮像手段に
おいて撮像された画像から抽出された所定パターンの画
像から推定される複数通りの表音文字を単語表音テーブ
ルに基づいて付与し、付与した複数通りの表音文字の各
々に対して発音のしかたと発音に相当する音声波形とを
生成し、発音情報生成手段において生成された各音声波
形と音声認識手段において認識された音声の音声波形と
を比較して最も近い音声波形を抽出した文字の発音のし
かたであるとして決定する。

【０１８３】したがって、本発明に係るロボット装置に
よれば、特に、弱い音素（例えば、語頭の／ｓ／等）を
含む発音の誤認識、周囲の雑音の影響による入力音素の
変化、音声区間検出の失敗等による悪影響が抑止され、
新規単語を登録する際の認識精度が向上できる。これに
より、正確な発音のしかたが音声認識用辞書に記憶でき
るため、新規単語として登録された語を認識する際の認
識精度が向上する。

【０１８４】また、本発明に係るロボット装置は、単語
とこの単語の表音文字と単語属性とを含む単語情報が単
語属性テーブルとして記憶された単語情報記憶手段を備
え、記憶制御手段が新規に記憶する文字と該文字の発音
のしかたとともに単語属性を対応させて音声認識用辞書
に記憶する。

【０１８５】したがって、本発明に係るロボット装置に
よれば、入力した音声及び出力する音声に文法規則、対
話規則等を適用する上で必要となる単語属性情報をユー
ザが入力する必要がなくなり利便性が向上するととも
に、ユーザが属性情報を知らない場合に属性情報が入力
できなかったという不都合が改善される。

【０１８６】また、本発明に係る文字認識装置は、単語
と該単語の発音のしかたとの対応関係が音声認識用辞書
として記憶された音声認識用記憶手段と、単語と該単語
の表音文字との対応関係が単語表音テーブルとして記憶
された単語表音記憶手段と、被写体を撮像する撮像手段
と、撮像手段において撮像された画像から所定パターン
の画像を抽出する画像認識手段と、周囲の音を取得する
集音手段と、集音手段において取得された音から音声を
認識する音声認識手段と、画像認識手段において抽出さ
れた文字から推定される複数通りの表音文字を単語表音
テーブルに基づいて付与し、付与された複数通りの表音
文字の各々に対して発音のしかたと発音に相当する音声
波形とを生成する発音情報生成手段と、発音情報生成手
段において生成された各音声波形と音声認識手段におい
て認識された音声の音声波形とを比較し、最も近い音声
波形を抽出した文字の発音のしかたであるとして音声認
識用辞書に新規に記憶する記憶制御手段とを備える。

【０１８７】したがって、本発明に係る文字認識装置に
よれば、特に、弱い音素（例えば、語頭の／ｓ／等）を
含む発音の誤認識、周囲の雑音の影響による入力音素の
変化、音声区間検出の失敗等による悪影響が抑止され、
新規単語を登録する際の認識精度が向上できる。これに
より、正確な発音のしかたが音声認識用辞書に記憶でき
るため、新規単語として登録された語を認識する際の認
識精度が向上する。

【０１８８】また、本発明に係る文字認識装置は、単語
とこの単語の表音文字と単語属性とを含む単語情報が単
語属性テーブルとして記憶された単語情報記憶手段を備
え、記憶制御手段が新規に記憶する文字と該文字の発音
のしかたとともに単語属性を対応させて音声認識用辞書
に記憶する。

【０１８９】したがって、本発明に係る文字認識装置に
よれば、入力した音声及び出力する音声に文法規則、対
話規則等を適用する上で必要となる単語属性情報をユー
ザが入力する必要がなくなり利便性が向上するととも
に、ユーザが属性情報を知らない場合は、属性情報を入
力できなかったという不都合が改善される。

【０１９０】また、本発明に係る文字認識方法は、被写
体を撮像する撮像工程と、撮像工程において撮像された
画像から所定パターンの画像を抽出する画像認識工程
と、周囲の音を取得する集音工程と、集音工程において
取得された音から音声を認識する音声認識工程と、画像
認識工程において抽出された文字から推定される複数通
りの表音文字を単語と該単語の表音文字との対応関係が
記憶された単語表音テーブルに基づいて付与し、付与さ
れた複数通りの表音文字の各々に対して発音のしかたと
発音に相当する音声波形とを生成する発音情報生成工程
と、発音情報生成工程において生成された各音声波形と
音声認識工程において認識された音声の音声波形とを比
較し、最も近い音声波形を抽出した文字の発音のしかた
であるとして単語と該単語の発音のしかたとの対応関係
を記憶した音声認識用辞書に新規に記憶する記憶制御工
程とを備える。

【０１９１】したがって、本発明に係る文字認識方法に
よれば、特に、弱い音素（例えば、語頭の／ｓ／等）を
含む発音の誤認識、周囲の雑音の影響による入力音素の
変化、音声区間検出の失敗等による悪影響が抑止され、
新規単語を登録する際の認識精度が向上できる。これに
より、正確な発音のしかたが音声認識用辞書に記憶でき
るため、新規単語として登録された語を認識する際の認
識精度が向上する。

【０１９２】また、本発明に係る文字認識方法によれ
ば、単語とこの単語の表音文字と単語属性とを含む単語
情報が単語属性テーブルとして記憶された単語情報記憶
手段を備え、記憶制御手段が新規に記憶する文字と該文
字の発音のしかたとともに単語属性を対応させて音声認
識用辞書に記憶する。

【０１９３】したがって、本発明に係る文字認識方法に
よれば、入力した音声及び出力する音声に文法規則、対
話規則等を適用する上で必要となる単語属性情報をユー
ザが入力する必要がなくなり利便性が向上するととも
に、ユーザが属性情報を知らない場合は、属性情報を入
力できなかったという不都合が改善される。

【０１９４】更に、本発明に係る制御プログラムは、被
写体を撮像する撮像処理と、撮像処理によって撮像され
た画像から所定パターンの画像を抽出する画像認識処理
と、周囲の音を取得する集音処理と、集音処理によって
取得された音から音声を認識する音声認識処理と、画像
認識処理によって抽出された文字から推定される複数通
りの表音文字を単語と該単語の表音文字との対応関係が
記憶された単語表音テーブルに基づいて付与し、付与さ
れた複数通りの表音文字の各々に対して発音のしかたと
発音に相当する音声波形とを生成する発音情報生成処理
と、発音情報生成処理によって生成された各音声波形と
音声認識処理において認識された音声の音声波形とを比
較し、最も近い音声波形を抽出した文字の発音のしかた
であるとして単語と該単語の発音のしかたとの対応関係
を記憶した音声認識用辞書に新規に記憶する記憶処理と
をロボット装置に実行させる。

【０１９５】したがって、本発明に係る制御プログラム
によれば、ロボット装置は、特に、弱い音素（例えば、
語頭の／ｓ／等）を含む発音の誤認識、周囲の雑音の影
響による入力音素の変化、音声区間検出の失敗等による
悪影響が抑止され、新規単語を登録する際の認識精度が
向上される。これにより、正確な発音のしかたが音声認
識用辞書に記憶できるため、新規単語として登録された
語を認識する際の認識精度が向上する。

【０１９６】また、上述の制御プログラムを記録媒体に
記録して提供することによって、この記録媒体を読込可
能で画像認識手段と音声認識手段とを備える音声認識装
置としての機能を有する電子機器に対して、新規単語を
登録する際の認識精度が向上される。これにより、正確
な発音のしかたが記憶できるため、新規単語として登録
された語を認識する際の認識精度が向上する。

【図面の簡単な説明】

【図１】本発明の一構成例として示すロボット装置の外
観を示す外観図である。

【図２】本発明の一構成例として示すロボット装置の構
成を示す構成図である。

【図３】本発明の一構成例として示すロボット装置にお
ける画像音声認識部の構成を示す構成図である。

【図４】本発明の一構成例として示すロボット装置の音
声認識用辞書を説明する図である。

【図５】本発明の一構成例として示すロボット装置の単
語読み属性テーブルを説明する図である。

【図６】本発明の一構成例として示すロボット装置の文
字読みテーブルを説明する図である。

【図７】本発明の一構成例として示すロボット装置が新
規単語を音声認識用辞書に登録する処理を説明するフロ
ーチャートである。

【図８】本発明の一構成例として示すロボット装置の新
規単語用認識用辞書を説明する図である。

【図９】本発明の一構成例として示すロボット装置が認
識した文字列の発音のしかた（読み方）を生成する処理
を説明するフローチャートである。

【図１０】本発明の一構成例として示すロボット装置の
制御プログラムのソフトウェア構成を示す構成図であ
る。

【図１１】本発明の一構成例として示すロボット装置の
制御プログラムのうち、ミドル・ウェア・レイヤの構成
を示す構成図である。

【図１２】本発明の一構成例として示すロボット装置の
制御プログラムのうち、アプリケーション・レイヤの構
成を示す構成図である。

【図１３】本発明の一構成例として示すロボット装置の
制御プログラムのうち、行動モデルライブラリの構成を
示す構成図である。

【図１４】本発明の一構成例として示すロボット装置の
行動を決定するためのアルゴリズムである有限確率オー
トマトンを説明する模式図である。

【図１５】本発明の一構成例として示すロボット装置の
行動を決定するための状態遷移条件を表す図である。

【図１６】本発明の一構成例として示す人間型ロボット
装置の前方からみた外観を説明する外観図である。

【図１７】本発明の一構成例として示す人間型ロボット
装置の後方からみた外観を説明する外観図である。

【図１８】本発明の一構成例として示す人間型ロボット
装置の自由度構成モデルを模式的に示す図である。

【図１９】本発明の一構成例として示す人間型ロボット
装置の制御システム構成を説明する図である。

【図２０】図２０（ａ）は、「音素」を基本単位とする
ガーベージモデルを適用した従来の音声認識方法を示す
模式図であり、図２０（ｂ）は、「かな」を基本単位と
するガーベージモデルを適用した従来の音声認識方法を
示す模式図である。

【符号の説明】

１ロボット装置、２胴体部ユニット、３Ａ，３Ｂ，
３Ｃ，３Ｄ脚部ユニット、４頭部ユニット、５尻
尾部ユニット、１０ＣＰＵ、１１ＤＲＡＭ、１２
フラッシュＲＯＭ、１３ＰＣカードインターフェイス
回路、１４信号処理回路、１５内部バス、１６コ
ントロール部、１７バッテリ、１８角速度センサ、１
９加速度センサ、２０ＣＣＤカメラ、２１タッチ
センサ、２２距離センサ、２３マイク、２４スピ
ーカ、２５_１〜２５_ｎアクチュエータ、２６_１〜２６
_ｎポテンショメータ、２７_１〜２７_ｎハブ、２８メ
モリカード、１００画像音声認識部、１１０対話管
理部、１１１対話規則テーブル、１２０音声認識部、
１２１音声認識用辞書、１２２音響モデル、１２３
言語モデル、１２４音響分析部、１３０出力生成
部、１４０画像処理文字認識部、１４１文字パター
ンデータベース、１５０発音情報生成部、１５１単
語読み属性テーブル、１５２文字読みテーブル、１５
３読み付与テーブル、２００人間型ロボット装置

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/22 Ｇ１０Ｌ 3/00 ５２１Ｖ 15/24 ５７１Ｑ５７１Ｔ５３１Ｑ (72)発明者河本献太東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者佐部浩太郎東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者大橋武史東京都品川区北品川６丁目７番35号ソニー株式会社内Ｆターム(参考） 5B064 AA07 FA16 5D015 GG03 HH23 KK02 KK04 LL07 LL11

Claims

【特許請求の範囲】

【請求項１】内部状態に応じて自律的に動作するロボ
ット装置において、単語と該単語の発音のしかたとの対応関係が音声認識用
辞書として記憶された音声認識用記憶手段と、単語と該単語の表音文字との対応関係が単語表音テーブ
ルとして記憶された単語表音記憶手段と、被写体を撮像する撮像手段と、上記撮像手段において撮像された画像から所定パターン
の画像を抽出する画像認識手段と、周囲の音を取得する集音手段と、上記集音手段において取得された音から音声を認識する
音声認識手段と、上記画像認識手段において抽出された上記所定パターン
から推定される複数通りの表音文字を上記単語表音テー
ブルに基づいて付与し、上記付与された複数通りの表音
文字の各々に対して発音のしかたと発音に相当する音声
波形とを生成する発音情報生成手段と、上記発音情報生成手段において生成された各音声波形と
上記音声認識手段において認識された音声の音声波形と
を比較し、最も近い音声波形を上記画像認識手段におい
て抽出されたパターン認識結果に対応する発音のしかた
であるとして上記音声認識用辞書に新規に記憶する記憶
制御手段とを備えることを特徴とするロボット装置。
【請求項２】上記所定パターンの画像は、文字及び／
又は複数個の文字からなる文字列であることを特徴とす
る請求項１記載のロボット装置。
【請求項３】上記画像から抽出される複数個の文字と
該文字に対して付与される複数通りの発音のしかたとの
対応を一時辞書として一時的に記憶する一時記憶手段を
備えることを特徴とする請求項２記載のロボット装置。
【請求項４】単語と該単語の表音文字と単語属性とを
含む単語情報が単語属性テーブルとして記憶された単語
情報記憶手段を備え、上記記憶制御手段は、新規に記憶
する文字と該文字の発音のしかたとともに上記単語属性
を対応させて上記音声認識用辞書に記憶することを特徴
とする請求項２記載のロボット装置。
【請求項５】上記音声認識手段において認識された音
声に対する応答を生成する対話管理手段を備え、上記対
話管理手段は、上記単語属性を音声に対する応答規則で
使用することを特徴とする請求項４記載のロボット装
置。
【請求項６】上記音声認識手段は、隠れマルコフモデ
ル法に基づいて音声を認識することを特徴とする請求項
２記載のロボット装置。
【請求項７】単語と該単語の発音のしかたとの対応関
係が音声認識用辞書として記憶された音声認識用記憶手
段と、単語と該単語の表音文字との対応関係が単語表音テーブ
ルとして記憶された単語表音記憶手段と、被写体を撮像する撮像手段と、上記撮像手段において撮像された画像から所定パターン
の画像を抽出する画像認識手段と、周囲の音を取得する集音手段と、上記集音手段において取得された音から音声を認識する
音声認識手段と、上記画像認識手段において抽出された上記所定パターン
の画像から推定される複数通りの表音文字を上記単語表
音テーブルに基づいて付与し、上記付与された複数通り
の表音文字の各々に対して発音のしかたと発音に相当す
る音声波形とを生成する発音情報生成手段と、上記発音情報生成手段において生成された各音声波形と
上記音声認識手段において認識された音声の音声波形と
を比較し、最も近い音声波形を上記抽出した文字の発音
のしかたであるとして上記音声認識用辞書に新規に記憶
する記憶制御手段とを備えることを特徴とする文字認識
装置。
【請求項８】上記所定パターンの画像は、文字及び／
又は複数個の文字からなる文字列であることを特徴とす
る請求項７記載の文字認識装置。
【請求項９】上記画像から抽出される複数個の文字と
該文字に対して付与される複数通りの発音のしかたとの
対応を一時辞書として一時的に記憶する一時記憶手段を
備えることを特徴とする請求項７記載の文字認識装置。
【請求項１０】単語と該単語の表音文字と単語属性と
を含む単語情報が単語属性テーブルとして記憶された単
語情報記憶手段を備え、上記記憶制御手段は、新規に記
憶する文字と該文字の発音のしかたとともに上記単語属
性を対応させて上記音声認識用辞書に記憶することを特
徴とする請求項７記載の文字認識装置。
【請求項１１】上記音声認識手段において認識された
音声に対する応答を生成する対話管理手段を備え、上記
対話管理手段は、上記単語属性を音声に対する応答規則
で使用することを特徴とする請求項１０記載の文字認識
装置。
【請求項１２】上記音声認識手段は、隠れマルコフモ
デル法に基づいて音声を認識することを特徴とする請求
項７記載の文字認識装置。
【請求項１３】被写体を撮像する撮像工程と、上記撮像工程において撮像された画像から所定パターン
の画像を抽出する画像認識工程と、周囲の音を取得する集音工程と、上記集音工程において取得された音から音声を認識する
音声認識工程と、上記画像認識工程において抽出された所定パターンの画
像から推定される複数通りの表音文字を単語と該単語の
表音文字との対応関係が記憶された単語表音テーブルに
基づいて付与し、上記付与された複数通りの表音文字の
各々に対して発音のしかたと発音に相当する音声波形と
を生成する発音情報生成工程と、上記発音情報生成工程において生成された各音声波形と
上記音声認識工程において認識された音声の音声波形と
を比較し、最も近い音声波形を上記抽出した文字の発音
のしかたであるとして単語と該単語の発音のしかたとの
対応関係を記憶した音声認識用辞書に新規に記憶する記
憶制御工程とを備えることを特徴とする文字認識方法。
【請求項１４】上記所定パターンの画像は、文字及び
／又は複数個の文字からなる文字列であることを特徴と
する請求項１３記載の文字認識方法。
【請求項１５】上記画像から抽出される複数個の文字
と該文字に対して付与される複数通りの発音のしかたと
の対応を一時辞書として一時記憶手段に記憶する工程を
備えることを特徴とする請求項１４記載の文字認識方
法。
【請求項１６】上記記憶制御工程では、新規に記憶す
る文字と該文字の発音のしかたとともに単語属性を対応
させて上記音声認識用辞書に記憶することを特徴とする
請求項１４記載の文字認識方法。
【請求項１７】上記音声認識工程において認識された
音声に対する応答を生成する対話管理工程を備え、上記
対話管理工程では、上記単語属性が音声に対する応答規
則で使用されることを特徴とする請求項１６記載の文字
認識方法。
【請求項１８】上記音声認識工程では、隠れマルコフ
モデル法に基づいて音声認識されることを特徴とする請
求項１４記載の文字認識方法。
【請求項１９】内部状態に応じて自律的に動作するロ
ボット装置の制御プログラムにおいて、被写体を撮像する撮像処理と、上記撮像処理によって撮像された画像から所定パターン
の画像を抽出する画像認識処理と、周囲の音を取得する集音処理と、上記集音処理によって取得された音から音声を認識する
音声認識処理と、上記画像認識処理によって抽出された所定パターンの画
像から推定される複数通りの表音文字を単語と該単語の
表音文字との対応関係が記憶された単語表音テーブルに
基づいて付与し、上記付与された複数通りの表音文字の
各々に対して発音のしかたと発音に相当する音声波形と
を生成する発音情報生成処理と、上記発音情報生成処理によって生成された各音声波形と
上記音声認識処理において認識された音声の音声波形と
を比較し、最も近い音声波形を上記抽出した文字の発音
のしかたであるとして単語と該単語の発音のしかたとの
対応関係を記憶した音声認識用辞書に新規に記憶する記
憶処理とをロボット装置に実行させることを特徴とする
制御プログラム。
【請求項２０】上記所定パターンの画像は、文字及び
／又は複数個の文字からなる文字列であることを特徴と
する請求項１９記載の制御プログラム。
【請求項２１】被写体を撮像する撮像処理と、上記撮像処理によって撮像された画像から所定パターン
の画像を抽出する画像認識処理と、周囲の音を取得する集音処理と、上記集音処理によって取得された音から音声を認識する
音声認識処理と、上記画像認識処理によって抽出された所定パターンの画
像から推定される複数通りの表音文字を単語と該単語の
表音文字との対応関係が記憶された単語表音テーブルに
基づいて付与し、上記付与された複数通りの表音文字の
各々に対して発音のしかたと発音に相当する音声波形と
を生成する発音情報生成処理と、上記発音情報生成処理によって生成された各音声波形と
上記音声認識処理において認識された音声の音声波形と
を比較し、最も近い音声波形を上記抽出した文字の発音
のしかたであるとして単語と該単語の発音のしかたとの
対応関係を記憶した音声認識用辞書に新規に記憶する記
憶処理とをロボット装置に実行させるための制御プログ
ラムが記録された記録媒体。
【請求項２２】上記所定パターンの画像は、文字及び
／又は複数個の文字からなる文字列であることを特徴と
する請求項２１記載の記録媒体。