JP2003044080A - ロボット装置、文字認識装置及び文字認識方法、並びに、制御プログラム及び記録媒体 - Google Patents

ロボット装置、文字認識装置及び文字認識方法、並びに、制御プログラム及び記録媒体

Info

Publication number
JP2003044080A
JP2003044080A JP2002130905A JP2002130905A JP2003044080A JP 2003044080 A JP2003044080 A JP 2003044080A JP 2002130905 A JP2002130905 A JP 2002130905A JP 2002130905 A JP2002130905 A JP 2002130905A JP 2003044080 A JP2003044080 A JP 2003044080A
Authority
JP
Japan
Prior art keywords
word
voice
image
recognition
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002130905A
Other languages
English (en)
Inventor
Atsuo Hiroe
厚夫 廣江
Katsuki Minamino
活樹 南野
Kenta Kawamoto
献太 河本
Kotaro Sabe
浩太郎 佐部
Takeshi Ohashi
武史 大橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2002130905A priority Critical patent/JP2003044080A/ja
Publication of JP2003044080A publication Critical patent/JP2003044080A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 未登録の単語を新規単語として認識用辞書に
登録する。 【解決手段】 CCDカメラ20において撮像された画
像の文字認識の結果から推定される複数の文字と、これ
ら各文字から推定される複数の読み仮名と、各読み仮名
に対応する読み方とを発音情報生成部150において生
成し、ここで得られた複数の読み方とマイク23におい
て取得したユーザからの発声とをマッチングすることに
よって、生成された複数候補の中から1つの読み仮名及
び発音のしかた(読み方)を特定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、内部状態に応じて
自律的に動作するロボット装置、文字認識装置及び文字
認識方法、並びに、制御プログラム及び記録媒体に関
し、特に、撮像した画像から所定パターンの画像を認識
し、この画像とともに取得した音声をこの認識画像と対
応付けて新規に登録するロボット装置、並びに、撮像さ
れた所定パターンの画像とともに取得した音声をこの認
識画像と対応付けて新規に登録する文字認識装置及び文
字認識方法、並びに、取得した画像から所定パターンの
画像を認識し、この画像とともに取得した音声をこの認
識画像と対応付けて新規に登録する処理を実行させる制
御プログラム及びこの制御プログラムが記録された記録
媒体に関する。
【0002】
【従来の技術】電気的又は磁気的な作用を用いて人間
(生物)の動作に似た運動を行う機械装置を「ロボッ
ト」という。我が国においてロボットが普及し始めたの
は、1960年代末からであるが、その多くは、工場に
おける生産作業の自動化・無人化等を目的としたマニピ
ュレータや搬送ロボット等の産業用ロボット(Industri
al Robot)であった。
【0003】最近では、人間のパートナーとして生活を
支援する、すなわち住環境その他の日常生活上の様々な
場面における人的活動を支援する実用ロボットの開発が
進められている。このような実用ロボットは、産業用ロ
ボットとは異なり、人間の生活環境の様々な局面におい
て、個々に個性の相違した人間、又は様々な環境への適
応方法を自ら学習する能力を備えている。例えば、犬、
猫のように4足歩行の動物の身体メカニズムやその動作
を模した「ペット型」ロボット、或いは、2足直立歩行
を行う動物の身体メカニズムや動作をモデルにしてデザ
インされた「人間型」又は「人間形」ロボット(Humano
id Robot)等の脚式移動ロボットは、既に実用化されつ
つある。これらの脚式移動ロボットは、動物や人間の容
姿にできるだけ近い外観形状を有し、産業用ロボットと
比較して動物や人間の動作に近い動作を行うことがで
き、更にエンターテインメント性を重視した様々な動作
を行うことができるため、エンターテインメントロボッ
トと呼称される場合もある。
【0004】脚式移動ロボットの中には、「目」に相当
する小型カメラや、「耳」に相当する集音マイク等を備
えているものもある。この場合、脚式移動ロボットは、
取得した画像に対して画像処理を施すことによって、画
像情報として入力した周囲の環境を認識したり、入力し
た周囲の音から「言語」を認識したりできる。
【0005】特に、外部から取得した音声を認識して文
字に変換したり、音声を認識して応答したりする手法
は、脚式移動ロボット以外にもパーソナルコンピュータ
や、その他の電子機器に音声認識装置として適用されて
いる。
【0006】従来の音声認識の手法では、単語の発音と
表記とが対応付けされて記憶された音声認識用の辞書
(以下、認識用辞書と記す。)を用いて音声認識してい
る。そのため、認識用辞書に登録されていない単語に関
しては認識できないという欠点があった。更に、「文」
のような連続した単語の発音を認識する場合には、認識
用辞書に登録されている単語の組み合わせでなくてはな
らない。つまり、認証用辞書に登録されていない単語が
含まれる場合、誤認識されるか、認識できない。
【0007】「北品川」という単語を例にとると、「北
品川」が認証用辞書に登録されていなければ、「北品
川」及び「北品川」を含む発音、例えば、「北品川は、
どこですか。」という単語の連続からなる音声は、認識
できないか、「北品川」の部分が誤認識される。そこ
で、認識用辞書に登録されていない単語を認識できるよ
うにするためには、未登録の単語を新たに追加登録する
ことが必要になる。
【0008】音声認識装置が音声認識を可能とするため
に備える認識用辞書とは、他の単語と区別するための識
別子としての「単語シンボル」と、その単語の発音情報
を表す「PLU列」とが対応付けられたものである。P
LU(Phonone-like unit)とは、音響的及び音韻的単
位となるものである。発音された音声は、PLUの組み
合わせ(PLU列)として必ず表現することができる。
【0009】したがって、認識用辞書に単語を登録する
場合は、単語シンボルとこれに対応するPLU列とを追
加すればよい。ただし、単語シンボルとPLU列とを追
加できる場合というのは、「北品川」や「kitash
inagawa」という表記を、例えば、キーボード等
のような入力手段を用いて直接入力できる場合に限られ
る。
【0010】そのため、ロボット装置のようにキーボー
ドのような入力手段を備えていない場合には、音声とし
て取得した単語の発音を音声認識して未知単語のPLU
列を得る方法もある。この場合、ガーベージモデル(ga
rbage model)を適用して認識している。ガーベージモ
デルとは、図20(a)及び図20(b)に示すよう
に、音声を発音の基本的な単位となる「音素」の組み合
わせとして表した、また、単語の読み方の基本的な単位
となる「かな」の組み合わせとして表した(ただし、日
本語の場合。)モデルである。
【0011】従来の音声認識装置では、ガーベージモデ
ルを適用することによって、音声による認識結果が得
て、この認識結果に単語シンボルを当てはめて、これら
を対応させて新規単語として認識用辞書に登録してい
る。
【0012】ただし、ここで「音素」と「PLU」と
は、ほぼ同義の単語として使用しており、「PLU列」
は、複数の「PLU」が接続されることで構成された単
語の発音を表記したものである。
【0013】
【発明が解決しようとする課題】ところが、ガーベージ
モデルを適用した従来の音声認識の手法では、同じ単語
であってもユーザ毎に発声のしかたに微妙な違いがある
ことや、弱い音素(例えば、語頭の/s/等)は、必然
的に認識されにくくなることや、周囲の雑音の影響によ
る音素の変化や、音声区間検出の失敗等が原因となっ
て、認識精度が悪くなるという欠点があった。
【0014】特に、ロボット装置に音声認識装置を適用
した場合、音声認識装置側の音声取得用のマイクとユー
ザ(音声源)との距離が離れている状況下で使用される
ことが多いため、誤認識の頻度が高くなる。
【0015】具体的に、例えば、「きたしながわ」を認
識させる場合について示すと、認識結果は、「hi t
o tsu na no ga」や「i tas na
ga:」のように「きたしながわ」と類似している
が、同一ではないPLU列として認識されることがあ
る。このような方法で単語登録された辞書を用いて音声
認識を行うと、認識精度の低下、また誤認識による表示
誤り等の問題が発生する。つまり、新規登録語には、不
正確なPLU列が付与されていることになるため、この
単語を認識する際の精度が低下するという問題点があっ
た。
【0016】登録した人とは別の人が同じ単語を発音し
た場合、仮に「きたしながわ」が認識用辞書に登録され
ていたとしても、ユーザ毎の発音の癖から「きたしなが
わ」という単語を含む発音が認識されないこともあっ
た。
【0017】また、音声認識の結果を文字に変換して表
示する場合、新規登録語には、表示に関する情報が与え
られていないため、誤った文字が表示されることがあ
る。ユーザが「きたしながわ」を音声で登録した後、音
声認識装置に対して「北品川に行きたい。」と発声した
場合、音声認識装置には「きたしながわ」が正しく認識
されたとしても、表示は「hitotsunanoga
に行きたい」や「『ひとつなのが』に行きたい」になる
ことがある。また、音声認識装置が認識結果のPLU列
を音声合成で反復する場合も、合成された新規登録語の
PLU列の部分だけが不自然な繋がりとして発声される
という不都合も生じる。
【0018】更に、このようにガーベージモデルによっ
て登録された新規登録語は、品詞や意味等の単語の属性
に関する情報を登録することができない。例えば、「北
品川」を登録したとしても、この単語が名詞であるか地
名であるかを表す情報を登録することができない。その
ため、仮に、例えば、対話用の文法や認識用の言語モデ
ル等に「<地名を表す語>+は+どこ+です+か」のよ
うな特定表現のための文法規則が予め記録されていたと
しても、新規登録語には適用できないという問題点があ
った。登録時に単語の属性についても音声で入力するこ
とができるが、ユーザが単語の属性を知っている必要が
あった。また、単語の登録操作に加えて属性を入力する
ことはユーザにとって煩わしい。
【0019】そこで本発明は、このような従来の実情に
鑑みて提案されたものであり、提示された文字とともに
発音される音声に対して、撮像した画像から文字を認識
し取得した音声をこの文字の発音として認識することに
よって、未登録の単語を新規単語として認識用辞書に登
録でき、更に登録された新規単語を精度よく認識できる
ロボット装置、並びに、提示された文字とともに発音さ
れる音声に対して、撮像した画像から文字を認識し取得
した音声をこの文字の発音として認識することによっ
て、未登録の単語を新規単語として認識用辞書に登録で
き、登録された新規単語を精度よく認識できる文字認識
装置、及び、提示された文字を撮像し、撮像された画像
から文字を認識し、提示とともに発音された音声を取得
して認識された文字の発音として認識することによっ
て、認識用辞書に新規単語として登録する文字認識方
法、並びに、撮像した画像から文字を認識し取得した音
声をこの文字の発音として新規に登録する処理を実行さ
せる制御プログラム及びこの制御プログラムが記録され
た記録媒体を提供することを目的とする。
【0020】
【課題を解決するための手段】上述した目的を達成する
ために、本発明に係るロボット装置は、単語と該単語の
発音のしかたとの対応関係が音声認識用辞書として記憶
された音声認識用記憶手段と、単語と該単語の表音文字
との対応関係が単語表音テーブルとして記憶された単語
表音記憶手段と、被写体を撮像する撮像手段と、撮像手
段において撮像された画像から所定パターンの画像を抽
出する画像認識手段と、周囲の音を取得する集音手段
と、集音手段において取得された音から音声を認識する
音声認識手段と、画像認識手段において抽出された所定
パターンの画像から推定される複数通りの表音文字を単
語表音テーブルに基づいて付与し、付与された複数通り
の表音文字の各々に対して発音のしかたと発音に相当す
る音声波形とを生成する発音情報生成手段と、発音情報
生成手段において生成された各音声波形と音声認識手段
において認識された音声の音声波形とを比較し、最も近
い音声波形を抽出した文字の発音のしかたであるとして
音声認識用辞書に新規に記憶する記憶制御手段とを備え
る。
【0021】このようなロボット装置は、画像認識手段
において抽出された所定パターンの画像から推定される
複数通りの表音文字を単語表音テーブルに基づいて付与
し、付与された複数通りの表音文字の各々に対して発音
のしかたと発音に相当する音声波形とを生成し、発音情
報生成手段において生成された各音声波形と音声認識手
段において認識された音声の音声波形とを比較し、最も
近い音声波形を抽出した所定パターンの画像に対応する
発音のしかたであるとして音声認識用辞書に新規に記憶
する。
【0022】ここで特に、所定パターンの画像は、文字
及び/又は複数個の文字からなる文字列である。
【0023】また、本発明に係る文字認識装置は、単語
と該単語の発音のしかたとの対応関係が音声認識用辞書
として記憶された音声認識用記憶手段と、単語と該単語
の表音文字との対応関係が単語表音テーブルとして記憶
された単語表音記憶手段と、被写体を撮像する撮像手段
と、撮像手段において撮像された画像から文所定パター
ンの画像を抽出する画像認識手段と、周囲の音を取得す
る集音手段と、集音手段において取得された音から音声
を認識する音声認識手段と、画像認識手段において抽出
された所定パターンの画像から推定される複数通りの表
音文字を単語表音テーブルに基づいて付与し、付与され
た複数通りの表音文字の各々に対して発音のしかたと発
音に相当する音声波形とを生成する発音情報生成手段
と、発音情報生成手段において生成された各音声波形と
音声認識手段において認識された音声の音声波形とを比
較し、最も近い音声波形を抽出した文字の発音のしかた
であるとして音声認識用辞書に新規に記憶する記憶制御
手段とを備える。
【0024】このような文字認識装置は、画像認識手段
において抽出された所定パターンの画像から推定される
複数通りの表音文字を単語表音テーブルに基づいて付与
し、付与された複数通りの表音文字の各々に対して発音
のしかたと発音に相当する音声波形とを生成し、発音情
報生成手段において生成された各音声波形と音声認識手
段において認識された音声の音声波形とを比較し、最も
近い音声波形を抽出した文字の発音のしかたであるとし
て音声認識用辞書に新規に記憶する。
【0025】ここで特に、所定パターンの画像は、文字
及び/又は複数個の文字からなる文字列である。
【0026】また、本発明に係る文字認識方法は、被写
体を撮像する撮像工程と、撮像工程において撮像された
画像から所定パターンの画像を抽出する画像認識工程
と、周囲の音を取得する集音工程と、集音工程において
取得された音から音声を認識する音声認識工程と、画像
認識工程において抽出された文字から推定される複数通
りの表音文字を単語と該単語の表音文字との対応関係が
記憶された単語表音テーブルに基づいて付与し、付与さ
れた複数通りの表音文字の各々に対して発音のしかたと
発音に相当する音声波形とを生成する発音情報生成工程
と、発音情報生成工程において生成された各音声波形と
音声認識工程において認識された音声の音声波形とを比
較し、最も近い音声波形を抽出した文字の発音のしかた
であるとして単語と該単語の発音のしかたとの対応関係
を記憶した音声認識用辞書に新規に記憶する記憶制御工
程とを備える。
【0027】このような文字認識方法によれば、画像認
識工程において抽出された所定パターンの画像から推定
される複数通りの表音文字が単語表音テーブルに基づい
て付与され、付与された複数通りの表音文字の各々に対
して発音のしかたと発音に相当する音声波形が生成さ
れ、発音情報生成工程において生成された各音声波形と
音声認識工程において認識された音声の音声波形とが比
較され、最も近い音声波形が抽出した文字の発音のしか
たであるとして音声認識用辞書に新規に記憶される。
【0028】ここで特に、所定パターンの画像は、文字
及び/又は複数個の文字からなる文字列である。
【0029】更に、本発明に係る制御プログラムは、被
写体を撮像する撮像処理と、撮像処理によって撮像され
た画像から所定パターンの画像を抽出する画像認識処理
と、周囲の音を取得する集音処理と、集音処理によって
取得された音から音声を認識する音声認識処理と、画像
認識処理によって抽出された文字から推定される複数通
りの表音文字を単語と該単語の表音文字との対応関係が
記憶された単語表音テーブルに基づいて付与し、付与さ
れた複数通りの表音文字の各々に対して発音のしかたと
発音に相当する音声波形とを生成する発音情報生成処理
と、発音情報生成処理によって生成された各音声波形と
音声認識処理において認識された音声の音声波形とを比
較し、最も近い音声波形を抽出した文字の発音のしかた
であるとして単語と該単語の発音のしかたとの対応関係
を記憶した音声認識用辞書に新規に記憶する記憶処理と
をロボット装置に実行させる。
【0030】ここで特に、所定パターンの画像は、文字
及び/又は複数個の文字からなる文字列である。また、
上述の制御プログラムを記録媒体に記録して提供する。
【0031】
【発明の実施の形態】本発明の一構成例として示すロボ
ット装置は、内部状態に応じて自律動作するロボット装
置である。このロボット装置は、少なくとも上肢と体幹
部と下肢とを備え、上肢及び下肢、又は下肢のみを移動
手段とする脚式移動ロボットである。脚式移動ロボット
には、4足歩行の動物の身体メカニズムやその動きを模
倣したペット型ロボットや、下肢のみを移動手段として
使用する2足歩行の動物の身体メカニズムやその動きを
模倣したロボット装置があるが、本実施の形態として示
すロボット装置は、4足歩行タイプの脚式移動ロボット
である。
【0032】このロボット装置は、住環境その他の日常
生活上の様々な場面における人的活動を支援する実用ロ
ボットであり、内部状態(怒り、悲しみ、喜び、楽しみ
等)に応じて行動できるほか、4足歩行の動物が行う基
本的な動作を表出できるエンターテインメントロボット
である。
【0033】このロボット装置は、特に「犬」を模した
形体であり、頭部、胴体部、上肢部、下肢部、尻尾部等
を有している。各部の連結部分及び関節に相当する部位
には、運動の自由度に応じた数のアクチュエータ及びポ
テンショメータが備えられており、制御部の制御によっ
て目標とする動作を表出できる。
【0034】このロボット装置は、周囲の状況を画像デ
ータとして取得するための撮像部、周囲の音声を取得す
るマイク部、外部から受ける作用を検出するための各種
センサ等を備えている。撮像部としては、小型のCCD
(Charge-Coupled Device)カメラを使用する。
【0035】本実施の形態として示すロボット装置は、
画像認識装置及び音声認識装置を備えており、CCDカ
メラにおいて撮像された画像から所定パターンの画像を
抽出し、抽出された所定パターンの画像から推定される
複数通りの読み仮名を付与し、付与された複数通りの読
み仮名のそれぞれに相当する音声波形を生成する。ここ
での画像の所定パターンとしては、文字(文字列)、物
体の形状、輪郭、柄、物体そのものの画像等があげられ
る。そして、この音声波形とマイク部において取得した
音声の音声波形とを比較し、最も近い音声波形を抽出し
た所定パターンの画像に対応する発音のしかた(読み
方)であるとして音声認識用辞書に新規に記憶すること
ができるロボット装置である。
【0036】以下、本発明の一構成例として示すロボッ
ト装置について、図面を参照して説明する。以下の説明
では、取得した画像から認識される所定パターンが文字
(文字列)である場合について詳細に説明する。
【0037】本実施の形態では、ロボット装置1は、図
1に示すように、「犬」を模した形状のいわゆるペット
型ロボットである。ロボット装置1は、胴体部ユニット
2の前後左右に脚部ユニット3A、3B、3C、3Dが
連結され、胴体部ユニット2の前端部に頭部ユニット4
が連結され、後端部に尻尾部ユニット5が連結されて構
成されている。
【0038】胴体部ユニット2には、図2に示すよう
に、CPU(Central Processing Unit)10、DRA
M(Dynamic Random Access Memory)11、フラッシュ
ROM(Read Only Memory)12、PC(Personal Com
puter)カードインターフェイス回路13及び信号処理
回路14が内部バス15を介して相互に接続されること
により形成されたコントロール部16と、このロボット
装置1の動力源としてのバッテリ17とが収納されてい
る。また、胴体部ユニット2には、ロボット装置1の向
きや動きの加速度を検出するための角速度センサ18及
び加速度センサ19が収納されている。
【0039】頭部ユニット4には、外部の状況を撮像す
るためのCCD(Charge Coupled Device)カメラ20
と、使用者からの「撫でる」や「叩く」といった物理的
な働きかけにより受けた圧力を検出するためのタッチセ
ンサ21と、前方に位置する物体までの距離を測定する
ための距離センサ22と、外部音を集音するためのマイ
ク23と、鳴き声等の音声を出力するためのスピーカ2
4と、ロボット装置1の「目」に相当するLED(Ligh
t Emitting Diode)(図示せず)等が所定位置にそれぞ
れ配置されている。CCDカメラ20は、頭部ユニット
4の向く方向にある被写体を所定の画角で撮像すること
ができる。
【0040】各脚部ユニット3A〜3Dの関節部分、各
脚部ユニット3A〜3Dと胴体部ユニット2との連結部
分、頭部ユニット4と胴体部ユニット2との連結部分、
尻尾部ユニット5と尻尾5Aとの連結部分には、自由度
数分のアクチュエータ25〜25及びポテンショメ
ータ26〜26がそれぞれ配設されている。アクチ
ュエータ25〜25は、例えば、サーボモータを構
成として有している。サーボモータの駆動により、脚部
ユニット3A〜3Dが制御されて目標の姿勢、或いは動
作に遷移する。
【0041】これら角速度センサ18、加速度センサ1
9、タッチセンサ21、距離センサ22、マイク23、
スピーカ24及び各ポテンショメータ26〜26
の各種センサ並びにLED及び各アクチュエータ25
〜25は、それぞれ対応するハブ27〜27を介
してコントロール部16の信号処理回路14と接続さ
れ、CCDカメラ20及びバッテリ17は、それぞれ信
号処理回路14と直接接続されている。
【0042】信号処理回路14は、上述の各センサから
供給されるセンサデータや画像データ及び音声データを
順次取り込み、これらをそれぞれ内部バス15を介して
DRAM11内の所定位置に順次格納する。また信号処
理回路14は、これとともにバッテリ17から供給され
るバッテリ残量を表すバッテリ残量データを順次取り込
み、これをDRAM11内の所定位置に格納する。
【0043】このようにしてDRAM11に格納された
各センサデータ、画像データ、音声データ及びバッテリ
残量データは、CPU10が当該ロボット装置1の動作
制御を行う際に使用される。
【0044】CPU10は、ロボット装置1の電源が投
入された初期時において、フラッシュROM12に格納
された制御プログラムを読み出して、DRAM11に格
納する。又は、CPU10は、図1に図示しない胴体部
ユニット2のPCカードスロットに装着された半導体メ
モリ装置、例えば、いわゆるメモリカード28に格納さ
れた制御プログラムをPCカードインターフェイス回路
13を介して読み出してDRAM11に格納する。
【0045】CPU10は、上述のように信号処理回路
14よりDRAM11に順次格納される各センサデー
タ、画像データ、音声データ、及びバッテリ残量データ
に基づいて自己及び周囲の状況や、使用者からの指示及
び働きかけの有無を判断している。
【0046】更に、CPU10は、この判断結果とDR
AM11に格納した制御プログラムとに基づく行動を決
定する。CPU10は、当該決定結果に基づいてアクチ
ュエータ25〜25の中から必要とするアクチュエ
ータを駆動することによって、例えば、頭部ユニット4
を上下左右に動かしたり、尻尾部ユニット5の尻尾を動
かしたり、各脚部ユニット3A乃至3Dを駆動して歩行
させたりする。また、CPU10は、必要に応じて音声
データを生成し、信号処理回路14を介してスピーカ2
4に供給する。また、CPU10は、上述のLEDの点
灯・消灯を指示する信号を生成し、LEDを点灯したり
消灯したりする。
【0047】また、CPU10は、上述のようにロボッ
トを自律的に制御するほかに、後述する対話管理部11
0等からの要求に応じてロボットを動作させる。
【0048】これらの基本的な構成によって、ロボット
装置1は、自己及び周囲の状況や、使用者からの指示及
び働きかけに応じて自律的に行動する。
【0049】更に、ロボット装置1は、認識した発音と
認識した文字との対応を新規登録語として音声認識用辞
書に登録するための構成として、胴体部ユニット2のコ
ントロール部16に、画像音声認識部100を備えてい
る。画像音声認識部100は、図3に示すように、対話
管理部110と、音声認識部120と、出力生成部13
0と、画像処理文字認識部140と、発音情報生成部1
50とを有している。音声認識用辞書とは、図4に示す
ように、他の単語と区別するための識別子としての「単
語シンボル」と、この単語に対応する発音情報を表す
「PLU列」とを記録したテーブルである。この辞書を
参照することによって、単語の発音のしかた(読み
方)、又は、発音に対応する単語の表記が抽出できる。
【0050】具体的に、対話管理部110は、マイク2
3から入力したユーザの発話、対話履歴等から入力した
音声に対する応答を生成する。対話管理部110は、対
話規則テーブル111に記憶された種々の対話規則に基
づいて、入力した音声に対する応答パターンを生成す
る。
【0051】音声認識部120は、ユーザの発話を対話
管理部110で処理できる形式、例えば、テキスト形
式、構文解析、対話用フレーム等に変換する。音声認識
部120は、具体的には、音声認識用辞書121、音響
モデル122、言語モデル123、音響分析部124等
からなる。音響分析部124では、認識に必要な特徴量
の抽出が微少時間間隔で行われる。例えば、得られた音
声信号のエネルギ、零交差数、ピッチ、周波数特性、及
びこれらの変化量等が抽出される。周波数分析には、線
形予測分析(LPC)、高速フーリエ変換(FFT)、
バンドパスフィルタ(BPF)等が用いられる。
【0052】音声認識部120は、音響モデル122と
言語モデル123とを用いて、音響分析部124で生成
された特徴量系列に対応する単語系列を決定する。認識
手法としては、例えば、隠れマルコフモデル(Hidden M
arkov Model:以下、HMMと記す。)等が用いられ
る。
【0053】HMMとは、状態遷移確率と確率密度関数
とをもつ状態遷移モデルであり、状態を遷移しながら特
徴量系列を出力する確率値を累積して尤度を決定する。
その尤度の値を「スコア」として音声認識用辞書に記憶
されている単語の発音のしかたと後述する画像処理文字
認識部において認識された文字に対して付与される発音
のしかたとのマッチングに使用する手法である。HMM
の遷移確率及び確率密度関数等は、学習用データに基づ
く学習過程を通じて、予め学習して用意される値であ
る。
【0054】音響モデルは、音素(PLU)、音節、単
語、フレーズ、文等、それぞれの単位毎に用意すること
ができる。例えば、日本語の仮名『あ』・『い』・『う』
・『え』・『お』・『か』・『き』…『ん』を単位とする音
響モデルを用いた場合、これらを組み合わせて接続する
ことによって、『はい』、『いいえ』、『おはよう』、
『いまなんじですか』等の言葉が構成できる。音素と
は、単語の発音情報を表すものであり、音響的及び音韻
的単位である。本明細書では、音素とPLU(Phonone-
like unit)とを区別しないで使用している。発音され
た音声は、音素(PLU)の組み合わせ(PLU列)と
して必ず表現することができる。
【0055】HMMによれば、このように構成された言
葉とマイク23において取得した音声の特徴量系列との
類似度をスコアとして計算することができる。音響モデ
ルから「言葉」を構成するための情報として、言語モデ
ル123と音声認識用辞書121とが利用される。音声
認識用辞書121とは、認識対象となる各単語を構成す
るための音響モデル(ここでは、仮名の一文字『あ』、
『い』、・・・等を示す。)の接続のしかたを対応テー
ブルとして示した辞書であり、言語モデル123とは、
単語と単語との接続のしかたの規則を示したものであ
る。
【0056】以下に示す例では、「単語」とは、認識処
理の上で発音する際に、1つの纏まりとして扱う方が都
合がよい単位のことを示しており、言語学的な単語とは
必ずしも一致しない。例えば、以下の例では「北品川」
を一単語として扱う場合があるが、これを「北」「品
川」という2単語として扱っても構わない。更に、「北
品川駅」や「北品川駅はどこですか」を発音する上での
一単語として扱うこともできる。
【0057】また、本明細書では、「読み仮名」とは、
漢字、英単語の読み方を表記したひらがな又はカタカナ
の意として用い、「発音のしかた」とは、読み仮名の実
際の発音をローマ字、又はローマ字と記号とを使用して
表記したものであり、言語学的における「音素記号」に
相当する。
【0058】例えば、『〜時から、〜時まで』という文
を扱う場合について考える。この場合、まず、『0(ぜ
ろ)』「1(いち)』・・・『24(にじゅうよん)』
という単語と、『時(じ)』・『から』・『まで』とい
う言葉のそれぞれに関して、音響モデル122を参照す
ることによって、単語の接続のしかたが決定される。
【0059】次に、『(数字を表す単語)』、『時』、
『から』、『(数字を表す単語)』、『時』、『まで』
という各単語を言語モデル123を参照することによっ
て、文を構成するための各単語の接続のしかたが決定さ
れる。
【0060】この音声認識用辞書121と言語モデル1
23とを用いてHMMを適用することによって、『1時
から2時まで』や『2時から5時まで』等の文と入力さ
れる特徴量系列との類似度がスコアとして計算できる。
その中で最も高いスコアを有する単語系列からなる文を
音声認識結果として出力する。
【0061】音声認識処理におけるスコアの計算は、音
響モデル122によって与えられる音響的なスコアと、
言語モデル123によって与えられる言語的なスコアと
を総合評価して行われる場合もある。
【0062】言語的なスコアとは、例えば、連続するn
個の単語間の遷移確率、又は連鎖確率に基づいて与えら
れるスコアである。遷移確率は、予め、大量のテキスト
から統計的に求められた値であり、ここでは、この遷移
確率を「nグラム」と呼称する。
【0063】なお、言語モデルは、文法やnグラム中に
単語を直接記述する以外にも、単語のクラス(単語をあ
る基準や属性にしたがって分類したもの)を記述する場
合もある。
【0064】例えば、地名を表す単語を集め、それに<
地名>というクラス名称を与えた場合に「<地名>+は
+どこ+です+か」という文法を記述したり、nグラム
中に「<地名>+は+どこ」の遷移確率を用意しておく
こともできる。この場合、n=3であり、正確には、遷
移確率は、P(<地名>|は、どこ|)である。
【0065】出力生成部130は、対話管理部110が
生成した応答パターンを実際の動作に変換する。例え
ば、対話管理部110が「首を左右に振る+『いいえ』
と発声する」という応答パターンを生成した場合、出力
生成部130は、これを受けて「首を左右に振る」に対
応する動作パターンを生成しCPU10に送るととも
に、「いいえ」に対応する音声波形を生成しスピーカ2
4から出力する。
【0066】画像処理文字認識部140は、CCDカメ
ラ20で取り込んた画像に含まれる文字列を文字パター
ンデータベース141に基づいて識別する。文字パター
ンデータベース141には、ひらがな、カタカナ、漢
字、アルファベット、記号類、必要に応じて各国語の文
字等の画像パターンが格納されている。画像処理文字識
別部140は、CCDカメラ20からの入力画像と文字
パターンデータベース141に格納されている画像パタ
ーンとの間でマッチングを行い、入力画像に含まれてい
る文字列を認識する。
【0067】発音情報生成部150は、画像処理文字認
識部140で認識された文字列に対応する発音情報、つ
まり文字列の読み仮名を生成し、更にその発音のしかた
(読み方)を生成する。例えば、入力画像から「北品
川」という文字列が認識された場合、「きたしながわ」
という読み仮名を生成し、PLU列で「kitashi
nagawa」という発音のしかた(読み方)を生成す
る。
【0068】単語読み属性テーブル151は、図4に示
すように、単語(文字列)と読み仮名と属性の組を記述
したテーブルである。属性とは、「地名」、「名前」、
「動物」のように単語のもつ意味を示している。
【0069】画像処理文字認識部140で認識された文
字列がこのテーブルに含まれている場合は、このテーブ
ルから読み仮名を抽出することで、読み仮名からその文
字列の発音のしかた(読み方)を確定できる。単語読み
属性テーブル151は、音声認識用辞書121とは独立
に用意する。
【0070】認識用辞書の語彙数には、認識速度や精度
や処理上の都合で上限がある(例えば6万5536語)
が、単語読み属性テーブル151にはそれらの制限とは
関係なく単語を記述することができる。この単語読み属
性テーブル151は、他の言語資源から流用することも
可能である。例えば、仮名漢字変換プログラムや形態素
解析プログラム等で使用されている辞書等を流用するこ
ともできる。
【0071】文字読みテーブル152は、図6に示すよ
うに、文字と読み仮名との対応が記述されたテーブルで
ある。記号やアルファベットや単漢字毎に読み仮名を記
述しておく。使用可能な文字全てについて読み仮名を記
述しておけば、任意の文字列に対して読み仮名から発音
のしかた(読み方)を付与することができる。
【0072】読み付与テーブル153は、2つのテーブ
ルだけでは読み仮名が付与できない場合に読み仮名を付
与するための規則や、読み仮名が特定できない場合に、
これを特定するための規則が記述してある。例えば、音
読み及び訓読みの統一、長音化に関する規則、連濁の規
則、繰り返し記号に関する規則、英単語に読みを付与す
る規則がある。
【0073】具体的には、長音化に関する規則とは、
「・・・おう」「・・・えい」等を「・・・おー」「・
・・えー」等に変換する規則である。この規則によっ
て、例えば、「とうきょう」は、「とーきょー」に変換
される。連濁の規則とは、例えば、「品川口」の読みを
「しながわ(品川)」と「くち(口)」との結合から生
成する場合に、「くち」を濁らせて「ぐち」にする規則
である。また、繰り返し記号に関する規則とは、「々・
ヽ・ヾ・ゝ・ゞ」等の繰り返し記号に対応して読み仮名
を付ける規則である。更に、英単語に読み仮名を付与す
る規則とは、英単語の語末に“e”がある場合は、
“e”自体は、発音しないかわりに前の母音を母音読み
する等の規則である。例えば、“take”に「テーク」と
いう読み仮名を付与する際に、“a”に対して「エー」
という読み仮名を付与し、“ke”に対して、単に「ク」
という読み仮名を付与する規則である。
【0074】次に、認識用辞書に新規単語を登録する際
の処理を、図7を用いて具体的に説明する。
【0075】まず、ステップS1において、単語登録の
ための単語登録モードに移行する。単語登録モードへの
移行は、例えば、ロボット装置1は、ユーザが発する
「登録モード」や「言葉を覚えて」等の言葉をトリガと
して単語登録モードに移行する。このほかに、操作ボタ
ンを設け、この操作ボタンが押されたときに単語登録モ
ードへ移行するようにしてもよい。
【0076】ステップS2において、ロボット装置1
は、ユーザに対して、登録したい単語の表記をロボット
装置1のCCDカメラ20の前に提示する旨の指示及び
/又は提示に加えてユーザが登録したい単語の読み方を
発声する旨の指示を促す。ユーザに対する指示は、ロボ
ット装置1が音声によって指示してもよいし、また、図
示しない表示部に指示内容を表示する場合でもよい。こ
こでは、「北品川」という単語を例として説明する。ユ
ーザによって提示される文字は、漢字でも仮名でもロー
マ字表記でもPLU列でも構わない。具体的には、ロボ
ット装置1は、「北品川」、「きたしながわ」、「キタ
シナガワ」、「kitashinagawa」等の何れ
の表記も認識できる。
【0077】ステップS3において、ロボット装置1
は、文字提示のみであるか、文字提示とともに発話があ
ったかを判断する。文字提示だけの場合は、ステップS
4へ進み、文字提示とともに発話があった場合は、後述
するステップS8へと進む。それ以外、すなわち、発声
のみの場合は、従来と同様にガーベージモデルによる認
識処理を行う。
【0078】はじめに、文字提示のみの場合について説
明する。文字提示のみの場合、ステップS4において、
ロボット装置1における画像処理文字認識部140は、
CCDカメラ20において撮像された画像にどのような
文字列が含まれているかを文字パターンデータベース1
41に基づいて、文字認識(OCR:Optical Characto
r Recognition)する。ここで、画像処理文字認識部1
40は、文字認識結果の候補が1つに絞り込めない場
合、複数の候補を残す。例えば、「北品川」という文字
に対して「比晶川」という認識結果が得られた場合は、
「比晶川」も残す。
【0079】続いて、ステップS5において、ロボット
装置1における発音情報生成部150は、ステップS4
での認識結果として得られた文字列に対して、文字列の
発音のしかた(読み方)を生成する。発音を生成する際
の詳細は、後述する。発音生成処理によって、文字列に
対して発音のしかた(読み方)が付与される。認識され
た文字列が複数ある場合及び/又は1つの文字列に対し
て複数の発音のしかたが有り得る場合には、全ての発音
パターンが適用される。
【0080】ステップS6において、ロボット装置1
は、上述のように生成された文字列に対する発音のしか
た(読み方)が正しいか否か、又は、複数の読み方のう
ちどれを採用すべきかをユーザに確認する。発音のしか
た(読み方)が一通りのみの場合は、「読み方は、○○
で正しいですか。」のように質問する。ユーザが「正し
い」や「はい」等の応答を返した場合は、ステップS7
に進む。
【0081】また、発音のしかた(読み方)が複数通り
ある場合は、それぞれについて「読み方は、○○です
か。」のように質問する。ユーザが「正しい」や「は
い」等の応答を返した読み方を採用してステップS7に
進む。
【0082】ユーザから「いいえ」等の応答を受けた場
合、すなわち、正しい読み方が存在しない場合、ステッ
プS2若しくはステップS4の処理まで戻る。
【0083】以上の処理によって、新規単語の読みを確
定した後、ステップS7に進み、取得した文字列とこの
文字列に対する発音のしかた(読み方)とを対応付けて
新規単語として認識用辞書に登録する。新規単語を追加
する際、図4に示す単語シンボル欄には、提示された文
字の認識結果を使用する。この文字列に対応するPLU
列欄には、ステップS6において確定した発音のしかた
(読み方)が記述される。新規単語を登録した後、登録
モードを終了する。その後、更新された認識用辞書を音
声認識に反映させるための処理、例えば、音声認識プロ
グラムの再起動等を行う。
【0084】一方、ステップS3において、ユーザが文
字を提示するとともに表記した文字を発声した場合につ
いて説明する。文字提示ともに発話があった場合は、両
者から得られる情報を協調的に使用することによってP
LU列等の発音情報を精度よく生成することができる。
【0085】具体的には、文字認識の結果から推定され
る複数の文字と、これら各文字から推定される複数の読
み仮名と、各読み仮名に対応する発音のしかた(読み
方)とを生成する。このようにして得られた複数の発音
のしかた(読み方)とマイク23において取得したユー
ザからの発声とをマッチングすることによって、上述の
ように生成された複数候補の中から1つの読み仮名及び
発音のしかた(読み方)を特定する。
【0086】文字提示とともに発話があった場合、ステ
ップS8において、ロボット装置1における画像処理文
字認識部140は、CCDカメラ20において撮像され
た画像から文字認識する。ここで、画像処理文字認識部
140は、文字認識結果の候補が1つに絞り込めない場
合、複数の候補を残す。
【0087】続いて、ステップS9において、ロボット
装置1における発音情報生成部150は、ステップS8
での認識結果として得られた文字列に対して、文字列の
読み仮名を生成する。発音生成処理によって、文字列に
対して発音のしかた(読み方)が付与される。認識され
た文字列が複数ある場合及び/又は1つの文字列に対し
て複数の読み方が可能な場合には、全ての発音パターン
が適用される。
【0088】次に、ステップS10において、文字列と
発音のしかた(読み方)とから、一時的に仮の認識用辞
書を生成する。この辞書を以下、新規単語用認識用辞書
と記す。例えば、CCDカメラ20によって撮像された
「北品川」という文字が画像処理文字認識部140にお
いて、「北品川」と「比晶川」の2通りに認識されたと
する。音声情報生成部150は、「北品川」と「比晶
川」に読み仮名を付与する。「北品川」には「きたしな
がわ」が付与され、「比晶川」には「ひしょうがわ」と
「くらあきらがわ」の2通りが付与され、更に両者の発
音のしかた(読み方)、すなわち、PLU列が生成され
る。この場合の新規単語用認識用辞書を図8に示す。
【0089】ステップS11において、新規単語用認識
用辞書を用いて、ユーザからの発声に対して音声認識を
行う。ここでの音声認識は、連続音声認識ではなく、単
語音声認識である。新規単語用認識用辞書が生成される
よりも前にユーザが発話している場合は、その発話を録
音しておき、その録音音声に対して音声認識を行う。ス
テップS11における音声認識とは、新規単語用認識用
辞書に登録されている単語の中からユーザの発話と音響
的に最も近い単語を探し出すことである。ただし、ステ
ップS11の処理では、単語シンボルが同一であって
も、PLU列が異なる場合は別の単語とみなす。
【0090】図8では、ここに登録されている3単語
(2つの「比晶川」は別単語とみなす)の中から、ユー
ザの発話である「きたしながわ」に最も近い単語を探し
出すことである。結果として、単語シンボルとPLU列
との組を1つに特定することができる。
【0091】新規単語用認識用辞書の中から単語シンボ
ルとPLU列との組が特定されたら、ステップS7にお
いて、これを正規の音声認識用辞書121に登録する。
新規単語を登録した後、登録モードを終了する。その
後、更新された認識用辞書を音声認識に反映させるため
の処理、例えば、音声認識プログラムの再起動等を行
う。
【0092】以上示した処理によって、ロボット装置1
は、音声認識用辞書121に記憶されていない単語を新
規単語として登録できる。
【0093】上述したステップS5とステップS9での
文字列の発音のしかた(読み方)の生成に関して、図9
を用いて詳細に説明する。
【0094】まず、ステップS21において、画像処理
文字認識部140によって認識された文字列が仮名文字
だけで構成されているか否かを調べる。ただし、ここで
の仮名文字とは、ひらがな・カタカナのほかに長音記号
「ー」や繰り返し記号「々・…」等も含む。文字列が仮
名文字だけで構成されている場合は、ステップS22に
おいて、認識された仮名文字をその文字列の読み方とす
る。このとき、長音化等の発音を若干修正する場合もあ
る。
【0095】一方、ステップS21において、画像処理
文字認識部140によって認識された文字列が仮名文字
以外の文字を含んでいる場合、ステップS23におい
て、その文字列が単語読み属性テーブル151に含まれ
ているか否かを判別する。
【0096】文字列が単語読み属性テーブル151に含
まれている場合は、そのテーブルから読み仮名を取得
し、更に発音のしかた(読み方)を生成する(ステップ
S24)。また、単語読み属性テーブル151に単語の
属性が記述されている場合は、属性も同時に取得する。
この属性の利用方法については、後述する。
【0097】文字列が単語読み属性テーブル151に含
まれていない場合、ステップS25において、最長一致
法・分割最小法、文字読みテーブル152に基づく読み
付与、及び読み付与規則に基づく読み付与を組み合わせ
て読み仮名を取得する。
【0098】最長一致法・分割数最小法とは、単語読み
属性テーブル151に含まれる単語を複数組み合わせる
ことで入力文字列と同じものが構成できないか試みる方
法である。例えば、入力文字列が「北品川駅前」である
場合、これが単語読み属性テーブル151に含まれてい
なくても「北品川」と「駅前」とが含まれていれば、こ
れらの組み合わせから「北品川駅前」が構成できること
から、結果として「きたしながわえきまえ」という読み
方が取得できる。構成方法が複数通りある場合は、より
長い単語が含まれる方を優先する(最長一致法)か、よ
り少ない単語で構成できる方を優先する(分割数最小
法)かして構成方法を選択する。
【0099】また、文字読みテーブル152に基づく読
み付与とは、文字列を文字毎に分割し、分割した文字毎
に文字読みテーブル152から読み仮名を取得する方法
である。漢字の場合、1つの漢字には複数の読み仮名が
付与できるため、文字列全体としての読み仮名は、各漢
字の読み仮名の組み合わせになる。そのため、例えば、
「音読みと訓読とは混在しにくい」等の規則を用いて組
み合わせの数を減らす方法である。
【0100】続いて、ステップS26において、上述の
各方法で取得したそれぞれの読み仮名の候補に対してス
コア又は信頼度を計算し、高いものを選択する。これに
より、入力された文字列に読み仮名を付与できる。得ら
れた読み仮名から発音のしかた(読み方)を生成する。
【0101】ステップS22、ステップS24、ステッ
プS26のそれぞれの工程を経たのち、最終的に、ステ
ップS27において、読み仮名に対する発音のしかた
(読み方)を長音化や連濁化等の規則に基づいて修正す
る。
【0102】ここで、単語読み属性テーブル151につ
いて詳細に説明する。音声認識用辞書121に単語を新
規登録しただけでは、言語モデル123に記録された単
語間の接続規則を適用することはできない。例えば、
「北品川」を音声認識用辞書121に追加登録したとし
ても、それだけでは「北品川」に関する文法や「北品
川」と他の単語との連鎖確率等は、生成されない。した
がって、新規登録語に言語モデルの接続規則を反映させ
る方法は、理想的には、文法を追加したり、テキストデ
ータから連鎖確率を計算し直したりして、言語モデルを
構成し直すことであるが、以下に示す簡易的な方法によ
って新規登録後に言語モデルを適用することができる。
【0103】まず、言語モデルに含まれていない単語に
<未知語>というクラス名を付ける。言語モデルには<
未知語>と他の単語との連鎖確率を記述しておく。新規
登録語は、<未知語>とみなし、この新規登録語と他の
単語との連鎖確率は、<未知語>と他の単語との連鎖確
率から計算する。
【0104】クラスとは、単語をある基準や属性にした
がって分類したものである。例えば、意味にしたがって
分類し、それぞれを<地名>、<姓>、<国名>と命名
したり、品詞にしたがって分類し、それぞれを<名詞
>、<動詞>、<形容詞>と命名したりする。
【0105】言語モデルには、単語間の連鎖確率を記述
するかわりにクラス間の連鎖確率やクラスと単語との連
鎖確率を記述する。単語間の連鎖確率を求めるときは、
単語がどのクラスに属すかを調べ、次に対応するクラス
についての連鎖確率を求め、そこから単語間の連鎖確率
を計算する。
【0106】新規登録語についても、どのクラスに属す
る単語であるかを登録時に推定することでクラスモデル
が適用できる。
【0107】上述のようにすると未知語用モデルでは、
新規登録語には、全て同一の値の連鎖確率が付される。
それに対してクラスモデルでは、どのクラスに属するか
によって異なる値になる。そのため一般的には、新規登
録語についての言語的スコアは、クラスモデルを用いた
方がより適切なスコアとなり、結果的に適切に認識され
る。
【0108】したがって、音声認識による単語登録にお
いて、従来、困難であったクラス名称が、容易に入力で
きる。すなわち、文字認識で得られた文字列(単語)が
単語読み属性テーブル151に含まれている場合、この
テーブルの属性欄からクラス名称を取得できる。なお、
図5に示す例では、属性欄に属性を1つしか記述してな
いが、これを「<地名>、<固有名詞>、<駅名>」の
ように複数記述することもできる。この場合、例えば、
<地名>というクラスが存在する場合は、<地名>、<
固有名詞>、<駅名>の中から、クラス名称と一致する
分類名、すなわち<地名>を採用する。
【0109】文字認識では、一文字ずつ認識するより
も、文字の連鎖に関する情報を含めて認識する方が精度
が向上する場合がある。そこで、認識用辞書の「単語シ
ンボル」欄や、単語読み属性テーブル151の「単語」
欄等を文字の連鎖に関する情報として使用することによ
って、文字認識の精度を更に向上できる。
【0110】以上の説明では、取得画像における所定パ
ターンの認識として文字認識の場合に関して説明した
が、上述したように文字(文字列)のほか、物体の形
状、輪郭、柄、物体そのものの画像を認識し対応する文
字(文字列)を抽出し、抽出された文字から推定される
複数通りの読み仮名を付与し、付与された複数通りの読
み仮名のそれぞれに相当する音声波形を生成することも
できる。この場合は、図1に示した基本的な構成に加え
て、必要な構成が必要に応じて追加される。
【0111】このように、所定パターンとして文字列以
外にも種々のケースに対応して発音のしかたをマスター
できるようにすることにより、ロボット装置が外部から
情報を得て学習していく様子を表現でき、エンターテイ
ンメント性が向上できる。
【0112】ところで、本実施の形態として示すロボッ
ト装置1は、内部状態に応じて自律的に行動できるロボ
ット装置である。ロボット装置1における制御プログラ
ムのソフトウェア構成は、図10に示すようになる。こ
の制御プログラムは、上述したように、予めフラッシュ
ROM12に格納されており、ロボット装置1の電源投
入初期時において読み出される。
【0113】図10において、デバイス・ドライバ・レ
イヤ30は、制御プログラムの最下位層に位置し、複数
のデバイス・ドライバからなるデバイス・ドライバ・セ
ット31から構成されている。この場合、各デバイス・
ドライバは、CCDカメラ20(図2)やタイマ等の通
常のコンピュータで用いられるハードウェアに直接アク
セスすることを許されたオブジェクトであり、対応する
ハードウェアからの割り込みを受けて処理を行う。
【0114】また、ロボティック・サーバ・オブジェク
ト32は、デバイス・ドライバ・レイヤ30の最下位層
に位置し、例えば上述の各種センサやアクチュエータ2
〜25等のハードウェアにアクセスするためのイ
ンターフェイスを提供するソフトウェア群でなるバーチ
ャル・ロボット33と、電源の切換え等を管理するソフ
トウェア群でなるパワーマネージャ34と、他の種々の
デバイス・ドライバを管理するソフトウェア群でなるデ
バイス・ドライバ・マネージャ35と、ロボット装置1
の機構を管理するソフトウェア群でなるデザインド・ロ
ボット36とから構成されている。
【0115】マネージャ・オブジェクト37は、オブジ
ェクト・マネージャ38及びサービス・マネージャ39
から構成されている。オブジェクト・マネージャ38
は、ロボティック・サーバ・オブジェクト32、ミドル
・ウェア・レイヤ40、及びアプリケーション・レイヤ
41に含まれる各ソフトウェア群の起動や終了を管理す
るソフトウェア群であり、サービス・マネージャ39
は、メモリカード28(図2)に格納されたコネクショ
ンファイルに記述されている各オブジェクト間の接続情
報に基づいて各オブジェクトの接続を管理するソフトウ
ェア群である。
【0116】ミドル・ウェア・レイヤ40は、ロボティ
ック・サーバ・オブジェクト32の上位層に位置し、画
像処理や音声処理等のこのロボット装置1の基本的な機
能を提供するソフトウェア群から構成されている。ま
た、アプリケーション・レイヤ41は、ミドル・ウェア
・レイヤ40の上位層に位置し、当該ミドル・ウェア・
レイヤ40を構成する各ソフトウェア群によって処理さ
れた処理結果に基づいてロボット装置1の行動を決定す
るためのソフトウェア群から構成されている。
【0117】なお、ミドル・ウェア・レイヤ40及びア
プリケーション・レイヤ41の具体なソフトウェア構成
をそれぞれ図11に示す。
【0118】ミドル・ウェア・レイヤ40は、図11に
示すように、騒音検出用、温度検出用、明るさ検出用、
音階認識用、距離検出用、姿勢検出用、タッチセンサ
用、動き検出用及び色認識用の各信号処理モジュール5
0〜58並びに入力セマンティクスコンバータモジュー
ル59等を有する認識系60と、出力セマンティクスコ
ンバータモジュール68並びに姿勢管理用、トラッキン
グ用、モーション再生用、歩行用、転倒復帰用、LED
点灯用及び音再生用の各信号処理モジュール61〜67
等を有する出力系69とから構成されている。
【0119】認識系60の各信号処理モジュール50〜
58は、ロボティック・サーバ・オブジェクト32のバ
ーチャル・ロボット33によりDRAM11(図2)か
ら読み出される各センサデータや画像データ及び音声デ
ータのうちの対応するデータを取り込み、当該データに
基づいて所定の処理を施して、処理結果を入力セマンテ
ィクスコンバータモジュール59に与える。ここで、例
えば、バーチャル・ロボット33は、所定の通信規約に
よって、信号の授受或いは変換をする部分として構成さ
れている。
【0120】入力セマンティクスコンバータモジュール
59は、これら各信号処理モジュール50〜58から与
えられる処理結果に基づいて、「うるさい」、「暑
い」、「明るい」、「ボールを検出した」、「転倒を検
出した」、「撫でられた」、「叩かれた」、「ドミソの
音階が聞こえた」、「動く物体を検出した」又は「障害
物を検出した」等の自己及び周囲の状況や、使用者から
の指令及び働きかけを認識し、認識結果をアプリケーシ
ョン・レイヤ41に出力する。
【0121】アプリケーション・レイヤ41は、図12
に示すように、行動モデルライブラリ70、行動切換え
モジュール71、学習モジュール72、感情モデル73
及び本能モデル74の5つのモジュールから構成されて
いる。
【0122】行動モデルライブラリ70には、図13に
示すように、「バッテリ残量が少なくなった場合」、
「転倒復帰する」、「障害物を回避する場合」、「感情
を表現する場合」、「ボールを検出した場合」等の予め
選択されたいくつかの条件項目にそれぞれ対応させて、
それぞれ独立した行動モデルが設けられている。
【0123】そして、これら行動モデルは、それぞれ入
力セマンティクスコンバータモジュール59から認識結
果が与えられたときや、最後の認識結果が与えられてか
ら一定時間が経過したとき等に、必要に応じて後述のよ
うに感情モデル73に保持されている対応する情動のパ
ラメータ値や、本能モデル74に保持されている対応す
る欲求のパラメータ値を参照しながら続く行動をそれぞ
れ決定し、決定結果を行動切換えモジュール71に出力
する。
【0124】なお、この実施の形態の場合、各行動モデ
ルは、次の行動を決定する手法として、図14に示すよ
うな1つのノード(状態)NODE〜NODEから
他のどのノードNODE〜NODEに遷移するかを
各ノードNODE〜NODEに間を接続するアーク
ARC〜ARCn1に対してそれぞれ設定された遷移
確率P〜Pに基づいて確率的に決定する有限確率オ
ートマトンと呼ばれるアルゴリズムを用いる。
【0125】具体的に、各行動モデルは、それぞれ自己
の行動モデルを形成するノードNODE〜NODE
にそれぞれ対応させて、これらノードNODE〜NO
DE 毎に図15に示すような状態遷移表80を有して
いる。
【0126】この状態遷移表80では、そのノードNO
DE〜NODEにおいて遷移条件とする入力イベン
ト(認識結果)が「入力イベント名」の行に優先順に列
記され、その遷移条件についての更なる条件が「データ
名」及び「データ範囲」の行における対応する列に記述
されている。
【0127】したがって、図15の状態遷移表80で表
されるノードNODE100では、「ボールを検出(B
ALL)」という認識結果が与えられた場合に、当該認
識結果とともに与えられるそのボールの「大きさ(SI
ZE)」が「0から1000」の範囲であることや、「障害
物を検出(OBSTACLE)」という認識結果が与え
られた場合に、当該認識結果とともに与えられるその障
害物までの「距離(DISTANCE)」が「0から10
0」の範囲であることが他のノードに遷移するための条
件となっている。
【0128】また、このノードNODE100では、認
識結果の入力がない場合においても、行動モデルが周期
的に参照する感情モデル73及び本能モデル74にそれ
ぞれ保持された各情動及び各欲求のパラメータ値のう
ち、感情モデル73に保持された「喜び(Joy)」、
「驚き(Surprise)」若しくは「悲しみ(Sadness)」
の何れかのパラメータ値が「50から100」の範囲である
ときには他のノードに遷移することができるようになっ
ている。
【0129】また、状態遷移表80では、「他のノード
ヘの遷移確率」の欄における「遷移先ノード」の列にそ
のノードNODE〜NODEから遷移できるノード
名が列記されているとともに、「入力イベント名」、
「データ名」及び「データの範囲」の行に記述された全
ての条件が揃ったときに遷移できるほかの各ノードNO
DE〜NODEへの遷移確率が「他のノードヘの遷
移確率」の欄内の対応する箇所にそれぞれ記述され、そ
のノードNODE〜NODEに遷移する際に出力す
べき行動が「他のノードヘの遷移確率」の欄における
「出力行動」の行に記述されている。なお、「他のノー
ドヘの遷移確率」の欄における各行の確率の和は100
[%]となっている。
【0130】したがって、図15の状態遷移表80で表
されるノードNODE100では、例えば「ボールを検
出(BALL)」し、そのボールの「SIZE(大き
さ)」が「0から1000」の範囲であるという認識結果が
与えられた場合には、「30[%]」の確率で「ノードN
ODE120(node 120)」に遷移でき、そのとき「A
CTION1」の行動が出力されることとなる。
【0131】各行動モデルは、それぞれこのような状態
遷移表80として記述されたノードNODE〜 NO
DEが幾つも繋がるようにして構成されており、入力
セマンティクスコンバータモジュール59から認識結果
が与えられたとき等に、対応するノードNODE〜N
ODEの状態遷移表を利用して確率的に次の行動を決
定し、決定結果を行動切換えモジュール71に出力する
ようになされている。
【0132】図12に示す行動切換えモジュール71
は、行動モデルライブラリ70の各行動モデルからそれ
ぞれ出力される行動のうち、予め定められた優先順位の
高い行動モデルから出力された行動を選択し、当該行動
を実行すべき旨のコマンド(以下、これを行動コマンド
という。)をミドル・ウェア・レイヤ40の出力セマン
ティクスコンバータモジュール68に送出する。なお、
この実施の形態においては、図13において下側に表記
された行動モデルほど優先順位が高く設定されている。
【0133】また、行動切換えモジュール71は、行動
完了後に出力セマンティクスコンバータモジュール68
から与えられる行動完了情報に基づいて、その行動が完
了したことを学習モジュール72、感情モデル73及び
本能モデル74に通知する。
【0134】一方、学習モジュール72は、入力セマン
ティクスコンバータモジュール59から与えられる認識
結果のうち、「叩かれた」や「撫でられた」等、使用者
からの働きかけとして受けた教示の認識結果を入力す
る。
【0135】そして、学習モジュール72は、この認識
結果及び行動切換えモジュール71からの通知に基づい
て、「叩かれた(叱られた)」ときにはその行動の発現
確率を低下させ、「撫でられた(誉められた)」ときに
はその行動の発現確率を上昇させるように、行動モデル
ライブラリ70における対応する行動モデルの対応する
遷移確率を変更する。
【0136】他方、感情モデル73は、「喜び(Jo
y)」、「悲しみ(Sadness)」、「怒り(Anger)」、
「驚き(Surprise)」、「嫌悪(Disgust)」及び「恐
れ(Fear)」の合計6つの情動について、各情動毎にそ
の情動の強さを表すパラメータを保持している。そし
て、感情モデル73は、これら各情動のパラメータ値
を、それぞれ入力セマンティクスコンバータモジュール
59から与えられる「叩かれた」及び「撫でられた」等
の特定の認識結果と、経過時間及び行動切換えモジュー
ル71からの通知と等に基づいて周期的に更新する。
【0137】具体的には、感情モデル73は、入力セマ
ンティクスコンバータモジュール59から与えられる認
識結果と、そのときのロボット装置1の行動と、前回更
新してからの経過時間と等に基づいて所定の演算式によ
り算出されるそのときのその情動の変動量を△E
[t]、現在のその情動のパラメータ値をE[t]、そ
の情動の感度を表す係数をkとして、(1)式によっ
て次の周期におけるその情動のパラメータ値E[t+
1]を算出し、これを現在のその情動のパラメータ値E
[t]と置き換えるようにしてその情動のパラメータ値
を更新する。また、感情モデル73は、これと同様にし
て全ての情動のパラメータ値を更新する。
【0138】
【数1】
【0139】なお、各認識結果や出力セマンティクスコ
ンバータモジュール68からの通知が各情動のパラメー
タ値の変動量△E[t]にどの程度の影響を与えるかは
予め決められており、例えば「叩かれた」といった認識
結果は「怒り」の情動のパラメータ値の変動量△E
[t]に大きな影響を与え、「撫でられた」といった認
識結果は「喜び」の情動のパラメータ値の変動量△E
[t]に大きな影響を与えるようになっている。
【0140】ここで、出力セマンティクスコンバータモ
ジュール68からの通知とは、いわゆる行動のフィード
バック情報(行動完了情報)であり、行動の出現結果の
情報であり、感情モデル73は、このような情報によっ
ても感情を変化させる。これは、例えば、「吠える」と
いった行動により怒りの感情レベルが下がるといったよ
うなことである。なお、出力セマンティクスコンバータ
モジュール68からの通知は、上述した学習モジュール
72にも入力されており、学習モジュール72は、その
通知に基づいて行動モデルの対応する遷移確率を変更す
る。
【0141】なお、行動結果のフィードバックは、行動
切換えモジュレータ71の出力(感情が付加された行
動)によりなされるものであってもよい。
【0142】一方、本能モデル74は、「運動欲(exer
cise)」、「愛情欲(affection)」、「食欲(appetit
e)」及び「好奇心(curiosity)」の互いに独立した4
つの欲求について、これら欲求毎にその欲求の強さを表
すパラメータを保持している。そして、本能モデル74
は、これらの欲求のパラメータ値を、それぞれ入力セマ
ンティクスコンバータモジュール59から与えられる認
識結果や、経過時間及び行動切換えモジュール71から
の通知等に基づいて周期的に更新する。
【0143】具体的には、本能モデル74は、「運動
欲」、「愛情欲」及び「好奇心」については、認識結
果、経過時間及び出力セマンティクスコンバータモジュ
ール68からの通知等に基づいて所定の演算式により算
出されるそのときのその欲求の変動量をΔI[k]、現
在のその欲求のパラメータ値をI[k]、その欲求の感
度を表す係数kとして、所定周期で(2)式を用いて
次の周期におけるその欲求のパラメータ値I[k+1]
を算出し、この演算結果を現在のその欲求のパラメータ
値I[k]と置き換えるようにしてその欲求のパラメー
タ値を更新する。また、本能モデル74は、これと同様
にして「食欲」を除く各欲求のパラメータ値を更新す
る。
【0144】
【数2】
【0145】なお、認識結果及び出力セマンティクスコ
ンバータモジュール68からの通知等が各欲求のパラメ
ータ値の変動量△I[k]にどの程度の影響を与えるか
は予め決められており、例えば出力セマンティクスコン
バータモジュール68からの通知は、「疲れ」のパラメ
ータ値の変動量△I[k]に大きな影響を与えるように
なっている。
【0146】なお、本実施の形態においては、各情動及
び各欲求(本能)のパラメータ値がそれぞれ0から100ま
での範囲で変動するように規制されており、また係数k
、kの値も各情動及び各欲求毎に個別に設定されて
いる。
【0147】一方、ミドル・ウェア・レイヤ40の出力
セマンティクスコンバータモジュール68は、図11に
示すように、上述のようにしてアプリケーション・レイ
ヤ41の行動切換えモジュール71から与えられる「前
進」、「喜ぶ」、「鳴く」又は「トラッキング(ボール
を追いかける)」といった抽象的な行動コマンドを出力
系69の対応する信号処理モジュール61〜67に与え
る。
【0148】そしてこれら信号処理モジュール61〜6
7は、行動コマンドが与えられると当該行動コマンドに
基づいて、その行動をするために対応するアクチュエー
タ25〜25(図2)に与えるべきサーボ指令値
や、スピーカ24(図2)から出力する音の音声データ
及び又は「目」のLEDに与える駆動データを生成し、
これらのデータをロボティック・サーバ・オブジェクト
32のバーチャル・ロボット33及び信号処理回路14
(図2)を順次介して対応するアクチュエータ25
25又はスピーカ24又はLEDに順次送出する。
【0149】このようにしてロボット装置1は、制御プ
ログラムに基づいて、自己(内部)及び周囲(外部)の
状況や、使用者からの指示及び働きかけに応じた自律的
な行動ができる。したがって、上述した文字認識処理を
実行するためプログラムを備えていないロボット装置に
対しても、文字認識処理によって画像から抽出した文字
の発音のしかたを音声認識処理によって周囲の音から認
識された音声に基づいて決定する処理を実行するための
制御プログラムを読み込ませることによって、図7に示
した文字認識処理を実行させることができる。
【0150】このような制御プログラムは、ロボット装
置が読取可能な形式で記録された記録媒体を介して提供
される。制御プログラムを記録する記録媒体としては、
磁気読取方式の記録媒体(例えば、磁気テープ、フロッ
ピー(登録商標)ディスク、磁気カード)、光学読取方
式の記録媒体(例えば、CD−ROM、MO、CD−
R、DVD)等が考えられる。記録媒体には、半導体メ
モリ(いわゆるメモリカード(矩形型、正方形型等形状
は問わない。)、ICカード)等の記憶媒体も含まれ
る。また、制御プログラムは、いわゆるインターネット
等を介して提供されてもよい。
【0151】これらの制御プログラムは、専用の読込ド
ライバ装置、又はパーソナルコンピュータ等を介して再
生され、有線又は無線接続によってロボット装置1に伝
送されて読み込まれる。また、ロボット装置は、半導体
メモリ、又はICカード等の小型化された記憶媒体のド
ライブ装置を備える場合、これら記憶媒体から制御プロ
グラムを直接読み込むこともできる。ロボット装置1で
は、メモリカード28から読み込むことができる。
【0152】なお、本発明は、上述した実施の形態のみ
に限定されるものではなく、本発明の要旨を逸脱しない
範囲において種々の変更が可能であることは勿論であ
る。本実施の形態では、4足歩行のロボット装置に関し
て説明したが、ロボット装置は、2足歩行であってもよ
く、更に、移動手段は、脚式移動方式に限定されない。
【0153】以下に、本発明の別の実施の形態として示
す人間型ロボット装置の詳細について説明する。図16
及び図17には、人間型ロボット装置200を前方及び
後方の各々から眺望した様子を示している。更に、図1
8には、この人間型ロボット装置200が具備する関節
自由度構成を模式的に示している。
【0154】図16に示すように、人間型ロボット装置
200は、2本の腕部と頭部201を含む上肢と、移動
動作を実現する2本の脚部からなる下肢と、上肢と下肢
とを連結する体幹部とで構成される。
【0155】頭部201を支持する首関節は、首関節ヨ
ー軸202と、首関節ピッチ軸203と、首関節ロール
軸204という3自由度を有している。
【0156】また、各腕節は、肩関節ピッチ軸208
と、肩関節ロール軸209と、上腕ヨー軸210と、肘
関節ピッチ軸211と、前腕ヨー軸212と、手首関節
ピッチ軸213と、手首関節ロール輪214と、手部2
15とで構成される。手部215は、実際には、複数本
の指を含む多関節・多自由度構造体である。ただし、手
部215の動作は人間型ロボット装置200の姿勢制御
や歩行制御に対する寄与や影響が少ないので、本明細書
ではゼロ自由度と仮定する。したがって、各腕部は7自
由度を有するとする。
【0157】また、体幹部は、体幹ピッチ軸205と、
体幹ロール軸206と、体幹ヨー軸207という3自由
度を有する。
【0158】また、下肢を構成する各々の脚部は、股関
節ヨー軸216と、股関節ピッチ軸217と、股関節ロ
ール軸218と、膝関節ピッチ軸219と、足首関節ピ
ッチ軸220と、足首関節ロール軸221と、足部22
2とで構成される。本明細書中では、股関節ピッチ軸2
17と股関節ロール軸218の交点は、人間型ロボット
装置200の股関節位置を定義する。人体の足部222
は、実際には多関節・多自由度の足底を含んだ構造体で
あるが、人間型ロボット装置200の足底は、ゼロ自由
度とする。したがって、各脚部は、6自由度で構成され
る。
【0159】以上を総括すれば、人間型ロボット装置2
00全体としては、合計で3+7×2+3+6×2=3
2自由度を有することになる。ただし、エンターテイン
メント向けの人間型ロボット装置200が必ずしも32
自由度に限定される訳ではない。設計・制作上の制約条
件や要求仕様等に応じて、自由度すなわち関節数を適宜
増減することができることはいうまでもない。
【0160】上述したような人間型ロボット装置200
がもつ各自由度は、実際にはアクチュエータを用いて実
装される。外観上で余分な膨らみを排してヒトの自然体
形状に近似させること、2足歩行という不安定構造体に
対して姿勢制御を行うことなどの要請から、アクチュエ
ータは小型且つ軽量であることが好ましい。
【0161】図19には、人間型ロボット装置200の
制御システム構成を模式的に示している。同図に示すよ
うに、人間型ロボット装置200は、ヒトの四肢を表現
した各機構ユニット230,240,250R/L,2
60R/Lと、各機構ユニット間の協調動作を実現する
ための適応制御を行う制御ユニット280とで構成され
る(ただし、R及びLの各々は、右及び左の各々を示す
接尾辞である。以下同様)。
【0162】人間型ロボット装置200全体の動作は、
制御ユニット280によって統括的に制御される。制御
ユニット280は、CPU(Central Processing Uni
t)やメモリ等の主要回路コンポーネント(図示しな
い)で構成される主制御部281と、電源回路や人間型
ロボット装置200の各構成要素とのデータやコマンド
の授受を行うインターフェイス(何れも図示しない)な
どを含んだ周辺回路282とで構成される。この制御ユ
ニット280の設置場所は、特に限定されない。図19
では体幹部ユニット240に搭載されているが、頭部ユ
ニット230に搭載してもよい。或いは、人間型ロボッ
ト装置200外に制御ユニット280を配備して、人間
型ロボット装置200の機体とは有線若しくは無線で交
信するようにしてもよい。
【0163】図19に示した人間型ロボット装置200
内の各関節自由度は、それぞれに対応するアクチュエー
タによって実現される。すなわち、頭部ユニット230
には、首関節ヨー軸202、首関節ピッチ203、首関
節ロール軸204の各々を表現する首関節ヨー軸アクチ
ュエータA、首関節ピッチ軸アクチュエータA、首
関節ロール軸アクチュエータAが配設されている。
【0164】また、頭部ユニット230には、外部の状
況を撮像するためのCCD(ChargeCoupled Device)カ
メラが設けられているほか、前方に位置する物体までの
距離を測定するための距離センサ、外部音を集音するた
めのマイク、音声を出力するためのスピーカ、使用者か
らの「撫でる」や「叩く」といった物理的な働きかけに
より受けた圧力を検出するためのタッチセンサ等が配設
されている。
【0165】また、体幹部ユニット240には、体幹ピ
ッチ軸205、体幹ロール軸206、体幹ヨー軸207
の各々を表現する体幹ピッチ軸アクチュエータA、体
幹ロール軸アクチュエータA、体幹ヨー軸アクチュエ
ータAが配設されている。また、体幹部ユニット24
0には、この人間型ロボット装置200の起動電源とな
るバッテリを備えている。このバッテリは、充放電可能
な電池によって構成されている。
【0166】また、腕部ユニット250R/Lは、上腕
ユニット251R/Lと、肘関節ユニット252R/L
と、前腕ユニット253R/Lに細分化されるが、肩関
節ピッチ軸8、肩関節ロール軸209、上腕ヨー軸21
0、肘関節ピッチ軸211、前腕ヨー軸212、手首関
節ピッチ軸213、手首関節ロール軸214の各々表現
する肩関節ピッチ軸アクチュエータA、肩関節ロール
軸アクチュエータA、上腕ヨー軸アクチュエータA
10、肘関節ピッチ軸アクチュエータA11、肘関節ロ
ール軸アクチュエータA12、手首関節ピッチ軸アクチ
ュエータA13、手首関節ロール軸アクチュエータA
14が配備されている。
【0167】また、脚部ユニット260R/Lは、大腿
部ユニット261R/Lと、膝ユニット262R/L
と、脛部ユニット263R/Lに細分化されるが、股関
節ヨー軸216、股関節ピッチ軸217、股関節ロール
軸218、膝関節ピッチ軸219、足首関節ピッチ軸2
20、足首関節ロール軸221の各々を表現する股関節
ヨー軸アクチュエータA16、股関節ピッチ軸アクチュ
エータA17、股関節ロール軸アクチュエータA18
膝関節ピッチ軸アクチュエータA19、足首関節ピッチ
軸アクチュエータA20、足首関節ロール軸アクチュエ
ータA21が配備されている。各関節に用いられるアク
チュエータA,A・・・は、より好ましくは、ギア直
結型で旦つサーボ制御系をワンチップ化してモータ・ユ
ニット内に搭載したタイプの小型ACサーボ・アクチュ
エータで構成することができる。
【0168】頭部ユニット230、体幹部ユニット24
0、腕部ユニット250、各脚部ユニット260などの
各機構ユニット毎に、アクチュエータ駆動制御部の副制
御部235,245,255R/L,265R/Lが配
備されている。更に、各脚部260R,Lの足底が着床
したか否かを検出する接地確認センサ291及び292
を装着するとともに、体幹部ユニット240内には、姿
勢を計測する姿勢センサ293を装備している。
【0169】接地確認センサ291及び292は、例え
ば足底に設置された近接センサ又はマイクロ・スイッチ
などで構成される。また、姿勢センサ293は、例え
ば、加速度センサとジャイロ・センサの組み合わせによ
って構成される。
【0170】接地確認センサ291及び292の出力に
よって、歩行・走行などの動作期間中において、左右の
各脚部が現在立脚又は遊脚何れの状態であるかを判別す
ることができる。また、姿勢センサ293の出力によ
り、体幹部分の傾きや姿勢を検出することができる。
【0171】主制御部281は、各センサ291〜29
3の出力に応答して制御目標をダイナミックに補正する
ことができる。より具体的には、副制御部235,24
5,255R/L,265R/Lの各々に対して適応的
な制御を行い、人間型ロボット装置200の上肢、体
幹、及び下肢が協調して駆動する全身運動パターンを実
現できる。
【0172】人間型ロボット装置200の機体上での全
身運動は、足部運動、ZMP(ZeroMoment Point)軌
道、体幹運動、上肢運動、腰部高さなどを設定するとと
もに、これらの設定内容にしたがった動作を指示するコ
マンドを各副制御部235,245,255R/L,2
65R/Lに転送する。そして、各々の副制御部23
5,245,・・・等では、主制御部281からの受信
コマンドを解釈して、各アクチュエータA,A・・
・等に対して駆動制御信号を出力する。ここでいう「Z
MP」とは、歩行中の床反力によるモーメントがゼロと
なる床面上の点のことであり、また、「ZMP軌道」と
は、例えば人間型ロボット装置200の歩行動作期間中
にZMPが動く軌跡を意味する。
【0173】歩行時には、重力と歩行運動に伴って生じ
る加速度によって、歩行系から路面には重力と慣性力、
並びにこれらのモーメントが作用する。いわゆる「ダラ
ンベールの原理」によると、それらは路面から歩行系へ
の反作用としての床反力、床反力モーメントとバランス
する。力学的推論の帰結として、足底接地点と路面の形
成する支持多角形の辺上或いはその内側にピッチ及びロ
ール軸モーメントがゼロとなる点、すなわち「ZMP
(Zero Moment Point)」が存在する。
【0174】脚式移動ロボットの姿勢安定制御や歩行時
の転倒防止に関する提案の多くは、このZMPを歩行の
安定度判別の規範として用いたものである。ZMP規範
に基づく2足歩行パターン生成は、足底着地点を予め設
定することができ、路面形状に応じた足先の運動学的拘
束条件を考慮しやすいなどの利点がある。また、ZMP
を安定度判別規範とすることは、力ではなく軌道を運動
制御上の目標値として扱うことを意味するので、技術的
に実現可能性が高まる。なお、ZMPの概念並びにZM
Pを歩行ロボットの安定度判別規範に適用する点につい
ては、Miomir Vukobratovic著“LEGGED LOCOMOTION ROB
OTS”(加藤一郎外著『歩行ロボットと人工の足』(日
刊工業新聞社))に記載されている。
【0175】一般には、4足歩行よりもヒューマノイド
のような2足歩行のロボットの方が、重心位置が高く、
且つ、歩行時のZMP安定領域が狭い。したがって、こ
のような路面状態の変化に伴う姿勢変動の問題は、2足
歩行ロボットにおいてとりわけ重要となる。
【0176】以上のように、人間型ロボット装置200
は、各々の副制御部235,245,・・・等が、主制
御部281からの受信コマンドを解釈して、各アクチュ
エータA,A・・・に対して駆動制御信号を出力
し、各ユニットの駆動を制御している。これにより、人
間型ロボット装置200は、目標の姿勢に安定して遷移
し、安定した姿勢で歩行できる。
【0177】また、人間型ロボット装置200における
制御ユニット280では、上述したような姿勢制御のほ
かに、加速度センサ、タッチセンサ、接地確認センサ等
の各種センサ、及びCCDカメラからの画像情報、マイ
クからの音声情報等を統括して処理している。制御ユニ
ット280では、図示しないが加速度センサ、ジャイロ
・センサ、タッチセンサ、距離センサ、マイク、スピー
カなどの各種センサ、各アクチュエータ、CCDカメラ
及びバッテリが各々対応するハブを介して主制御部28
1と接続されている。
【0178】主制御部281は、上述の各センサから供
給されるセンサデータや画像データ及び音声データを順
次取り込み、これらをそれぞれ内部インターフェイスを
介してDRAM内の所定位置に順次格納する。また、主
制御部281は、バッテリから供給されるバッテリ残量
を表すバッテリ残量データを順次取り込み、これをDR
AM内の所定位置に格納する。DRAMに格納された各
センサデータ、画像データ、音声データ及びバッテリ残
量データは、主制御部281がこの人間型ロボット装置
200の動作制御を行う際に利用される。
【0179】主制御部281は、人間型ロボット装置2
00の電源が投入された初期時、制御プログラムを読み
出し、これをDRAMに格納する。また、主制御部28
1は、上述のように主制御部281よりDRAMに順次
格納される各センサデータ、画像データ、音声データ及
びバッテリ残量データに基づいて自己及び周囲の状況
や、使用者からの指示及び働きかけの有無などを判断す
る。更に、主制御部281は、この判断結果及びDRA
Mに格納した制御プログラムに基づいて自己の状況に応
じて行動を決定するとともに、当該決定結果に基づいて
必要なアクチュエータを駆動させることにより人間型ロ
ボット装置200に、いわゆる「身振り」、「手振り」
といった行動をとらせる。
【0180】したがって、人間型ロボット装置200
は、制御プログラムに基づいて自己及び周囲の状況を判
断し、使用者からの指示及び働きかけに応じて自律的に
行動できる。また、人間型ロボット装置200は、CC
Dカメラにおいて撮像された画像から抽出した文字の発
音のしかた(読み方)を、抽出された文字から推定され
る読み方と集音マイクにおいて集音された音声とをマッ
チングして決定する。したがって、人間型ロボット装置
200の音声認識の精度が向上し、新規単語が音声認識
用辞書に登録できる。
【0181】
【発明の効果】以上詳細に説明したように、本発明に係
るロボット装置は、単語と該単語の発音のしかたとの対
応関係が音声認識用辞書として記憶された音声認識用記
憶手段と、単語と該単語の表音文字との対応関係が単語
表音テーブルとして記憶された単語表音記憶手段と、被
写体を撮像する撮像手段と、撮像手段において撮像され
た画像から所定パターンの画像を抽出する画像認識手段
と、周囲の音を取得する集音手段と、集音手段において
取得された音から音声を認識する音声認識手段と、画像
認識手段において抽出された所定パターンの画像から推
定される複数通りの表音文字を単語表音テーブルに基づ
いて付与し、付与された複数通りの表音文字の各々に対
して発音のしかたと発音に相当する音声波形とを生成す
る発音情報生成手段と、発音情報生成手段において生成
された各音声波形と音声認識手段において認識された音
声の音声波形とを比較し、最も近い音声波形を抽出した
文字の発音のしかたであるとして音声認識用辞書に新規
に記憶する記憶制御手段とを備える。
【0182】本発明に係るロボット装置は、撮像手段に
おいて撮像された画像から抽出された所定パターンの画
像から推定される複数通りの表音文字を単語表音テーブ
ルに基づいて付与し、付与した複数通りの表音文字の各
々に対して発音のしかたと発音に相当する音声波形とを
生成し、発音情報生成手段において生成された各音声波
形と音声認識手段において認識された音声の音声波形と
を比較して最も近い音声波形を抽出した文字の発音のし
かたであるとして決定する。
【0183】したがって、本発明に係るロボット装置に
よれば、特に、弱い音素(例えば、語頭の/s/等)を
含む発音の誤認識、周囲の雑音の影響による入力音素の
変化、音声区間検出の失敗等による悪影響が抑止され、
新規単語を登録する際の認識精度が向上できる。これに
より、正確な発音のしかたが音声認識用辞書に記憶でき
るため、新規単語として登録された語を認識する際の認
識精度が向上する。
【0184】また、本発明に係るロボット装置は、単語
とこの単語の表音文字と単語属性とを含む単語情報が単
語属性テーブルとして記憶された単語情報記憶手段を備
え、記憶制御手段が新規に記憶する文字と該文字の発音
のしかたとともに単語属性を対応させて音声認識用辞書
に記憶する。
【0185】したがって、本発明に係るロボット装置に
よれば、入力した音声及び出力する音声に文法規則、対
話規則等を適用する上で必要となる単語属性情報をユー
ザが入力する必要がなくなり利便性が向上するととも
に、ユーザが属性情報を知らない場合に属性情報が入力
できなかったという不都合が改善される。
【0186】また、本発明に係る文字認識装置は、単語
と該単語の発音のしかたとの対応関係が音声認識用辞書
として記憶された音声認識用記憶手段と、単語と該単語
の表音文字との対応関係が単語表音テーブルとして記憶
された単語表音記憶手段と、被写体を撮像する撮像手段
と、撮像手段において撮像された画像から所定パターン
の画像を抽出する画像認識手段と、周囲の音を取得する
集音手段と、集音手段において取得された音から音声を
認識する音声認識手段と、画像認識手段において抽出さ
れた文字から推定される複数通りの表音文字を単語表音
テーブルに基づいて付与し、付与された複数通りの表音
文字の各々に対して発音のしかたと発音に相当する音声
波形とを生成する発音情報生成手段と、発音情報生成手
段において生成された各音声波形と音声認識手段におい
て認識された音声の音声波形とを比較し、最も近い音声
波形を抽出した文字の発音のしかたであるとして音声認
識用辞書に新規に記憶する記憶制御手段とを備える。
【0187】したがって、本発明に係る文字認識装置に
よれば、特に、弱い音素(例えば、語頭の/s/等)を
含む発音の誤認識、周囲の雑音の影響による入力音素の
変化、音声区間検出の失敗等による悪影響が抑止され、
新規単語を登録する際の認識精度が向上できる。これに
より、正確な発音のしかたが音声認識用辞書に記憶でき
るため、新規単語として登録された語を認識する際の認
識精度が向上する。
【0188】また、本発明に係る文字認識装置は、単語
とこの単語の表音文字と単語属性とを含む単語情報が単
語属性テーブルとして記憶された単語情報記憶手段を備
え、記憶制御手段が新規に記憶する文字と該文字の発音
のしかたとともに単語属性を対応させて音声認識用辞書
に記憶する。
【0189】したがって、本発明に係る文字認識装置に
よれば、入力した音声及び出力する音声に文法規則、対
話規則等を適用する上で必要となる単語属性情報をユー
ザが入力する必要がなくなり利便性が向上するととも
に、ユーザが属性情報を知らない場合は、属性情報を入
力できなかったという不都合が改善される。
【0190】また、本発明に係る文字認識方法は、被写
体を撮像する撮像工程と、撮像工程において撮像された
画像から所定パターンの画像を抽出する画像認識工程
と、周囲の音を取得する集音工程と、集音工程において
取得された音から音声を認識する音声認識工程と、画像
認識工程において抽出された文字から推定される複数通
りの表音文字を単語と該単語の表音文字との対応関係が
記憶された単語表音テーブルに基づいて付与し、付与さ
れた複数通りの表音文字の各々に対して発音のしかたと
発音に相当する音声波形とを生成する発音情報生成工程
と、発音情報生成工程において生成された各音声波形と
音声認識工程において認識された音声の音声波形とを比
較し、最も近い音声波形を抽出した文字の発音のしかた
であるとして単語と該単語の発音のしかたとの対応関係
を記憶した音声認識用辞書に新規に記憶する記憶制御工
程とを備える。
【0191】したがって、本発明に係る文字認識方法に
よれば、特に、弱い音素(例えば、語頭の/s/等)を
含む発音の誤認識、周囲の雑音の影響による入力音素の
変化、音声区間検出の失敗等による悪影響が抑止され、
新規単語を登録する際の認識精度が向上できる。これに
より、正確な発音のしかたが音声認識用辞書に記憶でき
るため、新規単語として登録された語を認識する際の認
識精度が向上する。
【0192】また、本発明に係る文字認識方法によれ
ば、単語とこの単語の表音文字と単語属性とを含む単語
情報が単語属性テーブルとして記憶された単語情報記憶
手段を備え、記憶制御手段が新規に記憶する文字と該文
字の発音のしかたとともに単語属性を対応させて音声認
識用辞書に記憶する。
【0193】したがって、本発明に係る文字認識方法に
よれば、入力した音声及び出力する音声に文法規則、対
話規則等を適用する上で必要となる単語属性情報をユー
ザが入力する必要がなくなり利便性が向上するととも
に、ユーザが属性情報を知らない場合は、属性情報を入
力できなかったという不都合が改善される。
【0194】更に、本発明に係る制御プログラムは、被
写体を撮像する撮像処理と、撮像処理によって撮像され
た画像から所定パターンの画像を抽出する画像認識処理
と、周囲の音を取得する集音処理と、集音処理によって
取得された音から音声を認識する音声認識処理と、画像
認識処理によって抽出された文字から推定される複数通
りの表音文字を単語と該単語の表音文字との対応関係が
記憶された単語表音テーブルに基づいて付与し、付与さ
れた複数通りの表音文字の各々に対して発音のしかたと
発音に相当する音声波形とを生成する発音情報生成処理
と、発音情報生成処理によって生成された各音声波形と
音声認識処理において認識された音声の音声波形とを比
較し、最も近い音声波形を抽出した文字の発音のしかた
であるとして単語と該単語の発音のしかたとの対応関係
を記憶した音声認識用辞書に新規に記憶する記憶処理と
をロボット装置に実行させる。
【0195】したがって、本発明に係る制御プログラム
によれば、ロボット装置は、特に、弱い音素(例えば、
語頭の/s/等)を含む発音の誤認識、周囲の雑音の影
響による入力音素の変化、音声区間検出の失敗等による
悪影響が抑止され、新規単語を登録する際の認識精度が
向上される。これにより、正確な発音のしかたが音声認
識用辞書に記憶できるため、新規単語として登録された
語を認識する際の認識精度が向上する。
【0196】また、上述の制御プログラムを記録媒体に
記録して提供することによって、この記録媒体を読込可
能で画像認識手段と音声認識手段とを備える音声認識装
置としての機能を有する電子機器に対して、新規単語を
登録する際の認識精度が向上される。これにより、正確
な発音のしかたが記憶できるため、新規単語として登録
された語を認識する際の認識精度が向上する。
【図面の簡単な説明】
【図1】本発明の一構成例として示すロボット装置の外
観を示す外観図である。
【図2】本発明の一構成例として示すロボット装置の構
成を示す構成図である。
【図3】本発明の一構成例として示すロボット装置にお
ける画像音声認識部の構成を示す構成図である。
【図4】本発明の一構成例として示すロボット装置の音
声認識用辞書を説明する図である。
【図5】本発明の一構成例として示すロボット装置の単
語読み属性テーブルを説明する図である。
【図6】本発明の一構成例として示すロボット装置の文
字読みテーブルを説明する図である。
【図7】本発明の一構成例として示すロボット装置が新
規単語を音声認識用辞書に登録する処理を説明するフロ
ーチャートである。
【図8】本発明の一構成例として示すロボット装置の新
規単語用認識用辞書を説明する図である。
【図9】本発明の一構成例として示すロボット装置が認
識した文字列の発音のしかた(読み方)を生成する処理
を説明するフローチャートである。
【図10】本発明の一構成例として示すロボット装置の
制御プログラムのソフトウェア構成を示す構成図であ
る。
【図11】本発明の一構成例として示すロボット装置の
制御プログラムのうち、ミドル・ウェア・レイヤの構成
を示す構成図である。
【図12】本発明の一構成例として示すロボット装置の
制御プログラムのうち、アプリケーション・レイヤの構
成を示す構成図である。
【図13】本発明の一構成例として示すロボット装置の
制御プログラムのうち、行動モデルライブラリの構成を
示す構成図である。
【図14】本発明の一構成例として示すロボット装置の
行動を決定するためのアルゴリズムである有限確率オー
トマトンを説明する模式図である。
【図15】本発明の一構成例として示すロボット装置の
行動を決定するための状態遷移条件を表す図である。
【図16】本発明の一構成例として示す人間型ロボット
装置の前方からみた外観を説明する外観図である。
【図17】本発明の一構成例として示す人間型ロボット
装置の後方からみた外観を説明する外観図である。
【図18】本発明の一構成例として示す人間型ロボット
装置の自由度構成モデルを模式的に示す図である。
【図19】本発明の一構成例として示す人間型ロボット
装置の制御システム構成を説明する図である。
【図20】図20(a)は、「音素」を基本単位とする
ガーベージモデルを適用した従来の音声認識方法を示す
模式図であり、図20(b)は、「かな」を基本単位と
するガーベージモデルを適用した従来の音声認識方法を
示す模式図である。
【符号の説明】
1 ロボット装置、2 胴体部ユニット、3A,3B,
3C,3D 脚部ユニット、4 頭部ユニット、5 尻
尾部ユニット、10 CPU、11 DRAM、12
フラッシュROM、13 PCカードインターフェイス
回路、14 信号処理回路、15 内部バス、16 コ
ントロール部、17 バッテリ、18角速度センサ、1
9 加速度センサ、20 CCDカメラ、21 タッチ
センサ、22 距離センサ、23 マイク、24 スピ
ーカ、25〜25 アクチュエータ、26〜26
ポテンショメータ、27〜27 ハブ、28メ
モリカード、100 画像音声認識部、110 対話管
理部、111対話規則テーブル、120 音声認識部、
121 音声認識用辞書、122 音響モデル、123
言語モデル、124 音響分析部、130 出力生成
部、140 画像処理文字認識部、141 文字パター
ンデータベース、150 発音情報生成部、151 単
語読み属性テーブル、152 文字読みテーブル、15
3 読み付与テーブル、200 人間型ロボット装置
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/22 G10L 3/00 521V 15/24 571Q 571T 531Q (72)発明者 河本 献太 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 佐部 浩太郎 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 大橋 武史 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 5B064 AA07 FA16 5D015 GG03 HH23 KK02 KK04 LL07 LL11

Claims (22)

    【特許請求の範囲】
  1. 【請求項1】 内部状態に応じて自律的に動作するロボ
    ット装置において、 単語と該単語の発音のしかたとの対応関係が音声認識用
    辞書として記憶された音声認識用記憶手段と、 単語と該単語の表音文字との対応関係が単語表音テーブ
    ルとして記憶された単語表音記憶手段と、 被写体を撮像する撮像手段と、 上記撮像手段において撮像された画像から所定パターン
    の画像を抽出する画像認識手段と、 周囲の音を取得する集音手段と、 上記集音手段において取得された音から音声を認識する
    音声認識手段と、 上記画像認識手段において抽出された上記所定パターン
    から推定される複数通りの表音文字を上記単語表音テー
    ブルに基づいて付与し、上記付与された複数通りの表音
    文字の各々に対して発音のしかたと発音に相当する音声
    波形とを生成する発音情報生成手段と、 上記発音情報生成手段において生成された各音声波形と
    上記音声認識手段において認識された音声の音声波形と
    を比較し、最も近い音声波形を上記画像認識手段におい
    て抽出されたパターン認識結果に対応する発音のしかた
    であるとして上記音声認識用辞書に新規に記憶する記憶
    制御手段とを備えることを特徴とするロボット装置。
  2. 【請求項2】 上記所定パターンの画像は、文字及び/
    又は複数個の文字からなる文字列であることを特徴とす
    る請求項1記載のロボット装置。
  3. 【請求項3】 上記画像から抽出される複数個の文字と
    該文字に対して付与される複数通りの発音のしかたとの
    対応を一時辞書として一時的に記憶する一時記憶手段を
    備えることを特徴とする請求項2記載のロボット装置。
  4. 【請求項4】 単語と該単語の表音文字と単語属性とを
    含む単語情報が単語属性テーブルとして記憶された単語
    情報記憶手段を備え、上記記憶制御手段は、新規に記憶
    する文字と該文字の発音のしかたとともに上記単語属性
    を対応させて上記音声認識用辞書に記憶することを特徴
    とする請求項2記載のロボット装置。
  5. 【請求項5】 上記音声認識手段において認識された音
    声に対する応答を生成する対話管理手段を備え、上記対
    話管理手段は、上記単語属性を音声に対する応答規則で
    使用することを特徴とする請求項4記載のロボット装
    置。
  6. 【請求項6】 上記音声認識手段は、隠れマルコフモデ
    ル法に基づいて音声を認識することを特徴とする請求項
    2記載のロボット装置。
  7. 【請求項7】 単語と該単語の発音のしかたとの対応関
    係が音声認識用辞書として記憶された音声認識用記憶手
    段と、 単語と該単語の表音文字との対応関係が単語表音テーブ
    ルとして記憶された単語表音記憶手段と、 被写体を撮像する撮像手段と、 上記撮像手段において撮像された画像から所定パターン
    の画像を抽出する画像認識手段と、 周囲の音を取得する集音手段と、 上記集音手段において取得された音から音声を認識する
    音声認識手段と、 上記画像認識手段において抽出された上記所定パターン
    の画像から推定される複数通りの表音文字を上記単語表
    音テーブルに基づいて付与し、上記付与された複数通り
    の表音文字の各々に対して発音のしかたと発音に相当す
    る音声波形とを生成する発音情報生成手段と、 上記発音情報生成手段において生成された各音声波形と
    上記音声認識手段において認識された音声の音声波形と
    を比較し、最も近い音声波形を上記抽出した文字の発音
    のしかたであるとして上記音声認識用辞書に新規に記憶
    する記憶制御手段とを備えることを特徴とする文字認識
    装置。
  8. 【請求項8】 上記所定パターンの画像は、文字及び/
    又は複数個の文字からなる文字列であることを特徴とす
    る請求項7記載の文字認識装置。
  9. 【請求項9】 上記画像から抽出される複数個の文字と
    該文字に対して付与される複数通りの発音のしかたとの
    対応を一時辞書として一時的に記憶する一時記憶手段を
    備えることを特徴とする請求項7記載の文字認識装置。
  10. 【請求項10】 単語と該単語の表音文字と単語属性と
    を含む単語情報が単語属性テーブルとして記憶された単
    語情報記憶手段を備え、上記記憶制御手段は、新規に記
    憶する文字と該文字の発音のしかたとともに上記単語属
    性を対応させて上記音声認識用辞書に記憶することを特
    徴とする請求項7記載の文字認識装置。
  11. 【請求項11】 上記音声認識手段において認識された
    音声に対する応答を生成する対話管理手段を備え、上記
    対話管理手段は、上記単語属性を音声に対する応答規則
    で使用することを特徴とする請求項10記載の文字認識
    装置。
  12. 【請求項12】 上記音声認識手段は、隠れマルコフモ
    デル法に基づいて音声を認識することを特徴とする請求
    項7記載の文字認識装置。
  13. 【請求項13】 被写体を撮像する撮像工程と、 上記撮像工程において撮像された画像から所定パターン
    の画像を抽出する画像認識工程と、 周囲の音を取得する集音工程と、 上記集音工程において取得された音から音声を認識する
    音声認識工程と、 上記画像認識工程において抽出された所定パターンの画
    像から推定される複数通りの表音文字を単語と該単語の
    表音文字との対応関係が記憶された単語表音テーブルに
    基づいて付与し、上記付与された複数通りの表音文字の
    各々に対して発音のしかたと発音に相当する音声波形と
    を生成する発音情報生成工程と、 上記発音情報生成工程において生成された各音声波形と
    上記音声認識工程において認識された音声の音声波形と
    を比較し、最も近い音声波形を上記抽出した文字の発音
    のしかたであるとして単語と該単語の発音のしかたとの
    対応関係を記憶した音声認識用辞書に新規に記憶する記
    憶制御工程とを備えることを特徴とする文字認識方法。
  14. 【請求項14】 上記所定パターンの画像は、文字及び
    /又は複数個の文字からなる文字列であることを特徴と
    する請求項13記載の文字認識方法。
  15. 【請求項15】 上記画像から抽出される複数個の文字
    と該文字に対して付与される複数通りの発音のしかたと
    の対応を一時辞書として一時記憶手段に記憶する工程を
    備えることを特徴とする請求項14記載の文字認識方
    法。
  16. 【請求項16】 上記記憶制御工程では、新規に記憶す
    る文字と該文字の発音のしかたとともに単語属性を対応
    させて上記音声認識用辞書に記憶することを特徴とする
    請求項14記載の文字認識方法。
  17. 【請求項17】 上記音声認識工程において認識された
    音声に対する応答を生成する対話管理工程を備え、上記
    対話管理工程では、上記単語属性が音声に対する応答規
    則で使用されることを特徴とする請求項16記載の文字
    認識方法。
  18. 【請求項18】 上記音声認識工程では、隠れマルコフ
    モデル法に基づいて音声認識されることを特徴とする請
    求項14記載の文字認識方法。
  19. 【請求項19】 内部状態に応じて自律的に動作するロ
    ボット装置の制御プログラムにおいて、 被写体を撮像する撮像処理と、 上記撮像処理によって撮像された画像から所定パターン
    の画像を抽出する画像認識処理と、 周囲の音を取得する集音処理と、 上記集音処理によって取得された音から音声を認識する
    音声認識処理と、 上記画像認識処理によって抽出された所定パターンの画
    像から推定される複数通りの表音文字を単語と該単語の
    表音文字との対応関係が記憶された単語表音テーブルに
    基づいて付与し、上記付与された複数通りの表音文字の
    各々に対して発音のしかたと発音に相当する音声波形と
    を生成する発音情報生成処理と、 上記発音情報生成処理によって生成された各音声波形と
    上記音声認識処理において認識された音声の音声波形と
    を比較し、最も近い音声波形を上記抽出した文字の発音
    のしかたであるとして単語と該単語の発音のしかたとの
    対応関係を記憶した音声認識用辞書に新規に記憶する記
    憶処理とをロボット装置に実行させることを特徴とする
    制御プログラム。
  20. 【請求項20】 上記所定パターンの画像は、文字及び
    /又は複数個の文字からなる文字列であることを特徴と
    する請求項19記載の制御プログラム。
  21. 【請求項21】 被写体を撮像する撮像処理と、 上記撮像処理によって撮像された画像から所定パターン
    の画像を抽出する画像認識処理と、 周囲の音を取得する集音処理と、 上記集音処理によって取得された音から音声を認識する
    音声認識処理と、 上記画像認識処理によって抽出された所定パターンの画
    像から推定される複数通りの表音文字を単語と該単語の
    表音文字との対応関係が記憶された単語表音テーブルに
    基づいて付与し、上記付与された複数通りの表音文字の
    各々に対して発音のしかたと発音に相当する音声波形と
    を生成する発音情報生成処理と、 上記発音情報生成処理によって生成された各音声波形と
    上記音声認識処理において認識された音声の音声波形と
    を比較し、最も近い音声波形を上記抽出した文字の発音
    のしかたであるとして単語と該単語の発音のしかたとの
    対応関係を記憶した音声認識用辞書に新規に記憶する記
    憶処理とをロボット装置に実行させるための制御プログ
    ラムが記録された記録媒体。
  22. 【請求項22】 上記所定パターンの画像は、文字及び
    /又は複数個の文字からなる文字列であることを特徴と
    する請求項21記載の記録媒体。
JP2002130905A 2001-05-02 2002-05-02 ロボット装置、文字認識装置及び文字認識方法、並びに、制御プログラム及び記録媒体 Withdrawn JP2003044080A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002130905A JP2003044080A (ja) 2001-05-02 2002-05-02 ロボット装置、文字認識装置及び文字認識方法、並びに、制御プログラム及び記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001135423 2001-05-02
JP2001-135423 2001-05-02
JP2002130905A JP2003044080A (ja) 2001-05-02 2002-05-02 ロボット装置、文字認識装置及び文字認識方法、並びに、制御プログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2003044080A true JP2003044080A (ja) 2003-02-14

Family

ID=26614662

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002130905A Withdrawn JP2003044080A (ja) 2001-05-02 2002-05-02 ロボット装置、文字認識装置及び文字認識方法、並びに、制御プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2003044080A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004084183A1 (ja) * 2003-03-20 2004-09-30 Sony Corporation 音声対話装置及び方法並びにロボット装置
JP2005258443A (ja) * 2004-03-10 2005-09-22 Microsoft Corp 発音グラフを使用して新しい単語の発音学習を改善すること
US7152050B2 (en) 2003-02-19 2006-12-19 Sony Corporation Learning system capable of performing additional learning and robot apparatus
JP2010282199A (ja) * 2009-06-02 2010-12-16 Honda Motor Co Ltd 語彙獲得装置、マルチ対話行動システム及び語彙獲得プログラム
JP2014504959A (ja) * 2011-01-26 2014-02-27 本田技研工業株式会社 人間型ロボットのジェスチャと音声の同期
WO2020075358A1 (ja) * 2018-10-09 2020-04-16 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7152050B2 (en) 2003-02-19 2006-12-19 Sony Corporation Learning system capable of performing additional learning and robot apparatus
WO2004084183A1 (ja) * 2003-03-20 2004-09-30 Sony Corporation 音声対話装置及び方法並びにロボット装置
JP2005258443A (ja) * 2004-03-10 2005-09-22 Microsoft Corp 発音グラフを使用して新しい単語の発音学習を改善すること
JP2010282199A (ja) * 2009-06-02 2010-12-16 Honda Motor Co Ltd 語彙獲得装置、マルチ対話行動システム及び語彙獲得プログラム
JP2014504959A (ja) * 2011-01-26 2014-02-27 本田技研工業株式会社 人間型ロボットのジェスチャと音声の同期
US9431027B2 (en) 2011-01-26 2016-08-30 Honda Motor Co., Ltd. Synchronized gesture and speech production for humanoid robots using random numbers
WO2020075358A1 (ja) * 2018-10-09 2020-04-16 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Similar Documents

Publication Publication Date Title
KR100940630B1 (ko) 로봇 장치와, 문자 인식 장치 및 문자 인식 방법과, 제어프로그램 및 기록 매체
JP4150198B2 (ja) 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置
US6509707B2 (en) Information processing device, information processing method and storage medium
KR100843822B1 (ko) 로봇 장치, 로봇 장치의 동작 제어 방법 및 로봇 장치의동작 제어 시스템
US7251606B2 (en) Robot device with changing dialogue and control method therefor and storage medium
US20020198717A1 (en) Method and apparatus for voice synthesis and robot apparatus
US20040019484A1 (en) Method and apparatus for speech synthesis, program, recording medium, method and apparatus for generating constraint information and robot apparatus
JP2002358095A (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
JP2002283259A (ja) ロボット装置のための動作教示装置及び動作教示方法、並びに記憶媒体
JP2002351305A (ja) 語学研修用ロボット
WO2002077970A1 (en) Speech output apparatus
US20200406469A1 (en) Information processing apparatus and information processing method, and robot apparatus
JP2003044080A (ja) ロボット装置、文字認識装置及び文字認識方法、並びに、制御プログラム及び記録媒体
JP4600736B2 (ja) ロボット制御装置および方法、記録媒体、並びにプログラム
JP2002323900A (ja) ロボット装置、プログラム及び記録媒体
JP2004283927A (ja) ロボット制御装置および方法、記録媒体、並びにプログラム
JP4706893B2 (ja) 音声認識装置および方法、並びに、プログラムおよび記録媒体
JP2002307349A (ja) ロボット装置、情報学習方法、プログラム及び記録媒体
JP2003271172A (ja) 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置
JP2001154693A (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP4016316B2 (ja) ロボット装置およびロボット制御方法、記録媒体、並びにプログラム
JP2004309523A (ja) ロボット装置の動作パターン共有システム、ロボット装置の動作パターン共有方法、及びロボット装置
JP7459791B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2002331481A (ja) ロボット装置、動作作成装置及び動作作成方法、並びに、制御プログラム及び記録媒体
JP2002321177A (ja) 脚式移動ロボット及びその制御方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050705