JP2009151314A

JP2009151314A - 情報処理装置及び情報処理方法

Info

Publication number: JP2009151314A
Application number: JP2008329888A
Authority: JP
Inventors: Satoshi Fujimura; 聡藤村; Naohiro Yokoo; 直弘横尾; Yasuhiko Kato; 靖彦加藤
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-12-25
Filing date: 2008-12-25
Publication date: 2009-07-09

Abstract

【課題】本発明は、情報処理装置及び情報処理方法に関し、例えば携帯電話、パーソナルコンピュータ等の各種情報機器に適用して、一段と身近な親しみ易い電子ペット装置、電子ペットを有する情報処理装置、携帯機器、情報処理手順を記録した記録媒体及び情報処理方法を提案する。
【解決手段】本発明は、ネットワークに接続して種々のデータＤＴを送受し、また音声ＤＡにより単語を登録できるようにし、またユーザー認証により応答を異ならせ、また音声入力と応答とを分類してこの分類により応答を生成し、さらに過去の履歴により感情を変化させる。
【選択図】図１

Description

本発明は、情報処理装置及び情報処理方法に関し、例えば携帯電話、パーソナルコンピュータ等の各種情報機器に適用することができる。本発明は、応答の生成に必要な各種データをネットワークを介して交換することにより、また音声にて単語等を登録できるようにすること等により、一段と身近な親しみ易い電子ペット装置、電子ペットを有する情報処理装置、携帯機器、情報処理手順を記録した記録媒体及び情報処理方法を提案する。

従来、パーソナルコンピュータにおいては、いわゆる育成シュミレーションゲームソフトが提案されている。この育成シュミレーションゲームは、コンピュータによる仮想現実空間においてペット（いわゆる電子ペットである）を飼育するゲームであり、実際に動物のペットを飼育する場合に比して簡易にペットとの交流を図ることができる。
特開平０９−０１６８００号公報特開平０６−０１２４０１号公報特開平１０−１４３３５１号公報特開平０８−２９７６２５号公報まどかえみこ，明日は明日のウィンドウズ：イチからはじめるＩＥ４ＮＯ．３，ＰＣｆａｎ，日本，株式会社毎日コミュニケーションズ，１９９８年５月１５日，第５巻９号通巻７７号，ｐ．１０４−１０７日経ＷｉｎｄｏｗｓＮＴ，日本，日経ＢＰ社，１９９８年７月１日，第１６号，ｐ．１８９

ところで実際のペットにおいては、その日の体調、周囲の環境等により種々に異なる挙動を示す。また飼い主自体についてもこれを認識し、飼い主と飼い主以外とでは異なる挙動を示す。さらに学習により挙動が変化することもある。

これら実際のペットにおける各種挙動を電子ペットにおいても再現することができれば、電子ペットを一段と身近な親しみ易いものとすることができると考ええられる。

本発明は以上の点を考慮してなされたもので、さらに一段と身近な親しみ易いものとすることができる情報処理装置及び情報処理方法を提案しようとするものである。

上記の課題を解決するため請求項１の発明は、情報処理装置に適用して、ユーザーの音声を入力する音声入力手段と、前記音声入力手段より入力した音声を音声認識処理して音声認識結果を出力する音声認識手段と、前記音声に含まれる単語の前記音声認識結果と、対応する単語の分類とを保持する音声認識結果のデータベースと、前記音声認識結果を基準にして前記データベースを検索し、前記音声認識結果の音声に含まれる単語の分類に従って、前記音声認識結果に対応する応答を生成する応答生成手段と、前記応答を出力する応答出力手段と、登録の動作モードにおいて、前記音声認識結果に基づいて、少なくとも前記データベースに前記単語の音声認識結果を登録することにより、音声により前記データベースを変更可能な登録手段とを備えるようにする。

また請求項７の発明は、情報処理方法に適用して、登録の動作モードにおいて、音声認識結果に基づいて、少なくともデータベースに単語の音声認識結果を登録することにより、音声によりデータベースを変更可能な登録処理を有するようにする。

また請求項８の発明は、情報処理装置に適用して、音声に基づいて、ユーザーを認証するユーザー認証手段を備えるようにし、応答生成手段は、ユーザー認証手段の認証結果に基づいて、音声入力者に応じて応答を異ならせるようにする。

また請求項１４の発明は、情報処理方法に適用して、音声に基づいて、ユーザーを認証するユーザー認証処理を有するようにし、応答生成処理が、ユーザー認証処理の認証結果に基づいて、音声入力者に応じて応答を異ならせるようにする。

また請求項１５の発明は、情報処理装置に適用して、所定の応答生成ルールに従って、音声認識結果に対応する応答を生成するにつき、音声に基づいて、音声による入力の種類を識別する発話分類手段を備えるようにし、応答生成ルールが、入力の種類に応じて、入力の種類に対応する応答の分類に従って、所定の種類の応答を除く応答を生成するルールであるようにする。

また請求項１８の発明は、情報処理方法に適用して、所定の応答生成ルールに従って、音声認識結果に対応する応答を生成する情報処理手順につき、音声に基づいて、音声による入力の種類を識別するようにし、応答生成ルールが、入力の種類に応じて、入力の種類に対応する応答の分類に従って、所定の種類の応答を除く応答を生成するルールであるようにする。

請求項１の構成により、情報処理装置に適用して、登録の動作モードにおいて、音声認識結果に基づいて、少なくともデータベースに単語の音声認識結果を登録することにより、音声によりデータベースを変更可能な登録手段を備えるようにすれば、音声により電子ペットが認識可能な語彙を簡易に増やすことができる。これにより実際に飼育している動物のペットに躾けを教えるように電子ペットを取り扱うことができ、電子ペットを親しみ易いものとすることができる。

また請求項７の構成により、情報処理方法に適用して、登録の動作モードにおいて、音声認識結果に基づいて、少なくともデータベースに単語の音声認識結果を登録することにより、少なくとも音声によりデータベースを変更可能な登録処理を有するようにすれば、この情報処理方法の実行により、電子ペットが認識可能な語彙を音声により簡易に増やすことができる。これにより実際に飼育している動物のペットに躾けを教えるように電子ペットを取り扱うことができ、電子ペットを親しみ易いものとすることができる。

また請求項８の構成により、情報処理装置に適用して、音声に基づいて、ユーザーを認証するユーザー認証手段を備えるようにし、応答生成手段が、ユーザー認証手段の認証結果に基づいて、音声入力者に応じて応答を異ならせるようにすれば、電子ペットの応答を例えば飼い主とそれ以外の者とで異ならせるようにすることができる。これにより動物のペットのような挙動を実現でき、電子ペットを一段と身近な親しみ易いものとすることができる。

また請求項１４の構成により、情報処理方法に適用して、音声に基づいて、ユーザーを認証するユーザー認証処理を有するようにし、応答生成処理が、ユーザー認証処理の認証結果に基づいて、音声入力者に応じて応答を異ならせるようにすれば、電子ペットの応答を例えば飼い主とそれ以外の者とで異ならせるようにすることができ、これにより動物のペットのような挙動を実現して、電子ペットを一段と身近な親しみ易いものとすることができる。

また請求項１５の構成により、情報処理装置に適用して、所定の応答生成ルールに従って、音声認識結果に対応する応答を生成するにつき、音声に基づいて、音声による入力の種類を識別する発話分類手段を備えるようにし、応答生成ルールが、入力の種類に応じて、入力の種類に対応する応答の分類に従って、所定の種類の応答を除く応答を生成するルールであるようにすれば、例えば問いに対して問いを返すような不自然な応答を防止することができる。これにより電子ペットの応答を自然な生き生きとしたものとでき、これによっても電子ペットを一段と身近な親しみ易いものとすることができる。

また請求項１８の構成により、情報処理方法に適用して、所定の応答生成ルールに従って、音声認識結果に対応する応答を生成する情報処理について、音声に基づいて、音声による入力の種類を識別するようにし、応答生成ルールが、入力の種類に応じて、入力の種類に対応する応答の分類に従って、所定の種類の応答を除く応答を生成するルールであるようにすれば、例えば問いに対して問いを返すような不自然な応答を防止することができる。これにより電子ペットの応答を自然な生き生きとしたものとでき、これによっても電子ペットを一段と身近な親しみ易いものとすることができる。

本発明によれば、ネットワークに接続して種々のデータを送受することにより、ネットワークに接続された同種の機器より電子ペットを連れ出したかのように、またこれとは逆に同種の機器から電子ペットを連れ出したように取り扱うことができ、動物のペットを実際に飼育している場合のように電子ペットを親しみ易いものとすることができる。また必要に応じて判別可能な単語を増大させる等により知識を増大させることもできる。

また音声により単語を登録できるようにすることにより、電子ペットが認識可能な語彙を音声により簡易に増やすことができ、これにより実際に飼育している動物のペットに躾けを教えるように電子ペットを取り扱うことができ、電子ペットを親しみ易いものとすることができる。

さらにユーザー認証により応答を異ならせることにより、電子ペットの応答を例えば飼い主とそれ以外の者とで異ならせるようにすることができる。これにより動物のペットのような挙動を実現でき、電子ペットを一段と身近な親しみ易いものとすることができる。

また音声入力と応答とを分類し、この分類により応答を生成することにより、例えば問いに対して問いを返すような不自然な会話を防止することができ、これにより電子ペットの応答を自然な生き生きとしたものとでき、これによっても電子ペットを一段と身近な親しみ易いものとすることができる。

さらに過去の履歴により感情を変化させることにより、例えば頻繁に発生される音声に対して慣れ、親しみ等の感情のこもった応答を形成することができる。これにより電子ペットの応答を自然な生き生きとしたものとでき、これによっても電子ペットを一段と身近な親しみ易いものとすることができる。

以下、適宜図面を参照しながら本発明の実施の形態を詳述する。

（１）第１の実施の形態
（１−１）第１の実施の形態の全体構成
図２は、本発明の第１の実施の形態に係る電子ペット装置を示す平面図である。この電子ペット装置１は、上端面に引き出し可能にアンテナ２が配置され、正面上部に液晶表示パネル３が配置される。電子ペット装置１は、この液晶表示パネル３に、電子ペットの姿、電子ペットからのメッセージが表示されるようになされている。また電子ペット装置１は、この液晶表示パネル３の下側に、決定、キャンセルの操作子４Ａ及び４Ｂ、カーソルの操作子５が配置され、これらの操作により動作モード等を切り換え得るようになされている。

さらに電子ペット装置１は、決定、キャンセルの操作子４Ａ及び４Ｂの下側に、スピーカ６及びマイク７が配置され、スピーカ６及びマイク７を用いて電子ペットと会話できるようになされている。さらに電子ペット装置１は、ＩＣカード８を装着できるように、背面側にソケットが配置される。

図３は、この電子ペット装置１を示すブロック図である。電子ペット装置１において、アナログディジタル変換回路（Ａ／Ｄ）１０は、図示しない増幅回路を介してマイク７より得られる音声信号を入力し、この音声信号をアナログディジタル変換処理して音声データＤＡを生成する。アナログディジタル変換回路１０は、この音声データＤＡを中央処理ユニット（ＣＰＵ）１１に出力する。これにより電子ペット装置１においては、ユーザーの音声を中央処理ユニット１１により解析できるようになされている。

ディジタルアナログ変換回路（Ｄ／Ａ）１２は、中央処理ユニット１１より出力される音声データＤＢをディジタルアナログ変換回路処理して音声信号を生成し、この音声信号をスピーカ６より出力する。これにより電子ペット装置１においては、電子ペットの応答等を音声により確認することができるようになされている。

モニタインターフェース（モニタＩ／Ｆ）１３は、中央処理ユニット１１の制御によりバスを介して入力される画像データＤＶにより液晶表示パネル３を駆動し、これにより液晶表示パネル３に電子ペットの画像を表示する。

キーインターフェース（キーＩ／Ｆ）１４は、操作子４Ａ、４Ｂ、５の操作を検出して中央処理ユニット１１に通知する。リードオンリメモリ（ＲＯＭ）１５は、中央処理ユニット１１の処理プログラム、マイク７より取得される音声の解析に必要な各種データ等を格納し、中央処理ユニット１１の制御によりこれら保持したデータを出力する。ランダムアクセスメモリ（ＲＡＭ）１６は、中央処理ユニット１１のワークエリアを構成し、中央処理ユニット１１の処理に必要な各種データを一時保持する。

ネットワーク接続部１７は、中央処理ユニット１１の制御により電話回線を介して所定のネットワーク１８に接続し、このネットワーク１８との間で種々のデータＤＴを交換することにより必要に応じてランダムアクセスメモリ１６の内容等を更新し、さらにはこのランダムアクセスメモリ１６に格納したデータをネットワークを介して所望の端末に送出する。これにより電子ペット装置１では、電子ペットの飼育、教育に必要な各種データを必要に応じて取得できるようになされ、さらには電子ペットを種々の環境に連れ出し、またこれとは逆に外部の機器の電子ペットを飼育することができるようになされている。

ＩＣカード８は、着脱可能な外部記憶装置であり、必要に応じてランダムアクセスメモリ１６の内容等を更新し、さらにはこのランダムアクセスメモリ１６に格納したデータを記録する。これにより電子ペット装置１では、ＩＣカード８を他の機器との間で交換して各種データをやり取りすることにより、電子ペットの飼育、教育に必要な各種データを必要に応じて取得できるようになされ、さらには電子ペットを種々の環境に連れ出し、またこれとは逆に外部機器の電子ペットを飼育することができるようになされている。

図１は、これら電子ペット装置１に係る基本的な構成を機能ブロックにより示すブロック図である。なおこの図１に示す機能ブロックにおいて、矩形形状により囲って示す機能ブロックは、中央処理ユニット１１がリードオンリメモリ１５に記録された処理プログラムを実行して形成される機能ブロックであり、磁気ディスクのシンボルにより示す機能ブロックは、リードオンリメモリ１５、ランダムアクセスメモリ１６、ＩＣカード８により形成される機能ブロックである。

この電子ペット装置１において、音声認識部１１Ａは、所定の認識ルールに従って音声データＤＡを音声認識処理し、その音声認識結果を出力する。すなわち音声認識部１１Ａは、ＨＭＭ（Hidden Marcov Model ）法により、順次入力される音声データＤＡによる音声を音韻により区切り、この音韻の列により認識データ１６Ａを参照する。音声認識部１１Ａは、この参照結果に基づいて音声データＤＡによる単語、文言が事前に登録された単語、文言の場合、これら単語、文言によるテキストデータを認識結果として出力する。かくするにつき認識データ１６Ａは、単語、文言のテキストデータと対応する音韻の列とが対を形成するようにして記録されたデータベースである。これにより電子ペット装置１は、例えば、ユーザーが「いい子だね」とマイク７に向かって言ったとき、この音声を認識して「いい子だね」という内容のテキスト文字列に変換し、これらにより音声による入力を文字列による入力に変換して処理するようになされている。

タイマー１１Ｂは、一定の時間間隔により体調変更部１１Ｃ及び感情変更部１１Ｄ等を起動する。

体調変更部１１Ｃは、音声認識結果により、またこのタイマー１１Ｂの起動により、体調データ１６Ｂを更新する。ここで体調データ１６Ｂには、現在の電子ペットの体調を示す変数が記録されるようになされている。なおこの実施の形態において、体調データ１６Ｂには、図４に示すように、現在の体調を「疲れ」、「飢え」、「渇き」、「病気」、「眠気」の５つの要素により分類し、各要素に割り当てた値が大きい程、体調に占める各要素が大きくなるようになされている。従って図４に示す例においては、現在、疲れており、飢えも激しいことになる。

体調変更部１１Ｃは、タイマー１１Ｂの起動により体調データ１６Ｂを更新する場合、実際のペットを飼育する場合の一般的な例に従った所定のルールにより、例えば「飢え」、「渇き」、「眠気」の変数を順次増大させ、これにより時間が経過すると電子ペットが空腹になるようにする。また音声認識結果により体調データ１６Ｂを更新する場合、例えば音声認識結果により食べ物が与えられた場合、「飢え」の変数を低減させ、また音声認識結果により飲み物が与えられた場合、「渇き」の変数を低減させる。さらに音声認識結果によりユーザーと遊ぶ場合には、徐々に「疲れ」の変数を増大させ、ユーザーにより睡眠が指示されるとタイマーとの連動により「眠気」の変数を徐々に低減する。

感情変更部１１Ｄは、音声認識結果により、またタイマー１１Ｂの起動により、現在の感情データ１６Ｃを更新する。ここで現在の感情データ１６Ｃには、現在の電子ペットについて、擬似的に感情を示す変数（擬似感情パラメータ）が記録されるようになされている。なおこの実施の形態においては、図５に示すように、現在の感情を「怒り」、「悲しみ」、「喜び」、「恐れ」、「驚き」、「嫌悪」の６つの要素により表し、各要素に割り当てた値が大きい程、現在の感情を示すようになされている。従って図５に示す例においては、現在、電子ペットは、喜びと怒りにあふれていることになる。

感情変更部１１Ｄは、実際のペットを飼育する場合の一般的な例に従った感情パラメータ生成ルールに従ってこの感情データ１６Ｃを更新する。すなわち感情変更部１１Ｄは、タイマー１１Ｂの起動により感情データ１６Ｃを更新する場合、これら「怒り」、「悲しみ」、「喜び」、「恐れ」、「驚き」、「嫌悪」の６つの要素が徐々に所定の基準値に近づくように各要素の変数を更新し、これにより図５に示す場合では、「怒り」、「悲しみ」等の感情が徐々に納まるようにする。

これに対して感情変更部１１Ｄは、音声認識結果により感情データ１６Ｃを更新する場合、音声認識結果により性格データ１６Ｄを検索し、この検索結果に従って感情データ１６Ｃを更新する。

ここで性格データ１６Ｄは、図６に示すように、音声認識結果に含まれる文言をキーワードにして感情データ１６Ｃの値を変更するデータが割り当てられて形成されるようになされている。なお図６においては、例えばユーザーの発生した音声に「いい」と言う文言が含まれていた場合、「怒り」、「悲しみ」、「喜び」、「恐れ」、「驚き」、「嫌悪」の各変数を値−１、＋２、＋２０、−５、＋５、−１だけ変更する旨、「いい」のキーワードに対して感情データ１６Ｃの値を変更するデータが割り当てられていることになる。

これにより感情変更部１１Ｄは、例えばユーザーが「いい子だね」と発声した場合、図５について上述した感情データを図７に示すように更新することになる。これにより感情変更部１１Ｄは、所定の感情パラメータ生成ルールに従って、少なくとも音声認識結果と時間経過とにより変化する、擬似的に感情を示す擬似感情パラメータを生成する感情生成手段を構成する。

応答文作成部１１Ｅは、感情データを基準にした所定の応答生成ルールに従って、音声認識結果に対応する応答を生成する。パターンデータ１６Ｅは、この応答を生成するルールの集合である。ここでこれらのルールは、図８に示すように、それぞれ音声認識結果に含まれる単語をキーフレーズに対して、各キーフレーズが音声入力された場合にはどのような応答を示すかがそれぞれ記述されて形成される。またこのときキーフレーズによっては、感情データ１６Ｃ、体調データ１６Ｂに応じて異なる応答を示すように記述される。なおこの図８においては、説明を簡略化するために、必要最低限度のルールを示し、実際のルールにおいては、この図８に示す条件以外（後述する属性等）の条件が記述される。なお体調データ１６Ｂについても、この図８のルール２のように体調データ１６Ｂだけの条件により、また感情データ１６Ｃとの組み合わせによりルールが記述される。

すなわち図８におけるルール１においては、「愛してる」又は「お前が好き」との文言が入力された場合には、ユーザー認証された音声入力に対しては「ぼくも愛してるよ」又は「おわっ、ボ、ボクはオスなんですけど」の文言を無作為に出力することを、またユーザー認証されていない音声入力に対しては「変な人」又は「あなた誰？」の文言を無作為に出力することを示している。またルール２においては、「こんにちわ」又は「ハロー」との文言が入力された場合には、感情データの各要素「怒り」、「悲しみ」、「喜び」、「恐れ」、「驚き」、「嫌悪」に応じてそれぞれ割り当てられた「うるさいなあ」、「なあに？」、「こにゃにゃちわ」、「わお驚いた」、「あらどうも」、「呼んだ？」の文言のうちから、最も値の大きな変数が一定値を越えている場合に、この変数に対応する文言を選択的に出力することを示している。

なおここで図８に示す「authenticated （Ａ）；（Ｂ）」は、後述するユーザー認証等により「TRUE」がセットされている場合には（Ａ）を、「TRUE」がセットされていない場合には（Ｂ）を実行する意であり、「random（“Ａ”，“Ｂ”」は、無作為にＡ又はＢを実行する意である。

ちなみに図７について上述した感情データにおいては、「喜び」の変数が最も値が大きいことにより、ルール２においては、喜びに対応する応答「こにゃにゃちわ」が選択されることになる。

さらに応答文作成部１１Ｅは、このような感情データ１６Ｃによる応答と同様にして、キーフレーズによっては体調データ１６Ｂに応じて、さらには感情データ１６Ｃ及び体調データ１６Ｂに応じて応答を生成し、これにより例えば電子ペットの体調が思わしくない場合には、相当の応答を生成するようになされている。

また応答文作成部１１Ｅは、このような音声認識結果に対する応答を対話履歴１６Ｆに記録し、必要に応じてこの対話履歴１６Ｆを参考して応答を生成し、これによりユーザーとの間の不自然な会話を防止するようになされている。また同様にして知識１６Ｇを参考にして応答を生成し、これにより例えばユーザーによって応答を切り換え、ユーザー認証等の処理を実行できるようになされている。

音声合成部１１Ｆは、応答文作成部１１Ｅより出力される応答に従って、音声データ１６Ｈを検索し、検索結果より応答に対応する音声データＤＢを出力する。ここで図９に示すように、音声データ１６Ｈは、各応答に対応する音声ファイルであり、例えば「こにゃにゃちわ」という応答文が作成されたとすると「voice0005.wav 」という音声ファイルを選択し、この音声ファイルによる音声データＤＢを出力する。

画像合成部１１Ｇは、応答文作成部１１Ｅより出力される応答に従って、画像データ１６Ｉを検索し、検索結果より応答に対応する画像データＤＶを出力する。ここで図１０に示すように、画像データ１６Ｉは、各応答に対応する画像データファイルであり、例えば「こにゃにゃちわ」という応答文が作成されたとすると「fig0005.bmp 」というビットマップ形成の画像ファイルを選択し、この画像ファイルによる画像データＤＶを出力する。

（１−２）ネットワークとの接続
中央処理ユニット１１は、図１１に示す処理手順を実行することによりネットワーク接続部１７を介してネットワーク１８に接続し、体調データ１６Ｂ、感情データ１６Ｃ、対話履歴１６Ｆを所望の機器に送出する。これによりこの電子ペット装置１においては、これらのデータを送出した機器において、この電子ペット装置１における電子ペットを再現できるようになされ、電子ペットを種々の環境に連れ出すことができるようになされている。

またこれとは逆に、中央ユニット１１は、ネットワーク１８より体調データ１６Ｂ、感情データ１６Ｃ、対話履歴１６Ｆを取得し、これにより他の電子ペット装置で飼育されている電子ペットをこの電子ペット装置１に連れ出すことができるようになされている。この場合、電子ペット装置１において、このようにして取得した体調データ１６Ｂ、感情データ１６Ｃ、対話履歴１６Ｆによる処理においては、上述した各機能ブロックがそれぞれこの電子ペット装置１で飼育されている電子ペットと、外部の機器で飼育されている電子ペットとについて、同時並列的に上述した処理を実行することにより、あたかもこの電子ペット装置１に外部より他の電子ペットが訪問したように応答を作成する。なお図１に示す機能ブロックにおいては、このようにして取得した体調データ１６Ｂ、感情データ１６Ｃ、対話履歴１６Ｆによる処理については、データの流れを省略して示す。

さらに電子ペット装置１は、認識データ１６Ａ、パターンデータ１６Ｅ、知識１６Ｇ、音声データ１６Ｈ、画像データ１６Ｉをネットワーク１８より取得し、これにより音声認識可能な語彙を増強し、さらには応答の種類を増大できるようになされている。これにより電子ペット装置１は、いわゆる電子ペットを育てて学習させることができるようになされている。

すなわち中央処理ユニット１１は、接続要求に応動してステップＳＰ１からステップＳＰ２に移り、この接続要求を受け付ける。なおここで接続要求は、タイマー１１Ｂにより一定時間毎に定期的に発生され、またユーザーによる操作子の操作により、さらにはネットワーク１８からの呼により発生する。

中央処理ユニット１１は、続いてステップＳＰ３に移り、ここで所定の回線接続処理を実行して通信を確立する。続いて中央処理ユニット１１は、ステップＳＰ４に移り、接続要求の内容に応じて対応する各種データを送受する。続いて中央処理ユニット１１は、ステップＳＰ５に移り、通信を切断した後、ステップＳＰ６に移ってこの処理手順を終了する。

図１２は、このデータ転送のフォーマットを示す図表である。電子ペット装置１においては、ネットワーク接続部１７に配置されたインターフェースにより、また通話対象のインターフェースにより、このフォーマットにより伝送に供するデータが送受される。ここで各データＤＴには、ヘッダが配置され、このヘッダ内に各データのアドレス、種類等が記述され、ヘッダ続いて伝送に供するパターンデータ１６Ｅ、認識データ１６Ａ、音声データ１６Ｈ、画像データ１６Ｉ等が順次必要に応じて割り当てられる。

（１−３）認識データの登録
図１３は、認識データの登録に関して電子ペット装置１を更に詳細に示す機能ブロック図である。この機能ブロック図において、登録部１１Ｉは、音声認識結果より認識データ１６Ａを登録し、これによりキーボード等により単語を入力しなくても音声により種々の単語を電子ペットに覚え込ませることができるようになされている。

このため音声認識部１１Ａにおいては、上述したように、ＨＭＭ法により音声データＤＡを処理し、これにより音韻列による認識結果を出力する。すなわち音声認識部１１Ａは、日本語による音声を音韻により識別し、各音韻を示す識別子の列により日本語の発音を記述する。ここでこれら識別子は、「ｂ」、「ｄ」、「ｇ」、「ｐ」、「ｔ」、「ｋ」、「ｍ」、「ｎ」、「ｒ」、「ｚ」、「ｃｈ」、「ｔｓ」、「ｙ」、「ｗ」、「ｈ」、「ｉ」、「ｅ」、「ａ」、「ｏ」、「ｕ」、「Ｎ」、「ｅｉ」、「ｏｕ」、「ｓ」、「ｓｈ」、「ｘｙ」、「ｊ」、「ｆ」、「ｓｉｌ」とにより構成され、「ｓｉｌ」は無音である。

これにより音声認識部１１Ａは、例えばユーザーが「みかん」と入力すると、「ｓｉｌｍｉｋａＮｓｉｌ」の識別子で記述される音韻列により音声入力を認識する。このため音声認識部１１Ａは、順次入力される音声データＤＡを順次処理して音韻を識別すると共に、この識別結果を図１４に示す文法により処理し、これにより識別子の連続してなる音韻列を検出する。なおこの図１４は、上述した全ての音韻の接続を許す文法である。

音声認識部１１Ａは、通常の動作モードにおいては、このようにして検出した識別子の列により認識データ１６Ａを検索し、この検索結果より単語、文言のテキストデータにより認識結果を出力する。これによりこの実施の形態において、認識データ１６Ａに未登録の単語が音声入力された場合、対応するテキストデータを生成することが困難になり、ユーザーの問い掛けに正しく応答することが困難になる。

このためこの実施の形態において、電子ペット装置１は、ネットワーク接続部１７を介してネットワークに接続し、ネットワークより認識データ１６Ａをダウンロードし、これにより電子ペットを学習させてユーザーからの種々の問い掛けに応答できるようになされている。

さらにこの実施の形態において、中央処理ユニット１１は、操作子４Ａ、４Ｂの操作により登録モードが選択されると、図１５に示す処理手順を実行し、これによりユーザーが音声により入力した単語を認識データ１６Ａに登録する。

すなわち中央処理ユニット１１は、操作子の操作に応動してステップＳＰ１１からステップＳＰ１２に移り、登録モードに入る。続いて中央処理ユニット１１は、ステップＳＰ１２に移り、画像合成部１１Ｇを駆動して液晶表示パネル３に所定のメッセージを表示し、これによりユーザーに単語の発声を促す。

続いて中央処理ユニット１１は、ステップＳＰ１４に移り、順次入力される音声データＤＡを順次音韻列により識別して音声認識し、ユーザーが所定の操作子を操作して音声入力の終了を指示するとステップＳＰ１５に移る。

ここで中央処理ユニット１１は、音声認識結果である音韻列により音声合成部１１Ｆを駆動してユーザーの入力した音声を発声し、これによりユーザーに認識結果を提示する。すなわち中央処理ユニット１１は、例えばユーザーが「ミカン」の単語を発生し、認識結果として「ｓｉｌｍｉｋａＮｓｉｌ」が得られると、この場合「みかんですか？」との音声を発生する。続いて中央処理ユニット１１は、ステップＳＰ１６に移り、確認の操作子４Ａ又はキャンセルの操作子４Ｂの操作を検出することにより、確認の入力を受け付ける。

続いて中央処理ユニット１１は、ステップＳＰ１７に移り、キャンセルの操作子４Ｂが操作された場合、提示した認識結果がユーザーにより否定されたと判断してステップＳＰ１３に戻り、再び音声入力を受け付ける。これに対して確認の操作子４Ａがユーザーにより操作された場合、ユーザーにより認識結果が肯定されたと判断し、ステップＳＰ１８に移る。

ここで中央処理ユニット１１は、続いて画像合成部１１Ｇを駆動して液晶表示パネル３に所定のメッセージを表示し、これによりユーザーに音声入力した単語について、属性の発声を促す。ここで属性は、単語により特定される対象を分類するための、この対象の性質を示すキーワードであり、この実施の形態において例えば「ミカン」は、属性が「果物」に分類される。

続いて中央処理ユニット１１は、ステップＳＰ１９に移り、順次入力される音声データＤＡを順次音韻列により識別して音声認識し、ユーザーが所定の操作子を操作して音声入力の終了を指示するとステップＳＰ２０に移る。

ここで中央処理ユニット１１は、音声認識結果である音韻列により音声合成部１１Ｆを駆動してユーザーの入力した音声を発声し、これによりユーザーに属性の認識結果を提示する。すなわち中央処理ユニット１１は、例えばユーザーが「ミカン」の単語を発生した後、属性として「果物」を入力すると、この場合「くだものですか？」との音声を発生する。続いて中央処理ユニット１１は、ステップＳＰ２１に移り、確認の操作子４Ａ又はキャンセルの操作子４Ｂの操作を検出することにより、確認の入力を受け付ける。

続いて中央処理ユニット１１は、ステップＳＰ２２に移り、キャンセルの操作子４Ｂが操作された場合、提示した認識結果がユーザーにより否定されたと判断してステップＳＰ１８に戻り、属性について再び音声入力を受け付ける。これに対して確認の操作子４Ａがユーザーにより操作された場合、ユーザーにより認識結果が肯定されたと判断し、ステップＳＰ２３に移る。

ここで中央処理ユニット１１は、単語については認識データ１６Ａに登録し、属性については知識１６Ｇに登録した後、ステップＳＰ２４に移ってこの処理手順を終了する。

ここで知識１６Ｇは、認識データ１６Ａに登録された各単語、文言について、果物、飲み物等の分類を示す属性のデータが記録されるようになされている。これにより中央処理ユニット１１においては、パターンデータ１６Ｅに属性の記述を含めることにより、例えばユーザーに対して「好きな食べ物は何ですか」と問い掛け、この問い掛けに対するユーザーからの「みかんが好きだよ」の返答に対し、「私はみかんは嫌いです」との応答を発生できるようになされている。

なお知識１６Ｇは、これら属性の他に、電子ペット装置１の持ち主である飼い主の名前、好み、ネットワーク１８よりもたらされる天気予報等の各種データが記録され、必要に応じてこれらの情報をユーザーとの対話に利用できるようになされている。すなわち例えばユーザーが「今日の天気は？」と問いかけた場合、「今日」、「天気」をキーフレーズにしたルールにより「晴れです」等の応答を発生できるようになされている。

また電子ペット装置１においては、このようにして音声入力により認識データ１６Ａを登録した場合、この音声入力に対応する正しいテキスト（上述の例では「みかん」を記述したテキスト）が存在しないことにより、認証結果であるテキストデータにおいて、対応する単語、文言については音韻列の識別子であるアルファベットの標記（上述の例では「ｓｉｌｍｉｋａＮｓｉｌ」の標記）によりこれら認識データ１６Ａの単語、文言を記述して処理するようになされている。またネットワーク１８からのダウンロードにより必要に応じてこのテキストを補い、補った後においては、音韻列の識別子に代えて本来のテキストにより認証結果を処理するようになされている。

これにより電子ペット装置１においては、音声入力により登録した単語、文言による認識データ１６Ａについても、ネットワーク１８よりダウンロードした単語、文言による認識データ１６Ａ、事前に登録されている単語、文言による認識データ１６Ａと同様に処理してユーザーと対話できるようになされている。

（１−４）ユーザー認証
図１６は、ユーザー認証に関して電子ペット装置１を更に詳細に示す機能ブロック図である。この機能ブロック図において、認証データ１６Ｋは、事前の設定によりユーザー名が記録される。なおこの記録は、音声認識結果により、又は購入時に実行される初期設定処理における外部機器からのキーボード入力等により実行される。

応答文作成部１１Ｅは、例えば図１７に示すパターンデータ１６Ｅのルール１に従って、「がぉー」の音声が入力された場合、「あなたは本当にご主人様？」との応答を返す。

音声認証部１１Ｊは、ルール２に従って「＄USER」により定義される事前に登録されたユーザー名が音声入力された場合であって（myLastUtter ）、直前の応答文作成部１１Ｅにより「あなたは本当にご主人様？」の文言を含む応答がなされている場合、関数「authenticated による変数を「TRUE」にセットする（set authenticated （TRUE））。

かくするにつき音声認証部１１Ｊは、音声認識結果より認証データ１６Ｋを検索し、このような条件が満足される場合に、音声入力した者がユーザーと認証し、認証状態１６Ｊをユーザー認証した状態にセットする。また上述の条件が満足されない場合には認証状態１６Ｊをユーザー認証していない状態にセットする。

なおこの場合において、ユーザー認証された場合には、ルール２に従って応答文作成部１１Ｅにより「ははあ、ご主人様。」との応答が発生されることになる。

これにより電子ペット装置１においては、音声に基づいて、ユーザーを認証すると共に、図８について上述したルール１のようにして、飼い主とそれ以外の人間とで応答を異ならせることができるようになされ、例えば飼い主に特有の挙動を示して実際のペットに近い挙動を示すようになされている。

またこの音声によるユーザー認証において、事前に登録した単語の有無により、音声に基づいてユーザーを認証するようになされている。

さらに音声認証部１１Ｊは、図１８に示すように、ユーザー認証した音声入力者との対話の中で、知識１６Ｇに記録したユーザーの嗜好、趣味等を問い掛ける応答の出力を応答文作成部１１Ｅに指示する。なお図１８においては、「ご主人さまの好きな食べ物は？」との問い掛けによりユーザー認証した音声入力者の嗜好を問い掛けていることになる。

音声認証部１１Ｊは、図１７について説明したルール２と同様の処理により、続いてユーザーの音声入力より嗜好の問い掛けに対する応答を判断し、この応答の音声認識結果よりこの場合「ピーナッツ」の単語を認証データ１６Ｋに登録する。

応答文作成部１１Ｅは、音声入力者との対話の中で、タイマー１１Ｂの起動により、例えば図１９に示すように、認証データ１６Ｋに登録した嗜好、趣味等に関する問い掛けを発生する。なおこの図１９に示す例にあっては、図１８について上述した嗜好の問い掛けに対応して、「あなた本当にご主人様？好きな食べ物は？」と問い掛けた場合である。

音声認証部１１Ｊにおいては、図１７について説明したルール２と同様の処理により、続いてユーザーの音声入力より嗜好の問い掛けに対する応答を判断し、この場合飼い主にあっては「ピーナッツ」の応答が得られることにより、この応答の音声認識結果より認証状態を「TRUE」にセットする。また応答文作成部１１Ｅにあっては、「本当にご主人様だ！」との応答を発生する。

これにより電子ペット装置１は、過去の音声認識結果を基準にして音声認識結果を判定することにより、音声に基づいてユーザーを認証するようになされ、さらに詳しくは過去の音声認識結果に対応する質問を応答として出力し、この応答に対する音声認識結果を判定してユーザー認証するようになされている。

さらに音声認証部１１Ｊは、タイマー１１Ｂにより一定時間以上音声が入力されない場合、この場合ユーザーが立ち去った場合等であることにより、認証状態をリセットする。

（１−５）対話の分類処理
図２０は、対話の分類処理に関して電子ペット装置１を更に詳細に示す機能ブロック図である。この機能ブロック図において、発話分類部１１Ｍは、所定の分類ルール１６Ｍに従って、音声認識結果を識別することにより、音声入力による会話を分類し、その分類結果である分類コードを応答文作成部１１Ｅに出力する。

ここで発話分類部１１Ｍは、例えば「おはよう」、「こんにちは」等の挨拶一般の音声入力については、「挨拶」に分類する。また「調子はどう」、「……は好き」等の問い掛けの音声入力については、「質問」に分類し、「元気だよ」、「つまらない」等の感想を述べた音声入力については、「感想」に分類する。

応答文作成部１１Ｅは、パターンデータ１６Ｅに従って応答文を作成する際に、パターンデータ１６Ｅに記録された応答文の分類と、この発話分類部１１Ｍで分類された分類パターンに従って応答を作成する。さらにこのとき必要に応じて対話履歴１６Ｆに記録された過去の対話記録に従って、応答を作成する。

すなわちパターンデータ１６Ｅにおいて、ルールによっては図８との対比により図２１に示すように、各応答文の分類が設定されるようになされている。なおこの分類は、発話分類部１１Ｍにおける分類に対応するように設定される。

因みに、図２１のルール１においては、「ボクも愛しているよ」、「おわっ、ボ、ボクはオスなんですけど」の応答文には「状態」の分類が設定され、「変な人」には「感想」、「あなた誰？」には「質問」の分類が設定されるようになされている。またルール２においては、「うるさいなあ」には「感想」、「なあに？」には「質問」、「こにゃにゃちわ」には「挨拶」、「わお驚いた」には「感想」、「あらどうも」には「挨拶」、「呼んだ？」には「質問」の分類が設定されるようになされている。

さらにパターンデータ１６Ｅには、特定の分類による会話の連続を禁止する種別制約が規定されるようになされている。具体的には、ユーザーからの質問に対しては質問を返さないように、種別制約が設定される。また「挨拶」、「挨拶」のやり取が続いた場合には、続いて「挨拶」の応答をしないよう種別制約が設定されるようになされている（図２１の場合）。

これに対して対話履歴１６Ｆは、図２２及び図２３に示すように、応答文作成部１１Ｅによりユーザーと電子ペットとの対話が記録されるようになされている。ここでこの記録は、音声を発生した行為者、その音声の分類、音声の内容が記録されるようになされている。図２２の例においては、ユーザーによる分類「挨拶」の「こんにちわ」の音声入力に続いて、電子ペットが分類「挨拶」の「どうも」の応答をし、続いてユーザーによる分類「質問」の「調子はどう」、電子ペットによる分類「状態」の「元気だよ」が続いたことが記録されていることになる。

応答文作成部１１Ｅは、パターンデータ１６Ｅに従って感情データ１６Ｃにより応答を作成する際に、この制約条件に従って対話履歴１６Ｆを参照して、対話履歴１６Ｆに従って応答を作成する。すなわち応答文作成部１１Ｅは、種別制約に該当する場合、すなわち図２１においては、直前に「挨拶」のやり取りが続いた場合、例えば喜びの変数が最も大きい場合でもこのルール２を適用しないようにする。また同様にして「質問」には「質問」を返さないようにする。

これにより電子ペット装置１においては、「挨拶」に対して「挨拶」を返すような第１のルールと、種々の問い掛けに対して「挨拶」を返すような第２のルールが規定されているような場合でも、第２及び第１のルールの繰り返しの適用により、ユーザーとの間で「挨拶」を何度も繰り返すような不自然な会話を防止するようになされている。

（１−６）感情の制御
図２４は、感情の制御に関して電子ペット装置１を更に詳細に示す機能ブロック図である。この機能ブロック図において、感情変更部１１Ｄは、上述したようにタイマー１１Ｂの起動により、また音声認識結果に含まれる文言をキーワードにした性格データ１６Ｄの検索により、感情データ１６Ｃを更新する。

この処理において感情変更部１１Ｄは、図２５に示すように、感情変化履歴１６Ｎとして、感情データ１６Ｃを構成する各変数の変化量、音声認識結果より検出して各変数の変化に使用したキーワード、音声認識結果によるテキストデータを記録する。さらに例えば応答を出力した後等の所定のタイミングで、この感情変化履歴１６Ｎを検索し、特定のキーワードと対により所定の単語が頻繁に使用されている場合、図６との対比により図２６に示すように、この単語をキーワードとして性格データ１６Ｄに登録し、この単語が単独で入力された場合等にあっても、同様に各変数を変化させることができるようにする。

すなわち感情変更部１１Ｄは、例えば変数を変化させるキーワードである「汚い」の単語と、「カレーパン」の単語とが対になって頻繁に使用され、その使用頻度が所定値以上になると、「カレーパン」の単語をキーワードとして性格データ１６Ｄに登録する。またこのときこの「カレーパン」によって、「汚い」の単語が入力された場合と同じように各変数を変化させるように、各変数の変化量を設定する。

これにより電子ペット装置１は、いわゆる連想により特定の感情が生まれるように設定され、この感情による応答を発生できるようになされている。

さらに感情変更部１１Ｄは、このようにして所定のタイミングで感情変化履歴を検索する際に、併せて変数の変化に使用する各キーワードの使用頻度を検出する。ここで一定の頻度以上で特定のキーワードが使用されている場合、感情変更部１１Ｄは、図６との対比により図２７に示すように、このキーワードによる変数の変化量を低減する。なお図２７においては、「汚い」のキーワードが頻繁に使用された結果、この「汚い」のキーワードによる変数の変化量を低減した場合であり、「怒り」、「悲しみ」、「喜び」、「恐れ」、「驚き」、「嫌悪」の６つの要素について、それぞれ変化量を−１、−１、＋２、＋１、−１、−４だけ変化させた場合である。

これにより電子ペット装置１においては、いわゆる慣れの感覚を形成できるようになされている。

さらに感情変更部１１Ｄは、このようにして性格データ１６Ｄに加えた単語の音声入力頻度が低下した場合、この単語を性格データ１６Ｄより消去する。また同様に、変数の変化量を変更した単語について、音声入力頻度が低下した場合、徐々に元の変化量に戻す。

これにより電子ペット装置１においては、いわゆる忘れ去る状況をも作り出すことができるようになされている。

（１−７）第１の実施の形態の動作
以上の構成において、電子ペット装置１は（図１〜図３）、ユーザーがマイク７より音声を入力すると、中央処理ユニット１１の処理により構成される機能ブロックである音声認識部１１Ａにおいて、ＨＭＭ法によりこの音声が音声認識処理される。この音声認識処理において、音声は、音韻列に変換された後、認識データ１６Ａとの照合によりテキストデータに変換される。

電子ペット装置１においては、このようにして生成された音声認識結果であるテキストデータが、体調変更部１１Ｃに入力され、ここでこの体調変更部１１Ｃにより、現在の体調を示す５つの要素「疲れ」、「飢え」、「渇き」、「病気」、「眠気」（図４）により構成される体調データ１６Ｂが音声に含まれる単語に応じて変更される。すなわち例えば音声認識結果により食べ物が与えられた場合、「飢え」の変数が低減され、また音声認識結果により飲み物が与えられた場合、「渇き」の変数が低減される。

これにより電子ペット装置１においては、ユーザーの音声入力により体調が変化するようになされている。さらにタイマー１１Ｂを基準にした体調変更部１１Ｃの処理によっても、これら５つの要素に徐々に変更が加えられる。これにより電子ペット装置１においては、これら５つの要素による体調がユーザーからの音声入力により、また時間経過により変化し、この５つの要素を基準にして音声入力に対して応答を生成することにより、ユーザーの音声に対する応答に電子ペットの体調が反映されるようになされている。

これとは別に、音声認識結果は、感情変更部１１Ｄに与えられ、ここでこの音声認識結果に含まれる単語に応じて現在の感情データ１６Ｃが変更される（図５）。ここでこの感情データ１６Ｃの変更においては、感情を変化させるキーワードと、このキーワードに対して感情の変化を記述した性格データ１６Ｄに従って（図６）、感情を示す６つの要素「怒り」、「悲しみ」、「喜び」、「恐れ」、「驚き」、「嫌悪」による変数が、音声に含まれる感情を変化させる単語に応じて更新され、これによりこれら６つの変数により感情が表されて、この感情がユーザーの問い掛けに応じて変化する。

これにより電子ペット装置１においては、ユーザーの音声入力に応じて電子ペットの感情が変化するようになされている。また電子ペット装置１においては、先の体調データ１６Ｂ、この感情データ１６Ｃを参考にして音声認識結果に応じて応答を作成することにより、電子ペットの反応に、電子ペットの体調、感情が反映される。

すなわち電子ペット装置１において、音声認識結果は、応答文作成部１１Ｅに入力され、この応答文作成部１１Ｅにおいて、パターンデータ１６Ｅに記述されたルールに従って音声認識結果に対応する応答文が作成される（図８）。すなわち電子ペット装置１においては、音声に含まれるキーフレーズに対してそれぞれ応答文が記述されてパターンデータ１６Ｅが生成されており、応答文作成部１１Ｅにおいては、音声認識結果によりパターンデータ１６Ｅを検索して対応する応答文を出力する。

電子ペット装置１においては、この応答文による応答に対して、対応する音声による応答が音声合成部１１Ｆにより生成されてスピーカ６より出力され（図９）、また同様に応答に対応する画像が画像合成部１１Ｇにより作成されて液晶表示パネル３に表示され（図１０）、これによりユーザーの音声入力による応答が音声及び画像により提供される。

このようにしてパターンデータ１６Ｅにより応答を作成する際に、パターンデータ１６Ｅにおいては、体調データ１６Ｂ、感情データ１６Ｃに応じて異なる応答を発生するようにルールが記述され、電子ペット装置１においては、このルールに従って応答を生成し、これによりユーザーへの応答に電子ペットの体調、感情が反映される。

このような一連の処理において、電子ペット装置１は、ユーザーが所定の操作子を操作すると、登録の動作モードに切り換わり、認識データ１６Ａにより音声認識可能な単語、文言が音声入力により登録可能となる。

すなわちこの登録のモードにおいて、電子ペット装置１は（図１３及び図１５）、ユーザーが登録する単語等の音声を音声入力すると、通常の動作モードにおける処理と同様にしてこの音声入力が音韻列に変換され（図１４）、この音韻列による音声が音声合成部１１Ｆより発声され、この発声によりユーザーからの確認が得られると、続いて先に入力された単語等の属性について音声入力が受け付けられる。

この属性の音声入力においても、電子ペット装置１においては、音声入力が音韻列に変換され、この音韻列の発声によりユーザーからの確認が得られると、先に入力された単語等の音韻列が認識データ１６Ａに登録されるのに対し、この認識データ１６Ａに対応するようにして属性のデータが知識１６Ｇとして登録される。

これにより電子ペット装置１においては、キーボード等の煩雑な操作によらなくても音声により単語等を登録でき、その分使い勝手を向上することができるようになされている。また実際に動物のペットに躾けを教えるように電子ペットを取り扱って語彙を増大させることができ、その分電子ペットを身近な親しみ易いものとすることができるようになされている。

かくするにつきこのようにして登録された単語等にあっては、通常の音声認識処理においては、音声認識処理における音韻列により認識データ１６Ａが検索されて対応するテキストデータにより音声認識結果が出力されるのに対し、このテキストデータに代えて音韻列により表記されたテキストデータが出力されて同様に応答文が作成され、このとき知識１６Ｇに記録された属性に従って応答文が作成され、これにより例えば体調データ１６Ｂによる空腹時、食べ物の属性による問い掛けに対して、「食べる」、「欲しい」等の応答を発生することが可能となる。

またこのようにして単語と属性とを音声入力により登録するにつき、単語と属性とを区切って、それぞれ音声認識結果を発声して確認を得ることにより、簡易かつ確実に音声入力により単語を登録することができる。

これに対して所定のキーワード（がぉー）をユーザーが音声入力すると、電子ペット装置１においては（図１６及び図１７）、事前に登録された例えばユーザー名等の入力を促すルール１により音声が発声され、この音声に応答するユーザーの音声入力が音声認識処理される。電子ペット装置１においては、この音声認識結果が音声認証部１１Ｊにおいて、事前に登録された例えばユーザー等による認証データ１６Ｋと照合され、ここでユーザー認証されれば認証状態１６Ｊに音声入力者がユーザーである旨セットされる。

これにより電子ペット装置１においては、音声入力者がユーザーの場合と、ユーザーでない場合とで区別するパターンデータ１６Ｅにおけるルールの記述に従って（図８、ルール１）、応答文作成部１１Ｅにおいて応答文を作成する際に、この認証状態１６Ｊが参照され、認証状態１６Ｊの設定に応じて異なる応答が作成される。

これにより電子ペット装置１においては、動物のペットのように、飼い主に対してだけ特定の挙動を示すように応答することが可能となり、その分電子ペットを親しみ易いものとすることができるようになされている。

さらに電子ペット装置１においては、タイマー１１Ｂにより音声認証部１１Ｊが起動されて、一定の時間間隔でユーザー認証処理が実行される。この一定の時間間隔によるユーザー認証処理においては、知識１６Ｇに記録したユーザーの嗜好、趣味等の問い掛けに対する応答によりユーザーか否か判断され、これによりユーザー認証の処理が実行される（図１８及び図１９）。

これにより電子ペット装置１においては、会話の途中でも必要に応じて会話の相手を確かめて飼い主に対してだけ特定の挙動を示すように応答を作成することが可能となる。

このようにしてユーザーと会話するにつき、電子ペット装置１においては（図２０、図２２及び図２３）、発話分類ルール１６Ｍに従って発話分類部１１Ｍにより音声入力による会話が「挨拶」、「質問」等に分類される。さらにユーザーによる音声入力に対して応答を作成する際に、パターンデータ１６Ｅに記述された種別制約（図２１）により、例えばユーザーの音声入力が「質問」の場合には、特定のキーフレーズにより応答として「質問」がルールにより特定される場合でも、このルールによっては応答を生成しないようになされる。

これにより電子ペット装置１においては、「質問」に「質問」を返すような不自然な会話が防止される。

また電子ペット装置１においては、連続する会話の分類が逐次対話履歴１６Ｆに記録され、ユーザーによる音声入力に対して応答を作成する際に、この対話履歴１６Ｆに記録した分類を参照してパターンデータ１６Ｅに記述された種別制約（図２１）に従って応答を作成することにより、「挨拶」に対して「挨拶」を返すようにルールが設定されている場合でも、例えば電子ペット装置による「挨拶」、ユーザーによる「挨拶」が続いた場合には、この「挨拶」に対して「挨拶」を返すルールによっては応答を生成しないようになされる。

これによっても何度も「挨拶」をやりとりするような不自然な会話が防止され、電子ペットを身近なものとすることができる。

さらに電子ペット装置１においては（図２４及び図２５）、感情を変化させるキーワードが同時に使用された単語、キーワードによる感情の変化と共に感情変化履歴１６Ｎに順次記録される。電子ペット装置１においては、一定の時間間隔等によりこの感情変化履歴１６Ｎが検査され、各キーワードについて、同時に使用される頻度の高い単語については、この単語によっても感情が変化するように性格データ１６Ｄにこの単語が登録される（図２６）。

これにより電子ペット装置１においては、例えば「汚いカレーパン」とのフレーズが繰り返された場合には、「カレーパン」の文言の音声入力だけで、「汚い」の文言による音声が入力された場合と同様に感情を変化させて応答を生成することになる。

これにより電子ペット装置１においては、動物に例えるならば条件反射するように、また人間に例えると連想により、種々に感情を変化させることができ、またこの感情の変化を応答に反映させることができるようになされている。

さらに電子ペット装置１においては、同様の感情変化履歴１６Ｎの検査により、頻繁に使用されている感情を変化させるキーワードについては、感情の変化量が低減するように（図２７）、性格データ１６Ｄが更新される。これによりいわゆる慣れの状態を形成し、この慣れの状態を応答に反映させることが可能となる。

このようにして使用される電子ペット装置１においては、ユーザーの操作によりネットワーク接続部１７（図１及び図２）を介して、ネットワーク１８に接続され、認識データ１６Ａ、知識１６Ｇ、パターンデータ１６Ｅ等の音声認識処理、応答生成処理に必要なルールであるこれらのデータ、知識をダウンロードすることが可能となる。これによりこれら認識データ１６Ａ、知識１６Ｇを更新して、一段と高度な会話を楽しむことが可能となる。また応答の具体的な出力である音声データ１６Ｈ、画像データ１６Ｉをダウンロードして、同様に応答の表現を向上することができる。

また同様にしてネットワーク１８を介して体調データ１６Ｂ、感情データ１６Ｃ、対話履歴１６Ｆを所望の機器に送出することができるようになされ、これによりこれらのデータを送出した機器において、この電子ペット装置１における電子ペットを再現できるようになされ、電子ペットを種々の環境に連れ出すことが可能となる。

またこれとは逆に、ネットワーク１８より体調データ１６Ｂ、感情データ１６Ｃ、対話履歴１６Ｆを取得し、これによりあたかもこの電子ペット装置１に外部より他の電子ペットが訪問したように応答を作成して、他の電子ペット装置で飼育されている電子ペットをこの電子ペット装置１に連れ出すことができるようになされている。

（１−８）第１の実施の形態の効果
以上の構成によれば、音声認識処理のルールである認識データ、応答生成のルールであるパターンデータ、感情生成のルールである感情データ、体調データ、音声データ、画像データをネットワークを介して更新できるようにすることにより、ネットワークに接続された同種の機器における応答とほぼ同一の応答を生成でき、これによりあたかもにこのネットワークに接続された同種の機器より電子ペットを連れ出したかのように取り扱うことができ、動物のペットを実際に飼育している場合のように電子ペットを親しみ易いものとすることができる。また必要に応じて判別可能な単語を増大させる等により知識を増大させることもできる。

また定期的にネットワークに接続して認識データ等を更新することにより、ユーザーを何ら煩わすことなく、知識を増大させることができる。

またこれとは逆に、体調データ、感情データ、対話履歴をネットワークにより送出することにより、このネットワークに接続された同種の機器において、この情報処理装置等における音声入力に対する応答とほぼ同一の応答を生成でき、これによりあたかも電子ペットを外部の機器に連れ出したかのように取り扱うことができ、動物のペットを実際に飼育している場合のように電子ペットを親しみ易いものとすることができる。

またこれらデータの更新、データの送出を交換可能な記憶媒体であるＩＣカードを介して実行できるようにしたことにより、通信機能を備えていない種々の機器との間でもこれらの処理を実行することができる。

また登録の動作モードにおいて、音声認識結果に基づいて、単語の音声認識結果と単語の分類とを登録することにより、電子ペットが認識可能な語彙を音声により簡易に増やすことができる。これにより実際に飼育している動物のペットに躾けを教えるように電子ペットを取り扱うことができ、電子ペットを親しみ易いものとすることができる。

またこのとき、音声の音韻列による音声認識結果に従って単語の音声認識結果と分類とを記録することにより、単に音声を入力するだけで他の操作を何ら必要とすることなく登録することができる。

またこのとき通常の処理においては、音声認識結果をテキストデータとして出力し、登録においては音韻列の記述により登録することにより、ルール等の記述を簡略化することができる。

また単語と属性とを区切って入力して登録を受け付けることにより、簡易にこれらの登録の処理を実行することができる。

さらに音声に基づいたユーザー認証の認証結果に基づいて、音声入力者に応じて応答を異ならせることにより、電子ペットの応答を例えば飼い主とそれ以外の者とで異ならせるようにすることができる。これにより動物のペットのような挙動を実現でき、電子ペットを一段と身近な親しみ易いものとすることができる。

またこのとき過去の音声認識結果を基準にして音声認識結果を判定してユーザーを認証することにより、例えばパスワード等の入力を求めることなく、会話を通じてユーザー認証することができ、その分使い勝手を向上することができる。

さらにこのとき過去の音声認識結果を基準にした質問に対する答えを判定してユーザー認証することによっても、また所定の単語の発声によりユーザー認証することによっても、自然な会話を通じてユーザー認証することができ、その分使い勝手を向上することができる。

また音声入力の種類を識別すると共に入力の種類に対応する応答の分類に従って、所定の種類の応答を除く応答を生成することにより、例えば問いに対して問いを返すような不自然な会話を防止することができる。これにより電子ペットの応答を自然な生き生きとしたものとでき、これによっても電子ペットを一段と身近な親しみ易いものとすることができる。

またこのときこの入力の種類と応答の分類とによる履歴を参照して応答を生成することにより、挨拶を繰り返しやり取りするような不自然な会話を防止することができる。これにより電子ペットの応答を自然な生き生きとしたものとでき、これによっても電子ペットを一段と身近な親しみ易いものとすることができる。

さらに音声認識結果と対応する感情パラメータとによる履歴に応じて感情パラメータの変化量を変化させることにより、例えば頻繁に発生される音声に対して慣れ、親しみ等の感情のこもった応答を形成することができる。これにより電子ペットの応答を自然な生き生きとしたものとでき、これによっても電子ペットを一段と身近な親しみ易いものとすることができる。

すなわち感情を刺激する単語以外の単語が、この感情を刺激する単語を同時に頻繁に使用される場合、該単語によっても感情パラメータを変化させることにより、繰り返し対により使用される単語にも感情を変化させて応答することができる。

また、感情を刺激する単語のうちの所定の単語が頻繁に使用される場合、該感情を刺激する単語により感情パラメータの変化量を低減することにより、いわゆる慣れの感情を生成することができる。

（２）他の実施の形態
なお上述の実施の形態においては、ネットワークに接続して電子ペットを外出させ、また外部機器の電子ペットの応答を出力し、さらには各種ルール等を学習させる場合について述べたが、本発明はこれに限らず、必要に応じてこれら何れかの処理のみ実行するようにしてもよい。また定期的なアクセス、ユーザーの操作によるアクセス、外部機器からの呼によるアクセスの何れかによりネットワークにアクセスするようにしてもよい。

また上述の実施の形態においては、電話回線によりネットワークに接続する場合について述べたが、本発明はこれに限らず、モデム、パーソナルコンピュータ等の他の機器を介してネットワークに接続する場合にも広く適用することができる。

さらに上述の実施の形態においては、認識データ、パターンデータ、音声データ、画像データのダウンロードによりいわゆる電子ペットを学習させる場合について述べたが、本発明はこれに限らず、必要に応じてこれらの何れかのデータのダウンロードにより学習させるようにしてもよい。また音声認識処理の手法、音声データの生成手法、画像データの生成手法である制御プログラム自体のダウンロードによりこれらの生成手法自体変更するようにしてもよく、さらには感情データの生成手法、応答文作成部の処理等についても変更するようにしてもよい。

また上述の実施の形態においては、電子ペットを外部の機器に連れ出すにつき、体調データ、感情データ、対話履歴を送出する場合について述べたが、本発明はこれに限らず、必要に応じてこれらの何れかのデータの送出によりこの処理を実行してよく、さらにはこれらのデータに加えて例えば知識等を送出するようにしてもよい。またこのようなデータの送出に代えて、外部機器からの音声認識結果の入力に対して応答を送出するようにしてもよい。

また上述の実施の形態においては、外部機器の電子ペットをこの電子ペット装置１に連れ出すにつき、各種データを入力する場合について述べたが、本発明はこれに限らず、上述した各種データの何れかのデータの受信によりこの処理を実行してもよく、さらにはこれらのデータに加えて例えば知識等を受信してこれらの処理を実行してもよい。またこのようなデータを受信した内部処理に代えて、外部機器に対して音声認識結果を出力し、外部機器より応答を入力するようにしてもよい。

また上述の実施の形態においては、音声を音韻列により判定して音声認識する場合について述べたが、本発明はこれに限らず、必要に応じて種々の音声認識手法を広く適用することができる。

また上述の実施の形態においては、単語と共に属性についても音声入力により発録する場合について述べたが、本発明はこれに限らず、属性については操作子の操作により選択入力するようにしてもよい。この場合ユーザーにメニューの選択を促す方法等が考えられる。

また上述の実施の形態においては、音声入力により登録した認証データについては、音韻列により音声を表記したテキストデータにより音声認識結果を出力し、一般の音声認識結果については、通常のテキストデータを出力する場合について述べたが、本発明はこれに限らず、一般の音声認識結果においても、音韻列により音声認識結果を表示するようにしてもよい。

また上述の実施の形態においては、ユーザー名、ユーザーの嗜好によりユーザー認証する場合について述べたが、本発明はこれに限らず、例えば合言葉、過去に会話を交わした日時等を確認してユーザー認証する場合等、過去の音声認識結果によりユーザー認証する場合に広く適用することができる。

また上述の実施の形態においては、ユーザーが特定の文言を発声した場合と、一定の周期でユーザー認証する場合について述べたが、本発明はこれに限らず、必要に応じてこれら何れかによりユーザー認証するようにしてもよい。

また上述の実施の形態においては、音韻列による音声認識処理において、特定の単語の発声を確認してユーザー認証する場合について述べたが、本発明はこれに限らず、例えば音声の高低、周波数スペクトラム等、音声の特徴を示す種々の特徴量によりユーザー認証して上述の実施の形態と同様の効果を得ることができる。

また上述の実施の形態においては、電子ペットの応答を例えば飼い主とそれ以外の者とで異ならせる場合について述べたが、本発明はこれに限らず、さらに詳細に音声入力者を識別して、例えば家族と家族以外で応答を異ならせるようにしてもよく、さらには家族の個人でも応答を異ならせても良い。

また上述の実施の形態においては、入力の種類と応答の分類とにより、単純に問いに対しては問いを返さないようにする場合について述べたが、本発明はこれに限らず、例えば感情によっては問いに対して問いを返すようにしてもよい。この場合、電子ペットがひねくれている状況が形成される。

また上述の実施の形態においては、感情の制御において、性格データを操作する場合について述べたが、本発明はこれに限らず性格データの操作に代えて直接感情データを操作するようにしても良い。

また上述の実施の形態においては、音声データ、画像データを出力する場合について述べたが、本発明はこれに限らず、音声合成、画像合成により音声、画像を出力するようにしてもよい。

また上述の実施の形態においては、中央処理ユニットの処理により音声認識処理、画像合成処理する場合について述べたが、本発明はこれに限らず、図３との対比により図２８に示すように、音声認識処理、画像合成処理を専用の処理回路により構成してもよい。

また上述の実施の形態においては、応答として音声及び画像を出力する電子ペット装置に本発明を適用する場合について述べたが、本発明はこれに限らず、例えば動物の動作をするロボットに適用して鳴き声と動作により応答を出力する電子ペット装置等、種々の形態により応答を出力する電子ペット装置に広く適用することができる。

また上述の実施の形態においては、電子ペットの専用装置である電子ペット装置に本発明を適用する場合について述べたが、本発明はこれに限らず、図２との対比により図２９に示すように、携帯電話に適用してもよく、さらにはＧＰＳ、携帯型のテープレコーダ、光ディスク装置等、種々の携帯機器に広く適用することができる。また携帯機器に限らず、例えばパーソナルコンピュータ等の情報処理装置、さらにはこのパーソナルコンピュータ上で動作する各種キャラクター等に適用することができる。

本発明は、例えば携帯電話、パーソナルコンピュータ等の各種情報機器に適用することができる。

本発明の実施の形態に係る電子ペット装置を示す機能ブロック図である。図１の電子ペット装置を示す平面図である。図１の電子ペット装置のブロック図である。体調データを示す図表である。現在の感情データを示す図表である。性格データを示す図表である。感情データの変化を示す図表である。パターンデータを示す図表である。音声データを示す図表である。画像データを示す図表である。ネットワークとの接続処理手順を示すフローチャートである。ネットワークに送出するデータの形式を示す図表である。認識データの登録に関して電子ペット装置を詳細に示す機能ブロック図である。音声認識処理の説明に供する略線図である。認識データの登録処理手順を示すフローチャートである。ユーザー認証に関して電子ペット装置を詳細に示す機能ブロック図である。パターンデータを示す図表である。ユーザー認証の説明に供する図表である。図１８の質問により取得した単語を基準にしたユーザー認証の説明に供する図表である。対話の分類処理に関して電子ペット装置を詳細に示す機能ブロック図である。図２０の分類処理に対応するパターンデータを示す図表である。対話履歴を示す図表である。対話履歴の他の例を示す図表である。感情の制御に関して電子ペット装置を詳細に示す機能ブロック図である。感情変化履歴を示す図表である。図２５の感情変化履歴により変更された性格データを示す図表である。性格データの他の変更例を示す図表である。他の実施の形態に係る電子ペット装置を示すブロック図である。携帯電話を示す平面図である。

符号の説明

１……電子ペット装置、１１Ａ……音声認識部、１１Ｂ……タイマー、１１Ｃ……体調変更部、１１Ｄ……感情変更部、１１Ｅ……応答文作成部、１１Ｆ……音声合成部、１１Ｇ……画像合成部、１１Ｉ……登録部、１１Ｊ……音声認証部、１１Ｍ……発話分類部、１６Ａ……認識データ、１６Ｂ……体調データ、１６Ｃ……感情データ、１６Ｄ……性格データ、１６Ｅ……パターンデータ、１６Ｆ……対話履歴、１６Ｇ……知識、１６Ｈ……音声データ、１６Ｉ……画像データ、１６Ｊ……認証状態、１６Ｋ……認証データ、１６Ｍ……分類ルール、１６Ｎ……感情変更履歴、１７……ネットワーク接続部

Claims

ユーザーの音声を入力する音声入力手段と、
前記音声入力手段より入力した音声を音声認識処理して音声認識結果を出力する音声認識手段と、
前記音声に含まれる単語の前記音声認識結果と、対応する単語の分類とを保持する音声認識結果のデータベースと、
前記音声認識結果を基準にして前記データベースを検索し、前記音声認識結果の音声に含まれる単語の分類に従って、前記音声認識結果に対応する応答を生成する応答生成手段と、
前記応答を出力する応答出力手段と、
登録の動作モードにおいて、前記音声認識結果に基づいて、少なくとも前記データベースに前記単語の音声認識結果を登録することにより、音声により前記データベースを変更可能な登録手段とを備える
情報処理装置。
前記音声入力手段は、
音韻列により前記音声を識別して前記音声認識結果を出力し、
前記データベースは、
前記音声の音韻列による音声認識結果に従って前記単語の音声認識結果と前記分類とを記録する
請求項１に記載の情報処理装置。
前記音声認識手段は、
前記音声を変換したテキストデータにより前記音声認識結果を出力する
請求項１に記載の情報処理装置。
前記音声認識手段は、
前記登録の動作モードにおいて、所定の区切りに従って前記音声を区切って音声認識処理する
請求項１に記載の情報処理装置。
所定の擬似感情パラメータ生成ルールに従って、少なくとも前記音声認識結果と時間経過とにより変化する、擬似的に感情を示す擬似感情パラメータを生成する感情生成手段を有し、
前記応答生成手段は、
少なくとも前記擬似感情パラメータを基準にした所定の応答生成ルールに従って、前記音声認識結果に対応する応答を生成する
請求項１に記載の情報処理装置。
交換可能な記憶媒体を介して、少なくとも前記擬似感情パラメータ又は前記擬似感情パラメータの生成に必要なデータを交換できるようにした
請求項１に記載の情報処理装置。
ユーザーの音声を入力する音声入力処理と、
前記音声入力処理より入力した音声を音声認識処理して音声認識結果を出力する音声認識処理と、
前記音声認識結果を基準にして、前記音声に含まれる単語の前記音声認識結果と、対応する単語の分類とを保持する音声認識結果のデータベースを検索し、前記音声認識結果の音声に含まれる単語の分類に従って、前記音声認識結果に対応する応答を生成する応答生成処理と、
前記応答を出力する応答出力処理と、
登録の動作モードにおいて、前記音声認識結果に基づいて、少なくとも前記データベースに前記単語の音声認識結果を登録することにより、音声により前記データベースを変更可能な登録処理とを有する
情報処理方法。
ユーザーの音声を入力する音声入力手段と、
前記音声入力手段より入力した音声を音声認識処理して音声認識結果を出力する音声認識手段と、
所定の応答生成ルールに従って、前記音声認識結果に対応する応答を生成する応答生成手段と、
前記応答を出力する応答出力手段と、
前記音声に基づいて、前記ユーザーを認証するユーザー認証手段とを備え、
前記応答生成手段は、
前記ユーザー認証手段の認証結果に基づいて、音声入力者に応じて前記応答を異ならせる
情報処理装置。
前記ユーザー認証手段は、
過去の音声認識結果を基準にして前記音声認識結果を判定することにより、前記音声に基づいて前記ユーザーを認証する
請求項８に記載の情報処理装置。
前記応答生成手段は、
過去の音声認識結果に対応する質問を前記応答として出力し、
前記ユーザー認証手段は、
該質問の応答に対する音声認識結果を判定してユーザーを認証する
請求項９に記載の情報処理装置。
前記過去の音声認識結果が所定の単語である
請求項９に記載の情報処理装置。
前記ユーザー認証手段は、
前記音声認識結果より前記音声の特徴を示す特徴量を検出し、前記特徴量に基づいて前記ユーザーを認証することにより、前記音声に基づいて前記ユーザーを認証する
請求項８に記載の情報処理装置。
所定の擬似感情パラメータ生成ルールに従って、少なくとも前記音声認識結果と時間経過とにより変化する、擬似的に感情を示す擬似感情パラメータを生成する感情生成手段を有し、
前記応答生成手段は、
少なくとも前記擬似感情パラメータを基準にして前記応答生成ルールに従って、前記音声認識結果に対応する応答を生成する
請求項８に記載の情報処理装置。
ユーザーの音声を入力する音声入力処理と、
前記音声入力処理より入力した音声を音声認識処理して音声認識結果を出力する音声認識処理と、
所定の応答生成ルールに従って、前記音声認識結果に対応する応答を生成する応答生成処理と、
前記応答を出力する応答出力処理と、
前記音声に基づいて、前記ユーザーを認証するユーザー認証処理とを有し、
前記応答生成処理は、
前記ユーザー認証処理の認証結果に基づいて、音声入力者に応じて前記応答を異ならせる
情報処理方法。
ユーザーの音声を入力する音声入力手段と、
前記音声入力手段より入力した音声を音声認識処理して音声認識結果を出力する音声認識手段と、
所定の応答生成ルールに従って、前記音声認識結果に対応する応答を生成する応答生成手段と、
前記応答を出力する応答出力手段と、
前記音声に基づいて、前記音声による入力の種類を識別する発話分類手段とを備え、
前記応答生成ルールが、
前記入力の種類に応じて、前記入力の種類に対応する応答の分類に従って、所定の種類の応答を除く応答を生成するルールである
情報処理装置。
少なくとも前記音声による入力の種類と、前記応答生成手段により生成された前記応答の分類とによる履歴を記録する履歴記録手段を有し、
前記応答出力手段は、
前記履歴記録手段に記録された履歴を参照して前記応答を生成する
請求項１５に記載の情報処理装置。
所定の擬似感情パラメータ生成ルールに従って、少なくとも前記音声認識結果と時間経過とにより変化する、擬似的に感情を示す擬似感情パラメータを生成する感情生成手段を有し、
前記応答生成手段は、
少なくとも前記擬似感情パラメータを基準にして前記応答生成ルールに従って、前記音声認識結果に対応する応答を生成する
請求項１５に記載の情報処理装置。
ユーザーの音声を入力する音声入力処理と、
前記音声入力処理より入力した音声を音声認識処理して音声認識結果を出力する音声認識処理と、
所定の応答生成ルールに従って、前記音声認識結果に対応する応答を生成する応答生成処理と、
前記応答を出力する応答出力処理と、
前記音声に基づいて、前記音声による入力の種類を識別する発話分類処理を有し、
前記応答生成ルールは、
前記入力の種類に応じて、前記入力の種類に対応する応答の分類に従って、所定の種類の応答を除く応答を生成する
情報処理方法。