JP2000181676A

JP2000181676A - 画像処理装置

Info

Publication number: JP2000181676A
Application number: JP10353612A
Authority: JP
Inventors: Muneaki Ozawa; 宗明小澤; Koji Mitsunari; 幸司三成; Takeshi Nagareda; 武流田
Original assignee: UMBRELLA KK; Nintendo Co Ltd
Current assignee: UMBRELLA KK; Nintendo Co Ltd
Priority date: 1998-12-11
Filing date: 1998-12-11
Publication date: 2000-06-30
Also published as: US6538666B1; GB9929147D0; GB2351637B; CA2292395A1; GB2351637A

Abstract

(57)【要約】【課題】プログラムの進行に従って、音声認識結果の
処理態様を変えることができるような画像処理装置を提
供することである。【解決手段】ビデオゲーム機本体１０は、ＲＯＭカー
トリッジ２０に格納されたゲームプログラムに従って、
テレビジョン受像機３０に所定の画像を表示させ、所定
の音声を出力させる。プレイヤによってマイクロフォン
６０から音声が入力されると、音声認識ユニット５０
は、当該音声に対応する単語を認識し、その結果をビデ
オゲーム機本体１０に送出する。ビデオゲーム機本体１
０は、音声認識ユニット５０から受け取った認識結果に
基づいて、テレビジョン受像機３０に表示された対話相
手オブジェクトの表示状態を変化させる。ここで、認識
結果と対話相手オブジェクトの表示制御との関係は、プ
ログラムの進行に応じて変化し、それによってゲームに
変化を持たせ、面白みが増すようにしている。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、画像処理装置に関
し、より特定的には、入力される使用者の音声に応答し
て対話相手オブジェクトの表示状態を変化させるような
画像処理装置に関する。

【０００２】

【従来の技術】音声で入力された言葉の意味を認識する
音声認識装置は、従来から様々な分野で利用されてい
る。例えば、認識された音声に応答して、ディスプレイ
の表示画像の内容（例えば、キャラクタ）を変化させる
ような画像処理装置（例えば、ビデオゲーム装置）が従
来から知られている（例えば、特開平９−２３０８９０
号公報）。

【０００３】

【発明が解決しようとする課題】しかしながら、音声認
識を利用した従来の画像処理装置は、特定の単語が入力
されたときのみ画像を変化させるように構成されている
ので、オペレータは、事前に入力可能な単語を知ってお
く必要があった。もし、オペレータが入力可能な単語を
知らなければ、オペレータは、やみくもに当てずっぽう
で単語を入力するしか手だてが無く、そのような画像処
理装置は、はなはだ使い勝手の悪いものになる。また、
音声認識を利用した従来の画像処理装置は、不適切な単
語が入力された場合、表示が変わらないので、オペレー
タは、誤った単語を入力したのか、あるいは装置が故障
しているのかを判別できず、とまどうことになる。

【０００４】また、音声認識を利用した従来の画像処理
装置では、プログラムの進行にかかわらず、常に固定的
な方法で音声認識結果を処理するようにしていた。しか
しながら、画像処理装置が実行するプログラムの種類に
よっては、プログラムの進行に応じて、音声認識結果の
処理方法を変えていくことが好ましい場合もある。例え
ば、画像処理装置の実行するプログラムがビデオゲーム
プログラムの場合、いくつかのステージをクリアしてプ
レイヤの熟練度が上がるにつれて、音声認識結果とキャ
ラクタの動作との関係を変化させることが、ゲームの面
白みを増す上で効果的な手法となる。また、画像処理装
置の実行するプログラムが幼児に言葉を覚えさせるよう
な教育プログラムである場合、幼児の学習が進むにつれ
て、より正確な発音を要求するように音声認識結果の処
理方法を変えることが、無理のない学習を行う上で効果
的な手法となる。

【０００５】それゆえに、本発明の目的は、オペレータ
が使用可能な特定の言葉を事前に知らなくても、容易に
使用可能な画像処理装置を提供することである。また、
本発明の他の目的は、プログラムの進行に従って、音声
認識結果の処理態様を変えることができるような画像処
理装置を提供することである。

【０００６】

【課題を解決するための手段および発明の効果】上記の
ような目的を達成するために、本発明は、以下に述べる
ような特徴を有している。

【０００７】第１の発明は、表示装置に表示された対話
相手オブジェクトの動作を、マイクロフォンから入力さ
れた使用者の単語音声に応答して変化させるための画像
処理装置であって、マイクロフォンから入力されたアナ
ログの音声信号をディジタル音声データに変換する変換
手段と、変換手段によって変換されたディジタル音声デ
ータに該当する単語を認識するための音声認識手段と、
音声認識手段によって認識された単語が、そのとき入力
されるべき単語と一致するか否かを判断する判断手段
と、判断手段によって単語の一致が判断されたとき、認
識された単語に対応する動作をさせるように、対話相手
オブジェクトの表示状態を制御する第１の表示制御手段
と、判断手段によって単語の不一致が判断されたとき、
当該判断手段の判断を使用者に伝えるための判断伝達表
示を表示装置上で行う第２の表示制御手段とを備えてい
る。

【０００８】上記のように、第１の発明によれば、入力
されるべき単語と異なる単語が入力されても、単語の不
一致を示す判断伝達表示が行われるので、使用者は、と
まどうことがない。

【０００９】第２の発明は、第１の発明に従属する発明
であって、第２の表示制御手段は、判断伝達表示とし
て、対話相手オブジェクトが入力された単語音声を理解
できない旨の表示を表示装置上で行うことを特徴とす
る。

【００１０】上記のように、第２の発明によれば、入力
されるべき単語と異なる単語が入力されたとき、対話相
手オブジェクトが入力された単語音声を理解できない旨
の表示がなされるので、使用者は、より明確に誤った単
語を入力したことを認識できる。

【００１１】第３の発明は、第２の発明に従属する発明
であって、第２の表示制御手段は、判断手段による単語
不一致の判断が所定時間以上継続して行われたとき、判
断伝達表示として、そのとき入力されるべき単語を含む
メッセージ文をさらに表示装置に表示させることを特徴
とする。

【００１２】上記のように、第３の発明によれば、正確
な単語が入力されない状態が所定時間以上継続した場合
は、そのとき入力されるべき単語を含むメッセージ文を
さらに表示するようにしているので、使用者は、誤った
単語の入力を繰り返すことがない。

【００１３】第４の発明は、第２の発明に従属する発明
であって、第２の表示制御手段は、判断手段による単語
不一致の判断が所定回数以上繰り返して行われたとき、
判断伝達表示として、そのとき入力されるべき単語を含
むメッセージ文をさらに表示装置に表示させることを特
徴とする。

【００１４】上記のように、第４の発明によれば、誤っ
た単語の入力が所定回数以上繰り返して行われた場合
は、そのとき入力されるべき単語を含むメッセージ文を
さらに表示するようにしているので、使用者は、誤った
単語の入力を繰り返すことがない。

【００１５】第５の発明は、第３または第４の発明に従
属する発明であって、第２の表示制御手段は、メッセー
ジ文において、そのとき入力されるべき単語の部分とそ
の他の部分とが異なる色で表示されるように、表示装置
の表示制御を行うことを特徴とする。

【００１６】上記のように、第５の発明によれば、メッ
セージ文中において、そのとき入力されるべき単語の部
分をその他の部分と異なる色で表示するようにしている
ので、使用者は、入力すべき単語を容易に認識すること
ができる。

【００１７】第６の発明は、設定されたプログラムデー
タに従って表示装置に所定の画像を表示すると共に、当
該表示装置に表示された対話相手オブジェクトの動作
を、マイクロフォンから入力された使用者の単語音声に
応答して変化させるための画像処理装置であって、マイ
クロフォンから入力されたアナログの音声信号をディジ
タル音声データに変換する変換手段と、変換手段によっ
て変換されたディジタル音声データに該当する単語を認
識するための音声認識手段と、音声認識手段の認識結果
に基づいて、対話相手オブジェクトの表示状態を制御す
る表示制御手段と、プログラムデータの進行程度を検出
する進行程度検出手段とを備え、表示状態制御手段は、
進行程度検出手段によって検出されたプログラムデータ
の進行程度に応じて、対話相手オブジェクトの表示状態
の制御態様を段階的に変化させることを特徴とする。

【００１８】上記のように、第６の発明によれば、プロ
グラムデータの進行程度に応じて、対話相手オブジェク
トの表示状態の制御態様を段階的に変化させるようにし
ているので、変化に富んだ対話制御が行える。

【００１９】第７の発明は、第６の発明に従属する発明
であって、表示制御手段は、進行程度検出手段によって
検出されたプログラムデータの進行程度が相対的に初期
のレベルであるとき、音声認識手段によって認識された
単語の種類にかかわらず、対話相手オブジェクトに対し
て予め定める動作を行わせる第１の表示制御手段と、進
行程度検出手段によって検出されたプログラムデータの
進行程度が相対的に上位のレベルであるとき、音声認識
手段によって認識された単語の種類に応じて、対話相手
オブジェクトに対応する動作を行わせる第２の表示制御
手段とを含んでいる。

【００２０】上記のように、第７の発明によれば、プロ
グラムデータの進行程度が相対的に初期のレベルである
ときは、認識された単語の種類にかかわらず、対話相手
オブジェクトに対して予め定める動作を行わせ、プログ
ラムデータの進行程度が相対的に上位のレベルであると
きは、認識された単語の種類に応じて、対話相手オブジ
ェクトに対応する動作を行わせるようにしているので、
プログラムデータの進行に応じて認識結果が対話相手オ
ブジェクトの表示制御に関与する程度を変えることがで
きる。

【００２１】第８の発明は、第７の発明に従属する発明
であって、第２の表示制御手段は、音声認識手段によっ
て認識された単語が、そのとき入力されるべき単語と一
致するか否かを判断する判断手段と、判断手段によって
単語の一致が判断されたとき、対話相手オブジェクトに
一致が判断された単語に対応する動作を行わせる対応動
作制御手段とを含んでいる。

【００２２】上記のように、第８の発明によれば、認識
された単語が、そのとき入力されるべき単語と一致した
ときに、対話相手オブジェクトに一致が判断された単語
に対応する動作を行わせるようにしているので、対話相
手オブジェクトが行う動作を、プログラム上で任意に定
めることができる。

【００２３】第９の発明は、第８の発明に従属する発明
であって、音声認識手段は、基準となる複数の単語デー
タが格納された辞書手段と、ディジタル音声データと辞
書手段に格納された各単語データとを比較することによ
り、各単語データそれぞれに対して類似の程度を示す相
関距離を計算する相関距離計算手段と、相関距離計算手
段によって計算された相関距離に基づいて、辞書手段に
格納された各単語データに対して類似度の高い順番に順
位を付与する順位付与手段と、辞書手段に格納された複
数の単語データの内、上から所定順位までの単語データ
を候補単語データとして判断手段に出力する候補単語デ
ータ出力手段とを含み、判断手段は、候補単語データ出
力手段から与えられた候補単語データの内、最も類似度
の高い候補単語データから順番に、そのとき入力される
べき単語と一致するか否かを判断し、一致を判断した時
点で判断動作を停止して、対応動作制御手段に一致判断
出力を与えることを特徴とする。

【００２４】上記のように、第９の発明によれば、与え
られた候補単語データの内、最も類似度の高い候補単語
データから順番に、そのとき入力されるべき単語と一致
するか否かを判断し、一致を判断した時点で対話相手オ
ブジェクトに対応する動作を行わせるようにしているの
で、音声認識の精度が低くても対話相手オブジェクトに
所望の動作を行わせることができる。

【００２５】第１０の発明は、第９の発明に従属する発
明であって、判断手段は、進行程度検出手段によって検
出されたプログラムデータの進行程度が進むにつれて、
候補単語データの中から一致判断の対象として選択する
単語データの数を減少させることを特徴とする。

【００２６】上記のように、第１０の発明によれば、プ
ログラムデータの進行程度が進むにつれて、候補単語デ
ータの中から一致判断の対象として選択する単語データ
の数を減少させるようにしているので、プログラムデー
タの進行程度に応じて音声認識の厳しさを増すことがで
き、使用者に対してより正確な音声入力を要求すること
ができる。

【００２７】第１１の発明は、第８の発明に従属する発
明であって、音声認識手段は、そのとき入力されるべき
単語のデータが格納された辞書手段と、ディジタル音声
データと辞書手段に格納された各単語データとを比較す
ることにより、各単語データそれぞれに対して類似の程
度を示す相関距離を計算する相関距離計算手段と、相関
距離計算手段によって計算された相関距離に基づいて、
最も類似度の高い単語データを選択し、当該選択した単
語データをその相関距離と共に候補単語データとして判
断手段に出力する候補単語データ出力手段とを含み、判
断手段は、候補単語データに含まれる相関距離によって
規定される第１の類似度が、予め設定されたしきい値に
よって規定される第２の類似度よりも高いか否かを検出
し、第１の類似度のほうが第２の類似度よりも高い場合
は、音声認識手段によって認識された単語が、そのとき
入力されるべき単語と一致したと判断し、第２の類似度
のほうが第１の類似度よりも高い場合は、音声認識手段
によって認識された単語が、そのとき入力されるべき単
語と不一致であると判断することを特徴とする。

【００２８】第１２の発明は、第６〜第１１の発明のい
ずれかに従属する発明であって、プログラムデータは、
可搬型の記憶媒体に格納されたビデオゲームのためのプ
ログラムデータである。

【００２９】第１３の発明は、表示装置に表示された対
話相手オブジェクトの動作を、マイクロフォンから入力
された使用者の単語音声に応答して変化させるための画
像処理装置において実行されるプログラムデータを記憶
した記憶媒体であって、画像処理装置は、前記プログラ
ムデータを実行したとき、マイクロフォンから入力され
たアナログの音声信号をディジタル音声データに変換
し、変換されたディジタル音声データに該当する単語を
認識し、認識された単語が、そのとき入力されるべき単
語と一致するか否かを判断し、単語の一致が判断された
とき、認識された単語に対応する動作をさせるように、
対話相手オブジェクトの表示状態を制御し、単語の不一
致が判断されたとき、当該判断結果を使用者に伝えるた
めの判断伝達表示を表示装置上で行うことを特徴とす
る。

【００３０】第１４の発明は、表示装置に表示された対
話相手オブジェクトの動作を、マイクロフォンから入力
された使用者の単語音声に応答して変化させるための画
像処理装置において実行されるプログラムデータを記憶
した記憶媒体であって、画像処理装置は、プログラムデ
ータを実行したとき、マイクロフォンから入力されたア
ナログの音声信号をディジタル音声データに変換し、変
換されたディジタル音声データに該当する単語を認識
し、認識された単語に基づいて、対話相手オブジェクト
の表示状態を制御し、プログラムデータの進行程度に応
じて、対話相手オブジェクトの表示状態の制御態様が段
階的に変化することを特徴とする。

【００３１】

【発明の実施の形態】図１は、本発明の一実施形態に係
るビデオゲームシステムの構成を示す外観図である。図
１において、本実施形態のビデオゲームシステムは、ビ
デオゲーム機本体１０と、ＲＯＭカートリッジ２０と、
ビデオゲーム機本体１０に接続されるテレビジョン受像
機３０と、コントローラ４０と、音声認識ユニット５０
と、マイクロフォン６０とを備えている。

【００３２】ＲＯＭカートリッジ２０は、ゲームプログ
ラムやキャラクタデータ等のゲームに関するデータを固
定的に記憶した外部ＲＯＭを含み、ビデオゲーム機本体
１０に着脱自在に構成される。コントローラ４０は、両
手または片手で把持可能な形状のハウジングに、複数の
スイッチを設けて構成される。各スイッチの機能は、ゲ
ームプログラムによって任意に定義され得る。なお、コ
ントローラ４０は、本実施形態に興味あるスイッチとし
て、ハウンジングの裏側に設けられるＺボタン４０Ｚを
含む。音声認識ユニット５０は、マイクロフォン６０で
ピックアップされた音声の単語認識を行う。

【００３３】図２は、図１に示したビデオゲームシステ
ムの電気的な構成を示すブロック図である。図２におい
て、ビデオゲーム機本体１０には、中央処理ユニット
（以下「ＣＰＵ」と略称する）１１およびリアリティ・
コプロセッサ（以下「ＲＣＰ」と略称する）１２が内蔵
される。ＲＣＰ１２には、バスの制御を行うためのバス
制御回路１２１と、ポリゴンの座標変換や陰影処理等を
行うための画像処理ユニット（リアリティー・シグナル
・プロセッサ；以下「ＲＳＰ」と略称する）１２２と、
ポリゴンデータを表示すべき画像にラスタライズしかつ
フレームメモリに記憶可能なデータ形式（ドットデー
タ）に変換するための画像処理ユニット（リアリティー
・ディスプレイ・プロセッサ；以下「ＲＤＰ」と略称す
る）１２３とが含まれる。ＲＣＰ１２には、ＲＯＭカー
トリッジ２０を着脱自在に装着するためのカートリッジ
用コネクタ１３と、ディスクドライブ２６を着脱自在に
装着するためのディスクドライブ用コネクタ１４と、Ｒ
ＡＭ１５とが接続される。また、ＲＣＰ１２には、ＣＰ
Ｕ１１によって処理された音声信号を出力するための音
声信号発生回路１６と、ＣＰＵ１１によって処理された
画像信号を出力するための画像信号発生回路１７とが接
続される。さらに、ＲＣＰ１２には、１つまたは複数の
コントローラの操作データおよび／または音声認識ユニ
ット５０のデータをシリアル転送するためのコントロー
ラ制御回路１８が接続される。

【００３４】ＲＣＰ１２に含まれるバス制御回路１２１
は、ＣＰＵ１１からバスを介してパラレル信号の形で与
えられたコマンドをパラレル−シリアル変換して、シリ
アル信号としてコントローラ制御回路１８に供給する。
また、バス制御回路１２１は、コントローラ制御回路１
８から入力されたシリアル信号をパラレル信号に変換
し、バスを介してＣＰＵ１１に与える。コントローラ４
０から読み込んだ操作状態を示すデータは、ＣＰＵ１１
によって処理されたり、ＲＡＭ１５に一時的に記憶され
る。換言すれば、ＲＡＭ１５は、ＣＰＵ１１によって処
理されるデータを一時的に記憶する記憶領域を含み、バ
ス制御回路１２１を介してデータの読み出しまたは書き
込みを円滑に行うために利用される。

【００３５】音声信号発生回路１６の出力部には、ビデ
オゲーム機本体１０の後面に設けられるコネクタ１９５
が接続される。画像信号発生回路１７の出力部には、ビ
デオゲーム機本体１０の後面に設けられるコネクタ１９
６が接続される。コネクタ１９５には、テレビジョン受
像機３０に内蔵されたスピーカ３２が着脱自在に接続さ
れる。コネクタ１９６には、テレビジョン受像機３０に
内蔵されたＣＲＴ等のディスプレイ３１が着脱自在に接
続される。

【００３６】コントローラ制御回路１８には、ビデオゲ
ーム機本体１０の前面に設けられるコントローラ用コネ
クタ（以下「コネクタ」と略称する）１９１〜１９４が
接続される。各コネクタ１９１〜１９４には、接続用ジ
ャックを介してコントローラ４０が着脱自在に接続され
得る。また、各コネクタ１９１〜１９４には、音声認識
ユニット５０が着脱自在に接続され得る。なお、図２で
は、一例として、コネクタ１９１が接続され、コネクタ
１９４にコントローラ５０が接続されている。このよう
に、コネクタ１９１〜１９４にコントローラ４０および
／または音声認識ユニット５０を接続することにより、
コントローラ４０および／または音声認識ユニット５０
がビデオゲーム機本体１０と電気的に接続され、相互間
のデータの送受信または転送が可能となる。

【００３７】図３は、音声認識ユニット５０のより詳細
な構成を示すブロック図である。図３において、音声認
識ユニット５０は、Ａ／Ｄ変換器５１と、制御部５２
と、音声データＲＯＭ５３と、辞書ＲＡＭ５４と、イン
タフェイス５５とを備えている。制御部５２は、ＤＳＰ
（ディジタル・シグナル・プロセッサ）５２１と、プロ
グラムＲＯＭ５２２と、ワークＲＡＭ５２３とを含む。

【００３８】Ａ／Ｄ変換器５１は、マイクロフォン６０
がピックアップしたアナログ音声信号をディジタル音声
データに変換する。Ａ／Ｄ変換器５１から出力されるデ
ィジタル音声データは、ＤＳＰ５２１に与えられる。Ｄ
ＳＰ５２１は、プログラムＲＯＭ５２２に記憶されてい
る動作プログラムに従って動作を行う。ワークＲＡＭ５
２３は、ＤＳＰ５２１がデータ処理を行う上で必要とな
るデータを記憶する。音声データＲＯＭ５３は、音声合
成の元となる各素音（すなわち、母音および子音）につ
いての音声データを記憶している。辞書ＲＡＭ５４は、
ゲームにおいて使用する（換言すれば、マイクロフォン
６０から入力されることが予定されている）複数の単語
のデータをコードデータの形で記憶している。ＤＳＰ５
２１は、マイクロフォン６０から音声データが入力され
ると、辞書ＲＡＭ５４からいずれか１つの単語データを
選択して読み出し、音声データＲＯＭ５３に記憶されて
いる複数の素音データの中から対応する素音データを読
み出して合成することにより、単語として構成された音
声データを作成する。そして、ＤＳＰ５２１は、合成し
た単語の音声データと、マイクロフォン６０から入力さ
れた単語の音声データとを比較し、その類似度を表す相
関距離を計算する。ここでは、相関距離が小さいほど類
似度が高くなるものとする。ＤＳＰ５２１は、類似度す
なわち相関距離の計算を辞書ＲＡＭ５４に記憶されてい
る全ての単語について行う。その後、ＤＳＰ５２１は、
入力された単語と類似度の高い単語について、計算した
相関距離と対応する単語のコード番号とを、インタフェ
イス５５を介してビデオゲーム機本体１０に送る。

【００３９】ＲＯＭカートリッジ２０は、外部ＲＯＭ２
１が実装された基板をハウジングに収納して構成され
る。外部ＲＯＭ２１は、ゲーム等の画像処理のための画
像データやプログラムデータを記憶するとともに、必要
に応じて音楽や効果音やメッセージ等の音声データを記
憶する。

【００４０】図４は、外部ＲＯＭ２１のメモリ空間を図
解的に示したメモリマップである。図５は、外部ＲＯＭ
２１のメモリ空間の一部（画像データ領域２４）を詳細
に示したメモリマップである。図４に示すように、外部
ＲＯＭ２１は、記憶領域として、プログラム領域２２
と、文字コード領域２３と、画像データ領域２４と、サ
ウンドメモリ領域２５とを含み、各種のプログラムを予
め固定的に記憶している。

【００４１】プログラム領域２２は、ゲーム等の画像処
理を行うために必要なプログラムや、ゲーム内容に応じ
たゲームデータ等を記憶している。より具体的には、プ
ログラム領域２２は、ＣＰＵ１１の動作プログラム（後
述の図７，図８，図１０〜図１８に示すフローチャート
に対応する動作を実行させるためのプログラム）を予め
固定的に記憶するための記憶領域２２ａ〜２２ｊを含
む。

【００４２】メインプログラム領域２２ａには、後述の
図７に示すゲーム等のメインルーチンの処理プログラム
が格納される。コントロールパッドデータ（操作状態）
判断プログラム領域２２ｂには、コントローラ４０の操
作状態等を示すデータを処理するためのプログラムが格
納される。書込プログラム領域２２ｃには、ＣＰＵ１１
がＲＣＰ１２によってフレームメモリおよびＺバッファ
へデータを書き込むときに実行される書込プログラムが
格納される。例えば、書込プログラム領域２２ｃには、
１つの背景画面で表示すべき複数の移動オブジェクトま
たは背景オブジェクトのテクスチュアデータに基づく画
像データとして、色データをＲＡＭ１５のフレームメモ
リ領域（図６に示す記憶領域１５２）に書き込むための
プログラムと、奥行データをＺバッファ領域（図６に示
す記憶領域１５３）に書き込むためのプログラムとが格
納される。カメラ制御プログラム領域２２ｄには、移動
オブジェクトや背景オブジェクトを、三次元空間中のど
の位置からどの方向に向けて撮影するかを制御するため
のカメラ制御プログラムが格納される。対話相手オブジ
ェクトプログラム領域２２ｅには、移動オブジェクトの
一種であり、プレイヤが音声入力によって対話する相手
となるオブジェクト（以下、対話相手オブジェクトと称
す）の表示制御のためのプログラムが格納される。背景
オブジェクトプログラム領域２２ｆには、ＣＰＵ１１が
ＲＣＰ１２に作用して、三次元の背景画面（静止画面ま
たはコース画面等）を作成させるための背景作成プログ
ラムが格納される。ゲームプログラム領域には、ゲーム
処理のためのプログラム（図８参照）が格納される。そ
して、このゲーム処理のためのプログラムは、レベル１
用のゲームプログラム（図１２参照）と、レベル２用の
ゲームプログラム（図１３参照）と、レベル３用のゲー
ムプログラム（図１６参照）とが格納される。本実施形
態では、ゲームの進行に応じて、レベル１→レベル２→
レベル３と、実行されるゲームプログラムが変わってい
く。メッセージ処理プログラム領域２２ｈには、プレイ
ヤに対して所定のメッセージを表示し、それによってプ
レイヤが所定の音声を入力できるようにするためのプロ
グラム（図１４参照）が格納される。音声処理プログラ
ム領域２２ｉには、効果音や音楽や音声によるメッセー
ジを発生するためのプログラムが格納される。ゲームオ
ーバー処理プログラム領域２２ｊには、ゲームオーバー
になった場合の処理（例えば、ゲームオーバー状態の検
出処理や、ゲームオーバに達したときにそれまでのゲー
ム状態のバックアップデータを保存する処理）のための
プログラムが格納される。

【００４３】文字コード領域２３は、複数種類の文字コ
ードを記憶する領域であって、例えばコードに対応した
複数種類の文字のドットデータを記憶している。文字コ
ード領域２３に記憶されている文字コードデータは、ゲ
ームの進行においてプレイヤに説明文を表示するために
利用される。例えば、対話相手オブジェクトが位置して
いる場所の周囲の環境（例えば、場所，障害物の種類，
敵オブジェクトの種類）や、対話相手オブジェクトの置
かれている状況に応じて、適切な操作方法を適切なタイ
ミングで文字によるメッセージ（またはセリフ）で表示
するために使用される。

【００４４】画像データ領域２４は、図５に示すような
記憶領域２４ａおよび２４ｂを含む。画像データ領域２
４は、背景オブジェクトおよび／または移動オブジェク
トの各オブジェクト毎に、複数のポリゴンの座標データ
およびテクスチュアデータ等の画像データを記憶すると
ともに、これらのオブジェクトを所定の位置に固定的に
表示しまたは移動表示させるための表示制御プログラム
を記憶している。例えば、記憶領域２４ａには、対話相
手オブジェクトを表示するためのプログラムが格納され
る。また、記憶領域２４ｂには、複数の背景（または静
止）オブジェクト１〜ｎを表示するための背景オブジェ
クトプログラムが格納される。

【００４５】サウンドメモリ領域２５には、場面毎に対
応して、その場面に適したメッセージを音声で出力する
ためのセリフや、対話相手オブジェクトの声や、効果音
や、ゲーム音楽等のサウンドデータが記憶される。

【００４６】なお、ビデオゲーム機本体１０に接続され
る外部記憶装置としては、ＲＯＭカートリッジ２０に代
えて、またはＲＯＭカートリッジ２０に加えて、ＣＤ−
ＲＯＭや磁気ディスク等の各種記憶媒体を用いてもよ
い。その場合、ＣＤ−ＲＯＭや磁気ディスク等の光学式
または磁気式等のディスク状記憶媒体に対してゲームの
ための各種データ（プログラムデータおよび画像表示の
ためのデータを含む）を読み出しまたは必要に応じて書
き込むために、ディスクドライブ（記録再生装置）２６
が設けられる。ディスクドライブ２６は、外部ＲＯＭ２
１と同様のプログラムデータが磁気的または光学的に記
憶された磁気ディスクまたは光ディスクから記憶データ
を読み出し、そのデータをＲＡＭ１５に転送する。

【００４７】図６は、ＲＡＭ１５のメモリ空間を図解的
に示したメモリマップである。ＲＡＭ１５は、記憶領域
として、例えば、表示リスト領域１５０と、プログラム
領域１５１と、１フレーム分の画像データを一時的に記
憶するフレームメモリ（またはイメージバッファメモ
リ）領域１５２と、フレームメモリ領域に記憶された画
像データのドット毎の奥行データを記憶するＺバッファ
領域１５３と、画像データ領域１５４と、サウンドメモ
リ領域１５５と、コントロールパッドの操作状態データ
を記憶するコントロールパッドデータ領域１５６と、作
業用（ワーキング）メモリ領域１５７と、音声リスト領
域１５８と、レジスタ・フラグ領域１５９とを含む。

【００４８】各記憶領域１５０〜１５９は、ＣＰＵ１１
がバス制御回路１２１を介してアクセスできるメモリ空
間、またはＲＣＰ１２が直接アクセスできるメモリ空間
であり、使用されるゲームによって任意の容量（または
メモリ空間）が割り当てられる。また、プログラム領域
１５１，画像データ領域１５４，サウンドメモリ領域１
５５は、外部ＲＯＭ２１の記憶領域２２，２４，２５に
記憶されている１つのゲームの全てのステージ（また
は、場面，フィールドとも言う）のゲームプログラムの
内の一部のデータ（例えば、アクションやロールプレイ
ングのゲームでは、或る１つのステージまたはフィール
ド（レースゲームではコース）に必要なゲームプログラ
ム）が転送されたとき、対応するデータを一時的に記憶
するものである。このように、ある場面に必要な各種プ
ログラムデータの一部を各記憶領域１５１，１５４，１
５５に記憶させておけば、ＣＰＵ１１が必要の生じる毎
に、直接外部ＲＯＭ２１から読み出して処理するより
も、ＣＰＵ１１の処理効率を高めることができ、画像処
理速度を高速化できる。

【００４９】具体的には、フレームメモリ領域１５２
は、（ディスプレイ３０の画素（ピクセルまたはドッ
ト）数）×（１画素当たりの色データのビット数）に相
当する記憶容量を有しており、ディスプレイ３０の画素
に対応してドット毎の色データを記憶する。フレームメ
モリ領域１５２は、画像処理モードにおいて、画像デー
タ領域１５４に記憶されている１つの背景画面中に表示
すべき静止オブジェクトおよび／または移動オブジェク
トの１つ以上のオブジェクトを複数のポリゴンの集合体
で表示するための三次元座標データに基づいて、視点位
置から見える物体のドット毎の色データを一時的に記憶
する。また、フレームメモリ領域１５２は、表示モード
において、画像データ領域１５４に記憶されている対話
相手オブジェクト，仲間オブジェクト，敵オブジェク
ト，ボスオブジェクト等の移動オブジェクトや、背景
（または静止）オブジェクト等の各種オブジェクトを表
示する際に、ドット毎の色データを一時的に記憶する。

【００５０】Ｚバッファ領域１５３は、（ディスプレイ
３１の画素（ピクセルまたはドット）数）×（１画素当
たりの奥行データのビット数）に相当する記憶容量を有
しており、ディスプレイ３１の各画素に対応してドット
毎の奥行データを記憶するものである。Ｚバッファ領域
１５３は、画像処理モードにおいて静止オブジェクトお
よび／または移動オブジェクトの１つ以上のオブジェク
トを複数のポリゴンの集合体で表示するための三次元座
標データに基づいて視点位置から見える部分のオブジェ
クトのドット毎に奥行データを一時的に記憶するととも
に、表示モードにおいて移動および／または静止の各オ
ブジェクトのドット毎の奥行データを一時的に記憶す
る。

【００５１】画像データ領域１５４は、外部ＲＯＭ２１
に記憶されているゲーム表示のための静止および／また
は移動の各オブジェクト毎に、複数の集合体で構成され
るポリゴンの座標データとテクスチュアデータとを記憶
する。この画像データ領域１５４には、画像処理動作に
先立って、少なくとも１つのステージまたはフィールド
分のデータが外部ＲＯＭ２１から転送されてくる。

【００５２】サウンドメモリ領域１５５には、外部ＲＯ
Ｍ２１の記憶領域に記憶されている音声データ（セリ
フ，音楽，効果音のデータ）の一部が転送されてくる。
サウンドメモリ領域１５５は、外部ＲＯＭ２１から転送
されてきたデータを、スピーカ３２から発生すべき音声
（対話相手オブジェクトの声、ＢＧＭ、効果音等）のデ
ータとして一時的に記憶する。音声リスト領域１５８
は、スピーカ３２から発生される音を作成するための音
声データを記憶している。

【００５３】コントロールパッドデータ（操作状態デー
タ）記憶領域１５６は、コントローラ４０から読み込ん
だ操作状態を示す操作状態データを一時的に記憶する。
作業用メモリ領域１５７は、ＣＰＵ１１がプログラムを
実行中にパラメータ等のデータを一時的に記憶する。

【００５４】レジスタ・フラグ領域１５９は、各種パラ
メータやデータを記憶するデータレジスタ領域１５９Ｒ
と、各種フラグを記憶するフラグ領域１５９Ｆとを含
む。

【００５５】本実施形態の詳細な動作を説明する前に、
本実施形態が想定しているゲームの概要について説明す
る。このゲームは、対話相手オブジェクトが三次元空間
中の様々なステージまたはフィールドを移動しながら用
意された種々のイベントをクリアしたり、敵を倒して各
ステージをクリアするゲームである。ゲームの進行は、
プレイヤがコントローラ４０を操作することにより進め
られる。また、このゲームは、ゲームの途中でプレイヤ
が、予め決められた単語の音声をマイクロフォン６０か
ら入力することにより、対話相手オブジェクトに対して
所定の動作を行わせる。対話相手オブジェクトは、移動
オブジェクトの一種であり、通常はゲームの主人公のキ
ャラクタが選ばれる。

【００５６】所定の単語音声が入力された場合に対話相
手オブジェクトを変化させる具体例としては、お辞儀を
させたり、歩く方向を変えたり、釣りやスイカ割りをさ
せたりすることが考えられる。また、本ゲーム中では、
クイズが準備されており、クイズの答えを入力するため
に音声入力が利用される。

【００５７】図７は、図２に示すゲーム機本体１０の全
体的な動作を示すメインルーチンのフローチャートであ
る。以下には、図７のメインルーチンフローチャートに
沿って、本実施形態の動作を説明する。

【００５８】電源が投入されると、スタートに際して、
ビデオゲーム機本体１０が所定の初期状態に設定され
る。応じて、ＣＰＵ１１は、外部ＲＯＭ２１のプログラ
ム領域に記憶されているゲームプログラムの内の立ち上
げプログラムをＲＡＭ１５のプログラム領域１５１に転
送し、各パラメータを初期値に設定した後、図７に示す
メインルーチンのフローチャートの処理を実行する。

【００５９】図７に示すメインルーチン処理は、ＣＰＵ
１１によって、１フレーム（１／６０秒）毎に実行され
る。すなわち、ＣＰＵ１１は、１つのステージ（または
フィールド若しくはコース）をクリアするまでステップ
Ｓ１〜Ｓ９の動作を行った後、ステップＳ２〜ステップ
Ｓ９の動作を繰り返し行う。ただし、ステップＳ５，Ｓ
６は、ＲＣＰ１２によって処理される。また、ＣＰＵ１
１は、ステージクリアに成功することなくゲームオーバ
になると、ステップＳ１０のゲームオーバ処理を行う。
また、ステージクリアに成功すると、ステップＳ１０か
らステップＳ１へと戻る。

【００６０】具体的には、ステップＳ１において、ゲー
ム開始のための初期設定（すなわち、ゲーム開始処理）
が行われる。このとき、例えばゲームが複数のステージ
またはコースの何れの位置からでもスタートできる場合
は、ステージまたはコースの選択画面の表示が行われ
る。ただし、スタート直後はステージ１のゲームが行わ
れるので、そのステージのゲーム開始処理が行われる。
すなわち、レジスタ領域１５９Ｒおよびフラグ領域１５
９Ｆがクリアされ、ステージ１（選択されたステージま
たはコースでも可）のゲームを行うのに必要な各種デー
タが外部ＲＯＭ２１から読み出されて、ＲＡＭ１５の記
憶領域１５１〜１５５に転送される。

【００６１】次に、ステップＳ２において、コントロー
ラ処理が行われる。この処理は、コントローラ４０のス
イッチまたはボタンの何れが操作されたかを検出し、そ
の操作状態の検出データ（コントローラデータ）を読み
込み、読み込んだコントローラデータを書き込むことに
よって行われる。

【００６２】次に、ステップＳ３において、ゲーム処理
が行われる。この処理は、プレイヤによって操作される
コントローラ４０の操作状態と、マイクロフォン６０か
ら入力される音声とに基づいて、ゲームの進行を制御す
る処理である。ゲーム処理の詳細は、図８を参照して後
述する。

【００６３】次に、ステップＳ４において、カメラ処理
が行われる。このカメラ処理では、例えば、カメラのフ
ァインダーを通して見たときの視線または視界がプレイ
ヤの指定したアングルとなるように、各オブジェクトを
指定された角度で見たときの座標値の演算が行われる。

【００６４】次に、ステップＳ５において、ＲＣＰ１２
が描画処理を行う。すなわち、ＲＣＰ１２は、ＣＰＵ１
１の制御の下に、ＲＡＭ１５の画像データ領域１５４に
記憶されている敵，プレイヤ，背景のそれぞれのテクス
チュアデータに基づいて、移動オブジェクトおよび静止
オブジェクトの表示処理のための画像データの変換処理
（座標変換処理およびフレームメモリ描画処理）を行
う。具体的には、複数の移動オブジェクトや静止オブジ
ェクト毎の複数のポリゴンによって構成される各三角形
の面に対応する記憶領域１５４の各番地には、各オブジ
ェクト毎に決められたテクスチャデータで指定される色
等を貼りつけるために、色データが書込まれる。描画処
理の詳細は、図１７を参照して後述する。

【００６５】次に、ステップＳ６において、メッセージ
や音楽や効果音等の音声データに基づいて、音声処理が
行われる。音声処理の詳細は、図１８を参照して後述す
る。

【００６６】次に、ステップＳ７において、ＲＣＰ１２
は、ステップＳ５の描画処理の結果に基づいて、フレー
ムメモリ領域１５２に記憶されている画像データを読出
すことにより、対話相手オブジェクト，静止オブジェク
ト，敵オブジェクト等を表示画面３１上に表示させる。

【００６７】次に、ステップＳ８において、ＲＣＰ１２
は、ステップＳ６の音声処理によって得られる音声デー
タを読み出すことにより、スピーカ３２から音楽，効果
音または会話等の音声を出力させる。

【００６８】次に、ステップＳ９において、ステージま
たはフィールドをクリアしたか否かが判断（クリア検
出）される。クリアしていなければ、ステップＳ９にお
いてゲームオーバになったか否かが判断され、ゲームオ
ーバでなければステップＳ２へ戻り、ゲームオーバの条
件が検出されるまでステップＳ２〜Ｓ９の動作が繰り返
される。そして、所定のゲームオーバ条件（プレイヤに
許容されているミス回数が所定の回数になる、対話相手
オブジェクトのライフを所定数量使い切る等）が成立し
たことが検出されると、続くステップＳ１０において、
所定のゲームオーバ処理（ゲームを継続するか否かを選
択する処理、バックアップデータを記憶するか否かを選
択する処理等）が行われる。

【００６９】なお、ステップＳ９において、ステージを
クリアした条件（例えば、ボスを倒す等）が検出される
と、ステップＳ１０において所定のクリア処理をした
後、ステップＳ１へ戻る。

【００７０】図８〜図１０および図１２〜図１８は、図
７のフローチャートにおける各サブルーチンの詳細を示
すフローチャートである。また、図１１は、音声認識ユ
ニット５０における音声認識処理を示すフローチャート
である。また、図１９〜図２５は、ゲーム処理中におけ
るディスプレイ３１での表示画面の一例を示す図であ
る。以下、これら図８〜図２５を参照して、各サブルー
チンの詳細な動作を説明する。

【００７１】まず、図８を参照して、ゲーム処理（図７
のステップＳ３）の詳細を説明する。ＣＰＵ１１は、ま
ず、音声認識をすべきタイミングであるか否かを判断す
る（ステップＳ３０１）。この判断は、ＣＰＵ１１が後
述する音声認識ゲーム処理を実行中であり、かつＺボタ
ン４０Ｚが押圧中であるときに、「ＹＥＳ」となる。本
実施形態のビデオゲーム装置で想定しているゲームは、
ゲームモードとして、音声認識ゲームモードと、その他
のゲームモードとを有している。音声認識ゲームモード
では、コントローラ４０の操作およびマイクロフォン６
０から入力されるプレイヤの音声に応答してゲームが進
行する。一方、その他のゲームモードでは、単にコント
ローラ４０の操作に応答してゲームが進行する。最初
は、その他のゲームモードが起動されるため、初期状態
でのステップＳ３０１の判断は、「ＮＯ」である。

【００７２】次に、ＣＰＵ１１は、音声認識ユニット５
０における音声認識処理が完了したか否かを判断する
（ステップＳ３０２）。このとき、ＣＰＵ１１は、音声
認識ユニット５０に対して音声認識処理の実行を指示し
ていないため、その判断は、「ＮＯ」となる。次に、Ｃ
ＰＵ１１は、Ｚボタン処理を実行する（ステップＳ３０
３）。このＺボタン処理の詳細は、図９に示されてい
る。図９を参照して、ＣＰＵ１１は、音声認識ゲーム処
理を実行中か否かを判断する（ステップＳ３０４）。前
述したように、最初は、その他のゲーム処理モードが起
動されるため、ステップＳ３０４の判断は、「ＮＯ」と
なる。次に、ＣＰＵ１１の動作は、音声認識ゲーム処理
ルーチンに入る（ステップＳ３０５）。この音声認識ゲ
ーム処理ルーチンの詳細は、図１０に示されている。図
１０を参照して、ＣＰＵ１１は、まず音声認識ゲームを
実行すべきか否かを判断する（ステップＳ３０６）。こ
のとき、その他のゲーム処理モードが起動しているた
め、ステップＳ３０６の判断は、「ＮＯ」となる。

【００７３】次に、ＣＰＵ１１は、その他のゲーム処理
を実行する（ステップＳ３０７）。次に、ＣＰＵ１１
は、ゲームにおける１つのステージがクリアされたか否
かを判断する（ステップＳ３０８）。本実施形態のビデ
オゲームでは、１つのステージがクリアされる毎に、レ
ベルアップ処理が行われる（ステップＳ３０９）。この
レベルアップ処理は、後述する音声認識ゲーム処理にお
いて関連してくる。なお、本実施形態では、一例とし
て、３段階のレベルが存在する。レベルアップ処理が終
了すると、ＣＰＵ１１は、セーブ処理を実行する（ステ
ップＳ３１０）。このセーブ処理では、プレイヤからの
セーブ要求に応答して、ＣＰＵ１１は、そのときのゲー
ムの状態を保持するための様々なパラメータを所定の記
憶部（例えば、ＲＯＭカートリッジ２０内に設けられた
セーブメモリ（図示せず））に格納する。

【００７４】その後、ゲームプログラムの処理が進行し
て、ゲームモードが音声認識ゲームモードに移行した場
合の動作について説明する。この場合、まず、図９のス
テップＳ３０４において、音声認識ゲーム処理を実行中
であることが判断される。従って、プレイヤからの音声
入力が必要となるが、本実施形態では、可能な限りプレ
イヤの音声のみが入力されるような配慮がなされてい
る。すなわち、本実施形態は、プレイヤがＺボタン４０
Ｚを押圧中のときのみ音声入力を受け付ける構成となっ
ている。これによって、Ｚボタン押圧時以外にプレイヤ
が発声する音声以外の音（例えば、生活雑音）が入力さ
れるのをある程度避けることができる。しかしながら、
プレイヤは、しばしば音声入力のためにＺボタン４０Ｚ
を押圧するのを忘れる場合がある。そこで、ＣＰＵ１１
は、Ｚボタン４０Ｚが押圧されているか否かを判断し
（ステップＳ３１１）、押圧されていない場合は、押圧
されていない時間を計測する（ステップＳ３１２）。そ
して、ＣＰＵ１１は、この計測時間が所定時間を越えた
か否かを判断し（ステップＳ３１３）、越えた場合は、
Ｚボタン４０Ｚの押圧を促すようなメッセージを表示す
るための表示データをＲＡＭ１５の表示リスト領域１５
０（図６参照）に登録する（ステップＳ３１４）。登録
された表示データは、後に説明する図７の描画処理（ス
テップＳ５）において、ディスプレイ３１に表示され
る。

【００７５】自発的にあるいはディスプレイ３１に表示
されたメッセージに促されてプレイヤがＺボタン４０Ｚ
を押圧すると、ＣＰＵ１１は、図８のステップＳ３０１
において、音声認識ゲーム処理を実行中であり、かつＺ
ボタン４０Ｚが押圧中であることを判断し、音声認識ユ
ニット５０に対して音声認識処理の実行を指示する（ス
テップＳ３１５）。応じて、音声認識ユニット５０は、
図１１に示すフローチャートに沿って音声認識動作を実
行する。図１１を参照して、音声認識ユニット５０のＤ
ＳＰ５２１は、まずＣＰＵ１１からの音声認識命令を受
け取ったことを判断し（ステップＳ３１６）、マイクロ
フォン６０から出力される音声信号を入力する（ステッ
プＳ３１７）。次に、ＤＳＰ５２１は、入力したアナロ
グの音声信号を、Ａ／Ｄ変換器５１によって、ディジタ
ル音声信号に変換させる（ステップＳ３１８）。次に、
ＤＳＰ５２１は、入力された音声と辞書ＲＡＭ５４に記
憶された各単語とを比較する（ステップＳ３２０）。こ
のとき、ＤＳＰ５２１は、前述したように、辞書ＲＡＭ
５４からいずれか１つの単語データを選択して読み出
し、音声データＲＯＭ５３に記憶されている複数の素音
データの中から対応する素音データを読み出して合成す
ることにより、単語として構成された音声データを作成
する。そして、ＤＳＰ５２１は、合成した単語の音声デ
ータと、マイクロフォン６０から入力された単語の音声
データとを比較し、その類似度を表す相関距離を計算す
る。ここでは、相関距離が小さいほど類似度が高くなる
ものとする。ＤＳＰ５２１は、類似度すなわち相関距離
の計算を辞書ＲＡＭ５４に記憶されている全ての単語に
ついて行う。全単語についての相関距離の計算が終了す
ると、ＤＳＰ５２１は、処理完了フラグをＯＮする（ス
テップＳ３２０）。この処理完了フラグは、例えばＲＡ
Ｍ１５内のフラグ領域１５９Ｆ（図６参照）に設けられ
ている。その後、ＤＳＰ５２１は、ステップＳ３１６の
動作に戻る。

【００７６】一方、ＣＰＵ１１は、処理完了フラグがＯ
Ｎされたことに基づいて、音声認識ユニット５０での音
声認識処理が完了したと判断する（ステップＳ３０
２）。そして、ＣＰＵ１１は、音声認識ユニット５０に
対して取込命令を出力する（ステップＳ３２１）。応じ
て、音声認識ユニット５０のＤＳＰ５２１は、ＣＰＵ１
１から取込命令が出されたことを判断し（ステップＳ３
２２）、第１順位の単語（すなわち、辞書ＲＡＭ５４に
登録された単語の中で、音声入力された単語と最も類似
度の高い単語）のコード番号と相関距離値とを、インタ
フェイス５５を介してビデオゲーム機本体１０に送る
（ステップＳ３２３）。さらに、ＤＳＰ５２１は、第２
順位の単語（すなわち、辞書ＲＡＭ５４に登録された単
語の中で、音声入力された単語と２番目に類似度の高い
単語）のコード番号と相関距離値とを、インタフェイス
５５を介してビデオゲーム機本体１０に送る（ステップ
Ｓ３２４）。次に、ＤＳＰ５２１は、処理完了フラグを
ＯＦＦする（ステップＳ３２５）。その後、ＤＳＰ５２
１は、ステップＳ３１６の動作に戻る。

【００７７】ＣＰＵ１１は、上記ステップＳ３２３およ
びＳ３２４でＤＳＰ５２１から送られてくる単語のコー
ド番号と相関距離値とを取り込む（ステップＳ３２
６）。次に、ＣＰＵ１１の動作は、ステップＳ３０３の
Ｚボタン処理を経由した後、ステップＳ３０５の音声認
識ゲーム処理ルーチンに入る。このステップＳ３０５に
おいて、ＣＰＵ１１は、音声認識ゲーム処理の実行中で
あることを判断し（ステップＳ３０６）、現在のゲーム
のレベルが、レベル１であるか、レベル２であるか、レ
ベル３であるかを判断する（ステップＳ３２７およびＳ
３２８）。ＣＰＵ１１は、判断の結果、現在のゲームの
レベルがレベル１である場合は、レベル１のゲーム処理
を実行し（ステップＳ３２９）、レベル２である場合
は、レベル２のゲーム処理を実行し（ステップＳ３３
０）、レベル３である場合は、レベル３のゲーム処理を
実行する（ステップＳ３３１）。

【００７８】次に、図１２を参照して、レベル１のゲー
ム処理について説明する。このレベル１のゲーム処理で
は、マイクロフォン６０からの音声入力があると、入力
された音声が辞書ＲＡＭ５４に登録されている単語と一
致しているか否かにかかわらず、対話相手オブジェクト
に対して所定の動作を行わせる。すなわち、レベル１の
ゲーム処理では、音声認識の結果は関与せず、単に音声
入力の有無に応じて、対話相手オブジェクトにプログラ
ムで決められている所定の動作（お辞儀する、飛び跳ね
る、喜ぶ等の動作）を行わせる。

【００７９】図１２を参照して、ＣＰＵ１１は、まず、
プレイヤから音声入力が有ったか否かを判断する（ステ
ップＳ３３２）。音声入力がない場合、ＣＰＵ１１は、
対話相手オブジェクトに対して何の動作も行わせない。
これに対し、プレイヤから音声入力が有った場合、ＣＰ
Ｕ１１は、対話相手オブジェクトに対して所定の動作を
行わせる。すなわち、ＣＰＵ１１は、対話相手オブジェ
クトが現在行うべき動作を検出する（ステップＳ３３
３）。次に、ＣＰＵ１１は、検出した動作が第１の動作
であるか、第２の動作であるか、第３の動作であるか、
その他の動作であるかを判断する（ステップＳ３３４〜
Ｓ３３６）。次に、ＣＰＵ１１は、対話相手オブジェク
トに対応する動作を行わせるための表示データをＲＡＭ
１５の表示リスト領域１５０（図６参照）に登録する
（ステップＳ３３７〜Ｓ３４０）。このとき登録された
表示データは、後に説明する図７の描画処理（ステップ
Ｓ５）において、ディスプレイ３１に表示される。図１
９にこのときの一表示例を示しておく。次に、ＣＰＵ１
１は、対話相手オブジェクトに対応する音声を発声させ
るための音声データをＲＡＭ１５の音声リスト領域１５
８に登録する（ステップＳ３４１〜Ｓ３４４）。このと
き登録された音声データは、後に説明する図７の音声処
理（ステップＳ６）において、スピーカ３２から出力さ
れる。

【００８０】次に、図１３を参照して、レベル２のゲー
ム処理について説明する。このレベル２のゲーム処理で
は、プレイヤの音声入力に応答して、対話相手オブジェ
クトに対応する動作を行わせる。対話相手オブジェクト
が行う動作としては、プログラム上で予め複数種類の動
作が準備されている。従って、対話相手オブジェクトに
プレイヤが意図する動作を行わせるためには、その動作
に対応する単語の音声を入力する必要がある。マイクロ
フォン６０から音声入力があると、辞書ＲＡＭ５４に登
録されている単語の内、入力された音声と最も似ている
単語が選択され、予め準備された動作に対応する単語と
比較される。比較の結果、一致するものがあると、その
単語に対応する動作が実行される。比較の結果、一致す
るものがない場合は、辞書ＲＡＭ５４に登録されている
単語の内、入力された音声と２番目に似ている単語が選
択され、予め準備された動作に対応する単語と比較され
る。比較の結果、一致するものがあると、その単語に対
応する動作が実行される。比較の結果、一致するものが
ない場合は、正しい単語を入力させるための処理が行わ
れる。

【００８１】図１３を参照して、ＣＰＵ１１は、まず、
メッセージ表示処理を行う（ステップＳ３４５）。この
メッセージ表示処理の詳細は、図１４に示されている。
図１４を参照して、ＣＰＵ１１は、まず、表示すべきメ
ッセージを決定する（ステップＳ３４６）。次に、ＣＰ
Ｕ１１は、決定されたメッセージのデータをＲＡＭ１５
から読み出す（ステップＳ３４７）。次に、ＣＰＵ１１
は、辞書ＲＡＭ５４に記憶されている全単語データを検
出し（ステップＳ３４８）、当該単語データとＲＡＭ１
５から読み出したメッセージデータとを比較することに
より、当該メッセージデータ中に当該単語と対応する単
語が存在するか否かを判断する（ステップＳ３４９）。
次に、ＣＰＵ１１は、メッセージデータ中に辞書ＲＡＭ
５４に登録された単語と一致する単語が存在する場合、
当該単語に相当する部分の表示色を、他のメッセージ文
の表示色と変化させるように、メッセージデータの色デ
ータを補正する（ステップＳ３５０）。次に、ＣＰＵ１
１は、色補正が施されたメッセージデータをＲＡＭ１５
の表示リスト領域１５０（図６参照）に登録する（ステ
ップＳ３５１）。このとき登録された表示データは、後
に説明する図７の描画処理（ステップＳ５）において、
ディスプレイ３１に表示される。図２０は、ディスプレ
イ３１に表示されるメッセージの一例を示している。図
２０には、メッセージとして「さいしょはれんしゅうじ
ゃ。ピカチュウがスイカのそばにちかよったらそこだと
おしえてやるのじゃ。」と表示されている。そして、
「ピカチュウ」「スイカ」「そこだ」の表示色が他のメ
ッセージ文と異なる表示色になっている。このように、
メッセージ文中において、辞書ＲＡＭ５４に登録されて
いる単語の部分の表示色を他の部分の表示色と異ならせ
ることにより、プレイヤは、入力可能な単語を容易に知
ることができる。その結果、プレイヤは、入力すべき単
語が分からずに、やみくもに発声を繰り返すことが無く
なり、ゲームに対して興味を無くしてしまうような事態
を防止できる。なお、実際のゲームでは、ゲームの進行
に応じて、ステップＳ３４５で表示するメッセージの内
容が変更されるであろう。ステップＳ３５１の後、メッ
セージ表示処理が終了し、ＣＰＵ１１は、図１３のレベ
ル２のゲーム処理に戻る。

【００８２】再び図１３に戻って、ＣＰＵ１１は、マイ
クロフォン６０から音声入力があったか否かを判断する
（ステップＳ３５２）。音声入力があった場合、ＣＰＵ
１１は、対話相手オブジェクトが音声入力に応答する動
作を行うことが可能か否かを判断する（ステップＳ３５
３）。例えば、プログラム中で規定された一連の画像処
理であって、音声入力に応答しない画像処理を実行中で
ある場合は、対話相手オブジェクトが音声入力に応答す
る動作を行うことが不可能であると判断される。次に、
ＣＰＵ１１は、図８のステップＳ３２６で取り込まれた
音声認識ユニット５０の音声認識結果の中から、第１順
位の単語（すなわち、音声入力された単語に最も類似す
る単語）を検出する（ステップＳ３５４）。次に、ＣＰ
Ｕ１１は、検出された第１順位の単語が、プログラム上
で予め予定されているいずれかの単語に該当するか否か
を判断する（ステップＳ３５５〜Ｓ３５７）。いずれか
の単語に該当する場合、ＣＰＵ１１は、対話相手オブジ
ェクトに該当する動作をさせるための表示データの演算
を行う（ステップＳ３５８〜Ｓ３６０）。一方、第１順
位の単語がプログラム上で予定されている単語のいずれ
にも該当しない場合、ＣＰＵ１１は、図８のステップＳ
３２６で取り込まれた音声認識ユニット５０の音声認識
結果の中から、第２順位の単語（すなわち、音声入力さ
れた単語に２番目に類似する単語）を検出する（ステッ
プＳ３６１）。次に、ＣＰＵ１１は、検出された第２順
位の単語が、プログラム上で予め予定されているいずれ
かの単語に該当するか否かを判断する（ステップＳ３６
２〜Ｓ３６４）。いずれかの単語に該当する場合、ＣＰ
Ｕ１１は、対話相手オブジェクトに該当する動作をさせ
るための表示データの演算を行う（ステップＳ３６５〜
Ｓ３６７）。なお、本実施形態では、レベル２のゲーム
処理の一例として、図２１の画面表示例に示すように、
対話相手オブジェクトに対してスイカ割りを行わせるこ
とを想定している。このスイカ割りゲームは、目隠しを
された対話相手オブジェクトがプレイヤの指示する方向
へ進んでいき、指示されたところで所持している棒を振
り下ろしてスイカを割るゲームである。そのため、プロ
グラム上で予定されている単語としては、対話相手オブ
ジェクトの移動方向を決めるための単語「右」「左」
と、棒を振り下ろしてスイカを割らせるための単語「そ
こだ」とが示されている。もっともゲームの進行度合い
あるいはゲームの種類によっては、予定されている単語
を増減することも、他の単語を採用することも可能であ
る。

【００８３】上記ステップＳ３５８〜Ｓ３６０、ステッ
プＳ３６５〜Ｓ３６７における表示データの演算処理が
終了すると、ＣＰＵ１１は、ステップＳ３６８の認識不
能処理を実行する。この認識不能処理の詳細は、図１５
に示されている。図１５を参照して、ＣＰＵ１１は、ま
ず、入力された音声が認識されなかった連続回数を計算
する（ステップＳ３６９）。ここで、認識されなかった
とは、第１順位および第２順位の単語の両方が、プログ
ラム上で予定されている単語（すなわち、「右」「左」
「そこだ」）のいずれにも該当しない場合を言う。この
場合、ステップＳ３５８〜Ｓ３６０、ステップＳ３６５
〜Ｓ３６７のいずれかを通過しているのであるから、入
力されている単語の認識が行われており、計算される認
識不能連続回数は０回となる。従って、ＣＰＵ１１は、
計算された認識不能連続回数が予め定める所定回数以下
であることを判断し（ステップＳ３７０）、今度は、認
識できなかった継続時間を計算する（ステップＳ３７
１）。このとき計算される継続時間は、０秒である。従
って、ＣＰＵ１１は、計算された認識不能継続時間が予
め定める所定時間以下であることを判断し、ステップＳ
３６８の認識不能処理を終了する。このように、第１順
位または第２順位の単語がプログラム上で予定されてい
る単語のいずれかに該当すると判断された場合は、ステ
ップＳ３６８の認識不能処理をスルーすることになる。
ステップＳ３６８の後、ＣＰＵ１１は、ステップＳ３５
８〜Ｓ３６０、ステップＳ３６５〜Ｓ３６７のいずれか
で演算された表示データをＲＡＭ１５の表示リスト領域
１５０（図６参照）に登録する（ステップＳ３７３）。
このとき登録された表示データは、後に説明する図７の
描画処理（ステップＳ５）において、ディスプレイ３１
に表示される。

【００８４】一方、第１順位および第２順位の単語の両
方が、プログラム上で予定されている単語のいずれにも
該当しない場合、ＣＰＵ１１は、ステップＳ３７４にお
いて疑問処理を行う。この疑問処理では、例えば図２２
に示すように、対話相手オブジェクトが入力された単語
を理解できない旨の表示がなされる。図２２では、一例
として、“？”マークが対話相手オブジェクトの頭上に
表示されている。その後、ＣＰＵ１１の動作は、ステッ
プＳ３６８の認識不能処理に移行する。

【００８５】図１５に示す認識不能処理において、ステ
ップＳ３６９で計算された認識不能連続回数が所定回数
を越えた場合、ＣＰＵ１１は、プレイヤに対して適切な
単語入力を促すようなメッセージのための表示データ作
成し、ＲＡＭ１５の表示リスト領域１５０（図６参照）
に登録する（ステップＳ３７５）。このとき登録された
表示データは、後に説明する図７の描画処理（ステップ
Ｓ５）において、ディスプレイ３１に表示される。ま
た、ステップＳ３７１で計算された認識不能継続時間が
所定時間を越えた場合も、ＣＰＵ１１は、プレイヤに対
して適切な単語入力を促すようなメッセージのための表
示データ作成し、ＲＡＭ１５の表示リスト領域１５０に
登録する（ステップＳ３７６）。このとき登録された表
示データも、後に説明する図７の描画処理（ステップＳ
５）において、ディスプレイ３１に表示される。なお、
上記ステップＳ３７５およびＳ３７６で登録される表示
データは、図１４を参照して説明したメッセージ表示の
場合と同様に、入力すべき単語の部分が他の部分と異な
る色で表示されるようなデータとなっている。

【００８６】上記のように、第２レベルのゲーム処理で
は、第２順位までの単語がプログラム上で予定されてい
る単語との比較対象となるが、さらに多くの順位の単語
を比較の対象とするようにしても良い。

【００８７】また、ステージ，フィールドまたは場面が
切り替わる毎に、そのステージ，フィールドまたは場面
で使用が予定されている単語のデータのみをＣＰＵ１１
から辞書ＲＡＭ５４に送って書き換えるようにしても良
い。この場合、ＤＳＰ５２１は、ＣＰＵ１１からの音声
認識処理の指示を受け取ると、入力された音声と最も類
似する単語を辞書ＲＡＭ５４に記憶された単語データの
中から選択し、当該選択した単語データとその相関距離
とをＣＰＵ１１に送る。一方、ＣＰＵ１１は、ＤＳＰ５
２１から受け取った認識結果に含まれる相関距離が予め
設定されたしきい値よりも大きいか小さいかを検出し、
小さい場合は認識結果が正しいもの（すなわち、入力さ
れた音声がそのとき入力されるべき単語と一致してい
る）と判断し、大きい場合は認識結果が誤っている（す
なわち、入力された音声がそのとき入力されるべき単語
と一致していない）と判断する。認識結果が正しいと判
断した場合、ＣＰＵ１１は、対話相手オブジェクトに対
応する動作を行わせる。一方、認識結果が誤っていると
判断した場合、ＣＰＵ１１は、ステップＳ３７４の疑問
処理や、ステップＳ３６５の認識不能処理を行う。

【００８８】次に、図１６を参照して、レベル３のゲー
ム処理について説明する。このレベル３のゲーム処理で
は、プレイヤは、一例として、シルエットクイズと呼ば
れるイベントを行うことになる。ここで、シルエットク
イズとは、シルエットのみが表示されたキャラクタの名
称を当てるクイズを意味する。プレイヤは、ディスプレ
イ３１に表示されたキャラクタのシルエットを見て、該
当する名称をマイクロフォン６０から音声入力する。マ
イクロフォン６０から音声入力があると、辞書ＲＡＭ５
４に登録されている単語の内、入力された音声と最も似
ている単語が選択され、対応するキャラクタの名称と比
較される。比較の結果、一致すると、正解動作が行わ
れ、不一致の場合は、不正解動作が行われる。

【００８９】前述したように、レベル１のゲーム処理で
は、音声認識の結果にかかわらず、単に音声入力が有っ
たことに応じて、対話相手オブジェクトにプログラムで
決められている所定の動作を行わせる。また、レベル２
のゲーム処理では、第２順位までの単語が比較の対象と
なる。これに対し、レベル３のゲーム処理では、第１順
位の単語のみが比較の対象となる。このことは、ゲーム
のレベルが上がるにつれて、より正確な単語の音声入力
が要求されることを意味する。これによって、ゲームの
進行に応じて、その難易度に変化を与えることができ、
容易に飽きられないゲームを実現できる。

【００９０】図１６を参照して、ＣＰＵ１１は、まず、
シルエットクイズ表示処理を行う（ステップＳ３７
７）。このシルエットクイズ表示処理の一表示例を図２
３に示す。図２３から分かるように、ディスプレイ３１
にキャラクタのシルエットが表示される。応じて、プレ
イヤは、シルエットに該当するキャラクタの名称をマイ
クロフォン６０から入力する。次に、ＣＰＵ１１は、マ
イクロフォン６０から音声入力があったか否かを判断す
る（ステップＳ３７８）。音声入力があった場合、ＣＰ
Ｕ１１は、図８のステップＳ３２６で取り込まれた音声
認識ユニット５０の音声認識結果の中から、第１順位の
単語（すなわち、音声入力された単語に最も類似する単
語）を検出する（ステップＳ３７９）。次に、ＣＰＵ１
１は、検出された第１順位の単語がそのとき表示されて
いるシルエットのキャラクタと一致するか否か、すなわ
ちシルエットクイズの答えとして音声入力された単語が
正解か否かを判断する（ステップＳ３８０）。なお、シ
ルエットクイズでは、複数のキャラクタのシルエットが
用意されており、ランダムな順番でいずれかのキャラク
タのシルエットが表示される。ステップＳ３８０での判
断が正解の場合、ＣＰＵ１１は、正解動作を表示するた
めの表示データの演算を行う（ステップＳ３８１）。一
方、ステップＳ３８０での判断が不正解の場合、ＣＰＵ
１１は、不正解動作を表示するための表示データの演算
を行う（ステップＳ３８２）。また、ステップＳ３７８
において音声入力がないと判断された場合、ＣＰＵ１１
は、シルエットの表示が行われてから所定時間が経過し
たか否かを判断し（ステップＳ３８３）、所定時間経過
した場合は、不正解動作を表示するための表示データの
演算を行う（ステップＳ３８４）。次に、ＣＰＵ１１
は、ステップＳ３８１、Ｓ３８２またはＳ３８４で演算
された表示データをＲＡＭ１５の表示リスト領域１５０
（図６参照）に登録する（ステップＳ３７３）。このと
き登録された表示データは、後に説明する図７の描画処
理（ステップＳ５）において、ディスプレイ３１に表示
される。図２４は正解動作の表示例を、図２５は不正解
動作の表示例を示している。

【００９１】次に、図１７を参照して、図７の描画処理
（ステップＳ５）の詳細を説明する。まず、ステップＳ
５０１において、座標変換処理が行われる。この座標変
換処理では、ＲＣＰ１２の制御の下に、ＲＡＭ１５の表
示リスト領域１５０に記憶されている表示データに含ま
れる移動オブジェクトおよび静止オブジェクトに対応す
るポリゴンの座標データが画像データ領域１５４から読
み出され、それぞれがカメラの視点座標に変換される。
具体的には、カメラの視点から見た画像を得るために、
複数の移動オブジェクトや静止オブジェクトを構成する
各ポリゴンデータを、絶対座標からカメラ座標のデータ
に変換するための演算が行われる。次に、ステップＳ５
０２において、フレームメモリ領域１５２に対する描画
処理が行われる。この処理は、カメラ座標に変換後のポ
リゴン座標によって囲まれる各オブジェクトを構成する
ある１つの三角形の面に、テクスチュアデータに基づい
て決定される色データをフレームメモリ領域１５２のド
ット毎に書き込むことによって行われる。このとき、各
ポリゴン毎の奥行きデータに基づいて、手前（近く）に
あるオブジェクトが優先的に表示されるように、近くの
オブジェクトの色データを書き込み、それに併せて色デ
ータを書き込んだドットに対応する奥行データがＺバッ
ファ領域１５３の対応の番地に書き込まれる。その後、
図７のメインルーチンのステップＳ６へ戻る。

【００９２】なお、ステップＳ５０１および５０２の動
作は、フレーム毎に一定時間内で行われるが、１画面に
表示すべき複数のオブジェクトのそれぞれを構成するポ
リゴン毎に順次処理され、かつ１画面に表示すべき全て
のオブジェクトの処理が終了するまで繰り返して行われ
る。

【００９３】次に、図１８を参照して、図７の音声処理
（ステップＳ６）の詳細を説明する。まず、ステップＳ
６０１において、音声フラグがオンされているか否かが
判断される。音声フラグがオンされていることが判断さ
れると、ステップＳ６０２において、ＲＡＭ１５の音声
リスト領域１５８に記憶されている音声データが読み出
され、１フレーム（１／６０秒）間で再生すべきサンプ
リングされたデジタル音声データがバッファ（図示せ
ず）へ出力される。次に、ステップＳ６０３において、
音声発生回路１６は、上記バッファに記憶されているデ
ジタル音声データをアナログ音声信号に変換し、順次、
スピーカ３２に出力する。その後、図７のメインルーチ
ンのステップＳ７へ戻り、ステップＳ７〜Ｓ１０の処理
が行われる。

【００９４】なお、上記実施形態では、本発明をビデオ
ゲーム装置に適用した場合について説明したが、本発明
は、ゲームプログラム以外のプログラム（例えば、言葉
を教える教育用プログラム）を実行する画像処理装置に
も適用が可能である。すなわち、本発明は、音声認識を
介して画面上の表示物と対話が可能な全ての画像処理装
置に適用することが可能である。

【図面の簡単な説明】

【図１】本発明の一実施形態に係るビデオゲームシステ
ムの構成を示す外観図である。

【図２】図１に示したビデオゲームシステムの電気的な
構成を示すブロック図である。

【図３】図１に示した音声認識ユニット５０のより詳細
な構成を示すブロック図である。

【図４】図２に示した外部ＲＯＭ２１のメモリ空間を図
解的に示したメモリマップである。

【図５】外部ＲＯＭ２１のメモリ空間の一部（画像表示
データ領域２４）を詳細に示したメモリマップである。

【図６】図２に示すＲＡＭ１５のメモリ空間を図解的に
示したメモリマップである。

【図７】図１に示すゲーム機本体１０の全体的な動作を
示すメインルーチンのフローチャートである。

【図８】図７に示すゲーム処理（ステップＳ３）の詳細
な動作を示すサブルーチンフローチャートである。

【図９】図８に示すＺボタン処理（ステップＳ３０３）
の詳細な動作を示すサブルーチンフローチャートであ
る。

【図１０】図８に示す音声認識ゲーム処理（ステップＳ
３０５）の詳細な動作を示すサブルーチンフローチャー
トである。

【図１１】図１の音声認識ユニット５０が行う音声認識
処理の詳細な動作を示すフローチャートである。

【図１２】図１０に示すレベル１のゲーム処理（ステッ
プＳ３２９）の詳細な動作を示すサブルーチンフローチ
ャートである。

【図１３】図１０に示すレベル２のゲーム処理（ステッ
プＳ３３０）の詳細な動作を示すサブルーチンフローチ
ャートである。

【図１４】図１３に示すメッセージ表示処理（ステップ
Ｓ３４５）の詳細な動作を示すサブルーチンフローチャ
ートである。

【図１５】図１３に示す認識不能処理（ステップＳ３６
８）の詳細な動作を示すサブルーチンフローチャートで
ある。

【図１６】図１０に示すレベル３のゲーム処理（ステッ
プＳ３３１）の詳細な動作を示すサブルーチンフローチ
ャートである。

【図１７】図７に示す描画処理（ステップＳ５）の詳細
な動作を示すサブルーチンフローチャートである。

【図１８】図７に示す音声処理（ステップＳ６）の詳細
な動作を示すサブルーチンフローチャートである。

【図１９】レベル１のゲーム処理における画面表示例を
示す図である。

【図２０】図１３のメッセージ表示処理（ステップＳ３
４５）における画面表示例を示す図である。

【図２１】レベル２のゲーム処理で実行されるスイカ割
りゲームの画面表示例を示す図である。

【図２２】図１３の疑問処理（ステップＳ３７４）にお
ける画面表示例を示す図である。

【図２３】レベル３のゲーム処理で実行されるシルエッ
トクイズの画面表示例を示す図である。

【図２４】レベル３のゲーム処理で実行されるシルエッ
トクイズの正解時における画面表示例を示す図である。

【図２５】レベル３のゲーム処理で実行されるシルエッ
トクイズの不正解時における画面表示例を示す図であ
る。

【符号の説明】

１０…ビデオゲーム機本体２０…ＲＯＭカートリッジ３０…テレビジョン受像機４０…コントローラ５０…音声認識ユニット６０…マイクロフォン１１…ＣＰＵ１２…ＲＣＰ１５…ＲＡＭ１６…音声信号発生回路１７…画像信号発生回路１８…コントローラ制御回路１２１…バス制御回路１２２…ＲＳＰ１２３…ＲＤＰ３１…ディスプレイ３２…スピーカ５１…Ａ／Ｄ変換器５２…制御部５３…音声データＲＯＭ５４…辞書ＲＡＭ５５…インタフェイス５２１…ＤＳＰ５２２…プログラムＲＯＭ５２３…ワークＲＡＭ

フロントページの続き (72)発明者三成幸司京都府京都市東山区福稲上高松町60番地任天堂株式会社内 (72)発明者流田武京都府京都市東山区福稲上高松町60番地任天堂株式会社内Ｆターム(参考） 2C001 AA00 AA11 BA00 BA06 BB00 BB03 BB10 BC00 BC05 CA00 CA01 CA07 CB01 CB05 CC02 CC08 5D015 BB01 KK01 9A001 BB04 BB06 EE02 HH15 HH18 HH23 HH24 JJ76 KZ09

Claims

【特許請求の範囲】

【請求項１】表示装置に表示された対話相手オブジェ
クトの動作を、マイクロフォンから入力された使用者の
単語音声に応答して変化させるための画像処理装置であ
って、前記マイクロフォンから入力されたアナログの音声信号
をディジタル音声データに変換する変換手段と、前記変換手段によって変換されたディジタル音声データ
に該当する単語を認識するための音声認識手段と、前記音声認識手段によって認識された単語が、そのとき
入力されるべき単語と一致するか否かを判断する判断手
段と、前記判断手段によって単語の一致が判断されたとき、認
識された単語に対応する動作をさせるように、前記対話
相手オブジェクトの表示状態を制御する第１の表示制御
手段と、前記判断手段によって単語の不一致が判断されたとき、
当該判断手段の判断を使用者に伝えるための判断伝達表
示を前記表示装置上で行う第２の表示制御手段とを備え
た、画像処理装置。
【請求項２】前記第２の表示制御手段は、前記判断伝
達表示として、前記対話相手オブジェクトが入力された
単語音声を理解できない旨の表示を前記表示装置上で行
う、請求項１に記載の画像処理装置。
【請求項３】前記第２の表示制御手段は、前記判断手
段による単語不一致の判断が所定時間以上継続して行わ
れたとき、前記判断伝達表示として、そのとき入力され
るべき単語を含むメッセージ文をさらに前記表示装置に
表示させる、請求項２に記載の画像処理装置。
【請求項４】前記第２の表示制御手段は、前記判断手
段による単語不一致の判断が所定回数以上繰り返して行
われたとき、前記判断伝達表示として、そのとき入力さ
れるべき単語を含むメッセージ文をさらに前記表示装置
に表示させる、請求項２に記載の画像処理装置。
【請求項５】前記第２の表示制御手段は、前記メッセ
ージ文において、そのとき入力されるべき単語の部分と
その他の部分とが異なる色で表示されるように、前記表
示装置の表示制御を行うことを特徴とする、請求項３ま
たは４に記載の画像処理装置。
【請求項６】設定されたプログラムデータに従って表
示装置に所定の画像を表示すると共に、当該表示装置に
表示された対話相手オブジェクトの動作を、マイクロフ
ォンから入力された使用者の単語音声に応答して変化さ
せるための画像処理装置であって、前記マイクロフォンから入力されたアナログの音声信号
をディジタル音声データに変換する変換手段と、前記変換手段によって変換されたディジタル音声データ
に該当する単語を認識するための音声認識手段と、前記音声認識手段の認識結果に基づいて、前記対話相手
オブジェクトの表示状態を制御する表示制御手段と、前記プログラムデータの進行程度を検出する進行程度検
出手段とを備え、前記表示状態制御手段は、前記進行程度検出手段によっ
て検出されたプログラムデータの進行程度に応じて、前
記対話相手オブジェクトの表示状態の制御態様を段階的
に変化させることを特徴とする、画像処理装置。
【請求項７】前記表示制御手段は、前記進行程度検出手段によって検出されたプログラムデ
ータの進行程度が相対的に初期のレベルであるとき、前
記音声認識手段によって認識された単語の種類にかかわ
らず、前記対話相手オブジェクトに対して予め定める動
作を行わせる第１の表示制御手段と、前記進行程度検出手段によって検出されたプログラムデ
ータの進行程度が相対的に上位のレベルであるとき、前
記音声認識手段によって認識された単語の種類に応じ
て、前記対話相手オブジェクトに対応する動作を行わせ
る第２の表示制御手段とを含む、請求項６に記載の画像
処理装置。
【請求項８】前記第２の表示制御手段は、前記音声認識手段によって認識された単語が、そのとき
入力されるべき単語と一致するか否かを判断する判断手
段と、前記判断手段によって単語の一致が判断されたとき、前
記対話相手オブジェクトに一致が判断された単語に対応
する動作を行わせる対応動作制御手段とを含む、請求項
７に記載の画像処理装置。
【請求項９】前記音声認識手段は、基準となる複数の単語データが格納された辞書手段と、前記ディジタル音声データと前記辞書手段に格納された
各単語データとを比較することにより、各単語データそ
れぞれに対して類似の程度を示す相関距離を計算する相
関距離計算手段と、前記相関距離計算手段によって計算された相関距離に基
づいて、前記辞書手段に格納された各単語データに対し
て類似度の高い順番に順位を付与する順位付与手段と、前記前記辞書手段に格納された複数の単語データの内、
上から所定順位までの単語データを候補単語データとし
て前記判断手段に出力する候補単語データ出力手段とを
含み、前記判断手段は、前記候補単語データ出力手段から与え
られた候補単語データの内、最も類似度の高い候補単語
データから順番に、そのとき入力されるべき単語と一致
するか否かを判断し、一致を判断した時点で判断動作を
停止して、前記対応動作制御手段に一致判断出力を与え
ることを特徴とする、請求項８に記載の画像処理装置。
【請求項１０】前記判断手段は、前記進行程度検出手
段によって検出されたプログラムデータの進行程度が進
むにつれて、前記候補単語データの中から一致判断の対
象として選択する単語データの数を減少させることを特
徴とする、請求項９に記載の画像処理装置。
【請求項１１】前記音声認識手段は、そのとき入力されるべき単語のデータが格納された辞書
手段と、前記ディジタル音声データと前記辞書手段に格納された
各単語データとを比較することにより、各単語データそ
れぞれに対して類似の程度を示す相関距離を計算する相
関距離計算手段と、前記相関距離計算手段によって計算された相関距離に基
づいて、最も類似度の高い単語データを選択し、当該選
択した単語データをその相関距離と共に候補単語データ
として前記判断手段に出力する候補単語データ出力手段
とを含み、前記判断手段は、前記候補単語データに含まれる相関距離によって規定さ
れる第１の類似度が、予め設定されたしきい値によって
規定される第２の類似度よりも高いか否かを検出し、前記第１の類似度のほうが前記第２の類似度よりも高い
場合は、前記音声認識手段によって認識された単語が、
そのとき入力されるべき単語と一致したと判断し、前記第２の類似度のほうが前記第１の類似度よりも高い
場合は、前記音声認識手段によって認識された単語が、
そのとき入力されるべき単語と不一致であると判断する
ことを特徴とする、請求項８に記載の画像処理装置。
【請求項１２】前記プログラムデータは、可搬型の記
憶媒体に格納されたビデオゲームためのプログラムデー
タである、請求項６〜１１のいずれかに記載の画像処理
装置。
【請求項１３】表示装置に表示された対話相手オブジ
ェクトの動作を、マイクロフォンから入力された使用者
の単語音声に応答して変化させるための画像処理装置に
おいて実行されるプログラムデータを記憶した記憶媒体
であって、前記画像処理装置は、前記プログラムデータを実行した
とき、前記マイクロフォンから入力されたアナログの音声信号
をディジタル音声データに変換し、変換された前記ディジタル音声データに該当する単語を
認識し、前記認識された単語が、そのとき入力されるべき単語と
一致するか否かを判断し、単語の一致が判断されたとき、認識された単語に対応す
る動作をさせるように、前記対話相手オブジェクトの表
示状態を制御し、単語の不一致が判断されたとき、当該判断結果を使用者
に伝えるための判断伝達表示を前記表示装置上で行うこ
とを特徴とする、画像処理装置。
【請求項１４】表示装置に表示された対話相手オブジ
ェクトの動作を、マイクロフォンから入力された使用者
の単語音声に応答して変化させるための画像処理装置に
おいて実行されるプログラムデータを記憶した記憶媒体
であって、前記画像処理装置は、前記プログラムデータを実行した
とき、前記マイクロフォンから入力されたアナログの音声信号
をディジタル音声データに変換し、変換された前記ディジタル音声データに該当する単語を
認識し、前記認識された単語に基づいて、前記対話相手オブジェ
クトの表示状態を制御し、前記プログラムデータの進行程度に応じて、前記対話相
手オブジェクトの表示状態の制御態様が段階的に変化す
ることを特徴とする、記憶媒体。