JP3254994B2

JP3254994B2 - 音声認識対話装置および音声認識対話処理方法

Info

Publication number: JP3254994B2
Application number: JP32935295A
Authority: JP
Inventors: 伊佐央枝常
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1995-03-01
Filing date: 1995-12-18
Publication date: 2002-02-12
Anticipated expiration: 2015-12-18
Also published as: EP0730261B1; CN1142647A; CN1132148C; EP0730261A3; DE69618488D1; JPH08297498A; HK1014604A1; US5802488A; EP0730261A2; CN1516112A; TW340938B; CN1229773C; KR960035426A; DE69618488T2; KR100282022B1

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声を認識し、その認
識結果に対応した発話や特定動作を行う音声認識対話装
置に関する。

【０００２】

【従来の技術】この種の音声認識対話装置の一例として
音声認識玩具がある。たとえば、特開昭６２−２５３０
９３号に開示されている音声認識玩具においては、音声
指令となる複数の命令語を認識対象言語として予め登録
しておき、その玩具を使って遊ぶ子どもの発した音声信
号と登録されている音声信号との比較を行って、上記両
音声信号が一致したとき、音声指令に対する定められた
電気信号を出力し、これに基づいて玩具に特定動作を行
わせるものであった。

【０００３】

【発明が解決しようとする課題】しかしながら、従来の
この種の音声を認識した結果を基に会話や動作を行うぬ
いぐるみ等の玩具では、話者の話した言葉と違う単語や
言葉を認識してしまったりすることも多く、また、たと
え単語や言葉を間違いなく認識した場合においても、状
況や環境の変化に対応した反応や言葉を返すことはでき
ないのが一般的であった。

【０００４】最近では、たとえ玩具であっても高度な動
作を行うものも要求されてきており、子どもがたとえば
ぬいぐるみに向かって「おはよう」といったら、時間な
どの状況に関係なく単に「おはよう」という返答ではす
ぐに飽きてしまうとことにもなり、また、この種の音声
認識対話技術はもっと高学年向きなゲーム機、さらには
日常的に用いる機器にも応用できる可能性もあるため、
より高度な技術の開発が望まれていた。

【０００５】そこで本発明は、時間などの状況や環境の
変化を検出する機能を有し、ユーザの発生する音声に対
して状況や環境の変化に応じた応答を可能とし、より高
度な対話を可能とした音声認識対話装置を実現すること
を目的としている。

【０００６】

【課題を解決するための手段】本発明の音声認識対話装
置は、入力された音声を分析して登録されている音声デ
ータパターンとの比較を行って音声認識し、認識した音
声に対応して応答する音声認識対話装置において、入力
された音声を分析して音声データパターンを作成する音
声分析手段と、対話内容に影響を及ぼす変動データを検
出する変動データ検出部と、この変動データ検出部から
の変動データを入力し、予め登録されている各認識対象
音声の内容ごとに、前記変動データに対応させた重みづ
け係数を発生する係数設定手段と、前記音声分析手段に
より出力される入力音声の音声データパターンを入力す
るとともに、登録されている複数の認識対象音声に対す
るその時点におけるそれぞれの重みづけ係数を前記係数
設定手段から得て、それぞれの認識対象音声に対する認
識データにそれぞれ対応する重みづけ係数を考慮した最
終認識データを算出して、これら算出された最終認識デ
ータから前記入力音声の認識を行い、認識された音声の
最終認識データを出力する音声認識手段と、この音声認
識手段からの前記係数を考慮した最終認識データを基
に、それに対応した音声合成データを出力する音声合成
手段と、この音声合成手段からの出力を外部に発する音
声出力手段とを有したことを特徴としている。

【０００７】前記変動データ検出手段は、たとえば、時
刻データを検出する計時手段であって、前記係数設定手
段は、予め登録されている各認識対象音声の内容ごと
に、時刻に対応させた重みづけ係数を発生するものであ
る。この場合における係数設定手段は、或る入力音声に
対し、過去において正しく認識された幾つかの時刻のう
ち最も多い時刻のときに、その認識データに対する重み
づけ係数を最も大きな値とし、その時刻から遠ざかるに
従って前記重みづけ係数を小さな値として出力するよう
なものであってもよい。

【０００８】また、本発明の音声認識対話装置は、入力
された音声を分析して登録されている音声データパター
ンとの比較を行って音声認識し、認識した音声に対応し
て応答する音声認識対話装置において、入力された音声
を分析して音声データパターンを作成する音声分析手段
と、この音声分析手段により出力される音声データパタ
ーンに基づいて、前記入力音声に対する認識データを出
力する音声認識手段と、時刻データを発生する計時手段
と、この計時手段からの時刻データおよび前記音声認識
手段によって正しく認識された認識回数データの少なく
とも１つを入力し、入力したデータに基づいて、入力音
声に対する応答内容を変化させるための応答内容レベル
を発生する応答内容レベル発生手段と、記応答内容レベ
ル発生手段により得られた時間に対する応答レベルを記
憶する応答内容レベル記憶手段と、前記音声認識部から
の認識データに基づいて、前記応答内容レベル発生手段
からの応答レベルに応じた応答内容を決定し、それに対
応した応答内容データを出力する応答内容作成部と、こ
の応答内容作成部からの応答内容データを基に、その応
答内容データに対応した音声合成データを出力する音声
合成手段と、この音声合成手段からの出力を外部に発す
る音声出力手段とを有したことを特徴としている。

【０００９】また、本発明の音声認識対話装置は、入力
された音声を分析して登録されている音声データパター
ンとの比較を行って音声認識し、認識した音声に対応し
て応答する音声認識対話装置において、入力された音声
を分析して音声データパターンを作成する音声分析手段
と、この音声分析手段により出力される音声データパタ
ーンに基づいて、前記入力音声に対する認識データを出
力する音声認識手段と、対話内容に影響を及ぼす変動デ
ータを検出する変動データ検出部と、この変動データ検
出部からの変動データおよび前記音声認識部からの認識
データを入力し、その認識データを基にして、前記変動
データを考慮した内容の応答内容データとして出力する
応答内容作成手段と、この応答内容作成手段からの応答
内容データを基に、その応答内容データに対応した音声
合成データを出力する音声合成手段と、この音声合成手
段からの出力を外部に発する音声出力手段とを有したこ
とを特徴としている。

【００１０】前記変動データ検出手段は、使用環境の温
度を測定しその温度データを出力する温度センサであ
り、前記応答内容作成手段はこの温度データを考慮した
応答内容データを出力する。

【００１１】また、前記変動データ検出手段は、使用環
境の気圧を測定しその気圧データを出力する気圧温度セ
ンサであり、前記応答内容作成手段はこの気圧データを
考慮した応答内容データを出力する。

【００１２】また、前記変動データ検出手段は、暦デー
タを検出してその暦データを出力する暦検出手段であ
り、前記応答内容作成手段はこの暦データを考慮した応
答内容データを出力する。

【００１３】

【作用】本発明は、対話の内容に影響を及ぼす変動デー
タ（たとえば、時刻、気温、天気、日付など）の変化に
ともなって、予め登録されている認識対象音声の認識デ
ータごとに、重みづけ係数を設定する。たとえば、変動
データとして時刻を例に取れば、時刻に対応させて、各
認識対象音声の認識データ毎に、重みづけ係数を設定
し、この重みづけ係数を考慮した音声認識を行うことに
より、話者の発する言葉（特に挨拶言葉）が時刻に対し
て妥当性があるか否かが考慮された音声認識が行える。
したがって、音声分析された音声パターンの似ている認
識対象の音声があっても、重みづけ係数により、最終的
に出力される認識データの数値の差を大きなものとする
ことができ、認識率の向上が図れる。これは、時刻だけ
でなく前記したような種々の変動データにおいても可能
であり、たとえば、気温に応じた重みづけ係数を設定す
ることにより、話者の発する挨拶言葉が気温に対して妥
当性があるか否かが考慮された音声認識が行え、この場
合も、音声分析された音声パターンの似ている認識対象
の音声があったとしても、前記同様、重みづけ係数によ
り、最終的に出力される認識データの数値の差を大きな
ものとすることができ、認識率の向上がはかれる。

【００１４】また、変動データを時刻とした場合、或る
言葉に対し、その言葉が使用される頻度の高い時刻を検
出し、その使用頻度の高い時刻のときを重みづけ係数値
を高い数値とし、その時刻から遠ざかるに従って、係数
値を小さな値とすることにより、実際の使用状態に合っ
た言葉と時刻との関係を得ることができる。

【００１５】また、時間の経過などに伴って、入力音声
に対する応答内容を変化させるための応答内容レベルを
発生し、音声認識部からの認識データに基づいて、前記
応答レベルに応じた応答内容を決定し、それに対応した
応答をおこなうようにしたので、話者の問いかけに対す
る応答内容のレベルを変化させることができる。

【００１６】さらに、温度センサ、気圧センサからのデ
ータや、暦データなどの変動データを用い、これらのデ
ータを基にして応答内容を作成することにより、応答内
容に幅広いバリエーションを持たせることができ、より
一層、充実した対話を行うことができる。

【００１７】

【実施例】以下、実施例により本発明の詳細を示す。な
お、以下に説明する実施例においては、本発明を玩具に
適用した場合を例にとり、特にここでは幼児用の玩具と
して「犬のぬいぐるみ」に本発明を適用した例について
説明する。

【００１８】（第１の実施例）この第１の実施例は、予
め登録されている認識対象音声の認識データに対して、
対話内容に影響を及ぼす変動データ（時刻、気温、天
気、日付など）の値に対応させて重みづけ係数を設定
し、挨拶言葉が入力された場合、その挨拶言葉の認識率
を高めようとするものである。図１は本発明の第１の実
施例を説明する構成図であり、まず、その構成を概略的
に説明し、個々の詳細な機能などについては後に説明す
る。なお、この第１の実施例では、前記対話の内容に影
響を及ぼす変動データとして時刻を用いた場合を例にと
って説明する。

【００１９】図１において、犬のぬいぐるみ３０の内部
には、外部からの音声を入力するマイクロフォン１、こ
のマイクロフォン１から入力された音声を分析して入力
音声の特徴量に対応した音声データパターンを発生する
音声分析部２、前記音声の入力された時間や後述する音
声認識部によって識別された時刻などの時刻データを出
力する計時手段としての時計部３、この時計部３からの
時刻データを入力し、時刻の変化に伴って変化する重み
づけ係数を各認識対象音声の内容に対応させて発生する
係数設定部４、前記音声分析部２より出力される入力音
声の音声データパターンを入力するとともに、登録され
ている認識対象音声に対するその時点におけるそれぞれ
の重みづけ係数を前記係数設定部４から得て、それぞれ
の認識対象音声に対する認識データにそれぞれ対応する
重みづけ係数を掛け算して、最終的な認識データを算出
し、これら算出された最終認識データから前記入力音声
の認識を行い、認識された音声の最終認識データを出力
する音声認識部５、この音声認識部５からの前記係数を
考慮して認識された最終認識データを基に、それに対応
した音声合成データを出力する音声合成部６、前記音声
認識部５によって認識された認識データに対応して予め
決められている駆動条件に従ってぬいぐるみ３０の口な
どを動かすための動作機構１０を駆動する駆動制御部
７、前記音声合成部６により音声合成された内容を外部
に出力するスピーカ８、以上の各部を動作させるための
電源部９などが設けられている。

【００２０】前記音声認識部５は、その認識手段とし
て、ここでは不特定な話者を対象とするニューラルネッ
トワークを用いた場合を例にして説明するが、認識手段
としては不特定話者を対象とする方法に限らず、特定話
者を対象とする方式やＤＰマッチングやＨＭＭなどの他
の公知の識別方法も採用することができる。

【００２１】また、前記動作機構１０は、駆動制御部７
から出力される駆動信号（音声合成部６の出力信号の長
さに一致する）によりモータ１１が回転し、これに連動
してカム１２が回転することにより、このカム１２に設
けられた突起状のリブ１３がカム１２の回転と連動して
円運動する。そして、リブ１３には軸１４を支点とする
クランク１５が挟まっており、カム１２の回転にあわせ
て犬のぬいぐるみの下顎１６を上下に連動して動作させ
るようになっている。

【００２２】このような構成において、マイクロフォン
１から入力された音声は、音声分析部２で分析され、入
力された音声の特徴量に応じた音声データパターンが作
成される。この音声データパターンは、音声認識部５に
予め設けられたニューラルネットワークの入力部に入力
され、以下のようにして音声認識される。

【００２３】ここで、いくつかのあいさつの単語あるい
は言葉を識別する場合を例に説明を行う。たとえば「お
はよう」、「行ってきます」、「こんにちは」、「ただ
いま」、「おやすみ」などのあいさつ言葉を例にとって
説明する。たとえば今、不特定の話者によって発せられ
た「おはよう」という言葉がマイクロフォン１に入力さ
れたとすると、その話者の「おはよう」という言葉の特
徴が音声分析部２によって分析され音声データパターン
として音声認識部５に入力される。

【００２４】また、一方でマイクロフォン１から入力さ
れた「おはよう」という言葉が音圧として検出された時
刻、あるいは「おはよう」という言葉が音声認識部５の
ニューラルネットワークにより識別された時刻データは
時計部３から係数設定部４に与えられている。なお、こ
こでは、係数設定部４の参照する時刻は音声認識部５が
音声認識した時刻とする。

【００２５】このようにして音声認識部５のニューラル
ネットワークに入力された「おはよう」の前記音声デー
タパターンはニューラルネットワークの出力部から２値
データではなく、ある値を持った認識データとして出力
される。ここでは、その値が０から１０までの浮動小数
点を持った値で出力される場合を例にとって説明する。

【００２６】話者がぬいぐるみ３０に対して「おはよ
う」と言った場合、音声認識部５のニューラルネットワ
ークからは、たとえば、「おはよう」は８．０、「行っ
てきます」は１．０、「こんにちは」は２．０、「ただ
いま」は１．０、「おやすみ」は４．０の識別データ値
が出力されるものとする。ここで、話者の「おはよう」
に対してニューラルネットワークからの認識データは、
「おはよう」が８．０と高い数値であることは当然なこ
とであるが、「行って来ます」、「こんにちわ」、「た
だいま」に比べて「おやすみ」が比較的高い認識データ
値となるのは、ある任意の不特定話者の「おはよう」と
「おやすみ」は、音声分析部２により分析された音声パ
ターンデータが比較的似ていたためと考えられる。した
がって、話者の話した「おはよう」が、音声認識部５
によって「行って来ます」、「こんにちわ」、「ただい
ま」と認識される確率は殆どないが、話者の「おはよ
う」が「おやすみ」と認識される可能性は高いものとな
る。

【００２７】このとき音声認識部５は、係数設定部４を
参照し、認識対象の言葉に対してあらかじめ設定されて
いる重み付け係数を読み出し、その係数を認識データに
掛け算する。この重みづけ係数は、一般に、挨拶言葉は
時刻により異なった内容の言葉が用いられるため、時刻
に対応してそれぞれの挨拶言葉に設定される係数であ
る。たとえば、現在の時刻が朝の７時０分であった場
合、「おはよう」に対する重みづけ係数は１．０、「行
ってきます」に対する重みづけ係数は０．９、「こんに
ちは」に対する重みづけ係数は０．７、「ただいま」に
対する重みづけ係数は０．６、「おやすみ」に対する重
みづけ係数は０．５と設定され、このような認識対象言
語と時刻と係数の関係は予め係数設定部４に格納されて
いる。

【００２８】このような重みづけ係数を考慮することに
より、ニューラルネットワークから出力された「おはよ
う」の認識データが８．０で、朝７時０分の場合の「お
はよう」の係数が１．０であるため、「おはよう」の最
終認識データは８．０と係数１．０を掛けた８．０とい
う値になる。同様にして、「行ってきます」の最終認識
データは１．０と係数０．９を掛けた０．９、「こんに
ちは」の最終認識データは２．０と係数０．７を掛けた
１．４、「ただいま」の最終認識データは１．０と係数
０．６を掛けた０．６、「おやすみ」の最終認識データ
は４．０と係数０．５を掛けた２．０となる。このよう
に音声認識部５において、時刻による重みづけ係数が考
慮された最終の認識データが作成される。

【００２９】このようにして時刻情報による重みづけ係
数が考慮された最終認識データを求めることによりによ
り、「おはよう」の最終認識データは「おやすみ」の最
終認識データに対して４倍以上の大きな値を持つことか
ら、話者の「おはよう」に対しては音声認識部５におい
て、正確に「おはよう」という言葉が認識されることに
なる。なお、これらの認識できる言葉の数は任意であ
る。

【００３０】以上のようにして認識された「おはよう」
という言葉の最終認識データは、音声合成部６と駆動制
御部７に入力される。音声合成部６は音声認識部５から
の最終認識データに対応してあらかじめ決められている
音声合成データに変換して、その音声合成出力をスピー
カ８から出力する。この場合は、「おはよう」という言
葉の最終認識データに対して、スピーカ８からは、たと
えば「おはよう」と出力される。すなわち、このぬいぐ
るみと遊ぶ子どもが、ぬいぐるみに対して「おはよう」
と問いかけると、ぬいぐるみは「おはよう」と応答する
ことになる。これは、「おはよう」と言った時間が朝の
７時０分であって、問いかけた言葉の内容とそのときの
時刻に妥当性があるために、「おはよう」が正しく認識
されてその「おはよう」の問いかけに対して適切な返答
がなされるのである。

【００３１】一方、駆動制御部７では、前記最終認識デ
ータに対応して予め決められた駆動条件にしたがって各
動作機構を駆動する。ここでは音声合成部６の出力信号
（この場合、「おはよう」）に合わせて犬のぬいぐるみ
３０の口を動かす。ただし、動作機構はぬいぐるみの口
を動かすのみならず、たとえば、首を振ったり、尾を振
ったり、任意の部位を駆動させることも可能である。

【００３２】同様に現在時刻が夜の８時０分であった場
合について説明する。この場合、「おはよう」に対する
重みづけ係数は０．５、「行ってきます」に対する重み
づけ係数は０．６、「こんにちは」に対する重みづけ係
数は０．７、「ただいま」に対する重みづけ係数は０．
９、「おやすみ」に対する重みづけ係数は１．０と設定
されている。

【００３３】このように重み付け係数を考慮することに
より、ニューラルネットワークから出力された「おはよ
う」の認識データが８．０で、夜８時０分の場合の「お
はよう」に対する重みづけ係数が０．５であるため、
「おはよう」の最終認識データは８．０と係数０．５を
掛けた４．０という値になる。同様にして、「行ってき
ます」の最終認識データは１．０と係数０．６を掛けた
０．６、「こんにちは」の最終認識データは２．０と係
数０．７を掛けた１．４、「ただいま」の最終認識デー
タは１．０と係数０．９を掛けた０．９、「おやすみ」
の最終認識データは４．０と係数１．０を掛けた４．０
となる。

【００３４】このように音声認識部５において、重みづ
け係数が考慮された最終の認識データが作成される。前
記の最終認識データより「おはよう」の最終認識データ
と「おやすみ」の最終認識データは共に４．０であり、
両者に差がないため認識できないことになる。つまり、
夜の８時０分においては、話者が「おはよう」という言
葉を発しても、その「おはよう」は「おはよう」である
か「おやすみ」であるかを認識できないことになる。

【００３５】この最終認識データは音声合成部６と駆動
制御部７に与えられ、音声合成部６と駆動制御部７で
は、それに応じた動作を行う。すなわち、音声合成部６
では、その最終データに対応してあらかじめ用意された
曖昧な回答の音声合成データに変換して出力する。たと
えば、スピーカ８によって、「なにかおかしいよ」と出
力される。これは、夜であるにもかかわらず「おはよ
う」というのはおかしいということである。

【００３６】駆動制御部７では、前記同様、音声認識部
５からの最終認識データに対応して予め決められた駆動
条件にしたがって各動作機構を駆動する。ここでは音声
合成部５の出力信号（この場合、「なにかおかしい
よ」）にあわせて犬のぬいぐるみの口を動かす。ただ
し、動作機構は前記同様、ぬいぐるみの口を動かすのみ
ならず他の任意の部位を駆動させることも可能である。

【００３７】次に、現在時刻が夜の８時０分のときに、
話者が「おやすみ」と言った場合について説明する。こ
の場合、音声認識部３のニューラルネットワークから
は、たとえば、「おはよう」は４．０、「行ってきま
す」は１．０、「こんにちは」は２．０、「ただいま」
は１．０、「おやすみ」は８．０の認識データ値が出力
されたものとする。そして、夜８時における「おはよ
う」に対する重みづけ係数は０．５、「行ってきます」
に対する重みづけ係数は０．６、「こんにちは」に対す
る重みづけ係数は０．７、「ただいま」に対する重みづ
け係数は０．９、「おやすみ」に対する重みづけ係数は
１．０と設定されているものとする。

【００３８】このような重み付け係数を考慮することに
より、ニューラルネットワークから出力された「おはよ
う」の識別データが４．０で、夜８時０分の場合の「お
はよう」に対する重みづけ係数が０．５であるため、
「おはよう」の最終認識データは４．０と係数０．５を
掛けた２．０という値になる。同様にして、「行ってき
ます」の最終認識データは１．０と係数０．９を掛けた
０．９、「こんにちは」の最終認識データは２．０と係
数０．７を掛けた１．４、「ただいま」の最終認識デー
タは１．０と係数０．６を掛けた０．６、「おやすみ」
の最終認識データは８．０と係数１．０を掛けた８．０
となる。このように音声認識部５において、重みづけ係
数の考慮された最終の認識データが作成される。

【００３９】このようにして時刻情報を考慮した最終認
識データを求めることにより、「おやすみ」の最終認識
データは「おはよう」の最終認識データに対して４倍以
上の大きな値を持つことから、話者の「おやすみ」に対
しては音声認識部５において、正確に「おやすみ」とい
う言葉が認識されることになる。

【００４０】以上のようにして認識された「おやすみ」
という言葉の最終認識データは、音声合成部６と駆動制
御部７に入力される。音声合成部６は音声認識部５から
の最終認識データに対応してあらかじめ決められている
音声合成データに変換して、その音声合成出力をスピー
カ７から出力する。この場合は、「おやすみ」という言
葉の最終認識データに対して、スピーカ８からは、たと
えば「おやすみ」と出力される。

【００４１】なお、以上の説明においては、話者の「お
はよう」と言う問いかけに対するぬいぐるみ３０の返答
は「おはよう」、また、「おやすみ」に対する返答は
「おやすみ」であったが、問いかけに対する応答は色々
な種類の言葉を設定することができる。たとえば、「お
はよう」に対しては「今日は早起きだね」といった具合
に設定することができる。

【００４２】また、この第１の実施例においては、重み
づけ係数の設定する際の変動データとして時刻を用いた
場合について説明したが、これは時刻に限られるもので
はなく、たとえば、気温、天気、日付などのデータを用
い、これらのデータに基づいて、重みづけ係数を設定す
るようにしてもよい。たとえば、変動データとして気温
を用いた場合には、気温を測定する温度センサからの温
度データを検出し、温度に関係する挨拶言葉（「暑い
ね」や「寒いね」など）の入力音声に対する認識データ
と他の登録されている認識データにそれぞれ重みづけ係
数を設定することにより、入力音声に比較的似た音声デ
ータパターンが有ったとしても、その重みづけ係数によ
り、両者の認識データの値の差を大きなものとすること
ができ、認識率を高めることができる。さらに、時刻、
気温、天気、日付などの変動データを組み合わせて用
い、これらに対応して重みづけ係数を設定すれば、色々
な挨拶言葉に対してより一層、認識率を高めることがで
きる。

【００４３】（第２の実施例）次に図２を参照して、本
発明の第２の実施例を説明する。なお、図２において
は、犬のぬいぐるみ３０、ぬいぐるみの口などを動かす
ための動作機構１０などの図示は省略されている。図２
の構成が、図１と異なるのは、係数設定部４にて設定さ
れる時刻データに応じたそれぞれの認識可能な言葉に対
する重み付け係数を記憶するメモリ部２１を設けた点で
あり、その他の構成要素は図１と同様であるので、同一
部分には同一符号が付されている。なお、これら、メモ
リ部２１と係数設定部４との間の処理などについては後
に説明する。

【００４４】図２において、マイクロフォン１から入力
された音声は、音声分析部２で分析され、入力された音
声の特徴量に応じた音声データパターンが作成される。
この音声データパターンは、音声認識部５に予め設けら
れたニューラルネットワークの入力部に入力され、以下
に示すようにして音声認識される。

【００４５】ここで、いくつかのあいさつの単語あるい
は言葉を認識する場合を例に説明を行う。たとえば、
「おはよう」、「行ってきます」、「こんにちは」、
「ただいま」、「おやすみ」などのあいさつ言葉を例に
とって説明する。たとえば今、不特定の話者によって発
せられた「おはよう」という言葉がマイクロフォン１に
入力されたとすると、その話者の「おはよう」という言
葉の特徴が音声分析部２によって分析され音声データパ
ターンとして音声認識部５に入力される。

【００４６】また、一方でマイクロフォン１から入力さ
れた「おはよう」という言葉が音圧として検出された時
刻、あるいは「おはよう」という言葉が音声認識部５の
ニューラルネットワークにより認識された時刻データは
時計部３から係数設定部４に与えられている。なお、こ
こでは、係数設定部４の参照する時刻は音声認識部５が
音声認識した時刻とする。

【００４７】このようにして音声認識部５のニューラル
ネットワークに入力された「おはよう」の前記音声デー
タパターンはニューラルネットワークの出力部から２値
データではなく、ある値を持った識別データとして出力
される。ここでは、その値が０から１０までの浮動小数
点を持った値で出力される場合を例にとって説明する。

【００４８】話者がぬいぐるみ３０に対して「おはよ
う」と言った場合、音声認識部５のニューラルネットワ
ークからは、たとえば、「おはよう」は８．０、「行っ
てきます」は１．０、「こんにちは」は２．０、「ただ
いま」は１．０、「おやすみ」は４．０の識別データ値
が出力される。ここで、話者の「おはよう」に対してニ
ューラルネットワークからの識別データが「おはよう」
が８．０と高い数値であることは当然なことであるが、
「行って来ます」、「こんにちわ」、「ただいま」に比
べて「おやすみ」が比較的高い認識データ値となるの
は、ある任意の不特定話者の「おはよう」と「おやす
み」は、音声分析部２により分析された音声データパタ
ーンが比較的似ているためと考えられる。したがって、
話者の「おはよう」が、音声認識部５によって「行っ
て来ます」、「こんにちわ」、「ただいま」と認識され
る確率は殆どないが、話者の「おはよう」が「おやす
み」と認識される可能性は高いものとなる。ここまでは
前記第１の実施例とほぼ同様である。

【００４９】前記音声認識部５は、時刻データに応じて
それぞれの認識可能な言葉に対して設定されている重み
付けのための係数を係数設定部４を参照して読み出す
が、この第２の実施例においては、係数設定部４にはメ
モリ部２１が接続されており、メモリ部２１に記憶され
た内容（重みづけ係数）が係数設定部４によって参照す
る処理が行われる。なお、前記係数設定部４は、或る言
葉に対し、その言葉が最も多く認識された時刻のとき
に、その認識データに対する重みづけ係数を大きな値と
し、その時間から遠ざかるに従って、その言葉の認識デ
ータに対する重みづけ係数を小さくして出力するもので
ある。つまり、その言葉の使用頻度の最も高い時間のと
きに、その認識データに対する重みづけ係数を大きな値
とし、その時間から遠ざかるに従って、その言葉の認識
データに対する重みづけ係数を小さくする。

【００５０】たとえば、現在の時刻が朝の７時０分であ
った場合、初期値として、「おはよう」に対する重みづ
け係数は１．０、「行ってきます」に対する重みづけ係
数はは０．９、「こんにちは」に対する重みづけ係数は
０．７、「ただいま」に対する重みづけ係数は０．６、
「おやすみ」に対する重みづけ係数は０．５というよう
に、それぞれの係数がメモリ部２１に設定されていると
すると、「おはよう」はニューラルネットワークから出
力された認識データが８．０で、朝７時０分の場合のメ
モリ部２１から呼び出された「おはよう」の係数が１．
０であるため、「おはよう」の最終認識データは８．０
と係数１．０を掛けた８．０という値になる。同様に計
算され、「行ってきます」は０．９、「こんにちは」は
１．４、「ただいま」は０．６、「おやすみ」は４．０
となる。初期においては、音声認識部５において以上の
ような最終認識データが作成される。

【００５１】ところで、時刻に基づく重みづけ係数を考
慮した認識を行った場合でも、或る言葉が正しく認識さ
れる時刻は或る程度幅がある。たとえば、「おはよう」
という言葉を例に取れば、朝７時０分に正しく認識され
ることもあり、朝７時３０分に正しく認識されることも
あり、朝８時０分に正しく認識されることもある。この
ような点を考慮して、メモリ部２１内には、或る言葉が
認識された過去の時刻データーを基にして、最も多く認
識された時刻のときにその言葉に対して最も大きな重み
づけ係数値が格納され、その時刻から遠ざかるに従っ
て、小さな値の計数値が格納される。

【００５２】たとえば、「おはよう」という言葉を例に
とって説明すると、この「おはよう」という言葉が過去
において統計的に朝７時０分に最も多く識別されていた
とすると、「おはよう」の識別データに掛けられる係数
は、朝７時０分の時刻データの時が一番大きく設定さ
れ、朝７時０分より遠くの時間になればなるほど係数が
小さくなっていくように設定される。すなわち、朝７時
０分のときの係数は１．０、朝８時のときの係数は０．
９、朝９時のときの係数は０．８というように設定され
る。このように、係数が設定される時刻データは過去の
１つの時刻データのみならず、幾つかの時刻データをも
とに統計的に設定されている。なお、一番最初の初期設
定時の係数はあらかじめ決められた時刻に対する係数が
標準係数として設定されている。つまり、初期状態にお
いては、ここでは、「おはよう」に対して朝７時０分の
ときに重みづけ係数値を１．０としている。

【００５３】そして、１番新しく認識された「おはよ
う」の係数は、時刻データと共に新しい係数データとし
てメモリ部２１に入力され、メモリ部２１ではこのデー
タと過去のデータを基にして必要に応じてその言葉に対
する係数を更新する。

【００５４】このように、或る言葉に対する係数はその
言葉が多く使われる時刻を中心に大きな値とすることに
より、たとえば、「おはよう」という言葉を朝の７時頃
に発すれば、この「おはよう」はニューラルネットワー
クから出力された認識データが８．０で、時刻データが
朝７時０分の場合のメモリ部２１から呼び出された「お
はよう」の係数が１．０であるため、「おはよう」の最
終認識データは８．０と係数１．０を掛けた８．０とい
う値になり、その最終認識データは他の言葉の最終認識
データの４倍以上の大きな値を持つことから、音声認識
部５において「おはよう」という言葉が正しく認識され
ることになる。

【００５５】このようにして認識された「おはよう」と
いう言葉の最終認識データは、音声合成部６と駆動制御
部７に入力される。音声合成部６に入力された最終認識
データはあらかじめ対応して決められている音声合成デ
ータに変換され、話者の「おはよう」の問いかけに対し
て、犬のぬいぐるみの本体内に埋め込まれているスピー
カ８からそれに対応した返事として、「おはよう」ある
いは「今日は早起きだね」というような予め設定された
言葉が返ってくる。

【００５６】一方、「おはよう」という言葉を昼の１２
時頃に発した場合には、「おはよう」に対する係数は小
さい値となり、「おはよう」に対する最終認識データは
低い値となって、「おはよう」と認識できなくなる。こ
の場合には、前記第１の実施例で説明したように、音声
合成部６はそれに対応した言葉を発するように設定され
ており、ぬいぐるみ３０からは、たとえば、「なにかお
かしいよ」というような応答がなされる。

【００５７】（第３の実施例）次に本発明の第３の実施
例を図３を参照しながら説明する。なお、図３において
は、図１で示されていた犬のぬいぐるみ３０、ぬいぐる
みの口などを動かすための動作機構１０などの図示は省
略されている。この第３の実施例の構成は、外部からの
音声を入力するマイクロフォン１、このマイクロフォン
１から入力された音声を分析して入力音声の特徴量に対
応した音声データパターンを発生する音声分析部２、時
間データを出力する時計部３、前記音声分析部２により
出力される音声データパターンに基づいて、前記入力音
声に対する認識データを出力する音声認識部５、この音
声認識部５からの前記係数を考慮した認識データを基
に、その認識データに対応した音声合成データを出力す
る音声合成部６、前記音声認識部５によって認識された
認識データに対応して予め決められている駆動条件に従
ってぬいぐるみ３０の口などを動かすための動作機構１
０（図１参照）を駆動する駆動制御部７、前記音声合成
部６により音声合成された内容を外部に出力するスピー
カ８、以上の各部を動作させるための電源部９などが設
けられ、さらに、応答内容レベル発生部３１、応答内容
レベル記憶部３２、応答内容作成部３３が設けられてい
る。

【００５８】前記音声認識部５は、その認識手段とし
て、ここでは不特定な話者を対象とするニューラルネッ
トワークを用いた場合を例にして説明するが、認識手段
としては不特定話者を対象とする方法に限らず、特定話
者を対象とする方式やＤＰマッチングやＨＭＭなどの他
の公知の識別方法も採用することができる。

【００５９】また、前記応答内容レベル発生部３１は、
時間の経過または音声認識部５における認識回数の増加
にともなって応答内容をレベルアップさせるための応答
レベル値を発生するものであり、前記応答内容レベル記
憶部３２は、応答内容レベル発生部３１で発生された応
答レベルと時間との関係を記憶するものである。たとえ
ば、このぬいぐるみの玩具を購入して最初に作動スイッ
チをオンさせたときを、レベル１とし、その時点から２
４時間経過後にレベル２とし、さらに２４時間経過後に
レベル３というように、時間の経過とレベル値の関係が
記憶されている。

【００６０】また、前記応答内容作成部３３は、音声認
識部５からの最終認識データを入力すると、前記応答内
容レベル発生部３１を参照して、その応答内容レベル値
に対応した応答内容を決定するものである。このとき、
応答内容レベル発生部３１は、応答内容レベル記憶部３
２から時間データに対応した応答内容レベルを読み出
す。たとえば、前記したように最初にスイッチをオンし
てから２４時間以内であれば、応答内容レベルとしてレ
ベル１が読み出され、２４時間以降４８時間以内であれ
ばレベル２が読み出されるといった具合である。

【００６１】そして、応答内容作成部３３は、音声認識
部５からの認識データに基づいて、読み出された応答内
容レベルに対応した応答内容の認識データを作成する。
たとえば、「おはよう」という認識データに対しては、
応答内容レベル（以下、単にレベルという）が１のとき
は「わん、わん」、レベル２のときは「お・は・よ・
う」という片言の言葉、レベル３のときは「おはよう」
となり、さらに、レベルが上がって、レベルｎのときは
「おはよう、今日は気分がいいね」というように、時間
の経過とともに、応答内容もレベルアップしていく。こ
の応答内容作成部３３で作成された応答データは音声合
成部６で音声合成され、スピーカ８から出力される。

【００６２】たとえば今、不特定の話者によって発せら
れた「おはよう」という言葉がマイクロフォン１に入力
されたとすると、その話者の「おはよう」という言葉の
特徴が音声分析部２によって分析され音声パターンデー
タとして音声認識部５に入力される。

【００６３】このようにして音声認識部５のニューラル
ネットワークに入力された「おはよう」の前記音声パタ
ーンデータはニューラルネットワークの出力部から２値
データではなく、ある値を持った識別データとして出力
される。そして、この「おはよう」という言葉に対する
認識データが、他の言葉の認識データに対して優位な値
を持っていれば、音声認識部５においては話者の発する
「おはよう」を正しく「おはよう」と認識する。

【００６４】このようにして識別された「おはよう」と
いう言葉の認識データは、応答内容作成部３３に入力さ
れる。そして、この応答内容作成部３３では、入力され
た識別データおよび応答内容レベル発生部３１の内容を
基に、入力された認識データに対する応答内容を決定す
る。

【００６５】前記応答内容レベル発生部３１からの応答
レベル値は、前記したように、話者の問いかけに対する
応答の内容を徐々にレベルアップさせるための値であ
り、ここでは時計部３の時刻データによって、時間の経
過とともに返答の内容をレベルアップさせるようにして
いる。ただし、このレベルアップは、時刻の経過のみな
らず、認識された言葉の数や種類によってもレベル値を
変化させるようにしてもよく、あるいは、時間の経過と
認識された言葉の数や種類との組み合わせによってレベ
ル値を変化させるようにしてもよい。

【００６６】この第３の実施例では、ぬいぐるみをあた
かも本物の生き物のように、時間の経過によって成長さ
せて行くようなイメージを与えることを特徴としてい
る。つまり、このぬいぐるみを購入して１日目は、「お
はよう」という問いかけに対しては、応答レベルがレベ
ル１と低いため、「わん、わん」としか応答できなかっ
たものが、２日目にはレベル２となって、「おはよう」
という問いかけに対して「お・は・よ・う」と片言の応
答ができるようになり、さらに、何日かが経過すると、
レベルがさらに上がって、「おはよう」という問いかけ
に対して「おはよう、今日は気分がいいね」というよう
な応答ができるようにしたものである。

【００６７】ところで、応答内容の１段階のレベルアッ
プに要する時間的な長さは、以上の説明では、１日（２
４時間）単位程度とした例で説明したが、これに限られ
るものではなく、１段階のレベルアップに要する時間を
もっと長くしてもよく、また、逆にもっと短くしてもよ
い。なお、レベルアップをリセットするためのリセット
スイッチを設ければ、レベルアップを途中でリセットす
ることも可能である。たとえば、レベル３程度まで進ん
だところで、リセットし、再びレベルを初期値に戻すこ
とも可能である。

【００６８】以上の説明は、「おはよう」の問いかけに
対する応答について説明したが、これに限られるもので
はなく、「おやすみ」、「行って来ます」などの問いか
けに対する応答のグレードアップも可能であることは勿
論である。たとえば、「おやすみ」を例に取れば、レベ
ル１の段階では、「おやすみ」に対して、ぬいぐるみは
の応答は、「クー、クー」、レベル２になると「お・や
・す・み」といったように応答内容を変化させる。

【００６９】このように応答内容のレベルがアップする
ことよって、あたかも犬のぬいぐるみが成長して、その
成長の度合いによって、応答内容が変化して行くように
見せることができる。そして、同じあいさつの「おはよ
う」を認識した場合においても、時間が経過によって、
違った応答が返ってくることにより、生きている本物の
動物のような対応ができる。さらに、話者が同じ言葉で
問いかけても、違う言葉が返ってくるので飽きてしまう
ことがない。

【００７０】また、この第３の実施例は、応答内容レベ
ル値が低い時に、話者が自分の話す言葉をどのような話
し方をしたら高い認識率が得られるかをトレーニングす
るにも都合が良いものとなる。つまり、話者が「おはよ
う」と問いかけても、しゃべり方に不慣れな場合、「お
はよう」がなかなか認識されず、最初は認識率が低いこ
とも多い。このような場合、「おはよう」の問いかけに
対し「わん、わん」と応答されれば、「おはよう」が認
識されたことになり、最初のうちに、認識されるような
しゃべり方を練習しておけば、話者はどのような話し方
をすれば認識されるかを覚えるため、応答内容レベル値
が高くなった場合においても、話者の話す言葉は必然的
に高い認識率で認識されるようになり、円滑な対話が可
能となる。

【００７１】（第４の実施例）次に図４を参照して、本
発明の第４の実施例を説明する。なお、図４において
は、図１で示されていた犬のぬいぐるみ３０、ぬいぐる
みの口などを動かすための動作機構１０などの図示は省
略されている。この第４の実施例は、対話内容に影響を
与える変動データの一つとして温度を検出し、この温度
の変化によって前記第３の実施例で示した応答内容作成
処理部３３での応答内容を変えようとするものであり、
図４においては、温度センサ３４が設けられており、そ
の他、図３と同一部分には同一符号が付されている。前
記応答内容作成部３３は、音声認識部５からの認識デー
タを入力し、その認識データおよび温度センサ３４の温
度データに基づいて、ぬいぐるみ３０の応答内容を決定
するものである。これらの具体的な処理内容については
後述する。

【００７２】図４において、マイクロフォン１から入力
された音声は、音声分析部２で分析され入力された音声
の特徴量に応じた音声パターンが作成される。この音声
パターンは、音声認識部５に予め設けられたニューラル
ネットワークの入力部に入力され音声認識される。

【００７３】たとえば今、不特定の話者によって発せら
れた「おはよう」という言葉がマイクロフォン１に入力
されたとすると、その話者の「おはよう」という言葉の
特徴が音声分析部２によって分析され音声パターンデー
タとして音声認識部５に入力される。

【００７４】このようにして音声認識部５のニューラル
ネットワークに入力された「おはよう」の前記音声パタ
ーンデータはニューラルネットワークの出力部から２値
データではなく、ある値を持った認識データとして出力
される。そして、「おはよう」の認識データが、他の言
葉の認識データに対して優位な値を持っていれば、音声
認識部５においては、話者の発する「おはよう」を正し
く「おはよう」と認識する。

【００７５】このようにして認識された「おはよう」と
いう言葉の認識データは、応答内容作成部３３に入力さ
れる。そして、この応答内容作成部３３では、入力され
た認識データおよび温度センサ３４からの温度データを
基に、入力された認識データに対する応答内容を決定す
る。

【００７６】これにより、音声認識部５から出力された
認識データに対応する応答内容を、そのときの温度に対
応させた応答データを作成することができる。たとえ
ば、話者の「おはよう」の問いかけに対して、音声認識
部５によって「おはよう」が正しく認識されたとする
と、その「おはよう」の認識データに対して、そのとき
の温度が低い値である場合には、応答内容作成部３３
は、「おはよう、ちょっと寒いね。」という応答データ
を作成する。しかし、温度が上がり温度データが大きく
なった場合には、同じ「おはよう」という認識データに
対して「おはよう、ちょっと暑いね。」という応答デー
タを作成する。この応答内容作成部３３によって作成さ
れた応答データは、音声合成部６と駆動制御部７に入力
される。音声合成部６に入力された発話データは音声合
成データに変換され、犬のぬいぐるみの本体内に埋め込
まれているスピーカ８によって出力される。また、駆動
制御部７に入力された識別データはあらかじめ対応して
決められた駆動条件にしたがって動作機構１０（図１参
照）を駆動させ、ぬいぐるみの口を応答内容を出力して
いる間だけ動かす。

【００７７】このように環境の温度変化によって、犬の
ぬいぐるみが、あたかも環境の温度変化を感じて、温度
に応じた応答をしてくれるように見せることができる。
そして同じあいさつの「おはよう」を認識した場合にお
いても、温度が変化することにより、違った応答が返っ
てくることで、生きている本物の動物のような対応がで
きる。また、話者が同じ言葉で問いかけても、違う言葉
が返ってくるので飽きてしまうことがない。

【００７８】（第５の実施例）次に図５を参照して、本
発明の第５の実施例の詳細を説明する。なお、図５にお
いては、図１で示されていた犬のぬいぐるみ３０、ぬい
ぐるみの口などを動かすための動作機構１０などの図示
は省略されている。この第５の実施例は、対話内容に影
響を与える変動データの一つとして気圧を検出し、この
気圧の変化（天気の良し悪し）によって、前記第３の実
施例で示した応答内容作成部３３での応答内容を変えよ
うとするものであり、図５においては、気圧センサ３５
が設けられており、その他、図３と同一部分には同一符
号が付されている。前記応答内容作成部３３は、音声
認識部５からの認識データを入力し、その認識データお
よび気圧センサ３５の温度データに基づいて、ぬいぐる
みの応答内容を決定するものである。応答内容を変えよ
うとするものであり、これらの具体的な処理内容につい
ては後述する。

【００７９】図５において、マイクロフォン１から入力
された音声は、音声分析部２で分析され入力された音声
の特徴量に応じた音声パターンが作成される。この音声
パターンは、音声認識部５に予め設けられたニューラル
ネットワークの入力部に入力され音声認識される。

【００８０】たとえば今、不特定の話者によって発せら
れた「おはよう」という言葉がマイクロフォン１に入力
されたとすると、その話者の「おはよう」という言葉の
特徴が音声分析部２によって分析され音声パターンデー
タとして音声認識部５に入力される。

【００８１】このようにして音声認識部５のニューラル
ネットワークに入力された「おはよう」の前記音声パタ
ーンデータはニューラルネットワークの出力部から２値
データではなく、ある値を持った識別データとして出力
される。そして、この「おはよう」という言葉に対する
認識データが、他の言葉の認識データに対して優位な値
を持っていれば、音声認識部５においては、話者の発す
る「おはよう」を正しく「おはよう」と認識する。

【００８２】このようにして認識された「おはよう」と
いう言葉の認識データは、応答内容作成部３３に入力さ
れる。そして、この応答内容作成部３３では、入力され
た認識データおよび気圧センサ３５からの気圧データを
基に、入力された認識データに対する応答内容を決定す
る。

【００８３】これにより、音声認識部５から出力された
認識データに対応する応答内容を、そのときの気圧に対
応させた発話データを作成することができる。たとえ
ば、話者の「おはよう」の問いかけに対して、音声認識
部５によって「おはよう」が正しく認識されたとする
と、その「おはよう」の認識データに対して、そのとき
の気圧が低い方に変化した場合には、応答内容作成部３
３は、「おはよう、今日は天気が悪くなるね」という応
答データを作成する。これに対して、気圧が高い方に変
化した場合には、「おはよう」という認識データに対し
て「おはよう、今日は天気が良くなるね」という応答デ
ータを作成する。この応答内容作成部３３によって作成
された応答データは、音声合成部６と駆動制御部７に入
力される。音声合成部６に入力された発話データは音声
合成データに変換され、犬のぬいぐるみの本体内に埋め
込まれているスピーカ８によって出力される。また、駆
動制御部７に入力された識別データはあらかじめ対応し
て決められた駆動条件にしたがって動作機構１０（図１
参照）を駆動させ、ぬいぐるみの口を発話内容を出力し
ている間だけ動かす。

【００８４】このように環境の気圧変化によって、犬の
ぬいぐるみが、あたかも環境の天気の変化を感じて、天
気の良し悪しに応じた応答をしてくれるように見せるこ
とができる。そして同じあいさつの「おはよう」を認識
した場合においても、気圧が変化することにより、違っ
た応答が返ってくることで、生きている本物の動物のよ
うな対応ができる。また、話者が同じ言葉で問いかけて
も、違う言葉が返ってくるので飽きてしまうことがな
い。

【００８５】（第６の実施例）次に図６を参照して、本
発明の第６の実施例を説明する。なお、図６において
は、図１で示されていた犬のぬいぐるみ３０、ぬいぐる
みの口などを動かすための動作機構１０などの図示は省
略されている。この第６の実施例は、対話内容に影響を
与える変動データの一つとして暦データを検出し、この
暦データ（カレンダデータ）の変化（月日の変化）によ
って応答内容を変えようとするものであり、図６の構成
が、図４または図５と異なるのは、温度センサ３４また
は気圧センサ３５の代わりとしてカレンダ部３６を設け
た点にあり、図４または図５と同一部分には同一符号が
付されている。なお、前記カレンダ部３６は図示しない
が時計部からの時刻データを参照することにより、カレ
ンダデータを更新するようになっている。また、この第
６の実施例における応答内容作成部３３は、音声認識部
５からの認識データを入力し、その認識データおよびカ
レンダ部３６からのカレンダデータに基づいて、ぬいぐ
るみの応答内容を決定するものである。これらの具体的
な処理内容については後述する。

【００８６】図６において、マイクロフォン１から入力
された音声は、音声分析部２で分析され入力された音声
の特徴量に応じた音声パターンが作成される。この音声
パターンは、音声認識部５に予め設けられたニューラル
ネットワークの入力部に入力され音声認識される。

【００８７】たとえば今、不特定の話者によって発せら
れた「おはよう」という言葉がマイクロフォン１に入力
されたとすると、その話者の「おはよう」という言葉の
特徴が音声分析部２によって分析され音声パターンデー
タとして音声認識部５に入力される。

【００８８】このようにして音声認識部５のニューラル
ネットワークに入力された「おはよう」の前記音声パタ
ーンデータはニューラルネットワークの出力部から２値
データではなく、ある値を持った識別データとして出力
される。そして、この「おはよう」という言葉に対する
認識データが、他の言葉の認識データに対して優位な値
を持っていれば、音声認識部５においては、話者の発す
る「おはよう」を正しく「おはよう」と認識する。

【００８９】このようにして認識された「おはよう」と
いう言葉の認識データは、応答内容作成部３３に入力さ
れる。そして、この応答内容作成部３３では、入力され
た認識データおよびカレンダ部３６からのカレンダデー
タ（日付情報：もちろん年のデータを含んでも良い）を
基に、入力された認識データに対する応答内容を決定す
る。

【００９０】これにより、音声認識部５から出力された
認識データに対応する応答内容を、そのときの日付けに
対応させた応答データを作成することができる。たとえ
ば、話者の「おはよう」の問いかけに対して、音声認識
部５によって「おはよう」が正しく認識されたとする
と、その「おはよう」の認識データに対して、カレンダ
データが４月１日であったとすれば、応答内容作成部３
３は、たとえば、「おはよう、お花見に連れって行っ
て」という応答データを作成する。また、カレンダーデ
ータが１２月２３日の場合には、同じ「おはよう」とい
う認識データに対して「おはよう、もうすぐクリスマス
だね」というような応答データを作成する。もちろん、
年のデータが有れば、前の年と違う応答をさせることも
可能である。

【００９１】この応答内容作成部３３によって作成され
た応答データは、音声合成部６と駆動制御部７に入力さ
れる。音声合成部６に入力された発話データは音声合成
データに変換され、犬のぬいぐるみの本体内に埋め込ま
れているスピーカ８によって出力される。また、駆動制
御部７に入力された識別データはあらかじめ対応して決
められた駆動条件にしたがって動作機構１０（図１参
照）を駆動させ、ぬいぐるみの口を発話内容を出力して
いる間だけ動かす。

【００９２】このように月日の変化によって、犬のぬい
ぐるみが、あたかも月日の変化を感じて、それに対応し
た応答をしてくれるように見せることができる。そして
同じあいさつの「おはよう」を認識した場合において
も、月日がすぎることによって違う応答が返ってくるこ
とで、生きている本物の動物のような対応ができる。そ
して、同じ言葉を認識させても違う言葉が返ってくるの
で、飽きてしまうことがない。

【００９３】以上幾つかの実施例により本発明を説明し
たが、本発明は以上の実施例で説明した玩具のみなら
ず、携帯型の電子手帳、対話型のゲーム機、その他、日
常用いられる電子機器などに広く適用することができ
る。また、第３の実施例以降においては、音声認識部５
は、第１の実施例あるいは第２の実施例にて説明したよ
うな手段により、話者の話す内容と時刻などの変動デー
タとの妥当性を考慮した重みづけ係数により最終的な認
識データを得るようにしてもよく、あるいは、それ以外
の方法により最終認識データを得るようにしてもよい。
たとえば、第１の実施例あるいは第２の実施例により最
終識別データを得るようにして、この最終認識データに
対する応答内容を第３〜第６の実施例で説明したように
処理すれば、話者の話す言葉は高い認識率で認識され、
さらに、話者の問いかけに対する返答を、より一層、状
況に合致したものとすることができる。さらに、第３〜
第６の実施例で説明した応答内容処理を、全て、あるい
は必要に応じて幾つか組み合わせて用いることにより、
より一層、状況に応じた発話が可能となる。たとえば、
第２の実施例に第３の実施例を組み合わせ、さらに、第
４の実施例以降で説明した温度センサ、気圧センサ、カ
レンダ部などを設ければ、話者の話す内容と時刻との妥
当性を考慮した正確な音声認識が行え、時間の経過など
によるぬいぐるみの応答内容のレベル変化を楽しむこと
ができ、また、温度や天候、日付などの情報を交えた対
話も可能となるなど、極めて高度な音声認識対話装置を
実現できる。

【００９４】

【発明の効果】以上述べたように本発明の音声認識対話
装置は、請求項１によれば、変動データの変化に伴って
変化する重みづけ係数を各認識対象音声の内容に対応さ
せて発生し、この重みづけ係数を考慮した認識データを
音声認識手段から出力するようにしたので、認識対象音
声のなかに、入力音声の音声データパターンに類似した
音声データパターンが有る場合においても、前記重みづ
け係数により、入力音声に対する認識データを他の登録
認識データに比べて優位性を持たせることができ、たと
えば、挨拶言葉のように時刻、天気、温度、日付などに
関連性の有る言葉に対しては、そのときの状況や環境を
考慮した認識がなされるため、認識率を大幅に向上させ
ることができる。

【００９５】また、請求項２によれば、変動データとし
て時刻データを用いた場合において、時刻データの変化
に伴って変化する重みづけ係数を各認識対象音声の内容
に対応させて発生し、この重みづけ係数を考慮した認識
データを音声認識手段から出力するようにしたので、日
常非常に多く用いられる「おはよう」、「おやすみ」と
いった時刻に関係する挨拶言葉に対する認識率を大幅に
向上させることができる。

【００９６】また、請求項３によれば、変動データとし
て時刻データを用いた場合において、或る入力音声が前
記音声認識手段によって正しく認識された時刻をその都
度、前記計時手段から得て、正しく認識された時刻デー
タをもとに、当該音声に対する認識データの重みづけ係
数を時刻によって変化させ、この重みづけ係数を考慮し
た認識データを算出して、これにより入力音声の認識を
行うようにしたので、前記請求項２と同様、日常非常に
多く用いられる「おはよう」、「おやすみ」といった時
刻に関係する挨拶言葉に対する認識率を大幅に向上させ
ることができ、さらに、この請求項３においては、或る
言葉が正しく認識された時刻を常に検出し、過去におけ
る当該言葉の認識時刻を基にして、重みづけ係数を決定
するようにしたので、実際の使用状況に対応した重みづ
け係数を設定することが可能となる。

【００９７】また、請求項４によれば、時刻データおよ
び前記音声認識手段によって正しく認識された認識回数
データの少なくとも１つを入力し、入力したデータに基
づいて、入力音声に対する応答内容を変化させるための
応答内容レベルを発生し、この応答レベルに応じた応答
内容を出力するようにしたので、話者の問いかけに対し
て、応答内容レベルを段階的に変化させることが可能と
なる。たとえば、本発明をぬいぐるみのような玩具に用
いた場合には、応答内容のレベルがアップすることよっ
て、あたかもぬいぐるみが成長して、その成長の度合い
によって、応答内容が変化して行くように見せることが
できる。そして、たとえば、同じあいさつの「おはよ
う」を認識した場合においても、時間が経過によって、
違った応答が返ってくることにより、生きている本物の
動物のような対応ができる。さらに、話者が同じ言葉で
問いかけても、違う言葉が返ってくるので飽きてしまう
ことがないなど優れた効果を得ることができる。さら
に、応答内容レベル値が低い時に、話者自身が認識可能
なしゃべり方を学習することによって、応答内容レベル
値が高くなった場合において、話者の話す言葉の認識率
が必然的に向上することから、円滑な対話が可能となる
効果が得られる。

【００９８】また、請求項５によれば、応答内容に影響
を及ぼす変動データを検出する変動データを検出し、こ
の変動データを考慮した内容の応答内容を出力するよう
にしたので、色々な状況変化に対応した高度な対話が可
能となる。

【００９９】また、請求項６によれば、前記変動データ
として使用環境の温度を測定しその温度データを考慮し
た応答内容を出力することにより、気温に関した応答が
行え、高度な対話が可能となる。

【０１００】また、請求項７によれば、前記変動データ
として使用環境の気圧を測定しその気圧データを考慮し
た応答内容を出力することにより、天気の良し悪しに関
した応答が可能となり、高度な対話が可能となる。

【０１０１】また、請求項８によれば、前記変動データ
として暦を検出してその暦データを考慮した応答内容を
出力することにより、暦に関した応答が可能となり、高
度な対話が可能となる。

【図面の簡単な説明】

【図１】本発明の第１の実施例の犬のぬいぐるみの全体
構成を示すブロック図である。

【図２】本発明の第２の実施例の全体構成を示すブロッ
ク図である。

【図３】本発明の第３の実施例の全体構成を示すブロッ
ク図である。

【図４】本発明の第４の実施例の全体構成を示すブロッ
ク図である。

【図５】本発明の第５の実施例の全体構成を示すブロッ
ク図である。

【図６】本発明の第６の実施例の全体構成を示すブロッ
ク図である。

【符号の説明】１・・・マイクロフォン２・・・音声分析部３・・・時計部４・・・係数設定部５・・・音声認識部６・・・音声合成部７・・・駆動制御部８・・・スピーカ９・・・電源部１０・・・動作機構１１・・・モータ１２・・・カム１３・・・リブ１４・・・軸１５・・・クランク１６・・・犬の下顎２１・・・係数記憶部３１・・・応答内容レベル発生部３２・・・応答内容レベル記憶部３３・・・応答内容作成部３４・・・温度センサ３５・・・気圧センサ３６・・・カレンダ部

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＧ１０Ｌ 15/24 Ｇ１０Ｌ 3/00 ５７１Ｇ 15/28 ５７１Ｈ (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/24 G10L 15/28

Claims

(57)【特許請求の範囲】

【請求項１】入力された音声を分析して登録されてい
る音声データパターンとの比較を行って音声認識し、認
識した音声に対応して応答する音声認識対話装置におい
て、入力された音声を分析して音声データパターンを作成す
る音声分析手段と、対話内容に影響を及ぼす変動データを検出する変動デー
タ検出部と、この変動データ検出部からの変動データを入力し、予め
登録されている各認識対象音声の内容ごとに、前記変動
データに対応させた重みづけ係数を発生する係数設定手
段と、前記音声分析手段により出力される入力音声の音声デー
タパターンを入力するとともに、登録されている複数の
認識対象音声に対するその時点におけるそれぞれの重み
づけ係数を前記係数設定手段から得て、それぞれの認識
対象音声に対する認識データにそれぞれ対応する重みづ
け係数を考慮した最終認識データを算出して、これら算
出された最終認識データから前記入力音声の認識を行
い、認識された音声の最終認識データを出力する音声認
識手段と、この音声認識手段からの前記係数を考慮した最終認識デ
ータを基に、それに対応した音声合成データを出力する
音声合成手段と、この音声合成手段からの出力を外部に発する音声出力手
段と、を有したことを特徴とする音声認識対話装置。
【請求項２】前記変動データ検出手段は、時刻データ
を検出する計時手段であって、前記係数設定手段は、予
め登録されている各認識対象音声の内容ごとに、時刻に
対応させた重みづけ係数を発生することを特徴とする請
求項１記載の音声認識対話装置。
【請求項３】前記係数設定手段は、或る入力音声が前
記音声認識手段によって正しく認識された時刻をその都
度、前記計時手段から得て、正しく認識された時刻デー
タをもとに、過去において正しく認識された幾つかの時
刻のうち最も多い時刻のときに、その認識データに対す
る重みづけ係数を最も大きな値とし、その時刻から遠ざ
かるに従って前記重みづけ係数を小さな値とすることを
特徴とする請求項２記載の音声認識対話装置。
【請求項４】入力された音声を分析して登録されてい
る音声データパターンとの比較を行って音声認識し、認
識した音声に対応して応答する音声認識対話装置におい
て、入力された音声を分析して音声データパターンを作成す
る音声分析手段と、この音声分析手段により出力される音声データパターン
に基づいて、前記入力音声に対する認識データを出力す
る音声認識手段と、時刻データを発生する計時手段と、この計時手段からの時刻データおよび前記音声認識手段
によって正しく認識された認識回数データの少なくとも
１つを入力し、入力したデータに基づいて、入力音声に
対する応答内容を変化させるための応答内容レベルを発
生する応答内容レベル発生手段と、前記応答内容レベル発生手段により得られた応答レベル
を記憶する応答内容レベル記憶手段と、前記音声認識部からの認識データに基づいて、前記応答
内容レベル発生手段からの応答レベルに応じた応答内容
を決定し、それに対応した応答内容データを出力する応
答内容作成手段と、この応答内容作成手段からの応答内容データを基に、そ
の応答内容データに対応した音声合成データを出力する
音声合成手段と、この音声合成手段からの出力を外部に発する音声出力手
段と、を有したことを特徴とする音声認識対話装置。
【請求項５】入力された音声を分析して登録されてい
る音声データパターンとの比較を行って音声認識し、認
識した音声に対応して応答する音声認識対話装置におい
て、入力された音声を分析して音声データパターンを作成す
る音声分析手段と、この音声分析手段により出力される音声データパターン
に基づいて、前記入力音声に対する認識データを出力す
る音声認識手段と、対話内容に影響を及ぼす変動データを検出する変動デー
タ検出手段と、この変動データ検出手段からの変動データおよび前記音
声認識手段からの認識データを入力し、その認識データ
を基にして、前記変動データを考慮した内容の応答内容
データを出力する応答内容作成手段と、この応答内容作成手段からの応答内容データを基に、そ
の応答内容データに対応した音声合成データを出力する
音声合成手段と、この音声合成手段からの出力を外部に発する音声出力手
段と、を有したことを特徴とする音声認識対話装置。
【請求項６】前記変動データ検出手段は、使用環境の
温度を測定しその温度データを出力する温度センサであ
って、前記応答内容作成手段はこの温度データを考慮し
た応答内容データを出力することを特徴とする請求項５
記載の音声認識対話装置。
【請求項７】前記変動データ検出手段は、使用環境の
気圧を測定しその気圧データを出力する気圧温度センサ
であって、前記応答内容作成手段はこの気圧データを考
慮した応答内容データを出力することを特徴とする請求
項５記載の音声認識対話装置。
【請求項８】前記変動データ検出手段は、暦データを
検出してその暦データを出力する暦データ検出手段であ
って、前記応答内容作成手段はこの暦データを考慮した
応答内容データを出力することを特徴とする請求項５記
載の音声認識対話装置。
【請求項９】入力された音声を分析して登録されてい
る音声データパターンとの比較を行って音声認識し、認
識した音声に対応して応答する音声認識対話処理方法に
おいて、入力された音声を分析して音声データパターンを作成す
る音声分析工程と、対話内容に影響を及ぼす変動データを検出する変動デー
タ検出工程と、この変動データ検出部からの変動データを入力し、予め
登録されている各認識対象音声の内容ごとに、前記変動
データに対応させた重みづけ係数を発生する係数設定工
程と、前記音声分析工程により出力される入力音声の音声デー
タパターンを入力するとともに、登録されている複数の
認識対象音声に対するその時点におけるそれぞれの重み
づけ係数を前記係数設定工程から得て、それぞれの認識
対象音声に対する認識データにそれぞれ対応する重みづ
け係数を考慮した最終認識データを算出して、これら算
出された最終認識データから前記入力音声の認識を行
い、認識された音声の最終認識データを出力する音声認
識工程と、この音声認識工程からの前記係数を考慮した最終認識デ
ータを基に、それに対応した音声合成データを出力する
音声合成工程と、この音声合成工程からの出力を外部に発する音声出力工
程と、を有したことを特徴とする音声認識対話処理方法。
【請求項１０】前記変動データ検出工程は、時刻デー
タを検出する計時手段であって、前記係数設定工程は、
予め登録されている各認識対象音声の内容ごとに、時刻
に対応させた重みづけ係数を発生することを特徴とする
請求項９記載の音声認識対話処理方法。
【請求項１１】前記係数設定工程は、或る入力音声が
前記音声認識工程によって正しく認識された時刻をその
都度、前記計時手段から得て、正しく認識された時刻デ
ータをもとに、過去において正しく認識された幾つかの
時刻のうち最も多い時刻のときに、その認識データに対
する重みづけ係数を最も大きな値とし、その時刻から遠
ざかるに従って前記重みづけ係数を小さな値とすること
を特徴とする請求項１０記載の音声認識対話処理方法。
【請求項１２】入力された音声を分析して登録されて
いる音声データパターンとの比較を行って音声認識し、
認識した音声に対応して応答する音声認識対話処理方法
において、入力された音声を分析して音声データパターンを作成す
る音声分析工程と、この音声分析工程により出力される音声データパターン
に基づいて、前記入力音声に対する認識データを出力す
る音声認識工程と、時刻データを発生する計時手段と、この計時手段からの時刻データおよび前記音声認識工程
によって正しく認識された認識回数データの少なくとも
１つを入力し、入力したデータに基づいて、入力音声に
対する応答内容を変化させるための応答内容レベルを発
生する応答内容レベル発生工程と、前記応答内容レベル発生工程により得られた応答レベル
を記憶する応答内容レベル記憶工程と、前記音声認識部からの認識データに基づいて、前記応答
内容レベル発生工程からの応答レベルに応じた応答内容
を決定し、それに対応した応答内容データを出力する応
答内容作成工程と、この応答内容作成工程からの応答内容データを基に、そ
の応答内容データに対応した音声合成データを出力する
音声合成工程と、この音声合成工程からの出力を外部に発する音声出力工
程と、を有したことを特徴とする音声認識対話処理方法。
【請求項１３】入力された音声を分析して登録されて
いる音声データパターンとの比較を行って音声認識し、
認識した音声に対応して応答する音声認識対話処理方法
において、入力された音声を分析して音声データパターンを作成す
る音声分析工程と、この音声分析手段により出力される音声データパターン
に基づいて、前記入力音声に対する認識データを出力す
る音声認識工程と、対話内容に影響を及ぼす変動データを検出する変動デー
タ検出工程と、この変動データ検出工程からの変動データおよび前記音
声認識工程からの認識データを入力し、その認識データ
を基にして、前記変動データを考慮した内容の応答内容
データを出力する応答内容作成工程と、この応答内容作成工程からの応答内容データを基に、そ
の応答内容データに対応した音声合成データを出力する
音声合成工程と、この音声合成手段からの出力を外部に発する音声出力工
程と、を有したことを特徴とする音声認識対話処理方法。
【請求項１４】前記変動データ検出工程は、使用環境
の温度を測定しその温度データを出力する温度センサで
あって、前記応答内容作成工程はこの温度データを考慮
した応答内容データを出力することを特徴とする請求項
１３記載の音声認識対話処理方法。
【請求項１５】前記変動データ検出工程は、使用環境
の気圧を測定しその気圧データを出力する気圧温度セン
サであって、前記応答内容作成工程はこの気圧データを
考慮した応答内容データを出力することを特徴とする請
求項１３記載の音声認識対話処理方法。
【請求項１６】前記変動データ検出工程は、暦データ
を検出してその暦データを出力する暦データ検出手段で
あって、前記応答内容作成工程はこの暦データを考慮し
た応答内容データを出力することを特徴とする請求項１
３記載の音声認識対話処理方法。