JP3254994B2 - 音声認識対話装置および音声認識対話処理方法 - Google Patents

音声認識対話装置および音声認識対話処理方法

Info

Publication number
JP3254994B2
JP3254994B2 JP32935295A JP32935295A JP3254994B2 JP 3254994 B2 JP3254994 B2 JP 3254994B2 JP 32935295 A JP32935295 A JP 32935295A JP 32935295 A JP32935295 A JP 32935295A JP 3254994 B2 JP3254994 B2 JP 3254994B2
Authority
JP
Japan
Prior art keywords
data
voice
recognition
response content
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP32935295A
Other languages
English (en)
Other versions
JPH08297498A (ja
Inventor
伊佐央 枝常
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP32935295A priority Critical patent/JP3254994B2/ja
Priority to TW084113714A priority patent/TW340938B/zh
Priority to KR1019960004559A priority patent/KR100282022B1/ko
Priority to US08/609,336 priority patent/US5802488A/en
Priority to EP96301394A priority patent/EP0730261B1/en
Priority to CNB031311911A priority patent/CN1229773C/zh
Priority to CN96104209A priority patent/CN1132148C/zh
Priority to DE69618488T priority patent/DE69618488T2/de
Publication of JPH08297498A publication Critical patent/JPH08297498A/ja
Priority to HK98115936A priority patent/HK1014604A1/xx
Application granted granted Critical
Publication of JP3254994B2 publication Critical patent/JP3254994B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63HTOYS, e.g. TOPS, DOLLS, HOOPS OR BUILDING BLOCKS
    • A63H2200/00Computerized interactive toys, e.g. dolls
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Toys (AREA)
  • Input From Keyboards Or The Like (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声を認識し、その認
識結果に対応した発話や特定動作を行う音声認識対話装
置に関する。
【0002】
【従来の技術】この種の音声認識対話装置の一例として
音声認識玩具がある。たとえば、特開昭62−2530
93号に開示されている音声認識玩具においては、音声
指令となる複数の命令語を認識対象言語として予め登録
しておき、その玩具を使って遊ぶ子どもの発した音声信
号と登録されている音声信号との比較を行って、上記両
音声信号が一致したとき、音声指令に対する定められた
電気信号を出力し、これに基づいて玩具に特定動作を行
わせるものであった。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
この種の音声を認識した結果を基に会話や動作を行うぬ
いぐるみ等の玩具では、話者の話した言葉と違う単語や
言葉を認識してしまったりすることも多く、また、たと
え単語や言葉を間違いなく認識した場合においても、状
況や環境の変化に対応した反応や言葉を返すことはでき
ないのが一般的であった。
【0004】最近では、たとえ玩具であっても高度な動
作を行うものも要求されてきており、子どもがたとえば
ぬいぐるみに向かって「おはよう」といったら、時間な
どの状況に関係なく単に「おはよう」という返答ではす
ぐに飽きてしまうとことにもなり、また、この種の音声
認識対話技術はもっと高学年向きなゲーム機、さらには
日常的に用いる機器にも応用できる可能性もあるため、
より高度な技術の開発が望まれていた。
【0005】そこで本発明は、時間などの状況や環境の
変化を検出する機能を有し、ユーザの発生する音声に対
して状況や環境の変化に応じた応答を可能とし、より高
度な対話を可能とした音声認識対話装置を実現すること
を目的としている。
【0006】
【課題を解決するための手段】本発明の音声認識対話装
置は、入力された音声を分析して登録されている音声デ
ータパターンとの比較を行って音声認識し、認識した音
声に対応して応答する音声認識対話装置において、入力
された音声を分析して音声データパターンを作成する音
声分析手段と、対話内容に影響を及ぼす変動データを検
出する変動データ検出部と、この変動データ検出部から
の変動データを入力し、予め登録されている各認識対象
音声の内容ごとに、前記変動データに対応させた重みづ
け係数を発生する係数設定手段と、前記音声分析手段に
より出力される入力音声の音声データパターンを入力す
るとともに、登録されている複数の認識対象音声に対す
るその時点におけるそれぞれの重みづけ係数を前記係数
設定手段から得て、それぞれの認識対象音声に対する認
識データにそれぞれ対応する重みづけ係数を考慮した最
終認識データを算出して、これら算出された最終認識デ
ータから前記入力音声の認識を行い、認識された音声の
最終認識データを出力する音声認識手段と、この音声認
識手段からの前記係数を考慮した最終認識データを基
に、それに対応した音声合成データを出力する音声合成
手段と、この音声合成手段からの出力を外部に発する音
声出力手段とを有したことを特徴としている。
【0007】前記変動データ検出手段は、たとえば、時
刻データを検出する計時手段であって、前記係数設定手
段は、予め登録されている各認識対象音声の内容ごと
に、時刻に対応させた重みづけ係数を発生するものであ
る。この場合における係数設定手段は、或る入力音声に
対し、過去において正しく認識された幾つかの時刻のう
ち最も多い時刻のときに、その認識データに対する重み
づけ係数を最も大きな値とし、その時刻から遠ざかるに
従って前記重みづけ係数を小さな値として出力するよう
なものであってもよい。
【0008】また、本発明の音声認識対話装置は、入力
された音声を分析して登録されている音声データパター
ンとの比較を行って音声認識し、認識した音声に対応し
て応答する音声認識対話装置において、入力された音声
を分析して音声データパターンを作成する音声分析手段
と、この音声分析手段により出力される音声データパタ
ーンに基づいて、前記入力音声に対する認識データを出
力する音声認識手段と、時刻データを発生する計時手段
と、この計時手段からの時刻データおよび前記音声認識
手段によって正しく認識された認識回数データの少なく
とも1つを入力し、入力したデータに基づいて、入力音
声に対する応答内容を変化させるための応答内容レベル
を発生する応答内容レベル発生手段と、記応答内容レベ
ル発生手段により得られた時間に対する応答レベルを記
憶する応答内容レベル記憶手段と、前記音声認識部から
の認識データに基づいて、前記応答内容レベル発生手段
からの応答レベルに応じた応答内容を決定し、それに対
応した応答内容データを出力する応答内容作成部と、こ
の応答内容作成部からの応答内容データを基に、その応
答内容データに対応した音声合成データを出力する音声
合成手段と、この音声合成手段からの出力を外部に発す
る音声出力手段とを有したことを特徴としている。
【0009】また、本発明の音声認識対話装置は、入力
された音声を分析して登録されている音声データパター
ンとの比較を行って音声認識し、認識した音声に対応し
て応答する音声認識対話装置において、入力された音声
を分析して音声データパターンを作成する音声分析手段
と、この音声分析手段により出力される音声データパタ
ーンに基づいて、前記入力音声に対する認識データを出
力する音声認識手段と、対話内容に影響を及ぼす変動デ
ータを検出する変動データ検出部と、この変動データ検
出部からの変動データおよび前記音声認識部からの認識
データを入力し、その認識データを基にして、前記変動
データを考慮した内容の応答内容データとして出力する
応答内容作成手段と、この応答内容作成手段からの応答
内容データを基に、その応答内容データに対応した音声
合成データを出力する音声合成手段と、この音声合成手
段からの出力を外部に発する音声出力手段とを有したこ
とを特徴としている。
【0010】前記変動データ検出手段は、使用環境の温
度を測定しその温度データを出力する温度センサであ
り、前記応答内容作成手段はこの温度データを考慮した
応答内容データを出力する。
【0011】また、前記変動データ検出手段は、使用環
境の気圧を測定しその気圧データを出力する気圧温度セ
ンサであり、前記応答内容作成手段はこの気圧データを
考慮した応答内容データを出力する。
【0012】また、前記変動データ検出手段は、暦デー
タを検出してその暦データを出力する暦検出手段であ
り、前記応答内容作成手段はこの暦データを考慮した応
答内容データを出力する。
【0013】
【作用】本発明は、対話の内容に影響を及ぼす変動デー
タ(たとえば、時刻、気温、天気、日付など)の変化に
ともなって、予め登録されている認識対象音声の認識デ
ータごとに、重みづけ係数を設定する。たとえば、変動
データとして時刻を例に取れば、時刻に対応させて、各
認識対象音声の認識データ毎に、重みづけ係数を設定
し、この重みづけ係数を考慮した音声認識を行うことに
より、話者の発する言葉(特に挨拶言葉)が時刻に対し
て妥当性があるか否かが考慮された音声認識が行える。
したがって、音声分析された音声パターンの似ている認
識対象の音声があっても、重みづけ係数により、最終的
に出力される認識データの数値の差を大きなものとする
ことができ、認識率の向上が図れる。これは、時刻だけ
でなく前記したような種々の変動データにおいても可能
であり、たとえば、気温に応じた重みづけ係数を設定す
ることにより、話者の発する挨拶言葉が気温に対して妥
当性があるか否かが考慮された音声認識が行え、この場
合も、音声分析された音声パターンの似ている認識対象
の音声があったとしても、前記同様、重みづけ係数によ
り、最終的に出力される認識データの数値の差を大きな
ものとすることができ、認識率の向上がはかれる。
【0014】また、変動データを時刻とした場合、或る
言葉に対し、その言葉が使用される頻度の高い時刻を検
出し、その使用頻度の高い時刻のときを重みづけ係数値
を高い数値とし、その時刻から遠ざかるに従って、係数
値を小さな値とすることにより、実際の使用状態に合っ
た言葉と時刻との関係を得ることができる。
【0015】また、時間の経過などに伴って、入力音声
に対する応答内容を変化させるための応答内容レベルを
発生し、音声認識部からの認識データに基づいて、前記
応答レベルに応じた応答内容を決定し、それに対応した
応答をおこなうようにしたので、話者の問いかけに対す
る応答内容のレベルを変化させることができる。
【0016】さらに、温度センサ、気圧センサからのデ
ータや、暦データなどの変動データを用い、これらのデ
ータを基にして応答内容を作成することにより、応答内
容に幅広いバリエーションを持たせることができ、より
一層、充実した対話を行うことができる。
【0017】
【実施例】以下、実施例により本発明の詳細を示す。な
お、以下に説明する実施例においては、本発明を玩具に
適用した場合を例にとり、特にここでは幼児用の玩具と
して「犬のぬいぐるみ」に本発明を適用した例について
説明する。
【0018】(第1の実施例)この第1の実施例は、予
め登録されている認識対象音声の認識データに対して、
対話内容に影響を及ぼす変動データ(時刻、気温、天
気、日付など)の値に対応させて重みづけ係数を設定
し、挨拶言葉が入力された場合、その挨拶言葉の認識率
を高めようとするものである。図1は本発明の第1の実
施例を説明する構成図であり、まず、その構成を概略的
に説明し、個々の詳細な機能などについては後に説明す
る。なお、この第1の実施例では、前記対話の内容に影
響を及ぼす変動データとして時刻を用いた場合を例にと
って説明する。
【0019】図1において、犬のぬいぐるみ30の内部
には、外部からの音声を入力するマイクロフォン1、こ
のマイクロフォン1から入力された音声を分析して入力
音声の特徴量に対応した音声データパターンを発生する
音声分析部2、前記音声の入力された時間や後述する音
声認識部によって識別された時刻などの時刻データを出
力する計時手段としての時計部3、この時計部3からの
時刻データを入力し、時刻の変化に伴って変化する重み
づけ係数を各認識対象音声の内容に対応させて発生する
係数設定部4、前記音声分析部2より出力される入力音
声の音声データパターンを入力するとともに、登録され
ている認識対象音声に対するその時点におけるそれぞれ
の重みづけ係数を前記係数設定部4から得て、それぞれ
の認識対象音声に対する認識データにそれぞれ対応する
重みづけ係数を掛け算して、最終的な認識データを算出
し、これら算出された最終認識データから前記入力音声
の認識を行い、認識された音声の最終認識データを出力
する音声認識部5、この音声認識部5からの前記係数を
考慮して認識された最終認識データを基に、それに対応
した音声合成データを出力する音声合成部6、前記音声
認識部5によって認識された認識データに対応して予め
決められている駆動条件に従ってぬいぐるみ30の口な
どを動かすための動作機構10を駆動する駆動制御部
7、前記音声合成部6により音声合成された内容を外部
に出力するスピーカ8、以上の各部を動作させるための
電源部9などが設けられている。
【0020】前記音声認識部5は、その認識手段とし
て、ここでは不特定な話者を対象とするニューラルネッ
トワークを用いた場合を例にして説明するが、認識手段
としては不特定話者を対象とする方法に限らず、特定話
者を対象とする方式やDPマッチングやHMMなどの他
の公知の識別方法も採用することができる。
【0021】また、前記動作機構10は、駆動制御部7
から出力される駆動信号(音声合成部6の出力信号の長
さに一致する)によりモータ11が回転し、これに連動
してカム12が回転することにより、このカム12に設
けられた突起状のリブ13がカム12の回転と連動して
円運動する。そして、リブ13には軸14を支点とする
クランク15が挟まっており、カム12の回転にあわせ
て犬のぬいぐるみの下顎16を上下に連動して動作させ
るようになっている。
【0022】このような構成において、マイクロフォン
1から入力された音声は、音声分析部2で分析され、入
力された音声の特徴量に応じた音声データパターンが作
成される。この音声データパターンは、音声認識部5に
予め設けられたニューラルネットワークの入力部に入力
され、以下のようにして音声認識される。
【0023】ここで、いくつかのあいさつの単語あるい
は言葉を識別する場合を例に説明を行う。たとえば「お
はよう」、「行ってきます」、「こんにちは」、「ただ
いま」、「おやすみ」などのあいさつ言葉を例にとって
説明する。たとえば今、不特定の話者によって発せられ
た「おはよう」という言葉がマイクロフォン1に入力さ
れたとすると、その話者の「おはよう」という言葉の特
徴が音声分析部2によって分析され音声データパターン
として音声認識部5に入力される。
【0024】また、一方でマイクロフォン1から入力さ
れた「おはよう」という言葉が音圧として検出された時
刻、あるいは「おはよう」という言葉が音声認識部5の
ニューラルネットワークにより識別された時刻データは
時計部3から係数設定部4に与えられている。なお、こ
こでは、係数設定部4の参照する時刻は音声認識部5が
音声認識した時刻とする。
【0025】このようにして音声認識部5のニューラル
ネットワークに入力された「おはよう」の前記音声デー
タパターンはニューラルネットワークの出力部から2値
データではなく、ある値を持った認識データとして出力
される。ここでは、その値が0から10までの浮動小数
点を持った値で出力される場合を例にとって説明する。
【0026】話者がぬいぐるみ30に対して「おはよ
う」と言った場合、音声認識部5のニューラルネットワ
ークからは、たとえば、「おはよう」は8.0、「行っ
てきます」は1.0、「こんにちは」は2.0、「ただ
いま」は1.0、「おやすみ」は4.0の識別データ値
が出力されるものとする。ここで、話者の「おはよう」
に対してニューラルネットワークからの認識データは、
「おはよう」が8.0と高い数値であることは当然なこ
とであるが、「行って来ます」、「こんにちわ」、「た
だいま」に比べて「おやすみ」が比較的高い認識データ
値となるのは、ある任意の不特定話者の「おはよう」と
「おやすみ」は、音声分析部2により分析された音声パ
ターンデータが比較的似ていたためと考えられる。した
がって、話者の話した「おはよう」が、 音声認識部5
によって「行って来ます」、「こんにちわ」、「ただい
ま」と認識される確率は殆どないが、 話者の「おはよ
う」が「おやすみ」と認識される可能性は高いものとな
る。
【0027】このとき音声認識部5は、係数設定部4を
参照し、認識対象の言葉に対してあらかじめ設定されて
いる重み付け係数を読み出し、その係数を認識データに
掛け算する。この重みづけ係数は、一般に、挨拶言葉は
時刻により異なった内容の言葉が用いられるため、時刻
に対応してそれぞれの挨拶言葉に設定される係数であ
る。たとえば、現在の時刻が朝の7時0分であった場
合、「おはよう」に対する重みづけ係数は1.0、「行
ってきます」に対する重みづけ係数は0.9、「こんに
ちは」に対する重みづけ係数は0.7、「ただいま」に
対する重みづけ係数は0.6、「おやすみ」に対する重
みづけ係数は0.5と設定され、このような認識対象言
語と時刻と係数の関係は予め係数設定部4に格納されて
いる。
【0028】このような重みづけ係数を考慮することに
より、ニューラルネットワークから出力された「おはよ
う」の認識データが8.0で、朝7時0分の場合の「お
はよう」の係数が1.0であるため、「おはよう」の最
終認識データは8.0と係数1.0を掛けた8.0とい
う値になる。同様にして、「行ってきます」の最終認識
データは1.0と係数0.9を掛けた0.9、「こんに
ちは」の最終認識データは2.0と係数0.7を掛けた
1.4、「ただいま」の最終認識データは1.0と係数
0.6を掛けた0.6、「おやすみ」の最終認識データ
は4.0と係数0.5を掛けた2.0となる。このよう
に音声認識部5において、時刻による重みづけ係数が考
慮された最終の認識データが作成される。
【0029】このようにして時刻情報による重みづけ係
数が考慮された最終認識データを求めることによりによ
り、「おはよう」の最終認識データは「おやすみ」の最
終認識データに対して4倍以上の大きな値を持つことか
ら、話者の「おはよう」に対しては音声認識部5におい
て、正確に「おはよう」という言葉が認識されることに
なる。なお、これらの認識できる言葉の数は任意であ
る。
【0030】以上のようにして認識された「おはよう」
という言葉の最終認識データは、音声合成部6と駆動制
御部7に入力される。音声合成部6は音声認識部5から
の最終認識データに対応してあらかじめ決められている
音声合成データに変換して、その音声合成出力をスピー
カ8から出力する。この場合は、「おはよう」という言
葉の最終認識データに対して、スピーカ8からは、たと
えば「おはよう」と出力される。すなわち、このぬいぐ
るみと遊ぶ子どもが、ぬいぐるみに対して「おはよう」
と問いかけると、ぬいぐるみは「おはよう」と応答する
ことになる。これは、「おはよう」と言った時間が朝の
7時0分であって、問いかけた言葉の内容とそのときの
時刻に妥当性があるために、「おはよう」が正しく認識
されてその「おはよう」の問いかけに対して適切な返答
がなされるのである。
【0031】一方、駆動制御部7では、前記最終認識デ
ータに対応して予め決められた駆動条件にしたがって各
動作機構を駆動する。ここでは音声合成部6の出力信号
(この場合、「おはよう」)に合わせて犬のぬいぐるみ
30の口を動かす。ただし、動作機構はぬいぐるみの口
を動かすのみならず、たとえば、首を振ったり、尾を振
ったり、任意の部位を駆動させることも可能である。
【0032】同様に現在時刻が夜の8時0分であった場
合について説明する。この場合、「おはよう」に対する
重みづけ係数は0.5、「行ってきます」に対する重み
づけ係数は0.6、「こんにちは」に対する重みづけ係
数は0.7、「ただいま」に対する重みづけ係数は0.
9、「おやすみ」に対する重みづけ係数は1.0と設定
されている。
【0033】このように重み付け係数を考慮することに
より、ニューラルネットワークから出力された「おはよ
う」の認識データが8.0で、夜8時0分の場合の「お
はよう」に対する重みづけ係数が0.5であるため、
「おはよう」の最終認識データは8.0と係数0.5を
掛けた4.0という値になる。同様にして、「行ってき
ます」の最終認識データは1.0と係数0.6を掛けた
0.6、「こんにちは」の最終認識データは2.0と係
数0.7を掛けた1.4、「ただいま」の最終認識デー
タは1.0と係数0.9を掛けた0.9、「おやすみ」
の最終認識データは4.0と係数1.0を掛けた4.0
となる。
【0034】このように音声認識部5において、重みづ
け係数が考慮された最終の認識データが作成される。前
記の最終認識データより「おはよう」の最終認識データ
と「おやすみ」の最終認識データは共に4.0であり、
両者に差がないため認識できないことになる。つまり、
夜の8時0分においては、話者が「おはよう」という言
葉を発しても、その「おはよう」は「おはよう」である
か「おやすみ」であるかを認識できないことになる。
【0035】この最終認識データは音声合成部6と駆動
制御部7に与えられ、音声合成部6と駆動制御部7で
は、それに応じた動作を行う。すなわち、音声合成部6
では、その最終データに対応してあらかじめ用意された
曖昧な回答の音声合成データに変換して出力する。たと
えば、スピーカ8によって、「なにかおかしいよ」と出
力される。これは、夜であるにもかかわらず「おはよ
う」というのはおかしいということである。
【0036】駆動制御部7では、前記同様、音声認識部
5からの最終認識データに対応して予め決められた駆動
条件にしたがって各動作機構を駆動する。ここでは音声
合成部5の出力信号(この場合、「なにかおかしい
よ」)にあわせて犬のぬいぐるみの口を動かす。ただ
し、動作機構は前記同様、ぬいぐるみの口を動かすのみ
ならず他の任意の部位を駆動させることも可能である。
【0037】次に、現在時刻が夜の8時0分のときに、
話者が「おやすみ」と言った場合について説明する。こ
の場合、音声認識部3のニューラルネットワークから
は、たとえば、「おはよう」は4.0、「行ってきま
す」は1.0、「こんにちは」は2.0、「ただいま」
は1.0、「おやすみ」は8.0の認識データ値が出力
されたものとする。そして、夜8時における「おはよ
う」に対する重みづけ係数は0.5、「行ってきます」
に対する重みづけ係数は0.6、「こんにちは」に対す
る重みづけ係数は0.7、「ただいま」に対する重みづ
け係数は0.9、「おやすみ」に対する重みづけ係数は
1.0と設定されているものとする。
【0038】このような重み付け係数を考慮することに
より、ニューラルネットワークから出力された「おはよ
う」の識別データが4.0で、夜8時0分の場合の「お
はよう」に対する重みづけ係数が0.5であるため、
「おはよう」の最終認識データは4.0と係数0.5を
掛けた2.0という値になる。同様にして、「行ってき
ます」の最終認識データは1.0と係数0.9を掛けた
0.9、「こんにちは」の最終認識データは2.0と係
数0.7を掛けた1.4、「ただいま」の最終認識デー
タは1.0と係数0.6を掛けた0.6、「おやすみ」
の最終認識データは8.0と係数1.0を掛けた8.0
となる。このように音声認識部5において、重みづけ係
数の考慮された最終の認識データが作成される。
【0039】このようにして時刻情報を考慮した最終認
識データを求めることにより、「おやすみ」の最終認識
データは「おはよう」の最終認識データに対して4倍以
上の大きな値を持つことから、話者の「おやすみ」に対
しては音声認識部5において、正確に「おやすみ」とい
う言葉が認識されることになる。
【0040】以上のようにして認識された「おやすみ」
という言葉の最終認識データは、音声合成部6と駆動制
御部7に入力される。音声合成部6は音声認識部5から
の最終認識データに対応してあらかじめ決められている
音声合成データに変換して、その音声合成出力をスピー
カ7から出力する。この場合は、「おやすみ」という言
葉の最終認識データに対して、スピーカ8からは、たと
えば「おやすみ」と出力される。
【0041】なお、以上の説明においては、話者の「お
はよう」と言う問いかけに対するぬいぐるみ30の返答
は「おはよう」、また、「おやすみ」に対する返答は
「おやすみ」であったが、問いかけに対する応答は色々
な種類の言葉を設定することができる。たとえば、「お
はよう」に対しては「今日は早起きだね」といった具合
に設定することができる。
【0042】また、この第1の実施例においては、重み
づけ係数の設定する際の変動データとして時刻を用いた
場合について説明したが、これは時刻に限られるもので
はなく、たとえば、気温、天気、日付などのデータを用
い、これらのデータに基づいて、重みづけ係数を設定す
るようにしてもよい。たとえば、変動データとして気温
を用いた場合には、気温を測定する温度センサからの温
度データを検出し、温度に関係する挨拶言葉(「暑い
ね」や「寒いね」など)の入力音声に対する認識データ
と他の登録されている認識データにそれぞれ重みづけ係
数を設定することにより、入力音声に比較的似た音声デ
ータパターンが有ったとしても、その重みづけ係数によ
り、両者の認識データの値の差を大きなものとすること
ができ、認識率を高めることができる。さらに、時刻、
気温、天気、日付などの変動データを組み合わせて用
い、これらに対応して重みづけ係数を設定すれば、色々
な挨拶言葉に対してより一層、認識率を高めることがで
きる。
【0043】(第2の実施例)次に図2を参照して、本
発明の第2の実施例を説明する。なお、図2において
は、犬のぬいぐるみ30、ぬいぐるみの口などを動かす
ための動作機構10などの図示は省略されている。図2
の構成が、図1と異なるのは、係数設定部4にて設定さ
れる時刻データに応じたそれぞれの認識可能な言葉に対
する重み付け係数を記憶するメモリ部21を設けた点で
あり、その他の構成要素は図1と同様であるので、同一
部分には同一符号が付されている。なお、これら、メモ
リ部21と係数設定部4との間の処理などについては後
に説明する。
【0044】図2において、マイクロフォン1から入力
された音声は、音声分析部2で分析され、入力された音
声の特徴量に応じた音声データパターンが作成される。
この音声データパターンは、音声認識部5に予め設けら
れたニューラルネットワークの入力部に入力され、以下
に示すようにして音声認識される。
【0045】ここで、いくつかのあいさつの単語あるい
は言葉を認識する場合を例に説明を行う。たとえば、
「おはよう」、「行ってきます」、「こんにちは」、
「ただいま」、「おやすみ」などのあいさつ言葉を例に
とって説明する。たとえば今、不特定の話者によって発
せられた「おはよう」という言葉がマイクロフォン1に
入力されたとすると、その話者の「おはよう」という言
葉の特徴が音声分析部2によって分析され音声データパ
ターンとして音声認識部5に入力される。
【0046】また、一方でマイクロフォン1から入力さ
れた「おはよう」という言葉が音圧として検出された時
刻、あるいは「おはよう」という言葉が音声認識部5の
ニューラルネットワークにより認識された時刻データは
時計部3から係数設定部4に与えられている。なお、こ
こでは、係数設定部4の参照する時刻は音声認識部5が
音声認識した時刻とする。
【0047】このようにして音声認識部5のニューラル
ネットワークに入力された「おはよう」の前記音声デー
タパターンはニューラルネットワークの出力部から2値
データではなく、ある値を持った識別データとして出力
される。ここでは、その値が0から10までの浮動小数
点を持った値で出力される場合を例にとって説明する。
【0048】話者がぬいぐるみ30に対して「おはよ
う」と言った場合、音声認識部5のニューラルネットワ
ークからは、たとえば、「おはよう」は8.0、「行っ
てきます」は1.0、「こんにちは」は2.0、「ただ
いま」は1.0、「おやすみ」は4.0の識別データ値
が出力される。ここで、話者の「おはよう」に対してニ
ューラルネットワークからの識別データが「おはよう」
が8.0と高い数値であることは当然なことであるが、
「行って来ます」、「こんにちわ」、「ただいま」に比
べて「おやすみ」が比較的高い認識データ値となるの
は、ある任意の不特定話者の「おはよう」と「おやす
み」は、音声分析部2により分析された音声データパタ
ーンが比較的似ているためと考えられる。したがって、
話者の「おはよう」が、 音声認識部5によって「行っ
て来ます」、「こんにちわ」、「ただいま」と認識され
る確率は殆どないが、 話者の「おはよう」が「おやす
み」と認識される可能性は高いものとなる。ここまでは
前記第1の実施例とほぼ同様である。
【0049】前記音声認識部5は、時刻データに応じて
それぞれの認識可能な言葉に対して設定されている重み
付けのための係数を係数設定部4を参照して読み出す
が、この第2の実施例においては、係数設定部4にはメ
モリ部21が接続されており、メモリ部21に記憶され
た内容(重みづけ係数)が係数設定部4によって参照す
る処理が行われる。なお、前記係数設定部4は、或る言
葉に対し、その言葉が最も多く認識された時刻のとき
に、その認識データに対する重みづけ係数を大きな値と
し、その時間から遠ざかるに従って、その言葉の認識デ
ータに対する重みづけ係数を小さくして出力するもので
ある。つまり、その言葉の使用頻度の最も高い時間のと
きに、その認識データに対する重みづけ係数を大きな値
とし、その時間から遠ざかるに従って、その言葉の認識
データに対する重みづけ係数を小さくする。
【0050】たとえば、現在の時刻が朝の7時0分であ
った場合、初期値として、「おはよう」に対する重みづ
け係数は1.0、「行ってきます」に対する重みづけ係
数はは0.9、「こんにちは」に対する重みづけ係数は
0.7、「ただいま」に対する重みづけ係数は0.6、
「おやすみ」に対する重みづけ係数は0.5というよう
に、それぞれの係数がメモリ部21に設定されていると
すると、「おはよう」はニューラルネットワークから出
力された認識データが8.0で、朝7時0分の場合のメ
モリ部21から呼び出された「おはよう」の係数が1.
0であるため、「おはよう」の最終認識データは8.0
と係数1.0を掛けた8.0という値になる。同様に計
算され、「行ってきます」は0.9、「こんにちは」は
1.4、「ただいま」は0.6、「おやすみ」は4.0
となる。初期においては、音声認識部5において以上の
ような最終認識データが作成される。
【0051】ところで、時刻に基づく重みづけ係数を考
慮した認識を行った場合でも、或る言葉が正しく認識さ
れる時刻は或る程度幅がある。たとえば、「おはよう」
という言葉を例に取れば、朝7時0分に正しく認識され
ることもあり、朝7時30分に正しく認識されることも
あり、朝8時0分に正しく認識されることもある。この
ような点を考慮して、メモリ部21内には、或る言葉が
認識された過去の時刻データーを基にして、最も多く認
識された時刻のときにその言葉に対して最も大きな重み
づけ係数値が格納され、その時刻から遠ざかるに従っ
て、小さな値の計数値が格納される。
【0052】たとえば、「おはよう」という言葉を例に
とって説明すると、この「おはよう」という言葉が過去
において統計的に朝7時0分に最も多く識別されていた
とすると、「おはよう」の識別データに掛けられる係数
は、朝7時0分の時刻データの時が一番大きく設定さ
れ、朝7時0分より遠くの時間になればなるほど係数が
小さくなっていくように設定される。すなわち、朝7時
0分のときの係数は1.0、朝8時のときの係数は0.
9、朝9時のときの係数は0.8というように設定され
る。このように、係数が設定される時刻データは過去の
1つの時刻データのみならず、幾つかの時刻データをも
とに統計的に設定されている。なお、一番最初の初期設
定時の係数はあらかじめ決められた時刻に対する係数が
標準係数として設定されている。つまり、初期状態にお
いては、ここでは、「おはよう」に対して朝7時0分の
ときに重みづけ係数値を1.0としている。
【0053】そして、1番新しく認識された「おはよ
う」の係数は、時刻データと共に新しい係数データとし
てメモリ部21に入力され、メモリ部21ではこのデー
タと過去のデータを基にして必要に応じてその言葉に対
する係数を更新する。
【0054】このように、或る言葉に対する係数はその
言葉が多く使われる時刻を中心に大きな値とすることに
より、たとえば、「おはよう」という言葉を朝の7時頃
に発すれば、この「おはよう」はニューラルネットワー
クから出力された認識データが8.0で、時刻データが
朝7時0分の場合のメモリ部21から呼び出された「お
はよう」の係数が1.0であるため、「おはよう」の最
終認識データは8.0と係数1.0を掛けた8.0とい
う値になり、その最終認識データは他の言葉の最終認識
データの4倍以上の大きな値を持つことから、音声認識
部5において「おはよう」という言葉が正しく認識され
ることになる。
【0055】このようにして認識された「おはよう」と
いう言葉の最終認識データは、音声合成部6と駆動制御
部7に入力される。音声合成部6に入力された最終認識
データはあらかじめ対応して決められている音声合成デ
ータに変換され、話者の「おはよう」の問いかけに対し
て、犬のぬいぐるみの本体内に埋め込まれているスピー
カ8からそれに対応した返事として、「おはよう」ある
いは「今日は早起きだね」というような予め設定された
言葉が返ってくる。
【0056】一方、「おはよう」という言葉を昼の12
時頃に発した場合には、「おはよう」に対する係数は小
さい値となり、「おはよう」に対する最終認識データは
低い値となって、「おはよう」と認識できなくなる。こ
の場合には、前記第1の実施例で説明したように、音声
合成部6はそれに対応した言葉を発するように設定され
ており、ぬいぐるみ30からは、たとえば、「なにかお
かしいよ」というような応答がなされる。
【0057】(第3の実施例)次に本発明の第3の実施
例を図3を参照しながら説明する。なお、図3において
は、図1で示されていた犬のぬいぐるみ30、ぬいぐる
みの口などを動かすための動作機構10などの図示は省
略されている。この第3の実施例の構成は、外部からの
音声を入力するマイクロフォン1、このマイクロフォン
1から入力された音声を分析して入力音声の特徴量に対
応した音声データパターンを発生する音声分析部2、時
間データを出力する時計部3、前記音声分析部2により
出力される音声データパターンに基づいて、前記入力音
声に対する認識データを出力する音声認識部5、この音
声認識部5からの前記係数を考慮した認識データを基
に、その認識データに対応した音声合成データを出力す
る音声合成部6、前記音声認識部5によって認識された
認識データに対応して予め決められている駆動条件に従
ってぬいぐるみ30の口などを動かすための動作機構1
0(図1参照)を駆動する駆動制御部7、前記音声合成
部6により音声合成された内容を外部に出力するスピー
カ8、以上の各部を動作させるための電源部9などが設
けられ、さらに、応答内容レベル発生部31、応答内容
レベル記憶部32、応答内容作成部33が設けられてい
る。
【0058】前記音声認識部5は、その認識手段とし
て、ここでは不特定な話者を対象とするニューラルネッ
トワークを用いた場合を例にして説明するが、認識手段
としては不特定話者を対象とする方法に限らず、特定話
者を対象とする方式やDPマッチングやHMMなどの他
の公知の識別方法も採用することができる。
【0059】また、前記応答内容レベル発生部31は、
時間の経過または音声認識部5における認識回数の増加
にともなって応答内容をレベルアップさせるための応答
レベル値を発生するものであり、前記応答内容レベル記
憶部32は、応答内容レベル発生部31で発生された応
答レベルと時間との関係を記憶するものである。たとえ
ば、このぬいぐるみの玩具を購入して最初に作動スイッ
チをオンさせたときを、レベル1とし、その時点から2
4時間経過後にレベル2とし、さらに24時間経過後に
レベル3というように、時間の経過とレベル値の関係が
記憶されている。
【0060】また、前記応答内容作成部33は、音声認
識部5からの最終認識データを入力すると、前記応答内
容レベル発生部31を参照して、その応答内容レベル値
に対応した応答内容を決定するものである。このとき、
応答内容レベル発生部31は、応答内容レベル記憶部3
2から時間データに対応した応答内容レベルを読み出
す。たとえば、前記したように最初にスイッチをオンし
てから24時間以内であれば、応答内容レベルとしてレ
ベル1が読み出され、24時間以降48時間以内であれ
ばレベル2が読み出されるといった具合である。
【0061】そして、応答内容作成部33は、音声認識
部5からの認識データに基づいて、読み出された応答内
容レベルに対応した応答内容の認識データを作成する。
たとえば、「おはよう」という認識データに対しては、
応答内容レベル(以下、単にレベルという)が1のとき
は「わん、わん」、レベル2のときは「お・は・よ・
う」という片言の言葉、レベル3のときは「おはよう」
となり、さらに、レベルが上がって、レベルnのときは
「おはよう、今日は気分がいいね」というように、時間
の経過とともに、応答内容もレベルアップしていく。こ
の応答内容作成部33で作成された応答データは音声合
成部6で音声合成され、スピーカ8から出力される。
【0062】たとえば今、不特定の話者によって発せら
れた「おはよう」という言葉がマイクロフォン1に入力
されたとすると、その話者の「おはよう」という言葉の
特徴が音声分析部2によって分析され音声パターンデー
タとして音声認識部5に入力される。
【0063】このようにして音声認識部5のニューラル
ネットワークに入力された「おはよう」の前記音声パタ
ーンデータはニューラルネットワークの出力部から2値
データではなく、ある値を持った識別データとして出力
される。そして、この「おはよう」という言葉に対する
認識データが、他の言葉の認識データに対して優位な値
を持っていれば、音声認識部5においては話者の発する
「おはよう」を正しく「おはよう」と認識する。
【0064】このようにして識別された「おはよう」と
いう言葉の認識データは、応答内容作成部33に入力さ
れる。そして、この応答内容作成部33では、入力され
た識別データおよび応答内容レベル発生部31の内容を
基に、入力された認識データに対する応答内容を決定す
る。
【0065】前記応答内容レベル発生部31からの応答
レベル値は、前記したように、話者の問いかけに対する
応答の内容を徐々にレベルアップさせるための値であ
り、ここでは時計部3の時刻データによって、時間の経
過とともに返答の内容をレベルアップさせるようにして
いる。ただし、このレベルアップは、時刻の経過のみな
らず、認識された言葉の数や種類によってもレベル値を
変化させるようにしてもよく、あるいは、時間の経過と
認識された言葉の数や種類との組み合わせによってレベ
ル値を変化させるようにしてもよい。
【0066】この第3の実施例では、ぬいぐるみをあた
かも本物の生き物のように、時間の経過によって成長さ
せて行くようなイメージを与えることを特徴としてい
る。つまり、このぬいぐるみを購入して1日目は、「お
はよう」という問いかけに対しては、応答レベルがレベ
ル1と低いため、「わん、わん」としか応答できなかっ
たものが、2日目にはレベル2となって、「おはよう」
という問いかけに対して「お・は・よ・う」と片言の応
答ができるようになり、さらに、何日かが経過すると、
レベルがさらに上がって、「おはよう」という問いかけ
に対して「おはよう、今日は気分がいいね」というよう
な応答ができるようにしたものである。
【0067】ところで、応答内容の1段階のレベルアッ
プに要する時間的な長さは、以上の説明では、1日(2
4時間)単位程度とした例で説明したが、これに限られ
るものではなく、1段階のレベルアップに要する時間を
もっと長くしてもよく、また、逆にもっと短くしてもよ
い。なお、レベルアップをリセットするためのリセット
スイッチを設ければ、レベルアップを途中でリセットす
ることも可能である。たとえば、レベル3程度まで進ん
だところで、リセットし、再びレベルを初期値に戻すこ
とも可能である。
【0068】以上の説明は、「おはよう」の問いかけに
対する応答について説明したが、これに限られるもので
はなく、「おやすみ」、「行って来ます」などの問いか
けに対する応答のグレードアップも可能であることは勿
論である。たとえば、「おやすみ」を例に取れば、レベ
ル1の段階では、「おやすみ」に対して、ぬいぐるみは
の応答は、「クー、クー」、レベル2になると「お・や
・す・み」といったように応答内容を変化させる。
【0069】このように応答内容のレベルがアップする
ことよって、あたかも犬のぬいぐるみが成長して、その
成長の度合いによって、応答内容が変化して行くように
見せることができる。そして、同じあいさつの「おはよ
う」を認識した場合においても、時間が経過によって、
違った応答が返ってくることにより、生きている本物の
動物のような対応ができる。さらに、話者が同じ言葉で
問いかけても、違う言葉が返ってくるので飽きてしまう
ことがない。
【0070】また、この第3の実施例は、応答内容レベ
ル値が低い時に、話者が自分の話す言葉をどのような話
し方をしたら高い認識率が得られるかをトレーニングす
るにも都合が良いものとなる。つまり、話者が「おはよ
う」と問いかけても、しゃべり方に不慣れな場合、「お
はよう」がなかなか認識されず、最初は認識率が低いこ
とも多い。このような場合、「おはよう」の問いかけに
対し「わん、わん」と応答されれば、「おはよう」が認
識されたことになり、最初のうちに、認識されるような
しゃべり方を練習しておけば、話者はどのような話し方
をすれば認識されるかを覚えるため、応答内容レベル値
が高くなった場合においても、話者の話す言葉は必然的
に高い認識率で認識されるようになり、円滑な対話が可
能となる。
【0071】(第4の実施例)次に図4を参照して、本
発明の第4の実施例を説明する。なお、図4において
は、図1で示されていた犬のぬいぐるみ30、ぬいぐる
みの口などを動かすための動作機構10などの図示は省
略されている。この第4の実施例は、対話内容に影響を
与える変動データの一つとして温度を検出し、この温度
の変化によって前記第3の実施例で示した応答内容作成
処理部33での応答内容を変えようとするものであり、
図4においては、温度センサ34が設けられており、そ
の他、図3と同一部分には同一符号が付されている。前
記応答内容作成部33は、音声認識部5からの認識デー
タを入力し、その認識データおよび温度センサ34の温
度データに基づいて、ぬいぐるみ30の応答内容を決定
するものである。これらの具体的な処理内容については
後述する。
【0072】図4において、マイクロフォン1から入力
された音声は、音声分析部2で分析され入力された音声
の特徴量に応じた音声パターンが作成される。この音声
パターンは、音声認識部5に予め設けられたニューラル
ネットワークの入力部に入力され音声認識される。
【0073】たとえば今、不特定の話者によって発せら
れた「おはよう」という言葉がマイクロフォン1に入力
されたとすると、その話者の「おはよう」という言葉の
特徴が音声分析部2によって分析され音声パターンデー
タとして音声認識部5に入力される。
【0074】このようにして音声認識部5のニューラル
ネットワークに入力された「おはよう」の前記音声パタ
ーンデータはニューラルネットワークの出力部から2値
データではなく、ある値を持った認識データとして出力
される。そして、「おはよう」の認識データが、他の言
葉の認識データに対して優位な値を持っていれば、音声
認識部5においては、話者の発する「おはよう」を正し
く「おはよう」と認識する。
【0075】このようにして認識された「おはよう」と
いう言葉の認識データは、応答内容作成部33に入力さ
れる。そして、この応答内容作成部33では、入力され
た認識データおよび温度センサ34からの温度データを
基に、入力された認識データに対する応答内容を決定す
る。
【0076】これにより、音声認識部5から出力された
認識データに対応する応答内容を、そのときの温度に対
応させた応答データを作成することができる。たとえ
ば、話者の「おはよう」の問いかけに対して、音声認識
部5によって「おはよう」が正しく認識されたとする
と、その「おはよう」の認識データに対して、そのとき
の温度が低い値である場合には、応答内容作成部33
は、「おはよう、ちょっと寒いね。」という応答データ
を作成する。しかし、温度が上がり温度データが大きく
なった場合には、同じ「おはよう」という認識データに
対して「おはよう、ちょっと暑いね。」という応答デー
タを作成する。この応答内容作成部33によって作成さ
れた応答データは、音声合成部6と駆動制御部7に入力
される。音声合成部6に入力された発話データは音声合
成データに変換され、犬のぬいぐるみの本体内に埋め込
まれているスピーカ8によって出力される。また、駆動
制御部7に入力された識別データはあらかじめ対応して
決められた駆動条件にしたがって動作機構10(図1参
照)を駆動させ、ぬいぐるみの口を応答内容を出力して
いる間だけ動かす。
【0077】このように環境の温度変化によって、犬の
ぬいぐるみが、あたかも環境の温度変化を感じて、温度
に応じた応答をしてくれるように見せることができる。
そして同じあいさつの「おはよう」を認識した場合にお
いても、温度が変化することにより、違った応答が返っ
てくることで、生きている本物の動物のような対応がで
きる。また、話者が同じ言葉で問いかけても、違う言葉
が返ってくるので飽きてしまうことがない。
【0078】(第5の実施例)次に図5を参照して、本
発明の第5の実施例の詳細を説明する。なお、図5にお
いては、図1で示されていた犬のぬいぐるみ30、ぬい
ぐるみの口などを動かすための動作機構10などの図示
は省略されている。この第5の実施例は、対話内容に影
響を与える変動データの一つとして気圧を検出し、この
気圧の変化(天気の良し悪し)によって、前記第3の実
施例で示した応答内容作成部33での応答内容を変えよ
うとするものであり、図5においては、気圧センサ35
が設けられており、その他、図3と同一部分には同一符
号が付されている。 前記応答内容作成部33は、音声
認識部5からの認識データを入力し、その認識データお
よび気圧センサ35の温度データに基づいて、ぬいぐる
みの応答内容を決定するものである。応答内容を変えよ
うとするものであり、これらの具体的な処理内容につい
ては後述する。
【0079】図5において、マイクロフォン1から入力
された音声は、音声分析部2で分析され入力された音声
の特徴量に応じた音声パターンが作成される。この音声
パターンは、音声認識部5に予め設けられたニューラル
ネットワークの入力部に入力され音声認識される。
【0080】たとえば今、不特定の話者によって発せら
れた「おはよう」という言葉がマイクロフォン1に入力
されたとすると、その話者の「おはよう」という言葉の
特徴が音声分析部2によって分析され音声パターンデー
タとして音声認識部5に入力される。
【0081】このようにして音声認識部5のニューラル
ネットワークに入力された「おはよう」の前記音声パタ
ーンデータはニューラルネットワークの出力部から2値
データではなく、ある値を持った識別データとして出力
される。そして、この「おはよう」という言葉に対する
認識データが、他の言葉の認識データに対して優位な値
を持っていれば、音声認識部5においては、話者の発す
る「おはよう」を正しく「おはよう」と認識する。
【0082】このようにして認識された「おはよう」と
いう言葉の認識データは、応答内容作成部33に入力さ
れる。そして、この応答内容作成部33では、入力され
た認識データおよび気圧センサ35からの気圧データを
基に、入力された認識データに対する応答内容を決定す
る。
【0083】これにより、音声認識部5から出力された
認識データに対応する応答内容を、そのときの気圧に対
応させた発話データを作成することができる。たとえ
ば、話者の「おはよう」の問いかけに対して、音声認識
部5によって「おはよう」が正しく認識されたとする
と、その「おはよう」の認識データに対して、そのとき
の気圧が低い方に変化した場合には、応答内容作成部3
3は、「おはよう、今日は天気が悪くなるね」という応
答データを作成する。これに対して、気圧が高い方に変
化した場合には、「おはよう」という認識データに対し
て「おはよう、今日は天気が良くなるね」という応答デ
ータを作成する。この応答内容作成部33によって作成
された応答データは、音声合成部6と駆動制御部7に入
力される。音声合成部6に入力された発話データは音声
合成データに変換され、犬のぬいぐるみの本体内に埋め
込まれているスピーカ8によって出力される。また、駆
動制御部7に入力された識別データはあらかじめ対応し
て決められた駆動条件にしたがって動作機構10(図1
参照)を駆動させ、ぬいぐるみの口を発話内容を出力し
ている間だけ動かす。
【0084】このように環境の気圧変化によって、犬の
ぬいぐるみが、あたかも環境の天気の変化を感じて、天
気の良し悪しに応じた応答をしてくれるように見せるこ
とができる。そして同じあいさつの「おはよう」を認識
した場合においても、気圧が変化することにより、違っ
た応答が返ってくることで、生きている本物の動物のよ
うな対応ができる。また、話者が同じ言葉で問いかけて
も、違う言葉が返ってくるので飽きてしまうことがな
い。
【0085】(第6の実施例)次に図6を参照して、本
発明の第6の実施例を説明する。なお、図6において
は、図1で示されていた犬のぬいぐるみ30、ぬいぐる
みの口などを動かすための動作機構10などの図示は省
略されている。この第6の実施例は、対話内容に影響を
与える変動データの一つとして暦データを検出し、この
暦データ(カレンダデータ)の変化(月日の変化)によ
って応答内容を変えようとするものであり、図6の構成
が、図4または図5と異なるのは、温度センサ34また
は気圧センサ35の代わりとしてカレンダ部36を設け
た点にあり、図4または図5と同一部分には同一符号が
付されている。なお、前記カレンダ部36は図示しない
が時計部からの時刻データを参照することにより、カレ
ンダデータを更新するようになっている。また、この第
6の実施例における応答内容作成部33は、音声認識部
5からの認識データを入力し、その認識データおよびカ
レンダ部36からのカレンダデータに基づいて、ぬいぐ
るみの応答内容を決定するものである。これらの具体的
な処理内容については後述する。
【0086】図6において、マイクロフォン1から入力
された音声は、音声分析部2で分析され入力された音声
の特徴量に応じた音声パターンが作成される。この音声
パターンは、音声認識部5に予め設けられたニューラル
ネットワークの入力部に入力され音声認識される。
【0087】たとえば今、不特定の話者によって発せら
れた「おはよう」という言葉がマイクロフォン1に入力
されたとすると、その話者の「おはよう」という言葉の
特徴が音声分析部2によって分析され音声パターンデー
タとして音声認識部5に入力される。
【0088】このようにして音声認識部5のニューラル
ネットワークに入力された「おはよう」の前記音声パタ
ーンデータはニューラルネットワークの出力部から2値
データではなく、ある値を持った識別データとして出力
される。そして、この「おはよう」という言葉に対する
認識データが、他の言葉の認識データに対して優位な値
を持っていれば、音声認識部5においては、話者の発す
る「おはよう」を正しく「おはよう」と認識する。
【0089】このようにして認識された「おはよう」と
いう言葉の認識データは、応答内容作成部33に入力さ
れる。そして、この応答内容作成部33では、入力され
た認識データおよびカレンダ部36からのカレンダデー
タ(日付情報:もちろん年のデータを含んでも良い)を
基に、入力された認識データに対する応答内容を決定す
る。
【0090】これにより、音声認識部5から出力された
認識データに対応する応答内容を、そのときの日付けに
対応させた応答データを作成することができる。たとえ
ば、話者の「おはよう」の問いかけに対して、音声認識
部5によって「おはよう」が正しく認識されたとする
と、その「おはよう」の認識データに対して、カレンダ
データが4月1日であったとすれば、応答内容作成部3
3は、たとえば、「おはよう、お花見に連れって行っ
て」という応答データを作成する。また、カレンダーデ
ータが12月23日の場合には、同じ「おはよう」とい
う認識データに対して「おはよう、もうすぐクリスマス
だね」というような応答データを作成する。もちろん、
年のデータが有れば、前の年と違う応答をさせることも
可能である。
【0091】この応答内容作成部33によって作成され
た応答データは、音声合成部6と駆動制御部7に入力さ
れる。音声合成部6に入力された発話データは音声合成
データに変換され、犬のぬいぐるみの本体内に埋め込ま
れているスピーカ8によって出力される。また、駆動制
御部7に入力された識別データはあらかじめ対応して決
められた駆動条件にしたがって動作機構10(図1参
照)を駆動させ、ぬいぐるみの口を発話内容を出力して
いる間だけ動かす。
【0092】このように月日の変化によって、犬のぬい
ぐるみが、あたかも月日の変化を感じて、それに対応し
た応答をしてくれるように見せることができる。そして
同じあいさつの「おはよう」を認識した場合において
も、月日がすぎることによって違う応答が返ってくるこ
とで、生きている本物の動物のような対応ができる。そ
して、同じ言葉を認識させても違う言葉が返ってくるの
で、飽きてしまうことがない。
【0093】以上幾つかの実施例により本発明を説明し
たが、本発明は以上の実施例で説明した玩具のみなら
ず、携帯型の電子手帳、対話型のゲーム機、その他、日
常用いられる電子機器などに広く適用することができ
る。また、第3の実施例以降においては、音声認識部5
は、第1の実施例あるいは第2の実施例にて説明したよ
うな手段により、話者の話す内容と時刻などの変動デー
タとの妥当性を考慮した重みづけ係数により最終的な認
識データを得るようにしてもよく、あるいは、それ以外
の方法により最終認識データを得るようにしてもよい。
たとえば、第1の実施例あるいは第2の実施例により最
終識別データを得るようにして、この最終認識データに
対する応答内容を第3〜第6の実施例で説明したように
処理すれば、話者の話す言葉は高い認識率で認識され、
さらに、話者の問いかけに対する返答を、より一層、状
況に合致したものとすることができる。さらに、第3〜
第6の実施例で説明した応答内容処理を、全て、あるい
は必要に応じて幾つか組み合わせて用いることにより、
より一層、状況に応じた発話が可能となる。たとえば、
第2の実施例に第3の実施例を組み合わせ、さらに、第
4の実施例以降で説明した温度センサ、気圧センサ、カ
レンダ部などを設ければ、話者の話す内容と時刻との妥
当性を考慮した正確な音声認識が行え、時間の経過など
によるぬいぐるみの応答内容のレベル変化を楽しむこと
ができ、また、温度や天候、日付などの情報を交えた対
話も可能となるなど、極めて高度な音声認識対話装置を
実現できる。
【0094】
【発明の効果】以上述べたように本発明の音声認識対話
装置は、請求項1によれば、変動データの変化に伴って
変化する重みづけ係数を各認識対象音声の内容に対応さ
せて発生し、この重みづけ係数を考慮した認識データを
音声認識手段から出力するようにしたので、認識対象音
声のなかに、入力音声の音声データパターンに類似した
音声データパターンが有る場合においても、前記重みづ
け係数により、入力音声に対する認識データを他の登録
認識データに比べて優位性を持たせることができ、たと
えば、挨拶言葉のように時刻、天気、温度、日付などに
関連性の有る言葉に対しては、そのときの状況や環境を
考慮した認識がなされるため、認識率を大幅に向上させ
ることができる。
【0095】また、請求項2によれば、変動データとし
て時刻データを用いた場合において、時刻データの変化
に伴って変化する重みづけ係数を各認識対象音声の内容
に対応させて発生し、この重みづけ係数を考慮した認識
データを音声認識手段から出力するようにしたので、日
常非常に多く用いられる「おはよう」、「おやすみ」と
いった時刻に関係する挨拶言葉に対する認識率を大幅に
向上させることができる。
【0096】また、請求項3によれば、変動データとし
て時刻データを用いた場合において、或る入力音声が前
記音声認識手段によって正しく認識された時刻をその都
度、前記計時手段から得て、正しく認識された時刻デー
タをもとに、当該音声に対する認識データの重みづけ係
数を時刻によって変化させ、この重みづけ係数を考慮し
た認識データを算出して、これにより入力音声の認識を
行うようにしたので、前記請求項2と同様、日常非常に
多く用いられる「おはよう」、「おやすみ」といった時
刻に関係する挨拶言葉に対する認識率を大幅に向上させ
ることができ、さらに、この請求項3においては、或る
言葉が正しく認識された時刻を常に検出し、過去におけ
る当該言葉の認識時刻を基にして、重みづけ係数を決定
するようにしたので、実際の使用状況に対応した重みづ
け係数を設定することが可能となる。
【0097】また、請求項4によれば、時刻データおよ
び前記音声認識手段によって正しく認識された認識回数
データの少なくとも1つを入力し、入力したデータに基
づいて、入力音声に対する応答内容を変化させるための
応答内容レベルを発生し、この応答レベルに応じた応答
内容を出力するようにしたので、話者の問いかけに対し
て、応答内容レベルを段階的に変化させることが可能と
なる。たとえば、本発明をぬいぐるみのような玩具に用
いた場合には、応答内容のレベルがアップすることよっ
て、あたかもぬいぐるみが成長して、その成長の度合い
によって、応答内容が変化して行くように見せることが
できる。そして、たとえば、同じあいさつの「おはよ
う」を認識した場合においても、時間が経過によって、
違った応答が返ってくることにより、生きている本物の
動物のような対応ができる。さらに、話者が同じ言葉で
問いかけても、違う言葉が返ってくるので飽きてしまう
ことがないなど優れた効果を得ることができる。さら
に、応答内容レベル値が低い時に、話者自身が認識可能
なしゃべり方を学習することによって、応答内容レベル
値が高くなった場合において、話者の話す言葉の認識率
が必然的に向上することから、円滑な対話が可能となる
効果が得られる。
【0098】また、請求項5によれば、応答内容に影響
を及ぼす変動データを検出する変動データを検出し、こ
の変動データを考慮した内容の応答内容を出力するよう
にしたので、色々な状況変化に対応した高度な対話が可
能となる。
【0099】また、請求項6によれば、前記変動データ
として使用環境の温度を測定しその温度データを考慮し
た応答内容を出力することにより、気温に関した応答が
行え、高度な対話が可能となる。
【0100】また、請求項7によれば、前記変動データ
として使用環境の気圧を測定しその気圧データを考慮し
た応答内容を出力することにより、天気の良し悪しに関
した応答が可能となり、高度な対話が可能となる。
【0101】また、請求項8によれば、前記変動データ
として暦を検出してその暦データを考慮した応答内容を
出力することにより、暦に関した応答が可能となり、高
度な対話が可能となる。
【図面の簡単な説明】
【図1】本発明の第1の実施例の犬のぬいぐるみの全体
構成を示すブロック図である。
【図2】本発明の第2の実施例の全体構成を示すブロッ
ク図である。
【図3】本発明の第3の実施例の全体構成を示すブロッ
ク図である。
【図4】本発明の第4の実施例の全体構成を示すブロッ
ク図である。
【図5】本発明の第5の実施例の全体構成を示すブロッ
ク図である。
【図6】本発明の第6の実施例の全体構成を示すブロッ
ク図である。
【符号の説明】 1・・・マイクロフォン 2・・・音声分析部 3・・・時計部 4・・・係数設定部 5・・・音声認識部 6・・・音声合成部 7・・・駆動制御部 8・・・スピーカ 9・・・電源部 10・・・動作機構 11・・・モータ 12・・・カム 13・・・リブ 14・・・軸 15・・・クランク 16・・・犬の下顎 21・・・係数記憶部 31・・・応答内容レベル発生部 32・・・応答内容レベル記憶部 33・・・応答内容作成部 34・・・温度センサ 35・・・気圧センサ 36・・・カレンダ部
フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 15/24 G10L 3/00 571G 15/28 571H (58)調査した分野(Int.Cl.7,DB名) G10L 15/24 G10L 15/28

Claims (16)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力された音声を分析して登録されてい
    る音声データパターンとの比較を行って音声認識し、認
    識した音声に対応して応答する音声認識対話装置におい
    て、 入力された音声を分析して音声データパターンを作成す
    る音声分析手段と、 対話内容に影響を及ぼす変動データを検出する変動デー
    タ検出部と、 この変動データ検出部からの変動データを入力し、予め
    登録されている各認識対象音声の内容ごとに、前記変動
    データに対応させた重みづけ係数を発生する係数設定手
    段と、 前記音声分析手段により出力される入力音声の音声デー
    タパターンを入力するとともに、登録されている複数の
    認識対象音声に対するその時点におけるそれぞれの重み
    づけ係数を前記係数設定手段から得て、それぞれの認識
    対象音声に対する認識データにそれぞれ対応する重みづ
    け係数を考慮した最終認識データを算出して、これら算
    出された最終認識データから前記入力音声の認識を行
    い、認識された音声の最終認識データを出力する音声認
    識手段と、 この音声認識手段からの前記係数を考慮した最終認識デ
    ータを基に、それに対応した音声合成データを出力する
    音声合成手段と、 この音声合成手段からの出力を外部に発する音声出力手
    段と、 を有したことを特徴とする音声認識対話装置。
  2. 【請求項2】 前記変動データ検出手段は、時刻データ
    を検出する計時手段であって、前記係数設定手段は、予
    め登録されている各認識対象音声の内容ごとに、時刻に
    対応させた重みづけ係数を発生することを特徴とする請
    求項1記載の音声認識対話装置。
  3. 【請求項3】 前記係数設定手段は、或る入力音声が前
    記音声認識手段によって正しく認識された時刻をその都
    度、前記計時手段から得て、正しく認識された時刻デー
    タをもとに、過去において正しく認識された幾つかの時
    刻のうち最も多い時刻のときに、その認識データに対す
    る重みづけ係数を最も大きな値とし、その時刻から遠ざ
    かるに従って前記重みづけ係数を小さな値とすることを
    特徴とする請求項2記載の音声認識対話装置。
  4. 【請求項4】 入力された音声を分析して登録されてい
    る音声データパターンとの比較を行って音声認識し、認
    識した音声に対応して応答する音声認識対話装置におい
    て、 入力された音声を分析して音声データパターンを作成す
    る音声分析手段と、 この音声分析手段により出力される音声データパターン
    に基づいて、前記入力音声に対する認識データを出力す
    る音声認識手段と、 時刻データを発生する計時手段と、 この計時手段からの時刻データおよび前記音声認識手段
    によって正しく認識された認識回数データの少なくとも
    1つを入力し、入力したデータに基づいて、入力音声に
    対する応答内容を変化させるための応答内容レベルを発
    生する応答内容レベル発生手段と、 前記応答内容レベル発生手段により得られた応答レベル
    を記憶する応答内容レベル記憶手段と、 前記音声認識部からの認識データに基づいて、前記応答
    内容レベル発生手段からの応答レベルに応じた応答内容
    を決定し、それに対応した応答内容データを出力する応
    答内容作成手段と、 この応答内容作成手段からの応答内容データを基に、そ
    の応答内容データに対応した音声合成データを出力する
    音声合成手段と、 この音声合成手段からの出力を外部に発する音声出力手
    段と、 を有したことを特徴とする音声認識対話装置。
  5. 【請求項5】 入力された音声を分析して登録されてい
    る音声データパターンとの比較を行って音声認識し、認
    識した音声に対応して応答する音声認識対話装置におい
    て、 入力された音声を分析して音声データパターンを作成す
    る音声分析手段と、 この音声分析手段により出力される音声データパターン
    に基づいて、前記入力音声に対する認識データを出力す
    る音声認識手段と、 対話内容に影響を及ぼす変動データを検出する変動デー
    タ検出手段と、 この変動データ検出手段からの変動データおよび前記音
    声認識手段からの認識データを入力し、その認識データ
    を基にして、前記変動データを考慮した内容の応答内容
    データを出力する応答内容作成手段と、 この応答内容作成手段からの応答内容データを基に、そ
    の応答内容データに対応した音声合成データを出力する
    音声合成手段と、 この音声合成手段からの出力を外部に発する音声出力手
    段と、 を有したことを特徴とする音声認識対話装置。
  6. 【請求項6】 前記変動データ検出手段は、使用環境の
    温度を測定しその温度データを出力する温度センサであ
    って、前記応答内容作成手段はこの温度データを考慮し
    た応答内容データを出力することを特徴とする請求項5
    記載の音声認識対話装置。
  7. 【請求項7】 前記変動データ検出手段は、使用環境の
    気圧を測定しその気圧データを出力する気圧温度センサ
    であって、前記応答内容作成手段はこの気圧データを考
    慮した応答内容データを出力することを特徴とする請求
    項5記載の音声認識対話装置。
  8. 【請求項8】 前記変動データ検出手段は、暦データを
    検出してその暦データを出力する暦データ検出手段であ
    って、前記応答内容作成手段はこの暦データを考慮した
    応答内容データを出力することを特徴とする請求項5記
    載の音声認識対話装置。
  9. 【請求項9】 入力された音声を分析して登録されてい
    る音声データパターンとの比較を行って音声認識し、認
    識した音声に対応して応答する音声認識対話処理方法に
    おいて、 入力された音声を分析して音声データパターンを作成す
    る音声分析工程と、 対話内容に影響を及ぼす変動データを検出する変動デー
    タ検出工程と、 この変動データ検出部からの変動データを入力し、予め
    登録されている各認識対象音声の内容ごとに、前記変動
    データに対応させた重みづけ係数を発生する係数設定工
    程と、 前記音声分析工程により出力される入力音声の音声デー
    タパターンを入力するとともに、登録されている複数の
    認識対象音声に対するその時点におけるそれぞれの重み
    づけ係数を前記係数設定工程から得て、それぞれの認識
    対象音声に対する認識データにそれぞれ対応する重みづ
    け係数を考慮した最終認識データを算出して、これら算
    出された最終認識データから前記入力音声の認識を行
    い、認識された音声の最終認識データを出力する音声認
    識工程と、 この音声認識工程からの前記係数を考慮した最終認識デ
    ータを基に、それに対応した音声合成データを出力する
    音声合成工程と、 この音声合成工程からの出力を外部に発する音声出力工
    程と、 を有したことを特徴とする音声認識対話処理方法。
  10. 【請求項10】 前記変動データ検出工程は、時刻デー
    タを検出する計時手段であって、前記係数設定工程は、
    予め登録されている各認識対象音声の内容ごとに、時刻
    に対応させた重みづけ係数を発生することを特徴とする
    請求項9記載の音声認識対話処理方法。
  11. 【請求項11】 前記係数設定工程は、或る入力音声が
    前記音声認識工程によって正しく認識された時刻をその
    都度、前記計時手段から得て、正しく認識された時刻デ
    ータをもとに、過去において正しく認識された幾つかの
    時刻のうち最も多い時刻のときに、その認識データに対
    する重みづけ係数を最も大きな値とし、その時刻から遠
    ざかるに従って前記重みづけ係数を小さな値とすること
    を特徴とする請求項10記載の音声認識対話処理方法。
  12. 【請求項12】 入力された音声を分析して登録されて
    いる音声データパターンとの比較を行って音声認識し、
    認識した音声に対応して応答する音声認識対話処理方法
    において、 入力された音声を分析して音声データパターンを作成す
    る音声分析工程と、 この音声分析工程により出力される音声データパターン
    に基づいて、前記入力音声に対する認識データを出力す
    る音声認識工程と、 時刻データを発生する計時手段と、 この計時手段からの時刻データおよび前記音声認識工程
    によって正しく認識された認識回数データの少なくとも
    1つを入力し、入力したデータに基づいて、入力音声に
    対する応答内容を変化させるための応答内容レベルを発
    生する応答内容レベル発生工程と、 前記応答内容レベル発生工程により得られた応答レベル
    を記憶する応答内容レベル記憶工程と、 前記音声認識部からの認識データに基づいて、前記応答
    内容レベル発生工程からの応答レベルに応じた応答内容
    を決定し、それに対応した応答内容データを出力する応
    答内容作成工程と、 この応答内容作成工程からの応答内容データを基に、そ
    の応答内容データに対応した音声合成データを出力する
    音声合成工程と、 この音声合成工程からの出力を外部に発する音声出力工
    程と、 を有したことを特徴とする音声認識対話処理方法。
  13. 【請求項13】 入力された音声を分析して登録されて
    いる音声データパターンとの比較を行って音声認識し、
    認識した音声に対応して応答する音声認識対話処理方法
    において、 入力された音声を分析して音声データパターンを作成す
    る音声分析工程と、 この音声分析手段により出力される音声データパターン
    に基づいて、前記入力音声に対する認識データを出力す
    る音声認識工程と、 対話内容に影響を及ぼす変動データを検出する変動デー
    タ検出工程と、 この変動データ検出工程からの変動データおよび前記音
    声認識工程からの認識データを入力し、その認識データ
    を基にして、前記変動データを考慮した内容の応答内容
    データを出力する応答内容作成工程と、 この応答内容作成工程からの応答内容データを基に、そ
    の応答内容データに対応した音声合成データを出力する
    音声合成工程と、 この音声合成手段からの出力を外部に発する音声出力工
    程と、 を有したことを特徴とする音声認識対話処理方法。
  14. 【請求項14】 前記変動データ検出工程は、使用環境
    の温度を測定しその温度データを出力する温度センサで
    あって、前記応答内容作成工程はこの温度データを考慮
    した応答内容データを出力することを特徴とする請求項
    13記載の音声認識対話処理方法。
  15. 【請求項15】 前記変動データ検出工程は、使用環境
    の気圧を測定しその気圧データを出力する気圧温度セン
    サであって、前記応答内容作成工程はこの気圧データを
    考慮した応答内容データを出力することを特徴とする請
    求項13記載の音声認識対話処理方法。
  16. 【請求項16】 前記変動データ検出工程は、暦データ
    を検出してその暦データを出力する暦データ検出手段で
    あって、前記応答内容作成工程はこの暦データを考慮し
    た応答内容データを出力することを特徴とする請求項1
    3記載の音声認識対話処理方法。
JP32935295A 1995-03-01 1995-12-18 音声認識対話装置および音声認識対話処理方法 Expired - Lifetime JP3254994B2 (ja)

Priority Applications (9)

Application Number Priority Date Filing Date Title
JP32935295A JP3254994B2 (ja) 1995-03-01 1995-12-18 音声認識対話装置および音声認識対話処理方法
TW084113714A TW340938B (en) 1995-03-01 1995-12-21 Dialog device with voice identification capabilty
KR1019960004559A KR100282022B1 (ko) 1995-03-01 1996-02-22 음성 인식 대화 장치
EP96301394A EP0730261B1 (en) 1995-03-01 1996-02-29 An interactive speech recognition device
US08/609,336 US5802488A (en) 1995-03-01 1996-02-29 Interactive speech recognition with varying responses for time of day and environmental conditions
CNB031311911A CN1229773C (zh) 1995-03-01 1996-02-29 语音识别对话装置
CN96104209A CN1132148C (zh) 1995-03-01 1996-02-29 语音识别对话装置
DE69618488T DE69618488T2 (de) 1995-03-01 1996-02-29 Interaktive Spracherkennungsvorrichtung
HK98115936A HK1014604A1 (en) 1995-03-01 1998-12-28 An interactive speech recognition device

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP7-42005 1995-03-01
JP4200595 1995-03-01
JP32935295A JP3254994B2 (ja) 1995-03-01 1995-12-18 音声認識対話装置および音声認識対話処理方法

Publications (2)

Publication Number Publication Date
JPH08297498A JPH08297498A (ja) 1996-11-12
JP3254994B2 true JP3254994B2 (ja) 2002-02-12

Family

ID=26381654

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32935295A Expired - Lifetime JP3254994B2 (ja) 1995-03-01 1995-12-18 音声認識対話装置および音声認識対話処理方法

Country Status (8)

Country Link
US (1) US5802488A (ja)
EP (1) EP0730261B1 (ja)
JP (1) JP3254994B2 (ja)
KR (1) KR100282022B1 (ja)
CN (2) CN1229773C (ja)
DE (1) DE69618488T2 (ja)
HK (1) HK1014604A1 (ja)
TW (1) TW340938B (ja)

Families Citing this family (95)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5691897A (en) * 1995-05-30 1997-11-25 Roy-G-Biv Corporation Motion control systems
AU6646096A (en) 1995-08-03 1997-03-05 Interval Research Corporation Computerized interactor systems and methods for providing same
DE19635754A1 (de) 1996-09-03 1998-03-05 Siemens Ag Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung
US20010032278A1 (en) * 1997-10-07 2001-10-18 Brown Stephen J. Remote generation and distribution of command programs for programmable devices
US6282206B1 (en) * 1997-10-09 2001-08-28 Interval Research Corporation Variable bandwidth communication systems and methods
US6956497B1 (en) * 1997-10-09 2005-10-18 Vulcan Patents Llc Method and apparatus for sending presence messages
US6604980B1 (en) * 1998-12-04 2003-08-12 Realityworks, Inc. Infant simulator
JP4250340B2 (ja) * 1999-03-05 2009-04-08 株式会社バンダイナムコゲームス 仮想ペット装置及びその制御プログラム記録媒体
US8321411B2 (en) 1999-03-23 2012-11-27 Microstrategy, Incorporated System and method for management of an automatic OLAP report broadcast system
US6584439B1 (en) 1999-05-21 2003-06-24 Winbond Electronics Corporation Method and apparatus for controlling voice controlled devices
US7283964B1 (en) 1999-05-21 2007-10-16 Winbond Electronics Corporation Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition
US20030093281A1 (en) * 1999-05-21 2003-05-15 Michael Geilhufe Method and apparatus for machine to machine communication using speech
EP1063636A3 (en) * 1999-05-21 2001-11-14 Winbond Electronics Corporation Method and apparatus for standard voice user interface and voice controlled devices
US20020193989A1 (en) * 1999-05-21 2002-12-19 Michael Geilhufe Method and apparatus for identifying voice controlled devices
US9208213B2 (en) 1999-05-28 2015-12-08 Microstrategy, Incorporated System and method for network user interface OLAP report formatting
US8607138B2 (en) 1999-05-28 2013-12-10 Microstrategy, Incorporated System and method for OLAP report generation with spreadsheet report within the network user interface
JP3212578B2 (ja) * 1999-06-30 2001-09-25 インタロボット株式会社 身体的音声反応玩具
US6606596B1 (en) 1999-09-13 2003-08-12 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, including deployment through digital sound files
US8130918B1 (en) 1999-09-13 2012-03-06 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, with closed loop transaction processing
US6850603B1 (en) 1999-09-13 2005-02-01 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized dynamic and interactive voice services
US6829334B1 (en) 1999-09-13 2004-12-07 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, with telephone-based service utilization and control
US6964012B1 (en) 1999-09-13 2005-11-08 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, including deployment through personalized broadcasts
US6885734B1 (en) 1999-09-13 2005-04-26 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive inbound and outbound voice services, with real-time interactive voice database queries
US6940953B1 (en) 1999-09-13 2005-09-06 Microstrategy, Inc. System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services including module for generating and formatting voice services
US6836537B1 (en) 1999-09-13 2004-12-28 Microstrategy Incorporated System and method for real-time, personalized, dynamic, interactive voice services for information related to existing travel schedule
US6631351B1 (en) 1999-09-14 2003-10-07 Aidentity Matrix Smart toys
US6594630B1 (en) 1999-11-19 2003-07-15 Voice Signal Technologies, Inc. Voice-activated control for electrical device
US6947893B1 (en) * 1999-11-19 2005-09-20 Nippon Telegraph & Telephone Corporation Acoustic signal transmission with insertion signal for machine control
JP2001154681A (ja) * 1999-11-30 2001-06-08 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
JP2001154685A (ja) * 1999-11-30 2001-06-08 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
JP4465768B2 (ja) 1999-12-28 2010-05-19 ソニー株式会社 音声合成装置および方法、並びに記録媒体
JP4032273B2 (ja) * 1999-12-28 2008-01-16 ソニー株式会社 同期制御装置および方法、並びに記録媒体
JP4332276B2 (ja) 2000-02-28 2009-09-16 株式会社センテクリエイションズ 表情変化装置
JP2001277166A (ja) * 2000-03-31 2001-10-09 Sony Corp ロボット及びロボットの行動決定方法
US6585556B2 (en) * 2000-05-13 2003-07-01 Alexander V Smirnov Talking toy
JP2001340659A (ja) * 2000-06-05 2001-12-11 Interrobot Inc 疑似人格の多様なコミュニケーション動作生成方法
JP2002018146A (ja) * 2000-07-04 2002-01-22 Tomy Co Ltd 対話型玩具、反応行動パターン生成装置および反応行動パターン生成方法
JP2002028378A (ja) * 2000-07-13 2002-01-29 Tomy Co Ltd 対話型玩具および反応行動パターン生成方法
JP2002049385A (ja) * 2000-08-07 2002-02-15 Yamaha Motor Co Ltd 音声合成装置、疑似感情表現装置及び音声合成方法
US6711467B2 (en) 2000-10-05 2004-03-23 Sony Corporation Robot apparatus and its control method
JP4296714B2 (ja) 2000-10-11 2009-07-15 ソニー株式会社 ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム
AUPR141200A0 (en) * 2000-11-13 2000-12-07 Symons, Ian Robert Directional microphone
US7904194B2 (en) * 2001-02-09 2011-03-08 Roy-G-Biv Corporation Event management systems and methods for motion control systems
ITTO20010179A1 (it) * 2001-02-28 2002-08-28 Cselt Centro Studi Lab Telecom Sistema e metodo per l'accesso a strutture multimediali.
JP2002268699A (ja) * 2001-03-09 2002-09-20 Sony Corp 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体
JP4687936B2 (ja) * 2001-03-22 2011-05-25 ソニー株式会社 音声出力装置および音声出力方法、並びにプログラムおよび記録媒体
KR100434065B1 (ko) * 2001-12-18 2004-06-04 엘지전자 주식회사 로봇의 음성인식방법
US6705919B2 (en) * 2002-01-08 2004-03-16 Mattel, Inc. Electronic amusement device with long duration timer
KR100434545B1 (ko) * 2002-03-15 2004-06-05 삼성전자주식회사 홈네트워크로 연결된 가전기기들을 제어하는 방법 및 장치
DE60208447T2 (de) * 2002-03-22 2006-07-13 CRF Società Consortile per Azioni, Orbassano Sprachverbindungssystem zwischen menschen und tieren
US7118443B2 (en) * 2002-09-27 2006-10-10 Mattel, Inc. Animated multi-persona toy
AU2003272871A1 (en) * 2002-10-18 2004-05-04 Beijing Kexin Technology Co., Ltd. Portable digital mobile communication apparatus, method for controlling speech and system
ITTO20020933A1 (it) * 2002-10-25 2004-04-26 Fiat Ricerche Sistema di connessione vocale tra uomo e animali.
TW200523005A (en) * 2003-10-17 2005-07-16 Intelligent Toys Ltd Improvements relating to toys and the like
US8380484B2 (en) * 2004-08-10 2013-02-19 International Business Machines Corporation Method and system of dynamically changing a sentence structure of a message
US7818179B2 (en) * 2004-11-12 2010-10-19 International Business Machines Corporation Devices and methods providing automated assistance for verbal communication
US20070128979A1 (en) * 2005-12-07 2007-06-07 J. Shackelford Associates Llc. Interactive Hi-Tech doll
GB0604624D0 (en) * 2006-03-06 2006-04-19 Ellis Anthony M Toy
US7756708B2 (en) 2006-04-03 2010-07-13 Google Inc. Automatic language model update
JP4305672B2 (ja) * 2006-11-21 2009-07-29 ソニー株式会社 個人識別装置、個人識別方法、識別用辞書データの更新方法および識別用辞書データの更新プログラム
US20080147411A1 (en) * 2006-12-19 2008-06-19 International Business Machines Corporation Adaptation of a speech processing system from external input that is not directly related to sounds in an operational acoustic environment
CN101075435B (zh) * 2007-04-19 2011-05-18 深圳先进技术研究院 一种智能聊天系统及其实现方法
CN101377924A (zh) * 2007-08-31 2009-03-04 鹏智科技(深圳)有限公司 可会话的类生物装置及其会话方法
WO2009158653A1 (en) * 2008-06-27 2009-12-30 Intuitive Automata, Inc. Apparatus and method for assisting in achieving desired behavior patterns
JP2009151314A (ja) * 2008-12-25 2009-07-09 Sony Corp 情報処理装置及び情報処理方法
KR101493383B1 (ko) * 2009-01-23 2015-02-13 삼성전자 주식회사 로봇
JP5464078B2 (ja) * 2010-06-30 2014-04-09 株式会社デンソー 音声認識端末
US9336193B2 (en) 2012-08-30 2016-05-10 Arria Data2Text Limited Method and apparatus for updating a previously generated text
US9405448B2 (en) 2012-08-30 2016-08-02 Arria Data2Text Limited Method and apparatus for annotating a graphical output
US8762134B2 (en) 2012-08-30 2014-06-24 Arria Data2Text Limited Method and apparatus for situational analysis text generation
US8762133B2 (en) 2012-08-30 2014-06-24 Arria Data2Text Limited Method and apparatus for alert validation
US9355093B2 (en) 2012-08-30 2016-05-31 Arria Data2Text Limited Method and apparatus for referring expression generation
US9135244B2 (en) 2012-08-30 2015-09-15 Arria Data2Text Limited Method and apparatus for configurable microplanning
US9443515B1 (en) 2012-09-05 2016-09-13 Paul G. Boyce Personality designer system for a detachably attachable remote audio object
US9600471B2 (en) 2012-11-02 2017-03-21 Arria Data2Text Limited Method and apparatus for aggregating with information generalization
JP6166889B2 (ja) * 2012-11-15 2017-07-19 株式会社Nttドコモ 対話支援装置、対話システム、対話支援方法及びプログラム
WO2014076525A1 (en) 2012-11-16 2014-05-22 Data2Text Limited Method and apparatus for expressing time in an output text
WO2014076524A1 (en) 2012-11-16 2014-05-22 Data2Text Limited Method and apparatus for spatial descriptions in an output text
US9990360B2 (en) 2012-12-27 2018-06-05 Arria Data2Text Limited Method and apparatus for motion description
WO2014102568A1 (en) 2012-12-27 2014-07-03 Arria Data2Text Limited Method and apparatus for motion detection
GB2524934A (en) 2013-01-15 2015-10-07 Arria Data2Text Ltd Method and apparatus for document planning
US9946711B2 (en) 2013-08-29 2018-04-17 Arria Data2Text Limited Text generation from correlated alerts
US9396181B1 (en) 2013-09-16 2016-07-19 Arria Data2Text Limited Method, apparatus, and computer program product for user-directed reporting
US9244894B1 (en) 2013-09-16 2016-01-26 Arria Data2Text Limited Method and apparatus for interactive reports
JP2015087649A (ja) * 2013-10-31 2015-05-07 シャープ株式会社 発話制御装置、方法、発話システム、プログラム、及び発話装置
WO2015159133A1 (en) 2014-04-18 2015-10-22 Arria Data2Text Limited Method and apparatus for document planning
US9520142B2 (en) 2014-05-16 2016-12-13 Alphonso Inc. Efficient apparatus and method for audio signature generation using recognition history
US10338794B2 (en) * 2015-05-15 2019-07-02 Spotify Ab Playback of media streams in dependence of a time of a day
US10049666B2 (en) * 2016-01-06 2018-08-14 Google Llc Voice recognition system
US10445432B1 (en) 2016-08-31 2019-10-15 Arria Data2Text Limited Method and apparatus for lightweight multilingual natural language realizer
US10467347B1 (en) 2016-10-31 2019-11-05 Arria Data2Text Limited Method and apparatus for natural language document orchestrator
CN108769090A (zh) * 2018-03-23 2018-11-06 山东英才学院 一种基于儿童玩具的智能控制系统
CN109841216B (zh) * 2018-12-26 2020-12-15 珠海格力电器股份有限公司 语音数据的处理方法、装置和智能终端
KR20190113693A (ko) * 2019-09-18 2019-10-08 엘지전자 주식회사 단어 사용 빈도를 고려하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
CN116352727B (zh) * 2023-06-01 2023-10-24 安徽淘云科技股份有限公司 一种仿生机器人的控制方法及相关设备

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57138696A (en) * 1981-02-20 1982-08-27 Canon Kk Voice input/output apparatus
EP0265438A1 (en) * 1986-05-02 1988-05-04 SIROTA, Vladimir Toy
US5029214A (en) * 1986-08-11 1991-07-02 Hollander James F Electronic speech control apparatus and methods
JPH0673080B2 (ja) * 1987-11-25 1994-09-14 日本電気株式会社 連続音声認識方式
US4923428A (en) * 1988-05-05 1990-05-08 Cal R & D, Inc. Interactive talking toy
US5255342A (en) * 1988-12-20 1993-10-19 Kabushiki Kaisha Toshiba Pattern recognition system and method using neural network
EP0435282B1 (en) * 1989-12-28 1997-04-23 Sharp Kabushiki Kaisha Voice recognition apparatus
JP3014177B2 (ja) * 1991-08-08 2000-02-28 富士通株式会社 話者適応音声認識装置
US5307051A (en) * 1991-09-24 1994-04-26 Sedlmayr Steven R Night light apparatus and method for altering the environment of a room
JP3168779B2 (ja) * 1992-08-06 2001-05-21 セイコーエプソン株式会社 音声認識装置及び方法
JPH06142342A (ja) * 1992-10-14 1994-05-24 Sanyo Electric Co Ltd 音声認識玩具
JP2737624B2 (ja) * 1993-12-27 1998-04-08 日本電気株式会社 音声認識装置
US5596679A (en) * 1994-10-26 1997-01-21 Motorola, Inc. Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
US5638486A (en) * 1994-10-26 1997-06-10 Motorola, Inc. Method and system for continuous speech recognition using voting techniques

Also Published As

Publication number Publication date
EP0730261B1 (en) 2002-01-16
CN1142647A (zh) 1997-02-12
CN1132148C (zh) 2003-12-24
EP0730261A3 (en) 1997-08-06
DE69618488D1 (de) 2002-02-21
JPH08297498A (ja) 1996-11-12
HK1014604A1 (en) 1999-09-30
US5802488A (en) 1998-09-01
EP0730261A2 (en) 1996-09-04
CN1516112A (zh) 2004-07-28
TW340938B (en) 1998-09-21
CN1229773C (zh) 2005-11-30
KR960035426A (ko) 1996-10-24
DE69618488T2 (de) 2002-08-01
KR100282022B1 (ko) 2001-02-15

Similar Documents

Publication Publication Date Title
JP3254994B2 (ja) 音声認識対話装置および音声認識対話処理方法
CN111566655B (zh) 多种语言文本语音合成方法
KR102401512B1 (ko) 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
US5946658A (en) Cartridge-based, interactive speech recognition method with a response creation capability
US7228275B1 (en) Speech recognition system having multiple speech recognizers
US5794204A (en) Interactive speech recognition combining speaker-independent and speaker-specific word recognition, and having a response-creation capability
US9484030B1 (en) Audio triggered commands
US4802223A (en) Low data rate speech encoding employing syllable pitch patterns
US6085160A (en) Language independent speech recognition
US4797930A (en) constructed syllable pitch patterns from phonological linguistic unit string data
US4799261A (en) Low data rate speech encoding employing syllable duration patterns
JP3434838B2 (ja) ワードスポッティング法
US4696042A (en) Syllable boundary recognition from phonological linguistic unit string data
CN108847215B (zh) 基于用户音色进行语音合成的方法及装置
US4695962A (en) Speaking apparatus having differing speech modes for word and phrase synthesis
JP2003255991A (ja) 対話制御システム、対話制御方法及びロボット装置
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
WO2000040377A1 (fr) Appareil de type machine, procede d'actionnement de celui-ci et support enregistre
JPH05341797A (ja) 文脈依存型音声認識装置および方法
JPH08187368A (ja) ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
CN110853616A (zh) 一种基于神经网络的语音合成方法、系统与存储介质
CN109754784A (zh) 训练滤波模型的方法和语音识别的方法
KR20220165666A (ko) 자연어로 표현된 스타일 태그를 이용한 합성 음성 생성 방법 및 시스템
WO2014167570A1 (en) System and method for extracting and using prosody features
Hatala Practical speech recognition with htk

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071130

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081130

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091130

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091130

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131130

Year of fee payment: 12

EXPY Cancellation because of completion of term