JP2000325669A

JP2000325669A - 音声認識対話型人形おもちゃ及びその制御方法

Info

Publication number: JP2000325669A
Application number: JP11329009A
Authority: JP
Inventors: Sansouru Kim; サンソウルキム; Juuhyon Ryuu; ジュウヒョンリュウ; Won Il Kan; ウォンイルカン; Yonjon Paku; ヨンジョンパク; Unja Kim; ウンジャキム; Sabbon Kwon; サッボンクオン; Chekyon Ee; チェキョンイー; Kyonche Chii; キョンチェチー; Teishiku Pan; テイシクパン; Chuiyon Han; チュイョンハン
Original assignee: KANKOKU EKISHISU KK
Current assignee: KANKOKU EKISHISU KK
Priority date: 1999-05-10
Filing date: 1999-11-19
Publication date: 2000-11-28
Anticipated expiration: 2019-11-19
Also published as: KR19990068379A; KR100332966B1; JP3164346B2

Abstract

(57)【要約】【課題】人形おもちゃ内に音声認識システムを設け
て、使用者（子供）と興味ある対話を可能にする。【解決手段】多数の文章のデジタル音声信号ストリー
ムが所定の圧縮率に圧縮された音声圧縮データを記録し
ている第１メモリ部３３と、外部から入力された子供の
音声信号を認識するための演算エリアが備えられている
第２メモリ部３５と、子供の音声信号を第２メモリ部３
５の認識用演算により認識し、これに相応する対話型応
答を分析して、第１メモリ部３３から応答に該当する音
声圧縮データを伸張及び復元する音声処理制御部３０
と、少なくとも１文章の子供の音声を電気的音声信号に
変換して音声処理制御部３０に出力し、音声処理制御部
３０から、伸張された音声信号を子供に聴覚的に聞かせ
る音声入出力部３７と、から成るものである。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識対話型人
形おもちゃに係り、より詳しくは、人形おもちゃ内に音
声認識システムを設け、使用者と音声表現により面白い
対話を行うことができる音声認識対話型人形おもちゃ及
びその制御方法に関するものである。

【０００２】

【従来の技術】一般に、子供は興味ある遊び又はおもち
ゃにより生活教育を学習する傾向があり、そのおもちゃ
との親密な触れ合は、実社会へ導く模倣学習を実行する
ものである。このような模倣学習は、大部分は人形を通
じて行われるものである。そこで、子供は自分で模倣学
習のシナリオを作り、そのシナリオに従って、その人形
に適切な反応を誘導し、即ち適切な音声表現と動作行為
を双方向対話型に面白く進行することにより、その模倣
学習に没頭することになる。

【０００３】このように、おもちゃによる教育は、昔か
ら子供に密着したものとして引き継がれている。最近で
は、このような教育的な効果を期待し得る発声人形の研
究が活発になり、より進歩的な人形の製作が絶え間なく
試みられている。

【０００４】このような従来の技術による人形おもちゃ
は、そのほとんどがタッチセンサが人形のある位置に設
けられているものである。子供がこのタッチセンサを動
作させると、磁気記録媒体（磁気テープ）又は半導体記
録媒体（ＩＣメモリ）に記録させた簡単な文章の音声表
現、例えば「今日は、私はミッキーです。あなたは誰で
すか。あなたは何をしていますか。」などのような不連
続の短文の音声を発声するようになっている。また、定
型化された２、３通りの動作行為、例えば腕を上げる動
作、頭を動かす動作などのような単純動作を行って、一
時的な好奇心を満足させるに止めている。

【０００５】

【発明が解決しようとする課題】従って、このような従
来の人形おもちゃは、単発的で、簡単な文章を話す人形
であり、タッチセンサの動作によって、シナリオのない
単純な文章が録音された音声を聞かせるため、一時的な
好奇心を誘発することができる。しかし、直ぐに子供は
飽きてしまい、実際にこのような人形おもちゃと遊ぶ期
間が短くなるため、教育的な効果が低いという問題点が
ある。

【０００６】また、従来の人形おもちゃが話す音声文章
は、対話型のシナリオでなく、不連続的な文章の羅列で
あるため現実味に乏しいため、その教育的効果も次第に
低下するという問題点がある。

【０００７】本発明は、かかる問題点を解決するために
創案されたものである。すなわち、本発明の目的は、子
供の音声を認識し、子供の思考方式及び行動様式によっ
て、少なくとも一つのシナリオに従って連続的に対話を
行なえるようにした音声認識対話型人形おもちゃ及びそ
の制御方法を提供することにある。

【０００８】本発明の一番目の目的は、基本的に、話題
に応じた音声出力を可能にし、子供がとり得る行動パタ
ーンをシナリオに作成し記録して、任意に設定された状
況に応じて人形と双方向の対話を可能にすることにあ
る。本発明の二番目の目的は、子供と対話する状況で、
多様なシナリオに導くため、音声圧縮用ソフトウェアで
音声を圧縮した後、これをロム（ＲＯＭ）に記録し、必
要時に速やかに取り出すことは勿論、一つの話題におい
ても、選択可能な状況に応じて直ちに対話を可能にし
て、速やかな音声出力を可能にした装置に構成すること
にある。本発明の三番目の目的は、不特定多数人から入
力される音声を理解するため、話者独立型という音声認
識技法により、前記多数人の音声を学習させて、合理的
な反応が起こるようにすることある。本発明の四番目の
目的は、人形に触るときと撫でるときに備えた雑音研究
により、適切に処理し得るソフトウェアで周辺の雑音と
子供の音声とを識別し得るようにすることにある。本発
明の五番目の目的は、４個の接触スイッチを備え、人形
が特定姿勢となるか、子供が人形の所定部位に接触する
とき、即ち子供と人形との接触があるとき、適切な音声
反応を通じて興味を沸かせることにある。本発明の六番
目の目的は、入力された音声信号をシステムが理解し、
これを適切に解釈して、実時間で適切な反応を行なえる
ようにハードウェアを具現化し、予め記録されたデータ
ベースから、人が反応するような現実的な内容（シナリ
オ）を取り出して出力させ得るようにすることにある。

【０００９】従って、本発明は、このような多様な機能
と性能を充足させ得るように、先端のソフトウェアと先
端の回路製作技術を実現するため、即ち人形に音声デコ
ーダ、音声認識部、システムコントローラ、ダイアログ
マネージャー、その他の興味を誘発させ得る多様な補助
機能を加えて、子供用人形おもちゃとしての外的及び内
的要件を充足させ、言語による教育的効果（言語教育、
遊び教育）を奏し得るよう、話者独立型、人工知能型、
対話型の性能を有するようにした音声認識対話型人形お
もちゃ及びその制御方法を提供することにその目的があ
る。

【００１０】

【課題を解決するための手段】上記目的を達成するため
に、本発明によれば、子供と対話し得る音声認識対話型
人形おもちゃにおいて、多数の文章のデジタル音声信号
ストリームが所定の圧縮率で圧縮された音声圧縮データ
を記録している第１メモリ部と、外部から入力された前
記子供の音声信号を認識するための演算エリアが備えら
れている第２メモリ部と、前記子供の音声信号を前記第
２メモリ部の認識用演算により認識し、これに相応する
対話型応答を分析して、前記第１メモリ部から応答に該
当する音声圧縮データを伸張及び復元する音声処理制御
部と、少なくとも１文章の前記子供の音声を電気的音声
信号に変換して前記音声処理制御部に出力し、前記音声
処理制御部から、伸張された音声信号を前記子供に聴覚
的に聞かせる音声入出力部とを含む音声認識対話型人形
おもちゃが提供される。

【００１１】上記発明の構成では、話題に応じた音声出
力を可能にし、子供が行う可能性のある行動パターンを
シナリオに作成し記録させ、任意に設定された状況に応
じて人形と双方向の対話が可能になる。例えば、子供と
対話する状況で、多様なシナリオに導くため、音声圧縮
用ソフトウェアで音声を圧縮した後、これを第１メモリ
部に記録させ、必要時に速やかに取り出すことは勿論、
一つの話題においても、選択可能な状況に応じて直ちに
質疑応答が可能になる。また、この音声認識対話型人形
おもちゃは、入力された音声信号をシステムが理解し、
これを適切に解釈して、実時間で適切な反応を行なえる
ようにハードウェアを具現化し、予め記録されたデータ
ベースから、人が反応するような現実的な内容（シナリ
オ）を取り出して出力させることができる。

【００１２】前記音声処理制御部と前記音声入出力部と
の間には、アナログ音声信号とデジタル音声信号の一方
を他方に変換するＡ／Ｄ・Ｄ／Ａコンバータが備えられ
ていることが好ましい。

【００１３】前記第２メモリ部と前記音声処理制御部と
の間には、前記第１メモリ部のデータを前記第２メモリ
部に転送するメモリコントローラが備えられていること
が好ましい。

【００１４】ここで、前記音声処理制御部は、前記音声
入出力部から出力されるフレーム単位の使用者のデジタ
ル音声信号を一時的に記録するサーキュラバッファと、
前記サーキュラバッファに記録されたデジタル音声信号
を前記第１メモリ部に記録された圧縮データの音声認識
用定数によって音声認識用単語に区分し、ビタビアルゴ
リズムで前記使用者の音声を認識する音声認識部と、前
記音声認識部で認識された音声の内容が所定のシナリオ
に対応するように一つの応答文章を前記第１メモリ部で
選択するダイアログマネージャと、前記ダイアログマネ
ージャで選択された前記第１メモリ部の音声圧縮データ
を伸張及び復元する音声デコーダと、から成るものであ
る。

【００１５】そして、前記音声認識部と前記第１メモリ
部との間と、前記ダイアログマネージャと前記第１メモ
リ部との間には、前記第１メモリ部から音声圧縮データ
と圧縮データの音声認識用定数を取り出し、第２メモリ
部に前記音声認識用データを転送させるリストコントロ
ーラが備えられていることが好ましい。

【００１６】前記音声認識部は、前記サーキュラバッフ
ァに記録されたフレーム単位のデジタル音声信号から、
前記第１メモリ部の音声認識用定数によって所定の雑音
を除去させ、一つの文字音声に対する固有値を特徴ベク
トルとして算出する音声認識算出部と、前記デジタル音
声信号のサンプリング値から０点を検出するゼロクロシ
ングレートと、前記ゼロクロシングレートでの０点検出
に対する信頼性を向上させるため、前記０点に対するエ
ネルギーを算出するエネルギー算出部と、前記ゼロクロ
シングレートと前記エネルギー算出部の出力信号に基づ
いて、連続的なデジタル音声信号の中のいずれか１単語
の端点データを検出する単位音声検出部と、前記音声認
識算出部の特徴ベクトルデータと前記単位音声検出部の
端点データに基づいて１単語ずつ音声認識用単語に区分
する前処理器と、前記前処理器で区分された単語に該当
する第１メモリ部の音声圧縮データが前記リストコント
ローラにより取り出され、ビタビアルゴリズムで演算す
るようにした領域を提供する第２メモリ部と、から成る
ものである。

【００１７】このような構成により、不特定多数人から
入力される音声を理解するため、話者独立型という音声
認識技法により、前記多数人の音声を学習させて、合理
的な反応が起こるようにすることができる。

【００１８】一方、前記第１メモリ部と前記第２メモリ
部と前記音声処理制御部と前記音声入出力部とを収容す
るため、露出面に人と動物の形状が混合された形状に形
成された人形本体と、前記人形本体の複数領域に埋設さ
れており、前記使用者の接触を前記音声処理制御部に知
らせるための複数の接触スイッチと、から成ることが好
ましい。

【００１９】前記接触スイッチは前記人形本体の背中、
鼻、口及び尻に設けられており、前記音声処理制御部
は、前記使用者が口、鼻、背中及び尻に設置された接触
スイッチと接触すると、それに対応する適切な音声を前
記ダイアログマネージャと前記第１メモリ部から取り出
し、前記音声デコーダで実際の音声に伸張及び復元した
後、前記音声入出力部を通じて前記使用者に聴覚的に聞
かせることが好ましい。

【００２０】そして、前記音声入出力部は、前記使用者
の音声と外部の雑音を電気的信号に変換して前記音声処
理制御部に出力する第１マイクロフォンと、前記外部の
雑音を電気的信号に変換して前記音声処理制御部に出力
する第２マイクロフォンと、前記音声処理制御部で伸張
及び復元された音声信号を電力増幅しスピーカを通じて
前記使用者に聴覚的に聞かせるための電力増幅部と、か
ら成ることが好ましい。

【００２１】ここで、前記音声処理制御部と前記第１及
び第２マイクロフォンとの間で前記第１及び第２マイク
ロフォンの出力信号をデジタルに変換し、前記音声処理
制御部と前記電力増幅部との間で前記音声処理制御部で
伸張及び復元されたデジタル音声信号をアナログに変換
するＡ／Ｄ・Ｄ／Ａコンバータが備えられていることが
好ましい。

【００２２】このように、４個の接触スイッチを備え、
人形が特定姿勢となるか、子供が人形の所定部位を接触
するとき、即ち子供と人形との接触があるとき、適切な
音声反応を通じて興味を沸かせることができる。

【００２３】また、前記Ａ／Ｄ・Ｄ／Ａコンバータと前
記電力増幅部との間には、使用者のボリューム調節のた
めの命令（「音を大きく」及び「音を小さく」）に応じ
て、前記電力増幅部の出力強さを調節するボリューム制
御部が備えられていることが好ましい。

【００２４】前記目的は、本発明の他の面により、使用
者の音声を検出し、検出された使用者の音声内容を認識
し、該音声内容の認識に基づいて所定のシナリオによる
ダイアログを分析し、該ダイアログ分析によって、圧縮
記録された所定の応答音声データをデコーディングし、
該デコーディングされた前記応答音声データを聴覚的に
聞き得るように音声信号処理することを特徴とする音声
認識対話型人形おもちゃの制御方法により達成される。

【００２５】上記発明の制御方法によれば、子供の音声
を認識し、子供の思考方式及び行動様式によって、少な
くとも一つのシナリオに従って連続的に対話を行なえる
ようにすることができる。

【００２６】

【発明の実施の形態】以下、添付図面に基づいて本発明
の音声認識対話型人形おもちゃを詳細に説明する。図１
は本発明の人形おもちゃを示す正面図、図２は本発明の
人形おもちゃを示す側面図、図３は本発明の音声認識対
話型人形おもちゃを示すシステムブロック図、図４は図
３の処理順序による流れ図、図５は本発明のＡＳＩＣ化
された音声認識部のブロック図、図６は本発明の音声認
識対話型人形おもちゃの動作を示すフローチャートであ
る。

【００２７】本発明の人形おもちゃは、図１及び図２に
示すように、縫製人形の形状を有し、表皮が被せられて
おり、頭部の内部と胴体の内部は、回路の保護のため、
堅固な枠（図示せず）を有する構造物からなっている。

【００２８】図示例は、全体として人間に似ている妖精
の形態を有しており、胴体は腹部及び胸部１と、４本の
指を有する両手２，３と、２本の腕部８，９とから構成
されている。下半身は２本の脚４，５と、４本の足指を
有する両足６，７と、尻及び尾１７から成る。顔は口１
０と、両耳１１，１２と、頭髪１６と、両目１４，１５
とから構成されている。

【００２９】図２の側面図に示すように、頭部と胴体を
連結する首１９は屈曲可能な柔軟性材料から製作されて
おり、頭部の回路と胴体との配線を容易にしてある。ま
た、本発明の人形おもちゃは美しい外観を有すると共
に、内部の回路を保護し得る素材で被覆してあり、柔ら
かで現実感を与える子供用人形の形状となるように形成
されている。

【００３０】そして、人形おもちゃには、これに接触し
た時に、人形の反応を誘導する接触スイッチが４箇所に
配置してある。その配置位置は鼻（Ｔ１）、口（Ｔ
２）、背中（Ｔ３）及び尻（Ｔ４）である。これらの接
触スイッチＴ１，Ｔ２，Ｔ３，Ｔ４は、接触を容易に感
知し得るように製作されたものである。これらの接触ス
イッチＴ１，Ｔ２，Ｔ３，Ｔ４は、非常に高い感度を有
するものであり、縫製人形の皮膚内部に設けられ、接触
したときに音声反応を誘導するため、制御部（ＡＳＩ
Ｃ；注文型半導体−マイクロプロセッサ）に直接ハイア
クティブ信号が入力されるようになっている。特に、尻
にある接触スイッチＴ４は、人形が立っているか座って
いるかを感知して、適合した反応を動作させる機能を有
する。

【００３１】例えば、尻の接触スイッチＴ４による反応
は、うつ伏せしている姿勢を取っているときは、「一緒
に休みませんか」、立っている姿勢にあるときは、「遊
びたい」、口の接触スイッチＴ２を触ると、「とてもお
いしい」、この口の接触スイッチＴ２から手を離すと、
「お腹がペコペコだ」、背中の接触スイッチＴ３を触る
と、「誰ですか」、鼻の接触スイッチＴ１を触ると、
「くすぐったい、アーアー」という音声が出力される。

【００３２】本発明の人形おもちゃのシステムは、図３
に示すように、音声処理制御部（ASIC-application spe
cific IC）３０と、第１メモリ部（ＲＯＭ）３３と、第
２メモリ部３５と、音声入出力部３７とを備えている。
第１メモリ部３３は、多数文章のデジタル音声信号スト
リームが所定の圧縮率に圧縮された音声圧縮データを記
録しており、第２メモリ部３５は、外部から入力された
前記子供の音声信号を認識するための演算エリアを提供
し、音声処理制御部３０は、前記第２メモリ部３５の演
算エリアを用いて、前記子供の音声信号に相応する対話
型応答を分析し、前記第１メモリ部３３から、応答に相
当する音声圧縮データを伸張及び復元し、音声入出力部
３７は、少なくとも１文章の前記子供の音声を電気的音
声信号に変換して前記音声処理制御部３０に出力し、前
記音声処理制御部３０から、増幅された音声信号を前記
子供に聴覚的に知らせる。

【００３３】前記音声入出力部３７は、図４に示すよう
に、前記子供の音声と前記人形の表皮から発生する雑音
を電気的信号に変換して前記音声処理制御部３０に出力
する第１マイクロフォン３９と、前記人形の表皮から発
生する雑音を電気的信号に変換して前記音声処理制御部
３０に出力する第２マイクロフォン４１と、前記音声処
理制御部３０から、伸張及び復元された音声信号を電力
増幅しスピーカ４３を通じて前記子供に聴覚的に聞かせ
る電力増幅部４５を備えている。前記音声処理制御部３
０と前記第１及び第２マイクロフォン３９，４１との間
には、前記第１及び第２マイクロフォン３９，４１の出
力信号をデジタルに変換し、前記音声処理制御部３０と
前記電力増幅部４５との間で、前記音声処理制御部３０
から、伸張及び復元されたデジタル音声信号をアナログ
に変換するＡ／Ｄ・Ｄ／Ａコンバータ４７が備えられて
いる。ここで、前記スピーカ４３は、前記第１メモリ部
３３に記録された圧縮音声が所定の過程により処理して
使用者（子供）に聞かせるように構成されている。

【００３４】一方、前記電力増幅部４５の出力強度を調
節して、実際に前記スピーカ４３から発生する音声を大
きくするためのボリューム制御部４９は、前記Ａ／Ｄ・
Ｄ／Ａコンバータ４７と前記電力増幅部４５との間に連
結されている。例えば、前記ボリューム制御部４９は、
子供が所望の音声ボリュームに調節するため、前記第１
マイクロフォン３９を通じてボリューム調節のための命
令（例えば、「音を大きく」及び「音を小さく」）が前
記Ａ／Ｄ・Ｄ／Ａコンバータ４７を介して入力される
と、前記電力増幅部４５を制御して、前記スピーカ４３
から、前記命令に応じたボリュームの音声が発生するよ
うに制御する。結果として、前記電力増幅部４５は、前
記音声処理制御部３０のシステムコントローラ５９のア
ンミュート（unMute）信号とボリューム制御部４９の出
力信号に基づいて、その大きさ及び利得が決定される。

【００３５】また、前記音声入出力部３７の第１及び第
２マイクロフォン３９，４１は雑音除去機能を有するよ
うにするためのもので、例えば、第１マイクロフォン３
９には音声と雑音が混ぜ合わせられた信号が入力され、
第２マイクロフォン４１には、人形が使用者と接触する
か、周辺の雑音から影響を受けるとき、純粋雑音信号が
入力される。この際に、音声処理制御部（ＡＳＩＣ）３
０は、両信号の雑音間相関関係（関数）を用いて雑音を
減らすため、前記第１マイクロフォン３９を通じた音声
及び雑音信号と前記第２マイクロフォン４１を通じた純
粋雑音信号をコリレイション（CORRELATION）して雑音
成分のみを除去させる。このような第１及び第２マイク
ロフォン３９，４１は、実験結果に基づいて、人形の両
耳１１，１２に装着され、特に、前記第１及び第２マイ
クロフォン３９，４１のいずれか一つは小型のステレオ
マイクロフォンであり、そのステレオマイクロフォンと
しては、音声周波数帯域において敏感で指向性の高いも
のが設けられている。

【００３６】また、各接触スイッチＴ１，Ｔ２，Ｔ３，
Ｔ４は、図４に示すように、音声処理制御部３０に直接
連結されている。前記音声処理制御部３０は約百万ゲー
トから構成された集積素子で、前記音声入出力部３７に
入力された子供のデジタル音声信号、つまりＡ／Ｄ・Ｄ
／Ａコンバータ４７で変換されたフレーム単位にデジタ
ル化された音声サンプリング信号を一時的に記録するサ
ーキュラバッファ５１と、前記サーキュラバッファ５１
に記録されたデジタル音声信号を、前記第１メモリ部３
３に記録された圧縮データの音声認識用定数によって、
音声認識用単語に区分し、ビタビアルゴリズムで前記子
供の音声の意味を認識する音声認識部５３と、前記音声
認識部５３で認識された音声の内容が展開される多数の
シナリオのいずれか一つを選択し、その選択されたシナ
リオに対応するように、少なくとも１文章の圧縮音声デ
ータを前記第１メモリ部３３から取り出すダイアログマ
ネージャ５５と、前記ダイアログマネージャ５５から取
り出された前記音声圧縮データを伸張及び復元して前記
音声出力部３７に出力する音声デコーダ５７とを含んで
いる。そして、前記第１メモリ部３３、第２メモリ部３
５、ボリューム制御部４９、Ａ／Ｄ・Ｄ／Ａコンバータ
４７、電力増幅部４５に適切な制御信号を出力するシス
テムコントローラ５９が音声処理制御部３０内の一側に
設けられている。

【００３７】また、前記音声処理制御部３０は、前記子
供が人形の鼻、口、背中、尻に設置された接触スイッチ
Ｔ１，Ｔ２，Ｔ３，Ｔ４に接触すると、それに対応する
適宜の圧縮音声データを前記ダイアログマネージャ５５
及び前記第１メモリ部３３から取り出し前記音声デコー
ダ５７で変換して実際の音声に伸張及び復元した後、前
記音声入出力部３７のスピーカ４３を通じて前記子供に
聴覚的に聞かせるように制御する。

【００３８】前記第１メモリ部３３には、シナリオによ
る数多い文章の音声及び音楽、多数の話データ、音声認
識用定数、音声デコーディングのための復元データが圧
縮記録されている。使用された素子は４Ｍバイト以上の
大容量を有し、１word単位（１６ビット）にデータを記
録して、総２Mwordsを記録することができる。記録され
た内容は次の表１に示す。

【００３９】

【表１】第１メモリ部の内部に記録された情報の内訳

【００４０】前記第２メモリ部３５は、前記音声処理制
御部３０で子供の音声及び応答文章の音声を処理するた
めの処理プログラムを記録して内部的なデータ信号処理
を行う素子で、ブロックリスト（block list）のための
エリアと音声認識の前処理のための使用エリアを有し、
少なくとも１６Ｍバイトのデータ記憶容量を有する。こ
こで、リストコントローラ６０は、前記第２メモリ部３
５のデータを取り出す機能だけでなく、前記第１メモリ
部３３の圧縮音声データも取り出して前記音声処理制御
部３０の音声デコーダ５７に出力するように、前記音声
処理制御部３０内に設けられている。

【００４１】ここで、前記第２メモリ部３５と前記音声
処理制御部３０との間には、相互間のデータ伝送のた
め、メモリコントローラ６３が設けられている。特に、
このメモリコントローラ６３は前記圧縮データを読み取
って前記第２メモリ部３５に出力するように構成されて
いる。

【００４２】一方、電源供給部６５は、３〜２４Ｖの電
圧変動範囲にある任意の電圧を３．３Ｖの一定電圧に維
持し、基本的に直列連結された乾電池３個（４．５Ｖ）
の電圧を使用するが、その他の電源を使用することも可
能である。このほかの動作のために必要な要素として、
第２メモリ部３５クロック用２４．５４６MHzのクロッ
ク発生部６７と、３２．７６８kHzのタイマー６９など
の前記構成要素を動作させるのに必須のものであるの
で、その説明を省略する。

【００４３】前記音声認識部５３は、図５に示すよう
に、前記サーキュラバッファ５１に記録されたフレーム
単位のデジタル音声信号から、前記第１メモリ部３３の
音声認識用定数によって所定の雑音を除去させ、１文字
に対する固有値を特徴ベクトルデータとして算出する音
声認識算出部７１と、前記デジタル音声信号のサンプリ
ング値から０点を検出するゼロクロシングレート７３
と、前記ゼロクロシングレート７３での０点検出に対す
る信頼性を向上させるため、前記０点に対するエネルギ
ーを算出するエネルギー算出部７５と、前記ゼロクロシ
ングレート７３と前記エネルギー算出部７５の出力信号
に基づいて、連続的なデジタル音声信号のうち、どの１
単語の端点データを検出する単位音声検出部７７と、前
記音声認識算出部７１の特徴ベクトルデータと前記単位
音声検出部７７の端点データに基づいて、１単語ずつ音
声認識用単語に区分する前処理器７９と、前記前処理器
７９で区分された単語に該当する第１メモリ部３３の音
声圧縮データを前記リストコントローラ６１により取り
出しビタビアルゴリズムで演算する第２メモリ部３５と
を含んでいる。ここで、前記音声認識算出部７１と前記
サーキュラバッファ５１との間には、前記サーキュラバ
ッファ５１のデジタル音声信号をより速やかに処理する
ために周波数増幅するプレエンファシス８１とが設けら
れている。

【００４４】より詳しく説明すると、前記音声認識部５
３の計算の流れとモジュールの構成は、二つのモジュー
ル群からなっており、ビタビアルゴリズムと単位音声検
出アルゴリズムをASIC半導体で集積化させた多くのサー
バー−モジュールから構成されている。

【００４５】まず、ビタビアルゴリズムは、４才から１
０才の年齢層の子供のおもちゃに使用し得るように、Ｈ
ＭＭ（Hidden Markov Model）を用いるビタビアルゴリ
ズムを使用して一つのチップから構成されている。ま
た、ビタビアルゴリズムを実行する過程で生ずる多くの
可変データを処理し得るよう、外部第２メモリ部３５
（１６Ｍバイト）で収容し得るブロックリスト構造を使
用しており、全体的に約１Ｍバイトの第２メモリ部３５
の領域で動作するように構成されている。ＨＭＭ学習方
法は、使用者が異なっても、信頼性が向上されるように
し、即ち、話者独立型認識となるようにし、音素単位の
認識をするものである。

【００４６】図３、図４及び図５を参照して、前述した
各要素の動作を簡略に説明すると次のようである。ま
ず、二つのマイクロフォン３９，４１は音声信号を受け
て電気信号に変換し、前述したＡ／Ｄ・Ｄ／Ａコンバー
タ（Codec）４５のアナログ音声信号変換装置に送る。
この際に、入力された二つの音声信号は、雑音除去のた
め、互いに独立した形態で音声処理制御部３０に伝達さ
れて、コリレイションを行う。前記音声処理制御部３０
では、特別な状況がない限り、Ａ／Ｄ・Ｄ／Ａコンバー
タ４７に制御信号（データ入力準備信号）を送出して、
収容準備状態になったのを知らせ、Ａ／Ｄ・Ｄ／Ａコン
バータ４７で補完（Interpolation）のためにｘ２５６
ＦＳの値である２．０４８MHｚを使用し、その同期周波
数（SYNC Frequency）は８kHzであり、音声認識部５３
で音声の認識を向上させるサンプリング率で適用される
ようにする。特に、前記８kHzサンプリング率は、前記
音声処理制御部３０の音声認識部５３において、認識ア
ルゴリズムに対する重要な処理基準となっている。一
方、入力された音声信号はＡ／Ｄ・Ｄ／Ａコンバータ４
７でＡ／Ｄ変換されて音声処理制御部３０に送られ、第
１及び第２マイクロフォン３９，４１を通じて独立デー
タとして入力されて，前記コリレイション演算によるノ
イズがフィルタリングされる。

【００４７】このように、雑音の除去されたデジタル音
声サンプリング信号は、サーキュラバッファ５１でフレ
ーム単位で一時的に記録されてから、プレエンファシス
８１と音声認識算出部７１から一つ一つの使用者の音声
に対する固有値が特徴ベクトルとして算出され、各々の
単語の端点を検出するため、ゼロクロシングレート７３
及びエネルギー算出部７５と単位音声検出部７７をほぼ
同時に経ることになり、これらのそれぞれは前処理器７
９で単語ずつ音声認識用単語に区分される。すると、リ
ストコントローラ６１から前記前処理器７９からの音声
認識用単語に該当する第１メモリ部３３の圧縮データを
取り出すと、第２メモリ部３５にこれらのデータとビタ
ビアルゴリズムを移して、認識のための演算動作を行っ
て分析する。

【００４８】より詳しく説明すると、実際に、その動作
は８kbpsでサンプリングされた音声信号→前処理（音声
特徴検出）→音声検出→音声認識の段階からなってい
る。前処理は、Power、Hamming Window、プレエンファ
シスなどの計算段階を経た後、リアルエフエフティー
（RealFFT）をしたスペクトル結果に対してメル（Mel）
スケールのケプストラム（Cepstrum）を計算する。これ
とは別に、音声をゼロクロシングレート７３とエネルギ
ー算出部７５で計算して、音声の始点と端点を検出す
る。このような二つの音声検出結果に基づいて、音声認
識の開始及び終了あるいはリセットの有無を決定し、メ
ルスケールケプストラム係数列とＨＭＭに対してビタビ
アルゴリズムを用いて遂に音声を認識する。勿論、この
ような数多い計算をするために必要な定数は第１メモリ
部３３に記録されてから、必要となるたびに取り出され
て使用される。また、必要な値を計算してから取り出す
作業のため、第２メモリ部３５を使用し、そのデータ計
算の膨大性のため、リストコントローラ６１を用いてい
る。ここで、音声認識及び圧縮のため、音声の端点検出
は認識率と圧縮率を高めるのに使用される単位音声検出
部７７でなされる。

【００４９】ところで、ゼロクロシングレート７３とエ
ネルギー算出部７５は実験室又は比較的静かな室内で高
い効率と的中率を表すが、僅かな騒音にも反応するスピ
ーチ端点検出では根本的な問題点を有していることが事
実であるので、メルケプストラムと共に動作されなけれ
ばならない。

【００５０】即ち、音声、雑音、無音の混ぜ合わせられ
たサンプリング信号をエネルギー検出部、ゼロクロシン
グレート、メルスケールケプストラムを求めて単位音声
検出部に入力すると、音声（雑音混合）部分が出力され
る。このように、二つのモジュールから出た結果は前処
理器７９に送られて、音声信号を認識することになる。

【００５１】このように、音声認識部５３で使用者、つ
まり子供の音声が認識されると、ダイアログマネージャ
５５は、その認識された音声を多数のパターンに分けら
れたシナリオのいずれか一つを選択し、その選択された
一つのシナリオによる応答音声の圧縮データを前記リス
トコントローラ６１と前記第１メモリ部３３から取り出
して音声デコーダ５７に伝達する。

【００５２】次いで、音声デコーダ５７は、前記第１メ
モリ部３３の圧縮データを所定のデコーディング過程に
より伸張させてデジタル音声信号に復元し、音声入出力
部３７を通じて話者である子供に聞かせる。この際に、
前記音声デコーダ５７と前記音声入出力部３７との間に
はＡ／Ｄ・Ｄ／Ａコンバータ４７が備えられているた
め、デコーディングされた前記デジタル音声信号はアナ
ログに変化されて実際音声として発生される。

【００５３】ここで、ボリュームを調節するため、音声
入出力部３７を通じて、子供の音声から、「音を大きく
しろ」という命令が入力される場合、この命令はＡ／Ｄ
・Ｄ／Ａコンバータ４７を介して音声処理制御部３０に
入力されて認識される。すると、音声処理制御部３０の
ボリューム制御信号に応じて、所定の利得が決定された
ボリューム制御部４９は前記Ａ／Ｄ・Ｄ／Ａコンバータ
４７に出力される前記アナログ音声信号を通常の増幅利
得値より大きくして子供の耳に聞かせるように、前記電
力増幅部４５を制御する。

【００５４】前述したような本発明による音声認識対話
型人形おもちゃの制御方法は、図６に示すようである。
まず、人形が反応し得る段階は３段階（バッテリオン、
タイムシグナル、接触スイッチモード）に区分される
（１３０，１３１，１３２）。仮に、電源が供給される
か、電源の電池が取り替えられると、予め決められた挨
拶のことば、つまり「こんにちは、私はサラです。あな
たは誰ですか。」という挨拶の言葉が出力され（１３
０）、使用者が録音しておいたメッセージ、つまり朝、
昼、夕によってそれぞれ相違したメッセージの挨拶の言
葉、又は設定されたシナリオによる言葉が音声として出
力され（タイマーモード、メッセージモード）（１３
１）、接触スイッチＴ１，Ｔ２，Ｔ３，Ｔ４により、挨
拶の言葉に対応する音声が出力されることもある（１３
２）。

【００５５】この流れ図によると、初期化により挨拶の
言葉を出力した後（１３３）、子供の対話用音声を認識
するため、音声信号を待つ（１３４）。仮に、子供が応
答しない待機時間が長くなると（１３７）、時間を終了
し（１４４）、まず、待機中であることを知らせる擬声
語、歌モード、話モード、遊びモード（病院ごっこ、ま
まごと、市場遊び、ティーパーティ遊び）の中の任意の
状況を付与するか、又はこれらのモードに対する案内音
声を出力する（１４５）。この際に、待機時間は約１０
秒程度である。このような過程が最小限３回以上である
と、セーブモード状態となるが（１４７）、この状態に
ないときは、続けて子供の音声を待つ（１４６）。

【００５６】次いで、子供が望む音声反応をすると、す
ぐ、挨拶の言葉を出力し、上述した各遊びに関する所望
の遊びモード（１３６，１３８）に動く（１４１）。仮
に、応答がないか、認識が不可能（未認識）である場合
は、決められた方式の質問が繰り返される（１４３）。
所望の遊びモードが認識されたときは、すぐ、開始を知
らせる音声が出力され（１４８）、遊びが開始される。
この段階を経た後、多様なパターンによって、使用者と
人形は続けて進行することができる（１４９，１５０，
１５１，１５３，１５４）。仮に、対話中に認識が不可
能であっても、人が相手の言葉を認識し得ない場合に類
似した行動を見せるように、決定アルゴリズムを作って
計算した後、再び問い合わせるか、意図的にパターン上
で可能な応答をするか、再び遊びを進行させるかを決定
する（１５３，１５７）。これは人形に内蔵した処理方
式に依存する。多様なパターンを経て遊びが終わると、
使用者は再びほかの遊びをするか、止めるかを選択すべ
きである（１５５，１５６，１５８）。このような遊び
方式が４種存在し、可能なパターンの数は約３，０００
種に至る。

【００５７】使用者にもっと興味を与え、実用性を強調
するため、タイマーモードとメッセージ録音及び再生モ
ードがある。すべての調整は、人形の内部に記録された
音声のみによってなされ、使用者はセッティングの正確
性を出力される音声により判断し得るようになってい
る。

【００５８】タイマーモードは四つの接触スイッチによ
る３ビットの信号を用い、七つのセッティングモード、
八つのモード、時刻調整モードがある。また、電力の供
給が中断されて、使用者がセッティングしたデータが消
えるときに備えて、デフォルトセッティング機能があ
る。セッティングモードは、一度押すとセッティング状
態がオンとなり、二度押すとオフとなる。また、５秒以
上何の操作もしないと、自動的に元の状態を記録したま
までオフされる。セッティング可能なモードとしてはノ
ーアクションモード、時間調整モード、起床時間、朝食
時間、昼食時間、昼寝時間、夕食時間、就寝時間を知ら
せる八つのモードがあり、各モードで、使用者の音声メ
ッセージが決められた時刻に出力されるようにセッティ
ングすることができる。この際に、時刻調整モードは、
分単位にセッティング可能であり、修正された後、音声
で結果を知らせる。もちろん、このような機能の一部の
みを動作させたいときは、セッティングモードを順次押
して、オン／オフさせることができる。仮に、中途に実
行を止めても、自動的に既存に実行された値を記録し、
オフされる。モード調整スイッチを一度押すと、時刻修
正を知らせる音声が出力され、もう一度押すと、起床時
間をセッティングするモードとなり、残りも同一形式で
なされる。

【００５９】メッセージ録音（再生）モードを用いて使
用者の音声を４分程度録音することができ、それ以上の
録音をすると、自動的に中断される。一方、八つのモー
ドは所望の音声を七つの使用者セッティング時間に合わ
せて音声を再生させることができる。１０秒間に調整が
行われないと、自動的にオフされる。仮に、中間に実行
を止めても、自動的に実行された値を記録しオフされ
る。

【００６０】圧縮された音声データを音声信号に変換す
る音声デコーダ５７は第１メモリ部３３に記録された圧
縮音声情報（１４４ビット／２４０サンプル１６kHz
サンプルデータ）を与えられたアルゴリズムでデコー
ディングするモジュールで、総１４個のサブモジュール
から構成され、次の順に従って進行される。第２メモリ
部３５に初期値を付与し（set init）、第１メモリ部３
３の圧縮データを読み取り（rd dat）、monotone、lsf
intを用いてＬＳＦ処理をした後、con gain，stoch c
w，adapl cw，adap2.cw，lsf pc，lp syn，post fitの
処理モジュール経て、音声信号が出力される。

【００６１】

【発明の効果】上述したように、本発明の音声認識対話
型人形おもちゃ及びその制御方法は、音声認識手段と音
声発声手段から構成されたシステムと、シナリオ展開を
可能にするダイアログマネージャとを結合させて対話用
に構成したものであり、子供のための人形であることを
考慮して機械構造のシステムを縫製した人形内に入れ
て、この人形おもちゃと遊びたいという欲求を誘発し、
かつ言語の教育的効果を高める、等の優れた効果があ
る。

【図面の簡単な説明】

【図１】本発明の人形おもちゃを示す正面図である。

【図２】本発明の人形おもちゃを示す側面図である。

【図３】本発明の音声認識対話型人形おもちゃを示すシ
ステムブロック図である。

【図４】図３の処理順序による流れ図である。

【図５】本発明のＡＳＩＣ化された音声認識部のブロッ
ク図である。

【図６】本発明の音声認識対話型人形おもちゃの動作を
示すフローチャート図である。

【符号の説明】

３０音声処理制御部３３第１メモリ部３５第２メモリ部３７音声入出力部３９第１マイクロフォン４１第２マイクロフォン４３スピーカ４５電力増幅部４７Ａ／Ｄ・Ｄ／Ａコンバータ４９ボリューム制御部５１サーキュラバッファ５３音声認識部５５ダイアログマネージャ５７音声デコーダ５９システムコントローラ６１リストコントローラ６３メモリコントローラ６５電源供給部６７クロック発生部６９タイマー７１音声認識算出部７３ゼロクロシングレート７５エネルギー算出部７７単位音声検出部７９前処理器８１プレエンファシスＴ１，Ｔ２，Ｔ３，Ｔ４接触スイッチ

───────────────────────────────────────────────────── フロントページの続き (72)発明者パクヨンジョン大韓民国京畿道波洲市内面白連里28 (72)発明者キムウンジャ大韓民国ソウル市馬浦区桃花洞現代２次アパート208−1201 (72)発明者クオンサッボン大韓民国ソウル市江西区藤村洞公アパート 805−402 (72)発明者イーチェキョン大韓民国全羅南道光洲広域市西区花正１洞 786−22 (72)発明者チーキョンチェ大韓民国慶尚南道馬山市廻円区廻円２洞 509−11 (72)発明者パンテイシク大韓民国京畿道南陽洲市錦谷洞310−１ (72)発明者ハンチュイョン大韓民国京畿道高陽市徳陽区幸新１洞ヘッピッマウル1904棟902号Ｆターム(参考） 2C150 CA01 CA02 DF03 DF31 ED52 EF23 EF29 FA42 5D015 AA01 AA02 KK01 KK02 KK04 LL06 5D108 CA02 CA15 CA25

Claims

【特許請求の範囲】

【請求項１】使用者と対話し得る音声認識対話型人形
おもちゃにおいて、多数の文章のデジタル音声信号ストリームが所定の圧縮
率で圧縮された音声圧縮データを記録している第１メモ
リ部と、外部から入力された前記使用者の音声信号を認識するた
めの演算エリアが備えられている第２メモリ部と、前記使用者の音声信号を前記第２メモリ部の認識用演算
により認識し、これに相応する対話型応答を分析して、
前記第１メモリ部から応答に該当する音声圧縮データを
伸張及び復元する音声処理制御部と、少なくとも１文章の前記使用者の音声を電気的音声信号
に変換して前記音声処理制御部に出力し、前記音声処理
制御部から、伸張された音声信号を前記使用者に聴覚的
に聞かせる音声入出力部と、から成ることを特徴とする
音声認識対話型人形おもちゃ。
【請求項２】前記音声処理制御部と前記音声入出力部
との間には、アナログ音声信号とデジタル音声信号の一
方を他方に変換するＡ／Ｄ・Ｄ／Ａコンバータが備えら
れていることを特徴とする請求項１の音声認識対話型人
形おもちゃ。
【請求項３】前記第２メモリ部と前記音声処理制御部
との間には、前記第１メモリ部のデータを前記第２メモ
リ部に転送するメモリコントローラが備えられているこ
とを特徴とする請求項１の音声認識対話型人形おもち
ゃ。
【請求項４】前記音声処理制御部は、前記音声入出力部から出力されるフレーム単位の使用者
のデジタル音声信号を一時的に記録するサーキュラバッ
ファと、前記サーキュラバッファに記録されたデジタル音声信号
を前記第１メモリ部に記録された圧縮データの音声認識
用定数によって音声認識用単語に区分し、ビタビアルゴ
リズムで前記使用者の音声を認識する音声認識部と、前記音声認識部で認識された音声の内容が所定のシナリ
オに対応するように一つの応答文章を前記第１メモリ部
で選択するダイアログマネージャと、前記ダイアログマネージャで選択された前記第１メモリ
部の音声圧縮データを伸張及び復元する音声デコーダ
と、から成ることを特徴とする請求項１の音声認識対話型人
形おもちゃ。
【請求項５】前記音声認識部と前記第１メモリ部との
間と、前記ダイアログマネージャと前記第１メモリ部と
の間には、前記第１メモリ部から音声圧縮データと圧縮
データの音声認識用定数を取り出し、第２メモリ部に前
記音声認識用データを転送するリストコントローラが備
えられていることを特徴とする請求項４の音声認識対話
型人形おもちゃ。
【請求項６】前記音声認識部は、前記サーキュラバッファに記録されたフレーム単位のデ
ジタル音声信号から、前記第１メモリ部の音声認識用定
数によって所定の雑音を除去させ、一つの文字音声に対
する固有値を特徴ベクトルとして算出する音声認識算出
部と、前記デジタル音声信号のサンプリング値から０点を検出
するゼロクロシングレートと、前記ゼロクロシングレートでの０点検出に対する信頼性
を向上させるため、前記０点に対するエネルギーを算出
するエネルギー算出部と、前記ゼロクロシングレートと前記エネルギー算出部の出
力信号に基づいて、連続的なデジタル音声信号の中のい
ずれか１単語の端点データを検出する単位音声検出部
と、前記音声認識算出部の特徴ベクトルデータと前記単位音
声検出部の端点データに基づいて１単語ずつ音声認識用
単語に区分する前処理器と、前記前処理器で区分された単語に該当する第１メモリ部
の音声圧縮データが前記リストコントローラにより取り
出され、ビタビアルゴリズムで演算するようにした領域
を提供する第２メモリ部と、から成ることを特徴とする請求項４の音声認識対話型人
形おもちゃ。
【請求項７】前記第１メモリ部と前記第２メモリ部と
前記音声処理制御部と前記音声入出力部とを収容するた
め、露出面に人と動物の形状が混合された形状に形成さ
れた人形本体と、前記人形本体の複数領域に埋設されており、前記使用者
の接触を前記音声処理制御部に知らせるための複数の接
触スイッチと、から成ることを特徴とする請求項１の音声認識対話型人
形おもちゃ。
【請求項８】前記接触スイッチは前記人形本体の背
中、鼻、口及び尻に設けられており、前記音声処理制御部は、前記使用者が口、鼻、背中及び
尻に設置された接触スイッチと接触すると、それに対応
する適切な音声を前記ダイアログマネージャと前記第１
メモリ部から取り出し、前記音声デコーダで実際の音声
に伸張及び復元した後、前記音声入出力部を通じて前記
使用者に聴覚的に聞かせることを特徴とする請求項７の
音声認識対話型人形おもちゃ。
【請求項９】前記音声入出力部は、前記使用者の音声と外部の雑音を電気的信号に変換して
前記音声処理制御部に出力する第１マイクロフォンと、前記外部の雑音を電気的信号に変換して前記音声処理制
御部に出力する第２マイクロフォンと、前記音声処理制御部で伸張及び復元された音声信号を電
力増幅しスピーカを通じて前記使用者に聴覚的に聞かせ
るための電力増幅部と、から成ることを特徴とする請求項１の音声認識対話型人
形おもちゃ。
【請求項１０】前記音声処理制御部と前記第１及び第
２マイクロフォンとの間で前記第１及び第２マイクロフ
ォンの出力信号をデジタルに変換し、前記音声処理制御
部と前記電力増幅部との間で前記音声処理制御部で伸張
及び復元されたデジタル音声信号をアナログに変換する
Ａ／Ｄ・Ｄ／Ａコンバータが備えられていることを特徴
とする請求項９の音声認識対話型人形おもちゃ。
【請求項１１】前記Ａ／Ｄ・Ｄ／Ａコンバータと前記
電力増幅部との間には、使用者のボリューム調節のため
の命令に応じて、前記電力増幅部の出力強さを調節する
ボリューム制御部が備えられていることを特徴とする請
求項１０の音声認識対話型人形おもちゃ。
【請求項１２】使用者の音声を検出し、検出された使用者の音声内容を認識し、該音声内容の認識に基づいて所定のシナリオによるダイ
アログ対話を分析し、該ダイアログ分析によって、圧縮記録された所定の応答
音声データをデコーディングし、該デコーディングされた前記応答音声データを聴覚的に
聞き得るように音声信号処理することを特徴とする音声
認識対話型人形おもちゃの制御方法。