JP2013020030A

JP2013020030A - 音声発生及び認識装置

Info

Publication number: JP2013020030A
Application number: JP2011152441A
Authority: JP
Inventors: Kunmin Hayashi; 君民林; Sadahiro Nakajima; 貞洋中島; Keigo Nagasaka; 啓吾長坂; Mikio Kiyono; 幹雄清野
Original assignee: KESHI CO Ltd
Current assignee: KESHI CO Ltd
Priority date: 2011-07-11
Filing date: 2011-07-11
Publication date: 2013-01-31

Abstract

【課題】MP３などの音声圧縮方法等により予め作成した種々の会話のデータを、好きな音声に置換し、センサにより簡便に会話モードを適選設定して、当該モードでの対話型の会話を行うことができる音声発生及び認識装置を提供する。
【解決手段】
音声発生及び認識装置に、書き換え可能な記憶手段と、音声入力手段と、MP３などの音声圧縮方法等により予め作成した種々の会話データの入力手段と、音声認識手段と、声紋分析置換手段と、筐体の状態を検出する少なくとも１つのセンサとを設けた構成とした
【選択図】図５

Description

本発明は、予め作成した各種会話データのセリフを適選した音声で発生させることができ、該セリフに対する対話型の各種会話を簡便に切替えて行えるようにした音声発生装置に関するものである。

従来から、本体に内設されたＲＯＭ等のメモリーに予め記録されている音声発生データを元にセリフを発生し、該セリフに対して、前記本体に内設された音声認識装置を利用して会話を行えるようにした人形やロボットなどが知られている。例えば、Ｂ社が販売している音声認識人形玩具「プリモプエル」などがある。一方、特開２００１−１６２０５５号には、予めお母さんやお父さんなどの声を録音しておく録音手段及び該音声を再生する再生手段が内蔵された音声再生人形玩具が開示されている。

これらの人形には接触動作や状態を感知するセンサが内蔵されていて、例えば、人形本体を寝かせると状態を感知し、該状態に対し予め設定記録されているセリフを発生するようになっている。そして、このような会話を通しコミュニケーションや学習などができるとしている。

しかしながら、前記の本体に内設されたＲＯＭ等のメモリーに予め記録されている音声発生データを元にしたセリフを発生し、該セリフに対して、前記本体に内設された音声認識装置を利用した対話型の会話を行えるようにした人形やロボットは、合成音声による単一音声での発生であるため、会話に対する興味を長時間持続させることが、特に、幼児には難しい。また、前記の特開２００１−１６２０５５号に開示されている音声再生人形玩具は、人形本体に内蔵された録音再生手段により予め録音していたお母さんやお父さんなどの音声を聞くことが出来るものであるが、対話型の会話でなく人形のセリフを一方的に聞かせるものであるため、やはり、興味を長時間持続させることが、特に、幼児には難しい。さらに、これらの会話が単種類の会話（モード）であることも興味を持続させることを難しくしている。このため充分なコミュニケーションや学習などの効果を与えることが難しいものであった。

特開２００１−１６２０５５号

本発明が目的とするところは、興味を長時間持続させ集中力を継続させることができ充分なコミュニケーションや学習などの効果を高め、汎用的で効率よく安価に作るることができる音声発生装置を提供することにある。

上記課題を達成するために本発明の第１実施例は、ＣＰＵを備えた制御手段１０と、ＲＡＭや不揮発性ＲＯＭ等の書き換え可能な記憶手段などで構成した会話データ記憶領域２１等を備えた記憶領域２０と、音声を入力するための音声入力手段３０と、MP３等の音声圧縮方式で作成した会話モードデータを前記会話データ記憶領域２１に記憶するための会話データ入力手段４０と、前記音声入力手段３０により入力したセリフを前記会話データ記憶領域２１に予め記憶されている各種の会話モードデータの中より検索し判定する音声認識手段５０と、前記手段等を内設している筐体（本体）の状態を検出する少なくとも１つのセンサ６０と、前記制御手段１０により決定されたセリフを発生するための音声発生手段７０と、を備えている。そして、当該センサ６０が検出した筐体の状態の信号に基づいて該筐体の状態モード
(M1〜MjよりMx)を判定し、判定した状態モード（Mx）に対して、前記会話データ記憶領域２１内に予め記憶されている会話モードファイル（ＭＦｘ）の〈案内や質問等のセリフデータファイル（DFx0）に基づくセリフ〉を前記音声発生手段７０より発生させ、該セリフに対して前記音声入力手段３０を介し使用者が入力した応答の音声〈Q〉を、前記音声認識手段５０により会話モードファイル（ＭＦｘ）の中に予め記憶されているセリフデータファイル(DFx1〜DFxi)から検索し、セリフデータファイル（DFxy）のキーワード（Q）と認識された場合、〈当該セリフデータファイル（DFxy）に基づく説明や解答等のセリフと次の案内や質問等のセリフ〉を発生させ、さらに該当する新たな案内や質問等のセリフに対し使用者が応答する。との工程を順次繰返し実行できることを特徴とする音声発生装置としている。

上記課題を達成するために本発明の第２実施例は、ＣＰＵを備えた制御手段１０と、ＲＡＭや不揮発性ＲＯＭ等の書き換え可能な記憶手段などで構成した会話データ記憶領域２１等を備えた記憶領域２０と、音声を入力するための音声入力手段３０と、MP３等の音声圧縮方式で作成した会話モードデータを前記会話データ記憶領域２１に記憶させるための会話データ入力手段４０と、前記音声入力手段３０により入力したセリフを前記会話データ記憶領域２１に予め記憶されている各種の会話モードデータの中より検索し判定する音声認識手段５０と、前記音声入力手段３０によって適選入力した音声の声紋を分析して前記のMP３等の音声圧縮方式で作成し記憶されている会話モードデータを当該声紋の音声に置換するための声紋分析置換手段８０と、前記制御手段１０により決定されたセリフを該声紋分析置換手段８０で置換された音声で発生するための音声発生手段７０と、を備えている。そして、前記会話データ記憶領域２１に予め記憶されている〈問診や案内等のセリフデータファイルに基づくセリフ〉を、前記声紋分析置換手段８０で分析され音声モードファイルに記録されている適選した音声のデータを元に当該適選音声に置換して音声発生手段７０より発生させ、該セリフに対し前記音声入力手段３０を介し使用者が入力した応答の音声〈R〉を、前記音声認識手段５０により予め記憶されているセリフデータファイルから検索し、セリフデータファイル（DFｒ）のキーワード（R）と認識された場合、〈当該セリフデータファイル（DFｒ）に基づく問診や案内等のセリフと次の問診や案内等に関するセリフ〉を発生させ、該新たな案内や質問等のセリフに使用者が応答する。との工程を順次繰返し実行することで目的とする解答や結果などを得ることができることを特徴とする音声発生装置としている。

上記課題を達成するために本発明の第３実施例は、ＣＰＵを備えた制御手段１０と、ＲＡＭや不揮発性ＲＯＭ等の書き換え可能な記憶手段などで構成した会話データ記憶領域２１等を備えた記憶領域２０と、音声を入力するための音声入力手段３０と、MP３等の音声圧縮方式で作成した会話モードデータを前記会話データ記憶領域２１に記憶させるための会話データ入力手段４０と、前記音声入力手段３０により入力した言葉を前記会話データ記憶領域２１に予め記憶されている各種の会話モードデータの中より検索し判定する音声認識手段５０と、前記手段等を内設している筐体（本体）の状態を検出する少なくとも１つのセンサ６０と、前記音声入力手段３０によって適選入力した音声の声紋を分析し前記のMP３等の音声圧縮方式で作成し記憶されている会話モードデータを当該声紋の音声に置換させるための声紋分析置換手段８０と、前記制御手段１０により決定されたセリフを該声紋分析置換手段８０で置換された音声で発生するための音声発生手段７０と、を備えている。そして、当該センサ６０が検出した筐体の状態の信号に基づいて該筐体の状態モードを判定し、判定した状態モードに対して、前記会話データ記憶領域２１の中の〈セリフデータファイルに基づく質問や問診等のセリフ〉を、前記声紋分析置換手段８０で分析され音声モードファイルに記録されている適選した音声のデータを元に当該適選音声に置換して音声発生手段７０より発生させ、該セリフに対し前記音声入力手段３０を介し使用者が入力した応答の音声〈S〉を、前記音声認識手段５０により予め記憶されているセリフデータファイルから検索し、セリフデータファイル（DFｓ）のキーワード（S）と認識された場合、〈当該セリフデータファイル（DFｓ）に基づく問診や案内等のセリフと次の問診や案内等に関する〉セリフを発生させ、該当する新たな案内や質問等のセリフに使用者が応答する。との工程を順次繰返し実行することで目的とする解答や効果などを得られるようにしていることを特徴とする音声発生装置としている。

本発明による音声発声装置によれば、予め作成した各種の会話モードデータを筐体に設置した会話データ入力手段４０を介して会話データ記憶領域２１に記録させることができ、会話モードを筐体内に設置したセンサに選択させ、該選択された会話モードのセリフデータファイルに基づく質問や問診等のセリフとの対話型会話を順次繰返し実行することができる。さらに、記録されている会話モードデータを声紋認識手段により適選した音声に置換させることができることから、好きな音声との各種の対話型会話を簡便に切替えて行うことができる。以上のような機能を可能とする構成としたことにより、興味を長時間持続させ集中力を継続させることができ、充分なコミュニケーションや学習などの効果を、高い汎用性で効率よく安価に与えることができる音声発生装置を提供できる。

本発明の第１実施例の音声発生及び認識装置の電気的な構成を示すブロック図である。本発明の第１実施例を適用したサイコロ型会話学習機の斜視概観図である。本発明の第１実施例を適用したキャラクタ型旅行ガイド機の電気的な構成を示すブロック図である。本発明の第２実施例の音声発生及び認識装置の電気的な構成を示すブロック図である。本発明の第２実施例を適用したドクター人形型会話診断機の正面概観図である。本発明の第３実施例の音声発生及び認識装置装置の電気的な構成を示すブロック図である。本発明の第３実施例を適用したスタンド型会話学習機の正面概観図である。

図１は本発明の第１実施例その１に係るサイコロ（正６面体）型会話学習機を構成する音声発生装置の電気的な構成を示すブロック図であり、図２は当該サイコロ型会話学習機の斜視概観図である。以下、本発明の第１実施例に係るサイコロ型会話学習機について説明する

図１に示されるように、当該サイコロ（正６面体）型会話学習機は、電源スイッチ１１１を有する３本の単３電池を搭載した電源１１０と、ＣＰＵを備えた制御手段１０と、ＲＡＭや不揮発性ＲＯＭ等の書き換え可能な記憶手段などで構成した会話データ記憶領域２１とＲＡＭやＲＯＭ等の記憶手段などで構成した基本的な制御プログラム等を記憶しておくためのプログラム記憶領域２２とを備えた記憶領域２０と、音声を入力するための音声入力手段３０と、MP３等の音声圧縮方式で作成した会話モードデータを前記会話データ記憶領域２１に記憶させるための会話データ入力手段４０と、前記音声入力手段３０により入力した言葉を前記会話データ記憶領域２１に予め記憶されている各種の会話モードデータの中より検索し判定する音声認識手段５０と、前記手段等を内設している筐体（本体の上面が６面のどの面（状態モード）であるかを検出するための方向センサ６０と、当該センサ６０で検出された面（状態モード）を示すための表示灯１２０と、該センサにより自動設定された状態モードをマニュアルでリセット或いは他の状態モードに変更するためのリセット/モード変更スイッチ１１２と、前記制御手段のメインスイッチ１１３と、前記制御手段１０により決定されたセリフを発生する音声発生手段７０と、を備えている。

以上の構成による本実施例におけるサイコロ（正６面体）型会話学習機は、“日本語”と“中国語”と“英語語”と“韓国語”と“仏語”と“独語”との六カ国語の語学学習機として、サイコロの各面が状態モード(M１〜M６)にそれぞれ対応するように初期設定されている。
ここで、本例は以上のような国の語学学習機として初期設定されているが、例えば、“仏語”の会話モードデータに換えて、MP３等の音声圧縮方式で作成した“伊語”の会話モードデータを会話データ入力手段４０と通して前記会話データ記憶領域２１に記憶させることで、“伊語”の語学学習を可能とできる。さらに、同じ語学学習、例えば、“中国語”の学習でも、“初級版”、“中級版”、“上級版”と難易度など内容を換えた種種の会話モードデータを記憶させての学習も可能とできる。

以下では、前記サイコロ型会話学習機による会話学習への使用例について説明する。
図２において、当該サイコロ型会話学習機の筐体内に内設されている電源１１０の電源スイッチ１１１（図示せず）がオンの状態で、図示されていない背面に潜設されているメインスイッチをオンする。この際に、図２に示すように”日本国旗”を上面とした状態で１０秒間保持すると、筐体内に内設されている方向センサ６０により検出された筐体の状態信号に基づいて“日本語モード（M１）にある。”と判定され、”日本国旗”面に設置されている表示灯１２０が点灯される。さらに、該日本語モード（M１）に対して、前記会話データ記憶領域２１の中の会話モードファイル(MＦ1〜MＦ６)領域に予め記憶されている日本語会話モードファイル：ＭＦ１の中の質問案内セリフデータファイル（DF１0）に基づく初期セリフ：「これから挨拶のことばを学習します。朝起きたときの挨拶は、“おはようございます”と”こんにちは”のどちらですか。」が、図２の筐体内部に備えられている前記音声発生手段７０より発生され筐体表面の音声通過ホール１３０を通して該筐体外部に伝えられる。この初期セリフに対して、使用者が、「おはようございます」とのセリフを応答すると、該応答音声は音声通過ホール１３０を通して図２の筐体内部に備えられている音声入力手段３０に入力される。そして、音声認識手段５０で認識された該応答音声が制御手段１０より正しい応答と判断されると、次のセリフデータDF11に基づくセリフ：「御昼の挨拶は、“こんばんわ”と”こんにちは”のどちらですか。」が、前記音声発生手段７０より発生され該筐体外部に伝えられる。
一方、例えば、「さようなら」などの間違った応答をする或いは５秒以上何も応答しないと同じセリフ：本例では、「これから挨拶のことばを学習します。朝起きたときの挨拶は、“おはようございます”と”こんにちは”のどちらですか。」が発生される。
以上のような会話を、会話データ記憶領域２１の中の会話モードファイル(MＦ1〜MＦ６)領域に予め記憶されている日本語会話モードファイル：ＭＦ１の中のセリフデータファイルDF1iに相当する数の各種の会話学習を行うことができる（本例では、DF10〜DF１３００に３００種類が設定されている）。
ここで、本例ではメインスイッチをオンした後に状態を１０秒間保持すると語学モードが判定されるようにプログラム設定しているが、該時間に限定されるものでなく例えば、５秒、１分など制御プログラムに予め適選設定しておくことができる。同じく、本例では応答待ち時間を５秒としているが、該時間に限定されるものでなく例えば、10秒、１分など制御プログラムに予め適選設定しておくことができる。
また、本例におけるサイコロ（正６面体）型会話学習機は、メインスイッチをオンした後に語学モードが判定される間に（本例設定は１０秒）、図示されていない背面に潜設されているリセット/モード変更スイッチ１１２を使い状態モードを変更できるように構成している。例えば、当該リセット/モード変更スイッチ１１２を１回押すことで日本語モード（M１）から中国語モード（M2)に変更できる。さらに、判定された会話モード、例えば英語モード（M3)の会話を開始している際に、該リセット/モード変更スイッチ１１２を使うことで該英語モード（M3)の英語会話モードファイル：ＭＦ３の中の初期セリフデータファイル（DF３0）に戻すことができる。

以上の本発明の第１実施例に係るサイコロ型会話学習機で構成した音声発生装置により、６カ国の対話型の会話学習を簡便に切替え行うことができるので興味を長時間持続させ集中力を継続させることができる。以上より、充分な学習などの効果を与えることが可能な音声発声装置を提供できる。

ここで、以上では本発明の第１実施例に係るサイコロ（正６面体）型会話学習機で構成した音声発生装置について説明したが、同記載内容から明らかなように本発明の第１実施例に係る装置の形態はサイコロ（正６面体）型に限定されるものでなく、また、正面体に限定されるものでない。例えば、４面体、７面体などの多面体として構成することも可能であり、携帯電話などの機器に本発明の第１実施例に係る機能と構成を搭載することも可能である。さらに、センサも方向センサに限定されるものでなく、例えば、携帯電話にGPSセンサを搭載させることで、各国の空港に入ると自動的に該国の会話や辞書となる音声発生装置として構成することもできる。

図３に示す装置は、センサとしてGPSを搭載させたキャラクタ型旅行ガイド機として構成したものであり、例えば、フランスのドゴール空港に到着するとGPSセンサによりフランスの旅行ガイドが自動的に選択され、さらに、フランスに居ることを示す表示灯１２０が点灯されてフランス関する会話型の観光ガイドが可能となる。

図４は本発明の第２実施例に係るドクター人形型会話診断機を構成する音声発生装置の電気的な構成を示すブロック図であり、図５は当該ドクター人形型会話診断機の正面概観図である。以下、本発明の第２実施例に係るドクター人形型会話診断機について説明する

図４に示されるように、当該ドクター人形型会話診断機は、６VのACアダプタの電源１１０と、ＣＰＵを備えた制御手段１０と、ＲＡＭや不揮発性ＲＯＭ等の書き換え可能な記憶手段などで構成した会話データ記憶領域２１とＲＡＭやＲＯＭ等の記憶手段などで構成した基本的な制御プログラム等を記憶しておくためのプログラム記憶領域２２とを備えた記憶領域２０と、音声を入力するための音声入力手段３０と、MP３等の音声圧縮方式で作成した会話モードデータを前記会話データ記憶領域２１に記憶させるための会話データ入力手段４０と、前記音声入力手段３０により入力した言葉を前記会話データ記憶領域２１に予め記憶されている各種の会話モードデータの中より検索し判定する音声認識手段５０と、前記音声入力手段３０によって適選入力した音声の声紋を分析して前記のMP３等の音声圧縮方式で作成し記憶されている会話モードデータを当該声紋の音声に置換するための声紋分析置換手段８０と、会話プログラムに基づき点灯される表示灯１２０と、診断モードをマニュアルでリセット或いは他の診断モードに変更するためのリセット/モード変更スイッチ１１２と、前記制御手段のメインスイッチ１１３と、前記制御手段１０により決定されたセリフを発生する音声発生手段７０と、を備えている。

上記構成による本実施例におけるドクター人形型会話診断機は、小児症状の問診を対話型で行える診断機として初期設定されている。
ここで、本例は小児症状の問診診断機としてとして初期設定されているが、本発明の構成から明らかなように、必要な診断科目の問診会話モードデータをMP３等の音声圧縮方式で作成し会話データ入力手段４０を通し会話データ記憶領域２１に記憶させておくことで、必要とされる科目の診断ができる。例えば、
“漢方診断”の問診会話モードデータを作成して前記会話データ記憶領域２１に記憶させておくことで、“漢方診断”の対話型診断機とできる。さらに、診断以外にも、使用目的に応じた会話モードデータを作成して前記会話データ記憶領域２１に記憶させておくことで、例えば、会社の受付を対話型で行う人形型受付案内機などとして構成することもできる。

以下では、ドクター人形型会話診断機による小児症状の問診診断への使用例について説明する。
図３において、当該ドクター人形型会話診断機の背面に潜設されているメインスイッチ１１３をオンすると、前記会話データ記憶領域２１の中の会話モードファイル領域に予め記憶されている小児問診会話モードファイル（MFｐ）の問診サブ会話モードファイ（MFｐ0〜MFｐi）内の症状選択サブ会話モードファイル(MFｐ0)の症状選択セリフ第１データファイル（DFｐ0１）に基づく第１症状選択セリフ：「どのような症状か教えてください。“発熱がありますか？”、“咳が出ますか？”、“吐きますか？”、“他の症状ですか？”」が、ドクター人形型会話診断機の筐体内部に備えられている前記音声発生手段７０より発生されて当該筐体表面の音声通過ホール１３０を通し該筐体外部に伝えられ、同時に、ドクター人形の両眼にそれぞれ設置されている表示灯１２０が交互に点灯される。
該第１症状選択セリフに対し、受診者（例えば小児の母親）が、「吐きます。」とのセリフを応答すると、該応答音声は音声通過ホール１３０を通り前記筐体内部に備えられている音声入力手段３０に入力される。同時に前記表示灯１２１は消灯される。そして、該応答音声が音声認識手段５０で
“吐く”と判定されると、“吐く”をキーワードとする問診サブ会話モードファイル（MFｐ３）に記憶されている問診サブセリフデータファイル（DFｐ３1）に基づく問診セリフ：「吐いても“比較的元気ですか?”、“元気ありませんか？”」が、音声発生手段７０より発生され、同時に、ドクター人形の両眼にそれぞれ設置されている表示灯１２０が交互に点灯される。該問診セリフに対し、受診者が、例えば「元気ありません。」とのセリフを応答すると、該応答音声は音声入力手段３０に入力され音声認識手段５０で
“元気なし”と判定される。同時に前記表示灯１２０は消灯される。次に“元気なし”をキーワードとする問診サブ会話モードファイル（MFｐ３）に記憶されている問診サブセリフデータファイル（例えば、DFｐ３１１）に基づく問診セリフ：「
“熱はありますか?”、“熱はありませんか？”、“意識がおかしいですか？”」が、音声発生手段７０より発生され、同時に、ドクター人形の両眼にそれぞれ設置されている表示灯１２０が交互に点灯される。さらに、該問診サブセリフデータファイル（DFｐ３１１））に基づく問診セリフに対し、受診者が、例えば「熱があります。」とのセリフを応答し、該応答音声が音声認識手段５０で
“熱あり”と判定されると、“熱あり”をキーワードとする問診サブ会話モードファイル（MFｐ３）に記憶されている問診サブセリフデータファイル（例えば、DFｐ３２３）に基づく問診セリフ：「
“その他の特に目立った症状はないですか？”、“下痢を伴い血が混じることがありますか？”、“体に赤い発疹が出ていますか？”」が、音声発生手段７０より発生され、同時に、ドクター人形の両眼にそれぞれ設置されている表示灯１２０が交互に点灯される。該問診セリフデータファイル（DFｐ３２３）に基づく問診セリフに対し、受診者が、例えば「特に目立った症状はないです。」とのセリフを応答すると、該応答音声が音声認識手段５０で
“目立った症状なし”と判定される。
以上の問診と応答の会話は、プログラム記憶領域２２に予め記憶されている症状診断プログラムを基として制御手段１０に備えられているCPUにより病状の推測が随時行われている。そして、前記までの問診結果のデータからCPU により“病状の推測を完了”と判断された場合、前記の両眼表示灯１２１が点灯され、小児問診会話モードファイル（MFｐ）内の問診結果サブ会話モードファイ（MFｐｓ）の病状結果セリフデータファイル（例えば、DFｐｓ１）に基づく結果セリフ：「 “急性気管支炎”か“風邪”が疑われます。」が、伝えられる。
以上のように、本発明による構成においては、問診等のセリフに受診者が選択して応答する。との工程を順次繰返し実行できるような会話データとしていることで、目的とする解答や効果などを得られるようにしている。
一方、本実施例のドクター人形型会話診断機は、問診に対して３０秒以上何も応答しない場合には同じ問診セリフを繰り返すように、また、病状結果が伝えられた後１分間放置した場合には問診開始モードに移動するように、さらに、リセット/モード変更スイッチ１１２を押すことで前の問診モードに戻せるように、設定されている。
ここで、上記の時間は、該時間に限定されるものでなく例えば、５秒、２分など制御プログラムで予め適選設定することができる。

さらに、本発明の第２実施例に係るドクター人形型会話診断機を構成する音声発生装置は、会話データ記憶領域２１内に予め記憶されている問診会話データを、音声入力手段３０を介し適選入力した音声を声紋分析置換手段８０により分析することで該適選音声に置換することができる。以下、本例の構成によるドクター人形型会話診断機の音声置換の手順について説明する。

まず、適選した音声に置換するための音声の入力の手順について説明する。
この音声入力は、音声設定モード（SF）で行われ、スタンド型会話学習機に設置されているリセット/モード変更スイッチ１１２と音声切替スイッチ１１７とを同時に押すことで当該モード（SF）に入ることができる。音声設定モード（SF）に入ると音声モードファイル(SＦ０〜SＦ１)領域に予め記憶されている設定案内セリフデータファイル（SDF０１）に基づくセリフ：「お好みの音声を入力してください。リセット/モード変更スイッチを押すと１０秒間の聞取りが行われます。終了は、“ピー”のサウンドで知らせます。」が、音声発生手段７０より発生され、この間、表示灯１２０が交互に点灯される。
次に受診者（或いは本装置の所有者など）が、リセット/モード変更スイッチ１１２を押して“適選した音声”をスタンド型会話学習機の音声通過ホール１３０に向け発生させると、当該音声が音声入力手段３０を介して声紋分析置換手段８０に入力され声紋分析が開始される。１０秒後、声紋分析が終了すると“ピー”のサウンドが発生され、音声に置換させるための該分析データが前記音声モードファイル(SＦ０〜SＦ１)領域のSDF1に記憶される。この際、十分な声紋分析データが得られなかった場合には、設定案内セリフデータファイル（SDF０２）に基づくセリフ：「十分な音声の聞き取りが出来ませんでした。再度、お好みの音声１を入力してください。」とのセリフが発生され、両眼の表示灯１２０が一緒に間欠点灯される。十分な声紋分析データが得られた場合には、設定案内セリフデータファイル（SDF０３）に基づくセリフ：「音声の入力を完了しました。もう一度リセット/モード変更スイッチを押すと問診モードに移ります。」とのセリフが発生され、同時に、両眼の表示灯１２０が一緒に点灯され、リセット/モード変更スイッチ１１２を押すと問診モードに移る。
ここで、お好みの音声への置換を必要としない場合には、リセット/モード変更スイッチ１１２を１０秒以内に再度押すことで問診モードに移動する。この際の音声は、会話データ入力時の音声となる。

上記の手順により、例えば、予め録音していたホームドクターの声を入力することで、何時も診断を受けているドクター声による対話型の問診診断を受けることができる。

ここで、以上では本発明の第２実施例に係るドクター人形型会話診断機で構成した音声発生装置について説明しているが、同記載内容から明らかなように本発明の第２実施例に係る装置の形態は人形型に限定されるものでなく、携帯電話などの機器に本発明の第２実施例に係る機能と構成を搭載することも可能である。この場合には、例えばテンキ―ボタンを音声切替スイッチ１１７などのスイッチとして構成することができる。

以上の本発明の第２実施例に係るドクター人形型会話診断機で構成した音声発生装置により、例えば信頼できるドクターの音声との対話型の問診診断を、時間を気にすることなく落着いて受けることができ、この結果を元にドクターからの初期的な診療を効率的に受けることが可能となる。

図６は本発明の第３実施例に係るスタンド型会話学習機を構成する音声発生装置の電気的な構成を示すブロック図であり、図７は当該スタンド型会話学習機の斜視概観図である。以下、図６及び図７を使い本発明の第３実施例に係るスタンド型会話学習機について説明する

図６に示されるように、当該スタンド型会話学習機は、ランプ１１５の点灯用の電源スイッチ１１１が設置されているケーブルラインと途中で分岐されているAC電源ケーブル１１６の前方に設置されたDC１２VのACアダプタ電源１１０と、ＣＰＵを備えた制御手段１０と、ＲＡＭや不揮発性ＲＯＭ等の書き換え可能な記憶手段などで構成された会話データ記憶領域２１とＲＡＭやＲＯＭ等の記憶手段などで構成された基本的な制御プログラム等を記憶しておくためのプログラム記憶領域２２とを備えた記憶領域２０と、音声を入力するための音声入力手段３０と、MP３等の音声圧縮方式で作成した会話モードデータを前記会話データ記憶領域２１に記憶するための会話データ入力手段４０と、前記音声入力手段３０により入力した言葉を前記会話データ記憶領域２１に予め記憶されている各種の会話モードデータの中より検索し判定する音声認識手段５０と、前記音声入力手段３０によって適選入力した音声の声紋を分析して前記のMP３等の音声圧縮方式で作成し記憶されている会話モードデータを当該声紋の音声に置換するための声紋分析置換手段８０と、スタンドの柄の部分に取り付けられたモード（学習科目）選択スイッチ１１４内に設置されている接触センサ６０と、当該センサ６０で検出された学習科目（学習モード）の内容を図示するためのディスプレ１２１と、学習項目などを変更するためのリセット/モード変更スイッチ１１２と、前記制御手段のメインスイッチ１１３と、音声切替スイッチ１１７と、前記制御手段１０により決定されたセリフを発生する音声発生手段７０と、を備えている。

第３実施例による本実施例におけるスタンド型会話学習機は、スタンドの柄の部分に取り付けられている４側面を有する回転式のモード（学習科目）選択スイッチ１１４に対して、高校１年生レベルの
“物理”と“化学”と“数学”と“生物”の４教科、それぞれの学習会話モード（M1〜M4）が対応するように初期設定されている。
ここで、本例では高校１年生レベルの理科系教材が初期設定されているが、本発明の構成から明らかなように、必要なレベルの各種科目の学習会話モードデータをMP３等の音声圧縮方式で作成し会話データ入力手段４０を通し会話データ記憶領域２１に記憶させておくことで、必要とされるレベルの各種科目を学習することができる。また、回転式のモード（学習科目）選択スイッチ１１４の面数は４面に限定されるものではなく例えば、３面、５面、１０面などの多面体とでき、同面数に応じた数の学習（学科）モードの設定が可能である。

以下では、本例の構成によるスタンド型会話学習機の使用例について説明する。
図７において、当該スタンド型会話学習機に設置されているメインスイッチ１１３をオンとする。この際、スタンドの柄の部分に取り付けられている回転式のモード（学習科目）選択スイッチ１１４を水平方向に回転させ学習したい学科のマーク（本例では“数学”）が前面となる位置で停止させる。この状態を５秒間保持すると、当該モード選択スイッチ１１４内に内設されている接触センサ６０により検出された位置信号に基づいて、“数学学習会話モード（M３）”が判定され、会話データ記憶領域２１の中の会話モードファイル(MＦ1〜MＦ４)領域に予め記憶されている数学学習会話モードファイル（ＭＦ３）内の〈初期質問セリフデータファイル：DF３0１〉に基づく初期質問セリフ：「ここでは数学を学習します。 “三角関数”、“方程式”、”確立”、“集合”のどこから始めましょうか？」が、スタンドの柄の筐体内部に備えられている前記音声発生手段７０より発生されて当該筐体表面の音声通過ホール１３０を通して該筐体外部に伝えられる。同時に、該筐体前側面に設置されているディスプレ１２１が点灯されて該初期質問の内容が表示される。
該初期質問セリフに対し、学習者が、例えば「三角関数」とのセリフを応答すると、該応答音声は音声通過ホール１３０を通り前記筐体内部に備えられている音声入力手段３０に入力される。そして、該応答音声が音声認識手段５０で
“三角関数”と判定されると、“三角関数”をキーワードとする数学学習サブ会話モードファイル（MF３A）に記憶されている三角関数の第１質問セリフデータ（DF３A1）に基づく質問セリフ：「cosθは、ディスプレに示されている三角形に対し、１：a/c、２：b/c、３：b/aのどの関係式で表せますか？」が、音声発生手段７０より発生されて音声通過ホール１３０を通してスタンドの外部に伝えられる。同時に、ディスプレ１２１に該質問の内容が表示される。
次に、該質問セリフに対して学習者が解答セリフを応答すると、該応答音声は音声通過ホール１３０を通して音声入力手段３０に入力される。そして、該応答音声が音声認識手段５０で
“正解”と判定されると、ディスプレ１２１に“正解！”との表示が２秒間点滅され、その後、三角関数の第２質問セリフデータ（DF３A２）に基づく質問セリフ：「sinθは、ディスプレに示されている三角形に対し、１：a/c、２：b/c、３：b/aのどの関係式で現れますか？」が、前記と同じ工程で伝えられ、同時に第２の質問内容が表示される。
一方、学習者の解答が“不正解”或いは１０秒以上応答しなかった場合は、ディスプレ１２１に“再挑戦！”との表示が２秒間点滅され、その後、直前の質問セリフ：本例では、「sinθは、ディスプレに示されている三角形に対し、１：a/c、２：b/c、３：b/aのどの関係式で現れますか？」が、前記と同じ工程で伝えられ、同時に、該質問内容が表示される。
以上のように質問と解答の対話型の会話学習を繰返すことできる。また、本例では、 “三角関数”の他に、会話データ記憶領域２１内に予め記憶されている数学の“方程式”、”確立”、“集合”、“因数分解”、さらに、
“物理”、“化学”と“生物”についての会話学習についての対話型の会話学習も上記と同様の工程により順次繰返し実行することができる。

ここで、本例では回転式のモード（学習科目）選択スイッチ１１４を水平方向に回転させ学習する学科のマーク（本例では“数学”）が前面となる位置に５秒間停止保持すると学習モードが判定されるとしているが、該時間に限定されるものでなく例えば、１０秒、１分など制御プログラムで予め適選設定することができる。同じく、本例では応答待ち時間を１０秒としているが、該時間に限定されるものでなく例えば、５秒、３０秒など制御プログラムで予め適選設定することができる。
さらに、本実施例によるスタンド型会話学習機は、リセット/モード変更スイッチ１１２を使い学習中の質問をスキップさせ別の質問に移動できるように構成されている。例えば、当該リセット/モード変更スイッチ１１２の短時間（≦１秒以内）押すことで次の質問に移動できる。また、長時間（＞１秒）押すことで該学習モードの初期位置に移動できる。

さらに、本発明の第３実施例に係るスタンド型会話学習機を構成する音声発生装置は、会話データ記憶領域２１内に予め記憶されている会話データを、音声入力手段３０を介し適選入力した音声を声紋分析置換手段８０により分析することで該適選音声に置換することができる。以下、本例の構成によるスタンド型会話学習機での音声置換の手順について説明する。

まず、適選した音声に置換するための音声の入力の手順について説明する。
この音声入力は、音声設定モード（SF）で行われ、スタンド型会話学習機に設置されているリセット/モード変更スイッチ１１２と音声切替スイッチ１１７とを同時に押すことで当該モード（SF）に入ることができる。音声設定モード（SF）に入ると音声モードファイル(SＦ０〜SＦ４)領域に予め記憶されている設定案内セリフデータファイル（SDF０１）に基づくセリフ：「お好みの音声１を入力してください。リセット/モード変更スイッチを押すと１０秒間の聞取りが行われます。終了は、“ピー”のサウンドで知らせます。」が、音声発生手段７０より発生され、同時に、ディスプレ１２１に該セリフ内容が表示される。
次に学習者が、リセット/モード変更スイッチ１１２を押して“適選した音声”をスタンド型会話学習機の音声通過ホール１３０に向け発生させると、当該音声が音声入力手段３０を介して声紋分析置換手段８０に入力され声紋分析が開始される。１０秒後、声紋分析が終了すると“ピー”のサウンドが発生され、音声に置換させるための該分析データが前記音声モードファイル(SＦ1〜SＦ４)領域のSDF1に記憶される。この際、十分な声紋分析データが得られなかった場合には、設定案内セリフデータファイル（SDF０２）に基づくセリフ：「十分な音声の聞き取りが出来ませんでした。再度、お好みの音声１を入力してください。」とのセリフが発生され、ディスプレ１２１に、該セリフの内容が表示される。十分な声紋分析データが得られた場合には、設定案内セリフデータファイル（SDF０３）に基づくセリフ：「音声１の聞き取りを完了しました。次にお好みの音声２を入力してください。リセット/モード変更スイッチを押すと１０秒間の聞取りが自動的に行われます。終了は、“ピー”のサウンドで知らせます。」を、前記と同じ工程で該筐体外部に発生させ、同時に、ディスプレ１２１に該セリフの内容が表示される。SF３とSF4についても同様の手順でお好みの音声を入力する。SF４までの入力が完了すると、設定案内セリフデータファイル（SDF０６）に基づくセリフ：「音声の入力が完了しました。もう一度リセット/モード変更スイッチを押すと学習モードに移ります。」とのセリフが発生され、同時に、ディスプレ１２１に該セリフの内容が表示される。そして、リセット/モード変更スイッチ１１２を押すと学習モードに移る。
ここで、お好みの音声への置換を必要としない場合には、リセット/モード変更スイッチ１１２を１０秒以内に再度押すことでSF１入力⇒SF２入力⇒SF３入力⇒SF４入力⇒学習モードの順で移動し、音声は、会話データ入力時の音声となる。

以上の手順で入力された音声モード（SF1〜SF４）への会話データ記憶領域２１内に予め記憶されている会話モードデータの置換は、以下のようにして設定される。
前記している本例の構成によるスタンド型会話学習機の使用工程における、各学習科目の初期質問セリフ：例えば、「ここでは物理を学習します。 “光波”、“運動の法則”、”電流回路”、“力のつりあい”のどこから始めましょうか？」の内容が、ディスプレ１２１に表示されている状態において、音声切替スイッチ１１７を１回押すと、設定案内セリフデータファイル（SDF０７）に基づくセリフ：「音声１に置換する場合は、音声切替スイッチを長押し（≧３秒）してください。他の音声に置換する場合は短押し（≦1秒）してください。」が発生され、同時に、ディスプレ１２１に該セリフの内容が表示される。
そして、音声切替スイッチ１１７を３秒以上押すと、前の学習科目の初期質問モードに戻り、初期質問セリフ：「ここでは物理を学習します。 “光波”、“運動の法則”、”電流回路”、“力のつりあい”のどこから始めましょうか？」が、置換後の音声で発生される。同時に、該筐体前側面に設置されているディスプレ１２１に該初期質問の内容が表示される。
一方、音声切替スイッチ１１７を短押し（≦１秒）すると、設定案内セリフデータファイル（SDF０8）に基づくセリフ：「音声２に置換する場合は、音声切替スイッチを長押し（≧３秒）してください。他の音声に置換する場合は短押し（≦1秒）してください。」が発生され、同時に、ディスプレ１２１に該セリフの内容が表示される。音声３或いは音声４に置換させたい場合も、前記の手順で適選した音声で設定する。

上記の手順により、例えば、予め録音していたガールフレンドの声を入力することで、ガールフレンドの声との生物の対話型会話学習を行うことができる。

ここで、以上では本発明の第３実施例に係るスタンド型会話学習機で構成した音声発生装置について説明しているが、同記載内容から明らかなように本発明の第３実施例に係る装置の形態はスタンド型に限定されるものでなく、携帯電話などの機器に本発明の第３実施例に係る機能と構成を搭載することも可能である。この場合には、例えば、リセット/モード変更スイッチ１１２や音声切替スイッチ１１７などのスイッチの換わりにテンキ―ボタンを利用し構成することができる。さらに、本例は物理などへの対話型会話学習機として構成した音声発生装置としているが、同応用に限定されるものでなく、第３実施例の構成についての説明内容から明らかなように、例えば、第１実施例に示されている語学学習機や、第２実施例に示されている診断機などへの応用も可能な音声発生装置を構成することができる。

以上の本発明の第３実施例に係るスタンド型会話学習機の構成により、予め作成した各種の学習会話モードデータを筐体に設置した会話データ入力手段４０を介して会話データ記憶領域２１に記録させることができ、該学習モードをセンサに選択させ、該選択された学習モードの質問セリフデータファイルに基づくセリフとの対話型会話を順次繰返し実行することができる。さらに、記録されている会話モードデータを声紋認識手段により適選した音声に置換させることができることから、好きな音声との各種の対話型会話を簡便に切替えて行うことができる。以上より、興味を長時間持続させ集中力を継続させることができ、充分なコミュニケーションや学習などの効果を高い汎用性で効率よく安価に与えることができる音声発生装置を提供できる。

以上の説明から明らかなように、本発明による音声発声装置は、予め作成した各種の会話モードデータを筐体に設置した会話データ入力手段４０を介して会話データ記憶領域２１に記録させ、この中の特定の会話モードをセンサに選択させ、さらに、声紋認識手段により適選した音声に置換させ好きな音声と対話できるように構成されている。しかも、該会話データを、同データに基づく問診等のセリフに受診者が選択して応答する。との工程を順次繰返し実行していくことで目的とする解答や効果などが得られるように構成している。
以上の本発明による音声発声装置の構成としたことにより、各種科目の学習器、病院や会社や旅行などでの各種案内器、介護などで必要とされる癒しの会話器など様々な分野での利用が可能である。

１０制御手段
２０記憶領域
２１会話データ記憶領域
２２プログラム記憶領域
３０音声入力手段
４０会話データ入力手段
５０音声認識手段
６０センサ
７０音声発生手段
８０声紋分析置換手段
１１０電源
１１１電源スイッチ
１１２リセット/モード変更スイッチ
１１３メインスイッチ
１１４モード選択スイッチ
１１５ランプ
１１６ AC電源ケーブル
１１７音声切替スイッチ
１２０表示灯
１２１ディスプレ
１３０音声通過ホール

Claims

ＣＰＵを備えた制御手段と、ＲＡＭや不揮発性ＲＯＭ等の書き換え可能な記憶手段などで構成した会話データ記憶領域とＲＡＭやＲＯＭ等の記憶手段などで構成した基本的な制御プログラム等を記憶しておくためのプログラム記憶領域とを備えた記憶領域と、音声を入力するための音声入力手段と、MP３等の音声圧縮方式で作成した会話モードデータを前記記憶手段に記憶させるための会話データ入力手段と、前記音声入力手段により入力したセリフを前記記録手段に予め記憶させている各種の会話モードデータの中より検索し判定する音声認識手段と、前記制御手段により決定されたセリフを発生する音声発生手段と、少なくとも１つのセンサとを備え、当該センサが検出した筐体の状態の信号に基づいて前記記録手段の中の各種の会話モードデータより特定の会話モードを選択して、当該会話モードファイル領域のセリフデータファイルに基づくセリフを発生し、さらに該セリフに対して前記音声入力手段を介し入力された使用者からの応答の音声を、前記音声認識手段により検索し、次に、検索された該音声をキーワードとするセリフデータファイルに基づくセリフを前記音声発生手段より発生させることを特徴とする音声発生装置。
ＣＰＵを備えた制御手段と、ＲＡＭや不揮発性ＲＯＭ等の書き換え可能な記憶手段などで構成した会話データ記憶領域とＲＡＭやＲＯＭ等の記憶手段などで構成した基本的な制御プログラム等を記憶しておくためのプログラム記憶領域とを備えた記憶領域と、音声を入力するための音声入力手段と、MP３等の音声圧縮方式で作成した会話モードデータを前記記憶手段に記憶させるための会話データ入力手段と、前記音声入力手段により入力したセリフを前記記録手段に予め記憶させている各種の会話モードデータの中より検索し判定する音声認識手段と、前記音声入力手段によって適選入力した音声の声紋を分析して前記のMP３等の音声圧縮方式で作成し記憶されている会話モードデータを当該声紋の音声に置換するための声紋分析置換手段と、前記制御手段により決定されたセリフを発生する音声発生手段とを備え、前記会話データ記憶領域に予め記憶されているセリフデータファイルに基づくセリフを、前記声紋分析置換手段で分析され前記会話データ記憶領域の音声モードファイルに記録されている適選した音声のデータを元に当該適選音声に置換して音声発生手段より発生させ、さらに該セリフに対して前記音声入力手段を介し入力された使用者からの応答の音声を、前記音声認識手段により検索し、次に、検索された該音声をキーワードとするセリフデータファイルに基づくセリフを前記音声発生手段より発生させることを特徴とする音声発生装置。
ＣＰＵを備えた制御手段と、ＲＡＭや不揮発性ＲＯＭ等の書き換え可能な記憶手段などで構成した会話データ記憶領域とＲＡＭやＲＯＭ等の記憶手段などで構成した基本的な制御プログラム等を記憶しておくためのプログラム記憶領域とを備えた記憶領域と、音声を入力するための音声入力手段と、MP３等の音声圧縮方式で作成した会話モードデータを前記記憶手段に記憶させるための会話データ入力手段と、前記音声入力手段により入力したセリフを前記記録手段に予め記憶させている各種の会話モードデータの中より検索し判定する音声認識手段と、前記音声入力手段によって適選入力した音声の声紋を分析して前記のMP３等の音声圧縮方式で作成し記憶されている会話モードデータを当該声紋の音声に置換するための声紋分析置換手段と、前記制御手段により決定されたセリフを発生する音声発生手段と、少なくとも１つのセンサとを備え、当該センサが検出した筐体の状態の信号に基づいて前記記録手段の中の各種の会話モードデータより特定の会話モードを選択して、当該会話モードファイル領域のセリフデータファイルに基づくセリフを発生し、さらに該セリフに対して前記音声入力手段を介し入力された使用者からの応答の音声を、前記音声認識手段により検索し、次に、検索された該音声をキーワードとするセリフデータファイルに基づくセリフを前記音声発生手段より発生させることを特徴とする音声発生装置。
前記請求項１または請求項２または請求項３記載の音声発生装置に、さらに、会話データと制御プログラムにより点灯制御される表示灯を有していることを特徴とする音声発生装置。
前記請求項１または請求項２または請求項３記載の音声発生装置に、さらに、会話データと制御プログラムにより表示制御されるディスプレを有していることを特徴とする音声発生装置。
前記請求項１または請求項２または請求項３記載の音声発生装置において、MP３等の音声圧縮方式で作成され予め記憶手段に記憶されている会話モードデータを、同データに基づくセリフに使用者が選択して応答する。との工程を順次繰返し実行していくことで目的とする解答や効果などが得られるように構成していることを特徴とする音声発生装置。
多面体の筐体に内蔵したことを特徴とする前記請求項１または請求項２または請求項３記載の音声発生装置。
人間等を模した外形の筐体に内蔵したことを特徴とする前記請求項１または請求項２または請求項３記載の音声発生装置。
スタンドの筐体に内蔵したことを特徴とする前記請求項１または請求項２または請求項３記載の音声発生装置。
携帯電話に内蔵したことを特徴とする前記請求項１または請求項２または請求項３記載の音声発生装置。