JP6267636B2

JP6267636B2 - 音声応答装置

Info

Publication number: JP6267636B2
Application number: JP2014521255A
Authority: JP
Inventors: 勉足立; 丈誠横井; 林　茂; 茂林; 健純近藤; 辰美黒田; 大介毛利; 豪生野澤; 謙史竹中; 毅川西; 健司水野; 博司前川; 岩田　誠; 誠岩田
Original assignee: ADC Technology Inc
Current assignee: ADC Technology Inc
Priority date: 2012-06-18
Filing date: 2013-05-29
Publication date: 2018-01-24
Anticipated expiration: 2033-05-29
Also published as: JP7231289B2; JP2020038387A; JP2018136540A; JP2018136546A; JPWO2013190963A1; JP6751865B2; JP2017215602A; JP2018136545A; JP2017215603A; JP2022062200A; JP2018092179A; JP6669951B2; JP2018049285A; JP2019179243A; JP6969811B2; JP6552123B2; JP2021184111A; JP2023079225A; WO2013190963A1; JP2018136541A

Description

関連出願の相互参照

本国際出願は、２０１２年６月１８日に日本国特許庁に出願された日本国特許出願第２０１２−１３７０６５号、日本国特許出願第２０１２−１３７０６６号、および日本国特許出願第２０１２−１３７０６７号に基づく優先権を主張するものであり、日本国特許出願第２０１２−１３７０６５号、日本国特許出願第２０１２−１３７０６６号、および日本国特許出願第２０１２−１３７０６７号の全内容を参照により本国際出願に援用する。

本発明は、入力された文字情報に対する応答を音声で行わせる音声応答装置に関する。

上記の音声応答装置として、入力された質問に対する回答を辞書から検索し、検索した回答を音声で出力するものが知られている（例えば特許文献１参照）。また、使用者との対話の内容に基づいて質問に対する回答を生成する技術も知られている（例えば特許文献２参照）。

特許第４８３２０９７号公報特許第４９２４９５０号公報

上記技術では、単に１つの質問に対して辞書によって特定される１つの回答を行うように設定されている。
入力された文字情報に対する応答を音声で行わせる音声応答装置において、使用者にとってより使い勝手をよくすることが本発明の一側面である。

第１局面の発明においては、
入力された文字情報に対する応答を音声で行わせる音声応答装置であって、
前記文字情報に対する複数の異なる応答を取得する応答取得手段と、
前記複数の異なる応答をそれぞれ異なる声色で出力させる音声出力手段と、
を備えたことを特徴とする。

このような音声応答装置によれば、複数の応答を異なる声色で出力させることができるので、１の文字情報に対する解が１つに特定できない場合であっても、異なる解を異なる声色で使用者に分かりやすく出力することができる。よって、使用者にとってより使い勝手をよくすることができる。

なお、本発明の音声応答装置は、例えば、使用者が所持する端末装置として構成されていてもよいし、この端末装置と通信を行うサーバとして構成されていてもよい。また、文字情報は、キーボード等に入力手段を利用して入力されてもよいし、音声を文字情報に変換することで入力されてもよい。

ところで、上記音声応答装置においては、第２局面の発明のように、
使用者が音声を入力するための音声入力手段と、入力された音声を文字情報に変換し、該文字情報に対する複数の異なる応答を生成して当該音声応答装置に送信する外部装置、に対して送信する音声送信手段と、
を備え、
前記応答取得手段は、前記外部装置から前記応答を取得する
ようにしてもよい。

このような音声応答装置によれば、音声応答装置では音声を入力することができるので、文字情報を音声で入力する構成とすることができる。また、外部装置において応答を生成する構成とすることができるので、音声応答装置での処理負荷を軽減することができる。

なお、音声送信手段においては、「入力された音声を文字情報に変換」する作動を音声応答装置で行ってもよいし、外部装置で行ってもよい。
さらに、上記音声応答装置においては、第３局面の発明のように、
当該音声応答装置または前記外部装置には、複数の文字情報のそれぞれに対して、各文字情報に対する肯定的応答と否定的応答とを含む複数の異なる応答が記録された応答記録手段、を備え、
前記応答取得手段は、前記複数の異なる応答として前記肯定的応答と前記否定的応答とを取得し、
前記音声出力手段は、前記肯定的応答と前記否定的応答とで異なる声色で再生する
ようにしてもよい。

このような音声応答装置によれば、肯定的応答と否定的応答というように、立場の異なる応答を異なる声色で再生することができるので、別人物が話しているかのように音声を再生することができる。よって、音声を聞く使用者に違和感を覚えさせにくくすることができる。

なお、応答の種別や応答の際の言葉遣いによって声色を変更してもよい。例えば、優しい口調で応答を行う場合には、落ち着いた女性の音声で再生し、激しい口調で応答する場合には、勇ましい男性の音声で応答するなどすればよい。つまり、応答内容と性格とを対応付けておき、性格に応じて声色を設定するようにすればよい。

また、上記音声応答装置においては、第４局面の発明のように、仕事場や会社の受付で利用する構成とし、或いは使用者が誰かに直接言いにくいことを代わりに伝える構成とすることができる。

受付において音声応答装置を利用する場合には、セールスに来る者の名前と会社名を音声応答装置や外部装置に予め記録しておき、受付に来たものが、この名前や会社名を名乗った場合には、断る文句の音声を再生するように、応答を生成すればよい。

また、言いにくいことを代わりに伝える構成とする場合には、例えば、デート前に、今日はこのようなことを言いたいと本装置に話しかけておくと、適当なタイミング（例えば予め設定した時刻や、会話が途切れてから一定時間が経過した場合など）で、音声応答装置が代わりに話してくれる（音声を再生する）ようにすればよい。

或いは、言いにくいことのきっかけになる言葉、例えば「そういえば何か彼女に話すって言ってなかったっけ？」のような言葉、を話す構成としてもよい。つまり、直ちに応答を出力するのではなく、一定時間経過後など、再生条件が成立した場合に応答を出力するようにしてもよい。

さらに、上記音声応答装置においては、第５局面の発明のように、外部装置または音声応答装置は、文字情報に対する応答を生成するための情報を他の音声応答装置から取得するようにしてもよい。また、上記音声応答装置においては、第６局面の発明のように、文字情報に対する応答を生成するための情報を他の音声応答装置から要求された場合、この要求に応じた情報を返すようにしてもよい。

この場合、音声応答装置は、位置情報、温度、湿度、照度、騒音レベル等を検出するためのセンサ類や、辞書情報などのデータベースを備えておき、要求に応じて必要な情報を抽出するようにすればよい。

このような音声応答装置（外部装置）によれば、他の音声応答装置から応答を生成するための情報を取得することができる。この場合、他の音声応答装置の位置等、他の音声応答装置固有の情報を取得することができる。

また、他の音声応答装置に自身固有の情報を送信することができる。
さらに、上記音声応答装置においては、第７局面の発明のように、自身または他の音声応答装置が出力した応答（例えば、肯定的応答や否定的応答）を文字情報として入力し、この応答に対する反論を行うための応答を生成するようにしてもよい。つまり、使用者の立場からすると、賛成の立場と反対の立場との両方の意見による議論を聞くことができる。そして、この議論を聞いたうえで、使用者は最終判断を行うことができる。

この構成は、１台または複数の音声応答装置を用いて実現できる。この場合、複数の音声応答装置が音声をやり取りするには、音声を直接入出力してもよいし、無線等による通信を利用してもよい。

また、第８局面の発明においては、
入力された文字情報に対する応答を音声で行わせる音声応答装置であって、
使用者または使用者に関係がある者を表す関係者の性格を予め設定された区分に従って対応付けた性格情報を取得する性格情報取得手段と、
前記文字情報に対する複数の異なる応答を表す応答候補を取得する応答取得手段と、
前記性格情報に応じて応答候補から出力させる応答を選択し、該選択した応答を出力させる音声出力手段と、
を備えたことを特徴とする。

このような音声応答装置によれば、使用者や使用者に関係がある者（関係者）の性格に応じて異なる応答を行うことができる。よって、使用者にとって使い勝手を良くすることができる。

また、上記音声応答装置においては、第９局面の発明のように、
予め設定された複数の質問に対する回答に基づいて前記使用者または前記関係者の性格情報を生成する第１性格情報生成手段を備え、
前記性格情報取得手段は、前記性格情報生成手段で生成された性格情報を取得する
ようにしてもよい。

このような音声応答装置によれば、性格情報を音声応答装置において生成することができる。なお、性格情報を生成する際には、周知の性格分析技術（ロールシャッハ・テスト、ソンディ・テスト等）を利用すればよい。また、性格情報を生成する際には、企業等が採用試験に利用する適性検査の技術を利用してもよい。

さらに、上記音声応答装置においては、第１０局面の発明のように、
前記入力された文字情報に含まれる文字列に基づいて前記使用者または前記関係者の性格情報を生成する第２性格情報生成手段を備え、
前記性格情報取得手段は、前記性格情報生成手段で生成された性格情報を取得する
ようにしてもよい。

このような音声応答装置によれば、使用者が音声応答装置を利用する過程で性格情報を生成することができる。
また、上記音声応答装置においては、第１１局面の発明のように、
文字情報に含まれる文字列に基づいて前記使用者または前記関係者の嗜好の傾向を示す嗜好情報を生成する嗜好情報生成手段、を備え、
前記音声出力手段は、前記嗜好情報に基づいて前記応答候補から出力させる応答を選択し、該選択した応答を出力させる
ようにしてもよい。

このような音声応答装置によれば、使用者または関係者の好みに応じて応答を行うことができる。
さらに、上記音声応答装置においては、第１２局面の発明のように、使用者の行動（会話、移動した場所、カメラに映ったもの）を学習（記録および解析）しておき、使用者の会話における言葉足らずを補うようにしてもよい。

例えば、「今日はハンバーグでいい？」との質問に対して「カレーがいいな。」と使用者が回答する会話に対して、本装置が「昨日ハンバーグだったからね」と補うと、使用者が、カレーがいいと発言した理由が伝わる。

また、このような構成は、電話中に実施することもでき、また、使用者の会話に勝手に参加するよう構成してもよい。
さらに、上記音声応答装置においては、第１３局面の発明のように、
応答候補を所定のサーバ、またはインターネット上から取得する応答候補取得手段、
を備えていてもよい。

このような音声応答装置によれば、応答候補を自装置や外部装置だけでなく、インターネットや専用線等で接続された任意の装置から取得することができる。
また、上記音声応答装置においては、第１４局面の発明のように、
使用者による動作を文字情報に変換する文字情報生成手段、
を備えていてもよい。

ここで、本発明でいう動作には、会話、文字の手書き、或いは身振り手振り（例えば手話）等の筋肉の動作に起因するものが該当する。
このような音声応答装置によれば、使用者の動作を文字情報に変換することができる。

さらに、上記音声応答装置においては、第１５局面の発明のように、
文字情報生成手段は、使用者の発話による音声を文字情報に変換し、発声時の癖（発音上の癖など）を学習情報として蓄積する（特徴を捉えてこの特徴を記録しておく）
ようにしてもよい。

このような音声応答装置によれば、学習情報に基づいて文字情報を生成することができるので、文字情報の生成精度を向上させることができる。
また、上記音声応答装置においては、第１６局面の発明のように、
前記学習情報を他の音声応答装置に転送する転送手段、
を備えていてもよい。

このような音声応答装置によれば、使用者が他の音声応答装置を利用する場合においても、本音声応答装置で記録された学習情報を利用することができる。よって、他の音声応答装置を利用する場合においても文字情報の生成精度を向上させることができる。

さらに、上記音声応答装置においては、第１７局面の発明のように、使用者の行動および操作のうちの何れかを検出し、これらに基づいて学習情報または性格情報を生成するようにしてもよい。

このような音声応答装置によれば、例えば、使用者が数日間連続で電車に飛び乗ることを検出した場合には、翌日からは数分早く家を出るよう促したり、会話から使用者に怒りやすい傾向があることを検出した場合には、気分を抑える音声や音楽を出力したりすることができる。

また、上記音声応答装置においては、第１８局面の発明のように、
他の音声応答装置から他の音声応答装置に記録されている情報を取得する他装置情報取得手段
を備えていてもよい。

このような音声応答装置によれば、他の音声応答装置に記録された情報に基づいて応答を生成することができる。
さらに、上記の音声応答装置においては、第１９局面の発明のように、
前記文字情報が入力されない場合において、当該音声応答装置の状況が予め音声を出力させる条件として設定された再生条件に合致するか否かを判定する再生条件判定手段と、
前記再生条件に合致する場合に、予め設定されたメッセージを出力させるメッセージ再生手段と、
を備えていてもよい。

このような音声応答装置によれば、文字情報が入力されない場合（つまり、使用者が話しかけない場合）であっても、音声を出力させることができる。例えば、強制的に使用者に発話させることで、自動車運転中の眠気抑制対策に利用することができる。また、一人暮らしの者が応答するか否かを判定することで、安否確認を行うことができる。

また、上記音声応答装置においては、第２０局面の発明のように、
メッセージ再生手段は、ニュースの情報を取得し、該ニュースに関するメッセージを使用者の回答を求める質問形式で出力させる
ようにしてもよい。

このような音声応答装置によれば、ニュースに関する会話をすることができるので、いつも同じ会話ばかりになることを抑制することができる。会話の内容としては、例えば、ある会社の株価に関する情報を取得できた場合には、「今日の○○会社の株価が○○円上がりましたね。ご存じでしたか？」などとすることができる。

さらに、上記音声応答装置においては、第２１局面の発明のように、
音声出力手段またはメッセージ再生手段は、予め設定されたメッセージに別途取得した（ニュースや環境（気温、天気、位置情報等の）外部取得情報を付加して出力させる
ようにしてもよい。

このような音声応答装置によれば、所定のメッセージと取得した情報とを組み合わせた応答を出力することができる。
また、上記音声応答装置においては、第２２局面の発明のように、
複数のメッセージを取得し、メッセージの再生頻度に応じて再生するメッセージを選択して出力させる
ようにしてもよい。

このような音声応答装置によれば、再生頻度が高いメッセージを再生しにくくすることで、メッセージ再生時のランダム性を奏したり、敢えて再生頻度が高いメッセージを繰り返し再生することで注意喚起や記憶の定着を促したりすることができる。

さらに、上記音声応答装置においては、第２３局面の発明のように、
応答やメッセージに対する回答が得られない場合に、予め設定された連絡先に対して、使用者を特定する情報、および回答が得られなかった旨を送信する未回答時送信手段、
を備えていてもよい。

このような音声応答装置によれば、回答が得られない場合に連絡先に通報することができる。よって、例えば、一人暮らしの老人等の異常を早期に通報することができる。
また、上記音声応答装置においては、第２４局面の発明のように、
メッセージ再生手段は、会話内容を記憶し、聞いた内容について同じ内容を得るための質問をする（記憶確認処理）
ようにしてもよい。

このような音声応答装置によれば、使用者の記憶力の確認をするとともに、記憶の定着を図ることができる。
さらに、上記音声応答装置においては、第２５局面の発明のように、
使用者が入力する音声の発音やアクセントの正確度合を検出する発話正確度検出手段と、
検出した正確度合を出力する正確度合出力手段と、
を備えていてもよい。

このような音声応答装置によれば、発音やアクセントの正確性を確認することができる。例えば外国語の練習を行う際に有効である。
また、上記音声応答装置においては、第２６局面の発明のように、
前記正確度合出力手段は、正確度合が一定値以下の場合に、最も近い単語を含む音声を出力する
ようにしてもよい。

このような音声応答装置によれば、使用者が発音やアクセントの正確性を確認することができる。
さらに、上記音声応答装置においては、第２７局面の発明のように、
メッセージ再生手段は、正確度合が一定値以下の場合に、再度、同じ質問を出力させるようにしてもよい。

このような音声応答装置によれば同じ質問を出力することによって正確な回答を求めることができる。
また、上記音声応答装置においては、第２８局面の発明のように、
入力された文字情報によって通信相手を特定し、通信相手毎に予め設定された通信先と前記通信相手とを接続する接続制御手段、
を備えていてもよい。

このような音声応答装置によれば、受付業務や電話対応を補助することができる。
特に、上記音声応答装置においては、第２９局面の発明のように、
接続制御手段は、営業活動（セールス）、来客を識別し、営業活動であれば断るメッセージを再生する
ようにしてもよい。

このような音声応答装置によれば、使用者の業務に支障がある虞がある者を、自身が対応することなく排除することができる。
さらに、上記音声応答装置においては、第３０局面の発明のように、入力された文字情報（特に音声）に含まれるキーワードを抽出し、キーワードが該当する接続先に接続するようにしてもよい。なお、例えば相手先の名称等のキーワードとその接続先とは予め対応付けておけばよい。

このような音声応答装置によれば、電話の転送や受付への呼び出し等の業務を補助することができる。
また、上記音声応答装置においては、第３１局面の発明のように、キーワードに基づいて相手が話す要件を認識し、相手が話した概要を使用者に伝えるようにしてもよい。

このような音声応答装置によれば、客先との取次の業務を補助することができる。
さらに、上記音声応答装置においては、第３２局面の発明のように、
使用者によって入力された音声について、声色から感情を読み取り、通常、怒り、喜び、困惑、悲しみ、高揚のうちの少なくとも１つを含む感情のうちの、何れの感情に該当するかを出力する感情判定手段
を備えていてもよい。

このような音声応答装置によれば、使用者の感情に応じて応答を出力することができる。
次に、第３３局面の発明は、
前記文字情報が入力された際に、当該音声応答装置の周囲を撮像した撮像画像に応じた応答を生成する応答生成手段と、
前記応答を音声で出力させる音声出力手段と、
を備えたことを特徴とする。

このような音声応答装置によれば、撮像画像に応じて応答を音声で出力することができる。したがって、文字情報のみから応答を生成する構成と比較して使い勝手を向上させることができる。

本発明の具体的構成としては、例えば、認識したものが何かを応答するよう文字情報を入力し、撮像画像から認識したものが何か（誰か）を音声で出力するなどの構成が挙げられる。

ところで、上記音声応答装置においては、第３４局面の発明のように、
文字情報に含まれる物体を撮像画像中から画像処理によって検索し、該検索された物体の位置を特定する位置特定手段検索手段と、
前記物体の位置まで案内する案内手段と、
を備えていてもよい。

このような音声応答装置によれば、撮像画像中の物体まで使用者を案内することができる。
さらに、上記音声応答装置においては、第３５局面の発明のように、
文字情報を音声で入力する際において使用者の口の形状を撮像した動画像を取得する音声入力動画取得手段と、
前記音声を文字情報に変換し、かつ、該動画像に基づいて、音声の不明確な部分を推定して文字情報を補正する文字情報変換手段と、
を備えていてもよい。

このような音声応答装置によれば、口の形状から発声内容を推定することできるので、音声の不明確な部分を良好に推定することができる。
また、上記音声応答装置においては、第３６局面の発明のように、
メッセージ再生手段は、思いがけずに発する音声を検出することによって使用者の苛立ちや動揺を検出し、苛立ちや動揺を抑制するためのメッセージを生成する
ようにしてもよい。

このような音声応答装置によれば、使用者に苛立ちや動揺がある場合に、これらを抑制することができる。よって、使用者と周囲とのトラブルの発生を抑制することができる。
さらに、上記音声応答装置においては、第３７局面の発明のように、
目的地までの案内を行う場合において、目的地までの天気、温度、湿度、交通情報、路面状態等の経路情報を取得する経路情報取得手段、を備え、
メッセージ再生手段は、経路情報を音声で出力させる
ようにしてもよい。

このような音声応答装置によれば、目的地までの状況（経路情報）を使用者に音声で通知することができる。
また、上記音声応答装置においては、第３８局面の発明のように、
使用者の視線を検出する視線検出手段と、
前記メッセージ再生手段による呼びかけに対して所定の位置に使用者の視線が移動しない場合、視線を所定の位置に移動させるよう要求する音声を出力する視線移動要求送信手段と、
を備えていてもよい。

このような音声応答装置によれば、使用者に特定の位置を見させることができる。よって、車両運転時の安全確認などを確実に行うことができる。
なお、上記音声応答装置においては、第３９局面の発明のように、
体の部位の位置や顔の表情を観察し、前記呼びかけ対する変化が少ない場合、体の部位の位置や顔の表情を変化させるよう要求する音声を出力する変化要求送信手段
を備えていてもよい。

このような音声応答装置によれば、使用者の体の部位の位置を特定の位置に移動させたり、特定の表情をするよう誘導したりすることができる。本発明は、車両の運転時や身体検査等の際に利用することができる。

さらに、上記音声応答装置においては、第４０局面の発明のように、
使用者が視聴する放送番組と同様の放送番組を取得する放送番組取得手段と、
放送番組が途切れた場合に、自身が取得した放送番組を出力することで途切れた放送番組を補完する放送番組補完手段と、
を備えていてもよい。

このような音声応答装置によれば、使用者が視聴する放送番組が途切れないように補うことができる。
また、上記音声応答装置においては、第４１局面の発明のように、
歌詞無しの楽曲に使用者が歌詞を付して歌う場合において、歌詞ありの楽曲と使用者が付した歌詞とを比較し、使用者の歌詞のみがない部分において歌詞を音声で出力させる歌詞付加手段、を備えたこと。

このような音声応答装置によれば、いわゆるカラオケにおいて使用者が歌えない部分（歌詞が途切れた部分）を補うことができる。
さらに、上記音声応答装置においては、第４２局面の発明のように、
撮像画像中に文字が含まれる場合において、使用者からこの文字の読み方についての質問を受けると、この文字の情報を外部から取得し、この情報に含まれる文字の読み方を音声で出力させる読み方出力手段、
を備えていてもよい。

このような音声応答装置によれば、文字の読み方を使用者に教えることができる。
また、上記音声応答装置においては、第４３局面の発明のように、
使用者の行動や使用者の周囲環境を検出する行動環境検出手段を備え、
メッセージ生成手段は、検出された行動や周囲環境に応じてメッセージを生成する
ようにしてもよい。

このような音声応答装置によれば、危険な場所や立ち入り禁止の領域などを報知することができる。また、使用者に異常な行動があることなどを検出することができる。
さらに、上記音声応答装置においては、第４４局面の発明のように、
使用者を撮像した撮像画像に基づいて、健康状態を判定する健康状態判定手段と、
健康状態に応じてメッセージを生成する健康メッセージ生成手段と、
を備えていてもよい。

このような音声応答装置によれば、使用者の健康状態を管理することができる。
また、上記音声応答装置においては、第４５局面の発明のように、
健康状態が基準値を下回る場合に、所定の連絡先に通報を行う通報手段、
を備えていてもよい。

このような音声応答装置によれば、使用者の健康状態が基準値以下の場合に、通報を行うことができる。よってより早期に異常を他者に報知することができる。
さらに、上記音声応答装置においては、第４６局面の発明のように、使用者以外の者から問い合わせに対して使用者についての情報を出力するようにしてもよい。

このような音声応答装置によれば、例えば、使用者の食事内容な散歩の距離などを検出しておけば、病院等での質問に使用者に代わって回答することができる。また、健康状態や自己紹介など学習しておくようにしてもよい。

なお、各局面の発明は、他の発明を前提とする必要はなく、可能な限り独立した発明とすることができる。

本発明が適用された音声応答システムの概略構成を示すブロック図である。端末装置の概略構成を示すブロック図である。端末装置のＭＰＵが実行する音声応答端末処理を示すフローチャートである。サーバの演算部が実行する音声応答サーバ処理を示すフローチャートである。応答候補ＤＢの一例を示す説明図である。端末装置のＭＰＵが実行する自動会話端末処理を示すフローチャートである。サーバの演算部が実行する自動会話サーバ処理を示すフローチャートである。端末装置のＭＰＵが実行する伝言端末処理を示すフローチャートである。サーバの演算部が実行する伝言サーバ処理を示すフローチャートである。端末装置のＭＰＵが実行する誘導端末処理を示すフローチャートである。サーバの演算部が実行する誘導サーバ処理を示すフローチャートである。サーバの演算部が実行する受付処理を示すフローチャートである。端末装置のＭＰＵが実行する情報提供端末処理を示すフローチャートである。性格ＤＢの一例を示す説明図である。端末装置のＭＰＵが実行する性格情報生成処理を示すフローチャートである。嗜好ＤＢの一例を示す説明図である。サーバの演算部が実行する嗜好情報生成処理を示すフローチャートである。性格区分と嗜好との組み合わせ例を示す説明図である。サーバの演算部が実行する動作文字入力処理を示すフローチャートである。サーバの演算部が実行する他端末利用処理を示すフローチャートである。サーバの演算部が実行する記憶確認処理を示すフローチャートである。サーバの演算部が実行する発音判定処理１を示すフローチャートである。サーバの演算部が実行する発音判定処理２を示すフローチャートである。サーバの演算部が実行する発音判定処理３を示すフローチャートである。サーバの演算部が実行する感情判定処理を示すフローチャートである。サーバの演算部が実行する感情応答生成処理を示すフローチャートである。サーバの演算部が実行する案内処理を示すフローチャートである。サーバの演算部が実行する移動要求処理１を示すフローチャートである。サーバの演算部が実行する移動要求処理２を示すフローチャートである。サーバの演算部が実行する放送楽曲補完処理を示すフローチャートである。サーバの演算部が実行する文字解説処理を示すフローチャートである。サーバの演算部が実行する行動応答端末処理を示すフローチャートである。サーバの演算部が実行する行動応答サーバ処理を示すフローチャートである。

１…端末装置、１０…行動センサユニット、１１…次元加速度センサ、１３…軸ジャイロセンサ、１５…温度センサ、１７…湿度センサ、１９…温度センサ、２１…湿度センサ、２３…照度センサ、２５…濡れセンサ、２７…ＧＰＳ受信機、２９…風速センサ、３３…心電センサ、３５…心音センサ、３７…マイク、３９…メモリ、４１…カメラ、５０…通信部、５３…無線電話ユニット、５５…連絡先メモリ、６０…報知部、６１…ディスプレイ、６３…電飾、６５…スピーカ、７０…操作部、７１…タッチパッド、７３…確認ボタン、７５…指紋センサ、７７…救援依頼レバー、８０…通信基地局、８５…インターネット網、９０…サーバ、１００…音声応答システム、１０１…演算部、１０２…音声認識ＤＢ、１０３…予測変換ＤＢ、１０４…音声ＤＢ、１０５…応答候補ＤＢ、１０６…性格ＤＢ、１０７…学習ＤＢ、１０８…嗜好ＤＢ、１０９…ニュースＤＢ、１１０…天気ＤＢ、１１１…再生条件ＤＢ、１１２…手書き文字・手話ＤＢ、１１３…端末情報ＤＢ、１１４…感情判定ＤＢ、１１５…健康判定ＤＢ、１１６…カラオケＤＢ、１１７…通報先ＤＢ、１１８…セールスＤＢ、１１９…クライアントＤＢ。

以下に本発明にかかる実施の形態を図面と共に説明する。
［第１実施形態］
［本実施形態の構成］
本発明が適用された音声応答システム１００は、端末装置１において入力された音声に対して、サーバ９０にて適切な応答を生成し、端末装置１で応答を音声で出力するよう構成されたシステムである。詳細には、図１に示すように、音声応答システム１００は、複数の端末装置１とサーバ９０とが通信基地局８０やインターネット網８５を介して互いに通信可能に構成されている。

サーバ９０は、通常のサーバ装置としての機能を備えている。特にサーバ９０は、演算部１０１と、各種データベース（ＤＢ）とを備えている。演算部１０１は、ＣＰＵと、ＲＯＭ、ＲＡＭ等のメモリを備えた周知の演算装置として構成されており、メモリ内のプログラムに基づいて、インターネット網８５を介した端末装置１等との通信や、各種ＤＢ内のデータの読み書き、或いは、端末装置１を利用する使用者との会話を行うための音声認識や応答生成といった各種処理を実施する。

各種ＤＢとしては、図１に示すように、音声認識ＤＢ１０２、予測変換ＤＢ１０３、音声ＤＢ１０４、応答候補ＤＢ１０５、性格ＤＢ１０６、学習ＤＢ１０７、嗜好ＤＢ１０８、ニュースＤＢ１０９、天気ＤＢ１１０、再生条件ＤＢ１１１、手書き文字・手話ＤＢ１１２、端末情報ＤＢ１１３、感情判定ＤＢ１１４、健康判定ＤＢ１１５、カラオケＤＢ１１６、通報先ＤＢ１１７、セールスＤＢ１１８、クライアントＤＢ１１９等を備えている。なお、これらのＤＢの詳細については、処理の説明の都度述べることにする。

次に、端末装置１は、図２に示すように、行動センサユニット１０と、通信部５０と、報知部６０と、操作部７０と、が所定の筐体に備えられて構成されている。
行動センサユニット１０は、周知のＭＰＵ３１（マイクロプロセッサユニット）、ＲＯＭ、ＲＡＭ等のメモリ３９、および各種センサを備えており、ＭＰＵ３１は各種センサを構成するセンサ素子が検査対象（湿度、風速等）を良好に検出することができるように、例えば、センサ素子の温度に最適化するためのヒータを駆動させる等の処理を行う。

行動センサユニット１０は、各種センサとして、３次元加速度センサ１１（３ＤＧセンサ）と、３軸ジャイロセンサ１３と、筐体の背面に配置された温度センサ１５と、筐体の背面に配置された湿度センサ１７と、筐体の正面に配置された温度センサ１９と、筐体の正面に配置された湿度センサ２１と、筐体の正面に配置された照度センサ２３と、筐体の背面に配置された濡れセンサ２５と、端末装置１の現在地を検出するＧＰＳ受信機２７と、風速センサ２９とを備えている。

また、行動センサユニット１０は、各種センサとして、心電センサ３３、心音センサ３５、マイク３７、カメラ４１も備えている。なお、各温度センサ１５，１９、および各湿度センサ１７，２１は、筐体の外部空気の温度または湿度を検査対象として測定を行う。

３次元加速度センサ１１は、端末装置１に加えられる互いに直交する３方向（鉛直方向（Ｚ方向）、筐体の幅方向（Ｙ方向）、および筐体の厚み方向（Ｘ方向））における加速度を検出し、この検出結果を出力する。

３軸ジャイロセンサ１３は、端末装置１に加えられる角速度として、鉛直方向（Ｚ方向）と、該鉛直方向とは直交する任意の２方向（筐体の幅方向（Ｙ方向）、および筐体の厚み方向（Ｘ方向））における角加速度（各方向における左回りの各速度を正とする）を検出し、この検出結果を出力する。

温度センサ１５，１９は、例えば温度に応じて電気抵抗が変化するサーミスタ素子を備えて構成されている。なお、本実施例においては、温度センサ１５，１９は摂氏温度を検出し、以下の説明に記載する温度表示は全て摂氏温度で行うものとする。

湿度センサ１７，２１は、例えば周知の高分子膜湿度センサとして構成されている。この高分子膜湿度センサは、相対湿度の変化に応じて高分子膜に含まれる水分の量が変化し、誘電率が変化するコンデンサとして構成されている。

照度センサ２３は、例えばフォトトランジスタを備えた周知の照度センサとして構成されている。
風速センサ２９は、例えば周知の風速センサであって、ヒータ温度を所定温度に維持する際に必要な電力（放熱量）から風速を算出する。

心音センサ３５は、使用者の心臓の拍動による振動を捉える振動センサとして構成されており、ＭＰＵ３１は心音センサ３５による検出結果とマイク３７から入力される心音とを鑑みて、拍動による振動や騒音と、他の振動や騒音とを識別する。

濡れセンサ２５は筐体表面の水滴を検出し、心電センサ３３は使用者の鼓動を検出する。
カメラ４１は、端末装置１の筐体内において、端末装置１の外部を撮像範囲とするように配置されている。

通信部５０は、周知のＭＰＵ５１と、無線電話ユニット５３と、連絡先メモリ５５と、を備え、図示しない入出力インターフェイスを介して行動センサユニット１０を構成する各種センサからの検出信号を取得可能に構成されている。そして、通信部５０のＭＰＵ５１は、この行動センサユニット１０による検出結果や、操作部７０を介して入力される入力信号、ＲＯＭ（図示省略）に格納されたプログラムに応じた処理を実行する。

具体的には、通信部５０のＭＰＵ５１は、使用者が行う特定の動作を検出する動作検出装置としての機能、使用者との位置関係を検出する位置関係検出装置としての機能、使用者により行われる運動の負荷を検出する運動負荷検出装置としての機能、およびＭＰＵ５１による処理結果を送信する機能を実行する。

無線電話ユニット５３は、例えば携帯電話の基地局と通信可能に構成されており、通信部５０のＭＰＵ５１は、該ＭＰＵ５１による処理結果を報知部６０に対して出力したり、無線電話ユニット５３を介して予め設定された送信先に対して送信したりする。

連絡先メモリ５５は、使用者の訪問先の位置情報を記憶するための記憶領域として機能する。この連絡先メモリ５５には、使用者に異常が生じた場合に連絡をすべき連絡先（電話番号など）の情報が記録されている。

報知部６０は、例えば、ＬＣＤや有機ＥＬディスプレイとして構成されたディスプレイ６１と、例えば７色に発光可能なＬＥＤからなる電飾６３と、スピーカ６５とを備えている。報知部６０を構成する各部は、通信部５０のＭＰＵ５１により駆動制御される。

次に、操作部７０としては、タッチパッド７１と、確認ボタン７３と、指紋センサ７５と、救援依頼レバー７７とを備えている。
タッチパッド７１は、使用者（使用者や使用者の保護者等）により触れられた位置や圧力に応じた信号を出力する。

確認ボタン７３は、使用者に押下されると内蔵されたスイッチの接点が閉じるように構成されており、通信部５０にて確認ボタン７３が押下されたことを検出することができるようにされている。

指紋センサ７５は、周知の指紋センサであって、例えば、光学式センサを用いて指紋を読みとることができるよう構成されている。なお、指紋センサ７５に換えて、例えば掌の静脈の形状を認識するセンサ等、人間の身体的特徴を認識することができる手段（バイオメトリクス認証をすることができる手段：個人を特定することができる手段）であれば、採用することができる。

また、操作されると所定の連絡先に接続される救援依頼レバー７７も備えている。
［本実施形態の処理］
このような音声応答システム１００において実施される処理について以下に説明する。

端末装置１にて実施される音声応答端末処理は、使用者による音声入力を受付けてこの音声をサーバ９０に送り、サーバ９０から出力すべき応答を受けるとこの応答を音声で再生する処理である。なお、この処理は、使用者が操作部７０を介して音声入力を行う旨を入力すると開始される。

詳細には、図３に示すように、まず、マイク３７からの入力を受け付ける状態（ＯＮ状態）とし（Ｓ２）、カメラ４１による撮像（録画）を開始する（Ｓ４）。そして、音声入力があったか否かを判定する（Ｓ６）。

音声入力がなければ（Ｓ６：ＮＯ）、タイムアウトしたか否かを判定する（Ｓ８）。ここで、タイムアウトとは、処理を待機する際の許容時間を超えたことを示し、ここでは許容時間は例えば５秒程度に設定される。

タイムアウトしていれば（Ｓ８：ＹＥＳ）、後述するＳ３０の処理に移行する。また、タイムアウトしていなければ（Ｓ８：ＮＯ）、Ｓ６の処理に戻る。
音声入力があれば（Ｓ６：ＹＥＳ）、音声をメモリに記録し（Ｓ１０）、音声の入力が終了したか否かを判定する（Ｓ１２）。ここでは、音声が一定時間以上途切れた場合や、操作部７０を介して音声入力を終了する旨が入力された場合に、音声の入力が終了したと判定する。

音声の入力が終了していなければ（Ｓ１２：ＮＯ）、Ｓ１０の処理に戻る。また、音声の入力が終了していれば（Ｓ１２：ＹＥＳ）、自身を特定するためのＩＤ、音声、および撮像画像等のデータをサーバ９０に対してパケット送信する（Ｓ１４）。なお、データを送信する処理は、Ｓ１０とＳ１２の間で行ってもよい。

続いて、データの送信が完了したか否かを判定する（Ｓ１６）。送信が完了していなければ（Ｓ１６：ＮＯ）、Ｓ１４の処理に戻る。
また、送信が完了していれば（Ｓ１６：ＹＥＳ）、後述する音声応答サーバ処理にて送信されるデータ（パケット）を受信したか否かを判定する（Ｓ１８）。データを受信していなければ（Ｓ１８：ＮＯ）、タイムアウトしたか否かを判定する（Ｓ２０）。

タイムアウトしていれば（Ｓ２０：ＹＥＳ）、後述するＳ３０の処理に移行する。また、タイムアウトしていなければ（Ｓ２０：ＮＯ）、Ｓ１８の処理に戻る。
また、データを受信していれば（Ｓ１８：ＹＥＳ）、パケットを受信する（Ｓ２２）。この処理では、文字情報に対する１または複数の異なる応答がそれぞれ異なる声色で対応付けられたものを取得する。

そして、受信が完了したか否かを判定する（Ｓ２４）。受信が完了していなければ（Ｓ２４：ＮＯ）、タイムアウトしたか否かを判定する（Ｓ２６）。
タイムアウトしていれば（Ｓ２６：ＹＥＳ）、エラーが発生した旨を報知部６０を介して出力し、音声応答端末処理を終了する。また、タイムアウトしていなければ（Ｓ２６：ＮＯ）、Ｓ２２の処理に戻る。

また、受信が完了していれば（Ｓ２４：ＹＥＳ）、受信したパケットに基づく応答を音声でスピーカ６５から出力させる（Ｓ２８）。この処理では、複数の応答を再生する場合には、複数の応答がそれぞれ異なる声色で再生される。このような処理が終了すると、音声応答端末処理を終了する。

続いて、サーバ９０（外部装置）にて実施される音声応答サーバ処理について図４を用いて説明する。音声応答サーバ処理は、端末装置１から音声を受信し、この音声を文字情報に変換する音声認識を行うとともに、音声に対する応答を生成して端末装置１に返す処理である。特に、本実施形態においては、複数の応答を異なる声色の音声と対応付けて送信する場合がある。

音声応答サーバ処理の詳細としては、図４に示すように、まず、何れかの端末装置１からのパケットを受信したか否かを判定する（Ｓ４２）。パケットを受信していなければ（Ｓ４２：ＮＯ）、Ｓ４２の処理を繰り返す。

また、パケットを受信していれば（Ｓ４２：ＹＥＳ）、通信相手の端末装置１を特定する（Ｓ４４）。この処理では、パケットに含まれる端末装置１のＩＤによって端末装置１を特定する。

続いて、パケットに含まれる音声を認識する（Ｓ４６）。ここで、音声認識ＤＢ１０２においては、多数の音声の波形と多数の文字とが対応付けられている。また、予測変換ＤＢ１０３には、ある単語に続いて利用されがちな単語が対応付けられている。

そこで、この処理では、音声認識ＤＢ１０２および予測変換ＤＢ１０３を参照することで、周知の音声認識処理を実施し、音声を文字情報に変換する。
続いて、撮像画像を画像処理することによって、撮像画像中の物体を特定する（Ｓ４８）。そして、音声の波形や言葉の語尾などに基づいて、使用者の感情を判定する（Ｓ５０）。

この処理では、音声の波形（声色）や言葉の語尾などと、通常、怒り、喜び、困惑、悲しみ、高揚などの感情の区分とが対応付けられた感情判定ＤＢ１１４を参照することによって、使用者の感情が何れかの区分に該当するかを判定し、この判定結果をメモリに記録する。続いて、学習ＤＢ１０７を参照することによって、この使用者がよく話す単語を検索し、音声認識にて生成した文字情報が曖昧であった部位を補正する。

なお、学習ＤＢ１０７には、使用者がよく話す単語や発音時の癖など、使用者の特徴が使用者ごとに記録されている。また、使用者との会話において学習ＤＢ１０７へのデータの追加・修正がなされる。

続いて、補正後の文字情報を入力された文字情報として特定し（Ｓ５４）、文字情報に類似する文章を入力として応答候補ＤＢ１０５から検索することによって、応答候補ＤＢ１０５から応答を取得する（Ｓ５６）。ここで、応答候補ＤＢ１０５には、図５に示すように、入力となる文字情報、第１出力、第１出力の声色、第２出力、第２出力の声色が一義に対応付けられている。

例えば、図５の第１段目に示すように、「今日の※の天気」という文字情報が入力されると、「今日の※の天気は※です」という第１出力が女１の声色に対応付けて出力される。ただし、「※」の部分は、地域名とその地域での数日間の天気予報とが対応付けられた天気ＤＢ１１０にアクセスすることで取得される。

また、「今日の※の天気」という文字情報が入力された場合には、今日の天気が変化するタイミングの天気も天気ＤＢ１１０から取得し、「ただし※は※です。」という第２出力が男１の声色に対応付けて出力される。今日の東京の天気が晴れで明日の天気が雨の場合において「今日の東京の天気」と入力された場合、女１の声色で、「今日の東京の天気は晴れです。」と出力され、男１の声色で、「ただし明日は雨です。」と出力されることになる。

なお、本実施形態では、複数の応答を出力する場合を説明したが、入力に対する回答が１つだけの場合には応答は１つだけになる。このため、応答は１つであるか否かを判定する（Ｓ５８）。応答が１つだけであれば（Ｓ５８：ＹＥＳ）、後述するＳ６２の処理に移行する。

また、応答が複数であれば（Ｓ５８：ＮＯ）、応答内容と声色とを対応付ける（Ｓ６０）。ここで、音声ＤＢ１０４には、人工音声のデータベースが声色毎に格納されており、この処理では、各応答に対して設定された声色を、データベース中の声色と対応付ける。

続いて、応答内容を音声に変換する（Ｓ６２）。この処理では、音声ＤＢ１０４に格納されたデータベースに基づいて、応答内容（文字情報）を音声として出力する処理を行う。

そして、生成した応答（音声）を通信相手の端末装置１にパケット送信する（Ｓ６４）。なお、応答内容の音声を生成しつつパケット送信してもよい。
続いて、会話内容を記録する（Ｓ６８）。この処理では、入力された文字情報と出力された応答内容を会話内容として学習ＤＢ１０７に記録する。この際、会話内容に含まれるキーワード（音声認識ＤＢ１０２に記録された単語）や発音時の特徴などを学習ＤＢ１０７に記録する。

このような処理が終了すると、音声応答サーバ処理を終了する。
［本実施形態による効果］
以上のように詳述した音声応答システム１００は、入力された文字情報に対する応答を音声で行わせるシステムであって、端末装置１（ＭＰＵ３１）は、文字情報に対する複数の異なる応答を取得し、複数の異なる応答をそれぞれ異なる声色で出力させる。

このような音声応答システム１００によれば、複数の応答を異なる声色で出力させることができるので、１の文字情報に対する解が１つに特定できない場合であっても、異なる解を異なる声色で使用者に分かりやすく出力することができる。よって、使用者にとってより使い勝手をよくすることができる。

また、上記音声応答システム１００において端末装置１は、マイク３７を介して使用者による音声を入力し、サーバ９０（演算部１０１）は、入力された音声を文字情報に変換し、該文字情報に対する複数の異なる応答を生成して端末装置１に対して送信する。そして、端末装置１は、サーバ９０から応答を取得する。

このような音声応答システム１００によれば、端末装置１では音声を入力することができるので、文字情報を音声で入力する構成とすることができる。また、サーバ９０において応答を生成する構成とすることができるので、音声応答システム１００での処理負荷を軽減することができる。

さらに、上記音声応答システム１００においてサーバ９０は、使用者の発話による音声を文字情報に変換し、発声時の癖（発音上の癖など）を学習情報として蓄積する（特徴を捉えてこの特徴を記録しておく）。

このような音声応答システム１００によれば、学習情報に基づいて文字情報を生成することができるので、文字情報の生成精度を向上させることができる。
さらに、上記音声応答システム１００においてサーバ９０は、使用者によって入力された音声について、声色から感情を読み取り、通常、怒り、喜び、困惑、悲しみ、高揚のうちの少なくとも１つを含む感情のうちの、何れの感情に該当するかを出力する。

このような音声応答システム１００によれば、使用者の感情に応じて応答を出力することができる。
［第１実施形態の変形例］
本実施形態においては、文字情報を入力する構成として音声認識を利用したが、音声認識に限らず、キーボードやタッチパネル等の入力手段（操作部７０）を利用して入力されてもよい。また、「入力された音声を文字情報に変換」する作動についてはサーバ９０で行ったが、端末装置１で行ってもよい。

さらに、上記音声応答システム１００においてサーバ９０には、複数の文字情報のそれぞれに対して、各文字情報に対する肯定的応答と否定的応答とを含む複数の異なる応答が記録された応答候補ＤＢ１０５、を備え、端末装置１は、複数の異なる応答として肯定的応答と否定的応答とを取得し、肯定的応答と否定的応答とで異なる声色で再生するようにしてもよい。

例えば図５に示す第２段目に示すように、何らかの物を「買ってもよいか」との音声を入力すると、この物について、よい評判などの肯定的情報を女の声を対応付けて出力する。また、その一方で、悪い評判などの否定的情報を肯定的情報が対応付けられた女の声とは異なる声色（ここでは男の声）で出力する。

このような音声応答システム１００によれば、肯定的応答と否定的応答というように、立場の異なる応答を異なる声色で再生することができるので、別人物が話しているように音声を再生することができる。よって、音声を聞く使用者に違和感を覚えさせにくくすることができる。

さらに、上記音声応答システム１００においては、自身の端末装置１または他の端末装置１が出力した応答（例えば、肯定的応答や否定的応答）を文字情報として入力し、この応答に対する反論を行うための応答を生成するようにしてもよい。つまり、使用者の立場からすると、賛成の立場と反対の立場との両方の意見による議論を聞くことができる。そして、この議論を聞いたうえで、使用者は最終判断を行うことができる。

この構成は、１台または複数の端末装置１を用いて実現できる。複数の端末装置１が音声を互いにやり取りするには、音声を直接入出力してもよいし、無線等による通信を利用してもよい。複数の端末装置１とサーバ９０とが通信する場合には、Ｓ６６の処理にて、他の端末装置１にデータを送信すればよい。

さらに、上記音声応答システム１００において演算部１０１は、使用者の行動（会話、移動した場所、カメラに映ったもの）を学習（記録および解析）しておき、使用者の会話における言葉足らずを補うようにしてもよい。

また、このような構成は、電話中に実施することもでき、また、使用者の会話に勝手に参加するよう構成してもよい。
さらに、上記音声応答システム１００においてサーバ９０は、応答候補を所定のサーバ、またはインターネット上から取得するようにしてもよい。

このような音声応答システム１００によれば、応答候補をサーバ９０だけでなく、インターネットや専用線等で接続された任意の装置から取得することができる。
［第２実施形態］
［第２実施形態の処理］
次に、別形態の音声応答システムについて説明する。本実施形態（第２実施形態）以下の実施形態では、第１実施形態の音声応答システム１００と異なる箇所のみを詳述し、第１実施形態の音声応答システム１００と同様の箇所については、同一の符号を付して説明を省略する。

第２実施形態の音声応答システムでは、使用者が文字情報を入力しない場合においても、音声を出力する。詳細には、端末装置１では図６に示す自動会話端末処理を実施する。自動会話端末処理は、例えば端末装置１の電源が投入されると開始される処理であって、その後、繰り返し実行される処理である。

自動会話端末処理では、まず、自動会話をする旨の設定がＯＮ（オン）にされているか否かを判定する（Ｓ８２）。なお、自動会話を行うか否かについては操作部７０を介して、或いは音声を入力することによって使用者が設定可能に構成されている。

自動会話する旨がＯＦＦ（オフ）であれば（Ｓ８２：ＮＯ）、自動会話端末処理を終了する。また、自動会話する旨がＯＮであれば（Ｓ８２：ＹＥＳ）、自動会話モードに設定された旨を、自身を特定するためのＩＤとともにサーバ９０に対して送信する（Ｓ８４）。

続いて、サーバ９０からのパケットを受信したか否かを判定する（Ｓ８６）。パケットを受信していなければ（Ｓ８６：ＮＯ）、Ｓ８６の処理を繰り返す。また、パケットを受信していれば（Ｓ８６：ＹＥＳ）、前述のＳ２２〜Ｓ３０と同様の処理を実施し、これらの処理が終了すると自動会話端末処理を終了する。

また、サーバ９０では、図７に示す自動会話サーバ処理を実行する。自動会話サーバ処理は、例えばサーバ９０の電源が投入されると開始され、その後、繰り返し実行される処理である。

自動会話サーバ処理では、まず、自動会話モードに設定された旨を端末装置１から受信したか否かを判定する（Ｓ９２）。自動会話モードに設定された旨を受信していなければ（Ｓ９２：ＮＯ）、Ｓ９８の処理に移行する。

自動会話モードに設定された旨を受信していれば（Ｓ９２：ＹＥＳ）、受信したパケットに含まれるＩＤに基づいて通信相手となる端末装置１を特定し（Ｓ９４）、この通信相手に対して自動会話する旨を設定する（Ｓ９６）。続いて、自動会話する旨を設定した端末装置１のそれぞれについて、再生条件を満たすか否かを判定する（Ｓ９８）。

ここで、再生条件とは、例えば、前回の会話（音声入力）から一定時間が経過していることや、１日のあるきまった時刻、特定の天気のとき、何れかのセンサ値が異常を示す値であるときなどを示す。

再生条件を満たしていなければ（Ｓ９８：ＮＯ）、自動会話サーバ処理を終了する。また、再生条件を満たしていれば（Ｓ９８：ＹＥＳ）、再生条件に応じたメッセージを生成する（Ｓ１００）。

ここで、再生条件に応じたメッセージとは、例えば、「おはようございます。」や「こんにちは。」等の定型文であってもよいし、最新のニュースが自動更新されるニュースＤＢ１０９から得られる最新のニュースに関するものであってもよい。最新のニュースに関するものをメッセージとする場合には、例えば、ある会社の株価に関する情報を取得できた場合には、「今日の○○会社の株価が○○円上がりましたね。ご存じでしたか？」などとすることができる。

この処理が終了すると、前述のＳ４２〜Ｓ５４の処理を実施する。そして、Ｓ５４の処理が終了すると、通信相手となる端末装置１から所定の回答が得られたか否かを判定する（Ｓ１１２）。ここで、所定の回答とは、例えば、何らかの音声であってもよいし、特定の解答であってもよい。特定の解答とは、例えば、「知っていますか？」との質問に対しては、「知っている」または「知らない」という回答が該当し、「今の天気はどうですか？」という質問に対しては、「雨です」や「晴れています」など、天気を示す単語を含むものが該当する。

所定の回答があれば（Ｓ１１２：ＹＥＳ）、自動会話サーバ処理を終了する。また、所定の回答がなければ（Ｓ１１２：ＮＯ）、Ｓ１００にて送信したメッセージを再送する（Ｓ１１４）。このようにメッセージを再送する際には、声色を変化させ、語気を強く、かつ厳しい口調の音声を生成する。

続いて、予め端末装置１と通報先とが対応付けられた通報先ＤＢ１１７を参照し、所定の通報先に回答がなかった旨を送信する（Ｓ１１６）。このような処理が終了すると、自動会話サーバ処理を終了する。

［第２実施形態による効果］
上記の音声応答システム１００においてサーバ９０は、文字情報が入力されない場合において、当該音声応答システム１００の状況が予め音声を出力させる条件として設定された再生条件に合致するか否かを判定する。そして、再生条件に合致する場合に、予め設定されたメッセージを出力させる。

このような音声応答システム１００によれば、文字情報が入力されない場合（つまり、使用者が話しかけない場合）であっても、音声を出力させることができる。例えば、強制的に使用者に発話させることで、自動車運転中の眠気抑制対策に利用することができる。また、一人暮らしの者が応答するか否かを判定することで、安否確認を行うことができる。

また、上記音声応答システム１００においてサーバ９０は、ニュースの情報を取得し、該ニュースに関するメッセージを使用者の回答を求める質問形式で出力させる。
このような音声応答システム１００によれば、ニュースに関する会話をすることができるので、いつも同じ会話ばかりになることを抑制することができる。

さらに、上記音声応答システム１００においてサーバ９０は、予め設定されたメッセージに別途取得した（ニュースや環境（気温、天気、位置情報等の）外部取得情報を付加して出力させる。

このような音声応答システム１００によれば、所定のメッセージと取得した情報とを組み合わせた応答を出力することができる。
さらに、上記音声応答システム１００においてサーバ９０は、応答やメッセージに対する回答が得られない場合に、予め設定された連絡先に対して、使用者を特定する情報、および回答が得られなかった旨を送信する。

このような音声応答システム１００によれば、回答が得られない場合に連絡先に通報することができる。よって、例えば、一人暮らしの老人等の異常を早期に通報することができる。

［第２実施形態の変形例］
また、上記音声応答システム１００においてサーバ９０は、複数のメッセージを取得し、メッセージの再生頻度に応じて再生するメッセージを選択して出力させるようにしてもよい。

このような音声応答システム１００によれば、再生頻度が高いメッセージを再生しにくくすることで、メッセージ再生時のランダム性を奏したり、敢えて再生頻度が高いメッセージを繰り返し再生することで注意喚起や記憶の定着を促したりすることができる。

［第３実施形態］
［第３実施形態の処理］
次に第３実施形態の音声応答システムでは、使用者が誰かに直接は言いにくいことを端末装置１が代わりに伝える構成としている。例えば、デート前に、今日はこのようなことを言いたいと本装置に話しかけておくと、適当なタイミング（例えば予め設定した時刻や、会話が途切れてから一定時間が経過した場合など）で、音声応答システム１００が代わりに話してくれる（音声を再生する）ようにする。

詳細には、端末装置１は図８に示す伝言端末処理を実施し、サーバ９０は図９に示す伝言サーバ処理を実施する。伝言端末処理は例えば端末装置１の電源が投入されると開始され、その後、繰り返し実行される処理である。

伝言端末処理では、図８に示すように、まず、使用者によって伝言モードが設定されているか否かを判定する（Ｓ１３２）。伝言モードが設定されていなければ（Ｓ１３２：ＮＯ）、Ｓ１３２の処理を繰り返す。

また、伝言モードが設定されていれば（Ｓ１３２：ＹＥＳ）、Ｓ２〜Ｓ８の処理を実施し、Ｓ６にて肯定判定された場合には、端末装置１のメモリ内において、伝言モードフラグをＯＮ状態に設定する（Ｓ１３４）。そして、Ｓ１０〜Ｓ１６の処理を実施する。

Ｓ１６にて肯定判定された場合には、サーバ９０からのパケットを受信したか否かを判定する（Ｓ１３６）。パケットを受信していなければ（Ｓ１３６：ＮＯ）、Ｓ１３６の処理を繰り返す。また、パケットを受信していれば（Ｓ１３６：ＹＥＳ）、Ｓ２４〜Ｓ３０の処理を実施し、伝言端末処理を終了する。

次に、伝言サーバ処理は、例えばサーバ９０の電源が投入されると開始される処理であり、その後、繰り返し実行される。詳細には、まず、何れかの端末装置１からパケットを受信したか否かを判定する（Ｓ１４２）。パケットを受信していなければ（Ｓ１４２：ＮＯ）、後述するＳ１５６の処理に移行する。

また、パケットを受信していれば（Ｓ１４２：ＹＥＳ）、通信相手の端末装置１を特定し（Ｓ４４）、パケットに伝言モードフラグ等のモードフラグが含まれているか否かを判定する（Ｓ１４４）。モードフラグがなければ（Ｓ１４４：ＮＯ）、Ｓ１４８の処理に移行する。

また、モードフラグがあれば（Ｓ１４４：ＹＥＳ）、サーバ９０においても通信相手の端末装置１に対応するフラグをＯＮ状態に設定することでモード設定をする（Ｓ１４６）。例えば、伝言モードフラグが対応する伝言モードであれば、後述するＳ４６〜Ｓ１５２の処理が実施され、後述する誘導モードフラグが対応する誘導モードであれば、Ｓ４６〜Ｓ１７６（図１１参照）が実施されることになる。

続いて、伝言フラグがＯＮ状態であるか否かを判定する（Ｓ１４８）。伝言フラグがＯＮ状態であれば（Ｓ１４８：ＹＥＳ）、Ｓ４６〜Ｓ５４の処理を実施し、続いて、伝言再生条件を抽出する（Ｓ１５０）。

ここで、伝言再生条件は、予め使用者が端末装置１の操作部７０を介して設定可能であって、例えば、時刻や位置が該当する。なお、伝言再生条件は、伝言端末処理のパケット送信の際にサーバ９０に送信される。

続いて、伝言と音声（声色）とを対応付けて、メモリに記録し（Ｓ１５２）、Ｓ１５６の処理に移行する。また、伝言フラグがＯＦＦ状態であれば（Ｓ１４８：ＮＯ）、他のモードに関する処理を行い（Ｓ１５４）、再生タイミングになったか否かを判定する（Ｓ１５６）。ここで、再生タイミングとは、伝言再生条件で設定された内容を示す。

再生タイミングでなければ（Ｓ１５６：ＮＯ）、直ちに伝言サーバ処理を終了する。また、再生タイミングであれば（Ｓ１５６：ＹＥＳ）、Ｓ６２〜Ｓ６４の処理を実施し、伝言サーバ処理を終了する。

［第３実施形態による効果］
このような第３実施形態の音声応答システムによれば、使用者が入力した音声を直ちに再生するのではなく、一定時間後において伝言再生条件が成立したときに再生することができる。

例えば、図５の第３段目に示すように、「○○さんに○○と伝えてね」と入力すると、○○さんの声が認識されてから（聞こえてから）、伝えたい文章が再生されることになる。

［第３実施形態の変形例］
上記第３実施形態においては、使用者が話した内容を再生するよう構成したが、言いにくいことのきっかけになる言葉、例えば「そういえば何か彼女に話すって言ってなかったっけ？」のような言葉、を話す構成としてもよい。詳細には、端末装置１は図１０に示す誘導端末処理を実施し、サーバ９０は図１１に示す誘導サーバ処理を実施する。

誘導端末処理は、例えば端末装置１の電源が投入されると開始され、その後、繰り返し実行される処理である。例えば端末装置１の電源が投入されると開始され、その後、繰り返し実行される処理である。

誘導端末処理では、図１０に示すように、まず、使用者によって誘導モードが設定されているか否かを判定する（Ｓ１６２）。誘導モードが設定されていなければ（Ｓ１６２：ＮＯ）、Ｓ１６２の処理を繰り返す。

また、誘導モードが設定されていれば（Ｓ１６２：ＹＥＳ）、Ｓ２〜Ｓ８の処理を実施し、Ｓ６にて肯定判定された場合には、端末装置１のメモリ内において、誘導モードフラグをＯＮ状態に設定する（Ｓ１６４）。そして、Ｓ１０〜Ｓ１６の処理を実施する。

Ｓ１６にて肯定判定された場合には、サーバ９０からのパケットを受信したか否かを判定する（Ｓ１６６）。パケットを受信していなければ（Ｓ１６６：ＮＯ）、Ｓ１６６の処理を繰り返す。また、パケットを受信していれば（Ｓ１６６：ＹＥＳ）、Ｓ２４〜Ｓ３０の処理を実施し、誘導端末処理を終了する。

次に、誘導サーバ処理は、例えばサーバ９０の電源が投入されると開始され、その後、繰り返し実行される処理である。詳細には、前述のＳ１４２〜Ｓ１４６の処理を実行する。そして、誘導フラグがＯＮ状態であるか否かを判定する（Ｓ１７２）。

誘導フラグがＯＮ状態であれば（Ｓ１７２：ＹＥＳ）、Ｓ４６〜Ｓ５４の処理を実施し、続いて、誘導再生条件を抽出する（Ｓ１７４）。
ここで、誘導再生条件においても伝言再生条件と同様に、予め使用者が端末装置１の操作部７０を介して設定可能であって、例えば、時刻や位置が該当する。なお、誘導再生条件は、伝言端末処理のパケット送信の際にサーバ９０に送信される。

続いて、誘導内容を生成し、この誘導内容と音声（声色）とを対応付けて、メモリに記録する（Ｓ１７６）。ここで誘導内容としては、例えば、入力された文字情報に含まれる「したい」「希望」などの願望を表す単語を検索し、これらの単語の前のキーワードを抽出し、これらのキーワードを誘導する言葉として登録された言葉を誘導内容として出力する。なお、キーワードと誘導内容を示す言葉とは、予め対応付けられて応答候補ＤＢ１０５に記録されている。

続いて、前述のＳ１５６以下の処理を実施し、サーバ処理を終了する。また、誘導フラグがＯＦＦ状態であれば（Ｓ１７２：ＮＯ）、他のモードに関する処理を行い（Ｓ１５４）、前述のＳ１５６以下の処理を実施し、サーバ処理を終了する。

このような第３実施形態の変形例の構成によれば、使用者が言いたい言葉を直接出力するのではなく、言いたい言葉を話せるように誘導することができる。
［第４実施形態］
［第４実施形態の処理］
次に、端末装置１を受付業務に使用する例について説明する。本実施形態においては、端末装置１は会社の受付などに設置される。なお、会社の代表電話やテレホンバンキングなどの電話受付に採用することもできる。ここで、本実施形態では、第１実施形態におけるＳ５６の処理を、図１２に示す受付処理に置き換えることによって実現される。

受付処理では、図１２に示すように、まず、文字情報に会社名が含まれるか否かを判定する（Ｓ１９２）。この処理では、一般的な名前や会社名（音声認識ＤＢ１０２に記録されたもの）が含まれているか否かを判定する。

文字情報に会社名または個人名が含まれていなければ（Ｓ１９２：ＹＥＳ）、会社名および個人名を尋ねるための応答を生成し（Ｓ１９４）、受付処理を終了する。この処理では、例えば、「お名前とご用件をお話しください。」などの応答を生成する。

文字情報に会社名または個人名が含まれていれば（Ｓ１９２：ＮＯ）、この会社名や個人名をセールスＤＢ１１８およびクライアントＤＢ１１９から抽出する（Ｓ１９６）。ここで、セールスＤＢ１１８には、過去にセールスに来た会社および担当者、或いは苦情ばかり話すクレーマーの名前等が記録されている。また、クライアントＤＢ１１９には、会社名やその会社の担当者、端末装置１の利用者側（自社側）の担当者、面会予定時刻等のスケジュール、担当者ごとに連絡先が対応付けて記録されている。

続いて、会社名や個人名をセールスＤＢ１１８から抽出できたか否か、つまり、文字情報に含まれる会社名や個人名がセールスＤＢ１１８に含まれていたか否かを判定する（Ｓ１９８）。会社名や個人名をセールスＤＢ１１８から抽出できていれば（Ｓ１９８：ＹＥＳ）、セールスを断る旨のセールスお断り応答（取次ぎを断る応答）を生成し（Ｓ２００）、受付処理を終了する。

また、会社名や個人名をセールスＤＢ１１８から抽出できていなければ（Ｓ１９８：ＮＯ）、受付に来た者がクライアントＤＢ１１９内のスケジュールにおいて、近い時刻（例えば、現在時刻の前後１時間以内）に訪問してくる者か否かを判定する（Ｓ２０２）。近い時刻に訪問してくる者であれば（Ｓ２０２：ＹＥＳ）、この者を担当する担当者の連絡先をクライアントＤＢ１１９から抽出し、この担当者と受付に来た者とが会話をできるように、この担当者に接続する（Ｓ２０４）。この処理では、担当者の内線電話、携帯電話等に接続すればよい。

続いて、クライアント用の受付応答を生成する（Ｓ２０６）。ここで、クライアント用の受付応答としては、例えば、「○○様、いつもありがとうございます。担当者に接続しておりますのでしばらくお待ちください。」のような応答を生成する。このような処理が終了すると、受付処理を終了する。

また、近い時刻に訪問してくる者でなければ（Ｓ２０２：ＮＯ）、予め設定された受付用の連絡先に接続し、この担当者と受付に来た者とが会話をできるように、この受付担当者に接続する（Ｓ２０８）。そして、通常受付応答を生成する（Ｓ２１０）。

ここで、通常受付応答としては、例えば、「受付に接続しておりますのでしばらくお待ちください。」のような応答を生成する。このような処理が終了すると、受付処理を終了する。

［第４実施形態による効果］
上記音声応答システム１００においては、仕事場や会社の受付で利用する構成としている。この構成では、セールスに来る者の名前と会社名をサーバ９０のセールスＤＢ１１８に予め記録しておき、受付に来たものが、この名前や会社名を名乗った場合には、断る文句の音声を再生するように、応答を生成する。

また、上記音声応答システム１００においてサーバ９０は、入力された文字情報によって通信相手を特定し、通信相手毎に予め設定された通信先と通信相手とを接続する。
このような音声応答システム１００によれば、受付業務や電話対応を補助することができる。また、このような音声応答システム１００によれば、使用者の業務に支障がある虞がある者を、自身が対応することなく排除することができる。

さらに、上記音声応答システム１００においてサーバ９０は、入力された文字情報（特に音声）に含まれるキーワードを抽出し、キーワードが該当する接続先に接続する。なお、例えば相手先の名称等のキーワードとその接続先とは予め対応付けられている。

このような音声応答システム１００によれば、電話の転送や受付への呼び出し等の業務を補助することができる。
［第４実施形態の変形例］
上記実施形態では、相手先に応じて接続先を設定するよう構成したが、この技術を応用して、例えば、テレホンバンキングやテレホンショッピング等の電話受付において、要件（文字情報に含まれるキーワード）を認識し、要件に応じて接続先を変更するようにしてもよい。

また、上記音声応答システム１００においてサーバ９０は、キーワードに基づいて相手が話す要件を認識し、相手が話した概要を使用者に伝えるようにしてもよい。
このような音声応答システム１００によれば、客先との取次の業務を補助することができる。

［第５実施形態］
［第５実施形態の処理］
次に、端末装置１は、他の端末装置１からの要求を受けて、他の端末装置１が求める情報を提供するようにしてもよい。

このように構成する場合、サーバ９０は、Ｓ５６の処理において、必要な情報を他の端末装置１に要求し、他の端末装置１から必要な情報を取得した上で応答を生成する。そして、必要な情報を提供する端末装置１では、図１３に示す情報提供端末処理が実施される。情報提供端末処理は、例えば、サーバ９０からの要求があると開始される処理である。

情報提供端末処理は、図１３に示すように、まず、情報提供先を抽出する（Ｓ２２２）。この情報提供先は、情報を要求する他の端末装置１を示し、この他の端末装置１を特定するためのＩＤがサーバ９０からの要求に含まれている。

続いて、情報の提供を許可する相手であるか否かを判定する（Ｓ２２４）。ここで、端末情報ＤＢ１１３には、家族や友人等、情報の提供を許可する相手のＩＤが予め記録されている。この処理ではこの端末情報ＤＢ１１３を参照することで判定を行う。

情報の提供を許可する相手であれば（Ｓ２２４：ＹＥＳ）、自身のメモリ３９や各種センサ類等から要求された情報を取得し（Ｓ２２６）、このデータをサーバ９０に送信する（Ｓ２２８）。また、情報の提供を許可する相手でなければ（Ｓ２２４：ＮＯ）、情報の提供を拒否する旨をサーバ９０に送信する（Ｓ２３０）。

このような処理が終了すると、情報提供端末処理を終了する。
この構成では、例えば、図５の第４段目に示すように、「○○さんは何をしているか」という質問に対して、サーバ９０は○○さんの端末装置１に位置情報を要求し、この端末装置１は位置情報を返す。

そして、サーバ９０は位置情報に基づいて○○さんの行動を認識する。例えば、線路上を人間の走る速度よりも速い速度で移動していれば、電車に乗って移動中と判断し、「○○さんは電車の中にいます。帰宅中のようです。」などと応答を生成することになる。

［第５実施形態による効果］
上記音声応答システム１００においてサーバ９０は要求元の端末装置１とは異なる他の端末装置１から他の端末装置１に記録されている情報を取得し、他の端末装置１に提供する。つまり、上記音声応答システム１００においてサーバ９０は、文字情報に対する応答を生成するための情報を他の端末装置１から取得する。

このような音声応答システム１００によれば、他の端末装置１に記録された情報に基づいて応答を生成することができる。
また、上記音声応答システム１００において端末装置１は、文字情報に対する応答を生成するための情報を他の端末装置１から要求された場合、この要求に応じた情報を返す。

この構成において端末装置１は、位置情報、温度、湿度、照度、騒音レベル等を検出するためのセンサ類や、辞書情報などのデータベースを備えておき、要求に応じて必要な情報を抽出する。

このような音声応答システム１００によれば、他の端末装置１の位置等、他の端末装置１固有の情報を取得することができる。また、他の端末装置１に自身固有の情報を送信することができる。

［第６実施形態］
［第６実施形態の処理］
次に、第６実施形態の音声応答システムでは、使用者または使用者に関係がある者を表す関係者の性格を予め設定された区分に従って対応付けた性格情報が記録された性格ＤＢ１０６を準備している。性格ＤＢ１０６は、例えば、図１４に示すように、使用者や関係者の名前と、これらの者の性格区分とを対応付けて記録されている。

また、図１４に示す性格ＤＢ１０６では、使用者や関係者に性格テストを実施し、そのテスト結果についても記録している。ここで、性格情報を生成する際には、周知の性格分析技術（ロールシャッハ・テスト、ソンディ・テスト等）を利用すればよい。また、性格情報を生成する際には、企業等が採用試験に利用する適性検査の技術を利用してもよい。

性格情報を生成する際には、例えば図１５に示す性格情報生成処理を実施する。性格情報生成処理は、例えば、端末装置１において操作部７０等を用いて性格情報を生成する旨が入力されると開始される処理である。

性格情報生成処理では、図１５に示すように、まず、マイク３７をＯＮ状態とし（Ｓ２４２）、所定の４択問題の１つを音声で出力する（Ｓ２４４）。この際、４択問題については、サーバ９０から取得してもよいし、予めメモリ３９に記録された問題を出題してもよい。

続いて、対象者（使用者またはその関係者）から音声で回答があったか否かを判定する（Ｓ２４６）。回答がなければ（Ｓ２４６：ＮＯ）、Ｓ２４６の処理を繰り返す。
また、回答があれば（Ｓ２４６：ＹＥＳ）、言葉の語尾、会話スピード等の会話パラメータを抽出し（Ｓ２４８）、現在の問題が最終問題であるか否かを判定する（Ｓ２５０）。最終問題でなければ（Ｓ２５０：ＮＯ）、次の問題を選択し（Ｓ２５２）、Ｓ２４２の処理に戻る。

また、最終問題であれば（Ｓ２５０：ＹＥＳ）、４択問題を回答することによる性格分析を行い（Ｓ２５４）、会話パラメータによる性格分析を行う（Ｓ２５６）。ここで、会話パラメータによる性格分析では、自分に自信がある人は語尾が強く、自信がない人は語尾が弱くなる傾向や、せっかちな人は会話スピードが速く、おっとりした人は会話スピードが遅い傾向等を捉えることができる。

続いて、これらの性格分析結果を加重平均するなど、総合的に分析し（Ｓ２５８）、性格区分に振り分ける（Ｓ２６０）。詳細には、テストによって得られた対象者の性格を点数化し、点数ごとに性格区分に振り分ける。

続いて、対象者と性格区分とを対応付けて（Ｓ２６２）、性格ＤＢ１０６に記録させる（Ｓ２６４）。つまり、対象者と性格区分との関係をサーバ９０に送信する。なお、このとき、テスト結果についてもサーバ９０に送信し、サーバ９０は図１４に示すような性格ＤＢ１０６を構築する。このような処理が終了すると、性格情報生成処理を終了する。

このように生成された性格ＤＢ１０６を利用する際には、性格区分と異なる応答とを対応付けたものを応答候補ＤＢ１０５において準備しておく。そして、サーバ９０はＳ５６の処理にて、文字情報に対する複数の異なる応答を表す応答候補を取得し、性格情報に応じて応答候補から出力させる応答を選択し、Ｓ６０、Ｓ６４の処理にて、該選択した応答を出力させる。

［第６実施形態による効果］
上記音声応答システム１００において端末装置１は、予め設定された複数の質問に対する回答に基づいて使用者または関係者の性格情報を生成し、生成された性格情報を取得する。

このような音声応答システム１００によれば、性格情報をサーバ９０や端末装置１において生成することができる。
さらに、上記音声応答システム１００において演算部１０１は、入力された文字情報に含まれる文字列に基づいて使用者または関係者の性格情報を生成する。

このような音声応答システム１００によれば、使用者が音声応答システム１００を利用する過程で性格情報を生成することができる。
また、このような音声応答システム１００によれば、使用者や使用者に関係がある者（関係者）の性格に応じて異なる応答を行うことができる。よって、使用者にとって使い勝手を良くすることができる。

［第６実施形態の変形例］
上記第６実施形態では、性格に応じて応答を１つに絞ってから出力してもよいし、複数の応答に対してそれぞれ異なる声色の音声を対応付けて出力してもよい。

また、上記性格情報生成処理のうちの、Ｓ２４８、Ｓ２５４〜Ｓ２６４の処理は、サーバ９０において実施してもよい。この場合、第１実施形態等と同様に、サーバ９０に端末装置１を特定させつつ、端末装置１とサーバ９０との間で音声や問題をやりとりすればよい。

さらに、上記音声応答システム１００においてサーバ９０は、使用者の行動および操作のうちの何れかを検出し、これらに基づいて学習情報または性格情報を生成するようにしてもよい。

このような音声応答システム１００によれば、例えば、使用者が数日間連続で電車に飛び乗ることを検出した場合には、翌日からは数分早く家を出るよう促したり、会話から使用者に怒りやすい傾向があることを検出した場合には、気分を抑える音声や音楽を出力したりすることができる。

［第７実施形態］
［第７実施形態の処理］
次に、第７実施形態の音声応答システムでは、使用者や関係者の嗜好を予め設定された区分に従って対応付けた嗜好情報が記録された嗜好ＤＢ１０８を準備している。嗜好ＤＢ１０８は、例えば、図１６に示すように、使用者や関係者の名前と、これらの者の嗜好が、食の好み（食）、色の好み（色）、趣味、等の嗜好の種別のそれぞれに対して対応付けて記録されている。

特に、食の好みについては、甘党（甘）、辛党（辛）、その中間である並、色の好みについては、暖色系（暖）、寒色系（寒）、その中間である並、趣味については、インドア系の趣味（内）、アウトドア系の趣味（外）、インドア・アウトドア両方の趣味（内外）に分類している。

このような嗜好ＤＢ１０８を構築する際には、例えば、図１７に示す嗜好情報生成処理を実行する。嗜好情報生成処理は、例えば、Ｓ４８〜Ｓ５４の間で実施される。
詳細には、図１７に示すように、文字情報から嗜好に関するキーワードを抽出し（Ｓ２８２）、画像処理によって特定された物体のうち、嗜好に関するものを抽出する（Ｓ２８４）。なお、嗜好に関するキーワードは、嗜好ＤＢ１０８において、嗜好の種別とその種別の中での分類（食の好みであれば甘、並、辛など）とが対応付けられており、これらの処理では抽出したキーワードや物体が嗜好ＤＢ１０８に含まれている場合に、嗜好に関するものとして抽出される。

続いて、嗜好に関するキーワードのグループごとにカウンタをインクリメントする（Ｓ２８８）。例えば、キムチのように、嗜好の種別が「食の好み」であり、種別が「辛」であるものが抽出された場合には、「食の好み」「辛」が対応するカウンタをインクリメントする。

そして、カウンタ値に基づいて、嗜好情報（嗜好ＤＢ１０８）を更新する（Ｓ２９０）。つまり、「嗜好の種別」ごとに、最もカウンタ値が大きな「種別」が最も嗜好に合致しているものとして、使用者や関係者の嗜好の特徴として嗜好ＤＢ１０８に記録する。このような処理が終了すると、嗜好情報生成処理を終了する。

このように生成された嗜好ＤＢ１０８を利用する際には、嗜好毎に異なる応答を対応付けたものを応答候補ＤＢ１０５において準備しておき、サーバ９０はＳ５６の処理にて、文字情報に対する複数の異なる応答を表す応答候補を取得し、嗜好情報に応じて応答候補から出力させる応答を選択し、Ｓ６０、Ｓ６４の処理にて、該選択した応答を出力させる。

［第７実施形態による効果］
上記音声応答システム１００においてサーバ９０は、文字情報に含まれる文字列に基づいて使用者または関係者の嗜好の傾向を示す嗜好情報を生成する。そして、嗜好情報に基づいて応答候補から出力させる応答を選択し、該選択した応答を出力させる。

このような音声応答システム１００によれば、使用者または関係者の好みに応じて応答を行うことができる。例えば、使用者が関係者のプレゼントを買う際に、「○○さんは何がほしいかな」と端末装置１に問いかけると、嗜好情報に応じた応答を得ることができる。

［第７実施形態の変形例］
応答候補ＤＢ１０５においては、図１８に示すように、性格区分と嗜好情報とを対応付けたテーブルを持たせておいてもよい。

例えば、図１８に示す例では、性格区分と色に関する好みとを対応付けて、女性がプレゼントとして貰えると喜ぶと推定できる商品をマトリクス状に配置している。
Ｓ５６の処理では、このように性格と嗜好との両方を加味して応答を生成することもできる。

［第８実施形態］
［第８実施形態の処理］
上記実施形態では、音声を文字情報に変換したが、使用者による動作を文字情報に変換するようにしてもよい。

詳細には、端末装置１は、使用者の動作を撮像画像として捉えてサーバ９０に送信し、サーバ９０では、例えば、図１９に示す動作文字入力処理を実施すればよい。動作文字入力処理は、Ｓ４８の処理にて撮像画像中に使用者の体の部位が映っていた場合に開始される処理である。

動作文字入力処理では、図１９に示すように、まず、撮像画像を取得する（Ｓ３０２）。そして、使用者が手書きで文字を入力しようとしているか、手話で文字を入力しようとしているかを判定する（Ｓ３０４、Ｓ３０８）。

これらの処理では、例えば、撮像画像に使用者の上半身が顔とともに映っている場合には、手話で文字を入力しようとしていると判定し、撮像画像に使用者の顔が映ることなく使用者の手が映っている場合には、手書きで文字を入力しようとしていると判定する。

手書きで文字を入力しようとしてれば（Ｓ３０４：ＹＥＳ）、指先またはペン先の挙動を記録し（Ｓ３０６）、この挙動に基づいて挙動を文字情報に変換する（Ｓ３１２）。ここで、手書き文字・手話ＤＢ１１２には、文字を手書きする際の挙動と文字とが対応付けられており、また、手の動きと手話により表現される文字とが対応付けられている。Ｓ３１２の処理では、手書き文字・手話ＤＢ１１２を参照することによって、文字情報を生成する。

また、手話で文字を入力しようとしてれば（Ｓ３０４：ＮＯ、Ｓ３０８：ＹＥＳ）、手書き文字・手話ＤＢ１１２を参照して手話内容を認識し、前述のＳ３１２の処理を実施する。また、手書きや手話で文字を入力しようとしてなければ（Ｓ３０８：ＮＯ）、他の方式による入力の処理を行う（Ｓ３１４）。

続いて、動作によって入力された文字と音声によって入力された文字とを対応付け、類似性がある音声があるか否か（文字に基づく基準波形と発音波形との一致度が基準値以上か否か）を判定する（Ｓ３１６）。このような音声入力があれば（Ｓ３１６：ＹＥＳ）、この使用者がこの文字を入力するときのアクセントや発音の特徴を、文字と対応付けて学習ＤＢ１０７に記録し（Ｓ３１８）、動作文字入力処理を終了する。

また、このような音声入力がなければ（Ｓ３１６：ＮＯ）、動作文字入力処理を終了する。
［第８実施形態による効果］
上記音声応答システム１００においては、使用者による動作を文字情報に変換するので、使用者が声を出すことなく文字情報を入力することができる。

［第８実施形態の変形例］
本実施形態の動作としては、文字の手書き、或いは身振り手振り（例えば手話）だけでなく筋肉の動作に起因するものであればよい。

［第９実施形態］
［第９実施形態の処理］
学習ＤＢ１０７の内容は、使用者が普段利用する端末装置１とは別の他の端末装置１を利用する場合に、この他の端末装置１において利用できるようにしてもよい。この場合、他の端末装置１から、利用要求とともに、普段利用する端末装置１のＩＤとパスワードをサーバ９０に対して送信する。

そして、サーバ９０では、図２０に示す他端末利用処理を実行する。他端末利用処理は、利用要求を受けると開始される処理である。
他端末利用処理では、図２０に示すように、まず、ＩＤとパスワードが入力されたか否かを判定する（Ｓ３３２）。ＩＤとパスワードが入力されていなければ（Ｓ３３２：ＮＯ）、Ｓ３３２の処理を繰り返す。

また、ＩＤとパスワードが入力されていれば（Ｓ３３２：ＹＥＳ）、ＩＤとパスワードによる認証が完了したか否かを判定する（Ｓ３３４）。認証が完了していれば（Ｓ３３４：ＹＥＳ）、認証が完了した旨を他の端末装置１に送信し（Ｓ３３６）、他の端末装置１がＩＤとパスワードが対応する端末装置１の学習ＤＢ１０７を利用するよう設定する（Ｓ３３８）。

認証が完了しなければ（Ｓ３３４：ＮＯ）、エラーである旨を他の端末装置１に送信し（Ｓ３４０）、他端末利用処理を終了する。
［第９実施形態による効果］
また、上記音声応答システム１００においてサーバ９０は、ある端末装置１の学習情報を他の端末装置１に転送する。

このような音声応答システム１００によれば、ある端末装置１を利用する使用者が他の端末装置１を利用する場合においても、ある端末装置１で記録された学習情報（サーバ９０に記録された学習情報）を利用することができる。よって、他の端末装置１を利用する場合においても文字情報の生成精度を向上させることができる。特に、使用者が端末装置１を複数所持する場合に有効である。

さらに、上記音声応答システム１００においてサーバ９０は、使用者以外の者から問い合わせに対して使用者についての情報を出力する。
このような音声応答システム１００によれば、例えば、使用者の食事内容な散歩の距離などを検出しておけば、病院等での質問に使用者に代わって回答することができる。また、健康状態や自己紹介など学習しておくようにしてもよい。

［第９実施形態の変形例］
第９実施形態の構成と同様に、利用を終了する要求と、ＩＤおよびパスワードを受けると、ＩＤおよびパスワードが対応する端末装置１に対する学習ＤＢ１０７の利用を終了（禁止）するようにしてもよい。

［第１０実施形態］
［第１０実施形態の処理］
第１０実施形態の音声応答システムでは、サーバ９０が、会話内容を記憶し、聞いた内容について同じ内容を得るための質問をする。詳細には、図７に示す自動会話サーバ処理のＳ１００において、図２１に示す記憶確認処理を実行する。

記憶確認処理では、図２１に示すように、過去の会話内容を学習ＤＢ１０７から抽出し（Ｓ３５２）、このうちの何れかの会話内容に含まれるキーワードを解答とする質問を生成する（Ｓ３５３）。このような処理が終了すると記憶確認処理を終了する。

記憶確認処理では、例えば、「昨日の夕食のメニューは何でしたか」や、「３日前にどこに出かけましたか」などと質問すればよい。
［第１０実施形態による効果］
このような音声応答システム１００によれば、使用者の記憶力の確認をするとともに、記憶の定着を図ることができる。高齢者の認知症の進行を抑制するためにも有効であると考えられる。

［第１１実施形態］
［第１１実施形態の処理］
次に、第１１実施形態の音声応答システムでは、端末装置１およびサーバ９０を利用して使用者が外国語の練習を行えるよう構成している。

詳細には、図２２に示す発音判定処理１と図２３に示す発音判定処理２と図２４に示す発音判定処理３とを順に実行する。ただし、サーバ９０は、音声応答サーバ処理（図２）の実施毎に、発音判定処理１〜３の各処理のうちの１つを実行する。また、発音判定処理１〜３の各処理は、前述のＳ５６の処理として実行される。

まず、発音判定処理１では、図２２に示すように、所定の文章を音声で入力するよう指示する旨の応答を生成する（Ｓ３６２）。この処理では、例えば、外国語の手本となる文章を生成し、この文章を手本に続いて真似て話すよう促す。この処理が終了すると、発音判定処理１を終了する。

次に、発音判定処理１に伴って音声が入力されると、発音判定処理２を実施する。発音判定処理２では、図２３に示すように、発音およびアクセントの正確性をスコア（点数）化する（Ｓ３７２）。この処理では、音声は波形として捉え、このとき手本となる文章を波形としたときとの波形の一致度合をスコア化する。

そして、このスコアをメモリに記録し（Ｓ３７４）、発音判定処理２を終了する。続いて、発音判定処理３を実施する。発音判定処理３では、図２４に示すように、まず、スコアが閾値未満であるか否かを判定する（Ｓ３８２）。

スコアが閾値未満であれば（Ｓ３８２：ＹＥＳ）、再度、同様の文章を入力するよう指示する旨の応答を生成する（Ｓ３８４）。この処理では、例えば、再度、手本に続いて真似て話すよう促すための応答を生成する。

また、スコアが閾値以上であれば（Ｓ３８２：ＮＯ）、発音がよかった旨および次の文章を入力するよう促す応答を生成する（Ｓ３８６）。例えば、「よい発音です。次に進みましょう。」などと応答を生成する。

このような処理が終了すると、発音判定処理３を終了する。
［第１１実施形態による効果］
上記音声応答システム１００においてサーバ９０は、使用者が入力する音声の発音やアクセントの正確度合を検出し、検出した正確度合を出力する。

このような音声応答システム１００によれば、発音やアクセントの正確性を確認することができる。例えば外国語の練習を行う際に有効である。
さらに、上記音声応答システム１００においてサーバ９０は、正確度合が一定値以下の場合に、再度、同じ質問を出力させる。

このような音声応答システム１００によれば同じ質問を出力することによって正確な回答を求めることができる。
［第１１実施形態の変形例］
上記音声応答システム１００においてサーバ９０は、正確度合が一定値以下の場合に、確認のために、使用者が行った発音に最も近い単語を含む音声を出力するようにしてもよい。

このような音声応答システム１００によれば、使用者が発音やアクセントの正確性を確認することができる。
［第１２実施形態］
［第１２実施形態の処理］
次に第１２実施形態の音声応答システムについて説明する。第１２実施形態の音声応答システムでは、使用者が入力した音声から使用者の感情を検出し、感情に応じて使用者を癒す応答を生成する。

詳細には、図２５に示す感情判定処理と、図２６に示す感情応答生成処理とを実行する。感情判定処理は、前述のＳ５０の処理の詳細として実施され、図２５に示すように、まず、声色、文章の語尾の強弱、一文の長さ、会話スピード、思いがけず出る言葉等から感情をスコア化する（Ｓ３９２）、続いて、スコアによって感情を分類し、メモリに記録する（Ｓ３９４）。

このような処理が終了すると、感情判定処理を終了する。続いて、前述のＳ５６の処理において、感情応答生成処理を実行する。
詳細には、図２６に示すように、まず、感情判定処理にて設定された感情区分を判定する（Ｓ４１２）。感情区分が通常であれば（Ｓ４１２：通常）、「こんにちは」等の普通の挨拶文を応答（メッセージ）として生成する（Ｓ４１４）。

また、感情区分が怒りであれば（Ｓ４１２：怒り）、「お気に障りましたか」等、相手の感情を落ち着かせる際の文章を応答として生成する（Ｓ４１６）。さらに、感情区分が喜びであれば（Ｓ４１２：喜び）、「今日は楽しいですね」等、普通の挨拶文と比較して明るいニュアンスの挨拶文を応答として生成する（Ｓ４１８）。

また、感情区分が困惑であれば（Ｓ４１２：困惑）、「どうかしましたか」等、相手を気遣う際の挨拶文を応答として生成する（Ｓ４２０）。このような処理が終了すると、感情応答生成処理を終了する。

［第１２実施形態による効果］
上記音声応答システム１００においてサーバ９０は、思いがけずに発する音声を検出することによって使用者の苛立ちや動揺を検出し、苛立ちや動揺を抑制するためのメッセージを生成する。

このような音声応答システム１００によれば、使用者に苛立ちや動揺がある場合に、これらを抑制することができる。よって、使用者と周囲とのトラブルの発声を抑制することができる。

［第１３実施形態］
［第１３実施形態の処理］
次に第１３実施形態の音声応答システムについて説明する。第１３実施形態の音声応答システムでは、撮像画像中の物体まで使用者を案内する処理を行う。この処理はサーバ９０において前述のＳ５６の処理の詳細として実施される。

端末装置１において「見えているタワーまで道案内してください」などと音声で入力すると、Ｓ５６の処理では案内処理が実施される。案内処理では、図２７に示すように、まず、端末位置情報を端末装置１のＧＰＳ受信機２７等から取得する（Ｓ４３２）。

そして、音声（文字情報）と画像処理とに基づいて、撮像画像中の物体のうちから対象となる物体を特定し、この位置を特定する（Ｓ４３４）。この処理では、物体の形状、相対的な位置等に基づいて地図情報（外部から取得してもよいし、サーバ９０が保持していてもよい）において物体の位置を特定する。例えば、撮像画像中にタワーが映っていた場合、端末装置１の位置とタワーの形状とから、そのタワーを地図上において特定する。

続いて、この物体までの経路を検索し（Ｓ４３６）、経路情報を取得する（Ｓ４３８）。この処理は周知のクラウド方式のナビゲーション装置における処理と同様の処理を用いて実現できる。

そして、経路を案内するための応答を生成する（Ｓ４４０）。この処理においても、ナビゲーション装置による案内と同様の応答を生成すればよい。
このような処理が終了すると、案内処理を終了する。なお、使用者が移動しながら案内処理を実施する際には、自動会話サーバ処理を利用して、使用者が案内すべきポイントに到達することを再生条件としてメッセージを再生すればよい。

［第１３実施形態による効果］
上記音声応答システム１００においてサーバ９０は、文字情報が入力された際に、当該音声応答システム１００の周囲を撮像した撮像画像に応じた応答を生成し、この応答を音声で出力させる。

このような音声応答システム１００によれば、撮像画像に応じて応答を音声で出力することができる。したがって、文字情報のみから応答を生成する構成と比較して使い勝手を向上させることができる。

また、上記音声応答システム１００においてサーバ９０は、文字情報に含まれる物体を撮像画像中から画像処理によって検索し、該検索された物体の位置を特定し、この物体の位置まで案内する。

このような音声応答システム１００によれば、撮像画像中の物体まで使用者を案内することができる。
さらに、上記音声応答システム１００においてサーバ９０は、目的地までの案内を行う場合において、目的地までの天気、温度、湿度、交通情報、路面状態等の経路情報を取得し、経路情報を音声で出力させる。

このような音声応答システム１００によれば、目的地までの状況（経路情報）を使用者に音声で通知することができる。
［第１３実施形態の変形例］
上記構成に加えて、認識したものが何かを応答するよう文字情報を入力し、撮像画像から認識したものが何か（誰か）を音声で出力するようにしてもよい。

さらに、上記音声応答システム１００においてサーバ９０は、Ｓ４８の処理に換えて、文字情報を音声で入力する際において使用者の口の形状を撮像した動画像を取得してもよい。この場合、Ｓ５２の処理に換えて、音声を文字情報に変換し、かつ、該動画像に基づいて、音声の不明確な部分を推定して文字情報を補正してもよい。

このような音声応答システム１００によれば、口の形状から発声内容を推定することできるので、音声の不明確な部分を良好に推定することができる。
［第１４実施形態］
［第１４実施形態の処理］
次に第１４実施形態の音声応答システムについて説明する。第１４実施形態の音声応答システムでは、使用者に所定の動作を要求し、この要求通りに使用者が動作を行ったかどうかを判定する。この構成では、図６に示す自動会話端末処理、および図７に示す自動会話サーバ処理において、前述のＳ５６の処理の詳細として図２８に示す移動要求処理１および図２９に示す移動要求処理２が順に実施される。

初めにＳ５４の処理が終了すると移動要求処理１が開始され、移動要求処理１では、図２８に示すように、所定の位置に視線や頭を移動させるよう指示する旨の応答（メッセージ）を出力する（Ｓ４５２）。この処理が終了すると、移動要求処理１を終了する。

続いて、次にＳ５４の処理が終了すると移動要求処理２が開始され、移動要求処理２では、図２９に示すように、指示通りに視線や頭の位置が移動したか否かを判定する（Ｓ４６２）。この処理では、カメラによる撮像画像を画像処理することや、端末装置１の各種センサによる検出結果を用いて使用者の動作を検出する。なお、画像処理によって視線を検出する場合には、周知の視線認識の技術を採用すればよい。

指示通りに視線や頭が移動していなければ（Ｓ４６２：ＮＯ）、再度、Ｓ４５２にて生成した応答を出力する（Ｓ４６４）。また、指示通りに視線や頭が移動していれば（Ｓ４６２：ＹＥＳ）、別の任意の応答を生成する（Ｓ４６６）。

このような処理が終了すると、移動要求処理２を終了する。
［第１４実施形態による効果］
上記音声応答システム１００においては、使用者の視線を検出し、呼びかけに対して所定の位置に使用者の視線が移動しない場合、視線を所定の位置に移動させるよう要求する音声を出力する。

このような音声応答システム１００によれば、使用者に特定の位置を見させることができる。よって、車両運転時の安全確認などを確実に行うことができる。
なお、上記音声応答システム１００においてサーバ９０は、体の部位の位置や顔の表情を観察し、呼びかけ対する変化が少ない場合、体の部位の位置や顔の表情を変化させるよう要求する音声を出力する。

このような音声応答システム１００によれば、使用者の体の部位の位置を特定の位置に移動させたり、特定の表情をするよう誘導したりすることができる。本発明は、車両の運転時や身体検査等の際に利用することができる。

［第１５実施形態］
［第１５実施形態の処理］
次に第１５実施形態の音声応答システムについて説明する。第１５実施形態の音声応答システムでは、使用者が音声として放送番組や楽曲を入力した場合において、放送番組や楽曲が途切れた場合に補完する処理を実施する。

この構成では、前述のＳ５６の詳細として、図３０に示す放送楽曲補完処理を実施する。放送楽曲補完処理では、図３０に示すように、まず、放送番組や楽曲（使用者が歌う場合にはその歌）が途切れたか否かを判定する（Ｓ４８２）。

途切れていれば（Ｓ４８２：ＹＥＳ）、後述するＳ４９２の処理にて同期した放送番組や楽曲を応答内容として設定し（Ｓ４８４）、放送楽曲補完処理を終了する。また、途切れていなければ（Ｓ４８２：ＮＯ）、放送番組の視聴中であれば放送番組を取得し（Ｓ４８６）、楽曲の演奏中であれば該当する楽曲を取得する（Ｓ４８８）。

ここで、カラオケＤＢ１１６には、楽曲と歌詞とが対応付けて記録されており、この処理において楽曲を取得する場合には、歌詞が付いた楽曲を取得する。
続いて、使用者が視聴する放送番組または楽曲を特定する（Ｓ４９０）。そして、この放送番組または楽曲を取得して、使用者が視聴する放送番組または楽曲に同期して再生できるよう準備し（Ｓ４９２）、放送楽曲補完処理を終了する。

［第１５実施形態による効果］
上記音声応答システム１００においてサーバ９０は、使用者が視聴する放送番組と同様の放送番組を取得し、放送番組が途切れた場合に、自身が取得した放送番組を出力することで途切れた放送番組を補完する。

このような音声応答システム１００によれば、使用者が視聴する放送番組が途切れないように補うことができる。
また、上記音声応答システム１００においてサーバ９０は、歌詞無しの楽曲に使用者が歌詞を付して歌う場合において、歌詞ありの楽曲と使用者が付した歌詞とを比較し、使用者の歌詞のみがない部分において歌詞を音声で出力させる。

このような音声応答システム１００によれば、いわゆるカラオケ装置を利用する使用者が歌えない部分（歌詞が途切れた部分）を補うことができる。
［第１６実施形態］
［第１６実施形態の処理］
次に第１６実施形態の音声応答システムについて説明する。第１６実施形態の音声応答システムでは、撮像画像中に文字が含まれる場合において、端末装置１において使用者からこの文字の読み方についての質問を受けると、この文字の情報を外部から取得し、この情報に含まれる文字の読み方を音声で出力させる。

この構成では、前述のＳ５６の詳細として、図３１に示す文字解説処理を実施する。文字解説処理では、図３１に示すように、まず、例えば「読み方」のように読みの質問を受けたか否かを判定する（Ｓ５０２）。読みの質問を受けていれば（Ｓ５０２：ＹＥＳ）、画像認識した文字について、読みをインターネット網８５を介して接続された他のサーバ等から検索し（Ｓ５０４）、得られた読みを応答に設定し（Ｓ５０６）、文字解説処理を終了する。

読みの質問でなければ（Ｓ５０２：ＮＯ）、国語辞典に記載された内容のような「言葉の意味」の質問。を受けたか否かを判定する（Ｓ５０８）。意味の質問を受けていれば、画像認識した文字（言葉）について、意味をインターネット網８５を介して接続された他のサーバ等から検索し（Ｓ５１０）、得られた意味を応答に設定し（Ｓ５１２）、文字解説処理を終了する。

［第１６実施形態による効果］
このような音声応答システム１００によれば、画像認識した文字について、読みを他のサーバ等から検索し、得られた読みを応答に設定するので、文字の読み方や言葉の意味等を使用者に教えることができる。

［第１７実施形態］
［第１７実施形態の処理］
次に第１７実施形態の音声応答システムについて説明する。第１７実施形態の音声応答システムでは、端末装置１によって検出されたセンサ値に基づいて、サーバ９０が端末装置１の使用者の異常行動や結構状態を検出し、異常がある場合に通報を行う処理を実施する。

詳細には、端末装置１においては図３２に示す行動応答端末処理を実施し、サーバ９０においては行動応答サーバ処理を実施する。行動応答端末処理においては、図３２に示すように、まず、端末装置１に搭載された各種センサによる出力を取得するとともに（Ｓ５２２）、カメラ４１による撮像画像を取得する（Ｓ５２４）。そして、取得した各種センサによる出力および撮像画像をサーバ９０に対してパケット送信し（Ｓ５２６）、行動応答端末処理を終了する。

次に、行動応答サーバ処理では、図３３に示すように、まず、前述のＳ４２〜Ｓ４４の処理を実施する。続いて、端末装置１の位置情報（ＧＰＳ受信機２７による検出結果）に基づいて、徘徊等の行動を特定し（Ｓ５３２）、温度センサ１５，１９等による検出結果に基づいて使用者の環境を検出する（Ｓ５３４）。そして、異常を検出する（Ｓ５３６）。

この処理では、位置情報の変化と環境とに基づいて異常を検出する。例えば、使用者が高温や低温の場所で動かない場合や、使用者が普段行かない場所に存在する場合に、異常である旨を検出する（Ｓ５３６）。或いは、位置情報や環境を点数化し、この点数が基準値を下回る場合（基準範囲外である場合）に異常であると判断する。

続いて、異常が検出されたか否かを判定する（Ｓ５３８）。異常が検出されていなければ（Ｓ５３８：ＮＯ）、行動応答サーバ処理を終了する。また、異常が検出されていれば（Ｓ５３８：ＹＥＳ）、異常がある旨のメッセージを生成し（Ｓ５４０）、所定の連絡先に通報する（Ｓ５４２）。そして、前述のＳ６２〜Ｓ６８（Ｓ６６を除く）の処理を実施し、行動応答サーバ処理を終了する。

［第１７実施形態による効果］
上記音声応答システム１００においてサーバ９０は、使用者の行動や使用者の周囲環境を検出し、検出された行動や周囲環境に応じてメッセージを生成する。

このような音声応答システム１００によれば、危険な場所や立ち入り禁止の領域などを報知することができる。また、使用者に異常な行動があることなどを検出することができる。

さらに、上記音声応答システム１００においてサーバ９０は、使用者を撮像した撮像画像に基づいて、健康状態を判定し、この健康状態に応じてメッセージを生成する。
このような音声応答システム１００によれば、使用者の健康状態を管理することができる。

また、上記音声応答システム１００においてサーバ９０は、健康状態が基準値を下回る場合に、所定の連絡先に通報を行う。
このような音声応答システム１００によれば、使用者の健康状態が基準値以下の場合に、通報を行うことができる。よってより早期に異常を他者に報知することができる。

［その他の実施形態］
本発明の実施の形態は、上記の実施形態に何ら限定されることはなく、本発明の技術的範囲に属する限り種々の形態を採りうる。

例えば、音声応答システム１００が二者間および多者間でのやり取りを仲介するようにしてもよい。詳細には、交差点等で道を譲り合う必要がある場合、どちらの車両が先に交差点に進入するかを端末装置１同士が交渉するようにしてもよい。この場合、各端末装置１はサーバ９０に対して交差点へ接近する際の移動方位や交差点への接近速度の情報を送信し、サーバ９０は、移動方位や接近速度に応じて各端末装置１に優先順位を設定し、優先順位に応じて「とまれ」や「進入可」などの音声を生成して出力すればよい。

また、音声通信等、リアルタイムに応答を行う必要がある通信の着呼（着信）を端末装置１が受け付ける際には、使用者の都合のよいときだけ着呼を受け付けるようにしてもよい。具体的には、カメラ４１にて使用者の顔を撮像できたときに使用者の都合のよいときとみなして着呼を受け付けるようにしてもよい。

さらに、音声通信等の際に、相手を呼び出しても応答しないと、不愉快になる人がいる。このような感情を抑制するために、相手からの応答を待っている利用者に対し、相手の状況を伝えるようにしてもよい。例えば、端末装置１において使用者のスケジュールを管理しておき、使用者が着呼に対して応答しない場合、使用者が何をしているか、或いは、使用者のスケジュールの空き時間を検索し、使用者がいつ応答できるか伝えるようにすることが考えられる。

また、使用者が着呼に対して応答しない場合、使用者の場所を呼出元に伝えてもよい。例えば、使用者がスマートフォンやパソコンを介してインターネット等に繋いでいれば、どの端末が操作されているかがわかる。この情報から使用者の場所を特定して呼出元に伝えることが考えられる。

さらに、使用者が着呼に対して応答できるか否かを、ＧＰＳ等を用いた位置情報を利用して判断するようにしてもよい。位置情報に基づけば、車に乗っているか否か、自宅に居るか否か等を判断でき、例えば使用者が移動中である場合やベッド上にいる場合であれば、公共性が高い或いは睡眠中と判断して着呼に応答できないと判断すればよい。このように着呼に応答できない場合には、前述のように使用者が何をしているか等を呼出元に伝えることが考えられる。

また、位置情報を取得するためには、防犯カメラを利用する構成も考えられる。近年では、様々な場所防犯カメラが取り付けられているので、これらの防犯カメラを利用して、顔認証等の本人を特定するための構成を利用して、使用者の位置を認識することができる。また、防犯カメラを利用して使用者が何をしているか（電話に出られる状況か否か）といった状況判断を行ってもよい。また、着呼に応答できるか否かについては、別の固定電話を使っているかといった条件（固定電話の使用中には着呼に応答できない）でも判断できる。

さらに、端末装置１の使用者が誰かと会話をしたい場合、使用者の性格学習結果を利用し、不特定多数の内、利用者同士の相性が良いと推定される端末装置を呼び出すようにしてもよい。また、このような場合、盛り上がりそうな話題（双方の使用者が興味のある話題（学習結果を利用して抽出されるもの））を使用者に対して話しかけるようにしてもよい。

また、音声応答装置の利用が長時間ない場合（基準時間以上、使用者が発話していないとき）に、音声応答装置が使用者に何らかの言葉を掛けるようにしてもよい。
この際に、ＧＰＳ等の位置情報を利用して話しかける言葉を選択してもよい。

［特許請求の範囲または課題を解決するための手段に記載（本発明）の各手段と、実施形態における構成との関係］
上記実施形態における端末装置１、サーバ９０は本発明の音声応答装置の一例に相当する。また、上記実施形態における２２、Ｓ５６の処理は本発明の応答取得手段の一例に相当する。

さらに、上記実施形態におけるＳ２８、Ｓ６０、Ｓ６４の処理は本発明の音声出力手段の一例に相当する。また、上記実施形態におけるＳ２、Ｓ６の処理は本発明の音声入力手段の一例に相当する。

さらに、上記実施形態におけるＳ１４の処理は本発明の音声送信手段の一例に相当する。また、上記実施形態における応答候補ＤＢ１０５は本発明の応答記録手段の一例に相当する。

さらに、上記実施形態におけるＳ５６の処理は本発明の性格情報取得手段の一例に相当する。また、上記実施形態におけるＳ２２、Ｓ５６の処理は本発明の応答取得手段の一例に相当する。

さらに、上記実施形態におけるＳ２８、Ｓ６０、Ｓ６４の処理は本発明の音声出力手段の一例に相当する。また、上記実施形態におけるＳ２５４、Ｓ２５８、Ｓ２６０の処理は本発明の第１性格情報生成手段、第２性格情報生成手段の一例に相当する。また、上記実施形態におけるＳ５６の処理は本発明の性格情報取得手段の一例に相当する。

さらに、上記実施形態におけるＳ２２、Ｓ５６の処理は本発明の応答取得手段に相当する。また、上記実施形態におけるＳ２８、Ｓ６０、Ｓ６４の処理は本発明の音声出力手段の一例に相当する。

さらに、上記実施形態におけるＳ２５４、Ｓ２５８、Ｓ２６０の処理は本発明の第１性格情報生成手段、第２性格情報生成手段の一例に相当する。
さらに、上記実施形態におけるＳ４８、Ｓ５６の処理は本発明の応答生成手段の一例に相当する。また、上記実施形態におけるＳ２８、Ｓ６０、Ｓ６４の処理は本発明の音声出力手段の一例に相当する。

さらに、上記実施形態における変形例：Ｓ４８の処理は本発明の音声入力動画取得手段の一例に相当する。また、上記実施形態におけるＳ５２の処理は本発明の文字情報変換手段の一例に相当する。

さらに、上記実施形態における嗜好情報生成処理は本発明の嗜好情報生成手段の一例に相当する。また、上記実施形態におけるＳ５６の処理は本発明の応答候補取得手段の一例に相当する。

さらに、上記実施形態における動作文字入力処理は本発明の文字情報生成手段の一例に相当する。また、他装置情報取得手段上記実施形態における他端末利用処理は本発明の転送手段の一例に相当する。

さらに、上記実施形態におけるＳ９８の処理は本発明の再生条件判定手段の一例に相当する。また、上記実施形態におけるＳ１００の処理は本発明のメッセージ再生手段の一例に相当する。

さらに、上記実施形態におけるＳ１１６の処理は本発明の未回答時送信手段の一例に相当する。また、上記実施形態におけるＳ３７２の処理は本発明の発話正確度検出手段の一例に相当する。

さらに、上記実施形態におけるＳ３７４の処理は本発明の正確度合出力手段の一例に相当する。また、上記実施形態におけるＳ２０４の処理は本発明の接続制御手段の一例に相当する。

さらに、上記実施形態におけるＳ５０の処理は本発明の感情判定手段の一例に相当する。また、上記実施形態におけるＳ４３８の処理は本発明の経路情報取得手段の一例に相当する。

さらに、上記実施形態におけるＳ４６２の処理は本発明の視線検出手段の一例に相当する。また、上記実施形態におけるＳ４６４の処理は本発明の視線移動要求送信手段の一例に相当する。

さらに、上記実施形態におけるＳ４６４の処理は本発明の変化要求送信手段の一例に相当する。また、上記実施形態におけるＳ４８６の処理は本発明の放送番組取得手段の一例に相当する。

さらに、上記実施形態におけるＳ４８４の処理は本発明の放送番組補完手段、歌詞付加手段の一例に相当する。また、上記実施形態におけるＳ５０４、Ｓ５０６の処理は本発明の読み方出力手段の一例に相当する。また、上記実施形態におけるＳ５２２、Ｓ５２４の処理は本発明の行動環境検出手段の一例に相当する。

さらに、上記実施形態におけるＳ５３８の処理は本発明の健康状態判定手段の一例に相当する。また、上記実施形態におけるＳ５４０の処理は本発明の健康メッセージ生成手段の一例に相当する。

さらに、上記実施形態におけるＳ５４２の処理は本発明の通報手段の一例に相当する。

Claims

入力された文字情報に対する応答を音声で行わせる音声応答装置であって、
入力された１の文字情報に対する複数の異なる応答を含むデータを取得する応答取得手段と、
前記データに含まれる複数の異なる応答をそれぞれ異なる声色で順次出力させる音声出力手段と、
を備えたことを特徴とする音声応答装置。
請求項１に記載の音声応答装置において、
使用者が音声を入力するための音声入力手段と、
入力された音声を文字情報に変換し、該文字情報に対する複数の異なる応答を生成して当該音声応答装置に送信する外部装置、に対して送信する音声送信手段と、
を備え、
前記応答取得手段は、前記外部装置から前記応答を取得すること
を特徴とする音声応答装置。
請求項１または請求項２に記載の音声応答装置において、
当該音声応答装置または前記外部装置には、複数の文字情報のそれぞれに対して、各文字情報に対する肯定的応答と否定的応答とを含む複数の異なる応答が記録された応答記録手段、を備え、
前記応答取得手段は、前記複数の異なる応答として前記肯定的応答と前記否定的応答とを取得し、
前記音声出力手段は、前記肯定的応答と前記否定的応答とで異なる声色で再生すること
を特徴とする音声応答装置。