JP2004207848A

JP2004207848A - 情報配信システム

Info

Publication number: JP2004207848A
Application number: JP2002371998A
Authority: JP
Inventors: Shuichi Mizumura; 秀一水村; Toshikazu Kaneko; 俊和金子
Original assignee: MegaChips System Solutions Inc
Current assignee: MegaChips System Solutions Inc
Priority date: 2002-12-24
Filing date: 2002-12-24
Publication date: 2004-07-22

Abstract

【課題】どのようなユーザであっても観察対象が発する音声の内容を把握することができる情報配信システムを提供する。
【解決手段】動物である観察対象６ａが発した音声は、音声データとして情報入力端末２に取得され、配信管理サーバ３に送信される。配信管理サーバ３は、この音声データの特徴量を求め、この特徴量から観察対象６ａの状態を示す言語化された文字データを生成する。生成された文字データは、さらに、合成音声データに変換されて情報出力端末４に送信される。情報出力端末４のユーザは、この言語化された合成音声データを聞くことで、観察対象６ａが発する音声の内容を把握することができる。
【選択図】図６

Description

【０００１】
【発明の属する技術分野】
本発明は、情報入力端末に取得される情報を、ネットワークを介して接続された情報出力端末において出力して、情報出力端末のユーザに確認させる技術に関する。
【０００２】
【従来の技術】
従来より、動物（ペット）、乳幼児、高齢者等の気掛かりな対象を遠隔地から観察するため、あるいは、防犯や監視を目的として所定の場所を遠隔地から観察するために、ネットワークカメラ（またはＷｅｂカメラ）と呼ばれる情報入力端末が利用されている。ネットワークカメラは、インターネットなどのネットワークに接続することができ、観察対象の画像を取得して、取得した画像をネットワークを介して接続された他の装置に対して送信することができる。
【０００３】
観察を所望するユーザは、ネットワークに接続可能なコンピュータなどの情報出力端末（閲覧用の端末）を利用して、ネットワークカメラから送信される画像を閲覧することで、観察対象を遠隔地からほぼリアルタイムに観察することができる（例えば、特許文献１参照。）。
【０００４】
その他、この出願に関連する先行技術文献情報として特許文献２がある。
【０００５】
【特許文献１】
特開２０００−８３２４１号公報
【特許文献２】
特開２００１−５３８９８号公報
【０００６】
【発明が解決しようとする課題】
ところで近年では、情報出力端末を常に閲覧していなくとも観察対象の状態を把握できるように、観察対象が発する音声もネットワークカメラから送信され、その音声を情報出力端末にて出力可能になっている。しかしながら、例えば、観察対象が動物や乳幼児である場合において、情報出力端末のユーザがその飼い主や家族で無いときは、ユーザは動物の鳴き声や乳幼児の声を聞いたとしても、その音声の意図を理解できず、観察対象の状態を容易に判断することはできない。
また、例えば、観察対象が英語を話す高齢者である場合においては、情報出力端末のユーザが英語を理解できなければ、ユーザは観察対象の音声の意図を理解することができない。このようなことから、観察対象に何らかの異常が発生しても、迅速かつ適切に対応することができないという問題があった。
【０００７】
本発明は、上記課題に鑑みてなされたものであり、どのようなユーザであっても観察対象が発する音声の内容を把握することができる情報配信システムを提供することを目的とする。
【０００８】
【課題を解決するための手段】
上記課題を解決するため、請求項１の発明は、情報入力端末に取得される観察対象に係る情報を、ネットワークを介して接続された情報出力端末において出力して、前記情報出力端末のユーザに確認させる情報配信システムであって、前記情報入力端末は、前記観察対象が発する非言語の音声を非言語音声データとして取得する手段、を備え、前記情報配信システムは、前記非言語音声データに基づいて、前記観察対象の状態を示す文字データを生成する音声分析手段と、前記文字データに基づいて音声合成を行って、合成音声データを生成する音声合成手段と、を備え、前記情報出力端末は、前記合成音声データを出力可能であることを特徴とする。
【０００９】
また、請求項２の発明は、請求項１に記載の情報配信システムにおいて、前記情報入力端末は、前記観察対象の画像データを取得する手段、をさらに備え、前記情報出力端末は、前記観察対象の画像データを出力可能であることを特徴とする。
【００１０】
また、請求項３の発明は、請求項１または２に記載の情報配信システムにおいて、前記情報入力端末から前記ネットワークを介して前記観察対象に係る情報を受信するとともに、前記情報出力端末へ前記ネットワークを介して前記観察対象に係る情報を送信する配信管理サーバ、をさらに備え、前記配信管理サーバは、前記音声分析手段と前記音声合成手段とを備えている。
【００１１】
また、請求項４の発明は、請求項１ないし３のいずれかに記載の情報配信システムにおいて、前記情報出力端末は、前記観察対象の状態を示す文字データを出力可能であることを特徴とする。
【００１２】
また、請求項５の発明は、請求項４に記載の情報配信システムにおいて、前記情報出力端末に前記文字データおよび前記合成音声データのうちのいずれのデータを出力させるかの選択を前記情報出力端末のユーザから受け付ける受付手段、をさらに備え、前記情報出力端末は、前記受付手段により受け付けた選択に基づいて、前記文字データおよび前記合成音声データのうちのいずれか一方のデータ、または、同時に双方のデータを出力可能であることを特徴とする。
【００１３】
また、請求項６の発明は、請求項１ないし５のいずれかに記載の情報配信システムにおいて、前記情報入力端末は、前記観察対象を監視する外部センサからのセンサ信号を取得する手段、をさらに備え、前記情報配信システムは、前記センサ信号に基づいて、前記センサ信号の内容を示す文字データを生成するセンサ信号分析手段、をさらに備え、前記音声合成手段は、前記センサ信号分析手段により生成された文字データに基づいて、前記合成音声データを生成可能であることを特徴とする。
【００１４】
また、請求項７の発明は、請求項１ないし６のいずれかに記載の情報配信システムにおいて、前記観察対象は、動物であり、前記非言語音声データは、前記動物が発する音のデータであることを特徴とする。
【００１５】
また、請求項８の発明は、請求項１ないし６のいずれかに記載の情報配信システムにおいて、前記観察対象は、乳幼児であり、前記非言語音声データは、前記乳幼児が発する音のデータであることを特徴とする。
【００１６】
また、請求項９の発明は、請求項１ないし６のいずれかに記載の情報配信システムにおいて、前記観察対象は、物体であり、前記非言語音声データは、前記物体が発する音のデータであることを特徴とする。
【００１７】
また、請求項１０の発明は、情報入力端末に取得される観察対象に係る情報を、ネットワークを介して接続された情報出力端末において出力してユーザに確認させる情報配信システムであって、前記情報入力端末は、前記観察対象が発する第１の言語の音声を音声データとして取得する手段、を備え、前記情報配信システムは、前記音声データに対して音声認識を行い、前記第１の言語の第１文字データを生成する音声認識手段と、前記第１文字データを、前記第１の言語とは異なる第２の言語の第２文字データに翻訳する翻訳手段と、前記第２文字データに基づいて音声合成を行って、前記第２の言語の合成音声データを生成する音声合成手段と、を備え、前記情報出力端末は、前記合成音声データを出力可能であることを特徴とする。
【００１８】
【発明の実施の形態】
以下、図面を参照しつつ本発明の実施の形態について説明する。
【００１９】
＜１．システム構成＞
図１は、本発明の実施の形態に係る情報配信システム１の構成を示す概略図である。図１に示すように、情報配信システム１は、観察対象に係る情報を取得する複数の情報入力端末２と、観察対象に係る情報を出力する複数の情報出力端末４と、情報配信システム１の基地局として機能する配信管理サーバ３とを備えている。情報入力端末２、情報出力端末４および配信管理サーバ３はインターネット等のネットワーク５を介して相互に通信が可能な状態となっている。図１においては、３台の情報入力端末２および３台の情報出力端末４が記されているが、より多数の情報入力端末２および情報出力端末４が情報配信システム１に含まれていてもよい。
【００２０】
情報入力端末２は、観察対象６の画像データや音声データなどの情報を取得し、ネットワーク５を介して配信管理サーバ３に送信する配信局として機能可能な通信端末であり、例えば、ネットワークカメラ（Ｗｅｂカメラ）で構成される。
情報入力端末２は、観察対象６の撮影およびその音声の取得が可能な位置にそれぞれ設置されている。観察対象６は、動物（ペット）、乳幼児、高齢者、室内（の物体）など遠隔地からの観察を所望するものである。図においては、情報入力端末２ａは動物（犬）６ａ、情報入力端末２ｂは乳幼児６ｂ、情報入力端末２ｃは室内６ｃをそれぞれ観察対象としている。
【００２１】
配信管理サーバ３は、ＣＰＵ、ＲＡＭ、ＲＯＭ、ハードディスク等を備えたコンピュータで構成される。情報入力端末２から送信された観察対象６の情報は、配信管理サーバ３に受信されて各種の処理（詳細は後述）が施される。そして、配信管理サーバ３にて処理が施された観察対象６の情報が、情報出力端末４に送信される。
【００２２】
情報出力端末４は、観察対象６の観察を所望するユーザが使用する閲覧局として機能する端末であり、ネットワーク５を介して受信した画像データ、音声データおよび文字データ等の情報を出力（再生）可能な通信端末、具体的には、ＰＤＡ(Personal Digital Assistant)、パーソナルコンピュータ、携帯電話、カーナビゲーションシステムなどを利用することができる。配信管理サーバ３から送信された観察対象６の情報は、情報出力端末４で出力されて、ユーザに確認される。
【００２３】
図２は、情報入力端末２の機能的構成要素を模式的に示すブロック図である。
図に示すように、情報入力端末２は、観察対象を撮影して画像データを取得する撮影部２１、および、観察対象が発した音声を音声データとして取得するマイク２２を備えている。取得された画像データおよび音声データは、画像音声処理部２３において圧縮処理等がなされ、双方のデータを含むＭＰＥＧ４などの所定形式の一の画像音声データとされた後、画像音声配信部２４により配信管理サーバ３に送信される。
【００２４】
また、情報入力端末２は、外部センサ２５からのセンサ信号を入力するセンサ信号入力部２６を備えている。外部センサ２５は、観察対象の状態を監視するセンサであり、具体的には、観察対象が動物、乳幼児または高齢者であるときは、その体温や血圧の異常を検出する医療センサ等であり、観察対象が室内であるときは、不審者の進入を検出する防犯センサ、出火を検出する火災センサ、地震を検出する地震センサ等である。何らかの異常などのイベントが発生すると、外部センサ２５からは、検出結果に対応するパルス形状を有するパルス信号が出力され、このパルス信号がセンサ信号としてセンサ信号入力部２６に入力される。入力されたセンサ信号は、センサ信号配信部２７により配信管理サーバ３に送信される。
【００２５】
さらに、情報入力端末２は、文字データの入力を受け付ける文字入力部２８を備えている。情報入力端末２には、その本体部に備えられる入力ボタン、あるいは、インタフェースを介して接続されるキーボードなどから文字データを入力することができる。観察対象を直接的に観察する観察者（具体的には、観察対象が動物のときは動物病院の職員、乳幼児のときは保育園の職員など）がいるときには、観察者から情報入力端末２に、観察対象の具体的な状態を示す文字データが入力される。入力された文字データは、文字入力部２８に受け付けられた後、文字配信部２９により配信管理サーバ３に送信される。
【００２６】
このように情報入力端末２からは、観察対象に係る画像音声データ（画像データおよび音声データ）、センサ信号ならびに文字データが送信され、これらはそれぞれネットワーク５を介して配信管理サーバ３に受信される。
【００２７】
図３は、配信管理サーバ３および情報出力端末４の機能的構成要素を模式的に示すブロック図である。図３に示す配信管理サーバ３の各処理部は、ＣＰＵなどの演算処理によってソフトウェア的に実現されてもよく、専用の電気的回路として実現されてもよい。
【００２８】
画像音声受信部３０１は、情報入力端末２から送信された画像音声データを受信し、画像音声分離部３０２に入力する。画像音声分離部３０２は、画像音声データを、画像データと音声データとに分離する。分離された画像データは、画像バッファ３０３に記憶される一方、分離された音声データは音声処理部３０４に入力されて各種の処理がなされる。画像バッファ３０３は、画像データを一時的に格納するメモリである。
【００２９】
音声処理部３０４は、入力された音声データに基づいて音声認識を行い、文字データを生成する処理を行う。図４は、音声処理部３０４の機能的構成要素の詳細を模式的に示すブロック図である。
【００３０】
音声処理部３０４が処理する音声データは、それを発した観察対象に応じて大きく２つの属性、すなわち、非言語音声データと言語音声データとに分類することができる。さらに、非言語音声データは、動物音声（観察対象が動物のとき、犬や猫などが発する鳴き声）、乳幼児音声（観察対象が乳幼児のとき、乳幼児が発する言語にならない声、泣き声など）、室内物体音（観察対象が室内のとき、ドアチャイムの音、ガラスが割れる音、家具が倒れる音など）等の属性に分類することができる。一方、言語音声データは、音声を構成する言語に応じて、日本語音声、英語音声、ドイツ語音声などの言語属性に分類することができる。このような音声データの属性は、情報出力端末４を扱うユーザからの指定などにより配信管理サーバ３に取得され、音声処理部３０４に処理パラメータとして入力される。これにより、音声処理部３０４は、音声データの属性に応じた処理を行う。
【００３１】
音声処理部３０４に入力された音声データは、その属性にかかわらず、まず、特徴抽出部５１に入力される。特徴抽出部５１においては、ケプストラム分析などの周知の手法により、音声データの特徴量が導出される。
【００３２】
音声データが非言語音声データの場合は、特徴抽出部５１において導出された音声データの特徴量は、非言語分析部５２に入力される。非言語分析部５２は、非言語情報データベース５２１を参照しつつ、入力された音声データの特徴量の分析を行い、観察対象の状態を示す言語化された文字データに変換する。
【００３３】
非言語情報データベース５２１においては、音声データの特徴量を示す特徴量データと、該特徴量となる音声を発するときの観察対象の状態を示す文字データとが関連付けられて記憶されている。すなわち、非言語情報データベース５２１においては、動物音声の特徴量データと動物の感情状態を示す文字データとが関連付けられ、乳幼児音声の特徴量データと乳幼児の感情状態を示す文字データとが関連付けられ、室内物体音の特徴量データと室内の物体の状態を示す文字データとが関連付けられている。このような非言語情報データベース５２１のデータは、予め多数の動物音声、乳幼児音声、室内物体音を収集して分析を行うことで得られるものである。非言語分析部５２は、この非言語情報データベース５２１のうち必要なデータを音声データの属性に応じて参照することで、観察対象の状態を示す文字データを取得する。
【００３４】
例えば、音声データが動物音声の場合は、非言語情報データベース５２１内に記憶された動物音声に関する特徴量データが参照され、導出された音声データの特徴量に最も近似するものが検索される。そして、検索された動物音声の特徴量データに関連付けられた文字データが取得される。この文字データは、動物の感情状態を示すものであり、例えば、「たのしい」「さびしい」「うれしい」「ねむい」「おなかがすいた」などである。また、音声データが乳幼児音声の場合は、非言語情報データベース５２１内に記憶された乳幼児音声に関する特徴量データが参照される。そして、動物音声と同様に、「たのしい」「さびしい」「うれしい」「ねむい」「おなかがすいた」などの乳幼児の感情状態を示す文字データが取得される。また、音声データが室内物体音の場合は、非言語情報データベース５２１内に記憶された室内物体音に関する特徴量データが参照される。そして、音声データがドアチャイムの音の場合は「チャイムが鳴りました」、ガラスが割れる音の場合は「ガラスが割れました」などの室内の物体の状態を示す文字データが取得される。非言語分析部５２において取得されるこのような文字データは、音声処理部５２の処理結果として音声処理部５２から出力される。
【００３５】
一方、音声データが言語音声データの場合は、導出された音声データの特徴量は、音素認識部５３に入力される。音素認識部５３は、音素データを記憶する音素情報データベース５３１を参照しつつ、隠れマルコフモデル（ＨＭＭ）などを用いた周知の手法により、入力された音声データの特徴量から音素を認識する。
このとき、言語音声データの言語属性（日本語音声、英語音声など）に応じて、音素情報データベース５３１のうち参照する音素データが変更されることが精度上好ましい。
【００３６】
音素認識部５３により認識された音素は、文字列化部５４に入力される。文字列化部５４は、認識された音素と、言語情報データベース５３２に記憶される単語データ（音声データの言語属性に応じたもの）との照合を行い、認識された音素に最も一致する単語を取得する。さらに、得られた単語と、言語情報データベース５３２に記憶される文法データ（音声データの言語属性に応じたもの）とを参照して、複数の単語からなる文字列（文字データ）を生成する。
【００３７】
このようにして生成された文字データは、入力された音声データの言語属性と同一の言語で構成される。この言語が、情報出力端末４のユーザから予め出力用に指定される言語（以下、「出力指定言語」という。）と一致する場合は、そのまま生成された文字データが音声処理部５２の処理結果として音声処理部５２から出力される。一方、生成された文字データの言語が、出力指定言語と相違する場合は、さらに、文字データが翻訳部５５に入力される。翻訳部５５は、言語情報データベース５３２を参照して、入力された文字データを、出力指定言語の文字データに翻訳する。これにより、例えば、情報入力端末２からの音声データが英語音声であり、出力指定言語が日本語である場合は、英語の文字データが日本語の文字データに翻訳される。翻訳された文字データは、音声処理部５２の処理結果として音声処理部５２から出力される。以上のようにして音声処理部５２から出力される文字データは全て、音声文字切替部３３１に入力される（図３参照。）。
【００３８】
図３に戻り、センサ信号受信部３１１は、情報入力端末２から送信されたセンサ信号を受信し、センサ信号処理部３１２に入力する。センサ信号処理部３１２は、センサ信号情報データベース３１３を参照しつつ、センサ信号のパルス形状を分析し、センサ信号の内容を示す文字データを生成する。センサ信号情報データベース３１３においては、予めセンサ信号のパルス形状と、該パルス形状を有するセンサ信号の内容を示す文字データとが関連付けられている。センサ信号処理部３１２は、このセンサ信号情報データベース３１３を参照することで、そのままでは人間が理解不能なセンサ信号を、人間が理解可能な言語化された文字データに変換するわけである。
【００３９】
例えば、観察対象が乳幼児であり、センサ信号の出力元となる外部センサ２５が乳幼児の体温を検出する体温センサであれば、「体温があがってます。」という文字データがセンサ信号処理部３１２により生成される。また、観察対象が室内であり、センサ信号の出力元となる外部センサ２５が出火を検出する火災センサであれば、「出火しました。至急、消防署に連絡してください。」という文字データがセンサ信号処理部３１２により生成される。このようにして生成された文字データは、音声文字切替部３３１に入力される。
【００４０】
文字データ受信部３２１は、情報入力端末２から送信された文字データを受信する。文字データ受信部３２１に受信された文字データは、そのまま音声文字切替部３３１に入力される。
【００４１】
以上のように、情報入力端末２から送信された観察対象に係るデータのうち、画像データ以外の音声データ、センサ信号および文字データは、全て文字データとして音声文字切替部３３１に入力される。音声文字切替部３３１に入力されるこれらの文字データは、文字データのまま、あるいは、合成音声データに変換されてから情報出力端末４に送信される。後述するように、情報出力端末４のユーザは、音声文字切替部３３１に入力されるこのような文字データを、「文字データ」および「合成音声データ」のうちのいずれのデータ形式で情報出力端末４に出力させるかを選択することができる。この選択は、要求受付部３４１において受け付けられる。
【００４２】
音声文字切替部３３１は、要求受付部３４１に受け付けられたデータ形式の選択に応じて、入力された文字データの出力先を変更する。すなわち、データ形式として「文字データ」が選択された場合は、入力された文字データをデータ送信部３０６に出力し、データ形式として「合成音声データ」が選択された場合は、入力された文字データを音声合成部３０５に出力する。
【００４３】
音声合成部３０５は、入力された文字データに基づいて音声合成を行って、合成音声データを生成する処理を行う。図５は、音声合成部３０５の機能的構成要素の詳細を模式的に示すブロック図である。
【００４４】
音声合成部３０５に入力された文字データは、まず、単語分解部６１に入力される。単語分解部６１は、単語データや文法データが記憶された言語情報データベース６１１を参照し、文字データを複数の単語に分解する。なお、この言語情報データベース６１１は、前述した音声処理部５２の言語情報データベース５３２と共用されてもよい。
【００４５】
音声合成部３０５により分解された複数の単語は、波形合成部６２に入力される。波形合成部６２は、波形情報データベース６２１を検索して、入力される単語に対応する音声波形を取得する。そして、入力される複数の単語にそれぞれ対応する複数の音声波形をバッファメモリ６３を利用して合成し、合成音声データを生成する。このようにして生成された合成音声データは、データ送信部３０６に出力される（図３参照。）。
【００４６】
図３に戻り、データ送信部３０６は、音声文字切替部３３１から入力される文字データ、音声合成部３０５から入力される合成音声データ、および、画像バッファ３０３に格納された画像データを情報出力端末４にネットワーク５を介して送信する。文字データと合成音声データとは、同時には送信されず、要求受付部３４１に受け付けられたデータ形式の選択に応じて、いずれか一方が送信される。また、画像データは、分離された音声データが音声処理部３０４や音声合成部３０５により処理される時間だけ画像バッファ３０３に保持された後、データ送信部３０６により読み出されて、音声データの処理結果である文字データあるいは合成音声データとともに送信される。このように、音声データが処理される間、画像データが画像バッファ３０３に格納されるため、画像データと音声データの処理結果（文字データまたは合成音声データ）との情報出力端末４への送信のタイミングが一致される。
【００４７】
要求受付部３４１は、情報出力端末４からの各種の要求を受け付ける。情報出力端末４から接続要求がなされたときは、要求受付部３４１により、ユーザ情報データベース３４２が参照され、接続要求に含まれるユーザＩＤとパスワードとの整合性が確認されて接続認証が行われる。接続認証の後は、さらに、観察対象の情報を転送させる情報入力端末２のアドレス（ＩＰアドレスや、ＵＲＬ等）、音声データの属性（非言語／言語、動物、乳幼児、室内音、日本語、英語など）、出力指定言語（日本語、英語など）等の処理条件が、要求受付部３４１により情報出力端末４から受け付けられる。
【００４８】
情報出力端末４は、入力ボタン等の入力部４１を備えており、ユーザは入力部４１を操作してユーザＩＤ、パスワードおよび各種の処理条件等を入力する。入力されたこれらの情報は、ネットワーク５を介して配信管理サーバ３に送信される。
【００４９】
また、再生部４３は、配信管理サーバ３から送信される画像データ、音声データおよび文字データを受信し、それらを適宜、スピーカ４２やディスプレイ４４に出力する。この再生部４３としては、例えば、各種のプラグインソフトウェアが組み込まれたＷｅｂブラウザ等を利用することができる。また、文字データを表示する場合は、メールソフト等を利用することができる。
【００５０】
＜２．システム処理例＞
次に、本実施の形態の情報配信システム１において実行される処理の例について説明する。図６は情報配信システム１の処理の一例を示す図である。図６の例においては、携帯電話を情報出力端末４として利用するユーザが、遠隔地の動物病院に預けた犬６ａの観察を所望する場合を想定している。動物病院には、犬６ａに関する画像データおよび音声データを取得できるように情報入力端末２が配置されている。また、犬６ａには体温を検出する体温センサ（外部センサ）が装着されており、犬６ａの体温が異常な値となった場合は体温センサからセンサ信号が情報入力端末２に入力されるように構成されている。また、適宜、動物病院の職員により、犬６ａに係る文字データも情報入力端末２に入力されるようになっている。
【００５１】
まず、ユーザは、情報出力端末４を利用して配信管理サーバ３の提供するウェブサイト等にアクセスし、ユーザＩＤとパスワードとを入力部４１を介して入力し、配信管理サーバ３に対して接続要求を行う（矢印ＡＲ１）。この接続要求は、配信管理サーバ３の要求受付部３４１に受け付けられ、ユーザＩＤとパスワードとの整合性が確認されて接続認証がなされる。接続認証がなされると、続いて、処理条件を入力する画面が情報出力端末４のディスプレイ４４に表示される。
ユーザは、この画面を参照しつつ、情報入力端末２のアドレスを動物病院に配置される情報入力端末２のアドレスに指定し、音声データの属性を「非言語音声」および「動物音声（犬音声）」と指定する。さらに、画像データ以外に関しての出力時のデータ形式を「文字データ」および「合成音声データ」のいずれかから選択する。なお、情報入力端末２のアドレスや音声データの属性などの処理条件は、ユーザＩＤに関連付けられて、ユーザ情報データベース３４２に予め記憶されていてもよい。このようにすれば、処理条件を入力するための煩雑な入力操作が不要となる。
【００５２】
情報入力端末２において入力された処理条件は、配信管理サーバ３の要求受付部３４１に受け付けられる。処理条件が要求受付部３４１に受け付けられると、指定されたアドレスの情報入力端末２に対して配信管理サーバ３が観察対象の情報の配信を要求する（矢印ＡＲ２）。これにより、犬６ａに関する情報が、情報入力端末２から配信管理サーバ３に送信される状態となる。犬６ａに関する情報のうち、画像音声データ（画像データおよび音声データ）は配信管理サーバ３に常時送信され、センサ信号および文字データは、情報入力端末２に対して入力されたときのみ配信管理サーバ３に送信される（矢印ＡＲ３）。
【００５３】
情報入力端末２から送信される犬６ａに関する情報は、配信管理サーバ３の各部において上述した処理がなされた後、情報出力端末４に送信されて出力されることとなる（矢印ＡＲ４）。これにより、情報出力端末４のユーザは、ディスプレイ４４に表示される画像データを視認することで、犬６ａの態様を視覚的に把握できる。これとともに、音声データが処理されて言語化された「文字データ」や「合成音声データ」により、犬６ａの音声を的確に把握することができる。
【００５４】
すなわち、犬６ａが鳴き声を発したとすると、この鳴き声を示す音声データは、配信管理サーバ３において犬６ａの状態を示す言語化されたデータ、例えば「おなかがすいた」という文字データ、あるいは、「おなかがすいた」という合成音声データに変換される。そして、文字データの場合は、情報出力端末４のディスプレイ４４に画像データとともに表示され、合成音声データの場合は、情報出力端末４のスピーカから出力される。情報出力端末４を扱うユーザは、このような言語化されたデータを確認することで、犬６ａの状態（空腹であること）を的確に把握することができるわけである。犬６ａの鳴き声は非言語であるため、そのままの音声を情報出力端末４において出力した場合は、情報出力端末４のユーザが飼い主や専門家である場合しか、その鳴き声の内容を理解できない。しかしながら、本実施の形態の情報配信システム１を利用すると、犬６ａの鳴き声が言語化されたデータで出力されるため、情報出力端末４のユーザは限定されず、どのようなユーザであっても犬６ａの鳴き声の内容を理解することができる。
【００５５】
言語化されたデータに関しての出力時のデータ形式は、処理条件の一として受け付けたユーザの選択に応じて変更される。出力時のデータ形式として「合成音声データ」を選択した場合は、ユーザは情報出力端末４のディスプレイ４４を常時視認していなくとも、観察対象（犬６ａ）の状態をほぼリアルタイムに確認することができる。その一方で、出力時のデータ形式として「文字データ」を選択した場合は、会議中や、電車の中など、音声の出力が好ましくない環境においても、観察対象（犬６ａ）の状態を確認することができる。すなわち、文字データおよび合成音声データのうちのいずれのデータを出力させるかを選択することができるため、種々の状況に対応することができることとなる。
【００５６】
また、体温センサからセンサ信号が情報入力端末２に入力されると、このセンサ信号が、配信管理サーバ３において言語化されたデータ、例えば、「体温があがってます。」という文字データ、あるいは、合成音声データに変換される。このセンサ信号から変換されたデータも、音声データから変換されたデータと同様に、情報出力端末４に出力される。したがって、情報出力端末４を扱うユーザは、体温センサからのセンサ信号の示す意味を理解することができ、より的確に観察対象（犬６ａ）の状態を把握することができる。もちろん、センサ信号から変換されたデータも、選択されたデータ形式で出力されるため、どのような状況であっても、センサ信号の内容をユーザが理解することができる。
【００５７】
また、情報入力端末２に文字データが入力されると、この文字データも、選択されたデータ形式で情報出力端末４において出力される。したがって、データ形式として「合成音声データ」を選択しておけば、情報出力端末４のユーザは、情報入力端末２に入力された文字データを、音としてリアルタイムに把握することができることとなる。
【００５８】
なお、以上説明した例では、観察対象が犬６ａであるものとしているが、乳幼児や室内を観察対象とするときも、同様の処理がなされ、ユーザは観察対象の状態を言語化されたデータにより把握することができる。例えば、室内を観察対象とするときには、ガラスの割れる音の音声データが「ガラスが割れました」という文字データ、あるいは、合成音声データとして出力される。このため、情報出力端末４のユーザは警備会社に連絡するなどの対処を迅速に行うことができる。
【００５９】
また、日本語のみ理解できるユーザが情報出力端末４を利用して、英語を話す人物を観察対象とする場合は、処理条件を入力する画面において、音声データの属性を「言語音声」および「英語音声」と指定するとともに、出力指定言語を「日本語」に指定する。これにより、観察対象の人物が発した英語の音声データは、配信管理サーバ３において、日本語の文字データ、あるいは、日本語の合成音声データに変換される。これにより、情報出力端末４のユーザは英語を理解できなくとも、観察対象の人物が発した言葉を容易に理解できることとなる。
【００６０】
＜３．変形例＞
以上、本発明の実施の形態について説明してきたが、この発明は上記実施の形態に限定されるものではなく様々な変形が可能である。
【００６１】
例えば、上記実施の形態においては、音声データ、文字データおよびセンサ信号などに係る処理を、基地局となる配信管理サーバ３において行うようにしているが、同様の処理を情報入力端末２または情報出力端末４において行うようにしてもよい。すなわち、図３において配信管理サーバ３の機能的構成要素として示した処理部やデータベースを、情報入力端末２または情報出力端末４が備えていてもよい。ただし、上記実施の形態のように、配信管理サーバ３が図３の処理部やデータベースを備えることで、処理内容が複雑で比較的負荷のかかる処理を配信管理サーバ３のみに行わせることができる。これにより、情報入力端末２および情報出力端末４の双方は簡易な処理のみを行えばよいため、処理能力の低い装置であっても情報入力端末２および情報出力端末４として用いることができる。
【００６２】
また、上記実施の形態においては、音声データが変換され言語化されたデータを、「文字データ」あるいは「合成音声データ」のいずれか一方のデータ形式で情報出力端末４から出力するようにしていたが、双方のデータ形式で同時に出力可能になっていてもよい。このようにすれば、情報出力端末４のユーザは、「合成音声データ」を聞き流したとしても、事後的に「文字データ」を確認することにより観察対象の音声の内容を把握することができる。また、情報出力端末４に出力させるデータ形式は、情報出力端末４の種別に応じて自動的に選択される、あるいは、推奨データ形式としてユーザに提案されるようになっていてもよい。
例えば、情報出力端末４としてカーナビゲーションシステムを利用する場合においては、通常、ユーザは運転中であるため、「文字データ」を読むことは困難である。したがって、この場合は、出力するデータ形式として「合成音声データ」が自動的に選択されるようにすれば、ユーザは煩雑な操作を行う必要が無くなり安全性が向上する。また、情報出力端末４としてビジネス用のパーソナルコンピュータを利用する場合においては、音声を出力することは周囲の迷惑となる可能性がある。したがって、この場合は、出力するデータ形式として「文字データ」が自動的に選択されるようにすれば、同様に、操作性が向上することとなる。また、出力するデータ形式をユーザ情報データベース３４２にユーザＩＤに関連付けて記憶しておき、この情報に基づいて、出力させるデータ形式が自動的に選択される、あるいは、推奨データ形式としてユーザに提案されるようになっていてもよい。
【００６３】
また、配信管理サーバ３は、メールサーバの機能を有してもよい。これによれば、蓄積されたメールを合成音声データに変換することができるため、情報出力端末４のユーザは、メールの内容を音声によって確認することができる。したがって例えば、情報出力端末４としてカーナビゲーションシステムを利用する場合においてユーザが車の運転中のときであっても、ユーザはメールの内容を即座に把握することができる。
【００６４】
また、上記実施の形態においては、一の情報入力端末２で得られた情報を情報出力端末４に出力させるものとして説明しているが、複数の情報入力端末２で得られた情報を、同時に情報出力端末４で出力可能になっていてもよい。この場合、出力するデータ形式として「文字データ」を選択すれば、複数の観察対象の観察を同時並列的に容易に行うことができる。
【００６５】
また、上記実施の形態においては、生成された合成音声データは、そのまま情報出力端末４に送信されていたが、観察対象として複数のものがあるときは音声変調を行い、合成音声データの生成元となった音声データの属性（一般的には、音声を発した観察対象の属性）に応じた特性に変化させるようにしてもよい。例えば、合成音声データの生成元となった音声データが動物音声であれば男の子の声に変化させ、乳幼児音声であれば女の子の声に変化させ、室内物体音であれば成人男性の声に変化させるようにする。これによれば、合成音声データの特性が、観察対象の属性に応じた特性に変化されるため、合成音声データを聞くのみで、生成元となった音声データがどの観察対象が発した音声であるかを容易に判別することができる。
【００６６】
また、上記実施の形態においては、接続認証をユーザＩＤとパスワードとに基づいて行っていたが、例えば、音声処理部３０４の音声認識機能を利用し、情報出力端末４のユーザの音声により接続認証を行うようにしてもよい。これによれば、より厳格な認証処理を行うことができる。さらに、音声合成部３０５の音声合成機能を利用し、情報配信システム１を利用するユーザへのガイダンスとして合成音声を情報出力端末４に送信するようにしてもよい。
【００６７】
また、上記実施の形態においては、音声データの属性をユーザから指定させるようにしているが、音声処理部３０４において音声データの特徴量から自動的に判別するようにしてもよい。
【００６８】
また、上記実施の形態においては、観察対象の画像データおよび音声データが情報出力端末４に常時配信されて出力されるものとして説明を行ったが、間欠的に行われるようになっていてもよい。例えば、情報出力端末４が配信管理サーバ３に接続していない場合であっても、異常時などに送信される画像データおよび音声データは、メールなどに添付して送付されて再生されるようになっていてもよい。特に緊急時においては、ユーザ情報データベース３４２に記憶されたＩＰアドレスなどに直接的に画像データおよび音声データがストリーミング方式で送信され、情報出力端末４において強制的に再生されるようになっていてもよい。
また、観察対象の画像データおよび音声データは配信管理サーバ３に一時的に保管しておき、情報出力端末４へはメールなどでそれらのデータのアドレスなどを通知し、ユーザが適宜そのアドレスにアクセスしてそれらのデータをストリーミング方式などで視聴できるようになっていてもよい。
【００６９】
【発明の効果】
以上、説明したように、請求項１の発明によれば、観察対象が発する非言語の音声は特定のユーザのみが理解可能であるが、非言語音声データに基づいて観察対象の状態を示すデータが生成されるため、情報出力端末を用いるユーザを限定せず、どのようなユーザであっても観察対象が発する音声の内容を把握することができる。また、観察対象の状態を示すデータは合成音声データとして出力されるため、観察対象の様子をほぼリアルタイムで把握することができる。その結果、観察対象の異常などに迅速に対応することができる。
【００７０】
また、請求項２の発明によれば、情報出力端末のユーザは、観察対象の画像データを閲覧することにより観察対象の態様を視覚的に把握できるため、観察対象の様子をより的確に把握することができる。
【００７１】
また、請求項３の発明によれば、処理内容が複雑で比較的負荷のかかる処理が配信管理サーバで行われることから、情報入力端末および情報出力端末の双方は簡易な処理のみを行えばよい。このため、処理能力の低い装置であっても情報入力端末および情報出力端末として用いることができる。
【００７２】
また、請求項４の発明によれば、情報出力端末のユーザは、文字データを閲覧することにより観察対象の音声を視覚的に把握することができる。
【００７３】
また、請求項５の発明によれば、文字データおよび合成音声データのうちのいずれを情報出力端末に出力させるかを選択することができる。このため、文字データを選択した場合は音声の出力が好ましくない状況においても観察対象の状態を確認することができ、合成音声データを選択した場合はリアルタイムに観察対象の状態を確認することができる。
【００７４】
また、請求項６の発明によれば、情報出力端末のユーザは、外部センサからのセンサ信号の内容を、合成音声データとして確認することができるため、観察対象の様子をより正確に把握することができる。
【００７５】
また、請求項７の発明によれば、どのようなユーザであっても、動物の状態をリアルタイムで把握することができる。
【００７６】
また、請求項８の発明によれば、どのようなユーザであっても、乳幼児の状態をリアルタイムで把握することができる。
【００７７】
また、請求項９の発明によれば、どのようなユーザであっても、物体の状態をリアルタイムで把握することができる。
【００７８】
また、請求項１０の発明によれば、観察対象が発する第１の言語の音声が、第２の言語に翻訳されて合成音声データとして出力される。このため、第１の言語が理解不能であっても第２の言語を理解可能なユーザであれば、観察対象が発する音声の内容を把握することができる。
【図面の簡単な説明】
【図１】情報配信システムの構成を示す概略図である。
【図２】情報入力端末の機能的構成要素を示すブロック図である。
【図３】配信管理サーバおよび情報出力端末の機能的構成要素を示すブロック図である。
【図４】音声処理部の機能的構成要素を示すブロック図である。
【図５】音声合成部の機能的構成要素を示すブロック図である。
【図６】情報配信システムの処理の一例を示す図である。
【符号の説明】
１情報配信システム
２情報入力端末
３配信管理サーバ
４情報出力端末
５ネットワーク
６観察対象

Claims

情報入力端末に取得される観察対象に係る情報を、ネットワークを介して接続された情報出力端末において出力して、前記情報出力端末のユーザに確認させる情報配信システムであって、
前記情報入力端末は、
前記観察対象が発する非言語の音声を非言語音声データとして取得する手段、
を備え、
前記情報配信システムは、
前記非言語音声データに基づいて、前記観察対象の状態を示す文字データを生成する音声分析手段と、
前記文字データに基づいて音声合成を行って、合成音声データを生成する音声合成手段と、
を備え、
前記情報出力端末は、前記合成音声データを出力可能であることを特徴とする情報配信システム。
請求項１に記載の情報配信システムにおいて、
前記情報入力端末は、前記観察対象の画像データを取得する手段、
をさらに備え、
前記情報出力端末は、前記観察対象の画像データを出力可能であることを特徴とする情報配信システム。
請求項１または２に記載の情報配信システムにおいて、
前記情報入力端末から前記ネットワークを介して前記観察対象に係る情報を受信するとともに、前記情報出力端末へ前記ネットワークを介して前記観察対象に係る情報を送信する配信管理サーバ、
をさらに備え、
前記配信管理サーバは、前記音声分析手段と前記音声合成手段とを備えることを特徴とする情報配信システム。
請求項１ないし３のいずれかに記載の情報配信システムにおいて、
前記情報出力端末は、前記観察対象の状態を示す文字データを出力可能であることを特徴とする情報配信システム。
請求項４に記載の情報配信システムにおいて、
前記情報出力端末に前記文字データおよび前記合成音声データのうちのいずれのデータを出力させるかの選択を前記情報出力端末のユーザから受け付ける受付手段、
をさらに備え、
前記情報出力端末は、前記受付手段により受け付けた選択に基づいて、前記文字データおよび前記合成音声データのうちのいずれか一方のデータ、または、同時に双方のデータを出力可能であることを特徴とする情報配信システム。
請求項１ないし５のいずれかに記載の情報配信システムにおいて、
前記情報入力端末は、
前記観察対象を監視する外部センサからのセンサ信号を取得する手段、
をさらに備え、
前記情報配信システムは、
前記センサ信号に基づいて、前記センサ信号の内容を示す文字データを生成するセンサ信号分析手段、
をさらに備え、
前記音声合成手段は、前記センサ信号分析手段により生成された文字データに基づいて、前記合成音声データを生成可能であることを特徴とする情報配信システム。
請求項１ないし６のいずれかに記載の情報配信システムにおいて、
前記観察対象は、動物であり、
前記非言語音声データは、前記動物が発する音のデータであることを特徴とする情報配信システム。
請求項１ないし６のいずれかに記載の情報配信システムにおいて、
前記観察対象は、乳幼児であり、
前記非言語音声データは、前記乳幼児が発する音のデータであることを特徴とする情報配信システム。
請求項１ないし６のいずれかに記載の情報配信システムにおいて、
前記観察対象は、物体であり、
前記非言語音声データは、前記物体が発する音のデータであることを特徴とする情報配信システム。
情報入力端末に取得される観察対象に係る情報を、ネットワークを介して接続された情報出力端末において出力してユーザに確認させる情報配信システムであって、
前記情報入力端末は、
前記観察対象が発する第１の言語の音声を音声データとして取得する手段、を備え、
前記情報配信システムは、
前記音声データに対して音声認識を行い、前記第１の言語の第１文字データを生成する音声認識手段と、
前記第１文字データを、前記第１の言語とは異なる第２の言語の第２文字データに翻訳する翻訳手段と、
前記第２文字データに基づいて音声合成を行って、前記第２の言語の合成音声データを生成する音声合成手段と、
を備え、
前記情報出力端末は、前記合成音声データを出力可能であることを特徴とする情報配信システム。