JP2004207848A - 情報配信システム - Google Patents

情報配信システム Download PDF

Info

Publication number
JP2004207848A
JP2004207848A JP2002371998A JP2002371998A JP2004207848A JP 2004207848 A JP2004207848 A JP 2004207848A JP 2002371998 A JP2002371998 A JP 2002371998A JP 2002371998 A JP2002371998 A JP 2002371998A JP 2004207848 A JP2004207848 A JP 2004207848A
Authority
JP
Japan
Prior art keywords
information
data
voice
observation target
distribution system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002371998A
Other languages
English (en)
Inventor
Shuichi Mizumura
秀一 水村
Toshikazu Kaneko
俊和 金子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MegaChips System Solutions Inc
Original Assignee
MegaChips System Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MegaChips System Solutions Inc filed Critical MegaChips System Solutions Inc
Priority to JP2002371998A priority Critical patent/JP2004207848A/ja
Publication of JP2004207848A publication Critical patent/JP2004207848A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Accommodation For Nursing Or Treatment Tables (AREA)

Abstract

【課題】どのようなユーザであっても観察対象が発する音声の内容を把握することができる情報配信システムを提供する。
【解決手段】動物である観察対象6aが発した音声は、音声データとして情報入力端末2に取得され、配信管理サーバ3に送信される。配信管理サーバ3は、この音声データの特徴量を求め、この特徴量から観察対象6aの状態を示す言語化された文字データを生成する。生成された文字データは、さらに、合成音声データに変換されて情報出力端末4に送信される。情報出力端末4のユーザは、この言語化された合成音声データを聞くことで、観察対象6aが発する音声の内容を把握することができる。
【選択図】 図6

Description

【0001】
【発明の属する技術分野】
本発明は、情報入力端末に取得される情報を、ネットワークを介して接続された情報出力端末において出力して、情報出力端末のユーザに確認させる技術に関する。
【0002】
【従来の技術】
従来より、動物(ペット)、乳幼児、高齢者等の気掛かりな対象を遠隔地から観察するため、あるいは、防犯や監視を目的として所定の場所を遠隔地から観察するために、ネットワークカメラ(またはWebカメラ)と呼ばれる情報入力端末が利用されている。ネットワークカメラは、インターネットなどのネットワークに接続することができ、観察対象の画像を取得して、取得した画像をネットワークを介して接続された他の装置に対して送信することができる。
【0003】
観察を所望するユーザは、ネットワークに接続可能なコンピュータなどの情報出力端末(閲覧用の端末)を利用して、ネットワークカメラから送信される画像を閲覧することで、観察対象を遠隔地からほぼリアルタイムに観察することができる(例えば、特許文献1参照。)。
【0004】
その他、この出願に関連する先行技術文献情報として特許文献2がある。
【0005】
【特許文献1】
特開2000−83241号公報
【特許文献2】
特開2001−53898号公報
【0006】
【発明が解決しようとする課題】
ところで近年では、情報出力端末を常に閲覧していなくとも観察対象の状態を把握できるように、観察対象が発する音声もネットワークカメラから送信され、その音声を情報出力端末にて出力可能になっている。しかしながら、例えば、観察対象が動物や乳幼児である場合において、情報出力端末のユーザがその飼い主や家族で無いときは、ユーザは動物の鳴き声や乳幼児の声を聞いたとしても、その音声の意図を理解できず、観察対象の状態を容易に判断することはできない。
また、例えば、観察対象が英語を話す高齢者である場合においては、情報出力端末のユーザが英語を理解できなければ、ユーザは観察対象の音声の意図を理解することができない。このようなことから、観察対象に何らかの異常が発生しても、迅速かつ適切に対応することができないという問題があった。
【0007】
本発明は、上記課題に鑑みてなされたものであり、どのようなユーザであっても観察対象が発する音声の内容を把握することができる情報配信システムを提供することを目的とする。
【0008】
【課題を解決するための手段】
上記課題を解決するため、請求項1の発明は、情報入力端末に取得される観察対象に係る情報を、ネットワークを介して接続された情報出力端末において出力して、前記情報出力端末のユーザに確認させる情報配信システムであって、前記情報入力端末は、前記観察対象が発する非言語の音声を非言語音声データとして取得する手段、を備え、前記情報配信システムは、前記非言語音声データに基づいて、前記観察対象の状態を示す文字データを生成する音声分析手段と、前記文字データに基づいて音声合成を行って、合成音声データを生成する音声合成手段と、を備え、前記情報出力端末は、前記合成音声データを出力可能であることを特徴とする。
【0009】
また、請求項2の発明は、請求項1に記載の情報配信システムにおいて、前記情報入力端末は、前記観察対象の画像データを取得する手段、をさらに備え、前記情報出力端末は、前記観察対象の画像データを出力可能であることを特徴とする。
【0010】
また、請求項3の発明は、請求項1または2に記載の情報配信システムにおいて、前記情報入力端末から前記ネットワークを介して前記観察対象に係る情報を受信するとともに、前記情報出力端末へ前記ネットワークを介して前記観察対象に係る情報を送信する配信管理サーバ、をさらに備え、前記配信管理サーバは、前記音声分析手段と前記音声合成手段とを備えている。
【0011】
また、請求項4の発明は、請求項1ないし3のいずれかに記載の情報配信システムにおいて、前記情報出力端末は、前記観察対象の状態を示す文字データを出力可能であることを特徴とする。
【0012】
また、請求項5の発明は、請求項4に記載の情報配信システムにおいて、前記情報出力端末に前記文字データおよび前記合成音声データのうちのいずれのデータを出力させるかの選択を前記情報出力端末のユーザから受け付ける受付手段、をさらに備え、前記情報出力端末は、前記受付手段により受け付けた選択に基づいて、前記文字データおよび前記合成音声データのうちのいずれか一方のデータ、または、同時に双方のデータを出力可能であることを特徴とする。
【0013】
また、請求項6の発明は、請求項1ないし5のいずれかに記載の情報配信システムにおいて、前記情報入力端末は、前記観察対象を監視する外部センサからのセンサ信号を取得する手段、をさらに備え、前記情報配信システムは、前記センサ信号に基づいて、前記センサ信号の内容を示す文字データを生成するセンサ信号分析手段、をさらに備え、前記音声合成手段は、前記センサ信号分析手段により生成された文字データに基づいて、前記合成音声データを生成可能であることを特徴とする。
【0014】
また、請求項7の発明は、請求項1ないし6のいずれかに記載の情報配信システムにおいて、前記観察対象は、動物であり、前記非言語音声データは、前記動物が発する音のデータであることを特徴とする。
【0015】
また、請求項8の発明は、請求項1ないし6のいずれかに記載の情報配信システムにおいて、前記観察対象は、乳幼児であり、前記非言語音声データは、前記乳幼児が発する音のデータであることを特徴とする。
【0016】
また、請求項9の発明は、請求項1ないし6のいずれかに記載の情報配信システムにおいて、前記観察対象は、物体であり、前記非言語音声データは、前記物体が発する音のデータであることを特徴とする。
【0017】
また、請求項10の発明は、情報入力端末に取得される観察対象に係る情報を、ネットワークを介して接続された情報出力端末において出力してユーザに確認させる情報配信システムであって、前記情報入力端末は、前記観察対象が発する第1の言語の音声を音声データとして取得する手段、を備え、前記情報配信システムは、前記音声データに対して音声認識を行い、前記第1の言語の第1文字データを生成する音声認識手段と、前記第1文字データを、前記第1の言語とは異なる第2の言語の第2文字データに翻訳する翻訳手段と、前記第2文字データに基づいて音声合成を行って、前記第2の言語の合成音声データを生成する音声合成手段と、を備え、前記情報出力端末は、前記合成音声データを出力可能であることを特徴とする。
【0018】
【発明の実施の形態】
以下、図面を参照しつつ本発明の実施の形態について説明する。
【0019】
<1.システム構成>
図1は、本発明の実施の形態に係る情報配信システム1の構成を示す概略図である。図1に示すように、情報配信システム1は、観察対象に係る情報を取得する複数の情報入力端末2と、観察対象に係る情報を出力する複数の情報出力端末4と、情報配信システム1の基地局として機能する配信管理サーバ3とを備えている。情報入力端末2、情報出力端末4および配信管理サーバ3はインターネット等のネットワーク5を介して相互に通信が可能な状態となっている。図1においては、3台の情報入力端末2および3台の情報出力端末4が記されているが、より多数の情報入力端末2および情報出力端末4が情報配信システム1に含まれていてもよい。
【0020】
情報入力端末2は、観察対象6の画像データや音声データなどの情報を取得し、ネットワーク5を介して配信管理サーバ3に送信する配信局として機能可能な通信端末であり、例えば、ネットワークカメラ(Webカメラ)で構成される。
情報入力端末2は、観察対象6の撮影およびその音声の取得が可能な位置にそれぞれ設置されている。観察対象6は、動物(ペット)、乳幼児、高齢者、室内(の物体)など遠隔地からの観察を所望するものである。図においては、情報入力端末2aは動物(犬)6a、情報入力端末2bは乳幼児6b、情報入力端末2cは室内6cをそれぞれ観察対象としている。
【0021】
配信管理サーバ3は、CPU、RAM、ROM、ハードディスク等を備えたコンピュータで構成される。情報入力端末2から送信された観察対象6の情報は、配信管理サーバ3に受信されて各種の処理(詳細は後述)が施される。そして、配信管理サーバ3にて処理が施された観察対象6の情報が、情報出力端末4に送信される。
【0022】
情報出力端末4は、観察対象6の観察を所望するユーザが使用する閲覧局として機能する端末であり、ネットワーク5を介して受信した画像データ、音声データおよび文字データ等の情報を出力(再生)可能な通信端末、具体的には、PDA(Personal Digital Assistant)、パーソナルコンピュータ、携帯電話、カーナビゲーションシステムなどを利用することができる。配信管理サーバ3から送信された観察対象6の情報は、情報出力端末4で出力されて、ユーザに確認される。
【0023】
図2は、情報入力端末2の機能的構成要素を模式的に示すブロック図である。
図に示すように、情報入力端末2は、観察対象を撮影して画像データを取得する撮影部21、および、観察対象が発した音声を音声データとして取得するマイク22を備えている。取得された画像データおよび音声データは、画像音声処理部23において圧縮処理等がなされ、双方のデータを含むMPEG4などの所定形式の一の画像音声データとされた後、画像音声配信部24により配信管理サーバ3に送信される。
【0024】
また、情報入力端末2は、外部センサ25からのセンサ信号を入力するセンサ信号入力部26を備えている。外部センサ25は、観察対象の状態を監視するセンサであり、具体的には、観察対象が動物、乳幼児または高齢者であるときは、その体温や血圧の異常を検出する医療センサ等であり、観察対象が室内であるときは、不審者の進入を検出する防犯センサ、出火を検出する火災センサ、地震を検出する地震センサ等である。何らかの異常などのイベントが発生すると、外部センサ25からは、検出結果に対応するパルス形状を有するパルス信号が出力され、このパルス信号がセンサ信号としてセンサ信号入力部26に入力される。入力されたセンサ信号は、センサ信号配信部27により配信管理サーバ3に送信される。
【0025】
さらに、情報入力端末2は、文字データの入力を受け付ける文字入力部28を備えている。情報入力端末2には、その本体部に備えられる入力ボタン、あるいは、インタフェースを介して接続されるキーボードなどから文字データを入力することができる。観察対象を直接的に観察する観察者(具体的には、観察対象が動物のときは動物病院の職員、乳幼児のときは保育園の職員など)がいるときには、観察者から情報入力端末2に、観察対象の具体的な状態を示す文字データが入力される。入力された文字データは、文字入力部28に受け付けられた後、文字配信部29により配信管理サーバ3に送信される。
【0026】
このように情報入力端末2からは、観察対象に係る画像音声データ(画像データおよび音声データ)、センサ信号ならびに文字データが送信され、これらはそれぞれネットワーク5を介して配信管理サーバ3に受信される。
【0027】
図3は、配信管理サーバ3および情報出力端末4の機能的構成要素を模式的に示すブロック図である。図3に示す配信管理サーバ3の各処理部は、CPUなどの演算処理によってソフトウェア的に実現されてもよく、専用の電気的回路として実現されてもよい。
【0028】
画像音声受信部301は、情報入力端末2から送信された画像音声データを受信し、画像音声分離部302に入力する。画像音声分離部302は、画像音声データを、画像データと音声データとに分離する。分離された画像データは、画像バッファ303に記憶される一方、分離された音声データは音声処理部304に入力されて各種の処理がなされる。画像バッファ303は、画像データを一時的に格納するメモリである。
【0029】
音声処理部304は、入力された音声データに基づいて音声認識を行い、文字データを生成する処理を行う。図4は、音声処理部304の機能的構成要素の詳細を模式的に示すブロック図である。
【0030】
音声処理部304が処理する音声データは、それを発した観察対象に応じて大きく2つの属性、すなわち、非言語音声データと言語音声データとに分類することができる。さらに、非言語音声データは、動物音声(観察対象が動物のとき、犬や猫などが発する鳴き声)、乳幼児音声(観察対象が乳幼児のとき、乳幼児が発する言語にならない声、泣き声など)、室内物体音(観察対象が室内のとき、ドアチャイムの音、ガラスが割れる音、家具が倒れる音など)等の属性に分類することができる。一方、言語音声データは、音声を構成する言語に応じて、日本語音声、英語音声、ドイツ語音声などの言語属性に分類することができる。このような音声データの属性は、情報出力端末4を扱うユーザからの指定などにより配信管理サーバ3に取得され、音声処理部304に処理パラメータとして入力される。これにより、音声処理部304は、音声データの属性に応じた処理を行う。
【0031】
音声処理部304に入力された音声データは、その属性にかかわらず、まず、特徴抽出部51に入力される。特徴抽出部51においては、ケプストラム分析などの周知の手法により、音声データの特徴量が導出される。
【0032】
音声データが非言語音声データの場合は、特徴抽出部51において導出された音声データの特徴量は、非言語分析部52に入力される。非言語分析部52は、非言語情報データベース521を参照しつつ、入力された音声データの特徴量の分析を行い、観察対象の状態を示す言語化された文字データに変換する。
【0033】
非言語情報データベース521においては、音声データの特徴量を示す特徴量データと、該特徴量となる音声を発するときの観察対象の状態を示す文字データとが関連付けられて記憶されている。すなわち、非言語情報データベース521においては、動物音声の特徴量データと動物の感情状態を示す文字データとが関連付けられ、乳幼児音声の特徴量データと乳幼児の感情状態を示す文字データとが関連付けられ、室内物体音の特徴量データと室内の物体の状態を示す文字データとが関連付けられている。このような非言語情報データベース521のデータは、予め多数の動物音声、乳幼児音声、室内物体音を収集して分析を行うことで得られるものである。非言語分析部52は、この非言語情報データベース521のうち必要なデータを音声データの属性に応じて参照することで、観察対象の状態を示す文字データを取得する。
【0034】
例えば、音声データが動物音声の場合は、非言語情報データベース521内に記憶された動物音声に関する特徴量データが参照され、導出された音声データの特徴量に最も近似するものが検索される。そして、検索された動物音声の特徴量データに関連付けられた文字データが取得される。この文字データは、動物の感情状態を示すものであり、例えば、「たのしい」「さびしい」「うれしい」「ねむい」「おなかがすいた」などである。また、音声データが乳幼児音声の場合は、非言語情報データベース521内に記憶された乳幼児音声に関する特徴量データが参照される。そして、動物音声と同様に、「たのしい」「さびしい」「うれしい」「ねむい」「おなかがすいた」などの乳幼児の感情状態を示す文字データが取得される。また、音声データが室内物体音の場合は、非言語情報データベース521内に記憶された室内物体音に関する特徴量データが参照される。そして、音声データがドアチャイムの音の場合は「チャイムが鳴りました」、ガラスが割れる音の場合は「ガラスが割れました」などの室内の物体の状態を示す文字データが取得される。非言語分析部52において取得されるこのような文字データは、音声処理部52の処理結果として音声処理部52から出力される。
【0035】
一方、音声データが言語音声データの場合は、導出された音声データの特徴量は、音素認識部53に入力される。音素認識部53は、音素データを記憶する音素情報データベース531を参照しつつ、隠れマルコフモデル(HMM)などを用いた周知の手法により、入力された音声データの特徴量から音素を認識する。
このとき、言語音声データの言語属性(日本語音声、英語音声など)に応じて、音素情報データベース531のうち参照する音素データが変更されることが精度上好ましい。
【0036】
音素認識部53により認識された音素は、文字列化部54に入力される。文字列化部54は、認識された音素と、言語情報データベース532に記憶される単語データ(音声データの言語属性に応じたもの)との照合を行い、認識された音素に最も一致する単語を取得する。さらに、得られた単語と、言語情報データベース532に記憶される文法データ(音声データの言語属性に応じたもの)とを参照して、複数の単語からなる文字列(文字データ)を生成する。
【0037】
このようにして生成された文字データは、入力された音声データの言語属性と同一の言語で構成される。この言語が、情報出力端末4のユーザから予め出力用に指定される言語(以下、「出力指定言語」という。)と一致する場合は、そのまま生成された文字データが音声処理部52の処理結果として音声処理部52から出力される。一方、生成された文字データの言語が、出力指定言語と相違する場合は、さらに、文字データが翻訳部55に入力される。翻訳部55は、言語情報データベース532を参照して、入力された文字データを、出力指定言語の文字データに翻訳する。これにより、例えば、情報入力端末2からの音声データが英語音声であり、出力指定言語が日本語である場合は、英語の文字データが日本語の文字データに翻訳される。翻訳された文字データは、音声処理部52の処理結果として音声処理部52から出力される。以上のようにして音声処理部52から出力される文字データは全て、音声文字切替部331に入力される(図3参照。)。
【0038】
図3に戻り、センサ信号受信部311は、情報入力端末2から送信されたセンサ信号を受信し、センサ信号処理部312に入力する。センサ信号処理部312は、センサ信号情報データベース313を参照しつつ、センサ信号のパルス形状を分析し、センサ信号の内容を示す文字データを生成する。センサ信号情報データベース313においては、予めセンサ信号のパルス形状と、該パルス形状を有するセンサ信号の内容を示す文字データとが関連付けられている。センサ信号処理部312は、このセンサ信号情報データベース313を参照することで、そのままでは人間が理解不能なセンサ信号を、人間が理解可能な言語化された文字データに変換するわけである。
【0039】
例えば、観察対象が乳幼児であり、センサ信号の出力元となる外部センサ25が乳幼児の体温を検出する体温センサであれば、「体温があがってます。」という文字データがセンサ信号処理部312により生成される。また、観察対象が室内であり、センサ信号の出力元となる外部センサ25が出火を検出する火災センサであれば、「出火しました。至急、消防署に連絡してください。」という文字データがセンサ信号処理部312により生成される。このようにして生成された文字データは、音声文字切替部331に入力される。
【0040】
文字データ受信部321は、情報入力端末2から送信された文字データを受信する。文字データ受信部321に受信された文字データは、そのまま音声文字切替部331に入力される。
【0041】
以上のように、情報入力端末2から送信された観察対象に係るデータのうち、画像データ以外の音声データ、センサ信号および文字データは、全て文字データとして音声文字切替部331に入力される。音声文字切替部331に入力されるこれらの文字データは、文字データのまま、あるいは、合成音声データに変換されてから情報出力端末4に送信される。後述するように、情報出力端末4のユーザは、音声文字切替部331に入力されるこのような文字データを、「文字データ」および「合成音声データ」のうちのいずれのデータ形式で情報出力端末4に出力させるかを選択することができる。この選択は、要求受付部341において受け付けられる。
【0042】
音声文字切替部331は、要求受付部341に受け付けられたデータ形式の選択に応じて、入力された文字データの出力先を変更する。すなわち、データ形式として「文字データ」が選択された場合は、入力された文字データをデータ送信部306に出力し、データ形式として「合成音声データ」が選択された場合は、入力された文字データを音声合成部305に出力する。
【0043】
音声合成部305は、入力された文字データに基づいて音声合成を行って、合成音声データを生成する処理を行う。図5は、音声合成部305の機能的構成要素の詳細を模式的に示すブロック図である。
【0044】
音声合成部305に入力された文字データは、まず、単語分解部61に入力される。単語分解部61は、単語データや文法データが記憶された言語情報データベース611を参照し、文字データを複数の単語に分解する。なお、この言語情報データベース611は、前述した音声処理部52の言語情報データベース532と共用されてもよい。
【0045】
音声合成部305により分解された複数の単語は、波形合成部62に入力される。波形合成部62は、波形情報データベース621を検索して、入力される単語に対応する音声波形を取得する。そして、入力される複数の単語にそれぞれ対応する複数の音声波形をバッファメモリ63を利用して合成し、合成音声データを生成する。このようにして生成された合成音声データは、データ送信部306に出力される(図3参照。)。
【0046】
図3に戻り、データ送信部306は、音声文字切替部331から入力される文字データ、音声合成部305から入力される合成音声データ、および、画像バッファ303に格納された画像データを情報出力端末4にネットワーク5を介して送信する。文字データと合成音声データとは、同時には送信されず、要求受付部341に受け付けられたデータ形式の選択に応じて、いずれか一方が送信される。また、画像データは、分離された音声データが音声処理部304や音声合成部305により処理される時間だけ画像バッファ303に保持された後、データ送信部306により読み出されて、音声データの処理結果である文字データあるいは合成音声データとともに送信される。このように、音声データが処理される間、画像データが画像バッファ303に格納されるため、画像データと音声データの処理結果(文字データまたは合成音声データ)との情報出力端末4への送信のタイミングが一致される。
【0047】
要求受付部341は、情報出力端末4からの各種の要求を受け付ける。情報出力端末4から接続要求がなされたときは、要求受付部341により、ユーザ情報データベース342が参照され、接続要求に含まれるユーザIDとパスワードとの整合性が確認されて接続認証が行われる。接続認証の後は、さらに、観察対象の情報を転送させる情報入力端末2のアドレス(IPアドレスや、URL等)、音声データの属性(非言語/言語、動物、乳幼児、室内音、日本語、英語など)、出力指定言語(日本語、英語など)等の処理条件が、要求受付部341により情報出力端末4から受け付けられる。
【0048】
情報出力端末4は、入力ボタン等の入力部41を備えており、ユーザは入力部41を操作してユーザID、パスワードおよび各種の処理条件等を入力する。入力されたこれらの情報は、ネットワーク5を介して配信管理サーバ3に送信される。
【0049】
また、再生部43は、配信管理サーバ3から送信される画像データ、音声データおよび文字データを受信し、それらを適宜、スピーカ42やディスプレイ44に出力する。この再生部43としては、例えば、各種のプラグインソフトウェアが組み込まれたWebブラウザ等を利用することができる。また、文字データを表示する場合は、メールソフト等を利用することができる。
【0050】
<2.システム処理例>
次に、本実施の形態の情報配信システム1において実行される処理の例について説明する。図6は情報配信システム1の処理の一例を示す図である。図6の例においては、携帯電話を情報出力端末4として利用するユーザが、遠隔地の動物病院に預けた犬6aの観察を所望する場合を想定している。動物病院には、犬6aに関する画像データおよび音声データを取得できるように情報入力端末2が配置されている。また、犬6aには体温を検出する体温センサ(外部センサ)が装着されており、犬6aの体温が異常な値となった場合は体温センサからセンサ信号が情報入力端末2に入力されるように構成されている。また、適宜、動物病院の職員により、犬6aに係る文字データも情報入力端末2に入力されるようになっている。
【0051】
まず、ユーザは、情報出力端末4を利用して配信管理サーバ3の提供するウェブサイト等にアクセスし、ユーザIDとパスワードとを入力部41を介して入力し、配信管理サーバ3に対して接続要求を行う(矢印AR1)。この接続要求は、配信管理サーバ3の要求受付部341に受け付けられ、ユーザIDとパスワードとの整合性が確認されて接続認証がなされる。接続認証がなされると、続いて、処理条件を入力する画面が情報出力端末4のディスプレイ44に表示される。
ユーザは、この画面を参照しつつ、情報入力端末2のアドレスを動物病院に配置される情報入力端末2のアドレスに指定し、音声データの属性を「非言語音声」および「動物音声(犬音声)」と指定する。さらに、画像データ以外に関しての出力時のデータ形式を「文字データ」および「合成音声データ」のいずれかから選択する。なお、情報入力端末2のアドレスや音声データの属性などの処理条件は、ユーザIDに関連付けられて、ユーザ情報データベース342に予め記憶されていてもよい。このようにすれば、処理条件を入力するための煩雑な入力操作が不要となる。
【0052】
情報入力端末2において入力された処理条件は、配信管理サーバ3の要求受付部341に受け付けられる。処理条件が要求受付部341に受け付けられると、指定されたアドレスの情報入力端末2に対して配信管理サーバ3が観察対象の情報の配信を要求する(矢印AR2)。これにより、犬6aに関する情報が、情報入力端末2から配信管理サーバ3に送信される状態となる。犬6aに関する情報のうち、画像音声データ(画像データおよび音声データ)は配信管理サーバ3に常時送信され、センサ信号および文字データは、情報入力端末2に対して入力されたときのみ配信管理サーバ3に送信される(矢印AR3)。
【0053】
情報入力端末2から送信される犬6aに関する情報は、配信管理サーバ3の各部において上述した処理がなされた後、情報出力端末4に送信されて出力されることとなる(矢印AR4)。これにより、情報出力端末4のユーザは、ディスプレイ44に表示される画像データを視認することで、犬6aの態様を視覚的に把握できる。これとともに、音声データが処理されて言語化された「文字データ」や「合成音声データ」により、犬6aの音声を的確に把握することができる。
【0054】
すなわち、犬6aが鳴き声を発したとすると、この鳴き声を示す音声データは、配信管理サーバ3において犬6aの状態を示す言語化されたデータ、例えば「おなかがすいた」という文字データ、あるいは、「おなかがすいた」という合成音声データに変換される。そして、文字データの場合は、情報出力端末4のディスプレイ44に画像データとともに表示され、合成音声データの場合は、情報出力端末4のスピーカから出力される。情報出力端末4を扱うユーザは、このような言語化されたデータを確認することで、犬6aの状態(空腹であること)を的確に把握することができるわけである。犬6aの鳴き声は非言語であるため、そのままの音声を情報出力端末4において出力した場合は、情報出力端末4のユーザが飼い主や専門家である場合しか、その鳴き声の内容を理解できない。しかしながら、本実施の形態の情報配信システム1を利用すると、犬6aの鳴き声が言語化されたデータで出力されるため、情報出力端末4のユーザは限定されず、どのようなユーザであっても犬6aの鳴き声の内容を理解することができる。
【0055】
言語化されたデータに関しての出力時のデータ形式は、処理条件の一として受け付けたユーザの選択に応じて変更される。出力時のデータ形式として「合成音声データ」を選択した場合は、ユーザは情報出力端末4のディスプレイ44を常時視認していなくとも、観察対象(犬6a)の状態をほぼリアルタイムに確認することができる。その一方で、出力時のデータ形式として「文字データ」を選択した場合は、会議中や、電車の中など、音声の出力が好ましくない環境においても、観察対象(犬6a)の状態を確認することができる。すなわち、文字データおよび合成音声データのうちのいずれのデータを出力させるかを選択することができるため、種々の状況に対応することができることとなる。
【0056】
また、体温センサからセンサ信号が情報入力端末2に入力されると、このセンサ信号が、配信管理サーバ3において言語化されたデータ、例えば、「体温があがってます。」という文字データ、あるいは、合成音声データに変換される。このセンサ信号から変換されたデータも、音声データから変換されたデータと同様に、情報出力端末4に出力される。したがって、情報出力端末4を扱うユーザは、体温センサからのセンサ信号の示す意味を理解することができ、より的確に観察対象(犬6a)の状態を把握することができる。もちろん、センサ信号から変換されたデータも、選択されたデータ形式で出力されるため、どのような状況であっても、センサ信号の内容をユーザが理解することができる。
【0057】
また、情報入力端末2に文字データが入力されると、この文字データも、選択されたデータ形式で情報出力端末4において出力される。したがって、データ形式として「合成音声データ」を選択しておけば、情報出力端末4のユーザは、情報入力端末2に入力された文字データを、音としてリアルタイムに把握することができることとなる。
【0058】
なお、以上説明した例では、観察対象が犬6aであるものとしているが、乳幼児や室内を観察対象とするときも、同様の処理がなされ、ユーザは観察対象の状態を言語化されたデータにより把握することができる。例えば、室内を観察対象とするときには、ガラスの割れる音の音声データが「ガラスが割れました」という文字データ、あるいは、合成音声データとして出力される。このため、情報出力端末4のユーザは警備会社に連絡するなどの対処を迅速に行うことができる。
【0059】
また、日本語のみ理解できるユーザが情報出力端末4を利用して、英語を話す人物を観察対象とする場合は、処理条件を入力する画面において、音声データの属性を「言語音声」および「英語音声」と指定するとともに、出力指定言語を「日本語」に指定する。これにより、観察対象の人物が発した英語の音声データは、配信管理サーバ3において、日本語の文字データ、あるいは、日本語の合成音声データに変換される。これにより、情報出力端末4のユーザは英語を理解できなくとも、観察対象の人物が発した言葉を容易に理解できることとなる。
【0060】
<3.変形例>
以上、本発明の実施の形態について説明してきたが、この発明は上記実施の形態に限定されるものではなく様々な変形が可能である。
【0061】
例えば、上記実施の形態においては、音声データ、文字データおよびセンサ信号などに係る処理を、基地局となる配信管理サーバ3において行うようにしているが、同様の処理を情報入力端末2または情報出力端末4において行うようにしてもよい。すなわち、図3において配信管理サーバ3の機能的構成要素として示した処理部やデータベースを、情報入力端末2または情報出力端末4が備えていてもよい。ただし、上記実施の形態のように、配信管理サーバ3が図3の処理部やデータベースを備えることで、処理内容が複雑で比較的負荷のかかる処理を配信管理サーバ3のみに行わせることができる。これにより、情報入力端末2および情報出力端末4の双方は簡易な処理のみを行えばよいため、処理能力の低い装置であっても情報入力端末2および情報出力端末4として用いることができる。
【0062】
また、上記実施の形態においては、音声データが変換され言語化されたデータを、「文字データ」あるいは「合成音声データ」のいずれか一方のデータ形式で情報出力端末4から出力するようにしていたが、双方のデータ形式で同時に出力可能になっていてもよい。このようにすれば、情報出力端末4のユーザは、「合成音声データ」を聞き流したとしても、事後的に「文字データ」を確認することにより観察対象の音声の内容を把握することができる。また、情報出力端末4に出力させるデータ形式は、情報出力端末4の種別に応じて自動的に選択される、あるいは、推奨データ形式としてユーザに提案されるようになっていてもよい。
例えば、情報出力端末4としてカーナビゲーションシステムを利用する場合においては、通常、ユーザは運転中であるため、「文字データ」を読むことは困難である。したがって、この場合は、出力するデータ形式として「合成音声データ」が自動的に選択されるようにすれば、ユーザは煩雑な操作を行う必要が無くなり安全性が向上する。また、情報出力端末4としてビジネス用のパーソナルコンピュータを利用する場合においては、音声を出力することは周囲の迷惑となる可能性がある。したがって、この場合は、出力するデータ形式として「文字データ」が自動的に選択されるようにすれば、同様に、操作性が向上することとなる。また、出力するデータ形式をユーザ情報データベース342にユーザIDに関連付けて記憶しておき、この情報に基づいて、出力させるデータ形式が自動的に選択される、あるいは、推奨データ形式としてユーザに提案されるようになっていてもよい。
【0063】
また、配信管理サーバ3は、メールサーバの機能を有してもよい。これによれば、蓄積されたメールを合成音声データに変換することができるため、情報出力端末4のユーザは、メールの内容を音声によって確認することができる。したがって例えば、情報出力端末4としてカーナビゲーションシステムを利用する場合においてユーザが車の運転中のときであっても、ユーザはメールの内容を即座に把握することができる。
【0064】
また、上記実施の形態においては、一の情報入力端末2で得られた情報を情報出力端末4に出力させるものとして説明しているが、複数の情報入力端末2で得られた情報を、同時に情報出力端末4で出力可能になっていてもよい。この場合、出力するデータ形式として「文字データ」を選択すれば、複数の観察対象の観察を同時並列的に容易に行うことができる。
【0065】
また、上記実施の形態においては、生成された合成音声データは、そのまま情報出力端末4に送信されていたが、観察対象として複数のものがあるときは音声変調を行い、合成音声データの生成元となった音声データの属性(一般的には、音声を発した観察対象の属性)に応じた特性に変化させるようにしてもよい。例えば、合成音声データの生成元となった音声データが動物音声であれば男の子の声に変化させ、乳幼児音声であれば女の子の声に変化させ、室内物体音であれば成人男性の声に変化させるようにする。これによれば、合成音声データの特性が、観察対象の属性に応じた特性に変化されるため、合成音声データを聞くのみで、生成元となった音声データがどの観察対象が発した音声であるかを容易に判別することができる。
【0066】
また、上記実施の形態においては、接続認証をユーザIDとパスワードとに基づいて行っていたが、例えば、音声処理部304の音声認識機能を利用し、情報出力端末4のユーザの音声により接続認証を行うようにしてもよい。これによれば、より厳格な認証処理を行うことができる。さらに、音声合成部305の音声合成機能を利用し、情報配信システム1を利用するユーザへのガイダンスとして合成音声を情報出力端末4に送信するようにしてもよい。
【0067】
また、上記実施の形態においては、音声データの属性をユーザから指定させるようにしているが、音声処理部304において音声データの特徴量から自動的に判別するようにしてもよい。
【0068】
また、上記実施の形態においては、観察対象の画像データおよび音声データが情報出力端末4に常時配信されて出力されるものとして説明を行ったが、間欠的に行われるようになっていてもよい。例えば、情報出力端末4が配信管理サーバ3に接続していない場合であっても、異常時などに送信される画像データおよび音声データは、メールなどに添付して送付されて再生されるようになっていてもよい。特に緊急時においては、ユーザ情報データベース342に記憶されたIPアドレスなどに直接的に画像データおよび音声データがストリーミング方式で送信され、情報出力端末4において強制的に再生されるようになっていてもよい。
また、観察対象の画像データおよび音声データは配信管理サーバ3に一時的に保管しておき、情報出力端末4へはメールなどでそれらのデータのアドレスなどを通知し、ユーザが適宜そのアドレスにアクセスしてそれらのデータをストリーミング方式などで視聴できるようになっていてもよい。
【0069】
【発明の効果】
以上、説明したように、請求項1の発明によれば、観察対象が発する非言語の音声は特定のユーザのみが理解可能であるが、非言語音声データに基づいて観察対象の状態を示すデータが生成されるため、情報出力端末を用いるユーザを限定せず、どのようなユーザであっても観察対象が発する音声の内容を把握することができる。また、観察対象の状態を示すデータは合成音声データとして出力されるため、観察対象の様子をほぼリアルタイムで把握することができる。その結果、観察対象の異常などに迅速に対応することができる。
【0070】
また、請求項2の発明によれば、情報出力端末のユーザは、観察対象の画像データを閲覧することにより観察対象の態様を視覚的に把握できるため、観察対象の様子をより的確に把握することができる。
【0071】
また、請求項3の発明によれば、処理内容が複雑で比較的負荷のかかる処理が配信管理サーバで行われることから、情報入力端末および情報出力端末の双方は簡易な処理のみを行えばよい。このため、処理能力の低い装置であっても情報入力端末および情報出力端末として用いることができる。
【0072】
また、請求項4の発明によれば、情報出力端末のユーザは、文字データを閲覧することにより観察対象の音声を視覚的に把握することができる。
【0073】
また、請求項5の発明によれば、文字データおよび合成音声データのうちのいずれを情報出力端末に出力させるかを選択することができる。このため、文字データを選択した場合は音声の出力が好ましくない状況においても観察対象の状態を確認することができ、合成音声データを選択した場合はリアルタイムに観察対象の状態を確認することができる。
【0074】
また、請求項6の発明によれば、情報出力端末のユーザは、外部センサからのセンサ信号の内容を、合成音声データとして確認することができるため、観察対象の様子をより正確に把握することができる。
【0075】
また、請求項7の発明によれば、どのようなユーザであっても、動物の状態をリアルタイムで把握することができる。
【0076】
また、請求項8の発明によれば、どのようなユーザであっても、乳幼児の状態をリアルタイムで把握することができる。
【0077】
また、請求項9の発明によれば、どのようなユーザであっても、物体の状態をリアルタイムで把握することができる。
【0078】
また、請求項10の発明によれば、観察対象が発する第1の言語の音声が、第2の言語に翻訳されて合成音声データとして出力される。このため、第1の言語が理解不能であっても第2の言語を理解可能なユーザであれば、観察対象が発する音声の内容を把握することができる。
【図面の簡単な説明】
【図1】情報配信システムの構成を示す概略図である。
【図2】情報入力端末の機能的構成要素を示すブロック図である。
【図3】配信管理サーバおよび情報出力端末の機能的構成要素を示すブロック図である。
【図4】音声処理部の機能的構成要素を示すブロック図である。
【図5】音声合成部の機能的構成要素を示すブロック図である。
【図6】情報配信システムの処理の一例を示す図である。
【符号の説明】
1 情報配信システム
2 情報入力端末
3 配信管理サーバ
4 情報出力端末
5 ネットワーク
6 観察対象

Claims (10)

  1. 情報入力端末に取得される観察対象に係る情報を、ネットワークを介して接続された情報出力端末において出力して、前記情報出力端末のユーザに確認させる情報配信システムであって、
    前記情報入力端末は、
    前記観察対象が発する非言語の音声を非言語音声データとして取得する手段、
    を備え、
    前記情報配信システムは、
    前記非言語音声データに基づいて、前記観察対象の状態を示す文字データを生成する音声分析手段と、
    前記文字データに基づいて音声合成を行って、合成音声データを生成する音声合成手段と、
    を備え、
    前記情報出力端末は、前記合成音声データを出力可能であることを特徴とする情報配信システム。
  2. 請求項1に記載の情報配信システムにおいて、
    前記情報入力端末は、前記観察対象の画像データを取得する手段、
    をさらに備え、
    前記情報出力端末は、前記観察対象の画像データを出力可能であることを特徴とする情報配信システム。
  3. 請求項1または2に記載の情報配信システムにおいて、
    前記情報入力端末から前記ネットワークを介して前記観察対象に係る情報を受信するとともに、前記情報出力端末へ前記ネットワークを介して前記観察対象に係る情報を送信する配信管理サーバ、
    をさらに備え、
    前記配信管理サーバは、前記音声分析手段と前記音声合成手段とを備えることを特徴とする情報配信システム。
  4. 請求項1ないし3のいずれかに記載の情報配信システムにおいて、
    前記情報出力端末は、前記観察対象の状態を示す文字データを出力可能であることを特徴とする情報配信システム。
  5. 請求項4に記載の情報配信システムにおいて、
    前記情報出力端末に前記文字データおよび前記合成音声データのうちのいずれのデータを出力させるかの選択を前記情報出力端末のユーザから受け付ける受付手段、
    をさらに備え、
    前記情報出力端末は、前記受付手段により受け付けた選択に基づいて、前記文字データおよび前記合成音声データのうちのいずれか一方のデータ、または、同時に双方のデータを出力可能であることを特徴とする情報配信システム。
  6. 請求項1ないし5のいずれかに記載の情報配信システムにおいて、
    前記情報入力端末は、
    前記観察対象を監視する外部センサからのセンサ信号を取得する手段、
    をさらに備え、
    前記情報配信システムは、
    前記センサ信号に基づいて、前記センサ信号の内容を示す文字データを生成するセンサ信号分析手段、
    をさらに備え、
    前記音声合成手段は、前記センサ信号分析手段により生成された文字データに基づいて、前記合成音声データを生成可能であることを特徴とする情報配信システム。
  7. 請求項1ないし6のいずれかに記載の情報配信システムにおいて、
    前記観察対象は、動物であり、
    前記非言語音声データは、前記動物が発する音のデータであることを特徴とする情報配信システム。
  8. 請求項1ないし6のいずれかに記載の情報配信システムにおいて、
    前記観察対象は、乳幼児であり、
    前記非言語音声データは、前記乳幼児が発する音のデータであることを特徴とする情報配信システム。
  9. 請求項1ないし6のいずれかに記載の情報配信システムにおいて、
    前記観察対象は、物体であり、
    前記非言語音声データは、前記物体が発する音のデータであることを特徴とする情報配信システム。
  10. 情報入力端末に取得される観察対象に係る情報を、ネットワークを介して接続された情報出力端末において出力してユーザに確認させる情報配信システムであって、
    前記情報入力端末は、
    前記観察対象が発する第1の言語の音声を音声データとして取得する手段、を備え、
    前記情報配信システムは、
    前記音声データに対して音声認識を行い、前記第1の言語の第1文字データを生成する音声認識手段と、
    前記第1文字データを、前記第1の言語とは異なる第2の言語の第2文字データに翻訳する翻訳手段と、
    前記第2文字データに基づいて音声合成を行って、前記第2の言語の合成音声データを生成する音声合成手段と、
    を備え、
    前記情報出力端末は、前記合成音声データを出力可能であることを特徴とする情報配信システム。
JP2002371998A 2002-12-24 2002-12-24 情報配信システム Pending JP2004207848A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002371998A JP2004207848A (ja) 2002-12-24 2002-12-24 情報配信システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002371998A JP2004207848A (ja) 2002-12-24 2002-12-24 情報配信システム

Publications (1)

Publication Number Publication Date
JP2004207848A true JP2004207848A (ja) 2004-07-22

Family

ID=32810728

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002371998A Pending JP2004207848A (ja) 2002-12-24 2002-12-24 情報配信システム

Country Status (1)

Country Link
JP (1) JP2004207848A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006155084A (ja) * 2004-11-26 2006-06-15 Olympus Corp 情報端末装置及び状態表示システム
JP2006154101A (ja) * 2004-11-26 2006-06-15 Olympus Corp 情報端末装置及び翻訳システム
JP2007166044A (ja) * 2005-12-12 2007-06-28 Tetsuhiko Minami 監視システム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006155084A (ja) * 2004-11-26 2006-06-15 Olympus Corp 情報端末装置及び状態表示システム
JP2006154101A (ja) * 2004-11-26 2006-06-15 Olympus Corp 情報端末装置及び翻訳システム
JP4564344B2 (ja) * 2004-11-26 2010-10-20 オリンパス株式会社 情報端末装置及び翻訳システム
JP4573634B2 (ja) * 2004-11-26 2010-11-04 オリンパス株式会社 情報端末装置及び状態表示システム
JP2007166044A (ja) * 2005-12-12 2007-06-28 Tetsuhiko Minami 監視システム

Similar Documents

Publication Publication Date Title
US9798934B2 (en) Method and apparatus for providing combined-summary in imaging apparatus
KR100953902B1 (ko) 정보 처리 시스템, 정보 처리 방법, 정보 처리용 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체, 단말 및 서버
US20200012724A1 (en) Bidirectional speech translation system, bidirectional speech translation method and program
US20140242955A1 (en) Method and system for supporting a translation-based communication service and terminal supporting the service
JP2017211608A (ja) 音声対話装置および音声対話方法
US20080195394A1 (en) Device For Communication For Persons With Speech and/or Hearing Handicap
US20210232807A1 (en) Information processing system, storage medium, and information processing method
US11776541B2 (en) Communicating announcements
JP6432177B2 (ja) 対話型通信システム、端末装置およびプログラム
TWI399739B (zh) 語音留言與傳達之系統與方法
WO2016206643A1 (zh) 机器人交互行为的控制方法、装置及机器人
JP2003108362A (ja) コミュニケーション支援装置およびコミュニケーション支援システム
WO2021153101A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2023540537A (ja) メタデータによるマルチモーダルゲームビデオの要約
Myakala et al. A low cost intelligent smart system for real time infant monitoring and cry detection
JP2004207848A (ja) 情報配信システム
KR100949353B1 (ko) 언어 장애인용 대화 보조 장치
JP2002261966A (ja) コミュニケーション支援システムおよび撮影装置
JP2010086356A (ja) 意識関与度測定装置、意識関与度測定方法および意識関与度測定プログラム
GB2493434A (en) Processing data on how a patient feels
JP7055327B2 (ja) 会話収集装置、会話収集システム及び会話収集方法
CN113539282A (zh) 声音处理装置、系统和方法
CN112119455A (zh) 声音处理装置以及翻译装置
JP6856277B1 (ja) 音声入力で翻訳言語を設定する自動音声翻訳システム、自動音声翻訳方法及びそのプログラム
JP2005258597A (ja) 対話装置及び言語データ変換方法