JP4780704B2

JP4780704B2 - 対話型アノテーションシステム

Info

Publication number: JP4780704B2
Application number: JP2005345192A
Authority: JP
Inventors: 和宏桑原; 教彰桑原; 伸治安部; 清安田
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2005-11-30
Filing date: 2005-11-30
Publication date: 2011-09-28
Anticipated expiration: 2025-11-30
Also published as: JP2007150955A

Description

この発明は対話型アノテーションシステムに関し、特にたとえば、認知症者の過去の写真をナレーションとともにスライドショーの形式に編集して認知症者に提示する、思い出ビデオのようなビデオコンテンツを作成する際に写真にアノテーションを付与するための対話型アノテーションシステムに関する。

高齢の認知症者に視聴覚刺激を提示することで、彼（女）らを活性化することを目的とした研究が幾つかなされている。たとえば、非特許文献１に示すビデオレスパイトでは、ビデオの視聴者である認知症者に語り掛けを行うキャラクタが提示される。また、非特許文献２に示すプロジェクトＣＩＲＣＡでは、昔の有名な歌や画像、映像を含んだ、よくデザインされたマルチメディアコンテンツが利用されている。

発明者等は、認知症者の長期記憶を刺激するという観点から、視聴覚刺激の素材として、思い出ビデオを選定した。思い出ビデオは認知症者の古いアルバム中の写真を用いて作成されたスライドショービデオである。その臨床的な有効性は非特許文献３で実験的に示されている。

しかし、思い出ビデオを作成するのは単純な作業ではない。まず、古いアルバムを用意し、そこから適当な写真を選択する。使用する写真は、視聴者である認知症者の遠い昔の記憶を呼び覚ますものでなくてはならない。次に、ビデオカメラで写真をムービー仕立てに撮影するが、必要に応じてパン、ズームの映像効果を付与する。またナレーションは、認知症者をビデオにより一層引き付けるために付与される。

発明者等は、非特許文献４で、思い出ビデオの作成作業を支援することを目指して、写真のどの部分に誰が写っているなどのアノテーションを写真に付与し、そのアノテーションを基にパン、ズームなどの映像効果を自動的に付与するオーサリングツールを提案している。アノテーションを活用することにより、同じ写真群から異なった内容の思い出ビデオを容易に作成できるという利点がある。
Lund, D.A., Hill, R.D., Caserta, M.S., and Wright, S.D.: Video Respite: an innovative resource for family, professional caregivers, and persons with dementia, The Gerontologist, Vol. 35, Issue 5 (1995) 683-687. Gowans, G., Campbell, J., Alm, N., Dye, R., Astell, A., and Ellis, M.: Designing a multimedia conversation aid for reminiscence therapy in dementia care environments, Extended abstracts of the 2004 conference on Human Factors and Computing Systems (2004) 825 - 836. 安田ほか：認知症者への思い出写真ビデオの作成と集中度の評価。第２８回高次脳機能障害学会総会（２００４） Kuwahara, N., Kuwabara, K., Tetsutani, N., and Yasuda, K., "Using Photo Annotations to Produce a Reminiscence Video for Dementia Patients,"3rd International semantic Web Conference (ISWC2004) Demo Papers, 2004

しかし、適切なアノテーションを写真に付与するのは容易ではない。特に思い出ビデオへの応用を想定すると、写真に写っている認知症者(被介護者)と関係の深い人々がアノテーションの主な対象となり、正確なアノテーションを付けることができる人は、被介護者または、被介護者をよく知っている人（たとえば家族）になる。

さらに、写真の写っている対象によっては、嫌な思い出になる場合も想定される。そのような場合は、思い出ビデオの対象外とした方が適当である。嫌な思い出かどうかは、被介護者本人にしかわからないことも多い。したがって、アノテーションをつける際には、介護者が、写真をもとに、被介護者と話をしながら、被介護者の反応を踏まえたうえで、写真にアノテーションをつけていくのが適当である。

それゆえに、この発明の主たる目的は、新規な、対話型アノテーションシステムを提供することである。

この発明の他の目的は、被介護者と話をしながら写真にアノテーションをつけられる、対話型アノテーションシステムを提供することである。

請求項１の発明は、ネットワークを介して接続される介護者端末と被介護者端末とを備え、ネットワークにはさらに写真データを予め記憶しておくデータベースが結合され、介護者端末および被介護者端末はそれぞれ、音声入力手段および音声出力手段を有し、介護者と被介護者とは音声入力手段および音声出力手段によって会話できる、対話型アノテーションシステムであって、データベースから写真のデータを読み出して、２つの端末に同じ写真を同期的に表示させる写真表示手段、介護者端末において写真中の場所を指定する場所指定手段、場所指定手段が写真中の場所を指定したとき、被介護者端末に表示されている写真上でその場所に関連した領域に被介護者の注目を誘うための注目映像処理を施す注目映像処理手段、介護者端末に設けられ、領域に注目映像処理が施されているとき、介護者端末に付属する音声入力手段から入力した介護者の音声を録音する録音手段、および写真の写真データ、写真中の場所を含む領域を示す座標データを示す座標データおよび録音手段で録音した介護者の音声データを紐付けしてデータベースに保存する手段を備える、対話型アノテーションシステムである。

請求項１の発明では、対話型アノテーションシステム（１０：実施例で相当する部分または要素を例示する参照符号。以下、同じ。）は、ネットワーク（１２）およびサーバ（１４）を介して繋がる介護者端末（介護者用コンピュータ１６）および被介護者端末（被介護者用テレビ電話装置１８）を含み、写真表示手段の機能はサーバ（１４）が持つ。つまり、実施例では、サーバ（１４）が、写真データを予め記憶しているデータベースから写真データを読み出して、２つの端末（１６，１８）のＧＵＩ画面（４０，５０）の写真表示領域（４２，５２）に同じ写真を表示させる。そして、場所指定手段（Ｓ１９）が介護者端末で位置指定したとき、被介護者端末に映像処理コマンドが、たとえば介護者端末からサーバを介して、送られる。したがって、被介護者端末では指定位置を含む領域をたとえばズームアップしたりハイライトまたは点滅表示するなどの注目映像処理を実行する。したがって、被介護者が確実にその指定位置に注目することが期待できる。
しかも、音声入力手段（マイク２２）および音声出力手段（スピーカ２４）を用いて、介護者と被介護者とで会話できるので、この会話を通して、介護者は容易にアノテーションを収集できる。つまり、介護者端末、たとえばコンピュータ（１６）が自分側のマイク（２２）からの音声を録音することによって、写真に対するナレーションデータをアノテーションとして採取することができる。したがって、別にナレーションデータを作成する必要がない。
そして、実施例ではサーバがデータベース（２８）に、写真の写真データ、写真中の場所を含む領域を示す座標データを示す座標データおよび録音手段で録音した介護者の音声データを紐付けして保存することによって、たとえばナレーション付の思い出ビデオのようなビデオコンテンツを作成できる。

請求項２の発明は、ネットワークを介して接続される介護者端末と被介護者端末とを備え、ネットワークにはさらに写真データを予め記憶しておくデータベースが結合され、介護者端末および被介護者端末はそれぞれ、音声入力手段および音声出力手段を有し、介護者と被介護者とは音声入力手段および音声出力手段によって会話できる、対話型アノテーションシステムであって、データベースから写真のデータを読み出して、２つの端末に同じ写真を同期的に表示させる写真表示手段、介護者端末において写真中の場所を指定する場所指定手段、場所指定手段が写真中の場所を指定したとき、被介護者端末に表示されている写真上でその場所に関連した領域に被介護者の注目を誘うための注目映像処理を施す注目映像処理手段、介護者端末に設けられ、領域に注目映像処理が施されているとき、介護者端末に付属する音声入力手段から入力した介護者の音声を録音する録音手段、および写真の写真データ、写真中の場所を含む領域を示す座標データを示す座標データおよび録音手段で録音した介護者の音声データを紐付けしてデータベースに保存する手段を備え、録音手段は音声入力手段からの音声を録音し続け、さらに、録音開始を指示する録音開始指示手段を設け、録音開始指示手段による指示が入力されたとき、直前の無音部分を検索し、その無音部分以後の音声を切り出して録音するようにした、対話型アノテーションシステムである。

請求項２の発明では、たとえば介護者端末のＧＵＩに録音ボタンを表示し、それを操作したとき、直近の無音部分までさかのぼって、そこから後の会話（介護者音声）だけを自動的に録音できる。

請求項３の発明は、介護者端末および被介護者端末はそれぞれ撮影手段、および相手側の撮影手段で撮影した映像を表示する相手映像表示手段をさらに含む、請求項１または２記載の対話型アノテーションシステムである。

請求項３の発明では、２つの端末にそれぞれ撮影手段（２０）を設け、互いに相手のリアル動画映像を見ることができる。したがって、介護者がアノテーションを採取する際に被介護者の状態や表情を観察できるので、それらが録音手段によるアノテーション採取のときの参考になり、あるいはその映像からアノテーションを採取したりすることもできる。

この発明によれば、被介護者と話をしながら写真にアノテーションをつけられるので、正確なアノテーションを付与できる。

この発明の上述の目的、その他の目的、特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。

実施例の説明に先立って、まず、アノテーションについて説明する。アノテーションとは、概略、写真にメタ情報を付与することであり、メタ情報とは、データに関する構造化した情報を意味し、実施例の場合であれば、写真画像データの詳細を構造的に記述する情報のことである。ただし、実施例では、これらのメタ情報以外にも、たとえば、その写真を使って思い出ビデオのようなビデオコンテンツを作る際に必要なナレーションの音声データなどもアノテーションとして、登録できるようにする。

このようなアノテーションを付与するためのアノテーションツールとしては、たとえば、DublinCore（http://dublincore.org）、ImageRegions（http://www.w3.org）、FOAF （http://www.foaf-project.org）、Jena2(2.1)（http://jena.sourceforge.net）などが利用可能である。Dublin Coreはメタ情報を取り扱う代表的なツールとして知られていて、さらに、写真中の人物の顔やオブジェクトの領域（以後、「リージョン」と呼ぶ。）を複数個指定し、これをメタ情報として保持するためにImage Regionsを利用する。リージョンが人の場合には、FOAFを利用して人のメタ情報を付与する。リージョンは静止画である写真に対して、そこへのズーム、リージョン間のパンといったエフェクトを加えるために用いる。メタ情報をＲＤＦの形式でデータベースに格納するために、Jena2(2.1)を使用する。

たとえば、図１に示す写真ＰＨにおいては２つのリージョンＲ１およびＲ２を設定する場合、それらのリージョンＲ１およびＲ２は、Image Regionsによって図２に示すメタ情報で表すことができる。リージョンＲ１についていえば、それの原点（矩形枠の左上の角）の座標（ｘ１１、ｙ１１）および原点の対角の座標（ｘ１２、ｙ１２）、さらには高さｈ１および幅ｗ１のメタ情報で表現できる。同様に、リージョンＲ２についても、原点座標ｘ２１、対角座標ｙ２１、高さｈ２、および幅ｗ２で記述できる。

図３を参照して、実際のアノテーションデータを説明する。この図３の例では、図１に示した写真を用いる。そして、その写真に２つのリージョンが設定されているものとする。図３において、楕円形の中に「dc:」とあり、それに関連する矩形の中のデータが、Dublin Coreで登録したメタ情報である。たとえば「dc:date」では日付「２００４０７１６（２００４年７月１６日）」が、「dc:title」では名称「at Disney Animal Kingdom（ディズニー動物王国にて）」が、「dc:description」では説明文「They are very happy.(彼等は非常に楽しそう)」がメタ情報として登録される。

楕円形のなかに「imgReg:」とあるメタ情報は、Image Regionsでリージョンを指定したときのメタ情報である。「imgReg:hasregion」はリージョンが設定されていることを示すメタ情報であり、「imgReg:Rectangle」はリージョンが矩形であることを示し、「imgReg:regionDepict」はリージョンの説明で、「imgReg:boundingBox」はリージョンの原点位置とサイズ（高さｈ、幅ｗ）とを含む。「imgReg:coords」はリージョンの原点位置および対角位置の座標である。

また、「foaf:gender」で与えられるメタ情報は、リージョンが人である場合の性別（例示では「female(女)」）であり、「foaf:name」で与えられるメタ情報は名前（例示では「Haruka(はるか)」）であり、「foaf:Person」で与えられるメタ情報はViewer（この思い出ビデオを観る人）と写真に写った人との関係を示し、例示では、「孫（grandchild）」であることがわかる。

このようなアノテーションデータは、写真を使って思い出ビデオのようなビデオコンテンツを作る際に、使用する写真やナレーションを検索するために利用できる。たとえば、FOAFではリージョンの種類が人であるとき、その人を特定するメタ情報を付与するのであるから、このFOAFのメタ情報を利用して、「特定の人物の写っている写真」を検索することができる。複数の人物を同時に検索できるが、この場合には、検索した名前の全員が写っている写真が対象となる。

Dublin Coreのメタ情報を利用する場合には、「撮影年月日」で検索できる。たとえば、「From (第１指定日)〜To（第２指定日）」で第１指定日以降第２指定日以前に撮影した全ての写真が検索できる。「From (指定日)」でその指定日以降に撮影した全ての写真が検索できる。同様に、「To（指定日）」でその指定日以前に撮影した全ての写真が検索できる。また、「特定のプロパティに特定の値が含まれている写真」を検索できる。たとえば、「dc:title」に「Disney」の文字が含まれる写真など。

このように、使用可能性のある写真にアノテーションを付与しておけば、ビデオコンテンツを作成する際の検索などに非常に便利である。そこで、図４に示すこの発明の一実施例の対話型アノテーションシステム１０は、介護者が、たとえば認知症患者である被介護者と、たとえばＩＰ（Internet Protocol）テレビ電話を通して会話しながら上述のアノテーションデータを取得しようとするシステムであり、図４に示すように、たとえばインターネットやＬＡＮのようなネットワーク１２を介して接続される、サーバ１４、介護者用コンピュータ１６（以下、単に「コンピュータ１６」ということがある。）および被介護者用ＩＰテレビ電話装置１８（以下、単に「テレビ電話１８」と言うことがある。）を含む。サーバ１４は、コンピュータ１６およびテレビ電話１８の間でコマンドの転送を行うリレーサーバの役目を果たすものである。

コンピュータ１６はキーボードやマウスさらにはモニタを含む一般的なコンピュータであるが、ＩＰテレビ電話機能が組み込まれている。そのために、コンピュータ１６には、付属的に、カメラ２０、マイク（音声入力手段）２２およびスピーカ（音声出力手段）２４が設けられている。カメラ２０はこのコンピュータ１６の前の介護者（図示せず）を撮影するもので、マイク２２はその介護者の発した声や周囲の音を取り込む。テレビ電話１８にも同様に、カメラ２０、マイク２２およびスピーカ２４が付属的に設けられている。カメラ２０はテレビ電話１８の前の被介護者（図示せず）を撮影するもので、マイク２２はその被介護者の発した声や周囲の音を取り込む。そして、コンピュータ１６とテレビ電話１８とはネットワーク１２およびサーバ１４を介して、映像や音声をやり取りすることができる。両方のスピーカ２４はそのようにして送られてくる相手の声を再生する。

コンピュータ１６には、図５に示すように、ハードディスクやＲＡＭのような内部メモリ２６が設けられていて、その内部メモリ２６には、上述のアノテーションツール、たとえば、DublinCore、ImageRegions、FOAF、Jena2(2.1)などが設定されている。

さらに、サーバ１４には、インタフェース３０を介してデータベース２８が結合される。この実施例では、データベース２８には、たとえばPostgreSQL7.4（http://www.postgresql.org）というリレーショナルデータベースを用いる。

コンピュータ１６は図示しないが、グラフィックボードまたはプロセサやサウンドボードまたはプロセサを内蔵していて、それらを通して、サーバ１４（図４）から送られてくる写真や相手（被介護者）の映像がモニタ３２に表示されるとともに、スピーカ２４からサーバ１４から送られてくる被介護者の声などの音声が出力される。

コンピュータ１６にはさらに、写真データ入力装置３４が接続される。この写真データ入力装置３４は、イメージスキャナ、ディジタルカメラ（デジカメ）、インターネット（Ｗｅｂ）などの少なくとも１つを含む。イメージスキャナは、認知症者の過去の写真をスキャンしてカラーまたはモノクロの写真画像データを入力する。デジカメはリアルタイムで撮影した写真画像データを入力できる他、過去の写真を撮影してそれらの写真画像データを入力するという使い方もできる。インターネットは、遠隔地から送信される認知症者の過去の写真の写真画像データを入力し、さらには必要に応じて認知症者の過去にまつわる事象の写真画像データを取り込むために使用できる。さらに他の種類の写真データ入力装置が用いられてもよい。

コンピュータ１６の内部メモリ２６には、さらに、たとえばインテル社が公開しているOpenCVとよばれるオープンソースのプログラムを設定している。したがって、写真データ入力装置３４を用いて被介護者の過去の写真の写真画像データをコンピュータ１６に入力するとき、写真中の顔の領域が特定され、図６に示すように、その写真の画像データとともに、領域候補リストの領域データ（たとえば、対角２点の座標データと高さｈおよび幅ｗ）がサーバ１４にアップロードされ、データベース２８に蓄えられる。同時に、このデータベース２８には、図６に示すように、介護者が逐次取得するナレーションデータを含むアノテーションも、コンピュータ１６からサーバ１４へアップロードすることによって、その写真データや顔領域データとともに紐付けされて、記憶される。

コンピュータ１６では、相手のテレビ電話１８にどれかの写真を表示させたいとき、サーバ1４のＵＲＬを開いて、そこでその写真を指定することになる。そして、指定した写真のすべてのデータ（画像データ、座標データ、音声データ）は、その都度、サーバ１４からコンピュータ１６およびテレビ電話１８に同期的にダウンロードされる。ただし、テレビ電話１８には画像データだけが送られる。テレビ電話１８は被介護者側であるので、アノテーションデータが不要であるからである。このようにして、コンピュータ１６およびテレビ電話１８のそれぞれのモニタに同じ写真が同時に（同期して）表示されるので、両方で同じ写真を見ながら、さらに会話をしながら、介護者が被介護者から必要な情報を聞き出しながら、介護の一環として、アノテーション付与作業を行える。

コンピュータ１６のモニタ３２には図７に示すようなＧＵＩ（Graphical User Interface）４０が表示される。このＧＵＩ４０は、モニタ画面の左方の大部分を占める、写真表示領域４２を含む。この写真表示領域４２は、そこに入力した写真画像データの写真を表示し、さらには、リージョンを指定するなどの編集作業のために利用される。したがって、たとえばマウスなどを使ってその位置や場所を指定すると、コンピュータ１６内にその位置や場所の情報が取り込まれるとともに、ネットワーク１２を通してサーバ1４に伝えられる。ただし、図７のこの領域４２に表示されている写真の１人の顔に付着している黒丸印は、後に説明するように、介護者がマウスで位置を指定したときの、または、テレビ電話１８の後述のタッチパネル５１を通して被介護者が位置を指定したときの、その位置を誇張して表現したものである。

ＧＵＩ４０は、また、モニタ画面の右方に形成される相手映像表示領域４４を含む。相手映像表示領域４４には、テレビ電話１８から送られるカメラ２０で撮影たした被介護者の動画映像がリアルタイムで表示される。

ＧＵＩ４０には、モニタ画面の下方に形成される、アノテーション入力領域４６が設けられる。アノテーション入力領域４６には、領域４２に表示されている写真全般に関わるかつアノテーションツール（Dublin Core やFOAF）で定義されたメタ情報を入力する。そのメタ情報の入力ためには、図４に示すキーボードやマウスが利用できる。

アノテーション入力領域４６の上方には、いくつかの操作ボタンが設けられるが、この実施例では、録音ボタン４８が重要である。この録音ボタン４８は、介護者が被介護者と会話しているとき、自分の発言をビデオコンテンツのナレーションとして利用しようと思ったとき、その自分の発言をデータベース２８にアノテーションとして登録する場合に操作される。たとえば、同じ写真を見ながら被介護者と会話していく訳であるが、たとえば「かわいい赤ちゃんですね。」のような被介護者への語りかけを録音する。

テレビ電話１８のモニタには図８に示すようなＧＵＩ５０が表示される。このＧＵＩ５０は、モニタ画面の左方の大部分を占める、写真表示領域５２を含む。この写真表示領域５２は、そこに入力した写真画像データの写真を表示するために利用される。ＧＵＩ５０は、モニタ画面の右方に形成される相手映像表示領域５４を含む。相手映像表示領域５４には、コンピュータ１６から送られるカメラ２０で撮影たした介護者の動画映像がリアルタイムで表示される。このテレビ電話１８のＧＵＩ５０には、アノテーション入力領域は設けない。

ただし、被介護者（図示せず）が写真表示領域５２に表示された写真上の人や物を指し示すために、このモニタ（ＧＵＩ）５０の上には、タッチパネル５１が少なくとも写真表示領域５２を覆うように、設けられる。このタッチパネル５１をタッチすることによって入力される位置や場所のデータは、ネットワーク１２を介してサーバ１４に伝えられ、必要に応じてさらにコンピュータ１６に伝えられる。

図４に示す実施例の対話型アノテーションシステム１０を用いる場合、基本的には、介護者側が主導的役割を果たす。したがって、写真を表示する場合には、コンピュータ１６を用いて介護者が写真を指定する。すなわち、図９の最初のステップＳ１１において、介護者（図示せず）はキーボードやマウスなどの適宜の入力手段(図４)を用いて、サーバ１４のＵＲＬにアクセスし、それを開く。ただし、この操作に先立って、介護者がアノテーション付与を意図しているすべての写真は、先に説明したように写真入力装置３４を用いてコンピュータ１６内に取り込まれ、サーバ１４にアップロードされ、そのサーバ１４に接続されたデータベース２８に保存されているものとする。

コンピュータ１６の操作によってサーバ１４の該当のＵＲＬを開き、介護者は、次のステップＳ１３において、そのＵＲＬから、アノテーションしたい写真を、たとえばマウスで指定する。

そうすると、サーバ１４は、その指定された写真の写真データや顔領域候補の座標データ（図６）をコンピュータ１６およびテレビ電話１８の両方にダウンロードするので、ステップＳ１５および図１０のステップＳ１０１において、コンピュータ１６もテレビ電話１８もそのダウンロードデータを受ける。ただし、テレビ電話１８には顔領域候補の座標データは要らないので、サーバ１４はコンピュータ１６が指定した写真の画像データだけをテレビ電話１８に送る。したがって、ステップＳ１７および図１０のステップＳ１０３において、コンピュータ１６のモニタ３２のＧＵＩ４０およびテレビ電話１８のＧＵＩ５０のそれぞれの写真表示領域４２および５２には、図７および図８に示すように、介護者がコンピュータ１６で指定した写真が表示される。

その状態で、介護者は、マウスを用いて、その写真中の顔の中の点を指定する。そうすると、図７に示す黒丸がコンピュータ１６のモニタ３２上の写真表示領域４２に表示される。そして、コンピュータ１６は、次のステップＳ１９において、その位置データ（座標データ）を、ズームアップコマンドとともにサーバ１４に送る。

サーバ１４はその位置データを受け取り、コンピュータ１６からアップロードされている顔領域候補座標データを参照して、その位置が写真中の顔の領域に含まれるかどうかを判断する。介護者が指定した位置が顔領域を示すとき、サーバ１４は、コンピュータ１６が送ったコマンド（たとえばズームアップコマンド）と一緒に、その顔領域を表すデータ（たとえば、対角２点の座標データと高さｈおよび幅ｗ）をテレビ電話１８に送る。

応じて、テレビ電話１８はステップＳ１０９で“ＹＥＳ”となり、ステップＳ１１１で、そのコマンドとデータとに基づいて、指定された画像処理を実行する。たとえば、指定領域が顔領域であり、コマンドがズームアップの場合、図１１（Ａ）に示すように、テレビ電話１８のモニタ上のＧＵＩ５０の写真表示領域５２に、まず、その顔領域（図１で示すリージョンＲ１）を示す４角形を表示し、ついで、図１１（Ｂ）に示すように、その顔領域を写真表示領域５２の全面に拡大して表示する（ズームアップ処理）。このような映像処理によって、テレビ電話１８のモニタを見ている被介護者がその顔領域に注目することが期待できる。

ただし、そのような注目映像処理としては、ズームアップの他に、たとえば図１１（Ａ）に示す４角形および／またはその枠内をハイライト表示するとか、点滅表示するとか、色々考えられる。

図９に示すステップＳ２１で、介護者と被介護者とが、同じ写真の同じ顔を見ながら、マイク２２およびスピーカ２４を使って、会話することができる。コンピュータ１６は、自分のマイク２２から入力される音声信号を音声データに変換し、内部メモリ２６（図５）に一時的に記憶する。コンピュータ１６は、自分のマイク２２からのすべての音声を録音している。

つまり、被介護者と会話しながら録音するために、この実施例のシステム１０では、コンピュータ１６は常に録音状態としておき、介護者のマイク２２を通して被介護者に対して行う呼びかけを常時録音しておく。介護者が発した呼びがけに対して、被介護者がどのように反応しているかは、ＧＵＩ４０（図７）の相手映像表示領域５４に表示されている被介護者のリアルタイム動画映像を見れば分かる。そして、被介護者が好ましい反応を出した際に、介護者は、図７のＧＵＩ４０に設定されているナレーション録音ボタン４８を押す（クリックする）。ただし、このような仮想ボタンに代えて、フットスイッチなどの実際のスイッチを用いるようにしてもいい。

ナレーション録音ボタン４８が押されると、コンピュータ１６は、直近に録音された音声から、無音部分の区切りを検出し、ナレーションとして使用する部分の音声をデータベース内にアノテーションデータとして格納する。たとえば、今注目している顔が赤ちゃんのものであったとして、介護者が被介護者に、たとえば「かわいい赤ちゃんですね」のような共感を呼び起こすことをねらった呼びかけを行なうことがよく行われる。そして、この呼びかけに被介護者が好ましい反応を示したとして、図１２に示すように、その呼びかけの終了以後、録音ボタン４８を操作すると、この「かわいい赤ちゃんですね」の呼びかけが始まる前の無音部分を検索し、その無音部分以後の「かわいい赤ちゃんですね」の音声データだけを切出して、サーバ１４経由でデータベース２８に登録すればよい。

このとき、このナレーションデータは図６に示すように、写真と紐付けされているので、後にすぐに検索することができる。つまり、格納された音声データと、録音時に注目していた写真中の領域ヘリンクをはっておけば、その写真中の領域が、音声データのアノテーション情報となるわけである。通常の録音システムのように、録音ボタンを押してから、録音するのではなく、発声が終わってから、いいと思ったもののみをデータベースに登録することで、効率よくナレーションデータの収集が行える。

このように、介護者の発した語り掛けの音声を録音し、データベース２８に格納することにより、写真のアノテーションとしてナレーションデータも同時に獲得することができる。特に、この実施例のように介護者と被介護者とが離れた場所でテレビ電話を介した場合には、コンピュータ１６のマイク２２は介護者側の音声のみを拾うことになるので、被介護者の発声は録音されず、雑音の少ないナレーションデータが録音できるという利点もある。しかも、介護者側の音声がそのままナレーションとして録音されるので、たとえば別の人に別途を吹き込んでもらったり、音声合成でナレーションデータを作成したりする必要がない。

また、この会話を通して被介護者から得た情報によって、図３に示す多くのアノテーションを取得できる。たとえば「dc:date」で定義される日付、「dc:title」で定義される写真またはその写真を撮ったときの行事などの名称、「dc:description」で定義される説明文、「foaf:gender」で定義される人の性別、「foaf:name」で定義され人の名前、「foaf:Person」で定義できる被介護者との関係など、必要なアノテーションを正確に会話から採取することができる。ただし、「imgReg:」で定義できる一連のリージョン情報は、先に説明した「顔領域候補データ」から取得できる。

このように、テレビ電話を利用して介護者と被介護者とが会話しながらアノテーションデータを獲得するようにすれば、介護の一環として、つまり介護しながらアノテーションも取得できるので、アノテーションをつける作業自体は、介護の中に組み込まれ、オーバヘッドとはならなくなる。しかも、当事者に確認しながらアノテーションデータを採取できるので、写真に対して正確なアノテーションを付与することができる。

図９に戻って、ステップＳ２５でコンピュータ１６はその写真のアノテーション採取は終了したかどうか判断する。この判断は、そのとき表示されている写真中の顔候補すべてについてアノテーションを付与したかどうか、つまり、すべての顔領域をコンピュータ１６側で指定したかどうかで判断できる。ただし、コンピュータ１６を操作している介護者が判断して次の写真を表示するための操作ボタン（図示せず）を操作するようにしてもよい。

ステップＳ２５で“ＮＯ”なら、つまり指定していない顔候補が未だ残っているときは、コンピュータ１６はステップＳ２７において、ズームダウンコマンドをサーバ１４に送る。ズームアップは上述のように、指定した顔を画面いっぱいに拡大表示するような映像処理であったが、ズームダウンはその逆で、画面５２（図８）に写真全体が表示できるように縮小する映像処理のことである。このズームダウンコマンドはサーバ１４からテレビ電話１８に送られるので、テレビ電話１８では、図１０のステップＳ１１１で、ズームダウン処理する。それによって、図８に示すＧＵＩ５０の領域５２に写真が全体表示されるので、次のステップＳ１９での位置指定が明瞭に認識できる。つまり、ズームアップしたままであったら、次の位置指定の過程が被介護者には見えないので、位置指定を変更したと、はっきり認識できない場合があるが、ズームダウンして一旦「引いた」後再びズームアップ（ステップＳ２１）するので、次の位置指定がはっきりと認識できる。

その後、次の指定位置についてステップＳ１９‐Ｓ２５を繰り返し実行し、やがてステップＳ２５で“ＹＥＳ”が判断される。ステップＳ２５で“ＹＥＳ”の判断をした次に、ステップＳ２９において、コンピュータ１６は、次の写真があるかどうか判断する。この判断は、コンピュータ１６が何枚の写真のデータをサーバ１４にアップロードしてデータベース２８に保存したか把握できているので、処理した写真がその枚数に達したかどうか判断することで容易に行なえる。

ステップＳ２９で“ＹＥＳ”が判断されたときには、ステップＳ１３まで戻って、再びステップＳ１３‐Ｓ２７を実行すればよい。ステップＳ２９で“ＮＯ”なら、つまり、すべての写真についてアノテーションデータを採取または収集できたなら、処理を終了する。ただし、それまでに取得したアノテーションデータは、サーバ１４の処理によって、その都度データベース２８に更新的に蓄積されているので、処理が終了したときには、データベース２８内に写真およびそれに紐付けされたアノテーションデータが保存されていることになる。

なお、テレビ電話１８のＧＵＩ５０の上にタッチパネル５１を装着しているが、このタッチパネルは被介護者が操作するもので、たとえば、被介護者が会話中に、「これは妹と○○（場所）へいったときの写真です。」という返答が帰ってきた場合を想定して、その場合、介護者は「妹さんはどの人」などと会話を進行させることがある。その問いかけに対して、被介護者は写真の上で「妹」を指し示そうとする。そのとき、写真の上にタッチパネル５１（図８）があるので、被介護者が「妹」にタッチすれば即座に、その位置データが取得できる。つまり、マウスなどの被介護者にとって煩わしい操作なしに、被介護者が簡単に位置（写真中の人物や物）を指示することができる。

そして、この被介護者のタッチパネル５１からの位置データは、サーバ１４を通してコンピュータ１６に入力されるので、コンピュータ１６は、図９のステップＳ１３で、自分で位置指定したときと同様に、たとえば図７の写真表示領域４２に黒丸表示を行なう。それによって、介護者は被介護者が指し示した「妹」が写真中のどの人かを容易に理解または認識できる。

なお、図４の実施例において、被介護者端末としてのテレビ電話１８において、所定の時間（たとえば１秒間）何も動作がないときには、その被介護者端末１８から、サーバ１４に実行すべきコマンドがあるかを問い合わせ、返却値として帰ってくるコマンドをステップＳ１１１で実行する（ポーリング)。同じように、介護者端末としてのコンピュータ１６において所定の時間(たとえば１秒間)何も動作がないときには、介護者端末１６は、被介護者端末１８でスクリーン（タッチパネル５１）にタッチしたという情報がないかをサーバ１４に問い合わせ、その返却値として帰る情報をもとに次の動作を決めればよい。

サーバ１４は、上で説明したように、２つの端末に同期的に同じ写真を表示させる手段として機能するが、さらに、サーバ１４はこのように、被介護者端末１８と介護者端末１６とのコネクションを管理し、コマンドを双方の端末間で転送するとともに、送られてきたコマンドや通知を一旦蓄え、次に端末からアクセスがあったときにその返却値として、蓄えておいた情報を該当の端末に返すという機能も持っている。

ただし、２つの端末間で直接データの授受ができるようなネットワーク環境であれば、サーバ１４を省略することも可能である。その場合には、コンピュータ１６にデータベース２８をインタフェース３０を介して接続すればよい。

以上説明したように、実施例の対話型アノテーションシステム１０によれば、介護者が被介護者の相手をしながら、並行して写真のアノテーションをつける作業を容易にする。アノテーションがついた写真からは思い出ビデオのようなビデオコンテンツが容易に生成できるので、介護者が不在の場合は、思い出ビデオを再生することで、介護の一助とすることができる。さらに、介護者がネットワークを介して、被介護者の相手をすることが可能になる。介護ボランティアが被介護者の自宅に訪問することなく、相手をすることが可能となり、被介護者にとって介護を受ける機会が増えることにつながる。

この発明の実施例の対話型アノテーションシステムで用いるアノテーションの例を説明するための図解図である。図１に示すリージョンを示すアノテーションデータを例示する図解図である。実施例のシステムでデータベースに登録するアノテーションの一例を示す図解図である。この発明の一実施例の対話型アノテーションシステムを示すブロック図である。図４実施例の介護者用コンピュータの構成を示すブロック図である。写真とそれに関連する顔領域候補データおよびアノテーションの紐付けの状態を図解する図解図である。介護者用コンピュータのモニタに形成するＧＵＩを例示する図解図である。被介護者用テレビ電話装置のモニタに形成するＧＵＩを例示する図解図である。図４実施例における介護者用コンピュータの動作例を示すフロー図である。図４実施例における被介護者用テレビ電話装置の動作例を示すフロー図である。被介護者用テレビ電話装置のモニタに形成するＧＵＩにおける映像処理の一例（ズームアップ）を図解する図解図である。ナレーション録音の方法の一例を示す図解図である。

符号の説明

１０ …対話型アノテーションシステム
１２ …ネットワーク
１４ …サーバ
１６ …介護者用コンピュータ（コンピュータ）
１８ …被介護者用テレビ電話装置（テレビ電話）
２０ …カメラ
２２ …マイク
２４ …スピーカ
２６ …内部メモリ
２８ …データベース
４０，５０ …ＧＵＩ

Claims

ネットワークを介して接続される介護者端末と被介護者端末とを備え、前記ネットワークにはさらに写真データを予め記憶しておくデータベースが結合され、前記介護者端末および前記被介護者端末はそれぞれ、音声入力手段および音声出力手段を有し、介護者と被介護者とは前記音声入力手段および前記音声出力手段によって会話できる、対話型アノテーションシステムであって、
前記データベースから写真のデータを読み出して、前記２つの端末に同じ写真を同期的に表示させる写真表示手段、
前記介護者端末において前記写真中の場所を指定する場所指定手段、
前記場所指定手段が前記写真中の場所を指定したとき、前記被介護者端末に表示されている写真上でその場所に関連した領域に前記被介護者の注目を誘うための注目映像処理を施す注目映像処理手段、
前記介護者端末に設けられ、前記領域に前記注目映像処理が施されているとき、前記介護者端末に付属する前記音声入力手段から入力した介護者の音声を録音する録音手段、および
前記写真の写真データ、前記写真中の場所を含む領域を示す座標データを示す座標データおよび前記録音手段で録音した介護者の音声データを紐付けして前記データベースに保存する手段を備える、対話型アノテーションシステム。
ネットワークを介して接続される介護者端末と被介護者端末とを備え、前記ネットワークにはさらに写真データを予め記憶しておくデータベースが結合され、前記介護者端末および前記被介護者端末はそれぞれ、音声入力手段および音声出力手段を有し、介護者と被介護者とは前記音声入力手段および前記音声出力手段によって会話できる、対話型アノテーションシステムであって、
前記データベースから写真のデータを読み出して、前記２つの端末に同じ写真を同期的に表示させる写真表示手段、
前記介護者端末において前記写真中の場所を指定する場所指定手段、
前記場所指定手段が前記写真中の場所を指定したとき、前記被介護者端末に表示されている写真上でその場所に関連した領域に前記被介護者の注目を誘うための注目映像処理を施す注目映像処理手段、
前記介護者端末に設けられ、前記領域に前記注目映像処理が施されているとき、前記介護者端末に付属する前記音声入力手段から入力した介護者の音声を録音する録音手段、および
前記写真の写真データ、前記写真中の場所を含む領域を示す座標データを示す座標データおよび前記録音手段で録音した介護者の音声データを紐付けして前記データベースに保存する手段を備え、
前記録音手段は前記音声入力手段からの音声を録音し続け、さらに、録音開始を指示する録音開始指示手段を設け、前記録音開始指示手段による指示が入力されたとき、直前の無音部分を検索し、その無音部分以後の音声を切り出して録音するようにした、対話型アノテーションシステム。
前記介護者端末および前記被介護者端末はそれぞれ撮影手段、および相手側の前記撮影手段で撮影した映像を表示する相手映像表示手段をさらに含む、請求項１または２記載の対話型アノテーションシステム。