JP2006072142A

JP2006072142A - 音声ガイドシステム

Info

Publication number: JP2006072142A
Application number: JP2004257572A
Authority: JP
Inventors: Muller Christof; ミューラークリストフ; Yasuyuki Sumi; 康之角; Kenji Mase; 健二間瀬
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2004-09-03
Filing date: 2004-09-03
Publication date: 2006-03-16

Abstract

【課題】他の参加者による各展示物に対する見学の履歴や感想の内容などに関わる情報を、後の時刻に見学に来たユーザが音声により自然に獲得することが可能な見学ガイドシステムを提供する。
【解決手段】音声ガイドシステム１０００は、見学する各参加者により装着され、各参加者の見学する対象物をＩＲタグにより特定する情報を獲得するための装着型センサ系と、据置カメラ３０により見学領域内の見学者や対象物を観測するための据置型センサ系とを備える。データ管理用サーバ４００内には、時間データと関連付けて各参加者の音声情報を記憶されており、アプリケーションサーバ４１０は、装着型センサシステムからの情報に基づいて、見学者が対象物を注視する度合いに応じた重畳度で、当該対象物に対して各参加者が残した音声情報を重畳して、見学者に提供する。
【選択図】図３

Description

本発明は、各参加者の見学に伴う音声の記録情報を再構成して、見学者に、他の参加者の体験した内容を音声で提示するための音声ガイドシステムの構成に関する。

近年、部屋の中での人の動きを認識するために、無線やウェアラブルな航行システムを使って個人の位置を知る技術が開発されている。また、赤外線を高速点滅させるＩＤタグを用いて、人が見ている対象物のＩＤ（識別情報）を自動認識させる技術が開発されている（例えば、非特許文献１，２参照。）。

このような技術を改良することで、対象物に取り付けられた発光装置を、ユーザに装着された検出装置により検出してユーザの視界内に位置する対象物を識別する対象物識別システムなども提案されている（例えば、特許文献１を参照）。

また、このような位置検出技術を応用することで、人間と展示物などの対象物との相互作用の情報を自動的に蓄積するデータベース作成装置が提案されている（例えば、特許文献２を参照）。
特開２００４−２０８２２９号公報明細書特開２００４−５４８８６号公報明細書青木恒、カメラで読み取る赤外線タグとその応用、インタラクティブシステムとソフトウェアＶIII（WISS 2000）、日本ソフトウェア科学会、近代科学社、２０００年、ｐｐ．１３１−１３６松下伸行、他４名、ＩＤＣａｍ：シーンとＩＤを同時に取得可能なイメージセンサ、インタラクション２００２、情報処理学会、２００２年、ｐｐ．９−１６

ところで、さらに、このような位置検出の技術を応用することで、博物館や美術館での展示ガイドや、研究所内での展示物のガイドなどのシステムに応用しようとすると、以下のような問題がある。

すなわち、たとえば、個々の見学者の位置を検出して、事前に準備された各展示物についてのガイド情報をユーザに提供するというようなガイドシステムでは、ある展示物の近傍を訪れたユーザが、そのユーザが見ようとしている、あるいは見ている展示物について、過去に他の見学者がどのような感想を持って見たかについて、容易に知ることができない。

さらに、たとえば、美術館などが込み合っている時期や時間帯であれば、ある展示物の周りに同時に集まっている見学者の数などにより、当該展示の人気の度合いを知ることができるが、ユーザが必ずしもこのような時間帯に展示物を訪れるとは限らない。このような場合でも、ユーザにしてみれば、自分が近傍にきている展示室や展示物の人気の度合いを知ることができれば、展示を見てまわる際に、当該展示物を時間をかけてみるべきかどうかについての判断材料を得ることができて便利である。

しかしながら、従来の展示ガイドシステムでは、このようなある展示物についての多数の見学者の履歴に関わる情報を直感的にユーザが知ることができない、という問題点があった。

本発明の目的は、上記のような問題点を解決するためになされたものであって、他の参加者による各展示物に対する見学の履歴や感想の内容などに関わる情報を、後の時刻に見学に来たユーザが音声により自然に獲得することが可能な見学ガイドシステムを提供することである。

このような目的を達成するために、本発明の音声ガイドシステムは、識別標識を各々付された複数の対象物が配置された領域において、見学者に見学の対象物についてのガイド情報を提供するための音声ガイドシステムであって、領域を見学する各参加者により装着され、各参加者の見学する対象物を識別標識により特定する情報を獲得するための装着型センサシステムと、時間軸上の情報と関連付けて各参加者の音声情報を記憶するための記憶装置と、各参加者の領域内での位置を検知するための位置検知システムと、記憶装置に記憶された各参加者の音声情報に基づいて、見学者に見学中の対象物に関連する音声情報を提供するための音声情報提供装置とを備え、音声情報提供装置は、装着型センサシステムおよび位置検知システムからの情報に基づいて、見学者が対象物を注視したり対象物の前に滞在した時間に応じて、当該対象物に対して各参加者が残した音声情報を重畳して、見学者に提供する。

なお、音声情報提供装置は、見学者が対象物を注視する度合いに応じた重畳度で、当該対象物に対して各参加者が残した音声情報を重畳して、見学者に提供してもよい。

好ましくは、音声情報提供装置は、見学者が領域に入場する際には、領域内の複数の対象物に対して各参加者が残した音声情報を重畳して、見学者に提供する。

好ましくは、音声情報提供装置は、見学者が領域内の特定の対象物について、第１の所定の時間以上注視したと判断した場合、特定の対象物に対して各参加者が残した音声情報を重畳して、見学者に提供する。

好ましくは、記憶装置は、複数の対象物のそれぞれに対して、各参加者が滞在した時間に応じて決定される興味データを記録し、音声情報提供装置は、見学者が領域内の特定の対象物について、第２の所定の時間以上注視したと判断した場合、興味データに基づいて、見学者に類似する興味データを有する参加者が、特定の対象物に対して残した音声情報を、見学者に提供する。

好ましくは、音声情報提供装置は、見学者からの指示および見学者と周りの参加者との関係の状態に応じて、音声情報の提供を停止する。

好ましくは、見学者と周りの参加者との関係の状態とは、見学者が周りの参加者と会話中の状態である。

以下、図面を参照して本発明の実施の形態について説明する。

以下に詳しく説明するが、本発明の音声ガイドシステムを実現するためには、大きくは２つの課題がある。

１つには各見学者の位置、姿勢情報を自動的に取得することである。このために位置検出システムが必要であり、以下の実施の形態では、一例として赤外線センサと赤外線タグを用いて位置検出システムを実現している。

さらに、もう１つは、位置検出システムを利用して収集した各見学者についての履歴情報を、いつ、どこで、どのようにして各見学者に個別に提供するかを、システムがいかにして制御するか、という課題である。この点については、以下の実施の形態では、見学者の現在位置や見学者の展示物に対する見学の状態における再生内容モードの制御、見学者等の指示や見学者の置かれた状態に応じて変化する再生動作モードの制御等により実現している。

［本発明のシステム構成］
以下では、本発明の１つの例として、展示会などのイベントなどの参加者間での知識共有を取り上げて説明する。

図１は、本発明の音声ガイドシステム１０００の一例を示す概念図である。

図１に示すように、音声ガイドシステム１０００においては、見学者Ｐ１やＰ３は、各々、装着型センサシステム２０を装着している。この装着型センサシステム２０は、着用可能な（以下、「ウェアラブルな」という）装着型記録用パーソナルコンピュータ（装着型記録用ＰＣ）１００と、映像カメラ（可視光での映像撮影を行う映像撮影部と赤外線感知型センサとを含む）１４２と、ヘッドフォン、マイク、ヘッドマウント型ディスプレイ、スロートマイク（図１では図示せず）とを備える。

また、各見学者Ｐ１やＰ３には、予め、赤外線を発するＬＥＤ（Light Emitting Diode）タグ１０．１〜１０．ｎ（ｎ：自然数）が、付けられているものとする。赤外線を発するＬＥＤタグ（以下、「ＩＲタグ」と呼ぶ）１０．１〜１０．ｎの各々は、赤外線により、固有な識別信号を発している。このような、固有な識別信号は、上述した赤外線感知型センサ（以下、「ＩＤトラッカ」）によって読込むことが可能である。

さらに、環境下において、観測される可能性のある対象物（展示物）Ｍ１，Ｂ１等にも、ＩＲタグ２２．１〜２２．ｍ（ｍ：自然数）が、付けられているものとする。ＩＲタグ２２．１〜２２．ｍも、発する識別信号が異なる以外は、ＩＲタグ１０．１〜１０．ｎと同様の構成を有する。

装着型センサシステム２０は、マイクにより集音される音声データと、映像カメラ１４２により撮影される映像データと、ＩＤトラッカにより撮影されるＩＲタグデータを、データ獲得期間（キャプチャ期間）のすべての期間にわたって記録する。たとえば、見学者Ｐ１がある時点で位置する地点において、ＩＤトラッカの視野の範囲内において光学的に検知できるＩＲタグのみがシステム２０に記録される。ＩＲタグ２２．１〜２２．ｍが付けられている対象物の位置については予め計測されており、ＩＲタグ２２．１〜２２．ｍの識別信号とその位置とがデータベース化されているものとする。以後、見学者およびこれらの対象物を総称する場合は「オブジェクト」と呼ぶことにする。

なお、環境下には、見学者Ｐ２のように、ＩＲタグのみを装着した人間が存在してもよいが、原則としては、全ての見学者が装着型センサシステム２０を装着していることが望ましく、以下の説明では、全ての見学者が装着型センサシステム２０を装着しているものとして説明する。

また、装着型センサシステム２０を装着するのは、見学者のみならず、説明員も装着してもよい。

また、音声ガイドシステム１０００では、複数の据置型の映像カメラ３０も設置されており、所定の視野範囲を常時観測しているものとする。据置型の映像カメラ３０も、可視光での映像撮影を行う映像撮影部と赤外線感知型センサとを含むものとする。この据置型の映像カメラ３０で撮影された画像情報や、検知されたＩＲタグの情報は、設置型記録用パーソナルコンピュータ（設置型記録用ＰＣ：図示せず）に記録された後、たとえば、有線ネットワーク（有線ＬＡＮ）を介してデータ管理用サーバ（図示せず）に伝送可能なものとする。

さらに、位置検出システムとして、各見学者Ｐ１やＰ３は、その頭頂部に、赤外線センサ１２を装着しており、一方で、天井には、予め定められた位置に格子状に配置されたＩＲタグ群４０が設けられている。なお、位置検出システムとしては、このようなＩＲタグと赤外線センサとの組合せに限られず、各見学者Ｐ１やＰ３の位置を所定の精度で特定できるシステムであれば、たとえば、ＧＰＳのような他のシステムを用いることもできる。さらには、複数の据置型カメラで見学者を撮影した画像において、当該見学者をＩＲタグにより識別して、予め測定されている各据置型カメラの位置情報および撮影方向の情報から三角測量の原理等により、当該見学者の位置を算出してもよい。

なお、装着型記録用ＰＣ１００は、特に限定されないが、たとえば、無線によりＬＡＮ（Local Area Network）に接続する構成とすることが可能である。

装着型記録用ＰＣ１００からの情報や設置型記録用ＰＣからの情報は、データ管理用サーバ４００で収集される。

図２は、図１に示した装着型センサシステム２０の外観を示す模式的斜視図である。

装着型センサシステム２０は、上述のとおり映像カメラ１４２を備えており、映像カメラ１４２には、赤外線により画像を撮影しオブジェクトの識別信号を獲得するためのＩＤトラッカ１４２．１と、可視光により画像（たとえば、動画像）を撮影するための画像撮影カメラ１４２．２とが含まれる。装着型センサシステム２０は、さらに、見学者自身を識別するための赤外線タグ１０．ｉと、見学者の音声を獲得するためのマイク１４４と、位置検出のために見学者の頭頂部に付けられる赤外線センサ１２とを備える。

図２に示すように、装着型センサシステム２０は、見学者の頭部に装着される耳かけ式ネックバンド方式ヘッドセット１４０として構成され、見学者の頭部に装着される。特に限定されないが、ＩＤトラッカ１４２．１および画像撮影カメラ１４２．２は直方体形状の筐体に一体に内蔵され、赤外線タグ１０．ｉは筐体の側面に一体に固定され、さらにヘッドセットにはヘッドフォン１４３（図では、見学者の頭部の陰になっている）が設けられるとともに、マイク１４４は見学者の口元付近に配置される。また、これも特に限定されないが、装着型記録用ＰＣ１００は、見学者に背負われて使用され、装着型センサシステム２０の各検出デバイス、すなわち、ＩＤトラッカ１４２．１、画像撮影カメラ１４２．２、赤外線センサ１２およびマイク１４４からの各出力が装着型記録用ＰＣ１００へ供給される。

また、装着型センサシステム２０では、図示しない入力装置により、見学者のボタン操作による指示を装着型記録用ＰＣ１００へ与えることができるものとする。

ここで、人の顔の向きに一致させて、ＩＤトラッカ１４２．１および画像撮影カメラ１４２．２を装着することで、視野内のどこに何が映っているかを知ることができる。

さらに、装着型センサシステム２０では、見学者の喉部に装着されているスロートマイク１４６を設けており、このスロートマイク１４６からの音声とＩＤトラッカ１４２．１により獲得される他の見学者の情報等によって、見学者が現在会話中であるかどうかが判断できる。すなわち、たとえば、見学者Ｐ１が他の見学者Ｐ３と向き合って、互いをその視野の中に収めており、かつ、双方の見学者が音声を相互に発している状態であると判断されれば、見学者Ｐ１と見学者Ｐ３が現在会話中であると判断することができる。

［音声ガイドシステム１０００の構成］
図３は、音声ガイドシステム１０００の構成をブロック図形式で示す図である。

音声ガイドシステム１０００の構成は、大きくは２つに分けることが出来る。位置検出システム部と音声情報提供部である。

図３を参照して、位置検出システム部は、装着型センサ系と、据置型センサ系と、装着型センサ系からの情報を無線ＬＡＮで獲得し、据置型センサ系からの情報を有線ＬＡＮで獲得して、記録するためのデータ管理用サーバ４００を備える。データ管理用サーバ４００には、獲得された音声データを格納するためのオーディオデータＤＢ（以下、データベースをＤＢと記す）４０２と、装着型センサ系および据置型センサ系によりとらえられるＩＲタグに関する情報を時間と関連付けて格納し、展示物と見学者の相互作用に関する情報を格納するためのインタラクション・コーパスＤＢ４０４とを備える。

装着型センサ系には、上述したように、各見学者に装着される、ＩＤトラッカ１４２．１と、画像撮影カメラ（頭部搭載カメラ）１４２．２と、装着型記録用ＰＣ１００と、入力装置１６０が含まれる。

一方、据置型センサ系には、対象物ごとに設置される、ＩＤトラッカ３０．１と、画像撮影カメラ３０．２と、据置型記録用ＰＣ２００とが含まれる。ＩＤトラッカ３０．１、画像撮影カメラ３０．２、据置型記録用ＰＣ２００の構成は、それぞれ基本的に、ＩＤトラッカ１４２．１、画像撮影カメラ１４２．２、装着型記録用ＰＣ１００と同様である。

オーディオデータＤＢ４０２は、獲得された音声データを、当該音声データを獲得したオブジェクトのＩＤ、獲得した時刻、獲得した位置を関連付けて格納する。インタラクション・コーパスＤＢ４０４は、オブジェクトのＩＤを表す識別信号と予め測定しうる当該オブジェクトの位置を関連付けて格納しておくほか、オブジェクトごとに、対応するＩＤトラッカにとらえられたＩＲタグの識別信号により特定されるオブジェクトＩＤと、とらえられた時刻、とらえられた画像内でのＩＲタグの２次元座標を格納する。

すなわち、ＩＤトラッカは、赤外線に反応してＩＲタグから発光されるＩＤ情報を受け取り、そのＩＤを持つＩＲタグが画面のどの位置にあるか認識するもので、その座標とＩＤ番号、それらを取得した時刻をセットにしてデータベース４０４に書き込む。このデータはＩＤトラッカごとに管理される。

こうして記録されるデータに対しては、階層構造を用いて段階的に抽象化されたインデックス情報を付与していく。以下、各層にどのようなデータを格納するかを簡単に一例として説明する。

生データ（RawData）層では、センサによる生のデータを収集する。ここでは、センサごとにトラッカテーブルを保持し、ＩＤトラッカにとらえられたタグのＩＤと時刻、とらえられた画像内での２次元座標を格納する。

セグメンテーション（Segmentation）層では、人が発話を行っていた区間をクラスタリングする。ここでは、オブジェクトごとにトーク（talk）テーブルを保持し、発話の開始時間、終了時間を格納する。

プリミティブ（Primitive）層では、２体のオブジェクト間のインタラクションを原始事象（primitive）として抽出する。オブジェクトごとに原始事象テーブルを保持し、オブジェクトが参加した原始事象についての情報を格納する。

イベント（Event）層では、時間的・空間的に共有性を有する原始事象を連結し、意味のある単位として「イベント」を抽出する。オブジェクトごとにイベントテーブルを保持し、オブジェクトが参加したイベントについての情報を格納する。

また、アプリケーションサーバ４１０は、データベースインタフェース４１４を介して、データ管理用サーバ４００とデータを授受する。これにより、制御部４１２は、後に説明するように、再生動作モードの制御や、見学者からの明示的な指示または非明示的な状態の把握に基づいて見学者への音声情報のフィードバックの制御、見学者の状態（位置、対象物との相互作用、会話等）の把握による再生内容モードの制御、推薦する会話の選択等を行う。

オーディオミキシングストリーミング処理部４１６では、制御部４１２からの制御に従い、オーディオデータＤＢ４０２中の音声情報を選択し、必要に応じて重畳して、見学中の見学者に与える音声データを生成する。

（位置検出システム部の動作）
制御部４１２が位置検出システムとして動作する際に必要となるのは図１の赤外線センサ１２によって得られた天井の赤外線ＩＲタグ４０の位置である。ＩＲタグ４０の世界座標の位置は予め人の手によって実測している。データベース４０４には各センサ１２ごとにタグ情報が書き込まれている。

見学者の頭部のセンサ１２で撮影されたＩＲタグ４０を含む画像により、見学者の位置を特定できる。

［装着型センサシステム２０の構成］
図４は、装着型センサシステム２０のハードウェア構成をブロック図形式で示す図である。

図４を参照して、装着型センサシステム２０の装着型記録用ＰＣ１００は、メモリカードなどの外部媒体１５０上の情報を読込むための外部媒体ドライブ１１６と、それぞれバスＢＳ１に接続されたＣＰＵ（Central Processing Unit ）１１０と、ＲＯＭ（Read Only Memory)およびＲＡＭ（Random Access Memory）を含むメモリ１１２と、直接アクセスメモリ装置、たとえば、ハードディスク１１４と、無線等による接続を用いてＬＡＮとデータの授受を行うための通信インタフェース１１８と、システムにより使用される時刻を提供するためのタイマ１２２とを備える。タイマ１２２は、データ管理用サーバ４００からのシステムクロックに同期させてあるものとする。

さらに、装着型記録用ＰＣ１００は、見学者によるデータ入力に使用される入力装置１６０からのデータを受け取るための外部装置インタフェース１２０を備える。この外部装置インタフェース１２０は、見学者２が、その頭部に装着するヘッドセット１４０に装着されたＩＤトラッカ１４２．１、画像撮影カメラ１４２．２、赤外線センサ１２、マイク１４４、スロートマイク１４６からの画像データや音声データを受け取るとともに、アプリケーションサーバ４１０からＬＡＮ経由で見学者に配信されてきた音声データをヘッドフォン１４３に供給する。

ここで、装着型センサシステム２０には、アプリケーションサーバ４１０からのガイド情報を見学者に提示するために、ヘッドセット型ディスプレイが設けられてもよい。

なお、外部媒体１５０は、コンピュータ本体に対してインストールされるプログラム等の情報を記録可能な媒体である。また、必要に応じて、キャプチャされたデータを記録可能なものとする。

また、画像データの記録媒体として、ハードディスク１１４、あるいは、他の大容量の外部媒体を用いることで、装着型センサシステム２０におけるコンピュータ１００は、基本的には、汎用のモバイルコンピュータを用いることができる。もちろん、装着型センサシステム２０におけるコンピュータ１００を、汎用のモバイルコンピュータの代わりに、専用のハードウェアで構成してもよい。

［アプリケーションサーバ４１０を構成するコンピュータ３００のハードウェア構成］
図５は、アプリケーションサーバ４１０を構成するコンピュータ３００のハードウェア構成をブロック図形式で示す図である。

図５に示されるように、このコンピュータ３００を構成するコンピュータ本体３０２は、入力装置としてのマウス３１２、キーボード３１０や、ディスクドライブ３０８および外部媒体ドライブ３０６に加えて、それぞれバスＢＳ２に接続されたＣＰＵ３２０と、ＲＯＭおよびＲＡＭを含むメモリ３２２と、直接アクセスメモリ装置、たとえば、ハードディスク３２４と、データ管理用データベース４００とデータの授受を行うためのデータベースインタフェース４１４とを含んでいる。

すなわち、インタフェース４１４を介して、コンピュータ３００は、記録データサーバ４００内の、データベース４０２、４０４にアクセスできる。

本発明のアプリケーションサーバ４１０の主要部、すなわち制御部４１２やオーディオミキシングストリーミング処理部４１６の機能は、コンピュータハードウェアと、ＣＰＵ３２０により実行されるソフトウェアとにより構成される。

図５に示したコンピュータのハードウェア自体およびその動作原理は一般的なものである。したがって、本発明の最も本質的な部分は、ＣＤ−ＲＯＭ３１８、ハードディスク３２４等の記憶媒体に記憶されたソフトウェアである。

なお、データ管理用サーバ４００のハードウェア構成も、基本的には、アプリケーションサーバ４１０と同様である。データ管理用サーバ４１０では、たとえば、ハードディスク３２４等に、オーディオデータＤＢ４０２やインタラクション・コーパスＤＢ４０４が格納されることになる。
（データ管理用サーバへ格納されるデータ）
上述した説明では、装着型センサシステム２０等により獲得された生データがどのようにして、見学中に発生するイベントとして獲得されるかを説明した。

以下では、別の観点から、発明の動作を説明するために、より概念的に、データ管理用サーバ４００に格納されるデータについて説明する。

図６は、インタラクション・コーパスＤＢ４０４に格納されるデータを、このように再構成して概念的に示したものである。

すなわち、インタラクション・コーパスＤＢ４０４に格納されたデータを制御部４１２が参照する際には、以下に説明するような構成をデータベースがとっているものと考える。

つまり、各参加者ごとに図６に示すようなデータが関連づけ可能なように、インタラクション・コーパスＤＢ４０４には、各参加者の見学履歴に関わるデータが格納されている。

図６では、参加者１に関わるデータを抜き出して示す。

例えば、一定の時間ごとに参加者１の位置情報が「場所データ」として獲得されるとともに、参加者１がある展示物と相互作用を行った判断された場合には、「展示物データ」にその相互作用を行った時刻に対応付けて、展示物の識別データが格納される。なお、時間のデータは、時刻そのものでもよいし、時間軸上の順序と位置を特定可能な情報ならば、他の情報、たとえば、番号などでもよい。

ここで、展示物と参加者１が「相互作用を行った」とは、たとえば、参加者１が当該展示物をその視野の中に捕らえ始めてから、所定の時間Ｔ１１以上経過した場合をいうものとする。

この相互作用を行ったと判断された場合には、当該展示物における参加者１の滞在時間も記録される。ここで、「滞在時間」とは、たとえば、参加者１が当該展示物を視野に捕らえ始めてから、視野から当該展示物が存在しなくなる時刻までの時間を言ってもよいし、または、上記のように「相互作用を行った」と判断される展示物の所定の距離の範囲以内に参加者１がとどまっている時間をいってもよい。

また、相互作用を行ったといえる展示物において、他の参加者と会話を行ったと判断された場合には、その相手と会話を録音した音声ファイル名とが記録される。ここで、音声ファイル名で特定される音声データは、オーディオデータＤＢ４０２に格納されているものとする。

さらに、特に限定されないが、たとえば、滞在時間が所定の時間Ｔ２１を超えた場合には、当該展示物に対する参加者１の興味の程度として「興味がある」との情報が記録され、さらに、滞在時間が所定の時間Ｔ２２（＞Ｔ２１）を超えた場合には、当該展示物に対する参加者１の興味の程度として「大変興味がある」との情報が記録される。

なお、これも特に限定されないが、滞在時間が所定の時間Ｔ２１以下である場合は、「興味なし」との情報が当該展示物と関連づけて記録される。

なお、展示物として存在しているにも関わらず、参加者１が相互作用を行ったと判断されない展示物については、参加者１の興味としては、「判断なし」との情報が割当てられる。

この図６に示すようなデータが各参加者について、逐次記録される。当然ながら、現在、見学ガイドサービスを受けている見学者も、参加者の１人であるので、この見学者についても同様のデータが記録されていく。

なお、
図７は、上記のようにして記録されたデータに基づいて、参加者１についての興味に関わる情報を興味ベクトルとして表した概念図である。

すなわち、予め展示物が展示物１〜展示物ｎまで存在することがわかっているときは、各展示物に対する参加者１の興味の程度を変数ｊｕｄｇｅｍｅｎｔ＿ｉ（１≦ｉ≦ｎ）に上述したような「大変興味がある」、「興味がある」、「興味なし」、「判断なし」などの情報が割当てられることで、このベクトルにより、参加者１の興味を表現できる。

なお、興味をこのような４つのカテゴリに分類するという場合に限られず、各カテゴリを所定間隔の数値で表現するとともに、各数値に対して、滞在時間の長さ、当該展示物における会話の有無、会話の長さ等に応じてそれぞれ所定の係数が乗ぜられることにより、このような滞在時間の長さや会話の情報を加味して、興味ベクトルをより定量的に定義してもよい。

図８は、見学者Ｐ１の展示室での動作と見学ガイドシステム１０００の動作の例を示すために展示室Ｒ１を上部から俯瞰した図である。

図８にしたがって、見学者Ｐ１が廊下から展示室Ｒ１に入ってきた際には、入り口近傍の据置型の映像カメラ３０により、見学者Ｐ１の入室が検知される（（１））。

この時点では、見学者Ｐ１は、まだ、いずれの展示物も注視していないので、アプリケーションサーバ４１０は、展示室Ｒ１について、過去に録音され各々が所定の音量に正規化されている全ての会話を重畳し、音量が所定の以上の値とならないように調整した後、音声ストリーミングデータとして、ＬＡＮを介して見学者Ｐ１の装着するヘッドフォン１４３に供給する（環境音声モード）。なお、重畳する会話としては、展示室Ｒ１についての会話の全てに限定されるわけではなく、たとえば、予め定められた割合に相当する個数の会話を選択して重畳してもよい。あるいは、全ての会話のうちの所定の割合をある期間重畳した後、それに続く期間には、残りの会話を重畳するなどして、部分的に重畳した会話を時分割して供給してもよい。また、何日間も続くイベントの展示の場合などは、当日の音声情報を選択して重畳したり、過去、１時間分だけの音声情報を重畳する、といった使い方をすることもできる。

続いて、見学者Ｐ１が展示物Ｂ１の方向へ歩いて行きながら、展示物Ｂ１を所定の時間Ｔ３１以上、視界中に捕らえている場合は、アプリケーションサーバ４１０は、展示物Ｂ１において、録音されている過去に交わされた会話を重畳し、音量が所定の以上の値とならないように調整した後、音声ストリーミングデータとして、ＬＡＮを介して見学者Ｐ１の装着するヘッドフォン１４３に供給する（（２））（展示物概観モード）。

なお、この場合も、重畳する会話としては、展示物Ｂ１についての会話の全てに限定されるわけではなく、たとえば、予め定められた割合に相当する個数の会話を選択して重畳してもよい。あるいは、全ての会話のうちの所定の割合をある期間重畳した後、それに続く期間には、残りの会話を重畳するなどして、部分的に重畳した会話を時分割して供給してもよい。また、ここでも、何日間も続くイベントの展示の場合などは、当日の音声情報を選択して重畳したり、過去、１時間分だけの音声情報を重畳する、といった使い方をすることもできる。

さらに、見学者Ｐ１が展示物Ｂ１の前に立ち止まって、展示物Ｂ１を所定の時間Ｔ３２（＞Ｔ３１）以上、視界中に捕らえている場合は、アプリケーションサーバ４１０は、展示物Ｂ１において、録音されている過去に交わされた会話のうちから、上述した見学者Ｐ１についての興味ベクトルと他の参加者の興味ベクトルとに基づいて、後に説明するようなスコアを算出することにより、推薦する会話を選択し、音量が所定の以上の値とならないように調整した後、音声ストリーミングデータとして、ＬＡＮを介して見学者Ｐ１の装着するヘッドフォン１４３に供給する（（３））（個別会話モード）。

なお、個別会話モードでが、再生する情報の選択について、スコアを考慮して複数選び、スコア順に優先付けした上で、最上位のものだけ再生したり、または。順序づけられたものをその順序で再生することもできる。

このような「環境音声モード」、「展示物概観モード」、「個別会話モード」が上述した「再生内容モード」に相当する。

次に、見学者Ｐ１が展示物Ｂ２に移動した場合、原則としては、展示物Ｂ１におけるのと同様に、展示物概観モードと個別会話モードとに応じて、音声ストリーミングデータとして、ＬＡＮを介して見学者Ｐ１の装着するヘッドフォン１４３に供給されることになる（（４））。しかしながら、展示物Ｂ２の前で、見学者Ｐ１が見学者Ｐ３と会話を始めた場合などは、アプリケーションサーバ４１０から供給される音声ストリーミングデータの再生は、現在行っている現実の会話の妨げになる。このようなときは、制御部４１２は、見学者の状態に基づいて割り込み処理が不可であると判断し、「再生動作モード」を強制的に「一時停止」状態とする。これにより、見学者Ｐ１は、見学者Ｐ３との会話を邪魔されることがない。

同様にして、見学者Ｐ１が展示物Ｂ４に移動した場合、展示物Ｂ１におけるのと同様に、展示物概観モードと個別会話モードとに応じて、音声ストリーミングデータとして、ＬＡＮを介して見学者Ｐ１の装着するヘッドフォン１４３に供給されることになる（（５））。以上の見学の上で、見学者Ｐ１が展示室Ｒ１を出て行った場合（（６））、一連の見学者Ｐ１の見学履歴も、図６に示したような見学履歴データとして格納される。

なお、展示室Ｒ１において、たとえば、展示物Ｂ１、Ｂ２、Ｂ４については、見学者Ｐ１は、相互作用を行ったといえるので、見学履歴データに記録が残るとともに、興味データとして、「大変興味あり」、「興味あり」、「興味なし」のデータが記録され、他の展示物Ｍ１、Ｂ３、Ｍ２については、興味データとしては、「判断なし」とのデータが記録されることになる。

図９は、アプリケーションサーバ４１０の制御部４１２が制御する「再生動作モード」の状態遷移図である。

すなわち、「再生動作モード」は、見学者が入力装置１６０からボタン操作により与える指示と、制御部４１２が判断する見学者への割込み可能性により制御される。

ここで、「割込み可能性」については、制御部４１２は、見学者が会話の状態にある、見学者の所定の近傍内に所定数以上の他の参加者が存在している、というような見学者が音声ガイドにより割込みをされることが望ましくはないと考えられるそれぞれの状態に予めスコアを定めておき、このスコアの合計が所定値以上となっている期間は、「割込み不能」とし、それ以外では「割込み可能」とする。

そこで、図９を参照すると、「再生動作モード」の初期状態としては、「停止モード」が選択される。この「停止モード」から、見学者が入力装置１６０のスタートボタンを押し、かつ、ユーザの状態が「割込み可能」と判断されると、状態は、「再生モード」に移行する一方、「停止モード」から、見学者が入力装置１６０のスタートボタンを押し、かつ、ユーザの状態が「割込み不可」と判断されると、状態は、「一時停止モード」に移行する。

「一時停止モード」において、見学者がストップボタンを操作すると、状態は「停止モード」に移行する。また、「一時停止モード」において、「割込み可能」な状態となると、状態は、「再生モード」に遷移する。

一方、「再生モード」において、「割込み不能」状態となった場合には、「一時停止モード」に遷移する。一方、「再生モード」において、ストップボタンが押された場合には、原則としては、状態は、「停止モード」に遷移する。ただし、「再生モード」において、ストップボタンが押された場合に、「再生内容モード」が「環境音声モード」であるときには、見学者が「割込み可能」状態であっても、「一時停止モード」へ一定時間だけ遷移した後、再生モードに復帰する。また、「再生モード」において、ストップボタンが押された場合に、「再生内容モード」が「展示物概観モード」または「個別会話モード」であるときには、見学者が「割込み可能」状態であっても、見学者が他の対象物を注視するまでか、あるいは、いずれの対象物も注視しなくなるまで、「一時停止モード」にとどまった後、再生モードに復帰する。

図１０は、再生内容モードを示す概念図である。

図８において説明したとおり、見学者Ｐ１が廊下から展示室Ｒ１に入ってきて、まだ、いずれの展示物も注視していない状態では、再生内容モードは「環境音声モード」に設定される。この環境音声モードでは、アプリケーションサーバ４１０は、展示室について、過去に録音され各々が所定の音量に正規化されている全ての会話を重畳し、音量が所定の以上の値とならないように調整した後、音声ストリーミングデータとして、見学者Ｐ１の装着するヘッドフォン１４３に供給する。これにより、見学者Ｐ１は、展示室Ｒ１を過去に見学した参加者達による音声の量に応じて、展示室全体について見学者により「ざわざわ」している状態を擬似的に体感できる。

見学者Ｐ１が所定の時間Ｔ３１以上、ある展示物を視界中に捕らえている場合は、再生内容モードは「展示物概観モード」に設定され、アプリケーションサーバ４１０は、当該展示物において、録音されている過去に交わされた会話を重畳し、音量が所定の以上の値とならないように調整した後、音声ストリーミングデータとして、見学者Ｐ１の装着するヘッドフォン１４３に供給する。これにより、見学者Ｐ１は、当該展示物を過去に見学した参加者達による音声の量に応じて、当該展示物について見学者により「ざわざわ」している状態を擬似的に体感できる。

さらに、見学者Ｐ１が上記展示物の前に立ち止まって、上記展示物を所定の時間Ｔ３２（＞Ｔ３１）以上、視界中に捕らえている場合は、再生内容モードは「個別会話モード」に設定され、アプリケーションサーバ４１０は、上記展示物において、録音されている過去に交わされた会話のうちから、上述した見学者Ｐ１についての興味ベクトルと他の参加者の興味ベクトルとに基づいて選択された推薦する会話を、音量が所定の以上の値とならないように調整した後、音声ストリーミングデータとして、見学者Ｐ１の装着するヘッドフォン１４３に供給する。

図１１は、アプリケーションサーバ４１０の制御部４１２が制御する「再生内容モード」の状態遷移図である。

図１１を参照して、上述のとおり、展示室に入ろうとする見学者にとって、再生内容モードの初期状態は、「環境音声モード」である。

「環境音声モード」において、ある展示物を所定時間Ｔ３１以上注視すると、モードは、「展示物概観モード」に遷移する。「展示物概観モード」では、いずれの展示物も注視しないと判断されると、「環境音声モード」に復帰するものの、他の展示物を所定時間Ｔ３１以上（かつ所定時間Ｔ３２以下）注視している間は、再生内容モードは、「展示物概観モード」にとどまる。

「展示物概観モード」において、さらに、当該展示物を注視しつづけ、注視する時間が所定時間Ｔ３２を超えると、「個別会話モード」に移行する。

「個別会話モード」では、いずれの展示物も注視しないと判断されると、「環境音声モード」に復帰し、他の展示物を所定時間Ｔ３１以上（かつ所定時間Ｔ３２以下）注視している場合は、再生内容モードは、「展示物概観モード」に遷移する。

図１２は、個別会話モードにおいて、アプリケーションサーバ４１０の制御部４１２が、見学者に推薦する会話を選択するためのスコアの一例を示す図である。

図１２に示すとおり、各展示物に対応して決定されている興味ベクトルの各成分について、当該見学者に対する興味の判定は、「大変興味あり」「興味あり」「興味なし」「判断なし」の４つの可能性がある。このとき、他の各参加者の興味ベクトルの各成分について、対応する各展示物に対する興味の判定に応じて、図１２に示す表にしたがってスコアをつけていく。なお、見学者が現在注視している展示物についての当該見学者自身の該当する興味ベクトル成分については、リアルタイムで更新してもよいし、このようなスコアの算出からは除外してもよい。

各成分のスコアを合計すると、見学者と最も興味の似通った他の参加者を決定できるので、このような他の参加者が現在見学者が注視している展示物について行った会話を選択し、音声ストリーミングデータとして、見学者Ｐ１の装着するヘッドフォン１４３に供給する。

このようにすれば、見学者は、自分と嗜好の似通った他の参加者が現在目の前にある展示物について、どのような会話を行ったかを自然に耳からの情報で知ることができる。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

本発明の音声ガイドシステム１０００の一例を示す概念図である。図１に示した装着型センサシステム２０の外観を示す模式的斜視図である。音声ガイドシステム１０００の構成をブロック図形式で示す図である。装着型センサシステム２０のハードウェア構成をブロック図形式で示す図である。アプリケーションサーバ４１０を構成するコンピュータ３００のハードウェア構成をブロック図形式で示す図である。インタラクション・コーパスＤＢ４０４に格納されるデータを、再構成して概念的に示した図である。上記のようにして記録されたデータに基づいて、参加者１についての興味に関わる情報を興味ベクトルとして表した概念図である。見学者Ｐ１の展示室での動作と見学ガイドシステム１０００の動作の例を示すために展示室Ｒ１を上部から俯瞰した図である。アプリケーションサーバ４１０の制御部４１２が制御する「再生動作モード」の状態遷移図である。再生内容モードを示す概念図である。アプリケーションサーバ４１０の制御部４１２が制御する「再生内容モード」の状態遷移図である。個別会話モードにおいて、アプリケーションサーバ４１０の制御部４１２が、見学者に推薦する会話を選択するためのスコアの一例を示す図である。

符号の説明

Ｐ１，Ｐ３見学者、１０．１〜１０．ｎＩＲタグ、２０装着型センサシステム、２２．１〜２２．ｍＩＲタグ、１００コンピュータ、１１０ＣＰＵ、１１２メモリ、１１４ハードディスク、１１６外部媒体ドライブ、１１８通信インタフェース、１２０外部装置インタフェース、１２２タイマ、１４０ヘッドセット、１４２映像カメラ、１４４マイク、１４６スロートマイク、１５０外部媒体、３００コンピュータ、３０２コンピュータ本体、３０４ディスプレイ、３０６外部媒体ドライブ、３０８ＣＤ−ＲＯＭドライブ、３１０キーボード、３１２マウス、３１８ＣＤ−ＲＯＭ、３２０ＣＰＵ、３２２メモリ、３２４ハードディスク、３２８インタフェース、１０００音声ガイドシステム。

Claims

識別標識を各々付された複数の対象物が配置された領域において、見学者に見学の対象物についてのガイド情報を提供するための音声ガイドシステムであって、
前記領域を見学する各参加者により装着され、各参加者の見学する対象物を前記識別標識により特定する情報を獲得するための装着型センサシステムと、
時間軸上の情報と関連付けて各前記参加者の音声情報を記憶するための記憶装置と、
各前記参加者の前記領域内での位置を検知するための位置検知システムと、
前記記憶装置に記憶された各前記参加者の音声情報に基づいて、前記見学者に見学中の対象物に関連する音声情報を提供するための音声情報提供装置とを備え、
前記音声情報提供装置は、
前記装着型センサシステムおよび前記位置検知システムからの情報に基づいて、前記見学者が前記対象物を注視したり、前記対象物の前に滞在した時間に応じて、当該対象物に対して各前記参加者が残した音声情報を選択および重畳して、前記見学者に提供する、音声ガイドシステム。
前記音声情報提供装置は、前記見学者が前記領域に入場する際には、前記領域内の前記複数の対象物に対して各前記参加者が残した音声情報を重畳して、前記見学者に提供する、請求項１記載の音声ガイドシステム。
前記音声情報提供装置は、前記見学者が前記領域内の特定の対象物について、第１の所定の時間以上注視したと判断した場合、前記特定の対象物に対して各前記参加者が残した音声情報を重畳して、前記見学者に提供する、請求項１記載の音声ガイドシステム。
前記記憶装置は、前記複数の対象物のそれぞれに対して、各前記参加者が滞在した時間に応じて決定される興味データを記録し、
前記音声情報提供装置は、前記見学者が前記領域内の特定の対象物について、第２の所定の時間以上注視したと判断した場合、前記興味データに基づいて、前記見学者に類似する興味データを有する参加者が、前記特定の対象物に対して残した音声情報を、前記見学者に提供する、請求項１記載の音声ガイドシステム。
前記音声情報提供装置は、前記見学者からの指示および前記見学者と周りの参加者との関係の状態に応じて、前記音声情報の提供を停止する、請求項１〜４に記載の音声ガイドシステム。
前記見学者と前記周りの参加者との関係の状態とは、前記見学者が周りの参加者と会話中の状態である、請求項５記載の音声ガイドシステム。