前記課題を解決するためになされた第1の発明は、グループ体験型イベントにおけるガイド業務を支援するガイド支援システムであって、グループ体験型イベントでガイドを行うユーザが所持するホスト端末と、グループ体験型イベントに参加するユーザが所持するクライアント端末と、を有し、前記ホスト端末は、ハンズフリー状態で音声を入出力するウエアラブルな音声入出力部と、前記クライアント端末との間で近距離無線通信方式により音声データを通信する無線通信部と、グループ体験型イベントの最中のユーザの様子を撮影するカメラと、制御部と、を備え、前記クライアント端末は、ハンズフリー状態で音声を入出力するウエアラブルな音声入出力部と、前記ホスト端末との間で近距離無線通信方式により音声データを通信する無線通信部と、制御部と、を備え、前記ホスト端末の制御部は、予め設定された認証情報に基づいて、グループ内の前記クライアント端末との間のグループ音声通信を制御し、前記ホスト端末の音声入出力部で入力された音声データ、および前記クライアント端末から受信した音声データを記憶部に蓄積する録音を行うと共に、前記カメラで撮影した映像データを、ユーザの発話期間に対応付けて前記記憶部に蓄積する録画を行う構成とする。
これによると、グループ体験型イベントにおいて、イベントの最中に参加者が支障なく自由に会話できる環境を実現すると共に、イベント終了後に、イベントの最中の映像および音声を参加者に提供して、参加者に十分な満足感を与えることができる。特に、映像データを、ユーザの発話期間に対応付けて蓄積するため、参加者が会話している最中のベストシーンの映像データおよび音声データを参加者に提供することができ、映像データおよび音声データの編集を手作業で行う手間を省くことができる。
また、第2の発明は、前記ホスト端末は、さらに、グループ体験型イベントの経路の途中の所定地点に設置された無線タグの信号を受信する無線タグリーダを備え、前記ホスト端末の制御部は、前記無線タグリーダで前記無線タグの信号を受信すると、所定地点に到着したことを表すアラート音声を、前記ホスト端末の音声入出力部から出力する構成とする。
これによると、所定地点(ガイドスポットや撮影スポットなど)に到着したことを案内者に通知するため、案内者が必要な業務を怠りなく実施することができる。
また、第3の発明は、前記ホスト端末は、さらに、グループ体験型イベントの経路の途中の所定地点に設置された無線タグの信号を受信する無線タグリーダを備え、前記ホスト端末の制御部は、前記無線タグリーダで前記無線タグの信号を受信すると、所定地点に関する案内を行う定型文のガイド音声を、前記クライアント端末の音声入出力部から出力する構成とする。
これによると、所定地点(ガイドスポット)に到着すると、その地点に関する必要なガイドを怠りなく実施することができる。
また、第4の発明は、前記ホスト端末の制御部は、ユーザごとの使用言語に関する設定情報に基づいて、ユーザが発話した原言語の音声を、出力先のユーザの使用言語による翻訳音声に変換するための翻訳指示情報を前記無線通信部から前記クライアント端末に送信し、前記クライアント端末は、前記翻訳指示情報に基づき、前記音声入出力部から前記翻訳音声を出力する構成とする。
これによると、参加者が案内者と使用言語が異なる場合に、参加者の使用言語でガイドを行うことができる。
また、第5の発明は、さらに、録音した音声データおよび録画した映像データを編集する編集装置を有し、この編集装置は、各ユーザの発話期間の音声データを結合してグループ全体の発話期間の音声データを生成する構成とする。
これによると、参加者が会話している最中のベストシーンの音声データを参加者に提供することができる。
また、第6の発明は、前記編集装置は、前記発話期間の前後に所定時間内の無声期間を含むように、前記グループ全体の発話期間の音声データを生成する構成とする。
これによると、参加者の会話内容を途切れることなく連続して聞き取ることができる。
また、第7の発明は、前記編集装置は、録画された前記映像データから、前記グループ全体の発話期間の音声データに対応する期間の映像データを抽出する構成とする。
これによると、参加者が会話している最中のベストシーンの映像データを参加者に提供することができる。
また、第8の発明は、前記グループ体験型イベントは、サイクリングツアー、ウオーキングツアー、カヌーツアー、スノーシューツアー、スノーランブリングツアーのいずれかである構成とする。
これによると、グループ体験型イベントとしての各種のアウトドアツアーに関するガイド業務を支援することができる。
また、第9の発明は、グループ体験型イベントにおけるガイド業務を支援するガイド支援方法であって、グループ体験型イベントでガイドを行うユーザ側に設けられたホスト端末と、グループ体験型イベントに参加するユーザ側に設けられたクライアント端末との間で、ハンズフリー状態で音声を入出力するウエアラブルな音声入出力部で入出力される音声を、近距離無線通信方式により送受信するグループ音声通信を行い、前記ホスト端末において、予め設定された認証情報に基づいて、グループ内のクライアント端末との間の前記グループ音声通信を制御し、前記ホスト端末の音声入出力部で入力された音声データ、および前記クライアント端末から受信した音声データを蓄積する録音を行うと共に、カメラでグループ体験型イベントの最中のユーザの様子を撮影した映像データを、ユーザの発話期間に対応付けて蓄積する録画を行う構成とする。
これによると、第1の発明と同様に、グループ体験型イベントにおいて、イベントの最中に参加者が支障なく自由に会話できる環境を実現すると共に、イベント終了後に、イベントの最中の映像および音声を参加者に提供して、参加者に十分な満足感を与えることができる。
以下、本発明の実施の形態を、図面を参照しながら説明する。
図1は、本実施形態に係るガイド支援システムの全体構成図である。
このガイド支援システムは、グループ体験型イベントとして、自転車に乗って所定のコースを周遊するサイクリングツアーにおいて、ガイド業務を支援するものであり、ホスト端末1と、クライアント端末2と、管理サーバ3(編集装置)と、無線タグ4と、閲覧端末5と、ユーザ端末6と、ロケーション端末7と、を備えている。
ホスト端末1は、サイクリングツアーでガイドを行う案内者(ホストユーザ)が所持し、サイクリングツアーのグループ内の参加者と会話を行うためのグループ音声通信や、案内者や参加者の音声の録音や、サイクリングツアーの様子を撮影した映像の録画などを行う。
クライアント端末2は、サイクリングツアーに参加する参加者(クライアントユーザ)が所持し、サイクリングツアーのグループ内の案内者および他の参加者と会話を行うためのグループ音声通信などを行う。
管理サーバ3は、ホスト端末1からアップロードされた音声データや映像データの編集処理を行い、編集済みの音声データおよび映像データを、閲覧端末5や参加者のユーザ端末6に配信する。
無線タグ4は、ツアーコースの途中のガイドスポットに設置され、無線タグ4から送信される信号をホスト端末1が受信することで、ガイドスポットに関する通知を案内者および参加者に対して行う。なお、無線タグ4に、無線タグリーダ22の電波により稼働するパッシブ型のもの(ワイヤレス給電)を採用することで、電池や外部電源が不要になる。
閲覧端末5は、サイクリングツアーの参加者が宿泊する宿泊施設などに設置され、サイクリングツアーが終了した後に、管理サーバ3から配信される映像データおよび音声データを再生する。
ユーザ端末6は、スマートフォンやタブレット端末である。ユーザ端末6には、サイクリングツアー用のアプリケーションが予めインストールされ、このアプリケーションを起動して、サイクリングツアーが終了した後に、管理サーバ3から配信される映像データおよび音声データを再生する。また、所定のブラウザソフトを起動して、管理サーバ3にアクセスし、映像データおよび音声データを再生することもできる。
ロケーション端末7は、タッチパネルを備えたタブレット等で構成される表示デバイスであり、案内者が所持し、サイクリングツアーにおいて案内者を支援する種々の情報を案内者に提供する。また、案内者は、ロケーション端末7により、サイクリングツアーを開始する前に、グループ音声通信などに関する設定や、ホスト端末1の動作モードに関する設定などに関する操作を行う。なお、ロケーション端末7には、設定用のアプリケーションが予めインストールされ、このアプリケーションを起動して設定の操作を行う。
なお、本実施形態では、グループ体験型イベントとして、サイクリングツアーの例について説明するが、グループ体験型イベントはこれに限定されるものではなく、この他のアウトドアツアーでもよい。このようなアウトドアの体験ツアーとしては、例えば、ツアーコースを徒歩で周遊するウオーキングツアーや、カヌーを漕いで河川を周遊するカヌーツアーや、スノーシューで雪原を周遊するスノーシューツアーや、スキーで雪原を周遊するスノーランブリングツアーなどがある。さらに、グループ体験型イベントは、このような所定のコースを周遊するツアーの他に、所定のエリアで開催されるイベントであってもよい。
次に、ホスト端末1の概略構成について説明する。図2は、ホスト端末1の概略構成を示すブロック図である。
ホスト端末1は、ヘッドセット11(音声入出力部)と、カメラ12と、コントロールユニット13と、を備えている。
ヘッドセット11は、マイク15と、スピーカー16と、を備えている。マイク15は、案内者が発話した音声を収音する。スピーカー16は、クライアント端末から送信される参加者の音声を出力する。このスピーカー16には、例えば骨伝導方式のスピーカーを採用するとよく、これにより、スピーカー16が耳を塞がないため、周囲の音も聞き取ることができることから、自転車を安全に走行させることができる。
なお、ヘッドセット11は、コントロールユニット13と無線接続され、その無線通信には、例えばBluetooth(登録商標)などの近距離無線通信方式を採用するとよい。
カメラ12は、サイクリングツアーの最中の参加者の様子を撮影する。
なお、カメラ12は、コントロールユニット13と有線接続すればよいが、接続ケーブルが自転車走行中に邪魔にならないようにヘッドセット11と同様に、コントロールユニット13と無線接続するとよい。
コントロールユニット13は、無線通信部21と、無線タグリーダ22と、データ入出力部23と、記憶部24と、制御部25と、を備えている。
無線通信部21は、Bluetooth(登録商標)などの近距離無線通信方式により、クライアント端末2と通信を行う。
無線タグリーダ22は、無線タグ4から送信される信号を受信する。
記憶部24は、制御部25を構成するプロセッサが実行する各種の制御プログラムを記憶する。また、記憶部24は、カメラ12で撮影した映像データや、ヘッドセット11で収音した案内者の音声データや、クライアント端末2から受信した参加者の音声データを蓄積する。また、記憶部24は、グループ音声通信および翻訳などに関する設定情報を記憶する。
データ入出力部23は、案内者のロケーション端末7との間でデータの入出力を行い、例えば、案内者がロケーション端末7で行う設定操作による情報がホスト端末1に入力される。
また、データ入出力部23は、管理サーバ3との間でデータの入出力を行い、例えば、記憶部24に蓄積された映像データおよび音声データがホスト端末1から管理サーバ3にアップロードされる。なお、管理サーバ3に対する映像データおよび音声データのアップロードは、メモリカードなどの外部記憶媒体を介して行うようにしてもよい。
制御部25は、通信制御部31と、音声制御部32と、翻訳部33と、録音部34と、録画部35と、ガイドスポット通知部36と、設定部37と、を備えている。この制御部25は、プロセッサで構成され、制御部25の各部は、記憶部24に記憶された制御プログラムをプロセッサで実行することで実現される。
通信制御部31は、無線通信部21で行われる各クライアント端末2との間の近距離無線通信を制御する。具体的には、予め行われる接続処理(ペアリング)で各クライアント端末2との間で認証情報(パスキー、リンクキーなど)を交換し、この認証情報に基づいて、クライアント端末2との間で行われるグループ音声通信を制御する。
音声制御部32は、ヘッドセット11で収音した案内者の音声データを、無線通信部21からグループ内のクライアント端末2に送信し、無線通信部21でクライアント端末2から受信した参加者の音声データを、ヘッドセット11から出力する。
翻訳部33は、ヘッドセット11で収音した案内者が発話した音声を定型文のガイド翻訳音声に変換する定型文翻訳の制御を行う。すなわち、案内者は、定型文または定型文に対応するキーワードを発話する。ホスト端末1の翻訳部33では、案内者が発話した音声の音声認識により取得した文字情報に基づいて、原言語の定型文を検索して、該当する原言語の定型文が見つかると、その原言語の定型文に対応する翻訳指示情報(例えば、定型文番号など)を参加者のクライアント端末2に送信する。そして、参加者のクライアント端末2において、翻訳指示情報にしたがって使用言語の定型文(翻訳定型文)を取得し、その翻訳定型文の音声合成により、翻訳音声の音声データを生成する。
ここで、本実施形態では、案内者が発話した音声をそのままクライアント端末2に送信して出力する通常モードと、翻訳指示情報をクライアント端末2に送信して翻訳音声を出力する翻訳モードとがあり、通常モードおよび翻訳モードのいずれかを案内者が選択することができる。
録音部34は、ホスト端末1のヘッドセット11で収音した案内者の音声データと、無線通信部21でクライアント端末2から受信した参加者の音声データと、を記憶部24に蓄積する録音を行う。このとき、音声データから発話が検出される度に、各発話期間の音声データを記憶部24に蓄積する。また、各発話期間の音声データにタイムスタンプ(開始と終了の時刻情報)を付与する。なお、ホスト端末1またはクライアント端末2において、ロードノイズなどの環境音を収音する恐れがあるが、これらの環境音は、公知の音声認識技術を用いて、案内者や参加者の発話と区別して排除することができる。
録画部35は、カメラ12で撮影した映像データを記憶部24に蓄積する録画を行う。このとき、映像データに時刻情報(タイムスタンプ)を付与し、映像データを、ユーザの発話期間に対応付けて記憶部24に蓄積する。なお、録画部35では、常に所定時間前(例えば30秒)の映像を保持しておき、これと音声データのタイムスタンプに連動して録画をスタートし、所定の無声時間(例えば30秒)を検知して録画をストップするようにしてもよい。
ガイドスポット通知部36は、無線タグリーダ22で無線タグ4の信号を受信すると、その無線タグ4に対応するガイドスポットを特定して、そのガイドスポットに関する通知を案内者および参加者に対して行う。
設定部37は、サイクリングツアーを開始する前に、案内者がロケーション端末7で行う設定操作で入力された情報に基づいて、グループ音声通信および翻訳に関する設定や、ホスト端末1の動作モードに関する設定の処理を行い、設定内容が登録された設定情報(図8参照)を記憶部24に記憶する。
なお、本実施形態では、カメラ12をコントロールユニット13に接続して、カメラ12の映像データの録画、および管理サーバ3への映像データのアップロードを、コントロールユニット13で行うようにしたが、カメラ12をコントロールユニット13に接続せずに、カメラ12に録画部を設けて、メモリカードなどの外部記憶媒体を介して、管理サーバ3への映像データのアップロードを行うようにしてもよい。
次に、クライアント端末2の概略構成について説明する。図3は、クライアント端末2の概略構成を示すブロック図である。
クライアント端末2は、ヘッドセット41(音声入出力部)と、コントロールユニット42と、を備えている。
ヘッドセット41は、ホスト端末1のヘッドセット11と同様に、マイク45と、スピーカー46と、を備えている。マイク45は、参加者が発話した音声を収音する。スピーカー46は、ホスト端末1から受信した案内者の音声や他の参加者の音声を出力する。
なお、ヘッドセット41は、コントロールユニット42と無線接続され、その無線通信には、例えばBluetooth(登録商標)などの近距離無線通信方式を採用するとよい。
コントロールユニット42は、無線通信部51と、記憶部52と、制御部53と、を備えている。
無線通信部51は、Bluetooth(登録商標)などの近距離無線通信により、ホスト端末1と通信を行う。
記憶部52は、制御部53を構成するプロセッサで実行されるプログラムを記憶する。また、記憶部52は、ホスト端末1との間で交換したグループ音声通信の認証情報を記憶する。また、記憶部52は、ホスト端末1が翻訳モードにある場合に、ホスト端末1から受信した翻訳指示情報に基づき、ヘッドセット41で再生される翻訳定型文を記憶する。なお、翻訳定型文は、参加者の希望する言語設定に合わせて、予めサイクリングツアーを開始する前に、ホスト端末1の翻訳指示情報(定型文番号など)に対応付けて、記憶部52へダウンロードされる。記憶部52として、翻訳定型文が格納されたメモリカード等の記憶媒体により構成することも可能である。
制御部53は、通信制御部55と、音声制御部56と、を備えている。この制御部53は、プロセッサで構成され、制御部53の各部は、記憶部52に記憶されたプログラムをプロセッサで実行することで実現される。
通信制御部55は、無線通信部51で行われるホスト端末1との間の近距離無線通信を制御する。具体的には、予め行われる接続処理(ペアリング)でホスト端末1との間で認証情報(パスキー、リンクキーなど)を交換し、この認証情報に基づいて、ホスト端末1との間で行われるグループ音声通信を制御する。
音声制御部56は、ヘッドセット41で収音した参加者の音声データを、無線通信部51からグループ内のホスト端末1に送信し、無線通信部51でホスト端末1から受信した案内者の音声データ(翻訳モードでは、翻訳音声)や他の参加者の音声データを、ヘッドセット41から出力する。
なお、本実施形態では、カメラ12をホスト端末1に設けるようにしたが、カメラをクライアント端末2に設けて、クライアント端末2で録画を行うようにしてもよい。また、本実施形態では、参加者の音声の録音をホスト端末1で行うようにしたが、クライアント端末2で参加者の音声の録音を行うようにしてもよい。
次に、管理サーバ3の概略構成について説明する。図4は、管理サーバ3の概略構成を示すブロック図である。
管理サーバ3は、データ入出力部61と、ネットワーク通信部62と、記憶部63と、制御部64と、を備えている。
データ入出力部61は、ホスト端末1との間でデータの入出力を行い、ホスト端末1から映像データおよび音声データがアップロードされる。
ネットワーク通信部62は、ネットワークを介して閲覧端末5および参加者のユーザ端末6と通信を行う。
記憶部63は、制御部64を構成するプロセッサで実行されるプログラムを記憶する。また、記憶部63は、ホスト端末1からアップロードされた映像データおよび音声データを記憶する。
制御部64は、音声編集部65と、映像編集部66と、配信部67と、を備えている。この制御部64は、プロセッサで構成され、制御部64の各部は、記憶部63に記憶されたプログラムをプロセッサで実行することで実現される。
音声編集部65は、ホスト端末1からアップロードされた音声データに対して編集処理を行う。具体的には、アップロードされた案内者の発話期間の音声データおよび各参加者の発話期間の音声データを結合(マージ)して、グループ全体の発話期間の音声データを生成する。ここで、各発話期間の音声データの前後には、所定時間(例えば、10秒)の無声期間を付加し、各発話期間の音声データがそれぞれ独立して認識できるように編集してから、グループ全体の発話期間の音声データを生成する。
映像編集部66は、ホスト端末1からアップロードされた映像データに対して編集処理を行う。具体的には、アップロードされた映像データから、音声編集部65で取得したグループ全体の発話期間の音声データに対応する期間の映像データを抽出して、ダイジェスト映像データを生成する。なお、前述のように、ホスト端末1の録画部35が、音声データのタイムスタンプに連動して録画のスタート/ストップが行われている場合には、無声時間の調整(30秒から10秒に変更)を行って、ダイジェスト映像データを生成する。なお、映像データは、ホスト端末1からアップロードされるものに限らず、ツアーコース中の撮影スポット(固定カメラ)で撮影した映像データもネットワークを介して取り込むことができる。
配信部67は、音声編集部65で生成した編集済みの音声データ、および映像編集部66で生成した編集済みの映像データを、閲覧端末5および参加者のユーザ端末6に配信する。なお、音声データおよび映像データの配信に際し、所定のBGM音を合成した再生コンテンツを生成して閲覧端末5やユーザ端末6に配信することもできる。
次に、ロケーション端末7の概略構成について説明する。図5は、ロケーション端末7の概略構成を示すブロック図である。
ロケーション端末7は、通信部71と、記憶部72と、制御部73と、表示部74と、を備えている。
通信部71は、ホスト端末1に設けられたデータ入出力部23と有線接続、あるいは、無線接続されて、データの送受信を行う。
記憶部72は、制御部73を構成するプロセッサで実行されるプログラムを記憶する。また、記憶部72は、サイクリングツアーにおいて案内者を支援する情報を記憶する。
表示部74は、サイクリングツアーにおいて案内者を支援する情報を画面表示する。
制御部73は、通信制御部75と、設定部76と、を備えている。この制御部73は、プロセッサで構成され、制御部73の各部は、記憶部72に記憶されたプログラムをプロセッサで実行することで実現される。
通信制御部75は、通信部71で行われるホスト端末1との間の通信を制御する。
設定部76は、サイクリングツアーにおいて案内者を支援する情報、例えば、ツアーコースに関する情報や、ガイドスポットで案内する情報などを設定する。
次に、ホスト端末1、クライアント端末2およびロケーション端末7の取付状態について説明する。図6は、ホスト端末1、クライアント端末2およびロケーション端末7の取付状態を示す説明図である。
図6(A)に示すように、案内者の頭部には、ホスト端末1のヘッドセット11が装着される。案内者が乗車する自転車には、ホスト端末1のカメラ12と、ホスト端末1のコントロールユニット13と、ロケーション端末7と、が搭載される。図6(A)に示す例では、2台のカメラ12に搭載され、一方のカメラ12が自転車の前方を撮影し、他方のカメラ12が自転車の後方を撮影する。撮影方向は、前方、後方に限らず、進行方向に対して、右方、左方であってもよい。また、カメラの台数を、1台、あるいは3台以上で構成するようにしてもよい。
図6(B)に示すように、参加者の頭部には、クライアント端末2のヘッドセット41が装着される。参加者が乗車する自転車には、クライアント端末2のコントロールユニット42が搭載される。
なお、本実施形態では、カメラ12を自転車に搭載するようにしたが、ユーザの身体に装着されるウェアラブルカメラとしてもよい。また、ヘッドセット11にカメラを一体的に設けるようにしてもよい。また、ツアーコースの途中の撮影スポットごとに複数の固定カメラを設置するようにしてもよい。
次に、ホスト端末1の設定部37で登録される設定情報について説明する。図7は、設定情報の登録内容を示す説明図である。
ホスト端末1の設定部37では、グループ音声通信および翻訳に関する設定を行い、設定内容が登録された設定情報(設定テーブル)を記憶部24に記憶する。
この設定情報には、ホスト端末1(自装置)およびクライアント端末2に関する、端末ID(ユーザID)、グループ音声通信の認証情報、および使用言語などが登録される。端末IDは、ホスト端末1およびクライアント端末2の識別情報である。認証情報は、近距離無線通信(Bluetooth(登録商標))によるグループ音声通信において、ホスト端末1とクライアント端末2との間の接続および音声データの送受信を行う際に必要となる情報(パスキー、リンクキーなど)であり、これにより、グループ音声通信の通信相手を、1つのグループとして予め登録されたホスト端末1およびクライアント端末2に制限することができる。使用言語は、案内者および参加者が使用できる言語である。ここでは、端末ID101(ホスト端末)が日本語、クライアント端末の端末ID102、104が英語、端末ID103が中国語に設定されている例を示している。その他、ドイツ語、フランス語、スペイン語、イタリア語、韓国語などが使用言語として登録可能である。
この設定情報の登録は、サイクリングツアーを開始する前に行われ、ホスト端末1およびクライアント端末2を1つのグループとして登録する操作により、端末IDおよびグループ音声通信の認証情報が登録される。また、案内者は、参加者からの希望にしたがって、各参加者の使用言語をユーザ端末6で入力する操作を行うことで、各参加者の使用言語が登録される。また、この登録内容に合わせて、クライアント端末2には、図示しないサーバより、ホスト端末1の翻訳指示情報(定型文番号)と対応付けられた翻訳定型文が、クライアント端末2の記憶部52へダウンロードされる。
次に、通常モードでのグループ音声通信について説明する。図8は、通常モードでのグループ音声通信の状況を示すシーケンス図である。
ここでは、ホスト端末1を親機とし、クライアント端末2を子機として、グループ音声通信を行う例を示しているが、これ以外に、例えば、ホスト端末1およびクライアント端末2に対して、予め優先順位データを付与し、この順位データにしたがって、各端末が自端末より下位の端末へ順次、音声データを転送するようなグループ音声通信を行うこともできる。
図8(A)は、案内者が発話した場合である。この場合、ホスト端末1では、案内者のヘッドセット11で、案内者が発話した音声が入力されると、音声制御部32において、音声データを無線通信部21からグループ内の各クライアント端末2に送信する。
各クライアント端末2では、ホスト端末1から送信される音声データを無線通信部51で受信すると、音声制御部56において、案内者の音声を参加者のヘッドセット41から出力する。
図8(B)は、参加者が発話した場合である。この場合、クライアント端末2では、参加者のヘッドセット41で、参加者が発話した音声が入力されると、音声制御部56において、音声データを無線通信部51からホスト端末1に送信する。
ホスト端末1では、クライアント端末2から送信される音声データを無線通信部21で受信すると、音声制御部32において、参加者の音声を案内者のヘッドセット11から出力する。また、クライアント端末2から受信した参加者の音声データを、無線通信部21から他のクライアント端末2に送信する。
他のクライアント端末2では、ホスト端末1から送信される音声データを無線通信部51で受信すると、音声制御部56において、他の参加者の音声を参加者のヘッドセット41から出力する。
次に、翻訳モードでのグループ音声通信について説明する。図9は、翻訳モードでのグループ音声通信の状況を示すシーケンス図である。
翻訳モードでは、ホスト端末1において、案内者のヘッドセット11で、定型文または定型文に対応するキーワードを発話して入力する。ホスト端末1の翻訳部33では、案内者が発話した音声の音声認識により取得した文字情報に基づいて、原言語の定型文を検索して、該当する原言語の定型文が見つかると、その原言語の定型文に対応する翻訳指示情報(例えば、定型文番号など)を参加者のクライアント端末2に送信する。そして、参加者のクライアント端末2において、翻訳指示情報にしたがって、参加者の使用言語の翻訳定型文の音声合成により、翻訳音声の音声データを生成する。
すなわち、各クライアント端末2では、ホスト端末1から送信される翻訳指示情報を無線通信部51で受信すると、音声制御部56において、受信した翻訳指示情報に対応した翻訳音声を参加者のヘッドセット41から出力する。
したがって、参加者同士で使用言語が異なる場合でも、ホスト端末1から送信される翻訳指示情報にしたがって参加者の使用言語に応じた翻訳音声がその参加者のクライアント端末2で略同時に出力することができる。なお、参加者の使用言語が案内者と一致する参加者がいる場合には、案内者が発話した原音声をそのまま、その参加者のクライアント端末2に送信して出力すればよい。
なお、本実施形態では、参加者のクライアント端末2の方で音声合成により翻訳音声の音声データを取得するようにしたが、言語および定型文ごとの翻訳音声の音声データを記憶部24に予め記憶しておき、該当する言語および定型文の翻訳音声の音声データを記憶部24から読み出すようにしてもよい。
また、本実施形態では、案内者が発話した音声に対応する定型翻訳音声を参加者のヘッドセット41で出力するようにしたが、参加者が発話した音声に対応する定型翻訳音声を案内者のヘッドセット11で出力するようにしてもよい。この場合、参加者の発話内容を文章として精度よく翻訳するには限界があり、また、処理負荷が大きくなるため、参加者が発話した短文、単語レベルでの定型翻訳音声を取得するとよい。これにより、案内者が参加者の発話内容を大まかに理解することができる。
なお、案内者(または参加者)の発話内容の翻訳に関して、ホスト端末1の翻訳部33により翻訳処理を実行する例を示したが、翻訳処理にかかる負荷を軽減するため、翻訳サーバを設置することもできる。この場合、ツアーコース内に複数の無線接続ユニットを配置し、ホスト端末1やクライアント端末2が無線接続ユニットを介して翻訳サーバと接続し、翻訳サーバから取得した翻訳音声データを用いて、案内者および参加者の間で相互に交換するようにしてもよい。
次に、ホスト端末1において無線タグ4の信号を受信した際の処理について説明する。図10は、無線タグ4の設置状況を示す説明図である。
ツアーコースの途中の要所には、案内者が案内を行うガイドスポットがあり、このガイドスポットには無線タグ4が設置されている。ホスト端末1の無線タグリーダ22は、無線タグ4の通信エリアに入ると、無線タグ4から送信される信号を受信する。
ホスト端末1のガイドスポット通知部36は、無線タグリーダ22で無線タグ4の信号を受信すると、その無線タグ4に対応するガイドスポットを特定して、そのガイドスポットに関する通知を案内者および参加者に対して行う。
本実施形態では、アラートモードと自動音声ガイドモードとがあり、アラートモードでは、案内者に対する通知として、ガイドスポットに到着したことを表すアラート音声を、案内者のヘッドセット11から出力する。また、自動音声ガイドモードでは、参加者に対する通知として、現在地のガイドスポットを案内するガイド音声を、参加者のヘッドセット41から出力する。このアラートモードと自動音声ガイドモードとは、案内者の設定操作で切り替えることができる。
なお、本実施形態では、ツアーコースの途中のガイドスポットに無線タグ4を設置して、ガイドスポットであることを案内者や参加者に通知するようにしたが、ツアーコースの途中の撮影スポットに、無線タグ4と共にカメラを設置して、撮影スポットであること案内者や参加者に通知するようにしてもよい。
次に、ホスト端末1において無線タグ4の信号を受信した際の処理の手順について説明する。図11は、無線タグ4の信号を受信した際の処理の手順を示すフロー図である。
アラートモードでは、図11(A)に示すように、ホスト端末1において、まず、無線タグリーダ22で無線タグ4の信号を受信すると(ST101でYes)、ガイドスポット通知部36において、アラート音声の音声データを記憶部24から取得し、音声制御部32において、案内者のヘッドセット11からアラート音声を出力する(ST102)。これにより、ガイドスポットに到着したことを案内者に知らせることができ、案内者は、発話により、現在地のガイドスポットに関するガイドを行う。
なお、アラート音声は、ガイドスポットに到着した旨の定型文の音声とすればよいが、単なる警告音を出力するようにしてもよい。また、現在地のガイドスポットに関するガイドの具体的な内容を表す音声を出力するようにしてもよい。
自動音声ガイドモードでは、図11(B)に示すように、ホスト端末1において、まず、無線タグリーダ22で無線タグ4の信号を受信すると(ST101でYes)、ガイドスポット通知部36において、現在地のガイドスポットに関する定型文のガイド音声の音声データを記憶部24から取得し、音声制御部32において、ガイド音声の音声データを無線通信部21からクライアント端末2に送信する(ST111)。
クライアント端末2では、ホスト端末1から送信されるガイド音声の音声データを受信すると(ST201でYes)、音声制御部56において、参加者のヘッドセット41からガイド音声を出力する(ST202)。
なお、本実施形態では、ガイドスポットを案内する定型文の音声データを記憶部24から取得するようにしたが、定型文の音声合成により、その都度、音声データを生成するようにしてもよい。また、翻訳モードを選択して、参加者の使用言語に応じたガイド音声をクライアント端末2に送信して出力するようにしてもよい。
次に、管理サーバ3の音声編集部65および映像編集部66で行われる処理について説明する。図12は、音声編集部65および映像編集部66で行われる処理の概要を示す説明図である。
管理サーバ3の音声編集部65では、ホスト端末1からアップロードされた音声データに対して編集処理を行う。本実施形態では、サイクリングツアーの最中に発話した案内者や参加者の音声がホスト端末1の録音部34で録音され、案内者の発話期間の音声データ、および各参加者の発話期間の音声データがホスト端末1から管理サーバ3にアップロードされる。音声編集部65では、アップロードされた音声データに付加されたタイムスタンプに基づいて、案内者の音声データと各参加者の音声データとを結合(マージ)して、グループ全体の音声データ(結合音声データを)生成する。なお、図12では、案内者の発話に対して各参加者が発話した一部の結合音声データを生成する例を表わしている。
このとき、発話期間の前後に所定時間内の無声期間を含むように結合音声データを生成する。すなわち、発話期間の間に所定時間以下の無声期間がある場合には、その無声期間が含まれるように音声データを結合する。また、発話期間の前後にある所定時間の無声期間が含まれるように結合音声データを生成する。これにより、案内者および参加者が会話していた期間の一連の発話音声が1つの連続した音声データに格納される。なお、所定時間以上の無声期間が存在する場合には、その所定時間を超えた期間だけ、結合音声データから除かれることになる。
管理サーバ3の映像編集部66は、ホスト端末1からアップロードされた映像データに対して編集処理を行う。本実施形態では、サイクリングツアーの最中の参加者の様子を撮影した映像がホスト端末1の録画部35で録画され、その映像データがホスト端末1から管理サーバ3にアップロードされる。映像編集部66は、アップロードされた映像データに付加されたタイムスタンプに基づいて、映像データから、音声編集部65で生成した結合音声データに対応する期間の映像データを抽出(切り出し)して、ダイジェスト映像データを生成する。なお、実際には、サイクリングツアーの期間中において、複数の結合音声データが生成されることから、複数のダイジェスト映像データが生成される。そして、これらのダイジェスト映像データを連続再生することで、サイクリングツアーの様子を全般に渡って、振り返ることができる。
管理サーバ3の配信部67は、閲覧端末5および参加者のユーザ端末6からの要求に応じて、音声編集部65で生成した編集済みの音声データ、および映像編集部66で生成した編集済みの映像データを、閲覧端末5および参加者のユーザ端末6に配信する。
また、映像編集部66は、無線タグ4の信号を受信した時刻を基準にして映像データを抽出する。これにより、ガイドスポットでの参加者の様子が映る映像を参加者に提供することができる。
この場合、ホスト端末1のガイドスポット通知部36において、無線タグ4の信号を受信した時刻に関するタグ受信時刻情報を記憶部24に記憶し、映像データおよび音声データを管理サーバ3にアップロードする際に、タグ受信時刻情報も管理サーバ3にアップロードし、このタグ受信時刻情報と一連の結合音声データに対応する期間とを組み合わせて、ダイジェスト映像データを生成してもよい。
以上のように、本出願において開示する技術の例示として、実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略などを行った実施形態にも適用できる。また、上記の実施形態で説明した各構成要素を組み合わせて、新たな実施形態とすることも可能である。