以下、本発明を実施するための形態の一例として、記録情報作成システムと記録情報作成システムが行う記録情報作成方法について説明する。
<遠隔会議における議事録の作成方法の一例>
まず、図1を参照して、パノラマ画像とアプリの画面を用いた議事録の作成方法の概略を説明する。図1は、遠隔会議中に実行されたアプリの画面を周囲のパノラマ画像と共に保存する記録情報の作成の概略を説明する図である。図1に示すように、図示する自拠点102にいるユーザーが遠隔会議サービスシステム90を利用して、他の拠点101と遠隔会議を行っている。
本実施形態の記録情報作成システム100は、周囲360°を撮像可能な撮像手段及びマイクとスピーカを備えたミーティングデバイス60が、周囲を撮像した情報を処理することで取得した水平パノラマ画像(以下、パノラマ画像という)と、端末装置10が実行するアプリケーション(以下、アプリという)が作成する画面と、を用いて、記録情報(議事録など)を作成する。音声については、記録情報作成システム100は、遠隔会議アプリ42が受信する音声と、ミーティングデバイス60が取得する音声とを合成して、記録情報に含める。以下、概略を説明する。
(1) 端末装置10では、後述する情報記録アプリ41と遠隔会議アプリとが動作している。この他、資料表示用のアプリなども動作していてよい。情報記録アプリ41は、端末装置10が出力する音声(遠隔会議アプリが他拠点から受信した音声を含む。第一の音声データの一例。)をミーティングデバイス60に送信する。ミーティングデバイス60は、自身が取得している音声(第二の音声データの一例)と、遠隔会議アプリの音声とをミキシング(合成)する。
(2) ミーティングデバイス60はマイクを備え、音声を取得した方向に基づき、パノラマ画像から話者を切り出す処理を行い、話者画像を作成する。ミーティングデバイス60は、パノラマ画像と話者画像の両方を端末装置10に送信する。
(3) 端末装置10で動作する情報記録アプリ41は、パノラマ画像203と話者画像204を表示できる。情報記録アプリ41は、ユーザーが選択した任意のアプリ画面(例えば遠隔会議アプリの画面103)と、パノラマ画像203と話者画像204と、を結合する。例えば、左側にパノラマ画像203と話者画像204、右側に遠隔会議アプリの画面103が配置されるように、パノラマ画像203、話者画像204、アプリの画面103を結合する(以下、結合画像105という)。なおアプリ画面は、遠隔会議アプリ等の各アプリケーションが表示する画面情報(後述)の例である。(3)の処理は繰り返し実行されるので、結合画像105は動画となる(以下、結合画像動画という)。また、情報記録アプリ41は、結合画像動画に合成された音声を結合して音声付きの動画を作成する。
なお、本実施形態では、パノラマ画像203、話者画像204、アプリの画面103を結合する例を説明するが、情報記録アプリ41がこれらを別々に保存し、再生時に画面に配置してもよい。
(4) 情報記録アプリ41は、編集作業(ユーザーによる不要箇所のカット)を受け付け、結合画像動画を完成させる。結合画像動画は記録情報の一部を構成する。
(5) 情報記録アプリ41は、作成した結合画像動画(音声付き)をストレージサービスシステム70に送信し保存しておく。
(6) また、情報記録アプリ41は、結合画像動画から音声のみを抽出しておき(結合前の音声を取っておいてもよい)、抽出した音声を、情報処理システム50に送信する。情報処理システム50は音声をテキストデータに変換する音声認識サービスシステム80に送信し、音声をテキスト化する。テキストデータには、録画開始から何分後に話したか、というデータも含まれる。
なお、リアルタイムのテキスト化の場合、ミーティングデバイス60が情報処理システム50に直接音声を送信する。
(7) 情報処理システム50は、結合画像動画を格納したストレージサービスシステム70に、テキストデータを追加で格納する。テキストデータは記録情報の一部を構成する。
なお、情報処理システム50は、ユーザーに対し利用したサービスに応じた課金処理を実行できる。例えば、課金はテキストデータ量、結合画像動画のファイルサイズ、処理時間などに基づいて算出される。
このように、結合画像動画には、ユーザーを含む周囲のパノラマ画像や話者画像が表示され、更に、遠隔会議アプリ42など、遠隔会議中に表示されたアプリの画面が表示される。遠隔会議の参加者や参加者でない者が、結合画像動画を議事録として閲覧した場合、遠隔会議中の様子が臨場感と共に再現される。
<用語について>
アプリケーション(アプリ)とは、ある特定の機能や目的のために開発・使用されるソフトウェアである。アプリケーションにはネイティブアプリとWebアプリがある。またWebアプリ(クラウドサービスで提供するクラウド側のアプリ)と、ネイティブアプリやWebブラウザとが連携して動作するものであってもよい。
実行中のアプリとは、アプリが起動されてから終了されるまでの間の状態のアプリをいう。アプリはアクティブ(最も手前にあるアプリ)でなくてもよく、バックグラウンドで動作していればよい。
デバイスとは、デバイスの周囲の画像を撮像でき、周囲の音声を集音できる装置である。デバイスは端末装置と接続して用いるもの、端末装置に内蔵するもの、端末装置と直接接続せずクラウドサービスに接続して用いるものを含んでもよい。本実施形態では、ミーティングデバイスという用語で説明される。
ミーティングデバイスが取得したミーティングデバイスの周囲の画像情報は、ミーティングデバイスがミーティングデバイスを囲む、周囲の空間(例えば水平方向で180°~360°の領域や空間)を撮像して取得した画像情報であり、ミーティングデバイスが撮像した曲面の画像情報に対して、所定の処理を行うことで取得した画像をいう。所定の処理とは撮像した曲面の画像に対する平面化処理など、撮像した情報から周囲の画像情報を作成するための各種処理である。所定の処理には周辺の画像を作成する処理に加え、話者画像を切り出す処理、周辺の画像や話者画像等を結合する結合処理を含めてもよい。本実施形態では、周囲の画像は、パノラマ画像という用語で説明される。パノラマ画像はおおむね水平方向に180°~360°の画角がある画像である。ミーティングデバイスは1台でパノラマ画像を撮像しなくてもよく、通常の画角の撮像装置が複数個、組み合わされていてもよい。ミーティングデバイスは拠点での会議や周囲の状況把握のためにテーブル等の設置場所に設置して使用することを想定しているが、この他、監視(セキュリティ・防災など)、見守り(育児や介護など)、現場の状況分析(ソリューションやマーケティングなど)を行うために用いるデバイスであってもよい。
記録情報とは、情報記録アプリ41が記録する情報であり、ある1つの会議(ミーティング)の識別情報に紐づく情報として閲覧可能に記憶・保存された情報であって、例えば以下の情報を含む情報である。
・選択したアプリ(遠隔会議アプリなど)が表示する画面情報と、デバイスが取得したデバイスの周囲の画像情報、などに基づいて作成する動画情報。
・会議(ミーティング)中に、遠隔会議アプリ(端末装置)と、拠点のミーティングデバイスとで取得し合成した音声情報。
・取得した音声をテキスト化したテキスト情報。
・その他、会議(ミーティング)に関連する関連情報であるデータや画像。例えば会議中に用いた資料ファイル、追加したメモ、テキスト化データの翻訳データ、会議中にクラウド電子黒板サービスで作成した画像やストロークデータなど。
等である。情報記録アプリ41が遠隔会議アプリの画面や、拠点の会議の様子を録画した場合、記録情報が、実施した会議の議事録となる場合がある。議事録は記録情報の例であり遠隔会議や拠点側で行った内容に応じて記録情報の呼び方が変わり、例えばコミュニケーションの記録、拠点状況の記録などと言ってもよい。また記録情報は、例えば、動画ファイル(結合画像動画等)、音声ファイル、テキストデータ(音声が音声認識されたテキストデータ)、文書ファイル、画像ファイル、表形式ファイルなど、複数の形式のファイルを含み、ファイルは会議の識別情報に対して互いに関連づいているため、閲覧時にまとめて、あるいは選択的に、時系列で閲覧可能となっている。
テナントとは、サービスの提供者からサービスを受けることを契約したユーザーのグループ(企業や自治体、これらの一部の組織等)である。本実施形態の記録情報の作成やテキストデータへの変換は、テナントがサービス提供元と契約しているために実行される。
遠隔コミュニケーションとは、物理的に離れた拠点にいる相手と、ソフトウェアや端末装置を活用することによって音声や映像を通じたコミュニケーションを取ることをいう。遠隔コミュニケーションの一例に遠隔会議があり、会議は、会合、ミーティング、打ち合わせ、相談、契約等の申し込み、集会、寄り合い、集まり、セミナー、講習会、勉強会、ゼミ、研修会等と呼ばれてもよい。
拠点とは、活動のよりどころとする場所をいう。拠点の例として会議室がある。会議室は、主に会議に使用することを目的に設置された部屋のことである。拠点はこのほか自宅や、受付や店舗、倉庫や屋外の現場など様々な場所であってもよく、端末装置やデバイス等を設置できる箇所のある場所や空間であればよい。
音声とは人間が発する言語音や周囲の音等であり、音声データは音声をデータ化したものであるが、本実施形態では、厳密に区別せずに説明する。
<システム構成例>
続いて、図2を参照して、記録情報作成システム100のシステム構成を説明する。図2は、記録情報作成システム100の構成例を示す。図2では、遠隔会議を行う複数の拠点のうち1つの拠点(自拠点102)を示し、自拠点102における端末装置10がネットワークを介して情報処理システム50と、ストレージサービスシステム70と、遠隔会議サービスシステム90と、通信する。自拠点102には更に、ミーティングデバイス60が配置され、端末装置10はこのミーティングデバイス60とUSBケーブル等を介して通信可能に接続されている。
端末装置10では、少なくとも情報記録アプリ41と遠隔会議アプリ42とが動作する。遠隔会議アプリ42は、他の拠点101の端末装置とネットワーク上の遠隔会議サービスシステム90を介して通信することができ、各拠点のユーザー同士が遠隔地から会議できるようになっている。情報記録アプリ41は、遠隔会議アプリ42が実施する遠隔会議における記録情報を、情報処理システム50及びミーティングデバイス60の機能を使って作成する。
なお、本実施形態では、遠隔会議中の記録情報を作成する例を説明するが、会議は、遠隔の拠点と通信する会議でなくてもよい。つまり、会議は1拠点内の参加者のみが参加する会議でもよい。この場合、ミーティングデバイス60が集音した音声のみが合成なしに保存される他、情報記録アプリ41の処理に変更はない。
端末装置10には通常の画角のカメラが内蔵されており(外付けでもよい)、端末装置10を操作するユーザー107を含む正面の画像を撮像している。通常の画角とは、パノラマ画像でない画像であるが、本実施形態では、主に全天球画像のように曲面でない平面画像である。また、端末装置10にはマイクが内蔵されており(外付けでもよい)、端末装置10を操作するユーザー等の周囲の音声を集音している。したがって、ユーザーは、情報記録アプリ41を意識することなく、遠隔会議アプリ42を使用した従来の遠隔会議が可能である。情報記録アプリ41やミーティングデバイス60は、端末装置10の処理負荷増を除けば遠隔会議アプリ42に影響を与えない。
情報記録アプリ41はミーティングデバイス60と通信して記録情報を作成することで情報を記録するアプリである。ミーティングデバイス60は、パノラマ画像の撮像装置、マイク、及び、スピーカを備えたミーティング用のデバイスである。端末装置10が有するカメラは正面の限られた範囲しか撮像できないが、ミーティングデバイス60はミーティングデバイス60を囲む全周囲(必ずしも全周囲でなくてもよい)を撮像できる。ミーティングデバイス60は図2に示す複数の参加者106を常に画角に収めることができる。
この他、ミーティングデバイス60は、パノラマ画像からの話者画像の切り出し、ミーティングデバイス60が取得した音声と端末装置10が出力する音声(遠隔会議アプリ42が受信した音声を含む)との合成等を行う。なお、ミーティングデバイス60は、机や台などの設置場所の上に限らず自拠点102のどこに配置されてもよい。ミーティングデバイス60は全天球画像を撮像できるので、例えば天井に配置されてもよい。またミーティングデバイス60は他拠点側やいずれの拠点に設置されてもよい。
情報記録アプリ41は、端末装置10で実行中のアプリの一覧表示、上記した記録情報のための画像合成(結合画像動画の作成)、結合画像動画の再生、編集の受け付け等を行う。また、情報記録アプリ41は、実施された又はこれらか実施される予定の遠隔会議のリスト表示、等を行う。遠隔会議のリストは、記録情報に関する情報に使用され、ユーザーが遠隔会議と記録情報とを結びつけることができる。
遠隔会議アプリ42は、他の拠点101の他の端末装置との通信接続、画像及び音声の送受信、画像の表示や音声の出力等により、端末装置が他の端末装置と遠隔コミュニケーションを行うアプリケーションである。遠隔会議アプリは、遠隔コミュニケーションアプリ、遠隔情報共通アプリなどと言うこともできる。
なお、情報記録アプリ41及び遠隔会議アプリ42はWebアプリでもネイティブアプリでもよい。Webアプリとは、Webサーバー上のプログラムとWebブラウザ上のプログラムやネイティブアプリが協働して処理を行うアプリであり、端末装置10へのインストールが不要なアプリである。ネイティブアプリとは、端末装置10にインストールして利用されるアプリである。本実施形態では、両者ともネイティブアプリであるとして説明する。
端末装置10は、例えば、PC(Personal Computer)、スマートフォン、タブレット端末等、通信機能を備えた汎用的な情報処理装置でよい。端末装置10は、この他、電子黒板、ゲーム機、PDA(Personal Digital Assistant)、ウェアラブルPC、カーナビ、産業機械、医療機器、ネットワーク家電等でもよい。端末装置10は情報記録アプリ41と遠隔会議アプリ42が少なくとも動作する装置であればよい。
情報処理システム50は、ネットワーク上に配置された一台以上の情報処理装置である。情報処理システム50は、情報記録アプリ41と協働して処理を行う1つ以上のサーバーアプリと、基盤サービスを有している。このサーバーアプリは、遠隔会議のリストの管理、遠隔会議で記録された記録情報の管理、各種設定やストレージパスの管理等を行う。基盤サービスは、ユーザー認証や契約、課金処理等を行う。
なお、情報処理システム50の機能の全て又は一部は、クラウド環境に存在してもよいし、オンプレミス環境に存在してもよい。情報処理システム50は複数台のサーバー装置により構成されてもよいし、一台の情報処理装置により構成されてもよい。例えば、サーバーアプリと基盤サービスが別々の情報処理装置より提供されてよいし、更にサーバーアプリ内の機能ごとに情報処理装置が存在してもよい。情報処理システム50と次述するストレージサービスシステム70、音声認識サービスシステム80が一体でもよい。
ストレージサービスシステム70は、ネットワーク上の記憶手段であり、ファイル等の保存を受け付けるストレージサービスを提供する。ストレージサービスシステム70としてはOne Drive(登録商標)、Google Workspace(登録商標)、DropBox(登録商標)等が知られている。ストレージサービスシステム70は、オンプレミスのNAS(Network Attached Storage)等でもよい。
音声認識サービスシステム80は、音声データに音声認識を行いテキストデータに変換するサービスを提供する。音声認識サービスシステム80は、汎用的な商用サービスでもよいし、情報処理システム50の機能の一部でもよい。また音声認識サービスシステム80はユーザーやテナント毎、会議毎に異なるサービスシステムを設定して用いてもよい。
<ハードウェア構成例>
図3を参照して、本実施形態に係る情報処理システム50及び端末装置10のハードウェア構成について説明する。
<<情報処理システム及び端末装置>>
図3は、本実施形態に係る情報処理システム50及び端末装置10の一例のハードウェア構成を示す図である。図3に示されているように、情報処理システム50及び端末装置10はコンピュータによって構築されており、CPU501、ROM502、RAM503、HD(Hard Disk)504、HDD(Hard Disk Drive)コントローラ505、ディスプレイ506、外部機器接続I/F(Interface)508、ネットワークI/F509、バスライン510、キーボード511、ポインティングデバイス512、光学ドライブ514、メディアI/F516を備えている。
これらのうち、CPU501は、情報処理システム50及び端末装置10全体の動作を制御する。ROM502は、IPL等のCPU501の駆動に用いられるプログラムを記憶する。RAM503は、CPU501のワークエリアとして使用される。HD504は、プログラム等の各種データを記憶する。HDDコントローラ505は、CPU501の制御にしたがってHD504に対する各種データの読み出し又は書き込みを制御する。ディスプレイ506は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。外部機器接続I/F508は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリやプリンタ等である。ネットワークI/F509は、ネットワークを利用してデータ通信をするためのインターフェースである。バスライン510は、図3に示されているCPU501等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
また、キーボード511は、文字、数値、又は各種指示などの入力に使用される複数のキーを備えた入力手段の一種である。ポインティングデバイス512は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。光学ドライブ514は、着脱可能な記録媒体の一例としての光記憶媒体513に対する各種データの読み出し又は書き込みを制御する。なお、光記憶媒体513は、CD,DVD、Blu-ray(登録商標)等でよい。メディアI/F516は、フラッシュメモリ等の記録メディア515に対するデータの読み出し又は書き込み(記憶)を制御する。
<<ミーティングデバイス>>
図4を用いて、ミーティングデバイス60のハードウェア構成を説明する。図4は、360°の動画を撮像可能なミーティングデバイス60のハードウェア構成図の一例である。以下では、ミーティングデバイス60は撮像素子を使用した、デバイスの周囲360°の動画を所定の高さで撮像する装置とするが、撮像素子は1つでも2つ以上のいくつでもよい。また、必ずしも専用装置である必要はなくPCやデジタルカメラ、スマートフォン等に後付けの360°動画の撮像ユニットを取り付けることで、実質的に同じ機能を有するようにしてもよい。
図4に示されているように、ミーティングデバイス60は、撮像ユニット601、画像処理ユニット604、撮像制御ユニット605、マイク608、音処理ユニット609、CPU(Central Processing Unit)611、ROM(Read Only Memory)612、SRAM(Static Random Access Memory)613、DRAM(Dynamic Random Access Memory)614、操作部615、外部機器接続I/F616、通信部617、アンテナ617a、音声センサー618、及びMicro USB用の凹状の端子621によって構成されている。
このうち、撮像ユニット601は、半球画像を結像するための360°の画角を有する広角レンズ(いわゆる魚眼レンズ)602と、各広角レンズに対応させて設けられている撮像素子603(イメージセンサー)を備えている。撮像素子603は、魚眼レンズ602による光学像を電気信号の画像データに変換して出力するCMOS(Complementary Metal Oxide Semiconductor)センサーやCCD(Charge Coupled Device)センサーなどの画像センサー、この画像センサーの水平又は垂直同期信号や画素クロックなどを生成するタイミング生成回路、この撮像素子の動作に必要な種々のコマンドやパラメータなどが設定されるレジスタ群などを有している。なお撮像ユニット601は360°カメラであってもよく、ミーティングデバイス60の周囲360°を撮像可能な撮像手段の例である。なお、複数の撮像素子(例えば180°+180°)で取得した複数の情報を合成して360°の画角にしてもよい。
撮像ユニット601の撮像素子603(イメージセンサー)は、各々、画像処理ユニット604とパラレルI/Fバスで接続されている。一方、撮像ユニット601の撮像素子603は、撮像制御ユニット605とは、シリアルI/Fバス(I2Cバス等)で接続されている。画像処理ユニット604、撮像制御ユニット605及び音処理ユニット609は、バス610を介してCPU611と接続される。更に、バス610には、ROM612、SRAM613、DRAM614、操作部615、外部機器接続I/F616、通信部617、及び音声センサー618なども接続される。
画像処理ユニット604は、撮像素子603から出力される画像データをパラレルI/Fバスを通して取り込み、それぞれの画像データに対して所定の処理を施して、魚眼映像からパノラマ画像や話者画像のデータを作成する。更に、画像処理ユニット604は、パノラマ画像と話者画像等を合成処理して、1つの動画を出力する。
撮像制御ユニット605は、一般に撮像制御ユニット605をマスタデバイス、撮像素子603をスレーブデバイスとして、I2Cバスを利用して、撮像素子603のレジスタ群にコマンド等を設定する。必要なコマンド等は、CPU611から受け取る。また、撮像制御ユニット605は、同じくI2Cバスを利用して、撮像素子603のレジスタ群のステータスデータ等を取り込み、CPU611に送る。
また、撮像制御ユニット605は、操作部615の撮像開始ボタンが押下されたタイミングあるいはPCから撮像開始指示を受信したタイミングで、撮像素子603a,603bに画像データの出力を指示する。ミーティングデバイス60によっては、ディスプレイ(例えば、PCやスマートフォンのディスプレイ)によるプレビュー表示機能や動画表示に対応する機能を持つ場合もある。この場合は、撮像素子603からの画像データの出力は、所定のフレームレート(フレーム/分)によって連続して行われる。
また、撮像制御ユニット605は、後述するように、CPU611と協働して撮像素子603の画像データの出力タイミングの同期をとる同期制御手段としても機能する。なお、本実施形態では、ミーティングデバイス60にはディスプレイが設けられていないが、表示部を設けてもよい。
マイク608は、音を音(信号)データに変換する。音処理ユニット609は、マイク608から出力される音データをI/Fバスを通して取り込み、音データに対して所定の処理を施す。
CPU611は、ミーティングデバイス60の全体の動作を制御すると共に必要な処理を実行する。ROM612は、CPU611のための種々のプログラムを記憶している。SRAM613及びDRAM614はワークメモリであり、CPU611で実行するプログラムや処理途中のデータ等を記憶する。特にDRAM614は、画像処理ユニット604での処理途中の画像データや処理済みの正距円筒射影画像のデータを記憶する。
操作部615は、撮像開始ボタン615aなどの操作ボタンの総称である。ユーザーは操作部615を操作することで、撮像や録画を開始する他、電源ON/OFFの実行、通信接続の実行、種々の撮像モードや撮像条件などの設定を入力する。
外部機器接続I/F616は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、PC(Personal Computer)、ディスプレイ、プロジェクタ、電子黒板等である。外部機器接続I/F616は例えばUSB端子、HDMI(登録商標)端子等を備えていてもよい。DRAM614に記憶された動画データや画像データは、この外部機器接続I/F616を介して外部端末に送信されたり、外付けのメディアに記録されたりする。また、複数の外部機器接続I/F616を用い、例えば、ミーティングデバイス60で撮像し取得した画像情報をPCへUSBを介して送信して記録しながら、PCからミーティングデバイス60へ映像(例えば遠隔会議アプリで表示する画面情報など)を取得し、更にミーティングデバイス60からHDMIで他の外部機器(ディスプレイ、プロジェクタ、電子黒板等)へ送信して表示してもよい。
通信部617は、ミーティングデバイス60に設けられたアンテナ617aを介して、Wi-Fi等の無線通信技術によって、インターネット経由でクラウドサーバと通信し、記憶した動画データや画像データをクラウドサーバに送信してもよい。また、通信部617は、BLE(Bluetooth Low Energy。登録商標)やNFC等の近距離無線通信技術を用いて付近のデバイスと通信してもよい。
音声センサー618は、ミーティングデバイス60の周辺(水平面)の360°においてどの方向から音声が大きい音で入力されたかを特定するために、360°の音声情報を取得するセンサーである。音処理ユニット609は入力した360°の音声パラメータに基づき、最も強い方向を特定して360°における音声入力方向を出力する。
なお、他のセンサー(方位・加速度センサーやGPS等)が方位・位置・角度・加速度等を算出し、画像補正や位置情報付加に用いてもよい。
また画像処理ユニット604は、以下の処理を行う。
・CPU611は、パノラマ画像の作成を次の方法で行う。CPU611は、球面映像を入力するイメージセンサーから入力されたRAWデータをBayer変換(RGB補完処理)等の所定のカメラ映像処理を行って魚眼映像(曲面の画像からなる映像)を作成する。更に作成した魚眼映像(曲面の映像)に対してDeWarp処理(歪み補正処理)等の平面化処理を行い、ミーティングデバイス60の周辺の360°が写ったパノラマ画像(平面の画像からなる映像)を作成する。
・CPU611は話者画像の作成を次の方法で行う。CPU611は周辺の360°が写ったパノラマ画像(平面の映像)から、話者を切り出した話者画像を作成する。CPU611は、音声センサー618及び音処理ユニット609を用いて出力した360°から特定した音声入力方向を、話者の方向として、上記パノラマ画像から話者画像を切り出す。このとき音声入力方向から人の画像を切り出す方法は、360°から特定した音声方向を中心に30°を切り取って、その中で顔検出を実施して切り出す。CPU611は、更に切り出した話者画像のうち、直近で発言のあった特定人数分(3名等)の話者画像を特定する。
パノラマ画像と、1以上の話者画像は個別に情報記録アプリ41に送信されてもよいし、ミーティングデバイス60がこれらから1枚の画像を作成して、情報記録アプリ41に送信してもよい。本実施形態では、パノラマ画像と1以上の話者画像は個別にミーティングデバイス60から情報記録アプリ41に送信されるものとする。
図5は、ミーティングデバイス60の撮像範囲を説明する図である。図5(a)に示すように、ミーティングデバイス60は水平方向に360°の範囲を撮像する。図5(b)に示すように、ミーティングデバイス60は、ミーティングデバイス60の高さに水平な方向を0°とし、上下に所定の角度を撮像範囲とする。
図6は、パノラマ画像と話者画像の切り出しを説明する図である。図6に示すように、ミーティングデバイス60が撮像する画像は球体の一部110をなすため、三次元の形状を有している。ミーティングデバイス60は、図5(b)で示したように、上下の所定角度と左右の所定角度ごとに画角を区切って透視投影変換を行う。透視投影変換を水平方向360°の全体で隙間なく行うことで、所定数の平面画像が得られるので、所定数の平面画像を左右に連結することでパノラマ画像111が得られる。また、ミーティングデバイス60はパノラマ画像から音声方向を中心に所定の範囲で顔検出を実施して、顔の中心から左右に15°(全体で30°)を切り出すことで、話者画像112を作成する。
<機能について>
次に、図7を参照して、記録情報作成システム100が有する機能構成について説明する。図7は、記録情報作成システム100における端末装置10、ミーティングデバイス60、及び、情報処理システム50の機能をブロックに分けて説明する機能ブロック図の一例である。
<<端末装置>>
端末装置10で動作する情報記録アプリ41は、通信部11、操作受付部12、表示制御部13、アプリ画面取得部14、音声取得部15、デバイス通信部16、画像結合部17、音声データ処理部18、録画再生部19、アップロード部20、及び、編集処理部21を有している。端末装置10が有するこれら各部は、図3に示されている各構成要素のいずれかが、HD504からRAM503に展開された情報記録アプリ41に従ったCPU501からの命令によって動作することで実現される機能、又は機能する手段である。また、端末装置10は、図3に示されているHD504等によって構築される記憶部1000を有している。記憶部1000には情報記憶部1001が構築されている。
通信部11は、ネットワークを介して情報処理システム50と各種の情報を通信する。通信部11は、例えば、遠隔会議のリストを情報処理システム50から受信したり、音声データの認識要求を情報処理システム50に送信したりする。
表示制御部13は情報記録アプリ41に設定されている画面遷移にしたがって情報記録アプリ41においてユーザーインターフェースとなる各種の画面を表示する。操作受付部12は、情報記録アプリ41に対する各種の操作を受け付ける。
アプリ画面取得部14は、ユーザーが選択したアプリが表示する画面情報、又は、デスクトップ画面の画面情報などをOS(Operating System)等から取得する。ユーザーが選択したアプリが遠隔会議アプリ42の場合、遠隔会議アプリ42が生成する画面(各拠点の端末装置カメラによる端末装置ユーザーの撮像画像、共有している資料の表示画像、参加者アイコンや参加者名等を含む画像)が得られる。アプリが表示する画面情報(アプリ画面)は、遠隔会議アプリ等を含む実行中のアプリケーションがウィンドウとして表示し、情報記録アプリケーションが画像として取得する情報である。アプリケーションのウィンドウは、ウィンドウの領域をデスクトップイメージ全体における領域として描画されモニター等に表示される。アプリが表示する画面情報は、OS(Operating System)のAPIや表示するアプリのAPI等を介して、他のアプリケーション(情報記録アプリケーション等)が、画像ファイルや、連続した複数の画像から構成される動画ファイルとして取得可能である。また、デスクトップ画面の画面情報は、OSが生成するデスクトップ画面の画像から構成される情報であり、同様に画像ファイルや動画ファイルとして、OSのAPIを介して取得可能である。これらの画像ファイルの形式はビットマップ、PNG、その他の形式であってもよい。また動画ファイルの形式はMP4、その他の形式でもよい。
音声取得部15は、端末装置10がマイクやイヤホンから出力する音声(遠隔会議アプリ42から遠隔会議において受信された音声データを含む)を取得する。出力音声がミュート状態でも、音声取得部15は音声を取得できる。音声データに関してユーザーは遠隔会議アプリ42を選択するなどの操作は必要なく、音声取得部15は、端末装置10が出力できる音声を、OSやアプリのAPI(Application Interface)を介して取得できる。これにより、遠隔会議アプリ42が他の拠点101から受信する音声データも取得される。遠隔会議アプリ42が実行中でなかったり、遠隔会議中でなかったりする場合、情報記録アプリ41は音声データを取得できない場合がある。なお、音声取得部15が取得する音声は、端末装置10が集音する音声は含まれず、出力する音声データのみとしてもよい。ミーティングデバイス60が別に、拠点の音声を集音しているためである。
デバイス通信部16は、USBケーブルなどを利用してミーティングデバイス60と通信する。デバイス通信部16は、無線LANやBluetooth(登録商標)等でミーティングデバイス60と通信してよい。デバイス通信部16は、パノラマ画像と話者画像をミーティングデバイス60から受信し、音声取得部15が取得した音声データをミーティングデバイス60に送信する。デバイス通信部16は、ミーティングデバイス60で合成された音声データを受信する。
画像結合部17は、デバイス通信部16が受信したパノラマ画像と話者画像、及び、アプリ画面取得部14が取得したアプリの画面を結合し、結合画像を作成する。また、画像結合部17は繰り返し作成する結合画像を時系列に接続して結合画像動画を作成し、合成された音声データを結合画像動画に結合して音声付きの結合画像動画を作成する。なお、パノラマ画像と話者画像の結合は、ミーティングデバイス60が行ってもよい。また、パノラマ画像、話者画像、アプリ画面、パノラマ画像と話者画像からなる画像などの各画像からなる動画を、それぞれ別個の動画ファイルとしてストレージサービスシステム70に記憶してもよい。その場合、パノラマ動画、話者動画、アプリ画面の動画、パノラマ画像と話者画像の結合動画を、閲覧時に呼び出して1つの表示画面で表示してもよい。
音声データ処理部18は、結合画像動画に結合された音声データを抽出するか、又は、ミーティングデバイス60から受信した合成後の音声データの、テキストデータへの変換を情報処理システム50に要求する。
録画再生部19は、結合画像動画の再生を行う。結合画像動画は、録画中は端末装置10に保存され、その後、情報処理システム50にアップロードされる。
アップロード部20は、遠隔会議が終了すると、結合画像動画を情報処理システム50に送信する。
編集処理部21は、ユーザーの操作に応じて、結合画像動画の編集(一部の削除、つなぎ合わせ等)を実行する。
図8は、情報記憶部1001が記憶している動画記録情報を示す。動画記録情報は、会議ID、録画ID、更新日時、タイトル、アップロード、保存先等の各項目を有している。ユーザーが情報処理システム50にログインすると、情報記録アプリ41は情報処理システム50の会議情報記憶部5001から会議情報をダウンロードする。会議情報に含まれる会議IDなどが動画記録情報に反映される。図8の動画記録情報は、あるユーザーが操作する端末装置10が保持するものである。
・会議IDは、開催された遠隔会議を識別する識別情報である。会議IDは、会議管理システム9に遠隔会議の予定が登録された際に採番されるか、又は、情報記録アプリ41からの要求で情報処理システム50が採番する。なお会議管理システム9は、会議及び遠隔会議の予定や、遠隔会議を開始するURL(会議リンク)、会議で利用する機器の予約情報などを登録するためのシステムであり、端末装置10からネットワークを介して接続するスケジューラ等である。また会議管理システム9は登録した予定等を情報処理システム50に送信することが可能である。
・録画IDは、遠隔会議において録画された結合画像動画を識別する識別情報である。録画IDはミーティングデバイス60が採番するが、情報記録アプリ41や情報処理システム50が採番してもよい。同じ会議IDに異なる録画IDが付与されるのは、遠隔会議の途中で録画が終了したが、何らかの理由で再開した場合を示す。
・更新日時は、結合画像動画が更新された(録画が終了した)日時である。結合画像動画が編集された場合、編集された日時である。
・タイトルは、会議の会議名である。会議管理システム9への会議の登録時に設定されてもよいし、ユーザーが任意に設定してもよい。
・アップロードは、結合画像動画が情報処理システム50にアップロードされたか否かを示す。
・保存先は、ストレージサービスシステム70において、結合画像動画とテキストデータが保存されている場所(URLやファイルパス)を示す。したがって、ユーザーはアップロードされた結合画像動画を任意に閲覧できる。なお、結合画像動画とテキストデータは、例えばURLに続いて別々のファイル名で保存される。
<<ミーティングデバイス>>
図7に戻って説明する。ミーティングデバイス60は、端末通信部61、パノラマ画像作成部62、話者画像作成部63、集音部64、及び、音声合成部65を有している。ミーティングデバイス60が有するこれら各部は、図4に示されている各構成要素のいずれかが、ROM612からDRAM614に展開されたプログラムに従ったCPU611からの命令によって動作することで実現される機能、又は機能する手段である。
端末通信部61は、USBケーブルなどを利用して端末装置10と通信する。端末通信部61は、無線LANやBluetooth(登録商標)等で端末装置10と通信してよい。
パノラマ画像作成部62はパノラマ画像を作成する。話者画像作成部63は話者画像を作成する。これらの作成方法は図5、図6にて説明した。
集音部64は、ミーティングデバイス60が有するマイクが取得する音声信号を音声データ(デジタル)に変換する。これにより、端末装置10側の拠点でユーザーや参加者が発言した内容が集音される。
音声合成部65は、端末装置10から送信された音声と集音部64が集音した音声を合成する。これにより、他の拠点101で発言された音声と、自拠点102の発言がまとめられる。
<<情報処理システム>>
情報処理システム50は、通信部51、認証部52、画面生成部53、会議管理部54、テキスト変換部55を有する。情報処理システム50が有するこれら各部は、図3に示されている各構成要素のいずれかが、HD504からRAM503に展開されたプログラムに従ったCPU501からの命令によって動作することで実現される機能、又は機能する手段である。また、情報処理システム50は、図3に示されているHD504等によって構築される記憶部5000を有している。記憶部5000には、会議情報記憶部5001と録画情報記憶部5002が構築される。
通信部51は、端末装置10と各種の情報を送受信する。通信部51は、例えば、遠隔会議のリストを端末装置10に送信したり、音声データの認識要求を端末装置10から受信したりする。
認証部52は、端末装置10を操作するユーザーを認証する。認証部52は、例えば、通信部51によって受信された認証要求に含まれている認証情報(ユーザーID及びパスワード)が予め保持する認証情報と一致するか否かにより、ユーザーを認証する。なお、認証情報は、ICカードのカード番号、顔や指紋などの生体認証情報等でもよい。また、認証部52は、外部の認証システムやOAUTHなどの認証方法で認証してもよい。
画面生成部53は端末装置10が表示する画面情報の生成を行う。端末装置10がネイティブアプリを実行する場合は、画面情報は端末装置10が保持しており、表示される情報がXML等で送信される。端末装置10がWebアプリを実行する場合は、画面情報は、HTML、XML、CSS(Cascade Style Sheet)、及びJavaScript(登録商標)等により作成される。
会議管理部54は、各ユーザーのアカウント又は情報処理システム50に付与されたシステム用のアカウントで、遠隔会議に関する情報を会議管理システム9から取得する。会議管理部54は、テナントに所属するユーザーに閲覧権限がある遠隔会議のリストを取得できる。遠隔会議には会議IDが設定されているので、会議IDにより遠隔会議と記録情報が対応付けられる。
テキスト変換部55は、端末装置10からテキストデータへの変換を要求された音声データを外部の音声認識サービスを利用してテキストデータに変換する。テキスト変換部55自身が変換してもよい。
図9は、会議管理部54が管理する、会議情報記憶部5001に記憶された会議情報の一例である。会議管理部54は上記のアカウントを使ってテナントに所属する当該ユーザーが閲覧権限のある遠隔会議のリストを取得できる。なお閲覧権限は、端末装置10の情報記録アプリから直接、会議管理部54が管理する会議情報に対して付与されてもよい。またテナントに所属するユーザーに閲覧権限がある遠隔会議の情報には、ユーザーが作成した会議の情報と、ユーザーが他のユーザーによって閲覧権限を与えられた会議の情報とが含まれる。本実施形態では、遠隔会議を例にしているが、遠隔会議のリストには1つの会議室だけで開催される会議も含まれている。
会議情報は会議IDで管理され、参加者、タイトル(会議名)、開始日時、終了日時、場所などと対応付けられている。これらは会議情報の一例であり、会議情報は、他にも情報を含みうる。
・参加者は、会議の参加者である。
・タイトルは、会議名や海外の議題など、会議の内容を表す。
・開始日時は、会議が開始される予定の日時である。
・終了日時は、会議が終了する予定の日時である。
・場所は、会議の開催場所であり、例えば会議室や、支社名、建屋などである。
図8,図9に示すように、会議IDにより会議で録画された結合画像動画が特定される。
図10は、録画情報記憶部5002に記憶されている録画情報を示す。録画情報は、テナントに所属する全てのユーザーが録画した結合画像動画のリストを有する。録画情報は、会議ID、録画ID、更新日時、タイトル、保存先等の各項目を有してる。これらの項目は図8と同様でよい。保存先(クラウドストレージシステムのURL等のパス情報)は、ユーザーが所望の保存先情報を端末装置10の情報記録アプリ41のユーザー設定画面等で入力し、録画情報記憶部5002に記憶してもよい。
<画面遷移>
続いて、図11~図20を参照して、端末装置10が遠隔会議中に表示するいくつかの画面について説明する。図11は、端末装置10で動作する情報記録アプリ41が表示するログイン後の初期画面200である。端末装置10のユーザーが情報記録アプリ41を情報処理システム50に接続させる。ユーザーが認証情報を入力してログインに成功すると、図11の初期画面200が表示される。
初期画面200は、固定表示ボタン201、正面変更ボタン202、パノラマ画像203、1つ以上の話者画像204a~204c(以下、区別しない場合、話者画像204という)、及び、記録開始ボタン205を有している。ログイン時にすでにミーティングデバイス60が起動して、周囲を撮像している場合、初期画面200にミーティングデバイス60が作成するパノラマ画像203、及び話者画像204が表示される。したがって、ユーザーはこれらを見ながら、記録開始するかどうか決めることができる。ミーティングデバイス60が起動していない(撮像していない)場合、パノラマ画像203と話者画像204は表示されない。
なお、情報記録アプリ41は、パノラマ画像203から検出された全ての顔に基づく全ての参加者の話者画像204を表示してもよいし、直近に発言したN人の話者画像204のみを表示してもよい。図11では、最大3人まで話者画像204が表示される例を示す。参加者が発言するまでの間、話者画像204がなくてもよいし(発言に応じて一人ずつ増える)、所定の方向の参加者の3人の話者画像204が表示されてもよい(発言に応じて入れ替わる)。
なお、ミーティングデバイス60が起動した直後など、誰も発言していない場合、水平360°のうちの予め決められた方向( 0°、120°、240°など)を話者画像204として作成する。後述する固定表示が設定されている場合は、固定表示の設定が優先される。
固定表示ボタン201は、パノラマ画像203のある領域を話者画像204として固定でクローズアップする操作をユーザーが行うためのボタンである。
図12は、固定表示ボタン201がオンの場合の操作方法を説明する図である。例えば、ユーザーはマウスやタッチパネルなどのポインティングデバイスで、矩形のウィンドウ206をパノラマ画像203上で移動させる。ユーザーはパノラマ画像203に含まれるホワイトボードや演台などにウィンドウ206を合わせる。ユーザーの操作はミーティングデバイス60に送信され、ミーティングデバイスは、水平方向360°のうちウィンドウで指示された範囲の画像を、話者画像204と同じ大きさで作成し、端末装置10に送信する。こうすることで、話者画像204が話者以外のホワイトボードなども継続して表示できる。
図11に戻り、正面変更ボタン202は、パノラマ画像203の正面を変更する操作をユーザーが行うためのボタンである。ユーザーはポインティングデバイスでパノラマ画像203を左右にスライドさせて、正面に写る参加者を決定できる(パノラマ画像は水平方向に360°写っているので、方向として右端と左端が一致する)。ユーザーの操作はミーティングデバイス60に送信され、ミーティングデバイスは、水平方向360°のうち正面にする角度を変更してパノラマ画像を作成し、端末装置10に送信する。
なお、情報記録アプリ41の起動時にミーティングデバイス60が未接続又は電源が入っていない場合、図13の機器未認識画面250が表示される。
図13は、機器未認識画面250の一例を示す。機器未認識画面250は「機器を認識できません。機器の電源を入れて接続して下さい。」というメッセージ251を表示する。ユーザーはこれを見てミーティングデバイス60の電源や接続状態を確認できる。
ユーザーが記録開始ボタン205を押下すると情報記録アプリ41が図14の録画設定画面210を表示する。
図14は、情報記録アプリ41が表示する録画設定画面210の一例である。録画設定画面210では、ミーティングデバイス60が作成したパノラマ画像及び話者画像、並びに、端末装置10のデスクトップ画面又は動作するアプリの画面、を録画するかをユーザーが(録画に含めるか)設定できる。パノラマ画像及び話者画像、及び、デスクトップ画面又は動作するアプリの画面のどちらも、情報記録アプリ41が録画しない場合は音声(端末装置10が出力する音声+ミーティングデバイス60が集音した音声)のみ記録される。
カメラトグルボタン211は、ミーティングデバイス60が作成したパノラマ画像及び話者画像の録画のオンとオフを切り替えるボタンである。カメラトグルボタン211は、パノラマ画像と話者画像を個別に録画する設定が可能でもよい。
PC画面トグルボタン212は、端末装置10のデスクトップ画面、端末装置10で動作するアプリの画面の、録画のオンとオフを切り替えるボタンである。PC画面トグルボタン212がオンの状態で、デスクトップ画面が録画される。
ユーザーがアプリの画面を録画したい場合、更に、アプリ選択欄213で、アプリを選択する。アプリ選択欄213には端末装置10が実行中のアプリ名がプルダウン形式で表示される。ユーザーは録画するアプリを選択できる。このアプリ名は、情報記録アプリ41がOSから取得する。情報記録アプリ41は実行中のアプリのうち、UI(画面)を持つアプリのみを表示することができる。選択されるアプリの中に、遠隔会議アプリ42が含まれてよい。このため、情報記録アプリ41は、遠隔会議アプリ42で表示した資料や各拠点の参加者なども動画で記録できる。この他、プルダウンで表示されるアプリは、プレゼンテーション用アプリ、ワープロアプリ、表計算アプリ、文書等の資料作成編集アプリ、クラウド電子黒板アプリ、Webブラウザアプリ、など端末装置で実行中の様々なアプリである。したがって、ユーザーは結合画像動画に含めるアプリの画面を柔軟に選択できる。
また、アプリ単位で録画する場合、ユーザーは複数のアプリを選択できる。情報記録アプリ41は、結合画像の作成時に選択された全てのアプリの画面を結合できる。
カメラトグルボタン211とPC画面トグルボタン212が双方ともオフの場合、録画内容確認ウィンドウ214に「音声のみ記録されます」と表示される。この音声は、端末装置10が出力する音声(遠隔会議アプリ42が他の拠点101から受信する音声)と、ミーティングデバイス60が集音する音声である。つまり、遠隔会議が実施されていれば、遠隔会議アプリ42の音声とミーティングデバイス60の音声は、画像の記録に関係なく保存される。ただし、ユーザーは、ユーザーの設定で遠隔会議アプリ42の音声、ミーティングデバイス60の音声の保存を選択的に停止できてよい。
カメラトグルボタン211とPC画面トグルボタン212のオンとオフの組み合わせに応じて、以下のように結合画像動画が録画される。また、録画内容確認ウィンドウ214にはリアルタイムに結合画像が表示される。
・カメラトグルボタン211がオン、PC画面トグルボタン212がオフの場合は、録画内容確認ウィンドウ214に、ミーティングデバイス60が撮像したパノラマ画像と話者画像が表示される。
・カメラトグルボタン211がオフ、PC画面トグルボタン212がオン(画面も選択済)の場合、録画内容確認ウィンドウ214に、デスクトップ画面や選択されたアプリの画面が表示される。
・カメラトグルボタン211がオン、PC画面トグルボタン212がオンの場合、録画内容確認ウィンドウ214に、ミーティングデバイス60が撮像したパノラマ画像と話者画像、及び、デスクトップ画面や選択されたアプリの画面が横に並んだ状態で表示される。
したがって、パノラマ画像、話者画像、及びアプリの画面が結合されない場合や、パノラマ画像、話者画像、及びアプリの画面が一切録画されない場合があるが、本実施形態では、便宜上、情報記録アプリ41が作成する画像を結合画像又は結合画像動画という。
図15は、カメラトグルボタン211がオン、PC画面トグルボタン212がオフの場合の、録画内容確認ウィンドウ214の表示例である。図15では、パノラマ画像203と話者画像204が大きく表示されている。
図16は、カメラトグルボタン211がオン、PC画面トグルボタン212がオンの場合の、録画内容確認ウィンドウ214の表示例である。図16では、パノラマ画像203と話者画像204が左側に、アプリの画面217が右側に表示されている。
したがって、録画内容確認ウィンドウ214により、録画設定画面210に対する設定に応じてどのような内容で結合画像動画(特にミーティングデバイス60による画像)が記録されるかを、録画開始前にユーザーが確認することができる。情報記録アプリ41は、記録情報の結合画像動画に含める画像を表示した状態で、記録開始の指示(記録開始ボタンの押下)を受け付ける。また、情報記録アプリ41は、選択したアプリケーション(例えば遠隔会議アプリケーション)で表示する画面情報であって、記録開始指示を行ったとき表示している画面情報と、デバイスから取得したデバイスの周囲の画像情報であって、記録開始指示を行ったときから取得した画像情報とを、記録終了の指示(記録終了ボタンの押下)まで取得し、ともに用いて結合画像を作成することができる。
なお、図16はアプリが1つだけ選択された場合の結合画像動画の表示例であるが、2つ以上のアプリが選択された場合、2つめ以降のアプリの画面は右側に順次、連結される。あるいは、2つめ以降のアプリの画面は縦横の2次元に配置されてもよい。
図14に戻って説明する。録画設定画面210は、「記録をアップロード後に自動で文字おこしする」というメッセージと共にチェックボックス215を有する。また、録画設定画面210は今すぐ記録開始ボタン216を有する。ユーザーがチェックボックス215にチェックを入れると、結合画像動画に、遠隔会議中の発言が変換されたテキストデータが添付される。この場合、録画終了後に情報記録アプリ41がテキストデータへの変換要求と共に音声を情報処理システム50にアップロードする。また、ユーザーが今すぐ記録開始ボタン216を押下すると、図17の録画中画面220が表示される。
図17は、情報記録アプリ41が録画中に表示する録画中画面220の一例である。なお、図17の説明では主に図14との相違を説明する。録画中画面220は、録画設定画面210でユーザーが設定した条件で、録画される結合画像動画をリアルタイムに表示する録画処理中の画面である。録画中画面220は前記遠隔会議アプリケーションを実行しながら表示できる。図17の録画中画面220は、カメラトグルボタン211がオン、PC画面トグルボタン212がオフの場合であり、ミーティングデバイス60が作成したパノラマ画像203と話者画像204(いずれも動画)を表示する。録画中画面220は、録画中アイコン225、一時停止ボタン226、及び、録画終了ボタン227を表示する。
なお、ユーザーがPC画面トグルボタン212をオンに設定した場合、図16に示したように、録画中画面220にはパノラマ画像と話者画像に、デスクトップ画面やアプリの画面が隣り合って表示される。
一時停止ボタン226は録画を停止するためのボタンで、停止後は録画再開も受け付ける。録画終了ボタン227は録画を終了するボタンである。一時停止ボタン226では録画IDが切り替わらず、録画終了ボタン227で録画IDが切り替わる。一時停止して、録画再開時にユーザーは録画設定画面210で設定した録画条件を再度設定することもできる。その場合、情報記録アプリ41は、録画停止ごとに複数の録画ファイルを作成してもよいし(例えば、録画終了ボタン227が押下)、1つの動画として連続するように複数ファイルを結合してもよい(例えば、一時停止ボタン226が押下)。また、情報記録アプリ41が結合画像動画を再生する場合、複数の録画ファイルを、1つの動画として連続して再生してもよい。
また、録画中画面220は、カレンダから情報取得ボタン221、会議名称欄222、時間欄223、場所欄224を有している。カレンダから情報取得ボタン221は、ユーザーが会議管理システム9から会議情報を取得するためのボタンである。カレンダから情報取得ボタン221が押下されると、情報記録アプリ41が情報処理システム50から該ユーザーに閲覧権限がある会議一覧を取得し、表示する。ユーザーは会議一覧から、これから行う遠隔会議を選択する。これにより、会議名称欄222、時間欄223、場所欄224に会議情報が反映される。会議名称欄222には会議情報のタイトルが、時間欄223には開始時刻と終了時刻が、場所欄224に場所が反映される。また、会議管理システムにおける会議情報と記録情報が会議IDで対応付けられる。
遠隔会議が終了し、ユーザーが録画を終了すると、音声付きの結合画像動画が作成される。
図18は、情報記録アプリ41が表示する会議一覧画面230の一例である。会議一覧画面230は、会議の一覧であるが、遠隔会議において録画された記録情報のリストを表示できる。また、遠隔の会議にかかわらず、ある会議室内のみで行われた会議も含まれる。会議一覧画面230は、会議情報記憶部5001においてログインユーザーが閲覧権限のある会議情報と、この遠隔会議に対応付けられている録画情報記憶部5002に保存された情報が統合して表示される。情報記憶部1001に保存された動画記録情報の情報が更に統合されてもよい。
会議一覧画面230は、図14の初期画面200においてユーザーが会議一覧タブ231を選択すると表示される。会議一覧画面230は、このユーザーに閲覧権限がある記録情報のリスト236を表示する。会議作成者(議事録作成者)は参加者に閲覧権限を設定できる。なお会議一覧は、記憶した記録情報の一覧であっても、会議予定や会議データの一覧であってもよい。
会議一覧画面230はチェックボックス232、更新日時233、タイトル234、及びステータス235の各項目を有する。
・チェックボックス232は録画ファイルの選択を受け付ける。チェックボックス232は、ユーザーがまとめて録画ファイルを削除したい場合に使用される。
・更新日時233は、結合画像動画の録画の開始時と終了時を示す。編集された場合は編集日時でよい。
・タイトルは234、会議のタイトル(議題等)である。会議情報から転記されてもよいし、ユーザーが設定してもよい。
・ステータス235は、結合画像動画が情報処理システム50にアップロード済みか否かを示す。アップロード済みでない場合、「ローカルPC」が表示され、アップロード済みの場合「アップロード済み」が表示される。アップロード済みでない場合、アップロードボタンが表示される。未アップロードの結合画像動画がある場合、ユーザーが情報処理システム50にログイン時に、情報記録アプリ41が自動アップロードするとよい。
ユーザーが結合画像動画のリスト236から任意のタイトル等をポインティングデバイスで選択すると、情報記録アプリ41が図19の録画再生画面240を表示する。録画再生画面240では、結合画像動画の再生などが可能である。
図19は、情報記録アプリ41が表示する、結合画像動画の選択後の録画再生画面240の一例である。録画再生画面240は再生画像表示欄241、文字起こしボタン242、1つ以上のテキスト表示欄243、自動スクロールボタン244、検索ボタン245を有する。
・再生画像表示欄241は、再生ボタン241a、巻き戻しボタン241b、早送りボタン241c、タイムインジケータ241d、再生速度ボタン241e、音量ボタン241f等を有する。再生画像表示欄241は、結合画像動画を再生して表示する。図19では、再生画像表示欄241の結合画像動画は、左側にパノラマ画像と話者画像が配置され、右側に遠隔会議アプリ42の画面が表示されている。遠隔会議アプリ42の画面は、遠隔会議中に、拠点の画像になったり資料の画像になったりする。したがって、ユーザーは各種のボタンを操作して所望の場面の画面を閲覧できる。
・再生画像表示欄241に表示中の結合画像動画の音声データがテキストデータに変換済みの場合、テキスト表示欄243に、発言内容が文字で表示される。
・文字起こしボタン242は、テキスト表示欄243に表示されるテキストデータを結合画像動画の再生時刻に同期して表示させるか否かをユーザーが切り替えるボタンである。
・自動スクロールボタン244は、再生時刻に関係なく、自動でテキストデータをスクロールさせるか否かをユーザーが切り替えるボタンである。
・検索ボタン245は、ユーザーがキーワードを指定してテキストデータを検索するためのボタンである。
また、録画再生画面240では、結合画像動画のダウンロードが可能でもよい。
図20は、結合画像動画の編集画面260の一例である。編集画面260は、録画中画面220から自動で、又は、録画再生画面240においてユーザーが所定の操作を行うと遷移する。編集画面260は、第一表示欄261と第二表示欄262を有している。第一表示欄261には再生途中のある瞬間の結合画像が表示され、第二表示欄262には結合画像動画を構成するフレームが時系列に表示される。ユーザーは1つ以上のフレームを選択して不要なフレームを削除できる。また、ユーザーはフレームの一部を取り出して、任意のフレームの後に挿入することもできる。編集処理部21は、ユーザーの操作に応じて結合画像動画を編集し、編集後の結合画像動画で上書き、又は別途保存する。
<動作又は処理の手順>
続いて、以上の構成に基づいて、記録情報作成システム100が行う動作及び処理について説明する。
<<ログイン>>
図21は、ユーザーが端末装置10で動作する情報記録アプリ41を操作して情報処理システム50にログインする手順又は処理を説明するシーケンス図の一例である。
S1:ユーザーは端末装置10に情報記録アプリ41を起動する操作を入力する。
S2:操作に応じて端末装置10は情報記録アプリ41を起動する。
S3:情報記録アプリ41は起動すると、通信部11が自動的に情報処理システム50と通信し、ログイン画面を要求する。
S4:情報処理システム50の通信部51はログイン画面の要求を受信し、画面生成部53が生成したログイン画面の画面情報を情報記録アプリ41に送信する。
S5:情報記録アプリ41の通信部11はログイン画面の画面情報を受信し、表示制御部13がログイン画面を表示する。
S6:ユーザーは情報記録アプリ41にテナントにログインするための認証情報を入力する。情報記録アプリ41の操作受付部12が入力を受け付ける。
S7:情報記録アプリ41の通信部11が、認証情報を指定してログイン要求を情報処理システム50に送信する。
S8:情報処理システム50の通信部51はログイン要求を受信し、認証部52が認証情報に基づいてユーザーを認証する。ここでは認証が成功したものとする。
S9:情報処理システム50の通信部51はログイン成功を情報記録アプリ41に送信する。
S10:情報記録アプリ41の通信部11はログイン成功を受信し、表示制御部13が初期画面200を表示する。
<<結合画像動画の保存>>
続いて、図22を参照し、結合画像動画の保存処理について説明する。図22は、情報記録アプリ41がパノラマ画像、話者画像及びアプリの画面を録画する手順を示すシーケンス図の一例である。
S21:ユーザーは遠隔会議アプリ42を操作して遠隔会議を開始する。ここでは、自拠点102と他の拠点101の遠隔会議アプリ42が遠隔会議を開始したものとする。自拠点102の遠隔会議アプリ42は、端末装置10が有するカメラが撮像する画像、マイクが集音する音声を他の拠点101の遠隔会議アプリ42に送信する。他の拠点101の遠隔会議アプリ42は、受信した画像をディスプレイに表示し、受信した音声をスピーカから出力する。同様に、他の拠点101の遠隔会議アプリ42は、端末装置10が有するカメラが撮像する画像、マイクが集音する音声を自拠点102の遠隔会議アプリ42に送信する。自拠点102の遠隔会議アプリ42は、受信した画像をディスプレイに表示し、受信した音声をスピーカから出力する。各遠隔会議アプリ42はこれを繰り返して、遠隔会議を実現する。
S22:ユーザーは図14に示した情報記録アプリ41の録画設定画面210に対し、録画に関する設定を行う。情報記録アプリ41の操作受付部12が設定を受け付ける。ここでは、カメラトグルボタン211、及び、PC画面トグルボタン212が共にオンであるとする。
ユーザーは遠隔会議を事前に予約済みの場合、図19のカレンダから情報取得ボタン221を押下することで遠隔会議のリストを表示し、記録動画を対応付ける遠隔会議を選択できる。ユーザーは情報処理システム50にログイン済みなので、情報処理システム50はログインしたユーザーが閲覧権限のある遠隔会議を特定する。情報処理システム50は特定した遠隔会議のリストを端末装置10に送信するので、ユーザーは開催中又はこれから開催される遠隔会議を選択する。これにより、会議ID等、遠隔会議に関する情報が決定される。
また、ユーザーは遠隔会議を事前に予約していなくても、結合画像動画を作成する際に会議を作成できる。以下では、情報記録アプリ41が、結合画像動画を作成する際に会議を作成し、会議IDを情報処理システム50から取得する場合を説明する。
S23:ユーザーは録画開始(今すぐ記録開始ボタン216)を情報記録アプリ41に指示する。情報記録アプリ41の操作受付部12が指示を受け付ける。表示制御部13は録画中画面220を表示する。
S24:遠隔会議が選択されていないので(会議IDが決まってないため)、情報記録アプリ41の通信部11が、遠隔会議作成要求を情報処理システム50に送信する。
S25:情報処理システム50の通信部51は遠隔会議作成要求を受信し、会議管理部54が、会議管理システム9が採番した重複しない会議IDを取得し、通信部51が会議IDを情報記録アプリ41に送信する。
S26:また、会議管理部54は、通信部51を介して、結合画像動画の保存先(ストレージサービスシステム70のURL)を情報記録アプリ41に送信する。
S27:情報記録アプリ41の通信部11が会議IDと録画ファイルの保存先を受信することで、画像結合部17が録画の準備が整ったと判断し、録画を開始する。
S28:情報記録アプリ41のアプリ画面取得部14は、ユーザーが選択したアプリの画面をアプリに対し要求する(アプリ画面取得部14は、より詳細にはOSを介して、アプリの画面を取得する)。図22では、ユーザーが選択したアプリを遠隔会議アプリ42とする。
S29:情報記録アプリ41の画像結合部17は、デバイス通信部16を介して、ミーティングデバイス60に録画開始を通知する。通知の際、画像結合部17は、カメラトグルボタン211がオンである旨(パノラマ画像と話者画像の要求)も通知する。
S30:ミーティングデバイス60の端末通信部61が録画開始を受信すると、重複しない録画IDを採番し、録画IDを情報記録アプリ41に返す。なお、録画IDは情報記録アプリ41が採番してもよいし、情報処理システム50から取得してもよい。
S31:情報記録アプリ41の音声取得部15は端末装置10が出力する音声データ(遠隔会議アプリ42が受信した音声データ)を取得する。
S32:デバイス通信部16が、音声取得部15が取得した音声データと合成要求をミーティングデバイス60に送信する。
S33:ミーティングデバイス60の端末通信部61は音声データと合成要求を受信し、音声合成部65が、集音部64が集音した周囲の音声データと、受信した音声データを合成する。例えば、音声合成部65は、2つの音声データを足し合わせる。ミーティングデバイス60の周辺の鮮明な音声が記録されるので、特にミーティングデバイス60周辺(会議室側)の音声のテキスト化精度が向上する。
この音声の合成は、端末装置10でも可能である。しかし、録画機能が端末装置10に、音声処理がミーティングデバイス60に分散して配置されることで、端末装置10とミーティングデバイス60の負荷を低減できる。録画機能がミーティングデバイス60に、音声処理が端末装置10に分散して配置されてもよい。
S34:また、ミーティングデバイス60はカメラトグルボタン211がオンである旨を受け取ったので、パノラマ画像作成部62はパノラマ画像を作成し、話者画像作成部63は話者画像を作成する。
S35:情報記録アプリ41のデバイス通信部16は、パノラマ画像と話者画像を繰り返しミーティングデバイス60から取得する。また、デバイス通信部16は、合成後の音声データを繰り返しミーティングデバイス60に要求して取得する。これらの取得は、デバイス通信部16がミーティングデバイス60に要求することで行われてもよい。あるいは、カメラトグルボタン211がオンである旨を受け取ったミーティングデバイス60が自動的にパノラマ画像と話者画像を送信してもよい。音声データの合成要求を受け取ったミーティングデバイス60が自動的に合成後の音声データを情報記録アプリ41に送信してもよい。
S36:情報記録アプリ41の画像結合部17は、遠隔会議アプリ42から取得したアプリの画面と、パノラマ画像と、話者画像を並べることで結合画像を作成する。画像結合部17は、繰り返し結合画像を作成し、動画を構成するフレームに各結合画像を指定することで結合画像動画を作成する。また、画像結合部17はミーティングデバイス60から受信した音声データを保存しておく。
情報記録アプリ41は以上のステップS31~S36を繰り返す。
S37:遠隔会議が終わり、録画の必要がなくなると、ユーザーが録画終了(例えば、録画終了ボタン227)を情報記録アプリ41に指示する。情報記録アプリ41の操作受付部12が指示を受け付ける。
S38:情報記録アプリ41のデバイス通信部16は、ミーティングデバイス60に録画終了を通知する。これにより、ミーティングデバイス60はパノラマ画像と話者画像の作成や音声の合成を終了する。
S39:情報記録アプリ41の画像結合部17は、結合画像動画に音声データを結合して音声付きの結合画像動画を作成する。
S40:また、ユーザーが録画設定画面210で「記録をアップロード後に自動で文字おこしする」に対応付けられたチェックボックス215をチェックした場合、音声データ処理部18が、音声データのテキストデータへの変換を情報処理システム50に要求する。詳細には、音声データ処理部18は、通信部11を介して、保存先のURLを指定し、会議ID及び録画IDと共に、結合画像動画に結合された音声データの変換要求を情報処理システム50に送信する。
S41:情報処理システム50の通信部51は音声データの変換要求を受信し、テキスト変換部55が音声認識サービスシステム80を利用して音声データをテキストデータに変換する。通信部51はテキストデータを、結合画像動画の保存先と同じ保存先(ストレージサービスシステム70のURL)に保存する。なお、録画情報記憶部5002においてテキストデータは会議ID及び録画IDにより結合画像動画と対応付けられている。なおテキストデータは、情報処理システム50の会議管理部54で管理し、記憶部5000に記憶してもよい。また、端末装置10が音声認識サービスシステム80に音声認識を要求し、音声認識サービスシステム80から取得したテキストデータを保存先に保存してもよい。なお、音声認識サービスシステム80は、変換したテキストデータを情報処理システム50に返すが、直接保存先のURLに送信してもよい。音声認識サービスシステム80は、情報処理システム50にユーザーが設定した設定情報に応じて、複数のサービスから選択したり切り替えたりしてもよい。
S42:また、情報記録アプリ41のアップロード部20は、通信部11を介して、結合画像動画の保存先に結合画像動画を保存する。録画情報記憶部5002において結合画像動画は会議ID及び録画IDと対応付けられている。結合画像動画にはアップロード済みが記録される。
保存先はユーザーに通知されているので、ユーザーはメールなどで保存先を知らせることで結合画像動画を参加者と共有できる。結合画像動画、音声データ、テキストデータを作成する装置がそれぞれ異なっても、1つの格納場所に集めて格納でき、後でユーザー等が容易に閲覧できる。
リアルタイム音声認識の場合、ミーティングデバイス60又は端末装置10が音声データをリアルタイムに情報処理システム50に送信する。端末装置10はミーティングデバイス60から送信された、又は、情報処理システム50から返却されたテキストデータを録画中画面220に表示すると共に保存しておく。
なお、ステップS31~S36の処理は、図22に示すとおりの順番でなくてもよく、音声データの合成と結合画像の作成が前後してもよい。
<<結合画像動画を作成中の設定変更>>
続いて、図23を参照して、情報記録アプリ41が結合画像動画を作成中に、ユーザーが録画設定画面210に対する設定を変更した場合を説明する。図23は、結合画像動画の作成中に録画設定画面210に対する設定が変更された場合に、変更後の設定で、情報記録アプリ41がパノラマ画像、話者画像及びアプリの画面を録画する手順を示すシーケンス図の一例である。なお、図23の説明では主に図22との相違を説明する。
図23では、ステップS31~S36の繰り返しの中で、ステップS51でユーザーが録画設定画面210の設定を変更した。設定変更の前にカメラトグルボタン211とPC画面トグルボタン212がオンであった場合、例えば、以下のような変更が可能である。画像結合部17は、変更後の設定に基づいて結合画像動画を生成する。
a.カメラトグルボタン211とPC画面トグルボタン212をオフ
b.カメラトグルボタン211をオフ、PC画面トグルボタン212をオン
c.PC画面トグルボタン212がオンの状態だが、画面を保存するアプリが変更された
図23では、b.の場合を説明する。
S52:カメラトグルボタン211をオフに変更されたので、情報記録アプリ41の画像結合部17は、デバイス通信部16を介して、録画終了をミーティングデバイス60に通知する。このため、図23では、ステップS34のパノラマ画像と話者画像の作成処理がない。また、ステップS35では、音声データのみがミーティングデバイス60から情報記録アプリ41に送信される。
また、ステップS36では、画像結合部17は、遠隔会議アプリ42から取得したアプリの画面だけから結合画像を作成する。この場合、カメラトグルボタン211がオンの状態では存在したパノラマ画像と話者画像がなくなるので、画像結合部17はアプリの画面のみを大きく配置してもよいし、パノラマ画像と話者画像があった場合と同様に配置してもよい。また、画像結合部17は、結合画像動画を1つの録画ファイルとして保存してもよいし、1つの設定変更に対し録画IDをミーティングデバイス60から取得し、別の録画ファイルとして保存してもよい。
なお、a.の場合は、更にステップS28が不要になり、ステップS36では、アプリの画面も表示されない。
c.の場合、ステップS28で情報記録アプリ41が取得するアプリの画面が変更される。
このように、結合画像動画の作成中に録画設定が変更されても、情報記録アプリ41は変更内容に応じた結合画像動画を作成できる。ユーザーが録画中に録画するアプリ切り替えることによって、遠隔会議中に表示していたアプリの画面を、結合画像動画に含めることができる。
<<実行中の全てのアプリの画面を保存>>
続いて、図24を参照して、実行中の全てのアプリの画面を保存しておき、遠隔会議の終了後に、情報記録アプリ41が結合画像動画を作成する場合を説明する。図24は、実行中の全てのアプリの画面を保存しておき、遠隔会議の終了後に、記録情報に含める画像(動画)を変更する手順を示すシーケンス図の一例である。なお、図24の説明では主に図22との相違を説明する。
図24では、ステップS28で、情報記録アプリ41のアプリ画面取得部14が実行中の全てのアプリの画面を、OS等を介して取得する。各アプリの画面はアプリの識別情報と対応付けて動画として端末装置10が保存しておく。
また、ステップS36では、画像結合部17が録画設定に応じてアプリの画面とパノラマ画像と話者画像とを結合し、表示制御部13が結合画像を表示する。
そして、ステップS37で録画が終了すると、ステップS39で、画像結合部17が録画設定画面210で選択された全てのアプリの画面と、パノラマ画像と話者画像とを結合する。カメラトグルボタン211がオフであればパノラマ画像と話者画像は結合されない。
このように、実行中の全てのアプリの画面を保存しておけば、録画中にユーザーが録画設定画面210を変更しても、遠隔会議の開始時からアプリの画面を結合画像動画に含めることができる。ユーザーは録画設定を遠隔会議の終了後に行うことができ、全てのアプリ画面を録画しておくことによって、記録情報に含めるアプリの画面を後から決定できる。
<録画中における端末装置とミーティングデバイスの通信切断>
続いて、図25を参照して、録画中に端末装置10とミーティングデバイス60の通信が切断された場合を説明する。図25は、録画中に端末装置10とミーティングデバイス60の通信が切断された場合に、適切に録画を終了する手順を示すシーケンス図の一例である。なお、図25の説明では主に図22との相違を説明する。
S61:ユーザーが誤って、端末装置10とミーティングデバイス60を接続するUSBケーブルを引き抜いた。通信が切断される例としては、他に無線LANルータの異常、ミーティングデバイス60の電源オフ等がある。
S62:情報記録アプリ41のデバイス通信部16は外部機器接続I/Fが電圧を検知しないなどにより、USBケーブルが引き抜かれたことを検知する。デバイス通信部16は、ミーティングデバイス60からの無応答等で通信途絶を検知してもよい。
S63:ミーティングデバイス60と通信できない場合、カメラトグルボタン211がオフであっても情報記録アプリ41が合成後の音声データを取得できない。このため、情報記録アプリ41は録画を終了する。以降の処理は、図22のステップS37以降と同様でよい。
<各アプリがクラウドに存在し、ミーティングデバイスとクラウドアプリが接続する場合>
次に、図26を参照して、各アプリがクラウドに存在し、ミーティングデバイス60とクラウド側のアプリが通信する場合のシステム構成を説明する。図26は、記録情報作成システム100の構成例を示す。情報記録アプリ41が、ミーティングデバイス60の周囲の画像と、遠隔会議アプリ42が表示する画面とを取得するための構成や通信接続の関係は、以下のバリエーションであってもよい。
図26(a)は、遠隔会議アプリ42と情報記録アプリ41とが別の端末装置で動作する場合の構成例である。この場合、ミーティングデバイス60が撮像した周囲の画像情報は、拠点に設置されたミーティングデバイス60から、情報記録アプリ41に送信される。
また、遠隔会議アプリ42が表示する画面情報も、情報記録アプリ41が取得し、ミーティングデバイス60の周囲の画像情報と、遠隔会議アプリ42が表示する画面情報とを用いて、記録情報を作成する。
図26(b)は、図2と同様の構成である。端末装置10で実行する情報記録アプリ41が、端末装置10で実行する遠隔会議アプリ42が表示する画面情報と、遠隔会議の音声と、ミーティングデバイス60の周辺の画像情報と、拠点の音声と、を取得して記録情報を作成する。端末装置10とミーティングデバイス60は、ローカル(USB, BLE, Wi-Fi)で、直接接続している。
図26(c)は、情報処理システム50において情報記録アプリ41が動作する構成例を示す。情報処理システム50(クラウド上)は情報記録アプリ41を実行し、拠点のミーティングデバイス60から周囲の画像情報と、端末装置10から遠隔会議アプリ42の画面情報と、をそれぞれ取得する。したがって、情報記録アプリ41を、情報処理システム50と端末装置10とで実行するWebアプリにより記録情報が作成される。
情報処理システム50の情報記録アプリ41が、記録情報作成のための主な処理を行い、端末装置10のWebブラウザ・アプリ120がUI表示と入力等に関する処理を行う。情報処理システム50側の情報記録アプリ41と、ミーティングデバイス60及び端末装置10は、Web(インターネット)経由で接続している。
情報処理システム50側の情報記録アプリ41は、端末装置10で実行する遠隔会議アプリ42が表示する画面情報と、遠隔会議の音声とをWeb(インターネット)を介して取得する。また、情報処理システム50側の情報記録アプリ41は、ミーティングデバイス60の周辺の画像情報と拠点の音声も Webを介して取得し、記録情報を作成する。その他の処理は本実施形態で説明した。
図26(d)は、遠隔会議サービスシステム90と情報処理システム50とが通信する構成例を示す。情報処理システム50が情報記録アプリ41を備え、拠点のミーティングデバイス60から周囲の画像情報を、他のクラウドサービス(遠隔会議サービスシステム)から遠隔会議アプリ42の画面情報をそれぞれ取得する。情報処理システム50側の情報記録アプリ41と、ミーティングデバイス60と、アプリ(遠隔会議アプリ42)のクラウドサービス側は、Web(インターネット)経由で接続している。遠隔会議アプリ42が表示する画面情報、及び音声を、遠隔会議アプリ42のクラウドサービス側から、情報処理システム50側の情報記録アプリ41が取得する。その他は、図26(c)と同様である。
<主な効果>
以上説明したように、本実施形態の記録情報作成システム100は、結合画像動画には、ユーザーを含む周囲のパノラマ画像や話者画像が表示され、更に、遠隔会議アプリ42など、遠隔会議中に表示されたアプリの画面が表示される。遠隔会議の参加者や参加者でない者が、結合画像動画を議事録として閲覧した場合、遠隔会議中の様子を臨場感と共に再現される。また、情報記録アプリ41は、情報記録アプリ41で選択したアプリケーション(遠隔会議アプリなど)が表示する画面情報と、拠点内(会議室内など)のデバイスの周囲の画像情報とを両方とも記録しているので、遠隔会議アプリ42が表示している画面が切り替わったとしても、遠隔会議(遠隔コミュニケーション)内容とともに拠点(会議室内など)の様子を漏れなく記録した記録情報を作成することができる。
<その他の適用例>
以上、本発明を実施するための最良の形態について実施例を用いて説明したが、本発明はこうした実施例に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
例えば、端末装置10とミーティングデバイス60が一体でもよい。端末装置10にミーティングデバイス60が外付けされてもよい。また、ミーティングデバイス60は、全天球カメラとマイクとスピーカがケーブルで接続されたものでもよい。
また、他の拠点101においてもミーティングデバイス60が配置されてよい。他の拠点101は別途、ミーティングデバイス60を使用して結合画像動画とテキストデータを作成する。また、1つの拠点に複数のミーティングデバイス60が配置されてもよい。この場合、ミーティングデバイス60ごとに複数の記録情報が作成される。
また、本実施形態で使用した、結合画像動画における、パノラマ画像203,話者画像204、及び、アプリの画面の配置は一例に過ぎない。パノラマ画像203が下で話者画像204が上でもよいし、ユーザーが配置を変更したり、再生時にはパノラマ画像203と話者画像204の表示と非表示を個別に切り替えたりしてもよい。
また、図7などの構成例は、端末装置10、ミーティングデバイス60、及び、情報処理システム50による処理の理解を容易にするために、主な機能に応じて分割したものである。処理単位の分割の仕方や名称によって本願発明が制限されることはない。端末装置10、ミーティングデバイス60、及び、情報処理システム50の処理は、処理内容に応じて更に多くの処理単位に分割することもできる。また、1つの処理単位が更に多くの処理を含むように分割することもできる。
また、実施例に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの1つを示すものにすぎない。ある実施形態では、情報処理システム50は、サーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリなどを含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。
更に、情報処理システム50は、開示された処理ステップ、例えば図22等を様々な組み合わせで共有するように構成できる。例えば、所定のユニットによって実行されるプロセスは、情報処理システム50が有する複数の情報処理装置によって実行され得る。また、情報処理システム50は、1つのサーバー装置にまとめられていても良いし、複数の装置に分けられていても良い。
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」は、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、及び、従来の回路モジュール等のデバイスを含む。