JP2023130822A - 機器システム、撮像装置、表示方法 - Google Patents

機器システム、撮像装置、表示方法 Download PDF

Info

Publication number
JP2023130822A
JP2023130822A JP2022035333A JP2022035333A JP2023130822A JP 2023130822 A JP2023130822 A JP 2023130822A JP 2022035333 A JP2022035333 A JP 2022035333A JP 2022035333 A JP2022035333 A JP 2022035333A JP 2023130822 A JP2023130822 A JP 2023130822A
Authority
JP
Japan
Prior art keywords
image
information
generation unit
unit
conference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022035333A
Other languages
English (en)
Inventor
浩史郎 堀
Koshiro Hori
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2022035333A priority Critical patent/JP2023130822A/ja
Priority to US18/166,635 priority patent/US20230292011A1/en
Publication of JP2023130822A publication Critical patent/JP2023130822A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2628Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】複数の対象物が適切に表示される画像を生成する技術を提供すること。【解決手段】本発明は、広角画像を撮像する撮像装置と、前記広角画像から第一の画像を生成する画像生成部と、前記撮像装置と通信できる端末装置で動作するプログラムとを有する機器システムであって、前記画像生成部は、前記広角画像から複数の対象物が検知された場合、前記複数の対象物が含まれる前記第一の画像を生成し、前記プログラムは、記端末装置を、前記第一の画像を表示する表示制御部として機能させる、ことを特徴とする。【選択図】図2

Description

本発明は、機器システム、撮像装置、及び、表示方法に関する。
一方の拠点から1つ以上の他の拠点にリアルタイムに画像や音声を送信し、遠隔地にいるユーザー同士で画像や音声を用いた会議を行う遠隔コミュニケーションシステムが知られている。遠隔コミュニケーションでは電子黒板などの機器が使用される場合がある。
会議に参加している拠点の参加者の話者を画像から切り出す技術が知られている(例えば、特許文献1参照。)。特許文献1には、全天球画像から顔認識により話者をクローズアップして表示するシステムが開示されている。
しかしながら、従来の技術では、画像に含めるべき対象物が複数ある場合、いずれかの対象物が適切に表示されないという課題があった。
本発明は、上記課題に鑑み、複数の対象物が適切に表示される画像を生成する機器システムを提供することを目的とする。
上記課題に鑑み、本発明は、広角画像を撮像する撮像装置と、前記広角画像から第一の画像を生成する画像生成部と、前記撮像装置と通信できる端末装置で動作するプログラムとを有する機器システムであって、前記画像生成部は、前記広角画像から複数の対象物が検知された場合、前記複数の対象物が含まれる前記第一の画像を生成し、前記プログラムは、前記端末装置を、前記第一の画像を表示する表示制御部として機能させる、ことを特徴とする。
複数の対象物が適切に表示される画像を生成する技術を提供できる。
遠隔会議中に実行されたアプリの画面を周囲のパノラマ画像と共に保存する記録情報の作成の概略を説明する図である。 生成されたパノラマ画像の一例を示す図である。 記録情報作成システムの構成例を示す図である。 情報処理システム及び端末装置のハードウェア構成例を示す図である。 ミーティングデバイスのハードウェア構成例を示す図である。 ミーティングデバイスの撮像範囲を説明する図である。 パノラマ画像と話者画像の切り出しを説明する図である。 電子黒板の一例のハードウェア構成図である。 記録情報作成システムにおける端末装置、ミーティングデバイス、及び、情報処理システムの機能をブロックに分けて説明する機能ブロック図の一例である。 情報記憶部が記憶している動画記録情報の一例を示す図である。 コミュニケーション管理部が管理する会議情報の一例を示す図である。 対応付け情報記憶部に記憶された、会議IDと機器識別情報とが対応付けられた対応付け情報の一例を示す図である。 アカウント情報記憶部に記憶されているアカウント情報の一例を示す図である。 電子黒板の機能をブロックに分けて説明する機能ブロック図の一例である。 機器情報記憶部に記憶されている機器識別情報等の一例を示す図である。 オブジェクト情報記憶部に保存されてるオブジェクト情報を説明する図である。 端末装置で動作する情報記録アプリが表示するログイン後の初期画面の一例を示す図である。 情報記録アプリが表示する録画設定画面の一例を示す図である。 情報記録アプリが録画中に表示する録画中画面の一例を示す図である。 情報記録アプリが表示する会議一覧画面の一例を示す図である。 会議の開始からミーティングデバイスがパノラマ画像を作成する処理を説明するシーケンス図の一例である。 参加者の顔が検知された場合に決定されるパノラマ画像の高さの一例を示す図である。 位置登録ボタンの押下により電子黒板の方向を設定する操作方法を説明する図である。 ユーザーが設定した方向を確認する画面の一例を示す図である。 電子黒板が表示する、電子黒板の方向の検知方法を設定する画面を説明する図である。 電子黒板が特定の映像として表示する二次元コードの一例を示す図である。 電子黒板が特定の音を出力した場合の電子黒板の方向の決定方法を説明する図である。 特定の映像や音声により、ミーティングデバイスが電子黒板を含むパノラマ画像を生成する処理を説明するシーケンス図の一例である。 情報記録アプリが表示する電子黒板の自動検知設定画面の一例を示す図である。 機械学習などの画像処理により検出された電子黒板を説明する図の一例である。 画像処理により検出された電子黒板に基づいて決定されるパノラマ画像の高さを説明する図の一例である。 全天球画像からパノラマ画像を生成する生成方法を説明する図である。 情報記録アプリが表示する結合画像の一例を示す図である。 第一画像生成部がパノラマ画像の高さを決定する処理を説明するフローチャート図の一例である。 パノラマ画像の中央に配置された電子黒板を示す図の一例である。 表示範囲を固定するボタンがオフの場合に生成されたパノラマ画像の一例を示す図である。 表示範囲を固定するボタンがオンの場合に生成されたパノラマ画像の一例を示す図である。 表示範囲を固定するボタンがオン又はオフの場合に、第一画像生成部がパノラマ画像を生成する処理を説明するフローチャート図の一例である。 水平方向の一部のみが切り取られたパノラマ画像の一例を示す図である。 パノラマ画像において参加者間の間隔が空いている場合に余剰間隔を省略する処理を説明する図である。 情報記録アプリがパノラマ画像、話者画像及びアプリの画面を録画する手順を示すシーケンス図の一例である。
以下、本発明を実施するための形態の一例として、機器システムと機器システムが行う表示方法について説明する。
<遠隔会議における議事録の作成方法の一例>
まず、図1を参照して、パノラマ画像とアプリの画面を用いた議事録の作成方法の概略を説明する。図1は、遠隔会議中に実行されたアプリの画面を周囲のパノラマ画像と共に保存する記録情報の作成の概略を説明する図である。図1に示すように、図示する自拠点102にいるユーザーが遠隔会議サービスシステム90を利用して、他の拠点101と遠隔会議を行っている。
本実施形態の記録情報作成システム100は、周囲360°を撮像可能な撮像手段及びマイクとスピーカを備えたミーティングデバイス60が、周囲を撮像した情報を処理することで取得した水平パノラマ画像(以下、パノラマ画像という)と、端末装置10が実行するアプリケーション(以下、アプリという)が作成する画面と、を用いて、記録情報(議事録など)を作成する。音声については、記録情報作成システム100は、遠隔会議アプリ42が受信する音声と、ミーティングデバイス60が取得する音声とを合成して、記録情報に含める。以下、概略を説明する。
(1) 端末装置10では、後述する情報記録アプリ41と遠隔会議アプリとが動作している。この他、資料表示用のアプリなども動作していてよい。情報記録アプリ41は、端末装置10が出力する音声(遠隔会議アプリが他拠点から受信した音声を含む。)をミーティングデバイス60に送信する。ミーティングデバイス60は、自身が取得している音声と、遠隔会議アプリの音声とをミキシング(合成)する。
(2) ミーティングデバイス60はマイクを備え、音声を取得した方向に基づき、パノラマ画像から話者を切り出す処理を行い、話者画像を作成する。ミーティングデバイス60は、パノラマ画像と話者画像の両方を端末装置10に送信する。
(3) 端末装置10で動作する情報記録アプリ41は、パノラマ画像203と話者画像204を表示できる。情報記録アプリ41は、ユーザーが選択した任意のアプリ画面(例えば遠隔会議アプリの画面103)と、パノラマ画像203と話者画像204と、を結合する。例えば、左側にパノラマ画像203と話者画像204、右側に遠隔会議アプリの画面103が配置されるように、パノラマ画像203、話者画像204、アプリの画面103を結合する(以下、結合画像105という)。なおアプリ画面は、遠隔会議アプリ等の各アプリケーションが表示する画面情報(後述)の例である。(3)の処理は繰り返し実行されるので、結合画像105は動画となる(以下、結合画像動画という)。また、情報記録アプリ41は、結合画像動画に合成された音声を結合して音声付きの動画を作成する。
なお、本実施形態では、パノラマ画像203、話者画像204、アプリの画面103を結合する例を説明するが、情報記録アプリ41がこれらを別々に保存し、再生時に画面に配置してもよい。
(4) 情報記録アプリ41は、編集作業(ユーザーによる不要箇所のカット)を受け付け、結合画像動画を完成させる。結合画像動画は記録情報の一部を構成する。
(5) 情報記録アプリ41は、作成した結合画像動画(音声付き)をストレージサービスシステム70に送信し保存しておく。
(6) また、情報記録アプリ41は、結合画像動画から音声のみを抽出しておき(結合前の音声を取っておいてもよい)、抽出した音声を、情報処理システム50に送信する。情報処理システム50は音声をテキストデータに変換する音声認識サービスシステム80に送信し、音声をテキスト化する。テキストデータには、録画開始から何分後に話したか、というデータも含まれる。
なお、リアルタイムのテキスト化の場合、ミーティングデバイス60が情報処理システム50に直接音声を送信する。ミーティングデバイス60はテキストデータをリアルタイムに情報記録アプリ41に送信する。
(7) 情報処理システム50は、結合画像動画を格納したストレージサービスシステム70に、テキストデータを追加で格納する。テキストデータは記録情報の一部を構成する。
なお、情報処理システム50は、ユーザーに対し利用したサービスに応じた課金処理を実行できる。例えば、課金はテキストデータ量、結合画像動画のファイルサイズ、処理時間などに基づいて算出される。
このように、結合画像動画には、ユーザーを含む周囲のパノラマ画像や話者画像が表示され、更に、遠隔会議アプリ42など、遠隔会議中に表示されたアプリの画面が表示される。遠隔会議の参加者や参加者でない者が、結合画像動画を議事録として閲覧した場合、遠隔会議中の様子が臨場感と共に再現される。
<パノラマ画像の生成例>
次に、図2を参照して本実施形態におけるパノラマ画像の生成方法を説明する。図2は、生成されたパノラマ画像203の一例を示す。図2では1つのパノラマ画像203(第一の画像の一例)と2つの話者画像204(第二の画像の一例)が一画面に配置して表示されている。話者画像204の数は一例であり、話者画像204がなくてもよいし、3以上でもよい。
図2(a)は、複数の参加者120が全員、座った状態のパノラマ画像を示す。この時のパノラマ画像203の高さがL1、話者画像204の高さがL2である。
次に、図2(b)は、複数の参加者120が立ち上がった場合のパノラマ画像203と話者画像204を示す。ミーティングデバイス60は、全ての参加者120の顔が含まれるように、パノラマ画像203の高さを大きくする。例えば、ミーティングデバイス60は、各参加者120の顔を検出して、少なくとも全ての顔が含まれるように高さを決定する。図2(b)のパノラマ画像203の高さをM1、話者画像204の高さをM2とする。したがって、L1,L2,M1,M2には以下の関係がある。
L1<M1 、L2>M2
次に、図2(c)は、電子黒板2が含まれるように作成されたパノラマ画像203と話者画像204を示す。ミーティングデバイス60は、後述するいくつかの方法で電子黒板2を検出して、全ての参加者120の顔と電子黒板2が含まれるように、パノラマ画像203の高さを大きくする。例えば、ミーティングデバイス60は、各参加者120の顔と電子黒板2を検出して、全ての顔と電子黒板2が含まれるように高さを決定する。図2(c)のパノラマ画像203の高さをN1、話者画像204の高さをN2とする。したがって、L1,L2,N1,N2には以下の関係がある。
L1<N1 、L2>N2
なお、図2(b)(c)のいずれの場合も、複数の参加者120が座った場合や電子黒板2が検出されなくなった場合、ミーティングデバイス60は、パノラマ画像203の高さを再度、調整する(この場合は小さくする)。
このように、本実施形態のミーティングデバイス60は、予め設定されている複数の対象物(参加者の顔や電子黒板2などの機器)を検知して、その対象物が入るようにパノラマ画像の高さを決定するので、パノラマ画像203に対象物を表示することができる。ミーティングデバイス60は、画像に含めるべき対象物が複数ある場合、適切な対象物を表示できる。
<用語について>
アプリケーション(アプリ)とは、ある特定の機能や目的のために開発・使用されるソフトウェアである。アプリケーションにはネイティブアプリとWebアプリがある。またWebアプリ(クラウドサービスで提供するクラウド側のアプリ)と、ネイティブアプリやWebブラウザとが連携して動作するものであってもよい。
実行中のアプリとは、アプリが起動されてから終了されるまでの間の状態のアプリをいう。アプリはアクティブ(最も手前にあるアプリ)でなくてもよく、バックグラウンドで動作していればよい。
ミーティングデバイスが取得した周囲の画像は、全天球画像であり、全天球画像から水平方向に通常の画角より広い画角で撮像されたパノラマ画像が生成される。全天球画像とは、上下方向と水平方向のほぼ360°に渡って周囲が撮像された広角画像をいう。必ずしも360°である必要はなく、ミーティングデバイス60のおおよその全範囲が撮像されていればよい。全天球画像は、全周囲画像、360°画像などと呼ばれる場合がある。ミーティングデバイス60は1台で全天球画像を撮像しなくてもよく、通常の画角の撮像装置が複数個、組み合わされていてもよい。また、全天球画像でなく、半球画像(水平方向に約360°、上下方向に約90°の画角の画像)でもよい。
パノラマ画像は、全天球画像から水平方向のほぼ360°に渡って周囲が撮像された画像をいう。必ずしも360°である必要はなく、180°程度の広角な画像でもよい。
記録情報とは、情報記録アプリ41が記録する情報であり、ある1つの会議(ミーティング)の識別情報に紐づく情報として閲覧可能に記憶・保存された情報であって、例えば以下の情報を含む情報である。
・選択したアプリ(遠隔会議アプリなど)が表示する画面情報と、デバイスが取得したデバイスの周囲の画像情報、などに基づいて作成する動画情報。
・会議(ミーティング)中に、遠隔会議アプリ(端末装置)と、拠点のミーティングデバイスとで取得し合成した音声情報。
・取得した音声をテキスト化したテキスト情報。
・その他、会議(ミーティング)に関連する関連情報であるデータや画像。例えば会議中に用いた資料ファイル、追加したメモ、テキスト化データの翻訳データ、会議中にクラウド電子黒板サービスで作成した画像やストロークデータなど。
等である。情報記録アプリ41が遠隔会議アプリの画面や、拠点の会議の様子を録画した場合、記録情報が、実施した会議の議事録となる場合がある。議事録は記録情報の例であり遠隔会議や拠点側で行った内容に応じて記録情報の呼び方が変わり、例えばコミュニケーションの記録、拠点状況の記録などと言ってもよい。また記録情報は、例えば、動画ファイル(結合画像動画等)、音声ファイル、テキストデータ(音声が音声認識されたテキストデータ)、文書ファイル、画像ファイル、表形式ファイルなど、複数の形式のファイルを含み、ファイルは会議の識別情報に対して互いに関連づいているため、閲覧時にまとめて、あるいは選択的に、時系列で閲覧可能となっている。
テナントとは、サービスの提供者からサービスを受けることを契約したユーザーのグループ(企業や自治体、これらの一部の組織等)である。本実施形態の記録情報の作成やテキストデータへの変換は、テナントがサービス提供元と契約しているために実行される。
遠隔コミュニケーションとは、物理的に離れた拠点にいる相手と、ソフトウェアや端末装置を活用することによって音声や映像を通じたコミュニケーションを取ることをいう。遠隔コミュニケーションの一例に遠隔会議があり、会議は、会合、ミーティング、打ち合わせ、相談、契約等の申し込み、集会、寄り合い、集まり、セミナー、講習会、勉強会、ゼミ、研修会等と呼ばれてもよい。
拠点とは、活動のよりどころとする場所をいう。拠点の例として会議室がある。会議室は、主に会議に使用することを目的に設置された部屋のことである。拠点はこのほか自宅や、受付や店舗、倉庫や屋外の現場など様々な場所であってもよく、端末装置やデバイス等を設置できる箇所のある場所や空間であればよい。
音声とは人間が発する言語音や周囲の音等であり、音声データは音声をデータ化したものであるが、本実施形態では、厳密に区別せずに説明する。
予め設定されている複数の対象物は、パノラマ画像において表示したい対象物であり、本実施形態では、参加者の顔(人の顔)や電子黒板2が相当する。電子黒板2は、電子ホワイトボード、電子情報ボード、などと呼ばれてよい。電子黒板2と同等の装置としてプロジェクタが知られている。この他、対象物は、デジタルサイネージ、テレビ、ディスプレイ、複合機、テレビ会議端末などの電子機器でもよい。また、ユーザーがパノラマ画像において表示したい対象物を設定可能でもよい。この場合、予めミーティングデバイス又は端末装置が物の形状を学習済みであり、ユーザーが選択した物をパノラマ画像から検出する。対象物は複数種類同時に存在してもよい。ミーティングデバイス60等は例えば人の顔と電子機器を同時に対象物として認識してもよい。
画像の領域は、画像の高さや幅であり、ピクセル数、画素数、長さ等により指定される。
<システム構成例>
続いて、図3を参照して、記録情報作成システム100のシステム構成を説明する。図3は、記録情報作成システム100の構成例を示す。図3では、遠隔会議を行う複数の拠点のうち1つの拠点(自拠点102)を示し、自拠点102における端末装置10がネットワークを介して情報処理システム50と、ストレージサービスシステム70と、遠隔会議サービスシステム90と、通信する。自拠点102には更に、ミーティングデバイス60と電子黒板2が配置され、端末装置10はこのミーティングデバイス60とUSBケーブル、HDMI(登録商標)ケーブル等を介して通信可能に接続されている。端末装置10がLANを介してミーティングデバイス60と通信してもよい。ミーティングデバイス60と、端末装置(又は情報記録アプリ41)は、機器システムとして動作する。
端末装置10では、少なくとも情報記録アプリ41と遠隔会議アプリ42とが動作する。遠隔会議アプリ42は、他の拠点101の端末装置10とネットワーク上の遠隔会議サービスシステム90を介して通信することができ、各拠点のユーザー同士が遠隔地から会議できるようになっている。情報記録アプリ41は、遠隔会議アプリ42が実施する遠隔会議における記録情報を、情報処理システム50及びミーティングデバイス60の機能を使って作成する。
なお、本実施形態では、遠隔会議中の記録情報を作成する例を説明するが、会議は、遠隔の拠点と通信する会議でなくてもよい。つまり、会議は1拠点内の参加者のみが参加する会議でもよい。この場合、ミーティングデバイス60が集音した音声のみが合成なしに保存される他、情報記録アプリ41の処理に変更はない。
端末装置10には通常の画角のカメラが内蔵されており(外付けでもよい)、端末装置10を操作するユーザー107を含む正面の画像を撮像している。通常の画角とは、パノラマ画像でない画像であるが、本実施形態では、通常の画角は、主に全天球画像のように曲面でない平面画像である。また、端末装置10にはマイクが内蔵されており(外付けでもよい)、端末装置10を操作するユーザー等の周囲の音声を集音している。したがって、ユーザーは、情報記録アプリ41を意識することなく、遠隔会議アプリ42を使用した従来の遠隔会議が可能である。情報記録アプリ41やミーティングデバイス60は、端末装置10の処理負荷増を除けば遠隔会議アプリ42に影響を与えない。
情報記録アプリ41はミーティングデバイス60と通信して記録情報を作成することで情報を記録するアプリである。ミーティングデバイス60は、パノラマ画像の撮像装置、マイク、及び、スピーカを備えたミーティング用のデバイスである。端末装置10が有するカメラは正面の限られた範囲しか撮像できないが、ミーティングデバイス60はミーティングデバイス60を囲む全周囲(必ずしも全周囲でなくてもよい)を撮像できる。ミーティングデバイス60は図3に示す複数の参加者120を常に画角に収めることができる。
この他、ミーティングデバイス60は、パノラマ画像からの話者画像の切り出し、ミーティングデバイス60が取得した音声と端末装置10が出力する音声(遠隔会議アプリ42が受信した音声を含む)との合成等を行う。なお、ミーティングデバイス60は、机や台などの設置場所の上に限らず自拠点102のどこに配置されてもよい。ミーティングデバイス60は全天球画像を撮像できるので、例えば天井に配置されてもよい。またミーティングデバイス60は他拠点側やいずれの拠点に設置されてもよい。
情報記録アプリ41は、端末装置10で実行中のアプリの一覧表示、上記した記録情報のための画像合成(結合画像動画の作成)、結合画像動画の再生、編集の受け付け等を行う。また、情報記録アプリ41は、実施された又はこれらか実施される予定の遠隔会議のリスト表示、等を行う。遠隔会議のリストは、記録情報に関する情報に使用され、ユーザーが遠隔会議と記録情報とを結びつけることができる。
遠隔会議アプリ42は、他の拠点101の他の端末装置との通信接続、画像及び音声の送受信、画像の表示や音声の出力等により、端末装置が他の端末装置と遠隔コミュニケーションを行うアプリケーションである。遠隔会議アプリは、遠隔コミュニケーションアプリ、遠隔情報共通アプリなどと言うこともできる。
なお、情報記録アプリ41及び遠隔会議アプリ42はWebアプリでもネイティブアプリでもよい。Webアプリとは、Webサーバー上のプログラムとWebブラウザ上のプログラムやネイティブアプリが協働して処理を行うアプリであり、端末装置10へのインストールが不要なアプリである。ネイティブアプリとは、端末装置10にインストールして利用されるアプリである。本実施形態では、両者ともネイティブアプリであるとして説明する。
端末装置10は、例えば、PC(Personal Computer)、スマートフォン、タブレット端末等、通信機能を備えた汎用的な情報処理装置でよい。端末装置10は、この他、電子黒板2、ゲーム機、PDA(Personal Digital Assistant)、ウェアラブルPC、カーナビ、産業機械、医療機器、ネットワーク家電等でもよい。端末装置10は情報記録アプリ41と遠隔会議アプリ42が少なくとも動作する装置であればよい。端末装置10は情報記録アプリ41と遠隔会議アプリ42が動作する装置であればよい。
電子黒板2は、ペンや指等の入力手段でタッチパネルに手書きされたデータをディスプレイに表示する。電子黒板2は、有線又は無線で端末装置10等と通信することができ、端末装置10が表示する画面を取り込んでディスプレイに表示することができる。電子黒板2は、手書きデータをテキストデータに変換したり、他の拠点の電子黒板2とディスプレイに表示される情報を共有したりすることができる。電子黒板2は、タッチパネルを有さない単なる白板(黒板やスクリーン)にプロジェクタが映像を投影する形態のものでもよい。また、電子黒板2は、タッチパネルを備えたタブレット端末、ノートPC(Personal Computer)、PDA(Personal Digital Assistant)、ゲーム機等でもよい。
電子黒板2は、情報処理システム50と通信することができる。例えば、電源オンされた後、電子黒板2が、情報処理システム50にポーリングするなどして、情報処理システム50から情報を受信できる。
情報処理システム50は、ネットワーク上に配置された一台以上の情報処理装置である。情報処理システム50は、情報記録アプリ41と協働して処理を行う1つ以上のサーバーアプリと、基盤サービスを有している。このサーバーアプリは、遠隔会議のリストの管理、遠隔会議で記録された記録情報の管理、各種設定やストレージパスの管理等を行う。基盤サービスは、ユーザー認証や契約、課金処理等を行う。
なお、情報処理システム50の機能の全て又は一部は、クラウド環境に存在してもよいし、オンプレミス環境に存在してもよい。情報処理システム50は複数台のサーバー装置により構成されてもよいし、一台の情報処理装置により構成されてもよい。例えば、サーバーアプリと基盤サービスが別々の情報処理装置より提供されてよいし、更にサーバーアプリ内の機能ごとに情報処理装置が存在してもよい。情報処理システム50と次述するストレージサービスシステム70、音声認識サービスシステム80が一体でもよい。
ストレージサービスシステム70は、ネットワーク上の記憶手段であり、ファイル等の保存を受け付けるストレージサービスを提供する。ストレージサービスシステム70としてはOne Drive(登録商標)、Google Workspace(登録商標)、DropBox(登録商標)等が知られている。ストレージサービスシステム70は、オンプレミスのNAS(Network Attached Storage)等でもよい。
音声認識サービスシステム80は、音声データに音声認識を行いテキストデータに変換するサービスを提供する。音声認識サービスシステム80は、汎用的な商用サービスでもよいし、情報処理システム50の機能の一部でもよい。また音声認識サービスシステム80はユーザーやテナント毎、会議毎に異なるサービスシステムを設定して用いてもよい。
<ハードウェア構成例>
図4を参照して、本実施形態に係る情報処理システム50及び端末装置10のハードウェア構成について説明する。
<<情報処理システム及び端末装置>>
図4は、本実施形態に係る情報処理システム50及び端末装置10の一例のハードウェア構成を示す図である。図4に示されているように、情報処理システム50及び端末装置10はコンピュータによって構築されており、CPU501、ROM502、RAM503、HD(Hard Disk)504、HDD(Hard Disk Drive)コントローラ505、ディスプレイ506、外部機器接続I/F(Interface)508、ネットワークI/F509、バスライン510、キーボード511、ポインティングデバイス512、光学ドライブ514、メディアI/F516を備えている。
これらのうち、CPU501は、情報処理システム50及び端末装置10全体の動作を制御する。ROM502は、IPL等のCPU501の駆動に用いられるプログラムを記憶する。RAM503は、CPU501のワークエリアとして使用される。HD504は、プログラム等の各種データを記憶する。HDDコントローラ505は、CPU501の制御にしたがってHD504に対する各種データの読み出し又は書き込みを制御する。ディスプレイ506は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。外部機器接続I/F508は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリやプリンタ等である。ネットワークI/F509は、ネットワークを利用してデータ通信をするためのインターフェースである。バスライン510は、図4に示されているCPU501等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
また、キーボード511は、文字、数値、又は各種指示などの入力に使用される複数のキーを備えた入力手段の一種である。ポインティングデバイス512は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。光学ドライブ514は、着脱可能な記録媒体の一例としての光記憶媒体513に対する各種データの読み出し又は書き込みを制御する。なお、光記憶媒体513は、CD,DVD、Blu-ray(登録商標)等でよい。メディアI/F516は、フラッシュメモリ等の記録メディア515に対するデータの読み出し又は書き込み(記憶)を制御する。
<<ミーティングデバイス>>
図5を用いて、ミーティングデバイス60のハードウェア構成を説明する。図5は、360°の動画を撮像可能なミーティングデバイス60のハードウェア構成図の一例である。以下では、ミーティングデバイス60は撮像素子を使用した、デバイスの周囲360°の動画を所定の高さで撮像する装置とするが、撮像素子は1つでも2つ以上のいくつでもよい。また、必ずしも専用装置である必要はなくPCやデジタルカメラ、スマートフォン等に後付けの360°動画の撮像ユニットを取り付けることで、実質的に同じ機能を有するようにしてもよい。
図5に示されているように、ミーティングデバイス60は、撮像ユニット601、画像処理ユニット604、撮像制御ユニット605、マイク608、音処理ユニット609、CPU(Central Processing Unit)611、ROM(Read Only Memory)612、SRAM(Static Random Access Memory)613、DRAM(Dynamic Random Access Memory)614、操作部615、外部機器接続I/F616、通信部617、アンテナ617a、音声センサー618、及びMicro USB用の凹状の端子621によって構成されている。
このうち、撮像ユニット601は、半球画像を結像するための360°の画角を有する広角レンズ(いわゆる魚眼レンズ)602と、各広角レンズに対応させて設けられている撮像素子603(イメージセンサー)を備えている。撮像素子603は、魚眼レンズ602による光学像を電気信号の画像データに変換して出力するCMOS(Complementary Metal Oxide Semiconductor)センサーやCCD(Charge Coupled Device)センサーなどの画像センサー、この画像センサーの水平又は垂直同期信号や画素クロックなどを生成するタイミング生成回路、この撮像素子の動作に必要な種々のコマンドやパラメータなどが設定されるレジスタ群などを有している。なお撮像ユニット601は360°カメラであってもよく、ミーティングデバイス60の周囲360°を撮像可能な撮像手段の例である。
撮像ユニット601の撮像素子603(イメージセンサー)は、各々、画像処理ユニット604とパラレルI/Fバスで接続されている。一方、撮像ユニット601の撮像素子603は、撮像制御ユニット605とは、シリアルI/Fバス(I2Cバス等)で接続されている。画像処理ユニット604、撮像制御ユニット605及び音処理ユニット609は、バス610を介してCPU611と接続される。更に、バス610には、ROM612、SRAM613、DRAM614、操作部615、外部機器接続I/F616、通信部617、及び音声センサー618なども接続される。
画像処理ユニット604は、撮像素子603から出力される画像データをパラレルI/Fバスを通して取り込み、それぞれの画像データに対して所定の処理を施して、魚眼映像からパノラマ画像や話者画像のデータを作成する。更に、画像処理ユニット604は、パノラマ画像と話者画像等を合成処理して、1つの動画を出力する。
撮像制御ユニット605は、一般に撮像制御ユニット605をマスタデバイス、撮像素子603をスレーブデバイスとして、I2Cバスを利用して、撮像素子603のレジスタ群にコマンド等を設定する。必要なコマンド等は、CPU611から受け取る。また、撮像制御ユニット605は、同じくI2Cバスを利用して、撮像素子603のレジスタ群のステータスデータ等を取り込み、CPU611に送る。
また、撮像制御ユニット605は、操作部615の撮像開始ボタンが押下されたタイミングあるいはPCから撮像開始指示を受信したタイミングで、撮像素子603a,603bに画像データの出力を指示する。ミーティングデバイス60によっては、ディスプレイ(例えば、PCやスマートフォンのディスプレイ)によるプレビュー表示機能や動画表示に対応する機能を持つ場合もある。この場合は、撮像素子603からの画像データの出力は、所定のフレームレート(フレーム/分)によって連続して行われる。
また、撮像制御ユニット605は、後述するように、CPU611と協働して撮像素子603の画像データの出力タイミングの同期をとる同期制御手段としても機能する。なお、本実施形態では、ミーティングデバイス60にはディスプレイが設けられていないが、表示部を設けてもよい。
マイク608は、音を音(信号)データに変換する。音処理ユニット609は、マイク608から出力される音声データをI/Fバスを通して取り込み、音声データに対して所定の処理を施す。
CPU611は、ミーティングデバイス60の全体の動作を制御すると共に必要な処理を実行する。ROM612は、CPU611のための種々のプログラムを記憶している。SRAM613及びDRAM614はワークメモリであり、CPU611で実行するプログラムや処理途中のデータ等を記憶する。特にDRAM614は、画像処理ユニット604での処理途中の画像データや処理済みの正距円筒射影画像のデータを記憶する。
操作部615は、撮像開始ボタン615aなどの操作ボタンの総称である。ユーザーは操作部615を操作することで、撮像や録画を開始する他、電源ON/OFFの実行、通信接続の実行、種々の撮像モードや撮像条件などの設定を入力する。
外部機器接続I/F616は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、PC(Personal Computer)、ディスプレイ、プロジェクタ、電子黒板等である。外部機器接続I/F616は例えばUSB端子、HDMI(登録商標)端子等を備えていてもよい。DRAM614に記憶された動画データや画像データは、この外部機器接続I/F616を介して外部端末に送信されたり、外付けのメディアに記録されたりする。また、複数の外部機器接続I/F616を用い、例えば、ミーティングデバイス60で撮像し取得した画像情報をPCへUSBを介して送信して記録しながら、PCからミーティングデバイス60へ映像(例えば遠隔会議アプリで表示する画面情報など)を取得し、更にミーティングデバイス60からHDMIで他の外部機器(ディスプレイ、プロジェクタ、電子黒板等)へ送信して表示してもよい。
通信部617は、ミーティングデバイス60に設けられたアンテナ617aを介して、Wi-Fi等の無線通信技術によって、インターネット経由でクラウドサーバと通信し、記憶した動画データや画像データをクラウドサーバに送信してもよい。また、通信部617は、BLE(Bluetooth Low Energy。登録商標)やNFC等の近距離無線通信技術を用いて付近のデバイスと通信してもよい。
音声センサー618は、ミーティングデバイス60の周辺(水平面)の360°においてどの方向から音声が大きい音で入力されたかを特定するために、360°の音声情報を取得するセンサーである。音処理ユニット609は入力した360°の音声パラメータに基づき、最も強い方向を特定して360°における音声入力方向を出力する。
なお、他のセンサー(方位・加速度センサーやGPS等)が方位・位置・角度・加速度等を算出し、画像補正や位置情報付加に用いてもよい。
また画像処理ユニット604は、以下の処理を行う。
・CPU611は、パノラマ画像の作成を次の方法で行う。CPU611は、球面映像を入力するイメージセンサーから入力されたRAWデータをBayer変換(RGB補完処理)等の所定のカメラ映像処理を行って魚眼映像(曲面の画像からなる映像)を作成する。更に作成した魚眼映像(曲面の映像)に対してDeWarp処理(歪み補正処理)等の平面化処理を行い、ミーティングデバイス60の周辺の360°が写ったパノラマ画像(平面の画像からなる映像)を作成する。
・CPU611は話者画像の作成を次の方法で行う。CPU611は周辺の360°が写ったパノラマ画像(平面の映像)から、話者を切り出した話者画像を作成する。CPU611は、音声センサー618及び音処理ユニット609を用いて出力した360°から特定した音声入力方向を、話者の方向として、上記パノラマ画像から話者画像を切り出す。このとき音声入力方向から人の画像を切り出す方法は、360°から特定した音声方向を中心に30°を切り取って、その中で顔検出を実施して切り出す。CPU611は、更に切り出した話者画像のうち、直近で発言のあった特定人数分(3名等)の話者画像を特定する。
パノラマ画像と、1以上の話者画像は個別に情報記録アプリ41に送信されてもよいし、ミーティングデバイス60がこれらから1枚の画像を作成して、情報記録アプリ41に送信してもよい。本実施形態では、パノラマ画像と1以上の話者画像は個別にミーティングデバイス60から情報記録アプリ41に送信されるものとする。
図6は、ミーティングデバイス60の撮像範囲を説明する図である。図6(a)に示すように、ミーティングデバイス60は水平方向に360°の範囲を撮像する。図6(b)に示すように、ミーティングデバイス60は、ミーティングデバイス60の高さに水平な方向を0°とし、上下に所定の角度(a°~b°)を撮像範囲とする。本実施形態では、上下に所定の角度(a°~b°)が可変である。
図7は、パノラマ画像と話者画像の切り出しを説明する図である。図7に示すように、ミーティングデバイス60が撮像する画像は球体の一部110をなすため、三次元の形状を有している。ミーティングデバイス60は、図6(b)で示したように、上下の所定角度と左右の所定角度ごとに画角を区切って透視投影変換を行う。透視投影変換を水平方向360°の全体で隙間なく行うことで、所定数の平面画像が得られるので、所定数の平面画像を左右に連結することでパノラマ画像111が得られる。また、ミーティングデバイス60はパノラマ画像から音声方向を中心に所定の範囲で顔検出を実施して、顔の中心から左右に15°(全体で30°)を切り出すことで、話者画像112を作成する。
<<電子黒板>>
図8は、電子黒板2のハードウェア構成図である。図8に示されているように、電子黒板2は、CPU(Central Processing Unit)401、ROM(Read Only Memory)402、RAM(Random Access Memory)403、SSD(Solid State Drive)404、ネットワークI/F405、及び、外部機器接続I/F(Interface)406を備えている。
これらのうち、CPU401は、電子黒板2全体の動作を制御する。ROM402は、CPU401やIPL(Initial Program Loader)等のCPU401の駆動に用いられるプログラムを記憶する。RAM403は、CPU401のワークエリアとして使用される。SSD404は、電子黒板2用のプログラム等の各種データを記憶する。ネットワークI/F405は、通信ネットワークとの通信を制御する。外部機器接続I/F406は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリ430、外付け機器(マイク440、スピーカ450、カメラ460)である。
また、電子黒板2は、キャプチャデバイス411、GPU412、ディスプレイコントローラ413、接触センサー414、センサコントローラ415、電子ペンコントローラ416、近距離通信回路419、及び近距離通信回路419のアンテナ419a、電源スイッチ422及び選択スイッチ類423を備えている。
これらのうち、キャプチャデバイス411は、外付けのPC(Personal Computer)470のディスプレイに対して映像情報を静止画又は動画として表示させる。GPU(Graphics Processing Unit)412は、グラフィクスを専門に扱う半導体チップである。ディスプレイコントローラ413は、GPU412からの出力画像をディスプレイ480等へ出力するために画面表示の制御及び管理を行う。接触センサー414は、ディスプレイ480上に電子ペン490やユーザーの手491等が接触したことを検知する。センサコントローラ415は、接触センサー414の処理を制御する。接触センサー414は、赤外線遮断方式による座標の入力及び座標の検出を行う。この座標の入力及び座標の検出する方法について説明する。ディスプレイ480の上側両端部に設置された2つ受発光装置が、ディスプレイ480に平行して複数の赤外線を放射する。2つ受発光装置が、ディスプレイ480の周囲に設けられた反射部材によって反射されて、受光素子が放射した光の光路と同一の光路上を戻って来る光を受光する。
接触センサー414は、物体によって遮断された2つの受発光装置が放射した赤外線のIDをセンサコントローラ415に出力し、センサコントローラ415が、物体の接触位置である座標位置を特定する。電子ペンコントローラ416は、電子ペン490と通信することで、ディスプレイ480へのペン先のタッチやペン尻のタッチの有無を判断する。近距離通信回路419は、NFC(Near Field Communication)やBluetooth(登録商標)等の通信回路である。電源スイッチ422は、電子黒板2の電源のON/OFFを切り換えるためのスイッチである。選択スイッチ類423は、例えば、ディスプレイ480の表示の明暗や色合い等を調整するためのスイッチ群である。
更に、電子黒板2は、バスライン410を備えている。バスライン410は、図8に示されているCPU401等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
なお、接触センサー414は、赤外線遮断方式に限らず、静電容量の変化を検知することにより接触位置を特定する静電容量方式のタッチパネルでもよい。接触センサー414は、対向する2つの抵抗膜の電圧変化によって接触位置を特定する抵抗膜方式のタッチパネルでもよい。接触センサー414は、接触物体が表示部に接触することによって生じる電磁誘導を検知して接触位置を特定する電磁誘導方式のタッチパネルでもよい。接触センサー414は、この他、種々の検出手段を用いてよい。また、電子ペンコントローラ416が、電子ペン490のペン先及びペン尻だけでなく、電子ペン490のユーザーが握る部分や、その他の電子ペンの部分のタッチの有無を判断するようにしてもよい。
<機能について>
次に、図9を参照して、記録情報作成システム100が有する機能構成について説明する。図9は、記録情報作成システム100における端末装置10、ミーティングデバイス60、及び、情報処理システム50の機能をブロックに分けて説明する機能ブロック図の一例である。
<<端末装置>>
端末装置10で動作する情報記録アプリ41は、通信部11、操作受付部12、表示制御部13、アプリ画面取得部14、音声取得部15、デバイス通信部16、録画制御部17、音声データ処理部18、録画再生部19、アップロード部20、編集処理部21、を有している。端末装置10が有するこれら各部は、図4に示されている各構成要素のいずれかが、HD504からRAM503に展開された情報記録アプリ41に従ったCPU501からの命令によって動作することで実現される機能、又は機能する手段である。また、端末装置10は、図4に示されているHD504等によって構築される記憶部1000を有している。記憶部1000には情報記憶部1001が構築されている。
通信部11は、ネットワークを介して情報処理システム50と各種の情報を通信する。通信部11は、例えば、遠隔会議のリストを情報処理システム50から受信したり、音声データの認識要求を情報処理システム50に送信したりする。
表示制御部13は情報記録アプリ41に設定されている画面遷移にしたがって情報記録アプリ41においてユーザーインターフェースとなる各種の画面を表示する。操作受付部12は、情報記録アプリ41に対する各種の操作を受け付ける。
アプリ画面取得部14は、ユーザーが選択したアプリが表示する画面情報、又は、デスクトップ画面の画面情報などをOS(Operating System)等から取得する。ユーザーが選択したアプリが遠隔会議アプリ42の場合、遠隔会議アプリ42が生成する画面(各拠点の端末装置カメラによる端末装置ユーザーの撮像画像、共有している資料の表示画像、参加者アイコンや参加者名等を含む画像)が得られる。アプリが表示する画面情報(アプリ画面)は、実行中のアプリケーションがウィンドウとして表示し、情報記録アプリケーションが画像として取得する情報である。アプリケーションのウィンドウは、ウィンドウの領域をデスクトップイメージ全体における領域として描画されモニター等に表示される。アプリが表示する画面情報は、OS(Operating System)のAPIや表示するアプリのAPI等を介して、他のアプリケーション(情報記録アプリケーション等)が、画像ファイルや、連続した複数の画像から構成される動画ファイルとして取得可能である。また、デスクトップ画面の画面情報は、OSが生成するデスクトップ画面の画像から構成される情報であり、同様に画像ファイルや動画ファイルとして、OSのAPIを介して取得可能である。これらの画像ファイルの形式はビットマップ、PNG、その他の形式であってもよい。また動画ファイルの形式はMP4、その他の形式でもよい。
音声取得部15は、端末装置10がマイクやイヤホンから出力する音声(遠隔会議アプリ42から遠隔会議において受信された音声データを含む)を取得する。出力音声がミュート状態でも、音声取得部15は音声を取得できる。音声データに関してユーザーは遠隔会議アプリ42を選択するなどの操作は必要なく、音声取得部15は、端末装置10が出力できる音声を、OSやアプリのAPI(Application Interface)を介して取得できる。これにより、遠隔会議アプリ42が他の拠点101から受信する音声データも取得される。遠隔会議アプリ42が実行中でなかったり、遠隔会議中でなかったりする場合、情報記録アプリ41は音声データを取得できない場合がある。なお、音声取得部15が取得する音声は、端末装置10が集音する音声は含まれず、出力する音声データのみとしてもよい。ミーティングデバイス60が別に、拠点の音声を集音しているためである。
デバイス通信部16は、USBケーブルやHDMI(登録商標)ケーブルなどを利用してミーティングデバイス60と通信する。デバイス通信部16は、無線LANやBluetooth(登録商標)等でミーティングデバイス60と通信してよい。デバイス通信部16は、パノラマ画像203と話者画像204をミーティングデバイス60から受信し、音声取得部15が取得した音声データをミーティングデバイス60に送信する。デバイス通信部16は、ミーティングデバイス60で合成された音声データを受信する。
録画制御部17は、デバイス通信部16が受信したパノラマ画像と話者画像、及び、アプリ画面取得部14が取得したアプリの画面を結合し、結合画像を作成する。また、録画制御部17は繰り返し作成する結合画像を時系列に接続して結合画像動画を作成し、合成された音声データを結合画像動画に結合して音声付きの結合画像動画を作成する。なお、パノラマ画像と話者画像の結合は、ミーティングデバイス60が行ってもよい。また、パノラマ画像、話者画像、アプリ画面、パノラマ画像と話者画像からなる画像などの各画像からなる動画を、それぞれ別個の動画ファイルとしてストレージサービスシステム70に記憶してもよい。その場合、パノラマ動画、話者動画、アプリ画面の動画、パノラマ画像と話者画像の結合動画を、閲覧時に呼び出して1つの表示画面で表示してもよい。
音声データ処理部18は、結合画像動画に結合された音声データを抽出するか、又は、ミーティングデバイス60から受信した合成後の音声データの、テキストデータへの変換を情報処理システム50に要求する。
録画再生部19は、結合画像動画の再生を行う。結合画像動画は、録画中は端末装置10に保存され、その後、情報処理システム50にアップロードされる。
アップロード部20は、遠隔会議が終了すると、結合画像動画を情報処理システム50に送信する。
編集処理部21は、ユーザーの操作に応じて、結合画像動画の編集(一部の削除、つなぎ合わせ等)を実行する。
図10は、情報記憶部1001が記憶している動画記録情報を示す。動画記録情報は、会議ID、録画ID、更新日時、タイトル、アップロード、保存先等の各項目を有している。ユーザーが情報処理システム50にログインすると、情報記録アプリ41は情報処理システム50の会議情報記憶部5001から会議情報をダウンロードする。会議情報に含まれる会議IDなどが動画記録情報に反映される。図10の動画記録情報は、あるユーザーが操作する端末装置10が保持するものである。
・会議IDは、開催された遠隔会議を識別する識別情報である。会議IDは、会議管理システム9に遠隔会議の予定が登録された際に採番されるか、又は、情報記録アプリ41からの要求で情報処理システム50が採番する。なお会議管理システム9は、会議及び遠隔会議の予定や、遠隔会議を開始するURL(会議リンク)、会議で利用する機器の予約情報などを登録するためのシステムであり、端末装置10からネットワークを介して接続するスケジューラ等である。また会議管理システム9は登録した予定等を情報処理システム50に送信することが可能である。
・録画IDは、遠隔会議において録画された結合画像動画を識別する識別情報である。録画IDはミーティングデバイス60が採番するが、情報記録アプリ41や情報処理システム50が採番してもよい。同じ会議IDに異なる録画IDが付与されるのは、遠隔会議の途中で録画が終了したが、何らかの理由で再開した場合を示す。
・更新日時は、結合画像動画が更新された(録画が終了した)日時である。結合画像動画が編集された場合、編集された日時である。
・タイトルは、会議の会議名である。会議管理システム9への会議の登録時に設定されてもよいし、ユーザーが任意に設定してもよい。
・アップロードは、結合画像動画が情報処理システム50にアップロードされたか否かを示す。
・保存先は、ストレージサービスシステム70において、結合画像動画とテキストデータが保存されている場所(URLやファイルパス)を示す。したがって、ユーザーはアップロードされた結合画像動画を任意に閲覧できる。なお、結合画像動画とテキストデータは、例えばURLに続いて別々のファイル名で保存される。
<<ミーティングデバイス>>
図9に戻って説明する。ミーティングデバイス60は、端末通信部61、第一画像生成部62、第二画像生成部63、集音部64、音声合成部65、参加者検知部66、音声方向検知部67、コード解析部68、及び機器認識部69、を有している。ミーティングデバイス60が有するこれら各部は、図5に示されている各構成要素のいずれかが、ROM612からDRAM614に展開されたプログラムに従ったCPU611からの命令によって動作することで実現される機能、又は機能する手段である。
端末通信部61は、USBケーブルやHDMI(登録商標)ケーブルなどを利用して端末装置10と通信する。端末通信部61は、有線ケーブルで接続されるだけでなく、無線LANやBluetooth(登録商標)等で端末装置10と通信可能であればよい。
第一画像生成部62はパノラマ画像203を作成する。第二画像生成部63は話者画像204を作成する。これらの作成方法は図6、図7にて説明した。詳細は後述される。第一画像生成部62及び/又は第二画像生成部63は情報記録アプリ41が有していてもよい。
集音部64は、ミーティングデバイス60が有するマイクが取得する音声信号を音声データ(デジタル)に変換する。これにより、端末装置10側の拠点でユーザーや参加者が発言した内容が集音される。
音声合成部65は、端末装置10から送信された音声と集音部64が集音した音声を合成する。これにより、他の拠点101で発言された音声と、自拠点102の発言がまとめられる。
参加者検知部66は、全天球画像から参加者を検知する。参加者検知部66は、例えば、ディープラニングやサポートベクターなどの機械学習の手法を利用して顔認識を行い、参加者を検知する。参加者検知部66は、人間の顔を検知すればよいが、身体まで含めて検知してもよい。
音声方向検知部67は、特定の周波数の音声の検出により、パノラマ画像における電子黒板2の方向を検知する。
コード解析部68は、パノラマ画像に含まれる二次元コードやバーコードを検出すると共に、二次元コードやバーコードを解析して電子黒板2の機器識別情報等、二次元コードやバーコードに含まれる情報を取得する。なお、コード解析は端末装置10が行ってもよい。
機器認識部69は、機械学習で電子黒板2の形状(外接矩形)を学習しておき、パノラマ画像から電子黒板2を検出する。機器認識部69は、機械学習を使用せずに、単にパターンマッチングで認識してもよい。この機器認識は端末装置10が行ってもよい。
<<情報処理システム>>
情報処理システム50は、通信部51、認証部52、画面生成部53、コミュニケーション管理部54、機器管理部55、及び、テキスト変換部56を有する。情報処理システム50が有するこれら各部は、図4に示されている各構成要素のいずれかが、HD504からRAM503に展開されたプログラムに従ったCPU501からの命令によって動作することで実現される機能、又は機能する手段である。また、情報処理システム50は、図4に示されているHD504等によって構築される記憶部5000を有している。記憶部5000には、会議情報記憶部5001、録画情報記憶部5002、対応付け情報記憶部5003、アカウント情報記憶部5004が構築される。
通信部51は、端末装置10と各種の情報を送受信する。通信部51は、例えば、遠隔会議のリストを端末装置10に送信したり、音声データの認識要求を端末装置10から受信したりする。
認証部52は、端末装置10を操作するユーザーを認証する。認証部52は、例えば、通信部51によって受信された認証要求に含まれている認証情報(ユーザーID及びパスワード)が予め保持する認証情報と一致するか否かにより、ユーザーを認証する。なお、認証情報は、ICカードのカード番号、顔や指紋などの生体認証情報等でもよい。また、認証部52は、外部の認証システムやOAUTHなどの認証方法で認証してもよい。
画面生成部53は端末装置10が表示する画面情報の生成を行う。端末装置10がネイティブアプリを実行する場合は、画面情報は端末装置10が保持しており、表示される情報がXML等で送信される。端末装置10がWebアプリを実行する場合は、画面情報は、HTML、XML、CSS(Cascade Style Sheet)、及びJavaScript(登録商標)等により作成される。
コミュニケーション管理部54は、各ユーザーのアカウント又は情報処理システム50に付与されたシステム用のアカウントで、遠隔会議に関する情報を会議管理システム9から取得する。コミュニケーション管理部54は、予約された会議の会議情報を会議IDと対応付けて会議情報記憶部に記憶させる。また、コミュニケーション管理部54は、テナントに所属するユーザーに閲覧権限がある会議情報を取得する。会議には会議IDが設定されているので、会議IDにより遠隔会議と記録情報が対応付けられる。
機器管理部55は、会議IDに電子黒板2とミーティングデバイス60の機器識別情報を対応付けて管理する。すなわち、機器管理部55は、同じ会議に参加した機器の対応付けを行う。1つの方法として、電子黒板2が表示又は音声出力する機器識別情報をミーティングデバイス60が取得し、端末装置10が情報処理システム50に送信する方法がある。
テキスト変換部56は、端末装置10からテキストデータへの変換を要求された音声データを外部の音声認識サービスを利用してテキストデータに変換する。テキスト変換部56自身が変換してもよい。
図11は、コミュニケーション管理部54が管理する、会議情報記憶部5001に記憶された会議情報の一例である。コミュニケーション管理部54は上記のアカウントを使ってテナントに所属する当該ユーザーが閲覧権限のある遠隔会議のリストを取得できる。なお閲覧権限は、端末装置10の情報記録アプリから直接、会議管理部54が管理する会議情報に対して付与されてもよい。またテナントに所属するユーザーに閲覧権限がある遠隔会議の情報には、ユーザーが作成した会議の情報と、ユーザーが他のユーザーによって閲覧権限を与えられた会議の情報とが含まれる。本実施形態では、遠隔会議を例にしているが、遠隔会議のリストには1つの会議室だけで開催される会議も含まれている。
会議情報は会議IDで管理され、開催者ID、タイトル(会議名)、開始日時、終了日時、電子黒板2、ミーティングデバイス60などと対応付けられている。これらは会議情報の一例であり、会議情報は、他にも情報を含みうる。
・開催者IDの項目は、会議の開催者(主催者)である。
・タイトルの項目は、会議名や海外の議題など、会議の内容を表す。
・開始日時の項目は、会議が開始される予定の日時である。
・終了日時の項目は、会議が終了する予定の日時である。
・電子黒板2の項目は、会議に対応付けられた電子黒板2の識別情報である。
・ミーティングデバイス60の項目は、会議で使用されたミーティングデバイス60の識別情報である。
図10,図11に示すように、会議IDにより会議で録画された結合画像動画が特定される。
録画情報記憶部5002に記憶されている録画情報は図10と同様でよい。ただし、情報処理システム50では、テナントに所属する全てのユーザーが録画した結合画像動画のリストを有する。保存先(クラウドストレージシステムのURL等のパス情報)は、ユーザーが所望の保存先情報を端末装置10の情報記録アプリ41のユーザー設定画面等で入力し、録画情報記憶部5002に記憶してもよい。
図12は、対応付け情報記憶部5003に記憶された、会議IDと機器識別情報(電子黒板2とミーティングデバイス60)とが対応付けられた対応付け情報を示す。情報記録アプリ41が機器識別情報を情報処理システム50に送信してから、録画を終了するまで対応付け情報が保持される。
図13は、アカウント情報記憶部5004に記憶されているアカウント情報の一例である。アカウント情報には人間だけでなく、人間以外のユーザーとして電子黒板2やミーティングデバイス60の情報も保持されている。
・ユーザーIDは、会議に参加しうるユーザー、電子黒板2及びミーティングデバイス60等の識別情報である。
・種別は、ユーザー、電子黒板2又はミーティングデバイス60の各アカウントの種別である。
・名称は、ユーザーの氏名や電子黒板2、ミーティングデバイス60の名称である。
・メールアドレスは、ユーザー、電子黒板2及びミーティングデバイス60等のメールアドレスである。
<<電子黒板>>
図14は、電子黒板2の機能をブロックに分けて説明する機能ブロック図である。電子黒板2は、接触位置検出部31、描画データ生成部32、データ記録部33、表示制御部34、コード生成部35、通信部36、音声データ生成部37、及び、操作検知部38を有する。電子黒板2が有する各機能は、図8に示されている各構成要素のいずれかが、SSD404からRAM403上に展開されたプログラムに従ったCPU401からの命令によって動作することで実現される機能又は手段である。
接触位置検出部31は接触センサー414に対し電子ペン490が接触した位置の座標を検出する。描画データ生成部32は電子ペン490のペン先が接触した座標を接触位置検出部31から取得する。描画データ生成部32はこの座標点列を補間することで接続してストロークデータを生成する。
表示制御部34は手書きデータ、手書きデータから変換された文字列、及び、ユーザーが操作するためのメニューなどをディスプレイに表示する。
データ記録部33は、電子黒板2に手書きされた手書きデータ、手書きデータが円や三角などに変換された図形、済などのスタンプ、PCの画面、ファイル等をオブジェクト情報記憶部3002に保存する。手書きデータ、文字列(図形も含む)、及び、PCの画面などの画像、ファイル等はオブジェクトして扱われる。手書きデータについては手書きの中断による時間的な区切り、手書き場所の違いによる距離的な区切りに応じて一まとまりのストロークデータが1つのオブジェクトとなる。
通信部36はWi-FiやLANに接続し、情報処理システム50と通信する。通信部36は、オブジェクト情報を情報処理システム50に送信したり、情報処理システム50に記憶されたオブジェクト情報を情報処理システム50から受信してディスプレイ480に表示させたりする。また、通信部36は端末装置10と直接、通信したり、情報処理システム50を介して通信したりすることもできる。
コード生成部35は、機器情報記憶部3001に記憶された電子黒板2の機器識別情報と会議で使用可能な機器であることを示す情報を二次元のパターンに符号化して二次元コードを生成する。また、コード生成部35は電子黒板2の機器識別情報と会議で使用可能な機器であることを示す情報をバーコードに符号化できる。機器識別情報はシリアル番号やUUIDなどでよい。機器識別情報は、ユーザーが設定したものでもよい。
音声データ生成部37は、予め設定されている周波数(電子黒板2が出力したことを示す周波数)の信号を、PCM変換と同様に一定間隔でサンプリングする手法で音声データを生成する。音声データはスピーカ450が有するD/Aコンバータでアナログに変換され、スピーカ450から出力される。
操作検知部38は、電子黒板2に対するユーザー操作を検知する。操作検知部38は、例えば、接触位置検出部31が電子ペン490やユーザーの手491等がディスプレイ480(タッチパネル)に接触したこと(接近しただけでもよい)に応じて、操作開始又は操作終了を検知する。
また、電子黒板2は、図8に示されているSSD404等によって構築される記憶部3000を有している。記憶部3000には機器情報記憶部3001とオブジェクト情報記憶部3002が構築されている。
図15は、機器情報記憶部3001に記憶されている機器識別情報等を示す。
・機器識別情報は、電子黒板2の識別情報である。
・IPアドレスは、他の装置がネットワークを介して電子黒板2と接続するためのIPアドレスである。
・パスワードは電子黒板2に他の装置が接続する際の認証に使用される。
図16は、オブジェクト情報記憶部3002に保存されてるオブジェクト情報を説明する図である。オブジェクト情報は、電子黒板2が表示するオブジェクトを管理する情報である。オブジェクト情報は情報処理システム50に送信され議事録として使用される。
・会議IDは、情報処理システム50から通知された会議の識別情報である。
・オブジェクトIDはオブジェクトを識別する識別情報である。
・種別はオブジェクトの種類であり、手書き、文字、図形、画像、等がある。手書きはストロークデータ(座標点列)である。文字は手書きデータから変換された文字列(文字コード)である。文字列をテキストデータという場合もある。図形は、三角や四角など手書きデータから変換された幾何学的な形状である。画像は、PCやインターネットなどから取り込まれたJpeg、Png、Tiffなどの画像データである。
・電子黒板2の1画面をページと称する。ページの項目はそのページ番号である。
・座標は、電子黒板2の所定の原点を基準とするオブジェクトの位置を示す。オブジェクトの位置は例えばオブジェクトの外接矩形の左上頂点である。座標は例えば、ディスプレイの画素単位で表される。
・サイズはオブジェクトの外接矩形の幅と高さである。
<画面遷移>
続いて、図17~図20を参照して、端末装置10が遠隔会議中に表示するいくつかの画面について説明する。図17は、端末装置10で動作する情報記録アプリ41が表示するログイン後の初期画面200である。端末装置10のユーザーが情報記録アプリ41を情報処理システム50に接続させる。ユーザーが認証情報を入力してログインに成功すると、図17の初期画面200が表示される。
初期画面200は、固定表示ボタン201、正面変更ボタン202、表示範囲を固定するボタン219、位置登録ボタン207、パノラマ画像203、1つ以上の話者画像204a~204c(以下、区別しない場合、話者画像204という)、及び、記録開始ボタン205を有している。ログイン時にすでにミーティングデバイス60が起動して、周囲を撮像している場合、初期画面200にミーティングデバイス60が作成するパノラマ画像203、及び話者画像204が表示される。したがって、ユーザーはこれらを見ながら、記録開始するかどうか決めることができる。ミーティングデバイス60が起動していない(撮像していない)場合、パノラマ画像203と話者画像204は表示されない。
なお、情報記録アプリ41は、パノラマ画像203から検出された全ての顔に基づく全ての参加者の話者画像204を表示してもよいし、直近に発言したN人の話者画像204のみを表示してもよい。図17では、最大3人まで話者画像204が表示される例を示す。参加者が発言するまでの間、話者画像204がなくてもよいし(発言に応じて一人ずつ増える)、所定の方向の参加者の3人の話者画像204が表示されてもよい(発言に応じて入れ替わる)。
なお、ミーティングデバイス60が起動した直後など、誰も発言していない場合、水平360°のうちの予め決められた方向( 0°、120°、240°など)を話者画像204として作成する。後述する固定表示が設定されている場合は、固定表示の設定が優先される。
固定表示ボタン201は、パノラマ画像203のある領域を話者画像204として固定でクローズアップする操作をユーザーが行うためのボタンである。
正面変更ボタン202は、パノラマ画像203の正面を変更する操作をユーザーが行うためのボタンである(パノラマ画像は水平方向に360°写っているので、右端と左端の方向が一致する)。ユーザーはポインティングデバイスでパノラマ画像203を左右にスライドさせて、正面に表示される参加者を決定できる。ユーザーの操作はミーティングデバイス60に送信され、ミーティングデバイス60は、水平方向360°のうち正面にする角度を変更してパノラマ画像を作成し、端末装置10に送信する。
表示範囲を固定するボタン219は、パノラマ画像の高さを変更後に、パノラマ画像203が情報記録アプリ41の表示範囲に入るように縮小するか、否かをユーザーが設定するためのボタンである。
位置登録ボタン207は、電子黒板2などの機器の位置(方向)を設定する操作をユーザーが行うためのボタンである。
ユーザーが記録開始ボタン205を押下すると情報記録アプリ41が図18の録画設定画面210を表示する。
図18は、情報記録アプリ41が表示する録画設定画面210の一例である。録画設定画面210では、ミーティングデバイス60が作成したパノラマ画像及び話者画像、並びに、端末装置10のデスクトップ画面又は動作するアプリの画面、を録画するかをユーザーが(録画に含めるか)設定できる。パノラマ画像及び話者画像、及び、デスクトップ画面又は動作するアプリの画面のどちらも、情報記録アプリ41が録画しない場合は音声(端末装置10が出力する音声+ミーティングデバイス60が集音した音声)のみ記録される。
カメラトグルボタン211は、ミーティングデバイス60が作成したパノラマ画像及び話者画像の録画のオンとオフを切り替えるボタンである。カメラトグルボタン211は、パノラマ画像と話者画像を個別に録画する設定が可能でもよい。
PC画面トグルボタン212は、端末装置10のデスクトップ画面、端末装置10で動作するアプリの画面の、録画のオンとオフを切り替えるボタンである。PC画面トグルボタン212がオンの状態で、デスクトップ画面が録画される。
ユーザーがアプリの画面を録画したい場合、更に、アプリ選択欄213で、アプリを選択する。アプリ選択欄213には端末装置10が実行中のアプリ名がプルダウン形式で表示される。ユーザーは録画するアプリを選択できる。このアプリ名は、情報記録アプリ41がOSから取得する。情報記録アプリ41は実行中のアプリのうち、UI(画面)を持つアプリのみを表示することができる。選択されるアプリの中に、遠隔会議アプリ42が含まれてよい。このため、情報記録アプリ41は、遠隔会議アプリ42で表示した資料や各拠点の参加者なども動画で記録できる。この他、プルダウンで表示されるアプリは、プレゼンテーション用アプリ、ワープロアプリ、表計算アプリ、文書等の資料作成編集アプリ、クラウド電子黒板アプリ、Webブラウザアプリ、など端末装置で実行中の様々なアプリである。したがって、ユーザーは結合画像動画に含めるアプリの画面を柔軟に選択できる。
また、アプリ単位で録画する場合、ユーザーは複数のアプリを選択できる。情報記録アプリ41は、選択された全てのアプリの画面を録画できる。
カメラトグルボタン211とPC画面トグルボタン212が双方ともオフの場合、録画内容確認ウィンドウ214に「音声のみ記録されます」と表示される。この音声は、端末装置10が出力する音声(遠隔会議アプリ42が他の拠点101から受信する音声)と、ミーティングデバイス60が集音する音声である。つまり、遠隔会議が実施されていれば、遠隔会議アプリ42の音声とミーティングデバイス60の音声は、画像の記録に関係なく保存される。ただし、ユーザーは、ユーザーの設定で遠隔会議アプリ42の音声、ミーティングデバイス60の音声の保存を選択的に停止できてよい。
カメラトグルボタン211とPC画面トグルボタン212のオンとオフの組み合わせに応じて、以下のように結合画像動画が録画される。また、録画内容確認ウィンドウ214にはリアルタイムに結合画像動画が表示される。
・カメラトグルボタン211がオン、PC画面トグルボタン212がオフの場合は、録画内容確認ウィンドウ214に、ミーティングデバイス60が撮像したパノラマ画像と話者画像が表示される。
・カメラトグルボタン211がオフ、PC画面トグルボタン212がオン(画面も選択済)の場合、録画内容確認ウィンドウ214に、デスクトップ画面や選択されたアプリの画面が表示される。
・カメラトグルボタン211がオン、PC画面トグルボタン212がオンの場合、録画内容確認ウィンドウ214に、ミーティングデバイス60が撮像したパノラマ画像と話者画像、及び、デスクトップ画面や選択されたアプリの画面が横に並んだ状態で表示される。
したがって、パノラマ画像、話者画像、及びアプリの画面が録画されない場合や、パノラマ画像、話者画像、及びアプリの画面が一切録画されない場合があるが、本実施形態では、便宜上、情報記録アプリ41が作成する画像を結合画像動画という。
更に、録画設定画面210は、「記録をアップロード後に自動で文字おこしする」というメッセージと共にチェックボックス209を有する。また、録画設定画面210は今すぐ記録開始ボタン217を有する。ユーザーがチェックボックス209にチェックを入れると、記録動画に、遠隔会議中の発言が変換されたテキストデータが添付される。この場合、録画終了後に情報記録アプリ41がテキストデータへの変換要求と共に音声を情報処理システム50にアップロードする。また、ユーザーが今すぐ記録開始ボタン217を押下すると、図19の録画中画面220が表示される。
図19は、情報記録アプリ41が録画中に表示する録画中画面220の一例である。なお、図19の説明では主に図17との相違を説明する。録画中画面220は、録画設定画面210でユーザーが設定した条件で、録画される結合画像動画をリアルタイムに表示する。図19の録画中画面220は、カメラトグルボタン211がオン、PC画面トグルボタン212がオフの場合であり、ミーティングデバイス60が作成したパノラマ画像203と話者画像204(いずれも動画)を表示する。録画中画面220は、録画中アイコン225、一時停止ボタン226、及び、録画終了ボタン227を表示する。
一時停止ボタン226は録画を停止するためのボタンで、停止後は録画再開も受け付ける。録画終了ボタン227は録画を終了するボタンである。一時停止ボタン226では録画IDが切り替わらず、録画終了ボタン227で録画IDが切り替わる。一時停止して、録画再開時にユーザーは録画設定画面210で設定した録画条件を再度設定することもできる。その場合、情報記録アプリ41は、録画停止ごとに複数の録画ファイルを作成してもよいし(例えば、録画終了ボタン227が押下)、1つの動画として連続するように複数ファイルを結合してもよい(例えば、一時停止ボタン226が押下)。また、情報記録アプリ41が結合画像動画を再生する場合、複数の録画ファイルを、1つの動画として連続して再生してもよい。
また、録画中画面220は、カレンダーから情報取得ボタン221、会議名称欄222、時間欄223、場所欄224を有している。カレンダーから情報取得ボタン221は、ユーザーが会議管理システム9から会議情報を取得するためのボタンである。カレンダーから情報取得ボタン221が押下されると、情報記録アプリ41が情報処理システム50から該ユーザーに閲覧権限がある会議一覧を取得し、表示する。ユーザーは会議一覧から、これから行う遠隔会議を選択する。これにより、会議名称欄222、時間欄223、場所欄224に会議情報が反映される。会議名称欄222には会議情報のタイトルが、時間欄223には開始時刻と終了時刻が、場所欄224に場所が反映される。また、会議管理システムにおける会議情報と記録情報が会議IDで対応付けられる。
遠隔会議が終了し、ユーザーが録画を終了すると、音声付きの結合画像動画が作成される。
図20は、情報記録アプリ41が表示する会議一覧画面230の一例である。会議一覧画面230は、会議の一覧であるが、遠隔会議において録画された記録情報のリストを表示できる。また、遠隔の会議に関わらず、ある会議室内のみで行われた会議も含まれる。会議一覧画面230には、会議情報記憶部5001においてログインユーザーが閲覧権限のある会議情報が表示される。情報記憶部1001に保存された動画記録情報の情報が更に統合されてもよい。
会議一覧画面230は、図17の初期画面200においてユーザーが会議一覧タブ231を選択すると表示される。会議一覧画面230は、このユーザーに閲覧権限がある記録情報のリスト236を表示する。会議作成者(議事録作成者)は参加者に閲覧権限を設定できる。なお会議一覧は、記憶した記録情報の一覧であっても、会議予定や会議データの一覧であってもよい。
会議一覧画面230はチェックボックス232、更新日時233、タイトル234、及びステータス235の各項目を有する。
・チェックボックス232は録画ファイルの選択を受け付ける。チェックボックス232は、ユーザーがまとめて録画ファイルを削除したい場合に使用される。
・更新日時233は、結合画像動画の録画の開始時と終了時を示す。編集された場合は編集日時でよい。
・タイトルは234、会議のタイトル(議題等)である。会議情報から転記されてもよいし、ユーザーが設定してもよい。
・ステータス235は、結合画像動画が情報処理システム50にアップロード済みか否かを示す。アップロード済みでない場合、「ローカルPC」が表示され、アップロード済みの場合「アップロード済み」が表示される。アップロード済みでない場合、アップロードボタンが表示される。未アップロードの結合画像動画がある場合、ユーザーが情報処理システム50にログイン時に、情報記録アプリ41が自動アップロードするとよい。
ユーザーが結合画像動画のリスト236から任意のタイトル等をポインティングデバイスで選択すると、情報記録アプリ41が録画再生画面を表示するが本実施形態では省略する。録画再生画面では、結合画像動画の再生などが可能である。
なお、ユーザーは、更新日時や、タイトル、キーワードなどから会議を絞り込むことができることが望ましい。また、表示される会議の数が多く、該当の会議を見つけにくい場合は、検索機能として、ユーザーが語句を入力することで、会議の発言やタイトルなどに含まれる語句から記録情報を絞り込むことができることが望ましい。検索機能により、ユーザーは記録情報が多くなった場合でも短時間で所望の記録情報を見つけることが可能である。また、会議一覧画面230では、ユーザーが更新日時やタイトル順で会議をソートできてもよい。
<動作又は処理>
図21は、会議の開始からミーティングデバイス60がパノラマ画像203を作成する処理を説明するシーケンス図の一例である。
S1:ユーザーが会議開始を情報記録アプリ41に入力する。なお、いわゆる遠隔会議は、遠隔会議アプリ42が他の拠点101と接続することで開始される。ステップS1の会議開始は録画の開始(今すぐ記録開始ボタン216のオン)を意味している。記録情報の作成の詳細な処理は図41にて説明する。
S2:情報記録アプリ41の操作受付部12が操作を受け付け、デバイス通信部16が会議開始をミーティングデバイス60に通知する。
S3:ミーティングデバイス60の端末通信部61は会議開始を受信し、参加者検知部66が参加者を検知し、音声方向検知部67、コード解析部68又は機器認識部69が電子黒板2の機器方向を検知する。機器方向の検知方法については後述する。
S4:第一画像生成部62は、検知された参加者と電子黒板2を含むようにパノラマ画像203の高さを決定して、立っている参加者や電子黒板2を含むようにパノラマ画像203を生成する。なお、会議室に電子黒板2がない場合、第一画像生成部62は会議参加者のみが含まれるパノラマ画像203を生成する。
S5:また、第二画像生成部63は、パノラマ画像203から話者画像204を生成する。
S6:ミーティングデバイス60の端末通信部61は、パノラマ画像203及び話者画像204を端末装置10に送信する。なお、端末通信部61は、ミーティングデバイス60が集音した音声データ又は図1で説明したミキシングした音声データも端末装置10に送信する。
S7:情報記録アプリ41のデバイス通信部16は、パノラマ画像203、話者画像204及び音声データを受信し、録画制御部17が結合画像動画を生成する。表示制御部13が結合画像を表示する。録画制御部17は録画終了に応じて、結合画像動画(音声データ付き)をストレージサービスシステム70に送信し、音声データ処理部18が情報処理システム50に音声データのテキストデータへの変換を要求することで、テキストデータをストレージサービスシステム70に送信する。結合画像動画とテキストデータは会議IDにより対応付けられ、同じURL等に保存されることが好ましい。
<パノラマ画像の高さの決定例>
図22は、参加者120の顔が検知された場合に決定されるパノラマ画像203の高さの一例である。第一画像生成部62は、最も低い位置の顔に対しマージンM1を設け、最も高い位置の顔に対しマージンM2を設け、パノラマ画像203の高さを決定する。マージンM1、M2は、適宜設定されてよいが、例えば、固定値、最も高い又は低い位置にある顔の高さの1つ~3つ分などでよい。
なお、参加者及び電子黒板2が一切検知されない場合、第一画像生成部62は、予め設定されている初期設定の高さのパノラマ画像203を生成する。
<パノラマ画像における電子黒板の方向の決定>
続いて、パノラマ画像203における電子黒板2の方向の決定方法を説明する。決定方法には主に以下の4つがある。
1.会議開始時にパノラマ画像203からユーザーが指定する。
2.電子黒板2が特定の映像(二次元コード等)を表示し、ミーティングデバイス60の撮像ユニット601で撮像したパノラマ画像203から端末装置10又はミーティングデバイス60が認識する。
3.電子黒板2が特定の音声を出力し、ミーティングデバイス60がマイク608で認識する。
4.電子黒板2の形状を機械学習によって任意の情報処理装置が学習し、ミーティングデバイス60のカメラ(撮像ユニット601)で撮像したパノラマ画像203から端末装置10又はミーティングデバイス60が認識する。
<<1.会議開始時にパノラマ画像からユーザーが指定する。>>
図23は、位置登録ボタン207の押下により電子黒板2の方向を設定する操作方法を説明する図である。位置登録ボタン207の押下により、パノラマ画像203がポップアップ表示される。例えば、ユーザーはマウスやタッチパネルなどのポインティングデバイスで、矩形のウィンドウ206をパノラマ画像203上で移動させる。ユーザーはパノラマ画像203に含まれる電子黒板2や演台などにウィンドウ206を合わせる。
図24は、ユーザーが設定した方向を確認する画面を示す。ユーザーがOKボタン208を押下することで、パノラマ画像203に対する電子黒板2の方向が設定される。ユーザーが設定した方向はミーティングデバイス60に送信され、ミーティングデバイス60の第一画像生成部62が保存する。
<<2.電子黒板2が特定の映像(二次元コード等)を表示し、ミーティングデバイス60の撮像ユニットで撮像したパノラマ画像203から端末装置10又はミーティングデバイス60が認識する。3.電子黒板2が特定の音声を出力し、ミーティングデバイス60がマイクで認識する。>>
図25は、電子黒板2が表示する、電子黒板2の方向の検知方法を設定する画面を説明する図である。図25(a)はメニュー画面130の一例を示す。メニュー画面130は、カメラボタン131を有している。カメラボタン131が押下されると、検知方法設定ウィンドウ132が表示される。
図25(b)は、検知方法設定ウィンドウ132の一例を示す。検知方法設定ウィンドウ132は、二次元コードボタン133、及び、音声ボタン134を有している。二次元コードボタン133が押下されると、電子黒板2が二次元コードを表示し、音声ボタン134が押下されると電子黒板2が特定の音声を出力する。
<<二次元コードによる方向の決定>>
図26は、電子黒板2が特定の映像として表示する二次元コード301の一例を示す。図26では、パノラマ画像203に電子黒板2が写っているが、電子黒板2が1つの二次元コード301を表示している。コード解析部68は、パノラマ画像203から二次元コード301を検出し、二次元コード301の上端から上方向に二次元コードの高さ302を加え、パノラマ画像203の上端に決定する。なお、この二次元コード301に電子黒板2の機器識別情報が含まれることで、電子黒板2とミーティングデバイス60の対応付けが行われる。
<<音による方向の決定>>
図27は、電子黒板2が特定の音を出力した場合の電子黒板2の方向の決定方法を説明する図である。図27に示すように、電子黒板2の左右の端部にそれぞれスピーカ450が設置される。左右の端部にスピーカ450が内蔵されていてもよい。
音声データ生成部37がそれぞれのスピーカ450から音を出力する。集音部64は、特定の周波数の音を自動的に集音する。音声方向検知部67は、音声データにフーリエ変換を行うことで周波数スペクトルを得て、予め決まっている周波数で、かつ、閾値以上の音が到来する2つの方向を特定する。これにより、音声方向検知部67がそれぞれのスピーカ450から発せられた音がミーティングデバイス60に対しどの方向から来ているのかを特定する。音声方向検知部67は、スピーカ450の中心を決定し、その高さ303を2倍した高さを、パノラマ画像203の高さに決定する。
図28は、特定の映像や音声により、ミーティングデバイス60が電子黒板2を含むパノラマ画像203を生成する処理を説明するシーケンス図の一例である。
S21:ユーザーが検知方法設定ウィンドウ132で二次元コードボタン133、又は、音声ボタン134を押下する。操作受付部12が押下を受け付ける。
S22:電子黒板2のコード生成部35が特定の映像として二次元コードを生成する。表示制御部34は、二次元コードをディスプレイ480に表示する。また、電子黒板2の音声データ生成部37が特定の周波数の音をスピーカ450から出力する。コード生成部35と音声データ生成部37はどちらか一方が動作すればよいが、両方が動作してもよい。
S23:ミーティングデバイス60は繰り返し周囲を撮像しているので、二次元コードが画角にあればコード解析部68が二次元コードを検知する。コード解析部68は二次元コードの位置を第一画像生成部62に通知する。また、ミーティングデバイス60の集音部64は繰り返し音を集音しているので、特定の周波数の音を自動的に集音する。音声方向検知部67は、音声データにフーリエ変換を行うことで周波数スペクトルを得て、予め決まっている周波数で、かつ、閾値以上の音が到来する2つの方向を特定する。音声方向検知部67は電子黒板2のスピーカの方向(全天球画像における緯度と経度)を、パノラマ画像における位置に変換して第一画像生成部62に通知する。なお、この音は超音波の周波数帯域であるとユーザーに聞こえないのでより好ましい。
S24:第一画像生成部62は、二次元コードに基づいてパノラマ画像203の高さを決定し、又は、電子黒板2のスピーカ450の方向に基づいてパノラマ画像203の高さを決定する。第一画像生成部62は、全天球画像から決定した高さのパノラマ画像203を生成する。
S25:ミーティングデバイス60の端末通信部61は、パノラマ画像203、話者画像204及び音声データを端末装置10に送信する。
S26:情報記録アプリ41のデバイス通信部16がパノラマ画像203、話者画像204及び音声データを受信する。録画制御部17は、パノラマ画像203と話者画像204を結合して結合画像動画を生成する。表示制御部13が結合画像を表示する。
<<4.電子黒板の形状を任意の情報処理装置が機械学習によって学習し、ミーティングデバイスの撮像ユニットで撮像したパノラマ画像から端末装置又はミーティングデバイスが認識する。>>
図29は、情報記録アプリ41が表示する電子黒板2の自動検知設定画面140を示す。自動検知設定画面140は、製造機番欄141、操作音トグルボタン142、及び、自動検知トグルボタン143を有している。製造機番欄141には、ミーティングデバイス60が送信した機番が表示される。操作音トグルボタン142は、ユーザー操作時に情報記録アプリ41が操作を受け付けたことを音で知らせるボタンである。自動検知トグルボタン143は、電子黒板2の自動検知をミーティングデバイス60が行うボタンである。ユーザーが自動検知トグルボタン143を押下すると、情報記録アプリ41がミーティングデバイス60に、電子黒板2を自動検知するよう要求する。ミーティングデバイス60は全天球画像から、電子黒板2を検知する。
図30は、機械学習などの画像処理により検出された電子黒板2を説明する図である。機器認識部69は、全天球画像から機械学習等を用いて電子黒板2の形状(外接矩形)241を検出する。
図31は、画像処理により検出された電子黒板2に基づいて決定されるパノラマ画像203の高さを説明する図である。第一画像生成部62は、一例として、全天球画像から電子黒板2が検出された場合、電子黒板2の上端から電子黒板2の高さHの半分までの高さを、パノラマ画像203の高さに決定する。電子黒板2の上端からパノラマ画像203の上端までの高さは、ゼロでもよく電子黒板2の高さHの1/3~1/4等でもよく、電子黒板2の高さHの半分は一例に過ぎない。
<パノラマ画像等の生成例>
図32は、全天球画像からパノラマ画像203を生成する生成方法を説明する図である。第一画像生成部62は、全天球画像Xから参加者120及び電子黒板2が含まれるようにパノラマ画像を横方向に切り出す。なお、全天球画像Xは三次元構造なので、図32のように平面では表すと歪曲するが、図32ではわかりやすさのため簡略化している。第一画像生成部62は、参加者120及び電子黒板2が含まれるように図6(b)に示したa°、b°を変更する。水平方向の切り出し範囲は360°でよいが、後述するように水平方向も、参加者120及び電子黒板2が含まれるように切り出されるとよい。このように、パノラマ画像203の高さh及び幅wは可変である。
検知されていた参加者120又は電子黒板2が一定時間検知されなくなった場合、第一画像生成部62は参加者120及び電子黒板2が含まれるように、パノラマ画像203の範囲を再度、調整する。
また、第二画像生成部63は、話者画像204を第一画像生成部62から切り出すことで生成する。図32では、AさんとDさんが含まれる話者画像204が生成されている。
図33は、情報記録アプリ41が表示する結合画像の一例である。結合画像の上部にはパノラマ画像203が表示され、パノラマ画像の下に話者画像204が表示されている。配置や話者画像204の数は一例である。
図34は、第一画像生成部62がパノラマ画像203の高さを決定する処理を説明するフローチャート図の一例である。
会議中、ミーティングデバイス60は全天球画像の撮像を繰り返す。ミーティングデバイス60の参加者検知部66は全天球画像Xに顔認識等を行うことで参加者120を検知する(S201)。
参加者120が検知されない場合(S202のNo)、電子黒板2がオブジェクトを表示することもないので(操作されない)、第一画像生成部62は初期設定の高さのパノラマ画像203を生成する(S206)。
参加者120が検知された場合(S202のYes)、ミーティングデバイス60の音声方向検知部67、コード解析部68又は機器認識部69が全天球画像Xから電子黒板2を検知したか否かを判断する(S203)。
なお、操作検知部38が電子黒板2に対する操作を検知したかどうかを判断してもよい。電子黒板2の通信部36は、端末装置10に操作の有無を常に送信している。端末装置10と電子黒板2が同一のLAN内にあれば、電子黒板2のIPアドレス(例えば二次元コードに含まれる)が分かれば端末装置10と電子黒板2が通信できる。また、端末装置10と電子黒板2が同じ会議に参加しているため、情報処理システム50が対応付け情報を参照して、会議IDに基づいて操作の有無を端末装置10に送信してもよい。こうすることで、電子黒板2の操作時のみ、第一画像生成部62がパノラマ画像203に電子黒板2が含まれるように高さを決定できる。
電子黒板2が検知されてた場合(S203のYes)、第一画像生成部62は電子黒板2と参加者120の全てを含む高さのパノラマ画像203を生成する(S204)。例えば、第一画像生成部62は、電子黒板2に基づいて決定されるパノラマ画像203の高さ、参加者120に基づいて決定されるパノラマ画像203の高さのうち高い方を採用する。
電子黒板2が検知されていない場合(S203のNo)、第一画像生成部62は、参加者120の全てを含む高さのパノラマ画像203を生成する(S205)。
このように、第一画像生成部62は、参加者120の顔の全て、又は、電子黒板2が操作されている場合は電子黒板2と参加者120の全てが含まれるパノラマ画像203を生成できる。
<電子黒板のセンタリング>
図35は、パノラマ画像の中央に配置された電子黒板2を示す。図35(a)はミーティングデバイス60の正面を中央とするパノラマ画像203である。図35(b)に示すように、電子黒板2が検知された場合、第一画像生成部62はパノラマ画像203の中央(幅方向)に、電子黒板2を配置する。第一画像生成部62は、電子黒板2を右から左方向に、中央に移動し、移動した分だけ左端の画像を右端に結合する(移動方向は逆でもよい)。パノラマ画像203の中央に電子黒板2が配置されるので、ユーザーが電子黒板2の表示内容を確認しやすくなる。
<パノラマ画像の表示例>
続いて、図36,図37を参照して、表示範囲を固定するボタン219の作用を説明する。図36は、表示範囲を固定するボタン219がオフの場合に生成されたパノラマ画像203の一例を示す。図36では1つのパノラマ画像203と2つの話者画像204が一画面に配置して表示されている。話者画像204の数は一例であり、話者画像204がなくてもよいし、3以上でもよい。
図36(a)は、参加者120が全員、座った状態のパノラマ画像203を示す。この時のパノラマ画像203の高さがL1、話者画像の高さがL2である。
次に、図36(b)は、参加者120が立ち上がった場合のパノラマ画像203を示す。第一画像生成部62は、全ての参加者120の顔が含まれるように、パノラマ画像203の高さを大きくする。図36(b)のパノラマ画像203の高さがM1、話者画像204の高さがM2である。表示制御部13は、参加者120が含まれるよう情報記録アプリ41側でパノラマ画像203が表示される領域(第一画像表示部の一例)を、パノラマ画像203以上の大きさに拡大する。
一方、情報記録アプリ41が表示する結合画像の全体サイズが固定である場合、パノラマ画像203の高さに応じて、第二画像生成部63が話者画像204の高さを変更する。すなわち、結合画像の高さがL1+L2、パノラマ画像203の高さがM1とすると、話者画像204の高さはL1+L2-M1=M2である。第二画像生成部63は単に話者画像204の高さが短くなるようにトリミングすればよいが、話者画像204のアスペクト比が一定になるように、幅方向もトリミングしてもよい。第二画像生成部63が話者画像204を縮小してもよい。
したがって、L1,L2,M1,M2には以下の関係がある。
L1<M1 、L2>M2
次に、図36(c)は、電子黒板2が含まれるように作成されたパノラマ画像203を示す。第一画像生成部62は、全ての参加者120の顔と電子黒板2が含まれるように、パノラマ画像203の高さを大きくする。第一画像生成部62は、各参加者120の顔と電子黒板2を検出して、全ての顔と電子黒板2が含まれるように高さを決定する。話者画像204については図36(b)と同様である。図36(c)のパノラマ画像203の高さがN1、話者画像の高さがN2である。したがって、L1,L2,N1,N2には以下の関係がある。
L1<N1 、L2>N2
このように、表示範囲を固定するボタン219がオフの場合、情報記録アプリ41がパノラマ画像203を大きく表示できる。
図37は、表示範囲を固定するボタン219がオンの場合に生成されたパノラマ画像203の一例を示す。図37(a)は、図36(a)と同様である。
図37(b)は、参加者120が立ち上がった場合のパノラマ画像203を示す。第一画像生成部62は、全ての参加者120の顔が含まれるように、パノラマ画像203の高さを大きくする。そして、第一画像生成部62は、高さL1にパノラマ画像203の全体が入るように、パノラマ画像203の高さ変更後のアスペクト比を維持したままパノラマ画像203を縮小する。
したがって、図37(b)のパノラマ画像203の高さには図37(a)から変更がないので、L1は一定である。話者画像204の高さL2も一定である。なお、この縮小を情報記録アプリ41が行ってもよい。
次に、図37(c)は、電子黒板2が含まれるように作成されたパノラマ画像203を示す。第一画像生成部62は、全ての参加者120の顔と電子黒板2が含まれるように、パノラマ画像203の高さを大きくする。そして、第一画像生成部62は、高さL1にパノラマ画像203の全体が入るように、高さ変更後のパノラマ画像203のアスペクト比を維持したままパノラマ画像203を縮小する。
したがって、図37(c)のパノラマ画像203の高さには図37(a)から変更がないので、L1は一定である。話者画像204の高さL2も一定である。なお、この縮小を情報記録アプリ41が行ってもよい。
このように、表示範囲を固定するボタン219がオンの場合、情報記録アプリ41におけるパノラマ画像203の大きさを一定に保つことができる。
なお、図36、図37の処理を端末装置10が行ってもよい。
<<表示範囲を固定するボタンのオン、オフに応じたパノラマ画像の生成>>
図38は、表示範囲を固定するボタン219がオン又はオフの場合に、第一画像生成部62がパノラマ画像203を生成する処理を説明するフローチャート図の一例である。
会議が開始され(S101)、会議が終了するまでの間(S102)、参加者検知部66が全天球画像から参加者120を検知し、音声方向検知部67、コード解析部68又は機器認識部69が電子黒板2を検知する(S103)。
図34にて説明したように、第一画像生成部62は、参加者120の顔及び電子黒板2が含まれるようにパノラマ画像203の高さを変更し、パノラマ画像203を生成する(S104)。
第一画像生成部62は、図17の表示範囲を固定するボタン219がオンかどうか判断する(S105)。
表示範囲を固定するボタン219がオフの場合(S105のNo)、パノラマ画像203の高さに応じて、第二画像生成部63が話者画像204の高さを変更する(S107)。
表示範囲を固定するボタン219がオンの場合(S105のYes)、第一画像生成部62、参加者120の顔及び電子黒板2が含まれるようにパノラマ画像203を生成するのはオフの場合と同じである。しかし、第一画像生成部62は、高さ変更後のパノラマ画像203のアスペクト比を維持して、パノラマ画像203の高さが初期設定の高さと同じになるようにパノラマ画像203の縦と横を縮小する(S106)。こうすることで、結合画像におけるパノラマ画像203の表示領域のサイズを変えずに、参加者120の顔及び電子黒板2が含まれるパノラマ画像203を生成できる。なお、第二画像生成部63は、話者画像204をトリミングする必要もない。
ミーティングデバイス60の端末通信部61は、パノラマ画像203、話者画像204、及び、音声データを端末装置10に送信する(S108)。
<パノラマ画像の幅の決定>
以上の実施形態では、参加者120や電子黒板2等が含まれるようにパノラマ画像203の高さが決定されているが、ミーティングデバイス60が作成するパノラマ画像203が水平方向360°のうち一部の場合、高さ方向と同様の不都合が生じる。
図39は、水平方向の一部のみが切り取られたパノラマ画像203を示す。ミーティングデバイス60としては本来、水平方向に360°の範囲を撮像できる。しかし、ミーティングデバイス60が行う画像処理や端末装置10に送信する際の処理負荷を低減するため、ミーティングデバイス60が水平方向の一部(例えば正面を含む180°~200°程度)のみをパノラマ画像203として生成することもできる。図39(a)に示すように、少人数の会議では、この水平方向の一部のパノラマ画像203に全参加者120が含まれる。
しかし、図39(b)に示すように、大人数の会議では、この水平方向の一部のパノラマ画像203に全参加者120が含まれない状態となる。図39(b)では、斜線領域250に参加者120が存在するが、パノラマ画像203には含まれていない。情報記録アプリ41はパノラマ画像203には含まれない参加者120を表示できない。
そこで、第一画像生成部62は、参加者120、又は、電子黒板2が検知された場合、全ての参加者120及び電子黒板2が水平方向に含まれるようにパノラマ画像203の幅を決定する。例えば、第一画像生成部62は、水平方向の左端、右端の参加者120の顔に対し顔1~2個分の余白を設定して、パノラマ画像203の幅を決定する。
こうすることで、第一画像生成部62は、図39(c)に示すように、水平方向においても全ての参加者120及び電子黒板2が含まれるパノラマ画像203を生成できる。また、参加者120が少ない場合は、ミーティングデバイス60の処理負荷を低減できる。
次に、図40を参照して、パノラマ画像203において参加者間の間隔が空いている場合を説明する。図40は、パノラマ画像203において参加者間の間隔が空いている場合に余剰間隔を省略する処理を説明する図である。パノラマ画像203の幅が固定であっても、図39のように可変であっても、参加者120が間隔を置いて着席した場合、パノラマ画像203において参加者間の間隔が空いた状態となる。
第一画像生成部62は、参加者同士、又は、参加者120と電子黒板2の間隔が閾値以上の場合、参加者同士、又は、参加者120と電子黒板2の余剰間隔251を省略する。省略とは余剰間隔251のパノラマ画像203を削除することをいう。図40(a)では、2つの間隔Dが閾値以上である。この場合、第一画像生成部62は、例えば、参加者120の顔の1~2個分の余白を間隔Dに残して、残りの余剰間隔251のパノラマ画像203を削除し、切断されたパノラマ画像203を接続する。
図40(b)は、余剰間隔251が省略されたパノラマ画像203を示す。余剰間隔251が省略されることで、パノラマ画像203の無駄が少なくなり、参加者120の一覧性が向上する。なお、第一画像生成部62は、参加者同士、又は、参加者120と電子黒板2の間隔Dが閾値以上かどうかを判断するのでなく、参加者同士、又は、参加者120と電子黒板2の間隔Dを等間隔になるように、パノラマ画像203の水平方向の一部を削除してもよい。
なお、省略には、1[m]を0.5[m]に縮める構成も含まれる。
<結合画像動画の保存>
続いて、図41を参照し、結合画像動画の保存処理について説明する。図41は、情報記録アプリ41がパノラマ画像203、話者画像及びアプリの画面を録画する手順を示すシーケンス図の一例である。
S51:ユーザーは遠隔会議アプリ42を操作して遠隔会議を開始する。ここでは、自拠点102と他の拠点101の遠隔会議アプリ42が遠隔会議を開始したものとする。自拠点102の遠隔会議アプリ42は、端末装置10が有するカメラが撮像する画像、マイクが集音する音声を他の拠点101の遠隔会議アプリ42に送信する。他の拠点101の遠隔会議アプリ42は、受信した画像をディスプレイに表示し、受信した音声をスピーカから出力する。同様に、他の拠点101の遠隔会議アプリ42は、端末装置10が有するカメラが撮像する画像、マイクが集音する音声を自拠点102の遠隔会議アプリ42に送信する。自拠点102の遠隔会議アプリ42は、受信した画像をディスプレイに表示し、受信した音声をスピーカから出力する。各遠隔会議アプリ42はこれを繰り返して、遠隔会議を実現する。
S52:ユーザーは図14に示した情報記録アプリ41の録画設定画面210に対し、録画に関する設定を行う。情報記録アプリ41の操作受付部12が設定を受け付ける。ここでは、カメラトグルボタン211、及び、PC画面トグルボタン212が共にオンであるとする。
ユーザーは遠隔会議を事前に予約済みの場合、図19のカレンダーから情報取得ボタン221を押下することで遠隔会議のリストを表示し、記録動画を対応付ける遠隔会議を選択できる。ユーザーは情報処理システム50にログイン済みなので、情報処理システム50はログインしたユーザーが閲覧権限のある遠隔会議を特定する。情報処理システム50は特定した遠隔会議のリストを端末装置10に送信するので、ユーザーは開催中又はこれから開催される遠隔会議を選択する。これにより、会議ID等、遠隔会議に関する情報が決定される。
また、ユーザーは遠隔会議を事前に予約していなくても、結合画像動画を作成する際に会議を作成できる。以下では、情報記録アプリ41が、結合画像動画を作成する際に会議を作成し、会議IDを情報処理システム50から取得する場合を説明する。
S53:ユーザーは録画開始(今すぐ記録開始ボタン216)を情報記録アプリ41に指示する。情報記録アプリ41の操作受付部12が指示を受け付ける。表示制御部13は録画中画面220を表示する。
S54:遠隔会議が選択されていないので(会議IDが決まってないため)、情報記録アプリ41の通信部11が、遠隔会議作成要求を情報処理システム50に送信する。
S55:情報処理システム50の通信部51は遠隔会議作成要求を受信し、コミュニケーション管理部54が、会議管理システム9が採番した重複しない会議IDを取得し、通信部51が会議IDを情報記録アプリ41に送信する。
S56:また、コミュニケーション管理部54は、通信部51を介して、結合画像動画の保存先(ストレージサービスシステム70のURL)を情報記録アプリ41に送信する。
S57:情報記録アプリ41の通信部11が会議IDと録画ファイルの保存先を受信し、通信部11が会議IDを電子黒板2に送信する。通信部11は、情報処理システム50を介してもよいし、直接、送信してもよい。
S58:情報記録アプリ41の通信部11が会議IDと録画ファイルの保存先を受信することで、録画制御部17が録画の準備が整ったと判断し、録画を開始する。
S59:情報記録アプリ41のアプリ画面取得部14は、ユーザーが選択したアプリの画面をアプリに対し要求する(アプリ画面取得部14は、より詳細にはOSを介して、アプリの画面を取得する)。図41では、ユーザーが選択したアプリを遠隔会議アプリ42とする。
S60:情報記録アプリ41の録画制御部17は、デバイス通信部16を介して、ミーティングデバイス60に録画開始を通知する。通知の際、録画制御部17は、カメラトグルボタン211がオンである旨(パノラマ画像203と話者画像の要求)も通知するとよい。要求の有無に関係なくミーティングデバイス60はパノラマ画像203と話者画像を情報記録アプリ41に送信している。
S61:ミーティングデバイス60の端末通信部61が録画開始を受信すると、重複しない録画IDを採番し、録画IDを情報記録アプリ41に返す。なお、録画IDは情報記録アプリ41が採番してもよいし、情報処理システム50から取得してもよい。
S62:情報記録アプリ41の音声取得部15は端末装置10が出力する音声データ(遠隔会議アプリ42が受信した音声データ)を取得する。
S63:デバイス通信部16が、音声取得部15が取得した音声データと合成要求をミーティングデバイス60に送信する。
S64:ミーティングデバイス60の端末通信部61は音声データと合成要求を受信し、音声合成部65が、集音部64が集音した周囲の音声データと、受信した音声データを合成する。例えば、音声合成部65は、2つの音声データを足し合わせる。ミーティングデバイス60の周辺の鮮明な音声が記録されるので、特にミーティングデバイス60周辺(会議室側)の音声のテキスト化精度が向上する。
この音声の合成は、端末装置10でも可能である。しかし、録画機能が端末装置10に、音声処理がミーティングデバイス60に分散して配置されることで、端末装置10とミーティングデバイス60の負荷を低減できる。録画機能がミーティングデバイス60に、音声処理が端末装置10に分散して配置されてもよい。
S65:また、ミーティングデバイス60の第一画像生成部62はパノラマ画像203を作成し、第二画像生成部63は話者画像を作成する。このステップS65において、本実施形態で説明したパノラマ画像203の高さの決定が行われる。
S66:情報記録アプリ41のデバイス通信部16は、パノラマ画像203と話者画像を繰り返しミーティングデバイス60から取得する。また、デバイス通信部16は、合成後の音声データを繰り返しミーティングデバイス60に要求して取得する。これらの取得は、デバイス通信部16がミーティングデバイス60に要求することで行われてもよい。あるいは、カメラトグルボタン211がオンである旨を受け取ったミーティングデバイス60が自動的にパノラマ画像203と話者画像を送信してもよい。音声データの合成要求を受け取ったミーティングデバイス60が自動的に合成後の音声データを情報記録アプリ41に送信してもよい。
S67:情報記録アプリ41の録画制御部17は、遠隔会議アプリ42から取得したアプリの画面と、パノラマ画像203と、話者画像を並べることで結合画像を作成する。録画制御部17は、繰り返し結合画像を作成し、動画を構成するフレームに各結合画像を指定することで結合画像動画を作成する。また、録画制御部17はミーティングデバイス60から受信した音声データを保存しておく。
情報記録アプリ41は以上のステップS62~S67を繰り返す。
S68:遠隔会議が終わり、録画の必要がなくなると、ユーザーが録画終了(例えば、録画終了ボタン227)を情報記録アプリ41に指示する。情報記録アプリ41の操作受付部12が指示を受け付ける。
S69:情報記録アプリ41のデバイス通信部16は、ミーティングデバイス60に録画終了を通知する。ミーティングデバイス60は、引き続きパノラマ画像203と話者画像の作成や音声の合成を継続する。ただし、ミーティングデバイス60は録画中かどうかで解像度やfpsを変えるなど処理の不可を変更してもよい。
S70:情報記録アプリ41の録画制御部17は、結合画像動画に音声データを結合して音声付きの結合画像動画を作成する。
S71:また、ユーザーが録画設定画面210で「記録をアップロード後に自動で文字おこしする」に対応付けられたチェックボックス215をチェックした場合、音声データ処理部18が、音声データのテキストデータへの変換を情報処理システム50に要求する。詳細には、音声データ処理部18は、通信部11を介して、保存先のURLを指定し、会議ID及び録画IDと共に、結合画像動画に結合された音声データの変換要求を情報処理システム50に送信する。
S72:情報処理システム50の通信部51は音声データの変換要求を受信し、テキスト変換部56が音声認識サービスシステム80を利用して音声データをテキストデータに変換する。通信部51はテキストデータを、結合画像動画の保存先と同じ保存先(ストレージサービスシステム70のURL)に保存する。なお、録画情報記憶部5002においてテキストデータは会議ID及び録画IDにより結合画像動画と対応付けられている。なおテキストデータは、情報処理システム50の会議管理部54で管理し、記憶部5000に記憶してもよい。また、端末装置10が音声認識サービスシステム80に音声認識を要求し、音声認識サービスシステム80から取得したテキストデータを保存先に保存してもよい。なお、音声認識サービスシステム80は、変換したテキストデータを情報処理システム50に返すが、直接保存先のURLに送信してもよい。音声認識サービスシステム80は、情報処理システム50にユーザーが設定した設定情報に応じて、複数のサービスから選択したり切り替えたりしてもよい。
S73:また、情報記録アプリ41のアップロード部20は、通信部11を介して、結合画像動画の保存先に結合画像動画を保存する。録画情報記憶部5002において結合画像動画は会議ID及び録画IDと対応付けられている。結合画像動画にはアップロード済みが記録される。
S74:ユーザーが会議終了を電子黒板2に入力する。ユーザーが端末装置10に会議終了を入力し、端末装置10から電子黒板2に会議終了が送信されてもよい。この場合、会議終了は情報処理システム50を経由して電子黒板2に送信されてよい。
S75:電子黒板2の通信部36は、会議IDを指定して、会議中に表示した(例えば手書きされた)オブジェクトデータを情報処理システム50に送信する。通信部36は電子黒板2の機器識別情報を情報処理システム50に送信してもよい。この場合、対応付け情報により会議IDが特定される。
S76:情報処理システム50は会議IDに基づいて結合画像動画等と同じ保存先にオブジェクトデータを保存する。
保存先はユーザーに通知されているので、ユーザーはメールなどで保存先を知らせることで結合画像動画を参加者120と共有できる。結合画像動画、音声データ、テキストデータ、オブジェクトデータを作成する装置がそれぞれ異なっても、1つの格納場所に集めて格納でき、後でユーザー等が容易に閲覧できる。
なお、ステップS62~S67の処理は、図41に示すとおりの順番でなくてもよく、音声データの合成と結合画像の作成が前後してもよい。
<主な効果>
以上説明したように、本実施形態のミーティングデバイス60は、予め設定されている複数の対象物(参加者120の顔や電子黒板2などの機器)を検知して、その対象物が入るようにパノラマ画像203の高さや幅を決定するので、対象物が含まれるパノラマ画像203を生成できる。
<その他の適用例>
以上、本発明を実施するための最良の形態について実施例を用いて説明したが、本発明はこうした実施例に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
例えば、端末装置10とミーティングデバイス60が一体でもよい。端末装置10にミーティングデバイス60が外付けされてもよい。また、ミーティングデバイス60は、全天球カメラとマイクとスピーカがケーブルで接続されたものでもよい。
また、他の拠点101においてもミーティングデバイス60が配置されてよい。他の拠点101は別途、ミーティングデバイス60を使用して結合画像動画とテキストデータを作成する。また、1つの拠点に複数のミーティングデバイス60が配置されてもよい。この場合、ミーティングデバイス60ごとに複数の記録情報が作成される。
また、本実施形態で使用した、結合画像動画における、パノラマ画像203,話者画像204、及び、アプリの画面の配置は一例に過ぎない。パノラマ画像203が下で話者画像204が上でもよいし、ユーザーが配置を変更したり、再生時にはパノラマ画像203と話者画像204の表示と非表示を個別に切り替えたりしてもよい。
また、図9などの構成例は、端末装置10、ミーティングデバイス60、及び、情報処理システム50による処理の理解を容易にするために、主な機能に応じて分割したものである。処理単位の分割の仕方や名称によって本願発明が制限されることはない。端末装置10、ミーティングデバイス60、及び、情報処理システム50の処理は、処理内容に応じて更に多くの処理単位に分割することもできる。また、1つの処理単位が更に多くの処理を含むように分割することもできる。
また、実施例に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの1つを示すものにすぎない。ある実施形態では、情報処理システム50は、サーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリなどを含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。
更に、情報処理システム50は、開示された処理ステップ、例えば図21等を様々な組み合わせで共有するように構成できる。例えば、所定のユニットによって実行されるプロセスは、情報処理システム50が有する複数の情報処理装置によって実行され得る。また、情報処理システム50は、1つのサーバー装置にまとめられていても良いし、複数の装置に分けられていても良い。
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」は、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、及び、従来の回路モジュール等のデバイスを含む。
10 端末装置
50 情報処理システム
60 ミーティングデバイス
100 記録情報作成システム
特開2015‐19162号公報

Claims (22)

  1. 広角画像を撮像する撮像装置と、前記広角画像から第一の画像を生成する画像生成部と、前記撮像装置と通信できる端末装置で動作するプログラムとを有する機器システムであって、
    前記画像生成部は、前記広角画像から複数の対象物が検知された場合、前記複数の対象物が含まれる前記第一の画像を生成し、
    前記プログラムは、
    前記端末装置を、前記第一の画像を表示する表示制御部として機能させる、ことを特徴とする機器システム。
  2. 前記複数の対象物の一部が前記第一の画像に含まれていない場合、前記画像生成部は、前記対象物が含まれるように前記第一の画像の領域を大きくすることを特徴とする請求項1に記載の機器システム。
  3. 前記複数の対象物の一部が前記第一の画像に含まれていない場合、前記画像生成部は、前記対象物が含まれるように前記第一の画像の高さを大きくすることを特徴とする請求項1に記載の機器システム。
  4. 前記表示制御部は、大きくされた前記第一の画像が前記端末装置に表示されるよう、前記第一の画像に対応する第一画像表示部の大きさを変更することを特徴とする請求項2又は3に記載の機器システム。
  5. 前記表示制御部が変更する前記第一の画像の大きさは、高さ方向の大きさであることを特徴とする請求項4に記載の機器システム。
  6. 前記表示制御部は、大きくされた前記第一の画像が前記端末装置に表示されるよう、前記第一の画像に対応する第一画像表示部内で表示される前記第一の画像を縮小することを特徴とする請求項2に記載の機器システム。
  7. 前記画像生成部は、前記撮像装置に含まれることを特徴とする請求項1~6のいずれか1項に記載の機器システム。
  8. 前記画像生成部は、前記プログラムに含まれることを特徴とする請求項1~6のいずれか1項に記載の機器システム。
  9. 前記画像生成部は、前記対象物が水平方向の中央に配置された前記第一の画像を生成することを特徴とする請求項1~8のいずれか1項に記載の機器システム。
  10. 予め設定されている対象物の一部が前記第一の画像に含まれていない場合、前記画像生成部は、前記対象物が含まれるように前記第一の画像の幅を大きくすることを特徴とする請求項1に記載の機器システム。
  11. 前記対象物と前記対象物の間隔が閾値以上の場合、前記画像生成部は、前記対象物と前記対象物の間の余剰間隔を省略した前記第一の画像を生成することを特徴とする請求項1~9のいずれか1項に記載の機器システム。
  12. 前記対象物は、人の顔であることを特徴とする請求項1~11のいずれか1項に記載の機器システム。
  13. 前記対象物は、電子機器であることを特徴とする請求項1~11のいずれか1項に記載の機器システム。
  14. 前記対象物は、プロジェクタのスクリーンであることを特徴とする請求項1~11のいずれか1項に記載の機器システム。
  15. 前記対象物は、黒板であることを特徴とする請求項1~11のいずれか1項に記載の機器システム。
  16. 前記電子機器が表示する二次元コードを検知するコード解析部を有し、
    前記画像生成部は、前記コード解析部が検知した前記二次元コードに基づいて、前記電子機器が含まれる前記第一の画像を生成することを特徴とする請求項13に記載の機器システム。
  17. 前記電子機器が出力する音声を集音する集音部と、
    前記集音部が集音した音声の方向を検知する音声方向検知部と、を有し、
    前記画像生成部は、前記音声方向検知部が検知した前記電子機器の方向に基づいて、前記電子機器が含まれる前記第一の画像を生成することを特徴とする請求項13に記載の機器システム。
  18. 前記電子機器を画像処理により認識する機器認識部、を有し、
    前記画像生成部は、前記機器認識部が認識した前記電子機器に基づいて、前記電子機器が含まれる前記第一の画像を生成することを特徴とする請求項13に記載の機器システム。
  19. 前記第一の画像の表示範囲を固定しない設定の場合、前記画像生成部は、前記対象物が含まれるように前記第一の画像の高さを大きくし、
    前記第一の画像の表示範囲を固定する設定の場合、前記画像生成部は、前記対象物が含まれるように前記第一の画像の高さを大きくし、更に、高さを変更後の前記第一の画像のアスペクト比を維持して、前記第一の画像の初期設定の高さに前記第一の画像を縮小することを特徴とする請求項1~18のいずれか1項に記載の機器システム。
  20. 前記撮像装置は、
    前記第一の画像から話者を切り出した第二の画像を生成する第二画像生成部を有し、
    前記第一の画像の表示範囲を固定しない設定の場合、前記第二画像生成部は、前記第一の画像の高さが大きくなった分、前記第二の画像の高さを短くし、
    前記第一の画像の表示範囲を固定する設定の場合、前記第二画像生成部は、前記第二の画像の高さを変更しないことを特徴とする請求項19に記載の機器システム。
  21. 広角画像を撮像し、端末装置と通信できる撮像装置であって、
    前記広角画像から第一の画像を生成する画像生成部を有し、
    前記画像生成部は前記広角画像から複数の対象物が検知された場合、前記複数の対象物が含まれる前記第一の画像を生成する、ことを特徴とする撮像装置。
  22. 広角画像を撮像する撮像装置と、前記広角画像から第一の画像を生成する画像生成部と、前記撮像装置と通信できる端末装置で動作するプログラムとを有する機器システムが行う表示方法であって、
    前記画像生成部が、前記広角画像から複数の対象物が検知された場合、前記複数の対象物が含まれる前記第一の画像を生成するステップと、
    前記プログラムが、前記第一の画像を表示するステップと、
    を有することを特徴とする表示方法。
JP2022035333A 2022-03-08 2022-03-08 機器システム、撮像装置、表示方法 Pending JP2023130822A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022035333A JP2023130822A (ja) 2022-03-08 2022-03-08 機器システム、撮像装置、表示方法
US18/166,635 US20230292011A1 (en) 2022-03-08 2023-02-09 Information processing system, image-capturing device, and display method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022035333A JP2023130822A (ja) 2022-03-08 2022-03-08 機器システム、撮像装置、表示方法

Publications (1)

Publication Number Publication Date
JP2023130822A true JP2023130822A (ja) 2023-09-21

Family

ID=87931429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022035333A Pending JP2023130822A (ja) 2022-03-08 2022-03-08 機器システム、撮像装置、表示方法

Country Status (2)

Country Link
US (1) US20230292011A1 (ja)
JP (1) JP2023130822A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210303824A1 (en) * 2020-03-31 2021-09-30 Gopro, Inc. Face detection in spherical images using overcapture

Also Published As

Publication number Publication date
US20230292011A1 (en) 2023-09-14

Similar Documents

Publication Publication Date Title
US20110193935A1 (en) Controlling a video window position relative to a video camera position
WO2012100114A2 (en) Multiple viewpoint electronic media system
CN111010529A (zh) 可多人实时批注的视频会议方法及系统
US20230292011A1 (en) Information processing system, image-capturing device, and display method
US11966658B2 (en) System and method for displaying image, image-capturing device, and recording medium
US20230308762A1 (en) Display terminal, information processing system, communication system, displaying method, information processing method, communication method, and recording medium
JP7226600B1 (ja) 記録情報作成システム、記録情報作成方法、プログラム
EP4231632A1 (en) Display system, display method, and carrier medium
US20230289126A1 (en) System, method for adjusting audio volume, and apparatus
JP2023137823A (ja) 機器システム、情報処理方法、情報処理システム、プログラム、撮像装置
JP2012165170A (ja) 会議装置、会議方法および会議プログラム
US20230280961A1 (en) Device management system, information processing system, information processing device, device management method, and non-transitory recording medium
JP2023120142A (ja) 記録情報表示システム、プログラム、記録情報表示方法
JP2024008632A (ja) 情報処理システム、表示方法、プログラム、記録情報作成システム
US20240004921A1 (en) Information processing system, information processing method, and non-transitory recording medium
JP2024025003A (ja) 記録情報作成システム、情報処理システム、プログラム
JP2023120068A (ja) 音声処理システム、デバイス、音声処理方法
JP2024029642A (ja) 情報処理装置、表示方法、プログラム
US20230308622A1 (en) Display terminal, displaying method, and recording medium
US20240007610A1 (en) Display terminal, communication system, display method, and communication method
JP2024014716A (ja) プログラム、情報処理システム、記録情報作成システム、表示方法
US20240031653A1 (en) Information processing server, record creation system, display control method, and non-transitory recording medium
JP2024033276A (ja) 通信システム、情報処理システム、動画作成方法、プログラム
JP2023184430A (ja) 表示端末、通信システム、表示方法、通信方法、及びプログラム
JP2023106865A (ja) 情報処理装置、情報処理システム、及びプログラム