JP2018186366A

JP2018186366A - 会議システム

Info

Publication number: JP2018186366A
Application number: JP2017086149A
Authority: JP
Inventors: 徹道上; Toru Michigami
Original assignee: Kyocera Document Solutions Inc
Current assignee: Kyocera Document Solutions Inc
Priority date: 2017-04-25
Filing date: 2017-04-25
Publication date: 2018-11-22

Abstract

【課題】或る会議参加者の発言内容を聞き逃した他の会議参加者に当該発言内容を理解させる。
【解決手段】会議システムは、カメラ部および装着者から発せられる音声を集音し音声データを生成するマイク部をそれぞれが搭載する複数のヘッドマウントディスプレイと、音声データをテキストデータに変換する変換処理を行い、変換処理を行った時刻を示す時刻情報を付したテキストデータを出力する処理装置と、を備え、複数のヘッドマウントディスプレイのそれぞれは、処理装置から出力されたテキストデータを時刻情報に基づき時系列に表示していくとともに、いずれかのヘッドマウントディスプレイに搭載されたカメラ部による撮影によって得られた映像データの映像を表示する。
【選択図】図４

Description

本発明は、会議システムに関する。

従来、複数の端末機を備えた会議システムが知られている（特許文献１参照）。特許文献１の会議システムが備える複数の端末機は、会議参加者に提供される。各端末機には、ＩＰカメラやＩＰ電話が接続される。これにより、会議の参加者全員が同一の会議室に居なくても、会議を進めることができる。

特開２００４−４８５５１号公報

会議参加者が発する音声が小さい場合、当該会議参加者の発言内容を他の会議参加者が聞き逃す（聞き取れない）という不都合が生じる。また、複数人の会議参加者の各発言タイミングが重複した場合にも、同様の不都合が生じ得る。この場合には、発言した会議参加者に再度発言を求めるなどの対策をとらなければならず、会議の進行に支障が出る。

本発明は、上記課題を解決するためになされたものであり、或る会議参加者の発言内容を聞き逃した他の会議参加者に当該発言内容を理解させることが可能な会議システムを提供することを目的とする。

上記目的を達成するため、本発明の会議システムは、カメラ部および装着者から発せられる音声を集音し音声データを生成するマイク部をそれぞれが搭載する複数のヘッドマウントディスプレイと、音声データをテキストデータに変換する変換処理を行い、変換処理を行った時刻を示す時刻情報を付したテキストデータを出力する処理装置と、を備える。複数のヘッドマウントディスプレイのそれぞれは、処理装置から出力されたテキストデータを時刻情報に基づき時系列に表示していくとともに、いずれかのヘッドマウントディスプレイに搭載されたカメラ部による撮影によって得られた映像データの映像を表示する。

本発明の構成では、各会議参加者にヘッドマウントディスプレイを装着させると、各会議参加者が発した音声に対応する音声データがテキストデータに変換される（各会議参加者の発言内容がテキスト化される）。そして、各会議参加者のヘッドマウントディスプレイには、各会議参加者の発言内容をテキスト化したテキストデータが表示される。これにより、或る会議参加者の発言内容を聞き逃した他の会議参加者に当該発言内容を理解させることができる。その結果、発言した会議参加者に再度発言を求めるなどの対策をとらなくてもよくなり、会議が円滑に進む。さらに、テキストデータは時系列に表示されていくので、聞き逃した発言内容に対応するテキストデータを速やかに見つけることができる。

また、本発明の構成では、各ヘッドマウントディスプレイにカメラ部が搭載され、当該カメラ部により会議の様子が撮影される。そして、各ヘッドマウントディスプレイには、いずれかのヘッドマウントディスプレイにより撮影される会議の様子が表示される。これにより、テレビ会議に必要な機器が設置された会議室でなくても、テレビ会議と同様の会議を行うことができる。

本発明によれば、或る会議参加者の発言内容を聞き逃した他の会議参加者に当該発言内容を理解させることができる。

本発明の一実施形態による会議システムの構成を示す図本発明の一実施形態による会議システムのヘッドマウントディスプレイの表示エリアを示す図本発明の一実施形態による会議システムを用いた会議を説明するための図本発明の一実施形態による会議システムのヘッドマウントディスプレイを装着した会議参加者からの見え方を示す図本発明の一実施形態による会議システムのヘッドマウントディスプレイを装着した会議参加者からの見え方を示す図本発明の一実施形態による会議システムのヘッドマウントディスプレイが行う音声データ出力処理の流れを示す図本発明の一実施形態による会議システムのサーバーが行うテキストデータ出力処理の流れを示す図本発明の一実施形態による会議システムのヘッドマウントディスプレイが行う時系列表示処理の流れを示す図本発明の一実施形態による会議システムのヘッドマウントディスプレイが表示するテキストデータの表示サイズについて説明するための図本発明の一実施形態による会議システムのヘッドマウントディスプレイが受け付けるスクロール指示について説明するための図本発明の一実施形態による会議システムが入力を受け付ける第１キーワードについて説明するための図本発明の一実施形態による会議システムが入力を受け付ける第２キーワードについて説明するための図

＜会議システムの構成＞
図１に示すように、本実施形態の会議システム１は、複数のヘッドマウントディスプレイ２を備える。以下の説明では、ヘッドマウントディスプレイをＨＭＤと称する。また、会議システム１は、サーバー３を備える。サーバー３は「処理装置」に相当する。

複数のＨＭＤ２は、サーバー３と通信可能に接続される。複数のＨＭＤ２とサーバー３との間では、たとえば、インターネットやＬＡＮなどの通信ネットワークＮＴを介した通信が行われる。なお、複数のＨＭＤ２が互いに通信可能に接続されてもよい。

複数のＨＭＤ２は、会議の参加者に提供される。各会議参加者はＨＭＤ２を装着して会議に参加する。会議室に居ない会議参加者にもＨＭＤ２は提供される。会議室に居ない会議参加者はＨＭＤ２を装着することにより会議に参加できる。詳細は後述する。

＜ＨＭＤの構成＞
複数のＨＭＤ１は、互いに同じ構成を有する。したがって、ここでは、１つのＨＭＤ２の構成について説明し、他のＭＨＤ２の構成については説明を省略する。

ＨＭＤ２は、眼鏡型であり、眼鏡のレンズに相当する部分に種々の情報を表示する。このため、ＨＭＤ２を装着した装着者からすると、眼前に種々の情報が表示されたように見える。また、ＨＭＤ２は、装着者の眼前の風景（物体）を撮影する。

ＨＭＤ２は、表示部２１、カメラ部２２、マイク部２３、操作部２４、ＨＭＤ制御部２５、ＨＭＤ通信部２６およびＨＭＤ記憶部２７を備える。これら各部は眼鏡型のフレームに搭載される。

表示部２１は、表示を行う。表示部２１は、装着者の眼と対向する位置に配置される。これにより、装着者の眼前に種々の情報が表示される。たとえば、外光を透過させる光学透過型（光学シースルー型）のディスプレイ装置が表示部２１として用いられる。光学透過型のディスプレイ装置からなる表示部２１は、ハーフミラーを含み、表示すべき情報をハーフミラーによって装着者の目に向けて反射する。このとき、外光はハーフミラーを透過して装着者の目に入射する。

カメラ部２２は、撮影を行う。カメラ部２２は、ＣＣＤカメラなどを含み、装着者の視界方向の撮影が可能な位置に配置される。これにより、装着者の眼前の風景（物体）が撮影される。カメラ部２２は、撮影によって得られた映像データを出力する。

なお、カメラ部２２は、ＨＭＤ２のフレームに対して着脱可能である。ＨＭＤ２のフレームからカメラ部２２を取り外した場合でも、当該カメラ部２２による撮影を行える。たとえば、ＨＭＤ２のフレームからカメラ部２２を取り外すことにより、装着者は自身を撮影することができる。

マイク部２３は、装着者から発せられた音声を集音し、当該集音した音声に対応する音声データの生成を行う。マイク部２３は、マイクロフォンおよび音声処理回路を含む。マイクロフォンは、単一指向性であり、装着者の音声を集音する。音声処理回路は、マイクロフォンから出力される音声信号（電気信号）に所定の音声処理を施し、装着者の音声（マイクロフォンが集音した音声）に対応する音声データを生成する。

操作部２４は、ＨＭＤ２による表示や撮影に関する各種設定を行うための操作を装着者から受け付ける。なお、スマートフォンやノート型パーソナルコンピューターなど装着者が所有する携帯端末をＨＭＤ２と通信可能に接続すれば、当該携帯端末からでも、ＨＭＤ２による表示や撮影に関する各種設定を行うことが可能となる。

ＨＭＤ制御部２５は、制御用のプログラムやデータに基づき動作するＣＰＵを含み、ＨＭＤ２を制御するための各種処理を実行する。たとえば、ＨＭＤ制御部２５は、表示部２１による表示、カメラ部２２による撮影、および、マイク部２３による音声データの生成をそれぞれ制御する。また、ＨＭＤ制御部２５は、操作部２４（あるいは、ＨＭＤ２に接続された携帯端末）が装着者から受け付けた各種操作を検知する。

ＨＭＤ通信部２６は、ＨＭＤ２を外部機器に通信可能に接続するための通信インターフェースであり、通信回路などを含む。ＨＭＤ制御部２５は、ＨＭＤ通信部２６を用いて、サーバー３と通信する（サーバー３との間でデータを送受信する）。たとえば、ＨＭＤ２からサーバー３へは、音声データや映像データが送信される。

ＨＭＤ記憶部２７は、不揮発性メモリー（ＲＯＭ）および揮発性メモリー（ＲＡＭ）を含み、ＨＭＤ制御部２５（ＣＰＵ）を動作させるためのプログラムやデータを記憶する。また、ＨＭＤ記憶部２７は、サーバー３から受信したデータ（後述するテキストデータなど）を記憶する。

＜サーバーの構成＞
サーバー３は、サーバー制御部３１、サーバー通信部３２およびサーバー記憶部３３を備える。なお、サーバー３は、会議室に設置されてもよいし、他の場所に設置されてもよい。また、サーバー３と同様の機能を他の装置に持たせ、当該装置をサーバー３の代わりとしてもよい。たとえば、複合機のような画像形成装置にサーバー３と同様の機能を持たせてもよい。

サーバー制御部３１は、制御用のプログラムやデータに基づき動作するＣＰＵを含み、サーバー３を制御するための各種処理を実行する。ここで、サーバー制御部３１は、所定の音声認識技術を用いて音声データの音声を認識し、音声データをテキストデータに変換する変換処理を行う。サーバー制御部３１による変換処理では、複数のＨＭＤ２からそれぞれ出力される全ての音声データが処理対象となる。

サーバー通信部３２は、サーバー３を外部機器に通信可能に接続するための通信インターフェースであり、通信回路などを含む。サーバー制御部３１は、サーバー通信部３２を用いて、複数のＨＭＤ２と通信する（複数のＨＭＤ２との間でデータを送受信する）。たとえば、サーバー３から複数のＨＭＤ２へは、後述するテキストデータが送信される。

サーバー記憶部３３は、ＲＯＭおよびＲＡＭを含み、サーバー制御部３１を動作させるためのプログラムやデータを記憶する。たとえば、サーバー記憶部３３には、サーバー制御部３１に音声認識処理を行わせるための音声認識プログラムが記憶される。

また、サーバー記憶部３３は、ＨＤＤなど大容量の記憶デバイスを含む。大容量の記憶デバイスには、複数のＨＭＤ２から出力される音声データや映像データが記憶される。また、大容量の記憶デバイスには、後述するテキストデータが記憶される。

＜会議システムを用いる会議＞
（概要）
会議システム１は、会議を支援するためのシステムである。会議システム１を用いる会議では、各会議参加者にＨＭＤ２が提供される。すなわち、各会議参加者がＨＭＤ２を装着する。なお、会議室とは異なる場所に居る会議参加者にもＨＭＤ２が提供される（当該会議参加者もＨＭＤ２を装着する）。

そして、会議システム１を用いる会議では、複数のＨＭＤ２のそれぞれに会議支援用の映像やデータが表示される。具体的に、複数のＨＭＤ２のそれぞれは、いずれかのＨＭＤ２（カメラ部２２）の撮影によって得られる映像データの映像（以下、会議映像と称する場合がある）を表示する。並行して、複数のＨＭＤ２のそれぞれは、各ＨＭＤ２からの音声データ（会議参加者の発言（音声）から生成されたデータ）に対してサーバー３が変換処理を行うことによって得られるテキストデータ（会議参加者の発言内容をテキスト化したデータ）を表示する。なお、或る言語のテキストデータから他の言語のテキストデータに変換する翻訳機能をサーバー３に搭載し、翻訳後のテキストデータが各ＨＭＤ２に表示されるよう構成してもよい。

たとえば、図２に示すように、各ＨＭＤ２（表示部２１）の表示エリアは、第１表示エリア２１１、第２表示エリア２１２および第３表示エリア２１３の３つに区分けされる。第１表示エリア２１１は、会議映像を表示するための表示エリアである。第２表示エリア２１２は、会議参加者の発言内容をテキスト化したテキストデータを表示するための表示エリアである。第３表示エリア２１３は、会議参加者に眼前の様子をそのまま見せるための表示エリアである。すなわち、第３表示エリア２１３での表示は行われない。

（会議映像の表示）
会議の開催に際し、各会議参加者は自身のＨＭＤ２に対して表示設定を行う。表示設定では、会議で使用される複数のＨＭＤ２のいずれで撮影された会議映像をＨＭＤ２に表示するかの設定が行われる。言い換えると、各ＨＭＤ２は、会議参加者が指定したＨＭＤ２で撮影された会議映像を第１表示エリア２１１に表示する。

たとえば、図３に示すように、会議参加者が５人（５人の会議参加者にそれぞれ符号Ａ〜Ｅを付す）であり、そのうち会議参加者Ｅが会議室Ｒ１とは別の場所（部屋Ｒ２）から会議に参加するとする。

図３に示す例では、会議参加者Ｅは会議室Ｒ１に居ない。この場合、会議参加者Ｅは自身の様子（表情や態度など）を会議参加者Ａ〜Ｄに見せることができない。このため、会議参加者Ｅの発言内容が会議参加者Ａ〜Ｄに上手く伝わらないという不都合が生じ得る。しかし、会議システム１を用いると、会議参加者Ｅは自身の様子を会議参加者Ａ〜Ｄに見せることができる。

具体的には、会議参加者Ａ〜Ｄの各ＨＭＤ２に会議参加者ＥのＨＭＤ２で撮影された会議映像が表示されるよう会議参加者Ａ〜Ｄに表示設定を行わせる。そして、会議参加者ＥのＨＭＤ２からカメラ部２２を取り外させ、会議参加者Ｅに自身の撮影（自撮り）を行わせる。

これにより、図４および図５に示すように、会議参加者Ａ〜Ｄの各ＨＭＤ２の第１表示エリア２１１には、会議参加者Ｅが自身のＨＭＤ２から取り外したカメラ部２２で自身を撮影した会議映像（この場合は、会議参加者Ｅの自撮り映像）が表示される。図４には、会議参加者Ａからの見え方を図示し、図５には、会議参加者Ｄからの見え方を図示する。会議参加者Ａの対向位置には会議参加者Ｄが居るので、会議参加者Ａからは第３表示エリア２１３を通して会議参加者Ｄを視認することができる。会議参加者Ｄの対向位置には会議参加者ＡおよびＢが居るので、会議参加者Ｄからは第３表示エリア２１３を通して会議参加者ＡおよびＢを視認することができる。図示しないが、会議参加者ＢおよびＣの各ＨＭＤ２の第１表示エリア２１１にも同様の会議映像（会議参加者Ｅの自撮り映像）が表示される。

各ＨＭＤ２の第１表示エリア２１１に同じ会議映像を表示させてもよいが、異なる会議映像を表示させてもよい。たとえば、会議参加者ＡのＨＭＤ２に、会議参加者ＥのＨＭＤ２で撮影された会議映像（会議参加者Ｅの自撮り映像）に代えて、会議参加者Ｂ〜ＤのいずれかのＨＭＤ２で撮影された会議映像を表示させてもよい。すなわち、会議参加者Ａ〜Ｅは自身のＨＭＤ２の第１表示エリア２１１に表示する会議映像を任意に設定することができる。また、会議参加者Ａ〜Ｅは自身のＨＭＤ２の第１表示エリア２１１に会議映像が表示されないように設定することもできる。

なお、各ＨＭＤ２はスピーカーを搭載する。あるいは、各ＨＭＤ２はイヤフォンジャックを有する。これにより、スピーカーやイヤフォンを介して、会議室Ｒ１で使用される各ＨＭＤ２が集音した音声（会議参加者Ａ〜Ｄの各発言）を会議参加者Ｅに聞き取らせることができる。

たとえば、各ＨＭＤ２は、カメラ部２２による撮影によって得られた映像データをサーバー３に出力する。このとき、サーバー３は、ＨＭＤ２ごとに、映像データと撮影時刻とを対応付けて記憶する。

また、各ＨＭＤ２は、表示設定で指定されたＨＭＤ２（ここでは、指定ＨＭＤ２と称する）の映像データをサーバー３から取得する。そして、各ＨＭＤ２は、指定ＨＭＤ２が撮影した会議映像を第１表示エリア２１１に表示する。

なお、各ＨＭＤ２を互いに通信可能に接続し、各ＨＭＤ２が指定ＨＭＤ２から映像データを直接取得するよう構成してもよい。このように構成する場合にも、各ＨＭＤ２からサーバー３への映像データの出力は行われる。

（テキストデータの表示）
複数のＨＭＤ２およびサーバー３は、各会議参加者の発言内容（音声）をテキスト化したテキストデータを表示するテキスト表示処理を行う。各ＨＭＤ２は、テキスト表示処理として、サーバー３に音声データを出力する音声データ出力処理、および、第２表示アリア２１２にテキストデータを時系列に表示する時系列表示処理を行う。サーバー３は、テキスト表示処理として、各ＨＭＤ２からの音声データをテキストデータに変換し、当該変換したテキストデータを各ＨＭＤ２に出力するテキストデータ出力処理（変換処理を含む処理）を行う。

まず、図６に示すフローチャートを参照して、各ＨＭＤ２により行われる音声データ出力処理の流れを説明する。以下、１つのＨＭＤ２に着目して音声データ出力処理の流れを説明するが、他のＨＭＤ２でも同様の音声データ出力処理が行われる。

図６に示すフローチャートは、会議支援を開始する開始条件が満たされたときにスタートする。たとえば、ＨＭＤ２には、会議支援用アプリケーションがインストールされる。そして、ＨＭＤ制御部２５は、会議支援用アプリケーションを起動するための操作を操作部２４が会議参加者（装着者）から受け付けたとき、開始条件が満たされたと判断する。

ステップＳ１において、ＨＭＤ制御部２５は、マイク部２３に音声が入力されたか否かを判断する。すなわち、ここでは、ＨＭＤ２を装着した会議参加者が発言したか否か（会議参加者が音声を発したか否か）の判断が行われる。その結果、マイク部２３に音声が入力されたとＨＭＤ制御部２５が判断した場合には、ステップＳ２に移行する。なお、マイク部２３に音声が入力されると、マイク部２３は音声データを生成する。

ステップＳ２において、ＨＭＤ制御部２５は、ＨＭＤ通信部２６を用いて、サーバー３に音声データを出力する。そして、ステップＳ３に移行する。なお、ステップＳ１において、マイク部２３に音声が入力されていないとＨＭＤ制御部２５が判断した場合にも、ステップＳ３に移行する。

ステップＳ３において、ＨＭＤ制御部２５は、テキスト表示処理を終了する処理終了条件が満たされたか否かを判断する。たとえば、ＨＭＤ制御部２５は、会議支援用アプリケーションを終了するための操作を操作部２４が会議参加者（装着者）から受け付けると、処理終了条件が満たされたと判断する。処理終了条件が満たされたとＨＭＤ制御部２５が判断した場合、本フローは終了する。一方で、処理終了条件が満たされていないとＨＭＤ制御部２５が判断した場合、ステップＳ１に移行する。

このような音声データ出力処理がＨＭＤ制御部２５によって行われることにより、ＨＭＤ２を装着した会議参加者が音声を発するごとに（発言するごとに）、当該音声に対応する音声データがＨＭＤ２からサーバー３に出力される。

次に、図７に示すフローチャートを参照して、サーバー３により行われるテキストデータ出力処理の流れを説明する。図７に示すフローチャートのスタートは、サーバー通信部３２が音声データを受信したことをサーバー制御部３１が検知したとき（いずれかのＨＭＤ２が音声データを出力したとき）である。

ステップＳ１１において、サーバー制御部３１は、サーバー通信部３２が受信した音声データをテキストデータに変換する（変換処理を行う）。これにより、会議参加者の発言内容（音声）がテキスト化される。

ステップＳ１２において、サーバー制御部３１は、変換処理を行った時刻を認識し、変換処理を行った時刻を示す時刻情報を当該時刻情報で示される時刻に行った変換処理で得られたテキストデータに付す。そして、サーバー制御部３１は、サーバー通信部３２を用いて、時刻情報を付したテキストデータを全てのＨＭＤ２に出力する。

このとき、サーバー制御部３１は、出力するテキストデータの基となった音声データを生成したＨＭＤ２（ここでは、対象ＨＭＤ２と称する）を認識する。また、サーバー制御部３１は、対象ＨＭＤ２を装着している会議参加者を認識する。たとえば、会議の開催に際し、各会議参加者が装着するＨＭＤ２を示す情報がサーバー３に登録される。そして、サーバー制御部３１は、各ＨＭＤ２にテキストデータを出力するとき、対象ＨＭＤ２を装着する会議参加者を示す装着者情報をテキストデータに付す。

さらに、サーバー制御部３１は、各ＨＭＤ２にテキストデータを出力するとき、出力するテキストデータの基となった音声データの音量レベルを認識する。そして、サーバー制御部３１は、当該認識した音量レベルを示す音量情報をテキストデータに付す。

ステップＳ１３において、サーバー制御部３１は、変換処理を行った時刻と、当該時刻に行った変換処理で処理対象とした音声データとを対応付けてサーバー記憶部３３に記憶させる。さらに、サーバー制御部３１は、変換処理を行った時刻と、当該時刻に行った変換処理で得られたテキストデータとを対応付けてサーバー記憶部３３に記憶させる。

なお、サーバー３は、いずれかのＨＭＤ２から音声データを受信するごとに、変換処理を含むテキストデータ出力処理を行う。すなわち、サーバー３によるテキストデータ出力処理は繰り返し行われる。これにより、会議参加者が発言するごとに、会議発言者の発言内容をテキスト化したテキストデータが全てのＨＭＤ２に出力される。

次に、図８に示すフローチャートを参照して、各ＨＭＤ２により行われる時系列表示処理の流れを説明する。以下、１つのＨＭＤ２に着目して時系列表示処理の流れを説明するが、他のＨＭＤ２でも同様の時系列表示処理が行われる。

図８に示すフローチャートは、図６に示したフローチャートと同様、会議支援を開始する開始条件が満たされたときにスタートする。すなわち、ＨＭＤ制御部２５による時系列表示処理は音声データ出力処理と並行して行われる。

ステップＳ２１において、ＨＭＤ制御部２５は、サーバー３からのテキストデータをＨＭＤ通信部２６が受信したか否かを判断する。その結果、サーバー３からテキストデータを受信したとＨＭＤ制御部２５が判断した場合には、ステップＳ２２に移行する。

ステップＳ２２において、ＨＭＤ制御部２５は、サーバー３から受信したテキストデータの表示を表示部２１に行わせる（表示部２１が第２表示エリア２１２にテキストデータを表示する）。このとき、ＨＭＤ制御部２５は、第２表示エリア２１２に表示すべきテキストデータに付された時刻情報で示される時刻を認識し、表示部２１に時系列表示を行わせる。すなわち、表示部２１は、時刻情報で示される時刻に基づきテキストデータを時系列に表示していく。具体例については、後に説明する。

ステップＳ２２の処理後、ステップＳ２３に移行する。ステップＳ２１において、サーバー３からテキストデータを受信していないとＨＭＤ制御部２５が判断した場合にも、ステップＳ２３に移行する。

ステップＳ２３において、ＨＭＤ制御部２５は、テキスト表示処理を終了する処理終了条件が満たされたか否かを判断する。処理終了条件が満たされたとＨＭＤ制御部２５が判断した場合、本フローは終了する。一方で、処理終了条件が満たされていないとＨＭＤ制御部２５が判断した場合、ステップＳ２１に移行する。

ここで、テキストデータの時系列表示について、図３に示した会議を例にとって説明する。また、以下の説明では、図４および図５を参照し、会議参加者ＡおよびＤの各ＨＭＤ２に着目する。

たとえば、会議参加者Ａ、Ｂ、Ｃ、ＤおよびＥがこの順番で発言した場合、会議参加者Ａ、Ｂ、Ｃ、ＤおよびＥの各発言内容をテキスト化したテキストデータが全てのＨＭＤ２の第２表示エリア２１２に表示される。図４および図５では、会議参加者Ａに対応するテキストデータを文字「ａ」の羅列で表し、当該テキストデータに符号ＡＴを付す。会議参加者Ｂに対応するテキストデータを文字「ｂ」の羅列で表し、当該テキストデータに符号ＢＴを付す。会議参加者Ｃに対応するテキストデータを文字「ｃ」の羅列で表し、当該テキストデータに符号ＣＴを付す。会議参加者Ｄに対応するテキストデータを文字「ｄ」の羅列で表し、当該テキストデータに符号ＤＴを付す。会議参加者Ｅに対応するテキストデータを文字「ｅ」の羅列で表し、当該テキストデータに符号ＥＴを付す。

会議参加者Ａ、Ｂ、Ｃ、ＤおよびＥがこの順番で発言した場合、テキストデータＡＴ、ＢＴ、ＣＴ、ＤＴおよびＥＴがこの順番で第２表示エリア２１２に並べられる。時刻情報で示される時刻が最も古いテキストデータＡＴは、第２表示エリア２１２のうち最上段に表示される。そして、第２表示エリア２１２の上段から下段に向かって、テキストデータＢＴ、ＣＴおよびＤＴが順次表示され、時刻情報で示される時刻が最も新しいテキストデータＥＴは最後尾に表示される。

図示しないが、第２表示エリア２１２におけるテキストデータの表示数が上限に達している場合には、時刻情報で示される時刻が最も新しいテキストデータが第２表示エリア２１２の最下段に表示される。この状態で、第２表示エリア２１２に表示すべきテキストデータが新規に追加されると、第２表示エリア２１２に表示中の複数のテキストデータのうち、時刻情報で示される時刻が最も古いテキストデータ（すなわち、第２表示エリア２１２の最上段に表示されたテキストデータ）の表示が停止され、残りのテキストデータが下段から上段に向かってシフトする。そして、第２表示エリア２１２の最下段に新規のテキストデータが追加表示される。以降、第２表示エリア２１２に表示すべきテキストデータが新規に追加されるごとに、同様の表示制御が行われる。

また、第２表示エリア２１２には、テキストデータごとに、テキストデータに対応する会議参加者を特定するための特定用画像２０が表示される。特定用画像２０の表示データは予めＨＭＤ記憶部２７に記憶される。

特定用画像２０を表示するための処理をＨＭＤ制御部２５に行わせるため、サーバー３からのテキストデータには装着者情報が付される。ＨＭＤ制御部２５は、テキストデータを受信すると、当該テキストデータに付された装着者情報で示される会議参加者（装着者）に対応する特定用画像２０を当該テキストデータと共に表示部２１に表示させる。たとえば、特定用画像２０は予め複数準備される。そして、各会議参加者は複数の特定用画像２０から自身に対応付ける特定用画像２０を任意に選択することができる。なお、特定用画像２０の形態は特に限定されず、アイコンのような絵柄画像でもよいし、テキスト画像でもよい。

たとえば、図４および図５に示すように、テキストデータの先頭文字と隣接する位置（先頭文字の左側の位置）に特定用画像２０が表示される。図４および図５では、会議参加者Ａに対応する特定用画像２０を「Ａ」で示し、会議参加者Ｂに対応する特定用画像２０を「Ｂ」で示し、会議参加者Ｃに対応する特定用画像２０を「Ｃ」で示し、会議参加者Ｄに対応する特定用画像２０を「Ｄ」で示し、会議参加者Ｅに対応する特定用画像２０を「Ｅ」で示す。

（テキストデータの表示サイズ）
第２表示エリア２１２に表示されるテキストデータの表示サイズは、テキストデータの基となった音声データの音量レベルに応じて変化する。特に限定されないが、音量レベルは、基準レベルおよび基準レベルよりも高い高レベルの２段階に分類される。

テキストデータの表示サイズを変化させる処理をＨＭＤ制御部２５に行わせるため、サーバー３からのテキストデータには音量情報が付される。ＨＭＤ制御部２５は、テキストデータを受信すると、当該テキストデータに付された音量情報で示される音量レベルが基準レベルであるか高レベルであるかを認識する。表示するテキストデータの音量レベルが基準レベルである場合、ＨＭＤ制御部２５は、当該テキストデータの表示サイズが予め定められた基準サイズとなるよう表示部２１に表示を行わせる。表示するテキストデータの音量レベルが高レベルである場合、ＨＭＤ制御部２５は、当該テキストデータの表示サイズが基準サイズよりも大きいサイズとなるよう表示部２１に表示を行わせる。すなわち、表示するテキストデータの音量レベルが高いほど、テキストデータの表示サイズが大きくなる。

たとえば、図４および図５に示すテキストデータの表示サイズは基準サイズである。仮に、会議参加者Ｅに対応するテキストデータＥＴの音量レベルが高レベルであった場合、図９に示すように、テキストデータＥＴの表示サイズが基準サイズよりも大きくなる。

（表示範囲のスクロール）
第２表示エリア２１２に表示するテキストデータの表示範囲は任意に変更可能である。たとえば、各ＨＭＤ２は、会議参加者からスクロー指示を受け付ける。スクロール指示の受け付けは、ＨＭＤ２に設置された操作部２４や、ＨＭＤ２に通信可能に接続された携帯端末を介して行われる。

ＨＭＤ制御部２５は、スクロール指示を受け付けたか否かを判断する。たとえば、ＨＭＤ制御部２５は、カーソルキーに対する操作を検知すると、スクロール指示を受け付けたと判断する。なお、スクロール量はカーソルキーに対する長押し時間に応じて変化する（長押し時間が長いほどスクロール量が大きくなる）。そして、ＨＭＤ制御部２５は、スクロール指示を受け付けると、表示部２１に指示し、テキストデータの表示範囲をスクロールさせる。

たとえば、図１０に示すように、破線で囲まれた範囲（当該範囲は第２表示エリア２１２に相当する）のテキストデータが第２表示エリア２１２に現在表示されているとする。図１０左図に示す状態で、上カーソルキーに対する操作である第１操作を行うと、対応する時刻が現在表示中のテキストデータよりも古いテキストデータを第２表示エリア２１２に表示することができる（図１０右図に示す状態となる）。一方で、図１０右図に示す状態で、下カーソルキーに対する操作である第２操作を行うと、対応する時刻が現在表示中のテキストデータよりも新しいテキストデータを第２表示エリア２１２に表示することができる（図１０左図に示す状態となる）。

なお、各ＨＭＤ２のＨＭＤ記憶部２７には、一定期間分のテキストデータしか記憶されない。このため、第１操作により指示されたスクロール量が大きければ、表示すべきテキストデータがＨＭＤ記憶部２７に記憶されていない場合がある。この場合、ＨＭＤ制御部２５は、表示すべきテキストデータをサーバー３から取得し、表示部２１に表示させる。

（第１キーワードの入力受付）
各ＨＭＤ２は、ＨＭＤ２を装着した会議参加者から、第１キーワードの入力を受け付ける。第１キーワードの入力の受け付けは、ＨＭＤ２に設置された操作部２４や、ＨＭＤ２に通信可能に接続された携帯端末を介して行われる。

第１キーワードの入力を受け付けたＨＭＤ２のＨＭＤ制御部２５は、第１処理を行う。具体的に、ＨＭＤ制御部２５は、表示部２１に指示し、テキストデータの時系列表示を停止させる。そして、ＨＭＤ制御部２５は、表示部２１に指示し、入力を受け付けた第１キーワードと同じ文字列を含むテキストデータを第２表示エリア２１２に表示させる。

たとえば、文字列「ｘｘｘｘｘ」を含むテキストデータが存在し、いずれかのＨＭＤ２に第１キーワードとして文字列「ｘｘｘｘｘ」が入力されたとする。この場合には、図１１に示すように、第１キーワードの入力を受け付けたＨＭＤ２の第２表示エリア２１２の表示内容が変化する（図１１上図の状態から図１１下図の状態に変化する）。すなわち、第２表示エリア２１２での時系列表示が一旦停止される。そして、第２表示エリア２１２には、文字列「ｘｘｘｘｘ」を含むテキストデータが表示される。

（第２キーワードの入力受付）
各ＨＭＤ２は、ＨＭＤ２を装着した会議参加者から、第２キーワードの入力を受け付ける。第２キーワードの入力の受け付けは、ＨＭＤ２に設置された操作部２４や、ＨＭＤ２に通信可能に接続された携帯端末を介して行われる。

第２キーワードの入力を受け付けたＨＭＤ２のＨＭＤ制御部２５は、第２処理を行う。具体的に、ＨＭＤ制御部２５は、表示部２１に指示し、第２表示エリア２１２に現在表示中のテキストデータのうち、入力を受け付けた第２キーワードと同じ文字列の表示形態を変化させる（第２キーワードと同じ文字列の表示形態を他の文字列の表示形態と異ならせる）。たとえば、第２キーワードと同じ文字列の文字色を変化させてもよいし、第２キーワードと同じ文字列をハイライト表示してもよいし、第２キーワードと同じ文字列に網掛けなどの装飾を施してもよい。

たとえば、文字列「ｙｙｙｙｙ」を含むテキストデータが存在し、いずれかのＨＭＤ２に第２キーワードとして文字列「ｙｙｙｙｙ」が入力されたとする。この場合には、図１２に示すように、第２キーワードの入力を受け付けたＨＭＤ２の第２表示エリア２１２の表示内容が変化する（図１２上図の状態から図１２下図の状態に変化する）。すなわち、第２表示エリア２１２に表示されたテキストデータのうち、文字列「ｙｙｙｙｙ」の表示形態が変化する。

（音声データ、テキストデータおよび映像データの外部機器への出力）
サーバー３には、ディスプレイやスピーカーを備えるパーソナルコンピューターなどの外部機器を通信可能に接続するための通信インターフェースが設けられる。そして、サーバー３に外部機器を接続すると、サーバー３に記憶された各種データ（音声データ、テキストデータおよび映像データ）を外部機器に出力することができる。

サーバー３は、外部機器を介して、出力キーワードの入力を受け付ける。また、サーバー３は、受け付けた出力キーワードと同じ文字列を含むテキストデータを対象テキストデータと認識するとともに、対象テキストデータに付された時刻情報で示される時刻を対象時刻と認識する。そして、サーバー３は、対象テキストデータ、対象テキストデータの基となった音声データ、および、対象時刻（当該時刻を含む時間帯）に撮影された映像データ、のうち少なくとも１つを外部機器に出力する。たとえば、対象テキストデータ、音声データおよび撮影データのうち外部機器に出力するデータは任意に選択可能である。さらに、会議参加者を指定すれば、指定した会議参加者により装着されていたＨＭＤ２の映像データだけを外部機器に出力することもできる。

これにより、会議終了後、対象時刻（当該時刻を含む時間帯）の音声データや映像データを外部機器で再生することができる。なお、音声データや映像データの再生はＨＭＤ２でも行える。

本実施形態の会議システム１は、カメラ部２２および会議参加者（装着者）から発せられる音声を集音し音声データを生成するマイク部２３をそれぞれが搭載する複数のＨＭＤ２と、音声データをテキストデータに変換する変換処理を行い、変換処理を行った時刻を示す時刻情報を付したテキストデータを出力するサーバー３（処理装置）と、を備える。複数のＨＭＤ２のそれぞれは、サーバー３から出力されたテキストデータを時刻情報に基づき時系列に表示していくとともに、いずれかのＨＭＤ２に搭載されたカメラ部２２による撮影によって得られた映像データの映像を表示する。

本実施形態の構成では、各会議参加者のＨＭＤ２に各会議参加者の発言内容をテキスト化したテキストデータが表示される。これにより、或る会議参加者の発言内容を聞き逃した他の会議参加者に当該発言内容を理解させることができる。その結果、発言した会議参加者に再度発言を求めるなどの対策をとらなくてもよくなるので、会議が円滑に進む。さらに、テキストデータは時系列に表示されていくので、聞き逃した発言内容に対応するテキストデータを速やかに見つけることができる。また、テレビ会議に必要な機器が設置された会議室でなくても、テレビ会議と同様の会議を行うことができる。

また、本実施形態では、上記のように、複数のＨＭＤ２のそれぞれは、テキストデータを表示するとき、表示するテキストデータに付された装着者情報に対応する会議参加者を特定するための特定用画像２０をテキストデータと共に表示する。これにより、ＨＭＤ２に表示されたテキストデータに対応する会議参加者を容易に知ることができる。

また、本実施形態では、上記のように、複数のＨＭＤ２のそれぞれは、テキストデータを表示するとき、表示するテキストデータに付された音量情報で示される音量レベルが高いほど、テキストデータの表示サイズを大きくする。これにより、ＨＭＤ２に表示されたテキストデータに対応する会議参加者が大声で発言していたか否かを知ることができる。

また、本実施形態では、上記のように、複数のＨＭＤ２のそれぞれは、テキストデータの表示範囲をスクロールするスクロール指示を会議参加者から受け付け、スクロール指示を受け付けると、テキストデータの表示範囲をスクロールする。これにより、テキストデータの表示範囲を任意に変更することができるので、会議参加者の利便性が向上する。

また、本実施形態では、上記のように、複数のＨＭＤ２のそれぞれは、第１キーワードの入力を会議参加者から受け付け、第１キーワードの入力を受け付けると、受け付けた第１キーワードと同じ文字列を含むテキストデータを表示する。これにより、第１キーワードを含むテキストデータを選択的に表示させることができるので、会議参加者の利便性が向上する。たとえば、テキストデータは特定用画像２０と共に表示されるので、第１キーワードを発した会議参加者を容易に特定することができる。

また、本実施形態では、上記のように、複数のＨＭＤ２のそれぞれは、第２キーワードの入力を会議参加者から受け付け、第２キーワードの入力を受け付けると、表示中のテキストデータのうち受け付けた第２キーワードと同じ文字列の表示形態を変化させる。これにより、第２キーワードを含むテキストデータの特定が容易になる。たとえば、会議中に第２キーワードが何回使われたかをカウントする作業において効果的である。

また、本実施形態では、上記のように、複数のＨＭＤ２のそれぞれは、会議参加者により指定されたＨＭＤ２が撮影した会議映像を表示する。これにより、ＨＭＤ２に表示させる会議映像を任意に選択することができるので、会議参加者の利便性が向上する。

今回開示された実施形態は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記実施形態の説明ではなく特許請求の範囲によって示され、さらに、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれる。

たとえば、「処理装置」に相当する携帯端末（たとえば、スマートフォンやノート型パーソナルコンピューターなど）を各ＨＭＤ２に接続してもよい。あるいは、「処理装置」に相当する処理部（処理回路やメモリーなど）を各ＨＭＤ２に内蔵してもよい。この場合には、会議システム１からサーバー３を省略することができる。

１会議システム
２ＨＭＤ（ヘッドマウントディスプレイ）
３サーバー（処理装置）
２２カメラ部
２３マイク部

Claims

カメラ部および装着者から発せられる音声を集音し音声データを生成するマイク部をそれぞれが搭載する複数のヘッドマウントディスプレイと、
前記音声データをテキストデータに変換する変換処理を行い、前記変換処理を行った時刻を示す時刻情報を付した前記テキストデータを出力する処理装置と、を備え、
前記複数のヘッドマウントディスプレイのそれぞれは、前記処理装置から出力された前記テキストデータを前記時刻情報に基づき時系列に表示していくとともに、いずれかの前記ヘッドマウントディスプレイに搭載された前記カメラ部による撮影によって得られた映像データの映像を表示することを特徴とする会議システム。
前記処理装置は、前記テキストデータを出力するとき、出力する前記テキストデータの基となった前記音声データを生成した前記ヘッドマウントディスプレイの装着者を示す装着者情報を前記テキストデータに付し、
前記複数のヘッドマウントディスプレイのそれぞれは、前記テキストデータを表示するとき、表示する前記テキストデータに付された前記装着者情報で示される装着者を特定するための特定用画像を前記テキストデータと共に表示することを特徴とする請求項１に記載の会議システム。
前記処理装置は、前記テキストデータを出力するとき、出力する前記テキストデータの基となった前記音声データの音量レベルを示す音量情報を前記テキストデータに付し、
前記複数のヘッドマウントディスプレイのそれぞれは、前記テキストデータを表示するとき、表示する前記テキストデータに付された前記音量情報で示される前記音量レベルが高いほど、前記テキストデータの表示サイズを大きくすることを特徴とする請求項１または２に記載の会議システム。
前記複数のヘッドマウントディスプレイのそれぞれは、前記テキストデータの表示範囲をスクロールするスクロール指示を装着者から受け付け、前記スクロール指示を受け付けると、前記表示範囲をスクロールすることを特徴とする請求項１〜３のいずれか１項に記載の会議システム。
前記複数のヘッドマウントディスプレイのそれぞれは、第１キーワードの入力を装着者から受け付け、前記第１キーワードの入力を受け付けると、受け付けた前記第１キーワードと同じ文字列を含む前記テキストデータを表示することを特徴とする請求項１〜４のいずれか１項に記載の会議システム。
前記複数のヘッドマウントディスプレイのそれぞれは、第２キーワードの入力を装着者から受け付け、前記第２キーワードの入力を受け付けると、表示中の前記テキストデータのうち受け付けた前記第２キーワードと同じ文字列の表示形態を変化させることを特徴とする請求項１〜５のいずれか１項に記載の会議システム。
前記複数のヘッドマウントディスプレイのそれぞれは、装着者が指定した前記ヘッドマウントディスプレイにより撮影された前記映像データの映像を表示することを特徴とする請求項１〜６のいずれか１項に記載の会議システム。
前記複数のヘッドマウントディスプレイのそれぞれは、前記カメラ部の着脱が可能であることを特徴とする請求項１〜７のいずれか１項に記載の会議システム。
前記処理装置は、前記テキストデータ、前記音声データおよび前記映像データを記憶し、
前記処理装置は、出力キーワードの入力受付を行い、前記出力キーワードの入力を受け付けると、受け付けた前記出力キーワードと同じ文字列を含む前記テキストデータを対象テキストデータと認識するとともに、前記対象テキストデータに付された前記時刻情報で示される時刻を対象時刻と認識し、前記対象テキストデータ、前記対象テキストデータの基となった前記音声データ、および、前記対象時刻に撮影された前記映像データ、のうち少なくとも１つを出力することを特徴とする請求項１〜８のいずれか１項に記載の会議システム。