JP7292343B2

JP7292343B2 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: JP7292343B2
Application number: JP2021157164A
Authority: JP
Inventors: 征幸上村
Original assignee: SoftBank Corp
Current assignee: SoftBank Corp
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2023-06-16
Anticipated expiration: 2041-09-27
Also published as: JP2023047956A

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

従来、遠隔地にいる人同士が、電話回線やインターネット回線を用いてオンライン上で会議を行うリモート会議（遠隔会議）システムに関する技術が知られている。例えば、複数の拠点間で遠隔通話により会議を実施する電話会議システムにおいて、受話側で聞く発言者の音像位置を任意に設定するためのレンダリング処理手段を会議参加者側それぞれに設ける技術が知られている。

特開２００６－２７９４９２号公報

しかしながら、上記の従来技術では、リモート会議におけるユーザビリティを向上させることができるとは限らない。例えば、上記の従来技術では、受話側で各発言者の音声を仮想的にそれぞれの発言者位置に自由に配置させるにすぎない。そのため、複数の発言者のうち、相対的に、聞き手が注目する相手ではない（聞き手が注目していない）発言者の話を聞き手が満足に聞くことが困難となる可能性がある。したがって、上記の従来技術では、リモート会議におけるユーザビリティが高いとは言えない場合がある。

実施形態に係る情報処理プログラムは、複数の参加者が参加するリモート会議において、複数の発言者の発言を聞いている聞き手による前記複数の発言者それぞれの発言に対する傾聴の度合いを示す傾聴度合を前記複数の発言者それぞれについて算出する算出手順と、前記傾聴度合が高い高傾聴発言者と比べて、前記傾聴度合が低い低傾聴発言者の発言を、前記聞き手にとって聞きやすくする補助機能を提供する補助制御手順と、をコンピュータに実行させる。
また、前記算出手順は、前記聞き手の視線を検出する検出部によって検出された視線の方向に基づいて、前記傾聴度合を算出する。
また、前記算出手順は、前記検出部によって検出された視線の方向に基づいて、前記聞き手に注視されている発言者を特定し、特定された発言者の前記傾聴度合を他の発言者の前記傾聴度合よりも高く算出する。
また、前記補助制御手順は、前記低傾聴発言者の発言を文字変換した文字情報の中から、事前に設定された文字列と一致する文字列が検出された場合に、前記聞き手に対して前記低傾聴発言者の発言への注意を促す強調処理を行う。
また、前記事前に設定された文字列は、過去のリモート会議において事前に設定された文字列を教師データとして機械学習した結果に基づき、設定された文字列である。
また、前記補助制御手順は、前記強調処理として、前記複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように音声出力部から出力される前記複数の発言者それぞれの音声のうち、前記低傾聴発言者の音声の音量を他の発言者の音声の音量よりも大きくして出力するよう前記音声出力部を制御する。
また、前記補助制御手順は、前記強調処理として、前記複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように音声出力部から出力される前記複数の発言者それぞれの音声のうち、前記低傾聴発言者の音声に対応する音源の位置を元の位置から前記高傾聴発言者の音声に対応する音源の位置へ変更するよう前記音声出力部を制御する。
また、前記補助制御手順は、前記強調処理として、前記複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように音声出力部から出力される前記複数の発言者それぞれの音声のうち、前記低傾聴発言者の音声に対する残響処理を行うことなく前記低傾聴発言者の音声を出力するよう前記音声出力部を制御する。
また、前記補助制御手順は、前記強調処理として、表示部のそれぞれ異なる表示領域に表示される前記複数の参加者それぞれの参加者画像のうち、前記低傾聴発言者の前記参加者画像を他の発言者の前記参加者画像よりも視覚的に強調して表示するよう前記表示部を制御する。
また、前記補助制御手順は、前記強調処理として、前記検出された文字列に関する情報を表示するよう前記表示部を制御する。
また、前記補助制御手順は、前記リモート会議の最中に、表示部のそれぞれ異なる表示領域に表示される前記複数の参加者それぞれの参加者画像をそれぞれ録画した複数の個別録画画像のうち、前記聞き手によって指定された前記低傾聴発言者に対応する個別録画画像を再生して表示するよう前記表示部を制御する。
また、前記補助制御手順は、前記聞き手によって指定された再生時間における前記個別録画画像を再生して表示するよう前記表示部を制御する。
また、前記補助制御手順は、前記聞き手によって指定された再生速度で前記個別録画画像を再生して表示するよう前記表示部を制御する。
また、前記補助制御手順は、前記聞き手によって指定された前記低傾聴発言者に対応する前記表示領域に前記個別録画画像を再生して表示するよう前記表示部を制御する。
また、前記補助制御手順は、前記リモート会議の最中に、表示部のそれぞれ異なる表示領域に表示される前記複数の参加者それぞれの参加者画像を含む全画面画像を録画した全体録画画像を再生して表示するよう前記表示部を制御する。
また、前記リモート会議における発言ごとに、前記発言を文字変換した文字情報と、前記発言の発言時刻と、前記発言の発言者とを対応付けて記録した議事進捗情報を生成する生成手順をさらに備え、前記補助制御手順は、前記リモート会議の最中に、前記表示部に表示された前記議事進捗情報の中から、前記聞き手によって指定された前記発言の前記発言時刻を再生開始時刻として、前記再生開始時刻から前記全体録画画像を再生して表示するよう前記表示部を制御する。
また、前記傾聴度合が所定の閾値を超える超傾聴発言者を複数の前記聞き手それぞれについて特定し、各聞き手を各聞き手について特定された前記超傾聴発言者のクラスタに分類し、分類された各クラスタに関するクラスタ情報を生成する生成手順と、をさらに備え、前記補助制御手順は、前記リモート会議の最中に、前記生成手順によって生成された前記クラスタ情報を表示するよう表示部を制御する。
また、前記リモート会議における参加者の音声データを取得する取得手順と、前記音声データに基づいて、前記音声データの特徴を示す第１音声特徴データを生成する生成手順と、をさらに備え、前記補助制御手順は、他の参加者の他の情報処理装置が受信した前記音声データの特徴を示す第２音声特徴データと前記第１音声特徴データが一致しない場合に、前記参加者に対して通知を行う。
また、実施形態に係る情報処理方法は、コンピュータが実行する情報処理方法であって、複数の参加者が参加するリモート会議において、複数の発言者の発言を聞いている聞き手による前記複数の発言者それぞれの発言に対する傾聴の度合いを示す傾聴度合を前記複数の発言者それぞれについて算出する算出工程と、前記傾聴度合が高い高傾聴発言者と比べて、前記傾聴度合が低い低傾聴発言者の発言を、前記聞き手にとって聞きやすくする補助機能を提供する補助制御工程と、を含む。
また、実施形態に係る情報処理装置は、複数の参加者が参加するリモート会議において、複数の発言者の発言を聞いている聞き手による前記複数の発言者それぞれの発言に対する傾聴の度合いを示す傾聴度合を前記複数の発言者それぞれについて算出する算出部と、前記傾聴度合が高い高傾聴発言者と比べて、前記傾聴度合が低い低傾聴発言者の発言を、前記聞き手にとって聞きやすくする補助機能を提供する補助制御部と、を備える。

図１は、実施形態に係る情報処理システムの構成例を示す図である。図２は、実施形態に係る情報処理装置の構成例を示す図である。図３は、実施形態に係る画面の一例を示す図である。図４は、実施形態に係る複数音声の３次元配置の一例を示す図である。図５は、実施形態に係る傾聴度合について説明するための図である。図６は、実施形態に係る補助機能の一例を示す図である。図７は、実施形態に係る補助機能の一例を示す図である。図８は、実施形態に係る情報処理手順を示す図である。図９は、変形例に係る補助機能の一例を示す図である。図１０は、変形例に係る補助機能の一例を示す図である。図１１は、変形例に係る補助機能の一例を示す図である。図１２は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

（実施形態）
〔１．情報処理システムの構成例〕
図１は、実施形態に係る情報処理システム１の構成例を示す図である。情報処理システム１は、リモート会議サービスの利用者によって利用される情報処理装置１００と、リモート会議サービスを提供する配信サーバ２００とを備える。情報処理装置１００と配信サーバ２００とは所定のネットワークＮを介して、有線または無線により通信可能に接続される。なお、図１に示す情報処理システム１には、任意の数の情報処理装置１００と任意の数の配信サーバ２００とが含まれてもよい。以下では、リモート会議の一例として、Ｗｅｂ会議（オンライン会議ともいう）の場合について説明する。

情報処理装置１００は、Ｗｅｂ会議サービスの利用者によって利用される情報処理装置である。情報処理装置１００は、例えば、スマートフォンや、タブレット型端末や、ノート型ＰＣや、デスクトップＰＣや、携帯電話機や、ＰＤＡ（Personal Digital Assistant）等により実現される。なお、以下では、Ｗｅｂ会議サービスの利用者のうち、所定のＷｅｂ会議に参加している利用者のことを「参加者」と記載する。

また、情報処理装置１００には、Ｗｅｂ会議サービスを利用するためのアプリケーション（以下、「Ｗｅｂ会議アプリ」ともいう）がインストールされている。情報処理装置１００は、Ｗｅｂ会議アプリをインストールした利用者（後の参加者）を識別可能な参加者識別情報（例えば、ＩＤ）を発行する。また、情報処理装置１００は、参加者識別情報とともに、参加者に関する基本情報である参加者情報（参加者の本人情報、会議における参加者の役割（「プレゼンター」、「参加者」等）、デバイスおよびアプリケーションに関する情報、ＩＰアドレス、設定キーワード等）をメタデータとして配信サーバ２００に送信する。

配信サーバ２００は、Ｗｅｂ会議サービスを提供するサーバ装置である。具体的には、配信サーバ２００は、複数の参加者それぞれの参加者情報を複数の参加者それぞれの情報処理装置１００から受信する。続いて、配信サーバ２００は、参加者全員の参加者情報を集約した会議メタデータを生成する。続いて、配信サーバ２００は、会議メタデータを生成すると、生成した会議メタデータを複数の参加者それぞれの情報処理装置１００に送信する。また、配信サーバ２００は、参加者情報がアップデートされた場合、更新された会議メタデータをその都度生成し、複数の参加者それぞれの情報処理装置１００に送信する。

また、配信サーバ２００は、参加者全員の参加者情報に基づいて、各参加者の氏名、所属団体（社名、所属部署等）を設定キーワードとして取得する。また、配信サーバ２００は、参加者全員の参加者情報に基づいて、参加者によってあらかじめ設定されたキーワードを設定キーワードとして取得する。なお、設定キーワードは、単語に限らず、フレーズ等の文章であってもよい。また、配信サーバ２００は、会議での頻出ワード、呼びかけ語（「ちょっといいですか」等）を設定キーワードとして取得する。なお、設定キーワードの取得は、配信サーバ２００内に設けられた学習部が、過去のＷｅｂ会議において設定されたキーワードを教師データとして機械学習し、その学習結果に基づいて取得してもよい。配信サーバ２００は、設定キーワードを取得すると、各参加者の設定キーワードと各参加者の参加者識別情報とを対応付けたキーワードリストを生成する。配信サーバ２００は、キーワードリストを生成すると、生成したキーワードリストを複数の参加者それぞれの情報処理装置１００に送信する。

また、情報処理装置１００は、カメラ、マイク、スピーカー等の各種センサの機能を有するデバイスを備える。なお、以下では、情報処理装置１００を使用している参加者のことを「本人」と記載する場合がある。例えば、情報処理装置１００は、マイクが検出した参加者（本人）の音声に関する音声データおよびカメラが検出した参加者（本人）の画像データを参加者識別情報とともに配信サーバ２００に送信する。以下では、画像データが映像（動画像ともいう）である場合について説明する。なお、画像データには、静止画像が含まれてよい。

また、配信サーバ２００は、Ｗｅｂ会議に参加する複数の参加者それぞれの音声に関する音声データを複数の参加者それぞれの情報処理装置１００から受信する。続いて、配信サーバ２００は、受信した音声データを参加者（本人）以外の他の参加者の情報処理装置１００に送信する。また、配信サーバ２００は、複数の参加者それぞれの画像データを複数の参加者それぞれの情報処理装置１００から受信する。続いて、配信サーバ２００は、受信した画像データを参加者（本人）以外の他の参加者の情報処理装置１００に送信する。なお、配信サーバ２００は、参加者（本人）の画像データを配信しない場合、デフォルトの画像データ（例えば、参加者（本人）の名前やイニシャルを示す文字を含む画像データ）または参加者（本人）による設定等により登録された画像データを他の参加者の情報処理装置１００に送信する。

また、情報処理装置１００は、画面を備え、配信サーバ２００から受信した他の参加者の画像を画面に表示する。具体的には、情報処理装置１００は、Ｗｅｂ会議における複数の参加者それぞれの参加者画像を含む全画面画像を画面に表示する。また、情報処理装置１００は、Ｗｅｂ会議における複数の参加者それぞれの参加者画像を画面のそれぞれ異なる表示領域に表示する。

また、情報処理装置１００は、例えば、複数のスピーカーを備え、配信サーバ２００から受信した他の参加者の音声を複数のスピーカーそれぞれから出力する。具体的には、情報処理装置１００は、複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように複数の発言者それぞれの音声を複数のスピーカーそれぞれから出力する。ここで、発言者の人数とスピーカーの台数は、異なってよい。より具体的には、複数のスピーカーから出力される音像の中で、複数の発言者それぞれの音像の配置関係が定位される。例えば、右のスピーカーから聞こえるような定位であっても、左のスピーカーからも音量をぐっと下げたり、遅延を設けたりすることで音飛来の方向を聞き手に感知させることができる。すなわち、スピーカーの台数は、発言者の人数より少なくてよい。あるいは、スピーカーの台数は、発言者の人数より多くてもよい。このように、情報処理装置１００は、複数の発言者それぞれの音声の音源を３次元的に異なる位置に配置することで、聞き手にとって、複数の発言者それぞれの音声を聞き分けやすくすることができる。なお、情報処理装置１００は、複数のスピーカーの代わりに、イヤホン（ヘッドホン）を備え、配信サーバ２００から受信した他の参加者の音声をイヤホン（ヘッドホン）から出力してもよい。

例えば、情報処理装置１００は、会議の開始時は、会議メタデータに基づいて、複数の発言者それぞれの音声の音源の位置（定位ともいう）、音量、および音声加工（残響処理等）の有無を決定する。また、情報処理装置１００は、会議中は、複数の発言者の発言を聞いている聞き手の複数の発言者それぞれに対する傾聴の度合いを示す傾聴度合に基づいて、複数の発言者それぞれの音声の定位、音量、および音声加工の有無を決定する。また、情報処理装置１００は、複数の発言者それぞれの音声が、それぞれの音声について決定された音声の定位から、それぞれの音声について決定された音量および音声加工された状態で聞こえるように、複数の発言者それぞれの音声を出力する。なお、傾聴度合についての詳細は後述する。また、情報処理装置１００は、利用者のアプリケーションの設定により、複数音声の分離加減（定位分離、音量、残響音のメリハリ具合）を変更する。

以下では、参加者ＩＤ「Ｕ１」により特定される参加者を「参加者Ｕ１」とする場合がある。このように、以下では、「参加者Ｕ＊（＊は任意の数値）」と記載した場合、その参加者は参加者ＩＤ「Ｕ＊」により特定される参加者であることを示す。例えば、「参加者Ｕ２」と記載した場合、その参加者は参加者ＩＤ「Ｕ２」により特定される参加者である。

また、以下では、情報処理装置１００を利用する参加者に応じて、情報処理装置１００を情報処理装置１００－１、１００－２として説明する。例えば、情報処理装置１００－１は、参加者Ｕ１により使用される情報処理装置１００である。また、例えば、情報処理装置１００－２は、参加者Ｕ２により使用される情報処理装置１００である。また、以下では、情報処理装置１００－１、１００－２について、特に区別なく説明する場合には、情報処理装置１００と記載する。

なお、上述した実施形態では、リモート会議がＷｅｂ会議である場合について説明したが、本実施形態に係るリモート会議は、Ｗｅｂ会議に限られない。例えば、本実施形態に係るリモート会議は、Ｗｅｂ会議の他にも、テレビ会議または電話会議であってもよい。

〔２．情報処理装置の構成例〕
図２は、実施形態に係る情報処理装置１００の構成例を示す図である。図２に示すように、情報処理装置１００は、通信部１１０と、記憶部１２０と、表示部１３０と、音声出力部１４０と、検出部１５０と、制御部１６０とを有する。なお、情報処理装置１００は、情報処理装置１００の利用者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）を有してもよい。

（通信部１１０）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。また、通信部１１０は、ネットワークＮ（図示略）と有線又は無線で接続され、例えば、配信サーバ２００や他の情報処理装置１００との間で情報の送受信を行う。

（記憶部１２０）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２０は、各種プログラム（情報処理プログラムの一例に相当）を記憶する。例えば、記憶部１２０は、Ｗｅｂ会議アプリのプログラムを記憶する。

また、記憶部１２０は、各種データを記憶する。例えば、記憶部１２０は、会議制御部１６１が取得した会議メタデータを記憶する。また、記憶部１２０は、生成部１６３が生成した議事進捗情報を記憶する。また、記憶部１２０は、マイクに入力された参加者の音声データを記憶する。また、記憶部１２０は、カメラによって撮影された参加者の画像データを記憶する。また、記憶部１２０は、参加者の画像を録画した録画データを記憶する。また、記憶部１２０は、会議制御部１６１が取得した他の参加者の音声データを記憶する。また、記憶部１２０は、会議制御部１６１が取得した他の参加者の画像データを記憶する。また、記憶部１２０は、会議制御部１６１が取得した他の参加者の画像を録画した録画データを記憶する。

（表示部１３０）
表示部１３０は、ディスプレイ等の画像出力デバイスによって実現される。表示部１３０は、会議制御部１６１または補助制御部１６５の制御に従って、各種情報を表示する。なお、情報処理装置１００にタッチパネルが採用される場合には、入力部と表示部１３０とは一体化される。また、以下の説明では、表示部１３０を画面と記載する場合がある。

具体的には、表示部１３０は、Ｗｅｂ会議における複数の参加者それぞれの参加者画像をそれぞれ異なる表示領域に表示する。例えば、表示部１３０は、会議制御部１６１の制御に従って、会議制御部１６１が取得した複数の参加者それぞれの参加者画像をそれぞれ異なる表示領域に表示する。

また、表示部１３０は、Ｗｅｂ会議における複数の参加者それぞれの参加者画像を含む全画面画像をさらに表示する。例えば、表示部１３０は、会議制御部１６１の制御に従って、会議制御部１６１が取得した複数の参加者それぞれの参加者画像を含む全画面画像を表示する。

（音声出力部１４０）
音声出力部１４０は、スピーカー等の音声出力デバイスによって実現される。音声出力部１４０は、例えば、聞き手の左右に配置された２つのスピーカーによって実現される。例えば、音声出力部１４０は、聞き手の情報処理装置１００から見て所定距離だけ左の位置に設置されたスピーカー（以下、左スピーカーともいう）および情報処理装置１００本体から見て所定距離だけ右の位置に設置されたスピーカー（以下、右スピーカーともいう）によって実現される。例えば、音声出力部１４０は、ステレオ方式により、左右２つのスピーカーによって音声を出力する。

また、音声出力部１４０は、Ｗｅｂ会議における複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように複数の発言者それぞれの音声を出力する。例えば、音声出力部１４０は、会議制御部１６１の制御に従って、会議制御部１６１が取得した複数の発言者それぞれの音声が、それぞれ異なる位置に配置された複数の音源それぞれから聞こえるように複数の発言者それぞれの音声を出力する。また、以下の説明では、音声出力部１４０をスピーカーと記載する場合がある。

（検出部１５０）
検出部１５０は、各種センサデバイスによって実現される。例えば、検出部１５０は、音センサであるマイク等の集音デバイスによって実現される。音センサは、参加者の音声などを集音し、集音した音声データを制御部１６０に出力する。また、以下の説明では、音センサをマイクと記載する場合がある。

また、検出部１５０は、画像センサであるカメラ等の撮像デバイスによって実現される。画像センサは、参加者などの画像を撮影し、撮影した画像データを制御部１６０に出力する。また、以下の説明では、画像センサをカメラと記載する場合がある。

また、検出部１５０は、聞き手の視線を検出する。具体的には、検出部１５０は、公知の視線検出技術を用いて、聞き手の視線を検出する。例えば、検出部１５０は、カメラによって取得された聞き手の画像に含まれる聞き手の目の目頭と虹彩の位置関係に基づいて、聞き手の視線の方向を特定する。

あるいは、検出部１５０は、赤外線ＬＥＤおよび赤外線カメラを備える。検出部１５０は、赤外線ＬＥＤで聞き手の顔を照らした状態で、赤外線カメラによって聞き手の顔を撮影する。検出部１５０は、赤外線カメラによって取得された聞き手の画像に含まれる聞き手の目の角膜反射と瞳孔の位置関係に基づいて、聞き手の視線の方向を特定してもよい。

（制御部１６０）
制御部１６０は、コントローラ（Controller）であり、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等によって、情報処理装置１００の内部の記憶装置に記憶されている各種プログラム（情報処理プログラムの一例に相当）がＲＡＭ等の記憶領域を作業領域として実行されることにより実現される。

図２に示すように、制御部１６０は、会議制御部１６１と、算出部１６２と、生成部１６３と、取得部１６４と、補助制御部１６５とを有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部１６０の内部構成は、図２に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

（会議制御部１６１）
会議制御部１６１は、入力部を介して参加者の操作を受け付けると、Ｗｅｂ会議アプリを起動する。また、会議制御部１６１は、Ｗｅｂ会議アプリを起動すると、カメラおよびマイクを起動する。続いて、会議制御部１６１は、マイクが検出した参加者（本人）の音声に関する音声データおよびカメラが検出した参加者（本人）の画像データを参加者識別情報とともに配信サーバ２００に送信する。

また、会議制御部１６１は、参加者識別情報とともに、参加者に関する基本情報である参加者情報（参加者の本人情報、会議における参加者の役割（「プレゼンター」、「参加者」等）、デバイスおよびアプリケーションに関する情報、ＩＰアドレス等）をメタデータとして配信サーバ２００に送信する。

また、会議制御部１６１は、配信サーバ２００から会議メタデータを取得する。例えば、会議制御部１６１は、参加者Ｕ１１および参加者Ｕ２１～Ｕ２３の４名の参加者によるＷｅｂ会議の会議メタデータを取得する。会議制御部１６１は、会議メタデータを取得すると、会議メタデータに基づいて、会議の開始時における複数の発言者それぞれの参加者画像の配置を決定する。

図３は、実施形態に係る画面の一例を示す図である。図３では、参加者Ｕ１１および参加者Ｕ２１～Ｕ２３の４名の参加者が参加するＷｅｂ会議において、３名の発言者である参加者Ｕ２１～Ｕ２３（以下、発言者Ｕ２１～Ｕ２３ともいう）の発言を聞いている聞き手である参加者Ｕ１１（以下、聞き手Ｕ１１ともいう）の情報処理装置１００－１１の画面の一例を示す。会議制御部１６１は、図３に示すような画面を表示部１３０－１１に表示する。

図３では、会議制御部１６１は、Ｗｅｂ会議における３名の参加者Ｕ２１～Ｕ２３それぞれの参加者画像Ｇ２１～Ｇ２３を配信サーバ２００から取得する。続いて、会議制御部１６１は、３名の参加者Ｕ２１～Ｕ２３それぞれの参加者画像Ｇ２１～Ｇ２３を画面のそれぞれ異なる表示領域Ｆ２１～Ｆ２３に表示する。図３に示す例では、会議制御部１６１は、会議メタデータのうち、会議における参加者の役割を示す情報に基づいて、会議の開始時における参加者Ｕ２１～Ｕ２３それぞれの参加者画像Ｇ２１～Ｇ２３を表示する表示領域Ｆ２１～Ｆ２３の位置を決定する。

例えば、会議制御部１６１は、参加者Ｕ２１の役割が「プレゼンター」であることに基づいて、会議の開始時における参加者Ｕ２１の参加者画像Ｇ２１を中央の表示領域Ｆ２１に配置することを決定する。また、会議制御部１６１は、表示領域Ｆ２１に参加者Ｕ２１の音源の位置を示すアイコンＧ２１１を表示する。

また、会議制御部１６１は、残りの参加者Ｕ２２（参加者Ｕ２３）の役割が「参加者」であることに基づいて、会議の開始時における参加者Ｕ２２（参加者Ｕ２３）の参加者画像Ｇ２２（参加者画像Ｇ２３）を中央より右の表示領域Ｆ２２（中央より左の表示領域Ｆ２３）に配置することを決定する。また、会議制御部１６１は、表示領域Ｆ２２（表示領域Ｆ２３）に参加者Ｕ２２（参加者Ｕ２３）の音源の位置を示すアイコンＧ２２１（アイコンＧ２３１）を表示する。

また、会議制御部１６１は、参加者Ｕ２１～Ｕ２３それぞれの参加者画像Ｇ２１～Ｇ２３を含む全画面画像Ｇ１１を画面に表示する。なお、全画面画像Ｇ１１のうち、参加者画像Ｇ２１～Ｇ２３以外の領域には、会議に関する資料等が表示されるが、図３では描画を省略する。

図４は、実施形態に係る複数音声の３次元配置の一例を示す図である。図４では、参加者Ｕ１１および参加者Ｕ２１～Ｕ２３の４名の参加者が参加するＷｅｂ会議において、３名の発言者Ｕ２１～Ｕ２３の発言を聞いている聞き手である参加者Ｕ１１にとっての３名の発言者Ｕ２１～Ｕ２３それぞれの音声の音源の配置の一例を示す。

図４に示す例では、聞き手Ｕ１１の情報処理装置１００－１１から見て所定距離だけ左の位置に左スピーカー１４０－１１－Ｌが配置されている。また、聞き手Ｕ１１の情報処理装置１００－１１から見て所定距離だけ右の位置に右スピーカー１４０－１１－Ｒが配置されている。また、情報処理装置１００－１１の表示部１３０－１１には、発言者Ｕ２１～Ｕ２３の参加者画像Ｇ２１～Ｇ２３がそれぞれ異なる表示領域に表示されている。また、情報処理装置１００－１１の表示部１３０－１１の上部には、検出部１５０－１１を構成するカメラが設置されている。

図４では、会議制御部１６１は、Ｗｅｂ会議における３名の発言者Ｕ２１～Ｕ２３それぞれの音声データを配信サーバ２００から取得する。続いて、会議制御部１６１は、複数の発言者Ｕ２１～Ｕ２３それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように複数の発言者Ｕ２１～Ｕ２３それぞれの音声を出力する。図４に示す例では、会議制御部１６１は、会議メタデータのうち、会議における参加者の役割を示す情報に基づいて、会議の開始時における複数の発言者それぞれの音声の音源の位置（定位ともいう）、音量、および音声加工（残響処理等）の有無を決定する。

例えば、会議制御部１６１は、参加者Ｕ２１の役割が「プレゼンター」であることに基づいて、会議の開始時における参加者Ｕ２１の音声の音源を聞き手Ｕ１１にとって最も聞きやすい目の前（中央）の位置に配置することを決定する。また、会議制御部１６１は、残りの参加者Ｕ２２（参加者Ｕ２３）の役割が「参加者」であることに基づいて、会議の開始時における参加者Ｕ２２（参加者Ｕ２３）の音声の音源を参加者Ｕ２１の音声よりも聞きにくい中央より右の位置（中央より左の位置）に配置することを決定する。

また、会議制御部１６１は、参加者Ｕ２１の役割が「プレゼンター」であることに基づいて、会議の開始時における参加者Ｕ２１の音声の音量を、聞き手Ｕ１１にとって最も聞きやすい大きい音量（例えば、「１０」）にすることを決定する。また、会議制御部１６１は、残りの参加者Ｕ２２（参加者Ｕ２３）の役割が「参加者」であることに基づいて、会議の開始時における参加者Ｕ２２（参加者Ｕ２３）の音声の音量を参加者Ｕ２１の音声の音量よりも小さい音量（例えば、「７」）にすることを決定する。

また、一般的に、複数の音声のうち、一部の音声に対して音声加工（例えば、残響処理）を施すと、音声加工を施さない音声に対して脳が集中しやすくなることが知られている。そこで、会議制御部１６１は、参加者Ｕ２１の役割が「プレゼンター」であることに基づいて、会議の開始時における参加者Ｕ２１の音声に対する残響処理を行わないことを決定する。また、会議制御部１６１は、残りの参加者Ｕ２２（参加者Ｕ２３）の役割が「参加者」であることに基づいて、会議の開始時における参加者Ｕ２２（参加者Ｕ２３）の音声に対する残響処理を行うことを決定する。

（算出部１６２）
算出部１６２は、複数の参加者が参加するＷｅｂ会議において、複数の発言者の発言を聞いている聞き手による複数の発言者それぞれの発言に対する傾聴の度合いを示す傾聴度合を複数の発言者それぞれについて算出する。具体的には、算出部１６２は、検出部１５０によって検出された視線の方向に基づいて、傾聴度合を算出する。より具体的には、算出部１６２は、検出部１５０によって検出された視線の方向に基づいて、聞き手に注視されている発言者を特定し、特定された発言者の傾聴度合を他の発言者の傾聴度合よりも高く算出する。

図５は、実施形態に係る傾聴度合について説明するための図である。図５は、図４における傾聴度合について説明する。図５では、算出部１６２は、検出部１５０によって検出された聞き手Ｕ１１の視線の方向に基づいて、聞き手Ｕ１１に注視されている発言者Ｕ２１を特定し、特定された発言者Ｕ２１の傾聴度合を他の発言者Ｕ２２およびＵ２３の傾聴度合よりも高く算出する。例えば、算出部１６２は、聞き手Ｕ１１に注視されている発言者Ｕ２１の傾聴度合を他の発言者Ｕ２２およびＵ２３の傾聴度合である「７０」よりも高い「１００」と算出する。また、以下では、他の発言者と比べて、相対的に傾聴度合が高い発言者を「高傾聴発言者」と記載する。また、他の発言者と比べて、相対的に傾聴度合が低い発言者を「低傾聴発言者」と記載する。図４および図５に示す例では、他の発言者Ｕ２２およびＵ２３と比べて、相対的に傾聴度合が高い発言者Ｕ２１が高傾聴発言者である。また、他の発言者Ｕ２１と比べて、相対的に傾聴度合が低い発言者Ｕ２２およびＵ２３が低傾聴発言者である。

（生成部１６３）
生成部１６３は、Ｗｅｂ会議における発言ごとに、発言を文字変換した文字情報と、発言の発言時刻と、発言の発言者とを対応付けて記録した議事進捗情報を生成する。例えば、生成部１６３は、会議制御部１６１が取得した他の参加者の音声データおよび検出部１５０のマイクが検出した参加者の音声データに基づいて、公知の音声認識技術を用いて、各発言に対応する音声データを文字変換した文字情報を生成する。また、生成部１６３は、会議制御部１６１が他の参加者の音声データとともに取得した他の参加者の参加者識別情報に基づいて、各発言の発言者を特定する。また、生成部１６３は、会議制御部１６１が取得した他の参加者の音声データの取得時刻（発言時刻に相当）および検出部１５０のマイクが検出した参加者の音声データの取得時刻（発言時刻に相当）に基づいて、各発言の発言時刻を特定する。続いて、生成部１６３は、各発言を文字変換した文字情報と、各発言の発言時刻と、各発言の発言者とを対応付けて記録した議事進捗情報を生成する。生成部１６３は、議事進捗情報を生成すると、生成した議事進捗情報を記憶部１２０に記憶する。

（取得部１６４）
取得部１６４は、Ｗｅｂ会議の前に、事前に設定されたキーワードやフレーズ等である設定キーワードを取得する。例えば、取得部１６４は、配信サーバ２００からキーワードリストを取得する。続いて、取得部１６４は、キーワードリストを取得すると、取得したキーワードリストに基づいて、参加者の参加者識別情報と対応付けられた設定キーワードを取得する。

（補助制御部１６５）
補助制御部１６５は、傾聴度合が高い高傾聴発言者と比べて、傾聴度合が低い低傾聴発言者の発言を、聞き手にとって聞きやすくする補助機能を提供する。具体的には、補助制御部１６５は、低傾聴発言者の発言を文字変換した文字情報の中から、事前に設定された文字列と一致する文字列が検出された場合に、聞き手に対して低傾聴発言者の発言への注意を促す強調処理を行う。

図６は、実施形態に係る補助機能の一例を示す図である。図６は、発言者Ｕ２２の発言に聞き手Ｕ１１の設定キーワードである「キーワード＃１」（例えば、「キーワード＃１」は、聞き手Ｕ１１の名前であってよい。）が含まれる点が図４と異なる。補助制御部１６５は、記憶部１２０を参照して、図４における低傾聴発言者である発言者Ｕ２２の発言を文字変換した文字情報の中から、聞き手Ｕ１１の設定キーワードである「キーワード＃１」と一致する文字列を検出する。

補助制御部１６５は、発言者Ｕ２２の発言に聞き手Ｕ１１の設定キーワードである「キーワード＃１」と一致する文字列を検出した場合に、強調処理の一例として、低傾聴発言者である発言者Ｕ２２の音声の音量を他の発言者Ｕ２１およびＵ２３の音声の音量よりも大きくして出力するよう音声出力部１４０を制御する。例えば、補助制御部１６５は、低傾聴発言者である発言者Ｕ２２の音声の音量を、聞き手Ｕ１１にとって最も聞きやすい大きい音量（例えば、「１０」）にして出力するよう音声出力部１４０を制御する。また、補助制御部１６５は、他の発言者Ｕ２１およびＵ２３の音声の音量を、発言者Ｕ２２の音声の音量よりも小さい音量（例えば、「７」）にして出力するよう音声出力部１４０を制御する。

また、補助制御部１６５は、強調処理の一例として、低傾聴発言者である発言者Ｕ２２の音声に対する残響処理を行うことなく発言者Ｕ２２の音声を出力するよう音声出力部１４０を制御する。また、補助制御部１６５は、強調処理の一例として、他の発言者Ｕ２１およびＵ２３の音声に対する残響処理を行った状態で他の発言者Ｕ２１およびＵ２３の音声を出力するよう音声出力部１４０を制御する。

また、補助制御部１６５は、強調処理の一例として、複数の参加者画像のうち、低傾聴発言者である発言者Ｕ２２の参加者画像Ｇ２２を視覚的に強調して表示するよう表示部１３０を制御する。例えば、補助制御部１６５は、低傾聴発言者である発言者Ｕ２２の参加者画像Ｇ２２をハイライト表示または点滅表示するよう表示部１３０を制御する。

なお、図６では図示を省略するが、補助制御部１６５は、強調処理の一例として、検出された文字列に関する情報を表示するよう表示部１３０を制御してもよい。図６の例では、補助制御部１６５は、検出された設定キーワードである「キーワード＃１」を表示するよう表示部１３０を制御する。

図７は、実施形態に係る補助機能の一例を示す図である。図７は、図４における低傾聴発言者である発言者Ｕ２２の音声に対応する音源の位置と図４における高傾聴発言者であるＵ２１の音声に対応する音源の位置が入れ替わっている点が図６と異なる。

補助制御部１６５は、発言者Ｕ２２の発言に聞き手Ｕ１１の設定キーワードである「キーワード＃１」と一致する文字列を検出した場合に、強調処理の一例として、低傾聴発言者である発言者Ｕ２２の音声に対応する音源の位置を元の位置（図４および図６における「右」の位置）から高傾聴発言者である発言者Ｕ２１の音声に対応する音源の位置（図４および図６における「中央」の位置）へ変更するよう音声出力部１４０を制御する。

また、補助制御部１６５は、強調処理の一例として、複数の参加者画像のうち、低傾聴発言者である発言者Ｕ２２の参加者画像Ｇ２２の表示位置を元の位置（図４および図６における「右」の位置）から高傾聴発言者である発言者Ｕ２１の参加者画像Ｇ２１の表示位置（図４および図６における「中央」の位置）へ変更するよう表示部１３０を制御する。

なお、上述した実施形態では、補助制御部１６５が、低傾聴発言者の発言の中に設定キーワードと一致する文字列を検出した場合に、低傾聴発言者の音声に対応する音源の位置を元の位置から高傾聴発言者に対応する音源の位置へ変更するよう音声出力部１４０を制御する場合について説明したが、発言者の定位位置を変更するトリガーは、設定キーワードの検出に限られない。具体的には、検出部１５０は、聞き手の視線の方向の変化を検出する。例えば、検出部１５０は、聞き手の視線の方向が高傾聴発言者から低傾聴発言者へ変化したことを検出する。補助制御部１６５は、検出部１５０によって検出された聞き手の視線の方向の変化に基づいて、聞き手に注視され始めた低傾聴発言者を特定する。続いて、補助制御部１６５は、特定された低傾聴発言者を聞き手が注視している時間の長さが所定の閾値を超えたか否かを判定する。補助制御部１６５は、特定された低傾聴発言者を聞き手が注視している時間の長さが所定の閾値を超えたと判定した場合、低傾聴発言者の音声に対応する音源の位置を元の位置から高傾聴発言者に対応する音源の位置へ変更するよう音声出力部１４０を制御する。

なお、算出部１６２は、補助制御部１６５の代わりに、検出部１５０によって検出された聞き手の視線の方向の変化に基づいて、聞き手に注視され始めた低傾聴発言者を特定してもよい。続いて、算出部１６２は、特定された低傾聴発言者を聞き手が注視している時間の長さが所定の閾値を超えたか否かを判定する。続いて、算出部１６２は、特定された低傾聴発言者を聞き手が注視している時間の長さが所定の閾値を超えたと判定した場合、特定された低傾聴発言者の傾聴度合を他の発言者の傾聴度合よりも高く算出する。すなわち、算出部１６２は、聞き手によって注視されている時間の長さが所定の閾値を超えた発言者の傾聴度合を他の発言者の傾聴度合よりも高く算出する。つまり、聞き手によって注視されている時間の長さが所定の閾値を超えた発言者は、低傾聴発言者から高傾聴発言者へと変更されてもよい。補助制御部１６５は、算出部１６２によって算出された傾聴度合に基づいて、新たに高傾聴発言者へと変更された発言者（元の低傾聴発言者）の音声に対応する音源の位置を元の位置から元の高傾聴発言者に対応する音源の位置へ変更するよう音声出力部１４０を制御してもよい。

〔３．情報処理手順〕
図８は、実施形態に係る情報処理手順を示す図である。図８に示すように、情報処理装置１００の検出部１５０は、複数の参加者が参加するリモート会議において、複数の発言者の発言を聞いている聞き手の視線を検出する（ステップＳ１０１）。

情報処理装置１００の算出部１６２は、複数の発言者それぞれの発言に対する傾聴の度合いを示す傾聴度合を複数の発言者それぞれについて算出する（ステップＳ１０２）。例えば、算出部１６２は、検出部１５０が検出した視線の方向に基づいて、聞き手に注視されている発言者を特定し、特定された発言者の傾聴度合を他の発言者の傾聴度合よりも高く算出する。

情報処理装置１００の補助制御部１６５は、傾聴度合が高い高傾聴発言者と比べて、傾聴度合が低い低傾聴発言者の発言を、聞き手にとって聞きやすくする補助機能を提供する（ステップＳ１０３）。例えば、補助制御部１６５は、低傾聴発言者の発言を文字変換した文字情報の中から、事前に設定された文字列と一致する文字列が検出された場合に、聞き手に対して低傾聴発言者の発言への注意を促す強調処理を行う。

〔４．変形例〕
上述した実施形態に係る情報処理システム１は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、情報処理システム１の他の実施形態について説明する。なお、実施形態と同一部分には、同一符号を付して説明を省略する。

〔４－１．タイムシフト再生〕
図９は、変形例に係る補助機能の一例を示す図である。図９では、聞き手Ｕ１１が低傾聴発言者である発言者Ｕ２２の発言を聞き逃してしまったとする。そこで、聞き手Ｕ１１は、聞き逃してしまった発言者Ｕ２２の参加者画像を録画した個別録画画像Ｇ２２´を巻き戻して高速で再生する操作を行う。例えば、聞き手Ｕ１１は、図３に示す画面において、低傾聴発言者である発言者Ｕ２２の画像Ｇ２２を選択する操作（クリックまたはタップなどの操作）を行ったとする。なお、聞き手Ｕ１１が発言者Ｕ２２を指定する操作は、発言者Ｕ２２の画像Ｇ２２を選択する操作に限られない。例えば、聞き手Ｕ１１が発言者Ｕ２２を指定する操作は、聞き手Ｕ１１が専用のフィールドに発言者Ｕ２２を識別可能な情報を入力することによって行われてもよい。

補助制御部１６５は、Ｗｅｂ会議の最中に、複数の参加者それぞれの参加者画像をそれぞれ録画した複数の個別録画画像のうち、聞き手Ｕ１１によって指定された低傾聴発言者である発言者Ｕ２２に対応する個別録画画像Ｇ２２´を再生して表示するよう表示部１３０を制御する。具体的には、補助制御部１６５は、聞き手Ｕ１１から個別録画画像を再生したい発言者の指定を受け付けると、聞き手Ｕ１１によって指定された発言者Ｕ２２に対応する個別録画画像Ｇ２２´を配信サーバ２００から取得する。続いて、補助制御部１６５は、聞き手Ｕ１１よって指定された低傾聴発言者である発言者Ｕ２２の画像の表示領域Ｆ２２に個別録画画像Ｇ２２´を再生して表示するよう表示部１３０を制御する。なお、配信サーバ２００は、複数の参加者それぞれの参加者画像をそれぞれ録画した複数の個別録画画像を記憶する。そして、配信サーバ２００は、聞き手によって指定された個別録画画像を情報処理装置１００にストリーミング配信してもよい。例えば、補助制御部１６５は、聞き手Ｕ１１から個別録画画像を再生したい発言者の指定を受け付けると、配信サーバ２００からストリーミング配信された個別録画画像Ｇ２２´を表示するよう表示部１３０を制御する。

また、補助制御部１６５は、聞き手Ｕ１１によって指定された再生速度「１．５倍速」で個別録画画像Ｇ２２´を再生して表示するよう表示部１３０を制御する。図９に示す個別録画画像Ｇ２２´には、聞き手Ｕ１１によって指定された再生速度「１．５倍速」を示すアイコンＧ２２２が含まれる。また、個別録画画像Ｇ２２´には、聞き手Ｕ１１によって指定されていないが、選択可能な再生速度「１．０倍速」を示すアイコンＧ２２３および再生速度「２．０倍速」を示すアイコンＧ２２４が含まれる。

また、補助制御部１６５は、聞き手Ｕ１１によって指定された再生時間「３０秒」における個別録画画像Ｇ２２´を再生して表示するよう表示部１３０を制御する。図９に示す個別録画画像Ｇ２２´には、聞き手Ｕ１１によって指定された再生時間「３０秒」を示すアイコンＧ２２５が含まれる。また、個別録画画像Ｇ２２´には、聞き手Ｕ１１によって指定されていないが、選択可能な再生時間「１０秒」を示すアイコンＧ２２６が含まれる。なお、聞き手Ｕ１１がアイコンＧ２２５またはアイコンＧ２２６を選択する回数に比例して、再生時間が長くなる。

また、個別録画画像Ｇ２２´には、聞き手Ｕ１１によって選択された場合に、録画画像から元のＷｅｂ会議の画像（ライブ画像）に切り替え可能なボタンＧ２２７が含まれる。

また、上述した例では、補助制御部１６５が、Ｗｅｂ会議の最中に、個別録画画像を再生して表示するよう表示部１３０を制御する場合について説明したが、補助制御部１６５は、Ｗｅｂ会議の最中に、全画面画像を録画した全体録画画像を再生して表示するよう表示部１３０を制御してもよい。具体的には、表示部１３０は、参加者の操作に従って、Ｗｅｂ会議の最中に、議事進捗情報を表示する。補助制御部１６５は、議事進捗情報の中から、聞き手によって指定された発言の発言時刻を再生開始時刻として受け付けた場合に、受け付けた再生開始時刻から全画面画像を録画した全体録画画像を配信サーバ２００から取得する。続いて、補助制御部１６５は、取得した全体録画画像を再生して表示するよう表示部１３０を制御する。これにより、情報処理装置１００は、例えば、前の会議が押して２０分遅れの参加となったような聞き手が、重要な部分のみを倍速再生してキャッチアップするのを助けることができる。

〔４－２．傾聴クラスタ表現〕
図１０は、変形例に係る補助機能の一例を示す図である。一般的に、Ｗｅｂ会議では、対面と異なり、相手の視線を感じることが難しい。そこで、生成部１６３は、傾聴度合が所定の閾値を超える超傾聴発言者を複数の聞き手それぞれについて特定し、各聞き手を各聞き手について特定された超傾聴発言者のクラスタに分類し、分類された各クラスタに関するクラスタ情報を生成する。

図９に示す例では、生成部１６３は、４名の聞き手である「ａｙｙａｐａｎ」、「ｄｏｉｇａｋｉ」、「ｉｓｈｉｇｅ」、および「ｙａｍａｄａ」それぞれについて傾聴度合が所定の閾値を超える超傾聴発言者である発言者Ｕ２１を特定し、４名の聞き手を発言者Ｕ２１のクラスタＣＬ２１に分類し、分類されたクラスタＣＬ２１に関するクラスタ情報を生成する。例えば、生成部１６３は、クラスタＣＬ２１によって示される傾聴度合に加えて、４名の聞き手のそれぞれの表情や相槌等の感情を認識可能なアイコンを含む画像Ｇ３１を生成する。

また、生成部１６３は、クラスタＣＬ２１の参加者と同じＷｅｂ会議に参加している３名の聞き手である「ｉｗａｋｉ」、「ｔｏｎｏｍａ」、および「ｙａｍａｏｋａ」それぞれについて傾聴度合が所定の閾値を超える超傾聴発言者である発言者Ｕ２２を特定し、３名の聞き手を発言者Ｕ２２のクラスタＣＬ２２に分類し、分類されたクラスタＣＬ２２に関するクラスタ情報を生成する。例えば、生成部１６３は、クラスタＣＬ２２によって示される傾聴度合に加えて、３名の聞き手のそれぞれの表情や相槌等の感情を認識可能なアイコンを含む画像Ｇ３２を生成する。

補助制御部１６５は、Ｗｅｂ会議の最中に、生成部１６３によって生成された画像Ｇ３１および画像Ｇ３２を表示するよう表示部１３０を制御する。

これにより、情報処理装置１００は、リモート会議において、複数の参加者それぞれが注目する相手の視線を視覚的に視認可能とすることができる。また、情報処理装置１００は、複数の参加者それぞれが、同じＷｅｂ会議に参加しながら、複数のグループにわかれて議論することも、自由にグループ間の行き来も可能とすることができる。

〔４－３．音声品質ヘルスチェック〕
図１１は、変形例に係る補助機能の一例を示す図である。一般的に、Ｗｅｂ会議では、対面と異なり、相手に声が正常に届いているか自分ではわからない。そこで、図１１では、本人（音声の出力元）である参加者Ｕ１の情報処理装置１００－１から出力された第１音声データの特徴を示す第１音声特徴データと、他の会議参加者（音声の出力先）である参加者Ｕ２の情報処理装置１００－２から出力された第２音声データの特徴を示す第２音声特徴データが一致しない場合に、参加者Ｕ１に対して通知を行う。

具体的には、情報処理装置１００－１の会議制御部１６１は、Ｗｅｂ会議における本人の音声データ（第１音声データ）を取得する。会議制御部１６１は、第１音声データを取得すると、第１音声データを配信サーバ２００に送信する。配信サーバ２００は、情報処理装置１００－１から第１音声データを取得すると、取得した第１音声データを情報処理装置１００－２に送信する。また、配信サーバ２００は、情報処理装置１００－１から第１音声データを取得すると、取得した第１音声データの特徴を示す音声特徴データを生成する。ここで、音声特徴データは、例えば、音声振幅の時間変化量や平均振幅通過連続数を特徴化（数値化）したデータである。

また、情報処理装置１００－１の生成部１６３は、会議制御部１６１が取得した第１音声データに基づいて、第１音声データの特徴を示す第１音声特徴データを生成する。生成部１６３は、第１音声特徴データを生成すると、第１音声特徴データを配信サーバ２００に送信する。配信サーバ２００は、情報処理装置１００－１から第１音声特徴データを取得すると、取得した第１音声特徴データと取得した第１音声データの特徴を示す音声特徴データとを比較して、両者が一致する場合に、第１音声特徴データを情報処理装置１００－２に送信する。

情報処理装置１００－２の会議制御部１６１は、配信サーバ２００から第１音声データを取得すると、第１音声データを音声出力部１４０から出力する。情報処理装置１００－２の取得部１６４は、音声出力部１４０から出力された第２音声データを取得する。情報処理装置１００－２の生成部１６３は、取得部１６４が取得した第２音声データに基づいて、第２音声データの特徴を示す第２音声特徴データを生成する。また、情報処理装置１００－２の補助制御部１６５は、配信サーバ２００から第１音声特徴データを取得する。補助制御部１６５は、生成部１６３が生成した第２音声特徴データと第１音声特徴データが一致しない場合に、参加者Ｕ１に対して通知を行う。

上述した情報処理システム１は、音声同様に途中ネットワーク経路で欠損することがあっては比較ができないため、確実に受信できる仕組みを有する（ＴＣＰかつＡＣＫ確認するまで再送）する。

これにより、情報処理装置１００は、複数点の音声特徴データのマッチ・アンマッチの結果から、どこで音声パケットが脱落しているかの見当をつきやすくすることができる。なお、アンマッチの結果は、被疑区間の提示を含めて、本人のみならず参加者全員に共有されてもよい。

〔４－４．音源の数および位置〕
また、上述した実施形態では、情報処理装置１００が、３名の発言者それぞれの音声が聞き手の左右および中央のそれぞれ異なる位置に配置された音源それぞれから聞こえるように３名の発言者それぞれの音声を出力する場合について説明したが、音源の数は３個に限られない。具体的には、情報処理装置１００は、２名以下の発言者それぞれの音声が発言者の人数に応じてそれぞれ異なる位置に配置された２個以下の音源それぞれから聞こえるように２名以下の発言者それぞれの音声を出力してもよい。また、情報処理装置１００は、４名以上の発言者それぞれの音声が発言者の人数に応じてそれぞれ異なる位置に配置された４個以上の音源それぞれから聞こえるように４名以上の発言者それぞれの音声を出力してもよい。

より具体的には、情報処理装置１００は、４名以上の発言者それぞれの音声が、聞き手の前方の直線上に配置された４個以上の音源それぞれから聞こえるように４名以上の発言者それぞれの音声を出力してもよい。例えば、補助制御部１６５は、算出部１６２が算出した傾聴度合が高い発言者に対応する音源の位置ほど、聞き手に近い位置に配置する。つまり、補助制御部１６５は、算出部１６２が算出した傾聴度合が低い発言者に対応する音源の位置ほど、聞き手から遠い位置に配置する。なお、音源の位置は、例えば、聞き手の前方の直線上に等間隔に配置されてよい。

また、情報処理装置１００は、４名以上の発言者それぞれの音声が、聞き手を中心とする円の円周上に配置された４個以上の音源それぞれから聞こえるように４名以上の発言者それぞれの音声を出力してもよい。音源の位置は、例えば、聞き手を中心とする円の円周上に等間隔に配置されてよい。例えば、補助制御部１６５は、算出部１６２が算出した傾聴度合が最も高い発言者に対応する音源の位置を聞き手の目の前に配置する。また、補助制御部１６５は、算出部１６２が算出した傾聴度合が次に高い発言者に対応する音源の位置を聞き手の目の前の左右の位置に配置する。また、補助制御部１６５は、算出部１６２が算出した傾聴度合が相対的に低い発言者に対応する音源の位置を聞き手の後方に配置する。また、一般的に、サラウンドシステムにおいて、聞き手の後方の音は聞き手にとって聞こえづらい（ほとんど聞こえない）ことが知られている。そこで、補助制御部１６５は、算出部１６２が算出した傾聴度合が相対的に低い発言者の音声の音量をあえてゼロにしてもよい。

上述したように、情報処理装置１００は、複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように複数の発言者それぞれの音声を出力する。

〔４－５．スピーカーの数〕
また、上述した実施形態では、情報処理装置１００が、聞き手の左右に配置された２台のスピーカーから複数の発言者それぞれの音声を出力する場合について説明したが、スピーカーの台数は２台に限られない。例えば、情報処理装置１００は、聞き手を取り囲むように配置された３個以上（例えば、６個や８個等）のスピーカーを備え、サラウンド方式により、複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように複数の発言者それぞれの音声を３個以上のスピーカーそれぞれから出力してもよい。なお、情報処理装置１００は、複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように複数の発言者それぞれの音声を１台のスピーカーから出力してもよい。

〔５．効果〕
上述してきたように、実施形態に係る情報処理装置１００は、算出部１６２と補助制御部１６５を備える。算出部１６２は、複数の参加者が参加するリモート会議において、複数の発言者の発言を聞いている聞き手による複数の発言者それぞれの発言に対する傾聴の度合いを示す傾聴度合を複数の発言者それぞれについて算出する。補助制御部１６５は、傾聴度合が高い高傾聴発言者と比べて、傾聴度合が低い低傾聴発言者の発言を、聞き手にとって聞きやすくする補助機能を提供する。

このように、情報処理装置１００は、聞き手が注目する相手ではない（聞き手が注目していない）発言者の話を、聞き手が聞きやすくするようにすることができる。これにより、情報処理装置１００は、複数の参加者が参加するリモート会議において、参加者が充実した議論を行うことを可能とすることができる。また、情報処理装置１００は、複数の参加者が参加するリモート会議において、参加者が会議中快適に過ごすことを可能とすることができる。したがって、情報処理装置１００は、リモート会議におけるユーザビリティを向上させることができる。

また、算出部１６２は、聞き手の視線を検出する検出部１５０によって検出された視線の方向に基づいて、傾聴度合を算出する。

これにより、情報処理装置１００は、聞き手の視線に基づいて傾聴度合を算出するため、傾聴度合を適切に算出することができる。

また、算出部１６２は、検出部１５０によって検出された視線の方向に基づいて、聞き手に注視されている発言者を特定し、特定された発言者の傾聴度合を他の発言者の傾聴度合よりも高く算出する。

これにより、情報処理装置１００は、聞き手が注目している発言者の傾聴度合を他の発言者の傾聴度合よりも高く算出するため、傾聴度合を適切に算出することができる。

また、補助制御部１６５は、低傾聴発言者の発言を文字変換した文字情報の中から、事前に設定された文字列と一致する文字列が検出された場合に、聞き手に対して低傾聴発言者の発言への注意を促す強調処理を行う。例えば、事前に設定された文字列は、過去のリモート会議において事前に設定された文字列を教師データとして機械学習した結果に基づき、設定された文字列である。

これにより、情報処理装置１００は、聞き手が注目する相手ではない（聞き手が注目していない）発言者の発言に事前に設定されたキーワード等が登場した場合に、聞き手が注目する相手ではない（聞き手が注目していない）発言者に注目するよう聞き手に対して注意を促すことができる。したがって、情報処理装置１００は、聞き手が注目する相手の発言に集中することを妨げることなく、必要なときだけ、聞き手が注目する相手ではない（聞き手が注目していない）発言者の話を聞き手が聞きやすくするようにすることができる。

また、補助制御部１６５は、強調処理として、複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように音声出力部１４０から出力される複数の発言者それぞれの音声のうち、低傾聴発言者の音声の音量を他の発言者の音声の音量よりも大きくして出力するよう音声出力部１４０を制御する。

これにより、情報処理装置１００は、聞き手が注目する相手ではない（聞き手が注目していない）発言者の音声を聞き手にとって聞きやすい大きい音量にするため、聞き手が注目する相手ではない（聞き手が注目していない）発言者の話を聞き手が聞きやすくするようにすることができる。

また、補助制御部１６５は、強調処理として、複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように音声出力部１４０から出力される複数の発言者それぞれの音声のうち、低傾聴発言者の音声に対応する音源の位置を元の位置から高傾聴発言者の音声に対応する音源の位置へ変更するよう音声出力部１４０を制御する。

これにより、情報処理装置１００は、聞き手が注目する相手ではない（聞き手が注目していない）発言者の音声に対応する音源の位置を聞き手にとって聞きやすい位置に変更するため、聞き手が注目する相手ではない（聞き手が注目していない）発言者の話を聞き手が聞きやすくするようにすることができる。

また、補助制御部１６５は、強調処理として、複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように音声出力部１４０から出力される複数の発言者それぞれの音声のうち、低傾聴発言者の音声に対する残響処理を行うことなく低傾聴発言者の音声を出力するよう音声出力部１４０を制御する。

一般的に、複数の音声のうち、一部の音声に対して音声加工（例えば、残響処理）を施すと、音声加工を施さない音声に対して脳が集中しやすくなることが知られている。これにより、情報処理装置１００は、聞き手が注目する相手ではない（聞き手が注目していない）発言者の話を聞き手が聞きやすくするようにすることができる。

また、補助制御部１６５は、強調処理として、表示部１３０のそれぞれ異なる表示領域に表示される複数の参加者それぞれの参加者画像のうち、低傾聴発言者の参加者画像を他の発言者の参加者画像よりも視覚的に強調して表示するよう表示部１３０を制御する。

これにより、情報処理装置１００は、聞き手が注目する相手ではない（聞き手が注目していない）発言者の参加者画像を視覚的に強調して表示するため、聞き手が注目する相手ではない（聞き手が注目していない）発言者の発言に対する注意を促すことができる。

また、補助制御部１６５は、強調処理として、検出された文字列に関する情報を表示するよう表示部１３０を制御する。

これにより、情報処理装置１００は、設定されたキーワードを表示して聞き手の視覚に訴えるため、聞き手が注目する相手ではない（聞き手が注目していない）発言者の発言に対する注意を促すことができる。

また、補助制御部１６５は、リモート会議の最中に、表示部１３０のそれぞれ異なる表示領域に表示される複数の参加者それぞれの参加者画像をそれぞれ録画した複数の個別録画画像のうち、聞き手によって指定された低傾聴発言者に対応する個別録画画像を再生して表示するよう表示部１３０を制御する。

これにより、情報処理装置１００は、聞き手が注目する相手ではない（聞き手が注目していない）発言者の発言を聞き逃してしまった場合であっても、聞き逃してしまった発言を会議中にキャッチアップすることを可能とすることができる。

また、補助制御部１６５は、聞き手によって指定された再生時間における個別録画画像を再生して表示するよう表示部１３０を制御する。

これにより、情報処理装置１００は、聞き手が個別録画画像の再生時間を指定できるため、聞き手にとってのユーザビリティを向上させることができる。

また、補助制御部１６５は、聞き手によって指定された再生速度で個別録画画像を再生して表示するよう表示部１３０を制御する。

これにより、情報処理装置１００は、聞き手が個別録画画像の再生速度を指定できるため、聞き手にとってのユーザビリティを向上させることができる。

また、補助制御部１６５は、聞き手によって指定された低傾聴発言者に対応する表示領域に個別録画画像を再生して表示するよう表示部１３０を制御する。

これにより、情報処理装置１００は、聞き手が、他の発言者の発言を聞きながら、聞き逃してしまった発言者の発言を聞くことを可能にすることができる。

また、補助制御部１６５は、リモート会議の最中に、表示部１３０のそれぞれ異なる表示領域に表示される複数の参加者それぞれの参加者画像を含む全画面画像を録画した全体録画画像を再生して表示するよう表示部１３０を制御する。

これにより、情報処理装置１００は、聞き手が、例えば、遅れて参加した会議全体の内容を会議中にキャッチアップすることを可能とすることができる。

また、情報処理装置１００は、生成部１６３をさらに備える。生成部１６３は、リモート会議における発言ごとに、発言を文字変換した文字情報と、発言の発言時刻と、発言の発言者とを対応付けて記録した議事進捗情報を生成する。補助制御部１６５は、リモート会議の最中に、表示部１３０に表示された議事進捗情報の中から、聞き手によって指定された発言の発言時刻を再生開始時刻として、再生開始時刻から全体録画画像を再生して表示するよう表示部１３０を制御する。

これにより、情報処理装置１００は、聞き手が、例えば、遅れて参加した会議全体の内容であって、聞き手が重要だと思う発言以降の内容を会議中にキャッチアップすることを可能とすることができる。

また、情報処理装置１００は、生成部１６３をさらに備える。生成部１６３は、傾聴度合が所定の閾値を超える超傾聴発言者を複数の聞き手それぞれについて特定し、各聞き手を各聞き手について特定された超傾聴発言者のクラスタに分類し、分類された各クラスタに関するクラスタ情報を生成する。補助制御部１６５は、リモート会議の最中に、生成部１６３によって生成されたクラスタ情報を表示するよう表示部１３０を制御する。

また、情報処理装置１００は、取得部１６４と生成部１６３をさらに備える。取得部１６４は、リモート会議における参加者の音声データを取得する。生成部１６３は、音声データに基づいて、音声データの特徴を示す第１音声特徴データを生成する。補助制御部１６５は、他の参加者の他の情報処理装置１００が受信した音声データの特徴を示す第２音声特徴データと第１音声特徴データが一致しない場合に、参加者に対して通知を行う。

これにより、情報処理装置１００は、複数点の音声特徴データのマッチ・アンマッチの結果から、どこで音声パケットが脱落しているかの見当をつきやすくすることができる。

〔６．ハードウェア構成〕
また、上述してきた実施形態に係る情報処理装置１００は、例えば図１２に示すような構成のコンピュータ１０００によって実現される。図１２は、情報処理装置１００の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を備える。

ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、所定の通信網を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを所定の通信網を介して他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを入出力インターフェイス１６００を介して出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が実施形態に係る情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１６０の機能を実現する。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

〔７．その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

例えば、上述した実施形態では、情報処理システム１が中央処理型（集中型ともいう）のコンピューティングシステムである例について説明したが、情報処理システム１の構成はこれに限られない。例えば、情報処理システム１は、複数台の情報処理装置１００で構成される分散型コンピューティングシステムであってよい。この場合、情報処理システムは、複数台の情報処理装置１００がネットワークを介して互いに接続される。また、この場合、情報処理システムでは、それぞれの情報処理装置１００に図２で説明した情報処理装置１００の機能が実装される。

また、上述した情報処理装置１００は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットホーム等をＡＰＩ（Application Programming Interface）やネットワークコンピューティング等で呼び出して実現するなど、構成は柔軟に変更できる。

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、補助制御部は、補助制御手段や補助制御回路に読み替えることができる。

１情報処理システム
１００情報処理装置
１１０通信部
１２０記憶部
１３０表示部
１４０音声出力部
１５０検出部
１６０制御部
１６１会議制御部
１６２算出部
１６３生成部
１６４取得部
１６５補助制御部

Claims

複数の参加者が参加するリモート会議において、複数の発言者の発言を聞いている聞き手による前記複数の発言者それぞれの発言に対する傾聴の度合いを示す傾聴度合を前記複数の発言者それぞれについて算出する算出手順と、
前記傾聴度合が高い高傾聴発言者と比べて、前記傾聴度合が低い低傾聴発言者の発言を、前記聞き手にとって聞きやすくする補助機能を提供する補助制御手順と、
をコンピュータに実行させる情報処理プログラム。
前記算出手順は、
前記聞き手の視線を検出する検出部によって検出された視線の方向に基づいて、前記傾聴度合を算出する、
請求項１に記載の情報処理プログラム。
前記算出手順は、
前記検出部によって検出された視線の方向に基づいて、前記聞き手に注視されている発言者を特定し、特定された発言者の前記傾聴度合を他の発言者の前記傾聴度合よりも高く算出する、
請求項２に記載の情報処理プログラム。
前記補助制御手順は、
前記低傾聴発言者の発言を文字変換した文字情報の中から、事前に設定された文字列と一致する文字列が検出された場合に、前記聞き手に対して前記低傾聴発言者の発言への注意を促す強調処理を行う、
請求項１～３のいずれか１つに記載の情報処理プログラム。
前記事前に設定された文字列は、
過去のリモート会議において事前に設定された文字列を教師データとして機械学習した結果に基づき、設定された文字列である、
請求項４に記載の情報処理プログラム。
前記補助制御手順は、
前記強調処理として、前記複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように音声出力部から出力される前記複数の発言者それぞれの音声のうち、前記低傾聴発言者の音声の音量を他の発言者の音声の音量よりも大きくして出力するよう前記音声出力部を制御する、
請求項４または５に記載の情報処理プログラム。
前記補助制御手順は、
前記強調処理として、前記複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように音声出力部から出力される前記複数の発言者それぞれの音声のうち、前記低傾聴発言者の音声に対応する音源の位置を元の位置から前記高傾聴発言者の音声に対応する音源の位置へ変更するよう前記音声出力部を制御する、
請求項４～６のいずれか１つに記載の情報処理プログラム。
前記補助制御手順は、
前記強調処理として、前記複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように音声出力部から出力される前記複数の発言者それぞれの音声のうち、前記低傾聴発言者の音声に対する残響処理を行うことなく前記低傾聴発言者の音声を出力するよう前記音声出力部を制御する、
請求項４～７のいずれか１つに記載の情報処理プログラム。
前記補助制御手順は、
前記強調処理として、表示部のそれぞれ異なる表示領域に表示される前記複数の参加者それぞれの参加者画像のうち、前記低傾聴発言者の前記参加者画像を他の発言者の前記参加者画像よりも視覚的に強調して表示するよう前記表示部を制御する、
請求項４～８のいずれか１つに記載の情報処理プログラム。
前記補助制御手順は、
前記強調処理として、前記検出された文字列に関する情報を表示するよう前記表示部を制御する、
請求項９に記載の情報処理プログラム。
前記補助制御手順は、
前記リモート会議の最中に、表示部のそれぞれ異なる表示領域に表示される前記複数の参加者それぞれの参加者画像をそれぞれ録画した複数の個別録画画像のうち、前記聞き手によって指定された前記低傾聴発言者に対応する個別録画画像を再生して表示するよう前記表示部を制御する、
請求項１～１０のいずれか１つに記載の情報処理プログラム。
前記補助制御手順は、
前記聞き手によって指定された再生時間における前記個別録画画像を再生して表示するよう前記表示部を制御する、
請求項１１に記載の情報処理プログラム。
前記補助制御手順は、
前記聞き手によって指定された再生速度で前記個別録画画像を再生して表示するよう前記表示部を制御する、
請求項１１または１２に記載の情報処理プログラム。
前記補助制御手順は、
前記聞き手によって指定された前記低傾聴発言者に対応する前記表示領域に前記個別録画画像を再生して表示するよう前記表示部を制御する、
請求項１１～１３のいずれか１つに記載の情報処理プログラム。
前記補助制御手順は、
前記リモート会議の最中に、表示部のそれぞれ異なる表示領域に表示される前記複数の参加者それぞれの参加者画像を含む全画面画像を録画した全体録画画像を再生して表示するよう前記表示部を制御する、
請求項１～１４のいずれか１つに記載の情報処理プログラム。
前記リモート会議における発言ごとに、前記発言を文字変換した文字情報と、前記発言の発言時刻と、前記発言の発言者とを対応付けて記録した議事進捗情報を生成する生成手順をさらに備え、
前記補助制御手順は、
前記リモート会議の最中に、前記表示部に表示された前記議事進捗情報の中から、前記聞き手によって指定された前記発言の前記発言時刻を再生開始時刻として、前記再生開始時刻から前記全体録画画像を再生して表示するよう前記表示部を制御する、
請求項１５に記載の情報処理プログラム。
前記傾聴度合が所定の閾値を超える超傾聴発言者を複数の前記聞き手それぞれについて特定し、各聞き手を各聞き手について特定された前記超傾聴発言者のクラスタに分類し、分類された各クラスタに関するクラスタ情報を生成する生成手順と、
をさらに備え、
前記補助制御手順は、
前記リモート会議の最中に、前記生成手順によって生成された前記クラスタ情報を表示するよう表示部を制御する、
請求項１～１６のいずれか１つに記載の情報処理プログラム。
前記リモート会議における参加者の音声データを取得する取得手順と、
前記音声データに基づいて、前記音声データの特徴を示す第１音声特徴データを生成する生成手順と、
をさらに備え、
前記補助制御手順は、
他の参加者の他の情報処理装置が受信した前記音声データの特徴を示す第２音声特徴データと前記第１音声特徴データが一致しない場合に、前記参加者に対して通知を行う、
請求項１～１７のいずれか１つに記載の情報処理プログラム。
コンピュータが実行する情報処理方法であって、
複数の参加者が参加するリモート会議において、複数の発言者の発言を聞いている聞き手による前記複数の発言者それぞれの発言に対する傾聴の度合いを示す傾聴度合を前記複数の発言者それぞれについて算出する算出工程と、
前記傾聴度合が高い高傾聴発言者と比べて、前記傾聴度合が低い低傾聴発言者の発言を、前記聞き手にとって聞きやすくする補助機能を提供する補助制御工程と、
を含む情報処理方法。
複数の参加者が参加するリモート会議において、複数の発言者の発言を聞いている聞き手による前記複数の発言者それぞれの発言に対する傾聴の度合いを示す傾聴度合を前記複数の発言者それぞれについて算出する算出部と、
前記傾聴度合が高い高傾聴発言者と比べて、前記傾聴度合が低い低傾聴発言者の発言を、前記聞き手にとって聞きやすくする補助機能を提供する補助制御部と、
を備える情報処理装置。