JP7688335B2

JP7688335B2 - コミュニケーション支援システム、情報処理装置、コミュニケーション支援方法、及びプログラム

Info

Publication number: JP7688335B2
Application number: JP2023545635A
Authority: JP
Inventors: 和彦鴻上; 晃大荻野
Original assignee: Ricoh Co Ltd; Kyoto Sangyo University
Current assignee: Ricoh Co Ltd; Kyoto Sangyo University
Priority date: 2021-09-01
Filing date: 2022-08-31
Publication date: 2025-06-04
Anticipated expiration: 2042-08-31
Also published as: EP4398170A4; JPWO2023033033A1; EP4398170A1; WO2023033033A1; US20240203442A1

Description

本発明は、コミュニケーション支援システム、情報処理装置、コミュニケーション支援方法、及びプログラムに関する。

複数の端末装置の間で、画像及び音声等のコンテンツデータを送受信する会議システムが普及している。

また、商談中に商談相手の画像又は音声等に基づいて商談相手の商談時の状態を特定し、特定した商談相手の状態に基づいて、商談戦略を出力する会議システムが知られている（例えば、特許文献１参照）。

特許文献１に開示された技術により、商談の相手に適した商談の進行が容易になるように商談を支援することができる。しかし、この方法では、商談担当者の情報、及び商談相手の情報（教師データ）を予めシステムに登録しておかなくてはならないという問題がある。

なお、このような問題は、商談を行う会議システムに限られず、例えば、遠隔医療、カウンセリング、遠隔授業、又は就学相談等のコミュニケーションを行う様々なコミュニケーションシステムに共通に存在する。

このように、従来のコミュニケーションシステムでは、コミュニケーションに参加する参加者の情報、及び他の参加者の情報によらずに、コミュニケーションを支援することができないという問題がある。

本発明の一実施形態は、上記の問題点に鑑みてなされたものであって、コミュニケーションに参加する参加者の情報、及び他の参加者の情報を予め登録しなくても、コミュニケーションを支援できるコミュニケーション支援システムを提供する。

上記の課題を解決するため、本発明の一実施形態に係るコミュニケーション支援システムは、コミュニケーションに参加する参加者が発話する音声と前記コミュニケーションに参加する他の参加者が発話する音声とを取得する取得部と、前記参加者の発話時間と前記他の参加者の発話時間とに基づいて、前記コミュニケーションの状況を可視化する可視化部と、を備え、前記可視化部は、前記可視化部が出力する前記コミュニケーションを可視化する複数の情報と、予め記憶部に記憶されている、過去に行われて良い結果が得られた良いコミュニケーションの指標データおよび過去に行われて悪い結果が得られた悪いコミュニケーションの指標データとの相関に基づいて、前記コミュニケーションを評価する情報をさらに出力する。

本発明の一実施形態によれば、コミュニケーションに参加する参加者の情報、及び他の参加者の情報を予め登録しなくても、コミュニケーションを支援できるコミュニケーション支援システムを提供することができる。

一実施形態に係るコミュニケーション支援システムのシステム構成の例を示す図である。一実施形態に係るコミュニケーション支援方法の概要について説明するための図である。一実施形態に係るコンピュータのハードウェア構成の例を示す図である。一実施形態に係る端末装置のハードウェア構成の一例を示す図である。一実施形態に係る端末装置のハードウェア構成の別の一例を示す図である。一実施形態に係る端末装置の機能構成の例を示す図である。一実施形態に係るコミュニケーション支援システムの機能構成の例を示す図である。一実施形態に係るコミュニケーション支援処理の例を示すフローチャートである。第１の実施形態に係る可視化処理の例を示すフローチャート（１）である。第１の実施形態に係る可視化処理の例を示すフローチャート（２）である。第２の実施形態に係る可視化処理の例を示すフローチャートである。第２の実施形態に係る指標データの相関係数の算出について説明するための図である。第２の実施形態に係る表示画面の例を示す図である。第３の実施形態に係る可視化処理の例を示すフローチャートである。第３の実施形態に係る可視化処理について説明するための図である。一実施形態に係る応用例について説明するための図である。第４の実施形態に係るコミュニケーション支援処理の例を示すフローチャートである。第４の実施形態に係る抽出データの例を示す図である。第４の実施形態に係る表示画面の例を示す図（１）である。第４の実施形態に係るコミュニケーション支援処理の応用例を示すフローチャートである。第４の実施形態に係る表示画面の例を示す図（２）である。第５の実施形態に係る可視化処理の例を示すフローチャートである。第５の実施形態に係る可視化処理について説明するための図である。

以下、本発明の実施形態について、図面を参照しながら詳細に説明する。

＜システム構成＞
図１は、一実施形態に係る通信システムのシステム構成の例を示す図である。コミュニケーション支援システム１は、一例として、インターネット、又はＬＡＮ（Local Area network）等の通信ネットワーク１１に接続する会議サーバ１０、及び複数の端末装置１００ａ、１００ｂ、１００ｃ、１００ｄ、・・・を含む。なお、以下の説明において、複数の端末装置１００ａ、１００ｂ、１００ｃ、１００ｄ、・・・のうち、任意の端末装置を示す場合、「端末装置１００」を用いる。また、図１に示した複数の端末装置１００の数は一例であり、複数の端末装置１００の数は、２つ以上の他の数であっても良い。

コミュニケーション支援システム１は、端末装置１００と、１つ以上の他の端末装置１００との間で、音声と画像とを送受信する、例えば、商談、会議、診療、授業、又はカウンセリング等の様々なコミュニケーションを支援するシステムである。ここでは、一例として、コミュニケーション支援システム１が支援するコミュニケーションが、端末装置１００のユーザと、他の端末装置１００のユーザとの間で商談を行うウェブ会議であるものとして、以下の説明を行う。

端末装置（情報処理装置）１００は、ウェブ会議に参加するユーザが利用する、例えば、ＰＣ（Personal Computer）、タブレット端末、又はスマートフォン等の汎用の情報端末、或いは、ビデオ会議端末、電子黒板等の通信機能を有する電子機器である。なお、電子黒板は、相互通信が可能な電子式の黒板機能を有する白板であり、ＩＷＢ（Interactive White Board）とも呼ばれる。ここでは、一例として、端末装置１００が、汎用の情報端末であるものとして、以下の説明を行う。

ウェブ会議に参加する参加者は、例えば、端末装置１００にインストールされたウェブ会議用のアプリケーション、又はウェブブラウザ等を利用して、会議サーバ１０が提供する会議用のアドレスにアクセスすることにより、会議に参加する。

ここで、会議サーバ１０は、一般的なウェブ会議を提供するサーバ装置（又はクラウドサービス等）であっても良いし、後述するように、コミュニケーションの支援機能を有する専用のサーバ（又はクラウドサービス等）であっても良い。

また、参加者は、例えば、コミュニケーション支援システム１用のアプリケーションプログラム（以下、支援アプリと呼ぶ）を起動することにより、例えば、図２に示すように、ウェブ会議の表示画面２１０の周辺に支援アプリの表示画面２１０を表示することができる。

図２の例では、支援アプリは、表示画面２１０に、ウェブ会議（商談）を可視化する指標２２０として、主導権２２１、優位性２２２、切実感２２３等を表示する。主導権２２１は、会議において、端末装置１００を利用する参加者と、他の端末装置１００を利用する他の参加者の主導権の比率（割合）を、参加者の主導権を表すバー２２１ａと、他の参加者の主導権を表すバー２２１ｂとにより表している。同様に、優位性２２２は、参加者と他の参加者の優位性の比率を表しており、切実感は、参加者と他の参加者の切実感の比率を表している。なお、ウェブ会議を可視化する指標２２０に含まれる３つの指標「主導権」、「優位性」、及び「切実感」の算出方法については後述する。

好適な一例として、支援アプリは、例えば、目標とする主導権の比率を表す表示要素２２１ｃを、さらに表示しても良い。これにより、図２の例では、参加者は、目標とする主導権の比率に近づけるために、例えば、他の参加者に、発言を促す等の対応ができるようになる。なお、支援アプリは、優位性２２２、及び切実感２２３についても、同様にして、目標とする比率を表す表示要素を表示しても良い。

また、別の好適な一例として、支援アプリは、主導権２２１、優位性２２２、及び切実感２２３等を目標とする比率に近づけるためのメッセージ等を表示するコミュニケーションガイド２３０を、表示画面２１０に表示しても良い。これにより、例えば、図２に示すように、「お客様の会社の状況を聞いてみましょう」というメッセージに従って、参加者が発言することにより、他の参加者が主導権を握る比率が高まり、主導権２２１比率を、目標とする比率に近づけることができる。なお、コミュニケーションガイドは、コミュニケーションの進め方を示す情報の一例である。

なお、図２に示した表示画面２１０は、コミュニケーションを可視化する表示画面の一例である。具体的な会議の可視化方法については、複数の実施形態を例示して後述する。

また、上述したコミュニケーション支援システム１のシステム構成は一例であり、コミュニケーション支援システム１は、様々なシステム構成が可能である。例えば、図２で説明した表示画面２１０は、端末装置１００が実行する支援アプリに代えて、会議サーバ１０が提供しても良い。この場合、参加者は、端末装置１００のウェブブラウザ等を用いて、会議サーバ１０にアクセスすることにより、図２に示すような表示画面２１０を端末装置１００に表示する。

また、コミュニケーション支援システム１は、端末装置１００が、会議サーバ１０を介さずに、他の端末装置１００とウェブ会議（面談）を行う構成であっても良い。さらに、コミュニケーション支援システム１が支援するコミュニケーションは、例えば、商談、会議、診療、授業、又はカウンセリング等の様々なコミュニケーションであって良い。

また、端末装置１００は、例えば、ビデオ会議装置、又は電子黒板等の専用の電子機器であっても良い。この場合、端末装置１００は、端末装置に１００に組み込まれた所定のプログラムを実行することにより、図２に示すような表示画面２１０を表示しても良い。或いは、端末装置１００は、情報端末と同様に、外部から取得した支援アプリを実行可能なものであっても良い。

＜ハードウェア構成＞
（コンピュータのハードウェア構成）
端末装置１００は、例えば、図３に示すようなコンピュータ３００のハードウェア構成を有していても良い。また、会議サーバ１０は、例えば、１つ以上のコンピュータ３００によって実現される。

図３は、一実施形態に係るコンピュータのハードウェア構成の例を示す図である。コンピュータ３００は、例えば、図３に示されるように、ＣＰＵ（Central Processing Unit）３０１、ＲＯＭ（Read Only Memory）３０２、ＲＡＭ（Random Access Memory）３０３、ＨＤ（Hard Disk）３０４、ＨＤＤ（Hard Disk Drive）コントローラ３０５、ディスプレイ３０６、外部機器接続Ｉ／Ｆ（Interface）３０７、ネットワークＩ／Ｆ３０８、キーボード３０９、ポインティングデバイス３１０、ＤＶＤ－ＲＷ（Digital Versatile Disk Rewritable)ドライブ３１２、メディアＩ／Ｆ３１４、及びバスライン３１５等を備えている。

また、コンピュータ３００が端末装置１００である場合、コンピュータ３００は、マイク３２１、スピーカ３２２，音入出力Ｉ／Ｆ３２３、ＣＭＯＳ(Complementary Metal Oxide Semiconductor)センサ３２４、及び撮像素子Ｉ／Ｆ３２５等を、さらに備える。

これらのうち、ＣＰＵ３０１は、コンピュータ３００全体の動作を制御する。ＲＯＭ３０２は、例えば、ＩＰＬ（Initial Program Loader）等のコンピュータ３００の起動に用いられるプログラムを記憶する。ＲＡＭ３０３は、例えば、ＣＰＵ３０１のワークエリア等として使用される。ＨＤ３０４は、例えば、ＯＳ（Operating System）、アプリケーション、デバイスドライバ等のプログラムや、各種データを記憶する。ＨＤＤコントローラ３０５は、例えば、ＣＰＵ３０１の制御に従ってＨＤ３０４に対する各種データの読み出し又は書き込みを制御する。

ディスプレイ３０６は、例えば、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。なお、ディスプレイ３０６は、コンピュータ３００の外部に設けられていても良い。外部機器接続Ｉ／Ｆ３０７は、コンピュータ３００に、様々な外部装置を接続するためのインタフェースである。１つ以上のネットワークＩ／Ｆ３０８は、コンピュータ３００を通信ネットワーク１１に接続して、他の装置と通信するためのインタフェースである。

キーボード３０９は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス３１０は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行なう入力手段の一種である。なお、キーボード３０９、及びポインティングデバイス３１０は、コンピュータ３００の外部に設けられていても良い。

ＤＶＤ－ＲＷドライブ３１２は、着脱可能な記録媒体の一例としてのＤＶＤ－ＲＷ３１１に対する各種データの読み出し又は書き込みを制御する。なお、ＤＶＤ－ＲＷ３１１は、ＤＶＤ－ＲＷに限らず、他の記録媒体であっても良い。メディアＩ／Ｆ３１４は、フラッシュメモリ等のメディア３１３に対するデータの読み出し又は書き込み（記憶）を制御する。バスライン３１５は、上記の各構成要素を電気的に接続するためのアドレスバス、データバス及び各種の制御信号等を含む。

マイク３２１は、音を電気信号に変える内蔵型の回路である。スピーカ３２２は、電気信号を物理振動に変えて音楽や音声などの音を生み出す内蔵型の回路である。音入出力Ｉ／Ｆ３２３は、ＣＰＵ３０１の制御に従ってマイク３２１及びスピーカ３２２との間で音信号の入出力を処理する回路である。

ＣＭＯＳセンサ３２４は、ＣＰＵ３０１の制御に従って被写体（例えば自画像）を撮像して画像データを得る内蔵型の撮像手段の一種である。なお、端末装置１００は、ＣＭＯＳセンサ３２４に代えて、ＣＣＤ(Charge Coupled Device)センサ等の撮像手段を有していても良い。撮像素子Ｉ／Ｆ３２５は、ＣＭＯＳセンサ３２４の駆動を制御する回路である。

（端末装置のハードウェア構成の一例）
ここでは、端末装置１００が、スマートフォン、又はタブレット端末等の情報端末である場合における端末装置１００のハードウェア構成の例について説明する。

図４は、一実施形態に係る端末装置のハードウェア構成の例を示す図である。図４の例では、端末装置１００は、ＣＰＵ４０１、ＲＯＭ４０２、ＲＡＭ４０３、ストレージデバイス４０４、ＣＭＯＳセンサ４０５、撮像素子Ｉ／Ｆ４０６、加速度・方位センサ４０７、メディアＩ／Ｆ４０９、ＧＰＳ（Global Positioning System）受信部４１０を備えている。

これらのうち、ＣＰＵ４０１は、所定のプログラムを実行することにより端末装置１００全体の動作を制御する。ＲＯＭ４０２は、例えば、ＩＰＬ等のＣＰＵ４０１の起動に用いられるプログラムを記憶する。ＲＡＭ４０３は、ＣＰＵ４０１のワークエリアとして使用される。ストレージデバイス４０４は、ＯＳ、アプリ等のプログラム、及び各種のデータ等を記憶する大容量の記憶装置であり、例えば、ＳＳＤ（Solid State Drive）、又はフラッシュＲＯＭ等によって実現される。

ＣＭＯＳセンサ４０５は、ＣＰＵ４０１の制御に従って被写体（主に自画像）を撮像して画像データを得る内蔵型の撮像手段の一種である。なお、端末装置１００は、ＣＭＯＳセンサ４０５に代えて、ＣＣＤセンサ等の撮像手段を有していても良い。撮像素子Ｉ／Ｆ４０６は、ＣＭＯＳセンサ４０５の駆動を制御する回路である。加速度・方位センサ４０７は、地磁気を検知する電子磁気コンパスやジャイロコンパス、加速度センサ等の各種センサである。メディアＩ／Ｆ４０９は、フラッシュメモリ等のメディア（記憶メディア）４０８に対するデータの読み出し又は書き込み（記憶）を制御する。ＧＰＳ受信部４１０は、ＧＰＳ衛星からＧＰＳ信号（測位信号）を受信する。

また、端末装置１００は、遠距離通信回路４１１、遠距離通信回路４１１のアンテナ４１１ａ、ＣＭＯＳセンサ４１２、撮像素子Ｉ／Ｆ４１３、マイク４１４、スピーカ４１５、音入出力Ｉ／Ｆ４１６、ディスプレイ４１７、外部機器接続Ｉ／Ｆ４１８、近距離通信回路４１９、近距離通信回路４１９のアンテナ４１９ａ、及びタッチパネル４２０を備えている。

これらのうち、遠距離通信回路４１１は、例えば、通信ネットワーク１１を介して、他の装置と通信する回路である。ＣＭＯＳセンサ４１２は、ＣＰＵ４０１の制御に従って被写体を撮像して画像データを得る内蔵型の撮像手段の一種である。撮像素子Ｉ／Ｆ４１３は、ＣＭＯＳセンサ４１２の駆動を制御する回路である。マイク４１４は、音を電気信号に変える内蔵型の回路である。スピーカ４１５は、電気信号を物理振動に変えて音楽や音声などの音を生み出す内蔵型の回路である。音入出力Ｉ／Ｆ４１６は、ＣＰＵ４０１の制御に従ってマイク４１４及びスピーカ４１５との間で音波信号の入出力を処理する回路である。

ディスプレイ４１７は、被写体の画像や各種アイコン等を表示する液晶や有機ＥＬ(Electro Luminescence)等の表示手段の一種である。外部機器接続Ｉ／Ｆ４１８は、各種の外部機器を接続するためのインタフェースである。近距離通信回路４１９は、近距離無線通信を行う回路を含む。タッチパネル４２０は、利用者がディスプレイ４１７を押下することで、端末装置１００を操作する入力手段の一種である。

また、端末装置１００は、バスライン４２１を備えている。バスライン４２１は、図４に示されているＣＰＵ４０１等の各構成要素を電気的に接続するためのアドレスバスやデータバス等を含む。

（端末装置のハードウェア構成の別の一例）
図５は、一実施形態に係る端末装置のハードウェア構成の別の一例を示す図である。ここでは、端末装置１００がビデオ会議端末である場合における端末装置１００のハードウェア構成の例について説明する。

端末装置（ビデオ会議端末）１００は、コンピュータの構成を備えており、例えば、ＣＰＵ５０１、ＲＯＭ５０２、ＲＡＭ５０３、フラッシュメモリ５０４、及びＳＳＤ５０５等を有する。また、端末装置１００は、メディアＩ／Ｆ５０７、操作ボタン５０８、電源スイッチ５０９、ネットワークＩ／Ｆ５１１、カメラ５１２、撮像素子Ｉ／Ｆ５１３、マイク５１４、スピーカ５１５、及び音入出力Ｉ／Ｆ５１６等を有する。さらに、端末装置（ビデオ会議端末）１００は、ディスプレイＩ／Ｆ５１７、外部機器接続Ｉ／Ｆ５１８、近距離通信回路５１９、近距離通信回路５１９用のアンテナ５１９ａ、及びバスライン５１０等を有する。

ＣＰＵ５０１は、例えば、ＲＯＭ５０２や、フラッシュメモリ５０４等からプログラム、及びデータ等を読出し、処理を実行することで、端末装置（ビデオ会議端末）１００が備える各機能を実現する演算装置である。ＲＯＭ５０２は、例えば、ＩＰＬ等のＣＰＵ５０１の起動に用いられるプログラム等を予め記憶した不揮発性のメモリである。ＲＡＭ５０３は、ＣＰＵ３０１のワークエリア等として利用される揮発性のメモリである。

フラッシュメモリ５０４は、例えば、ＯＳ、アプリケーションプログラム、及び各種のデータ等を記憶するストレージデバイスである。ＳＳＤ５０５は、ＣＰＵ５０１の制御に従ってフラッシュメモリ５０４に対する各種データの読み出し、書き込みを制御する。メディアＩ／Ｆ５０７は、例えば、メモリカード等のメディア５０６に対するデータの読み出し又は書き込み（記憶）を制御する。

操作ボタン５０８は、端末装置（ビデオ会議端末）１００の利用者の入力操作を受け付ける入力装置である。電源スイッチ５０９は、端末装置（ビデオ会議端末）１００の電源のオン／オフを切り替えるためのスイッチである。ネットワークＩ／Ｆ５１１は、通信ネットワーク１１を利用して通信するための通信インタフェースである。

カメラ５１２は、ＣＰＵ５０１の制御に従って被写体を撮像するための撮像装置である。撮像素子Ｉ／Ｆ５１３は、カメラ５１２による撮像を制御するとともに、撮像したデータを所定の画像データ（映像データ）に変換する。マイク５１４は、取得した音を電気信号に変換する。スピーカ５１５は、音信号を音に変換して出力する。音入出力Ｉ／Ｆ５１６は、マイク５１４及びスピーカ５１５による音の入出力を制御する。

ディスプレイＩ／Ｆ５１７は、ＣＰＵ５０１の制御に従って、ディスプレイＩ／Ｆ５１７に接続されるディスプレイ等の表示装置に画像データを出力する。外部機器接続Ｉ／Ｆ５１８は、各種の外部機器を接続するためのインタフェースである。近距離通信回路５１９は、アンテナ５１９ａを介して、近距離無線通信を行う通信回路である。バスライン５１０は、上記の各構成に共通に接続され、アドレス信号、データ信号、及び各種の制御信号等を伝達する。メディア５０６は、例えば、各種のメモリカード等の記憶媒体である。メディア５０６は、端末装置１００に対して着脱自在な構成となっている。

なお、端末装置１００が電子黒板である場合、端末装置１００は、図５に示したハードウェア構成に加えて、例えば、大型のディスプレイ、及びタッチセンサ等を有する。

＜機能構成＞
（端末装置の機能構成）
図６は、一実施形態に係る端末装置の機能構成の例を示す図である。ここでは、説明を容易にするため、端末装置１００が、図３に示すようなコンピュータ３００のハードウェア構成を有しているものとして、以下の説明を行う。

端末装置（情報処理装置の一例）１００は、例えば、ＨＤ３０４等の記憶媒体に記憶した所定のプログラムを実行することにより、通信部６０１、会議制御部６０２、表示制御部６０３、操作受付部６０４、取得部６０５、可視化部６０６、及び記憶部６０７等を実現している。なお、上記の各機能構成のうち、少なくとも一部は、ハードウェアによって実現されるものであっても良い。

通信部６０１は、例えば、ネットワークＩ／Ｆ３０８等を用いて、端末装置１００を通信ネットワーク１１に接続して、会議サーバ１０、又は他の端末装置１００等と通信する通信処理を実行する。

会議制御部６０２は、例えば、ウェブ会議への接続、音声及び画像の送受信、及び音声及び画像の入出力等、ウェブ会議に関する一連の処理を実行する。なお、会議制御部６０２が実行する処理は、一般的なウェブ会議と同様の処理であって良い。また、ウェブ会議は、本実施形態に係るコミュニケーションの一例であり、例えば、講義、カウンセリング、又は遠隔医療等の他のコミュニケーションであっても良い。

表示制御部６０３は、会議制御部６０２、又は可視化部６０６等からの制御に従って、ディスプレイ３０６等の表示部に表示画面を表示する表示制御処理を実行する。操作受付部６０４は、例えば、キーボード３０９、又はポインティングデバイス３１０等の入力デバイスを用いて、参加者による操作を受け付ける操作受付処理を実行する。

取得部６０５は、ウェブ会議（コミュニケーションの一例）に参加する参加者が発話する音声と、ウェブ会議に参加する他の参加者が発話する音声を、例えば、会議制御部６０２等から取得する取得処理を実行する。なお、取得部６０５は、ウェブ会議に参加する参加者の音声、及び他の参加者の音声を、例えば、音入出力Ｉ／Ｆ３２３等から取得しても良い。

可視化部６０６は、ウェブ会議に参加する参加者の発話時間と当該ウェブ会議に参加する他の参加者の発話時間とに基づいて、ウェブ会議の状況を可視化する可視化処理を実行する。好ましくは、可視化部６０６は、参加者の発話文字数と他の参加者の発話文字数とに、さらに基づいて、ウェブ会議の状況を可視化する。可視化部６０６は、例えば、抽出部６１１、算出部６１２、及び情報生成部６１３を含む。

抽出部６１１は、取得部６０５が取得した音声から、参加者の発話時間と発話文字数（又は発話語数）、及び他の参加者の発話時間と発話文字数（又は発話語数）を抽出する。例えば、抽出部６１１は、参加者の発話内容を、公知の音声認識技術を利用してテキスト化し、テキスト化した発話を解析して、参加者の発話時間と発話文字数とを抽出する。同様に、抽出部６１１は、他の参加者の発話内容を、公知の音声認識技術を利用してテキスト化し、テキスト化した発話を解析して、他の参加者の発話時間と発話文字数とを抽出する。なお、抽出部６１１は、言語の特性に応じて、発話文字数に代えて、発話語数を取得しても良い。

算出部６１２は、抽出部６１１が抽出した、参加者の発話時間と発話文字数、及び他の参加者の発話時間と発話文字数に基づいて、ウェブ会議（コミュニケーション）を可視化する指標を算出する。例えば、算出部６１２は、図２で前述した「主導権」、「切実感」、及び「優位性」を算出し、情報生成部６１３に出力する。

「主導権」は、参加者の発話時間と、他の参加者の発話時間との比率に基づいて、ウェブ会議等のコミュニケーションを可視化する第１の指標である。例えば、算出部６１２は、ウェブ会議における参加者の発話時間を、他の参加者の発話時間で割ることにより、「主導権」（発話比率）を算出する。

ウェブ会議において，発話の総量が多い人は，そのウェブ会議における存在感が高く，ウェブ会議を先導している印象を与えると考えられる。例えば、発話比率が１．０（例えば、参加者０．５、他の参加者０．５）に近い場合、参加者と他の参加者とが対等に発話しており、そのウェブ会議における主導権は同等な状態であると判断する。一方，発話比率が０．５に近い場合（例えば、参加者０．７、部下０．３等）、参加者が一方的に話しており，参加者の発話がそのウェブ会議の主体となっている（主導権を握っている）と判断する。また、発話比率が１．０を超える場合（例えば、参加者が０．２、部下０．８等）、他の参加者が一方的にウェブ会議で発話しており、他の参加者の発話がそのウェブ会議の主体となっている（他の参加者が主導権を握っている）と判断できる。

「切実感」は、参加者の発話速度と、他の参加者の発話速度との比率に基づいて、ウェブ会議等のコミュニケーションを可視化する第２の指標である。例えば、算出部６１２は、ウェブ会議における参加者の発話速度（発話文字数／発話時間）を、他の参加者の発話速度（発話文字数／発話時間）で割ることにより、「切実感」（発話速度比率）を算出する。

発話速度が速いということは，内容を勢いよく（捲し立てて）話していることを示す。従って、参加者の発話の方が速い場合は、他の参加者は、参加者から切実感（又は圧迫感）を感じる可能性がある。一方、他の参加者の発話の方が早い場合、参加者は、他の参加者から切実感（又は圧迫感）を感じる可能性がある。例えば、発話速度比率が１．０（例えば、参加者０．５、他の参加者０．５）に近い場合、参加者と他の参加者は、対等な感情で会話していると判断できる。一方、発話速度比率が０．５に近い場合（例えば、参加者０．７、部下０．３等）、参加者の発話速度の方が早いため、他の参加者は、参加者から切実感（又は圧迫感）を感じていると判断する。また、発話速度比率が１．０を超えた場合（例えば、参加者０．２、他の参加者０．８等）、他の参加者の発話速度の方が早いため、参加者は、他の参加者から切実感（又は圧迫感）を感じていると判断する。

「優位性」は、他の参加者が連続して発話した最長発話時間と、参加者が連続して発話した最長発話時間との比率に基づいて、ウェブ会議等のコミュニケーションを可視化する第３の指標である。例えば、算出部６１２は、ウェブ会議における、他の参加者の最長発話時間を、参加者の最長発話時間で割ることにより、「優位性」（最長発話時間比率）を算出する。

ウェブ会議において，発話比率が同じであっても、ある一定期間、一人が連続して発話を続けている場合、そのウェブ会議の印象は、当該話者に優位性がある（悪い意味では、隙を与えない）と考えられる。例えば、最長発話時間比率が１．０（例えば、参加者０．５、他の参加者０．５）に近い場合、両者が長く話した比率は同じである。一方、最長発話時間比率が０．５に近い場合（例えば、参加者０．７、他の参加者０．３等）、参加者が１つの会話で、より長く発話を続けており、参加者が、ウェブ会議に影響を与える発話をしたと判断する。また、最長発話時間比率が１．０を超えた場合（例えば、参加者０．２、他の参加者０．８等）、他の参加者が１つの会話で、より長く発話を続けており、他の参加者が、ウェブ会議に影響を与える発話をしたと判断する。

情報生成部６１３は、算出部６１２が算出し、出力する１つ以上の指標に基づいて、会議の状況を可視化する情報を生成する。一例として、情報生成部６１３は、図２に示すような表示画面２１０を生成する。例えば、情報生成部６１３は、算出部６１２が出力する「主導権」、「切実感」、及び「優位性」を用いて、図２で説明した、会議（商談）を可視化する指標２２０を生成する。また、情報生成部６１３は、算出部６１２が出力する「優位性」の比率（割合）を、目標とする「優位性」の比率に近づけるためのコミュニケーションガイド２３０（例えば、「お客様の会社の状況を聞いてみましょう」等）を生成しても良い。

可視化部６０６は、情報生成部６１３が生成した、例えば、図２に示すような表示画面２１０を、表示制御部６０３を用いて、ディスプレイ３０６等の表示部に表示（出力）する。ただし、図２に示した表示画面２１０は、可視化部６０６が出力する、会議を可視化する情報の一例である。

記憶部６０７は、例えば、ＣＰＵ３０１が実行するプログラム、及びＨＤ３０４等のストレージデバイス等によって実現され、会議指標データ６２１、又は機械学習モデル等の様々な情報、及びデータを記憶する。なお、会議指標データ６２１、及び機械学習モデルについては後述する。

なお、図６に示した端末装置１００の機能構成は一例である。例えば、図７に示すように、取得部６０５、可視化部６０６、及び記憶部６０７等は、会議サーバ１０が有していても良い。

図７は、一実施形態に係るコミュニケーション支援システムの機能構成の例を示す図である。この図は、会議サーバ１０が、前述した、取得部６０５、可視化部６０６、及び記憶部６０７等を有している場合における、コミュニケーション支援システム１の機能構成の一例を示している。

（会議サーバの機能構成）
会議サーバ（情報処理装置の別の一例）１０は、１つ以上のコンピュータ３００で所定のプログラムを実行することにより、通信部７０１、会議管理部７０２、中継部７０３、ウェブサーバ部７０４、取得部６０５、可視化部６０６、及び記憶部６０７等を実現している。なお、上記の各機能構成のうち、少なくとも一部は、ハードウェアによって実現されるものであっても良い。

通信部６０１は、例えば、コンピュータ３００のネットワークＩ／Ｆ３０８等を用いて、会議サーバ１０を通信ネットワーク１１に接続し、複数の端末装置１００と通信する通信処理を実行する。

会議管理部７０２は、同じウェブ会議用のＵＲＬ（Uniform Resource Locator）にアクセスする複数の端末装置１００を同じウェブ会議（セッション）の参加させる会議管理処理を実行する。

中継部７０３は、同じウェブ会議に参加する複数の端末装置１００の間で、音声及び画像を含むコンテンツを中継する中継処理を実行する。なお、会議管理部７０２、及び中継部７０３の機能は、既存のウェブ会議システムと同様の構成であって良い。

ウェブサーバ部７０４は、会議管理部７０２が管理するウェブ会議を可視化するウェブページ等を提供するウェブサーバとして機能する。

取得部６０５は、例えば、ウェブサーバ部７０４にアクセスした参加者が、ウェブ会議で発話する音声と、ウェブ会議に参加する他の参加者が発話する音声を、例えば、中継部７０３等から取得する取得処理を実行する。

可視化部６０６は、ウェブ会議に参加する参加者の発話時間と発話文字数、及び当該ウェブ会議に参加する他の発話時間と発話文字数に基づいて、ウェブ会議の状況を可視化する可視化処理を実行する。なお、可視化部６０６が実行する可視化処理は、図６で説明した端末装置１００が備える可視化部６０６が実行する可視化処理と同様である。ただし、会議サーバ１０が備える可視化部６０６は、会議を可視化する表示画面を、ウェブサーバ部７０４を介して、端末装置１００のウェブブラウザ部７１１等に送信（出力）する。

記憶部６０７は、例えば、会議指標データ６２１、又は機械学習モデル等の様々な情報、及びデータ等を記憶する。なお、会議指標データ６２１、及び機械学習モデルについては後述する。

（端末装置の機能構成）
図７に示す端末装置１００は、図６で説明した端末装置１００が有する取得部６０５、可視化部６０６、及び記憶部６０７に代えて、ウェブブラウザ部７１１を有している。

ウェブブラウザ部７１１は、例えば、ＣＰＵ３０１が実行するウェブブラウザ、又はウェブブラウザの機能を有するアプリケーション等によって実現される。ウェブブラウザ部７１１は、端末装置１００を利用する参加者の操作に従って、会議サーバ１０のウェブサーバ部７０４にアクセスし、ウェブサーバ部７０４が提供する、ウェブ会議を可視化するウェブページ等を表示する。なお、ウェブブラウザ部７１１以外の端末装置１００の各機能構成は、図６で説明した各機能構成と同様で良い。

なお、図８に示したコミュニケーション支援システム１の機能構成は一例である。例えば、会議サーバ１０は、ウェブ会議サービスを提供する第１のサーバと、ウェブ会議を可視化するウェブページ等を提供する第２のサーバに分かれていても良い。また、ウェブ会議サービスを提供する第１のサーバは、会議管理処理を実行する第３のサーバと、中継処理を実行する第４のサーバに、さらに分かれていても良い。さらに、会議サーバ１０が備える取得部６０５は、端末装置１００が有し、会議制御部６０２から取得した音声を会議サーバ１０に送信するもの等であっても良い。

要するに、図７に示した、コミュニケーション支援システム１の各機能構成は、コミュニケーション支援システム１に含まれる、いずれかの装置が有していれば良い。

＜処理の流れ＞
続いて、本実施形態に係るコミュニケーション支援方法の処理の流れについて説明する。

（コミュニケーション支援処理）
図８は、一実施形態に係るコミュニケーション支援処理の例を示すフローチャートである。この処理は、例えば、図６に示した端末装置１００、又は図７に示したコミュニケーション支援システム１が実行するコミュニケーション支援処理の概要を示している。なお、図８に示す処理の開始時点において、参加者が利用する端末装置１００と、他の参加者が利用する端末装置１００は、同じウェブ会議に参加しており、音声及び画像を含むコンテンツを送受信可能な状態であるものとする。

ステップＳ８０１において、取得部６０５は、ウェブ会議（コミュニケーションの一例）に参加する参加者が発話する音声と、当該ウェブ会議に参加する他の参加者が発話する音声とを取得する。

ステップＳ８０２において、抽出部６１１は、取得部６０５が取得した音声から、参加者の発話時間と発話文字数（又は発話語数）、及び他の参加者の発話時間と発話文字数（又は発話語数）を抽出する。

ステップＳ８０３において、算出部６１２は、参加者の発話時間と、他の参加者の発話時間との比率である発話比率を算出する。

ステップＳ８０４において、算出部６１２は、参加者の発話速度と、他の参加者の発話速度との比率である発話速度比率を算出する。

ステップＳ８０５において、算出部６１２は、参加者が連続して発話した最長発話時間と、他の参加者が連続して発話した最長発話時間との比率である最長発話時間比率を算出する。

ステップＳ８０６において、可視化部６０６は、情報生成部６１３を用いて、算出部６１２が算出した算出結果を用いて、ウェブ会議を可視化する情報を生成し、生成した情報を出力する可視化処理を実行する。

（可視化処理について）
［第１の実施形態］
図９Ａ、図９Ｂは、第１の実施形態に係る可視化処理の例を示すフローチャートである。図９Ａは、図８のステップ８０６において、可視化部６０６が実行する可視化処理の一例を示している。

ステップＳ９０１において、可視化部６０６は、情報生成部６１３を用いて、算出部６１２が算出した発話比率に基づいて、会議の「主導権」を表す第１の指標を生成し、生成した第１の指標を出力する。一例として、可視化部６０６は、図２に示すような表示画面２１０に、参加者の発話時間と、他の参加者の発話時間との発話比率で「主導権」を表す表示要素「主導権２２１」を表示（出力）する。

ステップＳ９０２において、可視化部６０６は、情報生成部６１３を用いて、算出部６１２が算出した発話速度比率に基づいて、会議の「切実感」を表す第２の指標を生成し、生成した第２の指標を出力する。一例として、可視化部６０６は、図２に示すような表示画面２１０に、参加者の発話速度と、他の参加者の発話速度との発話速度比率で「切実感」を表す表示要素「切実感２２３」を表示（出力）する。

ステップＳ９０３において、可視化部６０６は、情報生成部６１３を用いて、算出部６１２が算出した最長発話比率に基づいて、会議の「優位性」を表す第３の指標を生成し、生成した第３の指標を出力する。一例として、可視化部６０６は、図２に示すような表示画面２１０に、参加者が連続して発話した最長発話時間と、他の参加者が連続して発話した最長発話時間との比率で「優位性」を表す表示要素「優位性２２２」を表示（出力）する。

図９Ｂは、図８のステップ８０６において、可視化部６０６が実行する可視化処理の別の一例を示している。図９Ｂに示す可視化処理は、図９Ａで説明したステップＳ９０１～Ｓ０３の処理の後に、ステップＳ９１１の処理を追加している。

ステップＳ９１１において、可視化部６０６は、各指標の目標を表す表示要素を出力する。例えば、可視化部６０６は、図２に示すような表示画面２１０に、目標とする主導権の比率（割合）を表す表示要素２２１ｃを表示する。なお、目標とする主導権の比率は、例えば、記憶部６０７の会議指標データ６２１に予め記憶しておくものであっても良いし、端末装置１００を利用する参加者が設定画面等で設定するもの等であっても良い。

同様にして、可視化部６０６は、表示画面２１０に、目標とする優位性の比率を表す表示要素、及び目標とする切実感の比率を表す表示要素等を表示する。これにより、参加者は、目標とする各指標の比率に近づけるために、自己の発話内容を調整することが容易になる。

第１の実施形態によれば、コミュニケーション支援システム１は、例えば、図２に示すような表示画面２１０により、会議（商談）を可視化する指標２２０等を、参加者に提供することができる。

［第２の実施形態］
図１０は、第２の実施形態に係る可視化処理の例を示すフローチャートである。この処理は、図８のステップ８０６において、可視化部６０６が実行する可視化処理の別の一例を示している。

ステップＳ１００１において、情報生成部６１３は、例えば、記憶部６０７に予め記憶した会議指標データ６２１から、良い会議の指標データ、及び悪い会議の指標データを取得する。良い会議の指標データは、例えば、俳優が演じた良い会議のサンプル等から抽出した指標（「主導権」、「切実感」、及び「優位性」）データ等であっても良いし、過去に良い結果が得られた会議（商談）から抽出した指標データ等であっても良い。同様に、悪い会議の指標データは、例えば、俳優が演じた悪い会議のサンプル等から抽出した指標データであっても良いし、過去に悪い結果であった会議（商談）から抽出した指標データ等であっても良い。

ステップＳ１００２において、情報生成部６１３は、例えば、図８のステップＳ８０３～Ｓ８０５で算出した指標データと、ステップＳ１００１で取得した指標データとの相関を示す相関係数を算出する。

図１１は、第２の実施形態に係る指標データの相関係数の算出について説明するための図である。図１１において、良い会議の指標データ１１０１、及び悪い会議の指標データ１１０２は、ステップＳ１１０１において、情報生成部６１３が取得した指標データの一例である。また、算出データ１１０３は、図８のステップＳ８０３～Ｓ８０５で算出した指標データの一例である。

図１１の例では、情報生成部６１３は、算出データ１１０３の各指標と、良い会議の指標データ１１０１に含まれる利用シーン１～３の各指標との相関係数（例えば、ピアソン相関）を算出し、算出した相関係数の平均１１０４を算出する。また、情報生成部６１３は、算出した相関係数の平均１１０４を、算出した指標データと、良い会議の指標データとの相関を示す相関係数とする。

同様に、情報生成部６１３は、算出データ１１０３の各指標と、悪い会議の指標データ１１０２に含まれる利用シーン１～３の各指標との相関係数を算出し、算出した相関係数の平均１１０５を算出する。また、情報生成部６１３は、算出した相関係数の平均１１０５を、算出した指標データと、悪い会議の指標データとの相関を示す相関係数とする。

別の一例として、情報生成部６１３は、ステップＳ１１０１において、複数の利用シーン１～３を、端末装置１００に選択可能に表示して、参加者が選択した利用シーンに対応する良い会議の指標データ、及び悪い会議の指標データを取得しても良い。この場合、情報生成部６１３は、ステップＳ１１０２において、算出データ１１０３の各指標と、参加者が選択した利用シーンにおける良い会議の指標データとの相関係数を算出する。同様に、情報生成部６１３は、ステップＳ１１０２において、算出データ１１０３の各指標と、参加者が選択した利用シーンにおける悪い会議の指標データとの相関係数を算出する。

ステップＳ１００３において、情報生成部６１３は、ステップＳ１００２で算出した相関係数に基づいて、ウェブ会議を評価する。例えば、図１１の例では、算出データ１１０３と、良い会議の指標データ１１０１との相関係数の平均１１０４は「０．７０」であり、悪い会議の指標データ１１０２との相関係数の平均１１０５は「０．３９」である。この場合、情報生成部６１３は、良い会議との相関係数がより大きいため、現在のウェブ会議を良い会議と評価しても良い。

別の一例として、情報生成部６１３は、算出データ１１０３と、良い会議の指標データ１１０１との相関係数の平均「０．７９」を、ウェブ会議の評価結果（例えば、満足度等）としても良い。或いは、情報生成部６１３は、良い会議との相関係数、及び悪い会議との相関係数を用いて、ウェブ会議の評価結果を算出しても良い。

ステップＳ１００４において、可視化部６０６は、ウェブ会議を可視化する指標データ（「主導権」、「優位性」、及び「切実感」）と、ウェブ会議の評価結果とを出力する。例えば、情報生成部６１３は、ウェブ会議を可視化する指標データ（「主導権」、「優位性」、及び「切実感」）と、ウェブ会議の評価結果とを含む、例えば、図１２に示すような表示画面１２００を生成する。また、可視化部６０６は、情報生成部６１３が生成した表示画面１２００を、表示制御部６０３を用いて、ディスプレイ３０６等の表示部に表示する。

図１２は、第２の実施形態に係る表示画面の例を示す図である。図１２の例では、表示画面１２００は、ウェブ会議（コミュニケーション）の評価結果の一例である満足度１２０１、及びウェブ会議を可視化する指標１２０２を含む。また、表示画面１２００は、例えば、ウェブ会議の残り時間１２０３等の他の情報を、さらに含むものであっても良い。

第２の実施形態によれば、コミュニケーション支援システム１は、例えば、図１２に示すような表示画面１２００により、ウェブ会議を可視化する指標１２０２とともに、ウェブ会議の評価結果を参加者に提供することができる。

［第３の実施形態］
図１３は、第３の実施形態に係る可視化処理の例を示すフローチャートである。この処理は、図８のステップ８０６において、可視化部６０６が実行する可視化処理の別の一例を示している。

ステップＳ１３０１において、情報生成部６１３は、図８のステップＳ８０３～Ｓ８０５で、算出部６１２が算出した指標データ「発話比率（主導権）」、「発話速度比率（切実感）」、及び「最長発話時間（優位性）」を取得する。

ステップＳ１３０２において、情報生成部６１３は、取得した指標データを、学習済の機械学習モデル６２２に入力することにより、ウェブ会議を可視化する情報を取得する。

図１４は、第３の実施形態に係る可視化処理について説明するための図である。一例として、端末装置１００は、複数の会議から抽出した３つの指標データと、各会議の満足度、及び出力するメッセージ等を含む教師データを用いて、予め機械学習した学習済の機械学習モデル６２２を、記憶部６０７に記憶しておく。この場合、情報生成部６１３は、ステップＳ１３０１で取得した指標データを、学習済の機械学習モデル６２２に入力することにより、学習済の機械学習モデル６２２から、会議の満足度１４０１、及び出力するメッセージ１４０２等を取得することができる。

ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータが、データ識別等の判断に必要なアルゴリズムを、事前に取り込まれる学習データから自律的に生成し、新たなデータについてこれを適用して予測を行う技術のことをいう。また、機械学習のための学習方法は、教師あり学習に限られず、例えば、教師なし学習、半教師学習、強化学習、又は深層学習等であっても良い。

また、別の一例として、情報生成部６１３は、取得した指標データを、学習済の機械学習モデル６２２を有する外部サーバに送信して、外部サーバが送信する、会議の満足度１４０１、及び出力すべきメッセージ１４０２等を取得しても良い。

ステップＳ１３０３において、可視化部６０６は、学習済の機械学習モデル６２２の出力結果と、会議を可視化する３つ指標（主導権、優位性、及び切実感）とを出力する。例えば、可視化部６０６は、情報生成部６１３を用いて、例えば、図１４に示すように、会議の満足度１４０１、メッセージ１４０２、及び会議を可視化する３つの指標１４０３等を表示する表示画面１４００を作成する。

また、端末装置１００が可視化部６０６を有している場合、可視化部６０６は、作成した表示画面１４００を、表示制御部６０３を用いて、ディスプレイ３０６等の表示部に表示（出力）する。一方、会議サーバ１０が可視化部６０６を有している場合、可視化部６０６は、作成した表示画面１４００を、ウェブサーバ部７０４を用いて、端末装置１００に送信（出力）する。

第３の実施形態によれば、コミュニケーション支援システム１は、例えば、図１４に示すような表示画面１４００により、ウェブ会議を可視化する指標１４０３とともに、会議の満足度１４０１及び状況に応じたメッセージ１４０２を参加者に提供することができる。なお、メッセージ１４０２は、コミュニケーションの進め方を示す情報の別の一例である。

（応用例）
なお、上記の各実施形態では、コミュニケーション支援システム１が支援するコミュニケーションが、参加者と、他の参加者との間で商談を行うウェブ会議であるものとして説明を行った。ただし、これに限られず、コミュニケーション支援システム１が支援するコミュニケーションは、例えば、遠隔医療、カウンセリング、遠隔授業、又は就学相談等の様々なコミュニケーションであって良い。

また、上記の各実施形態では、参加者と、他の参加者とが１対１でコミュニケーションを行う場合の例について説明したが、参加者は、２人以上の他の参加者とコミュニケーションを行うものであっても良い。この場合、コミュニケーション支援システム１は、例えば、図１５に示すように、端末装置１００の表示画面１５００に、第１～３の実施形態で説明した支援アプリの表示画面１５０１に加えて、他の参加者の会議の満足度等を表示する表示画面１５０２を表示しても良い。これにより、参加者は、例えば、ユーザＡの満足度が比較的高く、ユーザＢの満足度が比較的低いこと等を容易に把握できるので、ユーザＢに話を振ることができるようになる。

なお、ユーザＡの会議の満足度は、ユーザＡの発話時間と参加者の発話時間との発話比率、ユーザＡの発話速度と参加者と発話速度との発話速度比率、及びユーザＡの最長発話時間と参加者の最長発話時間との最長発話時間比率により求めても良い。

同様に、ユーザＢの会議の満足度は、ユーザＢの発話時間と参加者の発話時間との発話比率、ユーザＢの発話速度と参加者との発話速度との発話速度比率、及びユーザＢの最長発話時間と参加者の最長発話時間との最長発話時間比率により求めても良い。

［第４の実施形態］
第１～３の実施形態では、主導権、切実感、及び優位性等の指標を用いて、コミュニケーションを可視化する場合の例について説明したが、コミュニケーション支援システム１は、他の情報を用いてコミュニケーションを可視化してもよい。

例えば、コミュニケーション支援システム１は、参加者の発話音量と他の参加者の発話音量とに基づいて、コミュニケーションを可視化してもよい。具体的な一例として、コミュニケーション支援システム１は、参加者、及び他の参加者の発話音量の変化を時系列で表示する表示画面を出力してもよい。これにより、例えば、会話の盛り上がりの変化、一方の参加者が話をしてから他方の参加者からの応答がない（又は遅い）、又は他の参加者の発話音量が突然上がった等、コミュニケーションの状況が分かり易くなる。

また、コミュニケーション支援システム１は、参加者の発話周波数（基本周波数ｆ_０）と他の参加者の発話周波数とに基づいて、コミュにケーションを可視化してもよい。具体的な一例として、コミュニケーション支援システム１は、参加者、及び他の参加者の発話周波数の変化を時系列で表示する表示画面を出力してもよい。発話周波数（発話ごとの基本周波数）は、例えば、コミュニケーションの雰囲気、感情、又は理解度等のコミュニケーションの状況を表す。なお、コミュニケーション支援システム１は、参加者の発話音量及び発話周波数と、他の参加者の発話音量及び発話周波数に基づいて、コミュニケーションを可視化してもよい。

また、コミュニケーション支援システム１は、発話音量、又は発話周波数等を時系列で出力するだけではなく、例えば、コミュニケーション全体の沈黙時間、又は話者交代の回数等を、コミュニケーションを可視化する情報と出力してもよい。

＜処理の流れ＞
図１６は、第４の実施形態に係るコミュニケーション支援処理の例を示すフローチャートである。なお、ここでは、第１～３の実施形態と同様の処理に対する詳細な説明は省略する。

Ｓ１６０１において、取得部６０５は、コミュニケーション（例えばウェブ会議）に参加する参加者、及び他の参加者の発話音声を取得する。

ステップＳ１６０２において、抽出部６１１は、取得部６０５が取得した音声から、参加者及び他の参加者の発話時間、発話文字数、発話音量、及び発話周波数等を抽出して、例えば、図１７に示すような抽出データ１７００を作成する。

図１７は、第４の実施形態に係る抽出データの例を示す図である。図１７の例では、抽出データ１７００は、項目として、「発話開始時間」、「発話終了時間」、「発話時間」、「話者」、「発話文字数」、「発話比率」、「最長発話時間比率」、「発話音量」、及び「発話周波数」等のデータを含む。また、抽出データ１７００は、各行が、１つの発話に対応している。なお、図１７の例では、参加者、及び他の参加者が発話していない沈黙期間も１つの発話としてデータ化している。

「発話開始時間」、及び「発話終了時間」は、各発話の開始日時と終了日時を示すデータである。「発話時間」は、各発話の「発話開始時間」から「発話終了時間」までの期間を示すデータである。「話者」は、各発話の話者を示している。図１７の例では、「Ａ」は参加者の発話であること、「Ｂ」は他の参加者の発話であること、「－」は話者がいない沈黙であることを示している。

「発話文字数」、「発話比率」、及び「最長発話時間比率」は、第１～３の実施形態と同様にして、各発話から抽出した発話の文字数、発話の比率、及び最長発話時間の比率を示すデータである。「発話音量」は、第４の実施形態で新たに抽出する、各発話の音量（例えば平均音量）を示すデータである。「発話周波数」は、第４の実施形態で新たに抽出する、各発話の周波数（例えば、基本周波数ｆ_０の平均値）を示すデータである。

ここで、図１６に戻り、フローチャート説明を続ける。ステップＳ１６０３において、可視化部６０６は、参加者、及び他の参加者の発話音量の変化と発話周波数の変化とのうち、少なくとも１つのデータを時系列で出力する。例えば、可視化部６０６は、図１７で説明した抽出データ１７００の「発話音量」のデータのうち、話者「Ａ」（参加者）の発話音量と、話者「Ｂ」（他の参加者）の発話音量とを、別々に時系列で出力する。また、可視化部６０６は、抽出データ１７００の「発話周波数」のデータのうち、話者「Ａ」（参加者）の発話周波数と、話者「Ｂ」（他の参加者）の発話周波数とを、別々に時系列で出力してもよい。

ステップＳ１６０４において、可視化部６０６は、コミュニケーション全体の沈黙時間の合計を算出して出力する。例えば、可視化部６０６は、図１７で説明した抽出データ１７００の「発話時間」のうち、話者が「－」（沈黙）の発話時間を合計して出力する。

ステップＳ１６０５において、可視化部６０６は、話者交代の回数を算出して出力する。例えば、可視化部６０６は、図１７で説明した抽出データ１７００の「話者」のデータを参照して、話者が「Ａ」から「Ｂ」に変わった回数と、話者が「Ｂ」から「Ａ」に変わった回数とを合計して出力する。

図１６の処理により、可視化部６０６は、表示制御部６０３を用いて、例えば、図１８に示すような表示画面１８００を、ディスプレイ３０６等の表示部に表示する。

図１８は、第４の実施形態に係る表示画面の例を示す図（１）である。この表示画面１８００は、第４の実施形態に係る可視化部６０６が出力するコミュニケーションを可視化する表示画面の一例を示している。

図１８の例では、表示画面１８００には、ユーザ（参加者の一例）の発話音量１８１１と、クライアント（他の参加者の一例）の発話音量１８１２とを時系列に表示するグラフ１８１０が表示されている。このグラフ１８１０は、図１６のステップＳ１６０３において、可視化部６０６が出力する、コミュニケーションを可視化する情報の一例である。なお、可視化部６０６は、このグラフ１８１０に代えて（又は加えて）、ユーザの発話周波数と、クライアントの発話周波数とを時系列に表示するグラフを表示画面１８００に表示してもよい。

また、表示画面１８００には、沈黙時間の合計１８０２、及び話者交代の回数１８０３等の情報も表示されている。これらの情報は、図６のステップＳ１６０４、Ｓ１６０５において、可視化部６０６が出力する、コミュニケーションを可視化する情報の一例である。

可視化部６０６は、表示画面１８００に、例えば、ユーザとクライアントの発話周波数の変化、又はユーザとクライアントの発話スピードの変化等を時系列で表すグラフ１８２０を、さらに表示してもよい。また、可視化部６０６は、表示画面１８００に、平均会話バランス１８０１等の可視化データを、さらに表示してもよい。平均会話バランス１８０１は、例えば、ユーザとクライアントの発話時間の比、又は発話音量の比等で表される。

このように、コミュニケーション支援システム１は、主導権、切実感、及び優位性等の指標によらずに、コミュニケーションを可視化する情報を出力してもよい。

（応用例）
コミュニケーション支援システム１は、コミュニケーションに課題が発生した場合、又はコミュニケーションに課題が発生しそうな場合に、アラートを出力してもよい。

図１９は、第４の実施形態に係るコミュニケーション支援処理の応用例を示すフローチャートである。なお、図１９に示す処理のうち、ステップＳ１６０１～Ｓ１６０５の処理は、図１６で説明した処理と同様なので、ここでは説明を省略する。

ステップＳ１９０１において、可視化部６０６は、可視化部６０６が出力した情報に基づいて、コミュニケーションに課題が発生した場合、又はコミュニケーションに課題が発生しそうな場合に、アラートを出力する。

例えば、可視化部６０６は、図２０に示すようなコミュニケーションの一覧画面２０００を、管理者等の情報端末等に表示させることができる。図２０の例では、コミュニケーションの一覧画面２０００には、管理対象となる複数のユーザが行った商談（コミュニケーションの一例）のサマリー２００１が表示されている。各サマリー２００１には、例えば、ユーザ名、クライアント名に加えて、例えば、商談の評価２００３、及び可視化部６０６が出力する可視化データ２００２等が表示されている。

可視化部６０６は、例えば、可視化データ２００２の値が、予め定められた閾値を超えた場合（又は閾値に満たない場合）、その商談に課題が発生したと判断して、当該商談のサマリーを強調表示２００４することにより、アラートを出力してもよい。或いは、可視化部６０６は、商談の評価２００３が、予め定められた評価に満たない場合、その商談のサマリーを強調表示２００４して、アラートを出力してもよい。また、アラートは、強調表示に限られず、例えば、電子メール、又は音声メッセージ等であってもよい。

［第５の実施形態］
第３の実施形態では、コミュニケーション支援システム１が、主導権、切実感、及び優位性等の指標を学習済の機械学習モデルに入力して、会議の満足度、及び状況に応じたメッセージ等を出力する場合の例について説明した。ただし、コミュニケーション支援システム１は、他の情報を用いて、会議の満足度、及び状況に応じたメッセージ等を出力してもよい。

＜処理の流れ＞
図２１は、第５の実施形態に係る可視化処理の例を示すフローチャートである。なお、ここでは、図１６で説明した第４の実施形態に係る可視化処理と同様の処理に対する詳細な説明は省略する。

Ｓ２１０１において、取得部６０５は、コミュニケーション（例えばウェブ会議）に参加する参加者、及び他の参加者の発話音声を取得する。

ステップＳ２１０２において、抽出部６１１は、取得部６０５が取得した音声から、参加者、及び他の参加者の発話時間、発話文字数、発話音量、及び発話周波数等を抽出して、例えば、図１７に示すような抽出データ１７００を作成する。

ステップＳ２１０３において、可視化部６０６は、抽出データ１７００から、発話比率、発話速度比率、最長発話時間比率、発話参加者、及び他の参加者の発話音量の変化、発話周波数の変化、沈黙時間の合計、及び話者交代の回数の等のデータを取得する。このとき、可視化部６０６は、必ずしも上記の全てのデータを取得する必要はなく、例えば、上記のデータの中から、予め設定されたデータの組合せを取得してもよい。

ステップＳ２１０４において、可視化部６０６は、取得したデータを、学習済の機械学習モデル６２２に入力する。これにより、学習済の機械学習モデルは、例えば、会議の満足度、及び状況に応じたメッセージ等を出力する。

ステップＳ２１０５において、可視化部６０６は、会議の満足度、及び状況に応じたメッセージを表示する表示画面を表示する。

図２２は、第５の実施形態に係る可視化処理について説明するための図である。一例として、コミュニケーション支援システム１は、複数の会議から抽出した複数の入力データと、各会議の満足度、及び出力するメッセージ等を含む教師データを用いて、予め機械学習した学習済の機械学習モデル６２２を記憶しておく。ここで、複数の入力データは、図２１のステップＳ２１０３で取得した、発話比率、発話速度比率、最長発話時間比率、発話参加者、及び他の参加者の発話音量の変化、発話周波数の変化、沈黙時間の合計、及び話者交代の回数の等のデータである。

これにより、可視化部６０６は、ステップＳ２１０３で取得した入力データを、学習済の機械学習モデル６２２に入力することにより、学習済の機械学習モデル６２２から、会議の満足度２２０２、及び出力するメッセージ２２０１等を取得することができる。

また、可視化部６０６は、取得した会議の満足度２２０２、及び出力するメッセージ２２０１等を用いて、例えば、図２２に示すような表示画面２２００を表示する。図２２の例では、表示画面２２００には、会議の満足度２２０２、及び出力するメッセージ２２０１に加えて、参加者と他の参加者の会話スピードの比較データ２２０３、及び参加者と他の参加者の発話時間の比較データ２２０４等が表示されている。

以上、本発明の各実施形態によれば、コミュニケーションに参加する参加者の情報、及び他の参加者の情報を予め登録しなくても、コミュニケーションを支援できるコミュニケーション支援システムを提供することができる。

なお、本実施形態に係るコミュニケーション支援システム１によれば、コミュニケーションに参加する参加者の発話内容を解析する必要がないので、参加者のプライバシーを侵害する恐れがない、又は外国語への対応が容易になるという特別な効果も期待できる。

＜補足＞
上記で説明した各実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたＡＳＩＣ（Application Specific Integrated Circuit）、ＤＳＰ（digital signal processor）、ＦＰＧＡ（field programmable gate array）や従来の回路モジュール等のデバイスを含むものとする。

また、実施例に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの１つを示すものに過ぎない。ある実施形態では、会議サーバ１０は、サーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリなどを含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。

さらに、会議サーバ１０、及び端末装置１００は、開示された処理ステップ、例えば、図８～１０、１３、１６、１９、２１に示す処理を様々な組み合わせで共有するように構成できる。例えば、取得部６０５よって実行されるプロセスは、会議サーバ１０、又は端末装置１００によって実行され得る。同様に、可視化部６０６によって実行されるプロセスは、会議サーバ１０、又は端末装置１００によって実行され得る。また、会議サーバ１０の各要素は、１つのサーバ装置にまとめられていても良いし、複数の装置に分けられていても良い。

以上、本発明を実施例に基づいて説明したが、本発明は上記実施例に限定されるものではなく、特許請求の範囲に記載の範囲内で様々な変形が可能である。

本出願は、日本特許庁に２０２１年９月１日に出願された特許出願第２０２１－１４２７１６号、及び２０２２年３月７日に出願された特許出願第２０２２－０３４６９３号の優先権を主張するものであり、その全内容を参照によりここに援用する。

１コミュニケーション支援システム
１０会議サーバ（情報処理装置の別の一例）
１００端末装置（情報処理装置の一例）
２２１主導権（第１の指標）
２２２優位性（第３の指標）
２２３切実感（第２の指標）
２３０コミュニケーションガイド
６０５取得部
６０６可視化部
１２０１満足度（コミュニケーションの評価結果）
１４０２メッセージ
１８００表示画面

特許６６６４８１８号公報

Claims

コミュニケーションに参加する参加者が発話する音声と前記コミュニケーションに参加する他の参加者が発話する音声とを取得する取得部と、
前記参加者の発話時間と前記他の参加者の発話時間とに基づいて、前記コミュニケーションの状況を可視化する可視化部と、を備え、
前記可視化部は、前記可視化部が出力する前記コミュニケーションを可視化する複数の情報と、予め記憶部に記憶されている、過去に行われて良い結果が得られた良いコミュニケーションの指標データおよび過去に行われて悪い結果が得られた悪いコミュニケーションの指標データとの相関に基づいて、前記コミュニケーションを評価する情報をさらに出力する、コミュニケーション支援システム。
前記可視化部は、前記参加者の発話時間と前記他の参加者の発話時間との比率に基づいて、前記コミュニケーションを可視化する第１の指標を出力する、請求項１に記載のコミュニケーション支援システム。
前記第１の指標は、前記コミュニケーションにおける前記参加者、又は前記他の参加者の主導権を表す、請求項２に記載のコミュニケーション支援システム。
前記可視化部は、前記参加者の発話文字数と前記他の参加者の発話文字数とに、さらに基づいて前記コミュニケーションの状況を可視化する、請求項１乃至３のいずれか一項に記載のコミュニケーション支援システム。
前記可視化部は、前記参加者の発話速度と前記他の参加者の発話速度との比率に基づいて、前記コミュニケーションを可視化する第２の指標を出力する、請求項４に記載のコミュニケーション支援システム。
前記第２の指標は、前記コミュニケーションにおける前記参加者、又は前記他の参加者の切実感を表す、請求項５に記載のコミュニケーション支援システム。
前記可視化部は、前記他の参加者が連続して発話した最長発話時間と前記参加者が連続して発話した最長発話時間との比率に基づいて、前記コミュニケーションを可視化する第３の指標を出力する、請求項１に記載のコミュニケーション支援システム。
前記第３の指標は、前記コミュニケーションにおける前記参加者、又は前記他の参加者の優位性を表す、請求項７に記載のコミュニケーション支援システム。
前記可視化部は、前記可視化部が出力する１つ以上の指標に基づいて、前記コミュニケーションの進め方を示す情報を出力する、請求項１に記載のコミュニケーション支援システム。
前記可視化部は、前記参加者の発話音量と前記他の参加者の発話音量とに、さらに基づいて前記コミュニケーションの状況を可視化する、請求項１に記載のコミュニケーション支援システム。
前記可視化部は、前記参加者の発話周波数と前記他の参加者の発話周波数とに、さらに基づいて前記コミュニケーションの状況を可視化する、請求項１に記載のコミュニケーション支援システム。
前記可視化部は、前記コミュニケーションの状況を時系列で表示する表示画面を出力する、請求項１０に記載のコミュニケーション支援システム。
前記表示画面は、前記コミュニケーションにおける沈黙時間を示す情報、又は話者交代の回数を示す情報をさらに表示する、請求項１２に記載のコミュニケーション支援システム。
前記コミュニケーション支援システムは、コミュニケーション用のアプリケーションプログラムとコミュニケーション支援用のアプリケーションプログラムと、を有する、請求項１に記載のコミュニケーション支援システム。
前記可視化部は、前記可視化部が出力する前記コミュニケーションを可視化する情報と、予め定められた閾値に基づいて、前記コミュニケーションに課題が発生した場合、又は、前記コミュニケーションに課題が発生しそうな場合に、アラートを出力する、請求項１に記載のコミュニケーション支援システム。
コミュニケーションに参加する参加者が発話する音声と前記コミュニケーションに参加する他の参加者が発話する音声とを取得する取得部と、
前記参加者の発話時間と前記他の参加者の発話時間とに基づいて、前記コミュニケーションの状況を可視化する可視化部と、を備え、
前記可視化部は、前記可視化部が出力する前記コミュニケーションを可視化する複数の情報と、予め記憶部に記憶されている、過去に行われて良い結果が得られた良いコミュニケーションの指標データおよび過去に行われて悪い結果が得られた悪いコミュニケーションの指標データとの相関に基づいて、前記コミュニケーションを評価する情報をさらに出力する、情報処理装置。
コンピュータが、
コミュニケーションに参加する参加者が発話する音声と前記コミュニケーションに参加する他の参加者が発話する音声とを取得する処理と、
前記参加者の発話時間と前記他の参加者の発話時間とに基づいて、前記コミュニケーションの状況を可視化する可視化処理と、
を実行し、
前記可視化処理は、前記可視化処理が出力する前記コミュニケーションを可視化する複数の情報と、予め記憶部に記憶されている、過去に行われて良い結果が得られた良いコミュニケーションの指標データおよび過去に行われて悪い結果が得られた悪いコミュニケーションの指標データとの相関に基づいて、前記コミュニケーションを評価する情報をさらに出力する、コミュニケーション支援方法。
請求項１７に記載のコミュニケーション支援方法をコンピュータに実行させる、プログラム。