JP2025006291A

JP2025006291A - 情報処理装置、方法、システム、およびプログラム

Info

Publication number: JP2025006291A
Application number: JP2023106992A
Authority: JP
Inventors: 恭寛羽原; Yasuhiro Habara; 良太川村; Ryota Kawamura; 崇史奈良; Takashi Nara; 愛実田畑; Manami Tabata; 彰遠藤; Akira Endo; 晴輝西村; Haruki Nishimura; 想西村; So Nishimura; 真祐美小島; Mayumi Kojima; 尚平岡; Takashi Hiraoka
Original assignee: Pixie Dust Technologies Inc
Current assignee: Pixie Dust Technologies Inc
Priority date: 2023-06-29
Filing date: 2023-06-29
Publication date: 2025-01-17

Abstract

【課題】会議の支援の制約を取り除くことである。【解決手段】本開示の一態様の情報処理装置は、マイクロホンによる集音によって得られた音声に対応するテキスト情報を取得する手段と、音声に関連付けられる発話者に関する発話者情報を取得する手段と、発話者情報を音声に対応するテキスト情報に関連付けて保存する手段と、発話者毎に当該発話者の発話者情報に関連付けられる音声に対応するテキスト情報の要約を生成する手段とを具備する。【選択図】図４

Description

本開示は、情報処理装置、方法、システム、およびプログラムに関する。

従来、会議を支援するための様々な技術的思想が提案されている。

例えば特許文献１には、複数の発言者により発言が行われる会議の音声データを取得し、当該音声データに基づいて各発言の発言者を特定し、当該音声データに音声認識処理を施して文字データを生成し、当該文字データから所定の発言者の発言、または所定の語句を含む発言を検出し、検出された発言の文字データに基づいて、議事録を生成するという技術的思想が開示されている。

例えば特許文献２には、会議の進行に影響を及ぼす要素について所定の条件を満たすか否かを判定し、当該所定の条件を満たす場合に、複数のマイクスピーカ装置のうち会議の進行に影響を及ぼす要素に応じて選択されるマイクスピーカ装置から、当該所定の条件に関する特定情報を通知させるという技術的思想が開示されている。

特開2022-118302号公報特開2022-138245号公報

しかしながら、従来の議事録は、情報量の多寡の違いはあるにせよ、基本的には発言内容を発生順に並べた形式であることが多く、会議における議論の状況を短時間で把握するという観点では改善の余地がある。特許文献１の技術的思想では、要約の様式に工夫があるものの、特定の議題を扱う会議以外には適用し難い。

特許文献２の技術的思想は、会議の参加者の各人にウェアラブル型のマイクスピーカ装置を装着しておくことを前提としており、会議を実施するうえでの制約が大きい。

上記のとおり、従来、会議の支援には様々な制約がある。

本開示の目的は、会議の支援の制約を取り除くことである。

本開示の一態様の情報処理装置は、マイクロホンによる集音によって得られた音声に対応するテキスト情報を取得する手段と、音声に関連付けられる発話者に関する発話者情報を取得する手段と、発話者情報を音声に対応するテキスト情報に関連付けて保存する手段と、発話者毎に当該発話者の発話者情報に関連付けられる音声に対応するテキスト情報の要約を生成する手段とを具備する。

本開示の別の態様の情報処理装置は、会議に関する情報であって、少なくとも当該会議の内容に関する情報を含む会議情報を取得する手段と、会議の実施中にマイクロホンによる集音によって得られた音声に対応するテキスト情報を取得する手段と、音声に関連付けられる発話者に関する発話者情報を取得する手段と、会議情報と、テキスト情報と、発話者情報とに基づいて行われる、会議の参加者の状態、または会議の進行状態、の少なくとも１つに関して判定する手段と、判定の結果に応じて、会議の参加者の一部または全部にアラートまたは提案を提示するためのＵＩ（User Interface）情報を生成する手段と、ＵＩ情報を出力する手段とを具備する。

本実施形態の情報処理システムの構成を示すブロック図である。本実施形態のディスプレイデバイスの構成を示すブロック図である。本実施形態のマイクデバイスの構成を示すブロック図である。本実施形態の一態様の説明図である。本実施形態の発話者データベースのデータ構造を示す図である。本実施形態の発言ログデータベースのデータ構造を示す図である。本実施形態のマイクロホン処理のフローチャートである。マイクロホンによる集音を説明するための図である。発話者の方向を説明するための図である。本実施形態の発言ログ収集処理のフローチャートである。本実施形態の要約処理のフローチャートである。本実施形態の要約処理において表示される画面例を示す図である。変形例１の一態様の説明図である。変形例１のファシリテーション処理のフローチャートである。

以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。

以降の説明において、マイクデバイスの位置及び向きを基準とする座標系（マイク座標系）を用いることがある。マイク座標系は、マイクデバイスの位置（例えばマイクデバイスの重心位置）を原点とし、当該原点においてｘ軸およびｙ軸が直交する。マイク座標系において、ｘ＋方向をマイクデバイスの前方としたとき、ｘ－方向をマイクデバイスの後方、ｙ＋方向をマイクデバイスの左方向、ｙ－方向をマイクデバイスの右方向とそれぞれ定義する。また、特定の座標系における方向とは、当該座標系の原点に対する方向を意味する。

（１）情報処理システムの構成
情報処理システムの構成について説明する。図１は、本実施形態の情報処理システムの構成を示すブロック図である。

図１に示すように、情報処理システム１は、ディスプレイデバイス１０と、マイクデバイス３０とを備える。
情報処理システム１には、複数のユーザが関与し得る。ユーザの少なくとも１人は難聴者であってもよいし、ユーザの全員が難聴者でなくてもよい（つまり、ユーザの全員が会話に十分な聴力を有する者であってもよい）。

ディスプレイデバイス１０およびマイクデバイス３０は、通信ケーブル、または無線チャネル（例えば、Wi-Fiチャネル又はBluetooth（登録商標）チャネル）を介して接続され得る。

ディスプレイデバイス１０は、１以上のディスプレイ（「表示部」の一例）を備える。ディスプレイデバイス１０は、外部装置から受信した情報に基づいて画像信号を生成し、または外部装置から画像信号を受信し、当該画像信号に応じた画像をディスプレイに表示する。ディスプレイデバイス１０は、例えば、タブレット端末、パーソナルコンピュータ、スマートフォン、モニタ装置、または会議用ディスプレイ装置などである。ディスプレイデバイス１０のユーザは、会議の参加者（ファシリテータを含み得る）であってもよいし、会議に参加していない者であってもよい。また、複数のユーザが、同時にディスプレイデバイス１０を使用することも可能である。

マイクデバイス３０は、ディスプレイデバイス１０から独立して設置可能に構成されてよい。つまり、マイクデバイス３０の位置および向きは、ディスプレイデバイス１０の位置および向きから独立して決定することができる。

（１－１）ディスプレイデバイスの構成
ディスプレイデバイスの構成について説明する。図２は、本実施形態のディスプレイデバイスの構成を示すブロック図である。

図２に示すように、ディスプレイデバイス１０は、記憶装置１１と、プロセッサ１２と、入出力インタフェース１３と、通信インタフェース１４と、表示部１５とを備える。

記憶装置１１は、プログラム及びデータを記憶するように構成される。記憶装置１１は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、及び、ストレージ（例えば、フラッシュメモリ又はハードディスク）の組合せである。

プログラムは、例えば、以下のプログラムを含む。
・ＯＳ（Operating System）のプログラム
・情報処理を実行するアプリケーション（例えば、Ｗｅｂブラウザ、会議を支援する機能を有するアプリケーション、など）のプログラム

データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理を実行することによって得られるデータ（つまり、情報処理の実行結果）

プロセッサ１２は、記憶装置１１に記憶されたプログラムを起動することによって、ディスプレイデバイス１０の機能を実現するコンピュータである。プロセッサ１２は、例えば、以下の少なくとも１つである。
・ＣＰＵ（Central Processing Unit）
・ＧＰＵ（Graphic Processing Unit）
・ＡＳＩＣ（Application Specific Integrated Circuit）
・ＦＰＧＡ（Field Programmable Gate Array）

入出力インタフェース１３は、ディスプレイデバイス１０に接続される入力デバイスから情報（例えば、ユーザの指示、音声信号）を取得し、かつ、ディスプレイデバイス１０に接続される出力デバイスに情報（例えば画像信号）を出力するように構成される。

入力デバイスは、例えば、マイクデバイス３０、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、表示部１５とは異なる外部ディスプレイ、スピーカ、またはそれらの組み合わせである。

通信インタフェース１４は、ディスプレイデバイス１０と外部装置（例えば、マイクデバイス３０）との間の通信を制御するように構成される。

表示部１５は、画像（静止画、または動画）を表示するように構成される。表示部１５は、例えば、液晶ディスプレイ、または有機ＥＬディスプレイである。

（１－２）マイクデバイスの構成
マイクデバイスの構成について説明する。図３は、本実施形態のマイクデバイスの構成を示すブロック図である。

図３に示すように、マイクデバイス３０は、記憶装置３１と、プロセッサ３２と、入出力インタフェース３３と、通信インタフェース３４と、マイクロホン５１とを備える。

記憶装置３１は、プログラム及びデータを記憶するように構成される。記憶装置３１は、例えば、ＲＯＭ、ＲＡＭ、及び、ストレージ（例えば、フラッシュメモリ又はハードディスク）の組合せである。

プログラムは、例えば、以下のプログラムを含む。
・ＯＳのプログラム
・情報処理を実行するアプリケーション（例えば、音声処理を行う機能を有するアプリケーション、など）のプログラム

データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理の実行結果

プロセッサ３２は、記憶装置３１に記憶されたプログラムを起動することによって、マイクデバイス３０の機能を実現するコンピュータである。プロセッサ３２は、例えば、以下の少なくとも１つである。
・ＣＰＵ
・ＧＰＵ
・ＡＳＩＣ
・ＦＰＧＡ

入出力インタフェース３３は、マイクデバイス３０に接続される入力デバイスから情報（例えば、ユーザの指示）を取得し、かつ、マイクデバイス３０に接続される出力デバイスに情報（例えば、音声信号）を出力するように構成される。

入力デバイスは、例えば、物理ボタン、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイ、スピーカ、またはそれらの組み合わせである。

通信インタフェース３４は、マイクデバイス３０と外部装置（例えば、ディスプレイデバイス１０）との間の通信を制御するように構成される。

マイクロホン５１は、例えば、マイクデバイス３０の周辺の音を集音する。マイクロホン５１により集音される音には、例えば以下の少なくとも１つの音が含まれる。
・人物による発話音
・マイクデバイス３０周辺の環境音

マイクデバイス３０は、少なくとも１つのマイクロホン５１を備える。以下の説明では、マイクデバイス３０は、複数のマイクロホン５１を備えることとする。換言すれば、マイクデバイス３０は、マルチマイクデバイスであることとする。マイクデバイス３０は、マイクロホン５１を用いて、発話者から発せられた音を受信（集音）することで音声信号（「音声情報」の一例）を生成する。また、マイクデバイス３０は、集音した音声信号に基づいて、マイク座標系における音の到来方向（つまり、発話者の方向）を推定する。「発話者の方向」とは、マイクデバイス３０に対する発話者の方向である。また、マイクデバイス３０は、集音した音声信号に対して、推定した発話者の方向に応じて後述するビームフォーミング処理を行う。

マイクデバイス３０には、例えば、筐体の表面にマイクデバイス３０の基準方向（例えば、前方（つまり、ｘ＋方向）であるが、その他の所定の方向であってもよい）を示す目印が付されていてもよい。これにより、ユーザは、マイクデバイス３０の向きを視覚情報から容易に認識することができる。なお、マイクデバイス３０の向きを認識するための手段はこれに限られない。目印は、マイクデバイス３０の筐体と一体化されていてもよい。

マイクデバイス３０は、当該マイクデバイス３０の動き及び状態を検出するためにＩＭＵ（Inertial Measurement Unit）を備えることができる。

（２）実施形態の一態様
本実施形態の一態様について説明する。図４は、本実施形態の一態様の説明図である。

図４に示すように、マイクデバイス３０は、例えば会議室に設置され、会議の実施中に参加者から発せられた音声を検出する。マイクデバイス３０は、複数のマイクロホン５１に対する音声の到来方向を推定し、推定結果に基づいて発話者を識別する。マイクデバイス３０は、音声の検出によって得られた音声信号と、当該音声の発話者に関する発話者情報とをディスプレイデバイス１０へ送信する。

ディスプレイデバイス１０は、マイクデバイス３０から受信した音声信号の音声認識結果であるテキスト情報を得る。ディスプレイデバイス１０は、取得可能なテキスト情報から、各発話者に関連付けられる音声に対応するテキスト情報を抽出する。ディスプレイデバイス１０は、発話者別のテキスト情報に基づくモデル入力を生成し、当該モデル入力を学習済みモデルＬＭ１に与えることで、発話者別のテキスト情報の要約を生成する。

学習済みモデルＬＭ１は、与えられたモデル入力（例えば指示文）に対して応答文を生成するように学習されている。学習済みモデルＬＭ１は、例えば大規模言語モデルであってよい。学習済みモデルＬＭ１は、ディスプレイデバイス１０とは異なる情報処理装置（例えば、外部サービスを提供するサーバ）に構築され得る。或いは、学習済みモデルＬＭ１は、ディスプレイデバイス１０の内部に構築されてもよい。本実施形態の学習済みモデルＬＭ１は、発話者別のテキスト情報に基づくモデル入力に応じて、発話者別のテキスト情報の要約を生成し、生成結果を出力する。

ディスプレイデバイス１０は、取得した要約に基づいて、当該要約を表示する画面に関するＵＩ（User Interface）情報を生成し、表示部１５に表示（「出力」の一例）する。これにより、ディスプレイデバイス１０のユーザは、会議の各参加者がどのような発言をしてきたか、または、会議の議題に対して各参加者がどのようなスタンスであるか、などを表示部１５の画面から容易に把握することができる。

（３）データベース
本実施形態のデータベースについて説明する。

（３－１）発話者データベース
本実施形態の発話者データベースについて説明する。図５は、本実施形態の発話者データベースのデータ構造を示す図である。発話者データベースは、記憶装置３１に記憶され得る。

発話者データベースには、発話者情報が格納される。発話者情報は、マイクデバイス３０によって識別された、マイクデバイス３０の周囲の発話者に関する情報である。

図５に示すように、発話者データベースは、「ＩＤ」フィールドと、「方向」フィールドと、「名称」フィールドとを含む。各フィールドは、互いに関連付けられている。

「ＩＤ」フィールドには、発話者ＩＤが格納される。発話者ＩＤは、発話者を識別する情報である。マイクデバイス３０は、新たな発話者を検出すると、新規の発話者ＩＤを発行し、当該発話者ＩＤを当該発話者に割り当てる。

「方向」フィールドは、発話者方向情報が格納される。発話者方向情報は、発話者の方向に関する情報である。一例として、発話者の方向は、マイク座標系において基準方向（本実施形態においては、マイクデバイス３０の前方（ｘ＋方向））を０度とする軸からの偏角として表される。

「名称」フィールドには、発話者名情報が格納される。発話者名情報は、発話者の名称に関する情報である。マイクデバイス３０は、発話者名情報を、自動的に決定してもよいし、ユーザ指示に応じて設定してもよい。マイクデバイス３０は、所定の規則に従って、またはランダムで、新たに検出された発話者に何らかの初期発話者名称を割り当てることができる。

その他、発話者データベースに格納される発話者情報は、以下の情報の少なくとも１つを含んでもよい。
・認識言語情報
・翻訳言語情報
・発話者距離情報

認識言語情報は、発話者の使用言語に関する情報である。発話者の認識言語情報に基づいて、当該発話者から発生される音声に適用される音声認識エンジンが選択される。認識言語情報の設定は、ユーザ操作により指定されてもよいし、音声認識モデルによる言語認識結果に基づいて自動で指定されてもよい。

翻訳言語情報は、発話者から発せられる音声に対する音声認識結果（テキスト）に機械翻訳を適用する場合における目的言語に関する情報である。発話者の翻訳言語情報に基づいて、当該発話者から発生される音声に対する音声認識結果に適用される機械翻訳エンジンが選択される。なお、翻訳言語情報は、個別の発話者ではなく全発話者に対して一括で設定されてもよいし、ディスプレイデバイス１０毎に設定されてもよい。

発話者距離情報は、マイクデバイス３０から発話者までの距離に関する情報である。また、発話者方向情報および発話者距離情報は、発話者位置情報として表すこともできる。発話者位置情報は、マイクデバイス３０に対する発話者の相対位置（つまり、マイクデバイス３０の座標系における発話者の座標）に関する情報である。

（３－２）発言ログデータベース
本実施形態の発言ログデータベースについて説明する。図６は、本実施形態の発言ログデータベースのデータ構造を示す図である。発言ログデータベースは、記憶装置１１に記憶され得る。

発言ログデータベースには、発言ログ情報が格納される。発言ログ情報は、発話者による発言内容のログに関する情報である。発言ログ情報は、発話者と、発言内容とを関連付ける。

図６に示すように、発言ログデータベースは、「日時」フィールドと、「発話者ＩＤ」フィールドと、「発言」フィールドとを含む。各フィールドは、互いに関連付けられている。

「日時」フィールドには、日時情報が格納される。日時情報は、発言の音声が検出された（つまり、マイクロホン５１による集音によって音声が検出された）日時に関する情報である。

「発話者ＩＤ」フィールドには、発話者ＩＤが格納される。発話者ＩＤは、発言が検出された発話者を識別する情報である。発話者ＩＤは、発話者データベース（図５）の発話者ＩＤと一対一対応し得る。

「発言」フィールドには、発言情報が格納される。発言情報は、発言の音声に対応するテキスト情報（一例として、音声認識結果）である。

（４）情報処理
本実施形態の情報処理について説明する。

（４－１）マイクロホン処理
本実施形態のマイクロホン処理について説明する。図７は、本実施形態のマイクロホン処理のフローチャートである。図８は、マイクロホンによる集音を説明するための図である。図９は、発話者の方向を説明するための図である。

本実施形態のマイクロホン処理は、ディスプレイデバイス１０、およびマイクデバイス３０の電源がＯＮになり、かつ初期設定が完了した後に、例えばユーザ指示に応じて開始される。ただし、本実施形態のマイクロホン処理の開始タイミングはこれに限定されない。本実施形態のマイクロホン処理は、例えば所定の周期で繰り返し実行されてもよい。

マイクデバイス３０は、マイクロホン５１を介して、音声の検出（Ｓ１３０）を実行する。
具体的には、マイクデバイス３０が５個のマイクロホン５１－１，５１－２，５１－３，５１－４，５１－５を備えていたとする。これら複数のマイクロホン５１－１～５１－５は、話者から発せられる発話音をそれぞれ集音する。マイクロホン５１－１～５１－５は、図８に示される複数のパスを介して到来した発話音を集音する。マイクロホン５１－１～５１－５は、集音した発話音を音声信号へ変換する。

マイクデバイス３０が備えるプロセッサは、マイクロホン５１－１～５１－５から、話者ＰＲ１，ＰＲ２，及びＰＲ３の少なくともいずれかから発せられた発話音を含む音声信号を取得する。マイクロホン５１－１～５１－５から取得される音声信号には、発話音が進行してきたパスに基づく空間的な情報（例えば遅延や位相変化）が含まれている。

ステップＳ１３０の後、マイクデバイス３０は、到来方向の推定（Ｓ１３１）を実行する。
記憶装置３１には、到来方向推定モデルが記憶されている。到来方向推定モデルには、音声信号に含まれる空間的情報と、発話音の到来方向との相関関係を特定するための情報が記述されている。

到来方向推定モデルで利用される到来方向推定手法は、既存のいかなる手法が用いられてもよい。例えば、到来方向推定手法には、入力の相関行列の固有値展開を利用したＭＵＳＩＣ（Multiple Signal Classification）、最小ノルム法、又はＥＳＰＲＩＴ（Estimation of Signal Parameters via Rotational Invariance Techniques）などが用いられる。

マイクデバイス３０は、到来方向推定モデルに、マイクロホン５１－１～５１－５から受信した音声信号を入力することで、マイクロホン５１－１～５１－５により集音された発話音の到来方向に基づく発話者の方向を推定する。このとき、マイクデバイス３０は、例えば、マイク座標系において、マイクロホン５１－１～５１－５を基準として定められた基準方向（本実施形態においては、マイクデバイス３０の前方（ｘ＋方向））を０度とする軸からの偏角で発話音の到来方向を表現する。図９に示される例では、マイクデバイス３０は、話者ＰＲ１から発せられた発話音の到来方向を、ｘ軸から右方向に角度Ａ１ずれた方向と推定する。マイクデバイス３０は、話者ＰＲ２から発せられた発話音の到来方向を、ｘ軸から左方向に角度Ａ２ずれた方向と推定する。マイクデバイス３０は、話者ＰＲ３から発せられた発話音の到来方向を、ｘ軸から左方向に角度Ａ３ずれた方向と推定する。

ステップＳ１３１の後、マイクデバイス３０は、音声信号の抽出（Ｓ１３２）を実行する。
記憶装置３１には、ビームフォーミングモデルが記憶されている。ビームフォーミングモデルには、所定の方向と、その方向にビームを有する指向性を形成するためのパラメータとの相関関係を特定するための情報が記述されている。ここで、指向性を形成するとは、特定の到来方向の音声を増幅させ、又は減衰させる処理である。

マイクデバイス３０は、ビームフォーミングモデルに、推定した到来方向を入力することで、到来方向にビームを有する指向性を形成するためのパラメータを計算する。

図９に示される例では、マイクデバイス３０は、計算された角度Ａ１をビームフォーミングモデルに入力し、ｘ軸から右方向に角度Ａ１ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。マイクデバイス３０は、計算された角度Ａ２をビームフォーミングモデルに入力し、ｘ軸から左方向に角度Ａ２ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。マイクデバイス３０は、計算された角度Ａ３をビームフォーミングモデルに入力し、ｘ軸から左方向に角度Ａ３ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。

マイクデバイス３０は、マイクロホン５１－１～５１－５から取得した音声信号を、角度Ａ１について計算したパラメータで増幅、又は減衰させる。マイクデバイス３０は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度Ａ１に対応する方向の発話者から到来した発話音についての音声信号を抽出する。

マイクデバイス３０は、マイクロホン５１－１～５１－５から取得した音声信号を、角度Ａ２について計算したパラメータで増幅、又は減衰させる。マイクデバイス３０は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度Ａ２に対応する方向の発話者から到来した発話音についての音声信号を抽出する。

マイクデバイス３０は、マイクロホン５１－１～５１－５から取得した音声信号を、角度Ａ３について計算したパラメータで増幅、又は減衰させる。マイクデバイス３０は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度Ａ３に対応する方向の発話者から到来した発話音についての音声信号を抽出する。

ステップＳ１３２の後に、マイクデバイス３０は、発話者の識別（Ｓ１３３）を実行する。
具体的には、マイクデバイス３０は、ステップＳ１３２において取得した到来方向情報、すなわちマイクデバイス３０に対する発話者の方向（以下、「対象発話者方向」という）の推定結果に基づいて、マイクデバイス３０の周囲に存在する発話者を識別する。

一例として、マイクデバイス３０は、対象発話者方向に対応する発話者が識別済みの発話者と同一であるか否かを判定し、当該対象発話者方向に対応する発話者が識別済みの発話者でない場合に、新たな発話者ＩＤ（図５）を割り当てる。マイクデバイス３０は、発話者データベース（図５）に、この新たな発話者ＩＤを含む発話者情報を表すレコードを追加する。具体的には、マイクデバイス３０は、対象発話者方向を、識別済みの発話者についての発話者方向情報（図５）と比較する。そして、マイクデバイス３０は、対象発話者方向が識別済みの発話者についての発話者方向情報のいずれかと適合すると判定した場合に、当該対象発話者方向に対応する発話者を、適合した発話者方向情報を持つ（識別済みの）発話者として扱う。他方、マイクデバイス３０は、対象発話者方向が識別済みの発話者についての発話者方向情報のいずれとも適合しないと判定した場合に、当該対象発話者方向に新たな発話者が存在することを検出し、当該新たな発話者に新規の発話者ＩＤを付与する。ここで、対象発話者方向が発話者方向情報に適合することとは、少なくとも対象発話者方向が発話者方向情報の示す方向に一致することを含み、さらに対象発話者方向の発話者方向情報の示す方向に対する差または比率が許容範囲内であることを含むことができる。

マイクデバイス３０は、ステップＳ１３２において抽出した音声信号を、ステップＳ１３３において識別した発話者情報（例えば、発話者ＩＤ）とともに、ディスプレイデバイス１０へ出力（送信）する（Ｓ１３５）。

換言すれば、マイクデバイス３０は、発話者として特定された方向についてのみ音声信号を抽出（強調）し、それ以外の方向についての音声信号を抑圧（消去）して、ディスプレイデバイス１０へ送信する。これにより、送信する音声信号のデータ量を抑制しながら、音声認識対象として優先度の高い音声信号を効率的にディスプレイデバイス１０に提供することができる。

なお、複数の発話者が特定された場合には、マイクデバイス３０は、各発話者の音声信号をバッファリングしておき、順番にディスプレイデバイス１０へ送信してもよい。これにより、複数人が同時に発話した場合であっても、各話者の発話内容に対して個別に音声認識処理を行うことができる。

（４－２）発言ログ収集処理
本実施形態の発言ログ収集処理について説明する。図１０は、本実施形態の発言ログ収集処理のフローチャートである。

本実施形態の発言ログ収集処理は、例えば、本実施形態のマイクロホン処理とともに開始し得る。

図１０に示すように、ディスプレイデバイス１０は、音声信号および発話者情報の取得（Ｓ１１０）を実行する。
具体的には、ディスプレイデバイス１０は、ステップＳ１３４においてマイクデバイス３０によって出力された音声信号および発話者情報を取得する。

ステップＳ１１０の後、ディスプレイデバイス１０は、音声認識（Ｓ１１１）を実行する。
一例として、記憶装置１１には、音声認識モデルが記憶されている。音声認識モデルには、音声信号と、音声信号に対するテキストとの相関関係を特定するための情報が記述されている。音声認識モデルは、例えば、機械学習により生成された学習済モデルである。別の例として、音声認識モデルは、記憶装置１１の代わりに、ディスプレイデバイス１０がネットワーク（例えばインターネット）を介してアクセス可能な外部装置（例えばクラウドサーバ）に保存されていてもよい。

ディスプレイデバイス１０は、音声認識モデルに、ステップＳ１１０において取得した音声信号を入力することで、入力した音声信号に対応するテキスト情報を得る。ディスプレイデバイス１０は、音声信号に対応する発話者の認識言語情報に基づいて音声認識エンジンを選択してもよい。

ディスプレイデバイス１０は、音声認識（Ｓ１１１）において、オプションとして、音声認識処理に加えて機械翻訳処理を実行してもよい。
具体的には、ディスプレイデバイス１０は、ステップＳ１１０において取得した音声信号に対応する発話者に翻訳言語情報が設定されている場合に、当該音声信号に対して音声認識処理に加えて機械翻訳処理を行う。これにより、ディスプレイデバイス１０は、翻訳言語情報によって指定された言語のテキスト情報を得る。ディスプレイデバイス１０は、音声信号に対応する発話者の翻訳言語情報に基づいて機械翻訳エンジンを選択してもよい。ディスプレイデバイス１０は、本オプションを採用する場合であっても、ステップＳ１１０において取得した音声信号に対応する音声の発話者に翻訳言語情報が設定されていない場合に、機械翻訳処理を省略し、音声認識処理のみを行ってもよい。

ステップＳ１１１の後に、ディスプレイデバイス１０は、発言ログデータベースの更新（Ｓ１１２）を実行する。
具体的には、ディスプレイデバイス１０は、ステップＳ１１１において取得したテキスト情報を、ステップＳ１１０において取得した発話者情報に関連付けて、発言ログデータベース（図６）に保存する。

（４－３）要約処理
本実施形態の要約処理について説明する。図１１は、本実施形態の要約処理のフローチャートである。図１２は、本実施形態の要約処理において表示される画面例を示す図である。

本実施形態の要約処理は、例えばディスプレイデバイス１０が要約の提示を要求するユーザ指示を受け付けたことに応じて開始し得る。

図１１に示すように、ディスプレイデバイス１０は、基準日時の決定（Ｓ２１０）を実行する。
具体的には、ディスプレイデバイス１０は、要約作成の基準となる日時（以下、「基準日時」という）を決定する。

基準日時の決定（Ｓ２１０）の第１例として、ディスプレイデバイス１０は、現時点（すなわち、本ステップの実行時点）を基準日時として決定する。

基準日時の決定（Ｓ２１０）の第２例として、ディスプレイデバイス１０は、ユーザによって指定された日時を基準日時として決定する。

ステップＳ２１０の後に、ディスプレイデバイス１０は、発言ログ情報の取得（Ｓ２１１）を実行する。
具体的には、ディスプレイデバイス１０は、発言ログデータベース（図６）を参照し、所定の始点からステップＳ２１０において決定した基準日時までの日時に対応する日時情報を含む発言ログ情報を取得する。ここで、所定の始点は、会議の始まった日時であってもよいし、基準日時から所定時間遡った日時であってもよいし、ユーザによって指定された日時であってもよい。

ステップＳ２１１の後に、ディスプレイデバイス１０は、モデル入力の生成（Ｓ２１２）を実行する。
具体的には、ディスプレイデバイス１０は、ステップＳ２１１において取得した発言ログ情報に含まれる発話者ＩＤおよび発言情報に基づいて、学習済みモデルＬＭ１に対するモデル入力を生成する。一例として、モデル入力は、発言情報を発話者別に要約することを求める指示文を含み得る。

ステップＳ２１２の後に、ディスプレイデバイス１０は、要約の生成（Ｓ２１３）を実行する。
具体的には、ディスプレイデバイス１０は、ステップＳ２１２において生成したモデル入力を、学習済みモデルＬＭ１に与えることで、要約を生成する。要約は、発話者毎の発言の概略を表すテキストを含むことができる。以降の説明において、ディスプレイデバイス１０または他の情報処理装置が、「要約を生成する」とは、ディスプレイデバイス１０または他の情報処理装置の外部に構築された学習済みモデルＬＭ１によって生成された要約を取得することを含み得る。

ステップＳ２１３の後に、ディスプレイデバイス１０は、ＵＩ情報の生成（Ｓ２１４）を実行する。
具体的には、ディスプレイデバイス１０は、ステップＳ２１３において取得した要約に基づいてＵＩ情報を生成する。ＵＩ情報は、例えば以下の要素の少なくとも１つを含むことができる。
・要約に含まれるテキスト
・発話者の名称
・発話者のアイコン
・基準日時

ステップＳ２１４の後に、ディスプレイデバイス１０は、ＵＩ情報の出力（Ｓ２１５）を実行する。
具体的には、ディスプレイデバイス１０は、ステップＳ２１４において生成したＵＩ情報を出力する。一例として、ディスプレイデバイス１０は、ＵＩ情報に応じた画面を表示部１５に表示する。画面の一例を図１２に示す。

図１２の画面は、オブジェクトＪ２０，Ｊ２１，Ｊ２１ａ，Ｊ２２ａ～Ｊ２２ｃを含む。
オブジェクトＪ２０は、画面モードを切り替えるユーザ指示を受け付ける。図１２の例では、「サマリー」モードが選択された状態を示しており、要約を確認するための画面が表示される。

オブジェクトＪ２１は、時間軸を表す。オブジェクトＪ２１は、基準日時の指定（変更を含み得る）を受け付けるように構成されてもよい。
オブジェクトＪ２１ａは、基準日時を表す。オブジェクトＪ２１上に配置される。

オブジェクトＪ２２ａ～Ｊ２２ｃ（以下、同様のオブジェクトを「オブジェクトＪ２２」という）は、それぞれ１人の発話者に対応する要約を表示する。オブジェクトＪ２２の数は、発話者の人数に応じて定められ得る。第１例として、オブジェクトＪ２２の数は、発話者の人数に一致するように定められる。つまり、オブジェクトＪ２２は、発話者と一対一対応する。第２例として、オブジェクトＪ２２の数には上限数が設けられる。この場合に、オブジェクトＪ２２の数は、発話者の人数が上限数に達するまでは発話者の人数に一致するように定められ、発話者の人数が上限数に達すると当該上限数に一致するように定められる。

オブジェクトＪ２２ａは、オブジェクトＪ２２ａ１～Ｊ２２ａ３を含む。なお、オブジェクトＪ２２ｂ，Ｊ２２ｃも同様のオブジェクトを含むが、説明を省略する。

オブジェクトＪ２２ａ１は、発話者のアイコンを表す。
オブジェクトＪ２２ａ２は、発話者の名称を表す。

オブジェクトＪ２２ａ３は、発話者の発言内容の要約を表す。要約は、以下の情報を含むことができる。
・発話者の発言をより少ない文字数で表した文章
・会議の議題に対する発話者のスタンスを表す文章
ここで、発話者のスタンスは、モデル入力に応じて学習済みモデルＬＭ１によって推論され得る。

（５）小括
以上説明したように、本実施形態のディスプレイデバイス１０は、マイクロホン５１による集音によって得られた音声に対応するテキスト情報を取得し、当該音声に関連付けられる発話者に関する発話者情報を取得する。ディスプレイデバイス１０は、発話者情報を音声に対応するテキスト情報に関連付けて保存する。ディスプレイデバイス１０は、発話者毎に当該発話者の発話者情報に関連付けられる音声に対応するテキスト情報の要約を生成する。これにより、会議の各参加者の発言内容（主張や意見）の概略を容易に把握可能な情報を提供することができる。かかる情報を利用することで、会議の進行および情報活用を円滑化し、生産性を向上させることができる。

ディスプレイデバイス１０は、要約を表示する画面に関するＵＩ情報を生成し、当該ＵＩ情報を出力してもよい。これにより、ユーザは、会議の各参加者の発言内容（主張や意見）の概略を視覚的に容易に把握することができる。

ディスプレイデバイス１０は、発話者毎に、当該発話者に関連付けられる音声に対応するテキスト情報を含むモデル入力を大規模言語モデルに与えることで、要約を生成してもよい。これにより、要約を生成するロジックを作り込まずとも、妥当な要約を利用することができる。

要約を表示する画面は、発話者と一対一対応するオブジェクトを含み、オブジェクトの各々には対応する１人の発話者に対応する要約が表示されてもよい。これにより、会議の各参加者と要約とが一対一対応するので、会議の各参加者の発言内容の概略をいっそう容易に把握可能な画面を表示することができる。

要約は、対応する発話者の発言をより少ない文字数で表した文章を含んでもよい。これにより、会議の各参加者の発言内容をコンパクトに表示し、確認に要する時間を短縮することができる。

要約は、会議の議題に関して、前記要約に対応する発話者の発言から推定された当該発話者のスタンスを表す文章を含んでもよい。これにより、議論の大局的な状況を容易に把握可能な画面を表示することができる。

ディスプレイデバイス１０は、基準日時までにマイクロホン５１による集音によって得られた音声に対応するテキスト情報に基づいて要約を生成してもよい。これにより、基準日時までの議論の状況を容易に把握可能な画面を表示することができる。

（６）変形例
本実施形態の変形例について説明する。

（６－１）変形例１
変形例１について説明する。変化例１は、会議の参加者の状態、または会議の進行状態、の少なくとも１つに関する判定の結果に応じて、会議の参加者の一部または全部にアラートまたは提案を提示する例である。言い換えると、変形例１は、会議のファシリテーションを行う例である。

（６－１－１）変形例１の一態様
変形例１の一態様について説明する。図１３は、変形例１の一態様の説明図である。

図１３に示すように、マイクデバイス３０は、例えば会議室に設置され、会議の実施中に参加者から発せられた音声を検出する。マイクデバイス３０は、複数のマイクロホン５１に対する音声の到来方向を推定し、推定結果に基づいて発話者を識別する。マイクデバイス３０は、音声の検出によって得られた音声信号と、当該音声の発話者に関する発話者情報とをディスプレイデバイス１０へ送信する。

ディスプレイデバイス１０は、マイクデバイス３０から受信した音声信号の音声認識結果であるテキスト情報を得る。また、ディスプレイデバイス１０は、会議に関する会議情報を取得する。会議情報は、少なくとも会議の内容に関する情報を含む。ディスプレイデバイス１０は、会議情報と、テキスト情報と、発話者情報とに基づくモデル入力を生成し、当該モデル入力を学習済みモデルＬＭ２に与えることで、会議の参加者の状態、または会議の進行状態の少なくとも１つに関して判定する。

学習済みモデルＬＭ２は、与えられたモデル入力（例えば指示文）に対して応答文を生成するように学習されている。学習済みモデルＬＭ２は、例えば大規模言語モデルであってよい。学習済みモデルＬＭ２は、ディスプレイデバイス１０とは異なる情報処理装置（例えば、外部サービスを提供するサーバ）に構築され得る。変形例１の学習済みモデルＬＭ２は、本実施形態の学習済みモデルＬＭ１と同一であってもよい。学習済みモデルＬＭ２は、会議情報と、テキスト情報と、発話者情報とに基づくモデル入力に応じて、会議の参加者の状態、または会議の進行状態の少なくとも１つに関する判定を行い（つまり、判定結果に相当する応答文を生成し）、判定結果を出力する。

ディスプレイデバイス１０は、取得した判定結果に応じて、会議の参加者の一部または全部にアラートまたは提案を提示するためのＵＩ情報を生成し、当該ＵＩ情報を出力する。例えば、ディスプレイデバイス１０は、アラートまたは提案を表示する画面を表示部１５に表示してもよいし、アラートまたは提案を表す音声をスピーカから出力してもよいし、チャットツールにアラートまたは提案を表すメッセージを投稿してもよい。これにより、アラートまたは提案の提示先となる参加者に対して行動変容を促し、会議の改善（例えば、会議の進行の円滑化）に貢献することができる。

（６－１－２）情報処理
変形例１の情報処理について説明する。

（６－１－２－１）ファシリテーション処理
変形例１のファシリテーション処理について説明する。図１４は、変形例１のファシリテーション処理のフローチャートである。

変形例１のファシリテーション処理は、例えば会議の開始に応じて開始し得る。会議の開始は、会議のスケジュールに基づいて検知されてもよいし、ユーザ指示の取得、または音声信号および発話者情報の取得に応じて検知されてもよい。また、本ファシリテーション処理は、会議の実施中に繰り返し実行されてよい。

図１４に示すように、ディスプレイデバイス１０は、会議情報の取得（Ｓ３１０）を実行する
具体的には、ディスプレイデバイス１０は、以下の少なくとも１つの情報を含む会議情報を取得する。
・会議の内容に関する情報
・会議の参加者に関する情報（参加者の役割（会議における役割、参加者が属する組織（企業など）における役割、またはそれらの組み合わせ）に関する情報を含み得る）
・会議を構成する議題に関する情報
・会議のスケジュールに関する情報
・会議の開催場所に関する情報
・会議の形態に関する情報

ここで、会議の内容は、会議の趣旨を含む。さらに、会議の目的、会議の参加者の属性（社内の参加者又は社外の参加者）、会議の人数、またはそれらの組み合わせ、などを含むことができる。

会議情報の取得（Ｓ３１０）の第１例として、ディスプレイデバイス１０は、ユーザからの入力に応じて会議情報を取得する。例えば、ディスプレイデバイス１０は、会議情報を記入するためのフォームを提示し、ユーザからの入力を受け付けてもよい。或いは、ディスプレイデバイス１０は、ユーザが自由形式で作成した説明文書または説明音声を学習済みモデルに解析させることで、会議情報を取得してもよい。ユーザからの入力は、会議前に行われてもよいし、会議中に行われてもよい。

会議情報の取得（Ｓ３１０）の第２例として、ディスプレイデバイス１０は、外部情報を参照して会議情報を取得する。例えば、ディスプレイデバイス１０は、ユーザのスケジュールの情報、または会議室のスケジュールの情報、などに基づいて会議情報を取得してもよい。

会議情報の取得（Ｓ３１０）の第３例として、ディスプレイデバイス１０は、会議の実施中に取得した音声信号および発話者情報に基づいて会議情報を取得する。

会議情報の取得（Ｓ３１０）の第４例は、上記第１例～第３例のうち複数の組み合わせである。

ステップＳ３１０の後に、ディスプレイデバイス１０は、発言ログ情報の取得（Ｓ３１１）を実行する。
具体的には、ディスプレイデバイス１０は、発言ログデータベース（図６）を参照し、所定の始点から現時点（つまり、本ステップの実行時点）までに対応する日時情報を含む発言ログ情報を取得する。ここで、所定の始点は、会議の始まった日時であってもよいし、現時点から所定時間遡った日時であってもよいし、ユーザによって指定された日時であってもよい。

会議情報の取得（Ｓ３１０）のオプションとして、ディスプレイデバイス１０は、取得した情報を組み合わせることで、さらなる情報を取得してもよい。具体的には、ディスプレイデバイス１０は、会議を構成する議題に関する情報と、会議のスケジュールに関する情報とに基づいて、議題毎に時間を割り当てることで、会議を構成する議題毎に割り当てられた時間の情報を取得してもよい。時間の割り当てには、学習済みモデルが用いられてもよい。或いは、会議を構成する議題毎に割り当てられた時間の情報は、会議のスケジュールに関する情報に含まれていてもよい。

発言ログ情報の取得（Ｓ３１１）において、オプションとして、ディスプレイデバイス１０は、取得した発言ログ情報に含まれる発話者ＩＤが、会議の参加者のいずれに対応するかを特定してもよい。ディスプレイデバイス１０は、ユーザ指示に応じて会議の参加者と発話者ＩＤとの関係を特定してもよいし、音声の特徴量に基づいて会議の参加者と発話者ＩＤとの関係を特定してもよい。

ステップＳ３１１の後に、ディスプレイデバイス１０は、モデル入力の生成（Ｓ３１２）を実行する。
具体的には、ディスプレイデバイス１０は、ステップＳ３１０において取得した会議情報と、ステップＳ３１１において取得した発言ログ情報に含まれる発話者ＩＤおよび発言情報とに基づいて、学習済みモデルＬＭ２に対するモデル入力を生成する。一例として、モデル入力は、会議の参加者の状態または会議の進行の状態に関する判定の種別と、会議情報と、発話者ＩＤと、発言情報とに基づいて、当該判定の実行を求める指示文を含み得る。

会議の参加者の状態または会議の進行の状態に関する判定は、例えば以下のいずれかを含むことができる。
・会議の趣旨に合致した発言がされているかの判定
・発言量が過小である参加者はいるか（「参加者の発言に量的偏りがあるか」の判定の一例）、および該当する参加者は誰であるかの判定
・発言量が過大である参加者はいるか（「参加者の発言に量的偏りがあるか」の判定の一例）、および該当する参加者は誰であるかの判定
・議論についていけていない参加者はいるか、および該当する参加者は誰であるかの判定
・議論不足の観点があるか、および該当する観点は何であるかの判定
・進行中の議題に割り当てられた時間が超過しているかの判定
・会議における議論の内容がネガティブであるかの判定
・会議のクロージングを行うべきであるかの判定
・会議において発生したアクションアイテムがあるか、および該当するアクションアイテムは何であるかの判定

ここで、議論についていけていない参加者は、発言量が過小である参加者と同様に判定されてもよいし、発言量に加えて、参加者の過去の会議の参加実績や参加者が属する組織における当該参加者の役割などの参加者の背景に関する情報に基づいて判定されてもよい。これにより、前提となる知識の不足により発言ができないか、それとも知識の不足はないが発言していないかを区別して扱うことができる。

ここで、会議のクロージングを行うべきであるかの判定は、例えば以下の少なくとも１つの状況にあるかの判定により代替されてもよい。
・全ての議題の議論が終了したか
・会議の終了時刻から所定時間前に達したか

ステップＳ３１２の後に、ディスプレイデバイス１０は、判定（Ｓ３１３）を実行する。
具体的には、ディスプレイデバイス１０は、ステップＳ３１２において生成したモデル入力を、学習済みモデルＬＭ２に与えることで、判定を行う。判定の結果は、要求した判定に対する学習済みモデルＬＭ２による推論の結果を表すテキストを含むことができる。以降の説明において、ディスプレイデバイス１０または他の情報処理装置が、「判定する」とは、ディスプレイデバイス１０または他の情報処理装置の外部に構築された学習済みモデルＬＭ２によって行われた判定の結果を取得することを含み得る。

ステップＳ３１３の後に、ディスプレイデバイス１０は、ＵＩ情報の生成（Ｓ３１４）を実行する。
具体的には、ディスプレイデバイス１０は、ステップＳ３１３において取得した判定の結果に応じて、ＵＩ情報を生成する。ＵＩ情報は、例えば以下の要素の少なくとも１つを含むことができる。
・アラートの内容（具体的には、テキスト、音声、画像、またはそれらの組み合わせ）
・アラートの提示先（具体的には、全参加者、特定の役割の参加者、特定の状態（例えば、発言量が過大、または過小）にあると判定された参加者）
・提案の内容（具体的には、テキスト、音声、画像、またはそれらの組み合わせ）
・提案の提示先（具体的には、全参加者、特定の役割の参加者、特定の状態（例えば、発言量が過大、または過小）にあると判定された参加者）

ＵＩ情報の生成（Ｓ３１４）の第１例として、ディスプレイデバイス１０は、会議の趣旨に合致した発言がされていないとの判定の結果に応じて、例えば「話が脱線しています。」などのアラートを全参加者向けに生成してもよいし、例えば「ＯＯさんが先程述べていたＸＸのテーマに戻りましょう。」などの提案を全参加者向けに生成してもよい。或いは、ディスプレイデバイス１０は、複数の論点の候補を示す提案を全参加者向けに生成してもよい。

ＵＩ情報の生成（Ｓ３１４）の第２例として、ディスプレイデバイス１０は、ＯＯさんの発言量が過小であるとの判定の結果に応じて、例えば「ＯＯさんがあまり発言できていません。」（「参加者の発言の量的偏りを指摘する情報」の一例）などのアラートを全参加者向け、ファシリテータ向け、または該当者（本例ではＯＯさん）向けに生成してもよい。

ＵＩ情報の生成（Ｓ３１４）の第３例として、ディスプレイデバイス１０は、ＯＯさんの発言量が過大あるとの判定の結果に応じて、例えば「一部の参加者が話す割合が多くなっています。」（「参加者の発言の量的偏りを指摘する情報」の一例）などのアラートを全参加者向け、ファシリテータ向け、または該当者（本例ではＯＯさん）向けに生成してもよい。

ＵＩ情報の生成（Ｓ３１４）の第４例として、ディスプレイデバイス１０は、ＯＯさんが議論についていけていない可能性があるとの判定の結果に応じて、例えば「ＯＯさんが議論についていけていないかもしれません。」などのアラートを全参加者向け、またはファシリテータ向けに生成してもよいし、例えば「ここまでの議論の前提となる知識はこちらです。」などとして知識の補足するための情報を含んだ提案を該当者（本例ではＯＯさん）向けに生成してもよい。

ＵＩ情報の生成（Ｓ３１４）の第５例として、ディスプレイデバイス１０は、議論不足の観点があるとの判定の結果に応じて、例えば「ＯＯの観点が、現在議論されていません。」（「議論不足の観点を示す情報」の一例）などのアラートを全参加者向けに生成してもよいし、例えば「ＯＯという観点ではＸＸのようなことも考えられますが、いかがでしょう？」（「議論不足の観点を示す情報」の一例）などの提案を全参加者向けに生成してもよい。

ＵＩ情報の生成（Ｓ３１４）の第６例として、ディスプレイデバイス１０は、進行中の議題に割り当てられた時間が超過しているとの判定の結果に応じて、例えば「ＯＯの議題の予定時間を超えています」などのアラートを全参加者向けに生成してもよいし、例えば「時間を守るために、今回はＯＯの話題に絞り、残りは次回ではいかがでしょう？」などの提案を全参加者向けに生成してもよい。

ＵＩ情報の生成（Ｓ３１４）の第７例として、ディスプレイデバイス１０は、会議における議論の内容がネガティブであるとの判定の結果に応じて、例えば「ネガティブな発言が増えています。」などのアラートを全参加者向け、またはファシリテータ向けに生成してもよいし、例えば「ＯＯの話題はいったん離れ、先にＸＸについて話すのはいかがでしょう？」などの提案を全参加者向け、またはファシリテータ向けに生成してもよい。

ＵＩ情報の生成（Ｓ３１４）の第８例として、ディスプレイデバイス１０は、会議のクロージングを行うべきであるとの判定の結果に応じて、例えば「次回の会議日程を決める時間です。」などのアラートを全参加者向けに生成してもよいし、例えば「カレンダーを確認したところ、次回候補日程はＯＯです。」などの提案を全参加者向けに生成してもよい。

ＵＩ情報の生成（Ｓ３１４）の第９例として、ディスプレイデバイス１０は、会議においてアクションアイテムが発生していないとの判定の結果に応じて、例えば「アクションがまだ作成されていません。」などのアラートを全参加者向けに生成してもよいし、会議において発生したアクションアイテムはＯＯであるとの判定の結果に応じて、例えば「次回までのアクションアイテムはＯＯです」などの提案を全参加者向けに生成してもよい。

ステップＳ３１４の後に、ディスプレイデバイス１０は、ＵＩ情報の出力（Ｓ３１５）を実行する。
具体的には、ディスプレイデバイス１０は、ステップＳ３１４において生成したＵＩ情報を出力する。

ＵＩ情報の出力（Ｓ３１５）の第１例として、ディスプレイデバイス１０は、アラートの内容の情報を、当該アラートの提示先に対応する宛先（例えば、アラートの提示先となる参加者が使用する端末）へ送信する。或いは、ディスプレイデバイス１０は、チャットツールにおいて、アラートの提示先となる参加者を宛先とし、アラートの内容に応じたメッセージを投稿してもよい。

ＵＩ情報の出力（Ｓ３１５）の第２例として、ディスプレイデバイス１０は、提案の内容の情報を、当該提案の提示先に対応する宛先（例えば、提案の提示先となる参加者が使用する端末）へ送信する。或いは、ディスプレイデバイス１０は、チャットツールにおいて、提案の提示先となる参加者を宛先とし、提案の内容に応じたメッセージを投稿してもよい。

ＵＩ情報の出力（Ｓ３１５）の第３例として、ディスプレイデバイス１０は、アラートまたは提案の内容の情報を、表示部１５に表示し、またはスピーカから出力する。

ＵＩ情報の出力（Ｓ３１５）の第４例は、上記第１例～第３例のうち複数の組み合わせである。

（６－１－３）小括
以上説明したように、変形例１のディスプレイデバイス１０は、会議に関する情報であって、少なくとも当該会議の内容に関する情報を含む会議情報を取得し、会議の実施中にマイクロホン５１による集音によって得られた音声に対応するテキスト情報を取得し、音声に関連付けられる発話者に関する発話者情報を取得する。ディスプレイデバイス１０は、会議情報と、テキスト情報と、発話者情報とに基づいて行われる、会議の参加者の状態、または会議の進行状態、の少なくとも１つに関して判定し、当該判定の結果に応じて、会議の参加者の一部または全部にアラートまたは提案を提示するためのＵＩ情報を生成し、ＵＩ情報を出力する。これにより、アラートまたは提案の提示先となる参加者に対して行動変容を促し、会議の改善（例えば、会議の進行の円滑化）に貢献し、生産性を向上させることができる。

ディスプレイデバイス１０は、会議の趣旨に合致した発言がされているかを判定し、会議の趣旨に合致した発言がされていないとの判定の結果に応じて、会議の参加者の全員にアラートまたは提案を提示するためのＵＩ情報を生成してもよい。これにより、会議の趣旨に沿って、議論の軌道修正を促すことができる。

会議情報は、会議の参加者に関する情報を含んでもよい。ディスプレイデバイス１０は、参加者の発言に量的偏りがあるかを判定し、参加者の発言に量的偏りがあるとの判定の結果に応じて、参加者の発言の量的偏りを指摘する情報を会議の参加者の全員に提示するためのＵＩ情報を生成してもよい。これにより、多様な意見を引き出しやすくしたり、各参加者の発言のしやすさを確保したりすることができる。

会議情報は、会議の参加者に関する情報を含んでもよい。ディスプレイデバイス１０は、会議の議論についていけていない参加者がいるかを判定し、会議の議論についていけていない参加者がいるとの判定の結果に応じて、当該参加者の知識を補足する情報を提示するためのＵＩ情報を生成してもよい。これにより、参加者間の情報の非対称性を是正することができる。この結果、多様な意見を引き出しやすくしたり、各参加者の発言のしやすさを確保したりすることができる。

ディスプレイデバイス１０は、議論不足の観点があるかを判定し、議論不足の観点があると判定の結果に応じて、会議の参加者の全員に議論不足の観点を示す情報を提示するためのＵＩ情報を生成してもよい。これにより、多面的な議論の実施を促すことができる。

会議情報は、会議を構成する議題に関する情報と、会議のスケジュールに関する情報とを含んでもよい。ディスプレイデバイス１０は、進行中の議題に割り当てられた時間が超過しているかを判定し、進行中の議題に割り当てられた時間が超過しているとの判定の結果に応じて、会議の参加者の全員にアラートまたは提案を提示するためのＵＩ情報を生成してもよい。これにより、会議の時間管理を支援することができる。

ディスプレイデバイス１０は、会議における議論の内容がネガティブであるかを判定し、会議における議論の内容がネガティブであるとの判定の結果に応じて、会議の参加者の全員、または会議のファシリテータにアラートまたは提案を提示するためのＵＩ情報を生成してもよい。これにより、建設的な発言が生まれるように議論の軌道修正を促すことができる。

ディスプレイデバイス１０は、会議において発生したアクションアイテムがあるかを判定し、会議において発生したアクションアイテムがあるかの判定の結果に応じて、会議の参加者の全員にアラートまたは提案を提示するためのＵＩ情報を生成してもよい。これにより、会議で決定した事項をより確実にアクションアイテムとして落とし込むことができる。

会議情報は、会議を構成する議題に関する情報、または会議のスケジュール情報の少なくとも１つを含んでもよい。ディスプレイデバイス１０は、会議のクロージングを行うべきであるかを判定し、会議のクロージングを行うべきであるとの判定の結果に応じて、会議の参加者の全員にアラートまたは提案を提示するためのＵＩ情報を生成してもよい。これにより、会議の終了時間を守るとともに、次回の会議日程を円滑に決定することができる。

ディスプレイデバイス１０は、判定の種別と、会議情報と、テキスト情報と、発話者情報とに基づくモデル入力を大規模言語モデルに与えることで、判定を行ってもよい。これにより、各種の判定のロジックを作り込まずとも、妥当な判定の結果を利用することができる。

（７）その他の変形例
記憶装置１１は、ネットワークＮＷを介して、ディスプレイデバイス１０と接続されてもよい。表示部１５は、ディスプレイデバイス１０に外付けされてもよい。記憶装置３１は、ネットワークＮＷを介して、マイクデバイス３０と接続されてもよい。

上記説明では、各処理において各ステップを特定の順序で実行する例を示したが、各ステップの実行順序は、依存関係がない限りは説明した例に制限されない。また、上記の情報処理の各ステップは、ディスプレイデバイス１０、マイクデバイス３０、および別の装置の何れでも実行可能である。例えば、本実施形態の発言ログ収集処理、本実施形態の要約処理、または変形例１のファシリテーション処理は、主にクラウドサーバによって実行されてもよい。例えば、いずれかの装置によって行われるとして説明された処理が別の装置によって行われたり、複数の装置のやり取りによって行われるとして説明された処理が単一の装置によって行われたりしてもよい。

本実施形態では、基準日時に応じた要約を生成し、当該要約に基づくＵＩ情報を生成する例を示した。基準日時は可変であってもよい。例えば、ディスプレイデバイス１０は、ユーザ指示に応じて、または時間の経過に応じて、基準日時の変更を検知し得る。そして、ディスプレイデバイス１０は、基準日時の変更が検知された場合に、変更後の基準日時までにマイクロホン５１による集音によって得られた音声に対応するテキスト情報に基づいて要約を再取得し、再取得され当該要約に基づいて、ＵＩ情報を再生成し、再生成された当該ＵＩ情報を出力してもよい。これにより、最新の議論の状況や、ユーザの希望する時点における議論の状況を容易に把握可能な画面を表示することができる。

本実施形態では、発話者に対応する要約を表示するオブジェクト（例えば、オブジェクトＪ２２）を表示する例を示した。かかるオブジェクトは、対応する発話者の意見に応じた位置に配置されてもよい。一例として、あるオブジェクトに対応する発話者の意見と、別のオブジェクトに対応する発話者の意見とが近いほど、両方のオブジェクトを近付けて配置されてもよい。或いは、意見の内容に応じて、かかるオブジェクトをツリー構造の形式で表示してもよい。これにより、発話者間の意見の傾向をより直感的に把握しやすくなる。

本実施形態では、同一の会議における発言ログ情報に基づいて要約を行う例を示した。しかしながら、過去に開催された他の会議における同一人物の発言ログ情報にさらに基づいて要約を行ってもよい。これにより、より精度の高い要約が可能となる。

本実施形態では、発言ログ情報に基づいて要約を行う例を示した。しかしながら、発話者の属性（一例として、発話者が属する組織における当該発話者の役割（例えば役職））の情報にさらに基づいて要約を行ってもよい。これにより、より精度の高い要約が可能となる。

ディスプレイデバイス１０と、マイクデバイス３０との間には、コントローラ（情報処理装置）が介在してもよい。コントローラは、ディスプレイデバイス１０が実行するとして説明した処理の一部（例えば、発言ログ収集処理）を代わりに実行してもよいし、マイクデバイス３０が実行するとして説明した処理の一部を代わりに実行してもよい。コントローラは、例えば、スマートフォン、タブレット端末、パーソナルコンピュータ、又は、サーバコンピュータであってよい。

上記説明では、ディスプレイデバイス１０が、タブレット端末、パーソナルコンピュータ、スマートフォン、モニタ、会議用ディスプレイ装置など複数のユーザと表示内容を共有しやすい電子機器である例を示した。しかしながら、ディスプレイデバイス１０は、人間の頭部に装着可能であるように構成されてもよい。例えば、ディスプレイデバイス１０は、グラス型ディスプレイデバイス、ヘッドマウントディスプレイ、ウェアラブルデバイス、またはスマートグラスであってもよい。ディスプレイデバイス１０は、光学シースルー型のグラス型ディスプレイデバイスであってもよいが、ディスプレイデバイス１０の形式はこれに限定されない。例えば、ディスプレイデバイス１０はビデオシースルー型のグラス型ディスプレイデバイスであってもよい。すなわち、ディスプレイデバイス１０はカメラを備えてもよい。そしてディスプレイデバイス１０は、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成することで得られた合成画像を、表示部に表示してもよい。撮影画像は、ユーザの正面方向を撮影した画像であって、話者の画像を含んでいてもよい。また、ディスプレイデバイス１０は、例えばスマートフォン、パーソナルコンピュータ又はタブレット端末において、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成してＡＲ（Augmented Reality）表示を行ってもよい。

ディスプレイデバイス１０の表示部は、ユーザに画像を提示することができれば、その実現方法は問わない。表示部は、例えば、以下の実現方法により実現可能である。
・光学素子（一例として、導光板）を用いたＨＯＥ（Holographic optical element）又はＤＯＥ（Diffractive optical element）
・液晶ディスプレイ
・網膜投影ディスプレイ
・ＬＥＤ（Light Emitting Diode）ディスプレイ
・有機ＥＬ（Electro Luminescence）ディスプレイ
・レーザディスプレイ
・光学素子（一例として、レンズ、ミラー、回折格子、液晶、ＭＥＭＳミラー、ＨＯＥ）を用いて、発光体から発光された光を導光するディスプレイ
特に、網膜投影ディスプレイを用いる場合、弱視の人であっても像の観察が容易である。したがって、難聴及び弱視の両方を患う人に対して、発話音の到来方向をより容易に認知させることができる。

マイクデバイス３０による音声抽出処理においては、特定の話者に対応する音声信号を抽出することができれば、その実現方法は問わない。マイクデバイス３０は、例えば、以下の方法により音声信号を抽出してもよい。
・Ｆｒｏｓｔビームフォーマ
・適応フィルタビームフォーミング（一例として、一般化サイドローブキャンセラ）
・ビームフォーミング以外の音声抽出方法（一例として、周波数フィルタ、又は機械学習）

上記説明では、マイクデバイス３０が複数のマイクロホン５１を備えることを前提に述べた。しかしながら、例えば発話者の方向を推定する代わりに、声紋による話者識別を行う場合には、単一のマイクロホン５１のみを備えたマイクデバイス３０が利用可能である。すなわち、マイクデバイス３０は、声紋認識によって特定された話者を示す情報を発話者情報として取得してもよい。

以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。

１：情報処理システム
１０：ディスプレイデバイス
１１：記憶装置
１２：プロセッサ
１３：入出力インタフェース
１４：通信インタフェース
１５：表示部
３０：マイクデバイス
３１：記憶装置
３２：プロセッサ
３３：入出力インタフェース
３４：通信インタフェース
５１：マイクロホン

Claims

マイクロホンによる集音によって得られた音声に対応するテキスト情報を取得する手段と、
前記音声に関連付けられる発話者に関する発話者情報を取得する手段と、
前記発話者情報を前記音声に対応するテキスト情報に関連付けて保存する手段と、
発話者毎に当該発話者の発話者情報に関連付けられる音声に対応するテキスト情報の要約を生成する手段と、
を具備する、情報処理装置。
前記要約を生成する手段は、前記発話者毎に、当該発話者に関連付けられる音声に対応するテキスト情報を含むモデル入力を大規模言語モデルに与えることで、前記要約を生成する、
請求項１に記載の情報処理装置。
前記要約を表示する画面に関するＵＩ（User Interface）情報を生成する手段と、
前記ＵＩ情報を出力する手段と
をさらに具備する、
請求項１に記載の情報処理装置。
前記要約を表示する画面は、前記発話者と一対一対応するオブジェクトを含み、前記オブジェクトの各々には対応する１人の発話者に対応する要約が表示される、
請求項３に記載の情報処理装置。
前記要約は、対応する発話者の発言をより少ない文字数で表した文章を含む、
請求項１に記載の情報処理装置。
前記要約は、会議の議題に関して、前記要約に対応する発話者の発言から推定された当該発話者のスタンスを表す文章を含む、
請求項１に記載の情報処理装置。
前記要約を生成する手段は、基準日時までに前記マイクロホンによる集音によって得られた音声に対応するテキスト情報に基づいて前記要約を生成する、
請求項１に記載の情報処理装置。
前記基準日時に関するユーザの指定を受け付ける手段を備える、
請求項７に記載の情報処理装置。
前記基準日時の変更を検知する手段をさらに具備し、
前記要約を生成する手段は、前記基準日時の変更が検知された場合に、変更後の基準日時までに前記マイクロホンによる集音によって得られた音声に対応するテキスト情報に基づいて前記要約を再取得する、
請求項７に記載の情報処理装置。
会議に関する情報であって、少なくとも当該会議の内容に関する情報を含む会議情報を取得する手段と、
前記会議の実施中にマイクロホンによる集音によって得られた音声に対応するテキスト情報を取得する手段と、
前記音声に関連付けられる発話者に関する発話者情報を取得する手段と、
前記会議情報と、前記テキスト情報と、前記発話者情報とに基づいて行われる、前記会議の参加者の状態、または前記会議の進行状態、の少なくとも１つに関して判定する手段と、
前記判定の結果に応じて、前記会議の参加者の一部または全部にアラートまたは提案を提示するためのＵＩ（User Interface）情報を生成する手段と、
前記ＵＩ情報を出力する手段と
を具備する情報処理装置。
前記判定する手段は、前記会議の趣旨に合致した発言がされているかを判定し、
前記ＵＩ情報を生成する手段は、前記会議の趣旨に合致した発言がされていないとの判定の結果に応じて、前記会議の参加者の全員にアラートまたは提案を提示するためのＵＩ情報を生成する、
請求項１０に記載の情報処理装置。
前記会議情報は、前記会議の参加者に関する情報を含み、
前記判定する手段は、前記参加者の発言に量的偏りがあるかを判定し、
前記ＵＩ情報を生成する手段は、前記参加者の発言に量的偏りがあるとの判定の結果に応じて、前記参加者の発言の量的偏りを指摘する情報を前記会議の参加者の全員に提示するためのＵＩ情報を生成する、
請求項１０に記載の情報処理装置。
前記会議情報は、前記会議の参加者に関する情報を含み、
前記判定する手段は、前記会議の議論についていけていない参加者がいるかを判定する、
前記ＵＩ情報を生成する手段は、前記会議の議論についていけていない参加者がいるとの判定の結果に応じて、当該参加者の知識を補足する情報を提示するためのＵＩ情報を生成する、
請求項１２に記載の情報処理装置。
前記判定する手段は、議論不足の観点があるかを判定し、
前記ＵＩ情報を生成する手段は、前記議論不足の観点があると判定の結果に応じて、前記会議の参加者の全員に議論不足の観点を示す情報を提示するためのＵＩ情報を生成する、
請求項１０に記載の情報処理装置。
前記会議情報は、前記会議を構成する議題に関する情報と、前記会議のスケジュールに関する情報とを含み、
前記判定する手段は、進行中の議題に割り当てられた時間が超過しているかを判定し、
前記ＵＩ情報を生成する手段は、前記進行中の議題に割り当てられた時間が超過しているとの判定の結果に応じて、前記会議の参加者の全員にアラートまたは提案を提示するためのＵＩ情報を生成する、
請求項１０に記載の情報処理装置。
前記判定する手段は、前記会議における議論の内容がネガティブであるかを判定し、
前記ＵＩ情報を生成する手段は、前記会議における議論の内容がネガティブであるとの判定の結果に応じて、前記会議の参加者の全員、または前記会議のファシリテータにアラートまたは提案を提示するためのＵＩ情報を生成する、
請求項１０に記載の情報処理装置。
前記判定する手段は、前記会議において発生したアクションアイテムがあるかを判定する、
前記ＵＩ情報を生成する手段は、前記会議において発生したアクションアイテムがあるかの判定の結果に応じて、前記会議の参加者の全員にアラートまたは提案を提示するためのＵＩ情報を生成する、
請求項１０に記載の情報処理装置。
前記会議情報は、前記会議を構成する議題に関する情報、または前記会議のスケジュール情報の少なくとも１つを含み、
前記判定する手段は、会議のクロージングを行うべきであるかを判定し、
前記ＵＩ情報を生成する手段は、前記会議のクロージングを行うべきであるとの判定の結果に応じて、前記会議の参加者の全員にアラートまたは提案を提示するためのＵＩ情報を生成する、
請求項１０に記載の情報処理装置。
前記判定する手段は、前記判定の種別と、前記会議情報と、前記テキスト情報と、前記発話者情報とに基づくモデル入力を大規模言語モデルに与えることで、前記判定を行う、
請求項１０に記載の情報処理装置。
コンピュータが、
マイクロホンによる集音によって得られた音声に対応するテキスト情報を取得するステップと、
前記音声に関連付けられる発話者に関する発話者情報を取得するステップと、
前記発話者情報を前記音声に対応するテキスト情報に関連付けて保存するステップと、
発話者毎に当該発話者の発話者情報に関連付けられる音声に対応するテキスト情報の要約を生成するステップと
を実行する方法。
コンピュータが、
会議に関する情報であって、少なくとも当該会議の内容に関する情報を含む会議情報を取得するステップと、
前記会議の実施中にマイクロホンによる集音によって得られた音声に対応するテキスト情報を取得するステップと、
前記音声に関連付けられる発話者に関する発話者情報を取得するステップと、
前記会議情報と、前記テキスト情報と、前記発話者情報とに基づいて行われる、前記会議の参加者の状態、または前記会議の進行状態、の少なくとも１つに関して判定するステップと、
前記判定の結果に応じて、前記会議の参加者の一部または全部にアラートまたは提案を提示するためのＵＩ（User Interface）情報を生成するステップと、
前記ＵＩ情報を出力するステップと
を実行する方法。
コンピュータに、請求項１～請求項１９の何れかに記載の情報処理装置の各手段を実現させるためのプログラム。
複数の装置によって構成されるシステムであって、
マイクロホンによる集音によって得られた音声に対応するテキスト情報を取得する手段と、
前記音声に関連付けられる発話者に関する発話者情報を取得する手段と、
前記発話者情報を前記音声に対応するテキスト情報に関連付けて保存する手段と、
発話者毎に当該発話者の発話者情報に関連付けられる音声に対応するテキスト情報の要約を生成する手段と
を具備する、システム。
複数の装置によって構成されるシステムであって、
会議に関する情報であって、少なくとも当該会議の内容に関する情報を含む会議情報を取得する手段と、
前記会議の実施中にマイクロホンによる集音によって得られた音声に対応するテキスト情報を取得する手段と、
前記音声に関連付けられる発話者に関する発話者情報を取得する手段と、
前記会議情報と、前記テキスト情報と、前記発話者情報とに基づいて行われる、前記会議の参加者の状態、または前記会議の進行状態、の少なくとも１つに関して判定する手段と、
前記判定の結果に応じて、前記会議の参加者の一部または全部にアラートまたは提案を提示するためのＵＩ（User Interface）情報を生成する手段と、
前記ＵＩ情報を出力する手段と
を具備する、システム。