JP2025006291A - 情報処理装置、方法、システム、およびプログラム - Google Patents

情報処理装置、方法、システム、およびプログラム Download PDF

Info

Publication number
JP2025006291A
JP2025006291A JP2023106992A JP2023106992A JP2025006291A JP 2025006291 A JP2025006291 A JP 2025006291A JP 2023106992 A JP2023106992 A JP 2023106992A JP 2023106992 A JP2023106992 A JP 2023106992A JP 2025006291 A JP2025006291 A JP 2025006291A
Authority
JP
Japan
Prior art keywords
information
speaker
conference
participants
processing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023106992A
Other languages
English (en)
Inventor
恭寛 羽原
Yasuhiro Habara
良太 川村
Ryota Kawamura
崇史 奈良
Takashi Nara
愛実 田畑
Manami Tabata
彰 遠藤
Akira Endo
晴輝 西村
Haruki Nishimura
想 西村
So Nishimura
真祐美 小島
Mayumi Kojima
尚 平岡
Takashi Hiraoka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pixie Dust Technologies Inc
Original Assignee
Pixie Dust Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pixie Dust Technologies Inc filed Critical Pixie Dust Technologies Inc
Priority to JP2023106992A priority Critical patent/JP2025006291A/ja
Publication of JP2025006291A publication Critical patent/JP2025006291A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Studio Devices (AREA)

Abstract

【課題】会議の支援の制約を取り除くことである。【解決手段】本開示の一態様の情報処理装置は、マイクロホンによる集音によって得られた音声に対応するテキスト情報を取得する手段と、音声に関連付けられる発話者に関する発話者情報を取得する手段と、発話者情報を音声に対応するテキスト情報に関連付けて保存する手段と、発話者毎に当該発話者の発話者情報に関連付けられる音声に対応するテキスト情報の要約を生成する手段とを具備する。【選択図】図4

Description

本開示は、情報処理装置、方法、システム、およびプログラムに関する。
従来、会議を支援するための様々な技術的思想が提案されている。
例えば特許文献1には、複数の発言者により発言が行われる会議の音声データを取得し、当該音声データに基づいて各発言の発言者を特定し、当該音声データに音声認識処理を施して文字データを生成し、当該文字データから所定の発言者の発言、または所定の語句を含む発言を検出し、検出された発言の文字データに基づいて、議事録を生成するという技術的思想が開示されている。
例えば特許文献2には、会議の進行に影響を及ぼす要素について所定の条件を満たすか否かを判定し、当該所定の条件を満たす場合に、複数のマイクスピーカ装置のうち会議の進行に影響を及ぼす要素に応じて選択されるマイクスピーカ装置から、当該所定の条件に関する特定情報を通知させるという技術的思想が開示されている。
特開2022-118302号公報 特開2022-138245号公報
しかしながら、従来の議事録は、情報量の多寡の違いはあるにせよ、基本的には発言内容を発生順に並べた形式であることが多く、会議における議論の状況を短時間で把握するという観点では改善の余地がある。特許文献1の技術的思想では、要約の様式に工夫があるものの、特定の議題を扱う会議以外には適用し難い。
特許文献2の技術的思想は、会議の参加者の各人にウェアラブル型のマイクスピーカ装置を装着しておくことを前提としており、会議を実施するうえでの制約が大きい。
上記のとおり、従来、会議の支援には様々な制約がある。
本開示の目的は、会議の支援の制約を取り除くことである。
本開示の一態様の情報処理装置は、マイクロホンによる集音によって得られた音声に対応するテキスト情報を取得する手段と、音声に関連付けられる発話者に関する発話者情報を取得する手段と、発話者情報を音声に対応するテキスト情報に関連付けて保存する手段と、発話者毎に当該発話者の発話者情報に関連付けられる音声に対応するテキスト情報の要約を生成する手段とを具備する。
本開示の別の態様の情報処理装置は、会議に関する情報であって、少なくとも当該会議の内容に関する情報を含む会議情報を取得する手段と、会議の実施中にマイクロホンによる集音によって得られた音声に対応するテキスト情報を取得する手段と、音声に関連付けられる発話者に関する発話者情報を取得する手段と、会議情報と、テキスト情報と、発話者情報とに基づいて行われる、会議の参加者の状態、または会議の進行状態、の少なくとも1つに関して判定する手段と、判定の結果に応じて、会議の参加者の一部または全部にアラートまたは提案を提示するためのUI(User Interface)情報を生成する手段と、UI情報を出力する手段とを具備する。
本実施形態の情報処理システムの構成を示すブロック図である。 本実施形態のディスプレイデバイスの構成を示すブロック図である。 本実施形態のマイクデバイスの構成を示すブロック図である。 本実施形態の一態様の説明図である。 本実施形態の発話者データベースのデータ構造を示す図である。 本実施形態の発言ログデータベースのデータ構造を示す図である。 本実施形態のマイクロホン処理のフローチャートである。 マイクロホンによる集音を説明するための図である。 発話者の方向を説明するための図である。 本実施形態の発言ログ収集処理のフローチャートである。 本実施形態の要約処理のフローチャートである。 本実施形態の要約処理において表示される画面例を示す図である。 変形例1の一態様の説明図である。 変形例1のファシリテーション処理のフローチャートである。
以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。
以降の説明において、マイクデバイスの位置及び向きを基準とする座標系(マイク座標系)を用いることがある。マイク座標系は、マイクデバイスの位置(例えばマイクデバイスの重心位置)を原点とし、当該原点においてx軸およびy軸が直交する。マイク座標系において、x+方向をマイクデバイスの前方としたとき、x-方向をマイクデバイスの後方、y+方向をマイクデバイスの左方向、y-方向をマイクデバイスの右方向とそれぞれ定義する。また、特定の座標系における方向とは、当該座標系の原点に対する方向を意味する。
(1)情報処理システムの構成
情報処理システムの構成について説明する。図1は、本実施形態の情報処理システムの構成を示すブロック図である。
図1に示すように、情報処理システム1は、ディスプレイデバイス10と、マイクデバイス30とを備える。
情報処理システム1には、複数のユーザが関与し得る。ユーザの少なくとも1人は難聴者であってもよいし、ユーザの全員が難聴者でなくてもよい(つまり、ユーザの全員が会話に十分な聴力を有する者であってもよい)。
ディスプレイデバイス10およびマイクデバイス30は、通信ケーブル、または無線チャネル(例えば、Wi-Fiチャネル又はBluetooth(登録商標)チャネル)を介して接続され得る。
ディスプレイデバイス10は、1以上のディスプレイ(「表示部」の一例)を備える。ディスプレイデバイス10は、外部装置から受信した情報に基づいて画像信号を生成し、または外部装置から画像信号を受信し、当該画像信号に応じた画像をディスプレイに表示する。ディスプレイデバイス10は、例えば、タブレット端末、パーソナルコンピュータ、スマートフォン、モニタ装置、または会議用ディスプレイ装置などである。ディスプレイデバイス10のユーザは、会議の参加者(ファシリテータを含み得る)であってもよいし、会議に参加していない者であってもよい。また、複数のユーザが、同時にディスプレイデバイス10を使用することも可能である。
マイクデバイス30は、ディスプレイデバイス10から独立して設置可能に構成されてよい。つまり、マイクデバイス30の位置および向きは、ディスプレイデバイス10の位置および向きから独立して決定することができる。
(1-1)ディスプレイデバイスの構成
ディスプレイデバイスの構成について説明する。図2は、本実施形態のディスプレイデバイスの構成を示すブロック図である。
図2に示すように、ディスプレイデバイス10は、記憶装置11と、プロセッサ12と、入出力インタフェース13と、通信インタフェース14と、表示部15とを備える。
記憶装置11は、プログラム及びデータを記憶するように構成される。記憶装置11は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、及び、ストレージ(例えば、フラッシュメモリ又はハードディスク)の組合せである。
プログラムは、例えば、以下のプログラムを含む。
・OS(Operating System)のプログラム
・情報処理を実行するアプリケーション(例えば、Webブラウザ、会議を支援する機能を有するアプリケーション、など)のプログラム
データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理を実行することによって得られるデータ(つまり、情報処理の実行結果)
プロセッサ12は、記憶装置11に記憶されたプログラムを起動することによって、ディスプレイデバイス10の機能を実現するコンピュータである。プロセッサ12は、例えば、以下の少なくとも1つである。
・CPU(Central Processing Unit)
・GPU(Graphic Processing Unit)
・ASIC(Application Specific Integrated Circuit)
・FPGA(Field Programmable Gate Array)
入出力インタフェース13は、ディスプレイデバイス10に接続される入力デバイスから情報(例えば、ユーザの指示、音声信号)を取得し、かつ、ディスプレイデバイス10に接続される出力デバイスに情報(例えば画像信号)を出力するように構成される。
入力デバイスは、例えば、マイクデバイス30、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、表示部15とは異なる外部ディスプレイ、スピーカ、またはそれらの組み合わせである。
通信インタフェース14は、ディスプレイデバイス10と外部装置(例えば、マイクデバイス30)との間の通信を制御するように構成される。
表示部15は、画像(静止画、または動画)を表示するように構成される。表示部15は、例えば、液晶ディスプレイ、または有機ELディスプレイである。
(1-2)マイクデバイスの構成
マイクデバイスの構成について説明する。図3は、本実施形態のマイクデバイスの構成を示すブロック図である。
図3に示すように、マイクデバイス30は、記憶装置31と、プロセッサ32と、入出力インタフェース33と、通信インタフェース34と、マイクロホン51とを備える。
記憶装置31は、プログラム及びデータを記憶するように構成される。記憶装置31は、例えば、ROM、RAM、及び、ストレージ(例えば、フラッシュメモリ又はハードディスク)の組合せである。
プログラムは、例えば、以下のプログラムを含む。
・OSのプログラム
・情報処理を実行するアプリケーション(例えば、音声処理を行う機能を有するアプリケーション、など)のプログラム
データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理の実行結果
プロセッサ32は、記憶装置31に記憶されたプログラムを起動することによって、マイクデバイス30の機能を実現するコンピュータである。プロセッサ32は、例えば、以下の少なくとも1つである。
・CPU
・GPU
・ASIC
・FPGA
入出力インタフェース33は、マイクデバイス30に接続される入力デバイスから情報(例えば、ユーザの指示)を取得し、かつ、マイクデバイス30に接続される出力デバイスに情報(例えば、音声信号)を出力するように構成される。
入力デバイスは、例えば、物理ボタン、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイ、スピーカ、またはそれらの組み合わせである。
通信インタフェース34は、マイクデバイス30と外部装置(例えば、ディスプレイデバイス10)との間の通信を制御するように構成される。
マイクロホン51は、例えば、マイクデバイス30の周辺の音を集音する。マイクロホン51により集音される音には、例えば以下の少なくとも1つの音が含まれる。
・人物による発話音
・マイクデバイス30周辺の環境音
マイクデバイス30は、少なくとも1つのマイクロホン51を備える。以下の説明では、マイクデバイス30は、複数のマイクロホン51を備えることとする。換言すれば、マイクデバイス30は、マルチマイクデバイスであることとする。マイクデバイス30は、マイクロホン51を用いて、発話者から発せられた音を受信(集音)することで音声信号(「音声情報」の一例)を生成する。また、マイクデバイス30は、集音した音声信号に基づいて、マイク座標系における音の到来方向(つまり、発話者の方向)を推定する。「発話者の方向」とは、マイクデバイス30に対する発話者の方向である。また、マイクデバイス30は、集音した音声信号に対して、推定した発話者の方向に応じて後述するビームフォーミング処理を行う。
マイクデバイス30には、例えば、筐体の表面にマイクデバイス30の基準方向(例えば、前方(つまり、x+方向)であるが、その他の所定の方向であってもよい)を示す目印が付されていてもよい。これにより、ユーザは、マイクデバイス30の向きを視覚情報から容易に認識することができる。なお、マイクデバイス30の向きを認識するための手段はこれに限られない。目印は、マイクデバイス30の筐体と一体化されていてもよい。
マイクデバイス30は、当該マイクデバイス30の動き及び状態を検出するためにIMU(Inertial Measurement Unit)を備えることができる。
(2)実施形態の一態様
本実施形態の一態様について説明する。図4は、本実施形態の一態様の説明図である。
図4に示すように、マイクデバイス30は、例えば会議室に設置され、会議の実施中に参加者から発せられた音声を検出する。マイクデバイス30は、複数のマイクロホン51に対する音声の到来方向を推定し、推定結果に基づいて発話者を識別する。マイクデバイス30は、音声の検出によって得られた音声信号と、当該音声の発話者に関する発話者情報とをディスプレイデバイス10へ送信する。
ディスプレイデバイス10は、マイクデバイス30から受信した音声信号の音声認識結果であるテキスト情報を得る。ディスプレイデバイス10は、取得可能なテキスト情報から、各発話者に関連付けられる音声に対応するテキスト情報を抽出する。ディスプレイデバイス10は、発話者別のテキスト情報に基づくモデル入力を生成し、当該モデル入力を学習済みモデルLM1に与えることで、発話者別のテキスト情報の要約を生成する。
学習済みモデルLM1は、与えられたモデル入力(例えば指示文)に対して応答文を生成するように学習されている。学習済みモデルLM1は、例えば大規模言語モデルであってよい。学習済みモデルLM1は、ディスプレイデバイス10とは異なる情報処理装置(例えば、外部サービスを提供するサーバ)に構築され得る。或いは、学習済みモデルLM1は、ディスプレイデバイス10の内部に構築されてもよい。本実施形態の学習済みモデルLM1は、発話者別のテキスト情報に基づくモデル入力に応じて、発話者別のテキスト情報の要約を生成し、生成結果を出力する。
ディスプレイデバイス10は、取得した要約に基づいて、当該要約を表示する画面に関するUI(User Interface)情報を生成し、表示部15に表示(「出力」の一例)する。これにより、ディスプレイデバイス10のユーザは、会議の各参加者がどのような発言をしてきたか、または、会議の議題に対して各参加者がどのようなスタンスであるか、などを表示部15の画面から容易に把握することができる。
(3)データベース
本実施形態のデータベースについて説明する。
(3-1)発話者データベース
本実施形態の発話者データベースについて説明する。図5は、本実施形態の発話者データベースのデータ構造を示す図である。発話者データベースは、記憶装置31に記憶され得る。
発話者データベースには、発話者情報が格納される。発話者情報は、マイクデバイス30によって識別された、マイクデバイス30の周囲の発話者に関する情報である。
図5に示すように、発話者データベースは、「ID」フィールドと、「方向」フィールドと、「名称」フィールドとを含む。各フィールドは、互いに関連付けられている。
「ID」フィールドには、発話者IDが格納される。発話者IDは、発話者を識別する情報である。マイクデバイス30は、新たな発話者を検出すると、新規の発話者IDを発行し、当該発話者IDを当該発話者に割り当てる。
「方向」フィールドは、発話者方向情報が格納される。発話者方向情報は、発話者の方向に関する情報である。一例として、発話者の方向は、マイク座標系において基準方向(本実施形態においては、マイクデバイス30の前方(x+方向))を0度とする軸からの偏角として表される。
「名称」フィールドには、発話者名情報が格納される。発話者名情報は、発話者の名称に関する情報である。マイクデバイス30は、発話者名情報を、自動的に決定してもよいし、ユーザ指示に応じて設定してもよい。マイクデバイス30は、所定の規則に従って、またはランダムで、新たに検出された発話者に何らかの初期発話者名称を割り当てることができる。
その他、発話者データベースに格納される発話者情報は、以下の情報の少なくとも1つを含んでもよい。
・認識言語情報
・翻訳言語情報
・発話者距離情報
認識言語情報は、発話者の使用言語に関する情報である。発話者の認識言語情報に基づいて、当該発話者から発生される音声に適用される音声認識エンジンが選択される。認識言語情報の設定は、ユーザ操作により指定されてもよいし、音声認識モデルによる言語認識結果に基づいて自動で指定されてもよい。
翻訳言語情報は、発話者から発せられる音声に対する音声認識結果(テキスト)に機械翻訳を適用する場合における目的言語に関する情報である。発話者の翻訳言語情報に基づいて、当該発話者から発生される音声に対する音声認識結果に適用される機械翻訳エンジンが選択される。なお、翻訳言語情報は、個別の発話者ではなく全発話者に対して一括で設定されてもよいし、ディスプレイデバイス10毎に設定されてもよい。
発話者距離情報は、マイクデバイス30から発話者までの距離に関する情報である。また、発話者方向情報および発話者距離情報は、発話者位置情報として表すこともできる。発話者位置情報は、マイクデバイス30に対する発話者の相対位置(つまり、マイクデバイス30の座標系における発話者の座標)に関する情報である。
(3-2)発言ログデータベース
本実施形態の発言ログデータベースについて説明する。図6は、本実施形態の発言ログデータベースのデータ構造を示す図である。発言ログデータベースは、記憶装置11に記憶され得る。
発言ログデータベースには、発言ログ情報が格納される。発言ログ情報は、発話者による発言内容のログに関する情報である。発言ログ情報は、発話者と、発言内容とを関連付ける。
図6に示すように、発言ログデータベースは、「日時」フィールドと、「発話者ID」フィールドと、「発言」フィールドとを含む。各フィールドは、互いに関連付けられている。
「日時」フィールドには、日時情報が格納される。日時情報は、発言の音声が検出された(つまり、マイクロホン51による集音によって音声が検出された)日時に関する情報である。
「発話者ID」フィールドには、発話者IDが格納される。発話者IDは、発言が検出された発話者を識別する情報である。発話者IDは、発話者データベース(図5)の発話者IDと一対一対応し得る。
「発言」フィールドには、発言情報が格納される。発言情報は、発言の音声に対応するテキスト情報(一例として、音声認識結果)である。
(4)情報処理
本実施形態の情報処理について説明する。
(4-1)マイクロホン処理
本実施形態のマイクロホン処理について説明する。図7は、本実施形態のマイクロホン処理のフローチャートである。図8は、マイクロホンによる集音を説明するための図である。図9は、発話者の方向を説明するための図である。
本実施形態のマイクロホン処理は、ディスプレイデバイス10、およびマイクデバイス30の電源がONになり、かつ初期設定が完了した後に、例えばユーザ指示に応じて開始される。ただし、本実施形態のマイクロホン処理の開始タイミングはこれに限定されない。本実施形態のマイクロホン処理は、例えば所定の周期で繰り返し実行されてもよい。
マイクデバイス30は、マイクロホン51を介して、音声の検出(S130)を実行する。
具体的には、マイクデバイス30が5個のマイクロホン51-1,51-2,51-3,51-4,51-5を備えていたとする。これら複数のマイクロホン51-1~51-5は、話者から発せられる発話音をそれぞれ集音する。マイクロホン51-1~51-5は、図8に示される複数のパスを介して到来した発話音を集音する。マイクロホン51-1~51-5は、集音した発話音を音声信号へ変換する。
マイクデバイス30が備えるプロセッサは、マイクロホン51-1~51-5から、話者PR1,PR2,及びPR3の少なくともいずれかから発せられた発話音を含む音声信号を取得する。マイクロホン51-1~51-5から取得される音声信号には、発話音が進行してきたパスに基づく空間的な情報(例えば遅延や位相変化)が含まれている。
ステップS130の後、マイクデバイス30は、到来方向の推定(S131)を実行する。
記憶装置31には、到来方向推定モデルが記憶されている。到来方向推定モデルには、音声信号に含まれる空間的情報と、発話音の到来方向との相関関係を特定するための情報が記述されている。
到来方向推定モデルで利用される到来方向推定手法は、既存のいかなる手法が用いられてもよい。例えば、到来方向推定手法には、入力の相関行列の固有値展開を利用したMUSIC(Multiple Signal Classification)、最小ノルム法、又はESPRIT(Estimation of Signal Parameters via Rotational Invariance Techniques)などが用いられる。
マイクデバイス30は、到来方向推定モデルに、マイクロホン51-1~51-5から受信した音声信号を入力することで、マイクロホン51-1~51-5により集音された発話音の到来方向に基づく発話者の方向を推定する。このとき、マイクデバイス30は、例えば、マイク座標系において、マイクロホン51-1~51-5を基準として定められた基準方向(本実施形態においては、マイクデバイス30の前方(x+方向))を0度とする軸からの偏角で発話音の到来方向を表現する。図9に示される例では、マイクデバイス30は、話者PR1から発せられた発話音の到来方向を、x軸から右方向に角度A1ずれた方向と推定する。マイクデバイス30は、話者PR2から発せられた発話音の到来方向を、x軸から左方向に角度A2ずれた方向と推定する。マイクデバイス30は、話者PR3から発せられた発話音の到来方向を、x軸から左方向に角度A3ずれた方向と推定する。
ステップS131の後、マイクデバイス30は、音声信号の抽出(S132)を実行する。
記憶装置31には、ビームフォーミングモデルが記憶されている。ビームフォーミングモデルには、所定の方向と、その方向にビームを有する指向性を形成するためのパラメータとの相関関係を特定するための情報が記述されている。ここで、指向性を形成するとは、特定の到来方向の音声を増幅させ、又は減衰させる処理である。
マイクデバイス30は、ビームフォーミングモデルに、推定した到来方向を入力することで、到来方向にビームを有する指向性を形成するためのパラメータを計算する。
図9に示される例では、マイクデバイス30は、計算された角度A1をビームフォーミングモデルに入力し、x軸から右方向に角度A1ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。マイクデバイス30は、計算された角度A2をビームフォーミングモデルに入力し、x軸から左方向に角度A2ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。マイクデバイス30は、計算された角度A3をビームフォーミングモデルに入力し、x軸から左方向に角度A3ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。
マイクデバイス30は、マイクロホン51-1~51-5から取得した音声信号を、角度A1について計算したパラメータで増幅、又は減衰させる。マイクデバイス30は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度A1に対応する方向の発話者から到来した発話音についての音声信号を抽出する。
マイクデバイス30は、マイクロホン51-1~51-5から取得した音声信号を、角度A2について計算したパラメータで増幅、又は減衰させる。マイクデバイス30は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度A2に対応する方向の発話者から到来した発話音についての音声信号を抽出する。
マイクデバイス30は、マイクロホン51-1~51-5から取得した音声信号を、角度A3について計算したパラメータで増幅、又は減衰させる。マイクデバイス30は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度A3に対応する方向の発話者から到来した発話音についての音声信号を抽出する。
ステップS132の後に、マイクデバイス30は、発話者の識別(S133)を実行する。
具体的には、マイクデバイス30は、ステップS132において取得した到来方向情報、すなわちマイクデバイス30に対する発話者の方向(以下、「対象発話者方向」という)の推定結果に基づいて、マイクデバイス30の周囲に存在する発話者を識別する。
一例として、マイクデバイス30は、対象発話者方向に対応する発話者が識別済みの発話者と同一であるか否かを判定し、当該対象発話者方向に対応する発話者が識別済みの発話者でない場合に、新たな発話者ID(図5)を割り当てる。マイクデバイス30は、発話者データベース(図5)に、この新たな発話者IDを含む発話者情報を表すレコードを追加する。具体的には、マイクデバイス30は、対象発話者方向を、識別済みの発話者についての発話者方向情報(図5)と比較する。そして、マイクデバイス30は、対象発話者方向が識別済みの発話者についての発話者方向情報のいずれかと適合すると判定した場合に、当該対象発話者方向に対応する発話者を、適合した発話者方向情報を持つ(識別済みの)発話者として扱う。他方、マイクデバイス30は、対象発話者方向が識別済みの発話者についての発話者方向情報のいずれとも適合しないと判定した場合に、当該対象発話者方向に新たな発話者が存在することを検出し、当該新たな発話者に新規の発話者IDを付与する。ここで、対象発話者方向が発話者方向情報に適合することとは、少なくとも対象発話者方向が発話者方向情報の示す方向に一致することを含み、さらに対象発話者方向の発話者方向情報の示す方向に対する差または比率が許容範囲内であることを含むことができる。
マイクデバイス30は、ステップS132において抽出した音声信号を、ステップS133において識別した発話者情報(例えば、発話者ID)とともに、ディスプレイデバイス10へ出力(送信)する(S135)。
換言すれば、マイクデバイス30は、発話者として特定された方向についてのみ音声信号を抽出(強調)し、それ以外の方向についての音声信号を抑圧(消去)して、ディスプレイデバイス10へ送信する。これにより、送信する音声信号のデータ量を抑制しながら、音声認識対象として優先度の高い音声信号を効率的にディスプレイデバイス10に提供することができる。
なお、複数の発話者が特定された場合には、マイクデバイス30は、各発話者の音声信号をバッファリングしておき、順番にディスプレイデバイス10へ送信してもよい。これにより、複数人が同時に発話した場合であっても、各話者の発話内容に対して個別に音声認識処理を行うことができる。
(4-2)発言ログ収集処理
本実施形態の発言ログ収集処理について説明する。図10は、本実施形態の発言ログ収集処理のフローチャートである。
本実施形態の発言ログ収集処理は、例えば、本実施形態のマイクロホン処理とともに開始し得る。
図10に示すように、ディスプレイデバイス10は、音声信号および発話者情報の取得(S110)を実行する。
具体的には、ディスプレイデバイス10は、ステップS134においてマイクデバイス30によって出力された音声信号および発話者情報を取得する。
ステップS110の後、ディスプレイデバイス10は、音声認識(S111)を実行する。
一例として、記憶装置11には、音声認識モデルが記憶されている。音声認識モデルには、音声信号と、音声信号に対するテキストとの相関関係を特定するための情報が記述されている。音声認識モデルは、例えば、機械学習により生成された学習済モデルである。別の例として、音声認識モデルは、記憶装置11の代わりに、ディスプレイデバイス10がネットワーク(例えばインターネット)を介してアクセス可能な外部装置(例えばクラウドサーバ)に保存されていてもよい。
ディスプレイデバイス10は、音声認識モデルに、ステップS110において取得した音声信号を入力することで、入力した音声信号に対応するテキスト情報を得る。ディスプレイデバイス10は、音声信号に対応する発話者の認識言語情報に基づいて音声認識エンジンを選択してもよい。
ディスプレイデバイス10は、音声認識(S111)において、オプションとして、音声認識処理に加えて機械翻訳処理を実行してもよい。
具体的には、ディスプレイデバイス10は、ステップS110において取得した音声信号に対応する発話者に翻訳言語情報が設定されている場合に、当該音声信号に対して音声認識処理に加えて機械翻訳処理を行う。これにより、ディスプレイデバイス10は、翻訳言語情報によって指定された言語のテキスト情報を得る。ディスプレイデバイス10は、音声信号に対応する発話者の翻訳言語情報に基づいて機械翻訳エンジンを選択してもよい。ディスプレイデバイス10は、本オプションを採用する場合であっても、ステップS110において取得した音声信号に対応する音声の発話者に翻訳言語情報が設定されていない場合に、機械翻訳処理を省略し、音声認識処理のみを行ってもよい。
ステップS111の後に、ディスプレイデバイス10は、発言ログデータベースの更新(S112)を実行する。
具体的には、ディスプレイデバイス10は、ステップS111において取得したテキスト情報を、ステップS110において取得した発話者情報に関連付けて、発言ログデータベース(図6)に保存する。
(4-3)要約処理
本実施形態の要約処理について説明する。図11は、本実施形態の要約処理のフローチャートである。図12は、本実施形態の要約処理において表示される画面例を示す図である。
本実施形態の要約処理は、例えばディスプレイデバイス10が要約の提示を要求するユーザ指示を受け付けたことに応じて開始し得る。
図11に示すように、ディスプレイデバイス10は、基準日時の決定(S210)を実行する。
具体的には、ディスプレイデバイス10は、要約作成の基準となる日時(以下、「基準日時」という)を決定する。
基準日時の決定(S210)の第1例として、ディスプレイデバイス10は、現時点(すなわち、本ステップの実行時点)を基準日時として決定する。
基準日時の決定(S210)の第2例として、ディスプレイデバイス10は、ユーザによって指定された日時を基準日時として決定する。
ステップS210の後に、ディスプレイデバイス10は、発言ログ情報の取得(S211)を実行する。
具体的には、ディスプレイデバイス10は、発言ログデータベース(図6)を参照し、所定の始点からステップS210において決定した基準日時までの日時に対応する日時情報を含む発言ログ情報を取得する。ここで、所定の始点は、会議の始まった日時であってもよいし、基準日時から所定時間遡った日時であってもよいし、ユーザによって指定された日時であってもよい。
ステップS211の後に、ディスプレイデバイス10は、モデル入力の生成(S212)を実行する。
具体的には、ディスプレイデバイス10は、ステップS211において取得した発言ログ情報に含まれる発話者IDおよび発言情報に基づいて、学習済みモデルLM1に対するモデル入力を生成する。一例として、モデル入力は、発言情報を発話者別に要約することを求める指示文を含み得る。
ステップS212の後に、ディスプレイデバイス10は、要約の生成(S213)を実行する。
具体的には、ディスプレイデバイス10は、ステップS212において生成したモデル入力を、学習済みモデルLM1に与えることで、要約を生成する。要約は、発話者毎の発言の概略を表すテキストを含むことができる。以降の説明において、ディスプレイデバイス10または他の情報処理装置が、「要約を生成する」とは、ディスプレイデバイス10または他の情報処理装置の外部に構築された学習済みモデルLM1によって生成された要約を取得することを含み得る。
ステップS213の後に、ディスプレイデバイス10は、UI情報の生成(S214)を実行する。
具体的には、ディスプレイデバイス10は、ステップS213において取得した要約に基づいてUI情報を生成する。UI情報は、例えば以下の要素の少なくとも1つを含むことができる。
・要約に含まれるテキスト
・発話者の名称
・発話者のアイコン
・基準日時
ステップS214の後に、ディスプレイデバイス10は、UI情報の出力(S215)を実行する。
具体的には、ディスプレイデバイス10は、ステップS214において生成したUI情報を出力する。一例として、ディスプレイデバイス10は、UI情報に応じた画面を表示部15に表示する。画面の一例を図12に示す。
図12の画面は、オブジェクトJ20,J21,J21a,J22a~J22cを含む。
オブジェクトJ20は、画面モードを切り替えるユーザ指示を受け付ける。図12の例では、「サマリー」モードが選択された状態を示しており、要約を確認するための画面が表示される。
オブジェクトJ21は、時間軸を表す。オブジェクトJ21は、基準日時の指定(変更を含み得る)を受け付けるように構成されてもよい。
オブジェクトJ21aは、基準日時を表す。オブジェクトJ21上に配置される。
オブジェクトJ22a~J22c(以下、同様のオブジェクトを「オブジェクトJ22」という)は、それぞれ1人の発話者に対応する要約を表示する。オブジェクトJ22の数は、発話者の人数に応じて定められ得る。第1例として、オブジェクトJ22の数は、発話者の人数に一致するように定められる。つまり、オブジェクトJ22は、発話者と一対一対応する。第2例として、オブジェクトJ22の数には上限数が設けられる。この場合に、オブジェクトJ22の数は、発話者の人数が上限数に達するまでは発話者の人数に一致するように定められ、発話者の人数が上限数に達すると当該上限数に一致するように定められる。
オブジェクトJ22aは、オブジェクトJ22a1~J22a3を含む。なお、オブジェクトJ22b,J22cも同様のオブジェクトを含むが、説明を省略する。
オブジェクトJ22a1は、発話者のアイコンを表す。
オブジェクトJ22a2は、発話者の名称を表す。
オブジェクトJ22a3は、発話者の発言内容の要約を表す。要約は、以下の情報を含むことができる。
・発話者の発言をより少ない文字数で表した文章
・会議の議題に対する発話者のスタンスを表す文章
ここで、発話者のスタンスは、モデル入力に応じて学習済みモデルLM1によって推論され得る。
(5)小括
以上説明したように、本実施形態のディスプレイデバイス10は、マイクロホン51による集音によって得られた音声に対応するテキスト情報を取得し、当該音声に関連付けられる発話者に関する発話者情報を取得する。ディスプレイデバイス10は、発話者情報を音声に対応するテキスト情報に関連付けて保存する。ディスプレイデバイス10は、発話者毎に当該発話者の発話者情報に関連付けられる音声に対応するテキスト情報の要約を生成する。これにより、会議の各参加者の発言内容(主張や意見)の概略を容易に把握可能な情報を提供することができる。かかる情報を利用することで、会議の進行および情報活用を円滑化し、生産性を向上させることができる。
ディスプレイデバイス10は、要約を表示する画面に関するUI情報を生成し、当該UI情報を出力してもよい。これにより、ユーザは、会議の各参加者の発言内容(主張や意見)の概略を視覚的に容易に把握することができる。
ディスプレイデバイス10は、発話者毎に、当該発話者に関連付けられる音声に対応するテキスト情報を含むモデル入力を大規模言語モデルに与えることで、要約を生成してもよい。これにより、要約を生成するロジックを作り込まずとも、妥当な要約を利用することができる。
要約を表示する画面は、発話者と一対一対応するオブジェクトを含み、オブジェクトの各々には対応する1人の発話者に対応する要約が表示されてもよい。これにより、会議の各参加者と要約とが一対一対応するので、会議の各参加者の発言内容の概略をいっそう容易に把握可能な画面を表示することができる。
要約は、対応する発話者の発言をより少ない文字数で表した文章を含んでもよい。これにより、会議の各参加者の発言内容をコンパクトに表示し、確認に要する時間を短縮することができる。
要約は、会議の議題に関して、前記要約に対応する発話者の発言から推定された当該発話者のスタンスを表す文章を含んでもよい。これにより、議論の大局的な状況を容易に把握可能な画面を表示することができる。
ディスプレイデバイス10は、基準日時までにマイクロホン51による集音によって得られた音声に対応するテキスト情報に基づいて要約を生成してもよい。これにより、基準日時までの議論の状況を容易に把握可能な画面を表示することができる。
(6)変形例
本実施形態の変形例について説明する。
(6-1)変形例1
変形例1について説明する。変化例1は、会議の参加者の状態、または会議の進行状態、の少なくとも1つに関する判定の結果に応じて、会議の参加者の一部または全部にアラートまたは提案を提示する例である。言い換えると、変形例1は、会議のファシリテーションを行う例である。
(6-1-1)変形例1の一態様
変形例1の一態様について説明する。図13は、変形例1の一態様の説明図である。
図13に示すように、マイクデバイス30は、例えば会議室に設置され、会議の実施中に参加者から発せられた音声を検出する。マイクデバイス30は、複数のマイクロホン51に対する音声の到来方向を推定し、推定結果に基づいて発話者を識別する。マイクデバイス30は、音声の検出によって得られた音声信号と、当該音声の発話者に関する発話者情報とをディスプレイデバイス10へ送信する。
ディスプレイデバイス10は、マイクデバイス30から受信した音声信号の音声認識結果であるテキスト情報を得る。また、ディスプレイデバイス10は、会議に関する会議情報を取得する。会議情報は、少なくとも会議の内容に関する情報を含む。ディスプレイデバイス10は、会議情報と、テキスト情報と、発話者情報とに基づくモデル入力を生成し、当該モデル入力を学習済みモデルLM2に与えることで、会議の参加者の状態、または会議の進行状態の少なくとも1つに関して判定する。
学習済みモデルLM2は、与えられたモデル入力(例えば指示文)に対して応答文を生成するように学習されている。学習済みモデルLM2は、例えば大規模言語モデルであってよい。学習済みモデルLM2は、ディスプレイデバイス10とは異なる情報処理装置(例えば、外部サービスを提供するサーバ)に構築され得る。変形例1の学習済みモデルLM2は、本実施形態の学習済みモデルLM1と同一であってもよい。学習済みモデルLM2は、会議情報と、テキスト情報と、発話者情報とに基づくモデル入力に応じて、会議の参加者の状態、または会議の進行状態の少なくとも1つに関する判定を行い(つまり、判定結果に相当する応答文を生成し)、判定結果を出力する。
ディスプレイデバイス10は、取得した判定結果に応じて、会議の参加者の一部または全部にアラートまたは提案を提示するためのUI情報を生成し、当該UI情報を出力する。例えば、ディスプレイデバイス10は、アラートまたは提案を表示する画面を表示部15に表示してもよいし、アラートまたは提案を表す音声をスピーカから出力してもよいし、チャットツールにアラートまたは提案を表すメッセージを投稿してもよい。これにより、アラートまたは提案の提示先となる参加者に対して行動変容を促し、会議の改善(例えば、会議の進行の円滑化)に貢献することができる。
(6-1-2)情報処理
変形例1の情報処理について説明する。
(6-1-2-1)ファシリテーション処理
変形例1のファシリテーション処理について説明する。図14は、変形例1のファシリテーション処理のフローチャートである。
変形例1のファシリテーション処理は、例えば会議の開始に応じて開始し得る。会議の開始は、会議のスケジュールに基づいて検知されてもよいし、ユーザ指示の取得、または音声信号および発話者情報の取得に応じて検知されてもよい。また、本ファシリテーション処理は、会議の実施中に繰り返し実行されてよい。
図14に示すように、ディスプレイデバイス10は、会議情報の取得(S310)を実行する
具体的には、ディスプレイデバイス10は、以下の少なくとも1つの情報を含む会議情報を取得する。
・会議の内容に関する情報
・会議の参加者に関する情報(参加者の役割(会議における役割、参加者が属する組織(企業など)における役割、またはそれらの組み合わせ)に関する情報を含み得る)
・会議を構成する議題に関する情報
・会議のスケジュールに関する情報
・会議の開催場所に関する情報
・会議の形態に関する情報
ここで、会議の内容は、会議の趣旨を含む。さらに、会議の目的、会議の参加者の属性(社内の参加者又は社外の参加者)、会議の人数、またはそれらの組み合わせ、などを含むことができる。
会議情報の取得(S310)の第1例として、ディスプレイデバイス10は、ユーザからの入力に応じて会議情報を取得する。例えば、ディスプレイデバイス10は、会議情報を記入するためのフォームを提示し、ユーザからの入力を受け付けてもよい。或いは、ディスプレイデバイス10は、ユーザが自由形式で作成した説明文書または説明音声を学習済みモデルに解析させることで、会議情報を取得してもよい。ユーザからの入力は、会議前に行われてもよいし、会議中に行われてもよい。
会議情報の取得(S310)の第2例として、ディスプレイデバイス10は、外部情報を参照して会議情報を取得する。例えば、ディスプレイデバイス10は、ユーザのスケジュールの情報、または会議室のスケジュールの情報、などに基づいて会議情報を取得してもよい。
会議情報の取得(S310)の第3例として、ディスプレイデバイス10は、会議の実施中に取得した音声信号および発話者情報に基づいて会議情報を取得する。
会議情報の取得(S310)の第4例は、上記第1例~第3例のうち複数の組み合わせである。
ステップS310の後に、ディスプレイデバイス10は、発言ログ情報の取得(S311)を実行する。
具体的には、ディスプレイデバイス10は、発言ログデータベース(図6)を参照し、所定の始点から現時点(つまり、本ステップの実行時点)までに対応する日時情報を含む発言ログ情報を取得する。ここで、所定の始点は、会議の始まった日時であってもよいし、現時点から所定時間遡った日時であってもよいし、ユーザによって指定された日時であってもよい。
会議情報の取得(S310)のオプションとして、ディスプレイデバイス10は、取得した情報を組み合わせることで、さらなる情報を取得してもよい。具体的には、ディスプレイデバイス10は、会議を構成する議題に関する情報と、会議のスケジュールに関する情報とに基づいて、議題毎に時間を割り当てることで、会議を構成する議題毎に割り当てられた時間の情報を取得してもよい。時間の割り当てには、学習済みモデルが用いられてもよい。或いは、会議を構成する議題毎に割り当てられた時間の情報は、会議のスケジュールに関する情報に含まれていてもよい。
発言ログ情報の取得(S311)において、オプションとして、ディスプレイデバイス10は、取得した発言ログ情報に含まれる発話者IDが、会議の参加者のいずれに対応するかを特定してもよい。ディスプレイデバイス10は、ユーザ指示に応じて会議の参加者と発話者IDとの関係を特定してもよいし、音声の特徴量に基づいて会議の参加者と発話者IDとの関係を特定してもよい。
ステップS311の後に、ディスプレイデバイス10は、モデル入力の生成(S312)を実行する。
具体的には、ディスプレイデバイス10は、ステップS310において取得した会議情報と、ステップS311において取得した発言ログ情報に含まれる発話者IDおよび発言情報とに基づいて、学習済みモデルLM2に対するモデル入力を生成する。一例として、モデル入力は、会議の参加者の状態または会議の進行の状態に関する判定の種別と、会議情報と、発話者IDと、発言情報とに基づいて、当該判定の実行を求める指示文を含み得る。
会議の参加者の状態または会議の進行の状態に関する判定は、例えば以下のいずれかを含むことができる。
・会議の趣旨に合致した発言がされているかの判定
・発言量が過小である参加者はいるか(「参加者の発言に量的偏りがあるか」の判定の一例)、および該当する参加者は誰であるかの判定
・発言量が過大である参加者はいるか(「参加者の発言に量的偏りがあるか」の判定の一例)、および該当する参加者は誰であるかの判定
・議論についていけていない参加者はいるか、および該当する参加者は誰であるかの判定
・議論不足の観点があるか、および該当する観点は何であるかの判定
・進行中の議題に割り当てられた時間が超過しているかの判定
・会議における議論の内容がネガティブであるかの判定
・会議のクロージングを行うべきであるかの判定
・会議において発生したアクションアイテムがあるか、および該当するアクションアイテムは何であるかの判定
ここで、議論についていけていない参加者は、発言量が過小である参加者と同様に判定されてもよいし、発言量に加えて、参加者の過去の会議の参加実績や参加者が属する組織における当該参加者の役割などの参加者の背景に関する情報に基づいて判定されてもよい。これにより、前提となる知識の不足により発言ができないか、それとも知識の不足はないが発言していないかを区別して扱うことができる。
ここで、会議のクロージングを行うべきであるかの判定は、例えば以下の少なくとも1つの状況にあるかの判定により代替されてもよい。
・全ての議題の議論が終了したか
・会議の終了時刻から所定時間前に達したか
ステップS312の後に、ディスプレイデバイス10は、判定(S313)を実行する。
具体的には、ディスプレイデバイス10は、ステップS312において生成したモデル入力を、学習済みモデルLM2に与えることで、判定を行う。判定の結果は、要求した判定に対する学習済みモデルLM2による推論の結果を表すテキストを含むことができる。以降の説明において、ディスプレイデバイス10または他の情報処理装置が、「判定する」とは、ディスプレイデバイス10または他の情報処理装置の外部に構築された学習済みモデルLM2によって行われた判定の結果を取得することを含み得る。
ステップS313の後に、ディスプレイデバイス10は、UI情報の生成(S314)を実行する。
具体的には、ディスプレイデバイス10は、ステップS313において取得した判定の結果に応じて、UI情報を生成する。UI情報は、例えば以下の要素の少なくとも1つを含むことができる。
・アラートの内容(具体的には、テキスト、音声、画像、またはそれらの組み合わせ)
・アラートの提示先(具体的には、全参加者、特定の役割の参加者、特定の状態(例えば、発言量が過大、または過小)にあると判定された参加者)
・提案の内容(具体的には、テキスト、音声、画像、またはそれらの組み合わせ)
・提案の提示先(具体的には、全参加者、特定の役割の参加者、特定の状態(例えば、発言量が過大、または過小)にあると判定された参加者)
UI情報の生成(S314)の第1例として、ディスプレイデバイス10は、会議の趣旨に合致した発言がされていないとの判定の結果に応じて、例えば「話が脱線しています。」などのアラートを全参加者向けに生成してもよいし、例えば「OOさんが先程述べていたXXのテーマに戻りましょう。」などの提案を全参加者向けに生成してもよい。或いは、ディスプレイデバイス10は、複数の論点の候補を示す提案を全参加者向けに生成してもよい。
UI情報の生成(S314)の第2例として、ディスプレイデバイス10は、OOさんの発言量が過小であるとの判定の結果に応じて、例えば「OOさんがあまり発言できていません。」(「参加者の発言の量的偏りを指摘する情報」の一例)などのアラートを全参加者向け、ファシリテータ向け、または該当者(本例ではOOさん)向けに生成してもよい。
UI情報の生成(S314)の第3例として、ディスプレイデバイス10は、OOさんの発言量が過大あるとの判定の結果に応じて、例えば「一部の参加者が話す割合が多くなっています。」(「参加者の発言の量的偏りを指摘する情報」の一例)などのアラートを全参加者向け、ファシリテータ向け、または該当者(本例ではOOさん)向けに生成してもよい。
UI情報の生成(S314)の第4例として、ディスプレイデバイス10は、OOさんが議論についていけていない可能性があるとの判定の結果に応じて、例えば「OOさんが議論についていけていないかもしれません。」などのアラートを全参加者向け、またはファシリテータ向けに生成してもよいし、例えば「ここまでの議論の前提となる知識はこちらです。」などとして知識の補足するための情報を含んだ提案を該当者(本例ではOOさん)向けに生成してもよい。
UI情報の生成(S314)の第5例として、ディスプレイデバイス10は、議論不足の観点があるとの判定の結果に応じて、例えば「OOの観点が、現在議論されていません。」(「議論不足の観点を示す情報」の一例)などのアラートを全参加者向けに生成してもよいし、例えば「OOという観点ではXXのようなことも考えられますが、いかがでしょう?」(「議論不足の観点を示す情報」の一例)などの提案を全参加者向けに生成してもよい。
UI情報の生成(S314)の第6例として、ディスプレイデバイス10は、進行中の議題に割り当てられた時間が超過しているとの判定の結果に応じて、例えば「OOの議題の予定時間を超えています」などのアラートを全参加者向けに生成してもよいし、例えば「時間を守るために、今回はOOの話題に絞り、残りは次回ではいかがでしょう?」などの提案を全参加者向けに生成してもよい。
UI情報の生成(S314)の第7例として、ディスプレイデバイス10は、会議における議論の内容がネガティブであるとの判定の結果に応じて、例えば「ネガティブな発言が増えています。」などのアラートを全参加者向け、またはファシリテータ向けに生成してもよいし、例えば「OOの話題はいったん離れ、先にXXについて話すのはいかがでしょう?」などの提案を全参加者向け、またはファシリテータ向けに生成してもよい。
UI情報の生成(S314)の第8例として、ディスプレイデバイス10は、会議のクロージングを行うべきであるとの判定の結果に応じて、例えば「次回の会議日程を決める時間です。」などのアラートを全参加者向けに生成してもよいし、例えば「カレンダーを確認したところ、次回候補日程はOOです。」などの提案を全参加者向けに生成してもよい。
UI情報の生成(S314)の第9例として、ディスプレイデバイス10は、会議においてアクションアイテムが発生していないとの判定の結果に応じて、例えば「アクションがまだ作成されていません。」などのアラートを全参加者向けに生成してもよいし、会議において発生したアクションアイテムはOOであるとの判定の結果に応じて、例えば「次回までのアクションアイテムはOOです」などの提案を全参加者向けに生成してもよい。
ステップS314の後に、ディスプレイデバイス10は、UI情報の出力(S315)を実行する。
具体的には、ディスプレイデバイス10は、ステップS314において生成したUI情報を出力する。
UI情報の出力(S315)の第1例として、ディスプレイデバイス10は、アラートの内容の情報を、当該アラートの提示先に対応する宛先(例えば、アラートの提示先となる参加者が使用する端末)へ送信する。或いは、ディスプレイデバイス10は、チャットツールにおいて、アラートの提示先となる参加者を宛先とし、アラートの内容に応じたメッセージを投稿してもよい。
UI情報の出力(S315)の第2例として、ディスプレイデバイス10は、提案の内容の情報を、当該提案の提示先に対応する宛先(例えば、提案の提示先となる参加者が使用する端末)へ送信する。或いは、ディスプレイデバイス10は、チャットツールにおいて、提案の提示先となる参加者を宛先とし、提案の内容に応じたメッセージを投稿してもよい。
UI情報の出力(S315)の第3例として、ディスプレイデバイス10は、アラートまたは提案の内容の情報を、表示部15に表示し、またはスピーカから出力する。
UI情報の出力(S315)の第4例は、上記第1例~第3例のうち複数の組み合わせである。
(6-1-3)小括
以上説明したように、変形例1のディスプレイデバイス10は、会議に関する情報であって、少なくとも当該会議の内容に関する情報を含む会議情報を取得し、会議の実施中にマイクロホン51による集音によって得られた音声に対応するテキスト情報を取得し、音声に関連付けられる発話者に関する発話者情報を取得する。ディスプレイデバイス10は、会議情報と、テキスト情報と、発話者情報とに基づいて行われる、会議の参加者の状態、または会議の進行状態、の少なくとも1つに関して判定し、当該判定の結果に応じて、会議の参加者の一部または全部にアラートまたは提案を提示するためのUI情報を生成し、UI情報を出力する。これにより、アラートまたは提案の提示先となる参加者に対して行動変容を促し、会議の改善(例えば、会議の進行の円滑化)に貢献し、生産性を向上させることができる。
ディスプレイデバイス10は、会議の趣旨に合致した発言がされているかを判定し、会議の趣旨に合致した発言がされていないとの判定の結果に応じて、会議の参加者の全員にアラートまたは提案を提示するためのUI情報を生成してもよい。これにより、会議の趣旨に沿って、議論の軌道修正を促すことができる。
会議情報は、会議の参加者に関する情報を含んでもよい。ディスプレイデバイス10は、参加者の発言に量的偏りがあるかを判定し、参加者の発言に量的偏りがあるとの判定の結果に応じて、参加者の発言の量的偏りを指摘する情報を会議の参加者の全員に提示するためのUI情報を生成してもよい。これにより、多様な意見を引き出しやすくしたり、各参加者の発言のしやすさを確保したりすることができる。
会議情報は、会議の参加者に関する情報を含んでもよい。ディスプレイデバイス10は、会議の議論についていけていない参加者がいるかを判定し、会議の議論についていけていない参加者がいるとの判定の結果に応じて、当該参加者の知識を補足する情報を提示するためのUI情報を生成してもよい。これにより、参加者間の情報の非対称性を是正することができる。この結果、多様な意見を引き出しやすくしたり、各参加者の発言のしやすさを確保したりすることができる。
ディスプレイデバイス10は、議論不足の観点があるかを判定し、議論不足の観点があると判定の結果に応じて、会議の参加者の全員に議論不足の観点を示す情報を提示するためのUI情報を生成してもよい。これにより、多面的な議論の実施を促すことができる。
会議情報は、会議を構成する議題に関する情報と、会議のスケジュールに関する情報とを含んでもよい。ディスプレイデバイス10は、進行中の議題に割り当てられた時間が超過しているかを判定し、進行中の議題に割り当てられた時間が超過しているとの判定の結果に応じて、会議の参加者の全員にアラートまたは提案を提示するためのUI情報を生成してもよい。これにより、会議の時間管理を支援することができる。
ディスプレイデバイス10は、会議における議論の内容がネガティブであるかを判定し、会議における議論の内容がネガティブであるとの判定の結果に応じて、会議の参加者の全員、または会議のファシリテータにアラートまたは提案を提示するためのUI情報を生成してもよい。これにより、建設的な発言が生まれるように議論の軌道修正を促すことができる。
ディスプレイデバイス10は、会議において発生したアクションアイテムがあるかを判定し、会議において発生したアクションアイテムがあるかの判定の結果に応じて、会議の参加者の全員にアラートまたは提案を提示するためのUI情報を生成してもよい。これにより、会議で決定した事項をより確実にアクションアイテムとして落とし込むことができる。
会議情報は、会議を構成する議題に関する情報、または会議のスケジュール情報の少なくとも1つを含んでもよい。ディスプレイデバイス10は、会議のクロージングを行うべきであるかを判定し、会議のクロージングを行うべきであるとの判定の結果に応じて、会議の参加者の全員にアラートまたは提案を提示するためのUI情報を生成してもよい。これにより、会議の終了時間を守るとともに、次回の会議日程を円滑に決定することができる。
ディスプレイデバイス10は、判定の種別と、会議情報と、テキスト情報と、発話者情報とに基づくモデル入力を大規模言語モデルに与えることで、判定を行ってもよい。これにより、各種の判定のロジックを作り込まずとも、妥当な判定の結果を利用することができる。
(7)その他の変形例
記憶装置11は、ネットワークNWを介して、ディスプレイデバイス10と接続されてもよい。表示部15は、ディスプレイデバイス10に外付けされてもよい。記憶装置31は、ネットワークNWを介して、マイクデバイス30と接続されてもよい。
上記説明では、各処理において各ステップを特定の順序で実行する例を示したが、各ステップの実行順序は、依存関係がない限りは説明した例に制限されない。また、上記の情報処理の各ステップは、ディスプレイデバイス10、マイクデバイス30、および別の装置の何れでも実行可能である。例えば、本実施形態の発言ログ収集処理、本実施形態の要約処理、または変形例1のファシリテーション処理は、主にクラウドサーバによって実行されてもよい。例えば、いずれかの装置によって行われるとして説明された処理が別の装置によって行われたり、複数の装置のやり取りによって行われるとして説明された処理が単一の装置によって行われたりしてもよい。
本実施形態では、基準日時に応じた要約を生成し、当該要約に基づくUI情報を生成する例を示した。基準日時は可変であってもよい。例えば、ディスプレイデバイス10は、ユーザ指示に応じて、または時間の経過に応じて、基準日時の変更を検知し得る。そして、ディスプレイデバイス10は、基準日時の変更が検知された場合に、変更後の基準日時までにマイクロホン51による集音によって得られた音声に対応するテキスト情報に基づいて要約を再取得し、再取得され当該要約に基づいて、UI情報を再生成し、再生成された当該UI情報を出力してもよい。これにより、最新の議論の状況や、ユーザの希望する時点における議論の状況を容易に把握可能な画面を表示することができる。
本実施形態では、発話者に対応する要約を表示するオブジェクト(例えば、オブジェクトJ22)を表示する例を示した。かかるオブジェクトは、対応する発話者の意見に応じた位置に配置されてもよい。一例として、あるオブジェクトに対応する発話者の意見と、別のオブジェクトに対応する発話者の意見とが近いほど、両方のオブジェクトを近付けて配置されてもよい。或いは、意見の内容に応じて、かかるオブジェクトをツリー構造の形式で表示してもよい。これにより、発話者間の意見の傾向をより直感的に把握しやすくなる。
本実施形態では、同一の会議における発言ログ情報に基づいて要約を行う例を示した。しかしながら、過去に開催された他の会議における同一人物の発言ログ情報にさらに基づいて要約を行ってもよい。これにより、より精度の高い要約が可能となる。
本実施形態では、発言ログ情報に基づいて要約を行う例を示した。しかしながら、発話者の属性(一例として、発話者が属する組織における当該発話者の役割(例えば役職))の情報にさらに基づいて要約を行ってもよい。これにより、より精度の高い要約が可能となる。
ディスプレイデバイス10と、マイクデバイス30との間には、コントローラ(情報処理装置)が介在してもよい。コントローラは、ディスプレイデバイス10が実行するとして説明した処理の一部(例えば、発言ログ収集処理)を代わりに実行してもよいし、マイクデバイス30が実行するとして説明した処理の一部を代わりに実行してもよい。コントローラは、例えば、スマートフォン、タブレット端末、パーソナルコンピュータ、又は、サーバコンピュータであってよい。
上記説明では、ディスプレイデバイス10が、タブレット端末、パーソナルコンピュータ、スマートフォン、モニタ、会議用ディスプレイ装置など複数のユーザと表示内容を共有しやすい電子機器である例を示した。しかしながら、ディスプレイデバイス10は、人間の頭部に装着可能であるように構成されてもよい。例えば、ディスプレイデバイス10は、グラス型ディスプレイデバイス、ヘッドマウントディスプレイ、ウェアラブルデバイス、またはスマートグラスであってもよい。ディスプレイデバイス10は、光学シースルー型のグラス型ディスプレイデバイスであってもよいが、ディスプレイデバイス10の形式はこれに限定されない。例えば、ディスプレイデバイス10はビデオシースルー型のグラス型ディスプレイデバイスであってもよい。すなわち、ディスプレイデバイス10はカメラを備えてもよい。そしてディスプレイデバイス10は、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成することで得られた合成画像を、表示部に表示してもよい。撮影画像は、ユーザの正面方向を撮影した画像であって、話者の画像を含んでいてもよい。また、ディスプレイデバイス10は、例えばスマートフォン、パーソナルコンピュータ又はタブレット端末において、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成してAR(Augmented Reality)表示を行ってもよい。
ディスプレイデバイス10の表示部は、ユーザに画像を提示することができれば、その実現方法は問わない。表示部は、例えば、以下の実現方法により実現可能である。
・光学素子(一例として、導光板)を用いたHOE(Holographic optical element)又はDOE(Diffractive optical element)
・液晶ディスプレイ
・網膜投影ディスプレイ
・LED(Light Emitting Diode)ディスプレイ
・有機EL(Electro Luminescence)ディスプレイ
・レーザディスプレイ
・光学素子(一例として、レンズ、ミラー、回折格子、液晶、MEMSミラー、HOE)を用いて、発光体から発光された光を導光するディスプレイ
特に、網膜投影ディスプレイを用いる場合、弱視の人であっても像の観察が容易である。したがって、難聴及び弱視の両方を患う人に対して、発話音の到来方向をより容易に認知させることができる。
マイクデバイス30による音声抽出処理においては、特定の話者に対応する音声信号を抽出することができれば、その実現方法は問わない。マイクデバイス30は、例えば、以下の方法により音声信号を抽出してもよい。
・Frostビームフォーマ
・適応フィルタビームフォーミング(一例として、一般化サイドローブキャンセラ)
・ビームフォーミング以外の音声抽出方法(一例として、周波数フィルタ、又は機械学習)
上記説明では、マイクデバイス30が複数のマイクロホン51を備えることを前提に述べた。しかしながら、例えば発話者の方向を推定する代わりに、声紋による話者識別を行う場合には、単一のマイクロホン51のみを備えたマイクデバイス30が利用可能である。すなわち、マイクデバイス30は、声紋認識によって特定された話者を示す情報を発話者情報として取得してもよい。
以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。
1 :情報処理システム
10 :ディスプレイデバイス
11 :記憶装置
12 :プロセッサ
13 :入出力インタフェース
14 :通信インタフェース
15 :表示部
30 :マイクデバイス
31 :記憶装置
32 :プロセッサ
33 :入出力インタフェース
34 :通信インタフェース
51 :マイクロホン

Claims (24)

  1. マイクロホンによる集音によって得られた音声に対応するテキスト情報を取得する手段と、
    前記音声に関連付けられる発話者に関する発話者情報を取得する手段と、
    前記発話者情報を前記音声に対応するテキスト情報に関連付けて保存する手段と、
    発話者毎に当該発話者の発話者情報に関連付けられる音声に対応するテキスト情報の要約を生成する手段と、
    を具備する、情報処理装置。
  2. 前記要約を生成する手段は、前記発話者毎に、当該発話者に関連付けられる音声に対応するテキスト情報を含むモデル入力を大規模言語モデルに与えることで、前記要約を生成する、
    請求項1に記載の情報処理装置。
  3. 前記要約を表示する画面に関するUI(User Interface)情報を生成する手段と、
    前記UI情報を出力する手段と
    をさらに具備する、
    請求項1に記載の情報処理装置。
  4. 前記要約を表示する画面は、前記発話者と一対一対応するオブジェクトを含み、前記オブジェクトの各々には対応する1人の発話者に対応する要約が表示される、
    請求項3に記載の情報処理装置。
  5. 前記要約は、対応する発話者の発言をより少ない文字数で表した文章を含む、
    請求項1に記載の情報処理装置。
  6. 前記要約は、会議の議題に関して、前記要約に対応する発話者の発言から推定された当該発話者のスタンスを表す文章を含む、
    請求項1に記載の情報処理装置。
  7. 前記要約を生成する手段は、基準日時までに前記マイクロホンによる集音によって得られた音声に対応するテキスト情報に基づいて前記要約を生成する、
    請求項1に記載の情報処理装置。
  8. 前記基準日時に関するユーザの指定を受け付ける手段を備える、
    請求項7に記載の情報処理装置。
  9. 前記基準日時の変更を検知する手段をさらに具備し、
    前記要約を生成する手段は、前記基準日時の変更が検知された場合に、変更後の基準日時までに前記マイクロホンによる集音によって得られた音声に対応するテキスト情報に基づいて前記要約を再取得する、
    請求項7に記載の情報処理装置。
  10. 会議に関する情報であって、少なくとも当該会議の内容に関する情報を含む会議情報を取得する手段と、
    前記会議の実施中にマイクロホンによる集音によって得られた音声に対応するテキスト情報を取得する手段と、
    前記音声に関連付けられる発話者に関する発話者情報を取得する手段と、
    前記会議情報と、前記テキスト情報と、前記発話者情報とに基づいて行われる、前記会議の参加者の状態、または前記会議の進行状態、の少なくとも1つに関して判定する手段と、
    前記判定の結果に応じて、前記会議の参加者の一部または全部にアラートまたは提案を提示するためのUI(User Interface)情報を生成する手段と、
    前記UI情報を出力する手段と
    を具備する情報処理装置。
  11. 前記判定する手段は、前記会議の趣旨に合致した発言がされているかを判定し、
    前記UI情報を生成する手段は、前記会議の趣旨に合致した発言がされていないとの判定の結果に応じて、前記会議の参加者の全員にアラートまたは提案を提示するためのUI情報を生成する、
    請求項10に記載の情報処理装置。
  12. 前記会議情報は、前記会議の参加者に関する情報を含み、
    前記判定する手段は、前記参加者の発言に量的偏りがあるかを判定し、
    前記UI情報を生成する手段は、前記参加者の発言に量的偏りがあるとの判定の結果に応じて、前記参加者の発言の量的偏りを指摘する情報を前記会議の参加者の全員に提示するためのUI情報を生成する、
    請求項10に記載の情報処理装置。
  13. 前記会議情報は、前記会議の参加者に関する情報を含み、
    前記判定する手段は、前記会議の議論についていけていない参加者がいるかを判定する、
    前記UI情報を生成する手段は、前記会議の議論についていけていない参加者がいるとの判定の結果に応じて、当該参加者の知識を補足する情報を提示するためのUI情報を生成する、
    請求項12に記載の情報処理装置。
  14. 前記判定する手段は、議論不足の観点があるかを判定し、
    前記UI情報を生成する手段は、前記議論不足の観点があると判定の結果に応じて、前記会議の参加者の全員に議論不足の観点を示す情報を提示するためのUI情報を生成する、
    請求項10に記載の情報処理装置。
  15. 前記会議情報は、前記会議を構成する議題に関する情報と、前記会議のスケジュールに関する情報とを含み、
    前記判定する手段は、進行中の議題に割り当てられた時間が超過しているかを判定し、
    前記UI情報を生成する手段は、前記進行中の議題に割り当てられた時間が超過しているとの判定の結果に応じて、前記会議の参加者の全員にアラートまたは提案を提示するためのUI情報を生成する、
    請求項10に記載の情報処理装置。
  16. 前記判定する手段は、前記会議における議論の内容がネガティブであるかを判定し、
    前記UI情報を生成する手段は、前記会議における議論の内容がネガティブであるとの判定の結果に応じて、前記会議の参加者の全員、または前記会議のファシリテータにアラートまたは提案を提示するためのUI情報を生成する、
    請求項10に記載の情報処理装置。
  17. 前記判定する手段は、前記会議において発生したアクションアイテムがあるかを判定する、
    前記UI情報を生成する手段は、前記会議において発生したアクションアイテムがあるかの判定の結果に応じて、前記会議の参加者の全員にアラートまたは提案を提示するためのUI情報を生成する、
    請求項10に記載の情報処理装置。
  18. 前記会議情報は、前記会議を構成する議題に関する情報、または前記会議のスケジュール情報の少なくとも1つを含み、
    前記判定する手段は、会議のクロージングを行うべきであるかを判定し、
    前記UI情報を生成する手段は、前記会議のクロージングを行うべきであるとの判定の結果に応じて、前記会議の参加者の全員にアラートまたは提案を提示するためのUI情報を生成する、
    請求項10に記載の情報処理装置。
  19. 前記判定する手段は、前記判定の種別と、前記会議情報と、前記テキスト情報と、前記発話者情報とに基づくモデル入力を大規模言語モデルに与えることで、前記判定を行う、
    請求項10に記載の情報処理装置。
  20. コンピュータが、
    マイクロホンによる集音によって得られた音声に対応するテキスト情報を取得するステップと、
    前記音声に関連付けられる発話者に関する発話者情報を取得するステップと、
    前記発話者情報を前記音声に対応するテキスト情報に関連付けて保存するステップと、
    発話者毎に当該発話者の発話者情報に関連付けられる音声に対応するテキスト情報の要約を生成するステップと
    を実行する方法。
  21. コンピュータが、
    会議に関する情報であって、少なくとも当該会議の内容に関する情報を含む会議情報を取得するステップと、
    前記会議の実施中にマイクロホンによる集音によって得られた音声に対応するテキスト情報を取得するステップと、
    前記音声に関連付けられる発話者に関する発話者情報を取得するステップと、
    前記会議情報と、前記テキスト情報と、前記発話者情報とに基づいて行われる、前記会議の参加者の状態、または前記会議の進行状態、の少なくとも1つに関して判定するステップと、
    前記判定の結果に応じて、前記会議の参加者の一部または全部にアラートまたは提案を提示するためのUI(User Interface)情報を生成するステップと、
    前記UI情報を出力するステップと
    を実行する方法。
  22. コンピュータに、請求項1~請求項19の何れかに記載の情報処理装置の各手段を実現させるためのプログラム。
  23. 複数の装置によって構成されるシステムであって、
    マイクロホンによる集音によって得られた音声に対応するテキスト情報を取得する手段と、
    前記音声に関連付けられる発話者に関する発話者情報を取得する手段と、
    前記発話者情報を前記音声に対応するテキスト情報に関連付けて保存する手段と、
    発話者毎に当該発話者の発話者情報に関連付けられる音声に対応するテキスト情報の要約を生成する手段と
    を具備する、システム。
  24. 複数の装置によって構成されるシステムであって、
    会議に関する情報であって、少なくとも当該会議の内容に関する情報を含む会議情報を取得する手段と、
    前記会議の実施中にマイクロホンによる集音によって得られた音声に対応するテキスト情報を取得する手段と、
    前記音声に関連付けられる発話者に関する発話者情報を取得する手段と、
    前記会議情報と、前記テキスト情報と、前記発話者情報とに基づいて行われる、前記会議の参加者の状態、または前記会議の進行状態、の少なくとも1つに関して判定する手段と、
    前記判定の結果に応じて、前記会議の参加者の一部または全部にアラートまたは提案を提示するためのUI(User Interface)情報を生成する手段と、
    前記UI情報を出力する手段と
    を具備する、システム。
JP2023106992A 2023-06-29 2023-06-29 情報処理装置、方法、システム、およびプログラム Pending JP2025006291A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023106992A JP2025006291A (ja) 2023-06-29 2023-06-29 情報処理装置、方法、システム、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2023106992A JP2025006291A (ja) 2023-06-29 2023-06-29 情報処理装置、方法、システム、およびプログラム

Publications (1)

Publication Number Publication Date
JP2025006291A true JP2025006291A (ja) 2025-01-17

Family

ID=94235817

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023106992A Pending JP2025006291A (ja) 2023-06-29 2023-06-29 情報処理装置、方法、システム、およびプログラム

Country Status (1)

Country Link
JP (1) JP2025006291A (ja)

Similar Documents

Publication Publication Date Title
CN112075075B (zh) 用于促进远程会议的方法和计算机化智能助理
CN114981886B (zh) 使用多个数据源的语音转录
JP7100092B2 (ja) ワードフロー注釈
KR102461920B1 (ko) 컨퍼런스 기능을 갖는 자동화된 어시스턴트
KR20210111236A (ko) 자연어 대화에 관련되는 정보의 시각적 제시
US12052391B2 (en) Methods and systems for automatic queuing in conference calls
US10673788B2 (en) Information processing system and information processing method
US12014738B2 (en) Arbitrating between multiple potentially-responsive electronic devices
US20210407504A1 (en) Generation and operation of artificial intelligence based conversation systems
CN119213441A (zh) 用用户界面(ui)流控制和可动作信息提取进行摘要总结
TW201913300A (zh) 人機互動方法及系統
CN112673423A (zh) 一种车内语音交互方法及设备
US12327559B2 (en) Multimodal responses
Klin et al. Smart beamforming in verbal human-machine interaction for humanoid robots
JP2025006291A (ja) 情報処理装置、方法、システム、およびプログラム
CN119579128A (zh) 会议任务处理方法及其装置
CN113806499A (zh) 电话作业的培训方法、装置、电子设备和存储介质
WO2023157963A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2024119506A (ja) 情報処理装置、方法、プログラム、およびシステム
US20260018175A1 (en) Annotating automatic speech recognition transcription
WO2024123365A1 (en) Separation of conversational clusters in automatic speech recognition transcriptions
CN121722471A (zh) 处理方法及电子设备
CN121814889A (zh) 信息处理方法、装置及电子设备
WO2023002562A1 (ja) 動画像分析システム
Čereković et al. Implementing a Multiparty Support in a Tour Guide system with an Embodied Conversational Agent