JP7259307B2

JP7259307B2 - 議事録出力装置および議事録出力装置の制御プログラム

Info

Publication number: JP7259307B2
Application number: JP2018234375A
Authority: JP
Inventors: 美沙紀船渡
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2023-04-18
Anticipated expiration: 2038-12-14
Also published as: US20200194003A1; JP2020095210A

Description

本発明は、議事録出力装置および議事録出力装置の制御プログラムに関する。

従来から、音声データに基づいて、話者を判別する種々の技術が知られている。例えば特許文献１には、音声データをセグメント化し、各セグメントが話者のモデルに属しているか否かを判別することによって、話者を判別する技術が開示されている。

特開２００９－１０９７１２号公報

しかし、特許文献１に開示された技術は、複数人が参加する会議に特化して用いられるものではないため、複数人が参加する会議における発言者を判別する精度を向上させられないという問題がある。また、複数人が参加する会議について、各発言者の発言の内容をテキスト化して、議事録を出力する必要が生じる場合があるが、特許文献１に開示された技術は、このような議事録を出力するものではない。

本発明は、上述した課題に鑑みてなされたものである。したがって、本発明の目的は、会議における発言者が高い精度で判別された議事録を出力する議事録出力装置および議事録出力装置の制御プログラムを提供することである。

本発明の上記の目的は、下記の手段によって達成される。

（１）会議における参加人数に関する情報を取得する情報取得部と、前記会議における音声に関するデータを取得する音声取得部と、前記音声取得部によって取得された前記音声に関するデータに基づいて、前記音声を認識し、発言者の発言としてテキスト化する音声認識部と、前記情報取得部によって取得された前記参加人数に関する情報と、前記音声取得部によって取得された前記音声に関するデータとに基づいて、前記発言者を判別する判別部と、前記判別部によって判別された前記発言者を示すラベルと、前記音声認識部によってテキスト化された前記発言の内容とを関連付けた議事録を、出力部に出力させる出力制御部と、を有する議事録出力装置。

（２）前記判別部は、前記参加人数に関する情報に基づいて、前記発言者の人数が前記参加人数を超えないように、前記発言者を判別する上記（１）に記載の議事録出力装置。

（３）前記判別部は、前記音声に関するデータに基づいて、前記音声の特徴量を算出し、算出した前記音声の特徴量に基づいて、前記発言者を判別する上記（１）または（２）に記載の議事録出力装置。

（４）前記判別部は、前記音声の特徴量をクラスターとして分類し、前記クラスター間の類似度に基づいて、前記参加人数を超えないような前記クラスターの数を決定する上記（３）に記載の議事録出力装置。

（５）前記判別部は、前記類似度を算出し、前記類似度が高い順に前記クラスターを併合し、最も低い前記類似度に応じて前記クラスターが併合される前に存在していた前記クラスターの数を、前記発言者の人数として決定する上記（４）に記載の議事録出力装置。

（６）前記判別部は、同じ前記クラスターに併合された前記音声の特徴量を、同じ前記発言者の前記音声の特徴量として判別する上記（４）または（５）に記載の議事録出力装置。

（７）前記判別部は、前記発言者の判別結果に基づいて、前記発言者が変化したか否かを判断し、前記発言者が変化したと判断する場合、変化後の前記発言者が前記会議において過去に発言していたか否かをさらに判断し、前記出力制御部は、前記判別部によって、変化後の前記発言者が過去に発言していなかったと判断された場合、新たな前記発言者を示す前記ラベルを前記出力部に出力させ、前記判別部によって、変化後の前記発言者が過去に発言していたと判断された場合、対応する過去の前記発言者を示す前記ラベルを前記出力部に出力させる上記（１）～（６）のいずれか一つに記載の議事録出力装置。

（８）前記判別部は、所定の時間毎または所定の発言数毎に、前記発言者を判別する上記（１）～（７）のいずれか一つに記載の議事録出力装置。

（９）前記情報取得部は、入力された前記参加人数に関する情報を取得する上記（１）～（８）のいずれか一つに記載の議事録出力装置。

（１０）前記情報取得部は、前記会議における参加者によって所有される携帯端末から送信された通知に基づいて、前記参加人数に関する情報を取得する上記（１）～（８）のいずれか一つに記載の議事録出力装置。

（１１）前記情報取得部は、記憶部に記憶されている過去の議事録のデータを確認し、前記参加人数に関する情報として、過去の議事録によって示される過去の前記会議における前記参加人数に関する情報を取得する上記（１）～（８）のいずれか一つに記載の議事録出力装置。

（１２）前記情報取得部は、前記会議における参加者の点呼の状況に基づいて、前記参加人数に関する情報を取得する上記（１）～（８）のいずれか一つに記載の議事録出力装置。

（１３）前記情報取得部は、前記会議が開始された後において前記参加人数が変化した場合、変化後の前記参加人数に関する情報をさらに取得し、前記判別部は、前記情報取得部によって取得された変化後の前記参加人数に関する情報に基づいて、以降の前記発言者を判別する上記（１）～（１２）のいずれか一つに記載の議事録出力装置。

（１４）前記情報取得部は、誤った前記ラベルが前記発言の内容に関連付けられた場合、前記ラベルの訂正に関する情報をさらに取得し、前記出力制御部は、前記情報取得部によって取得された前記ラベルの訂正に関する情報に基づいて、誤った前記ラベルを訂正し、訂正した前記ラベルを前記出力部に出力させる上記（１）～（１３）のいずれか一つに記載の議事録出力装置。

（１５）前記情報取得部は、前記ラベルに対応する前記発言者の名前に関する情報を取得し、前記出力制御部は、前記ラベルを前記発言者の名前に置き換えて、前記出力部に出力させる上記（１）～（１４）のいずれか一つに記載の議事録出力装置。

（１６）前記出力制御部は、前記議事録において同一の前記ラベルが複数含まれる場合、全ての同一の前記ラベルを同一の前記発言者の名前に置き換えて、前記出力部に出力させる上記（１５）に記載の議事録出力装置。

（１７）議事録を出力する議事録出力装置の制御プログラムであって、会議における参加人数に関する情報を取得する情報取得ステップと、前記会議における音声に関するデータを取得する音声取得ステップと、前記音声取得ステップにおいて取得された前記音声に関するデータに基づいて、前記音声を認識し、発言者の発言としてテキスト化する音声認識ステップと、前記情報取得ステップにおいて取得された前記参加人数に関する情報と、前記音声取得ステップにおいて取得された前記音声に関するデータとに基づいて、前記発言者を判別する判別ステップと、前記判別ステップにおいて判別された前記発言者を示すラベルと、前記音声認識ステップにおいてテキスト化された前記発言の内容とを関連付けた議事録を、出力部に出力させる出力ステップと、を含む処理をコンピューターに実行させるための制御プログラム。

（１８）前記判別ステップは、前記参加人数に関する情報に基づいて、前記発言者の人数が前記参加人数を超えないように、前記発言者を判別する上記（１７）に記載の制御プログラム。

（１９）前記判別ステップは、前記音声に関するデータに基づいて、前記音声の特徴量を算出し、算出した前記音声の特徴量に基づいて、前記発言者を判別する上記（１７）または（１８）に記載の制御プログラム。

（２０）前記判別ステップは、前記音声の特徴量をクラスターとして分類し、前記クラスター間の類似度に基づいて、前記参加人数を超えないような前記クラスターの数を決定する上記（１９）に記載の制御プログラム。

（２１）前記判別ステップは、前記類似度を算出し、前記類似度が高い順に前記クラスターを併合し、最も低い前記類似度に応じて前記クラスターが併合される前に存在していた前記クラスターの数を、前記発言者の人数として決定する上記（２０）に記載の制御プログラム。

（２２）前記判別ステップは、同じ前記クラスターに併合された前記音声の特徴量を、同じ前記発言者の前記音声の特徴量として判別する上記（２０）または（２１）に記載の制御プログラム。

本発明の一実施形態に係る議事録出力装置によれば、会議における参加人数に関する情報と、音声に関するデータとに基づいて、会議における発言者を判別し、議事録を出力する。議事録出力装置は、参加人数に応じて発言者を判別するため、発言者を高い精度で判別できる。これにより、議事録出力装置は、会議における発言者が高い精度で判別された議事録を出力できる。

本発明の一実施形態に係るユーザー端末の概略構成を示すブロック図である。制御部の機能構成を示すブロック図である。ユーザー端末の処理の手順を示すフローチャートである。ユーザー端末の処理の手順を示すフローチャートである。ユーザー端末に表示される画面の一例を示す図である。ユーザー端末に表示される画面の一例を示す図である。ユーザー端末に表示される画面の一例を示す図である。ユーザー端末に表示される画面の一例を示す図である。ユーザー端末に表示される画面の一例を示す図である。ユーザー端末に表示される画面の一例を示す図である。ユーザー端末に表示される画面の一例を示す図である。ユーザー端末に表示される画面の一例を示す図である。ユーザー端末に表示される画面の一例を示す図である。図３ＡのステップＳ１０７の発言者判別処理の手順を示すサブルーチンフローチャートである。音声の周波数スペクトルの一例を示す図である。音声の周波数スペクトルの一例を示す図である。音声の特徴量のクラスタリングの一例を示す図である。音声の特徴量のクラスタリングの一例を示す図である。音声の特徴量のクラスタリングの一例を示す図である。ユーザー端末に表示される画面の一例を示す図である。ユーザー端末に表示される画面の一例を示す図である。ユーザー端末に表示される画面の一例を示す図である。議事録出力システムの全体構成を示す図である。

以下、添付した図面を参照して、本発明の実施形態について説明する。なお、図面の説明において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張され、実際の比率とは異なる場合がある。

まず、本発明の一実施形態に係る、議事録出力（作成）装置としてのユーザー端末について説明する。

図１は、本発明の一実施形態に係るユーザー端末の概略構成を示すブロック図である。

図１に示すように、ユーザー端末１０は、制御部１１、記憶部１２、通信部１３、表示部１４、操作受付部１５および音入力部１６を備える。各構成要素は、バスを介して相互に通信可能に接続されている。ユーザー端末１０は、例えば、ノート型またはデスクトップ型のＰＣ端末や、タブレット端末、スマートフォン、携帯電話等である。

制御部１１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を備え、プログラムに従い、上述した各構成要素の制御や各種の演算処理を実行する。制御部１１の機能構成については、図２を参照して後述する。

記憶部１２は、予め各種プログラムや各種データを記憶するＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、作業領域として一時的にプログラムやデータを記憶するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、各種プログラムや各種データを記憶するハードディスク等を備える。

通信部１３は、他の端末や装置等と通信するためのインターフェースを備える。

出力部としての表示部１４は、ＬＣＤ（液晶ディスプレイ）や有機ＥＬディスプレイ等を備え、各種情報を表示（出力）する。

操作受付部１５は、キーボードや、マウス等のポインティングデバイス、タッチセンサー等を備え、ユーザーの各種操作を受け付ける。操作受付部１５は、例えば、表示部１４に表示された画面に対するユーザーの入力操作を受け付ける。

音入力部１６は、マイクロホン等を備え、外部の音声等の音の入力を受け付ける。なお、音入力部１６は、マイクロホン自体を備えなくてもよく、外部のマイクロホン等を介して音の入力を受け付けるための、入力回路を備えてもよい。

なお、ユーザー端末１０は、上述した構成要素以外の構成要素を備えてもよいし、上述した構成要素のうちの一部の構成要素を備えなくてもよい。

続いて、制御部１１の機能構成について説明する。

図２は、制御部の機能構成を示すブロック図である。

制御部１１は、プログラムを読み込んで処理を実行することによって、図２に示すように、情報取得部１１１、音声取得部１１２、音声認識部１１３、表示制御部１１４および判別部１１５として機能する。情報取得部１１１は、各種情報を取得する。音声取得部１１２は、音声データを取得する。音声認識部１１３は、周知の音声認識技術を用いて、音声データに基づいて音声を認識し、認識した音声をテキスト化する。出力制御部としての表示制御部１１４は、表示部１４を制御して、各種画面を表示部１４に表示させる。判別部１１５は、音声データに基づいて発言者を判別する。

続いて、ユーザー端末１０における処理の流れについて説明する。ユーザー端末１０の処理は、会議における発言者が高い精度で判別された議事録を出力するように制御するものである。

図３Ａおよび図３Ｂは、ユーザー端末の処理の手順を示すフローチャートである。図４Ａ～図４Ｉは、ユーザー端末に表示される画面の一例を示す図である。図３Ａおよび図３Ｂに示す処理のアルゴリズムは、記憶部１２にプログラムとして記憶されており、制御部１１によって実行される。

図３Ａに示すように、まず、制御部１１は、会議が開始される前に、情報取得部１１１として、会議における参加人数に関する情報を取得する（ステップＳ１０１）。より具体的には、制御部１１は、例えば図４Ａに示すような参加人数の入力画面を、表示部１４に予め表示させる。そして、当該入力画面に対して参加人数を入力するユーザーの操作を、操作受付部１５が受け付けた場合、制御部１１は、ユーザーによって入力された参加人数に関する情報を取得する。

続いて、制御部１１は、ステップＳ１０１において取得された参加人数に関する情報に基づいて、参加人数分のラベルを準備する（ステップＳ１０２）。そして、制御部１１は、音声取得部１１２として、開始された会議における音声に関するデータを取得する処理を開始する（ステップＳ１０３）。制御部１１は、例えば、音入力部１６において入力された音声に関するデータを取得する。さらに、制御部１１は、音声認識部１１３として、ステップＳ１０３において取得が開始された音声に関するデータに基づいて、音声を認識し、発言者の発言としてテキスト化する処理を開始する（ステップＳ１０４）。

また、制御部１１は、表示制御部１１４として、最初の発言者を示すラベルと、最初の発言を示す発言欄とを関連付けて、表示部１４に表示させる（ステップＳ１０５）。ステップＳ１０５の処理は、ステップＳ１０３および／またはＳ１０４の処理の実行中に、並行して実行されてもよい。表示部１４は、例えば図４Ｂに示すように、最初の発言者を示す「発言者１」というラベルと、最初の発言を示す発言欄としての吹き出しとを、関連付けて表示する。なお、制御部１１は、例えば図４Ｂに示すように、ステップＳ１０１において取得された参加人数に関する情報に基づいて、現在の参加人数を表示部１４にさらに表示させてもよい。

続いて、制御部１１は、表示制御部１１４として、ステップＳ１０５において表示されたラベルおよび発言欄と、ステップＳ１０４においてテキスト化が開始された発言の内容とを関連付けて、表示部１４に表示させる処理を開始する（ステップＳ１０６）。これにより、表示部１４は、例えば図４Ｃに示すように、「発言者１」というラベルが関連付けられた発言欄としての吹き出しに、テキスト化された発言の内容を追加する。

続いて、制御部１１は、判別部１１５として、発言者判別処理を実行する（ステップＳ１０７）。ステップＳ１０７の処理は、ステップＳ１０１において取得された参加人数に関する情報と、ステップＳ１０３において取得が開始された音声に関するデータとに基づいて、発言者を判別する処理である。ステップＳ１０７の処理の詳細については、図５を参照して後述する。

続いて、制御部１１は、判別部１１５として、ステップＳ１０７の判別結果に基づいて、発言者が変化したか否かを判断する（ステップＳ１０８）。

発言者が変化していないと判断する場合（ステップＳ１０８：ＮＯ）、制御部１１は、ステップＳ１０９の処理に進む。そして、制御部１１は、表示制御部１１４として、ステップＳ１０６において開始された、発言の内容の表示処理を継続する（ステップＳ１０９）。

発言者が変化したと判断する場合（ステップＳ１０８：ＹＥＳ）、制御部１１は、ステップＳ１１０の処理に進む。そして、制御部１１は、表示制御部１１４として、変化前の発言者による発言の内容の表示処理を終了すると共に、変化後の発言者による新たな発言を示す発言欄を、表示部１４に表示させる（ステップＳ１１０）。

続いて、制御部１１は、判別部１１５として、ステップＳ１０８において判断された変化後の発言者が、会議において過去に発言していたか否かを判断する（ステップＳ１１１）。なお、制御部１１が、ステップＳ１１１の処理を最初に実行する場合、ステップＳ１１１は、必ずＮＯになる。

変化後の発言者が過去に発言していなかったと判断する場合（ステップＳ１１１：ＮＯ）、制御部１１は、ステップＳ１１２の処理に進む。そして、制御部１１は、表示制御部１１４として、新たな発言者を示すラベルを、ステップＳ１１０において表示された発言欄に関連付けて、表示部１４に表示させる（ステップＳ１１２）。表示部１４は、例えば図４Ｅに示すように、新たな発言者を示す「発言者２」というラベルを、新たな発言を示す発言欄としての吹き出しに、関連付けて表示する。

変化後の発言者が過去に発言していたと判断する場合（ステップＳ１１１：ＹＥＳ）、制御部１１は、ステップＳ１１３の処理に進む。そして、制御部１１は、表示制御部１１４として、対応する過去の発言者を示すラベルを、ステップＳ１１０において表示された発言欄に関連付けて、表示部１４に表示させる（ステップＳ１１３）。表示部１４は、例えば図４Ｆに示すように、対応する過去の発言者を示す「発言者１」というラベルを、新たな発言を示す発言欄としての吹き出しに、関連付けて表示する。

続いて、制御部１１は、表示制御部１１４として、ステップＳ１１０で表示された発言欄と、ステップＳ１１２またはＳ１１３で表示されたラベルと、テキスト化された発言の内容とを関連付けて、表示部１４に表示させる処理を開始する（ステップＳ１１４）。これにより、表示部１４は、新たな発言者、または過去の発言者を示すラベルが関連付けられた発言欄に、発言の内容を追加する。

続いて、図３Ｂに示すように、制御部１１は、会議が終了したか否かを判断する（ステップＳ１１５）。より具体的には、制御部１１は、例えば、会議の終了を示すソフトキー等を、表示部１４に予め表示させる。そして、制御部１１は、当該ソフトキーを押下するユーザーの操作を、操作受付部１５が受け付けたか否かを判断することによって、会議が終了したか否かを判断する。

会議が終了していないと判断する場合（ステップＳ１１５：ＮＯ）、制御部１１は、ステップＳ１０７の処理に戻る。そして、制御部１１は、会議が終了したと判断するまで、ステップＳ１０７～Ｓ１１５の処理を繰り返す。

会議が終了したと判断する場合（ステップＳ１１５：ＹＥＳ）、制御部１１は、ステップＳ１１６の処理に進む。このとき、制御部１１は、ステップＳ１０３において開始された音声に関するデータの取得処理や、ステップＳ１０４において開始された音声のテキスト化処理を終了してもよい。この時点において、表示部１４は、例えば図４Ｇに示すような、会議における発言者が高い精度で自動的に判別された議事録を出力できる。

続いて、制御部１１は、表示制御部１１４として、ステップＳ１０５、Ｓ１１２およびＳ１１３において表示されたラベルに対応する、発言者の名前を入力するための入力画面を、表示部１４に表示させる（ステップＳ１１６）。表示部１４は、例えば図４Ｈに示すような、発言者の名前の入力画面を表示する。なお、表示部１４は、図４Ｇに示すような議事録を表示しながら、図４Ｈに示すような発言者の名前の入力画面を表示してもよい。この場合、ユーザーは、議事録における発言の内容を確認しながら、入力すべき発言者の名前を検討できる。

続いて、制御部１１は、情報取得部１１１として、ラベルに対応する発言者の名前に関する情報を取得したか否かを判断する（ステップＳ１１７）。より具体的には、ステップＳ１１６において表示された入力画面に対して発言者の名前を入力するユーザーの操作を、操作受付部１５が受け付けた場合、制御部１１は、ユーザーによって入力された発言者の名前に関する情報を取得する。

発言者の名前に関する情報を取得していないと判断する場合（ステップＳ１１７：ＮＯ）、制御部１１は、発言者の名前に関する情報を取得するまで待機する。

発言者の名前に関する情報を取得したと判断する場合（ステップＳ１１７：ＹＥＳ）、制御部１１は、ステップＳ１１８の処理に進む。そして、制御部１１は、表示制御部１１４として、表示されているラベルを、ステップＳ１１７において取得された情報によって示される発言者の名前に置き換えて、表示部１４に表示させる（ステップＳ１１８）。なお、議事録において同一のラベルが複数含まれる場合（すなわち、会議において同一の発言者が複数回発言した場合）、制御部１１は、全ての同一のラベルを同一の発言者の名前に置き換えて、表示部１４に表示させる。これにより、表示部１４は、例えば図４Ｉに示すような、会議における発言者が高い精度で自動的に判別され、発言者の名前が明示された、最終的な議事録を出力できる。その後、制御部１１は、処理を終了する。

なお、制御部１１は、ステップＳ１１７において、発言者の名前に関する情報が取得されないまま所定のタイムアウト時間が経過した場合、処理を終了してもよい。この場合、表示部１４は、図４Ｇに示すような議事録を、最終的な議事録として出力してもよい。

続いて、ステップＳ１０７の発言者判別処理の詳細について、説明する。上述したように、制御部１１は、会議が終了したと判断するまで、ステップＳ１０７～Ｓ１１５の処理を繰り返す。このため、制御部１１は、例えば所定の時間毎に、ステップＳ１０７の処理を実行することになる。

図５は、図３ＡのステップＳ１０７の発言者判別処理の手順を示すサブルーチンフローチャートである。図６Ａおよび図６Ｂは、音声の周波数スペクトルの一例を示す図である。図７Ａ～図７Ｃは、音声の特徴量のクラスタリングの一例を示す図である。

図５に示すように、まず、制御部１１は、ステップＳ１０１において取得された参加人数に関する情報によって示される、参加人数を確認する（ステップＳ２０１）。そして、制御部１１は、ステップＳ１０３において取得が開始された音声に関するデータに基づいて、当該音声の特徴量を算出する（ステップＳ２０２）。制御部１１は、例えば、ＭＦＣＣ（メル周波数ケプストラム係数）やフォルマント周波数等を、音声の特徴量として算出する。あるいは、制御部１１は、例えば図６Ａおよび図６Ｂに示すような音声の周波数スペクトル（振幅スペクトル）Ｐ_ＡおよびＰ_Ｂや、スペクトログラムに示された声紋等を、音声の特徴量として算出してもよい。図６Ａおよび図６Ｂに示すグラフにおいて、横軸ｆは周波数を示し、縦軸Ｐは振幅を示す。なお、制御部１１は、周波数スペクトルとして、位相スペクトルを算出してもよい。そして、制御部１１は、ステップＳ２０２において算出された音声の特徴量を、記憶部１２に記憶させる（ステップＳ２０３）。

続いて、制御部１１は、記憶部１２に記憶されている音声の特徴量の数が、１つであるか否かを判断する（ステップＳ２０４）。制御部１１が、ステップＳ２０１～Ｓ２０４の処理を最初に実行する場合、ステップＳ２０４は必ずＹＥＳになる。

記憶されている音声の特徴量の数が１つであると判断する場合（ステップＳ２０４：ＹＥＳ）、制御部１１は、後述するクラスタリング処理を実行するのに十分な数の、音声の特徴量が記憶されていないと判断する。この場合、制御部１１は、発言者が変化していないと判断し（ステップＳ２０５）、図３Ａの処理に戻る。

記憶されている音声の特徴量の数が１つでない、すなわち、２つ以上であると判断する場合（ステップＳ２０４：ＮＯ）、制御部１１は、複数の音声の特徴量について、周知のクラスター分析を行い、音声の特徴量をクラスターとして分類し、例えば図７Ａに示すようなデンドログラムを作成する。図７Ａに例示するデンドログラムでは、横線の長さ（例えば、長さｘ）が、クラスターとしての音声の特徴量の間の差分の大きさを示し、横線が長いほど、差分が大きいことを示す。また、クラスター間の差分は、クラスター間の類似度と相関関係を有する指標である。より具体的には、クラスター間の差分および類似度は、クラスター間の差分が小さい場合、クラスター間の類似度が高いという相関関係を有する。クラスター間の差分は、例えば、クラスター間の類似度の逆数として定義される値であってもよい。

より具体的には、制御部１１は、まず、記憶されている複数の音声の特徴量の各々を各クラスターとして、クラスター間の差分（距離）を算出する（ステップＳ２０６）。制御部１１は、複数のクラスターの全てのペアについて、クラスター間の差分を算出する。制御部１１は、例えば、ステップＳ２０２において、音声の特徴量としてＭＦＣＣを算出していた場合、クラスター間の差分として、ＭＦＣＣの差分を算出する。あるいは、制御部１１は、ステップＳ２０２において、音声の特徴量として音声の周波数スペクトルを算出していた場合、クラスター間の差分として、音声の周波数スペクトルの差分を算出してもよい。制御部１１は、図６Ａおよび図６Ｂに示すような音声の周波数スペクトルＰ_ＡおよびＰ_Ｂを算出していた場合、音声の周波数スペクトルＰ_ＡおよびＰ_Ｂの差分を、以下の式に基づいて算出してもよい。

続いて、制御部１１は、ステップＳ２０６において算出された差分を、記憶部１２に記憶させる（ステップＳ２０７）。そして、制御部１１は、デンドログラムのテンプレートを準備する（ステップＳ２０８）。

続いて、制御部１１は、記憶された差分が最も小さい（すなわち、類似度が最も高い）クラスター同士を、新たなクラスターとして併合（クラスタリング）する（ステップＳ２０９）。そして、制御部１１は、ステップＳ２０８において記憶されたデンドログラム上に、ステップＳ２０９において併合されたクラスターを表現することによって、デンドログラムを更新する（ステップＳ２１０）。例えば、図７Ａに例示するデンドログラムが作成されるとき、記憶されている１０個の音声の特徴量のうち、差分が最も小さいクラスターとしての音声の特徴量１および５が、新たなクラスターとして最初に併合され、当該デンドログラム上に表現される。

続いて、制御部１１は、ステップＳ２０９におけるクラスターの併合後に残存するクラスターの数をカウントする（ステップＳ２１１）。そして、制御部１１は、ステップＳ２１１においてカウントされたクラスターの数が、１つであるか否かを判断する（ステップＳ２１２）。例えば、ステップＳ２０９の前に４つのクラスターが存在していた場合、ステップＳ２０９において４つのうちの２つのクラスターが併合されるため、残存するクラスターの数は３つになる。

クラスターの数が１つでない、すなわち、２つ以上であると判断する場合（ステップＳ２１２：ＮＯ）、制御部１１は、ステップＳ２１３の処理に進む。そして、制御部１１は、ステップＳ２０９において併合されたクラスターと、併合されなかった他のクラスターとの間の差分を、さらに算出する（ステップＳ２１３）。制御部１１は、例えば、併合されたクラスターに含まれる複数の音声の特徴量の代表値（重心）を算出し、クラスター間の差分として、代表値と１つの音声の特徴量との間の差分や、代表値同士の差分を算出してもよい。そして、制御部１１は、ステップＳ２１１において算出された差分を、記憶部１２にさらに記憶させる（ステップＳ２１４）。その後、制御部１１は、ステップＳ２０９の処理に戻り、残存するクラスターの数が１つになるまで、ステップＳ２０９～Ｓ２１４の処理を繰り返す。すなわち、制御部１１は、残存するクラスターの数が１つになるまで、クラスター間の差分が小さい（すなわち、類似度が高い）順に、クラスターを併合する処理を実行する。

クラスターの数が１つであると判断する場合（ステップＳ２１２：ＹＥＳ）、制御部１１は、デンドログラムの所定の範囲における、クラスター間の差分の大きさ（すなわち、類似度の高さ）を比較する（ステップＳ２１５）。ここで、所定の範囲は、クラスターの数が２つ以上、かつ、ステップＳ２０１において確認された参加人数に対応する個数以下となる範囲である。例えば、参加人数が４人である場合、所定の範囲は、クラスターの数が２つ以上４つ以下になる範囲である。この場合、制御部１１は、クラスターの数が２つ以上４つ以下になるように、クラスターがそれぞれ併合されたときの、クラスター間の差分の大きさを比較する。図７Ｂに示す例では、クラスターの数が２～４つになるように、クラスターがそれぞれ併合されたときの、クラスター間の差分ｄ１、ｄ２およびｄ３の大きさが比較される。

続いて、制御部１１は、ステップＳ２１５において比較されたクラスター間の差分のうち、最も大きい差分（すなわち、最も低い類似度）に応じてクラスターが併合される直前に存在していたクラスターの数を、発言者の人数として決定する（ステップＳ２１６）。図７Ｂに示す例では、差分ｄ１、ｄ２およびｄ３のうち、最も大きい差分は差分ｄ２であり、差分ｄ２に応じてクラスターが併合される直前に存在していたクラスターの数は、３つであるため、発言者の人数は、３人であると決定される。すなわち、発言者の人数は、２人以上、かつ、参加人数を超えない範囲内で、クラスター間の差分の大きさに基づいて、決定される。

続いて、制御部１１は、ステップＳ２１６において決定された発言者の人数に対応する数の、同じクラスターに併合された音声の特徴量を、同じ発言者の音声の特徴量として判別する（ステップＳ２１７）。そして、制御部１１は、ステップＳ２１７における判別結果に基づいて発言者を判別し（ステップＳ２１８）、図３Ａの処理に戻る。

図７Ｃに示す例では、決定された発言者の人数が３人である場合、記憶されている１０個の音声の特徴量のうち、例えば、音声の特徴量１、３、５および１０は、同じ発言者の音声の特徴量として判別される。また、音声の特徴量２、４、８および９は、音声の特徴量１、３、５および１０とは異なる発言者の音声の特徴量として判別される。このため、最新の音声の特徴量１０は、前回算出された音声の特徴量９とは異なる発言者の音声の特徴量として判別され、最新の発言者は、前回の発言者とは異なる発言者として判別される。したがって、この場合、ステップＳ１０８において、発言者が変化したと判断される。また、最新の音声の特徴量１０は、過去に算出された音声の特徴量１、３および５と同じ発言者の音声の特徴量として判別され、最新の発言者は、過去の発言者と同じ発言者として判別される。したがって、この場合、ステップＳ１１１において、変化後の発言者が過去に発言していたと判断される。

本実施形態は、以下の効果を奏する。

議事録出力装置としてのユーザー端末１０は、会議における参加人数に関する情報と、音声に関するデータとに基づいて、会議における発言者を判別し、議事録を出力する。ユーザー端末１０は、参加人数に応じて発言者を判別するため、発言者を高い精度で判別できる。これにより、ユーザー端末１０は、会議における発言者が高い精度で判別された議事録を出力できる。

また、ユーザー端末１０は、参加人数に関する情報に基づいて、発言者の人数が参加人数を超えないように、発言者を判別する。ユーザー端末１０は、参加人数を超えないように発言者の人数を決定することによって、発言者が変化したか否かを確認する精度を向上させることができる。

また、ユーザー端末１０は、音声に関するデータに基づいて音声の特徴量を算出し、算出した音声の特徴量に基づいて、発言者を判別する。これにより、ユーザー端末１０は、発言者毎に取り付けたマイクから音声に関するデータを取得したり、発言者の音声に関する学習データを予め準備したりすることなく、発言者を判別できる。

また、ユーザー端末１０は、音声の特徴量をクラスターとして分類し、クラスター間の類似度に基づいて、参加人数を超えないようなクラスターの数を決定する。これにより、ユーザー端末１０は、クラスター分析および参加人数に基づいて、クラスターの数を効率的に決定できる。

また、ユーザー端末１０は、音声の特徴量をクラスターとして、クラスター間の差分を算出する。そして、ユーザー端末１０は、クラスター間の差分が小さい（すなわち、類似度が高い）順にクラスターを併合し、最も大きい差分（最も低い類似度）に応じてクラスターが併合される前に存在していたクラスターの数を、発言者の人数として決定する。これにより、ユーザー端末１０は、クラスター分析に基づいて、発言者の人数を高い精度で決定できる。

また、ユーザー端末１０は、同じクラスターに併合された音声の特徴量を、同じ発言者の音声の特徴量として判別する。これにより、ユーザー端末１０は、クラスター分析に基づいて、発言者の音声の特徴量を、高い精度で判別できる。

また、ユーザー端末１０は、発言者が変化したと判断する場合、変化後の発言者が会議において過去に発言していたかをさらに判断する。そして、ユーザー端末１０は、変化後の発言者が過去に発言していなかったと判断する場合、新たな発言者を示すラベルを出力し、変化後の発言者が過去に発言していたと判断する場合、対応する過去の発言者を示すラベルを出力する。これにより、ユーザー端末１０は、発言者が変化した場合、変化後の発言者が過去に発言していたか否かに応じて、適切なラベルを付与できる。

また、ユーザー端末１０は、ユーザーによって入力された参加人数に関する情報を取得する。これにより、ユーザー端末１０は、ユーザーによって入力された正確な参加人数に関する情報に基づいて、発言者を判別できる。

また、ユーザー端末１０は、所定の時間毎に発言者を判別する。これにより、ユーザー端末１０は、発言者を迅速かつ正確に判別できる。

また、ユーザー端末１０は、ラベルに対応する発言者の名前に関する情報を取得し、ラベルを発言者の名前に置き換えて表示する。これにより、ユーザー端末１０は、発言者の名前が明示された議事録を出力できる。

また、ユーザー端末１０は、議事録において同一のラベルが複数含まれる場合、全ての同一のラベルを同一の発言者の名前に置き換えて表示する。これにより、ユーザー端末１０は、発言者の名前を入力するユーザーの手間を、効果的に削減できる。

なお、本発明は、上述した実施形態に限定されず、特許請求の範囲内において、種々の変更や改良等が可能である。

例えば、上述した実施形態では、制御部１１が、ステップＳ１０１において、ユーザーによって入力された参加人数に関する情報を取得する場合を例に挙げて説明した。しかし、本実施形態はこれに限定されない。制御部１１は、他の取得方法によって、参加人数に関する情報を取得してもよい。

例えば、制御部１１は、会議における参加者によって所有される携帯端末から送信された通知に基づいて、参加人数に関する情報を取得してもよい。より具体的には、参加者は、例えば、会議室において設置されたビーコン等の信号を受信可能な、スマートフォン等の携帯端末を所有しており、制御部１１は、携帯端末から、ビーコン等の信号を受信した旨の通知を受信してもよい。そして、制御部１１は、受信した通知の数を参加人数として、参加人数に関する情報を取得してもよい。あるいは、制御部１１は、任意の他の受信方法によって、会議室等の所定の範囲に位置する携帯端末から、携帯端末のデバイスＩＤ等の通知を受信してもよい。これにより、ユーザー端末１０は、ユーザーに参加人数を入力させないで済むため、参加人数を入力するユーザーの手間を、効果的に削減できる。

あるいは、制御部１１は、記憶部１２等に記憶されている過去の議事録のデータを確認し、今回の会議における参加人数に関する情報として、過去の議事録によって示される、過去の会議における参加人数に関する情報を取得してもよい。制御部１１は、今回の議事録と関連する過去の議事録のデータを確認してもよく、例えば、議事録のタイトルや、議事録が作成された曜日および時間、議事録の作成者等の少なくとも一つが今回の議事録と共通する、過去の議事録のデータを確認してもよい。これにより、ユーザー端末１０は、ユーザーに参加人数を入力させないで済むため、参加人数を入力するユーザーの手間を、効果的に削減できる。

あるいは、制御部１１は、会議における参加者の点呼の状況に基づいて、参加人数に関する情報を取得してもよい。より具体的には、制御部１１は、例えば、会議が開始される前の時間における音声に関するデータを取得して、音声を認識し、会議が開始される前に点呼される参加者の人数や、点呼に応じる参加者の人数等に関する情報を取得してもよい。そして、制御部１１は、点呼される参加者の人数や、点呼に応じる参加者の人数等を確認し、参加人数に関する情報を取得してもよい。これにより、ユーザー端末１０は、ユーザーに参加人数を入力させないで済むため、参加人数を入力するユーザーの手間を、効果的に削減できる。

また、上述した実施形態では、制御部１１が、ステップＳ１０３において、音入力部１６において入力された音声に関するデータを取得する場合を例に挙げて説明した。しかし、本実施形態はこれに限定されない。制御部１１は、例えば、記憶部１２等に記憶されている、過去の会議における音声に関するデータを取得してもよい。これにより、ユーザー端末１０は、過去の会議の議事録を後から出力する必要が生じた場合でも、過去の会議における発言者が高い精度で判別された議事録を出力できる。

また、上述した実施形態では、制御部１１が、所定の時間毎に、ステップＳ１０７の処理を実行する場合を例に挙げて説明した。しかし、本実施形態はこれに限定されない。制御部１１は、例えば、所定の発言数毎に、すなわち、所定の数の発言が蓄積される毎に、ステップＳ１０７の処理を実行してもよい。これにより、ユーザー端末１０は、様々なタイミングにおいて、発言者を判別できる。

また、上述した実施形態では、制御部１１が、複数の音声の特徴量の各々を各クラスターとして、クラスター間の差分を算出し、クラスター間の差分に基づいて、クラスターを併合する場合を例に挙げて説明した。しかし、本実施形態はこれに限定されない。制御部１１は、例えば、クラスター間の差分の逆数として定義されるクラスター間の類似度を算出し、クラスター間の類似度に基づいて、クラスターを併合してもよい。より具体的には、制御部１１は、残存するクラスターの数が１つになるまで、類似度が高い順に、クラスターを併合する処理を実行してもよい。

また、上述した実施形態では、発言者が自動的に判別される場合を例に挙げて説明した。しかし、本実施形態はこれに限定されない。発言者を示すラベルとして、誤ったラベルが発言の内容に関連付けられた場合、誤ったラベルが訂正されてもよい。より具体的には、操作受付部１５は、誤ったラベルを訂正するユーザーの操作を受け付けてもよく、制御部１１は、ラベルの訂正に関する情報を取得してもよい。さらに、制御部１１は、取得したラベルの訂正に関する情報に基づいて、誤ったラベルを訂正し、訂正したラベルを表示部１４に表示させてもよい。なお、誤ったラベルは、会議の終了後にユーザーによって訂正されてもよいし、会議中において誤ったラベルが表示される度に、ユーザーによって訂正されてもよい。これにより、ユーザー端末１０は、発言者を自動的に判別できなかった場合でも、ユーザーに訂正させることができ、発言者が高い精度で判別された議事録を出力できる。

また、上述した実施形態では、制御部１１が、出力部としての表示部１４に、議事録を出力させる場合を例に挙げて説明した。しかし、本実施形態はこれに限定されない。制御部１１は、出力制御部として、出力部としての任意の他の装置に、議事録を出力させてもよい。例えば、制御部１１は、他のユーザー端末やプロジェクター等に、通信部１３等を介して議事録のデータを送信し、議事録を出力させてもよい。あるいは、制御部１１は、画像形成装置に、通信部１３等を介して議事録のデータを送信し、印刷物としての議事録を出力させてもよい。

（変形例１）
上述した実施形態では、制御部１１が、ステップＳ１０１において、参加人数に関する情報を取得する場合を例に挙げて説明した。変形例１では、制御部１１が、異なるタイミングにおいて、参加人数に関する情報を取得する場合について説明する。

制御部１１は、会議が開始された後において参加人数が変化した場合、変化後の参加人数に関する情報を取得する。以下では、制御部１１が、ユーザーによって入力された、変化後の参加人数に関する情報を取得する場合を例に挙げて説明する。ただし、制御部１１は、上述したような他の取得方法によって、変化後の参加人数に関する情報を取得してもよい。

図８Ａ～図８Ｃは、ユーザー端末に表示される画面の一例を示す図である。

制御部１１は、例えば図８Ａに示すように、ステップＳ１０１において取得された参加人数に関する情報に基づいて、現在の参加人数を示すソフトキーを、表示部１４に表示させているものとする。この状況において、操作受付部１５が、当該ソフトキーを押下するユーザーの操作を受け付けた場合、制御部１１は、例えば図８Ｂに示すような参加人数の入力（再入力）画面を、表示部１４に表示させる。そして、操作受付部１５が、変化後の参加人数を入力するユーザーの操作を受け付けた場合、制御部１１は、ユーザーによって入力された、変化後の参加人数に関する情報を取得する。さらに、制御部１１は、取得した変化後の参加人数に関する情報に基づいて、以降のステップＳ１０７の処理を実行し、以降の発言者を判別する。なお、表示部１４は、例えば図８Ｃに示すように、変化前の参加人数と、変化後の参加人数と、参加人数が変化したタイミングとを表示してもよい。

以上のように、変形例１に係るユーザー端末１０は、会議が開始された後において参加人数が変化した場合、変化後の参加人数に関する情報を取得し、変化後の参加人数に関する情報に基づいて、以降の発言者を判別する。これにより、ユーザー端末１０は、会議中に参加人数が変化した場合でも、高い精度で発言者を判別し続けることができる。

（変形例２）
上述した実施形態では、会議において、１つのユーザー端末１０が使用される場合を例に挙げて説明した。変形例２では、複数のユーザー端末１０が使用される場合について説明する。

図９は、議事録出力システムの全体構成を示す図である。

図９に示すように、議事録出力（作成）システム１は、複数のユーザー端末１０Ａ、１０Ｂおよび１０Ｃを備える。複数のユーザー端末１０Ａ、１０Ｂおよび１０Ｃは、複数の異なる拠点ａ、ｂおよびｃに位置し、複数の異なるユーザーであるＡさん、ＢさんおよびＣさんによって使用される。ユーザー端末１０Ａ、１０Ｂおよび１０Ｃは、上述した実施形態に係るユーザー端末１０と同様の構成を備え、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等のネットワーク２０を介して、相互に通信可能に接続されている。なお、議事録出力システム１は、上述した構成要素以外の構成要素を備えてもよいし、上述した構成要素のうちの一部の構成要素を備えなくてもよい。

変形例２では、ユーザー端末１０Ａ、１０Ｂおよび１０Ｃのいずれかが、議事録出力装置として機能する。例えば、図９に示す例において、ユーザー端末１０Ａが、議事録出力装置であり、Ａさんが、議事録の作成者であり、ＢさんおよびＣさんが、会議の参加者であってもよい。なお、議事録出力システム１は、周知のテレビ会議システムや、ウェブ会議システム等からは独立しており、ユーザー端末１０Ａは、これらのシステムから、発言者の拠点等の情報を取得しないものとする。

議事録出力装置としてのユーザー端末１０Ａは、上述したステップＳ１０１～Ｓ１１８の処理を実行する。ただし、ユーザー端末１０Ａは、ステップＳ１０３において、ユーザー端末１０Ｂおよび１０Ｃにおいて入力された音声に関するデータを、ネットワーク２０等を介して、ユーザー端末１０Ｂおよび１０Ｃから取得する。これにより、ユーザー端末１０Ａは、発言者であるＢさんおよびＣさんが、高い精度でリアルタイムに判別された議事録を出力できる。

また、上述した例において、Ａさんは、議事録の作成者かつ会議の参加者であってもよい。この場合、ユーザー端末１０Ａは、ステップＳ１０３において、自装置において入力された音声に関するデータを取得すると共に、ユーザー端末１０Ｂおよび１０Ｃにおいて入力された音声に関するデータも取得する。これにより、ユーザー端末１０Ａは、発言者であるＡさん、ＢさんおよびＣさんが、高い精度でリアルタイムに判別された議事録を出力できる。

なお、ユーザー端末１０Ａは、ステップＳ１０３において、議事録出力システム１からは独立した周知のテレビ会議システムや、ウェブ会議システム等から、これらのシステムにおいて取得されている音声に関するデータを取得してもよい。これにより、ユーザー端末１０Ａは、これらのシステムから独立した議事録出力装置としての、利便性の高さを実現しつつ、これらのシステムから、音声に関するデータをより容易に取得できる。

以上のように、変形例２に係る議事録出力システム１では、複数の異なるユーザー端末が使用され、音声に関するデータが取得される。これにより、議事録出力システム１では、会議の参加者が複数の異なる拠点に位置する場合でも、発言者が高い精度で判別された議事録が出力される。

なお、上述した実施形態では、ユーザー端末１０を一つの装置として説明したが、本実施形態はこれに限定されない。例えば、各種処理を実行する情報処理装置と、表示部や操作受付部等のユーザーインターフェースを備える装置とが、別々に構成されてもよい。この場合、各装置は、有線または無線によって接続されてもよい。また、各種処理を実行する情報処理装置は、サーバーであってもよい。

また、上述した実施形態に係る処理は、上述したステップ以外のステップを含んでもよいし、上述したステップのうちの一部のステップを含まなくてもよい。また、ステップの順序は、上述した実施形態に限定されない。さらに、各ステップは、他のステップと組み合わされて一つのステップとして実行されてもよく、他のステップに含まれて実行されてもよく、複数のステップに分割されて実行されてもよい。

また、上述した実施形態に係るユーザー端末１０における各種処理を行う手段および方法は、専用のハードウエア回路、およびプログラムされたコンピューターのいずれによっても実現することが可能である。上述したプログラムは、例えば、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され、記憶される。また、上述したプログラムは、単独のアプリケーションソフトとして提供されてもよいし、ユーザー端末１０の一機能としてその装置のソフトウェアに組み込まれてもよい。

１０ユーザー端末、
１１制御部、
１１１情報取得部、
１１２音声取得部、
１１３音声認識部、
１１４表示制御部（出力制御部）、
１１５判別部、
１２記憶部、
１３通信部、
１４表示部、
１５操作受付部、
１６音入力部。

Claims

会議における参加人数に関する情報を取得する情報取得部と、
前記会議における音声に関するデータを取得する音声取得部と、
前記音声取得部によって取得された前記音声に関するデータに基づいて、前記音声を認識し、発言者の発言としてテキスト化する音声認識部と、
前記情報取得部によって取得された前記参加人数に関する情報と、前記音声取得部によって取得された前記音声に関するデータとに基づいて、前記発言者を判別する判別部と、
前記判別部によって判別された前記発言者を示すラベルと、前記音声認識部によってテキスト化された前記発言の内容とを関連付けた議事録を、出力部に出力させる出力制御部と、
を有し、
前記判別部は、前記音声に関するデータに基づいて算出した前記音声の特徴量をクラスターとして分類するとともに、前記クラスター間の類似度を算出し、前記類似度が高い順に前記クラスターを併合し、最も低い前記類似度に応じて前記クラスターが併合される前に存在していた前記クラスターの数を、前記発言者の人数として決定する議事録出力装置。
前記判別部は、前記参加人数に関する情報に基づいて、前記発言者の人数が前記参加人数を超えないように、前記発言者を判別する請求項１に記載の議事録出力装置。
前記判別部は、前記音声の特徴量に基づいて、前記発言者を判別する請求項１または２に記載の議事録出力装置。
前記判別部は、同じ前記クラスターに併合された前記音声の特徴量を、同じ前記発言者の前記音声の特徴量として判別する請求項１～３のいずれか一項に記載の議事録出力装置。
前記判別部は、前記発言者の判別結果に基づいて、前記発言者が変化したか否かを判断し、前記発言者が変化したと判断する場合、変化後の前記発言者が前記会議において過去に発言していたか否かをさらに判断し、
前記出力制御部は、
前記判別部によって、変化後の前記発言者が過去に発言していなかったと判断された場合、新たな前記発言者を示す前記ラベルを前記出力部に出力させ、
前記判別部によって、変化後の前記発言者が過去に発言していたと判断された場合、対応する過去の前記発言者を示す前記ラベルを前記出力部に出力させる請求項１～４のいずれか一項に記載の議事録出力装置。
前記判別部は、所定の時間毎または所定の発言数毎に、前記発言者を判別する請求項１～５のいずれか一項に記載の議事録出力装置。
前記情報取得部は、入力された前記参加人数に関する情報を取得する請求項１～６のいずれか一項に記載の議事録出力装置。
前記情報取得部は、前記会議における参加者によって所有される携帯端末から送信された通知に基づいて、前記参加人数に関する情報を取得する請求項１～６のいずれか一項に記載の議事録出力装置。
前記情報取得部は、記憶部に記憶されている過去の議事録のデータを確認し、前記参加人数に関する情報として、過去の議事録によって示される過去の前記会議における前記参加人数に関する情報を取得する請求項１～６のいずれか一項に記載の議事録出力装置。
前記情報取得部は、前記会議における参加者の点呼の状況に基づいて、前記参加人数に関する情報を取得する請求項１～６のいずれか一項に記載の議事録出力装置。
前記情報取得部は、前記会議が開始された後において前記参加人数が変化した場合、変化後の前記参加人数に関する情報をさらに取得し、
前記判別部は、前記情報取得部によって取得された変化後の前記参加人数に関する情報に基づいて、以降の前記発言者を判別する請求項１～１０のいずれか一項に記載の議事録出力装置。
前記情報取得部は、誤った前記ラベルが前記発言の内容に関連付けられた場合、前記ラベルの訂正に関する情報をさらに取得し、
前記出力制御部は、前記情報取得部によって取得された前記ラベルの訂正に関する情報に基づいて、誤った前記ラベルを訂正し、訂正した前記ラベルを前記出力部に出力させる請求項１～１１のいずれか一項に記載の議事録出力装置。
前記情報取得部は、前記ラベルに対応する前記発言者の名前に関する情報を取得し、
前記出力制御部は、前記ラベルを前記発言者の名前に置き換えて、前記出力部に出力させる請求項１～１２のいずれか一項に記載の議事録出力装置。
前記出力制御部は、前記議事録において同一の前記ラベルが複数含まれる場合、全ての同一の前記ラベルを同一の前記発言者の名前に置き換えて、前記出力部に出力させる請求項１３に記載の議事録出力装置。
議事録を出力する議事録出力装置の制御プログラムであって、
会議における参加人数に関する情報を取得する情報取得ステップと、
前記会議における音声に関するデータを取得する音声取得ステップと、
前記音声取得ステップにおいて取得された前記音声に関するデータに基づいて、前記音声を認識し、発言者の発言としてテキスト化する音声認識ステップと、
前記情報取得ステップにおいて取得された前記参加人数に関する情報と、前記音声取得ステップにおいて取得された前記音声に関するデータとに基づいて、前記発言者を判別する判別ステップと、
前記判別ステップにおいて判別された前記発言者を示すラベルと、前記音声認識ステップにおいてテキスト化された前記発言の内容とを関連付けた議事録を、出力部に出力させる出力ステップと、
を含む処理をコンピューターに実行させ、
前記判別ステップは、前記音声に関するデータに基づいて算出した前記音声の特徴量をクラスターとして分類するとともに、前記クラスター間の類似度を算出し、前記類似度が高い順に前記クラスターを併合し、最も低い前記類似度に応じて前記クラスターが併合される前に存在していた前記クラスターの数を、前記発言者の人数として決定する制御プログラム。
前記判別ステップは、前記参加人数に関する情報に基づいて、前記発言者の人数が前記参加人数を超えないように、前記発言者を判別する請求項１５に記載の制御プログラム。
前記判別ステップは、前記音声の特徴量に基づいて、前記発言者を判別する請求項１５または１６に記載の制御プログラム。
前記判別ステップは、同じ前記クラスターに併合された前記音声の特徴量を、同じ前記発言者の前記音声の特徴量として判別する請求項１５～１７のいずれか一項に記載の制御プログラム。