JP2018045208A

JP2018045208A - 会議支援システム、会議支援方法及びプログラム

Info

Publication number: JP2018045208A
Application number: JP2016182175A
Authority: JP
Inventors: 平芦川; Taira Ashikawa; 布目　光生; Mitsuo Nunome; 光生布目; 将之芦川; Masayuki Ashikawa; 浩司藤村; Koji Fujimura
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2016-09-16
Filing date: 2016-09-16
Publication date: 2018-03-22
Anticipated expiration: 2036-09-16
Also published as: US10304460B2; US20180082688A1; JP6677614B2

Abstract

【課題】複数の人が参加する会議の音声認識データから得られた文字列を含む表示データを見やすくする。【解決手段】実施形態の会議支援システムは、認識部と、分類部と、第１の字幕制御部と、第２の字幕制御部と、表示制御部と、を備える。認識部は、音声データに含まれる音声区間と非音声区間とを識別しながら、音声区間から音声を示すテキストデータを認識する。分類部は、テキストデータを、主要な発話を示す第１の発話データと、主要な発話以外を示す第２の発話データと、に分類する。第１の字幕制御部は、第１の発話データに対応する第１の音声区間の識別の終了を待たずに、第１の発話データを表示する。第２の字幕制御部は、第２の発話データに対応する第２の音声区間の識別が終了してから、第２の発話データを表示する第２の字幕データを生成する。表示制御部は、第１の字幕データ及び第２の字幕データの表示を制御する。【選択図】図２

Description

本発明の実施形態は会議支援システム、会議支援方法及びプログラムに関する。

会議に参加している参加者の発言を、音声認識技術を活用することにより、リアルタイムに文字列にする会議支援システムが、従来から知られている。音声認識技術により得られた文字列は、例えば各発話の開始時刻、または音声認識データの取得時刻等の時系列順に表示される。

特許第５３８１９８８号公報

しかしながら従来の技術では、複数の人が参加する会議の音声認識データから得られた文字列を含む表示データが見づらくなる場合があった。

実施形態の会議支援システムは、認識部と、分類部と、第１の字幕制御部と、第２の字幕制御部と、表示制御部と、を備える。認識部は、音声データに含まれる音声区間と非音声区間とを識別しながら、前記音声区間から音声を示すテキストデータを認識する。分類部は、前記テキストデータを、主要な発話を示す第１の発話データと、主要な発話以外を示す第２の発話データと、に分類する。第１の字幕制御部は、前記第１の発話データに対応する第１の音声区間の識別の終了を待たずに、前記第１の発話データを表示する。第２の字幕制御部は、前記第２の発話データに対応する第２の音声区間の識別が終了してから、前記第２の発話データを表示する第２の字幕データを生成する。表示制御部は、前記第１の字幕データ及び前記第２の字幕データの表示を制御する。

第１実施形態の会議支援システムの装置構成の例を示す図。第１実施形態の会議支援システムの機能構成の例を示す図。第１実施形態の音声認識データ及び分類データの例を示す図。第１実施形態の表示データの例１を示す図。図４Ａの表示データを表すＨＴＭＬタグの例を示す図。第１実施形態の表示データの例２を示す図。図５Ａの表示データを表すＨＴＭＬタグの例を示す図。第１実施形態の表示データの例３を示す図。図６Ａの表示データを表すＨＴＭＬタグの例を示す図。第１実施形態の表示データの例４を示す図。図７Ａの表示データを表すＨＴＭＬタグの例を示す図。第１実施形態の表示データの例５を示す図。図８Ａの表示データを表すＨＴＭＬタグの例を示す図。第１実施形態の表示データの例６を示す図。図９Ａの表示データを表すＨＴＭＬタグの例を示す図。第１実施形態の表示データの例７を示す図。図１０Ａの表示データを表すＨＴＭＬタグの例を示す図。第１実施形態の表示データの例８を示す図。図１１Ａの表示データを表すＨＴＭＬタグの例を示す図。第１実施形態の表示データの例９を示す図。図１２Ａの表示データを表すＨＴＭＬタグの例を示す図。第１実施形態の表示データの例１０を示す図。図１３Ａの表示データを表すＨＴＭＬタグの例を示す図。第１実施形態の表示データの例１１を示す図。図１４Ａの表示データを表すＨＴＭＬタグの例を示す図。第１実施形態の会議支援方法の例を示すフローチャート。第１実施形態の分類方法の例１を示すフローチャート。第１実施形態の分類方法の例２を示すフローチャート。第１実施形態の第１の発話データの処理方法の例を示すフローチャート。第１実施形態の第２の発話データの処理方法の例を示すフローチャート。第２実施形態の会議支援システムの装置構成の例を示す図。第２実施形態の会議支援システムの機能構成の例を示す図。第１及び第２実施形態のクライアント装置、音声認識サーバ装置及び会議支援サーバ装置のハードウェア構成の例を示す図。

以下、添付図面を参照して、会議支援システム、会議支援方法及びプログラムの実施形態について詳細に説明する。

（第１実施形態）
はじめに、第１実施形態の会議支援システムの装置構成の例について説明する。

［会議支援システムの装置構成］
図１は第１実施形態の会議支援システム１００の装置構成の例を示す図である。第１実施形態の会議支援システム１００は、マイク１０ａ〜１０ｃ、クライアント装置２０ａ〜２０ｃ、音声認識サーバ装置３０及び会議支援サーバ装置４０を備える。

クライアント装置２０ａ〜２０ｃ、音声認識サーバ装置３０及び会議支援サーバ装置４０は、ネットワーク２００を介して接続される。ネットワーク２００の通信方式は有線方式であっても無線方式であってもよい。またネットワーク２００は、有線方式と無線方式とを組み合わせて実現されていてもよい。

マイク１０ａは、会議の参加者Ａさんの音声を含む音声データを取得すると、クライアント装置２０ａに当該音声データを入力する。同様に、マイク１０ｂは、会議の参加者Ｂさんの音声を含む音声データを取得すると、クライアント装置２０ｂに当該音声データを入力する。同様に、マイク１０ｃは、会議の参加者Ｃさんの音声を含む音声データを取得すると、クライアント装置２０ｃに当該音声データを入力する。

マイク１０ａ〜１０ｃは、例えば各話者に身に付けられたピンマイク型のマイクロフォンである。マイク１０ａ〜１０ｃは、音信号（アナログ信号）を音声データ（デジタル信号）に変換する。

クライアント装置２０ａは、マイク１０ａから音声データを受け付けると、当該音声データを、ネットワーク２００を介して音声認識サーバ装置３０に送信する。同様に、クライアント装置２０ｂは、マイク１０ｂから音声データを受け付けると、当該音声データを、ネットワーク２００を介して音声認識サーバ装置３０に送信する。同様に、クライアント装置２０ｃは、マイク１０ｃから音声データを受け付けると、当該音声データを、ネットワーク２００を介して音声認識サーバ装置３０に送信する。

以下、マイク１０ａ〜１０ｃを区別しない場合は、単にマイク１０という。同様に、クライアント装置２０ａ〜２０ｃを区別しない場合は、単にクライアント装置２０という。

音声認識サーバ装置３０は、クライアント装置２０から、ネットワーク２００を介して音声データを受信すると、当該音声データを音声認識する。これにより音声認識サーバ装置３０は、音声データに含まれる音声に対応するテキストデータを含む音声認識データを取得する。そして音声認識サーバ装置３０は、音声認識データを、ネットワーク２００を介して会議支援サーバ装置４０に送信する。

会議支援サーバ装置４０は、音声認識サーバ装置３０から、ネットワーク２００を介して音声認識データを受信すると、当該音声認識データから表示データを生成する。表示データは、例えばＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）タグを使用して生成される。なお表示データの詳細については後述する。会議支援サーバ装置４０は、表示データを、ネットワーク２００を介してクライアント装置２０ａ〜２０ｃに送信する。

クライアント装置２０ａ〜２０ｃは、会議支援サーバ装置４０から、ネットワーク２００を介して表示データを受信すると、当該表示データを表示する。クライアント装置２０ａ〜２０ｃは、例えばウェブブラウザを使用して表示データを表示する。

なお図１の例では、会議の参加者が３人の場合を例にして説明しているが、会議の参加者の人数は３人に限られず任意でよい。

なお会議支援システム１００の上述の装置構成は一例であり、会議支援システム１００の装置構成を適宜、変更してもよい。例えば、音声認識サーバ装置３０及び会議支援サーバ装置４０を、１つのサーバ装置としてもよい。また例えば、クライアント装置２０、音声認識サーバ装置３０及び会議支援サーバ装置４０を、１つの装置にしてもよい。

次に第１実施形態の会議支援システム１００の機能構成の例について説明する。

［会議支援システムの機能構成］
図２は第１実施形態の会議支援システム１００の機能構成の例を示す図である。第１実施形態の会議支援システム１００は、記憶部１０１、取得部１０２、認識部１０３、分類部１０４、第１の字幕制御部１０５、第２の字幕制御部１０６及び表示制御部１０７を備える。

記憶部１０１はデータを記憶する。記憶部１０１は、例えばクライアント装置２０、音声認識サーバ装置３０及び会議支援サーバ装置４０等の主記憶装置及び補助記憶装置により実現される。記憶部１０１に記憶されるデータは、例えば音声データ、音声認識データ、分類データ、字幕データ及び表示データ等である。なお記憶部１０１に記憶される各データの詳細については後述する。

取得部１０２は上述の音声データを取得すると、当該音声データを認識部１０３に入力する。取得部１０２は、例えば上述のマイク１０ａ〜１０ｃにより実現される。

認識部１０３は、取得部１０２から音声データを取得すると、当該音声データを音声認識することにより、上述の音声認識データを取得する。認識部１０３は、例えば上述の音声認識サーバ装置３０により実現される。認識部１０３は、音声データ及び音声認識データを分類部１０４に入力する。

分類部１０４は、認識部１０３から音声データ及び音声認識データを受け付ける。そして分類部１０４は、音声データ及び音声認識データの少なくとも一方を使用して、テキストデータを、第１の発話と、第２の発話と、に分類する。なお分類部１０４による分類方法の詳細は後述する。分類部１０４は、例えば上述の音声認識サーバ装置３０により実現される。

第１の発話（主発話）は、会議中の発話のうち、相槌または繰り返しではない主要な発話である。

第２の発話（副発話）は、会議中の主要でない発話を示す。第２の発話は、例えば「うん」、「はい」及び「なるほど」等の相槌である。

また例えば、第２の発話は、第１の発話に含まれる語句の繰り返す発話である。第１の発話に含まれる語句の繰り返す発話は、例えば第１の発話の内容を確認するために、聞き手が同じ語句を繰り返す場合の発話である。また例えば、第１の発話に含まれる語句の繰り返す発話は、第１の発話の発話者により発話された音声が、他の発話者に身に付けられたマイク１０に入力されたことにより得られた同音の語句である（例えば後述の図３、テキストデータ１５３参照）。

以下、第１の発話に分類されたテキストデータを、第１の発話データという。また、第１の発話の発話者を、第１の発話者という。第１の発話者は、複数でもよい。同様に、第２の発話に分類されたテキストデータを、第２の発話データという。また、第２の発話の発話者を、第２の発話者という。第２の発話者は、複数でもよい。

ここで、音声認識データの例と、分類データの例について説明する。

＜音声認識データ及び分類データの例＞
図３は第１実施形態の音声認識データ及び分類データの例を示す図である。第１実施形態の音声認識データは、取得順、話者ＩＤ、発話開始時刻、テキストデータ及び認識状態を含む。また第１実施形態の分類データは、分類（第１の発話または第２の発話）を含む。

取得順は、音声認識データが取得された順番を示す。

話者ＩＤは、話者を識別する識別情報である。ＵＳＥＲ−１は、Ａさんを識別する話者ＩＤである。ＵＳＥＲ−２は、Ｂさんを識別する話者ＩＤである。ＵＳＥＲ−３は、Ｃさんを識別する話者ＩＤである。

発話開始時刻は、発話が開始された時刻である。発話開始時刻０：００：００は、例えば会議の開始時刻を示す。図３の例では、例えば取得順が１１のＵＳＥＲ−２のテキストデータの発話開始時刻は、０：００：４０（会議の開始から４０秒後）である。

テキストデータは、発話された音声を音声認識することにより得られた文字列である。

認識状態は、テキストデータの状態（確定または未確定）を示す。ここでテキストデータの認識状態について説明する。認識部１０３は、会議等の実環境下で音声を連続的に音声認識（連続音声認識）する場合、まず、音声区間と非音声区間とを識別する音声区間検出技術を用いて、音声区間と非音声区間とを識別する。音声区間は、音声が発話された区間である。非音声区間は、音声が発話されていない区間である。認識部１０３は、音声区間の識別を開始した場合には、音声区間の識別が終了するまで、音声認識を逐次的に行う。

未確定状態のテキストデータは、当該テキストデータが、音声区間の識別が終了する前までに得られたテキストデータである。一方、確定状態のテキストデータは、当該テキストデータが、一の音声区間の識別の開始から、当該音声区間の識別の終了までの間の音声に対応するテキストデータである。

図３の例では、例えば取得順が９のＵＳＥＲ−２のテキストデータの認識状態は、未確定であり、取得順が１１のＵＳＥＲ−２のテキストデータの認識状態は、確定である。

分類データは、テキストデータの分類を示す。例えば取得順が２のＵＳＥＲ−１のテキストデータの分類は、第１の発話である。すなわち取得順が２のＵＳＥＲ−１のテキストデータは、第１の発話データである。

一方、取得順が３のＵＳＥＲ−２のテキストデータ１５１の分類は、第２の発話である。すなわち取得順が３のＵＳＥＲ−２のテキストデータ１５１は、第２の発話データである。テキストデータ１５１は、相槌の例である。

テキストデータ１５２は、第１の発話の内容を確認するために、聞き手が同じ語句を繰り返した発話の音声認識により得られた第２の発話データの例である。

テキストデータ１５３は、ＵＳＥＲ−１（Ａさん）により発話されたテキストデータの一部１５４が、強く発音されたことにより、ＵＳＥＲ−２（Ｂさん）のマイク１０ｂに入力された場合の例を示す。テキストデータ１５３と、テキストデータの一部１５４と、は表記が異なる。この理由は、認識部１０３が、テキストデータの一部１５４の発音から、最適な変換結果として、テキストデータ１５３を得ているためである。

なお第１の発話及び第２の発話に分類する方法の詳細は、フローチャートを用いて後述する（図１６及び図１７参照）。

図２に戻り、分類部１０４は、第１の発話データを含む音声認識データを、第１の字幕制御部１０５に入力する。また分類部１０４は、第２の発話データを含む音声認識データを、第２の字幕制御部１０６に入力する。

第１の字幕制御部１０５は、分類部１０４から、第１の発話データを含む音声認識データを受け付けると、第１の発話データに基づく字幕制御処理を行うことにより、第１の字幕データを生成（更新）する。第１の字幕制御部１０５は、例えば上述の会議支援サーバ装置４０により実現される。

第２の字幕制御部１０６は、分類部１０４から、第２の発話データを含む音声認識データを受け付けると、第２の発話データに基づく字幕制御処理を行うことにより、第２の字幕データを生成（更新）する。第２の字幕制御部１０６は、例えば上述の会議支援サーバ装置４０により実現される。

表示制御部１０７は、第１の字幕データ及び第２の字幕データを表示する表示制御処理を行う。表示制御部１０７は、例えば上述のクライアント装置２０により実現される。

ここで、図３に例示した音声認識データ及び分類データを使用して、字幕制御処理及び表示制御処理により得られた表示データの例と、当該表示データを表すＨＴＭＬタグの例について説明する。なお字幕制御処理及び表示制御処理の詳細は、フローチャートを用いて後述する（図１８及び図１９参照）。

＜表示データとＨＴＭＬタグの例＞
図４Ａは第１実施形態の表示データの例１を示す図である。図４Ｂは、図４Ａの表示データを表すＨＴＭＬタグの例を示す図である。

第１の字幕制御部１０５は、図３に例示した取得順が１番の音声認識データから、第１の字幕データ２０１ａを生成する。具体的には、第１の字幕制御部１０５は、取得順が１番の音声認識データに含まれるテキストデータ（第１の発話データ）の認識状態が未確定であり、かつ、ＵＳＥＲ−１（Ａさん）の当該第１の発話データを表示する第１の字幕データがないので、第１の字幕データ２０１ａを表すＨＴＭＬタグ３０１ａを生成する。

図５Ａは第１実施形態の表示データの例２を示す図である。図５Ｂは、図５Ａの表示データを表すＨＴＭＬタグの例を示す図である。

第１の字幕制御部１０５は、図３に例示した取得順が２番の音声認識データを使用して、第１の字幕データ２０１ａを、第１の字幕データ２０１ｂに更新する。具体的には、第１の字幕制御部１０５は、取得順が２番の音声認識データに含まれるテキストデータ（第１の発話データ）の認識状態が未確定であり、かつ、ＵＳＥＲ−１（Ａさん）の当該第１の発話データを表示する第１の字幕データ２０１ａがあるので、図４ＢのＨＴＭＬタグ３０１ａを、図５ＢのＨＴＭＬタグ３０１ｂに更新する。

図６Ａは第１実施形態の表示データの例３を示す図である。図６Ｂは、図６Ａの表示データを表すＨＴＭＬタグの例を示す図である。

第２の字幕制御部１０６は、図３に例示した取得順が３番の音声認識データから、第２の字幕データ２０２ａを生成する。具体的には、第２の字幕制御部１０６は、取得順が３番の音声認識データに含まれるテキストデータ１５１（第２の発話データ）の認識状態が確定であり、かつ、当該第２の発話データを表示する第２の字幕データがないので、ＨＴＭＬタグ３０２ａを生成する。

図６Ａ及び図６Ｂに示すように、第１の発話データの表示形式（第１の表示形式）と、第２の発話データの表示形式（第２の表示形式）は異なる。図６Ａの例では、会議中の発話のうち、主要な発話を示す第１の発話データが、左側に表示され、相槌または繰り返し等を示す第２の発話データが、右側に表示される。これにより表示データを見やすくすることができる。

図７Ａは第１実施形態の表示データの例４を示す図である。図７Ｂは、図７Ａの表示データを表すＨＴＭＬタグの例を示す図である。

第１の字幕制御部１０５は、図３に例示した取得順が４番の音声認識データを使用して、第１の字幕データ２０１ｂを、第１の字幕データ２０１ｃに更新する。具体的には、第１の字幕制御部１０５は、取得順が４番の音声認識データに含まれるテキストデータ（第１の発話データ）の認識状態が未確定であり、かつ、ＵＳＥＲ−１（Ａさん）の当該第１の発話データを表示する第１の字幕データ２０１ｂがあるので、図６ＢのＨＴＭＬタグ３０１ｂを、図５ＢのＨＴＭＬタグ３０１ｃに更新する。

図８Ａは第１実施形態の表示データの例５を示す図である。図８Ｂは、図８Ａの表示データを表すＨＴＭＬタグの例を示す図である。

第２の字幕制御部１０６は、図３に例示した取得順が５番の音声認識データを使用して、第２の字幕データ２０２ａを第２の字幕データ２０２ｂに更新する。具体的には、第２の字幕制御部１０６は、取得順が５番の音声認識データに含まれるテキストデータ１５２（第２の発話データ）の認識状態が確定であり、かつ、第２の字幕データ２０２ａがあるので、図７ＢのＨＴＭＬタグ３０２ａを、図８ＢのＨＴＭＬタグ３０２ｂに更新する。

図９Ａは第１実施形態の表示データの例６を示す図である。図９Ｂは、図９Ａの表示データを表すＨＴＭＬタグの例を示す図である。

第１の字幕制御部１０５は、図３に例示した取得順が６番の音声認識データを使用して、第１の字幕データ２０１ｃを、第１の字幕データ２０１ｄに更新する。具体的には、第１の字幕制御部１０５は、取得順が６番の音声認識データに含まれるテキストデータ（第１の発話データ）の認識状態が未確定であり、かつ、ＵＳＥＲ−１（Ａさん）の当該第１の発話データを表示する第１の字幕データ２０１ｃがあるので、図８ＢのＨＴＭＬタグ３０１ｃを、図９ＢのＨＴＭＬタグ３０１ｄに更新する。

図１０Ａは第１実施形態の表示データの例７を示す図である。図１０Ｂは、図１０Ａの表示データを表すＨＴＭＬタグの例を示す図である。

第２の字幕制御部１０６は、図３に例示した取得順が７番の音声認識データを使用して、第２の字幕データ２０２ｂを第２の字幕データ２０２ｃに更新する。具体的には、第２の字幕制御部１０６は、取得順が７番の音声認識データに含まれるテキストデータ１５３（第２の発話データ）の認識状態が確定であり、かつ、第２の字幕データ２０２ｂがあるので、図９ＢのＨＴＭＬタグ３０２ｂを、図１０ＢのＨＴＭＬタグ３０２ｃに更新する。

図１０Ａに示すように、上述のテキストデータ１５１〜１５３は、第２の字幕データ２０２ｃとして、まとめて表示される。これにより取得順が６番のテキストデータを示す第１の字幕データ２０１ｄと、会議中の主要な発言ではないテキストデータ１５１〜１５３と、を含む表示データを見やすくすることができる。

図１１Ａは第１実施形態の表示データの例８を示す図である。図１１Ｂは、図１１Ａの表示データを表すＨＴＭＬタグの例を示す図である。

第１の字幕制御部１０５は、図３に例示した取得順が８番の音声認識データを使用して、第１の字幕データ２０１ｄを、第１の字幕データ２０１ｅに更新する。具体的には、第１の字幕制御部１０５は、取得順が８番の音声認識データに含まれるテキストデータ（第１の発話データ）の認識状態が未確定であり、かつ、ＵＳＥＲ−１（Ａさん）の当該第１の発話データを表示する第１の字幕データ２０１ｄがあるので、図１０ＢのＨＴＭＬタグ３０１ｄを、図１１ＢのＨＴＭＬタグ３０１ｅに更新する。

図１２Ａは第１実施形態の表示データの例９を示す図である。図１２Ｂは、図１２Ａの表示データを表すＨＴＭＬタグの例を示す図である。

第１の字幕制御部１０５は、図３に例示した取得順が９番の音声認識データを使用して、第１の字幕データ２０１ｆを生成する。具体的には、第１の字幕制御部１０５は、取得順が９番の音声認識データに含まれるテキストデータ（第１の発話データ）の認識状態が未確定であり、かつ、ＵＳＥＲ−２（Ｂさん）の当該第１の発話データを表示する第１の字幕データがないので、第１の字幕データ２０１ｆを表すＨＴＭＬタグ３０１ｆを生成する。

図１２Ａに示されるように、第１の発話データは、発話者毎に表示される。一方、第２の発話データは、発話者毎に表示されない（まとめて表示される）。

図１３Ａは第１実施形態の表示データの例１０を示す図である。図１３Ｂは、図１３Ａの表示データを表すＨＴＭＬタグの例を示す図である。

第１の字幕制御部１０５は、図３に例示した取得順が１０番の音声認識データを使用して、第１の字幕データ２０１ｅを、第１の字幕データ２０１ｇに更新する。具体的には、第１の字幕制御部１０５は、取得順が１０番の音声認識データに含まれるテキストデータ（第１の発話データ）の認識状態が確定であり、かつ、ＵＳＥＲ−１（Ａさん）の当該第１の発話データを表示する第１の字幕データ２０１ｇがあるので、図１２ＢのＨＴＭＬタグ３０１ｅを、図１３ＢのＨＴＭＬタグ３０１ｇに更新する。

図１４Ａは第１実施形態の表示データの例１１を示す図である。図１４Ｂは、図１４Ａの表示データを表すＨＴＭＬタグの例を示す図である。

第１の字幕制御部１０５は、図３に例示した取得順が１１番の音声認識データを使用して、第１の字幕データ２０１ｆを、第１の字幕データ２０１ｈに更新する。具体的には、第１の字幕制御部１０５は、取得順が１１番の音声認識データに含まれるテキストデータ（第１の発話データ）の認識状態が確定であり、かつ、ＵＳＥＲ−２（Ｂさん）の当該第１の発話データを表示する第１の字幕データ２０１ｆがあるので、図１３ＢのＨＴＭＬタグ３０１ｆを、図１４ＢのＨＴＭＬタグ３０１ｈに更新する。

上述の図４Ａ〜図１４Ｂの字幕制御処理及び表示制御処理により、表示制御部１０７は、第１の発話データを、第１の字幕データとしてリアルタイムに表示することができる。また、表示制御部１０７は、認識状態が確定している異なる発話者の第２の発話データを、第２の字幕データとして、まとめて表示することができる。

これにより、表示データが表示されるクライアント装置２０の画面を有効に利用することができる。例えば、主要でない発話（第２の字幕データ）を表示するための表示データの更新により、会議中の主要な発話（第１の字幕データ）が短時間で流れてしまうこと（画面から見えなくなってしまうこと）を防ぐことができる。

［会議支援方法］
次に第１実施形態の会議支援方法の詳細について、フローチャートを参照して説明する。

図１５は第１実施形態の会議支援方法の例を示すフローチャートである。はじめに、取得部１０２が、上述の音声データを取得する（ステップＳ１）。次に、認識部１０３が、ステップＳ１の処理により取得された音声データを音声認識することにより、上述のテキストデータを取得する（ステップＳ２）。

次に、分類部１０４が、ステップＳ２の処理により取得されたテキストデータを、第１の発話と、第２の発話と、に分類する分類処理を行う（ステップＳ３）。なお分類処理の詳細は、図１６及び図１７を参照して後述する。

テキストデータが第１の発話データである場合（ステップＳ４、Ｙｅｓ）、第１の字幕制御部１０５、及び、表示制御部１０７が、第１の発話データに基づく表示制御処理を行う（ステップＳ５）。なお第１の発話データに基づく表示制御処理の詳細は、図１８を参照して後述する。

テキストデータが第１の発話データでない場合（ステップＳ４、Ｎｏ）、すなわちテキストデータが第２の発話データである場合、第２の字幕制御部１０６が、第２の発話データの認識状態が確定であるか否かを判定する（ステップＳ６）。

第２の発話データの認識状態が確定でない場合（ステップＳ６、Ｎｏ）、処理を終了する。

第２の発話データの認識状態が確定である場合（ステップＳ６、Ｙｅｓ）、第２の字幕制御部１０６、及び、表示制御部１０７が、第２の発話データに基づく表示制御処理を行う。なお第２の発話データに基づく表示制御処理の詳細は、図１９を参照して後述する。

＜分類方法の例１＞
図１６は第１実施形態の分類方法の例１を示すフローチャートである。図１６のフローチャートは、上述の音声データを使用して、上述のテキストデータを分類する場合を示す。

はじめに、分類部１０４が、音声データの平均パワーが閾値（第１の閾値）以上であり、かつ、テキストデータに対応する音声データの音声区間（第１の音声区間）の長さが閾値（第２の閾値）以上であるか否かを判定する（ステップＳ２１）。

音声データの平均パワーが閾値以上でない、または、テキストデータに対応する音声データの音声区間の長さが閾値以上でない場合（ステップＳ２１、Ｎｏ）、分類部１０４は、当該テキストデータを第２の発話データに分類する（ステップＳ２７）。

音声データの平均パワーが閾値以上であり、かつ、テキストデータに対応する音声データの音声区間の長さが閾値以上である場合（ステップＳ２１、Ｙｅｓ）、分類部１０４は、当該音声データの特徴量を算出する（ステップＳ２２）。特徴量は、話者を識別する情報である。特徴量は、例えば音声データを周波数分析することにより得られた特定の周波数帯域の平均パワーである。なお特徴量は、一般的な話者識別処理に用いられる特徴量であれば任意でよい。

次に、分類部１０４は、過去に該話者の第１の発話データがあるか否かを判定する（ステップＳ２３）。

過去に該話者の第１の発話データがない場合（ステップＳ２３、Ｎｏ）、分類部１０４は、ステップＳ２２の処理により算出された音声データの特徴量を記憶する（ステップＳ２５）。そして分類部１０４は、テキストデータを第１の発話データに分類する（ステップＳ２６）。

過去に該話者の第１の発話データがある場合（ステップＳ２３、Ｙｅｓ）、分類部１０４は、ステップＳ２２で算出された特徴量と、過去の第１の発話データの特徴量の平均との差が閾値（第３の閾値）以下であるか否かを判定する（ステップＳ２４）。

過去の第１の発話データの特徴量の平均との差が閾値以下の場合（ステップＳ２４、Ｙｅｓ）、分類部１０４は、ステップＳ２２の処理により算出された音声データの特徴量を記憶する（ステップＳ２５）。そして分類部１０４は、テキストデータを第１の発話データに分類する（ステップＳ２６）。

過去の第１の発話データの特徴量の平均との差が閾値以下でない場合（ステップＳ２４、Ｎｏ）、分類部１０４は、テキストデータを第２の発話データに分類する（ステップＳ２７）。

＜分類方法の例２＞
図１７は第１実施形態の分類方法の例２を示すフローチャートである。図１７のフローチャートは、上述の音声認識データを使用して、上述のテキストデータを分類する場合を示す。

はじめに、分類部１０４が、テキストデータに含まれる文字の数が閾値（第４の閾値）以下であるか否かを判定する（ステップＳ４１）。

テキストデータに含まれる文字の数が閾値以下の場合（ステップＳ４１、Ｙｅｓ）、分類部１０４は、当該テキストデータを第２の発話データに分類する（ステップＳ４７）。

テキストデータに含まれる文字の数が閾値以下の場合でない場合（ステップＳ４１、Ｎｏ）、当該テキストデータが、所定の相槌を示す相槌パターンデータと一致するか否かを判定する（ステップＳ４２）。

相槌パターンデータは、所定の相槌を示すデータである。相槌パターンは、例えば「うん」、「へー」、「はい」及び「なるほど」等の事前に定められた文字列を含む正規表現パターンである。

相槌パターンデータと一致する場合（ステップＳ４２、Ｙｅｓ）、分類部１０４は、テキストデータを第２の発話データに分類する（ステップＳ４７）。

相槌パターンデータと一致しない場合（ステップＳ４２、Ｎｏ）、分類部１０４は、テキストデータが、現在の第１の発話データ（後述のステップＳ４５参照）に含まれるか否かを判定する（ステップＳ４３）。

現在の第１の発話データに含まれる場合（ステップＳ４３、Ｙｅｓ）、分類部１０４は、テキストデータを第２の発話データに分類する（ステップＳ４７）。

現在の第１の発話データに含まれない場合（ステップＳ４３、Ｎｏ）、分類部１０４は、テキストデータの形態素解析結果または構文解析結果が、所定の解析パターンデータに一致するか否かを判定する（ステップＳ４４）。

所定の解析パターンデータは、所定の品詞パターン、及び、所定の構文パターンを示す。所定の品詞パターンは、例えば形態素解析により得られた情報が、名詞のみで構成されている等である。所定の構文パターンは、例えば構文解析により得られた情報が、主語及び述語の係り受け構造が成立していない等である。

所定の解析パターンデータに一致する場合（ステップＳ４４、Ｙｅｓ）、分類部１０４は、テキストデータを第２の発話データに分類する（ステップＳ４７）。すなわち所定の解析パターンデータに一致するテキストデータは、例えば上述のテキストデータ１５２等の繰り返しを示すテキストデータである。

所定の解析パターンデータに一致しない場合（ステップＳ４４、Ｎｏ）、分類部１０４は、テキストデータを、現在の第１の発話データとして記憶する（ステップＳ４５）。そして分類部１０４は、テキストデータを第１の発話データに分類する（ステップＳ４６）。

なお分類部１０４は、上述のステップＳ４１〜ステップＳ４４の処理のうち、一部のステップの処理を省略してもよい。例えばステップＳ４４の処理を省略してもよい。

また分類部１０４は、音声データを使用してテキストデータを分類する上述の図１６に示す分類処理、及び、音声認識データを使用してテキストデータを分類する上述の図１７に示す分類処理の少なくとも一方を実行してもよいし、両方を実行してもよい。分類部１０４は、両方の分類処理を実行した場合に、分類結果が異なる場合には、いずれか一方の分類結果を優先させる。優先させる分類結果は、例えば音声データを使用してテキストデータを分類する上述の図１６に示す分類処理である。

＜第１の発話データの処理方法の例＞
図１８は第１実施形態の第１の発話データの処理方法の例を示すフローチャートである。はじめに、第１の字幕制御部１０５が、分類部１０４から、処理対象の第１の発話データを受け付ける（ステップＳ６１）。次に、第１の字幕制御部１０５は、該話者の未確定状態の第１の字幕データが存在するか否かを判定する（ステップＳ６２）。

未確定状態の第１の字幕データが存在しない場合（ステップＳ６２、Ｎｏ）、第１の字幕制御部１０５は、該話者の第１の字幕データを未確定状態で生成する（ステップＳ６３）。そして表示制御部１０７が、第１の字幕データを表示する（ステップＳ６５）。

未確定状態の第１の字幕データが存在する場合（ステップＳ６２、Ｙｅｓ）、第１の字幕制御部１０５は、処理対象の第１の発話データにより、第１の字幕データを更新する（ステップＳ６４）。そして表示制御部１０７が、第１の字幕データを表示する（ステップＳ６５）。

次に、第１の字幕制御部１０５は、ステップＳ６１の処理で受け付けた第１の発話データの認識状態が確定であるか否かを判定する（ステップＳ６６）。

認識状態が確定でない場合（ステップＳ６６、Ｎｏ）、処理は終了する。

認識状態が確定の場合（ステップＳ６６、Ｙｅｓ）、第１の字幕制御部１０５は、該話者の第１の字幕データの字幕状態を、確定状態に設定する（ステップＳ６７）。次に、第１の字幕制御部１０５は、表示されている第２の字幕データの字幕状態を、確定状態に設定する設定要求を第２の字幕制御部１０６に入力する（ステップＳ６８）。これにより表示されている第２の字幕データの字幕状態が、第２の字幕制御部１０６により確定状態に設定される。

＜第２の発話データの処理方法の例＞
図１９は第１実施形態の第２の発話データの処理方法の例を示すフローチャートである。はじめに、第２の字幕制御部１０６が、分類部１０４から、処理対象の第２の発話データを受け付ける（ステップＳ８１）。次に、第２の字幕制御部１０６は、ステップＳ８１の処理で受け付けた第２の発話データの認識状態が確定であるか否かを判定する（ステップＳ８２）。

認識状態が確定でない場合（ステップＳ８２、Ｎｏ）、処理は終了する。

認識状態が確定の場合（ステップＳ８２、Ｙｅｓ）、第１の字幕制御部１０５は、該話者の未確定状態の第１の字幕データが存在するか否かを判定する（ステップＳ８３）。具体的には、第１の字幕制御部１０５、認識状態が確定の場合に、第２の字幕制御部１０６から、該話者の未確定状態の第１の字幕データが存在するか否かを判定する判定要求を受け付けると、ステップＳ８３の処理を実行する。

該話者の未確定状態の第１の字幕データが存在する場合（ステップＳ８３、Ｙｅｓ）、第１の字幕制御部１０５が、該話者の第１の字幕データに処理対象の第２の発話データを追加する（ステップＳ８４）。そして第１の字幕制御部１０５が、該話者の第１の字幕データの字幕状態を確定状態に設定する（ステップＳ８５）。

該話者の未確定状態の第１の字幕データが存在しない場合（ステップＳ８３、Ｎｏ）、第２の字幕制御部１０６が、未確定状態の第２の字幕データが存在するか否かを判定する（ステップＳ８６）。

未確定状態の第２の字幕データが存在しない場合（ステップＳ８６、Ｎｏ）、第２の字幕制御部１０６が、第２の字幕データを未確定状態で生成する（ステップＳ８７）。そして表示制御部１０７が、第２の字幕データを表示する（ステップＳ８９）。

未確定状態の第２の字幕データが存在する場合（ステップＳ８６、Ｙｅｓ）、第２の字幕制御部１０６が、処理対象の第２の発話データにより、第２の字幕データを更新する（ステップＳ８８）。そして表示制御部１０７が、第２の字幕データを表示する（ステップＳ８９）。

なおステップＳ８８の更新方法は、追加でも上書きでもよい。例えば上述の図１０Ａの例では、テキストデータ１５１に更に、テキストデータ１５３が追加される場合が示されている。なお更新方法が上書きの場合は、テキストデータ１５１に代えて、テキストデータ１５３が表示される。

また第２の字幕制御部１０６は、第２の字幕データを話者毎に更新せずに、話者に依らない最新の第２の発話データにより、第２の字幕データを更新してもよい。例えば、第２の字幕制御部１０６は、Ｂさんの第２の発話データよりも新しいＣさんの第２の発話データにより、第２の字幕データを更新してもよい。

また第２の字幕制御部１０６は、特定の話者の第２の発話データのみを更新するようにしてもよい。すなわち表示制御部１０７が、特定の話者の第２の発話データのみを表示するようにしてもよい。

なお第１の字幕制御部１０５は、新規に第１の字幕データを生成することにより、既に表示されていた第１の字幕データがスクロールアウトした場合（表示画面内に収まらない場合）は、スクロールアウトした未確定状態の第１の字幕データの字幕状態を、確定状態に設定する。

同様に、第２の字幕制御部１０６は、新規に第２の字幕データを生成することにより、既に表示されていた第２の字幕データがスクロールアウトした場合は、スクロールアウトした未確定状態の第２の字幕データの字幕状態を、確定状態に設定する。

以上説明したように、第１実施形態の会議支援システム１００では、認識部１０３が、音声データに含まれる音声区間と非音声区間とを識別しながら、音声区間から音声を示すテキストデータを認識する。分類部１０４が、テキストデータを、主要な発話を示す第１の発話データと、主要な発話以外を示す第２の発話データと、に分類する。第１の字幕制御部１０５が、第１の発話データに対応する第１の音声区間の識別の終了を待たずに、第１の発話データを表示する第１の字幕データを生成する。第２の字幕制御部１０６が、第２の発話データに対応する第２の音声区間の識別が終了してから、第２の発話データを表示する第２の字幕データを生成する。そして表示制御部１０７が、第１の字幕データ及び第２の字幕データの表示を制御する。

これにより第１実施形態の会議支援システム１００によれば、複数の人が参加する会議の音声認識データから得られた文字列を含む表示データが表示された際でも、当該表示データが見づらくなることを防ぐことができる。

第１実施形態の会議支援システム１００を、例えば聴覚障碍者（情報保障が必要な方）が参加する会議に利用することにより、聴覚障碍者が会議の内容を把握できるようにするためのサポートをすることができる。また例えば、第１実施形態の会議支援システム１００を、会議中の会話の言語が母国語ではない参加者が参加する会議に利用することにより、当該参加者が会議の内容を把握できるようにするためのサポートをすることができる。

なお第１実施形態の説明では、第１の字幕データと第２の字幕データとを同一の表示画面に時系列に表示する場合について説明したが、第１の字幕データと第２の字幕データとを異なる表示画面に表示してもよい。例えば２つの表示装置を使用して、第１の字幕データを表示する表示画面と、第２の字幕データを表示する表示画面と、を分けることにより、第１の字幕データの表示形式と、第２の字幕データの表示形式を変えてもよい。

また第１実施形態の説明では、会議支援システム１００の機能（図２参照）を、クライアント装置２０、音声認識サーバ装置３０及び会議支援サーバ装置４０により実現する場合を例にして説明したが、会議支援システム１００の機能を、１つの装置（コンピュータ）により実現してもよい。

（第２実施形態）
次に第２実施形態について説明する。第２実施形態の説明では、第１実施形態と同様の説明については省略し、第１実施形態と異なる箇所について説明する。

［会議支援システムの装置構成］
図２０は第２実施形態の会議支援システム１００の装置構成の例を示す図である。第２実施形態の会議支援システム１００は、マイク１０ａ〜１０ｃ、クライアント装置２０、音声認識サーバ装置３０、会議支援サーバ装置４０及びミキサー５０を備える。すなわち第２の実施形態では、ミキサー５０が追加され、クライアント装置２０が１つになっている点が、第１実施形態とは異なる。

ミキサー５０は、マイク１０ａ〜１０ｃから受け付けられた３つの音声データを、１つの音声データにミキシングする。そしてミキサー５０は、ミキシングされた１つの音声データをクライアント装置２０に送信する。

クライアント装置２０は、ミキサー５０から音声データを受信すると、当該音声データを音声認識サーバ装置３０に送信する。

音声認識サーバ装置３０は、クライアント装置２０から、ネットワーク２００を介して、音声データを受信すると、当該音声データを使用して、話者を識別する話者識別処理と、当該話者の音声を認識する音声認識処理を行う。すなわち第２実施形態では、音声認識サーバ装置３０が、話者識別処理を行う点が、第１実施形態とは異なる。

会議支援サーバ装置４０は、音声認識サーバ装置３０から、ネットワーク２００を介して、音声認識データを受信すると、当該音声認識データから、例えばＨＴＭＬタグによる表示データを生成する。

クライアント装置２０は、会議支援サーバ装置４０から、ネットワーク２００を介して表示データを受信すると、当該表示データを、例えばウェブブラウザを使用して表示する。

次に第２実施形態の会議支援システム１００の機能構成の例について説明する。

［会議支援システムの機能構成］
図２１は第２実施形態の会議支援システム１００の機能構成の例を示す図である。第２実施形態の会議支援システム１００は、記憶部１０１、取得部１０２、認識部１０３、分類部１０４、第１の字幕制御部１０５、第２の字幕制御部１０６、表示制御部１０７及び識別部１０８を備える。すなわち第２実施形態では、第１実施形態の機能構成に識別部１０８が更に追加されている点が、第１実施形態とは異なる。

取得部１０２は、複数の音声データをミキシングすることにより得られた１つの音声データを取得する。取得部１０２は、例えば上述のマイク１０ａ〜１０ｃ、及び、ミキサー５０により実現される。

識別部１０８は、取得部１０２から音声データを受け付けると、当該音声データから話者を識別する。識別部１０８は、例えば上述の音声認識サーバ装置３０により実現される。

認識部１０３は、識別部１０８により識別された話者毎に、音声データを音声認識する。

分類部１０４、第１の字幕制御部１０５、第２の字幕制御部１０６及び表示制御部１０７の説明は、第１実施形態と同様なので省略する。

以上説明したように、第２実施形態の会議支援システム１００によれば、複数のマイク１０を接続したミキサー５０により取得された音声データを使用しても、上述の第１実施形態と同様の効果が得られる。

最後に、第１及び第２実施形態のクライアント装置２０、音声認識サーバ装置３０及び会議支援サーバ装置４０のハードウェア構成の例について説明する。

［ハードウェア構成の例］
図２２は第１及び第２実施形態のクライアント装置２０、音声認識サーバ装置３０及び会議支援サーバ装置４０のハードウェア構成の例を示す図である。第１及び第２実施形態のクライアント装置２０、音声認識サーバ装置３０及び会議支援サーバ装置４０は、制御装置４０１、主記憶装置４０２、補助記憶装置４０３、表示装置４０４、入力装置４０５及び通信装置４０６を備える。制御装置４０１、主記憶装置４０２、補助記憶装置４０３、表示装置４０４、入力装置４０５及び通信装置４０６は、バス４１０を介して接続されている。

制御装置４０１は補助記憶装置４０３から主記憶装置４０２に読み出されたプログラムを実行する。主記憶装置４０２はＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及び、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等のメモリである。補助記憶装置４０３はメモリカード、及び、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等である。

表示装置４０４は情報を表示する。表示装置４０４は、例えば液晶ディスプレイである。入力装置４０５は、情報の入力を受け付ける。入力装置４０５は、例えばキーボード及びマウス等である。なお表示装置４０４及び入力装置４０５は、表示機能と入力機能とを兼ねる液晶タッチパネル等でもよい。通信装置４０６は他の装置と通信する。

第１及び第２実施形態のクライアント装置２０、音声認識サーバ装置３０及び会議支援サーバ装置４０で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、メモリカード、ＣＤ−Ｒ、及び、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記憶媒体に記憶されてコンピュータ・プログラム・プロダクトとして提供される。

また第１及び第２実施形態のクライアント装置２０、音声認識サーバ装置３０及び会議支援サーバ装置４０で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また第１及び第２実施形態のクライアント装置２０、音声認識サーバ装置３０及び会議支援サーバ装置４０が実行するプログラムを、ダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。

また第１及び第２実施形態のクライアント装置２０、音声認識サーバ装置３０及び会議支援サーバ装置４０で実行されるプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

第１及び第２実施形態のクライアント装置２０、音声認識サーバ装置３０及び会議支援サーバ装置４０で実行されるプログラムは、上述の第１及び第２実施形態の会議支援システム１００の機能構成のうち、プログラムにより実現可能な機能を含むモジュール構成となっている。

プログラムにより実現される機能は、制御装置４０１が補助記憶装置４０３等の記憶媒体からプログラムを読み出して実行することにより、プログラムにより実現される機能が主記憶装置４０２にロードされる。すなわちプログラムにより実現される機能は、主記憶装置４０２上に生成される。

なお第１及び第２実施形態の会議支援システム１００の機能の一部又は全部を、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等のハードウェアにより実現してもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０マイク
２０クライアント装置
３０音声認識サーバ装置
４０会議支援サーバ装置
５０ミキサー
１００会議支援システム
１０１記憶部
１０２取得部
１０３認識部
１０４分類部
１０５第１の字幕制御部
１０６第２の字幕制御部
１０７表示制御部
１０８識別部
２００ネットワーク
４０１制御装置
４０２主記憶装置
４０３補助記憶装置
４０４表示装置
４０５入力装置
４０６通信装置
４１０バス

Claims

音声データに含まれる音声区間と非音声区間とを識別しながら、前記音声区間から音声を示すテキストデータを認識する認識部と、
前記テキストデータを、主要な発話を示す第１の発話データと、主要な発話以外を示す第２の発話データと、に分類する分類部と、
前記第１の発話データに対応する第１の音声区間の識別の終了を待たずに、前記第１の発話データを表示する第１の字幕データを生成する第１の字幕制御部と、
前記第２の発話データに対応する第２の音声区間の識別が終了してから、前記第２の発話データを表示する第２の字幕データを生成する第２の字幕制御部と、
前記第１の字幕データ及び前記第２の字幕データの表示を制御する表示制御部と、
を備える会議支援システム。
前記表示制御部は、前記第１の字幕データを第１の表示形式により表示し、前記第２の字幕データを第２の表示形式により表示する、
請求項１に記載の会議支援システム。
前記分類部は、前記音声データの平均パワーが第１の閾値以上であり、かつ、前記第１の音声区間の長さが第２の閾値以上である場合、前記テキストデータを第１の発話データに分類する、
請求項１に記載の会議支援システム。
前記分類部は、前記音声データの平均パワーが第１の閾値以上であり、かつ、前記第１の音声区間の長さが第２の閾値以上であり、かつ、前記第１の音声区間に含まれる音声の特徴を示す特徴量と、過去に発話された第１の発話データの発話者の特徴を示す特徴量の平均と、の差が、第３の閾値以下である場合、前記テキストデータを第１の発話データに分類する、
請求項１に記載の会議支援システム。
前記分類部は、前記テキストデータに含まれる文字の数が第４の閾値以下の場合、前記テキストデータを前記第２の発話データに分類する、
請求項１に記載の会議支援システム。
前記分類部は、前記テキストデータが、所定の相槌を示す相槌パターンデータに一致する場合、前記テキストデータを前記第２の発話データに分類する、
請求項１に記載の会議支援システム。
前記分類部は、前記テキストデータの形態素解析結果、または構文解析結果が所定の解析パターンに一致する場合、前記テキストデータを前記第２の発話データに分類する、
請求項１に記載の会議支援システム。
前記第１の字幕制御部は、前記第１の字幕データを発話者毎に生成し、
前記第２の字幕制御部は、前記第２の字幕データを発話者毎に生成しない、
請求項１に記載の会議支援システム。
前記第１の字幕制御部は、前記第１の字幕データを、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）タグを使用して生成し、
前記第２の字幕制御部は、前記第２の字幕データを、ＨＴＭＬタグを使用して生成し、
前記表示制御部は、ウェブブラウザである、
請求項１に記載の会議支援システム。
音声データに含まれる音声区間と非音声区間とを識別しながら、前記音声区間から音声を示すテキストデータを認識するステップと、
前記テキストデータを、主要な発話を示す第１の発話データと、主要な発話以外を示す第２の発話データと、に分類するステップと、
前記第１の発話データに対応する第１の音声区間の識別の終了を待たずに、前記第１の発話データを表示する第１の字幕データを生成するステップと、
前記第２の発話データに対応する第２の音声区間の識別が終了してから、前記第２の発話データを表示する第２の字幕データを生成するステップと、
前記第１の字幕データ及び前記第２の字幕データの表示を制御するステップと、
を含む会議支援方法。
コンピュータを、
音声データに含まれる音声区間と非音声区間とを識別しながら、前記音声区間から音声を示すテキストデータを認識する認識部と、
前記テキストデータを、主要な発話を示す第１の発話データと、主要な発話以外を示す第２の発話データと、に分類する分類部と、
前記第１の発話データに対応する第１の音声区間の識別の終了を待たずに、前記第１の発話データを表示する第１の字幕データを生成する第１の字幕制御部と、
前記第２の発話データに対応する第２の音声区間の識別が終了してから、前記第２の発話データを表示する第２の字幕データを生成する第２の字幕制御部と、
前記第１の字幕データ及び前記第２の字幕データの表示を制御する表示制御部、
として実行させるためのプログラム。