JP2015061194A

JP2015061194A - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP2015061194A
Application number: JP2013193386A
Authority: JP
Inventors: 奥津　俊久; Toshihisa Okutsu; 俊久奥津
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-09-18
Filing date: 2013-09-18
Publication date: 2015-03-30

Abstract

【課題】会議を記録した動画の中から重要シーンを効率良く見ること。【解決手段】会議の議事録テキスト入力イベントと発言イベントとを検出する。検出した議事録テキスト入力イベントの時刻情報と発言イベントの時刻情報とに基づいて会議の重要シーンを判定する。【選択図】図８

Description

本発明は情報処理装置、情報処理方法及びプログラムに関し、特に会議風景動画の重要シーンを抽出して効率的な再生を可能にする技術に関する。

一般に、組織において会議での議論内容は重要な資産であり、会議の後には議事録の提出が求められることが多い。会議には議事録作成者がいてパソコンを利用してテキスト議事録を作成している。またビデオカメラを用いて会議風景を動画記録し、発言内容や場の雰囲気も記録するようになっている。

しかし会議を丸ごと記録した動画の中から重要シーンを効率良く見るにはテキストで記載された議事録を参照しながら動画をサーチする必要があり面倒である。そこで、動画を効率良く見るための技術が求められる。特許文献１は、あらかじめ映像に字幕を付加した動画コンテンツを再生する際に、字幕が存在しないシーンは飛ばし、字幕が付加された映像シーンを再生する技術を開示している。この技術により映像を視聴するユーザは字幕が存在する映像のみを視聴することで動画コンテンツの内容を効率良く把握できる。

国際公開第０９／０４４８１８号

しかしながら、特許文献１に記載の技術は会議の画面の動画を再生することに適していない。なぜなら特許文献１に記載の技術はあらかじめ動画と対応付けられた字幕が存在する全てのシーンを視聴の対象としているからである。仮に特許文献１に記載の技術を会議の場面に適用する場合、全ての発言をテキストの字幕にすることで会議の動画コンテンツを視聴の対象とする方法が考えられるが、余計な発言シーンまで視聴の対象となってしまう。従って、ユーザは会議動画のなかから重要なシーンを効率良く見ることができないという課題がある。

本発明に係る情報処理装置は、会議の議事録テキスト入力イベントと発言イベントとを検出する検出手段と、検出した議事録テキスト入力イベントの時刻情報と発言イベントの時刻情報とに基づいて前記会議の重要シーンを判定する判定手段とを有することを特徴とする。

本発明によれば、会議動画の中の重要シーンを抽出することができる。従って、重要シーンを効率よく視聴することができる。

本実施形態における会議システムの構成を示す図である。会議風景を示す図である。会議の流れを示す図である。会議操作端末の議事録作成時の表示画面を示す図である。処理シーケンスを示す図である。会議記録データ管理構造を示す図である。会議イベントデータの内部フォーマットを示す図である。議事録生成部の構成を示す図である。音声認識部の構成を示す図である。音声認識における言語モデルを示す図である。音声認識部での照合処理の模式を示す図である。重要シーンを判定する処理のフローチャートを示す図である。会議記録視聴端末の会議記録視聴時の表示画面を示す図である。重要シーンを再生する様子を示す図である。会議動画を再生するフローチャートである。音声の方向と話者の関係を示す図である。実施例２の会議イベントデータの内部フォーマットを示す図である。実施例２における重要シーンを判定する処理のフローチャートを示す図である。実施例２の会議記録視聴端末の会議記録視聴時の表示画面を示す図である。実施例２の重要シーンを再生する様子を示す図である。実施例２の会議動画を再生するフローチャートである。実施例３の会議イベントデータの内部フォーマットを示す図である。実施例３における重要シーンを判定する処理のフローチャートを示す図である。実施例３の会議記録視聴端末の会議記録視聴時の表示画面を示す図である。実施例３の重要シーンを再生する様子を示す図である。実施例３の会議動画を再生するフローチャートである。

以下、図面を用いて本発明に係る実施形態を詳細に説明する。ただし、この実施形態に記載されている構成要素はあくまで例示であり、この発明の範囲をそれらに限定する趣旨のものではない。

＜システム構成＞
図１は、本実施例における会議システムの構成を示す図である。本実施例において、会議システムは、会議サーバ１００と、会議操作端末２００と、会議風景撮影端末３００と、会議記録視聴端末４００とを含む。これらの端末及びサーバは情報処理装置の例である。

会議サーバ１００は、ネットワーク８００上に設置され、会議操作端末２００、会議風景撮影端末３００と接続されているものとする。また会議記録視聴端末４００も会議サーバ１００と接続される。

会議サーバ１００は、会議の記録を格納するための装置である。会議の記録対象は二つあり、一つめがユーザのオペレーションによりテキストで入力されたテキスト議事録を示すデータである。二つめが会議の風景を映像と音声を含む動画として記録する会議風景を示す動画データである。

会議風景の記録の指示とテキスト議事録の入力は会議操作端末２００をユーザが操作することで行われ、会議記録の指示とテキスト議事録の入力が会議操作端末２００から会議サーバ１００に送信される。例えば会議風景の動画データは、会議サーバ１００からの指示により会議操作端末２００に対応づられた会議風景撮影端末３００から会議サーバ１００に送信される。テキスト議事録のデータは、会議操作端末２００から会議サーバ１００に送信される。会議サーバ１００は、これらのデータに基づいて会議記録データを生成する。以下、説明を簡略化するために、テキストデータ、映像データ、音声データ、動画データなどを、単にテキスト、映像、音声、動画、と称するものとする。なお、動画は映像と音声とを含むものとする。

会議サーバ１００に格納された会議記録は、ユーザが会議記録視聴端末４００を操作することによりユーザによって視聴される。

＜会議サーバ内部構成＞
次に、会議サーバ１００の内部構成を説明する。会議サーバ１００は、制御部１１０と、会議管理部１２０と、議事録生成部１３０と、議事録データベース１４０と、議事録配信部１５０とを有する。会議管理部１２０は、会議の情報を管理する。会議の情報とは議事録データベース１４０に格納されている各会議の名称、日時などの情報である。議事録生成部１３０は、会議操作端末２００から送られるテキストと会議風景撮影端末３００から送られてくる映像及び音声とから会議記録データを生成する。議事録データベース１４０は、会議記録データを格納する。議事録配信部１５０は、会議記録視聴端末４００が会議記録を参照できるように議事録データベース１４０に格納されている会議記録データに基づいて動画と議事録を含むデータを配信する。

制御部１１０は、ＣＰＵ（プロセッサ）、ＲＯＭ、ＲＡＭなどによって会議サーバ全体を制御する。また、制御部１１０がＣＰＵ、ＲＯＭ、ＲＡＭなどを用いてソフトウェア（プログラム）を実行することによって会議サーバで実現される各機能を制御する。また処理の一部または全部を専用の電子回路（ハードウェア）で構成するようにしても構わない。

＜会議操作端末内部構成＞
次に、会議操作端末２００の内部構成を説明する。会議操作端末２００は、ユーザのオペレーションにより議事録のテキストを入力し、入力した議事録テキストを会議サーバ１００へ送る。会議操作端末２００は、制御部２１０と、表示部２２０と、キーボード２３０と、マウス２４０と、議事録テキスト通信部２５０とを有する。ユーザは、キーボード２３０やマウス２４０を用いて議事録テキストを入力する。議事録テキスト通信部２５０は、ユーザが入力した議事録テキストを会議サーバ１００へ送る。

制御部２１０は、ＣＰＵ、ＲＯＭ、ＲＡＭなどによって会議操作端末２００全体を制御する。また、制御部２１０がＣＰＵ、ＲＯＭ、ＲＡＭなどを用いてソフトウェア（プログラム）を実行することによって会議操作端末２００で実現される各機能を制御する。また処理の一部または全部を専用の電子回路（ハードウェア）で構成するようにしても構わない。

＜会議風景撮影端末内部構成＞
次に、会議風景撮影端末３００の内部構成を説明する。会議風景撮影端末３００は、会議サーバ１００の指示により会議風景の映像と音声とを含む動画データを会議サーバ１００に送付する。会議風景撮影端末３００は、制御部３１０と、カメラ３２０と、マイク３３０と、映像通信部３４０と、音声通信部３５０とを有する。カメラ３２０は、映像を撮影する。マイク３３０は、音声を集音する。映像通信部３４０は、映像を会議サーバ１００に送信する。音声通信部３５０は、音声を会議サーバ１００に送信する。

制御部３１０は、ＣＰＵ、ＲＯＭ、ＲＡＭなどによって会議風景撮影端末３００全体を制御する。また、制御部３１０がＣＰＵ、ＲＯＭ、ＲＡＭなどを用いてソフトウェア（プログラム）を実行することによって会議風景撮影端末３００で実現される各機能を制御する。また処理の一部または全部を専用の電子回路（ハードウェア）で構成するようにしても構わない。

＜会議記録視聴端末＞
次に、会議記録視聴端末４００の内部構成を説明する。会議記録視聴端末４００は、ユーザのオペレーションにより会議サーバ１００に蓄積された会議記録を視聴する。会議記録視聴端末４００は、制御部４１０と、表示部４２０と、タッチパネル４３０と、スピーカー４４０とを有する。表示部４２０は、会議記録のテキストと映像を表示する。タッチパネル４３０は、ユーザが操作を行うため操作部である。スピーカー４４０は、会議記録の音声を出力する。

制御部４１０は、ＣＰＵ、ＲＯＭ、ＲＡＭなどによって会議記録視聴端末４００全体を制御する。また、制御部４１０がＣＰＵ、ＲＯＭ、ＲＡＭなどを用いてソフトウェア（プログラム）を実行することによって会議記録視聴端末４００で実現される各機能を制御する。また処理の一部または全部を専用の電子回路（ハードウェア）で構成するようにしても構わない。

なお、図１の例では、会議サーバ１００と、会議操作端末２００と、会議風景撮影端末と、会議記録視聴端末４００とがそれぞれ別の装置である例を説明したが、複数の端末の機能を１つの装置が有してもよい。例えば、会議サーバ１００と、会議操作端末２００とが一体となった装置を用いてもよいし、これらの全ての機能を単一の装置内に含めてもよい。

＜会議風景＞
図２は、本実施例で説明する会議の会議風景を示す図である。図２は、４名の参加者がテーブルとホワイトボードを囲み会議を行っている様子を示す。後述するように４名の参加者は会議において発言をするので、ここでは参加者は発言者である。参加者Ａは会議の議事録作成者であり、会議操作端末２００を用いて会議の記録操作を行う。会議風景撮影端末３００は会議の風景を撮影し、映像と音声とを図２に示さない会議サーバ１００に送付する。

＜会議の流れ＞
図３は、本実施例で説明する会議の流れを示す図である。図３は会議記録の開始から終了まで時刻、会議の流れ（風景）、発言イベント、議事録テキスト入力イベントを会議の流れとして示す。図３の発言イベントや議事録テキスト入力イベントは、それぞれ時刻に入力されるものである。発言イベントは会議の参加者が発言した音声を音声認識処理することで雑音を除去し人が話した言葉と判定したイベントを示す。議事録テキスト入力イベントは会議の議事録作成者が議事録テキストを入力したイベントを示す。

本実施例では、会議動画に含まれる音声の中から音声認識処理することで雑音を除去し人が話した言葉と判定した時刻と、テキスト議事録が入力された時刻とが一定時間内であるシーンを会議の重要シーンと判定する。会議記録を再生する際に全てのシーンを再生すると効率が悪い。そこで、会議記録の中で重要シーンを抽出する。会議の場面では会議の議事録作成者が議事録を会議中にテキスト入力していく。ここで、議事録は会議の要点を示すものと考えられる。従って、テキスト議事録が入力された時刻近辺が会議の重要シーンである可能性が高い。一方、単にテキスト議事録が入力された時刻のみをもって重要シーンと判定してしまうと、会議動画を再生する際に言葉の途中から重要シーンであると判定されてしまう可能性がある。そこで、本実施例では、会議動画に含まれる音声の中から音声認識処理することで雑音を除去し人が話した言葉と判定した時刻と、テキスト議事録が入力された時刻とが一定時間内であるシーンを会議の重要シーンと判定する。そして会議風景を記録した会議動画を再生する際、重要シーンと判定した部分は通常スピードで再生、それ以外の部分は高速スピードで再生する。これにより会議動画のなかから議事録に記載された議事に対応するシーンを効率良く見ることを可能とする。

以下、会議の重要シーンを判定する方法を説明する。

＜会議記録オペレーション＞
まず、図４および図５を用いて会議記録オペレーションを説明する。図４は会議操作端末２００の表示部２２０に表示される議事録作成時の表示画面を示す図である。また、図５は会議記録オペレーションの処理シーケンスを示す図である。

まず、図４を用いて説明する。会議を記録する場合には、会議の議事録作成者が会議操作端末２００の記録用ソフトを起動する。すると図４（ａ）に示すような画面が表示される。画面にはインジケータ２２１、記録開始ボタン２２２、記録終了ボタン２２３、テキスト入力部２２５が表示される。議事録作成者が画面の記録開始ボタン２２２を押すと、インジケータ２２１の表示が停止中から記録中に変わるとともに会議記録が開始される。

具体的には図５に示す通り、ステップＳ５００において会議操作端末２００の記録開始ボタンがユーザによって押される。すると、会議操作端末２００から会議サーバ１００に会議記録開始指示が伝えられる。ステップＳ５０１において会議サーバ１００は、会議風景を記録するように会議風景撮影端末３００に会議風景送付開始指示を伝える。なお、会議サーバ１００が複数の会議風景撮影端末３００と接続される場合には、所望の会議風景撮影端末を特定する指示が会議操作端末２００から会議サーバ１００に伝えられてもよい。また、会議操作端末２００から直接会議風景撮影端末３００に対して、会議サーバ１００への会議風景送付開始指示が送られてもよい。

ステップＳ５０２において会議風景撮影端末３００は、会議風景の映像と音声とを会議サーバ１００に送信し続ける。会議サーバ１００は、会議風景撮影端末３００から送信される会議風景の映像と音声とを継続して受け取り、会議風景の会議記録を行う。

また、会議記録が開始された状態で、会議の議事録作成者は図４（ｂ）に示す画面のテキスト入力部２２５に議事録をテキストで入力する。具体的には図３に示す会議の流れに示した中で、会議の議事録作成者は議事録テキスト入力イベントに対応する議事録をテキストとして入力する。図３のイベント名のｅｖ０６，ｅｖ１４，ｅｖ１６，ｅｖ２１，ｅｖ２３が議事録テキスト入力イベントに対応する。

図４（ｂ）のテキスト入力部２２５は議事録テキストを入力した様子を示している。一つのテキスト議事録入力イベントが発生する毎に会議操作端末２００から会議サーバ１００へ議事録テキスト入力が送られて記録される。一つのテキスト議事録入力イベントは、一例として改行コードを入力した時に発生するものとする。図５では、ステップＳ５１０、Ｓ５１１、Ｓ５１２、Ｓ５１３において、会議操作端末２００は、議事録テキスト入力を会議サーバ１００に送信する。

なお、後述するように議事録テキスト入力イベントは会議サーバの議事録生成部１３０で時刻情報が付されることになる。よって、議事録テキスト入力イベントの時刻情報は、改行コードを入力した場合に会議操作端末２００から会議サーバ１００が議事録テキスト入力イベントを受信した時点の時刻となる。すなわち、テキスト入力が終了した時点の時刻が議事録テキスト入力イベントの時刻情報となる。しかしながら、本実施例はこれに限られるものではない。例えば、議事録テキスト入力イベントは、テキスト入力を開始した時点の時刻情報としてもよい。すなわち、図４（ｂ）のテキスト入力部２２５にテキストが入力された時点で１つの議事録テキスト入力イベント開始を会議操作端末２００から会議サーバ１００に通知してもよい。この場合、改行コードが入力された時点でその１つの議事録テキスト入力イベントの完了を会議サーバ１００に通知する。このような処理によれば、議事録テキスト入力イベントは、テキスト入力を開始した時点の時刻情報とすることもできる。

そして会議の議事録作成者は会議が終了すると、図４（ｂ）に示す記録終了ボタン２２３を押して会議記録を終了する。会議記録終了時は図５に示す通り、会議の議事録作成者が記録終了ボタンを押すと、ステップＳ５２０において会議操作端末２００が会議記録終了指示を会議サーバ１００に伝える。ステップＳ５２１において会議サーバ１００は会議風景の送付を停止するために、会議風景撮影端末３００に会議風景送付終了指示を伝え、会議風景の会議記録を終了する。なお、会議操作端末２００から直接会議風景撮影端末３００に対して、会議サーバ１００への会議風景送付の終了指示が送られてもよい。

＜会議記録フォーマット＞
図６及び図７を用いて会議記録のフォーマットを説明する。図６は会議記録データの管理構造を示す図である。会議の会議記録が図６に示す構造で会議サーバ１００の議事録データベース１４０に格納される。会議記録データ１４１０は会議のイベントを記録した会議イベントデータ１４１１と会議動画１４１２とを組で管理する。

図７は会議イベントデータ１４１１の内部フォーマット１４５０を示す図である。また、図７では参考として、図３で示すイベントを内部フォーマット１４５０と併せて標記している。会議イベントデータは、議事録生成部１３０によって生成され、図７に示すフォーマット１４５０に従って議事録データベース１４０に記録される。会議イベントデータは、会議における発言イベントと会議の議事録テキスト入力イベントとを含み、さらに会議の重要シーンとして判定した結果を含む。本実施例では、各イベントが会議サーバに入力されると、議事録生成部１３０が図７に示すフォーマット１４５０に従って各イベントを議事録データベース１４０に記録する。そして、各イベントの記録後に、記録しているイベントの中から後述するように重要シーンを判定し、重要シーンであることをさらに記録する処理を行う。以下、具体的にフォーマット１４５０の各項目について説明する。

図７に示す通り、会議イベントデータ１４１１の内部フォーマット１４５０は以下の項目で構成される。すなわち、イベントを一連番号で管理するためのＩＤ、イベントの開始時刻ｓ−ｓｔａｒｔと終了時刻ｓ−ｆｉｎｉｓｈである。また、イベントがテキスト入力であるかを示すｔｅｘｔ−ｆｌａｇ、重要シーンであるかを示すｐ−ｆｌａｇ、及び議事録テキストを格納するｄ−ｔｅｘｔである。各ＩＤに各項目がそれぞれ関連付けられて格納される。

会議イベントデータには、会議サーバ１００に入力された会議風景の音声を音声認識処理することで雑音を除去し人が話した言葉と判定したイベントである発言イベントが含まれる。また、議事録テキスト入力イベントが含まれる。会議イベントデータは、これらのイベントを個別のイベントとして記録する。

議事録生成部１３０は、イベントが発言イベントの場合、音声を音声認識処理することで雑音を除去して人が話した言葉と判定した発言の開始時刻と終了時刻とをｓ−ｓｔａｒｔとｓ−ｆｉｎｉｓｈに記録する。また、議事録生成部１３０は、ｔｅｘｔ−ｆｌａｇを０、ｄ−ｔｅｘｔをｎｕｌｌとして記録し、ｐ−ｆｌａｇをレコード生成時には０として記録する。

議事録生成部１３０は、イベントが議事録入力イベントである場合、テキスト入力時刻を開始時刻ｓ−ｓｔａｒｔと終了時刻ｓ−ｆｉｎｉｓｈに同じ値として記録する。また、議事録生成部１３０は、ｔｅｘｔ−ｆｌａｇを１として記録し、ｄ−ｔｅｘｔに議事録テキストの文字列を記録する。また、議事録生成部１３０はｐ−ｆｌａｇをレコード生成時には０として記録する。

＜会議記録データの生成＞
次に、図８を用いて、図６及び図７で示すような会議記録データを生成する処理を説明する。図８は、議事録生成部１３０の構成の一例を示す図である。会議記録データの生成は図１に示した会議サーバ１００の議事録生成部１３０にて行われる。議事録生成部１３０は、テキスト通信部１３１０と、音声認識部１３２０と、映像音声ミキシング部１３４０と、時計部１３５０と、重要シーン判定部１３６０とを有する。

テキスト通信部１３１０は、会議操作端末２００から送付された議事録テキストを受信する。テキスト通信部１３１０は、受信したテキストに時計部１３５０の時刻情報を付加して入力時刻情報付き議事録テキストとして後段の重要シーン判定部１３６０に出力する。

音声認識部１３２０は、会議風景撮影端末３００から送付された音声を受信する。また、音声認識部１３２０は、受信した音声と時計部１３５０の時刻情報とに基づいて発話時刻を判定する。具体的には音声認識部１３２０は、音声認識処理することで雑音を除去し人が話した言葉と判定した発話の開始時刻と発話終了時刻を含む発話時刻情報を後段の重要シーン判定部１３６０に出力する。発話時刻判定処理は後述する。

重要シーン判定部１３６０は２つの情報を入力する。１つめはテキスト通信部１３１０から入力する入力時刻情報付き議事録テキストである。２つめは音声認識部１３２０から入力する音声認識することで雑音を除去し人が話した言葉と判定した発話の発話時刻情報である。重要シーン判定部１３６０は、これら２つの情報から重要シーンを判定し、図６及び図７で説明した会議イベントデータ１４１１を出力する。なお、会議の重要シーンの判定処理は後述する。

時計部１３５０は、時刻情報を付加する。時計部１３５０は、会議サーバのみでなく各端末に存在してもよく、タイムスタンプデータを各端末と会議サーバとで通信することで時刻情報を取得する構成であっても構わない。

映像音声ミキシング部１３４０は、会議風景撮影端末３００から送付された音声と映像とを受信し、音声と映像とを組み合わせた音声付動画を生成し、会議動画１４１２として議事録データベース１４０に格納する。

このように議事録生成部１３０から出力される会議イベントデータ１４１１と会議動画１４１２は、図６で説明した通りひと組の会議記録データ１４１０として会議サーバ１００の議事録データベース１４０に格納される。

＜発話時刻判定処理＞
次に、音声認識部１３２０で行われる発話時刻判定処理について図９、図１０、図１１を用いて説明する。

先に説明したように、音声認識部１３２０は、会議の音声を音声認識処理することで雑音を除去し人が話した言葉と判定した発話の発話時刻情報を判定する。そして、音声認識部１３２０は発話時刻情報を重要シーン判定部１３６０に出力する。

図９は、音声認識部１３２０の構成例を示すブロック図である。音声認識部１３２０は、音声検出部１３２１、音響分析部１３２２、音響モデル格納部１３２４、言語モデル格納部１３２５および音声照合部１３２３を備える。この構成は、音声認識処理で一般的な構成である。また、音声認識部１３２０は発話時刻判定部１３２６も備える。

音声検出部１３２１は、入力された音声から人声を含む区間の音声を切り出して音響分析部１３２２に送る。音声検出部１３２１での音声の切り出しには、例えば、入力のパワーの大小に基づく音声検出手法を利用できる。この音声検出手法では、入力のパワーを逐次計算し、入力のパワーが予め定めた閾値を一定時間連続して上回った時点を音声の開始時点と判定し、逆に、入力のパワーが予め定めた閾値を一定時間連続して下回った時点を音声の終了時点と判定する。音声検出部１３２１により切り出された音声は、音声開始時点から音声終了時点まで逐次音響分析部１３２２に送られる。また音声検出部１３２１は時刻情報を入力し、音声開始時刻と音声終了時刻を後段の音響分析部１３２２と発話時刻判定部１３２６に送る。

なお音声認識部１３２０の内部処理では音声検出部１３２１により切り出された音声をひとかたまりとして処理する。また、発話時刻判定部１３２６の判定が完了するまでは次の音声が音声検出部に入力されない構成とする。しかし音響分析部１３２２、音声照合部１３２３、発話時刻判定部１３２６にそれぞれ多段のバッファを設けることで発話時刻判定部の判定が完了することを待たずに次の音声を音声検出部１３２１に入力することも可能である。

音響分析部１３２２は、音声検出部１３２１により切り出された音声の音響分析を行う。そして、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficients）など音声の特徴を現す音響特徴量列と時刻情報とを音声照合部１３２３に送出する。

音響モデル格納部１３２４は、日本語音声を構成する単位である音素ごとに用意したＨＭＭ（Hidden Markov Model）などの標準パタンを格納している。この標準パタンを日本語単語・文章を構成する音素列に即して連結することで任意の日本語単語・文章に対応する標準パタンを作成することができる。

また、言語モデル格納部１３２５は、日本語の単語間、音素間などの接続関係を規定する言語モデルを格納している。この言語モデルにはいくつかの種類がある。例えば（１）音節間の接続関係を規定する連続音節認識文法、（２）単語間の接続関係を規定する文法規則、（３）Ｎ個の音素の組が連続する確率を規定する統計的言語モデル、（４）Ｎ個の単語の組が連続する確率を規定する統計的言語モデルなどである。

図１０は、言語モデルの例を示す図である。図１０（ａ）は、音節間の接続関係を規定する連続音節認識文法である。これは、子音／ｂ／／ｄ／・・・と母音／ａ／／ｉ／・・・の接続関係を規定している。図１０（ｂ）は、単語間の接続関係を規定する文法規則であり、これは、／単語１／／単語２／・・・の接続関係を規定している。

図９に戻って、音声照合部１３２３は、言語モデルに記された接続規則に従って音響モデルを接続して標準パタンを生成すると共に、Ｖｉｔｅｒｂｉアルゴリズムを用い、音響分析部１３２２から送出される音響特徴量列と標準パタンとを照合する。この照合の結果、両者の照合スコアを最大とする音声区間と標準パタンの対応が得られる。図１１は、音声照合部１３２３での照合処理を示す模式図である。図１１では、音響分析部１３２２から送出される音響特徴量列が音声照合部１３２３で標準パタンと照合される。これにより照合結果／ｓｈ／／ｉ／・・・／ｕ／が得られる。また音声照合部１３２３は、各音素に対応する音声区間の開始及び終了時刻を入力される時刻情報から取得することを示している。

音声照合部１３２３は、認識結果音素列および標準パタンを構成する各音素で構成された音素列の音声区間の開始時刻、終了時刻を取得する。音声照合部１３２３は、認識した音声区間の開始時刻と終了時刻を発話時刻判定部１３２６に入力する。

発話時刻判定部１３２６は、音声照合部１３２３から入力される音声区間の開始時刻及び終了時刻と、音声検出部１３２１から音声区間の開始時刻と終了時刻とを入力する。そして発話時刻判定部１３２６は、それぞれ開始時刻と終了時刻が一致した音声区間の開始時刻と音声の終了時刻を発話時刻情報として重要シーン判定部１３６０に出力する。

＜会議の重要シーンの判定処理＞
次に、会議の重要シーンの判定処理を説明する。図８に示すように、重要シーン判定部１３６０は、テキスト通信部１３１０から入力された入力時刻情報付き議事録テキストと、音声認識部１３２０から入力された発言の発話時刻情報との２つの情報から重要シーンを判定する。そして、図６及び図７で説明した会議イベントデータ１４１１を出力する。本実施例では重要シーンを判定する一例として、議事録テキストが入力された時刻から一定時刻内で行われた発言を判定する方法を示す。

発言イベントのレコード例は図７に示した会議イベントデータのうちｔｅｓｔ−ｆｌａｇが０のものである。例えばＩＤ＝１はｔｅｘｔ−ｆｌａｇが０、発言時刻の開始は６０ｓｅｃ、発言の終了時刻は６５ｓｅｃである発言イベントであることを示す。会議の対応シーンは図３に示したｅｖ０１であり、参加者Ｄが“会議を開始します”と発言した部分である。

議事録テキスト入力イベントのレコード例は図７に示した会議イベントデータのうちｔｅｘｔ−ｆｌａｇが１のものである。例えばＩＤ＝６はｔｅｘｔ−ｆｌａｇが１、テキスト入力時刻は１４０ｓｅｃ、議事録テキストは『本日の議題：今日のお昼ご飯の注文を決める』と入力した議事録テキスト入力イベントであることを示す。会議の対応シーンは図３に示したｅｖ０６であり、会議の議事録作成者が議事録テキストを入力した部分である。

会議の重要シーンは図７に示した会議イベントデータのうちｐ−ｆｌａｇが１の発言イベントである。本実施例では、議事録テキスト入力イベントの一定時刻内で最も近傍の発言イベントを重要シーンとして判定する。図７の例では、ＩＤ＝５，１３，１５，２０，２３で示すｐ−ｆｌａｇが１の発言イベントである。以下、重要シーンを判定する処理をフローチャートを用いて説明する。

図１２は重要シーンを判定する処理のフローチャートを示す図である。図１２に示す会議の重要シーンの判定処理は重要シーン判定部１３６０が行うものである。

ステップＳ１２０１において重要シーン判定部１３６０は、入力時刻付きテキスト情報又は発話時刻情報をテキスト通信部１３１０または音声認識部１３２０からそれぞれ入力する。すなわち、重要シーン判定部１３６０は、議事録入力イベント又は発言イベントを検出する。

ステップＳ１２０２において重要シーン判定部１３６０は、ステップＳ１２０１で入力した情報が発話時刻情報であればステップＳ１２０３に進む。ステップＳ１２０３において重要シーン判定部１３６０は、会議イベントデータに発言イベントのレコードを生成する。具体的には、ｔｅｘｔ−ｆｌａｇを０、ｄ−ｔｅｘｔをｎｕｌｌ、ｐ−ｆｌａｇを０とするレコードを生成する。

ステップＳ１２０３において重要シーン判定部は、ステップＳ１２０２で生成した発言イベントのレコードにステップＳ１２０１で入力した発話時刻情報の開始時刻と終了時刻をそれぞれ記録する。すなわち、発話時刻情報の開始時刻と終了時刻をｓ−ｓｔａｒｔとｓ−ｆｉｎｉｓｈにそれぞれ記録し処理を終了する。

一方、ステップＳ１２０２において重要シーン判定部１３６０はステップＳ１２０１で入力した情報が入力時刻付きテキスト情報であればステップＳ１２１０に進む。ステップＳ１２１０において重要シーン判定部１３６０は、会議イベントデータに議事録テキスト入力イベントのレコードを生成する。具体的には、ｔｅｘｔ−ｆｌａｇを１、ｐ−ｆｌａｇを０とするレコードを生成する。

ステップＳ１２１１において重要シーン判定部１３６０は、ステップＳ１２１０で生成した議事録テキスト入力イベントのレコードに、ステップＳ１２０１で入力した入力時刻付きテキスト情報のテキスト入力時刻を記録する。すなわち、テキスト入力時刻をｓ−ｓｔａｒｔとｓ−ｆｉｎｉｓｈに記録する。なお、本実施例では入力時刻付きテキスト情報の場合には、テキスト入力時刻をｓ−ｓｔａｒｔとｓ−ｆｉｎｉｓｈに同じ値を入力しているが、これに限られるものではない。例えば、ｓ−ｓｔａｒｔまたはｓ−ｆｉｎｉｓｈのいずれかをｎｕｌｌとしてもよい。また、別途異なる項目を設けてもよい。

ステップＳ１２１２において重要シーン判定部１３６０は、ステップＳ１２１０で生成したレコードのｄ−ｔｅｘｔにステップＳ１２０１で入力した議事録テキストの文字列を格納する。

ステップＳ１２１３において重要シーン判定部１３６０は、ステップＳ１２１１で記録したテキスト入力時刻から一定時刻前に発言イベントレコードがあるか判定する。ステップＳ１２１３で重要シーン判定部１３６０はテキスト入力時刻から一定時刻前に発言イベントレコードがないと判定した場合、処理を終了する。一方、重要シーン判定部１３６０が一定時刻前に発言イベントレコードがあると判定した場合、ステップＳ１２１４に処理を進める。ここで、判定に使用される一定時刻はあらかじめ設定された値を用いる。例えば３０ｓｅｃであるならばテキスト入力時刻より手前３０ｓｅｃ以内に発言イベントの発話終了時刻ｓ−ｆｉｎｉｓｈが存在するかを判定する。

ステップＳ１２１４において重要シーン判定部１３６０は、ステップＳ１２１１で記録したテキスト入力時刻から一定時刻内の発言イベントのうち、最も近傍の発言イベントレコードのｐ−ｆｌａｇを１に変更し処理を終了する。すなわち、重要シーン判定部１３６０は、議事録テキスト入力イベントの直前の発言イベントを重要シーンと判定する。一般に、議事録作成者は会議の要点を議事録として作成するので、議事録のテキストを入力した場合にはその直前の会話の内容が会議の要点に関わる可能性が高い。従って、本実施例では、重要シーン判定部１３６０は、議事録テキスト入力イベントの直前の発言イベントを重要シーンと判定する。

なお、図１２の処理は、図８に示すように重要シーン判定部に順次入力時刻情報付き議事録テキスト又は発話時刻情報が入力される例を示している。本処理では、古い時刻を有する入力時刻情報付き議事録テキスト又は発話時刻情報から順次入力されることになるが、例えば音声認識処理で時間を要した場合に入力時刻情報付き議事録テキスト又は発話時刻情報の入力順が時刻順にならない場合もあり得る。よって、例えば重要シーン判定部はバッファを有し、入力時刻情報付き議事録テキスト又は発話時刻情報を一定期間保持し、時刻が古いものに対して順次図１２に示す処理を行ってもよい。

＜会議記録視聴オペレーション＞
次に、図１３、図１４、図１５を用いて会議記録視聴オペレーションを説明する。

図１３は会議記録視聴端末の会議記録視聴時の表示画面の例を示す図である。会議記録視聴端末４００は会議サーバ１００の議事録データベース１４０に格納されている会議記録データの会議記録を議事録配信部１５０を介して再生する。

会議記録視聴をするためには、視聴者が会議記録視聴端末４００の視聴用ソフトを起動する。すると会議記録視聴端末４００の表示部４２０に図１３（ａ）に示すような画面が表示される。画面には視聴状態を示すインジケータ４２１１、重要シーン再生ボタン４２１２、通常再生ボタン４２１３、再生停止ボタン４２１４、スライドバー４２１５、映像表示部４２１６、及びテキスト表示部４２１７が表示される。

テキスト表示部４２１７には会議記録の議事録テキストが表示される。表示する議事録テキストは図７で示した会議イベントデータのうちｔｅｘｔ−ｆｌａｇが１で指定される議事録テキスト入力イベントのｄ−ｔｅｘｔである。

視聴者が画面の通常再生ボタン４２１３を押すと、映像表示部４２１６に会議記録の会議動画が通常速度で再生される。この状態でスライドバー４２１５を左右に操作すると動画のシーンをサーチできる。再生停止ボタン４２１４を押すと会議動画の再生を停止する。

視聴者が画面の重要シーン再生ボタン４２１２を押すと、図１３（ｂ）に示す画面の映像表示部４２１６に会議動画の重要シーンが通常速度で再生される。

なおスライドバーは会議動画の時刻と連動して再生開始時刻を選択できるので、会議動画の先頭だけでなく途中からも再生することが可能である。また、会議動画を再生している途中で、通常再生ボタンまたは重要シーン再生ボタンを押すことで、通常再生状態と、重要シーン再生状態とを切り替えることも可能である。

なお、図７の例は再生ボタンの例を示しているが、再生指示を入力するインターフェースであればいずれの形態であってもよい。

図１４は重要シーンを再生する様子を示す図である。本実施例では、図７で示した会議イベントデータのうちｐ−ｆｌａｇが１で指定される発言イベントの開始時刻と終了時刻の時刻区間は会議動画を通常速度で再生、それ以外の区間は高速で早送り再生する。通常速度で再生される具体的な例はイベントＩＤ＝５の１２０ｓｅｃから１３０ｓｅｃの間である。同様にＩＤ＝１３，ＩＤ＝１５，ＩＤ＝２０，ＩＤ＝２３のｓ−ｓｔａｒｔとｓ−ｆｉｎｉｓｈの区間が重要シーンの対象で、図１４に示した通り重要シーンは通常速度、それ以外のシーンは高速で早送り再生する。すなわち、重要シーンと判定された発言シーンを通常速度で再生し、重要シーンと判定された発言シーン以外のシーンを高速で早送り再生する。

図１５は会議動画を再生するフローチャートの一例を示す図である。図１５に示す処理は、会議サーバ１００の制御部１１０を構成するＣＰＵが、ＲＯＭなどに記憶されたプログラムを読み出して実行することにより実現される。会議動画の再生は会議サーバ１００の制御部１１０の制御に基づいて議事録配信部１５０で処理される。

図１５に示す処理は、概略すると、通常再生するか、重要シーンを再生するかを判定し、通常再生すると判定したならば会議動画を全て通常再生する。一方、重要シーンを再生すると判定すると、会議イベントデータの先頭からひとつずつ会議イベントを取得し、重要シーンであれば通常再生し、重要シーン以外は高速早送り再生する処理である。

ステップＳ１５０１において議事録配信部１５０は議事録データベース１４０に格納されている会議記録データ１４１０のうち、会議動画１４１２を先頭に頭出しする。

ステップＳ１５０２において議事録配信部１５０は、押された再生ボタンは重要シーン再生ボタンかを判定する。ステップＳ１５０２において議事録配信部１５０が重要シーン再生ボタンでないと判定した場合、すなわち通常再生ボタンであると判定した場合、ステップＳ１５０９に処理を進める。ステップＳ１５０９において議事録配信部１５０は、重ステップＳ１５０１で頭出しした会議動画を最後まで通常再生して処理を終了する。

一方、ステップＳ１５０２において議事録配信部１５０は重要シーン再生ボタンであると判定した場合ステップＳ１５０３に処理を進める。ステップＳ１５０３において議事録配信部１５０は、図７で示した会議イベントデータから会議イベントを１つ取得する。ステップＳ１５０３では、議事録配信部１５０は例えばイベントＩＤの若い番号から順に取得する。

ステップＳ１５０４において議事録配信部１５０は、ステップＳ１５０３で取得した会議イベントが発言イベントか否かをｔｅｘｔ−ｆｌａｇの値に基づいて判定する。ステップＳ１５０４において議事録配信部１５０が発言イベントと判定しない場合、ステップＳ１５１０に処理を進める。一方ステップＳ１５０４において議事録配信部１５０が発言イベントと判定した場合、ステップＳ１５０５において議事録配信部１５０は発言イベントの発言開始時刻まで高速早送り再生する。

次に、ステップＳ１５０６において議事録配信部１５０は、ステップＳ１５０３で取得した会議イベントが重要シーンであるか否かを会議イベントのｐ−ｆｌａｇの値に基づいて判定する。ステップＳ１５０６において重要シーンであると判定した場合、ステップＳ１５０７において議事録配信部１５０はステップＳ１５０３で取得した発言イベントの発言終了時刻まで通常再生する。すなわち、会議動画の動作としては、会議イベントの発言開始時刻まで高速早送り再生を行い、重要シーンの発言開始時刻から発言終了時刻までは通常再生を行う。その後、ステップＳ１５１０に処理を進める。

一方、ステップＳ１５０６において議事録配信部１５０は、ステップＳ１５０３で取得した会議イベントが重要シーンでないと判定した場合、ステップＳ１５０８に処理を進める。ステップＳ１５０８において議事録配信部１５０はステップＳ１５０３で取得した発言イベントの発言終了時刻まで高速早送り再生する。その後、ステップＳ１５１０に処理を進める。ステップＳ１５０８を通る会議動作の動作としては、ステップＳ１５０３で会議イベントを取得してから会議イベントの発言終了時刻まで高速早送り再生が行われる。

ステップＳ１５１０において議事録配信部１５０は、会議イベントデータが残っているかを判定する。残っていれば議事録配信部１５０はステップＳ１５０３に戻り、残っていなければステップＳ１５１１に処理を進め、会議動画の最後まで高速早送り再生をして処理を終了する。

以上の処理により、視聴者はテキスト表示部４２１７に表示される議事録テキストとあわせて会議記録の重要シーンを視聴することで、会議の内容を短時間で理解することができる。特に、議事録だけではわからない会議の雰囲気や決定に至るまでの状況を素早く確認することができる。このように、本実施例では会議動画の中から音声認識することで雑音を除去し、人が話した言葉と判定した時刻と、テキスト議事が入力された時刻が一定時間内であるシーンを会議の重要シーンと判定する。そして議事録に記載されない余計な発言シーンを通常視聴の対象外とすることで、ユーザは会議動画のなかから議事録に記載された議事に対応する重要シーンを効率良く見ることができる。

なお、本実施例では、重要シーン再生ボタン４２１２を押すことにより、重要シーンは通常再生され、それ以外のシーンは早送り再生される例を説明した。しかしながら本実施例はこれに限られることはない。例えば、重要シーン再生ボタン４２１２を押すことにより、重要シーンは通常再生され、その他のシーンは再生しないように制御してもよい。

実施例１では、議事録テキスト入力イベントの直前の会話イベントを重要シーンであると判定する手法を説明した。実施例２では、重要シーンの重要度に高低をつけ、重要シーンのなかでも特に重要度が高い部分を通常速度で再生する方法を説明する。例えば重要シーンの中でも、一定時間内に複数の話者が発言している部分の重要度を高く、その他の発言部分の重要度は低いと判定することができる。会議はその性質上、複数の話者によって議題が進行するものであり、複数の話者が議論した後に議事録作成者が議事録を作成するシーンの方が、単数の話者が発した後に議事録作成者が議事録を作成するシーンよりも重要である可能性が高いからである。話者は一例として音声の方向で区別することができる。

＜話者の区別＞
図１６は、音声の方向と話者の関係を示す図である。図１６に示す会議風景撮影端末３００はステレオマイクを備えて音声の方向を検出可能な構成である。図１６では、会議風景撮影端末３００が撮影を行っている設置場所からの音声が発せられた方向を示しており、参加者Ｃは４５度、参加者Ｄは７０度、参加者Ｂは１２０度、参加者Ａは１３５度の位置にいる。

＜発話方向検出処理＞
音声の方向の検出処理は図９に示した会議サーバ１００の音声認識部１３２０内部の音声検出部１３２１で行う。具体的にはステレオマイクで取得された音声データの左右のマイクが収音する時間のズレから発話方向を角度として算出し、発話方向情報として発話時刻情報と共に音声認識部の発話時刻判定部１３２６から出力する。すなわち、本実施例において音声認識部１３２０からは、発話時刻情報と発話方向情報とが出力される。

＜会議記録フォーマット＞
図１７は実施例２の会議イベントデータの内部フォーマットを示す図である。実施例２の会議イベントデータでは、図１７に示す通り、実施例１のフォーマットに加えて発話方向情報を格納するｓ−ｄｉｒの項目を追加する。発言イベントの場合はｓ−ｄｉｒに音声認識部１３２０が出力する発話方向情報を格納し、議事録テキスト入力イベントの場合には０を格納する。

＜会議の重要シーンの抽出処理＞
次に、図８、図１８を用いて会議の重要シーンの抽出処理を説明する。会議の重要シーンの抽出処理は図８で前出したとおり、重要シーン判定部１３６０で行うものである。実施例２においては、重要シーン判定部１３６０ではテキスト通信部１３１０から入力した入力時刻情報付き議事録テキストと、音声認識部１３２０から入力した発言の発話時刻情報と発話方向情報との３つの情報を入力する。そしてそれら３つの情報から重要度の高低をつけた重要シーンを判定し、議事録生成部１３０が図１７で説明したフォーマットの会議イベントデータ１４１１を出力する。本実施例では発話時刻情報及び発話方向情報から一定時間内に発言している話者数を判定し、重要度の高低をつける方法を示す。

会議の重要シーンは図１７に示した会議イベントデータのうちｐ−ｆｌａｇが１と２の発言イベントである。ｐ−ｆｌａｇが１ならば重要度は低、ｐ−ｆｌａｇが２ならば重要度は高であることを示す。

具体的にはＩＤ＝５のイベントが重要度は低の発言イベントである。これはＩＤ＝６の議事録テキスト入力イベントの一定時刻内、ここでは６０ｓｅｃに存在する発言イベントのｓ−ｄｉｒがＩＤ＝５，４，３全て７０で同じ話者だからである。

一方ＩＤ＝１３のイベントが重要度は高の発言イベントである。これはＩＤ＝１４の議事録テキスト入力イベントの一定時刻内、ここでは６０ｓｅｃに存在する発言イベントすなわちＩＤ＝１０〜ＩＤ＝１３のｓ−ｄｉｒが７０，１３５，１２０で３種類存在し、話者が複数だからである。

次に、実施例２における重要シーンを判定する処理について説明する。図１８は実施例２における重要シーンを判定する処理のフローチャートを示す図である。ステップＳ１８０１からステップＳ１８１２は、ステップＳ１８０４を除き図１２のステップＳ１２０１からステップＳ１２１２と同様の処理であるので説明を省略する。

ステップＳ１８０４において重要シーン判定部１３６０は、ステップＳ１８０２で生成した発言イベントのレコードにステップＳ１８０１で入力した発話時刻情報の開始時刻と終了時刻をそれぞれｓ−ｓｔａｒｔとｓ−ｆｉｎｉｓｈに記録する。また発話方向情報をｓ−ｄｉｒに記録する。

ステップＳ１８１３において重要シーン判定部１３６０は、ステップＳ１８１１で記録したテキスト入力時刻から一定時刻前に発言イベントレコードがあるかを判定し、存在しなければ処理を終了する。一方、一定時刻前に発言イベントレコードがあると判定した倍亜、重要シーン判定部１３６０はステップＳ１８２０に進む。ここで、ステップＳ１８１３における判定に使用する一定時刻はあらかじめ設定された値を用いる。例えば６０ｓｅｃであるならばテキスト入力時刻より手前６０ｓｅｃ以内に発言イベントの発話終了時刻ｓ−ｆｉｎｉｓｈが存在するかを判断する。なお、本実施例では複数人の話者か否かを判定するために実施例１よりも長い値を用いている例を示しているが、実施例１と同様に３０ｓｅｃでもよく、いずれの値であってもよい。

ステップＳ１８２０において重要シーン判定部１３６０は、ステップＳ１８１１で記録したテキスト入力時刻から一定時刻前にある発言イベントレコード内の発話方向が２種類以上あるかを判定する。２種類以上あると判定した場合、重要シーン判定部１３６０はステップＳ１８２１に進み、２種類以上ないと判定した場合、ステップＳ１８２２に進む。ここで、ステップＳ１８２０の判定に使用する一定時刻とはあらかじめ設定された値を用いる。例えば６０ｓｅｃであるならばテキスト入力時刻より手前６０ｓｅｃ以内に発言イベントの発話方向ｓ−ｄｉｒの内容を判定対象とする。なお、ステップＳ１８１３とステップＳ１８２０の一定時刻は同じ値を用いているが、違う値であってもよい。

発話方向が２種類以上ないと判定した場合、ステップＳ１８２２において重要シーン判定部１３６０はステップＳ１２１１で記録したテキスト入力時刻から一定時刻前で最も近傍の発言イベントレコードのｐ−ｆｌａｇを１に変更し処理を終了する。すなわち、ステップＳ１８２２は実施例１で説明したステップＳ１２１４と同様の処理を行う。

一方、発話方向が２種類以上あると判定した場合、ステップＳ１８２１に処理を進める。ステップＳ１８２１において重要シーン判定部１３６０は、ステップＳ１８１１で記録したテキスト入力時刻から一定時刻前で最も近傍の発言イベントレコードのｐ−ｆｌａｇを、重要度がより高いことを示す２に変更し処理を終了する。

＜会議記録視聴オペレーション＞
次に、図１９、図２０、図２１を用いて会議記録視聴オペレーションを説明する。図１９は実施例２の会議記録視聴端末の会議記録視聴時の表示画面を示す図である。実施例１と同様に実施例２においても会議記録視聴端末４００は会議サーバ１００の議事録配信部１５０を経由して議事録データベース１４０に格納されている会議記録データの会議記録を再生する。図１９に示す会議記録視聴端末４００の視聴用ソフトを起動した際の画面は実施例１の画面に加えてレベル選択スイッチ４２２０を追加している。レベル選択スイッチ４２２０をＨＩにセットした状態で重要シーン再生ボタンを押すと、重要度が高い重要シーンを通常再生し、それ以外のシーンは高速で早送り再生する。レベル選択スイッチをＬＯにセットした状態で重要シーン再生ボタンを押すと、全ての重要シーンを通常再生する。なお、レベル選択スイッチをＬＯにセットした状態の重要シーン再生は、実施例１と同じである。すなわち、図１９に示す画面は、動作モードを第１のモードと第２のモードとの間で切り替えるスイッチを含む。

図２０は実施例２の重要シーンを再生する様子を示す図である。図２０はレベル選択スイッチをＨＩにセットした状態での再生状態を示す。図１７に示すように会議イベントデータのうち重要度がＨＩつまりｐ−ｆｌａｇが２で指定される重要シーンの発言イベントの開始時刻と終了時刻の時刻区間は会議動画を通常速度で再生する。一方、それ以外の区間は高速で早送り再生する。具体的にはＩＤ＝１３，ＩＤ＝１５，ＩＤ＝２０，ＩＤ＝２３のｓ−ｓｔａｒｔとｓ−ｆｉｎｉｓｈの区間が重要度が高い重要シーンの対象で、図２０に示した通り重要度が高い重要シーンは通常速度、それ以外のシーンは高速で早送り再生する。

図２１は実施例２の会議動画を再生するフローチャートの一例を示す図である。会議動画の再生は会議サーバ１００の議事録配信部１５０で処理され、その処理は図２１のフローチャートに記載した通り処理する。実施例２では、議事録配信部１５０は通常再生するか、重要シーンを再生するかを判定する。そして通常再生すると判定したならば会議動画を全て通常再生する。重要シーンを再生すると判断すると、会議イベントデータの先頭からひとつずつ会議イベントを取得し、重要レベルが高い重要シーンであれば通常再生する。重要度が低い重要シーンは設定に応じて通常再生するか高速早送り再生する。重要シーン以外は高速早送り再生する。

図２１は図１５のステップＳ１５０６のＹＥＳの場合にステップＳ２１０１とステップＳ２１０２の処理を追加した以外は、図１５に示す例と同じである。実施例２では、図１５に示した実施例１のフローチャートとの差分のみを説明する。

ステップＳ１５０６で議事録配信部１５０は、会議イベントのｐ−ｆｌａｇの値が０かそれ以外かで重要シーンが否かを判定する。ｐ−ｆｌａｇが０であり重要シーンでなければ実施例１と同様にステップＳ１５０８に進み議事録配信部１５０は発言終了時刻まで高速早送り再生する。

一方、ステップＳ１５０６で議事録配信部１５０は、会議イベントのｐ−ｆｌａｇの値が０以外であれば重要シーンと判定してステップＳ２１０１へ進む。

ステップＳ２１０１において議事録配信部１５０は、重要レベルはＨＩか否かを判定する。議事録配信部１５０はｐ−ｆｌａｇが２であれば重要レベルはＨＩと判定し、ステップＳ１５０７に進み発言終了時刻まで通常再生する。一方、ステップＳ２１０１において議事録配信部１５０はｐ−ｆｌａｇが１であれば重要レベルはＨＩでないと判定し、ステップＳ２１０２へ進む。

ステップＳ２１０２において議事録配信部１５０は、会議記録視聴端末４００のレベル選択スイッチ４２２０のレベル選択がＨＩかを判定し、ＨＩであればステップＳ１５０８で発言終了時刻まで高速早送り再生する。一方、ステップＳ２１０２において議事録配信部１５０はレベル選択スイッチ４２２０のレベル選択がＨＩでなければステップＳ１５０７で発言終了時刻まで通常再生する。

以上の処理により、視聴者はテキスト表示部４２１７に表示される議事録テキストとあわせて会議記録の重要シーンをみることで、会議の内容を短時間で理解することができる。実施例２では実施例１の効果に加えて、重要シーンの重要度に高低をつけ、重要シーンのなかでも特に重要度が高い部分のみを通常速度で再生することが可能である。

重要シーンとして判定する範囲を複数種類用意し、再生時に再生範囲を選択できるようにする方法も考えられる。会議記録視聴端末を複数用意し、会議記録視聴端末毎に再生範囲の設定を変えておくことで会議視聴を行う端末に応じて再生範囲を変えることが可能になる。例えば、重要シーンの中でもさらに要点だけ速やかに確認したいユーザと、そうでないユーザとに対して、会議記録視聴端末側の再生範囲の設定に応じて再生範囲を変えることができる。

＜会議記録フォーマット＞
図２２は実施例３の会議イベントデータの内部フォーマットを示す図である。同２２に示す通り、実施例１のフォーマットに加えて第二の重要シーンを示すｐ２−ｆｌａｇの項目を追加する。

＜会議の重要シーンの判定処理＞
次に、図８、図２３を用いて実施例３の会議の重要シーンの判定処理を説明する。会議の重要シーンの判定処理は図８で前出したとおり、重要シーン判定部１３６０で行うものである。実施例３においては、重要シーン判定部１３６０は重要シーンとして判定する範囲を２種類とし、実施例１で判定する範囲よりも長い範囲を第二の重要シーンとして判定する。

実施例３では、議事録テキスト入力イベントの一定時刻の内、例えば６０ｓｅｃ内に存在する発言イベントの最も近傍のものを判定した結果をｐ−ｆｌａｇに格納する。このように直近の発言イベントを重要シーンと判定してｐ−ｆｌａｇに格納する処理は実施例１と同様である。実施例３ではさらに、第二の重要シーンとして議事録テキスト入力イベントの一定時刻の内、例えば６０ｓｅｃ内に存在する発言イベントの全てを重要シーンと判定した結果をｐ２−ｆｌａｇに格納する。

図２３は実施例３の重要シーンを判定する処理のフローチャートを示す図である。実施例１との差分のみ説明する。図２３で示す処理は、実施例１で説明した図１２の処理にステップＳ２３０１の処理が追加されている以外は図１２で説明した処理と同じである。

重要シーン判定部１３６０は、ステップＳ１２１３でテキスト入力時刻から一定時刻前に発言イベントレコードがあるか判定する。ここで、判定に使用する一定時刻とはあらかじめ設定された値を用いる。例えば６０ｓｅｃであるならばテキスト入力時刻より手前６０ｓｅｃ以内に発言イベントの発話終了時刻ｓ−ｆｉｎｉｓｈが存在するかを判定する。

ステップＳ１２１３でテキスト入力時刻から一定時刻前に発言イベントレコードがあるか判定した場合、ステップＳ１２１４に進む。ステップＳ１２１４の処理は実施例１と同じである。すなわち、重要シーン判定部１３６０はステップＳ１２１０で記録したテキスト入力時刻から一定時刻前で最も近傍の発言イベントレコードのｐ−ｆｌａｇを１に変更する。

次に、ステップ２３０１において重要シーン判定部１３６０は、ステップＳ１２１０で記録したテキスト入力時刻から一定時刻前の全発言イベントレコードのｐ２−ｆｌａｇを１に変更し処理を終了する。

＜会議記録視聴オペレーション＞
次に、図２４、図２５、図２６を用いて実施例３の会議記録視聴オペレーションを説明する。図２４は実施例３の会議記録視聴端末の会議記録視聴時の表示画面を示す図である。実施例１と同様に実施例３においても会議記録視聴端末４００は会議サーバ１００の議事録配信部１５０を経由して議事録データベース１４０に格納されている会議記録データの会議記録を再生する。図２４の会議記録視聴端末４００の視聴用ソフトを起動した際の画面は、実施例１の画面に加えて再生範囲選択スイッチ４２２１を追加している。再生範囲選択スイッチ４２２１をＬＯＮＧにセットした状態で、重要シーン再生ボタンを押すとｐ２−ｆｌａｇで指定した第二の重要シーンを通常再生し、それ以外のシーンは高速で早送り再生する。一方、再生範囲選択スイッチをＳＨＯＲＴにセットした状態で、重要シーン再生ボタンを押すとｐ−ｆｌａｇで指定した重要シーンを通常再生し、それ以外のシーンは高速で早送り再生する。再生範囲選択スイッチをＳＨＯＲＴにセットした状態の重要シーン再生は、実施例１と同じである。

図２５は実施例３の重要シーンを再生する様子を示す図である。図２５は再生範囲選択スイッチをＬＯＮＧにセットした状態での再生状態を示す。図２２で示した会議イベントデータのうちｐ２−ｆｌａｇが１で指定される発言イベントの開始時刻と終了時刻の時刻区間は会議動画を通常速度で再生、それ以外の区間は高速で早送り再生する。図２５に示した通り重要シーンは通常速度、それ以外のシーンは高速で早送り再生する。

図２６は実施例３の会議動画を再生するフローチャートの一例を示す図である。実施例３における会議動画の再生も実施例１と同様に会議サーバ１００の議事録配信部１５０で処理され、その処理は図２６のフローチャートに記載した通り処理する。実施例３では議事録配信部１５０は通常再生するか、重要シーンを再生するかを判定する。そして通常再生すると判定したならば会議動画を全て通常再生する。重要シーンを再生すると判定すると、会議イベントデータの先頭からひとつずつ会議イベントを取得する。そして、再生範囲選択スイッチ４２２１の状態に応じて、再生範囲選択スイッチの設定がＬＯＮＧであればｐ２−ｆｌａｇで示した重要シーンを通常再生し、それ以外は高速早送り再生する。一方再生範囲選択スイッチの設定がＳＨＯＲＴであればｐ−ｆｌａｇで示した重要シーンを通常再生し、それ以外は高速早送り再生する。

以下、図２６を用いて説明する。なお、図２６に示す処理は、図１５のステップＳ１５０６からステップＳ１５０８の処理をステップＳ２６０１からステップＳ２６０６の処理に変更したものである。それ以外のステップについては図１５のフローチャートと同じであるので、以下では図１５に示した実施例１のフローチャートとの差分のみ説明する。

ステップＳ２６０１において議事録配信部１５０は、会議記録視聴端末４００の再生範囲選択スイッチの状態がＳＨＯＲＴであるかまたはＬＯＮＧであるかを判定する。ＳＨＯＲＴであれば議事録配信部１５０はステップＳ２６０２に進み、ＬＯＮＧであればステップＳ２６０５に進む。

ＳＨＯＲＴであると判定した場合、ステップＳ２６０２において議事録配信部１５０は、会議イベントのｐ−ｆｌａｇの値に基づいて重要シーンか否かを判定する。重要シーンと判定した場合、ステップＳ２６０３に進み、議事録配信部１５０は発言終了時刻まで通常再生する。重要シーンでないと判定した場合、議事録配信部１５０はステップＳ２６０４に進み発言終了時刻まで高速早送り再生する。そしてステップ１５１０へ進む。

一方、ＬＯＮＧであると判定した場合、ステップＳ２６０５において議事録配信部１５０は、会議イベントのｐ２−ｆｌａｇの値に基づいて重要シーンか否かを判定する。重要シーンと判定した場合、ステップＳ２６０６に進み、議事録配信部１５０は発言終了時刻まで通常再生する。重要シーンでないと判定し場合、議事録配信部１５０はステップＳ２６０４に進み発言終了時刻まで高速早送り再生する。そしてステップＳ１５１０へ進む。

以上のとおり、実施例３によれば重要シーンとして判定する範囲を複数種類用意することにより、再生時にその範囲を選択できる。このため、重要シーンの中でもさらに要点だけ速やかに確認したいユーザと、そうでないユーザとに対して、会議記録視聴端末側の再生範囲の設定に応じて再生範囲を変えることができる。

＜その他の実施例＞
上記の各実施例においては、議事録テキスト入力イベントの時刻から所定時間より前の時刻の発言イベントを重要シーンとして判定する例を説明した。しかしながら、議事録テキスト入力イベントの時刻から所定時間より前及び後の時刻の発言イベントを重要シーンとして判定してもよい。すなわち、議事録テキスト入力イベントの時刻から一定範囲内の時刻の発言イベントを重要シーンとして判定してもよい。

また、上記の各実施例において、例えば実施例１では、重要シーンを通常再生し、それ以外のシーンを高速早送り再生する例を説明した。しかしながら重要シーンとそれ以外のシーンとで異なるように再生がされればよく、上記の各実施例に示す例に限定されるものではない。また、重要シーンを通常再生し、それ以外のシーンをスキップしてもよい。すなわち、重要シーンのみを再生してもよい。あるいは重要シーンを通常再生より速い１．５倍で再生し、それ以外のシーンを重要シーンの再生時よりも速い５倍で再生してもよい。また、重要シーンを通常再生より遅く例えば０．９倍で再生し、それ以外のシーンを通常再生より速く例えば３倍で再生するという処理であってもよい。このように、重要シーンを第１の速度で再生し、それ以外のシーンを第１の速度より速い第２の速度で再生することができる。

また、上記の各実施例では、議事録テキスト入力イベントの時刻情報はテキスト入力開始時刻またはテキスト入力終了時刻であるものとして説明した。しかしながら、係る例に限定されるものではなく、テキスト入力開始時刻及びテキスト入力終了時刻としてもよい。すなわち、各実施例の重要シーンは、テキスト入力開始時刻の例えば近傍の発言イベントと、テキスト入力終了時刻の近傍の発言イベントの両方であると判定してもよい。また、本実施例では、議事録作成者が通常の内容のテキストを入力している例を挙げて説明しているが、極端な例では、単に改行キーを押下することでも議事録テキスト入力イベントが会議操作端末２００から会議サーバ１００に送信されることも可能である。

また、上記の各実施例では再生速度が変更された動画を会議サーバ１００から会議記録視聴端末４００に配信する例を説明した。しかしながら、会議サーバ１００からは単に動画と重要シーンの時刻情報とが会議記録視聴端末に配信される構成でもよい。そして、再生速度の制御は重要シーンの時刻情報に基づいて会議記録視聴端末４００側で行う構成でもよい。

また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

会議の議事録テキスト入力イベントと発言イベントとを検出する検出手段と、
検出した議事録テキスト入力イベントの時刻情報と発言イベントの時刻情報とに基づいて前記会議の重要シーンを判定する判定手段と
を有することを特徴とする情報処理装置。
前記判定手段は、検出した議事録テキスト入力イベントの時刻情報から一定範囲内の時刻の時刻情報を有する発言イベントを前記会議の重要シーンと判定することを特徴とする請求項１に記載の情報処理装置。
前記判定手段は、検出した議事録テキスト入力イベントの時刻情報から一定範囲内の時刻情報を有する発言イベントうちの直近の発言イベントを前記会議の重要シーンと判定することを特徴とする請求項１に記載の情報処理装置。
前記判定手段は、検出した議事録テキスト入力イベントの時刻情報から一定範囲内の時刻情報を有する複数の発言イベントを前記会議の重要シーンと判定することを特徴とする請求項１に記載の情報処理装置。
前記議事録テキスト入力イベントと前記発言イベントと前記重要シーンを示すデータとを含む会議イベントデータと、前記会議の会議動画とを記憶手段に記憶する制御手段をさらに有することを特徴とする請求項１から４のいずれか一項に記載の情報処理装置。
前記記憶手段に記憶される会議イベントデータに基づいて前記記憶手段に記憶される前記会議動画を配信する配信手段をさらに有する請求項５に記載の情報処理装置。
前記配信手段は、前記重要シーンを示すデータが関連付けられている発言イベントを通常速度で配信し、その他のイベントは通常速度より速い速度の早送り速度で配信することを特徴とする請求項６に記載の情報処理装置。
前記配信手段は、前記重要シーンを示すデータが関連付けられている発言イベントを第１の速度で配信し、その他のイベントは前記第１の速度より速い第２の速度で配信することを特徴とする請求項６に記載の情報処理装置。
前記配信手段は、前記重要シーンを示すデータが関連付けられている発言イベントを通常速度で配信し、その他のイベントは配信しないことを特徴とする請求項６に記載の情報処理装置。
前記検出手段は、発言者の発話方向をさらに検出し、
前記判定手段は、検出した議事録テキスト入力イベントの時刻情報から一定範囲内の時刻情報を有する発言イベントが複数の発話方向に対応するかを判定し、
複数の発話方向に対応する場合、検出した議事録テキスト入力イベントの時刻情報の時刻から一定範囲内の時刻情報を有する発言イベントを前記会議の第１の重要シーンと判定することを特徴とする請求項１から４のいずれか一項に記載の情報処理装置。
前記判定手段は、複数の発話方向に対応しない場合、検出した議事録テキスト入力イベントの時刻情報の時刻から一定範囲内の時刻情報を有する発言イベントを前記会議の第２の重要シーンと判定することを特徴とする請求項１０に記載の情報処理装置。
前記判定手段は、検出した議事録テキスト入力イベントの時刻情報から一定範囲内の時刻情報を有する発言イベントうちの直近の発言イベントを前記会議の第１の重要シーンと判定し、
前記判定手段は、検出した議事録テキスト入力イベントの時刻情報から一定範囲内の時刻の時刻情報を有する複数の発言イベントを前記会議の第２の重要シーンと判定する請求項１から４のいずれか一項に記載の情報処理装置。
前記議事録テキスト入力イベントと前記発言イベントと前記第１の重要シーン又は前記第２の重要シーンを示すデータとを含む会議イベントデータと、前記会議の会議動画とを記憶手段に記憶する制御手段と、
前記記憶手段に記憶される会議イベントデータに基づいて前記記憶手段に記憶される前記会議動画を配信する配信手段とをさらに有する請求項１１または１２に記載の情報処理装置であって、
前記配信手段は、前記第１の重要シーンを示すデータが関連付けられている発言イベントを第１の速度で配信し、前記第２の重要シーンを示すデータが関連付けられている発言イベントを含むその他のイベントは前記第１の速度より速い第２の速度で配信することを特徴とする請求項１１または１２に記載の情報処理装置。
前記議事録テキスト入力イベントと前記発言イベントと前記第１の重要シーン又は前記第２の重要シーンを示すデータとを含む会議イベントデータと、前記会議の会議動画とを記憶手段に記憶する制御手段と、
前記記憶手段に記憶される会議イベントデータに基づいて前記記憶手段に記憶される前記会議動画を配信する配信手段とをさらに有する請求項１１または１２に記載の情報処理装置であって、
前記検出手段は、前記配信手段で配信される前記会議動画を視聴する視聴装置における動作モードをさらに検出し、
前記動作モードが第１のモードを示す場合、前記配信手段は、前記第１の重要シーンを示すデータが関連付けられている発言イベントを第１の速度で配信し、前記第２の重要シーンを示すデータが関連付けられている発言イベントを含むその他のイベントは前記第１の速度より速い第２の速度で配信する請求項１１または１２に記載の情報処理装置。
前記動作モードが前記第１のモードと異なる第２のモードを示す場合、前記配信手段は、前記第１の重要シーン及び前記第２の重要シーンを示すデータが関連付けられている発言イベントを前記第１の速度で配信し、その他のイベントは前記第２の速度で配信する請求項１４に記載の情報処理装置。
会議の会議動画を視聴する情報処理装置であって、
前記会議の議事録テキスト入力がされた時刻から一定範囲内の時刻の発言シーンを第１の速度で再生し、前記発言シーン以外の残りの会議動画を前記第１の速度より速い第２の速度で再生する再生手段を
有することを特徴とする情報処理装置。
第１のモード及び第２のモードを含む動作モードを設定する設定手段をさらに有し、
前記設定手段で第１のモードが設定されている場合、
前記再生手段は前記会議の議事録テキスト入力がされた時刻から一定範囲内の時刻のうちの１つの発言シーンを前記第１の速度で再生し、前記１つの発言シーン以外の残りの会議動画を前記第２の速度で再生し、
前記設定手段で第２のモードが設定されている場合、
前記再生手段は前記会議の議事録テキスト入力がされた時刻から一定範囲内の時刻のうちの複数の発言シーンを前記第１の速度で再生し、前記複数の発言シーン以外の残りの会議動画を前記第２の速度で再生する
ことを特徴とする請求項１６に記載の情報処理装置。
会議の会議動画を視聴する情報処理装置であって、
前記会議の議事録テキスト入力がされた時刻から一定範囲内の時刻の発言シーンを第１の速度で再生し、前記発言シーン以外の残りの会議動画を前記第１の速度より速い第２の速度で再生する再生指示を入力するインターフェースを有することを特徴とする情報処理装置。
会議の議事録テキスト入力イベントと発言イベントとを検出する検出ステップと、
検出した議事録テキスト入力イベントの時刻情報と発言イベントの時刻情報とに基づいて前記会議の重要シーンを判定する判定ステップと
を有することを特徴とする情報処理方法。
会議の会議動画を視聴する情報処理方法であって、
前記会議の議事録テキスト入力がされた時刻から一定範囲内の時刻の発言シーンを第１の速度で再生し、前記発言シーン以外の残りの会議動画を前記第１の速度より速い第２の速度で再生する再生ステップを
有することを特徴とする情報処理方法。
コンピュータを請求項１から１８のいずれか一項に記載の情報処理装置として機能させるためのプログラム。