JP2015061194A - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP2015061194A
JP2015061194A JP2013193386A JP2013193386A JP2015061194A JP 2015061194 A JP2015061194 A JP 2015061194A JP 2013193386 A JP2013193386 A JP 2013193386A JP 2013193386 A JP2013193386 A JP 2013193386A JP 2015061194 A JP2015061194 A JP 2015061194A
Authority
JP
Japan
Prior art keywords
conference
event
time
minutes
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013193386A
Other languages
English (en)
Inventor
奥津 俊久
Toshihisa Okutsu
俊久 奥津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2013193386A priority Critical patent/JP2015061194A/ja
Publication of JP2015061194A publication Critical patent/JP2015061194A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】会議を記録した動画の中から重要シーンを効率良く見ること。【解決手段】会議の議事録テキスト入力イベントと発言イベントとを検出する。検出した議事録テキスト入力イベントの時刻情報と発言イベントの時刻情報とに基づいて会議の重要シーンを判定する。【選択図】図8

Description

本発明は情報処理装置、情報処理方法及びプログラムに関し、特に会議風景動画の重要シーンを抽出して効率的な再生を可能にする技術に関する。
一般に、組織において会議での議論内容は重要な資産であり、会議の後には議事録の提出が求められることが多い。会議には議事録作成者がいてパソコンを利用してテキスト議事録を作成している。またビデオカメラを用いて会議風景を動画記録し、発言内容や場の雰囲気も記録するようになっている。
しかし会議を丸ごと記録した動画の中から重要シーンを効率良く見るにはテキストで記載された議事録を参照しながら動画をサーチする必要があり面倒である。そこで、動画を効率良く見るための技術が求められる。特許文献1は、あらかじめ映像に字幕を付加した動画コンテンツを再生する際に、字幕が存在しないシーンは飛ばし、字幕が付加された映像シーンを再生する技術を開示している。この技術により映像を視聴するユーザは字幕が存在する映像のみを視聴することで動画コンテンツの内容を効率良く把握できる。
国際公開第09/044818号
しかしながら、特許文献1に記載の技術は会議の画面の動画を再生することに適していない。なぜなら特許文献1に記載の技術はあらかじめ動画と対応付けられた字幕が存在する全てのシーンを視聴の対象としているからである。仮に特許文献1に記載の技術を会議の場面に適用する場合、全ての発言をテキストの字幕にすることで会議の動画コンテンツを視聴の対象とする方法が考えられるが、余計な発言シーンまで視聴の対象となってしまう。従って、ユーザは会議動画のなかから重要なシーンを効率良く見ることができないという課題がある。
本発明に係る情報処理装置は、会議の議事録テキスト入力イベントと発言イベントとを検出する検出手段と、検出した議事録テキスト入力イベントの時刻情報と発言イベントの時刻情報とに基づいて前記会議の重要シーンを判定する判定手段とを有することを特徴とする。
本発明によれば、会議動画の中の重要シーンを抽出することができる。従って、重要シーンを効率よく視聴することができる。
本実施形態における会議システムの構成を示す図である。 会議風景を示す図である。 会議の流れを示す図である。 会議操作端末の議事録作成時の表示画面を示す図である。 処理シーケンスを示す図である。 会議記録データ管理構造を示す図である。 会議イベントデータの内部フォーマットを示す図である。 議事録生成部の構成を示す図である。 音声認識部の構成を示す図である。 音声認識における言語モデルを示す図である。 音声認識部での照合処理の模式を示す図である。 重要シーンを判定する処理のフローチャートを示す図である。 会議記録視聴端末の会議記録視聴時の表示画面を示す図である。 重要シーンを再生する様子を示す図である。 会議動画を再生するフローチャートである。 音声の方向と話者の関係を示す図である。 実施例2の会議イベントデータの内部フォーマットを示す図である。 実施例2における重要シーンを判定する処理のフローチャートを示す図である。 実施例2の会議記録視聴端末の会議記録視聴時の表示画面を示す図である。 実施例2の重要シーンを再生する様子を示す図である。 実施例2の会議動画を再生するフローチャートである。 実施例3の会議イベントデータの内部フォーマットを示す図である。 実施例3における重要シーンを判定する処理のフローチャートを示す図である。 実施例3の会議記録視聴端末の会議記録視聴時の表示画面を示す図である。 実施例3の重要シーンを再生する様子を示す図である。 実施例3の会議動画を再生するフローチャートである。
以下、図面を用いて本発明に係る実施形態を詳細に説明する。ただし、この実施形態に記載されている構成要素はあくまで例示であり、この発明の範囲をそれらに限定する趣旨のものではない。
<システム構成>
図1は、本実施例における会議システムの構成を示す図である。本実施例において、会議システムは、会議サーバ100と、会議操作端末200と、会議風景撮影端末300と、会議記録視聴端末400とを含む。これらの端末及びサーバは情報処理装置の例である。
会議サーバ100は、ネットワーク800上に設置され、会議操作端末200、会議風景撮影端末300と接続されているものとする。また会議記録視聴端末400も会議サーバ100と接続される。
会議サーバ100は、会議の記録を格納するための装置である。会議の記録対象は二つあり、一つめがユーザのオペレーションによりテキストで入力されたテキスト議事録を示すデータである。二つめが会議の風景を映像と音声を含む動画として記録する会議風景を示す動画データである。
会議風景の記録の指示とテキスト議事録の入力は会議操作端末200をユーザが操作することで行われ、会議記録の指示とテキスト議事録の入力が会議操作端末200から会議サーバ100に送信される。例えば会議風景の動画データは、会議サーバ100からの指示により会議操作端末200に対応づられた会議風景撮影端末300から会議サーバ100に送信される。テキスト議事録のデータは、会議操作端末200から会議サーバ100に送信される。会議サーバ100は、これらのデータに基づいて会議記録データを生成する。以下、説明を簡略化するために、テキストデータ、映像データ、音声データ、動画データなどを、単にテキスト、映像、音声、動画、と称するものとする。なお、動画は映像と音声とを含むものとする。
会議サーバ100に格納された会議記録は、ユーザが会議記録視聴端末400を操作することによりユーザによって視聴される。
<会議サーバ内部構成>
次に、会議サーバ100の内部構成を説明する。会議サーバ100は、制御部110と、会議管理部120と、議事録生成部130と、議事録データベース140と、議事録配信部150とを有する。会議管理部120は、会議の情報を管理する。会議の情報とは議事録データベース140に格納されている各会議の名称、日時などの情報である。議事録生成部130は、会議操作端末200から送られるテキストと会議風景撮影端末300から送られてくる映像及び音声とから会議記録データを生成する。議事録データベース140は、会議記録データを格納する。議事録配信部150は、会議記録視聴端末400が会議記録を参照できるように議事録データベース140に格納されている会議記録データに基づいて動画と議事録を含むデータを配信する。
制御部110は、CPU(プロセッサ)、ROM、RAMなどによって会議サーバ全体を制御する。また、制御部110がCPU、ROM、RAMなどを用いてソフトウェア(プログラム)を実行することによって会議サーバで実現される各機能を制御する。また処理の一部または全部を専用の電子回路(ハードウェア)で構成するようにしても構わない。
<会議操作端末内部構成>
次に、会議操作端末200の内部構成を説明する。会議操作端末200は、ユーザのオペレーションにより議事録のテキストを入力し、入力した議事録テキストを会議サーバ100へ送る。会議操作端末200は、制御部210と、表示部220と、キーボード230と、マウス240と、議事録テキスト通信部250とを有する。ユーザは、キーボード230やマウス240を用いて議事録テキストを入力する。議事録テキスト通信部250は、ユーザが入力した議事録テキストを会議サーバ100へ送る。
制御部210は、CPU、ROM、RAMなどによって会議操作端末200全体を制御する。また、制御部210がCPU、ROM、RAMなどを用いてソフトウェア(プログラム)を実行することによって会議操作端末200で実現される各機能を制御する。また処理の一部または全部を専用の電子回路(ハードウェア)で構成するようにしても構わない。
<会議風景撮影端末内部構成>
次に、会議風景撮影端末300の内部構成を説明する。会議風景撮影端末300は、会議サーバ100の指示により会議風景の映像と音声とを含む動画データを会議サーバ100に送付する。会議風景撮影端末300は、制御部310と、カメラ320と、マイク330と、映像通信部340と、音声通信部350とを有する。カメラ320は、映像を撮影する。マイク330は、音声を集音する。映像通信部340は、映像を会議サーバ100に送信する。音声通信部350は、音声を会議サーバ100に送信する。
制御部310は、CPU、ROM、RAMなどによって会議風景撮影端末300全体を制御する。また、制御部310がCPU、ROM、RAMなどを用いてソフトウェア(プログラム)を実行することによって会議風景撮影端末300で実現される各機能を制御する。また処理の一部または全部を専用の電子回路(ハードウェア)で構成するようにしても構わない。
<会議記録視聴端末>
次に、会議記録視聴端末400の内部構成を説明する。会議記録視聴端末400は、ユーザのオペレーションにより会議サーバ100に蓄積された会議記録を視聴する。会議記録視聴端末400は、制御部410と、表示部420と、タッチパネル430と、スピーカー440とを有する。表示部420は、会議記録のテキストと映像を表示する。タッチパネル430は、ユーザが操作を行うため操作部である。スピーカー440は、会議記録の音声を出力する。
制御部410は、CPU、ROM、RAMなどによって会議記録視聴端末400全体を制御する。また、制御部410がCPU、ROM、RAMなどを用いてソフトウェア(プログラム)を実行することによって会議記録視聴端末400で実現される各機能を制御する。また処理の一部または全部を専用の電子回路(ハードウェア)で構成するようにしても構わない。
なお、図1の例では、会議サーバ100と、会議操作端末200と、会議風景撮影端末と、会議記録視聴端末400とがそれぞれ別の装置である例を説明したが、複数の端末の機能を1つの装置が有してもよい。例えば、会議サーバ100と、会議操作端末200とが一体となった装置を用いてもよいし、これらの全ての機能を単一の装置内に含めてもよい。
<会議風景>
図2は、本実施例で説明する会議の会議風景を示す図である。図2は、4名の参加者がテーブルとホワイトボードを囲み会議を行っている様子を示す。後述するように4名の参加者は会議において発言をするので、ここでは参加者は発言者である。参加者Aは会議の議事録作成者であり、会議操作端末200を用いて会議の記録操作を行う。会議風景撮影端末300は会議の風景を撮影し、映像と音声とを図2に示さない会議サーバ100に送付する。
<会議の流れ>
図3は、本実施例で説明する会議の流れを示す図である。図3は会議記録の開始から終了まで時刻、会議の流れ(風景)、発言イベント、議事録テキスト入力イベントを会議の流れとして示す。図3の発言イベントや議事録テキスト入力イベントは、それぞれ時刻に入力されるものである。発言イベントは会議の参加者が発言した音声を音声認識処理することで雑音を除去し人が話した言葉と判定したイベントを示す。議事録テキスト入力イベントは会議の議事録作成者が議事録テキストを入力したイベントを示す。
本実施例では、会議動画に含まれる音声の中から音声認識処理することで雑音を除去し人が話した言葉と判定した時刻と、テキスト議事録が入力された時刻とが一定時間内であるシーンを会議の重要シーンと判定する。会議記録を再生する際に全てのシーンを再生すると効率が悪い。そこで、会議記録の中で重要シーンを抽出する。会議の場面では会議の議事録作成者が議事録を会議中にテキスト入力していく。ここで、議事録は会議の要点を示すものと考えられる。従って、テキスト議事録が入力された時刻近辺が会議の重要シーンである可能性が高い。一方、単にテキスト議事録が入力された時刻のみをもって重要シーンと判定してしまうと、会議動画を再生する際に言葉の途中から重要シーンであると判定されてしまう可能性がある。そこで、本実施例では、会議動画に含まれる音声の中から音声認識処理することで雑音を除去し人が話した言葉と判定した時刻と、テキスト議事録が入力された時刻とが一定時間内であるシーンを会議の重要シーンと判定する。そして会議風景を記録した会議動画を再生する際、重要シーンと判定した部分は通常スピードで再生、それ以外の部分は高速スピードで再生する。これにより会議動画のなかから議事録に記載された議事に対応するシーンを効率良く見ることを可能とする。
以下、会議の重要シーンを判定する方法を説明する。
<会議記録オペレーション>
まず、図4および図5を用いて会議記録オペレーションを説明する。図4は会議操作端末200の表示部220に表示される議事録作成時の表示画面を示す図である。また、図5は会議記録オペレーションの処理シーケンスを示す図である。
まず、図4を用いて説明する。会議を記録する場合には、会議の議事録作成者が会議操作端末200の記録用ソフトを起動する。すると図4(a)に示すような画面が表示される。画面にはインジケータ221、記録開始ボタン222、記録終了ボタン223、テキスト入力部225が表示される。議事録作成者が画面の記録開始ボタン222を押すと、インジケータ221の表示が停止中から記録中に変わるとともに会議記録が開始される。
具体的には図5に示す通り、ステップS500において会議操作端末200の記録開始ボタンがユーザによって押される。すると、会議操作端末200から会議サーバ100に会議記録開始指示が伝えられる。ステップS501において会議サーバ100は、会議風景を記録するように会議風景撮影端末300に会議風景送付開始指示を伝える。なお、会議サーバ100が複数の会議風景撮影端末300と接続される場合には、所望の会議風景撮影端末を特定する指示が会議操作端末200から会議サーバ100に伝えられてもよい。また、会議操作端末200から直接会議風景撮影端末300に対して、会議サーバ100への会議風景送付開始指示が送られてもよい。
ステップS502において会議風景撮影端末300は、会議風景の映像と音声とを会議サーバ100に送信し続ける。会議サーバ100は、会議風景撮影端末300から送信される会議風景の映像と音声とを継続して受け取り、会議風景の会議記録を行う。
また、会議記録が開始された状態で、会議の議事録作成者は図4(b)に示す画面のテキスト入力部225に議事録をテキストで入力する。具体的には図3に示す会議の流れに示した中で、会議の議事録作成者は議事録テキスト入力イベントに対応する議事録をテキストとして入力する。図3のイベント名のev06,ev14,ev16,ev21,ev23が議事録テキスト入力イベントに対応する。
図4(b)のテキスト入力部225は議事録テキストを入力した様子を示している。一つのテキスト議事録入力イベントが発生する毎に会議操作端末200から会議サーバ100へ議事録テキスト入力が送られて記録される。一つのテキスト議事録入力イベントは、一例として改行コードを入力した時に発生するものとする。図5では、ステップS510、S511、S512、S513において、会議操作端末200は、議事録テキスト入力を会議サーバ100に送信する。
なお、後述するように議事録テキスト入力イベントは会議サーバの議事録生成部130で時刻情報が付されることになる。よって、議事録テキスト入力イベントの時刻情報は、改行コードを入力した場合に会議操作端末200から会議サーバ100が議事録テキスト入力イベントを受信した時点の時刻となる。すなわち、テキスト入力が終了した時点の時刻が議事録テキスト入力イベントの時刻情報となる。しかしながら、本実施例はこれに限られるものではない。例えば、議事録テキスト入力イベントは、テキスト入力を開始した時点の時刻情報としてもよい。すなわち、図4(b)のテキスト入力部225にテキストが入力された時点で1つの議事録テキスト入力イベント開始を会議操作端末200から会議サーバ100に通知してもよい。この場合、改行コードが入力された時点でその1つの議事録テキスト入力イベントの完了を会議サーバ100に通知する。このような処理によれば、議事録テキスト入力イベントは、テキスト入力を開始した時点の時刻情報とすることもできる。
そして会議の議事録作成者は会議が終了すると、図4(b)に示す記録終了ボタン223を押して会議記録を終了する。会議記録終了時は図5に示す通り、会議の議事録作成者が記録終了ボタンを押すと、ステップS520において会議操作端末200が会議記録終了指示を会議サーバ100に伝える。ステップS521において会議サーバ100は会議風景の送付を停止するために、会議風景撮影端末300に会議風景送付終了指示を伝え、会議風景の会議記録を終了する。なお、会議操作端末200から直接会議風景撮影端末300に対して、会議サーバ100への会議風景送付の終了指示が送られてもよい。
<会議記録フォーマット>
図6及び図7を用いて会議記録のフォーマットを説明する。図6は会議記録データの管理構造を示す図である。会議の会議記録が図6に示す構造で会議サーバ100の議事録データベース140に格納される。会議記録データ1410は会議のイベントを記録した会議イベントデータ1411と会議動画1412とを組で管理する。
図7は会議イベントデータ1411の内部フォーマット1450を示す図である。また、図7では参考として、図3で示すイベントを内部フォーマット1450と併せて標記している。会議イベントデータは、議事録生成部130によって生成され、図7に示すフォーマット1450に従って議事録データベース140に記録される。会議イベントデータは、会議における発言イベントと会議の議事録テキスト入力イベントとを含み、さらに会議の重要シーンとして判定した結果を含む。本実施例では、各イベントが会議サーバに入力されると、議事録生成部130が図7に示すフォーマット1450に従って各イベントを議事録データベース140に記録する。そして、各イベントの記録後に、記録しているイベントの中から後述するように重要シーンを判定し、重要シーンであることをさらに記録する処理を行う。以下、具体的にフォーマット1450の各項目について説明する。
図7に示す通り、会議イベントデータ1411の内部フォーマット1450は以下の項目で構成される。すなわち、イベントを一連番号で管理するためのID、イベントの開始時刻s−startと終了時刻s−finishである。また、イベントがテキスト入力であるかを示すtext−flag、重要シーンであるかを示すp−flag、及び議事録テキストを格納するd−textである。各IDに各項目がそれぞれ関連付けられて格納される。
会議イベントデータには、会議サーバ100に入力された会議風景の音声を音声認識処理することで雑音を除去し人が話した言葉と判定したイベントである発言イベントが含まれる。また、議事録テキスト入力イベントが含まれる。会議イベントデータは、これらのイベントを個別のイベントとして記録する。
議事録生成部130は、イベントが発言イベントの場合、音声を音声認識処理することで雑音を除去して人が話した言葉と判定した発言の開始時刻と終了時刻とをs−startとs−finishに記録する。また、議事録生成部130は、text−flagを0、d−textをnullとして記録し、p−flagをレコード生成時には0として記録する。
議事録生成部130は、イベントが議事録入力イベントである場合、テキスト入力時刻を開始時刻s−startと終了時刻s−finishに同じ値として記録する。また、議事録生成部130は、text−flagを1として記録し、d−textに議事録テキストの文字列を記録する。また、議事録生成部130はp−flagをレコード生成時には0として記録する。
<会議記録データの生成>
次に、図8を用いて、図6及び図7で示すような会議記録データを生成する処理を説明する。図8は、議事録生成部130の構成の一例を示す図である。会議記録データの生成は図1に示した会議サーバ100の議事録生成部130にて行われる。議事録生成部130は、テキスト通信部1310と、音声認識部1320と、映像音声ミキシング部1340と、時計部1350と、重要シーン判定部1360とを有する。
テキスト通信部1310は、会議操作端末200から送付された議事録テキストを受信する。テキスト通信部1310は、受信したテキストに時計部1350の時刻情報を付加して入力時刻情報付き議事録テキストとして後段の重要シーン判定部1360に出力する。
音声認識部1320は、会議風景撮影端末300から送付された音声を受信する。また、音声認識部1320は、受信した音声と時計部1350の時刻情報とに基づいて発話時刻を判定する。具体的には音声認識部1320は、音声認識処理することで雑音を除去し人が話した言葉と判定した発話の開始時刻と発話終了時刻を含む発話時刻情報を後段の重要シーン判定部1360に出力する。発話時刻判定処理は後述する。
重要シーン判定部1360は2つの情報を入力する。1つめはテキスト通信部1310から入力する入力時刻情報付き議事録テキストである。2つめは音声認識部1320から入力する音声認識することで雑音を除去し人が話した言葉と判定した発話の発話時刻情報である。重要シーン判定部1360は、これら2つの情報から重要シーンを判定し、図6及び図7で説明した会議イベントデータ1411を出力する。なお、会議の重要シーンの判定処理は後述する。
時計部1350は、時刻情報を付加する。時計部1350は、会議サーバのみでなく各端末に存在してもよく、タイムスタンプデータを各端末と会議サーバとで通信することで時刻情報を取得する構成であっても構わない。
映像音声ミキシング部1340は、会議風景撮影端末300から送付された音声と映像とを受信し、音声と映像とを組み合わせた音声付動画を生成し、会議動画1412として議事録データベース140に格納する。
このように議事録生成部130から出力される会議イベントデータ1411と会議動画1412は、図6で説明した通りひと組の会議記録データ1410として会議サーバ100の議事録データベース140に格納される。
<発話時刻判定処理>
次に、音声認識部1320で行われる発話時刻判定処理について図9、図10、図11を用いて説明する。
先に説明したように、音声認識部1320は、会議の音声を音声認識処理することで雑音を除去し人が話した言葉と判定した発話の発話時刻情報を判定する。そして、音声認識部1320は発話時刻情報を重要シーン判定部1360に出力する。
図9は、音声認識部1320の構成例を示すブロック図である。音声認識部1320は、音声検出部1321、音響分析部1322、音響モデル格納部1324、言語モデル格納部1325および音声照合部1323を備える。この構成は、音声認識処理で一般的な構成である。また、音声認識部1320は発話時刻判定部1326も備える。
音声検出部1321は、入力された音声から人声を含む区間の音声を切り出して音響分析部1322に送る。音声検出部1321での音声の切り出しには、例えば、入力のパワーの大小に基づく音声検出手法を利用できる。この音声検出手法では、入力のパワーを逐次計算し、入力のパワーが予め定めた閾値を一定時間連続して上回った時点を音声の開始時点と判定し、逆に、入力のパワーが予め定めた閾値を一定時間連続して下回った時点を音声の終了時点と判定する。音声検出部1321により切り出された音声は、音声開始時点から音声終了時点まで逐次音響分析部1322に送られる。また音声検出部1321は時刻情報を入力し、音声開始時刻と音声終了時刻を後段の音響分析部1322と発話時刻判定部1326に送る。
なお音声認識部1320の内部処理では音声検出部1321により切り出された音声をひとかたまりとして処理する。また、発話時刻判定部1326の判定が完了するまでは次の音声が音声検出部に入力されない構成とする。しかし音響分析部1322、音声照合部1323、発話時刻判定部1326にそれぞれ多段のバッファを設けることで発話時刻判定部の判定が完了することを待たずに次の音声を音声検出部1321に入力することも可能である。
音響分析部1322は、音声検出部1321により切り出された音声の音響分析を行う。そして、MFCC(Mel-Frequency Cepstrum Coefficients)など音声の特徴を現す音響特徴量列と時刻情報とを音声照合部1323に送出する。
音響モデル格納部1324は、日本語音声を構成する単位である音素ごとに用意したHMM(Hidden Markov Model)などの標準パタンを格納している。この標準パタンを日本語単語・文章を構成する音素列に即して連結することで任意の日本語単語・文章に対応する標準パタンを作成することができる。
また、言語モデル格納部1325は、日本語の単語間、音素間などの接続関係を規定する言語モデルを格納している。この言語モデルにはいくつかの種類がある。例えば(1)音節間の接続関係を規定する連続音節認識文法、(2)単語間の接続関係を規定する文法規則、(3)N個の音素の組が連続する確率を規定する統計的言語モデル、(4)N個の単語の組が連続する確率を規定する統計的言語モデルなどである。
図10は、言語モデルの例を示す図である。図10(a)は、音節間の接続関係を規定する連続音節認識文法である。これは、子音/b//d/・・・と母音/a//i/・・・の接続関係を規定している。図10(b)は、単語間の接続関係を規定する文法規則であり、これは、/単語1//単語2/・・・の接続関係を規定している。
図9に戻って、音声照合部1323は、言語モデルに記された接続規則に従って音響モデルを接続して標準パタンを生成すると共に、Viterbiアルゴリズムを用い、音響分析部1322から送出される音響特徴量列と標準パタンとを照合する。この照合の結果、両者の照合スコアを最大とする音声区間と標準パタンの対応が得られる。図11は、音声照合部1323での照合処理を示す模式図である。図11では、音響分析部1322から送出される音響特徴量列が音声照合部1323で標準パタンと照合される。これにより照合結果/sh//i/・・・/u/が得られる。また音声照合部1323は、各音素に対応する音声区間の開始及び終了時刻を入力される時刻情報から取得することを示している。
音声照合部1323は、認識結果音素列および標準パタンを構成する各音素で構成された音素列の音声区間の開始時刻、終了時刻を取得する。音声照合部1323は、認識した音声区間の開始時刻と終了時刻を発話時刻判定部1326に入力する。
発話時刻判定部1326は、音声照合部1323から入力される音声区間の開始時刻及び終了時刻と、音声検出部1321から音声区間の開始時刻と終了時刻とを入力する。そして発話時刻判定部1326は、それぞれ開始時刻と終了時刻が一致した音声区間の開始時刻と音声の終了時刻を発話時刻情報として重要シーン判定部1360に出力する。
<会議の重要シーンの判定処理>
次に、会議の重要シーンの判定処理を説明する。図8に示すように、重要シーン判定部1360は、テキスト通信部1310から入力された入力時刻情報付き議事録テキストと、音声認識部1320から入力された発言の発話時刻情報との2つの情報から重要シーンを判定する。そして、図6及び図7で説明した会議イベントデータ1411を出力する。本実施例では重要シーンを判定する一例として、議事録テキストが入力された時刻から一定時刻内で行われた発言を判定する方法を示す。
発言イベントのレコード例は図7に示した会議イベントデータのうちtest−flagが0のものである。例えばID=1はtext−flagが0、発言時刻の開始は60sec、発言の終了時刻は65secである発言イベントであることを示す。会議の対応シーンは図3に示したev01であり、参加者Dが“会議を開始します”と発言した部分である。
議事録テキスト入力イベントのレコード例は図7に示した会議イベントデータのうちtext−flagが1のものである。例えばID=6はtext−flagが1、テキスト入力時刻は140sec、議事録テキストは『本日の議題:今日のお昼ご飯の注文を決める』と入力した議事録テキスト入力イベントであることを示す。会議の対応シーンは図3に示したev06であり、会議の議事録作成者が議事録テキストを入力した部分である。
会議の重要シーンは図7に示した会議イベントデータのうちp−flagが1の発言イベントである。本実施例では、議事録テキスト入力イベントの一定時刻内で最も近傍の発言イベントを重要シーンとして判定する。図7の例では、ID=5,13,15,20,23で示すp−flagが1の発言イベントである。以下、重要シーンを判定する処理をフローチャートを用いて説明する。
図12は重要シーンを判定する処理のフローチャートを示す図である。図12に示す会議の重要シーンの判定処理は重要シーン判定部1360が行うものである。
ステップS1201において重要シーン判定部1360は、入力時刻付きテキスト情報又は発話時刻情報をテキスト通信部1310または音声認識部1320からそれぞれ入力する。すなわち、重要シーン判定部1360は、議事録入力イベント又は発言イベントを検出する。
ステップS1202において重要シーン判定部1360は、ステップS1201で入力した情報が発話時刻情報であればステップS1203に進む。ステップS1203において重要シーン判定部1360は、会議イベントデータに発言イベントのレコードを生成する。具体的には、text−flagを0、d−textをnull、p−flagを0とするレコードを生成する。
ステップS1203において重要シーン判定部は、ステップS1202で生成した発言イベントのレコードにステップS1201で入力した発話時刻情報の開始時刻と終了時刻をそれぞれ記録する。すなわち、発話時刻情報の開始時刻と終了時刻をs−startとs−finishにそれぞれ記録し処理を終了する。
一方、ステップS1202において重要シーン判定部1360はステップS1201で入力した情報が入力時刻付きテキスト情報であればステップS1210に進む。ステップS1210において重要シーン判定部1360は、会議イベントデータに議事録テキスト入力イベントのレコードを生成する。具体的には、text−flagを1、p−flagを0とするレコードを生成する。
ステップS1211において重要シーン判定部1360は、ステップS1210で生成した議事録テキスト入力イベントのレコードに、ステップS1201で入力した入力時刻付きテキスト情報のテキスト入力時刻を記録する。すなわち、テキスト入力時刻をs−startとs−finishに記録する。なお、本実施例では入力時刻付きテキスト情報の場合には、テキスト入力時刻をs−startとs−finishに同じ値を入力しているが、これに限られるものではない。例えば、s−startまたはs−finishのいずれかをnullとしてもよい。また、別途異なる項目を設けてもよい。
ステップS1212において重要シーン判定部1360は、ステップS1210で生成したレコードのd−textにステップS1201で入力した議事録テキストの文字列を格納する。
ステップS1213において重要シーン判定部1360は、ステップS1211で記録したテキスト入力時刻から一定時刻前に発言イベントレコードがあるか判定する。ステップS1213で重要シーン判定部1360はテキスト入力時刻から一定時刻前に発言イベントレコードがないと判定した場合、処理を終了する。一方、重要シーン判定部1360が一定時刻前に発言イベントレコードがあると判定した場合、ステップS1214に処理を進める。ここで、判定に使用される一定時刻はあらかじめ設定された値を用いる。例えば30secであるならばテキスト入力時刻より手前30sec以内に発言イベントの発話終了時刻s−finishが存在するかを判定する。
ステップS1214において重要シーン判定部1360は、ステップS1211で記録したテキスト入力時刻から一定時刻内の発言イベントのうち、最も近傍の発言イベントレコードのp−flagを1に変更し処理を終了する。すなわち、重要シーン判定部1360は、議事録テキスト入力イベントの直前の発言イベントを重要シーンと判定する。一般に、議事録作成者は会議の要点を議事録として作成するので、議事録のテキストを入力した場合にはその直前の会話の内容が会議の要点に関わる可能性が高い。従って、本実施例では、重要シーン判定部1360は、議事録テキスト入力イベントの直前の発言イベントを重要シーンと判定する。
なお、図12の処理は、図8に示すように重要シーン判定部に順次入力時刻情報付き議事録テキスト又は発話時刻情報が入力される例を示している。本処理では、古い時刻を有する入力時刻情報付き議事録テキスト又は発話時刻情報から順次入力されることになるが、例えば音声認識処理で時間を要した場合に入力時刻情報付き議事録テキスト又は発話時刻情報の入力順が時刻順にならない場合もあり得る。よって、例えば重要シーン判定部はバッファを有し、入力時刻情報付き議事録テキスト又は発話時刻情報を一定期間保持し、時刻が古いものに対して順次図12に示す処理を行ってもよい。
<会議記録視聴オペレーション>
次に、図13、図14、図15を用いて会議記録視聴オペレーションを説明する。
図13は会議記録視聴端末の会議記録視聴時の表示画面の例を示す図である。会議記録視聴端末400は会議サーバ100の議事録データベース140に格納されている会議記録データの会議記録を議事録配信部150を介して再生する。
会議記録視聴をするためには、視聴者が会議記録視聴端末400の視聴用ソフトを起動する。すると会議記録視聴端末400の表示部420に図13(a)に示すような画面が表示される。画面には視聴状態を示すインジケータ4211、重要シーン再生ボタン4212、通常再生ボタン4213、再生停止ボタン4214、スライドバー4215、映像表示部4216、及びテキスト表示部4217が表示される。
テキスト表示部4217には会議記録の議事録テキストが表示される。表示する議事録テキストは図7で示した会議イベントデータのうちtext−flagが1で指定される議事録テキスト入力イベントのd−textである。
視聴者が画面の通常再生ボタン4213を押すと、映像表示部4216に会議記録の会議動画が通常速度で再生される。この状態でスライドバー4215を左右に操作すると動画のシーンをサーチできる。再生停止ボタン4214を押すと会議動画の再生を停止する。
視聴者が画面の重要シーン再生ボタン4212を押すと、図13(b)に示す画面の映像表示部4216に会議動画の重要シーンが通常速度で再生される。
なおスライドバーは会議動画の時刻と連動して再生開始時刻を選択できるので、会議動画の先頭だけでなく途中からも再生することが可能である。また、会議動画を再生している途中で、通常再生ボタンまたは重要シーン再生ボタンを押すことで、通常再生状態と、重要シーン再生状態とを切り替えることも可能である。
なお、図7の例は再生ボタンの例を示しているが、再生指示を入力するインターフェースであればいずれの形態であってもよい。
図14は重要シーンを再生する様子を示す図である。本実施例では、図7で示した会議イベントデータのうちp−flagが1で指定される発言イベントの開始時刻と終了時刻の時刻区間は会議動画を通常速度で再生、それ以外の区間は高速で早送り再生する。通常速度で再生される具体的な例はイベントID=5の120secから130secの間である。同様にID=13,ID=15,ID=20,ID=23のs−startとs−finishの区間が重要シーンの対象で、図14に示した通り重要シーンは通常速度、それ以外のシーンは高速で早送り再生する。すなわち、重要シーンと判定された発言シーンを通常速度で再生し、重要シーンと判定された発言シーン以外のシーンを高速で早送り再生する。
図15は会議動画を再生するフローチャートの一例を示す図である。図15に示す処理は、会議サーバ100の制御部110を構成するCPUが、ROMなどに記憶されたプログラムを読み出して実行することにより実現される。会議動画の再生は会議サーバ100の制御部110の制御に基づいて議事録配信部150で処理される。
図15に示す処理は、概略すると、通常再生するか、重要シーンを再生するかを判定し、通常再生すると判定したならば会議動画を全て通常再生する。一方、重要シーンを再生すると判定すると、会議イベントデータの先頭からひとつずつ会議イベントを取得し、重要シーンであれば通常再生し、重要シーン以外は高速早送り再生する処理である。
ステップS1501において議事録配信部150は議事録データベース140に格納されている会議記録データ1410のうち、会議動画1412を先頭に頭出しする。
ステップS1502において議事録配信部150は、押された再生ボタンは重要シーン再生ボタンかを判定する。ステップS1502において議事録配信部150が重要シーン再生ボタンでないと判定した場合、すなわち通常再生ボタンであると判定した場合、ステップS1509に処理を進める。ステップS1509において議事録配信部150は、重ステップS1501で頭出しした会議動画を最後まで通常再生して処理を終了する。
一方、ステップS1502において議事録配信部150は重要シーン再生ボタンであると判定した場合ステップS1503に処理を進める。ステップS1503において議事録配信部150は、図7で示した会議イベントデータから会議イベントを1つ取得する。ステップS1503では、議事録配信部150は例えばイベントIDの若い番号から順に取得する。
ステップS1504において議事録配信部150は、ステップS1503で取得した会議イベントが発言イベントか否かをtext−flagの値に基づいて判定する。ステップS1504において議事録配信部150が発言イベントと判定しない場合、ステップS1510に処理を進める。一方ステップS1504において議事録配信部150が発言イベントと判定した場合、ステップS1505において議事録配信部150は発言イベントの発言開始時刻まで高速早送り再生する。
次に、ステップS1506において議事録配信部150は、ステップS1503で取得した会議イベントが重要シーンであるか否かを会議イベントのp−flagの値に基づいて判定する。ステップS1506において重要シーンであると判定した場合、ステップS1507において議事録配信部150はステップS1503で取得した発言イベントの発言終了時刻まで通常再生する。すなわち、会議動画の動作としては、会議イベントの発言開始時刻まで高速早送り再生を行い、重要シーンの発言開始時刻から発言終了時刻までは通常再生を行う。その後、ステップS1510に処理を進める。
一方、ステップS1506において議事録配信部150は、ステップS1503で取得した会議イベントが重要シーンでないと判定した場合、ステップS1508に処理を進める。ステップS1508において議事録配信部150はステップS1503で取得した発言イベントの発言終了時刻まで高速早送り再生する。その後、ステップS1510に処理を進める。ステップS1508を通る会議動作の動作としては、ステップS1503で会議イベントを取得してから会議イベントの発言終了時刻まで高速早送り再生が行われる。
ステップS1510において議事録配信部150は、会議イベントデータが残っているかを判定する。残っていれば議事録配信部150はステップS1503に戻り、残っていなければステップS1511に処理を進め、会議動画の最後まで高速早送り再生をして処理を終了する。
以上の処理により、視聴者はテキスト表示部4217に表示される議事録テキストとあわせて会議記録の重要シーンを視聴することで、会議の内容を短時間で理解することができる。特に、議事録だけではわからない会議の雰囲気や決定に至るまでの状況を素早く確認することができる。このように、本実施例では会議動画の中から音声認識することで雑音を除去し、人が話した言葉と判定した時刻と、テキスト議事が入力された時刻が一定時間内であるシーンを会議の重要シーンと判定する。そして議事録に記載されない余計な発言シーンを通常視聴の対象外とすることで、ユーザは会議動画のなかから議事録に記載された議事に対応する重要シーンを効率良く見ることができる。
なお、本実施例では、重要シーン再生ボタン4212を押すことにより、重要シーンは通常再生され、それ以外のシーンは早送り再生される例を説明した。しかしながら本実施例はこれに限られることはない。例えば、重要シーン再生ボタン4212を押すことにより、重要シーンは通常再生され、その他のシーンは再生しないように制御してもよい。
実施例1では、議事録テキスト入力イベントの直前の会話イベントを重要シーンであると判定する手法を説明した。実施例2では、重要シーンの重要度に高低をつけ、重要シーンのなかでも特に重要度が高い部分を通常速度で再生する方法を説明する。例えば重要シーンの中でも、一定時間内に複数の話者が発言している部分の重要度を高く、その他の発言部分の重要度は低いと判定することができる。会議はその性質上、複数の話者によって議題が進行するものであり、複数の話者が議論した後に議事録作成者が議事録を作成するシーンの方が、単数の話者が発した後に議事録作成者が議事録を作成するシーンよりも重要である可能性が高いからである。話者は一例として音声の方向で区別することができる。
<話者の区別>
図16は、音声の方向と話者の関係を示す図である。図16に示す会議風景撮影端末300はステレオマイクを備えて音声の方向を検出可能な構成である。図16では、会議風景撮影端末300が撮影を行っている設置場所からの音声が発せられた方向を示しており、参加者Cは45度、参加者Dは70度、参加者Bは120度、参加者Aは135度の位置にいる。
<発話方向検出処理>
音声の方向の検出処理は図9に示した会議サーバ100の音声認識部1320内部の音声検出部1321で行う。具体的にはステレオマイクで取得された音声データの左右のマイクが収音する時間のズレから発話方向を角度として算出し、発話方向情報として発話時刻情報と共に音声認識部の発話時刻判定部1326から出力する。すなわち、本実施例において音声認識部1320からは、発話時刻情報と発話方向情報とが出力される。
<会議記録フォーマット>
図17は実施例2の会議イベントデータの内部フォーマットを示す図である。実施例2の会議イベントデータでは、図17に示す通り、実施例1のフォーマットに加えて発話方向情報を格納するs−dirの項目を追加する。発言イベントの場合はs−dirに音声認識部1320が出力する発話方向情報を格納し、議事録テキスト入力イベントの場合には0を格納する。
<会議の重要シーンの抽出処理>
次に、図8、図18を用いて会議の重要シーンの抽出処理を説明する。会議の重要シーンの抽出処理は図8で前出したとおり、重要シーン判定部1360で行うものである。実施例2においては、重要シーン判定部1360ではテキスト通信部1310から入力した入力時刻情報付き議事録テキストと、音声認識部1320から入力した発言の発話時刻情報と発話方向情報との3つの情報を入力する。そしてそれら3つの情報から重要度の高低をつけた重要シーンを判定し、議事録生成部130が図17で説明したフォーマットの会議イベントデータ1411を出力する。本実施例では発話時刻情報及び発話方向情報から一定時間内に発言している話者数を判定し、重要度の高低をつける方法を示す。
会議の重要シーンは図17に示した会議イベントデータのうちp−flagが1と2の発言イベントである。p−flagが1ならば重要度は低、p−flagが2ならば重要度は高であることを示す。
具体的にはID=5のイベントが重要度は低の発言イベントである。これはID=6の議事録テキスト入力イベントの一定時刻内、ここでは60secに存在する発言イベントのs−dirがID=5,4,3全て70で同じ話者だからである。
一方ID=13のイベントが重要度は高の発言イベントである。これはID=14の議事録テキスト入力イベントの一定時刻内、ここでは60secに存在する発言イベントすなわちID=10〜ID=13のs−dirが70,135,120で3種類存在し、話者が複数だからである。
次に、実施例2における重要シーンを判定する処理について説明する。図18は実施例2における重要シーンを判定する処理のフローチャートを示す図である。ステップS1801からステップS1812は、ステップS1804を除き図12のステップS1201からステップS1212と同様の処理であるので説明を省略する。
ステップS1804において重要シーン判定部1360は、ステップS1802で生成した発言イベントのレコードにステップS1801で入力した発話時刻情報の開始時刻と終了時刻をそれぞれs−startとs−finishに記録する。また発話方向情報をs−dirに記録する。
ステップS1813において重要シーン判定部1360は、ステップS1811で記録したテキスト入力時刻から一定時刻前に発言イベントレコードがあるかを判定し、存在しなければ処理を終了する。一方、一定時刻前に発言イベントレコードがあると判定した倍亜、重要シーン判定部1360はステップS1820に進む。ここで、ステップS1813における判定に使用する一定時刻はあらかじめ設定された値を用いる。例えば60secであるならばテキスト入力時刻より手前60sec以内に発言イベントの発話終了時刻s−finishが存在するかを判断する。なお、本実施例では複数人の話者か否かを判定するために実施例1よりも長い値を用いている例を示しているが、実施例1と同様に30secでもよく、いずれの値であってもよい。
ステップS1820において重要シーン判定部1360は、ステップS1811で記録したテキスト入力時刻から一定時刻前にある発言イベントレコード内の発話方向が2種類以上あるかを判定する。2種類以上あると判定した場合、重要シーン判定部1360はステップS1821に進み、2種類以上ないと判定した場合、ステップS1822に進む。ここで、ステップS1820の判定に使用する一定時刻とはあらかじめ設定された値を用いる。例えば60secであるならばテキスト入力時刻より手前60sec以内に発言イベントの発話方向s−dirの内容を判定対象とする。なお、ステップS1813とステップS1820の一定時刻は同じ値を用いているが、違う値であってもよい。
発話方向が2種類以上ないと判定した場合、ステップS1822において重要シーン判定部1360はステップS1211で記録したテキスト入力時刻から一定時刻前で最も近傍の発言イベントレコードのp−flagを1に変更し処理を終了する。すなわち、ステップS1822は実施例1で説明したステップS1214と同様の処理を行う。
一方、発話方向が2種類以上あると判定した場合、ステップS1821に処理を進める。ステップS1821において重要シーン判定部1360は、ステップS1811で記録したテキスト入力時刻から一定時刻前で最も近傍の発言イベントレコードのp−flagを、重要度がより高いことを示す2に変更し処理を終了する。
<会議記録視聴オペレーション>
次に、図19、図20、図21を用いて会議記録視聴オペレーションを説明する。図19は実施例2の会議記録視聴端末の会議記録視聴時の表示画面を示す図である。実施例1と同様に実施例2においても会議記録視聴端末400は会議サーバ100の議事録配信部150を経由して議事録データベース140に格納されている会議記録データの会議記録を再生する。図19に示す会議記録視聴端末400の視聴用ソフトを起動した際の画面は実施例1の画面に加えてレベル選択スイッチ4220を追加している。レベル選択スイッチ4220をHIにセットした状態で重要シーン再生ボタンを押すと、重要度が高い重要シーンを通常再生し、それ以外のシーンは高速で早送り再生する。レベル選択スイッチをLOにセットした状態で重要シーン再生ボタンを押すと、全ての重要シーンを通常再生する。なお、レベル選択スイッチをLOにセットした状態の重要シーン再生は、実施例1と同じである。すなわち、図19に示す画面は、動作モードを第1のモードと第2のモードとの間で切り替えるスイッチを含む。
図20は実施例2の重要シーンを再生する様子を示す図である。図20はレベル選択スイッチをHIにセットした状態での再生状態を示す。図17に示すように会議イベントデータのうち重要度がHIつまりp−flagが2で指定される重要シーンの発言イベントの開始時刻と終了時刻の時刻区間は会議動画を通常速度で再生する。一方、それ以外の区間は高速で早送り再生する。具体的にはID=13,ID=15,ID=20,ID=23のs−startとs−finishの区間が重要度が高い重要シーンの対象で、図20に示した通り重要度が高い重要シーンは通常速度、それ以外のシーンは高速で早送り再生する。
図21は実施例2の会議動画を再生するフローチャートの一例を示す図である。会議動画の再生は会議サーバ100の議事録配信部150で処理され、その処理は図21のフローチャートに記載した通り処理する。実施例2では、議事録配信部150は通常再生するか、重要シーンを再生するかを判定する。そして通常再生すると判定したならば会議動画を全て通常再生する。重要シーンを再生すると判断すると、会議イベントデータの先頭からひとつずつ会議イベントを取得し、重要レベルが高い重要シーンであれば通常再生する。重要度が低い重要シーンは設定に応じて通常再生するか高速早送り再生する。重要シーン以外は高速早送り再生する。
図21は図15のステップS1506のYESの場合にステップS2101とステップS2102の処理を追加した以外は、図15に示す例と同じである。実施例2では、図15に示した実施例1のフローチャートとの差分のみを説明する。
ステップS1506で議事録配信部150は、会議イベントのp−flagの値が0かそれ以外かで重要シーンが否かを判定する。p−flagが0であり重要シーンでなければ実施例1と同様にステップS1508に進み議事録配信部150は発言終了時刻まで高速早送り再生する。
一方、ステップS1506で議事録配信部150は、会議イベントのp−flagの値が0以外であれば重要シーンと判定してステップS2101へ進む。
ステップS2101において議事録配信部150は、重要レベルはHIか否かを判定する。議事録配信部150はp−flagが2であれば重要レベルはHIと判定し、ステップS1507に進み発言終了時刻まで通常再生する。一方、ステップS2101において議事録配信部150はp−flagが1であれば重要レベルはHIでないと判定し、ステップS2102へ進む。
ステップS2102において議事録配信部150は、会議記録視聴端末400のレベル選択スイッチ4220のレベル選択がHIかを判定し、HIであればステップS1508で発言終了時刻まで高速早送り再生する。一方、ステップS2102において議事録配信部150はレベル選択スイッチ4220のレベル選択がHIでなければステップS1507で発言終了時刻まで通常再生する。
以上の処理により、視聴者はテキスト表示部4217に表示される議事録テキストとあわせて会議記録の重要シーンをみることで、会議の内容を短時間で理解することができる。実施例2では実施例1の効果に加えて、重要シーンの重要度に高低をつけ、重要シーンのなかでも特に重要度が高い部分のみを通常速度で再生することが可能である。
重要シーンとして判定する範囲を複数種類用意し、再生時に再生範囲を選択できるようにする方法も考えられる。会議記録視聴端末を複数用意し、会議記録視聴端末毎に再生範囲の設定を変えておくことで会議視聴を行う端末に応じて再生範囲を変えることが可能になる。例えば、重要シーンの中でもさらに要点だけ速やかに確認したいユーザと、そうでないユーザとに対して、会議記録視聴端末側の再生範囲の設定に応じて再生範囲を変えることができる。
<会議記録フォーマット>
図22は実施例3の会議イベントデータの内部フォーマットを示す図である。同22に示す通り、実施例1のフォーマットに加えて第二の重要シーンを示すp2−flagの項目を追加する。
<会議の重要シーンの判定処理>
次に、図8、図23を用いて実施例3の会議の重要シーンの判定処理を説明する。会議の重要シーンの判定処理は図8で前出したとおり、重要シーン判定部1360で行うものである。実施例3においては、重要シーン判定部1360は重要シーンとして判定する範囲を2種類とし、実施例1で判定する範囲よりも長い範囲を第二の重要シーンとして判定する。
実施例3では、議事録テキスト入力イベントの一定時刻の内、例えば60sec内に存在する発言イベントの最も近傍のものを判定した結果をp−flagに格納する。このように直近の発言イベントを重要シーンと判定してp−flagに格納する処理は実施例1と同様である。実施例3ではさらに、第二の重要シーンとして議事録テキスト入力イベントの一定時刻の内、例えば60sec内に存在する発言イベントの全てを重要シーンと判定した結果をp2−flagに格納する。
図23は実施例3の重要シーンを判定する処理のフローチャートを示す図である。実施例1との差分のみ説明する。図23で示す処理は、実施例1で説明した図12の処理にステップS2301の処理が追加されている以外は図12で説明した処理と同じである。
重要シーン判定部1360は、ステップS1213でテキスト入力時刻から一定時刻前に発言イベントレコードがあるか判定する。ここで、判定に使用する一定時刻とはあらかじめ設定された値を用いる。例えば60secであるならばテキスト入力時刻より手前60sec以内に発言イベントの発話終了時刻s−finishが存在するかを判定する。
ステップS1213でテキスト入力時刻から一定時刻前に発言イベントレコードがあるか判定した場合、ステップS1214に進む。ステップS1214の処理は実施例1と同じである。すなわち、重要シーン判定部1360はステップS1210で記録したテキスト入力時刻から一定時刻前で最も近傍の発言イベントレコードのp−flagを1に変更する。
次に、ステップ2301において重要シーン判定部1360は、ステップS1210で記録したテキスト入力時刻から一定時刻前の全発言イベントレコードのp2−flagを1に変更し処理を終了する。
<会議記録視聴オペレーション>
次に、図24、図25、図26を用いて実施例3の会議記録視聴オペレーションを説明する。図24は実施例3の会議記録視聴端末の会議記録視聴時の表示画面を示す図である。実施例1と同様に実施例3においても会議記録視聴端末400は会議サーバ100の議事録配信部150を経由して議事録データベース140に格納されている会議記録データの会議記録を再生する。図24の会議記録視聴端末400の視聴用ソフトを起動した際の画面は、実施例1の画面に加えて再生範囲選択スイッチ4221を追加している。再生範囲選択スイッチ4221をLONGにセットした状態で、重要シーン再生ボタンを押すとp2−flagで指定した第二の重要シーンを通常再生し、それ以外のシーンは高速で早送り再生する。一方、再生範囲選択スイッチをSHORTにセットした状態で、重要シーン再生ボタンを押すとp−flagで指定した重要シーンを通常再生し、それ以外のシーンは高速で早送り再生する。再生範囲選択スイッチをSHORTにセットした状態の重要シーン再生は、実施例1と同じである。
図25は実施例3の重要シーンを再生する様子を示す図である。図25は再生範囲選択スイッチをLONGにセットした状態での再生状態を示す。図22で示した会議イベントデータのうちp2−flagが1で指定される発言イベントの開始時刻と終了時刻の時刻区間は会議動画を通常速度で再生、それ以外の区間は高速で早送り再生する。図25に示した通り重要シーンは通常速度、それ以外のシーンは高速で早送り再生する。
図26は実施例3の会議動画を再生するフローチャートの一例を示す図である。実施例3における会議動画の再生も実施例1と同様に会議サーバ100の議事録配信部150で処理され、その処理は図26のフローチャートに記載した通り処理する。実施例3では議事録配信部150は通常再生するか、重要シーンを再生するかを判定する。そして通常再生すると判定したならば会議動画を全て通常再生する。重要シーンを再生すると判定すると、会議イベントデータの先頭からひとつずつ会議イベントを取得する。そして、再生範囲選択スイッチ4221の状態に応じて、再生範囲選択スイッチの設定がLONGであればp2−flagで示した重要シーンを通常再生し、それ以外は高速早送り再生する。一方再生範囲選択スイッチの設定がSHORTであればp−flagで示した重要シーンを通常再生し、それ以外は高速早送り再生する。
以下、図26を用いて説明する。なお、図26に示す処理は、図15のステップS1506からステップS1508の処理をステップS2601からステップS2606の処理に変更したものである。それ以外のステップについては図15のフローチャートと同じであるので、以下では図15に示した実施例1のフローチャートとの差分のみ説明する。
ステップS2601において議事録配信部150は、会議記録視聴端末400の再生範囲選択スイッチの状態がSHORTであるかまたはLONGであるかを判定する。SHORTであれば議事録配信部150はステップS2602に進み、LONGであればステップS2605に進む。
SHORTであると判定した場合、ステップS2602において議事録配信部150は、会議イベントのp−flagの値に基づいて重要シーンか否かを判定する。重要シーンと判定した場合、ステップS2603に進み、議事録配信部150は発言終了時刻まで通常再生する。重要シーンでないと判定した場合、議事録配信部150はステップS2604に進み発言終了時刻まで高速早送り再生する。そしてステップ1510へ進む。
一方、LONGであると判定した場合、ステップS2605において議事録配信部150は、会議イベントのp2−flagの値に基づいて重要シーンか否かを判定する。重要シーンと判定した場合、ステップS2606に進み、議事録配信部150は発言終了時刻まで通常再生する。重要シーンでないと判定し場合、議事録配信部150はステップS2604に進み発言終了時刻まで高速早送り再生する。そしてステップS1510へ進む。
以上のとおり、実施例3によれば重要シーンとして判定する範囲を複数種類用意することにより、再生時にその範囲を選択できる。このため、重要シーンの中でもさらに要点だけ速やかに確認したいユーザと、そうでないユーザとに対して、会議記録視聴端末側の再生範囲の設定に応じて再生範囲を変えることができる。
<その他の実施例>
上記の各実施例においては、議事録テキスト入力イベントの時刻から所定時間より前の時刻の発言イベントを重要シーンとして判定する例を説明した。しかしながら、議事録テキスト入力イベントの時刻から所定時間より前及び後の時刻の発言イベントを重要シーンとして判定してもよい。すなわち、議事録テキスト入力イベントの時刻から一定範囲内の時刻の発言イベントを重要シーンとして判定してもよい。
また、上記の各実施例において、例えば実施例1では、重要シーンを通常再生し、それ以外のシーンを高速早送り再生する例を説明した。しかしながら重要シーンとそれ以外のシーンとで異なるように再生がされればよく、上記の各実施例に示す例に限定されるものではない。また、重要シーンを通常再生し、それ以外のシーンをスキップしてもよい。すなわち、重要シーンのみを再生してもよい。あるいは重要シーンを通常再生より速い1.5倍で再生し、それ以外のシーンを重要シーンの再生時よりも速い5倍で再生してもよい。また、重要シーンを通常再生より遅く例えば0.9倍で再生し、それ以外のシーンを通常再生より速く例えば3倍で再生するという処理であってもよい。このように、重要シーンを第1の速度で再生し、それ以外のシーンを第1の速度より速い第2の速度で再生することができる。
また、上記の各実施例では、議事録テキスト入力イベントの時刻情報はテキスト入力開始時刻またはテキスト入力終了時刻であるものとして説明した。しかしながら、係る例に限定されるものではなく、テキスト入力開始時刻及びテキスト入力終了時刻としてもよい。すなわち、各実施例の重要シーンは、テキスト入力開始時刻の例えば近傍の発言イベントと、テキスト入力終了時刻の近傍の発言イベントの両方であると判定してもよい。また、本実施例では、議事録作成者が通常の内容のテキストを入力している例を挙げて説明しているが、極端な例では、単に改行キーを押下することでも議事録テキスト入力イベントが会議操作端末200から会議サーバ100に送信されることも可能である。
また、上記の各実施例では再生速度が変更された動画を会議サーバ100から会議記録視聴端末400に配信する例を説明した。しかしながら、会議サーバ100からは単に動画と重要シーンの時刻情報とが会議記録視聴端末に配信される構成でもよい。そして、再生速度の制御は重要シーンの時刻情報に基づいて会議記録視聴端末400側で行う構成でもよい。
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

Claims (21)

  1. 会議の議事録テキスト入力イベントと発言イベントとを検出する検出手段と、
    検出した議事録テキスト入力イベントの時刻情報と発言イベントの時刻情報とに基づいて前記会議の重要シーンを判定する判定手段と
    を有することを特徴とする情報処理装置。
  2. 前記判定手段は、検出した議事録テキスト入力イベントの時刻情報から一定範囲内の時刻の時刻情報を有する発言イベントを前記会議の重要シーンと判定することを特徴とする請求項1に記載の情報処理装置。
  3. 前記判定手段は、検出した議事録テキスト入力イベントの時刻情報から一定範囲内の時刻情報を有する発言イベントうちの直近の発言イベントを前記会議の重要シーンと判定することを特徴とする請求項1に記載の情報処理装置。
  4. 前記判定手段は、検出した議事録テキスト入力イベントの時刻情報から一定範囲内の時刻情報を有する複数の発言イベントを前記会議の重要シーンと判定することを特徴とする請求項1に記載の情報処理装置。
  5. 前記議事録テキスト入力イベントと前記発言イベントと前記重要シーンを示すデータとを含む会議イベントデータと、前記会議の会議動画とを記憶手段に記憶する制御手段をさらに有することを特徴とする請求項1から4のいずれか一項に記載の情報処理装置。
  6. 前記記憶手段に記憶される会議イベントデータに基づいて前記記憶手段に記憶される前記会議動画を配信する配信手段をさらに有する請求項5に記載の情報処理装置。
  7. 前記配信手段は、前記重要シーンを示すデータが関連付けられている発言イベントを通常速度で配信し、その他のイベントは通常速度より速い速度の早送り速度で配信することを特徴とする請求項6に記載の情報処理装置。
  8. 前記配信手段は、前記重要シーンを示すデータが関連付けられている発言イベントを第1の速度で配信し、その他のイベントは前記第1の速度より速い第2の速度で配信することを特徴とする請求項6に記載の情報処理装置。
  9. 前記配信手段は、前記重要シーンを示すデータが関連付けられている発言イベントを通常速度で配信し、その他のイベントは配信しないことを特徴とする請求項6に記載の情報処理装置。
  10. 前記検出手段は、発言者の発話方向をさらに検出し、
    前記判定手段は、検出した議事録テキスト入力イベントの時刻情報から一定範囲内の時刻情報を有する発言イベントが複数の発話方向に対応するかを判定し、
    複数の発話方向に対応する場合、検出した議事録テキスト入力イベントの時刻情報の時刻から一定範囲内の時刻情報を有する発言イベントを前記会議の第1の重要シーンと判定することを特徴とする請求項1から4のいずれか一項に記載の情報処理装置。
  11. 前記判定手段は、複数の発話方向に対応しない場合、検出した議事録テキスト入力イベントの時刻情報の時刻から一定範囲内の時刻情報を有する発言イベントを前記会議の第2の重要シーンと判定することを特徴とする請求項10に記載の情報処理装置。
  12. 前記判定手段は、検出した議事録テキスト入力イベントの時刻情報から一定範囲内の時刻情報を有する発言イベントうちの直近の発言イベントを前記会議の第1の重要シーンと判定し、
    前記判定手段は、検出した議事録テキスト入力イベントの時刻情報から一定範囲内の時刻の時刻情報を有する複数の発言イベントを前記会議の第2の重要シーンと判定する請求項1から4のいずれか一項に記載の情報処理装置。
  13. 前記議事録テキスト入力イベントと前記発言イベントと前記第1の重要シーン又は前記第2の重要シーンを示すデータとを含む会議イベントデータと、前記会議の会議動画とを記憶手段に記憶する制御手段と、
    前記記憶手段に記憶される会議イベントデータに基づいて前記記憶手段に記憶される前記会議動画を配信する配信手段とをさらに有する請求項11または12に記載の情報処理装置であって、
    前記配信手段は、前記第1の重要シーンを示すデータが関連付けられている発言イベントを第1の速度で配信し、前記第2の重要シーンを示すデータが関連付けられている発言イベントを含むその他のイベントは前記第1の速度より速い第2の速度で配信することを特徴とする請求項11または12に記載の情報処理装置。
  14. 前記議事録テキスト入力イベントと前記発言イベントと前記第1の重要シーン又は前記第2の重要シーンを示すデータとを含む会議イベントデータと、前記会議の会議動画とを記憶手段に記憶する制御手段と、
    前記記憶手段に記憶される会議イベントデータに基づいて前記記憶手段に記憶される前記会議動画を配信する配信手段とをさらに有する請求項11または12に記載の情報処理装置であって、
    前記検出手段は、前記配信手段で配信される前記会議動画を視聴する視聴装置における動作モードをさらに検出し、
    前記動作モードが第1のモードを示す場合、前記配信手段は、前記第1の重要シーンを示すデータが関連付けられている発言イベントを第1の速度で配信し、前記第2の重要シーンを示すデータが関連付けられている発言イベントを含むその他のイベントは前記第1の速度より速い第2の速度で配信する請求項11または12に記載の情報処理装置。
  15. 前記動作モードが前記第1のモードと異なる第2のモードを示す場合、前記配信手段は、前記第1の重要シーン及び前記第2の重要シーンを示すデータが関連付けられている発言イベントを前記第1の速度で配信し、その他のイベントは前記第2の速度で配信する請求項14に記載の情報処理装置。
  16. 会議の会議動画を視聴する情報処理装置であって、
    前記会議の議事録テキスト入力がされた時刻から一定範囲内の時刻の発言シーンを第1の速度で再生し、前記発言シーン以外の残りの会議動画を前記第1の速度より速い第2の速度で再生する再生手段を
    有することを特徴とする情報処理装置。
  17. 第1のモード及び第2のモードを含む動作モードを設定する設定手段をさらに有し、
    前記設定手段で第1のモードが設定されている場合、
    前記再生手段は前記会議の議事録テキスト入力がされた時刻から一定範囲内の時刻のうちの1つの発言シーンを前記第1の速度で再生し、前記1つの発言シーン以外の残りの会議動画を前記第2の速度で再生し、
    前記設定手段で第2のモードが設定されている場合、
    前記再生手段は前記会議の議事録テキスト入力がされた時刻から一定範囲内の時刻のうちの複数の発言シーンを前記第1の速度で再生し、前記複数の発言シーン以外の残りの会議動画を前記第2の速度で再生する
    ことを特徴とする請求項16に記載の情報処理装置。
  18. 会議の会議動画を視聴する情報処理装置であって、
    前記会議の議事録テキスト入力がされた時刻から一定範囲内の時刻の発言シーンを第1の速度で再生し、前記発言シーン以外の残りの会議動画を前記第1の速度より速い第2の速度で再生する再生指示を入力するインターフェースを有することを特徴とする情報処理装置。
  19. 会議の議事録テキスト入力イベントと発言イベントとを検出する検出ステップと、
    検出した議事録テキスト入力イベントの時刻情報と発言イベントの時刻情報とに基づいて前記会議の重要シーンを判定する判定ステップと
    を有することを特徴とする情報処理方法。
  20. 会議の会議動画を視聴する情報処理方法であって、
    前記会議の議事録テキスト入力がされた時刻から一定範囲内の時刻の発言シーンを第1の速度で再生し、前記発言シーン以外の残りの会議動画を前記第1の速度より速い第2の速度で再生する再生ステップを
    有することを特徴とする情報処理方法。
  21. コンピュータを請求項1から18のいずれか一項に記載の情報処理装置として機能させるためのプログラム。
JP2013193386A 2013-09-18 2013-09-18 情報処理装置、情報処理方法、及びプログラム Pending JP2015061194A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013193386A JP2015061194A (ja) 2013-09-18 2013-09-18 情報処理装置、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013193386A JP2015061194A (ja) 2013-09-18 2013-09-18 情報処理装置、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2015061194A true JP2015061194A (ja) 2015-03-30

Family

ID=52818396

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013193386A Pending JP2015061194A (ja) 2013-09-18 2013-09-18 情報処理装置、情報処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2015061194A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017009959A1 (ja) * 2015-07-14 2017-01-19 日立マクセル株式会社 情報処理装置および情報処理方法
JP2019176375A (ja) * 2018-03-29 2019-10-10 株式会社アドバンスト・メディア 動画出力装置、動画出力方法および動画出力プログラム
JP2020010224A (ja) * 2018-07-10 2020-01-16 ヤマハ株式会社 端末装置、情報提供システム、端末装置の動作方法および情報提供方法
JP2020053886A (ja) * 2018-09-27 2020-04-02 株式会社Jvcケンウッド 情報処理装置、表示装置、情報処理方法、及びプログラム
US11163835B2 (en) 2017-03-16 2021-11-02 Ricoh Company, Ltd. Information processing system, information processing apparatus, information processing program and information processing method

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017009959A1 (ja) * 2015-07-14 2017-01-19 日立マクセル株式会社 情報処理装置および情報処理方法
US11163835B2 (en) 2017-03-16 2021-11-02 Ricoh Company, Ltd. Information processing system, information processing apparatus, information processing program and information processing method
JP2019176375A (ja) * 2018-03-29 2019-10-10 株式会社アドバンスト・メディア 動画出力装置、動画出力方法および動画出力プログラム
JP2020010224A (ja) * 2018-07-10 2020-01-16 ヤマハ株式会社 端末装置、情報提供システム、端末装置の動作方法および情報提供方法
JP7087745B2 (ja) 2018-07-10 2022-06-21 ヤマハ株式会社 端末装置、情報提供システム、端末装置の動作方法および情報提供方法
JP2020053886A (ja) * 2018-09-27 2020-04-02 株式会社Jvcケンウッド 情報処理装置、表示装置、情報処理方法、及びプログラム
JP7024676B2 (ja) 2018-09-27 2022-02-24 株式会社Jvcケンウッド 情報処理装置、表示装置、情報処理方法、及びプログラム
JP2022060330A (ja) * 2018-09-27 2022-04-14 株式会社Jvcケンウッド 情報処理装置、表示装置、情報処理方法、及びプログラム
JP7418698B2 (ja) 2018-09-27 2024-01-22 株式会社Jvcケンウッド 情報処理装置、表示装置、情報処理方法、及びプログラム

Similar Documents

Publication Publication Date Title
US10930300B2 (en) Automated transcript generation from multi-channel audio
US11218768B2 (en) Information processing device, information processing method, and program
US10034028B2 (en) Caption and/or metadata synchronization for replay of previously or simultaneously recorded live programs
KR102581116B1 (ko) 대화의 맥락에서 콘텐츠를 추천하기 위한 방법들 및 시스템들
US8972262B1 (en) Indexing and search of content in recorded group communications
CN107193841B (zh) 媒体文件加速播放、传输及存储的方法和装置
JP6824399B2 (ja) 音声ガイド生成装置、音声ガイド生成方法及び放送システム
CN112328142B (zh) 直播互动方法、装置、电子设备和存储介质
JP5488475B2 (ja) トピック遷移解析システム、トピック遷移解析方法およびプログラム
JP2015061194A (ja) 情報処理装置、情報処理方法、及びプログラム
KR20070020252A (ko) 메시지를 수정하기 위한 방법 및 시스템
JP6280312B2 (ja) 議事録記録装置、議事録記録方法及びプログラム
JP2005341015A (ja) 議事録作成支援機能を有するテレビ会議システム
CN112653902A (zh) 说话人识别方法、装置及电子设备
CN112954390B (zh) 视频处理方法、装置、存储介质及设备
JP4077656B2 (ja) 発言者特定映像装置
JP4917920B2 (ja) コンテンツ生成装置及びコンテンツ生成プログラム
JP2006279111A (ja) 情報処理装置、情報処理方法およびプログラム
JP5912729B2 (ja) 音声認識装置、音声認識プログラム、及び音声認識方法
JP4353084B2 (ja) 映像再生方法及び装置及びプログラム
JP2007272975A (ja) オーサリング支援装置、オーサリング支援方法及びプログラム、並びにオーサリング情報共有システム
JP7313518B1 (ja) 評価方法、評価装置、および、評価プログラム
US20240153523A1 (en) Automated transcript generation from multi-channel audio
JP2005341138A (ja) 映像要約方法及びプログラム及びそのプログラムを格納した記憶媒体
CN116501919A (zh) 提示方法、装置、设备和存储介质