JP6276570B2

JP6276570B2 - 画像音声再生システム及び画像音声再生方法とプログラム

Info

Publication number: JP6276570B2
Application number: JP2013252416A
Authority: JP
Inventors: 武士松村
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-12-05
Filing date: 2013-12-05
Publication date: 2018-02-07
Anticipated expiration: 2033-12-05
Also published as: JP2015109612A

Description

本発明は、画像音声再生システム及び画像音声再生方法とプログラムに関する。

一般に、ホワイトボードなどの盤面を用いた打ち合わせや会議などでは、盤面に書かれた内容と共に、会議参加者が発話した内容も重要である。会議の後にこれらの内容を振り返る際に、盤面の内容と共に発話の内容を同時に再生し、会議等の振り返りを容易にする手法はいくつか知られている（特許文献１参照）。例えば特許文献１の技術では、盤面上に書き込まれた文字や図等の画像と、それらが書き込まれた際に発話された音声とを再生することにより、会議の内容を図形画像と共に動画議事録のように参照する事ができる。

特開２００３−２６０８９６号公報

特許文献１の手法では、盤面上に文字や図形等が書込まれた時刻の音声を時刻情報と共に書込まれた文字や図形と関連付けて保存しておく。後から音声再生をする際には、盤面画像の中から文字や図形をユーザーが選択すると、文字や図形が書きこまれた時刻の音声が再生される。しかしながら、本手法では盤面への書込みと発話が同時に行われるような場合には問題はないが、盤面への書込みと発話が同時で無い場合は盤面画像の中から文字や図形を選択しても、音声が正しく再生されるとは限らない。例えば会議の参加者が文字や図形を盤面に書込みを行った後に発話を行う際には、その文字や図形を選択しても音声が再生される箇所に到達するまでに時間が掛かってしまう。また逆に会議の参加者が文字や図形を盤面に書込む前に発話を行った場合は、その文字や図形を選択しても音声が終了した後の部分が再生されてしまう。

本発明は上記従来例に鑑みて成されたもので、盤面上へ書き込まれた文字や図形と音声との、それぞれの内容に応じて同期させ、記録を検討する際のユーザーの生産性や利便性を向上させることを目的とする。

上記目的を達成するために本発明は以下の構成を有する。

すなわち、本発明は、画像オブジェクトが描画先に描画されていない状態から前記画像オブジェクトが前記描画先に描画された状態になるまでの前記描画先を撮像した時系列の静止画像データを取得する画像取得手段と、
ユーザーによる発話の音声データを含む、前記時系列の静止画像データに対応する時系列の音声データを取得する音声取得手段と、
前記画像オブジェクトを発話のタイミングと関連付ける関連付け手段と、
前記画像オブジェクトを含む静止画像データを表示する表示手段と、
前記表示された画像オブジェクトがユーザーの指示により選択された場合に、前記関連付けにより前記画像オブジェクトに関連付けられた前記発話のタイミングから、前記時系列の静止画像データおよび前記時系列の音声データを再生する再生手段と、
を有することを特徴とする画像音声再生システムにある。
あるいは他の側面によれば、本発明は、動画像データに含まれたフレームの間の差分に基づいて、画像オブジェクトの現れるフレームと、該画像オブジェクトが現れる前のフレームとにより前記画像オブジェクトの書込み期間を特定し、前記動画像データに同期して記録された音声のうちから、発話区間の少なくとも一部が、前記書込み期間に対して一定時間内である音声を、前記画像オブジェクトに関連付ける関連付け手段と、
前記画像オブジェクトが選択された場合に、前記関連付けにより前記画像オブジェクトに関連付けられた前記音声の発話区間の開始時刻から、前記動画像データを、同期して記録された音声とともに再生する再生手段と
を有することを特徴とする画像音声再生システムにある。

本発明によれば、盤面上への文字や図形の書込み時刻と発話時刻を参考にしながら、盤面上への書込み内容に該当する内容の発話時刻を検出することで、盤面上へ書込まれた文字や図形と映像や音声の同期を行う事が可能になる。盤面上へ書込まれた文字や図形と映像や音声を同期させて表示する事により、ユーザーにとって知りたい内容がすぐに再生されるような映像再生システムを提供する事が可能となり、ユーザーの利便性が向上する。

映像撮影再生システムのハードウエア構成例を示した図である。情報処理装置１０のハードウエア内部構成を示した図である。映像撮影再生システムを機能構成で示した図である。動画像から静止画像を抽出した例の概略である。差分領域情報を生成する処理のフローチャートである。動画像から抽出された静止画像と差分画像を一覧にした図である。差分領域情報と発話情報の例を示した図である。領域差分の例を示した図である。動画像の再生を行う処理のフローチャートである。再生処理の初期画面表示例を示した図である。再生処理中の表示例を示した図である。差分領域情報と発話情報を紐付ける処理のフローチャートである。本実施形態における領域への書込みと発話の開始、終了時刻の一例を示す図である。図１３の例における、書込みと発話の紐付け結果を示す図である。実施形態２における差分領域情報と発話情報を紐付ける処理のフローチャートである図１３の例の前半部における書込みと発話の特徴点の算出結果を示す図である。

［実施形態１］
始めに本発明の実施の形態の適用が想定される場面について説明する。例えば会議参加者がそれぞれホワイトボードなどの盤面（以下、ホワイトボードあるいは描画先）に文字や図形などを書き込む会議を行うことがある。このような会議において、会議の内容を記録する方法としては、ホワイトボードの様子を撮影（あるいは撮像）して静止画として残す方法がある。しかし会議中の細かな会話の内容や議論の経緯などは文字や図形で残りにくく、後から記録を参照しても思い出すことが困難であることが多い。そこで本実施形態では、会議の内容を音声付きの動画像で全て記録しておき、後から参照するシステムを提供する。これにはホワイトボードの静止画像から任意の知りたい書込み（すなわち書き込まれた画像オブジェクト）の領域を選択し、動画像の任意の再生開始時刻から再生されるようにすることで動画参照や音声視聴の補助を行う。

＜映像撮影再生システムの構成＞
図１は本実施形態における映像撮影再生システム（あるいは画像音声再生システム）のハードウエア構成例を示したものである。図示するようにこの映像撮影再生システムは、情報処理装置１０と、ホワイトボード１１と、ビデオカメラ１２と、マイクロフォン１３によって構成されている。情報処理装置１０は、ビデオカメラ１２がホワイトボード１１を撮影した動画像、およびマイクロフォン１３から送られてくる音声を保存し、後述する処理を行い内蔵する表示装置で静止画像や動画像の表示を行う。この情報処理装置１０は、ビデオカメラとマイクロフォンが接続できるパーソナルコンピュータやワークステーションだけでなく、それらを内蔵するタブレットに代表される一体型コンピュータシステムを用いても良い。

ホワイトボード１１は、専用のマーカーペンで文字や図形などを書込むのに用いる板で、専用のイレーサーを使うことで書込みを何度でも消去できる。壁面に貼るタイプの巻取り式のシート状の物等もあり、それを用いても良い。ビデオカメラ１２は、ホワイトボード１１に書き込まれた文字や図形を電子情報に変換し情報処理装置１０へ送信するもので、これ自身で動画像を２次記憶等へ保存する機能は備えていない。マイクロフォン１３は、会議参加者の会話を電子情報に変換し、情報処理装置１０へ送信する。ここではビデオカメラ１２とマイクロフォン１３は別体型を用いているが、マイクロフォンの機能を内蔵した一体型のビデオカメラを用いるようにしても良い。

図２は、情報処理装置１０のハードウエア内部構成を示したものである。情報処理装置１０は、ＣＰＵ２００、ＲＯＭ２０１、ＲＡＭ２０２、ＨＤＤ２０３、ディスプレイ２０４、カメラＩ／Ｆ２０５、マイクＩ／Ｆ２０６、キーボード２０７、ポインティングデバイス２０８からなり、それらはシステムバス２０９によって接続されている。ＣＰＵ（プロセッサ）２００は、情報処理装置１０全体の制御を行うものであり、ＲＯＭ２０１やＨＤＤ２０３などに記憶されたプログラムをＲＡＭ２０２に読み込み、各種処理を実行する。すなわち、情報処理装置１０のＣＰＵ２００は、コンピュータ読み取り可能な記憶媒体に記憶されたコンピュータプログラムを実行することにより、後述するフローチャートの各ステップを実行する処理部（処理手段）として機能する。ＲＯＭ２０１は、ＣＰＵ２００を起動するためのプログラムを含む各種データを記憶している。ＲＡＭ２０２は、ワークメモリとして用いられる。ＨＤＤ２０３はカメラＩ／Ｆ２０５やマイクＩ／Ｆ２０６から入力されたデータやＣＰＵ２００が処理したデータを保持している。ディスプレイ２０４はＨＤＤ２０３やＲＡＭ２０２に格納されているコンピュータプログラムやデータをＣＰＵ２００の指示に従って処理された結果を表示するものである。カメラＩ／Ｆ２０５はビデオカメラ１２から受信したデータをＨＤＤ２０３やＲＡＭ２０２等に格納する際のデータ変換を行う。マイクＩ／Ｆ２０６はマイクロフォン１３から受信したデータをＨＤＤ２０３やＲＡＭ２０２等に格納する際のデータ変換を行う。キーボード２０７、ポインティングデバイス２０８はユーザーの指示動作をＣＰＵ２００に伝達する。

＜映像撮影再生システムの機能構成＞
図３は、映像撮影再生システムを機能構成で示したものである。制御部３０は、後述する関連情報生成処理３００と映像再生処理３０１で構成されている。関連情報生成処理３００は、以下の処理ユニットによって構成されている。動画受信部３０００は、時系列で画像取得する動画撮影部３２から動画像を受信して２次記憶部３１へ動画像データ３１０として保存する。静止画抽出部３００１は動画像データ３１０から所定のタイミングで静止画像を取り出し、静止画像データ３１１として図６のようにＩＤを１から順に付与して保存する。静止画像を取り出すタイミングについては、例えばユーザーが操作部３４を用いて手動で指示したタイミングを用いて取り出したり、図示しない時刻計数部を用いて一定時刻間隔で取り出したりすることが考えられる。本実施形態では、ユーザーが操作部３４を用いて手動で指示したタイミングを用いて動画像データ３１０から静止画像３１１を抽出すると仮定する。静止画抽出部３００１は、撮影対象である描画先を撮像した時系列の画像データを取得する画像取得手段として機能する。なお、動画撮影部３２は、動画像と同期した音声データを記録する。

静止画時刻抽出部３００２は、前述の静止画像抽出手段３００１が静止画像データを取り出した、動画像中の静止画時刻を抽出する。発話時刻抽出部３００５は動画受信部３０００で受信した動画の音声から発話が行われている時刻を抽出する。発話区間の抽出は、所定時間以上連続する無音区間の開始時間と終了時間とを抽出することにより行うことができる。即ち、無音区間の終了時間が発話区間の終了時間であり、発話区間は無音区間で区切られている。発話時刻抽出部３００５は検出した発話区間の開始及び終了時刻を発話時刻情報３１３として２次記憶部３１に保存する。図７（b）がこの発話時刻情報を具体的に示したものである。発話時刻抽出部３００５は、時系列の画像データである抽出された静止画像に対応する時系列の音声データを、動画像とともに記録された音声から取得する音声取得手段として機能する。

差分抽出部３００３は、前述の静止画像抽出部３００１が取り出した静止画像を時系列順に比較し、差分を抽出する。この差分が、静止画像すなわちフレーム間に書き込まれた画像オブジェクトを含む。すなわち、前のフレームはいまだ書き込まれていない状態を、後のフレームは書きこまれた状態を示す。関連情報生成部３００４は、前述の静止画時刻抽出部３００２が抽出した静止画時刻情報と、差分抽出部３００３が抽出した差分情報に関連付け、後述する、差分領域と時刻とを関連付けた差分領域情報３１２を生成する。この生成方法は後述する。図７（a）がこの差分領域情報３１２の具体例を示したものである。また関連情報生成部３００４はこの差分領域情報３１２と発話時刻抽出部３００５が抽出した発話時刻情報３１３とを紐付ける、すなわち関連付ける。この紐付け方法については後述する。

映像再生処理３０１は、以下の処理ユニットによって構成されている。動画再生部３０１０は差分領域情報３１２の情報を元に、動画像データ３１０を指定された再生開始時刻から読み出し、表示部３３へ表示を行う。静止画再生部３０１１は静止画像データ３１１を読み出し、表示部３３へ表示を行う。画像合成部３０１２は前述の選択情報生成部が生成した表示画面など複数の静止画像を同時に表示するために合成処理を行い、表示部３３へ表示を行う。選択情報生成部３０１３は前述の差分領域情報３１２の走査の結果、再生開始時刻が複数存在した場合に、該当する再生開始時刻の静止画像を複数読みだしてユーザーに選択を促すための表示画面を生成する。領域選択部３０１４は、ユーザーが操作部３４を操作して得られた領域選択情報を読み取り、差分領域情報３１２を走査して動画の再生開始時刻を決定し、動画再生部３０１０へ動画再生の指示を行う。ユーザーが行う操作部３４の操作は、座標情報の入力が可能なポインティングデバイス２０８のクリック操作を用いる。また、表示部３３に図示しない座標情報が得られるタッチ式の入力装置を付加し、画像を見ながらのタッチ入力によって情報を得るようにしても良い。

図４は動画像から静止画像を抽出した例の概略である。この例では、動画像データ３１０の中から動画の最初のフレームの静止画像５００、動画の最後のフレームの静止画像５０４の抽出を指示し、さらにその間に、ユーザーが３：３２、７：０９、１２：４９の時刻で静止画像の抽出指示を行った。その結果、最初のフレーム５００と最後のフレーム５０４とに加えて静止画像５０１、５０２、５０３が抽出され、合計５つの静止画像が得られたことを示している。これら静止画像にはＩＤとして、例えば時系列にシリアル番号が付与される。ＩＤは固有であればシリアル番号でなくともよい。なお以下の説明では、ユーザーにより動画から静止画像としてフレームが抽出されており、そのフレームが記録された時刻と関連付けてＨＤＤ２０３に保存されていることを前提とする。

＜差分領域情報の生成＞
図５は、前述の静止画抽出処理によって得られた静止画像を時系列順に比較し、差分領域情報を生成する処理をフローチャートにしたものである。Ｓ６０１からＳ６０５までの処理を静止画像のIDの値を１で初期化し、繰り返しごとにIDの値を加算しながら、比較する静止画像が存在する範囲で繰り返し実行する。Ｓ６０２では、先行するID番目の静止画像と、それに続く（ID + 1）番目の静止画像とを比較することで静止画像の差分抽出を行う。Ｓ６０３では抽出結果から差分の有無を判断する。なお静止画像のＩＤがシリアル番号でない場合には、ＩＤとして静止画像の時系列の順序を示す番号を利用すればよい。

差分があった場合には、さらにＳ６０４において、Ｓ６０２で抽出した差分が下地色であるかの判断を行う。すなわち差分のあった領域内について、たとえばＩＤ番目の静止画像と、ＩＤ＋１番目の静止画像との比較を画素ごとに行い、画素値の差分が所定の値以下の画素が、比較対象となった総画素数の所定のパーセント以上であるかの判定を行う。所定のパーセント以上であれば、差分のあった領域は下地色であると判断し、そうでない場合は下地色でないとする。差分が下地色でない場合はＳ６０５において、領域情報として、差分のあった領域を特定する座標、例えば図８の（Ｘ１,Ｙ１）及び（Ｘ２，Ｙ２）のように、矩形領域の対角点の座標の生成を行う。差分領域情報は、差分の領域情報と、静止画像のIDとを抽出した時刻とを関連付けたものである。一方、Ｓ６０４で下地と判断された場合には、Ｓ６０７において、差分領域は、ユーザーがホワイトボード上に誤って記入した誤記を消去したあとかどうかの判断を行う。この下地領域が誤記の消去かどうかの判断の詳細は後述する。この判断結果をＳ６０８、Ｓ６０９で誤記フラグの生成を行い、Ｓ６０５の差分領域情報生成に移行する。差分領域情報は画像の差分情報、誤記フラグと、差分があった時の静止画像のID番目を抽出した時刻とを関連付けたものである。その例を図７（ａ）に示す。一方、Ｓ６０３で差分が無いと判断された場合には、差分領域情報を生成せずにＳ６０６へ処理を移す。

Ｓ６０６では静止画像のIDの値を１加算して、その値を抽出された静止画像の数と比較し、同じ値になったら繰り返し処理を終了する。IDの値が静止画像の数に達していなかった場合にはＳ６０１から再度処理を行う。なお、図５では１つの静止画像から１つの差分領域を抽出するかのように記載したが、互いに連結していない複数の差分領域が２つの隣接する静止画像（すなわちＩＤ番目とＩＤ＋１番目の静止画像）の間にある場合には、それらすべての差分領域についてＳ６０４〜Ｓ６０５の工程が実行される。

図６は動画像データ３１０から抽出された静止画像７１を入力した場合に領域差分抽出Ｓ６０２によって得られる静止画像の差分７２を一覧にしたものの一例である。図６におけるＩＤを引数として、静止画像をＰ（ＩＤ）と、差分領域をＤ（ＩＤ）と表す。Ｓ６０２を実行する時にIDの値が１だった場合は、ＩＤが１である静止画像P（１）と、ＩＤが２の静止画像P（２）とを比較し、その結果として差分領域D（２）が得られ、差分領域情報が生成される。またIDの値が３だった場合は、静止画像P（３）とP（４）とを比較し、その結果として差分領域D（４）が得られる。このときの差分領域はＰ（３）に在った書込みが消された下地色であるため、その情報を差分領域情報に追加するとともに、図５のS６０７の下地領域が消去された誤記かどうかの判断を行う。たとえば、下地色が発生する１つ前の差分領域情報を参考に、今回の差分領域（着目差分領域）の座標と１つ前の差分領域の座標とが所定の割合以上オーバーラップする場合には、着目差分領域は消去された誤記であると判断する。例えば着目差分領域と、下地色が発生する１つ前の差分領域とが５０％以上オーバーラップするのであれば、１つ前の差分領域に描かれた誤記の消去であるとの判断が行われる。例えば、差分領域D（４）では、領域B-3に下地色が発生した。ここで、そのひとつ前の差分領域D(３)でどの座標に書込みが行われたかを参照し、差分領域D（４）とのオーバーラップの割合を判断する。この場合は差分領域D（３）の差分領域は、差分領域D（４）と同じ範囲を占める領域B-2であるため、オーバーラップの割合は１００％であり、この下地色が誤記の消去を示すと判断し、差分領域情報の誤記フラグを'１'に設定する。領域Ａと領域Ｂは位置的に異なる箇所であるが、差分領域Ｄ（３）の領域B-2と差分領域Ｄ（４）の領域Ｂ-３は、位置的に同一箇所である判断したものとする。

一方、差分領域D（７）において差分領域Ａ，Ｂ−４はいずれも下地色と判断される。この場合においても下地色が発生する前の書込み領域を参考にする。下地色が発生する前の差分領域D（６）では領域Cに書込みが行われており、領域A、領域B-4と異なる領域のため、この下地色は誤記の消去でないと判断し、差分領域情報の誤記フラグに'０'を設定する。領域Ａと領域Ｂ−１とは位置的に異なる箇所であるが、領域B-２と領域Ｂ-３、領域B-4は、位置的に同一箇所である判断したものとする。

図７(a)は、図５の処理に対して図６の静止画像７１を入力した場合に得られる、差分領域情報を示したものの一例である。ＩＤ８０は、静止画像の抽出時に当該静止画像に付されたＩＤである。領域情報８１は画像差分の領域を示す情報であり、領域を一意に特定できればどのようなデータ構造でも良い。例えば図８にある、領域９０のように画像差分に外接する矩形領域であれば、左上の座標であるX1,Y1、右下であるX2,Y2の情報を格納すれば良いし、領域９１のように画像差分の輪郭領域であれば輪郭を示す座標の集合の情報を格納すれば良い。再生開始時刻情報８２には、該当する領域に対して書込みが始まる時刻情報、すなわち図５の手順の処理中に着目しているＩＤを持つ静止画像の、元の動画像における時刻が再生開始時刻情報８２として格納される。また静止画像時刻情報８３には、該当する領域に対して書込みが終了した時刻情報、すなわち図５の手順の処理中に着目しているＩＤの次のＩＤ（すなわちＩＤ＋１）を持つ静止画像の、元の動画像における時刻が格納される。非下地領域情報８４は書込みが消されたかどうかを示し、消された領域の場合はＮｏが、書き込みがされた場合にはＹｅｓが記録される。もちろん表示は逆であってもよい。誤記フラグ情報８５は前述したフローに従って下地領域情報が誤記であると判断された場合に'１'が記録される。

これら情報について図６を用いて具体的に説明する。ＩＤの値が１であるときには、静止画像Ｐ（１）と静止画像Ｐ（２）の比較を行い、差分として領域７２１が検出される。この領域７２１の情報を領域Ａとして、書込みが始まる時刻情報はＩＤが１であるときの撮影時刻であるため０：００が再生開始時刻として記録される。書込みが終了した時刻情報はＩＤが２であるときの撮影時刻であるため３：２２が静止画像時刻情報としてそれぞれ記録される。また同様にＩＤが２〜６の領域情報８１、再生開始時刻情報８２、静止画像時刻情報８３の値が該当する静止画像から生成される。ＩＤが３、６の場合はこれらに加えて、下地領域情報と誤記フラグ情報が付与される。

＜差分領域情報と発話時刻情報との関連付け＞
図１２は前述した差分領域情報３１２と発話期間情報３１３を関連付けるフローである。図１２においては、ＩＤ＝１の差分領域情報（図７（ａ）参照）から順次着目し、Ｓ１７０１〜Ｓ１７１４までの処理を行う。なお発話情報が、処理対象の動画情報から別途抽出されているものとする。発話情報は、一連の音声が開始される開始時刻と当該音声が終了する終了時刻とから構成される発話時刻と、ＩＤとを含む。さらに音声情報そのものを含んでもよい。まずＳ１７０１において、着目した差分領域情報を取り出す（すなわち参照する）。Ｓ１７０２において着目差分領域のひとつ前のＩＤ（ＩＤ＝１の場合は存在しない）の着目差分領域の誤記フラグ８５を参照し、誤記フラグ８５が無いもしくは'０'の場合はＳ１７０４に進み、着目差分領域が非下地領域かの判断を行う。非下地領域であればＳ１７０５に進み、書込みの開始時刻から終了時刻まで（以下、書込み期間あるいは描画期間と呼ぶ）と、開始時刻から終了時刻まで（以下、発話期間と呼ぶ）の重なる発話があるかを判断する（Ｓ１７０５）。なお書込みの開始時刻とは、着目差分領域情報の再生開始時刻８２に相当し、書込み終了時刻とは着目差分領域情報の静止画像時刻情報８３に相当する。発話期間が書込み時間に重なるような発話がある場合は、該当する発話すべてを着目差分領域に紐付ける（Ｓ１７０６）。この関連付けは図１４に示すような書込み−音声表に記録される。書込み−音声表では、関連付けの対象となる差分領域のＩＤ８０とその領域情報８１、関連付けられる発話を特定する情報（例えばＩＤ）とその最優先の発話識別情報とが１レコードを構成する。発話情報のＩＤは、図７（ｂ）の発話情報のＩＤ１６０に相当する。最優先の発話情報とは、一つの差分領域に複数所発話が関連付けられる場合に最優先される優先順位であり、書込み期間と重複している期間が最も長い発話が最優先の発話に指定される。そのためにひとつのＩＤに紐付いている発話がひとつかどうかの判断を行う（Ｓ１７０７）。複数ある場合には、紐付けられる複数の発話の書き込み期間との重複の長さを比較する。最も書込み期間との重複期間が長い発話のＩＤが最優先の発話欄に記録される（Ｓ１７０８）。この紐づけは、差分領域に表れた画像オブジェクトを、その書込み期間に発話された音声に関連付けることということができる。

一方、Ｓ１７０５において、書込み時刻と重なる発話がないと判定された場合、Ｓ１７０９に進み、書込み期間の前後の一定時間内に発話があるかどうかの判断を行う。このためには、例えば着目差分領域の再生開始時刻をその一定時間だけ前にずらし、静止画像時刻をその一定時間だけ後ろにずらして時間を前後に拡張した拡張書込み期間を一時的に求め、その拡張書込み期間と発話期間が重複する発話を探す。該当する発話があればＳ１７１０に進み、該当する会話を着目差分領域と紐づけて書込み−音声表に登録する。この紐づけは、差分領域に表れた画像オブジェクトを、その書込み期間に近い時刻に発話された音声に関連付けることということができる。次にＳ１７１１において、紐付けられる発話がひとつかの判断を行い、複数の場合はその中で時刻情報が近いものを第一優先とする。この場合の時刻情報の近いものの判断は、たとえば拡張書込み期間（あるいは拡張描画期間ともいう）と重複する期間が最も長い発話を第一優先とすることで実現できる。なお重複もまた一定時間内であることから、Ｓ１７０８とＳ１７１０との関連付けは、書込み期間から一定時間内の拡張書込み期間に少なくとも発話期間の一部が重複する音声を、当該書込み（すなわち画像オブジェクト）に関連付けることということもできる。

また、Ｓ１７０９において該当する発話がないと判定された場合には、Ｓ１７１４に進む。ここで紐付く発話がないと判断し、その旨を再生処理の初期画面の表示部１１０の該当領域中に表示させる。図１２のＳ１７１２、Ｓ１７１３は単に説明のための工程であり、何も行う必要はない。会議録の再生時に、会話が紐づけられていない書込み（すなわち差分領域）については、関連付けられる音声がない旨のメッセージが重複して表示される。図１０（ｂ）がその例であり図１０（a）の領域１１００に紐付けられた発話が無かった場合に、ユーザーにその旨を例えば１１０２のように表示する。

さてＳ１７０２においてひとつ前の差分領域の誤記フラグが１である場合、さらにその前の差分領域に既に紐づけられている発話情報を紐付ける。なお誤記が連続する場合には、連続する誤記の更に前の差分領域に紐づけられている発話情報を紐付ける。その後Ｓ１７０５に分岐する。

次に図１２のフローを、図１３に示すように書込みと発話が行われた場合を例として、各書込み領域に対して、どの発話が紐付けられるかを説明する。

図１３は時系列的にＩＤが１〜１２までの１２個の差分領域Ａ〜Ｇ-３が図５の手順で抽出され、発話として発話１〜１２が存在しているものとする（以下書込みをＩＤで、発話をその番号で表現する）。なお「発話」とは記録された音声のことであり、たとえば一方的な説明や会話などの音声を含む。ＣＰＵ２００は２次記憶部３１に保持されている差分領域情報３１２及び発話時刻情報３１３を取り出し、差分領域情報のＩＤ１から順に以下の処理を差分領域情報の最終ＩＤまで繰り返す。

図１２のＳ１７０１において、まず、取り出した領域情報が非下地情報かどうかの判断を行う。Ｓ１７０２においてひとつ前のＩＤ（ＩＤ＝１の場合は存在しない）の誤記フラグを確認し、誤記フラグが無いもしくは'０'の場合はＳ１７０４に進み、ＩＤ１の領域（領域Ａ）が非下地領域かの判断を行う。非下地領域であればＳ１７０５に進み、ＩＤ１の書込みの書込み期間と各発話の発話期間の重なる部分があるかを判断する（Ｓ１７０５）。重なる発話がある場合は、その発話を紐付ける（Ｓ１７０６）。この場合はＩＤ１の領域情報に発話１が紐付けられる。次にひとつのＩＤに紐付いている会話がひとつかどうかの判断を行う（Ｓ１７０７）。図１３の場合はＩＤ１には会話１のみが紐付けられているので、次のＩＤの処理に向かう。ＩＤ２（領域Ｂ）の処理では、ＩＤ１の同様のフローでＳ１７０７まで処理が進み、ＩＤ２の場合は会話２と会話３が紐付いているのでＳ１７０８に進み、書込み時刻と紐付く発話時刻の重な長さを比較する。この場合、会話２の方が重なる時間が長いので、会話２を第一優先とする。

次にＩＤ３（領域Ｃ）においては、ＩＤ１と同様のフローで処理が進み、Ｓ１７０５において、書込み期間と重なる発話がないため、Ｓ１７０９に進み、書込み期間の一定時間内に発話があるかどうかの判断を行う。ここでの一定時間内は予め定められた可変の時間であり、ここでは１分（１：００）とする。ＩＤ３の場合は会話４と会話５がその区間内で発話されている。従って、Ｓ１７１０に進みこの会話４と会話５をＩＤ３に紐付ける。次にＳ１７１１において、紐付く発話がひとつかの判断を行い、紐付く発話が複数の場合はその中で時刻情報が近いものを第一優先とする。この場合の時刻情報の近いものの判断は、それぞれの開始時刻と終了時刻の差のいずれをとっても良いものとする。

ＩＤ４やＩＤ５においてはＩＤ３と同様のフローでＳ１７０９まで処理が進み、一定区間内で発話がされていないのでＳ１７１４に進む。ここで紐付く発話がないと判断し、その旨を再生処理の初期画面の表示部１１０の該当領域中に表示させる。図１０（ｂ）がその例であり図１０（a）の領域１１００に紐付けられた発話が無かった場合に、ユーザーにその旨を例えば１１０２のように表示する。

ＩＤ８（領域Ｆ−３）の処理においては、Ｓ１７０２において、ひとつ前のＩＤ７の領域Ｆ−２の誤記フラグが'１'であるためＳ１７０３に進み、２つ前のＩＤ６の領域Ｆ−１に紐付けられている会話８を紐付ける。また、ＩＤ１２（領域Ｇ−３）においては、Ｓ１７０２の判断でひとつ前のＩＤの誤記フラグが'0'のためＳ１７０４に進み、非下地情報なのでＳ１７０５からの処理へと進む。一方、ＩＤ７やＩＤ１１などの下地情報自体にはどの会話とも紐付けを行わない。

以上の手順により、撮影したホワイトボードへの書き込みと音声とを関連付けた書込み−音声表が作成される。

＜動画像再生処理＞
図９は、前述の差分領域情報と動画像とを利用して任意の再生開始時刻から動画像の再生を行う処理をフローチャートにしたものである。まずＳ１００１において、最終静止画像の表示を行う。この最終静止画像とは、保存した動画像の最終静止画像のことであり、静止画像例の図６ではＰ（８）であるため、最終的な表示例は図１０のようになる。次にＳ１００２で、ユーザーの操作部３４に対する操作による座標情報の入力を待つ。入力される座標情報は、表示されている静止画像上の座標である。入力があった場合にはＳ１００３で、入力された座標情報を基に差分領域情報（図７参照）を走査する。より具体的には、入力された座標情報が差分領域情報内の領域情報８１に保存された各領域内に含まれているか否か走査する。すなわち、差分領域情報に登録された静止画像すべてについて、入力された座標を含む領域情報を検索する。次にＳ１００４で、その走査の結果該当する領域情報がないと判断された場合には、Ｓ１００２で再びユーザーの操作入力を待つ。

該当する領域情報が見いだされた場合には、次にＳ１００５において、領域情報に対する発話情報が複数存在するかを判定する。この判定は、該当する領域情報が含まれた静止画像のＩＤを索引として図１４に示した書込み−音声表のレコードを参照し、該当する領域に紐づけられた発話情報がいくつあるか判断することで行う。複数あった場合にはＳ１０１０に、なかった場合にはＳ１００６に分岐する。ここで複数あった場合の処理については後述し、先に１つだけだった場合の処理の説明を行う。これは図１０の表示例において領域１１００内の座標が指定された場合である。Ｓ１００６では、確認された領域情報に紐付けられた発話情報の発話開始時刻１６２から、動画の再生を開始する。次にＳ１００７でユーザーの操作部３４に対する操作による入力を待つ。入力があった場合にはＳ１００８で動画再生を中断した後にＳ１００１に処理を戻し、再び静止画像の表示を行う。入力がなかった場合にはＳ１００９で動画の再生が最後まで到達したかの確認を行う。動画の再生が最後まで到達していなかった場合にはＳ１００７で再びユーザーの操作入力を待ち、最後まで到達していた場合にはＳ１００１に処理を戻し、再び静止画像の表示を行う。

次にＳ１００５でユーザー入力された座標情報に対する差分領域に対して複数の発話情報が紐付けされていた場合の処理について説明する。Ｓ１０１０では、ユーザーが入力した座標情報に対応する差分領域に関連付けられた複数の発話情報の開始時刻と、第一優先の発話時刻を取得し、第一優先の発話時刻から再生を開始する。なお複数の静止画像に、入力座標を含む差分領域が含まれている場合には、たとえば時系列順に静止画像を選択する、そして選択した静止画像中の差分領域に紐づけられた発話情報のうち、最優先の発話情報の開始時刻から動画を再生する。更にその他の紐付けられた開始時刻を候補として再生画面に重畳して表示部３３で表示する。この際の具体例が図１１となる。動画の再生画面１１０１の下に原座表示しているフレームの時刻を示すタイムバー１１０２が表示される。表示部３３では第一優先の発話時刻１２００から動画を再生すると共に、その他の紐付けられた発話の開始時刻も候補として１２０１のように、発話された時刻を示すシンボルにより表示する。

また、図１４のような領域情報が存在するような場合においては、領域Ｇ−１と領域Ｇ−３は同一領域であるため、ユーザーがこの領域を指定した場合は領域Ｇ−１もしくは領域Ｇ−３のどちらを再生するか選択できるようにユーザーに促してもよい。差分領域の同一性は、その範囲のみならず、そこに含まれた画像の画素単位での比較により判定される。その判定の結果同一であれば選択肢を表示する。領域Ｇ−１が選択された場合には領域Ｇ−１に紐付けられている会話１０から再生が開始され、領域Ｇ−３が選択された場合には領域Ｇ−３に紐付けられている会話１２が再生される。

以上の処理により、表示された静止画像から注目したい箇所を指定することで、その領域に関連付けられた再生開始時刻から動画の再生が開始される。またその箇所に複数の再生開始時刻が関連付けられていた場合でも、再生開始候補の画像を表示し選択を促すことで複数の中から１つを選択可能になる。このことからホワイトボード各書込みに対して、書込みが開始されるところからの動画が参照でき、書き込みに対する動画中の音声を聞くことで会議中の会話や様子を容易に把握することが可能になる。

［実施形態２］
実施形態２では領域情報８１と発話情報１６１の紐付けを行う際に、更に容易な方法で紐付けを行う方法について説明する。図１５は本実施形態における領域情報と発話情報とを紐付ける処理をフローチャートにしたものであり、実施形態１の図１２に代えて本実施形態で遂行される手順である。そのほかの構成は実施形態１に準ずる。

図１５において、実施形態１と同様の手順でＣＰＵ２００は差分領域情報の取り出しを行う（Ｓ１８０１）。次に書込み時刻情報（すなわち再生開始時刻情報８２）から特徴点時刻の算出を行う（Ｓ１８０２）。この特徴点時刻とは開始時刻と終了時刻及び、それらから算出されるその中間点の中間時刻である。次に発話時刻情報からも同様に特徴点時刻の算出を行う（Ｓ１８０３）。これらの算出結果は図１３の前半部を例に取ると、図１６のようになる。

次に着目書込み領域（着目差分領域であり、ＩＤの値で特定される領域）の特徴点時刻と各発話の特徴点時刻の差分の算出を行う（Ｓ１８０４）。ここで、特徴点は開始時刻、終了時刻、中間時刻とあるが、どの特徴点間で差分の算出を行うかは予め定めておく。ここでは、それぞれの開始時刻を差分算出の特徴点とした場合を例にして説明する。領域Ａの書込み開始時刻との会話１の発話開始時刻の時間差分は０：１０、会話２との時間差分は１：００、会話３との時間差分は２：４０となる。

次にＳ１８０５では、その算出した時間差分の中から最も小さいものの会話を選択する。すなわち着目書込み領域の特徴点時刻と最も近い特徴点時刻を持つ発話情報が選択される。領域Ａが指定された場合には会話１が選択されその開始時刻から再生が開始される。次にＳ１８０６では選択された発話時刻がひとつかの判断を行う。選択される発話時刻は通常ひとつであるが、前述した時間差分が同じ値であった場合は複数の発話が選択される。この場合は最も時刻情報が早い発話を選択することで、多くの発話をユーザーが再生できるようにする。同様に領域Ｂには会話３が、領域Ｃにも会話３が紐付けられる。

このように本実施形態においては、領域情報と発話情報を紐付ける際に、少ない計算量で紐付けを行う事が可能となり、ユーザーが領域を指定した際に発話の開始時刻から再生を行え、ユーザーの利便性を向上させる事ができる。

［その他の実施形態］
なお本発明は、上記実施の形態に限定されず、本発明の要旨を逸脱しない範囲で種々の変形が可能である。例えば図１のハードウエア構成例に、ホワイトボードを撮影するビデオカメラだけでなく会議参加者の様子を撮影するビデオカメラを追加し動画像を２種類保存し、動画像の再生時にピクチャーインピクチャーで両方の動画像を同時に再生してもよい。これにより会議の会話だけでなく参加者の様子も同時に確認できるため、より詳細な事後確認が可能になる。

また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

画像オブジェクトが描画先に描画されていない状態から前記画像オブジェクトが前記描画先に描画された状態になるまでの前記描画先を撮像した時系列の静止画像データを取得する画像取得手段と、
ユーザーによる発話の音声データを含む、前記時系列の静止画像データに対応する時系列の音声データを取得する音声取得手段と、
前記画像オブジェクトを発話のタイミングと関連付ける関連付け手段と、
前記画像オブジェクトを含む静止画像データを表示する表示手段と、
前記表示された画像オブジェクトがユーザーの指示により選択された場合に、前記関連付けにより前記画像オブジェクトに関連付けられた前記発話のタイミングから、前記時系列の静止画像データおよび前記時系列の音声データを再生する再生手段と、
を有することを特徴とする画像音声再生システム。
前記画像取得手段は、動画像から所定のタイミングで静止画像を抽出することで前記時系列の静止画像データを取得し、
前記音声取得手段は、前記動画像に同期して記録された音声から、無音区間で区切られた発話区間ごとに音声を抽出することで前記音声データを取得し、
前記関連付け手段は、先行する静止画像データとそれに続く静止画像データとの差分に含まれた画像オブジェクトを、前記先行する静止画像データが抽出されたタイミングから前記それに続く静止画像データが抽出されたタイミングまでの描画期間と発話区間が重複する前記音声データに関連付けることを特徴とする請求項１に記載の画像音声再生システム。
前記関連付け手段はさらに、前記描画期間を前後に拡張した拡張描画期間と発話区間が重複する前記音声データも前記画像オブジェクトに関連付けることを特徴とする請求項２に記載の画像音声再生システム。
前記関連付け手段は、前記差分に含まれた画像オブジェクトが誤記であるか判定し、誤記であった場合には、誤記であると判定された前記画像オブジェクトに関連付けられた音声データを、誤記であると判定された画像オブジェクトの消去の後に書き込まれた画像オブジェクトに関連付けることを特徴とする請求項２又は３に記載の画像音声再生システム。
前記関連付け手段は、前記差分に含まれた画像オブジェクトが下地色であり、前記先行する静止画像データの更に先行する静止画像データに、前記画像オブジェクトと重複する画像オブジェクトが含まれている場合に、当該画像オブジェクトを、誤記であると判定された前記画像オブジェクトとすることを特徴とする請求項４に記載の画像音声再生システム。
前記関連付け手段は、前記画像オブジェクトに関連付けた音声データが複数あった場合には、そのうちのひとつを最優先の音声データとして前記画像オブジェクトに関連付け、前記再生手段は、最優先の音声データを再生することを特徴とする請求項１乃至５のいずれか一項に記載の画像音声再生システム。
前記関連付け手段は、前記最優先の音声データとして、前記画像オブジェクトの描画期間と最も長く重複する発話区間の音声データを前記画像オブジェクトに関連付けることを特徴とする請求項６に記載の画像音声再生システム。
前記関連付け手段は、前記最優先の音声データとして、前記画像オブジェクトの描画期間に最も近い発話区間の音声データを前記画像オブジェクトに関連付けることを特徴とする請求項６に記載の画像音声再生システム。
前記画像取得手段は、動画像から所定のタイミングで静止画像を抽出することで前記時系列の静止画像データを取得し、
前記音声取得手段は、前記動画像に同期して記録された音声から、無音区間で区切られた発話区間ごとに音声を抽出することで前記音声データを取得し、
前記関連付け手段は、先行する静止画像データとそれに続く静止画像データとの差分に含まれた画像オブジェクトを、前記先行する静止画像データが抽出されたタイミングから前記それに続く静止画像データが抽出されたタイミングまでの描画期間の中の所定の特徴点時刻と発話区間の中の所定の特徴点時刻が最も近い前記音声データに関連付けることを特徴とする請求項１に記載の画像音声再生システム。
前記特徴点時刻は、前記描画期間及び前記発話区間の、開始時刻または終了時刻または中間時刻のいずれかであることを特徴とする請求項９に記載の画像音声再生システム。
動画像データに含まれたフレームの間の差分に基づいて、画像オブジェクトの現れるフレームと、該画像オブジェクトが現れる前のフレームとにより前記画像オブジェクトの書込み期間を特定し、前記動画像データに同期して記録された音声のうちから、発話区間の少なくとも一部が、前記書込み期間に対して一定時間内である音声を、前記画像オブジェクトに関連付ける関連付け手段と、
前記画像オブジェクトが選択された場合に、前記関連付けにより前記画像オブジェクトに関連付けられた前記音声の発話区間の開始時刻から、前記動画像データを、同期して記録された音声とともに再生する再生手段と
を有することを特徴とする画像音声再生システム。
画像オブジェクトが描画先に描画されていない状態から前記画像オブジェクトが前記描画先に描画された状態になるまでの前記描画先を撮像した時系列の静止画像データを取得する画像取得工程と、
ユーザーによる発話の音声データを含む、前記時系列の静止画像データに対応する時系列の音声データを取得する音声取得工程と、
前記画像オブジェクトを発話のタイミングと関連付ける関連付け工程と、
前記画像オブジェクトを含む静止画像データを表示する表示工程と、
前記表示された画像オブジェクトがユーザーの指示により選択された場合に、前記関連付けにより前記画像オブジェクトに関連付けられた前記発話のタイミングから、前記時系列の静止画像データおよび前記時系列の音声データを再生する再生工程と、
を有する画像音声再生方法。
請求項１乃至１１のいずれか一項に記載の画像音声再生システムをコンピュータにより実現するためのプログラム。