JP6276570B2 - 画像音声再生システム及び画像音声再生方法とプログラム - Google Patents

画像音声再生システム及び画像音声再生方法とプログラム Download PDF

Info

Publication number
JP6276570B2
JP6276570B2 JP2013252416A JP2013252416A JP6276570B2 JP 6276570 B2 JP6276570 B2 JP 6276570B2 JP 2013252416 A JP2013252416 A JP 2013252416A JP 2013252416 A JP2013252416 A JP 2013252416A JP 6276570 B2 JP6276570 B2 JP 6276570B2
Authority
JP
Japan
Prior art keywords
image
time
data
image object
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013252416A
Other languages
English (en)
Other versions
JP2015109612A (ja
JP2015109612A5 (ja
Inventor
武士 松村
武士 松村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2013252416A priority Critical patent/JP6276570B2/ja
Publication of JP2015109612A publication Critical patent/JP2015109612A/ja
Publication of JP2015109612A5 publication Critical patent/JP2015109612A5/ja
Application granted granted Critical
Publication of JP6276570B2 publication Critical patent/JP6276570B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、画像音声再生システム及び画像音声再生方法とプログラムに関する。
一般に、ホワイトボードなどの盤面を用いた打ち合わせや会議などでは、盤面に書かれた内容と共に、会議参加者が発話した内容も重要である。会議の後にこれらの内容を振り返る際に、盤面の内容と共に発話の内容を同時に再生し、会議等の振り返りを容易にする手法はいくつか知られている(特許文献1参照)。例えば特許文献1の技術では、盤面上に書き込まれた文字や図等の画像と、それらが書き込まれた際に発話された音声とを再生することにより、会議の内容を図形画像と共に動画議事録のように参照する事ができる。
特開2003−260896号公報
特許文献1の手法では、盤面上に文字や図形等が書込まれた時刻の音声を時刻情報と共に書込まれた文字や図形と関連付けて保存しておく。後から音声再生をする際には、盤面画像の中から文字や図形をユーザーが選択すると、文字や図形が書きこまれた時刻の音声が再生される。しかしながら、本手法では盤面への書込みと発話が同時に行われるような場合には問題はないが、盤面への書込みと発話が同時で無い場合は盤面画像の中から文字や図形を選択しても、音声が正しく再生されるとは限らない。例えば会議の参加者が文字や図形を盤面に書込みを行った後に発話を行う際には、その文字や図形を選択しても音声が再生される箇所に到達するまでに時間が掛かってしまう。また逆に会議の参加者が文字や図形を盤面に書込む前に発話を行った場合は、その文字や図形を選択しても音声が終了した後の部分が再生されてしまう。
本発明は上記従来例に鑑みて成されたもので、盤面上へ書き込まれた文字や図形と音声との、それぞれの内容に応じて同期させ、記録を検討する際のユーザーの生産性や利便性を向上させることを目的とする。
上記目的を達成するために本発明は以下の構成を有する。
すなわち、本発明は、画像オブジェクトが描画先に描画されていない状態から前記画像オブジェクトが前記描画先に描画された状態になるまでの前記描画先を撮像した時系列の静止画像データを取得する画像取得手段と、
ユーザーによる発話の音声データを含む、前記時系列の静止画像データに対応する時系列の音声データを取得する音声取得手段と、
前記画像オブジェクトを発話のタイミングと関連付ける関連付け手段と、
前記画像オブジェクトを含む静止画像データを表示する表示手段と、
前記表示された画像オブジェクトがユーザーの指示により選択された場合に、前記関連付けにより前記画像オブジェクトに関連付けられた前記発話のタイミングから、前記時系列の静止画像データおよび前記時系列の音声データを再生する再生手段と、
を有することを特徴とする画像音声再生システムにある
あるいは他の側面によれば、本発明は、動画像データに含まれたフレームの間の差分に基づいて、画像オブジェクトの現れるフレームと、該画像オブジェクトが現れる前のフレームとにより前記画像オブジェクトの書込み期間を特定し、前記動画像データに同期して記録された音声のうちから、発話区間の少なくとも一部が、前記書込み期間に対して一定時間内である音声を、前記画像オブジェクトに関連付ける関連付け手段と、
前記画像オブジェクトが選択された場合に、前記関連付けにより前記画像オブジェクトに関連付けられた前記音声の発話区間の開始時刻から、前記動画像データを、同期して記録された音声とともに再生する再生手段と
を有することを特徴とする画像音声再生システムにある。
本発明によれば、盤面上への文字や図形の書込み時刻と発話時刻を参考にしながら、盤面上への書込み内容に該当する内容の発話時刻を検出することで、盤面上へ書込まれた文字や図形と映像や音声の同期を行う事が可能になる。盤面上へ書込まれた文字や図形と映像や音声を同期させて表示する事により、ユーザーにとって知りたい内容がすぐに再生されるような映像再生システムを提供する事が可能となり、ユーザーの利便性が向上する。
映像撮影再生システムのハードウエア構成例を示した図である。 情報処理装置10のハードウエア内部構成を示した図である。 映像撮影再生システムを機能構成で示した図である。 動画像から静止画像を抽出した例の概略である。 差分領域情報を生成する処理のフローチャートである。 動画像から抽出された静止画像と差分画像を一覧にした図である。 差分領域情報と発話情報の例を示した図である。 領域差分の例を示した図である。 動画像の再生を行う処理のフローチャートである。 再生処理の初期画面表示例を示した図である。 再生処理中の表示例を示した図である。 差分領域情報と発話情報を紐付ける処理のフローチャートである。 本実施形態における領域への書込みと発話の開始、終了時刻の一例を示す図である。 図13の例における、書込みと発話の紐付け結果を示す図である。 実施形態2における差分領域情報と発話情報を紐付ける処理のフローチャートである 図13の例の前半部における書込みと発話の特徴点の算出結果を示す図である。
[実施形態1]
始めに本発明の実施の形態の適用が想定される場面について説明する。例えば会議参加者がそれぞれホワイトボードなどの盤面(以下、ホワイトボードあるいは描画先)に文字や図形などを書き込む会議を行うことがある。このような会議において、会議の内容を記録する方法としては、ホワイトボードの様子を撮影(あるいは撮像)して静止画として残す方法がある。しかし会議中の細かな会話の内容や議論の経緯などは文字や図形で残りにくく、後から記録を参照しても思い出すことが困難であることが多い。そこで本実施形態では、会議の内容を音声付きの動画像で全て記録しておき、後から参照するシステムを提供する。これにはホワイトボードの静止画像から任意の知りたい書込み(すなわち書き込まれた画像オブジェクト)の領域を選択し、動画像の任意の再生開始時刻から再生されるようにすることで動画参照や音声視聴の補助を行う。
<映像撮影再生システムの構成>
図1は本実施形態における映像撮影再生システム(あるいは画像音声再生システム)のハードウエア構成例を示したものである。図示するようにこの映像撮影再生システムは、情報処理装置10と、ホワイトボード11と、ビデオカメラ12と、マイクロフォン13によって構成されている。情報処理装置10は、ビデオカメラ12がホワイトボード11を撮影した動画像、およびマイクロフォン13から送られてくる音声を保存し、後述する処理を行い内蔵する表示装置で静止画像や動画像の表示を行う。この情報処理装置10は、ビデオカメラとマイクロフォンが接続できるパーソナルコンピュータやワークステーションだけでなく、それらを内蔵するタブレットに代表される一体型コンピュータシステムを用いても良い。
ホワイトボード11は、専用のマーカーペンで文字や図形などを書込むのに用いる板で、専用のイレーサーを使うことで書込みを何度でも消去できる。壁面に貼るタイプの巻取り式のシート状の物等もあり、それを用いても良い。ビデオカメラ12は、ホワイトボード11に書き込まれた文字や図形を電子情報に変換し情報処理装置10へ送信するもので、これ自身で動画像を2次記憶等へ保存する機能は備えていない。マイクロフォン13は、会議参加者の会話を電子情報に変換し、情報処理装置10へ送信する。ここではビデオカメラ12とマイクロフォン13は別体型を用いているが、マイクロフォンの機能を内蔵した一体型のビデオカメラを用いるようにしても良い。
図2は、情報処理装置10のハードウエア内部構成を示したものである。情報処理装置10は、CPU200、ROM201、RAM202、HDD203、ディスプレイ204、カメラI/F205、マイクI/F206、キーボード207、ポインティングデバイス208からなり、それらはシステムバス209によって接続されている。CPU(プロセッサ)200は、情報処理装置10全体の制御を行うものであり、ROM201やHDD203などに記憶されたプログラムをRAM202に読み込み、各種処理を実行する。すなわち、情報処理装置10のCPU200は、コンピュータ読み取り可能な記憶媒体に記憶されたコンピュータプログラムを実行することにより、後述するフローチャートの各ステップを実行する処理部(処理手段)として機能する。ROM201は、CPU200を起動するためのプログラムを含む各種データを記憶している。RAM202は、ワークメモリとして用いられる。HDD203はカメラI/F205やマイクI/F206から入力されたデータやCPU200が処理したデータを保持している。ディスプレイ204はHDD203やRAM202に格納されているコンピュータプログラムやデータをCPU200の指示に従って処理された結果を表示するものである。カメラI/F205はビデオカメラ12から受信したデータをHDD203やRAM202等に格納する際のデータ変換を行う。マイクI/F206はマイクロフォン13から受信したデータをHDD203やRAM202等に格納する際のデータ変換を行う。キーボード207、ポインティングデバイス208はユーザーの指示動作をCPU200に伝達する。
<映像撮影再生システムの機能構成>
図3は、映像撮影再生システムを機能構成で示したものである。制御部30は、後述する関連情報生成処理300と映像再生処理301で構成されている。関連情報生成処理300は、以下の処理ユニットによって構成されている。動画受信部3000は、時系列で画像取得する動画撮影部32から動画像を受信して2次記憶部31へ動画像データ310として保存する。静止画抽出部3001は動画像データ310から所定のタイミングで静止画像を取り出し、静止画像データ311として図6のようにIDを1から順に付与して保存する。静止画像を取り出すタイミングについては、例えばユーザーが操作部34を用いて手動で指示したタイミングを用いて取り出したり、図示しない時刻計数部を用いて一定時刻間隔で取り出したりすることが考えられる。本実施形態では、ユーザーが操作部34を用いて手動で指示したタイミングを用いて動画像データ310から静止画像311を抽出すると仮定する。静止画抽出部3001は、撮影対象である描画先を撮像した時系列の画像データを取得する画像取得手段として機能する。なお、動画撮影部32は、動画像と同期した音声データを記録する。
静止画時刻抽出部3002は、前述の静止画像抽出手段3001が静止画像データを取り出した、動画像中の静止画時刻を抽出する。発話時刻抽出部3005は動画受信部3000で受信した動画の音声から発話が行われている時刻を抽出する。発話区間の抽出は、所定時間以上連続する無音区間の開始時間と終了時間とを抽出することにより行うことができる。即ち、無音区間の終了時間が発話区間の終了時間であり、発話区間は無音区間で区切られている。発話時刻抽出部3005は検出した発話区間の開始及び終了時刻を発話時刻情報313として2次記憶部31に保存する。図7(b)がこの発話時刻情報を具体的に示したものである。発話時刻抽出部3005は、時系列の画像データである抽出された静止画像に対応する時系列の音声データを、動画像とともに記録された音声から取得する音声取得手段として機能する。
差分抽出部3003は、前述の静止画像抽出部3001が取り出した静止画像を時系列順に比較し、差分を抽出する。この差分が、静止画像すなわちフレーム間に書き込まれた画像オブジェクトを含む。すなわち、前のフレームはいまだ書き込まれていない状態を、後のフレームは書きこまれた状態を示す。関連情報生成部3004は、前述の静止画時刻抽出部3002が抽出した静止画時刻情報と、差分抽出部3003が抽出した差分情報に関連付け、後述する、差分領域と時刻とを関連付けた差分領域情報312を生成する。この生成方法は後述する。図7(a)がこの差分領域情報312の具体例を示したものである。また関連情報生成部3004はこの差分領域情報312と発話時刻抽出部3005が抽出した発話時刻情報313とを紐付ける、すなわち関連付ける。この紐付け方法については後述する。
映像再生処理301は、以下の処理ユニットによって構成されている。動画再生部3010は差分領域情報312の情報を元に、動画像データ310を指定された再生開始時刻から読み出し、表示部33へ表示を行う。静止画再生部3011は静止画像データ311を読み出し、表示部33へ表示を行う。画像合成部3012は前述の選択情報生成部が生成した表示画面など複数の静止画像を同時に表示するために合成処理を行い、表示部33へ表示を行う。選択情報生成部3013は前述の差分領域情報312の走査の結果、再生開始時刻が複数存在した場合に、該当する再生開始時刻の静止画像を複数読みだしてユーザーに選択を促すための表示画面を生成する。領域選択部3014は、ユーザーが操作部34を操作して得られた領域選択情報を読み取り、差分領域情報312を走査して動画の再生開始時刻を決定し、動画再生部3010へ動画再生の指示を行う。ユーザーが行う操作部34の操作は、座標情報の入力が可能なポインティングデバイス208のクリック操作を用いる。また、表示部33に図示しない座標情報が得られるタッチ式の入力装置を付加し、画像を見ながらのタッチ入力によって情報を得るようにしても良い。
図4は動画像から静止画像を抽出した例の概略である。この例では、動画像データ310の中から動画の最初のフレームの静止画像500、動画の最後のフレームの静止画像504の抽出を指示し、さらにその間に、ユーザーが3:32、7:09、12:49の時刻で静止画像の抽出指示を行った。その結果、最初のフレーム500と最後のフレーム504とに加えて静止画像501、502、503が抽出され、合計5つの静止画像が得られたことを示している。これら静止画像にはIDとして、例えば時系列にシリアル番号が付与される。IDは固有であればシリアル番号でなくともよい。なお以下の説明では、ユーザーにより動画から静止画像としてフレームが抽出されており、そのフレームが記録された時刻と関連付けてHDD203に保存されていることを前提とする。
<差分領域情報の生成>
図5は、前述の静止画抽出処理によって得られた静止画像を時系列順に比較し、差分領域情報を生成する処理をフローチャートにしたものである。S601からS605までの処理を静止画像のIDの値を1で初期化し、繰り返しごとにIDの値を加算しながら、比較する静止画像が存在する範囲で繰り返し実行する。S602では、先行するID番目の静止画像と、それに続く(ID + 1)番目の静止画像とを比較することで静止画像の差分抽出を行う。S603では抽出結果から差分の有無を判断する。なお静止画像のIDがシリアル番号でない場合には、IDとして静止画像の時系列の順序を示す番号を利用すればよい。
差分があった場合には、さらにS604において、S602で抽出した差分が下地色であるかの判断を行う。すなわち差分のあった領域内について、たとえばID番目の静止画像と、ID+1番目の静止画像との比較を画素ごとに行い、画素値の差分が所定の値以下の画素が、比較対象となった総画素数の所定のパーセント以上であるかの判定を行う。所定のパーセント以上であれば、差分のあった領域は下地色であると判断し、そうでない場合は下地色でないとする。差分が下地色でない場合はS605において、領域情報として、差分のあった領域を特定する座標、例えば図8の(X1,Y1)及び(X2,Y2)のように、矩形領域の対角点の座標の生成を行う。差分領域情報は、差分の領域情報と、静止画像のIDとを抽出した時刻とを関連付けたものである。一方、S604で下地と判断された場合には、S607において、差分領域は、ユーザーがホワイトボード上に誤って記入した誤記を消去したあとかどうかの判断を行う。この下地領域が誤記の消去かどうかの判断の詳細は後述する。この判断結果をS608、S609で誤記フラグの生成を行い、S605の差分領域情報生成に移行する。差分領域情報は画像の差分情報、誤記フラグと、差分があった時の静止画像のID番目を抽出した時刻とを関連付けたものである。その例を図7(a)に示す。一方、S603で差分が無いと判断された場合には、差分領域情報を生成せずにS606へ処理を移す。
S606では静止画像のIDの値を1加算して、その値を抽出された静止画像の数と比較し、同じ値になったら繰り返し処理を終了する。IDの値が静止画像の数に達していなかった場合にはS601から再度処理を行う。なお、図5では1つの静止画像から1つの差分領域を抽出するかのように記載したが、互いに連結していない複数の差分領域が2つの隣接する静止画像(すなわちID番目とID+1番目の静止画像)の間にある場合には、それらすべての差分領域についてS604〜S605の工程が実行される。
図6は動画像データ310から抽出された静止画像71を入力した場合に領域差分抽出S602によって得られる静止画像の差分72を一覧にしたものの一例である。図6におけるIDを引数として、静止画像をP(ID)と、差分領域をD(ID)と表す。S602を実行する時にIDの値が1だった場合は、IDが1である静止画像P(1)と、IDが2の静止画像P(2)とを比較し、その結果として差分領域D(2)が得られ、差分領域情報が生成される。またIDの値が3だった場合は、静止画像P(3)とP(4)とを比較し、その結果として差分領域D(4)が得られる。このときの差分領域はP(3)に在った書込みが消された下地色であるため、その情報を差分領域情報に追加するとともに、図5のS607の下地領域が消去された誤記かどうかの判断を行う。たとえば、下地色が発生する1つ前の差分領域情報を参考に、今回の差分領域(着目差分領域)の座標と1つ前の差分領域の座標とが所定の割合以上オーバーラップする場合には、着目差分領域は消去された誤記であると判断する。例えば着目差分領域と、下地色が発生する1つ前の差分領域とが50%以上オーバーラップするのであれば、1つ前の差分領域に描かれた誤記の消去であるとの判断が行われる。例えば、差分領域D(4)では、領域B-3に下地色が発生した。ここで、そのひとつ前の差分領域D(3)でどの座標に書込みが行われたかを参照し、差分領域D(4)とのオーバーラップの割合を判断する。この場合は差分領域D(3)の差分領域は、差分領域D(4)と同じ範囲を占める領域B-2であるため、オーバーラップの割合は100%であり、この下地色が誤記の消去を示すと判断し、差分領域情報の誤記フラグを'1'に設定する。領域Aと領域Bは位置的に異なる箇所であるが、差分領域D(3)の領域B-2と差分領域D(4)の領域B-3は、位置的に同一箇所である判断したものとする。
一方、差分領域D(7)において差分領域A,B−4はいずれも下地色と判断される。この場合においても下地色が発生する前の書込み領域を参考にする。下地色が発生する前の差分領域D(6)では領域Cに書込みが行われており、領域A、領域B-4と異なる領域のため、この下地色は誤記の消去でないと判断し、差分領域情報の誤記フラグに'0'を設定する。領域Aと領域B−1とは位置的に異なる箇所であるが、領域B-2と領域B-3、領域B-4は、位置的に同一箇所である判断したものとする。
図7(a)は、図5の処理に対して図6の静止画像71を入力した場合に得られる、差分領域情報を示したものの一例である。ID80は、静止画像の抽出時に当該静止画像に付されたIDである。領域情報81は画像差分の領域を示す情報であり、領域を一意に特定できればどのようなデータ構造でも良い。例えば図8にある、領域90のように画像差分に外接する矩形領域であれば、左上の座標であるX1,Y1、右下であるX2,Y2の情報を格納すれば良いし、領域91のように画像差分の輪郭領域であれば輪郭を示す座標の集合の情報を格納すれば良い。再生開始時刻情報82には、該当する領域に対して書込みが始まる時刻情報、すなわち図5の手順の処理中に着目しているIDを持つ静止画像の、元の動画像における時刻が再生開始時刻情報82として格納される。また静止画像時刻情報83には、該当する領域に対して書込みが終了した時刻情報、すなわち図5の手順の処理中に着目しているIDの次のID(すなわちID+1)を持つ静止画像の、元の動画像における時刻が格納される。非下地領域情報84は書込みが消されたかどうかを示し、消された領域の場合はNoが、書き込みがされた場合にはYesが記録される。もちろん表示は逆であってもよい。誤記フラグ情報85は前述したフローに従って下地領域情報が誤記であると判断された場合に'1'が記録される。
これら情報について図6を用いて具体的に説明する。IDの値が1であるときには、静止画像P(1)と静止画像P(2)の比較を行い、差分として領域721が検出される。この領域721の情報を領域Aとして、書込みが始まる時刻情報はIDが1であるときの撮影時刻であるため0:00が再生開始時刻として記録される。書込みが終了した時刻情報はIDが2であるときの撮影時刻であるため3:22が静止画像時刻情報としてそれぞれ記録される。また同様にIDが2〜6の領域情報81、再生開始時刻情報82、静止画像時刻情報83の値が該当する静止画像から生成される。IDが3、6の場合はこれらに加えて、下地領域情報と誤記フラグ情報が付与される。
<差分領域情報と発話時刻情報との関連付け>
図12は前述した差分領域情報312と発話期間情報313を関連付けるフローである。図12においては、ID=1の差分領域情報(図7(a)参照)から順次着目し、S1701〜S1714までの処理を行う。なお発話情報が、処理対象の動画情報から別途抽出されているものとする。発話情報は、一連の音声が開始される開始時刻と当該音声が終了する終了時刻とから構成される発話時刻と、IDとを含む。さらに音声情報そのものを含んでもよい。まずS1701において、着目した差分領域情報を取り出す(すなわち参照する)。S1702において着目差分領域のひとつ前のID(ID=1の場合は存在しない)の着目差分領域の誤記フラグ85を参照し、誤記フラグ85が無いもしくは'0'の場合はS1704に進み、着目差分領域が非下地領域かの判断を行う。非下地領域であればS1705に進み、書込みの開始時刻から終了時刻まで(以下、書込み期間あるいは描画期間と呼ぶ)と、開始時刻から終了時刻まで(以下、発話期間と呼ぶ)の重なる発話があるかを判断する(S1705)。なお書込みの開始時刻とは、着目差分領域情報の再生開始時刻82に相当し、書込み終了時刻とは着目差分領域情報の静止画像時刻情報83に相当する。発話期間が書込み時間に重なるような発話がある場合は、該当する発話すべてを着目差分領域に紐付ける(S1706)。この関連付けは図14に示すような書込み−音声表に記録される。書込み−音声表では、関連付けの対象となる差分領域のID80とその領域情報81、関連付けられる発話を特定する情報(例えばID)とその最優先の発話識別情報とが1レコードを構成する。発話情報のIDは、図7(b)の発話情報のID160に相当する。最優先の発話情報とは、一つの差分領域に複数所発話が関連付けられる場合に最優先される優先順位であり、書込み期間と重複している期間が最も長い発話が最優先の発話に指定される。そのためにひとつのIDに紐付いている発話がひとつかどうかの判断を行う(S1707)。複数ある場合には、紐付けられる複数の発話の書き込み期間との重複の長さを比較する。最も書込み期間との重複期間が長い発話のIDが最優先の発話欄に記録される(S1708)。この紐づけは、差分領域に表れた画像オブジェクトを、その書込み期間に発話された音声に関連付けることということができる。
一方、S1705において、書込み時刻と重なる発話がないと判定された場合、S1709に進み、書込み期間の前後の一定時間内に発話があるかどうかの判断を行う。このためには、例えば着目差分領域の再生開始時刻をその一定時間だけ前にずらし、静止画像時刻をその一定時間だけ後ろにずらして時間を前後に拡張した拡張書込み期間を一時的に求め、その拡張書込み期間と発話期間が重複する発話を探す。該当する発話があればS1710に進み、該当する会話を着目差分領域と紐づけて書込み−音声表に登録する。この紐づけは、差分領域に表れた画像オブジェクトを、その書込み期間に近い時刻に発話された音声に関連付けることということができる。次にS1711において、紐付けられる発話がひとつかの判断を行い、複数の場合はその中で時刻情報が近いものを第一優先とする。この場合の時刻情報の近いものの判断は、たとえば拡張書込み期間(あるいは拡張描画期間ともいう)と重複する期間が最も長い発話を第一優先とすることで実現できる。なお重複もまた一定時間内であることから、S1708とS1710との関連付けは、書込み期間から一定時間内の拡張書込み期間に少なくとも発話期間の一部が重複する音声を、当該書込み(すなわち画像オブジェクト)に関連付けることということもできる。
また、S1709において該当する発話がないと判定された場合には、S1714に進む。ここで紐付く発話がないと判断し、その旨を再生処理の初期画面の表示部110の該当領域中に表示させる。図12のS1712、S1713は単に説明のための工程であり、何も行う必要はない。会議録の再生時に、会話が紐づけられていない書込み(すなわち差分領域)については、関連付けられる音声がない旨のメッセージが重複して表示される。図10(b)がその例であり図10(a)の領域1100に紐付けられた発話が無かった場合に、ユーザーにその旨を例えば1102のように表示する。
さてS1702においてひとつ前の差分領域の誤記フラグが1である場合、さらにその前の差分領域に既に紐づけられている発話情報を紐付ける。なお誤記が連続する場合には、連続する誤記の更に前の差分領域に紐づけられている発話情報を紐付ける。その後S1705に分岐する。
次に図12のフローを、図13に示すように書込みと発話が行われた場合を例として、各書込み領域に対して、どの発話が紐付けられるかを説明する。
図13は時系列的にIDが1〜12までの12個の差分領域A〜G-3が図5の手順で抽出され、発話として発話1〜12が存在しているものとする(以下書込みをIDで、発話をその番号で表現する)。なお「発話」とは記録された音声のことであり、たとえば一方的な説明や会話などの音声を含む。CPU200は2次記憶部31に保持されている差分領域情報312及び発話時刻情報313を取り出し、差分領域情報のID1から順に以下の処理を差分領域情報の最終IDまで繰り返す。
図12のS1701において、まず、取り出した領域情報が非下地情報かどうかの判断を行う。S1702においてひとつ前のID(ID=1の場合は存在しない)の誤記フラグを確認し、誤記フラグが無いもしくは'0'の場合はS1704に進み、ID1の領域(領域A)が非下地領域かの判断を行う。非下地領域であればS1705に進み、ID1の書込みの書込み期間と各発話の発話期間の重なる部分があるかを判断する(S1705)。重なる発話がある場合は、その発話を紐付ける(S1706)。この場合はID1の領域情報に発話1が紐付けられる。次にひとつのIDに紐付いている会話がひとつかどうかの判断を行う(S1707)。図13の場合はID1には会話1のみが紐付けられているので、次のIDの処理に向かう。ID2(領域B)の処理では、ID1の同様のフローでS1707まで処理が進み、ID2の場合は会話2と会話3が紐付いているのでS1708に進み、書込み時刻と紐付く発話時刻の重な長さを比較する。この場合、会話2の方が重なる時間が長いので、会話2を第一優先とする。
次にID3(領域C)においては、ID1と同様のフローで処理が進み、S1705において、書込み期間と重なる発話がないため、S1709に進み、書込み期間の一定時間内に発話があるかどうかの判断を行う。ここでの一定時間内は予め定められた可変の時間であり、ここでは1分(1:00)とする。ID3の場合は会話4と会話5がその区間内で発話されている。従って、S1710に進みこの会話4と会話5をID3に紐付ける。次にS1711において、紐付く発話がひとつかの判断を行い、紐付く発話が複数の場合はその中で時刻情報が近いものを第一優先とする。この場合の時刻情報の近いものの判断は、それぞれの開始時刻と終了時刻の差のいずれをとっても良いものとする。
ID4やID5においてはID3と同様のフローでS1709まで処理が進み、一定区間内で発話がされていないのでS1714に進む。ここで紐付く発話がないと判断し、その旨を再生処理の初期画面の表示部110の該当領域中に表示させる。図10(b)がその例であり図10(a)の領域1100に紐付けられた発話が無かった場合に、ユーザーにその旨を例えば1102のように表示する。
ID8(領域F−3)の処理においては、S1702において、ひとつ前のID7の領域F−2の誤記フラグが'1'であるためS1703に進み、2つ前のID6の領域F−1に紐付けられている会話8を紐付ける。また、ID12(領域G−3)においては、S1702の判断でひとつ前のIDの誤記フラグが'0'のためS1704に進み、非下地情報なのでS1705からの処理へと進む。一方、ID7やID11などの下地情報自体にはどの会話とも紐付けを行わない。
以上の手順により、撮影したホワイトボードへの書き込みと音声とを関連付けた書込み−音声表が作成される。
<動画像再生処理>
図9は、前述の差分領域情報と動画像とを利用して任意の再生開始時刻から動画像の再生を行う処理をフローチャートにしたものである。まずS1001において、最終静止画像の表示を行う。この最終静止画像とは、保存した動画像の最終静止画像のことであり、静止画像例の図6ではP(8)であるため、最終的な表示例は図10のようになる。次にS1002で、ユーザーの操作部34に対する操作による座標情報の入力を待つ。入力される座標情報は、表示されている静止画像上の座標である。入力があった場合にはS1003で、入力された座標情報を基に差分領域情報(図7参照)を走査する。より具体的には、入力された座標情報が差分領域情報内の領域情報81に保存された各領域内に含まれているか否か走査する。すなわち、差分領域情報に登録された静止画像すべてについて、入力された座標を含む領域情報を検索する。次にS1004で、その走査の結果該当する領域情報がないと判断された場合には、S1002で再びユーザーの操作入力を待つ。
該当する領域情報が見いだされた場合には、次にS1005において、領域情報に対する発話情報が複数存在するかを判定する。この判定は、該当する領域情報が含まれた静止画像のIDを索引として図14に示した書込み−音声表のレコードを参照し、該当する領域に紐づけられた発話情報がいくつあるか判断することで行う。複数あった場合にはS1010に、なかった場合にはS1006に分岐する。ここで複数あった場合の処理については後述し、先に1つだけだった場合の処理の説明を行う。これは図10の表示例において領域1100内の座標が指定された場合である。 S1006では、確認された領域情報に紐付けられた発話情報の発話開始時刻162から、動画の再生を開始する。次にS1007でユーザーの操作部34に対する操作による入力を待つ。入力があった場合にはS1008で動画再生を中断した後にS1001に処理を戻し、再び静止画像の表示を行う。入力がなかった場合にはS1009で動画の再生が最後まで到達したかの確認を行う。動画の再生が最後まで到達していなかった場合にはS1007で再びユーザーの操作入力を待ち、最後まで到達していた場合にはS1001に処理を戻し、再び静止画像の表示を行う。
次にS1005でユーザー入力された座標情報に対する差分領域に対して複数の発話情報が紐付けされていた場合の処理について説明する。S1010では、ユーザーが入力した座標情報に対応する差分領域に関連付けられた複数の発話情報の開始時刻と、第一優先の発話時刻を取得し、第一優先の発話時刻から再生を開始する。なお複数の静止画像に、入力座標を含む差分領域が含まれている場合には、たとえば時系列順に静止画像を選択する、そして選択した静止画像中の差分領域に紐づけられた発話情報のうち、最優先の発話情報の開始時刻から動画を再生する。更にその他の紐付けられた開始時刻を候補として再生画面に重畳して表示部33で表示する。この際の具体例が図11となる。動画の再生画面1101の下に原座表示しているフレームの時刻を示すタイムバー1102が表示される。表示部33では第一優先の発話時刻1200から動画を再生すると共に、その他の紐付けられた発話の開始時刻も候補として1201のように、発話された時刻を示すシンボルにより表示する。
また、図14のような領域情報が存在するような場合においては、領域G−1と領域G−3は同一領域であるため、ユーザーがこの領域を指定した場合は領域G−1もしくは領域G−3のどちらを再生するか選択できるようにユーザーに促してもよい。差分領域の同一性は、その範囲のみならず、そこに含まれた画像の画素単位での比較により判定される。その判定の結果同一であれば選択肢を表示する。領域G−1が選択された場合には領域G−1に紐付けられている会話10から再生が開始され、領域G−3が選択された場合には領域G−3に紐付けられている会話12が再生される。
以上の処理により、表示された静止画像から注目したい箇所を指定することで、その領域に関連付けられた再生開始時刻から動画の再生が開始される。またその箇所に複数の再生開始時刻が関連付けられていた場合でも、再生開始候補の画像を表示し選択を促すことで複数の中から1つを選択可能になる。このことからホワイトボード各書込みに対して、書込みが開始されるところからの動画が参照でき、書き込みに対する動画中の音声を聞くことで会議中の会話や様子を容易に把握することが可能になる。
[実施形態2]
実施形態2では領域情報81と発話情報161の紐付けを行う際に、更に容易な方法で紐付けを行う方法について説明する。図15は本実施形態における領域情報と発話情報とを紐付ける処理をフローチャートにしたものであり、実施形態1の図12に代えて本実施形態で遂行される手順である。そのほかの構成は実施形態1に準ずる。
図15において、実施形態1と同様の手順でCPU200は差分領域情報の取り出しを行う(S1801)。次に書込み時刻情報(すなわち再生開始時刻情報82)から特徴点時刻の算出を行う(S1802)。この特徴点時刻とは開始時刻と終了時刻及び、それらから算出されるその中間点の中間時刻である。次に発話時刻情報からも同様に特徴点時刻の算出を行う(S1803)。これらの算出結果は図13の前半部を例に取ると、図16のようになる。
次に着目書込み領域(着目差分領域であり、IDの値で特定される領域)の特徴点時刻と各発話の特徴点時刻の差分の算出を行う(S1804)。ここで、特徴点は開始時刻、終了時刻、中間時刻とあるが、どの特徴点間で差分の算出を行うかは予め定めておく。ここでは、それぞれの開始時刻を差分算出の特徴点とした場合を例にして説明する。領域Aの書込み開始時刻との会話1の発話開始時刻の時間差分は0:10、会話2との時間差分は1:00、会話3との時間差分は2:40となる。
次にS1805では、その算出した時間差分の中から最も小さいものの会話を選択する。すなわち着目書込み領域の特徴点時刻と最も近い特徴点時刻を持つ発話情報が選択される。領域Aが指定された場合には会話1が選択されその開始時刻から再生が開始される。次にS1806では選択された発話時刻がひとつかの判断を行う。選択される発話時刻は通常ひとつであるが、前述した時間差分が同じ値であった場合は複数の発話が選択される。この場合は最も時刻情報が早い発話を選択することで、多くの発話をユーザーが再生できるようにする。同様に領域Bには会話3が、領域Cにも会話3が紐付けられる。
このように本実施形態においては、領域情報と発話情報を紐付ける際に、少ない計算量で紐付けを行う事が可能となり、ユーザーが領域を指定した際に発話の開始時刻から再生を行え、ユーザーの利便性を向上させる事ができる。
[その他の実施形態]
なお本発明は、上記実施の形態に限定されず、本発明の要旨を逸脱しない範囲で種々の変形が可能である。例えば図1のハードウエア構成例に、ホワイトボードを撮影するビデオカメラだけでなく会議参加者の様子を撮影するビデオカメラを追加し動画像を2種類保存し、動画像の再生時にピクチャーインピクチャーで両方の動画像を同時に再生してもよい。これにより会議の会話だけでなく参加者の様子も同時に確認できるため、より詳細な事後確認が可能になる。
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

Claims (13)

  1. 画像オブジェクトが描画先に描画されていない状態から前記画像オブジェクトが前記描画先に描画された状態になるまでの前記描画先を撮像した時系列の静止画像データを取得する画像取得手段と、
    ユーザーによる発話の音声データを含む、前記時系列の静止画像データに対応する時系列の音声データを取得する音声取得手段と、
    前記画像オブジェクトを発話のタイミングと関連付ける関連付け手段と、
    前記画像オブジェクトを含む静止画像データを表示する表示手段と、
    前記表示された画像オブジェクトがユーザーの指示により選択された場合に、前記関連付けにより前記画像オブジェクトに関連付けられた前記発話のタイミングから、前記時系列の静止画像データおよび前記時系列の音声データを再生する再生手段と、
    を有することを特徴とする画像音声再生システム。
  2. 前記画像取得手段は、動画像から所定のタイミングで静止画像を抽出することで前記時系列の静止画像データを取得し、
    前記音声取得手段は、前記動画像に同期して記録された音声から、無音区間で区切られた発話区間ごとに音声を抽出することで前記音声データを取得し、
    前記関連付け手段は、先行する静止画像データとそれに続く静止画像データとの差分に含まれた画像オブジェクトを、前記先行する静止画像データが抽出されたタイミングから前記それに続く静止画像データが抽出されたタイミングまでの描画期間と発話区間が重複する前記音声データに関連付けることを特徴とする請求項1に記載の画像音声再生システム。
  3. 前記関連付け手段はさらに、前記描画期間を前後に拡張した拡張描画期間と発話区間が重複する前記音声データも前記画像オブジェクトに関連付けることを特徴とする請求項2に記載の画像音声再生システム。
  4. 前記関連付け手段は、前記差分に含まれた画像オブジェクトが誤記であるか判定し、誤記であった場合には、誤記であると判定された前記画像オブジェクトに関連付けられた音声データを、誤記であると判定された画像オブジェクトの消去の後に書き込まれた画像オブジェクトに関連付けることを特徴とする請求項2又は3に記載の画像音声再生システム。
  5. 前記関連付け手段は、前記差分に含まれた画像オブジェクトが下地色であり、前記先行する静止画像データの更に先行する静止画像データに、前記画像オブジェクトと重複する画像オブジェクトが含まれている場合に、当該画像オブジェクトを誤記であると判定された前記画像オブジェクトとすることを特徴とする請求項4に記載の画像音声再生システム。
  6. 前記関連付け手段は、前記画像オブジェクトに関連付けた音声データが複数あった場合には、そのうちのひとつを最優先の音声データとして前記画像オブジェクトに関連付け、前記再生手段は、最優先の音声データを再生することを特徴とする請求項1乃至5のいずれか一項に記載の画像音声再生システム。
  7. 前記関連付け手段は、前記最優先の音声データとして、前記画像オブジェクトの描画期間と最も長く重複する発話区間の音声データを前記画像オブジェクトに関連付けることを特徴とする請求項6に記載の画像音声再生システム。
  8. 前記関連付け手段は、前記最優先の音声データとして、前記画像オブジェクトの描画期間に最も近い発話区間の音声データを前記画像オブジェクトに関連付けることを特徴とする請求項6に記載の画像音声再生システム。
  9. 前記画像取得手段は、画像から所定のタイミングで静止画像を抽出することで前記時系列の静止画像データを取得し、
    前記音声取得手段は、前記動画像に同期して記録された音声から、無音区間で区切られた発話区間ごとに音声を抽出することで前記音声データを取得し、
    前記関連付け手段は、先行する静止画像データとそれに続く静止画像データとの差分に含まれた画像オブジェクトを、前記先行する静止画像データが抽出されたタイミングから前記それに続く静止画像データが抽出されたタイミングまでの描画期間の中の所定の特徴点時刻と発話区間の中の所定の特徴点時刻が最近い前記音声データに関連付けることを特徴とする請求項1に記載の画像音声再生システム。
  10. 前記特徴点時刻は、前記描画期間及び前記発話区間の、開始時刻または終了時刻または中間時刻のいずれかであることを特徴とする請求項9に記載の画像音声再生システム。
  11. 動画像データに含まれたフレームの間の差分に基づいて、画像オブジェクトの現れるフレームと、該画像オブジェクトが現れる前のフレームとにより前記画像オブジェクトの書込み期間を特定し、前記動画像データに同期して記録された音声のうちから、発話区間の少なくとも一部が、前記書込み期間に対して一定時間内である音声を、前記画像オブジェクトに関連付ける関連付け手段と、
    前記画像オブジェクトが選択された場合に、前記関連付けにより前記画像オブジェクトに関連付けられた前記音声の発話区間の開始時刻から、前記動画像データを、同期して記録された音声とともに再生する再生手段と
    を有することを特徴とする画像音声再生システム。
  12. 画像オブジェクトが描画先に描画されていない状態から前記画像オブジェクトが前記描画先に描画された状態になるまでの前記描画先を撮像した時系列の静止画像データを取得する画像取得工程と、
    ユーザーによる発話の音声データを含む、前記時系列の静止画像データに対応する時系列の音声データを取得する音声取得工程と、
    前記画像オブジェクトを発話のタイミングと関連付ける関連付け工程と、
    前記画像オブジェクトを含む静止画像データを表示する表示工程と、
    前記表示された画像オブジェクトがユーザーの指示により選択された場合に、前記関連付けにより前記画像オブジェクトに関連付けられた前記発話のタイミングから、前記時系列の静止画像データおよび前記時系列の音声データを再生する再生工程と、
    を有する画像音声再生方法。
  13. 請求項1乃至11のいずれか一項に記載の画像音声再生システムをコンピュータにより実現するためのプログラム。
JP2013252416A 2013-12-05 2013-12-05 画像音声再生システム及び画像音声再生方法とプログラム Expired - Fee Related JP6276570B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013252416A JP6276570B2 (ja) 2013-12-05 2013-12-05 画像音声再生システム及び画像音声再生方法とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013252416A JP6276570B2 (ja) 2013-12-05 2013-12-05 画像音声再生システム及び画像音声再生方法とプログラム

Publications (3)

Publication Number Publication Date
JP2015109612A JP2015109612A (ja) 2015-06-11
JP2015109612A5 JP2015109612A5 (ja) 2017-01-19
JP6276570B2 true JP6276570B2 (ja) 2018-02-07

Family

ID=53439666

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013252416A Expired - Fee Related JP6276570B2 (ja) 2013-12-05 2013-12-05 画像音声再生システム及び画像音声再生方法とプログラム

Country Status (1)

Country Link
JP (1) JP6276570B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7114908B2 (ja) * 2018-01-19 2022-08-09 株式会社リコー 情報処理システム、情報処理装置、情報処理方法、および情報処理プログラム
JP7210908B2 (ja) 2018-06-05 2023-01-24 ソニーグループ株式会社 情報処理装置、情報処理方法及びプログラム
JP7447908B2 (ja) 2019-10-17 2024-03-12 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
JP7468693B2 (ja) 2020-11-17 2024-04-16 日本電信電話株式会社 文字情報付与方法、文字情報付与装置及びプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3757880B2 (ja) * 2002-03-07 2006-03-22 ヤマハ株式会社 電子黒板
US7260257B2 (en) * 2002-06-19 2007-08-21 Microsoft Corp. System and method for whiteboard and audio capture
JP2005167822A (ja) * 2003-12-04 2005-06-23 Canon Inc 情報再生装置及び情報再生方法
JP2005284490A (ja) * 2004-03-29 2005-10-13 Sharp Corp データ記録装置およびデータ再生装置
JP4577012B2 (ja) * 2004-12-28 2010-11-10 カシオ計算機株式会社 音声画像再生装置、音声画像再生方法及びプログラム
US8639032B1 (en) * 2008-08-29 2014-01-28 Freedom Scientific, Inc. Whiteboard archiving and presentation method
JP5522369B2 (ja) * 2009-12-25 2014-06-18 日本電気株式会社 会議記録要約システム、会議記録要約方法及びプログラム

Also Published As

Publication number Publication date
JP2015109612A (ja) 2015-06-11

Similar Documents

Publication Publication Date Title
JP4175390B2 (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP6276570B2 (ja) 画像音声再生システム及び画像音声再生方法とプログラム
WO2004002144A1 (ja) メタデータ作成装置、その作成方法および検索装置
JP5206553B2 (ja) 閲覧システム、方法、およびプログラム
JP2007066018A (ja) 情報処理方法及び情報処理装置
JP5522369B2 (ja) 会議記録要約システム、会議記録要約方法及びプログラム
JP5164426B2 (ja) 表示制御装置および表示制御方法
JP2012178028A (ja) アルバム作成装置、アルバム作成装置の制御方法、及びプログラム
JP2010061343A (ja) 音声記録方法、音声再生方法、音声記録プログラム、音声再生プログラム
JP2016063477A (ja) 会議システム、情報処理方法、及びプログラム
JP6261198B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2000222417A (ja) 画像ファイリング装置
JP5310682B2 (ja) カラオケ装置
JP2009283020A (ja) 記録装置、再生装置、及びプログラム
JP2005167822A (ja) 情報再生装置及び情報再生方法
JP7133367B2 (ja) 動画編集装置、動画編集方法、及び動画編集プログラム
US20200075025A1 (en) Information processing apparatus and facilitation support method
KR101562901B1 (ko) 대화 지원 서비스 제공 시스템 및 방법
JP2007078985A (ja) データ検索装置及びその制御方法
JP6802264B2 (ja) 表示装置、出力装置、および情報表示方法
JP7423164B2 (ja) カラオケ装置
US10714146B2 (en) Recording device, recording method, reproducing device, reproducing method, and recording/reproducing device
KR20220001657A (ko) 영상 편집 장치
KR20220001658A (ko) 영상 편집 방법
JP2022055144A (ja) ワークショップにおけるボードの映像再生装置、オンライン/オンサイトボードシステム、プログラム及び方法

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161205

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171016

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180112

R151 Written notification of patent or utility model registration

Ref document number: 6276570

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees