JP2010061343A

JP2010061343A - 音声記録方法、音声再生方法、音声記録プログラム、音声再生プログラム

Info

Publication number: JP2010061343A
Application number: JP2008225670A
Authority: JP
Inventors: Ichiro Miyamoto; 一郎宮本
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2008-09-03
Filing date: 2008-09-03
Publication date: 2010-03-18

Abstract

【課題】他の情報と同期させて記録した音声を容易に取り出すことができる音声記録方法を得る。
【解決手段】音声を記録する記録手段に音声を記録する方法であって、ポインタの動作軌跡の映像を収録するステップと、映像と同時に発音された音声を収録する音声収録ステップと、ポインタが映像中のいずれの領域を指し示しているかをポインタの動作軌跡の映像に基づき認識するポイント認識ステップと、ポインタが指し示す領域とポインタがその領域を指し示しているときに収録された音声とを対応付けて記録手段に記録する記録ステップと、を有する。
【選択図】図１

Description

本発明は、音声を記録する方法およびそのプログラム、記録した音声を再生する方法およびそのプログラムに関するものである。

従来、『主情報とこれに付随する付随情報とを別の情報として扱うことができる情報ファイルを容易に生成可能にすること』を目的とした技術として、『経時変化する視聴可能な主情報５５（映像、画像、音声等）と付随情報５３，５７とで表示ファイルを生成する。付随情報５３，５７は、主情報５５に付随する表示出力可能な付随表示情報と、この付随表示情報の表示を主情報に同期させるためのイベント情報とを含む。これにより、主情報５５のデータ構造に付随表示情報のデータ構造が依存しなくなる。例えば、主情報５５が映像情報であった場合、一例として１秒間に３０ものフレームが存在することになるが、フレーム毎に付随表示情報を生成する必要がない。よって、主情報５５とは無関係に付随表示情報を生成することが可能となり、その生成が容易となる。』というものが提案されている（特許文献１）。

また、『会合の様子を撮影した動画像と資料やその他のメディア・データを時間軸上で同期をとりながら記録・管理する。』ことを目的とした技術として、『プレゼンテーションの際に表示されるドキュメント上へ行なわれたアノテーションを記録し、プレゼンテーションを記録したビデオ又は音声の再生と同期させてドキュメント上に描画する。アノテーションは点を結ぶ線の集合であり、各点の座標、線の太さ、線の色などの情報と、描画を完了した時刻で構成される。描画中のアノテーションは線を半透明で描画し、描画の完了時に線を不透明な色で再描画することで、描画の終了時刻を操作者に認識させる。』というものが提案されている（特許文献２）。

特開２００４−１３５２５６号公報（要約）特開２００５−２６０５１３号公報（要約）

上記特許文献１〜２に記載の技術では、音声や映像などを、他の情報（例えば特許文献２ではプレゼンテーション）と時間軸上で同期させて記録する。
記録した音声や映像は、同期記録されている他の情報とともに、時間軸上で同期を取って再生することができる。

しかし、同期記録された音声の途中部分を再生しようとした場合、早送りなどを行ってその部分を取り出さなければならない。
また、その音声と同期記録されている情報が、取り出そうと意図しているものであるか否かを別途確認する必要があり、その分の手間を要する。

そのため、他の情報と同期させて記録した音声を容易に取り出すことができる音声記録方法およびそのプログラム、記録した音声を再生する方法およびそのプログラムが望まれていた。

本発明に係る音声記録方法は、音声を記録する記録手段に音声を記録する方法であって、ポインタの動作軌跡の映像を収録するステップと、前記映像と同時に発音された音声を収録する音声収録ステップと、前記ポインタが前記映像中のいずれの領域を指し示しているかを前記ポインタの動作軌跡の映像に基づき認識するポイント認識ステップと、前記ポインタが指し示す領域と前記ポインタがその領域を指し示しているときに収録された音声とを対応付けて前記記録手段に記録する記録ステップと、を有するものである。

本発明に係る音声記録方法では、ポインタが指し示す映像上の領域と、ポインタがその領域を指し示しているときに収録された音声とを対応付けて記録する。
そのため、音声の途中部分を取り出す際には、映像上の対応付けられている領域を指定すればよいので、音声の取り出しが容易である。また、音声と同期記録されている情報が取り出そうと意図しているものであるか否かは、音声を取り出す際に指定する映像上の領域を目視すればよいので、即座に確認することができる。

実施の形態１．
図１は、本発明の実施の形態１に係る音声記録装置１００の機能ブロック図である。
音声記録装置１００は、映像と音声を同期させて記録する装置である。ここでは、ユーザがプレゼンテーションを行う場面を例に取り、プレゼンテーションの映像と音声を同期記録するものとする。
音声記録装置１００は、カメラ・マイク部１１０、音声映像データ一時格納部１２０、発話検出部１３０、資料特徴認識部１４０、ポイント認識部１５０、インデキシング処理部１６０、音声映像データ格納部１７０を備える。

カメラ・マイク部１１０は、映像と音声を収録し、映像データと音声データを音声映像データ一時格納部１２０に出力する。
音声映像データ一時格納部１２０は、カメラ・マイク部１１０が出力する映像データと音声データを、後の各処理のために一時的に格納する。
発話検出部１３０は、後述の図３〜図４で説明する処理を実行し、音声映像データ一時格納部１２０が格納している音声データから発話部分を検出する。

資料特徴認識部１４０は、プレゼンテーション資料に含まれる文字、図形、記号などの特徴部分を認識する機能部であり、縦書／横書検出部１４１、文字・図形座標検出部１４２を備える。
資料特徴認識部１４０が実行する処理については、後述の図５〜図６で改めて説明する。

ポイント認識部１５０は、プレゼンテーションを行う講演者が使用するレーザポインタ等のポインティング手段のポインタ動作を認識する機能部であり、ポイント軌跡認識部１５１、ポイント座標検出部１５２を備える。
ポイント認識部１５０が実行する処理については、後述の図７〜図９で改めて説明する。

インデキシング処理部１６０は、映像データと音声データの対応付け（インデキシング処理）を行い、その結果を音声映像データ格納部１７０に出力する。処理内容は、後述の図１０〜図１３で改めて説明する。
音声映像データ格納部１７０は、インデキシング処理済みの映像データと音声データを格納する。インデキシング処理により生成されるインデックスは、映像データや音声データの中に埋め込んでもよいし、インデックスのみ別データとして格納してもよい。

発話検出部１３０、資料特徴認識部１４０、ポイント認識部１５０、インデキシング処理部１６０は、これらの機能を実現する回路デバイスのようなハードウェアで構成することもできるし、マイコンやＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）のような演算装置とその動作を規定するソフトウェアで構成することもできる。

音声映像データ一時格納部１２０、音声映像データ格納部１７０は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）のような記憶装置で構成することができる。その他の映像または音声の記録手段を用いてもよい。

以上、音声記録装置１００の全体構成を説明した。
次に、音声記録装置１００が映像と音声を記録する際の各部の動作について説明する。記録動作は、概ね以下のステップ（１）〜（６）のような手順で行われる。

（１）カメラ・マイク部１１０は、プレゼンテーションの映像と音声を収録し、音声映像データ一時格納部１２０に映像データと音声データを格納する。
（２）発話検出部１３０は、音声映像データ一時格納部１２０が格納している音声データを取得し、発話部分を検出する。
（３）資料特徴認識部１４０は、音声映像データ一時格納部１２０が格納している映像データを取得し、プレゼンテーション資料中の文字などの特徴部分を認識する。

（４）ポイント認識部１５０は、音声映像データ一時格納部１２０が格納している映像データを取得し、ポインタ動作を認識する。
（５）インデキシング処理部１６０は、発話検出部１３０、資料特徴認識部１４０、ポイント認識部１５０の処理結果を受け取り、ポインタが指し示している映像上の領域と、そのとき収録された発話音声とを対応付ける。
（６）インデキシング処理部１６０は、対応付け処理の結果を音声映像データ格納部１７０に格納する。

以上、映像と音声の記録動作について概略を説明した。
次に、図１の各機能部の処理内容を具体的に説明する。

図２は、カメラ・マイク部１１０が収録する音声データの波形例である。
発話検出部１３０は、音声記録装置１００の外部よりプレゼンテーションのスライドを切り替えた旨の信号が入力されたときなどを契機に、音声映像データ一時格納部１２０が格納している図２のような音声データをその時点で一旦区切り、発話部分の検出処理を開始する。

図３は、発話検出部１３０が音声データの発話部分を検出する際の処理フローである。以下、図３の各ステップについて説明する。

（Ｓ３０１）
発話検出部１３０は、音声データの連続が途切れている無声部分を抽出する。
（Ｓ３０２）
発話検出部１３０は、無声部分の時間長が所定の閾値より大きいか否かを判定する。閾値より大きければステップＳ３０３へ進み、閾値以下であればステップＳ３０１へ戻って次の無声部分を抽出する。

（Ｓ３０３）
発話検出部１３０は、無声部分が発話の文末に相当するものと判断し、その部分を文末としてマークする。具体的には、文頭時刻を変数ＪＢｍに代入し、文末時刻を変数ＪＥｍに代入する。なお、ｍは発話部分の通番である。
（Ｓ３０４）
発話検出部１３０は、音声データが終了したか否かを判定する。例えば、プレゼンテーションが次のスライドに切り替わった時点で、現時点の音声データは終了したものとみなす。音声データが終了していればステップＳ３０５へ進み、終了していなければステップＳ３０１へ戻って次の無声部分を抽出する。

（Ｓ３０５）
発話検出部１３０は、発話の出現数を変数ＫＶに格納する。次に、変数ＪＢｍ、変数ＪＥｍ、変数ＫＶを、インデキシング処理部１６０に出力する。

図４は、発話検出部１３０の検出結果を示す図である。発話検出部１３０の検出処理によって、図２の音声データは無声部分で区切られ、図４の発話部分（１）〜（７）に分割される。

図５は、資料特徴認識部１４０の認識結果例を示す図である。
資料特徴認識部１４０は、プレゼンテーション映像中の文字、図形、または記号部分を次の図６で説明する処理フローにしたがって認識する。
ここでは、プレゼンテーションスライド中に文字が存在する矩形領域５１０〜５４０を認識した例を示した。また、各矩形領域の中心座標を、それぞれ５１１、５２１、５３１、５４１で表した。
資料特徴認識部１４０は、図５の例に示すように、文字部分の矩形領域とその中心位置の２次元座標を認識する。

図６は、資料特徴認識部１４０がプレゼンテーションスライド中の文字、図形、または記号部分を認識する処理フローである。以下、図６の各ステップについて説明する。

（Ｓ６０１）
資料特徴認識部１４０は、プレゼンテーションスライドの映像中にＸ軸とＹ軸を仮想的に投影する。本ステップの処理は、プレゼンテーションスライド映像に２次元座標を設定することを意味する。

（Ｓ６０２）
縦書／横書検出部１４１は、例えば特開平０５−１６６０００号公報に説明されているような、既存の文字領域の抽出方法を用いて、プレゼンテーションスライド映像の各矩形領域５１０〜５４０を抽出する。
次に、縦書／横書検出部１４１は、各矩形領域５１０〜５４０の配列に基づいて、縦方向の分割個数と横方向の分割個数を数える。
例えば図５に示したプレゼンテーションスライドの場合、矩形領域５１０〜５４０に触れないように空白部分に縦横直線を引くと、横線によってスライドが４分割されるのに対し、縦線では１分割となる。したがって、矩形領域は、横方向の領域分割数は４であるが、縦方向の領域分割数は１となる。
Ｙ軸方向の領域分割数が多い場合（横線により分割された領域の方が多い場合）はステップＳ６０３へ進み、Ｘ軸方向とＹ軸方向の領域分割数が同じであるかもしくは判断できない場合はステップＳ６０４へ進み、Ｘ軸方向の領域分割数が多い場合（縦線により分割された領域の方が多い場合）はステップＳ６０５へ進む。

（Ｓ６０３）
縦書／横書検出部１４１は、プレゼンテーションスライドが横書きであると判定し、変数ＬＩＮＥに「横」を代入する。また、Ｙ軸方向の領域分割数を変数ｋに格納する。
（Ｓ６０４）
縦書／横書検出部１４１は、プレゼンテーションスライドの縦書き／横書きを判定できないものとし、変数ＬＩＮＥに「φ」を代入する。また、Ｙ軸方向の領域分割数を変数ｋに格納する。
（Ｓ６０５）
縦書／横書検出部１４１は、プレゼンテーションスライドが縦書きであると判定し、変数ＬＩＮＥに「縦」を代入する。また、Ｘ軸方向の領域分割数を変数ｋに格納する。

（Ｓ６０６）
文字・図形座標検出部１４２は、変数ＬＩＮＥの値によって次に進むステップを決定する。ＬＩＮＥの値が「横」であればステップＳ６０７へ進み、ＬＩＮＥの値が「φ」であればステップＳ６０８へ進み、ＬＩＮＥの値が「縦」であればステップＳ６０９へ進む。

（Ｓ６０７）
文字・図形座標検出部１４２は、Ｙ軸方向の分割Ｐ毎に、文字、図形、または記号が存在している領域を抽出し、その２次元座標を検出する。図５の例の場合は、矩形領域５１０〜５４０の四辺の２次元座標を検出する。
なお、文字、図形、または記号が存在している領域を認識する手法は、任意の公知技術を用いることができる。
（Ｓ６０８）
ステップＳ６０７と同様である。
（Ｓ６０９）
文字・図形座標検出部１４２は、Ｘ軸方向の分割Ｐ毎に、文字、図形、または記号が存在している領域を抽出し、その２次元座標を検出する。本ステップは、検出方向が異なることを除けば、ステップＳ６０７〜Ｓ６０８と同様である。

（Ｓ６１０）
文字・図形座標検出部１４２は、ステップＳ６０９で検出した各矩形領域の中心位置の２次元座標を、変数ＳＴｋに格納する。
（Ｓ６１１）
文字・図形座標検出部１４２は、軸方向の全ての領域についてステップＳ６０７〜Ｓ６１０までの処理を実行したか否かを判定する。
全ての軸方向領域について実行していなければステップＳ６０６に戻って次の領域の処理を行う。全ての軸方向領域について実行していれば、本処理フローを終了する。

以上の処理フローにより、プレゼンテーションスライド上の文字、図形、または記号が存在する矩形領域およびその中心位置の２次元座標が認識される。
資料特徴認識部１４０は、縦書／横書検出部１４１と文字・図形座標検出部１４２の検出結果を、インデキシング処理部１６０に出力する。

なお、スライドが縦書き／横書きのいずれであるかは、別途入力するなどして明示的に指示するようにしてもよい。

図７は、ポインティング手段のポインタ動作軌跡の例である。
プレゼンテーションの講演者がレーザポインタやマウスポインタ等のポインティング手段を用いてスライドを指し示すと、ポインタがスライド上を移動し、その動作軌跡が映像データとして記録される。
ポイント軌跡認識部１５１は、映像データ中のポインタの動作軌跡を認識する。動作軌跡の認識手法は、任意の公知技術を用いることができる。
図７の例では、動作軌跡７１０〜７４０を認識したものとする。

図８は、ポイント座標検出部１５２の検出結果例を示す図である。ここでは図７のポインタ動作軌跡７１０〜７４０に基づき検出処理を行った例を示した。
ポイント座標検出部１５２は、ポインタ軌跡が何度も往復している部分など、ポインティング手段の使用者が重点的に指し示していると思われる矩形領域を検出する。
図８の例では、ポインタ軌跡が左右や螺旋状に往復している矩形領域を、矩形領域８１０〜８４０として示した。また、各矩形領域の中心位置を、それぞれ８１１、８２１、８３１、８４１として示した。

ポインタの動作軌跡は、実際にはプレゼンテーションスライド上の特定の文字、図形、記号などを指し示している場合が多いと思われる。
特に、図８の矩形領域８１０〜８４０のように、ポインタが何度も往復している領域については、講演者が何らかの重要事項を指し示しながら説明等を行っている可能性が高いと推測される。
したがって、図８に示すようなポインタ軌跡の検出を行い、後の図１０〜図１３で改めて説明するインデキシング処理を施して、スライドの重要部分とその説明音声との対応付けを行うようにした。

図９は、ポイント認識部１５０がポインタ動作軌跡を認識する際の処理フローである。以下、図９の各ステップについて説明する。

（Ｓ９０１）
ポイント軌跡認識部１５１は、プレゼンテーションスライド映像の端部からポインタが出現したとき、もしくはスライド内でポインタが点灯したときなどを契機として、ポインタ軌跡の追跡を開始する。
（Ｓ９０２）
ポイント軌跡認識部１５１は、ポインタの動作軌跡を追跡し、軌跡の２次元座標を適当な変数等に格納する。

（Ｓ９０３）
ポイント軌跡認識部１５１は、ポインタの動作軌跡の始点時刻を変数ＭＴＢｍに、終点時刻を変数ＭＴＥｍに、それぞれ格納する。
（Ｓ９０４）
ポイント軌跡認識部１５１は、ポインタ動作が終了したか否かを判定する。終了していればステップＳ９０５へ進み、ポインタ動作が継続していればステップＳ９０２へ戻って動作軌跡の追跡記録を継続する。
ポインタ動作が終了したか否かの判定は、例えばポインタがプレゼンテーションスライド映像の端部から外に出たとき、ポインタが消灯したとき、などを基準とすればよい。

（Ｓ９０５）
ポイント軌跡認識部１５１は、ポインタの動作軌跡の個数を変数ＫＰに格納する。図７〜図８の例では、ＫＰ＝４となる。
（Ｓ９０６）
ポイント座標検出部１５２は、始点時刻ＭＴＢｍ〜終点時刻ＭＴＥｍの範囲のポインタ動作軌跡を用いて、Ｘ軸、Ｙ軸方向のポインタ動作軌跡の仮想的な投影を生成する。本ステップは、ポインタ動作軌跡の２次元座標の記録を用いて、ポインタ動作軌跡を２次元座標平面上で再現することを意味する。

（Ｓ９０７）
ポイント座標検出部１５２は、ステップＳ９０６で投影したポインタ動作軌跡を用い、図８で説明した矩形領域８１０〜８４０のような、ポインタが重点的に動作している領域を検出する。
検出手法は、例えばポインタが同じ領域を所定回数以上往復していることを検出する、ポインタ軌跡の動線の平面密度が所定閾値以上であることを検出する、などのように、ポインタ軌跡の投影と所定の閾値を比較する手法などを用いることができる。

（Ｓ９０８）
ポイント座標検出部１５２は、ステップＳ９０７で抽出した矩形領域とその中心位置の２次元座標を求める。
（Ｓ９０９）
ポイント座標検出部１５２は、全てのポインタ動作軌跡についてステップＳ９０６〜Ｓ９０８を実行したか否かを判定する。全てのポインタ動作軌跡について実行していなければステップＳ９０６に戻って次のポインタ動作軌跡の処理を実行する。全てのポインタ動作軌跡について実行していれば、本処理フローを終了する。

以上の処理フローにより、ポインタ動作軌跡が重点的に指し示している矩形領域およびその中心位置座標が認識される。
ポイント認識部１５０は、ポイント軌跡認識部１５１とポイント座標検出部１５２の処理結果を、インデキシング処理部１６０に出力する。

図１０は、インデキシング処理部１６０がスライド映像について実行するインデキシング処理の例を示すものである。
インデキシング処理部１６０は、資料特徴認識部１４０の認識結果とポイント認識部１５０の認識結果を対応付ける処理（映像のインデキシング処理）を実行する。この処理は以下の（１）〜（５）のような手順で行われる。

（１）インデキシング処理部１６０は、資料特徴認識部１４０の認識結果を取得する。ここでは、図５で示した矩形領域５１０〜５４０と各矩形領域の中心位置の２次元座標を取得したものとする。
（２）インデキシング処理部１６０は、ポイント認識部１５０の認識結果を取得する。ここでは、図８で説明した矩形領域８１０〜８４０と各矩形領域の中心位置の２次元座標を取得したものとする。

（３）インデキシング処理部１６０は、資料特徴認識部１４０が認識した各矩形領域５１０〜５４０について、ポイント認識部１５０が認識した各矩形領域８１０〜８４０のうちいずれと最も近いかを判定する。
具体的には、例えば矩形領域５１０〜５４０の中心位置座標と、矩形領域８１０〜８４０の中心位置座標とをそれぞれ比較し、中心位置が最も近い矩形領域同士が、互いに最も近くに位置しているものと判定する。
中心位置同士の距離は、例えば以下の（３．１）〜（３．３）で説明するような手法で判定してもよい。

（３．１）変数ＬＩＮＥ＝横である場合
矩形領域５１０〜５４０の中心位置座標と、矩形領域８１０〜８４０の中心位置座標とのＹ軸上の距離を比較する。Ｙ軸上の距離が最も近い矩形領域同士が、最も近くに位置しているものと判定する。
（３．２）変数ＬＩＮＥ＝縦である場合
矩形領域５１０〜５４０の中心位置座標と、矩形領域８１０〜８４０の中心位置座標とのＸ軸上の距離を比較する。Ｘ軸上の距離が最も近い矩形領域同士が、最も近くに位置しているものと判定する。
（３．３）変数ＬＩＮＥ＝φである場合
矩形領域５１０〜５４０の中心位置座標と、矩形領域８１０〜８４０の中心位置座標とのＸ軸およびＹ軸上の距離を比較する。両軸上の距離が最も近い矩形領域同士が、最も近くに位置しているものと判定する。

（４）インデキシング処理部１６０は、以上の判定処理により、矩形領域５１０と８１０、５２０と８２０、５３０と８３０、５４０と８４０がそれぞれ互いに最も近くに位置するものと判定する。
（５）インデキシング処理部１６０は、ステップ（４）の判定結果に基づき、矩形領域５１０と８１０、５２０と８２０、５３０と８３０、５４０と８４０をそれぞれ対応付け、その結果を適当な変数等に格納しておく。

以上、資料特徴認識部１４０の認識結果とポイント認識部１５０の認識結果を対応付ける処理について説明した。この対応付け処理により、スライド上の特定の文字、図形、記号などが存在している領域が、ポインタ動作軌跡と関連付けられる。

一方、ポインタ動作軌跡は、プレゼンテーション映像中のある特定の時刻に講演者がポインティング手段を動かした結果として生成されるので、各ポインタ動作軌跡は、プレゼンテーション映像の開始から起算した特定の時刻と対応付けすることができる。
換言すると、各ポインタ動作軌跡は、プレゼンテーション映像の開始から起算した時刻をキーにして、その時刻の発話音声と対応付けすることもできるといえる。
以下では、インデキシング処理部１６０が上述のような各ポインタ動作軌跡と発話音声の対応付けを行う処理を説明する。

図１１は、ポインタ動作軌跡の開始時刻と終了時刻を音声波形とともに示す図である。
ここでは、図４で説明した音声波形および発話部分の認識結果に、図７で説明した４つのポインタ動作軌跡７１０〜７４０の開始時刻と終了時刻を併せて示した。
図１１に示すように、各ポインタ動作軌跡７１０〜７４０は、発話部分（１）〜（７）のいずれかと時間軸上で対応している場合が多い。これは、プレゼンテーションを行うときには、ポインティング手段でスライドの重要部分を指し示しながらその部分の説明を口頭で行う場合が多いからである。

ただし、各ポインタ動作軌跡７１０〜７４０は、発話部分（１）〜（７）のいずれかと必ずしも１対１で対応するとは限らず、複数の発話部分にまたがっている場合もある。
このような場合、各ポインタ動作軌跡をいずれの発話部分と対応付けるかについて、次の図１２で説明する。

図１２は、ポインタ動作軌跡をいずれの発話部分と対応付けるかの基準を説明する図である。以下、図１２に示す各パターンについて説明する。なお、図１２では、図１１と同様に横軸を時間軸とした。

（パターンａ）
ポインタ動作軌跡の開始時刻ＭＢｎと終了時刻ＭＥｎがともに単一の発話部分（ＪＢｍ、ＪＥｍ）に含まれる場合は、ポインタ動作軌跡はその発話部分と対応付けられる。
（パターンｂ）
ポインタ動作軌跡の開始時刻ＭＢｎと終了時刻ＭＥｎがともに単一の無声部分に含まれる場合は、ポインタ動作軌跡は直後の発話部分（ＪＢｍ＋１、ＪＥｍ＋１）と対応付けられる。

（パターンｃ）
ポインタ動作軌跡の開始時刻ＭＢｎが無声部分に含まれ、終了時刻ＭＥｎが次の発話部分（ＪＢｍ＋１、ＪＥｍ＋１）に含まれる場合は、ポインタ動作軌跡は次の発話部分（ＪＢｍ＋１、ＪＥｍ＋１）と対応付けられる。
（パターンｄ）
ポインタ動作軌跡の開始時刻ＭＢｎが発話部分（ＪＢｍ、ＪＥｍ）に含まれ、終了時刻ＭＥｎが次の発話部分（ＪＢｍ＋１、ＪＥｍ＋１）に含まれる場合は、ポインタ動作軌跡は発話部分（ＪＢｍ、ＪＥｍ）と対応付けられる。

インデキシング処理部１６０は、各ポインタ動作軌跡と各発話部分について、以上説明したような対応付け処理を行う。
なお、インデキシング処理部１６０は、いずれのポインタ動作軌跡とも対応付けられない発話部分については、直前の発話部分と結合する。

図１３は、インデキシング処理部１６０がポインタ動作軌跡と発話部分の対応付けを行った結果を示す図である。以上の処理により、ポインタ動作軌跡７１０〜７４０は、それぞれがいずれかの発話部分と対応付けられる。
一方、ポインタ動作軌跡７１０〜７４０は、図１０で説明した処理により、スライド上の文字、図形、または記号が存在する矩形領域５１０〜５４０とも対応付けられている。
したがって、最終的には、矩形領域５１０〜５４０と発話部分が対応付けられることになる。

即ち、音声記録装置１００は、スライド上の文字、図形、または記号が存在する矩形領域５１０〜５４０に対応する発話音声を、対応関係を辿ることにより容易に取得することができるのである。

以上、インデキシング処理部１６０の処理内容を説明した。

以上のように、本実施の形態１に係る音声記録装置１００は、ポインタ動作軌跡が指し示すスライド上の特定の領域と、ポインティング手段がその領域を指し示しているときに収録された発話音声とを対応付けて記録する。
そのため、スライド上の文字、図形、記号などが存在する特定領域の説明音声などを指定して取り出す際には、その特定領域と発話音声との対応関係を辿ればよいので、音声記録装置１００は容易にその説明音声などを取り出すことができる。
これにより、使用者が音声を早送りなどしながら所望の音声を探し出す必要がなくなり、手間を大幅に削減することができる。

実施の形態２．
図１４は、本発明の実施の形態２に係る音声再生装置２００の機能ブロック図である。
音声再生装置２００は、音声記録装置１００が記録した映像と音声を再生する装置である。
音声再生装置２００は、位置入力部２１０、位置座標検出部２２０、照合部２３０、音声映像再生部２４０、図示しない表示手段および音声出力手段を備える。

位置入力部２１０は、マウスやタッチパネルなどの入力手段より、音声を再生すべき旨の操作入力を受け付ける。この操作入力は、表示手段に表示される、後述の図１５で説明するような画面上で行われる。
位置座標検出部２２０は、位置入力部２１０が受け付けた操作入力の、画面上における２次元座標を検出する。

照合部２３０は、位置座標検出部２２０が検出した２次元座標に基づき、音声記録装置１００が備える音声映像データ格納部１７０が格納しているインデキシング処理済の音声データと映像データを取得する。詳細は後述の図１５で改めて説明する。

音声映像再生部２４０は、照合部２３０が取得した音声データと映像データを再生し、それぞれ表示手段と音声出力手段より出力する。

位置座標検出部２２０、照合部２３０、音声映像再生部２４０は、これらの機能を実現する回路デバイスのようなハードウェアで構成することもできるし、マイコンやＣＰＵのような演算装置とその動作を規定するソフトウェアで構成することもできる。

図１５は、位置入力部２１０の画面表示例である。ここでは、図５で説明したスライド映像を再生する例を示した。以下、図１４〜図１５を使用して、音声再生装置２００の動作手順を、次のステップ（１）〜（７）で説明する。

（１）ユーザは、音声再生装置２００に、音声記録装置１００が記録したプレゼンテーションスライドの映像を再生するよう指示する。
（２）照合部２３０は、音声映像データ格納部１７０より、ユーザが指示したプレゼンテーションスライドの映像を取得する。このとき、インデキシング処理部１６０の処理結果を併せて取得しておく。

（３）音声映像再生部２４０は、照合部２３０が取得したプレゼンテーションスライド映像を再生する。また、インデキシング処理部１６０の処理結果に、当該スライド中の文字等と対応付けられた発話音声が存在する旨の情報が含まれている場合は、その音声を再生するためのアイコンを併せて表示する。
ここでは、各矩形領域５１０〜５４０それぞれに対応付けられた発話音声が存在しているので、各矩形領域の横にスピーカ状のアイコン１５１０〜１５４０を表示する。また、当該スライドに対応する全ての音声を再生するためのスピーカアイコン１５５０を画面の端に表示する。

（４）ユーザは、各矩形領域に対応した説明音声などを聞きたい場合は、その横のスピーカアイコンをクリックするなどして指定する。ここでは、図１５のスピーカアイコン１５２０をクリックしたものとする。
（５）位置入力部２１０、位置座標検出部２２０は、ユーザがクリックしたスピーカアイコンの２次元座標を検出し、照合部２３０に通知する。

（６）照合部２３０は、スピーカアイコンの２次元座標に基づき、ユーザがクリックしたスピーカアイコンはいずれの矩形領域５１０〜５４０と対応するかをインデキシング処理部１６０の処理結果に基づき判定する。また、その矩形領域に対応付けられた発話音声を音声映像データ格納部１７０から取得する。
（７）音声映像再生部２４０は、講演者が矩形領域５２０の説明を行っている映像と音声を再生する。

以上、音声再生装置２００の動作について説明した。
なお、図１４では、音声再生装置２００と音声映像データ格納部１７０を分離して記載したが、音声記録装置１００と音声再生装置２００を一体的に構成してもよい。また、分離して構成する場合、照合部２３０と音声映像データ格納部１７０の間の接続は、有線・無線など適当な通信回線等を用いて構成すればよい。

以上のように、本実施の形態２に係る音声再生装置２００は、プレゼンテーションスライド映像を表示する際に、スライド上の文字、図形、記号などが存在する矩形領域の横にスピーカアイコンを併せて表示する。また、そのスピーカアイコンを用いて音声再生指示がなされたときは、その矩形領域に対応付けられた音声と映像を再生する。
そのため、ユーザはスライド上の特定部分を説明している際の音声や映像を、スピーカアイコンのクリックのみで容易に指定することができ、音声や映像を検索する必要がないので、音声や映像を検索したり、その音声や映像が探しているものであるか否かを確認したりする必要がない。

実施の形態３．
実施の形態１〜２では、プレゼンテーションスライド上の文字等を検出して発話音声と対応付ける例を説明したが、その他の映像についても同様に音声と対応付けを行い、記録および再生をすることができる。

実施の形態４．
以上の実施の形態１〜３では、発話音声部分を区切って再生する例を示したが、映像に基づき人物を特定する人物認識を用いれば、複数人数が出現する映像を人物毎に区切ってインデキシングすることもできる。

実施の形態１に係る音声記録装置１００の機能ブロック図である。カメラ・マイク部１１０が収録する音声データの波形例である。発話検出部１３０が音声データの発話部分を検出する処理フローである。発話検出部１３０の検出結果を示す図である。資料特徴認識部１４０の認識結果例を示す図である。資料特徴認識部１４０がプレゼンテーションスライド中の文字、図形、または記号部分を認識する処理フローである。ポインティング手段のポインタ動作軌跡の例である。ポイント座標検出部１５２の検出結果例を示す図である。ポイント認識部１５０がポインタ動作軌跡を認識する処理フローである。インデキシング処理部１６０がスライド映像について実行するインデキシング処理の例を示すものである。ポインタ動作軌跡の開始・終了時刻を音声波形とともに示す図である。ポインタ動作軌跡をいずれの発話部分と対応付けるかの基準を説明する図である。インデキシング処理部１６０がポインタ動作軌跡と発話部分の対応付けを行った結果を示す図である。実施の形態２に係る音声再生装置２００の機能ブロック図である。位置入力部２１０の画面表示例である。

符号の説明

１００音声記録装置、１１０カメラ・マイク部、１２０音声映像データ一時格納部、１３０発話検出部、１４０資料特徴認識部、１５０ポイント認識部、１６０インデキシング処理部、１７０音声映像データ格納部、２００音声再生装置、２１０位置入力部、２２０位置座標検出部、２３０照合部、２４０音声映像再生部。

Claims

音声を記録する記録手段に音声を記録する方法であって、
ポインタの動作軌跡の映像を収録するステップと、
前記映像と同時に発音された音声を収録する音声収録ステップと、
前記ポインタが前記映像中のいずれの領域を指し示しているかを前記ポインタの動作軌跡の映像に基づき認識するポイント認識ステップと、
前記ポインタが指し示す領域と前記ポインタがその領域を指し示しているときに収録された音声とを対応付けて前記記録手段に記録する記録ステップと、
を有することを特徴とする音声記録方法。
前記映像に含まれる文字、図形、または記号を検出する図形検出ステップを有し、
前記ポイント認識ステップでは、
前記ポインタがいずれの前記文字、図形、または記号を指し示しているかを前記ポインタの動作軌跡の映像に基づき認識し、
前記記録ステップでは、
前記ポインタが指し示す前記文字、図形、または記号が存在する領域と、
前記ポインタがその領域を指し示しているときに収録された音声とを対応付ける
ことを特徴とする請求項１記載の音声記録方法。
前記図形検出ステップでは、
前記映像に含まれる文字、図形、または記号が存在する領域の中心座標を検出し、
前記ポイント認識ステップでは、
前記ポインタの動作軌跡がいずれの前記文字、図形、または記号が存在する領域の中心座標に最も近いかによって前記ポインタが指し示す前記文字、図形、または記号を認識する
ことを特徴とする請求項２記載の音声記録方法。
前記ポイント認識ステップでは、
前記ポインタが指し示す領域の中心座標を前記ポインタの動作軌跡に基づき検出し、
その中心座標はいずれの前記文字、図形、または記号が存在する領域の中心座標に最も近いかによって前記ポインタが指し示す前記文字、図形、または記号を認識する
ことを特徴とする請求項３記載の音声記録方法。
前記記録ステップでは、
前記音声収録ステップで収録した音声の切れ目を認識してその切れ目で当該音声を複数の音声に分割し、
分割した複数の音声のうち、
前記ポインタが前記領域を指し示している時点と最も近い時点で収録された音声を、
その領域と対応付けて前記記録手段に記録する
ことを特徴とする請求項１ないし請求項４のいずれかに記載の音声記録方法。
前記記録ステップでは、
前記分割した複数の音声のうち前記領域と対応付けられていない音声を、
前記ポイント認識ステップで認識した前記領域のうち直前のものと対応付けて前記記録手段に記録する
ことを特徴とする請求項５記載の音声記録方法。
請求項１ないし請求項６のいずれかに記載の音声記録方法で記録された音声を再生する方法であって、
前記領域を画面表示するとともに、
前記記録手段に記録された音声を再生するよう指示するための再生指示画像を各前記領域の近傍に画面表示し、
音声を再生するよう前記再生指示画像を用いて指示がなされたときは、
その再生指示画像の近傍の前記領域に対応付けられて前記記録手段に記録された音声を再生する
ことを特徴とする音声再生方法。
請求項１ないし請求項６のいずれかに記載の音声記録方法をコンピュータに実行させることを特徴とする音声記録プログラム。
請求項７記載の音声再生方法をコンピュータに実行させることを特徴とする音声再生プログラム。