JP2010061343A - 音声記録方法、音声再生方法、音声記録プログラム、音声再生プログラム - Google Patents

音声記録方法、音声再生方法、音声記録プログラム、音声再生プログラム Download PDF

Info

Publication number
JP2010061343A
JP2010061343A JP2008225670A JP2008225670A JP2010061343A JP 2010061343 A JP2010061343 A JP 2010061343A JP 2008225670 A JP2008225670 A JP 2008225670A JP 2008225670 A JP2008225670 A JP 2008225670A JP 2010061343 A JP2010061343 A JP 2010061343A
Authority
JP
Japan
Prior art keywords
recording
audio
pointer
voice
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008225670A
Other languages
English (en)
Inventor
Ichiro Miyamoto
一郎 宮本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2008225670A priority Critical patent/JP2010061343A/ja
Publication of JP2010061343A publication Critical patent/JP2010061343A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • User Interface Of Digital Computer (AREA)
  • Television Signal Processing For Recording (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

【課題】他の情報と同期させて記録した音声を容易に取り出すことができる音声記録方法を得る。
【解決手段】音声を記録する記録手段に音声を記録する方法であって、ポインタの動作軌跡の映像を収録するステップと、映像と同時に発音された音声を収録する音声収録ステップと、ポインタが映像中のいずれの領域を指し示しているかをポインタの動作軌跡の映像に基づき認識するポイント認識ステップと、ポインタが指し示す領域とポインタがその領域を指し示しているときに収録された音声とを対応付けて記録手段に記録する記録ステップと、を有する。
【選択図】図1

Description

本発明は、音声を記録する方法およびそのプログラム、記録した音声を再生する方法およびそのプログラムに関するものである。
従来、『主情報とこれに付随する付随情報とを別の情報として扱うことができる情報ファイルを容易に生成可能にすること』を目的とした技術として、『経時変化する視聴可能な主情報55(映像、画像、音声等)と付随情報53,57とで表示ファイルを生成する。付随情報53,57は、主情報55に付随する表示出力可能な付随表示情報と、この付随表示情報の表示を主情報に同期させるためのイベント情報とを含む。これにより、主情報55のデータ構造に付随表示情報のデータ構造が依存しなくなる。例えば、主情報55が映像情報であった場合、一例として1秒間に30ものフレームが存在することになるが、フレーム毎に付随表示情報を生成する必要がない。よって、主情報55とは無関係に付随表示情報を生成することが可能となり、その生成が容易となる。』というものが提案されている(特許文献1)。
また、『会合の様子を撮影した動画像と資料やその他のメディア・データを時間軸上で同期をとりながら記録・管理する。』ことを目的とした技術として、『プレゼンテーションの際に表示されるドキュメント上へ行なわれたアノテーションを記録し、プレゼンテーションを記録したビデオ又は音声の再生と同期させてドキュメント上に描画する。アノテーションは点を結ぶ線の集合であり、各点の座標、線の太さ、線の色などの情報と、描画を完了した時刻で構成される。描画中のアノテーションは線を半透明で描画し、描画の完了時に線を不透明な色で再描画することで、描画の終了時刻を操作者に認識させる。』というものが提案されている(特許文献2)。
特開2004−135256号公報(要約) 特開2005−260513号公報(要約)
上記特許文献1〜2に記載の技術では、音声や映像などを、他の情報(例えば特許文献2ではプレゼンテーション)と時間軸上で同期させて記録する。
記録した音声や映像は、同期記録されている他の情報とともに、時間軸上で同期を取って再生することができる。
しかし、同期記録された音声の途中部分を再生しようとした場合、早送りなどを行ってその部分を取り出さなければならない。
また、その音声と同期記録されている情報が、取り出そうと意図しているものであるか否かを別途確認する必要があり、その分の手間を要する。
そのため、他の情報と同期させて記録した音声を容易に取り出すことができる音声記録方法およびそのプログラム、記録した音声を再生する方法およびそのプログラムが望まれていた。
本発明に係る音声記録方法は、音声を記録する記録手段に音声を記録する方法であって、ポインタの動作軌跡の映像を収録するステップと、前記映像と同時に発音された音声を収録する音声収録ステップと、前記ポインタが前記映像中のいずれの領域を指し示しているかを前記ポインタの動作軌跡の映像に基づき認識するポイント認識ステップと、前記ポインタが指し示す領域と前記ポインタがその領域を指し示しているときに収録された音声とを対応付けて前記記録手段に記録する記録ステップと、を有するものである。
本発明に係る音声記録方法では、ポインタが指し示す映像上の領域と、ポインタがその領域を指し示しているときに収録された音声とを対応付けて記録する。
そのため、音声の途中部分を取り出す際には、映像上の対応付けられている領域を指定すればよいので、音声の取り出しが容易である。また、音声と同期記録されている情報が取り出そうと意図しているものであるか否かは、音声を取り出す際に指定する映像上の領域を目視すればよいので、即座に確認することができる。
実施の形態1.
図1は、本発明の実施の形態1に係る音声記録装置100の機能ブロック図である。
音声記録装置100は、映像と音声を同期させて記録する装置である。ここでは、ユーザがプレゼンテーションを行う場面を例に取り、プレゼンテーションの映像と音声を同期記録するものとする。
音声記録装置100は、カメラ・マイク部110、音声映像データ一時格納部120、発話検出部130、資料特徴認識部140、ポイント認識部150、インデキシング処理部160、音声映像データ格納部170を備える。
カメラ・マイク部110は、映像と音声を収録し、映像データと音声データを音声映像データ一時格納部120に出力する。
音声映像データ一時格納部120は、カメラ・マイク部110が出力する映像データと音声データを、後の各処理のために一時的に格納する。
発話検出部130は、後述の図3〜図4で説明する処理を実行し、音声映像データ一時格納部120が格納している音声データから発話部分を検出する。
資料特徴認識部140は、プレゼンテーション資料に含まれる文字、図形、記号などの特徴部分を認識する機能部であり、縦書/横書検出部141、文字・図形座標検出部142を備える。
資料特徴認識部140が実行する処理については、後述の図5〜図6で改めて説明する。
ポイント認識部150は、プレゼンテーションを行う講演者が使用するレーザポインタ等のポインティング手段のポインタ動作を認識する機能部であり、ポイント軌跡認識部151、ポイント座標検出部152を備える。
ポイント認識部150が実行する処理については、後述の図7〜図9で改めて説明する。
インデキシング処理部160は、映像データと音声データの対応付け(インデキシング処理)を行い、その結果を音声映像データ格納部170に出力する。処理内容は、後述の図10〜図13で改めて説明する。
音声映像データ格納部170は、インデキシング処理済みの映像データと音声データを格納する。インデキシング処理により生成されるインデックスは、映像データや音声データの中に埋め込んでもよいし、インデックスのみ別データとして格納してもよい。
発話検出部130、資料特徴認識部140、ポイント認識部150、インデキシング処理部160は、これらの機能を実現する回路デバイスのようなハードウェアで構成することもできるし、マイコンやCPU(Central Processing Unit)のような演算装置とその動作を規定するソフトウェアで構成することもできる。
音声映像データ一時格納部120、音声映像データ格納部170は、HDD(Hard Disk Drive)のような記憶装置で構成することができる。その他の映像または音声の記録手段を用いてもよい。
以上、音声記録装置100の全体構成を説明した。
次に、音声記録装置100が映像と音声を記録する際の各部の動作について説明する。記録動作は、概ね以下のステップ(1)〜(6)のような手順で行われる。
(1)カメラ・マイク部110は、プレゼンテーションの映像と音声を収録し、音声映像データ一時格納部120に映像データと音声データを格納する。
(2)発話検出部130は、音声映像データ一時格納部120が格納している音声データを取得し、発話部分を検出する。
(3)資料特徴認識部140は、音声映像データ一時格納部120が格納している映像データを取得し、プレゼンテーション資料中の文字などの特徴部分を認識する。
(4)ポイント認識部150は、音声映像データ一時格納部120が格納している映像データを取得し、ポインタ動作を認識する。
(5)インデキシング処理部160は、発話検出部130、資料特徴認識部140、ポイント認識部150の処理結果を受け取り、ポインタが指し示している映像上の領域と、そのとき収録された発話音声とを対応付ける。
(6)インデキシング処理部160は、対応付け処理の結果を音声映像データ格納部170に格納する。
以上、映像と音声の記録動作について概略を説明した。
次に、図1の各機能部の処理内容を具体的に説明する。
図2は、カメラ・マイク部110が収録する音声データの波形例である。
発話検出部130は、音声記録装置100の外部よりプレゼンテーションのスライドを切り替えた旨の信号が入力されたときなどを契機に、音声映像データ一時格納部120が格納している図2のような音声データをその時点で一旦区切り、発話部分の検出処理を開始する。
図3は、発話検出部130が音声データの発話部分を検出する際の処理フローである。以下、図3の各ステップについて説明する。
(S301)
発話検出部130は、音声データの連続が途切れている無声部分を抽出する。
(S302)
発話検出部130は、無声部分の時間長が所定の閾値より大きいか否かを判定する。閾値より大きければステップS303へ進み、閾値以下であればステップS301へ戻って次の無声部分を抽出する。
(S303)
発話検出部130は、無声部分が発話の文末に相当するものと判断し、その部分を文末としてマークする。具体的には、文頭時刻を変数JBmに代入し、文末時刻を変数JEmに代入する。なお、mは発話部分の通番である。
(S304)
発話検出部130は、音声データが終了したか否かを判定する。例えば、プレゼンテーションが次のスライドに切り替わった時点で、現時点の音声データは終了したものとみなす。音声データが終了していればステップS305へ進み、終了していなければステップS301へ戻って次の無声部分を抽出する。
(S305)
発話検出部130は、発話の出現数を変数KVに格納する。次に、変数JBm、変数JEm、変数KVを、インデキシング処理部160に出力する。
図4は、発話検出部130の検出結果を示す図である。発話検出部130の検出処理によって、図2の音声データは無声部分で区切られ、図4の発話部分(1)〜(7)に分割される。
図5は、資料特徴認識部140の認識結果例を示す図である。
資料特徴認識部140は、プレゼンテーション映像中の文字、図形、または記号部分を次の図6で説明する処理フローにしたがって認識する。
ここでは、プレゼンテーションスライド中に文字が存在する矩形領域510〜540を認識した例を示した。また、各矩形領域の中心座標を、それぞれ511、521、531、541で表した。
資料特徴認識部140は、図5の例に示すように、文字部分の矩形領域とその中心位置の2次元座標を認識する。
図6は、資料特徴認識部140がプレゼンテーションスライド中の文字、図形、または記号部分を認識する処理フローである。以下、図6の各ステップについて説明する。
(S601)
資料特徴認識部140は、プレゼンテーションスライドの映像中にX軸とY軸を仮想的に投影する。本ステップの処理は、プレゼンテーションスライド映像に2次元座標を設定することを意味する。
(S602)
縦書/横書検出部141は、例えば特開平05−166000号公報に説明されているような、既存の文字領域の抽出方法を用いて、プレゼンテーションスライド映像の各矩形領域510〜540を抽出する。
次に、縦書/横書検出部141は、各矩形領域510〜540の配列に基づいて、縦方向の分割個数と横方向の分割個数を数える。
例えば図5に示したプレゼンテーションスライドの場合、矩形領域510〜540に触れないように空白部分に縦横直線を引くと、横線によってスライドが4分割されるのに対し、縦線では1分割となる。したがって、矩形領域は、横方向の領域分割数は4であるが、縦方向の領域分割数は1となる。
Y軸方向の領域分割数が多い場合(横線により分割された領域の方が多い場合)はステップS603へ進み、X軸方向とY軸方向の領域分割数が同じであるかもしくは判断できない場合はステップS604へ進み、X軸方向の領域分割数が多い場合(縦線により分割された領域の方が多い場合)はステップS605へ進む。
(S603)
縦書/横書検出部141は、プレゼンテーションスライドが横書きであると判定し、変数LINEに「横」を代入する。また、Y軸方向の領域分割数を変数kに格納する。
(S604)
縦書/横書検出部141は、プレゼンテーションスライドの縦書き/横書きを判定できないものとし、変数LINEに「φ」を代入する。また、Y軸方向の領域分割数を変数kに格納する。
(S605)
縦書/横書検出部141は、プレゼンテーションスライドが縦書きであると判定し、変数LINEに「縦」を代入する。また、X軸方向の領域分割数を変数kに格納する。
(S606)
文字・図形座標検出部142は、変数LINEの値によって次に進むステップを決定する。LINEの値が「横」であればステップS607へ進み、LINEの値が「φ」であればステップS608へ進み、LINEの値が「縦」であればステップS609へ進む。
(S607)
文字・図形座標検出部142は、Y軸方向の分割P毎に、文字、図形、または記号が存在している領域を抽出し、その2次元座標を検出する。図5の例の場合は、矩形領域510〜540の四辺の2次元座標を検出する。
なお、文字、図形、または記号が存在している領域を認識する手法は、任意の公知技術を用いることができる。
(S608)
ステップS607と同様である。
(S609)
文字・図形座標検出部142は、X軸方向の分割P毎に、文字、図形、または記号が存在している領域を抽出し、その2次元座標を検出する。本ステップは、検出方向が異なることを除けば、ステップS607〜S608と同様である。
(S610)
文字・図形座標検出部142は、ステップS609で検出した各矩形領域の中心位置の2次元座標を、変数STkに格納する。
(S611)
文字・図形座標検出部142は、軸方向の全ての領域についてステップS607〜S610までの処理を実行したか否かを判定する。
全ての軸方向領域について実行していなければステップS606に戻って次の領域の処理を行う。全ての軸方向領域について実行していれば、本処理フローを終了する。
以上の処理フローにより、プレゼンテーションスライド上の文字、図形、または記号が存在する矩形領域およびその中心位置の2次元座標が認識される。
資料特徴認識部140は、縦書/横書検出部141と文字・図形座標検出部142の検出結果を、インデキシング処理部160に出力する。
なお、スライドが縦書き/横書きのいずれであるかは、別途入力するなどして明示的に指示するようにしてもよい。
図7は、ポインティング手段のポインタ動作軌跡の例である。
プレゼンテーションの講演者がレーザポインタやマウスポインタ等のポインティング手段を用いてスライドを指し示すと、ポインタがスライド上を移動し、その動作軌跡が映像データとして記録される。
ポイント軌跡認識部151は、映像データ中のポインタの動作軌跡を認識する。動作軌跡の認識手法は、任意の公知技術を用いることができる。
図7の例では、動作軌跡710〜740を認識したものとする。
図8は、ポイント座標検出部152の検出結果例を示す図である。ここでは図7のポインタ動作軌跡710〜740に基づき検出処理を行った例を示した。
ポイント座標検出部152は、ポインタ軌跡が何度も往復している部分など、ポインティング手段の使用者が重点的に指し示していると思われる矩形領域を検出する。
図8の例では、ポインタ軌跡が左右や螺旋状に往復している矩形領域を、矩形領域810〜840として示した。また、各矩形領域の中心位置を、それぞれ811、821、831、841として示した。
ポインタの動作軌跡は、実際にはプレゼンテーションスライド上の特定の文字、図形、記号などを指し示している場合が多いと思われる。
特に、図8の矩形領域810〜840のように、ポインタが何度も往復している領域については、講演者が何らかの重要事項を指し示しながら説明等を行っている可能性が高いと推測される。
したがって、図8に示すようなポインタ軌跡の検出を行い、後の図10〜図13で改めて説明するインデキシング処理を施して、スライドの重要部分とその説明音声との対応付けを行うようにした。
図9は、ポイント認識部150がポインタ動作軌跡を認識する際の処理フローである。以下、図9の各ステップについて説明する。
(S901)
ポイント軌跡認識部151は、プレゼンテーションスライド映像の端部からポインタが出現したとき、もしくはスライド内でポインタが点灯したときなどを契機として、ポインタ軌跡の追跡を開始する。
(S902)
ポイント軌跡認識部151は、ポインタの動作軌跡を追跡し、軌跡の2次元座標を適当な変数等に格納する。
(S903)
ポイント軌跡認識部151は、ポインタの動作軌跡の始点時刻を変数MTBmに、終点時刻を変数MTEmに、それぞれ格納する。
(S904)
ポイント軌跡認識部151は、ポインタ動作が終了したか否かを判定する。終了していればステップS905へ進み、ポインタ動作が継続していればステップS902へ戻って動作軌跡の追跡記録を継続する。
ポインタ動作が終了したか否かの判定は、例えばポインタがプレゼンテーションスライド映像の端部から外に出たとき、ポインタが消灯したとき、などを基準とすればよい。
(S905)
ポイント軌跡認識部151は、ポインタの動作軌跡の個数を変数KPに格納する。図7〜図8の例では、KP=4となる。
(S906)
ポイント座標検出部152は、始点時刻MTBm〜終点時刻MTEmの範囲のポインタ動作軌跡を用いて、X軸、Y軸方向のポインタ動作軌跡の仮想的な投影を生成する。本ステップは、ポインタ動作軌跡の2次元座標の記録を用いて、ポインタ動作軌跡を2次元座標平面上で再現することを意味する。
(S907)
ポイント座標検出部152は、ステップS906で投影したポインタ動作軌跡を用い、図8で説明した矩形領域810〜840のような、ポインタが重点的に動作している領域を検出する。
検出手法は、例えばポインタが同じ領域を所定回数以上往復していることを検出する、ポインタ軌跡の動線の平面密度が所定閾値以上であることを検出する、などのように、ポインタ軌跡の投影と所定の閾値を比較する手法などを用いることができる。
(S908)
ポイント座標検出部152は、ステップS907で抽出した矩形領域とその中心位置の2次元座標を求める。
(S909)
ポイント座標検出部152は、全てのポインタ動作軌跡についてステップS906〜S908を実行したか否かを判定する。全てのポインタ動作軌跡について実行していなければステップS906に戻って次のポインタ動作軌跡の処理を実行する。全てのポインタ動作軌跡について実行していれば、本処理フローを終了する。
以上の処理フローにより、ポインタ動作軌跡が重点的に指し示している矩形領域およびその中心位置座標が認識される。
ポイント認識部150は、ポイント軌跡認識部151とポイント座標検出部152の処理結果を、インデキシング処理部160に出力する。
図10は、インデキシング処理部160がスライド映像について実行するインデキシング処理の例を示すものである。
インデキシング処理部160は、資料特徴認識部140の認識結果とポイント認識部150の認識結果を対応付ける処理(映像のインデキシング処理)を実行する。この処理は以下の(1)〜(5)のような手順で行われる。
(1)インデキシング処理部160は、資料特徴認識部140の認識結果を取得する。ここでは、図5で示した矩形領域510〜540と各矩形領域の中心位置の2次元座標を取得したものとする。
(2)インデキシング処理部160は、ポイント認識部150の認識結果を取得する。ここでは、図8で説明した矩形領域810〜840と各矩形領域の中心位置の2次元座標を取得したものとする。
(3)インデキシング処理部160は、資料特徴認識部140が認識した各矩形領域510〜540について、ポイント認識部150が認識した各矩形領域810〜840のうちいずれと最も近いかを判定する。
具体的には、例えば矩形領域510〜540の中心位置座標と、矩形領域810〜840の中心位置座標とをそれぞれ比較し、中心位置が最も近い矩形領域同士が、互いに最も近くに位置しているものと判定する。
中心位置同士の距離は、例えば以下の(3.1)〜(3.3)で説明するような手法で判定してもよい。
(3.1)変数LINE=横である場合
矩形領域510〜540の中心位置座標と、矩形領域810〜840の中心位置座標とのY軸上の距離を比較する。Y軸上の距離が最も近い矩形領域同士が、最も近くに位置しているものと判定する。
(3.2)変数LINE=縦である場合
矩形領域510〜540の中心位置座標と、矩形領域810〜840の中心位置座標とのX軸上の距離を比較する。X軸上の距離が最も近い矩形領域同士が、最も近くに位置しているものと判定する。
(3.3)変数LINE=φである場合
矩形領域510〜540の中心位置座標と、矩形領域810〜840の中心位置座標とのX軸およびY軸上の距離を比較する。両軸上の距離が最も近い矩形領域同士が、最も近くに位置しているものと判定する。
(4)インデキシング処理部160は、以上の判定処理により、矩形領域510と810、520と820、530と830、540と840がそれぞれ互いに最も近くに位置するものと判定する。
(5)インデキシング処理部160は、ステップ(4)の判定結果に基づき、矩形領域510と810、520と820、530と830、540と840をそれぞれ対応付け、その結果を適当な変数等に格納しておく。
以上、資料特徴認識部140の認識結果とポイント認識部150の認識結果を対応付ける処理について説明した。この対応付け処理により、スライド上の特定の文字、図形、記号などが存在している領域が、ポインタ動作軌跡と関連付けられる。
一方、ポインタ動作軌跡は、プレゼンテーション映像中のある特定の時刻に講演者がポインティング手段を動かした結果として生成されるので、各ポインタ動作軌跡は、プレゼンテーション映像の開始から起算した特定の時刻と対応付けすることができる。
換言すると、各ポインタ動作軌跡は、プレゼンテーション映像の開始から起算した時刻をキーにして、その時刻の発話音声と対応付けすることもできるといえる。
以下では、インデキシング処理部160が上述のような各ポインタ動作軌跡と発話音声の対応付けを行う処理を説明する。
図11は、ポインタ動作軌跡の開始時刻と終了時刻を音声波形とともに示す図である。
ここでは、図4で説明した音声波形および発話部分の認識結果に、図7で説明した4つのポインタ動作軌跡710〜740の開始時刻と終了時刻を併せて示した。
図11に示すように、各ポインタ動作軌跡710〜740は、発話部分(1)〜(7)のいずれかと時間軸上で対応している場合が多い。これは、プレゼンテーションを行うときには、ポインティング手段でスライドの重要部分を指し示しながらその部分の説明を口頭で行う場合が多いからである。
ただし、各ポインタ動作軌跡710〜740は、発話部分(1)〜(7)のいずれかと必ずしも1対1で対応するとは限らず、複数の発話部分にまたがっている場合もある。
このような場合、各ポインタ動作軌跡をいずれの発話部分と対応付けるかについて、次の図12で説明する。
図12は、ポインタ動作軌跡をいずれの発話部分と対応付けるかの基準を説明する図である。以下、図12に示す各パターンについて説明する。なお、図12では、図11と同様に横軸を時間軸とした。
(パターンa)
ポインタ動作軌跡の開始時刻MBnと終了時刻MEnがともに単一の発話部分(JBm、JEm)に含まれる場合は、ポインタ動作軌跡はその発話部分と対応付けられる。
(パターンb)
ポインタ動作軌跡の開始時刻MBnと終了時刻MEnがともに単一の無声部分に含まれる場合は、ポインタ動作軌跡は直後の発話部分(JBm+1、JEm+1)と対応付けられる。
(パターンc)
ポインタ動作軌跡の開始時刻MBnが無声部分に含まれ、終了時刻MEnが次の発話部分(JBm+1、JEm+1)に含まれる場合は、ポインタ動作軌跡は次の発話部分(JBm+1、JEm+1)と対応付けられる。
(パターンd)
ポインタ動作軌跡の開始時刻MBnが発話部分(JBm、JEm)に含まれ、終了時刻MEnが次の発話部分(JBm+1、JEm+1)に含まれる場合は、ポインタ動作軌跡は発話部分(JBm、JEm)と対応付けられる。
インデキシング処理部160は、各ポインタ動作軌跡と各発話部分について、以上説明したような対応付け処理を行う。
なお、インデキシング処理部160は、いずれのポインタ動作軌跡とも対応付けられない発話部分については、直前の発話部分と結合する。
図13は、インデキシング処理部160がポインタ動作軌跡と発話部分の対応付けを行った結果を示す図である。以上の処理により、ポインタ動作軌跡710〜740は、それぞれがいずれかの発話部分と対応付けられる。
一方、ポインタ動作軌跡710〜740は、図10で説明した処理により、スライド上の文字、図形、または記号が存在する矩形領域510〜540とも対応付けられている。
したがって、最終的には、矩形領域510〜540と発話部分が対応付けられることになる。
即ち、音声記録装置100は、スライド上の文字、図形、または記号が存在する矩形領域510〜540に対応する発話音声を、対応関係を辿ることにより容易に取得することができるのである。
以上、インデキシング処理部160の処理内容を説明した。
以上のように、本実施の形態1に係る音声記録装置100は、ポインタ動作軌跡が指し示すスライド上の特定の領域と、ポインティング手段がその領域を指し示しているときに収録された発話音声とを対応付けて記録する。
そのため、スライド上の文字、図形、記号などが存在する特定領域の説明音声などを指定して取り出す際には、その特定領域と発話音声との対応関係を辿ればよいので、音声記録装置100は容易にその説明音声などを取り出すことができる。
これにより、使用者が音声を早送りなどしながら所望の音声を探し出す必要がなくなり、手間を大幅に削減することができる。
実施の形態2.
図14は、本発明の実施の形態2に係る音声再生装置200の機能ブロック図である。
音声再生装置200は、音声記録装置100が記録した映像と音声を再生する装置である。
音声再生装置200は、位置入力部210、位置座標検出部220、照合部230、音声映像再生部240、図示しない表示手段および音声出力手段を備える。
位置入力部210は、マウスやタッチパネルなどの入力手段より、音声を再生すべき旨の操作入力を受け付ける。この操作入力は、表示手段に表示される、後述の図15で説明するような画面上で行われる。
位置座標検出部220は、位置入力部210が受け付けた操作入力の、画面上における2次元座標を検出する。
照合部230は、位置座標検出部220が検出した2次元座標に基づき、音声記録装置100が備える音声映像データ格納部170が格納しているインデキシング処理済の音声データと映像データを取得する。詳細は後述の図15で改めて説明する。
音声映像再生部240は、照合部230が取得した音声データと映像データを再生し、それぞれ表示手段と音声出力手段より出力する。
位置座標検出部220、照合部230、音声映像再生部240は、これらの機能を実現する回路デバイスのようなハードウェアで構成することもできるし、マイコンやCPUのような演算装置とその動作を規定するソフトウェアで構成することもできる。
図15は、位置入力部210の画面表示例である。ここでは、図5で説明したスライド映像を再生する例を示した。以下、図14〜図15を使用して、音声再生装置200の動作手順を、次のステップ(1)〜(7)で説明する。
(1)ユーザは、音声再生装置200に、音声記録装置100が記録したプレゼンテーションスライドの映像を再生するよう指示する。
(2)照合部230は、音声映像データ格納部170より、ユーザが指示したプレゼンテーションスライドの映像を取得する。このとき、インデキシング処理部160の処理結果を併せて取得しておく。
(3)音声映像再生部240は、照合部230が取得したプレゼンテーションスライド映像を再生する。また、インデキシング処理部160の処理結果に、当該スライド中の文字等と対応付けられた発話音声が存在する旨の情報が含まれている場合は、その音声を再生するためのアイコンを併せて表示する。
ここでは、各矩形領域510〜540それぞれに対応付けられた発話音声が存在しているので、各矩形領域の横にスピーカ状のアイコン1510〜1540を表示する。また、当該スライドに対応する全ての音声を再生するためのスピーカアイコン1550を画面の端に表示する。
(4)ユーザは、各矩形領域に対応した説明音声などを聞きたい場合は、その横のスピーカアイコンをクリックするなどして指定する。ここでは、図15のスピーカアイコン1520をクリックしたものとする。
(5)位置入力部210、位置座標検出部220は、ユーザがクリックしたスピーカアイコンの2次元座標を検出し、照合部230に通知する。
(6)照合部230は、スピーカアイコンの2次元座標に基づき、ユーザがクリックしたスピーカアイコンはいずれの矩形領域510〜540と対応するかをインデキシング処理部160の処理結果に基づき判定する。また、その矩形領域に対応付けられた発話音声を音声映像データ格納部170から取得する。
(7)音声映像再生部240は、講演者が矩形領域520の説明を行っている映像と音声を再生する。
以上、音声再生装置200の動作について説明した。
なお、図14では、音声再生装置200と音声映像データ格納部170を分離して記載したが、音声記録装置100と音声再生装置200を一体的に構成してもよい。また、分離して構成する場合、照合部230と音声映像データ格納部170の間の接続は、有線・無線など適当な通信回線等を用いて構成すればよい。
以上のように、本実施の形態2に係る音声再生装置200は、プレゼンテーションスライド映像を表示する際に、スライド上の文字、図形、記号などが存在する矩形領域の横にスピーカアイコンを併せて表示する。また、そのスピーカアイコンを用いて音声再生指示がなされたときは、その矩形領域に対応付けられた音声と映像を再生する。
そのため、ユーザはスライド上の特定部分を説明している際の音声や映像を、スピーカアイコンのクリックのみで容易に指定することができ、音声や映像を検索する必要がないので、音声や映像を検索したり、その音声や映像が探しているものであるか否かを確認したりする必要がない。
実施の形態3.
実施の形態1〜2では、プレゼンテーションスライド上の文字等を検出して発話音声と対応付ける例を説明したが、その他の映像についても同様に音声と対応付けを行い、記録および再生をすることができる。
実施の形態4.
以上の実施の形態1〜3では、発話音声部分を区切って再生する例を示したが、映像に基づき人物を特定する人物認識を用いれば、複数人数が出現する映像を人物毎に区切ってインデキシングすることもできる。
実施の形態1に係る音声記録装置100の機能ブロック図である。 カメラ・マイク部110が収録する音声データの波形例である。 発話検出部130が音声データの発話部分を検出する処理フローである。 発話検出部130の検出結果を示す図である。 資料特徴認識部140の認識結果例を示す図である。 資料特徴認識部140がプレゼンテーションスライド中の文字、図形、または記号部分を認識する処理フローである。 ポインティング手段のポインタ動作軌跡の例である。 ポイント座標検出部152の検出結果例を示す図である。 ポイント認識部150がポインタ動作軌跡を認識する処理フローである。 インデキシング処理部160がスライド映像について実行するインデキシング処理の例を示すものである。 ポインタ動作軌跡の開始・終了時刻を音声波形とともに示す図である。 ポインタ動作軌跡をいずれの発話部分と対応付けるかの基準を説明する図である。 インデキシング処理部160がポインタ動作軌跡と発話部分の対応付けを行った結果を示す図である。 実施の形態2に係る音声再生装置200の機能ブロック図である。 位置入力部210の画面表示例である。
符号の説明
100 音声記録装置、110 カメラ・マイク部、120 音声映像データ一時格納部、130 発話検出部、140 資料特徴認識部、150 ポイント認識部、160 インデキシング処理部、170 音声映像データ格納部、200 音声再生装置、210 位置入力部、220 位置座標検出部、230 照合部、240 音声映像再生部。

Claims (9)

  1. 音声を記録する記録手段に音声を記録する方法であって、
    ポインタの動作軌跡の映像を収録するステップと、
    前記映像と同時に発音された音声を収録する音声収録ステップと、
    前記ポインタが前記映像中のいずれの領域を指し示しているかを前記ポインタの動作軌跡の映像に基づき認識するポイント認識ステップと、
    前記ポインタが指し示す領域と前記ポインタがその領域を指し示しているときに収録された音声とを対応付けて前記記録手段に記録する記録ステップと、
    を有することを特徴とする音声記録方法。
  2. 前記映像に含まれる文字、図形、または記号を検出する図形検出ステップを有し、
    前記ポイント認識ステップでは、
    前記ポインタがいずれの前記文字、図形、または記号を指し示しているかを前記ポインタの動作軌跡の映像に基づき認識し、
    前記記録ステップでは、
    前記ポインタが指し示す前記文字、図形、または記号が存在する領域と、
    前記ポインタがその領域を指し示しているときに収録された音声とを対応付ける
    ことを特徴とする請求項1記載の音声記録方法。
  3. 前記図形検出ステップでは、
    前記映像に含まれる文字、図形、または記号が存在する領域の中心座標を検出し、
    前記ポイント認識ステップでは、
    前記ポインタの動作軌跡がいずれの前記文字、図形、または記号が存在する領域の中心座標に最も近いかによって前記ポインタが指し示す前記文字、図形、または記号を認識する
    ことを特徴とする請求項2記載の音声記録方法。
  4. 前記ポイント認識ステップでは、
    前記ポインタが指し示す領域の中心座標を前記ポインタの動作軌跡に基づき検出し、
    その中心座標はいずれの前記文字、図形、または記号が存在する領域の中心座標に最も近いかによって前記ポインタが指し示す前記文字、図形、または記号を認識する
    ことを特徴とする請求項3記載の音声記録方法。
  5. 前記記録ステップでは、
    前記音声収録ステップで収録した音声の切れ目を認識してその切れ目で当該音声を複数の音声に分割し、
    分割した複数の音声のうち、
    前記ポインタが前記領域を指し示している時点と最も近い時点で収録された音声を、
    その領域と対応付けて前記記録手段に記録する
    ことを特徴とする請求項1ないし請求項4のいずれかに記載の音声記録方法。
  6. 前記記録ステップでは、
    前記分割した複数の音声のうち前記領域と対応付けられていない音声を、
    前記ポイント認識ステップで認識した前記領域のうち直前のものと対応付けて前記記録手段に記録する
    ことを特徴とする請求項5記載の音声記録方法。
  7. 請求項1ないし請求項6のいずれかに記載の音声記録方法で記録された音声を再生する方法であって、
    前記領域を画面表示するとともに、
    前記記録手段に記録された音声を再生するよう指示するための再生指示画像を各前記領域の近傍に画面表示し、
    音声を再生するよう前記再生指示画像を用いて指示がなされたときは、
    その再生指示画像の近傍の前記領域に対応付けられて前記記録手段に記録された音声を再生する
    ことを特徴とする音声再生方法。
  8. 請求項1ないし請求項6のいずれかに記載の音声記録方法をコンピュータに実行させることを特徴とする音声記録プログラム。
  9. 請求項7記載の音声再生方法をコンピュータに実行させることを特徴とする音声再生プログラム。
JP2008225670A 2008-09-03 2008-09-03 音声記録方法、音声再生方法、音声記録プログラム、音声再生プログラム Withdrawn JP2010061343A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008225670A JP2010061343A (ja) 2008-09-03 2008-09-03 音声記録方法、音声再生方法、音声記録プログラム、音声再生プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008225670A JP2010061343A (ja) 2008-09-03 2008-09-03 音声記録方法、音声再生方法、音声記録プログラム、音声再生プログラム

Publications (1)

Publication Number Publication Date
JP2010061343A true JP2010061343A (ja) 2010-03-18

Family

ID=42188083

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008225670A Withdrawn JP2010061343A (ja) 2008-09-03 2008-09-03 音声記録方法、音声再生方法、音声記録プログラム、音声再生プログラム

Country Status (1)

Country Link
JP (1) JP2010061343A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012065170A (ja) * 2010-09-16 2012-03-29 Fuji Xerox Co Ltd 映像再生装置及び映像再生プログラム
JP2014067148A (ja) * 2012-09-25 2014-04-17 Toshiba Corp 手書き文書処理装置、方法およびプログラム
CN107534789A (zh) * 2015-06-25 2018-01-02 松下知识产权经营株式会社 影像同步装置及影像同步方法
JP2019008419A (ja) * 2017-06-21 2019-01-17 カシオ計算機株式会社 データ送信方法、データ送信装置、及びプログラム
WO2022107199A1 (ja) * 2020-11-17 2022-05-27 日本電信電話株式会社 文字情報付与方法、文字情報付与装置及びプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012065170A (ja) * 2010-09-16 2012-03-29 Fuji Xerox Co Ltd 映像再生装置及び映像再生プログラム
JP2014067148A (ja) * 2012-09-25 2014-04-17 Toshiba Corp 手書き文書処理装置、方法およびプログラム
CN107534789A (zh) * 2015-06-25 2018-01-02 松下知识产权经营株式会社 影像同步装置及影像同步方法
CN107534789B (zh) * 2015-06-25 2021-04-27 松下知识产权经营株式会社 影像同步装置及影像同步方法
JP2019008419A (ja) * 2017-06-21 2019-01-17 カシオ計算機株式会社 データ送信方法、データ送信装置、及びプログラム
JP2022000771A (ja) * 2017-06-21 2022-01-04 カシオ計算機株式会社 学習制御方法及び学習システム
JP7279754B2 (ja) 2017-06-21 2023-05-23 カシオ計算機株式会社 学習制御方法及び学習システム
WO2022107199A1 (ja) * 2020-11-17 2022-05-27 日本電信電話株式会社 文字情報付与方法、文字情報付与装置及びプログラム

Similar Documents

Publication Publication Date Title
JP6217645B2 (ja) 情報処理装置、再生状態制御方法及びプログラム
JP6044553B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP5959771B2 (ja) 電子機器、方法およびプログラム
JP6509516B2 (ja) 電子機器、方法及びプログラム
JP2008084110A (ja) 情報表示装置、情報表示方法及び情報表示プログラム
WO2014070044A2 (ru) Способы изготовления прототипов мультимедиа-презентаций, устройства для изготовления прототипов мультимедиа-презентаций, способы использования устройств для изготовления прототипов мультимедиа-презентаций (варианты)
JP2012008973A (ja) 情報処理プログラムおよび情報処理装置
JP2010061343A (ja) 音声記録方法、音声再生方法、音声記録プログラム、音声再生プログラム
JP6176041B2 (ja) 情報処理装置及びプログラム
JP2007066018A (ja) 情報処理方法及び情報処理装置
JP2014067148A (ja) 手書き文書処理装置、方法およびプログラム
JP6276570B2 (ja) 画像音声再生システム及び画像音声再生方法とプログラム
JP3879793B2 (ja) 発言構造検出表示装置
US9870134B2 (en) Interactive blocking and management for performing arts productions
JP6443205B2 (ja) コンテンツ再生システム、コンテンツ再生装置、コンテンツ関連情報配信装置、コンテンツ再生方法、及びコンテンツ再生プログラム
JP2008181367A (ja) ミュージックプレーヤ
JP2009283020A (ja) 記録装置、再生装置、及びプログラム
JP2005167822A (ja) 情報再生装置及び情報再生方法
JP2013200649A (ja) 情報処理装置及び情報処理プログラム
JP5200555B2 (ja) 記録再生装置、およびプログラム
JP4780128B2 (ja) スライド再生装置、スライド再生システム、およびスライド再生プログラム
JP2009282936A (ja) 選択式情報提示装置および選択式情報提示処理プログラム
JP6802264B2 (ja) 表示装置、出力装置、および情報表示方法
JP2006252208A (ja) アノテーション付与装置、アノテーション付与方法およびプログラム
US20220180904A1 (en) Information processing apparatus and non-transitory computer readable medium

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20111206