JP2008154258A

JP2008154258A - 動画再生装置、動画再生方法及びそのコンピュータ・プログラム

Info

Publication number: JP2008154258A
Application number: JP2008007208A
Authority: JP
Inventors: Hirotaka Shiiyama; 弘隆椎山
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2008-01-16
Filing date: 2008-01-16
Publication date: 2008-07-03
Anticipated expiration: 2022-04-16
Also published as: JP4509188B2

Abstract

【課題】人の発した音声区間を正確に検出すると共に、検出した音声区間に従って映像と音声との同期関係を忠実に維持しながら、ユーザの閲覧所要時間を大幅に短縮する。
【解決手段】動画再生装置において、動画データに含まれる副情報に基づいて、人の発声期間を表わす区間Ａと、それ以外の区間Ｂとを判定すると共に、当該動画データに基づいて、区間Ａは、等速再生乃至ユーザが内容を把握可能な所定速度（例えば等速再生の１．５乃至２倍速）で、再生音声を伴う高速動画再生を行なう一方で、区間Ｂは、当該所定速度より高速度（例えば等速再生の５乃至１０倍速）で、少なくとも小音量の再生音声を伴う高速動画再生、または無音で高速動画再生を行なう。その際、動画再生の速度は、ユーザ・プロファイル１４に登録されたユーザの属性情報に応じて調整可能である。
【選択図】図１

Description

本発明は、音声の再生を伴う動画再生技術の分野に関する。

従来より、例えば、ビデオテープレコーダ等のように、音声の再生を伴う動画再生装置においては、再生実行時にユーザが動画全体を短時間で見ることを可能とすべく、倍速再生機能や、高速早送り機能等が備えられている。

また、代表的な動画再生装置であるビデオテープレコーダにおいては、近年、記録媒体の倍速再生実行時に、音のエネルギが所定のしきい値以上の第１音声区間と、当該所定のしきい値未満の第２音声区間とを検出すると共に、その第１音声区間における音声信号のピッチ変換を行ないながら継続再生することにより、当該第２音声区間を侵食しながらも、再生された音声はユーザにとって多少早口ではあるもの、内容の理解が可能な再生音を伴いながら、２倍速で記憶媒体を再生可能な技術も提案されている。

特開平１０−０３２７７６号公報特開２００１−２１１４２８号公報特開２００１−１９５８０９号公報特開平１０−１７２２４５号公報特開平１１−１２０６８８号公報

しかしながら、上記の如く音声信号の部分的なピッチ変換処理を行うと、動画再生時に必ずしも音声と映像との同期関係が保てないことにより、例えば、再生された映像中の人物の喋っている映像と、再生された音声との同期が取れないことから、人間の感覚にとって不自然な再生となり、ユーザは違和感を感じることがある。

また、例えば特開平１０−３２７７６号公報、特開平９−２４３３５１号公報等においては、音声エネルギに基づいて無音状態を検出し、検出した無音状態以外の音を人の発した音声区間とみなすことにより、動画の要約（サマリー）を行う技術も提案されている。しかしながら、例えばニュース番組等のように、その番組全体を通して人の発した音声が支配的な動画においては、音声エネルギに基づく人の発した音声区間の検出はある程度は可能であるものの、バックグラウンドノイズやバックグラウンド音楽が存在する環境下ではこの方法は現実的ではない。

更に、上記特許公報以前の従来技術においても、音声検出を行なうと共に、検出した音声を考慮した動画再生を行なう技術が数多く提案されており、その殆どが音のエネルギをしきい値処理することによって音声を検出している。この背景には、日本語の曖昧さに起因する問題があり、「人の声」も「音声」と言い、人の声を含む音一般も「音声」と呼ぶことに起因しており、このような従来技術における音のエネルギのしきい値処理を、真の「音声検出」とひとまとめに総称するのは不適当である。

また、特開平９−２４７６１７号公報には、音声信号のＦＦＴ（高速フーリエ変換）スペクトラムを算出することによって特異点を求めることによって「音声情報等の特徴点」を検出し、その音量を分析する技術が提案されている。しかしながら、ＦＦＴスペクトラムを利用する方法においては、再生すべき音声信号の中に、広帯域のスペクトル分布となる所謂バックグラウンド音楽等が含まれる場合には、その中から人の発した声を検出することは困難である。

このように、音声を伴う従来の動画再生においては、上述したように音声区間の検出が便宜的で不正確であるという問題があり、更に、その検出結果を用いた動画のサマリーの作成や倍速再生を行う場合には、再生に際して、映像と音声との同期関係が維持できないという問題がある。

また、近年においては、発声内容の情報を、所謂、字幕やクロ−ズキャプション等によって、動画データ及び音声信号と多重化、或いは別の領域帯域に挿入されたメディアが登場しているが、このようなメディアの再生時においても、音声区間の検出結果を用いた動画のサマリーの作成や倍速再生を行う場合には、再生に際して、映像と音声との同期関係が維持できないという問題がある。

また、一般に、老人や子供等のユーザにとって各種装置を使いこなすことは容易なことでななく、且つ速い速度で発せられる音声は、その内容の理解が追いつき難いことが知られている。従って、このようなユーザにとって、上述したテープレコーダのような動画再生装置において倍速再生等の内容の早見（短縮再生）を行なうに際しては、再生に最適な条件が一般のユーザとは異なる。

更に、動体視力の弱いユーザ、早い音声に対する聴力が弱いユーザ、或いは再生される音声を母国語としない外国のユーザ等にとっても、上記のような動画再生装置によって倍速再生等の内容の早見（短縮再生）を行なうに際しては、再生に最適な条件が一般のユーザとは異なる。

そこで本発明は、人の発した音声区間を正確に検出すると共に、検出した音声区間に従って映像と音声との同期関係を忠実に維持しながら、ユーザの閲覧所要時間を大幅に短縮する動画再生装置、動画再生方法及びそのコンピュータ・プログラムの提供を目的とする。

本発明の一側面によれば、音声信号と副情報とを含む動画データを高速に再生可能な動画再生装置であって、前記動画データに含まれる副情報に基づいて、人の発声期間を表わす第１音声区間と、それ以外の第２音声区間とを判定する判定手段と、前記動画データに基づいて、前記第１音声区間は、ユーザが内容を把握可能な所定の速度で、再生音声を伴う高速動画再生を行なう一方で、前記第２音声区間は、前記所定の速度より高速に、高速動画再生を行なう早見再生手段とを備え、前記早見再生手段は、前記動画再生装置の利用が可能なユーザを対象として、個々のユーザに関する属性情報が登録されたユーザ・プロファイルを参照し、特定のユーザに関する属性情報に従って、前記第１及び第２音声区間の再生速度を決定することを特徴とする動画再生装置が提供される。

本発明の別の側面によれば、音声信号と副情報とを含む動画データを高速に再生可能な動画再生方法であって、前記動画データに含まれる副情報に基づいて、人の発声期間を表わす第１音声区間と、それ以外の第２音声区間とを判定する判定工程と、前記動画データに基づいて、前記第１音声区間は、ユーザが内容を把握可能な所定の速度で、再生音声を伴う高速動画再生を行なう一方で、前記第２音声区間は、前記所定の速度より高速に、高速動画再生を行なう早見再生工程とを備え、前記早見再生工程は、前記動画再生装置の利用が可能なユーザを対象として、個々のユーザに関する属性情報が登録されたユーザ・プロファイルを参照し、特定のユーザに関する属性情報に従って、前記第１及び第２音声区間の再生速度を決定することを特徴とする動画再生方法が提供される。

以上説明した本発明によれば、人の発した音声区間を正確に検出すると共に、検出した音声区間に従って映像と音声との同期関係を忠実に維持しながら、ユーザの閲覧所要時間を大幅に短縮する動画再生装置、動画再生方法及びそのコンピュータ・プログラムの提供が実現する。

以下、本発明に係る動画再生装置の一実施形態を、図面を参照して詳細に説明する。

はじめに、本実施形態における動画再生装置の動作の概要について、図１を参照して説明する。

図１は、本実施形態に係る動画再生装置における動画早見アルゴリズムの概念図を表す図である。

本実施形態に係る動画再生装置は、図１に示すように、大別して、動画早見インデックス作成部１００と、動画早見再生部２００とからなる。

＜動画早見インデックス作成部１００＞
動画早見インデックス作成部１００では、動画データ記憶部１０から読み出した動画データが映像／音声／副情報分離処理（ステップＳ101）において映像データ（映像信号）、音声データ（音声信号）、並びに副情報に分離される。

そして、音声信号に対しては、音声区間読み込み処理（ステップＳ102）及び音声区間補正処理（ステップＳ103）が施され、映像信号に対しては、当該副情報にシーンチェンジ点情報が含まれない場合に、映像変化度演算処理（ステップＳ106）及びシーンチェンジ点検出処理（ステップＳ107）が施され、副情報に対しては、当該副情報にシーンチェンジ点情報が含まれる場合に、シーンチェンジ点読み出し処理（ステップＳ105）が施される。早見再生区間補正処理（ステップＳ104）では、早見再生区間情報が生成され、生成されたこの情報は、動画早見インデックス記憶部１１に記憶される。

即ち、音声区間読み込み処理（ステップＳ102）では、動画データが映像／音声／副情報分離処理（ステップＳ101）にて分離された情報に基づいて、「人の発生内容に関する情報」と、「表示タイミング情報」とが、音声区間読み込み結果として、当該動画データから読み出される。ここで、表示タイミング情報には、表示開始タイミング、表示終了タイミング、並びに区間長が含まれる。

音声区間補正処理（ステップＳ103）では、上記の音声区間読み込み結果に基づいて、音声再生時に人（ユーザ）が不快にならないように、近接する複数の音声区間を統合することによって新たに再生するところの、人の発声期間を表わす音声区間（以下、「人の音声区間」または区間Ａと称する）の補正が行われることにより、補正済みの音声区間情報を取得する。

例えば、高速動画再生に際する悪い態様として、近接する２つの区間Ａの間隔が狭い場合に、動画再生に際して、それらの音声区間を、人が聞いて内容把握ができる程度の速度で、音声を伴う倍速再生（例えば２倍速再生）を行なうと共に、人の音声区間ではない区間（以下、区間Ｂと称する）に対しては、動画再生に際して、再生映像を人が見ることによって内容把握ができる程度の高倍率の倍速で再生を行うと、変化が激しく、一般のユーザにとって聞き苦しいものとなる。

従って、本実施形態では、音声区間補正処理（ステップＳ103）において、人の音声区間の間隔を考慮し、その間隔がある所定の条件を満たす場合には複数の人の音声区間群を統合することにより、前記の聞き苦しさを解消する。ここで、所定の条件としては、例えば、人の音声区間の間隔が所定のしきい値以下であることを設定するのが最も容易である。

また、映像変化度演算処理（ステップＳ106）では、映像／音声／副情報分離処理（ステップＳ101）にて得られた映像データに対して、特開２０００−２３５６３９号公報に記載されたフレーム間の類似比較処理を行うことによってフレーム間類似度を演算することにより、映像変化情報が生成される。

一般に、音声信号を含む動画データに映像の変わり目が存在し、その直ぐ後に音声区間が始まる場合には、動画再生に際して、ほんの一瞬高速でシーンの先頭部分の映像が再生された後で、音声を伴う倍速再生による再生映像が、人が聞いて把握できる速度で行われるため、ユーザにとって映像がちらついたような違和感が生じる。

そこで、本実施形態では、上記の副情報にシーンチェンジ点情報が含まれている場合には、シーンチェンジ点読み出し処理（ステップＳ105）において、その副情報からシーンチェンジ点群（シーンチェンジ点情報）を読み出し、シーンチェンジ点情報が含まれていない場合には、シーンチェンジ点検出処理（ステップＳ107）において、例えば、本願出願人による先行する特開２０００−２３５６３９号公報に開示されたシーンチェンジ点の検出技術を採用することにより、映像変化度演算処理（ステップＳ106）にて得られた映像変化情報に基づいて、シーンチェンジ点群（シーンチェンジ点情報）を検出する。

そして、早見再生区間補正処理（ステップＳ104）では、ステップＳ103における音声区間補正処理後の音声区間の先頭よりも時間的に早く、且つ最も近傍で、その距離が所定のしきい値以下である場合に、音声区間の先頭を、ステップＳ105またはステップＳ107にて取得したシーンチェンジ点に対応する情報に置き換えることにより、ユーザの違和感を取り除くことができる。

上記各ステップの処理は、極めて高速に処理が可能であるから、本実施形態では、動画早見再生部２００による動画再生を行なうに際して、動画データ記憶部１０から読み出した音声・副情報付き動画データをメモリバッファ（不図示）に一時記憶しておき、動画再生が実際に行われるのに先んじて、上記の「人の発生内容に関する情報」を取得することにより、再生対象の動画データの内容を予め解析すること無く、動画早見インデックス作成部１００による早見再生区間情報の生成プロセスと、生成された早見再生区間情報及び動画データを利用した動画早見再生部２００による動画再生プロセスとを、動画全体（即ち、再生対象のコンテンツ全編）を、擬似的リアルタイムに実行（即ち、擬似並行処理によって実行）することにより、ユーザは、所望する動画コンテンツの全体（全編）を、短時間で効率良く早見することが可能である。

＜動画早見再生部２００＞
次に、動画早見再生部２００では、動画早見再生処理（ステップＳ107）において、再生映像はディスプレイ１２、再生音声はスピーカ１３を利用して再生される。この動画早見再生処理による動画再生に際しては、動画早見インデックス記憶部１１から読み出された早見再生区間情報に基づいて、ステップＳ108にて再生に要する時間が表示されると共に、その表示に応じてステップＳ109にて設定されたユーザ所望の再生条件のフィードバックおよびユーザ・プロファイル１４に基づく再生条件を統合判断することにより、早見再生条件の最終的な設定が行われ、設定された早見再生条件に基づいて、動画データ記憶部１０から読み出した動画データの動画再生が行われる。

その際、本実施形態では、
・区間Ａに対しては、再生される音声をユーザが聞いた際に内容を把握できる速度で音声を伴う倍速再生が行われ、
・区間Ｂに対しては、再生される映像を見ることによってユーザが内容を把握できる範囲内で高倍率の倍速再生が行われる。

ここで、上記の区間Ａにおける倍速再生、即ち、人が聞いて内容を把握できる速度の再生とは、実験では2倍速まで、望ましくは1.5倍速程度にすると良いことが本願出願人による実験の結果から判っている。他方、区間Ｂに対しては、再生映像を人が見て内容が把握できる範囲で高い倍率の倍速で再生を行うが、本願出願人による実験の結果によれば、経験的には10倍速まで、望ましくは5倍速以上に設定すると良いことが判っている。

区間Ｂを高倍率で倍速再生すると、一般に、「キュルキュル」という音が出ることが知られているので、ステップＳ107では、区間Ｂを高速で再生するに際して、ユーザがそのような音を聞きたくない場合には、音声再生はミュートすることによって無音状態にする、或いは、再生時の音量を小さくすることが考えられる。

区間Ａの再生速度、区間Ｂの再生速度及びその再生時の音量に関して、最も簡単な実施方法は、動画早見再生処理（ステップＳ107）において、予め音声をどう処理するかを決めておく他、その再生速度を、ユーザが可変で設定可能とする方法が存在する。

しかし、一般に、例えば老人や子供等のユーザにとっては各種装置を使いこなすことは容易なことでななく、速い速度の音声再生が行われた場合にはその内容理解が難いことが知られており、面倒な速度調整を行わず且つ簡易に、やや低い倍率の倍速再生することが好ましい。これと同様に、年齢に関わらず視力の弱いユーザ（視覚障害者）、特に動体視力や聴力、特に早い音声の聴力の弱いユーザの弱いユーザ（聴覚障害者）、或いは再生される音声を母国語としない外国のユーザ等にとっても、速い速度の音声再生が行われた場合にはその内容理解が難いことが知られており、これらのユーザにとって最適な再生速度もある。

そこで、本実施形態では、ユーザの年齢や言語や理解できる言語や視力や聴力等の情報、更には個々のユーザが好む基準の再生条件等のユーザに関する属性情報を、ユーザ・プロファイル１４に予め記憶しておき、動画早見再生処理（ステップＳ107）において、そのプロファイル１４を参照することにより、対象となるユーザに応じて、人間の発声期間を表わす音声区間（区間Ａ）および人間の発声区間を除く区間（区間Ｂ）の再生速度をそれぞれ決定し、個人に応じた内容理解が容易な動画早見再生を行うことが可能となる。

また、上述したように、区間Ｂの高倍率な倍速再生時に、音声のミュート或いは音量を小さくする場合にも、係る設定をプロファイル１４に予め記述しておくことにより、個々のユーザに応じた快適な動画早見再生を行うことが可能となる。

更に、高齢者および動体視力にハンディキャップのあるユーザに関しては、本来の早見再生という観点からは外れるかもしれないが、区間Ａの再生速度を等倍速度より遅く設定すると共に、区間Ｂの再生速度は等倍速度以上に設定することにより、係るユーザが区間Ａの音声内容を把握可能な低速再生を行いながらも、全体としては全ての区間を低速再生する場合と比較して短い所要時間で、動画（即ち、動画データ記憶部１０に格納されている動画データ）を閲覧することが可能となる。

また、早い音声の内容理解にハンディキャップのあるユーザおよび音声内容の言語に堪能でないユーザに関しては、本来の早見再生という観点からは外れるかもしれないが、区間Ａの再生速度を等倍速度より遅く設定すると共に、区間Ｂの再生速度は10倍速まで、望ましくは5倍速以上とし、係るユーザが区間Ａの音声内容を把握可能な低速再生を行いながらも、全体としては全ての区間を低速再生する場合と比較して短い所要時間で、動画（即ち、動画データ記憶部１０に格納されている動画データ）を閲覧することが可能となる。ここで、音声内容の言語に堪能か否かの判断は、上述したプロファイル１４に予め記憶した識別情報（後述する表４では得意言語）と、再生対象の動画に含まれる音声の言語種類情報とを比較することによって行なえば良い。

ユーザ・プロファイル１４を選択する手順としては、例えば、ディスプレイ１２に表示されたプロファイル選択画面にユーザ・プロファイルリストを表示し、その中から、ユーザによるリモコン端末（不図示）の操作に応じて選択することが考えられ、更に指紋や声紋や顔認識等の個人認識技術を用いた自動的なプロファイル選択方法を採用しても良い。

ところで、上記の如く個々のユーザにとって最適な早見再生を行う場合に、果たして元々どの長さの動画がどの位の時間で早見できるかは、空き時間を活用して早見を行おうとしているユーザにとって重要な情報である。

そこで、本実施形態では、ステップＳ108において、区間Ａのトータル長を再生速度で割ることによって区間Ａの再生時間を計算すると共に、区間Ｂについては、当該トータル長を再生速度で割ることによって区間Ｂの再生速度を計算し、早見に要する時間として、算出したこれら２つの値の和を求め、元の動画を等倍再生する場合の所要時間と共にユーザに提示する。更に、これらの再生時間をユーザが見た上で、所望の再生時間内に収まるように、区間Ａの再生速度や区間Ｂの再生速度を指定することにより、ユーザ所望の再生時間に近くなるように調節することが可能である。

ところで、予め設定されたユーザのプロファイル１４と、ユーザが指示した所望の再生速度との関連であるが、上記の如くステップＳ108においてプロファイル１４を用いて自動的に算出された動画早見再生に要する時間を見たユーザが、所定のマンマシン・インタフェースを介して、ステップＳ109において、更に、区間Ａおよび区間Ｂの再生速度を指定することにより、所望の動画早見再生に要する時間（再生速度情報）を設定した場合には、設定された所要時間内に納めるべく、自動的、或いはユーザに確認を行った上で、係る設定された再生速度情報を新たにプロファイルに記憶することにより、前回の操作情報を反映しつつ個々のユーザの好みに応じた理解の容易な動画早見再生を行うことが可能となる。

また、上述したユーザ・プロファイルに、更に、区間Ｂの再生時の音量をどう処理するかを予め指定しておく、或いは所定のマンマシン・インタフェースを介してユーザが指定した場合には、その指定された音量情報を反映しつつ個々のユーザの好みに応じた理解の容易な動画早見再生を行うことが可能となる。

＜動画再生装置の動作の詳細＞
以下、上記の如く概説した本実施形態に係る動画再生装置の動作の詳細について説明する。以下の説明では、動画データ記憶部１０に記憶された録画済の動画データ（音声信号及び副情報を含む動画データ）に対して早見再生を行うためのインデックスとして早見再生区間情報を作成し、作成したその情報を利用して、当該動画データの早見再生を行う場合を例に説明する。

本実施形態では、上述したように、ステップＳ101の映像／音声分離処理を経た後処理として、大別して、動画早見インデックス作成部１００による動画早見インデックス作成処理と、動画早見再生部２００による動画早見再生処理とがある。

本実施形態における音声・副情報付き動画データは、映像情報、音声情報、並びに副情報が多重化されたコンテンツであり、このような情報形態のメディアとしては、例えば、ＤＶＤやデジタルテレビ放送等が挙げられる。

本実施形態において、副情報とは、動画のセグメント情報、シーンチェンジ情報、字幕に関する情報、時間情報等のように、映像や音声そのものとは異なる各種の情報である。

本実施形態において、以下の説明では、係る副情報として、「人の発生内容に関する情報」を利用するが、この他にも、例えば、字幕、クロ−ズキャプション等があり、更に、人が発した音声の認識結果から得られる音素列表記等を採用することができる。

ここで、字幕やクロ−ズキャプションは、聴覚障害者や自分が聴いている言語が理解できない者でもコンテンツの内容を楽しめるように、映像信号と同期して、人の発した音声内容に対応してオーバーレー表示するためのものであり、このような副情報を含むコンテンツは、その提供に先立って、人手により、或いは自動または半自動的に、人の発声期間を表わす音声区間（区間Ａ）が決定されると共に、決定された個々の音声区間における人の発声内容は、人手によって及び／または音声認識処理を施すことによって、当該コンテンツに付加的な情報（本実施形態では「副情報」）として記述されるのが一般的である。

また、このようなコンテンツにおいて、そのコンテンツオリジナルな人の発した音声内容とは異なる言語種類の字幕またはクロ−ズキャプションは、上記の如く当該コンテンツに記述された副情報を、更に、人手及び／または自動翻訳によって目的とする言語に翻訳した後、追加的に記述されるのが一般的である。

そして、このような字幕やクロ−ズキャプション等の副情報は、一般に、動画再生時の表示期間を表すための区間情報を伴っており、この区間情報は、人の音声区間（区間Ａ）を表わすと捉えることができる。

そこで、本実施形態では、上記のような形態の副情報を含む音声・副情報付き動画データを対象として、その動画データに含まれる人の音声区間（区間Ａ）を検出する。

＜動画早見インデックス作成部１００＞
（人の音声区間の検出）
図２は、本実施形態において、動画早見インデックス作成部１００にて行われる人の音声区間の検出処理の概略を示すフローチャートであり、上述した音声区間読み込み処理（ステップＳ102）の詳細な手順を表わす。

同図において、ステップＳ201では、上述したステップＳ101における映像／音声／副情報分離処理が施された動画ストリームで未だ読み込んでいないものがあるかを判断し、全て読み込み済みの場合には本処理を終了する。

ステップＳ202では、ステップＳ201にて未だ読み込んでいない動画ストリームが存在すると判断されたので、その動画ストリームをバッファ（不図示）に読み込み、ステップＳ203では、読み込んだ動画ストリームに含まれる副情報から、「人の発生内容に関する情報」として、字幕、クロ−ズキャプション、音声認識の結果得られる音素列表記、或いは音声検出結果情報をシークし、その結果得られる情報を、人の音声区間（音声区間情報）として設定する。

ここで、読み込まれた情報の中からステップＳ203において音声区間情報として何れのものを選択するかは、存在するこれらの情報の中でその内容の確度が高いものから選べば良く、例えば字幕＞クロ−ズキャプション＞音素列表記＞音声検出結果情報の順位で選択すれば良い。

表１は、音声区間情報として読み込んだ副情報を例示する表であり、この例では、区間Ａとして、発音区間０乃至２に関して、個々の区間の開始時刻（始点）と終了時刻（終点）とが対の情報として読み込まれている。

（人の音声区間の補正）
上述した音声区間補正処理（ステップＳ103）の詳細について説明する。ステップＳ103では、動画早見再生時に再生音声を聴いたユーザが不快感を抱かないように、時間軸上で近傍に位置する複数の音声区間を１つの音声区間として統合することによる補正が行われる。

ここで、上述した音声区間の検出処理（図２）によって取得した音声区間情報の補正を行なう理由は、例えば、時間軸上で近傍に位置する２つの区間Ａの間隔が狭い場合に、区間Ａを聞いて人が内容を把握できる速度で音声を伴う倍速再生を行なう一方で、区間Ｂに対しては、再生映像を見て人が内容を把握できる範囲で高倍率な倍速で再生を行うと、再生態様の変化が激しく、ユーザにとって聞き苦しいものとなるからである。

また、動画デコーダおよび再生処理の面からも、短い区間での速度の変化は、処理のオーバーヘッドが大きく、再生動作が一時的に停止状態になり、ギクシャクした再生になることが、一例として、マイクロソフト社のDirectShowを用いた本願出願人による実験において観察されている他、他の多くの動画再生手段で同様の現象が見られる。

そこで、本実施形態では、時間軸上で最も近傍に位置する２つの音声区間（区間Ａ）の間隔があるしきい値（図３ではＴｈ３）以下である場合には、これらの音声区間を統合することによる補正を行う。このしきい値を決めるに当たっては、例えば、会話を行うシーンを想定し、会話が成り立つ程度の間を実験的に求め、それをしきい値に用いる。この場合の処理の手順を、図３を参照して説明する。

図３は、本実施形態において間隔の短い音声区間に対して行われる統合補正処理を示すフローチャートである。

同図において、ステップＳ301では、先に検出された複数の区間Ａのうち、時間軸上で最初に位置する区間Ａを、着目する音声区間として読み込むが、着目すべき音声区間が無ければ本処理は終了する。

ステップＳ302では、次に着目する音声区間（区間Ａ）が存在するかを判断し、着目すべき音声区間が無ければ本処理を終了し、一方、まだ存在する場合には、以下に説明するステップＳ303乃至ステップＳ307の処理を繰り返す。

ステップＳ303では、ステップＳ302にて次に着目する音声区間が存在すると判断されたので、その音声区間（区間Ａ）を表わす音声区間情報を読み込む。ここで、音声区間情報とは、音声区間の開始点と終点とが対となった情報である。

ステップＳ304では、２つの区間Ａの間隔、即ち、時間軸上で先の音声区間（現在着目している音声区間）の終点と、次の音声区間の開始点との間の距離（時間間隔）を求め、この距離が所定のしきい値Ｔｈ３以下であるかを判断する。

ステップＳ305では、ステップＳ302にて２つの区間Ａの間隔が所定のしきい値Ｔｈ３以下であると判断されたので、これら２つの音声区間を、１つの音声区間に統合する。より具体的に、統合された音声区間の音声区間情報には、本ステップにおける処理によって、先の音声区間の開始点が設定されると共に、次の音声区間の終点が設定される。

ステップＳ306では、統合された音声区間を、現在着目する音声区間（区間Ａ）として設定し、ステップＳ302に戻る。

ステップＳ307では、ステップＳ302にて２つの区間Ａの間隔が所定のしきい値Ｔｈ３より大きいと判断されたので、現在着目する音声区間を、そのまま１つの補正した音声区間情報として記憶すると共に、ステップＳ308では、次の音声区間を、処理対象として着目すべき音声区間として設定し、ステップＳ302に戻る。

このような統合処理が、扱うべき音声区間（区間Ａ）がなくなるまで繰り返される。

（シーンチェンジ点情報を利用した人の音声区間の補正）
一般に、音声信号を含む動画データに映像の変わり目が存在し、その直後に区間Ａが始まる場合には、動画再生に際して、ほんの一瞬高速でシーンの先頭部分の映像が再生された後で、音声を伴う倍速再生による再生映像が、人が聞いて把握できる速度で行われるため、ユーザにとって映像がちらついたような違和感が生じる。

そこで、本実施形態では、例えば、本願出願人による先行する特開２０００−２３５６３９号公報に開示されたシーンチェンジ点の検出技術を採用することにより、ステップＳ107にて検出したシーンチェンジ点群、或いは、ステップＳ105にて副情報から読み出されたシーンチェンジ点群のうち、音声区間補正処理後の音声区間の先頭よりも時間的に早く、最も近傍で、且つその距離があるしきい値以下であるシーンチェンジ点が存在する場合には、その音声区間の先頭を、該シーンチェンジ点に対応する情報に置き換える補正を行なうことにより、早見再生時のユーザの違和感を取り除く。その際、近傍判定のためのしきい値は、高速再生の状態から人が聞いて内容が把握できる程度の速度で音声を伴う倍速再生へ移行する際のオーバーヘッドに応じた値である。

図４は、本実施形態においてシーンチェンジ点を用いて行われる音声区間統合補正処理を示すフローチャートであり、早見再生区間補正処理（ステップＳ104）の詳細を表わす。

同図において、まずステップＳ401では、シーンチェンジ点検出処理（ステップＳ107）にて検出されたシーンチェンジ点群（シーンチェンジ点情報またはシーンチェンジ位置情報）から、時間軸上で先頭となるシーンチェンジ点（Ａ）を読み込む。

シーンチェンジ点情報は、通常はフレーム単位で記述されるが、本ステップでは、フレームレートに基づいて時間情報に変換した後、音声区間情報と比較することになる。即ち、本実施形態のアルゴリズムでは、音声区間の開始点から最も近傍のシーンチェンジ点を求めるために、連続する２つのシーンチェンジ点情報を用いることにし、ここでは、説明の便宜上、先のシーンチェンジ点をＡ、次のシーンチェンジ点をＢとして、ステップＳ401では、Ａの方へシーンチェンジ点の時間を記憶する。

ステップＳ402では、読み込んでない音声区間情報があるかどうかを判断し、無い場合には処理を終了し、読み込んでない音声区間情報がある場合にはステップＳ403において音声区間情報を１つ読み込む。

ステップＳ404では、未だ読み込んでないシーンチェンジ点情報があるかどうかを判断し、無い場合には、ステップＳ403にて既に読み込んである音声区間情報を、ステップＳ405において、そのまま補正済の音声区間情報として更新記憶する。

ステップＳ406では、ステップＳ404にて読み込んでないシーンチェンジ点情報があると判断されたので、そのシーンチェンジ点情報を、シーンチェンジ点情報Ｂとして読み込む。

ステップＳ407では、シーンチェンジ点Ａが、時間軸上において、ステップＳ403にて読み込んだ現在着目する音声区間の始点より前に位置するかどうか判断し、前に位置する場合には、ステップＳ405において、補正の必要は無いとして音声区間情報をそのまま補正済音声区間情報として更新記憶する。

ステップＳ408では、ステップＳ407にてシーンチェンジ点Ａが現在着目する音声区間の始点より前に位置すると判断されたので、そのシーンチェンジ点Ａが当該音声区間の始点としきい値Ｔｈ４以内の距離に存在するかどうかを判断し、当該しきい値Ｔｈ４以内ではない場合には、ステップＳ409において、シーンチェンジ点Ｂの情報を、シーンチェンジ点Ａへコピーすることにより、次のシーンチェンジ点を判断対象とする準備を行う。

ステップＳ410では、ステップＳ408にてシーンチェンジ点Ａが現在着目する音声区間の始点と当該しきい値Ｔｈ４以内の距離に存在すると判断されたので、シーンチェンジ点Ｂが当該音声区間の始点よりも後ろに位置するかを判断し、後ろに位置しない場合にはステップＳ409に進む。

一方、ステップＳ410にてシーンチェンジ点Ｂが当該音声区間の始点よりも後ろに位置すると判断された場合には、ステップＳ411において、シーンチェンジ点Ａが開始点であり、当該音声区間の終点が終点である部分区間を、補正済の音声区間情報として更新記憶し、ステップＳ412では、シーンチェンジ点Ｂの情報を、シーンチェンジ点Ａにコピーすることにより、次のシーンチェンジ点を判断対象とする準備を行う。

即ち、上述したステップＳ407、ステップＳ408、並びにステップＳ410の判断によって、シーンチェンジ点Ａが現在着目する音声区間の始点の前に位置すると共に、当該しきい値Ｔｈ４以下の近傍であり且つ、最も音声区間の始点に近い点であることが確かめられて初めて、上記のステップＳ411及びステップＳ412の処理が行われる。

また、ステップＳ410にてシーンチェンジ点Ｂが当該音声区間の始点よりも後ろではないと判断された場合、当該シーンチェンジ点Ｂは、現在設定されているシーンチェンジ点Ａよりも補正済音声区間の始点候補として更にふさわしいと判断できるので、ステップＳ409において、当該シーンチェンジ点Ｂの情報を、新たなシーンチェンジ点Ａとしてコピーすることにより、次のシーンチェンジ点を判断対象とする準備を行ない、その後でステップＳ404の処理に戻る。但し、この場合のシーンチェンジ点Ａは、既にステップＳ407およびステップＳ408の要件を満たしているので、ステップＳ407とステップＳ408とをパスしてステップＳ410の判断をいきなり行っても構わない。

上述した音声区間統合補正処理（図４）の手順によって取得した補正済の音声区間情報は、早見再生区間情報として、表２に例示するようなスキーマで、動画早見インデックス記憶部１１に記憶される。

表２は、本実施形態におけるシーンチェンジ検出結果を例示する表であり、一例として、シーンチェンジ点の検出を行ったフレームを、フレームレート（30枚/Sec）を元に秒換算した結果が格納されている。

そして、表３は、本実施形態における補正済の音声区間検出結果を例示する表であり、表２に示す結果と表１に示す結果とに基づいて、シーンチェンジ点を用いた音声区間の統合補正処理（図４）を、しきい値Ｔｈ４＝ 2000 mSecで施した場合の処理結果を示す。

表１及び表２を参照すると、音声区間０および音声区間２に対しては、それぞれの音声区間の開始点60000 mSec、400000 mSecの前で且つしきい値Ｔｈ４である2000 mSec以内の期間にはシーンチェンジは存在しない。また、音声区間１に対しては、開始点102000 mSecの1500 mSecの前で且つ2000 mSec以内には、シーンチェンジ点として、シーンチェンジＩＤ＝２（開始時間100000 mSec）と、シーンチェンジＩＤ＝３（開始時間101000mSec）の２点が存在するが、図４で示したアルゴリズムに従って最も近傍のものを選ぶことから、結果として、シーンチェンジＩＤ＝３の101000mSecが選ばれ、これが表３に反映されている。

＜動画早見再生部２００＞
動画早見再生部２００にて行われる動画早見再生処理（ステップＳ107）は、人の音声区間（区間Ａ）に対しては人が聞いて内容を把握できる速度で音声を伴う倍速再生を行なう一方で、人の音声区間ではない区間（区間Ｂ）に対しては、再生映像を人が見て内容が把握できる範囲で高い倍率の倍速で再生を行う。

近年、動画再生環境が整い、例えばマイクロソフト社の DirectShowモジュールを用いると、任意区間の速度を指定して連続再生することが可能である。このような機能を持つモジュールを用いることで、比較的簡易に任意区間の再生速度の変化を実現することが可能であり、その際、重要なのは、何の観点で速度を変化させるかである。

図５は、本実施形態における動画早見再生処理を示すフローチャートである。

同図において、ステップＳ601では、先に上述したユーザ・プロファイル１４の中からユーザが所望のものを選択するが、その具体的な手順としては、例えば、ディスプレイ１２に図８に例示するようなユーザ・プロファイルリストを含む表示画面を表示し、その中からユーザがリモコン端末等を利用して、所望のプロファイルを選択すれば良い。

即ち、図７に示すユーザ・プロファイルリストにおけるユーザ所望のプロファイルの指定は、例えばリモコン端末にプロファイル選択用の操作ボタンを設けておき、これをユーザが押下するのに応じて、図９に例示するようなメニュー表示画面が表示され、その画面を見ながら、リモコン端末のプロファイル選択用の操作ボタンを利用して、ユーザが所望のプロファイルを指定する。もちろんユーザ・プロファイルの選択には、指紋や声紋や顔認識等の個人認識技術を用いた自動的なプロファイル選択方法も考えられ、こちらの方が常に正しいプロファイルの指定が可能なため、プロファイルの指定の誤りを起こしたり、他人のプロファイルを変更したり内容を覗く等のトラブルを防げる。

また、ユーザ・プロファイルを新規に登録する場合には、図７の表示画面において「新規登録」ボタンをポインタデバイスで指定すると、プロファイル名およびその他の属性を入力するための、図８に例示する表示画面が現れる。

即ち、図８は、ユーザ・プロファイル登録用の表示画面を例示する図であり、初期状態では、識別名と年齢以外の内容が基準値で埋められており、ユーザによる入力操作によってユニークな識別名と年齢の入力変更の必要がある個所のみが変更され、所定の入力値範囲の適正チェックをパスした後、ユーザが「ＯＫ］ボタンを押下するのに応じて、そのプロファイルがユーザ・プロファイル１４に新たに追加登録される。

また、ユーザが所望のプロファイルの内容変更を希望する場合、図７に示す表示画面において「変更」ボタンを押下し、図９に示す表示画面において所望のプロファイルを選択するのに応じて表示される図８の表示画面において、変更を希望する項目の情報内容を変更した後、「ＯＫ］ボタンを押下すれば良い。

更に、ユーザが所望のプロファイルの削除を希望する場合、図７に示す表示画面において「削除」ボタンを押下し、図９に示す表示画面において所望のプロファイルを選択し、その後、「ＯＫ］ボタンを押下すれば良い。

尚、上述した図７及び図８に示す表示画面において、「キャンセル」ボタンが押下された場合には、それまでの選択操作や入力操作に対応する処理（プロファイルの登録、変更、削除）はなされることなく処理が終了する。

次に、ステップＳ602では、ステップＳ601にて選択されたプロファイルが、ユーザ・プロファイル１４に存在するかを判断し、存在する場合には、ステップＳ603において対象となるプロファイルをユーザ・プロファイル１４から読み込み、存在しない場合には、基準値として予め設定されているところの、区間Ａおよび区間Ｂの再生速度、並びに区間Ｂの再生時の音量を、ステップＳ606において読み込む。ここで、ユーザ・プロファイルのデータスキーマ一の一例を、表４に示す。

表４は、本実施形態におけるユーザ・プロファイルを例示する表である。基準値は、プロファイルＩＤ＝０に示すように記憶しておけば良く、この場合、区間Ａの再生速度は1.5倍速、区間Ｂの再生速度は10.0倍速、そして、区間Ｂ再生時の音量の基準値は０（即ち音声ミュート）である。上述したユーザ・プロファイルの新規登録時に用いられる基準値には、この値を用いる。

また、表４のユーザ・プロファイルのデータスキーマ一において、None とは値が設定されていないことを表し、逆に値が設定されている場合は、その値を最優先して再生を行う。更に、表４において、視力や聴力の欄の Good と Poorは、その人の年齢に無関係な、動体視力や早い音声の聴力の能力を表わす。

一般に、高齢になるほど耳が聞こえにくくなる他、言葉を理解する速度の低下が見られることが多く、また子供は言語能力が未発達のために速い速度で音声再生を行なうと理解できなくなることが多い。

これらの事情を踏まえて、健常者の年齢に適した区間Ａの再生速度、並びに区間Ｂの再生速度のテンプレートを予め用意しておき、ユーザ・プロファイル１４に記憶された年齢に基づき、これらの速度を決定する。

しかし、青年にも関わらず動体視力や早い音声の聴力の弱い人や、外国人のため母国語とは異なる言語（例えば日本語）速い速度で音声再生を行なうと理解が追いつかない等、年齢に無関係な原因がある場合もある。このため、本実施形態では、表４に例示するユーザ・プロファイルのように、視力および聴力の特性を記述しておき、これらの設定があればこちらを優先して、区間Ａの再生速度、並びに区間Ｂの再生速度を低めに決定する。

このような場合、高齢者および動体視力の弱いユーザに関しては、本来の早見再生という観点からは外れるかもしれないが、人の音声区間（区間Ａ）の再生速度を等倍速度より遅い速度に決定し、人の音声区間ではない区間（区間Ｂ）の再生速度を等倍速度以上とすることにより、係るユーザが区間Ａの音声内容を把握可能な低速再生を行いながらも、全体としては全ての区間を低速再生するよりも速い時間で動画を閲覧することが可能となる。

また、早口の音声に対する聴力の弱いユーザおよび外国人のため早口の日本語等では理解が追いつかないユーザに関しては、区間Ａの再生速度を等倍速度より遅い速度に決定し、区間Ｂの再生速度に関しては、その年齢の健常者と同じ再生速度とすることにより、区間Ａの音声内容を把握可能な低速再生を行いながらも、全体としては全ての区間を低速再生するよりも速い時間で動画を閲覧することが可能となる。

このように、本実施形態では、ユーザ・プロファイルに対する速度決定処理は、予め健常者における年齢に適した区間Ａの再生速度および区間Ｂの再生速度のテンプレート、動体視力や早い音声の聴力の弱い症状、外国人のため早口の日本語では理解が追いつかない状況を加味して総合的な判断を行う。

また、本実施形態において、音声内容の言語に堪能か否かの判断は、ユーザ・プロファイル１４に記憶されている堪能であるか否か、或いは母国語を特定する言語種別情報と、再生対象の動画に含まれる音声内容の言語種別情報とを比較することにより行う。近年、ＤＶＤ等のデジタルコンテンツや、デジタルＢＳ等のデジタルメディアには、音声内容の言語を特定する言語種別情報が記憶されており、また近年ＥＰＧ（電子番組表）等から番組内容が電子的に入手可能であるため、これらの情報を用いることは現実的である。また、これらの情報が入手できない場合であっても、地上波ＴＶ番組でも標準設定では母国語、２カ国音声では通常メイン音声が母国語であり且つサブ音声は外国語であるため、これらの経験則に基づいて推定すれば良い。

ステップＳ604では、ステップＳ603にて読み込んだユーザ所望のプロファイルに基づいて、区間Ａの再生速度と、区間Ｂの再生速度とを決定する。ここで、本ステップにおける処理の詳細を、図６を参照して説明する。

図６は、本実施形態における動画早見再生処理を示すフローチャートのうち、ステップＳ604（図５）の処理の詳細を示すフローチャートである。

同図において、まずステップＳ601では、ユーザ・プロファイル１４から先にユーザによって選択されたプロファイルを読み込み、ステップＳ602では、読み込んだプロファイルから取得したユーザの年齢に従って、健常者の年齢に応じた最適な区間Ａの再生速度と、区間Ｂの再生速度とが設定されているテンプレートを参照することにより、そのユーザに対する区間Ａの再生速度と、区間Ｂの再生速度とを仮決定する。

ステップＳ603では、ステップＳ601にて読み込んだプロファイルに、動体視力が弱いと記述されているかを判断し、その旨が記述されている場合には、ステップＳ604において、区間Ａの再生速度と、区間Ｂの再生速度とを両方とも基準値より低い値に更新する。従って、この値も、予めプロファイルに記憶しておくのが望ましい。

ステップＳ605では、ステップＳ603にて当該プロファイルに動体視力が弱いとは記述されていないと判断されたので、当該プロファイルに、速い音声の聴力が弱いと記述されているかを判断し、その旨が記述されている場合には、ステップＳ606において、区間Ａの再生速度のみ低い値に更新する。従って、この値も、予めプロファイルに記憶しておくのが望ましい。

ステップＳ607では、ステップＳ605にて当該プロファイルに速い音声の聴力が弱いとは記述されていないと判断されたので、再生すべき動画データに含まれる音声内容の言語種別情報が入手可能であるかを判断し、入手可能である場合にはステップＳ608に進み、入手不可能な場合には処理を終了する。

ステップＳ608では、再生すべき動画データに含まれる音声内容の言語種別情報を入手すると共に、入手した言語種別情報と、現在選択されている当該プロファイルに記述された得意言語情報とを比較し、これら２種類の情報が一致する場合には処理を終了し、一致しない場合には、ステップＳ609において、区間Ａの再生速度のみ低い値に更新する。従って、この値も、予めプロファイルに記憶しておくのが望ましい。

即ち、図６に示す一連の処理では、ステップＳ603、ステップＳ605、並びにステップＳ608のどれにも当たらない場合には、ステップＳ602において仮決定された区間Ａの再生速度、並びに区間Ｂの再生速度がそのまま採用されることになる。

もし、高齢や若年にもかかわらず動体視力や早い音声の聴力が優れている場合や、逆に劣っている場合には、区間Ａの再生速度および区間Ｂの再生速度の変更メニューを用いて、これらの値を変更操作できるように構成すると良い。この場合、ユーザは、再生映像を見ながら、区間Ａの再生速度および区間Ｂの再生速度を適宜変更し、自動的、或いはユーザに確認を求めた上で、設定された再生速度情報を、当該ユーザに対応するプロファイルに記憶することにより、前回の操作情報を反映しつつ個々のユーザに応じた理解しやすい動画早見再生を行うことが可能となる。

尚、上述したプロファイルを用いずに簡易に行うのであれば、例えば、ステップＳ601乃至ステップＳ604、並びにステップＳ606の各ステップにおける処理の代わりに、区間Ａの再生速度を0.5倍速から2倍速まで、区間Ｂの再生速度を2倍速から10倍速までの間で、ユーザが動作メニューを利用して可変設定可能に構成する実施形態が想定される。

ところで、区間Ｂを高倍率で倍速再生すると、「キュルキュル」という音が出るが、その音を聞きたくない場合には、区間Ｂの再生時には、音声再生はミュート状態とすることによって音を出なくする、或いは、小さな音量に変更する実施形態が想定される。このような設定に関しても、ステップＳ603で読み込んだプロファイルに予め記述しておき、動画早見再生時には、係るプロファイルを最優先とし、ステップＳ602でプロファイルが存在しないと判定された場合には、ステップＳ606では予め設定されている基準の音量を採用する。もちろん更に簡易に行うのであれば、例えば、動画早見再生処理が予め区間Ｂの音声再生レベルをどう処理するか予め決めておく実施形態が想定される。

上記のような構成により、本実施形態では、区間Ａの再生速度および区間Ｂの再生速度、或いはそれら両方、並びに区間Ｂの音声レベルの指定を、ユーザ・プロファイルを用いることにより、個々のユーザに最適な再生を簡便に実現することが可能となる。

次に、ステップＳ605では、動画早見インデックス記憶部１１から、補正済み音声区間情報を読み込み、ステップＳ607では、区間Ａのトータル長を再生速度で割ることによって区間Ａの再生時間を計算し、区間Ｂについても同様にして再生速度を計算すると共に、これら２つの値を足すことによってユーザが早見に要する時間を算出する。そして、算出された早見に要する時間は、ディスプレイ２３等を利用してユーザに提示する。

ステップＳ608では、ステップＳ607にて早見再生時間を認識したユーザがその時間に満足しているか否かを、リモコン端末への入力操作等を利用して判断し、この判断でユーザが満足している場合には、ステップＳ610において、上述した処理によって設定された区間Ａおよび区間Ｂの再生速度、並びに区間Ｂの音声再生レベルに従って、動画データ記憶部１０に記憶されている再生対象の動画を再生する。

ステップＳ609では、ステップＳ608にてユーザが満足していないと判断されたので、ユーザ所望の再生時間に収まるように、区間Ａおよび区間Ｂの再生速度、並びに区間Ｂの音声再生レベルを変更可能なマンマシン・インタフェースを提供することにより、プロファイルや標準設定に満足できないユーザ自身が望む再生時間に近くなるように調節し、ステップＳ607に戻る。

また、ステップＳ609に対応する他の実施形態として、現在設定されている区間Ａおよび区間Ｂの再生速度に基づく動画再生を見ながら、それぞれの区間に対して、ユーザ所望の再生速度を変更可能に構成し、それに応じた早見に要する時間の算出及びその提示を行なうことにより、プロファイルや標準設定に満足できないユーザ自身が望む再生時間に近くなるように調節する構成も想定される。

ところでユーザ・プロファイルと、ユーザ所望の速度指示との関連であるが、ステップＳ607にて動画早見再生に要する時間を見たユーザが、所望の動画早見再生に要する時間に収めるべく、区間Ａおよび区間Ｂの再生速度を変更可能なマンマシン・インタフェースを用いて、これらの設定を調整・変更した場合には、その調整・変更後の値を、基準値として採用したいこともある。そこで、このような場合には、自動的、或いは図１０に例示する確認画面により、ユーザによる確認を促した後、「はい」が選択された場合には、ユーザによって調整・変更された再生速度情報を、当該ユーザに対応するプロファイルに記憶することにより、以降の動画再生に際しては、前回の操作情報を反映しつつ当該ユーザに応じた理解しやすい動画早見再生を行うことが可能となる。

尚、上述した実施形態において、算出された早見再生に要する時間をユーザが確認した上で、ユーザ所望の再生時間に収まるように、区間Ａの再生速度および区間Ｂの再生速度を変更することにより、プロファイルや標準設定に満足できないユーザが、自身が望む再生時間に近くなるように調節する構成例を挙げたが、この構成に限られるものではなく、例えば、ユーザが再生映像を見ながら、区間Ａの再生速度および区間Ｂの再生速度をそれぞれの変更可能に構成しておき、その設定に応じた早見に要する時間を再計算し、これをユーザに提示することにより、ユーザ自身が望む再生時間に近くなるように調節する実施形態も存在する。

また、本実施形態においては、音声区間情報を、始点と終点との対であるとして説明したが、始点とその区間長、或いは終点と区間長からなる情報であっても良い。

このように、上述した本実施形態によれば、映像と音声との同期関係は崩すことなく、動画早見再生時には、人の発した音声は全て内容を把握できる速度で再生する一方で、人の発した音声の含まれない区間（区間Ｂ）は、より高速に再生する。これにより、動画早見再生時のトータルの閲覧時間を、等倍再生を行なった場合と比較して合理的に減らすことが可能となる。

また、本実施形態によれば、区間Ａの再生速度および区間Ｂの再生速度を、ユーザ・プロファイル１４を用いることにより、個々のユーザに適した再生速度に簡便に設定可能であると共に、区間Ｂの再生時における音量も、ユーザに適したものに設定できる。

更に、本実施形態によれば、早見再生に要する時間を予め、或いは動画の再生中に表示することにより、これに満足できないユーザは、区間Ａの再生速度および区間Ｂの再生速度を指定することにより、当該ユーザに最適な早見再生に要する時間に調整することができ、調整によって設定された情報は、当該ユーザに対応するプロファイルに更新記憶することが可能であるので、次回の早見再生に際して適切な動画再生を行なうことができる。

（他の実施形態）
上述した各実施形態を例に説明した本発明は、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

尚、本発明は、前述した各実施形態において説明したフローチャートの機能を実現するソフトウェア・プログラムを、上述した動画再生装置として動作するシステム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。その場合、プログラムの機能を有していれば、形態は、プログラムである必要はない。

従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明のクレームでは、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。

プログラムを供給するための記録媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などがある。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷ(World Wide Web)サーバも、本発明のクレームに含まれるものである。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。

本実施形態に係る動画再生装置における動画早見アルゴリズムの概念図を表す図である。本実施形態において、動画早見インデックス作成部１００にて行われる人の音声区間の検出処理の概略を示すフローチャートである。本実施形態において間隔の短い音声区間に対して行われる統合補正処理を示すフローチャートである。本実施形態においてシーンチェンジ点を用いて行われる音声区間統合補正処理を示すフローチャートである。本実施形態における動画早見再生処理を示すフローチャートである。本実施形態における動画早見再生処理を示すフローチャートのうち、ステップＳ604（図５）の処理の詳細を示すフローチャートである。ユーザ・プロファイル選択用の表示画面を例示する図である。ユーザ・プロファイル登録用の表示画面を例示する図である。本実施形態におけるユーザ・プロファイルの例を示す図である。提示された動画早見再生に要する時間に満足しないユーザが設定変更をした場合に、調整・変更された値を次回以降の動画再生時に基準値として用いるか確認を促す表示画面を例示する図である。

Claims

音声信号と副情報とを含む動画データを高速に再生可能な動画再生装置であって、
前記動画データに含まれる副情報に基づいて、人の発声期間を表わす第１音声区間と、それ以外の第２音声区間とを判定する判定手段と、
前記動画データに基づいて、前記第１音声区間は、ユーザが内容を把握可能な所定の速度で、再生音声を伴う高速動画再生を行なう一方で、前記第２音声区間は、前記所定の速度より高速に、高速動画再生を行なう早見再生手段と、
を備え、
前記早見再生手段は、前記動画再生装置の利用が可能なユーザを対象として、個々のユーザに関する属性情報が登録されたユーザ・プロファイルを参照し、特定のユーザに関する属性情報に従って、前記第１及び第２音声区間の再生速度を決定することを特徴とする動画再生装置。
前記ユーザ・プロファイルには、前記個々のユーザに関する属性情報として、年齢、言語、動体視力、並びに早い音声の聴力のうち少なくとも何れかが含まれることを特徴とする請求項１記載の動画再生装置。
前記早見再生手段は、
前記特定のユーザに関する属性情報に従って自動的に決定したところの、前記第１音声区間の長さおよびその区間の再生速度と、前記第２音声区間の長さおよびその区間の再生速度とに基づいて、前記高速動画再生に要する所要時間を算出すると共に、算出した所要時間を該ユーザに提示すると共に、その所要時間を提示するのに応じて、前記第１及び第２音声区間の再生速度の変更操作がユーザによって行われた場合に、その変更後の再生速度に基づいて、前記所要時間を調整する調整手段を含む
ことを特徴とする請求項１または請求項２記載の動画再生装置。
前記調整手段は、前記変更後の第１及び第２音声区間の再生速度を、前記特定のユーザに関する属性情報と関連づけして、前記ユーザ・プロファイルに記憶し、
前記早見再生手段は、前記高速動画再生に際して、前記ユーザ・プロファイルに記憶された変更後の第１及び第２音声区間の再生速度を反映する
ことを特徴とする請求項３記載の動画再生装置。
前記早見再生手段は、
前記第２音声区間の再生態様に関する情報がユーザによって指定された場合に、前記ユーザ・プロファイルに記憶された該ユーザに関する属性情報に対して、該再生態様に関する情報を関連づけして、前記ユーザ・プロファイルに記憶すると共に、前記高速動画再生に際して、前記ユーザ・プロファイルに記憶された前記第２音声区間の再生態様に関する情報を反映する
ことを特徴とする請求項１記載の動画再生装置。
前記早見再生手段は、
前記ユーザ・プロファイルに登録された前記ユーザに関する属性情報に、高齢者、視覚障害者、或いは聴覚障害者であることを示す識別情報が含まれる場合に、その識別情報に対応するユーザを対象として前記高速動画再生を行なうに際して、前記第１音声区間の再生速度は前記等倍速度より遅くし、前記第２音声区間の再生速度は前記等倍速度より速く行なう
ことを特徴とする請求項１記載の動画再生装置。
前記早見再生手段は、
前記ユーザ・プロファイルに登録された前記ユーザに関する属性情報に、そのユーザの言語を示す識別情報が含まれ、その識別情報と、前記動画データに含まれる言語種別情報とが一致しない場合には、その識別情報に対応するユーザを対象として前記高速動画再生を行なうに際して、前記第１音声区間の再生速度は前記等倍速度より遅くし、前記第２音声区間の再生速度は５倍速ないし１０倍速で行なう
ことを特徴とする請求項１記載の動画再生装置。
前記ユーザ・プロファイルには、前記動画再生装置の利用が可能な複数のユーザを対象として、個々のユーザに関する属性情報が登録されており、
前記早見再生手段は、特定のユーザの選択操作に応じて、または個人認識技術に基づいて、その特定のユーザに関する属性情報を、前記ユーザ・プロファイルから取得する
ことを特徴とする請求項１記載の動画再生装置。
音声信号と副情報とを含む動画データを高速に再生可能な動画再生方法であって、
前記動画データに含まれる副情報に基づいて、人の発声期間を表わす第１音声区間と、それ以外の第２音声区間とを判定する判定工程と、
前記動画データに基づいて、前記第１音声区間は、ユーザが内容を把握可能な所定の速度で、再生音声を伴う高速動画再生を行なう一方で、前記第２音声区間は、前記所定の速度より高速に、高速動画再生を行なう早見再生工程とを備え、
前記早見再生工程は、前記動画再生装置の利用が可能なユーザを対象として、個々のユーザに関する属性情報が登録されたユーザ・プロファイルを参照し、特定のユーザに関する属性情報に従って、前記第１及び第２音声区間の再生速度を決定することを特徴とする動画再生方法。
請求項９に記載の動画再生方法をコンピュータに実行させるためのコンピュータ・プログラム。