JP2007171267A - 連続メディアデータ短縮再生方法、複合メディアデータ短縮再生方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 - Google Patents

連続メディアデータ短縮再生方法、複合メディアデータ短縮再生方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP2007171267A
JP2007171267A JP2005364929A JP2005364929A JP2007171267A JP 2007171267 A JP2007171267 A JP 2007171267A JP 2005364929 A JP2005364929 A JP 2005364929A JP 2005364929 A JP2005364929 A JP 2005364929A JP 2007171267 A JP2007171267 A JP 2007171267A
Authority
JP
Japan
Prior art keywords
media data
change amount
continuous media
data
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005364929A
Other languages
English (en)
Other versions
JP4648183B2 (ja
Inventor
Hiroshi Konishi
宏志 小西
Masashi Morimoto
正志 森本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005364929A priority Critical patent/JP4648183B2/ja
Publication of JP2007171267A publication Critical patent/JP2007171267A/ja
Application granted granted Critical
Publication of JP4648183B2 publication Critical patent/JP4648183B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Abstract

【課題】使用者が短時間で内容を概観、検索できるように了解性を保持したまま、より高圧縮な短縮再生を可能にする。
【解決手段】本発明は、入力された連続メディアデータをフレーム区間に分割し、各フレーム区間の特徴パラメータの変化量を計算し、特徴パラメータの変化量が所定の値より大きなフレームを抽出し、抽出されたフレームをクラスタリングし、クラスタリングしたクラスタ単位の変化量を計算し、クラスタ単位の変化量が所定の値より大きなクラスタのみを連結してデータを再構成し、連結された再構成データを出力する。
【選択図】図1

Description

本発明は、連続メディアデータを短縮再生する連続メディアデータ短縮再生方法、複合メディアデータ短縮再生方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、利用者が短時間で連続メディアデータの内容を概観・検索可能とするための連続メディアデータ短縮再生方法、複合メディアデータ短縮再生方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。
連続メディアを時間短縮して再生する方法を大別すると、連続メディア全体の内容をできるだけ損なわずに高速に再生することにより再生時間の短縮を図る「高速再生」、連続メディアを部分的に再生することにより再生時間の短縮を図る「部分再生」、部分再生の中でも、連続メディアの内容を意味的に解析し、意味的に重要な区間を抽出し、再生時間の短縮を図る「要約再生」がある。
映像は画像と音からなる複合メディアであり、画像は動画と静止画に分類される。本来、音は音声、音楽、音響等を包含するものであるが、ここでは、音声を音の意味を含むものとして使用する。特に、連続メディアに対する方法を説明するため、映像は動画と音声からなるものとして説明する。
連続メディアの代表例として音声があり、通常のテープレコーダ等の早送りでは、再生音の周波数が高くなり、2倍程度を限界にそれ以上の高速再生では内容を把握することが困難となる。これを改善するために、フレーム単位に分割し、等間隔や規則的に間引いたり、ピッチ周期を検出しピック区間波形単位で規則的に間引いたりすることにより、原音と同等の周波数で音を再生し、高速再生を可能とする手法が提案されている(例えば、特許文献1、特許文献2参照)。
また、音声特有の情報を用い、有音区間と無音区間とを検出し、無音区間を削除し、有音区間のみを再生する方法(例えば、特許文献1参照)や、検出された有音区間を更に母音区間、子音区間、母音区間と子音区間との間の遷移区間、及び、雑音区間に分類し、圧縮の度合いを変え、音声の劣化を少なくする装置(例えば、特許文献3参照)が提案されている。
しかし、これらの手法を用いても、再生速度は2〜3倍程度が限界となり、これ以上の速度では内容を把握することが困難になる。また、音声特有の情報を用いることは他の連続メディアには適用できないため、メディア毎に処理を分ける必要があり、複合メディア(例えば、音声と動画の複合である映像)の高速再生に適用する際等にも、処理が複雑化する欠点を伴っている。
他の連続メディアの例としては動画があり、通常のビデオレコーダ等の早送りのように再生周波数を上げたり、フレーム単位で等間隔や規則的に間引いたり、縮退させたりすることにより、高速再生を可能とする手法が提案されている。しかし、音声同様、ある速度以上の高速再生では内容を把握することが困難となる。
また、動画からある物理量(輝度変化量やカット点等)を抽出し、ある条件を満たす部分を取り出して短縮する手法が提案されている(例えば、特許文献4、特許文献5参照)。しかし、動画特有の情報を適用しているため、音声等の他のメディアに適用することはできない。
その他、動画と音声との組み合わせによる様々な短縮再生(高速再生、部分再生、要約再生)技術として、前述の組み合わせ、もしくは、その拡張した手法が提案されている(例えば、特許文献5、特許文献6、特許文献7参照)。しかし、これらも前述の手法と同様の欠点があったり、動画に主眼を置き、動画に付随した部分音声のみを再生するために、全体の流れの把握が困難であったりする。
これらの欠点を鑑みて、動画や音声に特化せず汎用的で統合しやすい枠組みで、再生速度を向上させる連続メディアの高速再生技術として連続メディアデータ高速再生方法、複合メディアデータ高速再生方法等が提案されている(例えば、特許文献8参照)。しかし、この方法を用いても、音声を含んだメディアの場合に、3〜5倍速程度の高速再生が限界であった。
特開平6−202691号公報 特開2000−259200号公報 特開平9−152889号公報 特開平4−237284号公報 特開平6−233227号公報 特開平8−116514号公報 特開2003−169298号公報 特開2005−204003号公報
上記の従来技術の連続メディアデータ高速再生方法等は、一定以上の再生速度に達すると連続メディアの最小構成単位(例えば、音声の場合は音韻、音節、単語、文節等に相当し、動画の場合は、動物体の動作等に相当する)が原形を留めない程縮退してしまうため、了解性が著しく低下し、内容がわからなくなる問題があった。例えば、音声の場合、3〜5倍速を超えると、音韻の欠落が多くなりすぎ、単語や文章として意味の概要を汲み取ることができなくなる。
また、複合メディアデータの高速再生方法等においては、各メディア間で同期したフレームの変化量を基に統合した変化量を計算するため、メディア数が増加すると、複合メディアとしての圧縮率に比べ、各メディア自体の局所的な圧縮率が高くなり、上記の問題点である最小構成単位が原形を留めない程縮退する状態に早く達してしまう問題があった。例えば、音声と動画の複合メディアの場合、全体として5倍速に設定しても、音声の局所的圧縮率が限界の5倍速相当を超えてしまい、音声の内容が聞き取れなくなる。
本発明は、以上のような従来技術の実情に鑑みてなされたもので、その目的は、使用者が短時間で内容を概観、検索できるように了解性を保持したまま、より高圧縮な短縮再生を可能にすると共に、音声や動画に特化せず、他の連続メディアや複合メディアにも適用できる連続メディアデータ短縮再生方法、複合メディアデータ短縮再生方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。
図1は、本発明の原理構成図である。
本発明(請求項1)は、連続メディアデータを短縮して再生する連続メディアデータ短縮再生方法であって、
メディア入力・特徴パラメータ変化量計算手段が、入力された連続メディアデータをフレーム区間に分割し、各フレーム区間の特徴パラメータの変化量を計算するメディア入力・特徴パラメータ変化量計算ステップ(ステップ1)と、
フレーム抽出手段が、特徴パラメータの変化量が所定の値より大きなフレームを抽出するフレーム抽出ステップ(ステップ2)と、
クラスタリング手段が、抽出されたフレームをクラスタリングするクラスタリングステップ(ステップ3)と、
クラスタ変化量算出手段が、クラスタリングしたクラスタ単位の変化量を計算するクラスタ変化量算出ステップ(ステップ4)と、
メディア再構成手段が、クラスタ単位の変化量が所定の値より大きなクラスタのみを連結してデータを再構成するメディア再構成ステップ(ステップ5)と、
出力手段が、連結された再構成データを出力する出力ステップ(ステップ6)と、
を行う。
また、本発明(請求項2)は、連続メディアデータが音声データまたは、動画データである。
本発明(請求項3)は、複数の連続メディアデータからなる複合メディアデータを短縮して再生する複合メディアデータ短縮再生方法であって、
メディア入力・特徴パラメータ変化量計算手段が、入力された各連続メディアデータをフレーム区間に分割し、各フレーム区間の特徴パラメータの変化量を計算するメディア入力・特徴パラメータ変化量計算ステップと、
変化量パラメータ抽出手段が、各連続メディアデータの特徴パラメータの変化量から、統合した特徴パラメータの変化量を計算する変化量パラメータ抽出ステップと、
フレーム抽出手段が、統合した特徴パラメータの変化量が所定の値より大きなフレームを抽出するフレーム抽出ステップと、
クラスタリング手段が、抽出されたフレームをクラスタリングするクラスタリングステップと、
クラスタ変化量算出手段が、クラスタリングしたクラスタ単位の変化量を計算するクラスタ変化量算出ステップと、
メディア再構成手段が、クラスタ単位の変化量が所定の値より大きなクラスタのみを連結して各連続メディアデータ毎に再構成データを生成するメディア再構成ステップと、
出力手段が、再構成データを出力する出力ステップと、を行う。
本発明(請求項4)は、複数の連続メディアデータからなる複合メディアデータを短縮して再生する複合メディアデータ短縮再生方法であって、
メディア入力・特徴パラメータ変化量計算手段が、入力された各連続メディアデータをフレーム区間に分割し、各フレーム区間の特徴パラメータの変化量を計算するメディア入力・特徴パラメータ変化量計算ステップと、
フレーム抽出手段が、各連続メディアデータの特徴パラメータの変化量が所定の値より大きなフレームを抽出するフレーム抽出ステップと、
クラスタリング手段が、各連続メディアデータの抽出されたフレームを統合して、クラスタリングするクラスタリングステップと、
時間圧縮手段が、クラスタリングされたクラスタ単位で各連続メディアデータを時間圧縮する時間圧縮ステップと、
クラスタ変化量算出手段が、時間圧縮されたクラスタ単位の変化量を計算するクラスタ変化量算出ステップと、
メディア再構成手段が、時間圧縮されたクラスタ単位の変化量が所定の値より大きな時間圧縮されたクラスタのみを連結して、各連続メディアデータ毎に再構成データを生成するメディア再構成ステップと、
出力手段が、再構成データを出力する出力ステップと、を行う。
また、本発明(請求項5)は、複合メディアデータが音声データと動画データである。
図2は、本発明の原理構成図である。
本発明(請求項6)は、連続メディアデータを短縮して再生する連続メディアデータ短縮再生装置であって、
入力された連続メディアデータをフレーム区間に分割し、各フレーム区間の特徴パラメータの変化量を計算するメディア入力・特徴パラメータ変化量計算手段110と、
特徴パラメータの変化量が所定の値より大きなフレームを抽出するフレーム抽出手段120と、
抽出されたフレームをクラスタリングするクラスタリング手段130と、
クラスタリングしたクラスタ単位の変化量を計算するクラスタ変化量算出手段140と、
クラスタ単位の変化量が所定の値より大きなクラスタのみを連結してデータを再構成するメディア再構成手段150と、
連結された再構成データを出力する出力手段160と、を有する。
本発明(請求項7)は、複数の連続メディアデータからなる複合メディアデータを短縮して再生する複合メディアデータ短縮再生装置であって、
入力された各連続メディアデータをフレーム区間に分割し、各フレーム区間の特徴パラメータの変化量を計算するメディア入力・特徴パラメータ変化量計算手段と、
各連続メディアデータの特徴パラメータの変化量から、統合した特徴パラメータの変化量を計算する変化量パラメータ抽出手段と、
統合した特徴パラメータの変化量が所定の値より大きなフレームを抽出するフレーム抽出手段と、
抽出されたフレームをクラスタリングするクラスタリング手段と、
クラスタリングしたクラスタ単位の変化量を計算するクラスタ変化量算出手段と、
クラスタ単位の変化量が所定の値より大きなクラスタのみを連結して各連続メディアデータ毎に再構成データを生成するメディア再構成手段と、
再構成データを出力する出力手段と、を有する。
本発明(請求項8)は、複数の連続メディアデータからなる複合メディアデータを短縮して再生する複合メディアデータ短縮再生装置であって、
入力された各連続メディアデータをフレーム区間に分割し、各フレーム区間の特徴パラメータの変化量を計算するメディア入力・特徴パラメータ変化量計算手段と、
各連続メディアデータの特徴パラメータの変化量が所定の値より大きなフレームを抽出するフレーム抽出手段と、
各連続メディアデータの抽出されたフレームを統合して、クラスタリングするクラスタリング手段と、
クラスタリングされたクラスタ単位で各連続メディアデータを時間圧縮する時間圧縮手段と、
時間圧縮されたクラスタ単位の変化量を計算するクラスタ変化量算出手段と、
時間圧縮されたクラスタ単位の変化量が所定の値より大きな時間圧縮されたクラスタのみを連結して、各連続メディアデータ毎に再構成データを生成するメディア再構成手段と、
再構成データを出力する出力手段と、を有する。
本発明(請求項9)は、コンピュータを、請求項6乃至8記載の装置として機能させるプログラムである。
本発明(請求項10)は、コンピュータを、請求項6乃至8記載の装置として機能させるプログラムを格納したコンピュータ読み取り可能な記録媒体である。
上記のように本発明によれば、特徴パラメータの変化量の大きなフレームを抽出する第1段階の圧縮過程と、クラスタ単位の変化量の大きなクラスタのみを連結してデータを再構成する第2段階の圧縮過程との2段階構成の圧縮過程を持ち、第1段階で連続メディアの最小構成単位を保持する品質での高速再生に相当する圧縮を行い、第2段階で、部分再生に相当する連続メディアの最小構成単位より大きな単位での間引きを行い、圧縮することになり、高速再生と部分再生の両方の効果を持つ利点がある。即ち、圧縮率が低い時は、高速再生の効果が主となる短縮再生になり、圧縮率が高くなると、部分再生の効果が加わった短縮再生にシームレスに移行することができ、圧縮率が高くなっても、了解性の著しい低下を引き起こさずに短縮することができる利点がある。
特に、連続メディアとして音声に適用した場合、5倍速以上に相当する5分の1以下の短縮においても、了解性を保持した短縮再生が可能となる。
また、本発明の準同期の複合メディアデータ短縮再生方法により、フレーム同期からクラスタ単位での同期に制約を緩和することにより、メディア数が増加しても、各メディア自体の圧縮率の増加を緩和して、より高い圧縮率を実現できる利点がある。
また、本発明で用いている特徴パラメータの変化量という指標や抽出フレームのクラスタリングは汎用的であり、どんな連続メディアにも適用でき、異なるメディアでも統一的に扱える点等の利点や、任意の短縮再生時間や任意の総圧縮率を指定できる利点がある。
これらの利点により、内容の完全性や意味的な一貫性よりも短時間性を重視するメディアの内容の概観や検索等の用途において、従来手法よりも有効な手法ということができる。
以下、図面と共に本発明の実施の形態を説明する。
[第1の実施の形態]
図3は、本発明の第1の実施の形態における連続メディアデータ短縮再生装置の構成図である。
同図に示すように、連続メディアデータ短縮再生装置は、連続メディア入力部101、変化量パラメータ抽出部102、再生速度指示部103、クラスタリング部104、クラスタ変化量算出部105、総圧縮率指示部106、再生クラスタ選択部107、連続メディア再構成部108、連続メディア出力部109から構成される。
連続メディア入力部101と変化量パラメータ抽出部102で構成される部分は、連続メディアデータをフレーム区間に分割し、それぞれのフレーム区間の特徴パラメータの変化量を計算する手段に相当する。
再生速度指示部103とクラスタリング部104で構成される部分は、特徴パラメータの変化量が所定の値より大きなフレームを抽出するメディア入力・特徴パラメータ変化量計算手段と抽出されたフレームをクラスタリングするクラスタリング手段に相当する。
クラスタ変化量算出部105は、クラスタリングしたクラスタ単位の変化量を計算する手段クラスタ変化量算出手段に相当する。
総圧縮率指示部106と再生クラスタ選択部107と連続メディア再構成部108で構成される部分は、クラスタ単位の変化量が所定の値より大きなクラスタのみを連結してデータを再構成するメディア再構成手段に相当する。
連続メディア出力部109は、連結された再構成データを出力する出力手段に相当する。
以下、各構成要素について説明する。
図4は、本発明の第1の実施の形態における動作のフローチャートである。
連続メディア入力部101は、入力された連続メディアデータをバッファ(図示せず)に読み込んで、変化量パラメータ抽出部102に送る(ステップ101)。例えば、連続メディア入力部101の入力は、入力されるデータがアナログデータである場合に、これをデジタルデータに変換しながら読み込んでもよいし、直接デジタルデータとして、ファイル形式の連続メディアデータを読み込んでもよいし、メモリに蓄積された連続メディアデータを読み込んでもよい。
連続メディア入力部101が読み込むデータ量は、全体を一括で読み込んでもよいし、一定単位の量を周期的に読み込んでもよいし、動的に任意の量を読み込んでもよい。
また、必要に応じて、バッファ(図示せず)に読み込む前、もしくは、バッファから変化量パラメータ抽出部102に出力する時に、入力された連続メディアのデジタルデータを変化量パラメータ抽出部102に合わせてフォーマット変換する処理を加えても良い。
また、読み込んだバッファ(図示せず)から変化量パラメータ抽出部102へ出力するデータ量は、連続メディアデータの全体を一括で渡してもよいし、一定単位の量に分割して周期的に渡してもよいし、動的に任意の量を逐次渡してもよい。出力するデータ量は、読み込むデータ量と同じ量でもよいし、異なっていてもよい(異なる場合は、連続メディア入力部101でバッファリンクすることになる)。
入力される連続メディアデータが、変化量パラメータ抽出部102が必要とするフォーマットであり、データを全て変化量パラメータ抽出部102に一括で渡す等の場合は、連続メディア入力部101の機能を変化量パラメータ抽出部102を含めた構成にすることも可能である。
変化量パラメータ抽出部102は、連続メディア入力部101から連続メディアデータを一定周期の小区間(フレーム区間)に分割し、それぞれのフレーム区間の代表となる特徴パラメータの変化量を計算する(ステップ102)。例えば、連続メディアデータから一旦フレーム区間の代表となる特徴パラメータを計算した後、その特徴パラメータの時系列から変化量を計算してもよいし、連続メディアデータから直接フレーム区間の代表となる特徴パラメータの変化量を計算してもよい。
フレーム区間の代表となる特徴パラメータや特徴パラメータの変化量の計算には、フレーム区間内のデータのみから計算してもよいし、フレーム区間外のデータを含めて計算してもよい。
特徴パラメータは、スカラーでもよいし、2次元以上のベクトルでもよい。特徴パラメータの変化量は計算するフレームの特徴パラメータと前フレームもしくは後フレームの特徴パラメータとの2値の距離(数学でいう距離の公理を満たす距離関数で定義できるもの。例えば、マンハッタン距離、ユークリッド距離、べき乗距離、チェビシェフ距離やマハノビス距離等を用いることができる)でもよいし、計算するフレームの前フレームの特徴パラメータと後フレームの特徴パラメータの2値の距離の2分の1でもよいし、計算するフレームの前後複数フレームを含めた特徴パラメータn値から距離等を用いて計算される値でもよい。
再生速度指示部103は、連続メディアの最小構成単位が原形を留めない程度縮退することを防ぐために局所的な再生速度を設定しておくもので、特徴パラメータの変化量の大きなフレームを抽出する基準となる再生速度をクラスタリング部104に指示する(ステップ103)。このとき、総圧縮率指示部106から総圧縮率を取得し、総圧縮率の逆数が設定された再生速度より小さい場合は、総圧縮率の逆数をクラスタリング部104に指示する。
クラスタリング部104は、再生速度指示部103からの再生速度を基に、抽出フレーム数
変化量パラメータ抽出部に入力されたデータの総フレーム数/再生速度 (1)
を計算し、変化量パラメータ抽出部102で計算した特徴パラメータの変化量の大きい方から抽出フレーム数だけ抽出し、抽出したフレームをクラスタリングする(ステップ104)。クラスタリングは、閾値を設定し、抽出されたフレームにおいて隣接する抽出フレームとの時間間隔がこの閾値より小さいものを同一クラスタとしてグループ化する等の方法により決定することができるが、これに限定されるものではなく、抽出されたフレームをグループ化できるものであればよい。例えば、閾値を定数として設定しておく他、隣接する抽出フレーム間の時間間隔の分布から動的に閾値を決定することもできる。
クラスタ変化量算出部105は、クラスタリング部104でクラスタリングしたクラスタ単位の変化量を計算する(ステップ105)。クラスタ単位の変化量は、クラスタ内のフレームの特徴パラメータの変化量から算出することができる(例えば、クラスタ内のフレームの特徴パラメータの変化量の最大値や平均値や中央値や最小値等を用いることができる)がこれに限定されるものではなく、クラスタ区間を代表する別の特徴パラメータを用いてクラスタ単位の変化量を算出してもよい。
総圧縮率指示部106は、短縮再生するための連続メディア全体に対する圧縮率である総圧縮率を再生クラスタ選択部107に指示する(ステップ106)。また、短縮再生時間から総圧縮率を計算して指示するように構成してもよい。このとき、総圧縮率は、
短縮再生時間/連続メディアデータ全体の再生時間 (2)
から計算することができる。
再生クラスタ選択部107は、総圧縮率指示部106で求められた総圧縮率を基に、クラスタ変化量算出部105のクラスタ単位の変化量の大きなクラスタから、選択されたクラスタに含まれるフレーム数の合計が、
連続メディアデータの総フレーム数*総圧縮率 (3)
で計算されるフレーム数になるまで選択する(ステップ107)。フレーム数の合計が上記の式(3)を超えたクラスタまでを選択クラスタとしてもよいし、超える直前までのクラスタを選択クラスタとしてもよいし、超える直前までのクラスタと
連続メディアデータの総フレーム数*総圧縮率
−超える直前までのクラスタに含まれるフレーム数の合計
(4)
で計算されるフレーム数のフレームデータを追加補充して、フレーム数の合計が式(3)に一致するようにしてもよい。追加補充するフレームデータは、空白データ(例えば、音声の場合は無音や白色雑音やピンク雑音等、動画の場合は単色フレーム画像等)でもよいし、補充する直前と同一のフレームデータを繰り返し用いてもよいし、補充する直前のフレームデータに続く、原フレームデータを式(4)のフレーム数だけ繰り上げ選択するなどしてもよい。また、これらに限定されることなく、総圧縮率を基に、選択フレームが決定できる方法であればよい。
連続メディア再構成部108は、再生クラスタ選択部107で選択されたクラスタのフレームに対応する連続メディアデータのフレーム区間データを順序関係を維持しながら連結し再構成する(ステップ108)。例えば、連結する際に、連結する前後のデータの不連続性を軽減するための連結する前後のデータに平滑化処理を加えてもよい。対応する連続メディアデータは、連続メディア入力部から変化量パラメータ抽出部102、クラスタリング部104、クラスタ変化量算出部105、再生クラスタ選択部107を経由して受け取ってもよいし、連続メディア入力部101から直接受け取ってもよい。
連続メディア出力部109は、連続メディア再構成部108で再構成した連続メディアデータを出力する(ステップ109)。例えば、出力は、外部出力デバイスに随時出力してもよいし、後で再生することを目的として、記録媒体にファイルとして出力してもよいし、メモリ等の記憶媒体に出力し、別の装置、アプリケーションが逐次利用できるようにしてもよい。
[第2の実施の形態]
本実施の形態では、同期型の複合メディアデータ短縮再生装置について説明する。
図5は、本発明の第2の実施の形態における同期型の複合メディア短縮再生装置の構成図である。
同図に示すように、同期型の複合メディア短縮再生装置は、連続メディア入力部201から連続メディア入力部201のn個の連続メディア入力部201、パラメータ抽出部202からパラメータ抽出部202のn個の変化量パラメータ抽出部202、パラメータ合成部210、再生速度指示部203、クラスタリング部204、クラスタ変化量算出部205、総圧縮率指示部206、再生クラスタ選択部207、連続メディア再構成部208から連続メディア再構成部208のn個の連続メディア再構成部208、連続メディア出力部209から連続メディア出力部209のn個の連続メディア出力部209から構成される。
なお、n個の連続メディアは、n種類の連続メディアでもよいし、同一種類のnチャンネルの連続メディアでもよいし、j種類の連続メディアがkチャンネル(j*k=n)あってもよいし、これに限定することなく、合計がn個の連続メディアであればよい。
連続メディア入力部201から連続メディア入力部201のn個の連続メディア入力部201とパラメータ抽出部202からパラメータ抽出部202のn個の変化量パラメータ抽出部202で構成される部分は、それぞれの連続メディアをフレーム区間に分割し、それぞれのフレーム区間のそれぞれの連続メディアデータの特徴パラメータの変化量を計算するメディア入力・特徴パラメータ変化量計算手段に相当する。
パラメータ合成部210は、複数の連続メディアデータの特徴パラメータの変化量から統合した連続メディアの特徴パラメータの変化量を計算する変化量パラメータ抽出手段に相当する。
再生速度指示部203とクラスタリング部204で構成される部分は、統合した特徴パラメータの変化量の大きなフレームを抽出するフレーム抽出手段と抽出されたフレームをクラスタリングするクラスタリング手段に相当する。
クラスタ変化量算出部205は、クラスタリングしたクラスタ単位の変化量を計算するクラスタ変化量算出手段に相当する。
総圧縮率指示部206と再生クラスタ選択部207と連続メディア再構成部208から連続メディア再構成部208のn個の連続メディア再構成部208で構成される部分は、クラスタ単位の変化量の大きなクラスタのみを連結して、各連続メディアデータ毎に再構成データを生成するメディア再構成手段に相当する。
連続メディア出力部209から連続メディア出力部209のn個の連続メディア出力部209は、各連結された再構成データを出力する出力手段に相当する。
上記の構成における動作を説明する。
図6は、本発明の第2の実施の形態における動作のフローチャートである。
連続メディア入力部201から連続メディア入力部201は、それぞれ対応する入力された連続メディアデータ1から連続メディアデータnをそれぞれのバッファ(図示せず)に読み込んで、それぞれに対応するパラメータ抽出部202からパラメータ抽出部202に同期をとって送る(ステップ201)。
各連続メディア入力部201は、第1の実施の形態における連続メディアデータ短縮再生装置の連続メディア入力101の処理に加え、各連続メディア入力部201間で各パラメータ抽出部202に送るデータ量を同じ時間分(サイズが同じとは限らず、再生した場合に同じ時間となる量等)に合わせ、同じタイミング(厳密に動作時間を合わせる必要はないが、データの処理位置、順序を同一にする)に同期して送る。
各連続メディア入力部201間で各連続メディアデータを読み込むデータ量、タイミングについては同期してもよいが、同期しなくてもよい。
パラメータ抽出部202からパラメータ抽出部202は、それぞれに対応する連続メディア入力部201から受信したそれぞれの連続メディアデータを一定周期の小区間(フレーム区間)に分割し、それぞれのフレーム区間の代表となる特徴パラメータの変化量を計算する(ステップ202)。
各パラメータ抽出部202のフレーム区間長(フレーム周期)が共通である他は、各パラメータ抽出部202は、第1の実施の形態における変化量パラメータ抽出部102と同様の処理を行う。
パラメータ合成部210は、パラメータ抽出部202からパラメータ抽出部202のn個のパラメータ抽出部202からそれぞれの特徴パラメータの変化量を取得する。それぞれのパラメータの変化量は、同一フレーム数の時系列データであり、加重平均により、1つの変化量の時系列データに変換し、統合した特徴パラメータ変化量を求める(加重平均は、それぞれの特徴パラメータの変化量の単位が異なる場合の正規化やそれぞれの連続メディアに対して重み付けを行う場合を含み、平均方法についても算術平均や幾何平均等の場合を含む。正規化方法も例えば、それぞれの特徴パラメータの変化量の最大値でそれぞれの特徴パラメータの変化量を割ることにより、0から1の値に正規化してもよいし、それぞれの特徴パラメータの変化量の平均値で割ることにより正規化してもよいし、それぞれの特徴パラメータの変化量の分散で割ることにより正規化してもよい)(ステップ203)。
再生速度指示部203は、第1の実施の形態における連続メディアデータ短縮再生装置の再生速度指示部103と同様の処理を行う(ステップ204)。
クラスタリング部204は、第1の実施の形態における連続メディアデータ短縮再生装置のクラスタリング部104と、変化量パラメータ抽出部102の代わりに、パラメータ合成部210で計算した統合した特徴パラメータの変化量を用いる以外は、同様の処理を行う(ステップ205)。
クラスタ変化量算出部205は、第1の実施の形態における連続メディアデータ短縮再生装置のクラスタ変化量算出部105と同様の処理を行う(ステップ206)。
総圧縮率指示部206は、第1の実施の形態における連続メディアデータ短縮再生装置の総圧縮率指示部106と同様の処理を行う(ステップ207)。
再生クラスタ選択部207は、第1の実施の形態における連続メディアデータ短縮再生装置の再生クラスタ選択部107と同様の処理を行う(ステップ208)。
連続メディア再構成部208から連続メディア再構成部208は、再生クラスタ選択部207で選択された再生クラスタ数のフレームに対応するそれぞれの連続メディアデータのフレーム区間データを、順序関係を維持しながらそれぞれ連結し、それぞれ再構成する(ステップ209)。例えば、連結する際に、連結する前後のデータの不連続性を軽減するため連結する前後のデータに平滑化処理を加えてもよい。平滑化処理を加えるのは、全ての連続メディア再構成部208でもよいし、一部の連続メディア再構成部208でもよい。対応するそれぞれの連続メディアデータは、それぞれの連続メディア入力部201からそれぞれのパラメータ抽出部202、パラメータ合成部210、クラスタリング部204、クラスタ変化量算出部205、再生クラスタ選択部207を経由して受け取ってもよいし、それぞれの連続メディア入力部201から直接受け取ってもよい。
連続メディア出力部209から連続メディア出力部209は、それぞれに対応するそれぞれの連続メディア再構成部208で再構成した連続メディアデータをそれぞれ出力する(ステップ210)。
連続メディア出力部209は、同期をとって出力してもよいし、しなくてもよい。例えば、外部出力デバイスに随時出力する場合に同期をとって出力してもよいし、後で再生することを目的として、記録媒体にファイルとして出力したり、メモリ等の記憶媒体に出力し、別の装置、アプリケーションが逐次利用できるようにする場合は、同期をとらなくてもよい。
[第3の実施の形態]
本実施の形態では、準同期型の複合メディアデータの短縮再生装置について説明する。
図7は、本発明の第3の実施の形態における準同期型の複合メディアデータ短縮再生装置の構成図である。
同図に示すように、準同期型の複合メディアデータ短縮再生装置は、連続メディア入力部301から連続メディア入力部301のn個の連続メディア入力部301と、パラメータ抽出部302からパラメータ抽出部302のn個のパラメータ抽出部302と、再生速度指示部303、クラスタリング部304、クラスタ内時間圧縮部311、総圧縮率指示部306、再生クラスタ選択部307、連続メディア再構成部308から連続メディア再構成部308のn個の連続メディア再構成部308、連続メディア出力部309から連続メディア出力部309のn個の連続メディア出力部309から構成される。
なお、n個の連続メディアは、n種類の連続メディアでもよいし、同一種類のnチャンネルの連続メディアでもよいし、j種類の連続メディアがkチャンネル(j*k=n)あってもよいし、これに限定することなく、合計がn個の連続メディアであればよい。
連続メディア入力部301から連続メディア入力部301のn個の連続メディア入力部301とパラメータ抽出部302からパラメータ抽出部302のn個のパラメータ抽出部302で構成される部分は、それぞれの連続メディアデータをフレーム区間に分割し、それぞれのフレーム区間のそれぞれの連続メディアの特徴パラメータの変化量を計算するメディア入力・特徴パラメータ変化量計算手段に相当する。
再生速度指示部303とクラスタリング部304で構成される部分は、各連続メディアの特徴パラメータの変化量の大きなフレームを抽出するフレーム抽出手段と、各連続メディアデータの抽出されたフレームを統合して、クラスタリングするクラスタリング手段に相当する。
クラスタ内時間圧縮部311は、クラスタリングされたクラスタ単位で各連続メディアデータを時間圧縮する時間圧縮手段に相当する。
クラスタ変化量算出部305は、時間圧縮されたクラスタ単位の変化量を計算するクラスタ変化量算出手段に相当する。
総圧縮率指示部306と再生クラスタ選択部307と連続メディア再構成部308から連続メディア再構成部308のn個の連続メディア再構成部308で構成される部分は、時間圧縮されたクラスタ単位の変化量の大きな時間圧縮されたクラスタのみを連結して各連続メディアデータ毎に再構成データを生成する再構成手段に対応する。
連続メディア出力部309から連続メディア出力部309のn個の連続メディア出力部309は、各連続された再構成データを出力する出力手段に相当する。
上記の構成における動作を説明する。
図8は、本発明の第3の実施の形態における動作のフローチャートである。
連続メディア入力部301から連続メディア入力部301は、前述の第2の実施の形態の同期型複合メディア短縮再生装置の連続メディア入力部201から連続メディア入力部201と同様の処理を行う(ステップ301)。
パラメータ抽出部302からパラメータ抽出部302は、前述の第2の実施の形態の同期型複合メディア短縮再生装置のパラメータ抽出部202からパラメータ抽出部202と同様の処理を行う(ステップ302)。
再生速度指示部303は、各連続メディアの最小構成単位が原形を留めない程縮退することを防ぐために、局所的な再生速度をそれぞれ設定しておくもので、連続メディアデータ1から連続メディアデータnのそれぞれの特徴パラメータの変化量の大きなフレームを抽出する基準となる再生速度1から再生速度nをクラスタリング部304に指示する(ステップ303)。この時、総圧縮率指示部303から総圧縮率を取得し、それぞれの再生速度が総圧縮率の逆数より大きい場合は、その再生速度を総圧縮率の逆数に置き換えてクラスタリング部304に指示する。
クラスタリング部304は、再生速度指示部303から再生速度1から再生速度nを基に、それぞれのメディアデータに対する、前述の式(1)の抽出フレーム数を計算し、パラメータ抽出部302からパラメータ抽出部302のn個のパラメータ抽出部302からそれぞれの特徴パラメータの変化量を取得し、各メディアデータごとに特徴パラメータの変化量の大きい方からそれぞれの抽出フレーム数だけ抽出する。全てのメディアデータにおいて抽出されていない区間の時間間隔を基にクラスタリングする(ステップ304)。
全てのメディアデータにおいて抽出されていない区間がない、もしくは、少ない場合は、抽出区間の重複頻度を計算して、抽出区間の重複頻度の少ない区間の時間間隔を基にクラスタリングしてもよいし、フレームの特徴パラメータの変化量を統合して統合した変化量の大きさを基にクラスタリングしてもよい。また、これらに限定されることなく、各再生速度と各特徴パラメータの変化量を基に、クラスタリングできる方法であればよい。クラスタリング方法については、第1の実施の形態における連続メディアデータ短縮再生装置のクラスタリングと同様である。
クラスタ内時間圧縮部311は、クラスタリング部304でクラスタリングされたクラスタに対して、クラスタ内でメディア間のフレーム同期性を緩めて時間圧縮を行い、時間圧縮されたクラスタを生成する(ステップ305)。時間圧縮方法は、クラスタ内で各メディアデータ毎に抽出フレーム数を計算し、その中から最長抽出フレーム数を決定する。その最長抽出フレーム数より少ないメディアデータに対して、再度、クラスタ区間内で特徴パラメータの変化量の大きいフレームから最長抽出フレーム数だけフレームの抽出をやり直す。これにより、クラスタ内の全てのメディアデータから最長抽出フレーム数ずつのフレームが抽出でき、それぞれのメディアデータで抽出するフレームを連結すると、クラスタとしてのフレーム数以下の最長抽出フレーム数の長さに時間圧縮されたクラスタが生成される。この時間圧縮されたクラスタは、クラスタ内ではメディア間のフレーム同期は崩れるが、クラスタとしては同期がとれた圧縮となる。
クラスタ変化量算出部305は、前述の第2の実施の形態における同期型の複合メディアデータ短縮再生装置のクラスタ変化量算出部205と、クラスタリング部204でクラスタリングされたクラスタの代わりにクラスタ内時間圧縮部311で時間圧縮されたクラスタを用いる以外は、同様の処理を行う(ステップ306)。
総圧縮率指示部306は、前述の第2の実施の形態における同期型の複合メディアデータ短縮再生装置の総圧縮率指示部206と同様の処理を行う(ステップ307)。
再生クラスタ選択部307は、前述の第2の実施の形態における同期型の複合メディアデータ短縮再生装置の再生クラスタ選択部207と同様の処理を行う(ステップ308)。
連続メディア再構成部308から連続メディア再構成部308は、前述の第2の実施の形態における同期型の複合メディアデータ短縮再生装置の連続メディア再構成部208から連続メディア再構成部208と同様の処理を行う(ステップ309)。
連続メディア出力部309から連続メディア出力部309は、前述の第2の実施の形態における同期型の複合メディアデータ短縮再生装置の連続メディア出力部209から連続メディア出力部209と同様の処理を行う(ステップ310)。
なお、上記の第1〜第3の実施の形態は、図3、図5、図7に示した構成に限定されるものではなく、様々な応用が可能である。
また、本発明の連続メディアデータ短縮再生装置及び複合メディア短縮再生装置は、論理回路等を用いたハードウェアのみによって実現することも可能であると共に、コンピュータとそれによって実行されるソフトウェアを用いて実行することも可能である。
また、このソフトウェアは、コンテンツ読み取り可能な記録媒体、あるいは通信回線介して配布することが可能である。
[第1の実施例]
連続メディアデータ短縮再生装置を音声に適用した実施例を図3、図9〜図13を用いて説明する。
連続メディア入力部101で入力された「あき あき(音素記号「aki aki」)」と発話した音声データ(例えば、10kHzサンプリング、16ビットリニアPCMで本実施例の説明を行うが、10kHz以外のサンプリング周波数や他の音声符号を用いてもよい)の音声波形の例を図9に示す。音素記号は、それぞれ発音された音素の区間を示す。
変化量パラメータ抽出部102では、音声データのフレーム区間(例えば、フレーム区間長を10msとして本実施例の説明を行うと、100ポイントの音声データがフレーム区間長の音声データとなる。フレーム区間長は10ms以外でもよい)に分割し、その代表となる特徴パラメータとして音声パワーを計算する。音声パワーの計算には、例えば、フレーム区間を中心に、フレーム区間外の音声データを含めた256ポイント(25.6msの音声データ)を用い、窓長256ポイントのブラックマン窓をかけた後、音声パワーの計算を行い、フレーム区間の代表値とすることができる(窓長は256ポイント以外でもよいし、窓の形もブラックマン窓以外を用いてもよいし、窓かけ計算を必ずしも行わなくてもよい)。
ここで、図9の音声波形に対応した音声パワーの例を図10に示す。音声パワーの場合はスカラーの時系列であるが、音声パワーのほか、△(デルタ)パワー、FFT係数、LPC係数、ケプストラム係数、△(デルタ)ケプストラム係数、メル周波数ケプストラム係数(MFCC)、△(デルタ)メル周波数ケプストラム係数(△MFCC)、これらに類する各種音声分析パラメータやそれらの組み合わせを用いることもでき、スカラーだけでなくベクトルでもよい。
特徴パラメータの変化量は、例えば、音声パワーのフレーム間の差分の絶対値を計算する。当該フレームと前フレームの音声パワーの差分の絶対値でもよいし、当該フレームと後フレームの音声パワーの差分の絶対値でもよいし、前フレームと後フレームの音声パワーの差分の2分の1の絶対値でもよいし、前後複数フレームの音声パワーを組み合わせて計算してもよい。また、音声データから直接△(デルタ)パワーの絶対値を計算してもよい。
ここで、図10の音声パワーに対応した、音声パワーの変化量の例を図11に示す。音声パワーはスカラーであり、差分計算の例を示したが、ベクトルの場合を含めて一般化すると2値の距離計算で置き換えることができる。ベクトルの場合に距離計算で置き換えた例としては、多次元ベクトルのMFCCや△(デルタ)MFCCから、メル周波数ケプストラム距離(MFCD)を計算して用いることもできる。
総圧縮率指示部106では、利用者が短縮再生したい総圧縮率、もしくは、短縮再生時間を指定する。ここでは、総圧縮率を6分の1(高速再生での6倍速に相当)に指定した場合の例を用いて説明する。
再生速度指示部103では、連続メディア(ここでは音声)の最小構成単位(ここでは音韻や単語等)が原形を留めない程縮退(ここでは、聞き取れなくなることに相当)することを防ぐために局所的な再生速度を設定しておくもので、図12は音韻の欠落が少ない3倍速に設定した例である。図13は比較のための総圧縮率と同等な6倍速に設定した例である。図13の(c)のグラフは6倍速の再生速度を基に音声パワーの変化量の閾値を設定した例であり、閾値より上に値がくる網掛け部分が抽出されたフレームを示している。図13(d)のグラフは抽出されたフレームを連結した例であるが、元音声の「あき あき(音素記号「aki aki」)」のうち、音素/i/が欠落し、音素/k/は区間が短すぎて聞き取れない程縮退した例である。結果として抽出された音声は「ああ」となり、単語としての意味もわからなくなってしまった例である。これに対し、図12は、適切に音韻欠落が少ない3倍速に設定した例であり、図12(c)のグラフから3倍速の再生速度を基にパワーの変化量の閾値を設定し、抽出した段階では、元音声の「あき あき(音素記号「aki aki」)の全ての音素が残っている例となっている。
クラスタリング部104では、音声パワーの変化量の大きなものから局所的な再生速度を基にフレームを抽出する処理とクラスタリングを行う。図12(c)のグラフは、クラスタリングとして、クラスタ分割のための最大区間長の閾値を設定し、その最大区間長の閾値より、隣接する抽出フレームの区間が近ければ同一のクラスタとして統合した例である。ここでは、2つのクラスタが形成されている。
クラスタ変化量算出部105では、形成されたクラスタに対し、クラスタ単位での変化量を算出する。例えば、形成されたクラスタに含まれる抽出フレームの特徴パラメータ変化量の平均をとることで、クラスタ単位の変化量を算出することができるが、いろいろな方法が可能である。
再生クラスタ選択部107では、クラスタ単位の変化量の大きいクラスタを選択する。ここでは、総圧縮率6分の1であるが、局所的な再生速度の3倍速を基にフレーム抽出を行っているので、クラスタの選択により更に2分の1にすることになる。図12の(d)、は、図12(c)で形成されたクラスタのうち、クラスタ単位の変化量の大きいクラスタを選択して、2分の1にした例である。結果として「あき」という音声が生成される例である。2つの単語のうち、1つしか再生されないことになるが、クラスタ単位の変化量の大きいクラスタの方が音声データの特徴を表していると解釈すれば、単語として意味がわかるレベルでの短縮再生として適切であるということができる。図13(d)のように、2つの単語からフレームを抽出しても、内容が概観できなければ意味がないからである。
連続メディア再構成部108では、再生クラスタ選択部107で選択したフレームに対応する音声データを抽出し、順序関係を維持しながら連結して再構成する。
音声データを連結する時に、連結部分に平滑化処理を施してもよい。音声断片データをそのまま連結すると不連続性により再生時にノイズとして知覚されるが、平滑化処理によって、その不連続性を解消し、ノイズを軽減することができる。
この平滑化処理の例としては、連結する前後の一定区間の音声データの移動平均をとる方法がある。例えば、前後の計5ポイントのデータの移動平均をとってもよいし、5ポイント以外の数でもよい。また、移動平均以外の平滑化方法でもよい。
連続メディア出力部109は、例えば、スピーカやヘッドホン等のオーディオ出力デバイスに随時出力し、再生してもよいし、後で再生することを目的に、ファイル出力してもよい。
[第2の実施例]
本実施例では、準同期の複合メディアデータ短縮再生装置について、図5、図7の用語を基に、図14を用いて説明する。
図14は、本発明の第2の実施例の準同期の複合メディアデータ短縮再生方法の動作の例であり、連続メディア1に音声、連続メディア2に動画を適用した例である。
図14(a)は、連続メディア入力部201、連続メディア入力部202とパラメータ抽出部202、パラメータ抽出部202を経由して、クラスタリング部204でクラスタリングしたフレーム区間を原データの時間に併せてマッピングした例である。
図14(b)は、図14(a)をフレーム同期を維持して抽出フレームを連結した場合の例である。
図14(c)は、図14(b)をクラスタ内時間圧縮部311において、更にクラスタ内で時間圧縮した後、連結した場合の例である。図14(b),(c)を比較するとわかるように、音声と動画のフレームの同期はとれていないものの、クラスタ単位の同期はとれた状態で、音声の音韻や動画の動物体の動きの了解性を維持しながら、より短縮できている。
後は、クラスタ変化量算出部205でクラスタ単位の変化量を計算し、再生クラスタ選択部207でクラスタ単位の変化量の大きいクラスタを総圧縮率に合わせて選択する。
連続メディア再構成部208、連続メディア再構成部208では、選択したクラスタ内のフレーム区間に対応するそれぞれのメディアデータを抽出し、順序関係を維持しながら、それぞれ連結して再構成する。
連続メディア出力部209、連続メディア出力部209は、例えば、スピーカやヘッドホン等のオーディオ出力デバイスとディスプレイ等の表示デバイスに随時出力してもよいし、後で再生することを目的に、ファイル出力してもよい。ファイル出力する時は、音声、動画のそれぞれで別のファイルに出力してもよいし、複合したフォーマットに変換して1つのファイルに出力してもよい。
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、種々の連続メディアを短縮再生する技術に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の第1の実施の形態における連続メディアデータ短縮再生装置の構成図である。 本発明の第1の実施の形態における動作のフローチャートである。 本発明の第2の実施の形態における同期型の複合メディアデータ短縮再生装置の構成図である。 本発明の第2の実施の形態における動作のフローチャートである。 本発明の第3の実施の形態における準同期型の複合メディアデータの短縮再生装置の構成図である。 本発明の第3の実施の形態における動作のフローチャートである。 本発明の第1の実施例の音声波形の例である。 本発明の第1の実施例の音声パワーの例である。 本発明の第1の実施例の音声パワーの変化量の例である。 本発明の第1の実施例のクラスタリング有りの場合の再構成した音声データの例である。 本発明の第1の実施例のクラスタリング無しの場合の再構成した音声データの例である。 本発明の第2の実施例の準同期の複合メディアデータ短縮再生方法の動作の例である。
符号の説明
101,201,301 連続メディア入力部
102,202,302 変化量パラメータ抽出部
103,203 再生速度指定部
104,204,304 クラスタリング部
105,205,305 クラスタ変化量算出部
106,206,306 総圧縮率指示部
107,207,307 再生クラスタ選択部
108,208,308 連続メディア再構成部
109,209,309 連続メディア出力部
110 メディア入力・特徴パラメータ変化量計算手段
120 フレーム抽出手段
130 クラスタリング手段
140 クラスタ変化量算出手段
150 メディア再構成手段
160 出力手段
210 パラメータ合成部
311 クラスタ内時間圧縮部

Claims (10)

  1. 連続メディアデータを短縮して再生する連続メディアデータ短縮再生方法であって、
    メディア入力・特徴パラメータ変化量計算手段が、入力された連続メディアデータをフレーム区間に分割し、各フレーム区間の特徴パラメータの変化量を計算するメディア入力・特徴パラメータ変化量計算ステップと、
    フレーム抽出手段が、前記特徴パラメータの変化量が所定の値より大きなフレームを抽出するフレーム抽出ステップと、
    クラスタリング手段が、抽出された前記フレームをクラスタリングするクラスタリングステップと、
    クラスタ変化量算出手段が、クラスタリングしたクラスタ単位の変化量を計算するクラスタ変化量算出ステップと、
    メディア再構成手段が、前記クラスタ単位の変化量が所定の値より大きなクラスタのみを連結してデータを再構成するメディア再構成ステップと、
    出力手段が、連結された再構成データを出力する出力ステップと、
    を行うことを特徴とする連続メディアデータ短縮再生方法。
  2. 前記連続メディアデータが音声データまたは、動画データである、
    請求項1記載の連続メディアデータ短縮再生方法。
  3. 複数の連続メディアデータからなる複合メディアデータを短縮して再生する複合メディアデータ短縮再生方法であって、
    メディア入力・特徴パラメータ変化量計算手段が、入力された各連続メディアデータをフレーム区間に分割し、各フレーム区間の特徴パラメータの変化量を計算するメディア入力・特徴パラメータ変化量計算ステップと、
    変化量パラメータ抽出手段が、前記各連続メディアデータの特徴パラメータの変化量から、統合した特徴パラメータの変化量を計算する変化量パラメータ抽出ステップと、
    フレーム抽出手段が、前記統合した特徴パラメータの変化量が所定の値より大きなフレームを抽出するフレーム抽出ステップと、
    クラスタリング手段が、抽出された前記フレームをクラスタリングするクラスタリングステップと、
    クラスタ変化量算出手段が、クラスタリングしたクラスタ単位の変化量を計算するクラスタ変化量算出ステップと、
    メディア再構成手段が、前記クラスタ単位の変化量が所定の値より大きなクラスタのみを連結して各連続メディアデータ毎に再構成データを生成するメディア再構成ステップと、
    出力手段が、前記再構成データを出力する出力ステップと、
    を行うことを特徴とする同期型の複合メディアデータ短縮再生方法。
  4. 複数の連続メディアデータからなる複合メディアデータを短縮して再生する複合メディアデータ短縮再生方法であって、
    メディア入力・特徴パラメータ変化量計算手段が、入力された各連続メディアデータをフレーム区間に分割し、各フレーム区間の特徴パラメータの変化量を計算するメディア入力・特徴パラメータ変化量計算ステップと、
    フレーム抽出手段が、各連続メディアデータの特徴パラメータの変化量が所定の値より大きなフレームを抽出するフレーム抽出ステップと、
    クラスタリング手段が、前記各連続メディアデータの抽出されたフレームを統合して、クラスタリングするクラスタリングステップと、
    時間圧縮手段が、クラスタリングされたクラスタ単位で各連続メディアデータを時間圧縮する時間圧縮ステップと、
    クラスタ変化量算出手段が、時間圧縮されたクラスタ単位の変化量を計算するクラスタ変化量算出ステップと、
    メディア再構成手段が、前記時間圧縮されたクラスタ単位の変化量が所定の値より大きな時間圧縮されたクラスタのみを連結して、各連続メディアデータ毎に再構成データを生成するメディア再構成ステップと、
    出力手段が、前記再構成データを出力する出力ステップと、
    を行うことを特徴とする準同期型の複合メディアデータ短縮再生方法。
  5. 前記複合メディアデータが音声データと動画データである、
    請求項3または4記載の複合メディアデータ短縮再生方法。
  6. 連続メディアデータを短縮して再生する連続メディアデータ短縮再生装置であって、
    入力された連続メディアデータをフレーム区間に分割し、各フレーム区間の特徴パラメータの変化量を計算するメディア入力・特徴パラメータ変化量計算手段と、
    前記特徴パラメータの変化量が所定の値より大きなフレームを抽出するフレーム抽出手段と、
    抽出された前記フレームをクラスタリングするクラスタリング手段と、
    クラスタリングしたクラスタ単位の変化量を計算するクラスタ変化量算出手段と、
    前記クラスタ単位の変化量が所定の値より大きなクラスタのみを連結してデータを再構成するメディア再構成手段と、
    連結された再構成データを出力する出力手段と、
    を有することを特徴とする連続メディアデータ短縮再生装置。
  7. 複数の連続メディアデータからなる複合メディアデータを短縮して再生する複合メディアデータ短縮再生装置であって、
    入力された各連続メディアデータをフレーム区間に分割し、各フレーム区間の特徴パラメータの変化量を計算するメディア入力・特徴パラメータ変化量計算手段と、
    前記各連続メディアデータの特徴パラメータの変化量から、統合した特徴パラメータの変化量を計算する変化量パラメータ抽出手段と、
    前記統合した特徴パラメータの変化量が所定の値より大きなフレームを抽出するフレーム抽出手段と、
    抽出された前記フレームをクラスタリングするクラスタリング手段と、
    クラスタリングしたクラスタ単位の変化量を計算するクラスタ変化量算出手段と、
    前記クラスタ単位の変化量が所定の値より大きなクラスタのみを連結して各連続メディアデータ毎に再構成データを生成するメディア再構成手段と、
    前記再構成データを出力する出力手段と、
    を有することを特徴とする同期型の複合メディアデータ短縮再生装置。
  8. 複数の連続メディアデータからなる複合メディアデータを短縮して再生する複合メディアデータ短縮再生装置であって、
    入力された各連続メディアデータをフレーム区間に分割し、各フレーム区間の特徴パラメータの変化量を計算するメディア入力・特徴パラメータ変化量計算手段と、
    各連続メディアデータの特徴パラメータの変化量が所定の値より大きなフレームを抽出するフレーム抽出手段と、
    前記各連続メディアデータの抽出されたフレームを統合して、クラスタリングするクラスタリング手段と、
    クラスタリングされたクラスタ単位で各連続メディアデータを時間圧縮する時間圧縮手段と、
    時間圧縮されたクラスタ単位の変化量を計算するクラスタ変化量算出手段と、
    前記時間圧縮されたクラスタ単位の変化量が所定の値より大きな時間圧縮されたクラスタのみを連結して、各連続メディアデータ毎に再構成データを生成するメディア再構成手段と、
    前記再構成データを出力する出力手段と、
    を有することを特徴とする準同期型の複合メディアデータ短縮再生装置。
  9. コンピュータを、
    請求項6乃至8記載の装置として機能させることを特徴とするプログラム。
  10. コンピュータを、
    請求項6乃至8記載の装置として機能させるプログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。
JP2005364929A 2005-12-19 2005-12-19 連続メディアデータ短縮再生方法、複合メディアデータ短縮再生方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP4648183B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005364929A JP4648183B2 (ja) 2005-12-19 2005-12-19 連続メディアデータ短縮再生方法、複合メディアデータ短縮再生方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005364929A JP4648183B2 (ja) 2005-12-19 2005-12-19 連続メディアデータ短縮再生方法、複合メディアデータ短縮再生方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2007171267A true JP2007171267A (ja) 2007-07-05
JP4648183B2 JP4648183B2 (ja) 2011-03-09

Family

ID=38297954

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005364929A Expired - Fee Related JP4648183B2 (ja) 2005-12-19 2005-12-19 連続メディアデータ短縮再生方法、複合メディアデータ短縮再生方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP4648183B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009015119A (ja) * 2007-07-06 2009-01-22 Sanyo Electric Co Ltd サビ位置検出装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250568A (ja) * 1999-02-26 2000-09-14 Kobe Steel Ltd 音声区間検出装置
JP2001197425A (ja) * 2000-01-05 2001-07-19 Matsushita Electric Ind Co Ltd 映像信号処理装置
JP2002142189A (ja) * 2000-11-06 2002-05-17 Canon Inc 画像処理装置、画像処理方法及び記憶媒体
JP2003169298A (ja) * 2001-12-04 2003-06-13 Nippon Telegr & Teleph Corp <Ntt> 映像短縮再生装置、映像短縮再生方法、この方法のプログラムおよびこのプログラムを記録した記録媒体
JP2005204003A (ja) * 2004-01-15 2005-07-28 Nippon Telegr & Teleph Corp <Ntt> 連続メディアデータ高速再生方法、複合メディアデータ高速再生方法、多チャンネル連続メディアデータ高速再生方法、映像データ高速再生方法、連続メディアデータ高速再生装置、複合メディアデータ高速再生装置、多チャンネル連続メディアデータ高速再生装置、映像データ高速再生装置、プログラム、および、記録媒体
JP2005277531A (ja) * 2004-03-23 2005-10-06 Seiko Epson Corp 動画像処理装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250568A (ja) * 1999-02-26 2000-09-14 Kobe Steel Ltd 音声区間検出装置
JP2001197425A (ja) * 2000-01-05 2001-07-19 Matsushita Electric Ind Co Ltd 映像信号処理装置
JP2002142189A (ja) * 2000-11-06 2002-05-17 Canon Inc 画像処理装置、画像処理方法及び記憶媒体
JP2003169298A (ja) * 2001-12-04 2003-06-13 Nippon Telegr & Teleph Corp <Ntt> 映像短縮再生装置、映像短縮再生方法、この方法のプログラムおよびこのプログラムを記録した記録媒体
JP2005204003A (ja) * 2004-01-15 2005-07-28 Nippon Telegr & Teleph Corp <Ntt> 連続メディアデータ高速再生方法、複合メディアデータ高速再生方法、多チャンネル連続メディアデータ高速再生方法、映像データ高速再生方法、連続メディアデータ高速再生装置、複合メディアデータ高速再生装置、多チャンネル連続メディアデータ高速再生装置、映像データ高速再生装置、プログラム、および、記録媒体
JP2005277531A (ja) * 2004-03-23 2005-10-06 Seiko Epson Corp 動画像処理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009015119A (ja) * 2007-07-06 2009-01-22 Sanyo Electric Co Ltd サビ位置検出装置

Also Published As

Publication number Publication date
JP4648183B2 (ja) 2011-03-09

Similar Documents

Publication Publication Date Title
JP4098420B2 (ja) 音響データ・動画データの同期再構築方法及び装置
JP2000511651A (ja) 記録されたオーディオ信号の非均一的時間スケール変更
JP4523257B2 (ja) 音声データ処理方法、プログラム及び音声信号処理システム
JPWO2007029633A1 (ja) 音声合成装置及び方法とプログラム
KR100303913B1 (ko) 음성처리방법, 음성처리장치 및 기록재생장치
JP4648183B2 (ja) 連続メディアデータ短縮再生方法、複合メディアデータ短縮再生方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP4867076B2 (ja) 音声合成用圧縮素片作成装置、音声規則合成装置及びそれらに用いる方法
WO2023276539A1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
JP2009075280A (ja) コンテンツ再生装置
JP2005204003A (ja) 連続メディアデータ高速再生方法、複合メディアデータ高速再生方法、多チャンネル連続メディアデータ高速再生方法、映像データ高速再生方法、連続メディアデータ高速再生装置、複合メディアデータ高速再生装置、多チャンネル連続メディアデータ高速再生装置、映像データ高速再生装置、プログラム、および、記録媒体
JP3373933B2 (ja) 話速変換装置
JP2001222300A (ja) 音声再生装置および記録媒体
JP2003259311A (ja) 映像再生方法、映像再生装置、映像再生プログラム
JP2002297200A (ja) 話速変換装置
JP2987089B2 (ja) 音声素片作成方法および音声合成方法とその装置
JPH08147874A (ja) 話速変換装置
KR100359988B1 (ko) 실시간 화속 변환 장치
JP4563418B2 (ja) 音声処理装置、音声処理方法、ならびに、プログラム
JP3426957B2 (ja) 映像中への音声録音支援表示方法及び装置及びこの方法を記録した記録媒体
JP2003271198A (ja) 圧縮データ処理装置、方法および圧縮データ処理プログラム
JP3766534B2 (ja) 視覚的に聴覚を補助するシステムおよび方法並びに視覚的に聴覚を補助するための制御プログラムを記録した記録媒体
JP4155990B2 (ja) 音響データ・動画データの同期再構築方法及び装置
JP4529859B2 (ja) 音声再生装置
JP2007025039A (ja) 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路
JP2709198B2 (ja) 音声合成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100906

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101209

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131217

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees