JP2004088530A - 動画像音声データ蓄積管理装置及び編集方法 - Google Patents
動画像音声データ蓄積管理装置及び編集方法 Download PDFInfo
- Publication number
- JP2004088530A JP2004088530A JP2002248019A JP2002248019A JP2004088530A JP 2004088530 A JP2004088530 A JP 2004088530A JP 2002248019 A JP2002248019 A JP 2002248019A JP 2002248019 A JP2002248019 A JP 2002248019A JP 2004088530 A JP2004088530 A JP 2004088530A
- Authority
- JP
- Japan
- Prior art keywords
- section
- level
- moving image
- audio
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
Abstract
【課題】動画像データと音声データとを含む動画像音声データを蓄積,再生する動画像音声データ蓄積管理装置及び編集方法に関し、再生音声の自然さを維持する。
【解決手段】動画像データと音声データとを含む動画像音声データ5を蓄積,再生する動画像音声データ蓄積装置1と、音声データのレベルがレベル閾値以下で、且つ区間閾値以上継続する区間を無音区間と見做して、この区間の位置情報と、この区間の長さを示す区間情報と、この区間内の平均レベルを示すレベル情報とを含む管理情報を格納した音声レベル管理テーブル6、この音声レベル管理テーブル6に格納した管理情報を参照して編集,高速再生,低速再生等を行う動画像音声データ編集装置11とを含む構成を有し、動画像のカット点に最も近い無音区間と見做す区間内を編集時の音声のカット点とする。
【選択図】 図5
【解決手段】動画像データと音声データとを含む動画像音声データ5を蓄積,再生する動画像音声データ蓄積装置1と、音声データのレベルがレベル閾値以下で、且つ区間閾値以上継続する区間を無音区間と見做して、この区間の位置情報と、この区間の長さを示す区間情報と、この区間内の平均レベルを示すレベル情報とを含む管理情報を格納した音声レベル管理テーブル6、この音声レベル管理テーブル6に格納した管理情報を参照して編集,高速再生,低速再生等を行う動画像音声データ編集装置11とを含む構成を有し、動画像のカット点に最も近い無音区間と見做す区間内を編集時の音声のカット点とする。
【選択図】 図5
Description
【0001】
【発明の属する技術分野】
本発明は、動画像音声データを蓄積媒体に蓄積して管理し、再生品質を損なうことなく、再生及び編集を可能とした動画像音声データ蓄積管理装置及び編集方法に関する。
【0002】
【従来の技術】
動画像データと音声データとを含む動画像音声データを蓄積媒体に蓄積し、それを再生する各種の構成が知られている。又蓄積した動画像音声データを編集する手段も知られている。蓄積媒体としては、例えば、磁気テープ,磁気ディスク,光ディスク,半導体集積記憶回路等の各種の構成が知られている。又蓄積媒体に蓄積する場合に、アナログ方式とディジタル方式とがあり、又ディジタル方式は、各種の圧縮符号化手段が適用されている。
【0003】
又例えば、光ディスクに蓄積された少なくとも二つの動画像音声データについて、それぞれ指定した区間をシームレスに編集する手段や、圧縮符号化した動画像データと音声データとを蓄積媒体に蓄積した時の蓄積位置が相違することによる再生タイミングのずれを防止する為に、同期情報を付加する手段等が知られている。
【0004】
又動画像音声データの圧縮符号化手段として、MPEG(Moving Picture Experts Group)方式が知られており、複数フレームをGOP(Group of Picture)とし、その中で、フレーム内符号化を行うIピクチャ、前方向予測符号化を行うPピクチャ、前後両方向予測符号化を行うBピクチャを含み、そのGOPの開始位置と、Iピクチャの終了位置と、Pピクチャの終了位置とを管理して、GOPデータの先頭にシーケンスヘッダを設け、ブロック単位の削除等の編集や高速再生処理を可能とした手段が知られている(例えば、特開平11−261962号公報参照)。
【0005】
又動画像を含まない音声についての処理手段として、周囲雑音の周波数成分に従った音量制御を行うことにより、最適な音量とする手段が知られている(例えば、特許第2595914号公報参照)。
【0006】
【特許文献1】
特開平11−261962号公報(第9−14頁,図1−3,図10,図13)
【特許文献2】
特開平11−155131号公報(第1−3頁,図1,図2)
【0007】
【発明が解決しようとする課題】
動画像音声データの編集処理は、動画像のシーンの切れ目を基に削除や挿入を行うものである。例えば、MPEG方式により圧縮符号化した動画像音声データの編集処理は、例えば、前記特許文献1に示すようにGOPを基に行うことができる。しかし、動画像データと音声データとの復号出力タイミングの同期がとれるように、タイムスタンプを付加していても、動画像のシーンの切れ目と音声の切れ目とが一致していない場合が殆どである。その為、単に動画像のシーンの切れ目に従って削除や挿入を行うと、その動画像データのカット点に従って音声データがカットされることになり、再生音声が不自然となる問題がある。
【0008】
そこで、編集時に、音声データを解析して、無音区間を検出し、その無音区間を音声の切れ目とすることが考えられる。しかし、編集過程に於いて、その都度、無音区間の検出処理を必要とすることになり、編集処理負荷が大きくなる問題がある。又動画像の編集過程等に於ける高速再生の一手段として、音声の無音区間をスキップすることができるが、この場合も、再生過程に於いて音声の無音区間を検出する処理が必要となり、処理負荷が大きくなる問題がある。
本発明は、動画像音声データの切れ目について予め検出して管理することにより、編集処理及び高速再生処理の負荷軽減を図ることを目的とする。
【0009】
【課題を解決するための手段】
本発明の動画像音声データ管理編集装置は、動画像データと音声データとを含む動画像音声データを蓄積し、この動画像音声データを再生して表示又は編集を行う動画像音声データ蓄積管理装置であって、音声データのレベルがレベル閾値以下で、且つ区間閾値以上継続する区間を無音区間と見做して、この区間の位置情報と、この区間の長さを示す区間情報と、この区間内の平均レベルを示すレベル情報とを含み、動画像音声データの再生,編集時に参照する管理情報を格納した音声レベル管理テーブルを設けたものである。又音声データをそれぞれ異なる帯域に分割し、各帯域対応に、レベルがレベル閾値以下で、且つ区間閾値以上継続する区間を無音区間と見做して、この区間の位置情報と、この区間の長さを示す区間情報と、この区間内の平均レベルを示すレベル情報とを含む管理情報を格納した帯域対応の音声レベル管理テーブルを設けることもできる。
【0010】
又音声レベル管理テーブルの管理情報を参照して、動画像データの編集時の指定したシーンの切れ目に最も近い前記区間内を動画像データのカット点及び音声データのカット点として編集する動画像音声データ編集装置を備えている。
【0011】
又本発明の編集方法は、動画像データと音声データとを含む動画像音声データを編集する編集方法であって、音声データのレベルがレベル閾値以下で、且つ区間閾値以上継続する区間を無音区間と見做して、この区間の位置情報と、この区間の長さを示す区間情報と、この区間内の平均レベルを示すレベル情報とを含む管理情報を格納した音声レベル管理テーブルを参照し、指定したシーンの切れ目に最も近い無音区間と見做した区間内を動画像データのカット点及び音声データのカットとして編集する過程を含むものである。
【0012】
又音声データのレベルがレベル閾値以下で、且つ区間閾値以上継続する区間を無音区間と見做して、この区間の位置情報と、この区間の長さを示す区間情報と、この区間内の平均レベルを示すレベル情報とを含む管理情報を格納した音声レベル管理テーブルを参照し、無音区間と見做した区間をスキップして高速再生又は該区間をスロー生成する過程を含むものである。
【0013】
【発明の実施の形態】
図1は本発明の第1の実施の形態の説明図であり、1は動画像音声データ蓄積装置、2は動画像音声解析装置、3は音声レベル測定装置、4は管理テーブル作成装置、5は蓄積された動画像音声データAV1、6は音声レベル管理テーブルを示す。
【0014】
動画像音声データ蓄積装置1は、例えば、磁気テープ,磁気ディスク,光磁気ディスク,光ディスク,半導体集積記憶回路等の各種の蓄積媒体を用いて構成することができる。この動画像音声データ蓄積装置1に、動画像データと音声データとを蓄積するものであり、音声レベル管理テーブル6は、動画像音声データ5を蓄積する蓄積媒体の一部領域を利用して構成するか、又は他の蓄積媒体を用いて構成することができる。
【0015】
この実施の形態に於いては、音声レベル管理テーブル6を含む動画像音声データ蓄積装置1と、音声レベル管理テーブル6を作成する為の動画像音声解析装置2と、音声レベル測定装置3と、管理テーブル作成装置4とを含めて動画像音声データ蓄積管理装置を構成した場合を示す。
【0016】
又この実施の形態は、予め動画像音声データ蓄積装置1に動画像音声データ5が蓄積されている場合に、その動画像音声データ5を再生して動画像音声解析装置2に入力し、音声A1と動画像V1とに分離し、音声A1を音声レベル測定装置3に入力する。この音声レベル測定装置3には、予め設定した区間閾値Pth1と、レベル閾値Lth1とを入力し、区間情報,レベル情報,位置情報とを含む管理情報を求めて、管理テーブル作成装置4に入力する。この管理テーブル作成装置4は、入力された情報を、音声レベル管理テーブル6に格納する処理を行う。
【0017】
従って、編集時及び高速再生やスロー再生時に於いて、再生音声データの解析を行うことなく、音声レベル管理テーブル6を参照することにより、音声の切れ目を認識できるから、その切れ目に相当する区間のスキップや、その区間内を削除,挿入の先頭位置とすることにより、編集後や高速再生時,スロー再生時の音声を自然な状態に維持することができる。
【0018】
図2は、音声レベル測定装置3に於ける音声測定を、アナログ波形を用いて説明するもので、音声レベル測定装置3に於いて、音声レベルとレベル閾値Lth1とを比較し、音声レベルL1<Lth1の区間P1と区間閾値Pth1とを比較し、P1>Pth1の場合に、その区間P1を音声の切れ目に相当する無音区間と見做し、音声データの先頭を基準時刻とした時の区間P1の開始時刻T1と、区間P1の継続時間S1とを求め、区間情報,レベル情報,位置情報とを含む管理情報として、管理テーブル作成装置4の制御によって音声レベル管理テーブル6に格納する。なお、レベル情報としては、区間P1内は、完全な無音状態でなく、レベル閾値Lth1以下のレベルの背景雑音等を含むものであるから、この区間P1内の平均レベルを求めて区間P1内のレベル情報とすることができる。又位置情報は、音声データの蓄積位置を識別できるものであれば、蓄積先頭位置からの位置以外の任意の位置指示手段を適用することができる。
【0019】
又次の音声レベルL2<Lth1の区間P2は、P2<Pth1であるから、無音区間と見做さない。従って、その時の区間P2の開始時刻T2と、区間P2の継続時間S2とは、音声レベル管理テーブル6には格納しない。又次の音声レベルL3の区間は、背景雑音によるレベルにより、レベル閾値Lth1より大きいレベルとなっている区間に相当する。しかし、L3>Lth1の関係であるから、その区間の開始時刻T3と、その区間の継続時間S3とは、音声レベル管理テーブル6には格納しない。
【0020】
前述の場合は、音声レベルの瞬時について判定している場合を示すが、単位時間毎の平均値を用いて、レベル閾値Lth1との比較を行うことも可能である。この場合、単位時間毎の平均値レベルについても管理情報として音声レベル管理テーブル6に格納することができる。又周波数帯域により背景雑音と音声とを区別できる場合は、前述の音声レベルL3の場合の区間が区間閾値Pth1以上であると、無音区間と見做すことも可能である。
【0021】
図3は音声レベル管理テーブルの説明図であり、例えば、レベル閾値Lth1=3dB、区間閾値Pth1=5sとした場合に於いて、位置、時刻、レベル平均値、区間時間を格納した場合を示し、No.1は、レベル閾値Lth1以下の区間で、且つ区間閾値Pth1以上の継続する区間であって、先頭からの位置を音声データのバイト数で表し、その時1024Bで、先頭からの時刻10s、その区間内のレベル平均値が2dB、その区間の継続時間が7sの場合を示す。又No.2は、先頭からの位置が2048B、先頭からの時刻が20s、その区間のレベル平均値が1dB、その区間の継続時間が6sの場合を示す。
【0022】
図4は本発明の第2の実施の形態の説明図であり、図1と同一符号は同一部分を示し、7は動画像音声符号化装置である。この実施の形態は、図示を省略した撮像装置又は動画像音声データ再生装置からの音声A1と動画像V1とを入力し、音声レベル測定装置3に於いて音声A1と、区間閾値Pth1とレベル閾値Lth1との比較処理により、音声レベルがレベル閾値Lth1以下の区間で、且つその区間が区間閾値Pth1以上の継続する場合に、無音区間と見做して、区間情報とレベル情報とを管理テーブル作成装置4に入力する。
【0023】
又動画像音声符号化装置7は、例えば、標準化されているMPEG(Moving Picture Experts Group)−2やMPEG−4や、他の方式による圧縮符号化を行う機能を有し、圧縮符号化した動画像音声データ5を動画像音声データ蓄積装置1に蓄積し、その蓄積位置情報を管理テーブル作成装置4に入力する。管理テーブル作成装置4は、この位置情報と、区間情報と、レベル情報とを含む管理情報を音声レベル管理テーブル6に格納する。それにより、動画像音声データ蓄積装置1に動画像データに対応する音声データの無音区間と見做す区間についての管理情報を、例えば、図3に示すように、管理テーブル作成装置4に格納することができる。
【0024】
従って、音声レベル管理テーブル6を参照し、高速再生,スロー再生,編集の場合の音声の切れ目を示す無音区間を識別して、その区間をスキップする高速再生,その区間を低速読出するスロー再生,その区間に動画像のカットや挿入を行う編集を行うことにより、再生時の音声の自然さを維持することができる。
【0025】
図5は本発明の第3の実施の形態の説明図であり、1は動画像音声データ蓄積装置、5は蓄積された動画像音声データAV1、6は音声レベル管理テーブル、11は動画像音声データ編集装置、12は動画像シーン検出装置、13は音声カット点解析装置、14は管理テーブル解析装置を示す。
【0026】
音声レベル管理テーブル6は、前述の図1又は図2について説明したように、動画像音声データ5についてのレベル閾値以下の区間が、区間閾値以上である位置情報等を含む管理情報を格納しており、動画像音声データ編集装置11により動画像シーンのカット編集を行う場合、編集の操作者からシーン指定を動画像シーン検出装置12に入力し、カット編集を可能とする区間時間と音声レベルとを管理テーブル解析装置14に入力する。
【0027】
動画像シーン検出装置12は、指定されたシーンを検出し、その位置情報Tv1を音声カット点解析装置13に転送する。管理テーブル解析装置14は、この位置情報Tv1に最も近い位置情報を音声レベル管理テーブル6から求め、指定された区間時間以上で且つ指定された音声レベル以下の位置を、先頭からの音声カット点位置Ta1として求め、又先頭からの動画像カット点位置Sa1を求めて、動画像音声データのカット編集を行うことができる。そして、音声データについては、無音区間に相当する部分に於いてカット編集するから、編集された動画像音声データを再生した時に、自然な再生音声を得ることができる。
【0028】
図6は本発明の第4の実施の形態の説明図であり、1は動画像音声データ蓄積装置、5は動画像音声データAV1、6は音声レベル管理テーブル、14は管理テーブル解析装置、15は動画像音声再生装置を示す。
【0029】
この実施の形態は、動画像音声再生装置15により、動画像音声データ蓄積装置1に蓄積された動画像音声データ5を再生し、図示を省略したディスプレイ装置等に動画像を表示するもので、その場合に、動画像音声データの無音区間に相当する区間についてはスキップさせて再生する場合を示す。このような高速再生は、動画像データの編集時に於ける編集シーン近傍をサーチする場合にも適用されるものである。
【0030】
前述のカット編集の場合と同様に、区間時間と音声レベルとを管理テーブル解析装置14に入力し、動画像音声再生装置15により、動画像音声データ蓄積装置1に蓄積された動画像音声データ5を再生し、管理テーブル解析装置14は、音声レベル管理テーブル6に格納された管理情報を参照し、動画像音声データ5についての無音区間に相当する位置情報等を解析し、指定された区間時間と音声レベルとに対応した区間をスキップ情報J1として動画像音声再生装置15に入力する。動画像音声再生装置15は、このスキップ情報J1に従って無音区間に相当する区間をスキップさせて再生した音声A1及び動画V1を図示を省略したディスプレイ装置に入力する。従って、動画像をスキップさせて高速再生する場合に、その都度、無音区間を検出する処理が不要となり、且つ無音区間相当する区間をスキップして再生するから不自然な再生音声となることを回避できる。
【0031】
図7は本発明の第5の実施の形態の説明図であり、図6と同一符号は同一部分を示し、管理テーブル解析装置14は、指定された区間時間と音声レベルとの情報を基に、音声レベル管理テーブル6に格納された管理情報を参照し、無音区間と見做した区間の管理情報を基にスロー位置情報J2を求めて動画像音声再生装置15に通知する。この場合は、スロー位置情報J2に従って動画像音声データ蓄積装置1から動画像音声データをスロー再生し、図示を省略したディスプレイ装置に動画像V1と音声A1とを入力することになる。
【0032】
図8は本発明の第6の実施の形態の説明図であり、図6と同一符号は同一部分を示し、動画像音声再生装置15にシーク操作指示を入力して、動画像音声データ蓄積装置1に蓄積された動画像音声データ5のシーク再生を行い、その時、区間時間と音声レベルとの情報を管理テーブル解析装置14に入力しておき、管理テーブル解析装置14は、動画像音声再生装置15から通知されるシーク位置の情報に従って音声レベル管理テーブル6を検索し、シーク位置に最も近い無音区間、即ち、区間時間と音声レベルとに従った区間を求めて、無音位置の情報を動画像音声再生装置15に通知する。動画像音声再生装置15は、シーク後の音声再生開始位置を、その無音位置の情報に従って制御する。それにより、自然な音声再生が可能となる。
【0033】
図9は本発明の第7の実施の形態の説明図であり、1は動画像音声データ蓄積装置、2は動画像音声解析装置、3−1〜3−nは音声レベル測定装置、4は管理テーブル作成装置、5は動画像音声データAV1、6−1〜6−nは音声レベル管理テーブル、21は音声帯域分割装置を示す。
【0034】
動画像音声解析装置2により動画像音声データ5を再生して音声A1と動画像V1とを分離し、音声A1を音声帯域分割装置21に入力し、複数の帯域に分割してそれぞれ音声レベル測定装置3−1〜3−nに入力する。音声レベル測定装置3−1〜3−nは、分割帯域対応に、区間閾値Pth1,Pth2,・・・,Pthnと、レベル閾値Lth1,Lth2,・・・,Lthnとを入力し、分割帯域対応の音声レベルがレベル閾値Lth1,Lth2,・・・,Lthn以下の区間が、区間閾値Pth1,Pth2,・・・,Pthnを超える場合に、無音区間と見做して、その区間情報,レベル情報,位置情報を管理テーブル作成装置4に通知する。この場合、レベル閾値と区間閾値との何れか一方又は両方を、帯域対応に相違させることができる。
【0035】
管理テーブル作成装置4は、音声レベル測定装置3−1〜3−n対応の音声レベル管理テーブル6−1〜6−nに、それぞれ図3に示すように、先頭からの位置と時刻とレベル平均値と区間時間とを含む管理情報を格納することができる。このように、音声帯域分割装置21によって音声A1の帯域を分割することにより、音楽等は高周波数帯域を含むものであるから、人声帯域とBGM(BackGround Music)とを分けて、人声帯域に於ける無音区間と見做す区間を検出することができる。
【0036】
例えば、100Hz〜5kHzの帯域とそれ以外の帯域とに分割し、100Hz〜5kHzの帯域を人声帯域とし、その中にBGM成分が含まれているとしても、レベル閾値をBGM成分が存在しない場合に比較して高く設定することにより、人声帯域に於ける無音区間に相当する区間を検出することができる。従って、編集過程に於いて、人声帯域に於ける無音区間内でカットや挿入を行うことができる。その場合、BGM成分については、不自然とならないように、カットする直前はレベルを徐々に低下させ、又挿入した直後は零のレベルから徐々に上昇させる制御を行うことも可能である。
【0037】
図10は本発明の第8の実施の形態の説明図であり、1は動画像音声データ蓄積装置、5は動画像音声データAV1、6−1,6−2,・・・は音声レベル管理テーブル、11は動画像音声データ編集装置、12は動画像シーン検出装置、13は音声カット点解析装置、14は管理テーブル解析装置、22は音声指定装置を示す。
【0038】
動画像音声データ編集装置11は、動画像音声データ蓄積装置1から動画像音声データ5を再生し、動画像シーン検出装置12は、再生した動画像音声データ5の中から、操作者のシーン指定に従ったシーンを検出する。又音声レベル管理テーブル6−1,6−2,・・・は、図9を参照して説明した音声帯域分割装置21により分割した帯域対応に管理情報を格納したものである。
【0039】
そして、操作者が人声とBGMとの指定や帯域の指定等を行うことにより、音声指定装置22は、指定された帯域対応の音声レベル管理テーブルを選択し、管理テーブル解析装置14は、選択された音声管理テーブルに格納された管理情報を基に、無音区間を求めて音声カット点解析装置13に通知する。又動画像シーン検出装置11は、指定されたシーンを検出してその位置情報Tv1を音声カット点解析装置13に通知する。
【0040】
音声カット点解析装置13は、シーン検出位置情報Tv1に最も近い位置情報を、先頭からの音声カット点位置Ta1として求め、又先頭からの動画像カット点位置Sa1として求めて、動画像音声データのカット編集を行うことができる。この場合、指定された帯域についての無音区間に相当する区間をカット位置とするものである。従って、BGMを含む音声データの場合でも、人声帯域について無音区間に相当する区間内にカット位置を求めることができるから、カット編集によっても、自然な音声再生が可能となる。
【0041】
図11は本発明の第9の実施の形態の説明図であり、MPEG方式等により圧縮符号化した動画像音声データを動画像音声データ蓄積装置1に蓄積し、音声レベル管理テーブル6を作成する場合を示すものである。同図に於いて、4は管理テーブル作成装置、31はデコーダ、32はレベル計測部と時間計測部とを含む音声レベル測定装置、33はレベル閾値Lth1と区間閾値Pth1とを含む閾値を格納したメモリ、34は比較部、35は各部を制御し、又は各部の機能を実現するプロセッサ(CPU)を示す。
【0042】
デコーダ31は、動画像音声データ蓄積装置1に蓄積された圧縮符号化動画像音声データ5を再生して復号化し、且つ音声データと動画像データとに分けて出力し、音声データを音声レベル測定装置32に入力する。この音声レベル測定装置32は、レベル計測部により音声レベルを計測し、時間計測部により先頭からの時間を計測し、メモリ33に格納したレベル閾値Lth1と区間閾値Pth1とを比較部34に於いて比較し、レベル閾値Lth1以下の区間が、区間閾値Pth1を超えて継続している区間を無音区間と見做して、その区間情報と、レベル情報と、位置情報とを、管理テーブル作成装置4に於いて作成し、管理情報として音声レベル管理テーブル6に格納する。この場合、ディジタル処理により音声レベル管理テーブル6に格納する管理情報を作成することができる。従って、プロセッサ35の機能によって各部の機能を実現して、音声レベル管理テーブル6を作成することができる。
【0043】
図12は本発明の第10の実施の形態の説明図であり、高速再生やスロー再生を行う場合について示し、1は動画像音声データ蓄積装置、5は圧縮符号化されて蓄積された動画像音声データ、6は音声データ管理テーブル、41はデコーダ、42は読出制御部、43は編集処理部、44はテーブル展開部、45は分析部、46はメモリ、47は比較制御処理部である。
【0044】
動画像音声データ蓄積装置1には、MPEG方式等により圧縮符号化された動画像音声データ5が蓄積されており、再生された動画像音声データ5はデコーダ41により復号化される。又動画像音声データ5を管理する為の音声レベル管理テーブル6が、例えば、図11に於ける管理テーブル作成装置4によって形成されている。又読出制御部42により動画像音声データ5の読出速度等が制御される。
【0045】
又テーブル展開部44は、音声レベル管理テーブル6に格納された管理情報を展開し、分析部45により音声レベル,区間時間,平均レベル等を抽出し、比較制御処理部47に入力する。この比較制御処理部47に高速再生,スロー再生,ジャンプ等の指示を入力する。又メモリ46に、レベル閾値Lthaと区間閾値Pthaとを設定し、比較制御処理部47は、分析部45からの音声レベルとレベル閾値Lthaとを比較し、又区間時間と区間閾値Pthaとを比較して、再生速度等の指示に従ってデコーダ41と読出制御部42とを制御する。
【0046】
この場合、動画像音声データの音声レベルについて例えば単位時間毎の平均レベルを、音声レベル管理テーブル6に管理情報に含めて格納しているとすると、レベル閾値Lthaと区間閾値Pthaとを、無音区間と見做す区間を識別する為のレベル閾値Lth1と区間閾値Pth1と相違させた値とすることができる。そして、音声レベル管理テーブル6に格納した管理情報をテーブル展開部44に展開し、平均レベル(音声レベル)についてレベル閾値Ltha以下の区間が、区間閾値Ptha以上の長さの場合、高速再生の指示時には、デコーダ41のデコード動作を中止させ、且つ読出制御部42により、その区間を高速で再生させ、又はスキップさせる。従って、高速再生時の無音区間に相当する音声データについてはスキップする状態となるから、高速再生時の再生音声の自然さを維持できる。又スロー再生の指示時には、無音区間に相当する区間、デコーダ41のデコード動作を低速とし、且つ読出制御部42により、その区間を低速で再生させる。従って、音声データを低速再生しても、無音区間に相当するから自然さを維持できる。
【0047】
図13は本発明の第11の実施の形態の説明図であり、1は動画像音声データ蓄積装置、5はMPEG方式等により圧縮符号化された動画像音声データ、6aは音声用レベル管理テーブル、6bはBGM用レベル管理テーブル、51はデコーダ、52は帯域分割装置、53は音声レベル測定装置、54はメモリ、55は比較部、56は管理テーブル作成装置を示す。
【0048】
動画像音声データ蓄積装置1に、圧縮符号化された動画像音声データ5が蓄積され、その動画像音声データ5についての音声用レベル管理テーブル6aとBGM用レベル管理テーブル6bとを作成する場合について示すもので、再生した動画像音声データ5をデコーダ51によりデコードし、復号した音声について帯域分割装置52により人声とBGMとに分割する。
【0049】
帯域分割装置52は、例えば、100Hz〜5kHzを人声帯域とし、それ以外をBGM帯域とした帯域分割を行うことができる。そして、音声レベル測定装置53により、人声帯域とBGM帯域とについてレベル計測及び時間計測を行い、メモリ54に設定したレベル閾値Lth1と区間閾値Pth1とを用いて、比較部55に於いて計測値と比較する。この場合、レベル閾値Lth1と区間閾値Pth1とを人声帯域用とBGM帯域用とに対して異なる値とすることも可能である。
【0050】
そして、レベル閾値Lth1以下の区間が、区間閾値Pth1以上の場合に無音区間と見做し、その区間情報とレベル情報と位置情報とを含む管理情報を、人声帯域に対しては音声用レベル管理テーブル6aに格納し、BGM帯域に対してはBGM用レベル管理テーブル6bに格納する。それにより、編集時や高速再生時等に於いて、音声レベル管理テーブル6aを参照して、無音区間内で動画像の削除や挿入処理を行うことにより、自然な再生音声を得ることができる。又BGM用レベル管理テーブル6bを参照して、編集や再生制御を行う場合は、自然なBGMを再生することができる。
【0051】
本発明は、前述の各実施の形態にのみ限定されるものではなく、種々付加変更することが可能であり、例えば、音声レベル管理テーブル6に格納した管理情報の中の位置情報は、動画像音声データの蓄積位置との対応ができるものであれば、各種の形式を適用することができる。
【0052】
【発明の効果】
以上説明したように、本発明は、蓄積した動画像音声データについての音声データを無音区間と見做すことができる区間の位置や長さ等を示す管理情報を、音声レベル管理テーブル6に予め格納しておくことにより、編集時やそれに伴う高速再生,低速再生時に、音声レベル管理テーブル6を参照して、無音区間と見做す区間内で、音声データのカットや挿入等の編集を行い、又その区間を高速再生又はスキップ又は低速再生させることにより、再生された音声が途中で途切れたり、他の音声に切替えられたりする不自然さを回避することができる利点がある。又音声レベル管理テーブル6は、動画像音声データの蓄積時に同時に管理情報を形成して格納することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の説明図である。
【図2】音声測定の説明図である。
【図3】音声レベル管理テーブルの説明図である。
【図4】本発明の第2の実施の形態の説明図である。
【図5】本発明の第3の実施の形態の説明図である。
【図6】本発明の第4の実施の形態の説明図である。
【図7】本発明の第5の実施の形態の説明図である。
【図8】本発明の第6の実施の形態の説明図である。
【図9】本発明の第7の実施の形態の説明図である。
【図10】本発明の第8の実施の形態の説明図である。
【図11】本発明の第9の実施の形態の説明図である。
【図12】本発明の第10の実施の形態の説明図である。
【図13】本発明の第11の実施の形態の説明図である。
【符号の説明】
1 動画像音声データ蓄積装置
2 動画像音声解析装置
6 音声レベル管理テーブル
11 動画像音声データ編集装置
12 動画像シーン検出装置
13 音声カット点解析装置
14 管理テーブル解析装置
【発明の属する技術分野】
本発明は、動画像音声データを蓄積媒体に蓄積して管理し、再生品質を損なうことなく、再生及び編集を可能とした動画像音声データ蓄積管理装置及び編集方法に関する。
【0002】
【従来の技術】
動画像データと音声データとを含む動画像音声データを蓄積媒体に蓄積し、それを再生する各種の構成が知られている。又蓄積した動画像音声データを編集する手段も知られている。蓄積媒体としては、例えば、磁気テープ,磁気ディスク,光ディスク,半導体集積記憶回路等の各種の構成が知られている。又蓄積媒体に蓄積する場合に、アナログ方式とディジタル方式とがあり、又ディジタル方式は、各種の圧縮符号化手段が適用されている。
【0003】
又例えば、光ディスクに蓄積された少なくとも二つの動画像音声データについて、それぞれ指定した区間をシームレスに編集する手段や、圧縮符号化した動画像データと音声データとを蓄積媒体に蓄積した時の蓄積位置が相違することによる再生タイミングのずれを防止する為に、同期情報を付加する手段等が知られている。
【0004】
又動画像音声データの圧縮符号化手段として、MPEG(Moving Picture Experts Group)方式が知られており、複数フレームをGOP(Group of Picture)とし、その中で、フレーム内符号化を行うIピクチャ、前方向予測符号化を行うPピクチャ、前後両方向予測符号化を行うBピクチャを含み、そのGOPの開始位置と、Iピクチャの終了位置と、Pピクチャの終了位置とを管理して、GOPデータの先頭にシーケンスヘッダを設け、ブロック単位の削除等の編集や高速再生処理を可能とした手段が知られている(例えば、特開平11−261962号公報参照)。
【0005】
又動画像を含まない音声についての処理手段として、周囲雑音の周波数成分に従った音量制御を行うことにより、最適な音量とする手段が知られている(例えば、特許第2595914号公報参照)。
【0006】
【特許文献1】
特開平11−261962号公報(第9−14頁,図1−3,図10,図13)
【特許文献2】
特開平11−155131号公報(第1−3頁,図1,図2)
【0007】
【発明が解決しようとする課題】
動画像音声データの編集処理は、動画像のシーンの切れ目を基に削除や挿入を行うものである。例えば、MPEG方式により圧縮符号化した動画像音声データの編集処理は、例えば、前記特許文献1に示すようにGOPを基に行うことができる。しかし、動画像データと音声データとの復号出力タイミングの同期がとれるように、タイムスタンプを付加していても、動画像のシーンの切れ目と音声の切れ目とが一致していない場合が殆どである。その為、単に動画像のシーンの切れ目に従って削除や挿入を行うと、その動画像データのカット点に従って音声データがカットされることになり、再生音声が不自然となる問題がある。
【0008】
そこで、編集時に、音声データを解析して、無音区間を検出し、その無音区間を音声の切れ目とすることが考えられる。しかし、編集過程に於いて、その都度、無音区間の検出処理を必要とすることになり、編集処理負荷が大きくなる問題がある。又動画像の編集過程等に於ける高速再生の一手段として、音声の無音区間をスキップすることができるが、この場合も、再生過程に於いて音声の無音区間を検出する処理が必要となり、処理負荷が大きくなる問題がある。
本発明は、動画像音声データの切れ目について予め検出して管理することにより、編集処理及び高速再生処理の負荷軽減を図ることを目的とする。
【0009】
【課題を解決するための手段】
本発明の動画像音声データ管理編集装置は、動画像データと音声データとを含む動画像音声データを蓄積し、この動画像音声データを再生して表示又は編集を行う動画像音声データ蓄積管理装置であって、音声データのレベルがレベル閾値以下で、且つ区間閾値以上継続する区間を無音区間と見做して、この区間の位置情報と、この区間の長さを示す区間情報と、この区間内の平均レベルを示すレベル情報とを含み、動画像音声データの再生,編集時に参照する管理情報を格納した音声レベル管理テーブルを設けたものである。又音声データをそれぞれ異なる帯域に分割し、各帯域対応に、レベルがレベル閾値以下で、且つ区間閾値以上継続する区間を無音区間と見做して、この区間の位置情報と、この区間の長さを示す区間情報と、この区間内の平均レベルを示すレベル情報とを含む管理情報を格納した帯域対応の音声レベル管理テーブルを設けることもできる。
【0010】
又音声レベル管理テーブルの管理情報を参照して、動画像データの編集時の指定したシーンの切れ目に最も近い前記区間内を動画像データのカット点及び音声データのカット点として編集する動画像音声データ編集装置を備えている。
【0011】
又本発明の編集方法は、動画像データと音声データとを含む動画像音声データを編集する編集方法であって、音声データのレベルがレベル閾値以下で、且つ区間閾値以上継続する区間を無音区間と見做して、この区間の位置情報と、この区間の長さを示す区間情報と、この区間内の平均レベルを示すレベル情報とを含む管理情報を格納した音声レベル管理テーブルを参照し、指定したシーンの切れ目に最も近い無音区間と見做した区間内を動画像データのカット点及び音声データのカットとして編集する過程を含むものである。
【0012】
又音声データのレベルがレベル閾値以下で、且つ区間閾値以上継続する区間を無音区間と見做して、この区間の位置情報と、この区間の長さを示す区間情報と、この区間内の平均レベルを示すレベル情報とを含む管理情報を格納した音声レベル管理テーブルを参照し、無音区間と見做した区間をスキップして高速再生又は該区間をスロー生成する過程を含むものである。
【0013】
【発明の実施の形態】
図1は本発明の第1の実施の形態の説明図であり、1は動画像音声データ蓄積装置、2は動画像音声解析装置、3は音声レベル測定装置、4は管理テーブル作成装置、5は蓄積された動画像音声データAV1、6は音声レベル管理テーブルを示す。
【0014】
動画像音声データ蓄積装置1は、例えば、磁気テープ,磁気ディスク,光磁気ディスク,光ディスク,半導体集積記憶回路等の各種の蓄積媒体を用いて構成することができる。この動画像音声データ蓄積装置1に、動画像データと音声データとを蓄積するものであり、音声レベル管理テーブル6は、動画像音声データ5を蓄積する蓄積媒体の一部領域を利用して構成するか、又は他の蓄積媒体を用いて構成することができる。
【0015】
この実施の形態に於いては、音声レベル管理テーブル6を含む動画像音声データ蓄積装置1と、音声レベル管理テーブル6を作成する為の動画像音声解析装置2と、音声レベル測定装置3と、管理テーブル作成装置4とを含めて動画像音声データ蓄積管理装置を構成した場合を示す。
【0016】
又この実施の形態は、予め動画像音声データ蓄積装置1に動画像音声データ5が蓄積されている場合に、その動画像音声データ5を再生して動画像音声解析装置2に入力し、音声A1と動画像V1とに分離し、音声A1を音声レベル測定装置3に入力する。この音声レベル測定装置3には、予め設定した区間閾値Pth1と、レベル閾値Lth1とを入力し、区間情報,レベル情報,位置情報とを含む管理情報を求めて、管理テーブル作成装置4に入力する。この管理テーブル作成装置4は、入力された情報を、音声レベル管理テーブル6に格納する処理を行う。
【0017】
従って、編集時及び高速再生やスロー再生時に於いて、再生音声データの解析を行うことなく、音声レベル管理テーブル6を参照することにより、音声の切れ目を認識できるから、その切れ目に相当する区間のスキップや、その区間内を削除,挿入の先頭位置とすることにより、編集後や高速再生時,スロー再生時の音声を自然な状態に維持することができる。
【0018】
図2は、音声レベル測定装置3に於ける音声測定を、アナログ波形を用いて説明するもので、音声レベル測定装置3に於いて、音声レベルとレベル閾値Lth1とを比較し、音声レベルL1<Lth1の区間P1と区間閾値Pth1とを比較し、P1>Pth1の場合に、その区間P1を音声の切れ目に相当する無音区間と見做し、音声データの先頭を基準時刻とした時の区間P1の開始時刻T1と、区間P1の継続時間S1とを求め、区間情報,レベル情報,位置情報とを含む管理情報として、管理テーブル作成装置4の制御によって音声レベル管理テーブル6に格納する。なお、レベル情報としては、区間P1内は、完全な無音状態でなく、レベル閾値Lth1以下のレベルの背景雑音等を含むものであるから、この区間P1内の平均レベルを求めて区間P1内のレベル情報とすることができる。又位置情報は、音声データの蓄積位置を識別できるものであれば、蓄積先頭位置からの位置以外の任意の位置指示手段を適用することができる。
【0019】
又次の音声レベルL2<Lth1の区間P2は、P2<Pth1であるから、無音区間と見做さない。従って、その時の区間P2の開始時刻T2と、区間P2の継続時間S2とは、音声レベル管理テーブル6には格納しない。又次の音声レベルL3の区間は、背景雑音によるレベルにより、レベル閾値Lth1より大きいレベルとなっている区間に相当する。しかし、L3>Lth1の関係であるから、その区間の開始時刻T3と、その区間の継続時間S3とは、音声レベル管理テーブル6には格納しない。
【0020】
前述の場合は、音声レベルの瞬時について判定している場合を示すが、単位時間毎の平均値を用いて、レベル閾値Lth1との比較を行うことも可能である。この場合、単位時間毎の平均値レベルについても管理情報として音声レベル管理テーブル6に格納することができる。又周波数帯域により背景雑音と音声とを区別できる場合は、前述の音声レベルL3の場合の区間が区間閾値Pth1以上であると、無音区間と見做すことも可能である。
【0021】
図3は音声レベル管理テーブルの説明図であり、例えば、レベル閾値Lth1=3dB、区間閾値Pth1=5sとした場合に於いて、位置、時刻、レベル平均値、区間時間を格納した場合を示し、No.1は、レベル閾値Lth1以下の区間で、且つ区間閾値Pth1以上の継続する区間であって、先頭からの位置を音声データのバイト数で表し、その時1024Bで、先頭からの時刻10s、その区間内のレベル平均値が2dB、その区間の継続時間が7sの場合を示す。又No.2は、先頭からの位置が2048B、先頭からの時刻が20s、その区間のレベル平均値が1dB、その区間の継続時間が6sの場合を示す。
【0022】
図4は本発明の第2の実施の形態の説明図であり、図1と同一符号は同一部分を示し、7は動画像音声符号化装置である。この実施の形態は、図示を省略した撮像装置又は動画像音声データ再生装置からの音声A1と動画像V1とを入力し、音声レベル測定装置3に於いて音声A1と、区間閾値Pth1とレベル閾値Lth1との比較処理により、音声レベルがレベル閾値Lth1以下の区間で、且つその区間が区間閾値Pth1以上の継続する場合に、無音区間と見做して、区間情報とレベル情報とを管理テーブル作成装置4に入力する。
【0023】
又動画像音声符号化装置7は、例えば、標準化されているMPEG(Moving Picture Experts Group)−2やMPEG−4や、他の方式による圧縮符号化を行う機能を有し、圧縮符号化した動画像音声データ5を動画像音声データ蓄積装置1に蓄積し、その蓄積位置情報を管理テーブル作成装置4に入力する。管理テーブル作成装置4は、この位置情報と、区間情報と、レベル情報とを含む管理情報を音声レベル管理テーブル6に格納する。それにより、動画像音声データ蓄積装置1に動画像データに対応する音声データの無音区間と見做す区間についての管理情報を、例えば、図3に示すように、管理テーブル作成装置4に格納することができる。
【0024】
従って、音声レベル管理テーブル6を参照し、高速再生,スロー再生,編集の場合の音声の切れ目を示す無音区間を識別して、その区間をスキップする高速再生,その区間を低速読出するスロー再生,その区間に動画像のカットや挿入を行う編集を行うことにより、再生時の音声の自然さを維持することができる。
【0025】
図5は本発明の第3の実施の形態の説明図であり、1は動画像音声データ蓄積装置、5は蓄積された動画像音声データAV1、6は音声レベル管理テーブル、11は動画像音声データ編集装置、12は動画像シーン検出装置、13は音声カット点解析装置、14は管理テーブル解析装置を示す。
【0026】
音声レベル管理テーブル6は、前述の図1又は図2について説明したように、動画像音声データ5についてのレベル閾値以下の区間が、区間閾値以上である位置情報等を含む管理情報を格納しており、動画像音声データ編集装置11により動画像シーンのカット編集を行う場合、編集の操作者からシーン指定を動画像シーン検出装置12に入力し、カット編集を可能とする区間時間と音声レベルとを管理テーブル解析装置14に入力する。
【0027】
動画像シーン検出装置12は、指定されたシーンを検出し、その位置情報Tv1を音声カット点解析装置13に転送する。管理テーブル解析装置14は、この位置情報Tv1に最も近い位置情報を音声レベル管理テーブル6から求め、指定された区間時間以上で且つ指定された音声レベル以下の位置を、先頭からの音声カット点位置Ta1として求め、又先頭からの動画像カット点位置Sa1を求めて、動画像音声データのカット編集を行うことができる。そして、音声データについては、無音区間に相当する部分に於いてカット編集するから、編集された動画像音声データを再生した時に、自然な再生音声を得ることができる。
【0028】
図6は本発明の第4の実施の形態の説明図であり、1は動画像音声データ蓄積装置、5は動画像音声データAV1、6は音声レベル管理テーブル、14は管理テーブル解析装置、15は動画像音声再生装置を示す。
【0029】
この実施の形態は、動画像音声再生装置15により、動画像音声データ蓄積装置1に蓄積された動画像音声データ5を再生し、図示を省略したディスプレイ装置等に動画像を表示するもので、その場合に、動画像音声データの無音区間に相当する区間についてはスキップさせて再生する場合を示す。このような高速再生は、動画像データの編集時に於ける編集シーン近傍をサーチする場合にも適用されるものである。
【0030】
前述のカット編集の場合と同様に、区間時間と音声レベルとを管理テーブル解析装置14に入力し、動画像音声再生装置15により、動画像音声データ蓄積装置1に蓄積された動画像音声データ5を再生し、管理テーブル解析装置14は、音声レベル管理テーブル6に格納された管理情報を参照し、動画像音声データ5についての無音区間に相当する位置情報等を解析し、指定された区間時間と音声レベルとに対応した区間をスキップ情報J1として動画像音声再生装置15に入力する。動画像音声再生装置15は、このスキップ情報J1に従って無音区間に相当する区間をスキップさせて再生した音声A1及び動画V1を図示を省略したディスプレイ装置に入力する。従って、動画像をスキップさせて高速再生する場合に、その都度、無音区間を検出する処理が不要となり、且つ無音区間相当する区間をスキップして再生するから不自然な再生音声となることを回避できる。
【0031】
図7は本発明の第5の実施の形態の説明図であり、図6と同一符号は同一部分を示し、管理テーブル解析装置14は、指定された区間時間と音声レベルとの情報を基に、音声レベル管理テーブル6に格納された管理情報を参照し、無音区間と見做した区間の管理情報を基にスロー位置情報J2を求めて動画像音声再生装置15に通知する。この場合は、スロー位置情報J2に従って動画像音声データ蓄積装置1から動画像音声データをスロー再生し、図示を省略したディスプレイ装置に動画像V1と音声A1とを入力することになる。
【0032】
図8は本発明の第6の実施の形態の説明図であり、図6と同一符号は同一部分を示し、動画像音声再生装置15にシーク操作指示を入力して、動画像音声データ蓄積装置1に蓄積された動画像音声データ5のシーク再生を行い、その時、区間時間と音声レベルとの情報を管理テーブル解析装置14に入力しておき、管理テーブル解析装置14は、動画像音声再生装置15から通知されるシーク位置の情報に従って音声レベル管理テーブル6を検索し、シーク位置に最も近い無音区間、即ち、区間時間と音声レベルとに従った区間を求めて、無音位置の情報を動画像音声再生装置15に通知する。動画像音声再生装置15は、シーク後の音声再生開始位置を、その無音位置の情報に従って制御する。それにより、自然な音声再生が可能となる。
【0033】
図9は本発明の第7の実施の形態の説明図であり、1は動画像音声データ蓄積装置、2は動画像音声解析装置、3−1〜3−nは音声レベル測定装置、4は管理テーブル作成装置、5は動画像音声データAV1、6−1〜6−nは音声レベル管理テーブル、21は音声帯域分割装置を示す。
【0034】
動画像音声解析装置2により動画像音声データ5を再生して音声A1と動画像V1とを分離し、音声A1を音声帯域分割装置21に入力し、複数の帯域に分割してそれぞれ音声レベル測定装置3−1〜3−nに入力する。音声レベル測定装置3−1〜3−nは、分割帯域対応に、区間閾値Pth1,Pth2,・・・,Pthnと、レベル閾値Lth1,Lth2,・・・,Lthnとを入力し、分割帯域対応の音声レベルがレベル閾値Lth1,Lth2,・・・,Lthn以下の区間が、区間閾値Pth1,Pth2,・・・,Pthnを超える場合に、無音区間と見做して、その区間情報,レベル情報,位置情報を管理テーブル作成装置4に通知する。この場合、レベル閾値と区間閾値との何れか一方又は両方を、帯域対応に相違させることができる。
【0035】
管理テーブル作成装置4は、音声レベル測定装置3−1〜3−n対応の音声レベル管理テーブル6−1〜6−nに、それぞれ図3に示すように、先頭からの位置と時刻とレベル平均値と区間時間とを含む管理情報を格納することができる。このように、音声帯域分割装置21によって音声A1の帯域を分割することにより、音楽等は高周波数帯域を含むものであるから、人声帯域とBGM(BackGround Music)とを分けて、人声帯域に於ける無音区間と見做す区間を検出することができる。
【0036】
例えば、100Hz〜5kHzの帯域とそれ以外の帯域とに分割し、100Hz〜5kHzの帯域を人声帯域とし、その中にBGM成分が含まれているとしても、レベル閾値をBGM成分が存在しない場合に比較して高く設定することにより、人声帯域に於ける無音区間に相当する区間を検出することができる。従って、編集過程に於いて、人声帯域に於ける無音区間内でカットや挿入を行うことができる。その場合、BGM成分については、不自然とならないように、カットする直前はレベルを徐々に低下させ、又挿入した直後は零のレベルから徐々に上昇させる制御を行うことも可能である。
【0037】
図10は本発明の第8の実施の形態の説明図であり、1は動画像音声データ蓄積装置、5は動画像音声データAV1、6−1,6−2,・・・は音声レベル管理テーブル、11は動画像音声データ編集装置、12は動画像シーン検出装置、13は音声カット点解析装置、14は管理テーブル解析装置、22は音声指定装置を示す。
【0038】
動画像音声データ編集装置11は、動画像音声データ蓄積装置1から動画像音声データ5を再生し、動画像シーン検出装置12は、再生した動画像音声データ5の中から、操作者のシーン指定に従ったシーンを検出する。又音声レベル管理テーブル6−1,6−2,・・・は、図9を参照して説明した音声帯域分割装置21により分割した帯域対応に管理情報を格納したものである。
【0039】
そして、操作者が人声とBGMとの指定や帯域の指定等を行うことにより、音声指定装置22は、指定された帯域対応の音声レベル管理テーブルを選択し、管理テーブル解析装置14は、選択された音声管理テーブルに格納された管理情報を基に、無音区間を求めて音声カット点解析装置13に通知する。又動画像シーン検出装置11は、指定されたシーンを検出してその位置情報Tv1を音声カット点解析装置13に通知する。
【0040】
音声カット点解析装置13は、シーン検出位置情報Tv1に最も近い位置情報を、先頭からの音声カット点位置Ta1として求め、又先頭からの動画像カット点位置Sa1として求めて、動画像音声データのカット編集を行うことができる。この場合、指定された帯域についての無音区間に相当する区間をカット位置とするものである。従って、BGMを含む音声データの場合でも、人声帯域について無音区間に相当する区間内にカット位置を求めることができるから、カット編集によっても、自然な音声再生が可能となる。
【0041】
図11は本発明の第9の実施の形態の説明図であり、MPEG方式等により圧縮符号化した動画像音声データを動画像音声データ蓄積装置1に蓄積し、音声レベル管理テーブル6を作成する場合を示すものである。同図に於いて、4は管理テーブル作成装置、31はデコーダ、32はレベル計測部と時間計測部とを含む音声レベル測定装置、33はレベル閾値Lth1と区間閾値Pth1とを含む閾値を格納したメモリ、34は比較部、35は各部を制御し、又は各部の機能を実現するプロセッサ(CPU)を示す。
【0042】
デコーダ31は、動画像音声データ蓄積装置1に蓄積された圧縮符号化動画像音声データ5を再生して復号化し、且つ音声データと動画像データとに分けて出力し、音声データを音声レベル測定装置32に入力する。この音声レベル測定装置32は、レベル計測部により音声レベルを計測し、時間計測部により先頭からの時間を計測し、メモリ33に格納したレベル閾値Lth1と区間閾値Pth1とを比較部34に於いて比較し、レベル閾値Lth1以下の区間が、区間閾値Pth1を超えて継続している区間を無音区間と見做して、その区間情報と、レベル情報と、位置情報とを、管理テーブル作成装置4に於いて作成し、管理情報として音声レベル管理テーブル6に格納する。この場合、ディジタル処理により音声レベル管理テーブル6に格納する管理情報を作成することができる。従って、プロセッサ35の機能によって各部の機能を実現して、音声レベル管理テーブル6を作成することができる。
【0043】
図12は本発明の第10の実施の形態の説明図であり、高速再生やスロー再生を行う場合について示し、1は動画像音声データ蓄積装置、5は圧縮符号化されて蓄積された動画像音声データ、6は音声データ管理テーブル、41はデコーダ、42は読出制御部、43は編集処理部、44はテーブル展開部、45は分析部、46はメモリ、47は比較制御処理部である。
【0044】
動画像音声データ蓄積装置1には、MPEG方式等により圧縮符号化された動画像音声データ5が蓄積されており、再生された動画像音声データ5はデコーダ41により復号化される。又動画像音声データ5を管理する為の音声レベル管理テーブル6が、例えば、図11に於ける管理テーブル作成装置4によって形成されている。又読出制御部42により動画像音声データ5の読出速度等が制御される。
【0045】
又テーブル展開部44は、音声レベル管理テーブル6に格納された管理情報を展開し、分析部45により音声レベル,区間時間,平均レベル等を抽出し、比較制御処理部47に入力する。この比較制御処理部47に高速再生,スロー再生,ジャンプ等の指示を入力する。又メモリ46に、レベル閾値Lthaと区間閾値Pthaとを設定し、比較制御処理部47は、分析部45からの音声レベルとレベル閾値Lthaとを比較し、又区間時間と区間閾値Pthaとを比較して、再生速度等の指示に従ってデコーダ41と読出制御部42とを制御する。
【0046】
この場合、動画像音声データの音声レベルについて例えば単位時間毎の平均レベルを、音声レベル管理テーブル6に管理情報に含めて格納しているとすると、レベル閾値Lthaと区間閾値Pthaとを、無音区間と見做す区間を識別する為のレベル閾値Lth1と区間閾値Pth1と相違させた値とすることができる。そして、音声レベル管理テーブル6に格納した管理情報をテーブル展開部44に展開し、平均レベル(音声レベル)についてレベル閾値Ltha以下の区間が、区間閾値Ptha以上の長さの場合、高速再生の指示時には、デコーダ41のデコード動作を中止させ、且つ読出制御部42により、その区間を高速で再生させ、又はスキップさせる。従って、高速再生時の無音区間に相当する音声データについてはスキップする状態となるから、高速再生時の再生音声の自然さを維持できる。又スロー再生の指示時には、無音区間に相当する区間、デコーダ41のデコード動作を低速とし、且つ読出制御部42により、その区間を低速で再生させる。従って、音声データを低速再生しても、無音区間に相当するから自然さを維持できる。
【0047】
図13は本発明の第11の実施の形態の説明図であり、1は動画像音声データ蓄積装置、5はMPEG方式等により圧縮符号化された動画像音声データ、6aは音声用レベル管理テーブル、6bはBGM用レベル管理テーブル、51はデコーダ、52は帯域分割装置、53は音声レベル測定装置、54はメモリ、55は比較部、56は管理テーブル作成装置を示す。
【0048】
動画像音声データ蓄積装置1に、圧縮符号化された動画像音声データ5が蓄積され、その動画像音声データ5についての音声用レベル管理テーブル6aとBGM用レベル管理テーブル6bとを作成する場合について示すもので、再生した動画像音声データ5をデコーダ51によりデコードし、復号した音声について帯域分割装置52により人声とBGMとに分割する。
【0049】
帯域分割装置52は、例えば、100Hz〜5kHzを人声帯域とし、それ以外をBGM帯域とした帯域分割を行うことができる。そして、音声レベル測定装置53により、人声帯域とBGM帯域とについてレベル計測及び時間計測を行い、メモリ54に設定したレベル閾値Lth1と区間閾値Pth1とを用いて、比較部55に於いて計測値と比較する。この場合、レベル閾値Lth1と区間閾値Pth1とを人声帯域用とBGM帯域用とに対して異なる値とすることも可能である。
【0050】
そして、レベル閾値Lth1以下の区間が、区間閾値Pth1以上の場合に無音区間と見做し、その区間情報とレベル情報と位置情報とを含む管理情報を、人声帯域に対しては音声用レベル管理テーブル6aに格納し、BGM帯域に対してはBGM用レベル管理テーブル6bに格納する。それにより、編集時や高速再生時等に於いて、音声レベル管理テーブル6aを参照して、無音区間内で動画像の削除や挿入処理を行うことにより、自然な再生音声を得ることができる。又BGM用レベル管理テーブル6bを参照して、編集や再生制御を行う場合は、自然なBGMを再生することができる。
【0051】
本発明は、前述の各実施の形態にのみ限定されるものではなく、種々付加変更することが可能であり、例えば、音声レベル管理テーブル6に格納した管理情報の中の位置情報は、動画像音声データの蓄積位置との対応ができるものであれば、各種の形式を適用することができる。
【0052】
【発明の効果】
以上説明したように、本発明は、蓄積した動画像音声データについての音声データを無音区間と見做すことができる区間の位置や長さ等を示す管理情報を、音声レベル管理テーブル6に予め格納しておくことにより、編集時やそれに伴う高速再生,低速再生時に、音声レベル管理テーブル6を参照して、無音区間と見做す区間内で、音声データのカットや挿入等の編集を行い、又その区間を高速再生又はスキップ又は低速再生させることにより、再生された音声が途中で途切れたり、他の音声に切替えられたりする不自然さを回避することができる利点がある。又音声レベル管理テーブル6は、動画像音声データの蓄積時に同時に管理情報を形成して格納することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の説明図である。
【図2】音声測定の説明図である。
【図3】音声レベル管理テーブルの説明図である。
【図4】本発明の第2の実施の形態の説明図である。
【図5】本発明の第3の実施の形態の説明図である。
【図6】本発明の第4の実施の形態の説明図である。
【図7】本発明の第5の実施の形態の説明図である。
【図8】本発明の第6の実施の形態の説明図である。
【図9】本発明の第7の実施の形態の説明図である。
【図10】本発明の第8の実施の形態の説明図である。
【図11】本発明の第9の実施の形態の説明図である。
【図12】本発明の第10の実施の形態の説明図である。
【図13】本発明の第11の実施の形態の説明図である。
【符号の説明】
1 動画像音声データ蓄積装置
2 動画像音声解析装置
6 音声レベル管理テーブル
11 動画像音声データ編集装置
12 動画像シーン検出装置
13 音声カット点解析装置
14 管理テーブル解析装置
Claims (5)
- 動画像データと音声データとを含む動画像音声データを蓄積し、該動画像音声データを再生して表示又は編集を行う動画像音声データ蓄積管理装置に於いて、
前記音声データのレベルがレベル閾値以下で、且つ区間閾値以上継続する区間を無音区間と見做して該区間の位置情報と、該区間の長さを示す区間情報と、該区間内の平均レベルを示すレベル情報とを含み、前記動画像音声データの再生,編集時に参照する管理情報を格納した音声レベル管理テーブルを設けた
ことを特徴とする動画像音声データ蓄積管理装置。 - 前記音声データをそれぞれ異なる帯域に分割し、各帯域対応に、レベルがレベル閾値以下で、且つ区間閾値以上継続する区間を無音区間と見做して該区間の位置情報と、該区間の長さを示す区間情報と、該区間内の平均レベルを示すレベル情報とを含む管理情報を格納した帯域対応の音声レベル管理テーブルを設けたことを特徴とする請求項1記載の動画像音声データ蓄積管理装置。
- 前記音声レベル管理テーブルの前記管理情報を参照して、前記動画像データの編集時の指定したシーンの切れ目に最も近い前記区間内を前記動画像データのカット点及び音声データのカット点として編集する動画像音声データ編集装置を有することを特徴とする請求項1記載の動画像音声データ蓄積管理装置。
- 動画像データと音声データとを含む動画像音声データを編集する編集方法に於いて、
前記音声データのレベルがレベル閾値以下で、且つ区間閾値以上継続する区間を無音区間と見做して該区間の位置情報と、該区間の長さを示す区間情報と、該区間内の平均レベルを示すレベル情報とを含む管理情報を格納した音声レベル管理テーブルを参照し、指定したシーンの切れ目に最も近い前記無音区間と見做した区間内を動画像データのカット点及び音声データのカットとして編集する過程を含む
ことを特徴とする編集方法。 - 動画像データと音声データとを含む動画像音声データを編集する編集方法に於いて、
前記音声データのレベルがレベル閾値以下で、且つ区間閾値以上継続する区間を無音区間と見做して該区間の位置情報と、該区間の長さを示す区間情報と、該区間内の平均レベルを示すレベル情報とを含む管理情報を格納した音声レベル管理テーブルを参照し、前記無音区間と見做した区間をスキップして高速再生又は該区間をスロー生成する過程を含む
ことを特徴とする編集方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002248019A JP2004088530A (ja) | 2002-08-28 | 2002-08-28 | 動画像音声データ蓄積管理装置及び編集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002248019A JP2004088530A (ja) | 2002-08-28 | 2002-08-28 | 動画像音声データ蓄積管理装置及び編集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004088530A true JP2004088530A (ja) | 2004-03-18 |
Family
ID=32055498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002248019A Pending JP2004088530A (ja) | 2002-08-28 | 2002-08-28 | 動画像音声データ蓄積管理装置及び編集方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004088530A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008199456A (ja) * | 2007-02-15 | 2008-08-28 | Funai Electric Co Ltd | 番組記録再生装置 |
US7756390B2 (en) | 2005-05-17 | 2010-07-13 | Kabushiki Kaisha Toshiba | Video signal separation information setting method and apparatus using audio modes |
JP2013017033A (ja) * | 2011-07-04 | 2013-01-24 | Olympus Imaging Corp | 動画編集装置及び撮影装置 |
JP2015231237A (ja) * | 2014-06-06 | 2015-12-21 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | オーディオ/ビデオファイルを処理する方法及び装置 |
KR102124825B1 (ko) * | 2018-12-27 | 2020-06-19 | 주식회사 산타 | 자동적으로 영상을 트리밍하는 방법 및 그를 이용한 서버 |
-
2002
- 2002-08-28 JP JP2002248019A patent/JP2004088530A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7756390B2 (en) | 2005-05-17 | 2010-07-13 | Kabushiki Kaisha Toshiba | Video signal separation information setting method and apparatus using audio modes |
JP2008199456A (ja) * | 2007-02-15 | 2008-08-28 | Funai Electric Co Ltd | 番組記録再生装置 |
JP2013017033A (ja) * | 2011-07-04 | 2013-01-24 | Olympus Imaging Corp | 動画編集装置及び撮影装置 |
JP2015231237A (ja) * | 2014-06-06 | 2015-12-21 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | オーディオ/ビデオファイルを処理する方法及び装置 |
KR102124825B1 (ko) * | 2018-12-27 | 2020-06-19 | 주식회사 산타 | 자동적으로 영상을 트리밍하는 방법 및 그를 이용한 서버 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5960152A (en) | Information record medium, apparatus for recording the same and apparatus for reproducing the same | |
JP4319548B2 (ja) | ビデオ・トリック・モード再生中における音声番組の再生方法および装置 | |
TWI254281B (en) | Trick mode audio playback | |
TW450007B (en) | Information recording system and information recording method | |
JP2004104728A (ja) | データ編集可能なビデオカメラ、データ編集、記録プログラム、データ記録装置および記録媒体 | |
JP2010011465A (ja) | マルチアングルタイトルに適用可能なメタデータを含む記録媒体、その再生装置及び方法 | |
JPWO2005015907A1 (ja) | データ処理装置 | |
US7835618B2 (en) | Recording apparatus, recording method, program of recording method, and recording medium having program of recording method recorded thereon | |
US20090074375A1 (en) | Method and apparatus for frame accurate editing audio- visual streams | |
JP2004266742A (ja) | ディスク装置、ディスク記録方法、ディスク再生方法、記録媒体、並びにプログラム | |
JP2004088530A (ja) | 動画像音声データ蓄積管理装置及び編集方法 | |
JP2001203967A (ja) | 情報再生装置 | |
JPH08293157A (ja) | 可変フレーム長高能率符号化データの記録再生方法 | |
JPH1042255A (ja) | 動画像記録装置、記録媒体および動画像再生装置 | |
KR100625406B1 (ko) | 데이터 처리 장치 | |
WO2004036582A1 (ja) | Avデータ記録方法、avデータ記録装置、データ記録媒体、プログラム並びにプログラム記録媒体 | |
JPWO2006088090A1 (ja) | エンコード装置、エンコード方法およびエンコードを行うためのコンピュータプログラム | |
JPH08181947A (ja) | 画像圧縮記録媒体及び画像圧縮記録媒体再生装置 | |
JP2004112176A (ja) | 情報処理装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、再生装置 | |
JP4114137B2 (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
JP4441572B2 (ja) | 記録装置 | |
JP2005063627A (ja) | データ処理装置 | |
JP2009199678A (ja) | 情報処理置および方法、並びにプログラム | |
JP2003032628A (ja) | 記録装置及びその方法 | |
JPH07222109A (ja) | 再生装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050704 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080311 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080708 |