JP2013162370A - 画像音声処理装置及び画像音声処理プログラム - Google Patents

画像音声処理装置及び画像音声処理プログラム Download PDF

Info

Publication number
JP2013162370A
JP2013162370A JP2012023627A JP2012023627A JP2013162370A JP 2013162370 A JP2013162370 A JP 2013162370A JP 2012023627 A JP2012023627 A JP 2012023627A JP 2012023627 A JP2012023627 A JP 2012023627A JP 2013162370 A JP2013162370 A JP 2013162370A
Authority
JP
Japan
Prior art keywords
data
audio
audio data
moving image
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012023627A
Other languages
English (en)
Inventor
Ikko Isagi
一皇 伊三木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nikon Corp
Original Assignee
Nikon Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nikon Corp filed Critical Nikon Corp
Priority to JP2012023627A priority Critical patent/JP2013162370A/ja
Publication of JP2013162370A publication Critical patent/JP2013162370A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】好適な音声データの処理が可能な画像音声処理装置を提供する。
【解決手段】動画像データ及び該動画像データに関連した第1音声データを入力する入力部8と、前記第1音声データに基づき曲を推定する推定部4と、前記推定部によって推定された曲に対応する第2音声データを取得する取得部4と、前記動画像データを解析して、被写体の動きの特徴量を抽出する特徴量抽出部4と、前記特徴量に基づいて、前記動画像データに前記第2音声データを同期させる同期処理部4とを備える。
【選択図】 図1

Description

本発明は、画像音声処理装置及び画像音声処理プログラムに関するものである。
音声データより、曲名、作曲者を判別する技術は複数のソフトウェアやWebサービスで提供されている(例えば、特許文献1参照)。これらの技術は基本的に2種類の音声データの同定を行なうことで、曲を特定するものである。また動画像データと音声データを同期させる際にリップシンク処理を用い、動画像の被写体の口の動きと音声とを一致させることが可能となっている(例えば、特許文献2参照)。
特許第4425126号公報 特開平09−9224号公報
ところで動画像データと音声データが、それぞれ独立したファイルに記録され、各データが個別に扱われる場合がある。その場合、事故などで音声データの内容や音声ファイルが破損し、音声データが失われることがあった。また、電子カメラ等の動画像を撮影する撮影装置は一般に録音機能も備えているが、その性能は十分なものと言い難いため、音の割れ、歪みが発生する場合があり、更には撮影装置以外が原因のノイズの混入等によって視聴に耐えがたい音質となる場合もある。このような場合には、雑音等が混ざった音声データを代替するために音声ファイルを加工して別の音楽を流すことがなされていた。
これらは、音楽の演奏を記録した動画像の音声データでも同様であり、別の時期に記録された同じ曲の音声データを、人手によって様々に加工し、使用できない音声データの代用とすることが行なわれている。
しかしながら、雑音等が混ざった音声データの代わりに別の音声データを用いるときには、放送局などが使用する高価な編集機器を用いた処理や、熟練者による時間をかけた処理が必要であった。
本発明の目的は、好適な音声データの処理が可能な画像音声処理装置及び画像音声処理プログラムを提供することである。
本発明の画像音声処理装置は、動画像データ及び該動画像データに関連した第1音声データを入力する入力部と、前記第1音声データに基づき曲を推定する推定部と、前記推定部によって推定された曲に対応する第2音声データを取得する取得部と、前記動画像データを解析して、被写体の動きの特徴量を抽出する特徴量抽出部と、前記特徴量に基づいて、前記動画像データに前記第2音声データを同期させる同期処理部と、を備えることを特徴とする。
本発明の画像音声処理プログラムは、コンピュータを、動画像データ及び該動画像データに関連した第1音声データを入力する入力手段、前記第1音声データに基づき曲を推定する推定手段、前記推定手段によって推定された曲に対応する第2音声データを取得する取得手段、前記動画像データを解析して、被写体の動きの特徴量を抽出する特徴量抽出手段、前記特徴量に基づいて、前記動画像データに前記第2音声データを同期させる同期処理手段として機能させることを特徴とする。
本発明によれば、好適な音声データの処理ができる。
実施の形態に係る画像音声処理装置の構成を示すブロック図である。 実施の形態に係る動画像データに第2音声データを同期させる処理を示すフローチャートである。
以下、図面を参照して、本発明の第1の実施の形態に係る画像音声処理装置について説明する。図1は、画像音声処理装置の構成を示すブロック図である。図1において画像音声処理装置2は、PC(パーソナルコンピュータ)等であって画像音声処理装置2の全体を制御するCPU4を備えている。CPU4には、記録部6、入力I/F8、通信部10、表示部12、操作部14、メモリ16及び音声データに基づく音声を出力するスピーカ18が接続されている。記録部6はハードディスク等であって様々な曲の音声データが記録されている。入力I/F8は、図示しない撮影装置によって撮影された動画像データとそれに関連する音声データが記憶されたSDカード等の媒体が挿入されるカードスロット等であり、挿入された媒体に記憶されている動画像データ及び音声データが入力される。
通信部10は、CPU4の指示に従い、インターネット回線等を介して様々な曲の音声データが格納されたデータベース20との間の通信処理を行なう。表示部12は、LCD等の表示画面を有してCPU4による処理結果や動画像データに基づく動画像等を表示する。操作部14は、マウスやキーボード等からなりユーザの入力操作を受け付ける。メモリ16は、記録部6に記録された音声データやデータベース20に格納されている音声データを参照して入力された音声データの曲名を推定する推定処理、動画像データを解析して被写体の動きの特徴量を抽出する抽出処理、特徴量に基づいて音声データの時間軸を変化させる音声処理等の各種処理をCPU4が実行するためのプログラムを記憶する。
次に図2に示すフローチャートを参照して、動画像データの撮影と同時に録音された音声データと異なる音声データを、該動画像データに同期させる処理について説明する。ここではピアノの演奏を撮影した動画像データを例に説明する。なお動画像データの撮影と同時に録音された音声データには撮影装置が有するマイクの性能が十分ではないことから、雑音、歪みが発生しているものとする。
先ずユーザは操作部14の操作によってSDカードに記録された動画像の中から編集対象となる動画像を選択する(ステップS1)。
ユーザが編集対象の動画像を選択すると、CPU4は、選択された動画像の動画像データと、動画像データに関連付けられている音声データ(以下、第1音声データという。)を入力I/F8を介してSDカードから読み出す(ステップS2)。CPU4は読み出した音声データ及び動画像データに対する処理を実行する。
先ず、音声データの処理について説明する。CPU4は、第1音声データにおける演奏と無関係な拍手が録音されている部分や音声が割れている部分等の非正常音声部分の検出を行なう(ステップS3)。具体的には第1音声データの音声信号の振幅において、最大の振幅が継続しているか否かに基づいて歪みが発生している部分を検出する。即ち撮影装置が備えるマイクの録音可能な音量を超えた音声が入力されたために音声が割れてしまった部分を検出する。更にウェーブレット変換によって拍手の音声等のインパルス雑音が集中する部分を検出する。
CPU4は、検出した非正常音声部分を第1音声データから除去する(ステップS4)。CPU4は第1音声データのフレーム毎の音量や音程等を表わすフレーム毎の多次元ベクトルのシーケンスを求める(ステップS5)。具体的には、第1音声データの正常音声部分について自己相関ピッチトラッキング等を用いた解析を行ない、ピッチ曲線の検出、ピッチ値の量子化による音符化、音量が閾値以下の無音部分の検出による休符の識別を行なうことにより、フレーム毎の多次元ベクトルのシーケンスを求める。
CPU4は、第1音声データの多次元ベクトルのシーケンスと類似した多次元ベクトルのシーケンスを有する音声データを記録部6に記録された音声データの中から検索する(ステップS6)。なお、記録部6に記録されている各曲の音声データについては、予めステップS5で行なわれると同一の処理が行なわれ多次元ベクトルのシーケンスが求められている。CPU4は、検索結果に基づいて第1音声データの曲名を推定し、推定した曲名の音声データ(以下、第2音声データという。)を記録部6から読み出して取得する(ステップS7)。推定した曲名の音声データが複数記録されている場合には、第1音声データの音量変化、曲の出だしを示すアタック等の特徴的な部分が特に類似している音声データを読み出す。或いは各音声データの作曲者名、代表的な演奏者名等からなる一覧を表示部12に表示させ、音声データをユーザに選択させてもよい。そしてCPU4は取得した第2音声データのフレーム毎の多次元ベクトルのシーケンスを求める(ステップS8)。
次に、動画像データの処理について説明する。CPU4は、ニュートラルネットワークエンジン等を用いて画像処理を行ない、動画像データの各フレーム画像から演奏者の顔を検出し、検出した顔との相対位置や肌色の検出等によって演奏者の手を検出する(ステップS10)。
ここで、ピアノのような打弦楽器においては、打鍵の強弱による鍵盤の下方への移動速度によって音量が決定する。従って演奏者の鍵盤を打つ手の速度及び加速度の少なくとも一方を被写体の動きの特徴量とし、鍵盤を打つ手の動きから音量を定めることができる。また、ピアノは演奏者から見た左側に低い音の鍵、右側に高い音が出る鍵が並ぶことから、演奏者の鍵盤を打つ手の位置を被写体の動きの特徴量とし、鍵盤を打つ手の位置から音域を推定できる。
CPU4は、動画像データのフレーム間差分に基づいた演奏者の手の位置、形状、及び大きさの変化により、鍵盤を打つ手の速度又は加速度を演算する。またCPU4は、フレーム間差分に基づいた顔の位置及び向きに対する手の相対位置を特定する。これによってCPU4は、動画像データのフレーム毎に、音量の増減や演奏されている音域を推定する(ステップS11)。
CPU4は、動画像データのおける演奏者の顔位置の変動や、上述した第1音声データのインパルス雑音による拍手のタイミング等によって推定演奏時間を算出する(ステップS12)。CPU4は、顔位置の変動や推定演奏時間等から決定される動画像データにおける演奏部分のフレーム画像と、動画像データから推定した音量の増減及び音域に基づいて、フレーム画像毎に演奏されたと推定される音域と音量を示した推定ピッチ空間を算出する(ステップS13)。
CPU4は、動画像データから算出した推定ピッチ空間と、ステップS8において求めた第2音声データのフレーム毎の多次元ベクトルのシーケンスとを用い、動画像データにおける曲の出だしを示すフレーム画像と、第2音声データの曲の出だしが合致するように、動画像データと第2音声データとをマッチングさせる。
そしてCPU4は動画像データから算出した推定ピッチ空間により得られる音量増減のタイミングと、第2音声データの音量増減のタイミングとのズレの有無を確認する。ここでは音量増減のタイミングにズレが生じているものとする。
CPU4はズレが生じている部分毎に、動画像データにおいて推定した音量増減のタイミングに、第2音声データの音声増減のタイミングが合致するように第2音声データの再生速度を決定する(ステップS14)。CPU4は、決定した再生速度に基づいて第2音声データの再生タイムテーブルを作成する(ステップS15)。
CPU4は、再生タイムテーブルに応じて時間軸を変動させた第2音声データを作成する(ステップS16)。CPU4は時間軸を変動させた第2音声データと、動画像データを同期させて記録部6に記録し、表示部12に完了した旨の画面を表示して処理を終了する(ステップS17)。
なお、ユーザが光学ディスクへの書き込みを操作部14の操作によって指示した場合、CPU4は、光学ディスクなどの規格に準拠するよう動画像データ及び音声データの圧縮、ディスク記録用イメージの作成を行なって、圧縮した動画像データ及び音声データの光学ディスクへの書き込みを行なう。
この実施の形態によれば、非正常音声部分を含む第1音声データに対応する第2音声データの時間軸を動画像における演奏者の動きに合うように変動させてから、動画像データと第2音声データとを同期させるため、非正常音声部分を含む第1音声データの代わりとなる第2音声データを容易に動画像データに同期させることができる。
なお、上述の実施の形態においては、ピアノ演奏の動画像データ及び音声データを例に説明したが、この技術はギターやドラムなどの楽器演奏の動画像データ及び音声データに適用することができる。ギターの場合は弦を弾く手の速度及び加速度を特徴量にして動画像データから音量の増減を推定する。ドラムの場合は打楽器を叩くスティックの速度及び加速度を特徴量にして音量の増減を推定し、スティックが叩く打楽器の種別によって音域を推定する。
また、上述の実施の形態において、音声データの多次元ベクトルのシーケンスを楽器ごとに求め、かつ演奏者の顔識別などによって動画像内の特定楽器演奏シーンの判別を行なえば、複数楽器による合奏等を撮影した動画像データ及び音声データにも本発明を適用することができる。
また、上述の実施の形態においては、PC等の画像音声処理装置において、入力I/F8から動画像データと音声データが入力された場合を例に説明したが、どちらか一方が取得済みでもう一方を記録しながら上述した処理を行なうことも可能である。入力I/F8によるデータの通信速度が記録部6との通信速度に比較して遅い場合、入力I/F8から得られる各種データを一旦記録部6に複写し、その後記録部6に複写された動画像データ、音声データを用いて上述した処理を行うことも可能である。また専用ハードウェアを追加して処理の高速化を図ることも可能である。
また、上述の実施の形態においては、記録部6から取得した音声データ全体を動画像データに同期させたが、第1音声データの非正常音声部分の代わりとなる音声データの音声部分を第1音声データの正常音声部分と組み合わせて第2音声データとすることも可能である。この場合、CPU4は第1音声データと高い確率で一致がみられる音声データを記録部6から取得する。そしてCPU4は、取得した音声データから、第1音声データの非正常音声部分に対応する音声部分を切り取り、その切り取った音声部分を非正常音声部分の代わりに第1音声データに組み合わせ第2音声データとする。その後、CPU4は上述した第2音声データの時間軸を変動させる処理を行なって動画像データと第2音声データのマッチングを行なう。
また、上述の実施の形態において、例えば非正常音声部分が第1音声データ全体に対して所定の割合(例えば、30パーセント)以上のときには上述した実施の形態と同様に、記録部6から取得した第2音声データを動画像データに同期させる方法を用いる。しかし所定の割合未満のときには第1音声データの非正常音声部分を記録部6から取得した音声データの音声部分を組み合わせて第2音声データとする方法を用いるようにしてもよい。
また、上述の実施の形態においては、記録部6を検索して曲名を推定し、第2音声データを記録部6から読み出して取得したが、データベース20との通信処理によって曲名を推定し第2音声データを取得してもよい。その場合にはCPU4は通信部10によって第1音声データの多次元ベクトルのシーケンスをデータベース20に送信する。これによりCPU4は、データベース20から多次元ベクトルのシーケンスが高い確率で一致する音声データの曲名や作曲者名、演奏者名を取得すると共に、該当する音声データを第2音声データとして受信して取得する。
また、上述の実施の形態においては、動画像データに合わせて第2音声データの時間軸を変動させその再生速度を調整するものとして説明したが、第2音声データに合わせて動画像データの時間軸を変動させてその再生速度を調整してもよい。
2…画像音声処理装置、4…CPU、6…記録部、8…入力I/F、10…通信部、12…表示部、14…操作部、16…メモリ、20…データベース。

Claims (8)

  1. 動画像データ及び該動画像データに関連した第1音声データを入力する入力部と、
    前記第1音声データに基づき曲を推定する推定部と、
    前記推定部によって推定された曲に対応する第2音声データを取得する取得部と、
    前記動画像データを解析して、被写体の動きの特徴量を抽出する特徴量抽出部と、
    前記特徴量に基づいて、前記動画像データに前記第2音声データを同期させる同期処理部と、
    を備えることを特徴とする画像音声処理装置。
  2. 前記同期処理部は、前記特徴量抽出部により抽出された特徴量に基づいて、前記第2音声データの時間軸を変動させて、前記動画像データに前記第2音声データを同期させることを特徴とする請求項1に記載の画像音声処理装置。
  3. 前記同期処理部は、前記第2音声データの時間軸を部分的に変動させることを特徴とする請求項2に記載の画像音声処理装置。
  4. 前記第1音声データの非正常音声部分を除去する除去部と、
    前記除去部により除去された非正常音声部分が前記第1音声データ全体に対して所定の割合未満のとき、前記非正常音声部分に対応する音声を前記第2音声データから抽出する音声抽出部とを備え、
    前記第1音声データの正常音声部分に、前記第2音声データから抽出された音声部分を組み合わせて前記第2音声データとすることを特徴とする請求項1〜請求項3の何れか一項に記載の画像音声処理装置。
  5. 前記第1音声データの非正常音声部分を除去する除去部を備え、
    前記同期処理部は、前記除去部により除去された非正常音声部分が前記第1音声データ全体に対して所定の割合以上のとき、前記第2音声データの全体を前記動画像データに同期させることを特徴とする請求項1〜請求項3の何れか一項に記載の画像音声処理装置。
  6. 被写体の動きの速度及び加速度の少なくとも一方から求められる前記特徴量に基づいて前記第2音声データの音量が定められることを特徴とする請求項1〜請求項5の何れか一項に記載の画像音声処理装置。
  7. 被写体としての演奏者に対する手の位置から求められる前記特徴量に基づいて前記第2音声データの音域を推定することを特徴とする請求項1〜請求項6の何れか一項に記載の画像音声処理装置。
  8. コンピュータを、
    動画像データ及び該動画像データに関連した第1音声データを入力する入力手段、
    前記第1音声データに基づき曲を推定する推定手段、
    前記推定手段によって推定された曲に対応する第2音声データを取得する取得手段、
    前記動画像データを解析して、被写体の動きの特徴量を抽出する特徴量抽出手段、
    前記特徴量に基づいて、前記動画像データに前記第2音声データを同期させる同期処理手段
    として機能させることを特徴とする画像音声処理プログラム。

JP2012023627A 2012-02-07 2012-02-07 画像音声処理装置及び画像音声処理プログラム Pending JP2013162370A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012023627A JP2013162370A (ja) 2012-02-07 2012-02-07 画像音声処理装置及び画像音声処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012023627A JP2013162370A (ja) 2012-02-07 2012-02-07 画像音声処理装置及び画像音声処理プログラム

Publications (1)

Publication Number Publication Date
JP2013162370A true JP2013162370A (ja) 2013-08-19

Family

ID=49174278

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012023627A Pending JP2013162370A (ja) 2012-02-07 2012-02-07 画像音声処理装置及び画像音声処理プログラム

Country Status (1)

Country Link
JP (1) JP2013162370A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9508386B2 (en) 2014-06-27 2016-11-29 Nokia Technologies Oy Method and apparatus for synchronizing audio and video signals

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9508386B2 (en) 2014-06-27 2016-11-29 Nokia Technologies Oy Method and apparatus for synchronizing audio and video signals

Similar Documents

Publication Publication Date Title
EP2567331B1 (en) Methods and systems for synchronizing media
US9159338B2 (en) Systems and methods of rendering a textual animation
JP5145939B2 (ja) 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム
JP2006506659A (ja) フィンガープリントのサーチおよびその改良
JP5706718B2 (ja) 動画合成システム及び方法並びに動画合成プログラム及びその記憶媒体
KR101648931B1 (ko) 리듬 게임 제작 방법, 장치 및 이를 컴퓨터에서 실행하기 위한 컴퓨터 프로그램
JP5050445B2 (ja) 動画再生装置及び動画再生方法
JP4513165B2 (ja) 番組記録方法及び番組記録装置及び番組記録再生装置及び番組記録再生方法
US20070051230A1 (en) Information processing system and information processing method
JP2004153764A (ja) メタデータ制作装置及び検索装置
JP2013162370A (ja) 画像音声処理装置及び画像音声処理プログラム
JP5338312B2 (ja) 自動演奏同期装置、自動演奏鍵盤楽器およびプログラム
JP2007199574A (ja) 楽曲再生装置、楽曲テロップ検索サーバ
Six et al. A robust audio fingerprinter based on pitch class histograms applications for ethnic music archives
KR100670443B1 (ko) 음악/이미지 동조용 데이터 파일이 기록된 컴퓨터로 읽을수 있는 기록매체 및 이미지 데이터 샘플을 오디오 파일에삽입하는 방법
JP2007048351A (ja) オーディオ再生装置
JP5687961B2 (ja) 同期再生装置及び同期再生方法
JP7102826B2 (ja) 情報処理方法および情報処理装置
JP6413828B2 (ja) 情報処理方法、情報処理装置、及びプログラム
WO2018047275A1 (ja) 表示タイミング決定装置、表示タイミング決定方法、及びプログラム
JP2013171064A (ja) コンテンツ再生装置及びコンテンツ再生方法