JP2013162370A

JP2013162370A - 画像音声処理装置及び画像音声処理プログラム

Info

Publication number: JP2013162370A
Application number: JP2012023627A
Authority: JP
Inventors: Ikko Isagi; 一皇伊三木
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2012-02-07
Filing date: 2012-02-07
Publication date: 2013-08-19

Abstract

【課題】好適な音声データの処理が可能な画像音声処理装置を提供する。
【解決手段】動画像データ及び該動画像データに関連した第１音声データを入力する入力部８と、前記第１音声データに基づき曲を推定する推定部４と、前記推定部によって推定された曲に対応する第２音声データを取得する取得部４と、前記動画像データを解析して、被写体の動きの特徴量を抽出する特徴量抽出部４と、前記特徴量に基づいて、前記動画像データに前記第２音声データを同期させる同期処理部４とを備える。
【選択図】図１

Description

本発明は、画像音声処理装置及び画像音声処理プログラムに関するものである。

音声データより、曲名、作曲者を判別する技術は複数のソフトウェアやＷｅｂサービスで提供されている（例えば、特許文献１参照）。これらの技術は基本的に２種類の音声データの同定を行なうことで、曲を特定するものである。また動画像データと音声データを同期させる際にリップシンク処理を用い、動画像の被写体の口の動きと音声とを一致させることが可能となっている（例えば、特許文献２参照）。

特許第４４２５１２６号公報特開平０９−９２２４号公報

ところで動画像データと音声データが、それぞれ独立したファイルに記録され、各データが個別に扱われる場合がある。その場合、事故などで音声データの内容や音声ファイルが破損し、音声データが失われることがあった。また、電子カメラ等の動画像を撮影する撮影装置は一般に録音機能も備えているが、その性能は十分なものと言い難いため、音の割れ、歪みが発生する場合があり、更には撮影装置以外が原因のノイズの混入等によって視聴に耐えがたい音質となる場合もある。このような場合には、雑音等が混ざった音声データを代替するために音声ファイルを加工して別の音楽を流すことがなされていた。

これらは、音楽の演奏を記録した動画像の音声データでも同様であり、別の時期に記録された同じ曲の音声データを、人手によって様々に加工し、使用できない音声データの代用とすることが行なわれている。

しかしながら、雑音等が混ざった音声データの代わりに別の音声データを用いるときには、放送局などが使用する高価な編集機器を用いた処理や、熟練者による時間をかけた処理が必要であった。

本発明の目的は、好適な音声データの処理が可能な画像音声処理装置及び画像音声処理プログラムを提供することである。

本発明の画像音声処理装置は、動画像データ及び該動画像データに関連した第１音声データを入力する入力部と、前記第１音声データに基づき曲を推定する推定部と、前記推定部によって推定された曲に対応する第２音声データを取得する取得部と、前記動画像データを解析して、被写体の動きの特徴量を抽出する特徴量抽出部と、前記特徴量に基づいて、前記動画像データに前記第２音声データを同期させる同期処理部と、を備えることを特徴とする。

本発明の画像音声処理プログラムは、コンピュータを、動画像データ及び該動画像データに関連した第１音声データを入力する入力手段、前記第１音声データに基づき曲を推定する推定手段、前記推定手段によって推定された曲に対応する第２音声データを取得する取得手段、前記動画像データを解析して、被写体の動きの特徴量を抽出する特徴量抽出手段、前記特徴量に基づいて、前記動画像データに前記第２音声データを同期させる同期処理手段として機能させることを特徴とする。

本発明によれば、好適な音声データの処理ができる。

実施の形態に係る画像音声処理装置の構成を示すブロック図である。実施の形態に係る動画像データに第２音声データを同期させる処理を示すフローチャートである。

以下、図面を参照して、本発明の第１の実施の形態に係る画像音声処理装置について説明する。図１は、画像音声処理装置の構成を示すブロック図である。図１において画像音声処理装置２は、ＰＣ（パーソナルコンピュータ）等であって画像音声処理装置２の全体を制御するＣＰＵ４を備えている。ＣＰＵ４には、記録部６、入力Ｉ／Ｆ８、通信部１０、表示部１２、操作部１４、メモリ１６及び音声データに基づく音声を出力するスピーカ１８が接続されている。記録部６はハードディスク等であって様々な曲の音声データが記録されている。入力Ｉ／Ｆ８は、図示しない撮影装置によって撮影された動画像データとそれに関連する音声データが記憶されたＳＤカード等の媒体が挿入されるカードスロット等であり、挿入された媒体に記憶されている動画像データ及び音声データが入力される。

通信部１０は、ＣＰＵ４の指示に従い、インターネット回線等を介して様々な曲の音声データが格納されたデータベース２０との間の通信処理を行なう。表示部１２は、ＬＣＤ等の表示画面を有してＣＰＵ４による処理結果や動画像データに基づく動画像等を表示する。操作部１４は、マウスやキーボード等からなりユーザの入力操作を受け付ける。メモリ１６は、記録部６に記録された音声データやデータベース２０に格納されている音声データを参照して入力された音声データの曲名を推定する推定処理、動画像データを解析して被写体の動きの特徴量を抽出する抽出処理、特徴量に基づいて音声データの時間軸を変化させる音声処理等の各種処理をＣＰＵ４が実行するためのプログラムを記憶する。

次に図２に示すフローチャートを参照して、動画像データの撮影と同時に録音された音声データと異なる音声データを、該動画像データに同期させる処理について説明する。ここではピアノの演奏を撮影した動画像データを例に説明する。なお動画像データの撮影と同時に録音された音声データには撮影装置が有するマイクの性能が十分ではないことから、雑音、歪みが発生しているものとする。

先ずユーザは操作部１４の操作によってＳＤカードに記録された動画像の中から編集対象となる動画像を選択する（ステップＳ１）。

ユーザが編集対象の動画像を選択すると、ＣＰＵ４は、選択された動画像の動画像データと、動画像データに関連付けられている音声データ（以下、第１音声データという。）を入力Ｉ／Ｆ８を介してＳＤカードから読み出す（ステップＳ２）。ＣＰＵ４は読み出した音声データ及び動画像データに対する処理を実行する。

先ず、音声データの処理について説明する。ＣＰＵ４は、第１音声データにおける演奏と無関係な拍手が録音されている部分や音声が割れている部分等の非正常音声部分の検出を行なう（ステップＳ３）。具体的には第１音声データの音声信号の振幅において、最大の振幅が継続しているか否かに基づいて歪みが発生している部分を検出する。即ち撮影装置が備えるマイクの録音可能な音量を超えた音声が入力されたために音声が割れてしまった部分を検出する。更にウェーブレット変換によって拍手の音声等のインパルス雑音が集中する部分を検出する。

ＣＰＵ４は、検出した非正常音声部分を第１音声データから除去する（ステップＳ４）。ＣＰＵ４は第１音声データのフレーム毎の音量や音程等を表わすフレーム毎の多次元ベクトルのシーケンスを求める（ステップＳ５）。具体的には、第１音声データの正常音声部分について自己相関ピッチトラッキング等を用いた解析を行ない、ピッチ曲線の検出、ピッチ値の量子化による音符化、音量が閾値以下の無音部分の検出による休符の識別を行なうことにより、フレーム毎の多次元ベクトルのシーケンスを求める。

ＣＰＵ４は、第１音声データの多次元ベクトルのシーケンスと類似した多次元ベクトルのシーケンスを有する音声データを記録部６に記録された音声データの中から検索する（ステップＳ６）。なお、記録部６に記録されている各曲の音声データについては、予めステップＳ５で行なわれると同一の処理が行なわれ多次元ベクトルのシーケンスが求められている。ＣＰＵ４は、検索結果に基づいて第１音声データの曲名を推定し、推定した曲名の音声データ（以下、第２音声データという。）を記録部６から読み出して取得する（ステップＳ７）。推定した曲名の音声データが複数記録されている場合には、第１音声データの音量変化、曲の出だしを示すアタック等の特徴的な部分が特に類似している音声データを読み出す。或いは各音声データの作曲者名、代表的な演奏者名等からなる一覧を表示部１２に表示させ、音声データをユーザに選択させてもよい。そしてＣＰＵ４は取得した第２音声データのフレーム毎の多次元ベクトルのシーケンスを求める（ステップＳ８）。

次に、動画像データの処理について説明する。ＣＰＵ４は、ニュートラルネットワークエンジン等を用いて画像処理を行ない、動画像データの各フレーム画像から演奏者の顔を検出し、検出した顔との相対位置や肌色の検出等によって演奏者の手を検出する（ステップＳ１０）。

ここで、ピアノのような打弦楽器においては、打鍵の強弱による鍵盤の下方への移動速度によって音量が決定する。従って演奏者の鍵盤を打つ手の速度及び加速度の少なくとも一方を被写体の動きの特徴量とし、鍵盤を打つ手の動きから音量を定めることができる。また、ピアノは演奏者から見た左側に低い音の鍵、右側に高い音が出る鍵が並ぶことから、演奏者の鍵盤を打つ手の位置を被写体の動きの特徴量とし、鍵盤を打つ手の位置から音域を推定できる。

ＣＰＵ４は、動画像データのフレーム間差分に基づいた演奏者の手の位置、形状、及び大きさの変化により、鍵盤を打つ手の速度又は加速度を演算する。またＣＰＵ４は、フレーム間差分に基づいた顔の位置及び向きに対する手の相対位置を特定する。これによってＣＰＵ４は、動画像データのフレーム毎に、音量の増減や演奏されている音域を推定する（ステップＳ１１）。

ＣＰＵ４は、動画像データのおける演奏者の顔位置の変動や、上述した第１音声データのインパルス雑音による拍手のタイミング等によって推定演奏時間を算出する（ステップＳ１２）。ＣＰＵ４は、顔位置の変動や推定演奏時間等から決定される動画像データにおける演奏部分のフレーム画像と、動画像データから推定した音量の増減及び音域に基づいて、フレーム画像毎に演奏されたと推定される音域と音量を示した推定ピッチ空間を算出する（ステップＳ１３）。

ＣＰＵ４は、動画像データから算出した推定ピッチ空間と、ステップＳ８において求めた第２音声データのフレーム毎の多次元ベクトルのシーケンスとを用い、動画像データにおける曲の出だしを示すフレーム画像と、第２音声データの曲の出だしが合致するように、動画像データと第２音声データとをマッチングさせる。

そしてＣＰＵ４は動画像データから算出した推定ピッチ空間により得られる音量増減のタイミングと、第２音声データの音量増減のタイミングとのズレの有無を確認する。ここでは音量増減のタイミングにズレが生じているものとする。

ＣＰＵ４はズレが生じている部分毎に、動画像データにおいて推定した音量増減のタイミングに、第２音声データの音声増減のタイミングが合致するように第２音声データの再生速度を決定する（ステップＳ１４）。ＣＰＵ４は、決定した再生速度に基づいて第２音声データの再生タイムテーブルを作成する（ステップＳ１５）。

ＣＰＵ４は、再生タイムテーブルに応じて時間軸を変動させた第２音声データを作成する（ステップＳ１６）。ＣＰＵ４は時間軸を変動させた第２音声データと、動画像データを同期させて記録部６に記録し、表示部１２に完了した旨の画面を表示して処理を終了する（ステップＳ１７）。

なお、ユーザが光学ディスクへの書き込みを操作部１４の操作によって指示した場合、ＣＰＵ４は、光学ディスクなどの規格に準拠するよう動画像データ及び音声データの圧縮、ディスク記録用イメージの作成を行なって、圧縮した動画像データ及び音声データの光学ディスクへの書き込みを行なう。

この実施の形態によれば、非正常音声部分を含む第１音声データに対応する第２音声データの時間軸を動画像における演奏者の動きに合うように変動させてから、動画像データと第２音声データとを同期させるため、非正常音声部分を含む第１音声データの代わりとなる第２音声データを容易に動画像データに同期させることができる。

なお、上述の実施の形態においては、ピアノ演奏の動画像データ及び音声データを例に説明したが、この技術はギターやドラムなどの楽器演奏の動画像データ及び音声データに適用することができる。ギターの場合は弦を弾く手の速度及び加速度を特徴量にして動画像データから音量の増減を推定する。ドラムの場合は打楽器を叩くスティックの速度及び加速度を特徴量にして音量の増減を推定し、スティックが叩く打楽器の種別によって音域を推定する。

また、上述の実施の形態において、音声データの多次元ベクトルのシーケンスを楽器ごとに求め、かつ演奏者の顔識別などによって動画像内の特定楽器演奏シーンの判別を行なえば、複数楽器による合奏等を撮影した動画像データ及び音声データにも本発明を適用することができる。

また、上述の実施の形態においては、ＰＣ等の画像音声処理装置において、入力Ｉ／Ｆ８から動画像データと音声データが入力された場合を例に説明したが、どちらか一方が取得済みでもう一方を記録しながら上述した処理を行なうことも可能である。入力Ｉ／Ｆ８によるデータの通信速度が記録部６との通信速度に比較して遅い場合、入力Ｉ／Ｆ８から得られる各種データを一旦記録部６に複写し、その後記録部６に複写された動画像データ、音声データを用いて上述した処理を行うことも可能である。また専用ハードウェアを追加して処理の高速化を図ることも可能である。

また、上述の実施の形態においては、記録部６から取得した音声データ全体を動画像データに同期させたが、第１音声データの非正常音声部分の代わりとなる音声データの音声部分を第１音声データの正常音声部分と組み合わせて第２音声データとすることも可能である。この場合、ＣＰＵ４は第１音声データと高い確率で一致がみられる音声データを記録部６から取得する。そしてＣＰＵ４は、取得した音声データから、第１音声データの非正常音声部分に対応する音声部分を切り取り、その切り取った音声部分を非正常音声部分の代わりに第１音声データに組み合わせ第２音声データとする。その後、ＣＰＵ４は上述した第２音声データの時間軸を変動させる処理を行なって動画像データと第２音声データのマッチングを行なう。

また、上述の実施の形態において、例えば非正常音声部分が第１音声データ全体に対して所定の割合（例えば、３０パーセント）以上のときには上述した実施の形態と同様に、記録部６から取得した第２音声データを動画像データに同期させる方法を用いる。しかし所定の割合未満のときには第１音声データの非正常音声部分を記録部６から取得した音声データの音声部分を組み合わせて第２音声データとする方法を用いるようにしてもよい。

また、上述の実施の形態においては、記録部６を検索して曲名を推定し、第２音声データを記録部６から読み出して取得したが、データベース２０との通信処理によって曲名を推定し第２音声データを取得してもよい。その場合にはＣＰＵ４は通信部１０によって第１音声データの多次元ベクトルのシーケンスをデータベース２０に送信する。これによりＣＰＵ４は、データベース２０から多次元ベクトルのシーケンスが高い確率で一致する音声データの曲名や作曲者名、演奏者名を取得すると共に、該当する音声データを第２音声データとして受信して取得する。

また、上述の実施の形態においては、動画像データに合わせて第２音声データの時間軸を変動させその再生速度を調整するものとして説明したが、第２音声データに合わせて動画像データの時間軸を変動させてその再生速度を調整してもよい。

２…画像音声処理装置、４…ＣＰＵ、６…記録部、８…入力Ｉ／Ｆ、１０…通信部、１２…表示部、１４…操作部、１６…メモリ、２０…データベース。

Claims

動画像データ及び該動画像データに関連した第１音声データを入力する入力部と、
前記第１音声データに基づき曲を推定する推定部と、
前記推定部によって推定された曲に対応する第２音声データを取得する取得部と、
前記動画像データを解析して、被写体の動きの特徴量を抽出する特徴量抽出部と、
前記特徴量に基づいて、前記動画像データに前記第２音声データを同期させる同期処理部と、
を備えることを特徴とする画像音声処理装置。
前記同期処理部は、前記特徴量抽出部により抽出された特徴量に基づいて、前記第２音声データの時間軸を変動させて、前記動画像データに前記第２音声データを同期させることを特徴とする請求項１に記載の画像音声処理装置。
前記同期処理部は、前記第２音声データの時間軸を部分的に変動させることを特徴とする請求項２に記載の画像音声処理装置。
前記第１音声データの非正常音声部分を除去する除去部と、
前記除去部により除去された非正常音声部分が前記第１音声データ全体に対して所定の割合未満のとき、前記非正常音声部分に対応する音声を前記第２音声データから抽出する音声抽出部とを備え、
前記第１音声データの正常音声部分に、前記第２音声データから抽出された音声部分を組み合わせて前記第２音声データとすることを特徴とする請求項１〜請求項３の何れか一項に記載の画像音声処理装置。
前記第１音声データの非正常音声部分を除去する除去部を備え、
前記同期処理部は、前記除去部により除去された非正常音声部分が前記第１音声データ全体に対して所定の割合以上のとき、前記第２音声データの全体を前記動画像データに同期させることを特徴とする請求項１〜請求項３の何れか一項に記載の画像音声処理装置。
被写体の動きの速度及び加速度の少なくとも一方から求められる前記特徴量に基づいて前記第２音声データの音量が定められることを特徴とする請求項１〜請求項５の何れか一項に記載の画像音声処理装置。
被写体としての演奏者に対する手の位置から求められる前記特徴量に基づいて前記第２音声データの音域を推定することを特徴とする請求項１〜請求項６の何れか一項に記載の画像音声処理装置。
コンピュータを、
動画像データ及び該動画像データに関連した第１音声データを入力する入力手段、
前記第１音声データに基づき曲を推定する推定手段、
前記推定手段によって推定された曲に対応する第２音声データを取得する取得手段、
前記動画像データを解析して、被写体の動きの特徴量を抽出する特徴量抽出手段、
前記特徴量に基づいて、前記動画像データに前記第２音声データを同期させる同期処理手段
として機能させることを特徴とする画像音声処理プログラム。