JP7196066B2

JP7196066B2 - データ処理装置、データ処理方法、プログラム、及び、データ処理システム

Info

Publication number: JP7196066B2
Application number: JP2019519566A
Authority: JP
Inventors: 知伸早川; 信瑩何
Original assignee: Sony Semiconductor Solutions Corp
Current assignee: Sony Semiconductor Solutions Corp
Priority date: 2017-05-26
Filing date: 2018-05-11
Publication date: 2022-12-26
Anticipated expiration: 2038-05-11
Also published as: WO2018216499A1; JPWO2018216499A1; US10932000B2; US20200077140A1

Description

本技術は、データ処理装置、データ処理方法、プログラム、及び、データ処理システムに関し、特に、間欠的な画像を記録する場合に用いて好適なデータ処理装置、データ処理方法、プログラム、及び、データ処理システムに関する。

従来、所定の間隔で間欠的に画像を撮影するインターバル撮影を行うことが可能な装置が普及している。

また、従来、映像を記録する時間帯と音声を記録する時間帯とを個別に設定し、時間帯毎に映像と音声の両方を記録したり、いずれか一方のみを記録したりすることが可能な映像音声記録装置が提案されている（例えば、特許文献１参照）。

特開２００７－１６６０４２号公報

しかしながら、インターバル撮影時に画像と音声を同期して取り込んだ場合、音声が間欠的に取り込まれるため、必ずしも有意な音声を記録できるとは限らない。また、１フレーム分の画像の記録時間は非常に短いため、画像と同期して記録した音声の内容を人が認識することは困難である。

また、特許文献１に記載の発明では、インターバル撮影において有意な音声を記録できるようにすることは考慮されていない。

本技術は、このような状況に鑑みてなされたものであり、間欠的な画像に対して有意な音声を記録できるようにするものである。

本技術の第１の側面のデータ処理装置は、間欠的な複数の画像が取り込まれた第１の期間内に取り込まれた音声に対応する第１の音声データから、前記複数の画像に基づく映像データとともに再生する１以上の音声ブロックを所定の特徴量に基づいて抽出し、所定の長さの第２の期間毎に、前記第２の期間内に取り込まれた音声に対応する音声データから、前記第２の期間内に取り込まれた間欠的な複数の画像に基づく映像データとともに再生する１以上の前記音声ブロックを前記特徴量に基づいて抽出する音声抽出部を備える。

本技術の第１の側面のデータ処理方法は、間欠的な複数の画像が取り込まれた第１の期間内に取り込まれた音声に対応する音声データから、前記複数の画像に基づく映像データとともに再生する１以上の音声ブロックを所定の特徴量に基づいて抽出し、所定の長さの第２の期間毎に、前記第２の期間内に取り込まれた音声に対応する音声データから、前記第２の期間内に取り込まれた間欠的な複数の画像に基づく映像データとともに再生する１以上の前記音声ブロックを前記特徴量に基づいて抽出する音声抽出ステップを含む。

本技術の第１の側面のプログラムは、間欠的な複数の画像が取り込まれた第１の期間内に取り込まれた音声に対応する音声データから、前記複数の画像に基づく映像データとともに再生する１以上の音声ブロックを所定の特徴量に基づいて抽出し、所定の長さの第２の期間毎に、前記第２の期間内に取り込まれた音声に対応する音声データから、前記第２の期間内に取り込まれた間欠的な複数の画像に基づく映像データとともに再生する１以上の前記音声ブロックを前記特徴量に基づいて抽出する音声抽出ステップを含む処理をコンピュータに実行させる。

本技術の第２の側面のデータ処理システムは、間欠的な複数の画像が取り込まれた期間内に取り込まれた音声に対応する第１の音声データから、前記複数の画像に基づく映像データとともに再生する１以上の音声ブロックを所定の特徴量に基づいて抽出し、所定の長さの第２の期間毎に、前記第２の期間内に取り込まれた音声に対応する音声データから、前記第２の期間内に取り込まれた間欠的な複数の画像に基づく映像データとともに再生する１以上の前記音声ブロックを前記特徴量に基づいて抽出する音声抽出部と、抽出された前記音声ブロックを加工して、前記映像データと同じ長さの第２の音声データを生成する音声加工部と、前記映像データと前記第２の音声データとを多重化し、映像音声データを生成する映像音声データ生成部とを備え、前記音声抽出部、前記音声加工部、及び、前記映像音声データ生成部が、複数の装置に分散して設けられている。

本技術の第１の側面においては、間欠的な複数の画像が取り込まれた第１の期間内に取り込まれた音声に対応する音声データから、前記複数の画像に基づく映像データとともに再生する１以上の音声ブロックを所定の特徴量に基づいて抽出され、所定の長さの第２の期間毎に、前記第２の期間内に取り込まれた音声に対応する音声データから、前記第２の期間内に取り込まれた間欠的な複数の画像に基づく映像データとともに再生する１以上の前記音声ブロックが前記特徴量に基づいて抽出される。

本技術の第２の側面においては、間欠的な複数の画像が取り込まれた期間内に取り込まれた音声に対応する第１の音声データから、前記複数の画像に基づく映像データとともに再生する１以上の音声ブロックが所定の特徴量に基づいて抽出され、所定の長さの第２の期間毎に、前記第２の期間内に取り込まれた音声に対応する音声データから、前記第２の期間内に取り込まれた間欠的な複数の画像に基づく映像データとともに再生する１以上の前記音声ブロックを前記特徴量に基づいて抽出され、抽出された前記音声ブロックが加工され、前記映像データと同じ長さの第２の音声データが生成され、前記映像データと前記第２の音声データとが多重化され、映像音声データが生成される。

本技術の第１の側面又は第２の側面によれば、間欠的な画像に対して有意な音声を記録することができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

本技術を適用した記録装置の一実施の形態を示すブロック図である。特徴量処理部の構成例を示すブロック図である。音声処理部の構成例を示すブロック図である。記録処理を説明するためのフローチャートである。記録処理を説明するためのフローチャートである。画像と音声を同時に間欠的に取り込む場合を説明するための図である。本技術を用いて画像と音声を取り込む場合を説明するための図である。本技術を適用した編集装置の一実施の形態を示すブロック図である。コンピュータの構成例を示す図である。

以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
１．第１の実施の形態（記録装置の例）
２．第２の実施の形態（編集装置の例）
３．変形例
４．その他

＜＜１．第１の実施の形態＞＞
まず、図１乃至図７を参照して、本技術の第１の実施の形態について説明する。

＜記録装置の構成例＞
図１は、本技術を適用したデータ処理装置の第１の実施の形態である記録装置１０の構成例を示すブロック図である。

記録装置１０は、画像及び音声を取り込み、取り込んだ画像及び音声に基づく映像音声データを生成し、記録する装置である。

また、記録装置１０は、通常記録モード及びインターバル記録モードの少なくとも２つのモードで映像音声データの記録を行うことができる。通常記録モードは、高いフレームレート（例えば、３０ｆｐｓ）で連続的に画像を取り込み、映像音声データを記録するモードである。インターバル記録モードは、低いフレームレート（例えば、１ｆｐｓ）で、所定の間隔を空けて間欠的に画像を取り込み、映像音声データを記録するモードである。

記録装置１０は、入力部１１、センサ部１２、制御部１３、画像取込み部１４、画像処理部１５、音声取込み部１６、特徴量処理部１７、音声処理部１８、映像音声データ生成部１９、及び、記録部２０を備える。

入力部１１は、記録装置１０の操作を行うための操作デバイスや、データを入力するための入力デバイスを備える。入力部１１は、ユーザ操作に対応する操作信号や、外部から入力されたデータを制御部１３に供給する。

センサ部１２は、記録装置１０の処理に必要な各種のセンサを備える。例えば、センサ部１２は、加速度センサ、ジャイロセンサ、振動センサ、人感センサ等を備える。センサ部１２は、各センサから出力されるセンサデータをデータを取得した時刻情報とともに制御部１３に供給する。

制御部１３は、例えば、ＣＰＵ等の各種のプロセッサ等を備え、記録装置１０の各部の制御を行う。

画像取込み部１４は、例えば、カメラモジュール等を備え、画像の取込みを行う。画像取込み部１４は、取り込んだ画像に対応する画像データを画像処理部１５に供給する。

また、画像取込み部１４は、高いフレームレート（例えば、３０ｆｐｓ）で連続的に画像を取り込む連続撮影、及び、低いフレームレート（例えば、１ｆｐｓ）で間欠的に画像を取り込むインターバル撮影（または、タイムラプス撮影）が可能である。

画像処理部１５は、画像取込み部１４から供給される画像データに対して、必要に応じて各種の画像処理を施して、映像音声データ生成部１９に供給する。

音声取込み部１６は、例えば、マイクロホン等を備え、音声の取込みを行う。音声取込み部１６は、取り込んだ音声に対応する音声データを特徴量処理部１７又は音声処理部１８に供給する。

特徴量処理部１７は、音声データの特徴量を抽出し、抽出した特徴量に基づいて、音声データのフィルタリング処理を行う。これにより、音声データの一部が音声処理部１８に供給され、残りが破棄される。

音声処理部１８は、音声取込み部１６又は特徴量処理部１７から供給される音声データに対して、必要に応じて各種の音声処理を施して、映像音声データ生成部１９に供給する。

映像音声データ生成部１９は、画像処理部１５から供給される画像データに基づく映像データと、音声処理部１８から供給される音声データに基づいて、映像音声データを生成し、記録部２０に記録させる処理を行う。

記録部２０は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は、半導体メモリ等の記録媒体を備える。

＜特徴量処理部の構成例＞
図２は、図１の特徴量処理部１７の構成例を示すブロック図である。

特徴量処理部１７は、音圧検出部３１及び特徴量抽出部３２を備える。

音圧検出部３１は、音声取込み部１６から供給される音声データの特徴量の１つである音圧を検出する。音圧検出部３１は、音圧の検出結果に基づいて、音声データの一部を特徴量抽出部３２に供給し、残りを破棄する。

特徴量抽出部３２は、音圧検出部３１から供給される音声データを所定の長さの音声ブロックに分割するとともに、各音声ブロックの音圧以外の１つ以上の視点に基づく１次元以上の特徴量を抽出する。また、特徴量抽出部３２は、抽出した特徴量に基づくスコアを各音声ブロックに付与し、そのスコアに基づいて、一部の音声ブロックを特徴量処理部１７に供給し、残りの音声ブロックを破棄する。

＜音声処理部の構成例＞
図３は、図１の音声処理部１８の構成例を示すブロック図である。

音声処理部１８は、バッファ５１、音声抽出部５２、音声加工部５３、及び、符号化部５４を備える。

バッファ５１は、特徴量処理部１７から供給される音声ブロックを一時的に蓄積する。

音声抽出部５２は、バッファ５１に蓄積されている音声ブロックの中から、各音声ブロックに付与されている特徴量に基づくスコアに基づいて、一部の音声ブロックを抽出し、音声加工部５３に供給する。

音声加工部５３は、音声抽出部５２により抽出された音声ブロックに対して各種の加工処理を行うことにより、映像音声データに多重化して記録する音声データを生成する。音声加工部５３は、生成した音声データを符号化部５４に供給する。

符号化部５４は、音声取込み部１６又は音声加工部５３から供給される音声データに対して所定の符号化処理を行い、符号化した音声データを映像音声データ生成部１９に供給する。

＜記録処理＞
次に、図４及び図５のフローチャートを参照して、記録装置１０により実行される記録処理について説明する。なお、ここでは、記録装置１０が音声を取り込み、記録する処理を中心に説明し、その他の処理は必要に応じて適宜説明する。

この処理は、例えば、記録処理の開始の指示が入力部１１を介して制御部１３に入力されたとき開始される。或いは、この処理は、例えば、記録処理のスケジュールが予め設定されており、その開始時刻になったとき開始される。また、記録処理の開始時までに、通常記録モード又はインターバル記録モードの選択が行われる。

ステップＳ１において、音声取込み部１６は、音声の取込みを開始する。

なお、このとき、画像取込み部１４は、所定のフレームレートで画像の取込みを行い、取り込んだ画像に対応する画像データを画像処理部１５に供給する処理を開始する。画像を取り込むフレームレートは、通常記録モードに設定されている場合、例えば、３０ｆｐｓに設定され、インターバル記録モードに設定されている場合、例えば、１ｆｐｓに設定される。

また、画像処理部１５は、符号化等の所定の画像処理を画像データに施して、映像音声データ生成部１９に供給する処理を開始する。

なお、通常記録モード又はインターバル記録モードのいずれの場合においても、音声は連続して取り込まれる。

ステップＳ２において、制御部１３は、通常記録モードに設定されているか否かを判定する。通常記録モードに設定されていると判定された場合、処理はステップＳ３に進む。

ステップＳ３において、記録装置１０は、符号化処理を開始する。具体的には、音声取込み部１６は、制御部１３の制御の下に、連続して取り込んだ音声に対応する音声データを符号化部５４に供給する処理を開始する。符号化部５４は、音声データに対して所定の符号化処理を行い、符号化後の音声データを映像音声データ生成部１９に供給する処理を開始する。

ステップＳ４において、映像音声データ生成部１９は、映像音声データの生成及び記録を開始する。例えば、以下の処理が開始される。

映像音声データ生成部１９は、画像処理部１５から供給される各フレームの画像データに基づいて、所定のフォーマットのビットストリームである映像データを生成する。また、映像音声データ生成部１９は、符号化部５４から供給される音声データを所定のフォーマットのビットストリームに変換する。さらに、映像音声データ生成部１９は、映像データと音声データを多重化することにより映像音声データを生成し、記録部２０に記録させる。

ステップＳ５において、制御部１３は、インターバル記録モードに設定されたか否かを判定する。インターバル記録モードに設定されていないと判定された場合、処理はステップＳ６に進む。

ステップＳ６において、制御部１３は、記録処理を終了するか否かを判定する。記録処理を終了しないと判定された場合、処理はステップＳ５に戻る。

その後、ステップＳ５において、インターバル記録モードに設定されたと判定されるか、ステップＳ６において、記録処理を終了すると判定されるまで、ステップＳ５及びステップＳ６の判定処理が繰り返し実行され、通常記録モードによる映像音声データの記録が継続する。

一方、ステップＳ６において、制御部１３は、例えば、記録処理の停止の指示が入力部１１を介して入力された場合、記録処理を終了すると判定する。或いは、制御部１３は、例えば、記録処理のスケジュールが予め設定されており、その終了時刻になったとき、記録処理を終了すると判定する。そして、記録処理を終了すると判定された場合、記録処理は終了する。

また、ステップＳ５において、制御部１３は、例えば、インターバル記録モードの設定の指示が入力部１１を介して入力された場合、インターバル記録モードに設定されたと判定し、処理はステップＳ７に進む。これは、通常記録モードからインターバル記録モードに変更された場合である。

さらに、ステップＳ２において、インターバル記録モードに設定されていると判定された場合、処理はステップＳ７に進む。

ステップＳ７において、記録装置１０は、音圧の検出を開始する。具体的には、音声取込み部１６は、制御部１３の制御の下に、連続して取り込んだ音声を示す音声データを音圧検出部３１に供給する処理を開始する。音圧検出部３１は、音声取込み部１６から供給される音声データの音圧を検出する処理を開始する。

ステップＳ８において、音圧検出部３１は、音圧に基づく音声データのフィルタリングを開始する。例えば、音圧検出部３１は、音圧が所定の閾値以上となる状態が所定の時間以上継続する区間の音声データを特徴量抽出部３２に供給し、それ以外の区間の音声データを破棄する処理を開始する。

この区間の長さは、例えば、音声データに含まれる短時間のノイズを除去することが可能な時間に設定される。

この閾値は、例えば、有意な音声、すなわち記録したい音声が含まれている可能性が低い音声を破棄することが可能なレベルに設定される。何を有意な音声とするかは、例えば、記録するシーンや目的等により変化する。例えば、植物の成長を記録する場合、その植物の周辺の人の声等が有意な音声とされる。例えば、工事の進捗を記録したい場合、工事現場の音等が有意な音声とされる。例えば、海、山、空等の風景の移り変わりを記録したい場合、自然の音や動物や虫の鳴き声等が有意な音声とされる。

このフィルタリング処理により、後段の特徴量抽出部３２の処理を軽減することができる。

ステップＳ９において、特徴量抽出部３２は、特徴量の抽出を開始する。例えば、特徴量抽出部３２は、音圧検出部３１から供給される音声データを所定の長さの音声ブロックに区切り、各音声ブロックの特徴量を抽出し、抽出した特徴量に基づいて各音声ブロックのスコアリングを行う処理を開始する。

ここで、抽出する特徴量の種類は、例えば、記録したい音声の種類に基づいて設定される。例えば、人の声を記録したい場合、人の声らしさを表す特徴量が抽出対象に設定される。また、例えば、特定の人の声のみを記録したい場合、各個人の声を識別可能なレベルの特徴量が抽出対象に設定される。さらに、例えば、特定の内容の発言のみを記録したい場合、文章解析の結果が特徴量と抽出される。

また、音声ブロックの長さは、例えば、音声ブロックに含まれる音声が人にとって意味のある音声として認識可能な最低限の長さ以上に設定される。

なお、抽出する特徴量は、２種類（２次元）以上であってもよい。

また、例えば、記録したい音声の種類によっては、ステップＳ７及びステップＳ８の処理を省略し、全ての音声データの特徴量を抽出するようにしてもよい。

ステップＳ１０において、特徴量抽出部３２は、特徴量に基づく音声データのフィルタリングを開始する。例えば、特徴量抽出部３２は、特徴量に基づくスコアが所定の閾値以上の音声ブロックをスコアととともにバッファ５１に蓄積し、それ以外の音声ブロックをバッファ５１に蓄積せずに破棄する処理を開始する。

このフィルタリング処理により、バッファ５１の容量を削減することができる。

ステップＳ１１において、制御部１３は、映像音声データを記録するタイミングであるか否かを判定する。映像音声データを記録するタイミングでないと判定された場合、処理はステップＳ１２に進む。

ステップＳ１２において、制御部１３は、通常記録モードに設定されたか否かを判定する。通常記録モードに設定されていないと判定された場合、処理はステップＳ１３に進む。

ステップＳ１３において、ステップＳ６の処理と同様に、記録処理を終了するか否かが判定され、記録処理を終了しないと判定された場合、処理はステップＳ１１に戻る。

その後、ステップＳ１１において、映像音声データを記録するタイミングであると判定されるか、ステップＳ１２において、通常記録モードに設定されたと判定されるか、ステップＳ１３において、記録処理を終了すると判定されるまで、ステップＳ１１乃至ステップＳ１３の処理が繰り返し実行される。

一方、ステップＳ１３において、記録処理を終了すると判定された場合、処理はステップＳ１４に進む。

また、ステップＳ１２において、例えば、制御部１３は、通常記録モードの設定の指示が入力部１１を介して入力された場合、通常記録モードに設定されたと判定し、処理はステップＳ１４に進む。これは、インターバル記録モードから通常記録モードに変更された場合である。

さらに、ステップＳ１１において、例えば、制御部１３は、インターバル記録モードによる記録処理が開始されてから、まだ映像音声データの記録が１回も行われていない場合、インターバル記録モードによる記録処理の開始から所定の時間が経過したとき、映像音声データを記録するタイミングであると判定する。また、例えば、制御部１３は、インターバル記録モードによる記録処理が開始されてから、１回以上映像音声データの記録が行われている場合、前回映像音声データが記録されてから所定の時間が経過したとき、映像音声データを記録するタイミングであると判定する。そして、映像音声データを記録するタイミングであると判定された場合、処理はステップＳ１１に進む。

これにより、インターバル記録モードによる記録処理が継続している期間中に、所定の間隔で定期的に映像音声データが生成され、記録されるようになる。この間隔は、例えば、ユーザが設定するようにしてもよいし、或いは、記録装置１０が自動的に設定するようにしてもよい。

また、映像音声データを記録する間隔が短くなるほど、映像データと音声データの時間のズレを小さくし、映像データと音声データの相関度を高めることができる。また、バッファ５１の容量を小さくし、音声処理部１８の処理を分散することができる。一方、映像音声データを記録する間隔を短くしすぎると、例えば、音声が短すぎたり、途中で途切れたりして、有意な音声が記録できなくなる場合がある。

一方、ステップＳ１１の判定処理を省略することも可能である。この判定処理を省略した場合、インターバル記録モードによる記録処理の終了時に、まとめて映像音声データが生成され、記録されるようになる。

ステップＳ１４において、制御部１３は、映像記録時間を計算する。具体的には、制御部１３は、インターバル記録モードによる記録処理が開始されてから、まだ映像音声データの記録が１回も行われていない場合、インターバル記録モードによる記録処理が開始されてから現在までの期間（以下、記録対象期間と称する）の長さを計算する。一方、制御部１３は、インターバル記録モードによる記録処理が開始されてから、１回以上映像音声データの記録が行われている場合、前回映像音声データが記録された時点から現在までの期間（記録対象期間）の長さを計算する。

そして、制御部１３は、記録対象期間内に取り込まれた画像データの長さを映像記録時間として計算する。例えば、記録対象期間の長さが１時間であり、画像の取込みが１ｆｐｓのフレームレートで行われ、１フレームの画像データの長さが３３ｍｓである場合、映像記録時間は１１８．８秒（＝３３ｍｓ×３６００フレーム）となる。

ステップＳ１５において、音声抽出部５２は、特徴量に基づいて、音声ブロックを抽出する。例えば、音声抽出部５２は、バッファ５１に蓄積されている音声ブロックのうち時間的に連続する音声ブロックを１つの音声ブロックにまとめる。また、音声抽出部５２は、例えば、１つにまとめた音声ブロックのスコアとして、各音声ブロックのスコアの平均値を計算する。

そして、音声抽出部５２は、上記の１つにまとめる処理を行った後、バッファ５１に蓄積されている音声ブロックの中から、スコアが所定の閾値以上の音声ブロックを抽出する。音声抽出部５２は、抽出した音声ブロックをスコアとともに音声加工部５３に供給する。また、音声抽出部５２は、バッファ５１に蓄積されている音声ブロックを削除し、バッファ５１をリセットする。

ステップＳ１６において、音声加工部５３は、抽出された音声ブロックに基づいて、映像記録時間と同じ長さの音声データを生成する。

例えば、音声加工部５３は、抽出された音声ブロックを取り込まれた時間順に並べて接続する。このとき、音声加工部５３は、例えば、ユーザが聞いて違和感が生じないように、各音声ブロックにフェード処理（フェードイン及びフェードアウト）を施す。

また、音声加工部５３は、抽出された音声ブロックの合計時間が映像記録時間より長い場合、接続後の音声データが映像記録時間と同じ長さになるように、音声データの時間方向の圧縮を行う。例えば、音声加工部５３は、話速変換により各音声ブロックの再生速度を上げる。なお、再生速度の最大値は、人が会話を聞き取れるレベル（例えば、２倍速）に制限される。また、例えば、音声加工部５３は、クロスフェード処理により、隣接する音声ブロックを違和感なく重畳させる。

なお、音声加工部５３は、以上の処理を施したとしても、音声データの長さが映像記録時間より長い場合、例えば、スコアが低いものから順に音声ブロックを破棄し、音声データの長さが映像記録時間と等しくなるように調整する。

一方、音声加工部５３は、抽出された音声ブロックの合計時間が映像記録時間より短い場合、１以上の無音の音声ブロック（以下、無音ブロックと称する）を挿入することにより、音声データの長さを映像記録時間に合わせる。このとき、例えば、各音声ブロックと、各音声ブロックが取り込まれた時刻付近に取り込まれた画像データとの時間のズレが小さくなるように、無音ブロックの挿入位置が設定される。

また、音声加工部５３は、必要に応じて、音声データのゲイン調整やノイズ除去等の処理を行う。

そして、音声加工部５３は、生成した音声データを符号化部５４に供給する。

ステップＳ１７において、符号化部５４は、符号化処理を行う。具体的には、符号化部５４は、音声加工部５３から供給された音声データに対して所定の符号化処理を行い、符号化後の音声データを映像音声データ生成部１９に供給する。

ステップＳ１８において、映像音声データ生成部１９は、映像音声データを生成し、記録する。例えば、映像音声データ生成部１９は、記録対象期間内に取り込まれた各フレームの画像データ（間欠的な画像データ）に基づいて、所定のフォーマットのビットストリームである映像データを生成する。また、映像音声データ生成部１９は、符号化部５４から供給された音声データを所定のフォーマットのビットストリームに変換する。このとき、通常記録モードで記録された映像データ及び音声データと同じように間欠的に取り込まれた画像を連続して再生するように、映像データと音声データの時間情報（例えば、タイムスタンプ等）の変更が行われる。さらに、映像音声データ生成部１９は、映像データと音声データを多重化することにより映像音声データを生成し、記録部２０に記録させる。

ステップＳ１９において、ステップＳ６の処理と同様に、記録処理を終了するか否かが判定され、記録処理を終了しないと判定された場合、処理はステップＳ２０に進む。

ステップＳ２０において、制御部１３は、インターバル記録モードに設定されているか否かを判定する。インターバル記録モードに設定されていると判定された場合、処理はステップＳ１１に戻り、ステップＳ１１以降の処理が実行される。これは、インターバル記録モードによる記録処理中に、所定のタイミングで映像音声データの生成及び記録が行われた場合であり、引き続き、インターバル記録モードによる記録処理が継続される。

一方、ステップＳ２０において、通常記録モードに設定されていると判定された場合、処理はステップＳ３に戻り、ステップＳ３以降の処理が実行される。これは、インターバル記録モードから通常記録モードに変更された場合であり、その後、通常記録モードによる記録処理が開始される。

また、ステップＳ１９において、記録処理を終了すると判定された場合、記録処理は終了する。

以上のようにして、間欠的な画像に対して有意な音声を記録できるようになる。

例えば、図６は、花の成長を間欠的に記録する場合に、画像と音声を同時に取り込むようにしたときの画像と音声を取り込むタイミングの例を示している。図内の１行目は、花が成長する様子を示しており、２行目は、画像を取り込むタイミングを、カメラの絵を含む枠で示し、３行目は、音声を取り込むタイミングを、波形図を含む枠で示している。

例えば、３３ｍｓの長さの画像が所定の間隔で取り込まれ、記録される。また、画像と同期して、３３ｍｓの長さの音声が所定の間隔で取り込まれ、記録される。しかし、画像を取り込んでいるときに、必ずしも有意な音声が背景に流れているとは限らない。また、３３ｍｓの長さの音声は、人にとって有意な音声として認識することが困難である。

一方、図７は、花の成長を間欠的に記録する場合に、本技術を用いたときの画像と音声を取り込むタイミングの例を、図６と同様に示している。なお、図７では、音声を取り込むタイミングを示した行の下に、取り込まれる音声の具体例が示されている。

本技術を用いた場合、画像の取込みとは同期せずに、例えば花を観察している子供の声等の有意な音声のみが抽出され記録されるため、映像音声データの価値が向上する。そして、間欠的に取り込まれた複数のフレームの画像からなる映像と合わせて、抽出された音声が再生されるため、臨場感が増す。

また、有意な音声のみ記録され、不要な音声は破棄されるため、映像音声データの容量が増大することが防止される。

さらに、再生環境や装置に依存することなく、インターバル記録モードで記録された映像音声データを、通常記録モードで記録された映像音声データと同様の方法により再生することができる。

また、上述したように、通常記録モードとインターバル記録モードの切り替えをシームレスに行うことができる。また、途中で記録モードが切り替わっても、再生時に特別な処理を行うことなく連続して再生することが可能である。

さらに、抽出する特徴量の種類を変更することにより、記録するシーンや目的に適した有意な音声を適切に抽出することが可能になる。

なお、間欠的に取り込まれた画像を連続して再生する場合、実質的に映像が早送り再生されるようになるため、映像と音声の間に少々の時間のズレが生じても、ユーザはあまり気にならない。また、話速変換により音声の再生速度を上げても、ユーザは、あまり違和感を覚えない。

＜＜２．第２の実施の形態＞＞
次に、図８を参照して、本技術の第２の実施の形態について説明する。

＜編集装置の構成例＞
図８は、本技術を適用したデータ処理装置の第２の実施の形態である編集装置１００の構成例を示すブロック図である。なお、図中、図１の記録装置１０と対応する部分には同じ符号を付してあり、その説明は適宜省略する。

編集装置１００は、例えば、画像が通常のフレームレートで連続的に記録された映像音声データから、画像が間欠的に記録された映像音声データを生成する装置である。

編集装置１００は、記録装置１０と比較して、制御部１３の代わりに制御部１０１が設けられ、分離部１０２及び画像抽出部１０３が追加され、センサ部１２、画像取込み部１４、及び、音声取込み部１６が削除されている点が異なる。

制御部１０１は、例えば、ＣＰＵ等の各種のプロセッサ等を備え、編集装置１００の各部の制御を行う。

分離部１０２は、外部から供給される映像音声データに多重化されている映像データと音声データを分離する。そして、分離部１０２は、映像データを画像抽出部１０３に供給し、音声データを特徴量処理部１７に供給する。

画像抽出部１０３は、映像データに含まれる複数のフレームの画像データを所定の間隔で抽出し、抽出した画像データを画像処理部１５に供給する。これにより、上述した記録装置１０がインターバル撮影モードにより間欠的に取り込んだ画像データと同様の間欠的な画像データが、画像処理部１５に供給されるようになる。そして、画像処理部１５は、各画像データに対して所定の画像処理を行い、映像音声データ生成部１９に供給する。

特徴量抽出部１７及び音声処理部１８は、分離部１０２から供給される音声データに基づいて、上述した記録装置１０のインターバル撮影モード時の処理と同様の処理により、音声データを生成し、映像音声データ生成部１９に供給する。

映像音声データ生成部１９は、上述した記録装置１０のインターバル撮影モード時の処理と同様の処理により、間欠的な画像データに基づいて映像データを生成する。そして、映像音声データ生成部１９は、映像データと音声データに基づいて映像音声データを生成し、記録部２０に記録させる。

このようにして、画像が連続的に記録された映像音声データから、画像が間欠的に記録された映像音声データが生成される。また、すでに記録されている音声データの中から有意な音声を含む音声データが抽出され、映像音声データに記録される。

＜＜３．変形例＞＞
以下、上述した本開示に係る技術の実施の形態の変形例について説明する。

＜システムの構成に関する変形例＞
以上の説明では、図１の記録装置１０及び図８の編集装置１００が、それぞれ１台で全ての処理を行う例を示したが、複数の装置（或いは、複数のＬＳＩ、プラットフォーム等）で分散して処理を行うようにしてもよい。複数の装置で分散して処理を行う場合、各装置が直接接続されるようにしてもよいし、ネットワーク等を介して間接的に接続されるようにしてもよい。或いは、各装置を直接又は間接的に接続せずに、装置間のデータの授受を、記録媒体等を介して行うようにしてもよい。

例えば、画像取込み部１４及び音声取込み部１６を記録装置１０の外部に設けるようにしてもよい。例えば、画像取込み部１４及び音声取込み部１６を備える撮影機器を撮影したい場所に設置し、常にインターバル撮影モードで撮影を行い、取り込まれた画像データ及び音声データを記録装置１０に伝送するようにしてもよい。これにより、撮影機器の負荷を軽減し、消費電力を削減することができる。また、撮影機器と記録装置１０の間のデータの伝送量が小さくなり、両者の間の伝送路の伝送容量を小さくすることができる。

また、例えば、映像音声データ生成部１９及び記録部２０を記録装置１０の外部に設けるようにしてもよい。この場合、記録装置１０から映像音声データ生成部１９及び記録部２０を備える後段の装置への画像データ及び音声データの伝送を間欠的に又は低ビットレートで行うことができ、両者の間の伝送路の伝送容量をさらに削減することができる。

また、例えば、記録部２０を記録装置１０又は編集装置１００の外部に設けるようにしてもよい。例えば、記録装置１０又は編集装置１００は、生成した映像音声データを外部の機器（例えば、ローカルサーバ、スマートフォン等）に供給し、記録させたり、ネットワークを介してクラウドサービス等を提供するサーバに供給し、記録させたりするようにしてもよい。

さらに、例えば、画像データ、及び、特徴量に基づくスコアを付与した音声データ（以下、スコア付き音声データと称する）を記録装置１０から外部の機器やサーバに送信し、外部で記録用の音声データを生成し、その音声データを含む映像音声データを生成するようにしてもよい。

また、例えば、画像データ及びスコア付き音声データを複数の装置に送信し、各装置で異なる音声データを生成し、異なる音声データを含む映像音声データを生成するようにしてもよい。例えば、複数のスマートフォンに画像データ及びスコア付き音声データを送信し、各スマートフォンにおいて、スマートフォンの持ち主の声に基づいて音声データを抽出し、記録するようにしてもよい。

＜処理に関する変形例＞
例えば、インターバル記録モードにより映像音声データを記録する期間、又は、インターバル記録モードにおいて映像音声データを生成し、記録する間隔（以下、記録間隔と称する）が事前に決まっている場合、図５のステップＳ１４の処理で計算した映像記録時間が事前に定まる。そして、話速変換及びクロスフェード処理等を考慮して、その映像記録時間の映像データに多重化可能な音声データの時間方向の圧縮前の時間の最大値（以下、音声記録可能時間と称する）が事前に定まる。この場合、例えば、バッファ５１に蓄積されている音声ブロックの合計時間が音声記録可能時間を超えそうな場合、音声ブロックの合計時間が音声記録可能時間を超えないように、スコアが小さい音声ブロックから順に消去していくことにより、必要なバッファ５１の容量を削減することができる。

また、例えば、まだ記録していない映像データの時間、バッファ５１に蓄積されている音声ブロックの合計時間、及び、各音声ブロックのスコア等に基づいて、確実に抽出して記録されると予測されるスコアの高い音声ブロックに対して、加工処理や符号化処理を前倒しして行うようにしてもよい。これにより、バッファ５１の容量を削減することができる。

さらに、例えば、スコアが高い音声ブロックを、ほぼリアルタイムに符号化し、所定のフォーマットに変換し、記録部２０に記録させるようにしてもよい。これにより、バッファ５１の容量を削減することができる。なお、最終的な音声データの時間が映像記録時間より長い場合、例えば、音声データの不連続点周辺の音声をデコードした後、クロスフェードしながら再エンコードすることにより、音声データの長さを調整することが可能である。一方、最終的な音声データの時間が映像記録時間より短い場合、例えば、無音ブロックを挿入することにより、音声データの長さを調整することが可能である。

また、例えば、インターバル記録モードにおいて記録間隔が予め定められている場合、特徴量処理部１７と音声処理部１８の処理を並列に行うことができ、処理時間を短縮することができる。

さらに、以上の説明では、音声データから抽出された特徴量に基づいて、記録する音声データを抽出する例を示したが、音声データから抽出された特徴量以外の特徴量に基づいて、記録する音声データを抽出するようにしてもよい。

例えば、センサ部１２が備える各種のセンサが音声の取り込みと並行して検出した時系列のセンサデータに基づく特徴量に基づいて、記録する音声データを抽出するようにしてもよい。例えば、人感センサにより周囲に人の存在が検出された期間の音声データを抽出するようにしてもよい。また、例えば、振動センサより所定の閾値以上の振動が検出された期間の音声データを抽出するようにしてもよい。

なお、音声データから抽出された特徴量とそれ以外の特徴量の両方を用いるようにしてもよい。

また、例えば、特徴量抽出部３２が、センサ部１２から供給されるセンサデータから特徴量を抽出するようにしてもよい。

また、例えば、図１の画像取込み部１４が、インターバル記録モード時に通常記録モードと同じフレームレートで画像を取り込み、所定の間隔で画像データを抽出して画像処理部１５に供給するようにしてもよい。

＜本技術の適用例＞
本技術は、間欠的な画像に基づく映像データとともに再生する音声データを生成する機能を含む装置（例えば、撮影装置、記録装置、編集装置等）やシステムに適用することができる。

また、本技術の対象となる映像データは、間欠的に取り込んだ画像に基づく映像データでも、連続的に取り込んだ画像から抽出された画像に基づく映像データでもよい。また、間欠的な画像間の時間間隔は、固定でも可変でもよい。例えば、被写体の動きに合わせて断続的に取り込んだ画像に基づく映像データも、本技術の対象となる。

＜＜４．その他＞＞
＜コンピュータの構成例＞
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図９は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）４０１，ROM（Read Only Memory）４０２，RAM（Random Access Memory）４０３は、バス４０４により相互に接続されている。

バス４０４には、さらに、入出力インターフェース４０５が接続されている。入出力インターフェース４０５には、入力部４０６、出力部４０７、記録部４０８、通信部４０９、及びドライブ４１０が接続されている。

入力部４０６は、入力スイッチ、ボタン、マイクロホン、撮像素子などよりなる。出力部４０７は、ディスプレイ、スピーカなどよりなる。記録部４０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部４０９は、ネットワークインターフェースなどよりなる。ドライブ４１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体４１１を駆動する。

以上のように構成されるコンピュータでは、CPU４０１が、例えば、記録部４０８に記録されているプログラムを、入出力インターフェース４０５及びバス４０４を介して、RAM４０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU４０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体４１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブル記録媒体４１１をドライブ４１０に装着することにより、入出力インターフェース４０５を介して、記録部４０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部４０９で受信し、記録部４０８にインストールすることができる。その他、プログラムは、ROM４０２や記録部４０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

＜構成の組み合わせ例＞
本技術は、以下のような構成をとることもできる。

（１）
間欠的な複数の画像が取り込まれた第１の期間内に取り込まれた音声に対応する第１の音声データから、前記複数の画像に基づく映像データとともに再生する１以上の音声ブロックを所定の特徴量に基づいて抽出する音声抽出部を
備えるデータ処理装置。
（２）
抽出された前記音声ブロックを加工して、前記映像データと同じ長さの第２の音声データを生成する音声加工部を
さらに備える前記（１）に記載のデータ処理装置。
（３）
前記音声加工部は、複数の前記音声ブロックが抽出された場合、複数の前記音声ブロックを時間順に並べて接続する
前記（２）に記載のデータ処理装置。
（４）
前記音声加工部は、各前記音声ブロックのフェード処理を行う
前記（３）に記載のデータ処理装置。
（５）
前記音声加工部は、抽出された前記音声ブロックの合計時間が前記映像データの時間より長い場合、隣接する前記音声ブロック間でクロスフェード処理を行う
前記（４）に記載のデータ処理装置。
（６）
前記音声加工部は、抽出された前記音声ブロックの合計時間が前記映像データの時間より長い場合、前記音声ブロックの話速変換を行う
前記（２）乃至（５）のいずれかに記載のデータ処理装置。
（７）
前記音声加工部は、抽出された前記音声ブロックの合計時間が前記映像データの時間より短い場合、無音の音声ブロックを挿入する
前記（２）乃至（６）のいずれかに記載のデータ処理装置。
（８）
前記映像データと前記第２の音声データとを多重化し、映像音声データを生成する映像音声データ生成部を
さらに備える前記（２）乃至（７）のいずれかに記載のデータ処理装置。
（９）
前記映像音声データ生成部は、前記複数の画像を連続して再生するように前記映像データ及び前記音声データの時間情報を変更する
前記（８）に記載のデータ処理装置。
（１０）
前記特徴量を抽出する特徴量抽出部を
さらに備える前記（１）乃至（９）のいずれかに記載のデータ処理装置。
（１１）
前記特徴量は、前記第１の音声データの特徴量、及び、前記第１の期間内に所定のセンサにより検出されたデータに基づく特徴量のうち少なくとも１つを含む
前記（１）乃至（１０）のいずれかに記載のデータ処理装置。
（１２）
前記音声抽出部は、所定の長さの第２の期間毎に、前記第２の期間内に取り込まれた音声に対応する音声データから、前記第２の期間内に取り込まれた間欠的な複数の画像に基づく映像データとともに再生する１以上の前記音声ブロックを前記特徴量に基づいて抽出する
前記（１）乃至（１１）のいずれかに記載のデータ処理装置。
（１３）
画像の取込みを行う画像取込み部と、
音声の取込みを行う音声取込み部と
をさらに備える前記（１）乃至（１２）のいずれかに記載のデータ処理装置。
（１４）
間欠的な複数の画像が取り込まれた期間内に取り込まれた音声に対応する音声データから、前記複数の画像に基づく映像データとともに再生する１以上の音声ブロックを所定の特徴量に基づいて抽出する音声抽出ステップを
含むデータ処理方法。
（１５）
間欠的な複数の画像が取り込まれた期間内に取り込まれた音声に対応する音声データから、前記複数の画像に基づく映像データとともに再生する１以上の音声ブロックを所定の特徴量に基づいて抽出する音声抽出ステップを
含む処理をコンピュータに実行させるためのプログラム。
（１６）
間欠的な複数の画像が取り込まれた期間内に取り込まれた音声に対応する第１の音声データから、前記複数の画像に基づく映像データとともに再生する１以上の音声ブロックを所定の特徴量に基づいて抽出する音声抽出部と、
抽出された前記音声ブロックを加工して、前記映像データと同じ長さの第２の音声データを生成する音声加工部と、
前記映像データと前記第２の音声データとを多重化し、映像音声データを生成する映像音声データ生成部と
を備え、
前記音声抽出部、前記音声加工部、及び、前記映像音声データ生成部が、複数の装置に分散して設けられている
データ処理システム。
（１７）
画像の取込みを行う画像取込み部と、
音声の取込みを行う音声取込み部と
をさらに備える前記（１６）に記載のデータ処理システム。

１０記録装置，１２センサ部，１３制御部，１４画像取込み部，１５画像処理部，１６音声取込み部，１７特徴量処理部，１８音声処理部，１９映像音声データ生成部，３１音圧検出部，３２特徴量抽出部，５１バッファ，５２音声抽出部，５３音声加工部，５４符号化部，１００編集装置，１０１制御部，１０２分離部，１０３画像抽出部

Claims

間欠的な複数の画像が取り込まれた第１の期間内に取り込まれた音声に対応する第１の音声データから、前記複数の画像に基づく映像データとともに再生する１以上の音声ブロックを所定の特徴量に基づいて抽出し、所定の長さの第２の期間毎に、前記第２の期間内に取り込まれた音声に対応する音声データから、前記第２の期間内に取り込まれた間欠的な複数の画像に基づく映像データとともに再生する１以上の前記音声ブロックを前記特徴量に基づいて抽出する音声抽出部を
備えるデータ処理装置。
抽出された前記音声ブロックを加工して、前記映像データと同じ長さの第２の音声データを生成する音声加工部を
さらに備える請求項１に記載のデータ処理装置。
前記音声加工部は、複数の前記音声ブロックが抽出された場合、複数の前記音声ブロックを時間順に並べて接続する
請求項２に記載のデータ処理装置。
前記音声加工部は、各前記音声ブロックのフェード処理を行う
請求項３に記載のデータ処理装置。
前記音声加工部は、抽出された前記音声ブロックの合計時間が前記映像データの時間より長い場合、隣接する前記音声ブロック間でクロスフェード処理を行う
請求項４に記載のデータ処理装置。
前記音声加工部は、抽出された前記音声ブロックの合計時間が前記映像データの時間より長い場合、前記音声ブロックの話速変換を行う
請求項２に記載のデータ処理装置。
前記音声加工部は、抽出された前記音声ブロックの合計時間が前記映像データの時間より短い場合、無音の音声ブロックを挿入する
請求項２に記載のデータ処理装置。
前記映像データと前記第２の音声データとを多重化し、映像音声データを生成する映像音声データ生成部を
さらに備える請求項２に記載のデータ処理装置。
前記映像音声データ生成部は、前記複数の画像を連続して再生するように前記映像データ及び前記音声データの時間情報を変更する
請求項８に記載のデータ処理装置。
前記特徴量を抽出する特徴量抽出部を
さらに備える請求項１に記載のデータ処理装置。
前記特徴量は、前記第１の音声データの特徴量、及び、前記第１の期間内に所定のセンサにより検出されたデータに基づく特徴量のうち少なくとも１つを含む
請求項１に記載のデータ処理装置。
画像の取込みを行う画像取込み部と、
音声の取込みを行う音声取込み部と
をさらに備える請求項１に記載のデータ処理装置。
間欠的な複数の画像が取り込まれた第１の期間内に取り込まれた音声に対応する音声データから、前記複数の画像に基づく映像データとともに再生する１以上の音声ブロックを所定の特徴量に基づいて抽出し、所定の長さの第２の期間毎に、前記第２の期間内に取り込まれた音声に対応する音声データから、前記第２の期間内に取り込まれた間欠的な複数の画像に基づく映像データとともに再生する１以上の前記音声ブロックを前記特徴量に基づいて抽出する音声抽出ステップを
含むデータ処理方法。
間欠的な複数の画像が取り込まれた第１の期間内に取り込まれた音声に対応する音声データから、前記複数の画像に基づく映像データとともに再生する１以上の音声ブロックを所定の特徴量に基づいて抽出し、所定の長さの第２の期間毎に、前記第２の期間内に取り込まれた音声に対応する音声データから、前記第２の期間内に取り込まれた間欠的な複数の画像に基づく映像データとともに再生する１以上の前記音声ブロックを前記特徴量に基づいて抽出する音声抽出ステップを
含む処理をコンピュータに実行させるためのプログラム。
間欠的な複数の画像が取り込まれた期間内に取り込まれた音声に対応する第１の音声データから、前記複数の画像に基づく映像データとともに再生する１以上の音声ブロックを所定の特徴量に基づいて抽出し、所定の長さの第２の期間毎に、前記第２の期間内に取り込まれた音声に対応する音声データから、前記第２の期間内に取り込まれた間欠的な複数の画像に基づく映像データとともに再生する１以上の前記音声ブロックを前記特徴量に基づいて抽出する音声抽出部と、
抽出された前記音声ブロックを加工して、前記映像データと同じ長さの第２の音声データを生成する音声加工部と、
前記映像データと前記第２の音声データとを多重化し、映像音声データを生成する映像音声データ生成部と
を備え、
前記音声抽出部、前記音声加工部、及び、前記映像音声データ生成部が、複数の装置に分散して設けられている
データ処理システム。
画像の取込みを行う画像取込み部と、
音声の取込みを行う音声取込み部と
をさらに備える請求項１５に記載のデータ処理システム。