JP7196066B2 - データ処理装置、データ処理方法、プログラム、及び、データ処理システム - Google Patents

データ処理装置、データ処理方法、プログラム、及び、データ処理システム Download PDF

Info

Publication number
JP7196066B2
JP7196066B2 JP2019519566A JP2019519566A JP7196066B2 JP 7196066 B2 JP7196066 B2 JP 7196066B2 JP 2019519566 A JP2019519566 A JP 2019519566A JP 2019519566 A JP2019519566 A JP 2019519566A JP 7196066 B2 JP7196066 B2 JP 7196066B2
Authority
JP
Japan
Prior art keywords
audio
data
unit
video
captured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019519566A
Other languages
English (en)
Other versions
JPWO2018216499A1 (ja
Inventor
知伸 早川
信瑩 何
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Semiconductor Solutions Corp
Original Assignee
Sony Semiconductor Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Semiconductor Solutions Corp filed Critical Sony Semiconductor Solutions Corp
Publication of JPWO2018216499A1 publication Critical patent/JPWO2018216499A1/ja
Application granted granted Critical
Publication of JP7196066B2 publication Critical patent/JP7196066B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4334Recording operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/915Television signal processing therefor for field- or frame-skip recording or reproducing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N5/926Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback by pulse code modulation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/806Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)

Description

本技術は、データ処理装置、データ処理方法、プログラム、及び、データ処理システムに関し、特に、間欠的な画像を記録する場合に用いて好適なデータ処理装置、データ処理方法、プログラム、及び、データ処理システムに関する。
従来、所定の間隔で間欠的に画像を撮影するインターバル撮影を行うことが可能な装置が普及している。
また、従来、映像を記録する時間帯と音声を記録する時間帯とを個別に設定し、時間帯毎に映像と音声の両方を記録したり、いずれか一方のみを記録したりすることが可能な映像音声記録装置が提案されている(例えば、特許文献1参照)。
特開2007-166042号公報
しかしながら、インターバル撮影時に画像と音声を同期して取り込んだ場合、音声が間欠的に取り込まれるため、必ずしも有意な音声を記録できるとは限らない。また、1フレーム分の画像の記録時間は非常に短いため、画像と同期して記録した音声の内容を人が認識することは困難である。
また、特許文献1に記載の発明では、インターバル撮影において有意な音声を記録できるようにすることは考慮されていない。
本技術は、このような状況に鑑みてなされたものであり、間欠的な画像に対して有意な音声を記録できるようにするものである。
本技術の第1の側面のデータ処理装置は、間欠的な複数の画像が取り込まれた第1の期間内に取り込まれた音声に対応する第1の音声データから、前記複数の画像に基づく映像データとともに再生する1以上の音声ブロックを所定の特徴量に基づいて抽出し、所定の長さの第2の期間毎に、前記第2の期間内に取り込まれた音声に対応する音声データから、前記第2の期間内に取り込まれた間欠的な複数の画像に基づく映像データとともに再生する1以上の前記音声ブロックを前記特徴量に基づいて抽出する音声抽出部を備える。
本技術の第1の側面のデータ処理方法は、間欠的な複数の画像が取り込まれた第1の期間内に取り込まれた音声に対応する音声データから、前記複数の画像に基づく映像データとともに再生する1以上の音声ブロックを所定の特徴量に基づいて抽出し、所定の長さの第2の期間毎に、前記第2の期間内に取り込まれた音声に対応する音声データから、前記第2の期間内に取り込まれた間欠的な複数の画像に基づく映像データとともに再生する1以上の前記音声ブロックを前記特徴量に基づいて抽出する音声抽出ステップを含む。
本技術の第1の側面のプログラムは、間欠的な複数の画像が取り込まれた第1の期間内に取り込まれた音声に対応する音声データから、前記複数の画像に基づく映像データとともに再生する1以上の音声ブロックを所定の特徴量に基づいて抽出し、所定の長さの第2の期間毎に、前記第2の期間内に取り込まれた音声に対応する音声データから、前記第2の期間内に取り込まれた間欠的な複数の画像に基づく映像データとともに再生する1以上の前記音声ブロックを前記特徴量に基づいて抽出する音声抽出ステップを含む処理をコンピュータに実行させる。
本技術の第2の側面のデータ処理システムは、間欠的な複数の画像が取り込まれた期間内に取り込まれた音声に対応する第1の音声データから、前記複数の画像に基づく映像データとともに再生する1以上の音声ブロックを所定の特徴量に基づいて抽出し、所定の長さの第2の期間毎に、前記第2の期間内に取り込まれた音声に対応する音声データから、前記第2の期間内に取り込まれた間欠的な複数の画像に基づく映像データとともに再生する1以上の前記音声ブロックを前記特徴量に基づいて抽出する音声抽出部と、抽出された前記音声ブロックを加工して、前記映像データと同じ長さの第2の音声データを生成する音声加工部と、前記映像データと前記第2の音声データとを多重化し、映像音声データを生成する映像音声データ生成部とを備え、前記音声抽出部、前記音声加工部、及び、前記映像音声データ生成部が、複数の装置に分散して設けられている。
本技術の第1の側面においては、間欠的な複数の画像が取り込まれた第1の期間内に取り込まれた音声に対応する音声データから、前記複数の画像に基づく映像データとともに再生する1以上の音声ブロックを所定の特徴量に基づいて抽出され、所定の長さの第2の期間毎に、前記第2の期間内に取り込まれた音声に対応する音声データから、前記第2の期間内に取り込まれた間欠的な複数の画像に基づく映像データとともに再生する1以上の前記音声ブロックが前記特徴量に基づいて抽出される
本技術の第2の側面においては、間欠的な複数の画像が取り込まれた期間内に取り込まれた音声に対応する第1の音声データから、前記複数の画像に基づく映像データとともに再生する1以上の音声ブロックが所定の特徴量に基づいて抽出され、所定の長さの第2の期間毎に、前記第2の期間内に取り込まれた音声に対応する音声データから、前記第2の期間内に取り込まれた間欠的な複数の画像に基づく映像データとともに再生する1以上の前記音声ブロックを前記特徴量に基づいて抽出され、抽出された前記音声ブロックが加工され、前記映像データと同じ長さの第2の音声データが生成され、前記映像データと前記第2の音声データとが多重化され、映像音声データが生成される。
本技術の第1の側面又は第2の側面によれば、間欠的な画像に対して有意な音声を記録することができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
本技術を適用した記録装置の一実施の形態を示すブロック図である。 特徴量処理部の構成例を示すブロック図である。 音声処理部の構成例を示すブロック図である。 記録処理を説明するためのフローチャートである。 記録処理を説明するためのフローチャートである。 画像と音声を同時に間欠的に取り込む場合を説明するための図である。 本技術を用いて画像と音声を取り込む場合を説明するための図である。 本技術を適用した編集装置の一実施の形態を示すブロック図である。 コンピュータの構成例を示す図である。
以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
1.第1の実施の形態(記録装置の例)
2.第2の実施の形態(編集装置の例)
3.変形例
4.その他
<<1.第1の実施の形態>>
まず、図1乃至図7を参照して、本技術の第1の実施の形態について説明する。
<記録装置の構成例>
図1は、本技術を適用したデータ処理装置の第1の実施の形態である記録装置10の構成例を示すブロック図である。
記録装置10は、画像及び音声を取り込み、取り込んだ画像及び音声に基づく映像音声データを生成し、記録する装置である。
また、記録装置10は、通常記録モード及びインターバル記録モードの少なくとも2つのモードで映像音声データの記録を行うことができる。通常記録モードは、高いフレームレート(例えば、30fps)で連続的に画像を取り込み、映像音声データを記録するモードである。インターバル記録モードは、低いフレームレート(例えば、1fps)で、所定の間隔を空けて間欠的に画像を取り込み、映像音声データを記録するモードである。
記録装置10は、入力部11、センサ部12、制御部13、画像取込み部14、画像処理部15、音声取込み部16、特徴量処理部17、音声処理部18、映像音声データ生成部19、及び、記録部20を備える。
入力部11は、記録装置10の操作を行うための操作デバイスや、データを入力するための入力デバイスを備える。入力部11は、ユーザ操作に対応する操作信号や、外部から入力されたデータを制御部13に供給する。
センサ部12は、記録装置10の処理に必要な各種のセンサを備える。例えば、センサ部12は、加速度センサ、ジャイロセンサ、振動センサ、人感センサ等を備える。センサ部12は、各センサから出力されるセンサデータをデータを取得した時刻情報とともに制御部13に供給する。
制御部13は、例えば、CPU等の各種のプロセッサ等を備え、記録装置10の各部の制御を行う。
画像取込み部14は、例えば、カメラモジュール等を備え、画像の取込みを行う。画像取込み部14は、取り込んだ画像に対応する画像データを画像処理部15に供給する。
また、画像取込み部14は、高いフレームレート(例えば、30fps)で連続的に画像を取り込む連続撮影、及び、低いフレームレート(例えば、1fps)で間欠的に画像を取り込むインターバル撮影(または、タイムラプス撮影)が可能である。
画像処理部15は、画像取込み部14から供給される画像データに対して、必要に応じて各種の画像処理を施して、映像音声データ生成部19に供給する。
音声取込み部16は、例えば、マイクロホン等を備え、音声の取込みを行う。音声取込み部16は、取り込んだ音声に対応する音声データを特徴量処理部17又は音声処理部18に供給する。
特徴量処理部17は、音声データの特徴量を抽出し、抽出した特徴量に基づいて、音声データのフィルタリング処理を行う。これにより、音声データの一部が音声処理部18に供給され、残りが破棄される。
音声処理部18は、音声取込み部16又は特徴量処理部17から供給される音声データに対して、必要に応じて各種の音声処理を施して、映像音声データ生成部19に供給する。
映像音声データ生成部19は、画像処理部15から供給される画像データに基づく映像データと、音声処理部18から供給される音声データに基づいて、映像音声データを生成し、記録部20に記録させる処理を行う。
記録部20は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は、半導体メモリ等の記録媒体を備える。
<特徴量処理部の構成例>
図2は、図1の特徴量処理部17の構成例を示すブロック図である。
特徴量処理部17は、音圧検出部31及び特徴量抽出部32を備える。
音圧検出部31は、音声取込み部16から供給される音声データの特徴量の1つである音圧を検出する。音圧検出部31は、音圧の検出結果に基づいて、音声データの一部を特徴量抽出部32に供給し、残りを破棄する。
特徴量抽出部32は、音圧検出部31から供給される音声データを所定の長さの音声ブロックに分割するとともに、各音声ブロックの音圧以外の1つ以上の視点に基づく1次元以上の特徴量を抽出する。また、特徴量抽出部32は、抽出した特徴量に基づくスコアを各音声ブロックに付与し、そのスコアに基づいて、一部の音声ブロックを特徴量処理部17に供給し、残りの音声ブロックを破棄する。
<音声処理部の構成例>
図3は、図1の音声処理部18の構成例を示すブロック図である。
音声処理部18は、バッファ51、音声抽出部52、音声加工部53、及び、符号化部54を備える。
バッファ51は、特徴量処理部17から供給される音声ブロックを一時的に蓄積する。
音声抽出部52は、バッファ51に蓄積されている音声ブロックの中から、各音声ブロックに付与されている特徴量に基づくスコアに基づいて、一部の音声ブロックを抽出し、音声加工部53に供給する。
音声加工部53は、音声抽出部52により抽出された音声ブロックに対して各種の加工処理を行うことにより、映像音声データに多重化して記録する音声データを生成する。音声加工部53は、生成した音声データを符号化部54に供給する。
符号化部54は、音声取込み部16又は音声加工部53から供給される音声データに対して所定の符号化処理を行い、符号化した音声データを映像音声データ生成部19に供給する。
<記録処理>
次に、図4及び図5のフローチャートを参照して、記録装置10により実行される記録処理について説明する。なお、ここでは、記録装置10が音声を取り込み、記録する処理を中心に説明し、その他の処理は必要に応じて適宜説明する。
この処理は、例えば、記録処理の開始の指示が入力部11を介して制御部13に入力されたとき開始される。或いは、この処理は、例えば、記録処理のスケジュールが予め設定されており、その開始時刻になったとき開始される。また、記録処理の開始時までに、通常記録モード又はインターバル記録モードの選択が行われる。
ステップS1において、音声取込み部16は、音声の取込みを開始する。
なお、このとき、画像取込み部14は、所定のフレームレートで画像の取込みを行い、取り込んだ画像に対応する画像データを画像処理部15に供給する処理を開始する。画像を取り込むフレームレートは、通常記録モードに設定されている場合、例えば、30fpsに設定され、インターバル記録モードに設定されている場合、例えば、1fpsに設定される。
また、画像処理部15は、符号化等の所定の画像処理を画像データに施して、映像音声データ生成部19に供給する処理を開始する。
なお、通常記録モード又はインターバル記録モードのいずれの場合においても、音声は連続して取り込まれる。
ステップS2において、制御部13は、通常記録モードに設定されているか否かを判定する。通常記録モードに設定されていると判定された場合、処理はステップS3に進む。
ステップS3において、記録装置10は、符号化処理を開始する。具体的には、音声取込み部16は、制御部13の制御の下に、連続して取り込んだ音声に対応する音声データを符号化部54に供給する処理を開始する。符号化部54は、音声データに対して所定の符号化処理を行い、符号化後の音声データを映像音声データ生成部19に供給する処理を開始する。
ステップS4において、映像音声データ生成部19は、映像音声データの生成及び記録を開始する。例えば、以下の処理が開始される。
映像音声データ生成部19は、画像処理部15から供給される各フレームの画像データに基づいて、所定のフォーマットのビットストリームである映像データを生成する。また、映像音声データ生成部19は、符号化部54から供給される音声データを所定のフォーマットのビットストリームに変換する。さらに、映像音声データ生成部19は、映像データと音声データを多重化することにより映像音声データを生成し、記録部20に記録させる。
ステップS5において、制御部13は、インターバル記録モードに設定されたか否かを判定する。インターバル記録モードに設定されていないと判定された場合、処理はステップS6に進む。
ステップS6において、制御部13は、記録処理を終了するか否かを判定する。記録処理を終了しないと判定された場合、処理はステップS5に戻る。
その後、ステップS5において、インターバル記録モードに設定されたと判定されるか、ステップS6において、記録処理を終了すると判定されるまで、ステップS5及びステップS6の判定処理が繰り返し実行され、通常記録モードによる映像音声データの記録が継続する。
一方、ステップS6において、制御部13は、例えば、記録処理の停止の指示が入力部11を介して入力された場合、記録処理を終了すると判定する。或いは、制御部13は、例えば、記録処理のスケジュールが予め設定されており、その終了時刻になったとき、記録処理を終了すると判定する。そして、記録処理を終了すると判定された場合、記録処理は終了する。
また、ステップS5において、制御部13は、例えば、インターバル記録モードの設定の指示が入力部11を介して入力された場合、インターバル記録モードに設定されたと判定し、処理はステップS7に進む。これは、通常記録モードからインターバル記録モードに変更された場合である。
さらに、ステップS2において、インターバル記録モードに設定されていると判定された場合、処理はステップS7に進む。
ステップS7において、記録装置10は、音圧の検出を開始する。具体的には、音声取込み部16は、制御部13の制御の下に、連続して取り込んだ音声を示す音声データを音圧検出部31に供給する処理を開始する。音圧検出部31は、音声取込み部16から供給される音声データの音圧を検出する処理を開始する。
ステップS8において、音圧検出部31は、音圧に基づく音声データのフィルタリングを開始する。例えば、音圧検出部31は、音圧が所定の閾値以上となる状態が所定の時間以上継続する区間の音声データを特徴量抽出部32に供給し、それ以外の区間の音声データを破棄する処理を開始する。
この区間の長さは、例えば、音声データに含まれる短時間のノイズを除去することが可能な時間に設定される。
この閾値は、例えば、有意な音声、すなわち記録したい音声が含まれている可能性が低い音声を破棄することが可能なレベルに設定される。何を有意な音声とするかは、例えば、記録するシーンや目的等により変化する。例えば、植物の成長を記録する場合、その植物の周辺の人の声等が有意な音声とされる。例えば、工事の進捗を記録したい場合、工事現場の音等が有意な音声とされる。例えば、海、山、空等の風景の移り変わりを記録したい場合、自然の音や動物や虫の鳴き声等が有意な音声とされる。
このフィルタリング処理により、後段の特徴量抽出部32の処理を軽減することができる。
ステップS9において、特徴量抽出部32は、特徴量の抽出を開始する。例えば、特徴量抽出部32は、音圧検出部31から供給される音声データを所定の長さの音声ブロックに区切り、各音声ブロックの特徴量を抽出し、抽出した特徴量に基づいて各音声ブロックのスコアリングを行う処理を開始する。
ここで、抽出する特徴量の種類は、例えば、記録したい音声の種類に基づいて設定される。例えば、人の声を記録したい場合、人の声らしさを表す特徴量が抽出対象に設定される。また、例えば、特定の人の声のみを記録したい場合、各個人の声を識別可能なレベルの特徴量が抽出対象に設定される。さらに、例えば、特定の内容の発言のみを記録したい場合、文章解析の結果が特徴量と抽出される。
また、音声ブロックの長さは、例えば、音声ブロックに含まれる音声が人にとって意味のある音声として認識可能な最低限の長さ以上に設定される。
なお、抽出する特徴量は、2種類(2次元)以上であってもよい。
また、例えば、記録したい音声の種類によっては、ステップS7及びステップS8の処理を省略し、全ての音声データの特徴量を抽出するようにしてもよい。
ステップS10において、特徴量抽出部32は、特徴量に基づく音声データのフィルタリングを開始する。例えば、特徴量抽出部32は、特徴量に基づくスコアが所定の閾値以上の音声ブロックをスコアととともにバッファ51に蓄積し、それ以外の音声ブロックをバッファ51に蓄積せずに破棄する処理を開始する。
このフィルタリング処理により、バッファ51の容量を削減することができる。
ステップS11において、制御部13は、映像音声データを記録するタイミングであるか否かを判定する。映像音声データを記録するタイミングでないと判定された場合、処理はステップS12に進む。
ステップS12において、制御部13は、通常記録モードに設定されたか否かを判定する。通常記録モードに設定されていないと判定された場合、処理はステップS13に進む。
ステップS13において、ステップS6の処理と同様に、記録処理を終了するか否かが判定され、記録処理を終了しないと判定された場合、処理はステップS11に戻る。
その後、ステップS11において、映像音声データを記録するタイミングであると判定されるか、ステップS12において、通常記録モードに設定されたと判定されるか、ステップS13において、記録処理を終了すると判定されるまで、ステップS11乃至ステップS13の処理が繰り返し実行される。
一方、ステップS13において、記録処理を終了すると判定された場合、処理はステップS14に進む。
また、ステップS12において、例えば、制御部13は、通常記録モードの設定の指示が入力部11を介して入力された場合、通常記録モードに設定されたと判定し、処理はステップS14に進む。これは、インターバル記録モードから通常記録モードに変更された場合である。
さらに、ステップS11において、例えば、制御部13は、インターバル記録モードによる記録処理が開始されてから、まだ映像音声データの記録が1回も行われていない場合、インターバル記録モードによる記録処理の開始から所定の時間が経過したとき、映像音声データを記録するタイミングであると判定する。また、例えば、制御部13は、インターバル記録モードによる記録処理が開始されてから、1回以上映像音声データの記録が行われている場合、前回映像音声データが記録されてから所定の時間が経過したとき、映像音声データを記録するタイミングであると判定する。そして、映像音声データを記録するタイミングであると判定された場合、処理はステップS11に進む。
これにより、インターバル記録モードによる記録処理が継続している期間中に、所定の間隔で定期的に映像音声データが生成され、記録されるようになる。この間隔は、例えば、ユーザが設定するようにしてもよいし、或いは、記録装置10が自動的に設定するようにしてもよい。
また、映像音声データを記録する間隔が短くなるほど、映像データと音声データの時間のズレを小さくし、映像データと音声データの相関度を高めることができる。また、バッファ51の容量を小さくし、音声処理部18の処理を分散することができる。一方、映像音声データを記録する間隔を短くしすぎると、例えば、音声が短すぎたり、途中で途切れたりして、有意な音声が記録できなくなる場合がある。
一方、ステップS11の判定処理を省略することも可能である。この判定処理を省略した場合、インターバル記録モードによる記録処理の終了時に、まとめて映像音声データが生成され、記録されるようになる。
ステップS14において、制御部13は、映像記録時間を計算する。具体的には、制御部13は、インターバル記録モードによる記録処理が開始されてから、まだ映像音声データの記録が1回も行われていない場合、インターバル記録モードによる記録処理が開始されてから現在までの期間(以下、記録対象期間と称する)の長さを計算する。一方、制御部13は、インターバル記録モードによる記録処理が開始されてから、1回以上映像音声データの記録が行われている場合、前回映像音声データが記録された時点から現在までの期間(記録対象期間)の長さを計算する。
そして、制御部13は、記録対象期間内に取り込まれた画像データの長さを映像記録時間として計算する。例えば、記録対象期間の長さが1時間であり、画像の取込みが1fpsのフレームレートで行われ、1フレームの画像データの長さが33msである場合、映像記録時間は118.8秒(=33ms×3600フレーム)となる。
ステップS15において、音声抽出部52は、特徴量に基づいて、音声ブロックを抽出する。例えば、音声抽出部52は、バッファ51に蓄積されている音声ブロックのうち時間的に連続する音声ブロックを1つの音声ブロックにまとめる。また、音声抽出部52は、例えば、1つにまとめた音声ブロックのスコアとして、各音声ブロックのスコアの平均値を計算する。
そして、音声抽出部52は、上記の1つにまとめる処理を行った後、バッファ51に蓄積されている音声ブロックの中から、スコアが所定の閾値以上の音声ブロックを抽出する。音声抽出部52は、抽出した音声ブロックをスコアとともに音声加工部53に供給する。また、音声抽出部52は、バッファ51に蓄積されている音声ブロックを削除し、バッファ51をリセットする。
ステップS16において、音声加工部53は、抽出された音声ブロックに基づいて、映像記録時間と同じ長さの音声データを生成する。
例えば、音声加工部53は、抽出された音声ブロックを取り込まれた時間順に並べて接続する。このとき、音声加工部53は、例えば、ユーザが聞いて違和感が生じないように、各音声ブロックにフェード処理(フェードイン及びフェードアウト)を施す。
また、音声加工部53は、抽出された音声ブロックの合計時間が映像記録時間より長い場合、接続後の音声データが映像記録時間と同じ長さになるように、音声データの時間方向の圧縮を行う。例えば、音声加工部53は、話速変換により各音声ブロックの再生速度を上げる。なお、再生速度の最大値は、人が会話を聞き取れるレベル(例えば、2倍速)に制限される。また、例えば、音声加工部53は、クロスフェード処理により、隣接する音声ブロックを違和感なく重畳させる。
なお、音声加工部53は、以上の処理を施したとしても、音声データの長さが映像記録時間より長い場合、例えば、スコアが低いものから順に音声ブロックを破棄し、音声データの長さが映像記録時間と等しくなるように調整する。
一方、音声加工部53は、抽出された音声ブロックの合計時間が映像記録時間より短い場合、1以上の無音の音声ブロック(以下、無音ブロックと称する)を挿入することにより、音声データの長さを映像記録時間に合わせる。このとき、例えば、各音声ブロックと、各音声ブロックが取り込まれた時刻付近に取り込まれた画像データとの時間のズレが小さくなるように、無音ブロックの挿入位置が設定される。
また、音声加工部53は、必要に応じて、音声データのゲイン調整やノイズ除去等の処理を行う。
そして、音声加工部53は、生成した音声データを符号化部54に供給する。
ステップS17において、符号化部54は、符号化処理を行う。具体的には、符号化部54は、音声加工部53から供給された音声データに対して所定の符号化処理を行い、符号化後の音声データを映像音声データ生成部19に供給する。
ステップS18において、映像音声データ生成部19は、映像音声データを生成し、記録する。例えば、映像音声データ生成部19は、記録対象期間内に取り込まれた各フレームの画像データ(間欠的な画像データ)に基づいて、所定のフォーマットのビットストリームである映像データを生成する。また、映像音声データ生成部19は、符号化部54から供給された音声データを所定のフォーマットのビットストリームに変換する。このとき、通常記録モードで記録された映像データ及び音声データと同じように間欠的に取り込まれた画像を連続して再生するように、映像データと音声データの時間情報(例えば、タイムスタンプ等)の変更が行われる。さらに、映像音声データ生成部19は、映像データと音声データを多重化することにより映像音声データを生成し、記録部20に記録させる。
ステップS19において、ステップS6の処理と同様に、記録処理を終了するか否かが判定され、記録処理を終了しないと判定された場合、処理はステップS20に進む。
ステップS20において、制御部13は、インターバル記録モードに設定されているか否かを判定する。インターバル記録モードに設定されていると判定された場合、処理はステップS11に戻り、ステップS11以降の処理が実行される。これは、インターバル記録モードによる記録処理中に、所定のタイミングで映像音声データの生成及び記録が行われた場合であり、引き続き、インターバル記録モードによる記録処理が継続される。
一方、ステップS20において、通常記録モードに設定されていると判定された場合、処理はステップS3に戻り、ステップS3以降の処理が実行される。これは、インターバル記録モードから通常記録モードに変更された場合であり、その後、通常記録モードによる記録処理が開始される。
また、ステップS19において、記録処理を終了すると判定された場合、記録処理は終了する。
以上のようにして、間欠的な画像に対して有意な音声を記録できるようになる。
例えば、図6は、花の成長を間欠的に記録する場合に、画像と音声を同時に取り込むようにしたときの画像と音声を取り込むタイミングの例を示している。図内の1行目は、花が成長する様子を示しており、2行目は、画像を取り込むタイミングを、カメラの絵を含む枠で示し、3行目は、音声を取り込むタイミングを、波形図を含む枠で示している。
例えば、33msの長さの画像が所定の間隔で取り込まれ、記録される。また、画像と同期して、33msの長さの音声が所定の間隔で取り込まれ、記録される。しかし、画像を取り込んでいるときに、必ずしも有意な音声が背景に流れているとは限らない。また、33msの長さの音声は、人にとって有意な音声として認識することが困難である。
一方、図7は、花の成長を間欠的に記録する場合に、本技術を用いたときの画像と音声を取り込むタイミングの例を、図6と同様に示している。なお、図7では、音声を取り込むタイミングを示した行の下に、取り込まれる音声の具体例が示されている。
本技術を用いた場合、画像の取込みとは同期せずに、例えば花を観察している子供の声等の有意な音声のみが抽出され記録されるため、映像音声データの価値が向上する。そして、間欠的に取り込まれた複数のフレームの画像からなる映像と合わせて、抽出された音声が再生されるため、臨場感が増す。
また、有意な音声のみ記録され、不要な音声は破棄されるため、映像音声データの容量が増大することが防止される。
さらに、再生環境や装置に依存することなく、インターバル記録モードで記録された映像音声データを、通常記録モードで記録された映像音声データと同様の方法により再生することができる。
また、上述したように、通常記録モードとインターバル記録モードの切り替えをシームレスに行うことができる。また、途中で記録モードが切り替わっても、再生時に特別な処理を行うことなく連続して再生することが可能である。
さらに、抽出する特徴量の種類を変更することにより、記録するシーンや目的に適した有意な音声を適切に抽出することが可能になる。
なお、間欠的に取り込まれた画像を連続して再生する場合、実質的に映像が早送り再生されるようになるため、映像と音声の間に少々の時間のズレが生じても、ユーザはあまり気にならない。また、話速変換により音声の再生速度を上げても、ユーザは、あまり違和感を覚えない。
<<2.第2の実施の形態>>
次に、図8を参照して、本技術の第2の実施の形態について説明する。
<編集装置の構成例>
図8は、本技術を適用したデータ処理装置の第2の実施の形態である編集装置100の構成例を示すブロック図である。なお、図中、図1の記録装置10と対応する部分には同じ符号を付してあり、その説明は適宜省略する。
編集装置100は、例えば、画像が通常のフレームレートで連続的に記録された映像音声データから、画像が間欠的に記録された映像音声データを生成する装置である。
編集装置100は、記録装置10と比較して、制御部13の代わりに制御部101が設けられ、分離部102及び画像抽出部103が追加され、センサ部12、画像取込み部14、及び、音声取込み部16が削除されている点が異なる。
制御部101は、例えば、CPU等の各種のプロセッサ等を備え、編集装置100の各部の制御を行う。
分離部102は、外部から供給される映像音声データに多重化されている映像データと音声データを分離する。そして、分離部102は、映像データを画像抽出部103に供給し、音声データを特徴量処理部17に供給する。
画像抽出部103は、映像データに含まれる複数のフレームの画像データを所定の間隔で抽出し、抽出した画像データを画像処理部15に供給する。これにより、上述した記録装置10がインターバル撮影モードにより間欠的に取り込んだ画像データと同様の間欠的な画像データが、画像処理部15に供給されるようになる。そして、画像処理部15は、各画像データに対して所定の画像処理を行い、映像音声データ生成部19に供給する。
特徴量抽出部17及び音声処理部18は、分離部102から供給される音声データに基づいて、上述した記録装置10のインターバル撮影モード時の処理と同様の処理により、音声データを生成し、映像音声データ生成部19に供給する。
映像音声データ生成部19は、上述した記録装置10のインターバル撮影モード時の処理と同様の処理により、間欠的な画像データに基づいて映像データを生成する。そして、映像音声データ生成部19は、映像データと音声データに基づいて映像音声データを生成し、記録部20に記録させる。
このようにして、画像が連続的に記録された映像音声データから、画像が間欠的に記録された映像音声データが生成される。また、すでに記録されている音声データの中から有意な音声を含む音声データが抽出され、映像音声データに記録される。
<<3.変形例>>
以下、上述した本開示に係る技術の実施の形態の変形例について説明する。
<システムの構成に関する変形例>
以上の説明では、図1の記録装置10及び図8の編集装置100が、それぞれ1台で全ての処理を行う例を示したが、複数の装置(或いは、複数のLSI、プラットフォーム等)で分散して処理を行うようにしてもよい。複数の装置で分散して処理を行う場合、各装置が直接接続されるようにしてもよいし、ネットワーク等を介して間接的に接続されるようにしてもよい。或いは、各装置を直接又は間接的に接続せずに、装置間のデータの授受を、記録媒体等を介して行うようにしてもよい。
例えば、画像取込み部14及び音声取込み部16を記録装置10の外部に設けるようにしてもよい。例えば、画像取込み部14及び音声取込み部16を備える撮影機器を撮影したい場所に設置し、常にインターバル撮影モードで撮影を行い、取り込まれた画像データ及び音声データを記録装置10に伝送するようにしてもよい。これにより、撮影機器の負荷を軽減し、消費電力を削減することができる。また、撮影機器と記録装置10の間のデータの伝送量が小さくなり、両者の間の伝送路の伝送容量を小さくすることができる。
また、例えば、映像音声データ生成部19及び記録部20を記録装置10の外部に設けるようにしてもよい。この場合、記録装置10から映像音声データ生成部19及び記録部20を備える後段の装置への画像データ及び音声データの伝送を間欠的に又は低ビットレートで行うことができ、両者の間の伝送路の伝送容量をさらに削減することができる。
また、例えば、記録部20を記録装置10又は編集装置100の外部に設けるようにしてもよい。例えば、記録装置10又は編集装置100は、生成した映像音声データを外部の機器(例えば、ローカルサーバ、スマートフォン等)に供給し、記録させたり、ネットワークを介してクラウドサービス等を提供するサーバに供給し、記録させたりするようにしてもよい。
さらに、例えば、画像データ、及び、特徴量に基づくスコアを付与した音声データ(以下、スコア付き音声データと称する)を記録装置10から外部の機器やサーバに送信し、外部で記録用の音声データを生成し、その音声データを含む映像音声データを生成するようにしてもよい。
また、例えば、画像データ及びスコア付き音声データを複数の装置に送信し、各装置で異なる音声データを生成し、異なる音声データを含む映像音声データを生成するようにしてもよい。例えば、複数のスマートフォンに画像データ及びスコア付き音声データを送信し、各スマートフォンにおいて、スマートフォンの持ち主の声に基づいて音声データを抽出し、記録するようにしてもよい。
<処理に関する変形例>
例えば、インターバル記録モードにより映像音声データを記録する期間、又は、インターバル記録モードにおいて映像音声データを生成し、記録する間隔(以下、記録間隔と称する)が事前に決まっている場合、図5のステップS14の処理で計算した映像記録時間が事前に定まる。そして、話速変換及びクロスフェード処理等を考慮して、その映像記録時間の映像データに多重化可能な音声データの時間方向の圧縮前の時間の最大値(以下、音声記録可能時間と称する)が事前に定まる。この場合、例えば、バッファ51に蓄積されている音声ブロックの合計時間が音声記録可能時間を超えそうな場合、音声ブロックの合計時間が音声記録可能時間を超えないように、スコアが小さい音声ブロックから順に消去していくことにより、必要なバッファ51の容量を削減することができる。
また、例えば、まだ記録していない映像データの時間、バッファ51に蓄積されている音声ブロックの合計時間、及び、各音声ブロックのスコア等に基づいて、確実に抽出して記録されると予測されるスコアの高い音声ブロックに対して、加工処理や符号化処理を前倒しして行うようにしてもよい。これにより、バッファ51の容量を削減することができる。
さらに、例えば、スコアが高い音声ブロックを、ほぼリアルタイムに符号化し、所定のフォーマットに変換し、記録部20に記録させるようにしてもよい。これにより、バッファ51の容量を削減することができる。なお、最終的な音声データの時間が映像記録時間より長い場合、例えば、音声データの不連続点周辺の音声をデコードした後、クロスフェードしながら再エンコードすることにより、音声データの長さを調整することが可能である。一方、最終的な音声データの時間が映像記録時間より短い場合、例えば、無音ブロックを挿入することにより、音声データの長さを調整することが可能である。
また、例えば、インターバル記録モードにおいて記録間隔が予め定められている場合、特徴量処理部17と音声処理部18の処理を並列に行うことができ、処理時間を短縮することができる。
さらに、以上の説明では、音声データから抽出された特徴量に基づいて、記録する音声データを抽出する例を示したが、音声データから抽出された特徴量以外の特徴量に基づいて、記録する音声データを抽出するようにしてもよい。
例えば、センサ部12が備える各種のセンサが音声の取り込みと並行して検出した時系列のセンサデータに基づく特徴量に基づいて、記録する音声データを抽出するようにしてもよい。例えば、人感センサにより周囲に人の存在が検出された期間の音声データを抽出するようにしてもよい。また、例えば、振動センサより所定の閾値以上の振動が検出された期間の音声データを抽出するようにしてもよい。
なお、音声データから抽出された特徴量とそれ以外の特徴量の両方を用いるようにしてもよい。
また、例えば、特徴量抽出部32が、センサ部12から供給されるセンサデータから特徴量を抽出するようにしてもよい。
また、例えば、図1の画像取込み部14が、インターバル記録モード時に通常記録モードと同じフレームレートで画像を取り込み、所定の間隔で画像データを抽出して画像処理部15に供給するようにしてもよい。
<本技術の適用例>
本技術は、間欠的な画像に基づく映像データとともに再生する音声データを生成する機能を含む装置(例えば、撮影装置、記録装置、編集装置等)やシステムに適用することができる。
また、本技術の対象となる映像データは、間欠的に取り込んだ画像に基づく映像データでも、連続的に取り込んだ画像から抽出された画像に基づく映像データでもよい。また、間欠的な画像間の時間間隔は、固定でも可変でもよい。例えば、被写体の動きに合わせて断続的に取り込んだ画像に基づく映像データも、本技術の対象となる。
<<4.その他>>
<コンピュータの構成例>
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図9は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)401,ROM(Read Only Memory)402,RAM(Random Access Memory)403は、バス404により相互に接続されている。
バス404には、さらに、入出力インターフェース405が接続されている。入出力インターフェース405には、入力部406、出力部407、記録部408、通信部409、及びドライブ410が接続されている。
入力部406は、入力スイッチ、ボタン、マイクロホン、撮像素子などよりなる。出力部407は、ディスプレイ、スピーカなどよりなる。記録部408は、ハードディスクや不揮発性のメモリなどよりなる。通信部409は、ネットワークインターフェースなどよりなる。ドライブ410は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体411を駆動する。
以上のように構成されるコンピュータでは、CPU401が、例えば、記録部408に記録されているプログラムを、入出力インターフェース405及びバス404を介して、RAM403にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU401)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体411に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体411をドライブ410に装着することにより、入出力インターフェース405を介して、記録部408にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部409で受信し、記録部408にインストールすることができる。その他、プログラムは、ROM402や記録部408に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
<構成の組み合わせ例>
本技術は、以下のような構成をとることもできる。
(1)
間欠的な複数の画像が取り込まれた第1の期間内に取り込まれた音声に対応する第1の音声データから、前記複数の画像に基づく映像データとともに再生する1以上の音声ブロックを所定の特徴量に基づいて抽出する音声抽出部を
備えるデータ処理装置。
(2)
抽出された前記音声ブロックを加工して、前記映像データと同じ長さの第2の音声データを生成する音声加工部を
さらに備える前記(1)に記載のデータ処理装置。
(3)
前記音声加工部は、複数の前記音声ブロックが抽出された場合、複数の前記音声ブロックを時間順に並べて接続する
前記(2)に記載のデータ処理装置。
(4)
前記音声加工部は、各前記音声ブロックのフェード処理を行う
前記(3)に記載のデータ処理装置。
(5)
前記音声加工部は、抽出された前記音声ブロックの合計時間が前記映像データの時間より長い場合、隣接する前記音声ブロック間でクロスフェード処理を行う
前記(4)に記載のデータ処理装置。
(6)
前記音声加工部は、抽出された前記音声ブロックの合計時間が前記映像データの時間より長い場合、前記音声ブロックの話速変換を行う
前記(2)乃至(5)のいずれかに記載のデータ処理装置。
(7)
前記音声加工部は、抽出された前記音声ブロックの合計時間が前記映像データの時間より短い場合、無音の音声ブロックを挿入する
前記(2)乃至(6)のいずれかに記載のデータ処理装置。
(8)
前記映像データと前記第2の音声データとを多重化し、映像音声データを生成する映像音声データ生成部を
さらに備える前記(2)乃至(7)のいずれかに記載のデータ処理装置。
(9)
前記映像音声データ生成部は、前記複数の画像を連続して再生するように前記映像データ及び前記音声データの時間情報を変更する
前記(8)に記載のデータ処理装置。
(10)
前記特徴量を抽出する特徴量抽出部を
さらに備える前記(1)乃至(9)のいずれかに記載のデータ処理装置。
(11)
前記特徴量は、前記第1の音声データの特徴量、及び、前記第1の期間内に所定のセンサにより検出されたデータに基づく特徴量のうち少なくとも1つを含む
前記(1)乃至(10)のいずれかに記載のデータ処理装置。
(12)
前記音声抽出部は、所定の長さの第2の期間毎に、前記第2の期間内に取り込まれた音声に対応する音声データから、前記第2の期間内に取り込まれた間欠的な複数の画像に基づく映像データとともに再生する1以上の前記音声ブロックを前記特徴量に基づいて抽出する
前記(1)乃至(11)のいずれかに記載のデータ処理装置。
(13)
画像の取込みを行う画像取込み部と、
音声の取込みを行う音声取込み部と
をさらに備える前記(1)乃至(12)のいずれかに記載のデータ処理装置。
(14)
間欠的な複数の画像が取り込まれた期間内に取り込まれた音声に対応する音声データから、前記複数の画像に基づく映像データとともに再生する1以上の音声ブロックを所定の特徴量に基づいて抽出する音声抽出ステップを
含むデータ処理方法。
(15)
間欠的な複数の画像が取り込まれた期間内に取り込まれた音声に対応する音声データから、前記複数の画像に基づく映像データとともに再生する1以上の音声ブロックを所定の特徴量に基づいて抽出する音声抽出ステップを
含む処理をコンピュータに実行させるためのプログラム。
(16)
間欠的な複数の画像が取り込まれた期間内に取り込まれた音声に対応する第1の音声データから、前記複数の画像に基づく映像データとともに再生する1以上の音声ブロックを所定の特徴量に基づいて抽出する音声抽出部と、
抽出された前記音声ブロックを加工して、前記映像データと同じ長さの第2の音声データを生成する音声加工部と、
前記映像データと前記第2の音声データとを多重化し、映像音声データを生成する映像音声データ生成部と
を備え、
前記音声抽出部、前記音声加工部、及び、前記映像音声データ生成部が、複数の装置に分散して設けられている
データ処理システム。
(17)
画像の取込みを行う画像取込み部と、
音声の取込みを行う音声取込み部と
をさらに備える前記(16)に記載のデータ処理システム。
10 記録装置, 12 センサ部, 13 制御部, 14 画像取込み部, 15 画像処理部, 16 音声取込み部, 17 特徴量処理部, 18 音声処理部, 19 映像音声データ生成部, 31 音圧検出部, 32 特徴量抽出部, 51 バッファ, 52 音声抽出部, 53 音声加工部, 54 符号化部, 100 編集装置, 101 制御部, 102 分離部, 103 画像抽出部

Claims (16)

  1. 間欠的な複数の画像が取り込まれた第1の期間内に取り込まれた音声に対応する第1の音声データから、前記複数の画像に基づく映像データとともに再生する1以上の音声ブロックを所定の特徴量に基づいて抽出し、所定の長さの第2の期間毎に、前記第2の期間内に取り込まれた音声に対応する音声データから、前記第2の期間内に取り込まれた間欠的な複数の画像に基づく映像データとともに再生する1以上の前記音声ブロックを前記特徴量に基づいて抽出する音声抽出部を
    備えるデータ処理装置。
  2. 抽出された前記音声ブロックを加工して、前記映像データと同じ長さの第2の音声データを生成する音声加工部を
    さらに備える請求項1に記載のデータ処理装置。
  3. 前記音声加工部は、複数の前記音声ブロックが抽出された場合、複数の前記音声ブロックを時間順に並べて接続する
    請求項2に記載のデータ処理装置。
  4. 前記音声加工部は、各前記音声ブロックのフェード処理を行う
    請求項3に記載のデータ処理装置。
  5. 前記音声加工部は、抽出された前記音声ブロックの合計時間が前記映像データの時間より長い場合、隣接する前記音声ブロック間でクロスフェード処理を行う
    請求項4に記載のデータ処理装置。
  6. 前記音声加工部は、抽出された前記音声ブロックの合計時間が前記映像データの時間より長い場合、前記音声ブロックの話速変換を行う
    請求項2に記載のデータ処理装置。
  7. 前記音声加工部は、抽出された前記音声ブロックの合計時間が前記映像データの時間より短い場合、無音の音声ブロックを挿入する
    請求項2に記載のデータ処理装置。
  8. 前記映像データと前記第2の音声データとを多重化し、映像音声データを生成する映像音声データ生成部を
    さらに備える請求項2に記載のデータ処理装置。
  9. 前記映像音声データ生成部は、前記複数の画像を連続して再生するように前記映像データ及び前記音声データの時間情報を変更する
    請求項8に記載のデータ処理装置。
  10. 前記特徴量を抽出する特徴量抽出部を
    さらに備える請求項1に記載のデータ処理装置。
  11. 前記特徴量は、前記第1の音声データの特徴量、及び、前記第1の期間内に所定のセンサにより検出されたデータに基づく特徴量のうち少なくとも1つを含む
    請求項1に記載のデータ処理装置。
  12. 画像の取込みを行う画像取込み部と、
    音声の取込みを行う音声取込み部と
    をさらに備える請求項1に記載のデータ処理装置。
  13. 間欠的な複数の画像が取り込まれた第1の期間内に取り込まれた音声に対応する音声データから、前記複数の画像に基づく映像データとともに再生する1以上の音声ブロックを所定の特徴量に基づいて抽出し、所定の長さの第2の期間毎に、前記第2の期間内に取り込まれた音声に対応する音声データから、前記第2の期間内に取り込まれた間欠的な複数の画像に基づく映像データとともに再生する1以上の前記音声ブロックを前記特徴量に基づいて抽出する音声抽出ステップを
    含むデータ処理方法。
  14. 間欠的な複数の画像が取り込まれた第1の期間内に取り込まれた音声に対応する音声データから、前記複数の画像に基づく映像データとともに再生する1以上の音声ブロックを所定の特徴量に基づいて抽出し、所定の長さの第2の期間毎に、前記第2の期間内に取り込まれた音声に対応する音声データから、前記第2の期間内に取り込まれた間欠的な複数の画像に基づく映像データとともに再生する1以上の前記音声ブロックを前記特徴量に基づいて抽出する音声抽出ステップを
    含む処理をコンピュータに実行させるためのプログラム。
  15. 間欠的な複数の画像が取り込まれた期間内に取り込まれた音声に対応する第1の音声データから、前記複数の画像に基づく映像データとともに再生する1以上の音声ブロックを所定の特徴量に基づいて抽出し、所定の長さの第2の期間毎に、前記第2の期間内に取り込まれた音声に対応する音声データから、前記第2の期間内に取り込まれた間欠的な複数の画像に基づく映像データとともに再生する1以上の前記音声ブロックを前記特徴量に基づいて抽出する音声抽出部と、
    抽出された前記音声ブロックを加工して、前記映像データと同じ長さの第2の音声データを生成する音声加工部と、
    前記映像データと前記第2の音声データとを多重化し、映像音声データを生成する映像音声データ生成部と
    を備え、
    前記音声抽出部、前記音声加工部、及び、前記映像音声データ生成部が、複数の装置に分散して設けられている
    データ処理システム。
  16. 画像の取込みを行う画像取込み部と、
    音声の取込みを行う音声取込み部と
    をさらに備える請求項15に記載のデータ処理システム。
JP2019519566A 2017-05-26 2018-05-11 データ処理装置、データ処理方法、プログラム、及び、データ処理システム Active JP7196066B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017104132 2017-05-26
JP2017104132 2017-05-26
PCT/JP2018/018246 WO2018216499A1 (ja) 2017-05-26 2018-05-11 データ処理装置、データ処理方法、プログラム、及び、データ処理システム

Publications (2)

Publication Number Publication Date
JPWO2018216499A1 JPWO2018216499A1 (ja) 2020-03-26
JP7196066B2 true JP7196066B2 (ja) 2022-12-26

Family

ID=64395664

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019519566A Active JP7196066B2 (ja) 2017-05-26 2018-05-11 データ処理装置、データ処理方法、プログラム、及び、データ処理システム

Country Status (3)

Country Link
US (1) US10932000B2 (ja)
JP (1) JP7196066B2 (ja)
WO (1) WO2018216499A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011003991A (ja) 2009-06-16 2011-01-06 Canon Inc 情報処理装置、その動作方法、プログラム
JP2016090774A (ja) 2014-11-04 2016-05-23 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090269029A1 (en) * 2005-10-21 2009-10-29 Kenji Ishikawa Recording/reproducing device
JP4479651B2 (ja) 2005-12-12 2010-06-09 株式会社日立製作所 映像音声記録装置
US8447065B2 (en) * 2008-09-16 2013-05-21 Cyberlink Corp. Method of facial image reproduction and related device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011003991A (ja) 2009-06-16 2011-01-06 Canon Inc 情報処理装置、その動作方法、プログラム
JP2016090774A (ja) 2014-11-04 2016-05-23 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
US10932000B2 (en) 2021-02-23
US20200077140A1 (en) 2020-03-05
JPWO2018216499A1 (ja) 2020-03-26
WO2018216499A1 (ja) 2018-11-29

Similar Documents

Publication Publication Date Title
JP5146503B2 (ja) 動画処理装置、動画再生装置、動画処理方法、動画再生方法及びプログラム
JP4904914B2 (ja) ストリーム生成装置、撮像装置、およびストリーム生成方法
KR101295430B1 (ko) 화상 기록 장치, 화상 재생 장치, 화상 기록 방법 및 화상재생 방법
JP2007027990A (ja) 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
JP6882057B2 (ja) 信号処理装置、信号処理方法、およびプログラム
CN110691204B (zh) 一种音视频处理方法、装置、电子设备及存储介质
JP4978324B2 (ja) 画像記録装置、画像記録システム、画像再生方法
JP2009156888A (ja) 音声補正装置及びそれを備えた撮像装置並びに音声補正方法
JP3594409B2 (ja) Mpegオーディオ再生装置およびmpeg再生装置
WO2013024704A1 (ja) 画像処理装置および方法、並びにプログラム
JP2010081457A (ja) 情報記録再生装置およびビデオカメラ
JP2009147768A (ja) 映像音声記録装置および映像音声再生装置
JP2007101945A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP2012100216A (ja) カメラおよび動画撮影プログラム
JP5155092B2 (ja) カメラ、再生装置、および再生方法
JP4725918B2 (ja) 番組画像配信システム、番組画像配信方法及びプログラム
JP2010178124A (ja) 記録装置及び記録方法
JP7196066B2 (ja) データ処理装置、データ処理方法、プログラム、及び、データ処理システム
US8538244B2 (en) Recording/reproduction apparatus and recording/reproduction method
JP4973497B2 (ja) 撮像画像記録装置、撮像画像記録方法、撮像画像再生装置、撮像画像再生方法及び撮像画像記録再生システム
JP2004158913A (ja) 音声画像処理装置
JP2011151784A (ja) 動画像多重化装置、映像音声記録装置及び動画像多重化方法
JP5401930B2 (ja) 撮像装置
JP2004297229A (ja) 画像処理装置及びその方法並びにそれを用いた画像処理システム及びプログラム
WO2020177483A1 (zh) 音视频处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221214

R150 Certificate of patent or registration of utility model

Ref document number: 7196066

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150