JP2013171089A - 音声補正装置、方法、及びプログラム - Google Patents

音声補正装置、方法、及びプログラム Download PDF

Info

Publication number
JP2013171089A
JP2013171089A JP2012033387A JP2012033387A JP2013171089A JP 2013171089 A JP2013171089 A JP 2013171089A JP 2012033387 A JP2012033387 A JP 2012033387A JP 2012033387 A JP2012033387 A JP 2012033387A JP 2013171089 A JP2013171089 A JP 2013171089A
Authority
JP
Japan
Prior art keywords
audio
sound
image
correction
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012033387A
Other languages
English (en)
Inventor
Kazunori Imoto
和範 井本
Makoto Hirohata
誠 広畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2012033387A priority Critical patent/JP2013171089A/ja
Priority to US13/591,660 priority patent/US20130218570A1/en
Priority to CN2012103059703A priority patent/CN103259979A/zh
Publication of JP2013171089A publication Critical patent/JP2013171089A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】実施形態によれば、動画像に対応する音声を、視聴者にとって聞きやすい音声に補正することが可能な音声補正装置、方法、及びプログラムを提供することができる。
【解決手段】分離部は、音声から1つ以上の音声成分を分離する。推定部は、動画像の画像フレームの特徴量、あるいは、音声の音声フレームの特徴量のうち、少なくともいずれか一方に基づき、動画像中において、関連する一連の画像フレームを含むシーンを推定する。解析部は、動画像を解析して、シーンに含まれる画像フレームの属性である属性情報を得る。補正部は、属性情報に基づき、シーンに含まれる画像フレームに対応する音声成分の補正方法を決定し、決定した補正方法に従って音声成分を補正する。
【選択図】図1

Description

本発明の実施形態は、音声補正装置、方法、及びプログラムに関する。
動画像と対になって再生される音声を、当該動画像を解析した解析結果に基づいて補正する音声補正装置がある。
従来の音声補正装置には、動画像中に出現する人物の人数を検出し、検出した人数に応じて、音声を強調したり、音声の指向性を制御するものがある。
従来の他の音声補正装置には、動画像中に出現する物体の位置や、当該物体を撮影するカメラの移動状態に応じて、当該物体が発する音声が、当該物体に対応する位置から発せられたように音声を出力するものがある。
しかしながら、このような音声補正装置では、動画像のフレーム毎に、独立して音声を補正するため、一連のシーン中であっても、実際に音を発している物体(人物、動物、自動車等)が映っていないフレームについては音声の補正が行なわれない。
そのため、一連のシーンにおいて、実際に音を発している物体が出現するフレームと、当該物体が存在しないフレームとが混在する場合には、視聴者にとって聞きづらい音声が出力されてしまう。
特開2009−156888号公報 特開2000−295700号公報
本発明が解決しようとする課題は、動画像に対応する音声を、視聴者にとって聞きやすい音声に補正することが可能な音声補正装置、方法、及びプログラムを提供することである。
上記目的を達成するために、本発明の実施形態に係る音声補正装置は、動画像に対応する音声を補正する音声補正装置であって、分離部と、推定部と、解析部と、補正部とを備える。
分離部は、前記音声から1つ以上の音声成分を分離する。推定部は、前記動画像の画像フレームの特徴量、あるいは、前記音声の音声フレームの特徴量のうち、少なくともいずれか一方に基づき、前記動画像中において、関連する一連の画像フレームを含むシーンを推定する。解析部は、前記動画像を解析して、前記シーンに含まれる画像フレームの属性である属性情報を得る。補正部は、前記属性情報に基づき、前記シーンに含まれる画像フレームに対応する前記音声成分の補正方法を決定し、決定した前記補正方法に従って前記音声成分を補正する。
第1の実施形態に係る音声補正装置1を表すブロック図。 音声補正装置1の処理を表すフローチャート。 音声補正装置1が処理するのに好適な動画像の一例図。 分離部20の処理を表すフローチャート。 推定部30の処理を表すフローチャート。 類似ショットの説明図。 解析部40の処理を表すフローチャート。 補正部50の処理を表すフローチャート。 第2の実施形態に係る音声補正装置2を表すブロック図。 音声補正装置2が処理するのに好適な動画像の一例図。 推定部31の処理を表すフローチャート。 補正部51の処理を表すフローチャート。 第3の実施形態に係る音声補正装置3が処理するのに好適な動画像の一例図。 音声補正装置3を表すブロック図。 分離部22を表すフローチャート。 推定部32の処理を表すフローチャート。 解析部42の処理を表すフローチャート。 補正部52の処理を表すフローチャート。 第4の実施形態に係る音声補正装置4を表すブロック図。 補正部53の処理を表すフローチャート。
(第1の実施形態)
第1の実施形態に係る音声補正装置1は、例えば、テレビ、パーソナルコンピュータ(PC)、タブレット型PC、スマートフォン等、動画像及び音声を出力可能な機器に用いられ得る。
音声補正装置1は、動画像に対応する音声を補正するものである。動画像に対応する音声とは、動画像と対応して再生されるべき音声である。音声は、1つ以上の音声成分を含む。音声成分とは、人物の発声音、動物の発声音、背景音等、音源となる個々の物体が発した音をいう。
音声補正装置1は、動画像における同一のシーンに属する画像フレームには、画像フレーム毎に共通の補正方法を用いて、当該音声を補正する。
これにより、動画像に対応する音声を、視聴者にとって聞きやすい音声に補正することができる。なお、動画像と音声とは、時刻情報により同期している。
図1は、音声補正装置1を表すブロック図である。音声補正装置1は、取得部10と、分離部20と、推定部30と、解析部40と、補正部50と、合成部60と、出力部70とを備える。
取得部10は、入力信号を取得する。入力信号は、動画像と、当該動画像に対応する音声を含む信号である。例えば、取得部10は、放送波から入力信号を取得してよい。あるいは、ハードディスクレコーダ(HDD)等に蓄積されているコンテンツを入力信号として取得してよい。取得部10は、取得した入力信号から、音声を分離部20に供給する。取得部10は、取得した入力信号から、動画像を、推定部30と、解析部40と、出力部70とに供給する。
分離部20は、供給された音声を解析して、当該音声から1つ以上の音声成分を分離する。例えば、供給された音声に、複数の人物の発声音と背景音とが含まれる場合、分離部20は、当該音声を解析して、当該音声から、各人物の発声音と背景音とを分離する。詳細は後述する。
推定部30は、供給された動画像の各画像フレームの特徴量に基づき、当該動画像中におけるシーンを推定する。シーンは、互いに関連する一連の画像フレームを含む。例えば、推定部30は、各画像フレームの特徴量の類似度から、動画像におけるカット境界を検出する。
ここで、あるカット境界Pと、カット境界Pの直前のカット境界Qとに含まれる画像フレームの集合を「ショット」と呼ぶこととする。推定部30は、各ショット同士の特徴量の類似度から、シーンを推定する。
解析部40は、供給された動画像を解析し、推定されたシーン中における画像フレームの属性である属性情報を得る。属性情報は、例えば、画像フレームに出現する物体(人物、動物、自動車等)の数や位置、シーンにおけるズームやパン等のカメラワークの動作情報等を含む。また、属性情報はこれに限らず、物体が人物であれば、人物の顔(例えば口)の位置や動きに関する情報等も含む。
補正部50は、得られた属性情報に基づいて、推定されたシーンにおける各画像フレームに対応する音声成分の補正方法を設定し、分離された1つ以上の各音声成分を補正する。補正方法については後述する。
合成部60は、補正された各音声成分を合成する。出力部70は、合成された各音声成分と、取得部10から供給された動画像とを統合した出力信号を出力する。
取得部10と、分離部20と、推定部30と、解析部40と、補正部50と、合成部60と、出力部70とは、中央演算処理装置(CPU)、及びCPUが用いるメモリにより実現されてよい。
以上、音声補正装置1の構成について説明した。
図2は、音声補正装置1の処理を表すフローチャートである。
取得部10は、入力信号を取得する(S101)。分離部20は、供給された音声を解析して、当該音声から1つ以上の音声成分を分離する(S102)。推定部30は、供給された動画像の各画像フレームの特徴量に基づき、当該動画像中におけるシーンを推定する(S103)。
解析部40は、供給された動画像を解析し、推定されたシーン中に出現する物体の属性情報を得る(S104)。補正部50は、得られた属性情報に基づいて、推定されたシーンにおける各画像フレームに対応する音声成分の補正方法を決定する(S105)。
補正部50は、シーンにおける画像フレーム毎に、決定した補正方法に従って、分離された1つ以上の各音声成分を補正する(S106)。合成部60は、補正された各音声成分を合成する(S107)。出力部70は、合成された各音声成分と、取得部10から供給された動画像とを統合した出力信号を出力し(S108)、処理を終了する。
以上、音声補正装置1の処理について説明した。
以下、本実施形態の分離部20と、推定部30と、解析部40と、補正部50と、について詳述する。
図3は、音声補正装置1が処理するのに好適な動画像の一例図である。図3に示すように、本実施形態では、ドラマ中で登場人物が会話をしているシーンを含む動画像を想定する。当該シーンは、画像フレームf1〜f9を含む。画像フレームf7は、登場人物の会話途中で周辺の風景の画像が挿入されたインサートショットであり、当該インサートショット中であっても、登場人物の会話が継続しているものとする。
図4は、分離部20の処理を表すフローチャートである。分離部20は、取得部から供給された音声を一定間隔に分割した音声フレーム単位で特徴量に変換し、各音声フレームに出現している音声成分を識別する(S201)。
分離部20は、音声成分を識別するために、発声音、音楽、雑音や、それらの組み合わせ等の音声モデルを保持していてよい。なお、特徴量の算出方法や、音声成分を識別するアルゴリズムは、音声認識分野の公知技術を用いてよい。
分離部20は、(1)発声音、(2)発声音以外の背景音、(3)発声音と背景音との混合音、の3種類の音声成分を識別し、発声音以外の背景音が検出された区間から、背景音の基底を学習し、それ以外(発声音、あるいは、発声音と背景音との混合音)の区間から、発声音の基底を学習する(S202)。
分離部20は、各音声フレームから、発声音と発声音以外の背景音の音声成分とを分離する(S203)。例えば、分離部20は、公知の非負行列因子分解を用いた分離方式を用いて、発声音と背景音とを分離してよい。
この分離方式を用いる場合、分離部20は、背景音信号のスペクトログラムを基底行列と係数行列とに分解する。スペクトログラムとは、音声信号の周波数を解析して得られるスペクトルの集合である。
分離部20は、背景音の基底行列を用いて、取得された音声のスペクトログラムから背景音以外を表現する基底行列(発声音の基底行列)と、各々の基底行列に対応する係数行列を推定する。
従って、分離部20は、音声成分の識別で、背景音であると判定した区間から背景音基底を学習し、発声音や、発声音と背景音との混合音であると判定した区間から、発声音の基底行列と係数行列とを推定する。
発声音の基底行列と係数行列、及び、背景音の基底行列と係数行列を推定した後、分離部20は、発声音の基底行列と対応する係数行列の積により、発声音のスペクトログラムを求める。背景音の基底行列と対応する係数行列の積により、背景音のスペクトログラムを求める。
分離部20は、発声音のスペクトログラムや、背景音のスペクトログラムを、逆フーリエ変換して、音声から各々の音声成分を分離する。なお、音声成分の分離方式は、上述のものに限定されるものではなく、また音声成分も、発声音と発声音以外の背景音とに限定されない。
以上、分離部20の処理について説明した。
図5は、推定部30の処理を表すフローチャートである。推定部30は、取得部10から供給された動画像について、現在処理対象の画像フレームと、直前の画像フレームとの特徴量の類似度を算出し、動画像におけるカット境界を推定する(S301)。推定部30は、画像認識分野における公知の手法を用いて、カット境界を推定してよい。推定部30は、カット境界Pと、カット境界Pの直前のカット境界Qとに含まれる画像フレームの集合であるショットを求める(S302)。
推定部30は、処理対象とするショットRについて、過去の時刻のショットに、ショットRと特徴量が類似するショット(類似ショット)があるか否かを判定する(S303)。
図6は、類似ショットの説明図である。ステップS301〜S302の処理により、図3に示す動画像から、図6に示すようなカット境界A〜E、ショット1〜4が推定される。すなわち、カット境界Aとカット境界Bとからショット1が推定される。カット境界Bとカット境界Cとからショット2が推定される。カット境界Cとカット境界Dとからショット3が推定される。カット境界Dとカット境界Eとからショット4が推定される。
ショット1は、画像フレームf1〜f4を含む。ショット2は、画像フレームf5〜f6を含む。ショット3は、画像フレームf7を含む。ショット4は、画像フレームf8〜f9を含む。なお、画像フレームf2〜f4は、画像フレームf1と特徴量が類似すると判定されたものであるため、図3及び図6では省略している。画像フレームf6は、画像フレームf5と特徴量が類似すると判定されたものであるため、図3及び図6では省略している。画像フレームf9は、画像フレームf8と特徴量が類似すると判定されたものであるため、図3及び図6では省略している。
ここで、各ショットの先頭の画像フレームを代表フレームとする。すなわち、画像フレームf1をショット1の代表フレーム、画像フレームf5をショット2の代表フレーム、画像フレームf7をショット3の代表フレーム、画像フレームf8をショット4の代表フレームとする。
例えば、推定部30は、2つのショットの代表フレーム間における特徴量の類似度を比較することにより、類似ショットを推定してよい。この場合、推定部30は、2つのショットの代表フレームについて、各代表フレームをブロック分割し、代表フレーム間で対応するブロックの輝度の差分値を累積した累積差分値が、所定の閾値より小さくなれば、当該2つのショットを類似ショットと判定する。本例では、図6に示すように、代表フレームf1と代表フレームf8とが類似していると判定されるため、ショット1とショット4とが、類似フレームであると推定される。
類似ショットがある場合、推定部30は、各類似ショットにIDを付与し、各類似ショットの時間長、類似ショットの出願頻度、類似ショットの出現パタン等の類似ショット情報を保持しておく。本例において、推定部30は、ショット1とショット4とに同一のID(例えばID“A”)を付与する。
類似ショットの出願頻度とは、動画像に含まれる画像フレームの数に対する、類似ショットの数を表すものである。類似ショットの出現パタンとは、時間的に類似ショットが出現するタイミングを表すものである。本例の場合、類似ショットの出現パタンは、「類似ショットA(ショット1)、−、−、類似ショットA(ショット4)」となる。「−(ハイフン)」は、類似ショットAではないことを示している。
類似ショットがある場合、推定部30は、類似ショット情報を用いて、シーンを推定する。すなわち、推定部30は、同一シーンとなる一連のショットを推定する(S304)。例えば、推定部30は、連続する所定の数のショット数以内(例えば、4ショット以内)に、類似ショットが一定の数以上(例えば、2回以上)出現する場合には、当該所定の数のショットを同一のシーン(図6に示すシーンA)であると推定する。本例では、ショット1〜ショット4の間に、類似ショットAが2回出現するため(ショット1とショット4)、推定部30は、ショット1〜ショット4を同一シーンであると推定する。
推定部30は、各シーンの境界となるカット境界を表す情報を補正部50に供給し、処理を終了する。
以上、推定部30の処理について説明した。
図7は、解析部40の処理を表すフローチャートである。解析部40は、取得部10から供給された動画像において、処理対象の画像フレームから、当該画像フレームを縮小した縮小画像であって、互いにサイズの異なる当該縮小画像を1つ以上生成する(S401)。
互いにサイズの異なる縮小画像を生成することにより、画像フレームに含まれる様々な大きさの顔を、同じテンプレートとの照合で検出することができる。
解析部40は、各縮小画像に探索領域を設定し、探索領域における特徴量を算出してテンプレートと照合することにより、探索領域における顔の有無を判定する(S402)。解析部40は、各縮小画像において、探索領域を示上下左右にシフトさせて判定することにより、縮小画像全体で顔検出を行なうことができる。
なお、解析部40は、顔のモデルを予め保持しておき、顔モデルとの照合を複数回行なうにより、探索領域における顔の有無を判定してよい。例えば、解析部40は、適応的なブースティング手法の一つであるAdaboost等を用いて、顔の有無を判定してよい。Adaboostは、複数の弱識別器を組み合わせる手法であり、前段の弱識別器に含まれる誤検出画像を分離するよう、後段の弱識別器を学習することで、高速性と高い識別能力を実現することができる。
また、解析部40は、複数の弱識別器の判定を通過した人物の顔領域を対象に、動画像中に出現する人物の顔を識別し、人物毎に分類する顔クラスタリング処理を行なってもよい。顔クラスタリング処理としては、人物の顔から抽出した特徴量を、特徴量空間上でのMean−Shift法でクラスタリングする方法等がある。
解析部40は、画像フレームにおいて顔を検出した場合、画像フレーム全体に含まれる顔の数や位置等の属性情報を得て(S303)、処理を終了する。また、ステップS303において、解析部40は、連続する画像フレームにおける、人物の顔の動きや、カメラワーク等を検出して、それらを属性情報に含めてもよい。
なお、本例では、人物の顔を検出対象としたが、動物や自動車等、あらゆる物体を検出対象とすることができる。この場合、解析部40は、検出対象とする物体を検出するためのモデルを予め保持しておき、当該モデルに対応する物体が画像フレーム中に含まれるか否かを判定すればよい。
以上、解析部40の処理について説明した。
図8は、補正部50の処理を表すフローチャートである。補正部50は、解析部40が得た属性情報に基づいて、動画像の画像フレーム毎に、対応する音声成分の補正方法を設定する(S501)。本例において、属性情報は、画像フレーム全体に含まれる人物の顔の数を表す情報であるとする。
この場合、補正部50は、例えば、(1)検出された顔の数が0であるか、(2)検出された顔の数が1以上であるかを、画像フレーム毎に判定する。検出された顔の数が0である場合((1)の場合)、補正部50は、その画像フレームに対応する音声成分を維持するよう、補正方法を設定する。検出された顔の数が1以上である場合((2)の場合)、補正部50は、その画像フレームに対応する音声成分を強調するよう(例えば、音量を大きくする等)、補正方法を設定する。
補正部50は、推定部30が推定したシーンについて、画像フレーム毎に、設定した補正方法を調整する(S502)。すなわち、補正部50は、推定部30が推定したシーンについて、画像フレーム毎に、設定した補正方法を変更するか否かを判定する。
例えば、図6に示す動画像の場合、補正部50は、ショット1、ショット2、ショット4について、人物の顔が検出されたと判定する。補正部50は、ショット3について、人物の顔が検出されていないと判定する。なお、補正部50は、1つのショットに含まれる画像フレームの過半数に、人物の顔が検出されている場合に、そのショットについて人物の顔が検出されたと判定してよい。
ステップS501の段階では、ショット3は人物の顔が検出されていないため、ショット1、ショット2、ショット4と、異なる補正方法が設定されている。すなわち、ショット1、ショット2、ショット4に各々対応する音声成分には、上述した(2)の補正方法が設定され、ショット3に対応する音声成分には、上述した(1)の補正方法が設定されている。
ステップS502において、補正部50は、推定された1つのシーンに含まれるショットに対応する音声成分に対しては、同一の補正方法となるよう、補正方法を調整する。ここで補正部50は、1つのシーンに含まれるショットについて設定した補正方法のうち、最も数の多い補正方法を選択し、各ショットに対応する音声成分の補正方法を調整してよい。
図6に示す例では、シーンAに含まれるショットのうち、上述した(2)の補正方法はショット1、ショット2、ショット4の3つであり、上述した(1)の補正方法はショット3の1つである。
そのため、補正部50は、ショット3に対応する音声成分に対する補正方法を、上述した(2)に変更し、シーンAに含まれるショットに対応する音声成分に対しては、同一の補正方法となるよう、補正方法を調整する。
また、補正部50は、各人物の顔の位置に応じて、各人物が発する声が、各人物に対応する位置から発せられたように出力するよう、各音声成分を補正しても構わない。この場合、属性情報は、各人物の顔の位置の情報をさらに含む。
以上、補正部50の処理について説明した。
本実施例によれば、推定部30によって同一シーンと推定されたショットに対しては同一の補正方法により、各音声成分を補正するため、図6のショット3のように、人物が画像中に出現しないショットにおいても、揺らぎのない安定した補正を行なうことができる。
また、本実施形態によれば、画像における人物等の検出に失敗した場合であっても、揺らぎのない安定した補正を行なうことができる。

(第2の実施形態)
第2の実施形態に係る音声補正装置2は、動画像ではなく、音声からシーン境界を推定する点と、声を発している人物が画像中に出現しないシーンでは、音声を抑制するように、音声成分を補正する点が、前実施形態の場合と異なる。音声補正装置2の処理のフローは、音声補正装置1(図2)と同様である。
図9は、音声補正装置2を表すブロック図である。音声補正装置2では、音声補正装置1の推定部30が、推定部31に置き換わる。補正部50が、補正部51に置き換わる。また、取得部10は、音声を推定部31に供給する。
推定部31は、供給された音声の各音声フレームの特徴量に基づき、当該動画像中におけるシーンを推定する。例えば、推定部31は、各音声フレームの特徴量の類似度から、動画像中で音声の特徴量の変化が大きな時刻をシーン境界として検出する。
補正部51は、解析部40が得た属性情報に基づいて、推定されたシーンにおける各画像フレームに対応する音声成分の補正方法を設定し、分離部20が分離した1つ以上の各音声成分を補正する。推定部31と補正部51とは、CPU及びCPUが用いるメモリにより実現されてよい。
図10は、音声補正装置2が処理するのに好適な動画像の一例図である。図10に示すように、本実施形態では、サッカー等のスポーツ中継で、アナウンサーや解説者が撮影されているシーンと、スポーツの試合が撮影されているシーンとを含む動画像を想定する。
すなわち、図10において、画像フレームf11〜f14は、アナウンサーや解説者が撮影されている画像フレームである。画像フレームf15〜f22及びf25は、試合中のスタジアムを引きのアングルで撮影した画像フレームである。画像フレームf23〜f24は、試合中の選手をアップのアングルで撮影した画像フレームである。画像フレームf12〜f14は、画像フレームf11に類似しているため省略する。画像フレームf16〜f22は、画像フレームf15に類似しているため省略する。画像フレームf24は、画像フレームf23に類似しているため省略する。
また、画像フレームf11〜f14に対応する音声には、BGMが含まれており、画像フレームf15〜f25に対応する音声には、観客の歓声が継続して含まれている。さらに、画像フレームf11〜f14に対応する音声における一部の時間ではアナウンサーが声を発している。画像フレームf15〜f25に対応する音声における一部の時間では解説者が声を発している。
このように、動画像中には、当該動画像中に出現しない人物が声を発している画像フレームが含まれる場合がある。本実施形態では、試合中のスタジアムの音声環境を維持しながら、アナウンサーや解説者が発する声を抑制するように音声を補正する。
図11は、推定部31の処理を表すフローチャートである。推定部31は、取得部10から供給された音声を一定の間隔で分割した音声フレーム毎の特徴量に基づいて、当該音声フレームに含まれる音声成分を識別する(S601)。本実施形態において推定部31は、「音声」、「音楽」、「歓声」、「雑音」、「音声+音楽」、「音声+歓声」、「音声+雑音」の7種類の音声成分を識別するものとする。例えば、推定部31は、これら7種類の音声成分を識別するための音声モデルを予め保持し、当該音声モデルと音声フレームとを比較することにより、音声成分を識別してよい。
推定部31は、隣接する音声フレーム間で音声成分を比較し、シーンを推定する(S602)。例えば、推定部31は、音声成分が異なる音声フレーム間にシーンの境界を設定し、シーンを推定してよい。
なお、音声成分の識別の精度を高めるために、推定部31は、分離部30で分離された背景音の成分を対象として推定処理を行なってもよい。
これにより、図10に示す例では、画像フレームf14と、画像フレームf15との間に、シーンの境界があると推定され、シーンBとシーンCとが推定される。
以上、推定部31の処理について説明した。
図12は、補正部51の処理を表すフローチャートである。補正部51は、解析部40が得た属性情報に基づいて、動画像の画像フレーム毎に、対応する音声成分の補正方法を設定する(S701)。本例において、属性情報は、画像フレーム全体に含まれる人物の顔の数を表す情報であるとする。
この場合、補正部51は、例えば、(1)検出された顔の数が0であるか、(2)検出された顔の数が1以上であるかを、画像フレーム毎に判定する。検出された顔の数が0である場合((1)の場合)、補正部51は、その画像フレームに対応する音声成分を抑制するよう、補正方法を設定する。検出された顔の数が1以上である場合((2)の場合)、補正部51は、その画像フレームに対応する音声成分を維持するよう、補正方法を設定する。
図10に示す例において、解析部40は、アナウンサーと解説者とが出現する画像フレームf11〜f14、及び、試合中の選手がアップで撮影されている画像フレームf23〜f24において、人物の顔を検出している。
補正部51は、推定部31が推定したシーンについて、画像フレーム毎に、設定した補正方法を調整する(S702)。すなわち、補正部51は、推定部31が推定したシーンB及びシーンCについて、画像フレーム毎に、設定した補正方法を変更するか否かを判定する。
例えば、図10に示す動画像の場合、補正部51は、シーンBにおける画像フレームf11〜f14、シーンCにおける画像フレームf23〜f24について、人物の顔が検出されたと判定する。補正部51は、シーンCにおける画像フレームf15〜f22、f25について、人物の顔が検出されていないと判定する。
ステップS701の段階では、シーンBにおける画像フレームf11〜f14、シーンCにおけるf23〜f24に対応する音声成分には、上述した(2)の補正方法が設定され、シーンCにおける画像フレームf15〜f22、f25に対応する音声成分には、上述した(1)の補正方法が設定されている。
ステップS702において、補正部51は、推定された1つのシーンに含まれる画像フレームに対応する音声成分に対しては、同一の補正方法となるよう、補正方法を調整する。ここで補正部51は、1つのシーンに含まれる画像フレームについて設定した補正方法のうち、最も数の多い補正方法を選択し、各画像フレームに対応する音声成分の補正方法を調整してよい。
図10に示す例では、シーンCに含まれる画像フレームのうち、上述した(2)の補正方法は画像フレームf23〜f24の2フレームであり、上述した(1)の補正方法は画像フレームf15〜f22、f25の14フレームである。
そのため、補正部51は、画像フレームf23〜f24に対応する音声成分に対する補正方法を、上述した(1)に変更し、シーンCに含まれる画像フレームに対応する音声成分に対しては、同一の補正方法となるよう、補正方法を調整する。
シーンBに含まれる画像フレームに対応する音声成分に対しては、上述した(2)の補正方法が適用される。
また、補正部51は、各人物の顔の位置に応じて、各人物が発する声が、各人物に対応する位置から発せられたように出力するよう、音声成分を補正しても構わない。この場合、属性情報は、各人物の顔の位置の情報をさらに含む。
以上、補正部51の処理について説明した。
本実施例によれば、同一シーンと推定した画像フレームに対応する音声成分に対しては、同一の補正方法を適用するため、図10のシーンCにおける画像フレームf23〜f24のように、登場する人物と、実際に声を発している人物が異なる場合であっても、揺らぎのない安定した補正を行なうことができる。

(第3の実施形態)
図13は、第3の実施形態に係る音声補正装置3が処理するのに好適な動画像の一例図である。図13に示すように、画像フレームf26〜f29は、楽曲が始まる前のトークの場面を、画像フレームf30〜f36は、楽曲が演奏されている場面を表している。
また、画像フレームf34〜f35は、画像フレームf30〜f33よりもズームアウトしている。画像フレーム36は、画像フレームf34〜f35よりも、カメラが右側に移動しながら撮影されているものとする。
トークの場面である画像フレームf26〜f29では、BGMが挿入されており、楽曲の場面である画像フレームf30〜f36では楽器の演奏音と歌手の歌声とが挿入されている。また、トークの場面と楽曲の場面の境界(画像フレームf29〜f30)では、拍手の音が挿入されている。
このように、音声に楽曲が挿入されている場合でも、BGMで歌手が動画像中に出現しない場合もあれば、動画像と同期して歌手が出現する場合もある。本実施形態では、動画像と同期する楽曲のシーンに対応する音声成分を、カメラワークに合わせて補正する。
本実施形態における音声補正装置3は、画像フレームにおける検出対象が人物ではなく楽器である点、音声から楽器毎の音声成分を分離する点、シーン境界に共起する特定音からシーン境界を推定する点、動画像中に出現する歌唱者や楽器の位置から、それらの音が発生して視聴者に聞こえるように音声成分を補正する点が、これまでの実施形態と異なる。
図14は、音声補正装置3を表すブロック図である。音声補正装置3では、音声補正装置1の分離部20が、分離部22に置き換わる。推定部30が、推定部32に置き換わる。解析部40が解析部42に置き換わる。補正部50が、補正部52に置き換わる。
分離部22は、取得部10から供給された音声を解析して、音声から1つ以上の音声成分を分離する。なお、分離部22は、分離した音声成分をメモリ(不図示)に蓄積してもよい。分離部22は、歌声と楽器音等、複数の音声成分が同時に重畳する音声から、各々の音声成分を分離する。詳細は後述する。
推定部32は、取得部10から供給された音声あるいは動画像を解析し、複数の画像フレームが含まれるシーンの境界を、当該境界に共起しやすい特定音や特定画像を検出することにより推定する。詳細は後述する。
解析部42は、取得部10から供給された音声あるいは動画像を解析し、属性情報を得る。本実施形態の属性情報は、例えば、画像フレームに出現する人物の数及び位置や、楽器の数及び位置の情報を含む。解析部42が処理する画像フレームは、音声が対応する動画像をデコードすることで生成できる。
補正部52は、解析部42が得た属性情報に基づいて、推定されたシーンにおける各画像フレームに対応する音声成分の補正方法を設定し、分離部22が分離した1つ以上の各楽器の音声成分を補正する。分離部22と推定部32と解析部42と補正部52とは、CPU及びCPUが用いるメモリにより実現されてよい。
図15は、分離部22の処理を表すフローチャートである。分離部22は、取得部10から供給された音声を、一定間隔で分割した音声フレーム毎の特徴量に基づいて、各音声フレームに含まれている音声成分を判定する(S801)。本実施形態では、「歌声」、「楽器音」、「歌声+楽器音」の3種類の音声成分を識別クラスに設定し、楽器音が検出された音声フレームから楽器の基底を学習する。歌声を含む音声フレーム、あるいは、歌声と楽器音とを含む音声フレームからは、楽器の基底を利用して歌声の基底および係数を推定する。(S802)。
分離部22は、歌声及び楽器音の基底行列・係数行列が推定すると、歌声の基底行列と対応する係数行列の積により歌声のスペクトログラムを近似し、楽器音の基底行列と対応する係数行列の積で楽器音のスペクトログラムを近似する。分離部22は、これらのスペクトログラムを逆フーリエ変換することにより音声から歌声と各楽器音とを分離する(S803)。なお音声成分の分離方法は、上述に限定されるものではなく、歌声と楽器音とに限定されるものでもない。
以上、分離部22の処理について説明した。
図16は、推定部32の処理を表すフローチャートである。推定部32は、取得部10から供給された音声を一定間隔で分割した音声フレーム毎の特徴量に基づいて、当該音声フレームに含まれる音声成分を識別する(S901)。ここで、推定部32が識別する音声成分としては、シーン境界に共起しやすい拍手音、ジングル音等の特定音がある。
推定部32は、隣接する音声フレーム間で音声成分を比較し、シーンを推定する(S902)。例えば、推定部32は、拍手音やジングル音等、シーンの境界に共起しやすい特定音を検出した音声フレームに対応する画像フレームから、シーン境界を推定する。
なお、音声成分の識別の精度を高めるために、分離部22から供給された背景音の成分を対象としても構わない。さらに突発的に挿入される音声成分による判定のゆらぎに対応するために、第1の実施形態で示したようなカット検出で規定されるショットを判定の単位としてもかまわない。
図13に示す例では、楽曲の演奏が始まる画像フレームf30の直前に現れる拍手音から、シーン境界があると判定される。これにより、図13に示す例では、画像フレームf29と、画像フレームf30との間に、シーンの境界があると推定され、シーンDとシーンEとが推定される。
なお、本例で推定部32は、特定音からシーンの境界を推定したが、画像フレームを解析し、タイトルテロップ等の出現からシーンの境界を推定してもよい。
以上、推定部32の処理について説明した。
図17は、解析部42の処理を表すフローチャートである。解析部42は、取得部10から供給された動画像において、処理対象の画像フレームから、当該画像フレームを縮小した縮小画像であって、互いにサイズの異なる当該縮小画像を1つ以上生成する(S1001)。
解析部42は、各縮小画像に探索領域を設定し、探索領域における特徴量を算出してテンプレートと照合することにより、探索領域における顔の有無を判定する(S1002)。
解析部42は、検出した人物の顔の領域については、顔の領域と顔の周辺の領域との共起特徴量から、予め保持してある辞書と照合することにより楽器が存在するか否かを判定する(S1003)。ここで、楽器としては、打楽器や弦楽器などの代表的な楽器オブジェクトの他、ボーカルが保持するマイクなども学習して保持しておいてよい。解析部42は、楽器を検出した領域から、楽器の種類、数、位置等の情報を属性情報として得る(S1004)。
以上、解析部42の処理について説明した。
図18は、補正部52の処理を表すフローチャートである。補正部52は、解析部42が得た属性情報に基づいて、動画像の画像フレーム毎に、対応する音声成分の補正方法を設定する(S1101)。本例において、属性情報は、楽器の数、楽器の種類、楽器の位置を表す情報であるとする。
この場合、補正部52は、例えば、(1)楽器が検出された場合には、楽器の位置から、当該楽器の音が発生するように、当該楽器の音声成分を補正するよう、補正方法を設定する。(2)楽器が検出されないBGM区間では、楽曲全体をサラウンド処理により補正するよう、補正方法を設定する。
図13に示す例において、解析部42は、画像フレームf30〜f35で楽器を検出し、画像フレームf36では、楽器を検出していない。
補正部52は、推定部32が推定したシーンについて、画像フレーム毎に、設定した補正方法を調整する(S1102)。すなわち、補正部52は、推定部32が推定したシーンD及びシーンEについて、画像フレーム毎に、設定した補正方法を変更するか否かを判定する。
例えば、図13に示す動画像の場合、シーンDにおける画像フレームf26〜f29について、楽器が検出されていない。シーンEにおける画像フレームf30〜f35について、楽器が検出されている。画像フレームf36については楽器を検出していない。
よってステップS1101の段階では、シーンEにおける画像フレームf36に対応する各音声成分には、上述した(2)の補正方法が設定されている。画像フレームf30〜f35に対応する各音声成分には、上述した(1)の補正方法が設定されている。
ステップS1102において、補正部52は、推定された1つのシーンに含まれる画像フレームに対応する音声成分に対しては、同一の補正方法となるよう、補正方法を調整する。ここで補正部52は、1つのシーンに含まれる画像フレームについて設定した補正方法のうち、最も数の多い補正方法を選択し、各画像フレームに対応する音声成分の補正方法を調整してよい。
図13に示す例では、シーンEに含まれるショットのうち、上述した(2)の補正方法は画像フレームf36の2フレームであり、上述した(1)の補正方法は画像フレームf30〜f35の6フレームである。
そのため、補正部52は、画像フレームf36に対応する音声成分の補正方法を、上述した(1)に変更し、シーンEに含まれる画像フレームに対応する音声成分に対しては、同一の補正方法となるよう、補正方法を調整する。
シーンDに含まれる画像フレームに対応する音声成分に対しては、上述した(2)の補正方法が適用される。
以上、補正部52の処理について説明した。
本実施例によれば、同一シーン内の他のフレームの補正方法から補完して、楽器が検出されていない画像フレームについても同一の補正方法を適用するため、音声の補正方法を揺るがすことなく、安定した音声補正を行なうことができる。

(第4の実施形態)
第4の実施例に係る音声補正装置4では、動画像からカメラの動き(カメラワーク)を解析する点と、当該カメラワークに応じて音声成分を補正する点が、第3の実施形態の場合と異なる。
図19は、音声補正装置4を表すブロック図である。音声補正装置4では、音声補正装置3の解析部40が、解析部42に置き換わる。補正部50が、補正部52に置き換わる。
解析部43は、取得部10から供給された音声あるいは動画像を解析し、属性情報を得る。本実施形態の属性情報は、シーンにおけるズーム、パン、ズームイン、ズームアウト等のカメラワーク情報である。解析部43は、推定されたシーン中の各フレームに出現する物体の動きを検出し、カメラワーク情報を求めてよい。
例えば、解析部43は、取得部10から供給された動画像の各画像フレームを、複数の画素を含むブロックに分割する。解析部43は、時間的に隣接する画像フレーム間において、対応する画像ブロック間での動きベクトルを算出する、ブロックマッチングを行なう。ブロックマッチングでは、SAD(Sum of Absolute Difference)やSSD(Sum of Squared Differece)等の、類似度合の尺度によるテンプレート照合が用いられる。
解析部43は、各画像フレームの画像ブロック毎の動きベクトルのヒストグラムを算出し、一定方向への動き量が多い場合には、パンやチルトを含む、上下左右への移動等カメラワークがあったと推定する。また、解析部43は、ヒストグラムの分散が大きく、外側に放射状の動きベクトルが分布する場合はズームインのカメラワーク、内側に放射状の動きベクトルが分布する場合はズームアウトのカメラワークがあったと推定する。なおカメラワークの検出の方法は上述に限らない。
補正部53は、解析部43が得たカメラワーク情報に基づいて、推定されたシーンにおける各画像フレームに対応する音声成分の補正方法を設定し、出力時における音声成分の発生する位置を補正する(例えば、右側から大きく聞こえる等)。補正部53は、シーン境界に基づいて、どのフレームに当該補正方法を設定するかを決定する。
解析部43と補正部53とは、CPU及びCPUが用いるメモリにより実現されてよい。
図20は、補正部53の処理を表すフローチャートである。補正部53は、解析部43が解析して得た属性情報であるカメラワーク情報に基づき、補正方法を設定する(S1201)。本実施形態の場合、補正部52は、(1)ズームイン又はズームアウトを検出した場合は動き量に応じて音量を増減するよう、補正方法を設定する。(2)パン又はチルトを検出した場合は動き量に応じて左右に音声成分の発生位置を移動する。(3)カメラワークがない場合には補正を行なわないよう、補正方法を設定する。
図13に示す例において、解析部43は、画像フレームf30〜f35間でズームアウトを検出し、f34〜f36間では、右方向への移動するカメラワークが検出している。
補正部53は、推定部32が推定したシーンD及びシーンEについて、画像フレーム毎に、設定した補正方法を変更するか否かを判定する(S1202)。すなわち、補正部52は、推定部32が推定したシーンD及びシーンEについて、画像フレーム毎に、設定した補正方法を変更するか否かを判定する。
図13に示す例では、シーンEに含まれるショットのうち、上述した(2)の補正方法は画像フレームf35〜f36の2フレームであり、上述した(1)の補正方法は画像フレームf30〜f34の5フレームである。
そのため、補正部52は、画像フレームf35〜f36に対応する音声成分に対する補正方法を、上述した(1)に変更し、シーンEに含まれる画像フレームに対応する音声成分に対しては、同一の補正方法となるよう、補正方法を調整する。
シーンDに含まれる画像フレームに対応する音声成分に対しては、上述した(3)の補正方法が適用される。
本実施形態では、補正部53は、同一シーン(シーンE)において、他の画像フレームでのカメラワークと比較して、対応するフレームが相対的に多いカメラワークを優先して追従するように音声成分を補正する。
以上、補正部53の処理について説明した。
本実施形態によれば、同一シーンと推定された画像フレームに対応する音声成分については、カメラワーク情報を用いて補正方法を同一にする。これにより、音声の補正方法を揺るがすことなく、安定した音声補正を行なうことができる。
上述した実施形態によれば、動画像に対応する音声を、視聴者にとって聞きやすい音声に補正することができる。
なお、上述のオブジェクト音声補正装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、取得部、分離部、推定部、解析部、補正部、合成部、出力部は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、オブジェクト領域特定装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。
これまで、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1、2、3、4・・・音声補正装置
10・・・取得部
20、22・・・分離部
30、31、32・・・推定部
40、42、43・・・解析部
50、51、52、53・・・補正部
60・・・合成部
70・・・出力部

Claims (8)

  1. 動画像に対応する音声を補正する音声補正装置であって、
    前記音声から1つ以上の音声成分を分離する分離部と、
    前記動画像の画像フレームの特徴量、あるいは、前記音声の音声フレームの特徴量のうち、少なくともいずれか一方に基づき、前記動画像中において、関連する一連の画像フレームを含むシーンを推定する推定部と、
    前記動画像を解析して、前記シーンに含まれる画像フレームの属性である属性情報を得る解析部と、
    前記属性情報に基づき、前記シーンに含まれる画像フレームに対応する前記音声成分の補正方法を決定し、決定した前記補正方法に従って前記音声成分を補正する補正部と
    を備える、音声補正装置。
  2. 前記推定部は、前記動画像の画像フレームの特徴量に基づいて、前記動画像におけるカット境界を求め、一の前記カット境界と、前記カット境界の直前にある他のカット境界と、の間に属する画像フレームの特徴量に基づいて、前記シーンを推定する、
    請求項1記載の音声補正装置。
  3. 前記解析部は、画像フレームに人物が出現するか否かを属性情報として得、
    前記補正部は、同一の前記シーンに含まれる画像フレームで、人物が出現した画像フレームの数と、人物が出現しない画像フレームの数と比較し、各々の数に基づいて同一の前記シーンに含まれる画像フレームに対応する前記音声成分を補正する、
    請求項2記載の音声補正装置。
  4. 前記補正部は、
    人物が出現した画像フレームの数、人物が出現しない画像フレーム数のうち、画像フレーム数が多い方の画像フレームに対応する補正方法に従って、同一の前記シーンに含まれる画像フレームに対応する前記音声成分を補正する、
    請求項3記載の音声補正装置。
  5. 前記推定部は、前記音声フレームに含まれる音声成分の種類を分類し、各々の前記音声フレームに対応する前記音声成分の種類に基づき、前記シーンを推定する、
    請求項1記載の音声補正装置。
  6. 前記推定部は、各々の前記音声フレームのうち、予め定めた特定音が検出されたかどうかに基づいて、前記シーンを推定する、
    請求項1記載の音声補正装置。
  7. 動画像に対応する音声を補正する音声補正方法であって、
    前記音声から1つ以上の音声成分を分離し、
    前記動画像の画像フレームの特徴量、あるいは、前記音声の音声フレームの特徴量のうち、少なくともいずれか一方に基づき、前記動画像中において、関連する一連の画像フレームを含むシーンを推定し、
    前記動画像を解析して、前記シーンに含まれる画像フレームの属性である属性情報を得、
    前記属性情報に基づき、前記シーンに含まれる画像フレームに対応する前記音声成分の補正方法を決定し、決定した前記補正方法に従って前記音声成分を補正する、
    音声補正装置。
  8. 動画像に対応する音声を補正するために、コンピュータを、
    前記音声から1つ以上の音声成分を分離する手段と、
    前記動画像の画像フレームの特徴量、あるいは、前記音声の音声フレームの特徴量のうち、少なくともいずれか一方に基づき、前記動画像中において、関連する一連の画像フレームを含むシーンを推定する手段と、
    前記動画像を解析して、前記シーンに含まれる画像フレームの属性である属性情報を得る手段と、
    前記属性情報に基づき、前記シーンに含まれる画像フレームに対応する前記音声成分の補正方法を決定し、決定した前記補正方法に従って前記音声成分を補正する手段と
    して機能させる、音声補正プログラム。
JP2012033387A 2012-02-17 2012-02-17 音声補正装置、方法、及びプログラム Pending JP2013171089A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012033387A JP2013171089A (ja) 2012-02-17 2012-02-17 音声補正装置、方法、及びプログラム
US13/591,660 US20130218570A1 (en) 2012-02-17 2012-08-22 Apparatus and method for correcting speech, and non-transitory computer readable medium thereof
CN2012103059703A CN103259979A (zh) 2012-02-17 2012-08-24 用于校正语音的设备和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012033387A JP2013171089A (ja) 2012-02-17 2012-02-17 音声補正装置、方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2013171089A true JP2013171089A (ja) 2013-09-02

Family

ID=48963650

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012033387A Pending JP2013171089A (ja) 2012-02-17 2012-02-17 音声補正装置、方法、及びプログラム

Country Status (3)

Country Link
US (1) US20130218570A1 (ja)
JP (1) JP2013171089A (ja)
CN (1) CN103259979A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102374343B1 (ko) * 2021-07-09 2022-03-16 (주)에이아이매틱스 목소리 개인정보 보호 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5662276B2 (ja) * 2011-08-05 2015-01-28 株式会社東芝 音響信号処理装置および音響信号処理方法
JP6054142B2 (ja) 2012-10-31 2016-12-27 株式会社東芝 信号処理装置、方法およびプログラム
KR102650850B1 (ko) 2016-05-30 2024-03-26 소니그룹주식회사 영상 음향 처리 장치 및 방법, 및 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체
JP7196399B2 (ja) 2017-03-14 2022-12-27 株式会社リコー 音響装置、音響システム、方法およびプログラム
WO2018168902A1 (en) * 2017-03-14 2018-09-20 Ricoh Company, Ltd. Sound recording apparatus, sound system, sound recording method, and carrier means
CN111506766B (zh) * 2020-04-20 2023-03-10 腾讯音乐娱乐科技(深圳)有限公司 音频帧聚类方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007329679A (ja) * 2006-06-07 2007-12-20 Fujifilm Corp 画像表示装置及び画像表示方法
JP2008252737A (ja) * 2007-03-30 2008-10-16 Sony Corp 情報処理装置および方法
JP2009156888A (ja) * 2007-12-25 2009-07-16 Sanyo Electric Co Ltd 音声補正装置及びそれを備えた撮像装置並びに音声補正方法
JP2011013383A (ja) * 2009-06-30 2011-01-20 Toshiba Corp オーディオ信号補正装置及びオーディオ信号補正方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6483532B1 (en) * 1998-07-13 2002-11-19 Netergy Microelectronics, Inc. Video-assisted audio signal processing system and method
JP4393425B2 (ja) * 2005-06-28 2010-01-06 株式会社東芝 映像機器、映像記録方法および映像再生方法
JP4457358B2 (ja) * 2006-05-12 2010-04-28 富士フイルム株式会社 顔検出枠の表示方法、文字情報の表示方法及び撮像装置
JP4732299B2 (ja) * 2006-10-25 2011-07-27 富士フイルム株式会社 特定被写体像の検出方法およびデジタルカメラ
JP2008160730A (ja) * 2006-12-26 2008-07-10 Nikon Corp 信号ムラを修正する画像処理装置、較正方法、撮像装置、画像処理プログラム、および画像処理方法
JP2008164823A (ja) * 2006-12-27 2008-07-17 Toshiba Corp オーディオデータ処理装置
JP2008219428A (ja) * 2007-03-02 2008-09-18 Fujifilm Corp 撮像装置
JP2008309947A (ja) * 2007-06-13 2008-12-25 Fujifilm Corp 撮像装置及び撮像方法
US8218033B2 (en) * 2007-09-10 2012-07-10 Sanyo Electric Co., Ltd. Sound corrector, sound recording device, sound reproducing device, and sound correcting method
CN101442636B (zh) * 2007-11-20 2012-12-05 康佳集团股份有限公司 一种电视音量智能调节方法及系统
US8487984B2 (en) * 2008-01-25 2013-07-16 At&T Intellectual Property I, L.P. System and method for digital video retrieval involving speech recognition
JP2010187363A (ja) * 2009-01-16 2010-08-26 Sanyo Electric Co Ltd 音響信号処理装置及び再生装置
JP5801026B2 (ja) * 2009-05-28 2015-10-28 株式会社ザクティ 画像音響処理装置及び撮像装置
JP2011065093A (ja) * 2009-09-18 2011-03-31 Toshiba Corp オーディオ信号補正装置及びオーディオ信号補正方法
JP4709928B1 (ja) * 2010-01-21 2011-06-29 株式会社東芝 音質補正装置及び音質補正方法
JP4869420B2 (ja) * 2010-03-25 2012-02-08 株式会社東芝 音情報判定装置、及び音情報判定方法
JP4837123B1 (ja) * 2010-07-28 2011-12-14 株式会社東芝 音質制御装置及び音質制御方法
JP4937393B2 (ja) * 2010-09-17 2012-05-23 株式会社東芝 音質補正装置及び音声補正方法
JP5085769B1 (ja) * 2011-06-24 2012-11-28 株式会社東芝 音響制御装置、音響補正装置、及び音響補正方法
US9392322B2 (en) * 2012-05-10 2016-07-12 Google Technology Holdings LLC Method of visually synchronizing differing camera feeds with common subject
JP6012342B2 (ja) * 2012-09-03 2016-10-25 キヤノン株式会社 再生装置、再生装置の制御方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007329679A (ja) * 2006-06-07 2007-12-20 Fujifilm Corp 画像表示装置及び画像表示方法
JP2008252737A (ja) * 2007-03-30 2008-10-16 Sony Corp 情報処理装置および方法
JP2009156888A (ja) * 2007-12-25 2009-07-16 Sanyo Electric Co Ltd 音声補正装置及びそれを備えた撮像装置並びに音声補正方法
JP2011013383A (ja) * 2009-06-30 2011-01-20 Toshiba Corp オーディオ信号補正装置及びオーディオ信号補正方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102374343B1 (ko) * 2021-07-09 2022-03-16 (주)에이아이매틱스 목소리 개인정보 보호 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템
WO2023282520A1 (ko) * 2021-07-09 2023-01-12 (주)에이아이매틱스 목소리 개인정보 보호 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템

Also Published As

Publication number Publication date
US20130218570A1 (en) 2013-08-22
CN103259979A (zh) 2013-08-21

Similar Documents

Publication Publication Date Title
JP2013171089A (ja) 音声補正装置、方法、及びプログラム
CN108780643B (zh) 自动配音方法和装置
US20180182415A1 (en) Augmented multi-tier classifier for multi-modal voice activity detection
US10037313B2 (en) Automatic smoothed captioning of non-speech sounds from audio
US8558952B2 (en) Image-sound segment corresponding apparatus, method and program
US8873861B2 (en) Video processing apparatus and method
WO2005069171A1 (ja) 文書対応付け装置、および文書対応付け方法
KR20090092839A (ko) 2d 비디오를 3d 비디오로 변환하기 위한 시스템 및 방법
KR20150093425A (ko) 콘텐츠 추천 방법 및 장치
JP6882057B2 (ja) 信号処理装置、信号処理方法、およびプログラム
JP2009147768A (ja) 映像音声記録装置および映像音声再生装置
WO2011132410A1 (ja) アンカーモデル適応装置、集積回路、AV(Audio Video)デバイス、オンライン自己適応方法、およびそのプログラム
Li et al. Audiovisual source association for string ensembles through multi-modal vibrato analysis
Tapu et al. DEEP-HEAR: A multimodal subtitle positioning system dedicated to deaf and hearing-impaired people
Gillet et al. Automatic transcription of drum sequences using audiovisual features
US20090248414A1 (en) Personal name assignment apparatus and method
JP2009278202A (ja) 映像編集装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
Li et al. Online audio-visual source association for chamber music performances
CN110998724B (zh) 基于位置元数据的音频对象分类
JP2007060606A (ja) ビデオの自動構造抽出・提供方式からなるコンピュータプログラム
JP2006014084A (ja) 映像編集装置、映像編集プログラム、記録媒体、および映像編集方法
JP6016277B2 (ja) 映像音響処理システム、映像音響処理方法及びプログラム
Kim et al. Detection of goal events in soccer videos
CN113362849A (zh) 一种语音数据处理方法以及装置
Giannakopoulos et al. Music tracking in audio streams from movies

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140509

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140708

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150130

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20150216

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150218