JP2003158643A - 信号処理方法及び信号処理装置 - Google Patents

信号処理方法及び信号処理装置

Info

Publication number
JP2003158643A
JP2003158643A JP2001353922A JP2001353922A JP2003158643A JP 2003158643 A JP2003158643 A JP 2003158643A JP 2001353922 A JP2001353922 A JP 2001353922A JP 2001353922 A JP2001353922 A JP 2001353922A JP 2003158643 A JP2003158643 A JP 2003158643A
Authority
JP
Japan
Prior art keywords
detecting
voice
face
detection
motion vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001353922A
Other languages
English (en)
Inventor
Tatsuro Yamauchi
達郎 山内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shibasoku Co Ltd
Original Assignee
Shibasoku Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shibasoku Co Ltd filed Critical Shibasoku Co Ltd
Priority to JP2001353922A priority Critical patent/JP2003158643A/ja
Publication of JP2003158643A publication Critical patent/JP2003158643A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 本発明は、信号処理方法及び信号処理装置に
関し、例えば音声信号と映像信号とを同期させる信号処
理装置に適用して、音声解析、動画像解析により音声と
映像との時間ずれを検出する場合に、従来に比して高い
精度で時間ずれを検出することができるようにする。 【解決手段】 本発明は、映像信号SY、SCの画像処
理により、人物の顔、目、唇の動きを順次検出して音声
発生のタイミングを検出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、信号処理方法及び
信号処理装置に関し、例えば音声信号と映像信号とを同
期させる信号処理装置に適用することができる。本発明
は、映像信号の画像処理により、人物の顔、目、唇の動
きを順次検出して音声発生のタイミングを検出すること
により、音声解析、動画像解析により音声と映像との時
間ずれを検出する場合に、従来に比して高い精度で時間
ずれを検出することができるようにする。
【0002】
【従来の技術】従来、放送現場においては、映像信号及
び音声信号が異なる伝送路により伝送される等により、
音声と映像との間で時間ずれが発生する。このため放送
現場においては、テスト用の映像信号及び音声信号を送
信側より受信側に伝送して解析することにより、時間ず
れを計測、補正するようになされている。
【0003】これに対して特開2000−196917
号公報、NHKエンジニアリングサービス:VEIW Vol.2
0 No1 P35 〜P36 等においては、音声解析、動画像解析
により音声と映像との間における音声発生のタイミング
のずれを検出することにより、時間ずれを検出する方法
が提案されるようになされている。
【0004】これらの方法においては、音声信号の立ち
上がりにより音声発生のタイミングを音声より検出する
ようになされている。また指定した領域で動きベクトル
を検出することにより唇の動きを検出し、さらには色彩
を基準にして動きベクトルを検出することにより唇の動
きを検出し、このようにして検出した唇の動きの判定に
より、音声発生のタイミングを映像より検出するように
なされている。
【0005】
【発明が解決しようとする課題】ところでこのような音
声解析、動画像解析により音声と映像との時間ずれを検
出する場合においては、テスト用の映像信号及び音声信
号を伝送しなくても、アナウンサー等の映像及び音声に
より時間ずれを検出できることにより、便利であると考
えられる。
【0006】しかしながら従来の手法においては、映像
より音声発生のタイミングを検出する精度が低く、これ
により実用上未だ不十分な問題があった。すなわち指定
した領域で動きベクトルを検出して唇の動きを検出する
場合には、映像の変化に対応して適切に領域を設定する
ことが困難なことにより唇の動きを正確に検出できない
欠点がある。また色彩を基準にして動きベクトルを検出
して唇の動きを検出する場合には、唇が特異な色の場合
もあり、また唇と同一色による背景等が画面中に存在す
る場合、対象人物が正面を向いていない場合、さらには
複数の人物が画面中に登場する場合等において、正しく
唇の動きを検出することが困難になり、これによりこの
場合も唇の動きを正確に検出できない欠点がある。
【0007】本発明は以上の点を考慮してなされたもの
で、音声解析、動画像解析により音声と映像との時間ず
れを検出する場合に、従来に比して高い精度で時間ずれ
を検出することができる信号処理方法及び信号処理装置
を提案しようとするものである。
【0008】
【課題を解決するための手段】かかる課題を解決するた
め請求項1の発明においては、信号処理方法に適用し
て、映像信号の画像処理により、人物の顔を検出する顔
検出ステップと、顔検出ステップによる検出結果に基づ
く映像信号の画像処理により、人物の目を検出する目検
出ステップと、顔検出ステップ及び目検出ステップによ
る検出結果に基づいて、人物の唇が位置すると判断され
る領域を検出する領域検出ステップと、映像信号より動
きベクトルを検出する動きベクトル検出ステップと、動
きベクトル検出ステップで検出される動きベクトルよ
り、領域の動きベクトルを選択的に処理して、人物の唇
の動きを検出する動きベクトル処理ステップと、動きベ
クトル処理ステップによる検出結果に基づいて、人物の
発声のタイミングを検出する発声検出ステップと、映像
信号に対応する音声信号より、人物の発声に対応する音
声のタイミングを検出する音声検出ステップと、発声検
出ステップと、音声検出ステップとの検出結果に基づい
て、映像信号に対する音声信号の時間ずれ量を検出する
遅延時間検出ステップとを有するようにする。
【0009】また請求項2の発明においては、請求項1
の構成において、領域検出ステップは、顔の位置、目の
位置及び顔の向きに基づいて、領域を検出する。
【0010】また請求項3の発明においては、請求項1
の構成において、領域検出ステップは、動きベクトルに
基づいて、顔の動きを検出し、顔の位置、目の位置、顔
の向き、顔の動きに基づいて、領域を検出する。
【0011】また請求項4の発明においては、請求項
1、請求項2又は請求項3の構成において、人物の発声
に対応する音声は、音声信号の音声解析による所定の音
声を発声するタイミングであり、所定の音声が、唇に動
きを伴う音声であるようにする。
【0012】また請求項5の発明においては、請求項
1、請求項2、請求項3又は請求項4の構成において、
時間ずれ量に基づいて、映像信号及び又は音声信号を遅
延させて、映像信号及び音声信号における時間ずれ量を
補正する遅延ステップを有するようにする。
【0013】また請求項6の発明においては、信号処理
装置に適用して、映像信号の画像処理により、人物の顔
を検出する顔検出手段と、顔検出手段による検出結果に
基づく映像信号の画像処理により、人物の目を検出する
目検出手段と、顔検出手段及び目検出手段による検出結
果に基づいて、人物の唇が位置すると判断される領域を
検出する領域検出手段と、映像信号より動きベクトルを
検出する動きベクトル検出手段と、動きベクトル検出手
段で検出される動きベクトルより、領域の動きベクトル
を選択的に処理して、人物の唇の動きを検出する動きベ
クトル処理手段と、動きベクトル処理手段による検出結
果に基づいて、人物の発声のタイミングを検出する発声
検出手段と、映像信号に対応する音声信号より、人物の
発声に対応する音声のタイミングを検出する音声検出手
段と、発声検出手段と、音声検出手段との検出結果に基
づいて、映像信号に対する音声信号の時間ずれ量を検出
する遅延時間検出手段とを有するようにする。
【0014】また請求項7の発明においては、請求項6
の構成において、時間ずれ量に基づいて、映像信号及び
音声信号における時間ずれ量を補正する遅延手段を有す
るようにする。
【0015】請求項1の構成によれば、信号処理方法に
適用して、映像信号の画像処理により、人物の顔を検出
する顔検出ステップと、顔検出ステップによる検出結果
に基づく映像信号の画像処理により、人物の目を検出す
る目検出ステップと、顔検出ステップ及び目検出ステッ
プによる検出結果に基づいて、人物の唇が位置すると判
断される領域を検出する領域検出ステップと、映像信号
より動きベクトルを検出する動きベクトル検出ステップ
と、動きベクトル検出ステップで検出される動きベクト
ルより、領域の動きベクトルを選択的に処理して、人物
の唇の動きを検出する動きベクトル処理ステップと、動
きベクトル処理ステップによる検出結果に基づいて、人
物の発声のタイミングを検出する発声検出ステップと、
映像信号に対応する音声信号より、人物の発声に対応す
る音声のタイミングを検出する音声検出ステップと、発
声検出ステップと、音声検出ステップとの検出結果に基
づいて、映像信号に対する音声信号の時間ずれ量を検出
する遅延時間検出ステップとを有することにより、人物
の顔、目、唇の動きを順次検出して音声発生のタイミン
グを検出するようになされ、これにより唇の色が特異な
場合、唇と同一色による背景等が画面中に存在する場
合、対象人物が正面を向いていない場合、複数の人物が
画面中に登場する場合等においても、さらには映像が変
化した場合でも、正しく唇の動きを検出することができ
る。これにより従来に比して時間ずれの検出精度を向上
することができる。
【0016】また請求項2の構成によれば、請求項1の
構成において、領域検出ステップは、顔の位置、目の位
置及び顔の向きに基づいて、領域を検出することによ
り、人物の顔の向きが変化した場合に、この変化に追従
した領域の検出精度を向上することができる。
【0017】また請求項3の構成によれば、請求項1の
構成において、領域検出ステップは、動きベクトルに基
づいて、顔の動きを検出し、顔の位置、目の位置、顔の
向き、顔の動きに基づいて、領域を検出することによ
り、人物の顔の向きが変化した場合に、この変化に追従
した領域の検出精度をさらに一段と向上することができ
る。
【0018】また請求項4の構成によれば、請求項1、
請求項2又は請求項3の構成において、人物の発声に対
応する音声は、音声信号の音声解析による所定の音声を
発声するタイミングであり、所定の音声が、唇に動きを
伴う音声であることにより、映像と音声とから対応する
音声発声のタイミングを確実に検出することができ、こ
れにより時間ずれの検出精度を向上することができる。
【0019】また請求項5の構成によれば、請求項1、
請求項2、請求項3又は請求項4の構成において、時間
ずれ量に基づいて、映像信号及び又は音声信号を遅延さ
せて、映像信号及び音声信号における時間ずれ量を補正
する遅延ステップを有することにより、このようにして
検出した時間ずれを補正して、高い精度で映像と音声と
の同期を図ることができる。
【0020】また請求項6の構成によれば、信号処理装
置に適用して、映像信号の画像処理により、人物の顔を
検出する顔検出手段と、顔検出手段による検出結果に基
づく映像信号の画像処理により、人物の目を検出する目
検出手段と、顔検出手段及び目検出手段による検出結果
に基づいて、人物の唇が位置すると判断される領域を検
出する領域検出手段と、映像信号より動きベクトルを検
出する動きベクトル検出手段と、動きベクトル検出手段
で検出される動きベクトルより、領域の動きベクトルを
選択的に処理して、人物の唇の動きを検出する動きベク
トル処理手段と、動きベクトル処理手段による検出結果
に基づいて、人物の発声のタイミングを検出する発声検
出手段と、映像信号に対応する音声信号より、人物の発
声に対応する音声のタイミングを検出する音声検出手段
と、発声検出手段と、音声検出手段との検出結果に基づ
いて、映像信号に対する音声信号の時間ずれ量を検出す
る遅延時間検出手段とを有することにより、人物の顔、
目、唇の動きを順次検出して音声発生のタイミングを検
出するようになされ、これにより唇の色が特異な場合、
唇と同一色による背景等が画面中に存在する場合、対象
人物が正面を向いていない場合、複数の人物が画面中に
登場する場合等においても、さらには映像が変化した場
合でも、正しく唇の動きを検出することができる。これ
により従来に比して時間ずれの検出精度を向上すること
ができる。
【0021】また請求項7の構成によれば、請求項6の
構成において、時間ずれ量に基づいて、映像信号及び音
声信号における時間ずれ量を補正する遅延手段を有する
ことにより、高い精度で映像と音声との同期を図ること
ができる。
【0022】
【発明の実施の形態】以下、適宜図面を参照しながら本
発明の実施の形態を詳述する。
【0023】(1)実施の形態の動作 図1は、本発明の実施の形態に係る信号処理装置を示す
ブロック図である。この信号処理装置1は、輝度信号S
Y及び色差信号SC(Pb、Pr)による映像と、音声
信号SAによる音声との間の時間ずれを検出し、この検
出結果に基づいて音声信号SAを遅延させて映像に音声
を同期させる。なおこの実施の形態において、信号処理
装置1には、ディジタル信号による輝度信号SY、色差
信号SC及び音声信号SAが入力されるようになされて
いる。
【0024】この信号処理装置1において、輪郭検出回
路2は、輝度信号SYをエッジ検出処理することによ
り、輝度信号SYによる映像において、輪郭の部分で信
号レベルが立ち上がる輪郭検出信号を輝度信号SYと共
に出力する。輪郭検出回路3は、色差信号SC(Pb、
Pr)をエッジ検出処理することにより、色差信号SC
(Pb、Pr)による映像において、輪郭の部分で信号
レベルが立ち上がる輪郭検出信号を、対応する色差信号
SC(Pb、Pr)と共に出力する。
【0025】顔検出回路4は、輪郭検出回路3より入力
される色差信号SCの色相を基準にして、色差信号SC
より検出した輪郭検出信号で輝度信号SYより検出した
輪郭検出信号をマスクすることにより、人物の肌色部分
の領域を検出する。さらにこのようにして検出した肌色
領域の形状を判定することにより、図2(A)に示すよ
うに、人物の顔を検出する。なおこの場合に、顔の輪郭
パターンを数種類用意し、パターンマッチングを用いて
検出するようにしてもよい。顔検出回路4は、このよう
にして顔の輪郭を検出すると、この顔のサイズ(縦、
横)、傾き、位置等を検出し、対応する輝度信号SY、
輝度信号SYによる輪郭検出信号、色差信号SCと共に
検出結果を出力する。この処理において、顔検出回路4
は、顔と判断される複数領域が検出された場合、顔のサ
イズ検出結果より、最も大きな領域について、これらの
情報を出力する。
【0026】これらにより輪郭検出回路2、3及び顔検
出回路4は、輝度信号SY及び色差信号SCによる映像
信号の画像処理により、人物の顔を検出する顔検出手段
を構成するようになされている。
【0027】目検出回路5は、顔検出回路4から得られ
る顔の検出結果より、目の位置を予測する。さらにこの
目検出回路5は、この予測結果と色差信号SCによる色
相とを基準にして、輝度信号SYより得られる輪郭検出
信号をマスクして処理することにより、図2(B)に示
すように、両目の輪郭を抽出する。さらにこようにして
検出した両目の輪郭より両目の位置情報を検出し、この
両目の位置情報より顔の向きを検出する。
【0028】すなわち図2(B−1)に示すように、顔
が正面を向いている場合、両目の位置は、顔の中心線L
1からほぼ対称となる。これに対して図2(B−2)に
示すように、顔が横を向いている場合、両目の位置は、
顔の中心線L1から非対称となる。これにより目検出回
路5は、顔の傾きを考慮して顔の輪郭に中心線L1を設
定し、この中心線L1と目との距離をそれぞれ検出す
る。さらに顔のサイズによりこれら距離の差を正規化す
ることにより、顔の向きを検出し、対応する輝度信号S
Yによる輪郭検出信号、目の位置情報、顔検出回路4に
よる検出結果と共に検出結果を出力する。これにより目
検出回路5は、先の顔検出手段による検出結果に基づく
映像信号の画像処理により、人物の目を検出する目検出
手段を構成するようになされている。
【0029】唇検出回路6は、目検出回路5から得られ
る顔の向き検出結果、目の位置情報、顔のサイズ情報、
顔の傾き情報により、口の位置を予測する。さらに唇検
出回路6は、この予測を基準にして、図2(C)に示す
ように、唇の範囲を示すウインドウを生成して出力す
る。かくするにつき口の位置においては、図2(C−
1)に示すように、顔の向きと目の位置により、ほぼ確
実に予想することができる。なおこの場合に、口の位置
の予測より、輝度信号SYより得られる輪郭検出信号を
処理することにより、唇の輪郭を検出して唇の位置を検
出し、この位置検出結果よりウインドウを生成するよう
にしてもよい。また予め数種類のパターンを用意して、
パターン認識手法を用いてウインドウを生成することも
できる。これにより唇検出回路6は、先の顔検出手段及
び目検出手段による検出結果に基づいて、人物の唇が位
置すると判断される領域を検出する領域検出手段を構成
するようになされている。
【0030】動きベクトル検出回路7は、輝度信号SY
を受け、前フィールドを基準にしてマクロブロック単位
で現フィールドの動きベクトルを検出して出力する。な
おこの場合に、前フレームを基準にして現フレームの動
きベクトルを検出するようにしてもよい。また検出手法
においては、勾配法、位相相関法等を種々に適用するこ
とができ、また併せて色差信号を用いて動きベクトルを
検出するようにしてもよい。これにより動きベクトル検
出回路7は、輝度信号SY及び色差信号SCによる映像
信号より動きベクトルを検出する動きベクトル検出手段
を構成するようになされている。
【0031】唇動き検出回路8は、唇検出回路6より出
力されるウインドウを基準にして動きベクトル検出回路
7で順次検出される動きベクトルを選択的に取得するこ
とにより、唇の部分の動きベクトルを検出する。さらに
このようにして検出した動きベクトルによる動きの中心
を検出し、この動きの中心を基準にした動きベクトルの
処理により、図2(D)に示すように、唇の両端、上下
に対応する部位の動きαを検出する。なおこの場合に唇
の部分の動きベクトルによる動きの中心を基準にした処
理に代えて、顔全体の動きベクトルを基準にした処理に
より、唇の両端、上下に対応する部位の動きを検出する
ようにしてもよい。さらに唇動き検出回路8は、このよ
うにして検出した唇の両端、上下に対応する部位の動き
の連続性を判定することにより、唇が大きく動く発声開
始のタイミングを検出し、検出結果を出力する。これに
より唇動き検出回路8は、先の動きベクトル検出手段で
検出される動きベクトルより、領域の動きベクトルを選
択的に処理して、人物の唇の動きを検出する動きベクト
ル処理手段を構成すると共に、この動きベクトル処理手
段による検出結果に基づいて、人物の発声のタイミング
を検出する発声検出手段とを構成するようになされてい
る。
【0032】これらによりこの信号処理装置1では、輪
郭検出による画像処理により人物の顔、目、唇の動きを
順次検出して音声発生のタイミングを検出するようにな
されている。これにより信号処理装置1では、唇の色が
特異な場合、また唇と同一色による背景等が画面中に存
在する場合、対象人物が正面を向いていない場合、さら
には複数の人物が画面中に登場する場合等にあっても、
確実に唇の動きを検出することができ、これにより従来
に比して高い精度により映像より音声発生のタイミング
を検出することができるようになされている。
【0033】音声検出回路9は、音声信号SAの音声解
析により、唇の動きを伴う特定の音声発生のタイミング
を検出する。すなわち日本語において、「マ」、
「ミ」、「ム」、「メ」、「モ」、「パ」、「ピ」、
「プ」、「ペ」、「ポ」等の音声は、必ず唇が動き、ま
た動きも大きい特徴がある。これに対して「ア」、
「イ」、「ウ」、「エ」、「オ」、「サ」、「シ」、
「ス」、「セ」、「ソ」等の音声は、唇を動かさなくて
も発生可能であり、また唇が動いたとしても、動きが小
さい特徴がある。これにより音声検出回路9は、このよ
うな唇が大きく動く特定の音声発生のタイミングを検出
する。なお音声が英語の場合には、唇が大きく動く特定
の音声としては、例えば、「B」、「P」、「V」、
「Y」等の発声が該当する。
【0034】遅延検出回路10は、音声検出回路9によ
るタイミング検出結果と、唇動き検出回路8によるタイ
ミング検出結果との比較により、音声に対する映像の遅
延時間を検出する。
【0035】これにより音声検出回路9は、映像信号に
対応する音声信号SAより、人物の発声に対応する音声
のタイミングを検出する音声検出手段を構成し、遅延検
出回路10は、この発声検出手段と、先の音声検出手段
との検出結果に基づいて、映像信号に対する音声信号の
時間ずれ量を検出する遅延時間検出手段を構成するよう
になされている。
【0036】遅延回路11は、この遅延検出回路10で
検出される遅延量により音声信号SAを遅延させ、これ
により映像に音声を同期させて出力する。これにより映
像信号及び音声信号における時間ずれ量を補正する遅延
手段を構成するようになされている。
【0037】(2)実施の形態の動作 以上の構成において、この信号処理装置1では、輪郭検
出回路2及び3において、それぞれ輝度信号SY及び色
差信号SCから輪郭が検出され、顔検出回路4におい
て、色彩を基準にしてこれら輪郭検出結果を処理して顔
の輪郭を検出する。さらに続いてこの顔の検出結果より
目検出回路5において、人物の目が検出され、顔検出回
路4の検出結果、目検出回路5の検出結果より、唇検出
回路6において、唇の位置を示す領域が検出される。こ
の信号処理装置1では、動きベクトル検出回路7におい
て、順次動きベクトルが検出され、唇動き検出回路8に
おいて、この動きベクトルが唇検出回路6で検出された
領域により選択的に処理されて唇の動きが検出される。
またこの唇動き検出回路8において、唇の動きより所定
の音声を発声したタイミングが検出される。また音声検
出回路9において、音声信号SAの音声解析により所定
の音声を発声したタイミングが検出され、遅延検出回路
10において、この映像による音声発声のタイミングと
音声による音声発声のタイミングとの差分が検出されて
映像と音声との時間ずれが検出され、遅延回路11にお
いてこの時間ずれの分、音声信号が遅延され、これによ
り音声と映像との同期を図ることができる。
【0038】信号処理装置1において、このようにして
時間ずれを検出するにつき、映像信号側については、画
像処理により、顔、目、唇の動きを順次検出して音声発
声のタイミングを検出したことにより、これら顔、目を
検出する際の処理により、唇の色彩が特異な色の場合、
唇と同一色による背景等が画面中に存在する場合、対象
人物が正面を向いていない場合、複数の人物が画面中に
登場する場合等においても、さらには映像が変化した場
合でも、正しく唇の位置を検出して唇の動きを検出する
ことができる。従ってその分、従来の比して時間ずれの
検出精度を向上することができ、またその結果、映像及
び音声の同期も高い精度により実施することができる。
【0039】またいちいち領域を設定する等の操作を実
行しなくてよいことにより、その分オペレータの操作を
簡略化することができる。これらにより例えば、吹き替
え、アニメーション作成におけるアフレコ等に適応し
て、音声挿入を正確かつ自動的に実行することができ
る。
【0040】すなわち顔の輪郭を検出することにより、
唇と同一色による背景等が画面中に存在する場合であっ
ても、確実に顔の輪郭を検出することができ、この顔の
人物の発声を確実に検出することができる。さらに多数
の人物が写し出されている場合でも、この顔検出の処理
において、この実施の形態のように、形状の大きさによ
り所望の顔を選択することにより、複数の人物が画面中
に登場する場合でも、特定人物の発声を確実に検出する
ことができる。また顔の向きの変化、顔の位置の変化等
の映像の変化についても、適切に対応して唇の動きを検
出することができる。また動きベクトル検出結果を処理
して唇の動きを検出することにより、唇の色が特異の色
である場合でも、確実に唇の動きを検出することができ
る。
【0041】(3)実施の形態の効果 以上の構成によれば、映像信号の画像処理により、人物
の顔、目、唇の動きを順次検出して音声発生のタイミン
グを検出することにより、音声解析、動画像解析により
音声と映像との時間ずれを検出する場合に、従来に比し
て高い精度で時間ずれを検出することができる。
【0042】また顔の位置、目の位置及び顔の向きに基
づいて、唇の動き検出用の領域を検出することにより、
顔が正面を向いていない場合、顔の向きが変化した場合
等に適切に対応して唇の動きを検出することができ、そ
の分、従来に比して高い精度で時間ずれを検出すること
ができる。
【0043】また音声解析により、唇に動きを伴う音声
であって、また動きの大きな音声の発声を検出すること
により、音声と映像との間で対応する音声発声のタイミ
ングを確実に検出することができ、その分、時間ずれの
検出精度を向上することができる。
【0044】またこのようにして検出した時間ずれによ
り音声信号を遅延させて時間ずれを補正することによ
り、確実かつ高い精度で時間ずれを補正することができ
る。
【0045】(4)他の実施の形態 なお上述の実施の形態においては、顔の位置、目の位
置、顔の向きにより唇の動き検出用の領域を設定する場
合について述べたが、本発明はこれに限らず、これらに
加えて顔の動きを考慮して唇の動き検出用の領域を設定
するようにしてもよい。すなわち輪郭検出して得られる
顔の領域について、動きベクトルを選択的に取得するこ
とにより、顔の動きを検出することができる。従って、
例えば顔の位置、目の位置、顔の向きにより設定した唇
の動き検出用の領域を、この顔の動き検出結果により補
正するようにして、さらに一段と精度を向上することが
できる。
【0046】また上述の実施の形態においては、時間ず
れの検出結果により音声信号を遅延させて時間ずれを補
正する場合について述べたが、本発明はこれに限らず、
必要に応じて映像信号を遅延させてもよく、さらには映
像信号と音声信号との双方を遅延させてもよい。
【0047】また上述の実施の形態においては、時間ず
れの検出結果により時間ずれを補正する場合について述
べたが、本発明はこれに限らず、他の機器に時間ずれの
補正を委ねる場合にも広く適用することができる。
【0048】また上述の実施の形態においては、ハード
ウエアの構成により時間ずれを検出する場合について述
べたが、本発明はこれに限らず、コンピュータにおける
プログラムの処理により時間ずれを検出する場合にも広
く適用することができる。
【0049】
【発明の効果】上述のように本発明によれば、映像信号
の画像処理により、人物の顔、目、唇の動きを順次検出
して音声発生のタイミングを検出することにより、音声
解析、動画像解析により音声と映像との時間ずれを検出
する場合に、従来に比して高い精度で時間ずれを検出す
ることができる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る信号処理装置を示す
ブロック図である。
【図2】図1の信号処理装置の動作の説明に供する略線
図である。
【符号の説明】
1……信号処理装置、2、3……輪郭検出回路、4……
顔検出回路、5……目検出回路、6……唇検出回路、7
……動きベクトル検出回路、8……唇検出回路、音声検
出回路9、10……遅延検出回路、11……遅延回路
フロントページの続き Fターム(参考) 5B057 BA02 DA08 DB02 DB06 DB09 DC02 DC04 DC16 DC22 DC25 DC32 DC36 5C022 CA00 5D045 AB30 5L096 AA02 AA06 BA08 BA18 CA04 DA02 FA06 FA59 GA38 GA41 HA04

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】映像信号の画像処理により、人物の顔を検
    出する顔検出ステップと、 前記顔検出ステップによる検出結果に基づく前記映像信
    号の画像処理により、前記人物の目を検出する目検出ス
    テップと、 前記顔検出ステップ及び前記目検出ステップによる検出
    結果に基づいて、前記人物の唇が位置すると判断される
    領域を検出する領域検出ステップと、 前記映像信号より動きベクトルを検出する動きベクトル
    検出ステップと、 前記動きベクトル検出ステップで検出される動きベクト
    ルより、前記領域の動きベクトルを選択的に処理して、
    前記人物の唇の動きを検出する動きベクトル処理ステッ
    プと、 前記動きベクトル処理ステップによる検出結果に基づい
    て、前記人物の発声のタイミングを検出する発声検出ス
    テップと、 前記映像信号に対応する音声信号より、前記人物の発声
    に対応する音声のタイミングを検出する音声検出ステッ
    プと、 前記発声検出ステップと、前記音声検出ステップとの検
    出結果に基づいて、前記映像信号に対する前記音声信号
    の時間ずれ量を検出する遅延時間検出ステップとを有す
    ることを特徴とする信号処理方法。
  2. 【請求項2】前記領域検出ステップは、 前記顔の位置、前記目の位置及び前記顔の向きに基づい
    て、前記領域を検出することを特徴とする請求項1に記
    載の信号処理方法。
  3. 【請求項3】前記領域検出ステップは、 動きベクトルに基づいて、前記顔の動きを検出し、 前記顔の位置、前記目の位置、前記顔の向き、前記顔の
    動きに基づいて、前記領域を検出することを特徴とする
    請求項1に記載の信号処理方法。
  4. 【請求項4】前記人物の発声に対応する音声は、 前記音声信号の音声解析による所定の音声を発声するタ
    イミングであり、 前記所定の音声が、唇に動きを伴う音声であることを特
    徴とする請求項1、請求項2又は請求項3に記載の信号
    処理方法。
  5. 【請求項5】前記時間ずれ量に基づいて、前記映像信号
    及び又は前記音声信号を遅延させて、前記映像信号及び
    前記音声信号における前記時間ずれ量を補正する遅延ス
    テップを有することを特徴とする請求項1、請求項2、
    請求項3又は請求項4に記載の信号処理方法。
  6. 【請求項6】映像信号の画像処理により、人物の顔を検
    出する顔検出手段と、 前記顔検出手段による検出結果に基づく前記映像信号の
    画像処理により、前記人物の目を検出する目検出手段
    と、 前記顔検出手段及び前記目検出手段による検出結果に基
    づいて、前記人物の唇が位置すると判断される領域を検
    出する領域検出手段と、 前記映像信号より動きベクトルを検出する動きベクトル
    検出手段と、 前記動きベクトル検出手段で検出される動きベクトルよ
    り、前記領域の動きベクトルを選択的に処理して、前記
    人物の唇の動きを検出する動きベクトル処理手段と前記
    動きベクトル処理手段による検出結果に基づいて、前記
    人物の発声のタイミングを検出する発声検出手段と、 前記映像信号に対応する音声信号より、前記人物の発声
    に対応する音声のタイミングを検出する音声検出手段
    と、 前記発声検出手段と、前記音声検出手段との検出結果に
    基づいて、前記映像信号に対する前記音声信号の時間ず
    れ量を検出する遅延時間検出手段とを有することを特徴
    とする信号処理装置。
  7. 【請求項7】前記時間ずれ量に基づいて、前記映像信号
    及び前記音声信号における前記時間ずれ量を補正する遅
    延手段を有することを特徴とする請求項6に記載の信号
    処理装置。
JP2001353922A 2001-11-20 2001-11-20 信号処理方法及び信号処理装置 Pending JP2003158643A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001353922A JP2003158643A (ja) 2001-11-20 2001-11-20 信号処理方法及び信号処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001353922A JP2003158643A (ja) 2001-11-20 2001-11-20 信号処理方法及び信号処理装置

Publications (1)

Publication Number Publication Date
JP2003158643A true JP2003158643A (ja) 2003-05-30

Family

ID=19165849

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001353922A Pending JP2003158643A (ja) 2001-11-20 2001-11-20 信号処理方法及び信号処理装置

Country Status (1)

Country Link
JP (1) JP2003158643A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005114576A1 (ja) * 2004-05-21 2005-12-01 Asahi Kasei Kabushiki Kaisha 動作内容判定装置
JP2007017409A (ja) * 2005-07-11 2007-01-25 Toyota Motor Corp 車両用ナビゲーションシステム
JP2007036742A (ja) * 2005-07-27 2007-02-08 Matsushita Electric Works Ltd 複数画像合成方法及び複数画像合成装置
JP2007219393A (ja) * 2006-02-20 2007-08-30 Doshisha 画像から音楽を生成する音楽生成装置
JP2007259107A (ja) * 2006-03-23 2007-10-04 Pentax Corp パターンマッチングシステム
JP2008192100A (ja) * 2007-02-08 2008-08-21 Aisin Seiki Co Ltd 瞼検出装置及びプログラム
JPWO2006100727A1 (ja) * 2005-03-18 2008-08-28 富士通株式会社 映像装置における映像信号と音声信号との同期制御方法および装置
US7692724B2 (en) 2004-10-12 2010-04-06 Samsung Electronics Co., Ltd. Method and apparatus to synchronize audio and video
JP2010246026A (ja) * 2009-04-09 2010-10-28 Canon Inc 画像処理装置、画像処理方法、及びプログラム
JP2011019013A (ja) * 2009-07-07 2011-01-27 Ricoh Co Ltd 撮像装置、領域検知方法、及びプログラム
US7912363B2 (en) 2003-07-15 2011-03-22 Omron Corporation Object determining device and imaging apparatus
US8358375B2 (en) 2005-10-27 2013-01-22 National University Corporation Chiba University Method and device for accurately and easily measuring a time difference between video and audio

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7912363B2 (en) 2003-07-15 2011-03-22 Omron Corporation Object determining device and imaging apparatus
WO2005114576A1 (ja) * 2004-05-21 2005-12-01 Asahi Kasei Kabushiki Kaisha 動作内容判定装置
US7894637B2 (en) 2004-05-21 2011-02-22 Asahi Kasei Corporation Device, program, and method for classifying behavior content of an object person
US7692724B2 (en) 2004-10-12 2010-04-06 Samsung Electronics Co., Ltd. Method and apparatus to synchronize audio and video
JPWO2006100727A1 (ja) * 2005-03-18 2008-08-28 富士通株式会社 映像装置における映像信号と音声信号との同期制御方法および装置
JP2007017409A (ja) * 2005-07-11 2007-01-25 Toyota Motor Corp 車両用ナビゲーションシステム
JP4706362B2 (ja) * 2005-07-11 2011-06-22 トヨタ自動車株式会社 車両用ナビゲーションシステム
JP2007036742A (ja) * 2005-07-27 2007-02-08 Matsushita Electric Works Ltd 複数画像合成方法及び複数画像合成装置
JP4715366B2 (ja) * 2005-07-27 2011-07-06 パナソニック電工株式会社 複数画像合成方法及び複数画像合成装置
US8358375B2 (en) 2005-10-27 2013-01-22 National University Corporation Chiba University Method and device for accurately and easily measuring a time difference between video and audio
JP2007219393A (ja) * 2006-02-20 2007-08-30 Doshisha 画像から音楽を生成する音楽生成装置
JP4662873B2 (ja) * 2006-03-23 2011-03-30 Hoya株式会社 パターンマッチングシステム
JP2007259107A (ja) * 2006-03-23 2007-10-04 Pentax Corp パターンマッチングシステム
JP2008192100A (ja) * 2007-02-08 2008-08-21 Aisin Seiki Co Ltd 瞼検出装置及びプログラム
US8351658B2 (en) 2007-02-08 2013-01-08 Aisin Seiki Kabushiki Kaisha Eyelid detection apparatus and programs therefor
JP2010246026A (ja) * 2009-04-09 2010-10-28 Canon Inc 画像処理装置、画像処理方法、及びプログラム
JP2011019013A (ja) * 2009-07-07 2011-01-27 Ricoh Co Ltd 撮像装置、領域検知方法、及びプログラム

Similar Documents

Publication Publication Date Title
US8223269B2 (en) Closed caption production device, method and program for synthesizing video, sound and text
JP2003158643A (ja) 信号処理方法及び信号処理装置
KR20070034462A (ko) 비디오-오디오 동기화
US8111327B2 (en) Method and apparatus for audio/video synchronization
KR20070042104A (ko) 화상 표시 장치 및 방법, 및 프로그램
KR20090022718A (ko) 음향처리장치 및 음향처리방법
JPH07212653A (ja) 画像処理装置
JP3377463B2 (ja) 映像/音声ずれ補正システム、方法および記録媒体
JP2004260641A (ja) 信号処理装置
JP2009075926A (ja) 動画像顔検出装置および動画像顔検出方法
JPH08181962A (ja) 音像定位方法および音像定位制御装置およびテレビ会議システム
JP3555151B2 (ja) カメラ撮影制御装置
JP4801251B2 (ja) 映像/音声ずれ補正方法及び装置
JP3643829B2 (ja) 楽音生成装置、楽音生成プログラムおよび楽音生成方法
JPH0962444A (ja) 指示情報入力装置
KR20110035706A (ko) 영상 처리 시스템에서의 색 보정 장치 및 방법
JPH01314483A (ja) テレビジョン信号受信装置
JPH04249991A (ja) テレビ会議装置
JPH06189297A (ja) 動きベクトル検出方法
JPH02131690A (ja) 動き補償回路
JP3115132B2 (ja) 動物体の存在判定方法
JPH0373075A (ja) 移動物体検出装置
CN115883898A (zh) 一种音视频播放环境延迟测量方法及装置
JPH09172571A (ja) 画像認識装置におけるカメラパラメータ決定方法
JPH0646374A (ja) 画像信号取り込み回路

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050906

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060104