JP2012147420A - 画像処理装置、及び画像処理システム - Google Patents

画像処理装置、及び画像処理システム Download PDF

Info

Publication number
JP2012147420A
JP2012147420A JP2011256026A JP2011256026A JP2012147420A JP 2012147420 A JP2012147420 A JP 2012147420A JP 2011256026 A JP2011256026 A JP 2011256026A JP 2011256026 A JP2011256026 A JP 2011256026A JP 2012147420 A JP2012147420 A JP 2012147420A
Authority
JP
Japan
Prior art keywords
voice
sound
image
level
image processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011256026A
Other languages
English (en)
Other versions
JP5857674B2 (ja
Inventor
Hirofumi Sakagami
弘文 阪上
Junichi Takami
淳一 鷹見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2011256026A priority Critical patent/JP5857674B2/ja
Priority to US13/334,762 priority patent/US9008320B2/en
Publication of JP2012147420A publication Critical patent/JP2012147420A/ja
Application granted granted Critical
Publication of JP5857674B2 publication Critical patent/JP5857674B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Studio Devices (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】発言者の音声レベルを会議出席者の顔の上方(頭上)に画像表示するビデオ会議用カメラマイク装置を提供する。
【解決手段】本発明のカメラ・マイクユニット50は、カメラ3により撮影された画像を処理して会議出席者の顔を検出する顔検出手段15と、複数のマイク5によって音声の到来方向を検出する音声到来方向検出手段16と、ずれ時間情報22に基づいて音声を収音する方向を変更する音声収音方向変更手段17と、音声収音方向変更手段17により収音した音声レベルを算出する音声レベル算出手段18と、顔検出手段15により検出した顔検出情報20、音声到来方向検出手段16により検出した音声到来方向情報21、及び音声レベル算出手段18により算出した音声レベル情報24に基づいて、会議室画像の会議出席者の発言者の頭上に音声レベルを画像表示する画像信号25を生成する音声レベル表示合成手段19と、を備えて構成されている。
【選択図】図2

Description

本発明は、画像処理装置、及び画像処理システムに関し、さらに詳しくは、会議出席者に対応させて音声レベルを画像表示する画像処理技術に関するものである。
従来から、静止画遠隔会議装置において、各会議出席者用に配置されたマイクで収音した音声レベルを、会議出席者に対応させて画像表示する技術が知られている。しかし、今までの会議装置では、会議出席者毎にマイクを配置する必要があるため、会議に出席する人数が変化した場合、即座に対応しにくいという問題があった。
また、特許文献1には、誰が発言者であるかを明確に表示する目的で、各会議出席者用に配置したマイクで収音した音声レベルを、会議出席者に対応させて画像表示する構成が開示されている。
しかし、特許文献1に開示されている従来技術は、本発明とは確かに会議出席者に対応させて音声レベルを画像表示する点では類似しているが、会議出席者毎にマイクを配置する必要があり、会議に出席する人数の変化に対応しにくいという問題は解消できていない。
本発明は、かかる課題に鑑みてなされたものであり、会議出席者の人数分のマイクや発言中表示装置を不要にするために、複数のマイクからなるマイクロフォンアレイを使用して、発言者の音声の到来方向を検出し、画像処理で会議出席者の顔を検出して、発言者の音声レベルを会議出席者の顔の上方(頭上)に画像表示するビデオ会議用カメラマイク装置を提供することを目的とする。
本発明はかかる課題を解決するために、請求項1は、撮影手段、及び音声を収音するマイクロフォンを備えた画像処理装置であって、前記撮影手段により撮影された画像に基づいて人物の位置を検出する人物検出手段と、複数のマイクロフォンによって収音した音声データのずれ時間情報に基づいて音声の到来方向を検出する音声到来方向検出手段と、前記複数のマイクロフォンによって収音されたデータのずれ時間を補正して加算することで前記音声を収音する方向を変更する音声収音方向変更手段と、該音声収音方向変更手段により収音した音声レベルを算出する音声レベル算出手段と、前記人物検出手段により検出した人物検出情報、前記音声到来方向検出手段により検出した音声到来方向情報、及び前記音声レベル算出手段により算出した音声レベル情報に基づいて、前記画像に音声レベルを画像表示させる信号を生成する音声レベル表示合成手段と、を備えたことを特徴とする。
本発明は、会議出席者の顔を認識し、各会議出席者の音声を収音して、誰が発言しているかを検出する。そして、発言者の音声レベルに応じて発言者の画像の上部に音声レベルに応じたマークを表示する。これを実現するために、本発明では、ビデオ会議用カメラマイク装置の構成として、顔検出手段、音声到来方向検出手段、音声収音方向変更手段、音声レベル算出手段、及び音声レベル表示合成手段を備えて、画像信号を生成する。これにより、会議出席者の人数分のマイクを不要にすることができる。
請求項2は、前記音声レベル表示合成手段は、前期人物検出手段と音声到来方向検出手段によって特定される発話者情報、および前記音声レベルに対応して、リアルタイムに発話者画像の付近に表示した円の大きさを変化させることを特徴とする。
本発明の音声レベルの画像表示方法は、音声レベルに応じて、発言者の画像の上部に円の大きさを変化させる。例えば、音声レベルが大きい場合は、円の大きさを大きくし、音声レベルが小さい場合は、円の大きさを小さくする。これらの表示をリアルタイムに行う。これにより、発言者が誰で、且つ、発言者の音声レベルを即座に認識することができる。
請求項3は、前記音声の検出は、該音声の信号レベルが所定の閾値以上で、且つ、所定の時間以上継続した場合に、音声として判断することを特徴とする。
会議では、発言者以外の出席者の相づち等の発言も収音される。これらの音声をすべて検出してしまうと、画像表示がめまぐるしく変化する虞がある。本発明ではこのような現象を防止するために、音声の検出は、該音声の信号レベルが所定の閾値以上で、且つ、所定の時間以上継続した場合に、音声として判断する。これにより、画像表示のめまぐるしい変化を防止することができる。
請求項4は、前記音声レベルを含む画像を表示する画像表示装置と、撮影手段、及び音声を収音するマイクロフォンを備えた画像処理装置であって、前記撮影手段により撮影された画像に基づいて人物を検出する人物検出手段と、複数のマイクロフォンによって収音した音声データのずれ時間情報に基づいて音声の到来方向を検出する音声到来方向検出手段と、前記複数のマイクロフォンによって収音されたデータのずれ時間を補正して加算することで前記音声を収音する方向を変更する音声収音方向変更手段と、該音声収音方向変更手段により収音した音声レベルを算出する音声レベル算出手段と、前記人物検出手段により検出した人物検出情報、前記音声到来方向検出手段により検出した音声到来方向情報、及び前記音声レベル算出手段により算出した音声レベル情報に基づいて、前記画像に音声レベルを画像表示させる信号を生成する音声レベル表示合成手段と前記信号を他の画像処理装置に送信する送信手段とを有する画像処理装置と、を備えたことを特徴とする。
本発明のビデオ会議用カメラマイク装置を少なくとも2つ用意して、各会議室に本発明のビデオ会議用カメラマイク装置と、画像表示装置と、スピーカ、及びビデオ会議装置を備え、夫々の会議室をLAN等のネットワークで接続することにより、ビデオ会議システムを構築することができる。これにより、遠隔地との会議をスムーズに行うことができる。
本発明によれば、複数のマイクからなるマイクロフォンアレイを使用して、発言者の音声の到来方向を検出し、画像処理で会議出席者の顔を検出して、発言者の音声レベルを会議出席者の顔の上方(頭上)に画像表示するので、会議出席者の人数分のマイクを不要とすることができる。
本発明の実施形態に係る画像処理装置の外観について説明する図である。 本発明の実施形態に係る画像処理装置の内部構成について説明するブロック図である。 本発明の実施形態に係る画像処理装置の動作を説明するフローチャートである。 音声到来方向検出手段の動作原理について説明する図である。 音声収音方向変更手段の動作原理について説明する図である。 人物検出手段の実施例の1つである顔検出手段について説明する図である。 人物検出手段の実施例の1つである上半身検出手段について説明する図である。 発言者の音声レベルを円の大きさで発言者の頭上に画像表示した様子について説明する図である。 発言者の音声レベルを棒グラフの長さで発言者の上半身エリア中央に画像表示した様子について説明する図である。 発言者の音声レベルを発話者画像領域の矩形枠の太さで画像表示した様子について説明する図である。 発言者の音声レベルを発話者画像領域の輪郭線の太さで画像表示した様子について説明する図である。 本発明の画像処理装置を会議室で使用した画像処理システムを説明する図である。 本発明の画像処理システムを2つの会議室に設置した場合の動作について説明する図である。
以下、本発明を図に示した実施形態を用いて詳細に説明する。但し、この実施形態に記載される構成要素、種類、組み合わせ、形状、その相対配置などは特定的な記載がない限り、この発明の範囲をそれのみに限定する主旨ではなく単なる説明例に過ぎない。
図1は、本発明の実施形態に係る画像処理装置の外観について説明する図である。本発明の画像処理装置50は、本体4の前面に備えられ、会議出席者等を撮影する撮影装置3と、会議出席者の発言者の音声を収音する複数のマイクロフォン5と、本体4を立設する柱6と、柱6を固定する台座7とを備えて構成されている。尚、本体4の内部の構成については後述する。また、本体4は柱6から取り外し可能な構成としても良い。
撮影装置3は、自拠点で会議が行われている状況を撮影し、撮影された画像は他拠点に送信され、遠隔会議を実現することができる。
撮影装置3で撮影される画像には、自拠点で会議を行っている人(会議出席者)が含まれる。
図2は、本発明の実施形態に係る画像処理装置の内部構成について説明するブロック図である。本発明の画像処理装置50は、撮影装置3、及び会議出席者の音声を収音する複数のマイクロフォン5(マイクロフォンa〜d:マイクロフォンアレイ)を備えた画像処理装置50であって、撮影装置3により撮影された画像を処理して、画像に含まれる人(会議出席者)の位置を検出する人物検出手段15と、複数のマイクロフォン5によって音声の到来方向を検出して、音声到来方向情報21、及び、ずれ時間情報22を出力する音声到来方向検出手段16と、ずれ時間情報22に基づいて音声を収音する方向を変更する音声収音方向変更手段17と、音声収音方向変更手段17により収音した音声レベルを算出する音声レベル算出手段18と、人物検出手段15により検出した人物検出情報20、音声到来方向検出手段16により検出した音声到来方向情報21、及び音声レベル算出手段18により算出した音声レベル情報24に基づいて、撮影装置3で撮影された画像の会議出席者の発言者の付近に音声レベルを画像表示する画像信号25を生成する音声レベル表示合成手段19と、を備えて構成されている。尚、音声収音方向変更手段17から音声信号23が出力される。
撮影装置3から出力される画像信号は、人物検出手段15に入力され、画像から人物を検出し、人物の位置情報を人物検出情報20として出力する。
人物検出に関しては、従来技術であるが、後述する。
また、4個のマイクロフォンa〜dからなるマイクロフォンアレイの音声出力信号は、音声到来方向検出手段16に入力され、音の到来方向、つまりマイクロフォンアレイ及び撮影装置から見た発言者の方向を検出する。マイクロフォンアレイに到来する音の方向により、4個のマイクロフォン(a〜d)5の音声信号出力に時間のずれが発生する。この時間のずれ(ずれ時間情報22)から音の到来方向を検出し、ずれ時間情報22と音声到来方向情報21を出力する。
又、マイクロフォンアレイの音声出力信号は、音声収音方向変更手段17に入力され、ずれ時間情報22を入力して、発言者の方向からの音声を収音する。音声到来方向検出手段16と音声収音方向変更手段17の動作原理は従来技術であるが後述する。
音声収音方向変更手段17から出力された発言者の音声信号23は、音声レベル算出手段18に入力されると同時に、画像処理装置50の音声信号23として出力する。音声レベル算出手段18では、所定の時間間隔で音声信号の実効値を算出し、音声レベル情報24を出力する。
例えば、音声信号のサンプリング周波数を8kHzとし、128サンプルの音声データの時間間隔(1/8000秒×128サンプル=16msec)毎に、各サンプルデータを2乗した値の合計の和の平方根(=実効値)を算出して、音声レベル情報を出力する。
人物検出情報20、音声到来方向情報21、音声レベル情報24が、音声レベル表示合成手段19に入力され、図8に示すような、会議室画像の発言者1の付近に音声レベルを円2で表示する画像の画像信号が出力される。
即ち、本発明は、人物の位置情報と音声到来方向情報に基づき、誰が発言しているかを検出する。そして、発言者の音声レベルに応じて発言者の画像の付近に音声レベルに応じたマークや数値を表示する。これを実現するために、本実施形態では、画像処理装置50の構成として、人物検出手段15、音声到来方向検出手段16、音声収音方向変更手段17、音声レベル算出手段18、及び音声レベル表示合成手段19を備えて、画像信号25を生成する。これにより、会議出席者の人数分のマイクロフォンを不要にすることができる。
図3は、本発明の実施形態に係る画像処理装置の動作を説明するフローチャートである。
撮影装置3が出力する画像信号から人物を検出する処理(S7)と、マイクロフォン5が出力する音声信号から音声を検出する処理(S1)は並行して行なう。音声の検出は、信号レベルが所定の閾値以上で、所定の時間以上継続した場合に、音声を検出したと判断する。これにより、短時間の相づち等の発言はレベル表示せず、画像表示がめまぐるしく変化する事を防止することができる。
次に、音声を検出したら、その到来方向を到来方向検出手段16により検出する(S2)。
現状の到来方向と異なる場合は、音声収音方向変更手段17により収音方向を変更する(S3)。
次に、収音している音声のレベルを音声レベル算出手段18により算出する(S4)。
その後、人物検出情報20と、音声到来方向情報21と、音声レベル情報24を使用して、音声レベル表示合成手段19により音声レベル表示の画像合成を行なう(S5)。
会議が終了するまで、上記処理を繰り返す。会議終了は、接続している会議装置10(図13参照)から終了の制御信号を入力して判断しても良いし、画像処理装置50の電源切断によって判断しても良い。
図4は、音声到来方向検出手段の動作原理について説明する図である。例えば、発言者がマイクロフォンアレイの正面方向にいる場合は、4個のマイクロフォン(a〜d)に入る音は同時刻であり、4個のマイクロフォンの音声信号出力は時間のずれが無い。マイクロフォンアレイの斜め方向から音26が到来すると、各マイクロフォンへの音の到達時間が異なるため、4個のマイクロフォンの音声信号出力に時間のずれが発生する。一例として、図4(a)のように到来音26が到来し、マイクロフォンaに対する、マイクロフォンb、マイクロフォンc、マイクロフォンdの到達時間の遅れを、t1、t2、t3とする。この時間のずれから、到来音26の方向(発言者の方向)を検出できる(図4(b)参照)。
図5は、音声収音方向変更手段の動作原理について説明する図である。音声到来方向検出手段16によって、検出された各マイクロフォンの到達時間の遅れ(t1、t2、t3)を打ち消すように、各マイクロフォン出力に時間遅延を追加する。つまり、図5(a)に示すように、マイクaには時間遅延t3を有する遅延器27、マイクロフォンbには時間遅延t2を有する遅延器28、マイクロフォンcには時間遅延t1を有する遅延器29を追加することにより、到来音の音声信号のタイミングが一致する(図5(b)参照)。これらを加算することにより、到来音の方向からの音声信号は強め合い、それ以外の方向から到来する音声信号は打ち消される。このようにして、音声収音方向を変更して、発言者の音声を収音して出力する。
図6は、人物検出手段の一例として、顔検出手段について説明する図である。画像から顔を検出する方法は、参考文献(デジタルカメラ向け顔画像処理技術:オムロン KEC情報 No.210 2009.JUL P.16−P.22)に示すように公知の技術で実現できる。特に、本発明では、検出した顔が、既に登録済の誰の顔であるかと言う認識処理は不要である。図6に、会議室画像から顔を検出した結果の例を示す。このように、発言者30の顔を検出したら、矩形31で囲んで、その矩形画像上の位置(座標)を顔検出情報として出力する。これにより、発言者30の顔の上方(発言者の頭上)に音声レベルを円で表示できる。
図6では発言者30の顔の上方(発言者の頭上)に音声レベルを円で表示したが、音声レベルを表示する位置、音声レベルを表示する方法はこれに限らない。つまり、発言者30の顔の下方、発言者30の顔の胴体に音声を表示してもよい。また、撮影装置によって撮影された画像の発言者の位置に基づいて、音声レベルが表示される位置が変更できても良い。
また、音声レベルは円に限られず、その他の図形、表示方法でもよい。
図7は、人物検出の別の例として、顔および上半身を含む領域検知手段について説明する図である。画像から人物領域を検出する方法は、参考文献(人物検出装置:グローリー株式会社 特開2009‐140307公報)などの公知の技術で実現できる。
図8は、発言者の音声レベルを円の大きさで発言者の頭上に画像表示した様子について説明する図である。本発明は、従来のビデオ会議の相手側や自分側の会議室画像に、発言者の音声レベルを合成表示する。一例として、図8に示すように、発言者1の頭上に、発言者1の音声レベルに対応した大きさの円2を表示する。円2の大きさを音声レベルに対応してリアルタイムで変化させる。図8(a)は音声レベルが大きい場合を示し、図8(b)は音声レベルが小さい場合を示す。これにより、誰が発言しているかが目で分かる。又、発言者の声の大きさも目で分かるので、自分の発言音量が大きいか、小さいかが自分で分かる。
即ち、ビデオ会議実施中は、自分の声が相手に伝わっているのかが不安になる場合があり、必要以上に大きな声で発言する事がある。又、相手の声が小さくて聞き取りにくくても、相手に大きな声で発言するように要求しにくい場合もある。そこで、自分の発言音量が大きいか、小さいかが自分で分かると、必要以上に大きな声で発言する事を防止できる。
又、自分の声が小さい事が自分で分かると、声を大きくすべきである事に自分で気づき、円滑な会議を実施することができる。
即ち、本発明の音声レベルの画像表示方法は、音声レベルに応じて、発言者1の画像の上部に円2の大きさを変化させる。例えば、音声レベルが大きい場合は、図8(a)のように円2の大きさを大きくし、音声レベルが小さい場合は、円2の大きさを小さくする。
これらの表示をリアルタイムに行う。これにより、発言者が誰で、且つ、発言者の音声レベルを即座に認識することができる。
円でレベル表示を行う際の表示位置の中心座標(x,y)は、例えば以下の式で定める。
x=(Xl+Xr)/2
y=Yt+Rmax+Yoffset
ただし、Xl:人物領域の左端のx座標
Xr:人物領域の右端のx座標
Yt:人物領域の上端のy座標
Rmax:円の最大半径(最大レベル時の円の大きさ)
Yoffset:人物領域と円の間にあける隙間
また、円の半径rは、例えば人間の聴感上の大きさに一致するよう、対数尺度に従う以下の式で定める。
r=Rmax*log(p)/log(Pmax) (p>1の場合)
r=0 (p≦1の場合)
ただし、Rmax:円の最大半径(最大レベル時の円の大きさ)
p:音声レベル(短時間パワー値)
Pmax:最大レベル(最大振幅時の短時間パワー)
なお、信号X=(x1、x2、…xN)の短時間パワーpは、

Figure 2012147420

で定義される値であり、例えばサンプリング周波数が16kHzの場合、N=320とすれば、20mS分のデータに対する短時間パワーを算出することができる。
また、最大レベルPmaxについては、16bit幅のPCMデータ(−32768〜32767の範囲の振幅値)の場合、
Pmax=32767*32767/√2
となる。
ただし、この例のように、レベル表示を行う位置を発言者の領域の外側(例えば上方)に設定する場合、画像にそのような表示を行うだけのスペースが確保されている必要があるが、例えば話者の顔が画像の上端付近にあってその上方にスペースが確保できない場合など、構図によってはレベルを表示する位置を修正する必要がある。このような場合には顔領域の下、左右などに円の中心座標を移動して表示を行えばよい。
上記のような表示エリアの問題が発生しにくいレベル表示の例を、図9〜図11に示す。
図9は、発言者1の音声レベルを棒グラフ2の長さで発言者の上半身エリア中央に画像表示した様子について説明する図である。
図10は、発言者1の音声レベルを発話者画像領域の矩形枠2の太さで画像表示した様子について説明する図である。
図11は、発言者1の音声レベルを発話者画像領域の輪郭線2の太さで画像表示した様子について説明する図である。
いずれも、「誰が発言しているかが目で分かる」、「発言者の声の大きさが目で分かる」という図8の例と同様の効果が得られると共に、既に画像上に存在する領域のごく近傍やその内部にレベルを表示しているため、レベル表示するためのスペースの問題も発生しにくい。
図12は、本発明のカメラ・マイクロフォンユニットを会議室で使用した画像処理システムを説明する図である。本発明の画像処理システム60は、図1、図2で説明した画像処理装置50と、会議室画像を表示する画像表示装置9と、会議出席者の音声を拡声するスピーカ8と、画像処理装置50から出力された画像信号11及び音声信号12をネットワーク32を介して他の画像処理装置に伝送する会議装置10と、を備えて構成されている。
図1の画像処理装置50を会議装置10と併用して、会議室で使用している状況を示す。会議出席者は図のような座席配置に会議出席者用いす11に着席する。
画像表示装置9は、テレビモニターでも良いし、プロジェクタを使ってスクリーンや壁に画像を投影しても良い。画像処理装置50は、会議机12上に置き、カメラ3で会議出席者全員が撮影できるような位置に設置する。
図13は、本発明の画像処理システムを2つの会議室に設置した場合の動作について説明する図である。図13では、A会議室とB会議室でビデオ会議を行なう場合を示している。例えば、A会議室の画像処理装置50から出力された画像信号11と音声信号12は、会議装置10とネットワーク32を経由して、相手側のB会議室に伝送される。受信した画像信号14は、自分側の画像表示装置9で表示され、受信した音声信号13は、自分側のスピーカ8から音声として出力される。又、会議装置10により、自分側の会議室画像を、自分側の画像表示装置9で表示する事もできる。
即ち、本発明の画像処理装置50を少なくとも2つ用意して、各会議室A、Bに本発明の画像処理装置50と、画像表示装置9と、スピーカ8、及び会議装置10を備え、夫々の会議室をLAN等のネットワーク32で接続することにより、画像処理システムを構築することができる。これにより、遠隔地との会議をスムーズに行うことができる。
1 発言者、2 音声レベル、3 カメラ、4 本体、5 マイク、6 柱、7 台座、8 スピーカ、9 画像表示装置、10 ビデオ会議装置、11 会議出席者いす、12 会議机、13 音声信号、14 画像信号、15 顔検出手段、16 音声到来方向検出手段、17 音声収音方向変更手段、18 音声レベル算出手段、19 音声レベル表示合成手段、20 顔検出情報、21 音声到来方向情報、22 ずれ時間情報、23 音声信号、24 音声レベル情報、25 画像信号、26 到来音、27、28、29 遅延器、30 発言者、31 顔検出矩形、32 ネットワーク、50 カメラ・マイクユニット、60 ビデオ会議システム
特開昭60−116294号公報

Claims (4)

  1. 撮影手段、及び音声を収音するマイクロフォンを備えた画像処理装置であって、
    前記撮影手段により撮影された画像に基づいて人物の位置を検出する人物検出手段と、
    複数のマイクロフォンによって収音した音声データのずれ時間情報に基づいて音声の到来方向を検出する音声到来方向検出手段と、
    前記複数のマイクロフォンによって収音されたデータのずれ時間を補正して加算することで前記音声を収音する方向を変更する音声収音方向変更手段と、
    該音声収音方向変更手段により収音した音声レベルを算出する音声レベル算出手段と、
    前記人物検出手段により検出した人物検出情報、前記音声到来方向検出手段により検出した音声到来方向情報、及び前記音声レベル算出手段により算出した音声レベル情報に基づいて、前記画像に音声レベルを画像表示させる信号を生成する音声レベル表示合成手段と、
    を備えたことを特徴とする画像処理装置。
  2. 前記音声レベル表示合成手段は、
    前期人物検出手段と音声到来方向検出手段によって特定される発話者情報、および前記音声レベルに対応して、リアルタイムに発話者画像の付近に表示した円の大きさを変化させることを特徴とする請求項1に記載の画像処理装置。
  3. 前記音声の検出は、該音声の信号レベルが所定の閾値以上で、且つ、所定の時間以上継続した場合に、音声として判断することを特徴とする請求項1又は2に記載の画像処理装置。
  4. 前記音声レベルを含む画像を表示する画像表示装置と、
    撮影手段、及び音声を収音するマイクロフォンを備えた画像処理装置であって、
    前記撮影手段により撮影された画像に基づいて人物を検出する人物検出手段と、
    複数のマイクロフォンによって収音した音声データのずれ時間情報に基づいて音声の到来方向を検出する音声到来方向検出手段と、
    前記複数のマイクロフォンによって収音されたデータのずれ時間を補正して加算することで前記音声を収音する方向を変更する音声収音方向変更手段と、
    該音声収音方向変更手段により収音した音声レベルを算出する音声レベル算出手段と、
    前記人物検出手段により検出した人物検出情報、前記音声到来方向検出手段により検出した音声到来方向情報、及び前記音声レベル算出手段により算出した音声レベル情報に基づいて、前記画像に音声レベルを画像表示させる信号を生成する音声レベル表示合成手段と
    前記信号を他の画像処理装置に送信する送信手段とを有する画像処理装置と、
    を備えたことを特徴とする画像処理システム。
JP2011256026A 2010-12-22 2011-11-24 画像処理装置、及び画像処理システム Expired - Fee Related JP5857674B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011256026A JP5857674B2 (ja) 2010-12-22 2011-11-24 画像処理装置、及び画像処理システム
US13/334,762 US9008320B2 (en) 2010-12-22 2011-12-22 Apparatus, system, and method of image processing, and recording medium storing image processing control program

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010286555 2010-12-22
JP2010286555 2010-12-22
JP2011256026A JP5857674B2 (ja) 2010-12-22 2011-11-24 画像処理装置、及び画像処理システム

Publications (2)

Publication Number Publication Date
JP2012147420A true JP2012147420A (ja) 2012-08-02
JP5857674B2 JP5857674B2 (ja) 2016-02-10

Family

ID=46316837

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011256026A Expired - Fee Related JP5857674B2 (ja) 2010-12-22 2011-11-24 画像処理装置、及び画像処理システム

Country Status (2)

Country Link
US (1) US9008320B2 (ja)
JP (1) JP5857674B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9392224B2 (en) 2011-07-14 2016-07-12 Ricoh Company, Limited Multipoint connection apparatus and communication system
JP2016146547A (ja) * 2015-02-06 2016-08-12 パナソニックIpマネジメント株式会社 収音システム及び収音方法
JP2019208167A (ja) * 2018-05-30 2019-12-05 公立大学法人首都大学東京 テレプレゼンスシステム
US10930295B2 (en) 2016-07-28 2021-02-23 Panasonic Intellectual Property Management Co., Ltd. Voice monitoring system and voice monitoring method
JP2021114716A (ja) * 2020-01-20 2021-08-05 パナソニックIpマネジメント株式会社 撮像装置
JP2021533510A (ja) * 2018-01-30 2021-12-02 ティントーク ホールディング(ケイマン)リミティド 相互作用の方法及び装置
WO2023243059A1 (ja) * 2022-06-16 2023-12-21 日本電信電話株式会社 情報提示装置、情報提示方法及び情報提示プログラム

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130156204A1 (en) * 2011-12-14 2013-06-20 Mitel Networks Corporation Visual feedback of audio input levels
US8704070B2 (en) * 2012-03-04 2014-04-22 John Beaty System and method for mapping and displaying audio source locations
US9412375B2 (en) 2012-11-14 2016-08-09 Qualcomm Incorporated Methods and apparatuses for representing a sound field in a physical space
US9491299B2 (en) * 2012-11-27 2016-11-08 Dolby Laboratories Licensing Corporation Teleconferencing using monophonic audio mixed with positional metadata
JP2014143678A (ja) * 2012-12-27 2014-08-07 Panasonic Corp 音声処理システム及び音声処理方法
US9338544B2 (en) * 2014-06-03 2016-05-10 Cisco Technology, Inc. Determination, display, and adjustment of best sound source placement region relative to microphone
US9396632B2 (en) 2014-12-05 2016-07-19 Elwha Llc Detection and classification of abnormal sounds
KR20170035502A (ko) * 2015-09-23 2017-03-31 삼성전자주식회사 디스플레이 장치 및 이의 제어 방법
CN117612539A (zh) * 2016-05-30 2024-02-27 索尼公司 视频音频处理设备、视频音频处理方法和存储介质
JP6835205B2 (ja) * 2017-03-22 2021-02-24 ヤマハ株式会社 撮影収音装置、収音制御システム、撮影収音装置の制御方法、及び収音制御システムの制御方法
US10248375B2 (en) * 2017-07-07 2019-04-02 Panasonic Intellectual Property Management Co., Ltd. Sound collecting device capable of obtaining and synthesizing audio data
WO2021226507A1 (en) 2020-05-08 2021-11-11 Nuance Communications, Inc. System and method for data augmentation for multi-microphone signal processing
US11451770B2 (en) * 2021-01-25 2022-09-20 Dell Products, Lp System and method for video performance optimizations during a video conference session
US11463656B1 (en) 2021-07-06 2022-10-04 Dell Products, Lp System and method for received video performance optimizations during a video conference session

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09140000A (ja) * 1995-11-15 1997-05-27 Nippon Telegr & Teleph Corp <Ntt> 会議用拡聴器
JPH10126757A (ja) * 1996-10-23 1998-05-15 Nec Corp ビデオ会議システム
US5900907A (en) * 1997-10-17 1999-05-04 Polycom, Inc. Integrated videoconferencing unit
JP2000083229A (ja) * 1998-09-07 2000-03-21 Ntt Data Corp 会議システム、話者表示方法及び記録媒体
JP2003230049A (ja) * 2002-02-06 2003-08-15 Sharp Corp カメラ制御方法及びカメラ制御装置並びにテレビ会議システム
JP2006261900A (ja) * 2005-03-16 2006-09-28 Casio Comput Co Ltd 撮像装置、撮像制御プログラム
JP2010193017A (ja) * 2009-02-16 2010-09-02 Panasonic Corp 映像通信装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60116294A (ja) 1983-11-28 1985-06-22 Sony Corp 静止画像によるテレビ会議システム
JPH04309087A (ja) 1991-04-08 1992-10-30 Ricoh Co Ltd ビデオカメラ制御装置
JP4311402B2 (ja) * 2005-12-21 2009-08-12 ヤマハ株式会社 拡声システム
JP4973919B2 (ja) * 2006-10-23 2012-07-11 ソニー株式会社 出力制御システムおよび方法、出力制御装置および方法、並びにプログラム
JP5060264B2 (ja) 2007-12-07 2012-10-31 グローリー株式会社 人物検出装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09140000A (ja) * 1995-11-15 1997-05-27 Nippon Telegr & Teleph Corp <Ntt> 会議用拡聴器
JPH10126757A (ja) * 1996-10-23 1998-05-15 Nec Corp ビデオ会議システム
US5900907A (en) * 1997-10-17 1999-05-04 Polycom, Inc. Integrated videoconferencing unit
JP2000083229A (ja) * 1998-09-07 2000-03-21 Ntt Data Corp 会議システム、話者表示方法及び記録媒体
JP2003230049A (ja) * 2002-02-06 2003-08-15 Sharp Corp カメラ制御方法及びカメラ制御装置並びにテレビ会議システム
JP2006261900A (ja) * 2005-03-16 2006-09-28 Casio Comput Co Ltd 撮像装置、撮像制御プログラム
JP2010193017A (ja) * 2009-02-16 2010-09-02 Panasonic Corp 映像通信装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9392224B2 (en) 2011-07-14 2016-07-12 Ricoh Company, Limited Multipoint connection apparatus and communication system
JP2016146547A (ja) * 2015-02-06 2016-08-12 パナソニックIpマネジメント株式会社 収音システム及び収音方法
US10206030B2 (en) 2015-02-06 2019-02-12 Panasonic Intellectual Property Management Co., Ltd. Microphone array system and microphone array control method
US10930295B2 (en) 2016-07-28 2021-02-23 Panasonic Intellectual Property Management Co., Ltd. Voice monitoring system and voice monitoring method
US11631419B2 (en) 2016-07-28 2023-04-18 Panasonic Intellectual Property Management Co., Ltd. Voice monitoring system and voice monitoring method
JP2021533510A (ja) * 2018-01-30 2021-12-02 ティントーク ホールディング(ケイマン)リミティド 相互作用の方法及び装置
JP2019208167A (ja) * 2018-05-30 2019-12-05 公立大学法人首都大学東京 テレプレゼンスシステム
JP7106097B2 (ja) 2018-05-30 2022-07-26 東京都公立大学法人 テレプレゼンスシステム
JP2021114716A (ja) * 2020-01-20 2021-08-05 パナソニックIpマネジメント株式会社 撮像装置
WO2023243059A1 (ja) * 2022-06-16 2023-12-21 日本電信電話株式会社 情報提示装置、情報提示方法及び情報提示プログラム

Also Published As

Publication number Publication date
US9008320B2 (en) 2015-04-14
US20120163610A1 (en) 2012-06-28
JP5857674B2 (ja) 2016-02-10

Similar Documents

Publication Publication Date Title
JP5857674B2 (ja) 画像処理装置、及び画像処理システム
US5940118A (en) System and method for steering directional microphones
JP4296197B2 (ja) 音源追跡のための配置及び方法
EP1906707B1 (en) Audio transmission system and communication conference device
JP2016146547A (ja) 収音システム及び収音方法
US10447970B1 (en) Stereoscopic audio to visual sound stage matching in a teleconference
US20040254982A1 (en) Receiving system for video conferencing system
EP2320676A1 (en) Method, communication device and communication system for controlling sound focusing
US10497356B2 (en) Directionality control system and sound output control method
JP4411959B2 (ja) 音声集音・映像撮像装置
JP2007274462A (ja) テレビ会議装置、テレビ会議システム
EP1705911A1 (en) Video conference system
WO2015198964A1 (ja) 音声入出力機能付き撮像装置およびテレビ会議システム
TWI826768B (zh) 視訊會議系統與方法
JP2009049734A (ja) カメラ付きマイクロフォン、カメラ付きマイクロフォンの制御プログラムおよびテレビ会議システム
KR101976937B1 (ko) 마이크로폰 어레이를 이용한 회의록 자동작성장치
JP2011193392A (ja) ビデオ会議装置
JP5120020B2 (ja) 画像付音声通信システム、画像付音声通信方法およびプログラム
JP2006211156A (ja) 音響装置
JP2014072835A (ja) 会議装置
Lin et al. Development of novel hearing aids by using image recognition technology
JP4479227B2 (ja) 音声集音・映像撮像装置および撮像条件決定方法
JP6835205B2 (ja) 撮影収音装置、収音制御システム、撮影収音装置の制御方法、及び収音制御システムの制御方法
JP2011055103A (ja) 集合住宅インターホンシステム
JP2016039600A (ja) 制御装置、制御方法、プログラム、表示装置、撮像装置および映像会議システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141020

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150731

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151022

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151130

R151 Written notification of patent or utility model registration

Ref document number: 5857674

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees