JP2010523025A - 目標物の位置探索を実行する画像収集装置を制御するためのシステム及び方法 - Google Patents

目標物の位置探索を実行する画像収集装置を制御するためのシステム及び方法 Download PDF

Info

Publication number
JP2010523025A
JP2010523025A JP2010500057A JP2010500057A JP2010523025A JP 2010523025 A JP2010523025 A JP 2010523025A JP 2010500057 A JP2010500057 A JP 2010500057A JP 2010500057 A JP2010500057 A JP 2010500057A JP 2010523025 A JP2010523025 A JP 2010523025A
Authority
JP
Japan
Prior art keywords
image acquisition
acquisition device
audible sound
sound source
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010500057A
Other languages
English (en)
Other versions
JP5123373B2 (ja
Inventor
茂林 叶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2010523025A publication Critical patent/JP2010523025A/ja
Application granted granted Critical
Publication of JP5123373B2 publication Critical patent/JP5123373B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Studio Devices (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

目標物の位置探索を実行する画像収集装置を制御するためのシステムを提供する。システムは、受け取られた可聴音信号に基づいて位置探索を実行し可聴音音源の位置をアプリケーション層手順ユニットに伝送する可聴音音源位置特定ユニットと、保存された可聴音信号との認識及び照合プロセスを受け取られた可聴音信号に基づいて実行し音声認識結果をアプリケーション層手順ユニットに伝送する音声認識ユニットと、可聴音音源の位置及び音声認識結果に基づいて画像収集装置の予測される焦点位置を判定するアプリケーション層手順ユニットと、アプリケーション層手順ユニットから獲得された画像収集装置の予測される焦点位置を現在の焦点位置と比較し画像収集装置を制御する画像収集制御ユニットとを備える。システムは、可聴音音源の位置及び音声認識の結果に基づいて自動的に目標物の位置探索を実行するように画像収集装置を制御し、操作の保守性を向上させる。

Description

本発明は、マルチメディア技術の分野に関係すると共に、更に特に、目標物の位置探索を実行する画像収集装置を制御するためのシステム及び方法に関係する。
この出願は、2008年4月23日に出願された国際特許出願番号PCT/CN2008/070782号の継続出願である。この出願は、2007年5月10日に出願された中国特許出願番号第200710104372.9号の利益を主張する。上述の出願の開示は、参照によってそれらの全体がここに組み込まれる。
今日では、可聴音音源の位置探索技術は、話している人に焦点を合わせるようにビデオカメラを制御するために、テレビ電話、電話会議、及びテレビ会議システムに、広く採用されている。
例えば、複数の個別の参加者による会議において、可聴音音源の位置探索技術に基づいたビデオカメラは、可聴音音源の位置に基づいて、話している人、例えば代表者、報告者等に自動的に焦点を合わせることができるが、しかし、もう一人の人が同時に音を出すと、ビデオカメラは音を出した人の方へ向きを変える可能性があり、それは好ましくない効果となる。
別の例として、話すと共に議論することができる複数の個別の参加者による会議において、一般的に、ビデオカメラは、好ましくは議論に参加している専門家に焦点を合わせることを期待される。しかしながら、可聴音音源の位置探索技術に基づいたビデオカメラは、一般的に、最も高い強度の音を出す参加者に焦点を合わせると共に、もし議論の間の専門家の声の強度が他の人の声の強度より高くないならば、ビデオカメラは専門家に焦点を合わせることができない。
上述の内容を考慮すると、可聴音音源の位置探索技術に基づいた現存するビデオカメラは、様々なシナリオの下で要求を満足させることができないと共に、もし様々なアプリケーションシナリオが満たされる必要があるならば、ビデオカメラは、手動で遠隔制御されることが必要になる。
従来技術における上述の問題を考慮して、本発明の様々な実施例は、目標物の位置探索を実行する画像収集装置を制御するためのシステム及び方法を提供すると共に、該システム及び方法において、画像収集装置は、可聴音音源の位置探索の結果及び音声認識の結果に基づいて自動的に目標物の位置探索を実行し、それによって画像収集装置の操作の保守性を向上させるように制御される。
目標物の位置探索を実行する画像収集装置を制御するためのシステムは、可聴音音源位置特定ユニットと、音声認識ユニットと、アプリケーション層手順ユニットとを備える。
可聴音音源位置特定ユニットは、受け取られた可聴音信号に基づいて可聴音音源の位置探索を実行すると共に、可聴音音源の位置を特定するように構成される。
音声認識ユニットは、保存された可聴音信号との認識及び照合プロセスを前記受け取られた可聴音信号に基づいて実行すると共に、音声認識結果を獲得するように構成される。
アプリケーション層手順ユニットは、前記可聴音音源の位置、及び前記音声認識結果に基づいて、前記画像収集装置の予測される焦点位置を判定するように構成される。
本発明の一実施例は、更に、目標物の位置探索を実行する画像収集装置を制御するための方法を提供すると共に、それは以下のステップを含む。
可聴音音源の位置は、受け取られた可聴音信号に基づいて特定される。
保存された可聴音信号との認識及び照合プロセスは、前記受け取られた可聴音信号に基づいて実行されると共に、音声認識結果が獲得される。
前記画像収集装置の予測される焦点位置は、前記可聴音音源の位置、及び前記音声認識結果に基づいて判定される。
本発明の実施例によって提供された前述の技術的解決法から分かるように、本発明の実施例は、目標物の位置探索を実行する画像収集装置を制御するためのシステム及び方法を提供し、該システム及び方法において、前記画像収集装置は、前記可聴音音源の位置探索の結果及び前記音声認識の結果に基づいて、自動的に目標物の位置探索を実行し、それによって画像収集装置の操作の保守性を向上させるように制御される。
本発明の一実施例によるシステムの簡単な概要の構造図である。 本発明の一実施例によるシステムにおける画像収集制御ユニットの簡単な概要の構造図である。 本発明の一実施例による方法のフローチャートである。
本発明の一実施例において説明される、目標物の位置探索を実行する画像収集装置を制御するためのシステムは、図1及び図2を参照して、以下で詳細に例証される。
図1は、本発明の一実施例によるシステムの簡単な概要の構造図である。図1を参照すると、具体的な実現方法において、本発明の実施例におけるシステムは、可聴音音源位置特定ユニットと、音声認識ユニットと、アプリケーション層手順ユニットと、画像収集制御ユニットと、システム設定ユニットとを備えており、それらはそれぞれ以下で説明される。
可聴音音源位置特定ユニットは、外部から受け取られた可聴音信号を処理し、可聴音音源の位置を特定すると共に、可聴音音源の位置をアプリケーション層手順ユニットに伝送する。複数のそのような可聴音信号が存在する場合に、可聴音音源位置特定ユニットは、複数の可聴音音源の位置を特定すると共に、複数の可聴音音源の位置をアプリケーション層手順ユニットに伝送する。具体的な可聴音音源の位置探索プロセスは、今日では成熟した解決法であり、従ってここではこれ以上説明されない。
音声認識ユニットは、保存された可聴音信号との認識及び照合プロセスを外部から受け取られた可聴音信号に基づいて実行すると共に、獲得された音声認識結果をアプリケーション層手順ユニットに伝送する。音声認識結果は、“それは事前に設定された音声に合致する”または“それは事前に設定された音声に合致しない”または“合致する事前に設定された音声は発見されないが、しかし高い音の強度を有する可聴音音源が以前の可聴音音源と異なる”という結果を含み得る。複数の保存された可聴音信号が存在する場合に、音声認識ユニットは、複数の音声認識結果を生成し得る。
アプリケーション層手順ユニットは、画像収集装置の予測される焦点位置を判定するために、可聴音音源位置特定ユニットから獲得された可聴音音源の位置及び音声認識ユニットから獲得された音声認識結果に基づく判定を実行すると共に、次に、画像収集装置の予測される焦点位置を画像収集制御ユニットに伝送する。
複数の保存された可聴音信号が存在する場合に、アプリケーション層手順ユニットは、複数の可聴音音源の位置、複数の音声認識結果、及び認識されるべき音声の優先順位に基づいて、包括的な判定を実行し、画像収集装置の予測される焦点位置を獲得すると共に、予測される焦点位置を画像収集制御ユニットに伝送する。
画像収集制御ユニットは、獲得された画像収集装置の予測される焦点位置を画像収集装置の現在の焦点位置と比較すると共に、もしそれらが同じであれば、画像収集装置に対して何の操作も実行されず、もしそれらが異なれば、画像収集装置の現在の位置を予測される焦点位置に変更するために、画像収集装置に対して対応する操作が実行される。
システム設定ユニットは、異なるアプリケーションシナリオの要求に基づいてシステムパラメータを分析する。システムパラメータは、ビデオカメラを手動で遠隔制御するか、または自動的に遠隔制御するかに関するパラメータと、可聴音音源の位置探索を実行するかどうかに関するパラメータと、音声認識を実行するかどうかに関するパラメータと、保存された可聴音信号の優先順位と、音の強度の優先順位等を含み得る。そして、システム設定ユニットは、システムパラメータをそれぞれアプリケーション層手順ユニットに伝送する。特に、例えば、システム設定ユニットは、アプリケーション層手順ユニットが、画像収集装置の予測される焦点位置を判定するために、そのようなシステムパラメータ、可聴音音源の位置、及び音声認識結果に基づく判定を実行できるように、ビデオカメラを自動的に遠隔制御すること、可聴音音源の位置探索を実行すること、そして音声認識を実行することに関するそのようなシステムパラメータをアプリケーション層手順ユニットに伝送する。
本発明の実施例におけるシステムは、更に、音声録音ユニットを備える。
音声録音ユニットは、認識されるべき可聴音信号をあらかじめ録音すると共に、認識されるべき可聴音信号を音声認識ユニットに伝送するように構成される。1つ以上の認識されるべき可聴音信号があらかじめ録音され得ると共に、この場合、音声録音ユニットは、全ての認識されるべき可聴音信号を録音すると共に、それらを音声認識ユニットに伝送し得る。
上述の説明から分かるように、本発明の実施例におけるシステムは、アプリケーション層手順ユニットが、可聴音音源位置特定ユニットによって特定された可聴音音源の位置及び音声認識ユニットによって獲得された音声認識結果を通じて判定を実行するように作動させると共に、次に、画像収集装置を、画像収集装置の予測される焦点位置と画像収集装置の現在の焦点位置との比較結果に基づいて目標物の位置探索を自動的に実行し、それによって画像収集装置の操作の保守性を向上させるように制御する。
図2は、本発明の一実施例によるシステムにおける画像収集制御ユニットの簡単な概要の構造図である。図2を参照すると、画像収集制御ユニットは、手順保存モジュールと、手順比較モジュールとを備える。
手順保存モジュールは、画像収集装置の現在の焦点位置を保存するように構成される。
手順比較モジュールは、画像収集装置の予測される焦点位置を画像収集装置の現在の焦点位置と比較すると共に、比較結果に基づいて画像収集装置を制御するように構成される。具体的には、手順比較ユニットが、獲得された画像収集装置の予測される焦点位置を画像収集装置の現在の焦点位置と比較すると共に、もし比較結果が2つの位置は同じであるというものであるならば、画像収集装置の位置は変更されず、もしそうでなければ、画像収集装置の現在の焦点位置は画像収集装置の予測される焦点位置に更新され、画像収集装置は、画像収集装置の予測される焦点位置に基づいて位置の置き換えを実行するように制御される。
本発明の一実施例による方法が、図3を参照して、以下で詳細に例証される。
図3を参照すると、本発明の実施例における方法は、以下のステップを含む。
ステップ31において、可聴音音源の位置が、受け取られた可聴音信号に基づいて特定される。
ステップ32において、音声認識結果を獲得するために、保存された可聴音信号との認識及び照合プロセスが受け取られた可聴音信号に基づいて実行される。
ステップ33において、可聴音音源の位置及び音声認識結果に基づいて、画像収集装置の予測される焦点位置が判定される。複数の保存された可聴音信号が存在する場合に、保存された可聴音信号の優先順位に基づいて、画像収集装置の予測される焦点位置が、更に包括的に判定される。
ステップ34において、獲得された画像収集装置の予測される焦点位置が、画像収集装置の現在の焦点位置と比較されると共に、もしそれが同じならば、ステップ36が実行され、もしそうでなければ、ステップ35が実行される。
ステップ35において、画像収集装置の現在の焦点位置は、画像収集装置の予測される焦点位置に変更されると共に、処理の流れはステップ37に進行する。
ステップ36において、画像収集装置に対する操作は実行されない。
ステップ37において、画像収集装置を予測される焦点位置に変更するために、画像収集装置の予測される焦点位置に基づいて、画像収集装置に対する操作が実行される。
上述の説明から分かるように、本発明の実施例における方法は、可聴音音源の位置探索の結果及び音声認識の結果に基づいて目標物の位置探索を自動的に実行し、それによって画像収集装置の操作の保守性を向上させるように、画像収集装置を制御する。
本発明の実施例におけるシステム及び方法のアプリケーションの具体的な例は、以下で例証される。
本発明の実施例が適用されるシナリオが以下で説明される。
会議の前に、可聴音音源の位置探索技術/音声認識技術に基づいたビデオカメラの自動制御の手順が、システム設定ユニットを通じて、アプリケーション層手順ユニットに入力され、その一方、認識されるべき代表者/報告者の音声は、音声録音ユニットを通じて、音声認識ユニットに伝送される。会議の間、システムは自動的に可聴音音源の位置を特定し、可聴音音源の音声があらかじめ保存された音声に合致するか否かを見分ける(認識する)。そして、もし新しい音声と合致しているならば、ビデオカメラは新しい可聴音音源の位置に焦点を合わせるように回転し、もし、以前の音声と同じである音声と合致しているならば、または保存された音声とは合致しないならば、ビデオカメラに対する操作は実行されないと共に、ビデオカメラは回転しない。
本発明の実施例が適用される別のシナリオが以下で説明される。
会議の前に、可聴音音源の位置探索技術/音声認識技術に基づいたビデオカメラの自動制御の手順、及び専門家の音声が最も高い優先順位を有し、そして高い強度を持つ音声が2番目に高い優先順位を有する手順が、システム設定ユニットを通じて、アプリケーション層手順ユニットに入力され、その一方、認識されるべき専門家の音声は、録音されて音声認識ユニットに保存されると共に、専門家の音声の優先順位レベル及び音声の強度の優先順位レベルが設定される。会議の間、システムは自動的に可聴音音源の位置を特定し、可聴音音源の音声があらかじめ保存された音声に合致するか否かを見分ける(認識する)。そして、もし新しい音声と合致しているならば、ビデオカメラは新しい可聴音音源の位置に焦点を合わせるように回転し、もし新しい音声とは合致しないが、高い強度を持つ可聴音音源が以前の可聴音音源と異なるならば、同様に、ビデオカメラは新しい可聴音音源の位置に焦点を合わせるように回転し、もしそうでなければ、ビデオカメラに対する操作は実行されないと共に、ビデオカメラは回転しない。本発明の実施例の別のシナリオにおけるシステム及び方法のアプリケーションは、全く類似しており、ここではこれ以上説明されない。
更に、本発明の実施例における画像収集装置は、ビデオカメラであり得ると共に、当業者は、本発明の実施例が、カメラヘッド(camera head)のような他の画像収集装置に対して、同様に適用可能であるということを、知っているものとする。
要約すれば、本発明の実施例は、目標物の位置探索を実行する画像収集装置を制御するためのシステム及び方法を提供し、該システム及び方法において、画像収集装置は、可聴音音源の位置探索の結果及び音声認識の結果に基づいて位置探索を自動的に実行し、それによって画像収集装置の操作の保守性を向上させるように制御される。更に、本発明の実施例は、更に、様々な異なるシナリオの要求を満たすために、システム設定ユニットを通じて、異なるシナリオに対して対応するシステムパラメータを設定することができる。
実現方法様式の上述の説明を通して、当業者は、本発明のいくつかの実施例は、ハードウェアを通して確実に実現され得る必須の汎用ハードウェアプラットフォームにソフトウェアを結合することを通じて実現され得るということを明確に理解することができる。そのような理解に基づいて、従来技術に対して貢献する本発明の技術的解決法または本発明の技術的解決法の一部は、実質的にソフトウェア製品の形で提示される。コンピュータソフトウェア製品は記憶媒体に格納され、それは、装置が本発明の実施例による方法を実行するための計算機能及び処理機能を有効にする複数の命令を含む。
上述の実施例は、単に本発明の好ましい実現方法であるが、しかし本発明の保護範囲を制限しない。当業者には、様々な修正及び変更が、本発明の範囲からはずれずに、本発明の構成に対して加えられ得るということが明白であろう。上記を考慮した結果、本発明は、この発明の修正物及び変更物が添付された請求項及びそれらの等価物の範囲内にある限り、それらの修正物及び変更物をカバーするということが望まれる。

Claims (13)

  1. 目標物の位置探索を実行する画像収集装置を制御するためのシステムであって、
    受け取られた可聴音信号に基づいて可聴音音源の位置探索を実行すると共に、可聴音音源の位置を特定するように構成された可聴音音源位置特定ユニットと、
    保存された可聴音信号との認識及び照合プロセスを前記受け取られた可聴音信号に基づいて実行すると共に、音声認識結果を獲得するように構成された音声認識ユニットと、
    前記可聴音音源の位置、及び前記音声認識結果に基づいて、前記画像収集装置の予測される焦点位置を判定するように構成されたアプリケーション層手順ユニットと
    を備えることを特徴とするシステム。
  2. 異なるアプリケーションシナリオに従ってシステムパラメータを設定するように構成されたシステム設定ユニットを更に備え、
    前記アプリケーション層手順ユニットが、更に、前記システムパラメータ、前記可聴音音源の位置、及び前記音声認識結果に基づいて、前記画像収集装置の予測される焦点位置を判定するように構成される
    ことを特徴とする請求項1に記載のシステム。
  3. 前記システムパラメータが、前記画像収集装置が手動で制御されているか、または自動的に制御されているかを判定するためのパラメータと、可聴音音源の位置探索を実行するかどうかを判定するためのパラメータと、音声認識を実行するかどうかを判定するためのパラメータと、保存された可聴音信号の優先順位と、音の強度の優先順位とで構成されるグループから選択された1つ以上のものを含む
    ことを特徴とする請求項2に記載のシステム。
  4. 前記保存された可聴音信号が、1つ以上の可聴音音源からの可聴音信号である
    ことを特徴とする請求項3に記載のシステム。
  5. 前記保存された可聴音信号として機能するように認識されるべき可聴音信号をあらかじめ録音するように構成された音声録音ユニットを更に備える
    ことを特徴とする請求項1から請求項4のいずれか一項に記載のシステム。
  6. 獲得された前記画像収集装置の予測される焦点位置を前記画像収集装置の現在の焦点位置と比較すると共に、比較結果に基づいて前記画像収集装置を制御するように構成された画像収集制御ユニットを更に備える
    ことを特徴とする請求項1から請求項4のいずれか一項に記載のシステム。
  7. 前記画像収集制御ユニットが、
    前記画像収集装置の現在の焦点位置を保存するように構成された手順保存モジュールと、
    前記画像収集装置の予測される焦点位置を前記画像収集装置の現在の焦点位置と比較すると共に、比較結果に基づいて前記画像収集装置を制御するように構成された手順比較モジュールと
    を更に備えることを特徴とする請求項6に記載のシステム。
  8. 目標物の位置探索を実行する画像収集装置を制御するための方法であって、
    受け取られた可聴音信号に基づいて、可聴音音源の位置を特定するステップと、
    保存された可聴音信号との認識及び照合プロセスを前記受け取られた可聴音信号に基づいて実行すると共に、音声認識結果を獲得するステップと、
    前記可聴音音源の位置、及び前記音声認識結果に基づいて、前記画像収集装置の予測される焦点位置を判定するステップと
    を含むことを特徴とする方法。
  9. 前記方法を実行する前に、前記方法が、異なるシナリオに従ってシステムパラメータを設定するステップを含むと共に、
    前記可聴音音源の位置、及び前記音声認識結果に基づいて、前記画像収集装置の予測される焦点位置を判定する前記ステップが、前記システムパラメータ、前記可聴音音源の位置、及び前記音声認識結果に基づいて、前記画像収集装置の予測される焦点位置を判定するステップを更に含む
    ことを特徴とする請求項8に記載の方法。
  10. 前記システムパラメータが、前記画像収集装置が手動で制御されているか、または自動的に制御されているかを判定するためのパラメータと、可聴音音源の位置探索を実行するかどうかを判定するためのパラメータと、音声認識を実行するかどうかを判定するためのパラメータと、保存された可聴音信号の優先順位と、音の強度の優先順位とで構成されるグループから選択された1つ以上のものを含む
    ことを特徴とする請求項9に記載の方法。
  11. 前記保存された可聴音信号が、1つ以上の可聴音音源からの可聴音信号である
    ことを特徴とする請求項8に記載の方法。
  12. 獲得された前記画像収集装置の予測される焦点位置を前記画像収集装置の現在の焦点位置と比較すると共に、比較結果に基づいて前記画像収集装置を制御するステップを更に含む
    ことを特徴とする請求項8から請求項11のいずれか一項に記載の方法。
  13. 獲得された前記画像収集装置の予測される焦点位置を前記画像収集装置の現在の焦点位置と比較すると共に、比較結果に基づいて前記画像収集装置を制御する前記ステップが、
    もし前記獲得された前記画像収集装置の予測される焦点位置が前記画像収集装置の現在の焦点位置と一致するならば、前記画像収集装置の位置が変化しないように保持し、もしそうでなければ、前記画像収集装置の現在の焦点位置を前記画像収集装置の予測される焦点位置に更新するステップと、
    前記画像収集装置の予測される焦点位置に基づいて前記画像収集装置の焦点位置調節を実行するステップと
    を更に含むことを特徴とする請求項12に記載の方法。
JP2010500057A 2007-05-10 2008-04-23 目標物の位置探索を実行する画像収集装置を制御するためのシステム及び方法 Active JP5123373B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CNB2007101043729A CN100505837C (zh) 2007-05-10 2007-05-10 一种控制图像采集装置进行目标定位的系统及方法
CN200710104372.9 2007-05-10
PCT/CN2008/070782 WO2008138246A1 (fr) 2007-05-10 2008-04-23 Système et procédé de commande d'un dispositif collecteur d'image permettant d'effectuer une localisation de cible

Publications (2)

Publication Number Publication Date
JP2010523025A true JP2010523025A (ja) 2010-07-08
JP5123373B2 JP5123373B2 (ja) 2013-01-23

Family

ID=38880733

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010500057A Active JP5123373B2 (ja) 2007-05-10 2008-04-23 目標物の位置探索を実行する画像収集装置を制御するためのシステム及び方法

Country Status (5)

Country Link
US (1) US8363119B2 (ja)
EP (1) EP2146340A4 (ja)
JP (1) JP5123373B2 (ja)
CN (1) CN100505837C (ja)
WO (1) WO2008138246A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420783A (zh) * 2021-05-27 2021-09-21 中国人民解放军军事科学院国防科技创新研究院 一种基于图文匹配的智能人机交互方法及装置

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100505837C (zh) * 2007-05-10 2009-06-24 华为技术有限公司 一种控制图像采集装置进行目标定位的系统及方法
CN101770139B (zh) * 2008-12-29 2012-08-29 鸿富锦精密工业(深圳)有限公司 对焦控制系统及方法
CN101511000B (zh) * 2009-02-27 2011-02-16 中山大学 一种利用声波定位的智能监控摄像头装置
US8676581B2 (en) * 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
CN102413276A (zh) * 2010-09-21 2012-04-11 天津三星光电子有限公司 具有声控聚焦功能的数码摄像机
JP2013110551A (ja) * 2011-11-21 2013-06-06 Sony Corp 情報処理装置、撮像装置、情報処理方法およびプログラム
KR20150082199A (ko) 2012-09-14 2015-07-15 타타 스틸 네덜란드 테크날러지 베.뷔. 개선된 e-모듈러스를 구비한 고강도 및 저밀도 입자강화형 강 및 상기 강의 제조 방법
US20150146078A1 (en) * 2013-11-27 2015-05-28 Cisco Technology, Inc. Shift camera focus based on speaker position
CN103841360A (zh) * 2013-12-11 2014-06-04 三亚中兴软件有限责任公司 分布式视频会议的实现方法及系统、终端、音视频一体化设备
CN104036789B (zh) * 2014-01-03 2018-02-02 北京智谷睿拓技术服务有限公司 多媒体处理方法及多媒体装置
CN103957359B (zh) * 2014-05-15 2016-08-24 努比亚技术有限公司 摄像装置及其对焦方法
CN104092936B (zh) * 2014-06-12 2017-01-04 小米科技有限责任公司 自动对焦方法及装置
CN104378635B (zh) * 2014-10-28 2017-12-05 西交利物浦大学 基于麦克风阵列辅助的视频感兴趣区域的编码方法
CN105763787A (zh) * 2014-12-19 2016-07-13 索尼公司 图像形成方法、装置以及电子设备
CN105812721A (zh) * 2014-12-30 2016-07-27 浙江大华技术股份有限公司 一种跟踪监控方法及跟踪监控设备
CN104967771B (zh) * 2015-04-30 2019-02-05 Oppo广东移动通信有限公司 一种控制摄像头的方法及移动终端
CN104954673B (zh) * 2015-06-11 2018-01-19 广东欧珀移动通信有限公司 一种摄像头旋转控制方法及用户终端
CN105657253B (zh) * 2015-12-28 2019-03-29 联想(北京)有限公司 一种对焦方法及电子设备
KR20170097519A (ko) * 2016-02-18 2017-08-28 삼성전자주식회사 음성 처리 방법 및 장치
CN105957521B (zh) * 2016-02-29 2020-07-10 青岛克路德机器人有限公司 一种用于机器人的语音和图像复合交互执行方法及系统
CN105872366B (zh) * 2016-03-30 2018-08-24 南昌大学 一种基于fastica算法的盲源分离技术控制聚焦系统
CN106803886A (zh) * 2017-02-28 2017-06-06 深圳天珑无线科技有限公司 一种拍照的方法及装置
JP6916130B2 (ja) * 2018-03-02 2021-08-11 株式会社日立製作所 話者推定方法および話者推定装置
CN109009170A (zh) * 2018-07-20 2018-12-18 深圳市沃特沃德股份有限公司 探测情绪的方法与装置
CN112739996A (zh) * 2018-07-24 2021-04-30 弗兰克公司 用于分析和显示声学数据的系统和方法
WO2020118503A1 (zh) * 2018-12-11 2020-06-18 华为技术有限公司 一种确定图像对焦区域的方法及装置
KR20200076441A (ko) * 2018-12-19 2020-06-29 삼성전자주식회사 전자 장치 및 그의 제어 방법
CN109506568B (zh) * 2018-12-29 2021-06-18 思必驰科技股份有限公司 一种基于图像识别和语音识别的声源定位方法及装置
CN109905616B (zh) * 2019-01-22 2021-08-31 视联动力信息技术股份有限公司 一种切换视频画面的方法和装置
CN110505399A (zh) * 2019-08-13 2019-11-26 聚好看科技股份有限公司 图像采集的控制方法、装置及采集终端
CN110619895A (zh) * 2019-09-06 2019-12-27 Oppo广东移动通信有限公司 定向发声控制方法及装置、发声设备、介质和电子设备
CN110855927B (zh) * 2019-10-17 2021-11-02 深圳摩尔声学科技有限公司 一种会议摄像声音追踪装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005142640A (ja) * 2003-11-04 2005-06-02 Canon Inc 端末装置
JP2007067972A (ja) * 2005-08-31 2007-03-15 Canon Inc 会議システム及び会議システムの制御方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5742329A (en) * 1992-10-26 1998-04-21 Canon Kabushiki Kaisha Image pickup system and communication system for use in video conference system or the like
US5508734A (en) * 1994-07-27 1996-04-16 International Business Machines Corporation Method and apparatus for hemispheric imaging which emphasizes peripheral content
US5778082A (en) * 1996-06-14 1998-07-07 Picturetel Corporation Method and apparatus for localization of an acoustic source
JPH10276417A (ja) 1997-03-31 1998-10-13 Matsushita Electric Works Ltd テレビ会議システム
US5957667A (en) * 1997-05-23 1999-09-28 Ballard Generation Systems Inc. Oilless compressor with a pressurizable crankcase and motor containment vessel
US6593956B1 (en) * 1998-05-15 2003-07-15 Polycom, Inc. Locating an audio source
US6192342B1 (en) 1998-11-17 2001-02-20 Vtel Corporation Automated camera aiming for identified talkers
JP2000341658A (ja) 1999-05-27 2000-12-08 Nec Eng Ltd 話者方向検出システム
KR20020093873A (ko) * 2000-03-31 2002-12-16 클라리티 엘엘씨 음성 신호 추출 방법 및 장치
JP2002135642A (ja) 2000-10-24 2002-05-10 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声翻訳システム
US7492908B2 (en) * 2002-05-03 2009-02-17 Harman International Industries, Incorporated Sound localization system based on analysis of the sound field
JP2005086365A (ja) * 2003-09-05 2005-03-31 Sony Corp 通話装置、会議装置および撮像条件調整方法
DE102004000043A1 (de) * 2004-11-17 2006-05-24 Siemens Ag Verfahren zur selektiven Aufnahme eines Schallsignals
CN100505837C (zh) * 2007-05-10 2009-06-24 华为技术有限公司 一种控制图像采集装置进行目标定位的系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005142640A (ja) * 2003-11-04 2005-06-02 Canon Inc 端末装置
JP2007067972A (ja) * 2005-08-31 2007-03-15 Canon Inc 会議システム及び会議システムの制御方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420783A (zh) * 2021-05-27 2021-09-21 中国人民解放军军事科学院国防科技创新研究院 一种基于图文匹配的智能人机交互方法及装置
CN113420783B (zh) * 2021-05-27 2022-04-08 中国人民解放军军事科学院国防科技创新研究院 一种基于图文匹配的智能人机交互方法及装置

Also Published As

Publication number Publication date
JP5123373B2 (ja) 2013-01-23
US20100033585A1 (en) 2010-02-11
CN100505837C (zh) 2009-06-24
US8363119B2 (en) 2013-01-29
EP2146340A1 (en) 2010-01-20
EP2146340A4 (en) 2010-07-07
WO2008138246A1 (fr) 2008-11-20
CN101068308A (zh) 2007-11-07

Similar Documents

Publication Publication Date Title
JP5123373B2 (ja) 目標物の位置探索を実行する画像収集装置を制御するためのシステム及び方法
US10848889B2 (en) Intelligent audio rendering for video recording
WO2015172630A1 (zh) 摄像装置及其对焦方法
CA2795189C (en) Automatic gain control
US6192342B1 (en) Automated camera aiming for identified talkers
EP2388996B1 (en) Videoconferencing endpoint having multiple voice-tracking cameras
CA3132837A1 (en) Customized output to optimize for user preference in a distributed system
US9497412B1 (en) Video conference audio/video verification
US9385779B2 (en) Acoustic echo control for automated speaker tracking systems
US20120320143A1 (en) Automatic Camera Selection for Videoconferencing
KR101508092B1 (ko) 화상 회의를 지원하는 방법 및 시스템
KR20200129934A (ko) 오디오-비주얼 데이터에 기반한 화자 분리 방법 및 장치
US9165182B2 (en) Method and apparatus for using face detection information to improve speaker segmentation
CN108063910B (zh) 用于视频会议系统中的摄像机底座及其方法
US20170249939A1 (en) Sound conditioning
US20180158462A1 (en) Speaker identification
JP2008219227A (ja) 映像監視システムおよび映像監視方法
JP2011257943A (ja) ジェスチャ操作入力装置
JP3838159B2 (ja) 音声認識対話装置およびプログラム
US9706169B2 (en) Remote conference system and method of performing remote conference
CN116866509B (zh) 会议现场画面跟踪方法、装置和存储介质
WO2020145667A3 (ko) 네트워크를 이용한 단말에서의 오디오 음질 제어 방법 및 장치
US11917386B2 (en) Estimating user location in a system including smart audio devices
RU2821283C2 (ru) Индивидуально настроенный вывод, который оптимизируется для пользовательских предпочтений в распределенной системе
KR20090020191A (ko) 화상 회의 중계 시스템

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120217

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120913

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121016

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121025

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151102

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5123373

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250