JP2018077479A - マルチモーダル整合方式を使用するオブジェクト認識 - Google Patents

マルチモーダル整合方式を使用するオブジェクト認識 Download PDF

Info

Publication number
JP2018077479A
JP2018077479A JP2017225904A JP2017225904A JP2018077479A JP 2018077479 A JP2018077479 A JP 2018077479A JP 2017225904 A JP2017225904 A JP 2017225904A JP 2017225904 A JP2017225904 A JP 2017225904A JP 2018077479 A JP2018077479 A JP 2018077479A
Authority
JP
Japan
Prior art keywords
keypoint
image
audio
scene
doa
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017225904A
Other languages
English (en)
Inventor
エリック・ビッサー
Visser Erik
ヒイン・ワン
Haiyin Wang
ハシブ・エー.・シディクイ
A Siddiqui Hasib
レ−ホン・キム
Lae-Hoon Kim
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2018077479A publication Critical patent/JP2018077479A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Abstract

【課題】シーン中の1つまたは複数のオブジェクトを認識し、位置を特定するための方法、システムおよび製造品を提供する。【解決手段】シーンの画像および/またはビデオがキャプチャされる。シーンにおいて記録されたオーディオを使用して、キャプチャされたシーンのオブジェクト探索が狭められる。キャプチャされた画像/ビデオ中の探索エリアを限定するために、音の到来方向(DOA)が判断され、使用される。記録されたオーディオ中で識別される音のタイプに基づいてキーポイントシグネチャが選択される。キーポイントシグネチャは、本システムが認識するように構成された特定のオブジェクトに対応する。キャプチャされたシーン中で識別されるキーポイントを、選択されたキーポイントシグネチャと比較する、シフト不変特徴変換(SIFT)分析を使用して、シーン中のオブジェクトが認識される。【選択図】図2

Description

米国特許法第119条による優先権の主張
[0001]本特許出願は、本出願の譲受人に譲渡され、参照により本明細書に明確に組み込まれる、2012年4月13日に出願された米国仮出願第61/623,910号の優先権を主張する。
[0002]本開示は、一般にオブジェクト認識装置および方法に関する。
[0003]様々な適用例は、視覚シーン中のオブジェクトを識別することが可能である機械またはプロセッサを有することから恩恵を受け得る。コンピュータビジョンの分野は、シーン中のオブジェクトまたは特徴を識別することを可能にする技法および/またはアルゴリズムを提供することを試みており、オブジェクトまたは特徴は、1つまたは複数のキーポイント(keypoint)を識別する記述子によって特徴づけられ得る。SIFT(スケール不変特徴変換(Scale Invariant Feature Transform))など、これらの技法はまた、しばしば、適用例の中でも、オブジェクト認識、オブジェクト検出、画像整合、3次元構造構築、ステレオ対応、および/または動き追跡、顔認識に適用される。
[0004]大部分のオブジェクト認識技法は、シーンからキャプチャされた視覚情報、たとえば、ビデオ、画像またはピクチャのみに依拠する。
[0005]この概要は、すべての企図される実施形態の包括的な概観ではなく、すべての実施形態の主要または重要な要素を識別するものでも、いずれかまたはすべての実施形態の範囲を定めるものでもない。その唯一の目的は、後で提示するより詳細な説明の導入として、1つまたは複数の実施形態のいくつかの概念を簡略化された形式で提示することである。
[0006]シーン中の1つまたは複数のオブジェクトを認識し、位置を特定するための改善された技法が開示される。これらの技法は、シーン中のオブジェクトを認識するのを助けるために、シーンにおいて記録されたオーディオならびに視覚情報の使用を取り入れる。これらの技法の一態様によれば、装置は、シーンにおいて記録されたオーディオに基づいてシーン中のオブジェクトに対応するキーポイントを選択するように構成されたキーポイントセレクタと、選択されたキーポイントに基づいてオブジェクトを識別するように構成されたキーポイント整合デバイスとを含む。
[0007]さらなる態様によれば、シーン中のオブジェクトを認識する方法は、シーンにおいて記録されたオーディオに基づいてオブジェクトに対応するキーポイントを選択することと、選択されたキーポイントに基づいてオブジェクトを識別することとを含む。
[0008]さらなる態様によれば、1つまたは複数のプロセッサによって実行可能な命令のセットを具備するコンピュータ可読媒体が提供される。媒体は、シーンにおいて記録されたオーディオに基づいてシーン中のオブジェクトに対応するキーポイントを選択するためのプログラミングコードと、選択されたキーポイントに基づいてオブジェクトを識別するためのプログラミングコードとを記憶する。
[0009]他の態様、特徴および利点は、以下の図および詳細な説明を審査すると当業者に明らかであるかまたは明らかになる。すべてのそのような追加の特徴、態様、および利点は本明細書内に含まれ、添付の特許請求の範囲によって保護されるものである。
[0010]図面は例示のためのものにすぎないことを理解されたい。さらに、図中の構成要素は必ずしも一定の縮尺であるとは限らず、代わりに、本明細書で説明する技法およびデバイスの原理を示すことに強調が置かれる。図において、同様の参照番号は、異なる図全体にわたって対応する部分を示す。
[0011]例示的な聴覚シーンおよび視聴覚シーン分析システムを示す概念図。 [0012]図1の視聴覚シーン分析システムを動作させる方法を示すプロセスブロック図。 [0013]図1の聴覚シーン分析システムを使用して聴覚シーンを分解し、処理する例示的な方法を示すフローチャート。 [0014]聴覚シーン中の音生成オブジェクトを識別する例示的な方法を示すフローチャート。 [0015]聴覚シーン中の音生成オブジェクトを識別する第2の例示的な方法のフローチャート。 聴覚シーン中の音生成オブジェクトを識別する第2の例示的な方法のフローチャート。 [0016]図1の聴覚シーン分析システムとともに使用され得る例示的なオブジェクト認識サブシステムのいくつかの構成要素を示すブロック図。 [0017]記録された画像上でオブジェクト認識を実行するための機能段階を示すブロック図。 [0018]例示的な画像処理段階におけるガウススケール空間発生を示す図。 [0019]例示的な画像処理段階における特徴検出を示す図。 [0020]例示的な画像処理段階における特徴記述子抽出を示す図。 [0021]照度不変特徴/キーポイント検出のためのスケール空間正規化の一例を示す図。 [0022]正規化されたスケール空間差分の1つのレベルがどのように取得され得るかの一例を示す図。 [0023]改善された特徴検出のために正規化されたスケール空間差分を発生するための方法を示す図。 [0024]特徴/キーポイント検出デバイスの一例を示すブロック図。 [0025]画像整合デバイスの一例を示すブロック図。 [0026]一般的構成による装置A100のブロック図。 [0027]マイクロフォンアレイR100と装置A100のインスタンスとを含むデバイスD10のブロック図。 [0028]点音源jから受信された信号成分の、アレイR100のマイクロフォンMC10およびMC20の軸に対する到来方向θjを示す図。 [0029]装置A100の実装形態A110のブロック図。 [0030]フィルタ更新モジュールUM10の実装形態UM20のブロック図。 [0031]フィルタ更新モジュールUM20の実装形態UM22のブロック図。 [0032]カメラCM10をもつアレイR100の4マイクロフォン実装形態R104の構成の一例の上面図。 [0033]到来方向の推定のための遠距離場モデルを示す図。 [0034]装置A100の実装形態A120のブロック図。 [0035]装置A120およびA200の実装形態A220のブロック図。 [0036]DOA推定にSRP−PHATを使用した結果によるヒストグラムの例を示す図。 [0037]IVA適応ルール(40〜60度の音源分離)を使用して適応された逆混合行列の異なる出力チャネルに関する4つのヒストグラムのセットの一例を示す図。 [0038]画像またはビデオキャプチャ中にシーン中のオブジェクトの視差を検出するように構成された例示的な画像キャプチャデバイスの図。 [0039]図24のデバイス中に含まれ得る例示的な画像処理システムのブロック図。 [0040]知覚されたオブジェクト深さと相関させられたオブジェクト視差の例示的な例の図。 知覚されたオブジェクト深さと相関させられたオブジェクト視差の例示的な例の図。 [0041]一般的構成による方法M100のフローチャート。 [0042]方法M100の実装形態M200のフローチャート。 [0043]一般的構成による、オーディオ信号を分解するための装置MF100のブロック図。 [0044]別の一般的構成による、オーディオ信号を分解するための装置A100のブロック図。 [0045]方法M100の実装形態M300のフローチャート。 [0046]装置A100の実装形態A300のブロック図。 [0047]装置A100の別の実装形態A310のブロック図。 [0048]方法M200の実装形態M400のフローチャート。 [0049]方法M200の実装形態M500のフローチャート。 [0050]方法M100の実装形態M600のフローチャート。 [0051]装置A100の実装形態A700のブロック図。 [0052]装置A100の実装形態A800のブロック図。 [0053]モデルBf=yを示す図。 [0054]図32のモデルの変形B’f=yを示す図。 [0055]複数の音源がアクティブであるシナリオを示す図。
[0056]図面を参照し、組み込む以下の詳細な説明は、1つまたは複数の特定の実施形態について説明し、例示する。限定するためではなく、例示し、教示するためだけに提供されるこれらの実施形態について、当業者が特許請求の範囲を実践することを可能にするのに十分詳細に図示し、説明する。したがって、簡潔のために、説明は、当業者に知られているある情報を省略し得る。
[0057]「例示的」という単語は、本開示全体にわたって、「例、事例、または例示の働きをすること」を意味するために使用する。本明細書で「例示的」と記載されたものはどんなものも、必ずしも他の手法または特徴よりも好ましいまたは有利であると解釈されるべきではない。それの文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表されたメモリロケーション(またはメモリロケーションのセット)の状態を含む、それの通常の意味のいずれかを示すために使用される。
[0058]本明細書で説明するオブジェクト認識技法は多くの異なるシーンに適用され得るが、本明細書で説明する例は、多くの音源、たとえば、ミュージシャン、演奏者、楽器などが単一のシーン中に存在する、音楽シーンに関係する。いくつかのビデオゲーム(たとえば、Guitar Hero(登録商標)、Rock Band(登録商標))およびコンサート音楽シーンは、複数の楽器およびボーカリストが同時にプレイすることを伴い得る。現在の商用ゲームおよび音楽生成システムでは、これらのシナリオから記録されたオーディオを別々に分析し、後処理し、アップミックスすることが可能であるように、それらのシナリオが、連続的にプレイされるか、または近接して配置されたマイクロフォンを用いてプレイされる必要がある。これらの制約は、音楽生成の場合、干渉を制御する能力および/または空間効果を記録する能力を制限し得、ビデオゲームの場合、制限されたユーザエクスペリエンスをもたらし得る。
[0059]どんな楽器がプレイされているのか、およびどれくらいのミュージシャン/音源がシーン中に存在するのかを狭めるのを助ける、何らかのアプリオリ(a priori)な知識または他の情報が利用可能にされた場合、音楽聴覚シーン分解は大幅に簡略化され得る。
[0060]本明細書で開示するオブジェクト認識技法は、複数の音源を有するシーンにおいて記録されたオーディオを分解するための従来の試みの制限の多くを克服する。概して、オブジェクトまたは特徴認識は、特徴識別および/またはオブジェクト認識のために画像中の関心ポイント(キーポイントとも呼ばれる)を識別することおよび/またはそれらのキーポイントの周りの局所的特徴(localized features)を識別することを伴い得る。本明細書で開示するシステムおよび方法では、いくつかの画像ベースの楽器およびオーディオベースのノート/楽器認識技法が組み合わせられる。いくつかの異なるデバイスは、コンピュータビジョンを使用して特徴識別および/またはオブジェクト認識を実行することが可能であり得る。そのようなデバイスの例は、電話ハンドセット(たとえば、セルラーハンドセット)、ビデオ記録が可能なハンドヘルドモバイルデバイス、オーディオおよびビデオコンテンツを記録する個人メディアプレーヤ、携帯情報端末(PDA)または他のハンドヘルドコンピューティングデバイス、ならびにノートブック、ノートブックコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、または他のポータブルコンピューティングデバイス中に実装され得る。さらに、複数の楽器およびボーカリストが同時にプレイすることを伴い得る、ビデオゲーム(たとえば、Guitar Hero(登録商標)、Rock Band(登録商標))およびコンサート音楽シーンを実行することが可能なデバイス。ポータブルコンピューティングデバイスの種類は現在、ラップトップコンピュータ、ノートブックコンピュータ、ウルトラポータブルコンピュータ、タブレットコンピュータ、モバイルインターネットデバイス、スマートブックおよびスマートフォンなどの名称を有するデバイスを含む。
[0061]第1の方法では、オーディオ知識のみに基づく情報が、シーン中で探索される音源のタイプを定義するのを助け、画像ベースのスケール不変特徴変換(SIFT)探索において考慮されるべきオブジェクト形状のキーポイントシグネチャの探索ユニバースを低減する。さらに、そのようなキーポイント探索は、必ずしも静止画像に制限されるとは限らないが、深さ(範囲)レイヤ探索の必要に応じて単一または複数のカメラを使用する、典型的なミュージシャンの動きパターンのための周囲ビデオフレームの分析をも伴い得る。キーポイント探索は、認識された楽器を関連する尤度で与えるために、マルチモーダルベイズ推定(multi-modal Bayesian estimation)を介して組み込まれる。
[0062]第2の方法では、画像のいくつかの部分中の安定した楽器キーポイントを計算するために、マルチマイクロフォン音定位情報と楽器形状認識の両方から音源(たとえば、楽器)ロケーションが推定される。この方法は、オブジェクト認識を改善するために第1の方法と組み合わせられ得る。
[0063]第3の方法では、第2の方法を使用して判断される情報など、関連するマルチマイクロフォン音源定位情報とともに、音声/オーディオ認識において使用されるメル周波数ケプストラム係数(MFCC:mel-frequency cepstral coefficient)などの音響特徴が、音源認識を行うためにマルチモーダルベイズ推定において直接使用される。第3の方法は、オブジェクト認識を改善するために第1の方法と組み合わせられ得る。
[0064]上記の方法は、たとえば、シーンから記録されたオーディオを分解することに対するスパース復元分解手法(sparse recovery decomposition approach)の場合、基底関数インベントリ(basis function inventory)のサイズのより改良された定義を可能にし得る。
[0065]図1は、例示的な聴覚シーン10と例示的な聴覚シーン分析システム12とを示す概念図である。聴覚シーン分析システム12は、シーン分析システム14と、マイクロフォンのアレイ18と、1つまたは複数のカメラ16とを含む。カメラ16は、シーン10に対して様々なロケーションおよび角度に配置された1つまたは複数の静止画像カメラおよび/または1つまたは複数のビデオカメラを含み得る。
[0066]シーン分析システム14は、オブジェクト認識サブシステム20と、音響分解サブシステム22とを含む。オブジェクト認識サブシステム20は、本明細書で説明する方法に従って、シーンにおいて記録されたオーディオ、(1つまたは複数の)画像および/またはビデオに基づいてシーン10中の音源を認識し、位置を特定するように構成される。音響分解サブシステム22は、分離されたオーディオが個々に処理され得るように、オブジェクト認識サブシステム20からの情報に基づいて、シーンを別個の音源に分解するように構成される。
[0067]図2は、図1の視聴覚シーン分析システム10を動作させる例示的な方法を示すプロセスブロック図50である。本プロセスは、シーン中の1つまたは複数の楽器の位置を特定し、識別するために、シーンにおいて記録された視聴覚情報を分析するためのステップを示している。本方法は、オーディオ分析ブロック52と、画像および/またはビデオ処理ブロック54と、オーディオ処理ブロック56とを含む。
[0068]開示する方法は、キャプチャされたオーディオおよび/またはビデオ信号を一連のセグメントとして処理し得る。典型的なセグメント長は約1〜10秒にわたる。1つの特定の例では、信号は、約1秒の長さをそれぞれ有する一連の重複しないセグメントまたは「フレーム」に分割される。また、そのような方法によって処理されるセグメントは、異なる演算によって処理されるより大きいセグメントのセグメント(すなわち、「サブフレーム」)であり得、またはその逆も同様である。
[0069]オーディオ分析ブロック52は、シーンにおいて記録されたオーディオ情報に基づいてシーン中の(1つまたは複数の)音源ロケーションを判断するステップを含む(ボックス61)。オーディオ情報はマイクロフォンアレイ18によってキャプチャされ得る。音ロケーションは、シーン中の音源および/または音源について判断された範囲情報から音の推定される到来方向(DOA:direction of arrival)に基づいて判断され得る。音源のDOAは、本明細書において以下で説明するオーディオDOA推定技法を使用して推定され得、音源の範囲は、図18〜図29を参照しながら本明細書において以下で説明する範囲発見技法を使用して推定され得る。
[0070]オーディオ分析ブロック52はまた、シーン中の各音源に音源の推定タイプを与えるステップを含む(ボックス62)。たとえば、楽器について、シーンにおいて記録された音は、その音を生成している楽器の可能性のあるタイプと音源を整合させるために、楽器ノートライブラリを使用して分析され得る。
[0071]ボックス61、62からの音源ロケーションおよびタイプ推定は、画像/ビデオ処理ブロック54に受け渡され、音源の視覚的識別のために探索を制限するために使用される。ボックス64において、推定されたロケーション情報を使用して、キーポイント整合のためにシーンの記録画像中の空間探索空間を狭める。ボックス66において、画像キーポイント探索が推定楽器タイプに基づいて狭められる。これらのステップの両方は、シーン中の(1つまたは複数の)楽器を識別する信頼性を著しく改善し得、また、(1つまたは複数の)楽器の視覚的認識を行うために必要とされる処理の量を低減し得る。
[0072]ボックス68において、シーン中の(1つまたは複数の)楽器を識別するために、シーンにおいて記録された画像および/またはビデオデータ上で視覚的オブジェクト認識分析が実行される。この分析は、視覚特徴分析方式、たとえば、シーンのスケール不変特徴変換(SIFT)分析を伴うことができ、分析されるべき画像のキーポイントおよびエリアは、ボックス61、62からのオーディオ導出情報に基づいて狭められる。例示的なSIFT分析方法の詳細については、本明細書において以下で図7〜図17に関して開示する。
[0073]視覚特徴分析の結果(ボックス70)は、シーン中の音源(たとえば、楽器)候補とそれらの対応するロケーションとのリストであり、そのリストはオーディオ処理ブロック56に与えられる。
[0074]オーディオ処理ブロック56は、記録されたオーディオの品質を向上させるために、別個の音源がより良く分離され、識別され、処理され得るように、シーンから記録されたオーディオをさらに分析してオーディオを分解する。ボックス72において、画像/ビデオ処理ブロック52からのロケーション情報を使用して、識別された音源ロケーションサブセクタの各々のほうへそれぞれ向けられたマルチマイクロフォンアレイのための空間フィルタを発生する。これは、記録されたオーディオデータ中の音源を分離するのを支援する。ボックス74において、楽器音源の識別を改善するために、シングルチャネル基底関数インベントリベースのスパース復元技法が、分離された音サブセクタの各々に適用される。信号チャネル復元技法は、基底関数インベントリを低減するために楽器カテゴリーノートの低減されたセットを使用することができ、この低減は、画像/ビデオ処理ブロック54によって与えられた楽器候補のリスト(ボックス70)によって誘導される。ボックス70において使用され得る例示的なスパース復元技法については、本明細書において以下で図30〜図37に関して説明する。
[0075]図3は、図1の聴覚シーン分析システム12を使用して聴覚シーンを分解する例示的な方法を示すフローチャート200である。ステップ202において、システム12がオーディオおよび視覚情報(静止画像および/またはビデオ)を記録する。ステップ204において、オブジェクト認識サブシステム20がシーン10中の音生成オブジェクトのうちの1つまたは複数を識別し、その位置を特定する。ステップ206において、音響分解サブシステム22は音響シーンを別個の音源に分解する。ステップ208において、音響分解サブシステム22は、分離された音に信号チャネル基底関数インベントリベースのスパース復元を適用する。
[0076]図4は、聴覚シーン中の音生成オブジェクトを識別する第1の例示的な方法を示すフローチャート300である。この方法はオブジェクト認識サブシステム20によって実行され得る。ステップ302において、キャプチャされた画像中のキーポイントを識別する。ステップ304において、シーンにおいて記録されたオーディオに基づいて、楽器などの音生成オブジェクトに対応する1つまたは複数のキーポイントシグネチャを選択する。ステップ306において、画像中のキーポイントを、選択されたキーポイントシグネチャと比較することによって、シーン中の少なくとも1つのオブジェクトを識別する。
[0077]図5A〜図5Bに、聴覚シーン中の音生成オブジェクトを識別する第2の例示的な方法のフローチャート400を示す。この方法はオブジェクト認識サブシステム20によって実行され得る。ステップ402において、キャプチャされた画像中のキーポイントを識別する。ステップ404において、識別されたキーポイントから安定したキーポイントを選択する。ステップ406において、シーンから記録されたオーディオに基づいて、シーンの画像中の関心領域(ROI:region of interest)を選択する。ステップ408において、ROI中の安定したキーポイントを選択する。
[0078]ステップ410において、シーンのビデオから局所動きベクトル(LMV:local motion vector)を計算する。ステップ412において、ROI中のLMVを選択する。
[0079]ステップ414において、シーンにおいて記録されたオーディオに基づいて、楽器などの音生成オブジェクトに対応する1つまたは複数のキーポイントシグネチャを選択する。
[0080]ステップ416において、シーンからの記録されたオーディオに基づいてオーディオ信頼性値(CV:confidence value)を計算する。オーディオCVは、オーディオ特徴整合デバイス、たとえば、MFCC分類器の出力に基づき得る。オーディオCVはベクトルであり得、ベクトルの各要素は、オブジェクトが特定のタイプのオブジェクト、たとえば、トランペット、ピアノなどである尤度を示す。
[0081]ステップ418において、シーンのキャプチャされたデジタル画像に基づいて画像信頼性値(CV)を計算する。画像CVは、整合デバイス、たとえば、SIFT整合デバイスの出力に基づき得る。SIFT整合デバイスは、画像CVを生成するために、ROI中の安定したキーポイントを、選択されたキーポイントシグネチャと比較する。画像CVはベクトルであり得、ベクトルの各要素は、オブジェクトが特定のタイプのオブジェクト、たとえば、トランペット、ピアノなどである尤度を示す。
[0082]ステップ420において、シーンからの記録されたビデオに基づいてビデオ信頼性値(CV)を計算する。ビデオCVは、ROI中で選択されたLMVを比較するヒストグラム整合プロセスの出力に基づき得る。ビデオCVはベクトルであり得、ベクトルの各要素は、オブジェクトが特定のタイプのオブジェクト、たとえば、トランペット、ピアノなどである尤度を示す。
[0083]オーディオCV、画像CVおよびビデオCVはそれぞれ正規化され得る。
[0084]ステップ422において、オーディオCVと画像CVとビデオCVとに基づいてシーン中のオブジェクトを識別する。たとえば、最終CVは、オーディオCVと画像CVとビデオCVとの重み付き和として計算され得る。各CVの重み付け係数は、それぞれの録音モダリティの信号対雑音比(SNR)に基づくことができ、特に現在の録音フレームのSNRの関数であり得る。
[0085]モダリティCVがベクトルである場合、最終CVもベクトルであり、ベクトルの各要素は、オブジェクトが特定のタイプのオブジェクト、たとえば、トランペット、ピアノなどである尤度を示す。最大尤度を示す要素がオブジェクトを識別する。
[0086]図6は、図1の聴覚シーン分析システム12とともに使用され得る例示的なオブジェクト認識サブシステム500のいくつかの構成要素を示すブロック図である。サブシステム500は、オーディオプロセッサ502と、画像プロセッサ504と、ビデオプロセッサ506と、SIFT整合デバイス532と、キーポイントシグネチャデータベース(DB)534と、音響特徴データベース536と、音響特徴整合デバイス538と、ヒストグラム整合デバイス540と、オブジェクト局所動きベクトル(LMV)ヒストグラムデータベース542と、マルチモーダル分類器544とを含む。
[0087]オーディオプロセッサ502は、シーンにおいてマイクロフォンアレイ18からオーディオ信号を受信し、記録する。画像プロセッサ504は、シーンのピクチャを撮っている1つまたは複数のカメラ508から、シーンの1つまたは複数の画像を受信し、記録する。ビデオプロセッサ506は、シーンを記録している1つまたは複数のビデオカメラ510から、ビデオ信号を受信し、記録する。
[0088]オーディオプロセッサ502は、到来方向(DOA)検出器512と、関心領域(ROI)セレクタ514と、音分類器516と、音響特徴抽出器518とを含む。マイクロフォンアレイ18から受信されたマイクロフォン信号から、DOA検出器512は、シーン内に位置する音源から出ている音の到来方向を判断する。DOA検出器512の例示的な構成要素および機能については、本明細書において図18〜図25に関して説明する。DOAとアレイの位置とから、シーン中の音源のロケーションの推定が判断され得る。このDOA情報はROIセレクタ514に受け渡される。ROIセレクタ514は、DOA情報とマイクロフォンアレイ18の既知の位置とに基づいて音源のロケーションを推定する。ROIセレクタ514は、次いで、ロケーション情報に基づいてシーンの画像の特定の部分を選択する。選択された部分またはROIは、音源を含んでおり、したがって、キーポイント探索とLMV計算をシーンの一部分のみに制限するために使用され得る。
[0089]音分類器516は、記録されたオーディオの特性に基づいて音源のタイプを分類する。たとえば、音源として楽器のタイプを識別するために、分類器516によって楽器ノートライブラリが使用され得る。
[0090]音分類器516の出力はオーディオ信頼性値であり、それはキーポイントシグネチャデータベース534への入力として与えられる。オーディオ信頼性値に基づいてキーポイントシグネチャデータベース534から1つまたは複数のキーポイントシグネチャが選択される。これらの選択されたキーポイントシグネチャはSIFT整合デバイス532に与えられる。
[0091]音響特徴抽出器518は、MFCCなど、マイクロフォン信号から導出された音響特性を計算する。これらの抽出された特徴は音響特徴整合デバイス538に与えられ、音響特徴整合デバイス538は、抽出された特徴を様々なタイプの音源の音響特徴のデータベース536と比較することによって音源を識別する。音響特徴整合デバイスの出力は音響特徴信頼性値であり得、この音響特徴信頼性値は、他のCVについて上記で説明したのと同様の要素を有するベクトルであり得る。
[0092]画像プロセッサ504は、キーポイント検出器520と、安定キーポイント検出器522と、ROIキーポイントセレクタ524とを含む。キーポイント検出器520は、本明細書で説明する方法を使用して、シーンのキャプチャされたデジタル画像中のキーポイントを判断する。安定キーポイント検出器522は、キーポイント探索を改善し、安定しているそれらの検出されたキーポイントのみを選択する。ROIキーポイントセレクタ524は、ROIセレクタ514から、キャプチャされた画像中のROIを識別する座標情報を受信する。この座標情報に基づいて、ROIキーポイントセレクタは、画像キーポイント選択を、ROI内に位置するそれらの安定したキーポイントに狭める。
[0093]ROI内で検出された安定したキーポイントは、次いで、SIFT整合デバイス532に与えられる。
[0094]本質的に、SIFT整合デバイス532は、画像CVを発生するために、安定したROIキーポイントを、キーポイントシグネチャデータベース534から取り出されたキーポイントシグネチャと比較する。
[0095]ビデオプロセッサ506は、LMV計算器526と、ROI LMVセレクタ528と、ROI LMVヒストグラム計算器530とを含む。LMV計算器526は、(1つまたは複数の)カメラ510からデジタルビデオ信号を受信し、シーンの所定の録音持続時間についてLMVを計算する。LMVは、次いで、ROI LMVセレクタ528に受け渡される。ROI LMVセレクタ528は、ROIセレクタ514からROIの座標情報を受信し、その座標情報に基づいてROI内のそれらのLMVを選択する。
[0096]ROI内のLMVは、次いで、ROI LMVヒストグラム計算器530に受け渡され、ROI LMVヒストグラム計算器530は、ROIからLMVヒストグラムを計算する。シーンのLMVヒストグラムは、次いで、ヒストグラム整合デバイス540に受け渡される。ヒストグラム整合デバイス540は、最も近接した整合を見つけるために、シーンLMVヒストグラムを、オブジェクトLMVヒストグラムデータベース542に記憶されたオブジェクトLMVヒストグラムと比較する。ヒストグラム整合デバイス540は、この比較に基づいてビデオCVを出力する。
[0097]マルチモーダル分類器544は、SIFT整合デバイス532と、音分類器516と、音響特徴整合デバイス538と、ヒストグラム整合デバイス540との出力に基づいてシーン中のオブジェクトを識別する。マルチモーダル分類器544は、オーディオCVと画像CVとビデオCVと音響特徴CVとの重み付き和であり得る、最終信頼性値ベクトルを計算することによってこれを達成することができる。分類器544は、認識された楽器を関連する尤度で与えるためにベイズ推定を実行し得る。CVの重み付け係数は、図4A〜図4Bに関して説明したものと同様であり得る。
[0098]さらに、サブシステム500はまた、シーン中の認識された各オブジェクトについて改善されたオブジェクトロケーションを出力し得る。改善された(1つまたは複数の)オブジェクトロケーションは、マルチモーダル分類器544、カメラ508から出力と、オーディオプロセッサ502のROIセレクタ514からの推定オブジェクトロケーションとに基づくことができる。改善された(1つまたは複数の)オブジェクトロケーションは、関心領域またはオブジェクトロケーションを推定する際のそれらの精度および速度を改善するためにDOA検出器512および/またはROIセレクタ514にフィードバックされ得、たとえば、前のビデオ/画像フレームにおいて判断された推定DOAまたはオブジェクトロケーションは、オーディオプロセッサ502がそれのROI選択プロセスにおいて使用する初期座標として次のフレームに手渡され得る。
キーポイント選択およびSIFT整合デバイス
[0099]例示的なキーポイント検出器520、キーポイントセレクタ522およびSIFT整合デバイス532の動作について以下のように説明する。
[00100]概して、オブジェクトまたは特徴認識は、オブジェクト認識のために画像中の関心ポイント(キーポイントとも呼ばれる)を識別することおよび/またはそれらのキーポイントの周りの局所的特徴を識別することを伴い得る。画像データ中のそのような特徴的な要素を本明細書では「キーポイント」と呼ぶが、本明細書で使用するキーポイントという用語は、個々のピクセル、ピクセルのグループ、分数ピクセル部分、1つまたは複数の記述子、他の画像成分、あるいはそれらの任意の組合せを指し得ることを理解されたい。特徴の高い安定性および再現性を有することは、これらの認識アルゴリズムでは非常に重要である。したがって、キーポイントは、それらが画像スケール変化および/または回転に対して不変であり、ひずみ、視点の変化、および/または雑音および照度の変化の実質的な範囲にわたってロバスト(robust)な整合を与えるように、選択および/または処理され得る。さらに、オブジェクト認識などのタスクに好適であるように、特徴記述子は、好ましくは、単一の特徴が、複数のターゲット画像からの特徴の大規模データベースに対して高い確率で正しく整合され得るという意味において特徴的であり得る。
[00101]画像中のキーポイントが検出され、位置を特定された後、それらのキーポイントは、様々な記述子を使用することによって識別または記述され得る。たとえば、記述子は、画像特性の中でも、形状、色、テクスチャ、回転、および/または動きなど、画像中のコンテンツの視覚特徴を表し得る。キーポイントに対応し、記述子によって表される個々の特徴は、次いで、既知のオブジェクトからの特徴のデータベースに整合される。
[00102]画像のためのキーポイントを識別し、選択することの一部として、選択されたいくつかのポイントは、精度または信頼性の欠如により廃棄される必要があり得る。たとえば、いくつかの初期に検出されたキーポイントは、エッジ沿いの不十分なコントラストおよび/または不十分な定位を理由に拒否され得る。そのような拒否は、照度、雑音および配向の変動に対してキーポイント安定性を増加させる際に重要である。また、特徴整合の再現性を減少させ得る、誤ったキーポイント拒否を最小限に抑えることが重要である。
[00103]概して、画像中の照度は、空間的に変動する関数によって表され得ることを認識されたい。したがって、照度の影響(たとえば、シェーディング、明るい画像、暗い画像など)は、照度関数を排除する正規化プロセスによって特徴/キーポイント検出のために無効にされ得る。たとえば、画像は、画像の平滑化スケール空間(smoothened scale space)Lを発生するために平滑化ファクタの範囲をもつ関数G(すなわち、カーネルまたはフィルタ)を使用して、画像を漸進的(progressively)にぼかすことによって処理され得る。次いで、平滑化スケール空間レベルの隣接するペア間の差分(Li−Li-1)を取ることによって、画像のためのスケール空間差分Dが取得され得る。次いで、スケール空間レベルの特定の差分Diを取得するために使用されるスケール空間レベルLiのうち最も平滑なスケール空間レベルと同程度に平滑であるかそれよりも平滑である平滑化スケール空間レベルLkでスケール空間レベルの各差分Diを除算することによって、スケール空間Lの差分の正規化が達成される。
[00104]図7は、記録された画像上でオブジェクト認識を実行するための機能段階を示すブロック図である。画像キャプチャ段階702において、関心画像708(すなわち、記録画像)がキャプチャされ得る。画像708は、デジタルキャプチャ画像を取得するために、1つまたは複数の画像センサーおよび/またはアナログデジタル変換器を含み得る、画像キャプチャデバイスによってキャプチャされ得る。画像センサー(たとえば、電荷結合デバイス(CCD)、相補型金属半導体(CMOS))は光を電子に変換し得る。電子はアナログ信号を形成し得、次いで、そのアナログ信号は、アナログデジタル変換器によってデジタル値に変換される。このようにして、画像I(x,y)を、たとえば、対応する色、照度、および/または他の特性をもつ複数のピクセルとして定義し得るデジタルフォーマットで画像708はキャプチャされ得る。
[00105]画像処理段階704において、キャプチャされた画像708は、次いで、対応するスケール空間710(たとえば、ガウススケール空間)を発生し、特徴検出712を実行し、特徴記述子抽出716を実行することによって処理される。特徴検出712は、キャプチャされた画像708について高度に特徴的なキーポイントおよび/または幾何学的関心キーポイントを識別し得、それらのキーポイントは、その後、特徴記述子抽出716において複数の記述子を取得するために使用され得る。画像比較段階706において、これらの記述子は、既知の記述子のデータベースとの(たとえば、キーポイントおよび/またはキーポイントの他の特性あるいはキーポイントを囲むパッチを比較することによる)特徴整合722を実行するために使用される。次いで、特徴整合が正しいことを確認するために、キーポイント整合に対する幾何学的検証または一致性検査724が実行されて、整合結果726が与えられる。このようにして、記録画像が、ターゲット画像のデータベースと比較されおよび/またはそれから識別され得る。
[00106]画像中の照度の変化は、画像のための特徴/キーポイント認識の安定性および/または再現性に有害な影響を及ぼし得ることが観測されている。すなわち、画像中の局所および/または大域(global)照度変化は、画像のための特徴/キーポイントの検出に影響を及ぼすことがある。たとえば、特徴/キーポイントの数および/またはロケーションが、画像中の照度(たとえば、シェーディング、コントラストなど)に応じて変化し得る。したがって、画像中の特徴/キーポイント検出より前に、局所および/または大域照度変化の影響を実質的になくすかまたは最小限に抑えることが有益であろう。
[00107]これを行うための1つの方法は、特徴/キーポイント検出を開始するより前に、局所および/または大域照度変化を除去または補償するように画像自体を処理することであり得る。しかしながら、そのようなプロセスは計算集約的であり得る。さらに、画像中に局所および/または大域照度変化が存在するかどうかを判断することがしばしば困難である。そのようなプロセスは、データベース中の画像にも適用されなければならないであろう。照度変化を補正するためにターゲット画像とデータベース画像の両方を最初に処理することなしには、特徴/キーポイント整合は成功しないことがある。しかし、照度が特定の画像にどのように影響を及ぼし得るかの事前知識なしには、このプロセスは自動的に実装することがかなり困難である。
[00108]したがって、実質的な処理オーバーヘッドなしに実行され得る代替形態が必要とされる。一例によれば、特徴検出の目的での画像上の(一様あるいは非一様な)照度の影響は、スケール空間差分に特徴/キーポイント検出が実行されるより前にスケール空間差分を正規化することによって、なくされるかまたは低減され得る。この正規化プロセスは、すでに利用可能である平滑化スケール空間を使用して実行され、したがって、追加の計算が最小限に抑えられ得る。
[00109]一例によれば、スケール空間正規化器714は、照度変化が画像中のキーポイント/特徴認識に及ぼす影響を低減するかまたはなくすために、スケール空間発生710の一部として実装され得る。
[00110]図8に、例示的な画像処理段階704におけるガウススケール空間発生を示す。画像中の特徴検出を実行するために、スケール不変特徴変換(SIFT)など、いくつかのアルゴリズムが開発されている。画像中の特定のオブジェクトの検出への第1のステップは、それの局所特徴に基づいて記録されたオブジェクトを分類することである。その目的は、たとえば、照度、画像雑音、回転、スケーリング、および/または視点の小さい変化に対して不変および/またはロバストである特徴を識別し、選択することである。すなわち、クエリ画像と比較ターゲット画像との間に照度、画像雑音、回転、スケール、および/または視点の差があるにもかかわらず、これらの2つの画像間の整合が発見されなければならない。これを行うための1つの方法は、高度に特徴的な特徴(たとえば、画像中の特徴的なポイント、ピクセル、および/または領域)を識別するために画像のパッチ上の極値検出(たとえば、極大値または極小値)を実行することである。
[00111]SIFTは、照度、画像雑音、回転、スケーリングの変化、および/または視点の小さい変化に対して適度に不変である局所特徴を検出し、抽出するための1つの手法である。SIFTの画像処理段階704は、(a)スケール空間極値検出、(b)キーポイント定位、(c)配向割当て、および/または(d)キーポイント記述子の発生を含み得る。特に、高速ロバスト特徴(SURF:Speed Up Robust Features)、勾配位置および配向ヒストグラム(GLOH:Gradient Location and Orientation Histogram)、局所エネルギーベース形状ヒストグラム(LESH:Local Energy based Shape Histogram)、勾配の圧縮ヒストグラム(CHoG:Compressed Histogram of Gradients)を含む、特徴検出と、後続の特徴記述子発生とのための代替アルゴリズムは、本明細書で説明する特徴からも恩恵を受け得ることが明らかなはずである。
[00112]ガウススケール空間発生710において、デジタル画像I(x,y)708は漸進的にガウスぼかし(すなわち、平滑化)されて、ガウスピラミッド752が構成される。ガウスぼかし(平滑化)は、概して、元の画像I(x,y)をスケールcsにおけるガウスぼかし/平滑化関数G(x,y,cs)で畳み込み、したがって、ガウスぼかし/平滑化関数L(x,y,cs)がL(x,y,cs)=G(x,y,cs)*I(x,y)として定義されることを伴う。ここで、Gはガウスカーネルであり、csは、画像I(x,y)をぼかすために使用されるガウス関数の標準偏差を示す。乗数cが変化するにつれて(c0<c1<c2<c3<c4)、標準偏差csは変化し、漸進的なぼかし/平滑化が得られる。シグマsは、ベーススケール変数(たとえば、ガウスカーネルの幅)である。高いスケール(すなわち、低い解像度)ほど、より低いスケール(すなわち、より高い解像度)よりもぼかされる/平滑化される。したがって、広いスケールレベル(すなわち、低い解像度)ほど、画像はより平滑になる(よりぼかされる)。
[00113]ぼけた画像Lを生成するために初期画像I(x,y)がガウシアンGで増分的に畳み込まれるとき、ぼけた画像Lは、スケール空間において定数ファクタcだけ分離される。ガウスぼかしされた(平滑化された)画像Lの数が増加し、ガウスピラミッド752のために与えられる近似が連続空間に近づくにつれて、これらの2つのスケールも1つのスケールに近づく。一例では、畳み込まれた画像Lはオクターブによってグループ化され得、1オクターブは、標準偏差sの値の倍化に対応し得る。その上、乗数c(たとえば、c0<c1<c2<c3<c4...)の値は、固定数の畳み込まれた画像Lがオクターブごとに取得されるように選択される。スケーリングの各オクターブは、明示的な画像サイズ変更に対応する。したがって、元の画像I(x,y)が漸進的ぼかし/平滑化関数によってぼかされる/平滑化されるにつれて、ピクセルの数は漸進的に低減される。本明細書では説明のためにガウス平滑化関数を使用したが、他のタイプの平滑化カーネル/関数が採用され得ることに留意されたい。
[00114]ガウスピラミッド752中の任意の2つの連続するガウスぼかし画像の差分を計算することによって、ガウス差分(DoG:difference of Gaussian)ピラミッド754が構成される。DoG空間754において、D(x,y,a)=L(x,y,cns)−L(x,y,cn-1s)である。DoG画像D(x,y,s)は、スケールcnsおよびcn-1sにおける2つの隣接するガウスぼかし画像L間の差分である。D(x,y,s)のスケールは、cnsとcn-1sとの間のどこかにある。DoG画像Dが、オクターブごとに隣接するガウスぼかし画像Lから取得され得る。各オクターブ後に、ガウス画像が2分の1にダウンサンプリングされ、次いでこのプロセスが繰り返される。このようにして、画像は、並進、回転、スケール、および/または他の画像パラメータおよび/またはひずみに対してロバストまたは不変である局所特徴に変換され得る。
[00115]記録画像のDoG空間754は、発生されると、関心特徴を識別する(たとえば、画像中の高度に特徴的なポイントを識別する)ための極値検出のために利用され得る。これらの高度に特徴的なポイントは、本明細書ではキーポイントと呼ばれる。これらのキーポイントは、各キーポイントを囲むパッチまたは局所領域の特性によって識別され得る。記述子が、キーポイントおよびそれの対応するパッチごとに生成され得、それは、クエリ画像と記憶されたターゲット画像との間のキーポイントの比較のために使用され得る。「特徴」は、記述子(すなわち、キーポイントおよびそれの対応するパッチ)を指し得る。特徴(すなわち、キーポイントおよび対応するパッチ)のグループはクラスタと呼ばれることがある。
[00116]図9に、例示的な画像処理段階704における特徴検出を示す。特徴検出712において、DoG空間754を使用して画像I(x,y)のキーポイントを識別し得る。特徴検出712は、画像中の特定のサンプルポイントかピクセルの周りの局所領域またはパッチが、(幾何学的に言って)潜在的に関心のあるパッチであるかどうかを判断しようとする。
[00117]概して、DoG空間754中に極大値および/または極小値が識別され、これらの極大値および極小値のロケーションがDoG空間754中のキーポイントロケーションとして使用される。図9に示す例では、キーポイント760はパッチ758で識別されている。極大値および極小値を発見すること(局所的極値検出としても知られる)は、DoG空間754中の各ピクセル(たとえば、キーポイント760に対するピクセル)を、それの8つの隣接するピクセルと、同じスケールで比較し、ならびに(隣接するパッチ756および762中の)9つの隣接するピクセルと、キーポイント808の両側に隣接するスケールの各々で比較し、合計26個のピクセル(9×2+8=26)に対して比較することによって達成され得る。ここで、パッチは3×3ピクセル領域として定義される。概して、キーポイント758に対するピクセル値が、パッチ758、756、および760中のすべての26個の比較されたピクセルの間で最大値または最小値である場合、それがキーポイントとして選択される。キーポイントは、それらのロケーションがより正確に識別されるようにさらに処理され得、低コントラストキーポイントおよびエッジキーポイントなど、キーポイントのうちのいくつかが廃棄され得る。
[00118]図10に、例示的な画像処理段階704における特徴記述子抽出を示す。概して、特徴(たとえば、キーポイントおよびそれの対応するパッチ)は記述子によって表され得、記述子は、(クエリ画像からの)特徴と、ターゲット画像のデータベースに記憶された特徴との効率的な比較を可能にする。特徴記述子抽出716の一例では、各キーポイントは、局所画像勾配の方向に基づいて、1つまたは複数の配向、または方向を割り当てられ得る。局所画像特性に基づいて各キーポイントに一貫した配向を割り当てることによって、キーポイント記述子は、この配向に対して表され、したがって、画像回転に対する不変性を達成することができる。ガウスぼかし画像L中でおよび/またはキーポイントスケールにおいて、キーポイント760の周りの隣接する領域中のピクセルごとに大きさおよび方向の計算が実行され得る。(x,y)に位置するキーポイント760に対する勾配の大きさはm(x,y)として表され得、(x,y)におけるキーポイントに対する勾配の配向または方向はΓ(x,y)として表され得る。キーポイントのスケールを使用して、すべての計算がスケール不変方式で実行されるように、キーポイント760のスケールに最も近いスケールで、ガウス平滑化された画像Lを選択する。各画像サンプルL(x、y)について、このスケールで、勾配の大きさm(x,y)と配向Γ(x,y)とが、ピクセル差分を使用して計算される。たとえば、大きさm(x,y)は次のように計算され得る。
方向または配向Γ(x,y)は次のように計算され得る。
ここで、L(x,y)は、キーポイントのスケールでもあるスケールsにおける、ガウスぼかし画像L(x,y,s)のサンプルである。
[00119]キーポイント760に対する勾配は、DoG空間中のキーポイントの平面より上に、より高いスケールで存在するガウスピラミッド中の平面に対して、またはキーポイントより下に、より低いスケールで存在するガウスピラミッドの平面中のいずれかで、一貫して計算され得る。どちらにしても、各キーポイントについて、勾配は、キーポイントを囲む矩形エリア(たとえば、パッチ)中ですべて1つの同じスケールで計算される。その上、画像信号の周波数は、ガウスぼかし画像のスケールに反映される。しかし、SIFTは、単にパッチ(たとえば、矩形エリア)中のすべてのピクセルにおいて勾配値を使用する。パッチがキーポイントの周りで定義され、サブブロックがブロック内で定義され、サンプルがサブブロック内で定義され、この構成は、キーポイントのスケールが異なるときでさえ、すべてのキーポイントに対して同じままである。したがって、画像信号の周波数は、同じオクターブ中のガウス平滑化フィルタの連続適用とともに変化する一方で、異なるスケールにおいて識別されたキーポイントは、スケールで表される画像信号の周波数の変化にかかわらず、同じサンプル数でサンプリングされ得る。
[00120]キーポイント配向を特徴づけるために、(SIFTでは)キーポイント760の近傍において(キーポイントのスケールに最も近接したスケールにおけるガウス画像を使用して)勾配配向のベクトルが生成され得る。しかしながら、キーポイント配向は、たとえば、勾配の圧縮ヒストグラム(CHoG)を使用することによって、勾配配向ヒストグラム(図10参照)によっても表され得る。隣接する各ピクセルの寄与は、勾配の大きさとガウス窓とによって重み付けされ得る。ヒストグラムのピークは支配的な配向に対応する。キーポイントのすべての特性はキーポイント配向に対して測定され得、これにより、回転に対する不変性が与えられる。
[00121]一例では、各ブロックについてガウス重み付け勾配の分布が計算され得、各ブロックは、2サブブロック×2サブブロックで合計4サブブロックである。ガウス重み付け勾配の分布を計算するために、いくつかのビンをもつ配向ヒストグラムが形成され、各ビンはキーポイントの周りのエリアの部分をカバーする。たとえば、配向ヒストグラムは36個のビンを有し得、各ビンは配向の360度範囲のうちの10度をカバーする。代替的に、ヒストグラムは8つのビンを有し得、各ビンは360度範囲のうちの45度をカバーする。本明細書で説明するヒストグラムコーディング技法は、任意の数のビンのヒストグラムに適用可能であることが明らかなはずである。ヒストグラムを最終的に生成する他の技法も使用され得ることに留意されたい。
[00122]勾配分布および配向ヒストグラムは様々な方法で取得され得る。たとえば、2次元勾配分布(dx,dy)(たとえば、ブロック806)が1次元分布(たとえば、ヒストグラム814)に変換される。キーポイント760は、キーポイント760を囲むパッチ806(セルまたは領域とも呼ばれる)の中心に位置する。各レベルのピラミッドについて事前計算された勾配が、各サンプルロケーション808において小さい矢として示されている。図示のように、サンプル808の4×4領域はサブブロック810を形成し、サブブロックの2×2領域はブロック806を形成する。ブロック806は記述子窓と呼ばれることもある。ガウス重み付け関数は、円802で示され、各サンプルポイント808の大きさに重みを割り当てるために使用される。円形窓802中の重みは平滑に低下する。ガウス窓802の目的は、窓の位置の小さな変化によって記述子が突然変化することを回避し、記述子の中心から遠い勾配にあまり重点を与えないことである。2×2サブブロックから配向ヒストグラム812の2×2=4アレイが取得され、ヒストグラムの各ビン中に8つの配向があり、それにより(2×2)×8=32次元の特徴記述子ベクトルが得られる。たとえば、配向ヒストグラム813および815は、サブブロック810に対する勾配分布に対応し得る。しかしながら、各ヒストグラム中に8つの配向をもつヒストグラム(8ビンヒストグラム)の4×4アレイを使用して、それにより各キーポイントについて(4×4)×8=128次元の特徴記述子ベクトルが得られると、より良好な結果が与えられ得る。勾配分布を取得するために、他のタイプの(たとえば、異なるボロノイセル構造を用いた)量子化ビンコンスタレーションも使用され得ることに留意されたい。
[00123]本明細書で使用するヒストグラムは、ビンとして知られている様々な独立したカテゴリーに分類される観測、サンプル、または出現(たとえば、勾配)の数を計数するマッピングkiである。ヒストグラムのグラフは、ヒストグラムを表すための1つの方法にすぎない。したがって、kが観測、サンプル、または出現の総数であり、mがビンの総数である場合、ヒストグラムkiにおける周波数は下記の条件を満たす。
ただし、Σは総和演算子である。
[00124]キーポイントに対する特徴記述子ベクトルを取得するために、サブブロックからのヒストグラムは連結され得る。16個のサブブロックからの8ビンヒストグラム中の勾配が使用される場合、128次元の特徴記述子ベクトルが得られ得る。
[00125]このようにして、記述子は、識別されたキーポイントごとに取得され得、そのような記述子は、ロケーション(x,y)と、配向と、ガウス重み付け勾配の分布の記述子とによって特徴づけられ得る。画像は、1つまたは複数のキーポイント記述子(画像記述子とも呼ばれる)によって特徴づけられ得ることに留意されたい。さらに、記述子はまた、ロケーション情報(たとえば、キーポイントの座標)、スケール(たとえば、キーポイントが検出されたガウススケール)、およびクラスタ識別子などの他の情報などを含み得る。
[00126]ガウス差分空間754中で演算することによって、画像のルミナンスのいかなるレベルシフト(ルミナンスへの空間的に一様な加法的バイアス)も完全に無視される。しかし、ルミナンスのスケールシフトは、キーポイントが判定され、最終的に選択または拒否される方法に影響を及ぼす。これは、一様な乗法的ルミナンスファクタ、ならびに空間的に変動する乗法的ルミナンスファクタの両方に当てはまる。キーポイント検出とまさに同程度に重要であるのが、画像内のそれの定位である。オブジェクトは、それの特徴の幾何学的コンテンツと、それらの空間的相互関係とによってカテゴリー分類される。したがって、キーポイントが検出された場合でも、それの定位はルミナンススケール変化に関して不変の方法で計算されるべきであるように、キーポイントの計算されたロケーションは重要な要素である。
[00127]したがって、キーポイントを識別し、記述子を生成するより前に、キーポイントが検出されたスケール空間から照度の影響を低減、除去、および/またはフィルタ処理するために、1つの特徴がガウス差分空間754を正規化することを行う。
スケール空間正規化の例示的な差分
[00128]図11に、照度不変特徴(illumination invariant feature)/キーポイント検出のためのスケール空間正規化の一例を示す。画像I(x,y)822は、平滑化されたスケール空間ピラミッド826を発生するために、異なるスケールciσにおいて平滑化カーネルG(x,y,ciσ)824で畳み込まれ得、ただし、iは0とnとの間の整数である。平滑化カーネルはガウスカーネルおよび/または他のタイプの平滑化関数であり得ることに留意されたい。スケール空間差分828を取得するために、平滑化されたスケール空間ピラミッド826の2つの隣接するスケール空間の間の差分が取られ得る。
[00129]最初に、スケール空間差分828の各レベルは、画像I(x,y)822で畳み込まれた異なるスケールにおける平滑化カーネル824の差分(たとえば、G(x,y,cj+1σ)−G(x,y,cjσ))として定義され得ることがわかる。これは、2つの対応する平滑化スケール空間差分(たとえば、L(x,y,cj+1σ)−L(x,y,cjσ))に等しい。したがって、2つの平滑化スケール空間差分は次のように表され得る。
[00130]また、照度がスケーリング関数S(x,y)として表される場合、2つの平滑化スケール空間差分に対する照度変化は次のように表され得ることがわかる。
ここで、一般的な場合、照度スケーリング関数S(x,y)は、空間的に変動するか、または空間的に一定であり得る。
[00131]しかしながら、照度スケーリング関数S(x,y)を取得するために照度をランタイムでモデル化することは実際的および/または実現可能でない。したがって、本明細書では、特徴選択および/またはプルーニングが一般に実行される特徴空間(たとえば、DoG空間828)からの照度によってバイアスされない、基礎をなす特徴(たとえば、キーポイント)を引き出す代替手法が開示される。この代替手法によれば、画像I(x,y)822のルミナンス分布は、画像I(x,y)822から抽出されたスケール空間情報を利用することによって正規化される。照度に関する事前情報は必要とされない。この方法は、何らかの大きい計算および処理を導入することなしに、異なる照度変化にわたって一貫したレベルで安定した特徴を選定することと再現性を高めることとを可能にする。
[00132]これを行うために、特徴検出が行われるスケール空間差分828は、より広いスケール空間によって正規化され得る。この手法は次式によって定義され得る。
ただし、
第1のガウス平滑化カーネルG(x,y,cj+1σ)は第2のガウス平滑化カーネルG(x,y,cjσ)よりも広く(すなわち、スケールcj+1sはスケールcjsよりも広く、ただし、jは0とnとの間の正の整数であり)、
I(x,y)は、処理されている画像またはそれの派生物(たとえば、画像の反射特性)であり、
S(x,y)は照度スケーリング関数であり、
G(x,y,cj+1+hσ)は、第2の平滑化カーネルG(x,y,cj+1σ)と同程度に広いかまたはそれよりも広いスケール空間を有する第3の平滑化カーネルであり、ただし、hは0とnとの間の正の整数である。スケール空間差分828のあらゆるレベル上でこのプロセスを繰り返すことによって、正規化されたスケール空間830の差分が発生され得る。たとえば、G(x,y,cj+1σ)とG(x,y,cjσ)とによって定義される差分スケール空間では、正規化関数はG(x,y,cj+1σ)またはそれより高い任意のもの(すなわち、G(x,y,cj+2σ)、G(x,y,cj+3σ)、...)であり得る。正規化関数は、差分スケール空間中で使用される両方の平滑化カーネルよりも大きい必要はなく、それは平滑器である必要のみがある。別の例では、正規化関数は、使用される第1の平滑化カーネルと第2の平滑化カーネルとの和(すなわち、G(x,y,cj+1σ)+G(x,y,cjσ))であり得、したがって、
[00133]式6は次のようにも表され得ることに留意されたい。
照度スケーリング関数S(x,y)は(式6、式7および式8の)分子と分母の両方に現れるので、それのスケーリングの影響は相殺される。すなわち、照度スケーリング関数S(x,y)は正規化のために使用される平滑化画像L(x,y,cj+1+hσ)*S(x,y)中に存在するので、それは、スケール空間差分[L(x,y,cj+1σ)−L(x,y,cjσ)]*S(x,y)における照度スケーリング関数S(x,y)の影響を完全にまたは実質的に相殺する。前述のように、L(x,y,cj+1+hσ)は、L(x,y,cj+1σ)またはより高いスケール画像(すなわち、L(x,y,cj+2σ)、L(x,y,cj+3σ)、...)に等しくなり得る。このようにして、分母中の画像コンテンツは、それがごくわずかな空間アーティファクトしか導入しない程度まで平滑化される。
[00134]スケール空間差分を正規化する際に、正規化する平滑化画像L(x,y,cj+1+hσ)は、(キーポイント/特徴を識別する)局所的極値位置をシフトしないように、特徴空間(すなわち、スケール空間差分)をあまりに多く変化させないように選択されなければならない。すなわち、スケール不変特徴を達成するためにはスケール空間差分が最良であることが知られているので、スケール空間差分の密接な近似が正規化後に保持されなければならない。この目的で、平滑化画像L(x,y,cj+1+hσ)は、高周波数成分が平均されるようにそれのスケールレベルが十分に平滑であるように選択される。すなわち、平滑化画像L(x,y,cj+1+hσ)が十分に平坦である場合、スケール空間Lの差分(x,y,cj+1σ)−L(x,y,cjσ)の形状はほとんど変化しない(すなわち、特徴/キーポイントの位置は変化しない)。一実施形態では、正規化されている差分スケールレベルを取得するために使用されるスケールレベルに近接した(それと同じであるかまたはそれの次に最も高い)スケールレベルにおける正規化関数を選択することは、多すぎる雑音を導入することを回避するので、好適であり得ることに留意されたい。たとえば、G(x,y,cj+1σ)とG(x,y,cjσ)とによって定義される差分スケール空間のためにG(x,y,cj+1σ)のような平滑スケールを選ぶことによって、スケール空間中のその特定のレベルについて典型的な局所不規則性が維持され得る。
[00135]前記のように、画像中で検出される特徴の数は、画像の乗法的ルミナンススケール変化によって大幅に影響を受け得る(たとえば、低減され得る)。ルミナンスによって生じるスケーリングは、幾何学的変換がなくても最終の特徴空間中のコンテンツを大幅に低減する、画像上のマスクのように働く傾向がある。したがって、式6および式7の適用によって達成される正規化により、照度変化にかかわらず幾何学的有意性が「等しい」特徴が検出され、それによって再現性が増加することが保証される。
[00136]図12に、正規化されたスケール空間差分の1つのレベルがどのように取得され得るかの一例を示す。ここで、画像I(x,y)852は、第1の平滑化スケール空間画像L(x,y,cjσ)858を取得するために、第1の平滑化カーネルG(x,y,cjσ)854で畳み込まれ得る。画像I(x,y)852はまた、第2の平滑化スケール空間画像L(x,y,cj+1σ)860を取得するために、第2の平滑化カーネルG(x,y,cj+1σ)856で畳み込まれ得る。第2の平滑化画像860と第1の平滑化画像858との間の差分が取られて、スケール空間レベルの差分Dj(x,y,σ)862が取得され得る。このスケール空間レベルの差分Dj(x,y,σ)862は、より高いスケール平滑化カーネルG(x,y,cj+1+hσ)866または平滑化スケール空間画像L(x,y,cj+1+hσ)868に基づいて(すなわち、式6および/または式7に従って)正規化されて、正規化スケール空間レベルD’j(x,y,σ)864が取得され得る。このプロセスは、(スケーリングファクタcjσによって設定される)異なる幅の異なる平滑化カーネルを画像I(x,y)に適用することによって繰り返され、それにより平滑化されたスケール空間ピラミッドが構築され得る。スケール空間差分(たとえば、図11中の828)は、平滑化されたスケール空間ピラミッド(たとえば、図11中の826)の隣接するレベル間の差分を取ることによって構築され得る。正規化されたスケール空間差分(たとえば、図11中の830)は、式6および/または式7に従って発生され得る。
[00137]図13に、照度の変化に対して耐性がある改善された特徴検出のために正規化されたスケール空間差分を発生するための方法を示す。902において、i=0〜nについて、平滑化されたスケール空間ピラミッドを構成する複数の平滑化画像L(x,y,ciσ)を取得するために、(i=0〜nについて、異なるciσによって設定される)異なるスケーリング幅の平滑化カーネルG(x,y,ciσ)で画像I(x,y)を畳み込む。画像I(x,y)は、照度関数S(x,y)によって完全にまたはピクセルごとに変更されているベース画像I0(x,y)によって特徴づけられ得る。一例では、平滑化カーネルG(x,y,ciσ)は、平滑化されたスケール空間ピラミッドがガウススケール空間ピラミッドであるように、ガウスカーネルであり得る。
[00138]次に、904において、j=0〜n−1について、平滑化されたスケール空間ピラミッドにわたって平滑化画像の隣接するペアの差分L(x,y,cj+1σ)−L(x,y,cjσ)を取ることによって、スケール空間差分Dj(x,y,σ)を発生する。このプロセスは、複数のレベルを有するスケール空間差分を取得するために、隣接する平滑化画像の複数のセットについて繰り返される。第2の平滑化画像L(x,y,cj+1σ)を取得するために使用される第2の平滑化カーネルG(x,y,cj+1σ)は、第1の平滑化画像L(x,y,cj+1σ)を取得するために使用される第1の平滑化カーネルG(x,y,cjσ)よりも広くなり得ることに留意されたい。
[00139]次いで906において、j=0〜n−1について、スケール空間の各差分Dj(x,y,σ)レベルを対応する平滑化画像L(x,y,cj+1+hσ)で除算することによって正規化されたスケール空間差分D’j(x,y,σ)を発生し、各平滑化画像L(x,y,cj+1+hσ)は、画像L(x,y,cj+1σ)およびL(x,y,cjσ)の2つの異なる平滑化バージョンのうちの平滑なほうと同程度に平滑であるかまたはそれよりも平滑である。すなわち、正規化する平滑化画像L(x,y,cj+1+hσ)は、画像L(x,y,cj+1σ)およびL(x、y、cjσ)の2つの異なる平滑化バージョンのためのスケール(たとえば、平滑化カーネル)のうちの大きいほうに等しいかまたはそれよりも広いスケール(たとえば、平滑化カーネル)を有し得る。
[00140]次いで908において、j=0〜n−1について、正規化されたスケール空間差分D’j(x,y,σ)を使用して画像I(x,y)の特徴を識別する。たとえば、特徴がその周りで定義され得るキーポイントとして局所的極値(すなわち、極小値または極大値)が識別され得る。次いで910において、識別された特徴に基づいて画像I(x,y)のための記述子を発生する。
[00141]図11、図12、および図13に示す方法は、画像の照度に関する事前情報を必要としない。この方法は、何らかの大きい(有意な)計算および処理を導入することなしに、異なる照度変化にわたって一貫したレベルで画像中の安定した特徴を選定することと再現性を高めることとを可能にする。すなわち、平滑化スケール空間は、スケール空間差分Dj(x,y,σ)を正規化するために使用される平滑化画像L(x,y,cj+1+hσ)をすでに含むので、正規化のために除算演算の他に追加の処理は必要とされない。
[00142]さらに、特徴が選択される信頼性を適応させることによって、特徴が検出されるスケール(たとえば、平滑化レベル)に従ってより安定した特徴が取得され得る。すなわち、より高いスケールは、概して、より平滑な(すなわち、よりぼかされた)バージョンの画像を含み、そのようなスケールにおいて検出されたキーポイント/特徴は、より高い程度の信頼性を有する。
[00143]図14は、照度不変特徴検出デバイスの一例を示すブロック図である。特徴検出デバイス1200は、デジタルクエリ画像1202を受信または取得し得る。次いで、スケール空間発生器1204(たとえば、ガウススケール空間発生器)が、クエリ画像1202を異なるスケール幅の複数の異なる平滑化カーネル1203で畳み込んで、スケール空間を発生し得る。スケール空間は、異なるスケーリング幅に平滑化された画像の複数の平滑化バージョンを備え得る。次いで、スケール空間差分発生器1206が、スケール空間からスケール空間差分を発生する。次いで、スケール空間差分正規化器1208が、たとえば、スケール空間レベルの各差分を対応する平滑化画像で除算することによって、スケール空間差分を正規化し、そのような平滑化画像は、除算されるスケール空間差分を発生するために使用される平滑化画像のうちの大きいほうと同程度に広いかまたはそれよりも広いスケールを有する。次いで、キーポイント発生器1210が、正規化されたスケール空間差分中のキーポイントを識別または検出する。これは、たとえば、正規化されたスケール空間差分のピクセルの間で局所的極値(すなわち、極大値または極小値)を見つけることによって行われ得る。特徴発生器1212が、次いで、たとえば、識別されたキーポイントの周りの局所ピクセルを特徴づけることによって、特徴を発生し得る。キーポイント発生器1210と特徴発生器1212との機能は特徴検出器によって実行され得ることに留意されたい。次いで、特徴記述子発生器1214が、各特徴について記述子を発生して、クエリ画像を識別するように働くことができる複数の画像記述子1216を与える。図14に示す機能は、別個の回路によってあるいは1つまたは複数のプロセッサによって実行され得る。
[00144]図15は、特徴検出のために正規化されたスケール空間差分を使用する画像整合デバイスの一例を示すブロック図である。画像整合デバイス1300は、通信インターフェース1304、画像キャプチャデバイス1306、および/または記憶デバイス1308に結合された、処理回路1302を含み得る。通信インターフェース1304は、ワイヤード/ワイヤレスネットワーク上で通信し、画像および/または1つまたは複数の画像のための特徴記述子を受信するように適合され得る。画像キャプチャデバイス1306は、たとえば、クエリ画像をキャプチャすることができるデジタルカメラであり得る。処理回路1302は、画像から特徴を抽出する画像処理回路1314と、クエリ画像をターゲット画像のデータベース1310におよび/またはクエリ画像記述子を記述子データベース1312に整合させるために、抽出された特徴を使用する画像整合回路1316とを含み得る。例示的な一実装形態によれば、画像整合アプリケーションが、クエリ画像を画像データベース中の1つまたは複数の画像に整合させることを試みる。画像データベースは、データベース1310に記憶された1つまたは複数の画像に関連する何百万もの特徴記述子を含み得る。
[00145]画像処理回路1314は、ガウススケール空間発生器1322、スケール空間差分発生器1324、スケール空間差分正規化器1326、キーポイント検出器1328、特徴発生器1330、および/または特徴記述子発生器1332を含む、特徴識別回路1320を含み得る。ガウススケール空間発生器1322は、たとえば、図8および図11に示すように、複数の異なるスケール空間を発生するために画像をぼかし関数(たとえば、平滑化カーネル)で畳み込むように働き得る。次いで、スケール空間差分発生器1324がスケール空間からスケール空間差分を発生する。次いで、スケール空間差分正規化器1326が、たとえば、スケール空間レベルの各差分を対応する平滑化画像で除算することによって、スケール空間差分を正規化し、そのような平滑化画像は、(図12に示した)除算されるスケール空間差分を発生するために使用される平滑化画像のいずれよりも広い。次いで、キーポイント発生器1328が、正規化されたスケール空間差分中のキーポイントを識別または検出する。これは、たとえば、正規化されたスケール空間差分のピクセルの間で局所的極値(すなわち、極大値または極小値)を見つけることによって行われ得る。特徴発生器1330が、次いで、たとえば、(図9に示した)識別されたキーポイントの周りの局所ピクセルを特徴づけることによって、特徴を発生し得る。次いで、特徴記述子発生器1332が、各特徴について記述子を発生して、(図10に示した)クエリ画像を識別するように働くことができる複数の画像記述子を与える。
[00146]次いで、画像整合回路1316が、特徴記述子に基づいてクエリ画像を画像データベース1310中の画像に整合させることを試み得る。整合結果は、(たとえば、画像または特徴記述子を送るモバイルデバイスに)通信インターフェースを介して与えられ得る。
[00147]いくつかの実装形態では、クエリ画像のためのキーポイントに関連する特徴記述子のセットは画像整合デバイスによって受信され得ることに留意されたい。この状況では、クエリ画像は、(記述子を取得するために)すでに処理されている。したがって、画像処理回路1314は、画像整合デバイス1300からバイパスされるかまたは除去され得る。
DOA検出器およびオーディオシーン分解
[00148]本明細書で開示するシステムおよび方法のいくつかの構成では、例示的なDOA検出器512の機能と、空間フィルタ72を使用してオーディオシーンを分解するプロセスとは、このセクションにおいて説明する技法を使用して達成され得る。
[00149]遠距離場オーディオ処理(たとえば、オーディオ音源強調)の適用は、1つまたは複数の音源が録音デバイスから比較的大きい距離(たとえば2メートル以上の距離)に位置するときに生じ得る。
[00150]遠距離場使用事例の第1の例では、いくつかの異なる音源を含む音響シーンの記録を分解して、個別の音源のうちの1つまたは複数からそれぞれの音響成分を取得する。たとえば、異なる音源(たとえば、異なる音声および/または楽器)からの音が分離されるように、生の音楽演奏を記録することが望ましいことがある。別のそのような例では、「ロックバンド」タイプのビデオゲームなどのビデオゲームの2人以上の異なるプレーヤからの音声入力(たとえば、命令および/または歌唱)を区別することが望ましいことがある。
[00151]遠距離場使用事例の第2の例では、マルチマイクロフォンデバイスを使用して、(「ズームインマイクロフォン(zoom-in microphone)」とも呼ばれる)ビューの音場を狭めることによって遠距離場オーディオ音源強調を実行する。カメラを通じてシーンを見ているユーザは、カメラのレンズのズーム機能を使用して、たとえば、個々の話者または他の音源に対するビューの視界を選択的にズームし得る。相補的音響「ズームイン」効果をもたらすために、視覚的ズーム動作と同期して、記録される音響領域も被選択音源に狭められるように、カメラを実装することが望ましいことがある。
[00152]特定の遠くの音源から到来する音響成分を区別することは、単にビームパターンを特定の方向に狭めることではない。ビームパターンの空間幅は、フィルタのサイズを増加させることによって(たとえば、初期係数値のより長いセットを使用してビームパターンを定義することによって)狭められ得るが、音源の単一の到来方向にのみ依存すると、実際にはフィルタが音源エネルギーの大部分を逃すことになり得る。残響などの影響により、たとえば、音源信号は通常、異なる周波数においてやや異なる方向から到来し、結果的に、遠くの音源の到来方向は一般にはっきりしない。したがって、信号のエネルギーは、特定の方向に集中するのではなく、角度範囲にわたって拡散することがあり、特定の音源の到来角を、単一の方向におけるピークとしてではなく周波数範囲にわたる重心として特徴づけることがより有用であり得る。
[00153]フィルタのビームパターンが、単一の方向(たとえば、任意の1つの周波数における最大エネルギーによって示される方向)だけでなく、異なる周波数における方向の集中の幅をカバーすることが望ましいことがある。たとえば、ビームが、様々な対応する周波数において、そのような集中の幅内で、わずかに異なる方法に向くことを可能にすることが望ましいことがある。
[00154]適応ビームフォーミングアルゴリズムを使用して、1つの周波数における特定の方向での最大応答と、別の周波数における異なる方向での最大応答とを有するフィルタを取得し得る。適応ビームフォーマーは一般に、正確な音声アクティビティ検出に依存するが、これは遠距離場の話者にとって達成するのが難しい。そのようなアルゴリズムはまた、所望の音源からの信号と干渉音源からの信号とが類似のスペクトルを有するとき(たとえば、2つの音源の両方が人々の話声であるとき)パフォーマンスが芳しくないことがある。また、適応ビームフォーマーの代替として、ブラインド音源分離(BSS:blind source separation)ソリューションを使用して、1つの周波数における特定の方向での最大応答と、別の周波数における異なる方向での最大応答とを有するフィルタを取得し得る。しかしながら、そのようなアルゴリズムは、遅い収束、極小値への収束、および/またはスケーリングのあいまいさを示すことがある。
[00155]良好な初期条件を提供するデータ独立型、開ループ手法(たとえば、MVDRビームフォーマー)を、音声アクティビティ検出器を使用せずに出力間の相関を最小限に抑える閉ループ方法(たとえば、BSS)と組み合わせて、それによって改良されたロバストな分離ソリューションを提供することが望ましいことがある。BSS方法は経時的に適応を実行するので、残響環境においてもロバストなソリューションを生成することが期待され得る。
[00156]ヌルビームを使用してフィルタを初期化する既存のBSS初期化手法とは対照的に、本明細書で説明するソリューションは、音源ビームを使用してフィルタを初期化し、指定の音源方向に集中する。そのような初期化なしに、BSS方法がリアルタイムで有用なソリューションに適応するのを期待することは現実的でないことがある。
[00157]図16Aに、フィルタバンクBK10と、フィルタ配向モジュールOM10と、フィルタ更新モジュールUM10とを含み、マルチチャネル信号(この例では、入力チャネルMCS10−1およびMCS10−2)を受信するように構成された、装置A100のブロック図を示す。フィルタバンクBK10は、マルチチャネル信号に基づく第1の信号に複数の第1の係数を適用して、第1の出力信号OS10−1を生成するように構成される。フィルタバンクBK10はまた、マルチチャネル信号に基づく第2の信号に複数の第2の係数を適用して、第2の出力信号OS10−2を生成するように構成される。フィルタ配向モジュールOM10は、第1の音源方向DA10に基づく複数の第1の係数の値の初期セットCV10を生成し、第1の音源方向DA10とは異なる第2の音源方向DA20に基づく複数の第2の係数の値の初期セットCV20を生成するように構成される。フィルタ更新モジュールUM10は、第1および第2の出力信号からの情報に基づいて、複数の第1および第2の係数の値の初期セットを更新して、値の対応する更新されたセットUV10およびUV20を生成するように構成される。
[00158]音源方向DA10およびDA20の各々が、入力チャネルMCS10−1およびMCS10−2を生成するマイクロフォンアレイに対する(たとえば、アレイのマイクロフォンの軸に対する)対応する音源の推定方向を示すことが望ましいことがある。図16Bに、マイクロフォンアレイR100と、アレイから(たとえば、入力チャネルMCS10−1およびMCS10−2を含む)マルチチャネル信号MCS10を受信するように構成された装置A100のインスタンスとを含む、デバイスD10のブロック図を示す。アレイR100は、図1のアレイ18と、図1のシステム14中の装置A100との中に含まれ得る。
[00159]図16Cに、点音源jから受信された信号成分の、アレイR100のマイクロフォンMC10およびMC20の軸に対する到来方向θjを示す。アレイの軸は、マイクロフォンの音響的に敏感な面の中心を通る線として定義される。この例では、標示dは、マイクロフォンMC10とマイクロフォンMC20との間の距離を示す。
[00160]フィルタ配向モジュールOM10は、ビームフォーミングアルゴリズムを実行して、それぞれの音源方向DA10、DA20におけるビームを記述した係数値の初期セットCV10、CV20を発生するように実装され得る。ビームフォーミングアルゴリズムの例としては、DSB(遅延和ビームフォーマー(delay-and-sum beamformer))、LCMV(線形制約最小分散(linear constraint minimum variance))、およびMVDR(最小分散無ひずみ応答(minimum variance distortionless response))がある。一例では、フィルタ配向モジュールOM10は、次のようなデータ独立式に従って、各フィルタが他の音源方向においてゼロ応答(またはヌルビーム)を有するように、ビームフォーマーのN×M係数行列Wを計算するように実装される。
W(ω)=DH(ω,θ)[D(ω,θ)DH(ω,θ)+r(ω)×I]-1ただし、r(ω)は、非反転性(noninvertibility)を補償するための正則化項である。別の例では、フィルタ配向モジュールOM10は、次のような式に従って、MVDRビームフォーマーのN×M係数行列Wを計算するように実装される。
これらの例では、Nは出力チャネルの数を示し、Mは入力チャネルの数(たとえば、マイクロフォンの数)を示し、Φは雑音の正規化クロスパワースペクトル密度行列を示し、D(ω)は、(指向性行列とも呼ばれる)M×Nアレイマニホルド行列を示し、上付き文字Hは共役転置関数を示す。通常、MはN以上である。
[00161]係数行列Wの各行は、フィルタバンクBK10の対応するフィルタの係数の初期値を定義する。一例では、係数行列Wの第1の行は初期値CV10を定義し、係数行列Wの第2の行は初期値CV20を定義する。別の例では、係数行列Wの第1の行は初期値CV20を定義し、係数行列Wの第2の行は初期値CV10を定義する。
[00162]行列Dの各列jは、次の式として表され得る周波数ωにわたる遠距離場音源jの指向性ベクトル(または「ステアリングベクトル」)である。Dmj(ω)=exp(−i×cos(θj)×pos(m)×ω/c)この式において、iは虚数を示し、cは媒質中の音の伝播速度(たとえば、空中では340m/秒)を示し、θjは、図16Cに示される入射到来角としてマイクロフォンアレイの軸に対する音源jの方向(たとえば、j=1の方向DA10およびj=2の方向DA20)を示し、pos(m)は、M個のマイクロフォンのアレイにおけるm番目のマイクロフォンの空間座標を示す。均一なマイクロフォン間間隔dをもつマイクロフォンの線形アレイの場合、ファクタpos(m)は(m−1)dとして表され得る。
[00163]拡散雑音場の場合、行列Φは次のようなコヒーレンス関数Γを使用して置き換えられ得る。
ただし、dijはマイクロフォンiとマイクロフォンjとの間の距離を示す。さらなる一例では、行列Φは、(Γ+λ(ω)I)に置き換えられ、ただし、λ(ω)は、(たとえば安定性に関する)対角ローディングファクタである。
[00164]一般に、フィルタバンクBK10の出力チャネルの数Nは、入力チャネルの数M以下である。図16Aは、Nの値が2である(すなわち、2つの出力チャネルOS10−1およびOS10−2をもつ)装置A100の実装形態を示しているが、NおよびMは2よりも大きい値(たとえば、3、4、またはそれ以上)を有し得ることを理解されたい。そのような一般的な場合、フィルタバンクBK10は、N個のフィルタを含むように実装され、フィルタ配向モジュールOM10は、これらのフィルタのために初期係数値のN個の対応するセットを生成するように実装され、これらの原理のそのような拡張は、明確に企図され、本明細書によって開示される。
[00165]たとえば、図17に、NとMの両方の値が4である装置A100の実装形態A110のブロック図を示す。装置A110は、4つのフィルタを含むフィルタバンクBK10の実装形態BK12を含み、各フィルタは、入力チャネルMCS10−1、MCS10−2、MCS10−3、およびMCS10−4の各々をフィルタ処理して、出力信号(またはチャネル)OS10−1、OS10−2、OS10−3、およびOS10−4のうちの対応する1つを生成するように構成される。装置A100はまた、フィルタバンクBK12のフィルタのために係数値の初期セットCV10、CV20、CV30、およびCV40を生成するように構成された、フィルタ配向モジュールOM10の実装形態OM12と、係数値の初期セットを適応させて、値の対応する更新されたセットUV10、UV20、UV30、およびUV40を生成するように構成された、フィルタ適応モジュールAM10の実装形態AM12とを含む。
[00166](「ビームパターン」とも呼ばれる)周波数ビン対入射角に関するフィルタバンクBK10のフィルタの初期応答は、MVDRビームフォーミングアルゴリズム(たとえば、上の式(1))に従ってフィルタ配向モジュールOM10によって発生されたフィルタの係数値によって判断される。この応答は、入射角0(たとえば、マイクロフォンアレイの軸の方向)を中心として対称的であり得る。初期条件の異なるセット(たとえば、所望の音源からの音と、干渉音源からの音との推定到来方向の異なるセット)の下でのこのビームパターンの変形が有され得る。
[00167]特定の適用例に適していると考えられる指向性とサイドローブ発生との間の折衷に従って選択されたビームフォーマー設計に従って係数値CV10およびCV20を生成するようにフィルタ配向モジュールOM10を実装することが望ましいことがある。上記の例は、周波数領域ビームフォーマー設計について説明しているが、時間領域ビームフォーマー設計に従って係数値のセットを生成するように構成されたフィルタ配向モジュールOM10の代替実装形態も、明確に企図され、本明細書によって開示される。
[00168]フィルタ配向モジュールOM10は、(たとえば、上記で説明したようにビームフォーミングアルゴリズムを実行することによって)係数値CV10およびCV20を発生させるように、またはストレージから係数値CV10およびCV20を取り出すように実装され得る。たとえば、フィルタ配向モジュールOM10は、音源方向(たとえば、DA10およびDA20)に従って値(たとえば、ビーム)の事前計算されたセットの中から選択することによって、係数値の初期セットを生成するように実装され得る。そのような係数値の事前計算されたセットをオフラインで計算して、対応する所望の解像度における方向および/または周波数の所望の範囲をカバーし得る(たとえば、0、20、または30度から150、160、または180度までの範囲における、5度、10度、または20度の各間隔についての係数値の異なるセット)。
[00169]フィルタ配向モジュールOM10によって生成される初期係数値(たとえば、CV10およびCV20)は、音源信号の間に所望のレベルの分離をもたらすようにフィルタバンクBK10を構成するには十分でないことがある。これらの初期値が基づく推定音源方向(たとえば、方向DA10およびDA20)が完全に正確であったとしても、フィルタを一定の方向にステアリングするだけでは、アレイからから遠く離れた音源間の最良の分離、または特定の離れた音源への最良の集中は実現しないことがある。
[00170]フィルタ更新モジュールUM10は、第1および第2の出力信号OS10−1およびOS10−2からの情報に基づいて、第1および第2の係数の初期値CV10およびCV20を更新して、値の対応する更新されたセットUV10およびUV20を生成するように構成される。たとえば、フィルタ更新モジュールUM10は、これらの初期係数値によって記述されるビームパターンを適応させるために適応BSSアルゴリズムを実行するように実装され得る。
[00171]BSS方法は、Yj(ω,l)=W(ω)Xj(ω,l)などの式に従って様々な音源から、統計的に独立した信号成分を分離し、ただし、Xjは周波数領域における入力(混合)信号のj番目のチャネルを示し、Yjは周波数領域における出力(分離)信号のj番目のチャネルを示し、ωは周波数ビンインデックスを示し、lは時間フレームインデックスを示し、Wはフィルタ係数行列を示す。概して、BSS方法は、次のような式による逆混合行列Wの経時的適応として記述され得る。
ただし、rは適応間隔(または更新レート)パラメータを示し、μは適応速度(または学習レート)ファクタを示し、Iは恒等行列を示し、上付き文字Hは共役転置関数を示し、Φはアクティブ化関数(activation function)を示し、括弧<・>は(たとえば、フレームlからl+L−1にわたるものであって、Lは一般にr以下である)時間平均化演算を示す。一例では、μの値は0.1である。式(2)はBSS学習ルールまたはBSS適応ルールとも呼ばれる。アクティブ化関数Φは一般に、所望の信号の累積密度関数に近似するように選択され得る非線形有界関数である。そのような方法において使用されるアクティブ化関数Φの例としては、双曲正接関数(hyperbolic tangent function)、シグモイド関数(sigmoid function)、および符号関数(sign function)がある。
[00172]フィルタ更新モジュールUM10は、本明細書で説明するBSS方法に従ってフィルタ配向モジュールOM10によって生成された係数値(たとえば、CV10およびCV20)を適応させるように実装され得る。そのような場合、出力信号OS10−1およびOS10−2は、周波数領域信号Yのチャネル(たとえば、それぞれ第1のチャネルおよび第2のチャネル)であり、係数値CV10およびCV20は、逆混合行列Wの対応する行(たとえば、それぞれ第1の行および第2の行)の初期値であり、適応された値は、適応後の逆混合行列Wの対応する行(たとえば、それぞれ第1の行および第2の行)によって定義される。
[00173]周波数領域における適応のためのフィルタ更新モジュールUM10の典型的な実装形態では、逆混合行列Wは有限インパルス応答(FIR)多項式行列である。そのような行列は、要素としてFIRフィルタの周波数変換(たとえば、離散フーリエ変換)を有する。時間領域における適応のためのフィルタ更新モジュールUM10の典型的な実装形態では、逆混合行列WはFIR行列である。そのような行列は要素としてFIRフィルタを有する。そのような場合、係数値の各初期セット(たとえば、CV10およびCV20)は、一般に複数のフィルタを記述することになることを理解されよう。たとえば、係数値の各初期セットは、逆混合行列Wの対応する行の要素ごとにフィルタを記述し得る。周波数領域実装形態の場合、係数値の各初期セットは、マルチチャネル信号の周波数ビンごとに、逆混合行列Wの対応する行の各要素のフィルタの変換を記述し得る。
[00174]BSS学習ルールは、一般に、出力信号間の相関を減らすように設計される。たとえば、BSS学習ルールは、出力信号間の相互情報量を最小限に抑えるように、出力信号の統計的独立性を高めるように、または出力信号のエントロピーを最大にするように選択され得る。一例では、フィルタ更新モジュールUM10は、独立成分分析(ICA: independent component analysis)として知られているBSS方法を実行するように実装される。そのような場合、フィルタ更新モジュールUM10は、上記で説明したアクティブ化関数、または、たとえば、次のようなアクティブ化関数を使用するように構成され得る。
周知のICA実装形態の例としては、Infomax、FastICA(www-dot-cis-dot-hut-dot-fi/projects/ica/fasticaでオンライン入手可能)、およびJADE(固有行列の結合近似対角化(Joint Approximate Diagonalization of Eigenmatrices))がある。
[00175]スケーリングおよび周波数置換は、BSSにおいて一般に遭遇される2つのあいまいさである。フィルタ配向モジュールOM10によって生成される初期ビームは置換されないが、そのようなあいまいさは、ICAの場合に適応中に生じ得る。置換されない解を維持するために、代わりに、周波数ビン間の予想される依存性をモデル化するソースプライアを使用する複素ICAの一変形である独立ベクトル解析(IVA)を使用するようにフィルタ更新モジュールUM10を構成することが望ましいことがある。この方法では、アクティブ化関数Φは、たとえば、次の式などの多変量アクティブ化関数である。
ただし、pは1以上の整数値(たとえば、1、2、または3)を有する。この関数において、分母の項は、すべての周波数ビンにわたる分離された音源スペクトルに関係する。この場合、置換のあいまいさは解決される。
[00176]得られた適応係数値によって定義されるビームパターンは、直線ではなく畳み込まれているように見え得る。そのようなパターンは、遠くの音源の分離には一般に不十分である初期係数値CV10およびCV20によって定義されるビームパターンよりも良好な分離をもたらすと予想され得る。たとえば、10〜12dBから18〜20dBへの干渉消去の増加が観測されている。適応係数値によって表されるソリューションはまた、マイクロフォン応答(たとえば、利得および/または位相応答)の不整合に対し、開ループビームフォーミングソリューションよりもロバストであると予想され得る。
[00177]上記の例は、周波数領域におけるフィルタ適応について説明しているが、時間領域における係数値のセットを更新するように構成されたフィルタ更新モジュールUM10の代替実装形態も、明確に企図され、本明細書によって開示される。時間領域BSS方法は、置換のあいまいさの影響を受けないが、一般に、周波数領域BSS方法よりも長いフィルタの使用を伴い、実際には扱いにくいことがある。
[00178]BSS方法を使用して適応されたフィルタは概して、良好な分離を達成するが、そのようなアルゴリズムも、特に音源が遠くにある場合に、分離信号にさらなる残響をもたらす傾向がある。特定の到来方向において単位利得を強制する幾何学的制約を追加することによって、適応BSSソリューションの空間応答を制御することが望ましいことがある。ただし、上述のように、単一の到来方向に対してフィルタ応答を調整するのは、残響環境では不十分であり得る。その上、BSS適応において(ヌルビーム方向とは反対の)ビーム方向を強制しようとすると、問題が生じかねない。
[00179]フィルタ更新モジュールUM10は、方向に対する値の適応されたセットの判断された応答に基づいて、複数の第1の係数の値の適応されたセットと複数の第2の係数の値の適応されたセットとのうちの少なくとも1つを調整するように構成される。この判断された応答は、指定の特性を有する応答に基づき、異なる周波数では異なる値を有し得る。一例では、判断された応答は、最大応答である(たとえば、指定の特性は最大値である)。調整されるべき係数のセットjごとに、また調整されるべき範囲内の各周波数ωおいて、たとえば、この最大応答Rj(ω)は、次のような式に従って、その周波数における適応されたセットの複数の応答のうちの最大値として表され得る。
ただし、Wは適応された値の行列(たとえば、FIR多項式行列)であり、Wjmは、行jおよび列mにおける行列Wの要素を示し、列ベクトルDθ(ω)の各要素mは、次の式で表され得る距離θの遠距離場音源から受信される信号に関する周波数ωにおける位相遅延を示す。
θm(ω)=exp(−i×cos(θ)×pos(m)×ω/c)別の例では、判断された応答は、最小応答(たとえば、各周波数における適応されたセットの複数の応答の中の最小値)である。
[00180]一例では、式(3)は、範囲[−π,+π]においてθの64個の均一に離間した値について評価される。他の例では、式(3)は、θの異なる数の値(たとえば、16個または32個の均一に離間した値、5度または10度の増分における値など)について、不均一な間隔で(たとえば、横方向の範囲にわたって、縦方向における範囲よりも大きい解像度で、またはその逆)、および/または異なる関心領域(たとえば、[−π,0]、[−π/2,+π/2]、[−π,+π/2])にわたって評価され得る。均一なマイクロフォン間間隔dをもつマイクロフォンの線形アレイの場合、係数pos(m)は(m−1)dとして表され得、したがって、ベクトルDθ(ω)の各要素mは次のように表され得る。Dθm(ω)=exp(−i×cos(θ)×(m−1)d×ω/c)式(3)が最大値を有する方向θの値は、周波数ωの値が異なる場合には異なると予想され得る。音源方向(たとえば、DA10および/またはDA20)は、式(3)が評価されるθの値の中に含まれ得、または、代替的に、それらの値とは別個であり得る(たとえば、音源方向が、式(3)が評価されるθの値の隣接するものの間の角度を示す場合)ことに留意されたい。
[00181]図18Aに、フィルタ更新モジュールUM10の実装形態UM20のブロック図を示す。フィルタ更新モジュールUM10は、出力信号OS10−1およびOS10−2からの情報に基づいて係数値CV10および係数値CV20を適応させて、値の対応する適応されたセットAV10およびAV20を生成するように構成された適応モジュールAPM10を含む。たとえば、適応モジュールAPM10は、本明細書で説明するBSS方法のいずれか(たとえば、ICA、IVA)を実行するように実装され得る。
[00182]フィルタ更新モジュールUM20はまた、(たとえば、上記の式(3)による)方向に対する値の適応されたセットAV10の最大応答に基づいて適応された値AV10を調整して、値の更新されたセットUV10を生成するように構成された調整モジュールAJM10を含む。この場合、フィルタ更新モジュールUM20は、更新された値UV20としてそのような調整をせずに適応された値AV20を生成するように構成される。(本明細書で開示する構成の範囲はまた、係数値CV20が適応も調整もされないという点で、装置A100とは異なる装置を含むことに留意されたい。そのような構成は、たとえば、信号が残響をほとんどまたはまったく伴わずに直接経路を介して対応する音源から到来する状況において使用され得る。)
[00183]調整モジュールAJM10は、値の適応されたセットを、方向に対する各周波数における所望の利得応答(たとえば、最大の単位利得応答)を有するようにセットを正規化することによって調整するように実装され得る。そのような場合、調整モジュールAJM10は、係数値の適応されたセットj(たとえば、適応された値AV10)の各値を、セットの最大応答Rj(ω)で除算して、係数値の対応する更新されたセット(たとえば、更新された値UV10)を取得するように実装され得る。
[00184]所望の利得応答が単位利得応答以外である場合、調整モジュールAJM10は、適応された値および/または正規化された値に利得係数を適用することを調整演算が含むように実装され得、ここで、利得係数値の値は周波数とともに変化して、所望の利得応答を記述する(たとえば、音源のピッチ周波数のハーモニックを選好し、および/または干渉物によって支配され得る1つまたは複数の周波数を減衰させる)。判断された応答が最小応答である場合、調整モジュールAJM10は、(たとえば、各周波数の)最小応答を減算することによって、または方向に対する各周波数における所望の利得応答(たとえば、最小のゼロの利得応答)を有するようにセットを再マッピングすることによって、適応されたセットを調整するように実装され得る。
[00185]係数値のセットのうちの2つ以上について、また場合によってはすべてについて(たとえば、少なくとも、定位された音源に関連しているフィルタについて)そのような正規化を実行するように調整モジュールAJM10を実装することが望ましいことがある。図18Bに、調整モジュールAJM10の実装形態AJM12を含むフィルタ更新モジュールUM20の実装形態UM22のブロック図を示し、AJM12はまた、方向に対する値の適応されたセットAV20の最大応答に基づいて、適応された値AV20を調整して、値の更新されたセットUV20を生成するように構成される。
[00186]そのようなそれぞれの調整は、追加の適応フィルタに(たとえば、適応行列Wの他の行に)同じ方法で拡張され得ることを理解されたい。たとえば、図17に示したフィルタ更新モジュールUM12は、係数値の4つのセットCV10、CV20、CV30、およびCV40を適応させて、値の4つの対応する適応されたセットを生成するように構成された適応モジュールAPM10の一実装形態と、値の対応する適応されたセットの最大応答に基づいて、値の更新されたセットUV30およびUV40の一方または両方の各々を生成するように構成された調整モジュールAJM12の一実装形態とを含むように、フィルタ更新モジュール22の一実装形態として構成され得る。
[00187]従来のオーディオ処理ソリューションは、雑音基準の計算と、計算された雑音基準を適用する後処理ステップとを含み得る。本明細書で説明する適応ソリューションは、後処理への依存を弱め、フィルタ適応への依存を強めて、干渉する点音源を除去することによって干渉消去と残響除去とを改善するように実装され得る。残響は、周波数とともに変化する利得応答を有する伝達関数(たとえば、室内応答伝達関数)として考えられ得、減衰する周波数成分もあれば、増幅する周波数成分もある。たとえば、室内のジオメトリは、様々な周波数における信号の相対強度に影響を与えることがあり、いくつかの周波数が支配的になり得る。ある周波数から別の周波数に変化する方向において(すなわち、各周波数における主要ビームの方向において)所望の利得応答を有するようにフィルタを抑制することによって、本明細書で説明する正規化演算は、異なる周波数において空間中で信号のエネルギーが拡散される度合いの差異を補償することによって、信号を残響除去するのを助け得る。
[00188]最良の分離および残響除去の結果を達成するために、一部の到来角範囲内で音源から到来するエネルギーを通過させ、他の角度で干渉音源から到来するエネルギーをブロックする空間応答を有するように、フィルタバンクBK10のフィルタを構成することが望ましいことがある。本明細書で説明するように、BSS適応を使用して、フィルタが初期解の近傍でより良い解を見つけることを可能にするように、フィルタ更新モジュールUM10を構成することが望ましいことがある。ただし、所望の音源に向けられた主要ビームを維持する制約なしに、フィルタ適応は、同様の方向からの干渉音源が(たとえば、干渉音源からのエネルギーを除去する広いヌルビームを作ることによって)主要ビームを損なうのを許容し得る。
[00189]フィルタ更新モジュールUM10は、制約付きBSSを介して適応ヌルビームフォーミングを使用して、音源定位解からの大きい逸脱を防ぐ一方、小さい定位誤差を訂正することができるように構成され得る。しかしながら、フィルタが異なる音源に方向を変えるのを防ぐフィルタ更新ルールに関する空間制約を課すことが望ましいこともある。たとえば、フィルタを適応させるプロセスが、干渉音源の到来方向にヌル制約を含めることが望ましいことがある。そのような制約は、ビームパターンが低周波数において当該干渉方向にそれの配向を変えるのを防ぐことが望ましいことがある。
[00190]BSS逆混合行列の一部のみを適応させるようにフィルタ更新モジュールUM10を実装する(たとえば、適応モジュールAPM10を実装する)ことが望ましいことがある。たとえば、フィルタバンクBK10のフィルタのうちの1つまたは複数を固定することが望ましいことがある。そのような制約は、(たとえば、上記の式(2)に示した)フィルタ適応プロセスが係数行列Wの対応する行を変えるのを防止することによって実装され得る。
[00191]一例では、そのような制約は、固定されるべき各フィルタに対応する(たとえば、フィルタ配向モジュールOM10によって生成された)係数値の初期セットを維持するために、適応プロセスの開始時から適用される。そのような実装形態は、たとえば、静止した干渉物にビームパターンが向けられているフィルタにとって適切であり得る。別の例では、そのような制約は、係数値の適応されたセットのさらなる適応を防止するために(たとえば、フィルタが収束したことが検出されたときに)後で適用される。そのような実装形態は、たとえば、安定した残響環境における静止した干渉物にビームパターンが向けられているフィルタにとって適切であり得る。フィルタ係数値の正規化されたセットが固定されると、セットが固定されている間は調整モジュールAJM10はそれらの値の調整を実行する必要がないが、調整モジュールAJM10は係数値の他のセットを(たとえば、調整モジュールAJM10によるそれらの適応に応答して)調整し続け得ることに留意されたい。
[00192]代替または追加として、周波数範囲の一部分のみでフィルタのうちの1つまたは複数を適応させるようにフィルタ更新モジュールUM10を実装する(たとえば、適応モジュールAPM10を実装する)ことが望ましいことがある。フィルタのそのような固定化は、当該範囲から外れた周波数に(たとえば、上記の式(2)中のωの値に)対応するフィルタ係数値を適応させないことによって達成され得る。
[00193]有用な情報を含んでいる周波数範囲でのみ、フィルタのうちの1つまたは複数(場合によってはすべて)の各々を適応させ、別の周波数範囲ではフィルタを固定することが望ましいことがある。適応されるべき周波数範囲は、マイクロフォンアレイから話者までの予想される距離、マイクロフォン間の距離(例:たとえば空間エイリアシングにより、空間フィルタ処理がいずれにせよ失敗する周波数でフィルタを適応させるのを回避するため)、部屋のジオメトリ、および/または室内のデバイスの配置などのファクタに基づき得る。たとえば、入力信号は、特定の周波数範囲(たとえば、高周波数範囲)にわたって、その範囲で正しいBSS学習をサポートするのに十分な情報を含んでいないことがある。そのような場合、適応なしにこの範囲で初期の(または場合によっては直近の)フィルタ係数値を使用し続けることが望ましいことがある。
[00194]音源がアレイから3〜4メートル以上離れているとき、一般的に、音源によって放出される高周波エネルギーで、マイクロフォンに到達するものはほとんどない。そのような場合、フィルタ適応を適切にサポートする情報は、高周波数範囲ではほとんど得られないことがあるので、高周波数でフィルタを固定し、低周波数でのみそれらを適応させることが望ましいことがある。
[00195]追加または代替として、どの周波数を適応させるべきかの決定は、周波数帯域において現在利用可能なエネルギーの量、および/またはマイクロフォンアレイから現在の話者までの推定距離などのファクタに従って、実行時間中に変わり得、フィルタごとに異なり得る。たとえば、ある時間には最高2kHz(あるいは3kHzまたは5kHz)の周波数でフィルタを適応させ、別の時間には最高4kHz(あるいは5kHz、8kHz、または10kHz)の周波数でフィルタを適応させることが望ましいことがある。特定の周波数のために固定され、すでに調整されている(たとえば、正規化されている)フィルタ係数値を調整モジュールAJM10が調整する必要はないが、調整モジュールAJM10は他の周波数で係数値を(たとえば、適応モジュールAPM10によるそれらの適応に応答して)調整し続け得ることに留意されたい。
[00196]フィルタバンクBK10は、更新された係数値(たとえば、UV10およびUV20)をマルチチャネル信号の対応するチャネルに適用する。更新された係数値は、(たとえば、調整モジュールAJM10による)本明細書で説明する調整後の(たとえば、適応モジュールAPM10によって適応された)逆混合行列Wの対応する行の値であるが、そのような値が本明細書で説明するように固定されている場合は除く。係数値の各更新されたセットは一般に、複数のフィルタを記述することになる。たとえば、係数値の各更新されたセットは、逆混合行列Wの対応する行の要素ごとにフィルタを記述し得る。
[00197]概して、各推定音源方向(たとえば、DA10および/またはDA20)は、測定、計算、予測、予想、および/または選択され得、所望の音源、干渉音源、または反射からの音の到来方向を示し得る。フィルタ配向モジュールOM10は、別のモジュールまたはデバイスから(たとえば、音源定位モジュールから)推定音源方向を受信するように構成され得る。そのようなモジュールまたはデバイスは、(たとえば、顔および/または動き検出を実行することによる)カメラからの画像情報および/または超音波反射からの測距情報に基づいて推定音源方向を生成するように構成され得る。そのようなモジュールまたはデバイスはまた、音源の数を推定するように、および/または動いている1つまたは複数の音源を追跡するように構成され得る。図19Aに、そのような画像情報をキャプチャするために使用され得るカメラCM10をもつアレイR100の4マイクロフォン実装形態R104の構成の一例の上面図を示す。
[00198]代替的に、装置A100は、マルチチャネル信号MCS10内の情報および/またはフィルタバンクBK10によって生成される出力信号内の情報に基づいて、推定音源方向(たとえば、DA10およびDA20)を計算するように構成された方向推定モジュールDM10を含むように実装され得る。そのような場合、方向推定モジュールDM10はまた、上記で説明したように画像情報および/または測距情報に基づいて推定音源方向を計算するように実装され得る。たとえば、方向推定モジュールDM10は、マルチチャネル信号MCS10に適用される、一般化相互相関(GCC:generalized cross-correlation)アルゴリズム、またはビームフォーマーアルゴリズムを使用して音源DOAを推定するように実装され得る。
[00199]図20に、マルチチャネル信号MCS10内の情報に基づいて推定音源方向DA10およびDA20を計算するように構成された方向推定モジュールDM10のインスタンスを含む装置A100の実装形態A120のブロック図を示す。この場合、方向推定モジュールDM10およびフィルタバンクBK10は、同じ領域中で動作する(たとえば、周波数領域信号としてマルチチャネル信号MCS10を受信し、処理する)ように実装される。図21に、装置A120およびA200の実装形態A220のブロック図を示し、ここでは、方向推定モジュールDM10は、変換モジュールXM20から周波数領域においてマルチチャネル信号MCS10からの情報を受信するように構成される。
[00200]一例では、方向推定モジュールDM10は、位相変換を使用したステアード応答パワー(SRP−PHAT:steered response power using the phase transform)アルゴリズムを使用して、マルチチャネル信号MCS10内の情報に基づいて推定音源方向を計算するように実装される。SRP−PHATアルゴリズムは、最尤音源定位から得られるものであり、出力信号の相関が最大となる時間遅延を判断する。相互相関は、各ビンにおいて電力によって正規化され、それにより、より良いロバストネスが与えられる。残響環境では、SRP−PHATは、競合する音源定位方法よりも良い結果をもたらすことが予想され得る。
[00201]SRP−PHATアルゴリズムは、周波数領域における受信信号ベクトルX(すなわち、マルチチャネル信号MCS10)X(ω)=[X1(ω),...,Xp(ω)]T=S(ω)G(ω)+S(ω)H(ω)+N(ω)で表され得、ただし、Sは音源信号ベクトルを示し、利得行列G、室内伝達関数ベクトルH、および雑音ベクトルNは次のように表され得る。
これらの式において、Pはセンサーの数(すなわち、入力チャネルの数)を示し、αは利得ファクタを示し、τは音源からの伝搬時間を示す。
[00202]この例では、複合雑音ベクトルNc(ω)=S(ω)H(ω)+N(ω)は、以下のゼロ平均、周波数独立、結合ガウス分布(zero-mean, frequency-independent, joint Gaussian distribution)を有すると仮定され得る。
ただし、Q(ω)は共分散行列であり、ρは定数である。音源方向は、次の式を最大化することによって推定され得る。
N(ω)=0であるとの仮定の下で、この式は次のように書き直され得る。
ただし、0<γ<1は設計定数であり、式(4)の右辺を最大化する時間遅延Γiは音源の到来方向を示す。
[00203]図22に、周波数ωの範囲にわたる異なる2音源シナリオのDOA推定にSRP−PHATのそのような実装形態を使用した結果によるプロットの例を示す。これらのプロットでは、y軸は
の値を示し、x軸は、アレイ軸に対する推定音源到来方向θi
)を示す。各プロットにおいて、各線は範囲内の異なる周波数に対応し、各プロットはマイクロフォンアレイの縦方向を中心として対称的である(すなわち、θ=0)。左上のプロットは、アレイから4メートルの距離にある2つの音源のヒストグラムを示している。右上のプロットは、アレイから4メートルの距離にある2つの近接した音源のヒストグラムを示している。左下のプロットは、アレイから2.5メートルの距離にある2つの音源のヒストグラムを示している。右下のプロットは、アレイから2.5メートルの距離にある2つの近接した音源のヒストグラムを示している。これらのプロットの各々は、推定音源方向を、全周波数にわたる単一のピークとしてではなく、重心によって特徴づけられ得る角度範囲として示すことがわかるであろう。
[00204]別の例では、方向推定モジュールDM10は、ブラインド音源分離(BSS)アルゴリズムを使用して、マルチチャネル信号MCS10内の情報に基づいて推定音源方向を計算するように実装される。BSS方法は、干渉音源からのエネルギーを除去する信頼できるヌルビームを発生する傾向があり、これらのヌルビームの方向は、対応する音源の到来方向を示すために使用され得る。方向推定モジュールDM10のそのような実装形態は、次のような式に従って、マイクロフォンjおよびj’のアレイの軸に対する周波数fにおける音源iの到来方向(DOA)を計算するように実装され得る。
ただし、Wは逆混合行列を示し、pjおよびpj’は、それぞれマイクロフォンjおよびj’の空間的座標を示す。この場合、本明細書で説明するようにフィルタ更新モジュールUM10によって更新されるフィルタとは別個に方向推定モジュールDM10のBSSフィルタ(たとえば、逆混合行列W)を実装することが望ましいことがある。
[00205]図23に、4つのヒストグラムのセットの一例を示し、各ヒストグラムは、4行逆混合行列Wの対応するインスタンスの(アレイ軸に対する)各入射角に式(5)がマッピングする周波数ビンの数を示し、ただし、Wは、マルチチャネル信号MCS10内の情報に基づいており、本明細書で説明するIVA適応ルールに従って方向推定モジュールDM10の一実装形態によって計算される。この例では、入力マルチチャネル信号は、約40〜60度の角度だけ分離された2つのアクティブな音源からのエネルギーを含んでいる。左上のプロットは、(音源1の方法を示す)IVA出力1のヒストグラムを示しており、右上のプロットは、(音源2の方法を示す)IVA出力2のヒストグラムを示している。これらのプロットの各々は、推定音源方向を、全周波数にわたる単一のピークとしてではなく、重心によって特徴づけられ得る角度範囲として示すことがわかるであろう。下のプロットは、IVA出力3および4のヒストグラムを示しており、これらは、両方の音源からのエネルギーをブロックし、残響からのエネルギーを含んでいる。
[00206]別の例では、方向推定モジュールDM10は、複数の異なる周波数成分の各々についてマルチチャネル信号MCS10のチャネル間の位相差に基づいて推定音源方向を計算するように実装される。(たとえば、図19Bに示された平面波面の仮定が有効になるように)遠距離場に点音源が1つあり、残響がない理想的な場合、位相差と周波数との比は周波数に対して一定である。図15Bに示されたモデルを参照すると、方向推定モジュールDM10のそのような実装形態は、量
の(アークコサインとも呼ばれる)逆コサインとして音源方向θiを計算するように構成され得、ただし、cは音速(約340m/秒)を示し、dはマイクロフォン間の距離を示し、Δφiは2つのマイクロフォンチャネルの対応する位相推定間のラジアンの差分を示し、fiは、位相推定が対応する周波数成分(たとえば、対応するFFTサンプルの周波数、あるいは対応するサブバンドの中心周波数またはエッジ周波数)である。
画像中のオブジェクト深さ判断
[00207]以下で、画像からオブジェクト深さ情報を判断するための例示的な構成について説明する。第1の構成では、画像中のオブジェクトの推定深さを判断するために、マルチカメラ画像視差技法が使用される。第2の構成では、画像シーン中のオブジェクト範囲を推定するために単一カメラ自動フォーカス技法が使用され得る。SIFTキーポイント探索は、推定キーポイント深さ情報を含むことによってよりロバストにされ得る。
[00208]図24は、画像またはビデオキャプチャ中にシーン中のオブジェクトの視差を検出するように構成された画像キャプチャデバイス1350の特定の構成の図である。画像キャプチャデバイス1350は、画像処理モジュール1356に結合された画像センサーペア1352を含む。画像処理モジュール1356は外部メモリ1362に結合される。画像処理モジュール1356は、同期およびインターフェースモジュール1354と、画像処理機能モジュール1358と、視差検出モジュール1342と、符号化モジュール1360とを含む。
[00209]画像センサーペア1352は、画像データ1370を画像処理モジュール1356に与えるように構成される。単一のシーンに対応する第1の画像と第2の画像とを使用してオブジェクト深さ判断が実行され得る。第1の画像は、第1のセンサー(たとえば、右センサー)によるシーンの第1の画像キャプチャに対応し得、第2の画像は、第2のセンサー(たとえば、左センサー)によるシーンの第2の画像キャプチャに対応し得、第2の画像キャプチャは、図24に示すセンサーペア1352などによって、第1の画像キャプチャと実質的に同時である。
[00210]同期およびインターフェースモジュール1354は、データ1372を画像処理機能モジュール1358に与えるように構成される。画像処理機能モジュール1358は、処理された画像データ1380を視差検出モジュール1342に与えるように構成される。符号化モジュール1360は、画像/ビデオデータ1382を受信し、オブジェクト深さデータで符号化された画像/ビデオデータ1384を発生するように構成される。
[00211]視差検出モジュール1342は、画像センサーペア1352によってキャプチャされたシーン内のオブジェクトに対応する視差値を判断するように構成され得る。特定の構成では、視差検出モジュール1342は、シーン固有オブジェクト検出またはキーポイント検出および視差判断機能を組み込む。
[00212]画像センサーペア1352は、代表的な図では、右センサー(すなわち、閲覧者の右眼によって知覚されるシーンに関連する画像をキャプチャする第1のセンサー)と、左センサー(すなわち、閲覧者の左眼によって知覚されるシーンに関連する画像をキャプチャする第2のセンサー)とを含むセンサーのペアとして示されている。画像データ1370は、左センサーによって生成された左画像データと、右センサーによって生成された右画像データとを含む。各センサーは、水平方向に延在する感光性構成要素の行と、垂直方向に延在する感光性構成要素の列とを有するものとして示されている。左センサーと右センサーは、水平方向に沿って互いに距離dにおいて実質的に位置合わせされる。本明細書で使用する画像データ内の「水平」方向は、右画像データ中のオブジェクトのロケーションと、左画像データ中の同じオブジェクトのロケーションとの間の変位の方向である。
[00213]図25は、図24のシステム中に含まれ得る画像処理システム1440の特定の実施形態の図である。処理システム1440は、入力画像データ1404を受信し、出力画像データ1428を発生するように構成される。処理システム1440は、較正入力1450を介して受信されるカメラ較正パラメータ1406に応答し得る。
[00214]画像処理システム1440は、微細ジオメトリ補正モジュール1410と、キーポイント検出モジュール1412と、キーポイント整合モジュール1414と、深さ計算モジュール1416とを含む。
[00215]ジオメトリ補正モジュール1410は、データ経路1470を介して入力画像データ1404を受信し、補正された画像データ1454を発生するように構成される。ジオメトリ補正モジュール1410は、カメラ較正パラメータ1406からのデータを使用し得、入力画像データ1404を調整して、画像データ1404のレンダリングに悪影響を及ぼし得る不整合、収差、または他の較正状態について訂正し得る。例示のために、ジオメトリ補正モジュール1410は、較正パラメータ1406について調整するために、任意のグリッド上で画像データ1404のリサンプリングを効果的に実行し得る。
[00216]処理システム1440がコンピューティングデバイス中に実装され得る構成では、カメラ較正パラメータ1406は、画像/ビデオデータファイルのヘッダ中でなど、入力画像データ1404とともに受信され得る。処理システム1440が図24の画像キャプチャデバイス1350などの画像キャプチャデバイス中に実装される構成では、カメラ較正パラメータ1406は、画像キャプチャデバイスの画像センサーペアに対応し得、微細ジオメトリ補正モジュール1410にとってアクセス可能なメモリに記憶され得る。
[00217]キーポイント検出モジュール1412は、補正された画像データ1454を受信し、キーポイントロケーションデータ1456を発生するように構成される。キーポイント検出モジュール1412は、補正された画像データ1454中の特徴的なポイントを識別するように構成される。たとえば、特徴的なポイントは、シーン中のオブジェクトの垂直エッジ、または水平方向において高周波成分を有するそのシーンの他のポイントに対応し得る。画像データ中のそのような特徴的な要素を本明細書では「キーポイント」または「オブジェクト」と呼ぶが、そのような識別された要素は、個々のピクセル、ピクセルのグループ、分数ピクセル部分、他の画像成分、またはそれらの任意の組合せに対応し得ることを理解されたい。たとえば、キーポイントは、受信された画像データのサブサンプリングされたルーマ成分をもつピクセルに対応し得、垂直エッジ検出フィルタを使用して検出され得る。
[00218]キーポイント整合モジュール1414は、キーポイントロケーションデータ1454を受信し、識別されたキーポイントに対応する視差データ1458を発生するように構成される。キーポイント整合モジュール1414は、探索範囲内でキーポイントの周りを探索し、視差ベクトルの信頼性測度を生成するように構成され得る。
[00219]深さ計算モジュール1416は、視差データ1458を受信し、センサー1352からのキーポイントの推定距離を示すレンジデータ1460を発生するように構成される。
[00220]処理システム1440の動作中に、レンジ評価プロセスが実行される。画像データ1404をキャプチャした2つのセンサー間の相対位置を推定し、補正するように設計された較正手順が、オフラインで(たとえば、デバイスのエンドユーザへの配信より前に)実行され得るが、ジオメトリ補正は画像データ1404のフレームごとに実行され得る。
[00221]処理は、(たとえば、キーポイント検出モジュール1412において)キーポイント検出を続ける。視差を確実に推定するために使用され得る画像のオブジェクトまたはピクセル(キーポイント)のセットが選択される。推定視差における高い信頼性が達成され得るが、シーン中のすべての領域またはオブジェクトが使用されるとは限らない。キーポイントのセットの選択は、適切な(1つまたは複数の)解像度を生成するために、画像サブサンプリングを含み得る。(たとえば、垂直方向の特徴に対応する水平周波数のみを探すために)画像高域フィルタを適用し、その後、フィルタを適用することによって発生した結果の平方値または絶対値を取り得る。所定のしきい値を超える結果は、潜在的キーポイントとして識別され得る。一部の局所近傍内の最良のキーポイント(たとえば、所定の領域内にあるすべてのキーポイントの最大フィルタ結果に対応するキーポイント)を選択するために、潜在的キーポイントに対してキーポイントプルーニングプロセスが実行され得る。
[00222]検出されたキーポイントを使用して、(たとえば、キーポイント整合モジュール1414において)キーポイント整合が実行され得る。第1の画像(たとえば左画像または右画像)中のキーポイントと、第2の画像(たとえば左画像および右画像のうちの他方)中の対応するエリアとの間の対応が判断され得る。信頼性推定値が生成され得、それは、キーポイント選択とともに視差推定精度を著しく改善し得る。左画像中のキーポイントと右画像中のキーポイントとの間の整合がどれくらい近接しているかの判断を可能にするために、整合は、正規化された相互共分散(cross-covariance)を使用して実行され得る。信頼性測度はこの正規化された相互共分散に基づき得る。特定の実施形態では、第1の画像中のキーポイントに対応する第2の画像中のキーポイントの位置を特定するための探索範囲は、センサー較正のための画像補正がすでに実行されているので、水平のみであり、探索範囲は、第1の画像中のキーポイントの周りの一定の範囲のみをカバーするように調整される。視差値はこれらの比較から計算される。
[00223]図26Aおよび図26Bは、知覚されたオブジェクト深さと相関させられたオブジェクト視差の例示的な実施形態の図である。オブジェクト深さ判断は、異なる画像を各眼1504、1506にダイレクトすることに依拠する。目的は、オブジェクト視差(水平シフト)が深さと相関させられるように、左および右(L/R)画像から深さの錯覚を再生成することである。図26Aは、ディスプレイ表面1524を越えて知覚されるオブジェクト1530に対応する正の視差1550を示している。視差1550は、左画像中のオブジェクトのロケーション1520と、右画像中のオブジェクトのロケーション1522との間の距離を示す。観察者は、左画像中のオブジェクト1530の画像と、右画像中のオブジェクト1530の画像とを融合させて、左眼1504の見通し線1560と、右眼1506の見通し線1562との交点においてオブジェクト1530を知覚することになる。
[00224]図26Bは、ディスプレイ表面1524の前で知覚されるオブジェクト1530に対応する負の視差1550を示している。視差1550は、左画像中のオブジェクトのロケーション1520と、右画像中のオブジェクトのロケーション1522との間の距離を示す。観察者は、左画像中のオブジェクト1530の画像と、右画像中のオブジェクト1530の画像とを融合させて、左眼1504の見通し線1560と、右眼1506の見通し線1562との交点において、ディスプレイ表面1534の前でオブジェクト1530を知覚することになる。
[00225]2つの眼から見えるオブジェクト変位は、視覚野によって深さとして解釈される。2つのキャプチャされた画像間の視差はシーンに依存することになる。シーン深さを感知することを使用すると、画像中のキーポイント探索を特定の深さでのまたはその近くでのオブジェクトのみに狭めることができ、したがって、オブジェクト認識の信頼性を高めることができる。
[00226]深さ計算モジュール602によって実行されるシーンレンジ推定は、左画像と右画像との間のスパース動きベクトル推定として一般化され得る。シーンレンジ評価プロセスはキー(特徴的な)ポイント識別を含むことができる。水平シフトのみが存在する(および測定される)ので、垂直変化は必要とされない。水平変化(何らかの垂直成分をもつエッジ)が使用される。いくつかの構成では、キーポイントは異なる解像度で検出され得る。オブジェクトレンジ推定プロセスはまた、キーポイント整合を含むことができる。光源レベル非依存になるために、およびロバストな視差信頼性メトリックを生成するために、キーポイント整合は、正規化された相互共分散を使用して実行され得る。その結果、キーポイントを異なる解像度で整合させることは不要になり得る。
オーディオシーン分解
[00227]音響分解サブシステム22は、シーンから記録されたオーディオ信号を分解するために、このセクションで説明する技法を採用することができる。本明細書で開示するものは、楽音(note)のペンデンシ(pendency)にわたる楽音のスペクトルの変化に関係する情報を含む基底関数インベントリと、スパース復元技法とを使用する、オーディオ信号の分解である。そのような分解は、信号の分析、符号化、再生、および/または合成をサポートするために使用され得る。本明細書では、調波楽器(すなわち、非打楽器)および打楽器からの混合音を含むオーディオ信号の定量分析の例を示す。
[00228]開示する技法は、キャプチャされたオーディオ信号を一連のセグメントとして処理するように構成され得る。典型的なセグメント長は約5または10ミリ秒から約40または50ミリ秒にわたり、セグメントは、重複しても(たとえば、隣接するセグメントが25%または50%だけ重複する)、重複しなくてもよい。1つの特定の例では、信号は、10ミリ秒の長さをそれぞれ有する一連の重複しないセグメントまたは「フレーム」に分割される。また、そのような方法によって処理されるセグメントは、異なる演算によって処理されるより大きいセグメントのセグメント(すなわち、「サブフレーム」)であり得、またはその逆も同様である。
[00229]2つ以上の楽器および/またはボーカル信号の混合から個々のノート/ピッチプロファイルを抽出するために音楽シーンを分解することが望ましいことがある。潜在的な使用事例としては、複数のマイクロフォンを用いてコンサート/ビデオゲームシーンをテープに記録すること、空間/スパース復元処理を用いて楽器とボーカルとを分解すること、ピッチ/ノートプロファイルを抽出すること、補正ピッチ/ノートプロファイルを用いて個々の音源を部分的にまたは完全にアップミックスすることがある。そのような動作は、音楽アプリケーション(たとえば、QualcommのQUSICアプリケーション、Rock BandまたはGuitar Heroなどのビデオゲーム)の機能をマルチプレーヤ/シンガーシナリオに拡張するために使用され得る。
[00230](たとえば、図34に示すように)同時に2人以上のボーカリストがアクティブであり、および/または複数の楽器がプレイされるシナリオを音楽アプリケーションが処理することを可能にすることが望ましいことがある。そのような機能は、現実的な音楽テープ記録シナリオ(マルチピッチシーン)をサポートするために望ましいことがある。ユーザは、各音源を別々に編集および再合成する能力を希望し得るが、サウンドトラックを生成することは、それらの音源を同時に記録することを伴い得る。
[00231]本開示では、複数の音源が同時にアクティブになり得る音楽アプリケーションのための使用事例を可能にするために使用され得る方法について説明する。そのような方法は、基底関数インベントリベースのスパース復元(たとえば、スパース分解)技法を使用してオーディオ混合信号を分析するように構成され得る。
[00232]基底関数のセットについて(たとえば、効率的なスパース復元アルゴリズムを使用して)アクティブ化係数の最もスパースなベクトルを見つけることによって混合信号スペクトルを音源成分に分解することが望ましいことがある。基底関数のセットは、図2の画像/ビデオ処理ブロック54によってシーン中に存在すると示された特定のタイプの楽器に減少させられ得る。アクティブ化係数ベクトルを(たとえば、基底関数のセットとともに)使用して、混合信号を再構成するか、または混合信号の(たとえば、1つまたは複数の選択された楽器からの)選択された部分を再構成し得る。また、(たとえば、大きさおよび時間サポートに従って)スパース係数ベクトルを後処理することが望ましいことがある。
[00233]図27Aに、オーディオ信号を分解する方法M100のフローチャートを示す。方法M100は、オーディオ信号のフレームからの情報に基づいて、周波数範囲にわたる対応する信号表現を計算するタスクT100を含む。方法M100は、タスクT100によって計算された信号表現と、複数の基底関数とに基づいて、アクティブ化係数のベクトルを計算するタスクT200をも含み、アクティブ化係数の各々は、複数の基底関数のうちの異なる1つに対応する。
[00234]タスクT100は、信号表現を周波数領域ベクトルとして計算するように実装され得る。そのようなベクトルの各要素は、メルまたはバーク尺度(mel or Bark scale)に従って取得され得る、サブバンドのセットのうち対応する1つのサブバンドのエネルギーを示し得る。しかしながら、そのようなベクトルは、一般に、高速フーリエ変換(FFT)、または短時間フーリエ変換(STFT)など、離散フーリエ変換(DFT)を使用して計算される。そのようなベクトルは、たとえば、64、128、256、512、または1024ビンの長さを有し得る。一例では、オーディオ信号は、8kHzのサンプリングレートを有し、0〜4kHz帯域は、長さ32ミリ秒の各フレームについて256ビンの周波数領域ベクトルによって表される。別の例では、信号表現は、オーディオ信号の重複セグメントにわたる修正離散コサイン変換(MDCT)を使用して計算される。
[00235]さらなる一例では、タスクT100は、フレームの短期電力スペクトルを表すケプストラム係数(たとえば、メル周波数ケプストラム係数またはMFCC)のベクトルとして信号表現を計算するように実装される。この場合、タスクT100は、フレームのDFT周波数領域ベクトルの大きさにメル尺度フィルタバンクを適用することと、フィルタ出力の対数をとることと、対数値のDCTをとることとによって、そのようなベクトルを計算するように実装され得る。そのような手順は、たとえば、「STQ: DSR - Front-endfeature extraction algorithm; compression algorithm」と題する、ETSIドキュメントES 201 108に記載されているオーロラ規格(欧州通信規格協会、2000年)において説明されている。
[00236]楽器は、一般に、明確な音色を有する。楽器の音色は、それのスペクトルエンベロープ(たとえば、周波数範囲にわたるエネルギーの分布)によって記述され得るので、異なる楽器の音色の範囲は、個々の楽器のスペクトルエンベロープを符号化する基底関数のインベントリを使用してモデル化され得る。
[00237]各基底関数は、周波数範囲にわたる対応する信号表現を備える。これらの信号表現の各々は、タスクT100によって計算された信号表現と同じ形態を有することが望ましいことがある。たとえば、各基底関数は、長さ64、128、256、512、または1024ビンの周波数領域ベクトルであり得る。代替的に、各基底関数は、MFCCのベクトルなどのケプストラム領域ベクトルであり得る。さらなる一例では、各基底関数はウェーブレット領域ベクトルである。
[00238]基底関数インベントリAは、各楽器n(たとえば、ピアノ、フルート、ギター、ドラムなど)の基底関数のセットAnを含み得る。たとえば、楽器の音色は、概して、各楽器nの基底関数のセットAnが、一般に、楽器ごとに異なり得るある所望のピッチ範囲にわたる各ピッチについて少なくとも1つの基底関数を含むようなピッチ従属である。たとえば、半音階スケールにチューニングされた楽器に対応する基底関数のセットは、オクターブ当たり12ピッチの各々の異なる基底関数を含み得る。ピアノの基底関数のセットは、ピアノの各キーについて異なる基底関数を含み、合計で88個の基底関数を含み得る。別の例では、各楽器の基底関数のセットは、5オクターブ(たとえば、56ピッチ)または6オクターブ(たとえば、67ピッチ)など、所望のピッチ範囲内の各ピッチについて異なる基底関数を含む。基底関数のこれらのセットAnは独立であり得、または2つ以上のセットが1つまたは複数の基底関数を共有し得る。
[00239]セットの各基底関数は、楽器の音色を異なる対応するピッチで符号化し得る。音楽信号のコンテキストでは、人間ボイスは、インベントリが1つまたは複数の人間ボイスモデルの各々の基底関数のセットを含み得るような楽器と見なされ得る。
[00240]基底関数のインベントリは、アドホック記録された個々の楽器記録から学習された一般的な楽器ピッチデータベースに基づき得、および/または(たとえば、独立成分分析(ICA)、期待値最大化(EM:expectation-maximization)などの分離方式を使用した)混合の分離されたストリームに基づき得る。
[00241]オーディオを処理するための基底関数のセットの選択は、図2の画像/ビデオ処理ブロック54によって与えられる楽器候補のリストに基づき得る。たとえば、基底関数のセットは、画像/ビデオ処理ブロック54のオブジェクト認識プロセスによってシーン中で識別される楽器のみに制限され得る。
[00242]タスクT100によって計算された信号表現と、インベントリAからの基底関数の複数Bとに基づいて、タスクT200はアクティブ化係数のベクトルを計算する。このベクトルの各係数は、基底関数の複数Bのうちの異なる1つに対応する。たとえば、タスクT200は、基底関数の複数Bに従って、ベクトルが信号表現のための最も有望なモデルを示すように、ベクトルを計算するように構成され得る。図32に、そのようなモデルBf=yを示し、ここで、基底関数の複数Bは、B個の列が個々の基底関数であり、fが基底関数アクティブ化係数の列ベクトルであり、yが、記録された混合信号のフレーム(たとえば、スペクトログラム周波数ベクトルの形態の5、10、または20ミリ秒フレーム)の列ベクトルであるような行列である。
[00243]タスクT200は、線形プログラミング問題を解くことによって、オーディオ信号の各フレームのアクティブ化係数ベクトルを復元するように構成され得る。そのような問題を解くために使用され得る方法の例としては、非負値行列因子分解(NNMF:nonnegative matrix factorization)がある。NNMFに基づくシングルチャネル基準方法は、(たとえば、以下で説明するように)期待値最大化(EM)更新ルールを使用して、基底関数とアクティブ化係数とを同時に計算するように構成され得る。
[00244]既知または部分的に既知の基底関数空間における最もスパースなアクティブ化係数ベクトルを見つけることによって、オーディオ混合信号を(1つまたは複数の人間ボイスを含み得る)個々の楽器に分解することが望ましいことがある。たとえば、タスクT200は、既知の楽器基底関数のセットを使用して、(たとえば、効率的なスパース復元アルゴリズムを使用して)基底関数インベントリにおける最もスパースなアクティブ化係数ベクトルを見つけることによって、入力信号表現を音源成分(たとえば、1つまたは複数の個々の楽器)に分解するように構成され得る。
[00245]劣決定系(underdetermined system)の連立一次方程式(すなわち、式よりも多い未知数を有する系)の最小L1ノルム解は、しばしばその系の最もスパースな解でもあることが知られている。L1ノルムの最小化によるスパース復元は、以下のように実行され得る。
[00246]ターゲットベクトルf0は、K<N個の非0成分を有する長さNのスパースベクトルであり(すなわち、「Kスパース」であり)、射影行列(すなわち、基底関数行列)Aは、サイズ約Kのセットについてインコヒーレント(ランダム様)であると仮定する。信号y=Afoであることがわかる。次いで、Af=yzを条件として
を解くこと(ただし、||f||l1
として定義される)により、foが正確に復元される。その上、扱いやすいプログラムを解くことによって、M≧K・logN個のインコヒーレント測定値からfoを復元することができる。測定値の数Mは、アクティブな成分の数にほぼ等しい。
[00247]1つの手法は、圧縮感知(compressive sensing)からのスパース復元アルゴリズムを使用することである。(「圧縮感知(compressed sensing)」とも呼ばれる)圧縮感知の一例では、信号復元Φx=yであり、yは、長さMの観測信号ベクトルであり、xは、yの凝縮(condensed)表現である、K<N個の非0成分を有する長さNのスパースベクトル(すなわち、「Kスパースモデル」)であり、Φは、サイズM×Nのランダム射影行列である。ランダム射影Φはフルランクでないが、それは、高確率でスパース/圧縮可能信号モデルについて可逆である(すなわち、それは不良設定逆問題(ill-posed inverse problem)を解く)。
[00248]アクティブ化係数ベクトルfは、対応する基底関数セットAnのアクティブ化係数を含む各楽器nのサブベクトルfnを含むと見なされ得る。これらの楽器固有のアクティブ化サブベクトルは独立して(たとえば、後処理動作において)処理され得る。たとえば、1つまたは複数のスパーシティ制約(たとえば、ベクトル要素の少なくとも半分が0であること、楽器固有のサブベクトル中の非0要素の数が最大値を超えないことなど)を強制することが望ましいことがある。アクティブ化係数ベクトルの処理は、各フレームについて各非0アクティブ化係数のインデックス番号を符号化すること、各非0アクティブ化係数のインデックスと値とを符号化すること、またはスパースベクトル全体を符号化することを含み得る。そのような情報は、示されたアクティブな基底関数を使用して混合信号を再生するため、または混合信号の特定の部分のみ(たとえば、特定の楽器によってプレイされるノートのみ)を再生するために、(たとえば、別の時間および/またはロケーションにおいて)使用され得る。
[00249]楽器によって生成されるオーディオ信号は、ノートと呼ばれる一連のイベントとしてモデル化され得る。ノートをプレイする調波楽器の音は、たとえば、(アタックとも呼ばれる)オンセット段階、(サスティーンとも呼ばれる)定常段階、および(リリースとも呼ばれる)オフセット段階の、時間的に異なる領域に分割され得る。ノートの時間エンベロープの別の記述(ADSR)は、アタックとサスティーンとの間の追加のディケイ(decay)段階を含む。このコンテキストでは、ノートの持続時間は、アタック段階の開始からリリース段階の終了まで(または、同じ弦上の別のノートの開始など、そのノートを終了する別のイベントまで)の間隔として定義され得る。ノートは単一のピッチを有すると仮定されるが、インベントリは、単一のアタックと(たとえば、ビブラートまたはポルタメントなどのピッチベンディング効果によって生成される)複数のピッチとを有するノートをモデル化するようにも実装され得る。いくつかの楽器(たとえば、ピアノ、ギター、またはハープ)は、コードと呼ばれるイベントにおいて一度に2つ以上のノートを生成し得る。
[00250]異なる楽器によって生成されるノートはサスティーン段階中に同様の音色を有し得るので、そのような期間中にどの楽器がプレイしているかを識別することは困難であり得る。しかしながら、ノートの音色は、段階ごとに変化することが予想され得る。たとえば、アクティブな楽器を識別することは、サスティーン段階中よりもアタックまたはリリース段階中に容易であり得る。
[00251]アクティブ化係数ベクトルが適切な基底関数を示す可能性を高めるために、基底関数間の差分を最大にすることが望ましいことがある。たとえば、基底関数が時間に対するノートのスペクトルの変化に関係する情報を含むことが望ましいことがある。
[00252]時間に対する音色の変化に基づいて基底関数を選択することが望ましいことがある。そのような手法は、ノートの音色のそのような時間領域展開に関係する情報を基底関数インベントリに符号化することを含み得る。たとえば、特定の楽器nの基底関数のセットAnは、2つ以上の対応する信号表現の各々がノートの展開における異なる時間(たとえば、アタック段階の時間、サスティーン段階の時間、およびリリース段階の時間)に対応するように、各ピッチにおいてこれらの信号表現を含み得る。これらの基底関数は、ノートをプレイする楽器の記録の対応するフレームから抽出され得る。
[00253]図27Cに、一般的構成による、オーディオ信号を分解するための装置MF100のブロック図を示す。装置MF100は、(たとえば、タスクT100に関して本明細書で説明したように)オーディオ信号のフレームからの情報に基づいて、周波数範囲にわたる対応する信号表現を計算するための手段F100を含む。装置MF100は、(たとえば、タスクT200に関して本明細書で説明したように)手段F100によって計算された信号表現と、複数の基底関数とに基づいて、アクティブ化係数の各々が複数の基底関数のうちの異なる1つに対応する、アクティブ化係数のベクトルを計算するための手段F200をも含む。
[00254]図27Dに、変換モジュール2100と係数ベクトル計算器2200とを含む、別の一般的構成による、オーディオ信号を分解するための装置A100のブロック図を示す。変換モジュール2100は、(たとえば、タスクT100に関して本明細書で説明したように)オーディオ信号のフレームからの情報に基づいて、周波数範囲にわたる対応する信号表現を計算するように構成される。係数ベクトル計算器2200は、(たとえば、タスクT200に関して本明細書で説明したように)変換モジュール2100によって計算された信号表現と、複数の基底関数とに基づいて、アクティブ化係数の各々が複数の基底関数のうちの異なる1つに対応する、アクティブ化係数のベクトルを計算するように構成される。
[00255]図27Bに、基底関数インベントリが各ピッチにおける各楽器のための複数の信号表現を含む、方法M100の実装形態M200のフローチャートを示す。これらの複数の信号表現の各々は、周波数範囲にわたるエネルギーの複数の異なる分布(たとえば、複数の異なる音色)を記述する。インベントリはまた、異なる時間関係モダリティのために異なる複数の信号表現を含むように構成され得る。1つのそのような例では、インベントリは、各ピッチにおける弾かれた(bowed)弦の複数の信号表現と、各ピッチにおけるはじかれた(plucked)(たとえば、ピッツィカートの)弦の異なる複数の信号表現とを含む。
[00256]方法M200は、タスクT100の複数のインスタンス(この例では、タスクT100AおよびT100B)を含み、各インスタンスは、オーディオ信号の対応する異なるフレームからの情報に基づいて、周波数範囲にわたる対応する信号表現を計算する。様々な信号表現は連結され得、同様に、各基底関数は複数の信号表現の連結であり得る。この例では、タスクT200は、混合フレームの連結を各ピッチにおける信号表現の連結に整合させる。図33に、混合信号yのフレームp1とフレームp2とが整合のために連結された、図32のモデルBf=yの変形B’f=yの一例を示す。
[00257]インベントリは、各ピッチにおける複数の信号表現がトレーニング信号の連続するフレームからとられるように構築され得る。他の実装形態では、各ピッチにおける複数の信号表現が、時間的により大きい窓にわたる(たとえば、連続するフレームではなく時間的に分離されたフレームを含む)ことが望ましいことがある。たとえば、各ピッチにおける複数の信号表現が、アタック段階と、サスティーン段階と、リリース段階との中の少なくとも2つからの信号表現を含むことが望ましいことがある。ノートの時間領域展開に関するより多くの情報を含むことによって、異なるノートの基底関数のセット間の差分が増加され得る。
[00258]図28Aに、セグメントの高周波を強調するタスクT300を含む方法M100の実装形態M300のフローチャートを示す。この例では、タスクT100は、事前強調の後にセグメントの信号表現を計算するように構成される。図29Aに、タスクT300の複数のインスタンスT300A、T300Bを含む、方法M200の実装形態M400のフローチャートを示す。一例では、事前強調タスクT300は、200Hzを上回るエネルギーと総エネルギーとの比を増加させる。
[00259]図28Bに、変換モジュール2100の上流でオーディオ信号に対して高周波強調を実行するように構成された事前強調フィルタ2300(たとえば、1次高域フィルタなどの高域フィルタ)を含む装置A100の実装形態A300のブロック図を示す。図28Cに、事前強調フィルタ2300が変換係数に対して高周波事前強調を実行するように構成された、装置A100の別の実装形態A310のブロック図を示す。これらの場合、また、基底関数の複数Bに対して高周波事前強調(たとえば、高域フィルタ処理)を実行することが望ましいことがある。
[00260]楽音は、ビブラートおよび/またはトレモロなどのカラーレーション効果を含み得る。ビブラートは、一般に、4または5から7、8、10、または12ヘルツまでの範囲内にある変調レートをもつ周波数変調である。ビブラートによるピッチ変化は、シンガーの場合には、0.6から2半音の間で変動し得、管弦楽器の場合には、概して+/−0.5半音よりも少ない(たとえば、弦楽器の場合には、0.2から0.35半音の間である)。トレモロは、一般に同様の変調レートを有する振幅変調である。
[00261]基底関数インベントリにおいてそのような効果をモデル化することは困難であり得る。そのような効果の存在を検出することが望ましいことがある。たとえば、ビブラートの存在は、4〜8Hzの範囲内の周波数領域ピークによって示され得る。また、そのような特性は、再生中に効果を復元するために使用され得るので、検出された効果のレベルの測度を(たとえば、このピークのエネルギーとして)記録することが望ましいことがある。トレモロの検出および定量化では、同様の処理が時間領域において実行され得る。効果が検出され、場合によっては定量化された後、ビブラートの場合には時間に対して周波数を平滑化することによって、またはトレモロの場合には時間に対して振幅を平滑化することによって変調を除去することが望ましいことがある。
[00262]図30Bに、変調レベル計算器(MLC:modulation level calculator)を含む装置A100の実装形態A700のブロック図を示す。MLCは、上記で説明したように、オーディオ信号のセグメント中の検出された変調の測度(たとえば、時間または周波数領域における検出された変調ピークのエネルギー)を計算し、場合によっては記録するように構成される。
[00263]本開示では、複数の音源が同時にアクティブになり得る音楽アプリケーションのための使用事例を可能にするために使用され得る方法について説明する。そのような事例では、可能な場合、アクティブ化係数ベクトルを計算する前に音源を分離することが望ましいことがある。この目的を達成するために、マルチチャネル技法とシングルチャネル技法との組合せが提案される。
[00264]図29Bに、信号を空間クラスタに分離するタスクT500を含む方法M100の実装形態M500のフローチャートを示す。タスクT500は、音源をできる限り多くの空間クラスタに隔離するように構成され得る。一例では、タスクT500は、記録された音響シナリオをできる限り多くの空間クラスタに分離するために、マルチマイクロフォン処理を使用する。そのような処理は、マイクロフォン信号間の利得差および/または位相差に基づき得、そのような差は、周波数帯域全体にわたって評価されるか、あるいは複数の異なる周波数サブバンドまたは周波数ビンの各々において評価され得る。
[00265]空間分離方法のみでは、所望の分離レベルを達成するには不十分であり得る。たとえば、いくつかの音源は、マイクロフォンアレイに対して近接しすぎているか、または場合によっては準最適に構成されることがある(たとえば、複数のバイオリン奏者および/または調波楽器が1つのコーナーに位置し得、打楽器奏者が通常後方に位置する)。典型的な音楽バンドシナリオでは、音源は(たとえば、図34に示すように)互いに近接して位置するかまたは他の音源のさらに後ろに位置し得るので、空間情報のみを使用して、バンドに対して同じ概略的な方向にあるマイクロフォンのアレイによってキャプチャされた信号を処理すると、音源のすべてを互いから区別することができないことがある。タスクT100およびT200は、(たとえば、図34に示すように)個々の楽器を分離するために、本明細書で説明するシングルチャネル基底関数インベントリベースのスパース復元(たとえば、スパース分解)技法を使用して個々の空間クラスタを分析し得る。
[00266]計算しやすさのために、基底関数の複数Bは、基底関数のインベントリAよりもかなり小さいことが望ましいことがある。大きいインベントリから開始して、所与の分離タスクのためのインベントリを狭めることが望ましいことがある。基底関数Bのセットの選択は、記録されたシーン中の楽器の視覚的認識に基づいて低減され得る。たとえば、B個の基底関数は、図2の画像/ビデオ処理ブロック54によって与えられる楽器候補のリストに対応するもの、または図6のシステム500によって識別されるものに制限され得る。
[00267]別の例では、そのような低減はまた、セグメントが打楽器からの音を含むのか調波楽器からの音を含むのかを判断することと、整合のためにインベントリから基底関数の適切な複数Bを選択することとによって実行され得る。打楽器は、調波音の場合の水平線とは反対にインパルス様のスペクトログラム(たとえば、垂直線)を有する傾向がある。
[00268]調波楽器は、一般に、ある基本ピッチおよび関連する音色と、この調波パターンの対応する高周波拡張とによって、スペクトログラムにおいて特徴づけられ得る。したがって、別の例では、スペクトルの高周波レプリカは、低周波スペクトルに基づいて予測され得るので、これらのスペクトルのより低いオクターブのみを分析することによって計算タスクを低減することが望ましいことがある。整合の後に、アクティブな基底関数を高周波に外挿し、混合信号から減算して、残差信号を取得し得、残差信号は、符号化されおよび/またはさらに分解され得る。
[00269]そのような低減はまた、グラフィカルユーザインターフェースにおけるユーザ選択を通して実行され、ならびに/あるいは、第1のスパース復元ラン(sparse recovery run)または最尤適合に基づく、可能性が最も高い楽器および/またはピッチの事前分類によって実行され得る。たとえば、スパース復元演算の第1のランを実行して、復元されたスパース係数の第1のセットを取得し得、この第1のセットに基づいて、適用可能なノート基底関数がスパース復元演算の別のランのために狭められ得る。
[00270]1つの低減手法は、いくつかのピッチ間隔においてスパーシティスコアを測定することによって、いくつかの楽器ノートの存在を検出することを含む。そのような手法は、初期ピッチ推定値に基づいて、1つまたは複数の基底関数のスペクトル形状を改善することと、方法M100において、改善された基底関数を複数Bとして使用することとを含み得る。
[00271]低減手法は、対応する基底関数に射影された音楽信号のスパーシティスコアを測定することによってピッチを識別するように構成され得る。最良のピッチスコアが与えられれば、基底関数の振幅形状は、楽器ノートを識別するために最適化され得る。アクティブな基底関数の低減されたセットは、次いで、方法M100において複数Bとして使用され得る。
[00272]図30Aに、基底関数の第1ランインベントリ低減を含む方法M100の実装形態M600のフローチャートを示す。方法M600は、(たとえば、メルまたはバーク尺度の場合のように、隣接する要素間の周波数距離が周波数とともに増加する)非線形周波数領域におけるセグメントの信号表現を計算するタスクT600を含む。一例では、タスクT600は、定Q変換(constant-Q transform)を使用して非線形信号表現を計算するように構成される。方法M600はまた、非線形信号表現と、複数の同様に非線形の基底関数とに基づいて、アクティブ化係数の第2のベクトルを計算するタスクT700を含む。第2のアクティブ化係数ベクトルからの(たとえば、アクティブなピッチ範囲を示し得るアクティブ化された基底関数の識別情報からの)情報に基づいて、タスクT800は、タスクT200において使用する基底関数の複数Bを選択する。また、方法M200、M300、およびM400は、そのようなタスクT600、T700、およびT800を含むように実装され得ることに明確に留意されたい。
[00273]図31に、基底関数のより大きいセットから(たとえば、インベントリから)複数の基底関数を選択するように構成されたインベントリ低減モジュール(IRM:inventory reduction module)を含む装置A100の実装形態A800のブロック図を示す。モジュールIRMは、(たとえば、定Q変換に従って)非線形周波数領域におけるセグメントの信号表現を計算するように構成された第2の変換モジュール2110を含む。モジュールIRMは、本明細書で説明するように、非線形周波数領域における計算された信号表現と、第2の複数の基底関数とに基づいて、アクティブ化係数の第2のベクトルを計算するように構成された第2の係数ベクトル計算器2210をも含む。モジュールIRMは、本明細書で説明するように、第2のアクティブ化係数ベクトルからの情報に基づいて、基底関数のインベントリの中から複数の基底関数を選択するように構成された基底関数セレクタをも含む。
[00274]方法M100は、オンセット検出(たとえば、楽音のオンセットを検出すること)と、調波楽器スパース係数を改善するための後処理とを含むことが望ましいことがある。アクティブ化係数ベクトルfは、楽器固有の基底関数セットBnのアクティブ化係数を含む、各楽器nの対応するサブベクトルfnを含むと見なされ得、これらのサブベクトルは独立して処理され得る。
[00275]一般的なオンセット検出方法はスペクトルの大きさ(たとえば、エネルギー差)に基づき得る。たとえば、そのような方法は、スペクトルエネルギーおよび/またはピークスロープに基づいてピークを見つけることを含み得る。
[00276]また、各個々の楽器のオンセットを検出することが望ましいことがある。たとえば、調波楽器の中のオンセット検出の方法は、時間的な対応する係数差に基づき得る。1つのそのような例では、調波楽器nのオンセット検出は、現在のフレームの楽器nの係数ベクトル(サブベクトルfn)の最大大きさの要素のインデックスが、前のフレームの楽器nの係数ベクトルの最大大きさの要素のインデックスに等しくない場合にトリガされる。そのような動作は、各楽器について反復され得る。
[00277]調波楽器のスパース係数ベクトルの後処理を実行することが望ましいことがある。たとえば、調波楽器では、大きい大きさを有し、および/または指定された基準を満たす(たとえば、十分に鋭い)アタックプロファイルを有する、対応するサブベクトルの係数を保持すること、ならびに/あるいは残差係数を除去(たとえば、ゼロアウト)することが望ましいことがある。
[00278]各調波楽器について、支配的な大きさと許容できるアタック時間とを有する係数が保持され、残差係数がゼロ化されるように、(たとえば、オンセット検出が示されたときに)各オンセットフレームにおいて係数ベクトルを後処理することが望ましいことがある。アタック時間は、時間に対する平均大きさなどの基準に従って評価され得る。1つのそのような例では、係数の現在の平均値が係数の過去の平均値よりも小さい場合(たとえば、フレーム(t−5)からフレーム(t+4)までなど、現在の窓にわたる係数の値の和が、フレーム(t−15)からフレーム(t−6)までなど、過去の窓にわたる係数の値の和よりも小さい場合)、現在のフレームtの楽器の各係数はゼロアウトされる(すなわち、アタック時間は許容できない)。各オンセットフレームにおける調波楽器のための係数ベクトルのそのような後処理は、最大大きさをもつ係数を保持し、他の係数をゼロアウトすることをも含み得る。各非オンセットフレームにおける各調波楽器について、前のフレーム中の値が0でなかった係数のみを保持し、ベクトルの他の係数をゼロアウトするように係数ベクトルを後処理することが望ましいことがある。
[00279]上述のように、EMアルゴリズムは、初期基底関数行列を発生するため、および/または(たとえば、アクティブ化係数ベクトルに基づいて)基底関数行列を更新するために使用され得る。EM手法のための更新ルールの例について次に説明する。スペクトログラムVftが与えられれば、各時間フレームについてスペクトル基底ベクトルP(f|z)と重みベクトルPt(z)とを推定することが望まれる。これらの分布から行列分解が得られる。
[00280]EMアルゴリズムは、以下のように適用される。最初に、重みベクトルPt(z)とスペクトル基底ベクトルP(f|z)とをランダムに初期化する。次いで、収束するまで後続のステップ間を反復する。1)予想(E)ステップ − スペクトル基底ベクトルP(f|z)と重みベクトルPt(z)とが与えられれば、後の分布Pt(z|f)を推定する。この推定は、以下のように表され得る。
[00281]2)最大化(M)ステップ − 後の分布Pt(Z|f)が与えられれば、重みベクトルPt(z)とスペクトル基底ベクトルP(f|z)とを推定する。重みベクトルの推定は、以下のように表され得る。
スペクトル基底ベクトルの推定は、以下のように表され得る。
[00282]本明細書で開示するシステムおよび方法は、コンピュータ、ゲーミングコンソール、またはセルラーフォン、携帯情報端末(PDA)、スマートフォンなどのハンドヘルドデバイスなどを含む、任意の好適な視聴覚システム中に含まれ得る。本明細書で説明した構成要素の主な機能は、概してデジタル処理領域において実装される。しかしながら、これらの構成要素は、代替的に、好適なアナログ構成要素を使用するアナログ領域において実装されるか、またはアナログ電子構成要素とデジタル電子構成要素との任意の好適な組合せにおいて実装され得る。
[00283]音響信号を受信するように構成された2つ以上のマイクロフォンのアレイと、1つまたは複数のカメラとを有するポータブル視聴覚感知デバイス内で、本明細書で説明したシステムおよび方法を実装することが望ましいことがある。そのようなアレイを含むように実装され得、オーディオ記録および/または音声通信適用例のために使用され得るポータブルオーディオ感知デバイスの例としては、電話ハンドセット(たとえば、セルラー電話ハンドセット)、ハンドヘルドオーディオおよび/またはビデオレコーダ、携帯情報端末(PDA)または他のハンドヘルドコンピューティングデバイス、およびノートブックコンピュータ、ラップトップコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、あるいは他のポータブルコンピューティングデバイスがある。ポータブルコンピューティングデバイスの種類は現在、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、ウルトラポータブルコンピュータ、タブレットコンピュータ、モバイルインターネットデバイス、スマートブック、およびスマートフォンなどの名称を有するデバイスを含む。そのようなデバイスは、ディスプレイスクリーンを含む上部パネルと、キーボードを含み得る下部パネルとを有し得、それらの2つのパネルは、クラムシェルまたは他のヒンジ結合関係で接続され得る。そのようなデバイスは、上面上にタッチスクリーンディスプレイを含むタブレットコンピュータとして同様に実装され得る。そのような方法を実行するように構築され得、オーディオ記録および/または音声通信適用例のために使用され得るオーディオ感知デバイスの他の例としては、テレビジョンディスプレイ、セットトップボックス、ならびにオーディオおよび/またはビデオ会議デバイスがある。
[00284]本明細書で開示するシステムおよび方法は、リアルタイムで視聴覚情報を処理するように、ならびに以前に記録された視聴覚情報を処理するように実装され得る。
[00285]本明細書で説明したシステム、装置、デバイスおよびそれらのそれぞれの構成要素の機能、ならびに方法ステップおよびモジュールは、ハードウェアで実装されるか、ハードウェアによって実行されるソフトウェア/ファームウェアで実装されるか、またはそれらの任意の好適な組合せで実装され得る。ソフトウェア/ファームウェアは、マイクロプロセッサ、DSP、埋込みコントローラまたは知的財産(IP:intellectual property)コアなど、1つまたは複数のデジタル回路によって実行可能な命令のセット(たとえば、プログラミングコードセグメント)を有するプログラムであり得る。ソフトウェア/ファームウェアで実装される場合、機能は、命令またはコードとして1つまたは複数のコンピュータ可読媒体上に記憶され得る。コンピュータ可読媒体はコンピュータ記憶媒体を含み得る。記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。限定ではなく例として、そのようなコンピュータ可読媒体は、RAM、ROM、EEPROM(登録商標)、CD−ROMまたは他の光ディスクストレージ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは命令またはデータ構造の形態の所望のプログラムコードを搬送または記憶するために使用され得、コンピュータによってアクセスされ得る、任意の他の媒体を備えることができる。本明細書で使用するディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)およびblu−ray(登録商標)ディスク(disc)を含み、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)は、データをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。
[00286]視聴覚シーン分析システムおよび方法のいくつかの例が開示された。これらのシステムおよび方法は例であり、可能な結合は本明細書で説明したものに限定されない。その上、これらの例に対する様々な変更が可能であり、本明細書で提示した原理は他のシステムにも同様に適用され得る。たとえば、本明細書で開示する原理は、パーソナルコンピュータ、エンターテインメントカウンセル、ビデオゲームなどのデバイスに適用され得る。さらに、様々な構成要素および/または方法ステップ/ブロックは、特許請求の範囲から逸脱することなく、明確に開示したもの以外の構成で実装され得る。
[00287]したがって、これらの教示に鑑みて、他の実施形態および変更形態は当業者に容易に行われる。したがって、以下の特許請求の範囲は、上記の明細書および添付の図面とともに閲覧されたとき、すべてのそのような実施形態および変更形態を包含するものである。
以下に、出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
デバイスにおいて、シーン中のオブジェクトを認識する方法であって、
前記シーンにおいて記録されたオーディオに基づいて前記オブジェクトに対応するキーポイントを選択することと、
前記選択されたキーポイントに基づいて前記オブジェクトを識別することとを備える、方法。
[C2]
前記シーンにおいて記録されたオーディオに基づいて、1つまたは複数のオブジェクトに対応する1つまたは複数のキーポイントシグネチャを選択することと、
前記シーンの画像中の複数のキーポイントを識別することと、
前記オブジェクトを識別するために前記キーポイントを前記キーポイントシグネチャと比較することとをさらに備える、C1に記載の方法。
[C3]
前記シーンにおいて記録された前記オーディオに基づいてシーン画像の一部分を選択することと、
前記画像の前記一部分内からのみ前記キーポイントを選択することとをさらに備える、C1に記載の方法。
[C4]
前記シーンにおいて記録された前記オーディオに基づいて前記画像の一部分を選択することが、
前記オーディオからオーディオ到来方向(DOA)を判断することと、
前記オーディオDOAに基づいて前記画像の前記一部分を選択することとを含む、C3に記載の方法。
[C5]
前記オーディオDOAを判断することが、
前記シーンに位置する複数のマイクロフォンにおいて前記オーディオを受信し、それによって複数のマイクロフォン信号を生成することと、
前記マイクロフォン信号に基づいて前記オーディオDOAを判断することとを含む、C4に記載の方法。
[C6]
前記シーンのビデオ記録から複数の局所動きベクトルを計算することと、
前記局所動きベクトルを1つまたは複数のオブジェクトに対応する所定の局所動きベクトルのデータベースと比較することによって、および前記キーポイントを1つまたは複数のキーポイントシグネチャと比較することによって前記オブジェクトを識別することとをさらに備える、C1に記載の方法。
[C7]
前記シーンにおいて記録された前記オーディオから複数の音響認識特徴を計算することと、
前記音響認識特徴を1つまたは複数のオブジェクトに対応する所定の音響認識特徴のデータベースと比較することによって、および前記キーポイントを1つまたは複数のキーポイントシグネチャと比較することによって前記オブジェクトを識別することとをさらに備える、C1に記載の方法。
[C8]
前記音響認識特徴がメル周波数ケプストラム係数を含む、C7に記載の方法。
[C9]
前記画像中に現れる1つまたは複数のオブジェクトについての範囲情報を判断することと、
前記範囲情報に基づいて前記キーポイントを分析することとをさらに備える、C1に記載の方法。
[C10]
範囲情報を判断することが、オートフォーカスカメラを使用して範囲情報を判断することと、マルチカメラ画像視差推定を使用して範囲情報を判断することと、上記の任意の好適な組合せとからなるグループから選択される、C9に記載の方法。
[C11]
シーンにおいて記録されたオーディオに基づいて前記シーン中のオブジェクトに対応するキーポイントを選択するように構成されたキーポイントセレクタと、
前記選択されたキーポイントに基づいて前記オブジェクトを識別するように構成された整合デバイスとを備える、装置。
[C12]
シーンの画像中の複数のキーポイントを識別するように構成されたキーポイント検出器をさらに備え、
前記キーポイントセレクタが、前記シーンにおいて記録されたオーディオに基づいて、1つまたは複数のオブジェクトに対応する1つまたは複数のキーポイントシグネチャを選択するように構成され、
前記整合デバイスが、前記シーン中のオブジェクトを識別するために前記キーポイントを前記キーポイントシグネチャと比較するように構成された、C11に記載の装置。
[C13]
前記シーンにおいて記録された前記オーディオに基づいて前記シーンの画像の一部分を選択するように構成された第1のセレクタと、
前記画像の前記一部分内からのみ前記キーポイントを選択するように構成された第2のセレクタとをさらに備える、C11に記載の装置。
[C14]
前記第1のセレクタが、
前記オーディオからオーディオ到来方向(DOA)を判断するように構成された検出器と、
前記オーディオDOAに基づいて前記画像の前記一部分を選択するように構成された第3のセレクタとを含む、C13に記載の装置。
[C15]
前記検出器が、
前記オーディオを受信して、複数のマイクロフォン信号を生成するための、前記シーンに位置する複数のマイクロフォンと、
前記マイクロフォン信号に基づいて前記オーディオDOAを判断するように構成されたオーディオプロセッサとを含む、C14に記載の装置。
[C16]
前記シーンのビデオ記録から複数の局所動きベクトルを計算するように構成されたビデオプロセッサをさらに備え、
前記整合デバイスが、前記局所動きベクトルを1つまたは複数のオブジェクトに対応する所定の局所動きベクトルのデータベースと比較することによって、および前記キーポイントを1つまたは複数のキーポイントシグネチャと比較することによって前記オブジェクトを識別するように構成された、C11に記載の装置。
[C17]
前記シーンにおいて記録された前記オーディオから複数の音響認識特徴を計算するように構成されたオーディオプロセッサをさらに備え、
前記整合デバイスが、前記音響認識特徴を1つまたは複数のオブジェクトに対応する所定の音響認識特徴のデータベースと比較することによって、および前記キーポイントを1つまたは複数のキーポイントシグネチャと比較することによって前記オブジェクトを識別するように構成された、C11に記載の装置。
[C18]
前記音響認識特徴がメル周波数ケプストラム係数を含む、C17に記載の装置。
[C19]
前記画像中に現れる1つまたは複数のオブジェクトについての範囲情報を判断するように構成された範囲検出器と、
前記範囲情報に基づいて前記キーポイントを分析するように構成されたキーポイント検出器とをさらに備える、C11に記載の装置。
[C20]
前記範囲検出器が、オートフォーカスカメラと、マルチカメラアレイと、上記の任意の好適な組合せとからなるグループから選択される検出器を含む、C19に記載の装置。
[C21]
シーンにおいて記録されたオーディオに基づいて前記シーン中のオブジェクトに対応するキーポイントを選択するための手段と、
前記選択されたキーポイントに基づいて前記オブジェクトを識別するための手段とを備える、装置。
[C22]
前記シーンにおいて記録されたオーディオに基づいて、1つまたは複数のオブジェクトに対応する1つまたは複数のキーポイントシグネチャを選択するための手段と、
前記シーンの画像中の複数のキーポイントを識別するための手段と、
前記シーン中の前記オブジェクトを識別するために前記キーポイントを前記キーポイントシグネチャと比較するための手段とをさらに備える、C21に記載の装置。
[C23]
前記シーンにおいて記録された前記オーディオに基づいて前記シーンの画像の一部分を選択するための手段と、
前記画像の前記一部分内からのみ前記キーポイントを選択するための手段とをさらに備える、C21に記載の装置。
[C24]
前記シーンにおいて記録された前記オーディオに基づいて前記画像の一部分を選択するための前記手段が、
前記オーディオからオーディオ到来方向(DOA)を判断するための手段と、
前記オーディオDOAに基づいて前記画像の前記一部分を選択するための手段とを含む、C23に記載の装置。
[C25]
前記オーディオDOAを判断するための手段が、
前記シーンに位置する複数のマイクロフォンにおいて前記オーディオを受信し、それによって複数のマイクロフォン信号を生成するための手段と、
前記マイクロフォン信号に基づいて前記オーディオDOAを判断するための手段とを含む、C24に記載の装置。
[C26]
前記シーンのビデオ記録から複数の局所動きベクトルを計算するための手段と、
前記局所動きベクトルを1つまたは複数のオブジェクトに対応する所定の局所動きベクトルのデータベースと比較することによって、および前記キーポイントを1つまたは複数のキーポイントシグネチャと比較することによって前記オブジェクトを識別するための手段とをさらに備える、C21に記載の装置。
[C27]
前記シーンにおいて記録された前記オーディオから複数の音響認識特徴を計算するための手段と、
前記音響認識特徴を1つまたは複数のオブジェクトに対応する所定の音響認識特徴のデータベースと比較することによって、および前記キーポイントを1つまたは複数のキーポイントシグネチャと比較することによって前記オブジェクトを識別するための手段とをさらに備える、C21に記載の装置。
[C28]
前記音響認識特徴がメル周波数ケプストラム係数を含む、C27に記載の装置。
[C29]
画像中に現れる1つまたは複数のオブジェクトについての範囲情報を判断するための手段と、
前記範囲情報に基づいて前記キーポイントを分析するための手段とをさらに備える、C21に記載の装置。
[C30]
範囲情報を判断するための手段が、オートフォーカスカメラを使用して範囲情報を判断するための手段と、マルチカメラ画像視差推定を使用して範囲情報を判断するための手段と、上記の任意の好適な組合せとからなるグループから選択される、C29に記載の装置。
[C31]
シーンにおいて記録されたオーディオに基づいて前記シーン中のオブジェクトに対応するキーポイントを選択するためのコードと、
前記選択されたキーポイントに基づいて前記オブジェクトを識別するためのコードとを備える、1つまたは複数のプロセッサによって実行可能な命令のセットを具備するコンピュータ可読媒体。
[C32]
前記シーンにおいて記録されたオーディオに基づいて、1つまたは複数のオブジェクトに対応する1つまたは複数のキーポイントシグネチャを選択するためのコードと、
前記シーンの画像中の複数のキーポイントを識別するためのコードと、
前記シーン中の前記オブジェクトを識別するために前記キーポイントを前記キーポイントシグネチャと比較するためのコードとをさらに備える、C31に記載のコンピュータ可読媒体。
[C33]
前記シーンにおいて記録された前記オーディオに基づいて画像の一部分を選択するためのコードと、
前記画像の前記一部分内からのみ前記キーポイントを選択するためのコードとをさらに備える、C31に記載のコンピュータ可読媒体。
[C34]
前記シーンにおいて記録された前記オーディオに基づいて前記画像の一部分を選択するための前記コードが、
前記オーディオからオーディオ到来方向(DOA)を判断するためのコードと、
前記オーディオDOAに基づいて前記画像の前記一部分を選択するためのコードとを含む、C33に記載のコンピュータ可読媒体。
[C35]
前記オーディオDOAを判断するためのコードが、
前記シーンに位置する複数のマイクロフォンにおいて前記オーディオを受信し、それによって複数のマイクロフォン信号を生成するためのコードと、
前記マイクロフォン信号に基づいて前記オーディオDOAを判断するためのコードとを含む、C34に記載のコンピュータ可読媒体。
[C36]
前記シーンのビデオ記録から複数の局所動きベクトルを計算するためのコードと、
前記局所動きベクトルを1つまたは複数のオブジェクトに対応する所定の局所動きベクトルのデータベースと比較することによって、および前記キーポイントを1つまたは複数のキーポイントシグネチャと比較することによって前記オブジェクトを識別するためのコードとをさらに備える、C31に記載のコンピュータ可読媒体。
[C37]
前記シーンにおいて記録された前記オーディオから複数の音響認識特徴を計算するためのコードと、
前記音響認識特徴を1つまたは複数のオブジェクトに対応する所定の音響認識特徴のデータベースと比較することによって、および前記キーポイントを1つまたは複数のキーポイントシグネチャと比較することによって前記オブジェクトを識別するためのコードとをさらに備える、C31に記載のコンピュータ可読媒体。
[C38]
前記音響認識特徴がメル周波数ケプストラム係数を含む、C37に記載のコンピュータ可読媒体。
[C39]
画像中に現れる1つまたは複数のオブジェクトについての範囲情報を判断するためのコードと、
前記範囲情報に基づいて前記キーポイントを分析するためのコードとをさらに備える、C31に記載のコンピュータ可読媒体。
[C40]
範囲情報を判断するためのコードが、オートフォーカスカメラを使用して範囲情報を判断するためのコードと、マルチカメラ画像視差推定を使用して範囲情報を判断するためのコードと、上記の任意の好適な組合せとからなるグループから選択される、C39に記載のコンピュータ可読媒体。

Claims (40)

  1. デバイスによって実行される方法であって、前記方法は、
    複数の音源を有するシーンにおいて記録されたオーディオから複数の音響認識特徴を計算することと、
    オブジェクトの音源のタイプを判断するために前記音響認識特徴を1つまたは複数のオブジェクトに対応する所定の音響認識特徴と比較することと、
    前記オーディオからオーディオ到来方向(DOA)を判断することと、
    前記音源のタイプに基づいて前記オブジェクトに対応するキーポイントを選択することと、
    前記選択されたキーポイントおよび前記音源のタイプに基づいて前記オブジェクトを識別することとを備え、
    ここにおいて、前記キーポイントを選択することは、前記オーディオDOAと、前記シーンの画像中の各キーポイントの深さ情報と、に基づいて、前記シーンの画像中からキーポイントを選択するための空間探索空間を狭めることを含む、
    方法。
  2. 前記シーンにおいて記録されたオーディオに基づいて、1つまたは複数のオブジェクトに対応する1つまたは複数のキーポイントシグネチャを選択することと、
    前記シーンの画像中の複数のキーポイントを識別することと、
    前記オブジェクトを識別するために前記キーポイントを前記キーポイントシグネチャと比較することとをさらに備える、請求項1に記載の方法。
  3. 前記シーンにおいて記録された前記オーディオに基づいてシーン画像の一部分を選択することと、
    前記画像の前記一部分内からのみ前記キーポイントを選択することとをさらに備える、請求項1に記載の方法。
  4. 前記シーンにおいて記録された前記オーディオに基づいて前記画像の一部分を選択することが、
    前記オーディオからオーディオDOAを判断することと、
    前記オーディオDOAに基づいて前記画像の前記一部分を選択することとを含む、請求項3に記載の方法。
  5. 前記オーディオDOAを判断することが、
    前記シーンに位置する複数のマイクロフォンにおいて前記オーディオを受信し、それによって複数のマイクロフォン信号を生成することと、
    前記マイクロフォン信号に基づいて前記オーディオDOAを判断することとを含む、請求項4に記載の方法。
  6. 前記シーンのビデオ記録から複数の局所動きベクトルを計算することと、
    前記局所動きベクトルを1つまたは複数のオブジェクトに対応する所定の局所動きベクトルのデータベースと比較することによって、および前記キーポイントを1つまたは複数のキーポイントシグネチャと比較することによって前記オブジェクトを識別することとをさらに備える、請求項1に記載の方法。
  7. 前記オブジェクトを識別することは、前記キーポイントを1つまたは複数のキーポイントシグネチャと比較することに基づく、請求項1に記載の方法。
  8. 前記音響認識特徴がメル周波数ケプストラム係数を含む、請求項7に記載の方法。
  9. 画像中に現れる1つまたは複数のオブジェクトについての範囲情報を判断することと、
    前記範囲情報に基づいて前記キーポイントを分析することとをさらに備える、請求項1に記載の方法。
  10. 範囲情報を判断することが、オートフォーカスカメラを使用して範囲情報を判断することと、マルチカメラ画像視差推定を使用して範囲情報を判断することと、上記の任意の組合せとからなるグループから選択される、請求項9に記載の方法。
  11. 複数の音源を有するシーンにおいて記録されたオーディオから複数の音響認識特徴を計算するように構成されたオーディオプロセッサと、
    音源のタイプに基づいてオブジェクトに対応するキーポイントを選択するように構成されたキーポイントセレクタと、
    前記選択されたキーポイントに基づいて前記オブジェクトを識別し、前記オブジェクトの前記音源のタイプを判断するために前記音響認識特徴を1つまたは複数のオブジェクトに対応する所定の音響認識特徴と比較するように構成された整合デバイスとを備え、
    ここにおいて、前記装置は、前記オーディオからオーディオ到来方向(DOA)を判断するように構成されており、前記キーポイントセレクタは、前記オーディオDOAと、前記シーンの画像中の各キーポイントの深さ情報と、に基づいて、前記シーンの画像中からキーポイントを選択するための空間探索空間を狭めるようにさらに構成されている、
    装置。
  12. シーンの画像中の複数のキーポイントを識別するように構成されたキーポイント検出器をさらに備え、
    前記キーポイントセレクタが、前記シーンにおいて記録されたオーディオに基づいて、1つまたは複数のオブジェクトに対応する1つまたは複数のキーポイントシグネチャを選択するように構成され、
    前記整合デバイスが、前記シーン中のオブジェクトを識別するために前記キーポイントを前記キーポイントシグネチャと比較するように構成された、請求項11に記載の装置。
  13. 前記シーンにおいて記録された前記オーディオに基づいて前記シーンの画像の一部分を選択するように構成された第1のセレクタと、
    前記画像の前記一部分内からのみ前記キーポイントを選択するように構成された第2のセレクタとをさらに備える、請求項11に記載の装置。
  14. 前記第1のセレクタが、
    前記オーディオからオーディオDOAを判断するように構成された検出器と、
    前記オーディオDOAに基づいて前記画像の前記一部分を選択するように構成された第3のセレクタとを含む、請求項13に記載の装置。
  15. 前記検出器が、
    前記オーディオを受信して、複数のマイクロフォン信号を生成するための、前記シーンに位置する複数のマイクロフォンと、
    前記マイクロフォン信号に基づいて前記オーディオDOAを判断するように構成されたオーディオプロセッサとを含む、請求項14に記載の装置。
  16. 前記シーンのビデオ記録から複数の局所動きベクトルを計算するように構成されたビデオプロセッサをさらに備え、
    前記整合デバイスが、前記局所動きベクトルを1つまたは複数のオブジェクトに対応する所定の局所動きベクトルのデータベースと比較することによって、および前記キーポイントを1つまたは複数のキーポイントシグネチャと比較することによって前記オブジェクトを識別するように構成された、請求項11に記載の装置。
  17. 前記整合デバイスは、前記キーポイントを1つまたは複数のキーポイントシグネチャと比較することによって前記オブジェクトを識別するように構成される、請求項11に記載の装置。
  18. 前記音響認識特徴がメル周波数ケプストラム係数を含む、請求項17に記載の装置。
  19. 画像中に現れる1つまたは複数のオブジェクトについての範囲情報を判断するように構成された範囲検出器と、
    前記範囲情報に基づいて前記キーポイントを分析するように構成されたキーポイント検出器とをさらに備える、請求項11に記載の装置。
  20. 前記範囲検出器が、オートフォーカスカメラと、マルチカメラアレイと、上記の任意の組合せとからなるグループから選択される検出器を含む、請求項19に記載の装置。
  21. 複数の音源を有するシーンにおいて記録されたオーディオから複数の音響認識特徴を計算するための手段と、
    オブジェクトの音源のタイプを判断するために前記音響認識特徴を1つまたは複数のオブジェクトに対応する所定の音響認識特徴と比較するための手段と、
    前記オーディオからオーディオ到来方向(DOA)を判断する手段と、
    前記音源のタイプに基づいて前記オブジェクトに対応するキーポイントを選択するための手段と、
    前記選択されたキーポイントおよび前記音源のタイプに基づいて前記オブジェクトを識別するための手段とを備え、
    ここにおいて、前記キーポイントを選択する手段は、前記オーディオDOAと、前記シーンの画像中の各キーポイントの深さ情報と、に基づいて、前記シーンの画像中からキーポイントを選択するための空間探索空間を狭める手段を含む、
    装置。
  22. 前記シーンにおいて記録されたオーディオに基づいて、1つまたは複数のオブジェクトに対応する1つまたは複数のキーポイントシグネチャを選択するための手段と、
    前記シーンの画像中の複数のキーポイントを識別するための手段と、
    前記シーン中の前記オブジェクトを識別するために前記キーポイントを前記キーポイントシグネチャと比較するための手段とをさらに備える、請求項21に記載の装置。
  23. 前記シーンにおいて記録された前記オーディオに基づいて前記シーンの画像の一部分を選択するための手段と、
    前記画像の前記一部分内からのみ前記キーポイントを選択するための手段とをさらに備える、請求項21に記載の装置。
  24. 前記シーンにおいて記録された前記オーディオに基づいて前記画像の一部分を選択するための前記手段が、
    前記オーディオからオーディオDOAを判断するための手段と、
    前記オーディオDOAに基づいて前記画像の前記一部分を選択するための手段とを含む、請求項23に記載の装置。
  25. 前記オーディオDOAを判断するための手段が、
    前記シーンに位置する複数のマイクロフォンにおいて前記オーディオを受信し、それによって複数のマイクロフォン信号を生成するための手段と、
    前記マイクロフォン信号に基づいて前記オーディオDOAを判断するための手段とを含む、請求項24に記載の装置。
  26. 前記シーンのビデオ記録から複数の局所動きベクトルを計算するための手段と、
    前記局所動きベクトルを1つまたは複数のオブジェクトに対応する所定の局所動きベクトルのデータベースと比較することによって、および前記キーポイントを1つまたは複数のキーポイントシグネチャと比較することによって前記オブジェクトを識別するための手段とをさらに備える、請求項21に記載の装置。
  27. 前記キーポイントを1つまたは複数のキーポイントシグネチャと比較するための手段をさらに備える、請求項21に記載の装置。
  28. 前記音響認識特徴がメル周波数ケプストラム係数を含む、請求項27に記載の装置。
  29. 画像中に現れる1つまたは複数のオブジェクトについての範囲情報を判断するための手段と、
    前記範囲情報に基づいて前記キーポイントを分析するための手段とをさらに備える、請求項21に記載の装置。
  30. 範囲情報を判断するための手段が、オートフォーカスカメラを使用して範囲情報を判断するための手段と、マルチカメラ画像視差推定を使用して範囲情報を判断するための手段と、上記の任意の組合せとからなるグループから選択される、請求項29に記載の装置。
  31. 複数の音源を有するシーンにおいて記録されたオーディオから複数の音響認識特徴を計算するためのコードと、
    オブジェクトの音源のタイプを判断するために前記音響認識特徴を1つまたは複数のオブジェクトに対応する所定の音響認識特徴と比較するためのコードと、
    前記オーディオからオーディオ到来方向(DOA)を判断するためのコードと、
    前記音源のタイプに基づいて前記オブジェクトに対応するキーポイントを選択するためのコードと、
    前記選択されたキーポイントおよび前記音源のタイプに基づいて前記オブジェクトを識別するためのコードとを備え、
    ここにおいて、前記キーポイントを選択するためのコードは、前記オーディオDOAと、前記シーンの画像中の各キーポイントの深さ情報と、に基づいて、前記シーンの画像中からキーポイントを選択するための空間探索空間を狭めるためのコードを含む、
    1つまたは複数のプロセッサによって実行可能な命令のセットを具備する非一時的有形コンピュータ可読媒体。
  32. 前記シーンにおいて記録されたオーディオに基づいて、1つまたは複数のオブジェクトに対応する1つまたは複数のキーポイントシグネチャを選択するためのコードと、
    前記シーンの画像中の複数のキーポイントを識別するためのコードと、
    前記シーン中の前記オブジェクトを識別するために前記キーポイントを前記キーポイントシグネチャと比較するためのコードとをさらに備える、請求項31に記載のコンピュータ可読媒体。
  33. 前記シーンにおいて記録された前記オーディオに基づいて画像の一部分を選択するためのコードと、
    前記画像の前記一部分内からのみ前記キーポイントを選択するためのコードとをさらに備える、請求項31に記載のコンピュータ可読媒体。
  34. 前記シーンにおいて記録された前記オーディオに基づいて前記画像の一部分を選択するための前記コードが、
    前記オーディオからオーディオDOAを判断するためのコードと、
    前記オーディオDOAに基づいて前記画像の前記一部分を選択するためのコードとを含む、請求項33に記載のコンピュータ可読媒体。
  35. 前記オーディオDOAを判断するためのコードが、
    前記シーンに位置する複数のマイクロフォンにおいて前記オーディオを受信し、それによって複数のマイクロフォン信号を生成するためのコードと、
    前記マイクロフォン信号に基づいて前記オーディオDOAを判断するためのコードとを含む、請求項34に記載のコンピュータ可読媒体。
  36. 前記シーンのビデオ記録から複数の局所動きベクトルを計算するためのコードと、
    前記局所動きベクトルを1つまたは複数のオブジェクトに対応する所定の局所動きベクトルのデータベースと比較することによって、および前記キーポイントを1つまたは複数のキーポイントシグネチャと比較することによって前記オブジェクトを識別するためのコードとをさらに備える、請求項31に記載のコンピュータ可読媒体。
  37. 前記キーポイントを1つまたは複数のキーポイントシグネチャと比較するためのコードをさらに備える、請求項31に記載のコンピュータ可読媒体。
  38. 前記音響認識特徴がメル周波数ケプストラム係数を含む、請求項37に記載のコンピュータ可読媒体。
  39. 画像中に現れる1つまたは複数のオブジェクトについての範囲情報を判断するためのコードと、
    前記範囲情報に基づいて前記キーポイントを分析するためのコードとをさらに備える、請求項31に記載のコンピュータ可読媒体。
  40. 範囲情報を判断するためのコードが、オートフォーカスカメラを使用して範囲情報を判断するためのコードと、マルチカメラ画像視差推定を使用して範囲情報を判断するためのコードと、上記の任意の組合せとからなるグループから選択される、請求項39に記載のコンピュータ可読媒体。
JP2017225904A 2012-04-13 2017-11-24 マルチモーダル整合方式を使用するオブジェクト認識 Pending JP2018077479A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201261623910P 2012-04-13 2012-04-13
US61/623,910 2012-04-13
US13/664,295 2012-10-30
US13/664,295 US9495591B2 (en) 2012-04-13 2012-10-30 Object recognition using multi-modal matching scheme

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2015505720A Division JP2015514239A (ja) 2012-04-13 2013-03-07 マルチモーダル整合方式を使用するオブジェクト認識

Publications (1)

Publication Number Publication Date
JP2018077479A true JP2018077479A (ja) 2018-05-17

Family

ID=49325131

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2015505720A Pending JP2015514239A (ja) 2012-04-13 2013-03-07 マルチモーダル整合方式を使用するオブジェクト認識
JP2017225904A Pending JP2018077479A (ja) 2012-04-13 2017-11-24 マルチモーダル整合方式を使用するオブジェクト認識

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2015505720A Pending JP2015514239A (ja) 2012-04-13 2013-03-07 マルチモーダル整合方式を使用するオブジェクト認識

Country Status (7)

Country Link
US (1) US9495591B2 (ja)
EP (1) EP2836964A1 (ja)
JP (2) JP2015514239A (ja)
KR (1) KR20140145195A (ja)
CN (1) CN104246796B (ja)
IN (1) IN2014MN01958A (ja)
WO (1) WO2013154701A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021517649A (ja) * 2018-12-25 2021-07-26 ヂェージャン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 位置姿勢推定方法、装置、電子機器及び記憶媒体
KR102437760B1 (ko) * 2021-05-27 2022-08-29 이충열 컴퓨팅 장치에 의한 음향의 처리 방법, 영상 및 음향의 처리 방법 및 이를 이용한 시스템들
US11431887B2 (en) 2018-07-24 2022-08-30 Sony Semiconductor Solutions Corporation Information processing device and method for detection of a sound image object

Families Citing this family (122)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8175617B2 (en) 2009-10-28 2012-05-08 Digimarc Corporation Sensor-based mobile search, related methods and systems
US8810598B2 (en) 2011-04-08 2014-08-19 Nant Holdings Ip, Llc Interference based augmented reality hosting platforms
US9489567B2 (en) * 2011-04-11 2016-11-08 Intel Corporation Tracking and recognition of faces using selected region classification
US8886526B2 (en) * 2012-05-04 2014-11-11 Sony Computer Entertainment Inc. Source separation using independent component analysis with mixed multi-variate probability density function
US9099096B2 (en) * 2012-05-04 2015-08-04 Sony Computer Entertainment Inc. Source separation by independent component analysis with moving constraint
US8880395B2 (en) * 2012-05-04 2014-11-04 Sony Computer Entertainment Inc. Source separation by independent component analysis in conjunction with source direction information
US10175335B1 (en) 2012-09-26 2019-01-08 Foundation For Research And Technology-Hellas (Forth) Direction of arrival (DOA) estimation apparatuses, methods, and systems
US10136239B1 (en) 2012-09-26 2018-11-20 Foundation For Research And Technology—Hellas (F.O.R.T.H.) Capturing and reproducing spatial sound apparatuses, methods, and systems
US20160210957A1 (en) 2015-01-16 2016-07-21 Foundation For Research And Technology - Hellas (Forth) Foreground Signal Suppression Apparatuses, Methods, and Systems
US10149048B1 (en) 2012-09-26 2018-12-04 Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems
US9554203B1 (en) * 2012-09-26 2017-01-24 Foundation for Research and Technolgy—Hellas (FORTH) Institute of Computer Science (ICS) Sound source characterization apparatuses, methods and systems
US9549253B2 (en) 2012-09-26 2017-01-17 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Sound source localization and isolation apparatuses, methods and systems
US9955277B1 (en) * 2012-09-26 2018-04-24 Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) Spatial sound characterization apparatuses, methods and systems
EP2916567B1 (en) 2012-11-02 2020-02-19 Sony Corporation Signal processing device and signal processing method
JP6202003B2 (ja) * 2012-11-02 2017-09-27 ソニー株式会社 信号処理装置、信号処理方法
CN103916723B (zh) * 2013-01-08 2018-08-10 联想(北京)有限公司 一种声音采集方法以及一种电子设备
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
KR101832835B1 (ko) * 2013-07-11 2018-02-28 삼성전자주식회사 영상 처리 모듈, 초음파 영상 장치, 영상 처리 방법 및 초음파 영상 장치의 제어 방법
US9729994B1 (en) * 2013-08-09 2017-08-08 University Of South Florida System and method for listener controlled beamforming
US20150085615A1 (en) * 2013-09-25 2015-03-26 Lenovo (Singapore) Pte, Ltd. Motion modified steering vector
US9582516B2 (en) 2013-10-17 2017-02-28 Nant Holdings Ip, Llc Wide area augmented reality location-based services
EP2884491A1 (en) * 2013-12-11 2015-06-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Extraction of reverberant sound using microphone arrays
US9338575B2 (en) * 2014-02-19 2016-05-10 Echostar Technologies L.L.C. Image steered microphone array
JP6320806B2 (ja) * 2014-03-17 2018-05-09 国立大学法人豊橋技術科学大学 三次元モデル検索方法、及び三次元モデル検索システム
CN103905810B (zh) * 2014-03-17 2017-12-12 北京智谷睿拓技术服务有限公司 多媒体处理方法及多媒体处理装置
KR20150118855A (ko) * 2014-04-15 2015-10-23 삼성전자주식회사 전자 장치 및 전자 장치의 레코딩 방법
US9990433B2 (en) 2014-05-23 2018-06-05 Samsung Electronics Co., Ltd. Method for searching and device thereof
US11314826B2 (en) 2014-05-23 2022-04-26 Samsung Electronics Co., Ltd. Method for searching and device thereof
CN105224941B (zh) * 2014-06-18 2018-11-20 台达电子工业股份有限公司 对象辨识与定位方法
US10679407B2 (en) 2014-06-27 2020-06-09 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for modeling interactive diffuse reflections and higher-order diffraction in virtual environment scenes
JP6118838B2 (ja) * 2014-08-21 2017-04-19 本田技研工業株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
US11308928B2 (en) * 2014-09-25 2022-04-19 Sunhouse Technologies, Inc. Systems and methods for capturing and interpreting audio
EP3889954B1 (en) * 2014-09-25 2024-05-08 Sunhouse Technologies, Inc. Method for extracting audio from sensors electrical signals
US10061009B1 (en) 2014-09-30 2018-08-28 Apple Inc. Robust confidence measure for beamformed acoustic beacon for device tracking and localization
GB2533373B (en) * 2014-12-18 2018-07-04 Canon Kk Video-based sound source separation
US10037712B2 (en) * 2015-01-30 2018-07-31 Toyota Motor Engineering & Manufacturing North America, Inc. Vision-assist devices and methods of detecting a classification of an object
US10217379B2 (en) 2015-01-30 2019-02-26 Toyota Motor Engineering & Manufacturing North America, Inc. Modifying vision-assist device parameters based on an environment classification
US9791264B2 (en) * 2015-02-04 2017-10-17 Sony Corporation Method of fast and robust camera location ordering
US9736580B2 (en) * 2015-03-19 2017-08-15 Intel Corporation Acoustic camera based audio visual scene analysis
US9769587B2 (en) * 2015-04-17 2017-09-19 Qualcomm Incorporated Calibration of acoustic echo cancelation for multi-channel sound in dynamic acoustic environments
US9892518B2 (en) * 2015-06-09 2018-02-13 The Trustees Of Columbia University In The City Of New York Systems and methods for detecting motion using local phase information
US10068445B2 (en) 2015-06-24 2018-09-04 Google Llc Systems and methods of home-specific sound event detection
US9754182B2 (en) * 2015-09-02 2017-09-05 Apple Inc. Detecting keypoints in image data
US10169684B1 (en) 2015-10-01 2019-01-01 Intellivision Technologies Corp. Methods and systems for recognizing objects based on one or more stored training images
CN107925818B (zh) * 2015-10-15 2020-10-16 华为技术有限公司 用于声音处理节点装置的声音处理节点
CN105574525B (zh) * 2015-12-18 2019-04-26 天津中科虹星科技有限公司 一种复杂场景多模态生物特征图像获取方法及其装置
EP3387648B1 (en) * 2015-12-22 2020-02-12 Huawei Technologies Duesseldorf GmbH Localization algorithm for sound sources with known statistics
TW201727537A (zh) * 2016-01-22 2017-08-01 鴻海精密工業股份有限公司 人臉識別系統及人臉識別方法
WO2017139473A1 (en) 2016-02-09 2017-08-17 Dolby Laboratories Licensing Corporation System and method for spatial processing of soundfield signals
EP3209034A1 (en) * 2016-02-19 2017-08-23 Nokia Technologies Oy Controlling audio rendering
US11234072B2 (en) 2016-02-18 2022-01-25 Dolby Laboratories Licensing Corporation Processing of microphone signals for spatial playback
GB2549073B (en) * 2016-03-24 2020-02-26 Imagination Tech Ltd Generating sparse sample histograms
WO2017208820A1 (ja) 2016-05-30 2017-12-07 ソニー株式会社 映像音響処理装置および方法、並びにプログラム
CN109478400B (zh) 2016-07-22 2023-07-07 杜比实验室特许公司 现场音乐表演的多媒体内容的基于网络的处理及分布
CN105979442B (zh) * 2016-07-22 2019-12-03 北京地平线机器人技术研发有限公司 噪声抑制方法、装置和可移动设备
US10522169B2 (en) * 2016-09-23 2019-12-31 Trustees Of The California State University Classification of teaching based upon sound amplitude
US9942513B1 (en) * 2016-10-31 2018-04-10 Cisco Technology, Inc. Automated configuration of behavior of a telepresence system based on spatial detection of telepresence components
US10528850B2 (en) * 2016-11-02 2020-01-07 Ford Global Technologies, Llc Object classification adjustment based on vehicle communication
US10455601B2 (en) * 2016-11-17 2019-10-22 Telefonaktiebolaget Lm Ericsson (Publ) Co-scheduling of wireless devices
JP6942472B2 (ja) * 2017-01-13 2021-09-29 キヤノン株式会社 映像認識装置、映像認識方法及びプログラム
JP7020432B2 (ja) 2017-01-31 2022-02-16 ソニーグループ株式会社 信号処理装置、信号処理方法及びコンピュータプログラム
US10248744B2 (en) 2017-02-16 2019-04-02 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for acoustic classification and optimization for multi-modal rendering of real-world scenes
JP7121470B2 (ja) * 2017-05-12 2022-08-18 キヤノン株式会社 画像処理システム、制御方法、及び、プログラム
US20180366139A1 (en) * 2017-06-14 2018-12-20 Upton Beall Bowden Employing vehicular sensor information for retrieval of data
CN107621625B (zh) * 2017-06-23 2020-07-17 桂林电子科技大学 基于双微麦克风阵的声源定位方法
WO2019014649A1 (en) * 2017-07-14 2019-01-17 Memorial Sloan Kettering Cancer Center LOW SUPERVISED IMAGE CLASSIFIER
CN107526568A (zh) * 2017-08-18 2017-12-29 广东欧珀移动通信有限公司 音量调节方法、装置、终端设备及存储介质
US11209306B2 (en) * 2017-11-02 2021-12-28 Fluke Corporation Portable acoustic imaging tool with scanning and analysis capability
US11099075B2 (en) 2017-11-02 2021-08-24 Fluke Corporation Focus and/or parallax adjustment in acoustic imaging using distance information
CN109754814B (zh) * 2017-11-08 2023-07-28 阿里巴巴集团控股有限公司 一种声音处理方法、交互设备
US11030997B2 (en) * 2017-11-22 2021-06-08 Baidu Usa Llc Slim embedding layers for recurrent neural language models
CN109977731B (zh) * 2017-12-27 2021-10-29 深圳市优必选科技有限公司 一种场景的识别方法、识别设备及终端设备
US10616682B2 (en) * 2018-01-12 2020-04-07 Sorama Calibration of microphone arrays with an uncalibrated source
US10522167B1 (en) * 2018-02-13 2019-12-31 Amazon Techonlogies, Inc. Multichannel noise cancellation using deep neural network masking
WO2019183277A1 (en) * 2018-03-20 2019-09-26 Nant Holdings Ip, Llc Volumetric descriptors
CN108564116A (zh) * 2018-04-02 2018-09-21 深圳市安软慧视科技有限公司 一种摄像头场景图像的成分智能分析方法
US10523864B2 (en) * 2018-04-10 2019-12-31 Facebook, Inc. Automated cinematic decisions based on descriptive models
US11212637B2 (en) 2018-04-12 2021-12-28 Qualcomm Incorproated Complementary virtual audio generation
GB2573173B (en) * 2018-04-27 2021-04-28 Cirrus Logic Int Semiconductor Ltd Processing audio signals
US11965958B2 (en) 2018-07-24 2024-04-23 Fluke Corporation Systems and methods for detachable and attachable acoustic imaging sensors
CN109284673B (zh) * 2018-08-07 2022-02-22 北京市商汤科技开发有限公司 对象跟踪方法及装置、电子设备及存储介质
US10769474B2 (en) 2018-08-10 2020-09-08 Apple Inc. Keypoint detection circuit for processing image pyramid in recursive manner
DE112018007596T5 (de) * 2018-08-29 2021-03-04 Intel Corporation Vorrichtung und verfahren für merkmalspunktverfolgung unter verwendung von inter-frame-voraussage
CN114727193A (zh) 2018-09-03 2022-07-08 斯纳普公司 声学变焦
JP7119809B2 (ja) * 2018-09-13 2022-08-17 富士通株式会社 情報表示制御プログラム、情報表示制御方法および情報表示制御装置
US11605231B2 (en) * 2018-09-17 2023-03-14 Syracuse University Low power and privacy preserving sensor platform for occupancy detection
CN111050269B (zh) * 2018-10-15 2021-11-19 华为技术有限公司 音频处理方法和电子设备
WO2020086771A1 (en) 2018-10-24 2020-04-30 Gracenote, Inc. Methods and apparatus to adjust audio playback settings based on analysis of audio characteristics
DK3672282T3 (da) * 2018-12-21 2022-07-04 Sivantos Pte Ltd Fremgangsmåde til stråleformning i et binauralt høreapparat
CN109817193B (zh) * 2019-02-21 2022-11-22 深圳市魔耳乐器有限公司 一种基于时变多段式频谱的音色拟合系统
US11343545B2 (en) 2019-03-27 2022-05-24 International Business Machines Corporation Computer-implemented event detection using sonification
CN112233647A (zh) * 2019-06-26 2021-01-15 索尼公司 信息处理设备和方法以及计算机可读存储介质
CN110531351B (zh) * 2019-08-16 2023-09-26 山东工商学院 一种基于Fast算法的GPR图像双曲波顶点检测方法
US11440194B2 (en) * 2019-09-13 2022-09-13 Honda Motor Co., Ltd. Physical human-robot interaction (pHRI)
US10735887B1 (en) * 2019-09-19 2020-08-04 Wave Sciences, LLC Spatial audio array processing system and method
CN112862663B (zh) * 2019-11-12 2023-06-16 芜湖每刻深思智能科技有限公司 一种近传感器端计算系统
US11610599B2 (en) * 2019-12-06 2023-03-21 Meta Platforms Technologies, Llc Systems and methods for visually guided audio separation
JP7250281B2 (ja) * 2019-12-12 2023-04-03 本田技研工業株式会社 三次元構造復元装置、三次元構造復元方法、およびプログラム
CN111191547A (zh) * 2019-12-23 2020-05-22 中电健康云科技有限公司 一种基于高光谱反卷积和解混的医疗废料在线筛选方法
US11295543B2 (en) * 2020-03-31 2022-04-05 International Business Machines Corporation Object detection in an image
US10929506B1 (en) * 2020-06-02 2021-02-23 Scientific Innovations, Inc. Computerized estimation of minimum number of sonic sources using antichain length
CN111652165B (zh) * 2020-06-08 2022-05-17 北京世纪好未来教育科技有限公司 口型评测方法、设备及计算机存储介质
US11368456B2 (en) 2020-09-11 2022-06-21 Bank Of America Corporation User security profile for multi-media identity verification
US11356266B2 (en) 2020-09-11 2022-06-07 Bank Of America Corporation User authentication using diverse media inputs and hash-based ledgers
KR20220048090A (ko) 2020-10-12 2022-04-19 삼성전자주식회사 주파수 도메인을 이용한 이미지 센서의 검사 방법 및 이를 수행하는 검사 시스템
CN112386282B (zh) * 2020-11-13 2022-08-26 声泰特(成都)科技有限公司 一种超声自动容积扫描成像方法与系统
CN112465868B (zh) * 2020-11-30 2024-01-12 浙江华锐捷技术有限公司 一种目标检测跟踪方法、装置、存储介质及电子装置
CN112860198B (zh) * 2021-01-05 2024-02-09 中科创达软件股份有限公司 视频会议的画面切换方法、装置、计算机设备及存储介质
JP6967735B1 (ja) * 2021-01-13 2021-11-17 パナソニックIpマネジメント株式会社 信号処理装置及び信号処理システム
CN113035162A (zh) * 2021-03-22 2021-06-25 平安科技(深圳)有限公司 民族音乐生成方法、装置、设备及存储介质
WO2022250660A1 (en) * 2021-05-25 2022-12-01 Google Llc Enhancing audio content of a captured scene
CN113177536B (zh) * 2021-06-28 2021-09-10 四川九通智路科技有限公司 基于深度残差收缩网络的车辆碰撞检测方法及装置
CN113189539B (zh) * 2021-06-30 2021-09-28 成都华日通讯技术股份有限公司 一种基于测向设备的空域滤波方法
US11408971B1 (en) 2021-07-02 2022-08-09 Scientific Innovations, Inc. Computerized estimation of minimum number of sonic sources using maximum matching of a bipartite graph
CN113887360A (zh) * 2021-09-23 2022-01-04 同济大学 一种基于迭代扩展频散模态分解的频散波提取方法
CN114241534B (zh) * 2021-12-01 2022-10-18 佛山市红狐物联网科技有限公司 一种全掌脉络数据的快速匹配方法及系统
CN114280533B (zh) * 2021-12-23 2022-10-21 哈尔滨工程大学 一种基于l0范数约束的稀疏贝叶斯DOA估计方法
WO2022241328A1 (en) * 2022-05-20 2022-11-17 Innopeak Technology, Inc. Hand gesture detection methods and systems with hand shape calibration
US11830239B1 (en) 2022-07-13 2023-11-28 Robert Bosch Gmbh Systems and methods for automatic extraction and alignment of labels derived from camera feed for moving sound sources recorded with a microphone array
CN115601576B (zh) * 2022-12-12 2023-04-07 云南览易网络科技有限责任公司 图像特征匹配方法、装置、设备及存储介质
CN115880293B (zh) * 2023-02-22 2023-05-05 中山大学孙逸仙纪念医院 膀胱癌淋巴结转移的病理图像识别方法、装置、介质
CN116796021B (zh) * 2023-08-28 2023-12-05 上海任意门科技有限公司 图像检索方法、系统、电子设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001067098A (ja) * 1999-08-25 2001-03-16 Sanyo Electric Co Ltd 人物検出方法と人物検出機能搭載装置
JP2005117621A (ja) * 2003-09-16 2005-04-28 Honda Motor Co Ltd 画像配信システム
JP2009296143A (ja) * 2008-06-03 2009-12-17 Canon Inc 撮像装置
JP2010148132A (ja) * 2010-01-20 2010-07-01 Casio Computer Co Ltd 撮像装置、画像検出装置及びプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6738745B1 (en) * 2000-04-07 2004-05-18 International Business Machines Corporation Methods and apparatus for identifying a non-target language in a speech recognition system
US7130446B2 (en) * 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
US7133535B2 (en) 2002-12-21 2006-11-07 Microsoft Corp. System and method for real time lip synchronization
EP1643769B1 (en) 2004-09-30 2009-12-23 Samsung Electronics Co., Ltd. Apparatus and method performing audio-video sensor fusion for object localization, tracking and separation
US8391615B2 (en) * 2008-12-02 2013-03-05 Intel Corporation Image recognition algorithm, method of identifying a target image using same, and method of selecting data for transmission to a portable electronic device
EP2374123B1 (fr) 2008-12-15 2019-04-10 Orange Codage perfectionne de signaux audionumeriques multicanaux
US8548193B2 (en) * 2009-09-03 2013-10-01 Palo Alto Research Center Incorporated Method and apparatus for navigating an electronic magnifier over a target document
US9031243B2 (en) * 2009-09-28 2015-05-12 iZotope, Inc. Automatic labeling and control of audio algorithms by audio recognition
US8135221B2 (en) * 2009-10-07 2012-03-13 Eastman Kodak Company Video concept classification using audio-visual atoms
CN101742114A (zh) * 2009-12-31 2010-06-16 上海量科电子科技有限公司 通过手势识别来决定拍摄操作的方法及装置
US8602887B2 (en) * 2010-06-03 2013-12-10 Microsoft Corporation Synthesis of information from multiple audiovisual sources
US8805007B2 (en) * 2011-10-13 2014-08-12 Disney Enterprises, Inc. Integrated background and foreground tracking

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001067098A (ja) * 1999-08-25 2001-03-16 Sanyo Electric Co Ltd 人物検出方法と人物検出機能搭載装置
JP2005117621A (ja) * 2003-09-16 2005-04-28 Honda Motor Co Ltd 画像配信システム
JP2009296143A (ja) * 2008-06-03 2009-12-17 Canon Inc 撮像装置
JP2010148132A (ja) * 2010-01-20 2010-07-01 Casio Computer Co Ltd 撮像装置、画像検出装置及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中村 彰吾,外4名: "動画像を対象とした一般物体認識のための時空間CoHOG特徴量の検討", 電子情報通信学会技術研究報告, vol. Vol.111 No.353, JPN6017002693, 8 December 2011 (2011-12-08), JP, pages pp.1−6 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11431887B2 (en) 2018-07-24 2022-08-30 Sony Semiconductor Solutions Corporation Information processing device and method for detection of a sound image object
JP2021517649A (ja) * 2018-12-25 2021-07-26 ヂェージャン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 位置姿勢推定方法、装置、電子機器及び記憶媒体
KR102437760B1 (ko) * 2021-05-27 2022-08-29 이충열 컴퓨팅 장치에 의한 음향의 처리 방법, 영상 및 음향의 처리 방법 및 이를 이용한 시스템들
WO2022250493A1 (ko) * 2021-05-27 2022-12-01 이충열 컴퓨팅 장치에 의한 음향의 처리 방법, 영상 및 음향의 처리 방법 및 이를 이용한 시스템들

Also Published As

Publication number Publication date
CN104246796A (zh) 2014-12-24
CN104246796B (zh) 2018-04-17
KR20140145195A (ko) 2014-12-22
US9495591B2 (en) 2016-11-15
WO2013154701A1 (en) 2013-10-17
US20130272548A1 (en) 2013-10-17
IN2014MN01958A (ja) 2015-07-10
JP2015514239A (ja) 2015-05-18
EP2836964A1 (en) 2015-02-18

Similar Documents

Publication Publication Date Title
JP2018077479A (ja) マルチモーダル整合方式を使用するオブジェクト認識
Zhao et al. The sound of motions
KR101521368B1 (ko) 다중 채널 오디오 신호를 분해하는 방법, 장치 및 머신 판독가능 저장 매체
US9100734B2 (en) Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
KR101564151B1 (ko) 시간 변화 정보를 갖는 기저 함수를 사용한 음악 신호의 분해
JP4912778B2 (ja) 信号源の軌跡をモデル化する方法及びシステム
Chazan et al. Multi-microphone speaker separation based on deep DOA estimation
Çetingül et al. Multimodal speaker/speech recognition using lip motion, lip texture and audio
US10770051B2 (en) Apparatus and method for harmonic-percussive-residual sound separation using a structure tensor on spectrograms
Chen et al. Structure from silence: Learning scene structure from ambient sound
CN107533848A (zh) 用于话音恢复的系统和方法
Radha et al. Improving recognition of speech system using multimodal approach
Dwivedi et al. Spherical harmonics domain-based approach for source localization in presence of directional interference
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
Venkatesan et al. Analysis of monaural and binaural statistical properties for the estimation of distance of a target speaker
Wang Speech enhancement using fiber acoustic sensor
May Binaural scene analysis: localization, detection and recognition of speakers in complex acoustic scenes
Lathoud Further applications of sector-based detection and short-term clustering
CN116386645A (zh) 说话对象的识别方法及装置、电子设备和存储介质
Freitas et al. SSI Modalities II: Articulation and Its Consequences
Marxer Piñón Audio source separation for music in low-latency and high-latency scenarios

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190305

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20191008