JP6246792B2 - ユーザのグループのうちのアクティブに話しているユーザを識別するための装置及び方法 - Google Patents

ユーザのグループのうちのアクティブに話しているユーザを識別するための装置及び方法 Download PDF

Info

Publication number
JP6246792B2
JP6246792B2 JP2015511561A JP2015511561A JP6246792B2 JP 6246792 B2 JP6246792 B2 JP 6246792B2 JP 2015511561 A JP2015511561 A JP 2015511561A JP 2015511561 A JP2015511561 A JP 2015511561A JP 6246792 B2 JP6246792 B2 JP 6246792B2
Authority
JP
Japan
Prior art keywords
spatially filtered
microphone array
navigable
user
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015511561A
Other languages
English (en)
Other versions
JP2015516093A (ja
JP2015516093A5 (ja
Inventor
キム、レ−ホン
シン、ジョンウォン
ビッサー、エリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2015516093A publication Critical patent/JP2015516093A/ja
Publication of JP2015516093A5 publication Critical patent/JP2015516093A5/ja
Application granted granted Critical
Publication of JP6246792B2 publication Critical patent/JP6246792B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/01Hearing devices using active noise cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/008Visual indication of individual signal levels

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • User Interface Of Digital Computer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

関連出願の相互参照
[0001]本出願は、2012年5月11日に出願され、「AUDIO USER INTERACTION RECOGNITION AND CONTEXT REFINEMENT」と題する米国仮特許出願第61/645,818号に対する米国特許法第119条(e)項の利益に基づく優先権を主張し、2012年11月12日に出願され、「AUDIO USER INTERACTION RECOGNITION AND CONTEXT REFINEMENT」と題する米国非仮特許出願第13/674,690号に対する優先権を主張するものであり、これらの出願の内容は、参照により本明細書に明確に組み込まれる。
[0002]相当量の有用な情報が、様々な時点でユーザが見ている方向を判断することから導出されることがあり、この情報は、様々な計算システムとのユーザの対話を改良するために使用され得る。したがって、視覚ベースの方式を使用する(すなわち、いくつかの様々な手段のいずれかを使用して目を追跡する)大量の注視追跡調査がすでに行われていることは意外ではない。しかしながら、ユーザの注視方向を把握することは、ユーザの関心の1つの次元に関する意味情報を与えるにすぎず、音声によってたいてい与えられる文脈情報を考慮していない。言い換えれば、様々な異なるユーザアプリケーションにおいて、音声追跡と注視追跡とを組み合わせた場合に、より豊かで、より意味のある情報が得られることになる。
[0003]文脈情報(すなわち、ユーザによって送られているか、または受信されている非視覚情報)が、オーディオベースの方式を使用して判断される。受信側におけるオーディオユーザ対話は、特定の人物または特定の音源の方にオーディオビームを誘導することによって、改良され得る。したがって、本明細書で説明する技法は、たとえば会話の文脈をユーザがより明確に理解することを可能にし得る。これらの利益を達成するために、1つまたは複数の誘導可能マイクロフォンアレイからの入力および固定マイクロフォンアレイからの入力が、オーディオベースの文脈情報(または場合によっては、視覚ベースの意味情報)が提示されている場所で誰が話しているかに対して、ある人物が誰を見ているか、またはある人物が何に注目しているかを判断するために使用され得る。
[0004]様々な実装形態では、2つの異なるタイプのマイクロフォンアレイデバイス(MAD)が使用される。第1のタイプのMADは、ユーザの両目に対して既知の方位でユーザによって装着される誘導可能マイクロフォンアレイ(本明細書では誘導可能アレイとも呼ばれる)であり、複数のユーザが、誘導可能アレイをそれぞれ装着することができる。第2のタイプのMADは、ユーザ(ユーザのうちの1人または複数は、誘導可能アレイを使用している)と同じ音響空間に配置された固定位置マイクロフォンアレイ(本明細書では固定アレイとも呼ばれる)である。
[0005]いくつかの実装形態では、誘導可能マイクロフォンアレイは、アクティブノイズ制御(ANC)ヘッドセットまたは補聴器の一部であり得る。たとえば、会合またはグループにおける異なるユーザまたは話者(本明細書では参加者とも呼ばれる)にそれぞれ関連付けられる複数の誘導可能アレイがあり得る。そのような状況では、固定マイクロフォンアレイが、固定アレイに対して様々な人々が位置する方向に対応するオーディオビームを使用してグループ会合中に話したり聞いたりしている様々な人々を区別するために使用されることになる。
[0006]固定アレイの区別された話者のオーディオビームと、誘導可能アレイの出力との間の相関または類似性が評価される。相関は、類似性測定の一例であるが、いくつかの類似性測定または判断技法のいずれかが使用され得る。
[0007]一実装形態では、固定アレイの区別された参加者のオーディオビームと誘導可能アレイの出力との間の類似性測定は、様々な参加者が話し、またはオーディオベースの情報を提示する中で、時間の経過に伴う参加者の注視方向を含む参加者間の社会的対話を追跡するために使用され得る。
[0008]一実装形態では、固定アレイの区別された参加者のオーディオビームと誘導可能アレイの出力との間の類似性測定は、たとえば、ターゲット参加者にズームインするために使用され得る。このズーミングは、ひいては、あるユーザ(その時点では聞き手である)が、オーディオベースの情報を提供している(すなわち、話している)別の人物を注視しているときの、ノイズフィルタ処理および増幅の改良につながる可能性がある。
[0009]一実装形態では、固定アレイの区別された参加者のオーディオビームと誘導可能アレイの出力との間の類似性測定は、ターゲット参加者向けのより良いビームを適応的に形成し、実質的に、ユーザの各々の互いに対する物理的方位をより的確に判断するために使用され得る。
[0010]この概要は、詳細な説明において以下でさらに述べる簡略化した形態の概念の選択を紹介するために提供する。この概要は、特許請求された主題の主要な特徴または本質的特徴を識別するためのものではなく、特許請求された主題の範囲を限定するために使用されるものでもない。
[0011]上記の概要ならびに例示的な実施形態についての以下の詳細な説明は、添付の図面と併せ読めば、よりよく理解される。実施形態を例示する目的で、図面には、実施形態の例示的な構造が示されているが、実施形態は、開示される特定の方法および手段に限定されない。
[0012]固定マクロフォンアレイとともに文脈情報を判断するために使用され得る誘導可能マイクロフォンアレイをそれぞれ装着しているユーザのグループの図。 [0013]誘導可能マイクロフォンアレイと固定マイクロフォンアレイとを使用してユーザ対話を判断する方法の実装形態の動作フロー。 [0014]誘導可能マイクロフォンアレイと固定マイクロフォンアレイとを使用してユーザ対話を判断する方法の別の実装形態の動作フロー。 [0015]ユーザ識別情報およびユーザがどの方向を見ているかに関する指示を提供し得る例示的なディスプレイの図。 [0016]生成され表示されることがあり、様々なユーザ対話と会合データとを示すユーザインターフェースの図。 [0017]生成され(たとえば、スマートフォンディスプレイ上に)表示されることがあり、(たとえば、会合中の)様々なユーザ対話を示すユーザインターフェースの例示的なディスプレイの図。 [0018]様々なトピックに関する様々なユーザ対話を示す例示的なディスプレイの図。 [0019]時間の経過に伴う様々なユーザ対話を示す例示的なディスプレイの図。 [0020]時間の経過に伴う様々なユーザ対話を示す別の例示的なディスプレイの図。 [0021]相互相関を使用して類似性を測定する方法の実装形態の動作フロー。 [0022]クロスキュムラントを使用して類似性を測定する方法の実装形態の動作フロー。 [0023]時間領域最小2乗適合を使用して類似性を測定する方法の実装形態の動作フロー。 [0024]周波数領域最小2乗適合を使用して類似性を測定する方法の実装形態の動作フロー。 [0025]板倉−斉藤距離を使用して類似性を測定する方法の実装形態の動作フロー。 [0026]特徴ベースの方式を使用して類似性を測定する方法の実装形態の動作フロー。 [0027]例示的なユーザインターフェースディスプレイを示す図。 [0028]ディスプレイ上の協調的ズーミングを示す例示的なユーザインターフェースディスプレイを示す図。 [0029]ターゲット参加者にズームするための方法の実装形態の動作フロー。 [0030]追加の候補眺め方向を有する例示的なユーザインターフェースディスプレイを示す図。 [0031]ターゲット話者向けのビームを適応的に精製するための方法の実装形態の動作フロー。 [0032]マイクロフォンペアに対する平面波伝搬の遠距離モデルを示す図。 [0033]線形アレイ内の複数のマイクロフォンペアを示す図。 [0034]4つの異なるDOAに関する、アンラップされた(unwrapped)位相遅延帯に対する周波数のプロットを示す図。 同じDOAに関する、ラップされた位相遅延帯に対する周波数のプロットを示す図。 [0035]2つのDOA候補に関して測定された位相遅延値および算出された値の一例を示す図。 [0036]テレビジョンスクリーンの上部ふちに沿って配置されたマイクロフォンの線形アレイを示す図。 [0037]フレームに関するDOA差異を算出する一例を示す図。 [0038]DOA推定値を算出する一例を示す図。 [0039]各周波数に関するDOA推定値を識別する一例を示す図。 [0040]所与の周波数に関する最善のマイクロフォンペアと最善のDOA候補とを識別するための算出された尤度を使用する一例を示す図。 [0041]尤度算出の一例を示す図。 [0042]スピーカーフォン応用の一例を示す図。 [0043]マイクロフォンアレイの平面内の360°範囲へのペアワイズDOA推定値のマッピングを示す図。 [0044]DOA推定値内のあいまいさを示す図。 DOA推定値内のあいまいさを示す図。 [0045]観測されたDOAの記号とx−y平面のクワドラント(quadrants)との間の関係を示す図。 [0046]ソースがマイクロフォンの面の上部に配置された一例を示す図。 ソースがマイクロフォンの面の上部に配置された一例を示す図。 ソースがマイクロフォンの面の上部に配置された一例を示す図。 ソースがマイクロフォンの面の上部に配置された一例を示す図。 [0047]非直交軸に沿ったマイクロフォンペアの一例を示す図。 [0048]直交x軸およびy軸に関するDOA推定値を取得するための、図41のアレイの使用の一例を示す図。 [0049](たとえば、図45に示す)2対のマイクロフォンアレイに関するペアワイズ正規化ビーム形成/ヌルビーム形成(BFNF)の例を示す図。 (たとえば、図45に示す)2対のマイクロフォンアレイに関するペアワイズ正規化ビーム形成/ヌルビーム形成(BFNF)の例を示す図。 2対のマイクロフォンアレイを示す図。 [0050]ペアワイズ正規化最小分散無歪応答(minimum variance distortionless response)(MVDR)BFNFの一例を示す図。 [0051]行列AHAが悪条件でない、周波数に関するペアワイズBFNFの一例を示す図。 [0052]ステアリングベクトル(steering vectors)の例を示す図。 [0053]本明細書で説明するソース方向(source direction)推定値の積分方法のフローチャート。
[0054]その文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表されたメモリ位置(もしくは、メモリ位置のセット)の状態を含む、その通常の意味のいずれをも示すために使用される。その文脈によって明確に限定されない限り、「発生させること(generating)」という用語は、本明細書では、計算すること(computing)または別様に生成すること(producing)など、その通常の意味のいずれをも示すために使用される。その文脈によって明確に限定されない限り、「算出すること(calculating)」という用語は、本明細書では、複数の値から計算すること(computing)、評価すること、推定すること、および/または選択することなど、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「取得すること(obtaining)」という用語は、算出すること(calculating)、導出すること、(たとえば、外部デバイスから)受信すること、および/または(たとえば、記憶要素のアレイから)検索することなど、それの通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「選択すること(selecting)」という用語は、2つ以上のセットのうちの少なくとも1つ、およびすべてよりも少数を識別すること、指示すること、適用すること、ならびに/または使用することなど、その通常の意味のいずれをも示すのに使用される。「備える(comprising)」という用語は、本明細書と特許請求の範囲とにおいて使用される場合、他の要素または演算を除外するものではない。「に基づく」(「AはBに基づく」など)という用語は、(i)「から導出される」(たとえば、「BはAのプリカーサー(precursor)である」)、(ii)「少なくとも〜に基づく」(たとえば、「Aは少なくともBに基づく」)、および特定の文脈で適当な場合に、(iii)「に等しい」(たとえば、「AはBに等しい」または「AはBと同じである」)という場合を含む、それの通常の意味のいずれをも示すのに使用される。同様に、「に応答して」という用語は、「少なくとも〜に応答して」を含む、その通常の意味のいずれをも示すために使用される。
[0055]マルチマイクロフォンオーディオ感知デバイスのマイクロフォンの「位置」への言及は、文脈によって別段に規定されていない限り、マイクロフォンの音響的に敏感な面の中心の位置を示す。「チャネル」という用語は、特定の文脈に応じて、時々、信号経路を示すのに使用され、また他のときには、そのような経路によって搬送される信号を示すのに使用される。別段に規定されていない限り、「一連」という用語は、2つ以上のアイテムのシーケンスを示すのに使用される。「対数」という用語は、10を底とする対数を示すのに使用されるが、他の底へのそのような演算の拡張は本開示の範囲内である。「周波数成分」という用語は、(たとえば、高速フーリエ変換によって生成される)信号の周波数領域表現のサンプル(または「ビン」)、あるいは信号のサブバンド(たとえば、バーク尺度またはメル尺度サブバンド)など、信号の周波数または周波数帯域のセットのうちの1つを示すのに使用される。
[0056]別段に規定されていない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する(その逆も同様)ことをも明確に意図され、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する(その逆も同様)ことをも明確に意図される。「構成」という用語は、その特定の文脈によって示されるように、方法、装置、および/またはシステムに関して使用され得る。「方法」、「処理」、「プロセス」、および「技法」という用語は、具体的な文脈によって別段に規定されていない限り、一般的に、互換的に使用される。「装置」および「デバイス」という用語も、特定の文脈によって別段に規定されていない限り、一般的に、互換的に使用される。「要素」および「モジュール」という用語は、一般に、より大きい構成の一部分を示すのに使用される。その文脈によって明確に限定されない限り、「システム」という用語は、本明細書では、「共通の目的を果たすために相互作用する要素のグループ」を含む、その通常の意味のいずれをも示すのに使用される。
[0057]文書の一部分の参照による任意の組込みは、その部分内で言及された用語または変数の定義が、文書中の他の場所に現れ、ならびに組み込まれた部分で参照される任意の図に現れた場合、そのような定義を組み込んでいることも理解されたい。定冠詞によって最初に導入されない限り、請求要素を修正するのに使用される順序を示す用語(たとえば、「第1の」、「第2の」、「第3の」など)は、それ自体、別のものに関する請求要素の優先順位または順序を示しておらず、請求要素を、(順序を示す用語の使用を別にすれば)同じ名前を有する別の請求要素から区別しているだけである。その文脈によって明確に限定されない限り、「複数」および「セット」という用語の各々は、本明細書では、1よりも大きい整数量を示すのに使用される。
[0058]音声センサおよび様々な位置ベースの算出結果および得られた対話の改良を使用して、その時点で提示されているオーディオベースの情報(たとえば、会話の文脈および/または音源の正体)をより明確に理解するために、ユーザがある人物(または音源)の方に誘導することを可能にする、視覚、聴覚ベースの結合方式が、本明細書で説明される。
[0059]たとえば、固定アレイの区別された話者のオーディオビームと誘導可能アレイの出力との間の相関または類似性が、話者間の社会的対話を追跡するために使用され得る。相関は、類似性測定の一例にすぎず、任意の類似性測定または判断技法が使用されてよい。
[0060]より詳細には、ユーザ(本明細書では話者または参加者とも呼ばれる)のグループの社会的対話または社会的ネットワーキングの分析が、固定アレイの区別された話者のオーディオビームとグループの各ユーザにそれぞれ関連する各誘導可能アレイの出力との間の相関または他の類似性の測定に応答して生成された接続グラフを使用して実行され表示され得る。したがって、たとえば、誰が提示に積極的に関与したかに関する、またはより一般的にユーザの注目を維持する上での提示の有効性に関する有用な情報を導出するために、会合参加者間の接続グラフを使用して、参加者のグループ会合で自動社会的ネットワーク分析が実行され得る。
[0061]図1は、ユーザと同じ空間(たとえば、部屋)にある固定位置マクロフォンアレイ150とともに文脈情報を判断するために使用され得る誘導可能マイクロフォンアレイ110をそれぞれ装着しているユーザのグループの図100である。図1に示すように、部屋(または他の画定された空間)にいるユーザグループの各ユーザ105は、(たとえば、適応ノイズ制御(ANC)を実行する能力を含み得るヘッドセットとして)誘導可能マイクロフォンアレイを装着しており、固定位置マイクロフォンアレイ150は部屋に(たとえば、テーブルに、電話に、など)位置する。固定位置マイクロフォンアレイ150は、たとえば、ビデオゲームプラットフォーム、タブレット、ノートブック、もしくはスマートフォンなどの電子デバイスの一部であってよく、または独立型のデバイスもしくは実装形態であってよい。代替または追加として、固定位置マイクロフォンアレイ150は、分散型マイクロフォンアレイ(すなわち、分散型マイクロフォン)を備え得る。
[0062]ヘッドセットを装着しているユーザ105は、ユーザの物理的視覚(または「眺め」)方向に向けられた自身の誘導可能(たとえば、装着可能)マイクロフォンアレイから固定ビームパターン120を生成することができる。ユーザが自身の頭を動かすと、ビームパターンのユーザの眺め方向も変化する。アクティブな話者の位置は、固定マイクロフォンアレイを使用して判断され得る。誘導可能マイクロフォンアレイからのビームフォーミングされた出力(または任意のタイプの空間フィルタ処理済み出力)を各アクティブな話者に対応する固定マクロフォンアレイ出力と相関付けること、あるいはこれらの出力の類似性を判断することによって、ユーザが見ている(たとえば、注目している、耳を傾けている、など)人物の識別情報が判断され得る。各ヘッドセットは、ヘッドセットおよび/または固定アレイの間のビームの相関または類似性を分析するために、(たとえば、集中型ローカルまたはリモートコンピューティングデバイスにおける)主プロセッサと(たとえば、ワイヤレス通信リンクを介して)通信しているプロセッサを有し得る。
[0063]言い換えれば、任意の時点の固定ビームパターンが、固定マイクロフォンアレイ出力と相関付けられ得るユーザの物理的眺め方向に基づいて形成され、それにより、ターゲットユーザの社会的対話の視覚的指示を(たとえば、ハンドセット、ラップトップ、タブレット、コンピュータ、ネットブック、またはモバイルコンピューティングデバイスなどの任意のタイプのコンピューティングデバイスのディスプレイに表示される)接続グラフ130を介して提供することができる。したがって、誘導可能マイクロフォンアレイからのビームフォーミングされた出力を、アクティブな話している各ユーザに対応する固定マクロフォンアレイ出力と相関付けることによって、社会的対話またはネットワーク分析の追跡が実行され表示され得る。その上、眺め方向誘導可能マイクロフォンアレイからのビームフォーミングされた出力と、各アクティブな話者に対応する位置固定マイクロフォンアレイ出力との間の類似性をチェックすることによって、ユーザが見ているか、または注目している人物が識別され、ズームされ得る。
[0064]図2は、誘導可能マイクロフォンアレイと固定マイクロフォンアレイとを使用してユーザ対話を判断する方法200の実装形態の動作フローである。210において、誘導可能マイクロフォンアレイおよび固定マイクロフォンアレイはそれぞれ、ほぼ同時に音声を受信する(ただし、小さい変動が検出され、ユーザの相対位置を算出するために使用されることがある)。220において、ビームフォーミングされた出力などの空間フィルタ処理済み出力が、誘導可能マイクロフォンアレイの各々および固定マイクロフォンアレイによって生成される。230において、各誘導可能マイクロフォンアレイの空間フィルタ処理済み出力が、固定マイクロフォンアレイの空間フィルタ処理済み出力と比較される。類似性または相関を判断するための既知の技法が使用され得る。240において、本明細書でさらに説明するように、230から取得された類似性または相関の情報が使用されてユーザ対話情報を判断および/または表示することができる。
[0065]図3は、誘導可能マイクロフォンアレイと固定位置マイクロフォンアレイとを使用してユーザ対話を判断する方法300の別の実装形態の動作フローである。複数のユーザの各々は、ANCヘッドセットなど、そのような各ユーザの視覚注視方向に対応する既知の方位を有する誘導可能ステレオマイクロフォンアレイを有する。305において、(ANCヘッドセットにおける)誘導可能アレイの各々は固定側面ビームフォーミングを提供し、この場合に310において、ビームフォーミングされた出力(または任意のタイプの空間フィルタ処理済み出力)がユーザ眺め方向で(すなわち、誘導可能アレイのユーザが見ている方向で)生成される。
[0066]関連プロセッサを有する(たとえばスマートフォンにおける)固定マイクロフォンアレイは、固定マイクロフォンアレイの周りの3次元(3D)で320において到来方向(DOA)推定を実行し、325においてアクティブな話者を区別する。370においてアクティブな話者の数が判断され、380において(たとえば、識別番号によって識別される)アクティブな話者ごとの個別の出力が生成される。一実装形態では、330において話者認識およびアクティブな話者のラベリングが実行され得る。
[0067]340において、固定アレイの区別された話者と、誘導可能アレイの出力との間の類似性が測定される。測定された類似性とDOA推定と話者IDとを使用して、350において(話者識別情報(ID)または参加者IDによる)ユーザ対話の視覚化が生成され表示され得る。360において各ユーザの眺め方向が、たとえば、スマートフォン座標として固定アレイに提供され得る。
[0068]以下を表示する接続グラフ(対話グラフとも呼ばれる)が生成され得る。(a)誰が誰に話しているか、および/もしくは耳を傾けているか、および/もしくは誰を見ているか、(b)誰がグループの議論を支配および/もしくは主導しているか、ならびに/または(c)誰が退屈しているか、参加していないか、および/もしくは静かであるか、など。その会合および将来の会合の効率性を支援するために、リアルタイムの会合分析が実行され得る。たとえば、会合の時間、場所(たとえば、会合場所)、話者の識別情報または参加者の識別情報、会合のトピックまたは主題、および参加者の数などの情報が表示され、分析で使用され得る。
[0069]図4は、ユーザ識別情報およびユーザがどの方向を見ているかに関する指示を提供し得る例示的なディスプレイ403の図400である。ユーザ識別情報(参加者ID406)は、ユーザが見ている方向(参加者眺め方向410)とともに表示される。会合中、たとえば、参加者眺め方向410のこのディスプレイが生成され、会合の管理者または主導者または監督者などの利害関係者に提供されることがあり、それにより利害関係者は、会合中の様々な時間に参加者が誰を見ているかを把握することができる。図403では、ただ1つの参加者ID406および参加者眺め方向410が示されているが、これは限定されることが意図されていない。利害関係者は、2人以上の参加者に関するそのような情報を受信することがあり、そのような情報は、実装形態に応じて1つまたは複数のディスプレイに同時に表示され得る。ディスプレイ403上の表示用に生成されたデータは、メモリに記憶され、後に検索され表示され、かつリアルタイムで表示され得る。
[0070]図5は、生成され、ディスプレイ418上に表示されることがあり、様々なユーザ対話と会合データとを示すユーザインターフェースの図415である。話している参加者の識別子(ID)420、聞いている参加者のID422、および/または参加していない(たとえば、その時点で聞いていない、所定の時間量を超えて、もしくは会合の少なくとも一定の割合を聞いていない、話している参加者以外の場所を見ている、もしくは別の所定の場所もしくは方向を見ている、など)参加者のID424などの様々なタイプの情報が生成され、(たとえば、会合中にリアルタイムで)表示され得る。たとえば、会合中に、このディスプレイ4108は生成され、会合の管理者または主導者または監督者などの利害関係者に提供され得る。
[0071]会合時間426、会合場所428、会合の長さ430(すなわち、持続時間)、会合のトピック432、および会合参加者の数434などの追加のデータがディスプレイ418上に表示され得る。このデータの一部または全部が表示され得る。追加または代替として、すべての参加者のIDおよび本明細書でさらに説明するように生成され得る他の統計など、実装形態に応じて他のデータが表示され得る。ディスプレイ418上の表示用に生成された情報およびデータは、メモリに記憶され、後に検索され表示され、かつリアルタイムで表示され得る。
[0072]参加者は、会合で聞いているだけである(話していない)場合でも、参加者のマイクロフォン(誘導可能マイクロフォンアレイ)が依然として、参加者が聞いている間に見ている方向で音声を拾っているので、参加していることになることに留意されたい。したがって、参加者が話さない場合でも、参加者が聞いていることに関連付けられる分析すべき音声がなお存在することになる。
[0073]会合中の様々なユーザ対話を示すユーザインターフェースが生成され、(たとえば、スマートフォンディスプレイまたはハンドセット、ラップトップ、タブレット、コンピュータ、ネットブックもしくはモバイルコンピューティングデバイスに関連するディスプレイなどの他のコンピューティングデバイスディスプレイ上に)表示され得る。図4は、生成され(たとえば、スマートフォンディスプレイ443上に)表示されることがあり、(たとえば、会合中の)様々なユーザ対話を示すユーザインターフェース440の例示的なディスプレイの図である。この例では、各矢印454の方向は、誰が誰を見ているかを示している(この例では、ただ1つの矢印454が示されているが、実装形態および特定の時間におけるユーザ対話に応じて複数のそのような矢印が示され得る)。各矢印の厚さは、(たとえば、接続時間などに基づく)対話の相対的強さを示している。ある人物との間で矢印がないことは、そのユーザがグループ会合に関与していないことを示す。ユーザに関して、グループ会合の参加率を示すパーセンテージの数字が表示され得る。会合の主導者であることを識別するために、インジケータ448が表示されてよく、それぞれ、議論のうちのどれだけがある人物に向けられ、議論のうちのどれだけがその人物から向けられているかを示すパーセンテージ450、452が判断され、表示され得る。一実装形態では、参加者のグループの主導者を示すために色または強調が使用されてよい。
[0074]図6の例では、ジョンおよびマークは、比較的大きい厚い矢印446によって示されるように、沢山対話している。メアリーは静かにしている。(上記で図4および図5に関して、また本明細書の他の箇所で説明しているような)リアルタイム会合分析が、会合の効率性を支援するために実行され得る。たとえば、メアリーは会話の外にいるように見えるので、ジョンは(たとえば、メアリーに質問することによって)メアリーに参加するよう促し得る。
[0075]たとえば、グループの動きまたはトピックの動きを評価するために、ある時間期間に(たとえば、1カ月、1年などの間に)社会的対話プロットが累積され得る。図7は、様々なトピック464に関する様々なユーザ対話を示す例示的なディスプレイ462の図460である。この情報は、1つまたは複数の会合中に捕捉され、1つのメモリ(または複数のメモリ)に記憶され、後で(たとえば、データの履歴分析中に)1つまたは複数のフォーマットに表示され得る。ここでは、各参加者ID466が、様々なトピック464に関する各人の参加率468とともに列挙されている。
[0076]したがって、たとえば、ジェーンは「Design」に関する会合で20%の参加率、「Code Walkthrough」に関する会合で40%の参加率、そして「Documentation」に関する会合で10%の参加率を有する。このデータは、たとえば、特定のトピックにどの参加者が最も適しているか、もしくは興味を持っているか、または特定のトピックに関してどの参加者がより多くの働きかけを必要とし得るかを判断するために使用され得る。参加率は、会合で話している時間量、会合で注目している時間量、会合で聞いている時間量などのような、本明細書で説明する1つまたは複数のデータ項目に基づいて判断され得る。図7にパーセンテージが示されているが、参加レベルまたは参加率の相対的な強さおよび/または弱さを識別するために、任意の相対的な測定、番号付け、または指示のシステムまたは技法が使用され得る。
[0077]どのユーザが特定のトピックに最も参加したかを示し、それにより、たとえばそのトピックに関する潜在的主導者を示す例示的なインジケータとして、図460では「L」が使用される。色、強調、または特定のシンボルなど、任意のインジケータが使用され得る。この例では、ジョンがDesignに最も参加しており、ジェーンがCode Walkthroughに最も参加しており、メアリーがDocumentationに最も参加している。したがって、これらの者はそれぞれのトピックの潜在的主導者と識別され得る。
[0078]さらに、1人または複数の会合参加者に関して、対話履歴による個人的時系列が生成され得る。したがって、会合中の単一のスナップショットまたは時間期間が捕捉され、分析され、それに関する情報が(リアルタイムまたは後にオフラインで)表示され得るだけではなく、時間の経過に伴う履歴も(たとえば、スマートフォンなどのコンピューティングデバイスまたはハンドセット、ラップトップ、タブレット、コンピュータ、ネットブックもしくはモバイルコンピューティングデバイスなどの任意のタイプのコンピューティングデバイスのメモリに)記憶され、分析され、(たとえば、スマートフォンなどのコンピューティングデバイスまたはハンドセット、ラップトップ、タブレット、コンピュータ、ネットブックもしくはモバイルコンピューティングデバイスなどの任意のタイプのコンピューティングデバイスのカレンダーまたは他のディスプレイに)表示され得る。
[0079]図8は、たとえば1つまたは複数の会合の後の履歴分析に使用され得る、時間の経過に伴う様々なユーザ対話を示す例示的なディスプレイ472の図470である。ここで、会合の日付および会合のトピックなどの情報とともに、ユーザ識別子474が提供される。このディスプレイ472上の情報478は、時間476の経過に伴って提供される。ディスプレイ472は、その時間期間または時点にユーザが誰を見ていたか、そのときにユーザが話していたかどうか、およびその時間期間または時点にユーザを見ていた会合参加者のパーセンテージなど、時間期間または時点ごとの情報478を示している。この情報478は、会合中の所定の時間に(たとえば、1分ごとに、5分ごとに、など)判断されるか、またはたとえば特定の時間期間にわたる平均または他の加重判断として判断され得る。この情報は、単に一例として提供されており、限定的であることは意図されておらず、追加または代替の情報が情報478として生成され、表示され得る。
[0080]図8に表示された情報は、会合分析およびユーザ分析に使用され得る。このようにして、図8では、ユーザであるジェーンが通常、ジェーンが話していないときにはメアリーまたはマークを見ているが、ジェーンが、ジェーンが話しているときにはジョンを見ていると判断され得る。図8はまた、ジェーンが話していないときに、ジェーンを見ている参加者のパーセンテージがゼロであるが、ジェーンが話しているときにこのパーセンテージが上昇することを示している。
[0081]対話統計も生成され、記憶され、分析され、表示され得る。たとえば、人々の間の対話の展開が追跡され、表示され得る。データが古くなるにつれて、関連性が低下し、直近のデータが最も高く重み付けされる(逆もまた同様)ように、時間の経過に伴う再帰的重み付けが使用され得る(たとえば、0.9*履歴データ+0.1*最新のデータ)。このようにして、ユーザは、ユーザまたは他の人々がどの人々と、他の人々とよりも強くつながっているかを理解することが可能であり得る。より正確な対話情報を提供するために、追加の統計が分析に入れられ得る。たとえば、追加の(たとえば、より正確な)対話情報を提供するために、会合、履歴、および/または参加者対話データ(とともに)電子メール交換または他の通信から取得された対話情報が使用され得る。
[0082]図9は、時間の経過に伴う様々なユーザ対話を示す別の例示的なディスプレイ482の図480である。ここでは、ユーザであるジェーンが、対話スケール488および時間期間とともに識別される。図480は、他のユーザID484と過去の月486の記載とを示している。この例における対話スケールは、0〜10の範囲があり、0は対話なしを表し、10は、月486の各々における識別されたユーザとジェーンとの間の非常に強い対話を表す。この情報が履歴データとして生成され、提供され、たとえば、会合の参加者または主導者または監督者によって使用されて、時間の経過に伴う様々なユーザ対話を見て分析し、たとえば誰がいつ誰と最も強く対話しているかを把握することができる。
[0083]別の例として、遠隔地にいる生徒が積極的に参加しているかどうかを判断するために、オンライン学習監視が実行され得る。同様に、考えられる音声事象場所の間でユーザが見ている場所の即時認識があり得る、参加者の対話によるビデオゲーム用のアプリケーションも企図される。
[0084]図10は、方法500の実装形態の動作フローであり、例示的な測定として相互相関を使用するが、任意の類似性測定技法が使用され得る。503において、固定マイクロフォンアレイは、アクティブな話者の数Nとアクティブな話者の区別された音声信号とを提供する。1つの信号(音声)が固定マイクロフォンアレイによって受信される。固定マイクロフォンアレイの出力はビームを備え、各参加者に1つのビームが対応する。したがって、各参加者に個別の出力が関連付けられる。510において、誘導可能マイクロフォンアレイはユーザの眺め方向を提供する。ユーザごとに、個人ユーザの出力が、固定マイクロフォンアレイから出力されたビームフォーム(または他の空間フィルタ処理済み出力)の各々と相関付けられる。
[0085]515において、この情報を使用して位置マッピングが生成され得る。いつユーザが誰かの方に向いてその人達を見るかに関する情報が活用され得る。506に示すような周知の典型的な相関式が図示のように使用されてよく、ここでEは期待値に等しく、cは相関値である。最大ピークがあるときはいつでも、それは強い相関の角度である。一実装形態では、物理的制約またはシステムの複雑性を使用して、最大許容時間シフトがあらかじめ判断され得る。たとえば、誘導可能マイクロフォンと固定マイクロフォンとの間の時間遅延が、誘導可能アレイを装着しているユーザのみがアクティブであるときに測定され使用され得る。従来型フレーム長20msがほぼ7メートルに対応することに留意されたい。角度θは、聞いているユーザに対してアクティブな話者が位置する相対角度である。513において、固定アレイと誘導可能アレイとの間で角度θが判断され得る。
[0086]図11は、類似性を測定する方法520の実装形態の動作フローであり、例示的な測定としてクロスキュムラントを使用するが、任意の類似性測定技法が使用され得る。523において、固定マイクロフォンアレイは、アクティブな話者の数Nとアクティブな話者の区別された音声信号とを提供する。1つの信号(音声)が固定マイクロフォンアレイによって受信される。固定マイクロフォンアレイの出力はビームを備え、各参加者に1つのビームが対応する。したがって、各参加者に個別の出力が関連付けられる。530において、誘導可能マイクロフォンアレイはユーザの眺め方向を提供する。ユーザごとに、個人ユーザの出力が、固定マイクロフォンアレイから出力されたビームフォーム(または他の空間フィルタ処理済み出力)の各々と相関付けられる。
[0087]525において、この情報を使用して位置マッピングが生成され得る。いつユーザが誰かの方に向いてその人達を見るかに関する情報が活用され得る。526に示す周知の典型的なキュムラント式が図示のように使用されてよく、ここでEは期待値に等しく、cは相関値である。最大ピークがあるときはいつでも、それは強い相関の角度である。角度θは、聞いているユーザに対してアクティブな話者が位置する相対角度である。513において、固定アレイと誘導可能アレイとの間で角度θが判断され得る。
[0088]任意の類似性または相関の技法が使用され得ることに留意されたい。考えられる類似性測定に関して、限定されないが、以下の周知の技法など、事実上任意の距離メトリックが使用され得る。(1)許容時間調整を伴う最小2乗適合:時間領域または周波数領域、(2)特徴ベースの方式:線形予測コーディング(LPC)またはメル周波数ケプストラル係数(MFCC)を使用、および(3)高位ベースの方式:クロスキュムラント、実証的カルバックライブラーダイバージェンス、または板倉−斉藤距離。
[0089]図12は、時間領域最小2乗適合を使用して類似性を測定する方法540の実装形態の動作フロー図であり、図13は、周波数領域最小2乗適合を使用して類似性を測定する方法550の実装形態の動作フロー図である。時間領域最小2乗適合を使用する方法540は、526のキュムラント式を使用する代わりに、542に示す時間領域式が図示のように使用され得ることを除いて、上述した図11の方法520と同様である。同様に、方法550は、図11の方法520と同様であるが、エネルギー正規化を使用する代わりに、552に示す周波数領域式とともに高速フーリエ変換(FFT)を使用する。
[0090]図14は、板倉−斉藤距離を使用して類似性を測定する方法560の実装形態の動作フローである。この技法は図13のFFT技法に類似しているが、562に示す式を使用する。図15は、特徴ベースの方式を使用して類似性を測定する方法570の実装形態の動作フローである。特徴抽出が、573および575に示されるように実行され、図10の他の動作503、510、513、および515、ならびに572に示す式とともに使用される。
[0091]一実装形態では、固定マイクロフォンアレイの区別された話者のオーディオビームと誘導可能マイクロフォンアレイの出力との間の相関または類似性が、ターゲット話者にズームするために使用され得る。このタイプの協調的ズーミングは、所望の話者にズームするためのユーザインターフェースを提供することができる。
[0092]言い換えれば、協調的ズーミングが実行されてよく、この場合、ターゲット話者を見るだけでターゲット話者にズームするためのユーザインターフェースが、複数のデバイスを有する複数のユーザに提供される。複数のデバイスのすべての利用可能なリソースが協調的ズーミングのために結合され、それによりターゲット人物の眺め方向を改良することができるように、ヘッドセットまたはハンドセットのいずれかを介してターゲット人物においてビームフォーミングが生成され得る。
[0093]たとえば、ユーザはターゲット人物を見ることがあり、ヘッドセットまたはハンドセットのいずれか(どちらの方がターゲット人物に近い場合でも)を使用することによってターゲット人物においてビームフォーミングが生成され得る。これは、2つのマイクロフォンを有する隠しカメラを含むデバイスを使用することによって達成され得る。複数のデバイスの複数のユーザがターゲット人物を見ているとき、カメラは視覚的にその人物に焦点を当てることができる。さらに、デバイスは、(たとえば、すべての)利用可能なマイクロフォンを使用してターゲット人物の眺め方向を改良することによって、その人物に可聴的に焦点を当てる(すなわち、ズームインする)ことができる。
[0094]さらに、ターゲット人物は、他の話者をヌル化し、ターゲット人物の音声を改良することによって、可聴的にズームインされ得る。この改良も、ヘッドセットまたはハンドセット(どちらの方がターゲット人物に近い場合でも)を使用して行われ得る。
[0095]例示的なユーザインターフェースディスプレイ600が図16に示されている。(たとえば、スマートフォンディスプレイ610または他のディスプレイデバイスに表示される)ディスプレイは、アクティブユーザ位置620と関連エネルギー630とを示す。図17は、ディスプレイ上に協調的ズーミングを示す例示的なユーザインターフェースディスプレイを示しており、ここでは、初期ディスプレイ650からディスプレイ660に示すように話者1がズームインされる。
[0096]図18は、ターゲット人物にズームするための方法700の実装形態の動作フローである。図3の場合のように、710において、(ANCヘッドセットにおける)誘導可能アレイ705は、固定側面ビームフォーミングを提供し、ビームフォーミングされた出力がユーザ眺め方向で(すなわち、誘導可能アレイのユーザが見ている方向で)生成される。720において、関連プロセッサを有する(たとえばスマートフォンにおける)固定マイクロフォンアレイ707は、固定マイクロフォンアレイの周りの3次元でDOA推定を実行し、アクティブな話者を区別する。アクティブな話者の数が判断され、(たとえば、識別番号によって識別される)アクティブな話者ごとの個別の出力が生成される。
[0097]一実装形態では、730において話者認識およびアクティブな話者のラベリングが実行され得る。750において、固定アレイの区別された発話者と誘導可能アレイの出力との間で、相関または類似性が判断される。760において、相関または類似性の測定と話者のIDとを使用して、ターゲットユーザが検出され、局在化され、ズームされ得る。
[0098]ユーザは、2つのマイクロフォンを有する隠しカメラなどのデバイスに置き換えられてよく、ターゲット人物を見るだけで、聴覚ならびに視覚によるズーミングによりターゲット人物に焦点が当てられ得る。
[0099]複数のデバイスを有するカムコーダアプリケーションが企図される。眺め方向が知られており、他のデバイスのすべての利用可能なマイクロフォンが使用されて、眺め方向源を改良することができる。
[00100]一実装形態では、固定アレイの区別された話者のオーディオビームと誘導可能アレイの出力との間の相関または類似性が使用されて、ターゲットユーザ向けのより良いビームを適応的に形成することができる。このようにして、固定マイクロフォンビームフォーマが適応的に精製されてよく、その結果、新しい眺め方向が固定ビームフォーマによって適応的に生成され得る。
[00101]たとえば、ヘッドセットマイクロフォンアレイのビームフォーマ出力が、固定マイクロフォンアレイのビームフォーマの眺め方向を精製するために参照として使用され得る。ヘッドセットビームフォーマ出力と最新の固定マイクロフォンアレイビームフォーマ出力との間の相関または類似性が、ヘッドセットビームフォーマ出力と眺め方向が若干移動した固定マイクロフォンアレイビームフォーマ出力との間の相関または類似性と比較され得る。
[00102]図19は、追加の候補眺め方向810を有する例示的なユーザインターフェースディスプレイ800を示している。図19に示すように、ヘッドセットビームフォーマ出力と元の固定マイクロフォンビームフォーマ出力820との間の相関または類似性を活用することによって、固定ビームフォーマによる新しい候補眺め方向が生成され得る。この技法を使用して、ヘッドセットマイクロフォンビームフォーマ出力が、固定マイクロフォンビームフォーマの眺め方向を精製するために参照として使用され得る。たとえば、図19の話者1が話していることがあり、話者1が話すとき新しい候補眺め方向が適応的に形成され得る。
[00103]図20は、ターゲット発話者向けのビームを適応的に精製するための方法900の実装形態の動作フローである。図3の場合のように、910において、(たとえば、ANCヘッドセットにおける)誘導可能アレイ905は、固定側面ビームフォーミングを提供し、ビームフォーミングされた出力がユーザ眺め方向で(すなわち、誘導可能アレイのユーザが見ている方向で)生成される。920において、関連プロセッサを有する(たとえばスマートフォンにおける)固定マイクロフォンアレイ907は、固定マイクロフォンアレイの周りの3次元でDOA推定を実行し、アクティブな話者を区別する。アクティブな話者の数が判断され、(たとえば、識別番号によって識別される)アクティブな話者ごとの個別の出力が生成される。図18の場合と同様に、950において、固定アレイの区別された発話者と誘導可能アレイの出力との間で、相関または類似性が判断される。
[00104]図20では続いて960において、判断された相関または類似性が使用されて、アクティブなユーザのDOAの近くで角分解能を高め、アクティブな話者の区別が再び実行される。970において、高められた角分解能と誘導可能アレイの出力とを使用して、固定アレイの区別された話者と誘導可能アレイの出力との間で、別の相関または類似性の測定が判断される。次いで、980において、この相関または類似性の測定が使用されて、ターゲット話者にズームすることができる。
[00105]背景雑音および反響下で十分に頑強な同時の複数の音事象に関して、音声信号の各フレームに関する3次元到来方向(DOA)を推定する方法を提供することは困難である。頑強さは信頼性が高い周波数ビンの数を最大化することによって取得され得る。マイクロフォン形状に対する特定の制約が回避され得るように、そのような方法が任意に成形されたマイクロフォンアレイ形状に適していることが望ましい場合がある。本明細書で説明されるペアワイズ1D方式は、任意の形状に適切に組み込まれることが可能である。
[00106]解決策は、そのような汎用スピーカーフォン応用または遠距離応用に関して実施され得る。そのような方式は、マイクロフォン配置制約なしに動作するように実施され得る。そのような方式はまた、(たとえば、より広いマイクロフォン間距離を有するマイクロフォン対の使用をサポートすることによって)最高でナイキスト周波数まで、かつより低い周波数に至るまで利用可能な周波数ビンを使用して、ソースを追跡するために実施され得る。追跡のために単一の対に限定するのではなく、そのような方式は、すべての利用可能な対の間で最善の対を選択するために実施され得る。そのような方式は、最高で3メートルから5メートル以上までの遠距離シナリオにおいてすら、ソース追跡をサポートして、より高いDOA分解能を提供するために使用され得る。他の潜在的な特徴は、アクティブなソースの正確な2D表現を取得することを含む。最善の結果のために、各ソースがスパース広帯域音源(sparse broadband audio source)であり、各周波数ビンがわずか1つのソースによってほぼ支配されていることが望ましい場合がある。
[00107]特定のDOAの点音源から直接的にマイクロフォンの対によって受信された信号の場合、各周波数成分に関する位相遅延は異なり、マイクロフォン同士の間の間隔にも依存する。特定の周波数ビンにおける位相遅延の観測された値は、複素FFT係数の実数項に対する複素FFT係数の虚数項の比率の逆タンジェントとして算出され得る。図21に示すように、特定の周波数fにおける位相遅延値Δφfは、
として、遠距離(すなわち、平面波)仮定下でソースDOAに関係し得、式中、dは、マイクロフォン同士の間の距離を(mで)示し、θは、アレイ軸に直行する方向に対する到来角(半径)を示し、fは、周波数を(Hzで)示し、cは、音速を(メートル毎秒で)示す。反響を伴わない、理想的な単一点音源の場合、周波数Δφ/fに対する位相遅延の比率は、すべての周波数にわたって同じ値
を有することになる。
[00108]そのような方式は、信号の波長がマイクロフォン同士の間の距離dの二倍である周波数として画定され得る、マイクロフォン対に関する空間的エイリアシング周波数によって実際には制限される。空間的エイリアシングは、特定のマイクロフォン対に関して信頼性が高い位相遅延測定値を提供するために使用され得る周波数の範囲に上限を課す位相ラッピングを引き起こす。図23は、4つの異なるDOAに関する、アンラップされた位相遅延に対する周波数のプロットを示し、図24は、同じDOAに関する、ラップされた位相遅延に対する周波数のプロットを示し、この場合、(すなわち、第1のラッピングが生じるまで)各プロットの初期部は太字で示される。測定された位相をアンラップすることによって、位相遅延測定値の有用な周波数範囲の拡大を試みることは一般に信頼性がない。
[00109]位相アンラップの代わりに、提案される方式は、測定された(たとえば、ラップされた)位相遅延をDOA候補のインベントリの各々に関するラップされた位相遅延の事前算出された値と比較する。図25は、(雑音のある)測定された位相遅延値(灰色)、およびインベントリの2個のDOA候補に関する位相遅延値の角度に対する周波数プロット(実線および破線)を含むそのような一例を示し、この場合、位相はpiから-piの範囲にラップされる。次いで、DOA候補θiごとに、周波数成分の範囲fに関して、i番目のDOA候補に関する位相遅延値Δφi_fと観測された位相遅延値Δφob_fとの間の対応する誤差eiを算出して、最低誤差に対応するDOA候補値を識別することによって、観測された信号に最も整合するDOA候補が判断され得る。一例では、誤差eiは、
として、すなわち、周波数成分の所望の範囲または他のセットFに関して観測された位相遅延値と候補位相遅延値との間の平方差の和
として表現される。各DOA候補θiに関する位相遅延値Δφi_fは、cおよびdの知られている値、ならびに周波数成分の所望の範囲fに従って、実行時間前に(たとえば、設計または製造の間に)算出されて、デバイスの使用の間にストレージから取り出されることが可能である。そのような事前算出されたインベントリは、所望の角度範囲および分解能(たとえば、1度、2度、5度、もしくは10度など、均一分解能、または所望の不均一分解能)、ならびに(やはり均一または不均一であってよい)所望の周波数範囲および分解能をサポートするように構成され得る。
[00110]雑音に対する頑強さを高めるために、可能な限り多くの周波数ビンにわたって誤差eiを算出することが望まれる場合がある。たとえば、誤差算出が空間的エイリアシング周波数を超える周波数ビンからの項を含むことが望まれる場合がある。実際的な応用では、最大周波数ビンは、利用可能なメモリ、計算上の複雑さ、高周波数での剛体による強い反射などを含み得る、他の要因によって限定される場合がある。
[00111]音声信号は、一般に、時間周波数領域内でスパースである。ソースが周波数領域内で独立する場合、2つのソースは同時に追跡され得る。ソースが時間領域内で独立する場合、2つのソースは同じ周波数で追跡され得る。アレイが、任意の時点で区別されることになる異なるソース方向の数に少なくとも等しい、いくつかのマイクロフォンを含むことが望ましい場合がある。マイクロフォンは、(たとえば、セルラー電話もしくは専用の会議デバイスに関して一般的であるように)全方向性であってよく、または(セットトップボックスなどのデバイスに関して一般的であるように)方向性であってもよい。
[00112]そのようなマルチチャネル処理は、一般に、たとえば、スピーカーフォン応用に関するソース追跡に適用可能である。そのような技法は、受信されたマルチチャネル信号のフレームに関するDOA推定値を算出するために使用され得る。そのような方式は、各周波数ビンにおいて、位相遅延によって示される、観測された角度に対する各候補角度に関する誤差を算出することができる。その周波数ビンにおけるターゲット角は、最低誤差を有する候補である。一例では、次いで、その候補に関する尤度の測度を得るために、誤差が周波数ビンにわたって合計される。別の例では、すべての周波数ビンにわたって最も頻繁に発生するターゲットDOA候補のうちの1つまたは複数が、所与のフレームに関する1つのDOA推定値(または、複数のDOA推定値)として識別される。
[00113]そのような方法は、(たとえば、1つ未満のフレームの遅延を伴う)同時追跡結果を取得するために適用され得る。遅延は、FFTサイズおよび重複の程度に依存する。たとえば、50%の重複と16kHzのサンプリング周波数とを有する512ポイントFFTの場合、結果として生じる256サンプル遅延は16ミリ秒に対応する。そのような方法は、一般に、最高で2から3メートルのソースアレイ距離まで、または最高で5メートルまでさえ、ソース方向の区別をサポートするために使用され得る。
[00114]誤差はまた、分散(たとえば、個々の誤差が予測される値からそれる程度)と見なされてもよい。(たとえば、FFTを適用することによって)時間領域受信信号を周波数領域に変換することは、各ビン内のスペクトルを平均化する効果を有する。サブバンド表現(たとえば、メル尺度またはバーク尺度)が使用される場合、この平均化はなお一層明らかになる。加えて、(たとえば、一次無限インパルス応答フィルタなど、再帰的スムーザ(recursive smoother)として適用することによって)DOA推定値に関して時間領域平滑化を実行することが望ましい場合がある。
[00115](たとえば、二分木などの検索方策を使用すること、および/または、1つもしくは複数の前のフレームからのDOA候補選択など、知られている情報を適用することによって、)誤差算出演算の計算上の複雑さを削減することが望ましい場合がある。
[00116]方向性情報は位相遅延の点から測定され得るが、一般に、ソースDOAを示す結果を得ることが所望される。結果として、位相遅延ではなく、DOAの点から、誤差を算出することが望ましい場合がある。
[00117]DOAに関する誤差eiの式は、
などのDOAの関数として観測されたラップされた位相遅延に関する式が、位相ラッピングによるニア不連続性(near discontinuities)を除いて、
などのDOAの関数としてアンラップされた位相遅延に関する対応する式に等しいと仮定することによって導出され得る。誤差eiは、次いで、
として表現されることが可能であり、式中、周波数fにおいて観測された位相遅延と候補位相遅延との間の差は、DOAに関して、
として表現される。
[00118]周波数fにおいて観測されたDOAθob_fとDOA候補θi
との間の差の式を取得するために使用される以下の一次近似:
を得るために、テイラー級数展開を実行する。この式は、DOA
に関する誤差eiを表現するために、アンラップされた位相遅延に対する観測されたラップされた位相遅延の仮定される等値を用いて使用されることが可能であり、式中、[Ψf_wr(θob),Ψf_wr(θi)]の値は[Δφob_f,Δφi_f]と定義される。
[00119]縦方向(θ=+/−90°)においてゼロを用いた分割を回避する目的で、代わりに、以下のように、二次近似を使用して、そのような展開を実行することが望ましい場合がある。
式中、A=(πfd sinθi)/c、B=(−2πfd cosθi)/c、および
である。上の一次例にあるように、この式は、観測されたラップされた位相遅延値と候補のラップされた位相遅延値の関数に応じて、DOAに関する誤差eiを表現するために、アンラップされた位相遅延に対して観測されたラップされた位相遅延の仮定される等値を用いて使用され得る。
[00120]図27に示すように、受信された信号の所与のフレームに関する、観測されたDOAと候補DOAとの間の差は、受信されたマイクロフォン信号(たとえば、∀f∈F)の複数の周波数fの各々において、かつ複数のDOA候補θiの各々に関して、そのような様式で算出され得る。図28に示すように、所与のフレームに関するDOA推定値は、誤差eiを取得するために、フレーム内のすべての周波数ビンにわたって各候補に関して平方差を合計して、最低誤差を有するDOA候補を選択することによって判断され得る。あるいは、図29に示すように、そのような差は、各周波数において最も整合する(すなわち、最低平方差)DOA候補を識別するために使用され得る。フレームに関するDOA推定値は、次いで、すべての周波数ビンにわたって最も頻度の高いDOAとして判断され得る。
[00121]図31に示すように、誤差項は、各候補角度iと、各フレームkとに関する周波数のセットFの各々に関して算出され得る。算出されたDOA差または誤差に関してソースアクティビティの尤度を示すことが望ましい場合がある。そのような尤度Lの一例は、特定のフレーム、周波数、および角度に関して、
として表現され得る。
[00122]この式(1)の場合、特定の周波数における非常に良好な一致は、対応する尤度に他のすべての尤度を支配させる場合がある。この感受性を削減するために、以下の式にあるように、規制項λを含めることが望ましい場合がある。
[00123]周波数のセットFに関する和が雑音によって支配されたビンからの結果を含み得るように、音声は時間と周波数の両方においてスパースになる傾向がある。以下の式にあるように、バイアス項βを含めることが望ましい場合がある。
周波数および/または時間にわたって変化し得るバイアス項は、仮定される雑音分布(たとえば、ガウス)に基づき得る。加えて、またはその代わりに、バイアス項は、(たとえば、ノイズオンリー初期フレームからの)初期の雑音推定値に基づき得る。加えて、またはその代わりに、バイアス項は、たとえば、音声アクティビティ検知モジュールによって示されるように、ノイズオンリーフレームからの情報に基づいて動的に更新され得る。
[00124]ターゲット優勢周波数ビンだけが推定値に寄与するため、雑音および反響に対して頑強であるフレームごとのDOA推定値θest_k=maxiΣf∈FL(i,f,k)を取得するために、周波数特定尤度結果は(フレーム、角度)平面上に投影され得る。この和では、誤差が大きな項は、ゼロに近接する値を有し、したがって、推定値に対する有効性はより低くなる。一部の周波数ビン内で方向性音源が優勢である場合、それらの周波数ビンにおける誤差値は、その角度に関してゼロに近くなる。また、他の周波数内で別の方向性音源が優勢である場合、それらの他の周波数ビンにおける誤差値は、その他の角度に関してゼロに近くなる。
[00125]尤度結果はまた、(たとえば、音声アクティビティ検知に関する)方向性メンバーシップ(membership)に基づいて、周波数ビンごとの尤度情報を示すように、(フレーム、周波数)平面上に投影され得る。この尤度は、音声アクティビティの尤度を示すために使用され得る。加えて、またはその代わりに、そのような情報は、たとえば、その到来方向に従って、フレームおよび/もしくは周波数成分を分類することによって、受信された信号の時間ならびに/または周波数選択的マスキングをサポートするために使用され得る。
[00126]アングログラム表現は、スペクトログラム表現に類似する。アングログラムは、各フレームにおいて、各周波数において現在のDOA候補の尤度をプロットすることによって取得され得る。
[00127]空間的エイリアシングは、広い間隔を有するマイクロフォン対の場合、低周波数で開始するため、そのような対は、一般に、高周波数には適さない。しかしながら、本明細書で説明するDOA推定方式は、位相ラッピングが始まる周波数を超える、最高でナイキスト周波数(すなわち、サンプリングレートの半分)まですら、位相遅延測定の使用を可能にする。空間的エイリアシング制約を緩和することによって、そのような方式は、より大きいマイクロフォン間間隔を有するマイクロフォン対を使用することを可能にする。大きなマイクロフォン間距離を有するアレイは、一般に、小さなマイクロフォン間距離を有するアレイよりも、低周波数でより良好な方向性を提供するため、より大きなアレイを使用することは、一般に、有用な位相遅延測定の範囲を、同様に、より低い周波数に広げる。
[00128]本明細書で説明するDOA推定原理は、(たとえば、図22に示す)線形アレイの複数のマイクロフォン対まで拡張され得る。遠距離シナリオに関するそのような応用の一例は、(たとえば、図26に示す)テレビジョンまたは他の大型ビデオディスプレイスクリーンのふちに沿って配置されたマイクロフォンの線形アレイである。図22および図26の例にあるように、マイクロフォン同士の間に不均一(たとえば、対数的)間隔を有するようにそのようなアレイを構成することが望ましい場合がある。
[00129]遠距離ソースの場合、線形アレイの複数のマイクロフォン対は、本質的に同じDOAを有することになる。したがって、1つのオプションは、アレイ内の2つ以上の対からのDOA推定値の平均としてDOAを推定することである。しかしながら、平均化方式は、対のうちの1つの不整合によってすら影響を受ける場合があり、これはDOA推定精度を低下させる可能性がある。あるいは、異なる周波数帯域に関して異なるマイクロフォン対が選択され得るように、アレイのマイクロフォンの2つ以上の対の中から、各周波数に関する最善のマイクロフォン対(たとえば、その周波数で最低誤差eiを提示する対)を選択することが望ましい場合がある。マイクロフォン対の空間的エイリアシング周波数において、誤差は大きくなる。結果として、そのような方式は、周波数がそのラッピング周波数に近いとき、マイクロフォン対を自動的に回避し、したがって、DOA推定値において関連する不確実さを回避する傾向にある。より高い周波数ビンの場合、マイクロフォン同士の間により短い距離を有する対は、一般に、より良好な推定値を提供することになり、自動的に有利であり得るのに対して、より低い周波数ビンの場合、マイクロフォン同士の間により長い距離を有する対は、一般に、より良好な推定値を提供することになり、自動的に有利であり得る。図22に示した4個のマイクロフォンの例では、マイクロフォンの6つの異なる対(すなわち、
)が可能である。
[00130]一例では、各軸に関する最善の対は、各周波数fに関してPxI値を算出することによって選択され、この場合、Pは対の数であり、Iはインベントリのサイズであり、各値epiは、(対pおよび周波数fに関して)観測された角度θpfと候補角度θifとの間の平方絶対差である。各周波数fに関して、最低誤差値epiに対応する対pが選択される。この誤差値はまた、(図30に示すように)周波数fにおける最善のDOA候補θiを示す。
[00131]マイクロフォン対によって受信された信号は、マイクロフォン対の軸に関して、最高で180度までの範囲にわたって推定されたDOAを提供するために、本明細書で説明するように処理され得る。所望の角度スパン(angular span)および分解能は、(たとえば、均一(線形)または不均一(非線形)、選択された当該セクタに限定されるなど)その範囲内で任意であってよい。加えて、またはその代わりに、所望の周波数スパンおよび分解能は、(たとえば、線形、対数的、メル尺度、バーク尺度など)任意であってよい。
[00132]図22に示すモデルでは、マイクロフォン対からの0および+/−90度の間の各DOA推定値は、その対の軸に対して直交である平面に対する角度を示す。そのような推定値は、対の軸周囲の円錐形を記述し、この円錐形の表面に沿ったソースの実際の方向は不確定である。たとえば、単一のマイクロフォン対からのDOA推定値は、ソースがマイクロフォン対の前にあるか、あるいは後にあるかを示さない。したがって、周波数の範囲にわたってDOA推定性能を改善するために、線形アレイ内で2個を超えるマイクロフォンが使用されるが、線形アレイによってサポートされるDOA推定の範囲は、一般に、180度に限定される。
[00133]本明細書で説明するDOA推定原理はまた、マイクロフォンの2次元(2D)アレイに拡張され得る。たとえば、2Dアレイは、ソースDOA推定の範囲を最高で完全な360°まで拡張する(たとえば、レーダ走査および生体医学走査などの応用におけるのと類似の範囲を提供する)ために使用され得る。そのようなアレイは、たとえば、1つまたは複数のソースに対する電話の任意の配置に関してすら良好な性能をサポートするためにスピーカーフォン応用において使用され得る。
[00134]2Dアレイの複数のマイクロフォン対は、一般に、遠距離点音源に関してすら同じDOAを共有しないことになる。たとえば、(たとえば、z軸内の)アレイの平面に対するソース高さは、2D追跡において重要な役割を果たし得る。図32は、マイクロフォン軸によって画定されるx−y平面が、電話が配置される表面(たとえば、テーブルトップ)に平行なスピーカーフォン応用の一例を示す。この例では、ソースは、x軸に沿っているが、z軸の方向にオフセットである位置から話している(たとえば、話者の口がテーブルトップ上にある)人物である。マイクロフォンアレイによって画定されるx−y平面に関して、ソースの方向は、図32に示すように、x軸に沿っている。y軸に沿ったマイクロフォン対は、x−z平面からゼロ度として、ソースのDOAを推定する。しかしながら、x−y平面上のスピーカーの高さにより、x軸に沿ったマイクロフォン対は、ソースのDOAを、x軸に沿ってではなく、x軸から30°(すなわち、y−z平面から60度)と推定する。図34および図35は、マイクロフォン軸に関して推定されたスピーカー方向にあいまいさを生じさせる、このDOA推定値と関連付けられる乱信号円錐域の2つのビューを示す。
[00135]式中、θ1およびθ2が、それぞれ、対1および2に関して推定されたDOAである、
などの式は、DOAのすべての対を3個のマイクロフォンが配置された面内の360°範囲に投影するために使用され得る。そのような投影は、高さの差にかかわらず、アクティブなスピーカーの追跡方向がマイクロフォンアレイ周囲の360°範囲を超えることを可能にするために使用され得る。図32のDOA推定(0°,60°)をx−y平面に投影するための上の式の適用は、図33に示すような270°の結合された方向性推定値(たとえば、アジマス)にマップされ得る
を生成する。
[00136]一般的な使用事例では、ソースは、マイクロフォン軸上に投影されない方向内に配置されることになる。図37〜図40は、ソースS01がマイクロフォンの面の上部に配置された一例を示す。この例では、ソース信号のDOAは点(x,y,z)=(5,2,5)を通過する。図37は、+z方向から見たx−y平面を示す。図38および図40は、マイクロフォンMC30の方向から見たx−z平面を示し、図39は、マイクロフォンMC10の方向から見たy−z平面を示す。図37の影付き領域は、y軸マイクロフォン対MC20〜MC30によって観測された、DOAθ1に関連する乱信号円錐域CYを示し、図38の影付き領域は、x軸マイクロフォン対MC10〜MC20によって観測されたDOAθ2に関連する乱信号円錐域CXを示す。図39で、影付き領域は、円錐域CYを示し、破線の円はソースを通過し、かつx軸に対して直交な円錐域CXの交差を示す。円錐域CYとのその交差を示す、この円上の2つの点は、ソースの候補位置である。同様に、図40で、影付き領域は、円錐域CXを示し、破線の円は、ソースを通過し、かつy軸に対して直交な平面との円錐域CYの交差を示し、円錐域CXとの交差を示す、この円上の2つの点は、ソースの候補位置である。この2D事例では、ソースがx−y面の上にあるかまたは下にあるかに関してあいまいさが残ることを理解されよう。
[00137]図37〜図40に示す例の場合、x軸マイクロフォン対MC10〜MC20によって観測されたDOAは、
であり、y軸マイクロフォン対MC20〜MC30によって観測されたDOAは
である。これらの方向をx−y平面に投影するために式(4)を使用することは、所与のソース位置(x,y,z)=(5,2,5)に対応する、それぞれ、xおよびy軸に対する所望の角度の大きさ(21.8°、68.2°)を生成する。観測された角度の信号は、図36に示すように、ソースが配置されるx−yクワドラントを示す。
[00138]実際に、上下の混乱を除いて、2Dマイクロフォンアレイによって、ほぼ3D情報が与えられる。たとえば、マイクロフォン対MC10〜MC20およびMC20〜MC30によって観測された到来方向は、x−y平面に対するソースの上昇の角度の大きさを推定するためにも使用され得る。dがマイクロフォンMC20からソースまでのベクトルを示す場合、x軸、y軸、およびx−y平面上へのベクトルdの投影の長さは、それぞれ、dsin(θ2)、dsin(θ1)、および
として表現され得る。上昇の角度の大きさは、次いで、
として推定され得る。
[00139]図32〜33、および図37〜40の特定の例におけるマイクロフォン対は直交軸を有するが、非直交軸を有するマイクロフォン対の場合、それらの非直交軸に対するDOA推定値を投影するために、式(4)が使用され得、その点から、直交軸に関して結合された方向性推定値の表現を得ることは容易であることに留意されたい。図41は、対MC20〜MC30の軸1がx−y面にあり、かつスキュー角θ0だけy軸に対して歪んでいるマイクロフォンアレイMC10〜MC20〜MC30の一例を示す。
[00140]図42は、図41に示したアレイからの観測値(θ1,θ2)を用いて、直交軸xおよびyに関するx−y平面内の結合された方向性推定値を取得する一例を示す。dがマイクロフォンMC20からソースまでのベクトルを示す場合、x軸および軸1上へのベクトルdの投影の長さは、それぞれ、dsin(θ2)およびdsin(θ1)として表現され得る。ベクトル(x,y)は、x−y平面上へのベクトルdの投影を示す。xの推定値は知られており、その推定値は依然としてyの値を推定する。
[00141]yの推定は、軸1上へのベクトル(x,y)の投影p1=(dsinθ1sinθ0、dsinθ1cosθ0)を使用して実行され得る。ベクトル(x,y)とベクトルp1との間の差がp1に対して直交であることを観測して、
としてyを算出する。直交xおよびy軸に対するx−y平面の所望の到来角度は、この場合、
としてそれぞれ表現され得る。
[00142]2DアレイへのDOA推定の展開は、一般に、スピーカーフォン応用に適切であり、スピーカーフォン応用にとって十分である。しかしながら、N次元アレイへのさらなる展開も可能であり、簡単な様式で実行され得る。1つのターゲットが優勢である追跡応用の場合、N次元を表すためにN個の対を選択することが望まれる場合がある。特定のマイクロフォン対に関して2D結果が取得されると、自由度を高めるために別の利用可能な対が利用され得る。たとえば、図37〜42は、x−y平面に投影されるソース方向の推定値を得るために、x−y平面の異なるマイクロフォン対から観測されたDOA推定値を使用することを例示する。同じように、x軸マイクロフォン対およびz軸マイクロフォン対(または、x−z平面の他の対)から観測されたDOA推定値は、x−z平面に投影されたソース方向の推定値、同様に、y−z平面、または3つ以上のマイクロフォンを交差する任意の他の平面に関する推定値を取得するために使用され得る。
[00143]異なる次元からのDOA誤差の推定値は、たとえば、
などの式を使用して、結合された尤度推定値を得るために使用されることが可能であり、式中、θ0,iは、対iに関して選択されたDOA候補を示す。乱信号円錐域のうちの1つだけに近く、したがって、誤ったピークを示す可能性がある推定値に優先して、異なる誤差の中の最大値を使用することは、両方の観測値の乱信号円錐域に近い推定値の選択を促すために望ましい場合がある。そのような結合された結果は、本明細書で説明する(フレーム、角度)平面、および/または本明細書で説明する(フレーム、周波数)プロットを取得するために使用され得る。
[00144]本明細書で説明するDOA推定原理は、複数の話者の中からの選択をサポートするために使用され得る。たとえば、複数のソースの位置は、特定の話者の手動選択(たとえば、特定の対応するユーザを選択するために特定のボタンを押下すること)または特定の話者の(たとえば、話者認識による)自動的選択と結合され得る。1つのそのような応用では、電話は、その所有者の音声を認識して、他のソースの方向に優先して、その音声に対応する方向を自動的に選択するように構成される。
[00145]ソースDOAは、1D、たとえば、−90°から+90°で容易に画定され得る。任意の相対的位置で2個を超えるマイクロフォンの場合、上で説明した1Dの単純な展開、たとえば、2Dの2対事例では(θ1,θ2)、3Dの3対事例では(θ1,θ2,θ3)などを使用することが提案される。
[00146]主な問題は、対にされた1D DOA推定値をそのように結合するために、空間フィルタリングをどのように適用するかである。この場合、各対に関するステアリングベクトルを拡大することによって、図43に示すビーム形成器/ヌル形成器(BFNF)を適用することができる。この図では、AHは、Aの共役転置を示し、xは、マイクロフォンチャネルを示し、yは空間フィルタリングされたチャネルを示す。図43に示す疑似逆演算A+=(AHA)-1Hを使用することは、非正方行列の使用を可能にする。例えば図45に例示する、3個のマイクロフォン事例(すなわち、2個のマイクロフォン対)の場合、追加の行が行列を非正方にするように、行の数は、3の代わりに、2*2=4である。
[00147]図43に示す方式は頑強な1D DOA推定に基づくため、マイクロフォン形状の完全な知識は必要とされず、同時にすべてのマイクロフォンを使用するDOA推定も必要とされない。そのような方式は、本明細書で説明するアングログラムベースのDOA推定に使用するのに好適であるが、任意の他の1D DOA推定方法も使用され得る。図44は、空間的エイリアシング周波数における悪条件の反転を防ぐための正規化係数をやはり含む、図43に示すBFNF BF10の一例を示す。
[00148]図46は、従来の方式とは異なってステアリングベクトル(アレイマニホールドベクトル)が取得される、ペアワイズ(PW)正規化MVDR(最小分散無歪応答)BFNFの一例を示す。この場合、2個の対同士の間のマイクロフォンの共有による共通チャネルが推定される。測定によって、またはシンク関数を使用した理論算出によって、雑音コヒーレンス行列(noise coherence matrix)Γが取得され得る。図43、図44、および図46の例は、N≦Mになるように、ソースの任意の数Nに一般化され得、式中、Mはマイクロフォンの数であることに留意されたい。
[00149]図47は、条件数または行列の行列式を使用して判断され得る、行列AHAが悪条件でない場合に使用され得る別の例を示す。行列が悪条件である場合、行列AHAが悪条件でない他の周波数ビンを空間フィルタリングするための方法を適用し続けると同時に、ソースチャネルとして使用するために、その周波数ビンに関して1個のマイクロフォン信号を迂回することが望ましい場合がある。このオプションは正規化のための分母を算出するための計算を省く。図43〜47の方法は、各周波数ビンにおいて独立して適用され得るBFNF技法を示す。ステアリングベクトルは、本明細書で説明する各周波数およびマイクロフォン対に関するDOA推定値を使用して構築される。たとえば、DOAθi、周波数f、およびマクロフォン数m(1または2)に関する対pならびにソースn用のステアリングベクトルの各要素は、
と算出され得、式中、lpは、対pのマイクロフォン同士の間の距離を示し、ωは、周波数ビン番号を示し、fsはサンプリング周波数を示す。図48は、図45に示すアレイのステアリングベクトルの例を示す。
[00150]PWBFNF方式は、最高で利用可能な自由度まで干渉の直接経路を抑圧(平滑軌道仮定を伴わない瞬時抑圧、方向マスキングを使用した追加の雑音抑圧利得、帯域幅拡大を使用した追加の雑音抑圧利得)するために使用され得る。クワドラントフレームワークのシングルチャネル後処理は、定常雑音および雑音基準処理のために使用され得る。
[00151]瞬時抑圧を取得すること、また音楽雑音などのアーティファクトの最小化を実現することが望ましい場合がある。BFNFに関して利用可能な自由度を最大限に使用することが望ましい場合がある。1個のDOAがすべての周波数にわたって固定されてよく、または周波数にわたる若干不整合な整合は許可されてよい。現在のフレームだけが使用され得るか、またはフィードフォワードネットワーク(feed-forward network)が実施され得る。BFNFは、(たとえば、悪条件の周波数を除く)最高でナイキストレートまでの範囲ですべての周波数に関して設定され得る。(たとえば、アグレッシブネス(aggressiveness)の平滑な自然の継ぎ目のない遷移を得るために)自然マスキング方式が使用され得る。
[00152]図49は、本明細書で説明する積分方法に関する一例のフローチャートを示す。この方法は、位相遅延推定のためのインベントリ整合タスクと、DOA誤差分散値を取得するための分散算出タスクと、次元整合および/または対選択タスクと、選択されたDOA候補に関するDOA誤差分散をソースアクティビティ尤度推定値にマッピングするためのタスクとを含む。ペアワイズDOA推定結果はまた、1つもしくは複数のアクティブ話者を追跡するため、ペアワイズ空間フィルタリング演算を実行するため、ならびにあるいは時間および/または周波数選択マスキングを実行するために使用され得る。アクティビティ尤度推定および/または空間フィルタリング演算はまた、シングルチャネル雑音抑圧動作をサポートするための雑音推定値を取得するために使用され得る。
[00153]本明細書で開示した方法および装置は、概して任意の送受信および/または音声感知応用、特にそのような応用のモバイル事例または他の持ち運び可能事例において適用され得る。たとえば、本明細書で開示した構成の範囲は、符号分割多元接続(CDMA)オーバージエアインターフェースを用いるように構成されたワイヤレステレフォニー通信システム内に常駐する通信デバイスを含む。とはいえ、本明細書で説明した特徴を有する方法および装置は、ワイヤードおよび/またはワイヤレス(たとえば、CDMA、TDMA、FDMA、および/またはTD−SCDMA)送信チャネルを介したボイスオーバIP(VoIP)を用いるシステムなど、当業者に知られている広範囲の技術を用いる様々な通信システムのいずれの中にも常駐し得ることが、当業者には理解されよう。
[00154]本明細書で開示した通信デバイスは、パケット交換式であるネットワーク(たとえば、VoIPなどのプロトコルに従ってオーディオ送信を搬送するように構成されたワイヤードおよび/もしくはワイヤレスネットワーク)ならびに/または回線交換式であるネットワークにおける使用に適応され得ることが明確に企図され、本明細書によって開示される。また、本明細書で開示した通信デバイスは、狭帯域コーディングシステム(たとえば、約4または5キロヘルツの可聴周波数範囲を符号化するシステム)での使用、ならびに/または全帯域広帯域コーディングシステムおよびスプリットバンド広帯域コーディングシステムを含む、広帯域コーディングシステム(たとえば、5キロヘルツを超える可聴周波数を符号化するシステム)での使用に適応し得ることが明確に企図され、本明細書によって開示される。
[00155]本明細書で説明した通信デバイスの送信機および/または受信機とともに使用され得る、またはそれらとともに使用するように適応され得るコーデックの例としては、「Enhanced Variable Rate Codec,Speech Service Options 3,68,and 70 for Wideband Spread Spectrum Digital Systems」と題するThird Generation Partnership Project 2(3GPP2)文書C.S0014−C、v1.0、2007年2月(www.3gpp.orgでオンライン入手可能)に記載されているEnhanced Variable Rate Codec、「Selectable Mode Vocoder(SMV)Service Option for Wideband Spread Spectrum Communication Systems」と題する3GPP2文書C.S0030−0、v3.0、2004年1月(www.3gpp.orgでオンライン入手可能)に記載されているSelectable Mode Vocoder音声コーデック、文書ETSI TS126 092 V6.0.0(European Telecommunications Standards Institute(ETSI)、Sophia Antipolis Cedex、FR、2004年12月)に記載されているAdaptive Multi Rate(AMR)音声コーデック、および文書ETSI TS 126 192 V6.0.0.(ETSI、2004年12月)に記載されているAMR Wideband音声コーデックがある。そのようなコーデックは、たとえば、受信されたワイヤレス通信信号からの再生されたオーディオ信号を回復するために使用され得る。
[00156]説明した構成の提示は、本明細書で開示した方法および他の構造を当業者が製造または使用できるように提供されたものである。本明細書で図示および説明したフローチャート、ブロック図、および他の構造は例にすぎず、これらの構造の他の変形態も本開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示した一般原理は他の構成にも同様に適用され得る。したがって、本開示は、上記に示した構成に限定されることが意図されず、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示した原理および新規の特徴に一致する最も広い範囲が与えられるべきである。
[00157]情報および信号は、多種多様な技術および技法のいずれかを使用して表され得ることを当業者なら理解されよう。たとえば、上の説明全体にわたって言及され得るデータ、命令、コマンド、情報、信号、ビット、およびシンボルは、電圧、電流、電磁波、磁界もしくは磁性粒子、光場もしくは光学粒子、またはそれらの任意の組合せによって表され得る。
[00158]本明細書で開示した構成の実装形態の重要な設計要件は、圧縮されたオーディオもしくはオーディオビジュアル情報(たとえば、本明細書で識別される例のうちの1つなど、圧縮形式に従って符号化されるファイルまたはストリーム)の再生などの計算集約的適用例、または広帯域通信(たとえば、12、16、32、44.1、48、または192kHzなど、8キロヘルツよりも高いサンプリングレートにおける音声通信)の応用では特に、(一般に百万命令毎秒またはMIPSで測定される)処理遅延および/または計算複雑さを最小にすることを含み得る。
[00159]本明細書で開示した装置(たとえば、本明細書で説明した技法を実行するように構成された任意の装置)は、意図された応用に適すると見なされる、ソフトウェアとの、および/またはファームウェアとのハードウェアの任意の組合せで実装され得る。たとえば、そのような装置の要素は、たとえば、同じチップ上に、またはチップセット中の2つ以上のチップ間に常駐する電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタもしくは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも1つもしくは複数のそのようなアレイとして実装され得る。これらの要素のうちの任意の2つ以上、さらにはすべてが、同じ1つまたは複数のアレイ内に実装され得る。そのような1つまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)に実装され得る。
[00160]本明細書で開示した装置の様々な実装形態の1つまたは複数の要素は、全体または一部が、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA(フィールドプログラマブルゲートアレイ)、ASSP(特定用途向け標準製品)、およびASIC(特定用途向け集積回路)などの論理要素の1つもしくは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の1つもしくは複数のセットとして実装され得る。本明細書で開示した装置の実装形態の様々な要素のいずれも、1つもしくは複数のコンピュータ(たとえば、「プロセッサ」とも呼ばれる、命令の1つもしくは複数のセットまたはシーケンスを実行するようにプログラムされた1つもしくは複数のアレイを含む機械)としても実施されることが可能であり、これらの要素のうちの任意の2つ以上、さらにはすべてが、同じそのような1つもしくは複数のコンピュータ内に実装され得る。
[00161]本明細書で開示したプロセッサまたは処理するための他の手段は、たとえば、同じチップ上に、またはチップセット中の2つ以上のチップ間に常駐する1つもしくは複数の電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタもしくは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも1つもしくは複数のそのようなアレイとして実装され得る。そのような1つまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)に実装され得る。そのようなアレイの例としては、マイクロプロセッサ、組込みプロセッサ、IPコア、DSP、FPGA、ASSP、およびASICなど、論理要素の固定アレイまたはプログラマブルアレイがある。本明細書で開示さしたプロセッサまたは処理するための他の手段は、1つまたは複数のコンピュータ(たとえば、命令の1つもしくは複数のセットまたはシーケンスを実行するようにプログラムされた、1つもしくは複数のアレイを含む機械)、あるいは他のプロセッサとしても実施され得る。本明細書で説明したプロセッサは、プロセッサが組み込まれているデバイスまたはシステム(たとえば、オーディオ感知デバイス)の別の演算に関係するタスクなど、本明細書で説明した実装形態の手順に直接関係しないタスクを実施するか、または命令の他のセットを実行するために使用されることが可能である。また、本明細書で開示した方法の一部はオーディオ感知デバイスのプロセッサによって実行され、その方法の別の一部は1つまたは複数の他のプロセッサの制御下で実行されることが可能である。
[00162]本明細書で開示した構成に関して説明した様々な例示的なモジュール、論理ブロック、回路、およびテストならびに他の動作は、電子ハードウェア、コンピュータソフトウェア、またはその両方の組合せとして実装され得ることを、当業者は諒解されよう。そのようなモジュール、論理ブロック、回路、および動作は、本明細書で開示した構成を生成するように設計された、汎用プロセッサ、デジタル信号プロセッサ(DSP)、ASICもしくはASSP、FPGAもしくは他のプログラマブル論理デバイス、個別ゲートもしくはトランジスタ論理、個別ハードウェア構成要素、またはそれらの任意の組合せを用いて実装または実施され得る。たとえば、そのような構成は、少なくとも部分的に、ハードワイヤード回路として、特定用途向け集積回路へと作製された回路構成として、あるいは不揮発性記憶装置にロードされるファームウェアプログラム、または汎用プロセッサもしくは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてデータ記憶媒体からロードされるかもしくはデータ記憶媒体にロードされるソフトウェアプログラムとして実装され得る。汎用プロセッサはマイクロプロセッサであってよいが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であってよい。プロセッサは、コンピューティングデバイスの組合せ、たとえば、DSPおよびマイクロプロセッサの組合せ、複数のマイクロプロセッサ、DSPコアと連係する1つもしくは複数のマイクロプロセッサ、またはいかなる他のそのような構成としても実施され得る。ソフトウェアモジュールは、RAM(ランダムアクセスメモリ)、ROM(読取り専用メモリ)、フラッシュRAMなどの不揮発性RAM(NVRAM)、消去可能プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM(登録商標))、レジスタ、ハードディスク、リムーバブルディスク、もしくはCD−ROMなど、非一時的記憶媒体中に、または当技術分野で知られている任意の他の形態の記憶媒体中に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサと一体であってもよい。プロセッサおよび記憶媒体はASIC内に存在し得る。ASICはユーザ端末内に常駐し得る。代替として、プロセッサおよび記憶媒体は、ユーザ端末中に個別コンポーネントとして常駐し得る。
[00163]本明細書で開示した様々な方法は、プロセッサなどの論理要素のアレイによって実行され得、本明細書で説明した装置の様々な要素は、そのようなアレイ上で実行するように設計されたモジュールとして実装され得ることに留意されたい。本明細書で使用する「モジュール」または「サブモジュール」という用語は、ソフトウェア、ハードウェアまたはファームウェアの形態でコンピュータ命令(たとえば、論理式)を含む任意の方法、装置、デバイス、ユニットまたはコンピュータ可読データ記憶媒体を指し得る。複数のモジュールまたはシステムを1つのモジュールまたはシステムに結合することができ、1つのモジュールまたはシステムを、同じ機能を実行する複数のモジュールまたはシステムに分離することができることを理解されたい。ソフトウェアまたは他のコンピュータ実行可能命令で実装されるとき、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、構成要素、データ構造などを用いてなど、関連するタスクを実施するコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の1つもしくは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むことを理解されたい。プログラムまたはコードセグメントは、プロセッサ可読媒体に記憶されてよく、または、搬送波に埋め込まれたコンピュータデータ信号によって伝送媒体または通信リンクを介して送信されてよい。
[00164]本明細書で説明した方法のタスクの各々は、ハードウェアで直接実施され得るか、プロセッサによって実行されるソフトウェアモジュールで実施され得るか、またはその2つの組合せで実施され得る。本明細書で開示した方法の実装形態の典型的な応用では、論理要素のアレイ(たとえば、論理ゲート)は、この方法の様々なタスクのうちの1つ、複数、さらにはすべてを実施するように構成される。タスクのうちの1つもしくは複数(場合によってはすべて)は、論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械(たとえば、コンピュータ)によって読取り可能かつ/あるいは実行可能である、コンピュータプログラム製品(たとえば、ディスク、フラッシュメモリカードまたは他の不揮発性メモリカード、半導体メモリチップなど、1つもしくは複数のデータ記憶媒体)に実施されたコード(たとえば、命令の1つまたは複数のセット)としても実装され得る。本明細書で開示した方法の実装形態のタスクは、2つ以上のそのようなアレイまたは機械によっても実施され得る。これらまたは他の実装形態では、タスクは、セルラー電話など、ワイヤレス通信用のデバイス内、またはそのような通信機能を有する他のデバイス内で実施され得る。そのようなデバイスは、(たとえば、VoIPなどの1つまたは複数のプロトコルを使用して)回線交換および/またはパケット交換ネットワークと通信するように構成され得る。たとえば、そのようなデバイスは、符号化フレームを受信および/または送信するように構成されたRF回路を含み得る。
[00165]本明細書で開示した様々な方法は、ハンドセット、ヘッドセット、または携帯情報端末(PDA)などのポータブル通信デバイスによって実行されてよく、本明細書で説明した様々な装置は、そのようなデバイス内に含まれ得ることが明確に開示される。
[00166]1つまたは複数の例示的な実施形態では、本明細書で説明した動作は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装する場合、そのような動作は、1つもしくは複数の命令またはコードとしてコンピュータ可読媒体に記憶され得るか、あるいはコンピュータ可読媒体を介して送信され得る。「コンピュータ可読媒体」という用語は、コンピュータ可読記憶媒体と通信(たとえば、伝送)媒体の両方を含む。限定ではなく例として、コンピュータ可読記憶媒体は、(限定はしないが、ダイナミックもしくはスタティックRAM、ROM、EEPROM、および/またはフラッシュRAMを含み得る)半導体メモリ、または強誘電体メモリ、磁気抵抗メモリ、オボニックメモリ、高分子メモリ、または相変化メモリなどの記憶要素のアレイ、CD−ROMまたは他の光ディスクストレージ、ならびに/あるいは磁気ディスクストレージまたは他の磁気ストレージデバイスを備えることができる。そのような記憶媒体は、コンピュータによってアクセスされ得る命令またはデータ構造の形態で情報を記憶し得る。通信媒体は、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む、命令またはデータ構造の形態で所望のプログラムコードを搬送するために使用され得、かつコンピュータによってアクセスされ得る、任意の媒体を備えることができる。同様に、いかなる接続も適切にコンピュータ可読媒体と称される。たとえば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、および/もしくはマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、あるいは他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、無線、および/もしくはマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用するディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)およびブルーレイ(登録商標)ディスク(disc)(Blu−Ray(登録商標) Disc Association、Universal City、CA)を含み、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)はデータをレーザで光学的に再生する。上記のこの組合せもコンピュータ可読媒体の範囲内に含まれるべきである。
[00167]本明細書で説明した音響信号処理装置は、いくつかの動作を制御するために音声入力を受容し、あるいは背景雑音から所望の雑音を分離することから利益を得ることが可能な、通信デバイスなどの電子デバイスに組み込まれ得る。多くの応用では、複数の方向から発生した背景音から明瞭な所望の音を強調または分離することから利益を得ることができる。そのような応用は、音声認識および検出、音声強調および分離、音声アクティブ化制御などの機能を組み込んだ電子デバイスまたはコンピューティングデバイスにおける人間機械インターフェースを含み得る。限られた処理機能のみを提供するデバイスに適したそのような音響信号処理装置を実装することが望ましい場合がある。
[00168]本明細書で説明した装置の一実装形態の1つまたは複数の要素は、装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施し、あるいは装置の動作に直接関係しない命令の他のセットを実行するために使用されることが可能である。また、そのような装置の実装形態の1つもしくは複数の要素は、共通の構造(たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、または、異なる要素向けの動作を異なる時間に実施する電子デバイスおよび/もしくは光デバイスの構成)を有することが可能である。
[00169]本開示の前述の説明は、いかなる当業者でも本開示を作成または使用することができるように提供される。本開示への様々な修正は当業者には容易に明らかとなり、本明細書で定義した一般原理は、本開示の範囲から逸脱することなく他の変形形態に適用され得る。したがって、本開示は、本明細書で説明した例および設計に限定されるものではなく、本明細書で開示した原理および新規の特徴に合致する最も広い範囲を与えられるべきである。
[00170]例示的な実装形態は、1つまたは複数の独立型コンピュータシステムの文脈で、本開示の主題の態様を利用することに言及し得るが、主題は、そのように限定されるのではなく、ネットワークまたは分散コンピューティング環境など、任意のコンピューティング環境に関連して実施され得る。またさらに、本開示の主題の態様は、複数の処理チップまたはデバイスにおいてあるいはそれらにわたって実装され得、同様に複数のデバイスにわたって記憶が実施され得る。たとえば、そのようなデバイスは、PC、ネットワークサーバ、およびハンドヘルドデバイスを含み得る。
[00171]主題は構造機能および/または方法論的な行為に固有の言語で記載されているが、添付の特許請求の範囲において定義される主題は必ずしも上記の特定の特徴または行為に限定されるとは限らないことを理解されたい。むしろ、上記の特定の特徴および行為は、特許請求の範囲を実施することの例示的な形態として開示される。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[C1] 複数の参加者間の社会的対話を追跡するシステムであって、
第1の空間フィルタ処理済み出力を出力するように適合され、複数の誘導可能ビームフォーマから複数の第2の空間フィルタ処理済み出力を受信するように構成された固定ビームフォーマと、各誘導可能ビームフォーマは、前記第2の空間フィルタ処理済み出力のうちの対応する1つを出力し、前記参加者のうちの異なる1人に関連付けられる、
前記第1の空間フィルタ処理済み出力と前記第2の空間フィルタ処理済み出力の各々との間の類似性を判断することが可能であり、前記第1の空間フィルタ処理済み出力と前記第2の空間フィルタ処理済み出力の各々との間の前記類似性に基づいて、前記参加者間の前記社会的対話を判断することが可能であるプロセッサとを備えるシステム。
[C2] 前記固定ビームフォーマは固定マイクロフォンアレイを備え、前記誘導可能ビームフォーマの各々は誘導可能マイクロフォンアレイを備える、C1に記載のシステム。
[C3] 前記固定ビームフォーマおよび前記プロセッサはモバイルデバイス内に備えられる、C1に記載のシステム。
[C4] 前記固定ビームフォーマおよび前記プロセッサは、ハンドセット、ラップトップ、タブレット、コンピュータ、およびネットブックを備えるグループの中からの1つの中に備えられる、C1に記載のシステム。
[C5] 前記複数の誘導可能ビームフォーマの各々は、それぞれのデバイス内に備えられ、各それぞれのデバイスは、前記参加者のうちの異なる1人に関連付けられることが可能である、C1に記載のシステム。
[C6] 各それぞれのデバイスは、前記関連付けられた参加者によって装着されるヘッドセットを備える、C5に記載のシステム。
[C7] 前記参加者間の前記社会的対話を表示することが可能であるユーザインターフェースをさらに備える、C1に記載のシステム。
[C8] ユーザインターフェースディスプレイが、一度に前記複数の参加者をグラフィカルに表示することが可能である、C7に記載のシステム。
[C9] 前記ユーザインターフェースディスプレイは、前記ユーザインターフェースを介して前記参加者のうちの1人にズームインして、前記ズームインされた参加者の改良された音声を提供することが可能である、C8に記載のシステム。
[C10] 前記固定ビームフォーマの前記第1の空間フィルタ処理済み出力は、前記複数の誘導可能ビームフォーマの前記第2の空間フィルタ処理済み出力のうちの少なくとも1つに基づいて精製される、C1に記載のシステム。
[C11] 前記プロセッサは、(1)前記固定ビームフォーマの前記第1の空間フィルタ処理済み出力と前記複数の誘導可能ビームフォーマの前記第2の空間フィルタ処理済み出力のうちの前記少なくとも1つとの間の前記類似性を、(2)移動した眺め方向を有する固定ビームフォーマの前記第1の空間フィルタ処理済み出力と前記複数の誘導可能ビームフォーマの前記第2の空間フィルタ処理済み出力のうちの前記少なくとも1つとの間の前記類似性と比較するように適合される、C1に記載のシステム。
[C12] オーディオビームフォーミングに基づいて参加者間の前記社会的対話を追跡することが可能なモバイルデバイスをさらに備える、C1に記載のシステム。
[C13] 前記プロセッサは、前記固定ビームフォーマの前記第1の空間フィルタ処理済み出力と前記誘導可能ビームフォーマの前記第2の空間フィルタ処理済み出力のうちの選択された1つとの間の相関を実行するように構成される、C1に記載のシステム。
[C14] 前記固定ビームフォーマは、第1のモバイルデバイス内に備えられ、選択された誘導可能ビームフォーマは、前記第1のモバイルデバイスとは異なる第2のモバイルデバイス内に備えられる、C13に記載のシステム。
[C15] 前記類似性は、相関、時間領域もしくは周波数領域における許容時間調整を伴う最小2乗適合、線形予測コーディング(LPC)もしくはメル周波数ケプストラル係数(MFCC)を使用する特徴ベースの方式、またはクロスキュムラント、実証的カルバックライブラーダイバージェンスもしくは板倉−斉藤距離を使用する高位ベースの方式のうちの1つを使用して判断される、C1に記載のシステム。
[C16] 前記プロセッサは、前記参加者のうちの少なくとも1人の位置を判断するようにさらに構成される、C1に記載のシステム。
[C17] 固定マイクロフォンアレイの出力と誘導可能マイクロフォンアレイの出力との間の類似性を判断するためのシステムであって、
前記固定マイクロフォンアレイからの第1の空間フィルタ処理済み出力と前記誘導可能マイクロフォンアレイからの第2の空間フィルタ処理済み出力とを受信するように構成され、前記第1の空間フィルタ処理済み出力と前記第2の空間フィルタ処理済み出力とを比較して、前記固定マイクロフォンアレイの前記出力と前記誘導可能マイクロフォンアレイの前記出力との間の前記類似性を判断するようにさらに構成されたプロセッサと、
前記類似性を出力するように構成された出力デバイスと
を備えるシステム。
[C18] 各空間フィルタ処理済み出力は、ビームフォーミングされた出力を備える、C17に記載のシステム。
[C19] 前記プロセッサは、前記受信し比較することを複数回、複数の誘導可能マイクロフォンアレイの各々につき1回、繰り返すようにさらに構成される、C17に記載のシステム。
[C20] 前記プロセッサおよび前記出力デバイスは、ハンドセット、ラップトップ、タブレット、コンピュータ、およびネットブックを備えるグループの中からの1つの中に備えられる、C17に記載のシステム。
[C21] 前記プロセッサは、
前記固定マイクロフォンアレイの周りの到来方向を推定し、
前記到来方向を使用してアクティブな話者を判断し、前記到来方向を使用して前記アクティブな話者の出力を区別し、
前記第1の空間フィルタ処理済み出力と、前記第2の空間フィルタ処理済み出力と、前記アクティブな話者の前記出力とを使用して、前記誘導可能マイクロフォンアレイの前記出力と前記固定マイクロフォンアレイの前記出力との間の前記類似性を判断するようにさらに構成される、C17に記載のシステム。
[C22] 前記到来方向を推定することは3次元(3D)で実行され得る、C21に記載のシステム。
[C23] 前記第2の空間フィルタ処理済み出力はアクティブな話者の眺め方向にある、C21に記載のシステム。
[C24] 前記第2の空間フィルタ処理済み出力は、アクティブノイズ制御(ANC)ヘッドセットからの固定側面ビームフォーミングによって生成される、C21に記載のシステム。
[C25] 前記プロセッサは、
複数の誘導可能マイクロフォンアレイから複数の空間フィルタ処理済み出力を受信し、各誘導可能マイクロフォンアレイは、異なるアクティブな話者に対応する、
前記アクティブな話者を識別し、前記到来方向を使用して前記アクティブな話者の前記出力を区別し、
前記誘導可能マイクロフォンアレイの前記出力と、前記固定マイクロフォンアレイの、前記アクティブな話者に対応する前記区別された出力との間の前記類似性を判断するようにさらに構成される、C21に記載のシステム。
[C26] 前記固定マイクロフォンアレイは、アクティブな話者の数と各アクティブな話者に関する区別された音声信号とを提供するように構成され、前記誘導可能マイクロフォンアレイは、各アクティブな話者の眺め方向を提供し、前記類似性を判断することは、
各アクティブな話者に関して、
前記アクティブな話者に関する前記区別された音声信号と前記アクティブな話者の前記眺め方向とを使用して相互相関式の最大ピークを発見することと、
前記最大ピークを使用するための強い相関の角度を判断することと、ここにおいて、強い相関の前記角度は、前記固定マイクロフォンアレイと前記アクティブな話者の前記誘導可能マイクロフォンアレイとの間の角度に対応する、を備える、C25に記載のシステム。
[C27] 前記類似性を判断することは、相関、時間領域もしくは周波数領域における許容時間調整を伴う最小2乗適合、線形予測コーディング(LPC)もしくはメル周波数ケプストラル係数(MFCC)を使用する特徴ベースの方式、またはクロスキュムラント、実証的カルバックライブラーダイバージェンスもしくは板倉−斉藤距離を使用する高位ベースの方式のうちの1つを使用する、C25に記載のシステム。
[C28] 複数の参加者間の社会的対話を追跡するための方法であって、
固定ビームフォーマから、第1の空間フィルタ処理済み出力を出力することと、
複数の誘導可能ビームフォーマから、複数の第2の空間フィルタ処理済み出力を出力することと、各誘導可能ビームフォーマは、前記第2の空間フィルタ処理済み出力のうちの対応する1つを出力し、前記参加者のうちの異なる1人に関連付けられる、
前記第1の空間フィルタ処理済み出力と前記第2の空間フィルタ処理済み出力の各々との間の類似性を判断することと、
プロセッサを利用して、前記第1の空間フィルタ処理済み出力と前記第2の空間フィルタ処理済み出力の各々との間の前記類似性に基づいて、前記参加者間の前記社会的対話を判断することとを備える方法。
[C29] 前記固定ビームフォーマは固定マイクロフォンアレイを備え、前記誘導可能ビームフォーマの各々は誘導可能マイクロフォンアレイを備える、C28に記載の方法。
[C30] 前記固定ビームフォーマおよび前記プロセッサはモバイルデバイス内に備えられる、C28に記載の方法。
[C31] 前記固定ビームフォーマおよび前記プロセッサは、ハンドセット、ラップトップ、タブレット、コンピュータ、およびネットブックを備えるグループの中からの1つの中に備えられる、C28に記載の方法。
[C32] 前記複数の誘導可能ビームフォーマの各々は、それぞれのデバイス内に備えられ、各それぞれのデバイスは、前記参加者のうちの異なる1人に関連付けられることが可能である、C28に記載の方法。
[C33] 各それぞれのデバイスは、前記関連付けられた参加者によって装着されるヘッドセットを備える、C32に記載の方法。
[C34] 前記参加者間の前記社会的対話を表示することをさらに備える、C28に記載の方法。
[C35] 前記表示することは、一度に前記複数の参加者をグラフィカルに表示することをさらに備える、C34に記載の方法。
[C36] 前記表示することは、ユーザインターフェースを介して前記参加者のうちの1人にズームインして、前記ズームインされた参加者の改良された音声を提供することをさらに備える、C35に記載の方法。
[C37] 前記固定ビームフォーマの前記第1の空間フィルタ処理済み出力を、前記複数の誘導可能ビームフォーマの前記第2の空間フィルタ処理済み出力のうちの少なくとも1つに基づいて精製することをさらに備える、C28に記載の方法。
[C38] (1)前記固定ビームフォーマの前記第1の空間フィルタ処理済み出力と前記複数の誘導可能ビームフォーマの前記第2の空間フィルタ処理済み出力のうちの前記少なくとも1つとの間の前記類似性を、(2)移動した眺め方向を有する固定ビームフォーマの前記第1の空間フィルタ処理済み出力と前記複数の誘導可能ビームフォーマの前記第2の空間フィルタ処理済み出力のうちの前記少なくとも1つとの間の前記類似性と比較することをさらに備える、C28に記載の方法。
[C39] オーディオビームフォーミングに基づいて参加者間の前記社会的対話を追跡することをさらに備える、C28に記載の方法。
[C40] 前記固定ビームフォーマの前記第1の空間フィルタ処理済み出力と前記誘導可能ビームフォーマの前記第2の空間フィルタ処理済み出力のうちの選択された1つとの間の相関を実行することをさらに備える、C28に記載の方法。
[C41] 前記固定ビームフォーマは、第1のモバイルデバイス内に備えられ、選択された誘導可能ビームフォーマは、前記第1のモバイルデバイスとは異なる第2のモバイルデバイス内に備えられる、C40に記載の方法。
[C42] 前記類似性は、時間領域もしくは周波数領域における許容時間調整を伴う最小2乗適合、線形予測コーディング(LPC)もしくはメル周波数ケプストラル係数(MFCC)を使用する特徴ベースの方式、またはクロスキュムラント、実証的カルバックライブラーダイバージェンスもしくは板倉−斉藤距離を使用する高位ベースの方式のうちの1つを使用して判断される、C28に記載の方法。
[C43] 前記参加者のうちの少なくとも1人の位置を判断することをさらに備える、C28に記載の方法。
[C44] 固定マイクロフォンアレイの出力と誘導可能マイクロフォンアレイの出力との間の類似性を判断するための方法であって、
前記固定マイクロフォンアレイから第1の空間フィルタ処理済み出力を受信することと、
誘導可能マイクロフォンアレイから第2の空間フィルタ処理済み出力を受信することと、
前記第1の空間フィルタ処理済み出力と前記第2の空間フィルタ処理済み出力とを比較することと、
前記比較に基づいて前記固定マイクロフォンアレイの前記出力と前記誘導可能マイクロフォンアレイの前記出力との間の前記類似性を判断することと、
前記類似性を出力することと
を備える方法。
[C45] 各空間フィルタ処理済み出力は、ビームフォーミングされた出力を備える、C44に記載の方法。
[C46] 前記受信し比較することを複数回、複数の誘導可能マイクロフォンアレイの各々につき1回、繰り返すことをさらに備える、C44に記載の方法。
[C47] 前記固定マイクロフォンアレイは、ハンドセット、ラップトップ、タブレット、コンピュータ、およびネットブックを備えるグループの中からの1つの中に備えられる、C44に記載の方法。
[C48] 前記固定マイクロフォンアレイの周りの到来方向を推定することと、
前記到来方向を使用してアクティブな話者を判断することと、
前記到来方向を使用して前記アクティブな話者の出力を区別することと、
前記第1の空間フィルタ処理済み出力と、前記第2の空間フィルタ処理済み出力と、前記アクティブな話者の前記出力とを使用して、前記誘導可能マイクロフォンアレイの前記出力と前記固定マイクロフォンアレイの前記出力との間の前記類似性を判断することとをさらに備える、C44に記載の方法。
[C49] 前記到来方向を推定することは3次元(3D)で実行され得る、C48に記載の方法。
[C50] 前記第2の空間フィルタ処理済み出力はアクティブな話者の眺め方向にある、C48に記載の方法。
[C51] 前記第2の空間フィルタ処理済み出力は、アクティブノイズ制御(ANC)ヘッドセットからの固定側面ビームフォーミングによって生成される、C48に記載の方法。
[C52] 複数の誘導可能マイクロフォンアレイから複数の空間フィルタ処理済み出力を受信することと、各誘導可能マイクロフォンアレイは、異なるアクティブな話者に対応する、
前記アクティブな話者を識別し、前記到来方向を使用して前記アクティブな話者の前記出力を区別することと、
前記誘導可能マイクロフォンアレイの前記出力と、前記固定マイクロフォンアレイの、前記アクティブな話者に対応する前記区別された出力との間の類似性を判断することとをさらに備える、C48に記載の方法。
[C53] アクティブな話者の数と各アクティブな話者に関する区別された音声信号とを提供することと、各アクティブな話者の眺め方向を提供することとをさらに備え、ここにおいて、前記類似性を判断することは、各アクティブな話者に関して、
前記アクティブな話者に関する前記区別された音声信号と前記アクティブな話者の前記眺め方向とを使用して相互相関式の最大ピークを発見することと、
前記最大ピークを使用するための強い相関の角度を判断することと、ここにおいて、強い相関の前記角度は、前記固定マイクロフォンアレイと前記アクティブな話者の前記誘導可能マイクロフォンアレイとの間の角度に対応する、を備える、C52に記載の方法。
[C54] 前記類似性を判断することは、相関、時間領域もしくは周波数領域における許容時間調整を伴う最小2乗適合、線形予測コーディング(LPC)もしくはメル周波数ケプストラル係数(MFCC)を使用する特徴ベースの方式、またはクロスキュムラント、実証的カルバックライブラーダイバージェンスもしくは板倉−斉藤距離を使用する高位ベースの方式のうちの1つを使用する、C52に記載の方法。
[C55] 複数の参加者間の社会的対話を追跡するための装置であって、
第1の空間フィルタ処理済み出力を出力するための手段と、
複数の第2の空間フィルタ処理済み出力を出力するための手段と、前記第2の空間フィルタ処理済み出力の各々は、前記参加者のうちの異なる1人に関連付けられる、
前記第1の空間フィルタ処理済み出力と前記第2の空間フィルタ処理済み出力の各々との間の類似性を判断するための手段と、
前記第1の空間フィルタ処理済み出力と前記第2の空間フィルタ処理済み出力の各々との間の前記類似性に基づいて、前記参加者間の前記社会的対話を判断するための手段とを備える装置。
[C56] 前記手段はモバイルデバイス内に備えられる、C55に記載の装置。
[C57] 前記手段は、ハンドセット、ラップトップ、タブレット、コンピュータ、およびネットブックを備えるグループの中からの1つの中に備えられる、C55に記載の装置。
[C58] 前記参加者間の前記社会的対話を表示するための手段をさらに備える、C55に記載の装置。
[C59] 一度に前記複数の参加者をグラフィカルに表示するための手段をさらに備える、C58に記載の装置。
[C60] ユーザインターフェースを介して前記参加者のうちの1人にズームインして、前記ズームインされた参加者の改良された音声を提供するための手段をさらに備える、C59に記載の装置。
[C61] 前記第2の空間フィルタ処理済み出力のうちの少なくとも1つに基づいて前記第1の空間フィルタ処理済み出力を精製するための手段をさらに備える、C55に記載の装置。
[C62] (1)前記第1の空間フィルタ処理済み出力と前記第2の空間フィルタ処理済み出力のうちの前記少なくとも1つとの間の前記類似性を、(2)移動した眺め方向を有する第1の空間フィルタ処理済み出力と前記第2の空間フィルタ処理済み出力のうちの前記少なくとも1つとの間の前記類似性と比較するための手段をさらに備える、C55に記載の装置。
[C63] オーディオビームフォーミングに基づいて参加者間の前記社会的対話を追跡するための手段をさらに備える、C55に記載の装置。
[C64] 前記第1の空間フィルタ処理済み出力と前記第2の空間フィルタ処理済み出力のうちの選択された1つとの間の相関を実行するための手段をさらに備える、C55に記載の装置。
[C65] 前記類似性は、相関、時間領域もしくは周波数領域における許容時間調整を伴う最小2乗適合、線形予測コーディング(LPC)もしくはメル周波数ケプストラル係数(MFCC)を使用する特徴ベースの方式、またはクロスキュムラント、実証的カルバックライブラーダイバージェンスもしくは板倉−斉藤距離を使用する高位ベースの方式のうちの1つを使用して判断される、C55に記載の装置。
[C66] 前記参加者のうちの少なくとも1人の位置を判断するための手段をさらに備える、C55に記載の装置。
[C67] 固定マイクロフォンアレイの出力と誘導可能マイクロフォンアレイの出力との間の類似性を判断するための装置であって、
前記固定マイクロフォンアレイから第1の空間フィルタ処理済み出力を受信するための手段と、
前記誘導可能マイクロフォンアレイから第2の空間フィルタ処理済み出力を受信するための手段と、
前記第1の空間フィルタ処理済み出力と前記第2の空間フィルタ処理済み出力とを比較するための手段と、
前記比較に基づいて前記固定マイクロフォンアレイの前記出力と前記誘導可能マイクロフォンアレイの前記出力との間の前記類似性を判断するための手段と、
前記類似性を出力するための手段と
を備える装置。
[C68] 各空間フィルタ処理済み出力は、ビームフォーミングされた出力を備える、C67に記載の装置。
[C69] 前記受信し比較することを複数回、複数の誘導可能マイクロフォンアレイの各々につき1回、繰り返すための手段をさらに備える、C67に記載の装置。
[C70] 受信するための前記手段は、ハンドセット、ラップトップ、タブレット、コンピュータ、およびネットブックを備えるグループの中からの1つの中に備えられる、C67に記載の装置。
[C71] 前記固定マイクロフォンアレイの周りの到来方向を推定するための手段と、
前記到来方向を使用してアクティブな話者を判断するための手段と、
前記到来方向を使用して前記アクティブな話者の出力を区別するための手段と、
前記第1の空間フィルタ処理済み出力と、前記第2の空間フィルタ処理済み出力と、前記アクティブな話者の前記出力とを使用して、前記誘導可能マイクロフォンアレイの前記出力と前記固定マイクロフォンアレイの前記出力との間の前記類似性を判断するための手段とをさらに備える、C67に記載の装置。
[C72] 前記到来方向を推定するための前記手段は、3次元(3D)で前記推定を実行することが可能である、C71に記載の装置。
[C73] 前記第2の空間フィルタ処理済み出力はアクティブな話者の眺め方向にある、C71に記載の装置。
[C74] 前記第2の空間フィルタ処理済み出力は、アクティブノイズ制御(ANC)ヘッドセットからの固定側面ビームフォーミングによって生成される、C71に記載の装置。
[C75] 複数の誘導可能マイクロフォンアレイから複数の空間フィルタ処理済み出力を受信するための手段と、各誘導可能マイクロフォンアレイは、異なるアクティブな話者に対応する、
前記アクティブな話者を識別し、前記到来方向を使用して前記アクティブな話者の前記出力を区別するための手段と、
前記誘導可能マイクロフォンアレイの前記出力と、前記固定マイクロフォンアレイの、前記アクティブな話者に対応する前記区別された出力との間の前記類似性を判断するための手段とをさらに備える、C71に記載の装置。
[C76] アクティブな話者の数と前記アクティブな話者の各々に関する区別された音声信号とを提供するための手段と、前記アクティブな話者の各々の眺め方向を提供するための手段とをさらに備え、ここにおいて、前記類似性を判断することは、前記アクティブな話者の各々に関して、
前記アクティブな話者に関する前記区別された音声信号と前記アクティブな話者の前記眺め方向とを使用して相互相関式の最大ピークを発見することと、
前記最大ピークを使用するための強い相関の角度を判断することと、ここにおいて、強い相関の前記角度は、前記固定マイクロフォンアレイと前記アクティブな話者の前記誘導可能マイクロフォンアレイとの間の角度に対応する、を備える、C75に記載の装置。
[C77] 前記類似性を判断することは、相関、時間領域もしくは周波数領域における許容時間調整を伴う最小2乗適合、線形予測コーディング(LPC)もしくはメル周波数ケプストラル係数(MFCC)を使用する特徴ベースの方式、またはクロスキュムラント、実証的カルバックライブラーダイバージェンスもしくは板倉−斉藤距離を使用する高位ベースの方式のうちの1つを使用する、C75に記載の装置。
[C78] プロセッサに、
固定ビームフォーマから、第1の空間フィルタ処理済み出力を受信させ、
複数の誘導可能ビームフォーマから、複数の第2の空間フィルタ処理済み出力を受信させ、各誘導可能ビームフォーマは、前記第2の空間フィルタ処理済み出力のうちの対応する1つを出力し、前記参加者のうちの異なる1人に関連付けられる、
前記第1の空間フィルタ処理済み出力と前記第2の空間フィルタ処理済み出力の各々との間の類似性を判断させ、
プロセッサを利用して、前記第1の空間フィルタ処理済み出力と前記第2の空間フィルタ処理済み出力の各々との間の前記類似性に基づいて、前記参加者間の社会的対話を判断させるためのコンピュータ可読命令を備える非一時的コンピュータ可読媒体。
[C79] 前記固定ビームフォーマは固定マイクロフォンアレイを備え、前記誘導可能ビームフォーマの各々は誘導可能マイクロフォンアレイを備える、C78に記載のコンピュータ可読媒体。
[C80] 前記固定ビームフォーマおよび前記プロセッサはモバイルデバイス内に備えられる、C78に記載のコンピュータ可読媒体。
[C81] 前記固定ビームフォーマおよび前記プロセッサは、ハンドセット、ラップトップ、タブレット、コンピュータ、およびネットブックを備えるグループの中からの1つの中に備えられる、C78に記載のコンピュータ可読媒体。
[C82] 前記複数の誘導可能ビームフォーマの各々は、それぞれのデバイス内に備えられ、各それぞれのデバイスは、前記参加者のうちの異なる1人に関連付けられることが可能である、C78に記載のコンピュータ可読媒体。
[C83] それぞれのデバイスは、前記関連付けられた参加者によって装着されるヘッドセットを備える、C82に記載のコンピュータ可読媒体。
[C84] 前記プロセッサに、前記参加者間の前記社会的対話を表示させるための命令をさらに備える、C78に記載のコンピュータ可読媒体。
[C85] 前記プロセッサに、一度に前記複数の参加者をグラフィカルに表示させるための命令をさらに備える、C84に記載のコンピュータ可読媒体。
[C86] 前記プロセッサに、ユーザインターフェースを介して前記参加者のうちの1人にズームインさせて、前記ズームインされた参加者の改良された音声を提供させるための命令をさらに備える、C85に記載のコンピュータ可読媒体。
[C87] 前記プロセッサに、前記固定ビームフォーマの前記第1の空間フィルタ処理済み出力を、前記複数の誘導可能ビームフォーマの前記第2の空間フィルタ処理済み出力のうちの少なくとも1つに基づいて精製させるための命令をさらに備える、C78に記載のコンピュータ可読媒体。
[C88] 前記プロセッサに、(1)前記固定ビームフォーマの前記第1の空間フィルタ処理済み出力と前記複数の誘導可能ビームフォーマの前記第2の空間フィルタ処理済み出力のうちの前記少なくとも1つとの間の前記類似性を、(2)移動した眺め方向を有する固定ビームフォーマの前記第1の空間フィルタ処理済み出力と前記複数の誘導可能ビームフォーマの前記第2の空間フィルタ処理済み出力のうちの前記少なくとも1つとの間の前記類似性と比較させるための命令をさらに備える、C78に記載のコンピュータ可読媒体。
[C89] 前記プロセッサに、オーディオビームフォーミングに基づいて参加者間の前記社会的対話を追跡させるための命令をさらに備える、C78に記載のコンピュータ可読媒体。
[C90] 前記プロセッサに、前記固定ビームフォーマの前記第1の空間フィルタ処理済み出力と前記誘導可能ビームフォーマの前記第2の空間フィルタ処理済み出力のうちの選択された1つとの間の相関を実行させるための命令をさらに備える、C78に記載のコンピュータ可読媒体。
[C91] 前記固定ビームフォーマは、第1のモバイルデバイス内に備えられ、選択された誘導可能ビームフォーマは、前記第1のモバイルデバイスとは異なる第2のモバイルデバイス内に備えられる、C90に記載のコンピュータ可読媒体。
[C92] 前記類似性は、時間領域もしくは周波数領域における許容時間調整を伴う最小2乗適合、線形予測コーディング(LPC)もしくはメル周波数ケプストラル係数(MFCC)を使用する特徴ベースの方式、またはクロスキュムラント、実証的カルバックライブラーダイバージェンスもしくは板倉−斉藤距離を使用する高位ベースの方式のうちの1つを使用して判断される、C78に記載のコンピュータ可読媒体。
[C93] 前記プロセッサに、前記参加者のうちの少なくとも1人の位置を判断させるための命令をさらに備える、C78に記載のコンピュータ可読媒体。
[C94] プロセッサに、
固定マイクロフォンアレイから第1の空間フィルタ処理済み出力を受信させ、
誘導可能マイクロフォンアレイから第2の空間フィルタ処理済み出力を受信させ、
前記第1の空間フィルタ処理済み出力と前記第2の空間フィルタ処理済み出力とを比較させ、
前記比較に基づいて前記固定マイクロフォンアレイの前記出力と前記誘導可能マイクロフォンアレイの前記出力との間の類似性を判断させ、
前記類似性を出力させる
ためのコンピュータ可読命令を備える非一時的コンピュータ可読媒体。
[C95] 各空間フィルタ処理済み出力は、ビームフォーミングされた出力を備える、C94に記載のコンピュータ可読媒体。
[C96] 前記プロセッサに、前記受信し比較することを複数回、複数の誘導可能マイクロフォンアレイの各々につき1回、繰り返させるための命令をさらに備える、C94に記載のコンピュータ可読媒体。
[C97] 前記プロセッサは、ハンドセット、ラップトップ、タブレット、コンピュータ、およびネットブックを備えるグループの中からの1つの中に備えられる、C94に記載のコンピュータ可読媒体。
[C98] 前記プロセッサに、
前記固定マイクロフォンアレイの周りの到来方向を推定させ、
前記到来方向を使用してアクティブな話者を判断させ、
前記到来方向を使用して前記アクティブな話者の出力を区別させ、
前記第1の空間フィルタ処理済み出力と、前記第2の空間フィルタ処理済み出力と、前記アクティブな話者の前記出力とを使用して、前記誘導可能マイクロフォンアレイの前記出力と前記固定マイクロフォンアレイの前記出力との間の前記類似性を判断させるための命令をさらに備える、C94に記載のコンピュータ可読媒体。
[C99] 前記プロセッサに、3次元(3D)で前記到来方向を推定させるための命令をさらに備える、C98に記載のコンピュータ可読媒体。
[C100] 前記第2の空間フィルタ処理済み出力はアクティブな話者の眺め方向にある、C98に記載のコンピュータ可読媒体。
[C101] 前記第2の空間フィルタ処理済み出力は、アクティブノイズ制御(ANC)ヘッドセットからの固定側面ビームフォーミングによって生成される、C98に記載のコンピュータ可読媒体。
[C102] 前記プロセッサに、
複数の誘導可能マイクロフォンアレイから複数の空間フィルタ処理済み出力を受信させ、各誘導可能マイクロフォンアレイは、異なるアクティブな話者に対応する、
前記アクティブな話者を識別させ、前記到来方向を使用して前記アクティブな話者の前記出力を区別させ、
前記誘導可能マイクロフォンアレイの前記出力と、前記固定マイクロフォンアレイの、前記アクティブな話者に対応する前記区別された出力との間の前記類似性を判断させるための命令をさらに備える、C98に記載のコンピュータ可読媒体。
[C103] 前記プロセッサに、アクティブな話者の数と前記アクティブな話者の各々に関する区別された音声信号とを提供させ、前記アクティブな話者の各々の眺め方向を提供させるための命令をさらに備え、ここにおいて、前記類似性を判断することは、前記アクティブな話者の各々に関して、
前記アクティブな話者に関する前記区別された音声信号と前記アクティブな話者の前記眺め方向とを使用して相互相関式の最大ピークを発見することと、
前記最大ピークを使用するための強い相関の角度を判断することと、ここにおいて、強い相関の前記角度は、前記固定マイクロフォンアレイと前記アクティブな話者の前記誘導可能マイクロフォンアレイとの間の角度に対応する、を備える、C102に記載のコンピュータ可読媒体。
[C104] 前記類似性を判断することは、相関、時間領域もしくは周波数領域における許容時間調整を伴う最小2乗適合、線形予測コーディング(LPC)もしくはメル周波数ケプストラル係数(MFCC)を使用する特徴ベースの方式、またはクロスキュムラント、実証的カルバックライブラーダイバージェンスもしくは板倉−斉藤距離を使用する高位ベースの方式のうちの1つを使用する、C102に記載のコンピュータ可読媒体。

Claims (15)

  1. ユーザのグループのうちのアクティブに話しているユーザを識別するための装置であって、
    空間フィルタ処理済み出力の第1のセットを提供し、前記空間フィルタ処理済み出力の第1のセットは、前記ユーザのグループのうちの複数のアクティブに話しているユーザに対応する、
    複数の誘導可能マイクロフォンアレイから空間フィルタ処理済み出力の第2のセットを受信する、ここにおいて、前記複数の誘導可能マイクロフォンアレイは、前記ユーザによって装着されたときに、前記ユーザの物理的視覚方向に向けられることが可能である、
    ように構成された固定マイクロフォンアレイと、前記複数の誘導可能マイクロフォンアレイの各々は、前記ユーザのグループのそれぞれのユーザに関連付けられる、
    前記空間フィルタ処理済み出力の第1のセットと前記空間フィルタ処理済み出力の第2のセットとの間の類似性を判断し、
    前記類似性に基づいて複数の話者識別情報(ID)を出力する
    ように構成されたプロセッサと
    を備え、前記複数の話者IDの各話者IDは、前記ユーザのグループのうちの異なるアクティブに話しているユーザに対応する、装置。
  2. 前記プロセッサは、前記空間フィルタ処理済み出力の第2のセットのうちの少なくとも1つの空間フィルタ処理済み出力に基づいて、前記固定マイクロフォンアレイの前記空間フィルタ処理済み出力の第1のセットを精製するようにさらに構成される、請求項1に記載の装置。
  3. 前記プロセッサは、前記固定マイクロフォンアレイの前記空間フィルタ処理済み出力の第1のセットと前記誘導可能マイクロフォンアレイの第1の誘導可能マイクロフォンアレイからの特定の空間フィルタ処理済み出力との間の相関を計算するようにさらに構成される、請求項1に記載の装置。
  4. 前記固定マイクロフォンアレイは、第1のモバイルデバイス内に含まれ、前記複数の誘導可能マイクロフォンアレイのうちの第1の誘導可能マイクロフォンアレイは、前記第1のモバイルデバイスとは異なる第2のモバイルデバイス内に含まれる、請求項1に記載の装置。
  5. 前記プロセッサは、相関、時間領域もしくは周波数領域における許容時間調整を伴う最小2乗適合、線形予測コーディング(LPC)もしくはメル周波数ケプストラル係数(MFCC)を使用する特徴ベースの方式、またはクロスキュムラント、実証的カルバックライブラーダイバージェンスもしくは板倉−斉藤距離を使用する高位ベースの方式のうちの少なくとも1つに基づいて前記類似性を判断するようにさらに構成される、請求項1に記載の装置。
  6. 前記プロセッサは、前記ユーザのグループのうちの少なくとも1人のユーザの位置を判断するようにさらに構成される、請求項1に記載の装置。
  7. 前記固定マイクロフォンアレイは、
    前記複数の誘導可能マイクロフォンアレイから受信された前記空間フィルタ処理済み出力の第2のセットに対応する複数の到来方向(DOA)推定を実行し、
    前記複数のDOA推定に基づいて前記ユーザのグループからの第1のアクティブに話しているユーザを判断し、
    前記第1のアクティブに話しているユーザに対応する特定の空間フィルタ処理済み出力を生成する
    ようにさらに構成され、前記特定の空間フィルタ処理済み出力は、前記空間フィルタ処理済み出力の第1のセットに含まれる、請求項1に記載の装置。
  8. 前記プロセッサは、前記類似性を判断することに関連して、
    前記複数の誘導可能マイクロフォンアレイからの前記空間フィルタ処理済み出力の第2のセットの各それぞれの空間フィルタ処理済み出力と前記第1のアクティブに話しているユーザに対応する前記特定の空間フィルタ処理済み出力を比較する
    ように構成される、請求項7に記載の装置。
  9. 前記空間フィルタ処理済み出力の第2のセットの各それぞれの空間フィルタ処理済み出力と前記特定の空間フィルタ処理済み出力を比較するために、前記プロセッサは、
    前記特定の空間フィルタ処理済み出力と前記空間フィルタ処理済み出力の第2のセットの各それぞれの空間フィルタ処理済み出力との間の相互相関を実行し、
    前記相互相関に基づいて、前記特定の空間フィルタ処理済み出力と前記複数の誘導可能マイクロフォンアレイの第1の誘導可能マイクロフォンアレイのそれぞれの空間フィルタ処理済み出力との間の相互相関ピークを判断し、
    前記相互相関ピークに関連付けられた相関の角度を判断する
    ように構成され、前記相関の角度は、前記固定マイクロフォンアレイと前記第1の誘導可能マイクロフォンアレイとの間の角度に対応する、請求項8に記載の装置。
  10. ユーザのグループのうちのアクティブに話しているユーザを識別するための方法であって、
    固定マイクロフォンアレイから空間フィルタ処理済み出力の第1のセットを受信することと、前記空間フィルタ処理済み出力の第1のセットは、前記ユーザのグループのうちの複数のアクティブに話しているユーザに対応する、
    複数の誘導可能マイクロフォンアレイから、空間フィルタ処理済み出力の第2のセットを受信することと、ここにおいて、前記複数の誘導可能マイクロフォンアレイは、前記ユーザによって装着されたときに、前記ユーザの物理的視覚方向に向けられることが可能であり、前記複数の誘導可能マイクロフォンアレイの各々は、前記ユーザのグループのそれぞれのユーザに関連付けられる、
    プロセッサが、前記空間フィルタ処理済み出力の第1のセットと前記空間フィルタ処理済み出力の第2のセットとの間の類似性を判断することと、
    前記類似性に基づいて複数の話者識別情報(ID)を出力することと、前記複数の話者IDの各話者IDは、前記ユーザのグループのうちの異なるアクティブに話しているユーザに対応する、
    を備える方法。
  11. 前記プロセッサが、前記空間フィルタ処理済み出力の第2のセットからの少なくとも1つの空間フィルタ処理済み出力に基づいて、前記固定マイクロフォンアレイの前記空間フィルタ処理済み出力の第1のセットを精製することをさらに備える、請求項10に記載の方法。
  12. 前記類似性を判断することは、前記固定マイクロフォンアレイの前記空間フィルタ処理済み出力の第1のセットと前記誘導可能マイクロフォンアレイの第1の誘導可能マイクロフォンアレイからの特定の空間フィルタ処理済み出力との間の相関を計算することを備える、請求項10に記載の方法。
  13. 前記プロセッサは、時間領域もしくは周波数領域における許容時間調整を伴う最小2乗適合、線形予測コーディング(LPC)もしくはメル周波数ケプストラル係数(MFCC)を使用する特徴ベースの方式、またはクロスキュムラント、実証的カルバックライブラーダイバージェンスもしくは板倉−斉藤距離を使用する高位ベースの方式のうちの少なくとも1つに基づいて前記類似性をさらに判断する、請求項10に記載の方法。
  14. 前記類似性に基づいて前記ユーザのグループのうちの第1のユーザの位置を判断することをさらに備える、請求項10に記載の方法。
  15. 請求項10〜14のいずれか一項に記載の方法をプロセッサに実行させるためのコンピュータ可読命令を備える非一時的コンピュータ可読媒体。
JP2015511561A 2012-05-11 2013-05-06 ユーザのグループのうちのアクティブに話しているユーザを識別するための装置及び方法 Expired - Fee Related JP6246792B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261645818P 2012-05-11 2012-05-11
US61/645,818 2012-05-11
US13/674,690 2012-11-12
US13/674,690 US9736604B2 (en) 2012-05-11 2012-11-12 Audio user interaction recognition and context refinement
PCT/US2013/039624 WO2013169618A1 (en) 2012-05-11 2013-05-06 Audio user interaction recognition and context refinement

Publications (3)

Publication Number Publication Date
JP2015516093A JP2015516093A (ja) 2015-06-04
JP2015516093A5 JP2015516093A5 (ja) 2016-06-09
JP6246792B2 true JP6246792B2 (ja) 2017-12-13

Family

ID=49548626

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015511561A Expired - Fee Related JP6246792B2 (ja) 2012-05-11 2013-05-06 ユーザのグループのうちのアクティブに話しているユーザを識別するための装置及び方法

Country Status (7)

Country Link
US (2) US20130304476A1 (ja)
EP (2) EP2847763B1 (ja)
JP (1) JP6246792B2 (ja)
KR (1) KR101882053B1 (ja)
CN (2) CN104254819B (ja)
IN (2) IN2014MN02078A (ja)
WO (2) WO2013169621A1 (ja)

Families Citing this family (114)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9746916B2 (en) 2012-05-11 2017-08-29 Qualcomm Incorporated Audio user interaction recognition and application interface
US20130304476A1 (en) * 2012-05-11 2013-11-14 Qualcomm Incorporated Audio User Interaction Recognition and Context Refinement
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9620146B2 (en) * 2012-05-16 2017-04-11 Nuance Communications, Inc. Speech communication system for combined voice recognition, hands-free telephony and in-car communication
US9497544B2 (en) 2012-07-02 2016-11-15 Qualcomm Incorporated Systems and methods for surround sound echo reduction
US9679564B2 (en) * 2012-12-12 2017-06-13 Nuance Communications, Inc. Human transcriptionist directed posterior audio source separation
US9501472B2 (en) * 2012-12-29 2016-11-22 Intel Corporation System and method for dual screen language translation
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9640179B1 (en) * 2013-06-27 2017-05-02 Amazon Technologies, Inc. Tailoring beamforming techniques to environments
US10720153B2 (en) * 2013-12-13 2020-07-21 Harman International Industries, Incorporated Name-sensitive listening device
WO2015100430A1 (en) 2013-12-24 2015-07-02 Digimarc Corporation Methods and system for cue detection from audio input, low-power data processing and related arrangements
WO2015156798A1 (en) * 2014-04-09 2015-10-15 Empire Technology Development, Llc Identification by sound data
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
WO2016022588A1 (en) * 2014-08-04 2016-02-11 Flagler Llc Voice tallying system
JP2016042132A (ja) * 2014-08-18 2016-03-31 ソニー株式会社 音声処理装置、音声処理方法、並びにプログラム
CN106797413B (zh) * 2014-09-30 2019-09-27 惠普发展公司,有限责任合伙企业 声音调节
US10575117B2 (en) 2014-12-08 2020-02-25 Harman International Industries, Incorporated Directional sound modification
US20170277738A1 (en) * 2015-01-29 2017-09-28 Palantir Technologies Inc. Temporal representation of structured information in an object model
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US20160328987A1 (en) * 2015-05-08 2016-11-10 International Business Machines Corporation Detecting the mood of a group
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US9875081B2 (en) * 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US9799320B2 (en) * 2015-09-24 2017-10-24 Fuji Xerox Co., Ltd. Mobile terminal apparatus and non-transitory computer readable medium
JP6641832B2 (ja) 2015-09-24 2020-02-05 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US11929088B2 (en) * 2015-11-20 2024-03-12 Synaptics Incorporated Input/output mode control for audio processing
US10412490B2 (en) 2016-02-25 2019-09-10 Dolby Laboratories Licensing Corporation Multitalker optimised beamforming system and method
WO2017158507A1 (en) * 2016-03-16 2017-09-21 Radhear Ltd. Hearing aid
US10547947B2 (en) * 2016-05-18 2020-01-28 Qualcomm Incorporated Device for generating audio output
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
CN106448722B (zh) * 2016-09-14 2019-01-18 讯飞智元信息科技有限公司 录音方法、装置和系统
GB2557219A (en) * 2016-11-30 2018-06-20 Nokia Technologies Oy Distributed audio capture and mixing controlling
WO2018127447A1 (en) * 2017-01-03 2018-07-12 Koninklijke Philips N.V. Method and apparatus for audio capture using beamforming
US10638224B2 (en) 2017-01-03 2020-04-28 Koninklijke Philips N.V. Audio capture using beamforming
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
JP7051876B6 (ja) 2017-01-27 2023-08-18 シュアー アクイジッション ホールディングス インコーポレイテッド アレイマイクロホンモジュール及びシステム
US20180293221A1 (en) * 2017-02-14 2018-10-11 Microsoft Technology Licensing, Llc Speech parsing with intelligent assistant
JP6472824B2 (ja) * 2017-03-21 2019-02-20 株式会社東芝 信号処理装置、信号処理方法および音声の対応づけ提示装置
JP6811312B2 (ja) * 2017-05-01 2021-01-13 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 符号化装置及び符号化方法
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US11316865B2 (en) 2017-08-10 2022-04-26 Nuance Communications, Inc. Ambient cooperative intelligence system and method
US10978187B2 (en) 2017-08-10 2021-04-13 Nuance Communications, Inc. Automated clinical documentation system and method
US10482904B1 (en) 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration
US10438588B2 (en) * 2017-09-12 2019-10-08 Intel Corporation Simultaneous multi-user audio signal recognition and processing for far field audio
US9973849B1 (en) * 2017-09-20 2018-05-15 Amazon Technologies, Inc. Signal quality beam selection
US10687157B2 (en) 2017-10-16 2020-06-16 Intricon Corporation Head direction hearing assist switching
JP7123134B2 (ja) * 2017-10-27 2022-08-22 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. デコーダにおけるノイズ減衰
US10567888B2 (en) 2018-02-08 2020-02-18 Nuance Hearing Ltd. Directional hearing aid
US11222716B2 (en) 2018-03-05 2022-01-11 Nuance Communications System and method for review of automated clinical documentation from recorded audio
WO2019173333A1 (en) 2018-03-05 2019-09-12 Nuance Communications, Inc. Automated clinical documentation system and method
US11250383B2 (en) 2018-03-05 2022-02-15 Nuance Communications, Inc. Automated clinical documentation system and method
US10811000B2 (en) * 2018-04-13 2020-10-20 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for recognizing simultaneous speech by multiple speakers
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
CN112513976A (zh) * 2018-05-16 2021-03-16 多特瑞尔技术有限公司 用于音频捕获的系统和方法
WO2019231632A1 (en) 2018-06-01 2019-12-05 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
NL2021308B1 (en) * 2018-07-16 2020-01-24 Hazelebach & Van Der Ven Holding B V Methods for a voice processing system
CN110875053A (zh) 2018-08-29 2020-03-10 阿里巴巴集团控股有限公司 语音处理的方法、装置、系统、设备和介质
WO2020061353A1 (en) 2018-09-20 2020-03-26 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
US11109133B2 (en) 2018-09-21 2021-08-31 Shure Acquisition Holdings, Inc. Array microphone module and system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11378965B2 (en) * 2018-11-15 2022-07-05 Toyota Research Institute, Inc. Systems and methods for controlling a vehicle based on determined complexity of contextual environment
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11303981B2 (en) 2019-03-21 2022-04-12 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
US11438691B2 (en) 2019-03-21 2022-09-06 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11445294B2 (en) 2019-05-23 2022-09-13 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
TW202105369A (zh) 2019-05-31 2021-02-01 美商舒爾獲得控股公司 整合語音及雜訊活動偵測之低延時自動混波器
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11216480B2 (en) 2019-06-14 2022-01-04 Nuance Communications, Inc. System and method for querying data points from graph data structures
US11227679B2 (en) 2019-06-14 2022-01-18 Nuance Communications, Inc. Ambient clinical intelligence system and method
US11043207B2 (en) 2019-06-14 2021-06-22 Nuance Communications, Inc. System and method for array data simulation and customized acoustic modeling for ambient ASR
US11531807B2 (en) 2019-06-28 2022-12-20 Nuance Communications, Inc. System and method for customized text macros
CA3146517A1 (en) 2019-07-21 2021-01-28 Nuance Hearing Ltd. Speech-tracking listening device
US11297426B2 (en) 2019-08-23 2022-04-05 Shure Acquisition Holdings, Inc. One-dimensional array microphone with improved directivity
US11670408B2 (en) 2019-09-30 2023-06-06 Nuance Communications, Inc. System and method for review of automated clinical documentation
CN113223544B (zh) * 2020-01-21 2024-04-02 珠海市煊扬科技有限公司 音频的方向定位侦测装置及方法以及音频处理系统
US11508348B2 (en) * 2020-02-05 2022-11-22 Motorola Mobility Llc Directional noise suppression
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
CN115605953A (zh) 2020-05-08 2023-01-13 纽奥斯通讯有限公司(Us) 用于多麦克风信号处理的数据增强的系统和方法
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
WO2021243368A2 (en) 2020-05-29 2021-12-02 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112420068B (zh) * 2020-10-23 2022-05-03 四川长虹电器股份有限公司 一种基于Mel频率尺度分频的快速自适应波束形成方法
US11222103B1 (en) 2020-10-29 2022-01-11 Nuance Communications, Inc. Ambient cooperative intelligence system and method
US11336998B1 (en) * 2020-12-18 2022-05-17 Zoox, Inc. Direction of arrival estimation
US11785380B2 (en) 2021-01-28 2023-10-10 Shure Acquisition Holdings, Inc. Hybrid audio beamforming system
US11955137B2 (en) 2021-03-11 2024-04-09 Apple Inc. Continuous dialog with a digital assistant
US11756574B2 (en) 2021-03-11 2023-09-12 Apple Inc. Multiple state digital assistant for continuous dialog
CN114613385A (zh) * 2022-05-07 2022-06-10 广州易而达科技股份有限公司 一种远场语音降噪方法、云服务器及音频采集设备
WO2023238965A1 (ko) * 2022-06-07 2023-12-14 엘지전자 주식회사 파 엔드 단말기 및 그의 음성 포커싱 방법
US20240029756A1 (en) * 2022-07-25 2024-01-25 Dell Products, Lp Method and apparatus for dynamic direcitonal voice reception with multiple microphones

Family Cites Families (100)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3185505B2 (ja) * 1993-12-24 2001-07-11 株式会社日立製作所 会議録作成支援装置
JP2749780B2 (ja) 1994-09-30 1998-05-13 株式会社エイ・ティ・アール人間情報通信研究所 適応化型相互相関装置
WO1996036960A1 (en) 1995-05-19 1996-11-21 Intelligent Devices, L.L.C. Non-contact user interface for data processing system
JP3862315B2 (ja) * 1996-03-13 2006-12-27 キヤノン株式会社 画像表示装置及びその制御方法
US5999167A (en) 1996-11-08 1999-12-07 Stephen A. Marsh Cursor control device
US5810395A (en) 1996-12-30 1998-09-22 Morgan; Dale C. Method for recording and tracking the progress of activities
JP4230518B2 (ja) 1997-10-07 2009-02-25 雅信 鯨田 場所・角度連動型の複数連携型表示システム
GB2342802B (en) 1998-10-14 2003-04-16 Picturetel Corp Method and apparatus for indexing conference content
US6424719B1 (en) * 1999-07-29 2002-07-23 Lucent Technologies Inc. Acoustic crosstalk cancellation system
JP3598932B2 (ja) 2000-02-23 2004-12-08 日本電気株式会社 話者方向検出回路及びそれに用いる話者方向検出方法
JP2001252258A (ja) 2000-03-09 2001-09-18 Casio Comput Co Ltd 体脂肪表示制御装置及び身長表示制御装置
US6490578B1 (en) 2000-04-05 2002-12-03 Sybase, Inc. Database system with methodology for high-performance date
US7119828B1 (en) 2001-04-13 2006-10-10 Kizhnerman M Sean System and method for establishing and controlling an on-demand teleconference by a remote computer
US20030020750A1 (en) 2001-07-26 2003-01-30 International Business Machines Corporation Specifying messaging session subject preferences
US20030038754A1 (en) 2001-08-22 2003-02-27 Mikael Goldstein Method and apparatus for gaze responsive text presentation in RSVP display
US7062533B2 (en) 2001-09-20 2006-06-13 International Business Machines Corporation Specifying monitored user participation in messaging sessions
FR2830153B1 (fr) 2001-09-21 2004-07-02 France Telecom Ensemble de transmission d'images numeriques, procedes mis en oeuvre dans un tel ensemble, dispositif d'emission d'images numeriques et dispositif d'affichage d'images numeriques
US6980485B2 (en) 2001-10-25 2005-12-27 Polycom, Inc. Automatic camera tracking using beamforming
US20030101060A1 (en) * 2001-11-29 2003-05-29 Bickley Corine A. Use of historical data for a voice application interface
DE10217822C1 (de) 2002-04-17 2003-09-25 Daimler Chrysler Ag Verfahren und Vorrichtung zur Blickrichtungserkennung einer Person mittels wenigstens eines richtungsselektiven Mikrofons
US7298930B1 (en) * 2002-11-29 2007-11-20 Ricoh Company, Ltd. Multimodal access of meeting recordings
US8292433B2 (en) * 2003-03-21 2012-10-23 Queen's University At Kingston Method and apparatus for communication between humans and devices
US7762665B2 (en) 2003-03-21 2010-07-27 Queen's University At Kingston Method and apparatus for communication between humans and devices
US7177413B2 (en) 2003-04-30 2007-02-13 Cisco Technology, Inc. Head position based telephone conference system and associated method
US20040235520A1 (en) * 2003-05-20 2004-11-25 Cadiz Jonathan Jay Enhanced telephony computer user interface allowing user interaction and control of a telephone using a personal computer
US20050021344A1 (en) 2003-07-24 2005-01-27 International Business Machines Corporation Access to enhanced conferencing services using the tele-chat system
KR20050021656A (ko) * 2003-08-25 2005-03-07 에스케이텔레텍주식회사 통화 상대별 통화 시간 분류 저장 방법
JP2005124160A (ja) 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd 会議支援システム、情報表示装置、プログラム、及び制御方法
US7590941B2 (en) * 2003-10-09 2009-09-15 Hewlett-Packard Development Company, L.P. Communication and collaboration system using rich media environments
WO2006006935A1 (en) 2004-07-08 2006-01-19 Agency For Science, Technology And Research Capturing sound from a target region
US7307921B1 (en) 2004-08-30 2007-12-11 Karterman Don S Wristwatch with movable movement case
US7604396B1 (en) 2004-08-30 2009-10-20 Don Karterman Wristwatch with movable movement case
US7667728B2 (en) * 2004-10-15 2010-02-23 Lifesize Communications, Inc. Video and audio conferencing system with spatial audio
US7688344B2 (en) * 2004-12-17 2010-03-30 Fuji Xerox Co., Ltd. Systems and methods for mediating teleconferences
WO2006078902A2 (en) 2005-01-19 2006-07-27 Dermaspect, Llc Devices and methods for identifying and monitoring changes of a suspect area on a patient
US7460150B1 (en) * 2005-03-14 2008-12-02 Avaya Inc. Using gaze detection to determine an area of interest within a scene
US7995717B2 (en) * 2005-05-18 2011-08-09 Mattersight Corporation Method and system for analyzing separated voice data of a telephonic communication between a customer and a contact center by applying a psychological behavioral model thereto
US9300790B2 (en) 2005-06-24 2016-03-29 Securus Technologies, Inc. Multi-party conversation analyzer and logger
EP1750209A1 (de) * 2005-08-02 2007-02-07 IMS Health GmbH & Co. OHG Verfahren und Vorrichtung zur automatischen Darstellung von in Datenbereichen geordneten Daten
US20070106724A1 (en) * 2005-11-04 2007-05-10 Gorti Sreenivasa R Enhanced IP conferencing service
EP1965603B1 (en) * 2005-12-19 2017-01-11 Yamaha Corporation Sound emission and collection device
JP5055781B2 (ja) 2006-02-14 2012-10-24 株式会社日立製作所 会話音声分析方法、及び、会話音声分析装置
US20130124623A1 (en) 2006-09-12 2013-05-16 Adobe Systems Incorporated Attention tracking in an online conference
US20090157672A1 (en) * 2006-11-15 2009-06-18 Sunil Vemuri Method and system for memory augmentation
EP1959378B1 (en) * 2007-02-14 2014-08-27 Software AG Collaboration application and method
US8111838B2 (en) * 2007-02-28 2012-02-07 Panasonic Corporation Conferencing apparatus for echo cancellation using a microphone arrangement
US20080216125A1 (en) 2007-03-01 2008-09-04 Microsoft Corporation Mobile Device Collaboration
US20080259731A1 (en) 2007-04-17 2008-10-23 Happonen Aki P Methods and apparatuses for user controlled beamforming
US8392503B2 (en) * 2007-06-19 2013-03-05 Cisco Technology, Inc. Reporting participant attention level to presenter during a web-based rich-media conference
EP2171712B1 (en) 2007-06-27 2016-08-10 Telefonaktiebolaget LM Ericsson (publ) Method and arrangement for enhancing spatial audio signals
US8243902B2 (en) * 2007-09-27 2012-08-14 Siemens Enterprise Communications, Inc. Method and apparatus for mapping of conference call participants using positional presence
US8509454B2 (en) 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
US8219387B2 (en) 2007-12-10 2012-07-10 Microsoft Corporation Identifying far-end sound
FR2925811A1 (fr) * 2007-12-20 2009-06-26 Alcatel Lucent Sas Procede et agent de traitement de messages echanges entre terminaux.
US8344998B2 (en) 2008-02-01 2013-01-01 Wimm Labs, Inc. Gesture-based power management of a wearable portable electronic device with display
DK2088802T3 (da) 2008-02-07 2013-10-14 Oticon As Fremgangsmåde til estimering af lydsignalers vægtningsfunktion i et høreapparat
JP2009301166A (ja) 2008-06-11 2009-12-24 Panasonic Corp 電子機器制御装置
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
EP2146519B1 (en) 2008-07-16 2012-06-06 Nuance Communications, Inc. Beamforming pre-processing for speaker localization
US8314829B2 (en) 2008-08-12 2012-11-20 Microsoft Corporation Satellite microphones for improved speaker detection and zoom
US20100040217A1 (en) * 2008-08-18 2010-02-18 Sony Ericsson Mobile Communications Ab System and method for identifying an active participant in a multiple user communication session
US20100053151A1 (en) 2008-09-02 2010-03-04 Samsung Electronics Co., Ltd In-line mediation for manipulating three-dimensional content on a display device
US8045695B2 (en) * 2008-09-29 2011-10-25 Yahoo! Inc System for determining active copresence of users during interactions
DE102008042521A1 (de) 2008-10-01 2010-04-08 Robert Bosch Gmbh Verfahren für eine Anzeige einer visuellen Warndarstellung
US20100123785A1 (en) 2008-11-17 2010-05-20 Apple Inc. Graphic Control for Directional Audio Input
FR2941307B1 (fr) 2009-01-19 2012-03-30 Peugeot Citroen Automobiles Sa Systeme d'affichage d'informations notamment pour vehicule automobile et vehicule automobile comportant un tel systeme d'affichage.
US8442833B2 (en) 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
JP5267995B2 (ja) * 2009-05-15 2013-08-21 独立行政法人情報通信研究機構 会話グループ把握装置、会話グループ把握方法、及びプログラム
US8416715B2 (en) * 2009-06-15 2013-04-09 Microsoft Corporation Interest determination for auditory enhancement
US9111263B2 (en) * 2009-06-15 2015-08-18 Microsoft Technology Licensing, Llc Adaptive meeting management
US8351589B2 (en) 2009-06-16 2013-01-08 Microsoft Corporation Spatial audio for audio conferencing
US8887068B2 (en) * 2009-07-31 2014-11-11 Verizon Patent And Licensing Inc. Methods and systems for visually chronicling a conference session
US20110242298A1 (en) 2009-08-21 2011-10-06 Microsoft Corporation Private video presentation
US8477920B2 (en) 2009-09-28 2013-07-02 At&T Mobility Ii Llc Systems and methods for managing the status of participants of a tele-networking meeting
TW201112045A (en) 2009-09-28 2011-04-01 Wistron Corp Viewing direction determination method, viewing direction determination apparatus, image processing method, image processing apparatus and display device
US8903064B2 (en) * 2009-09-30 2014-12-02 Shoretel, Inc. Maintaining history information for a user across multiple types of end points
US8531485B2 (en) 2009-10-29 2013-09-10 Immersion Corporation Systems and methods for compensating for visual distortion caused by surface features on a display
US8339364B2 (en) 2010-02-03 2012-12-25 Nintendo Co., Ltd. Spatially-correlated multi-display human-machine interface
US8661034B2 (en) * 2010-02-03 2014-02-25 Gartner, Inc. Bimodal recommendation engine for recommending items and peers
CN102474681B (zh) 2010-06-30 2014-12-10 松下电器产业株式会社 交谈检测装置、助听器和交谈检测方法
US20120019557A1 (en) 2010-07-22 2012-01-26 Sony Ericsson Mobile Communications Ab Displaying augmented reality information
JP4818454B1 (ja) 2010-08-27 2011-11-16 株式会社東芝 表示装置、及び表示方法
WO2012042768A1 (ja) * 2010-09-28 2012-04-05 パナソニック株式会社 音声処理装置および音声処理方法
US8855341B2 (en) 2010-10-25 2014-10-07 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for head tracking based on recorded sound signals
TW201227128A (en) 2010-12-21 2012-07-01 J Touch Corp Three-dimensional image display device and electrochromic module thereof
US8698872B2 (en) 2011-03-02 2014-04-15 At&T Intellectual Property I, Lp System and method for notification of events of interest during a video conference
CN102736254B (zh) 2011-04-12 2014-10-08 夏普株式会社 视认切换用眼镜及显示控制装置
US8581956B2 (en) * 2011-04-29 2013-11-12 Hewlett-Packard Development Company, L.P. Methods and systems for communicating focus of attention in a video conference
US9538133B2 (en) * 2011-09-23 2017-01-03 Jie Diao Conveying gaze information in virtual conference
JP5772447B2 (ja) * 2011-09-27 2015-09-02 富士ゼロックス株式会社 音声解析装置
KR101810170B1 (ko) 2011-10-10 2017-12-20 삼성전자 주식회사 사용자 위치 기반 이미지 표시 방법 및 장치
US9443205B2 (en) * 2011-10-24 2016-09-13 President And Fellows Of Harvard College Enhancing diagnosis of disorder through artificial intelligence and mobile health technologies without compromising accuracy
EP2774353A4 (en) 2011-11-03 2015-11-18 Intel Corp PICTURES BASED ON EYE PERSONALIZATION
CN102547209B (zh) * 2012-02-06 2015-07-22 华为技术有限公司 视讯设备控制方法、装置及视讯系统
US9369667B2 (en) 2012-04-11 2016-06-14 Jie Diao Conveying gaze information in virtual conference
US10107887B2 (en) 2012-04-13 2018-10-23 Qualcomm Incorporated Systems and methods for displaying a user interface
US9002938B2 (en) * 2012-04-26 2015-04-07 International Business Machines Corporation Notifying electronic meeting participants of interesting information
US20130304476A1 (en) 2012-05-11 2013-11-14 Qualcomm Incorporated Audio User Interaction Recognition and Context Refinement
US9746916B2 (en) 2012-05-11 2017-08-29 Qualcomm Incorporated Audio user interaction recognition and application interface
US9443521B1 (en) * 2013-02-14 2016-09-13 Sociometric Solutions, Inc. Methods for automatically analyzing conversational turn-taking patterns

Also Published As

Publication number Publication date
IN2014MN02083A (ja) 2015-08-21
IN2014MN02078A (ja) 2015-08-21
KR101882053B1 (ko) 2018-07-25
WO2013169618A1 (en) 2013-11-14
EP2847764A1 (en) 2015-03-18
CN104254819A (zh) 2014-12-31
WO2013169621A1 (en) 2013-11-14
EP2847763B1 (en) 2017-07-12
US20130304476A1 (en) 2013-11-14
CN104246878A (zh) 2014-12-24
KR20150016494A (ko) 2015-02-12
EP2847763A1 (en) 2015-03-18
US9736604B2 (en) 2017-08-15
US20130301837A1 (en) 2013-11-14
JP2015516093A (ja) 2015-06-04
CN104254819B (zh) 2017-09-08
EP2847764B1 (en) 2017-10-25
CN104246878B (zh) 2018-04-27

Similar Documents

Publication Publication Date Title
JP6246792B2 (ja) ユーザのグループのうちのアクティブに話しているユーザを識別するための装置及び方法
US10073521B2 (en) Audio user interaction recognition and application interface
US9100734B2 (en) Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
US9360546B2 (en) Systems, methods, and apparatus for indicating direction of arrival
Brutti et al. Multiple source localization based on acoustic map de-emphasis
Rascon et al. Lightweight multi-DOA tracking of mobile speech sources
Ciccarelli et al. Challenges and opportunities in multi-device speech processing
Pasha et al. A survey on ad hoc signal processing: Applications, challenges and state-of-the-art techniques
Nakamura et al. Blind spatial sound source clustering and activity detection using uncalibrated microphone array
Pasha et al. Distributed microphone arrays, emerging speech and audio signal processing platforms: A review
Habib et al. Auditory inspired methods for localization of multiple concurrent speakers
Sun et al. Spatial aware multi-task learning based speech separation
Himawan Speech recognition using ad-hoc microphone arrays
Yang et al. A stacked self-attention network for two-dimensional direction-of-arrival estimation in hands-free speech communication
Lu et al. Separating voices from multiple sound sources using 2D microphone array
US20230223033A1 (en) Method of Noise Reduction for Intelligent Network Communication
WO2023088156A1 (zh) 一种声速矫正方法以及装置
Giacobello An online expectation-maximization algorithm for tracking acoustic sources in multi-microphone devices during music playback
Ramamurthy Experimental evaluation of modified phase transform for sound source detection
Brutti et al. Research Article Multiple Source Localization Based on Acoustic Map De-Emphasis

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160411

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160411

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170906

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171115

R150 Certificate of patent or registration of utility model

Ref document number: 6246792

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees