JP4986433B2 - 物体を認識および追跡する装置及び方法 - Google Patents
物体を認識および追跡する装置及び方法 Download PDFInfo
- Publication number
- JP4986433B2 JP4986433B2 JP2005286754A JP2005286754A JP4986433B2 JP 4986433 B2 JP4986433 B2 JP 4986433B2 JP 2005286754 A JP2005286754 A JP 2005286754A JP 2005286754 A JP2005286754 A JP 2005286754A JP 4986433 B2 JP4986433 B2 JP 4986433B2
- Authority
- JP
- Japan
- Prior art keywords
- audio
- sound
- video
- likelihood
- period
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 75
- 238000012805 post-processing Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 description 27
- 239000013598 vector Substances 0.000 description 23
- 238000010586 diagram Methods 0.000 description 17
- 239000011159 matrix material Substances 0.000 description 15
- 238000012545 processing Methods 0.000 description 14
- 238000000926 separation method Methods 0.000 description 13
- 230000036544 posture Effects 0.000 description 12
- 238000001514 detection method Methods 0.000 description 11
- 238000001914 filtration Methods 0.000 description 10
- 230000003044 adaptive effect Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 230000033001 locomotion Effects 0.000 description 7
- 230000009466 transformation Effects 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 239000003086 colorant Substances 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000003491 array Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 239000002245 particle Substances 0.000 description 5
- 230000003628 erosive effect Effects 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000011068 loading method Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000003750 conditioning effect Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 239000006185 dispersion Substances 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 2
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 2
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- WQGWDDDVZFFDIG-UHFFFAOYSA-N pyrogallol Chemical compound OC1=CC=CC(O)=C1O WQGWDDDVZFFDIG-UHFFFAOYSA-N 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 101000635799 Homo sapiens Run domain Beclin-1-interacting and cysteine-rich domain-containing protein Proteins 0.000 description 1
- 206010038743 Restlessness Diseases 0.000 description 1
- 102100030852 Run domain Beclin-1-interacting and cysteine-rich domain-containing protein Human genes 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000009833 condensation Methods 0.000 description 1
- 230000005494 condensation Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 238000009408 flooring Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/78—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using electromagnetic waves other than radio waves
- G01S3/782—Systems for determining direction or deviation from predetermined direction
- G01S3/785—Systems for determining direction or deviation from predetermined direction using adjustment of orientation of directivity characteristics of a detector or detector system to give a desired condition of signal derived from that detector or detector system
- G01S3/786—Systems for determining direction or deviation from predetermined direction using adjustment of orientation of directivity characteristics of a detector or detector system to give a desired condition of signal derived from that detector or detector system the desired condition being maintained automatically
- G01S3/7864—T.V. type tracking systems
Description
D. P. Huttenlocher, G. A. Klanderman and W. J. Rjcklidge, "Comparing Image using the Hasusdorff Distance under Translation," in Proc. IEEE Int. Conf. CVPR, 1992, pp. 654 to 656 E. Shirberg, A. Stolcke and D. baron, "Obeservations on Overlap: Findings and Implications for Automatic Processing of Multi-Party Coversation" Proc. Eruosppech, 2001 C.Choi, "Read-tiem Binaural Blind Source Separation" Proc. Int. Symp. ICA and BSS, pp. 567 to 572 G. Lathoud and I. A. McCowna, "Location Based Speaker Segmentation," Proc. ICASSP, 2003 G. Lathoud, I. A. MCCowan and D. C. Moore, "Segmenting Multiple Concurrent Speakers using Microphone Arrays," Proc.Eurosppech,2003 R. Cutler et. al., "Distributed Meetings: A Meeting Capture and Broadcasting System", Proc. ACMInt. Conf. Multimedia, 2002 Y. Chen and Y. Rui, "Realtime Speaker Tracking using Particle filter Sensor Fusion", Proc. of the IEEE, vol.92 No. 3, pp. 485 to 494, 2004
を備える。
図1を参照すると、ロボットは、映像システム100と、音声システム200と、コンピュータ400とから構成される。本発明の如何なる態様において必要とするものではないが、図1に示すロボットは、映像システム100および音声システム200からの入力によりコンピュータ400によって制御されるロボット要素300を更に備える。ロボット要素300において、映像システム100および音声システム200は、コンピュータ400と共に統合される必要はなく、別個に配置されてもよいということは言うまでもない。
本発明の一実施形態に係る装置はロボットであり、未知の環境で動作または停止が可能である。ロボットは、周囲環境で観察される特徴を収集し、かつその制御を行うことができる。制御および観察順序に基づき、本発明の実施形態に係るロボットは、少なくとも1つの対象物を検出し、その位置を把握して追跡でき、更に複数の対象物を追跡し、かつ応答することができる。本発明の他の実施形態において、ロボットは複数の物体のうち、各対象物の様相、すなわち、目標話者のそれぞれの音声および顔に基づいて様相を分離できる。更に他の本発明の実施形態において、物体とロボットはx−y平面にあると見なされる。しかし、この方法は、本発明の一実施形態において、3次元空間まで容易に拡張できることは言うまでもない。
ステップ540で、コンピュータ400は、後記の数式31を利用して、ステップ530で検出された音声対象物、およびステップ510で検出された映像対象物が追跡されるべき人であるか否かを決定するために、映像および音声尤度を組み合わせる。さらに、映像および音声尤度は方向情報を含むため、それぞれの対象物は位置関数として認識される。
ステップ540で、音声および映像データ尤度を組み合わすことで、コンピュータ400は、後記の数式31および数式37ないし数式39を使用して、ステップ550で各人を分離して追跡できる。このような方式で、各人は、位置により個別に認識され、音声データチャンネルは特定イメージにより識別される。さらに、対象物620が話していると、分離されたトラックは出力され、対象物620と関連付けされる。
になる0から1までの値を有する加重値であり、N(θi,σ2 i)は平均がθiであり、分散がσ2 iのガウシアン関数である。
ステップ562において、人の音声パターンは、音声停止として検出される所定の減少(dip)を含む可能性があり、その場合には、記録または伝送された音に不愉快な不連続を形成してしまう。咳などによる音声の突然のスパイクは、人の音声として好ましくない。例として、図6(c)で、話者は、時間80付近で音声を休止している。そのような休止は、図6(a)および図6(b)に示す話者のパターンに図示されていない。図7(c)に示すように、このような休止は、音質を向上させるために除去されるべき音声の不連続としてみなされる。しかし、これは、対話と関連していない背景ノイズを記録しないように、音声に対する開始および終了時間を記録することが好ましい。ステップ562で音声処理を行うことにより、音声包絡線を形成して、音声の実際の休止は保存されるか、または伝送されないようにする一方、特定の人の音声の終了と比較するため、コンピュータ400は、図8(c)に示すように、時間80周辺の音声を保存できる。このようなタイプの信号調節のための処理は、数式41ないし数式49と関連して以下で説明する。しかし、音声で休止または突然のスパイクが重要ではない場合は、ステップ562で示された数式49は省略することができる。
AVシステム700は、音声データの分離されたトラックを出力し、ここで、それぞれのトラックは、話者から出たそれぞれの音声に該当する。出力の実施形態は、図11(a)ないし図11(c)に示されている。後処理装置710は、各トラックに含まれたオーディオノイズを除去するために、本発明の実施形態に係る適応クロスチャンネル干渉除去を行う。後処理装置710は、これらの信号を処理して、他のチャンネルの干渉を除去したそれぞれのチャンネルに対する処理された信号を出力する。これは、数式50ないし数式65と関連して以下で説明するが、さらに、C. Choi, G.-J.Jang, Y. Lee and S. Kim, "Adaptive Cross-channel Interference Cancellation on Blind Signal Separation Outputs", Proc. Int. Symp. ICA and BSS, 2004で更に詳細に説明されている。
処理後に、後処理装置710は、図12(a)に示す話者1に対して処理されたトラック、図12(b)に示す話者2に対して処理されたトラック、および図12(c)に示す話者3に対して処理されたトラックを出力する。図示するように、AVシステム700に入力される信号対ノイズ比(Signal-to-Noise ratio:SNR)は、0dBより小さい。図11(a)ないし図11(c)に示すように、AVシステム700からの出力は、11.47dB程度のSNRを有する。後処理装置710を通過後、図12(a)ないし図12(c)に示す出力は、16.75dBのSNRを有する。これにより、本発明の実施形態によって、ステップ564で行われた分離されたチャンネルの後処理は、隣接トラックによる干渉を除去し、出力チャンネルの記録および伝送を向上させる。
一般的に、動いている対象は、励起力および摩擦力を受ける。ζは、直角座標系でx、yまたはzを表し、極座標系でr、θまたはzを表し、球座標系でρ、θまたはφを表す。ξ座標系で、単位質量を仮定した動きの離散式は、次の数式2ないし数式4で表せる。
は、摩擦力である。
が、線形であると仮定すれば、摩擦力は、
に近似する。ここで、bは、摩擦定数である。したがって、数式2ないし数式4は、下記の数式5および数式6のように単純化される。
を計算するための数式5の逆方向近似は間違えである。エラーは、
を得るために、
を2回積分する時に更に大きくなる可能性がある。さらに、本発明によれば、ξ(t+1)と
は、
および
をそれぞれ近似するために、数式7および数式8で提示されたように組み込まれる。
時間tを使って対象の姿勢を表すと、s(t)になる。対象に対する挙動がわからないため、対象に加えられる外力v(t)は、数式16に提示されたガウス関数としてモデル化され、対象の姿勢は、数式17で提示された第一次マルコフ過程によってコンピュータにより推定される。
J. Vermaak and A. Blake, "Nonlinear Filtering for Speaker Tracking in Noisy and Reverberant Environments", in Proc.ICASSP、200,
C. Choi, "Real-time Binaural Blind Source Separation", in Proc.Int.Symp.ICA and BSS, 2003, pp. 567 to 572、
G. Lathoud and I. A. McCowan, “Location based Speaker Segmentation", in Proc. ICASSP, 2003、
G. Lathoud, I. A. McCowan and D. C. Moore", Segmenting Multiple Concurrent Speakers using Microphone Arrays," in Proc. Eurospeech, 2003、
R. Cutleret. et al. "Distributed Meetings: A Meeting Capture and Broadcasting System", in Proc. ACM Int. Conf. Multimedia, 2002、
Y.Chen and Y.Rui, "Real-time Speaker Tracking using Particle Filter Sensor Fusion", Proc. of the IEEE, vol. 92, No.3, pp.485 to 494, 2004
に記載されているように、時間遅延測定(Time-Delay Estimates:TDE)は、音声追跡のための構造を記述する。しかし、本発明の一実施形態によって使用可能であり、周辺のノイズおよび反響に対処するために、最大の尤度法および位相変換からの重み関数があっても、TDEに基づく技術は、M. Brandstein and D. Ward, EDS., Microphone Arrays: Signal Processing Techniques and Applications. Springer, 2001に記述されたように、明示的な方向のノイズに脆弱である。
最近、視覚で物体追跡を行うことに関連した分野で発展している。そのような方法の例として、mean shift方法、CAMSHIFT方法およびCONDENSATIONアルゴリズムが挙げられる。このような方法の例は、
D. Comaniciu, V .Ramesh, and P. Meer, "Real-time Tracking of Non-rigid Objects using Mean Shift," in Proc. CVPR, 2000と、
"Kernel-based Object Tracking, "IEEE Trans.PAMI, 2003と、
G. R. Bradski, "Computer Vision Face Tracking for use in a Perceptual user Interface, "Intel Technology Journal, 1998と、
M. Isard and A. Blake, "Contour Tracking by Stochastic Propagation of Conditional Density, "in Proc.ECCV, 1996と、
"Icondensation:Unifying Low-level and High-level Tracking in a stochastic Framework," in Proc. ECCV, 1998
に記載されている。
測定された音声データは、次の数式19のように、周波数領域においてm次元ベクトル(mセンサー)で得られる。図1に示すように、マイクロフォンの配列は、8個のマイクロフォン210を含むため、図示する例で、m=8である。しかし、マイクロフォンの数が異なることにより、異なる値が使用されることは言うまでもない。
本発明の一実施形態によれば、調整ベクトルA(f,θ)は、マイクロフォンアレイ構造に対して、実験的に5゜間隔で形成されたインパルス音に対する反応を測定することで決定される。しかし、そのベクトルA(f,θ)は、他の方法で導ち出すことができるのは言うまでもない。
R(f)=E{za(f、t)・zv(f、t)H}
の式からあらゆる連続的なフレームに対して得ることができる。ここで、“H”は、エルミート転置行列を表す。空間共分散マトリックスN(f)は、明示的な方向性の音源がなければ、あらかじめ計算される。したがって、数式20に表されたような一般的な固有値の問題を解くことは、一般的な固有値マトリックスΛ、およびその該当固有ベクトル
E=[ES|EN]に帰着する。
ES=[es 1,・・・,es d]およびEN=[eN d+1,・・・,eN m]は、それぞれ信号サブ空間およびノイズサブ空間に及ぶ固有ベクトルマトリックスである。“d”は、音源数の近似値であり、推定数字(3のように)で表示される。要求されるものではないが、“d”は、追跡される人数に基づいて入力される。しかし、一般化された固有値問題は、本発明の一実施形態に係る他の固有分析方法により代替される。そのような方法の例は、固有値問題に限定されるものではなく、特異値分解および本発明の実施形態に係る一般化された特異値の分解を含む。
p(f|θ)は、p(f)に代替されるが、これは、周波数選択が根源信号の方向と無関係と仮定されたためである。装置が離散周波数領域にあり、周波数ビンの選択が何れも
p(fk)=1/Nfと同じであると仮定すれば、数式24の各信号源の方向θの尤度は、コンピュータ400が信号源に対する方向可能性を検出できるように、本発明の一実施形態によって、数式25および数式26で表される。
多数の人々を追跡するにあたって、図1に示す装置は、図3Aに示すように、同時に全ての人が見えるように、360゜の視野を有する全方向カラーカメラ110を使用する。多数の人を見つけるために、2つの特徴である皮膚色およびイメージ形状が本発明の一実施形態によって使用される。皮膚領域は、ほぼ一定の色を有するため、顔および手の領域は、図3Cに示すように、カラー分割を使用して容易に区分できる。多数の人種および皮膚色を追跡できるように、本発明の一実施形態によって多様な皮膚色が検出されるということは言うまでもない。皮膚色ブロブが人であるか否かを区別するために、上半身の3つの形状が本発明の一実施形態によって、コンピュータ400により具体化されて使用される。
である。色変換は、2Dガウス関数N(mr,σr;mg;σg)で表現され、ここで(mr,σr)および(mg,σg)は、それぞれ赤色および緑色要素の平均および標準偏差である。標準化された色は、色認識過程に大きく影響する輝度効果を低減させ、色要素をそのままに残す。ピクセル値が皮膚と関連した色に更に接近する時、ピクセルは強い強度を有する。皮膚と関連した色による臨界設定は、第一イメージを形成する。他の色が選択されるか、または他の色調を獲得するために、前記図示する色に追加または代替して、他の選択された色が強い強度を有するような変換が適用されるということは言うまでもない。
である。関数h(A,B)は、AからBまでの直接ハウスドルフ距離と呼ばれ、Bのある点から最も遠くにある点を識別し、aからBの最も隣接する点までの距離を測定する。言い換えれば、AからBまでの直接の距離は、Aのあらゆる点がBの幾つかの点bと近い時に小さい。二つとも小さい場合には、コンピュータ400は、候補エッジイメージおよび形状モデルイメージが互いに似ていると判断する。如何なる実施形態で要求されるものではないが、ハウスドルフ距離の三角不等式は、複数の保存された形状モデルイメージを、カメラ110などから得たエッジイメージと比較する場合に特に有効である。この距離をもって、コンピュータ400は、保存された姿勢および人の身体のイメージを使用して、映像イメージから人の上半身および体の姿勢を検出できる。したがって、コンピュータ400により行われる方法は、図3Aないし図3Cに示すように、複雑な背景および照明変化のある複雑な環境で多数の人々を検出することができる。
C. Choi, "Real-time Binaural Blind Source Separation," in Proc. Int. Symp. ICA and BSS, pp. 567 to 572, 2003と、
G. Lathoud and I. A. McCowan, "Location based Speaker Segmentation," in Proc. ICASSP, 2003と、
G. Lathoud, I. A. McCowan and D. C. Moore, "Segmenting Multiple Concurrent Speakers using Microphone Arrays," in Proc. Eurospeech, 2003と、
に開示されている。五つのビデオストリーム入力およびマイクロフォンアレイから出たパノマラ式イメージを使用した話者追跡は、R. Cutler et.al., "Distributed Meetings: A Meeting Capture and Broadcasting System," in Proc. ACM Int. Conf. Multimedia, 2002 and Y. Chen and Y. Rui, "Real-time Speaker Tracking using Particle Filter Sensor Fusion," Proc.of the IEEE, vol.92, No.3, pp.485 to 494, 2004に報告されている。
コンピュータ400は、連続音声部分(すなわち、それぞれのL1−フレーム内)として見なされ、十分に近くて時間に敏感な隣接音声包絡線を結合して、その包絡線を拡張するためにLフレーム拡張演算子を利用して、それぞれの検出されたSPIに2進拡張を行う。2進シーケンスuのために、コンピュータ400により使用されるLフレーム拡張演算子の例は数式47で表される。
また、本発明の如何なる実施形態で要求されるものではないが、コンピュータ400は、通常対話の一部ではないノイズから分離したスパイクを除去する。例として、このような分離したノイズスパイクは、一般的に記録されるに当って好ましくない咳または他の突然のノイズにより発生される。これにより、コンピュータ400は、本発明の一実施形態によって2進浸食(erosion)演算子を使用して、このようなスパイクを認識して除去できる。特に、所定時間L2(2フレームより小さなL2)より小さな特定話者の分離された破裂音は除去される。本発明の一実施形態によって、コンピュータ400により使用されるLフレーム浸食演算子は、2進シーケンスuに対し、数式48で表される。
X(ω,n)=[X1(ω,n) X2(ω,n)]T および
は、時間
(ここで、
は、フローリング演算子)で始まるシフト長(T/2)を有するサイズTのフレームに対するDFTを表し、該当表現が、S(ω,n)およびN(ω,n)に適用される。混合されない過程は、次の数式52を使用して周波数ビンωの公式で表すことができる。
で定義される。この分解の短所は、それぞれ独立した周波数ビンでの置換問題が発生するとこである。しかし、この問題は、時間領域スペクトルスムージングを使用して解決される。
p(Hi,1|Yi(n))=1−p(Hi,0|Yi(n))
であり、これは、第iBSS出力でクロスチャンネル干渉の量を表す。下記で説明するように、後処理装置710は、相互チャンネル干渉の相殺および要素密度p(Yi(ω,n)|Hi,m)に対する統計的モデルを行う。
110 全方向カメラ
120 USB2.0インターフェース
200 音声システム
210 8個のマイクロフォン
220 アナログ−デジタル変換器
230 USBインターフェース
300 ロボット
310 二つのモータ
320 モータコントローラ
330 RS232Cインターフェース
400 コンピュータ
Claims (12)
- 受信した音および映像を使用して物体を認識および追跡する装置において、
異なる方向から受信した複数のサウンドのそれぞれに基づいて、前記サウンドが観測された際に、ある方向に追跡する物体が存在することの尤もらしさを表す音声尤度を求める音声尤度モジュールと、
映像内の異なる方向に配置された複数のイメージのそれぞれに基づいて、前記映像内のイメージが観測された際に、ある方向に追跡する物体が存在することの尤もらしさを表す映像尤度を求める映像尤度モジュールと、
前記音声尤度において尤もらしいとする方向と、前記映像尤度において尤もらしいとされる方向とが一致するかどうかを判断し、一致すると判断されれば、前記音声尤度および映像尤度の対を使用して、前記物体を認識して追跡し、一致しなければ、前記音源またはイメージ源には、追跡される物体が存在しないと判断する認識および追跡モジュールと、
を備え、
前記認識した物体それぞれに対して前記認識した物体それぞれに一意に該当するオーディオチャンネルを出力するために、前記サウンドから認識した物体の位置に該当する音声を分離するビームフォーマを更に備え、
前記音声尤度モジュールは、それぞれの受信したサウンドに基づいて、その音声方向を更に検出し、
前記映像尤度モジュールは、それぞれの観測されたイメージに基づいて、その映像方向を更に検出し、
前記認識および追跡モジュールは、前記音声方向と映像方向とに基づいて、前記サウンドとイメージとの方向が一致するかどうかを更に判断し、
前記ビームフォーマによって出力されたオーディオチャンネルのそれぞれは、音声が検出される聴き取り期間とその聴き取り期間の間で音声が検出されない静寂期間を検出し、前記出力されたオーディオチャンネルに対して、それぞれの検出された聴き取り期間に対する開始および終了時間を検出する音声期間検出器を更に備え、
前記音声期間検出器は、隣接する前記聴き取り期間の間の近接性を検出し、前記近接性が所定の値より小さければ、前記隣接聴き取り期間を一つの連続した聴き取り期間として決定し、前記隣接聴き取り期間を連続的な聴き取り期間として形成するために連結し、あるいは、前記近接性が所定の値より大きければ、前記隣接聴き取り期間は静寂期間により分離されると決定し、前記隣接聴き取り期間を連結しないことを特徴とする装置。 - 前記装置は、受信した第1個数の受信されたオーディオチャンネルを出力するマイクロフォンアレイを使用して前記サウンドを受信し、前記受信されたオーディオチャンネルは前記サウンドの要素を含み、前記ビームフォーマは、前記第1個数と異なる第2個数のオーディオチャンネルを出力し、前記第2個数は、認識した物体の個数に該当することを特徴とする請求項1に記載の装置。
- 認識した物体のそれぞれに対し、前記ビームフォーマによって出力されたオーディオチャンネルを各物体と関連して分離されたオーディオトラックとして記録する記録装置を更に備えることを特徴とする請求項2に記載の装置。
- 前記音声期間検出器は、前記聴き取り期間のそれぞれの長さを検出し、前記長さが所定の値より短ければ、前記聴き取り期間を静寂であると決定して、前記聴き取り期間を削除し、あるいは、前記長さが所定の値より長ければ、前記聴き取り期間が静寂期間ではないと決定し、前記聴き取り期間を削除しないことを特徴とする請求項1に記載の装置。
- 前記音声期間検出器は、それぞれの聴き取り期間に対して前記検出した音声を出力して、前記それぞれの静寂期間に対して、前記オーディオチャンネルから前記サウンドを削除することを特徴とする請求項1に記載の装置。
- 前記ビームフォーマから受信した前記複数のオーディオチャンネルのそれぞれに対し、他のオーディオチャンネルの干渉により発生するクロスチャンネル干渉に該当する音声部分を検出し、かつ前記クロスチャンネル干渉を除去する後処理装置を更に備えることを特徴とする請求項1に記載の装置。
- 音声および映像データを受信する少なくとも一つのコンピュータを使用して、物体を追跡および認識する方法において、
異なる方向から受信した複数のサウンドのそれぞれに基づいて、前記少なくとも一つのコンピュータで、前記サウンドが観測された際に、ある方向に追跡される物体が存在することの尤もらしさを表す音声尤度を求めるステップと、
前記映像内の異なる方向に配置された複数イメージのそれぞれに基づいて、前記少なくとも一つのコンピュータで、前記映像内のイメージが観測された際に、ある方向に追跡される物体が存在することの尤もらしさを表す映像尤度を求めるステップと、
前記音声尤度において尤もらしいとする方向と、前記映像尤度において尤もらしいとされる方向とが一致するかどうかを判断し、一致すると判断されれば、前記少なくとも一つのコンピュータで、前記音声尤度および映像尤度の対を使用して、前記物体のうち該当する一つを認識および追跡するステップと、
前記音声尤度において尤もらしいとする方向と、前記映像尤度において尤もらしいとされる方向とが一致しなければ、前記少なくとも一つのコンピュータで、前記音源またはイメージ源は、追跡する物体ではないと認識するステップと、を含み、
前記認識した物体のそれぞれに対して、前記認識した物体のそれぞれに位置を決定することでビームフォーミングを行うステップと、前記認識した物体のそれぞれに対して一意に該当するオーディオチャンネルを出力するために、前記それぞれ認識された物体の位置に該当する音声を前記受信サウンドから分離するステップを更に含み、
前記音声尤度を求めるステップは、それぞれの受信したサウンドに基づいて、その音声方向を更に検出するステップを含み、
前記映像尤度を求めるステップは、それぞれの観測されたイメージに基づいて、その映像方向を更に検出するステップを含み、
前記認識および追跡するステップは、前記音声方向と前記映像方向とに基づいて前記サウンドと前記イメージとの方向が一致するかどうかを更に決定するステップを含み、
前記音声を受信サウンドから分離するステップは、音声が検出される聴き取り期間とその聴き取り期間の間で音声が検出されていない静寂期間を検出し、前記出力されたオーディオチャンネルに対して、それぞれの検出された聴き取り期間に対する開始および終了時間によりスピーチインターバルを検出するステップを含み、
前記スピーチインターバルを検出するステップは、隣接する前記聴き取り期間の間の近接性を検出するステップと、前記近接性が所定の値より小さければ、前記隣接する聴き取り期間を一つの連続的な聴き取り期間と決定し、前記隣接聴き取り期間を連結して連続的な聴き取り期間を形成するステップと、前記近接性が所定の値より大きければ、前記隣接する聴き取り期間を前記静寂期間により分離されると決定し、前記隣接する聴き取り期間を連結しないステップと、を含むことを特徴とする方法。 - 前記少なくとも一つのコンピュータは、受信した第1個数の受信されたオーディオチャンネルを出力するマイクロフォンアレイを使用して前記サウンドを受信し、前記受信されたオーディオチャンネルは、前記サウンドの要素を含み、前記ビームフォーミングステップは、前記第1個数と異なる第2個数のオーディオチャンネルを出力するステップを含み、前記第2個数は、認識した物体の個数に該当することを特徴とする請求項7に記載の方法。
- 認識した物体のそれぞれに対し、前記ビームフォーマによって出力されたオーディオチャンネルを各物体と関連して分離されたオーディオトラックとして保存するステップを更に含むことを特徴とする請求項8に記載の方法。
- 前記スピーチインターバルを検出するステップは、
前記各聴き取り期間の長さを検出するステップと、
前記長さが所定の値より短ければ、前記聴き取り期間を静寂期間であると決定し、前記聴き取り期間を削除するステップと、
前記長さが所定の値より長ければ、前記聴き取り期間が静寂期間ではないと決定し、前記聴き取り期間を削除しないステップと、を含むことを特徴とする請求項7に記載の方法。 - 前記スピーチインターバルを検出するステップは、
前記各聴き取り期間に対し、前記検出された音声を出力するステップと、
前記各静寂期間に対し、前記オーディオチャンネルから前記サウンドを削除するステップと、
を含むことを特徴とする請求項7に記載の方法。 - 複数のビームが形成されたオーディオチャンネルのそれぞれに対し、他のオーディオチャンネルの干渉により発生するクロスチャンネル干渉に該当する音声部分を除去し、前記クロスチャンネル干渉を除去することで前記ビーム形成されたオーディオチャンネルを後処理するステップを含むことを特徴とする請求項7に記載の方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040078019A KR100754385B1 (ko) | 2004-09-30 | 2004-09-30 | 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법 |
KR10-2004-0078019 | 2004-09-30 | ||
US10/998,984 US7536029B2 (en) | 2004-09-30 | 2004-11-30 | Apparatus and method performing audio-video sensor fusion for object localization, tracking, and separation |
US10/998,984 | 2004-11-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006123161A JP2006123161A (ja) | 2006-05-18 |
JP4986433B2 true JP4986433B2 (ja) | 2012-07-25 |
Family
ID=37139554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005286754A Active JP4986433B2 (ja) | 2004-09-30 | 2005-09-30 | 物体を認識および追跡する装置及び方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7536029B2 (ja) |
JP (1) | JP4986433B2 (ja) |
KR (1) | KR100754385B1 (ja) |
DE (1) | DE602005018427D1 (ja) |
Families Citing this family (305)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
JP3627058B2 (ja) * | 2002-03-01 | 2005-03-09 | 独立行政法人科学技術振興機構 | ロボット視聴覚システム |
US8930023B2 (en) * | 2009-11-06 | 2015-01-06 | Irobot Corporation | Localization by learning of wave-signal distributions |
US20060245601A1 (en) * | 2005-04-27 | 2006-11-02 | Francois Michaud | Robust localization and tracking of simultaneously moving sound sources using beamforming and particle filtering |
JP4441879B2 (ja) * | 2005-06-28 | 2010-03-31 | ソニー株式会社 | 信号処理装置および方法、プログラム、並びに記録媒体 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
JP4675811B2 (ja) * | 2006-03-29 | 2011-04-27 | 株式会社東芝 | 位置検出装置、自律移動装置、位置検出方法および位置検出プログラム |
US8930025B2 (en) * | 2006-05-25 | 2015-01-06 | Takehiro Ishizaki | Work robot |
FI20060666A0 (fi) * | 2006-07-07 | 2006-07-07 | Nokia Corp | Menetelmä ja järjestelmä epäjatkuvan lähetyksen toiminnallisuuden parantamiseksi |
TWI302609B (en) * | 2006-07-11 | 2008-11-01 | Compal Electronics Inc | Method for tracking vocal target |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7917292B1 (en) | 2006-10-17 | 2011-03-29 | Jpmorgan Chase Bank, N.A. | Systems and methods for flood risk assessment |
US8655595B1 (en) | 2006-10-17 | 2014-02-18 | Corelogic Solutions, Llc | Systems and methods for quantifying flood risk |
KR100809352B1 (ko) | 2006-11-16 | 2008-03-05 | 삼성전자주식회사 | 파티클 필터 기반의 이동 로봇의 자세 추정 방법 및 장치 |
US8077927B1 (en) | 2006-11-17 | 2011-12-13 | Corelogic Real Estate Solutions, Llc | Updating a database with determined change identifiers |
US8542884B1 (en) | 2006-11-17 | 2013-09-24 | Corelogic Solutions, Llc | Systems and methods for flood area change detection |
US8649567B1 (en) | 2006-11-17 | 2014-02-11 | Corelogic Solutions, Llc | Displaying a flood change map with change designators |
US8538918B1 (en) | 2006-12-05 | 2013-09-17 | Corelogic Solutions, Llc | Systems and methods for tracking parcel data acquisition |
US7869631B2 (en) * | 2006-12-11 | 2011-01-11 | Arcsoft, Inc. | Automatic skin color model face detection and mean-shift face tracking |
JP5383056B2 (ja) * | 2007-02-14 | 2014-01-08 | 本田技研工業株式会社 | 音データ記録再生装置および音データ記録再生方法 |
KR100941418B1 (ko) * | 2007-03-20 | 2010-02-11 | 삼성전자주식회사 | 이동 로봇의 위치 인식 방법 |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8660841B2 (en) * | 2007-04-06 | 2014-02-25 | Technion Research & Development Foundation Limited | Method and apparatus for the use of cross modal association to isolate individual media sources |
US8189880B2 (en) * | 2007-05-29 | 2012-05-29 | Microsoft Corporation | Interactive photo annotation based on face clustering |
JP2009031951A (ja) * | 2007-07-25 | 2009-02-12 | Sony Corp | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
WO2009025501A2 (en) * | 2007-08-20 | 2009-02-26 | Wavedigm Co., Ltd. | Positioning method using digital audio broadcasting and transmitter for the same |
KR100781692B1 (ko) * | 2007-08-20 | 2007-12-03 | (주)웨이브다임 | 디지털 오디오방송을 이용한 위치 추적 방법 |
JP2009086581A (ja) * | 2007-10-03 | 2009-04-23 | Toshiba Corp | 音声認識の話者モデルを作成する装置およびプログラム |
KR101187909B1 (ko) * | 2007-10-04 | 2012-10-05 | 삼성테크윈 주식회사 | 감시 카메라 시스템 |
JP2009118316A (ja) * | 2007-11-08 | 2009-05-28 | Yamaha Corp | 音声通信装置 |
DE102007058542A1 (de) * | 2007-12-06 | 2009-06-10 | Robert Bosch Gmbh | Fahrerassistenzsystem zur Überwachung der Fahrsicherheit und korrespondierendes Verfahren zur Erfassung und Bewertung einer Fahrzeugbewegung |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
EP2701042B1 (en) | 2008-03-18 | 2015-01-28 | Elliptic Laboratories AS | Object and movement detection |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
JP4730404B2 (ja) * | 2008-07-08 | 2011-07-20 | ソニー株式会社 | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
KR100958932B1 (ko) * | 2008-08-19 | 2010-05-19 | 주식회사 에스원 | 3차원 음원 위치 측정 기술을 이용한 침입 감지 장치 및 방법 |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
KR101591471B1 (ko) * | 2008-11-03 | 2016-02-04 | 삼성전자주식회사 | 물체의 특징 정보를 추출하기 위한 장치와 방법, 및 이를 이용한 특징 지도 생성 장치와 방법 |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
WO2010095437A1 (ja) | 2009-02-19 | 2010-08-26 | パナソニック株式会社 | 物体位置推定システム、物体位置推定装置、物体位置推定方法、及び物体位置推定プログラム |
US8009022B2 (en) | 2009-05-29 | 2011-08-30 | Microsoft Corporation | Systems and methods for immersive interaction with virtual objects |
US8744121B2 (en) | 2009-05-29 | 2014-06-03 | Microsoft Corporation | Device for identifying and tracking multiple humans over time |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US8406925B2 (en) * | 2009-07-01 | 2013-03-26 | Honda Motor Co., Ltd. | Panoramic attention for humanoid robots |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US9141193B2 (en) * | 2009-08-31 | 2015-09-22 | Microsoft Technology Licensing, Llc | Techniques for using human gestures to control gesture unaware programs |
US8532863B2 (en) * | 2009-09-28 | 2013-09-10 | Sri International | Audio based robot control and navigation |
US8560309B2 (en) * | 2009-12-29 | 2013-10-15 | Apple Inc. | Remote conferencing center |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
DE112011100329T5 (de) | 2010-01-25 | 2012-10-31 | Andrew Peter Nelson Jerram | Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform |
US8265341B2 (en) * | 2010-01-25 | 2012-09-11 | Microsoft Corporation | Voice-body identity correlation |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8452037B2 (en) | 2010-05-05 | 2013-05-28 | Apple Inc. | Speaker clip |
US8602887B2 (en) | 2010-06-03 | 2013-12-10 | Microsoft Corporation | Synthesis of information from multiple audiovisual sources |
US8296151B2 (en) | 2010-06-18 | 2012-10-23 | Microsoft Corporation | Compound gesture-speech commands |
US8381108B2 (en) | 2010-06-21 | 2013-02-19 | Microsoft Corporation | Natural user input for driving interactive stories |
US8878656B2 (en) | 2010-06-22 | 2014-11-04 | Microsoft Corporation | Providing directional force feedback in free space |
US9086727B2 (en) | 2010-06-22 | 2015-07-21 | Microsoft Technology Licensing, Llc | Free space directional force feedback apparatus |
KR101285391B1 (ko) | 2010-07-28 | 2013-07-10 | 주식회사 팬택 | 음향 객체 정보 융합 장치 및 방법 |
KR101750338B1 (ko) * | 2010-09-13 | 2017-06-23 | 삼성전자주식회사 | 마이크의 빔포밍 수행 방법 및 장치 |
US8644519B2 (en) | 2010-09-30 | 2014-02-04 | Apple Inc. | Electronic devices with improved audio |
KR101527441B1 (ko) * | 2010-10-19 | 2015-06-11 | 한국전자통신연구원 | 음원 분리 장치 및 그 방법 |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8957847B1 (en) | 2010-12-28 | 2015-02-17 | Amazon Technologies, Inc. | Low distraction interfaces |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
JP5724125B2 (ja) * | 2011-03-30 | 2015-05-27 | 株式会社国際電気通信基礎技術研究所 | 音源定位装置 |
US8811648B2 (en) | 2011-03-31 | 2014-08-19 | Apple Inc. | Moving magnet audio transducer |
EP2508945B1 (en) | 2011-04-07 | 2020-02-19 | Sony Corporation | Directional sound capturing |
US9007871B2 (en) | 2011-04-18 | 2015-04-14 | Apple Inc. | Passive proximity detection |
US8843346B2 (en) * | 2011-05-13 | 2014-09-23 | Amazon Technologies, Inc. | Using spatial information with device interaction |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US20130028443A1 (en) | 2011-07-28 | 2013-01-31 | Apple Inc. | Devices with enhanced audio |
JP5662276B2 (ja) * | 2011-08-05 | 2015-01-28 | 株式会社東芝 | 音響信号処理装置および音響信号処理方法 |
US9288331B2 (en) * | 2011-08-16 | 2016-03-15 | Cisco Technology, Inc. | System and method for muting audio associated with a source |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8989428B2 (en) | 2011-08-31 | 2015-03-24 | Apple Inc. | Acoustic systems in electronic devices |
JP4922472B1 (ja) * | 2011-09-29 | 2012-04-25 | 楽天株式会社 | 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体 |
US8879761B2 (en) | 2011-11-22 | 2014-11-04 | Apple Inc. | Orientation-based audio |
US8903108B2 (en) | 2011-12-06 | 2014-12-02 | Apple Inc. | Near-field null and beamforming |
US9020163B2 (en) | 2011-12-06 | 2015-04-28 | Apple Inc. | Near-field null and beamforming |
WO2013126877A1 (en) * | 2012-02-25 | 2013-08-29 | Massachusetts Institute Of Technology | Personal skin scanner system |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9881616B2 (en) * | 2012-06-06 | 2018-01-30 | Qualcomm Incorporated | Method and systems having improved speech recognition |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9820033B2 (en) | 2012-09-28 | 2017-11-14 | Apple Inc. | Speaker assembly |
US8858271B2 (en) | 2012-10-18 | 2014-10-14 | Apple Inc. | Speaker interconnect |
US9357299B2 (en) | 2012-11-16 | 2016-05-31 | Apple Inc. | Active protection for acoustic device |
US9779093B2 (en) * | 2012-12-19 | 2017-10-03 | Nokia Technologies Oy | Spatial seeking in media files |
JP2014143678A (ja) * | 2012-12-27 | 2014-08-07 | Panasonic Corp | 音声処理システム及び音声処理方法 |
US8942410B2 (en) | 2012-12-31 | 2015-01-27 | Apple Inc. | Magnetically biased electromagnet for audio applications |
US9721587B2 (en) * | 2013-01-24 | 2017-08-01 | Microsoft Technology Licensing, Llc | Visual feedback for speech recognition system |
CN104969289B (zh) | 2013-02-07 | 2021-05-28 | 苹果公司 | 数字助理的语音触发器 |
US20140272209A1 (en) | 2013-03-13 | 2014-09-18 | Apple Inc. | Textile product having reduced density |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10068363B2 (en) | 2013-03-27 | 2018-09-04 | Nokia Technologies Oy | Image point of interest analyser with animation generator |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101959188B1 (ko) | 2013-06-09 | 2019-07-02 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
WO2014200731A1 (en) | 2013-06-13 | 2014-12-18 | Apple Inc. | System and method for emergency calls initiated by voice command |
KR101749009B1 (ko) | 2013-08-06 | 2017-06-19 | 애플 인크. | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 |
US9286897B2 (en) * | 2013-09-27 | 2016-03-15 | Amazon Technologies, Inc. | Speech recognizer with multi-directional decoding |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9451354B2 (en) | 2014-05-12 | 2016-09-20 | Apple Inc. | Liquid expulsion from an orifice |
DE102014106854A1 (de) * | 2014-05-15 | 2016-01-28 | Odos Imaging Ltd. | Bildgebendes System und Verfahren zum Überwachen eines Sichtfeldes |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9508343B2 (en) * | 2014-05-27 | 2016-11-29 | International Business Machines Corporation | Voice focus enabled by predetermined triggers |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
KR101642084B1 (ko) * | 2014-05-29 | 2016-07-22 | 경희대학교 산학협력단 | 다중 음원 국지화 기법을 이용한 얼굴 검출 장치 및 방법 |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
JP6221158B2 (ja) * | 2014-08-27 | 2017-11-01 | 本田技研工業株式会社 | 自律行動ロボット、及び自律行動ロボットの制御方法 |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
JP6464449B2 (ja) * | 2014-08-29 | 2019-02-06 | 本田技研工業株式会社 | 音源分離装置、及び音源分離方法 |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9525943B2 (en) | 2014-11-24 | 2016-12-20 | Apple Inc. | Mechanically actuated panel acoustic system |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
DE102015220400A1 (de) * | 2014-12-11 | 2016-06-16 | Hyundai Motor Company | Sprachempfangssystem im fahrzeug mittels audio-beamforming und verfahren zum steuern desselben |
GB2533373B (en) * | 2014-12-18 | 2018-07-04 | Canon Kk | Video-based sound source separation |
US9747068B2 (en) * | 2014-12-22 | 2017-08-29 | Nokia Technologies Oy | Audio processing based upon camera selection |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US9900698B2 (en) | 2015-06-30 | 2018-02-20 | Apple Inc. | Graphene composite acoustic diaphragm |
US10909384B2 (en) | 2015-07-14 | 2021-02-02 | Panasonic Intellectual Property Management Co., Ltd. | Monitoring system and monitoring method |
IN2015CH03866A (ja) | 2015-07-28 | 2015-08-14 | Wipro Ltd | |
TWI736542B (zh) * | 2015-08-06 | 2021-08-21 | 日商新力股份有限公司 | 資訊處理裝置、資料配訊伺服器及資訊處理方法、以及非暫時性電腦可讀取之記錄媒體 |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US9858948B2 (en) | 2015-09-29 | 2018-01-02 | Apple Inc. | Electronic equipment with ambient noise sensing input circuitry |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10295162B2 (en) * | 2015-10-20 | 2019-05-21 | Philippe Georges Habchi | Modular light bulb with quick and easily user-replaceable independent components |
JP6645129B2 (ja) * | 2015-11-04 | 2020-02-12 | 株式会社リコー | 通信装置、制御方法及び制御プログラム |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US9621795B1 (en) | 2016-01-08 | 2017-04-11 | Microsoft Technology Licensing, Llc | Active speaker location detection |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
CN109644303B (zh) * | 2016-08-29 | 2021-07-23 | Groove X 株式会社 | 对发声体作出动作的机器人 |
JP6567479B2 (ja) * | 2016-08-31 | 2019-08-28 | 株式会社東芝 | 信号処理装置、信号処理方法およびプログラム |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10349196B2 (en) | 2016-10-03 | 2019-07-09 | Nokia Technologies Oy | Method of editing audio signals using separated objects and associated apparatus |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10531187B2 (en) | 2016-12-21 | 2020-01-07 | Nortek Security & Control Llc | Systems and methods for audio detection using audio beams |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN108875730B (zh) * | 2017-05-16 | 2023-08-08 | 中兴通讯股份有限公司 | 一种深度学习样本收集方法、装置、设备及存储介质 |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
EP4184950A1 (en) * | 2017-06-09 | 2023-05-24 | Oticon A/s | A microphone system and a hearing device comprising a microphone system |
CN107452380B (zh) * | 2017-08-25 | 2020-12-25 | 北京猎户星空科技有限公司 | 指示部件的控制方法、装置、电子设备及存储介质 |
CN107591154B (zh) * | 2017-08-25 | 2020-11-27 | 北京猎户星空科技有限公司 | 指示部件的控制方法、装置、电子设备及存储介质 |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US11307661B2 (en) | 2017-09-25 | 2022-04-19 | Apple Inc. | Electronic device with actuators for producing haptic and audio output along a device housing |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10766144B2 (en) * | 2018-01-08 | 2020-09-08 | Digital Dream Labs, Llc | Map related acoustic filtering by a mobile robot |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
CN111527461B (zh) * | 2018-01-09 | 2024-03-22 | 索尼公司 | 信息处理装置、信息处理方法和程序 |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
CN108663668B (zh) * | 2018-05-18 | 2022-03-22 | 西安电子科技大学 | 基于iaa的干扰加噪声协方差矩阵重构稳健波束形成方法 |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10951859B2 (en) | 2018-05-30 | 2021-03-16 | Microsoft Technology Licensing, Llc | Videoconferencing device and method |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10757491B1 (en) | 2018-06-11 | 2020-08-25 | Apple Inc. | Wearable interactive audio device |
US10873798B1 (en) | 2018-06-11 | 2020-12-22 | Apple Inc. | Detecting through-body inputs at a wearable audio device |
US11816886B1 (en) * | 2018-06-28 | 2023-11-14 | Meta Platforms Technologies, Llc | Apparatus, system, and method for machine perception |
GB201811301D0 (en) * | 2018-07-10 | 2018-08-29 | Emotech Ltd | Robotic system |
KR102623998B1 (ko) | 2018-07-17 | 2024-01-12 | 삼성전자주식회사 | 음성인식을 위한 전자장치 및 그 제어 방법 |
US10583067B2 (en) | 2018-08-08 | 2020-03-10 | International Business Machines Corporation | Source-of-sound based navigation for a visually-impaired user |
US11334032B2 (en) | 2018-08-30 | 2022-05-17 | Apple Inc. | Electronic watch with barometric vent |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11561144B1 (en) | 2018-09-27 | 2023-01-24 | Apple Inc. | Wearable electronic device with fluid-based pressure sensing |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
JP2020089947A (ja) | 2018-12-06 | 2020-06-11 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP7407580B2 (ja) * | 2018-12-06 | 2024-01-04 | シナプティクス インコーポレイテッド | システム、及び、方法 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US10832695B2 (en) | 2019-02-14 | 2020-11-10 | Microsoft Technology Licensing, Llc | Mobile audio beamforming using sensor fusion |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN114399014A (zh) | 2019-04-17 | 2022-04-26 | 苹果公司 | 无线可定位标签 |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
CN110246512B (zh) * | 2019-05-30 | 2023-05-26 | 平安科技(深圳)有限公司 | 声音分离方法、装置及计算机可读存储介质 |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
JP6956929B2 (ja) * | 2019-07-31 | 2021-11-02 | 三菱電機株式会社 | 情報処理装置、制御方法、及び制御プログラム |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11232796B2 (en) * | 2019-10-14 | 2022-01-25 | Meta Platforms, Inc. | Voice activity detection using audio and visual analysis |
CN111031274A (zh) * | 2019-11-14 | 2020-04-17 | 杭州当虹科技股份有限公司 | 一种在不加入视频会话的前提下观看视频会议的方法 |
US11234090B2 (en) * | 2020-01-06 | 2022-01-25 | Facebook Technologies, Llc | Using audio visual correspondence for sound source identification |
US11064294B1 (en) | 2020-01-10 | 2021-07-13 | Synaptics Incorporated | Multiple-source tracking and voice activity detections for planar microphone arrays |
US11704087B2 (en) | 2020-02-03 | 2023-07-18 | Google Llc | Video-informed spatial audio expansion |
US11087777B1 (en) | 2020-02-11 | 2021-08-10 | Facebook Technologies, Llc | Audio visual correspondence based signal augmentation |
CN111932944B (zh) * | 2020-07-07 | 2021-09-03 | 智慧航海(青岛)智能系统工程有限公司 | 基于区域船舶数据在船端进行数据处理的方法 |
EP4007308A1 (en) * | 2020-11-27 | 2022-06-01 | Oticon A/s | A hearing aid system comprising a database of acoustic transfer functions |
EP4258686A1 (en) | 2021-01-13 | 2023-10-11 | Samsung Electronics Co., Ltd. | Electronic device for measuring posture of user and method therefor |
CN113239913A (zh) * | 2021-07-13 | 2021-08-10 | 深圳市图元科技有限公司 | 基于声音和图像的噪声源定位方法、装置及系统 |
US11329705B1 (en) | 2021-07-27 | 2022-05-10 | King Abdulaziz University | Low-complexity robust beamforming for a moving source |
US11823707B2 (en) | 2022-01-10 | 2023-11-21 | Synaptics Incorporated | Sensitivity mode for an audio spotting system |
JP7349072B2 (ja) * | 2022-02-10 | 2023-09-22 | フジテック株式会社 | エレベータ用の音声認識システム |
US20230283496A1 (en) * | 2022-03-02 | 2023-09-07 | Zoom Video Communications, Inc. | Engagement analysis for remote communication sessions |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5040231A (en) * | 1987-09-30 | 1991-08-13 | Raytheon Company | Vertical vector pattern recognition algorithm |
US4947044A (en) * | 1989-03-20 | 1990-08-07 | The Boeing Company | Method and apparatus for covertly viewing a target using infrared radiation |
US5206721A (en) * | 1990-03-08 | 1993-04-27 | Fujitsu Limited | Television conference system |
CA2148631C (en) * | 1994-06-20 | 2000-06-13 | John J. Hildin | Voice-following video system |
US5508734A (en) * | 1994-07-27 | 1996-04-16 | International Business Machines Corporation | Method and apparatus for hemispheric imaging which emphasizes peripheral content |
JPH0942961A (ja) * | 1995-07-27 | 1997-02-14 | Toshiba Corp | 音声入力装置の位置測定装置 |
JPH1141577A (ja) | 1997-07-18 | 1999-02-12 | Fujitsu Ltd | 話者位置検出装置 |
US5940118A (en) * | 1997-12-22 | 1999-08-17 | Nortel Networks Corporation | System and method for steering directional microphones |
US6005610A (en) * | 1998-01-23 | 1999-12-21 | Lucent Technologies Inc. | Audio-visual object localization and tracking system and method therefor |
US6593956B1 (en) * | 1998-05-15 | 2003-07-15 | Polycom, Inc. | Locating an audio source |
US6542621B1 (en) * | 1998-08-31 | 2003-04-01 | Texas Instruments Incorporated | Method of dealing with occlusion when tracking multiple objects and people in video sequences |
US6882746B1 (en) * | 1999-02-01 | 2005-04-19 | Thomson Licensing S.A. | Normalized bitmap representation of visual object's shape for search/query/filtering applications |
US7139767B1 (en) * | 1999-03-05 | 2006-11-21 | Canon Kabushiki Kaisha | Image processing apparatus and database |
JP3745649B2 (ja) * | 2001-06-07 | 2006-02-15 | 株式会社国際電気通信基礎技術研究所 | コミュニケーションロボット |
CN1304177C (zh) * | 2001-10-22 | 2007-03-14 | 索尼公司 | 机器人装置及其控制方法 |
US7130446B2 (en) * | 2001-12-03 | 2006-10-31 | Microsoft Corporation | Automatic detection and tracking of multiple individuals using multiple cues |
JP2004034924A (ja) * | 2002-07-08 | 2004-02-05 | Mitsubishi Heavy Ind Ltd | 走行体の移動装置 |
JP3738254B2 (ja) * | 2003-02-19 | 2006-01-25 | 松下電器産業株式会社 | 物品管理システム |
US7394907B2 (en) * | 2003-06-16 | 2008-07-01 | Microsoft Corporation | System and process for sound source localization using microphone array beamsteering |
-
2004
- 2004-09-30 KR KR1020040078019A patent/KR100754385B1/ko active IP Right Grant
- 2004-11-30 US US10/998,984 patent/US7536029B2/en active Active
-
2005
- 2005-06-01 DE DE602005018427T patent/DE602005018427D1/de active Active
- 2005-09-30 JP JP2005286754A patent/JP4986433B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
KR20060029043A (ko) | 2006-04-04 |
KR100754385B1 (ko) | 2007-08-31 |
US7536029B2 (en) | 2009-05-19 |
JP2006123161A (ja) | 2006-05-18 |
DE602005018427D1 (de) | 2010-02-04 |
US20060075422A1 (en) | 2006-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4986433B2 (ja) | 物体を認識および追跡する装置及び方法 | |
EP1643769B1 (en) | Apparatus and method performing audio-video sensor fusion for object localization, tracking and separation | |
CN112088315B (zh) | 多模式语音定位 | |
KR100754384B1 (ko) | 잡음에 강인한 화자위치 추정방법 및 장치와 이를 이용한카메라 제어시스템 | |
US20220013134A1 (en) | Multi-stream target-speech detection and channel fusion | |
JP6467736B2 (ja) | 音源位置推定装置、音源位置推定方法および音源位置推定プログラム | |
US10535361B2 (en) | Speech enhancement using clustering of cues | |
KR100822880B1 (ko) | 지능형 로봇 환경에서 오디오-비디오 기반 음원추적을 통한화자 인식 시스템 및 방법 | |
US10964326B2 (en) | System and method for audio-visual speech recognition | |
US11790900B2 (en) | System and method for audio-visual multi-speaker speech separation with location-based selection | |
WO2019239667A1 (ja) | 収音装置、収音方法、及びプログラム | |
TW202147862A (zh) | 強烈雜訊干擾存在下穩健的揚聲器定位系統與方法 | |
Asano et al. | Detection and separation of speech event using audio and video information fusion and its application to robust speech interface | |
Faubel et al. | Improving hands-free speech recognition in a car through audio-visual voice activity detection | |
US20220148611A1 (en) | Speech enhancement using clustering of cues | |
Novoa et al. | Weighted delay-and-sum beamforming guided by visual tracking for human-robot interaction | |
Abutalebi et al. | Performance improvement of TDOA-based speaker localization in joint noisy and reverberant conditions | |
Chau et al. | Audio-visual SLAM towards human tracking and human-robot interaction in indoor environments | |
Asano et al. | Detection and separation of speech events in meeting recordings using a microphone array | |
Schymura et al. | A dynamic stream weight backprop Kalman filter for audiovisual speaker tracking | |
US11114108B1 (en) | Acoustic source classification using hyperset of fused voice biometric and spatial features | |
Bergh et al. | Multi-speaker voice activity detection using a camera-assisted microphone array | |
Aarabi et al. | Robust speech processing using multi-sensor multi-source information fusion––an overview of the state of the art | |
Wang et al. | Real-time automated video and audio capture with multiple cameras and microphones | |
Song et al. | Speaker attention system for mobile robots using microphone array and face tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20061026 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20061027 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090728 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091028 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100518 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100818 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100823 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100914 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110308 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110608 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120306 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120327 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120424 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4986433 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150511 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150511 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |