JP2009140366A - 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム - Google Patents
情報処理装置、および情報処理方法、並びにコンピュータ・プログラム Download PDFInfo
- Publication number
- JP2009140366A JP2009140366A JP2007317711A JP2007317711A JP2009140366A JP 2009140366 A JP2009140366 A JP 2009140366A JP 2007317711 A JP2007317711 A JP 2007317711A JP 2007317711 A JP2007317711 A JP 2007317711A JP 2009140366 A JP2009140366 A JP 2009140366A
- Authority
- JP
- Japan
- Prior art keywords
- information
- event
- tid
- user
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/803—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【解決手段】画像情報や音声情報に基づいてユーザの推定位置および推定識別データを含むイベント情報を入力し、ターゲットを設定した複数パーティクルを適用したパーティクルフィルタリング処理による仮説の更新および取捨選択に基づいてユーザの位置および識別情報を生成する。ターゲットをイベント、例えば顔画像に対応して設定する構成とし、不確実非同期な位置情報、識別情報から正しい情報を残存させ、ユーザ位置やユーザ識別情報を効率的に確実に生成可能となり、また発話者の特定などにおいても精度の高い処理が実現される。
【選択図】図2
Description
実空間の観測情報を入力する複数の情報入力部と、
前記情報入力部から入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成するイベント検出部と、
ユーザの位置および識別情報についての仮説(Hypothesis)の確率分布データを設定し、前記イベント情報に基づく仮説の更新および取捨選択により、前記実空間に存在するユーザの位置情報を含む解析情報を生成する情報統合処理部と、
を有し、
前記情報統合処理部は、
仮想的なユーザに対応する複数のターゲットデータを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して前記実空間に存在するユーザの位置情報を含む解析情報を生成する構成であり、
前記パーティクルに設定するターゲットデータの各々を前記イベント検出部から入力するイベント各々に対応付けて設定し、入力イベント識別子に応じて各パーティクルから選択されるイベント対応ターゲットデータの更新を行う構成を有することを特徴とする情報処理装置にある。
Ps(tID)=Ws(tID)/ΣWs(tID)
ただし、
Ws(tID)=(1−α)P(tID)Δt+αSΔt(tID)
αは重み係数、
上記式により、各ターゲットの発話者確率[Ps(tID)]を算出する構成であることを特徴とする。
Pp(tID)=Wp(tID)/ΣWp(tID)
ただし、
Wp(tID)=(P(tID)Δt)(1−α)×SΔt(tID)α
αは重み係数、
上記式により、各ターゲットの発話者確率[Pp(tID)]を算出する構成であることを特徴とする。
情報処理装置において、情報解析処理を実行する情報処理方法であり、
複数の情報入力部が、実空間における観測情報を入力する情報入力ステップと、
イベント検出部が、前記情報入力部から入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成するイベント検出ステップと、
情報統合処理部が、ユーザの位置および識別情報についての仮説(Hypothesis)の確率分布データを設定し、前記イベント情報に基づく仮説の更新および取捨選択により、前記実空間に存在するユーザの位置情報を含む解析情報を生成する情報統合処理ステップと、
を有し、
前記情報統合処理ステップは、
仮想的なユーザに対応する複数のターゲットデータを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して前記実空間に存在するユーザの位置情報を含む解析情報を生成するステップであり、
前記パーティクルに設定するターゲットデータの各々を前記イベント検出部から入力するイベント各々に対応付けて設定し、入力イベント識別子に応じて各パーティクルから選択されるイベント対応ターゲットデータの更新を行うことを特徴とする情報処理方法にある。
Ps(tID)=Ws(tID)/ΣWs(tID)
ただし、
Ws(tID)=(1−α)P(tID)Δt+αSΔt(tID)
αは重み係数、
上記式により、各ターゲットの発話者確率[Ps(tID)]を算出することを特徴とする。
Pp(tID)=Wp(tID)/ΣWp(tID)
ただし、
Wp(tID)=(P(tID)Δt)(1−α)×SΔt(tID)α
αは重み係数、
上記式により、各ターゲットの発話者確率[Pp(tID)]を算出することを特徴とする。
情報処理装置において、情報解析処理を実行させるコンピュータ・プログラムであり、
複数の情報入力部に、実空間における観測情報を入力させる情報入力ステップと、
イベント検出部に、前記情報入力部から入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成させるイベント検出ステップと、
情報統合処理部に、ユーザの位置および識別情報についての仮説(Hypothesis)の確率分布データを設定し、前記イベント情報に基づく仮説の更新および取捨選択により、前記実空間に存在するユーザの位置情報を含む解析情報を生成させる情報統合処理ステップと、
を有し、
前記情報統合処理ステップは、
仮想的なユーザに対応する複数のターゲットデータを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して前記実空間に存在するユーザの位置情報を含む解析情報を生成させるステップであり、
前記パーティクルに設定するターゲットデータの各々を前記イベント検出部から入力するイベント各々に対応付けて設定し、入力イベント識別子に応じて各パーティクルから選択されるイベント対応ターゲットデータの更新を行わせることを特徴とするコンピュータ・プログラムにある。
(a)画像に含まれる顔の口領域の動きに対応するスコア、
(b)画像に含まれる顔が笑顔か否かに応じて設定するスコア、
(c)画像に含まれる顔が男であるか女であるかに応じて設定するスコア、
(d)画像に含まれる顔が大人であるか子供であるかに応じて設定するスコア、
このような様々な顔属性スコアを算出する設定が可能である。
以下に説明する実施例では、
(a)画像に含まれる顔の口領域の動きに対応するスコアを顔属性スコアとして算出して利用する例について説明する。すなわち、顔の口領域の動きに対応するスコアを顔属性スコアとして算出し、この顔属性スコアに基づいて発話者の特定を行なう。
佐部 浩太郎,日台 健一,"ピクセル差分特徴を用いた実時間任意姿勢顔検出器の学習",第10回画像センシングシンポジウム講演論文集,pp.547−552,2004
特開2004−302644(P2004−302644A)[発明の名称:顔識別装置、顔識別方法、記録媒体、及びロボット装置]
(a)複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての[ターゲット情報]
(b)例えば話しをしたユーザなどのイベント発生源を[シグナル情報]として、処理決定部132に出力する。
(Va)顔の位置や方向に関する期待値と分散データN(me,σe)、
(Vb)顔画像の特徴情報に基づくユーザ識別情報、
(Vc)検出された顔の属性に対応するスコア、例えば口領域の動きに基づいて生成される顔属性スコア、
これらのデータを生成して音声・画像統合処理部131に入力し、
音声イベント検出部122が、
(Aa)音源方向に関する期待値と分散データN(me,σe)、
(Ab)声の特徴情報に基づくユーザ識別情報、
これらのデータを音声・画像統合処理部131に入力する。
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
(c)顔属性情報(顔属性スコア)
これら3種類に大別できる。
(a)ユーザ位置情報は、
画像イベント検出部112の生成する
(Va)顔の位置や方向に関する期待値と分散データN(me,σe)と、
音声イベント検出部122の生成する
(Aa)音源方向に関する期待値と分散データN(me,σe)、
これらの統合データである。
(b)ユーザ識別情報(顔識別情報または話者識別情報)は、
画像イベント検出部112の生成する
(Vb)顔画像の特徴情報に基づくユーザ識別情報と、
音声イベント検出部122の生成する
(Ab)声の特徴情報に基づくユーザ識別情報、
これらの統合データである。
画像イベント検出部112の生成する
(Vc)検出された顔の属性に対応するスコア、例えば口領域の動きに基づいて生成される顔属性スコア、
に対応する。
(b)ユーザ識別情報(顔識別情報または話者識別情報)
(c)顔属性情報(顔属性スコア)、
これらの3つの情報は、イベントの発生毎に生成される。音声イベント検出部122は、音声入力部(マイク)121a〜dから音声情報が入力された場合に、その音声情報に基づいて上記の(a)ユーザ位置情報、(b)ユーザ識別情報を生成して音声・画像統合処理部131に入力する。画像イベント検出部112は、例えば予め定めた一定のフレーム間隔で、画像入力部(カメラ)111から入力された画像情報に基づいて(a)ユーザ位置情報、(b)ユーザ識別情報、(c)顔属性情報(顔属性スコア)を生成して音声・画像統合処理部131に入力する。なお、本例では、画像入力部(カメラ)111は1台のカメラを設定した例を示しており、1つのカメラに複数のユーザの画像が撮影される設定であり、この場合、1つの画像に含まれる複数の顔の各々について(a)ユーザ位置情報、(b)ユーザ識別情報を生成して音声・画像統合処理部131に入力する。
(a)ユーザ位置情報
(b)ユーザ識別情報(話者識別情報)
これらの情報を生成する処理について説明する。
音声イベント検出部122は、音声入力部(マイク)121a〜dから入力された音声情報に基づいて解析された声を発したユーザ、すなわち[話者]の位置の推定情報を生成する。すなわち、話者が存在すると推定される位置を、期待値(平均)[me]と分散情報[σe]からなるガウス分布(正規分布)データN(me,σe)として生成する。
音声イベント検出部122は、音声入力部(マイク)121a〜dから入力された音声情報に基づいて話者が誰であるかを、入力音声と予め登録されたユーザ1〜kの声の特徴情報との比較処理により推定する。具体的には話者が各ユーザ1〜kである確率を算出する。この算出値を(b)ユーザ識別情報(話者識別情報)とする。例えば入力音声の特徴と最も近い登録された音声特徴を有するユーザに最も高いスコアを配分し、最も異なる特徴を持つユーザに最低のスコア(例えば0)を配分する処理によって各ユーザである確率を設定したデータを生成して、これを(b)ユーザ識別情報(話者識別情報)とする。
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報)
(c)顔属性情報(顔属性スコア)
これらの情報を生成する処理について説明する。
画像イベント検出部112は、画像入力部(カメラ)111から入力された画像情報に含まれる顔の各々について顔の位置の推定情報を生成する。すなわち、画像から検出された顔が存在すると推定される位置を、期待値(平均)[me]と分散情報[σe]からなるガウス分布(正規分布)データN(me,σe)として生成する。
画像イベント検出部112は、画像入力部(カメラ)111から入力された画像情報に基づいて、画像情報に含まれる顔を検出し、各顔が誰であるかを、入力画像情報と予め登録されたユーザ1〜kの顔の特徴情報との比較処理により推定する。具体的には抽出された各顔が各ユーザ1〜kである確率を算出する。この算出値を(b)ユーザ識別情報(顔識別情報)とする。例えば入力画像に含まれる顔の特徴と最も近い登録された顔の特徴を有するユーザに最も高いスコアを配分し、最も異なる特徴を持つユーザに最低のスコア(例えば0)を配分する処理によって各ユーザである確率を設定したデータを生成して、これを(b)ユーザ識別情報(顔識別情報)とする。
画像イベント検出部112は、画像入力部(カメラ)111から入力された画像情報に基づいて、画像情報に含まれる顔領域を検出し、検出された各顔の属性、具体的には先に説明したように顔の口領域の動き、笑顔か否か、男であるか女であるか、大人であるかこどもであるかなどの属性スコアを算出することが可能であるが、本処理例では、画像に含まれる顔の口領域の動きに対応するスコアを顔属性スコアとして算出して利用する例について説明する。
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報)
(c)顔属性情報(顔属性スコア)
これらの情報を生成して、音声・画像統合処理部131に入力する。
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報)
(c)顔属性情報(顔属性スコア)
これらの情報を生成して、音声・画像統合処理部131に入力する。
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
(c)顔属性情報(顔属性スコア)
これらの情報を逐次入力する。なお、これらの各情報の入力タイミングは様々な設定が可能であるが、例えば、音声イベント検出部122は新たな音声が入力された場合に上記(a),(b)の各情報を音声イベント情報として生成して入力し、画像イベント検出部112は、一定のフレーム周期単位で、上記(a),(b),(c)の各情報を音声イベント情報として生成して入力するといった設定が可能である。
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
(c)顔属性情報(顔属性スコア)
これらの入力情報に基づいて、より確からしいパーティクルの重み(ウェイト)を高めていくという処理を行う。
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
(c)顔属性情報(顔属性スコア)
これらの入力情報に基づいて、複数のユーザの位置と複数のユーザがそれぞれ誰であるかを判別する処理を行うことになる。従って、パーティクル・フィルタ(Particle Filter)を適用した処理では、音声・画像統合処理部131が、ユーザの位置と誰であるかの仮説に対応するパーティクルを多数設定して、音声イベント検出部122および画像イベント検出部112から、図3(B)に示す2つの情報に基づいて、パーティクル更新を行うことになる。
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
(c)顔属性情報(顔属性スコア)
これらを入力して実行するパーティクル更新処理例について図5を参照して説明する。
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
(c)顔属性情報(顔属性スコア[SeID])
これらのイベント情報を入力してm個のパーティクル(PID=1〜m)の更新処理を行う。
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
(c)顔属性情報(顔属性スコア)
これらを生成して音声・画像統合処理部131に入力する。すなわち、図5に示すイベント対応情報361,362である。
図5に示す例では、
(1)パーティクル1(pID=1)は、
[イベントID=1(eID=1)]の対応ターゲット=[ターゲットID=1(tID=1)]、
[イベントID=2(eID=2)]の対応ターゲット=[ターゲットID=2(tID=2)]、
(2)パーティクル2(pID=2)は、
[イベントID=1(eID=1)]の対応ターゲット=[ターゲットID=1(tID=1)]、
[イベントID=2(eID=2)]の対応ターゲット=[ターゲットID=2(tID=2)]、
:
(m)パーティクルm(pID=m)は、
[イベントID=1(eID=1)]の対応ターゲット=[ターゲットID=2(tID=2)]、
[イベントID=2(eID=2)]の対応ターゲット=[ターゲットID=1(tID=1)]、
(a)各ターゲット各々に対応する存在位置の確率分布[ガウス分布:N(m1n,σ1n)]、
(b)各ターゲットが誰であるかを示すユーザ確信度情報(uID)
uID1n1=0.0
uID1n2=0.1
:
uID1nk=0.5
これらのデータによって構成される。
また、(b)に示すユーザ確信度情報(uID)における、[uID1n1]に含まれる(1n1)は、パーティクルID:pID=1におけるターゲットID:tID=nの、ユーザ=ユーザ1である確率を意味する。すなわちターゲットID=nのデータは、
ユーザ1である確率が0.0、
ユーザ2である確率が0.1、
:
ユーザkである確率が0.5、
であることを意味している。
(a)各ターゲット各々に対応する存在位置の確率分布[ガウス分布:N(m,σ)]、
(b)各ターゲットが誰であるかを示すユーザ確信度情報(uID)
これらのターゲットデータを有する。
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
(c)顔属性情報(顔属性スコア[SeID])
これらのイベント情報(eID=1,2・・・)を入力し、各パーティクルにおいて予め設定されたイベント対応のターゲットの更新を実行する。
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
これらのデータである。
PeID=x(tID=y)
として示す。例えば、図5に示すようにm個のパーティクル(pID=1〜m)が設定され、各パーティクルに2つのターゲット(tID=1,2)が設定されている場合、
第1ターゲット(tID=1)が第1イベント(eID=1)の発生源である確率は、
PeID=1(tID=1)
第2ターゲット(tID=2)が第1イベント(eID=1)の発生源である確率は、
PeID=1(tID=2)
である。
また、
第1ターゲット(tID=1)が第2イベント(eID=2)の発生源である確率は、
PeID=2(tID=1)
第2ターゲット(tID=2)が第2イベント(eID=2)の発生源である確率は、
PeID=2(tID=2)
である。
PeID=x(tID=y)
であり、これは、音声・画像統合処理部131に設定されたパーティクル数:mと、各イベントに対するターゲットの割り当て数との比に相当し、図5に示す例では、
PeID=1(tID=1)=[第1イベント(eID=1)にtID=1を割り当てたパーティクル数)/(m)]
PeID=1(tID=2)=[第1イベント(eID=1)にtID=2を割り当てたパーティクル数)/(m)]
PeID=2(tID=1)=[第2イベント(eID=2)にtID=1を割り当てたパーティクル数)/(m)]
PeID=2(tID=2)=[第2イベント(eID=2)にtID=2を割り当てたパーティクル数)/(m)]
このような対応関係となる。
このデータがイベント発生源を示す[シグナル情報]として最終的に利用される。
PeID=x(tID=y)
このデータは、ターゲット情報に含まれる顔属性情報の算出にも適用される。すなわち、
顔属性情報StID=1〜nの算出の際に利用される。顔属性情報StID=xは、ターゲットID=xのターゲットの最終的な顔属性の期待値、すなわち、発話者である可能性を示す値に相当する。
(a)複数のユーザが、それぞれどこにいるかを示す位置推定情報と、誰であるかの推定情報(uID推定情報)、さらに、顔属性情報(StID)の期待値、例えば口を動かして話しをしていることを示す顔属性期待値を含む[ターゲット情報]、
(b)例えば話をしたユーザなどのイベント発生源を示す[シグナル情報]、
これらを生成して処理決定部132に出力する。
(a)存在位置
(b)誰であるか(uID1〜uIDkのいずれであるか)
(c)顔属性の期待値(本処理例では発話者である期待値(確率))
これらを示す情報である。
PeID=x(tID=y)
と、各イベントに対応する顔属性スコアSeID=iに基づいて算出される。iはイベントIDである。
例えばターゲットID=1の顔属性の期待値:StID=1は、以下の式で算出される。
StID=1=ΣeIDPeID=i(tID=1)×SeID=i
一般化して示すと、
ターゲットの顔属性の期待値:StIDは、以下の式で算出される。
StID=ΣeIDPeID=i(tID)×SeID
・・・(式1)
として示される。
ターゲットID=1の顔属性の期待値:StID=1は、
StID=1=ΣeIDPeID=i(tID=1)×SeID=i
ターゲットID=2の顔属性の期待値:StID=2は、
StID=2=ΣeIDPeID=i(tID=2)×SeID=i
このように示される。
これら各ターゲットの顔属性の期待値:StIDの全ターゲットの総和は[1]になる。本処理例では、各ターゲットについて1〜0の顔属性の期待値:StIDが設定され、期待値が高いターゲットは発話者である確率が高いと判定される。
StID=ΣeIDPeID=i(tID)×SeID
・・・(式1)
上記式の各ターゲットについての期待値総和も[1]にならず、精度の高い期待値が計算できない。
StID=ΣeIDPeID(tID)×SeID+(1−ΣeIDPeID(tID))×Sprior
・・・(式2)
StID=1=ΣeIDPeID=i(tID=1)×SeID=i+(1−ΣeIDPeID(tID=1)×Sprior
ターゲットID=2の顔属性の期待値:StID=2は、
StID=2=ΣeIDPeID=i(tID=2)×SeID=i+(1−ΣeIDPeID(tID=2)×Sprior
ターゲットID=3の顔属性の期待値:StID=3は、
StID=3=ΣeIDPeID=i(tID=3)×SeID=i+(1−ΣeIDPeID(tID=3)×Sprior
このように計算される。
(a)存在位置
(b)誰であるか(uID1〜uIDkのいずれであるか)
(c)顔属性期待値(本処理例では発話者である期待値(確率))
の各情報を示す。従って、各ターゲット(tID=1〜n)のk個のターゲット情報の各々は、ユーザが移動しない場合は、ユーザ1〜kに対応するように収束する。
(a)複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての[ターゲット情報]、
(b)例えば話をしたユーザなどのイベント発生源を示す[シグナル情報]、
これらを生成して処理決定部132に出力する。
(a)複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての[ターゲット情報]、
(b)例えば話をしたユーザなどのイベント発生源を示す[シグナル情報]、
これらの情報を生成して処理決定部132に出力する処理シーケンスについて、図10に示すフローチャートを参照して説明する。
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
(c)顔属性情報(顔属性スコア)
これらのイベント情報を入力する。
(a)ユーザ位置情報についてのイベントと、ターゲットデータとの類似度データとしてのガウス分布間尤度[DL]、
(b)ユーザ識別情報(顔識別情報または話者識別情報)についてのイベントと、ターゲットデータとの類似度データとしてのユーザ確信度情報(uID)間尤度[UL]
これらを個別に算出する例を示している。
入力イベント情報中の、ユーザ位置情報に対応するガウス分布をN(me,σe)、
パーティクルから選択された仮説ターゲットのユーザ位置情報に対応するガウス分布をN(mt,σt)、
として、ガウス分布間尤度[DL]を、以下の式によって算出する。
DL=N(mt,σt+σe)x|me
上記式は、中心mtで分散σt+σeのガウス分布においてx=meの位置の値を算出する式である。
入力イベント情報中の、ユーザ確信度情報(uID)の各ユーザ1〜kの確信度の値(スコア)をPe[i]とする。なお、iはユーザ識別子1〜kに対応する変数である。
パーティクルから選択された仮説ターゲットのユーザ確信度情報(uID)の各ユーザ1〜kの確信度の値(スコア)をPt[i]として、ユーザ確信度情報(uID)間尤度[UL]は、以下の式によって算出する。
UL=ΣPe[i]×Pt[i]
上記式は、2つのデータのユーザ確信度情報(uID)に含まれる各対応ユーザの確信度の値(スコア)の積の総和を求める式であり、この値をユーザ確信度情報(uID)間尤度[UL]とする。
ガウス分布間尤度[DL]と、
ユーザ確信度情報(uID)間尤度[UL]
これら2つの尤度を利用し、重みα(α=0〜1)を用いて下式によって算出する。
パーティクル重み[WpID]=ΣnULα×DL1−α
nは、パーティクルに含まれるイベント対応ターゲットの数である。
上記式により、パーティクル重み[WpID]を算出する。
ただし、α=0〜1とする。
このパーティクル重み[WpID]は、各パーティクルについて各々算出する。
パーティクル1:パーティクル重み[WpID]=0.40
パーティクル2:パーティクル重み[WpID]=0.10
パーティクル3:パーティクル重み[WpID]=0.25
パーティクル4:パーティクル重み[WpID]=0.05
パーティクル5:パーティクル重み[WpID]=0.20
これらのパーティクル重みが各々設定されていた場合、
パーティクル1は、40%の確率でリサンプリングされ、パーティクル2は10%の確率でリサンプリングされる。なお、実際にはm=100〜1000といった多数であり、リサンプリングされた結果は、パーティクルの重みに応じた配分比率のパーティクルによって構成されることになる。
(a)ユーザ位置:各ターゲット各々に対応する存在位置の確率分布[ガウス分布:N(mt,σt)]、
(b)ユーザ確信度:各ターゲットが誰であるかを示すユーザ確信度情報(uID)として各ユーザ1〜kである確立値(スコア):Pt[i](i=1〜k)、すなわち、
uIDt1=Pt[1]
uIDt2=Pt[2]
:
uIDtk=Pt[k]
さらに、
(c)顔属性の期待値(本処理例では発話者である期待値(確率))
これらのデータによって構成される。
PeID=x(tID=y)
と、各イベントに対応する顔属性スコアSeID=iに基づいて算出される。iはイベントIDである。
例えばターゲットID=1の顔属性の期待値:StID=1は、以下の式で算出される。
StID=1=ΣeIDPeID=i(tID=1)×SeID=i
一般化して示すと、
ターゲットの顔属性の期待値:StIDは、以下の式で算出される。
StID=ΣeIDPeID=i(tID)×SeID
・・・(式1)
として示される。
StID=ΣeIDPeID(tID)×SeID+(1−ΣeIDPeID(tID))×Sprior
・・・(式2)
(a1)全パーティクルの全ターゲットを対象とする更新処理、
(a2)各パーティクルに設定されたイベント発生源仮説ターゲットを対象とした更新処理、
これらの2段階の更新処理として実行する。
mt=mt+xc×dt
σt 2=σt 2+σc2×dt
なお、
mt:予測期待値(predicted state)
σt 2:予測共分散(predicted estimate covariance)
xc:移動情報(control model)
σc2:ノイズ(process noise)
である。
なお、ユーザが移動しない条件の下で処理する場合は、xc=0として更新処理を行うことができる。
上記の算出処理により、全ターゲットに含まれるユーザ位置情報としてのガウス分布:N(mt,σt)を更新する。
次に、各パーティクルに設定されたイベント発生源仮説ターゲットを対象とした更新処理について説明する。
ステップS103において設定したイベントの発生源の仮説に従って選択されたターゲットを更新する。先に図5を参照して説明したように、パーティクル1〜mの各々に含まれるターゲット1〜nの各々は、イベント(eID=1〜k)の各々に対応付けられたターゲットとして設定されている。
例えば、
K:カルマンゲイン(Kalman Gain)
me:入力イベント情報:N(me,σe)に含まれる観測値(Observed state)
σe 2:入力イベント情報:N(me,σe)に含まれる観測値(Observed covariance)
として、以下の更新処理を行う。
K=σt 2/(σt 2+σe 2)
mt=mt+K(xc−mt)
σt 2=(1−K)σt 2
Pt[i]=(1−β)×Pt[i]+β*Pe[i]
ただし、
i=1〜k
β:0〜1
である。なお、更新率[β]は、0〜1の範囲の値であり予め設定する。
(a)ユーザ位置:各ターゲット各々に対応する存在位置の確率分布[ガウス分布:N(mt,σt)]、
(b)ユーザ確信度:各ターゲットが誰であるかを示すユーザ確信度情報(uID)として各ユーザ1〜kである確立値(スコア):Pt[i](i=1〜k)、すなわち、
uIDt1=Pt[1]
uIDt2=Pt[2]
:
uIDtk=Pt[k]
(c)顔属性の期待値(本処理例では発話者である期待値(確率))
これらのデータによって構成される。
これらのデータと、各パーティクル重み[WpID]とに基づいて、ターゲット情報を生成して、処理決定部132に出力する。
(a)ユーザ位置情報、
(b)ユーザ確信度情報、
(c)顔属性の期待値(本処理例では発話者である期待値(確率))
これらの情報を含む情報として生成される。
StID=1=ΣeIDPeID=i(tID=1)×SeID=i
上記式、または、
StID=1=ΣeIDPeID=i(tID=1)×SeID=i+(1−ΣeIDPeID(tID=1)×Sprior
で表される。
PeID=x(tID=y)
として示され、これは、音声・画像統合処理部131に設定されたパーティクル数:mと、各イベントに対するターゲットの割り当て数との比に相当する。例えば、図5に示す例では、
PeID=1(tID=1)=[第1イベント(eID=1)にtID=1を割り当てたパーティクル数)/(m)]
PeID=1(tID=2)=[第1イベント(eID=1)にtID=2を割り当てたパーティクル数)/(m)]
PeID=2(tID=1)=[第2イベント(eID=2)にtID=1を割り当てたパーティクル数)/(m)]
PeID=2(tID=2)=[第2イベント(eID=2)にtID=2を割り当てたパーティクル数)/(m)]
このような対応関係となる。
このデータがイベント発生源を示す[シグナル情報]として、処理決定部132に出力される。
mt=mt+xc×dt
σt 2=σt 2+σc2×dt
なお、
mt:予測期待値(predicted state)
σt 2:予測共分散(predicted estimate covariance)
xc:移動情報(control model)
σc2:ノイズ(process noise)
である。
なお、ユーザが移動しない条件の下で処理する場合は、xc=0として更新処理を行うことができる。
上記の算出処理により、全ターゲットに含まれるユーザ位置情報としてのガウス分布:N(mt,σt)を更新する。
(a)複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての[ターゲット情報]、
(b)例えば話をしたユーザなどのイベント発生源を示す[シグナル情報]、
これらが生成されて処理決定部132に出力される。
上述した実施例において、音声・画像統合処理部131では、画像イベント検出部112が処理する画像フレーム毎に各パーティクルのイベント対応ターゲットの顔属性スコア[S(tID)]を逐次更新する。なお、この顔属性値[S(tID)]の値は必要に応じて正規化しながら更新する。顔属性スコア[S(tID)]は本処理例では口の動きに応じたスコアであり、VSD(Visual Speech Detection)を適用して算出されたスコアである。
Δt=t_end〜t_begin
この時刻間Δtに音声イベントが入力され、音声イベントの音源方向情報、話者識別情報が得られたとする。音声イベントの音源方向情報、話者識別情報から得られるユーザ位置情報と、ユーザ識別情報のみから得られるターゲットtIDの発話源確率をP(tID)とする。
時刻tにおけるターゲットtIDの顔属性スコア[S(tID)]をS(tID)tとし、図12右上段の[観測値z]に示すように、音声イベントの区間を[t_begin,〜t_end]とし、図12中段に示すm個のイベント対応ターゲット(tID=1,2,・・・m)の顔属性スコア[S(tID)]のスコア値を、音声イベントの入力期間[t_begin,〜t_end]並べた時系列データを図12の下段に示す顔属性スコア時系列データ511,512,・・・51mとする。これらの時系列データの顔属性スコア[S(tID)]の面積をSΔt(tID)とする。
(b)顔属性スコア[S(tID)]の面積であるSΔt(tID)
これら2つの値を統合するために、
まずP(tID)はΔtを乗じて、
P(tID)×Δt
を算出し、
SΔt(tID)は次式で正規化を行う。
SΔt(tID)<=SΔt(tID)/ΣtIDSΔt(tID)
・・・(式3)
P(tID)×Δt
SΔt(tID)
を示している。
(a)音声イベントの音源方向情報、話者識別情報から得られるユーザ位置情報と、ユーザ識別情報のみから得られるターゲットtIDの発話源確率P(tID)と、
(b)顔属性スコア[S(tID)]の面積であるSΔt(tID)
これらの(a),(b)の配分重み係数としてのαを用いて重みを考慮した加算または乗算によって、各ターゲット(tID=1〜m)の発話者確率Ps(tID)またはPp(tID)を算出する。
Ps(tID)=Ws(tID)/ΣWs(tID)・・・(式4)
ただし、Ws(tID)=(1−α)P(tID)Δt+αSΔt(tID)
Pp(tID)=Wp(tID)/ΣWp(tID)・・・(式5)
ただし、Wp(tID)=(P(tID)Δt)(1−α)×SΔt(tID)α
これらの式のいずれかを適用することで、各ターゲットがイベント発生源である確率推定の性能が向上する。すなわち、音声イベントの音源方向情報、話者識別情報から得られるユーザ位置情報と、ユーザ識別情報のみから得られるターゲットtIDの発話源確率[P(tID)]と、各パーティクルのイベント対応ターゲットの顔属性値[S(tID)]を統合して発話源の推定を行なうことで、発話者の特定処理としてのダイアリゼーションの性能を向上させることが可能となる。
21 カメラ
31〜34 マイク
100 情報処理装置
111 画像入力部
112 画像イベント検出部
121 音声入力部
122 音声イベント検出部
131 音声・画像統合処理部
132 処理決定部
201〜20k ユーザ
301 ユーザ
302 画像データ
350 画像フレーム
351 第1顔画像
352 第2顔画像
361,362 イベント情報
371,372 イベント発生源仮設データ
375 ターゲットデータ
380 ターゲット情報
390 ターゲット情報
395 第3顔画像
401 イベント情報
421 パーティクル
511〜51m 顔属性スコア時系列データ
Claims (31)
- 実空間の観測情報を入力する複数の情報入力部と、
前記情報入力部から入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成するイベント検出部と、
ユーザの位置および識別情報についての仮説(Hypothesis)の確率分布データを設定し、前記イベント情報に基づく仮説の更新および取捨選択により、前記実空間に存在するユーザの位置情報を含む解析情報を生成する情報統合処理部と、
を有し、
前記情報統合処理部は、
仮想的なユーザに対応する複数のターゲットデータを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して前記実空間に存在するユーザの位置情報を含む解析情報を生成する構成であり、
前記パーティクルに設定するターゲットデータの各々を前記イベント検出部から入力するイベント各々に対応付けて設定し、入力イベント識別子に応じて各パーティクルから選択されるイベント対応ターゲットデータの更新を行う構成を有することを特徴とする情報処理装置。 - 前記情報統合処理部は、
前記イベント検出部において検出された顔画像単位のイベント各々にターゲットを対応付けて処理を行なう構成を有することを特徴とする請求項1に記載の情報処理装置。 - 前記情報統合処理部は、
前記パーティクルフィルタリング処理を実行して前記実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報を生成する構成であることを特徴とする請求項1に記載の情報処理装置。 - 前記イベント検出部は、
画像情報入力部から入力する画像フレームから顔領域を検出し、検出した顔領域から顔属性情報を抽出して抽出した顔属性情報に対応する顔属性スコアを算出して前記情報統合処理部に出力する構成であり、
前記情報統合処理部は、
前記イベント検出部から入力する顔属性スコアを適用して、前記ターゲット各々に対応する顔属性期待値を算出することを特徴とする請求項1に記載の情報処理装置。 - 前記イベント検出部の検出する顔属性スコアは、顔領域の口の動き検出に基づいて生成されるスコアであり、
前記情報統合処理部の生成する顔属性期待値は、ターゲットが発話者である確率値に対応する値であることを特徴とする請求項4に記載の情報処理装置。 - 前記イベント検出部は、
VSD(Visual Speech Detection)を適用した処理により顔領域の口の動き検出を実行することを特徴とする請求項5に記載の情報処理装置。 - 前記情報統合処理部は、
前記イベント検出部から入力するイベント情報に顔属性スコアが含まれない場合、予め設定された事前知識の値[Sprior]を用いることを特徴とする請求項4に記載の情報処理装置。 - 前記情報統合処理部は、
前記イベント検出部の検出情報から得られる音声入力期間中のユーザ位置情報とユーザ識別情報から算出するターゲットの発話源確率P(tID)と前記顔属性スコアの値を適用して、各ターゲットの発話者確率を算出する構成であることを特徴とする請求項4に記載の情報処理装置。 - 前記情報統合処理部は、
音声入力期間をΔtとしたとき、
前記発話源確率P[(tID)]と、顔属性スコア[S(tID)]を適用した重み付け加算により各ターゲットの発話者確率[Ps(tID)]を算出する構成であり、下式、
Ps(tID)=Ws(tID)/ΣWs(tID)
ただし、
Ws(tID)=(1−α)P(tID)Δt+αSΔt(tID)
αは重み係数、
上記式により、各ターゲットの発話者確率[Ps(tID)]を算出する構成であることを特徴とする請求項8に記載の情報処理装置。 - 前記情報統合処理部は、
音声入力期間をΔtとしたとき、
前記発話源確率P[(tID)]と、顔属性スコア[S(tID)]を適用した重み付け乗算により各ターゲットの発話者確率[Pp(tID)]を算出する構成であり、下式、
Pp(tID)=Wp(tID)/ΣWp(tID)
ただし、
Wp(tID)=(P(tID)Δt)(1−α)×SΔt(tID)α
αは重み係数、
上記式により、各ターゲットの発話者確率[Pp(tID)]を算出する構成であることを特徴とする請求項8に記載の情報処理装置。 - 前記イベント検出部は、
ガウス分布からなるユーザの推定位置情報と、ユーザ対応の確率値を示すユーザ確信度情報を含むイベント情報を生成する構成であり、
前記情報統合処理部は、
仮想的なユーザに対応するガウス分布からなるユーザ位置情報と、ユーザ対応の確率値を示すユーザの確信度情報を有するターゲットを複数設定したパーティクルを保持した構成であることを特徴とする請求項1に記載の情報処理装置。 - 前記情報統合処理部は、
各パーティクルに設定したイベント発生源仮説ターゲットと、前記イベント検出部から入力するイベント情報との尤度を算出し、該尤度の大小に応じた値をパーティクル重みとして各パーティクルに設定する構成であることを特徴とする請求項1に記載の情報処理装置。 - 前記情報統合処理部は、
前記パーティクル重みの大きいパーティクルを優先的に再選択するリサンプリング処理を実行して、パーティクルの更新処理を行う構成であることを特徴とする請求項1に記載の情報処理装置。 - 前記情報統合処理部は、
各パーティクルに設定したターゲットについて、経過時間を考慮した更新処理を実行する構成であることを特徴とする請求項1に記載の情報処理装置。 - 前記情報統合処理部は、
前記パーティクルの各々に設定したイベント発生源仮説ターゲットの数に応じて、イベント発生源の確率値としてのシグナル情報の生成を行う構成であることを特徴とする請求項1に記載の情報処理装置。 - 情報処理装置において、情報解析処理を実行する情報処理方法であり、
複数の情報入力部が、実空間における観測情報を入力する情報入力ステップと、
イベント検出部が、前記情報入力部から入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成するイベント検出ステップと、
情報統合処理部が、ユーザの位置および識別情報についての仮説(Hypothesis)の確率分布データを設定し、前記イベント情報に基づく仮説の更新および取捨選択により、前記実空間に存在するユーザの位置情報を含む解析情報を生成する情報統合処理ステップと、
を有し、
前記情報統合処理ステップは、
仮想的なユーザに対応する複数のターゲットデータを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して前記実空間に存在するユーザの位置情報を含む解析情報を生成するステップであり、
前記パーティクルに設定するターゲットデータの各々を前記イベント検出部から入力するイベント各々に対応付けて設定し、入力イベント識別子に応じて各パーティクルから選択されるイベント対応ターゲットデータの更新を行うことを特徴とする情報処理方法。 - 前記情報統合処理ステップは、
前記イベント検出部において検出された顔画像単位のイベント各々にターゲットを対応付けて処理を行なうことを特徴とする請求項16に記載の情報処理方法。 - 前記情報統合処理ステップは、
前記パーティクルフィルタリング処理を実行して前記実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報を生成するステップであることを特徴とする請求項16に記載の情報処理方法。 - 前記イベント検出ステップは、
画像情報入力部から入力する画像フレームから顔領域を検出し、検出した顔領域から顔属性情報を抽出して抽出した顔属性情報に対応する顔属性スコアを算出して前記情報統合処理部に出力するステップを含み、
前記情報統合処理ステップは、
前記イベント検出部から入力する顔属性スコアを適用して、前記ターゲット各々に対応する顔属性期待値を算出することを特徴とする請求項16に記載の情報処理方法。 - 前記イベント検出部の検出する顔属性スコアは、顔領域の口の動き検出に基づいて生成されるスコアであり、
前記情報統合処理ステップにおいて生成する顔属性期待値は、ターゲットが発話者である確率値に対応する値であることを特徴とする請求項19に記載の情報処理方法。 - 前記イベント検出ステップは、
VSD(Visual Speech Detection)を適用した処理により顔領域の口の動き検出を実行することを特徴とする請求項20に記載の情報処理方法。 - 前記情報統合処理ステップは、
前記イベント検出部から入力するイベント情報に顔属性スコアが含まれない場合、予め設定された事前知識の値[Sprior]を用いることを特徴とする請求項19に記載の情報処理方法。 - 前記情報統合処理ステップは、
前記イベント検出部の検出情報から得られる音声入力期間中のユーザ位置情報とユーザ識別情報から算出するターゲットの発話源確率P(tID)と前記顔属性スコアの値を適用して、各ターゲットの発話者確率を算出する構成であることを特徴とする請求項19に記載の情報処理方法。 - 前記情報統合処理ステップは、
音声入力期間をΔtとしたとき、
前記発話源確率P[(tID)]と、顔属性スコア[S(tID)]を適用した重み付け加算により各ターゲットの発話者確率[Ps(tID)]を算出するステップであり、下式、
Ps(tID)=Ws(tID)/ΣWs(tID)
ただし、
Ws(tID)=(1−α)P(tID)Δt+αSΔt(tID)
αは重み係数、
上記式により、各ターゲットの発話者確率[Ps(tID)]を算出することを特徴とする請求項23に記載の情報処理方法。 - 前記情報統合処理ステップは、
音声入力期間をΔtとしたとき、
前記発話源確率P[(tID)]と、顔属性スコア[S(tID)]を適用した重み付け乗算により各ターゲットの発話者確率[Pp(tID)]を算出するステップであり、下式、
Pp(tID)=Wp(tID)/ΣWp(tID)
ただし、
Wp(tID)=(P(tID)Δt)(1−α)×SΔt(tID)α
αは重み係数、
上記式により、各ターゲットの発話者確率[Pp(tID)]を算出することを特徴とする請求項23に記載の情報処理方法。 - 前記イベント検出ステップは、
ガウス分布からなるユーザの推定位置情報と、ユーザ対応の確率値を示すユーザ確信度情報を含むイベント情報を生成するステップであり、
前記情報統合処理ステップは、
仮想的なユーザに対応するガウス分布からなるユーザ位置情報と、ユーザ対応の確率値を示すユーザの確信度情報を有するターゲットを複数設定したパーティクルにおけるターゲット更新を実行することを特徴とする請求項16に記載の情報処理方法。 - 前記情報統合処理ステップは、
各パーティクルに設定したイベント発生源仮説ターゲットと、前記イベント検出部から入力するイベント情報との尤度を算出し、該尤度の大小に応じた値をパーティクル重みとして各パーティクルに設定することを特徴とする請求項16に記載の情報処理方法。 - 前記情報統合処理ステップは、
前記パーティクル重みの大きいパーティクルを優先的に再選択するリサンプリング処理を実行して、パーティクルの更新処理を行うことを特徴とする請求項16に記載の情報処理方法。 - 前記情報統合処理ステップは、
各パーティクルに設定したターゲットについて、経過時間を考慮した更新処理を実行することを特徴とする請求項17に記載の情報処理方法。 - 前記情報統合処理ステップは、
前記パーティクルの各々に設定したイベント発生源仮説ターゲットの数に応じて、イベント発生源の確率値としてのシグナル情報の生成を行うことを特徴とする請求項16に記載の情報処理方法。 - 情報処理装置において、情報解析処理を実行させるコンピュータ・プログラムであり、
複数の情報入力部に、実空間における観測情報を入力させる情報入力ステップと、
イベント検出部に、前記情報入力部から入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成させるイベント検出ステップと、
情報統合処理部に、ユーザの位置および識別情報についての仮説(Hypothesis)の確率分布データを設定し、前記イベント情報に基づく仮説の更新および取捨選択により、前記実空間に存在するユーザの位置情報を含む解析情報を生成させる情報統合処理ステップと、
を有し、
前記情報統合処理ステップは、
仮想的なユーザに対応する複数のターゲットデータを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して前記実空間に存在するユーザの位置情報を含む解析情報を生成させるステップであり、
前記パーティクルに設定するターゲットデータの各々を前記イベント検出部から入力するイベント各々に対応付けて設定し、入力イベント識別子に応じて各パーティクルから選択されるイベント対応ターゲットデータの更新を行わせることを特徴とするコンピュータ・プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007317711A JP4462339B2 (ja) | 2007-12-07 | 2007-12-07 | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
CN200810182768XA CN101452529B (zh) | 2007-12-07 | 2008-12-04 | 信息处理设备和信息处理方法 |
US12/329,165 US20090147995A1 (en) | 2007-12-07 | 2008-12-05 | Information processing apparatus and information processing method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007317711A JP4462339B2 (ja) | 2007-12-07 | 2007-12-07 | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009140366A true JP2009140366A (ja) | 2009-06-25 |
JP4462339B2 JP4462339B2 (ja) | 2010-05-12 |
Family
ID=40721715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007317711A Expired - Fee Related JP4462339B2 (ja) | 2007-12-07 | 2007-12-07 | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20090147995A1 (ja) |
JP (1) | JP4462339B2 (ja) |
CN (1) | CN101452529B (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013519135A (ja) * | 2010-01-25 | 2013-05-23 | マイクロソフト コーポレーション | 音声−体識別の相関 |
US9002707B2 (en) | 2011-11-11 | 2015-04-07 | Sony Corporation | Determining the position of the source of an utterance |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010177894A (ja) * | 2009-01-28 | 2010-08-12 | Sony Corp | 撮像装置、画像管理装置及び画像管理方法、並びにコンピューター・プログラム |
JP5477376B2 (ja) * | 2009-03-30 | 2014-04-23 | 富士通株式会社 | 情報管理装置および情報管理プログラム |
EP2499029B1 (en) | 2009-11-10 | 2014-01-08 | Toyoda Gosei Co., Ltd. | Wrap-around airbag device |
US8554562B2 (en) | 2009-11-15 | 2013-10-08 | Nuance Communications, Inc. | Method and system for speaker diarization |
JP2011186351A (ja) * | 2010-03-11 | 2011-09-22 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
US9782672B2 (en) | 2014-09-12 | 2017-10-10 | Voyetra Turtle Beach, Inc. | Gaming headset with enhanced off-screen awareness |
DE102015206566A1 (de) * | 2015-04-13 | 2016-10-13 | BSH Hausgeräte GmbH | Haushaltsgerät und Verfahren zum Betreiben eines Haushaltsgeräts |
US10134422B2 (en) * | 2015-12-01 | 2018-11-20 | Qualcomm Incorporated | Determining audio event based on location information |
GR1008860B (el) * | 2015-12-29 | 2016-09-27 | Κωνσταντινος Δημητριου Σπυροπουλος | Συστημα διαχωρισμου ομιλητων απο οπτικοακουστικα δεδομενα |
US10079024B1 (en) * | 2016-08-19 | 2018-09-18 | Amazon Technologies, Inc. | Detecting replay attacks in voice-based authentication |
JP2018055607A (ja) * | 2016-09-30 | 2018-04-05 | 富士通株式会社 | イベント検知プログラム、イベント検知装置、及びイベント検知方法 |
JP7067485B2 (ja) * | 2016-12-22 | 2022-05-16 | 日本電気株式会社 | 情報処理システム、顧客特定装置、情報処理方法及びプログラム |
WO2019051814A1 (zh) * | 2017-09-15 | 2019-03-21 | 达闼科技(北京)有限公司 | 一种目标识别方法、装置和智能终端 |
CN108960191B (zh) * | 2018-07-23 | 2021-12-14 | 厦门大学 | 一种面向机器人的多模态融合情感计算方法及系统 |
WO2020022055A1 (ja) * | 2018-07-24 | 2020-01-30 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
CN109389040B (zh) * | 2018-09-07 | 2022-05-10 | 广东珺桦能源科技有限公司 | 一种作业现场人员安全着装的检查方法及装置 |
JP2020089947A (ja) * | 2018-12-06 | 2020-06-11 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
BR112022001300A2 (pt) * | 2019-08-02 | 2022-03-22 | Nec Corp | Dispositivo de processamento de fala, método de processamento de fala, e mídia de gravação |
CN110475093A (zh) * | 2019-08-16 | 2019-11-19 | 北京云中融信网络科技有限公司 | 一种活动调度方法、装置及存储介质 |
CN111048113B (zh) * | 2019-12-18 | 2023-07-28 | 腾讯科技(深圳)有限公司 | 声音方向定位处理方法、装置、系统、计算机设备及存储介质 |
CN111290724B (zh) * | 2020-02-07 | 2021-07-30 | 腾讯科技(深圳)有限公司 | 在线虚拟解说方法、设备和介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08187368A (ja) * | 1994-05-13 | 1996-07-23 | Matsushita Electric Ind Co Ltd | ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置 |
JPH1124694A (ja) * | 1997-07-04 | 1999-01-29 | Sanyo Electric Co Ltd | 命令認識装置 |
JP2000347962A (ja) * | 1999-06-02 | 2000-12-15 | Nec Commun Syst Ltd | ネットワーク分散管理システム及びネットワーク分散管理方法 |
JP2002264051A (ja) * | 2001-03-09 | 2002-09-18 | Japan Science & Technology Corp | ロボット視聴覚システム |
JP2003189273A (ja) * | 2001-12-20 | 2003-07-04 | Sharp Corp | 発言者識別装置及び該発言者識別装置を備えたテレビ会議システム |
EP1330128A2 (en) * | 2001-12-03 | 2003-07-23 | Microsoft Corporation | Automatic detection and tracking of multiple individuals' faces using multiple cues |
JP2005141687A (ja) * | 2003-11-10 | 2005-06-02 | Nippon Telegr & Teleph Corp <Ntt> | 物体追跡方法、物体追跡装置、物体追跡システム、プログラム、および、記録媒体 |
JP2005271137A (ja) * | 2004-03-24 | 2005-10-06 | Sony Corp | ロボット装置及びその制御方法 |
JP2006139681A (ja) * | 2004-11-15 | 2006-06-01 | Matsushita Electric Ind Co Ltd | オブジェクト検出装置 |
JP2006263348A (ja) * | 2005-03-25 | 2006-10-05 | Toshiba Corp | 利用者識別装置、利用者識別方法および利用者識別プログラム |
WO2007129731A1 (ja) * | 2006-05-10 | 2007-11-15 | Honda Motor Co., Ltd. | 音源追跡システム、方法、およびロボット |
US20090030865A1 (en) * | 2007-07-25 | 2009-01-29 | Tsutomu Sawada | Information processing apparatus, information processing method, and computer program |
JP2009042910A (ja) * | 2007-08-07 | 2009-02-26 | Sony Corp | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6471420B1 (en) * | 1994-05-13 | 2002-10-29 | Matsushita Electric Industrial Co., Ltd. | Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections |
JP2011186351A (ja) * | 2010-03-11 | 2011-09-22 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
JP2012038131A (ja) * | 2010-08-09 | 2012-02-23 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
-
2007
- 2007-12-07 JP JP2007317711A patent/JP4462339B2/ja not_active Expired - Fee Related
-
2008
- 2008-12-04 CN CN200810182768XA patent/CN101452529B/zh not_active Expired - Fee Related
- 2008-12-05 US US12/329,165 patent/US20090147995A1/en not_active Abandoned
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08187368A (ja) * | 1994-05-13 | 1996-07-23 | Matsushita Electric Ind Co Ltd | ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置 |
JPH1124694A (ja) * | 1997-07-04 | 1999-01-29 | Sanyo Electric Co Ltd | 命令認識装置 |
JP2000347962A (ja) * | 1999-06-02 | 2000-12-15 | Nec Commun Syst Ltd | ネットワーク分散管理システム及びネットワーク分散管理方法 |
JP2002264051A (ja) * | 2001-03-09 | 2002-09-18 | Japan Science & Technology Corp | ロボット視聴覚システム |
EP1330128A2 (en) * | 2001-12-03 | 2003-07-23 | Microsoft Corporation | Automatic detection and tracking of multiple individuals' faces using multiple cues |
JP2003216951A (ja) * | 2001-12-03 | 2003-07-31 | Microsoft Corp | 複数のキューを使用する複数の個人の自動検出および追跡の方法、システムおよびコンピュータ可読媒体 |
JP2003189273A (ja) * | 2001-12-20 | 2003-07-04 | Sharp Corp | 発言者識別装置及び該発言者識別装置を備えたテレビ会議システム |
JP2005141687A (ja) * | 2003-11-10 | 2005-06-02 | Nippon Telegr & Teleph Corp <Ntt> | 物体追跡方法、物体追跡装置、物体追跡システム、プログラム、および、記録媒体 |
JP2005271137A (ja) * | 2004-03-24 | 2005-10-06 | Sony Corp | ロボット装置及びその制御方法 |
JP2006139681A (ja) * | 2004-11-15 | 2006-06-01 | Matsushita Electric Ind Co Ltd | オブジェクト検出装置 |
JP2006263348A (ja) * | 2005-03-25 | 2006-10-05 | Toshiba Corp | 利用者識別装置、利用者識別方法および利用者識別プログラム |
WO2007129731A1 (ja) * | 2006-05-10 | 2007-11-15 | Honda Motor Co., Ltd. | 音源追跡システム、方法、およびロボット |
US20090030865A1 (en) * | 2007-07-25 | 2009-01-29 | Tsutomu Sawada | Information processing apparatus, information processing method, and computer program |
EP2023270A2 (en) * | 2007-07-25 | 2009-02-11 | Sony Corporation | Information processing apparatus, information processing method, and computer program |
JP2009031951A (ja) * | 2007-07-25 | 2009-02-12 | Sony Corp | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
JP2009042910A (ja) * | 2007-08-07 | 2009-02-26 | Sony Corp | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
Non-Patent Citations (5)
Title |
---|
ASOH, H.; HARA, I.; ASANO, F.; YAMAMOTO, K.;: "Tracking human speech events using a particle filter", IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2005. PROCEEDINGS. (ICASS, vol. 2, JPN6009057633, 18 March 2005 (2005-03-18), US, pages 1153 - 1156, XP010790849, ISSN: 0001520224, DOI: 10.1109/ICASSP.2005.1415614 * |
CHECKA, N.; WILSON, K.W.; SIRACUSA, M.R.; DARRELL, T.;: "Multiple person and speaker activity tracking with a particle filter", IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2004. PROCEEDINGS. (ICASS, vol. 5, JPN6009057632, 17 May 2004 (2004-05-17), US, pages 881 - 884, XP010719070, ISSN: 0001458302, DOI: 10.1109/ICASSP.2004.1327252 * |
WENLONG ZHENG; BHANDARKAR, S.M.;: "A Boosted Adaptive Particle Filter for Face Detection and Tracking", IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING, 2006, JPN6009057637, 11 August 2006 (2006-08-11), US, pages 2821 - 2824, ISSN: 0001458303 * |
YEONGSEON LEE; MERSEREAU, R.;: "A Bayesian 3D People Tracker using Multiple Cameras and a Microphone Array", IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 2007. ICASSP 2007., vol. 2, JPN6009057635, 15 April 2007 (2007-04-15), US, pages 937 - 940, ISSN: 0001520225 * |
小林 貴訓, 佐藤 洋一, 杉村 大輔, 関 真規人, 平澤 宏祐, 鈴木 直彦, 鹿毛 裕史, 杉本 晃宏: "パーティクルフィルタとカスケード型識別器の統合による人物三次元追跡", 画像ラボ, vol. 第18巻第12号, JPN6009057636, 1 December 2007 (2007-12-01), JP, pages 28 - 33, ISSN: 0001520226 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013519135A (ja) * | 2010-01-25 | 2013-05-23 | マイクロソフト コーポレーション | 音声−体識別の相関 |
US9002707B2 (en) | 2011-11-11 | 2015-04-07 | Sony Corporation | Determining the position of the source of an utterance |
Also Published As
Publication number | Publication date |
---|---|
CN101452529A (zh) | 2009-06-10 |
CN101452529B (zh) | 2012-10-03 |
US20090147995A1 (en) | 2009-06-11 |
JP4462339B2 (ja) | 2010-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4462339B2 (ja) | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム | |
JP2009031951A (ja) | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム | |
JP2011186351A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
JP2013104938A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
JP4730404B2 (ja) | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム | |
JP2012038131A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
JP2010165305A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
KR101749100B1 (ko) | 디바이스 제어를 위한 제스처/음향 융합 인식 시스템 및 방법 | |
JP2011191423A (ja) | 発話認識装置、発話認識方法 | |
WO2019171780A1 (ja) | 個人識別装置および特徴収集装置 | |
CN111916061A (zh) | 语音端点检测方法、装置、可读存储介质及电子设备 | |
EP4310838A1 (en) | Speech wakeup method and apparatus, and storage medium and system | |
JP2009042910A (ja) | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム | |
JP4730812B2 (ja) | 個人認証装置、個人認証処理方法、そのためのプログラム及び記録媒体 | |
Ponce-López et al. | Multi-modal social signal analysis for predicting agreement in conversation settings | |
JP6148150B2 (ja) | 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法 | |
JP2013257418A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
CN109986553B (zh) | 一种主动交互的机器人、系统、方法及存储装置 | |
JP7032284B2 (ja) | ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法 | |
Canton-Ferrer et al. | Audiovisual event detection towards scene understanding | |
JP6853163B2 (ja) | 話者方向推定装置、話者方向推定方法、およびプログラム | |
CN115910047B (zh) | 数据处理方法、模型训练方法、关键词检测方法及设备 | |
JP7511374B2 (ja) | 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム | |
Hui et al. | RBF neural network mouth tracking for audio-visual speech recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091016 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100126 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100208 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130226 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |