JP5700963B2 - 情報処理装置およびその制御方法 - Google Patents
情報処理装置およびその制御方法 Download PDFInfo
- Publication number
- JP5700963B2 JP5700963B2 JP2010148205A JP2010148205A JP5700963B2 JP 5700963 B2 JP5700963 B2 JP 5700963B2 JP 2010148205 A JP2010148205 A JP 2010148205A JP 2010148205 A JP2010148205 A JP 2010148205A JP 5700963 B2 JP5700963 B2 JP 5700963B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- head
- person
- distance
- distance image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/22—Source localisation; Inverse modelling
Description
図1(a)は、本発明に係る情報処理装置100のハードウェア構成を示す図である。
S−Σ{a(i)×N(i)}
(iは他の頭部のインデックス。a(i)は所定の係数であり、固定でも良いし例えば頭部の距離によって変えても良い。)なおここで、ステップS1001で抑制部210が行うのではなく、強調部205がステップS304で音声強調する際に他の頭部の強調音声を使って抑制(抑圧)しても構わない。ステップS304ではそれぞれの頭部の口唇空間座標および強調音声は決定していない。
本発明は、会議の参加者が会議中に動く場合においても、所定の時間間隔ごとに図3、図7の処理を実行することによって、その時間間隔ごとに適切な口唇空間座標の強調音声を頭部(参加者)ごとに取得可能である。抽出部203が抽出する頭部を連続する時間で追尾することにより、時間間隔ごとに取得した音声を繋げて参加者に対応づけることが可能である。
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
Claims (10)
- 三次元の領域内に存在するオブジェクトと、基準となる面との距離を示す距離画像を取得する取得手段と、
前記距離画像に基づいて、前記距離が極値となる位置を、人の頭頂部の位置として特定する第1の特定手段と、
前記第1の特定手段によって特定された人の頭頂部の位置と前記距離に基づいて、前記人の口唇が存在する複数の候補位置を特定する第2の特定手段と、
前記三次元の領域内で発声された音声に関して、複数箇所で集音された音声情報に基づいて、前記第2の特定手段によって特定された複数の候補位置のうち、1つの位置を前記人の口唇が存在する位置として選択する選択手段とを有する情報処理装置。 - 前記取得手段によって取得される距離画像は、前記人の頭上から下方に向かって撮像された距離画像であって、
前記第1の特定手段は、前記距離画像に基づいて、前記距離が極小となる位置を、前記人の頭頂部の位置として特定することを特徴とする請求項1に記載の情報処理装置。 - 前記複数箇所で集音された音声情報に基づいて、前記第2の特定手段によって特定された複数の候補位置のそれぞれが、前記複数箇所で集音された音声情報の音源の位置である場合に集音される音声に対応する複数の音声情報を取得する音声強調手段を更に備え、
前記選択手段は、前記音声強調手段が取得した前記複数の音声情報のうち、音量が最大である音声情報に対応する候補位置を、前記人の口唇が存在する位置として選択することを特徴とする請求項1又は2に記載の情報処理装置。 - 前記三次元の領域内に設置された複数のマイクロホンを介して得られた音声を取得する音声取得手段を更に備え、
前記音声強調手段は、前記音声取得手段が取得した音声を解析し、前記第2の特定手段によって特定された複数の候補位置のそれぞれから前記複数のマイクロホンのそれぞれ方向への音声を強調することによって、前記複数の音声情報を取得することを特徴とする請求項3に記載の情報処理装置。 - 前記第2の特定手段は、前記第1の特定手段が、前記人の頭頂部の位置を複数特定した場合、前記複数の人の頭頂部の位置のうち1つを選択し、選択された位置に関する前記複数の音源の候補位置を、前記複数の人の頭頂部の位置のうち、選択されていない位置と、前記頭頂部からの距離に基づいて特定することを特徴とする請求項1又は2に記載の情報処理装置。
- 前記基準となる面とは、前記三次元の領域を含む空間の天井に相当する面であって、
前記第2の特定手段は、前記第1の特定手段によって特定された人の頭頂部の位置から、下方に向かう向きに所定距離離れ、かつ、前記天井に相当する面と平行な面上の複数の位置を、前記複数の候補位置として特定することを特徴とする請求項1に記載の情報処理装置。 - 前記第2の特定手段は、前記第1の特定手段によって特定された前記人の頭頂部の位置と、前記距離画像から抽出される所定のオブジェクトの位置とに基づいて、前記複数の候補位置を特定することを特徴とする請求項1又は2に記載の情報処理装置。
- 音源の位置を推定する情報処理装置の制御方法であって、
取得手段が、三次元の領域内に存在するオブジェクトと、基準となる面との距離を示す距離画像を取得する取得工程と、
第1の特定手段が、前記距離画像に基づいて、前記距離が極値となる位置を、人の頭頂部の位置として特定する第1の特定工程と、
第2の特定手段が、前記第1の特定手段によって特定された人の頭頂部の位置と前記距離に基づいて、前記人の口唇が存在する複数の候補位置を特定する第2の特定工程と、
選択手段が、前記三次元の領域内で発声された音声に関して、複数箇所で集音された音声情報に基づいて、前記第2の特定手段によって特定された複数の候補位置のうち、1つの位置を前記人の口唇が存在する位置として選択する選択工程とを有する情報処理装置の制御方法。 - コンピュータに読み込ませ実行させることで、前記コンピュータを、請求項1乃至7の何れか1項に記載の情報処理装置が有する各手段として機能させるためのコンピュータプログラム。
- 請求項9に記載のコンピュータプログラムを格納した、コンピュータ読み取り可能な記憶媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010148205A JP5700963B2 (ja) | 2010-06-29 | 2010-06-29 | 情報処理装置およびその制御方法 |
US13/170,372 US20110317006A1 (en) | 2010-06-29 | 2011-06-28 | Information processing apparatus and operation method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010148205A JP5700963B2 (ja) | 2010-06-29 | 2010-06-29 | 情報処理装置およびその制御方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2012014281A JP2012014281A (ja) | 2012-01-19 |
JP2012014281A5 JP2012014281A5 (ja) | 2013-08-15 |
JP5700963B2 true JP5700963B2 (ja) | 2015-04-15 |
Family
ID=45352177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010148205A Expired - Fee Related JP5700963B2 (ja) | 2010-06-29 | 2010-06-29 | 情報処理装置およびその制御方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20110317006A1 (ja) |
JP (1) | JP5700963B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2637568B1 (en) | 2010-11-08 | 2017-04-12 | Vasonova, Inc. | Endovascular navigation system |
WO2013169371A1 (en) * | 2012-05-07 | 2013-11-14 | Vasonova, Inc. | Right atrium indicator |
KR20140099702A (ko) * | 2013-02-04 | 2014-08-13 | 한국전자통신연구원 | 이동통신 단말기 및 그 동작방법 |
JP6592940B2 (ja) * | 2015-04-07 | 2019-10-23 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US10116870B1 (en) * | 2015-06-25 | 2018-10-30 | Cognex Corporation | Single camera vision system for logistics applications |
JP6633216B2 (ja) * | 2016-09-16 | 2020-01-22 | ソニーセミコンダクタソリューションズ株式会社 | 撮像装置、及び、電子機器 |
WO2019118089A1 (en) | 2017-12-11 | 2019-06-20 | Analog Devices, Inc. | Multi-modal far field user interfaces and vision-assisted audio processing |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3714706B2 (ja) * | 1995-02-17 | 2005-11-09 | 株式会社竹中工務店 | 音抽出装置 |
US20020118284A1 (en) * | 1995-10-02 | 2002-08-29 | Newman Edward G. | Video camera system |
US6128397A (en) * | 1997-11-21 | 2000-10-03 | Justsystem Pittsburgh Research Center | Method for finding all frontal faces in arbitrarily complex visual scenes |
US6393136B1 (en) * | 1999-01-04 | 2002-05-21 | International Business Machines Corporation | Method and apparatus for determining eye contact |
JP2004198211A (ja) * | 2002-12-18 | 2004-07-15 | Aisin Seiki Co Ltd | 移動体周辺監視装置 |
WO2007034875A1 (ja) * | 2005-09-21 | 2007-03-29 | Matsushita Electric Industrial Co., Ltd. | 画像投射装置 |
US20070177866A1 (en) * | 2006-01-31 | 2007-08-02 | Yoshizo Fujimoto | Camera extension arm |
US7701492B2 (en) * | 2006-02-15 | 2010-04-20 | Panasonic Corporation | Image-capturing apparatus and image capturing method |
JP2007233523A (ja) * | 2006-02-28 | 2007-09-13 | Hitachi Ltd | 非同期カメラ映像を用いた人物位置推定方法及びそのシステム |
JP2007235849A (ja) * | 2006-03-03 | 2007-09-13 | Yokohama National Univ | 追尾撮像制御装置、被写体追尾撮像システム、及びプログラム |
JP5228307B2 (ja) * | 2006-10-16 | 2013-07-03 | ソニー株式会社 | 表示装置、表示方法 |
GB0703974D0 (en) * | 2007-03-01 | 2007-04-11 | Sony Comp Entertainment Europe | Entertainment device |
US8726194B2 (en) * | 2007-07-27 | 2014-05-13 | Qualcomm Incorporated | Item selection using enhanced control |
US9189886B2 (en) * | 2008-08-15 | 2015-11-17 | Brown University | Method and apparatus for estimating body shape |
KR101644421B1 (ko) * | 2008-12-23 | 2016-08-03 | 삼성전자주식회사 | 사용자의 관심 정도에 기반한 컨텐츠 제공장치 및 방법 |
-
2010
- 2010-06-29 JP JP2010148205A patent/JP5700963B2/ja not_active Expired - Fee Related
-
2011
- 2011-06-28 US US13/170,372 patent/US20110317006A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20110317006A1 (en) | 2011-12-29 |
JP2012014281A (ja) | 2012-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5700963B2 (ja) | 情報処理装置およびその制御方法 | |
CN112088315B (zh) | 多模式语音定位 | |
JP6464449B2 (ja) | 音源分離装置、及び音源分離方法 | |
JP6984596B2 (ja) | 映像音響処理装置および方法、並びにプログラム | |
JP2014153663A (ja) | 音声認識装置、および音声認識方法、並びにプログラム | |
JP4992218B2 (ja) | 情報処理装置および方法、並びにプログラム | |
JP5456832B2 (ja) | 入力された発話の関連性を判定するための装置および方法 | |
US8140458B2 (en) | Information processing apparatus, information processing method, and computer program | |
JP5323770B2 (ja) | ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機 | |
US9520131B2 (en) | Apparatus and method for voice processing | |
JP6330056B2 (ja) | 情報処理装置、情報処理システム、制御方法、及びプログラム | |
KR101749100B1 (ko) | 디바이스 제어를 위한 제스처/음향 융합 인식 시스템 및 방법 | |
JPWO2017168936A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP7370014B2 (ja) | 収音装置、収音方法、及びプログラム | |
JP5618043B2 (ja) | 映像音響処理システム、映像音響処理方法及びプログラム | |
KR20150066883A (ko) | 이미지 처리 방법 및 장치 | |
JP2005141687A (ja) | 物体追跡方法、物体追跡装置、物体追跡システム、プログラム、および、記録媒体 | |
JP2009042910A (ja) | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム | |
US11460927B2 (en) | Auto-framing through speech and video localizations | |
JP7400364B2 (ja) | 音声認識システム及び情報処理方法 | |
Thermos et al. | Audio-visual speech activity detection in a two-speaker scenario incorporating depth information from a profile or frontal view | |
Sui et al. | A 3D audio-visual corpus for speech recognition | |
JP2015177490A (ja) | 映像音声処理システム、情報処理装置、映像音声処理方法、及び映像音声処理プログラム | |
WO2019207912A1 (ja) | 情報処理装置及び情報処理方法 | |
WO2021206679A1 (en) | Audio-visual multi-speacer speech separation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130701 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130701 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140513 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140714 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150217 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5700963 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |