JP4719224B2 - マルチモーダル識別のための客観評価に基づいた識別器組み合わせ - Google Patents
マルチモーダル識別のための客観評価に基づいた識別器組み合わせ Download PDFInfo
- Publication number
- JP4719224B2 JP4719224B2 JP2007545535A JP2007545535A JP4719224B2 JP 4719224 B2 JP4719224 B2 JP 4719224B2 JP 2007545535 A JP2007545535 A JP 2007545535A JP 2007545535 A JP2007545535 A JP 2007545535A JP 4719224 B2 JP4719224 B2 JP 4719224B2
- Authority
- JP
- Japan
- Prior art keywords
- class
- weighting
- classifier
- classifiers
- combination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
- G06V10/811—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Processing (AREA)
Description
特定の構成によっては、クラスごとの重み付けは下式に基づいて行われる。
特定の構成によっては、組み合わせモジュールにより行われるクラスごとの重み付けは下式に基づいて行われる。
前記の通り、(従来の認証技術を用いて)より区別しやすい特徴(例えば、顔や音声)をクラス分けすることで高い認識率を達成できたとしても、現実的にこのような特徴だけを観察できる状況は比較的稀である。本発明の各種実施形態によれば、識別器を組み合わせる構成のマルチモーダルな識別方法を利用することで、区別し難い特徴やその他の利用できない特徴などからも識別値を抽出することが可能となる。
図2は、本発明の1つの実施形態に係るマルチモーダル識別システムの構成を示すブロック図である。本システムは、データ収集、ラベル付け、トレーニング/クラス分けの3つのモードで動作するが、各々については順次後述する。
前記の通り、組み合わせモジュール260は、本発明の実施形態に係る、略ベイジアン法による識別器組み合わせ手法を用いて複数の識別器からの出力を1つの共同予測にまとめるように構成されている。
観察全体を示すxについての識別器システムの出力であるωは、周辺分布で表すことができる。
図4は、本発明の実施形態に係る構成を有する分散型マルチモーダル識別システムのブロック図である。この分散型システムはフルスケール化が可能であり、映像ストリームの入力を扱う多数の映像特徴抽出器(例えば、405や410など)と、音声ストリームの入力を扱う音声特徴抽出器(例えば、415など)とを備えている。1つ以上の識別器は、ネットワーク抽象化レイヤ(Network Abstraction Layer,以下NALという)420を介して、各特徴抽出器に接続されて動作する。特にこの実施形態では、映像特徴抽出器405が、識別器425および430に接続され、さらに映像特徴抽出器415が識別器440に接続される。
前記の通り、本識別システムは、(例えば、映像およびまたは音声の入力ストリームからの)ライブ入力により動作するように構成されている。ここで、システムを評価するために、トレーニング、検証、テスト用の音声および映像のデータシーケンスを含む拡張データセットの収集を試みた。データは、オフィス環境の6人から数週間に渡って収集した。固定カメラ(一対のステレオカメラ)と遠距離マイクロフォンを用いた(システムを図2に示すような監視用セッティングのように実装してもよい)。前記の通り、(入力ストリームからの)特徴により数個のチャンネルを形成して、組み合わせモジュール260で識別器の出力を組み合わせる段階に至るまで、これらを個別に処理する。この実装例では、音声から入手可能な特徴と映像から入手可能な特徴の2つのグループからなる特徴を得た。ここでの対象物は、映像と音声のいずれにおいても捉えることのできた人物である。
カメラの傾斜角度に起因するバウンディング・ボックスの補正と、画像・地面の同形異義性パラメータの算出誤差に起因する基面補正を行うことができる。これらの算出から、対象者が観察されるトレーニング用画像のすべてからガウス分布を対象者ごとに算出し、これを後のクラス分け処理に用いる。高さの算出には従来の手法を用いてもよい。
この実装事例では、組み合わせモジュール260をWindows XP(R)(あるいは、MAC(R) OSやLinux(R) OSなどのOS)搭載のデュアルプロセッサ(ペンティアム(R)4 1.3GHz以上など)コンピュータ上で毎秒15フレームで動作させた。所望する用途の特殊性(例えば、特徴ストリームの複雑さ、所望のfps、所望の実装コストなど)に応じて、この他の処理環境においても実装可能であることは、本発明の開示に照らして明らかである。ホストシステムは、音声・映像データの取得、バーチャル装置の管理およびデータベース運用のみならず、特徴抽出器のすべてを動作させる機能を有する。(ソフトウェア等に実装した)各識別器を、構成が類似する異なる装置上で個別に実行させることができるが、特定の構成によっては、話者識別器の実装が容易なLinux(R)OS上で動作させることも可能である。繰り返すが、本発明は(OSを含めた)多様かつ適切な処理環境で利用可能であり、特定のものに限定されない。前記した通り、識別結果は15fpsで出力され、対象物(例えば、人物など)がシステムの「ビュー」(視覚的ビューおよびまたは聴覚的ビューを含む)に存在したときの約98%の時間内において利用可能なものであった。
ここに記載される組み合わせ手法の性能はセット単位のテストで測定されるのだが、このようなテストは、通常、次のようなステップで構成される:トレーニング用データ、検証用データ、テスト用データをそれぞれ生成し;ベースとなる識別器をトレーニングし;識別器アンサンブルを生成し;誤差率を算出する。
Claims (18)
- 前記システムにアクセス可能であり、ユーザが選択したラベル付け手法に従って記憶された特徴ストリームにラベル付けを行うラベル付けサブシステムをさらに備えることを特徴とする請求項1に記載のマルチクラス識別器の組み合わせシステム。
- 前記特徴ストリームを記憶する記憶装置と、
前記特徴ストリームの各々について、タイムスタンプ、ファイル名、記録状態および現在のシステムのパラメータの1つ以上を含む記録を生成し、この記録を前記記憶装置に記憶するデータベース管理部と、
をさらに備えることを特徴とする請求項1に記載のマルチクラス識別器の組み合わせシステム。 - 対象のシーンから1つ以上の音声ストリームおよび1つ以上の映像ストリームを含む前記特徴ストリームを生成するデータログサブシステムをさらに備えることを特徴とする請求項1に記載のマルチクラス識別器の組み合わせシステム。
- 前記データログサブシステムは、前記対象のシーンに存在する対象物の検出に応答して、特徴ストリームの生成を開始するような検出器を備えることを特徴とする請求項1に記載のマルチクラス識別器の組み合わせシステム。
- トレーニング用データのサブセットについて識別器をトレーニングし、
前記トレーニング用データのサブセットの残りに基づいて信頼度を算出し、さらに、
前記組み合わせモジュールにより実行されるクラスごとの重み付けには、この算出した信頼度により前記識別器の出力を重み付けすることが含まれること
を特徴とする請求項1に記載のマルチクラス識別器の組み合わせシステム。 - 組み合わせモジュールによるクラスごとの重み付けは、信頼度を使った各識別器の出力の重み付けに基づき、この信頼度は、所定のデータセットについて各識別器が有する固有誤差の分布の経験値を示す混同行列から求めたものである
ことを特徴とする請求項1に記載のマルチクラス識別器の組み合わせシステム。 - 前記特徴ストリームを記憶し、
タイムスタンプ、ファイル名、記録状態、現在のシステムのパラメータの少なくとも1つを含む記録を特徴ストリームごとに生成し、この記録を記憶装置に記憶する予備ステップをさらに備える
ことを特徴とする請求項8に記載のマルチクラス識別器の組み合わせ方法。 - 対象のシーンから1つ以上の音声ストリームおよび1つ以上の映像ストリームを含む特徴ストリームを生成し、
第1のマルチクラス識別器を用いて1つ以上の特徴ストリームにおいて捉えた第1の対象の特徴をクラス分けし、
第2のマルチクラス識別器を用いて1つ以上の特徴ストリームにおいて捉えた第2の対象の特徴をクラス分けする予備ステップをさらに備える
ことを特徴とする請求項8に記載のマルチクラス識別器の組み合わせ方法。 - 前記対象のシーンに存在する対象物の検出に応答して前記特徴ストリームの生成を開始すること
を特徴とする請求項10に記載のマルチクラス識別器の組み合わせ方法。 - クラスごとの重み付けは、信頼度により各識別器の出力を重み付けすることに基づいて行われるとともに、この信頼度は、所定のデータセットについて各識別器が有する固有誤差の分布の経験値を示す混同行列から求めたものであること
を特徴とする請求項8に記載のマルチクラス識別器の組み合わせ方法。 - トレーニング用データのサブセットについて1つ以上のマルチクラス識別器をトレーニングし、
前記トレーニング用データのサブセットの残りについて信頼度を算出し、さらに、前記クラスごとの重み付けには、この算出した信頼度により1つ以上の前記識別器の出力を重み付けすることが含まれる予備ステップをさらに備えること
を特徴とする請求項8に記載のマルチクラス識別器の組み合わせシステム。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US63399704P | 2004-12-06 | 2004-12-06 | |
US60/633,997 | 2004-12-06 | ||
US63438304P | 2004-12-07 | 2004-12-07 | |
US60/634,383 | 2004-12-07 | ||
US11/293,465 | 2005-12-02 | ||
US11/293,465 US7742641B2 (en) | 2004-12-06 | 2005-12-02 | Confidence weighted classifier combination for multi-modal identification |
PCT/US2005/043823 WO2006062863A2 (en) | 2004-12-06 | 2005-12-05 | Confidence weighted classifier combination for multi-modal identification |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2008525869A JP2008525869A (ja) | 2008-07-17 |
JP2008525869A5 JP2008525869A5 (ja) | 2011-04-21 |
JP4719224B2 true JP4719224B2 (ja) | 2011-07-06 |
Family
ID=36574272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007545535A Expired - Fee Related JP4719224B2 (ja) | 2004-12-06 | 2005-12-05 | マルチモーダル識別のための客観評価に基づいた識別器組み合わせ |
Country Status (3)
Country | Link |
---|---|
US (1) | US7742641B2 (ja) |
JP (1) | JP4719224B2 (ja) |
WO (1) | WO2006062863A2 (ja) |
Families Citing this family (87)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9769354B2 (en) | 2005-03-24 | 2017-09-19 | Kofax, Inc. | Systems and methods of processing scanned data |
US9137417B2 (en) | 2005-03-24 | 2015-09-15 | Kofax, Inc. | Systems and methods for processing video data |
WO2007107315A1 (de) * | 2006-03-22 | 2007-09-27 | Daimler Ag | Multisensorieller hypothesen-basierter objektdetektor und objektverfolger |
US7937345B2 (en) * | 2006-07-12 | 2011-05-03 | Kofax, Inc. | Data classification methods using machine learning techniques |
US7761391B2 (en) * | 2006-07-12 | 2010-07-20 | Kofax, Inc. | Methods and systems for improved transductive maximum entropy discrimination classification |
US20080086432A1 (en) * | 2006-07-12 | 2008-04-10 | Schmidtler Mauritius A R | Data classification methods using machine learning techniques |
US7958067B2 (en) * | 2006-07-12 | 2011-06-07 | Kofax, Inc. | Data classification methods using machine learning techniques |
US20080089591A1 (en) * | 2006-10-11 | 2008-04-17 | Hui Zhou | Method And Apparatus For Automatic Image Categorization |
US20080112593A1 (en) * | 2006-11-03 | 2008-05-15 | Ratner Edward R | Automated method and apparatus for robust image object recognition and/or classification using multiple temporal views |
KR100804678B1 (ko) * | 2007-01-04 | 2008-02-20 | 삼성전자주식회사 | 비디오 인물별 신 분류 방법 및 그 시스템 |
JP5273042B2 (ja) * | 2007-05-25 | 2013-08-28 | 日本電気株式会社 | 画像音響区間群対応付け装置と方法およびプログラム |
US7925645B2 (en) * | 2007-07-19 | 2011-04-12 | Microsoft Corporation | Dynamic metadata filtering for classifier prediction |
US9031843B2 (en) * | 2007-09-28 | 2015-05-12 | Google Technology Holdings LLC | Method and apparatus for enabling multimodal tags in a communication device by discarding redundant information in the tags training signals |
US20090099847A1 (en) * | 2007-10-10 | 2009-04-16 | Microsoft Corporation | Template constrained posterior probability |
JP5121681B2 (ja) * | 2008-04-30 | 2013-01-16 | 株式会社日立製作所 | 生体認証システム、認証クライアント端末、及び生体認証方法 |
US8111923B2 (en) * | 2008-08-14 | 2012-02-07 | Xerox Corporation | System and method for object class localization and semantic class based image segmentation |
JP4670976B2 (ja) * | 2008-10-03 | 2011-04-13 | ソニー株式会社 | 学習装置および方法、認識装置および方法、プログラム、並びに記録媒体 |
JP5232669B2 (ja) * | 2009-01-22 | 2013-07-10 | オリンパスイメージング株式会社 | カメラ |
US9576272B2 (en) | 2009-02-10 | 2017-02-21 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US8958605B2 (en) | 2009-02-10 | 2015-02-17 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US8774516B2 (en) | 2009-02-10 | 2014-07-08 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US9349046B2 (en) | 2009-02-10 | 2016-05-24 | Kofax, Inc. | Smart optical input/output (I/O) extension for context-dependent workflows |
US9767354B2 (en) | 2009-02-10 | 2017-09-19 | Kofax, Inc. | Global geographic information retrieval, validation, and normalization |
US9123341B2 (en) * | 2009-03-18 | 2015-09-01 | Robert Bosch Gmbh | System and method for multi-modal input synchronization and disambiguation |
US8140450B2 (en) * | 2009-03-27 | 2012-03-20 | Mitsubishi Electric Research Laboratories, Inc. | Active learning method for multi-class classifiers |
US8992446B2 (en) | 2009-06-21 | 2015-03-31 | Holland Bloorview Kids Rehabilitation Hospital | Procedure for denoising dual-axis swallowing accelerometry signals |
US8379920B2 (en) * | 2010-05-05 | 2013-02-19 | Nec Laboratories America, Inc. | Real-time clothing recognition in surveillance videos |
EP2413265B1 (en) * | 2010-07-29 | 2017-10-18 | Tata Consultancy Services Ltd. | A system and method for classification of moving object during video surveillance |
CN103299324B (zh) * | 2010-11-11 | 2016-02-17 | 谷歌公司 | 使用潜在子标记来学习用于视频注释的标记 |
WO2012103625A1 (en) * | 2011-02-04 | 2012-08-09 | Holland Bloorview Kids Rehabilitation Hospital | Reputation-based classifier, classification system and method |
US8953039B2 (en) * | 2011-07-01 | 2015-02-10 | Utc Fire & Security Corporation | System and method for auto-commissioning an intelligent video system |
US9691395B1 (en) | 2011-12-31 | 2017-06-27 | Reality Analytics, Inc. | System and method for taxonomically distinguishing unconstrained signal data segments |
US9165187B2 (en) | 2012-01-12 | 2015-10-20 | Kofax, Inc. | Systems and methods for mobile image capture and processing |
US10146795B2 (en) | 2012-01-12 | 2018-12-04 | Kofax, Inc. | Systems and methods for mobile image capture and processing |
US9058515B1 (en) | 2012-01-12 | 2015-06-16 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
US9483794B2 (en) | 2012-01-12 | 2016-11-01 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
US9058580B1 (en) | 2012-01-12 | 2015-06-16 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
EP2648133A1 (fr) * | 2012-04-04 | 2013-10-09 | Biomerieux | Identification de microorganismes par spectrometrie et classification structurée |
US9307920B2 (en) | 2012-04-17 | 2016-04-12 | Cardiac Pacemakers, Inc. | Method and apparatus for automatic arrhythmia classification with confidence estimation |
US9355312B2 (en) | 2013-03-13 | 2016-05-31 | Kofax, Inc. | Systems and methods for classifying objects in digital images captured using mobile devices |
CN105283884A (zh) | 2013-03-13 | 2016-01-27 | 柯法克斯公司 | 对移动设备捕获的数字图像中的对象进行分类 |
US9208536B2 (en) | 2013-09-27 | 2015-12-08 | Kofax, Inc. | Systems and methods for three dimensional geometric reconstruction of captured image data |
US20140316841A1 (en) | 2013-04-23 | 2014-10-23 | Kofax, Inc. | Location-based workflows and services |
WO2014179752A1 (en) | 2013-05-03 | 2014-11-06 | Kofax, Inc. | Systems and methods for detecting and classifying objects in video captured using mobile devices |
US9275331B2 (en) * | 2013-05-22 | 2016-03-01 | International Business Machines Corporation | Document classification system with user-defined rules |
US11080318B2 (en) * | 2013-06-27 | 2021-08-03 | Kodak Alaris Inc. | Method for ranking and selecting events in media collections |
US9892745B2 (en) | 2013-08-23 | 2018-02-13 | At&T Intellectual Property I, L.P. | Augmented multi-tier classifier for multi-modal voice activity detection |
WO2015073920A1 (en) | 2013-11-15 | 2015-05-21 | Kofax, Inc. | Systems and methods for generating composite images of long documents using mobile video data |
US9754192B2 (en) * | 2014-06-30 | 2017-09-05 | Microsoft Technology Licensing, Llc | Object detection utilizing geometric information fused with image data |
JP6361387B2 (ja) * | 2014-09-05 | 2018-07-25 | オムロン株式会社 | 識別装置および識別装置の制御方法 |
US9760788B2 (en) | 2014-10-30 | 2017-09-12 | Kofax, Inc. | Mobile document detection and orientation based on reference object characteristics |
US10929774B2 (en) | 2015-02-12 | 2021-02-23 | Koninklijke Philips N.V. | Robust classifier |
CN104780386B (zh) * | 2015-03-19 | 2017-12-19 | 内蒙古民族大学 | 基于LOF‑Co‑Forest算法的视频篡改检测方法 |
US20160366528A1 (en) * | 2015-06-11 | 2016-12-15 | Sony Mobile Communications, Inc. | Communication system, audio server, and method for operating a communication system |
US10242285B2 (en) | 2015-07-20 | 2019-03-26 | Kofax, Inc. | Iterative recognition-guided thresholding and data extraction |
US10382804B2 (en) * | 2015-08-31 | 2019-08-13 | Orcam Technologies Ltd. | Systems and methods for identifying exposure to a recognizable item |
US10762440B1 (en) * | 2015-09-24 | 2020-09-01 | Apple Inc. | Sensor fusion and deep learning |
CN105224849B (zh) * | 2015-10-20 | 2019-01-01 | 广州广电运通金融电子股份有限公司 | 一种多生物特征融合身份鉴别方法以及装置 |
CN107103271A (zh) * | 2016-02-23 | 2017-08-29 | 芋头科技(杭州)有限公司 | 一种人脸检测方法 |
US9779296B1 (en) | 2016-04-01 | 2017-10-03 | Kofax, Inc. | Content-based detection and three dimensional geometric reconstruction of objects in image and video data |
TWI622938B (zh) * | 2016-09-13 | 2018-05-01 | 創意引晴(開曼)控股有限公司 | 避免辨識結果混淆之影像辨識方法 |
US10671068B1 (en) | 2016-09-21 | 2020-06-02 | Apple Inc. | Shared sensor data across sensor processing pipelines |
US10671050B2 (en) * | 2017-05-11 | 2020-06-02 | Turing Video, Inc. | Surveillance system with intelligent robotic surveillance device |
US11475671B2 (en) * | 2017-05-26 | 2022-10-18 | Turing Video | Multiple robots assisted surveillance system |
US11138901B1 (en) | 2017-06-28 | 2021-10-05 | Amazon Technologies, Inc. | Item recognition and analysis |
US10540390B1 (en) | 2017-08-07 | 2020-01-21 | Amazon Technologies, Inc. | Image-based item identification |
US10521705B2 (en) * | 2017-11-14 | 2019-12-31 | Adobe Inc. | Automatically selecting images using multicontext aware ratings |
US10803350B2 (en) | 2017-11-30 | 2020-10-13 | Kofax, Inc. | Object detection and image cropping using a multi-detector approach |
US11630987B2 (en) | 2018-04-30 | 2023-04-18 | International Business Machines Corporation | Neural belief reasoner |
US10475468B1 (en) * | 2018-07-12 | 2019-11-12 | Honeywell International Inc. | Monitoring industrial equipment using audio |
US11099753B2 (en) * | 2018-07-27 | 2021-08-24 | EMC IP Holding Company LLC | Method and apparatus for dynamic flow control in distributed storage systems |
US11969898B2 (en) | 2018-12-17 | 2024-04-30 | Datalogic Ip Tech S.R.L. | Multi-sensor optimization of automatic machines to prevent safety issues |
CN109858569A (zh) * | 2019-03-07 | 2019-06-07 | 中国科学院自动化研究所 | 基于目标检测网络的多标签物体检测方法、系统、装置 |
US20210034985A1 (en) * | 2019-03-22 | 2021-02-04 | International Business Machines Corporation | Unification of models having respective target classes with distillation |
US11610248B1 (en) * | 2019-06-19 | 2023-03-21 | Amazon Technologies, Inc. | Type ambiguity detection system |
CN110234018B (zh) * | 2019-07-09 | 2022-05-31 | 腾讯科技(深圳)有限公司 | 多媒体内容描述生成方法、训练方法、装置、设备及介质 |
GB2586996B (en) * | 2019-09-11 | 2022-03-09 | Canon Kk | A method, apparatus and computer program for acquiring a training set of images |
CN110556099B (zh) * | 2019-09-12 | 2021-12-21 | 出门问问信息科技有限公司 | 一种命令词控制方法及设备 |
CN111063162A (zh) * | 2019-12-05 | 2020-04-24 | 恒大新能源汽车科技(广东)有限公司 | 静默报警方法、装置、计算机设备和存储介质 |
US11164042B2 (en) * | 2020-01-14 | 2021-11-02 | Microsoft Technology Licensing, Llc | Classifying audio scene using synthetic image features |
US11704539B2 (en) * | 2020-03-30 | 2023-07-18 | Ciena Corporation | Forecasting routines utilizing a mixer to combine deep neural network (DNN) forecasts of multi-variate time-series datasets |
CN111526405B (zh) * | 2020-04-30 | 2022-02-22 | 网易(杭州)网络有限公司 | 媒体素材处理方法、装置、设备、服务器及存储介质 |
CN111783797B (zh) * | 2020-06-30 | 2023-08-18 | 杭州海康威视数字技术股份有限公司 | 目标检测方法、装置及存储介质 |
CN112527374A (zh) * | 2020-12-11 | 2021-03-19 | 北京百度网讯科技有限公司 | 标注工具生成方法、标注方法、装置、设备以及存储介质 |
US11805139B1 (en) | 2021-01-25 | 2023-10-31 | Trend Micro Incorporated | Multiclass classification system with accumulator-based arbitration |
US11922285B2 (en) | 2021-06-09 | 2024-03-05 | International Business Machines Corporation | Dividing training data for aggregating results of multiple machine learning elements |
WO2023059651A1 (en) * | 2021-10-05 | 2023-04-13 | Red Dirt Road Productions, Llc | Determining impact of content on an audience |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002169586A (ja) * | 2000-09-19 | 2002-06-14 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声及び画像の合成モデル生成装置、音声及び画像の合成モデルのための環境適応化装置、並びに音声認識装置 |
JP2004523849A (ja) * | 2001-03-15 | 2004-08-05 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 不定期的に補助を要する一人暮らしの人を監視する自動システム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5537488A (en) * | 1993-09-16 | 1996-07-16 | Massachusetts Institute Of Technology | Pattern recognition system with statistical classification |
US5519786A (en) * | 1994-08-09 | 1996-05-21 | Trw Inc. | Method and apparatus for implementing a weighted voting scheme for multiple optical character recognition systems |
US20050047664A1 (en) * | 2003-08-27 | 2005-03-03 | Nefian Ara Victor | Identifying a speaker using markov models |
US7013005B2 (en) * | 2004-02-11 | 2006-03-14 | Hewlett-Packard Development Company, L.P. | System and method for prioritizing contacts |
US20050286772A1 (en) * | 2004-06-24 | 2005-12-29 | Lockheed Martin Corporation | Multiple classifier system with voting arbitration |
-
2005
- 2005-12-02 US US11/293,465 patent/US7742641B2/en active Active
- 2005-12-05 JP JP2007545535A patent/JP4719224B2/ja not_active Expired - Fee Related
- 2005-12-05 WO PCT/US2005/043823 patent/WO2006062863A2/en active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002169586A (ja) * | 2000-09-19 | 2002-06-14 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声及び画像の合成モデル生成装置、音声及び画像の合成モデルのための環境適応化装置、並びに音声認識装置 |
JP2004523849A (ja) * | 2001-03-15 | 2004-08-05 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 不定期的に補助を要する一人暮らしの人を監視する自動システム |
Also Published As
Publication number | Publication date |
---|---|
WO2006062863A3 (en) | 2007-02-15 |
US7742641B2 (en) | 2010-06-22 |
US20060120609A1 (en) | 2006-06-08 |
WO2006062863A2 (en) | 2006-06-15 |
JP2008525869A (ja) | 2008-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4719224B2 (ja) | マルチモーダル識別のための客観評価に基づいた識別器組み合わせ | |
JP4543423B2 (ja) | 対象物自動認識照合方法および装置 | |
Salimi et al. | Visual-based trash detection and classification system for smart trash bin robot | |
Erzin et al. | Multimodal speaker identification using an adaptive classifier cascade based on modality reliability | |
US7447338B2 (en) | Method and system for face detection using pattern classifier | |
JP3903783B2 (ja) | 顔メタデータ生成方法および装置、並びに顔類似度算出方法および装置 | |
US9070041B2 (en) | Image processing apparatus and image processing method with calculation of variance for composited partial features | |
KR20040037180A (ko) | 학습 모델 부분들을 사용하는 안면 인식 시스템 및 방법 | |
US20050226509A1 (en) | Efficient classification of three dimensional face models for human identification and other applications | |
JP2006268825A (ja) | オブジェクト検出装置、学習装置、オブジェクト検出システム、方法、およびプログラム | |
JP5214760B2 (ja) | 学習装置、方法及びプログラム | |
JPH1055444A (ja) | Dctをベースとするフィーチャー・ベクトルを使った顔の認識 | |
US20030113002A1 (en) | Identification of people using video and audio eigen features | |
JP4375570B2 (ja) | 顔認識方法およびシステム | |
Chowdhury et al. | Msu-avis dataset: Fusing face and voice modalities for biometric recognition in indoor surveillance videos | |
KR101016758B1 (ko) | 인물 식별 방법 및 그 시스템 | |
Besson et al. | Extraction of audio features specific to speech production for multimodal speaker detection | |
JP4708835B2 (ja) | 顔検出装置、顔検出方法、及び顔検出プログラム | |
JP4375571B2 (ja) | 顔類似度算出方法および装置 | |
KR101208678B1 (ko) | 다중 생체정보를 이용하는 점진적 개인인증 시스템 및 방법 | |
JP2008140093A (ja) | 異常事象抽出装置、異常事象抽出方法、この方法のプログラム及びこのプログラムを記録した記録媒体 | |
Luque et al. | Audio, video and multimodal person identification in a smart room | |
JP3648199B2 (ja) | カット検出装置およびそのプログラム | |
JP2010271787A (ja) | 特徴量生成装置、特徴量生成方法および特徴量生成プログラム、ならびにクラス判別装置、クラス判別方法およびクラス判別プログラム | |
CN112464977A (zh) | 一种物体分类方法、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080813 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110303 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20110303 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20110311 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110322 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110401 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140408 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |