JP4142463B2 - パターン認識を容易にするシステムおよび方法 - Google Patents
パターン認識を容易にするシステムおよび方法 Download PDFInfo
- Publication number
- JP4142463B2 JP4142463B2 JP2003037384A JP2003037384A JP4142463B2 JP 4142463 B2 JP4142463 B2 JP 4142463B2 JP 2003037384 A JP2003037384 A JP 2003037384A JP 2003037384 A JP2003037384 A JP 2003037384A JP 4142463 B2 JP4142463 B2 JP 4142463B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern recognition
- recognition system
- pattern
- output
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/36—Matching; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biodiversity & Conservation Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Description
【発明の属する技術分野】
本発明は一般にパターン認識に関し、より詳細には、パターン認識を容易にする重畳型ニューラルネットワーク(convolutional neural
network)を使用するシステムおよび方法に関する。
【0002】
【従来の技術】
パターン認識は、たとえば、ペン/タブレット入力デバイスから取り込まれたキーストローク、またはスキャンされたドキュメントに基づくことができる。多数の従来型パターン認識システムは目標言語の知識を必要とする。多数の例では、ニューラルネットワークを使用するパターン認識システムのパラメータが、特定の目標言語(たとえば、英語および/または日本語)に合わせて手動で調節される。したがって、これらのパターン認識システムは、システムが手動で調節された言語以外の言語で使用するように容易に適合可能ではない。他の従来型パターン認識システムは入力キーストロークの時間的知識を必要とし、したがって計算上複雑になる可能性がある。
【0003】
【発明が解決しようとする課題】
以下、本発明のいくつかの態様の基本的な理解を提供するために本発明の簡単な概要を提示する。この要約は本発明の広範囲の概観ではない。本発明の基本的/重要な要素を識別すること、または本発明の範囲を線引きすることを意図するものではない。その唯一の目的は、本発明のいくつかの概念を簡素化された形式で、後に提示するより詳細な説明への前置きとして提示することである。
【0004】
本発明は、手書きパターン認識および/またはスキャンされたドキュメントからの文字認識を実行するために利用することができるパターン認識システムに備える。パターン認識システムは、重畳型ニューラルネットワーク(CNN)アーキテクチャに基づき、これはたとえば、クロスエントロピー最小化を利用してトレーニングされた特徴認識層および分類層を含む。
【0005】
【課題を解決するための手段】
本発明の一態様によれば、パターン認識システムがビットマップ入力パターン(たとえば、2次元)を受信し、複数の確率出力を提供する。パターン認識システムは、入力されたトレーニングデータから学習し、言語特有の知識、時間的ストローク入力、ペン方向情報および/またはストローク順序を必要としない。パターン認識システムは、評価されたビットマップイメージパターン(クラス)についての出力確率を提供する。出力確率は、たとえば、言語分類器、言語モデルおよび/またはセグメンテーションモデルによって利用することができる。
【0006】
パターン認識システムを、クロスエントロピー誤差最小化を利用してトレーニングすることができる。たとえば、パターン認識システムを、クロスエントロピー誤差を最小化する確率勾配降下を使用してトレーニングすることができる。
【0007】
特徴抽出層は特徴マップの重畳層を含み、この中で特徴マップが実質的に同じセットの係数または重みを使用して、受信された入力を修正するが、様々な特徴マップが異なるセットの係数を使用する。よって、特徴マップは異なる特徴を、受信された入力から抽出することができる。特徴抽出層の出力は分類層に接続される。
【0008】
分類層は、隠れユニットの完全接続層を含む。隠れユニットの量は、たとえば、学習されるタスクの複雑さ、トレーニング例の量および/または質によって決まる可能性がある。最後の分類層は出力確率を提供する。
【0009】
本発明のもう1つの態様は、重畳層および完全接続層を有するパターン認識システムに備える。パターン認識システムはビットマップ入力パターン(たとえば、2次元)を受信し、複数の出力確率を提供する。パターン認識システムを、クロスエントロピー誤差最小化を利用して(たとえば、クロスエントロピー誤差を最小化する確率勾配降下を使用して)トレーニングすることができる。
【0010】
重畳層は複数の特徴マップを含み、この中で特徴マップが同じセットのトレーニング可能パラメータ(たとえば、係数または重み)を使用して、受信された入力を修正するが、様々な特徴マップが異なるセットのトレーニング可能パラメータ(たとえば、係数または重み)を使用する。特徴マップは、入力パターンの少なくとも一部を受信する。よって、特徴マップは異なる特徴を、受信された入力から抽出することができる。重畳層の出力は完全接続層に接続される。
【0011】
完全接続層は重畳層からの出力を受信し、重畳層によって抽出された特徴を分類する。完全接続層は複数の出力確率を提供し、出力確率は、クラスに関連付けられた確率を含む。完全接続層は複数の隠れユニットを含む。完全接続層はそれ自体のトレーニング可能パラメータのセットを有することができる。
【0012】
パターン認識システムを、クロスエントロピー誤差最小化を利用してトレーニングすることができ、これは少なくとも部分的には以下の式に基づく。
【0013】
【数4】
【0014】
Eは最小化されるエネルギーであり、nはパターンを索引付けし、tは目標値であり、yn kはパターンnについてのユニットkにおけるパターン認識システム出力であり、kはクラスを索引付けする(たとえば、10個のクラスを有する手書き数字では、c=10)。この誤差式は時として当技術分野ではカルバックライブラー情報量(またはKL距離)と呼ばれる。一実施例では、このクロスエントロピー誤差(E)が第1の定数によって乗算される。もう1つの実施例では、第2の定数がEに加算される。さらに、パターン認識システムを、確率勾配降下を使用してトレーニングすることができる。
【0015】
パターン認識システムを、文字アルファベットまたはアルファベットのサブセットを認識するようにトレーニングすることができる。たとえば、入力がタブレットから生じた場合、パターン認識システムを、ペンの1または2ストロークにより生成される実質的にすべての文字について利用することができる。中国語または日本語の文字の場合、これは全体のアルファベットの500個未満のクラスのサブセットに対応する。
【0016】
本発明のさらにもう1つの態様は、第1の重畳層、第2の重畳層、第1の完全接続層および第2の完全接続層を有するパターン認識システムに備える。オプショナルで、パターン認識システムは、前処理コンポーネントを含むことができる。
【0017】
第1の重畳層および第2の重畳層が、ビットマップイメージ入力パターン(たとえば、2次元)の特徴を抽出する。第1の完全接続層および第2の完全接続層が分類器として動作する。
【0018】
第1の重畳層は複数の第1の特徴マップを含み、これが入力パターンの少なくとも一部を受信する。第1の特徴マップは第1のトレーニング可能パラメータを含み、第1の特徴に関連付けられた出力を提供する。第1の特徴マップは、トレーニング可能パラメータ(たとえば、係数または重み)の小さいカーネル(たとえば、5×5)を含み、これが入力を乗算かつ合計し、様々な位置についての結果を得る。実際には、重畳を、「特徴」のイメージをその入力イメージから抽出するトレーニング可能フィルタと見なすことができる。第1の特徴マップのための第1のトレーニング可能パラメータは、入力イメージにおける異なる空間場所について等しくすることができる(たとえば、場所から場所へ変換されるとき)。
【0019】
第2の重畳層は第1の特徴マップの出力を受信する。第2の重畳層は複数の第2の特徴マップを含み、第2の特徴マップは、第1の特徴マップの出力の少なくとも一部を受信する。第2の特徴マップは第2のトレーニング可能パラメータを含み、第2の特徴に関連付けられた出力を提供する。第2の特徴マップは同様に、トレーニング可能パラメータ(たとえば、係数または重み)の小さいカーネル(たとえば、5×5)を含み、これが入力を乗算かつ合計し、様々な位置についての結果を得る。再度、実際には、重畳を、「特徴」のイメージをその入力イメージから抽出するトレーニング可能フィルタと見なすことができる。特徴をアンダーサンプルすることができ、たとえば、フィルタを1つおきの位置で評価することができる。このアンダーサンプリングにより計算が減るだけでなく、学習される自由パラメータの数も減り、その結果としてより小さいメモリフットプリントおよびよりよい汎化が生じる。
【0020】
第1の完全接続層および第2の完全接続層が完全に接続され、第1の重畳層および第2の重畳層によって計算された特徴のための分類器を実施する。第1の完全接続層はトレーニング可能パラメータを有することができる。第1の完全接続層および第2の完全接続層は複数の隠れユニットを含む。2つの完全接続層の間の隠れユニットの数が、パターン認識システムの容量をコントロールする。
【0021】
第2の完全接続層は出力確率を提供し、トレーニング可能パラメータを有することができる。出力確率を、クラス(たとえば、パターン認識システムによって認識された目標パターン)に関連付けられた確率にすることができる。パターン認識システムを、クロスエントロピー誤差最小化を利用してトレーニングすることができる。たとえば、パターン認識システムを、クロスエントロピー誤差の程度を最小化する確率勾配降下を使用してトレーニングして、ネットワークにクラスについての確率を出力するように教えるようにすることができる。
【0022】
本発明のもう1つの態様は、パターン認識システムのためのトレーニングシステムに備え、これはパターン認識システム、クロスエントロピー誤差計算器、バックプロパゲーション勾配降下コンポーネントおよびトレーニング可能パラメータ更新コンポーネントを有する。パターン認識システムがパターン入力(たとえば、トレーニングパターン)を受信し、複数のクラス確率出力を提供する。パターン認識システムは、重畳型ニューラルネットワークアーキテクチャを利用することができる。
【0023】
クロスエントロピー誤差計算器は、パターン認識システムからの複数のクラス確率出力、およびトレーニングクラス情報(たとえば、目標クラス)を受信する。クロスエントロピー誤差計算器はクロスエントロピー誤差を、少なくとも部分的には複数のクラス確率出力およびトレーニングクラス情報(たとえば、目標クラス)に基づいて計算する。クロスエントロピー誤差計算器はこのように、トレーニングクラス情報(たとえば、目標クラス)と、パターン認識システムの複数のクラス確率出力の間の不一致を計算することができる。
【0024】
バックプロパゲーション勾配降下コンポーネントは、確率勾配降下アルゴリズム(たとえば、オンライン更新)を利用してトレーニングパラメータを更新することができ、これには雑音のある、あるいは概算されたバージョンの平均勾配を使用する。たとえば、バックプロパゲーション勾配降下コンポーネントは、トレーニングパラメータの更新において以下の式を利用することができる。
【0025】
【数5】
【0026】
ただし、Wはトレーニング可能パラメータのセットであり、εはスカラ定数である。
【0027】
トレーニング可能パラメータ更新コンポーネントは、パターン認識システムのトレーニングパラメータを、少なくとも部分的には、バックプロパゲーション勾配降下コンポーネントから受信された、更新されたトレーニングパラメータに関する情報に基づいて更新する。
【0028】
クラス歪み(たとえば、x変換、y変換、回転、スケーリング、並列の双曲変換、対角の双曲変換および/または濃化)を有するトレーニングデータのセットを利用することによって、トレーニングシステムがパターン認識システムのパターン不変性を増すことができる。
【0029】
本発明の他の態様は、パターン認識システムをトレーニングするための方法、パターン認識のトレーニングを容易にするシステムのためのコンピュータ実行可能コンポーネントを有するコンピュータ可読媒体、および2つ以上のコンピュータプロセスの間で伝送されるように適合されたデータパケットを提供し、このデータパケットは、少なくとも部分的には重畳型ニューラルネットワークに基づく、パターン認識システムのためのトレーニング可能パラメータのセットを含むデータフィールドを含み、このトレーニング可能パラメータのセットは、少なくとも部分的には勾配降下アルゴリズムに基づいて、計算されたエントロピー誤差を利用して更新される。
【0030】
前述および関係する目的の実施のために、本発明のある例示的態様を本明細書で、以下の記載および添付の図面に関連して記載する。しかし、これらの態様は、本発明の原理を実施することができる様々な方法のうち少数を示し、本発明はこのようなすべての態様およびそれらの同等物を含むように意図される。本発明の他の利点および新しい特徴は、以下の発明の詳細な説明が図面と共に考察されるとき、明らかになるであろう。
【0031】
【発明の実施の形態】
このとき本発明を、図面を参照して記載し、図面では全体で類似の参照番号を使用して類似の要素を指す。以下の記載では、説明のために多数の特定の詳細を述べ、これは本発明の完全な理解を提供するためである。しかし、本発明をこれらの特定の詳細なしに実施できることは明らかになるであろう。他の場合では、本発明の記載を容易にするために、周知の構造およびデバイスをブロック図の形式において示す。
【0032】
本願で使用するように、「コンピュータコンポーネント」という用語は、コンピュータ関連のエンティティである、ハードウェア、ハードウェアおよびソフトウェアの組合せ、ソフトウェア、または実行中のソフトウェアのいずれも指すように意図される。たとえば、コンピュータコンポーネントは、それだけに限定されるものではないが、プロセッサ上で実行中のプロセス、プロセッサ、オブジェクト、実行可能物、実行のスレッド、プログラムおよび/またはコンピュータにすることができる。例示として、サーバ上で実行中のアプリケーションおよびサーバの両方をコンピュータコンポーネントにすることができる。1つまたは複数のコンピュータコンポーネントが、プロセスおよび/または実行のスレッド内に存在することができ、コンポーネントを1つのコンピュータ上に配置することができ、かつ/または2つ以上のコンピュータの間で分散させることができる。
【0033】
図1を参照して、本発明の一態様によるパターン認識システム100を例示する。パターン認識システム100は、特徴抽出層110および分類層120を含む。パターン認識システム100はビットマップ入力パターン130(たとえば、2次元)を受信し、最初の出力確率1401ないしM番目の出力確率140Mを提供し、Mは1より大きいか、あるいは1に等しい整数である。最初の出力確率1401ないしM番目の出力確率140Mを総称して、出力確率140と称することができる。「ビットマップ入力パターン」はS次元の非時間的入力パターンを指す。
【0034】
パターン認識システム100を利用して、手書きパターン認識および/または文字認識を実行することができる。たとえば、パターンは、スキャンされたドキュメントから生ずる可能性があり、かつ/または、ペンまたはマウスの軌道の2次元ビットマップ投影にすることができる。パターン認識システム100は重畳型ニューラルネットワーク(CNN)アーキテクチャに基づき、これはたとえば、特徴抽出層110および分類層120を含む。パターン認識システム100は、入力されたトレーニングデータから学習し、言語特有の知識、時間的ストローク入力、ペン方向情報および/またはストローク順序を必要としない。パターン認識システム100は、ビットマップイメージ入力パターン130(たとえば、ダウンサンプリングされた29×29ピクセルのイメージ)を受信する。パターン認識システム100は、評価されたビットマップイメージパターン(クラス)(たとえば、2次元)についての出力確率140を提供する。出力確率140は、たとえば、言語分類器、言語モデルおよび/またはセグメンテーションモデルによって利用することができる。
【0035】
パターン認識システム100を、クロスエントロピー誤差最小化を利用してトレーニングすることができる。たとえば、パターン認識システム100を、クロスエントロピー誤差を最小化する確率勾配降下を使用してトレーニングすることができる。
【0036】
特徴抽出層110は特徴マップの重畳層を含むことができる。「重畳層」は当技術分野で周知であり、一般にニューラルネットワークのコンポーネントを指し、この中で、グループ(たとえば、特徴マップ)が異なる場所で実質的に同じセットの係数または重みを使用して、受信された入力を修正するが、様々なグループ(たとえば、特徴マップ)が異なるセットの係数を使用する。よって、グループ(たとえば、特徴マップ)は異なる特徴を、受信された入力から抽出することができる。特徴抽出層110の出力は分類層120に接続される。
【0037】
分類層120は、隠れユニットの完全接続層を含むことができる。隠れユニットの量は、たとえば、学習されるタスクの複雑さ、トレーニング例の量および/または質によって決まる可能性がある。この種類のニューラルネットワークは当技術分野で周知であり、よって簡潔にするために完全な記載を省略する。分類層120は出力確率140(たとえば、0.0から1.0の範囲のもの)を提供する。
【0038】
たとえば、10個の数字(0ないし9)を含む記号セットでは、分類層120が10個の出力確率140を0.0から1.0の範囲で提供することができる。一実施例では、出力確率140の和を1.0に等しくなるようにすることが可能であるが、必ずしも望ましくはない。別の実施例では、出力確率140の和は1.0に等しくなく、各出力ユニットが独立して対応するクラスの確率を計算する。そのようにする利点は、ある場合、実質的にすべての確率がすべてのクラスについて非常に小さく、これが、入力が有効な文字ではないこと、または信頼が非常に低いことを示すことである。加えて、和を1.0にすることにより、勾配の計算が変わる。
【0039】
図1はパターン認識システム100のためのコンポーネントを例示するブロック図であるが、特徴抽出層110および/または分類層120を1つまたは複数のコンピュータコンポーネントとして、この用語が本明細書で定義されるように実施できることを理解されたい。したがって、本発明によれば、コンピュータ実行可能コンポーネントがパターン認識システム100を実施するように動作可能であり、特徴抽出層110および/または分類層120をコンピュータ可読媒体上に格納することができ、これには、それだけに限定されるものではないが、ASIC(特定用途向け集積回路)、CD(コンパクトディスク)、DVD(デジタルビデオディスク)、ROM(読み取り専用メモリ)、フロッピー(登録商標)ディスク、ハードディスク、EEPROM(電気的消去可能プログラマブル読み取り専用メモリ)およびメモリスティックが含まれることを理解されたい。
【0040】
次に図2の、本発明の一態様によるパターン認識システム200を見る。パターン認識システム200は、重畳層210および完全接続層220を含む。パターン認識システム200はビットマップ入力パターン230(たとえば、2次元)を受信し、最初の出力確率2601ないしN番目の出力確率260Nを提供し、Nは1より大きいか、あるいは1に等しい整数である。最初の出力確率2601ないしN番目の出力確率260Nを総称して、出力確率260と称することができる。パターン認識システム200を、クロスエントロピー誤差最小化を利用して(たとえば、クロスエントロピー誤差を最小化する確率勾配降下を使用して)トレーニングすることができる。
【0041】
重畳層210は複数の特徴マップ250を含む。「重畳層」は当技術分野で周知であり、一般にニューラルネットワークのコンポーネントを指し、この中で、特徴マップ250が同じセットのトレーニング可能パラメータ(たとえば、係数または重み)を使用して、受信された入力を修正するが、様々な特徴マップ250が異なるセットのトレーニング可能パラメータ(たとえば、係数または重み)を使用する。特徴マップ250は入力パターンの少なくとも一部を受信する。よって、様々な特徴マップ250が異なる特徴を、受信された入力から抽出することができる。重畳層210の出力は完全接続層220に接続される。
【0042】
完全接続層220は重畳層210からの出力を受信し、重畳層210によって抽出された特徴を分類する。完全接続層220は複数の出力確率260を提供し、この出力確率は、クラスに関連付けられた確率を含む。完全接続層220は複数の隠れユニット240を含む。完全接続層210はそれ自体のトレーニング可能パラメータのセットを有することができる。
【0043】
一実施例では、パターン認識システム200が、クロスエントロピー誤差最小化を利用してトレーニングされ、これは少なくとも部分的には以下の式に基づく。
【0044】
【数6】
【0045】
ただし、Eは最小化されるエネルギーであり、nはパターンを索引付けし、tは目標値であり、yn kはパターンnについてのユニットkにおけるパターン認識システム出力であり、kはクラスを索引付けする(たとえば、10個のクラスを有する手書き数字では、c=10)。この誤差式は時として当技術分野ではカルバックライブラー情報量(またはKL距離)と呼ばれる。一実施例では、このクロスエントロピー誤差(E)が第1の定数によって乗算される。もう1つの実施例では、第2の定数がEに加算される。さらに、パターン認識システム200を、確率勾配降下を使用してトレーニングすることができる。
【0046】
パターン認識システム200を、文字アルファベットまたはアルファベットのサブセットを認識するようにトレーニングすることができる。たとえば、入力がタブレットから生じた場合、パターン認識システムを、ペンの1または2ストロークにより生成される実質的にすべての文字について利用することができる。中国語または日本語の文字の場合、これは全体のアルファベットの500個未満のクラスのサブセットに対応する。
【0047】
重畳層210および/または完全接続層220を1つまたは複数のコンピュータコンポーネントとして、この用語が本明細書で定義されるように実施することができる。
【0048】
このとき図3の、本発明の一態様によるパターン認識システム300を参照する。パターン認識システム300は、第1の重畳層310、第2の重畳層320、第1の完全接続層330および第2の完全接続層340を含む。
【0049】
本発明によれば、パターン認識システム300は、1つ、2つまたはそれより多い重畳層および/または1つ、2つまたはそれより多い完全接続層を使用できることを理解されたい。
【0050】
簡単に図4を見ると、本発明の一態様による重畳およびサブサンプリングの重み共有特性の例示的構成400が例示される。構成400は、入力410、第1の層420における1つの特徴マップ、および第2の層430における1つの特徴マップを含む。構成400はさらに、例示のため、問題を1次元に制限する。層内で同じ数を有する各接続は、同じ値を有するようにさせることができる。重みは層の全体で共有されない。2のサブサンプリングを第1の重畳層420上に例示する。見るとわかるように、位置の半分のみが計算され、1つおきのユニットは計算されない。別法として、重畳をあらゆる位置で計算し、平均層によって重畳に追従することも可能であり、平均層の機能は分解能を下げることである。分解能を下げる目的は、第2の層がより広いエリア上で特徴を統合できるようにすることである。他の利点は、計算の減少、メモリフットプリントの減少、学習時間の短縮、および汎化の改善である。サブサンプリングを、XおよびY方向で実行することができる。サブサンプリングはまた、外観上不可解な数29、13および4も担い、これは、図3のパターン認識システム300において境界を位置合わせする結果として生じる。
【0051】
次に図5を参照して、本発明の一態様による特徴マップの例示的構成500を例示する。第1の重畳層520は5個の特徴を有する。しかし、第2の層530は多数の特徴を有することができるが、説明のため、2つのみを例示する。第1の層520の各モジュールが第2の層530における各モジュールに接続されるが、明瞭にするため、このような接続をただ1つのみ示す。このようなモジュール接続の間に重み共有はない。各モジュール接続は、図4に示すタイプの重畳である。
【0052】
図6に例示するように、パターン認識システム300はオプショナルで前処理コンポーネント370を含むことができる。前処理コンポーネント370はトレーニング可能でなくてもよい。たとえば、前処理コンポーネント370は単にダウンサンプリング機能からなることができる。別法として、前処理コンポーネント370を非常に複雑にすることができ、たとえば、これがペン/マウスの入力を、パターン認識システム300に適した2次元ビットマップに変換することができる。
【0053】
図3に戻ると、パターン認識システム300を利用して、手書きパターン認識(たとえば、言語独立)および/またはスキャンされたドキュメントからの文字認識を実行することができる。パターン認識システム300を、文字アルファベットまたはアルファベットのサブセットを認識するようにトレーニングすることができる。たとえば、入力がタブレットから生じた場合、パターン認識システムを、ペンの1または2ストロークにより生成される実質的にすべての文字について利用することができる。中国語または日本語の文字の場合、これは全体のアルファベットの500個未満のクラスのサブセットに対応する。
【0054】
パターン認識システム300はCNNアーキテクチャに基づき、入力されたトレーニングデータから学習し、言語特有の知識、時間的ストローク入力、ペン方向情報および/またはストローク順序を必要としない。パターン認識システム300は、ビットマップイメージ入力パターン350(たとえば、2次元で非時間的)を受信する。一実施例では、ビットマップイメージ入力パターン350が、232×232の入力パターンから、たとえばオプショナルの前処理コンポーネント370によってダウンサンプルされた29×29ビットピクセルのイメージを含む。ビットマップイメージ入力パターン350は、2次元バイナリイメージ(たとえば、128×128)上に投影された、ダウンサンプルされたタブレット入力(たとえば、ペンおよび/またはスタイラスの軌道)に基づくことができる。このイメージは、Microsoft GDI+グラフィックライブラリサブルーチンを使用することによって得ることができ、これは場所(X1,Y1)から(X2,Y2)までのバイナリのピクセルを所与の太さの線として設定するものである。イメージがダウンサンプルされるとき、これがグレーレベルのイメージとなる。
【0055】
パターン認識システム300は、最初の出力確率3601ないしP番目の出力確率360Pを提供し、Pは1より大きいか、あるいは1に等しい整数である。最初の出力確率3601ないしP番目の出力確率360Pを総称して、出力確率360と称することができる。出力確率360を、クラス(たとえば、パターン認識システム300によって認識された目標パターン)に関連付けられた確率にすることができる。出力確率360は、たとえば、言語分類器、言語モデルおよび/またはセグメンテーションモデルによって利用することができる。
【0056】
第1の重畳層310および第2の重畳層320が、ビットマップイメージ入力パターン350の特徴を抽出する。第1の完全接続層330および第2の完全接続層340が分類器として動作する。
【0057】
第1の重畳層310は複数の第1の特徴マップを含み、これが入力パターンの少なくとも一部を受信する。第1の特徴マップは第1のトレーニング可能パラメータを含み、第1の特徴に関連付けられた出力を提供する。第1の特徴マップは、トレーニング可能パラメータ(たとえば、係数または重み)の小さいカーネル(たとえば、5×5)を含み、これが入力を乗算かつ合計し、様々な位置についての結果を得る。実際には、重畳を、「特徴」のイメージをその入力イメージから抽出するトレーニング可能フィルタと見なすことができる。第1の特徴マップのための第1のトレーニング可能パラメータは、入力イメージにおける異なる空間場所について実質的に等しくすることができる(たとえば、特徴マップ全体が各場所について変換されるとき)。
【0058】
一実施例では、第1の重畳層310が、場所を1つおきにスキップしながら、入力の5個の重畳を計算する。このサブサンプリングにより空間分解能が減り、したがって計算が減るだけでなく、ネットワークにいくつかの空間不変性を学習させる。第1の重畳層310によって抽出された特徴は大抵はエッジおよびライン交差検出であり、XおよびY方向における分解能の半分を入力として有する(たとえば、図4および5に関する記載を参照)。もう1つの実施例では、第1の重畳層310が5個の第1の特徴マップを含む(たとえば、156個の入力を受信する第1の特徴マップ)。
【0059】
第2の重畳層320は第1の特徴マップの出力を受信する。第2の重畳層320は複数の第2の特徴マップを含み、第2の特徴マップは、第1の特徴マップの出力の少なくとも一部を受信する。第2の特徴マップは第2のトレーニング可能パラメータを含み、第2の特徴に関連付けられた出力を提供する。第2の特徴マップは同様に、トレーニング可能パラメータ(たとえば、係数または重み)の小さいカーネル(たとえば、5×5)を含み、これが入力を乗算かつ合計し、様々な位置についての結果を得る。再度、実際には、重畳を、「特徴」のイメージをその入力イメージから抽出するトレーニング可能フィルタと見なすことができる。
【0060】
一実施例では、第2の重畳層320は第1の重畳層310に類似しており、ただし50個の特徴が第1の重畳層310の結果から抽出される。再度、サブサンプリングにより、ネットワークに位置不変性を学習させ、計算が減る。たとえば、第2の重畳層320が、曲率、ループ、ストロークエンドおよび/またはストローク交差などの特徴を抽出することができる。もう1つの実施例では、第2の重畳層320が、50個の第2の特徴マップを含む(たとえば、25個の入力を受信する第2の特徴マップ)。
【0061】
第1の完全接続層330および第2の完全接続層340が完全に接続され、第1の重畳層310および第2の重畳層320によって計算された特徴のための分類器を実施する。第1の完全接続層330はトレーニング可能パラメータを有することができる。
【0062】
第1の完全接続層330および第2の完全接続層340は、複数の隠れユニットを含む。2つの完全接続層の間の隠れユニットの数が、パターン認識システム300の容量をコントロールする。
【0063】
一実施例では、パターン認識システム300が、英語の数字(0ないし9)を認識するために使用され、第1の完全接続層330が約100個の隠れユニットを含む。もう1つの実施例では、パターン認識システム300が、1および2ストロークの日本語文字を認識するために使用され、第1の完全接続層330が約200個の隠れユニットを含む。
【0064】
第2の完全接続層は出力確率360を提供する。出力確率360を、クラス(たとえば、パターン認識システム300によって認識された目標パターン)に関連付けられた確率にすることができる。第2の完全接続層340は、トレーニング可能パラメータを有することができる。
【0065】
一実施例では、パターン認識システム300が、英語の数字を認識するために使用され、第2の完全接続層340が10個の出力確率360を提供する。もう1つの実施例では、パターン認識システム300が、1および2ストロークの日本語文字を認識するために使用され、第2の完全接続層340が約250個の出力確率360を提供する。
【0066】
パターン認識システム300を、クロスエントロピー誤差最小化を利用してトレーニングすることができる。クロスエントロピー誤差最小化は、少なくとも部分的には、上で述べた式(1)(たとえば、カルバックライブラー情報量)に基づくことができる。一実施例では、このクロスエントロピー誤差(E)が第1の定数によって乗算される。もう1つの実施例では、第2の定数がEに加算される。
【0067】
たとえば、パターン認識システム300を、クロスエントロピー誤差の程度を最小化する確率勾配降下を使用してトレーニングして、ネットワークにクラスについての確率を出力するように教えるようにすることができる。
【0068】
一実施例では、パターン認識システム300が、2次元ビットマップイメージ入力パターン350の5個の重畳を、場所を1つおきにスキップしながら計算する第1の重畳層310を有する(たとえば、図4および5に関する記載を参照)。したがって、第1の重畳層310は5個の13×13の特徴を抽出する。第2の重畳層320は同様に50個の5×5の特徴を、第1の重畳層310の結果から抽出する。第1の完全接続層330および第2の完全接続層340が100個の隠れユニットを含み、第1の重畳層310および第2の重畳層320によって計算された特徴のための分類器を実施する。
【0069】
この実施例のパターン認識システム300は、クロスエントロピー誤差の程度を最小化する確率勾配降下を使用してトレーニングされて、ネットワークに手書きの数字(0−9)のクラスについての確率を出力するように教えるようにされた。この実施例のパターン認識システム300は、MNIST標準の手書き数字データベースを利用してベンチマークされた。MNISTデータベースは、トレーニング用の60,000個の手書き数字、およびテスト用の10,000個の手書き数字からなる。この実施例のパターン認識システム300を既存のシステムに対して、誤りの割合において比較した結果を以下にリストする。
【0070】
【表1】
【0071】
したがって、この実施例のパターン認識システム300は、この標準データベース上で最良のパフォーマンスを達成した。
【0072】
加えて、パターン認識システム300は、タブレット時間的情報および/またはストローク順序に依拠しない。入力されたキーストロークはビットマップ上に投影され、これが次いでパターン認識システム300に、2次元イメージのビットマップイメージ入力パターン350として送られる。さらに、パターン認識システム300はデータの学習に基づき、したがって、多数の従来のシステムのように、手動で作られた言語特有の知識を頼りにしない。パターン認識システム300を、1ストロークのアジア文字、2ストロークのアジア文字、1ストロークの日本語文字、2ストロークの日本語文字および/または複数のASCII文字を認識するようにトレーニングすることができる。
【0073】
簡単に図7を見ると、本発明の一態様によるトレーニング可能パラメータを使用するパターン認識システム700が例示される。パターン認識システム700は入力パターンを受信し、クラス確率を出力として、少なくとも部分的にはパターンおよびトレーニング可能パラメータに基づいて提供する。
【0074】
次に図8を参照して、本発明の一態様によるバックプロパゲーション学習システム800を例示する。バックプロパゲーション学習システム800は、バックプロパゲーション学習コンポーネント810を含み、これはトレーニングデータ820(たとえば、クラス確率とトレーニングクラス情報の間のクロスエントロピー誤差に基づく)を受信し、修正されたトレーニング可能パラメータ830を(たとえば、パターン認識システムに)提供する。
【0075】
次に図9を参照して、本発明の一態様によるパターン認識システムのためのトレーニングシステム900を例示する。トレーニングシステム900は、パターン認識システム910、クロスエントロピー誤差計算器920、バックプロパゲーション勾配降下コンポーネント930およびトレーニング可能パラメータ更新コンポーネント940を含む。
【0076】
パターン認識システム910がパターン入力(たとえば、トレーニングパターン)を受信し、複数のクラス確率出力を提供する。パターン認識システム910は、以前に述べたCNNアーキテクチャを利用することができる。
【0077】
クロスエントロピー誤差計算器920は、パターン認識システム910からの複数のクラス確率出力、およびトレーニングクラス情報(たとえば、目標クラス)を受信する。クロスエントロピー誤差計算器920はクロスエントロピー誤差を、少なくとも部分的には複数のクラス確率出力およびトレーニングクラス情報(たとえば、目標クラス)に基づいて計算する。たとえば、クロスエントロピー誤差計算器920は、上で設定された式(1)を、クロスエントロピー誤差(カルバックライブラー情報量)の計算において利用することができる。一実施例では、計算されたクロスエントロピー誤差が第1の定数によって乗算される。もう1つの実施例では、第2の定数が、計算されたクロスエントロピー誤差に加算される。クロスエントロピー誤差計算器920はこのように、トレーニングクラス情報(たとえば、目標クラス)と、パターン認識システム910の複数のクラス確率出力の間の不一致を計算することができる。
【0078】
バックプロパゲーション勾配降下コンポーネント930は、確率勾配降下アルゴリズム(たとえば、オンライン更新)を利用してトレーニングパラメータを更新することができ、これには雑音のある、あるいは概算されたバージョンの平均勾配を使用する。たとえば、バックプロパゲーション勾配降下コンポーネント930は、トレーニングパラメータの更新において以下の式を利用することができる。
【0079】
【数7】
【0080】
ただし、Wはトレーニング可能パラメータのセットであり、εはスカラ定数である。
【0081】
トレーニング可能パラメータ更新コンポーネント940は、パターン認識システム910のトレーニングパラメータを、少なくとも部分的には、バックプロパゲーション勾配降下コンポーネント930から受信された、更新されたトレーニングパラメータに関する情報に基づいて更新する。
【0082】
クラス歪み(たとえば、x変換、y変換、回転、スケーリング、並列の双曲変換、対角の双曲変換および/または濃化)を有するトレーニングデータのセットを利用することによって、トレーニングシステム900がパターン認識システム910のパターン不変性を増すことができる。
【0083】
パターン認識システム910、クロスエントロピー誤差計算器920、バックプロパゲーション勾配降下コンポーネント930および/またはトレーニング可能パラメータ更新コンポーネント940を、1つまたは複数のコンピュータコンポーネントとして、この用語が本明細書で定義されるように実施することができる。
【0084】
上で図示かつ記載した例示的システムに鑑みて、本発明により実施することができる方法は、図10の流れ図を参照してよりよく理解されるであろう。説明を簡単にするために、この方法を一連のブロックとして図示かつ記載するが、本発明はブロックの順序によって限定されず、これは本発明により、いくつかのブロックが、本明細書に図示かつ記載したものとは異なる順序で、かつ/または他のブロックと同時に起こることができるからであることを理解されたい。さらに、例示したすべてのブロックが、本発明による方法を実施するために必要である可能性はない。
【0085】
本発明を一般に、1つまたは複数のコンポーネントによって実行された、プログラムモジュールなどのコンピュータ実行可能命令に関連して記載することができる。一般に、プログラムモジュールには、ルーチン、プログラム、オブジェクト、データ構造など、特定のタスクを実行するか、あるいは特定の抽象データ型を実施するものが含まれる。通常、プログラムモジュールの機能性を、様々な実施形態において望ましいように結合または分散させることができる。
【0086】
図10を見ると、本発明の一態様によるパターン認識システムをトレーニングするための方法1000が例示される。1010で、パターン認識がトレーニングパターン上で、パターン認識システムを利用して、少なくとも部分的には、トレーニング可能パラメータのセットを有する重畳型ニューラルネットワークに基づいて実行される。1020で、複数の出力確率がトレーニングパターンに基づいて提供される。1030で、パターン認識およびトレーニングパターンに関連付けられた情報によって生成された出力確率のクロスエントロピー誤差が計算される。1040で、パターン認識のために利用されたトレーニング可能パラメータのセットが、少なくとも部分的には勾配降下アルゴリズムに基づいて、計算されたクロスエントロピー誤差を利用して更新される。
【0087】
本発明のシステムおよび/または方法をパターン認識システムにおいて利用できることを理解されたい。さらに、本発明のシステムおよび/または方法を、パターン認識アプリケーションの莫大なアレイにおいて使用することができ、これには、それだけに限定されるものではないが、手書き認識システム、ドキュメントスキャナ、光学式文字認識システム、携帯情報端末(PDA)および/またはタブレットパーソナルコンポーネントシステムが含まれることは当業者には理解されよう。
【0088】
本発明の様々な態様のための追加の状況を提供するために、図11および以下の考察は、本発明の様々な態様を実施することができる、適切なオペレーティング環境1110の簡潔で一般的な記載を例示するように意図される。本発明を一般に、1つまたは複数のコンピュータまたは他のデバイスによって実行された、プログラムモジュールなどのコンピュータ実行可能命令に関連して記載するが、本発明を、他のプログラムモジュールとの組合せにおいて、かつ/またはハードウェアおよびソフトウェアの組合せとして実施することもできることは当業者には理解されよう。しかし、一般にプログラムモジュールには、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造など、特定のタスクを実行するか、あるいは特定のデータ型を実施するものが含まれる。オペレーティング環境1110は適切なオペレーティング環境の一実施例でしかなく、本発明の使用または機能性の範囲に関するいかなる限定も示唆するように意図されるものではない。本発明による使用に適切である可能性のある他の周知のコンピュータシステム、環境および/または構成には、それだけに限定されるものではないが、パーソナルコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、プログラマブルなコンシューマエレクトロニクス、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上のシステムまたはデバイスを含む分散コンピューティング環境などが含まれる。
【0089】
図11を参照すると、本発明の様々な態様を実施するための例示的環境1110がコンピュータ1112を含む。コンピュータ1112は、処理装置1114、システムメモリ1116およびシステムバス1118を含む。システムバス1118はシステムコンポーネントを結合し、これには、それだけに限定されるものではないが、システムメモリ1116を処理装置1114に結合することが含まれる。処理装置1114を、様々な使用可能なプロセッサのいずれかにすることができる。デュアルマイクロプロセッサおよび他のマルチプロセッサアーキテクチャも、処理装置1114として使用することができる。
【0090】
システムバス1118は、いくつかのタイプのバス構造のいずれかにすることができ、これには、メモリバスまたはメモリコントローラ、周辺バスまたは外部バス、および/またはローカルバスが含まれ、これは様々な使用可能なバスアーキテクチャを使用し、これには、それだけに限定されるものではないが、業界標準アーキテクチャ(ISA)、マイクロチャネルアーキテクチャ(MSA)、拡張ISA(EISA)、Intelligent Drive Electronics(IDE)、VESAローカルバス(VLB)、周辺装置相互接続(PCI)、ユニバーサルシリアルバス(USB)、アドバンスドグラフィックスポート(AGP)、Personal Computer Memory Card International Associationバス(PCMCIA)およびSmall Computer Systems Interface(SCSI)が含まれる。
【0091】
システムメモリ1116は揮発性メモリ1120および不揮発性メモリ1122を含む。基本入出力システム(BIOS)は、起動中など、コンピュータ1112内の要素の間で情報を転送するための基本ルーチンを含み、不揮発性メモリ1122に格納される。例示として、限定としてではなく、不揮発性メモリ1122には、読み取り専用メモリ(ROM)、プログラマブルROM(PROM)、電気的プログラマブルROM(EPROM)、電気的消去可能ROM(EEPROM)またはフラッシュメモリが含まれる可能性がある。揮発性メモリ1120はランダムアクセスメモリ(RAM)を含み、これが外部キャッシュメモリとして動作する。例示として、限定としてではなく、RAMは多数の形式において使用可能であり、これはシンクロナスRAM(SRAM)、ダイナミックRAM(DRAM)、シンクロナスDRAM(SDRAM)、ダブルデータレートSDRAM(DDR SDRAM)、拡張SDRAM(ESDRAM)、シンクリンクDRAM(SLDRAM)およびダイレクトラムバスRAM(DRRAM)などである。
【0092】
コンピュータ1112はまた、取外し可能/取外し不能、揮発性/不揮発性のコンピュータ記憶媒体も含む。図11は、たとえばディスク記憶装置1124を例示する。ディスク記憶装置1124には、それだけに限定されるものではないが、磁気ディスクドライブ、フロッピー(登録商標)ディスクドライブ、テープドライブ、Jazドライブ、Zipドライブ、LS−100ドライブ、フラッシュメモリカードまたはメモリスティックのようなデバイスが含まれる。加えて、ディスク記憶装置1124は記憶媒体を別々に、あるいは他の記憶媒体と組み合わせて含むことができ、これには、それだけに限定されるものではないが、コンパクトディスクROMデバイス(CD−ROM)、CD記録可能ドライブ(CD−Rドライブ)、CD書き換え可能ドライブ(CD−RWドライブ)またはデジタル多用途ディスクROMドライブ(DVD−ROM)など、光ディスクドライブが含まれる。ディスク記憶装置1124をシステムバス1118に容易に接続するため、通常は、インターフェイス1126などの取外し可能または取外し不能インターフェイスが使用される。
【0093】
図11が、ユーザと、適切なオペレーティング環境1110に記載した基本コンピュータリソースの間の媒介物として動作するソフトウェアを記載することを理解されたい。このようなソフトウェアにはオペレーティングシステム1128が含まれる。オペレーティングシステム1128は、ディスク記憶装置1124上に格納することができ、コンピュータシステム1112のリソースをコントロールかつ割り振るように動作する。システムアプリケーション1130は、システムメモリ1116内またはディスク記憶装置1124上に格納されたプログラムモジュール1132およびプログラムデータ1134を通じて、オペレーティングシステム1128によるリソースの管理を利用する。本発明を、様々なオペレーティングシステム、またはオペレーティングシステムの組合せにより実施できることを理解されたい。
【0094】
ユーザがコマンドまたは情報をコンピュータ1112に、入力デバイス1136を通じて入力する。入力デバイス1136には、それだけに限定されるものではないが、マウス、トラックボール、スタイラス、タッチパッド、キーボード、マイクロフォン、ジョイスティック、ゲームパッド、衛星放送受信アンテナ、スキャナ、TVチューナーカード、デジタルカメラ、デジタルビデオカメラ、webカメラなどのポインティングデバイスが含まれる。これらおよび他の入力デバイスが処理装置1114に、インターフェイスポート1138を介してシステムバス1118を通じて接続する。インターフェイスポート1138には、たとえば、シリアルポート、パラレルポート、ゲームポートおよびユニバーサルシリアルバス(USB)が含まれる。出力デバイス1140は、入力デバイス1136と同じタイプのポートのいくつかを使用する。したがって、たとえば、USBポートを使用して入力をコンピュータ1112に提供し、かつ情報をコンピュータ1112から出力デバイス1140に出力することができる。出力アダプタ1142が設けられて、他の出力デバイス1140の中に、特殊なアダプタを必要とするモニタ、スピーカおよびプリンタのようないくつかの出力デバイス1140があることを例示する。出力アダプタ1142には、例示として、限定としてではなく、出力デバイス1140とシステムバス1118の間の接続の手段を提供するビデオおよびサウンドカードが含まれる。リモートコンピュータ1144など、他のデバイスおよび/またはデバイスのシステムが入力および出力機能を提供することに留意されたい。
【0095】
コンピュータ1112は、ネットワーク化された環境において、リモートコンピュータ1144など、1つまたは複数のリモートコンピュータへの論理接続を使用して動作することができる。リモートコンピュータ1144は、パーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ワークステーション、マイクロプロセッサベースの機器、ピアデバイスまたは他の共通ネットワークノードなどにすることができ、通常はコンピュータ1112に関して記載した要素の多数またはすべてを含む。簡潔にするため、メモリ記憶装置1146のみをリモートコンピュータ1144と共に例示する。リモートコンピュータ1144が論理的にコンピュータ1112に、ネットワークインターフェイス1148を通じて接続され、次いで通信接続1150を介して物理的に接続される。ネットワークインターフェイス1148は、ローカルエリアネットワーク(LAN)および広域ネットワーク(WAN)など、通信ネットワークを包含する。LAN技術には、ファイバ分散データインターフェイス(FDDI)、銅分散データインターフェイス(CDDI)、イーサネット(登録商標)/IEEE 1102.3、トークンリング/IEEE 1102.5などが含まれる。WAN技術には、それだけに限定されるものではないが、2地点間リンク、サービス総合デジタル網(ISDN)およびそれらの変形形態のような回線交換網、パケット交換網およびデジタル加入者回線(DSL)が含まれる。
【0096】
通信接続1150は、ネットワークインターフェイス1148をバス1118に接続するために使用されるハードウェア/ソフトウェアを指す。通信接続1150を例示的に明瞭にするためにコンピュータ1112の内部に示すが、これをコンピュータ1112の外部にすることもできる。ネットワークインターフェイス1148への接続のために必要なハードウェア/ソフトウェアには、例示のためにのみ、通常の電話のグレードのモデムを含むモデム、ケーブルモデムおよびDSLモデム、ISDNアダプタおよびイーサネット(登録商標)カードなど、内部および外部の技術が含まれる。
【0097】
上で記載したものには本発明の実施例が含まれる。本発明を記載するための、考えられるあらゆる組合せのコンポーネントまたは方法を記載することが可能ではないことは言うまでもないが、本発明のさらに多数の組合せおよび入れ替えが可能であることは当業者には理解されよう。したがって、本発明は、付属の特許請求の範囲の精神および範囲内に入るこのような変更、修正および変形形態のすべてを包含するように意図される。さらに、「含む(includes)」という用語が詳細な説明または特許請求の範囲において使用される範囲まで、このような用語は、「含む(comprising)」という用語に類似の方法で、「含む(comprising)」が従来の言葉として特許請求の範囲において使用されるときに解釈されるように、包括的であるように意図される。
【図面の簡単な説明】
【図1】本発明の一態様によるパターン認識システムのブロック図である。
【図2】本発明の一態様によるパターン認識システムのブロック図である。
【図3】本発明の一態様によるパターン認識システムのブロック図である。
【図4】本発明の一態様による、重畳およびサブサンプリングの重み共有特性の例示的構成のブロック図である。
【図5】本発明の一態様による特徴マップの例示的構成のブロック図である。
【図6】本発明の一態様によるパターン認識システムのブロック図である。
【図7】本発明の一態様によるトレーニング可能パラメータを使用するパターン認識システムのブロック図である。
【図8】本発明の一態様によるバックプロパゲーション学習システムのブロック図である。
【図9】本発明の一態様によるパターン認識システムのためのトレーニングシステムのブロック図である。
【図10】本発明の一態様によるパターン認識システムをトレーニングするための方法を例示する流れ図である。
【図11】本発明が機能することができる一実施例のオペレーティング環境を例示する図である。
【符号の説明】
100、200、300、700、910 パターン認識システム
130、230 ビットマップ入力パターン
140、260、360 出力確率
210 重畳層
220 完全接続層
240 隠れユニット
250 特徴マップ
310、420、520 第1の重畳層
320、430、530 第2の重畳層
330 第1の完全接続層
340 第2の完全接続層
350 ビットマップイメージ入力パターン
830 トレーニング可能パラメータ
Claims (30)
- 入力を受信し、出力パターンを提供する前処理コンポーネントと、
前記前処理コンポーネントから前記出力パターンを受信する少なくとも1つの重畳層であって、複数の特徴マップを含み、トレーニング可能パラメータの重み付けされたセットを含み、前記特徴マップは前記出力パターンの少なくとも一部分のあらゆる位置で、すべてのディメンションにおいてサブサンプリングされる位置および次の隣接の2つの位置のために使用される、トレーニング可能パラメータの重み付けされたセットを使用して前記特徴マップはサブサンプリングを行い、前記出力パターンから抽出された特徴に関連付けられた出力を提供する重畳層と、
前記少なくとも1つの重畳層からの出力を受信し、前記少なくとも1つの重畳層によって抽出された前記特徴を分類し、クラスに関連付けられた確率を含む複数の出力を提供する少なくとも1つの完全接続層であって、パターン認識システムが、少なくとも部分的には式
tは目標値であり、yn kはパターンnについてのユニットkにおけるパターン認識出力であり、kは前記クラスを索引付けする完全接続層と
を含むことを特徴とするパターン認識システム。 - 前記特徴マップのための前記トレーニング可能パラメータが等しいことを特徴とする請求項1に記載のパターン認識システム。
- 確率勾配降下アルゴリズムを使用してトレーニングされることを特徴とする請求項1に記載のパターン認識システム。
- 1ストロークのアジア文字を認識するようにトレーニングされることを特徴とする請求項1に記載のパターン認識システム。
- 2ストロークのアジア文字を認識するようにトレーニングされることを特徴とする請求項1に記載のパターン認識システム。
- 1ストロークの日本語文字を認識するようにトレーニングされることを特徴とする請求項1に記載のパターン認識システム。
- 2ストロークの日本語文字を認識するようにトレーニングされることを特徴とする請求項1に記載のパターン認識システム。
- 複数のASCII文字を認識するようにトレーニングされることを特徴とする請求項1に記載のパターン認識システム。
- 入力を受信し、ビットマップ出力パターンを提供する前処理コンポーネントと、
前記前処理コンポーネントからビットマップ出力パターンを受信する第1の重畳層であって、複数の第1の特徴マップを含み、該第1の特徴マップはトレーニング可能パラメータの第1の重み付けされたセットを含み、前記ビットマップ出力パターンの少なくとも一部分のあらゆる位置で、すべてのディメンションにおいてサブサンプリングされる位置および次の隣接の2つの位置のために使用される、トレーニング可能パラメータの第1の重み付けされたセットを使用して前記特徴マップはサブサンプリングを行い、前記ビットマップ出力パターンから抽出された第1の特徴に関連付けられた出力を提供する第1の重畳層と、
前記第1の特徴マップの出力を受信する第2の重畳層であって、複数の第2の特徴マップを含み、該第2の特徴マップはトレーニング可能パラメータの第2の重み付けされたセットを含み、前記ビットマップ出力パターンの少なくとも一部分のあらゆる位置で、すべてのディメンションにおいてサブサンプリングされる位置および次の隣接の2つの位置のために使用される、トレーニング可能パラメータの第2の重み付けされたセットを使用して前記特徴マップはサブサンプリングを行い、前記第2の特徴マップが第2の特徴に関連付けられた出力を提供する第2の重畳層と、
前記第2の特徴マップの前記出力を分類し、出力を提供する第1の完全接続層と、
前記第1の完全接続層の前記出力を分類し、クラスに関連付けられた確率を含む複数の出力を提供する第2の完全接続層であって、前記パターン認識システムが、少なくとも部分的には式
tは目標値であり、yn kはパターンnについてのユニットkにおけるパターン認識出力であり、kは前記クラスを索引付けする第2の完全接続層と
を含むことを特徴とするパターン認識システム。 - 前記第1の重畳層が5個の第1の特徴マップを含むことを特徴とする請求項9に記載のパターン認識システム。
- 前記第1の特徴マップが156個の入力を受信することを特徴とする請求項10に記載のパターン認識システム。
- 前記第2の重畳層が50個の第2の特徴マップを含むことを特徴とする請求項9に記載のパターン認識システム。
- 前記第2の特徴マップが25個の入力を受信することを特徴とする請求項12に記載のパターン認識システム。
- 前記第1の完全接続層が100個の隠れユニットを含むことを特徴とする請求項9に記載のパターン認識システム。
- 前記第1の特徴マップのための第1のトレーニング可能パラメータが等しいことを特徴とする請求項9に記載のパターン認識システム。
- 確率勾配降下アルゴリズムを使用してトレーニングされることを特徴とする請求項9に記載のパターン認識システム。
- 1ストロークのアジア文字を認識するようにトレーニングされることを特徴とする請求項9に記載のパターン認識システム。
- 2ストロークのアジア文字を認識するようにトレーニングされることを特徴とする請求項9に記載のパターン認識システム。
- 1ストロークの日本語文字を認識するようにトレーニングされることを特徴とする請求項9に記載のパターン認識システム。
- 2ストロークの日本語文字を認識するようにトレーニングされることを特徴とする請求項9に記載のパターン認識システム。
- 複数のASCII文字を認識するようにトレーニングされることを特徴とする請求項9に記載のパターン認識システム。
- 請求項9に記載のパターン認識システムを使用することを特徴とするドキュメントスキャナ。
- 請求項9に記載のパターン認識システムを使用することを特徴とする光学式文字認識システム。
- 請求項9に記載のパターン認識システムを使用することを特徴とする携帯情報端末。
- 請求項9に記載のパターン認識システムを使用することを特徴とするタブレットパーソナルコンピュータ。
- パターン認識システムをトレーニングするためのシステムであって、
入力を受信し、出力パターンを提供する前処理コンポーネントと、
前記前処理コンポーネントから前記出力パターンを受信し、前記出力パターンの少なくとも一部分のあらゆる位置で、すべてのディメンションにおいてサブサンプリングされる位置および次の隣接の2つの位置のために使用される、トレーニング可能パラメータの重み付けされたセットを使用してサブサンプリングを行う重畳型ニューラルネットワークであって、複数のクラス確率出力を提供する重畳型ニューラルネットワークを含むパターン認識システムと、
クロスエントロピー誤差を、少なくとも部分的には前記複数のクラス確率出力およびトレーニングクラス情報に基づいて、
確率勾配降下アルゴリズムを利用して、少なくとも部分的には前記クロスエントロピー誤差に基づいて前記パターン認識システムのトレーニング可能パラメータの重み付けされたセットを更新するバックプロパゲーション勾配降下コンポーネントと、
前記パターン認識システムの前記トレーニング可能パラメータの重み付けされたセットを更新するトレーニング可能パラメータ更新コンポーネントと
を含むことを特徴とするシステム。 - パターン認識システムをトレーニングするための方法であって、
前処理コンポーネントを使用してトレーニングパターンを前処理し、
前記前処理コンポーネントからの出力についてのパターン認識を、少なくとも部分的には、トレーニング可能パラメータの重み付けされたセットを有する重畳型ニューラルネットワークに基づいて、パターン認識システムを利用して実行するステップと、
複数のクラス確率出力を前記トレーニングパターンに基づいて提供するステップと、
クロスエントロピー誤差を、少なくとも部分的には、前記複数のクラス確率出力および前記トレーニングパターンに関連付けられた情報に基づいて、
前記トレーニング可能パラメータの重み付けされたセットを、少なくとも部分的には勾配降下アルゴリズムに基づいて、計算されたエントロピー誤差を利用して更新するステップと
を含むことを特徴とする方法。 - パターン認識のトレーニングを容易にするシステムのコンピュータ実行可能コンポーネントを格納するコンピュータ可読媒体であって、
入力を受信し、ビットマップ出力パターンを提供する前処理コンポーネントと、
前記前処理コンポーネントから出力パターンを受信し、前記出力パターンの少なくとも一部分のあらゆる位置で、すべてのディメンションにおいてサブサンプリングされる位置および次の隣接の2つの位置のために使用される、トレーニング可能パラメータの重み付けされたセットを使用してサブサンプリングを行う重畳型ニューラルネットワークであって、複数のクラス確率出力を提供する重畳型ニューラルネットワークを含むパターン認識コンポーネントと、
クロスエントロピー誤差を、少なくとも部分的には前記複数のクラス確率出力およびトレーニングクラス情報に基づいて、
確率勾配降下アルゴリズムを利用して、少なくとも部分的には前記クロスエントロピー誤差に基づいて前記パターン認識システムのトレーニング可能パラメータの重み付けされたセットを更新するバックプロパゲーション勾配降下コンポーネントと、
前記パターン認識システムの前記トレーニング可能パラメータの重み付けされたセットを更新するトレーニング可能パラメータ更新コンポーネントと
を含むことを特徴とするコンピュータ可読媒体。 - パターン認識システムのためのトレーニングシステムであって、
入力を受け付ける手段と、
前記入力を前処理する手段と、
当該前処理されたパターンを出力する手段と、
前記前処理されたパターンを受信し、前記出力パターンの少なくとも一部分のあらゆる位置で、すべてのディメンションにおいてサブサンプリングされる位置および次の隣接の2つの位置のために使用される、トレーニング可能パラメータの重み付けされたセットを使用してサブサンプリングを行う重畳型ニューラルネットワークであって、複数のクラス確率出力を提供する重畳型ニューラルネットワークを利用して、パターン認識を実行する手段と、
クロスエントロピー誤差を、少なくとも部分的には前記複数のクラス確率出力およびトレーニングクラス情報に基づいて、
パターン認識を実行する手段のトレーニング可能パラメータの重み付けされたセットを更新する手段であって、確率勾配降下アルゴリズムを利用して前記パターン認識システムの前記トレーニング可能パラメータの重み付けされたセットを、少なくとも部分的には前記クロスエントロピー誤差に基づいて更新する、更新手段と
を含むことを特徴とするトレーニングシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/099,388 US7016529B2 (en) | 2002-03-15 | 2002-03-15 | System and method facilitating pattern recognition |
US10/099,388 | 2002-03-15 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003296737A JP2003296737A (ja) | 2003-10-17 |
JP4142463B2 true JP4142463B2 (ja) | 2008-09-03 |
Family
ID=27765447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003037384A Expired - Fee Related JP4142463B2 (ja) | 2002-03-15 | 2003-02-14 | パターン認識を容易にするシステムおよび方法 |
Country Status (7)
Country | Link |
---|---|
US (2) | US7016529B2 (ja) |
EP (1) | EP1345161A3 (ja) |
JP (1) | JP4142463B2 (ja) |
KR (1) | KR100838981B1 (ja) |
CN (1) | CN1301482C (ja) |
HK (1) | HK1058986A1 (ja) |
TW (1) | TWI286708B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012165196A (ja) * | 2011-02-07 | 2012-08-30 | Nippon Hoso Kyokai <Nhk> | 判定装置及び判定方法 |
Families Citing this family (110)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7418128B2 (en) * | 2003-07-31 | 2008-08-26 | Microsoft Corporation | Elastic distortions for automatic generation of labeled data |
JP3861157B2 (ja) | 2004-02-27 | 2006-12-20 | 国立大学法人広島大学 | 参照データ最適化装置とパターン認識システム |
JP2005309077A (ja) * | 2004-04-21 | 2005-11-04 | Fuji Xerox Co Ltd | 故障診断方法および故障診断装置、並びに搬送装置および画像形成装置、並びにプログラムおよび記憶媒体 |
CN1331092C (zh) * | 2004-05-17 | 2007-08-08 | 中国科学院半导体研究所 | 模式识别专用神经网络计算机系统 |
JP2005352900A (ja) * | 2004-06-11 | 2005-12-22 | Canon Inc | 情報処理装置、情報処理方法、パターン認識装置、及びパターン認識方法 |
EP1779295A4 (en) * | 2004-07-26 | 2012-07-04 | Automotive Systems Lab | SYSTEM FOR PROTECTING USERS OF THE ROAD IN A DANGER SITUATION |
US7653244B2 (en) * | 2005-02-22 | 2010-01-26 | Potts Wesley F | Intelligent importation of information from foreign applications user interface |
US7689520B2 (en) * | 2005-02-25 | 2010-03-30 | Microsoft Corporation | Machine learning system and method for ranking sets of data using a pairing cost function |
GB0505396D0 (en) * | 2005-03-16 | 2005-04-20 | Imp College Innovations Ltd | Spatio-temporal self organising map |
WO2007020551A2 (en) * | 2005-08-15 | 2007-02-22 | Philips Intellectual Property & Standards Gmbh | User interface system for a personal healthcare environment |
US7747070B2 (en) * | 2005-08-31 | 2010-06-29 | Microsoft Corporation | Training convolutional neural networks on graphics processing units |
US20080168049A1 (en) * | 2007-01-08 | 2008-07-10 | Microsoft Corporation | Automatic acquisition of a parallel corpus from a network |
JP5184824B2 (ja) * | 2007-06-15 | 2013-04-17 | キヤノン株式会社 | 演算処理装置及び方法 |
US8315482B2 (en) * | 2007-06-26 | 2012-11-20 | Microsoft Corporation | Integrated platform for user input of digital ink |
US8094939B2 (en) | 2007-06-26 | 2012-01-10 | Microsoft Corporation | Digital ink-based search |
US8041120B2 (en) * | 2007-06-26 | 2011-10-18 | Microsoft Corporation | Unified digital ink recognition |
JP5255072B2 (ja) * | 2008-01-24 | 2013-08-07 | ボールター インク | 悪性及び良性組織病変の識別方法 |
US9443141B2 (en) * | 2008-06-02 | 2016-09-13 | New York University | Method, system, and computer-accessible medium for classification of at least one ICTAL state |
US8661030B2 (en) | 2009-04-09 | 2014-02-25 | Microsoft Corporation | Re-ranking top search results |
JP5445062B2 (ja) * | 2009-11-24 | 2014-03-19 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
KR101268520B1 (ko) * | 2009-12-14 | 2013-06-04 | 한국전자통신연구원 | 영상 인식 장치 및 방법 |
US8639649B2 (en) * | 2010-03-23 | 2014-01-28 | Microsoft Corporation | Probabilistic inference in differentially private systems |
CN101883425A (zh) * | 2010-06-04 | 2010-11-10 | 哈尔滨工程大学 | 基于熵权灰关联的目标跟踪与识别装置及方法 |
KR101137533B1 (ko) * | 2010-09-03 | 2012-04-20 | 경희대학교 산학협력단 | 패턴 인식을 위한 특징 데이터 선택 방법 및 그 방법을 이용한 특징 데이터 선택 장치 |
US9465985B2 (en) | 2013-06-09 | 2016-10-11 | Apple Inc. | Managing real-time handwriting recognition |
US20140361983A1 (en) | 2013-06-09 | 2014-12-11 | Apple Inc. | Real-time stroke-order and stroke-direction independent handwriting recognition |
US10820801B2 (en) | 2013-09-25 | 2020-11-03 | Bardy Diagnostics, Inc. | Electrocardiography monitor configured for self-optimizing ECG data compression |
US20190167139A1 (en) | 2017-12-05 | 2019-06-06 | Gust H. Bardy | Subcutaneous P-Wave Centric Insertable Cardiac Monitor For Long Term Electrocardiographic Monitoring |
US9730593B2 (en) | 2013-09-25 | 2017-08-15 | Bardy Diagnostics, Inc. | Extended wear ambulatory electrocardiography and physiological sensor monitor |
US10799137B2 (en) | 2013-09-25 | 2020-10-13 | Bardy Diagnostics, Inc. | System and method for facilitating a cardiac rhythm disorder diagnosis with the aid of a digital computer |
US10624551B2 (en) | 2013-09-25 | 2020-04-21 | Bardy Diagnostics, Inc. | Insertable cardiac monitor for use in performing long term electrocardiographic monitoring |
US10736531B2 (en) | 2013-09-25 | 2020-08-11 | Bardy Diagnostics, Inc. | Subcutaneous insertable cardiac monitor optimized for long term, low amplitude electrocardiographic data collection |
WO2015048194A1 (en) | 2013-09-25 | 2015-04-02 | Bardy Diagnostics, Inc. | Self-contained personal air flow sensing monitor |
US9615763B2 (en) | 2013-09-25 | 2017-04-11 | Bardy Diagnostics, Inc. | Ambulatory electrocardiography monitor recorder optimized for capturing low amplitude cardiac action potential propagation |
US10888239B2 (en) | 2013-09-25 | 2021-01-12 | Bardy Diagnostics, Inc. | Remote interfacing electrocardiography patch |
US9700227B2 (en) | 2013-09-25 | 2017-07-11 | Bardy Diagnostics, Inc. | Ambulatory electrocardiography monitoring patch optimized for capturing low amplitude cardiac action potential propagation |
US10433748B2 (en) | 2013-09-25 | 2019-10-08 | Bardy Diagnostics, Inc. | Extended wear electrocardiography and physiological sensor monitor |
US10251576B2 (en) | 2013-09-25 | 2019-04-09 | Bardy Diagnostics, Inc. | System and method for ECG data classification for use in facilitating diagnosis of cardiac rhythm disorders with the aid of a digital computer |
US9345414B1 (en) | 2013-09-25 | 2016-05-24 | Bardy Diagnostics, Inc. | Method for providing dynamic gain over electrocardiographic data with the aid of a digital computer |
US10463269B2 (en) | 2013-09-25 | 2019-11-05 | Bardy Diagnostics, Inc. | System and method for machine-learning-based atrial fibrillation detection |
US11723575B2 (en) | 2013-09-25 | 2023-08-15 | Bardy Diagnostics, Inc. | Electrocardiography patch |
US9408551B2 (en) | 2013-11-14 | 2016-08-09 | Bardy Diagnostics, Inc. | System and method for facilitating diagnosis of cardiac rhythm disorders with the aid of a digital computer |
US10806360B2 (en) | 2013-09-25 | 2020-10-20 | Bardy Diagnostics, Inc. | Extended wear ambulatory electrocardiography and physiological sensor monitor |
US9619660B1 (en) | 2013-09-25 | 2017-04-11 | Bardy Diagnostics, Inc. | Computer-implemented system for secure physiological data collection and processing |
US9655538B2 (en) | 2013-09-25 | 2017-05-23 | Bardy Diagnostics, Inc. | Self-authenticating electrocardiography monitoring circuit |
US10433751B2 (en) | 2013-09-25 | 2019-10-08 | Bardy Diagnostics, Inc. | System and method for facilitating a cardiac rhythm disorder diagnosis based on subcutaneous cardiac monitoring data |
US9361515B2 (en) * | 2014-04-18 | 2016-06-07 | Xerox Corporation | Distance based binary classifier of handwritten words |
CN104182735A (zh) * | 2014-08-18 | 2014-12-03 | 厦门美图之家科技有限公司 | 训练优化的基于卷积神经网络的色情图像或视频检测方法 |
US10417525B2 (en) | 2014-09-22 | 2019-09-17 | Samsung Electronics Co., Ltd. | Object recognition with reduced neural network weight precision |
US9520128B2 (en) * | 2014-09-23 | 2016-12-13 | Intel Corporation | Frame skipping with extrapolation and outputs on demand neural network for automatic speech recognition |
CN107004138A (zh) * | 2014-12-17 | 2017-08-01 | 诺基亚技术有限公司 | 利用神经网络的对象检测 |
US10360498B2 (en) * | 2014-12-18 | 2019-07-23 | Facebook, Inc. | Unsupervised training sets for content classification |
CN110826420B (zh) * | 2015-01-19 | 2023-05-16 | 创新先进技术有限公司 | 人脸识别模型的训练方法及装置 |
US10515304B2 (en) | 2015-04-28 | 2019-12-24 | Qualcomm Incorporated | Filter specificity as training criterion for neural networks |
US11244225B2 (en) * | 2015-07-10 | 2022-02-08 | Samsung Electronics Co., Ltd. | Neural network processor configurable using macro instructions |
US10860837B2 (en) * | 2015-07-20 | 2020-12-08 | University Of Maryland, College Park | Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition |
US9805305B2 (en) * | 2015-08-07 | 2017-10-31 | Yahoo Holdings, Inc. | Boosted deep convolutional neural networks (CNNs) |
US11423323B2 (en) | 2015-09-02 | 2022-08-23 | Qualcomm Incorporated | Generating a sparse feature vector for classification |
CN106548124B (zh) | 2015-09-17 | 2021-09-07 | 松下知识产权经营株式会社 | 主题推定系统、主题推定方法 |
US10380479B2 (en) | 2015-10-08 | 2019-08-13 | International Business Machines Corporation | Acceleration of convolutional neural network training using stochastic perforation |
CN105170144A (zh) * | 2015-10-19 | 2015-12-23 | 河海大学 | 锆、银共掺杂的纳米二氧化钛可见光光催化剂 |
KR102459677B1 (ko) * | 2015-11-05 | 2022-10-28 | 삼성전자주식회사 | 알고리즘 학습 방법 및 장치 |
US9785855B2 (en) | 2015-12-17 | 2017-10-10 | Conduent Business Services, Llc | Coarse-to-fine cascade adaptations for license plate recognition with convolutional neural networks |
CN106951753B (zh) * | 2016-01-06 | 2020-08-21 | 北京三星通信技术研究有限公司 | 一种心电信号的认证方法和认证装置 |
US9424494B1 (en) * | 2016-01-28 | 2016-08-23 | International Business Machines Corporation | Pure convolutional neural network localization |
CN107220641B (zh) * | 2016-03-22 | 2020-06-26 | 华南理工大学 | 一种基于深度学习的多语言文本分类方法 |
CN107239786B (zh) * | 2016-03-29 | 2022-01-11 | 阿里巴巴集团控股有限公司 | 一种字符识别方法和装置 |
JP6727543B2 (ja) * | 2016-04-01 | 2020-07-22 | 富士ゼロックス株式会社 | 画像パターン認識装置及びプログラム |
US10354168B2 (en) * | 2016-04-11 | 2019-07-16 | A2Ia S.A.S. | Systems and methods for recognizing characters in digitized documents |
DK179329B1 (en) | 2016-06-12 | 2018-05-07 | Apple Inc | Handwriting keyboard for monitors |
CN106097355A (zh) * | 2016-06-14 | 2016-11-09 | 山东大学 | 基于卷积神经网络的胃肠道肿瘤显微高光谱图像处理方法 |
CN106406445B (zh) * | 2016-09-09 | 2020-01-14 | 华南理工大学 | 基于智能眼镜的视障辅助中文文本阅读系统 |
US20180089587A1 (en) * | 2016-09-26 | 2018-03-29 | Google Inc. | Systems and Methods for Communication Efficient Distributed Mean Estimation |
US20180096261A1 (en) * | 2016-10-01 | 2018-04-05 | Intel Corporation | Unsupervised machine learning ensemble for anomaly detection |
US10366328B2 (en) * | 2017-09-19 | 2019-07-30 | Gyrfalcon Technology Inc. | Approximating fully-connected layers with multiple arrays of 3x3 convolutional filter kernels in a CNN based integrated circuit |
US10366302B2 (en) * | 2016-10-10 | 2019-07-30 | Gyrfalcon Technology Inc. | Hierarchical category classification scheme using multiple sets of fully-connected networks with a CNN based integrated circuit as feature extractor |
US10175980B2 (en) | 2016-10-27 | 2019-01-08 | Google Llc | Neural network compute tile |
US10360163B2 (en) * | 2016-10-27 | 2019-07-23 | Google Llc | Exploiting input data sparsity in neural network compute units |
US9959498B1 (en) | 2016-10-27 | 2018-05-01 | Google Llc | Neural network instruction set architecture |
KR102631381B1 (ko) | 2016-11-07 | 2024-01-31 | 삼성전자주식회사 | 컨볼루션 신경망 처리 방법 및 장치 |
TWI607387B (zh) | 2016-11-25 | 2017-12-01 | 財團法人工業技術研究院 | 字符辨識系統及其字符辨識方法 |
WO2018101985A1 (en) | 2016-12-02 | 2018-06-07 | Avent, Inc. | System and method for navigation to a target anatomical object in medical imaging-based procedures |
JP6833496B2 (ja) * | 2016-12-19 | 2021-02-24 | 株式会社東芝 | 学習装置、紙葉類判別装置および紙葉類判別方法 |
CN108268885B (zh) * | 2017-01-03 | 2020-06-30 | 京东方科技集团股份有限公司 | 特征点检测方法、设备和计算机可读存储介质 |
US10540961B2 (en) * | 2017-03-13 | 2020-01-21 | Baidu Usa Llc | Convolutional recurrent neural networks for small-footprint keyword spotting |
KR102548718B1 (ko) | 2017-06-07 | 2023-06-28 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US10242292B2 (en) * | 2017-06-13 | 2019-03-26 | Digital Surgery Limited | Surgical simulation for training detection and classification neural networks |
US10552474B2 (en) | 2017-08-16 | 2020-02-04 | Industrial Technology Research Institute | Image recognition method and device thereof |
WO2019036845A1 (en) * | 2017-08-21 | 2019-02-28 | Nokia Technologies Oy | METHOD, SYSTEM AND APPARATUS FOR PATTERN RECOGNITION |
CN107819790A (zh) * | 2017-12-08 | 2018-03-20 | 中盈优创资讯科技有限公司 | 攻击报文的识别方法及装置 |
CN110059794A (zh) * | 2018-01-18 | 2019-07-26 | 北京京东金融科技控股有限公司 | 人机识别方法及装置、电子设备、存储介质 |
CN108399382A (zh) | 2018-02-13 | 2018-08-14 | 阿里巴巴集团控股有限公司 | 车险图像处理方法和装置 |
CN108536759B (zh) * | 2018-03-20 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 一种样本回放数据存取方法及装置 |
US11036976B2 (en) * | 2018-05-17 | 2021-06-15 | Hasan Mirjan | Methods and systems of handwriting recognition in virtualized-mail services |
US20200043039A1 (en) * | 2018-08-02 | 2020-02-06 | GET IT FIRST, Inc. | Understanding social media user behavior |
US12111878B2 (en) | 2018-10-12 | 2024-10-08 | International Business Machines Corporation | Efficient processing of convolutional neural network layers using analog-memory-based hardware |
US11194467B2 (en) | 2019-06-01 | 2021-12-07 | Apple Inc. | Keyboard management user interfaces |
US11116451B2 (en) | 2019-07-03 | 2021-09-14 | Bardy Diagnostics, Inc. | Subcutaneous P-wave centric insertable cardiac monitor with energy harvesting capabilities |
US11696681B2 (en) | 2019-07-03 | 2023-07-11 | Bardy Diagnostics Inc. | Configurable hardware platform for physiological monitoring of a living body |
US11096579B2 (en) | 2019-07-03 | 2021-08-24 | Bardy Diagnostics, Inc. | System and method for remote ECG data streaming in real-time |
CN110610754A (zh) * | 2019-08-16 | 2019-12-24 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种沉浸式可穿戴诊断与治疗装置 |
US11769180B2 (en) * | 2019-10-15 | 2023-09-26 | Orchard Technologies, Inc. | Machine learning systems and methods for determining home value |
KR102313215B1 (ko) * | 2019-11-29 | 2021-10-15 | 한국생산기술연구원 | 특징 생성 기술을 이용한 머신러닝 기반 결함 분류 장치 및 방법 |
US20210232857A1 (en) * | 2020-01-28 | 2021-07-29 | Samsung Electronics Co., Ltd. | Electronic device and controlling method of electronic device |
KR102152260B1 (ko) | 2020-03-04 | 2020-09-04 | 주식회사 로민 | 키-밸류 관계인식장치 및 키-밸류 관계인식방법 |
CN111584029B (zh) * | 2020-04-30 | 2023-04-18 | 天津大学 | 基于判别式对抗网络的脑电自适应模型及在康复中的应用 |
US11562240B2 (en) | 2020-05-27 | 2023-01-24 | International Business Machines Corporation | Efficient tile mapping for row-by-row convolutional neural network mapping for analog artificial intelligence network inference |
US20220172080A1 (en) * | 2020-12-02 | 2022-06-02 | International Business Machines Corporation | Learning unpaired multimodal feature matching for semi-supervised learning |
US11868443B1 (en) * | 2021-05-12 | 2024-01-09 | Amazon Technologies, Inc. | System for training neural network using ordered classes |
WO2022256850A1 (en) * | 2021-06-04 | 2022-12-08 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and methods to assess neonatal health risk and uses thereof |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5317673A (en) | 1992-06-22 | 1994-05-31 | Sri International | Method and apparatus for context-dependent estimation of multiple probability distributions of phonetic classes with multilayer perceptrons in a speech recognition system |
US5647022A (en) | 1992-10-13 | 1997-07-08 | Lucent Technologies Inc. | Method and apparatus for symbol recognition using multidimensional preprocessing and symbol sorting |
US5625708A (en) | 1992-10-13 | 1997-04-29 | Lucent Technologies, Inc. | Method and apparatus for symbol recognition using multidimensional preprocessing |
US5465321A (en) * | 1993-04-07 | 1995-11-07 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Hidden markov models for fault detection in dynamic systems |
US5572628A (en) | 1994-09-16 | 1996-11-05 | Lucent Technologies Inc. | Training system for neural networks |
US5835633A (en) * | 1995-11-20 | 1998-11-10 | International Business Machines Corporation | Concurrent two-stage multi-network optical character recognition system |
US6104833A (en) * | 1996-01-09 | 2000-08-15 | Fujitsu Limited | Pattern recognizing apparatus and method |
US5835893A (en) | 1996-02-15 | 1998-11-10 | Atr Interpreting Telecommunications Research Labs | Class-based word clustering for speech recognition using a three-level balanced hierarchical similarity |
US6038337A (en) | 1996-03-29 | 2000-03-14 | Nec Research Institute, Inc. | Method and apparatus for object recognition |
JPH10150560A (ja) * | 1996-11-19 | 1998-06-02 | Ricoh Co Ltd | 画像処理装置 |
US6324532B1 (en) * | 1997-02-07 | 2001-11-27 | Sarnoff Corporation | Method and apparatus for training a neural network to detect objects in an image |
US6128606A (en) | 1997-03-11 | 2000-10-03 | At&T Corporation | Module for constructing trainable modular network in which each module inputs and outputs data structured as a graph |
US6028956A (en) * | 1997-04-04 | 2000-02-22 | Kofile Inc. | Object location and span determination method and apparatus which determines a location and span of an object in an image |
DE19842405A1 (de) * | 1998-09-16 | 2000-03-23 | Philips Corp Intellectual Pty | Spracherkennungsverfahren mit Konfidenzmaßbewertung |
-
2002
- 2002-03-15 US US10/099,388 patent/US7016529B2/en not_active Expired - Fee Related
-
2003
- 2003-02-04 EP EP03002513A patent/EP1345161A3/en not_active Withdrawn
- 2003-02-10 TW TW092102698A patent/TWI286708B/zh not_active IP Right Cessation
- 2003-02-14 KR KR1020030009377A patent/KR100838981B1/ko not_active IP Right Cessation
- 2003-02-14 JP JP2003037384A patent/JP4142463B2/ja not_active Expired - Fee Related
- 2003-02-15 CN CNB031200907A patent/CN1301482C/zh not_active Expired - Fee Related
-
2004
- 2004-03-10 HK HK04101743A patent/HK1058986A1/xx not_active IP Right Cessation
-
2006
- 2006-01-09 US US11/327,913 patent/US7286699B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012165196A (ja) * | 2011-02-07 | 2012-08-30 | Nippon Hoso Kyokai <Nhk> | 判定装置及び判定方法 |
Also Published As
Publication number | Publication date |
---|---|
EP1345161A2 (en) | 2003-09-17 |
US20030174881A1 (en) | 2003-09-18 |
CN1445715A (zh) | 2003-10-01 |
KR100838981B1 (ko) | 2008-06-17 |
US7286699B2 (en) | 2007-10-23 |
KR20030074141A (ko) | 2003-09-19 |
US7016529B2 (en) | 2006-03-21 |
TWI286708B (en) | 2007-09-11 |
JP2003296737A (ja) | 2003-10-17 |
CN1301482C (zh) | 2007-02-21 |
EP1345161A3 (en) | 2011-01-19 |
US20060110040A1 (en) | 2006-05-25 |
TW200304095A (en) | 2003-09-16 |
HK1058986A1 (en) | 2004-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4142463B2 (ja) | パターン認識を容易にするシステムおよび方法 | |
US11138423B2 (en) | Region proposal networks for automated bounding box detection and text segmentation | |
Naz et al. | Urdu Nasta’liq text recognition system based on multi-dimensional recurrent neural network and statistical features | |
Balaha et al. | Automatic recognition of handwritten Arabic characters: a comprehensive review | |
Shanthi et al. | A novel SVM-based handwritten Tamil character recognition system | |
Gupta et al. | CNN-based multilingual handwritten numeral recognition: a fusion-free approach | |
US5105468A (en) | Time delay neural network for printed and cursive handwritten character recognition | |
Latif et al. | Deep convolutional neural network for recognition of unified multi-language handwritten numerals | |
Ahmad et al. | Offline Urdu Nastaleeq optical character recognition based on stacked denoising autoencoder | |
Das et al. | H‐WordNet: a holistic convolutional neural network approach for handwritten word recognition | |
Zhou et al. | Discriminative quadratic feature learning for handwritten Chinese character recognition | |
CN107704859A (zh) | 一种基于深度学习训练框架的文字识别方法 | |
Rao et al. | Exploring deep learning techniques for kannada handwritten character recognition: A boon for digitization | |
Zheng et al. | Stretching deep architectures for text recognition | |
Ghadhban et al. | Survey of offline Arabic handwriting word recognition | |
Bhardwaj | Handwritten Devanagari character recognition using deep learning-convolutional neural network (CNN) model | |
Arafat et al. | Two stream deep neural network for sequence-based Urdu ligature recognition | |
Ahmed et al. | An expert system for general symbol recognition | |
Yogesh et al. | Artificial intelligence based handwriting digit recognition (hdr)-a technical review | |
Cecotti | Hierarchical k-nearest neighbor with GPUs and a high performance cluster: Application to handwritten character recognition | |
Rabhi et al. | Multi-lingual handwriting recovery framework based on convolutional denoising autoencoder with attention model | |
Ali Nur et al. | Handwritten Geez Digit Recognition Using Deep Learning | |
Abdurahman | Handwritten Amharic character recognition system using convolutional neural networks | |
Saini et al. | Kannadares-next: A deep residual network for Kannada numeral recognition | |
Bhardwaj | An Accurate Deep-Learning Model for Handwritten Devanagari Character Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080418 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080516 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080612 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110620 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110620 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120620 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120620 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130620 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |