JP2009501965A - ニューラル・ネットワークを用いた手書き認識 - Google Patents

ニューラル・ネットワークを用いた手書き認識 Download PDF

Info

Publication number
JP2009501965A
JP2009501965A JP2008518424A JP2008518424A JP2009501965A JP 2009501965 A JP2009501965 A JP 2009501965A JP 2008518424 A JP2008518424 A JP 2008518424A JP 2008518424 A JP2008518424 A JP 2008518424A JP 2009501965 A JP2009501965 A JP 2009501965A
Authority
JP
Japan
Prior art keywords
language
network
primary output
neural network
primary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008518424A
Other languages
English (en)
Other versions
JP2009501965A5 (ja
Inventor
ピットマン,ジェームズ・エイ
マヌ,ミティカ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2009501965A publication Critical patent/JP2009501965A/ja
Publication of JP2009501965A5 publication Critical patent/JP2009501965A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification
    • G06V30/373Matching; Classification using a special pattern or subpattern alphabet

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】 既存のニューラル・ネットワークから、手書き認識のための新しいニューラル・ネットワークを構築することを可能にする。
【解決手段】 所望の目標言語に基づいて、開始言語に既存のニューラル・ネットワークを選択する。ニューラル・ネットワークを修正して、目標言語の文字を認識するために用いることができるようにし、更に修正したニューラル・ネットワークを、目標言語の手書き認識装置に用いる。修正は、既存のニューラル・ネットワークの一次出力の1つ以上をコピーすることを含む。所望の目標言語に基づいて、しかるべき開始言語を選択することができる。加えて、多数の異なる言語から文字を認識するように構成されている比較的大型のニューラル・ネットワークである「スーパー・ネットワーク」を提供することができる。このようなスーパー・ネットワークを用いて、認識することを望む言語に必要でないスーパー・ネットワークからの出力を遮断するマスクをプログラミングすることによって、手書き認識装置をカスタム化することができる。
【選択図】 図2

Description

近年、接触感応画面を有するユーザ入力モードを含み、その上にユーザがスタイラスを用いて書き込めるコンピュータが増々多くなっている。これによって、ユーザは手書きの電子インクを入力することができる。これは、多くの用途にとって、コンピュータと対話する最も便利な方法の1つであると、広く考えられている。このユーザ入力モードの信頼性を高めるために、ユーザの手書き入力を解釈するための手書き認識が開発されている。
技術が円熟したために、多くの手書き認識装置は今日ではニューラル・ネットワークを用いて、手書き入力の初期分析および分類を行っている。ニューラル・ネットワークの使用は、手書き認識において大きな改良であり、認識の精度は何倍にも向上した。高精度のニューラル・ネットワークを作成するためには、ニューラル・ネットワークを訓練しなければならない。即ち、これらには繰り返し手書き入力の実際のサンプルを供給し、ニューラル・ネットワークが手書き入力の解釈において正しく推察したか否かについてフィードバックを与える。また、有効な訓練は、手書き入力サンプルを大多数の異なる人から供給することも意味する。その理由は、ひとりひとりの書き方が異なるからである。ニューラル・ネットワークは、ユーザが最終的な成果に満足するならば、広範囲の書き方を認識できる程にロバストなはずである。
取り込まなければならない手書きサンプルの数が限定的であるため、そしてニューラル・ネットワークを適正に訓練するために膨大な量の時間を費やさなければならないため、ニューラル・ネットワークを最初から訓練するには、費用がかかり過ぎる。更に、訓練は1つの言語のみで行われるのが通例である。言い換えると、ニューラル・ネットワークは、英語または中国語の筆記を認識するために、特定的に訓練されることもある。世界には非常に多くの言語が存在するので、多くの言語には高品質のニューラル・ネットワークは存在しない。実際、知られていない方の言語の一部については、ニューラル・ネットワークは全く存在しない。単に、知られていない方の言語のためにニューラル・ネットワークを構築し訓練するためにばく大な資金を投資する金銭的動機が、コンピュータおよび/またはソフトウェアの会社には不十分なのである。
ニューラル・ネットワークが利用できない、または十分な品質のニューラル・ネットワークが入手できない言語において、費用を抑えたおよび/または簡素化した手書き認識能力を設ける方法が求められている。多数の言語のために最初からニューラル・ネットワークを構築し訓練することは、費用および時間がかかり過ぎる。
したがって、この開示の形態は、既存のニューラル・ネットワークから、新しいニューラル・ネットワークを構築することを目的とする。所望の目標言語に基づいて、開始言語に既存のニューラル・ネットワークを選択する。ニューラル・ネットワークを修正して、目標言語の文字を認識するために用いることができるようにし、更に修正したニューラル・ネットワークを、目標言語の手書き認識装置に用いる。修正は、既存のニューラル・ネットワークの一次出力(primary output)の1つ以上をコピーすることを含む。
この開示の更に別の形態は、所望の目標言語に基づいてしかるべき開始言語を選択することを目的とする。これは、人が手作業で行うこと、および/またはコンピュータが自動的に行うことができる。しかるべき開始言語を選択するために、主観的(subjective)および/または客観的(objective)標準を用いることもできる。
この開示の更に別の形態は、目標言語の認識を向上させるために、修正したニューラル・ネットワークを訓練することを目的とする。即ち、コピーした一次出力を訓練して、これをコピーした元の一次出力とは多少異なる入力の組み合わせに用等するようにする。これによって、新たにコピーした一次出力が、開始および目的言語間における文字の微妙な相違に応答することが可能となる。勿論、訓練は、元のノードが応答する入力の組み合わせとは多少異なる以上の入力組み合わせに、コピーしたノードに応答させるために用いることもできる。
更に、種々の異なる開始言語に合わせた多数の異なる既存のニューラル・ネットワークを、しかるべき開始言語を選択し、既存のニューラル・ネットワークの1つを修正し、および/または修正したニューラル・ネットワークを更に訓練する際にユーザを補助するコンピュータ読み取り可能媒体上のソフトウェアと共に含むキットが販売されている。
この開示の更に別の形態によれば、多数の異なる言語から文字を認識するように構成されている比較的大型のニューラル・ネットワークである「スーパー・ネットワーク」を提供することができる。このスーパー・ネットワークは、1つの言語のみに専用の典型的なニューラル・ネットワークよりも大幅に大きいことを期待してもよい。このようなスーパー・ネットワークを用いて、認識することを望む言語に必要でないスーパー・ネットワークからの出力を遮断するマスクをプログラミングすることによって、手書き認識装置をカスタム化することができる。ここに記載するその他の形態は、スーパー・ネットワークを既存のネットワークのように用い、修正またはマスクすること、あるいは同じ実施形態において修正およびマスク双方を行うこともできる。
この開示のこれらおよびその他の形態は、以下の例示実施形態の詳細な説明を検討することにより明らかとなろう。
以上の摘要、および以下の例示実施形態の詳細な説明は、添付図面と関連付けて読むと一層良く理解することができる。図面は、特許請求する発明に関して、限定ではなく、一例として含まれる。
図1は、手書き認識機能および/またはニューラル・ネットワーク作成、変更、および/または訓練を実施することができる、適した計算環境100の一例を示す。計算システム環境100は、適した計算機環境の一例に過ぎず、本発明の使用範囲や機能について限定を示唆する意図は全くない。また、計算機環境100は、動作環境例100に示す構成要素のいずれの1つまたは組み合わせに関しても、何らかの依存性や必須要件を有するという解釈は行わないこととする。
その他の汎用または特殊目的計算システム環境または構成も用いることができる。周知のコンピュータ・システム、環境、および/または構成の例には、パーソナル・コンピュータ(PC)、サーバ・コンピュータ、パーソナル・ディジタル・アシスタント(PDA)のような携帯用およびハンド・ヘルド・コンピュータ、タブレットPCまたはラップトップPC、マルチプロセッサ・システム、マイクロプロセッサに基づくシステム、セット・トップ・ボックス、プログラマブル消費者用電子機器、ネットワークPC、ミニコンピュータ、メインフレーム・コンピュータ、前述のシステムまたはデバイスのいずれをも含む分散型計算機環境等が含まれる。
この開示は、コンピュータによって実行するプログラム・モジュールのような、コンピュータ実行可能命令に関して総合的に説明する。一般に、プログラム・モジュールは、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を含み、特定のタスクを実行するか、または特定の抽象的データ・タイプを実現する。また、本発明は、通信ネットワークを通じてリンクされているリモート処理デバイスがタスクを実行する分散型計算機環境においても実用可能である。分散型計算環境では、プログラム・モジュールは、メモリ記憶装置を含むローカルおよびリモート・コンピュータ記憶媒体双方に配することができる。
図1を参照すると、本発明を実施するシステム例100は、コンピュータ100の形態とした汎用計算機を含む。コンピュータ100の構成要素は、限定ではなく、演算装置120、システム・メモリ130、およびシステム・バス121を含むことができる。システム・バス121は、システム・メモリを含む種々のシステム構成要素を演算装置120に結合する。システム・バス121は、数種類のバス構造のいずれでもよく、メモリ・バスまたはメモリ・コントローラ、周辺バス、および種々のバス構造のいずれかを用いるローカル・バスを含む。限定ではなく一例として、このような構造には、業界標準アーキテクチャ(ISA)バス、マイクロ・チャネル・アーキテクチャ(MCA)バス、改良ISA(EISA)バス、ビデオ電子規格連合(VESA)ローカル・バス、先進グラフィックス・ポート(AGP)、およびMezzanine バスとしても知られている周辺素子相互接続(PCI)バスが含まれる。
コンピュータ100は、通例、種々のコンピュータ読み取り可能媒体を含む。コンピュータ読み取り可能媒体は、コンピュータ110がアクセス可能な入手可能な媒体であればいずれでも可能であり、揮発性および不揮発性の双方、リムーバブル、および非リムーバブル媒体を含む。限定ではない一例をあげると、コンピュータ読み取り可能媒体は、コンピュータ記憶媒体および通信媒体から成ると考えられる。コンピュータ記憶媒体は、コンピュータ読み取り可能命令、データ構造、プログラム・モジュール、またはその他のデータというような情報の格納のために、あらゆる方法または技術で実施される、揮発性および不揮発性の双方、リムーバブル、および非リムーバブル媒体を含む。コンピュータ記憶媒体は、ランダム・アクセス・メモリ(RAM)、リード・オンリ・メモリ(ROM)、電気的消去可能プログラマブルROM(EEPROM)、フラッシュ・メモリまたはその他のメモリ技術、コンパクト・ディスクROM(CD−ROM)、ディジタル・ビデオ・ディスク(DVD)またはその他の光ディスク・ストレージ、磁気カセット、磁気テープ、磁気ディスク・ストレージまたはその他の磁気記憶デバイス、あるいは所望の情報を格納するために用いることができしかもコンピュータ100がアクセス可能なその他のいずれの媒体も含むが、これらに限定されるのではない。通信媒体は、通例、コンピュータ読み取り可能命令、データ構造、プログラム・モジュール、またはその他のデータを、搬送波またはその他の移送機構のような変調データ信号において具体化し、あらゆる情報配信媒体を含む。「変調データ信号」という用語は、その特性集合の1つ以上が、情報を信号内にエンコードするようなやり方で、変化している信号を意味する。限定ではなく、一例として、通信媒体は、有線ネットワークまたは直接有線接続というような有線媒体、ならびに音響、無線周波数(RF)(例えば、BLUETOOTH、WiFi、UWB)、光(例えば、赤外線)、およびその他のワイヤレス媒体というようなワイヤレス媒体を含む。前述のいずれの組み合わせも、コンピュータ読み取り可能媒体の範囲に当然含まれるものとする。
システム・メモリ130は、ROM131およびRAM132のような揮発性および/または不揮発性メモリの形態で、コンピュータ記憶媒体を含む。基本入出力システム(BIOS)133は、起動中のように、コンピュータ100内のエレメント間におけるデータ転送を補助する基本的なルーチンを含み、通例ROM131内に格納されている。RAM132は、通例、演算装置120が直ちにアクセス可能であるデータおよび/またはプログラム・モジュール、または現在これによって処理されているデータおよび/またはプログラム・モジュールを収容する。一例として、そして限定ではなく、図1は、オペレーティング・システム134、アプリケーション・プログラム135、その他のプログラム・モジュール136、およびプログラム・データ137を示す。
また、コンピュータ100は、その他のリムーバブル/非リムーバブル揮発性/不揮発性コンピュータ記憶媒体も含むことができる。一例としてのみ、図1は、非リムーバブル不揮発性磁気媒体からの読み取りおよびこれへの書き込みを行なうハード・ディスク・ドライブ141、リムーバブル不揮発性磁気ディスク152からの読み取りおよびこれへの書き込みを行なう磁気ディスク・ドライブ151、ならびにCD ROMまたはその他の光媒体のようなリムーバブル不揮発性光ディスク156からの読み取りおよびこれへの書き込みを行なう光ディスク・ドライブ155を示す。動作環境の一例において使用可能なその他のリムーバブル/非リムーバブル、揮発性/不揮発性コンピュータ記憶媒体には、限定する訳ではないが、磁気テープ・カセット、フラッシュ・メモリ・カード、ディジタル・バーサタイル・ディスク、ディジタル・ビデオ・テープ、ソリッド・ステートRAM、ソリッド・ステートROM等が含まれる。ハード・ディスク・ドライブ141は、通例、インターフェース140のような非リムーバブル・メモリ・インターフェースを介してシステム・バス121に接続され、磁気ディスク・ドライバ151および光ディスク・ドライブ155は、通例、インターフェース150のようなリムーバブル・メモリ・インターフェースによって、システム・バス121に接続する。
先に論じ図1に示すドライブおよびそれらと関連するコンピュータ記憶媒体は、コンピュータ読み取り可能命令、データ構造、プログラム・モジュール、およびコンピュータ100のその他のデータを格納する。図1では、例えば、ハード・ディスク・ドライブ141は、オペレーティング・システム144、アプリケーション・プログラム145、その他のプログラム・モジュール146、およびプログラム・データ147を格納するように示されている。尚、これらの構成要素は、オペレーティング・システム134、アプリケーション・プログラム135、その他のプログラム・モジュール136、およびプログラム・データ137と同じでも異なっていても可能であることを記しておく。オペレーティング・システム144、アプリケーション・プログラム145、その他のプログラム・モジュール146、およびプログラム・データ147は、ここで、少なくともこれらが異なるコピーであることを示すために、異なる番号が与えられている。ユーザは、キーボード162、タッチ・パッド165(ディジタイザ等)およびスタイラス166、ならびにポインティング・デバイス161(一般にマウス、トラックボールまたはタッチ・パッドと呼ばれている)によって、コマンドおよび情報をコンピュータ110に入力することができる。他の入力デバイス(図示せず)には、マイクロフォン、ジョイスティック、ゲーム・パッド、衛星ディッシュ、スキャナ等を含むことができる。これらおよびその他の入力デバイスは、多くの場合、ユーザ入力インターフェース160を介して、演算装置120に接続されている。ユーザ入力インターフェース160は、システム・バス121に結合されているが、パラレル・ポート、ゲーム・ポート、またはユニバーサル・シリアル・バス(USB)、IEEE 1394シリアル・バス(FIREWIRE)のようなその他のインターフェースおよびバス構造によって接続することも可能である。モニタ191またはその他の形式の表示装置も、ビデオ・インターフェース190のようなインターフェースを介して、システム・バス121に接続されている。ビデオ・インターフェース190は、それ自体の特殊プロセッサおよびメモリに加えて、先進の2Dまたは3Dグラフィクス処理能力も有することができる。また、コンピュータ100は、スピーカ197およびプリンタ196のような、その他の周辺出力装置も含むことができ、これらは出力周辺インターフェース195を通じて接続することができる。
コンピュータ100は、リモート・コンピュータ180のような1つ以上のリモート・コンピュータへの論理接続を用いて、ネットワーク環境において動作することも可能である。リモート・コンピュータ180は、パーソナル・コンピュータ、ハンド・ヘルド・デバイス、サーバ、ルータ、ネットワークPC、ピア・デバイス、またはその他の共通ネットワーク・ノードとすることができ、通例、コンピュータ100に関して先に説明したエレメントの多くまたは全てを含むが、図1にはメモリ記憶装置181のみを示す。図1に示す論理接続は、ローカル・エリア・ネットワーク(LAN)171およびワイド・エリア・ネットワーク(WAN)173を含むが、他のネットワークも含むことができる。このようなネットワーク環境は、事務所、企業規模のコンピュータ・ネットワーク、イントラネットおよびインターネットにおいては、一般的である。
LANネットワーク環境で用いる場合、コンピュータ100は、ネットワーク・インターフェースまたはアダプタ170を介してLAN171に接続する。WANネットワーク環境で用いる場合、コンピュータ100は、通例、モデム172、またはインターネットのようなWAN173を通じて通信を確立するその他の手段を含む。モデム172は、内蔵でも外付けでもよく、ユーザ入力インターフェース160またはその他の適切な機構を介してシステム・バス121に接続することができる。ネットワーク環境では、コンピュータ100に関して図示したプログラム・モジュール、またはその一部は、リモート・メモリ記憶装置に格納することもできる。一例として、そして限定ではなく、図1は、リモート・アプリケーション・プログラム182がメモリ素子181上に常駐するものとして示している。尚、図示のネットワーク接続は一例であり、コンピュータ間で通信リンクを確立する他の手段も使用可能であることは認められよう。
手書き認識の全体像
コンピュータ100は、ユーザによる手書き入力を認識するために、ソフトウェアでプログラムすること、および/またはハードウェアおよび/またはファームウェアで構成することもできる。「手書き認識」という用語は、本明細書および特許請求の範囲において用いる場合、手書き入力を、当該手書き入力に対応する文字集合に変換することを意味すると定義する。「手書き認識装置」は、手書き認識を実行する。手書き入力を「認識する」とは、手書き入力に対して手書き認識を実行することである。電子手書きインクは、パーソナル・ディジタル・アシスタント(PDA)およびタブレット状パーソナル・コンピュータ(タブレットPCとしても広く知られている)のような、多くの従来からの計算機において広く用いられ、認識されている。電子インクは、従来のフォーマットまたは未だ定義されていないフォーマットのいずれにでも格納することができる。現在、数個のインク格納フォーマットが存在し、Microsoft WINDOWS(登録商標)系オペレーティング・システム、およびPalmSource PALM OS系オペレーティング・システムによって用いられているもの等がある。
「文字」(character)という用語は、本明細書および特許請求の範囲において用いる場合、言語(例えば、英語、ルーマニア語、中国語、ヘブライ語等)によって異なる意味を有する場合がある。筆記文字には本質的に3つの大きな分類、アルファベット、表音(syllabic)および表意(logographic)がある。アルファベット筆記言語は、一般に単語をどのように発音するか記述する、定義された文字の集合を用いる。しかしながら、発音する単語には、各文字と各音との間に1対1の対応がないのが一般である。アルファベット筆記言語の例には英語およびルーマニア語があり、双方共ラテン語のアルファベットに基づく。表音筆記文字は、各々発音する音節即ち音素を表す、定義したシンボルの集合(「音節文字表」)を用いる。発音する単語の各音節と各音との間には1対1の対応があるのが通例である。表音筆記文字の一例に日本語がある。表意筆記文字は、各々が対象(object)または抽象的考えを表す、定義したシンボルの集合を用いる。例えば、中国語は、表意筆記文字の集合を用いる。尚、多くの言語は純粋に1つまたは別の分類にはならないことを記しておく。例えば、筆記中国語は、発音を表すシンボルも一部に含み、英語は抽象的考えを表すシンボル(例えば、「&」および「$」、ならびに数値)を含む。
このように、各言語はそれ自体の定義された文字集合を有し、「文字」ということばの意味は、言及する言語によって異なる。しかしながら、一般に、「文字」ということばは、本明細書および特許請求の範囲において用いる場合、アルファベット文字、音節文字表、表語シンボル、文法表記、または問題の筆記言語によって用いられるその他の何らかのシンボルを意味する。手書き認識によって得られる文字は、コンピュータ100によっていずれのデータ・フォーマットでも表すことができる。例えば、各文字、単語、または句は、標準的なAmerican Standard Code for Information Interchange (ASCII)またはユニコード・システム(Unicode system)によって定義されるように、一意の既定のコードによって表すことができる。
図2は、どのようにしてコンピュータ100を手書き認識を実行するように機能的に構成することができるかを示す。種々の機能は、ソフトウェア、ハードウェア、および/またはファームウェアで実行することができ、オペレーティング・システム、ソフトウェア・アプリケーション、デバイス・ドライバ、および/またはその他のいずれの種類のコンピュータ実行可能コードの一部でもよい。図2に示す構成は、従来の手書き認識装置の典型である。この例に示すように、手書きユーザ入力は、電子インクの形態でタッチ・パッド165から収集することができる。次いで、コンピュータ100はインクに対して特徴抽出201を実行することができる。特徴抽出(featuraization)とは、インク・データから、認識プロセスに有用と思われる特徴を抽出することを意味する。このような特徴は、例えば、幅、高さ、長さ(例えば、二次元または別個に計算したXおよび/またはY方向において考えた、座標対の数、および/または座標空間を移動する距離)最大速度、Xおよび/またはY方向における方向逆転の回数、検出した尖頭ならびに方向性および/または位置(例えば、インク・サンプルまたは書き込み区域に対する垂直位置および/または水平位置)、検出したインクの交差および位置(同様に、尖頭として)、および/またはXおよび/またはY方向におけるフーリエ変換周波数成分を含むことができる。
次に、特徴化201中に抽出された特徴は、ニューラル・ネットワーク202の一次入力集合に供給される。ニューラル・ネットワーク202は、従来から知られており、入力の特定の組み合わせを一次入力に関連付けるように訓練することができる。尚、ネットワーク202は、ニューラル・ネットワーク以外のネットワークでもよいことを記しておく。例えば、ネットワーク202は、ベーズ・ネットワーク(Bayesian network)、隠れマルコフ・マシン(HMM)、サポート・ベクトル・マシン(SVM:support vector machine)、テンプレート照合装置、および/またはダイナミック・タイム・ワーピング(DTW:dynamic time warping)ユニットとすることもできる。
図3に示すように、ニューラル・ネットワーク202は、n個の一次入力(I、I、I、...I)、および一次出力(a、b、c、...0)の集合を有する。一次出力の全てを図示していないが、ニューラル・ネットワーク202は、この例では、各小文字および各大文字、各数値、ならびに英語のその他の各シンボル毎に、異なる一次出力を有する。一次出力は、隠れノード301のような、「隠れノード」のネットワークによって、一次入力に結合されている。隠れノードは、層状に編成することができ、各層の間に完全な相互接続がある(図示の通り)。しかしながら、隠れノードは、ほ乳類の脳において見られる生物神経と同様に、単純なコンピュータとして行動(act)することができる。このような隠れノードを用いるニューラル・ネットワークのアーキテクチャは、周知である。
隠れノード301の構成例を図4に示すが、従来より知られている。この図では、隠れノード301が複数の入力と、1つの出力とを有することが分かる。この例でぇあ、入力は一次入力の一部または全部である。しかしながら、ニューラル・ネットワーク202の位置に応じて、入力は、他の隠れノードからの出力であってもよい。図示の隠れノード301は、機能的に、加算部401、およびしきい値部402に分割されている。加算部401は、各入力の加重和を規定し、各入力Iには対応する重みwが割り当てられている。加算の結果は、しきい値部402に供給され、加算の結果が、既定値を上回るというような、所定の判断基準または判断基準集合を満たすか否か判定を行う。1つまたは複数の判断基準を満たす場合、正の結果(例えば、論理1)を出力する。隠れノードをどのように構成すればよいかについては、多くの変形がある。例えば、しきい値部402がなくてもよく、またはしきい値部402が、二進値には限定されるのではなく、アナログ値を出力してもよい。ニューラル・ネットワーク202は、種々の隠れノードの閾位置部402において定義した重みwおよび/または判断基準を調節する周知の技法を用いて、所望の結果が得られるように訓練することができる。
一旦ニューラル・ネットワーク202を訓練し終えたなら、次いで、この例では、しかるべき入力データ集合を一次入力に入力すると、その結果、該当する一次出力が選択される。一次出力は、種々の方法で選択することができると考えられる。例えば、一次出力の値が正の結果を表す場合、この一次出力が選択されると考えることができる。あるいは、一次出力の値が、可能な正の結果の範囲において、他の一次出力よりも正側の結果を表す場合、この一次出力が選択されると考えることができる。あるいは、一次出力の値が所定の判断基準または判断基準集合を満たす場合(例えば、しきい値を上回る)、この一次出力が選択されると考えることができる。
以上の論述を図示の実施形態に当てはめるために、以下のことを検討する。ニューラル・ネットワーク202の各一次入力は、特定のインク特徴またはインク特徴の集合に対応する。ニューラル・ネットワーク202の各一次出力は、同じ所与の言語とは異なる文字に対応する。この特定的な例では、言語は英語であると仮定する。コンピュータ100はインクから、一次入力値の第1の組み合わせを規定するある種の特徴を、ニューラル・ネットワーク202に抽出すると仮定する(また、ニューラル・ネットワーク202は既に適正に訓練されていると仮定する)。応答して、ニューラル・ネットワーク202は、第1の一次出力(例えば、一次出力「B」)を選択する。これが意味するのは、ニューラル・ネットワーク202が、分析している特定のインクが手書き文字「B」に対応する可能性が最も高いと判断したということである。ここで、分析する次のインク片が、一次入力値の第2の異なる組み合わせをニューラル・ネットワーク202に供給すると仮定する。応答して、ニューラル・ネットワーク202は、異なる第2の一次出力(例えば、一次出力「3」)を選択する。これが意味するのは、ニューラル・ネットワーク202が、分析する特定のインクが手書き文字の数値「3」に対応する可能性が最も高いと判断したということである。
場合によっては、ニューラル・ネットワーク202は、一次入力値の所与の組み合わせに応答して、1つよりも多い一次出力を選択することもあり得る。例えば、最初の例では、ニューラル・ネットワーク202が一次出力「B」だけでなく、一次出力「8」も選択する可能性がある。これは、大文字の「B」および数字の「8」が、特に文字「B」を印刷するとき(即ち、筆記体で書かれていないとき)に、同様に見えることが多いので、あり得る場面である。また、手書きが筆記体の場合、ニューラル・ネットワーク202が、筆記体の「e」手書き入力に応答して、一次出力「e」および「o」双方を選択することもあり得る。更に、これら2つの手書き文字が非常に似通って見えることもあり得る。この状況に対処する処理技法は知られている(例えば、単語全体を既知の辞書と比較することによる等によって、文字の前後関係を調べて、どの文字が書かれているか判断するのに役立てる)。
再度図2を参照すると、後処理機能205がニューラル・ネットワーク202からの一次出力を受け取り解釈することができる。理論上、ニューラル・ネットワーク202の生の一次出力自体は、手書き入力に対応して認識された文字を示すが、実際には、かなりの量の誤りがあると予期されることがあり得る。このような誤りは、多くの場合、個々の手書き各々における不完全や癖に起因する。つまり、各ユーザの手書きは異なり、各ユーザはその都度正確に同じように筆記しないためである。このため、後処理機能205を追加して、ニューラル・ネットワーク202の一次出力によって識別した認識文字を互いに前後関係に置くことによって誤りの多くを本質的に排除する。これは、言語モデル204を参照する探索エンジンを用いることによって行うことができる。後処理機能205および言語モデル204は、双方とも周知である。
言語モデル204は、予期される認識テキストに対して種々の規則および指針を定義する。このような規則は、関連する言語における既知の単語のリスト、文法規則集、特殊フォーマット集(例えば、日付、時間等)、バイ・グラム(bi-grams)および/またはトリ・グラム(tri-grams)を含むことができる。ニューラル・ネットワーク202が新しい文字を認識する毎に、後処理機能205は言語モデル204を調べて、新たに認識した文字が言語モデル規則のいずれかに当てはまるか否か調べる。これは繰り返しおよび動的プロセスである。新しい文字が認識される毎に、どの言語規則を適用すればよいか、仮定を行い伝える(drop)。ここでも、後処理機能は周知である。言語モデル規則に基づいて、最終的に認識されたテキストを、後処理機能205によって出力する。
既存のネットワークの再利用
既に述べたように、多くの手書き認識装置は、手書き入力を解釈するのに役立てるためにニューラル・ネットワークを用いている。ニューラル・ネットワークは、1つの言語の手書きを認識するように訓練するのが通例である。例えば、英語のニューラル・ネットワークが存在し、フランス語のニューラル・ネットワークが存在し、日本語のニューラル・ネットワークが存在すると考えられる。各ニューラル・ネットワークは、言語に応じて、それ自体に独特の文字集合を認識することができる。加えて、所与の言語について訓練したニューラル・ネットワークを用いた認識装置は、その所与の言語に一致する、特定の言語モデルも用いる。例えば、英語、フランス語、および日本語モデルが別個に存在すると考えられる。このように、既知の手書き認識装置は、所与の言語に合ったニューラル・ネットワーク、およびその所与の言語に合った言語モデルを用いる。
しかしながら、訓練された手書き認識ニューラル・ネットワークが存在しない、またはそこまで到達するのが容易でない多数の言語がある可能性がある。これは、既に論じたように、所与の言語についてニューラル・ネットワークを適正に訓練することは、非常に費用がかかる可能性があるためである。適正な訓練には、多くの場合、数千人の人々ではないにしても、数百人の人々から得た手書きサンプルを用いることが伴い、これらのサンプルの各々は多種多様の文字、単語、およびその他のシンボルの異なる組み合わせを含む可能性がある。
とは言え、未だに容認可能な手書き認識装置が入手できない種々の言語に、手書き認識機能を提供できるようにすることは望ましい。更に詳細に論ずるが、ニューラル・ネットワークを最初から訓練する代わりに、過去において行われたように、所与の言語の手書きを認識するために、既存の既に訓練済みのニューラル・ネットワークを再利用し修正して、以前に認識するようにニューラル・ネットワークを訓練しなかったその他の言語を認識させることができる。既存のニューラル・ネットワークの再利用により、新しいニューラル・ネットワークを最初から訓練する場合と比較して、並外れた量の時間および資金を節約することができる。
一般に、目標言語を認識するようにニューラル・ネットワークを再利用し修正するには、以下のようにすればよい。図10を参照すると、ステップ1001において、目標言語を選択する。ステップ1002において、開始言語を選択する。これは目標言語に基づくことができる。選択した開始言語に対する既存のニューラル・ネットワークは、開始言語の手書き文字を認識するように、既に予め訓練しておくこともできる。開始言語は、様々な要因の中でも、目標言語に基づいて選択するとよい。ステップ1003において、目標言語の文字および開始言語の文字を比較し、比較する2種類の文字の間にある視覚的類似性に基づいて、これらの間の対応を判定する。不十分な対応が判定された場合、ステップ1004において、プロセスをステップ1001に戻し、別の開始言語について訓練したニューラル・ネットワークを選択する。しかしながら、十分な対応がある場合、ステップ1005において、ある一次出力をコピーし、これらのコピーを、開始言語において全く同一に存在しない、目標言語の文字を表すために指定する。この例示のプロセスの詳細については、以下の章で論ずる。
ネットワークの選択
既存のニューラル・ネットワークを再利用するために、最初に既存のニューラル・ネットワークの集合から、特定の既存のニューラル・ネットワークを選択する。例えば、図5に示すように、潜在的なニューラル・ネットワーク後方の集合(ネットワークA、ネットワークB、ネットワークC、およびネットワークD)がある。ネットワークAは日本語の手書きについて訓練され、ネットワークBはイタリア語の手書きについて訓練され、ネットワークCは英語の手書きについて訓練され、ネットワークDはヘブライ語の手書きについて訓練されていると仮定する。既存のニューラル・ネットワークの選択に影響を及ぼす要因には、各入手可能な既存のニューラル・ネットワークの言語(「開始言語」)、ニューラル・ネットワークの訓練の品質および精度、ならびにニューラル・ネットワークを望む言語(「目標言語」)を含むことができる。理由は説明を進めるにつれて明らかになるが、開始言語が目標言語に近い程、一般に良い結果が得られると期待することができる。例えば、目標言語がルーマニア語である場合、ネットワークA(即ち、日本語のネットワーク)を用いると、容認可能な結果が得られる可能性は低い。これは、全てではないにしても、殆どの日本語の文字が総じてルーマニア語の文字とは非常に異なって見えるからである。一方、妥当な開始言語はネットワークC(即ち、英語のネットワーク)とすることができる。その理由は、ルーマニア語の言語は英語渡橋通の文字が多くあるからであり、特に、双方共同じラテン語のアルファベットに基づくからである。ルーマニア語および英語のアルファベット間の主な相違は、例えば、ルーマニア語における音声区別マークの使用である。一般的に言うと、開始言語において、目標言語の異なる文字と1対1の同一の対応を有する文字が多い程良い。開始言語において、目標言語の異なる文字と外観が非常に似ている文字が多い程良い。
目標言語のルーマニア語を2つの潜在的な開始言語、英語およびヘブライ語と比較した場合を図6に示す。図6の表は、目標言語であるルーマニア語の文字を、ルーマニア語の各文字と似通って見える英語およびヘブライ語からの文字と照合する試みを示す。見て分かるように、ルーマニア語の全ての文字に対して一致する英語の文字を見出すのは比較的容易である。例えば、ルーマニア語の文字の多く(例えば、「A」、「B」および「C」)は、英語の文字と同一である。その他のルーマニア語の文字は、英語の文字のいずれとも全く同一ではないが、非常に近い。例えば、ルーマニア語の文字
Figure 2009501965
は、英語の文字「A」と非常に似通って見える。更に、ルーマニア語の文字
Figure 2009501965
は英語の文字「T」に似通って見える。一方、ヘブライ語の文字と似通って見えるルーマニア語の文字はさほど多くない。一部に一致度が高い文字もあるが(ヘブライ語の文字
Figure 2009501965
と比較した場合のルーマニア語の文字「T」、およびヘブライ語の文字
Figure 2009501965
と比較した場合のルーマニア語の文字「X」)、殆どの場合一致度は低い。例えば、ヘブライ語の文字
Figure 2009501965
は、ルーマニア語の文字「F」および「P」との一致度は比較的低い。実際、ヘブライ語のいずれとも全く一致しない、「M」のような文字も、一部のルーマニア語にはある。妥当な結論を述べるとすれば、ヘブライ語は、目標言語がルーマニア語である場合、開始言語としては比較的拙劣な選択肢であり、英語の方が開始言語としては相応しい選択肢であるということになろう。尚、図6における比較は、ルーマニア語の大文字のアルファベットのみを示すことによって簡略化されていることを記しておく。しかしながら、このような比較は、望ましければ、数値、記号、および文法表記のような、目標言語のその他のいずれのまたは全ての文字に対しても行うことができる。
目標言語の開始言語候補との比較は、人および/またはコンピュータによって行うことができる。例えば、比較は、人が行う主観的比較を拠り所とすることもできる。代わりにまたは加えて、比較は、ユーザの目標言語の入力に基づいて、目標および開始言語における統計に基づく文字の比較を自動的に行い、1つ以上の最適な開始言語を示唆するコンピュータ・アルゴリズムを拠り所とすることもできる。加えて、比較は、人が主観的に行おうと、コンピュータによって自動的に行おうと、その結果、目標言語における文字の1つ以上の開始言語における文字との1対1の比較が示唆されればよい。例えば、このような比較は、人が主観的に行おうと、コンピュータによって自動的に行おうと、図6に示すような比較表が結果的に得られればよい。
次に論ずるように、目標言語の1つ以上の開始言語との比較の結果は、開始言語のニューラル・ネットワークをどのように修正するか決定するために用いることができ、最終的に目標言語に合った手書き認識装置に到達することができる。
ネットワークの修正
一旦どの開始言語を用いればよいか決定したならば、この開始言語について訓練したしかるべき既存のニューラル・ネットワークを選択する。図7を参照すると、このような既存のニューラル・ネットワーク701が示されている(修正も含むが、これについては以下で更に論ずる)。この例では、ニューラル・ネットワーク701は英語について訓練したニューラル・ネットワーク(例えば、図5におけるネットワークC)であり、訓練言語はルーマニア語である。図6に関して既に論じたように、英語およびルーマニア語の文字は互いに比較的似通っている。このため、ニューラル・ネットワーク701に適正にルーマニア語の文字を認識させるためには、比較的少量の修正をニューラル・ネットワーク701に行えば済む。ニューラル・ネットワーク701を修正するには、ニューラル・ネットワーク701のある一次出力のコピー(即ち、複製)702を作成する。言い換えると、冗長な出力ノードを作成する。
コピーは、ニューラル・ネットワーク701のいずれの一次出力からでも作ることができるが、この例では、ある一次出力のみをコピーする。即ち、ルーマニア語の文字に似通って見えるが正確に一致するのではない一次出力をコピーする。例えば、図8を参照すると、太い枠で囲まれている英語の文字は、対応するルーマニア語の文字に似通って見えるが正確には一致しない英語の文字を表す。これらの英語の文字は、「A」、「I」、「S」、および「T」を含む。他にもあるが、図8では大文字のみを検討する。選択した一次出力をコピーする目的は、既存の開始言語のニューラル・ネットワークが現在サポートしていない目標言語の文字を表すために用いることができる新しい出力を作成することである。つまり、ルーマニア語の文字
Figure 2009501965
をそれぞれ表すために、「A」の一次出力のコピーを2つ作成し、ルーマニア語の文字
Figure 2009501965
を表すために、「I」の一次出力のコピーを1つ作成し、ルーマニア語の文字
Figure 2009501965
を表すために、「S」の一次出力のコピーを1つ作成し、ルーマニア語の文字
Figure 2009501965
を表すために、「T」の一次出力のコピーを1つ作成する。このため、これらのコピー702を作成する際、修正したニューラル・ネットワークの一次出力の総数が増大する。
例えば、図7は、前述の新たにコピーした一次出力を示す。即ち、「A」の一次出力を2回コピーして、2つの新しい一次出力を生成し、「I」の一次出力を1回コピーして1つの新しい一次出力を生成し、「S」の一次出力を1回コピーして1つの新しい一次出力を生成し、「T」の一次出力を1回コピーして新しい一次出力を生成する。以下で更に論ずるが、各一次出を必要に応じたある回数だけコピーし、類似しているが開始言語には含まれていない新しい文字に新しい一次出力を規定する。一次出力をコピーする際、その一次出力を定義する出力ノードの入力に割り当てる重み付け出力を既ピーする。コピーする重み出力に割り当てる重みもコピーする。このため、隠れノードは、乱されないまま残ることになるが、その内の1つ以上は、一次出力ノードに対する重み付け入力の新しいコピーに対処するために、追加の出力接続を有する。この概念は、図12を参照する方が説明し易い。図12は、ニューラル・ネットワークの隠れノード1201−1204を含む、複数の隠れノードを示す。また、ニューラル・ネットワークは、複数の一次出力も有し、その各々が、一次出力ノード1205および1206のような、異なる一次出力ノードに対応する。図12に示すアーキテクチャは、単なる例示に過ぎず、簡略化のためにニューラル・ネットワークの一部のみを示す。この例では、一次出力ノード1206に対応する一次出力をコピーする。一次出力ノード1206は、重みがw1およびw2の、2つの入力を有する。したがって、同様に重みがw1およびw2の同じ2つの入力を有する新しい一次出力ノード1207も作成する。勿論、実際には、ニューラル・ネットワークは、図12に示す入力よりも多いまたは少ない入力を、各一次出力ノードに供給することもできる。
当業者であれば、指令されれば、一次出力を容易にコピーすることができよう。それを行う際、コピーした一次出力は、一次入力の全ての組み合わせに対して、元の一次出力と全く同じように応答する。例えば、新しくコピーした「A」一次出力は、一次入力の全ての組み合わせに対して、元の「A」一次出力と全く同じように応答する。
このように、開始言語の文字と同一でない目標言語の文字毎に追加の一次出力を含むように、ニューラル・ネットワーク701を修正する。次に、筆記した目標言語を認識するように構成するためには、ニューラル・ネットワーク701の修正版をどのように手書き認識装置に実施すればよいかについて説明する。
認識装置における実施/修正したニューラル・ネットワークの訓練
ニューラル・ネットワーク701の修正版は、図2に示す手書き認識装置のような、手書き認識装置において用いることができる。このようにするためには、後処理機能205および言語モデル204を、新しく追加した一次出力を適正に解釈しこれらに応答するように構成するとよい。つまり、新しい一次出力コピー702を認識システムに結合する際、コピー702が目標言語のそれらそれぞれの新しい文字を表すことが分かるようにするとよい。この例では、新しいコピー702の各々は、後処理機能205によって、
Figure 2009501965
をそれぞれ表すように解釈される。図3におけると同様、簡略化のために、一次出力の一部のみを示す。しかしながら、実際には、修正したニューラル・ネットワークは、追加の文字毎に新しい一次出力を、所望通りにそして適宜、目標言語に追加することが予期される。
例えば、ルーマニア語の文字
Figure 2009501965
の手書き入力に応答して、
Figure 2009501965
が、修正したニューラル・ネットワーク701によって選択される。次いで、後処理機能205は、
Figure 2009501965
双方の可能性について、手書き入力を言語モデル204と相関付け、文脈がどちらの方が適しているかを示しているかチェックする。尚、この例では、言語モデル204はルーマニア語言語モデルと置き換えられ、例えば、ルーマニア語の単語および表記のディレクトリ・リストを含む。手書き認識装置は手書きの
Figure 2009501965
間で区別することができないので、更にルーマニア語の単語の中には、1つの文字
Figure 2009501965
だけで互いに異なる場合もあるので、これが完全な解となる場合も、ならない場合もあり得る。言い換えると、手書き認識装置は総合的に動作するが、
Figure 2009501965
のような、2つの類似する文字間で区別できる方が望ましいという状況もあり得る。
したがって、ある開始言語の文字と対応する目標言語の文字との間の相違を認識するように、修正したニューラル・ネットワーク701を更に訓練することが望ましい場合もある。これには、一旦元の対応する一次出力の同一コピーであった一次出力が、もはや同一コピーではなくなるように、修正したニューラル・ネットワーク701を訓練することを伴う。代わりに、コピーの対応する元の一次入力とは異なる一次入力の組み合わせに応答して、コピーを各々選択してもよい。例えば、周知の方法で、2つの文字間で区別できるように、修正したニューラル・ネットワーク701を、手書き文字
Figure 2009501965
を用いて訓練することもできる。訓練が完了した後、修正したネットワーク701は、手書き「S」に応答して「S」一次出力のみを選択し、手書き
Figure 2009501965
に応答して
Figure 2009501965
一次出力のみを選択すれば理想的である。この訓練は、コピーした一次出力のいずれにもそして全てに行うことができる。
既存のニューラル・ネットワーク701は、修正前に、既に介し言語について訓練されているので、目標言語に必要な追加の訓練は、目標言語についてニューラル・ネットワークを最初から訓練するよりも少なくて済むことが期待できる。
「スーパー・ネットワーク」
ここで図11を参照すると、前述の方法論を用いて、またはその他のいずれかのプロセスを用いて、「スーパー・ネットワーク」1101を作成することができる。例えば、一連の異なる数個の言語に対して一次出力を繰り返しコピーすることによって、ニューラル・ネットワーク701を拡大することができる。異なる言語は、ラテン語のアルファベットに全て基づくというようにして、関係付けることができ、あるいは関係付けなくてもよい。どのように作成したかには関係なく、複数の異なる言語に対する文字を表す一次出力Ol:Omを含む、大型のニューラル・ネットワーク1101を作成することができる。例えば、ニューラル・ネットワーク1101は、英語文字集合およびルーマニア語の文字集合双方に対する一次出力を含むことができる。
この大型ニューラル・ネットワーク1101は、マスク1102と共に、手書き認識システムに実装すると、ニューラル・ネットワーク701を訓練した全ての言語の部分集合を認識するように、動的に構成することが可能になる。マスク1102は、機能的に、一次出力O1:Omの部分集合を遮断するように作用する。実際には、マスク1102は、選択的マスキング機能を実行する、交換ネットワークあるいはその他のいずれかのハードウェア、ソフトウェア、および/またはファームウェアとすることができる。マスク1102は、Prog信号の内容に応じて、出力Ol:Omの内どれをマスクすべきか判定することができる。例えば、Prog信号を0に設定すると、ルーマニア語の文字集合をマスクすることができ、1に設定すると英語の文字集合をマスクすることができる。尚、少なくとも本例では、英語およびルーマニア語の文字集合は交差しており、どの一次出力をマスクするか決定する際にこれを考慮にいれるべきことを記しておく。以上の例ではProgを二進値として呈示したが、Progはいずれのデータ・フォーマットでもよく、またはアナログ信号でもよい。Progは、ユーザが構成することができ、手書き認識中に動的に変更することもできる。
結論
以上のように、手書き認識機能を作成する新しい方法についてここでは説明した。既存のニューラル・ネットワークを再利用することにより、新たなニューラル・ネットワークを最初から構築し訓練する場合と比較して、並外れた量の時間および資金を節約することができる。ここに記載した方法および機能のいずれもが、ハードウェア、ソフトウェア、および/またはファームウェアで実施することができ、人が手作業で実行すること、および/またはコンピュータが自動的に実行することもできる。方法および機能をソフトウェアとして実施する場合、これらは、システム・メモリ130および/またはリムーバブル媒体152、156におけるような、1つ以上のコンピュータ読み取り可能媒体上にコンピュータ実行可能命令として格納することができる。
更に、ニューラル・ネットワーク以外にも、他の種類のネットワークもここでは用いることができ、ニューラル・ネットワークに関して説明したのと同様に修正することができる。例えば、ベーズ・ネットワーク(Bayesian network)、隠れマルコフ・マシン(HMM)、サポート・ベクトル・マシン(SVM:support vector machine)、テンプレート照合装置、および/またはダイナミック・タイム・ワーピング(DTW:dynamic time warping)ユニットを、ここに説明したように再利用および修正して、適宜出力のコピーを供給することもできる。
図1は、例示の計算機環境の機能ブロック図である。 図2は、例示の手書き認識装置の機能ブロック図である。 図3は、図2の手書き認識装置において用いることができる例示のニューラル・ネットワークを示す。 図4は、図3のニューラル・ネットワークの一部をなすことができる例示の隠れノードを示す。 図5は、例示のニューラル・ネットワーク選択プロセスを示す。 図6は、開始言語を潜在的開始言語と比較する。 図7は、ニューラル・ネットワークの変更例を示す。 図8は、開始言語を潜在的開始言語と比較する。 図9は、ニューラル・ネットワークの変更例を示す。 図10は、例示の手書き認識装置作成プロセスのフロー・チャートである。 図11は、マスキングした例示の「スーパー・ネットワーク」を示す。 図12は、ニューラル・ネットワークの機能ブロック図であり、一次出力をどのようにしてコピーすることができるかを図で示す。

Claims (20)

  1. 手書き認識機能を設ける方法であって、
    複数の一次出力を有し、その各々が第1言語の異なる文字に対応するニューラル・ネットワークを設けるステップと、
    前記複数の一次出力から第1一次出力を選択するステップと、
    前記第1一次出力の前記コピーを前記ニューラル・ネットワークに追加するステップと、
    を備えた、方法。
  2. 請求項1記載の方法において、前記ニューラル・ネットワークは複数の一次入力を有し、前記第1一次出力の前記コピーは、前記第1一次出力と同じやり方で、前記一次入力に応答する、方法。
  3. 請求項1記載の方法であって、更に、前記追加するステップの後に、前記第1一次出力のコピーが、前記第1一次出力とは異なるやり方で前記第1入力に応答するように、前記ニューラル・ネットワークを訓練するステップを備えた、方法。
  4. 請求項1記載の方法であって、更に、複数のニューラル・ネットワークから、前記ニューラル・ネットワークを選択するステップを含み、前記複数のニューラル・ネットの各々が異なる言語と関連付けられた、方法。
  5. 請求項1記載の方法であって、更に、
    前記第1言語を選択するステップと、
    前記第1言語とは異なる第2言語を選択するステップと、
    を備えており、前記第1一次出力を選択するステップは、前記第2言語に応じて、前記第1一次出力を選択するステップを含む、方法。
  6. 請求項5記載の方法において、前記第1一次出力を選択するステップは、
    前記第1言語の文字を前記第2言語の文字と比較するステップと、
    前記第1言語の前記文字が前記第2言語の前記文字と視覚的に類似しているが同一ではない場合、前記第1一次出力をコピーするステップと、
    を含む、方法。
  7. 請求項5記載の方法であって、更に、前記第1一次出力の前記コピーを含む前記ニューラル・ネットワークと、前記第2言語の言語モデルとを含む手書き認識装置を設けるステップを含む、方法。
  8. 請求項1記載の方法であって、更に、前記第1一次出力の前記コピーを含む前記ニューラル・ネットワークを利用する手書き認識装置を設けるステップを含む、方法。
  9. 手書き認識機能を設けるためのコンピュータ実行可能命令を格納した少なくとも1つのコンピュータ読み取り可能媒体であって、前記コンピュータ実行可能命令が、
    複数のネットワークから第1ネットワークを選択するステップであって、該第1ネットワークを第1言語と関連付け、前記第1ネットワークが複数の一次出力を有し、該一次出力の各々が前記第1言語の異なる文字を表す、ステップと、
    前記第1ネットワークの前記複数の一次出力から第1一次出力を選択するステップであって、該一次出力を、前記第1言語の文字の1つと関連付けられた、ステップと、
    を実行する、少なくとも1つのコンピュータ読み取り可能媒体。
  10. 請求項9記載の少なくとも1つのコンピュータ読み取り可能媒体において、前記コンピュータ実行可能命令が、更に、
    第2言語を示す第1ユーザ入力を受け取るステップと、
    前記第2言語に基づいて、前記第1言語を選択するステップと、
    を含むステップを実行する、少なくとも1つのコンピュータ読み取り可能媒体。
  11. 請求項10記載の方法において、前記第1一次出力を選択するステップは、
    前記第1言語の文字を前記第2言語の文字と比較するステップと、
    前記第1言語の前記文字が前記第2言語の前記文字と視覚的に類似しているが同一ではない場合、前記第1一次出力をコピーするステップと、
    を含む、方法。
  12. 請求項9記載の少なくとも1つのコンピュータ読み取り可能媒体において、前記コンピュータ実行可能命令は、更に、前記第1一次出力のコピーを前記第1ネットワークに追加する、少なくとも1つのコンピュータ読み取り可能媒体。
  13. 請求項9記載の少なくとも1つのコンピュータ読み取り可能媒体において、前記第1ネットワークは複数の一次入力を有し、前記第1一次出力の前記コピーは、前記第1一次出力と同じやり方で前記一次入力に応答する、少なくとも1つのコンピュータ読み取り可能媒体。
  14. 請求項9記載の少なくとも1つのコンピュータ読み取り可能媒体において、前記第1一次出力を選択した後、前記第1ネットワークは、前記第1一次出力のコピーである一次出力を含み、前記第1ネットワークはニューラル・ネットワークであり、前記コンピュータ実行可能命令は、更に、
    手書きインクを含む第2ユーザ入力を受け取るステップであって、前記手書きインクは、前記第1言語の一部ではない前記第2言語の文字の表現を含む、ステップと、
    前記第2ユーザ入力に応答して、前記一次出力の前記コピーの応答を修正するように、前記第1ネットワークを訓練するステップと、
    を含むステップを実行する、少なくとも1つのコンピュータ読み取り可能媒体。
  15. 請求項9記載の少なくとも1つのコンピュータ読み取り可能媒体において、前記少なくとも1つのコンピュータ読み取り可能媒体は、更に、前記複数のネットワークを格納する、少なくとも1つのコンピュータ読み取り可能媒体。
  16. 請求項9記載の少なくとも1つのコンピュータ読み取り可能媒体において、前記第1ネットワークはニューラル・ネットワークであり、前記複数のネットワークの各ネットワークはニューラル・ネットワークである、少なくとも1つのコンピュータ読み取り可能媒体。
  17. 手書認識装置であって、
    各々第1言語の異なる文字を表す第1の複数の一次出力と、各々第2言語の異なる文字を表す第2の複数の一次出力とを有するネットワークと、
    前記一次出力上の信号を解釈するように構成された後処理ユニットと、
    前記一次出力の第1部分集合または第2部分集合の1つを選択的に、前記後処理ユニットによって解釈するのを阻止するように構成されたマスキング・ユニットと、
    を備えた、手書き認識装置。
  18. 請求項16記載の手書き認識装置において、前記ネットワーク、前記後処理ユニット、および前記マスキング・ユニットはソフトウェアを含む、手書き認識装置。
  19. 請求項16記載の手書き認識装置において、前記第1部分集合は、前記一次出力の内、前記第1言語の文字を表すが前記第2言語の文字を表さないものを含み、前記第2部分集合は、前記一次出力の内、前記第2言語の文字を表すが前記第1言語の文字を表さないものを含む、手書き認識装置。
  20. 請求項16記載の手書き認識装置において、前記ネットワークはニューラル・ネットワークである、手書き認識装置。
JP2008518424A 2005-06-23 2006-06-22 ニューラル・ネットワークを用いた手書き認識 Pending JP2009501965A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/159,301 US7428516B2 (en) 2005-06-23 2005-06-23 Handwriting recognition using neural networks
PCT/US2006/024451 WO2007002377A2 (en) 2005-06-23 2006-06-22 Handwriting recognition using neural networks

Publications (2)

Publication Number Publication Date
JP2009501965A true JP2009501965A (ja) 2009-01-22
JP2009501965A5 JP2009501965A5 (ja) 2009-07-09

Family

ID=37595861

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008518424A Pending JP2009501965A (ja) 2005-06-23 2006-06-22 ニューラル・ネットワークを用いた手書き認識

Country Status (6)

Country Link
US (1) US7428516B2 (ja)
EP (1) EP1897034A2 (ja)
JP (1) JP2009501965A (ja)
KR (1) KR20080019625A (ja)
CN (1) CN101730898B (ja)
WO (1) WO2007002377A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017514248A (ja) * 2014-04-04 2017-06-01 マイスクリプト 重畳された手書き文字認識技術システム及び重畳された手書き文字認識技術方法。

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7546280B1 (en) * 2005-08-30 2009-06-09 Quintura, Inc. Use of neural networks for keyword generation
US7620607B1 (en) * 2005-09-26 2009-11-17 Quintura Inc. System and method for using a bidirectional neural network to identify sentences for use as document annotations
US7475072B1 (en) 2005-09-26 2009-01-06 Quintura, Inc. Context-based search visualization and context management using neural networks
US7437370B1 (en) * 2007-02-19 2008-10-14 Quintura, Inc. Search engine graphical interface using maps and images
JP5239419B2 (ja) * 2008-03-14 2013-07-17 オムロン株式会社 文字認識プログラム、文字認識電子部品、文字認識装置、文字認識方法、およびデータ構造
US8180754B1 (en) 2008-04-01 2012-05-15 Dranias Development Llc Semantic neural network for aggregating query searches
US20150124566A1 (en) 2013-10-04 2015-05-07 Thalmic Labs Inc. Systems, articles and methods for wearable electronic devices employing contact sensors
US10188309B2 (en) 2013-11-27 2019-01-29 North Inc. Systems, articles, and methods for electromyography sensors
US10042422B2 (en) 2013-11-12 2018-08-07 Thalmic Labs Inc. Systems, articles, and methods for capacitive electromyography sensors
US11921471B2 (en) 2013-08-16 2024-03-05 Meta Platforms Technologies, Llc Systems, articles, and methods for wearable devices having secondary power sources in links of a band for providing secondary power in addition to a primary power source
JP5844854B2 (ja) * 2014-06-19 2016-01-20 ヤフー株式会社 提供装置、提供方法及び提供プログラム
US9880632B2 (en) 2014-06-19 2018-01-30 Thalmic Labs Inc. Systems, devices, and methods for gesture identification
US9678664B2 (en) * 2015-04-10 2017-06-13 Google Inc. Neural network for keyboard input decoding
CN108369661B (zh) * 2015-11-12 2022-03-11 谷歌有限责任公司 神经网络编程器
CN106407874A (zh) * 2016-03-25 2017-02-15 东南大学 基于笔迹坐标序列的手写识别方法
US10878318B2 (en) * 2016-03-28 2020-12-29 Google Llc Adaptive artificial neural network selection techniques
CN105893968B (zh) * 2016-03-31 2019-06-14 华南理工大学 基于深度学习的文本无关的端到端的笔迹识别方法
CN106022273A (zh) * 2016-05-24 2016-10-12 华东理工大学 基于动态样本选择策略的bp神经网络手写体识别系统
US11216069B2 (en) 2018-05-08 2022-01-04 Facebook Technologies, Llc Systems and methods for improved speech recognition using neuromuscular information
WO2018022658A1 (en) 2016-07-25 2018-02-01 Ctrl-Labs Corporation Adaptive system for deriving control signals from measurements of neuromuscular activity
CN110300542A (zh) 2016-07-25 2019-10-01 开创拉布斯公司 使用可穿戴的自动传感器预测肌肉骨骼位置信息的方法和装置
EP3487402B1 (en) 2016-07-25 2021-05-05 Facebook Technologies, LLC Methods and apparatus for inferring user intent based on neuromuscular signals
WO2018022657A1 (en) 2016-07-25 2018-02-01 Ctrl-Labs Corporation System and method for measuring the movements of articulated rigid bodies
US11635736B2 (en) 2017-10-19 2023-04-25 Meta Platforms Technologies, Llc Systems and methods for identifying biological structures associated with neuromuscular source signals
US12020174B2 (en) 2016-08-16 2024-06-25 Ebay Inc. Selecting next user prompt types in an intelligent online personal assistant multi-turn dialog
US11200273B2 (en) 2016-10-16 2021-12-14 Ebay Inc. Parallel prediction of multiple image aspects
US11748978B2 (en) 2016-10-16 2023-09-05 Ebay Inc. Intelligent online personal assistant with offline visual search database
US10860898B2 (en) 2016-10-16 2020-12-08 Ebay Inc. Image analysis and prediction based visual search
US11004131B2 (en) 2016-10-16 2021-05-11 Ebay Inc. Intelligent online personal assistant with multi-turn dialog based on visual search
US10970768B2 (en) 2016-11-11 2021-04-06 Ebay Inc. Method, medium, and system for image text localization and comparison
AU2018221709B2 (en) 2017-02-17 2022-07-28 The Coca-Cola Company System and method for character recognition model and recursive training from end user input
CN112074870A (zh) 2018-01-25 2020-12-11 脸谱科技有限责任公司 重构的手部状态信息的可视化
US11961494B1 (en) 2019-03-29 2024-04-16 Meta Platforms Technologies, Llc Electromagnetic interference reduction in extended reality environments
US11907423B2 (en) 2019-11-25 2024-02-20 Meta Platforms Technologies, Llc Systems and methods for contextualized interactions with an environment
US10937414B2 (en) 2018-05-08 2021-03-02 Facebook Technologies, Llc Systems and methods for text input using neuromuscular information
US11493993B2 (en) 2019-09-04 2022-11-08 Meta Platforms Technologies, Llc Systems, methods, and interfaces for performing inputs based on neuromuscular control
US11481030B2 (en) 2019-03-29 2022-10-25 Meta Platforms Technologies, Llc Methods and apparatus for gesture detection and classification
US11150730B1 (en) 2019-04-30 2021-10-19 Facebook Technologies, Llc Devices, systems, and methods for controlling computing devices via neuromuscular signals of users
US10592001B2 (en) 2018-05-08 2020-03-17 Facebook Technologies, Llc Systems and methods for improved speech recognition using neuromuscular information
WO2019231911A1 (en) 2018-05-29 2019-12-05 Ctrl-Labs Corporation Shielding techniques for noise reduction in surface electromyography signal measurement and related systems and methods
US10970374B2 (en) 2018-06-14 2021-04-06 Facebook Technologies, Llc User identification and authentication with neuromuscular signatures
WO2020018892A1 (en) 2018-07-19 2020-01-23 Ctrl-Labs Corporation Methods and apparatus for improved signal robustness for a wearable neuromuscular recording device
CN112566553A (zh) 2018-08-13 2021-03-26 脸谱科技有限责任公司 实时尖峰检测和识别
US10842407B2 (en) 2018-08-31 2020-11-24 Facebook Technologies, Llc Camera-guided interpretation of neuromuscular signals
CN112789577B (zh) 2018-09-20 2024-04-05 元平台技术有限公司 增强现实系统中的神经肌肉文本输入、书写和绘图
US10921764B2 (en) 2018-09-26 2021-02-16 Facebook Technologies, Llc Neuromuscular control of physical objects in an environment
WO2020072915A1 (en) 2018-10-05 2020-04-09 Ctrl-Labs Corporation Use of neuromuscular signals to provide enhanced interactions with physical objects in an augmented reality environment
EP3886693A4 (en) 2018-11-27 2022-06-08 Facebook Technologies, LLC. METHOD AND DEVICE FOR AUTOCALIBRATION OF A PORTABLE ELECTRODE SENSING SYSTEM
KR20200101481A (ko) * 2019-01-28 2020-08-28 삼성전자주식회사 전자 장치 및 그의 필체 보정 방법
US10905383B2 (en) 2019-02-28 2021-02-02 Facebook Technologies, Llc Methods and apparatus for unsupervised one-shot machine learning for classification of human gestures and estimation of applied forces
CN109871910B (zh) * 2019-03-12 2021-06-22 成都工业学院 一种手写字符识别方法及装置
US12089953B1 (en) 2019-12-04 2024-09-17 Meta Platforms Technologies, Llc Systems and methods for utilizing intrinsic current noise to measure interface impedances
US11720752B2 (en) * 2020-07-07 2023-08-08 Sap Se Machine learning enabled text analysis with multi-language support
EP4260293A1 (en) * 2020-12-11 2023-10-18 Ancestry.com Operations Inc. Handwriting recognition
US11868531B1 (en) 2021-04-08 2024-01-09 Meta Platforms Technologies, Llc Wearable device providing for thumb-to-finger-based input gestures detected based on neuromuscular signals, and systems and methods of use thereof

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05274455A (ja) * 1992-03-27 1993-10-22 Toshiba Corp ニューラルネットワーク装置
JPH07271917A (ja) * 1994-04-01 1995-10-20 Nippon Steel Corp 手書き文字認識辞書作成方法および装置
JPH1063632A (ja) * 1996-08-14 1998-03-06 Mitsubishi Electric Corp 大規模ニューラルネットワーク構築方法及び大規模ニューラルネットワーク構築装置及びニューラルネットワーク装置
JP2001331839A (ja) * 2000-05-22 2001-11-30 Glory Ltd 紙幣識別方法及び装置
JP2002324226A (ja) * 2001-04-25 2002-11-08 Fuji Electric Co Ltd ニューロシステム及びその構築方法
JP2004265136A (ja) * 2003-02-28 2004-09-24 Toshiba Corp 文字入力装置、文字入力方法、及び文字入力プログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4479241A (en) * 1981-08-06 1984-10-23 Buckley Bruce S Self-organizing circuits for automatic pattern recognition and the like and systems embodying the same
US4774677A (en) * 1981-08-06 1988-09-27 Buckley Bruce S Self-organizing circuits
US4989256A (en) * 1981-08-06 1991-01-29 Buckley Bruce S Self-organizing circuits
US5550930A (en) 1991-06-17 1996-08-27 Microsoft Corporation Method and system for training a handwriting recognizer at the time of misrecognition
WO1994015272A1 (en) * 1992-12-22 1994-07-07 Morgan Michael W Pen-based electronic teaching system
GB9305496D0 (en) 1993-03-17 1993-05-05 Eden Group Ltd Handwriting recognition device and method
US6011865A (en) 1993-05-12 2000-01-04 International Business Machines Corporation Hybrid on-line handwriting recognition and optical character recognition system
WO1994027251A1 (en) * 1993-05-18 1994-11-24 Massachusetts Institute Of Technology Automated reading system and method
WO1996001453A1 (en) 1994-07-01 1996-01-18 Palm Computing, Inc. Multiple pen stroke character set and handwriting recognition system
AU3625095A (en) * 1994-09-30 1996-04-26 Motorola, Inc. Method and system for extracting features from handwritten text
US5812698A (en) 1995-05-12 1998-09-22 Synaptics, Inc. Handwriting recognition system and method
US5991441A (en) 1995-06-07 1999-11-23 Wang Laboratories, Inc. Real time handwriting recognition system
US6453070B1 (en) 1998-03-17 2002-09-17 Motorola, Inc. Diacritical processing for unconstrained, on-line handwriting recognition using a forward search
US6285786B1 (en) 1998-04-30 2001-09-04 Motorola, Inc. Text recognizer and method using non-cumulative character scoring in a forward search
US6393395B1 (en) 1999-01-07 2002-05-21 Microsoft Corporation Handwriting and speech recognizer using neural network with separate start and continuation output scores
US6754386B1 (en) 2000-08-22 2004-06-22 Microsft Corporation Method and system of matching ink processor and recognizer word breaks
AUPR824401A0 (en) * 2001-10-15 2001-11-08 Silverbrook Research Pty. Ltd. Methods and systems (npw002)
US7174043B2 (en) 2003-02-25 2007-02-06 Evernote Corp. On-line handwriting recognizer
CA2433929A1 (en) 2003-07-16 2005-01-16 George Fierlbeck Artificial neural network structure optimizer

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05274455A (ja) * 1992-03-27 1993-10-22 Toshiba Corp ニューラルネットワーク装置
JPH07271917A (ja) * 1994-04-01 1995-10-20 Nippon Steel Corp 手書き文字認識辞書作成方法および装置
JPH1063632A (ja) * 1996-08-14 1998-03-06 Mitsubishi Electric Corp 大規模ニューラルネットワーク構築方法及び大規模ニューラルネットワーク構築装置及びニューラルネットワーク装置
JP2001331839A (ja) * 2000-05-22 2001-11-30 Glory Ltd 紙幣識別方法及び装置
JP2002324226A (ja) * 2001-04-25 2002-11-08 Fuji Electric Co Ltd ニューロシステム及びその構築方法
JP2004265136A (ja) * 2003-02-28 2004-09-24 Toshiba Corp 文字入力装置、文字入力方法、及び文字入力プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丸野 進 SUSUMU MARUNO: "適応増殖量子化ニューロン(ASQA)による文字認識 Character Recognition with Adaptive Segmentation", 電子情報通信学会技術研究報告 VOL.91 NO.302 IEICE TECHNICAL REPORT, vol. 第91巻, JPN6011062845, JP, ISSN: 0002083985 *
宮原 景泰: "ニューロ応用の文字認識技術", 三菱電機技報 第68巻 第8号, vol. 第68巻, JPN6011062843, ISSN: 0002083984 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017514248A (ja) * 2014-04-04 2017-06-01 マイスクリプト 重畳された手書き文字認識技術システム及び重畳された手書き文字認識技術方法。

Also Published As

Publication number Publication date
WO2007002377A3 (en) 2010-02-25
CN101730898A (zh) 2010-06-09
EP1897034A2 (en) 2008-03-12
CN101730898B (zh) 2012-08-08
KR20080019625A (ko) 2008-03-04
US20070009151A1 (en) 2007-01-11
WO2007002377A2 (en) 2007-01-04
US7428516B2 (en) 2008-09-23

Similar Documents

Publication Publication Date Title
JP2009501965A (ja) ニューラル・ネットワークを用いた手書き認識
US9911052B2 (en) System and method for superimposed handwriting recognition technology
US9384403B2 (en) System and method for superimposed handwriting recognition technology
Biadsy et al. Online arabic handwriting recognition using hidden markov models
US9141607B1 (en) Determining optical character recognition parameters
JP2007317022A (ja) 手書文字処理装置及び手書文字処理方法
JP2009539181A (ja) 手書き文字認識改善用コンバイナ
CN101739143B (zh) 文字输入方法及系统
Oni et al. Computational modelling of an optical character recognition system for Yorùbá printed text images
US20240211542A1 (en) Text verification device with battery power supply
JP6735775B2 (ja) 重畳手書き入力認識技術のためのシステム及び方法
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
CN106033316A (zh) 一种手写输入的方法和装置
Ramaiah et al. A bayesian framework for modeling accents in handwriting
WO2006090404A1 (en) System, method, and apparatus for accomodating variability in chunking the sub-word units of online handwriting
Htwe et al. Evaluation of feature sets in the post processing of handwritten Pitman's shorthand
Bakhtiari-Haftlang Arabic online handwriting recognition
Read et al. A Fine-Grained Approach to Evaluating Recognition Errors when using Handwritten Text Input
Htwe et al. Post Processing of Handwritten Phonetic Pitman’s Shorthand Using a Bayesian Network Built on Geometric Attributes

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090525

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090525

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110906

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120501