JP2005505861A - 筆跡特徴合成を用いたデジタル・インク・データベースの探索 - Google Patents

筆跡特徴合成を用いたデジタル・インク・データベースの探索 Download PDF

Info

Publication number
JP2005505861A
JP2005505861A JP2003536935A JP2003536935A JP2005505861A JP 2005505861 A JP2005505861 A JP 2005505861A JP 2003536935 A JP2003536935 A JP 2003536935A JP 2003536935 A JP2003536935 A JP 2003536935A JP 2005505861 A JP2005505861 A JP 2005505861A
Authority
JP
Japan
Prior art keywords
dictionary
text
query
digital ink
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003536935A
Other languages
English (en)
Inventor
ジョナソン, レイ ナッパー,
ポール ラプスタン
Original Assignee
シルバーブルック リサーチ ピーティワイ リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シルバーブルック リサーチ ピーティワイ リミテッド filed Critical シルバーブルック リサーチ ピーティワイ リミテッド
Publication of JP2005505861A publication Critical patent/JP2005505861A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Position Input By Displaying (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)
  • Burglar Alarm Systems (AREA)
  • Regulating Braking Force (AREA)
  • Transition And Organic Metals Composition Catalysts For Addition Polymerization (AREA)

Abstract

筆跡特徴合成を使用してインク・データベースを探索し、テキスト・ベースのクエリーを使用してデジタル・インク・データベースの探索を可能にするシステムおよび方法が開示される。手書き文字認識システムまたは適切なトレーニング手順から引き出された書き手特有の筆跡モデルを使用して、テキスト・クエリーは、デジタル・インク・データベースの作成者がテキスト・クエリーを手で書いたとすれば抽出されたであろう特徴ベクトルと類似した特徴ベクトルへ変換される。次に、特徴ベクトルはデータベースを探索するために使用される。これは、利用できる入力メカニズムがテキスト・エントリーだけである時、デジタル・インク・データベースの探索を可能にし、デジタル・インク・データベースの作成者以外の人物がデジタル・インク・データベースを探索できるようにする。
【選択図】図4

Description

【技術分野】
【0001】
本発明は、一般的には、デジタル・プロセッサによって実現される手書き文字の探索または認識システムに関し、具体的には、筆跡特徴合成を使用してテキスト形式の探索クエリーからデジタル・インク・データベースを探索する方法および装置に関する。
【背景技術】
【0002】
本明細書で使用される「デジタル・インク・データベース」とは、手書きの文字、例えば手書きのレターを形成する手書き文字のストリングを記憶するデータベースを意味する。
【概説】
【0003】
ペン・ベースのコンピューティング・システムは、人間とコンピュータの交信に便利で柔軟な手段を提供する。ほとんどの人は、ペンと紙を使用することに非常に慣れている。この習慣を、この媒体によって全く自然にサポートされるテキスト、線画、または計算のために、データ入力および記録メカニズムとしてペン状のデバイスを使用する既知のシステムに取り入れている。更に、書かれたインクは、デジタル・テキストよりも表現に富む形式であり、インク・ベースのシステムは言語から独立可能である。
【0004】
ペン・コンピューティングの使用の増加、およびネットワーク・コンピューティング・リソースへのペーパー・ベース・インタフェースの出現(例えば、P.Lapstun,Netpage System Overview,Silverbrook Research Pty Ltd,6th June,2000、およびAnoto,“Anoto,Ericsson,and Time Manager Take Pen and Paper into the Digital Age with the Anoto Technology”,Press Release,6th April,2000を参照されたい)は、(生の)デジタル・インクを記憶、索引、および探索することのできる手法の必要性を表している。ペン・ベース・コンピューティングによって、ユーザは、メモおよび注釈の形式でデータを記憶することができ、後で手書きのクエリーに基づいて、このデータを探索することができる。しかしながら、手書きテキストの探索は、従来のテキスト(例えばASCIIテキスト)の探索よりも困難である。筆跡の生成に一貫性がなく、書き手によってスタイルが変化するからである。
【デジタル・インク・データベースの探索】
【0005】
デジタル・インク・データベースで手書きデータを探索する従来の方法は、パターン認識手法を使用して、先ずデジタル・インク・データベースおよび対応する探索クエリーを標準テキストへ変換し、次にデータベースの中で、変換された標準テキストとクエリー・テキストを照合することである。手書き文字認識によって生成された誤りに類似した文字誤りの存在のもとでテキスト照合を実行するファジー・テキスト探索方法は既に説明されている。P.Hall 及び G.Dowlingによる “Approximate String Matching”,Computing Surveys,12(4),381〜402頁,1980年、を参照されたい。
【0006】
しかしながら、手書き文字認識の正確性は低いままであり、(データベース・エントリーおよび手書きクエリーの双方について)手書き文字認識によって導入された誤りの数は、この手法が良好に働かないことを意味している。手書き情報をテキストへ変換するプロセスは、筆跡の一般的形状およびダイナミック特性に関して、かなりの情報量の喪失を生じる。例えば、ある字句(例えば、「u」と「v」、「v」と「r」、「f」と「t」等)は、手書きの場合、形状が非常に類似する。更に、多くの手書きスタイル(特に筆記体で書く場合)、個々の文字の識別が非常に不明瞭である。
【0007】
デジタル・インク・データベースを直接探索および索引する様々な手法は、従来技術で知られている。例えば、A.Poon,K.Weber,及び T.Cassによる“Scribbler:A Tool for Searching Digital Ink”,Proceedings of the ACM Computer−Human Interaction,58〜64頁,1994年、I.Kamelによる“Fast Retrieval of Cursive Handwriting”,Proceedings of the 5th International Conference on Information and Knowledge Management,Rockville,MD USA,November 12〜16,1996、W.Aref,D.Barbera,P.Vallabhaneniによる“The Handwritten Trie:Indexing Electronic Ink”,The 1995 ACM SIGMOD International Conference on Management of Data,San Jose,California,May 1995、W,Aref,D.Barbera,D.Lopresti 及び A.Tomkinsによる “Ink as a First−Class Datatype in Multimedia Databases”,Database System−Issues and Research Direction,113〜163頁,1996年、およびR.Manmatha,C.Han,E.Riseman 及び W.Croftによる“Indexing Handwriting Using Word Matching”,Proceedings of the First ACM International Conference on Digital Libraries,151〜159頁,1996年、を参照されたい。
【0008】
これらのシステムは、クエリー・ペン・ストロークのセットから引き出された特徴ベクトルを、デジタル・インク・データベースから引き出された特徴ベクトルのデータベースと比較するため、類似性計量を使用する。クエリーとの最大類似性を示すデータベースのエントリーは、マッチとして返却される。更に、幾つかのアプローチは、索引を作成するか区分化スキームを使用して、データベースの全てのエントリーを順次に探索することを避ける。例えば、D.Barbara,W.Aref,I.Kamel 及び P.Vallabhaneniによる“Method and Apparatus for Indexing a Plurality of Handwritten Objects”,米国特許第5,649,023号、D.Barbara 及び I.Kamelによる“Method and Apparatus for Similarity Matching of Handwritten Data Objects”,米国特許第5,710,916号、D.Barbara 及び H.Korthによる“Method and Apparatus for Storage and Retrieval of Handwritten Information”,米国特許第5,524,240号、D.Barbara 及び W.Arefによる“Method for Indexing and Searching Handwritten Documents in a Database”,米国特許第5,553,284号、R.Hull,D.Reynolds 及び D.Gupterによる“Scribble Matching”,米国特許第6,018,591号、A.Poon,K.Weber 及び T.Cassによる“Searching and Matching Unrecognized Handwriting”,米国特許第5,687,254号、およびW.Aref 及び D.Barbaraによる“Trie Structure Based Method and Apparatus for Indexing and Searching Handwritten Databases with Dynamic Search Sequencing”,米国特許第5,768,423号を参照されたい。
【0009】
他の研究、即ち、J.Hollerbachによる“An Oscillation Theory of Handwriting”,Biological Cybernetics,139〜156頁,1981年、およびY.Singer 及び N.Tishbyによる“Dynamical Encoding of Cursive Handwriting”,IEEE Conference on Computer Vision and Pattern Recognition,1993年、は、筆跡合成のために手書きの物理特性をモデル化する努力を説明している。
【本発明の開示】
【0010】
前に説明したデジタル・インク・データベース探索手法は、デジタル・インク・データベースを作成した書き手によって生成されるインク・クエリーに依存する。しかしながら、デジタル・インク・データベースが、他の入力メカニズム、例えばコンピュータ・キーボードで入力されるか、または音声認識システムによって発話および認識されたテキスト・クエリーを使用して探索できれば有利であろう。あるいは、第三者が、自分の筆跡を使用するか、テキスト・ベースのクエリーを使用してデジタル・インク・データベースを探索したいと望むかも知れない。
【0011】
筆跡特徴合成を用いたインク・データベース探索は、テキスト・ベースのクエリーを使用してデジタル・インク・データベースを探索することを可能にする。手書き文字認識システムまたは適切なトレーニング手順から引き出された書き手特有の筆跡モデルを使用して、テキスト・クエリーは特徴ベクトルへ変換される。この特徴ベクトルは、デジタル・インク・データベースの作成者がテキスト・クエリーを手で書いたとすれば抽出されたであろう特徴ベクトルに類似している。次に、特徴ベクトルは、例えば従来の手法を使用してデータベースを探索するために使用される。これは、利用できる唯一の入力メカニズムがテキスト入力である時、デジタル・インク・データベースの探索を可能にし、デジタル・インク・データベースの作成者以外の人物がデジタル・インク・データベースを探索することを可能にする。
【0012】
本発明の広い形態によれば、テキスト・クエリーを用いてデジタル・インク・データベースを探索する方法が提供される。この方法は、
字句シーケンスおよび関連した特徴ベクトルのテーブルを含む辞典の探索を実行し、テキスト・クエリーを生成するように結合できる字句シーケンスを含む辞典エントリーのシーケンスを決定するステップと、
辞典エントリーのシーケンスに対応する特徴ベクトルのセットを取得するステップと、
特徴ベクトルのセットを用いてデジタル・インク・データベースを探索するステップと、
を含む。
【0013】
本発明の特定の実施形態によれば、辞典は、手書き文字認識の結果を用いてデジタル・インク・データベースの作成者から取得された筆跡モデルの一部分である。
【0014】
本発明の実施形態において、筆跡モデルは、字句シーケンスから特徴ベクトルへのマッピングを記憶する。好ましくは、辞典は各々の字句シーケンスについて複数の特徴ベクトルを含む。更に好ましくは、辞典エントリーの複数のシーケンスが決定されると、最小数のエントリーを有する辞典エントリーのシーケンスが使用される。
【0015】
更なる実施形態において、テキスト・クエリーは、手書き文字認識システムを使用して手書き入力をテキストへ変換し、および/または音声認識システムを使用して音声入力をテキストへ変換することによって取得される。
【0016】
本発明の特定の形態では、手書き文字認識の結果は、
筆跡をサンプリングするステップと、
フィルタを使用して筆跡を平滑化するステップと、
傾斜補正を実行するステップと、
ゾーン推定アルゴリズムを使用して高さの正規化を実行するステップと、
特徴抽出を使用してサブストロークの区分化および特徴ベクトルの生成を実行するステップと、
特徴ベクトルのセットの特徴縮減を使用するステップと、
ベクトル量子化を実行し、特徴ベクトルを集団化してコードワード・ベクトルを生成するステップと、
生成されたテキスト字句から最も可能性の高いワードを辞書から探索するステップと、
によって取得される。
【0017】
本発明の更に広範な形態によれば、クエリーを用いてデジタル・インク・データベースを探索する装置が提供される。この装置は、
ユーザがクエリーを入力するための入力デバイスと、
クエリーを受け取り、デジタル・インク・データベースと通信することのできるプロセッサと、
クエリーがまだテキスト・クエリーでない場合、クエリーをテキスト・クエリーへ変換する手段と、
辞典の探索を実行し、テキスト・クエリーを生成するために結合できる字句シーケンスを含む辞典エントリーのシーケンスを決定する手段と、
辞典エントリーのシーケンスに対応する特徴ベクトルのセットを取得する手段と、
特徴ベクトルのセットを用いてデジタル・インク・データベースを探索する手段と、
探索の結果をユーザへ表示する出力デバイスと
を備える。
【0018】
本発明の実施形態の他の態様によれば、テキスト・クエリーは、探索の特徴ベクトルを生成するために使用される筆跡モデルとは異なる筆跡モデルを使用して筆跡から生成される。
【0019】
本発明の更に広い形態によれば、クエリーを用いてデジタル・インク・データベースを探索する装置が提供される。この装置は、
デジタル・インク・データベースを記憶するストレージと、
辞典の探索を実行し、テキスト・クエリーを生成するために結合できる字句シーケンスを含む辞典エントリーのシーケンスを決定し、
辞典エントリーのシーケンスに対応する特徴ベクトルのセットを取得し、
特徴ベクトルのセットを使用してデジタル・インク・データベースを探索するように構成された
プロセッサと、を備え、
辞典は、手書き文字認識の結果を使用してデジタル・インク・データベースの作成者から取得された筆跡モデルの一部分である。
【本発明を実施する形態】
【0020】
本発明は、添付の図面と関連づけて記述される本発明の好ましいが非限定的な実施形態の以下の説明から明らかになるであろう。この説明は、単なる例として示されている。
【0021】
次の形態は、本発明の主題の正確な理解を提供するため、書かれた説明および添付のクレイムに適用されるものとして記述される。
【I.好ましい実施形態】
【0022】
本発明は、テキスト・クエリーを使用してデジタル・インク・データベースを探索する方法および装置を提供する。本発明の特徴を示すために組み込まれた図面において、図面の全体にわたって同様の部分を識別するため、同様の参照符号が使用される。
【0023】
本発明の実施形態は、処理システムを使用して実現することができる。処理システムの1つの例が図1に示される。具体的には、図示されるように、処理システム10は、一般的に、少なくともバス24を介して相互に結合されたプロセッサ20、メモリ21、入力デバイス22、例えばグラフィックス・タブレットおよび/またはキーボード、出力デバイス23、例えばディスプレイを含む。処理システムをデジタル・インク・データベース11へ結合するため、25で示されるような外部インタフェースも設けられる。
【0024】
使用に当たって、処理システム10は、データが、デジタル・インク・データベース11の中に記憶され、および/またはそこから検索されるように構成させる。プロセッサ20は、入力22を介して手書きデータ、テキスト・クエリー等を受け取る。これにより、処理システム10は任意の形式の処理システムまたは端末、例えばコンピュータ、ラップトップ、サーバ、特殊のハードウェア等であってよいことが分かるであろう。
【筆跡のモデル化】
【0025】
書き手特有の筆跡モデルは、特定のユーザの手書きスタイルを記述する。ほとんどのユーザ適合手書き文字認識システムは、個々のユーザのスタイル変化に対処するある種のモデルを生成する。一般的に、これらの筆跡モデルの目的は、入力ペン・ストロークのセットから抽出された特徴ベクトルを、認識されたテキストを表す字句のセットへマップすることである。
【0026】
しかしながら、デジタル・インクを探索する特徴合成アプローチは、書き手特有の筆跡モデルを使用して、逆マッピングを実行する。即ち、書き手がクエリー・テキストを手で書いたとしたら抽出されたであろう特徴を近似する特徴ベクトルのセットへクエリー・テキストを変換するため、モデルが使用される。図2は、手書きテキスト認識システムにおける一般的ステップの詳細を示す。筆跡は26でサンプリングされ、生のインク27が正規化ステップ28へ渡される。正規化されたインク29は、区分化ステップ30を経て、結果のストローク31は特徴抽出ステップ32へ渡される。特徴抽出ステップ32は特徴ベクトル33を抽出する。次に、筆跡モデル35を使用して、分類ステップ34が実行される。このステップはプリミティブ36を生成する。テキスト認識ステップ37はプリミティブ36を受け取り、言語モデル38および/または筆跡モデル35を使用して、生のインク27に対応するテキスト39を生成する。
【0027】
特徴合成を使用してインク・データベースを探索するには、追加のステップが必要である。書き手特有の筆跡モデル35は、テキストをインク特徴へマップする情報を記憶するように修正される必要がある。このマッピングを実行するため、個々の字句および字句グループ(即ち、字句のシーケンス)を特徴へ変換するテーブル(辞典と呼ばれる)が、筆跡モデルの中に含められる。認識が実行された後、出力テキストの中の字句および認識に使用された対応する特徴ベクトルを辞典へ追加することができる。
【0028】
通常一緒に起こる字句のグループおよび対応する特徴ベクトルは、連結されて辞典へ追加される。これが望ましい理由は、手書きが共結合効果を示し(字句を書く時、前後の字句の形状によって影響される)、よく書かれる字句(例えば、「qu」、「ed」、および「ing」)は、共結合を示しやすいからである。字句グループの特徴ベクトルを記憶することによって、ストローク・シーケンスの文脈的効果を考慮したクエリー・インクのより正確なレンダリングを生成することができる。
【0029】
辞典は、各々の字句シーケンスについて複数の特徴ベクトルを記憶できなければならない。同じ字句が何回も認識され得るから、辞典は、字句を最良に表す特徴ベクトルを選択できなければならない。これは、各々の字句シーケンスについて認識器から出力された全ての特徴ベクトル・シーケンスを、その特徴ベクトル・シーケンスがその字句シーケンスについて発見された回数のカウントと一緒に記憶することによって可能となる。字句シーケンスについて最高のカウント(即ち、発見の頻度が最も高く、したがって最も蓋然的な)特徴ベクトル・シーケンスが、特徴合成の間に使用される。
【0030】
どの字句グループを記憶するかの選択は、文字遷移統計(例えば、テキスト・コーパスから引き出される)に基づかせることができる。その場合、高い発生確率を有する字句シーケンスが記憶される(例えば、「ing」の確率は「inx」の確率よりも、はるかに大きい)。あるいは、認識の後で全ての可能な字句グループを記憶し、テーブルがあまりに大きくなった時、ある種の選択手順(例えば、最小近時使用)を実行することができる。
【0031】
辞典の中でワードの終わりを明示的にモデル化することによって、更なる改善を達成することができる。多くの筆記スタイルとして、文字はワードの終わりで不完全に書かれる。これは、特に、手で書かれるワードの接尾辞、例えば「ing」、「er」、および「ed」において明らかである。この行動をモデル化するため、ワード終了文字が字句シーケンスへ付加され(例えば、「ing#」)、この字句シーケンスがワードの終わりをモデル化することを示す。特徴合成の間、これらのエントリーは、クエリー・ワードを完了するためにのみ使用することができる。
【特徴合成】
【0032】
デジタル・インク・データベースを探索するため、テキスト・クエリーは、書き手特有の筆跡モデルを使用する特徴合成手順によって、特徴ベクトルのセットへ変換される。次に、これらの特徴ベクトルは、デジタル・インク・データベースを探索するためのクエリータームとして使用される。インク・データベースの探索は、従来のインク・マッチング手法を使用して実行することができる。図3は、この手順を説明している。ステップ40で、テキストが入力され、テキスト41は特徴合成ステップ42へ提供されて、特徴合成ステップ42は筆跡モデル35を使用して特徴43を生成する。特徴43は、デジタル・インク・データベース11のインク探索ステップ44で使用される。これはインク・マッチ45を生成する。
【0033】
特徴合成を実行するため、辞典の探索が実行され、結合されてクエリー・テキストを生成できる字句シーケンスを含む辞典エントリーのシーケンスが突き止められる。記憶された特徴ベクトルは、クエリー特徴ベクトルを生成するために連結される。しかしながら、クエリー・テキストを作り出すために使用できる辞典エントリーの異なった組み合わせが多数存在するかも知れない。テキストを生成できる最小数のエントリーが、文脈的効果を最も正確にモデル化するものと仮定する。例えば、次のエントリーが辞典の中に存在すると仮定する。
【0034】
【表1】
Figure 2005505861
したがって、ワード「borrowed」は(bo)(rr)(ow)(ed)、(borr)(ow)(ed)、または(bor)(rowed)として作り出すことができ、最後の構成が最も望ましい。なぜなら、最も少ない要素から構成されているからである。
【A*辞典の探索】
【0035】
正確な結果を得るため、辞典は非常に大きいことを期待され、ワードに対する辞典エントリーの潜在的組み合わせの数は指数的であろう。長いワードを含むクエリーの場合、全ての順列の完全な列挙は実際的でないかも知れない。字句シーケンスsを探索するために、修正されたA探索アルゴリズムを使用することができる。S.Russell 及び P.Norvig,Artificial Intelligence−A Modern Approach,Prentice Hall,1995年、を参照されたい。その場合、パス・コスト関数g(s)は、テキストを作り出すまでに使用された辞典エントリーの数であり、目標までの推定コストは、
h(s)=1、長さ(s)<長さ(クエリー)の場合
=0、他の場合
この発見的方法は、シーケンスがクエリー・ワードよりも少ない字句を有するならば、字句シーケンスを完了するのに少なくとも1つの追加的辞典エントリーが必要であることを記述している。探索ツリーの中のノードは、g(s)+h(s)によってソートされ(低い得点が優先する)、同じ得点を有するノードはシーケンスにおける字句の数によって順序を決められる(多いものが優先する)。
【0036】
注意すべきは、h(s)が単調で適格な発見的手法であり(即ち、それは決して目標へ到達するコストを過大に推定しない)、したがって探索は最適解の発見を保証され、最適に効率的である(即ち、最適解を発見することのできる最小数のノードを拡張する)。この結果の証明は、R.Dechter 及び J.Pearlによる“Generalized Best−First Search Strategies and the Optimality of A”,Journal of the Association for Computing Machinery,32(3),505〜536頁,1985年、に示されている。
【0037】
上記の手順の例として、ワード「borrowed」の探索が以下に示されている。テーブルの中の各々の行は探索ノードを表し、より高い得点のノードはテーブルの最上部に置かれる。
【0038】
【表2】
Figure 2005505861
テーブルの最上部にある最も有望なノードが拡張されて、次の結果になる。
【0039】
【表3】
Figure 2005505861
再び、最も有望なノードが拡張される。
【0040】
【表4】
Figure 2005505861
最上部のノードが、現在、完了したシーケンスであり、探索中の他のノードは、より良い得点を生成することができず、したがって、このノードが探索結果として選択される。
【II.様々な実施形態】
【0041】
[IIA.手書き文字認識を伴わない特徴合成]
特徴合成を使用するインク探索は、手書き文字認識システムを使用しないで実行することができる。この手法は、字句シーケンスおよび関連する特徴ベクトルの辞典を構築して、デジタル・インク・データベースを作成した書き手の筆跡をモデル化する能力を必要とするだけである。
【0042】
手書き文字認識の結果が、モデル化に利用できなければ、トレーニング手順を使用して、書き手特有の辞典を生成することができる。これを行うため、ユーザは、特定のトレーニング・テキストをコピーすることによって筆跡のサンプルを提供し、次に、このサンプルが辞典を構築するために使用される。トレーニング手順は、完全な手書き文字認識を実行するためには必要でない。なぜなら、筆跡によって表されるテキストは、既に知られているからである。それは、単に、入力を文字およびストロークへ区分化し、ストロークを特徴へ変換し、適切な字句グループおよび関連した特徴ベクトルを辞典の中に記憶するために必要である。
【0043】
辞典を構築するために使用されるトレーニング・テキストは、個々の字句および字句グループの均衡した例示的セットを提供するように最適化される必要がある。即ち、それは、類似した文字のユニグラム、バイグラム、およびトライグラムの範囲を最大にする必要がある。これに関しては、最も遭遇する可能性が高い字句および字句シーケンスに重点を置いている、J.Pitrelli, J.Subrahmonia, M.Perrone 及び K.Nathanによる“Optimization of Training Texts for Writer−Dependent Handwriting Recognition”,Advances in Handwriting Recognition,World Scientific Publishing,1999年、を参照されたい。
【0044】
[IIB.認識およびインク・マッチングの異なった特徴]
手書き文字認識システムおよびインク・マッチング・アルゴリズムの双方が同じ特徴表現を使用することが望ましい。なぜなら、デジタル・インク・データベースを探索するために使用される特徴は、手書き文字認識の結果から引き出されるからである。
【0045】
しかしながら、認識特徴を探索特徴へ変換できれば、認識と探索に対して異なった特徴セットを使用することができる。幾つかの特徴セットは、認識特徴から、トレーニング・データのセットから学習される探索特徴への変換を可能にする。
【0046】
あるいは、多くの特徴セットは、認識特徴からデジタル・インクの近似を再生成することを可能にし、その近似から第2の特徴セットを抽出することができる。即ち、テキスト・クエリーは、特徴合成を使用して特徴ベクトルのセットへ変換され、特徴抽出プロセスの逆変換が特徴へ適用されて、それらをデジタル・インクへ変換し、そのデジタル・インクから探索特徴が抽出される。この手順が、探索特徴の抽出に影響を与えるアーチファクトをデジタル・インクへ決して導入しないように注意しなければならない(例えば、生成されたインクの不連続は、幾つかの特徴抽出手法で問題を生じるかもしれない)。
【0047】
[IIC.第三者のインク探索]
手書き文字認識を使用してインク入力をテキストへ変換し、特徴合成を用いて認識されたテキストをインク探索の特徴へ変換することによって、他の書き手のデジタル・インク・データベースを探索することができる。
【0048】
図4はこの状況を示し、書き手Aによって作成されたデジタル・インク・データベースを書き手Bが探索する。ステップ46で、インクが書き手Bから受け取られ、ストローク47が特徴抽出ステップ48へ渡される。特徴49が抽出され、認識ステップ50は言語モデル51および書き手Bのモデル52を使用して、対応するテキスト53を生成する。これは、辞典構築ステップ54で書き手Bの辞典を構築するために使用される。字句グループおよび特徴が書き手Bのモデル52へ戻され、モデルを改善/更新する。次に、テキスト53は特徴合成ステップ42を経験し、図3を参照して説明した類似のプロセスが実行されて、書き手Aによって作成されたインク・マッチ45が検索される。
【III.更なる例】
【0049】
次の例は、本発明の一実施形態の更に詳細なアウトラインを提供する。この例は、単なる例として意図され、本発明の範囲を限定するものではない。
【0050】
このセクションは、特徴合成を使用したインク・データベース探索の実現を詳細に説明する。ワードおよび文字の区分化、および基線方向の正規化を含む多数の前処理ステップが実行されたものと仮定する。これは単に手法を実現する1つの可能な方法であり、プロセスの各々の段階で利用可能な代替方法が存在することに注意されたい。例えば、使用できる多くの異なった区分化スキーム、特徴セット、筆跡モデル、および認識手順が存在する。
【0051】
特徴合成を使用する手書き文字認識およびインク探索手順は、トレーニング段階および認識または探索段階を必要とする。トレーニング段階の間に、トレーニング・データのセットはストローク特徴へ変換され、ストローク特徴はストローク・プリミティブへ集団化されて筆跡のモデルを作り出すために使用される。認識およびインク探索のために、このモデルは、入力インクをデコードするかインク探索の特徴を合成するために使用される。このプロセスは図5で示される。同じ前処理、正規化、区分化、および特徴抽出手順が、トレーニング、認識、および探索に使用されることに注意されたい。
【0052】
手書き文字認識システムは、入力インクをストローク・コードワードのセットへマップする。このストローク・コードワードは、マッチするワードを辞典から探索するために使用される。図6は、このプロセスの概略を提供し、個々のステップは以下で詳細に説明される。
【平滑化】
【0053】
インクは100Hzの一定レートでサンプリングされる。研究によれば、筆跡は約5Hzでピーク・スペクトル密度を有し、これは約10Hzでノイズ・レベルへ降下する。H.Teulings 及び F.Maarseによる“Digital Recording and Processing of Handwriting Movements”,Human Movement Science,3,193〜217頁,1984年、を参照されたい。よって、10Hzでカットオフを有する低域フィルタは、筆跡信号の関連スペクトル成分に影響を与えることなく高周波ノイズを除去するであろう。
【0054】
上記の仕様に合致する低域フィルタは、点座標を円形にし、FFTを実行して高周波成分を除去し、逆FFTを使用して信号を再生することによって生成できる。しかしながら、簡単な加重平均フィルタも有効に働く。点{p...p}のシーケンスを平滑化するため、
【0055】
【数1】
Figure 2005505861
ここで、
【0056】
【数2】
Figure 2005505861
フィルタの幅kおよびα平滑化係数は、経験的に決定される。
【傾斜補正】
【0057】
多くの手書きスタイルは、書かれた字句の垂直主軸を有しない(即ち、字句は一貫した傾斜で書かれる)。筆跡傾斜を除去することは、手書き字句の認識を改善できる正規化である。手書きにおいて、ダウンストロークは最も安定および一貫したストロークと考えられ、したがって筆跡傾斜を検出するために有用である。
【0058】
筆跡傾斜を検出するため、書かれたダウンストロークの点{p...p}における加重平均方向が推定される。
【0059】
【数3】
Figure 2005505861
ここで、
【0060】
【数4】
Figure 2005505861
角度αおよびαは、どのストローク・セグメントがダウンストロークの一部分として考えられるかを定義し、経験的にそれぞれ40°および140°に設定される(90°は垂直線を表す)。推定された傾斜が、垂直線からある閾値よりも大きく偏向すれば、傾斜は横ずれ変換を使用して除去される。
【0061】
【数5】
Figure 2005505861
ここで、yminおよびymaxは、インクの境界長方形の最上部と最下部を表す。
【ゾーン推定】
【0062】
ゾーン推定は、入力インクの高さを正規化するために使用される。英語の字句は3つのゾーン−中間ゾーン(字句、例えば「a」、「c」、「e」等の高さに対応する)、および字句、例えば「b」、「d」、「g」、および「j」のアセンダおよびデセンダを含む上方および下方ゾーンを示す。
【0063】
ゾーン推定は、インク濃度の水平ヒストグラムを使用して実行される。即ち、インクの境界長方形を通過する等間隔の水平線の列について、インク交差の数が決定される。ヒストグラムの中央ピークが発見され、同じようにインク濃度が中央ピーク高のある分数よりも下へ降下するヒストグラムの両側の2つの点が発見される。これらの2つの点は、中間ゾーンの上方および下方境界として選択される。上方および下方ゾーンは、中間ゾーンと境界長方形の垂直極値との間の空間として画成される。
【特徴抽出】
【0064】
インクは垂直方向の極値(即ち、Y座標の極大および極小)でサブストロークへ区分化される。区分化が起こるためには、選択された区分化点でストロークを分割することによって生成された2つのサブストロークの長さが、前もって計算された最小距離(推定された中間ゾーンの高さの半分に設定される)を超えなければならない。
【0065】
次に、区分化されたサブストロークは、ストローク軌道に沿って等間隔に置かれた定数のn個の点を含むように再サンプリングされる。次に、座標を正規化することによって、特徴ベクトルがサブストロークのために作り出される。
【0066】
【数6】
Figure 2005505861
【0067】
【数7】
Figure 2005505861
ここで、
min=ブストローク境界長方形のX最小値、
middle=中間ゾーンの最上部のY座標、
h=中間ゾーンの高さ(即ち、ybase−ymiddle)。
【0068】
次に、特徴ベクトルが、正規化された座標からf={x’,y’,...,x’,y’}として作り出される。
【特徴の縮減】
【0069】
結果のベクトルは、多数の高度に相関した特徴を使用してサブストロークを記述する(明らかに、点pの座標は、点pi−1に依存する。以下同様である)。ベクトルの次元をmへ下げるため(ここでm<2n)、カルーネン・レーベ(Karhunen−Loeve)変換が使用される(「主成分分析」(Principal Component Analysis−R.Duda,P.Hart,and D.Stork,Pattern Classification,Second Edition,John Wiley&Sons,Inc.,569〜570頁,2001年)を参照)。この手順は、最小自乗の意味で最適のリニアマッピングを使用して、高次元の特徴を低次元へ投影する。
【0070】
これを行うため、全てのトレーニング特徴ベクトルX={f,...,f}のセットについて、次式を使用した共分散(自己相関)マトリックスが計算される。
【0071】
【数8】
Figure 2005505861
このマトリックスの固有ベクトルおよび固有値が発見され(三重対角QL陰アルゴリズムを使用する。W.Press,B.Flannery,S.Teukolsky 及び W.Vetterlingによる W.T.,Numerical Recipes in C,Cambridge:Cambridge University Press,1988年)を参照)、PCAマトリックスZを形成するため、最大n個の固有値に対応する固有ベクトルが使用される。次に、特徴ベクトルは、このマトリックスと乗算され、直交無相関軸を有する新しい特徴空間へ特徴ベクトルを変換する。
【0072】
【数9】
Figure 2005505861
【ベクトルの量子化】
【0073】
次に、変換された特徴ベクトルは、コホーネン(Kohonen)自己組織化特徴マップ(SOFM(Self−Organizing Feature Map))を使用して集団化される。T.Kohonenによる“Self−Organized Formation of Topologically Correct Feature Maps”,Biological Cybernetics,43,59〜69頁,1982年、を参照されたい。この手法は、監督されない学習手順を使用して入力ベクトルを集団化し、ベクトル間の距離および近接関係ができるだけ遠く維持されるようにする。使用されるSOFMは2次元構造を有し、可視的に類似したコードワード(即ち、クラスタ)は相互に近づけて置かれる。その結果、2つのコードワード間の距離は、コードワード値の間のある距離計量(例えばユークリッド距離)を使用して容易に計算することができる。
【0074】
SOFMトレーニングは、ランダムな重みで開始される簡単な2層ニューラルネットワークを使用して反復的に実行される。正規化された入力トレーニング・ベクトルxと最良にマッチする出力ニューロンは、最小ユークリッド距離を使用して発見される。
【0075】
【数10】
Figure 2005505861
ここで、wは出力ノードiの重みベクトルを表す。最高活動値を有するノードおよびそれを取り巻くノードの重み(近傍関数Λによって決定される)は、次式を使用して更新される。
【0076】
【数11】
Figure 2005505861
ここで、ηは学習レート関数であり、ηおよびΛは、典型的には、時間tにわたって変化する。トレーニングは、トレーニング・セットの反復中にニューロン重みへの顕著な変化が存在しなくなるまで継続する。
【0077】
サブストロークのシーケンスをコードワード・ベクトルへ変換するため、各々のサブストローク特徴ベクトルが、トレーニングされたSOFMを使用して量子化され、コードワード・ベクトルへ付加される。特徴ベクトルは、SOFMコードブックの出力ニューロンに対する最大活動値を選択することによって、コードワードへ量子化される。
【0078】
【数12】
Figure 2005505861
【筆跡モデル】
【0079】
筆跡モデルは、ストローク・コードワード・ベクトルから字句へのマッピング(テキスト認識について)、および字句グループからコードワード・ベクトルへの逆マッピング(特徴合成について)を記憶する。筆跡モデルを構築するため、トレーニング・データにおける各々の字句はコードワード・ベクトルへ変換され、このコードワード・ベクトルは、対応する字句と一緒にテーブルの中に記憶される。
【0080】
特定のコードワード・シーケンスは多数の字句へマップし(例えば、不完全に書かれた「u」は「v」と同じ特徴ベクトルへマップするかも知れない)、個々の字句は多数のコードワード・ベクトルによってマップされることに注意されたい。コードワード・ベクトルが特定の字句を表した回数のカウントを取ることによって、字句xについてn個の辞典エントリーがあれば、ベクトルが字句xを表す確率は、次のように計算することができる。
【0081】
【数13】
Figure 2005505861
ここで、cは、コードワード・ベクトルが字句xを表すように遭遇された回数のカウントである。次のテーブルは、仮説のコードワード・ベクトル{3,4}を表すテーブルから取られた例示的エントリーである。
【0082】
【表5】
Figure 2005505861
このテーブルは、コードワード・シーケンス{3,4}が入力の中で遭遇されたならば、それが字句「u」を表す確率が0.54であり、それが「v」を表す確率が0.41であり、それが「r」を表す確率が0.05であることを示す。
【0083】
逆マッピング・テーブルは同じようにして生成され、字句および字句グループに関連づけられたコードワード・ベクトルを記憶する。
【認識】
【0084】
手書き文字認識を実行するためには、入力インクが前述したように処理され、結果のコードワード・ベクトルは、筆跡モデルを探索して字句仮説を生成するように使用される。派生字句の可能性が最も高いワードを辞典から探索するため、最良・第1探索ストラテジが使用される。プロセスは下記の図7で示される。
【インクの探索】
【0085】
インクの探索は、手書き文字認識の間に生成された筆跡モデルを使用して、入力クエリー・テキストをコードワードのシーケンスへマップするように実行される。このコードワード・ベクトルは、弾力的マッチング手法を使用してデジタル・インク・データベースを探索するために使用される。類似のインク・マッチング手法の完全な説明は、D.Lopresti 及び A.Tomkinsによる“Temporal−Domain Matching of Hand−Drawn Pictorial Queries”,Handwriting and Drawing Research: Basic and Applied Issues,IOS Press,387〜401頁,1996年、に記載されている。次いで、結果のクエリーは類似性の順序に従って並べられ、ユーザに提供される。
【0086】
このように、本発明に従って、テキスト・クエリーを使用してデジタル・インク・データベースを探索する方法および装置が提供された。この方法および装置は、前述した利点を満足させる。
【0087】
本発明は、更に、個別的または集合的に本願の明細書で言及または指摘された部分、要素、および特徴にあり、これら部分、要素、または特徴の2つ以上の任意または全ての組み合わせにあると広く言うことができ、本発明が関連を有する技術で既知の同等物を有する特定の整数が言及されている場合は、そのような既知の同等物は、あたかも個々に記載されているかのように、ここに組み込まれていると考えられる。
【0088】
好適な実施形態が詳細に説明されたが、これまで説明され、また特許請求の範囲に記載されるような本発明の範囲から逸脱することなく、当業者による様々な変更、置換、および代替が可能であることを理解すべきである。
【図面の簡単な説明】
【0089】
【図1】処理システムを示す。
【図2】手書き文字認識方法の概観を示す。
【図3】特徴合成を使用するデジタル・インク・データベースの探索方法を示す。
【図4】第三者のインク・データベースの探索方法を示す。
【図5】トレーニングおよび認識/探索段階を示す。
【図6】手書き文字認識の方法を示す。
【図7】テキスト認識の例を示す。

Claims (17)

  1. テキスト・クエリーを用いてデジタル・インク・データベースを探索する方法であって、
    字句シーケンスおよび関連した特徴ベクトルのテーブルを含む辞典の探索を実行し、テキスト・クエリーが生成されるよう結合可能な字句シーケンスを含む辞典エントリーのシーケンスを決定するステップと、
    辞典エントリーのシーケンスに対応する特徴ベクトルのセットを取得するステップと、
    特徴ベクトルのセットを使用してデジタル・インク・データベースを探索するステップと、
    を含む方法。
  2. 辞典が、手書き文字認識の結果を用いてデジタル・インク・データベースの作成者から取得された筆跡モデルの一部分である、請求項1に記載の方法。
  3. 筆跡モデルが字句シーケンスから特徴ベクトルへのマッピングを記憶する、請求項1または2に記載の方法。
  4. 辞典が、各々の字句シーケンスについて複数の特徴ベクトルを含む、請求項1から3のいずれか一項に記載の方法。
  5. 辞典が、ワードの終わりを示すワード終了文字を含む、請求項1から4のいずれか一項に記載の方法。
  6. 辞典を生成するために使用される手書き文字認識の結果がトレーニング・テキストから引き出される、請求項1から5のいずれか一項に記載の方法。
  7. 辞典エントリーの複数のシーケンスが決定される場合、最小数のエントリーを有する辞典エントリーのシーケンスが使用される、請求項1から6のいずれか一項に記載の方法。
  8. 字句シーケンスsを探索するため探索アルゴリズムが使用される、請求項1から7のいずれか一項に記載の方法。
  9. 手書き文字認識システムを使用して手書き入力をテキストへ変換することによって、テキスト・クエリーが取得される、請求項1から8のいずれか一項に記載の方法。
  10. 音声認識システムを使用して音声入力をテキストへ変換することによって、テキスト・クエリーが取得される、請求項1から8のいずれか一項に記載の方法。
  11. 手書き文字認識の結果は、
    筆跡をサンプリングするステップと、
    フィルタを使用して筆跡を平滑化するステップと、
    傾斜補正を実行するステップと、
    ゾーン推定アルゴリズムを使用して高さの正規化を実行するステップと、
    特徴抽出を使用してサブストロークへの区分化および特徴ベクトルの生成を実行するステップと、
    特徴ベクトルのセットの特徴縮減を使用するステップと、
    ベクトル量子化を実行し、特徴ベクトルを集団化してコードワード・ベクトルを生成するステップと、
    生成されたテキスト字句から最も可能性の高いワードを辞書から探索するステップと、
    によって取得される、請求項1から10のいずれか一項に記載の方法。
  12. クエリーを用いてデジタル・インク・データベースを探索する装置であって、
    ユーザがクエリーを入力する入力デバイスと、
    クエリーを受け取り、デジタル・インク・データベースと通信することのできるプロセッサと、
    クエリーがまだテキスト・クエリーでない場合、クエリーをテキスト・クエリーへ変換する手段と、
    辞典の探索を実行し、テキスト・クエリーが生成されるよう結合可能な字句シーケンスを含む辞典エントリーのシーケンスを決定する手段と、
    辞典エントリーのシーケンスに対応する特徴ベクトルのセットを取得する手段と、
    特徴ベクトルのセットを用いてデジタル・インク・データベースを探索する手段と、
    探索の結果をユーザへ表示する出力デバイスと、
    を備える装置。
  13. 辞典が、手書き文字認識の結果を用いて、デジタル・インク・データベースの作成者から取得される筆跡モデルの一部分である、請求項12に記載の装置。
  14. 探索のために特徴ベクトルを生成するために使用される筆跡モデルとは異なった筆跡モデルを使用して、テキスト・クエリーが筆跡から生成される、請求項12または13に記載の装置。
  15. 辞典がトレーニング・テキストを使用して生成される、請求項12から14のいずれか一項に記載の装置。
  16. テキスト・クエリーが音声認識システムによって音声クエリーから生成される、請求項12から15のいずれか一項に記載の装置。
  17. クエリーを用いてデジタル・インク・データベースを探索する装置であって、
    デジタル・インク・データベースを記憶するストレージと、
    プロセッサであって、
    辞典の探索を実行し、テキスト・クエリーが生成されるよう結合可能な字句シーケンスを含む辞典エントリーのシーケンスを決定し、
    辞典エントリーのシーケンスに対応する特徴ベクトルのセットを取得し、
    特徴ベクトルのセットを使用してデジタル・インク・データベースを探索するように構成された、
    プロセッサと、を備え、
    辞典が、手書き文字認識の結果を用いてデジタル・インク・データベースの作成者から取得された筆跡モデルの一部分である、
    装置。
JP2003536935A 2001-10-15 2002-10-15 筆跡特徴合成を用いたデジタル・インク・データベースの探索 Pending JP2005505861A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
AUPR8243A AUPR824301A0 (en) 2001-10-15 2001-10-15 Methods and systems (npw001)
PCT/AU2002/001395 WO2003034276A1 (en) 2001-10-15 2002-10-15 Digital ink database searching using handwriting feature synthesis

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2008175821A Division JP2008293519A (ja) 2001-10-15 2008-07-04 手書きでないテキストを使用して手書きデータベースを探索する為の方法及びシステム

Publications (1)

Publication Number Publication Date
JP2005505861A true JP2005505861A (ja) 2005-02-24

Family

ID=3832068

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2003536935A Pending JP2005505861A (ja) 2001-10-15 2002-10-15 筆跡特徴合成を用いたデジタル・インク・データベースの探索
JP2008175821A Pending JP2008293519A (ja) 2001-10-15 2008-07-04 手書きでないテキストを使用して手書きデータベースを探索する為の方法及びシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2008175821A Pending JP2008293519A (ja) 2001-10-15 2008-07-04 手書きでないテキストを使用して手書きデータベースを探索する為の方法及びシステム

Country Status (12)

Country Link
US (2) US8219908B2 (ja)
EP (1) EP1444614B1 (ja)
JP (2) JP2005505861A (ja)
KR (1) KR100717637B1 (ja)
CN (1) CN1701323B (ja)
AT (1) ATE358851T1 (ja)
AU (1) AUPR824301A0 (ja)
CA (1) CA2463236C (ja)
DE (1) DE60219342D1 (ja)
IL (1) IL161381A0 (ja)
WO (1) WO2003034276A1 (ja)
ZA (1) ZA200402928B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013544401A (ja) * 2010-12-15 2013-12-12 北京壹人壹本信息科技有限公司 手書き原筆跡記録及び検索システム、方法、並びに電子装置
JP2014235551A (ja) * 2013-05-31 2014-12-15 株式会社東芝 検索装置、方法及びプログラム

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002952483A0 (en) 2002-11-05 2002-11-21 Silverbrook Research Pty Ltd Methods and Systems (NPW009)
AU2004265699B2 (en) * 2003-08-15 2007-08-09 Silverbrook Research Pty Ltd Improving accuracy in searching digital ink
EP1661028A1 (en) * 2003-08-15 2006-05-31 Silverbrook Research Pty. Limited Natural language recognition using distributed processing
FR2880709B1 (fr) * 2005-01-11 2014-04-25 Vision Objects Procede de recherche, reconnaissance et localisation dans l'encre, dispositif, programme et langage correspondants
US7593908B2 (en) 2005-06-27 2009-09-22 Microsoft Corporation Training with heterogeneous data
US7646940B2 (en) * 2006-04-04 2010-01-12 Microsoft Corporation Robust indexing and retrieval of electronic ink
US8315482B2 (en) 2007-06-26 2012-11-20 Microsoft Corporation Integrated platform for user input of digital ink
US8041120B2 (en) 2007-06-26 2011-10-18 Microsoft Corporation Unified digital ink recognition
US8094939B2 (en) * 2007-06-26 2012-01-10 Microsoft Corporation Digital ink-based search
CN101482920B (zh) * 2008-12-30 2010-12-22 广东国笔科技股份有限公司 一种手写字符识别方法及系统
CN102117122B (zh) * 2009-12-30 2014-08-13 浪潮乐金数字移动通信有限公司 一种英文输入方法和移动通信终端
CN101901355A (zh) * 2010-06-29 2010-12-01 北京捷通华声语音技术有限公司 一种基于最大熵的文字识别方法和识别装置
CN102005033B (zh) * 2010-11-16 2012-07-04 中国科学院遥感应用研究所 一种图像平滑抑制噪声方法
KR101830787B1 (ko) 2011-07-12 2018-02-21 삼성전자 주식회사 수기로 작성된 메모 데이터 검색 방법 및 장치
US10430066B2 (en) * 2011-12-06 2019-10-01 Nri R&D Patent Licensing, Llc Gesteme (gesture primitive) recognition for advanced touch user interfaces
KR101898202B1 (ko) * 2012-02-09 2018-09-12 삼성전자주식회사 필기 인식을 위한 필기 입력 가이드 장치 및 방법
WO2013152417A1 (en) * 2012-04-11 2013-10-17 Research In Motion Limited Systems and methods for searching for analog notations and annotations
JP5717691B2 (ja) * 2012-05-28 2015-05-13 株式会社東芝 手書き文字検索装置、方法及びプログラム
JP5330576B1 (ja) * 2012-07-09 2013-10-30 株式会社東芝 情報処理装置および筆跡検索方法
US8640046B1 (en) * 2012-10-23 2014-01-28 Google Inc. Jump scrolling
KR101997447B1 (ko) * 2012-12-10 2019-07-08 엘지전자 주식회사 이동단말기 및 그 제어 방법
US8943092B2 (en) 2013-03-04 2015-01-27 Microsoft Corporation Digital ink based contextual search
US9558400B2 (en) 2013-03-07 2017-01-31 Ricoh Company, Ltd. Search by stroke
US9880990B2 (en) 2013-03-14 2018-01-30 Microsoft Technology Licensing, Llc Leveraging previous instances of handwriting for handwriting beautification and other applications
JP5869179B2 (ja) * 2013-03-18 2016-02-24 株式会社東芝 電子機器および手書き文書処理方法
US9898187B2 (en) 2013-06-09 2018-02-20 Apple Inc. Managing real-time handwriting recognition
US20140363082A1 (en) * 2013-06-09 2014-12-11 Apple Inc. Integrating stroke-distribution information into spatial feature extraction for automatic handwriting recognition
US9495620B2 (en) 2013-06-09 2016-11-15 Apple Inc. Multi-script handwriting recognition using a universal recognizer
US9201592B2 (en) * 2013-08-09 2015-12-01 Blackberry Limited Methods and devices for providing intelligent predictive input for handwritten text
KR101488670B1 (ko) * 2014-01-29 2015-02-04 주식회사 디오텍 텍스트와 디지털 잉크를 포함하는 대용량 문서의 교차 검색 시스템 및 방법
JP6270565B2 (ja) * 2014-03-18 2018-01-31 株式会社東芝 電子機器および方法
US10997757B1 (en) * 2014-06-17 2021-05-04 FlipScript, Inc. Method of automated typographical character modification based on neighboring characters
CN105809100B (zh) * 2014-12-31 2019-04-19 中国刑事警察学院 笔迹与签名量化检验鉴定特征总积法
KR102305584B1 (ko) * 2015-01-19 2021-09-27 삼성전자주식회사 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치
FR3038100A1 (fr) * 2015-06-26 2016-12-30 Orange Procede de reconnaissance d'ecriture manuscrite sur une surface physique
KR101669821B1 (ko) * 2015-11-09 2016-10-27 주식회사 셀바스에이아이 필기 데이터 베이스를 생성하는 방법, 장치 및 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램
KR101667910B1 (ko) * 2015-11-09 2016-10-20 주식회사 셀바스에이아이 디지털 인공 필기 데이터를 생성하는 방법, 장치 및 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램
US10228775B2 (en) * 2016-01-22 2019-03-12 Microsoft Technology Licensing, Llc Cross application digital ink repository
CN107292213B (zh) * 2016-03-30 2020-04-14 中国刑事警察学院 笔迹量化检验鉴定方法
DK179374B1 (en) 2016-06-12 2018-05-28 Apple Inc Handwriting keyboard for monitors
CN107562716A (zh) * 2017-07-18 2018-01-09 阿里巴巴集团控股有限公司 词向量处理方法、装置以及电子设备
CN107844472B (zh) * 2017-07-18 2021-08-24 创新先进技术有限公司 词向量处理方法、装置以及电子设备
CN107562715B (zh) * 2017-07-18 2021-01-26 创新先进技术有限公司 词向量处理方法、装置以及电子设备
KR102445371B1 (ko) * 2017-12-11 2022-09-20 현대자동차주식회사 필기 입력 장치의 문자 인식 방법, 필기 입력 장치 및 필기 입력 장치를 구비하는 자동차
US10514841B2 (en) * 2018-04-30 2019-12-24 Microsoft Technology Licensing, Llc Multi-layered ink object
CN109002849B (zh) * 2018-07-05 2022-05-17 百度在线网络技术(北京)有限公司 识别对象发展阶段的方法和装置
US11194467B2 (en) 2019-06-01 2021-12-07 Apple Inc. Keyboard management user interfaces
CN111310543B (zh) * 2019-12-04 2023-05-30 湖北工业大学 在线笔迹认证中笔画提连笔特征的提取及认证方法
CN113128296B (zh) * 2019-12-31 2023-05-09 重庆傲雄在线信息技术有限公司 一种电子手写签字模糊标签化识别系统
CN111242840A (zh) * 2020-01-15 2020-06-05 上海眼控科技股份有限公司 手写体字符生成方法、装置、计算机设备和存储介质
CN113378609B (zh) * 2020-03-10 2023-07-21 中国移动通信集团辽宁有限公司 代理商代签名的识别方法及装置
CN112241686A (zh) * 2020-09-16 2021-01-19 四川天翼网络服务有限公司 一种基于特征向量的轨迹比对匹配方法及系统
WO2022087847A1 (zh) * 2020-10-27 2022-05-05 京东方科技集团股份有限公司 手写文本识别方法、装置和系统,手写文本搜索方法和系统,以及计算机可读存储介质
EP4057182A1 (en) * 2021-03-09 2022-09-14 Société BIC Handwriting feedback
CN113610065B (zh) * 2021-10-09 2022-05-20 北京世纪好未来教育科技有限公司 笔迹识别方法和装置

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4864618A (en) 1986-11-26 1989-09-05 Wright Technologies, L.P. Automated transaction system with modular printhead having print authentication feature
US5051736A (en) 1989-06-28 1991-09-24 International Business Machines Corporation Optical stylus and passive digitizing tablet data input system
US5063600A (en) * 1990-05-14 1991-11-05 Norwood Donald D Hybrid information management system for handwriting and text
US5220649A (en) * 1991-03-20 1993-06-15 Forcier Mitchell D Script/binary-encoded-character processing method and system with moving space insertion mode
US5477012A (en) 1992-04-03 1995-12-19 Sekendur; Oral F. Optical position determination
US5852434A (en) 1992-04-03 1998-12-22 Sekendur; Oral F. Absolute optical position determination
US5583543A (en) * 1992-11-05 1996-12-10 Sharp Kabushiki Kaisha Pen input processing apparatus
US5392363A (en) * 1992-11-13 1995-02-21 International Business Machines Corporation On-line connected handwritten word recognition by a probabilistic method
IT1265673B1 (it) * 1993-03-22 1996-11-22 Texas Instruments Italia Spa Apparecchio e procedimento per il riconoscimento di caratteri manoscritti.
JP2933801B2 (ja) * 1993-06-11 1999-08-16 富士通株式会社 文字の切り出し方法及びその装置
US5454046A (en) * 1993-09-17 1995-09-26 Penkey Corporation Universal symbolic handwriting recognition system
US5687254A (en) * 1994-06-06 1997-11-11 Xerox Corporation Searching and Matching unrecognized handwriting
US5652412A (en) 1994-07-11 1997-07-29 Sia Technology Corp. Pen and paper information recording system
US5666438A (en) * 1994-07-29 1997-09-09 Apple Computer, Inc. Method and apparatus for recognizing handwriting of different users of a pen-based computer system
US5768423A (en) * 1994-09-02 1998-06-16 Panasonic Technologies Inc. Trie structure based method and apparatus for indexing and searching handwritten databases with dynamic search sequencing
AU3200095A (en) * 1994-09-09 1996-03-27 Motorola, Inc. Method and system for recognizing a boundary between characters in handwritten text
US5768417A (en) * 1994-09-09 1998-06-16 Motorola, Inc. Method and system for velocity-based handwriting recognition
WO1996008787A1 (en) * 1994-09-14 1996-03-21 Apple Computer, Inc. System and method for automatic subcharacter unit and lexicon generation for handwriting recognition
US5661506A (en) 1994-11-10 1997-08-26 Sia Technology Corporation Pen and paper information recording system using an imaging pen
US5757959A (en) * 1995-04-05 1998-05-26 Panasonic Technologies, Inc. System and method for handwriting matching using edit distance computation in a systolic array processor
US6081261A (en) 1995-11-01 2000-06-27 Ricoh Corporation Manual entry interactive paper and electronic document handling and processing system
US5832474A (en) * 1996-02-26 1998-11-03 Matsushita Electric Industrial Co., Ltd. Document search and retrieval system with partial match searching of user-drawn annotations
US5933823A (en) * 1996-03-01 1999-08-03 Ricoh Company Limited Image database browsing and query using texture analysis
US5692073A (en) 1996-05-03 1997-11-25 Xerox Corporation Formless forms and paper web using a reference-based mark extraction technique
JP2000502479A (ja) * 1996-10-04 2000-02-29 フィリップス エレクトロニクス ネムローゼ フェンノートシャップ 時系列フレームから取出した集合体化観測を用いる特徴ベクトルに基づくオンライン手書き文字認識方法および装置
US6275611B1 (en) * 1996-10-17 2001-08-14 Motorola, Inc. Handwriting recognition device, method and alphabet, with strokes grouped into stroke sub-structures
US6169789B1 (en) * 1996-12-16 2001-01-02 Sanjay K. Rao Intelligent keyboard system
US5970455A (en) * 1997-03-20 1999-10-19 Xerox Corporation System for capturing and retrieving audio data and corresponding hand-written notes
JP3020887B2 (ja) 1997-04-14 2000-03-15 株式会社エイ・ティ・アール知能映像通信研究所 データベース格納方法、データベース検索方法およびデータベース装置
US5953451A (en) * 1997-06-19 1999-09-14 Xerox Corporation Method of indexing words in handwritten document images using image hash tables
US6518950B1 (en) 1997-10-07 2003-02-11 Interval Research Corporation Methods and systems for providing human/computer interfaces
WO1999018556A2 (en) * 1997-10-08 1999-04-15 Koninklijke Philips Electronics N.V. Vocabulary and/or language model training
WO1999050787A1 (en) 1998-04-01 1999-10-07 Xerox Corporation Cross-network functions via linked hardcopy and electronic documents
US6157731A (en) * 1998-07-01 2000-12-05 Lucent Technologies Inc. Signature verification method using hidden markov models
US6964374B1 (en) 1998-10-02 2005-11-15 Lucent Technologies Inc. Retrieval and manipulation of electronically stored information via pointers embedded in the associated printed material
JP2001148123A (ja) 1999-11-22 2001-05-29 Sony Corp 光ディスク、記録及び/又は再生装置及び方法
US6355889B1 (en) 2000-06-28 2002-03-12 International Business Machines Corporation Method and apparatus for linking electronic ink to electronic personal information systems
US7155061B2 (en) * 2000-08-22 2006-12-26 Microsoft Corporation Method and system for searching for words and phrases in active and stored ink word documents
US6785417B1 (en) * 2000-08-22 2004-08-31 Microsoft Corp Method and system for searching for words in ink word documents
US7092870B1 (en) * 2000-09-15 2006-08-15 International Business Machines Corporation System and method for managing a textual archive using semantic units
US7336827B2 (en) * 2000-11-08 2008-02-26 New York University System, process and software arrangement for recognizing handwritten characters
US20020107885A1 (en) * 2001-02-01 2002-08-08 Advanced Digital Systems, Inc. System, computer program product, and method for capturing and processing form data
US7627596B2 (en) * 2001-02-22 2009-12-01 International Business Machines Corporation Retrieving handwritten documents using multiple document recognizers and techniques allowing both typed and handwritten queries
US7284191B2 (en) * 2001-08-13 2007-10-16 Xerox Corporation Meta-document management system with document identifiers
US7188313B2 (en) * 2001-10-03 2007-03-06 Hallmark Cards, Incorporated Context sensitive font generation
US7523235B2 (en) * 2003-06-11 2009-04-21 Lsi Corporation Serial Advanced Technology Attachment (SATA) switch

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013544401A (ja) * 2010-12-15 2013-12-12 北京壹人壹本信息科技有限公司 手書き原筆跡記録及び検索システム、方法、並びに電子装置
JP2014235551A (ja) * 2013-05-31 2014-12-15 株式会社東芝 検索装置、方法及びプログラム

Also Published As

Publication number Publication date
DE60219342D1 (de) 2007-05-16
US20120239397A1 (en) 2012-09-20
AUPR824301A0 (en) 2001-11-08
US20050222848A1 (en) 2005-10-06
KR100717637B1 (ko) 2007-05-15
CN1701323A (zh) 2005-11-23
CN1701323B (zh) 2010-06-23
KR20050036863A (ko) 2005-04-20
EP1444614B1 (en) 2007-04-04
EP1444614A1 (en) 2004-08-11
CA2463236C (en) 2010-09-21
JP2008293519A (ja) 2008-12-04
ATE358851T1 (de) 2007-04-15
WO2003034276A1 (en) 2003-04-24
IL161381A0 (en) 2004-09-27
ZA200402928B (en) 2005-02-23
US8219908B2 (en) 2012-07-10
CA2463236A1 (en) 2003-04-24
EP1444614A4 (en) 2005-12-28

Similar Documents

Publication Publication Date Title
US8219908B2 (en) Digital ink database searching using handwriting feature synthesis
Keysers et al. Multi-language online handwriting recognition
Bharath et al. HMM-based lexicon-driven and lexicon-free word recognition for online handwritten Indic scripts
Hu et al. Writer independent on-line handwriting recognition using an HMM approach
EP1141941B1 (en) Handwritten or spoken words recognition with neural networks
US7925663B2 (en) Searching an electronic filing system using a handwritten search query and a text search query
KR100523892B1 (ko) 디지털 펜을 사용하여 상용 악보 표기(cmn)를 기록하기위한 방법 및 시스템
JP3176023B2 (ja) 手書き入力照合方法および装置
Awal et al. First experiments on a new online handwritten flowchart database
KR100630886B1 (ko) 문자 스트링 식별
AU2002333063A1 (en) Character string identification
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
ZA200200661B (en) Method and apparatus for determining the cell border for handover operation.
Romero et al. Modern vs diplomatic transcripts for historical handwritten text recognition
Calvo-Zaragoza et al. Recognition of pen-based music notation with finite-state machines
Sundaram et al. Language models for online handwritten Tamil word recognition
AU2002333066B2 (en) Digital ink database searching using handwriting feature synthesis
AU2002333066A1 (en) Digital ink database searching using handwriting feature synthesis
Lopresti Ink as Multimedia Data
ZA200507773B (en) Method of searching handwritten text databases using a lexicon
Kang et al. Design of an interface on PDA for Korean
Kaur et al. Online handwritten text recognition for indian scripts
Wu Establishment of Japanese Continuous Speech Recognition System Based on Association Rules Mining
Baiju Pattern primitive based malayalam handwritten character recognition studies for real-time applications
Zhang et al. Keyword spotting from online Chinese handwritten documents using one-versus-all character classification model

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070822

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20070822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071002

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20071228

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080110

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080204

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080229

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080401