JPH08512162A - 筆記体の書込み分析方法 - Google Patents

筆記体の書込み分析方法

Info

Publication number
JPH08512162A
JPH08512162A JP7527504A JP52750495A JPH08512162A JP H08512162 A JPH08512162 A JP H08512162A JP 7527504 A JP7527504 A JP 7527504A JP 52750495 A JP52750495 A JP 52750495A JP H08512162 A JPH08512162 A JP H08512162A
Authority
JP
Japan
Prior art keywords
strings
writing
cursive
analysis method
population
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP7527504A
Other languages
English (en)
Inventor
フィリップ ジェントリク
Original Assignee
フィリップス エレクトロニクス ネムローゼ フェンノートシャップ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フィリップス エレクトロニクス ネムローゼ フェンノートシャップ filed Critical フィリップス エレクトロニクス ネムローゼ フェンノートシャップ
Publication of JPH08512162A publication Critical patent/JPH08512162A/ja
Abandoned legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification
    • G06V30/373Matching; Classification using a special pattern or subpattern alphabet
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • G06V30/2268Character recognition characterised by the type of writing of cursive writing using stroke segmentation
    • G06V30/2272Character recognition characterised by the type of writing of cursive writing using stroke segmentation with lexical matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 図形タブレット1により手書き本文から情報を抽出する。このようにして得た曲線により、文字の一部の書込み方法を示す語根すなわち基本形態を識別することができる。異字体と称されるより完成した形態を語根から構成して、一文字又二文字若しくは三文字の群を構成する。一連のコードが、それぞれがその語根のコードのシーケンスにより規定された異字体3の辞書からの既知の対象に一致すると、対応する異字体が識別される。一般的なアルゴリズムを使用してストリングの母集団を向上させる。二つの開始ストリングを結合すること(7)により得られる「子孫」は、ストリングを限定された量で選択する(9)ことにより構成し、これら子孫のうちから最適なものを順に選択し、これを徐々に母集団に適合させる。用途:筆記体の書込みの識別

Description

【発明の詳細な説明】 筆記体の書込み分析方法 本発明は、筆記体の書込みを分析するに当たり、基本形態を、筆記体の書込み で書き込まれた単語中で識別し、文字又は文字群をこれら形態から再構成し、あ り得る文字の群の辞書を、前記書込みから抽出された形態から構成された群と同 一又はこれら群に類似する群に対して探索し、これにより、識別すべき単語に一 致しうる符号の複数のストリングを搬送する筆記体の書込み分析方法に関するも のである。 手書きした文字を自動的に識別することにより、キーボードを用いることなく ユーザとコンピュータとの間の通信をより自然にすることができる。この動作は 、筆記すなわち「手書き」の動きを文字のストリングに変換することにある。こ れに関連して、本出願人は、ペンの動きを記録するとともに辞典を用いて単語を 認識することにより書体を認識しようとした。 筆記体の書込みを分析する工程は、欧州特許明細書第0564827号(Internation al Business Machine)に記載されている。この工程では、書き込まれた単語を 辞書からの単語と比較し、互いに十分類似するものを同一であるとみなし、これ により単語のリストを配送する。リストの各単語はスコアに割り当てられている 。最適なスコアを有する単語が選択される。 書込みの識別の分野における現在の計画は、(西洋の書式の右から左の)書込 み方向に注意が向けられている。しかしながら、問題が複雑になると分析の明確 な計画を定義できない。実際、予備情報が著しく不足している。 本発明の目的は、このような方法の計算速度及び識別動作を向上させることで ある。 本発明によれば、再生手順を、「対象」ストリングのこの母集団に基づいて実 行し、すなわち一般的な用語の意味の子孫を構成し、子孫ストリングを交差によ り獲得し、すなわち前記母集団の前記ストリングのうちの二つから結合要素を取 り出し、前記子孫ストリングのうちの少なくとも一部を開始母集団に追加する。 好適には、前記開始母集団を最適ストリングのみの選択から構成し、前記最適 ストリングのみを、開始選択に追加すべき子孫間で順に選択する。 最初の再生手順に従って得られた母集団に、再生手順を再び行う。 好適例によれば、「親」ストリングのそれぞれを、前記開始母集団から任意に 取り出し、前記「親」ストリングのそれぞれにおいて、子孫を構成するために前 記「親」ストリングから取り出された要素のうちの一つを任意に取り出す。 探究された解の範囲を広げるために、変形を、複数の交差中に行う。 本発明を、実施例を参照して以下詳細に説明するが、本発明はこれら実施例に 限定されるものではない。 図1は、本発明による工程を実行する全システムの線図である。 図2は、単語の要素を決定するのに用いる文字の一部を示す。 図3は、単語“this”の基本図形要素のコード化を示す。 図4は、二つの個体から子孫を発生させる方法を線図的に示す。 書き込まれる一連の単語の識別に関して、特定の言語(フランス語、英語等) に関連するものと予め仮定する。 システム全体の線図を図1に示す。図形タブレット1により手書きの本文から 情報が抽出される。このようなタブレットは、人物が書き込む間のタブレット上 のペンの動きの速度及び方向を記録する。書込みの特性をコードによって表すこ とができるように、処理段階を処理ユニット2で実行する。例えば、瞬時Tiの 成分を瞬時Ti-1,Ti,Ti+1の成分の重み付けした平均に置き換えるフィルタ により記録信号を滑らかにすることによって、取得したなだらかさが主な原因の 局所的な変化を克服することができる。このフィルタは、水平速度、垂直速度及 び方向角を表す曲線をフィルタ処理しうるような3成分を有する。 このようにして得られた曲線により、文字の一部の書込み方法を表す語根すな わち基本形態を識別することができる。語根の例を、上向きスパイク、下向きス パイク、ループ、ドーム及びディッシュとする。既に説明した処理の後、処理ユ ニット2は分析を行って語根を見つけ出すようにする。単語の中心区域の位置は 、垂直に投射した語根のヒストグラムを判断することにより評価される。語根の それぞれにコードを付す。四つの基本語根(スパイク、ループ、ドーム又はディ ッシュ、二つの語根間のリンク)に基づくとともに単語の中央に対する語根の位 置を考察することにより、(α、β、γ、δ等と称される)28の相違するコー ドが使用される。所定の単語部は分離されている。例えば“t”のバー及び“i ”のドットが抽出される。 異字体と称されるより完成した形態は、1文字又は2文字若しくは3文字の群 を構成する語根から形成される。したがって異字体は、語根に基づいてコード化 された文字又は文字群の書込み方法を示すものととなる。 中心区域の下又は上に位置する単語のパーツ又は(単語が“t”のバー又は“ i”のドットを含みうることを示す)“t”のバー又は“1”のドットの存在の ような情報の複数事項を考察するとともにペンの動きを解釈することにより、異 字体の辞書の呼び出すと、分析された書き込みに存在しうるとともに組み合わせ うる異字体を見つけ出して単語を形成することができる。このようにして形成さ れた単語は特定の言語に多数存在しない。 図形的な語根に関する異字体の表現は、主体が26文字及び最も頻繁に用いら れる連字又は三重字(二字又は三字の異字体を連字又は三重字と称する。)を書 く方法に関連する統計的な情報に基づいて組み立てられる。一連のコードが、語 根のコードのシーケンスによって規定された異字体の辞書からの既知の対象に対 応する場合、対応する異字体を識別する。識別すべき異字体のコードのうちの一 部のみが辞書からのコードのシーケンスに相当する事態が頻繁に生じ、この場合 異字体が確実に識別されない。この際、最もあり得る解のうちの幾つかを使用し 続け、このようにして一母集団の有望な解を次に処理する。 あり得る解の母集団の個体を「ストリング」と称する。単語を筆記体の書込み で書き込む方法を表す語根のリストによるストリングの表示を「図形イメージ」 と称する。ストリングを、文字を規定するアスキーコードによって表示すること もでき、この表示を「語彙イメージ」と称する。 図2は、結びつけられる筆記体の書込み中の位置に対して僅かに互いに離間し た異字体“THn”の語根を示す。ここでnは、文字t,hの群のn番目の書込み 方法であることを示す。それは、高い上向きスパイク(コードβ)、これに続く ディッシュ(コードυ)、ループ(コードο)、短い下向きスパイク(コード χ)これに続くドーム(コードε)及びディッシュ(コードυ)からなる。三つ の異字体から構成されるとともに語彙イメージを単語“this”とするストリ ングTH125を他に示す(図3)。この図形イメージを、リストβ,υ,ο ,χ,ε,υ,γ,λ,φ,κとする。 解のように提案されたストリングの図形イメージと、図形タブレット(図1) により記録されるとともに処理ユニット2により語根のコードの形態で配送され るワードの語根のコード化との間の類似を、「フィットネス」と称する。例えば 、識別すべき単語を“that”とする場合、ストリング“TH125”は“ B21UEI”よりも高いフィットネスを有する。その理由は、一致が完全でな くてもそれがより良好に一致するからである。 フィットネスを、ストリング間の一致を評価する分類方法、例えばいわゆる「 修正レーベンシュテイン距離」(modified Levenshtein distance)法(4)に よるフィットネス評価モジュール5によって評価される。 ストリングの母集団を向上させるために一般的なアルゴリズムを用いる。これ を、一般的な用語の意味では子孫、すなわち開始ストリングに結合することによ り得られるストリングをストリングの限定された量の選択から構成し、これら子 孫のうちから最適なものを順に選択し、これを徐々に母集団に最適化する手順と する。したがって最先端付近で保持された単語は、最良のフィットネスを有する ストリングに対応するものである。 識別すべき単語の事前分析は、向上させようとする最初の母集団を構成する語 根の複数のストリングを配送する。語彙分析器は、語根のストリング(例えばα βγδε)に基づいて、異字体3の辞書に含まれる単語からあり得る単語(例え ばTH AS S)のリストを発生させる。各文字又は文字群の表示方法のうち の一つを種々の各文字又は文字群の表示方法から任意に選択し(例えばTH1= THの書込みの第1方法、AS3=ASの書込みの第3方法、S5=Sの書込みの 第5方法)、これらの単語を辞典から図形イメージ(この場合αβφγτ)に変 換するのに用いる。このようにして、最初の母集団を、異字体の辞書からの単語 に基づく異字体のコード化を用いて構成する。 一般的な方法では通常、母集団を構成する個体は固定サイズを有する。それに 対してこの場合、ストリングの長さは固定されていない。一般的なアルゴリズム はオペレータ6〜9によって実行される。オペレータのそれぞれは、特に母集団 から個体を除去又は保存する必要があるか否かを決定することを、フィットネス 評価モジュール5に要求する。選択オペレータ9により、平均して、最適なスト リングが消失しないとともに最悪なストリングが消失するように設計することが できる。各ストリングに対して、フィットネス評価モジュール5によって評価さ れるフットネスに関連した確率に応じて保存するか消失させるかを決定する。処 理ユニット2は開始母集団をモジュール9に配送する。 他の二つのオペレータすなわち交差オペレータ7及び変形オペレータ8を使用 する。 各ストリングは、ストリングのフィットネスを形成する重要な情報の役割を含 む。しかしながら、フィットネスが、ストリングの全体に関連する広域値である ので、ストリング中にこの情報を配置するのに不都合を有する。統計的な方法を 交差オペレータ7で用いて、この問題を解決する。最初に、任意に選択された母 集団からのストリングを対にして結合する。この任意さに重み付けをして、より 高いフィットネスを有するストリングに、選択されたより高い確率を付与する。 次いで、ストリングの各対は図4に示したように交差する。新規のストリングは その「親」より優れたフィットネスを有する必要がなく、フィットネス評価モジ ュールを呼び出すことにより、保存すべき「子孫」を選択することができる。開 始母集団が限定された数の異字体を含むので、見直される解の数も限定される。 探索される解の範囲を広くするために、変形オペレータ8はノイズを交差手順に 導入する。一つの異字体を、開始時に固定された確率で交差中変更させることが できる。3タイプの変形を、ストリングの全異字体に対する変形した異字体の種 々の割合で導入することができる。 −変更、すなわち異字体を変形させる。例えば、TH3SAM4E→TH3AT21 −挿入、すなわち新規の異字体を導入する。例えば、TH3SAM4E→TH3S AM4AT21 −削除、すなわち異字体を消失させる。例えば、TH3SAM4E→TH31 母集団の値は、新規のストリングを選定すなわち発生させる方法及び変形を行 う方法に依存する。手順を改善するために、一般的なオペレータは、重要な単語 要素の損失又は低下をできるだけ回避するという観点から規定される。重要な単 語要素を、最適なストリングによって処理された特性を処理するサブストリング とする。 語彙イメージが劣悪なフィットネスを有する場合、ストリングは少なくとも、 できるだけ多くの有効な連字又は三重字を含む必要がある(連字又は三重字は、 連字又は三重字が異字体の辞書に存在する場合に有効である。この存在は特に言 語に依存し、例えば連字“KN”はフランス語では非常に稀であるが、英語には 頻繁に存在する。)。これら重要な要素を保存しようとする場合、変形又は交差 オペレータ7及び8は次の非決定論的な方法で動作する。ストリングの語彙イメ ージを考察する際、有効連字又は三重字を形成する場合又はこれらの消滅を回避 する場合、連字又は三重字の変換が許容される。 手順の停止を決定しない限り、オペレータ7又は8のうちの一つからの各スト リング出力が選択オペレータ9に帰還して、これらが母集団に追加される(矢印 11)。 モジュール6は、手順を継続すべきか停止すべきか決定する。形成オペレータ の動作の影響により母集団は決して完全に安定せず、これは手順を不定に継続し うることを意味する。複数の基準を停止決定モジュール6で用いて、解が有効で あるか否かを決定するとともに停止することを決定する。 − 最適なストリングは、あり得るワード10の辞書中に存在する語彙イメージ を有する。 − 繰り返し数がセット限界に到達する。 − 最適ストリングのフィットネスが所定の値より高い(例えば、ストリングの 図形イメージが、分析すべき単語の語根のリストと完全に一致する。)。 − 最適ストリングの語彙イメージの全ての三重字が有効である。語彙イメージ があり得る単語の辞書に属さない場合でさえ、有効とすべき三重字に対して十分 な理由が存在するか否かを決定するように妥当な分析を行う。例えば、形態“X *ZT”又は“XY*T”の全ての四重字が有効である場合、XYZTが辞書に 属さない場合でさえ、語彙イメージXYZTを適切な解とすることができる。 − ストリングの最適表現の数が全母集団の一定の割合を超える。 最後の四つの状態では、あり得る単語の辞書に存在しない結果を配送しうるよ うにアルゴリズムを許容する。 「最初が全て等しい」複数の相違するストリングが存在する場合、これらスト リング間の決定をすることができない。一般に、これら相違するストリングそれ 自体のそれぞれは、複数の実例として存在し、したがって複数の同一ストリング を構成する。この際これらストリングが分類され、最多のこれら母集団を検索す る。一般にこれは最適のものである。

Claims (1)

  1. 【特許請求の範囲】 1.筆記体の書込みを解析するに当たり、基本形態を、筆記体の書込みで書き込 まれた単語中で識別し、文字又は文字群をこれら形態から再構成し、あり得る文 字の群の辞書を、前記書込みから抽出された形態から構成された群と同一又はこ れら群に類似する群に対して探索し、これにより、識別すべき単語に一致しうる 符号の複数のストリングを搬送する筆記体の書込み解析方法において、再生手順 を、「対象」ストリングのこの母集団に基づいて実行し、すなわち一般的な用語 の意味の子孫を構成し、子孫ストリングを交差により獲得し、すなわち前記母集 団の前記ストリングのうちの二つから結合要素を取り出し、前記子孫ストリング のうちの少なくとも一部を開始母集団に追加することを特徴とする筆記体の書込 み解析方法。 2.前記開始母集団を最適ストリングのみの選択から構成し、前記最適ストリン グのみを、開始選択に追加すべき子孫間で順に選択することを特徴とする請求の 範囲1記載の筆記体の書込み解析方法。 3.最初の再生手順に従って得られた母集団に、再生手順を再び行うことを特徴 とする請求の範囲1又は2記載の筆記体の書込み解析方法。 4.「親」ストリングのそれぞれを、前記開始母集団から任意に取り出すことを 特徴とする請求の範囲1から3のうちのいずれかに記載の筆記体の書込み解析方 法。 5.前記「親」ストリングのそれぞれにおいて、子孫を構成するために前記「親 」ストリングから取り出された要素のうちの一つを任意に取り出すことを特徴と する請求の範囲1から4のうちのいずれかに記載の筆記体の書込み解析方法。 6.変形を、複数の前記交差中に行うことを特徴とする請求の範囲1から5のう ちのいずれかに記載の筆記体の書込み解析方法。
JP7527504A 1994-04-20 1995-04-20 筆記体の書込み分析方法 Abandoned JPH08512162A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR9404716A FR2719140A1 (fr) 1994-04-20 1994-04-20 Méthode pour l'analyse d'écriture cursive.
FR94/04716 1994-04-20
PCT/IB1995/000280 WO1995029458A1 (en) 1994-04-20 1995-04-20 Method for analyzing cursive writing

Publications (1)

Publication Number Publication Date
JPH08512162A true JPH08512162A (ja) 1996-12-17

Family

ID=9462305

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7527504A Abandoned JPH08512162A (ja) 1994-04-20 1995-04-20 筆記体の書込み分析方法

Country Status (6)

Country Link
US (1) US5940533A (ja)
EP (1) EP0708945B1 (ja)
JP (1) JPH08512162A (ja)
DE (1) DE69517910T2 (ja)
FR (1) FR2719140A1 (ja)
WO (1) WO1995029458A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3577207B2 (ja) * 1996-12-12 2004-10-13 富士通株式会社 遺伝的アルゴリズム実行装置、実行方法およびそのプログラム記憶媒体
US7139738B2 (en) * 2002-06-27 2006-11-21 Koninklijke Philips Electronics N.V. Face recognition using evolutionary algorithms
JP2005301664A (ja) * 2004-04-12 2005-10-27 Fuji Xerox Co Ltd 画像辞書作成装置、符号化装置、データファイル、画像辞書作成方法及びそのプログラム
RO121497B1 (ro) * 2005-02-09 2007-06-29 Softwin S.R.L. Sistem informatic şi metodă pentru achiziţia, analiza şi autentificarea semnăturii olografe
US7454063B1 (en) 2005-09-22 2008-11-18 The United States Of America As Represented By The Director National Security Agency Method of optical character recognition using feature recognition and baseline estimation
US7620245B2 (en) * 2006-05-30 2009-11-17 Microsoft Corporation Cursive handwriting recognition with hierarchical prototype search

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4754489A (en) * 1985-10-15 1988-06-28 The Palantir Corporation Means for resolving ambiguities in text based upon character context
US5029223A (en) * 1990-02-02 1991-07-02 International Business Machines Corporation Constraint driven-on line recognition of handwritten characters and symbols
WO1991014990A1 (en) * 1990-03-28 1991-10-03 Koza John R Non-linear genetic algorithms for solving problems by finding a fit composition of functions
JPH0684006A (ja) * 1992-04-09 1994-03-25 Internatl Business Mach Corp <Ibm> オンライン手書き文字認識方法
US5649027A (en) * 1992-07-24 1997-07-15 Microsoft Corporation Recognition of handwritten words

Also Published As

Publication number Publication date
EP0708945B1 (en) 2000-07-12
EP0708945A1 (en) 1996-05-01
US5940533A (en) 1999-08-17
DE69517910D1 (de) 2000-08-17
DE69517910T2 (de) 2001-02-15
FR2719140A1 (fr) 1995-10-27
WO1995029458A1 (en) 1995-11-02

Similar Documents

Publication Publication Date Title
JP4308785B2 (ja) デジタルインク質疑検索装置及びその方法
JP2726568B2 (ja) 文字認識方法及び装置
AU737039B2 (en) Methods and apparatuses for handwriting recognition
JP3452774B2 (ja) 文字認識方法
US5727081A (en) System and method for automated interpretation of input expressions using novel a posteriori probability measures and optimally trained information processing networks
US5050219A (en) Method of handwriting recognition
EP0476393A2 (en) Robust prototype establishment in an on-line handwriting recognition system
JP3422541B2 (ja) キーワードのモデル化方法及び非キーワードhmmの提供方法
JPH0340433B2 (ja)
JPH08512162A (ja) 筆記体の書込み分析方法
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
Lamghari et al. Template matching for recognition of handwritten Arabic characters using structural characteristics and Freeman code
JPS60153574A (ja) 文字読取方法
Leung et al. Contextual vector quantization modeling of hand-printed Chinese character recognition
JP3233803B2 (ja) 難読漢字検索装置
CA1293807C (en) Method of handwriting recognition
Lee et al. On-line cursive script recognition using an island-driven search technique
Aljuaid et al. Arabic handwriting recognition using projection profile and genetic approach
JPS60153575A (ja) 文字読取方法
Amin Recognition of printed Arabic text using machine learning
JPH08161432A (ja) 文字切り出し方法および文字切り出し装置
Amara et al. New mechanisms to enhance the performances of arabic text recognition system: feature selection
Tierney et al. Printed Cyrillic character recognition system
JPH10198761A (ja) 文字認識方法および文字認識装置
JP5986051B2 (ja) アラビア語テキストを自動的に認識するための方法

Legal Events

Date Code Title Description
A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20050824