JP7219011B2 - 表に関するタイプセットネススコア - Google Patents

表に関するタイプセットネススコア Download PDF

Info

Publication number
JP7219011B2
JP7219011B2 JP2018073128A JP2018073128A JP7219011B2 JP 7219011 B2 JP7219011 B2 JP 7219011B2 JP 2018073128 A JP2018073128 A JP 2018073128A JP 2018073128 A JP2018073128 A JP 2018073128A JP 7219011 B2 JP7219011 B2 JP 7219011B2
Authority
JP
Japan
Prior art keywords
lengths
boundaries
boundary
cluster
typesetness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018073128A
Other languages
English (en)
Other versions
JP2019040585A (ja
Inventor
ユージン ベラート ダレル
Original Assignee
コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド filed Critical コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド
Publication of JP2019040585A publication Critical patent/JP2019040585A/ja
Application granted granted Critical
Publication of JP7219011B2 publication Critical patent/JP7219011B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Character Discrimination (AREA)
  • Image Processing (AREA)

Description

本発明は、画像処理方法、コンピュータープログラム、画像処理システム、およびコンピューター読み取り可能な記録媒体に関する。
画像は、手書きの線(手書き線)によって区切られた、行および列を有する表を含みうる。例えば、画像は、手書きのページのスキャン、またはマーカーを使用して表が手書きされた筆記ボード(writing board)の写真でありうる。
これらの手書き線は、ほとんど直線ではないため、表の形状(例えば、左上の角、範囲、行および列の数、セルの位置)を画像処理装置が判断することを困難にする。また、これらの手書き線は、電子文書(例えば、ワープロ文書、スプレッドシート、スライドショー、ウェブページ等)に含まれうる表の、高レベルな表現(high-level representation)を生成することを困難にする。それにもかかわらず、ユーザーは依然、画像における手書きの表または任意の表に対して画像処理装置を動作させることを望んでいる。
概して、一態様では、本発明は画像処理方法に関する。当該方法は、表を含む画像を取得するステップと、前記表について、複数の境界を含むスケルトングラフを生成するステップと、前記複数の境界について、複数の角度および複数の長さを特定するステップと、前記複数の角度および前記複数の長さに基づいて、前記表をテンプレートの表に対して比較するタイプセットネススコアを算出するステップと、を含む。
概して、一態様では、本発明はコンピュータープログラム、およびコンピュータープログラムを内部に格納するコンピューター読み取り可能な記録媒体(CRM)に関する。コンピュータープログラムは、実行されると、コンピューターに画像処理を実行させるように構成され、当該画像処理は、表を含む画像を記憶するステップと、前記表について、複数の境界を含むスケルトングラフを生成するステップと、前記複数の境界について、複数の角度および複数の長さを特定するステップと、前記複数の角度および前記複数の長さに基づいて、前記表をテンプレートの表に対して比較するタイプセットネススコアを算出するステップと、を含む。
概して、一態様では、本発明は画像処理システムに関する。当該システムは、メモリーと、前記メモリーに接続されるコンピュータープロセッサーと、を有し、表を含む画像を記憶し、前記表について、複数の境界を含むスケルトングラフを生成し、前記複数の境界について、複数の角度および複数の長さを特定し、前記複数の角度および前記複数の長さに基づいて、前記表をテンプレートの表に対して比較するタイプセットネススコアを算出する。
本発明の他の態様は、以下の説明および添付した特許請求の範囲から明らかになるであろう。
本発明の一つ以上の実施形態に係るシステムを示す図である。 本発明の一つ以上の実施形態に係るフローチャートを示す図である。 本発明の一つ以上の実施形態に係る実施例を示す図である。 本発明の一つ以上の実施形態に係る実施例を示す図である。 本発明の一つ以上の実施形態に係る実施例を示す図である。 本発明の一つ以上の実施形態に係る実施例を示す図である。 本発明の一つ以上の実施形態に係る実施例を示す図である。 本発明の一つ以上の実施形態に係る実施例を示す図である。 本発明の一つ以上の実施形態に係る実施例を示す図である。 本発明の一つ以上の実施形態に係るコンピューターシステムを示す図である。
添付した図面を参照し、本発明の具体的な実施形態について詳細に説明する。異なる図面における同様の要素は、整合性のため、同様の参照番号によって示される。
本発明の実施形態の以下の詳細な説明には、本発明のより完全な理解を提供するために、多くの具体的な詳細が記載されている。しかし、当業者には、これらの具体的な詳細がなくても、本発明が実施可能であることが明らかであろう。その他、説明が不必要に複雑になることを避けるために、よく知られた構成を詳細には説明しない。
概して、本発明の実施形態は、画像処理のための方法、コンピュータープログラム、コンピューター読み取り可能な記録媒体(CRM)およびシステムを提供する。具体的には、手書き線(例えば、マーカーまたはペンの線)を用いた表を含む画像が取得され、表に関するスケルトン(skeleton)(「表スケルトン」)が生成される。スケルトンは、表を示す境界および頂点を含む。各境界の長さおよび角度に基づいて、表に関するタイプセットネススコア(typesetness score)が算出される。タイプセットネススコアは、手書きの表が、直交する交点を有する直線によって形成された行および列を有するテンプレートの表(例えば、理論的または理想的な表)に、どれほど厳密に類似するかの尺度である。言い換えれば、タイプセットネススコアは、表とテンプレートの表との比較である。例えば、タイプセットネススコアは、0~1の間であり、0.98のタイプセットネススコアは、手書きの表およびテンプレートの表の間のほぼ完全な一致を示してもよい。タイプセットネススコアは、算出された後、電子文書(例えば、OOXML文書、PDF文書等)に含めるための、手書きの表の高レベルな表現を生成するために用いられる様々な処理において、特定の許容値を厳しくしたり、緩めたりするために用いられてもよい。
図1は、本発明の一つ以上の実施形態に係るシステム(100)を示す。図1に示すように、システム(100)は、例えば、バッファー(104)、スケルトンエンジン(108)および表エンジン(110)を含む、複数の構成要素を有する。これらの構成要素(104、108、110)の各々は、同一のコンピューター装置(例えば、パーソナルコンピューター(PC)、ラップトップ、タブレットPC、スマートフォン、複合プリンター、キオスク、サーバー等)に搭載されてもよいし、有線および/または無線のセグメントを有する任意のサイズのネットワークによって接続された、異なるコンピューター装置に搭載されてもよい。これらの構成要素の各々について、以下で説明する。
本発明の一つ以上の実施形態では、システム(100)は、バッファー(104)を含む。バッファー(104)は、ハードウェア(すなわち、電気回路)、ソフトウェア、またはこれらの任意の組み合わせにおいて実装されてもよい。バッファー(104)は、任意の数の行および列を有する表を含む画像(106)を記憶(蓄積)するように構成される。表の各セルは、テキストおよび/または図を含んでもよい。一つ以上の実施形態では、画像(106)における表は、手書きされる。したがって、表の行および列を区切る手書き線は、完全に水平または完全に垂直ではない場合がある。あるいは、表は、コンピューターで書かれてもよい。画像(106)は、任意のソースから取得(例えば、ダウンロード、スキャン等)されてもよい。さらに、画像(106)は、任意のサイズおよび任意のフォーマット(例えば、JPEG、GIF、BMP、PNG等)であってもよい。一つ以上の実施形態では、画像(106)は、筆記ボード(例えば、黒板、ホワイトボード等)を含み、手書きの表は、マーカーを使用して筆記ボード上に書かれる。
本発明の一つ以上の実施形態では、システム(100)は、スケルトンエンジン(108)を含む。スケルトンエンジン(108)は、ハードウェア(すなわち、電気回路)、ソフトウェア、またはこれらの任意の組み合わせにおいて実装されてもよい。スケルトンエンジン(108)は、画像(106)をマスク(例えば、二値画像)に変換し、表の行および列を識別するのに役立てる。
この詳細な説明の利益を享受する当業者には、画像(106)のための標準座標系が存在しうることが明らかであろう。しかし、手書きの表が画像(106)内において回転している場合、この標準座標系の軸は、表の行および列に揃わない場合がある。本発明の一つ以上の実施形態では、スケルトンエンジン(108)は、画像(106)における表の行および列に厳密に揃う垂直軸を有する、カスタム座標系を設定する。それに加えて、またはその代わりに、表の行および列を画像(106)の標準座標系により良く揃えるために、表が回転させられてもよい。
本発明の一つ以上の実施形態では、スケルトンエンジン(108)は、画像(106)における表について、スケルトングラフを生成する。スケルトングラフは、手書きの表を示す一連の境界および頂点を含む。各境界は、表の線、または線の一部に対応してもよく、各頂点は、二つ以上の境界の交点に対応してもよい。言い換えれば、境界は、頂点によって分離される。さらに、境界は、線の一端から当該線の他端まで、当該線のほぼ中心に位置する画素のパス(経路)を含んでもよい。一つ以上の実施形態では、パスの幅は、1画素である。本発明の一つ以上の実施形態では、パスの幅は、複数の画素である。
一つ以上の実施形態では、スケルトンエンジン(108)は、各境界の角度および各境界の長さも特定する。境界の長さは、境界の二つの終端の間のユークリッド距離として算出されてもよい。それに加えて、またはその代わりに、当該長さは、境界の画素のパス内における画素の数を数えることによって特定されてもよい。境界の角度は、カスタム座標系の軸(例えば、x軸、y軸等)と、境界の二つの終端を通過する線との間の角度として算出されてもよい。本発明の一つ以上の実施形態では、境界の角度は、0度~179度の範囲における、最も近い角度に丸められてもよい。
本発明の一つ以上の実施形態では、システム(100)は、表エンジン(110)を含む。表エンジン(110)は、ハードウェア(すなわち、電気回路)、ソフトウェア、またはこれらの任意の組み合わせにおいて実装されてもよい。表エンジン(110)は、画像(106)における表のタイプセットネススコアを算出するように構成される。言い換えれば、表エンジン(110)は、表が、直線によって形成された行および列を有するテンプレートの表(例えば、理論的な表)に、どれほど厳密に類似するかを判断するように構成される。タイプセットネススコアは、表とテンプレートの表との比較である。上述したように、タイプセットネススコアは、0~1の間であり、1は、表およびテンプレートの表の間の完全な一致を示してもよい。
一つ以上の実施形態では、タイプセットネススコアを算出することは、類似する角度を有する境界を、クラスター(例えば、ビン)に分類することを含む。そして、各クラスターについて、クラスター長さが算出される。クラスターに関するクラスター長さは、クラスターにおける境界の長さの合計である。N個の最大クラスター長さの合計が算出される。全てのクラスターからの全ての境界の長さの合計も算出される。タイプセットネススコアは、全ての境界の長さの合計に対するN個の最大クラスター長さの合計の比に対応してもよい。例えば、Nは、2または3に等しくてもよい。同様に、Nは、他の値を取ってもよい。タイプセットネススコアを算出することについては、図2を参照して後述する。
一つ以上の実施形態では、表エンジン(110)は、電子文書(例えば、OOXML文書、PDF文書等)のマークアップに含めるための、表に関する高レベルな表現を生成する。例えば、電子文書は、OOXML文書に対応してもよく、高レベルな表現は、表を正確にレンダリング(すなわち、表示、印刷等)するのに必要な属性を有するタグを含んでもよい。タイプセットネススコアは、表の高レベルな表現を生成するために用いられる様々な処理において、特定の許容値を厳しくしたり、緩めたりするために用いられてもよい。
本発明の一つ以上の実施形態では、最小の閾値長さの値よりも短い任意の境界は、さらなる検討から放棄されてもよい。最小の閾値長さの値は、表における全ての線の画素における平均の幅の二倍として算出されてもよい。
一つ以上の実施形態では、表エンジン(110)は、一つの軸がクラスターに対応し、他の軸がクラスターにおける合計の境界長さに対応する一つ以上のヒストグラムを生成して、表示してもよい。ヒストグラムは、表がテンプレートの表に対してどれほど近いかの視覚的な表示をユーザーに提供する。
システム(100)は、三つの構成要素(104、108、110)を有するように図示されるが、本発明の他の実施形態では、システム(100)は、より多い、またはより少ない構成要素を有してもよい。また、上述された各構成要素の機能は、構成要素にわたって分割されてもよい。さらに、各構成要素(104、108、110)は、反復演算を実行するために、複数回用いられてもよい。
図2は、本発明の一つ以上の実施形態に係るフローチャートを示す。フローチャートは、画像処理の方法を示す。具体的には、フローチャートは、表のタイプセットネススコアを算出する方法を示す。図2におけるステップの一つ以上は、図1を参照して上述された、システム(100)の構成要素によって実行されてもよい。本発明の一つ以上の実施形態では、図2に示すステップの一つ以上は、省略され、繰り返され、および/または、図2に示す順序とは異なる順序で実行されてもよい。したがって、本発明の範囲は、図2に示すステップの具体的な配置に限定されるとみなされるべきではない。
まず、表を含む画像が取得される(ステップ205)。画像は、任意のソースから取得(例えば、ダウンロード、スキャン等)されてもよく、任意のサイズまたはフォーマットであってもよい。例えば、画像は、筆記ボードを含んでもよく、表は、筆記ボード上に手書きされる。それに加えて、またはその代わりに、画像は、ハードコピー文書のスキャンであってもよく、表は、当該ハードコピー文書において視認され、コンピューターで生成されたものであってもよい。手書きされた線の性質、および/または、スキャン処理中に生じるエラーによって、表の行および列が、完全な直線によって区切られる可能性は低い。
本発明の一つ以上の実施形態では、画像は、表の各線、および/または表におけるテキスト文字を識別するために、マスク(例えば、二値画像)に変換される。表の線に対応する画素は、1に設定されてもよく、一方で、残りの全ての画素は、0に設定されてもよい。さらに、図1を参照して上述したようなカスタム座標系が、表について設定される。あるいは、表の行および列を画像の標準座標系により良く揃えるために、表が回転させられてもよい。
ステップ210では、表について、スケルトングラフが生成される。上述したように、スケルトングラフは、表を示す境界および頂点のセットを含んでもよい。各境界は、表の線、または線の一部に対応してもよく、各頂点は、二つ以上の境界の交点に対応してもよい。言い換えれば、頂点は境界を分離する。
ステップ215では、各境界の角度および各境界の長さが特定される。境界の長さは、境界の終端の間のユークリッド距離に対応してもよい。境界の角度は、軸(例えば、x軸、y軸等)と、境界の両終端を通過する線との間の角度に対応してもよい。
ステップ220では、境界が、それらの角度(例えば、角度のビン)に基づいて、クラスターに分類される。例えば、2度~3度の間の角度を有する全ての境界は、同じクラスターに分類されてもよい。別の例としては、89.5度~90.5度の間の角度を有する全ての境界は、同じクラスターに分類されてもよい。そして、各クラスターについて、クラスター長さが算出される。例えば、クラスターが、E,E,E,…,Eという境界を有すると仮定する。当該クラスターに関するクラスター長さは、Eの長さ+Eの長さ+Eの長さ+…+Eの長さ、のように算出される。
ステップ225では、ヒストグラムが生成され、一つの軸上にクラスター、他の軸上にクラスター長さが入力される。一つ以上の実施形態では、ステップ225は任意である。ヒストグラムは、表がテンプレートの表に対してどれほど近いかの視覚的な表示をユーザーに提供する。
ステップ230では、クラスター長さおよび全ての境界の全ての長さの合計を用いて、表に関するタイプセットネススコアが算出される。具体的には、タイプセットネススコアは、当該合計に対するN個の最大クラスター長さの比であってもよい。N=2である場合、タイプセットネススコア=(CL+CL)/(全ての境界の全ての長さの合計)であり、ここで、CLおよびCLは二つの最大クラスター長さである。
この詳細な説明の利益を享受する当業者には、手書きの表がテンプレートの表(すなわち、90度で交差する完全な直線を用いた理論的な表)に厳密に類似する場合、ほとんどの境界は、0度または90度の角度を有することが明らかであろう。したがって、0度を含むクラスター、および90度を含むクラスターは、最大クラスター長さを有することになる。さらに、これらの二つのクラスターは、ほとんど(恐らく全て)の境界を含むため、これらの二つのクラスターに関するクラスター長さの合計は、全ての境界の全ての長さの合計にほぼ等しくなる。したがって、そのような表について、タイプセットネススコアは1に近くなる。
図2には示していないが、ステップ230の後、電子文書(例えば、OOXML文書、PDF文書等)に含めるための、表の高レベルな表現を生成する様々な処理において、様々な許容値を調整するために、タイプセットネススコアが用いられてもよい。
図3A~図3Cは、本発明の一つ以上の実施形態に係る実施例を示す。図3Aに示すように、手書きの表(308)を含む画像(306)がある。具体的には、表(308)は、行および列を形成する手書き線を含む。表(308)の一つ以上のセルは、テキストを含んでもよい。手書きの表(308)は、傾斜して書かれてもよい。言い換えれば、表(308)は、画像(306)に関する標準座標系(399)には揃えられていない。
図3Bは、マスクに変換された後の画像(310)を示す。さらに、カスタム座標系(312)が設定されている。このカスタム座標系(312)は、標準座標系(399)よりも、表(308)の行および列に揃えられた軸を有する。
図3Cは、表に関する部分的なスケルトングラフ(314)を示す。図3Cに示すように、表の行および列は、複数の手書き線(316)によって形成されている。スケルトングラフ(314)は、手書きの表を示す一連の境界(395)および頂点を含む。各境界(395)は、手書きの表の線(316)、または線の一部に対応し、各頂点は、二つ以上の境界(395)の交点(318)に対応してもよい。言い換えれば、境界(395)は、頂点によって分離される。さらに、各境界(395)は、線(316)の一端から線(316)の他端まで、当該線のほぼ中心に位置する画素のパスを含む。図3Cでは、パス/境界の幅は1画素である。
図4Aおよび図4Bは、本発明の一つ以上の実施形態に係る実施例を示す。
図4Aは、図3A~図3Cを参照して上述したような、手書きの表(308)の画像(310)およびスケルトングラフ(314)に類似する、手書きの表(402)のマスクおよびスケルトングラフを示す。図2を参照して上述したように、手書きの表のタイプセットネススコアを判断する方法が、手書きの表(402)に適用される。
図4Bは、図2を参照して上述したような、ヒストグラム(403)を示す。ヒストグラム(403)は、手書きの表(402)に関するスケルトングラフの、各境界の角度および各境界の長さが判断された後に生成される。ヒストグラム(403)のx軸は、境界のクラスター(406)に対応する。具体的には、各クラスターは、同一または類似の角度を有する境界を有する。ヒストグラム(403)のy軸は、各クラスター(406)に関するクラスター長さ(404)に対応する。上述したように、クラスターに関するクラスター長さは、クラスターにおける境界の長さの合計である。
図4Aおよび図4Bの例について、手書きの表(402)に関するタイプセットネススコアを算出するために、上位二つのクラスター長さ(すなわち、N=2)のみが用いられると仮定する。図4Bに示すように、上位二つのクラスター長さは、0または1度に等しい(または、ほぼ等しい)角度を有する境界に関連付けられている。これらの上位二つのクラスター長さの合計は、26,297である。全てのクラスターからの全ての境界の長さの合計は、38,523である。したがって、手書きの表(402)に関するタイプセットネススコアは、26297/38523=0.68である。
図5Aおよび図5Bは、本発明の一つ以上の実施形態に係る実施例を示す。
図5Aは、表(502)を含む画像に関するマスクおよびスケルトングラフを示す。画像は、ハードコピー文書のスキャンである(すなわち、表(502)は、ハードコピー文書において視認されていた)。図4Aの表とは異なり、表(502)は、コンピューターによって生成されたため、テンプレートの表に厳密に一致する。
図5Bは、図2を参照して上述したような、表(502)に関するヒストグラム(503)を示す。ヒストグラム(503)は、表(502)に関するスケルトングラフにおいて、各境界の角度および各境界の長さが判断された後に生成される。ヒストグラム(503)のx軸は、境界のクラスター(506)に対応する。具体的には、各クラスターは、同一または類似の角度を有する境界を有する。ヒストグラム(503)のy軸は、各クラスター(506)に関するクラスター長さ(504)に対応する。上述したように、クラスターに関するクラスター長さは、クラスターにおける境界の長さの合計である。
図5Aおよび図5Bの例について、表(502)に関するタイプセットネススコアを算出するために、上位二つのクラスター長さ(すなわち、N=2)のみが用いられると仮定する。図5Bに示すように、上位二つのクラスター長さは、0または90度に等しい(または、ほぼ等しい)角度を有する境界に関連付けられている。これらの上位二つのクラスター長さの合計は、44,349である。全てのクラスターからの全ての境界の長さの合計は、44,762である。したがって、表(502)に関するタイプセットネススコアは、44349/44762=0.99である。当然ながら、これは、テンプレートの表に対するほぼ完全な一致である。実際には、エラーは、スキャン処理中にぼやけることによる可能性が最も高い。
本発明の実施形態は、使用されているプラットフォームに関わらず、実質的にあらゆる種類のコンピューターシステムに実装されてもよい。例えば、コンピューターシステムは、一つ以上のモバイル機器(例えば、ラップトップコンピューター、スマートフォン、携帯情報端末、タブレットコンピューターまたは他のモバイル機器)、デスクトップコンピューター、サーバー、サーバーシャーシにおけるブレード、または、本発明の一つ以上の実施形態を実施するための最低限の処理能力、メモリー、ならびに、入力装置および出力装置を少なくとも含む任意の他の種類の一つ以上のコンピューター装置であってもよい。例えば、図6に示すように、コンピューターシステム(600)は、一つ以上のコンピュータープロセッサー(602)、関連するメモリー(604)(例えば、ランダムアクセスメモリー(RAM)、キャッシュメモリー、フラッシュメモリー等)、一つ以上の記憶装置(606)(例えば、ハードディスク、コンパクトディスク(CD)ドライブまたはデジタル多目的ディスク(DVD)ドライブ等の光学ドライブ、フラッシュメモリースティック等)、ならびに、多くの他の構成要素および機能を含んでもよい。コンピュータープロセッサー(602)は、指示を処理するための集積回路であってもよい。例えば、コンピュータープロセッサーは、一つ以上のコア、またはプロセッサーのマイクロコアであってもよい。また、コンピューターシステム(600)は、タッチスクリーン、キーボード、マウス、マイクロホン、タッチパッド、電子ペン、または任意の他の種類の入力装置等の、一つ以上の入力装置(610)を含んでもよい。さらに、コンピューターシステム(600)は、スクリーン(例えば、液晶ディスプレイ(LCD)、プラズマディスプレイ、タッチスクリーン、ブラウン管(CRT)モニター、プロジェクター、または他の表示装置)、プリンター、外部ストレージ、または任意の他の出力装置等の、一つ以上の出力装置(608)を含んでもよい。出力装置の一つ以上は、入力装置と同じでもよいし、異なってもよい。コンピューターシステム(600)は、ネットワークインターフェース接続(図示せず)を介して、ネットワーク(612)(例えば、ローカルエリアネットワーク(LAN)、インターネット等の広域ネットワーク(WAN)、モバイルネットワーク、または任意の他の種類のネットワーク)に接続されてもよい。入力装置および出力装置は、局所的または遠隔的に(例えば、ネットワーク(612)を介して)、コンピュータープロセッサー(602)、メモリー(604)および記憶装置(606)に接続されてもよい。多くの異なる種類のコンピューターシステムがあり、上述した入力装置および出力装置は、他の形態を取ってもよい。
本発明の実施形態を実施するためのコンピュータープログラムの形態におけるソフトウェア指示は、全体または一部において、一時的または恒久的に、CD、DVD、記憶装置、ディスケット、テープ、フラッシュメモリー、物理メモリー、または任意の他のコンピュータ読み取り可能な記録媒体等の、コンピューター読み取り可能な媒体において、記憶されてもよい。具体的には、ソフトウェア指示は、プロセッサーによって実行される際に、本発明の実施形態を実施するように構成される、コンピューター読み取り可能なプログラムに相当してもよい。
また、上述したコンピューターシステム(600)の一つ以上の構成要素は、遠隔地に位置し、ネットワーク(612)を介して、他の構成要素に接続されてもよい。さらに、本発明の一つ以上の実施形態は、複数のノードを有する分散されたシステムにおいて実装されてもよく、本発明の各部が、分散されたシステム内における異なるノードに位置してもよい。本発明の一実施形態では、ノードは、異なるコンピューター装置に対応する。あるいは、ノードは、関連する物理メモリーを有するコンピュータープロセッサーに対応してもよい。あるいは、ノードは、共有されるメモリーおよび/またはリソースを有するコンピュータープロセッサー、または、コンピュータープロセッサーのマイクロコアに対応してもよい。
限定された数の実施形態について、本発明を説明したが、本開示の利益を享受する当業者は、本明細書に開示されるような、本発明の範囲から逸脱しない他の実施形態が考案されうることを、理解するであろう。したがって、本発明の範囲は、添付した特許請求の範囲によってのみ限定されるべきである。

Claims (21)

  1. 表を含む画像を取得するステップと、
    前記表について、複数の境界を含むスケルトングラフを生成するステップと、
    前記複数の境界について、複数の角度および複数の長さを特定するステップと、
    前記複数の角度および前記複数の長さに基づいて、前記表をテンプレートの表に対して比較するタイプセットネススコアを算出するステップと、を含み、
    前記タイプセットネススコアを算出するステップは、
    前記複数の角度に基づいて、前記複数の境界を複数のクラスターに分類するステップと、
    前記複数の長さに基づいて、前記複数のクラスターについて複数のクラスター長さを算出するステップと、
    前記複数のクラスター長さのサブセットを選択するステップと、
    前記複数の長さの合計に対する前記サブセットの合計の比を算出するステップと、を含む画像処理方法。
  2. 前記タイプセットネススコアは、前記表と、直交する交点を有する直線によって形成された行および列を有するテンプレートの表との類似度である、請求項1に記載の方法。
  3. 前記サブセットは、前記複数のクラスター長さのうちの二つの最大クラスター長さから構成される請求項1または2に記載の方法。
  4. 前記複数の境界のうちの一つの境界の長さは、当該境界の終端の間のユークリッド距離である請求項1~のいずれか一項に記載の方法。
  5. 前記一つの境界の角度は、x軸と、当該境界の二つの前記終端を通過する線との間の角度である請求項に記載の方法。
  6. 前記x軸は、回転されたカスタム座標系における軸である請求項に記載の方法。
  7. 前記複数のクラスターに対応する第1の軸と、前記複数のクラスター長さに対応する第2の軸とを有するヒストグラムを生成するステップと、
    前記ヒストグラムを表示するステップと、
    をさらに含む請求項またはに記載の方法。
  8. 前記画像は、筆記ボードを含み、前記表は、前記筆記ボード上に手書きされる請求項1~のいずれか一項に記載の方法。
  9. 前記スケルトングラフを生成するステップの前に、前記画像をマスクに変換するステップをさらに含む請求項1~のいずれか一項に記載の方法。
  10. コンピューターに画像処理を実行させるように構成されるコンピュータープログラムであって、前記画像処理は、
    表を含む画像を記憶するステップと、
    前記表について、複数の境界を含むスケルトングラフを生成するステップと、
    前記複数の境界について、複数の角度および複数の長さを特定するステップと、
    前記複数の角度および前記複数の長さに基づいて、前記表をテンプレートの表に対して比較するタイプセットネススコアを算出するステップと、を含み、
    前記タイプセットネススコアを算出するステップは、
    前記複数の角度に基づいて、前記複数の境界を複数のクラスターに分類するステップと、
    前記複数の長さに基づいて、前記複数のクラスターについて複数のクラスター長さを算出するステップと、
    前記複数のクラスター長さのサブセットを選択するステップと、
    前記複数の長さの合計に対する前記サブセットの合計の比を算出するステップと、
    を含むコンピュータープログラム。
  11. 前記タイプセットネススコアは、前記表と、直交する交点を有する直線によって形成された行および列を有するテンプレートの表との類似度である、請求項10に記載のコンピュータープログラム。
  12. 前記サブセットは、前記複数のクラスター長さのうちの二つの最大クラスター長さから構成される請求項10または11に記載のコンピュータープログラム。
  13. 前記複数の境界のうちの一つの境界の長さは、当該境界の終端の間のユークリッド距離である請求項1012のいずれか一項に記載のコンピュータープログラム。
  14. 前記一つの境界の角度は、x軸と、当該境界の二つの前記終端を通過する線との間の角度である請求項13に記載のコンピュータープログラム。
  15. 前記画像は、筆記ボードを含み、前記表は、前記筆記ボード上に手書きされる請求項1014のいずれか一項に記載のコンピュータープログラム。
  16. メモリーと、
    前記メモリーに接続され、
    表を含む画像を記憶し、
    前記表について、複数の境界を含むスケルトングラフを生成し、
    前記複数の境界について、複数の角度および複数の長さを特定し、
    前記複数の角度および前記複数の長さに基づいて、前記表をテンプレートの表に対して比較するタイプセットネススコアを算出するコンピュータープロセッサーと、を有し、
    前記タイプセットネススコアを算出することは、
    前記複数の角度に基づいて、前記複数の境界を複数のクラスターに分類することと、
    前記複数の長さに基づいて、前記複数のクラスターについて複数のクラスター長さを算出することと、
    前記複数のクラスター長さのサブセットを選択することと、
    前記複数の長さの合計に対する前記サブセットの合計の比を算出することと、を含む画像処理システム。
  17. 前記タイプセットネススコアは、前記表と、直交する交点を有する直線によって形成された行および列を有するテンプレートの表との類似度である、請求項16に記載のシステム。
  18. 前記サブセットは、前記複数のクラスター長さのうちの二つの最大クラスター長さから構成される請求項16または17に記載のシステム。
  19. 前記複数の境界のうちの一つの境界の長さは、当該境界の終端の間のユークリッド距離であり、
    前記一つの境界の角度は、x軸と、当該境界の二つの前記終端を通過する線との間の角度である請求項1618のいずれか一項に記載のシステム。
  20. 前記画像は、筆記ボードを含み、前記表は、前記筆記ボード上に手書きされる請求項1619のいずれか一項に記載のシステム。
  21. 請求項1015のいずれか一項に記載のコンピュータープログラムを格納したコンピューター読み取り可能な記録媒体。
JP2018073128A 2017-06-30 2018-04-05 表に関するタイプセットネススコア Active JP7219011B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/638,860 2017-06-30
US15/638,860 US10452952B2 (en) 2017-06-30 2017-06-30 Typesetness score for a table

Publications (2)

Publication Number Publication Date
JP2019040585A JP2019040585A (ja) 2019-03-14
JP7219011B2 true JP7219011B2 (ja) 2023-02-07

Family

ID=62165298

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018073128A Active JP7219011B2 (ja) 2017-06-30 2018-04-05 表に関するタイプセットネススコア

Country Status (4)

Country Link
US (1) US10452952B2 (ja)
EP (1) EP3422251A1 (ja)
JP (1) JP7219011B2 (ja)
CN (1) CN109214266A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679049B2 (en) * 2017-09-29 2020-06-09 Konica Minolta Laboratory U.S.A., Inc. Identifying hand drawn tables
JP2022139957A (ja) * 2021-03-12 2022-09-26 株式会社リコー 表示装置、プログラム、変換方法、表示システム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070140566A1 (en) 2005-12-21 2007-06-21 Microsoft Corporation Framework for detecting a structured handwritten object
JP2017107552A (ja) 2015-11-25 2017-06-15 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 画像内の回転したテーブルの補正方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3096481B2 (ja) * 1991-02-22 2000-10-10 グローリー工業株式会社 帳票類の種類判別方法
US5448692A (en) * 1991-03-27 1995-09-05 Ricoh Company, Ltd. Digital image processing device involving processing of areas of image, based on respective contour line traces
US5392130A (en) * 1993-11-24 1995-02-21 Xerox Corporation Analyzing an image showing a row/column representation
US8634645B2 (en) * 2008-03-28 2014-01-21 Smart Technologies Ulc Method and tool for recognizing a hand-drawn table
US8649600B2 (en) * 2009-07-10 2014-02-11 Palo Alto Research Center Incorporated System and method for segmenting text lines in documents
US10467464B2 (en) * 2016-06-07 2019-11-05 The Neat Company, Inc. Document field detection and parsing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070140566A1 (en) 2005-12-21 2007-06-21 Microsoft Corporation Framework for detecting a structured handwritten object
JP2017107552A (ja) 2015-11-25 2017-06-15 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 画像内の回転したテーブルの補正方法

Also Published As

Publication number Publication date
US10452952B2 (en) 2019-10-22
EP3422251A1 (en) 2019-01-02
US20190005352A1 (en) 2019-01-03
CN109214266A (zh) 2019-01-15
JP2019040585A (ja) 2019-03-14

Similar Documents

Publication Publication Date Title
US9697423B1 (en) Identifying the lines of a table
US9842251B2 (en) Bulleted lists
US10083218B1 (en) Repairing tables
CN107038441B (zh) 书写板检测和校正
US9934431B2 (en) Producing a flowchart object from an image
CN109697414B (zh) 一种文本定位方法及装置
US10331949B2 (en) Splitting merged table cells
JP7219011B2 (ja) 表に関するタイプセットネススコア
US10410386B2 (en) Table cell validation
US10163004B2 (en) Inferring stroke information from an image
US10679049B2 (en) Identifying hand drawn tables
US9977956B2 (en) Selecting primary groups during production of a flowchart object from an image
US9977979B2 (en) Merging non-overlapping broken lines of a table
US10268920B2 (en) Detection of near rectangular cells
US9785856B2 (en) Repairing holes in images
US20140354627A1 (en) Rendering a 3d shape
CN108509955B (zh) 用于字符识别的方法、系统和非瞬时计算机可读介质
US11270224B2 (en) Automatic generation of training data for supervised machine learning
US10410052B2 (en) Stroke based skeletonizer
US11769281B2 (en) Vector object transformation
US20230222632A1 (en) Machine learning enabled document deskewing
US9898653B2 (en) Method for determining width of lines in hand drawn table

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220520

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221215

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20221215

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20221227

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20230110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230126

R150 Certificate of patent or registration of utility model

Ref document number: 7219011

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150