JP6435636B2 - 情報処理装置及び情報処理プログラム - Google Patents

情報処理装置及び情報処理プログラム Download PDF

Info

Publication number
JP6435636B2
JP6435636B2 JP2014101147A JP2014101147A JP6435636B2 JP 6435636 B2 JP6435636 B2 JP 6435636B2 JP 2014101147 A JP2014101147 A JP 2014101147A JP 2014101147 A JP2014101147 A JP 2014101147A JP 6435636 B2 JP6435636 B2 JP 6435636B2
Authority
JP
Japan
Prior art keywords
cell
character
cells
spreadsheet
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014101147A
Other languages
English (en)
Other versions
JP2015219620A (ja
Inventor
智也 高橋
智也 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2014101147A priority Critical patent/JP6435636B2/ja
Priority to US14/520,623 priority patent/US20150331844A1/en
Publication of JP2015219620A publication Critical patent/JP2015219620A/ja
Application granted granted Critical
Publication of JP6435636B2 publication Critical patent/JP6435636B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Input (AREA)

Description

本発明は、情報処理装置及び情報処理プログラムに関する。
特許文献1には、詳細な内容の帳票定義データの作成を自動化することを課題とし、罫線抽出部、罫線特徴抽出部、枠抽出部により、帳票のマスター画像上の罫線で囲まれた枠領域とその罫線特徴を抽出し、文字認識部の認識結果とキーワード辞書とを辞書照合部で照合し、枠作成部で、キーワードと一致した文字(列)の近傍に文字記入枠などの枠領域を作成し、その大きさの妥当性を枠判定部でチェックし、帳票定義出力部で、各領域の領域情報や罫線特徴などが帳票定義書式に従って整理され、帳票定義データとして出力されることが開示されている。
特許文献2には、ユーザーアプリケーションの構築が容易なデジタルペンのデータ処理システムを提供することを課題とし、端末は、用紙における特定エリアの位置情報と、当該特定エリアに記入されたデータの処理種別を示す処理種別情報とを関連付けて格納するエリア定義格納部と、デジタルペンより取得したアドレスデータを解析して手書き情報を生成し、エリア定義格納部に格納された特定エリアの位置情報に基づいて特定エリア内の手書き情報を抽出する第1のデータ処理部と、抽出された手書き情報に対して、エリア定義格納部において当該特定エリアの位置情報に関連付けられた処理種別情報に基づいてデータ処理を実行し、処理後のデータをユーザーアプリケーションがアクセス可能なデータベースに格納する第2のデータ処理部とを備えていることが開示されている。
特許文献3には、入力帳票と出力帳票との関連定義に基づいて、自動的に出力帳票を生成する機構を備えることによって、システム開発の作業量の低減を図ることを課題とし、帳票処理部は、帳票入力部から入力された手書き帳票を、入力帳票定義体に従って文字認識エリアを切り出し、文字認識部によってテキストコードデータに変換した後、帳票データファイルに蓄積し、出力帳票は、帳票処理部が、入力帳票と出力帳票とのデータ依存関係を解釈して、帳票データファイルから生成することが開示されている。
特開2001−126010号公報 特開2008−097272号公報 特開平08−212269号公報
本発明は、スプレッドシート内の文字受付枠をセルとして定義付けることができるようにした情報処理装置及び情報処理プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、文字受付枠を有するスプレッドシートから、前記文字受付枠を検出する検出手段と、前記検出手段により検出された前記文字受付枠と対応する前記スプレッドシート内のセルを結合する結合手段と、前記結合手段により結合されたセルを、前記文字受付枠に記載される文字列を受け付ける1つのセルとして定義する定義手段と、を有し、前記定義手段は、前記結合手段によって結合されたセルの幅、高さ、又は大きさが予め定められた閾値以下又は未満であるセルを除外の対象とする、情報処理装置である。
請求項2の発明は、前記スプレッドシートから、前記文字受付枠の位置を定義した文書の型を作成する作成手段と、前記定義手段によって定義されたセルと、前記文書の型内の前記文字受付枠を対応付ける対応付手段と、をさらに有する請求項1に記載の情報処理装置である。
請求項3の発明は、前記文書の型内の前記文字受付枠は、手書きが行われる記入領域であって、前記文字受付枠に記載された文字列の認識結果を受け付ける受付手段と、前記認識結果を、前記文書の型内の前記文字受付枠に対応付けられたセルに反映させる反映手段と、をさらに有する請求項2に記載の情報処理装置である。
請求項の発明は、コンピュータを、文字受付枠を有するスプレッドシートから、前記文字受付枠を検出する検出手段と、前記検出手段により検出された前記文字受付枠と対応する前記スプレッドシート内のセルを結合する結合手段と、前記結合手段により結合されたセルを、前記文字受付枠に記載される文字列を受け付ける1つのセルとして定義する定義手段として機能させ、前記定義手段は、前記結合手段によって結合されたセルの幅、高さ、又は大きさが予め定められた閾値以下又は未満であるセルを除外の対象とする、情報処理プログラムである。
請求項1の情報処理装置によれば、スプレッドシート内の文字受付枠をセルとして定義付けることができる。また、文字列を受け付けることに適さないセルを、文字受付枠から除外の対象とすることができる。
請求項2の情報処理装置によれば、スプレッドシートから作成された帳票フォーマットにおける文字受付枠とセルを対応付けることができる。
請求項3の情報処理装置によれば、手書きが行われた文字受付枠内の認識結果を、その文字受付枠に対応付けられたセルに反映させることができる。
請求項の情報処理プログラムによれば、スプレッドシート内の文字受付枠をセルとして定義付けることができる。また、文字列を受け付けることに適さないセルを、文字受付枠から除外の対象とすることができる。
本実施の形態の構成例についての概念的なモジュール構成図である。 本実施の形態の構成例についての概念的なモジュール構成図である。 本実施の形態を実現するシステム構成例を示す説明図である。 対象とするスプレッドシートの例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示すフローチャートである。 本実施の形態による処理例を示すフローチャートである。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示す説明図である。 対応テーブルのデータ構造例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
本実施の形態である情報処理装置100は、スプレッドシートを対象として文書フォーマットの定義を行うものであって、図1の例に示すように、スプレッドシート受付モジュール110、定義モジュール120、フォーマット作成モジュール130、対応付けモジュール140、出力モジュール150を有している。
なお、本実施の形態は、スプレッドシート受付モジュール110と定義モジュール120によって構成されていてもよい。この場合、情報処理装置100は、スプレッドシート内に記載された文字受付枠をセルとして定義付けるものである。
スプレッドシート受付モジュール110は、定義モジュール120、フォーマット作成モジュール130と接続されている。スプレッドシート受付モジュール110は、文字受付枠を有するスプレッドシートを受け付ける。ここでスプレッドシートとは、表計算ソフトウェアを用いて作成される行と列で構成される表である。何枚かの表をまとめたものや、表計算ソフトそのものを指す用語としても用いられる。例えば、文字や数値のマトリクスを計算したり、集計したりするほか、罫線を引くことで文書の型(フォーマットともいわれる)を生成することに用いられる。文書の型として、少なくとも文字受付枠を含み、具体的にはその文字受付枠群によって構成されている表を含む帳票フォーマット等がある。以下、主に帳票フォーマットを例示して説明する。
文字受付枠とは、スプレッドシートに記載された枠であって、文字列が受け付けられることが予定されている枠である。スプレッドシートの単位セルと一対一に対応していてもよいし、複数の単位セル群によって1つの文字受付枠が構成されていてもよい。この文字受付枠は、スプレッドシートのセルの書式設定の罫線(外枠)として設定されていてもよいし、描画された矩形の図形、又は下線であってもよい。なお、この文字受付枠の形状は、矩形であるが、必ずしも、視覚で捉えられる形状は矩形である必要はない。例えば、下線が引かれており、その上に文字列が記載されることを促すような形態であればよい。
受け付けるとは、例えば、他の情報処理装置からスプレッドシートを受け取ること、ハードディスク(コンピュータに内蔵されているものの他に、通信回線を介して接続されているもの等を含む)等に記憶されているスプレッドシートを読み出すこと等が含まれる。受け付けるスプレッドシートは、1枚であってもよいし、複数枚であってもよい。また、スプレッドシートの内容として、ビジネスに用いられる帳票、チェックシート等であってもよい。
定義モジュール120は、スプレッドシート受付モジュール110、対応付けモジュール140と接続されている。定義モジュール120は、データ受付セルを定義する。つまり、定義モジュール120は、文字受付枠が記載されたスプレッドシートから、その文字受付枠を検出する。そして、その検出した文字受付枠と対応するスプレッドシート内のセルを結合する。その結合されたセルを、文字受付枠に記載される文字列を受け付ける1つのセル(1つのデータ受付セル)として定義する。ただし、結合するセルは、1個以上であればよい。1個のセルの結合とは、結果として元のセルそのままである。この結合処理を行うのに、連続するセルの属性の変化により文字受付枠を検出する。例えば、罫線の位置、セルの属性に基づいて、結合対象となるセルを識別するようにしてもよい。具体的には、予め定められた走査方向にしたがって走査を行い、セルの下辺に罫線(文字受付枠の下辺の罫線である)があり、値が無いセルを走査開始セルとする。そして、その走査開始セルから予め定められた方向に、属性が異なるセルを発見するまで第1の走査を行い、その第1の走査をしたセルを結合する。次に、その第1の走査とは異なる方向(例えば、第1の走査とは直交する方向)に、セルの属性が異なるセルを発見するまで第2の走査を行い、その第2の走査をしたセルを結合する。ここで、セルの結合とは、隣合う複数のセルを1つのセルとして合成することをいう。つまり、この結合セルが、文字受付枠に記載される文字列を受け付けるセルとなる。
ここで「連続するセルの属性の変化」とは、セルの1辺以上が接したセル同士を対象とし、そのセル群の属性が異なるものがあることをいう。例えば、(1)左と下に罫線のあるセル(値のないセル)、(2)下に罫線のあるセル(値のないセル)、(3)下に罫線のあるセル(値のあるセル)、(4)四辺に罫線のないセル(値のないセル)のように、セルの属性が変化するが、前述したように、この変化に応じて、結合すべきセルを抽出すればよい。このセルの属性は、前述した4種に限定してもよいが、この他に、上に罫線のあるセル、右に罫線のあるセル等を含めてもよい。
なお、文字列の記載として、キーボード等を用いた文字コードの受付であってもよい。この場合、操作者にとっては、文字受付枠を記載するだけで、セルの結合の操作を行うことなく、その文字受付枠に対応するセルを生成することになる。また、文字列の記載として、後述するように、帳票フォーマットが印刷され、その紙の帳票上に手書きされた文字列を認識した結果の文字コードの受付であってもよい。
この定義モジュール120の処理によって、スプレッドシート上に描かれた文字受付枠とセル(結合セル)が一対一に対応することになる。
また、定義モジュール120は、結合されたセルの幅、高さ、又は大きさが予め定められた閾値以下又は未満であるセルを除外の対象とするようにしてもよい。この処理は、文字列を受け付けることに適さないセルを除外するために行う。
フォーマット作成モジュール130は、スプレッドシート受付モジュール110、対応付けモジュール140と接続されている。フォーマット作成モジュール130は、スプレッドシート受付モジュール110によって受け付けられたスプレッドシートから、文字受付枠の位置を定義した帳票フォーマットを作成する。この帳票フォーマット内の文字受付枠は、手書きが行われる記入領域であってもよい。そして、帳票フォーマットは、手書き文字の認識処理を行うための一般的な定義、例えば文字認識領域、文字認識条件(言語、辞書、文字種等)等を定義してもよい。なお、これらの定義の手法として、例えばスプレッドシート上で定義されたデータ受付セルの情報(位置、サイズ、設定等)を使った定義、帳票画像上の構成要素(罫線、文字等)を使った定義、その他電子データから帳票フォーマットを作成する一般的な手法が考えられる。
対応付けモジュール140は、定義モジュール120、フォーマット作成モジュール130、出力モジュール150と接続されている。対応付けモジュール140は、定義モジュール120によって定義されたセルと、フォーマット作成モジュール130によって作成された帳票フォーマット内の文字受付枠を対応付ける。文字受付枠を手書き文字が記載される枠とした場合は、対応付けモジュール140は、データ受付セルと文字認識領域の対応付けを行うこととなる。なお、データ受付セルと文字認識領域の対応付けの結果については、後述の図16において説明する。
出力モジュール150は、対応付けモジュール140と接続されている。出力モジュール150は、対応付けモジュール140によって対応付け処理が行われた帳票フォーマットを出力する。出力するとは、例えば、ハードディスク等に記憶すること、他の情報処理装置へ渡すこと等があり、さらに、プリンタ等の印刷装置で印刷するようにしてもよい。また、印刷する場合は、オンライン文字認識ができるように、その印刷物における位置を示す座標情報が埋め込まれた情報画像を印刷するようにしてもよい。
本実施の形態である情報処理装置200は、情報処理装置100による対応付け結果を用いて、文字認識結果をデータ受付セルに反映させる処理を行うものであって、図2の例に示すように、フォーマット取得モジュール210、文字認識データ取得モジュール220、反映モジュール230を有している。
フォーマット取得モジュール210は、文字認識データ取得モジュール220と接続されている。フォーマット取得モジュール210は、情報処理装置100によって作成された帳票フォーマットを取得する。帳票フォーマット内の文字受付枠は、手書きが行われる記入領域である。また、取得した帳票フォーマットには、対応付けモジュール140による対応付け結果が含まれている。
文字認識データ取得モジュール220は、フォーマット取得モジュール210、反映モジュール230と接続されている。文字認識データ取得モジュール220は、文字受付枠に記載された文字列の認識結果を受け付ける。
反映モジュール230は、文字認識データ取得モジュール220と接続されている。反映モジュール230は、文字認識データ取得モジュール220が受け付けた認識結果を、フォーマット取得モジュール210が受け付けた帳票フォーマット内の文字受付枠に対応付けられたセル(データ受付セル)に反映させる。帳票フォーマットであるスプレッドシートには、文字認識結果が埋め込まれることになり、そのスプレッドシートを用いて表計算等が行えるようになる。
図3は、本実施の形態を実現するシステム構成例を示す説明図である。
情報処理装置100、情報処理装置200、印刷装置310、文字画像認識装置320、オンライン文字認識装置330は、通信回線390を介してそれぞれ接続されている。通信回線390は、無線、有線、これらの組み合わせであってもよく、例えば、通信インフラとしてのインターネット、イントラネット等であってもよい。また、文字画像認識装置320、オンライン文字認識装置330については、どちらか一つであってもよいし、複合的に使用してもよい。
情報処理装置100は、対応付けモジュール140による対応付け結果が含まれている帳票フォーマットを、情報処理装置200、印刷装置310に渡す。
印刷装置310は、いわゆるプリンタであって、情報処理装置100が作成した帳票フォーマットを印刷する。つまり、空欄の文字受付枠が記載された帳票が印刷される。また、前述したように、オンライン文字認識ができるように、その印刷物における位置を示す座標情報が埋め込まれた情報画像をさらに印刷するようにしてもよい。
文字画像認識装置320は、印刷装置310によって印刷された帳票(紙)であって、手書きの文字列が記入されたものを画像として読み込んで、その手書き文字の文字認識を行う。そして、文字認識結果を情報処理装置200に渡す。これは、例えばスキャナで読み取った帳票から、既存のOCR(Optical Character Recognition:光学文字認識)技術を用いて実現される。
オンライン文字認識装置330は、印刷装置310によって印刷された帳票(情報画像が印刷された紙)に対して、電子ペンを用いて手書きが行われ、その電子ペンのストロークを用いてオンライン文字認識を行う。文字認識結果を情報処理装置200に渡す。
情報処理装置200は、情報処理装置100から対応付けモジュール140による対応付け結果が含まれている帳票フォーマットを受け取り、その帳票フォーマットに対応する文字画像認識装置320又はオンライン文字認識装置330からの文字認識結果を受け取り、帳票フォーマットに文字認識結果を反映させる。
次に、情報処理装置100を構成する各モジュールの処理内容を説明する。
スプレッドシート受付モジュール110は、手書き用帳票フォーマットの元データとなるスプレッドシートを受け付ける。図4の例に示すようなスプレッドシート400を対象として受け付けたとする。なお、スプレッドシート400は、表計算ソフトウェア(例えば、Excel(登録商標)、Numbers(登録商標)等)で作成されたものである。
定義モジュール120は、スプレッドシート400の構造情報から、データ受付セルを定義する。
ここで、以下のように用語を定義する。
単位セルとは、スプレッドシートで最も基本となる、初期状態の1セルのことである。
セル範囲とは、隣接する(単位/結合)セルの一塊の集合のことである。結合前の状態における一筆で囲える領域を指し、例えば、その形状は矩形である。
結合セルとは、セル範囲を結合して1つのセルとみなしたものである。結合後の状態を指す。
1セルとは、スプレッドシート上で1つと数えられる、単位セル1つ又は結合セル1つのことである。
データ受付セルとは、データ受付箇所として一意に定める1セルのことである。
定義モジュール120は、例えば、以下のような条件でデータ受付セルを定義する。
(条件1)値を持たない4辺を罫線で囲まれた1セルをデータ受付セルとして定義する。
(条件2)値を持つセルを含まず、4方を罫線で囲まれたセル範囲を結合した結合セルをデータ受付セルとして定義する。
なお、「値を持つセルを含まない」としたのは、値を持つセルを含んでいると、結合時に値が1つになる、スプレッドシート上の値の位置が変わる、等で帳票のレイアウトそのものが変わってしまうため、そのような値を持つセルを含む場合は対象としないのが望ましいからである。ここで、図5に例示する領域530が、値を持つセルである。
(条件3)セルの下辺に罫線があって、値の無いセルから走査を開始し、検出したセル範囲を結合してデータ受付セルとして定義する。
帳票に手書きする際、記入を促す領域に下線を使用することが多いため、下線のある値の無いセルはデータ受付セルとしている。帳票の空きスペースや欄外等に書かれた文字もデータとする場合、いずれか1辺以上に罫線があるセル、いずれか1辺がデータのあるセルと隣接しているセル、等を基準としてもよい。
図5は、本実施の形態による処理例を示す説明図である。スプレッドシート400内に、領域510、領域512、領域520、領域530がある。領域510、領域512は、1セルで構成されている。したがって、領域510、領域512は、(条件1)の対象となる。領域510、領域512は、そのままでデータ受付セルとして定義される。領域520は、値を持たず、4方を罫線で囲まれている。したがって、領域520は、(条件2)の対象となるため、領域520内のセルを結合した結合セルがデータ受付セルとして定義される。領域530は、値を持つセルを含んでいる。したがって、領域530は、(条件1)および(条件2)の対象とはならないが、後述するように(条件3)の対象となる。ただし、領域530全体が、データ受付セルとして定義されるわけではない。領域530内のデータ受付セルについては、図9の例を用いて後述する。
(条件3)について説明する。この(条件3)に適合するものを、以下のように抽出する。
(3−1) 図6の例に示すように、スプレッドシートを横方向に左上から右下の順に走査(詳しくは、左上端を開始点として、右方向へ走査し、右端に到達したら、1段下の左端へ進み、右方向へ走査することを繰り返して、右下端まで走査すること、以下同様)し、下辺に罫線がある、値の無い走査開始セルを検出する。
スプレッドシートの構造上、データの流れが左から右、上から下となっていること(いわゆる横書きの場合)がほとんどのため、走査の順番を横方向に左上から右下としているが、これに限定するものではない。例えば、縦書きの場合、スプレッドシートを縦方向に右上から左下の順に走査(詳しくは、右上端を開始点として、下方向へ走査し、下端に到達したら、1行左の上端へ進み、下方向へ走査することを繰り返して、左下端まで走査すること、以下同様)し、左辺(又は右辺)に罫線があって、値の無い走査開始セルを検出するようにしてもよい。
(3−2) 走査開始セルから、上方向に対象としているセルの属性とは異なる属性を有するセルが検出されるまで走査し、その走査した範囲を結合する。ここで、セルの属性とは、そのセル内の値、罫線、塗りつぶし、結合行/列の数、計算式、書式設定等である。つまり、セルの属性が異なるとは、セルの意味が変わり、連続した範囲でないと判断し得る条件となるものである。なお、走査を続ける条件は、走査開始セルの下線以外の属性が同じであることをいう。また、走査を続ける条件として、空欄であることを付加してもよい。
例えば、図7(a)に示すように、(3−1)の処理によって走査開始セル710を検出し、(3−2)の処理によって上方向走査712を行い、図7(b)に示すように結合セル720を生成する。なお、走査開始セル710は、スプレッドシート400内の「H12」の単位セルである。結合セル720は、スプレッドシート400内の「H12」、「H11」、「H10」の3つの単位セルを結合したものである。
なお、縦書きの場合は、上方向の走査ではなく、右又は左方向への走査を行えばよい。
(3−3) (3−2)の処理によって結合されたセルから、右方向に対象としているセルの属性とは異なる属性を有するセルが検出されるまで走査し、その走査した範囲を結合する。ここでの「セルの属性が異なる」は、(3−2)と同等である。
例えば、図8(a)に示すように、(3−2)の処理によって結合セル720を生成し、右方向走査822を行い、図8(b)に示すように結合セル830を生成する。なお、走査を続ける条件は、結合セル720の結合前の各セルの属性が同じであることをいう。したがって、1つのセルの属性が異なる場合は、走査が終了する。また、走査を続ける条件として、空欄であることを付加してもよい。
なお、縦書きの場合は、右方向の走査ではなく、下方向への走査を行えばよい。
(3−4)少なくとも2つ以上の(単位/結合)セルからなるセル範囲を結合した結合セルを、データ受付セルとして定義する。
なお、(3−2)から(3−3)のように、縦方向に結合してから横方向に結合する理由は、手書きを行う帳票のレイアウト上、縦方向のセル範囲は1つのデータの記入領域で高さが一定であることがほとんどであり、横方向のセル範囲は1つのデータの記入領域で幅が必ずしも一定でないことがほとんどであることが理由であり、この順番でセルを結合することが望ましい。
ただし、帳票のレイアウト、ユーザー指定等の条件次第で逆順で行うことを制限するものではない。例えば、縦書きの場合は、横方向に結合してから縦方向に結合する。
図9に示す例は、図9(a)のように縦方向に結合してから、図9(b)のように横方向に結合した例を示すものである。
図10に示す例は、図10(a)のように横方向に結合してから、図10(b)のように縦方向に結合した例を示すものである。この場合、データ受付セルは、図9(b)の例と比べると高さが狭いものとなり、手書き文字には図9(b)の例が適している。したがって、横書きの場合は、縦方向に結合してから横方向に結合することが望ましい。
(3−5) 必要があれば、不要なデータ受付セルの定義を削除する。
(3−1)〜(3−4)の走査でデータ受付セルを定義すると、不要なセルがデータ受付セルとして定義されることがある。
図11の例に示すように、灰色の矩形領域は、(3−1)〜(3−4)の処理によってデータ受付セルとして定義したものである。このデータ受付セルの中で、不要セル1102〜不要セル1112がある。
これは、帳票に手書きする際には明らかに筆記されないスペースであるので、データ受付セルとして定義されていても問題ない。
ただし、他のデータ受付セルと比べて明らかに狭いため、削除してもよい。
そこで、データ受付セルの幅、高さ、又は大きさが予め定められた閾値以下又は未満であるセルをデータ受付セルから除外する。さらに、そのデータ受付セルの周辺に筆記を行える空きスペースがない等と判定できるデータ受付セルは、不要セルとして定義を削除してもよい。また、データ受付セルから除外する前に、警告、確認を促すための提示等を行うようにしてもよい。
図12は、本実施の形態(定義モジュール120)による処理例を示すフローチャートである。
ステップS1200では、データ受付セル定義を開始する。
ステップS1202では、スプレッドシートである帳票範囲の全てのセルの走査を終えたか否かを判断し、終えた場合はデータ受付セル定義を終了し(ステップS1299)、それ以外の場合はステップS1204へ進む。
ステップS1204では、対象としているセルは値を持つセルであるか否かを判断し、値を持つセルである場合はステップS1202へ戻り、それ以外の場合はステップS1206へ進む。
ステップS1206では、対象としているセルは罫線がある単位セル又は結合セルであるか否かを判断し、罫線がある単位セル又は結合セルである場合はステップS1208へ進み、それ以外の場合はステップS1202へ戻る。
ステップS1208では、対象としているセルは4辺に罫線があるか否かを判断し、ある場合は、(条件1)でのデータ受付セル定義処理としてのステップS1216へ進み、それ以外の場合は、(条件2)でのデータ受付セル定義処理としてのステップS1210へ進む。
ステップS1210では、罫線で囲まれたセル範囲を取得する。
ステップS1212では、ステップS1210で取得したセル範囲内に値を持つセルが含まれているか否かを判断し、含まれている場合はステップS1218へ進み、それ以外の場合はステップS1214へ進む。
ステップS1214では、ステップS1210で取得したセル範囲を結合する。
ステップS1216では、ステップS1208でYesと判断されたセル又はステップS1214で結合されたセルをデータ受付セルとして定義する。
ステップS1218では、(条件3)によるデータ受付セルの定義処理を行う。ステップS1218の処理については、図13の例に示すフローチャートを用いて詳述する。
図13は、本実施の形態(定義モジュール120)による処理例を示すフローチャートである。
ステップS1302では、ステップS1210で取得したセル範囲のうち、下罫線のある最左端の1セルを取得する。なお、ステップS1210で取得したセル範囲のうち、下罫線があって、値を含まない最左端の1セルを取得するようにしてもよい。
ステップS1304では、対象としているセルの上隣に属性の異なるセルがあるか否かを判断し、上隣に属性の異なるセルがある場合はステップS1308へ進み、それ以外の場合(上隣のセルは属性が同じセルの場合)はステップS1306へ進む。
ステップS1306では、対象としている上隣セルをセル範囲に含める。
ステップS1308では、対象としているセル範囲の右隣に属性の異なるセルがあるか否かを判断し、右隣に属性の異なるセルがある場合はステップS1312へ進み、それ以外の場合(各右隣のセルは属性が同じセルの場合)はステップS1310へ進む。
ステップS1310では、対象としている右隣セルをセル範囲に含める。
ステップS1312では、これまでのセル範囲を結合してデータ受付セルとして定義する。
ステップS1314では、ステップS1210で取得したセル範囲の全てのセルの走査を終えたか否かを判断し、終えた場合はステップS1316へ進み、それ以外の場合はステップS1302へ戻る。
ステップS1316では、不要なデータ受付セルの定義を必要があれば削除する。なお、この処理は、図12の例に示したフローチャート内のステップS1202でYesと判断された後に行うようにしてもよい。
定義モジュール120は、以下のような条件を用いて、データ受付セルを定義するようにしてもよい。
(条件4)セルに設定されているその他の情報からデータ受付セルを定義する。
例えば、以下のようなセルの設定がされていた場合、そのセル範囲はデータ受付セルとして定義してもよい。
・データを持たないセルからなる1つのセル範囲が、同じ色で塗りつぶされている。
・データを持たないセルからなる1つのセル範囲に、同じパターン(網掛け等)が設定されている。
・データを持たない1セルが、計算対象、マクロ処理対象、リンク元等として参照されている。
・データを持たない1セルに、名前、ID等の特定できる情報が設定されている。
(条件5)ユーザーが指定したセル範囲をデータ受付セルとして定義する。
ユーザーが指定した条件に当てはまるセル範囲をデータ受付セルとして定義する。
例えば、ユーザーが、データ受付セル範囲を手動で指定してもよい。
例えば、ユーザーが、予め定められたデータを持つセル等の条件を設定してもよい。
次に、フォーマット作成モジュール130について説明する。フォーマット作成モジュール130は、スプレッドシート受付モジュール110によって受け付けられたスプレッドシートから、文字受付枠の位置を定義した帳票フォーマットを作成する。例えば、図14に示すように、スプレッドシート400から帳票フォーマット1400を生成する。
帳票フォーマットは、手書きデータの処理を行うための一般的な定義であって、例えば文字受付枠を文字認識領域としたり、その際の文字認識条件(言語、辞書、文字種等)等を定義するものである。
この定義を行う処理は、例えば以下のようなものがある。
・スプレッドシート400上で定義されたデータ受付セルの情報(位置、サイズ、書式、等)を使って定義する。なお、ここで、「書式」は、スプレッドシートのセルに設定される一つの属性であり、その書式には「数値」、「日付」等があり、文字認識条件を定義し得る。例えば、書式を「数値」とした場合、「数字」(「−」等の記号を含めてもよい)の辞書を用いて認識処理を行うことによって、認識率を向上させる。
・帳票画像上の構成要素(罫線、文字、等)を使って定義する。
・その他、電子データから帳票フォーマット1400を作成する一般的な手法(既存の手法)を用いて定義する。
もちろん、複数の手段を組み合わせて帳票フォーマット1400を作成してもよい。
一方、対応付けモジュール140は、定義モジュール120によって定義されたデータ受付セルと、フォーマット作成モジュール130によって作成された帳票フォーマット内の文字認識領域(文字受付枠)を対応付ける。図15の例に示すように、スプレッドシート400上で定義されたデータ受付セルと、帳票フォーマット1400上で定義された文字認識領域を対応付ける。具体的には、スプレッドシート400の結合セル1510と帳票フォーマット1400の領域1520、結合セル1512と領域1522、結合セル1514と領域1524、結合セル1516と領域1526、結合セル1518と領域1528を対応付ける。
そして、対応付けた結果として、対応テーブル1600を生成する。図16は、対応テーブル1600のデータ構造例を示す説明図である。対応テーブル1600は、データ受付セル欄1610、文字認識領域欄1620を有している。データ受付セル欄1610は、データ受付セル(例えば、列見出し、行見出しを用いて指示されるセルの範囲であり、この例では領域の左上と右下の2点の見出しを用いている)を記憶している。文字認識領域欄1620は、そのデータ受付セルに対応する文字認識領域(例えば、矩形領域の左上と右下の座標。図示省略)を記憶している。対応テーブル1600は、文字認識領域欄1620内の文字認識結果を、対応するデータ受付セル欄1610に反映させる(書き戻す)ために利用される。
対応付けを行う処理は、例えば以下のようなものがある。
・スプレッドシート400上で定義されたデータ受付セルから帳票フォーマット1400上の文字認識領域を定義した場合、定義された順番、相対位置関係、その他セルに設定された項目、等を元に対応付ける。
・帳票レイアウト上の構成要素(位置関係、罫線、文字等)を元に対応付ける。
もちろんのことながら、複数の手法を組み合わせて対応付けを行ってもよい。
出力モジュール150は、図2の例に示した情報処理装置200による手書きデータ処理を行うための、帳票フォーマット1400を出力する。
帳票フォーマット1400として、以下のものを含む。
・手書きデータ処理を行うための一般的な定義(前述の「フォーマット作成モジュール130」の処理内容の説明を参照)
・データ受付セルと文字認識領域の対応関係(具体的には、図16の例に示した対応テーブル1600)
・手書きデータの反映先となるスプレッドシート(データそのものでもよいし、参照先でもよい)
これらを全て記録したデータコンテナを帳票フォーマットとしてもよいし、それぞれをまとめて、又はそれぞれ別に、データベースのテーブルに登録してもよい。
必要な情報が必要なときに利用できる状態であれば、「帳票フォーマット」の形、保存形式、格納場所、等は問わない。
フォーマット取得モジュール210は、手書きされた帳票(紙)に対応する帳票フォーマットを取得する。
帳票フォーマットを取得する処理は、例えば以下のようなものがある。
・手書きされた帳票(紙)のスキャン画像と帳票フォーマットとのマッチング処理によって、対応する帳票フォーマットを抽出する。
・手書きされた帳票(紙)から、光学的、磁気的等に付された識別情報(帳票フォーマットを識別する情報、ID:IDentification)を読み取って、帳票フォーマットを特定する。
・その他、手書きされた帳票(紙)の帳票フォーマットを取得する一般的な手法(既存の手法)を用いてもよい。
もちろんのことながら、複数の手法を組み合わせて帳票フォーマットを取得してもよい。
文字認識データ取得モジュール220は、帳票に手書きされた文字(文字画像、ストローク情報)に対する文字認識データを取得する。
文字認識データを取得する処理は、例えば以下のようなものがある。これらは、文字認識領域毎に行う。
・手書きされた帳票(紙)をスキャンし、帳票フォーマットとの差分部分を文字認識する。
・手書きされた帳票(紙)に対して書き込まれる手書きのストローク情報を取得する電子ペンのようなデバイスを用いて、文字認識する。
・その他、紙に手書きされた文字を認識する一般的な手法(既存の手法)を用いてもよい。
もちろんのことながら、複数の手法を組み合わせて文字認識データを取得してもよい。
反映モジュール230は、取得した認識結果データを、スプレッドシート上のデータ受付セルへ反映する。例えば以下のように行う。
帳票フォーマットに保持されている、認識結果データの反映先となるスプレッドシートを取得する。
そして、帳票フォーマットに保持されている、文字認識領域と対応するスプレッドシート上のデータ受付セルに、認識結果データを埋め込む。
本実施の形態は、手書き文字認識データを、スプレッドシートのセルデータとして受け付ける。図17(a)、図18(a)に示す例は、本実施の形態を用いない場合の結果であって、図17(b)、図18(b)に示す例は、本実施の形態を用いた場合の結果を示している。
図17(a)の例に示す領域1702〜1714は、スプレッドシート400内のセルと対応しておらず、単にテキスト枠として配置したものである。これは、本実施の形態を用いない場合であって、帳票(紙)に記載された文字の位置にテキスト枠を用いて反映させたものである。手書き文字認識データの元の位置への配置のみを行った場合を示しており、元の電子文書がスプレッドシートであるにもかかわらず、セルに文字認識データは、反映されていない。
図17(b)に示す例は、本実施の形態によって処理されたものであって、スプレッドシート400内のセルに文字認識データが反映されている。データ受付セル1722〜1734のそれぞれに文字認識データが反映されている。
図18(a)の例に示す領域1802は、帳票(紙)に記載された文字の位置に対応するセル群に、手書き文字認識データを代入したものであり、同じ手書き文字認識データが複数のセルに埋め込まれている。また、領域1804は、帳票(紙)に記載された文字の位置に対応する、予め定められた1つのセル(例えば、左上のセル)に、手書き文字認識データを代入したものである。つまり、本実施の形態を用いない場合であって、元のスプレッドシート上での対応が「範囲(複数のセル)」の場合、範囲に対するデータ受付は手書きの意図とは異なるデータとなってしまう。また、範囲の先頭セルなど、その範囲内の特定の1セルへの手書き文字認識データの代入を行った場合は、手書きした箇所とデータ受付セルとの位置が乖離してしまう。
図18(b)に示す例は、本実施の形態によって処理されたものであって、スプレッドシート400内のデータ受付セル1730、1734に文字認識データが反映されている。データ受付セル1730、1734は、結合セルであるので、1つの手書き個所につき1つの文字認識データを反映している。
なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図19に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部(演算部)としてCPU1901を用い、記憶装置としてRAM1902、ROM1903、HD1904を用いている。HD1904として、例えばハードディスクを用いてもよい。スプレッドシート受付モジュール110、定義モジュール120、フォーマット作成モジュール130、対応付けモジュール140、出力モジュール150、フォーマット取得モジュール210、文字認識データ取得モジュール220、反映モジュール230等のプログラムを実行するCPU1901と、そのプログラムやデータを記憶するRAM1902と、本コンピュータを起動するためのプログラム等が格納されているROM1903と、補助記憶装置(フラッシュメモリ等であってもよい)であるHD1904と、キーボード、マウス、タッチパネル等に対する利用者の操作に基づいてデータを受け付ける受付装置1906と、CRT、液晶ディスプレイ等の出力装置1905と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース1907、そして、それらをつないでデータのやりとりをするためのバス1908により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。
前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図19に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図19に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えばASIC等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図19に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、情報家電、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
100…情報処理装置
110…スプレッドシート受付モジュール
120…定義モジュール
130…フォーマット作成モジュール
140…対応付けモジュール
150…出力モジュール
200…情報処理装置
210…フォーマット取得モジュール
220…文字認識データ取得モジュール
230…反映モジュール
310…印刷装置
320…文字画像認識装置
330…オンライン文字認識装置
390…通信回線

Claims (4)

  1. 文字受付枠を有するスプレッドシートから、前記文字受付枠を検出する検出手段と、
    前記検出手段により検出された前記文字受付枠と対応する前記スプレッドシート内のセルを結合する結合手段と、
    前記結合手段により結合されたセルを、前記文字受付枠に記載される文字列を受け付ける1つのセルとして定義する定義手段と、
    を有し、
    前記定義手段は、前記結合手段によって結合されたセルの幅、高さ、又は大きさが予め定められた閾値以下又は未満であるセルを除外の対象とする、
    情報処理装置。
  2. 前記スプレッドシートから、前記文字受付枠の位置を定義した文書の型を作成する作成手段と、
    前記定義手段によって定義されたセルと、前記文書の型内の前記文字受付枠を対応付ける対応付手段と、
    をさらに有する請求項1に記載の情報処理装置。
  3. 前記文書の型内の前記文字受付枠は、手書きが行われる記入領域であって、
    前記文字受付枠に記載された文字列の認識結果を受け付ける受付手段と、
    前記認識結果を、前記文書の型内の前記文字受付枠に対応付けられたセルに反映させる反映手段と、
    をさらに有する請求項2に記載の情報処理装置。
  4. コンピュータを、
    文字受付枠を有するスプレッドシートから、前記文字受付枠を検出する検出手段と、
    前記検出手段により検出された前記文字受付枠と対応する前記スプレッドシート内のセルを結合する結合手段と、
    前記結合手段により結合されたセルを、前記文字受付枠に記載される文字列を受け付ける1つのセルとして定義する定義手段
    として機能させ
    前記定義手段は、前記結合手段によって結合されたセルの幅、高さ、又は大きさが予め定められた閾値以下又は未満であるセルを除外の対象とする、
    情報処理プログラム。
JP2014101147A 2014-05-15 2014-05-15 情報処理装置及び情報処理プログラム Active JP6435636B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014101147A JP6435636B2 (ja) 2014-05-15 2014-05-15 情報処理装置及び情報処理プログラム
US14/520,623 US20150331844A1 (en) 2014-05-15 2014-10-22 Information processing apparatus and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014101147A JP6435636B2 (ja) 2014-05-15 2014-05-15 情報処理装置及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2015219620A JP2015219620A (ja) 2015-12-07
JP6435636B2 true JP6435636B2 (ja) 2018-12-12

Family

ID=54538647

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014101147A Active JP6435636B2 (ja) 2014-05-15 2014-05-15 情報処理装置及び情報処理プログラム

Country Status (2)

Country Link
US (1) US20150331844A1 (ja)
JP (1) JP6435636B2 (ja)

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5379372A (en) * 1990-09-13 1995-01-03 Wu; William C. Apparatus and method for designing a form structure using column and row rules
JP3346635B2 (ja) * 1993-12-10 2002-11-18 日立電子エンジニアリング株式会社 Ocr用帳票フォーム作成方法
JP2944439B2 (ja) * 1994-12-27 1999-09-06 シャープ株式会社 手書き文字入力装置および方法
US6088708A (en) * 1997-01-31 2000-07-11 Microsoft Corporation System and method for creating an online table from a layout of objects
US6173073B1 (en) * 1998-01-05 2001-01-09 Canon Kabushiki Kaisha System for analyzing table images
US6442575B2 (en) * 1998-06-17 2002-08-27 Microsoft Corporation Method and system for merging cells in a table and for adding an integrated header and a nested table to a table in an electronic document
JP3435375B2 (ja) * 1999-10-12 2003-08-11 沖電気工業株式会社 文字認識方法および装置
JP2001331764A (ja) * 2000-03-13 2001-11-30 Fujitsu Ltd 文字認識方法
US7350142B2 (en) * 2003-03-27 2008-03-25 Microsoft Corporation Method and system for creating a table version of a document
JP4928991B2 (ja) * 2007-03-12 2012-05-09 東京エレクトロン株式会社 基板処理装置
JP5533829B2 (ja) * 2011-09-27 2014-06-25 カシオ計算機株式会社 情報取得システム、情報処理装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
US20150331844A1 (en) 2015-11-19
JP2015219620A (ja) 2015-12-07

Similar Documents

Publication Publication Date Title
JP5712487B2 (ja) 画像処理装置、画像処理システム、画像処理方法、及びプログラム
JP5623079B2 (ja) ハード・コピーの書式からの書式定義の自動発生
US11182604B1 (en) Computerized recognition and extraction of tables in digitized documents
JP3962891B2 (ja) 文書画像処理装置、文書画像処理方法、及び記憶媒体
CN102289667A (zh) 对经历光学字符识别(ocr)过程的文本文档中出现的错误的用户纠正
JP4785655B2 (ja) 文書処理装置及び文書処理方法
US20090234867A1 (en) Operation procedure extrapolating system, operation procedure extrapolating method, computer-readable medium and computer data signal
US11321558B2 (en) Information processing apparatus and non-transitory computer readable medium
US11418658B2 (en) Image processing apparatus, image processing system, image processing method, and storage medium
JP2012199698A (ja) 画像処理装置、画像処理システム、画像処理方法、及び画像処理プログラム
JP2008145611A (ja) 情報処理装置、プログラム
US20230273952A1 (en) Image processing apparatus, image processing method, and storage medium
JP2008059157A (ja) 書類確認支援システム、書類確認支援装置およびプログラム
JP5844564B2 (ja) 帳票認識システム
US8339623B2 (en) Paper document processing apparatus, paper document processing method, and computer readable medium
US20150261735A1 (en) Document processing system, document processing apparatus, and document processing method
JP4983464B2 (ja) 帳票画像処理装置及び帳票画像処理プログラム
JP6221220B2 (ja) 画像処理装置及び画像処理プログラム
JP2021044803A (ja) 画像処理装置、画像処理方法、及びプログラム
US10638001B2 (en) Information processing apparatus for performing optical character recognition (OCR) processing on image data and converting image data to document data
US10706337B2 (en) Character recognition device, character recognition method, and recording medium
CN101753752B (zh) 图像处理设备和执行图像处理的方法
JP6435636B2 (ja) 情報処理装置及び情報処理プログラム
JP2004504650A (ja) フォーム認識及びデジタル化画像処理のための方法及びシステム
JP6682827B2 (ja) 情報処理装置及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180327

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181016

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181029

R150 Certificate of patent or registration of utility model

Ref document number: 6435636

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350