JP6119689B2 - 電子文書生成システム、電子文書生成装置およびプログラム - Google Patents

電子文書生成システム、電子文書生成装置およびプログラム Download PDF

Info

Publication number
JP6119689B2
JP6119689B2 JP2014143600A JP2014143600A JP6119689B2 JP 6119689 B2 JP6119689 B2 JP 6119689B2 JP 2014143600 A JP2014143600 A JP 2014143600A JP 2014143600 A JP2014143600 A JP 2014143600A JP 6119689 B2 JP6119689 B2 JP 6119689B2
Authority
JP
Japan
Prior art keywords
character
electronic document
area
processing target
arrangement direction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014143600A
Other languages
English (en)
Other versions
JP2016021086A (ja
Inventor
匡晃 坂
匡晃 坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2014143600A priority Critical patent/JP6119689B2/ja
Priority to CN201510404336.9A priority patent/CN105320933B/zh
Priority to US14/797,748 priority patent/US9398191B2/en
Publication of JP2016021086A publication Critical patent/JP2016021086A/ja
Application granted granted Critical
Publication of JP6119689B2 publication Critical patent/JP6119689B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • H04N1/3872Repositioning or masking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00204Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server
    • H04N1/00244Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server with a server, e.g. an internet server
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • H04N1/3871Composing, repositioning or otherwise geometrically modifying originals the composed originals being of different kinds, e.g. low- and high-resolution originals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0094Multifunctional device, i.e. a device capable of all of reading, reproducing, copying, facsimile transception, file transception

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Character Input (AREA)
  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)

Description

本発明は、電子文書を生成する電子文書生成システムおよびそれに関連する技術に関する。
MFP(マルチ・ファンクション・ペリフェラル(Multi-Functional Peripheral))などの画像形成装置において、原稿をスキャンして電子文書を作成する技術が存在する。
このような技術においては、原稿のスキャン画像をそのまま取り込んで電子文書を生成するものの他、テキストデータ付き電子文書(次述)を生成するものも存在する(特許文献1等参照)。具体的には、原稿のスキャン画像(特に文字を示す画像)に対して光学文字認識処理(以下、OCR(Optical Character Recognition)処理とも称する)が施され、当該スキャン画像内の文字のテキストデータが自動認識され、当該テキストデータが非表示状態で当該スキャン画像に重畳して埋め込まれる。このようにして、たとえば、透明テキスト付きPDF(Portable Document Format)(あるいはサーチャブルPDF)などと呼ばれる所定形式の電子文書(テキストデータ付き電子文書)が生成される。
特開2012−73749号公報
ところで、各種のアプリケーションソフトウエアに係るサービスをクラウドサーバを用いて提供する技術が存在する。また、このようなクラウドサービス(アプリケーションサービス)として、汎用的なOCR処理サービスを提供するものも存在する。ただし、汎用のOCR処理サービスでは、基本的機能のみ(OCR処理のみ)が提供され、テキストデータ付き電子文書は生成されない。そのため、テキストデータ付き電子文書の最終的な生成処理は、依頼元装置側で行われることを要する。
汎用的なOCR処理サービスが利用される場合においては、たとえば、まず依頼元装置(詳細には、依頼元装置で実行中の或るアプリケーション)からクラウドサーバ(詳細には、クラウドサーバで実行中の別アプリケーション)へとスキャン画像が送信される。そして、当該スキャン画像全体に関するOCR処理がクラウドサーバで実行され、その処理結果がクラウドサーバから依頼元装置へと返信される。当該依頼元装置は、クラウドサーバから受信したOCR処理結果を元のスキャン画像に埋め込んで、テキストデータ付き電子文書(サーチャブルPDF(透明テキスト付きPDF)等)を生成する。なお、汎用OCR処理サービスを利用することによれば、OCR処理の依頼元装置(たとえば画像形成装置(スキャン画像の生成装置))とは別の装置でOCR処理を行うことができるので、当該依頼元装置の処理負荷を低減することが可能である。
しかしながら、たとえば依頼元装置から別装置(クラウドサーバ)に対してスキャン画像に関するOCR処理指示を付与し、そのOCR処理結果を用いて、上述のようなテキストデータ付き電子文書を生成する場合には、スキャン画像内の文字画像とテキストデータとがずれて配置されるという問題が生じ得る。たとえば、OCR処理結果(テキストデータ)に係る文字列とスキャン画像内の文字列(文字画像としての文字列)とがその各文字の大きさが互いに異なる状態で同じページ内に配置される場合には、OCR処理結果に係る文字列が、その配列方向において、スキャン画像内の文字画像としての文字列とは大きく異なる位置に配置される。詳細には、両文字列の最初の位置は合っているとしても、特に文字列の配列方向後端側においてその位置ずれが顕著になる。
このような問題は、クラウドサーバから依頼元装置へはOCR処理結果(文字列認識結果)のみが返送され、認識された文字のサイズは返送されないこと等に起因して生じる。特に、クラウドサーバ側のアプリケーションでの処理結果の出力形態がほぼ固定されている場合(当該出力形態を依頼元の電子文書生成アプリケーションが自由に決定することができない場合等)に、このような問題が顕著に生じ得る。
そこで、この発明は、或る装置から別の装置に対してOCR処理を依頼し、その処理結果を用いて電子文書を生成する技術において、OCR処理結果に係る文字列をその配列方向において比較的正確な位置に配置することが可能な技術を提供することを課題とする。
上記課題を解決すべく、請求項1の発明は、電子文書生成システムであって、原稿のスキャン画像に基づき電子文書を生成する第1の装置と、前記第1の装置からの依頼に基づいて前記スキャン画像に対する光学文字認識処理を実行し、当該光学文字認識処理の処理結果を前記第1の装置に送出する第2の装置と、を備え、前記第1の装置は、前記スキャン画像内にて或る方向に配列された1行の文字列の全部または一部の範囲の領域である行領域を含む処理対象領域を、前記スキャン画像から抽出する抽出手段と、前記行領域の大きさを検出する検出手段と、前記行領域の大きさに基づいて、前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向における文字サイズである配列方向文字サイズを決定する決定手段と、前記光学文字認識処理を前記処理対象領域に関して行うべき旨の指示と前記処理対象領域の画像データとを、前記第2の装置に送出する指示送出手段と、前記処理対象領域に関する前記光学文字認識処理の処理結果を前記第2の装置から受け取る受取手段と、前記決定手段により決定された前記配列方向文字サイズに基づいて前記処理結果に係る文字列を前記電子文書内に配置し、前記電子文書を生成する生成手段と、を有し、前記抽出手段は、前記スキャン画像内の複数の部分領域のそれぞれを前記処理対象領域として抽出し、前記指示送出手段は、前記光学文字認識処理を前記複数の部分領域のそれぞれに関して行うべき旨の指示と前記複数の部分領域のそれぞれの画像データとを、前記第2の装置に送出し、前記受取手段は、前記複数の部分領域のそれぞれに関する前記光学文字認識処理の処理結果を前記第2の装置から受け取り、前記生成手段は、前記複数の部分領域のそれぞれに関して前記決定手段により決定された前記配列方向文字サイズに基づいて、前記複数の部分領域のそれぞれに関する前記処理結果に係る文字列を前記複数の部分領域のそれぞれに配置することを特徴とする。
請求項2の発明は、請求項1の発明に係る電子文書生成システムにおいて、前記決定手段は、前記行領域の前記配列方向における長さを前記行領域内の文字数で除した値に基づいて、前記配列方向文字サイズを決定することを特徴とする。
請求項3の発明は、請求項2の発明に係る電子文書生成システムにおいて、前記抽出手段は、複数行の文字列を含む領域を前記処理対象領域として抽出し、前記決定手段は、前記複数行の文字列のうちの任意の1行の文字列に関する領域である前記行領域の前記配列方向における長さを前記行領域内の文字数で除した値に基づいて、前記配列方向文字サイズを決定することを特徴とする。
請求項4の発明は、請求項2の発明に係る電子文書生成システムにおいて、前記抽出手段は、単一行の文字列に係る領域を前記処理対象領域として抽出し、前記決定手段は、前記単一行の文字列に関する領域である前記行領域の前記配列方向における長さを前記行領域内の文字数で除した値に基づいて、前記配列方向文字サイズを決定することを特徴とする。
請求項5の発明は、請求項2の発明に係る電子文書生成システムにおいて、前記抽出手段は、前記1行の文字列の前記配列方向における全範囲のうち一部の範囲の領域を前記処理対象領域として抽出し、前記決定手段は、前記一部の範囲の領域の前記配列方向における長さを前記一部の範囲の領域内の文字数で除した値に基づいて、前記配列方向文字サイズを決定することを特徴とする。
請求項6の発明は、請求項1の発明に係る電子文書生成システムにおいて、前記決定手段は、前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向に直交する直交方向の文字サイズである直交方向文字サイズを前記行領域の前記直交方向における長さに基づいて決定するとともに、前記直交方向文字サイズに基づいて前記配列方向文字サイズを決定することを特徴とする。
請求項7の発明は、請求項6の発明に係る電子文書生成システムにおいて、前記抽出手段は、複数行の文字列を含む領域を前記処理対象領域として抽出し、前記決定手段は、前記処理対象領域の前記直交方向における長さと前記処理対象領域に含まれる文字列の行数とに基づいて前記行領域の前記直交方向における長さを検出し、前記行領域の前記直交方向における当該長さに基づいて前記直交方向文字サイズを決定するとともに、当該直交方向文字サイズに基づいて前記配列方向文字サイズを決定することを特徴とする。
請求項8の発明は、請求項6の発明に係る電子文書生成システムにおいて、前記抽出手段は、単一行の文字列に係る領域を前記処理対象領域として抽出し、前記決定手段は、前記単一行の文字列に係る領域の前記直交方向における長さに基づいて前記直交方向文字サイズを算出するとともに、当該直交方向文字サイズに基づいて前記配列方向文字サイズを決定することを特徴とする。
請求項9の発明は、請求項6の発明に係る電子文書生成システムにおいて、前記抽出手段は、前記1行の文字列の前記配列方向における全範囲のうちの一部の範囲の領域を前記処理対象領域として抽出し、前記決定手段は、前記一部の範囲の領域の前記直交方向における長さに基づいて前記直交方向文字サイズを算出するとともに、当該直交方向文字サイズに基づいて前記配列方向文字サイズを決定することを特徴とする。
請求項10の発明は、請求項1の発明に係る電子文書生成システムにおいて、前記決定手段は、前記行領域の前記配列方向における長さを前記行領域内の文字数で除した値に基づいて、前記処理対象領域に関する前記配列方向文字サイズを決定するとともに、前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向に直交する直交方向の文字サイズである直交方向文字サイズを、前記行領域の前記直交方向における長さに基づいて決定し、前記生成手段は、前記決定手段により決定された前記配列方向文字サイズと前記直交方向文字サイズとに基づいて前記処理結果に係る文字列を前記電子文書内に配置して、前記電子文書を生成することを特徴とする。
請求項11の発明は、請求項1ないし請求項10のいずれかの発明に係る電子文書生成システムにおいて、前記検出手段は、前記スキャン画像内での前記処理対象領域の位置をも検出し、前記生成手段は、前記処理対象領域の前記位置にも基づいて前記処理結果に係る文字列を前記電子文書内に配置することを特徴とする。
請求項12の発明は、請求項1ないし請求項11のいずれかの発明に係る電子文書生成システムにおいて、前記第1の装置は、画像形成装置であり、前記第2の装置は、クラウドサーバであることを特徴とする。
請求項13の発明は、請求項1ないし請求項11のいずれかの発明に係る電子文書生成システムにおいて、前記第1の装置は、画像形成装置であり、前記第2の装置は、通信端末であることを特徴とする。
請求項14の発明は、請求項1ないし請求項11のいずれかの発明に係る電子文書生成システムにおいて、前記第1の装置は、通信端末であり、前記第2の装置は、クラウドサーバであることを特徴とする。
請求項15の発明は、原稿のスキャン画像に基づき電子文書を生成する電子文書生成装置であって、前記スキャン画像内にて或る方向に配列された1行の文字列の全部または一部の範囲の領域である行領域を含む処理対象領域を、前記スキャン画像から抽出する抽出手段と、前記行領域の大きさを検出する検出手段と、前記行領域の大きさに基づいて、前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向における文字サイズである配列方向文字サイズを決定する決定手段と、光学文字認識処理を前記処理対象領域に関して行うべき旨の指示と前記処理対象領域の画像データとを外部装置に送出する指示送出手段と、前記処理対象領域に関して前記外部装置によって実行された前記光学文字認識処理の処理結果を前記外部装置から受け取る受取手段と、前記決定手段により決定された前記配列方向文字サイズに基づいて前記処理結果に係る文字列を前記電子文書内に配置し、前記電子文書を生成する生成手段と、を備え、前記抽出手段は、前記スキャン画像内の複数の部分領域のそれぞれを前記処理対象領域として抽出し、前記指示送出手段は、前記光学文字認識処理を前記複数の部分領域のそれぞれに関して行うべき旨の指示と前記複数の部分領域のそれぞれの画像データとを、前記外部装置に送出し、前記受取手段は、前記複数の部分領域のそれぞれに関する前記光学文字認識処理の処理結果を前記外部装置から受け取り、前記生成手段は、前記複数の部分領域のそれぞれに関して前記決定手段により決定された前記配列方向文字サイズに基づいて、前記複数の部分領域のそれぞれに関する前記処理結果に係る文字列を前記複数の部分領域のそれぞれに配置することを特徴とする。
請求項16の発明は、請求項15の発明に係る電子文書生成装置において、前記決定手段は、前記行領域の前記配列方向における長さを前記行領域内の文字数で除した値に基づいて、前記配列方向文字サイズを決定することを特徴とする。
請求項17の発明は、請求項16の発明に係る電子文書生成装置において、前記抽出手段は、複数行の文字列を含む領域を前記処理対象領域として抽出し、前記決定手段は、前記複数行の文字列のうちの任意の1行の文字列に関する領域である前記行領域の前記配列方向における長さを前記行領域内の文字数で除した値に基づいて、前記配列方向文字サイズを決定することを特徴とする。
請求項18の発明は、請求項16の発明に係る電子文書生成装置において、前記抽出手段は、単一行の文字列に係る領域を前記処理対象領域として抽出し、前記決定手段は、前記単一行の文字列に関する領域である前記行領域の前記配列方向における長さを前記行領域内の文字数で除した値に基づいて、前記配列方向文字サイズを決定することを特徴とする。
請求項19の発明は、請求項16の発明に係る電子文書生成装置において、前記抽出手段は、前記1行の文字列の前記配列方向における全範囲のうち一部の範囲の領域を前記処理対象領域として抽出し、前記決定手段は、前記一部の範囲の領域の前記配列方向における長さを前記一部の範囲の領域内の文字数で除した値に基づいて、前記配列方向文字サイズを決定することを特徴とする。
請求項20の発明は、請求項15の発明に係る電子文書生成装置において、前記決定手段は、前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向に直交する直交方向の文字サイズである直交方向文字サイズを前記行領域の前記直交方向における長さに基づいて決定するとともに、前記直交方向文字サイズに基づいて前記配列方向文字サイズを決定することを特徴とする。
請求項21の発明は、請求項20の発明に係る電子文書生成装置において、前記抽出手段は、複数行の文字列を含む領域を前記処理対象領域として抽出し、前記決定手段は、前記処理対象領域の前記直交方向における長さと前記処理対象領域に含まれる文字列の行数とに基づいて前記行領域の前記直交方向における長さを算出し、前記行領域の前記直交方向における当該長さに基づいて前記直交方向文字サイズを決定するとともに、当該直交方向文字サイズに基づいて前記配列方向文字サイズを決定することを特徴とする。
請求項22の発明は、請求項20の発明に係る電子文書生成装置において、前記抽出手段は、単一行の文字列に係る領域を前記処理対象領域として抽出し、前記決定手段は、前記単一行の文字列に係る領域の前記直交方向における長さに基づいて前記直交方向文字サイズを算出するとともに、当該直交方向文字サイズに基づいて前記配列方向文字サイズを決定することを特徴とする。
請求項23の発明は、請求項20の発明に係る電子文書生成装置において、前記抽出手段は、前記1行の文字列の前記配列方向における全範囲のうちの一部の範囲の領域を前記処理対象領域として抽出し、前記決定手段は、前記一部の範囲の領域の前記直交方向における長さに基づいて前記直交方向文字サイズを算出するとともに、当該直交方向文字サイズに基づいて前記配列方向文字サイズを決定することを特徴とする。
請求項24の発明は、請求項15の発明に係る電子文書生成装置において、前記決定手段は、前記行領域の前記配列方向における長さを前記行領域内の文字数で除した値に基づいて、前記処理対象領域に関する前記配列方向文字サイズを決定するとともに、前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向に直交する直交方向の文字サイズである直交方向文字サイズを、前記行領域の前記直交方向における長さに基づいて決定し、前記生成手段は、前記決定手段により決定された前記配列方向文字サイズと前記直交方向文字サイズとに基づいて前記処理結果に係る文字列を前記電子文書内に配置して、前記電子文書を生成することを特徴とする。
請求項25の発明は、請求項15ないし請求項24のいずれかの発明に係る電子文書生成装置において、前記検出手段は、前記スキャン画像内での前記処理対象領域の位置をも検出し、前記生成手段は、前記処理対象領域の前記位置にも基づいて前記処理結果に係る文字列を前記電子文書内に配置し、前記電子文書を生成することを特徴とする。
請求項26の発明は、請求項15ないし請求項25のいずれかの発明に係る電子文書生成装置において、前記電子文書生成装置は、画像形成装置であることを特徴とする。
請求項27の発明は、請求項15ないし請求項25のいずれかの発明に係る電子文書生成装置において、前記電子文書生成装置は、前記スキャン画像を生成する画像形成装置とは異なる通信装置であって前記外部装置とも異なる通信装置であることを特徴とする。
請求項28の発明は、原稿のスキャン画像に基づき電子文書を生成する電子文書生成装置に内蔵されたコンピュータに、a)前記スキャン画像内にて或る方向に配列された1行の文字列の全部または一部の範囲の領域である行領域を含む処理対象領域を、前記スキャン画像から抽出するステップと、b)前記行領域の大きさを検出するステップと、c)前記行領域の大きさに基づいて、前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向における文字サイズである配列方向文字サイズを決定するステップと、d)光学文字認識処理を前記処理対象領域に関して行うべき旨の指示と前記処理対象領域の画像データとを外部装置に送出するステップと、e)前記処理対象領域に関して前記外部装置によって実行された前記光学文字認識処理の処理結果を前記外部装置から受け取るステップと、f)前記ステップc)にて決定された前記配列方向文字サイズに基づいて前記処理結果に係る文字列を前記電子文書内に配置するステップと、を実行させるためのプログラムであって、前記ステップa)においては、前記スキャン画像内の複数の部分領域のそれぞれが前記処理対象領域として抽出され、前記ステップd)においては、前記光学文字認識処理を前記複数の部分領域のそれぞれに関して行うべき旨の指示と前記複数の部分領域のそれぞれの画像データとが、前記外部装置に送出され、前記ステップe)においては、前記複数の部分領域のそれぞれに関する前記光学文字認識処理の処理結果が前記外部装置から受け取られ、前記ステップf)においては、前記複数の部分領域のそれぞれに関して前記ステップc)にて決定された前記配列方向文字サイズに基づいて、前記複数の部分領域のそれぞれに関する前記処理結果に係る文字列が前記複数の部分領域のそれぞれに配置されることを特徴とする。
請求項29の発明は、原稿のスキャン画像に基づき電子文書を生成する電子文書生成装置であって、複数行の文字列を含む処理対象領域を前記スキャン画像から抽出する抽出手段と、前記処理対象領域の大きさを検出する検出手段と、前記処理対象領域の大きさに基づいて、前記処理対象領域内の文字の文字サイズであって前記処理対象領域内の文字列の配列方向における文字サイズである配列方向文字サイズを決定する決定手段と、光学文字認識処理を前記処理対象領域に関して行うべき旨の指示と前記処理対象領域の画像データとを外部装置に送出する指示送出手段と、前記処理対象領域に関して前記外部装置によって実行された前記光学文字認識処理の処理結果を前記外部装置から受け取る受取手段と、前記決定手段により決定された前記配列方向文字サイズに基づいて前記処理結果に係る文字列を前記電子文書内に配置し、前記電子文書を生成する生成手段と、を備え、前記決定手段は、前記処理対象領域内の文字の文字サイズであって前記配列方向に直交する直交方向の文字サイズである直交方向文字サイズを、前記処理対象領域の前記直交方向における長さと前記処理対象領域に含まれる文字列の行数とに基づいて決定するとともに、前記直交方向文字サイズに基づいて前記配列方向文字サイズを決定することを特徴とする。
請求項30の発明は、原稿のスキャン画像に基づき電子文書を生成する電子文書生成装置に内蔵されたコンピュータに、a)複数行の文字列を含む処理対象領域を前記スキャン画像から抽出するステップと、b)前記処理対象領域の大きさを検出するステップと、c)前記処理対象領域の大きさに基づいて、前記処理対象領域内の文字の文字サイズであって前記処理対象領域内の文字列の配列方向における文字サイズである配列方向文字サイズを決定するステップと、d)光学文字認識処理を前記処理対象領域に関して行うべき旨の指示と前記処理対象領域の画像データとを外部装置に送出するステップと、e)前記処理対象領域に関して前記外部装置によって実行された前記光学文字認識処理の処理結果を前記外部装置から受け取るステップと、f)前記ステップc)にて決定された前記配列方向文字サイズに基づいて前記処理結果に係る文字列を前記電子文書内に配置するステップと、を実行させるためのプログラムであって、前記ステップc)は、c−1)前記処理対象領域内の文字の文字サイズであって前記配列方向に直交する直交方向の文字サイズである直交方向文字サイズを、前記処理対象領域の前記直交方向における長さと前記処理対象領域に含まれる文字列の行数とに基づいて決定するステップと、c−2)前記直交方向文字サイズに基づいて前記配列方向文字サイズを決定するステップと、を有することを特徴とする。
請求項31の発明は、電子文書生成システムであって、原稿のスキャン画像に基づき電子文書を生成する第1の装置と、前記第1の装置からの依頼に基づいて前記スキャン画像に対する光学文字認識処理を実行し、当該光学文字認識処理の処理結果を前記第1の装置に送出する第2の装置と、を備え、前記第1の装置は、前記スキャン画像内にて或る方向に配列された1行の文字列の全部または一部の範囲の領域である行領域を含む処理対象領域を、前記スキャン画像から抽出する抽出手段と、前記行領域の大きさを検出する検出手段と、前記行領域の大きさに基づいて、前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向における文字サイズである配列方向文字サイズを決定する決定手段と、前記光学文字認識処理を前記処理対象領域に関して行うべき旨の指示と前記処理対象領域の画像データとを、前記第2の装置に送出する指示送出手段と、前記処理対象領域に関する前記光学文字認識処理の処理結果を前記第2の装置から受け取る受取手段と、前記決定手段により決定された前記配列方向文字サイズに基づいて前記処理結果に係る文字列を前記電子文書内に配置し、前記電子文書を生成する生成手段と、を有し、前記決定手段は、前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向に直交する直交方向の文字サイズである直交方向文字サイズを前記行領域の前記直交方向における長さに基づいて決定するとともに、前記直交方向文字サイズに基づいて前記配列方向文字サイズを決定し、前記抽出手段は、複数行の文字列を含む領域を前記処理対象領域として抽出し、前記決定手段は、前記処理対象領域の前記直交方向における長さと前記処理対象領域に含まれる文字列の行数とに基づいて前記行領域の前記直交方向における長さを検出し、前記行領域の前記直交方向における当該長さに基づいて前記直交方向文字サイズを決定するとともに、当該直交方向文字サイズに基づいて前記配列方向文字サイズを決定することを特徴とする。
請求項32の発明は、原稿のスキャン画像に基づき電子文書を生成する電子文書生成装置であって、前記スキャン画像内にて或る方向に配列された1行の文字列の全部または一部の範囲の領域である行領域を含む処理対象領域を、前記スキャン画像から抽出する抽出手段と、前記行領域の大きさを検出する検出手段と、前記行領域の大きさに基づいて、前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向における文字サイズである配列方向文字サイズを決定する決定手段と、光学文字認識処理を前記処理対象領域に関して行うべき旨の指示と前記処理対象領域の画像データとを外部装置に送出する指示送出手段と、前記処理対象領域に関して前記外部装置によって実行された前記光学文字認識処理の処理結果を前記外部装置から受け取る受取手段と、前記決定手段により決定された前記配列方向文字サイズに基づいて前記処理結果に係る文字列を前記電子文書内に配置し、前記電子文書を生成する生成手段と、を備え、前記決定手段は、前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向に直交する直交方向の文字サイズである直交方向文字サイズを前記行領域の前記直交方向における長さに基づいて決定するとともに、前記直交方向文字サイズに基づいて前記配列方向文字サイズを決定し、前記抽出手段は、複数行の文字列を含む領域を前記処理対象領域として抽出し、前記決定手段は、前記処理対象領域の前記直交方向における長さと前記処理対象領域に含まれる文字列の行数とに基づいて前記行領域の前記直交方向における長さを算出し、前記行領域の前記直交方向における当該長さに基づいて前記直交方向文字サイズを決定するとともに、当該直交方向文字サイズに基づいて前記配列方向文字サイズを決定することを特徴とする。
請求項33の発明は、原稿のスキャン画像に基づき電子文書を生成する電子文書生成装置に内蔵されたコンピュータに、a)前記スキャン画像内にて或る方向に配列された1行の文字列の全部または一部の範囲の領域である行領域を含む処理対象領域を、前記スキャン画像から抽出するステップと、b)前記行領域の大きさを検出するステップと、c)前記行領域の大きさに基づいて、前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向における文字サイズである配列方向文字サイズを決定するステップと、d)光学文字認識処理を前記処理対象領域に関して行うべき旨の指示と前記処理対象領域の画像データとを外部装置に送出するステップと、e)前記処理対象領域に関して前記外部装置によって実行された前記光学文字認識処理の処理結果を前記外部装置から受け取るステップと、f)前記ステップc)にて決定された前記配列方向文字サイズに基づいて前記処理結果に係る文字列を前記電子文書内に配置するステップと、を実行させるためのプログラムであって、前記ステップc)においては、前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向に直交する直交方向の文字サイズである直交方向文字サイズが前記行領域の前記直交方向における長さに基づいて決定されるとともに、前記直交方向文字サイズに基づいて前記配列方向文字サイズが決定され、前記ステップa)においては、複数行の文字列を含む領域が前記処理対象領域として抽出され、前記ステップc)においては、前記処理対象領域の前記直交方向における長さと前記処理対象領域に含まれる文字列の行数とに基づいて前記行領域の前記直交方向における長さが算出され、前記行領域の前記直交方向における当該長さに基づいて前記直交方向文字サイズが決定されるとともに、当該直交方向文字サイズに基づいて前記配列方向文字サイズが決定されることを特徴とする。
請求項1ないし請求項33に記載の発明によれば、或る装置から別の装置に対してOCR処理を依頼し、その処理結果を用いて電子文書を生成するに際して、OCR処理結果に係る文字列をその配列方向において比較的正確な位置に配置することが可能である。
画像形成システム(電子文書生成システム)を示す図である。 画像形成装置の機能ブロックを示す図である。 外部端末の概略構成を示す機能ブロック図である。 電子文書生成システムにおける動作の概略を示す図である。 外部端末の動作を示すフローチャートである。 スキャン画像を示す図である。 3つの部分領域(処理対象領域)が抽出された様子を示す図である。 各部分領域の位置情報等を示す図である。 処理対象領域の抽出処理等について説明する図である。 OCR処理によって生成されるテキストデータ等を示す図である。 第1実施形態に係る文字配置結果を示す図である。 比較例に係る文字配置結果を示す図である。 2つの部分領域が抽出された様子を示す図である(第4実施形態)。 部分領域内の行領域を示す図である。 別のスキャン画像を示す図である。 4つの部分領域(処理対象領域)が抽出された様子を示す図である。 第5実施形態に係る文字配置結果を示す図である。 別の比較例に係る文字配置結果を示す図である。 変形例に係るシステム構成を示す図である。 別の変形例に係るシステム構成を示す図である。
以下、本発明の実施形態を図面に基づいて説明する。
<1.第1実施形態>
<1−1.構成概要>
図1は、本発明に係る画像形成システム1を示す図である。図1に示すように、画像形成システム1は、画像形成装置10と外部端末50とクラウドサーバ90とを備える。
画像形成装置10と外部端末50とクラウドサーバ90とは、ネットワーク(通信ネットワーク)108を介して互いに接続される。ネットワーク108は、LAN(Local Area Network)およびインターネットなどによって構成される。また、ネットワーク108に対する接続態様は、有線接続であってもよく、或いは無線接続であってもよい。たとえば、画像形成装置10およびクラウドサーバ90はネットワーク108に対して有線接続され、外部端末50はネットワーク108に対して無線接続される。
クラウドサーバ90は、画像形成装置10とも外部端末50とも異なる外部装置(外部サーバ)である。クラウドサーバ90には、アプリケーション120(ここでは、汎用のOCR(Optical Character Recognition)アプリケーション)がインストールされている。クラウドサーバ90は、汎用的なOCR処理サービスをアプリケーション120を用いて提供するサーバである。ただし、このクラウドサーバ90(アプリケーション120)は、サーチャブルPDF(Portable Document Format)の生成処理サービスを提供しない。サーチャブルPDFは、後述するように、外部端末50およびクラウドサーバ90等が協働することによって生成される。
この画像形成システム1においては、原稿のスキャン画像200(図4等参照)が画像形成装置10によって生成され、スキャン画像200が画像形成装置10から外部端末50に送信される。外部端末50は、画像形成装置10から受信したスキャン画像200に基づき、電子文書500(図4等参照)を生成する。当該電子文書500の生成動作は、外部端末50にインストールされている電子文書生成アプリケーション110(図4参照)を実行すること等によって実現される。
電子文書生成アプリケーション110では、スキャン画像200から複数の部分領域230が抽出される。そして、クラウドサーバ90のアプリケーション120によって提供されるOCR処理サービスを利用して、当該各部分領域230に対するOCR処理が行われる。各部分領域230は、OCR処理の処理対象の領域であり、処理対象領域とも称される。また、サーバ90でのOCR処理は、外部端末50から部分領域230ごとに依頼される。換言すれば、当該各部分領域230は、それぞれ、サーバでのOCR処理の依頼単位(処理単位)を構成する領域であり、処理単位領域とも称される。
電子文書生成アプリケーション110は、各部分領域230に対する各処理結果(テキストデータ)を汎用アプリケーション120から受け取り、当該各処理結果に基づいて電子文書500を生成する。当該電子文書500は、テキストデータ付き電子文書(ここでは、サーチャブルPDF)として生成される。
なお、画像形成システム1は、電子文書を生成するシステムであることから、電子文書生成システムなどとも表現される。同様に、外部端末50は電子文書生成装置であるとも表現される。
<1−2.画像形成装置の構成>
図2は、画像形成装置10の機能ブロックを示す図である。ここでは、画像形成装置10として、MFP(マルチ・ファンクション・ペリフェラル(Multi-Functional Peripheral))を例示する。図2においては、MFP10の機能ブロックが示されている。
MFP10は、スキャン機能、コピー機能、ファクシミリ機能およびボックス格納機能などを備える装置(複合機とも称する)である。具体的には、MFP10は、図2の機能ブロック図に示すように、画像読取部2、印刷出力部3、通信部4、格納部5、操作部6およびコントローラ9等を備えており、これらの各部を複合的に動作させることによって、各種の機能を実現する。
画像読取部2は、MFP10の所定の位置に載置された原稿を光学的に読み取って(すなわちスキャンして)、当該原稿の画像データ(原稿画像ないしスキャン画像とも称する)を生成する処理部である。この画像読取部2は、スキャン部であるとも称される。
印刷出力部3は、印刷対象に関するデータに基づいて紙などの各種の媒体に画像を印刷出力する出力部である。
通信部4は、公衆回線等を介したファクシミリ通信を行うことが可能な処理部である。さらに、通信部4は、ネットワーク108を介したネットワーク通信を行うことも可能である。このネットワーク通信では、たとえば、TCP/IP(Transmission Control Protocol / Internet Protocol)等の各種のプロトコルが利用される。当該ネットワーク通信を利用することによって、MFP10は、所望の相手先(たとえば、外部端末50)との間で各種のデータを授受することが可能である。通信部4は、各種データを送信する送信部4aと各種データを受信する受信部4bとを有する。
格納部5は、ハードディスクドライブ(HDD)等の記憶装置で構成される。
操作部6は、MFP10に対する操作入力を受け付ける操作入力部6aと、各種情報の表示出力を行う表示部6bとを備えている。
このMFP10においては、略板状の操作パネル部6c(図1参照)が設けられている。また、操作パネル部6cは、その正面側にタッチパネル25(図1参照)を有している。タッチパネル25は、操作入力部6aの一部としても機能するとともに、表示部6bの一部としても機能する。タッチパネル25は、液晶表示パネルに各種センサ等が埋め込まれて構成され、各種情報を表示するとともに操作者からの各種の操作入力を受け付けることが可能である。
たとえば、タッチパネル25においては、各種の操作画面(メニュー画面等)(ボタン画像等を含む)が表示される。操作者は、タッチパネル25の操作画面内に仮想的に配置されるボタンを押下することによって、MFP10の各種動作内容を設定するとともに動作指示を付与することができる。
コントローラ9は、MFP10に内蔵され、MFP10を統括的に制御する制御装置である。コントローラ9は、CPUおよび各種の半導体メモリ(RAMおよびROM)等を備えるコンピュータシステムとして構成される。コントローラ9は、CPUにおいて、ROM(例えば、EEPROM)内に格納されている所定のソフトウエアプログラム(以下、単にプログラムとも称する)を実行することによって、各種の処理部を実現する。なお、当該プログラム(詳細にはプログラムモジュール群)は、USBメモリなどの可搬性の記録媒体、あるいはネットワーク108等を介してMFP10にインストールされてもよい。
具体的には、図2に示すように、コントローラ9は、当該プログラムの実行により、通信制御部11と入力制御部12と表示制御部13と領域判別部15とを含む各種の処理部を実現する。
通信制御部11は、他の装置(外部端末50等)との間の通信動作を通信部4等と協働して制御する処理部である。たとえば、通信制御部11は、スキャン画像等を外部端末50送信する。
入力制御部12は、操作入力部6a(タッチパネル25等)に対する操作入力動作を制御する制御部である。たとえば、入力制御部12は、タッチパネル25に表示された操作画面に対する操作入力を受け付ける動作を制御する。
表示制御部13は、表示部6b(タッチパネル25等)における表示動作を制御する処理部である。表示制御部13は、たとえば、MFP10を操作するための操作画面をタッチパネル25に表示させる。
領域判別部15は、スキャン画像200(図4参照)の領域(領域種別)を判別する処理部である。たとえば、領域判別部15は、スキャン画像200内における文字領域210と非文字領域(図形領域等)220とを区別して判別する。
<1−3.外部端末の構成>
次に外部端末50の構成について説明する。
外部端末50は、MFP10およびクラウドサーバ90との間でのネットワーク通信が可能な情報入出力端末装置(通信装置とも称される)である。ここでは、外部端末50として、タブレット型端末を例示する。ただし、これに限定されず、外部端末50は、スマートフォンあるいはパーソナルコンピュータなどであってもよい。また、外部端末は、携帯式の装置(携帯情報端末等)(携帯端末)であってもよく、あるいは、据置型の装置であってもよい。
図3は、外部端末50の概略構成を示す機能ブロック図である。
外部端末50は、図3の機能ブロック図に示すように、通信部54、格納部55、操作部56およびコントローラ59等を備えており、これらの各部を複合的に動作させることによって、各種の機能を実現する。
通信部54は、ネットワーク108を介したネットワーク通信を行うことが可能である。このネットワーク通信では、たとえば、TCP/IP(Transmission Control Protocol / Internet Protocol)等の各種のプロトコルが利用される。当該ネットワーク通信を利用することによって、外部端末50は、所望の相手先(MFP10およびクラウドサーバ90等)との間で各種のデータを授受することが可能である。通信部54は、各種データを送信する送信部54aと各種データを受信する受信部54bとを有する。たとえば、受信部54bは、スキャン画像200を画像形成装置10から受信し、送信部54aは、スキャン画像200における複数の部分領域230(図4参照)の画像データをクラウドサーバ90に送信する。また、受信部54bは、複数の部分領域230に関するOCR処理結果等をクラウドサーバ90から受信する。
格納部55は、不揮発性の半導体メモリ等の記憶装置で構成され、各種の情報を格納する。
操作部56は、外部端末50に対する操作入力を受け付ける操作入力部56aと、各種情報の表示出力を行う表示部56bとを備えている。この外部端末50においては、液晶表示パネルに各種センサ等が埋め込まれて構成されたタッチパネル75(図1参照)が設けられている。具体的には、図1に示すように、略板状の外部端末50の正面側において、その周縁部(枠部)を除くほぼ全面にわたってタッチパネル75が設けられている。このタッチパネル75は、ユーザインターフェイス部として機能する。換言すれば、タッチパネル75は、操作入力部56aの一部としても機能するとともに、表示部56bの一部としても機能する。
図3のコントローラ59は、外部端末50に内蔵され、外部端末50を統括的に制御する制御装置である。コントローラ59は、CPUおよび各種の半導体メモリ(RAMおよびROM)等を備えるコンピュータシステムとして構成される。コントローラ59は、CPUにおいて、記憶部(半導体メモリ等)内に格納されている所定のソフトウエアプログラム(以下、単にプログラムとも称する)を実行することによって、各種の処理部を実現する。なお、当該プログラム(詳細にはプログラムモジュール群)は、USBメモリなどの可搬性の記録媒体、あるいはネットワーク108等を介して外部端末50にインストールされるようにしてもよい。
外部端末50には、画像形成装置10との連携処理を制御するアプリケーションプログラム(単に、アプリケーションとも称する)110がインストールされている。当該アプリケーションプログラム110が外部端末50にて実行されることによって、外部端末50は、画像形成装置10にて生成されたスキャン画像を画像形成装置10から受信するとともに、当該スキャン画像を利用して電子文書を生成する処理を実行する。
具体的には、コントローラ59は、当該アプリケーションプログラム110等の実行により、通信制御部61と入力制御部62と表示制御部63と取得部64と抽出部65と検出部66と指示送出部67と受取部68と決定部69と生成部70とを含む各種の処理部を実現する。
通信制御部61は、通信部54等と協働して、MFP10およびクラウドサーバ90等との通信動作を制御する処理部である。
入力制御部62は、操作入力部56a(タッチパネル75等)に対する操作入力動作を制御する制御部である。たとえば、入力制御部62は、タッチパネル75に表示された操作画面に対するタッチ操作入力を受け付ける動作を制御する。
表示制御部63は、表示部56b(タッチパネル75等)における表示動作を制御する処理部である。表示制御部63は、たとえば、MFP10との連携処理を行うための操作画面をタッチパネル75に表示する。
なお、入力制御部62および表示制御部63は、ユーザインターフェイス制御部とも総称される。
取得部64は、MFP10で生成されたスキャン画像200(図4参照)等を取得する処理部である。取得部64は、通信部54および通信制御部61等と協働して、当該スキャン画像200等をMFP10から受信して取得する。
抽出部65は、スキャン画像200の文字領域から1又は複数の部分領域230(図4参照)を抽出する処理部である。各部分領域230は、1行の文字列の領域である文字列領域を含む領域として抽出される。当該文字列領域は、行方向に伸延する文字列領域であり、「行領域」とも称される。この実施形態においては、各部分領域230が、単一行の文字列の領域である文字列領域(単一の行領域とも称される)を含む領域として抽出される。なお、これに限定されず、後述するように、各部分領域230は、複数行の文字列を含む領域として抽出されてもよい。換言すれば、各部分領域230は、複数の行領域(複数行に係る文字列領域)を含む領域として抽出されてもよい。
検出部66は、スキャン画像200内における複数の部分領域230の位置および大きさをそれぞれ検出する処理部である。また、検出部66は、各部分領域230内に含まれる1行の文字列の領域(行領域)の大きさを検出する処理を実行する処理部でもある。なお、各部分領域230が、それぞれ、単一行の文字列の領域(単一の行領域)として構成される場合には、各部分領域230の大きさを求める処理が、当該行領域の大きさを求める処理にも相当する。さらに、検出部66は、行領域(部分領域230)内の文字数をも検出する。
決定部69は、各部分領域(処理対象領域)230内の文字の文字サイズ(配列方向文字サイズ(次述)および/または直交方向文字サイズ(次述))を決定する処理部である。たとえば、決定部69は、後述するように、行領域の大きさに基づいて「配列方向文字サイズ」を決定する。
「配列方向文字サイズ」は、(各部分領域(処理対象領域)230内の)文字の文字サイズであって配列方向(詳細には、各部分領域内の行領域における文字列の配列方向)の文字サイズである。横書きの文字列の場合には、文字列の配列方向は左右方向(文字の幅方向)であり、「文字幅」が配列方向文字サイズ(配列方向における文字サイズ)に相当する。縦書きの文字列の場合には、文字列の配列方向は上下方向(文字の高さ方向)であり、「高さ」(文字高さ)が配列方向文字サイズに相当する。
また、「直交方向文字サイズ」は、(各部分領域(処理対象領域)230内の)文字の文字サイズであって直交方向(詳細には、各部分領域内の行領域における文字列の配列方向に直交する方向)の文字サイズである。横書きの文字列の場合には、「文字高さ」が「直交方向文字サイズ」に相当し、縦書きの文字列の場合には、「文字幅」が「直交方向文字サイズ」に相当する。
以下では、主に横書きの文字列を前提にして説明を行う。
指示送出部67は、アプリケーションプログラム110から別のアプリケーションプログラム120(後述)に向けて所定の処理実行指示等を送出する処理部である。たとえば、指示送出部67は、スキャン画像200における複数の部分領域230のそれぞれに関して、OCR処理(光学文字認識処理)を行うべき旨の指示をクラウドサーバ90に向けて送出する。当該指示は、複数の部分領域230のそれぞれに関する画像データとともに送出される。
受取部68は、各部分領域230に関する各処理結果(OCR処理結果)を、クラウドサーバ90(アプリケーションプログラム120)から受け取る処理部である。
生成部70は、電子文書500(図4参照)を生成する処理部である。生成部70は、複数の部分領域230のそれぞれについての各OCR処理結果(テキスト情報(文字コード群))の文字列を、スキャン画像200における当該複数の部分領域230のそれぞれの検出位置に配置して、電子文書500(サーチャーブルPDF等)を生成する。特に、後述するように、各処理結果に係る文字列は、決定部69により部分領域230ごとに決定された配列方向文字サイズ(文字幅)に基づいて、電子文書500内に配置される。
<1−4.動作>
この実施形態においては、外部端末50は、OCR処理の処理対象領域(部分領域)として文字列領域(行領域)を1行ごとにスキャン画像から抽出してクラウドサーバ90に送信し、各処理対象領域に関するOCR処理結果をクラウドサーバ90から受信する。そして、外部端末50は、当該各処理対象領域に関するOCR処理結果を埋め込んだ電子文書500を生成する。この際、各行領域の幅(1行の文字列の配列方向(幅方向)の長さ)等に基づいて、上述の配列方向文字サイズ(文字幅)が決定され、当該配列方向文字サイズを反映して各OCR処理結果に係る文字列が電子文書500に配置される。
以下、このような態様について、図4および図5等を参照しつつ説明する。図4は、電子文書生成システム1における動作の概略を示す図であり、図5は、外部端末50(より詳細には電子文書生成アプリケーション110)の動作を示すフローチャートである。以下、これらの図を参照しながら、電子文書生成システム1の動作について説明する。
<スキャン画像生成等>
まず、ユーザは、スキャン対象の原稿をMFP10の原稿台(たとえば、自動給紙装置(ADF:Auto Document Feeder )あるいは原稿載置用ガラス面等)に載置する。
その後、ユーザは、外部端末50を操作することによって、電子文書500の生成指示を外部端末50およびMFP10に対して付与する。
具体的には、まず、外部端末50にインストールされているアプリケーション(電子文書生成アプリケーション)110の操作画面(不図示)において、スキャン処理を実行すべき装置が指定されるとともに、スキャン処理により最終的に生成される電子文書500の形式が指定される。ここでは、スキャン処理を実行すべき装置としてMFP10が指定され、当該電子文書500の形式として、サーチャブルPDF(透明テキスト付きPDF)が指定されるものとする。そして、ユーザは、電子文書生成アプリケーション110の操作画面内に表示された実行開始ボタン(電子文書500の生成処理の実行開始ボタン)を押下することにより、電子文書(ここではサーチャブルPDF)500の生成指示を外部端末50およびMFP10に対して付与する。なお、サーチャブルPDF(透明テキスト付きPDF)は、文字画像を有する画像レイヤと当該文字画像に対する文字認識結果が非表示状態で埋め込まれたテキストレイヤとを有するPDF形式の電子文書である。
外部端末50は、当該生成指示を受け付けるとともに、当該生成指示(詳細には、当該生成指示に基づくスキャン画像生成指示等)をMFP10に転送する。
MFP10は、当該生成指示(スキャン画像生成指示等)を外部端末50から受信するとスキャン動作を開始し、MFP10の原稿台(ADF等)に載置された原稿のスキャン画像200を生成する(図4の左上参照)。
さらに、MFP10は、スキャン画像200内における各種の領域を判別する領域判別処理を行う。具体的には、MFP10の領域判別部15は、スキャン画像200内における文字領域210と非文字領域(図形領域等)220とを判別し、スキャン画像200における文字領域210の範囲(詳細にはその位置および大きさ)と非文字領域220の範囲とを特定する。また、領域判別部15は、当該文字領域210に対して、当該領域が「文字領域」であることを示す特定コード(たとえば「1」)を付与する。同様に、領域判別部15は、非文字領域220に対して、当該領域が「非文字領域」であることを示す領域種別コード(たとえば「2」、「3」等)を付与する。より詳細には、たとえば、非文字領域である「図形領域」に対して「2」が付与され、非文字領域である「写真領域」に対して「3」が付与される。
そして、領域判別部15は、これらの情報に基づいて属性指定データ300を生成する。属性指定データ300は、スキャン画像200内の各画素位置に対して上記の領域種別コードが割り付けられたデータ(スキャン画像200の各画素ごとに領域種別コードが付与されたデータ)として生成される。換言すれば、属性指定データ300は、スキャン画像200における文字領域210および非文字領域220のそれぞれに関する、範囲情報(詳細にはその位置および大きさに関する情報)ならびに領域種別コード等、の情報を含むものとして生成される。
そして、MFP10(通信部4および通信制御部11等)は、スキャン画像(詳細にはその画像データ)200と属性指定データ300とを外部端末50に送信する。
<OCR処理および電子文書生成処理等>
その後、外部端末50は、電子文書生成アプリケーション110を実行することによって、図5に示すような処理を実行する。
まず、ステップS11において、外部端末50(詳細には、取得部64等)は、MFP10で生成されたスキャン画像200および属性指定データ300をMFP10から受信して取得する。また、外部端末50(詳細には、生成部70等)は、スキャン画像200を取り込んだPDF文書を電子文書500として仮生成する。当該PDF文書においては、OCR結果に係るテキストデータは未だ埋め込まれていない。
つぎに、ステップS12において、外部端末50(抽出部65等)は、ステップS11で取得したスキャン画像200および属性指定データ300に基づいて、当該スキャン画像200の文字領域210から所定単位の部分領域230を抽出する。この実施形態では、抽出部65は、文字領域210における単一行の文字列に係る領域を、所定単位の部分領域230として抽出する。すなわち、抽出部65は、文字領域210から、1行単位の部分領域230を抽出する。換言すれば、文字領域210における単一行の文字列に係る領域を単位として区分される複数の部分領域230(ここでは、そのうち最初の部分領域230)が抽出される。
具体的には、スキャン画像200と属性指定データ300とに基づき、スキャン画像200における文字領域210が特定される。そして、文字領域210に対する画像処理が行われ、文字領域210内の1行の領域(横方向に配列された1行の文字列の領域)が認識される。図6においては、3つの行で構成される文字領域210(211)が例示されており、この文字領域210に関しては、まず、第1行の「ABCDE Wireless Digital Radiography」の文字列に係る領域(行領域)231が部分領域230として抽出される(図7参照)。
また、ステップS13において、外部端末50(検出部66等)は、ステップS12で抽出された部分領域230の(スキャン画像200内における)位置(詳細には、その基準位置(X,Y)(先頭位置等))および大きさ(X方向サイズ(幅W)およびY方向サイズ(高さH))を検出する。また、ステップS13においては、検出部66は、各部分領域(行領域)230内の文字数(詳細には、各行領域に含まれる文字の数)をも検出する。検出された各種の情報(部分領域230の位置および大きさ、ならびに部分領域230内の文字数に関する情報)(図8参照)は、格納部55に格納される。
図8の上段においては、これらの各種情報(各部分領域230の識別番号、位置(および大きさ)に関する情報、および文字数)が記録されている様子が示されている。なお、ここでは、位置に関する情報として、部分領域230に関する4つの情報、具体的には、部分領域230(矩形領域)の上辺のY方向位置(TOP)、下辺のY方向位置(BOTTOM)、左辺のX方向位置(LEFT)、右辺のX方向位置(RIGHT)が記録されている。これら4つの情報は、たとえば、当該矩形領域の代表位置(たとえば左上の点の位置(TOP,LEFT))と当該矩形領域の大きさ(高さHおよび幅W)(図8の下段参照)に変換可能であり、部分領域230の位置および大きさに関する情報であるとも表現される。
上述の各部分領域230の抽出処理および各種検出処理等(ステップS12,S13)は、次のようにして行われる。以下、図9等を参照しながら、より詳細に説明する。なお、図9は、このような処理等を説明するための図である。
具体的には、まず、X方向(主走査方向)(水平方向ないし左右方向とも称する)に伸びる1ライン(水平ライン)(水平方向画素列)あたりの黒画素の数を水平ライン毎に検出する動作を、Y方向(副走査方向)(垂直方向)に移動しつつ繰り返して行い、各水平ラインの黒画素数を取得する。
図9内の左側に配置されたグラフにおいては、Y方向の各位置における黒画素数を模式的に示す曲線L0が示されている。なお、当該グラフにおいては、簡略化のため、所定数以上の黒画素数が一律に同じ画素数で示されている。そのため、当該グラフは、方形波形状を有している。
文字が存在する位置の水平ラインにおいては、比較的多数の黒画素が存在する。一方、行と行との間の水平ライン(文字が存在しない行間領域の水平ライン)においては、黒画素がほとんど存在しない。
このような特質を利用して、抽出部65は、所定数以上の黒画素数を有する水平ラインが存在する範囲V(Y方向の範囲)を、1行の文字列の範囲(文字列の高さ方向における範囲)として認識する。たとえば、文字列「ABC...」の上端から下端までの範囲が1行の文字列の範囲Vとして認識される。同様に、文字列「Sys...」の上端から下端までの範囲等も1行の文字列の範囲Vとして認識される。
そして、垂直方向(Y方向)においては、当該範囲Vに亘る矩形領域がスキャン画像200における1行の文字列の存在領域(行領域)として認識される。また、水平方向(X方向)においては、1行の文字列のうち先頭の文字(ここでは左端の文字)から最後尾の文字(右端の文字)までを含む範囲が当該1行の文字列の存在領域として認識される。水平方向における文字列の存在範囲の認識処理は、後述する文字数の認識処理の処理結果を用いて行われればよい。
なお、これに限定されず、水平方向(X方向)においては、たとえば、文字領域210の(当該水平方向の)全範囲(スキャン画像の全幅と同じ範囲)が当該1行の文字列の存在領域として認識されるようにしてもよい。
このようにして認識された行領域(スキャン画像200における1行の文字列の存在領域)が部分領域230として抽出される(ステップS12)。たとえば、最初の1行の文字列「ABCDE Wireless Digital Radiography」(図7参照)の行領域(矩形領域)231が部分領域230として抽出される。
また、当該部分領域(矩形領域)230の左上(あるいは左下等)の点の位置が、当該矩形領域(1行の文字列の存在領域)の位置(代表位置)として認識される(ステップS13)。たとえば、1行の文字列「ABCDE Wireless Digital Radiography」を含む矩形領域231の左上の点の位置が、当該1行の文字列の存在領域の位置(先頭位置)として認識される。
さらに、当該矩形領域230の大きさ(X方向サイズ(幅W)およびY方向サイズ(高さH))が認識され、検出される。たとえば、矩形領域231の大きさ(幅W1および高さH1)が、左上の点P1の座標値(LEFT,TOP)と左下の点P2の座標値(RIGHT,BOTTOM)とに基づいて認識される。より具体的には、幅W1は、両点P1,P2のX座標値の差分値として算出され(W1=RIGHT−LEFT)、高さH1は、両点P1,P2のY座標値の差分値として算出される(H1=BOTTOM−TOP)。
また、抽出部65は、所定数以上の黒画素数を有しない水平ラインが存在する範囲(Y方向の範囲)を、行間領域の範囲(高さ方向における範囲)として認識する。たとえば、文字列「ABC...」の下端と文字列「Sys...」の上端との間の空白領域が、第1行と第2行との間の行間領域の範囲として認識される。このような処理により、抽出部65は、或る行とその次の行との間隔(行間領域のY方向の大きさ)を行間間隔y(隣接行間間隔)として算出する。なお、ここでは、所定数以上の黒画素数を有しない水平ラインは、直ちに行間領域である、と判定されているが、これに限定されない。たとえば、「所定数以上の黒画素数を有しない水平ライン」が所定の閾値TH1(たとえば、数本(1mm〜2mm程度相当分))(図7参照)以上連続して存在する場合に、当該水平ライン(群)の存在領域が行間領域であると認識されるようにしてもよい。これによれば、文字列の高さ方向に隣接する複数の行領域を良好に区別して抽出することが可能である。
また、ステップS13においては、検出部66は、各部分領域230(行領域)内の文字数をも検出する。
具体的には、1行の文字列のY方向における存在範囲Vに対応する領域(X方向に伸びる帯状領域(矩形領域))においてY方向に伸びる1ライン(垂直ライン(縦ライン))あたりの黒画素の数を検出する動作を、X方向に移動しつつ繰り返して行い、各垂直ラインごとの黒画素数を取得する。これにより、当該帯状領域内における、各文字の存在領域(各文字の幅方向における存在範囲w)を求めることが可能である。
図9内の第1行の文字列の上側に配置されたグラフにおいては、第1行の文字列のX方向の各位置における黒画素数を模式的に示す曲線L1が示されている。なお、当該グラフにおいては、簡略化のため、所定数以上の黒画素数が一律に同じ画素数で示されている。
文字が存在する位置の垂直ラインにおいては、比較的多数の黒画素が存在する。一方、文字と文字との間の垂直ライン(文字が存在しない字間領域の垂直ライン)においては、黒画素がほとんど存在しない。
このような特質を利用して、抽出部65は、所定数以上の黒画素数を有する垂直ラインが存在する範囲(X方向の範囲)を、1文字の幅の範囲(幅方向における範囲)wとして認識する。たとえば、文字「A」の左端から右端までの範囲が1文字の範囲wとして認識される。それに続く各文字「B」、「C」、「D」、「E」...についても同様である。そして、1行の文字列の存在範囲(行領域)において文字の存在領域として認識された領域の数が、当該行領域内の文字数(当該行領域に含まれる文字の数)として検出される。
なお、このような動作により当該帯状領域(行領域)内の先頭の文字の位置と最後尾の文字の位置とを認識することによれば、行領域に含まれる1行の文字列のうち先頭の文字(ここでは左端の文字)から最後尾の文字(右端の文字)までを含む範囲が当該1行の文字列の存在領域として認識される。
また、当該文字とその右隣の文字との間隔(空隙)、詳細には当該文字の右端と当該文字の右隣の文字の左端との間隔(空隙)が、字間間隔(隣接文字間間隔)xとして算出される。
以上のようにして、ステップS13においては、部分領域230の位置および大きさが画像処理により検出されるとともに、部分領域230内の文字数も画像処理により検出される。
次のステップS14(図5)においては、外部端末50(指示送出部67等)は、部分領域230に関する処理指示(OCR処理を行うべき旨の指示)と当該部分領域230に関する画像データとをクラウドサーバ90にに向けて送出(送信)する。換言すれば、電子文書生成アプリケーション110からアプリケーション120へとOCR処理依頼が送出される。ここでは、部分領域230に関する画像データとして、スキャン画像200から当該部分領域230に対応する部分を抽出した画像(部分画像)の画像データ(部分領域230の画像データとも称する)が送信される。
なお、アプリケーション120(ここでは、OCR処理を行うOCR処理アプリケーション)は、電子文書生成アプリケーション110とは別のアプリケーションである。ここでは、アプリケーション120は、クラウドサーバ90にインストールされ且つクラウドサーバ90にて実行されるアプリケーションである。
クラウドサーバ90にて実行中のアプリケーション120が、上述の処理指示と部分領域230に関する画像データとを受け取る(受信する)と、クラウドサーバ90(アプリケーション120)は、当該処理指示および画像データに基づいて、OCR処理を実行する。
アプリケーション120は、電子文書生成アプリケーション110から受け取った当該部分領域230に関する画像データに対してOCR処理を施し、当該画像データに含まれる文字列(たとえば「ABCDE Wireless Digital Radiography」)を認識して、当該文字列に係るテキストデータ(文字コード群)250を生成する(図10参照)。そして、アプリケーション120は、当該文字列に係るテキストデータ(テキスト情報)250をOCR処理の処理結果として電子文書生成アプリケーション110に向けて出力する。換言すれば、クラウドサーバ90(アプリケーション120)から外部端末50(電子文書生成アプリケーション110)に向けて当該処理結果が送出(送信)される。
ステップS15において、外部端末50(受取部68等)は、アプリケーション120からの当該処理結果(部分領域230に関するOCR処理結果)を受け取る。なお、当該処理結果には、テキストデータ250が含まれるものの、位置情報およびフォント情報は含まれない。
また、ステップS16において、外部端末50(決定部69等)は、部分領域230内の文字の配列方向サイズ(配列方向文字サイズ(ここでは文字幅))を部分領域230の大きさに基づいて決定する。具体的には、左右方向(横方向)における部分領域230(ここでは単一行の文字列の領域)の長さWを当該部分領域230内の文字数Nで除した値Q(=W/N)に基づいて、部分領域230に関する文字幅を決定する。
たとえば、値Qに対応するフォントサイズ(フォントポイント(pt)サイズ)が、部分領域230の文字の文字幅を表す値として決定される。より詳細には、値Qと各フォントポイントサイズ(ポイント数)との対応関係が予め規定されたデータテーブル(各フォントポイントサイズに対応する値Qの範囲がそれぞれ規定されたデータテーブル)に基づいて、値Qに対応するフォントサイズが決定される。
なお、これに限定されず、値Q自体(たとえば、mm(ミリメートル)単位の値)が、部分領域230の文字の文字幅を表す値として決定されるようにしてもよい。
また、値Qは、文字列に含まれる空白領域(空白文字等)を考慮して調整されて算出されるようにしてもよい。より詳細には、元の値Qに所定の調整係数(たとえば0.9)を乗じた値が調整後の新たな値Qとして用いられるようにしてもよい。
そして、ステップS17にて、外部端末50(生成部70等)は、部分領域230に関する処理結果であるテキストデータ250(ステップS15で受信したデータ)を、電子文書500内において、部分領域230の検出位置(ステップS13での検出位置)に配置する(図4も参照)。当該テキストデータ250は、電子文書500(PDF文書)内に取り込まれたスキャン画像200において、部分領域230の(スキャン画像200における)検出位置(ステップS13での検出位置)に配置される。具体的には、生成部70は、部分領域230に関する処理結果(OCR処理結果)に係るテキストデータを、部分領域230の検出位置に「非表示状態」で埋め込む。換言すれば、部分領域230に関するOCR結果のテキストデータが、サーチャブルPDFのテキストレイヤ(非表示)において、部分領域230の検出位置に配置される。これにより、電子文書(サーチャブルPDF)500の内容が更新される。
このとき、部分領域230の各文字は、ステップS16で決定された文字幅(配列方向文字サイズ)を有する状態で埋め込まれる。
これにより、図11に示すように、OCR処理結果に係る各文字は、スキャン画像200内に画像として表示される各文字の位置に対して、比較的近い位置に配置される。図11は、本実施形態に係る文字配置結果を示す図である。図11においては、両種類の文字列(OCR処理前後の文字列)が重ねて表示されている。OCR処理結果に係る各文字(OCR処理後の文字列)は淡色で示されており、スキャン画像200内に画像として表示される各文字(OCR処理前の文字列)は通常色で示されている。
なお、図12は、比較例に係る文字配置結果を示す図である。図12においても、図11と同様に、両種類の文字列(OCR処理前後の文字列)が重ねて表示されている。図12は、処理結果に係る各文字のサイズとスキャン画像200内に画像として表示される各文字のサイズとが大きく異なる場合に、処理結果に係る各文字がスキャン画像200内に画像として表示される各文字の位置とは大きく異なる位置に配置される状況を示している。図12においては、特に文字列の後端側(右端側)の文字が、左右方向において本来の位置から大きくずれて配置されている。
これに対して、上記実施形態によれば、図12のような状況の発生を回避ないし抑制し、図11に示すように、処理結果に係る各文字を、スキャン画像200内に画像として表示される各文字の位置に対して、左右方向において比較的近い位置に配置することが可能である。
また、ここでは、OCR処理結果に係る各文字は、それぞれ、標準的な縦横比を有するものとみなされる。そして、直交方向文字サイズは配列方向文字サイズと同じフォントポイントサイズ(たとえば26pt(ポイント))を有するものとして決定される。より詳細には、共通の1つの文字サイズ(たとえばフォントポイントサイズ(26pt(ポイント))によって、配列方向文字サイズと直交方向文字サイズとが共通に指定され、当該共通の指定文字サイズ(フォントポイントサイズ)に基づいて、OCR処理結果に係る各文字が電子文書500に配置される。この結果、OCR処理結果に係る各文字は、当該フォントポイントサイズの配列方向文字サイズと当該フォントポイントサイズの直交方向文字サイズとを有する状態で電子文書500内に配置される。
ただし、本発明は、これに限定されず、上記値Qに所定の係数(縦横比に関する変換係数)を乗じることによって、標準的な縦横比を有する文字の直交方向文字サイズ(文字高さ)が配列方向文字サイズ(文字幅)に基づいて決定されるようにしてもよい。
ステップS18においては、スキャン画像200の文字領域210の全面(ここでは文字領域210の全ての行(全ての行領域))について処理が終了したか否かが判定される。詳細には、文字領域210における次の「行」(ここでは第2行)の存否が検出(判定)される。次の行(未処理の行)が存在する旨が検出される場合には、文字領域210の全面についての処理は未だ終了していない旨が判定される。一方、次の行(未処理の行)が存在しない旨が検出される場合には、当該処理が終了した旨が判定される。
スキャン画像200の全面について処理が未だ終了していないと判定される場合には、ステップS19を経てステップS12に戻り、次の部分領域230(ここでは、次の行の画像領域)に関してステップS12〜S17の動作が同様に実行される。
一方、スキャン画像200の全面について処理が終了したと判定される場合には、図5のフローチャートの処理を終了する。スキャン画像200の文字領域210内の複数の部分領域230のそれぞれに関してステップS12〜S17の処理が実行されることによって、電子文書500(より詳細には、サーチャブルPDF)が生成される。なお、当該電子文書500は、外部端末50の格納部55に格納される。なお、上記のような処理の結果、図4に示すように、スキャン画像200の文字領域210は、電子文書500内の対応領域510に配置される。また、スキャン画像200の非文字領域220は、OCR処理を経ることなく、電子文書500内の対応領域520にそのまま配置される。
以上のように、この第1実施形態においては、外部端末50は、当該外部端末50上で実行される電子文書生成アプリケーション110において、画像形成装置10で生成されたスキャン画像200等を取得する。電子文書生成アプリケーション110は、スキャン画像200から複数の部分領域230を抽出するとともに、当該複数の部分領域230のそれぞれの(スキャン画像200内における)位置情報を取得して格納しておく。そして、電子文書生成アプリケーション110は、複数の部分領域230ごとにOCR処理を行うべき旨の指示をアプリケーション120(ここでは汎用OCR処理アプリケーション)に送出する。アプリケーション120はOCR処理結果を電子文書生成アプリケーション110に返信する。電子文書生成アプリケーション110は、返信されてきたOCR処理結果(複数の部分領域230のそれぞれのOCR結果)をスキャン画像200において複数の部分領域のそれぞれの位置に配置した電子文書(サーチャブルPDF)を生成する。
これによれば、或る電子文書生成アプリケーション110から別のアプリケーション120に対してOCR処理を依頼する場合においても、スキャン画像200内の適切な位置にOCR結果(テキストデータ)を配置した電子文書を生成することが可能である。
また、外部端末50は、スキャン画像200から、1行の文字列の領域(行領域)を処理対象領域として抽出し、当該行領域の大きさに基づいて、処理対象領域内の文字の配列方向文字サイズ(横書き時は「文字幅」)を決定する。そして、当該配列方向文字サイズに基づいて、OCR処理結果に係る文字列が電子文書内に配置される(図11参照)。より詳細には、OCR処理結果に係る文字列が当該配列方向文字サイズで電子文書内に配置される。したがって、上述の図12のような状況の発生を回避ないし抑制し、OCR処理結果に係る各文字を、スキャン画像200内に画像として表示される各文字の位置に対して、文字列の配列方向において比較的近い位置に配置することが可能である。すなわち、OCR処理結果に係る文字列をその配列方向において比較的正確な位置に配置することが可能である。
また、上記実施形態においては、MFP10の外部の装置(クラウドサーバ90)によって提供されるOCR処理サービスが利用されている。これによれば、OCR処理の依頼元装置(たとえば外部端末50)とは別の装置(クラウドサーバ)でOCR処理を行うことができるので、当該依頼元装置の処理負荷を低減することが可能である。
さらに、上記実施形態においては、スキャン画像200の生成装置であるMFP10とは別の装置(外部端末50)によって、電子文書500の生成処理(各部分領域230の抽出処理および位置検出処理等)が行われているので、MFP10の処理負荷を低減することが可能である。換言すれば、MFP10と外部端末50との間で処理負荷を適宜に分散することが可能である。
なお、上記実施形態では、属性指定データ300がMFP10において生成されて外部端末50に送信されているが、これに限定されず、属性指定データ300が外部端末50において生成されるようにしてもよい。
<2.第2実施形態>
第2実施形態は、第1実施形態の変形例である。以下では、第1実施形態との相違点を中心に説明する。
上記第1実施形態においては、1行の文字列の配列方向の長さに基づいて、配列方向文字サイズ(文字列の配列方向における1文字あたりの大きさ(文字幅))が決定されている。
一方、この第2実施形態においては、1行の文字列の配列方向に直交する方向(直交方向)における当該1行の文字列の存在領域(「行領域」)の大きさ(ここでは「高さ」)に基づいて直交方向文字サイズ(「文字高さ」)が決定されるとともに、当該直交方向文字サイズに基づいて配列方向文字サイズ(文字列の配列方向における1文字あたりの大きさ(文字幅))が決定(推定)される。端的に言えば、文字列の高さに基づいて、文字列中の各文字の文字幅が間接的に決定される。
この第2実施形態においては、まず、図5のステップS13では行領域内の文字数を検出する処理は行われない点で、第1実施形態とは異なる。
さらに、この第2実施形態においては、図5のステップS16において、第1実施形態と相違する処理が行われる。
具体的には、まず、部分領域230の高さ(ステップS13で検出された値)に基づいて、処理対象領域(部分領域230)に含まれる1行の文字列に関する「直交方向文字サイズ」(当該1行の文字列の配列方向に直交する直交方向(ここでは高さ方向)の文字サイズ)が決定される。すなわち、当該1行の文字列に関する「文字高さ」が決定される。そして、当該直交方向文字サイズ(文字高さ)に基づいて、処理対象領域内の文字の配列方向文字サイズ(ここでは「文字幅」)が決定(より詳細には推定して決定)される。
たとえば、部分領域231(図7)の高さH1が値h1(mm(ミリメートル))であると判定されるときには、部分領域231に含まれる1行の文字列に関する「文字高さ」が当該値h1自体(あるいは値h1に所定の係数(たとえば0.9)を乗じた値等)であると判定される。つぎに、この「文字高さ」に対応するフォントポイントサイズ(たとえば26ポイント)が求められる。そして、部分領域230内の文字の「文字幅」は当該フォントポイントサイズに相当する大きさであると推定され決定される。謂わば、「文字高さ」に対応する標準的な「文字幅」が推定され決定される。
なお、部分領域230内の文字の「文字幅」は、フォントポイントサイズ(たとえば26ポイント)で指定されてもよく、あるいは、当該フォントポイントサイズに対応するmm(ミリメートル)単位の文字幅で指定されてもよい。
そして、ステップS17において、ステップS16にて決定された配列方向文字サイズに基づいて、OCR処理結果に係る文字列(テキスト情報)が埋め込まれる。具体的には、処理対象領域内の文字列を構成する各文字は、その配列方向において上述の配列方向文字サイズ(文字幅)として決定された大きさを有する状態で配置される。このようにして、配列方向文字サイズに基づいて、OCR処理結果に係る文字列が電子文書500内に配置されて、当該電子文書500が生成される。
なお、OCR処理結果に係る各文字の「直交方向文字サイズ」は、上記の値h1であるとして指定されればよい。そして、指定された直交方向文字サイズにも基づいて、OCR処理結果の各文字が電子文書500内に配置されればよい。あるいは、OCR処理結果に係る各文字の直交方向文字サイズは、その配列方向文字サイズと同じフォントポイントサイズを有するものとして指定されるようにしてもよい。換言すれば、共通の指定文字サイズ(フォントポイントサイズ)に基づいて、OCR処理結果に係る各文字が電子文書500に配置されるようにしてもよい。
<3.第3実施形態>
上記各実施形態においては、各部分領域(処理対象領域)230に関する配列方向文字サイズ(「文字幅」等)が決定されるとともに、当該各部分領域230に関する直交方向文字サイズ(「文字高さ」等)は、当該配列方向文字サイズに連動して決定されている。より詳細には、OCR処理結果の各文字が標準的な縦横比を有するものとして、配列方向文字サイズと直交方向文字サイズとが決定されている。
しかしながら、本発明は、これに限定されない。たとえば、当該各部分領域230に関する直交方向文字サイズ(「文字高さ」等)は、当該配列方向文字サイズ(「文字幅」等)とは独立して決定されるようにしてもよい。
なお、上記第2実施形態においては、ステップS13の処理のうち、行領域に関する文字数の検出処理は行われないが、この第3実施形態においては、ステップS13において、行領域に関する文字数の検出処理も行われる。
具体的には、ステップS13において、各部分領域230内の或る1行の行領域の文字数も検出される。たとえば、部分領域236の最初の1行に関する行領域231の文字数が検出される。ただし、これに限定されず、任意の1行に関する行領域の文字数が検出されればよい。たとえば、複数の行のうち最も横幅が大きい行に関する行領域の文字数が検出されるようにしてもよい。
そして、ステップS14,S15の処理の後、ステップS16において次のような処理が行われる。
具体的には、まず、処理対象領域に関する配列方向文字サイズ(たとえば「文字幅」)は、第1実施形態と同様にして決定される。具体的には、行領域の配列方向における長さを行領域内の文字数で除した値に基づいて、処理対象領域に関する配列方向文字サイズ(たとえば「文字幅」)が決定される(ステップS16等)。
また、処理対象領域に関する直交方向文字サイズ(たとえば「文字高さ」)は、第2実施形態と同様にして決定される。具体的には、処理対象領域に含まれる1行の文字列に関する文字サイズであって文字列の配列方向に直交する直交方向の文字サイズである直交方向文字サイズに基づいて、処理対象領域に関する直交方向文字サイズが決定される(ステップS16)。
そして、ステップS17において、ステップS16にて決定された2種類のサイズ(配列方向文字サイズおよび直交方向文字サイズ)に基づいて、OCR処理結果に係る文字列(テキスト情報)が、2つの方向において独立した文字サイズで埋め込まれる。具体的には、処理対象領域内の文字列を構成する各文字は、上述の配列方向文字サイズ(文字幅)として決定された大きさ(たとえば、26ポイント幅)を当該文字列の配列方向において有し、且つ、上述の直交方向文字サイズ(文字高さ)として決定された大きさ(たとえば、28ポイント幅)を当該文字列の直交方向において有するものとして配置される。このようにして、2方向において独立したサイズ(配列方向文字サイズおよび直交方向文字サイズ)に基づいて、OCR処理結果に係る文字列が電子文書500内に配置されて、当該電子文書500が生成される。
なお、配列方向文字サイズおよび直交方向文字サイズは、それぞれ、各サイズを示す実際の値自体で(たとえば「mm(ミリメートル)」単位で)表現されてもよく、「フォントポイント数」で表現されてもよい。あるいは、一方のサイズは、他方のサイズに対する比率等で相対的に表現されるようにしてもよい。たとえば、配列方向文字サイズは、直交方向文字サイズ(フォントポイントサイズ等)の「150%」であると表現されるようにしてもよい。あるいは、逆に、直交方向文字サイズは、配列方向文字サイズ(フォントポイントサイズ等)の「66%」であると表現されるようにしてもよい。他の実施形態においても同様である。
<4.第4実施形態>
上記各実施形態においては、文字領域210において1行単位で複数の部分領域230が抽出され送信される態様(換言すれば、各部分領域230が単一行の文字列の領域(単一の行領域)で構成される態様)が例示されているが、これに限定されない。たとえば、複数行に跨がる領域単位で複数の部分領域230が抽出され送信されるようにしてもよい。すなわち、文字領域210における複数行の文字列に係る領域を単位として複数の部分領域230が抽出され送信されるようにしてもよい。より詳細には、文字領域の段落ごとに区分された複数の部分領域が(段落単位で)抽出され送信されるようにしてもよい。これによれば、第1実施形態に比べて、処理対象領域は大きくなり、スキャン画像から抽出される処理対象領域の数が減少する。したがって、1つのOCR処理依頼あたりの画像データ量(データ転送量)が増大するとともにOCR処理の依頼回数が低減され、通信のオーバーヘッドが低減されること等により、効率的な通信を行うことが可能である。すなわち、処理の効率化を図ることができる。
この第4実施形態では、そのような改変を第2実施形態に対して行う態様について説明する。以下では、第2実施形態との相違点を中心に説明する。
具体的には、ステップS11の後のステップS12(図5参照)において、処理対象領域(部分領域230)がスキャン画像200の文字領域210から段落単位で抽出される。すなわち、1行または複数行の文字列を含む領域(換言すれば、1又は複数の行領域を含む領域)が、部分領域230として抽出される。
より詳細には、第1実施形態と同様にして、1行の文字列の領域である行領域を抽出した後に行間間隔yを算出する。或る行と次の行との行間間隔yが所定の閾値TH2よりも小さいか否かに応じて、当該或る行と当該次の行とが同一の段落に属するか否かが判定される。ここで、閾値TH2は、上述の閾値TH1よりも大きな値であり(TH2>TH1)、たとえば、数ミリメートル〜十数ミリメートルである。
上述の各実施形態では、図6のスキャン画像から、図7のような3つの部分領域230(231,232,233)がそれぞれ処理対象領域(処理単位領域)として抽出される。
一方、この第4実施形態では、図6のスキャン画像から、図13のような2つの部分領域230(236,237)がそれぞれ処理対象領域(処理単位領域)として抽出される。図7における2つの行領域231,232の相互間の行間間隔yは上述の閾値TH2より小さいと判定され、行領域231,232は同一の段落に属する旨が判定される。一方、行領域232と当該行領域232の次の行領域233との行間間隔y(H21)は上述の閾値TH2よりも大きいと判定され(H21>TH2)、行領域233は行領域232とは別の段落に属する旨が判定される。
その結果、図13に示すように、2つの行領域231,232を纏めた部分領域236が1つの処理対象領域として抽出される。また、別段落と判定された部分領域237が、部分領域236とは分離され、別の処理対象領域として抽出される。
また、この第4実施形態においては、ステップS12において、各部分領域230内に存在する1または複数の「行領域(1行の文字列の領域)」もそれぞれ抽出される。具体的には、上述のように、閾値TH1による行領域の識別処理が行われる。これにより、たとえば、部分領域236に含まれる2つの行領域231,232も抽出される。
ステップS13以後においては、第2実施形態と同様の処理が各部分領域(1または複数の行領域を含む領域)について実行される。
たとえば、ステップS13においては、部分領域230(236,237)の位置および大きさが検出される。
また、部分領域が複数行の文字列を含む場合には、当該複数行のそれぞれに関する行領域(文字列領域)の位置および大きさも検出される。たとえば、複数行に係る部分領域236に含まれる各行領域231,232の位置および大きさも検出される(図14参照)。
さらに、ステップS13においては、各部分領域230内の行領域の個数(換言すれば、各処理対象領域230に含まれる文字列の行数)も検出される。たとえば、部分領域236の行領域の個数は「2」であり、部分領域237の行領域の個数は「1」である。
その後、ステップS14〜S15の各処理が実行され、その次のステップS16においては配列方向文字サイズが決定される。
具体的には、処理対象領域(たとえば、部分領域236)のY方向(上下方向)における長さ(高さ)と当該処理対象領域に含まれる文字列の行数とに基づいて、当該処理対象領域に含まれる「行領域」の直交方向(Y方向)における長さ(高さ)が検出される。たとえば、部分領域236のY方向における長さ(高さ)H10(図14参照)を、当該部分領域236に含まれる文字列の行数M(「2」)で除した値(=H10/M)が、行領域のY方向長さ(直交方向における長さ)として算出される。この実施形態では、部分領域236内の複数の行領域に関する「文字高さ」の平均値が、「行領域」の直交方向(Y方向)における長さ(高さ)として検出されるとともに、当該部分領域236(処理対象領域)の文字の文字高さとして決定される。
そして、行領域の直交方向における当該長さに基づいて、当該行領域を含む部分領域236(処理対象領域)に関する直交方向文字サイズ(文字高さ)が決定される。たとえば、行領域の直交方向における当該長さが、そのまま、部分領域236(処理対象領域)に関する直交方向文字サイズ(文字高さ)として決定される。
つぎに、この「文字高さ」(H10/M)に対応するフォントポイントサイズ(たとえば26ポイント)が求められる。そして、部分領域230内の文字の「文字幅」は当該フォントポイントサイズに相当する大きさであると推定され決定される。謂わば、「文字高さ」に対応する標準的な「文字幅」が推定され決定される。
以後、第2実施形態と同様にして、処理対象領域に関する直交方向文字サイズ(文字高さ)に基づいて当該処理対象領域内に関する配列方向文字サイズ(文字幅)が決定されればよい。
また、ステップS17以降の処理も同様に行われる。
たとえば、ステップS17においては、ステップS16にて決定された配列方向文字サイズに基づいて、OCR処理結果に係る文字列(テキスト情報)が埋め込まれる。具体的には、処理対象領域内の文字列を構成する各文字は、その配列方向において上述の配列方向文字サイズ(文字幅)として決定された大きさを有する状態で配置される。なお、部分領域に複数行の文字列が含まれる場合には、たとえば、当該部分領域内の全ての行の文字列の各文字が、互いに同じ大きさを有するものとみなされて配置されればよい。
このようにして、配列方向文字サイズに基づいて、OCR処理結果に係る文字列が電子文書500内に配置されて、当該電子文書500が生成される。
なお、上記第4実施形態では、上述のような改変を第2実施形態に対して行う態様について説明した。しかしながら、本発明はこれに限定されない。たとえば、同様の改変を第1実施形態に対して行うようにしてもよい。あるいは、同様の改変を第3実施形態に対して行うようにしてもよい。
これらの場合において、部分領域230内に複数の行領域が含まれるときには、「配列方向文字サイズ」の決定に際して、複数の行領域の全て(全ての行の文字列)について文字数を算出することを必ずしも要さず、当該複数の行領域のうちの任意の1行の行領域について文字数を算出するようにしてもよい。
たとえば、複数の行のうち最初の1行に関する行領域の「文字数」が算出され、当該行領域の幅を当該行領域の文字数で除した値に基づいて「配列方向文字サイズ」が決定されればよい。
そして、当該配列方向文字サイズが、(当該行領域のみならず)当該行領域を含む部分領域230内の全ての文字に関する「配列方向文字サイズ」とみなされて、部分領域230内の文字列が電子文書500内に配置されるようにすればよい。これによれば、文字数の算出動作は、複数の行の文字列のうち一部の行の文字列についてのみ行われれば済むので、処理の高速化を図ることができる。同一段落に含まれる複数行の文字列の各文字の大きさは、それぞれ互いに同じであることが多いので、OCR処理結果に係る複数行の文字列のそれぞれを配列方向において比較的正確な位置に配置することが可能である。
また、上記第4実施形態においては、処理対象領域(たとえば部分領域236)の高さと当該処理対象領域に含まれる文字列の行数とに基づいて、当該処理対象領域に含まれる「行領域」の高さが検出され、当該行領域の「高さ」に基づいて「配列方向文字サイズ」が決定される態様が例示されているが、これに限定されない。
たとえば、複数の行のうち最初の1行に関する行領域の「高さ」が画像処理により検出され、当該行領域の「高さ」に基づいて「配列方向文字サイズ」が決定されるようにしてもよい。
<5.第5実施形態>
また、上記第1実施形態〜上記第3実施形態においては、単一行の文字列(詳細には、単一行の文字列の全範囲)を含む領域が処理対象領域(部分領域)として抽出され送信されているが、これに限定されない。たとえば、単一行の文字列内に比較的大きな空隙が存在する場合等を考慮し、当該単一行の文字列を当該空隙で区切った小領域がそれぞれ処理対象領域(部分領域)として抽出され送信されるようにしてもよい。換言すれば、1行の文字列の一部の範囲の領域である行領域(1行内の小領域)が処理対象領域(部分領域)として抽出され送信されるようにしてもよい。
この第5実施形態では、そのような改変を第1実施形態に対して行う態様について説明する。以下では、第1実施形態との相違点を中心に説明する。
ここでは、ステップS12(図5)において、図15の文字領域210(212)における最下行の文字列に関して、文字列「14×17inch」に係る領域234と文字列「17×17inch」に係る領域235とが、互いに異なる部分領域230としてそれぞれ抽出される(図16も参照)。
より詳細には、抽出部65は、注目行に関して、注目行内における注目文字と当該注目文字の直前の文字との間隔である前間隔pと、当該注目文字と当該注目文字の直後の文字との間隔である後間隔qとを算出する。なお、隣接文字間間隔p,qは、上述の字間間隔(隣接文字間間隔)xと同様にして算出されればよい。
後間隔qが前間隔pよりも所定程度を超えて大きいと判定される場合には、抽出部65は、当該注目文字と当該注目文字の直後の文字との間に有意な空白領域があると判定し、当該空白領域の両側の2つの小領域を互いに異なる部分領域として抽出する。換言すれば、当該注目文字と当該注目文字の直後の文字とは、互いに異なる部分領域に属すると判定される。これにより、注目文字と当該注目文字の直前の文字とを含む小領域と当該注目文字の直後の文字を含む小領域とは、互いに異なる部分領域として抽出される。
より具体的には、値qの値pに対する比の値(q/p)が所定の閾値TH2(たとえば500%)より大きい場合には、注目文字と当該注目文字の直後の文字との間に有意な空白領域があると判定する。逆に、当該比の値(q/p)が所定の閾値TH2より小さい場合には、注目文字と当該注目文字の直後の文字との間に有意な空白領域は存在せず、当該注目文字と当該注目文字の直後の文字との両文字は同一の部分領域に属すると判定される。このような処理が、第1行内の複数の文字に関して、一方側(たとえば左側)から他方側(たとえば右側)に向かう順序で順次に実行される。その結果、有意な空白領域が存在する場合には、当該空白領域によって区分される両側の小領域が抽出される。
これにより、たとえば、図16に示すように、文字列「14×17inch」に係る領域234と文字列「17×17inch」に係る領域235とが、互いに異なる部分領域としてそれぞれ抽出される。
このようにして、1行内の各小領域が、有意な空白部分によって互いに分離され、部分領域230として抽出されるようにしてもよい。換言すれば、1行の文字列の配列方向における全範囲のうちの一部の範囲の領域(小領域)が処理対象領域として抽出されるようにしてもよい。
ステップS13以後においては、第1実施形態と同様の処理が各部分領域(小領域)について実行される。たとえば、ステップS13においては、各部分領域(小領域)の位置および大きさの検出処理等が行われ、ステップS14,S15においては、OCR処理等が当該各部分領域(小領域)ごとに実行される。また、ステップS16においては、上記各小領域(1行の文字列の配列方向における全範囲のうちの一部の範囲の領域)の直交方向における長さに基づいて直交方向文字サイズが算出され、当該直交方向文字サイズに基づいて処理対象領域内の文字に関する配列方向文字サイズが決定される。ステップS17においては、部分領域(小領域)ごとに決定された当該配列方向文字サイズに基づいて、各小領域内の文字列が電子文書500内に配置される。
以上のような態様で電子文書500が生成されるようにしてもよい。
図17は、第5実施形態に係る文字配置結果を示す図である。図17においても、図11等と同様に、両種類の文字列(OCR処理前後の文字列)が重ねて表示されている。
この第5実施形態によれば、図17に示すように、OCR処理結果に係る各文字は、スキャン画像200内に画像として表示される各文字の位置に対して、左右方向において比較的近い位置に配置される。たとえば、各部分領域231,232,234(図16)のOCR処理結果の文字列は、それぞれ、上述の比較例による文字配置結果を示す図12と比較すると判るように、その配列方向において比較的正確な位置に配置されている。
なお、図18は、別の比較例に係る文字配置結果を示す図である。図18においても、図17と同様に、両種類の文字列(OCR処理前後の文字列)が重ねて表示されている。図18においては、領域234と領域235との双方を含む領域が1つの処理対象領域(部分領域)として決定され、第1実施形態と同様の処理が行われた状況が想定されている。図18においては、行内に存在する比較的大きな幅の空白領域の影響により、複数の部分領域のうち領域235の文字が本来の位置から比較的大きくずれて配置されている。
これに対して、図17においては、(部分領域231,232,234のみならず)部分領域235に係るOCR処理結果の文字列も、その配列方向においてさらに正確な位置に配置されている。このように、1行の文字列の領域である行領域(ただし、ここでは1行の文字列の「一部の範囲の領域」である行領域)を単位として処理対象領域を抽出することによれば、1行の文字列内に存在する比較的大きな空白領域の影響を抑制ないし低減することが可能である。
なお、この第5実施形態では、上述のような改変を第1実施形態に対して行う態様について説明した。しかしながら、本発明はこれに限定されず、同様の改変を第2実施形態および第3実施形態に対して行うようにしてもよい。たとえば、1行の文字列の配列方向における全範囲のうちの一部の範囲の領域が処理対象領域として抽出され、当該一部の範囲の領域の直交方向における長さに基づいて直交方向文字サイズが算出されるようにしてもよい。そして、当該直交方向文字サイズに基づいて処理対象領域内の文字に関する配列方向文字サイズが決定される等の処理が行われればよい。
<6.変形例等>
以上、この発明の実施の形態について説明したが、この発明は上記説明した内容のものに限定されるものではない。
たとえば、上記各実施形態では、「文字幅」の決定処理(ステップS16)は、ステップS15の後に実行されているが、これに限定されない。当該決定処理は、ステップS14の前に(具体的には、ステップS13にて)実行されるようにしてもよい。あるいは、当該決定処理は、ステップS14の処理の開始直後(あるいは開始前)にその実行が開始され、クラウドサーバ90によるOCR処理と並行して実行されるようにしてもよい。
上記各実施形態においては、スキャン画像200の文字領域210から複数の部分領域230が抽出され、各部分領域230を単位としてOCR処理が施される態様が例示されているが、これに限定されない。たとえば、スキャン画像200の文字領域210の全体が1つの処理対象領域として決定され、当該文字領域210の全体を1つの単位としてOCR処理が施されるようにしてもよい。そして、文字領域210全体に対するOCR処理の処理結果がクラウドサーバ90から外部端末50によって受信され、当該処理結果に基づいて電子文書が生成されるようにしてもよい。
また、上記各実施形態においては、横書きの文字列について主に説明したが、これに限定されず、縦書きの文字列にも上記の思想を適用することが可能である。なお、上述のように、縦書きの文字列の場合には、文字列の配列方向は上下方向(文字の高さ方向)であり、「文字高さ」が配列方向文字サイズ(文字の配列方向サイズ)に相当し、「文字幅」が直交方向文字サイズに相当する。
また、上記各実施形態においては、スキャン画像の部分領域がOCR処理の処理対象領域として抽出される態様を例示しているが、本発明はこれに限定されない。たとえば、スキャン画像の部分領域ではなく、スキャン画像の全体領域がOCR処理の処理対象領域として抽出(設定)されるようにしてもよい。
また、上記各実施形態においては、MFP10にて生成されたスキャン画像が外部端末50に送信され、当該外部端末50が当該スキャン画像に基づき電子文書を生成する電子文書生成装置として機能するとともに、クラウドサーバ90がOCR処理を実行するOCR処理装置として機能する態様が例示されているが、これに限定されない。
たとえば、図19に示すようなシステム構成等において、スキャン画像を生成したMFP10自身が、上記の外部端末50(電子文書生成アプリケーション110)と同様の動作を実行する電子文書生成装置として機能するとともに、クラウドサーバ90がOCR処理(汎用OCRアプリケーション120)を実行するOCR処理装置として機能するようにしてもよい。より詳細には、クラウドサーバ90は、MFP10からの依頼に基づいて当該スキャン画像に対するOCR処理を実行し、当該OCR処理の処理結果をMFP10に送信するようにしてもよい。そして、MFP10は、当該OCR処理の処理結果と、MFP10内で決定された配列方向文字サイズ(たとえば、「文字幅」等)とに基づいて、OCR処理結果に係る文字列を電子文書内に配置して、電子文書を生成するようにしてもよい。
あるいは、図20に示すようなシステム構成等において、スキャン画像を生成したMFP10自身が、上記各実施形態における外部端末50(電子文書生成アプリケーション110)と同様の動作を実行する電子文書生成装置として機能するとともに、今度は外部端末50が上記のクラウドサーバ90と同様のOCR処理(汎用OCRアプリケーション120)を実行するOCR処理装置として機能するようにしてもよい。より詳細には、外部端末50は、MFP10からの依頼に基づいて当該スキャン画像に対するOCR処理を実行し、当該OCR処理の処理結果をMFP10に送信するようにしてもよい。そして、MFP10は、当該OCR処理の処理結果と、MFP10内で決定された配列方向文字サイズ(たとえば、「文字幅」等)とに基づいて、各OCR処理結果に係る文字列を電子文書内に配置して、電子文書を生成するようにしてもよい。
また、上記各実施形態等においては、透明テキスト付きPDF(元の文字画像に重畳して、OCR結果の文字列が非表示状態で埋め込まれているPDF形式のファイル)(サーチャブルPDF等)が電子文書500として生成されているが、本発明はこれに限定されず、次のような電子文書500が生成されてもよい。
具体的には、最終的な電子文書500において、元の文字画像(文字領域210の画像)が削除されるとともに、OCR結果のテキストデータが可視化された状態で当該元の文字画像の代わりに表示されてもよい。
より詳細には、スキャン画像200における文字領域210の各部分領域230に係る画像が削除され、当該各部分領域230の画像に代えて、各部分領域230についての処理結果に係る文字列が当該各部分領域230のそれぞれの検出位置に「表示状態」で埋め込まれる(配置される)ことによって、電子文書500が生成されるようにしてもよい。すなわち、文字画像に代えてテキスト文字列を有する電子文書500が生成されるようにしてもよい。
また、上記各実施形態等においては、PDF形式の電子文書が例示されているが、本発明はこれに限定されず、他の各種の形式(XPS形式等)の電子文書が生成されるようにしてもよい。
1 画像形成システム(電子文書生成システム)
10 MFP(画像形成装置)
25 タッチパネル
50 外部端末
90 クラウドサーバ
110 電子文書生成アプリケーション
120 汎用OCRアプリケーション
200 スキャン画像
210 文字領域
220 非文字領域
230 部分領域(処理対象領域)
231〜233 行領域
250 テキストデータ
300 属性指定データ
500 電子文書

Claims (33)

  1. 電子文書生成システムであって、
    原稿のスキャン画像に基づき電子文書を生成する第1の装置と、
    前記第1の装置からの依頼に基づいて前記スキャン画像に対する光学文字認識処理を実行し、当該光学文字認識処理の処理結果を前記第1の装置に送出する第2の装置と、
    を備え、
    前記第1の装置は、
    前記スキャン画像内にて或る方向に配列された1行の文字列の全部または一部の範囲の領域である行領域を含む処理対象領域を、前記スキャン画像から抽出する抽出手段と、
    前記行領域の大きさを検出する検出手段と、
    前記行領域の大きさに基づいて、前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向における文字サイズである配列方向文字サイズを決定する決定手段と、
    前記光学文字認識処理を前記処理対象領域に関して行うべき旨の指示と前記処理対象領域の画像データとを、前記第2の装置に送出する指示送出手段と、
    前記処理対象領域に関する前記光学文字認識処理の処理結果を前記第2の装置から受け取る受取手段と、
    前記決定手段により決定された前記配列方向文字サイズに基づいて前記処理結果に係る文字列を前記電子文書内に配置し、前記電子文書を生成する生成手段と、
    を有し、
    前記抽出手段は、前記スキャン画像内の複数の部分領域のそれぞれを前記処理対象領域として抽出し、
    前記指示送出手段は、前記光学文字認識処理を前記複数の部分領域のそれぞれに関して行うべき旨の指示と前記複数の部分領域のそれぞれの画像データとを、前記第2の装置に送出し、
    前記受取手段は、前記複数の部分領域のそれぞれに関する前記光学文字認識処理の処理結果を前記第2の装置から受け取り、
    前記生成手段は、前記複数の部分領域のそれぞれに関して前記決定手段により決定された前記配列方向文字サイズに基づいて、前記複数の部分領域のそれぞれに関する前記処理結果に係る文字列を前記複数の部分領域のそれぞれに配置することを特徴とする電子文書生成システム。
  2. 請求項1に記載の電子文書生成システムにおいて、
    前記決定手段は、前記行領域の前記配列方向における長さを前記行領域内の文字数で除した値に基づいて、前記配列方向文字サイズを決定することを特徴とする電子文書生成システム。
  3. 請求項2に記載の電子文書生成システムにおいて、
    前記抽出手段は、複数行の文字列を含む領域を前記処理対象領域として抽出し、
    前記決定手段は、前記複数行の文字列のうちの任意の1行の文字列に関する領域である前記行領域の前記配列方向における長さを前記行領域内の文字数で除した値に基づいて、前記配列方向文字サイズを決定することを特徴とする電子文書生成システム。
  4. 請求項2に記載の電子文書生成システムにおいて、
    前記抽出手段は、単一行の文字列に係る領域を前記処理対象領域として抽出し、
    前記決定手段は、前記単一行の文字列に関する領域である前記行領域の前記配列方向における長さを前記行領域内の文字数で除した値に基づいて、前記配列方向文字サイズを決定することを特徴とする電子文書生成システム。
  5. 請求項2に記載の電子文書生成システムにおいて、
    前記抽出手段は、前記1行の文字列の前記配列方向における全範囲のうち一部の範囲の領域を前記処理対象領域として抽出し、
    前記決定手段は、前記一部の範囲の領域の前記配列方向における長さを前記一部の範囲の領域内の文字数で除した値に基づいて、前記配列方向文字サイズを決定することを特徴とする電子文書生成システム。
  6. 請求項1に記載の電子文書生成システムにおいて、
    前記決定手段は、前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向に直交する直交方向の文字サイズである直交方向文字サイズを前記行領域の前記直交方向における長さに基づいて決定するとともに、前記直交方向文字サイズに基づいて前記配列方向文字サイズを決定することを特徴とする電子文書生成システム。
  7. 請求項6に記載の電子文書生成システムにおいて、
    前記抽出手段は、複数行の文字列を含む領域を前記処理対象領域として抽出し、
    前記決定手段は、前記処理対象領域の前記直交方向における長さと前記処理対象領域に含まれる文字列の行数とに基づいて前記行領域の前記直交方向における長さを検出し、前記行領域の前記直交方向における当該長さに基づいて前記直交方向文字サイズを決定するとともに、当該直交方向文字サイズに基づいて前記配列方向文字サイズを決定することを特徴とする電子文書生成システム。
  8. 請求項6に記載の電子文書生成システムにおいて、
    前記抽出手段は、単一行の文字列に係る領域を前記処理対象領域として抽出し、
    前記決定手段は、前記単一行の文字列に係る領域の前記直交方向における長さに基づいて前記直交方向文字サイズを算出するとともに、当該直交方向文字サイズに基づいて前記配列方向文字サイズを決定することを特徴とする電子文書生成システム。
  9. 請求項6に記載の電子文書生成システムにおいて、
    前記抽出手段は、前記1行の文字列の前記配列方向における全範囲のうちの一部の範囲の領域を前記処理対象領域として抽出し、
    前記決定手段は、前記一部の範囲の領域の前記直交方向における長さに基づいて前記直交方向文字サイズを算出するとともに、当該直交方向文字サイズに基づいて前記配列方向文字サイズを決定することを特徴とする電子文書生成システム。
  10. 請求項1に記載の電子文書生成システムにおいて、
    前記決定手段は、
    前記行領域の前記配列方向における長さを前記行領域内の文字数で除した値に基づいて、前記処理対象領域に関する前記配列方向文字サイズを決定するとともに、
    前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向に直交する直交方向の文字サイズである直交方向文字サイズを、前記行領域の前記直交方向における長さに基づいて決定し、
    前記生成手段は、前記決定手段により決定された前記配列方向文字サイズと前記直交方向文字サイズとに基づいて前記処理結果に係る文字列を前記電子文書内に配置して、前記電子文書を生成することを特徴とする電子文書生成システム。
  11. 請求項1ないし請求項10のいずれかに記載の電子文書生成システムにおいて、
    前記検出手段は、前記スキャン画像内での前記処理対象領域の位置をも検出し、
    前記生成手段は、前記処理対象領域の前記位置にも基づいて前記処理結果に係る文字列を前記電子文書内に配置することを特徴とする電子文書生成システム。
  12. 請求項1ないし請求項11のいずれかに記載の電子文書生成システムにおいて、
    前記第1の装置は、画像形成装置であり、
    前記第2の装置は、クラウドサーバであることを特徴とする電子文書生成システム。
  13. 請求項1ないし請求項11のいずれかに記載の電子文書生成システムにおいて、
    前記第1の装置は、画像形成装置であり、
    前記第2の装置は、通信端末であることを特徴とする電子文書生成システム。
  14. 請求項1ないし請求項11のいずれかに記載の電子文書生成システムにおいて、
    前記第1の装置は、通信端末であり、
    前記第2の装置は、クラウドサーバであることを特徴とする電子文書生成システム。
  15. 原稿のスキャン画像に基づき電子文書を生成する電子文書生成装置であって、
    前記スキャン画像内にて或る方向に配列された1行の文字列の全部または一部の範囲の領域である行領域を含む処理対象領域を、前記スキャン画像から抽出する抽出手段と、
    前記行領域の大きさを検出する検出手段と、
    前記行領域の大きさに基づいて、前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向における文字サイズである配列方向文字サイズを決定する決定手段と、
    光学文字認識処理を前記処理対象領域に関して行うべき旨の指示と前記処理対象領域の画像データとを外部装置に送出する指示送出手段と、
    前記処理対象領域に関して前記外部装置によって実行された前記光学文字認識処理の処理結果を前記外部装置から受け取る受取手段と、
    前記決定手段により決定された前記配列方向文字サイズに基づいて前記処理結果に係る文字列を前記電子文書内に配置し、前記電子文書を生成する生成手段と、
    を備え、
    前記抽出手段は、前記スキャン画像内の複数の部分領域のそれぞれを前記処理対象領域として抽出し、
    前記指示送出手段は、前記光学文字認識処理を前記複数の部分領域のそれぞれに関して行うべき旨の指示と前記複数の部分領域のそれぞれの画像データとを、前記外部装置に送出し、
    前記受取手段は、前記複数の部分領域のそれぞれに関する前記光学文字認識処理の処理結果を前記外部装置から受け取り、
    前記生成手段は、前記複数の部分領域のそれぞれに関して前記決定手段により決定された前記配列方向文字サイズに基づいて、前記複数の部分領域のそれぞれに関する前記処理結果に係る文字列を前記複数の部分領域のそれぞれに配置することを特徴とする電子文書生成装置。
  16. 請求項15に記載の電子文書生成装置において、
    前記決定手段は、前記行領域の前記配列方向における長さを前記行領域内の文字数で除した値に基づいて、前記配列方向文字サイズを決定することを特徴とする電子文書生成装置。
  17. 請求項16に記載の電子文書生成装置において、
    前記抽出手段は、複数行の文字列を含む領域を前記処理対象領域として抽出し、
    前記決定手段は、前記複数行の文字列のうちの任意の1行の文字列に関する領域である前記行領域の前記配列方向における長さを前記行領域内の文字数で除した値に基づいて、前記配列方向文字サイズを決定することを特徴とする電子文書生成装置。
  18. 請求項16に記載の電子文書生成装置において、
    前記抽出手段は、単一行の文字列に係る領域を前記処理対象領域として抽出し、
    前記決定手段は、前記単一行の文字列に関する領域である前記行領域の前記配列方向における長さを前記行領域内の文字数で除した値に基づいて、前記配列方向文字サイズを決定することを特徴とする電子文書生成装置。
  19. 請求項16に記載の電子文書生成装置において、
    前記抽出手段は、前記1行の文字列の前記配列方向における全範囲のうち一部の範囲の領域を前記処理対象領域として抽出し、
    前記決定手段は、前記一部の範囲の領域の前記配列方向における長さを前記一部の範囲の領域内の文字数で除した値に基づいて、前記配列方向文字サイズを決定することを特徴とする電子文書生成装置。
  20. 請求項15に記載の電子文書生成装置において、
    前記決定手段は、前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向に直交する直交方向の文字サイズである直交方向文字サイズを前記行領域の前記直交方向における長さに基づいて決定するとともに、前記直交方向文字サイズに基づいて前記配列方向文字サイズを決定することを特徴とする電子文書生成装置。
  21. 請求項20に記載の電子文書生成装置において、
    前記抽出手段は、複数行の文字列を含む領域を前記処理対象領域として抽出し、
    前記決定手段は、前記処理対象領域の前記直交方向における長さと前記処理対象領域に含まれる文字列の行数とに基づいて前記行領域の前記直交方向における長さを算出し、前記行領域の前記直交方向における当該長さに基づいて前記直交方向文字サイズを決定するとともに、当該直交方向文字サイズに基づいて前記配列方向文字サイズを決定することを特徴とする電子文書生成装置。
  22. 請求項20に記載の電子文書生成装置において、
    前記抽出手段は、単一行の文字列に係る領域を前記処理対象領域として抽出し、
    前記決定手段は、前記単一行の文字列に係る領域の前記直交方向における長さに基づいて前記直交方向文字サイズを算出するとともに、当該直交方向文字サイズに基づいて前記配列方向文字サイズを決定することを特徴とする電子文書生成装置。
  23. 請求項20に記載の電子文書生成装置において、
    前記抽出手段は、前記1行の文字列の前記配列方向における全範囲のうちの一部の範囲の領域を前記処理対象領域として抽出し、
    前記決定手段は、前記一部の範囲の領域の前記直交方向における長さに基づいて前記直交方向文字サイズを算出するとともに、当該直交方向文字サイズに基づいて前記配列方向文字サイズを決定することを特徴とする電子文書生成装置。
  24. 請求項15に記載の電子文書生成装置において、
    前記決定手段は、
    前記行領域の前記配列方向における長さを前記行領域内の文字数で除した値に基づいて、前記処理対象領域に関する前記配列方向文字サイズを決定するとともに、
    前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向に直交する直交方向の文字サイズである直交方向文字サイズを、前記行領域の前記直交方向における長さに基づいて決定し、
    前記生成手段は、前記決定手段により決定された前記配列方向文字サイズと前記直交方向文字サイズとに基づいて前記処理結果に係る文字列を前記電子文書内に配置して、前記電子文書を生成することを特徴とする電子文書生成装置。
  25. 請求項15ないし請求項24のいずれかに記載の電子文書生成装置において、
    前記検出手段は、前記スキャン画像内での前記処理対象領域の位置をも検出し、
    前記生成手段は、前記処理対象領域の前記位置にも基づいて前記処理結果に係る文字列を前記電子文書内に配置し、前記電子文書を生成することを特徴とする電子文書生成装置。
  26. 請求項15ないし請求項25のいずれかに記載の電子文書生成装置において、
    前記電子文書生成装置は、画像形成装置であることを特徴とする電子文書生成装置。
  27. 請求項15ないし請求項25のいずれかに記載の電子文書生成装置において、
    前記電子文書生成装置は、前記スキャン画像を生成する画像形成装置とは異なる通信装置であって前記外部装置とも異なる通信装置であることを特徴とする電子文書生成装置。
  28. 原稿のスキャン画像に基づき電子文書を生成する電子文書生成装置に内蔵されたコンピュータに、
    a)前記スキャン画像内にて或る方向に配列された1行の文字列の全部または一部の範囲の領域である行領域を含む処理対象領域を、前記スキャン画像から抽出するステップと、
    b)前記行領域の大きさを検出するステップと、
    c)前記行領域の大きさに基づいて、前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向における文字サイズである配列方向文字サイズを決定するステップと、
    d)光学文字認識処理を前記処理対象領域に関して行うべき旨の指示と前記処理対象領域の画像データとを外部装置に送出するステップと、
    e)前記処理対象領域に関して前記外部装置によって実行された前記光学文字認識処理の処理結果を前記外部装置から受け取るステップと、
    f)前記ステップc)にて決定された前記配列方向文字サイズに基づいて前記処理結果に係る文字列を前記電子文書内に配置するステップと、
    を実行させるためのプログラムであって、
    前記ステップa)においては、前記スキャン画像内の複数の部分領域のそれぞれが前記処理対象領域として抽出され、
    前記ステップd)においては、前記光学文字認識処理を前記複数の部分領域のそれぞれに関して行うべき旨の指示と前記複数の部分領域のそれぞれの画像データとが、前記外部装置に送出され、
    前記ステップe)においては、前記複数の部分領域のそれぞれに関する前記光学文字認識処理の処理結果が前記外部装置から受け取られ、
    前記ステップf)においては、前記複数の部分領域のそれぞれに関して前記ステップc)にて決定された前記配列方向文字サイズに基づいて、前記複数の部分領域のそれぞれに関する前記処理結果に係る文字列が前記複数の部分領域のそれぞれに配置されることを特徴とするプログラム。
  29. 原稿のスキャン画像に基づき電子文書を生成する電子文書生成装置であって、
    複数行の文字列を含む処理対象領域を前記スキャン画像から抽出する抽出手段と、
    前記処理対象領域の大きさを検出する検出手段と、
    前記処理対象領域の大きさに基づいて、前記処理対象領域内の文字の文字サイズであって前記処理対象領域内の文字列の配列方向における文字サイズである配列方向文字サイズを決定する決定手段と、
    光学文字認識処理を前記処理対象領域に関して行うべき旨の指示と前記処理対象領域の画像データとを外部装置に送出する指示送出手段と、
    前記処理対象領域に関して前記外部装置によって実行された前記光学文字認識処理の処理結果を前記外部装置から受け取る受取手段と、
    前記決定手段により決定された前記配列方向文字サイズに基づいて前記処理結果に係る文字列を前記電子文書内に配置し、前記電子文書を生成する生成手段と、
    を備え、
    前記決定手段は、前記処理対象領域内の文字の文字サイズであって前記配列方向に直交する直交方向の文字サイズである直交方向文字サイズを、前記処理対象領域の前記直交方向における長さと前記処理対象領域に含まれる文字列の行数とに基づいて決定するとともに、前記直交方向文字サイズに基づいて前記配列方向文字サイズを決定することを特徴とする電子文書生成装置。
  30. 原稿のスキャン画像に基づき電子文書を生成する電子文書生成装置に内蔵されたコンピュータに、
    a)複数行の文字列を含む処理対象領域を前記スキャン画像から抽出するステップと、
    b)前記処理対象領域の大きさを検出するステップと、
    c)前記処理対象領域の大きさに基づいて、前記処理対象領域内の文字の文字サイズであって前記処理対象領域内の文字列の配列方向における文字サイズである配列方向文字サイズを決定するステップと、
    d)光学文字認識処理を前記処理対象領域に関して行うべき旨の指示と前記処理対象領域の画像データとを外部装置に送出するステップと、
    e)前記処理対象領域に関して前記外部装置によって実行された前記光学文字認識処理の処理結果を前記外部装置から受け取るステップと、
    f)前記ステップc)にて決定された前記配列方向文字サイズに基づいて前記処理結果に係る文字列を前記電子文書内に配置するステップと、
    を実行させるためのプログラムであって、
    前記ステップc)は、
    c−1)前記処理対象領域内の文字の文字サイズであって前記配列方向に直交する直交方向の文字サイズである直交方向文字サイズを、前記処理対象領域の前記直交方向における長さと前記処理対象領域に含まれる文字列の行数とに基づいて決定するステップと、
    c−2)前記直交方向文字サイズに基づいて前記配列方向文字サイズを決定するステップと、
    を有することを特徴とするプログラム。
  31. 電子文書生成システムであって、
    原稿のスキャン画像に基づき電子文書を生成する第1の装置と、
    前記第1の装置からの依頼に基づいて前記スキャン画像に対する光学文字認識処理を実行し、当該光学文字認識処理の処理結果を前記第1の装置に送出する第2の装置と、
    を備え、
    前記第1の装置は、
    前記スキャン画像内にて或る方向に配列された1行の文字列の全部または一部の範囲の領域である行領域を含む処理対象領域を、前記スキャン画像から抽出する抽出手段と、
    前記行領域の大きさを検出する検出手段と、
    前記行領域の大きさに基づいて、前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向における文字サイズである配列方向文字サイズを決定する決定手段と、
    前記光学文字認識処理を前記処理対象領域に関して行うべき旨の指示と前記処理対象領域の画像データとを、前記第2の装置に送出する指示送出手段と、
    前記処理対象領域に関する前記光学文字認識処理の処理結果を前記第2の装置から受け取る受取手段と、
    前記決定手段により決定された前記配列方向文字サイズに基づいて前記処理結果に係る文字列を前記電子文書内に配置し、前記電子文書を生成する生成手段と、
    を有し、
    前記決定手段は、前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向に直交する直交方向の文字サイズである直交方向文字サイズを前記行領域の前記直交方向における長さに基づいて決定するとともに、前記直交方向文字サイズに基づいて前記配列方向文字サイズを決定し、
    前記抽出手段は、複数行の文字列を含む領域を前記処理対象領域として抽出し、
    前記決定手段は、前記処理対象領域の前記直交方向における長さと前記処理対象領域に含まれる文字列の行数とに基づいて前記行領域の前記直交方向における長さを検出し、前記行領域の前記直交方向における当該長さに基づいて前記直交方向文字サイズを決定するとともに、当該直交方向文字サイズに基づいて前記配列方向文字サイズを決定することを特徴とする電子文書生成システム。
  32. 原稿のスキャン画像に基づき電子文書を生成する電子文書生成装置であって、
    前記スキャン画像内にて或る方向に配列された1行の文字列の全部または一部の範囲の領域である行領域を含む処理対象領域を、前記スキャン画像から抽出する抽出手段と、
    前記行領域の大きさを検出する検出手段と、
    前記行領域の大きさに基づいて、前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向における文字サイズである配列方向文字サイズを決定する決定手段と、
    光学文字認識処理を前記処理対象領域に関して行うべき旨の指示と前記処理対象領域の画像データとを外部装置に送出する指示送出手段と、
    前記処理対象領域に関して前記外部装置によって実行された前記光学文字認識処理の処理結果を前記外部装置から受け取る受取手段と、
    前記決定手段により決定された前記配列方向文字サイズに基づいて前記処理結果に係る文字列を前記電子文書内に配置し、前記電子文書を生成する生成手段と、
    を備え、
    前記決定手段は、前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向に直交する直交方向の文字サイズである直交方向文字サイズを前記行領域の前記直交方向における長さに基づいて決定するとともに、前記直交方向文字サイズに基づいて前記配列方向文字サイズを決定し、
    前記抽出手段は、複数行の文字列を含む領域を前記処理対象領域として抽出し、
    前記決定手段は、前記処理対象領域の前記直交方向における長さと前記処理対象領域に含まれる文字列の行数とに基づいて前記行領域の前記直交方向における長さを算出し、前記行領域の前記直交方向における当該長さに基づいて前記直交方向文字サイズを決定するとともに、当該直交方向文字サイズに基づいて前記配列方向文字サイズを決定することを特徴とする電子文書生成装置。
  33. 原稿のスキャン画像に基づき電子文書を生成する電子文書生成装置に内蔵されたコンピュータに、
    a)前記スキャン画像内にて或る方向に配列された1行の文字列の全部または一部の範囲の領域である行領域を含む処理対象領域を、前記スキャン画像から抽出するステップと、
    b)前記行領域の大きさを検出するステップと、
    c)前記行領域の大きさに基づいて、前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向における文字サイズである配列方向文字サイズを決定するステップと、
    d)光学文字認識処理を前記処理対象領域に関して行うべき旨の指示と前記処理対象領域の画像データとを外部装置に送出するステップと、
    e)前記処理対象領域に関して前記外部装置によって実行された前記光学文字認識処理の処理結果を前記外部装置から受け取るステップと、
    f)前記ステップc)にて決定された前記配列方向文字サイズに基づいて前記処理結果に係る文字列を前記電子文書内に配置するステップと、
    を実行させるためのプログラムであって、
    前記ステップc)においては、前記処理対象領域内の文字の文字サイズであって前記1行の文字列の配列方向に直交する直交方向の文字サイズである直交方向文字サイズが前記行領域の前記直交方向における長さに基づいて決定されるとともに、前記直交方向文字サイズに基づいて前記配列方向文字サイズが決定され、
    前記ステップa)においては、複数行の文字列を含む領域が前記処理対象領域として抽出され、
    前記ステップc)においては、前記処理対象領域の前記直交方向における長さと前記処理対象領域に含まれる文字列の行数とに基づいて前記行領域の前記直交方向における長さが算出され、前記行領域の前記直交方向における当該長さに基づいて前記直交方向文字サイズが決定されるとともに、当該直交方向文字サイズに基づいて前記配列方向文字サイズが決定されることを特徴とするプログラム。
JP2014143600A 2014-07-11 2014-07-11 電子文書生成システム、電子文書生成装置およびプログラム Active JP6119689B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014143600A JP6119689B2 (ja) 2014-07-11 2014-07-11 電子文書生成システム、電子文書生成装置およびプログラム
CN201510404336.9A CN105320933B (zh) 2014-07-11 2015-07-10 电子文档生成系统以及电子文档生成装置
US14/797,748 US9398191B2 (en) 2014-07-11 2015-07-13 Electronic document generation system, electronic document generation apparatus, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014143600A JP6119689B2 (ja) 2014-07-11 2014-07-11 電子文書生成システム、電子文書生成装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2016021086A JP2016021086A (ja) 2016-02-04
JP6119689B2 true JP6119689B2 (ja) 2017-04-26

Family

ID=55068499

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014143600A Active JP6119689B2 (ja) 2014-07-11 2014-07-11 電子文書生成システム、電子文書生成装置およびプログラム

Country Status (3)

Country Link
US (1) US9398191B2 (ja)
JP (1) JP6119689B2 (ja)
CN (1) CN105320933B (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10084939B2 (en) * 2016-03-18 2018-09-25 Ricoh Company, Ltd. Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
JP6798309B2 (ja) * 2016-03-18 2020-12-09 株式会社リコー 画像処理装置、画像処理方法及びプログラム
JP6531738B2 (ja) * 2016-08-08 2019-06-19 京セラドキュメントソリューションズ株式会社 画像処理装置
JP2019537103A (ja) * 2016-09-28 2019-12-19 シストラン インターナショナル カンパニー.,リミテッド.Systran International Co.,Ltd. 文字を翻訳する方法及びその装置
JP6968647B2 (ja) * 2017-10-03 2021-11-17 キヤノン株式会社 スキャン画像にファイル名を設定するための装置、その制御方法及びプログラム
CN108038093B (zh) * 2017-11-10 2021-06-15 深圳市亿图软件有限公司 Pdf文字提取方法和装置
KR102138748B1 (ko) * 2019-02-08 2020-07-28 네이버 주식회사 라인 단위의 문자열을 검출 및 정렬하기 위한 방법 및 시스템
CN111914597B (zh) * 2019-05-09 2024-03-15 杭州睿琪软件有限公司 一种文档对照识别方法、装置、电子设备和可读存储介质
US12056331B1 (en) 2019-11-08 2024-08-06 Instabase, Inc. Systems and methods for providing a user interface that facilitates provenance tracking for information extracted from electronic source documents
CN111222314B (zh) * 2020-01-03 2021-12-21 北大方正集团有限公司 版式文档的比对方法、装置、设备及存储介质
US11409981B1 (en) * 2021-03-31 2022-08-09 Intuit, Inc. Document classification using signal processing
US11315353B1 (en) * 2021-06-10 2022-04-26 Instabase, Inc. Systems and methods for spatial-aware information extraction from electronic source documents
US12067039B1 (en) 2023-06-01 2024-08-20 Instabase, Inc. Systems and methods for providing user interfaces for configuration of a flow for extracting information from documents via a large language model

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02255996A (ja) * 1988-12-09 1990-10-16 Ricoh Co Ltd 文字切出し方法
DE69131496T2 (de) * 1990-05-15 2000-01-05 Canon K.K., Tokio/Tokyo Bildverarbeitungs-Gerät und Verfahren
US9143638B2 (en) * 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
JP4924990B2 (ja) * 2008-03-13 2012-04-25 富士ゼロックス株式会社 文書処理装置および文書処理プログラム
JP2012009005A (ja) * 2010-05-24 2012-01-12 Pfu Ltd 帳票処理システム、ocr装置、ocr処理プログラム、帳票作成装置、帳票作成プログラム、および帳票処理方法
JP2012022571A (ja) 2010-07-15 2012-02-02 Toshiba Tec Corp 翻訳制御装置および翻訳制御方法
JP2012073749A (ja) 2010-09-28 2012-04-12 Kyocera Mita Corp 画像形成装置及び画像形成プログラム
JP5372110B2 (ja) * 2011-10-28 2013-12-18 シャープ株式会社 情報出力装置、情報出力方法、及びコンピュータプログラム
JP5622290B2 (ja) * 2012-03-30 2014-11-12 京セラドキュメントソリューションズ株式会社 電子化装置
JP2013236234A (ja) * 2012-05-08 2013-11-21 Ricoh Co Ltd 画像処理装置、画像処理システム及びプログラム

Also Published As

Publication number Publication date
US20160014299A1 (en) 2016-01-14
JP2016021086A (ja) 2016-02-04
US9398191B2 (en) 2016-07-19
CN105320933A (zh) 2016-02-10
CN105320933B (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
JP6119689B2 (ja) 電子文書生成システム、電子文書生成装置およびプログラム
US10432820B2 (en) Image processing apparatus, image processing system, control method for image processing apparatus, and non-transitory computer readable medium
US11386046B2 (en) Apparatus for setting file name for scan image, method of controlling same, and storage medium
US9485368B2 (en) Electronic document generation apparatus, recording medium, and electronic document generation system
JP7030462B2 (ja) スキャン画像から文字情報を取得する画像処理装置、画像処理方法、及びプログラム
US9473669B2 (en) Electronic document generation system, electronic document generation apparatus, and recording medium
US10222971B2 (en) Display apparatus, method, and storage medium
US11341733B2 (en) Method and system for training and using a neural network for image-processing
US9614984B2 (en) Electronic document generation system and recording medium
US9858513B2 (en) Document file output apparatus, document file output method, and computer readable medium
JP2019159633A (ja) 画像処理装置、画像処理方法および画像処理プログラム
CN109413294A (zh) 图像处理装置及其控制方法
JP2012198597A (ja) 制御装置及びコンピュータプログラム
JP6197840B2 (ja) 画像処理装置、電子ファイル生成方法及びプログラム
JP6458351B2 (ja) 電子文書生成システム、画像形成装置、通信端末およびプログラム
JP2012039236A (ja) 画像処理装置、画像処理方法、及び、画像処理プログラム
JP7301529B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP2004086436A (ja) 画像処理装置および画像処理方法、プログラムおよび記憶媒体
JP2014199507A (ja) 画像処理装置およびコンピュータプログラム
JP2013157968A (ja) 画像処理装置
US20230029990A1 (en) Image processing system and image processing method
US9412033B2 (en) Image processing apparatus capable of preventing page missing, control method therefor, and storage medium
JP2017163407A (ja) 画像処理装置、情報処理装置、および画像処理方法
JP2016091190A (ja) 電子文書生成装置、プログラムおよび電子文書生成システム
JP2012178197A (ja) 画像処理装置及び画像処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170228

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170313

R150 Certificate of patent or registration of utility model

Ref document number: 6119689

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150