JP7379876B2

JP7379876B2 - 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム

Info

Publication number: JP7379876B2
Application number: JP2019112238A
Authority: JP
Inventors: 貴之齋藤
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2023-11-15
Anticipated expiration: 2039-06-17
Also published as: US11146705B2; US20200396351A1; JP2020204905A

Description

本発明は、文字認識装置、文書ファイル生成方法、文書ファイル生成プログラムに関する。

文字や画像が記されている原稿をスキャナで読み取り、光学文字認識（ＯＣＲ：Optical Character Recognition/Reader）の技術を用いてテキストデータを抽出することが、日常的に行われている。

関連する技術として、検索精度を高める目的で、文字認識において複数の認識候補が得られた場合に、画像データの対応する所定区切り単位の位置または近傍に、候補となるデータを透明で生成する開示されている（例えば特許文献１）。

ＯＣＲを活用した従来技術では、もとの文字の痕跡が消去されてしまうため、誤認識が発生した場合、認識後の文書データのみではもとの文書に何が書いてあるかを判別することができなくなる。

特許文献１の技術では、誤認識の可能性のある文字については、その他の候補文字を組み入れた文書データを生成することができる。しかしながら特許文献１の技術では、文字検索に活用するため、すなわち検索でヒットさせるために候補文字を組み入れることから、候補となる文字を不可視の状態で組み入れる。よって、認識後のデータを通常のやり方で表示させ、もしくは印刷した場合、従来技術と同様にもとの文字を判別することができない。

また特許文献１の技術では、編集困難なファイル形式で文字認識後のデータを出力するため、生成した文書データに誤認識があり、利用者がこれに気付いても、容易に修正するのができない。

本発明は、ＯＣＲによる文字認識で誤認識があった場合でも、利用者にもとの文字を推測するための手がかりを与える技術を提供することを目的とする。

上記課題を解決するために、文字認識装置は、原稿を読み取って得られたスキャン画像に描かれている文字をデジタルデータに変換する文字認識装置であって、スキャン画像に対して文字認識処理を行い、認識した文字または文字列ごとに、候補となる文字または文字列と当該候補の確からしさをあらわす認識度とを対応付けたデータを生成する文字認識部と、前記文字認識部により認識された文字または文字列の候補の中から最も認識度の高い第１候補を表示し、当該第１候補よりも前記認識度が低いその他の候補を、前記第１候補とは態様を異ならせて、前記第１候補に対応付けて当該第１候補と同時に表示する形式の文書ファイルを生成する文書ファイル生成部と、を有し、前記文書ファイル生成部は、前記第１候補を第１領域に表示し、前記その他の候補を前記第１領域よりも表示面積の小さい第２領域に表示し、前記第１候補と前記その他の候補との対応付けを、前記第１領域から第２領域へと至る線分を用いて対応関係を視覚により認識可能な状態で表示する形式の文書ファイルを生成する、ことを特徴とする。

本発明によれば、ＯＣＲによる文字認識で誤認識があった場合でも、利用者にもとの文字を推測するための手がかりを与えることができる。

実施形態のシステム構成例を示す図である。実施形態の画像形成装置の内部構成例を示すブロック図である。実施形態のパーソナルコンピュータの内部構成例を示すブロック図である。実施形態の画像形成装置に組み込まれている文字認識装置の機能ブロックを例示する図である。原稿シートのスキャン後の画像、および実施形態の文字認識装置が作成する各種中間データを例示する図である。実施形態の文字認識装置が作成する文書ファイルを表示もしくは印刷したときの画面表示例を示す図である。実施形態の文字認識装置の全体動作例を示すフローチャートである。実施形態の文書ファイル作成処理の動作例を示すフローチャートである。実施形態の一文字出力処理の動作例を示すフローチャートである。

以下、本実施形態に係る文字認識装置、文書ファイル生成方法、文書ファイル生成プログラムについて、図面などを参照しながら説明する。

＜システム構成＞
図１は、本実施形態のシステム構成を例示する図である。システム１は、画像形成装置１１０、ファイルサーバ１２０、２つのパーソナルコンピュータであるＰＣ１４０、ＰＣ１５０を有し、これらが通信ネットワーク１９０を介して相互にデータの送受信を行う構成となっている。

画像形成装置１１０は、原稿シートを読み取るスキャナ部２３１、シート上に画像を形成するプリンタ部２３２、および通信機能などを備えるＭＦＰ（Multifunction Peripheral）である。スキャナ部２３１は、ＡＤＦ（Auto Document Feeder：自動原稿送り装置）が設けられている場合はＡＤＦにセットされた原稿シートを読み取る。画像形成装置１１０は、スキャナ部２３１、プリンタ部２３２を用いることで、コピー、プリンタ、スキャナ、ファクシミリの各機能を利用者に提供する。また操作パネル２４０を介して利用者から指示を受け付け、もしくは通信ネットワーク１９０を介してＰＣ１４０、ＰＣ１５０から指示を受け付けることで、画像形成装置１１０はこれら機能を実行する。

また画像形成装置１１０は、光学文字認識（以下、必要に応じて単に「文字認識」、もしくは「ＯＣＲ」と称する）の技術を用いて、スキャナ部２３１により読み取られたスキャン画像から、電子データのテキストを抽出する機能も有している。

ＰＣ１４０、ＰＣ１５０は、画像形成装置１１０を利用する一般ユーザが用いる端末（コンピュータ）である。

ファイルサーバ１２０は、画像形成装置１１０の読取機能によって読み取られた画像データを蓄積するサーバ（コンピュータ）である。ファイルサーバ１２０には、利用者ごとに専用フォルダが設けられ、当該専用フォルダ内にファイルを格納して各種データを保持する。またファイルサーバ１２０は、画像形成装置１１０のＯＣＲ機能により抽出されたテキストデータや、後述の動作によって得られる文書ファイルを格納する。

＜各装置のハードウェア構成＞
図２は、画像形成装置１１０のハードウェア構成例を示す図である。図２に示されているように、画像形成装置１１０は、コントローラ２１０、近距離通信回路２２０、エンジン制御部２３０、操作パネル２４０、ネットワークＩ／Ｆ（Interface）２５０を備えている。

コントローラ２１０は、コンピュータの主要部であるＣＰＵ２０１、システムメモリ（ＭＥＭ－Ｐ）２０２、ノースブリッジ（ＮＢ）２０３、サウスブリッジ（ＳＢ）２０４、ＡＳＩＣ（Application Specific Integrated Circuit）２０６、記憶部であるローカルメモリ（ＭＥＭ－Ｃ）２０７、ＨＤＤ（Hard Disk Drive）コントローラ２０８、および、記憶部であるＨＤ２０９を有する。またＮＢ２０３とＣＰＵ２０１とは、ＳｏＣ（System on a Chip）２１５により統合されている。

ＣＰＵ２０１は、画像形成装置１１０の全体制御を行う制御部である。ＮＢ２０３は、ＣＰＵ２０１と、ＭＥＭ－Ｐ２０２、ＳＢ２０４とを接続するためのブリッジであり、ＭＥＭ－Ｐ２０２に対する読み書きなどを制御するメモリコントローラと、ＰＣＩ（Peripheral Component Interconnect）マスタおよびＡＧＰターゲットとを有する。

ＭＥＭ－Ｐ２０２は、コントローラ２１０の各機能を実現させるプログラムやデータの格納用メモリであるＲＯＭ２０２ａ、プログラムやデータの展開、およびメモリ印刷時の描画用メモリなどとして用いるＲＡＭ２０２ｂとからなる。尚、ＲＡＭ２０２ｂに記憶されているプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。

ＳＢ２０４は、ＮＢ２０３とＰＣＩデバイス、周辺デバイスとを接続するためのブリッジである。ＡＳＩＣ２０６は、画像処理用のハードウェア要素を有する画像処理用途向けのＩＣ（Integrated Circuit）であり、ＰＣＩバス２２２、ＨＤＤコントローラ２０８およびＭＥＭ－Ｃ２０７をそれぞれ接続するブリッジの役割を有する。このＡＳＩＣ２０６は、ＰＣＩターゲットおよびＡＧＰマスタ、ＡＳＩＣ２０６の中核をなすアービタ（ＡＲＢ）、ＭＥＭ－Ｃ９０７を制御するメモリコントローラ、ハードウェアロジックなどにより画像データの回転などを行う複数のＤＭＡＣ（Direct Memory Access Controller）、並びに、スキャナ部２３１およびプリンタ部２３２との間でＰＣＩバス２２２を介したデータ転送を行うＰＣＩユニットからなる。尚、ＡＳＩＣ２０６には、ＵＳＢ（Universal Serial Bus）のインターフェースや、ＩＥＥＥ１３９４（Institute of Electrical and Electronics Engineers 1394）のインターフェースを接続するようにしてもよい。

ＭＥＭ－Ｃ２０７は、コピー用画像バッファおよび符号バッファとして用いるローカルメモリである。ＨＤ２０９は、後述の動作を実行するためのプログラムや各種制御用のデータを事前に記憶したストレージであり、画像データの蓄積、印刷時に用いるフォントデータやフォームの蓄積を行う用途にも用いられる。ＨＤ２０９は、ＣＰＵ２０１の制御にしたがってＨＤ２０９に対するデータの読出または書込を制御する。

また、近距離通信回路２２０には、ＮＦＣ、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の通信回路２２０ａが備わっており、ユーザが所持しているＩＣカードとの間でのデータ通信を実現する。ユーザがＩＣカードを通信回路２２０ａの近傍にかざすと、近距離通信回路２２０は、ＩＣカードに記録されている各種データを読み取る。

エンジン制御部２３０は、スキャナ部２３１およびプリンタ部２３２の制御を行う。操作パネル２４０は、現在の設定値や選択画面等を表示させ、操作者からの入力を受け付けるタッチパネル等のパネル表示部２４０ａ、並びに、濃度の設定条件などの画像形成に関する条件の設定値を受け付けるテンキーおよびコピー開始指示を受け付けるスタートキー等からなる操作パネル２４０ｂを備えている。コントローラ２１０は、画像形成装置１１０全体の制御を行い、例えば、描画、通信、操作パネル２４０からの入力等を制御する。スキャナ部２３１またはプリンタ部２３２には、誤差拡散やガンマ変換などの画像処理部分が含まれている。

尚、画像形成装置１１０は、操作パネル２４０のアプリケーション切り替えキーにより、ドキュメントボックス機能（＝スキャナ機能）、コピー機能、プリンタ機能、およびファクシミリ機能を順次に切り替えて選択することが可能となる。またドキュメントボックス機能（スキャナ機能）には、ＯＣＲにより画像からテキストを抽出し、オフィス系の各種アプリケーションで使用可能なフォーマットに変換する機能も備えられている。

また、ネットワークＩ／Ｆ２５０は、通信ネットワーク１９０を利用してデータ通信をするためのインターフェースである。近距離通信回路２２０およびネットワークＩ／Ｆ２５０は、ＰＣＩバス２２２を介して、ＡＳＩＣ２０６に電気的に接続されている。

図３は、ＰＣ１４０のハードウェア構成を示した図である。図３ではＰＣ１４０を例にしているが、ＰＣ１５０やファイルサーバ１２０などのコンピュータについても同様構成となっている。

ＰＣ１４０はコンピュータによって構築されており、ＣＰＵ３０１、ＲＯＭ３０２、ＲＡＭ３０３、ＨＤ３０４、ＨＤＤコントローラ３０５、ディスプレイ３０６、外部機器接続Ｉ／Ｆ３０８、ネットワークＩ／Ｆ３０９、データバス３１０、キーボード３１１、ポインティングデバイス３１２、ＤＶＤ－ＲＷ（Digital Versatile Disk Rewritable）ドライブ３１４、メディアＩ／Ｆ３１６を備えている。

ＣＰＵ３０１は、ＰＣ１４０の全体動作を制御する。ＲＯＭ３０２は、ＩＰＬ等のＣＰＵ３０１の駆動に用いられるプログラムを記憶する。ＲＡＭ３０３は、ＣＰＵ３０１のワークエリアとして使用される。ＨＤ３０４は、プログラム等の各種データを記憶する。ＨＤＤコントローラ３０５は、ＣＰＵ３０１の制御にしたがってＨＤ３０４に対する各種データの読み出しまたは書き込みを制御する。ディスプレイ３０６は、カーソル、メニュー、ウィンドウ、文字、または画像などの各種情報を表示する。外部機器接続Ｉ／Ｆ３０８は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、ＵＳＢ（Universal Serial Bus）メモリやプリンタ等である。ネットワークＩ／Ｆ３０９は、通信ネットワーク１９０を利用してデータ通信をするためのインターフェースである。データバス３１０は、図３に示されているＣＰＵ３０１等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。

キーボード３１１は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス３１２は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。ＤＶＤ－ＲＷドライブ３１４は、着脱可能な記録媒体の一例としてのＤＶＤ－ＲＷ３１３に対する各種データの読み出しまたは書き込みを制御する。尚、ＤＶＤ－ＲＷに限らず、ＤＶＤ－Ｒ等、その他のメディアであってもよい。メディアＩ／Ｆ３１６は、フラッシュメモリ等の記録メディア３１５に対するデータの読み出しまたは書き込み（記憶）を制御する。

＜本実施形態の態様＞
図４は、本実施形態の文字認識装置の構成例を示すブロック図であり、図５は、図４に示す各機能部が生成するデータを例示する図である。本実施形態の文字認識装置４００は、原稿を読み取って得られたスキャン画像に描かれている文字をデジタルデータに変換する装置である。文字認識装置４００は画像形成装置１１０に組み込まれており、画像形成装置１１０の各種ハードウェアリソースを共用する構成となっている。また図２に示すコントローラ２１０が、文字認識装置４００の主要部となっている。

文字認識装置４００は、上記のスキャナ部２３１を有し、またコントローラ２１０が動作することで実現される前処理部４０１、２値化部４０２、文字領域抽出部４０３、文字認識部４０４、文字消去部４０５、文書ファイル生成部４０６を有している。前処理部４０１、２値化部４０２、文字領域抽出部４０３、文字認識部４０４、文字消去部４０５、および文書ファイル生成部４０６は、コントローラ２１０内のＣＰＵ３０１が、ＨＤ２０９に記憶されているプログラムをＲＡＭ２０２ｂに展開し、演算実行することで実現される機能部である。

スキャナ部２３１は、画像読取の命令を受けて、読み取り面に載置された原稿シートを読み取り、フルカラーの画像に変換して出力する。このように原稿を読み取ったフルカラーの画像をスキャン画像と称し、このスキャン画像の一例を図５（Ａ）に示す。

前処理部４０１は、文字の抽出を行う上で前提となる処理をスキャン画像に対し行う。前処理部４０１は、例えば原稿の傾き補正、スキャナ部２３１の機種の差異を吸収した画像を得るための補正（シェーディング補正等）などを実施する。

前処理部４０１によって得られる画像は、２値化部４０２、および文字消去部４０５に引き渡され、２つのパスで処理される。２値化部４０２を通るパスは文字抽出のための処理となり、文字消去部４０５を通るパスは文字を画像から消去するためのパスとなる。

２値化部４０２は、前処理部４０１によって処理された後の画像を取得し、当該画像を２値化した２値化画像を生成する。２値化部４０２により生成される２値化画像は、文字領域抽出部４０３に引き渡される。

文字領域抽出部４０３は、文字部分となる矩形領域を２値化画像から抽出する処理である。文字領域抽出部４０３は、連続した文字列（例えば画像内の１行分の文字列）を含めた矩形領域を抽出して切出し、この矩形領域の画像（「文字部２値化画像」と称する）と、当該文字部２値化画像の画像全体での位置情報とを文字認識部４０４に引き渡す。また文字領域抽出部４０３は、文字を構成する画素の集合を２値化画像から抽出し、文字部領域情報として文字消去部４０５に引き渡す。

文字認識部４０４は、既存のＯＣＲ技術を用いて文字部２値画像に描かれている文字の認識処理を行う。文字認識部４０４は、最も認識度の高かった文字を第１候補として選定し、この第１候補の選定処理を文字部２値画像内に描かれている文字ごとに行う。ここで認識度は、認識の確からしさをあらわした指標値である。

文字認識部４０４は、認識結果として、第１候補として選定した文字をテキスト文字情報として文書ファイル生成部４０６に引き渡す。また文字認識部４０４は、文字領域抽出部４０３から取得した位置情報、認識対象となった文字の画像データ（文字画像）、認識した文字の大きさ、フォントなどの付帯情報を生成し、文書ファイル生成部４０６に引き渡す。また文字認識部４０４は、文字認識処理の結果である候補文字とその認識度とを対応付けたリストを生成し、これを付帯情報として文字認識部４０４に引き渡す。図５（Ｂ）は、文字認識部４０４により生成されたテキスト文字情報および付帯情報（位置、大きさ、フォント）をあらわす図となっている。

文字消去部４０５は、前処理部４０１から引き渡された前処理後の画像、および文字領域抽出部４０３により引き渡された文字部領域情報を用いて、前処理後の画像から文字を除外した画像を生成する。この生成後の画像を「文字抜き画像」と称し、一例を図５（Ｃ）に示す。文字消去部４０５は、前処理後の画像から、文字部領域情報に示される部分を除外した文字抜き画像を生成するが、除外した部分の各画素の値（画素値）については、周囲の画素値から補間値を算出して、割り当てるものとする。文字消去部４０５は、このようにして生成した文字抜き画像を、文書ファイル生成部４０６に引き渡す。尚、文字抜き画像に関しては、画像領域ごとに分割し、領域ごとの画像、位置情報を付記する形式で保存することも想定される。

文書ファイル生成部４０６は、テキスト文字情報、付帯情報、および文字抜き画像に基づき、既存のワードプロセッサ用ソフトウェアで閲覧や編集を行うことのできる文書ファイルを出力する。この文書ファイルは、図５（Ｄ）に示すように、テキスト文字情報を文字抜き画像に重畳させた形式で表示される。

ここで本実施形態により生成される文書ファイルについて説明する。本実施形態では、「Open XML」のファイルフォーマットで文書ファイルを作成する。「Open XML」は、ISO/IEC 29500として標準化されたｘｍｌベースのフォーマットであり、複数のファイルやフォルダから構成される。「Open XML」を構成する各ファイルの中には、例えばテキストのコンテンツを記述する「document.xml」、使用するフォントを規定する「fontTable.xml」、テキストのスタイルを規定する「styles.xml」などが含まれている。各ファイルはｘｍｌ形式のテキストデータであるため、バイナリデータに比べて容易に視認することができ、且つこれら各ファイルを容易に編集することができる。文書ファイル生成部４０６は、「Open XML」を構成する各ファイルを圧縮して１つのファイルにまとめ、当該圧縮ファイルに「docx」の拡張子を付与して文書ファイルを生成する。

このようにして生成された文書ファイルは、ファイルサーバ１２０などの利用者が指定した送信先に送られる。利用者は、ＰＣ１４０、１５０でワードプロセッサソフトウェアを起動し、ファイルサーバ１２０にアクセスすることで、生成された文書ファイルを閲覧、編集する。

尚、ここでは文字を画像から除去して文字抜き画像を生成し、テキストデータを文字抜き画像に重畳する例を示したが、例えば罫線や矢印などのオブジェクト（図形）を操作可能とするため、画像（ラスタデータ）からオブジェクトの領域を抽出してベクタライズしてもよい。

図５（Ｄ）では、第１候補の認識度がいずれの文字においても常に高かった場合の文書ファイルを例示している。これに対し、第１候補の認識度が低い文字があり、当該文字について複数の候補文字がある場合の表示例を図６に例示する。

本実施形態の手法により生成された文書ファイルを開いて閲覧状態にすると、図６（Ａ）に示すように境界線６０３を境にして２つの領域が画面上に形成される。ここでは、一方をコンテンツ領域６０１（第１領域）とし、他方をコメント領域６０２（第２領域）とする。

コンテンツ領域６０１は、テキスト文字情報を配置した表示構成となっており、第１候補の文字がコンテンツ領域６０１内に配置される。コメント領域６０２は、コンテンツ領域６０１よりも表示面積の小さい領域であり、候補文字が表示される領域となっている。

図６（Ａ）の文字６１１に示すように、第１候補の認識度が第１の閾値（後述のＴｈ＿Ａ）を下回る場合、その他の候補文字６０４が文字６１１とリンク線６０５で紐づけられてコメント領域６０２に表示される。図６（Ａ）の例では、「優」の文字についての認識度が低いため、その他の候補文字６０４（「憂」の文字）がコメント領域６０２に表示される。このように本実施形態では、認識された文字の表示領域と分けて候補文字を表示し、且つ認識された文字とその他の候補文字とを同時に表示する。

図６（Ｂ）の例では、認識度がさらに低く、適当な文字を第１候補として選定できなかったケースを例示している。本実施形態では、第１候補の認識度が第２の閾値（後述のＴｈ＿Ｂ。第２の閾値＜第１の閾値）を下回る場合、当該文字の元画像６０６をコメント領域６０２に挿入して、利用者に文字の判別を促す。このように該当文字の元画像を切り出して貼り付けることで、利用者に実際の文字画像を視認してもらい、正規文字の想起を促すことができる。

利用者は、コメント領域６０２内に記載されている内容を確認しながらコンテンツ領域６０１内の文字を直接編集することで、正規の文書ファイルとなるように修正することができる。また文書ファイルの印刷を行う際にも、図６の各図に示される状態で印刷される。また、不要となった場合はコメント領域内６０２内の候補文字を削除する操作を行うことで、コンテンツ領域６０１のみの文書ファイルとすることができる。

図７は、文字認識装置４００の全体動作例を示すフローチャートである。

スキャナ部２３１は、操作パネル２４０を介して利用者から文字認識の実行指示を受け付けると、読み取り面に載置された原稿シートをスキャンして電子データに変換する。これにより、スキャン画像が生成される（Ｓ００１）。

前処理部４０１は、スキャン画像に対してシェーディング補正等の前処理を行う（Ｓ００２）。２値化部４０２は、前処理後の画像を取得して、２値化画像を生成する（Ｓ００３）。文字領域抽出部４０３は、２値化画像を取得して、当該２値化画像内で文字が描かれた矩形領域を特定する。そして文字領域抽出部４０３は、特定した矩形領域の２値化画像内での位置、および当該矩形領域の切り出しを行い、文字部２値化画像を生成する（Ｓ００４）。

文字認識部４０４は、既存のＯＣＲ技術を用いて、文字部２値化画像に描かれている文字およびフォントの認識処理を行うと共に、文字サイズについての判別を行う（Ｓ００５）。文字認識部４０４は、認識度の高い順で、認識した候補文字と当該候補文字の認識度と対応付けたリストを作成し、作成したリストに識別情報（「ＩＤ」と称する）を付与する。このようにして生成されるデータのうち、第１候補の文字がテキスト文字情報であり、候補文字のリスト（第１候補もリスト内に含まれる）、ＩＤ、フォント、文字サイズ、処理対象となる文字画像、および位置情報を含めたデータ構造が付帯情報である。テキスト文字情報および付帯情報は、文字を認識した数だけ生成される。

一方、文字消去部４０５は、前処理部４０１から前処理後の画像を取得し、文字領域抽出部４０３から文字部領域情報を取得して、文字抜き画像を作成する（Ｓ００５）。

文書ファイル生成部４０６は、テキスト文字情報、付帯情報を、文字ごとに文字認識部４０４から取得し、文字抜き画像を文字消去部４０５から取得する。そして文書ファイル生成部４０６は、所定のフォーマットの文書ファイルを生成する（Ｓ００７）。文書ファイル生成部４０６の詳細動作については、図８、図９を用いて後述する。

文書ファイル生成部４０６は、生成した文書ファイルを、ファイルサーバ１２０内の利用者が指定したフォルダに送信する（Ｓ００８）。これにより利用者は、文書ファイルにアクセスし、規定のワードプロセッサソフトウェアを使用して閲覧、編集などの作業を行うことができる。

図８は、Ｓ００７の文書ファイル作成処理の詳細動作を例示するフローチャートである。図８のフローチャートでは、スキャナ部２３１を介して、対象とする原稿シートがすべて読み込まれて、すべてのページにおいて、文字抜き画像、テキスト文字情報、および付帯情報が抽出されているものとする。

文書ファイル生成部４０６は、まずは文書ファイルを新規に作成する（Ｓ１０１）。文書ファイル生成部４０６は、文書ファイルを保存するためのファイルのオープン、ならびに文書ファイル全体で用いられる共通コードを作成して保存する。

文書ファイル生成部４０６は、次に「ページ毎処理ループ」を実施する（Ｓ１０２Ａ～Ｓ１０２Ｂ）。このループを抜ける条件は、「次ページが存在するか」であり、文書ファイル生成部４０６は、入力された１ページないし複数ページの全ての処理が終わるまで、Ｓ１０２ＡからＳ１０２Ｂまでの各ステップを実行する。

文書ファイル生成部４０６は、ページ追加処理を行う（Ｓ１０３）。ここでは、１ページ毎に必要な、文書ファイルの生成すべきコードを作成して保存する。

文書ファイル生成部４０６は、文字抜き画像がページの背景画像となるように貼り付ける（Ｓ１０４）。ここでは、文字抜き画像をＳ１０３で生成した１ページの画像に貼り付ける。

文書ファイル生成部４０６は、「文字領域毎処理ループ」を実施する（Ｓ１０５Ａ～Ｓ１０５Ｂ）。このループは、１ページ内の文字領域ごとに処理を行うものであり、当該ページで文字領域が無くなると、文書ファイル生成部４０６はこのループを抜ける。ここでの文字領域とは、文字領域抽出部４０３により抽出された連続した文字列（例えば画像内の１行分の文字列）を含めた矩形領域を意味し、同じ位置情報となっている文字同士は、同じ文字領域に属するものとして扱われる。また文書ファイル生成部４０６は、この付帯情報内の位置情報を用いて、次の文字領域の有無を判定している。

文書ファイル生成部４０６は、「文字領域毎処理ループ」内で「一文字毎処理ループ」を実施する（Ｓ１０６Ａ～Ｓ１０６Ｂ）。ここでは、文字領域内の文字列を構成する一文字ごとの処理となり、文字領域内に処理対象の文字が無くなるまで、「一文字出力処理」（Ｓ１０７）が繰り返し行われる。

図９は、Ｓ１０７の「一文字出力処理」についての詳細動作を例示するフローチャートである。図９のフローチャートは、文字認識部４０４が生成したリスト（候補文字と認識度とを対応付けて認識度順としたリスト）を上から１行ずつ順に処理するものである。また図９中の各符号は、以下を意味している。
・ｎは、候補文字の数（リスト内のレコード件数）。
・Ｃ（ｋ）は、第ｋ候補の文字（Ｃ（１）が第１候補文字）。
・Ｐ（ｋ）は、第ｋ候補の文字の認識度（Ｐ（１）が第１候補文字の認識度）。Ｐ（ｋ）については、以下の関係が成立しているものとする。

また、Ｔｈ＿ｘは、文字の認識度と比較するための閾値であり、比較結果により各文字の配置構成が変わる。本実施形態では、Ｔｈ＿Ａ＞Ｔｈ＿Ｂ＞Ｔｈ＿Ｃの関係を有するものとする。

ここで図９のフローチャートの概要について説明する。第１候補文字Ｃ（１）の認識度Ｐ（１）が閾値Ｔｈ＿Ａよりも大きかった場合、注目した文字は第１候補文字Ｃ（１）であると決定し、Ｃ（１）をコンテンツ領域６０１に配置する。またＰ（１）が閾値Ｔｈ＿Ａと閾値Ｔｈ＿Ｂとの範囲内である場合、当該第１候補文字Ｃ（１）をコンテンツ領域６０１に配置するとともに、その他の候補（Ｔｈ＿Ｃ以上の認識度の候補文字）をコメント領域６０２に配置する。Ｐ（１）がＴｈ＿Ｂを下回る場合は、当該注目した文字の元画像（＝文字画像）をコメント領域６０２に表示する。

引き続き、図９のフローチャートの詳細動作について説明する。

文書ファイル生成部４０６は、リストの最初の１行、すなわち最も認識度の高かった第１候補文字Ｃ（１）とその認識度Ｐ（１）をリストから取得し、Ｐ（１）と閾値Ｔｈ＿Ａとを比較する（Ｓ２０１）。ここでＰ（１）がＴｈ＿Ａよりも大きい場合（Ｓ２０１：Ｙｅｓ）、文書ファイル生成部４０６は、Ｃ（１）をコンテンツ領域６０１に配置する（Ｓ２０７）。ここでは、「Open XML」の「document.xml」にＣ（１）を組み入れる処理となる。Ｓ２０７を通る処理の場合、誤認識の発生していない正当な認識結果であったものとして扱われ、他の候補文字をコメント領域６０２に配置することなく、処理終了となる。

一方、Ｐ（１）がＴｈ＿Ａ以下の場合（Ｓ２０１：Ｎｏ）、文書ファイル生成部４０６は、次にＰ（１）と閾値Ｔｈ＿Ｂとを比較する（Ｓ２０２）。ここでＰ（１）がＴｈ＿Ｂよりも大きい場合（Ｓ２０２：Ｙｅｓ）、文書ファイル生成部４０６は、Ｃ（１）をコンテンツ領域６０１に配置し（Ｓ２０３）、処理をＳ２１０Ａへ進める。

Ｐ（１）がＴｈ＿Ｂ以下である場合（Ｓ２０２：Ｎｏ）、文書ファイル生成部４０６は注目した文字に対応する元画像を、コメント領域６０２に貼り付ける（Ｓ２０４）。文書ファイル生成部４０６は、該当の元画像に識別情報を付与して「Open XML」の「media」フォルダに格納する。そして文書ファイル生成部４０６は、「Open XML」の「comments.xml」内に「認識度の低い文字です。」などの文字列とともに、元画像の識別情報を登録する。

次いで文書ファイル生成部４０６は、Ｐ（１）と閾値Ｔｈ＿Ｃとを比較する（Ｓ２０５）。Ｐ（１）がＴｈ＿Ｃ以下の場合（Ｓ２０５：Ｎｏ）、１文字も候補文字に相当するものが見つけられなかったとして扱い、図９の処理は終了となる。一方、Ｐ（１）がＴｈ＿Ｃよりも大きい場合（Ｓ２０５：Ｎｏ）、Ｃ（１）を候補文字としてコメント領域６０２にテキストデータとして配置して（Ｓ２０６）、Ｓ２１０Ａへ処理を進める。Ｓ２０６において、文書ファイル生成部４０６は「comments.xml」内にＣ（１）の文字（テキストデータ）とＩＤとを登録し、「document.xml」の該当位置に同じＩＤを記述することで対応付けを行う。尚、ここでは付帯情報内のＩＤを用いるものとするが、新たに払い出したＩＤでもよい。

Ｓ２０３にてＣ（１）をコンテンツ領域６０１に配置した後、もしくはＳ２０５にてＣ（１）をコメント領域６０２に配置した後、文書ファイル生成部４０６は、Ｓ２１０Ａ～Ｓ２１０Ｂのループ処理を実行する。このループ処理では、変数ｋを２～ｎに順次変更しながら行われる。

文書ファイル生成部４０６は、Ｐ（ｋ）と閾値Ｔｈ＿Ｃとを比較し（Ｓ２１１）、Ｐ（ｋ）がＴｈ＿Ｃ以上である場合（Ｓ２１１：Ｙｅｓ）、Ｃ（ｋ）を候補として扱い、コメント領域６０２に配置する（Ｓ２１２）。ここでは、「comments.xml」内にＣ（ｋ）の文字（テキストデータ）、ＩＤを登録するとともに、当該ＩＤを「document.xml」の該当位置に付与して対応付ける動作となる。一方、Ｐ（ｋ）がＴｈ＿Ｃを下回る場合（Ｓ２１１：Ｎｏ）、当ループを抜けて図９の処理は終了となる。

このような処理が行われることで、図６で説明した表示形式を持った文書ファイルを生成することができる。尚、図６（Ａ）の文字６１１は、Ｓ２０３を経由してＳ２１０Ａ～Ｓ２１０Ｂのループ処理が行われた場合の表示例であり、各閾値との関係が以下のとおりであった場合の表示例である。
Ｔｈ＿Ｂ＜Ｐ（１）≦Ｔｈ＿Ａ
Ｐ（２）≧Ｔｈ＿Ｃ
Ｐ（３）＜Ｔｈ＿Ｃ
尚、図６（Ａ）において、Ｃ（１）は「優」であり、Ｃ（２）は「憂」である。

図６（Ｂ）の空欄６１１Ａの箇所は、第１候補の認識度がＴｈ＿Ｃよりも低く（Ｐ（１）≦Ｔｈ＿Ｂ）、Ｔｈ＿Ｃよりも大きい場合（Ｔｈ＿Ｃ＜Ｐ（１））の例であり、Ｓ２０４、Ｓ２０５を経由して、Ｓ２１０Ａ～Ｓ２１０Ｂのループ処理が行われた場合の表示例である。尚、第１候補の認識度が低い場合、本実施形態では図６（Ｂ）のようにコンテンツ領域６０１に第１候補を配置せずに空欄とするが、第１候補については常にコンテンツ領域６０１に配置する実装でもよい。

上記の実施形態では、１文字ごとに処理を行い、１文字ごとに候補となる文字をコメント領域に配置する方法を記載しているが、単語・文節レベル等の文字列ごとにひとまとめにして処理を行い、コメント領域に配置することも可能である。

また本実施形態では、ＯＣＲによる文字認識の認識確度に合わせて、「コメント機能」を用いて他の候補文字を表示、もしくはスキャン画像を添付することができる。これにより、利用者にもとの文字を推測するための手がかりを与えることができる。

また誤認識があった場合の修正作業においても、コメント領域に配置されている候補のうちで正当な文字がある場合は、「コピー＆ペースト」の操作を行うことで、利用者は容易に文字を置き換えることが可能となる。

尚、図６などに示した表示形式は、あくまでも一例である。同じオフィス系のアプリケーションを用いても、閲覧モードやアウトラインモードなどの表示モードの切り替えによって表示形式が変化したり、バージョンの差異によっては見え方が変更されたりすることもあり得る。本実施形態では、認識した文字（第１候補）と、その他の候補文字とを紐付けたデータを生成し、これらが紐付けられて表示する構成であればよい。換言すると、本実施形態では、認識した文字（第１候補）と、その他の候補文字とを対応付けて表示可能となるような形式のデータを生成できればよい。このようなデータ形式として、本実施形態では「Open XML」を例示したが、他のデータ形式であっても構わない。

本実施形態では、画像形成装置内に文字認識装置が組み入れられている態様について説明したが、上記で説明した文字認識装置の機能は、ＰＣ１４０やスマートフォンなどに組み入れられてもよい。また、スマートフォンなどのカメラ付き携帯端末で原稿シートを接写し、これをスキャン画像として用いてもよい。尚、カメラ機能によって原稿を接写することを含めて、原稿をスキャンして読み取る、と表現してもよい。また、「スキャン画像」は、本実施形態ではスキャン部により読み取られた画像そのままを指すものとして説明したが、読み取られた画像に対して画像処理（前処理や２値化処理など）を行った後の画像を、「スキャン画像」と称してもよい。

上記の文書ファイル生成部では、第１候補をコンテンツ領域に表示し、その他の候補文字をコメント領域に表示する形式の文書ファイルを作成するものとした。これ以外にも、その他の候補文字については第１候補と書体を異ならせて表示する形式とした文書ファイルを作成してもよい。ここで書体とは、フォント透明度やフォント種別、フォントサイズ、フォントの色、太字、斜体、アンダーラインやマーカーの付与の有無、文字色と背景色とを反転させるなどを意味する。また、候補文字同士においても、認識度の違いに応じて相互に書体を変更してもよい。すなわち本実施形態の文書ファイル生成部は、最も認識度の高かった第１候補とその他の候補文字とを、態様を異ならせて同時に表示する形式、且つ利用者により編集可能な形式の文書ファイルを生成する。尚、第１候補とその他の候補とで書体を異ならせた場合、当該その他の候補をコンテンツ領域に配置してもよい。

以上、上記で説明した各実施形態の態様により、ＯＣＲによる文字認識で誤認識があった場合でも、利用者にもとの文字を推測するための手がかりを与えることができる。

１１０：画像形成装置
１２０：ファイルサーバ
１４０、１５０：ＰＣ
２１０：コントローラ
２３１：スキャナ部
２３２：プリンタ部
２４０：操作パネル
４００：文字認識装置
４０１：前処理部
４０３：文字領域抽出部
４０４：文字認識部
４０５：文字消去部
４０６：文書ファイル生成部
６０１：コンテンツ領域
６０２：コメント領域

特開２０１０－２１１４７０号公報

Claims

原稿を読み取って得られたスキャン画像に描かれている文字をデジタルデータに変換する文字認識装置であって、
スキャン画像に対して文字認識処理を行い、認識した文字または文字列ごとに、候補となる文字または文字列と当該候補の確からしさをあらわす認識度とを対応付けたデータを生成する文字認識部と、
前記文字認識部により認識された文字または文字列の候補の中から最も認識度の高い第１候補を表示し、当該第１候補よりも前記認識度が低いその他の候補を、前記第１候補とは態様を異ならせて、前記第１候補に対応付けて当該第１候補と同時に表示する形式の文書ファイルを生成する文書ファイル生成部と、
を有し、
前記文書ファイル生成部は、前記第１候補を第１領域に表示し、前記その他の候補を前記第１領域よりも表示面積の小さい第２領域に表示し、
前記第１候補と前記その他の候補との対応付けを、前記第１領域から第２領域へと至る線分を用いて対応関係を視覚により認識可能な状態で表示する形式の文書ファイルを生成する、
ことを特徴とする文字認識装置。
前記文書ファイル生成部は、さらに、前記文字認識部により認識された文字または文字列が描かれた元画像を、前記第２領域に表示する形式の文書ファイルを生成する、
ことを特徴とする請求項１に記載の文字認識装置。
前記文書ファイル生成部は、利用者により編集可能な形式で前記文書ファイルを生成する、
ことを特徴とする請求項１又は２に記載の文字認識装置。
原稿を読み取って得られたスキャン画像に描かれている文字をデジタルデータに変換する文字認識装置の文書ファイル生成方法であって、
スキャン画像に対して文字認識処理を行い、認識した文字または文字列ごとに、候補となる文字または文字列と当該候補の確からしさをあらわす認識度とを対応付けたデータを生成し、
認識された文字または文字列の候補の中から最も認識度の高い第１候補を表示し、当該第１候補よりも前記認識度が低いその他の候補を、前記第１候補とは態様を異ならせて、前記第１候補に対応付けて当該第１候補と同時に表示する形式の文書ファイルを生成し、
前記文書ファイルの生成において、
前記第１候補を第１領域に表示し、前記その他の候補を前記第１領域よりも表示面積の小さい第２領域に表示し、
前記第１候補と前記その他の候補との対応付けを、前記第１領域から第２領域へと至る線分を用いて対応関係を視覚により認識可能な状態で表示する、
形式の文書ファイルを生成する、
ことを特徴とする文書ファイル生成方法。
原稿を読み取って得られたスキャン画像に描かれている文字をデジタルデータに変換するコンピュータによって実行される文書ファイル生成プログラムであって、
スキャン画像に対して文字認識処理を行い、認識した文字または文字列ごとに、候補となる文字または文字列と当該候補の確からしさをあらわす認識度とを対応付けたデータを生成し、
認識された文字または文字列の候補の中から最も認識度の高い第１候補を表示し、当該第１候補よりも前記認識度が低いその他の候補を、前記第１候補とは態様を異ならせて、前記第１候補に対応付けて当該第１候補と同時に表示する形式の文書ファイルを生成し、
前記文書ファイルの生成において、
前記第１候補を第１領域に表示し、前記その他の候補を前記第１領域よりも表示面積の小さい第２領域に表示し、
前記第１候補と前記その他の候補との対応付けを、前記第１領域から第２領域へと至る線分を用いて対応関係を視覚により認識可能な状態で表示する、
形式の文書ファイルを生成する、
ことを、コンピュータに実行させるための文書ファイル生成プログラム。