JP2022092917A

JP2022092917A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2022092917A
Application number: JP2020205910A
Authority: JP
Inventors: 悠貴鳴海; Yuki NARUMI
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2022-06-23
Also published as: US20220189187A1; US11908215B2

Abstract

【課題】不連続に記載された本来的に一続きの手書き文字についての文字認識精度を向上させることを目的とする。【解決手段】文書をスキャンして得られた文書画像から手書き文字に対応する画像領域を分離して、ベースラインが同じ文字から成る文字ブロックを抽出する。そして、複数の文字ブロックが抽出された場合、当該複数の文字ブロックの位置関係に基づいて、文字ブロック同士を結合して単一の文字ブロックを生成する。【選択図】図１２

Description

本発明は、文書画像から文字情報を抽出する技術に関する。

従来、文書をスキャンして得られた文書画像内の文字を読み取って認識する技術がある。この技術は一般にＯＣＲ（Optical Character Recognition）と呼ばれる。ＯＣＲ処理は通常、文書画像をＯＣＲに適した画像に修正する画像前処理、文書画像から文字の記載領域（文字ブロック）を抽出する処理、抽出された文字ブロックに含まれる各文字をその読み順（並び方向）に沿って識別する文字認識処理とで構成される。そして、近年の文字認識処理は、文字認識精度を高めるべく、言語学習による意味解釈を行うなどして、文字ブロック内に存在する複数の文字における前後の接続関係から出現可能性の高い文字を判断する機能（言語モデル機能）を有するものもある。この場合、特定の項目に関するなど意味のまとまりを持つ文字ブロックの単位で入力することによって、さらに文字認識精度を高めることが期待できる。つまり、前段のブロック抽出において、文書内の項目等の単位で正確に文字ブロックを抽出することが極めて重要である。この点、例えば文字行認識（文字がどの行に属するかの判断）に関わる先行技術として、特許文献１及び特許文献２がある。

まず特許文献１は、文書画像の湾曲などに対して文字行認識の誤りを回避する技術を開示する。具体的には、隣接する二つの文字が同一行に属するかどうかを、隣接する二つの文字の外接矩形同士の縦方向の重なり度から判定し、それを繰り返すことで文字行認識を行う方法が開示されている。また、特許文献２は、歪みの大きい文字列（立体物への印字やプリンタ故障による印字のずれなど）に対して文字行認識を行う技術を開示する。隣接するどの文字が同一行に属するかを、文字の重なり度合いや特徴の類似度合いといった連結の強さで比較し、連結が強い方の候補行を選択する方法が開示されている。

特開平８－４４８１９号公報特開２０１４－２２８９５３号公報

一般的にアンケート用紙や申込用紙といった手書き文字の混在する文書の場合、手書き文字が不連続なベースラインで書かれていることが少なくない。これは、記入者が用紙内に設けられた記入欄等に記入する際、予め各文字の配置を考えてから書き始めるのではなく、書き進めながら、残りの空白とこれから記入したい文字とのバランスを考えつつその配置を決定することが多いためである。例えば、枠に印字されている文字を避けるためにベースラインの高さを途中で変えたり、枠内に書きたいことを収めるために途中で改行したりといった行動を一般的にしがちである。その結果、記入欄等の枠の中に記載された手書き文字については、不規則な改行やベースラインのずれによって、複数の文字ブロックに分離してしまうことになる。しかしながら、例えば「住所記入欄」のような特定の項目について記入された手書き文字については、本来的には一続きの文字列として扱うことが望ましい。不規則な改行やベースラインのずれによってバラバラになった文字ブロックに対してＯＣＲ処理を行った場合、左から右へといったリーディングオーダーに従う上述の言語モデル機能が上手く働かないなど、文字認識精度が低下してしまう虞があるためである。そして、上述のような人間の手書き時の特性に依って発生する不連続な文字列については、上記特許文献１や特許文献２の手法では対処することができない。

本発明は、上記実情に鑑みてなされるものであり、不連続に記載された本来的に一続きの手書き文字についての文字認識精度を向上させることを目的とする。

本開示に係る情報処理装置は、文書をスキャンして得られた文書画像から手書き文字の文字情報を取得するための情報処理装置であって、前記文書画像から、前記手書き文字に対応する第１の画像領域を分離する分離手段と、分離された前記第１の画像領域から、ベースラインが共通し近接する文字から成る文字ブロックを抽出する解析手段と、前記解析手段によって複数の文字ブロックが抽出された場合、当該複数の文字ブロックの位置関係に基づいて、文字ブロック同士を結合して単一の文字ブロックを生成する結合手段と、を備えたことを特徴とする。

本開示の技術によれば、不連続に記載された本来的に一続きの手書き文字についての文字認識精度を向上させることができる。

画像処理システムの全体構成を示す図ＭＦＰのハードウェア構成を示すブロック図ＭＦＰ連携サーバ及びストレージサーバのハードウェア構成を示すブロック図画像処理システムのソフトウェア構成を示すブロック図画像処理システム全体の処理の流れを示すシーケンス図メイン画面」と表記）の一例を示す図ログイン画面の一例を示す図スキャン設定画面の一例を示す図（ａ）～（ｃ）は、レスポンスの一例を示す図ストレージ保存画面の一例を示す図ファイル名設定画面の一例を示す図画像解析処理の流れを示すフローチャート（ａ）～（ｃ）は、手書き文字分離処理の説明図（ａ）は手書き文字画像に対する領域解析処理の結果の一例を示す図、（ｂ）は手書き文字ブロック結合処理の結果の一例を示す図実施形態１に係る、手書き文字ブロック結合処理の詳細を示すフローチャート原本画像における記入領域の一例を示す図（ａ）は手書き文字画像に対する領域解析処理の結果の一例を示す図、（ｂ）は手書き文字ブロック結合処理の結果の一例を示す図実施形態２に係る、手書き文字ブロック結合処理の詳細を示すフローチャート（ａ）は手書き文字画像に対する領域解析処理の結果の一例を示す図、（ｂ）は手書き文字ブロック結合処理の結果の一例を示す図実施形態３に係る、手書き文字ブロック結合処理の詳細を示すフローチャート

以下、本発明を実施するための形態について図面を用いて説明する。なお、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。

［実施形態１］
＜システム構成＞
図１は、本実施形態に係る、画像処理システムの全体構成を示す図である。画像処理システムは、ＭＦＰ（Multifunction Peripheral）１１０と、インターネット上でクラウドサービスを提供するサーバ装置１２０及び１３０とを含む。ＭＦＰ１１０は、インターネットを介してサーバ装置１２０及び１３０と通信可能に接続されている。

ＭＦＰ１１０は、スキャン機能を有する情報処理装置の一例である。ＭＦＰ１１０は、スキャン機能に加え印刷機能やＢＯＸ保存機能といった複数の機能を有する複合機である。サーバ装置１２０及び１３０は、共にクラウドサービスを提供する情報処理装置の一例である。本実施形態のサーバ装置１２０は、ＭＦＰ１１０から受け取ったスキャン画像に対し画像解析を行ったり、別のサービスを提供するサーバ装置１３０に対しＭＦＰ１１０からのリクエストを転送したりするクラウドサービスを提供する。以下、サーバ装置１２０が提供するクラウドサービスを「ＭＦＰ連携サービス」と呼ぶこととする。サーバ装置１３０は、インターネットを介して送られてきたファイルを保存したり、モバイル端末（不図示）などのウェブブラウザからの要求に応じて保存ファイルを提供したりするクラウドサービス（以下、「ストレージサービス」と呼ぶ）を提供する。本実施形態では、ＭＦＰ連携サーバを提供するサーバ装置１２０を「ＭＦＰ連携サーバ」と呼び、ストレージサービスを提供するサーバ装置１３０を「ストレージサーバ」と呼ぶこととする。

図１に示す画像処理システム１００の構成は一例であって、これに限定されない。例えば、ＭＦＰ連携サーバ１２０の機能をＭＦＰ１１０が兼ね備えていてもよい。また、ＭＦＰ連携サーバ１２０はインターネット上ではなくＬＡＮ（Local Area Network）経由でＭＦＰ１１０と接続されていてもよい。また、ストレージサーバ１３０を、メール配信サービスを行うメールサーバに置き換えて、文書のスキャン画像をメールに添付し送信する場面に適用してもよい。

＜ＭＦＰのハードウェア構成＞
図２は、ＭＦＰ１１０のハードウェア構成を示すブロック図である。ＭＦＰ１１０は、制御部２１０、操作部２２０、プリンタ部２２１、スキャナ部２２２、モデム２２３で構成される。制御部２１０は、以下の各部２１１～２１９で構成され、ＭＦＰ１１０全体の動作を制御する。ＣＰＵ２１１は、ＲＯＭ２１２に記憶された様々な制御プログラム（後述のソフトウェア構成図で示す各種機能に対応するプログラム）を読み出して実行する。ＲＡＭ２１３は、ＣＰＵ２１１の主メモリ、ワークエリア等の一時記憶領域として用いられる。なお、本実施例では１つのＣＰＵ２１１が１つのメモリ（ＲＡＭ２１３またはＨＤＤ２１４）を用いて後述のフローチャートに示す各処理を実行するものとするが、これに限定されない。例えば、複数のＣＰＵや複数のＲＡＭまたはＨＤＤを協働させて各処理を実行してもよい。ＨＤＤ２１４は、画像データや各種プログラムを記憶する大容量記憶部である。操作部Ｉ／Ｆ２１５は、操作部２２０と制御部２１０とを接続するインタフェースである。操作部２２０には、タッチパネルやキーボードなどが備えられており、ユーザによる操作／入力／指示を受け付ける。なお、タッチパネルへのタッチ操作には、人の指による操作やタッチペンによる操作が含まれる。プリンタＩ／Ｆ２１６は、プリンタ部２２１と制御部２１０とを接続するインタフェースである。印刷用の画像データはプリンタＩ／Ｆ２１６を介して制御部２１０からプリンタ部２２１へ転送され、紙等の記録媒体上に印刷される。スキャナＩ／Ｆ２１７は、スキャナ部２２２と制御部２１０とを接続するインタフェースである。スキャナ部２２２は、不図示の原稿台やＡＤＦ（Auto Document Feeder）にセットされた原稿を光学的に読み取ってスキャン画像データを生成し、スキャナＩ／Ｆ２１７を介して制御部２１０に入力する。スキャナ部２２２で生成されたスキャン画像データは、プリンタ部２２１にて印刷したり（コピー出力）、ＨＤＤ２１４に保存したり、ＬＡＮを介してＭＦＰ連携サーバ１２０等の外部装置にファイル送信したりすることができる。モデムＩ／Ｆ２１８は、モデム２２３と制御部２１０とを接続するインタフェースである。モデム２２３は、ＰＳＴＮ上のファクシミリ装置（不図示）との間で画像データをファクシミリ通信する。ネットワークＩ／Ｆ２１９は、制御部２１０（ＭＦＰ１１０）をＬＡＮに接続するインタフェースである。ＭＦＰ１１０は、ネットワークＩ／Ｆ２１９を用いて、スキャン画像データをＭＦＰ連携サーバ１２０に送信したり、ＭＦＰ連携サーバ１２０から各種データを受信したりする。以上説明したＭＦＰ１１０のハードウェア構成は一例であり、必要に応じてその他の構成を備えるものであってもよいし、一部の構成を有していなくてもよい。

＜サーバ装置のハードウェア構成＞
図３は、ＭＦＰ連携サーバ１２０／ストレージサーバ１３０のハードウェア構成を示すブロック図である。ＭＦＰ連携サーバ１２０とストレージサーバ１３０は共通のハードウェア構成を有し、ＣＰＵ３１１、ＲＯＭ３１２、ＲＡＭ３１３、ＨＤＤ３１４及びネットワークＩ／Ｆ３１５で構成される。ＣＰＵ３１１は、ＲＯＭ３１２に記憶された制御プログラムを読み出して各種処理を実行することで、全体の動作を制御する。ＲＡＭ３１３は、ＣＰＵ３１１の主メモリ、ワークエリア等の一時記憶領域として用いられる。ＨＤＤ３１４は、画像データや各種プログラムを記憶する大容量記憶部である。ネットワークＩ／Ｆ３１５は、制御部３１０をインターネットに接続するインタフェースである。ＭＦＰ連携サーバ１２０及びストレージサーバ１３０は、ネットワークＩ／Ｆ３１５を介して他の装置（ＭＦＰ１１０など）から様々な処理のリクエストを受け、当該リクエストに応じた処理結果を返す。

＜画像処理システムのソフトウェア構成＞
図４は、本実施形態に係る、画像処理システム１００のソフトウェア構成を示すブロック図である。以下、画像処理システム１００を構成するＭＦＰ１１０及び、ＭＦＰ連携サーバ１２０及びストレージサーバ１３０それぞれの役割に対応したソフトウェア構成を、順に説明する。なお、以下では、各装置が有する諸機能のうち、文書をスキャンして電子化（ファイル化）し、ストレージサーバ１３０に保存を行うまでの処理に関わる機能に絞って説明を行うものとする。

≪ＭＦＰのソフトウェア構成≫
ＭＦＰ１１０の機能モジュールは、ネイティブ機能モジュール４１０とアディショナル機能モジュール４２０の２つに大別される。ネイティブ機能モジュール４１０はＭＦＰ１１０に標準的に備えられたアプリケーションであるのに対し、アディショナル機能モジュール４２０はＭＦＰ１１０に追加的にインストールされたアプリケーションである。アディショナル機能モジュール４２０は、Ｊａｖａ（登録商標）をベースとしたアプリケーションであり、ＭＦＰ１１０への機能追加を容易に実現できる。なお、ＭＦＰ１１０には図示しない他の追加アプリケーションがインストールされていてもよい。

ネイティブ機能モジュール４１０は、スキャン実行部４１１およびスキャン画像管理部４１２を有する。また、アディショナル機能モジュール４２０は、表示制御部４２１、スキャン制御部４２２、連携サービスリクエスト部４２３、画像処理部４２４を有する。

表示制御部４２１は、操作部２２０のタッチパネルに、各種のユーザ操作を受け付けるためのユーザインタフェース画面（ＵＩ画面）を表示する。各種のユーザ操作には、例えば、ＭＦＰ連携サーバ１２０へアクセスするためのログイン認証情報の入力、スキャン設定、スキャンの開始指示、ファイル名設定、ファイルの保存指示などがある。

スキャン制御部４２２は、ＵＩ画面でなされたユーザ操作（例えば「スキャン開始」ボタンの押下）に応じて、スキャン設定の情報と共にスキャン実行部４１１に対しスキャン処理の実行を指示する。スキャン実行部４１１は、スキャン制御部４２２からのスキャン処理の実行指示に従い、スキャナＩ／Ｆ２１７を介してスキャナ部２４０に文書の読み取り動作を実行させ、スキャン画像データを生成する。生成したスキャン画像データは、スキャン画像管理部４１２によってＨＤＤ２１４に保存される。この際、保存されたスキャン画像データを一意に示すスキャン画像識別子の情報が、スキャン制御部４２２へ通知される。スキャン画像識別子は、ＭＦＰ１１０においてスキャンした画像をユニークに識別するための番号や記号、アルファベットなどである。スキャン制御部４２２は、例えばファイル化する対象のスキャン画像データを上記のスキャン画像識別子を使ってスキャン画像管理部４１２から取得する。そして、ファイル化のために必要な処理のリクエストをＭＦＰ連携サーバ１２０に対して行うよう、連携サービスリクエスト部４２３に対して指示する。

連携サービスリクエスト部４２３は、ＭＦＰ連携サーバ１２０に対して各種処理のリクエストを行ったり、そのレスポンスを受け取ったりする。各種処理には、例えば、ログイン認証、スキャン画像の解析、スキャン画像データの送信などが含まれる。ＭＦＰ連携サーバ１２０とのやり取りはＲＥＳＴやＳＯＡＰなどの通信プロトコルを使用される。

画像処理部４２４は、スキャン画像データに対し所定の画像処理を行って、表示制御部４２１が表示するＵＩ画面で用いられる画像を生成する。所定の画像処理の詳細については後述する。

なお、ＭＦＰ１１０とは異なる装置（不図示のクライアントＰＣなど）が、上述のアディショナル機能モジュール４２０を備えていてもよい。すなわち、ＭＦＰ１１０にて得たスキャン画像の解析リクエストや解析結果に基づくファイル名の設定等を、クライアントＰＣで行うようなシステム構成でも構わない。

≪サーバ装置のソフトウェア構成≫
まず、ＭＦＰ連携サーバ１２０のソフトウェア構成について説明する。ＭＦＰ連携サーバ１２０は、リクエスト制御部４３１、画像処理部４３２、ストレージサーバアクセス部４３３、データ管理部４３４、表示制御部４３５を有する。リクエスト制御部４３１は、外部装置からのリクエストを受信できる状態で待機しており、受信したリクエスト内容に応じて、画像処理部４３２、ストレージサーバアクセス部４３３、データ管理部４３４に対し所定の処理の実行を指示する。画像処理部４３２は、ＭＦＰ１１０から送られてくるスキャン画像データに対して、文字領域の検出処理、文字認識処理（ＯＣＲ処理）といった解析処理の他、回転や傾き補正といった画像加工処理を行う。なお、本実施形態では、処理対象の文書として、手書き欄のある入会申込書を例に説明を行うこととする。ストレージサーバアクセス部４３３は、ストレージサーバ１３０に対する処理のリクエストを行う。クラウドサービスでは、ＲＥＳＴやＳＯＡＰなどのプロトコルを用いてストレージサーバにファイルを保存したり、保存したファイルを取得したりするための様々なインタフェースを公開している。ストレージサーバアクセス部４３３は、公開されたインタフェースを使用して、ストレージサーバ１３０に対するリクエストを行う。データ管理部４３４は、ＭＦＰ連携サーバ１２０で管理するユーザ情報、画像解析結果、各種設定データ等を保持・管理する。表示制御部４３５は、インターネット経由で接続されたＰＣやモバイル端末（いずれも不図示）上で動作しているウェブブラウザからのリクエストを受けて、画面表示に必要な画面構成情報（ＨＴＭＬ、ＣＳＳ等）を返す。ユーザは、ウェブブラウザで表示される画面経由で、登録されているユーザ情報を確認したり、スキャン設定を変更したりできる。

次に、ストレージサーバ１３０のソフトウェア構成について説明する。ストレージサーバ１３０は、リクエスト制御部４４１、ファイル管理部４４２、表示制御部４４３を有する。リクエスト制御部４４１は、外部装置からのリクエストを受信できる状態で待機しており、本実施形態においてはＭＦＰ連携サーバ１２０からのリクエストに応じて、受信したファイルの保存や保存ファイルの読み出しをファイル管理部４４２に指示する。そして、リクエストに応じたレスポンスをＭＦＰ連携サーバ１２０に返す。表示制御部４４３は、インターネット経由で接続されたＰＣやモバイル端末（いずれも不図示）上で動作しているウェブブラウザからのリクエストを受けて、画面表示に必要な画面構成情報（ＨＴＭＬ、ＣＳＳ等）を返す。ユーザは、ウェブブラウザで表示される画面経由で、保存ファイルを確認したり取得したりすることができる。

＜画像処理システム全体の処理の流れ＞
図５は、ＭＦＰ１１０で文書をスキャンし、得られた文書画像をファイル化してストレージサーバに保存する際の、装置間の処理の流れを示すシーケンス図である。図６はＭＦＰ１１０の起動時に表示されるメインメニューのＵＩ画面（以下、「メイン画面」と表記）の一例を示す図である。文書をスキャンしてファイル化し、クラウドストレージサービスの利用に必要な専用のアプリケーションをＭＦＰ１１０にインストールすることで、メイン画面６００上に「スキャンしてクラウドストレージに保存」ボタン６０１が表示されるようになる。そして、ユーザがメイン画面６００内に表示されたメニューボタンの中から「スキャンしてクラウドストレージに保存」ボタン６０１を押下すると、図５のシーケンス図で示される一連の処理が開始する。なお、図５のシーケンス図は、スキャン画像をファイル化する際に付与されるファイル名を設定する場合の説明となっているが、ファイル名の他、フォルダパスやメタデータといったプロパティ全般に適用可能である。

以下、図５のシーケンス図に沿って、装置間のやり取りを時系列に説明する。なお、以下の説明において記号「Ｓ」はステップを表す。

ＭＦＰ１１０は、ＭＦＰ連携サーバ１２０にアクセスするためのログイン認証の情報を入力するＵＩ画面（以下、「ログイン画面」と表記）を操作部２２０に表示する（Ｓ５０１）。図７にログイン画面の一例を示す。ユーザが、予め登録されているユーザＩＤとパスワードを、ログイン画面７００上の入力欄７０２及び７０３にそれぞれ入力し「ログイン」ボタン７０１を押下すると、ログイン認証のリクエストがＭＦＰ連携サーバ１２０に送信される（Ｓ５０２）。

ログイン認証のリクエストを受けたＭＦＰ連携サーバ１２０は、当該リクエストに含まれるユーザＩＤとパスワードを用いて認証処理を行う（Ｓ５０３）。認証処理の結果、正規のユーザであることが確認されれば、ＭＦＰ連携サーバ１２０は、アクセストークンをＭＦＰ１１０に返す。以後、ＭＦＰ１１０からＭＦＰ連携サーバ１２０に対して行う各種リクエストの際にこのアクセストークンを一緒に送ることで、ログイン中のユーザが特定される。本実施形態では、ＭＦＰ連携サーバ１２０へのログインの完了によって、ストレージサーバ１３０へのログインも同時に完了するものとする。このためにユーザは、インターネット上のＰＣ（不図示）のウェブブラウザ等を介して、ＭＦＰ連携サービスを利用するためのユーザＩＤとストレージサービスを利用するためのユーザＩＤとの紐づけを予め行っておく。これにより、ＭＦＰ連携サーバ１２０へのログイン認証に成功すれば同時にストレージサーバ１３０へのログイン認証も完了し、ストレージサーバ１３０にログインするための操作を省略できる。そして、ＭＦＰ連携サーバ１２０においては、自装置にログインしたユーザからのストレージサービスに関するリクエストにも対応可能となる。なお、ログイン認証の方法は一般的に公知な手法（Ｂａｓｉｃ認証、Ｄｉｇｅｓｔ認証、OAuthを用いた認可等）を用いて行えばよい。

ログインが完了すると、ＭＦＰ１１０は、スキャン設定用のＵＩ画面（以下、「スキャン設定画面」と表記）が操作部２２０に表示される（Ｓ５０４）。図８にスキャン設定画面の一例を示す。スキャン設定画面８００には、「スキャン開始」ボタン８０１、カラー設定欄８０２、解像度設定欄８０３が存在する。「スキャン開始」ボタン８０１は、原稿台にセットした文書（本実施形態では手書き用の記入欄のある入会申込書を想定）に対するスキャン処理の開始を指示するためのボタンである。カラー設定欄８０２では、スキャン時のカラーモードを設定する。例えばフルカラーやモノクロといった選択肢の中から指定できるようになっている。解像度設定欄８０３では、スキャン時の解像度を設定する。例えば６００ｄｐｉや１２００ｄｐｉといった選択肢の中から指定できるようになっている。なお、カラーモードと解像度は設定項目の一例であって、これらすべてが存在しなくてもよいし、これら以外の設定項目が存在してもよい。また、カラーモードや解像度に関する選択肢を、ストレージサービスの要求する設定値のみに限定したりしてもよい。ログインユーザは、このようなスキャン設定画面８００を介してスキャン処理についての詳細な条件設定を行なう。スキャン設定を終えたログインユーザが、ＭＦＰ１１０の原稿台にスキャン対象の文書をセットし、「スキャン開始」ボタン８０１を押下するとスキャンが実行される（Ｓ５０５）。これにより、紙文書を電子化したスキャン画像データが生成される。スキャンの完了後、ＭＦＰ１１０は、スキャンによって得られたスキャン画像データを、その解析リクエストと共にＭＦＰ連携サーバ１２０に送信する（Ｓ５０６）。

文書画像の解析リクエストを受けたＭＦＰ連携サーバ１２０では、リクエスト制御部４３１が画像処理部４３２に対し、画像解析処理の実行を指示する（Ｓ５０７）。その際、リクエスト制御部４３１は、受信した解析リクエストを一意に特定可能なリクエストＩＤをＭＦＰ１１０に返す。図９（ａ）にリクエストＩＤの一例を示す。一方、画像解析処理の実行指示を受けた画像処理部４３２は、解析リクエストに係る文書画像に対する画像解析処理を実行する（Ｓ５０８）。本実施形態の画像解析処理では、まず文書画像内に存在する文字について、予め印刷された文字（活字）の部分と手書きで記入された文字（手書き文字）の部分とを分離する処理が行われる。次に、文書画像内の活字と手書き文字それぞれについて、文字ブロックの抽出処理が行なわれる。そして、ブロック抽出処理にて得られた「ＴＥＸＴ」属性の文字ブロックのうち活字に対応する文字ブロック（以下、「活字ブロック」と呼ぶ。）については、そのままＯＣＲ処理が実行される。一方、手書き文字に対応する文字ブロック（以下「手書き文字ブロック」と呼ぶ。）については、一定条件を満たす手書き文字ブロック同士を結合する処理を行った上で、ＯＣＲ処理が実行される。なお、ブロック抽出は、例えばある閾値で２値化を行った画像から文字と推測される矩形領域を検出する方法等、既知の方法を適用すればよい。

上記画像解析処理が行われている間、ＭＦＰ１１０は、上述のリクエストＩＤを使用して、ＭＦＰ連携サーバ１２０に対して定期的（例えば数百ミリ秒から数ミリ秒程度毎）に処理状況の問合せを行う（Ｓ５０９～Ｓ５０９’）。この問合せは、ＭＦＰ連携サーバ１２０からの画像解析処理の完了レスポンス（Ｓ５１０）が取得できるまで繰り返し実行される。ＭＦＰ連携サーバ１２０は、処理状況の問合せを受けると、リクエストＩＤに対応する画像解析処理の進行状況を確認し、完了していない場合は処理中を表すレスポンス（図９（ｂ）を参照）を返す。また、完了していた場合は完了を表すレスポンス（図９（ｃ）を参照）を返す。このレスポンスの“status”には現在の処理状況を示す文字列、具体的には、ＭＦＰ連携サーバ１２０で処理が行われている最中である場合には“processing”が入り、処理が完了している場合には“completed”が入る。なお、処理が失敗した場合の“failed”など、他のステータスを表す文字列が入ることもある。処理完了時のレスポンスには、ステータス情報に加え、文書画像の解析結果に関する情報などを含む。なお、Ｓ５０８における、ＭＦＰ連携サーバ１２０における画像解析処理の詳細については、別途フローチャートを参照して後述する。

処理完了レスポンスを受信した後、ＭＦＰ１１０は、当該レスポンスに含まれる、画像解析結果の格納先を示すＵＲＬを用いて、画像解析結果を、ＭＦＰ連携サーバ１２０に対してリクエストする（Ｓ５１１）。リクエストを受けてＭＦＰ連携サーバ１２０のリクエスト制御部４３１は、画像解析処理の結果情報を返す。この結果情報には、文書画像に含まれる文字列の文字認識結果とそれらの位置情報を紐づけてリスト化した情報が含まれる。

そして、スキャン設定画面の表示から画像解析結果の取得までの一連の処理（Ｓ５０４～Ｓ５１１）が、ファイル化対象の文書の数だけ繰り返されることになる。

そして、ＭＦＰ１１０は、画像解析処理の結果情報を使用して、文書画像にファイル名を設定してストレージサーバ１３０に保存するためのＵＩ画面（以下、「ストレージ保存画面」と表記）を表示する（Ｓ５１２）。ファイル名は、スキャン画像データに関するプロパティ（属性）として設定される情報の一種である。図１０に、ストレージ保存画面の一例を示す。図１０のストレージ保存画面１０００には、文書リスト領域１００１、「送信」ボタン１００２、「編集」ボタン１００３、「削除」ボタン１００４が存在する。文書リスト領域１００１には、画像解析処理の対象となったスキャン済み文書の一覧がリスト形式で表示される。「送信」ボタン１００２は、ストレージサーバ１３０に対して対象文書画像のファイルデータを送信するためのボタンである。スキャン済み文書一覧の中から任意の申込書を選択し、「送信」ボタン１００２を押下することで、その「送信先」で特定されるストレージサーバ１３０に対してファイル送信が実行される。なお、ファイル送信が正常に完了した場合、その入会申込書に関する一行分の情報が、スキャン済み文書一覧から削除されることになる。「編集」ボタン１００３は、後述するファイル名設定画面１１００にＵＩ画面を切り替えるためのボタンである。スキャン済み文書一覧の中から任意の入会申込書を選択し、「編集」ボタン１００３を押下することで、その選択に係る文書画像に対するファイル名を設定するためのＵＩ画面へと遷移する。「削除」ボタン１００４は、任意の入会申込書を削除するためのボタンである。スキャン済み文書一覧の中から任意の入会申込書を選択し、「削除」ボタン１００４を押下することで、選択した入会申込書がスキャン済み文書一覧から削除される。スキャン済み文書一覧の中から任意の一つの入会申込書が選択され、続けて「編集」ボタン１００３を押下する操作イベントが検知されると、ストレージ保存画面１０００は、ユーザ選択に係る入会申込書のスキャン画像がプレビュー表示された、図１１に示すようなファイル名設定画面１１００に遷移する。ファイル名設定画面１１００を用いたファイル名設定の詳細については後述する。図１１のファイル名設定画面１１００においてユーザがファイル名を設定して「ＯＫ」ボタン１１０７を押下すると、再び図１０に示すストレージ保存画面１０００に戻る。そして、ユーザは、図１０のストレージ保存画面１０００内の「送信」ボタン１００２を押下する。

「送信」ボタン１００２の押下を受けてＭＦＰ１１０は、ユーザ選択に係る文書画像のデータとそのファイル送信時に設定するファイル名等の情報と共に、当該文書画像の保存リクエストをＭＦＰ連携サーバ１２０に送信する（Ｓ５１３）。保存リクエストを受信したＭＦＰ連携サーバ１２０では、リクエスト制御部４３１が、ファイル生成処理を開始すると共に保存リクエストを正常に受けたことを示すレスポンスをＭＦＰ１１０に返す。そのレスポンスを受け取ったＭＦＰ１１０は、処理を終了し、スキャン設定画面の表示状態（Ｓ５０４）に戻る。一方、ＭＦＰ連携サーバ１２０では、事前に登録されたスキャン設定からファイルフォーマットの情報を取得し、当該ファイルフォーマットに従って文書画像をファイル化する（Ｓ５１４）。この際、生成されたファイルには保存リクエストにて指定されたファイル名が付されることになる。こうして生成された帳票画像ファイルは、ストレージサーバ１３０に送信され、保存される（Ｓ５１５）。

以上が、画像処理システム全体の処理の大まかな流れである。なお、図５のシーケンス図では、ＭＦＰ１１０がＭＦＰ連携サーバ１２０とやり取りを行う内容となっているが、画像解析結果取得、ＵＩ画面の表示等は、不図示のクライアントＰＣなどで行なう構成でもよい。

＜画像解析処理の概要＞
図１２は、上述のＳ５０８において実行される、ＭＦＰ連携サーバ１２０の画像処理部４３２が行う画像解析処理の流れを示すフローチャートである。

まず、Ｓ１２０１では、処理対象の文書画像データに対して補正処理が実行される。ここで実行される補正処理は、後続の処理のための前処理であり、例えば文書画像データに対する傾き補正処理や回転補正処理である。まず、傾き補正処理では、文書画像から傾きの角度を検出し、検出した傾きだけ逆方向に画像を回転させることで、傾きを補正した文書画像データを取得する。傾き補正の対象となる傾きは、スキャナ部２２２による読み取り時に、原稿フィーダ内のローラの摩耗などが原因でまっすぐに文書が読み取られなかったり、文書の印刷時にまっすぐ印字できなかったりすることで生じる。傾き検出では、まず、文書画像内に含まれるオブジェクトを検出し、水平方向あるいは鉛直方向に隣り合うオブジェクト群を連結する。そして、連結されたオブジェクトの中心位置を結んだ角度が、水平方向あるいは鉛直方向からどれだけ傾いているかを取得することで傾きを求める。なお、傾き検出は上記の方法に限るものではない。例えば、文書画像内に含まれるオブジェクトの中心座標を取得し、０．１度単位で中心座標群を回転させながら、中心座標群が水平方向あるいは垂直方向に並ぶ割合が最も高い角度を傾きとして求めてもよい。次に、傾き補正後の文書画像に対して、文書内の文字が正立する向きになるように、９０度単位で回転させる回転補正処理を行う。具体的には、まず、傾き補正後の文書画像を基準画像として、９０度回転した画像、１８０度回転した画像、２７０度回転した画像を用意する。そして、９０度単位で回転させた画像それぞれに対し、高速処理可能な簡易的なＯＣＲ処理を実行して、一定値以上の確信度を持って認識された文字の数が最も多い画像を、回転補正後の文書画像として取得する。なお、回転補正の方法は上記に限るものではない。

次のＳ１２０２では、Ｓ１２０１で得られた回転補正後の文書画像を入力文書画像として、手書き文字分離処理が実行される。図１３の（ａ）～（ｃ）は、手書き文字分離処理の説明図である。図１３（ａ）は、入会申込書をスキャンして得られた画像に対してＳ１２０１の補正処理を行った結果としての入力文書画像の一例である。図１３（ａ）の入力文書画像に対して手書き文字分離処理を行うと、図１３（ｂ）に示すような手書き文字部分のみから成る「手書き文字画像」と、図１３（ｃ）に示すような罫線や活字のみから成る手書き文字記入前の状態を表す「原本画像」とに分離されることになる。文書画像から手書き文字の画像領域を分離する技術はいくつか知られているが、本実施形態においては、ディープニューラルネットワークによる機械学習で実装されている。この際、ニューラルネットワークの構造としては、例えば公知のＦＣＮ（Fully Convolutional Networks）を適用する。また、手書き文字の画像領域を推定するためのニューラルネットワークについては、例えば公知のＹＯＬＯ（You Only Look Once）を適用する。なお、上記手法以外にも例えば、文書画像に含まれる罫線を検出し、検出された罫線で囲われた内部の領域を手書き文字が記入された領域として特定することで、文書画像から手書き文字の画像領域を分離してもよい。

分離文字処理が完了すると、原本画像についての処理（Ｓ１２０３及びＳ１２０４）が先ず実行され、それに続いて、手書き文字画像についての処理（Ｓ１２０５～Ｓ１２０７）が実行される。ただし、原本画像についての領域解析処理完了後に手書き文字画像についての処理を開始するなど一部の処理を並列で実行してもよい。

≪原本画像に対する処理≫
Ｓ１２０３では、Ｓ１２０２にて得られた原本画像を対象として領域解析処理が実行される。具体的には、原本画像を前景領域と背景領域に分類した上で、前景領域をオブジェクト属性に応じたブロックに分割する処理（「ブロックセレクション処理」とも呼ばれる）が行われる。このブロックセレクション処理においては、まず各画素が白又は黒に二値化されたクエリ画像を生成し、当該クエリ画像に対し輪郭線追跡を行って、黒画素輪郭で囲まれる画素の塊を抽出する。そして、面積が所定の面積よりも大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡を行い、白画素の塊を抽出し、さらに一定面積以上の白画素の塊の内部から再帰的に黒画素の塊を抽出する。こうして得られた黒画素の塊を前景領域とし、大きさ及び形状で分類し、オブジェクト属性に応じたブロックへ分類していく。例えば、縦横比が１に近く、大きさが一定の範囲のものを文字相当の画素塊とし、さらに文字相当の画素塊同士が近接して整列している部分（文字のベースラインが同じでグループ化できる部分）を「ＴＥＸＴ」の属性を持つ文字ブロックとする。そして、扁平な画素塊を「ＬＩＮＥ」の属性を持つ線ブロック、一定大きさ以上でかつ矩形の白画素塊を整列よく内包する黒画素塊の占める範囲を「ＴＡＢＬＥ」の属性を持つ表ブロック、不定形の画素塊が散在している範囲を「ＰＨＯＴＯ」の属性を持つ写真ブロックとする。さらに、「ＴＥＸＴ」、「ＬＩＮＥ」、「ＴＡＢＬＥ」、「ＰＨＯＴＯ」のいずれの属性にも該当しない任意形状の画素塊を「ＰＩＣＴＵＲＥ」の属性を持つ図形ブロックとする。こうしてオブジェクトの属性毎に領域分割されたブロックのうち「ＴＥＸＴ」に分類された文字ブロックが、活字用ＯＣＲ処理の対象となる活字ブロックとして抽出される。

Ｓ１２０４では、Ｓ１２０３の領域解析処理において抽出されたすべての活字ブロックを対象にＯＣＲ処理が実行される。これにより、各活字ブロックに対応した文字認識結果が得られる。なお、所定記入欄に記載された手書き文字だけを抽出したい場合は、ここでの活字ブロックに対するＯＣＲ処理を省略することも可能である。

≪手書き文字画像に対する処理≫
Ｓ１２０５では、Ｓ１２０２にて得られた手書き文字画像を対象として領域解析処理が実行される。なお、活字と手書き文字では、濃度や黒画素の連続性等の性質が異なる。そこで、二値化の際の閾値や連続性判定時の閾値といったパラメータを手書き文字用に調整することで、手書き文字に適した領域解析処理を行うことができる。図１４（ａ）は、図１３（ｂ）の手書き文字画像に対する領域解析処理の結果を示している。図示されるように５つの手書き文字ブロック１４０１～１４０５が取得されることになる。

Ｓ１２０６では、Ｓ１２０５にて得られた全ての手書き文字ブロックを対象として、必要に応じて結合する処理が実行される。この結合処理により、本来であれば一続きで抽出されるはずであった複数の手書き文字ブロックが１つの文字ブロックにまとめられる。手書き文字ブロック結合処理の詳細については後述する。

Ｓ１２０７では、結合処理後の手書き文字ブロックを対象としてＯＣＲ処理が実行される。これにより、各手書き文字ブロックに対応した文字認識結果が得られる。

最後に、Ｓ１２０８において、Ｓ１２０４及びＳ１２０７で得られた文字認識結果に基づき、画像解析結果が生成される。具体的には、活字ブロックの文字認識結果と手書き文字ブロックの文字認識結果それぞれについて、対応する文字ブロックの位置情報との紐づけを行って、リスト化する処理が行われる。こうして、文書画像から文字情報が抽出されることになる。

以上が、Ｓ５０８における画像解析処理の内容である。

＜手書き文字ブロック結合処理の詳細＞
図１５は、本実施形態に係る、手書き文字ブロック結合処理の詳細を示すフローチャートである。以下、図１５のフローに沿って、図１４（ａ）に示すように分離した複数の手書き文字ブロックを単一の手書き文字ブロックとして抽出するための結合処理について詳しく説明する。

Ｓ１５０１では、前述の領域解析処理（Ｓ１２０５）にて取得された手書き文字ブロックについて、原本画像における空白領域の単位でグループ分けする処理（グルーピング処理）が実行される。本実施形態の場合、入会申込書内の“申込者”や“ご住所”といった記入欄に相当する、前述の原本画像に対する領域解析処理（Ｓ１２０３）にて線領域「ＬＩＮＥ」と判定された罫線によって囲まれた領域（表構造におけるセル領域）が空白領域となる。以下、手書きで記入されることを想定した特定の項目に関する空白領域を「記入領域」と呼ぶこととする。図１６は、前述の図１３（ｃ）の原本画像における２つの記入領域を、破線の矩形１６０１及び１６０２で示している。なお、記入領域の特定は、上述の方法に限定されない。例えば文字領域「ＴＥＸＴ」の左右に存在する領域を記入領域としてもよいし、不図示のＵＩ画面を介したユーザ入力に基づき記入領域を設定するようにしてもよい。また、様々な文書フォーマットの文書画像について記入欄に相当する空白領域を教師データとしてディープニューラルネットワークによる機械学習を行って得られた学習済みモデルを用いて、処理対象の文書画像における記入領域を特定してもよい。

次のＳ１５０２～Ｓ１５１０は、グループピング処理によって得られた記入領域毎のループ処理となっている。

まず、Ｓ１５０２では、注目する記入領域の中に、手書き文字ブロックが複数存在するかが判定される。注目する記入領域内に手書き文字ブロックが複数存在する場合は、Ｓ１５０３に進む。一方、注目する記入領域内に存在する手書き文字ブロックが１つ或いはゼロの場合はＳ１５１０に進む。前述の図１６に示す例では、２つの記入領域１６０１と１６０２のうち記入領域１６０１については手書きブロックが１つだけ存在するのでＳ１５１０に進み、記入領域１６０２については手書きブロックが４つ存在するのでＳ１５０３に進むことになる。以下、記入領域１６０２を注目する記入領域とした場合の処理を具体例として説明を行うものとする。

Ｓ１５０３では、注目する記入領域内に存在する複数の手書き文字ブロックのうち、主要な文字行を形成しているブロック（以下、「メインブロック」と呼ぶ。）が決定される。例えば、記入領域において文字の書き出し位置に存在する手書き文字ブロックがメインブロックに決定される。図１３に示すような横書きのフォーマットの場合は、書字方向が左から右なので文字の書き出し位置は左端となり、最も左にある手書き文字ブロックをメインブロックとして決定すればよい。ただし、メインブロックの決定方法はこれに限定されるものではなく、例えばブロック長或いはブロック面積が最大のものをメインブロックにするなど、別のパラメータを用いて決定することも可能である。図１６に示す記入領域１６０２が注目記入領域の場合、その中の４つの手書き文字ブロック１４０２～１４０５のうち、文字の書き出し位置が最も左にあり、ブロックの長さも一番長い手書き文字ブロック１４０３がメインブロックに決定されることになる。なお、縦書きのフォーマットであれば、書字方向が上から下なので、文字の書き出し位置は上端となり、最も上にある手書き文字ブロックをメインブロックに決定すればよい。また、アラビア語のような書字方向が右から左の横書きの言語であれば、文字の書き出し位置は右端になり、最も右にある手書き文字ブロックをメインブロックに決定すればよい。

Ｓ１５０４～Ｓ１５０９は、注目する記入領域に存在する手書き文字ブロックのうち、Ｓ１５０３で決定したメインブロック以外の残りの手書き文字ブロック（以下、「サブブロック」と呼ぶ。）毎のループ処理となっている。このループ処理により、メインブロックと残りの各サブブロックとの結合可否が判定される。

まず、Ｓ１５０４では、残りのサブブロックのうち注目するサブブロックが決定される。続くＳ１５０５では、決定された注目サブブロックについて、その文字サイズがメインブロックの文字サイズと近いかどうかが判定される。この文字サイズのチェックは、あまりに双方の文字サイズがかけ離れていると、それぞれが別の項目や行に属している或いは特別な意図を持って分離した可能性が高いと推測されることから、そのような関係にあるサブブロックを連結対象外とする目的で行う。したがって、双方の文字サイズが近いかどうかは、例えばメインブロックの高さを基準として、メインブロックの高さに対してサブブロックの高さが例えば５０％～１５０％の範囲内にあれば文字サイズが近い（かけ離れていない）と判断すればよい。このような判定の結果、メインブロックの文字サイズと注目するサブブロックの文字サイズとが近いと判定された場合はＳ１５０６に進み、近くない（かけ離れている）と判定された場合Ｓ１５０８の結合処理をスキップしてＳ１５０９に進む。

Ｓ１５０６では、注目サブブロックが、メインブロックの延長方向（書字方向に向かってメインブロックを拡張する方向）に連続し、かつ、上下いずれかにずれているかどうかが判定される。この位置関係のチェックは、記入者が記入欄に文字を書き始めたもののその途中で上または下にベースラインをずらして文字を書き続けたと推測できる場合は、それら文字を連続した文字列として扱うことが望ましいことに基づいて行うものである。ここで、「メインブロックの延長方向に連続」とは、注目サブブロックの左端（書き出し位置のｘ座標）が、メインブロックの右端（書き終わり位置のｘ座表）と一致していることを意味する。この際の「一致」は完全一致である必要はなく、例えば１文字程度のずれは許容範囲とすればよい。本条件を満たす場合はＳ１５０７に進み、満たさない場合はＳ１５０９に進む。いま、図１４の具体例において、注目サブブロックとして手書き文字ブロック１４０４が選択されていたとする。手書き文字ブロック１４０４の左端位置は、メインブロックである手書き文字ブロック１４０３の右端位置と略一致（ｘ方向のずれ幅が１文字の範囲内）している。そして、手書き文字ブロック１４０４は手書き文字ブロック１４０３に対して上方向にずれているので、判定結果は「Ｙｅｓ」となり、次のＳ１５０７に進むことになる。

Ｓ１５０７では、メインブロックの延長方向に原本画像の黒画素領域（活字）が存在するかどうかが判定される。この判定の際には、例えばメインブロックと完全に横並びの位置に活字が存在していなくてもよく、例えば１文字分程度の高さ方向（y座標）のずれは許容範囲とすればよい。この原本画像の活字チェックは、以下の理由で行うものである。まず、Ｓ１５０６にて文字サイズが近いと判定された注目サブブロック内の文字が、原本画像内の活字部分を回避する目的で上または下にずらして記入を続けたと推測できる場合は、連続した文字列として扱うのが適切である。その一方で、原本画像内に回避すべき活字が無いにも関わらず、注目サブブロックが上または下にずれている場合は、その文字が別の意図をもって敢えてずらして記入された文字であると推測でき、この場合は連続した文字列として扱うのは適切ではない。そこで、原本画像内の活字を回避する目的で上下にずれているのかを見極めるためにこのような条件が存在する。本条件を満たす場合はＳ１５０８に進み、満たさない場合はＳ１５０９に進む。いま、メインブロックである手書き文字ブロック１４０３の延長方向には活字の「電話番号」の黒画素領域が存在しているので、判定結果は「Ｙｅｓ」となり、次のＳ１５０８に進むことになる。

Ｓ１５０８では、Ｓ１５０５～Ｓ１５０７の条件をすべて満足した注目サブブロックを、メインブロックに結合する処理が実行される。これによりメインブロックに対応する画像領域と注目サブブロックに対応する画像領域とを繋げた単一の画像領域で表される手書き文字ブロック（結合画像）が生成されることになる。なお、ここでは、結合するかどうかを決める際の所定の条件として３つの条件を設けているがこれら３つすべてが必要と言う訳ではない。結合後は、Ｓ１５０９に進む。

Ｓ１５０９では、注目記入領域内に処理されていないサブブロックが残っているかどうかが判定される。未処理のサブブロックがあればＳ１５０４に戻って次の注目サブブロックを対象として処理が続行される。一方、すべてのサブブロックについての処理が完了していれば、Ｓ１５１０に進む。

Ｓ１５１０では、すべての記入領域について上述のループ処理が完了したか否かが判定される。未処理の記入領域があればＳ１５０２に戻って次の記入領域を対象として処理が続行される。一方、すべての記入領域についての処理が完了していれば、本処理を終了し、図１２のフローに戻ることになる。

以上が、本実施形態に係る、手書き文字ブロック結合処理の内容である。図１４（ｂ）は、上述の図１４（ａ）に示す５つの手書き文字ブロック１４０１～１４０５に対して、手書き文字ブロック結合処理を行った結果を示している。手書き文字ブロック１４０３と１４０４とが結合されて１つの手書き文字ブロック１４０６となっているのが分かる。この例で結合された２つの手書き文字ブロック１４０３と１４０４に対応する２つの文字列“佐賀県唐津市和多田”と“西山2-2-22”は、元々が“ご住所”という１つの項目に対応する枠内に記入された文字列である。そのため、例えば前述の言語モデル機能を持つＯＣＲ処理を行う場合に、住所という共通概念の下で記入された一続きの文字列として扱うことができ文字認識を行いやすくなる。その結果、結合することなく別々の状態（図１４（ａ））の状態）でＯＣＲ処理を行ったときよりも誤認識を減らすことが期待できる。

以上のとおり本実施形態によれば、記入欄等に記入された手書き文字が、予め印刷された文字の回避のために記入位置（ベースライン）が途中から上下にずれていても、一続きの単一の文字ブロックとして文書画像から抽出することができる。その結果、ＯＣＲ処理における文字認識精度を向上させることができる。

［実施形態２］
実施形態１は、記入領域内に予め印刷された文字を回避しようとして記入者が途中で文字をずらして記入したことで当該手書き文字に対応する文字ブロックが分離してしまう場合に、それらを結合して単一の文字ブロックを得る態様について説明した。次に、記入者が記入領域内に文字がすべて収まるように途中で改行したことで本来は同じベースラインの一続きの手書き文字が分離してしまう場合に、それらを結合して単一の文字ブロックを得る態様を、実施形態２として説明する。なお、なお、システム構成やシステム全体の処理の流れなど実施形態１と共通する内容については説明を省略し、以下では差異点である手書き文字ブロック結合処理について説明することとする。

図１７（ａ）は、本実施形態の適用例を説明するための、手書き文字画像に対する領域解析処理の結果の一例である。図１７（ａ）において実線の矩形１７００は記入領域を示す枠を示し、その中にある破線の矩形１７０１及び１７０２が分離して検出された手書き文字ブロックを示している。図１７（ａ）の例の場合、記入者が記入領域１７００内に文字がすべて収まるように「田」のところまで記入した段階で改行し、続けて「多」の真下から続きを書き始めたことでこのような手書き文字画像となっている。本実施形態では、このような不規則な改行によって分離してしまった手書き文字ブロックを結合して、単一の手書き文字ブロックを得られるようにする。

＜手書き文字ブロック結合処理の詳細＞
図１８は、本実施形態に係る、手書き文字ブロック結合処理の詳細を示すフローチャートである。以下、図１８のフローに沿って、図１７（ａ）に示すように分離した複数の手書き文字ブロックを単一の手書き文字ブロックとして抽出するための結合処理について詳しく説明する。

Ｓ１８０１は、実施形態１の図１５のフローにおけるＳ１５０１と同様、領域解析処理（Ｓ１２０５）にて取得された手書き文字ブロックについて、原本画像における空白領域の単グループ分けする処理が実行される。次のＳ１８０２～Ｓ１８１３は、グループピング処理によって得られた記入領域毎のループ処理となっている。

まず、Ｓ１８０２では、Ｓ１５０２と同様、注目する記入領域の中に手書き文字ブロックが複数存在するかが判定される。注目する記入領域内に手書き文字ブロックが複数存在する場合は、Ｓ１８０３に進む。一方、注目する記入領域内に存在する手書き文字ブロックが１つ或いはゼロの場合はＳ１８１３に進む。以下、上述の記入領域１７００を注目する記入領域とした場合の処理を具体例として、Ｓ１８０３以下の各処理について説明を行うものとする。

Ｓ１８０３では、注目する記入領域内に存在する複数の手書き文字ブロックのうちメインブロックが決定され、さらに、当該メインブロックが以降の結合可否の判断基準となる基準ブロックの初期値に設定される。いま、記入領域１７００内の手書き文字ブロック１７０１がメインブロックに決定され、さらに、基準ブロックの初期値に設定されることになる。

Ｓ１８０４～Ｓ１８１１は、注目する記入領域に存在する手書き文字ブロックのうち、Ｓ１８０３で決定したメインブロック以外の残りのサブブロック毎のループ処理となっている。このループ処理により、残りの各サブブロックと基準ブロックとの結合可否が判定される。

Ｓ１８０４では、残りのサブブロックのうち注目するサブブロックが決定される。ここでは、注目サブブロックとして手書き文字ブロック１７０２が選択されることになる。続くＳ１８０５では、決定された注目サブブロックについて、その文字サイズが基準ブロックの文字サイズに近いかどうかが判定される。この文字サイズのチェックは、Ｓ１５０５と同じ目的で行うものである。判定の結果、基準ブロックの文字サイズと注目するサブブロックの文字サイズとが近いと判定された場合はＳ１８０６に進み、近くないと判定された場合はＳ１８１１に進む。

Ｓ１８０６では、注目するサブブロックが基準ブロックの改行位置に存在しているかどうかが判定される。この位置関係のチェックは、改行による行の移動と判断できるかどうかを見極めるために行う。ここで、日本語の横書きを前提とする場合、注目するサブブロックの左端のｘ座標が基準ブロックの左端から右端までの範囲内にあり、かつ、注目するサブブロックの上端が基準ブロックの下端よりも下にあるとき、「基準ブロックの改行位置に存在」と判定されることになる。この際、Ｓ１５０６と同様、例えば１文字程度の横方向（ｘ方向）のずれは許容範囲としてもよい。判定の結果、改行による行の移動と判断できる場合はＳ１８０７に進み、そうでない場合はＳ１８１１に進む。いま、手書き文字ブロック１７０２の左端は基準ブロックである手書き文字ブロック１７０１の右端よりもやや左よりの位置である。そして、手書き文字ブロック１７０２の上端は、手書き文字ブロック１７０１の下端よりも下である。したがって、判定結果は「Ｙｅｓ」となり、次のＳ１８０７に進むことになる。

Ｓ１８０７では、基準ブロックの右側に注目するサブブロックを結合すると、結合後のブロックの右端が注目する記入領域を超えるかどうかが判定される。この結合チェックは、注目するサブブロックの改行が、当該サブブロックの文字を基準ブロックの右に続けて書いてしまうと記入領域をはみ出てしまうことからそれを避けるためになされたものであるかどうかを見極めるために行う。判定の結果、結合後のブロックの右端が記入領域を超える場合はＳ１８０８に進み、そうでない場合はＳ１８１１に進む。いま、手書き文字ブロック１７０２を基準ブロックである手書き文字ブロック１７０１の右側に加えた場合には、結合後のブロックの右端が記入領域１７００からはみ出ることになる。したがって、判定結果は「Ｙｅｓ」となり、次のＳ１８０８に進むことになる。

Ｓ１８０８では、結合済みのブロックがあるかどうかが判定される。一度も結合処理が実行されておらず、結合済みのブロックが存在しない場合にはＳ１８０９に進む。一方、既に結合済みのブロックが存在している場合はＳ１８１０に進む。

Ｓ１８０９では、注目するサブブロックを基準ブロックに結合する処理が実行される。この処理によって、手書き文字ブロック１７０２が、基準ブロックである手書き文字ブロック１７０１の右側に結合されることになる。結合後のブロック（結合画像）は、結合済みブロックとしてＲＡＭ３１３に一時保存される。

Ｓ１８１０では、結合済みブロックが読み出され、注目するサブブロックを、読み出した結合済みブロックに結合する処理が実行される。上述の例では存在しないが、不規則に改行された手書き文字ブロックが複数存在するようなケースでは、この処理によって結合が繰り返されることになる。

Ｓ１８１１では、注目記入領域内に処理されていないサブブロックが残っているかどうかが判定される。未処理のサブブロックがあれば、まずＳ１８１２に進んで基準ブロックが更新される。基準ブロックの更新とは、注目サブブロックであった手書き文字ブロックを次の基準ブロックに設定する処理である。そして更新後はＳ１８０４に戻り、同様の処理が次の注目サブブロックを対象として続行される。これにより複数回に渡って改行が繰り返されていた場合にも対応可能となる。一方、すべてのサブブロックについての処理が完了していれば、Ｓ１８１３に進む。

Ｓ１８１３では、すべての記入領域について上述のループ処理が完了したか否かが判定される。未処理の記入領域があればＳ１８０２に戻って次の記入領域を対象として処理が続行される。一方、すべての記入領域についての処理が完了していれば、本処理を終了し、図１２のフローに戻ることになる。

以上が、本実施形態に係る、手書き文字ブロック結合処理の内容である。なお、結合するかどうかを決める際の所定の条件として、本実施形態でも３つの条件を設けているがこれら３つすべてが必要と言う訳ではない。図１７（ｂ）は、図１７（ａ）に示す２つの手書き文字ブロック１７０１及び１７０２を結合して得られた結合後の手書き文字ブロック１７０３を示している。実施形態１と同様、結合された２つの手書き文字ブロックに対応する２つの文字列は、元々が共通概念の下で記入された一続きの文字であるため、結合することでＯＣＲ処理における誤認識を減らすことが期待できる。

以上のとおり本実施形態によれば、手書き文字が、記入欄等の所定の領域内に文字が収まりきるようにするために不規則に改行されていても、一続きの単一の文字ブロックとして文書画像から抽出することができる。その結果、ＯＣＲ処理の認識精度を向上させることができる。

［実施形態３］
実施形態１では記入位置（ベースライン）のずれによって分離してしまった手書き文字ブロックを、実施形態２では改行によって分離してしまった手書き文字ブロックを、結合処理によって単一の手書き文字ブロックにする態様について説明した。次に、これらの複合的な要因で分離してしまった文字ブロックを結合する態様について、実施形態３として説明する。なお、なお、システム構成やシステム全体の処理の流れなど実施形態１及び２と共通する内容については説明を省略し、以下では差異点である手書き文字ブロック結合処理について説明することとする。

図１９（ａ）は、本実施形態の適用例を説明するための、手書き文字画像に対する領域解析処理の結果の一例である。図１９（ａ）において実線の矩形１９００は記入領域を示し、その中にある破線の矩形１９０１～１９０３が分離して検出された手書き文字ブロックを示している。図１９（ａ）の例の場合、記入者が記入領域１９００内に文字がすべて収まるように「田」のところまで記入した段階で上方向に記入位置（ベースライン）をずらし、「西山」まで記入した段階でさらに改行して「2-2-22」を記入したことで、このような手書き文字画像となっている。本実施形態では、このような記入位置のずれと改行が複合的に行われて分離してしまった手書き文字ブロックを結合して、単一の手書き文字ブロックを得られるようにする。

＜手書き文字ブロック結合処理の詳細＞
図２０は、本実施形態に係る、手書き文字ブロック結合処理の詳細を示すフローチャートである。以下、図２０のフローに沿って、図１９（ａ）に示すように分離した複数の手書き文字ブロックを単一の手書き文字ブロックとして抽出するための結合処理について詳しく説明する。

Ｓ２００１～Ｓ２００６は、実施形態１の図１５のフローにおけるＳ１５０１～Ｓ１５０６に対応し、異なるところはないので説明を省く。続くＳ２００７では、メインブロックの延長方向に、注目するサブブロック以外のサブブロックが存在するかどうかが判定される。この判定の際には、前述のＳ１５０７と同様、例えばメインブロックと完全に横並びの位置に他のサブブロックが存在しなくてもよく、例えば１文字分程度の高さ方向（y座標）のずれは許容範囲とすればよい。本条件は、記入領域に収めるために記入位置（ベースライン）をずらしたものの、その残りの文字を記入領域に収める目的でさらにベースラインをずらして記入された手書き文字が存在するのかを見極めるために存在する。本条件を満たす場合はＳ２００８に進み、満たさない場合はＳ２００９に進む。いま、メインブロックである手書き文字ブロック１９０１の延長方向には他の手書き文字「2-2-22」が存在しているので、判定結果は「Ｙｅｓ」となり、次のＳ２００８に進むことになる。

Ｓ２００８では、ここまでの結合可否の判定（Ｓ２００５～Ｓ２００７）にてメインブロックと結合可能と判定された注目サブブロックが待機ブロックに設定される。この処理は、メインブロックの右側に複数のサブブロックが存在する場合、当該複数のサブブロックを予め１つのブロックにまとめた上でメインブロックに結合するためである。図１９（ａ）の例では、メインブロックである手書き文字ブロック１９０１の右に位置する２つの手書き文字ブロック１９０２と１９０３が待機ブロックに設定されることになる。

Ｓ２００９では、注目記入領域内に処理されていないサブブロックが残っているかどうかが判定される。未処理のサブブロックがあればＳ２００４に戻って次の注目サブブロックを対象として処理が続行される。一方、すべてのサブブロックについての処理が完了していれば、Ｓ２０１０に進む。

Ｓ２０１０では、設定された待機ブロックの数に応じて、次の処理の振り分けがなされる。待機ブロックの数が、複数（２個以上）の場合はＳ２０１１に進み、１個の場合はＳ２０１８に進み、設定されていない（０個）の場合はＳ２０１９に進む。いま、記入領域１９００の場合は、待機ブロックが２個設定されるのでＳ２０１１に進むことになる。そして、Ｓ２０１１～Ｓ２０１６において、待機ブロック同士の結合可否の判定並びに結合処理がなされる。

まず、Ｓ２０１１では、複数の待機ブロックの中で最初に記載されたと推測される文字列に対応する待機ブロックが、待機ブロック同士の結合可否の判断基準となる基準ブロックの初期値に設定される。ここでは、手書き文字ブロック１９０２が基準ブロックの初期値に設定されることになる。

Ｓ２０１２～Ｓ２０１６は、残りの待機ブロック毎のループ処理となっている。このループ処理により、待機ブロック同士の結合可否が判定される。

Ｓ２０１２では、残りの待機ブロックのうち注目する待機ブロックが決定される。いま、注目待機ブロックとして手書き文字ブロック１９０３が選択されることになる。

Ｓ２０１３では、実施形態２の図１８のフローのＳ１８０６と同様、決定された注目する待機ブロックが、基準ブロックの改行位置に存在しているかどうかが判定される。判定の結果、改行による行の移動と判断できる場合はＳ２０１４に進み、そうでない場合はＳ２０１６に進む。いま、手書き文字ブロック１９０３の左端は基準ブロックである手書き文字ブロック１９０２の右端よりも左寄りの位置である。そして、手書き文字ブロック１９０３の上端は、手書き文字ブロック１９０２の下端よりも下である。したがって、判定結果は「Ｙｅｓ」となり、次のＳ２０１４に進むことになる。

Ｓ２０１４では、実施形態２の図１８のフローのＳ１８０７と同様、基準ブロックの右側に注目する待機ブロックを結合すると、結合後のブロックの右端が注目する記入領域を超えるかどうかが判定される。判定の結果、結合後のブロックの右端が記入領域を超える場合はＳ２０１５に進み、そうでない場合はＳ２０１６に進む。いま、手書き文字ブロック１９０３を基準ブロックである手書き文字ブロック１９０２の右側に加えた場合には、結合後のブロックの右端が記入領域１９００を超えることになる。したがって、判定結果は「Ｙｅｓ」となり、次のＳ２０１５に進むことになる。

Ｓ２０１５では、注目する待機ブロックを、基準ブロックである待機ブロックに結合する処理が実行される。これにより、待機ブロック同士が繋がった暫定の結合ブロック（結合画像）が生成されることになる。いま、手書き文字ブロック１９０２と１９０３とが繋がった、文字列「西山2-2-22」に対応する暫定結合ブロック（図１９（ｂ）を参照）が得られることになる。このような処理によって、メインブロックと結合する前に、待機ブロック同士の結合がなされることになる。

Ｓ２０１６では、処理されていない待機ブロックが残っているかどうかが判定される。未処理の待機ブロックがあれば、まずＳ２０１７に進んで基準ブロックが更新される。基準ブロックの更新とは、注目待機ブロックであった手書き文字ブロックを次の基準ブロックに設定する処理である。そして更新後はＳ２０１２に戻り、同様の処理が次の注目待機ブロックを対象として続行される。これにより複数回に渡って改行が繰り返されていた場合にも対応可能となる。一方、すべての待機ブロックについての処理が完了していれば、Ｓ２０１８に進む。

Ｓ２０１８では、Ｓ２０１５で生成された暫定結合ブロック又は結合処理の対象とならなかった単独の待機ブロックを、メインブロックに結合する処理が実行される。いま、メインブロックとしての手書き文字ブロック１９０１に、“西山”と“2-2-22”とをまとめた暫定結合ブロック（不図示）が結合された、図１９（ｃ）に示すような結合ブロックが最終的に得られることになる。

Ｓ２０１９では、すべての記入領域について上述のループ処理が完了したか否かが判定される。未処理の記入領域があればＳ２００２に戻って次の記入領域を対象として処理が続行される。一方、すべての記入領域についての処理が完了していれば、本処理を終了し、図１２のフローに戻ることになる。

以上が、本実施形態に係る、手書き文字ブロック結合処理の内容である。なお、待機ブロックに設定するかどうか、待機ブロック同士を結合するかどうかを決める際の条件として示した上述の各条件は、そのすべてが必要と言う訳ではないことは実施形態１及び２と同様である。

以上のとおり本実施形態によれば、手書き文字が複合的な要因で不連続になっていても、一続きの単一の文字ブロックとして文書画像から抽出することができる。その結果、ＯＣＲ処理における文字認識精度を向上させることができる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

Claims

文書をスキャンして得られた文書画像から手書き文字の文字情報を取得するための情報処理装置であって、
前記文書画像から、前記手書き文字に対応する第１の画像領域を分離する分離手段と、
分離された前記第１の画像領域から、ベースラインが共通し近接する文字から成る文字ブロックを抽出する解析手段と、
前記解析手段によって複数の文字ブロックが抽出された場合、当該複数の文字ブロックの位置関係に基づいて、文字ブロック同士を結合して単一の文字ブロックを生成する結合手段と、
を備えたことを特徴とする情報処理装置。
前記結合手段は、
抽出された前記複数の文字ブロックをグループ分けし、
グループを構成する文字ブロックのうち主要な文字行を形成している文字ブロックを第１の文字ブロックとして決定し、
前記グループを構成する文字ブロックであって、前記第１の文字ブロック以外の第２の文字ブロックが所定の条件を満たす場合に、当該第２の文字ブロックを前記第１の文字ブロックに結合する、
ことを特徴とする請求項１に記載の情報処理装置。
前記分離手段は、前記文書画像から、前記手書き文字が記入される前の前記文書の状態を表す第２の画像領域をさらに分離し、
前記グループ分けは、抽出された前記複数の文字ブロックを、前記第２の画像領域における特定の項目に関する手書き用の記入欄に対応する空白領域を単位とするグループに分ける処理である、ことを特徴とする請求項２に記載の情報処理装置。
前記主要な文字行を形成している文字ブロックは、前記空白領域における文字の書き出し位置にある文字ブロック、又はブロック長或いはブロック面積が最大の文字ブロックである、ことを特徴とする請求項３に記載の情報処理装置。
前記所定の条件には、前記第２の文字ブロックが第１の文字ブロックの延長方向に連続し、かつ、前記第２の文字ブロックのベースラインと前記第１の文字ブロックのベースラインとがずれていることが含まれることを特徴とする請求項４に記載の情報処理装置。
前記所定の条件には、さらに、前記第１の文字ブロックの延長方向に前記第１の画像領域における黒画素領域が存在することが含まれることを特徴とする請求項５に記載の情報処理装置。
前記所定の条件には、さらに、前記第１の文字ブロックの文字サイズに対する、前記第２の文字ブロックの文字サイズの比が、所定の範囲内にあることが少なくとも含まれることを特徴とする請求項５又は６に記載の情報処理装置。
前記所定の条件には、前記第２の文字ブロックが、前記第１の文字ブロックの改行位置に存在することが含まれることを特徴とする請求項４に記載の情報処理装置。
前記所定の条件には、さらに、前記第２の文字ブロックを、前記第１の文字ブロックに結合した場合に、結合後の文字ブロックが前記空白領域を超えることが含まれることを特徴とする請求項８に記載の情報処理装置。
前記所定の条件には、さらに、前記第１の文字ブロックの文字サイズに対する、前記第２の文字ブロックの文字サイズの比が、所定の範囲内にあることが少なくとも含まれることを特徴とする請求項８又は９に記載の情報処理装置。
前記結合手段は、
抽出された前記複数の文字ブロックをグループ分けし、
グループを構成する文字ブロックのうち主要な文字行を形成している文字ブロックを第１の文字ブロックとして決定し、
前記グループを構成する文字ブロックであって、前記第１の文字ブロック以外の第２及び第３の文字ブロックが所定の条件を満たす場合に、当該第２及び第３の文字ブロックを前記第１の文字ブロックに結合する、
ことを特徴とする請求項１に記載の情報処理装置。
前記分離手段は、前記文書画像から、前記手書き文字が記入される前の前記文書の状態を表す第２の画像領域をさらに分離し、
前記グループ分けは、抽出された前記複数の文字ブロックを、前記第２の画像領域における特定の項目に関する手書き用の記入欄に対応する空白領域を単位とするグループに分ける処理である、ことを特徴とする請求項１１に記載の情報処理装置。
前記所定の条件には、前記第１の文字ブロックの延長方向に、前記第２及び第３の文字ブロックが存在することが含まれることを特徴とする請求項１１に記載の情報処理装置。
前記所定の条件には、さらに、前記第３の文字ブロックが、前記第２の文字ブロックの改行位置に存在することが含まれることを特徴とする請求項１３に記載の情報処理装置。
前記所定の条件には、さらに、前記第３の文字ブロックを、前記第２の文字ブロックに結合した場合に、結合後の文字ブロックが前記空白領域を超えることが含まれることを特徴とする請求項１３又は１４に記載の情報処理装置。
前記所定の条件には、さらに、前記第１の文字ブロックの文字サイズに対する、前記第２の文字ブロックの文字サイズの比が、所定の範囲内にあることが少なくとも含まれることを特徴とする請求項１３乃至１５のいずれか１項に記載の情報処理装置。
前記結合手段によって生成された単一の文字ブロックに対して文字認識処理を行って、前記文字情報を取得する処理手段をさらに備えたことを特徴とする請求項１乃至１６のいずれか１項に記載の情報処理装置。
文書をスキャンして得られた文書画像から手書き文字の文字情報を取得するための情報処理装置の制御方法であって、
前記文書画像から、前記手書き文字に対応する第１の画像領域を分離する分離ステップと、
前記分離ステップにて分離された前記第１の画像領域から、ベースラインが共通し近接する文字から成る文字ブロックを抽出する解析ステップと、
前記解析ステップにて複数の文字ブロックが抽出された場合、当該複数の文字ブロックの位置関係に基づいて、文字ブロック同士を結合して単一の文字ブロックを生成する結合ステップと、
を含むことを特徴とする制御方法。
コンピュータを、請求項１乃至１７のいずれか１項に記載の情報処理装置として機能させるためのプログラム。