JP2011186945A - 画像処理装置、画像処理方法及びプログラム - Google Patents

画像処理装置、画像処理方法及びプログラム Download PDF

Info

Publication number
JP2011186945A
JP2011186945A JP2010053677A JP2010053677A JP2011186945A JP 2011186945 A JP2011186945 A JP 2011186945A JP 2010053677 A JP2010053677 A JP 2010053677A JP 2010053677 A JP2010053677 A JP 2010053677A JP 2011186945 A JP2011186945 A JP 2011186945A
Authority
JP
Japan
Prior art keywords
character
result
recognition
typesetting
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010053677A
Other languages
English (en)
Inventor
Keiko Nakanishi
恵子 中西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2010053677A priority Critical patent/JP2011186945A/ja
Publication of JP2011186945A publication Critical patent/JP2011186945A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】縦書き文書に横書きの英数字等が混在する文書の文字認識において、精度よく文字認識を行うことを目的とする。
【解決手段】画像データに含まれる文字領域が縦書きか否かを判別する判別手段と、判別手段で縦書きであると判別された文字領域に対して文字認識を行う認識手段と、認識手段での文字認識の結果に基づき組版情報を抽出する抽出手段と、抽出手段で抽出された組版情報に基づき認識手段での文字認識の結果を組版する組版手段と、文字領域と、組版手段で組版された結果の領域と、を比較し、比較の結果に基づき一部の文字領域を回転させるか否かを判定する判定手段と、判定手段で一部の文字領域を回転させると判定された場合、文字領域を回転させる回転手段と、回転手段で回転させられた一部の文字領域に対して文字認識を行い、文字認識の結果に基づき組版情報を抽出し、抽出した組版情報に基づき文字認識の結果を組版する補正手段と、を有する。
【選択図】図3

Description

本発明は、画像処理装置、画像処理方法及びプログラムに関する。
縦書き文書に横書きの英数字等が混在している文書を文字認識すると、横書きの部分もそのまま縦書きとして認識するため、正しい認識結果が得られなかった。そこで、縦書き文書に横書きが混在している文書をそのまま縦書きとして文字認識し、リジェクトされた文字を回転して、文字認識する手法が提案されている(例えば、特許文献1)。また、知識処理を行って、候補単語がない場合に単語領域を回転して文字認識する手法が提案されている(例えば、特許文献2)。
特開昭62−120586号公報 特開平5−189609号公報
しかしながら、特許文献1で提案される手法では、リジェクトされない文字は回転しないため、横書きの英数字で縦書きにしてもリジェクトされない文字(例えば、横書きでN、縦書きにすると乙と認識される)がある場合、正しい文字認識結果が得られなかった。
また、特許文献2で提案される手法では、知識処理を行うための辞書が必要であり、使用メモリが増大する問題があった。
本発明はこのような問題点に鑑みなされたもので、縦書き文書に横書きの英数字等が混在する文書の文字認識において、精度よく文字認識を行うことを目的とする。
そこで、本発明の画像処理装置は、画像データに含まれる文字領域が縦書きか否かを判別する判別手段と、前記判別手段で縦書きであると判別された文字領域に対して文字認識を行う認識手段と、前記認識手段での文字認識の結果に基づき組版情報を抽出する抽出手段と、前記抽出手段で抽出された組版情報に基づき前記認識手段での文字認識の結果を組版する組版手段と、前記文字領域と、前記組版手段で組版された結果の領域と、を比較し、比較の結果に基づき一部の文字領域を回転させるか否かを判定する判定手段と、前記判定手段で一部の文字領域を回転させると判定された場合、前記一部の文字領域を回転させる回転手段と、前記回転手段で回転させられた前記一部の文字領域に対して文字認識を行い、文字認識の結果に基づき組版情報を抽出し、抽出した組版情報に基づき前記文字認識の結果を組版する補正手段と、を有する。
本発明によれば、縦書き文書に横書きの英数字等が混在する文書の文字認識において、精度よく文字認識を行うことができる。
像処理装置のハードウェア構成の一例を示す図である。 本実施形態の処理を説明するための図である。 本実施形態の動作を説明するためのフローチャートである。 文字切り結果が複数あった場合の処理を説明するための図である。
以下、本発明の実施形態について図面に基づいて説明する。
<実施形態1>
図1は、画像処理装置のハードウェア構成の一例を示す図である。CPU101は、ROM102に格納されている制御プログラムに従って本装置全体の制御を行う。ROM102は、制御プログラム等を格納する。RAM103は、画像データ等を記憶する。外部記憶装置104は、磁気ディスク等の外部記憶装置である。ディスプレイ105は、例えば、文字の認識結果等を表示する。キーボード106は、オペレータの操作に応じて情報を入力する。ポインティングデバイス107は、例えばマウス等である。スキャナ108は、画像を読み取る。
なお、画像処理装置は、汎用的なコンピュータでも実施可能である。この場合、媒体等で提供される制御プログラムは、外部記憶装置104に記憶され、オペレータの指示等によりCPU101が制御プログラムに基づき処理を実行する。また、ネットワークインターフェース109は、図示しない遠隔地に存在する装置と通信し、プログラムやデータ等を読み込んだり、書き込んだりする。
なお、スキャナ108やディスプレイ105等は、インターフェイスを介して接続された構成でもよい。
CPU101が、制御プログラムに基づき処理を実行することによって、画像処理装置の機能及び後述するフローチャートに係る処理が実現される。
図2は、本実施形態の処理を説明するための図である。(A)は、縦書きの文書に横書きの英数字が混在する画像データの例である。日本語では、通常、縦書きの文書に英数字が含まれる場合は、右90°回転した状態で記載されている。画像処理装置は、この画像データを文字認識すると、文字切り結果と、認識した結果の文字コードと、を出力する。(B)が(A)の画像データを文字切りした結果であり、201〜207が文字切りの矩形である。(C)は、画像処理装置が、(B)の文字切り結果を文字認識した結果の文字コード(「日」「本」「」」「"」「も」「"」「●」)を組版した例である。
画像処理装置は、(B)の文字切り結果を囲む文字認識領域200と、(C)の文字コードを組版した結果を囲む組版領域210と、を比較する。ここで、一致したときは、画像処理装置は、全て縦書きであると判断して、処理を終える。一致しないときは、画像処理装置は、横書きがあると判断し、1文字ずつ文字切りした領域と、組版した領域と、の大きさ、位置、形状(縦横比)を比較していく。画像処理装置は、201と211、202と212、・・・、207と217というように比較していくと、201と211、202と212は一致していると判断する。画像処理装置は、例えば、203と213は、縦横比が異なるので一致しないと判断する。そのようにして、画像処理装置は、203〜207が一致しないと判断し、この領域を囲む一部の領域208(点線で囲む領域)を回転対象領域と判断し、この領域の画像データを左90°回転させる。画像処理装置が、前記領域を左90°回転させた画像が(D)である。そして、画像処理装置は、(D)を文字認識する。文字認識の結果、文字コード(「J」「a」「p」「a」「n」)となったとする。この文字コードで、画像処理装置が組版した結果が、(E)になる。そして、画像処理装置は、(B)の領域208(左90°回転させられる前の領域)と、(E)の組版領域220と、を比較し、各文字203と221、204と222、・・・、207と225を比較する。ここで、一致すれば、画像処理装置は、(E)の220の部分を文字認識を補正した結果とし、(E)を最終的な認識結果とする。図2の例では、英数字が右90°回転しているが、左90°回転している場合もあり得る。したがって、画像処理装置は、部分画像を左90°回転、右90°回転の両方向で画像回転させ、結果を比較する構成としてもよい。
図3は、本実施形態の動作を説明するためのフローチャートである。
ステップS301で、CPU101は、画像データを入力する。次に、ステップS302で、CPU101は、縦書きか横書きかを判別する。これは、CPU101が、ステップS301で入力した画像を領域識別し、文字領域の行の方向等で判別する。また、CPU101は、文字領域に縦書きか、横書きかが指定されている場合は、この指定によって、縦書きか横書きかを判別することができる。そして、ステップS302で、CPU101は、横書きの場合、処理を終了する。CPU101は、縦書きの場合、ステップS303に進み、縦書きのまま、文字認識を行う。ステップS304では、CPU101は、文字認識結果から、組版情報(フォント、文字サイズ)を取得(又は抽出)する。そして、ステップS305では、その組版情報を使用して、文字認識結果の文字コードを組版する。そして、ステップS306で、CPU101は、文字認識した画像領域の文字認識領域と、組版領域と、を比較する。ここで、文字認識領域と組版領域とが一致すれば、CPU101は、横書きの英数字等は混在していなかったと判断し、処理を終了する。ここで、一致していなかった場合、CPU101は、ステップS307に進む。
ステップS307では、CPU101は、文字認識領域と組版領域との各文字の外接矩形領域を1文字ずつ比較する。CPU101は、各文字の外接矩形の大きさや位置、形状(縦横比)を比較していく。CPU101は、比較して、一致しない文字の領域を保存しておく。そして、ステップS308で、CPU101は、一致しない文字領域があったか否かを判断する。一致しない文字領域がなかった場合、CPU101は、ステップS316に進み、他の文字切り結果があるか否かを判定する。文字切り結果が複数ある場合は、後述する。ここで、他の文字切り結果があれば、ステップS317で、CPU101は、文字認識結果を取得して、ステップS304からの処理を行う。ステップS308で、一致しない文字領域があった場合、CPU101は、ステップS309に進む。ステップS309では、CPU101は、一致しない文字領域を回転対象領域として、90°回転する。日本語文書の場合、CPU101は、通常、左90°回転する。しかしながら、CPU101は、右90°回転してもよい。CPU101は、一致しない領域を囲む領域を回転する。また、CPU101は、他の回転対象領域として、一致している文字領域にはさまれた領域全てを囲む領域を回転対象領域としてもよい。そして、ステップS310で、CPU101は、回転した領域を文字認識する。次に、ステップS311で、CPU101は、文字認識結果の文字コードから、組版情報を取得する。そして、ステップS312で、CPU101は、組版する。
そして、CPU101は、ステップS313で、ステップS306と同じように文字認識領域と組版領域とを比較し、ステップS314で、文字認識領域と組版領域とが一致したかを判定する。ステップS314で、一致しなかった場合、CPU101は、ステップS318で他の回転角度がないかを判断する。CPU101は、最初に左90°回転した場合、右90°回転があるので、回転角度を変えて、ステップS309からの処理を行う。ステップS318で、他の回転角度がない場合、CPU101は、ステップS319に進み、他の回転対象領域がないかを判定する。一致している文字領域にはさまれた領域全てを囲む領域を回転対象領域とする等、回転対象領域の範囲を変えることができる場合、CPU101は、回転対象領域を変えて、ステップS309からの処理を行う。ステップS319で、他の回転対象領域がない場合は、ステップS316に進み、CPU101は、他の文字切り結果があるかを判定し、なければ、終了する。他の文字切り結果があった場合、ステップS317で、CPU101は、文字認識結果を収録して、ステップS304からの処理を行う。
ステップS314で、一致した場合は、ステップS315で、CPU101は、回転対象領域を90°回転して文字認識した結果を文字認識補正結果として、出力する。
以上説明したように、本実施形態によれば、CPU101は、文字認識した領域と文字認識結果を組版した領域とを比較することにより、回転する領域を判断する。そして、CPU101は、回転する領域を90°回転して文字認識し、再度組版を行い、文字認識領域と比較することにより、縦書き文書に横書きの英数字等を混在している文書を精度よく文字認識することができる。
<実施形態2>
実施形態1では、画像データを縦書きで文字認識した結果、文字切り結果が1つの場合について、説明した。しかしながら、本実施形態では、文字切り結果が複数あった場合について、説明する。図4は、文字切り結果が複数あった場合の処理を説明するための図である。(A)は、縦書きの文書に横書きの英数字が混在する画像データである。これを文字認識した結果、文字切り結果が(B)と(C)との2つ存在する。(B)は「Ill」の部分が1つに、(C)は、「Ill」の部分が「I」と「ll」の2つに分割された例である。この場合、CPU101は、(B)、(C)それぞれについて、図3の304から314までの処理を行い、一致する場合、一致した結果を採用して処理を終える。
以上説明したように、本実施形態によれば、文字認識した結果に複数の文字切り結果があった場合でも、それぞれの文字認識結果を組版して比較することにより、精度よく文字認識結果を出力することができる。
<その他の実施形態>
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。
以上、上述した各実施形態によれば、縦書き文書に横書きの英数字等が混在する文書の文字認識において、精度よく文字認識を行うことができる。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
101 CPU

Claims (6)

  1. 画像データに含まれる文字領域が縦書きか否かを判別する判別手段と、
    前記判別手段で縦書きであると判別された文字領域に対して文字認識を行う認識手段と、
    前記認識手段での文字認識の結果に基づき組版情報を抽出する抽出手段と、
    前記抽出手段で抽出された組版情報に基づき前記認識手段での文字認識の結果を組版する組版手段と、
    前記文字領域と、前記組版手段で組版された結果の領域と、を比較し、比較の結果に基づき一部の文字領域を回転させるか否かを判定する判定手段と、
    前記判定手段で一部の文字領域を回転させると判定された場合、前記一部の文字領域を回転させる回転手段と、
    前記回転手段で回転させられた前記一部の文字領域に対して文字認識を行い、文字認識の結果に基づき組版情報を抽出し、抽出した組版情報に基づき前記文字認識の結果を組版する補正手段と、
    を有する画像処理装置。
  2. 前記補正手段は、前記組版した結果の領域と、前記回転手段で回転させられる前の文字領域と、を比較し、比較の結果、一致すると判断した場合、前記組版した結果を補正結果として出力する請求項1記載の画像処理装置。
  3. 前記判定手段は、前記文字領域と、前記組版手段で組版された結果の領域と、を比較し、比較の結果、一致しないと判断した場合、一致しない文字領域を回転させると判定する請求項1又は2記載の画像処理装置。
  4. 前記判定手段は、前記文字領域と、前記組版手段で組版された結果の領域と、を比較し、比較の結果、一致しないと判断した場合、前記文字領域の各文字の外接矩形と、前記組版手段で組版された結果の各文字の外接矩形と、の大きさ、位置、形状をそれぞれ比較し、一致しない文字領域を回転させる請求項3記載の画像処理装置。
  5. 画像処理装置が実行する画像処理方法であって、
    画像データに含まれる文字領域が縦書きか否かを判別する判別ステップと、
    前記判別ステップで縦書きであると判別された文字領域に対して文字認識を行う認識ステップと、
    前記認識ステップでの文字認識の結果に基づき組版情報を抽出する抽出ステップと、
    前記抽出ステップで抽出された組版情報に基づき前記認識ステップでの文字認識の結果を組版する組版ステップと、
    前記文字領域と、前記組版ステップで組版された結果の領域と、を比較し、比較の結果に基づき一部の文字領域を回転させるか否かを判定する判定ステップと、
    前記判定ステップで文字領域を回転させると判定された場合、前記一部の文字領域を回転させる回転ステップと、
    前記回転ステップで回転させられた前記一部の文字領域に対して文字認識を行い、文字認識の結果に基づき組版情報を抽出し、抽出した組版情報に基づき前記文字認識の結果を組版する補正ステップと、
    を有する画像処理方法。
  6. コンピュータを、
    画像データに含まれる文字領域が縦書きか否かを判別する判別手段と、
    前記判別手段で縦書きであると判別された文字領域に対して文字認識を行う認識手段と、
    前記認識手段での文字認識の結果に基づき組版情報を抽出する抽出手段と、
    前記抽出手段で抽出された組版情報に基づき前記認識手段での文字認識の結果を組版する組版手段と、
    前記文字領域と、前記組版手段で組版された結果の領域と、を比較し、比較の結果に基づき一部の文字領域を回転させるか否かを判定する判定手段と、
    前記判定手段で一部の文字領域を回転させると判定された場合、前記一部の文字領域を回転させる回転手段と、
    前記回転手段で回転させられた前記一部の文字領域に対して文字認識を行い、文字認識の結果に基づき組版情報を抽出し、抽出した組版情報に基づき前記文字認識の結果を組版する補正手段と、
    して機能させるプログラム。
JP2010053677A 2010-03-10 2010-03-10 画像処理装置、画像処理方法及びプログラム Pending JP2011186945A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010053677A JP2011186945A (ja) 2010-03-10 2010-03-10 画像処理装置、画像処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010053677A JP2011186945A (ja) 2010-03-10 2010-03-10 画像処理装置、画像処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2011186945A true JP2011186945A (ja) 2011-09-22

Family

ID=44793105

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010053677A Pending JP2011186945A (ja) 2010-03-10 2010-03-10 画像処理装置、画像処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2011186945A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112799609A (zh) * 2019-10-25 2021-05-14 株式会社理光 竖排打印图像生成装置、方法、移动设备及竖排打印系统
JP2021111394A (ja) * 2019-12-30 2021-08-02 ネクストブイピーユー (シャンハイ) カンパニー リミテッド 混合組版された文字を認識する方法、装置、チップ回路及びコンピュータプログラム製品

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112799609A (zh) * 2019-10-25 2021-05-14 株式会社理光 竖排打印图像生成装置、方法、移动设备及竖排打印系统
CN112799609B (zh) * 2019-10-25 2024-03-15 株式会社理光 竖排打印图像生成装置、方法、移动设备及竖排打印系统
JP2021111394A (ja) * 2019-12-30 2021-08-02 ネクストブイピーユー (シャンハイ) カンパニー リミテッド 混合組版された文字を認識する方法、装置、チップ回路及びコンピュータプログラム製品
JP7097099B2 (ja) 2019-12-30 2022-07-07 ネクストブイピーユー (シャンハイ) カンパニー リミテッド 混合組版された文字を認識する方法、装置、チップ回路及びコンピュータプログラム製品

Similar Documents

Publication Publication Date Title
CN110942074B (zh) 字符切分识别方法、装置、电子设备、存储介质
JP4694613B2 (ja) 原稿方向判定装置、原稿方向判定方法、プログラムおよびその記録媒体
RU2605078C2 (ru) Сегментация изображения для верификации данных
KR20220024146A (ko) 자유 핸드라이팅 모드에서 텍스트 핸드라이팅 입력의 처리
KR102282025B1 (ko) 컴퓨터를 이용한 문서 분류 및 문자 추출 방법
JP2011186945A (ja) 画像処理装置、画像処理方法及びプログラム
KR20210010602A (ko) 글자 인식 장치 및 이에 의한 글자 인식 방법
CN112990142A (zh) 一种基于ocr的视频导图生成方法、装置、设备及存储介质
KR102468975B1 (ko) 인공지능 기반의 판례 인식의 정확도 향상 방법 및 장치
JP2008027133A (ja) 帳票処理装置及び帳票処理方法ならびに帳票処理方法を実行するプログラムと記憶媒体
US11508139B2 (en) Information processing apparatus and non-transitory computer readable medium
CN111476090B (zh) 水印识别方法和装置
US20130330005A1 (en) Electronic device and character recognition method for recognizing sequential code
JP6582464B2 (ja) 情報入力装置、およびプログラム
JP2017211847A (ja) 情報処理装置及びプログラム
JP6325218B2 (ja) 文字認識結果検証装置及び文字読取システム
Leiva et al. μcaptcha: Human Interaction Proofs tailored to touch-capable devices via math handwriting
CN111104844A (zh) 多发票信息录入方法、装置、电子设备及存储介质
JPH0785215A (ja) 文字認識装置
JP6458358B2 (ja) 画像処理装置及びプログラム
JP6772629B2 (ja) 情報処理装置、文字入力プログラムおよび文字入力方法
JPH0388086A (ja) 文書読取装置
JPH06251187A (ja) 文字認識誤り修正方法及び装置
CN116704515A (zh) 书法作品汉字的识别检索方法、装置及存储介质
CN116246290A (zh) 字符识别方法、装置、存储介质以及终端