JP2006260115A - 文書管理システム - Google Patents

文書管理システム Download PDF

Info

Publication number
JP2006260115A
JP2006260115A JP2005076124A JP2005076124A JP2006260115A JP 2006260115 A JP2006260115 A JP 2006260115A JP 2005076124 A JP2005076124 A JP 2005076124A JP 2005076124 A JP2005076124 A JP 2005076124A JP 2006260115 A JP2006260115 A JP 2006260115A
Authority
JP
Japan
Prior art keywords
language
management system
document management
area
ocr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005076124A
Other languages
English (en)
Inventor
Yasuhiro Ii
泰洋 伊井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2005076124A priority Critical patent/JP2006260115A/ja
Publication of JP2006260115A publication Critical patent/JP2006260115A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】 同一画像内に複数言語が混在している場合に、領域ごとに異なる言語でOCR処理を行うことにより、認識(記載内容把握)率の向上を図ることができる文書管理システムを提供する。
【解決手段】 メモリに読み込んだ文字、図表、写真の各画像情報領域を識別する領域識別モジュール2と、文字領域を行領域に分割する行識別モジュール3と、文字領域及び行領域に対して言語識別を行う言語識別モジュール4と、言語種別に応じた言語辞書でOCR処理を行うOCRモジュール1と、言語種別に応じた全文検索機能を有する全文検索エンジン5とを備え、文字領域ごとに言語識別を行い、1枚の画像内で複数の言語によるOCR認識を行う文書管理システム。
【選択図】 図2

Description

本発明は、スキャナ等で入力した文書を検索する機能を有する文書管理システムに関し、特に、マニュアル等の、1ページ内に複数言語を含む文書を取り扱う文書管理システムに関する。
輸出対象が複数国にまたがる製品では、マニュアルを各国の言語ごとに用意するケースが一般的だが、中には1部のマニュアルあるいは1枚の原稿中に複数言語で同じ内容を記載する文書もある。特にソフトウェアの紙マニュアルは、必要最小限の事項を記していることから、このように1枚に複数言語で記載されるケースが多い。
このような、1枚の原稿中に複数言語で同じ内容を記載する文書画像をOCR処理する場合、従来は複数言語に対応したOCR処理モジュールは存在しないため各国の言語を全て認識することができず、言語が異なる毎にOCR処理を行わなければならず、処理が煩わしいといった不都合が生じる。
本発明は、同一画像内に複数言語が混在している場合に、領域ごとに異なる言語でOCR処理を行うことにより、認識(記載内容把握)率の向上を図ることができる文書管理システムを提供することを目的とする。
上記目的を達成するために、請求項1記載の発明は、メモリに読み込んだ文字、図表、写真の各画像情報領域を識別する領域識別モジュールと、文字領域を行領域に分割する行識別モジュールと、前記文字領域及び行領域に対して言語識別を行う言語識別モジュールと、言語種別に応じた言語辞書によりOCR処理を行うOCRモジュールと、言語種別に応じた全文検索機能を有する全文検索エンジンとを備え、文字領域ごとに言語識別を行い、1枚の画像内で複数の言語によるOCR認識を行うことを特徴とする。
請求項2記載の発明は、請求項1の文書管理システムにおいて、文字領域ごとの言語識別結果が不定の場合、前記文字領域を行領域に分割し、行領域ごとに言語識別を行い、行ごとの言語判定結果のうち最も多い言語種別を領域の言語種別とすることを特徴とする。
請求項3記載の発明は、請求項1の文書管理システムにおいて、全文検索システムの対応言語に応じた言語の文字領域中のOCR認識結果を登録する文書管理システムを主要な特徴とする。
本発明によれば、メモリに読み込んだ文字、図表、写真の各画像情報領域を識別する領域識別モジュールと、文字領域を行領域に分割する行識別モジュールと、文字領域及び行領域に対して言語識別を行う言語識別モジュールと、言語種別に応じた言語辞書でOCR処理を行うOCRモジュールと、言語種別に応じた全文検索機能を有する全文検索エンジンとを備え、文字領域ごとに言語識別を行い、1枚の画像内で複数の言語によるOCR認識を行うので、認識率の向上を図ることができる。
以下、図面を参照して、本発明の実施形態を詳細に説明する。
図1は多言語混在原稿の例を示す図である。この例では、一枚の画像内に、文字と写真が混在し、一枚の写真に対して、複数言語での説明が書かれている。
図2は本発明の実施の形態に係る文書管理システムのソフトウェアブロック図である。本文書管理システムは、OCRモジュール1、領域識別モジュール2、行識別モジュール3、言語識別モジュール4、全文検索エンジン5を備える。
そして、OCRモジュール1は、日本語OCRエンジン11、英語OCRエンジン12、ドイツ語OCRエンジン13、フランス語OCRエンジン14、日本語言語辞書15、英語言語辞書16、ドイツ語言語辞書17、フランス語言語辞書18を有する。
図3は本発明の文書管理システムにおける第1の制御例を示す動作フロー図である。入力する画像は、ラスター形式のビットマップデータである。入力データとしては、スキャナ等の入力デバイスから入力されたRGBデータでも、JPEG等の圧縮形式のファイルを伸張して生成されたデータでもよい。
入力データの画像にまず、領域識別を実施し領域を分割する(S1)。領域識別モジュール2の出力結果が文字であれば(S2でYES)、言語識別モジュール4で言語識別を実施し(S3)、言語識別によって得られた結果により、OCRモジュール1において、OCR認識の言語を指定する。OCRエンジン11〜14は、指定された言語辞書15〜18を用いて認識を行う(S4、S5)。領域識別モジュール2の出力結果が文字でなければ(S2でNO)、再度領域識別を実施し領域を分割する(S1)。
図4は本発明の文書管理システムにおける第2の制御例を示す動作フロー図である。S1〜S3で図3と同じ処理が実施される。文字領域内で言語識別結果が一定値以下、つまり言語識別の確信度が低い文字領域に対しては(S4でNO)、行識別モジュール3により文字領域を行領域に分割し、最も言語識別の結果が多い言語をその文字領域の代表言語とする(S5〜S8)。代表言語をOCRの言語認識パラメータとして設定し、OCR処理を実行する(S9)。言語識別の確信度が高い文字領域に対しては(S4においてYES)、最多識別言語でOCR言語を選択(S8)し、OCR処理を実行する(S9)。
第2の制御例の処理においては、文字領域内の言語が確定しない場合に、行単位で比較して代表言語を決定するため、図1のようなカタログ、マニュアルのような形式の文書においては、各文字領域に正しい言語が設定されることが見込まれる。
図5は本発明の文書管理システムにおける第3の制御例を示す動作フロー図である。全文検索エンジン5は、言語ごとにインデックスの作成方法が異なり、複数言語の文字コードを混在して登録すると、検索結果にエラーが増える特徴を持つため、登録する言語は、全文検索エンジン5のサポート言語のものを登録する必要がある。
最初に、全文検索エンジン5の対応言語を取得し(S1)、第1の制御例、または第2の制御例で実施した文字領域の識別結果から、全文検索エンジン5の対応言語の文字領域のみを識別し(S2)、その領域のみにOCR処理を行う(S3)。OCR処理によって抽出された文字は、全文検索エンジン5の対応言語のみであるため、そのままインデックス登録を行う(S4)。
第3の制御例の処理においては、全文検索エンジン5の対応言語のみを登録することから、検索時にエラーを抑える効果を持ち、また、必要な言語の文字領域のみをOCR処理することから、OCRの処理時間を短縮することができる。
多言語混在原稿の例を示す図。 本発明の実施の形態に係る文書管理システムのソフトウェアブロック図。 本発明の文書管理システムにおける第1の制御例を示す動作フロー図。 本発明の文書管理システムにおける第2の制御例を示す動作フロー図。 本発明の文書管理システムにおける第3の制御例を示す動作フロー図。
符号の説明
1 OCRモジュール、2 領域識別モジュール、3 行識別モジュール、4 言語識別モジュール、5 全文検索エンジン、11 日本語OCRエンジン、12 英語OCRエンジン、13 ドイツ語OCRエンジン、14 フランス語OCRエンジン、15 日本語言語辞書、16 英語言語辞書、17 ドイツ語言語辞書、18 フランス語言語辞書

Claims (3)

  1. メモリに読み込んだ文字、図表、写真の各画像情報領域を識別する領域識別モジュールと、文字領域を行領域に分割する行識別モジュールと、前記文字領域及び行領域に対して言語識別を行う言語識別モジュールと、言語種別に応じた言語辞書によりOCR処理を行うOCRモジュールと、言語種別に応じた全文検索機能を有する全文検索エンジンとを備え、文字領域ごとに言語識別を行い、1枚の画像内で複数の言語によるOCR認識を行うことを特徴とする文書管理システム。
  2. 請求項1の文書管理システムにおいて、文字領域ごとの言語識別結果が不定の場合、前記文字領域を行領域に分割し、行領域ごとに言語識別を行い、行ごとの言語判定結果のうち最も多い言語種別を領域の言語種別とすることを特徴とする文書管理システム。
  3. 請求項1の文書管理システムにおいて、全文検索システムの対応言語に応じた言語の文字領域中のOCR認識結果を登録することを特徴とする文書管理システム。
JP2005076124A 2005-03-16 2005-03-16 文書管理システム Pending JP2006260115A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005076124A JP2006260115A (ja) 2005-03-16 2005-03-16 文書管理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005076124A JP2006260115A (ja) 2005-03-16 2005-03-16 文書管理システム

Publications (1)

Publication Number Publication Date
JP2006260115A true JP2006260115A (ja) 2006-09-28

Family

ID=37099304

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005076124A Pending JP2006260115A (ja) 2005-03-16 2005-03-16 文書管理システム

Country Status (1)

Country Link
JP (1) JP2006260115A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751567B (zh) * 2008-12-12 2012-10-17 汉王科技股份有限公司 快速文本识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751567B (zh) * 2008-12-12 2012-10-17 汉王科技股份有限公司 快速文本识别方法

Similar Documents

Publication Publication Date Title
US8203748B2 (en) Image processing apparatus, control method therefor, and program
US8073255B2 (en) Keyword generation process
US10142499B2 (en) Document distribution system, document distribution apparatus, information processing method, and storage medium
US11521365B2 (en) Image processing system, image processing apparatus, image processing method, and storage medium
CN101458699A (zh) 图像处理装置和图像处理方法
GB2478845A (en) Avoiding Confusion Arising from Similar Anchor Expressions
JP4227432B2 (ja) 画像処理方法
US20130339002A1 (en) Image processing device, image processing method and non-transitory computer readable recording medium
JP2008108114A (ja) 文書処理装置および文書処理方法
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
US20020181779A1 (en) Character and style recognition of scanned text
JP2006146627A (ja) 文書情報検索システム
JP2006260115A (ja) 文書管理システム
JP2007328432A (ja) 帳票処理装置、帳票処理方法及びプログラム
US9483694B2 (en) Image text search and retrieval system
JP2007011683A (ja) 文書管理支援装置
JPH08180068A (ja) 電子ファイリング装置
JP6303742B2 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
JP2006134042A (ja) 画像処理システム
JPH08153110A (ja) 文書ファイリング装置及び方法
JP4501731B2 (ja) 画像処理装置
US11206335B2 (en) Information processing apparatus, method and non-transitory computer readable medium
JP2020047031A (ja) 文書検索装置、文書検索システム及びプログラム
JP2004280514A (ja) Pdfファイル及びpdfファイル作成システム
US20230102476A1 (en) Information processing apparatus, non-transitory computer readable medium storing program, and information processing method