JP2004078672A - 検索可能な文書フォーマットでのスキャン装置 - Google Patents

検索可能な文書フォーマットでのスキャン装置 Download PDF

Info

Publication number
JP2004078672A
JP2004078672A JP2002239337A JP2002239337A JP2004078672A JP 2004078672 A JP2004078672 A JP 2004078672A JP 2002239337 A JP2002239337 A JP 2002239337A JP 2002239337 A JP2002239337 A JP 2002239337A JP 2004078672 A JP2004078672 A JP 2004078672A
Authority
JP
Japan
Prior art keywords
text
character
image
document
ocr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002239337A
Other languages
English (en)
Inventor
Yukio Sato
佐藤 幸夫
Tomoshi Yoshida
吉田 知史
Masaki Toyama
外山 正樹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2002239337A priority Critical patent/JP2004078672A/ja
Publication of JP2004078672A publication Critical patent/JP2004078672A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】スキャンしたイメージ画像に対して全文検索をさせる場合、イメージデータにOCRしたテキストデータを添付して全文検索用として使う。さらに該テキストを(日本語などに)翻訳しておき日本語からも英文などの検索ができるようにする。
【解決手段】スキャナから読み込んだRAW画像にOCR処理をしてテキストデータとして持つ。このテキストデータの文字位置はRAW画像の文字位置と同一位置関係にある。テキストデータを例えば英語から日本語へと翻訳したテキストデータとして持つ。これら3枚の画像(RAW画像データ、OCRテキストデータ、翻訳テキストデータ)を一枚の画像として、例えばPDFとして出力する。
【選択図】    図1

Description

【0001】
【発明の属する技術分野】
本発明は、原稿をスキャンして読み取られた画像データに対してOCR(文字認識)処理をかけて文字を認識した後にテキストデータを作成し該画像データとともに文字テキストデータも同一文書として例えばPDFフォーマットにした上でデータベースに保存するシステムに関する。例えば、特開平07−093374号公報(文書検索方法及びシステム)など。
【0002】
さらに保存された画像データを検索する場合は文字テキストデータを用いて検索を行いその結果検索がヒットしたときには該当するRawな画像データの該当する部分の同一位置座標に該ヒットした文字部分を修飾表示(たとえば点滅強調表示など)をさせることで検索作業効率をあげるものである。
【0003】
【従来の技術】
一般にイメージスキャナ装置などを用いてドキュメントなどを大量スキャンしてデータベースなどに蓄積する場合、特に大量のデータベースから所望の文書を検索しようとするとき従来から文書に属性やインデックスをつけてそのキーワードから検索する方法がとられてきた。しかしながら文書の中身の単語そのものから検索させる場合いわゆる全文検索機能などを実行しようとした場合はスキャンしたRawな画像データのままでは無理であった。そこで最近では全文のOCR処理を施してテキストファイルを作成しこのテキスト文字列から全文検索を行うことが多い。
【0004】
【発明が解決しようとする課題】
しかしながら、たとえば英語の文書をスキャンして英語OCR処理を施し英文テキストデータを作成した場合など、文字検索は当然のことながら英語で検索をすることになる。
【0005】
したがって、日本語で文字検索をした場合はヒットしないことになった。
【0006】
【課題を解決するための手段】
本発明は以上のような欠点を解決するために考案されたものであり、英語OCR処理で英文テキストが得られた後に、たとえば日本語翻訳処理を行い日本語テキストも同時に作成することによって日本語での全文検索でもヒットしてくることが可能となる。
【0007】
しかも、単語の位置情報に関しては英語と日本語ともに同じ座標位置関係を保つことによって日本語からの文字検索でもヒットした英語単語部分を修飾文字として表示させることが可能となる
(作用)
これによって、スキャンされた文書がたとえ英語であった場合でも予め他言語への翻訳をしておくことで検索時のわずらわしさを解決することができる。検索してヒットした場合も該単語の位置関係が保たれているので所望の結果が得られる。
【0008】
【発明の実施の形態】
(実施形態1)
以下に図面を参照して本発明による実施形態1を説明する。
【0009】
図1において1オリジナル画像はスキャナによって読み取られたRawな画像データである。このRaw画像データ例では「This is a book.」と書かれている原稿をスキャナで読取ったビットマップ画像である。2OCR画像は1オリジナル画像に対してOCR処理を施して文字として認識したもので1オリジナル原稿と同じ位置関係、文字大きさや間隔などが一致させて表示してある。また、この2OCR画像は不可視レイヤーであり1オリジナル画像に添付されて隠れているものである。同様に3翻訳画像も不可視レイヤーでありこれは2OCR画像に対して日本語翻訳をした結果が表示されている。
【0010】
この場合では「This is a book.」が「これは本です。」と訳された結果である。
【0011】
図2は具体的に読み込まれた画像に対してOCR処理と翻訳処理がかかる過程を示したものである。さらに、全文検索した結果ヒットした文字があった場合の表示の方法を示したものである。図2(2−1)は読み込んだオリジナル画像を示す。これは図3のフローチャートStep301でのスキャン動作開始をあらわしている。
【0012】
Step302ではBS(ブロック・セパレーション)動作によって最小限の単語単位となるべき画像ブロックに分解するものである。BS処理をした結果は4つのブロックに分解されブロック11、ブロック12、ブロック13、ブロック14となる。この分解されたブロックに対してOCR処理を行うことになる。
【0013】
Step303ではOCR処理した後、2OCR画像として図2(2−2)ブロック21、ブロック22、ブロック23、ブロック24に示すようにそれぞれテキスト文字として認識されたことになる。当然のことながらブロック11とブロック21とは画面上での位置関係が一致しており、その他のブロックも同様に位置関係が一致している。
【0014】
図2(2−3)は日本語翻訳された結果を表している。(2−2)OCR画像は英語だったので英語から日本語への英和翻訳処理(不図示)ソフトが働き日本語に変換される。ここでは翻訳された文章の中は単語単位としてブロックで分けられている。
【0015】
たとえば(2−2)OCR画像のブロック24の「book」という単語はブロック32と対応付られている。このことにより日本語で検索してヒットした場合でも英語文の該当する部分の単語を表示することができる。
【0016】
図3はドキュメントをスキャナ装置で読み取り、検索可能な文書フォーマットとして保存するまでの動作フローチャートである。Step301ではスキャナ装置から画像を読み込むことを行っている。図5、図6に示したのでスキャナ装置の一例である。
【0017】
Step302ではBS(ブロックセレクション)処理を行い最小単語での単位にエリアを分解する。例えば図2(2−1)に示すブロック11からブロック14に分解された様子を示す。
【0018】
Step303では分解されたそれぞれのブロックに対してOCR処理(不図示)をかけてRAWなイメージデータをテキスト形式のデータに変換する、そしてこのテキストデータを2OCRテキストレイヤーとして格納する。次にStep304では他言語への翻訳処理を行う、この例では英語から日本語への翻訳をしていることを示す。
【0019】
最後にStep305で3枚の画像(1オリジナル画像レイヤー、2OCRテキストレイヤー、3翻訳テキストレイヤー)を一枚の画像として関連付けて文書ストレージ(不図示)例えば文書管理ソフトに保存する。
【0020】
図4は読み取った画像に対してワードによる検索を行う場合の動作フローチャートを示している。
【0021】
まず、Step401では検索文字が入力されたかどうか監視している、「本」という日本語文字が入力され、検索動作が開始されることになる。
【0022】
この時点で「本」という日本語を2OCRテキストデータのレイヤを用いて検索することになる。もし、ヒットした場合はStep407に進みヒットしたOCR文字部分に対応したBSブロック部分をオリジナル画像レイヤー上で修飾文字として表示することになる。
【0023】
しかしながら、この「本」という日本語では読み取ったオリジナル画像が英文なのでヒットしないことになる。
【0024】
次に、Step403へ進み、ここで、3翻訳テキストレイヤーでの検索を行うことになる。
【0025】
Step404ではヒットしたかを判定しもしヒットすればStep407へと進む。
【0026】
この「本」という文字の検索は、図2(2−3)に示したブロック32でヒットしたことになる。そしてこのブロック32は(2−2)OCRテキストデータではブロック24「book」というブロック24と位置関係が定義付けられている。
【0027】
さらに、オリジナル画像で(2−1)ではブロック14に相当する画像部分が網点表示している部分を修飾文字として表示する。
【0028】
一方、Step404でヒットしなかった場合はStep405に進み「検索エラー」に関するメッセージを表示して終了する。
【0029】
図5は本発明による実施形態のスキャナ装置のシステム構成図である。
【0030】
以下順を追ってスキャナ装置と具体的な操作方法を説明する。
【0031】
500は画像読み取り装置(以下、「スキャナ」と称する)、550は印刷装置(以下、「プリンタと称する」)である。
【0032】
500スキャナでは501スキャナコントローラがシーケンス制御の中心となっている、そしてネットワーク制御や画像表示や画像処理などは520CPUが中心となりコントロールされ特に524ネットワークコントローラを経由して112パソコンと接続されている。
【0033】
また、600はADF(オート・ドキュメント・フィーダ)であり502ADFコントローラによって両面原稿の給紙排紙や表面裏面など原稿ハンドリングの制御がされている。700は操作パネルでありこれは操作者に対してメッセージを表示すると同時に操作の指示をする為のタッチセンサ入力機能も含むものである、この操作パネルではプレスキャン画像表示も行いスキャン画像の概略を操作者に伝える役目も果たしており、この700操作パネルを制御しているのが操作パネルコントローラ504である。原稿台上の原稿をRGB各色ごとに503露光系コントローラが密着型CCDラインセンサを駆動し読み取りそして色分解し、点順次のアナログ画像信号に変換する。このアナログ画像信号はA/D変換され8bitのデジタル画像信号に変換され輝度で線順次出力される。
【0034】
次に600ADF(オート・ドキュメント・フィーダー)による原稿の給送について説明する。図6において、矢印▲1▼から▲9▼は原稿が搬送されるパスを示したものである。
【0035】
まず最初601原稿積載トレイに読み取るべき原稿を上向きに置く、次に601原稿積載トレイは原稿が給紙されるべく左側に寄せるために図示一点鎖線の如く右上方向に傾く、すると原稿は矢印方向▲1▼に進み602半月ローラに到達する。602半月ローラと603分離ローラの回転により原稿は上側から1ページづつ分離され原稿先頭の第1ページ目が矢印▲2▼方向へと搬送される。この原稿は604搬送ローラにくわえ込まれ矢印▲3▼方向へと進行していきやがて607全面搬送ベルトによって矢印▲4▼方向へ誘導される。607全面搬送ベルトでは原稿を全面で吸着搬送すべく摩擦力が働き原稿をプラテン上所定の位置で正確に停止させることができる。これらADF動作のシーケンス制御はすべて502ADFコントローラによって行われている。
【0036】
所定の位置で停止した原稿は500スキャナによって503露光系コントローラから露光されて原稿が走査され第1ページ目の表面を読み取ることができる。
【0037】
第1ページ目表面の走査終了後、607全面搬送ベルトは逆回転し矢印▲4▼とは反対方向である矢印▲5▼方向へと原稿が移動すべく動作をする。原稿は矢印▲6▼方向へと進行しやがて606搬送大ローラの回転搬送力によってローラに巻き付くように矢印▲7▼方向へと進む。
【0038】
608切り替えフラッパーの働きについて説明すると、このフラッパーは原稿を排紙するかまたは原稿を反転させて再度読み取るかいずれかの選択をさせるための搬送方向を切り分ける役目を持っている。図6で図示す方向は原稿を反転させ再度読み取る場合の608切り替えフラッパーの位置を示している。この制御によって原稿は矢印▲8▼へと進むことになりやがて604搬送ローラにくわえ込まれ前述同様のシーケンスに従い607全面搬送ベルトによって所定位置で停止したのち第1面裏面として500スキャナで読み取られる。
【0039】
次に、第1ページ目裏面の走査終了後は前述同様に排紙シーケンスが動作し矢印▲5▼→▲6▼→▲7▼と搬送される。608切り替えフラッパーを図6図示の位置から黒印を中心に反時計方向に切り替えることにより原稿の搬送方向は矢印▲9▼の方向へと導かれ609排紙ローラによって最終的に601積載トレイへと戻ってくる。
【0040】
第2ページ目以降は第1ページ目と同様のシーケンスによって表面から裏面へと順番に原稿が走査され最終ページ裏面が終わると一連の原稿読み取りが終了する。
【0041】
【発明の効果】
以上述べたようにドキュメント・スキャナシステムにおいて読み取った文書に対してOCR処理を施して文字テキストとして抽出しオリジナル画像と共にに文書保存をするシステムにおいて、スキャンをして読み取った画像に対して文字検索をさせる場合でも、OCR処理を施したテキストだけの検索でなく、他の言語への翻訳(例えば英語から日本語へと翻訳)されたテキストデータも検索することによって、その検索効率や検索漏れなどを防止させることができる。
【図面の簡単な説明】
【図1】実施形態(1)のスキャンドキュメントとそのOCR処理後のテキスト位置。
【図2】実施形態(1)のブロックにわけられたOCR文字。
【図3】実施形態(1)のレイヤー作成フローチャー。
【図4】実施形態(1)の検索文字入力による検索手順。
【図5】実施形態(1)のスキャナ装置内部構造。
【図6】実施形態(1)のADF(オート・ドキュメント・フィーダ)構造図。

Claims (2)

  1. 原稿をスキャンし読み取ったRaw画像データ(ビットマップデータ)にOCR処理をかけた後、該Raw画像データとともにOCR結果であるテキストファイルを付加して同一原稿として出力されるドキュメントスキャンニング装置において、OCR処理したテキストには予め指定された他言語へ翻訳をしたテキストファイルも同時に付加し出力できることを特徴とした検索可能な文書フォーマットでのスキャン装置。
  2. 検索可能な文書フォーマットでの文字検索を行う場合、テキストファイル上で文字検索がヒットした時にそのテキスト文字列に該当するRaw画像データ部分をヒット部分として同一座標位置に修飾文字として表示させることができる。さらに文字検索は他言語に翻訳されたテキストファイルでの検索も可能とし翻訳テキストでヒットした場合でも該当するRaw画像データ部分を同一座標軸に修飾文字として表示させることを特徴とした検索可能な文書フォーマットでのスキャン装置。
JP2002239337A 2002-08-20 2002-08-20 検索可能な文書フォーマットでのスキャン装置 Withdrawn JP2004078672A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002239337A JP2004078672A (ja) 2002-08-20 2002-08-20 検索可能な文書フォーマットでのスキャン装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002239337A JP2004078672A (ja) 2002-08-20 2002-08-20 検索可能な文書フォーマットでのスキャン装置

Publications (1)

Publication Number Publication Date
JP2004078672A true JP2004078672A (ja) 2004-03-11

Family

ID=32022469

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002239337A Withdrawn JP2004078672A (ja) 2002-08-20 2002-08-20 検索可能な文書フォーマットでのスキャン装置

Country Status (1)

Country Link
JP (1) JP2004078672A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009098777A (ja) * 2007-10-15 2009-05-07 Fuji Xerox Co Ltd データ処理装置及びデータ処理プログラム
JP2010211470A (ja) * 2009-03-10 2010-09-24 Ricoh Co Ltd 文書データ生成装置と文書データ生成方法
CN101782896B (zh) * 2009-01-21 2011-11-30 汉王科技股份有限公司 结合ocr技术的pdf文字提取方法
CN107908625A (zh) * 2017-12-04 2018-04-13 上海互盾信息科技有限公司 一种pdf文档内容原位置多语言翻译方法
CN109492199A (zh) * 2018-10-17 2019-03-19 四川译讯信息科技有限公司 一种基于ocr预判断的pdf文件转换方法
US10949697B2 (en) 2017-12-26 2021-03-16 Kyocera Document Solutions Inc. Image processing apparatus and image forming apparatus

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009098777A (ja) * 2007-10-15 2009-05-07 Fuji Xerox Co Ltd データ処理装置及びデータ処理プログラム
CN101782896B (zh) * 2009-01-21 2011-11-30 汉王科技股份有限公司 结合ocr技术的pdf文字提取方法
JP2010211470A (ja) * 2009-03-10 2010-09-24 Ricoh Co Ltd 文書データ生成装置と文書データ生成方法
CN107908625A (zh) * 2017-12-04 2018-04-13 上海互盾信息科技有限公司 一种pdf文档内容原位置多语言翻译方法
US10949697B2 (en) 2017-12-26 2021-03-16 Kyocera Document Solutions Inc. Image processing apparatus and image forming apparatus
CN109492199A (zh) * 2018-10-17 2019-03-19 四川译讯信息科技有限公司 一种基于ocr预判断的pdf文件转换方法
CN109492199B (zh) * 2018-10-17 2023-04-28 四川译讯信息科技有限公司 一种基于ocr预判断的pdf文件转换方法

Similar Documents

Publication Publication Date Title
JP4181892B2 (ja) 画像処理方法
JP4405831B2 (ja) 画像処理装置及びその制御方法、プログラム
US9619485B2 (en) Document retrieving apparatus, document retrieving method, program, and storage medium
US8542953B2 (en) Image processing apparatus and image processing method
US8131081B2 (en) Image processing apparatus, and computer program product
Baird Digital libraries and document image analysis
CN101060579A (zh) 显示控制装置、图像处理装置、显示控制方法
JP2008146603A (ja) 文書検索装置、文書検索方法、プログラム及び記憶媒体
JP2008234658A (ja) テキスト検索エンジンにより検索されたページ番号付き文書全体を通してのコースツーファイン・ナビゲーション
JP2008022159A (ja) 文書処理装置及び文書処理方法
JP2007004621A (ja) 文書管理支援装置、文書管理支援方法およびプログラム
US20230206672A1 (en) Image processing apparatus, control method of image processing apparatus, and storage medium
JP2006221569A (ja) 文書処理システム、文書処理方法、プログラムおよび記憶媒体
US20240129416A1 (en) Method of producing image data and image reading system
JP2004078672A (ja) 検索可能な文書フォーマットでのスキャン装置
JP5318233B2 (ja) 文書検索装置、文書検索方法、プログラム及び記憶媒体
JP2007011683A (ja) 文書管理支援装置
JP2006333248A (ja) 画像処理装置、画像処理方法、プログラム及び記憶媒体
JPH07146875A (ja) 情報検索装置
US11113521B2 (en) Information processing apparatus
US20230102476A1 (en) Information processing apparatus, non-transitory computer readable medium storing program, and information processing method
JP2022131466A (ja) 情報処理装置及び情報処理プログラム
JP2000066783A (ja) データ管理装置および該装置の利用方法
JP2000293633A (ja) 画像読取装置と該画像読取装置の制御方法、及び文書管理システム
JP2023023591A (ja) 電子機器

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20051101