JP2007058605A - 文書管理システム - Google Patents

文書管理システム Download PDF

Info

Publication number
JP2007058605A
JP2007058605A JP2005243449A JP2005243449A JP2007058605A JP 2007058605 A JP2007058605 A JP 2007058605A JP 2005243449 A JP2005243449 A JP 2005243449A JP 2005243449 A JP2005243449 A JP 2005243449A JP 2007058605 A JP2007058605 A JP 2007058605A
Authority
JP
Japan
Prior art keywords
keyword
search
image
word
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005243449A
Other languages
English (en)
Other versions
JP2007058605A5 (ja
Inventor
Yasuhiro Ii
泰洋 伊井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2005243449A priority Critical patent/JP2007058605A/ja
Priority to US11/510,016 priority patent/US7668814B2/en
Publication of JP2007058605A publication Critical patent/JP2007058605A/ja
Publication of JP2007058605A5 publication Critical patent/JP2007058605A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】 検索結果ハイライトが確実にできる文書管理システムの提供。
【解決手段】 画像を入力する画像入力モジュール1と、入力された画像中から文字列を抽出する文字抽出モジュール2と、抽出された文字列から単語を抽出する単語抽出モジュール3と、抽出された単語をインデックスとして登録し文書検索を行う検索モジュール4と、キーワードを入力する検索条件入力モジュール5と、キーワードによる検索結果から文書表示を行う際にキーワードもしくは正規化されたキーワードによるヒット文字列を抽出して表示する検索結果表示モジュール6と、抽出したヒット文字列と正規化されたキーワードに基づいて、キーワードの位置情報を計算して画像に登録する属性情報を作成する画像属性作成モジュール7と、画像上の単語をハイライト表示する単語ハイライトモジュール8と、検索結果より文書を選択して表示する画像表示モジュール9と、を備えて構成される。
【選択図】 図1

Description

本発明は、文書管理システムに関し、さらに詳しくは、画像を文書として管理し、蓄積、表示、検索する文書管理システムに関するものである。
紙原稿を電子化して保管、検索を行う電子ファイリングシステムにおいては、登録済の文書を検索する機能、及び検索条件に該当する文書に対し、検索該当箇所を操作者に明示する方法が一般的に提供されている。例えば、「特許公報」という文字列を検索キーワードにして検索を行い、ヒットした文書を開くと、文書内の「特許公報」の文字が反転、マーキングなどで強調表示される。これを検索結果のハイライト処理と呼ぶ。また、文書検索においては、いくつかの異なる単語を同一のものとして扱い、検索のヒット率を上げる手法が採用されている。例えば、「メモリー」「メモリ」のように長音の有無により異なる単語は、同一のものとして処理した方が所望の文書を探しやすい。また「Memory」「MEMORY」「MEMORY」のように、大文字と小文字による差、あるいは全角文字と半角文字による差を持つ単語も、同一として処理した方が所望の文書を探しやすい。このため、複数の表記をまとめてひとつの表記として扱うことを異表記正規化と呼ぶ。これとは逆にひとつの単語から、複数の正規化単語を抽出することを異表記逆正規化と呼ぶ。異表記逆正規化の例としては、Memoryというキーワードから、MEMORY、Memory、MEMORYのような正規化が予測される単語を生成することである。
一般的に、検索結果のハイライト処理の流れは以下のようになる。操作者が検索したいキーワード(語句)を入力し、検索サブシステムが検索を行い、該当する文書のリストを返し、リスト上にある文書を表示する。キーワードに対して異表記逆正規化を行い、該当する単語すべてを表示文書上でハイライトを行う。この方式での問題点は、異表記逆正規化を行った場合に、検索漏れがでてくることである。例えば、検索サブシステムが、長音をすべて省略するような正規化を行う場合を考える。このとき、「コンピューター」という単語は正規化により「コンピュタ」となり、検索インデックスに登録される。また、別文書に「コンピュータ」という単語が含まれていた場合も、正規化の結果は「コンピュタ」となる。つまり、「コンピューター」も「コンピュータ」も同一の検索インデックスになる。これは、表現が微妙に違っていても、検索にヒットするという点では効果的である。しかし、「コンピュタ」の異表記逆正規化を考えた場合、ひとつの語句から多くの逆正規化単語が抽出される。「コンピュタ」を例にとれば「コンピュータ」「コンピューター」の他に「コーンピュータ」「コーンーピュータ」「コンーピュータ」他多くの抽出が行われる。これは、削除した長音を元に戻そうとする場合、それぞれの音の後に長音を付加するためである。単語が長くなればなるほど、異表記逆正規化の出力単語の種類は増えていく。即ち、異表記逆正規化の出力単語の膨大な増加は、処理時間の遅延をもたらすため、実際にはある程度の個数の単語を出力したら、そこで異表記逆正規化処理を止め、単語数の上限を設けている。しかし、この取りやめ処理により、異表記逆正規化により正規化前の単語を100%取得することはできなくなる。つまり、検索にヒットしても、ハイライトが行われない文書が生成されることになる。
尚、従来技術として特許文献1には、OCRと文書処理装置を分離し、OCRの出力形態として、文字行抽出及び文字切出及び文字識別の多重仮説を保持するデータ(読取仮説データ)と、文書画像の罫線情報や枠情報や文字行情報や閲覧属性情報等を持つ文書構造データを採用し、OCR付加データを元に印刷活字及び手書文字列からの重要キーワード抽出及び文書検索を行い、更に文書構造データを利用して閲覧者の意図する文書表示機能を構成することで、高度な機能を持つ文書画像検索・閲覧システムについて開示されている。
特開2005−135041公報
しかしながら特許文献1に開示されている従来技術は、OCRによる読取精度を高めるための技術であり、OCR処理に時間が掛かると共に、そのための構成が複雑になるといった問題がある。
本発明は、かかる課題に鑑み、検索対象となる文書の属性情報として、抽出単語と異表記正規化された単語を保持することにより、検索結果ハイライトが確実にできる文書管理システムを提供することを目的とする。
本発明はかかる課題を解決するために、請求項1は、画像を電子データとして入力する画像入力手段と、該画像入力手段により入力された画像中から文字列を抽出する文字抽出手段と、該文字抽出手段により抽出された文字列から単語を抽出する単語抽出手段と、該単語抽出手段により抽出された単語をインデックスとして登録し文書検索を行う文書検索手段と、検索のためのキーワードを入力する検索条件入力手段と、前記キーワードによる検索結果から文書表示を行う際に前記キーワードもしくは正規化されたキーワードによるヒット文字列を抽出して表示する検索結果表示手段を有する文書管理システムにおいて、前記抽出したヒット文字列と正規化されたキーワードに基づいて、前記キーワードの位置情報を計算して画像に登録する属性情報を作成する属性情報作成手段を備え、前記属性情報として前記抽出したヒット文字列と正規化されたキーワードを保持することにより、ハイライト表示の抜けを防止することを特徴とする。
本発明は、画像の属性情報に抽出されたキーワードと、キーワードを正規化した文字列の両方を登録し、表示時にこれらの文字列をハイライトすることによって実施される。
請求項2は、前記検索条件入力手段により入力したキーワードと前記正規化されたキーワードとのハイライト表示方法を変えることにより、前記ヒット文字列が前記入力したキーワードと同一か、あるいは正規化されたキーワードかを区別することを特徴とする。
登録処理については、請求項1の発明と同様になる。また表示処理については、請求項1のハイライト箇所で、画像属性情報のうち、正規化によって生成されたキーワードか否かを判断し、正規化されたキーワードと、正規化されていないキーワードとで色を分けて表示するものである。
請求項3は、前記単語抽出手段は、自然言語で書かれた文を意味を持つ最小単位の列に分割し、品詞を見分ける形態素解析により単語を抽出することを特徴とする。
形態素解析による単語抽出は、文字列を言語で意味を持つ最小単位の列に分割して品詞を見分けるので、確実に正確な単語を抽出することができる。
請求項4は、前記文書検索手段は、複数の表記をまとめて一つの表記として扱う表記正規化法により正規化したキーワードに基づいて検索することを特徴とする。
表記正規化法により正規化したキーワードは、逆に一つの単語から複数の正規化単語を抽出する際に、有効に作用して的確な正規化単語を抽出することができる。
請求項1の発明によれば、画像の属性情報に抽出されたキーワードと、キーワードを正規化した文字列の両方を登録し、表示時にこれらの文字列をハイライトするので、ハイライト表示時に逆正規化の漏れによって、ハイライトされないケースが防止できる。
また請求項2では、実際に操作者が入力したキーと、ハイライト表示される文字列が異なる場合でも、ハイライト表示色やハイライト表示形式を変えることにより、操作者に対して理解しやすいインターフェースを提供することができる。
また請求項3では、単語抽出手段は、自然言語で書かれた文を言語で意味を持つ最小単位の列に分割し、品詞を見分ける形態素解析により単語を抽出するので、確実に正確な単語を抽出することができる。
また請求項4では、文書検索手段は、複数の表記をまとめて一つの表記として扱う表記正規化法により正規化したキーワードに基づいて検索するので、逆に一つの単語から複数の正規化単語を抽出する際に、有効に作用して的確な正規化単語を抽出することができる。
以下、本発明を図に示した実施形態を用いて詳細に説明する。但し、この実施形態に記載される構成要素、種類、組み合わせ、形状、その相対配置などは特定的な記載がない限り、この発明の範囲をそれのみに限定する主旨ではなく単なる説明例に過ぎない。
図1は本発明の文書管理システムのモジュール構成を示す図である。この文書管理システム100は、画像を電子データとして入力する画像入力モジュール(画像入力手段)1と、画像入力モジュール1により入力された画像中から文字列を抽出する文字抽出モジュール(文字抽出手段)2と、文字抽出モジュール2により抽出された文字列から単語を抽出する単語抽出モジュール(単語抽出手段)3と、単語抽出モジュール3により抽出された単語をインデックスとして登録し文書検索を行う検索モジュール(文書検索手段)4と、検索のためのキーワードを入力する検索条件入力モジュール(検索条件入力手段)5と、キーワードによる検索結果から文書表示を行う際にキーワードもしくは正規化されたキーワードによるヒット文字列を抽出して表示する検索結果表示モジュール(検索結果表示手段)6と、抽出したヒット文字列と正規化されたキーワードに基づいて、キーワードの位置情報を計算して画像に登録する属性情報を作成する画像属性作成モジュール(属性情報作成手段)7と、画像上の単語をハイライト表示する単語ハイライトモジュール8と、検索結果より文書を選択して表示する画像表示モジュール9と、を備えて構成される。
また、ハイライト表示されるのは、操作者が入力した検索語句そのものとは限らない。検索システム登録時に正規化された文字列が表示されることもある。例えば、操作者は、「メモリー」と検索文字列を入力していても、検索システムの正規化時には「メモリ」と変更されるので、表示画像内に「メモリ」という文字列があった場合もハイライト表示される。
図2は入力した画像を登録するまでの流れを示す図である。同じ構成要素には同じ参照番号を付して説明する。本実施形態は、画像の属性情報に抽出されたキーワードと、キーワードを正規化した文字列の両方を登録し、表示時にこれらの文字列をハイライトすることによって実施される。まず、スキャンされた原稿11は、文字抽出モジュール2によりOCR処理が行われる。OCR処理では原稿内の文字情報12を取り出す。文字情報12には、文字コードの他、文字の位置、大きさが含まれる。例えば、「米x=0,y=0,w=8,h=8」という情報は、「米」という文字が画像左上から(0.0)の位置にあり、文字幅と高さは8画素であることを表している。次に、単語抽出モジュール3により単語抽出処理が行われ、OCRによって抽出された文字コードを単語ごとに区切り、その結果を出力する。これらの単語13は、検索モジュール4に登録される。検索モジュール4では、異表記正規化によって類似した表記の単語をまとめる処理を行った上で、正規化済みの単語から検索用のインデックスを作成する(符号14)。また、正規化した単語については、正規化情報(変更された単語)を通知する。画像属性作成モジュール7は、抽出した文字情報と、正規化されたキーワードから、キーワードの位置情報を計算し、画像に登録する属性情報15を作成する。このとき、正規化によって生成された文字については、識別可能な情報を埋め込む(属性情報15の、o=Tの箇所)。
図3は登録までの流れを示すフローチャートである。まず、原稿11がスキャンされて入力される(S1)。次に文字抽出モジュール2によりOCR処理が行われる(S2)。OCR処理では原稿内の文字情報12を取り出す。文字情報12には、文字コードの他、文字の位置、大きさが含まれる。例えば、「米x=0,y=0,w=8,h=8」という情報は、「米」という文字が画像左上から(0.0)の位置にあり、文字幅と高さは8画素であることを表している。次に、単語抽出モジュール3により単語抽出処理が行われ、OCRによって抽出された文字コードを単語ごとに区切り、その結果を出力する(S3)。これらの単語13は、検索モジュール4に登録される(S4)。検索モジュール4では、異表記正規化によって類似した表記の単語をまとめる処理を行った上で、正規化済みの単語から検索用のインデックスを作成する(符号14)。また、正規化した単語については、正規化情報(変更された単語)を通知する。画像属性作成モジュール7は、抽出した文字情報と正規化されたキーワードからキーワードの位置情報を計算し、画像に登録する属性情報15を作成する(S5)。このとき、正規化によって生成された文字については、識別可能な情報を埋め込む(属性情報15の、o=Tの箇所)。属性情報15の画像を登録して終了する(S6)。
図4は検索からハイライト表示までの処理を示す図である。操作者が「メモリ」という検索条件を検索条件入力モジュール5により入力すると、検索条件入力モジュールから検索キーが検索モジュール4に渡され、ヒットした文書の一覧21が検索結果一覧画面に表示される。操作者が見たい画像を指定すると、画像、画像属性情報、検索キーワードがハイライト表示モジュール23に渡される。ハイライト表示モジュール23は、画像属性情報22の中に、検索キーワードが含まれるかを走査する。この場合、必ず画像属性情報22の中に、検索条件の文字列が存在することになる。見つかった文字列の座標に対応する範囲をハイライト指定(23a)を行い、画像表示モジュール9が実際に画像を表示する。
図5は画像表示までの流れを示すフローチャートである。操作者が「メモリ」という検索条件を検索条件入力モジュール5により入力すると(S11)、検索条件入力モジュールから検索キーが検索モジュール4に渡され(S12)、ヒットした文書の一覧21が検索結果一覧画面に表示される(S13)。操作者が見たい画像を指定すると(S14)、画像、画像属性情報、検索キーワードがハイライト表示モジュール23に渡される(S15、16)。ハイライト表示モジュール23は、画像属性情報22の中に、検索キーワードが含まれるかを走査する。この場合、必ず画像属性情報22の中に、検索条件の文字列が存在することになる。見つかった文字列の座標に対応する範囲をハイライト指定(23a)を行い(S17)、画像表示モジュール9が実際に画像を表示する(S18)。
図6は本発明の画像処理のフローチャートである。本発明はハイライト箇所で、画像属性情報のうち、正規化によって生成されたキーか否かを判断し、正規化されたキーと、正規化されていないキーとで色を分けて表示する。まず画像、画像属性情報、検索キーワードがハイライト表示モジュール23に渡される(S21)。その結果、正規化されたキーワードか否かを判断し(S22)、正規化されたキーワードであると画像内の文字列を反転表示する(S23)。一方ステップS22で正規化されたキーワードでないと画像内の文字列をマーキング表示する(S25)。
以上の通り本発明によれば、画像の属性情報に抽出されたキーワードと、キーワードを正規化した文字列の両方を登録し、表示時にこれらの文字列をハイライトするので、ハイライト表示時に逆正規化の漏れによって、ハイライトされないケースが防止できる。
また、実際に操作者が入力したキーと、ハイライト表示される文字列が異なる場合でも、ハイライト表示色やハイライト表示形式を変えることにより、操作者に対して理解しやすいインターフェースを提供することができる。
また、単語抽出モジュール3は、自然言語で書かれた文を言語で意味を持つ最小単位の列に分割し、品詞を見分ける形態素解析により単語を抽出するので、確実に正確な単語を抽出することができる。
また、検索モジュール4は、複数の表記をまとめて一つの表記として扱う表記正規化法により正規化したキーワードに基づいて検索するので、逆に一つの単語から複数の正規化単語を抽出する際に、有効に作用して的確な正規化単語を抽出することができる。
本発明の文書管理システムのモジュール構成を示す図。 入力した画像を登録するまでの流れを示す図。 登録までの流れを示すフローチャート。 検索からハイライト表示までの処理を示す図。 画像表示までの流れを示すフローチャート。 本発明の画像処理のフローチャート。
符号の説明
1 画像入力モジュール、2 文字抽出モジュール、3 単語抽出モジュール、4 検索モジュール、5 検索条件入力モジュール、6 検索結果表示モジュール、7 画像属性作成モジュール、8 単語ハイライトモジュール、9 画像表示モジュール、100 文書管理システム

Claims (4)

  1. 画像を電子データとして入力する画像入力手段と、該画像入力手段により入力された画像中から文字列を抽出する文字抽出手段と、該文字抽出手段により抽出された文字列から単語を抽出する単語抽出手段と、該単語抽出手段により抽出された単語をインデックスとして登録し文書検索を行う文書検索手段と、検索のためのキーワードを入力する検索条件入力手段と、前記キーワードによる検索結果から文書表示を行う際に前記キーワードもしくは正規化されたキーワードによるヒット文字列を抽出して表示する検索結果表示手段を有する文書管理システムにおいて、
    前記抽出したヒット文字列と正規化されたキーワードに基づいて、前記キーワードの位置情報を計算して画像に登録する属性情報を作成する属性情報作成手段を備え、前記属性情報として前記抽出したヒット文字列と正規化されたキーワードを保持することにより、ハイライト表示の抜けを防止することを特徴とする文書管理システム。
  2. 前記検索条件入力手段により入力したキーワードと前記正規化されたキーワードとのハイライト表示方法を変えることにより、前記ヒット文字列が前記入力したキーワードと同一か、あるいは正規化されたキーワードかを区別することを特徴とする請求項1に記載の文書管理システム。
  3. 前記単語抽出手段は、自然言語で書かれた文を意味を持つ最小単位の列に分割し、品詞を見分ける形態素解析により単語を抽出することを特徴とする請求項1又は2に記載の文書管理システム。
  4. 前記文書検索手段は、複数の表記をまとめて一つの表記として扱う表記正規化法により正規化したキーワードに基づいて検索することを特徴とする請求項1又は2に記載の文書管理システム。
JP2005243449A 2005-08-24 2005-08-24 文書管理システム Pending JP2007058605A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005243449A JP2007058605A (ja) 2005-08-24 2005-08-24 文書管理システム
US11/510,016 US7668814B2 (en) 2005-08-24 2006-08-24 Document management system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005243449A JP2007058605A (ja) 2005-08-24 2005-08-24 文書管理システム

Publications (2)

Publication Number Publication Date
JP2007058605A true JP2007058605A (ja) 2007-03-08
JP2007058605A5 JP2007058605A5 (ja) 2008-09-11

Family

ID=37922044

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005243449A Pending JP2007058605A (ja) 2005-08-24 2005-08-24 文書管理システム

Country Status (2)

Country Link
US (1) US7668814B2 (ja)
JP (1) JP2007058605A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013077150A (ja) * 2011-09-30 2013-04-25 Fujitsu Broad Solution & Consulting Inc ファイル管理プログラム、情報処理装置およびファイル管理方法
EP2071493A3 (en) * 2007-12-12 2013-08-14 Canon Kabushiki Kaisha Image processing device, image processing method, and program and recording medium thereof
JP2021504779A (ja) * 2017-12-01 2021-02-15 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文書デジタル化における意味正規化のための方法、コンピュータ・プログラム及びシステム

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4930153B2 (ja) * 2007-03-30 2012-05-16 富士通株式会社 文書検索システム、文書番号部分列取得装置、および文書検索方法
KR101392273B1 (ko) * 2008-01-07 2014-05-08 삼성전자주식회사 키워드 제공 방법 및 이를 적용한 영상기기
JP5215105B2 (ja) * 2008-09-30 2013-06-19 オリンパスメディカルシステムズ株式会社 画像表示装置、画像表示方法、および画像表示プログラム
JP5528121B2 (ja) * 2010-01-05 2014-06-25 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
WO2011105607A1 (ja) * 2010-02-26 2011-09-01 楽天株式会社 情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体
US8340429B2 (en) 2010-09-18 2012-12-25 Hewlett-Packard Development Company, Lp Searching document images
US20130007004A1 (en) * 2011-06-30 2013-01-03 Landon Ip, Inc. Method and apparatus for creating a search index for a composite document and searching same
WO2013079907A1 (en) * 2011-11-30 2013-06-06 The University Of Surrey System, process and method for the detection of common content in multiple documents in an electronic system
JP5857124B2 (ja) * 2012-05-24 2016-02-10 株式会社日立製作所 画像解析装置、画像解析システム、画像解析方法
US10394936B2 (en) * 2012-11-06 2019-08-27 International Business Machines Corporation Viewing hierarchical document summaries using tag clouds
US9697182B2 (en) * 2012-12-11 2017-07-04 Xerox Corporation Method and system for navigating a hard copy of a web page
KR101541306B1 (ko) * 2013-11-11 2015-08-04 주식회사 엘지씨엔에스 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
US10878037B2 (en) * 2018-06-21 2020-12-29 Google Llc Digital supplement association and retrieval for visual search

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319890A (ja) * 1994-05-26 1995-12-08 Fuji Xerox Co Ltd 文書登録検索システム
JPH1083404A (ja) * 1996-07-15 1998-03-31 Toshiba Corp 全文検索システム及びプログラムを記録した記録媒体
JP2000322417A (ja) * 1999-05-06 2000-11-24 Canon Inc 画像ファイリング装置及び方法及び記憶媒体
JP2002269136A (ja) * 2001-03-14 2002-09-20 Ricoh Co Ltd 文書検索システム及びプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0756933A (ja) * 1993-06-24 1995-03-03 Xerox Corp 文書検索方法
US6573907B1 (en) * 1997-07-03 2003-06-03 Obvious Technology Network distribution and management of interactive video and multi-media containers
JP4271878B2 (ja) * 2001-03-22 2009-06-03 株式会社日立製作所 映像中の文字検索方法及び装置並びに文字検索処理プログラム
JP4446728B2 (ja) 2002-12-17 2010-04-07 株式会社リコー 複数のマルチメディア文書に格納された情報の表示法
JP2004348706A (ja) * 2003-04-30 2004-12-09 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
US7849063B2 (en) * 2003-10-17 2010-12-07 Yahoo! Inc. Systems and methods for indexing content for fast and scalable retrieval
JP4461769B2 (ja) 2003-10-29 2010-05-12 株式会社日立製作所 文書検索・閲覧手法及び文書検索・閲覧装置
US20050097080A1 (en) * 2003-10-30 2005-05-05 Kethireddy Amarender R. System and method for automatically locating searched text in an image file
US20050177555A1 (en) * 2004-02-11 2005-08-11 Alpert Sherman R. System and method for providing information on a set of search returned documents
US20060062453A1 (en) * 2004-09-23 2006-03-23 Sharp Laboratories Of America, Inc. Color highlighting document image processing
US20060200464A1 (en) * 2005-03-03 2006-09-07 Microsoft Corporation Method and system for generating a document summary
US20060277167A1 (en) * 2005-05-20 2006-12-07 William Gross Search apparatus having a search result matrix display

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319890A (ja) * 1994-05-26 1995-12-08 Fuji Xerox Co Ltd 文書登録検索システム
JPH1083404A (ja) * 1996-07-15 1998-03-31 Toshiba Corp 全文検索システム及びプログラムを記録した記録媒体
JP2000322417A (ja) * 1999-05-06 2000-11-24 Canon Inc 画像ファイリング装置及び方法及び記憶媒体
JP2002269136A (ja) * 2001-03-14 2002-09-20 Ricoh Co Ltd 文書検索システム及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2071493A3 (en) * 2007-12-12 2013-08-14 Canon Kabushiki Kaisha Image processing device, image processing method, and program and recording medium thereof
JP2013077150A (ja) * 2011-09-30 2013-04-25 Fujitsu Broad Solution & Consulting Inc ファイル管理プログラム、情報処理装置およびファイル管理方法
JP2021504779A (ja) * 2017-12-01 2021-02-15 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文書デジタル化における意味正規化のための方法、コンピュータ・プログラム及びシステム

Also Published As

Publication number Publication date
US7668814B2 (en) 2010-02-23
US20080222095A1 (en) 2008-09-11

Similar Documents

Publication Publication Date Title
JP2007058605A (ja) 文書管理システム
JP4461769B2 (ja) 文書検索・閲覧手法及び文書検索・閲覧装置
KR101122854B1 (ko) 스캔된 문서들로부터 전자 서식들을 채우기 위한 방법 및장치
JP3282860B2 (ja) 文書上のテキストのデジタル画像を処理する装置
US9256798B2 (en) Document alteration based on native text analysis and OCR
US7991709B2 (en) Method and apparatus for structuring documents utilizing recognition of an ordered sequence of identifiers
JP4347677B2 (ja) 帳票ocrプログラム、方法及び装置
RU2613846C2 (ru) Метод и система извлечения данных из изображений слабоструктурированных документов
Choudhury et al. Figure metadata extraction from digital documents
JP5372110B2 (ja) 情報出力装置、情報出力方法、及びコンピュータプログラム
US20060285746A1 (en) Computer assisted document analysis
JP2007058605A5 (ja)
JP2008021068A (ja) 帳票認識装置及び帳票認識プログラム
CN113806472A (zh) 一种对文字图片和图像型扫描件实现全文检索的方法及设备
Bland et al. Story beyond the eye: glyph positions break PDF text redaction
JP4470913B2 (ja) 文字列検索装置およびプログラム
JP2007310501A (ja) 情報処理装置、その制御方法、及びプログラム
US20100086210A1 (en) Digitizing documents
EP1304625A2 (en) Method and apparatus for forward annotating documents and for generating a summary from a document image
Yasin et al. Transformer-Based Neural Machine Translation for Post-OCR Error Correction in Cursive Text
US20210042555A1 (en) Information Processing Apparatus and Table Recognition Method
TWI667579B (zh) 處理文書之資訊處理裝置、資訊處理方法及用來處理文書的程式
JP2006085234A (ja) 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム
JP2005165978A (ja) 帳票ocrプログラム、方法及び装置
JP2010102734A (ja) 画像処理装置及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080724

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080724

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101221

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110426