JP2007058605A - 文書管理システム - Google Patents
文書管理システム Download PDFInfo
- Publication number
- JP2007058605A JP2007058605A JP2005243449A JP2005243449A JP2007058605A JP 2007058605 A JP2007058605 A JP 2007058605A JP 2005243449 A JP2005243449 A JP 2005243449A JP 2005243449 A JP2005243449 A JP 2005243449A JP 2007058605 A JP2007058605 A JP 2007058605A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- search
- image
- word
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 238000010606 normalization Methods 0.000 claims description 28
- 238000000034 method Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 7
- 230000000877 morphologic effect Effects 0.000 claims description 5
- 241000209094 Oryza Species 0.000 description 4
- 235000007164 Oryza sativa Nutrition 0.000 description 4
- 235000009566 rice Nutrition 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000000547 structure data Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
- Character Discrimination (AREA)
Abstract
【解決手段】 画像を入力する画像入力モジュール1と、入力された画像中から文字列を抽出する文字抽出モジュール2と、抽出された文字列から単語を抽出する単語抽出モジュール3と、抽出された単語をインデックスとして登録し文書検索を行う検索モジュール4と、キーワードを入力する検索条件入力モジュール5と、キーワードによる検索結果から文書表示を行う際にキーワードもしくは正規化されたキーワードによるヒット文字列を抽出して表示する検索結果表示モジュール6と、抽出したヒット文字列と正規化されたキーワードに基づいて、キーワードの位置情報を計算して画像に登録する属性情報を作成する画像属性作成モジュール7と、画像上の単語をハイライト表示する単語ハイライトモジュール8と、検索結果より文書を選択して表示する画像表示モジュール9と、を備えて構成される。
【選択図】 図1
Description
尚、従来技術として特許文献1には、OCRと文書処理装置を分離し、OCRの出力形態として、文字行抽出及び文字切出及び文字識別の多重仮説を保持するデータ(読取仮説データ)と、文書画像の罫線情報や枠情報や文字行情報や閲覧属性情報等を持つ文書構造データを採用し、OCR付加データを元に印刷活字及び手書文字列からの重要キーワード抽出及び文書検索を行い、更に文書構造データを利用して閲覧者の意図する文書表示機能を構成することで、高度な機能を持つ文書画像検索・閲覧システムについて開示されている。
本発明は、かかる課題に鑑み、検索対象となる文書の属性情報として、抽出単語と異表記正規化された単語を保持することにより、検索結果ハイライトが確実にできる文書管理システムを提供することを目的とする。
本発明は、画像の属性情報に抽出されたキーワードと、キーワードを正規化した文字列の両方を登録し、表示時にこれらの文字列をハイライトすることによって実施される。
請求項2は、前記検索条件入力手段により入力したキーワードと前記正規化されたキーワードとのハイライト表示方法を変えることにより、前記ヒット文字列が前記入力したキーワードと同一か、あるいは正規化されたキーワードかを区別することを特徴とする。
登録処理については、請求項1の発明と同様になる。また表示処理については、請求項1のハイライト箇所で、画像属性情報のうち、正規化によって生成されたキーワードか否かを判断し、正規化されたキーワードと、正規化されていないキーワードとで色を分けて表示するものである。
請求項3は、前記単語抽出手段は、自然言語で書かれた文を意味を持つ最小単位の列に分割し、品詞を見分ける形態素解析により単語を抽出することを特徴とする。
形態素解析による単語抽出は、文字列を言語で意味を持つ最小単位の列に分割して品詞を見分けるので、確実に正確な単語を抽出することができる。
請求項4は、前記文書検索手段は、複数の表記をまとめて一つの表記として扱う表記正規化法により正規化したキーワードに基づいて検索することを特徴とする。
表記正規化法により正規化したキーワードは、逆に一つの単語から複数の正規化単語を抽出する際に、有効に作用して的確な正規化単語を抽出することができる。
また請求項2では、実際に操作者が入力したキーと、ハイライト表示される文字列が異なる場合でも、ハイライト表示色やハイライト表示形式を変えることにより、操作者に対して理解しやすいインターフェースを提供することができる。
また請求項3では、単語抽出手段は、自然言語で書かれた文を言語で意味を持つ最小単位の列に分割し、品詞を見分ける形態素解析により単語を抽出するので、確実に正確な単語を抽出することができる。
また請求項4では、文書検索手段は、複数の表記をまとめて一つの表記として扱う表記正規化法により正規化したキーワードに基づいて検索するので、逆に一つの単語から複数の正規化単語を抽出する際に、有効に作用して的確な正規化単語を抽出することができる。
図1は本発明の文書管理システムのモジュール構成を示す図である。この文書管理システム100は、画像を電子データとして入力する画像入力モジュール(画像入力手段)1と、画像入力モジュール1により入力された画像中から文字列を抽出する文字抽出モジュール(文字抽出手段)2と、文字抽出モジュール2により抽出された文字列から単語を抽出する単語抽出モジュール(単語抽出手段)3と、単語抽出モジュール3により抽出された単語をインデックスとして登録し文書検索を行う検索モジュール(文書検索手段)4と、検索のためのキーワードを入力する検索条件入力モジュール(検索条件入力手段)5と、キーワードによる検索結果から文書表示を行う際にキーワードもしくは正規化されたキーワードによるヒット文字列を抽出して表示する検索結果表示モジュール(検索結果表示手段)6と、抽出したヒット文字列と正規化されたキーワードに基づいて、キーワードの位置情報を計算して画像に登録する属性情報を作成する画像属性作成モジュール(属性情報作成手段)7と、画像上の単語をハイライト表示する単語ハイライトモジュール8と、検索結果より文書を選択して表示する画像表示モジュール9と、を備えて構成される。
また、ハイライト表示されるのは、操作者が入力した検索語句そのものとは限らない。検索システム登録時に正規化された文字列が表示されることもある。例えば、操作者は、「メモリー」と検索文字列を入力していても、検索システムの正規化時には「メモリ」と変更されるので、表示画像内に「メモリ」という文字列があった場合もハイライト表示される。
図3は登録までの流れを示すフローチャートである。まず、原稿11がスキャンされて入力される(S1)。次に文字抽出モジュール2によりOCR処理が行われる(S2)。OCR処理では原稿内の文字情報12を取り出す。文字情報12には、文字コードの他、文字の位置、大きさが含まれる。例えば、「米x=0,y=0,w=8,h=8」という情報は、「米」という文字が画像左上から(0.0)の位置にあり、文字幅と高さは8画素であることを表している。次に、単語抽出モジュール3により単語抽出処理が行われ、OCRによって抽出された文字コードを単語ごとに区切り、その結果を出力する(S3)。これらの単語13は、検索モジュール4に登録される(S4)。検索モジュール4では、異表記正規化によって類似した表記の単語をまとめる処理を行った上で、正規化済みの単語から検索用のインデックスを作成する(符号14)。また、正規化した単語については、正規化情報(変更された単語)を通知する。画像属性作成モジュール7は、抽出した文字情報と正規化されたキーワードからキーワードの位置情報を計算し、画像に登録する属性情報15を作成する(S5)。このとき、正規化によって生成された文字については、識別可能な情報を埋め込む(属性情報15の、o=Tの箇所)。属性情報15の画像を登録して終了する(S6)。
図5は画像表示までの流れを示すフローチャートである。操作者が「メモリ」という検索条件を検索条件入力モジュール5により入力すると(S11)、検索条件入力モジュールから検索キーが検索モジュール4に渡され(S12)、ヒットした文書の一覧21が検索結果一覧画面に表示される(S13)。操作者が見たい画像を指定すると(S14)、画像、画像属性情報、検索キーワードがハイライト表示モジュール23に渡される(S15、16)。ハイライト表示モジュール23は、画像属性情報22の中に、検索キーワードが含まれるかを走査する。この場合、必ず画像属性情報22の中に、検索条件の文字列が存在することになる。見つかった文字列の座標に対応する範囲をハイライト指定(23a)を行い(S17)、画像表示モジュール9が実際に画像を表示する(S18)。
以上の通り本発明によれば、画像の属性情報に抽出されたキーワードと、キーワードを正規化した文字列の両方を登録し、表示時にこれらの文字列をハイライトするので、ハイライト表示時に逆正規化の漏れによって、ハイライトされないケースが防止できる。
また、実際に操作者が入力したキーと、ハイライト表示される文字列が異なる場合でも、ハイライト表示色やハイライト表示形式を変えることにより、操作者に対して理解しやすいインターフェースを提供することができる。
また、単語抽出モジュール3は、自然言語で書かれた文を言語で意味を持つ最小単位の列に分割し、品詞を見分ける形態素解析により単語を抽出するので、確実に正確な単語を抽出することができる。
また、検索モジュール4は、複数の表記をまとめて一つの表記として扱う表記正規化法により正規化したキーワードに基づいて検索するので、逆に一つの単語から複数の正規化単語を抽出する際に、有効に作用して的確な正規化単語を抽出することができる。
Claims (4)
- 画像を電子データとして入力する画像入力手段と、該画像入力手段により入力された画像中から文字列を抽出する文字抽出手段と、該文字抽出手段により抽出された文字列から単語を抽出する単語抽出手段と、該単語抽出手段により抽出された単語をインデックスとして登録し文書検索を行う文書検索手段と、検索のためのキーワードを入力する検索条件入力手段と、前記キーワードによる検索結果から文書表示を行う際に前記キーワードもしくは正規化されたキーワードによるヒット文字列を抽出して表示する検索結果表示手段を有する文書管理システムにおいて、
前記抽出したヒット文字列と正規化されたキーワードに基づいて、前記キーワードの位置情報を計算して画像に登録する属性情報を作成する属性情報作成手段を備え、前記属性情報として前記抽出したヒット文字列と正規化されたキーワードを保持することにより、ハイライト表示の抜けを防止することを特徴とする文書管理システム。 - 前記検索条件入力手段により入力したキーワードと前記正規化されたキーワードとのハイライト表示方法を変えることにより、前記ヒット文字列が前記入力したキーワードと同一か、あるいは正規化されたキーワードかを区別することを特徴とする請求項1に記載の文書管理システム。
- 前記単語抽出手段は、自然言語で書かれた文を意味を持つ最小単位の列に分割し、品詞を見分ける形態素解析により単語を抽出することを特徴とする請求項1又は2に記載の文書管理システム。
- 前記文書検索手段は、複数の表記をまとめて一つの表記として扱う表記正規化法により正規化したキーワードに基づいて検索することを特徴とする請求項1又は2に記載の文書管理システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005243449A JP2007058605A (ja) | 2005-08-24 | 2005-08-24 | 文書管理システム |
US11/510,016 US7668814B2 (en) | 2005-08-24 | 2006-08-24 | Document management system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005243449A JP2007058605A (ja) | 2005-08-24 | 2005-08-24 | 文書管理システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007058605A true JP2007058605A (ja) | 2007-03-08 |
JP2007058605A5 JP2007058605A5 (ja) | 2008-09-11 |
Family
ID=37922044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005243449A Pending JP2007058605A (ja) | 2005-08-24 | 2005-08-24 | 文書管理システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7668814B2 (ja) |
JP (1) | JP2007058605A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013077150A (ja) * | 2011-09-30 | 2013-04-25 | Fujitsu Broad Solution & Consulting Inc | ファイル管理プログラム、情報処理装置およびファイル管理方法 |
EP2071493A3 (en) * | 2007-12-12 | 2013-08-14 | Canon Kabushiki Kaisha | Image processing device, image processing method, and program and recording medium thereof |
JP2021504779A (ja) * | 2017-12-01 | 2021-02-15 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 文書デジタル化における意味正規化のための方法、コンピュータ・プログラム及びシステム |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4930153B2 (ja) * | 2007-03-30 | 2012-05-16 | 富士通株式会社 | 文書検索システム、文書番号部分列取得装置、および文書検索方法 |
KR101392273B1 (ko) * | 2008-01-07 | 2014-05-08 | 삼성전자주식회사 | 키워드 제공 방법 및 이를 적용한 영상기기 |
JP5215105B2 (ja) * | 2008-09-30 | 2013-06-19 | オリンパスメディカルシステムズ株式会社 | 画像表示装置、画像表示方法、および画像表示プログラム |
JP5528121B2 (ja) * | 2010-01-05 | 2014-06-25 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
WO2011105607A1 (ja) * | 2010-02-26 | 2011-09-01 | 楽天株式会社 | 情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体 |
US8340429B2 (en) | 2010-09-18 | 2012-12-25 | Hewlett-Packard Development Company, Lp | Searching document images |
US20130007004A1 (en) * | 2011-06-30 | 2013-01-03 | Landon Ip, Inc. | Method and apparatus for creating a search index for a composite document and searching same |
WO2013079907A1 (en) * | 2011-11-30 | 2013-06-06 | The University Of Surrey | System, process and method for the detection of common content in multiple documents in an electronic system |
JP5857124B2 (ja) * | 2012-05-24 | 2016-02-10 | 株式会社日立製作所 | 画像解析装置、画像解析システム、画像解析方法 |
US10394936B2 (en) * | 2012-11-06 | 2019-08-27 | International Business Machines Corporation | Viewing hierarchical document summaries using tag clouds |
US9697182B2 (en) * | 2012-12-11 | 2017-07-04 | Xerox Corporation | Method and system for navigating a hard copy of a web page |
KR101541306B1 (ko) * | 2013-11-11 | 2015-08-04 | 주식회사 엘지씨엔에스 | 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체 |
US10878037B2 (en) * | 2018-06-21 | 2020-12-29 | Google Llc | Digital supplement association and retrieval for visual search |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07319890A (ja) * | 1994-05-26 | 1995-12-08 | Fuji Xerox Co Ltd | 文書登録検索システム |
JPH1083404A (ja) * | 1996-07-15 | 1998-03-31 | Toshiba Corp | 全文検索システム及びプログラムを記録した記録媒体 |
JP2000322417A (ja) * | 1999-05-06 | 2000-11-24 | Canon Inc | 画像ファイリング装置及び方法及び記憶媒体 |
JP2002269136A (ja) * | 2001-03-14 | 2002-09-20 | Ricoh Co Ltd | 文書検索システム及びプログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0756933A (ja) * | 1993-06-24 | 1995-03-03 | Xerox Corp | 文書検索方法 |
US6573907B1 (en) * | 1997-07-03 | 2003-06-03 | Obvious Technology | Network distribution and management of interactive video and multi-media containers |
JP4271878B2 (ja) * | 2001-03-22 | 2009-06-03 | 株式会社日立製作所 | 映像中の文字検索方法及び装置並びに文字検索処理プログラム |
JP4446728B2 (ja) | 2002-12-17 | 2010-04-07 | 株式会社リコー | 複数のマルチメディア文書に格納された情報の表示法 |
JP2004348706A (ja) * | 2003-04-30 | 2004-12-09 | Canon Inc | 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム |
US7849063B2 (en) * | 2003-10-17 | 2010-12-07 | Yahoo! Inc. | Systems and methods for indexing content for fast and scalable retrieval |
JP4461769B2 (ja) | 2003-10-29 | 2010-05-12 | 株式会社日立製作所 | 文書検索・閲覧手法及び文書検索・閲覧装置 |
US20050097080A1 (en) * | 2003-10-30 | 2005-05-05 | Kethireddy Amarender R. | System and method for automatically locating searched text in an image file |
US20050177555A1 (en) * | 2004-02-11 | 2005-08-11 | Alpert Sherman R. | System and method for providing information on a set of search returned documents |
US20060062453A1 (en) * | 2004-09-23 | 2006-03-23 | Sharp Laboratories Of America, Inc. | Color highlighting document image processing |
US20060200464A1 (en) * | 2005-03-03 | 2006-09-07 | Microsoft Corporation | Method and system for generating a document summary |
US20060277167A1 (en) * | 2005-05-20 | 2006-12-07 | William Gross | Search apparatus having a search result matrix display |
-
2005
- 2005-08-24 JP JP2005243449A patent/JP2007058605A/ja active Pending
-
2006
- 2006-08-24 US US11/510,016 patent/US7668814B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07319890A (ja) * | 1994-05-26 | 1995-12-08 | Fuji Xerox Co Ltd | 文書登録検索システム |
JPH1083404A (ja) * | 1996-07-15 | 1998-03-31 | Toshiba Corp | 全文検索システム及びプログラムを記録した記録媒体 |
JP2000322417A (ja) * | 1999-05-06 | 2000-11-24 | Canon Inc | 画像ファイリング装置及び方法及び記憶媒体 |
JP2002269136A (ja) * | 2001-03-14 | 2002-09-20 | Ricoh Co Ltd | 文書検索システム及びプログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2071493A3 (en) * | 2007-12-12 | 2013-08-14 | Canon Kabushiki Kaisha | Image processing device, image processing method, and program and recording medium thereof |
JP2013077150A (ja) * | 2011-09-30 | 2013-04-25 | Fujitsu Broad Solution & Consulting Inc | ファイル管理プログラム、情報処理装置およびファイル管理方法 |
JP2021504779A (ja) * | 2017-12-01 | 2021-02-15 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 文書デジタル化における意味正規化のための方法、コンピュータ・プログラム及びシステム |
Also Published As
Publication number | Publication date |
---|---|
US7668814B2 (en) | 2010-02-23 |
US20080222095A1 (en) | 2008-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007058605A (ja) | 文書管理システム | |
JP4461769B2 (ja) | 文書検索・閲覧手法及び文書検索・閲覧装置 | |
KR101122854B1 (ko) | 스캔된 문서들로부터 전자 서식들을 채우기 위한 방법 및장치 | |
JP3282860B2 (ja) | 文書上のテキストのデジタル画像を処理する装置 | |
US9256798B2 (en) | Document alteration based on native text analysis and OCR | |
US7991709B2 (en) | Method and apparatus for structuring documents utilizing recognition of an ordered sequence of identifiers | |
JP4347677B2 (ja) | 帳票ocrプログラム、方法及び装置 | |
RU2613846C2 (ru) | Метод и система извлечения данных из изображений слабоструктурированных документов | |
Choudhury et al. | Figure metadata extraction from digital documents | |
JP5372110B2 (ja) | 情報出力装置、情報出力方法、及びコンピュータプログラム | |
US20060285746A1 (en) | Computer assisted document analysis | |
JP2007058605A5 (ja) | ||
JP2008021068A (ja) | 帳票認識装置及び帳票認識プログラム | |
CN113806472A (zh) | 一种对文字图片和图像型扫描件实现全文检索的方法及设备 | |
Bland et al. | Story beyond the eye: glyph positions break PDF text redaction | |
JP4470913B2 (ja) | 文字列検索装置およびプログラム | |
JP2007310501A (ja) | 情報処理装置、その制御方法、及びプログラム | |
US20100086210A1 (en) | Digitizing documents | |
EP1304625A2 (en) | Method and apparatus for forward annotating documents and for generating a summary from a document image | |
Yasin et al. | Transformer-Based Neural Machine Translation for Post-OCR Error Correction in Cursive Text | |
US20210042555A1 (en) | Information Processing Apparatus and Table Recognition Method | |
TWI667579B (zh) | 處理文書之資訊處理裝置、資訊處理方法及用來處理文書的程式 | |
JP2006085234A (ja) | 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム | |
JP2005165978A (ja) | 帳票ocrプログラム、方法及び装置 | |
JP2010102734A (ja) | 画像処理装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080724 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080724 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101221 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110426 |