JP2020047031A - 文書検索装置、文書検索システム及びプログラム - Google Patents
文書検索装置、文書検索システム及びプログラム Download PDFInfo
- Publication number
- JP2020047031A JP2020047031A JP2018175759A JP2018175759A JP2020047031A JP 2020047031 A JP2020047031 A JP 2020047031A JP 2018175759 A JP2018175759 A JP 2018175759A JP 2018175759 A JP2018175759 A JP 2018175759A JP 2020047031 A JP2020047031 A JP 2020047031A
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- character string
- image
- received
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
なお、インデックス検索とは、文書から予め検索対象となる文字列を抽出して索引を作っておく検索方法であり、検索インデックスとはインデックス検索に用いる索引のことである。
図1は、本発明の実施形態に係る文書検索システム10を有する文書管理システム12の全体を示す。
まず文書の保存処理時について説明する。
文書検索装置20は、例えば画像データから構成された文書A,B,Cを受け付ける。文書A,B,CはOCR(光学式文字読み取り装置の略であるが、ここでは画像データを文字列データに変換するソフトウエア)により文字列データに変換される。また、文書A,B,Cの要因情報を抽出する。要因情報とは、OCRの精度に影響を与える因子情報のことをいう。この要因情報は、文書の特性から判断される。文書の特性には、解像度、文字サイズ、フォントが含まれる。文書の特性は、解像度、文字サイズ及びフォントの少なくとも1つがあればよい。また、回動度、文字サイズ及びフォント以外にさらに背景色、文字の色、言語等が含まれてもよい。
検索時においては、パーソナルコンピュータ14a,14bにおいて検索文字列が作成され、この検索文字列が文書検索装置20へ送られる。文書検索装20では検索文字列に対して検索文字列を画像データに変換する。検索文字列の画像データへの変換は、要因グループ別に実施される。即ち、要因グループ1及び要因グループ2に対応した解像度、文字サイズ、フォントで変換する。そして、このようにして画像データに変換された検索文字列画像を前述した保存処理時に用いた同じOCRにより文字列データに変換する。要因グループ1と同じ条件で文字列データに変換された検索文字列で要因グループ1に分類されたインデックスを検索する。一方、要因グループ2に対しても同じ条件で変換された検索文字列で要因グループ2に分類されたインデックスを検索する。
なお、要因情報抽出部32で抽出された要因情報は要因情報保存部42により保存される。
即ち、図6に示すように、検索インデックス1は番号1の要因グループに、検索インデックス2は番号2の要因グループに、検索インデックス3は番号3の要因グループにそれぞれ保存されているとする。ここで、検索文字列が「AAA」であり、この検索文字列「AAA」を要因グループ1の値で画像に変換し、さらにOCR処理した結果が「AAA」となり、要因グループ2の値で画像に変換し、OCR処理した結果が「AAB」となり、要因グループ3の値で画像に変換し、さらにOCR処理した結果が「ABA」であれば、検索インデックス1は、「AAA」による検索を受け、検索インデックス2は、「AAB」で検索を受け、検索インデックス3は、「ABA」で検索を受けることになる。
まず、ステップS10において、対象となる文書を受信する。次のステップS12においては、ステップS10で受信した画像データからなる文書に対してOCR処理する。
まずステップS30において、ユーザがパーソナルコンピュータ14a,14bで作成した検索文字列を受け付ける。
12 文書管理システム
14a,14b パーソナルコンピュータ
16 ネットワーク
18a,18b 画像形成装置
18a,18b コインキット
20 文書検索装置
22 データベース
23 CPU
24 メモリ
26 記憶装置
28 ネットワークインターフェイス
30 バス
32 OCR処理部
34 検索インデックス生成部
36 検索インデックス保存部
38 要因情報抽出部
40 分類保存部
42 要因情報の保存部
44 検索処理部
46 検索文字列画像の生成部
48 検索文字列画像のOCR処理部
50 検索インデックスの組み合わせ決定部
Claims (14)
- 画像データからなる文書を受け付ける文書受付手段と、
前記文書受付手段により受け付けた文書の画像データを文字列に変換する画像文字列変換手段と、
前記画像文字列変換手段により変換された結果を前記文書受付手段により受け付けた文書の特性毎に分類する分類手段と、
検索文字列を受け付ける検索文字列受付手段と、
前記検索文字列受付手段により受け付けられた検索文字列を前記分類手段により分類された文書の特性に合わせて変換して検索処理する検索処理手段と、
を有する文書検索装置。 - 前記画像文字変換手段により変換された文字列から検索インデックスを生成する検索インデックス生成手段をさらに有し、前記分類手段は、前記検索インデックス生成手段により生成された検索インデックスを分類する請求項1記載の文書検索装置。
- 前記文書受付手段により受け付けた文書に関するデータから文書の特性を抽出する文書特性抽出手段をさらに有し、前記分類手段は、前記文書特性抽出手段により抽出された文書の特性で分類する請求項1又は2記載の文書検索装置。
- 前記文書特性抽出手段は、文書を構成する画像の特性を抽出する請求項3記載の文書検索装置。
- 前記文書特性抽出手段は、文書を構成する文字画像の解像度、文字サイズ及びフォントの少なくとも1つを含む文書の特性を抽出する請求項4記載の文書検索装置。
- 前記検索処理手段は、前記検索文字列受付手段により受け付けられた検索文字列から前記分類手段により分類された文書の特性に合わせて検索文字列画像を生成する検索文字列画像生成部と、前記検索文字列画像生成部により生成された検索文字列画像を前記画像文字列変換手段により検索用文字列に変換する検索用文字列変換部と、前記検索用文字列変換手段により変換された検索用文字列と前記分類手段により分類された前記画像文字列変換手段の変換結果との組み合わせを決定する決定部とを有し、前記決定部で決定された組み合わせ毎に検索処理する請求項1から5いずれか記載の文書検索装置。
- 画像データからなる文書を受け付ける文書受付手段と、
前記文書受付手段により受け付けた文書の画像データを文字列に変換する画像文字列変換手段と、
前記画像文字列変換手段により変換された結果を前記画像文字列変換手段に影響を与える要因毎に分類する分類手段と、
検索文字列を受け付ける検索文字列受付手段と、
前記検索文字列受付手段により受け付けられた検索文字列を前記分類手段により分類された要因に合わせて変換して検索処理する検索処理手段と、
を有する文書検索装置。 - 前記文書受付手段により受け付けた文書に関するデータから前記画像文字列変換手段に影響を与える要因を抽出する要因抽出手段をさらに有し、前記分類手段は、前記要因抽出手段により抽出された要因で分類する請求項7記載の文書検索装置。
- 前記要因抽出手段は、文書を構成する画像の特性から抽出する請求項8記載の文書検索装置。
- 前記要因抽出手段は、文書を構成する文字画像の解像度、文字サイズ及びフォントの少なくとも1つを含む文書の特性を抽出する請求項9記載の文書検索装置。
- 画像データからなる文書を受け付ける文書受付手段と、
前記文書受付手段により受け付けた文書を保存する文書保存手段と、
前記文書受付手段により受け付けた文書の画像データを文字列に変換する画像文字列変換手段と、
前記画像文字列変換手段により変換された結果を前記文書受付手段により受け付けた文書の特性毎に分類する分類手段と、
検索文字列を受け付ける検索文字列受付手段と、
前記検索文字列受付手段により受け付けられた検索文字列を前記分類手段により分類された文書の特性に合わせて変換して前記文書保存手段により保存されている文書を検索する検索処理手段と、
を有する文書検索システム。 - 画像データからなる文書を受け付ける文書受付手段と、
前記文書受付手段により受け付けた文書を保存する文書保存手段と、
前記文書受付手段により受け付けた文書の画像データを文字列に変換する画像文字列変換手段と、
前記画像文字列変換手段により変換された結果を前記画像文字列変換手段に影響を与える要因毎に分類する分類手段と、
検索文字列を受け付ける検索文字列受付手段と、
前記検索文字列受付手段により受け付けられた検索文字列を前記分類手段により分類された要因に合わせて変換して前記文書保存手段により保存されている文書を検索する検索処理手段と、
を有する文書検索システム。 - 画像データからなる文書を受け付けるステップと、
受け付けた文書の画像データを文字列に変換するステップと、
変換された結果を受け付けた文書の特性毎に分類するステップと、
検索文字列を受け付けるステップと、
受け付けられた検索文字列を分類された文書の特性に合わせて変換して検索処理するステップと、
を有するコンピュータに実行させるためのプログラム。 - 画像データからなる文書を受け付けるステップと、
受け付けた文書の画像データを文字列に変換するステップと、
変換された結果を画像文字列変換に影響を与える要因毎に分類するステップと、
検索文字列を受け付けるステップと、
受け付けられた検索文字列を分類された要因に合わせて変換して検索処理するステップと、
を有するコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018175759A JP7172343B2 (ja) | 2018-09-20 | 2018-09-20 | 文書検索用プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018175759A JP7172343B2 (ja) | 2018-09-20 | 2018-09-20 | 文書検索用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020047031A true JP2020047031A (ja) | 2020-03-26 |
JP7172343B2 JP7172343B2 (ja) | 2022-11-16 |
Family
ID=69901518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018175759A Active JP7172343B2 (ja) | 2018-09-20 | 2018-09-20 | 文書検索用プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7172343B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022059556A1 (ja) * | 2020-09-16 | 2022-03-24 | 昭和電工株式会社 | 文書検索装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1069494A (ja) * | 1996-08-29 | 1998-03-10 | Canon Inc | 画像検索方法とその装置 |
JP2009145963A (ja) * | 2007-12-11 | 2009-07-02 | Konica Minolta Business Technologies Inc | 文書処理装置および文書処理方法 |
-
2018
- 2018-09-20 JP JP2018175759A patent/JP7172343B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1069494A (ja) * | 1996-08-29 | 1998-03-10 | Canon Inc | 画像検索方法とその装置 |
JP2009145963A (ja) * | 2007-12-11 | 2009-07-02 | Konica Minolta Business Technologies Inc | 文書処理装置および文書処理方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022059556A1 (ja) * | 2020-09-16 | 2022-03-24 | 昭和電工株式会社 | 文書検索装置 |
Also Published As
Publication number | Publication date |
---|---|
JP7172343B2 (ja) | 2022-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4366108B2 (ja) | 文書検索装置、文書検索方法及びコンピュータプログラム | |
JP4251629B2 (ja) | 画像処理システム及び情報処理装置、並びに制御方法及びコンピュータプログラム及びコンピュータ可読記憶媒体 | |
US20060285748A1 (en) | Document processing device | |
JP2004348591A (ja) | 文書検索方法及び装置 | |
JP2007317022A (ja) | 手書文字処理装置及び手書文字処理方法 | |
JP2009295153A (ja) | ウェブベースのテキスト検出方法及びシステム | |
JP4785655B2 (ja) | 文書処理装置及び文書処理方法 | |
US10803233B2 (en) | Method and system of extracting structured data from a document | |
RU2673016C1 (ru) | Способы и системы оптического распознавания символов серии изображений | |
JP4811133B2 (ja) | 画像形成装置及び画像処理装置 | |
JP7172343B2 (ja) | 文書検索用プログラム | |
JP2021149439A (ja) | 情報処理装置及び情報処理プログラム | |
JP5353325B2 (ja) | 文書データ生成装置と文書データ生成方法 | |
JP2021056722A (ja) | 情報処理装置及びプログラム | |
JP2004334341A (ja) | 文書検索装置、文書検索方法及び記録媒体 | |
US20220207900A1 (en) | Information processing apparatus, information processing method, and storage medium | |
US11270153B2 (en) | System and method for whole word conversion of text in image | |
JP2008225695A (ja) | 文字認識誤り修正装置およびプログラム | |
JP7102284B2 (ja) | ファイル管理装置、ファイル管理方法、及びプログラム | |
US20150213593A1 (en) | Image Text Search and Retrieval System | |
JPH09198404A (ja) | 文書処理方法及び装置 | |
JP2020047138A (ja) | 情報処理装置 | |
JP4334068B2 (ja) | イメージ文書のキーワード抽出方法及び装置 | |
US20230077608A1 (en) | Information processing apparatus, information processing method, and storage medium | |
US20230102476A1 (en) | Information processing apparatus, non-transitory computer readable medium storing program, and information processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20201102 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210906 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220615 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220628 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220824 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221017 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7172343 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |