JP4439562B2 - 電子データ検索装置 - Google Patents
電子データ検索装置 Download PDFInfo
- Publication number
- JP4439562B2 JP4439562B2 JP2008044034A JP2008044034A JP4439562B2 JP 4439562 B2 JP4439562 B2 JP 4439562B2 JP 2008044034 A JP2008044034 A JP 2008044034A JP 2008044034 A JP2008044034 A JP 2008044034A JP 4439562 B2 JP4439562 B2 JP 4439562B2
- Authority
- JP
- Japan
- Prior art keywords
- electronic data
- word
- search
- recorded
- search word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 238000004070 electrodeposition Methods 0.000 claims 1
- 238000000034 method Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 7
- 230000007423 decrease Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
検索ワードの設定方法としては、特許文献1に開示されているように、記録された電子データ毎に抽出したワードの出現回数(頻度)に基づいて、検索ワードを設定する方法がある。
100は、文書データ等の各種電子データを記録するフォルダXで、101は文書をスキャナなどで読み取ることによって生成された電子データAで、102は同電子データBである。
なお、本実施例では、文書データとして英文を例示しているが、この場合、be動詞、助動詞、助詞、冠詞は、検索対象として指定されることは殆どないので除外している。
以後、ユーザが電子データの検索を前記電子データ検索装置に指示すると、指示を受けた電子データ検索装置は、当該設定された検索ワードを基準に電子データの検索処理を実行する。
電子データC103は、MFP及びLCD関連の文書データであるが、前述の検索ワード設定方法によれば、電子データC103の検索ワード設定テーブル113に基づき、出現回数が4の“LCD”が検索ワードとして設定されるが、出現回数が1の“MFP”は検索ワードとして設定されない。
一方、前述の所定回数(例えば、3回)を少なくして、各電子データに設定する検索ワード数を多くすると、検索ワードが多種多様になってしまい、検索効率が低下するだけでなく、検索ノイズが発生し易くなり検索精度が低下する。
図1は、本発明の概要を説明するための概略図である。
50は、各種電子データを記録するフォルダXで、51はワードデータを含む電子データAで、52は同電子データBである。なお、前述のように、各電子データは、MFP関連の文書(データ)である。
検索ワード設定テーブルは、記録される検索対象の電子データ毎に当該電子データから抽出されるワードとその出現回数を対応させて記録したものである。
なお、電子データB52についても同様である。
なお、電子データが一つの場合には、当該電子データの検索ワード設定テーブルが検索ワード設定用参照テーブルとして機能することになる。
53は、フォルダX50内に新たに記録する、ワードデータを含む電子データCで、63は、電子データCの検索ワード設定テーブルである。なお、電子データCは、MFP及びLCD関連の電子データであるとする。
すなわち、検索ワード設定用参照テーブル72は、電子データC53を追加したことにより、検索ワード設定用参照テーブル71を更新したものである。
つまり、電子データC53の検索ワードとして、“MFP”、“LCD”が設定される。
以後、前記設定された検索ワードに基づいて、当該検索ワードを含む電子データの検索を実行することになる。
電子データは、テキストデータ(テキストファイル、HTMLファイル)、PDF形式で記録された文書データ(PDFファイル)、文字原稿を電子カメラで撮像した文字情報を含むJPEGファイルなどでもよい。また、電子データは、他の情報処理装置等から電子データ検索装置10に入力されたものであってもよい。
24は、各機能ブロックを制御するCPUである。
なお、既に、電子データがフォルダに記録されているものとする。
ワード抽出部12は、フォルダに記録されている電子データからワードを抽出する(ステップS1)と、検索ワード設定テーブル生成部13は、前記抽出したワードとその出現回数を対応させて積算する、つまり、前記抽出したワードに基づいて前記電子データの検索ワード設定テーブルを生成する(ステップS2)。
さらに、検索ワード設定部15は、検索ワード設定テーブルに出現し、かつ、検索ワード設定用参照テーブルにおいて所定回数以上出現するワードを特定して、特定したワードを検索ワードとして設定する(ステップS5)。
前述の各ステップをプログラムによって実行することができる。
実施例1では、電子データが記録されているフォルダに新たに電子データを記録した場合に実行される検索ワード設定用参照テーブルの更新処理について説明したが、実施例2では、電子データが記録されているフォルダXから他のフォルダYに電子データを移動(又はコピー)した場合に実行される検索ワード設定用参照テーブルの更新処理について図5を用いて説明する。
なお、フォルダYは、OCRに関連する電子データが記録されているものとする。
なお、電子データA51をコピーし、当該コピーした電子データA51をフォルダX50からフォルダY60に移動する場合には、前記更新処理は行わない。
電子データD54及び電子データE55の検索ワードとしては、“OCR”が設定される。
実施例3では、検索ワード設定用参照テーブルにおけるワードの出現回数の記録値を修正更新し、当該修正更新した検索ワード設定用参照テーブルに基づき、新たに記録する電子データに検索ワードを設定することで、検索ノイズを低減できる電子データ検索装置について説明する。
17は、出現回数記録値修正更新部で、電子データが記録された日時及び/又は当該電子データが閲覧された(電子データが開かれた)最新の日時を示すタイムスタンプ情報を前記電子データに併せて記録し、前記電子データが記録された日時又は当該電子データが閲覧された最新の日時からの経過時間に応じて、検索ワード設定用参照テーブルにおけるワードの出現回数の記録値を修正更新する。
そして、新たに電子データが記録されると、検索ワード設定部15は、出現回数記録値修正更新部17によって修正更新された検索ワード設定用参照テーブルに基づき、前記電子データに検索ワードを設定する。
この場合には、前述の、記録した電子データの閲覧回数が所定回数を超えている各電子データ(頻繁に閲覧され、ユーザの関心が高い電子データ)のみの検索ワード設定テーブルのワード毎に当該ワードの出現回数を加算することによって既に記録されている検索ワード設定用参照テーブルにおけるワードの出現回数の記録値を修正更新する。
Claims (7)
- ワードデータを含む電子データからワードを抽出するワード抽出部と、
記録される検索対象の電子データ毎に当該電子データから抽出されるワードとその出現回数を対応させて記録する検索ワード設定テーブルと、
記録される検索対象となる全電子データから抽出されるワードとその出現回数を対応させて記録する検索ワード設定用参照テーブルを有し、
記録される電子データの前記検索ワード設定テーブルに所定回数以上出現するワード及び、当該検索ワード設定テーブルに出現し、かつ、前記検索ワード設定用参照テーブルにおいて所定回数以上出現するワードを当該電子データの検索ワードとして設定する電子データ検索装置において、
電子データが記録された日時及び/又は当該電子データが閲覧された最新の日時を示すタイムスタンプ情報を前記電子データに併せて記録し、前記電子データが記録された日時又は当該電子データが閲覧された最新の日時からの経過時間に応じて、前記検索ワード設定用参照テーブルにおけるワードの出現回数の記録値を修正更新することを特徴とする電子データ検索装置。 - 記録された電子データを削除した場合、前記検索ワード設定用参照テーブルにおけるワードの出現回数から前記削除した電子データのワードの出現回数を同一ワード毎に減算することによって、前記検索ワード設定用参照テーブルにおけるワードの出現回数を更新することを特徴とする請求項1に記載の電子データ検索装置。
- 前記電子データが記録された日時又は当該電子データが閲覧された最新の日時からの経過時間が所定時間を超えている電子データを除いた各電子データについての前記検索ワード設定テーブルのワード毎に当該ワードの出現回数を加算することによって前記検索ワード設定用参照テーブルのワードの出現回数の記録値を修正更新することを特徴とする請求項1又は2に記載の電子データ検索装置。
- 前記電子データが記録された日時又は当該電子データが閲覧された最新の日時からの経過時間が所定時間を超えている各電子データについての前記検索ワード設定テーブルにおけるワードの出現回数に1/n(n>1)を乗算した補正出現回数を、前記修正更新した検索ワード設定用参照テーブルにおけるワード毎の出現回数の記録値に加算することを特徴とする請求項1又は2に記載の電子データ検索装置。
- 電子データの閲覧回数を当該電子データと併せて記録し、当該記録した閲覧回数に応じて、前記検索ワード設定用参照テーブルにおけるワードの出現回数の記録値を修正更新することを特徴とする請求項1又は2に記載の電子データ検索装置。
- 前記電子データの閲覧回数が所定回数を超えている各電子データのみの前記検索ワード設定テーブルのワード毎に当該ワードの出現回数を加算することによって前記検索ワード設定用参照テーブルにおけるワードの出現回数の記録値を修正更新することを特徴とする請求項5に記載の電子データ検索装置。
- 前記電子データの閲覧回数が所定回数を超えていない各電子データについての前記検索ワード設定テーブルにおけるワードの出現回数に1/n(n>1)を乗算した補正出現回数を、前記修正更新した検索ワード設定用参照テーブルにおけるワード毎の出現回数の記録値に加算することを特徴とする請求項5に記載の電子データ検索装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008044034A JP4439562B2 (ja) | 2008-02-26 | 2008-02-26 | 電子データ検索装置 |
US12/378,292 US8180772B2 (en) | 2008-02-26 | 2009-02-13 | Electronic data retrieving apparatus |
CN200910008379A CN101520795A (zh) | 2008-02-26 | 2009-02-26 | 电子数据检索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008044034A JP4439562B2 (ja) | 2008-02-26 | 2008-02-26 | 電子データ検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009205222A JP2009205222A (ja) | 2009-09-10 |
JP4439562B2 true JP4439562B2 (ja) | 2010-03-24 |
Family
ID=40999306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008044034A Active JP4439562B2 (ja) | 2008-02-26 | 2008-02-26 | 電子データ検索装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8180772B2 (ja) |
JP (1) | JP4439562B2 (ja) |
CN (1) | CN101520795A (ja) |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0619970A (ja) | 1992-07-01 | 1994-01-28 | Nec Corp | キーワード抽出方式 |
JP2583386B2 (ja) | 1993-03-29 | 1997-02-19 | 日本電気株式会社 | キーワード自動抽出装置 |
US7051277B2 (en) * | 1998-04-17 | 2006-05-23 | International Business Machines Corporation | Automated assistant for organizing electronic documents |
US6549897B1 (en) * | 1998-10-09 | 2003-04-15 | Microsoft Corporation | Method and system for calculating phrase-document importance |
US6611825B1 (en) * | 1999-06-09 | 2003-08-26 | The Boeing Company | Method and system for text mining using multidimensional subspaces |
CN1211747C (zh) | 2002-09-06 | 2005-07-20 | 威盛电子股份有限公司 | 文章关键词登录系统及方法 |
JP2004102678A (ja) | 2002-09-10 | 2004-04-02 | Minolta Co Ltd | データ管理装置及びデータ管理プログラム |
JP2006072705A (ja) | 2004-09-02 | 2006-03-16 | Fuji Xerox Co Ltd | 文書検索装置および方法 |
US7716236B2 (en) * | 2006-07-06 | 2010-05-11 | Aol Inc. | Temporal search query personalization |
JP4234740B2 (ja) | 2006-08-03 | 2009-03-04 | 株式会社東芝 | キーワード提示装置、プログラムおよびキーワード提示方法 |
CN101067808B (zh) | 2007-05-24 | 2010-12-15 | 上海大学 | 文本关键词的提取方法 |
US8005643B2 (en) * | 2007-06-26 | 2011-08-23 | Endeca Technologies, Inc. | System and method for measuring the quality of document sets |
-
2008
- 2008-02-26 JP JP2008044034A patent/JP4439562B2/ja active Active
-
2009
- 2009-02-13 US US12/378,292 patent/US8180772B2/en active Active
- 2009-02-26 CN CN200910008379A patent/CN101520795A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US8180772B2 (en) | 2012-05-15 |
US20090216753A1 (en) | 2009-08-27 |
JP2009205222A (ja) | 2009-09-10 |
CN101520795A (zh) | 2009-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11250020B2 (en) | Syncronizing content blocks between multiple electronic documents | |
US8312388B2 (en) | Information processing apparatus, information processing method and computer readable medium | |
JP5437557B2 (ja) | 検索処理方法及び検索システム | |
US7254593B2 (en) | System and method for tracking annotations of data sources | |
US7401078B2 (en) | Information processing apparatus, document search method, program, and storage medium | |
US8584009B2 (en) | Automatically propagating changes in document access rights for subordinate document components to superordinate document components | |
JP2020513599A (ja) | コンテンツ管理システムにおけるタスクの管理 | |
US20050203935A1 (en) | Clipboard content and document metadata collection | |
JP2020501208A (ja) | コンテンツ管理システムにおけるプロジェクトの管理 | |
JP2010165030A (ja) | 文書管理システム、文書管理方法および文書管理プログラム | |
JP2004046357A (ja) | 文書編集方法、文書編集システム、サーバ装置および文書編集プログラム | |
JP2008282305A (ja) | コメントデータを関連付ける方法 | |
JP2011039580A (ja) | 文書処理装置、文書処理方法およびプログラム | |
JP2008226110A (ja) | 情報処理装置、情報処理方法および制御プログラム | |
JP2007052737A (ja) | 情報処理装置およびコンピュータプログラム | |
JP4439562B2 (ja) | 電子データ検索装置 | |
US20130073549A1 (en) | Information processing apparatus, information processing method, and non-transitory computer readable medium | |
JP2005107931A (ja) | 画像検索装置 | |
US10275127B2 (en) | Client apparatus, information processing system, information processing method, and non-transitory computer readable medium | |
JP2004145706A (ja) | マルチメディアデータ検索システム | |
JP5169291B2 (ja) | 文書管理システム、画像形成装置およびプログラム | |
JP5942649B2 (ja) | 画像形成装置及びプログラム | |
JP5377023B2 (ja) | リスト作成情報設定装置、リスト作成情報設定方法、および、プログラム | |
CN116166720A (zh) | 数据排序方法、装置,及电子设备 | |
JPH10312387A (ja) | 情報処理装置及び方法並びに情報処理プログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091006 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091208 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100105 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130115 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4439562 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130115 Year of fee payment: 3 |