JP2009199164A - 文書管理装置、文書管理方法及び記録媒体 - Google Patents

文書管理装置、文書管理方法及び記録媒体 Download PDF

Info

Publication number
JP2009199164A
JP2009199164A JP2008037636A JP2008037636A JP2009199164A JP 2009199164 A JP2009199164 A JP 2009199164A JP 2008037636 A JP2008037636 A JP 2008037636A JP 2008037636 A JP2008037636 A JP 2008037636A JP 2009199164 A JP2009199164 A JP 2009199164A
Authority
JP
Japan
Prior art keywords
document
electronic
document management
electronic document
registration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008037636A
Other languages
English (en)
Inventor
Jun Sato
佐藤  淳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2008037636A priority Critical patent/JP2009199164A/ja
Priority to US12/379,025 priority patent/US20090210396A1/en
Publication of JP2009199164A publication Critical patent/JP2009199164A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】キーワードや登録時に指定された属性による検索で絞り込まれた電子文書群から、さらに所望する文書を選び出す支援をするために、各電子文書の特徴を数値化し、特徴量としてユーザーに提示することを目的とする。
【解決手段】電子文書を属性情報とともに登録する登録手段と、前記登録手段にて登録された電子文書をデータベース上に保管管理する文書保管手段とを有する文書管理装置であって、前記登録手段にて登録された電子文書において、前記各電子文書の特徴を特徴量として数値化する計算手段と、前記文書保管手段にて保管された電子文書からキーワードに基づいて一部の電子文書を選び出す検索手段と、前記検索手段にて選び出された電子文書について、文書の情報や特徴量等を一覧表示する表示手段とを備える。
【選択図】図2

Description

本発明は、コンピュータにより管理された複数の電子文書から、所望する電子文書を、より的確に検索することを可能とする文書管理装置、文書管理方法及び記録媒体に関する。
一般に文書管理システムには、登録済の膨大な電子文書群からユーザーが所望する電子文書を選び出すために検索機能を備えている。例えば、指定されたキーワードを含む検索、さらにはそのキーワードとの関連性の強さや文書間の内容の類似度などを表示する機能などがあり、ユーザーは数ある電子文書の中から所望する文書を絞り込むことが可能となる。これら従来技術の多くは、情報の内容に焦点があてられており、自分の関心あるトピック(キーワード)を基に所望する電子文書が選び出されていた。しかしながら、膨大な電子文書群から多数の文書が選び出されてしまった場合には、文書を全て読むには多大な時間が必要とされる。
そこで、特許文献1では文書郡中の各文書が指定された検索条件を満たす適合度を適合度スコアという数値として求め、さらに登録した文書の属性によって計算される属性スコアとし、それら合計値を合成スコアとして算出し、ユーザーが求める文書をスコアの大きなものから所定個数の検索結果を一覧表示させている。
特開2006−31209号公報
しかし、この情報の内容に関する観点だけでは、その閲覧環境によって一覧の中から実際に閲覧可能かどうかを選び分けるということができない。例えば、同一のユーザーが同じキーワードで内容を検索し、検索された結果の一覧を基に電子文書の内容を閲覧する場合であっても、一般的なPCを使ってグラフィック端末で閲覧する場合には、図表が盛り込まれた電子文書でも閲覧することは容易であるが、携帯端末で閲覧する場合には、図表が盛り込まれていると、正しく表示されなかったり、表示するまでに長時間を要したりする。そのような場合には、内容の適合度の高い文書よりも、テキストのみで説明された簡潔な文書を要求されることが考えられる。すなわち、各文章の長さや図表を含むか含まないかが分かれば、ユーザーはその情報から、閲覧対象をさらに絞り込むことが可能となる。
本発明は、前記問題に鑑みてなされたもので、キーワードや登録時に指定された属性による検索で絞り込まれた電子文書群から、さらに所望する文書を選び出す支援をするために、各電子文書の特徴を数値化し、特徴量としてユーザーに提示する文書管理装置、文書管理方法及び記録媒体を提供することを目的とする。
上記課題を解決するため、本発明の文書管理装置においては、電子文書を属性情報とともに登録する登録手段と、登録手段にて登録された電子文書をデータベース上に保管管理する文書保管手段とを有する文書管理装置であって、登録手段にて登録された電子文書において、各電子文書の特徴を特徴量として数値化する計算手段と、文書保管手段にて保管された電子文書からキーワードに基づいて一部の電子文書を選び出す検索手段と、検索手段にて選び出された電子文書について、文書の情報や特徴量等を一覧表示する表示手段とを備えることを特徴とする。
登録手段は、属性情報とともに一意に識別するための識別子を決定し、登録することを特徴とする。
計算手段は、データベース上に格納された定義式から特徴量を計算することを特徴とする。
計算手段は、複数の特徴量を組み合わせ、複合的な判断基準を有する特徴量を計算することを特徴とする。
表示手段は、指定された特徴量にしたがって電子文書の表示順を並べ替えて表示することを特徴とする。
表示手段は、一覧表示した電子文書のうち、指定された電子文書の内容を表示することを特徴とする。
また、本発明の文書管理方法においては、電子文書を属性情報とともに登録する登録ステップと、登録ステップにて登録された電子文書をデータベース上に保管管理する文書保管ステップとを有する文書管理方法であって、登録ステップにて登録された電子文書において、各電子文書の特徴を特徴量として数値化する計算ステップと、文書保管ステップにて保管された電子文書からキーワードに基づいて一部の電子文書を選び出す検索ステップと、検索ステップにて選び出された電子文書について、文書の情報や特徴量等を一覧表示する表示ステップとを備えることを特徴とする。
登録ステップは、属性情報とともに一意に識別するための識別子を決定し、登録することを特徴とする。
計算ステップは、データベース上に格納された定義式から特徴量を計算することを特徴とする。
計算ステップは、複数の特徴量を組み合わせ、複合的な判断基準を有する特徴量を計算することを特徴とする。
表示ステップは、指定された特徴量にしたがって電子文書の表示順を並べ替えて表示することを特徴とする。
表示ステップは、一覧表示した電子文書のうち、指定された電子文書について電子文書の内容を表示することを特徴とする。
また、本発明のコンピュータ読み取り可能な記録媒体においては、上記いずれかに記載の文書管理方法を機能させるプログラムを記録することを特徴とする。
本発明により、キーワードや登録時に指定された属性による検索で絞り込まれた電子文書から、さらに各電子文書を特徴付ける特徴量をユーザーに提示することが可能となり、文書の検索を支援することができる。
図1は、一般的に用いられている計算機装置の全体構成を示す図であり、中央処理装置(CPU)11と、メモリ12と、入力装置(キーボード)13と、画像表示装置(モニタ)14と、マウス15と、補助記憶装置16とを相互に接続するバスライン18とで構成されている。CPU11は、メモリ12内に記憶されたプログラムやデータ等の演算や処理を行い、モニタ14の画面上に指示の内容やフロッピー(登録商標)ディスクやハードディスク等の記憶媒体を収容する補助記憶装置16内に記憶された映像等が表示される。また、一般にマウスカーソルと呼ばれる目印の移動に基づくデータを入力するためのポインティングデバイスであるマウス15やキーボード13のようなインターフェースを用いて電子文書の検索などの操作が行える。さらに、周辺機器として、プリンタ17を接続することで、検索された電子文書の一覧や各電子文書の内容などを印刷することが可能となる。
以下では、上記のような計算機装置を用いた本発明の好適な実施形態について詳細に説明する。
(実施の形態1)
図2は、本発明の実施形態におけるシステム構成を示す図である。まず、電子文書が登録される際、電子文書登録部21によって、電子文書は文書管理データベース22に格納される。このとき、一般的には電子文書そのものだけでなく、文書のタイトルなどの属性も登録される。また、同時にデータベース上で電子文書を一意に識別するための識別子が決定される。次に、先ほどデータベース上に格納された電子文書は、特徴量計算部23によって特徴量が計算される(本実施形態についてはページ数とする)。その際、電子文書の形式によっては、改めて計算をしなくてもページ数がデータとして電子文書の形式に格納されているため、その場合にはその値を抽出するだけで良い。計算あるいは抽出された特徴量は、該文書の識別子と対応づけられてデータベースに格納される。
続いて、登録された電子文書から所望の電子文書を検索システムによって探し出す方法について説明する。先ず、ユーザーは情報入出力部24に検索したいキーワードや属性を指定する。そこで指定された条件に基づいて、検索実行部25は検索を実行し、該当する文書群の識別子が得られる。その後、検索結果整形部26では、検索で得られた識別子をもとに、タイトルなどの属性の値や電子文書を閲覧するためのリンクをデータベースから得て、一覧表として整形した上で、情報入出力部24を通じて利用者に表示される。このとき、特徴量としてのページ数も表示される。また、利用者が指定することにより、ページ数の昇順もしくは降順でソートを行い、一覧表示をすることもできる。
(実施の形態2)
次に、HTMLに代表されるマークアップ言語の場合、章や節の指定がファイル形式として記述されており、それらの数を取得できる。そこで、例えば文書構成の複雑さを「章の数+節の数×0.1」と定義して、この値を特徴量とする。ただし、この実施例の場合は、ページ数と異なり、定義が一般的な概念ではないため、この値のままでは判断基準として利用者には分かり辛く、相対的な値に変換する必要がある。そのため、登録済の電子文書群の中で最も値の大きいものを100に変換し、相対的にみた特徴量の大きさを判断する。
図3は、特徴量計算部における相対値を求める際のフローチャート図である。まず、新たに登録される電子文書の特徴量が、すでに登録済の文書より大きいか否かの判断が行われる(ステップS31)。小さい場合には、そのまま終了となる(ステップS36)。一方、大きい場合には、新規文書の値が最大値として保存され(ステップS32)、新規文書の特徴量の相対値を100とする(ステップS33)。次に、登録済の全ての電子文書について、算出した相対値に基づいて特徴量の相対値が更新されたか確認し(ステップS34)、1つでも更新されていない電子文書があれば更新される(ステップS35)。以降、全てのデータが更新されるまで繰り返し、全データが更新されれば終了となる(ステップS36)。このように新規に文書が登録される度に、相対値を再計算し、最大値を文書管理データベース22内に格納するため、前記定義式で得られる相対値換算していない値も文書管理データベース22に格納しておく必要がある。
(実施の形態3)
別の特徴量としては、図表の有無が挙げられる。この場合には、図表を含むか否かの0または1の値だけを特徴量とする、あるいはデータ量によって相対値で考える必要がある。
(実施の形態4)
他の実施例としては、HTML形式の電子文書を対象として、画像イメージにおけるalt属性の指定状況が挙げられる。すなわち、imgタグのalt属性について値が指定されているか否かを特徴量とする。これにより、音声による読み上げソフト利用者は、テキスト以外の情報も得られる文書であるか否かを判断することが可能になる。
以上、本発明の好適な実施の形態により本発明を説明した。ここでは特定の具体例を示して本発明を説明したが、特許請求の範囲に定義された本発明の広範囲な趣旨および範囲から逸脱することなく、これら具体例に様々な修正および変更を加えることができることは明らかである。
計算機装置の全体構成を示す図である。 本発明の実施形態に係るシステム構成を示す図である。 本発明の実施形態に係る特徴量の計算のフローを示す図である。
符号の説明
11 CPU
12 メモリ
13 キーボード
14 モニタ
15 マウス
16 補助記憶装置
17 プリンタ
18 バス
21 電子文書登録部
22 文書管理データベース
23 特徴量計算部
24 情報入出力部
25 検索実行部
26 検索結果整形部

Claims (13)

  1. 電子文書を属性情報とともに登録する登録手段と、
    前記登録手段にて登録された電子文書を、データベース上に保管管理する文書保管手段とを有する文書管理装置であって、
    前記登録手段にて登録された電子文書において、前記各電子文書の特徴を特徴量として数値化する計算手段と、
    前記文書保管手段にて保管された電子文書からキーワードに基づいて一部の電子文書を選び出す検索手段と、
    前記検索手段にて選び出された電子文書について、文書の情報や特徴量等を一覧表示する表示手段とを備える文書管理装置。
  2. 前記登録手段は、属性情報とともに一意に識別するための識別子を決定し、登録することを特徴とする請求項1に記載の文書管理装置。
  3. 前記計算手段は、データベース上に格納された定義式から特徴量を計算することを特徴とする請求項1又は2に記載の文書管理装置。
  4. 前記計算手段は、複数の特徴量を組み合わせ、複合的な判断基準を有する特徴量を計算することを特徴とする請求項1から3のいずれか1項に記載の文書管理装置。
  5. 前記表示手段は、指定された特徴量にしたがって電子文書の表示順を並べ替えて表示することを特徴とする請求項1から4のいずれか1項に記載の文書管理装置。
  6. 前記表示手段は、一覧表示した電子文書のうち、指定された電子文書の内容を表示することを特徴とする請求項1から5のいずれか1項に記載の文書管理装置。
  7. 電子文書を属性情報とともに登録する登録ステップと、
    前記登録ステップにて登録された電子文書をデータベース上に保管管理する文書保管ステップとを有する文書管理方法であって、
    前記登録ステップにて登録された電子文書において、前記各電子文書の特徴を特徴量として数値化する計算ステップと、
    前記文書保管ステップにて保管された電子文書からキーワードに基づいて一部の電子文書を選び出す検索ステップと、
    前記検索ステップにて選び出された電子文書について、文書の情報や特徴量等を一覧表示する表示ステップとを備える文書管理方法。
  8. 前記登録ステップは、属性情報とともに一意に識別するための識別子を決定し、登録することを特徴とする請求項7に記載の文書管理方法。
  9. 前記計算ステップは、データベース上に格納された定義式から特徴量を計算することを特徴とする請求項7又は8に記載の文書管理方法。
  10. 前記計算ステップは、複数の特徴量を組み合わせ、複合的な判断基準を有する特徴量を計算することを特徴とする請求項7から9のいずれか1項に記載の文書管理方法。
  11. 前記表示ステップは、指定された特徴量にしたがって電子文書の表示順を並べ替えて表示することを特徴とする請求項7から10のいずれか1項に記載の文書管理方法。
  12. 前記表示ステップは、一覧表示した電子文書のうち、指定された電子文書の内容を表示することを特徴とする請求項7から11のいずれか1項に記載の文書管理方法。
  13. 請求項7から12のいずれか1項に記載の文書管理方法を機能させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2008037636A 2008-02-19 2008-02-19 文書管理装置、文書管理方法及び記録媒体 Pending JP2009199164A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008037636A JP2009199164A (ja) 2008-02-19 2008-02-19 文書管理装置、文書管理方法及び記録媒体
US12/379,025 US20090210396A1 (en) 2008-02-19 2009-02-11 Document management method, document management apparatus, and computer-readable medium storing a document management program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008037636A JP2009199164A (ja) 2008-02-19 2008-02-19 文書管理装置、文書管理方法及び記録媒体

Publications (1)

Publication Number Publication Date
JP2009199164A true JP2009199164A (ja) 2009-09-03

Family

ID=40956025

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008037636A Pending JP2009199164A (ja) 2008-02-19 2008-02-19 文書管理装置、文書管理方法及び記録媒体

Country Status (2)

Country Link
US (1) US20090210396A1 (ja)
JP (1) JP2009199164A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5598024B2 (ja) * 2010-03-04 2014-10-01 株式会社リコー 部品管理システム、部品管理装置、部品管理プログラム及び部品管理方法
US9465785B2 (en) * 2011-09-16 2016-10-11 Adobe Systems Incorporated Methods and apparatus for comic creation
US20140059411A1 (en) * 2012-08-24 2014-02-27 Monolithic 3D Inc. Novel computing system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004157965A (ja) * 2002-09-12 2004-06-03 Ricoh Co Ltd 検索支援装置、検索支援方法、プログラムおよび記録媒体
JP2005182845A (ja) * 2005-03-07 2005-07-07 Matsushita Electric Ind Co Ltd ファイリング装置
JP2009157865A (ja) * 2007-12-28 2009-07-16 Nifty Corp 情報検索装置,情報検索プログラム及び情報検索方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7249312B2 (en) * 2002-09-11 2007-07-24 Intelligent Results Attribute scoring for unstructured content
JP2006048536A (ja) * 2004-08-06 2006-02-16 Canon Inc 情報処理装置、文書検索方法、ならびにプログラム、記憶媒体
US20060200460A1 (en) * 2005-03-03 2006-09-07 Microsoft Corporation System and method for ranking search results using file types

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004157965A (ja) * 2002-09-12 2004-06-03 Ricoh Co Ltd 検索支援装置、検索支援方法、プログラムおよび記録媒体
JP2005182845A (ja) * 2005-03-07 2005-07-07 Matsushita Electric Ind Co Ltd ファイリング装置
JP2009157865A (ja) * 2007-12-28 2009-07-16 Nifty Corp 情報検索装置,情報検索プログラム及び情報検索方法

Also Published As

Publication number Publication date
US20090210396A1 (en) 2009-08-20

Similar Documents

Publication Publication Date Title
JP5116775B2 (ja) 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
US20080021891A1 (en) Searching a document using relevance feedback
JP2010003015A (ja) 文書検索システム
JP2009169856A (ja) 情報検索装置、情報検索方法及び制御プログラム
CN111159431A (zh) 基于知识图谱的信息可视化方法、装置、设备及存储介质
JP5185402B2 (ja) 文書検索装置、文書検索方法、及び文書検索プログラム
JP2014215911A (ja) 注目領域推定装置、方法およびプログラム
JP5687312B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
JP2008310514A (ja) ユーザ操作履歴取得表示装置、ユーザ操作履歴取得表示方法、ユーザ操作履歴取得表示プログラム及びそのプログラムを記録した記録媒体
JP5345963B2 (ja) 画像イメージを検索するタグデータの生成方法
JP6157965B2 (ja) 電子機器、方法、およびプログラム
JP2009199164A (ja) 文書管理装置、文書管理方法及び記録媒体
JP7293780B2 (ja) 情報処理装置、文書管理システム及びプログラム
JP2010092383A (ja) 電子文書ファイル検索装置、電子文書ファイル検索方法及びコンピュータプログラム
JP5179564B2 (ja) クエリセグメント位置決定装置
JP2009294723A (ja) 検索結果表示方法、検索装置及びコンピュータプログラム
JP2008046879A (ja) ページ表示装置、ページ表示方法、およびコンピュータプログラム
JP2007233752A (ja) 検索装置、コンピュータプログラム及び記録媒体
JP5826148B2 (ja) 図面管理サーバ及びこれを用いた図面管理システム
JP4416644B2 (ja) 予測機能付き文字処理装置、方法、記録媒体およびプログラム
US20160117352A1 (en) Apparatus and method for supporting visualization of connection relationship
JP6707410B2 (ja) 文献検索装置、文献検索方法およびコンピュータプログラム
JP6753190B2 (ja) 文書検索装置及びプログラム
JP2008276561A (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JP2006039938A (ja) 選択項目表示装置、選択項目表示方法、および選択項目表示プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101006

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120918

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130205