JP5281516B2 - 文書格納装置及び文書格納プログラム - Google Patents

文書格納装置及び文書格納プログラム Download PDF

Info

Publication number
JP5281516B2
JP5281516B2 JP2009189180A JP2009189180A JP5281516B2 JP 5281516 B2 JP5281516 B2 JP 5281516B2 JP 2009189180 A JP2009189180 A JP 2009189180A JP 2009189180 A JP2009189180 A JP 2009189180A JP 5281516 B2 JP5281516 B2 JP 5281516B2
Authority
JP
Japan
Prior art keywords
document
importance
internal
database
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009189180A
Other languages
English (en)
Other versions
JP2011039976A (ja
Inventor
幸生 植松
良彦 数原
良治 片岡
孝史 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009189180A priority Critical patent/JP5281516B2/ja
Publication of JP2011039976A publication Critical patent/JP2011039976A/ja
Application granted granted Critical
Publication of JP5281516B2 publication Critical patent/JP5281516B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書に対する重要度を格納するデータベース分野に属し、特に文書検索に主に用いられる技術に関する。
文書に対する重要度とは、文書を取得する際にその文書のランキングに用いられる値のことで、通常は一文書に対して一つの値を設定することができる。ある文書に付与された重要度を保存する従来技術としてはISAM(Indexed Sequential Access Method)がある(非特許文献1)。ISAMでは,主キーとなる文書から内部識別子(以下、内部ID)を参照し,その内部IDの値をキーとして内部IDが対応する所望の値を取得する。
図6を参照しながら従来技術に係る文書格納装置10について説明する。図6に示された文書格納装置10はインデックス参照部11を備える。インデックス参照部11は少なくとも内部ID付与手段12と文書格納手段13とを有する。内部ID付与手段12は文書入力部14を介して入力された文書の識別子(以下、文書ID)に対して内部ID(例えば「1」)を付与する。文書格納手段13は少なくとも文書ID「文書A」に対応した入力文書の重要度をデータベース15における当該入力文書の重要度のカラムに格納させる機能を有する。
図7に例示されたデータベース15における先頭の主キーのカラムには「文書n」が格納されている。「文書n」は入力された文書に付与された識別子である。また、データベース15には「内部ID」のカラムが設けられている。「内部ID」は入力された文書群の各文書の文書IDに対して当該各文書の入力順に割り付けられた識別子である。例えば、文書ID「文書B」は内部ID「3」に割り付けられている。その内部IDによって、所望の値を取得できる。図中の例で説明すると、内部ID「3」を利用して3列目のデータにアクセスし、重要度の値「0.6」や更新日時「123491588」を取得できる。
図7及び図8を参照しながらデータベース15の作成手順について説明する。
S001:インデックス参照部11に対して初期内部IDiの値として「1」が設定される。
S002:インデックス参照部11は文書入力部14から入力された文書のIDと重要度の値の入力を受ける。具体的には、入力された文書に対する文書IDとして例えば「文書A」が、当該文書の重要度の値として「0.8」がインデックス参照部11に入力される。
S003:内部ID付与手段12は前記入力された文書のIDに対して初期内部IDを付与する。内部ID付与手段12は具体的に例えばデータベース15におけるID「文書A」に対応した初期内部IDのカラムに初期内部IDの値「1」を入力する。
S004:文書格納手段13は前記付与された初期内部IDを利用して重要度をデータベース15にストアする。文書格納手段13は具体的に例えば図7のデータベース15の末尾に追加されたカラムに重要度の値として「0.8」を格納する。
S005:インデックス参照部11は次の入力文書が存在するかどうかをチェックする。例えば図7に示したように文書ID「文書C」が存在すれば、S006に処理に移行する。
S006:インデックス参照部11は内部IDiに「1」を追加して、S002からの処理を繰り返す。例えば、この処理の過程におけるS005では、前記「1」が追加された内部IDを利用して重要度(例えば0.9)をデータベース15にストアする。S005で次の文書が無くなれば終了する。
酒井法雄、"データベース再入門:データベースの基本構造を理解しよう"、[online]、1997年12月、int21 Corporation、[2009年7月8日検索]、URL:http://www.int21.co.jp/pcdn/vb/noriolib/vbmag/9712/rdbms/
前述した従来技術のようなリレーショナルデータベースの場合、ある文書に付与された重要度が1つの値に集約された場合、効率的に格納、参照ができないという課題がある。Webの文書などでは重要度を1つに集約することが可能であるため、ISAMのようなデータ構造の場合、空間効率やアクセス速度が遅いという問題点がある。
前記課題を解決するための本発明は文書毎に付与される内部識別子に重要度の意味を持たせることで、データベースの別のカラムにアクセスすることなく高速な参照を可能にする。また、重要度を格納するためのカラムが低減し、データベースの空間効率が向上する。
本発明の文書格納装置の態様としては、入力された文書の識別子をデータベースに格納させる文書格納装置であって、入力された文書群の各文書の文書識別子に対して当該各文書の重要度に基づく内部識別子を付与し、この付与された内部識別子の値に基づく配列で前記各文書の識別子をデータベースに格納させるインデックス参照手段を備え、前記インデックス参照手段は、入力された文書群の各文書の識別子に対して当該各文書の重要度に基づく内部識別子を付与する内部識別子付与手段と、前記付与された内部識別子の値に基づく配列で前記各文書の識別子を前記データベースに格納させる文書格納手段とを備え、前記内部識別子付与手段は前記内部識別子の値に基づき前記重要度の値を算出する
本発明は、上記文書格納装置を構成する手段としてコンピュータを機能させる文書格納プログラムの態様とすることができる。
以上の発明によればデータベースにおける文書の重要度のカラムが低減し効率的に入力文書の情報を保持できる。
発明の実施形態に係る文書格納装置の構成図。 実施形態1に係る文書格納装置によって作成されたデータベースの一例。 実施形態1に係る文書格納装置によるデータベースの作成手順を説明したフローチャート。 実施形態2に係る文書格納装置によって作成されたデータベースの一例。 実施形態2に係る文書格納装置によるデータベースの作成手順を説明したフローチャート。 従来技術に係る文書格納装置の構成図。 従来技術に係る文書格納装置によって作成されたデータベースの一例。 従来技術に係る文書格納装置によるデータベースの作成手順を説明したフローチャート。
本発明は、文書IDに対して内部IDを付与する際に内部IDに重要度の意味も付与することで、ISAMなどのインデックスを利用すること無く参照でき、かつデータをストアするストレージの削減を実現させる。
本発明の実施形態1に係る文書格納装置1は図1に示したようにインデックス参照部2を備える。インデックス参照部2は文書入力部6からの文書の入力を受ける。また、インデックス参照部2はデータベース7に対してアクセス可能となっている。データベース7は少なくとも文書入力部6を介して入力された文書の文書ID(文書識別子)を主キーとして格納している。尚、前記入力された文書及びデータベース7は図示省略されたハードディスク装置、サーバ装置に例示される記憶手段に保存される。
インデックス参照部2は、文書入力部6によって入力された文書群の各文書の文書IDに対して当該各文書の重要度に基づく内部ID(内部識別子)を付与し、この付与された内部IDの値に基づく配列で前記各文書の文書IDをデータベース7に格納させる。
インデックス参照部2は具体的には図1に示されたように重要度割り付け手段3と内部ID付与手段4と文書格納手段5の機能を有する。重要度割り付け手段3は文書入力部6を介して入力された各文書の文書IDを当該各文書の重要度に基づき並び替える。内部ID付与手段4は前記各文書の文書IDに対して当該各文書の重要度に基づく内部IDを付与する。また、内部ID付与手段4は前記内部IDの値に基づき前記重要度の値を算出する機能を有する。文書格納手段5は前記付与された内部IDの値に基づく配列で前記各文書のIDをデータベース7に格納する。
図2を参照しながら本実施形態の文書格納装置1によって作成されたデータベース7の一例について説明する。
本発明に係る文書格納装置1と従来技術に係る文書格納装置10との違いは、入力された文書の重要度のカラムをデータベースに保持させずに、当該文書の重要度を内部IDに割り付けていることである。
従来技術では内部IDを文書の入力順に付与していたが、本発明に係る文書格納装置1では、内部IDを予め文書の重要度順に割り付け、これに基づき文書IDを並べ替えることによって前記文書IDに対応した文書の情報を格納している。図2に示された事例では重要度が「1.0」と最も高い文書の文書IDが内部ID「1」に割り付けられている。
図3を参照しながら本実施形態の文書格納装置1が図2のデータベース7を作成するための手順(S101〜S107)について説明する。
前述の従来技術に係る手順(S001〜S006)との唯一の違いはS102において、重要度割り付け手段3が入力された各文書の文書IDを各文書の重要度の順に並べ替えている点である。これにより、内部IDが重要度の高い文書順に付与され、重要度の値を格納するカラムを余分に確保することなく重要度の相対的な大きさを保存することができる。尚、本実施形態の方式は重要度そのものの値を得るものではない。
S101:インデックス参照部2において初期内部IDiとして「1」が設定される。
S102:重要度割り付け手段3は文書入力部5によって入力された各文書の文書IDを各文書の重要度順に並べ替える。
S103:インデックス参照部2は並びかえられた文書の文書IDと当該文書の重要度とをデータベース7に入力する。例えば、入力された文書の文書IDとして「文書D」がデータベース7の主キーのカラムに入力され、当該文書の重要度の値として「1.0」がデータベース7の前記カラムと同列のカラムに入力される。
S104:内部ID付与手段4はデータベース7の文書IDに対して前記設定された初期内部IDiを付与する。例えば図2に示したようにデータベース7における文書ID「文書D」のアラムと同列のカラムに初期内部IDiとして「1」が付与される。
S105:文書格納手段5は前記付与された初期内部IDiを利用して重要度「1.0」をデータベース7にストアする。また、そのときの更新日時がデータベース7のカラムに記録される。
S106:インデックス参照部2は文書入力部6から供された次の文書が存在するかどうかをチェックする。次の文書が存在すれば、例えば図7に示されたように識別子を「文書C」とする文書が存在すれば、S106に処理に移行する。
S107:インデックス参照部2は内部IDiに「1」を追加して、S103からの処理を繰り返す。例えば、この処理の過程におけるS105では、前記「1」が追加された内部IDiを利用して重要度の値をデータベース7にストアする。例えば文書ID「文書B」に付与された内部IDiとして「2」が利用されて重要度の値として「0.9」がデータベース7にストアされる。S106で次の文書が無いと判断されると処理を終了する。
以上のように実施形態1の文書格納装置1によれば、内部IDを割り付ける際に重要度を考慮することで、内部IDから文書IDの相対的な大きさを得ることができる。また、重要度のカラムが削減されて、効率的に情報を保持することができる。以上のように文書データに対して付与された重要度を効率的に保持できる。
次いで本発明の実施形態2に係る文書格納装置1によるデータベースの作成手順について説明する。実施形態2で作成されたデータベース8の例を図4に示した。
実施形態2と従来技術との違いは実施形態1と同様に重要度毎に内部IDが割り付けられている点である。この例では重要度1.0に対して内部IDとして1〜10が、重要度0.9に対して内部IDとして11〜20が割り付けられている。また、実施形態2では、内部IDをある所定の値で除算した結果を利用して重要度を取得できるようになっている。これにより、文書IDを格納するデータベースから当該文書IDに係る文書の重要度の絶対値を取得することが可能である。
図4及び図5を参照しながら実施形態2に係るデータベースを作成する手順(S201〜S209)について説明する。
S201:重要度割り付け手段3は文書入力部6を介してインデックス参照部2内に入力された文書群とその各文書の重要度から有効桁数Nを調べる。例えば重要度が0から0.1刻みで1までの場合は、有効桁数Nは10になる。
S202:重要度割り付け手段3は前記入力された文書群において同じ重要度の最大頻度Mを算出する。例えば入力された文書集合中に0.1という重要度が最も多くの文書がある場合、その文書の個数Mを数える。このMは同じ重要度の最大頻度以上であれば任意の値を設定できる。
S203:重要度割り付け手段3は前記入力された文書群の各文書の識別子を各文書の重要度順に並べかえる。URLの順番に意味が無い場合は並べ替える必要はない。
S204:インデックス参照部2において各重要度の内部IDを保存するための初期配列の値が設定される。例えば、各初期配列の値は「1」と初期化される。
S205:インデックス参照部2は入力された最初の文書の文書IDと当該文書の重要度の値を調べる。
S206:内部ID付与手段4はS205で得られた重要度の値から下記の式(1)で示された演算式によって算出した内部IDの値をベータベース8のカラムにセットする。
内部ID=(1−重要度)×N×M+i[(1−重要度)×N] …(1)
S207:文書格納手段5はS206での式(1)によって得られた内部IDの値が格納されたベータベース8のカラムと同列のカラムに文書IDを格納する。
S208:インデックス参照部2は式(1)のi[(1−重要度)×N]の値に1を加える。
S209:インデックス参照部2は文書入力部6から供された他に文書が無いかを調べ、ある場合はS205からの処理を繰り返す。
次に、S201〜S209のステップで作成された図4に例示のデータベース8からの特定の文書の重要度の算出方法について説明する。
文書の重要度の値は内部ID付与手段4によって算出される。図4のデータベース8においては、N=10、M=10に設定されている。例えば、文書IDが文書Eである文書の重要度を取得しようとすると、文書Eに係る内部IDの値は「12」なので、この値をM(=10)で割ると、12÷10=1余り2となる。この算出された値「1」は(1)式の右辺第一項「(1−重要度)×N」に相当する。一方、余りの値「2」は、(1)式の右辺第2項「i[(1−重要度)×N]」の値であって、初期配列の値「1」に対して「1」が加算された値に相当する。ゆえに、重要度の値は、式(1)の右辺第一項に基づくNを算出するための方程式「(1−重要度)×N=1」を解くと「重要度=1−1÷N=1−1÷10」の演算によって「0.9」と算出される。以上のように内部IDの値「12」から当該内部IDに係る文書の重要度の値として「0.9」が取得される。
したがって、実施形態2に係る文書格納装置1によれば実施形態1に係る文書格納装置1の効果に加えて内部IDから文書IDの絶対値を得ることができる。
以上説明した本発明の実施形態1,2に係る文書格納装置1に係る機能手段2〜8は、コンピュータのハードウェアリソース、例えばCPU、メモリ(RAM)、ハードディスク装置、通信デバイス等によって構成できる。すなわち、機能手段2〜8はCPUとプログラムとの協働によって実現できる。また、機能手段7,8はハードディスク装置やサーバ装置に例示される記録手段に格納すればよい。
さらに、本発明は、上述の実施形態に係る機能手段2〜6をコンピュータに実現させる文書格納プログラムまたはこれを記録したコンピュータ読み取り可能な記録媒体の態様としてコンピュータのCPU(MPU)が当該プログラムを読み出し実行することで実現できる。その場合、記録媒体から読み出されたプログラム自体が上述した実施の形態の機能を実現することになり、そのプログラムを記憶した記録媒体、例えばCD−ROM、DVD−ROM、CD−R、MO、HDD等は本発明を構成する。
1…文書格納装置
2…インデックス参照部(インデックス参照手段)
3…重要度割り付け手段
4…内部ID付与手段(内部識別子付与手段)
5…文書格納手段
7,8…データベース

Claims (3)

  1. 入力された文書の識別子をデータベースに格納させる文書格納装置であって、
    入力された文書群の各文書の文書識別子に対して当該各文書の重要度に基づく内部識別子を付与し、この付与された内部識別子の値に基づく配列で前記各文書の識別子をデータベースに格納させるインデックス参照手段を備え、
    前記インデックス参照手段は、
    入力された文書群の各文書の識別子に対して当該各文書の重要度に基づく内部識別子を付与する内部識別子付与手段と、
    前記付与された内部識別子の値に基づく配列で前記各文書の識別子を前記データベースに格納させる文書格納手段と
    を備え、
    前記内部識別子付与手段は前記内部識別子の値に基づき前記重要度の値を算出すること
    を特徴とする文書格納装置。
  2. 前記インデックス参照手段は、
    入力された文書群の各文書の識別子を当該各文書の重要度に基づき並び替える重要度割り付け手段をさらに備えたこと
    を特徴とする請求項に記載の文書格納装置。
  3. 請求項1または2に記載の文書格納装置を構成する手段としてコンピュータを機能させるための文書格納プログラム。
JP2009189180A 2009-08-18 2009-08-18 文書格納装置及び文書格納プログラム Expired - Fee Related JP5281516B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009189180A JP5281516B2 (ja) 2009-08-18 2009-08-18 文書格納装置及び文書格納プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009189180A JP5281516B2 (ja) 2009-08-18 2009-08-18 文書格納装置及び文書格納プログラム

Publications (2)

Publication Number Publication Date
JP2011039976A JP2011039976A (ja) 2011-02-24
JP5281516B2 true JP5281516B2 (ja) 2013-09-04

Family

ID=43767650

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009189180A Expired - Fee Related JP5281516B2 (ja) 2009-08-18 2009-08-18 文書格納装置及び文書格納プログラム

Country Status (1)

Country Link
JP (1) JP5281516B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6662800B2 (ja) * 2017-02-23 2020-03-11 日本電信電話株式会社 提示装置及び提示方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145243A (ja) * 1997-07-25 1999-02-16 Just Syst Corp 索引作成支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3564999B2 (ja) * 1998-03-17 2004-09-15 松下電器産業株式会社 情報検索装置
JP4189387B2 (ja) * 2005-03-28 2008-12-03 株式会社東芝 知識検索システム、知識検索方法及びプログラム
JP4436858B2 (ja) * 2007-04-09 2010-03-24 シャープ株式会社 画像処理装置、画像形成装置、画像送信装置、画像読取装置、画像処理システム、画像処理方法、画像処理プログラムおよびその記録媒体

Also Published As

Publication number Publication date
JP2011039976A (ja) 2011-02-24

Similar Documents

Publication Publication Date Title
JP6025149B2 (ja) データを管理するシステムおよび方法
Almodaresi et al. An efficient, scalable, and exact representation of high-dimensional color information enabled using de Bruijn graph search
US20120054197A1 (en) METHOD AND SYSTEM FOR STORING BINARY LARGE OBJECTS (BLObs) IN A DISTRIBUTED KEY-VALUE STORAGE SYSTEM
CN107608773A (zh) 任务并发处理方法、装置及计算设备
JP2014500548A (ja) 製品情報の伝送
CN102402602A (zh) 一种实时数据库的b+树索引方法及装置
CN106471501B (zh) 数据查询的方法、数据对象的存储方法和数据系统
US20110153650A1 (en) Column-based data managing method and apparatus, and column-based data searching method
JP2010503117A (ja) 動的フラグメントマッピング
US10248622B2 (en) Variable virtual split dictionary for search optimization
WO2013143278A1 (zh) 数据的索引查询方法、装置及系统
CN104572785B (zh) 一种分布式创建索引的方法和装置
JP2012168781A (ja) 分散型データストアシステム及び分散型データストアシステムにおけるレコード管理方法
CN107301249A (zh) 一种文件访问信息记录方法、系统及分布式集群系统
JP5790755B2 (ja) データベース管理装置及びデータベース管理方法
Kuzochkina et al. Analyzing and Comparison of NoSQL DBMS
CN116881287A (zh) 一种数据查询方法及相关设备
JP5281516B2 (ja) 文書格納装置及び文書格納プログラム
CN115963987A (zh) 分布式存储方法、装置、设备及计算机可读存储介质
JP2007048318A (ja) リレーショナルデータベースの処理方法およびリレーショナルデータベース処理装置
JP5659880B2 (ja) 処理装置、分散処理システム、及び処理プログラム
JP2013127750A (ja) パーティション分割装置及び方法及びプログラム
CN110427390B (zh) 数据查询方法及装置、存储介质、电子装置
Dias et al. Nosql database performance tuning for iot data
JP6000175B2 (ja) 匿名化システム、匿名化装置、利用者装置、匿名化方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110927

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130305

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130524

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5281516

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees