JP2008225957A - 文書検索装置、方法、及びプログラム - Google Patents
文書検索装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2008225957A JP2008225957A JP2007064571A JP2007064571A JP2008225957A JP 2008225957 A JP2008225957 A JP 2008225957A JP 2007064571 A JP2007064571 A JP 2007064571A JP 2007064571 A JP2007064571 A JP 2007064571A JP 2008225957 A JP2008225957 A JP 2008225957A
- Authority
- JP
- Japan
- Prior art keywords
- score
- document
- static
- search
- structured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】静的スコア計算部144は、静的条件をもとに、検索結果情報に含まれる構造化文書に対して静的スコアを算出する。動的スコア計算部142は、動的条件をもとに、検索結果情報に含まれる構造化文書に対して動的スコアを算出する。文書スコア付与部146は、静的スコア・動的スコアをもとに各構造化文書の文書スコアを算出する。順序決定部148は、文書スコアに基づいて各構造化文書の順序を決定する。
【選択図】図2
Description
本発明者は、この閲読に伴うユーザの負荷に着目し、情報取得効率をいっそう高めるためには、求める情報を含む可能性が高い文書を高精度で特定し、上位に順序付けする技術が重要であると想到した。
検索実行ユーザが文書検索装置100に対して、検索文字列と動的条件を含む検索要求情報を入力すると、文書検索装置100はその検索文字列を含む構造化文書をデータベース300から検索し、複数の構造化文書を含む検索結果情報を取得する。検索文字列は一定の意味をなす文字列であり、自然文であってもよいしキーワードであってもよい。データベース300の構造化文書は、XML文書やXHTML文書のようにタグによって構造化された文書である。
ここに示す各ブロックは、ハードウェア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組み合わせによっていろいろなかたちで実現できることは、当業者には理解されるところである。
前述したようにデータベース300は、検索対象となる構造化文書を保持し、通信ネットワーク200を介して文書検索装置100と接続される。ここで、通信ネットワーク200には、インターネット、LAN、WAN等様々な通信手段が含まれる。さらには、文書検索装置100とデータベース300は同一のハードウェア上で実現されてもよい。
検索実行部130は、ユーザからの検索要求情報に含まれる検索文字列を含む構造化文書をデータベース300から検索し、その検索結果を検索結果情報として取得する。
静的条件受付部112は、文書登録ユーザからの静的条件の入力操作を受け付け、前述した静的条件保持部120に静的条件を格納する。検索要求受付部114は、検索実行ユーザからの検索要求情報の入力操作を受け付ける。検索結果出力部116は、検索結果情報に含まれる複数の構造化文書を検索ランキング制御部140が決定した順序にて優先順位付けして検索実行ユーザの画面に表示させる。
動的スコア計算部142は、検索結果情報に含まれる複数の構造化文書と動的条件との適合度を動的スコアとして算出する。静的スコア計算部144は、検索結果情報に含まれる複数の構造化文書と静的条件との適合度を静的スコアとして算出する。動的スコアの算出、及び静的スコアの算出の例は後述する。
順序決定部148は、文書スコア付与部146が算出した構造化文書の文書スコアに基づいて、検索結果情報に含まれる複数の構造化文書名を並べる順序を決定する。順序の決定方法は一部のアルゴリズムには限定されない。例えば、文書スコアの降順・昇順で順序を決定してもよいし、文書スコアとその他のパラメータを調整して順序を決定してもよい。
逆の極端な例として、動的スコアの重み付けを100%に設定し、静的スコアの重み付けがゼロに設定された場合について説明する。この場合、文書スコア付与部146は、静的スコアの文書スコアに対する寄与を無効化し、動的スコアのみに基づいて文書スコアを算出する。検索実行ユーザの主観的な基準にのみ基づいて構造化文書を順序付けした検索結果情報を得たい場合に、この設定は有用である。
検索要求受付部114は、ユーザによる検索要求情報の入力を検出する(ステップS1)。検索要求情報には、検索文字列と動的条件が含まれる。検索実行部130は検索文字列を含む構造化文書をデータベース300から検索し、その検索結果を検索結果情報として取得する(ステップS2)。動的スコア計算部142は、検索結果情報に含まれる各構造化文書と動的条件から動的スコアを算出する(ステップS3)。ただし、動的スコアの重み付けがゼロの場合、S3の処理はスキップされる。静的スコア計算部144は、検索結果情報に含まれる各構造化文書と静的条件から静的スコアを算出する(ステップS4)。ただし、静的スコアの重み付けがゼロの場合、S4の処理はスキップされる。文書スコア付与部146は、各構造化文書の動的スコア・静的スコアから、その文書の文書スコアを算出する(ステップS5)。順序決定部148は、構造化文書の文書スコアから、検索結果情報に含まれる複数の構造化文書の順序を決定する(ステップS6)。検索結果出力部116は、決定された順序をもとに、各構造化文書に対し優先順位付けして画面表示させる(ステップS7)。
<doc>
<title></title>
<gaiyou>
<comment>コメント1</comment>
</gaiyou>
<body>
<chapter1>
<comment>コメント2</comment>
</chapter1>
</body>
</doc>
ここで、「コメント1」に係る「comment」タグは「/doc/gaiyou/comment」という経路式で特定でき、「コメント2」に係る「comment」タグは「/doc/body/chapter1/comment」という経路式で特定できる。
本明細書では、省略記号を含む経路式を「不完全経路式」と呼び、省略記号を含まない経路式を「完全経路式」と呼ぶ。完全経路式は、構造化文書の特定のタグを一意に特定することができる経路式であり、不完全経路式は、構造化文書の特定のタグを一意に特定するには不十分な経路式であるといえる。言い換えれば、不完全経路式は、複数のタグを一度に指定できる、柔軟性のある経路式であるともいえる。
本明細書の「経路式」とは、完全経路式と不完全経路式の両方を含む概念である。
本実施例の動的条件には、構造化文書内の特定の領域を指定する経路式が含まれる。以下、動的条件または静的条件に指定される経路式のことを特に「指定経路式」と呼ぶことにする。検索実行部130は、指定経路式で指定された特定の領域(以下、「指定経路領域」と呼ぶ。)に検索文字列を含む構造化文書をデータベース300から検索して、その検索結果を検索結果情報として取得する。
例えば、検索実行ユーザが検索文字列を「内線番号」として、検索の範囲を特に指定しない場合、図5の構造化文書も「/doc/body」に検索文字列を含むため検索結果情報に含まれることになる。しかし、指定経路式「/doc/keywordt」を与えることで、指定経路領域に検索文字列「内線番号」を含まない図5の構造化文書は検索結果情報には含まれなくなる。もし、この検索実行ユーザが内線番号表を必要とする状況であれば、この実施例に係る方法により、検索実行ユーザにとって不要な図5に係る文書を排除して検索結果情報を閲読する負荷を軽減することができる。
上の例でいえば、図4の構造化文書も、図5の構造化文書も、ともに文書中に検索文字列「内線番号」を含むため、検索結果情報に含まれることになる。図4の構造化文書は指定経路領域に「内線番号」を含むため、動的スコア計算部142は、図4の構造化文書の動的スコアを、所定のスコア調整値を加算等して増加させる。一方で、図5の構造化文書は指定経路領域に「内線番号」を含まないため、動的スコア計算部142は、図5の構造化文書の動的スコアを増加させない。その結果、図4の構造化文書の方が上位に順序付けされやすくなる。ただし、図5の構造化文書も検索結果情報には含まれるため、検索実行ユーザは図5の構造化文書についても検索結果情報の表示から確認することができる。
本実施例の動的条件には、複数種類の指定経路式と、各指定経路式に対するスコア調整値が含まれる。動的スコア計算部142は、指定経路領域に検索文字列を含む構造化文書の動的スコアを指定経路式に対応するスコア調整値により調整する。
例えば、ある構造化文書が指定経路領域に検索文字列を含む場合、動的スコアとして1点が加算される。「/doc/title」に「内線番号」を含むなら、その10倍の10点が加算される。一方、「/doc/body」に「内線番号」を含むなら、1.5点が加算される。「/doc/body」に「内線番号」を3回含むなら、1.5×3=4.5点が加算される。すなわち、「/doc/body」に検索文字列「内線番号」を複数含むよりも、「/doc/title」に「内線番号」が含まれる方が動的スコアは高くなりやすい。言い換えれば、検索実行ユーザは、「/doc/title」に「内線番号」を含む構造化文書は、求める構造化文書である可能性が高いと考えていることになる。本実施例によれば、このような検索実行ユーザの検索ポリシを緻密に反映させた形で文書検索を実行できる。
<doc>
<title></title>
<gaiyou>
<comment>TODO ○○を修正して下さい。</comment>
</gaiyou>
<body>
<chapter1>
<comment>TODO △△を削除して下さい。</comment>
</chapter1>
</body>
</doc>
ここで、指定経路式として「//comment」が指定されると、指定経路領域は「/doc/gaiyou/comment」のデータ領域、「/doc/body/chapter1/comment」のデータ領域となる。検索文字列が「TODO」だったとすると、それぞれの指定経路領域に検索文字列を含むため、本XML文書の動的スコアは2回調整される。
ここで示したように、ユーザは指定経路式として不完全経路式を指定することで、タグ名をキーとして、構造化文書内の複数の領域を柔軟に指定できる。他の実施例においても同様である。本実施例では、指定したそれぞれの領域の値をもとに動的スコアの調整ができる。
本実施例の動的条件には、構造化文書の中の部分領域として動的スコア領域を指定する動的スコア領域指定情報が含まれる。動的スコア領域指定情報は、構造化文書のタグ構造において末端に位置するノードにより示される領域を指定する情報であってもよいし、構造化文書の所定ノードとその所定ノードの近傍のノードにより示される領域を指定する情報であってもよいし、または構造化文書の全体として示される領域を指定する情報であってもよい。動的スコア計算部142は、指定された動的スコア領域を対象として動的スコアを算出する。
1)構造化文書のタグ構造において末端に位置するノードにより示される領域412
2)構造化文書の所定ノードとその所定ノードの近傍のノードにより示される領域410
3)構造化文書の全体として示される領域400
また、上記2における、構造化文書の所定ノードとその所定ノードの近傍のノードにより示される領域、は検索実行ユーザが指定してもよいし、文書検索装置100が自動的に近傍ノードの計算を行ってもよい。
後者の例を以下説明する。ここでは、基準ノードと比較ノードの階層構造上における位置の近さをタグ隣接度として算出し、そのタグ隣接度が所定の閾値以上となる比較ノードを、近傍ノードとして判定する。タグ隣接度の算出にあたっては、まず、基準タグと比較タグの共通する親タグのうち、ルートノードから見て階層が最も深い位置にあるタグを共通タグとして特定する。次に、共通タグ、基準タグ、および比較タグの階層の深さをもとに深度要素値を算出する。そして、共通タグから基準タグへの経路、および共通タグから比較タグへの経路をもとに順序要素値を算出する。最後に、タグ隣接度を深度要素値と順序要素値の加重平均により算出する。
順序要素値は、共通タグが深い位置にあり、共通タグから基準タグへの経路と共通タグから比較タグへの経路が近い関係にあるほど大きくなる。すなわち、順序要素値は、タグの階層において深い位置で経路に関して近い関係にある基準タグと比較タグについては大きな値となるという特徴を持つ。
タグ隣接度は、深度要素値が大きいほど大きく、同じく、順序要素値が大きいほど大きくなるという特徴を持つ。
本実施例において、静的条件には、構造化文書内の特定の領域を指定する経路式と、その指定経路領域に検索文字列を含む構造化文書の静的スコアを調整するためのスコア調整値が含まれる。静的スコア計算部144は、指定経路領域に検索文字列を含む構造化文書の静的スコアをスコア調整値により調整する。
本実施例において、静的条件には、構造化文書内の特定のノードを指定する経路式と、特定のノードの値に基づいて各構造化文書を順序付けるための規則を示す静的順序付け情報が含まれる。静的スコア計算部144は、構造化文書から経路式で指定された特定のノードの値を取得し、静的順序付け情報を参照して、特定のノードの値に基づいて構造化文書の静的スコアを算出する。
静的条件保持部120は、静的条件を保持する間、経路式で指定される特定のノードを含む文書の文書IDと、経路式で指定される特定のノードのノードIDと、静的順序付け情報の組を第1のインデックスとして作成して保持する。静的スコア計算部144は、検索結果情報に含まれる各構造化文書から、検索文字列を含む文書の文書IDを取得し第2のインデックスとして作成する。静的スコア計算部144は、さらに、第1のインデックスと第2のインデックスの文書IDを比較し、一致した場合には、第1のインデックスで保持されているノードIDに指定されるノードの値を取得する。そして、そのノードの値と静的順序付け情報に基づいて順序づけられるように構造化文書の静的スコアを所定の調整スコアで調整する。
この場合、図4の構造化文書の「/doc/doc_rank」は「80」となっており、図5の構造化文書の「/doc/doc_rank」は「200」となっている。静的順序づけ情報は「昇順」となっているため、静的スコア計算部144は、図4の構造化文書が図5の構造化文書よりも高い順序づけになるように静的スコアを調整する。例えば、図4の構造化文書の静的スコアには図5の構造化文書の静的スコアよりも大きなスコア調整値を加算する。
他の例としては、「更新日時」を記述したノードに基づく順序付けや、不動産情報における「駅からの徒歩時間」を記述したノードに基づく順序付けなどが可能になる。
本実施例において、静的条件には、構造化文書内の特定のノードを指定する経路式と、特定のノードの値の範囲を指定する情報が含まれ、静的スコア計算部144は、構造化文書から経路式で指定された特定のノードの値を取得し、特定のノードの値と範囲を指定する情報をもとに、構造化文書の静的スコアを調整する
静的条件保持部120は、静的条件を保持する間、経路式で指定される特定のノードを含む文書の文書IDと、経路式で指定される特定のノードのノードIDと、範囲指定情報の組を第1のインデックスとして作成して保持する。静的スコア計算部144は、検索結果情報に含まれる各構造化文書から、検索文字列を含む文書の文書IDを取得し第2のインデックスとして作成する。静的スコア計算部144は、さらに、第1のインデックスと第2のインデックスの文書IDを比較し、一致した場合には、第1のインデックスで保持されているノードIDに指定されるノードの値を取得する。そして、そのノードの値が範囲指定情報で指定される範囲に含まれるかを判定し、含まれる場合、構造化文書の静的スコアを所定の調整スコアで調整する。
この場合、図4の構造化文書の「/doc/date」は「2007/02/01」となっており、図5の構造化文書の「/doc/date」は「2006/01/08」となっている。したがって静的スコア計算部144は、範囲指定情報の条件を満たす図4の構造化文書の静的スコアを、所定のスコア調整値を加算等することで増加させる。
他の例としては、売上実績が目標に満たない売上月報の抽出、不動産情報における駅からの徒歩時間の範囲指定での検索などが可能になる。
本実施例において、静的条件には、構造化文書内の特定のノードを指定する経路式と、特定のノードの値との比較対象となる所定の固定値と、所定の固定値と関連付けられたスコア調整値が含まれる。静的スコア計算部144は、構造化文書から経路式で指定された特定のノードの値を取得し、特定のノードの値が固定値と一致するときには、構造化文書の静的スコアをその固定値に対応するスコア調整値により調整する。
(固定値,スコア調整値)=(A社長,100)、(B部長,80)、(C課長,60)。
図7は、本実施例における構造化文書の例である。検索実行ユーザが検索文字列として「年頭の業務指針」を指定したとすると、検索実行部130は、図7の構造化文書を検索結果情報として取得する。静的スコア計算部144は、各構造化文書の「/doc/author」の値を取得し、その値が固定値テーブルに存在するかを判定する。この場合には、「B部長」は固定値テーブルに存在するため、対応するスコア調整値80で図7の構造化文書の静的スコアを加算等して増加させる。
本実施例において、静的条件には、構造化文書内の特定のノードを指定する経路式と、その特定のノードの値をもとにスコア調整値を算出するスコア計算式が含まれる。静的スコア計算部144は、構造化文書から経路式で指定された特定のノードの値を取得し、その特定のノードの値とスコア計算式からスコア調整値を算出して、構造化文書の静的スコアをスコア調整値により調整する。本実施例における計算式には、四則演算・階乗計算・累乗計算・対数関数・三角関数等、既知の計算方法が含まれる。
(役職,役職区分)=(社長,1)、(部長,10)、(課長,50)、(一般社員,100)
ここで、図7の構造化文書を検索対象とする場合には、経路式を「役職区分 = /doc/author[@yakusyoku]」とすると、<author>の属性であるyakusyokuの値が変数「役職区分」に取得できる。スコア計算式を「スコア = 10000−役職区分^2」とすると、図8のような検索結果情報が表示される。なお、「^」は、べき乗を示す。
この場合、店舗情報について記述された構造化文書から、例えば以下のような経路式で店舗位置の東経・北緯の数値を取得する。
店舗位置東経 = /doc/shop/gps/tokei
店舗位置北緯 = /doc/shop/gps/hokui
また、以下のようなスコア計算式を用いると、図9のような検索結果情報が表示される。
本実施例によれば、構造化文書に存在する役職区分やGPS位置情報といった既存の様々な情報を取得できる。また取得した情報を活用し任意の計算式で静的スコアを算出できる。これにより、順序付けの柔軟性と精度をいっそう高めることができる。
本実施例において、静的スコアは、複数種類の静的条件に対応付けられる複数種類のスコア調整値により調整され、さらに静的条件には、前記静的スコアの算出に複数のスコア調整値が寄与する割合についての重み付け設定が含まれ、静的スコア計算部144は、その重み付け設定に基づいて、複数のスコア調整値により静的スコアを調整する。
上記の実施例4から7において、静的条件に基づく順序付けについて例を示した。これらはいずれも同時に設定されうるものであり、また同じ実施例に係る静的条件についても同時に複数の静的条件が設定されうる。これは例えば、構造化文書に対して作成者・作成日時・重要度といった複数の評価基準に基づいて順序付けを行いたい場合に起こりうる。本実施例では、これら複数の静的条件の重み付けを調整できるようにすることで組織の共通的なポリシ等に応じた最適な順序付けを実現する。
さらに、静的条件と構造化文書の関連付けに関し、文書登録ユーザは登録済みの静的条件を文書登録時に選択するようにしてもよい。または、文書のタイトルや作成者に基づいて、自動的に登録済みの静的条件が登録文書に対し関連付けられるようにしてもよい。これにより、文書登録ユーザの手間が軽減されるとともに、文書登録ユーザの手作業によるミスを減らすことができる。さらに、組織の共通ポリシに基づく順序付けを徹底できる点で有用である。
Claims (15)
- タグの階層構造に基づく経路式によってデータの位置が特定される構造化文書を保持するデータベースを検索し、その検索結果を順序付けして出力する文書検索装置であって、
ユーザによる前記順序付けのための静的条件の設定入力を検出する静的条件受付部と、
前記静的条件を保持する静的条件保持部と、
構造化文書の検索条件として、検索文字列と前記順序付けのための動的条件を含む検索要求情報のユーザによる入力を検出する検索要求受付部と、
前記検索文字列を含む構造化文書を前記データベースから検索し、その検索結果を検索結果情報として取得する検索実行部と、
前記検索結果情報に含まれる複数の構造化文書と前記動的条件との適合度を動的スコアとして算出する動的スコア計算部と、
前記検索結果情報に含まれる複数の構造化文書と前記静的条件との適合度を静的スコアとして算出する静的スコア計算部と、
前記動的スコアと前記静的スコアに基づいて構造化文書ごとに文書スコアを算出する文書スコア付与部と、
前記構造化文書に付与された前記文書スコアをもとに、前記検索結果情報に含まれる複数の構造化文書の順序を決定する順序決定部と、
前記検索結果情報に含まれる複数の構造化文書を前記決定された順序にて優先順位付けして画面表示させる検索結果出力部と、
を備えることを特徴とする文書検索装置。 - 前記動的条件には、更に、前記文書スコアの算出において、前記動的スコアと前記静的スコアが寄与する割合についての重み付け設定が含まれ、
前記文書スコア付与部は、前記重み付け設定に基づいて、前記動的スコアと前記静的スコアから前記文書スコアを算出することを特徴とする請求項1に記載の文書検索装置。 - 前記重み付け設定において、前記静的スコアのみに重み付けが設定され、前記動的スコアには重み付けが設定されない場合、
前記文書スコア付与部は、前記動的スコアの前記文書スコアに対する寄与を無効化し、前記静的スコアのみに基づいて前記文書スコアを算出することを特徴とする請求項2に記載の文書検索装置。 - 前記動的条件には、前記構造化文書内の特定の領域を指定する経路式が含まれ、
前記検索実行部は、前記経路式で指定された特定の領域に前記検索文字列を含む構造化文書を前記データベースから検索し、その検索結果を検索結果情報として取得することを特徴とする請求項1から3のいずれかに記載の文書検索装置。 - 前記動的条件には、複数種類の経路式と、前記複数種類の経路式のそれぞれについてのスコア調整値が含まれ、
前記動的スコア計算部は、前記動的条件として指定された経路式が示す領域に前記検索文字列を含む構造化文書の動的スコアを前記経路式に対応するスコア調整値により調整することを特徴とする請求項1から3のいずれかに記載の文書検索装置。 - 前記動的条件には、前記構造化文書の中の部分領域として動的スコア領域を指定する動的スコア領域指定情報が含まれ、
前記動的スコア計算部は、前記動的スコア領域を対象として動的スコアを算出し、
前記動的スコア領域指定情報は、前記構造化文書のタグ構造において末端に位置するノードにより示される領域、前記構造化文書の所定ノードとその所定ノードの近傍のノードにより示される領域、または前記構造化文書の全体として示される領域、のいずれかを前記動的スコア領域として指定する情報であることを特徴とする請求項1から5のいずれかに記載の文書検索装置。 - 前記静的条件には、前記構造化文書内の特定の領域を指定する経路式と、前記経路式により指定される領域に前記検索文字列を含む構造化文書の静的スコアを調整するためのスコア調整値が含まれ、
前記静的スコア計算部は、前記経路式で指定された領域に前記検索文字列を含む構造化文書の静的スコアを前記スコア調整値により調整することを特徴とする請求項1から3のいずれかに記載の文書検索装置。 - 前記静的条件には、前記構造化文書内の特定のノードを指定する経路式と、前記特定のノードの値に基づいて各構造化文書を順序付けるための規則を示す静的順序付け情報が含まれ、
前記静的スコア計算部は、構造化文書から前記経路式で指定された特定のノードの値を取得し、前記静的順序付け情報を参照して、前記特定のノードの値に基づいて前記構造化文書の静的スコアを調整することを特徴とする請求項1から3のいずれかに記載の文書検索装置。 - 前記静的条件には、前記構造化文書内の特定のノードを指定する経路式と、前記特定のノードの値の範囲を指定する情報が含まれ、
前記静的スコア計算部は、構造化文書から前記経路式で指定された特定のノードの値を取得し、前記特定のノードの値と前記範囲を指定する情報をもとに、前記構造化文書の静的スコアを調整することを特徴とする請求項1から3のいずれかに記載の文書検索装置。 - 前記静的条件には、前記構造化文書内の特定のノードを指定する経路式と、前記特定のノードの値との比較対象となる所定の固定値と、前記所定の固定値と関連付けられたスコア調整値が含まれ、
前記静的スコア計算部は、構造化文書から前記経路式で指定された特定のノードの値を取得し、前記特定のノードの値が前記固定値と一致するときには、前記構造化文書の静的スコアを前記固定値に対応する前記スコア調整値により調整することを特徴とする請求項1から3のいずれかに記載の文書検索装置。 - 前記静的条件には、前記構造化文書内の特定のノードを指定する経路式と、前記特定のノードの値をもとにスコア調整値を算出するスコア計算式が含まれ、
前記静的スコア計算部は、構造化文書から前記経路式で指定された特定のノードの値を取得し、前記特定のノードの値と前記スコア計算式からスコア調整値を算出して、前記構造化文書の静的スコアを前記スコア調整値により調整することを特徴とする請求項1から3のいずれかに記載の文書検索装置。 - 前記静的スコアは、複数種類の静的条件に対応付けられる複数種類のスコア調整値により調整され、
前記静的条件には、前記静的スコアの算出に複数のスコア調整値が寄与する割合についての重み付け設定が含まれ、
前記静的スコア計算部は、前記重み付け設定に基づいて、前記複数のスコア調整値により前記静的スコアを調整することを特徴とする請求項1から3のいずれかに記載の文書検索装置。 - 前記静的スコアは、複数種類の静的条件に対応付けられる複数種類のスコア調整値により調整され、
前記動的条件には、前記静的スコアの算出に複数のスコア調整値が寄与する割合についての重み付け設定が含まれ、
前記静的スコア計算部は、前記重み付け設定に基づいて、複数のスコア調整値により前記静的スコアを調整することを特徴とする請求項1から3のいずれかに記載の文書検索装置。 - タグの階層構造に基づく経路式によってデータの位置が特定される構造化文書を保持するデータベースを検索し、その検索結果を順序付けして出力する文書検索方法であって、
ユーザによる前記順序付けのための静的条件の設定入力を検出するステップと、
構造化文書の検索条件として、検索文字列と前記順序付けのための動的条件を含む検索要求情報のユーザによる入力を検出するステップと、
前記検索文字列を含む構造化文書を前記データベースから検索し、その検索結果を検索結果情報として取得するステップと、
前記検索結果情報に含まれる複数の構造化文書と前記動的条件との適合度を動的スコアとして算出するステップと、
前記検索結果情報に含まれる複数の構造化文書と前記静的条件との適合度を静的スコアとして算出するステップと、
前記動的スコアと前記静的スコアに基づいて構造化文書ごとに文書スコアを算出するステップと、
前記構造化文書に付与された前記文書スコアをもとに、前記検索結果情報に含まれる複数の構造化文書の順序を決定するステップと、
前記検索結果情報に含まれる複数の構造化文書を前記決定された順序にて優先順位付けして画面表示させるステップと、
を備えることを特徴とする文書検索方法。 - タグの階層構造に基づく経路式によってデータの位置が特定される構造化文書を保持するデータベースを検索し、その検索結果を順序付けして出力する文書検索機能をコンピュータに実現させるコンピュータプログラムであって、
ユーザによる前記順序付けのための静的条件の設定入力を検出する機能と、
前記静的条件を保持する機能と、
構造化文書の検索条件として、検索文字列と前記順序付けのための動的条件を含む検索要求情報のユーザによる入力を検出する機能と、
前記検索文字列を含む構造化文書を前記データベースから検索し、その検索結果を検索結果情報として取得する機能と、
前記検索結果情報に含まれる複数の構造化文書と前記動的条件との適合度を動的スコアとして算出する機能と、
前記検索結果情報に含まれる複数の構造化文書と前記静的条件との適合度を静的スコアとして算出する機能と、
前記動的スコアと前記静的スコアに基づいて構造化文書ごとに文書スコアを算出する機能と、
前記構造化文書に付与された前記文書スコアをもとに、前記検索結果情報に含まれる複数の構造化文書の順序を決定する機能と、
前記検索結果情報に含まれる複数の構造化文書を前記決定された順序にて優先順位付けして画面表示させる機能と、
をコンピュータに実現させることを特徴とするコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007064571A JP5154109B2 (ja) | 2007-03-14 | 2007-03-14 | 文書検索装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007064571A JP5154109B2 (ja) | 2007-03-14 | 2007-03-14 | 文書検索装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008225957A true JP2008225957A (ja) | 2008-09-25 |
JP5154109B2 JP5154109B2 (ja) | 2013-02-27 |
Family
ID=39844484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007064571A Expired - Fee Related JP5154109B2 (ja) | 2007-03-14 | 2007-03-14 | 文書検索装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5154109B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012113640A (ja) * | 2010-11-26 | 2012-06-14 | Internatl Business Mach Corp <Ibm> | 構造化文書に含まれるノードの全順序関係を、ログ情報に基づいて決定して可視化する方法、装置及びコンピュータプログラム |
WO2013038519A1 (ja) * | 2011-09-14 | 2013-03-21 | 株式会社マイニングブラウニー | ウェブページ解析装置およびウェブページ解析用プログラム |
JP2018022506A (ja) * | 2013-07-30 | 2018-02-08 | フェイスブック,インク. | オンライン・ソーシャル・ネットワークにおける検索クエリのための静的ランク付け |
JP2018049351A (ja) * | 2016-09-20 | 2018-03-29 | 株式会社トヨタマップマスター | 施設検索装置、施設検索方法、コンピュータプログラム及びコンピュータプログラムを記録した記録媒体 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09160908A (ja) * | 1995-12-12 | 1997-06-20 | Canon Inc | 文書処理装置及びその方法、記憶媒体 |
JP2000020202A (ja) * | 1998-06-30 | 2000-01-21 | Fujitsu Ltd | 情報参照支援装置 |
JP2000200286A (ja) * | 1999-01-07 | 2000-07-18 | Hitachi Ltd | 構造化文書検索方法及びシステム及び検索装置及び構造化文書検索プログラムを記録したコンピュ―タ読み取り可能な記録媒体 |
JP2002202973A (ja) * | 2000-10-25 | 2002-07-19 | Matsushita Electric Ind Co Ltd | 構造化文書管理装置 |
JP2003016112A (ja) * | 2001-07-03 | 2003-01-17 | Nec Corp | 情報検索システム及び情報検索方法並びに情報検索プログラム |
JP2005338992A (ja) * | 2004-05-25 | 2005-12-08 | Fuji Xerox Co Ltd | 文書検索装置及びプログラム |
-
2007
- 2007-03-14 JP JP2007064571A patent/JP5154109B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09160908A (ja) * | 1995-12-12 | 1997-06-20 | Canon Inc | 文書処理装置及びその方法、記憶媒体 |
JP2000020202A (ja) * | 1998-06-30 | 2000-01-21 | Fujitsu Ltd | 情報参照支援装置 |
JP2000200286A (ja) * | 1999-01-07 | 2000-07-18 | Hitachi Ltd | 構造化文書検索方法及びシステム及び検索装置及び構造化文書検索プログラムを記録したコンピュ―タ読み取り可能な記録媒体 |
JP2002202973A (ja) * | 2000-10-25 | 2002-07-19 | Matsushita Electric Ind Co Ltd | 構造化文書管理装置 |
JP2003016112A (ja) * | 2001-07-03 | 2003-01-17 | Nec Corp | 情報検索システム及び情報検索方法並びに情報検索プログラム |
JP2005338992A (ja) * | 2004-05-25 | 2005-12-08 | Fuji Xerox Co Ltd | 文書検索装置及びプログラム |
Non-Patent Citations (2)
Title |
---|
CSNG200200117029; 渡邉正裕: '構造化文書を対象とした文字列検索とベクトル検索の統合について' 電子情報通信学会技術研究報告 Vol.100,No.227, 20000720, pp.225-232, 社団法人電子情報通信学会 * |
JPN6012013839; 渡邉正裕: '構造化文書を対象とした文字列検索とベクトル検索の統合について' 電子情報通信学会技術研究報告 Vol.100,No.227, 20000720, pp.225-232, 社団法人電子情報通信学会 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012113640A (ja) * | 2010-11-26 | 2012-06-14 | Internatl Business Mach Corp <Ibm> | 構造化文書に含まれるノードの全順序関係を、ログ情報に基づいて決定して可視化する方法、装置及びコンピュータプログラム |
US9043695B2 (en) | 2010-11-26 | 2015-05-26 | International Business Machines Corporation | Visualizing total order relation of nodes in a structured document |
WO2013038519A1 (ja) * | 2011-09-14 | 2013-03-21 | 株式会社マイニングブラウニー | ウェブページ解析装置およびウェブページ解析用プログラム |
JP2018022506A (ja) * | 2013-07-30 | 2018-02-08 | フェイスブック,インク. | オンライン・ソーシャル・ネットワークにおける検索クエリのための静的ランク付け |
JP2018049351A (ja) * | 2016-09-20 | 2018-03-29 | 株式会社トヨタマップマスター | 施設検索装置、施設検索方法、コンピュータプログラム及びコンピュータプログラムを記録した記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP5154109B2 (ja) | 2013-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5116775B2 (ja) | 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP4878624B2 (ja) | 文書処理装置および文書処理方法 | |
US8200695B2 (en) | Database for uploading, storing, and retrieving similar documents | |
JP4920023B2 (ja) | オブジェクト間競合指標計算方法およびシステム | |
JP5187313B2 (ja) | 文書重要度算出システム、文書重要度算出方法およびプログラム | |
US20080183695A1 (en) | Using activation paths to cluster proximity query results | |
JP2004213675A (ja) | 構造化ドキュメントの検索 | |
JP2007272390A (ja) | リソース管理装置、タグ候補選定方法及びタグ候補選定プログラム | |
JPH07319917A (ja) | 文書データべース管理装置および文書データべースシステム | |
US20090222298A1 (en) | Data Mining Method for Automatic Creation of Organizational Charts | |
JP2007219722A (ja) | 文書検索サーバおよび文書検索方法 | |
JP2006285526A (ja) | 画像データに応じた情報検索 | |
JP5154109B2 (ja) | 文書検索装置、方法、及びプログラム | |
JP5266975B2 (ja) | 個人検索システム、情報処理装置、個人検索方法、プログラムおよび記録媒体 | |
JP2017191357A (ja) | 単語判定装置 | |
JP2009271659A (ja) | 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体 | |
JP5234836B2 (ja) | コンテンツ管理装置,情報関連度算出方法および情報関連度算出プログラム | |
US20120197909A1 (en) | Method for determining a similarity of objects | |
JP3647671B2 (ja) | 情報共有システムおよびその情報保守管理の方法 | |
JP2006185167A (ja) | ファイル検索方法、ファイル検索装置、および、ファイル検索プログラム | |
JP7259854B2 (ja) | 質問応答装置、質問応答方法およびプログラム | |
JP7078569B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2020042707A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7103414B2 (ja) | 表示形式決定装置、表示形式決定方法およびプログラム | |
JP2018005759A (ja) | 引用マップ生成装置、引用マップ生成方法およびコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100302 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120307 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120321 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120521 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121205 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151214 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |