JP5971571B2

JP5971571B2 - 構造文書管理システム、構造文書管理方法及びプログラム

Info

Publication number: JP5971571B2
Application number: JP2014516505A
Authority: JP
Inventors: 坪井　創吾; 創吾坪井; 佐々木　淳哉; 淳哉佐々木; 陽二加藤; 裕子高森
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2012-05-22
Filing date: 2012-05-22
Publication date: 2016-08-17
Anticipated expiration: 2032-05-22
Also published as: JPWO2013175524A1; WO2013175524A1

Description

本発明の実施形態は、構造文書管理における索引の作成支援技術に関する。

コンテンツ管理システム（以下「CMS」という。)の普及が著しい。規程、業務マニュアルといったビジネス文書のCMS、ブログ等の個人用コンテンツのCMS、Wikipediaをはじめとする複数人が同一の目的のためにコンテンツを共同編集するパブリックなCMSなど、特にインターネットの世界ではCMSばかりといった状況である。CMSを用いた情報共有システムも普及している。

CMSの文書管理の技術において、登録される文書は、多くの場合、XMLやHTMLといった構造を持った文書（以下「構造文書」という。）である。

大量の文書から目的の文書を探す際、索引ページがあると効率的である。索引ページとは、語句や事項などを容易に探し出せるように、その語句や事項を文書から抽出して一定の順序に配列し、その語句や事項が出現する文書の所在や閲覧方法をまとめたものである。キーワード検索による探し方もあるが、そもそもキーワードを思いつかないと使用することができない。また、索引ページは、前後に並んだ用語から、未知の知識に触れられる楽しみがある。

一方で、索引ページを作成し、メンテナンスをすることは容易ではない。

(1) 索引に載せるべき語かどうか、妥当性の判断が難しい。例えば、出現頻度を元に妥当性の判定を行うことは、有効ではない。定義にあたるような文書では、索引語の出現頻度は、むしろ少ない。

(2) 索引語を含む文書の中から、どの文書を最も索引として載せるのにふさわしいのか、索引に載せない文書の扱いをどうするかを判断することが難しい。

(3) また、一度作った索引のメンテナンスも手間がかかる作業である。いずれかの文書が更新されれば、索引ページの更新も逐一必要になる。ビジネスにしろプライベートにしろ、文書の更新を行うインセンティブと、索引ページの更新を行うインセンティブは異なる。さらにビジネスの場合、お互いの文書の管理部署が違うこともあり、総じてメンテナンスコストがかかる。

従来、構造文書の階層構造や属性を用いた検索式と、その検索結果を一覧化することで、索引ページの代わりにするような技術が知られている。しかしながら、検索式を列挙していく作業は難しく、専門的な知識も必要である。前述の課題の(1)〜(3)を解決することが求められる。

特開２００６−１８５４０８号公報

本発明が解決しようとする課題は、ユーザが一部の索引語を選択するだけで、索引ページの作成およびメンテナンスが可能になるような構造文書管理技術を提供することである。

実施形態の構造文書管理システムは、索引語を入力する入力手段を有する。構造文書を記憶している記憶装置から索引語が出現する構造文書を検索する。検索された構造文書において索引語が出現する構造上の部分を少なくとも特定する出現条件を判定する。出現条件の類似度に基づいて各構造文書をグルーピングする。グルーピングされた各構造文書と各索引語との対応関係を索引情報として記憶する。前記出現条件は前記索引語の周辺の文字列の有無についても含む。

実施形態の構造文書管理システム１００の構成図実施形態の構造文書記憶部１０３に記憶される構造文書の一例を示す図実施形態の構造文書２０２に対する索引語の出現条件の例を示す図実施形態の出現条件グルーピング部１０５の処理のフローチャート実施形態の出現条件の曖昧化の例を示す図実施形態の出現条件の曖昧化回数によるグルーピングの例を示す図実施形態の索引一覧記憶部１０６における記憶内容の例を示す図実施形態の索引一覧提示部１０７による索引の提示画面の例を示す図実施形態の索引語確認部１０８による提示画面の例を示す図実施形態の索引語推薦部１０９による提示画面の例を示す図

以下、発明を実施するための実施形態について説明する。本実施形態における解決方法の概略は下記（１）〜（３）の通りである。

（１）いくつかの索引語を指定することで、他の索引語を取得する。具体的には、指定した一定数の索引語に共通する、出現位置の構造上の特徴（例えば、ほとんどの索引語の出現位置を表現したXPath）を持つ他の単語を探す。

（２）各索引語が出現する文書間で、出現位置の構造上の特徴ごとにグループ分けし、最も特徴が具体的なものを、索引語に対応する文書のグループとする。例えば、索引語の出現位置をXPathで表現するとして、XPathが該当するノード数が最も少ない特徴を具体的な特徴とする。より狭い範囲を表現できているということができる。

（３）ユーザによって新たに索引語が指定された際に、他の索引語と出現位置の構造上の特徴が異なる場合は、その語が索引語としてふさわしくない可能性があるとして、警告を出す。

図１は、実施形態の構造文書管理システム１００の構成図である。

構造文書管理システム１００は、コンピュータを用いて構成され、ユーザに対して索引一覧編集支援の機能を提供する。構造文書管理システム１００における索引語入力部１０１ないしグループ名編集部１１２の各部は、コンピュータがプログラムを実行することで機能するブロックを示している。索引語入力部１０１、索引一覧提示部１０７、索引語確認部１０８、索引語推薦部１０９、およびグループ名編集部１１２は、端末を介して、ユーザにインタフェースを提供する。また、構造文書記憶部１０３および索引一覧記憶部１０６は、記憶装置を用いて実現することができる。

ユーザは、端末を介して、索引語入力部１０１から、索引語として登録したい単語を一定数入力する。例えば、構造文書集合がそのユーザの企業の規程文書や業務マニュアルである場合、「主管個所」「会社規程」「預託」「給与」「休暇」「機器持ち出し手続き」「精算」などといった単語が考えられる。

索引語が入力されると、単語による構造文書検索部１０２により構造文書記憶部１０３の記憶装置にアクセスし、索引語である単語が出現する構造文書を検索して特定する。

続いて、出現条件判定部１０４において、特定された構造文書の中での出現条件、例えば入力された索引語が出現している構造上の出現位置を調べる。構造上の出現位置とは、例えば構造文書がXMLである場合、XML文書の特定の部分を指定する言語構文であるXPathで表すことができる。

その他の出現条件としては、出現位置から一定文字数内もしくは一定のノード数にある単語ベクトルが同じもしくは類似していることや、その文書の種類、構造文書のスキーマと出現位置の組み合わせなどが考えられる。本実施形態では、文書構造を上下に移動する数を「ノード数」と呼ぶ。例えば、第一章第一節はノード数１、第一章第二節はノード数２、第二章第一節はノード数４である。文書の種類とは、例えば、規程なのか業務マニュアルなのかといった種類である。構造文書のスキーマとは、XMLの場合はXMLスキーマやDTDである。

出現条件グルーピング部１０５は、出現条件が近い構造文書同士をグルーピングする。例えば、単語Aが第一章第一節第一段落に出現している構造文書と、単語Bが第一章第一節第一段落に出現している構造文書は、出現位置が同一であるから、同じグループになるようにグルーピングする。

このように厳密なグルーピングが行えない場合は、出現条件を曖昧にする。例えば、「第一章第一節第一段落に出現」という出現条件を、「第一章第一節のどこかに出現」というような類似の範囲も包含するようにする。すなわち出現位置同士が同一に限らず類似の範囲も含みうるということである。含んでいる索引語の区別なく、出現位置の構造上の特徴から、その類似度または具体度に従って各構造文書をグループ分けするのである。類似度については後述する。

このようなグループ分けは、語句や事項の定義的文章など、ある程度「型」に従って説明されるものは、文書構造的に似た場所に出現する一方、本文中で少々触れるだけの言葉は、出現する場所は分散する傾向にあるという、エントロピーに注目した仮説に基づいている。

なお、曖昧にしていく方式としては、出現位置の場合、上記の単語の出現位置から近い構造的限定を外していく方式がある。

出現条件グルーピング部１０５によりグルーピングされた各構造文書は、各索引語である単語との対応付けが行われ、この対応関係を表す索引情報が、索引一覧記憶部１０６に送られて格納される。例えば、グループＡは入力された単語W1,W2,W3が第一章第一節第一段落に出現する構造文書D1,D2,D3であり、グループＢは、単語W1,W2,W3が第一章のいずれかに出現している構造文書D4,D5,D6であるとすると、「W1-グループＡ:D1」、「W1-グループＢ:D4」、「W2-グループＡ:D2」、「W2-グループＢ:D5」、「W3-グループＡ:D3」、「W3-グループＢ:D6」という対を記憶する。

索引一覧記憶部１０６に格納された索引情報は、索引一覧提示部１０７によってユーザに提示される。索引一覧提示部１０７は、例えば、索引語である単語ごとに、出現条件がより厳密な構造文書ごとに列挙する。

索引語確認部１０８は、ユーザが新たに索引語を追加する際に、その妥当性を判定し、ユーザにフィードバックする。出現条件グルーピング部１０５により、入力された索引語W4に対して、上記グループＡに属す構造文書が存在しない場合、その旨を通知する。どのグループに含まれなかった場合に、通知対象にするかどうかの基準は、システムの設定の一部であるとする。

検索語推薦部１０９は、ユーザに、未登録の索引語を提示する。例えば、グループＡの出現条件が第一章第一節第一段落である場合は、出現条件による構造文書検索部１１０により、登録されている構造文書中からその出現条件に適合する第一章第一節第一段落における文字列を取り出す。そして、未登録語判定部１１１が、その文字列の中から、まだ索引一覧記憶部１０６に登録されている索引語とは異なる語であって、かつ、特徴的な単語を判定する。

特徴的な単語の判定は、形態素解析アルゴリズムにかけて名詞を抽出し、TF-IDF という指標を用いてその文字列に特徴的な単語を判定する、などの方法がある。この手法については公知なので詳細には触れない。

また、すでに登録されている索引語とさまざまな性質を比較する判定を加えてもよい。例えば、平均文字列長が近いものに絞る、全構造文書に対する出現数が類似しているものに絞る、などである。「全構造文書に対する出現数が類似している」とは、例えば、すでに登録されている各索引語が、全体の登録文書の１％にそれぞれ出現している場合、検索語として推薦する語も１％程度の登録文書に出現しているものに絞ることである。

このように判定された単語は、すでに登録されている索引語とは異なる語であるが、似た出現条件を持つという意味で、共通に見られる傾向をもつといえるので、索引語として登録すべき単語である可能性が高いとし、ユーザに新たな索引語の候補として推薦する。

グループ名編集部１１２は、索引一覧記憶部１０６に記憶された内容を編集するためのものである。ユーザが、不要な単語−文書対を削除したり、グループ名、出現条件を編集することができる。

図２は、実施形態の構造文書記憶部１０３に記憶される構造文書の一例を示す図である。

本実施形態では、構造文書記憶部１０３に格納される構造文書としてXMLを扱う。またはHTMLやSGMLでもよい。文書２０１、２０２、２０３は同じXMLスキーマで書かれたXML文書であり、それぞれ、企業の活動やルールを定めた規程文書の一部が格納されている例である。XMLスキーマについては、DocBook: http://docbook.org/ns/docbookを参照のこと。

各文書は、article(記事)要素を先頭に持つ。article要素内部には、articleの書誌情報を記入するinfo(書誌情報)要素、本文を表す複数のsect1(節)要素がある。info要素の内部にはtitle(タイトル)要素やauthor(著者)要素があり、sect1要素の内部には、その節のtitle要素や複数のpara(段落)要素がある。その他、orderedlist(番号付き箇条書き)要素やlistitem(箇条書きの１項目)要素もある。

図３は、実施形態の構造文書２０２に対する索引語の出現条件の例を示す図である。

構造文書の例であるXML文書として先に示した文書２０２において、索引語が「会社規程」および「主管個所」である場合に、出現条件判定部１０４が各々の出現条件３０１および出現条件３０２を判定した結果を示している。この例では、出現条件として出現位置を出しており、出現位置はXPathで表される。文字列の出現位置からXPathを求める方式については公知であるため省略する。

本実施形態では、出現位置を表すXPathにおいて、例えば出現条件３０１または３０２においてルートノード側から「article」、「sect」、「orderedlist」、「listitem」、「para」といった各表記部分を、「要素名」ということにする。

また、例えば出現条件３０１の要素「sect1」に付随する[1]、出現条件３０２の要素「sect1」に付随する[1]、出現条件３０１の要素「orderedlist」に付随する[1]、出現条件３０２の要素「orderedlist」に付随する[4]といった表記部分を、「インデックス」ということにする。出現条件３０１および出現条件３０２の関係について図３を参照すると、両者は「sect1[1]」については同一の階層に属しているが、それよりの下位の階層である「orderedlist」については、出現条件３０１のインデックスが[1]であり、途中のインデックス[2]、[3]は図示を省略し、出現条件３０２のインデックスは[4]となっている。

この図３の例では、出現位置のみを出現条件としているが、他のパラメータを出現条件の一部として組み合わせることもできる。例えば、索引語の前後の文字ないし文字列、または親ノードの見出し文字列（以下「周辺文字列」という。）や、文書のスキーマなどといった周辺情報が考えられる。

索引語の前後の文字とは、この例では、索引語である会社規定ないし主管個所（文書２０２の下線部参照。）の前後の、文字“「”と、文字“」”である。親ノードの見出し文字列とは、この例では「第１条」「第４条」を指す。文書のスキーマとは、この例ではDocBookスキーマである。XMLでは、スキーマを最上段の要素のxmlns属性で表す。つまり「http://docbook.org/ns/docbook」がこの文書のスキーマ名となる。

図４は、実施形態の出現条件グルーピング部１０５の処理のフローチャートである。

入力は、索引語、出現条件、文書の３つ組からなるリストである（ステップＳ４０１）。出現条件グルーピング部１０５の処理の目的は、この入力されたリストを、出現条件が類似しているものという基準で複数のグループに分けることである。

入力されたリストの各々について、出現条件を一定レベルまで曖昧化する（ステップＳ４０２）。曖昧化の方法は出現条件の内容によって異なるが、出現条件のうち、出現位置を表すXpathに関しては、インデックスや要素名の指定を外していくことで、出現位置を曖昧にしていくことができる。外し方は様々であるが、例えば、まず、（１）ルートノード側からインデックスを段階的に除去し、次に、（２）ルートノード側から要素を段階的に除去していく方法がある（ステップＳ４０３）。

一方、前後の文字、周辺文字列、スキーマといった周辺情報の出現条件は、その指定自体を解除してなくすことで曖昧化できる（ステップＳ４０４）。この曖昧化の効果的なアルゴリズムは構造文書のスキーマによって異なることが予想されるが、このような単純な方法でも実施可能である。なお、ステップＳ４０３の処理とステップＳ４０４の処理の順序は問わず、並行的に行ってもよい。

この曖昧化処理の回数を、曖昧化回数として記憶する（ステップＳ４０５）。この曖昧化回数は、スコアであり、出現条件の具体度であるということができる。また、複数の索引語の出現条件同士を比較したときに、曖昧処理回数は索引語の類似性をあらわす類似度であるといえる。

次に、出現条件が一致しているものを、曖昧化回数が低いものからグルーピングしていく。つまりリストの全てを対象に、曖昧化回数が等しいかそれ以下のもので、すべての索引語をグルーピングできる組み合わせを繰り返し探す（ステップＳ４０６）。すなわち、出現条件同士が同一である場合に限らず、類似の範囲も包含しうるということができる。

ただし、１つの項目は１つのグループのみに属するものとし、つまり先着順とし、あるグループに入った要素と同じ索引語と文書の対を持つ要素は取り除かれるものとする。

以上の処理の結果、出現条件グルーピング部１０５の出力として最終的に得られるのは、索引語、出現条件、最大曖昧化回数、文書のリストの４つ組からなるリストである（ステップＳ４０７）。

図５は、実施形態の出現条件の曖昧化の例を示す図である。

「主管個所」という索引語５００について、先に図３で示した「会社規程管理規程」という文書２０２に関する出現条件３０２に対して、この図５で示した出現状態の初期状態５０１は、索引語の周辺情報として前後の文字“「”と“」”を加えたものとしている。この出現条件５０１を曖昧化していった場合を考え、以下に説明する。

出現条件５０２は、索引語の出現条件の初期状態５０１そのものであり、この時点での曖昧化回数は０である。

この出現条件５０２に対して、XPathの一部であるsect1[1]から、[1]というインデックスを外したものが、出現条件５０３である（「sect1」の下線部を参照）。このとき、曖昧化回数は１増加して「１」となる。このインデックスを外した結果、どのようなインデックスを持つsect1要素に索引語「主管個所」が出現しても、同じものとして扱われることを意味する。

図５の例では、まずインデックスを段階的に外し、すべてのインデックスを外した直後に周辺情報を外し、次に要素指定を外していくという流れを示している。

具体的には、出現条件５０３の「orderedlist[4]」からインデックス[4]を外したものが出現条件５０４であり（「orderedlist」の下線部を参照）、曖昧化回数は１増加して「２」となる。出現条件５０４の「listitem[2]」からインデックス[2]を外したものが出現条件５０５であり（「listitem」の下線部を参照）、曖昧化回数は１増加して「３」となる。出現条件５０５の「para[1]」からインデックス[1]を外したものが出現条件５０６であり（「para」の下線部を参照）、曖昧化回数は１増加して「４」となる。

ここで、すべてのインデックスが外れたので、出現条件５０６から周辺情報である“「”と“」”を外したものが出現条件５０７となり（「周辺情報」の下線部を参照）、曖昧化回数は１増加して「５」となる。

次に、出現条件５０７から要素指定である「article」を外し、かつ、周辺情報として“「”と“」”を付加したものが出現条件５０８であり（「//sect1」の下線部を参照）、曖昧化回数は１増加と１減少により変化はなく「５」となる。次に、出現条件５０８から周辺情報である“「”と“」”を外したものが出現条件５０９となり（「周辺情報」の下線部を参照）、曖昧化回数は１増加して「６」となる。次に、出現条件５０９から要素指定である「sect1」を外し、かつ、周辺情報として“「”と“」”を付加したものが出現条件５１０であり（「//orderedlist」の下線部を参照）、曖昧化回数は１増加と１減少により変化はなく「６」となる。これ以降の曖昧化については図示を省略する。

図６は、実施形態の出現条件の曖昧化回数によるグルーピングの例を示す図である。

ここでは、図５のように展開した出現条件を持つ索引語−文書の対同士を比較し、同一のグループを探す例を示している。

索引語「主管個所」５００が出現する文書２０２の出現条件５０１と、索引語「預託」６００が出現する文書２０３の出現条件５１１は、それぞれ曖昧化をしていった結果、曖昧化回数３の条件において初めて一致する。つまり出現条件５０５と出現条件５１５とが一致する。索引語がこの「主管個所」５００及び「預託」６００の２つのみである場合、文書２０２と文書２０３が、各索引語の各々の索引先文書となる。

図７は、実施形態の索引一覧記憶部１０６における記憶内容の例を示す図である。

索引一覧記憶部１０６は出現条件グルーピング部１０５から出力された索引情報を記憶している。索引一覧記憶部１０６に記憶されている索引情報は、索引語７０１、曖昧化回数７０２、出現条件７０３、および文書名７０５から構成されている。グループ名７０４は、グルーピングされた出現条件群に対して名前を付けることで、索引一覧提示画面において各出現条件のかわりに表示することができる。このグループ名７０４は、ユーザが、グループ名編集部１１２を用いて付けることができる。

図７において、索引一覧記憶部１０６には、グループ名「定義」と名付けられたグループ（データ行５０５、５１５を参照。）と、グループ名「参考文書」と名付けられたグループ（データ行７１１、７１２を参照。）に関する索引情報が記憶されている。「定義」のグループは、最も曖昧化回数が少ないグループであり、「参考文書」のグループは、それ以外のものから構成されている。

図８は、実施形態の索引一覧提示部１０７による索引の提示画面の例を示す図である。

「登録文書の索引」という表題の画面８００では、索引語の読みを、索引一覧提示部１０７が判定し、五十音毎に分類して表示している。［あ］…［か］…［さ］…［し］…［よ］等とあるのが、索引語の読みの見出し８０１である。漢字の読みを取得する方法は様々な方法があり、公知であるため省略する。

索引語は、「主管個所」５００、「預託」６００の二つが表示されている。この各索引語の下には、曖昧化回数の少ないグループごとに、そのグループに属する文書名をインデントして表示している。例えば、最も小さい曖昧化回数３を持つ文書を最初に表示し（「会社規程管理規程」２０２、「個人情報協力会社取扱および預託管理規程」２０３を参照。）、次にそれ以上の曖昧化回数を持つ文書をもう一段深いインデントで表示する（「規程編集マニュアル」「規定変更依頼ガイドライン」「（他４件）」７１１、「社外発注規程」７１２を参照。）。ユーザが文書名を選択すると、その文書の表示画面に遷移する。

図９は、実施形態の索引語確認部１０８による提示画面の例を示す図である。

「索引語の追加」という表題の画面９００では、画面領域９０１において、ユーザが、「索引語を追加します：」とある索引語追加フォーム９０２に新たな索引語「社員情報」を入力し、「追加」ボタン９０３を押す。すると、索引語確認部１０８は、索引語「社員情報」が出現する構造文書における出現条件について、すでに索引一覧記憶部１０６に記憶されている各出現条件を、出現条件グルーピング部１０５を介して参照する。

その結果、索引語「社員情報」の出現条件が、すでに登録されている索引語群の出現条件に含まれないと判定された場合、索引語確認部１０８は、索引語として適切ではない可能性があるとしてユーザに対して警告を出し（画面領域９０４の「指定された「社員情報」は他の索引語とは異なる傾向があります。本当に登録しますか？」という表示を参照。）、その確認のための次の操作をユーザに促す（「追加」ボタン９０５、「取り消し」ボタン９０６、「登録文書を確認」ボタン９０７参照。）。

図１０は、実施形態の索引語推薦部１０９による提示画面の例を示す図である。

「索引語候補」１０００画面の例では、曖昧化回数の最も少ないグループの出現条件を用いて、出現条件による構造文書検索部１１０が構造文書記憶部１０３に記憶されている全ての登録文書を検索し、その結果を受けて、索引語推薦部１０９がまだ登録されていない未登録の索引語を表示している。

画面領域１００１に示された「成果物」「関連会社」「輸出管理推進責任者」「業務担当」「教育担当」「審査担当」といった単語が、いずれかの構造文書の/article/sect1/orderedlist/listitem/para[1]という位置に出現し、周辺に“「”と“」”という文字が存在しているということを意味している。

ユーザは、その中で索引語としたいものがあれば候補横のチェックボックス１００２にチェックを入れる。必要に応じて「文書参照」リンク１００３を押すことにより、その索引語の出現位置における文書の内容を確認することができる。そして、「索引語に追加」ボタン９０４を押すことにより、その索引語が追加される。

さらに、文書集合が更新されたときは、索引先文書の再チェックを行うとともに、まだ索引語として登録されていない語を、索引語候補としてユーザに提示することもできる。

以上説明したように、本実施形態によれば、低コストで索引一覧が作成・保守されることで、文書閲覧者の閲覧効率が上がると共に、文書編集者の保守コストが下がる。双方の業務効率が向上し、より価値の高い作業、例えば文書内容の理解や編集に集中できるようになる。

第一に、索引語を指定するだけで、それらの語が含まれる文書の中から最も適切な文書を判定し、索引語と文書が対となった索引一覧を自動生成できる。結果として、索引一覧が手軽に作られ、文書閲覧者は情報収集効率が上がり、文書編集者は文書の保守コストが下がるため、総じて業務効率が向上する。

第二に、不適切な索引語の登録をチェックすることで、不適切な語が索引として登録されにくくなる。文書編集者の文書保守コストが下がり、業務効率が向上する。

第三に、一部の索引語を入力するだけで、それ以外の索引語も明らかになる仕組みが提供される。この仕組みにより、文書編集者は索引語のメンテナンスコストを大幅に下げることができる。閲覧者も、より充実した索引一覧が使用できることになり、組織全体の業務効率が向上する。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

構造文書管理システム・・・１００
索引語入力部・・・１０１
単語による構造文書検索部・・・１０２
構造文書記憶部・・・１０３
出現条件判定部・・・１０４
出現条件グルーピング部・・・１０５
索引一覧記憶部・・・１０６
索引一覧提示部・・・１０７
索引語確認部・・・１０８
索引語推薦部・・・１０９
出現条件による構造文書検索部・・・１１０
未登録語判定部・・・１１１
グループ名編集部・・・１１２

Claims

索引語を入力する入力手段と、
構造文書を記憶している記憶装置から前記索引語が出現する構造文書を検索する検索手段と、
前記検索された構造文書において前記索引語が出現する構造上の部分を少なくとも特定する出現条件を判定する判定手段と、
前記出現条件の類似度に基づいて各構造文書をグルーピングするグルーピング手段と、
グルーピングされた各構造文書と各索引語との対応関係を索引情報として記憶する索引記憶手段とを有し、
前記出現条件は前記索引語の周辺の文字列の有無についても含む構造文書管理システム。
ユーザが索引語を追加する際に、その語が出現する構造文書における出現条件が、すでに前記索引記憶手段に記憶されている各索引語についての出現条件に包含されない場合、警告を出して確認を促す索引語確認手段をさらに有する請求項１記載の構造文書管理システム。
前記出現条件に適合する部分を有する構造文書を記憶装置から検索する第二の検索手段と、
この検索された構造文書における前記出現条件に適合する部分から、すでに前記索引記憶手段に記憶されている索引語とは異なる語を抽出し、この抽出された語を新たな索引語の候補としてユーザに提示する索引語推薦手段をさらに有する請求項１ないし請求項２記載の構造文書管理システム。
入力手段、検索手段、判定手段、グルーピング手段及び索引記憶手段を有するコンピュータに実行させる構造文書管理方法であって、
前記入力手段により、指定された索引語を入力する入力ステップと、
前記検索手段により、前記指定された索引語が含まれる構造文書を記憶装置から検索する検索ステップと、
前記判定手段により、前記検索された構造文書において前記索引語が出現している構造上の部分を特定する出現条件を判定する判定ステップと、
前記グルーピング手段により、前記出現条件の類似度に基づいて各構造文書をグルーピングするグルーピングステップと、
前記索引記憶手段により、グルーピングされた各構造文書と各索引語との対応関係を索引情報として記憶する索引記憶ステップとを有し、
前記出現条件は前記索引語の周辺の文字列の有無についても含む構造文書管理方法。
請求項１ないし請求項３記載の構造文書管理システムを構成するコンピュータに前記各手段を機能させるためのプログラム。