JP5971571B2 - 構造文書管理システム、構造文書管理方法及びプログラム - Google Patents

構造文書管理システム、構造文書管理方法及びプログラム Download PDF

Info

Publication number
JP5971571B2
JP5971571B2 JP2014516505A JP2014516505A JP5971571B2 JP 5971571 B2 JP5971571 B2 JP 5971571B2 JP 2014516505 A JP2014516505 A JP 2014516505A JP 2014516505 A JP2014516505 A JP 2014516505A JP 5971571 B2 JP5971571 B2 JP 5971571B2
Authority
JP
Japan
Prior art keywords
index
document
word
index word
appearance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014516505A
Other languages
English (en)
Other versions
JPWO2013175524A1 (ja
Inventor
坪井 創吾
創吾 坪井
佐々木 淳哉
淳哉 佐々木
陽二 加藤
陽二 加藤
裕子 高森
裕子 高森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Publication of JPWO2013175524A1 publication Critical patent/JPWO2013175524A1/ja
Application granted granted Critical
Publication of JP5971571B2 publication Critical patent/JP5971571B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明の実施形態は、構造文書管理における索引の作成支援技術に関する。
コンテンツ管理システム(以下「CMS」という。)の普及が著しい。規程、業務マニュアルといったビジネス文書のCMS、ブログ等の個人用コンテンツのCMS、Wikipediaをはじめとする複数人が同一の目的のためにコンテンツを共同編集するパブリックなCMSなど、特にインターネットの世界ではCMSばかりといった状況である。CMSを用いた情報共有システムも普及している。
CMSの文書管理の技術において、登録される文書は、多くの場合、XMLやHTMLといった構造を持った文書(以下「構造文書」という。)である。
大量の文書から目的の文書を探す際、索引ページがあると効率的である。索引ページとは、語句や事項などを容易に探し出せるように、その語句や事項を文書から抽出して一定の順序に配列し、その語句や事項が出現する文書の所在や閲覧方法をまとめたものである。キーワード検索による探し方もあるが、そもそもキーワードを思いつかないと使用することができない。また、索引ページは、前後に並んだ用語から、未知の知識に触れられる楽しみがある。
一方で、索引ページを作成し、メンテナンスをすることは容易ではない。
(1) 索引に載せるべき語かどうか、妥当性の判断が難しい。例えば、出現頻度を元に妥当性の判定を行うことは、有効ではない。定義にあたるような文書では、索引語の出現頻度は、むしろ少ない。
(2) 索引語を含む文書の中から、どの文書を最も索引として載せるのにふさわしいのか、索引に載せない文書の扱いをどうするかを判断することが難しい。
(3) また、一度作った索引のメンテナンスも手間がかかる作業である。いずれかの文書が更新されれば、索引ページの更新も逐一必要になる。ビジネスにしろプライベートにしろ、文書の更新を行うインセンティブと、索引ページの更新を行うインセンティブは異なる。さらにビジネスの場合、お互いの文書の管理部署が違うこともあり、総じてメンテナンスコストがかかる。
従来、構造文書の階層構造や属性を用いた検索式と、その検索結果を一覧化することで、索引ページの代わりにするような技術が知られている。しかしながら、検索式を列挙していく作業は難しく、専門的な知識も必要である。前述の課題の(1)〜(3)を解決することが求められる。
特開2006−185408号公報
本発明が解決しようとする課題は、ユーザが一部の索引語を選択するだけで、索引ページの作成およびメンテナンスが可能になるような構造文書管理技術を提供することである。
実施形態の構造文書管理システムは、索引語を入力する入力手段を有する。構造文書を記憶している記憶装置から索引語が出現する構造文書を検索する。検索された構造文書において索引語が出現する構造上の部分を少なくとも特定する出現条件を判定する。出現条件の類似度に基づいて各構造文書をグルーピングする。グルーピングされた各構造文書と各索引語との対応関係を索引情報として記憶する。前記出現条件は前記索引語の周辺の文字列の有無についても含む。
実施形態の構造文書管理システム100の構成図 実施形態の構造文書記憶部103に記憶される構造文書の一例を示す図 実施形態の構造文書202に対する索引語の出現条件の例を示す図 実施形態の出現条件グルーピング部105の処理のフローチャート 実施形態の出現条件の曖昧化の例を示す図 実施形態の出現条件の曖昧化回数によるグルーピングの例を示す図 実施形態の索引一覧記憶部106における記憶内容の例を示す図 実施形態の索引一覧提示部107による索引の提示画面の例を示す図 実施形態の索引語確認部108による提示画面の例を示す図 実施形態の索引語推薦部109による提示画面の例を示す図
以下、発明を実施するための実施形態について説明する。本実施形態における解決方法の概略は下記(1)〜(3)の通りである。
(1) いくつかの索引語を指定することで、他の索引語を取得する。具体的には、指定した一定数の索引語に共通する、出現位置の構造上の特徴(例えば、ほとんどの索引語の出現位置を表現したXPath)を持つ他の単語を探す。
(2) 各索引語が出現する文書間で、出現位置の構造上の特徴ごとにグループ分けし、最も特徴が具体的なものを、索引語に対応する文書のグループとする。例えば、索引語の出現位置をXPathで表現するとして、XPathが該当するノード数が最も少ない特徴を具体的な特徴とする。より狭い範囲を表現できているということができる。
(3) ユーザによって新たに索引語が指定された際に、他の索引語と出現位置の構造上の特徴が異なる場合は、その語が索引語としてふさわしくない可能性があるとして、警告を出す。
図1は、実施形態の構造文書管理システム100の構成図である。
構造文書管理システム100は、コンピュータを用いて構成され、ユーザに対して索引一覧編集支援の機能を提供する。構造文書管理システム100における索引語入力部101ないしグループ名編集部112の各部は、コンピュータがプログラムを実行することで機能するブロックを示している。索引語入力部101、索引一覧提示部107、索引語確認部108、索引語推薦部109、およびグループ名編集部112は、端末を介して、ユーザにインタフェースを提供する。また、構造文書記憶部103および索引一覧記憶部106は、記憶装置を用いて実現することができる。
ユーザは、端末を介して、索引語入力部101から、索引語として登録したい単語を一定数入力する。例えば、構造文書集合がそのユーザの企業の規程文書や業務マニュアルである場合、「主管個所」「会社規程」「預託」「給与」「休暇」「機器持ち出し手続き」「精算」などといった単語が考えられる。
索引語が入力されると、単語による構造文書検索部102により構造文書記憶部103の記憶装置にアクセスし、索引語である単語が出現する構造文書を検索して特定する。
続いて、出現条件判定部104において、特定された構造文書の中での出現条件、例えば入力された索引語が出現している構造上の出現位置を調べる。構造上の出現位置とは、例えば構造文書がXMLである場合、XML文書の特定の部分を指定する言語構文であるXPathで表すことができる。
その他の出現条件としては、出現位置から一定文字数内もしくは一定のノード数にある単語ベクトルが同じもしくは類似していることや、その文書の種類、構造文書のスキーマと出現位置の組み合わせなどが考えられる。本実施形態では、文書構造を上下に移動する数を「ノード数」と呼ぶ。例えば、第一章第一節はノード数1、第一章第二節はノード数2、第二章第一節はノード数4である。文書の種類とは、例えば、規程なのか業務マニュアルなのかといった種類である。構造文書のスキーマとは、XMLの場合はXMLスキーマやDTDである。
出現条件グルーピング部105は、出現条件が近い構造文書同士をグルーピングする。例えば、単語Aが第一章第一節第一段落に出現している構造文書と、単語Bが第一章第一節第一段落に出現している構造文書は、出現位置が同一であるから、同じグループになるようにグルーピングする。
このように厳密なグルーピングが行えない場合は、出現条件を曖昧にする。例えば、「第一章第一節第一段落に出現」という出現条件を、「第一章第一節のどこかに出現」というような類似の範囲も包含するようにする。すなわち出現位置同士が同一に限らず類似の範囲も含みうるということである。含んでいる索引語の区別なく、出現位置の構造上の特徴から、その類似度または具体度に従って各構造文書をグループ分けするのである。類似度については後述する。
このようなグループ分けは、語句や事項の定義的文章など、ある程度「型」に従って説明されるものは、文書構造的に似た場所に出現する一方、本文中で少々触れるだけの言葉は、出現する場所は分散する傾向にあるという、エントロピーに注目した仮説に基づいている。
なお、曖昧にしていく方式としては、出現位置の場合、上記の単語の出現位置から近い構造的限定を外していく方式がある。
出現条件グルーピング部105によりグルーピングされた各構造文書は、各索引語である単語との対応付けが行われ、この対応関係を表す索引情報が、索引一覧記憶部106に送られて格納される。例えば、グループAは入力された単語W1,W2,W3が第一章第一節第一段落に出現する構造文書D1,D2,D3であり、グループBは、単語W1,W2,W3が第一章のいずれかに出現している構造文書D4,D5,D6であるとすると、「W1-グループA:D1」、「W1-グループB:D4」、「W2-グループA:D2」、「W2-グループB:D5」、「W3-グループA:D3」、「W3-グループB:D6」という対を記憶する。
索引一覧記憶部106に格納された索引情報は、索引一覧提示部107によってユーザに提示される。索引一覧提示部107は、例えば、索引語である単語ごとに、出現条件がより厳密な構造文書ごとに列挙する。
索引語確認部108は、ユーザが新たに索引語を追加する際に、その妥当性を判定し、ユーザにフィードバックする。出現条件グルーピング部105により、入力された索引語W4に対して、上記グループAに属す構造文書が存在しない場合、その旨を通知する。どのグループに含まれなかった場合に、通知対象にするかどうかの基準は、システムの設定の一部であるとする。
検索語推薦部109は、ユーザに、未登録の索引語を提示する。例えば、グループAの出現条件が第一章第一節第一段落である場合は、出現条件による構造文書検索部110により、登録されている構造文書中からその出現条件に適合する第一章第一節第一段落における文字列を取り出す。そして、未登録語判定部111が、その文字列の中から、まだ索引一覧記憶部106に登録されている索引語とは異なる語であって、かつ、特徴的な単語を判定する。
特徴的な単語の判定は、形態素解析アルゴリズムにかけて名詞を抽出し、TF-IDF という指標を用いてその文字列に特徴的な単語を判定する、などの方法がある。この手法については公知なので詳細には触れない。
また、すでに登録されている索引語とさまざまな性質を比較する判定を加えてもよい。例えば、平均文字列長が近いものに絞る、全構造文書に対する出現数が類似しているものに絞る、などである。「全構造文書に対する出現数が類似している」とは、例えば、すでに登録されている各索引語が、全体の登録文書の1%にそれぞれ出現している場合、検索語として推薦する語も1%程度の登録文書に出現しているものに絞ることである。
このように判定された単語は、すでに登録されている索引語とは異なる語であるが、似た出現条件を持つという意味で、共通に見られる傾向をもつといえるので、索引語として登録すべき単語である可能性が高いとし、ユーザに新たな索引語の候補として推薦する。
グループ名編集部112は、索引一覧記憶部106に記憶された内容を編集するためのものである。ユーザが、不要な単語−文書対を削除したり、グループ名、出現条件を編集することができる。
図2は、実施形態の構造文書記憶部103に記憶される構造文書の一例を示す図である。
本実施形態では、構造文書記憶部103に格納される構造文書としてXMLを扱う。またはHTMLやSGMLでもよい。文書201、202、203は同じXMLスキーマで書かれたXML文書であり、それぞれ、企業の活動やルールを定めた規程文書の一部が格納されている例である。XMLスキーマについては、DocBook: http://docbook.org/ns/docbookを参照のこと。
各文書は、article(記事)要素を先頭に持つ。article要素内部には、articleの書誌情報を記入するinfo(書誌情報)要素、本文を表す複数のsect1(節)要素がある。info要素の内部にはtitle(タイトル)要素やauthor(著者)要素があり、sect1要素の内部には、その節のtitle要素や複数のpara(段落)要素がある。その他、orderedlist(番号付き箇条書き)要素やlistitem(箇条書きの1項目)要素もある。
図3は、実施形態の構造文書202に対する索引語の出現条件の例を示す図である。
構造文書の例であるXML文書として先に示した文書202において、索引語が「会社規程」および「主管個所」である場合に、出現条件判定部104が各々の出現条件301および出現条件302を判定した結果を示している。この例では、出現条件として出現位置を出しており、出現位置はXPathで表される。文字列の出現位置からXPathを求める方式については公知であるため省略する。
本実施形態では、出現位置を表すXPathにおいて、例えば出現条件301または302においてルートノード側から「article」、「sect」、「orderedlist」、「listitem」、「para」といった各表記部分を、「要素名」ということにする。
また、例えば出現条件301の要素「sect1」に付随する[1]、出現条件302の要素「sect1」に付随する[1]、出現条件301の要素「orderedlist」に付随する[1]、出現条件302の要素「orderedlist」に付随する[4]といった表記部分を、「インデックス」ということにする。出現条件301および出現条件302の関係について図3を参照すると、両者は「sect1[1]」については同一の階層に属しているが、それよりの下位の階層である「orderedlist」については、出現条件301のインデックスが[1]であり、途中のインデックス[2]、[3]は図示を省略し、出現条件302のインデックスは[4]となっている。
この図3の例では、出現位置のみを出現条件としているが、他のパラメータを出現条件の一部として組み合わせることもできる。例えば、索引語の前後の文字ないし文字列、または親ノードの見出し文字列(以下「周辺文字列」という。)や、文書のスキーマなどといった周辺情報が考えられる。
索引語の前後の文字とは、この例では、索引語である会社規定ないし主管個所(文書202の下線部参照。)の前後の、文字“「”と、文字“」”である。親ノードの見出し文字列とは、この例では「第1条」「第4条」を指す。文書のスキーマとは、この例ではDocBookスキーマである。XMLでは、スキーマを最上段の要素のxmlns属性で表す。つまり「http://docbook.org/ns/docbook」がこの文書のスキーマ名となる。
図4は、実施形態の出現条件グルーピング部105の処理のフローチャートである。
入力は、索引語、出現条件、文書の3つ組からなるリストである(ステップS401)。出現条件グルーピング部105の処理の目的は、この入力されたリストを、出現条件が類似しているものという基準で複数のグループに分けることである。
入力されたリストの各々について、出現条件を一定レベルまで曖昧化する(ステップS402)。曖昧化の方法は出現条件の内容によって異なるが、出現条件のうち、出現位置を表すXpathに関しては、インデックスや要素名の指定を外していくことで、出現位置を曖昧にしていくことができる。外し方は様々であるが、例えば、まず、(1)ルートノード側からインデックスを段階的に除去し、次に、(2)ルートノード側から要素を段階的に除去していく方法がある(ステップS403)。
一方、前後の文字、周辺文字列、スキーマといった周辺情報の出現条件は、その指定自体を解除してなくすことで曖昧化できる(ステップS404)。この曖昧化の効果的なアルゴリズムは構造文書のスキーマによって異なることが予想されるが、このような単純な方法でも実施可能である。なお、ステップS403の処理とステップS404の処理の順序は問わず、並行的に行ってもよい。
この曖昧化処理の回数を、曖昧化回数として記憶する(ステップS405)。この曖昧化回数は、スコアであり、出現条件の具体度であるということができる。また、複数の索引語の出現条件同士を比較したときに、曖昧処理回数は索引語の類似性をあらわす類似度であるといえる。
次に、出現条件が一致しているものを、曖昧化回数が低いものからグルーピングしていく。つまりリストの全てを対象に、曖昧化回数が等しいかそれ以下のもので、すべての索引語をグルーピングできる組み合わせを繰り返し探す(ステップS406)。すなわち、出現条件同士が同一である場合に限らず、類似の範囲も包含しうるということができる。
ただし、1つの項目は1つのグループのみに属するものとし、つまり先着順とし、あるグループに入った要素と同じ索引語と文書の対を持つ要素は取り除かれるものとする。
以上の処理の結果、出現条件グルーピング部105の出力として最終的に得られるのは、索引語、出現条件、最大曖昧化回数、文書のリストの4つ組からなるリストである(ステップS407)。
図5は、実施形態の出現条件の曖昧化の例を示す図である。
「主管個所」という索引語500について、先に図3で示した「会社規程管理規程」という文書202に関する出現条件302に対して、この図5で示した出現状態の初期状態501は、索引語の周辺情報として前後の文字“「”と“」”を加えたものとしている。この出現条件501を曖昧化していった場合を考え、以下に説明する。
出現条件502は、索引語の出現条件の初期状態501そのものであり、この時点での曖昧化回数は0である。
この出現条件502に対して、XPathの一部であるsect1[1]から、[1]というインデックスを外したものが、出現条件503である(「sect1」の下線部を参照)。このとき、曖昧化回数は1増加して「1」となる。このインデックスを外した結果、どのようなインデックスを持つsect1要素に索引語「主管個所」が出現しても、同じものとして扱われることを意味する。
図5の例では、まずインデックスを段階的に外し、すべてのインデックスを外した直後に周辺情報を外し、次に要素指定を外していくという流れを示している。
具体的には、出現条件503の「orderedlist[4]」からインデックス[4]を外したものが出現条件504であり(「orderedlist」の下線部を参照)、曖昧化回数は1増加して「2」となる。出現条件504の「listitem[2]」からインデックス[2]を外したものが出現条件505であり(「listitem」の下線部を参照)、曖昧化回数は1増加して「3」となる。出現条件505の「para[1]」からインデックス[1]を外したものが出現条件506であり(「para」の下線部を参照)、曖昧化回数は1増加して「4」となる。
ここで、すべてのインデックスが外れたので、出現条件506から周辺情報である“「”と“」”を外したものが出現条件507となり(「周辺情報」の下線部を参照)、曖昧化回数は1増加して「5」となる。
次に、出現条件507から要素指定である「article」を外し、かつ、周辺情報として“「”と“」”を付加したものが出現条件508であり(「//sect1」の下線部を参照)、曖昧化回数は1増加と1減少により変化はなく「5」となる。次に、出現条件508から周辺情報である“「”と“」”を外したものが出現条件509となり(「周辺情報」の下線部を参照)、曖昧化回数は1増加して「6」となる。次に、出現条件509から要素指定である「sect1」を外し、かつ、周辺情報として“「”と“」”を付加したものが出現条件510であり(「//orderedlist」の下線部を参照)、曖昧化回数は1増加と1減少により変化はなく「6」となる。これ以降の曖昧化については図示を省略する。
図6は、実施形態の出現条件の曖昧化回数によるグルーピングの例を示す図である。
ここでは、図5のように展開した出現条件を持つ索引語−文書の対同士を比較し、同一のグループを探す例を示している。
索引語「主管個所」500が出現する文書202の出現条件501と、索引語「預託」600が出現する文書203の出現条件511は、それぞれ曖昧化をしていった結果、曖昧化回数3の条件において初めて一致する。つまり出現条件505と出現条件515とが一致する。索引語がこの「主管個所」500及び「預託」600の2つのみである場合、文書202と文書203が、各索引語の各々の索引先文書となる。
図7は、実施形態の索引一覧記憶部106における記憶内容の例を示す図である。
索引一覧記憶部106は出現条件グルーピング部105から出力された索引情報を記憶している。索引一覧記憶部106に記憶されている索引情報は、索引語701、曖昧化回数702、出現条件703、および文書名705から構成されている。グループ名704は、グルーピングされた出現条件群に対して名前を付けることで、索引一覧提示画面において各出現条件のかわりに表示することができる。このグループ名704は、ユーザが、グループ名編集部112を用いて付けることができる。
図7において、索引一覧記憶部106には、グループ名「定義」と名付けられたグループ(データ行505、515を参照。)と、グループ名「参考文書」と名付けられたグループ(データ行711、712を参照。)に関する索引情報が記憶されている。「定義」のグループは、最も曖昧化回数が少ないグループであり、「参考文書」のグループは、それ以外のものから構成されている。
図8は、実施形態の索引一覧提示部107による索引の提示画面の例を示す図である。
「登録文書の索引」という表題の画面800では、索引語の読みを、索引一覧提示部107が判定し、五十音毎に分類して表示している。[あ]…[か]…[さ]…[し]…[よ]等とあるのが、索引語の読みの見出し801である。漢字の読みを取得する方法は様々な方法があり、公知であるため省略する。
索引語は、「主管個所」500、「預託」600の二つが表示されている。この各索引語の下には、曖昧化回数の少ないグループごとに、そのグループに属する文書名をインデントして表示している。例えば、最も小さい曖昧化回数3を持つ文書を最初に表示し(「会社規程管理規程」202、「個人情報協力会社取扱および預託管理規程」203を参照。)、次にそれ以上の曖昧化回数を持つ文書をもう一段深いインデントで表示する(「規程編集マニュアル」「規定変更依頼ガイドライン」「(他4件)」711、「社外発注規程」712を参照。)。ユーザが文書名を選択すると、その文書の表示画面に遷移する。
図9は、実施形態の索引語確認部108による提示画面の例を示す図である。
「索引語の追加」という表題の画面900では、画面領域901において、ユーザが、「索引語を追加します:」とある索引語追加フォーム902に新たな索引語「社員情報」を入力し、「追加」ボタン903を押す。すると、索引語確認部108は、索引語「社員情報」が出現する構造文書における出現条件について、すでに索引一覧記憶部106に記憶されている各出現条件を、出現条件グルーピング部105を介して参照する。
その結果、索引語「社員情報」の出現条件が、すでに登録されている索引語群の出現条件に含まれないと判定された場合、索引語確認部108は、索引語として適切ではない可能性があるとしてユーザに対して警告を出し(画面領域904の「指定された「社員情報」は他の索引語とは異なる傾向があります。本当に登録しますか?」という表示を参照。)、その確認のための次の操作をユーザに促す(「追加」ボタン905、「取り消し」ボタン906、「登録文書を確認」ボタン907参照。)。
図10は、実施形態の索引語推薦部109による提示画面の例を示す図である。
「索引語候補」1000画面の例では、曖昧化回数の最も少ないグループの出現条件を用いて、出現条件による構造文書検索部110が構造文書記憶部103に記憶されている全ての登録文書を検索し、その結果を受けて、索引語推薦部109がまだ登録されていない未登録の索引語を表示している。
画面領域1001に示された「成果物」「関連会社」「輸出管理推進責任者」「業務担当」「教育担当」「審査担当」といった単語が、いずれかの構造文書の/article/sect1/orderedlist/listitem/para[1]という位置に出現し、周辺に“「”と“」”という文字が存在しているということを意味している。
ユーザは、その中で索引語としたいものがあれば候補横のチェックボックス1002にチェックを入れる。必要に応じて「文書参照」リンク1003を押すことにより、その索引語の出現位置における文書の内容を確認することができる。そして、「索引語に追加」ボタン904を押すことにより、その索引語が追加される。
さらに、文書集合が更新されたときは、索引先文書の再チェックを行うとともに、まだ索引語として登録されていない語を、索引語候補としてユーザに提示することもできる。
以上説明したように、本実施形態によれば、低コストで索引一覧が作成・保守されることで、文書閲覧者の閲覧効率が上がると共に、文書編集者の保守コストが下がる。双方の業務効率が向上し、より価値の高い作業、例えば文書内容の理解や編集に集中できるようになる。
第一に、索引語を指定するだけで、それらの語が含まれる文書の中から最も適切な文書を判定し、索引語と文書が対となった索引一覧を自動生成できる。結果として、索引一覧が手軽に作られ、文書閲覧者は情報収集効率が上がり、文書編集者は文書の保守コストが下がるため、総じて業務効率が向上する。
第二に、不適切な索引語の登録をチェックすることで、不適切な語が索引として登録されにくくなる。文書編集者の文書保守コストが下がり、業務効率が向上する。
第三に、一部の索引語を入力するだけで、それ以外の索引語も明らかになる仕組みが提供される。この仕組みにより、文書編集者は索引語のメンテナンスコストを大幅に下げることができる。閲覧者も、より充実した索引一覧が使用できることになり、組織全体の業務効率が向上する。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
構造文書管理システム・・・100
索引語入力部・・・101
単語による構造文書検索部・・・102
構造文書記憶部・・・103
出現条件判定部・・・104
出現条件グルーピング部・・・105
索引一覧記憶部・・・106
索引一覧提示部・・・107
索引語確認部・・・108
索引語推薦部・・・109
出現条件による構造文書検索部・・・110
未登録語判定部・・・111
グループ名編集部・・・112

Claims (5)

  1. 索引語を入力する入力手段と、
    構造文書を記憶している記憶装置から前記索引語が出現する構造文書を検索する検索手段と、
    前記検索された構造文書において前記索引語が出現する構造上の部分を少なくとも特定する出現条件を判定する判定手段と、
    前記出現条件の類似度に基づいて各構造文書をグルーピングするグルーピング手段と、
    グルーピングされた各構造文書と各索引語との対応関係を索引情報として記憶する索引記憶手段とを有し、
    前記出現条件は前記索引語の周辺の文字列の有無についても含む構造文書管理システム。
  2. ユーザが索引語を追加する際に、その語が出現する構造文書における出現条件が、すでに前記索引記憶手段に記憶されている各索引語についての出現条件に包含されない場合、警告を出して確認を促す索引語確認手段をさらに有する請求項1記載の構造文書管理システム。
  3. 前記出現条件に適合する部分を有する構造文書を記憶装置から検索する第二の検索手段と、
    この検索された構造文書における前記出現条件に適合する部分から、すでに前記索引記憶手段に記憶されている索引語とは異なる語を抽出し、この抽出された語を新たな索引語の候補としてユーザに提示する索引語推薦手段をさらに有する請求項1ないし請求項記載の構造文書管理システム。
  4. 入力手段、検索手段、判定手段、グルーピング手段及び索引記憶手段を有するコンピュータに実行させる構造文書管理方法であって、
    前記入力手段により、指定された索引語を入力する入力ステップと、
    前記検索手段により、前記指定された索引語が含まれる構造文書を記憶装置から検索する検索ステップと、
    前記判定手段により、前記検索された構造文書において前記索引語が出現している構造上の部分を特定する出現条件を判定する判定ステップと、
    前記グルーピング手段により、前記出現条件の類似度に基づいて各構造文書をグルーピングするグルーピングステップと、
    前記索引記憶手段により、グルーピングされた各構造文書と各索引語との対応関係を索引情報として記憶する索引記憶ステップとを有し、
    前記出現条件は前記索引語の周辺の文字列の有無についても含む構造文書管理方法。
  5. 請求項1ないし請求項記載の構造文書管理システムを構成するコンピュータに前記各手段を機能させるためのプログラム。
JP2014516505A 2012-05-22 2012-05-22 構造文書管理システム、構造文書管理方法及びプログラム Active JP5971571B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/003349 WO2013175524A1 (ja) 2012-05-22 2012-05-22 構造文書管理システム、構造文書管理方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2013175524A1 JPWO2013175524A1 (ja) 2016-01-12
JP5971571B2 true JP5971571B2 (ja) 2016-08-17

Family

ID=49623263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014516505A Active JP5971571B2 (ja) 2012-05-22 2012-05-22 構造文書管理システム、構造文書管理方法及びプログラム

Country Status (2)

Country Link
JP (1) JP5971571B2 (ja)
WO (1) WO2013175524A1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006185408A (ja) * 2004-11-30 2006-07-13 Matsushita Electric Ind Co Ltd データベース構築装置及びデータベース検索装置及びデータベース装置
JP4489034B2 (ja) * 2006-02-22 2010-06-23 株式会社東芝 構造化文書処理装置、構造化文書処理方法および構造化文書処理プログラム
JP4398988B2 (ja) * 2007-03-26 2010-01-13 株式会社東芝 構造化文書を管理する装置、方法およびプログラム

Also Published As

Publication number Publication date
JPWO2013175524A1 (ja) 2016-01-12
WO2013175524A1 (ja) 2013-11-28

Similar Documents

Publication Publication Date Title
JP5512489B2 (ja) ファイル管理装置及びファイル管理方法
US10452907B2 (en) System and method for global identification in a collection of documents
US20130110839A1 (en) Constructing an analysis of a document
WO2016121048A1 (ja) 文章生成装置及び方法
Voskarides et al. Generating descriptions of entity relationships
JP5836893B2 (ja) ファイル管理装置、ファイル管理方法、及びプログラム
US20120179709A1 (en) Apparatus, method and program product for searching document
US20120317141A1 (en) System and method for ordering of semantic sub-keys
JP6772478B2 (ja) 情報検索プログラム及び情報検索装置
JP6409071B2 (ja) 文の並び替え方法および計算機
JP3612769B2 (ja) 情報検索装置および情報検索方法
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
KR101602342B1 (ko) 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템
Jouis Next Generation Search Engines: Advanced Models for Information Retrieval: Advanced Models for Information Retrieval
JP2005128872A (ja) 文書検索システム及び文書検索プログラム
JP7122773B2 (ja) 辞書構築装置、辞書の生産方法、およびプログラム
KR101078978B1 (ko) 문서 분류 시스템
JP5971571B2 (ja) 構造文書管理システム、構造文書管理方法及びプログラム
Caldarola et al. Exploration and visualization of big graphs
US20080033953A1 (en) Method to search transactional web pages
JP5746912B2 (ja) テキストパターン抽出を用いてWeb文書をリファインするための方法、システム及びコンピュータ読み出し可能記録媒体
JP6707410B2 (ja) 文献検索装置、文献検索方法およびコンピュータプログラム
JP2004220226A (ja) 検索文書のための文書分類方法及び装置
Hong et al. Extracting web query interfaces based on form structures and semantic similarity
Sancheti et al. Harvesting Knowledge from Cultural Heritage Artifacts in Museums of India

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160129

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160630

R150 Certificate of patent or registration of utility model

Ref document number: 5971571

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350