JP2006119717A - 重要語提示装置、重要語提示方法、プログラムおよび記録媒体 - Google Patents

重要語提示装置、重要語提示方法、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP2006119717A
JP2006119717A JP2004304226A JP2004304226A JP2006119717A JP 2006119717 A JP2006119717 A JP 2006119717A JP 2004304226 A JP2004304226 A JP 2004304226A JP 2004304226 A JP2004304226 A JP 2004304226A JP 2006119717 A JP2006119717 A JP 2006119717A
Authority
JP
Japan
Prior art keywords
important word
important
hierarchy
word
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004304226A
Other languages
English (en)
Other versions
JP4533084B2 (ja
Inventor
Yuichi Kojima
裕一 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2004304226A priority Critical patent/JP4533084B2/ja
Publication of JP2006119717A publication Critical patent/JP2006119717A/ja
Application granted granted Critical
Publication of JP4533084B2 publication Critical patent/JP4533084B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】最小の情報量で、階層構造に属する文書群の概要を把握できる重要語提示装置を提供する。
【解決手段】階層的分類構造を持つ複数の文書群を扱う文書管理システムで使用される重要語提示装置は、各分類階層の下位構造に含まれるすべての文書群から複数の重要語候補を抽出して、分類階層ごとに抽出した重要語候補と階層とを対応付けて記憶する重要語候補抽出部と、ある階層の重要語群を抽出する際に、該階層の重要語候補から該階層より上位階層における重要語を削除した、残りの重要語候補を該階層の重要語として記憶する重要語格納部と、ユーザに提示する分類階層の重要語群および該分類階層よりも上位の分類階層の重要語群もあわせて提示する重要語提示部を備えている。
【選択図】図1

Description

本発明は、重要語提示装置、重要語提示方法、プログラムおよび記録媒体に関し、より詳細には、階層的構造を持つ複数の文書の要約技術、または文書内が階層的構造を持つ文書の要約技術に関する。
大量の文書の概要やページ数の多い文書の概要を知りたいときには、要約を読むことによって知ることができる。この文書を要約するための主要な方法として、次の2つの方法がある。
第1の方法は、文書中の重要な部分を認定し、その重要な部分(通常、節、段落、文などの論理要素の単位)を抜粋して要約を作成する方法である。重要な部分であると評価する方法には、次のような代表的な方法がある。
(1)文書中に出現する単語の頻度と分布を手掛かりとする方法(特許文献1参照)。
(2)文と文とのつながり方や文の出現位置を手掛かりとする方法(特許文献2参照)。
(3)文の構文的パターンによって重要性を評価する方法。
また、第2の方法は、要約として抽出すべき情報の型紙を用意して、その型紙の条件にあった文書中の語句を抽出して、その型紙に埋め込んで要約としたり、あるいは、その型紙によくあてはまる文を抽出して要約とする方法である(特許文献3参照)。
しかしながら、要約技術は一般に、非常に実現困難であり、これに代替するものとして例えば文書中から重要な語を複数個抜き出して、それらの重要語を文書の主題を示す語群として提示する方法がある。
特開平8−297677号公報 特開平11−272699号公報 特開2001−52032号公報
しかしながら、特許文献3のような技術(重要語抽出による文書主題の提示)を、掲示板等の階層的構造を持つ文書管理システムに適用した場合、以下のような問題がある。
(1)主題に関連する語は重要語とはなりえない。
例えば、「Linux」に関する掲示板においては、「Linux」なる語がどれほど頻出しようともほとんどの場合、その掲示板の概要を示す重要語や、掲示板に含まれている文書群の概要を示す重要語とはなりえない。なぜならば、「Linux」に関する掲示板では、「Linux」に関することを書き込むことが前提となっており、その掲示板における重要な語ではないからである。
(2)下位階層に出現した語は、上位階層の主題との関係で判断しなければならない。
例えば、ある下位階層における重要語が「USB」、「メモリ」である場合、この階層が属する上位階層との文脈の中で判断しなければ、それがどんな主題に対する重要語であるのか分からない。これは、上位階層の主題が「ドライバ対応状況」である場合と、「プログラミング」である場合とでは、同じ「USB」、「メモリ」でも予想される文書内容が異なってくるからである。
本発明は、上記のような実情を考慮してなされたものであって、最小の情報量で、階層構造に属する文書群の概要を把握でき、あるいは、階層構造をもつ文書の概要を把握できる重要語提示装置、重要語提示方法、プログラムおよび記録媒体を提供することを目的とする。
上記課題を解決するために、請求項1に記載の発明は、階層的分類構造を持つ複数の文書群を扱う文書管理システムで使用される重要語提示装置において、各分類階層の下位構造に含まれるすべての文書群から複数の重要語候補を抽出して、分類階層ごとに抽出した重要語候補と階層とを対応付けて記憶する重要語候補抽出部と、ある階層の重要語群を抽出する際に、該階層の重要語候補から該階層より上位階層における重要語を削除した、残りの重要語候補を該階層の重要語として記憶する重要語格納部と、ユーザに提示する分類階層の重要語群および該分類階層よりも上位の分類階層の重要語群もあわせて提示する重要語提示部を備えることを特徴とする。
請求項2に記載の発明は、請求項1に記載の重要語提示装置において、前記階層的分類構造は、カテゴリ名を持ったカテゴリの階層構造であって、前記各分類階層の重要語としてカテゴリ名を保持するようにしたことを特徴とする。
請求項3に記載の発明は、請求項1に記載の重要語提示装置において、前記階層的分類構造は、タイトルを持つ章,節による階層構造であって、さらに、各分類階層のタイトルからタイトル重要語候補を抽出して、分類階層ごとに抽出したタイトル重要語候補と階層とを対応付けて記憶するタイトル重要語候補抽出部と、ある階層のタイトル重要語群を抽出する際に、該階層のタイトル重要語候補から該階層より上位階層におけるタイトル重要語を削除した、残りのタイトル重要語候補を該階層のタイトル重要語として記憶するタイトル重要語格納部とを備え、前記重要語提示部は、重要語を提示する際、前記タイトル重要語と前記重要語とをあわせて提示するようにしたことを特徴とする。
請求項4に記載の発明は、請求項1に記載の重要語提示装置において、前記重要語提示部は、提示対象の分類階層より1階層下位の分類階層についての重要語群を提示するようにしたことを特徴とする。
請求項5に記載の発明は、請求項1に記載の重要語提示装置において、前記重要語提示部は、提示対象の分類階層より上位のすべての分類階層と、該上位の分類階層の兄弟階層の重要語群をも提示するようにしたことを特徴とする。
請求項6に記載の発明は、請求項1に記載の重要語提示装置において、さらに、重要語提示の詳細度を入力する詳細度指定部と、詳細度ごとに、提示対象の分類階層において提示すべき重要語数および該分類階層を基準とした相対分類階層において提示すべき重要語数を保持するパラメータ記憶部とを有し、前記重要語格納部は、前記詳細度指定部で入力した詳細度を参照し、前記パラメータ記憶部に記憶された語数の重要語を階層ごとに記憶するようにしたことを特徴とする。
請求項7に記載の発明は、各分類階層の下位構造に含まれるすべての文書群から複数の重要語候補を抽出して、分類階層ごとに抽出した重要語候補と階層とを対応付けて記憶し、ある階層の重要語群を抽出する際に、該階層の重要語候補から該階層より上位階層における重要語を削除した、残りの重要語候補を該階層の重要語として記憶し、ユーザに提示する分類階層の重要語群および該分類階層の周辺の分類階層の重要語群もあわせて提示するようにしたことを特徴とする。
請求項8に記載の発明は、コンピュータに、請求項1乃至6のいずれかに記載の重要語提示装置の機能を実行させるためのプログラムである。
請求項9に記載の発明は、請求項8に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明によれば、階層構造に属する文書群に対して、階層構造を考慮して重要語を抽出することによって、最小の情報で文書群の概要を把握できる。
以下、図面を参照して、本発明の重要語提示装置に係る好適な実施形態について説明する。
<実施形態1>
図1は、本発明の実施形態1に係る重要語提示装置の機能構成を示すブロック図であり、同図において、重要語提示装置は、重要語提示部10、重要語記憶部15、重要語格納部20、パラメータ記憶部35、カテゴリデータベース55、詳細度指定部40、詳細度記憶部45、重要語候補抽出部30、仮文書生成部50、文書データベース65、仮文書ファイル75とから構成される。以下、データベースをDBと略記する。
まず、ユーザから重要語提示要求を行う前に、次のデータをそれぞれ設定しておく。
カテゴリDB55は、予めカテゴリの階層構造を、例えば、図2に示すようなデータ構造で記憶している。このデータ構造は、1つのカテゴリに対して次のデータ項目を持ち、上位カテゴリ番号を持つことにより、カテゴリの階層構造を表すことができる。
・カテゴリ番号:カテゴリごとにユニークに付与された番号である。
・階層番号:当該カテゴリの階層の深さを示す値である。この値は、最上位の階層の階層番号を1とし、階層が深くなるに従って1つずつ増加する番号である。
・上位カテゴリ番号:当該カテゴリが属する上位階層のカテゴリ番号である。上位カテゴリが存在しないときには、「−1」とする。
・カテゴリ名:当該カテゴリに付与された名前である。
・重要語候補のリスト:後述の重要語候補抽出部30で抽出された、当該カテゴリ番号に関連した重要語候補をリストアップしたものである。
図2に例示したカテゴリDB55は、最上位階層としてカテゴリ番号1,2,3があり、階層2にはカテゴリ番号4,5,6,7があり、階層3にはカテゴリ番号8,9,10がある。また、階層2のカテゴリ番号4と5の上位階層はカテゴリ番号1であり、階層2のカテゴリ番号6,7の上位階層はカテゴリ番号2であり、階層3のカテゴリ番号8,9,10の上位階層はカテゴリ番号6である(図3参照)。
文書DB65は、複数の文書データを、例えば、図4に示すようなデータ構造で記憶する。このデータ構造は、少なくとも次に示すようなデータ項目からなっており、どの文書がどのカテゴリに属しているかが分かるようになっている。
・文書番号:各文書を識別するために付与されたユニークな番号である。
・カテゴリ番号:当該文書が属するカテゴリの番号であり、カテゴリDB55中のカテゴリ番号に対応している。
・作者:当該文書の作成者名であり、所属などを含めても良い。
・日付:当該文書の作成日であり、更新日などの履歴を含むものであっても良い。
・タイトル:当該文書のタイトル(文書名)である。
・内容:当該文書の内容であり、内容を保持するURI等であっても良い。
図4を参照すると、文書番号1の文書は、カテゴリ番号6に分類され、作者が「菊地」、作成日が「2003/10/12」で、タイトルが「A社様とのミーティング」であり、その内容は「・・・」(この例題では省略されている)であること示している。
パラメータ記憶部35は、あるカテゴリ番号を基準として周辺のカテゴリの階層を相対に見たときの相対カテゴリごとに、重要語の提示個数を詳細度に応じて記憶する(図5参照)。
ここで、詳細度には、例えば、「概要」、「標準」、「詳細」等の区分があり、これらの区分に応じて相対カテゴリに対する重要語の提示個数を指定する。
また、相対カテゴリには、例えば、「当該カテゴリ」、「上位カテゴリ」、「下位カテゴリ」、「上位兄弟カテゴリ」、「等位兄弟カテゴリ」、「その他カテゴリ」等の区分があり、指定されたカテゴリ番号を基準として、階層構造における親子・兄弟関係を相対的に示している。図6は、カテゴリ番号6が指定されたときに、他のカテゴリがどのような相対カテゴリに該当するかを示している。
例えば、カテゴリ番号2は指定されたカテゴリ番号であるから、相対カテゴリは「当該カテゴリ」である。カテゴリ番号2はカテゴリ番号6の上位階層にあるので、「上位カテゴリ」であり、カテゴリ番号2と兄弟関係にあるカテゴリ番号1と3とは「上位兄弟カテゴリ」である。カテゴリ番号7は、当該カテゴリと同じ上位カテゴリ番号を持つため「等位兄弟カテゴリ」である。カテゴリ番号8,9,10は、当該カテゴリの下位階層に属するので「下位カテゴリ」である。また、カテゴリ番号4と5は、当該カテゴリとは階層構造上直接関係が無いため「その他カテゴリ」である。
図5のパラメータ記憶部35の場合、詳細度が「標準」のときには、ユーザが指定したカテゴリ番号(当該カテゴリ)および上位カテゴリに属する重要語はそれぞれ2個を取り出し、上位兄弟カテゴリおよび等位兄弟カテゴリに属する重要語はそれぞれ1個を取り出すことを意味している。
詳細度記憶部45は、重要語の提示要求があったときに、どの程度の詳細度で表示するかを指定する、上記の詳細度を記憶する。この既定値は「標準」である。
次に、重要語候補の抽出は、ユーザからの重要語提示要求とは無関係に予め作成可能であるため、文書DB65に登録されたすべての文書に対して一括して行うか、または、文書DB65へ新たに文書を登録するときなどのタイミングで文書ごとに行って、抽出した重要語候補をカテゴリDB55へ記憶する。
ここでは、カテゴリ番号ごとの重要語候補を一括して抽出する方法について説明するが、新たに文書が登録される場合には、文書が属するカテゴリ番号に対応する重要語候補を抽出し直して、カテゴリDB55を更新するようにする。
まず、カテゴリDB55に記憶されているカテゴリ番号から1つ取り出して、仮文書生成部50と重要語候補抽出部30を動作させ、すべての階層のすべてのカテゴリが処理されるまで繰り返す。このカテゴリ番号の取り出しは、階層1に属するカテゴリ番号を順次処理し、次に階層2に属するカテゴリ番号を処理し、さらに、階層3に属するカテゴリ番号を処理するというように、以下同様にして、最上位階層から順次下位階層へ降りるようにしてカテゴリ番号を取り出す。
仮文書生成部50は、文書DB65とカテゴリDB55を参照して、取り出されたカテゴリ番号およびそのカテゴリより下位にあるすべてのカテゴリに属する文書群を取り出し、各文書の内容にタイトルを付して、1つの文書としてまとめて仮文書ファイル75へ記憶する。
例えば、図4において、カテゴリ番号「6」が指定されると、カテゴリ番号6と、カテゴリ番号6を上位カテゴリとして持つカテゴリ番号8,9,10を持つ文書を文書DB65から取り出して1つの文書としてまとめあげる。この場合には、図7に示したような文書を仮文書として仮文書ファイル75へ記憶する。ここで、カテゴリ番号10には文書がまだ存在しないものとした。
次に、仮文書の作成が終わると、重要語候補抽出部30は、仮文書ファイル75に記憶された仮文書を用いて重要語候補の抽出処理を行って、抽出したすべての重要語候補について、カテゴリ番号、重要語候補およびスコアの三つ組みを一時的に記憶装置等へ記憶しておく。
この抽出処理は、重要語(キーワード)を抽出する公知の技術で良いが、ここでは例えば、複合語を対象とし、複合語の構成単語の仮文書中での総出現数を累計してスコアを付与して重要語候補を抽出する。また、複合語の構成単語のスコアから複合語のスコアを計算する場合に、その構成単語は重要語候補から取り除くものとする。
例えば、図7のように生成された仮文書の中から名詞の単語および複合語を重要語候補として抽出し、それぞれの重要語候補の構成単語の出現頻度をカウントしてスコアとする(図8参照)。重要語候補(候補Aとする)が他の重要語候補(候補Bとする)を構成語としていた場合には、候補Aのスコアは候補Bのスコアを加算した値とする。このような候補Bは重要語候補から削除される。
図8では、例えば「図面管理」なる複合語のスコアは、構成語である「図面」が仮文書中に3回出現し、「管理」が仮文書中に2回出現しているため、それぞれの出現回数(スコア)を合計して、5点である。
重要語候補抽出手段30は、仮文書からすべての重要語候補を抽出し終えると、一時的に記憶した三つ組みをスコアの大きい順に整列させて、その順に並べられた重要語候補(およびスコア)をカテゴリ番号に対応付けて、カテゴリDB55へ格納する。
次に、以上のようにして各カテゴリ番号に対して重要語候補を抽出し終えた後、ユーザは、階層構造を持つ文書群のうち、所望の階層に属する文書群に対する概要を把握するために、重要語提示部10を起動させて、その所望の階層に対応するカテゴリ番号を指定して、そのカテゴリ番号に関する重要語を提示させる。
その際、ユーザが詳細度指定部40を起動して詳細度を指定してから、重要語提示部10を起動した場合、ユーザの所望するカテゴリ番号に対する重要語が指定された詳細度に応じて表示装置等へ提示される。ここで、ユーザが詳細度を指定しないときには、既定値が選択されたものとされる。
詳細度指定部40が起動されると、詳細度を指定するためのメニューを表示し、このメニューに列挙された詳細度(「概要」、「標準」、「詳細」等)の中から所望の詳細度を選択させ、選択された詳細度を詳細度記憶部45へ記憶する。
このような詳細度指定部40および詳細度記憶部45を有することによって、ユーザからの指定により重要語の提示範囲の詳細レベルをコントロールすることができる。
重要語提示部10は、重要語格納部20を起動して、ユーザから指定されたカテゴリ番号に関連する重要語を取り出して、表示装置へ表示させる。
重要語格納部20は、次のような手順で、カテゴリDB55に記憶されたカテゴリごとの重要語候補の中から重要語を決定して、重要語記憶部15へ格納する。
(1)カテゴリDB55に記憶されているカテゴリ番号から1つ取り出し、そのカテゴリ番号に対する重要語を決定し、ユーザから指定されたカテゴリ番号の1つ下の階層までのすべてのカテゴリが処理されるまで繰り返す。
このカテゴリ番号の取り出しは、最上位階層である階層1に属するカテゴリ番号を順次処理し、次に階層2に属するカテゴリ番号を処理し、さらに、階層3に属するカテゴリ番号を処理するというように、以下同様にして、最上位階層から順次下位階層へ降りるようにしてカテゴリ番号を取り出す。以下、このとき取り出したカテゴリ番号をカテゴリ番号Aと呼ぶ。
(2)カテゴリDB55を参照して、ユーザに指定されたカテゴリ番号(以下、当該カテゴリ番号という)に対して、カテゴリ番号Aの相対位置が何であるかを決定する。この相対位置とはパラメータ記憶部35に記憶されている相対カテゴリのことである(図5参照)。
(3)パラメータ記憶部35を参照して、この相対位置(相対カテゴリ)と、詳細度記憶部45に記憶されている詳細度とから要求重要語数Nを取り出す。
(4)N=0の場合、カテゴリ番号Aの重要語は抽出せずに、他の処理していないカテゴリ番号を処理するため(1)へ戻る。
(5)N>0の場合、まず、カテゴリ番号Aのカテゴリ番号とカテゴリ名を関連付けて重要語記憶部15に格納する。さらに、N>1の場合、カテゴリDB55を参照して、カテゴリ番号Aの重要語候補を取得する。
(6)カテゴリDB55と重要語記憶部15を参照して、カテゴリ番号Aの上位カテゴリのカテゴリ番号の重要語を取り出し、(5)で得た重要語候補のリスト中から上位カテゴリの重要語を削除する。
(7)カテゴリ名と残った重要語候補の上位(N−1)個をカテゴリ番号Aの重要語として、カテゴリ番号Aと関連付けて重要語記憶部15に格納し、他の処理していないカテゴリ番号を処理するため(1)へ戻る。
このように、階層的構造が掲示板などのようにカテゴリによって明示的に示されている場合に、重要語としてカテゴリ名を利用することにより、より理解しやすい概要を提示できる。
図2乃至図8の例を用いて、上記の処理手順について説明する。この例では、ユーザから重要語提示要求のあったカテゴリ番号をカテゴリ番号6、詳細度を「詳細」として、カテゴリ番号6に関する重要語を提示させる場合を考える。
まず、カテゴリ番号1は、相対カテゴリがカテゴリ番号6の「上位兄弟カテゴリ」であるから取り出す重要語の個数は1である。従って、カテゴリ番号1の重要語はカテゴリ名「テーマ管理」のみであり、カテゴリ番号1と重要語「テーマ管理」とを対応付けて重要語記憶部15に格納する。
次に、カテゴリ番号2は、相対カテゴリがカテゴリ番号6の「上位カテゴリ」であるから取り出す重要語の個数は2である。また、カテゴリ番号2の重要語候補が「A社様」であれば、カテゴリ番号2の重要語は、カテゴリ名「TODO」と「A社様」であり、カテゴリ番号2と重要語「TODO」と「A社様」とを対応付けて重要語記憶部15に格納する。
カテゴリ番号6は、相対カテゴリが「当該カテゴリ」であるから取り出す重要語の個数は3である。カテゴリ番号6の重要語は、カテゴリ名「モジュールX」と、次のようにして得る(3−1)個の重要語であり、これらの重要語はカテゴリ番号6と対応付けて重要語記憶部15に格納する。
カテゴリ番号6の重要語候補は、「図面管理」、「データベース」、「要求仕様」、「A社様」、「ミーティング」、「日時」、「数千枚」、・・・であり、カテゴリ番号6の上位カテゴリであるカテゴリ番号2の重要語は「TODO」、「A社様」である。従って、カテゴリ番号6の重要語は、重要語候補からカテゴリ番号2の重要語を削除して残ったうちの上位(3−1)個の「図面管理」および「データベース」である。
また、カテゴリ番号4と5は、相対カテゴリがカテゴリ番号6の「その他カテゴリ」であるから、これらのカテゴリ番号に関しては重要語を抽出しない。上記以外のカテゴリ番号についても同様にして重要語を抽出すると、図9に示すような重要語記憶部15が作成される。
重要語提示部10は、重要語格納部20の実行が完了すると、重要語記憶部15に格納されたすべての重要語を調べ、重要語の格納されているカテゴリ番号についてのみ、重要語をカテゴリDB55に記憶された階層構造に従って提示する。図10は、図9のように得られた重要語記憶部15の内容を階層的に提示した例である。
以上のような構成により、階層構造に属する文書群に対して、階層構造を考慮して重要語を抽出することによって、より適切な形で、最小の情報で文書群の概要を把握できる。
また、階層構造の上位カテゴリや下位カテゴリまで重要語を提示することにより、一目での把握力は落ちるが、やや詳細に概要を提示することができる。
<実施形態2>
図11は、本発明の実施形態2に係る重要語提示装置の機能構成を示すブロック図であり、同図において、重要語提示装置は、重要語提示部10、重要語記憶部15、重要語格納部20、重要語候補抽出部30、仮文書生成部50、仮文書ファイル75、文書データベース(DB)65、タイトル重要語候補抽出部60、タイトル重要語格納部70、タイトル重要語記憶部95、詳細度指定部40、詳細度記憶部45、パラメータ記憶部35とからなっている。図11において、実施形態1と同じ機能を持つものには同じ符号を付してあり、その機能説明は相違点についてのみ説明することにする。
文書DB65は、複数の文書データを、例えば、図12に示すようなデータ構造で記憶する。このデータ構造は、少なくとも次に示すようなデータ項目からなっており、どの文書がどのカテゴリに属しているかが分かるようになっている。
・文書中の構成:1つの文書の内容を章や節を使って階層構造で表したときの章・節番号である。実施形態1におけるカテゴリ番号に相当する。
・タイトル:上記構成のタイトルであり、章あるいは節のタイトルを示す。
・内容:当該構成(章あるいは節)の内容であり、内容を保持するURI等であっても良い。
・タイトル重要語候補:当該タイトルから抽出された重要語候補のリストである。
・重要語候補:上記内容と下位構成の内容から抽出された重要語候補のリストである。
図12において、「・・・」で示した部分は省略を表し、また、「−−−−」で示した部分はその章(あるいは節)だけに属する文書内容が存在しないことを示している。例えば、1章のように章タイトル「目的と概要」の直後に節タイトル「目的」がくる場合、その1章だけに属する文書は存在しないので、「−−−−」で表してある。
本実施形態2では、1つの章・節構成を形成している文書群を文書DB65に格納するものとして説明するが、別の章・節構成からなる文書群を混在させてもよい。この場合には、同一の章・節構成を形成する文書群を予め抽出しておいて、この抽出した文書群を本実施形態2の文書DBとすることによって同様に処理できる。
または、文書DBのデータ項目に、同一の章・節構成を形成する文書群を識別する識別子を追加して、常に同一の識別子をもつ文書群に対して、以下で説明するような処理をすることによっても実現できる。
パラメータ記憶部35は、ユーザから提示要求のあった文書中の構成(章あるいは節)を基準とした相対構成ごとに、重要語の提示個数を詳細度に応じて記憶する。本実施形態2では、重要語をタイトル重要語と文書内容の重要語とをもつため、このパラメータ記憶部35もそれぞれ用に2つもつことになる(図13参照)。
しかしながら、タイトル重要語の提示個数に関しては、タイトルから抽出される重要語の個数が3個程度であることから、2個と言うように固定した値としても影響はない。
ここで、実施形態1と同様に、詳細度には、例えば、「概要」、「標準」、「詳細」等の区分があり、これらの区分に応じて相対構成(章あるいは節)に対する重要語の提示個数を指定する。
また、相対構成には、例えば、「当該章・節」、「上位章・節」、「下位章・節」、「上位兄弟章・節」、「等位兄弟章・節」、「その他章・節」等の区分があり、指定された構成(章・節)を基準として、階層構造における親子・兄弟関係を相対的に示している。
図13のパラメータ記憶部35の場合、詳細度が「詳細」のときには、ユーザが指定した構成(当該章・節)からは内容に関する重要語は3個、タイトルに関する重要語は2個取り出し、上位章・節に属する重要語は内容に関しては2個、タイトルに関しては1個を取り出し、下位章・節と等位兄弟章・節と上位兄弟章・節に属する重要語は内容およびタイトルともにそれぞれ1個を取り出すことを意味している。
次に、タイトル重要語候補および重要語候補の抽出は、ユーザからの重要語提示要求とは無関係に予め作成可能であるため、文書DB65に登録されたすべての構成に対して一括して行うか、または、文書DB65へ新たに構成を登録するときなどのタイミングで行って、抽出したタイトル重要語候補および重要語候補を文書DB65へ記憶する。
ここでは、文書DB65に記憶された文書に対してタイトル重要語候補および重要語候補を一括して抽出する方法について説明するが、新たに構成が登録される場合には、構成(章あるいは節)に対応するタイトル重要語候補および重要語候補を抽出し直して、文書DB65を更新するようにする。
まず、文書DB65に記憶されている構成(章あるいは節)を1つ取り出して、タイトル重要語候補抽出部60と、仮文書生成部50と重要語候補抽出部30を動作させ、すべての構成(章あるいは節)が処理されるまで繰り返す。この構成(章あるいは節)の取り出しは、階層1に属する構成(章あるいは節)を順次処理し、次に階層2に属する構成(章あるいは節)を処理し、さらに、階層3に属する構成(章あるいは節)を処理するというように、以下同様にして、最上位階層から順次下位階層へ降りるようにして構成(章あるいは節)を取り出す。
タイトル重要語候補抽出部60は、重要語候補抽出部30と同様にして、取り出された構成(章あるいは節)のタイトルから重要語候補を抽出し、当該構成に対応したタイトル重要語候補リストとして文書DB65に格納される。
次に、重要語候補の抽出は、実施形態1ではあるカテゴリ番号を含む下位構造の内容を1つの仮文書にしていたが、本実施形態2ではある構成(章あるいは節)を含む下位構成を1つの仮文書とする点が相違している。
即ち、仮文書生成部50は、文書DB65を参照して、取り出された構成(章あるいは節)を含む下位の構成(章あるいは節)の内容を取り出し、この各内容にタイトルを付して、1つの文書としてまとめて仮文書ファイル75へ記憶する。
例えば、図12において、「2章」に関する仮文書は、2章に含まれるすべての節の内容を文書DB65から取り出して1つの文書としてまとめあげ、仮文書として仮文書ファイル75へ記憶する。
次に、仮文書の作成が終わると、重要語候補抽出部30は、実施形態1と同様な処理によって、仮文書ファイル75に記憶された仮文書を用いて重要語候補の抽出処理を行って、抽出したすべての重要語候補について、構成(章あるいは節)、重要語候補およびスコアの三つ組みを一時的に記憶装置等へ記憶しておく。
重要語候補抽出部30は、仮文書からすべての重要語候補を抽出し終えると、一時的に記憶した三つ組みのうちスコアの大きい順に整列させて、その順に並べられた重要語候補(およびスコア)を構成(章あるいは節)に対応付けて、文書DB65へ格納する。
次に、以上のようにしてすべての構成(章あるいは節)に対して重要語候補を抽出し終えた後、ユーザは、章・節からなる階層構造を持つ文書群のうち、所望の章あるいは節に属する文書群に対する概要を把握するために、重要語提示部10を起動させて、その所望の章あるいは節を指定して重要語を提示させる。
その際、ユーザが詳細度指定部40を起動して詳細度を指定してから、重要語提示部10を起動した場合、重要語が指定された詳細度に応じて表示装置等へ提示される。ここで、ユーザが詳細度を指定しないときには、既定値が選択されたものとされる。
重要語提示部10は、タイトル重要語格納部70と重要語格納部20を起動して、ユーザから指定された構成(章あるいは節)に関連するタイトル重要語および重要語を取り出して、表示装置へ表示させる。
タイトル重要語格納部70は、次のような手順で、文書DB65に記憶されたタイトル重要語候補の中からタイトル重要語を決定して、タイトル重要語記憶部95へ格納する。
(1)文書DB65に記憶されている構成(章あるいは節)から1つ取り出し、その構成に対するタイトル重要語を決定し、すべての構成が処理されるまで繰り返す。
この構成(章あるいは節)の取り出しは、最上位階層である階層1に属する構成を順次処理し、次に階層2に属する構成を処理し、さらに、階層3に属する構成を処理するというように、以下同様にして、最上位階層から順次下位階層へ降りるようにして構成(章あるいは節)を取り出す。以下、このとき取り出した構成(章あるいは節)を構成Aと呼ぶ。
(2)文書DB65を参照して、ユーザに指定された構成(章あるいは節)(以下、当該構成という)に対して、構成Aの相対位置が何であるかを決定する。この相対位置とはパラメータ記憶部35に記憶されている相対構成のことである(図13参照)。
(3)パラメータ記憶部35を参照して、この相対位置(相対構成)と、詳細度記憶部45に記憶されている詳細度とから要求重要語数Nを取り出す。
(4)N=0の場合、構成Aの重要語は抽出せずに、他の処理していない構成(章あるいは節)を処理するため(1)へ戻る。
(5)N>0の場合、文書DB65を参照して、構成Aのタイトル重要語候補を取得する。
(6)文書DB65とタイトル重要語記憶部95を参照して、構成Aの上位構成のタイトル重要語を取り出し、(5)で得たタイトル重要語候補のリスト中から上位構成のタイトル重要語を削除する。
(7)残ったタイトル重要語候補の上位N個を構成Aの重要語として、構成Aと関連付けてタイトル重要語記憶部95に格納し、他の処理していない構成(章あるいは節)番号を処理するため(1)へ戻る。
また、上記と同様にして、重要語格納部20は、次のような手順で、文書DB65に記憶された重要語候補の中から重要語を決定して、重要語記憶部15へ格納する。
(1)文書DB65に記憶されている構成(章あるいは節)から1つ取り出し、その構成(章あるいは節)に対する重要語を決定し、すべての構成が処理されるまで繰り返す。
この構成(章あるいは節)の取り出しは、最上位階層である階層1に属する構成(章あるいは節)を順次処理し、次に階層2に属する構成(章あるいは節)を処理し、さらに、階層3に属する構成(章あるいは節)を処理するというように、以下同様にして、最上位階層から順次下位階層へ降りるようにして構成(章あるいは節)を取り出す。以下、このとき取り出した構成(章あるいは節)を構成Aと呼ぶ。
(2)文書DB65を参照して、ユーザに指定された構成(章あるいは節)(以下、当該構成という)に対して、構成Aの相対位置が何であるかを判断する。この相対位置とはパラメータ記憶部35に記憶されている相対構成のことである(図13参照)。
(3)パラメータ記憶部35を参照して、この相対位置(相対構成)と、詳細度記憶部45に記憶されている詳細度とから要求重要語数Nを取り出す。
(4)N=0の場合、構成Aの重要語は抽出せずに、他の処理していない構成(章あるいは節)を処理するため(1)へ戻る。
(5)N>0の場合、文書DB65を参照して、構成Aの重要語候補を取得する。
(6)文書DB65と重要語記憶部15を参照して、構成Aの上位構成(章あるいは節)の重要語を取り出し、(5)で得た重要語候補のリスト中から上位構成の重要語を削除する。
(7)残った重要語候補の上位N個を構成Aの重要語として、構成Aと関連付けて重要語記憶部15に格納し、他の処理していない構成(章あるいは節)を処理するため(1)へ戻る。
重要語提示部10は、タイトル重要語格納部70と重要語格納部20の実行が完了すると、タイトル重要語記憶部95と重要語記憶部15とを参照して、タイトル重要語と重要語が格納されている構成についてのみ、タイトル重要語と重要語とを‘/’で区分して、文書DB65に記憶された構成(章あるいは節)の階層構造で提示する。
次に、パラメータ記憶部35のすべての詳細度および相対構成において、重要語の提示個数を固定の2個とし、すべての構成(章あるいは節)についての重要語を提示させる場合には、ユーザが処理対象の文書群を指定して重要語提示部10を起動するだけで、上記の処理を行って指定された文書群の重要語を提示するようにできる。
例えば、図12の文書群の場合には、図14のようなタイトル重要語と内容に関する重要語が抽出され、図15に示したようなすべての構成(章あるいは節)に関して、タイトル重要語と重要語とを‘/’で区分した、構成(章あるいは節)ごとの結果を提示する。
以上のような構成により、階層的構造が報告書などで多く採用される章・節形式の構造である場合にも、より理解しやすい概要を提示することができる。
<実施形態3>
さらに、本発明は上述した実施形態のみに限定されたものではない。上述した実施形態の重要語提示装置を構成する各機能をそれぞれプログラム化し、あらかじめCD−ROM等の記録媒体に書き込んでおき、このCD−ROMをCD−ROMドライブのような媒体駆動装置を搭載したコンピュータに装着して、これらのプログラムをコンピュータのメモリあるいは記憶装置に格納して、実行することによって、本発明の目的を達成することができる。
なお、記録媒体としては半導体媒体(例えば、ROM、不揮発性メモリカード等)、光媒体(例えば、DVD、MO、MD、CD−R等)、磁気媒体(例えば、磁気テープ、フレキシブルディスク等)のいずれであってもよい。
また、ロードしたプログラムの指示に基づき、オペレーティングシステムやアプリケーションプログラム等が実際の処理の一部または全部を行い、その処理によって上述した実施形態の機能が実現される場合も含まれる。
また、上述したプログラムをサーバコンピュータの磁気ディスク等の記憶装置に格納しておき、ネットワークで接続された利用者のコンピュータからダウンロードして頒布する場合、また、サーバコンピュータから配信して頒布する場合、このサーバコンピュータの記憶装置も本発明の記録媒体に含まれる。
このように、本発明の機能をプログラムして、記録媒体に記録し頒布することによって、コスト、可搬性、汎用性を向上させることができる。
実施形態1に係る重要語提示装置の機能構成を示すブロック図である。 カテゴリDBのデータ構造例である。 図2のカテゴリDBを階層構造として表したときの説明図である。 文書データベースのデータ構造例である。 パラメータ記憶部のデータ構造例である。 階層構造と相対カテゴリの関係を示す説明図である。 指定されたカテゴリ番号に対する仮文書の例である。 図7の仮文書に対する重要語候補の例である。 重要語記憶部のデータ構造例である。 重要語の提示例である。 実施形態2に係る重要語提示装置の機能構成を示すブロック図である。 文書DBのデータ構造例である。 パラメータ記憶部のデータ構造例である。 タイトル重要語および重要語の抽出例である。 重要語の提示例である。
符号の説明
10…重要語提示部、15…重要語記憶部、20…重要語格納部、30…重要語候補抽出部、35…パラメータ記憶部、40…詳細度指定部、45…詳細度記憶部、50…仮文書生成部、55…カテゴリデータベース(カテゴリDB)、60…タイトル重要語候補抽出部、65…文書データベース(文書DB)、70…タイトル重要語格納部、75…仮文書ファイル、95…タイトル重要語記憶部。

Claims (9)

  1. 階層的分類構造を持つ複数の文書群を扱う文書管理システムで使用される重要語提示装置において、各分類階層の下位構造に含まれるすべての文書群から複数の重要語候補を抽出して、分類階層ごとに抽出した重要語候補と階層とを対応付けて記憶する重要語候補抽出部と、ある階層の重要語群を抽出する際に、該階層の重要語候補から該階層より上位階層における重要語を削除した、残りの重要語候補を該階層の重要語として記憶する重要語格納部と、ユーザに提示する分類階層の重要語群および該分類階層よりも上位の分類階層の重要語群もあわせて提示する重要語提示部を備えることを特徴とする重要語提示装置。
  2. 請求項1に記載の重要語提示装置において、前記階層的分類構造は、カテゴリ名を持ったカテゴリの階層構造であって、前記各分類階層の重要語としてカテゴリ名を保持するようにしたことを特徴とする重要語提示装置。
  3. 請求項1に記載の重要語提示装置において、前記階層的分類構造は、タイトルを持つ章,節による階層構造であって、さらに、各分類階層のタイトルからタイトル重要語候補を抽出して、分類階層ごとに抽出したタイトル重要語候補と階層とを対応付けて記憶するタイトル重要語候補抽出部と、ある階層のタイトル重要語群を抽出する際に、該階層のタイトル重要語候補から該階層より上位階層におけるタイトル重要語を削除した、残りのタイトル重要語候補を該階層のタイトル重要語として記憶するタイトル重要語格納部とを備え、前記重要語提示部は、重要語を提示する際、前記タイトル重要語と前記重要語とをあわせて提示するようにしたことを特徴とする重要語提示装置。
  4. 請求項1に記載の重要語提示装置において、前記重要語提示部は、提示対象の分類階層より1階層下位の分類階層についての重要語群を提示するようにしたことを特徴とする重要語提示装置。
  5. 請求項1に記載の重要語提示装置において、前記重要語提示部は、提示対象の分類階層より上位のすべての分類階層と、該上位の分類階層の兄弟階層の重要語群をも提示するようにしたことを特徴とする重要語提示装置。
  6. 請求項1に記載の重要語提示装置において、さらに、重要語提示の詳細度を入力する詳細度指定部と、詳細度ごとに、提示対象の分類階層において提示すべき重要語数および該分類階層を基準とした相対分類階層において提示すべき重要語数を保持するパラメータ記憶部とを有し、前記重要語格納部は、前記詳細度指定部で入力した詳細度を参照し、前記パラメータ記憶部に記憶された語数の重要語を階層ごとに記憶するようにしたことを特徴とする重要語提示装置。
  7. 各分類階層の下位構造に含まれるすべての文書群から複数の重要語候補を抽出して、分類階層ごとに抽出した重要語候補と階層とを対応付けて記憶し、ある階層の重要語群を抽出する際に、該階層の重要語候補から該階層より上位階層における重要語を削除した、残りの重要語候補を該階層の重要語として記憶し、ユーザに提示する分類階層の重要語群および該分類階層の周辺の分類階層の重要語群もあわせて提示するようにしたことを特徴とする重要語提示方法。
  8. コンピュータに、請求項1乃至6のいずれかに記載の重要語提示装置の機能を実行させるためのプログラム。
  9. 請求項8に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2004304226A 2004-10-19 2004-10-19 重要語提示装置 Expired - Fee Related JP4533084B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004304226A JP4533084B2 (ja) 2004-10-19 2004-10-19 重要語提示装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004304226A JP4533084B2 (ja) 2004-10-19 2004-10-19 重要語提示装置

Publications (2)

Publication Number Publication Date
JP2006119717A true JP2006119717A (ja) 2006-05-11
JP4533084B2 JP4533084B2 (ja) 2010-08-25

Family

ID=36537574

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004304226A Expired - Fee Related JP4533084B2 (ja) 2004-10-19 2004-10-19 重要語提示装置

Country Status (1)

Country Link
JP (1) JP4533084B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013015971A (ja) * 2011-07-01 2013-01-24 Kddi Corp 代表的なコメント抽出方法およびプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09114839A (ja) * 1995-10-19 1997-05-02 Fuji Xerox Co Ltd キーワード管理装置
JP2000066936A (ja) * 1998-08-19 2000-03-03 Fujitsu Ltd フォルダ管理装置及び記録媒体
JP2001034516A (ja) * 1999-07-22 2001-02-09 Ricoh Co Ltd 文書管理システム
JP2002202905A (ja) * 2000-10-27 2002-07-19 Canon Inc データ蓄積方法及び装置、並びに記憶媒体
JP2003067722A (ja) * 2001-08-30 2003-03-07 Fuji Photo Film Co Ltd 画像情報管理方法及びシステム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09114839A (ja) * 1995-10-19 1997-05-02 Fuji Xerox Co Ltd キーワード管理装置
JP2000066936A (ja) * 1998-08-19 2000-03-03 Fujitsu Ltd フォルダ管理装置及び記録媒体
JP2001034516A (ja) * 1999-07-22 2001-02-09 Ricoh Co Ltd 文書管理システム
JP2002202905A (ja) * 2000-10-27 2002-07-19 Canon Inc データ蓄積方法及び装置、並びに記憶媒体
JP2003067722A (ja) * 2001-08-30 2003-03-07 Fuji Photo Film Co Ltd 画像情報管理方法及びシステム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013015971A (ja) * 2011-07-01 2013-01-24 Kddi Corp 代表的なコメント抽出方法およびプログラム

Also Published As

Publication number Publication date
JP4533084B2 (ja) 2010-08-25

Similar Documents

Publication Publication Date Title
US20240248917A1 (en) Methods and systems for a compliance framework database schema
US5513305A (en) System and method for documenting and displaying computer program code
US6571247B1 (en) Object oriented technology analysis and design supporting method
US7509345B2 (en) Method and system for persisting and managing computer program clippings
CN100442274C (zh) 用于编辑标记语言文档的方法和数据处理系统
EP2041672B1 (en) Methods and apparatus for reusing data access and presentation elements
US20070185876A1 (en) Data handling system
US20120210298A1 (en) Locating changes in source code
US7287029B1 (en) Tagging data assets
KR20130115984A (ko) 검색 기반 시스템 관리
US8145580B2 (en) Data management apparatus and method for managing data elements using a plurality of metadata elements
JP2006350477A (ja) ファイル管理装置及びその制御方法、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体
US20080140608A1 (en) Information Managing Apparatus, Method, and Program
JP2008186356A (ja) ドキュメントの整合性検査支援システムおよび方法、ならびにそのプログラム
US7100126B2 (en) Electrical form design and management method, and recording medium
JP4533084B2 (ja) 重要語提示装置
KR100658029B1 (ko) 문서 작성 프로그램을 기록한 컴퓨터 판독 가능한 기록매체, 문서 작성 시스템 및 문서 작성 방법
JP2005173999A (ja) 電子ファイル検索装置、電子ファイル検索システム、電子ファイル検索方法、プログラムおよび記録媒体
KR100576487B1 (ko) 컴포넌트화된 콘텐츠를 유지하기 위한 시스템 및 방법
JPH09258975A (ja) アプリケーションプログラムの構成作成支援方法
JP2006048521A (ja) 文書検索装置及びその制御方法、並びに制御プログラム
JP4253134B2 (ja) 文書処理装置、文書処理方法、プログラムおよび記録媒体
JP3707133B2 (ja) 文書データベース管理装置および文書データベース管理方法
JP2008299816A (ja) 情報処理装置、データ表示方法及びデータ表示プログラム
JP2007080205A (ja) 検索装置及び検索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071001

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090210

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090316

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100223

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100608

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100611

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130618

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees