JP2006119717A - 重要語提示装置、重要語提示方法、プログラムおよび記録媒体 - Google Patents
重要語提示装置、重要語提示方法、プログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP2006119717A JP2006119717A JP2004304226A JP2004304226A JP2006119717A JP 2006119717 A JP2006119717 A JP 2006119717A JP 2004304226 A JP2004304226 A JP 2004304226A JP 2004304226 A JP2004304226 A JP 2004304226A JP 2006119717 A JP2006119717 A JP 2006119717A
- Authority
- JP
- Japan
- Prior art keywords
- important word
- important
- hierarchy
- word
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】階層的分類構造を持つ複数の文書群を扱う文書管理システムで使用される重要語提示装置は、各分類階層の下位構造に含まれるすべての文書群から複数の重要語候補を抽出して、分類階層ごとに抽出した重要語候補と階層とを対応付けて記憶する重要語候補抽出部と、ある階層の重要語群を抽出する際に、該階層の重要語候補から該階層より上位階層における重要語を削除した、残りの重要語候補を該階層の重要語として記憶する重要語格納部と、ユーザに提示する分類階層の重要語群および該分類階層よりも上位の分類階層の重要語群もあわせて提示する重要語提示部を備えている。
【選択図】図1
Description
第1の方法は、文書中の重要な部分を認定し、その重要な部分(通常、節、段落、文などの論理要素の単位)を抜粋して要約を作成する方法である。重要な部分であると評価する方法には、次のような代表的な方法がある。
(2)文と文とのつながり方や文の出現位置を手掛かりとする方法(特許文献2参照)。
(3)文の構文的パターンによって重要性を評価する方法。
例えば、「Linux」に関する掲示板においては、「Linux」なる語がどれほど頻出しようともほとんどの場合、その掲示板の概要を示す重要語や、掲示板に含まれている文書群の概要を示す重要語とはなりえない。なぜならば、「Linux」に関する掲示板では、「Linux」に関することを書き込むことが前提となっており、その掲示板における重要な語ではないからである。
例えば、ある下位階層における重要語が「USB」、「メモリ」である場合、この階層が属する上位階層との文脈の中で判断しなければ、それがどんな主題に対する重要語であるのか分からない。これは、上位階層の主題が「ドライバ対応状況」である場合と、「プログラミング」である場合とでは、同じ「USB」、「メモリ」でも予想される文書内容が異なってくるからである。
請求項9に記載の発明は、請求項8に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
図1は、本発明の実施形態1に係る重要語提示装置の機能構成を示すブロック図であり、同図において、重要語提示装置は、重要語提示部10、重要語記憶部15、重要語格納部20、パラメータ記憶部35、カテゴリデータベース55、詳細度指定部40、詳細度記憶部45、重要語候補抽出部30、仮文書生成部50、文書データベース65、仮文書ファイル75とから構成される。以下、データベースをDBと略記する。
・階層番号:当該カテゴリの階層の深さを示す値である。この値は、最上位の階層の階層番号を1とし、階層が深くなるに従って1つずつ増加する番号である。
・上位カテゴリ番号:当該カテゴリが属する上位階層のカテゴリ番号である。上位カテゴリが存在しないときには、「−1」とする。
・カテゴリ名:当該カテゴリに付与された名前である。
・重要語候補のリスト:後述の重要語候補抽出部30で抽出された、当該カテゴリ番号に関連した重要語候補をリストアップしたものである。
・カテゴリ番号:当該文書が属するカテゴリの番号であり、カテゴリDB55中のカテゴリ番号に対応している。
・作者:当該文書の作成者名であり、所属などを含めても良い。
・日付:当該文書の作成日であり、更新日などの履歴を含むものであっても良い。
・タイトル:当該文書のタイトル(文書名)である。
・内容:当該文書の内容であり、内容を保持するURI等であっても良い。
ここで、詳細度には、例えば、「概要」、「標準」、「詳細」等の区分があり、これらの区分に応じて相対カテゴリに対する重要語の提示個数を指定する。
ここでは、カテゴリ番号ごとの重要語候補を一括して抽出する方法について説明するが、新たに文書が登録される場合には、文書が属するカテゴリ番号に対応する重要語候補を抽出し直して、カテゴリDB55を更新するようにする。
この抽出処理は、重要語(キーワード)を抽出する公知の技術で良いが、ここでは例えば、複合語を対象とし、複合語の構成単語の仮文書中での総出現数を累計してスコアを付与して重要語候補を抽出する。また、複合語の構成単語のスコアから複合語のスコアを計算する場合に、その構成単語は重要語候補から取り除くものとする。
図8では、例えば「図面管理」なる複合語のスコアは、構成語である「図面」が仮文書中に3回出現し、「管理」が仮文書中に2回出現しているため、それぞれの出現回数(スコア)を合計して、5点である。
その際、ユーザが詳細度指定部40を起動して詳細度を指定してから、重要語提示部10を起動した場合、ユーザの所望するカテゴリ番号に対する重要語が指定された詳細度に応じて表示装置等へ提示される。ここで、ユーザが詳細度を指定しないときには、既定値が選択されたものとされる。
このような詳細度指定部40および詳細度記憶部45を有することによって、ユーザからの指定により重要語の提示範囲の詳細レベルをコントロールすることができる。
重要語格納部20は、次のような手順で、カテゴリDB55に記憶されたカテゴリごとの重要語候補の中から重要語を決定して、重要語記憶部15へ格納する。
このカテゴリ番号の取り出しは、最上位階層である階層1に属するカテゴリ番号を順次処理し、次に階層2に属するカテゴリ番号を処理し、さらに、階層3に属するカテゴリ番号を処理するというように、以下同様にして、最上位階層から順次下位階層へ降りるようにしてカテゴリ番号を取り出す。以下、このとき取り出したカテゴリ番号をカテゴリ番号Aと呼ぶ。
(4)N=0の場合、カテゴリ番号Aの重要語は抽出せずに、他の処理していないカテゴリ番号を処理するため(1)へ戻る。
(5)N>0の場合、まず、カテゴリ番号Aのカテゴリ番号とカテゴリ名を関連付けて重要語記憶部15に格納する。さらに、N>1の場合、カテゴリDB55を参照して、カテゴリ番号Aの重要語候補を取得する。
(6)カテゴリDB55と重要語記憶部15を参照して、カテゴリ番号Aの上位カテゴリのカテゴリ番号の重要語を取り出し、(5)で得た重要語候補のリスト中から上位カテゴリの重要語を削除する。
(7)カテゴリ名と残った重要語候補の上位(N−1)個をカテゴリ番号Aの重要語として、カテゴリ番号Aと関連付けて重要語記憶部15に格納し、他の処理していないカテゴリ番号を処理するため(1)へ戻る。
カテゴリ番号6の重要語候補は、「図面管理」、「データベース」、「要求仕様」、「A社様」、「ミーティング」、「日時」、「数千枚」、・・・であり、カテゴリ番号6の上位カテゴリであるカテゴリ番号2の重要語は「TODO」、「A社様」である。従って、カテゴリ番号6の重要語は、重要語候補からカテゴリ番号2の重要語を削除して残ったうちの上位(3−1)個の「図面管理」および「データベース」である。
また、階層構造の上位カテゴリや下位カテゴリまで重要語を提示することにより、一目での把握力は落ちるが、やや詳細に概要を提示することができる。
図11は、本発明の実施形態2に係る重要語提示装置の機能構成を示すブロック図であり、同図において、重要語提示装置は、重要語提示部10、重要語記憶部15、重要語格納部20、重要語候補抽出部30、仮文書生成部50、仮文書ファイル75、文書データベース(DB)65、タイトル重要語候補抽出部60、タイトル重要語格納部70、タイトル重要語記憶部95、詳細度指定部40、詳細度記憶部45、パラメータ記憶部35とからなっている。図11において、実施形態1と同じ機能を持つものには同じ符号を付してあり、その機能説明は相違点についてのみ説明することにする。
・タイトル:上記構成のタイトルであり、章あるいは節のタイトルを示す。
・内容:当該構成(章あるいは節)の内容であり、内容を保持するURI等であっても良い。
・タイトル重要語候補:当該タイトルから抽出された重要語候補のリストである。
・重要語候補:上記内容と下位構成の内容から抽出された重要語候補のリストである。
または、文書DBのデータ項目に、同一の章・節構成を形成する文書群を識別する識別子を追加して、常に同一の識別子をもつ文書群に対して、以下で説明するような処理をすることによっても実現できる。
しかしながら、タイトル重要語の提示個数に関しては、タイトルから抽出される重要語の個数が3個程度であることから、2個と言うように固定した値としても影響はない。
ここでは、文書DB65に記憶された文書に対してタイトル重要語候補および重要語候補を一括して抽出する方法について説明するが、新たに構成が登録される場合には、構成(章あるいは節)に対応するタイトル重要語候補および重要語候補を抽出し直して、文書DB65を更新するようにする。
即ち、仮文書生成部50は、文書DB65を参照して、取り出された構成(章あるいは節)を含む下位の構成(章あるいは節)の内容を取り出し、この各内容にタイトルを付して、1つの文書としてまとめて仮文書ファイル75へ記憶する。
例えば、図12において、「2章」に関する仮文書は、2章に含まれるすべての節の内容を文書DB65から取り出して1つの文書としてまとめあげ、仮文書として仮文書ファイル75へ記憶する。
重要語候補抽出部30は、仮文書からすべての重要語候補を抽出し終えると、一時的に記憶した三つ組みのうちスコアの大きい順に整列させて、その順に並べられた重要語候補(およびスコア)を構成(章あるいは節)に対応付けて、文書DB65へ格納する。
その際、ユーザが詳細度指定部40を起動して詳細度を指定してから、重要語提示部10を起動した場合、重要語が指定された詳細度に応じて表示装置等へ提示される。ここで、ユーザが詳細度を指定しないときには、既定値が選択されたものとされる。
この構成(章あるいは節)の取り出しは、最上位階層である階層1に属する構成を順次処理し、次に階層2に属する構成を処理し、さらに、階層3に属する構成を処理するというように、以下同様にして、最上位階層から順次下位階層へ降りるようにして構成(章あるいは節)を取り出す。以下、このとき取り出した構成(章あるいは節)を構成Aと呼ぶ。
(4)N=0の場合、構成Aの重要語は抽出せずに、他の処理していない構成(章あるいは節)を処理するため(1)へ戻る。
(5)N>0の場合、文書DB65を参照して、構成Aのタイトル重要語候補を取得する。
(6)文書DB65とタイトル重要語記憶部95を参照して、構成Aの上位構成のタイトル重要語を取り出し、(5)で得たタイトル重要語候補のリスト中から上位構成のタイトル重要語を削除する。
(7)残ったタイトル重要語候補の上位N個を構成Aの重要語として、構成Aと関連付けてタイトル重要語記憶部95に格納し、他の処理していない構成(章あるいは節)番号を処理するため(1)へ戻る。
この構成(章あるいは節)の取り出しは、最上位階層である階層1に属する構成(章あるいは節)を順次処理し、次に階層2に属する構成(章あるいは節)を処理し、さらに、階層3に属する構成(章あるいは節)を処理するというように、以下同様にして、最上位階層から順次下位階層へ降りるようにして構成(章あるいは節)を取り出す。以下、このとき取り出した構成(章あるいは節)を構成Aと呼ぶ。
(4)N=0の場合、構成Aの重要語は抽出せずに、他の処理していない構成(章あるいは節)を処理するため(1)へ戻る。
(5)N>0の場合、文書DB65を参照して、構成Aの重要語候補を取得する。
(6)文書DB65と重要語記憶部15を参照して、構成Aの上位構成(章あるいは節)の重要語を取り出し、(5)で得た重要語候補のリスト中から上位構成の重要語を削除する。
(7)残った重要語候補の上位N個を構成Aの重要語として、構成Aと関連付けて重要語記憶部15に格納し、他の処理していない構成(章あるいは節)を処理するため(1)へ戻る。
例えば、図12の文書群の場合には、図14のようなタイトル重要語と内容に関する重要語が抽出され、図15に示したようなすべての構成(章あるいは節)に関して、タイトル重要語と重要語とを‘/’で区分した、構成(章あるいは節)ごとの結果を提示する。
さらに、本発明は上述した実施形態のみに限定されたものではない。上述した実施形態の重要語提示装置を構成する各機能をそれぞれプログラム化し、あらかじめCD−ROM等の記録媒体に書き込んでおき、このCD−ROMをCD−ROMドライブのような媒体駆動装置を搭載したコンピュータに装着して、これらのプログラムをコンピュータのメモリあるいは記憶装置に格納して、実行することによって、本発明の目的を達成することができる。
このように、本発明の機能をプログラムして、記録媒体に記録し頒布することによって、コスト、可搬性、汎用性を向上させることができる。
Claims (9)
- 階層的分類構造を持つ複数の文書群を扱う文書管理システムで使用される重要語提示装置において、各分類階層の下位構造に含まれるすべての文書群から複数の重要語候補を抽出して、分類階層ごとに抽出した重要語候補と階層とを対応付けて記憶する重要語候補抽出部と、ある階層の重要語群を抽出する際に、該階層の重要語候補から該階層より上位階層における重要語を削除した、残りの重要語候補を該階層の重要語として記憶する重要語格納部と、ユーザに提示する分類階層の重要語群および該分類階層よりも上位の分類階層の重要語群もあわせて提示する重要語提示部を備えることを特徴とする重要語提示装置。
- 請求項1に記載の重要語提示装置において、前記階層的分類構造は、カテゴリ名を持ったカテゴリの階層構造であって、前記各分類階層の重要語としてカテゴリ名を保持するようにしたことを特徴とする重要語提示装置。
- 請求項1に記載の重要語提示装置において、前記階層的分類構造は、タイトルを持つ章,節による階層構造であって、さらに、各分類階層のタイトルからタイトル重要語候補を抽出して、分類階層ごとに抽出したタイトル重要語候補と階層とを対応付けて記憶するタイトル重要語候補抽出部と、ある階層のタイトル重要語群を抽出する際に、該階層のタイトル重要語候補から該階層より上位階層におけるタイトル重要語を削除した、残りのタイトル重要語候補を該階層のタイトル重要語として記憶するタイトル重要語格納部とを備え、前記重要語提示部は、重要語を提示する際、前記タイトル重要語と前記重要語とをあわせて提示するようにしたことを特徴とする重要語提示装置。
- 請求項1に記載の重要語提示装置において、前記重要語提示部は、提示対象の分類階層より1階層下位の分類階層についての重要語群を提示するようにしたことを特徴とする重要語提示装置。
- 請求項1に記載の重要語提示装置において、前記重要語提示部は、提示対象の分類階層より上位のすべての分類階層と、該上位の分類階層の兄弟階層の重要語群をも提示するようにしたことを特徴とする重要語提示装置。
- 請求項1に記載の重要語提示装置において、さらに、重要語提示の詳細度を入力する詳細度指定部と、詳細度ごとに、提示対象の分類階層において提示すべき重要語数および該分類階層を基準とした相対分類階層において提示すべき重要語数を保持するパラメータ記憶部とを有し、前記重要語格納部は、前記詳細度指定部で入力した詳細度を参照し、前記パラメータ記憶部に記憶された語数の重要語を階層ごとに記憶するようにしたことを特徴とする重要語提示装置。
- 各分類階層の下位構造に含まれるすべての文書群から複数の重要語候補を抽出して、分類階層ごとに抽出した重要語候補と階層とを対応付けて記憶し、ある階層の重要語群を抽出する際に、該階層の重要語候補から該階層より上位階層における重要語を削除した、残りの重要語候補を該階層の重要語として記憶し、ユーザに提示する分類階層の重要語群および該分類階層の周辺の分類階層の重要語群もあわせて提示するようにしたことを特徴とする重要語提示方法。
- コンピュータに、請求項1乃至6のいずれかに記載の重要語提示装置の機能を実行させるためのプログラム。
- 請求項8に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004304226A JP4533084B2 (ja) | 2004-10-19 | 2004-10-19 | 重要語提示装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004304226A JP4533084B2 (ja) | 2004-10-19 | 2004-10-19 | 重要語提示装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006119717A true JP2006119717A (ja) | 2006-05-11 |
JP4533084B2 JP4533084B2 (ja) | 2010-08-25 |
Family
ID=36537574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004304226A Expired - Fee Related JP4533084B2 (ja) | 2004-10-19 | 2004-10-19 | 重要語提示装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4533084B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013015971A (ja) * | 2011-07-01 | 2013-01-24 | Kddi Corp | 代表的なコメント抽出方法およびプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09114839A (ja) * | 1995-10-19 | 1997-05-02 | Fuji Xerox Co Ltd | キーワード管理装置 |
JP2000066936A (ja) * | 1998-08-19 | 2000-03-03 | Fujitsu Ltd | フォルダ管理装置及び記録媒体 |
JP2001034516A (ja) * | 1999-07-22 | 2001-02-09 | Ricoh Co Ltd | 文書管理システム |
JP2002202905A (ja) * | 2000-10-27 | 2002-07-19 | Canon Inc | データ蓄積方法及び装置、並びに記憶媒体 |
JP2003067722A (ja) * | 2001-08-30 | 2003-03-07 | Fuji Photo Film Co Ltd | 画像情報管理方法及びシステム |
-
2004
- 2004-10-19 JP JP2004304226A patent/JP4533084B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09114839A (ja) * | 1995-10-19 | 1997-05-02 | Fuji Xerox Co Ltd | キーワード管理装置 |
JP2000066936A (ja) * | 1998-08-19 | 2000-03-03 | Fujitsu Ltd | フォルダ管理装置及び記録媒体 |
JP2001034516A (ja) * | 1999-07-22 | 2001-02-09 | Ricoh Co Ltd | 文書管理システム |
JP2002202905A (ja) * | 2000-10-27 | 2002-07-19 | Canon Inc | データ蓄積方法及び装置、並びに記憶媒体 |
JP2003067722A (ja) * | 2001-08-30 | 2003-03-07 | Fuji Photo Film Co Ltd | 画像情報管理方法及びシステム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013015971A (ja) * | 2011-07-01 | 2013-01-24 | Kddi Corp | 代表的なコメント抽出方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4533084B2 (ja) | 2010-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240248917A1 (en) | Methods and systems for a compliance framework database schema | |
US5513305A (en) | System and method for documenting and displaying computer program code | |
US6571247B1 (en) | Object oriented technology analysis and design supporting method | |
US7509345B2 (en) | Method and system for persisting and managing computer program clippings | |
CN100442274C (zh) | 用于编辑标记语言文档的方法和数据处理系统 | |
EP2041672B1 (en) | Methods and apparatus for reusing data access and presentation elements | |
US20070185876A1 (en) | Data handling system | |
US20120210298A1 (en) | Locating changes in source code | |
US7287029B1 (en) | Tagging data assets | |
KR20130115984A (ko) | 검색 기반 시스템 관리 | |
US8145580B2 (en) | Data management apparatus and method for managing data elements using a plurality of metadata elements | |
JP2006350477A (ja) | ファイル管理装置及びその制御方法、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体 | |
US20080140608A1 (en) | Information Managing Apparatus, Method, and Program | |
JP2008186356A (ja) | ドキュメントの整合性検査支援システムおよび方法、ならびにそのプログラム | |
US7100126B2 (en) | Electrical form design and management method, and recording medium | |
JP4533084B2 (ja) | 重要語提示装置 | |
KR100658029B1 (ko) | 문서 작성 프로그램을 기록한 컴퓨터 판독 가능한 기록매체, 문서 작성 시스템 및 문서 작성 방법 | |
JP2005173999A (ja) | 電子ファイル検索装置、電子ファイル検索システム、電子ファイル検索方法、プログラムおよび記録媒体 | |
KR100576487B1 (ko) | 컴포넌트화된 콘텐츠를 유지하기 위한 시스템 및 방법 | |
JPH09258975A (ja) | アプリケーションプログラムの構成作成支援方法 | |
JP2006048521A (ja) | 文書検索装置及びその制御方法、並びに制御プログラム | |
JP4253134B2 (ja) | 文書処理装置、文書処理方法、プログラムおよび記録媒体 | |
JP3707133B2 (ja) | 文書データベース管理装置および文書データベース管理方法 | |
JP2008299816A (ja) | 情報処理装置、データ表示方法及びデータ表示プログラム | |
JP2007080205A (ja) | 検索装置及び検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071001 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20090210 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20090316 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100223 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100421 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100608 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100611 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130618 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |