JP2001337969A - 知識獲得方法、文書情報構造化方法および装置と前記方法を実施するプログラムを記録した記録媒体 - Google Patents

知識獲得方法、文書情報構造化方法および装置と前記方法を実施するプログラムを記録した記録媒体

Info

Publication number
JP2001337969A
JP2001337969A JP2000158481A JP2000158481A JP2001337969A JP 2001337969 A JP2001337969 A JP 2001337969A JP 2000158481 A JP2000158481 A JP 2000158481A JP 2000158481 A JP2000158481 A JP 2000158481A JP 2001337969 A JP2001337969 A JP 2001337969A
Authority
JP
Japan
Prior art keywords
document
word
words
input
concepts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000158481A
Other languages
English (en)
Inventor
Etsuro Fujita
悦郎 藤田
Shinji Abe
伸治 安部
Yoshinobu Tonomura
佳伸 外村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000158481A priority Critical patent/JP2001337969A/ja
Publication of JP2001337969A publication Critical patent/JP2001337969A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 大量文書集合から複数の概念間の様々な関係
性に関する知識を獲得し、この知識に基づいて各文書に
対して入力概念が関連する文書情報を構造化および分類
し得る知識獲得方法、文書情報構造化方法および装置と
前記方法を実施するプログラムを記録した記録媒体を提
供する。 【解決手段】 複数の所望の概念を語として入力する語
入力処理(ステップS11)、この入力された語のAN
D検索を大量文書集合に対して実施して複数の入力概念
が関連する文書を検索するデータベース検索処理(ステ
ップS13)、この検索された文書集合の中から入力概
念と共起する度合いの高い語を入力概念間の関係性を表
現する知識と見なして抽出する高共起語抽出処理(ステ
ップS15)、この抽出した高共起語に基づいて前記検
索された各文書を索引付ける文書情報索引付け処理(ス
テップS17)からなる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の概念の間の
連想関係的な知識を大量文書集合から獲得する知識獲得
方法、この獲得した知識に基づいて文書情報を構造化す
る文書情報構造化方法、およびこれらの装置と前記知識
獲得方法、文書情報構造化方法を実施する知識獲得プロ
グラムおよび文書情報構造化プログラムを記録した記録
媒体に関する。
【0002】
【従来の技術】従来、語によって表現される複数の概念
の間の関係性を記述する技術としてシソーラス辞書を用
いる手法がよく知られている。この方法は、2つの概念
が入力されたとき、シソーラス辞書を照合して、2つの
概念を共通に含む上位概念が存在するか否かを調べ、存
在する場合には、その上位概念を前記入力された2つの
概念間相互の関係性として出力するものである。
【0003】また、近年、入力された概念間相互の関係
性を獲得する別の技術として、百科事典などの大量文書
集合を用いる手法が提案されている(安部伸治、松村秀
樹、藤田悦郎、小倉健司:「文書情報を介在させた映像
情報文脈編集技術」人口知能学会研究会資料 SIG-J-970
2-6,pp.33-38,1997 参照)。
【0004】上述した文献では、入力された2つの概念
を共通に含む記事文書が百科事典などの大量文書集合中
に存在するか否かを調べ、存在する場合には、その記事
文書の見出し語を入力概念間相互の関係性として出力し
ている。
【0005】語によって表現される事や物などの概念は
様々な関係性によって相互に結び付けられる。ここで、
語「御所」によって表現される概念と、語「平安神宮」
によって表現される概念とを例に挙げて説明すると、
「時代祭の行列は御所を出発して平安神宮に向かいま
す。」という知識から、両者は、例えば「時代祭」とい
う概念で結び付けられる。
【0006】また、「現在の御所は平安京大内裏に比べ
て位置が東にずれています。」と「平安神宮は平安京大
内裏の正庁を模して造られた。」という知識からは「平
安京大内裏」という概念で両者は結び付けられる。
【0007】また、「源氏物語の舞台は御所です。」と
「平安神宮の庭には源氏物語にちなむ樹木や草木が植え
られています。」という知識からは「源氏物語」という
概念で両者は結び付けられる。このことから、概念「御
所」と概念「平安神宮」とは(少なくとも)3つの異な
る概念(「平安京大内裏」、「源氏物語」、「時代
祭」)で連想的に結び付けられることになる。
【0008】
【発明が解決しようとする課題】上述したように、語に
よって表現される概念は本来様々な連想的関係によって
相互に結び付けられるものであるが、上記シソーラス辞
書を用いる従来技術では、入力された概念と概念に対す
る上位概念のみに着目するため、上述したような概念間
相互の様々な関係性を出力することは難しいという問題
点があった。
【0009】一方、上記大量文書集合を用いる従来技術
では、入力概念を同時に含む記事文書の見出し語に着目
することにより前者技術の制約は回避できるが、そもそ
も見出し語が記事全体の主題表現であるということか
ら、出力結果が必ずしも入力概念間の関係性を表現する
とは限らないという問題点があり、関係性の理解のため
にはしばしばユーザが記事の全文を読まなければならな
いという問題点があった。
【0010】本発明は、上記に鑑みてなされたもので、
その目的とするところは、大量文書集合から複数の概念
間の様々な関係性に関する知識を獲得し得るとともに、
この獲得した知識に基づいて各文書に対して入力概念が
同時に関連する文書情報を構造化および分類し得る知識
獲得方法、文書情報構造化方法および装置と前記方法を
実施するプログラムを記録した記録媒体を提供すること
にある。
【0011】
【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、概念の間の関係性に関す
る知識を大量文書集合から獲得する知識獲得方法であっ
て、複数の所望の概念を語として入力する語入力ステッ
プと、前記入力された語のAND検索を大量文書集合に
対して実施して前記複数の入力概念が同時に関連する文
書を検索する大量文書集合検索ステップと、前記検索さ
れた文書集合の中から前記入力概念と共起する度合いの
高い語を前記入力概念間の関係性を表現する知識と見な
して抽出する高共起語抽出ステップとを有することを要
旨とする。
【0012】請求項1記載の本発明にあっては、複数の
概念が語として入力されると、この入力された語のAN
D検索を大量文書集合に対して実施して複数の入力概念
が同時に関連する文書を検索し、この検索された文書集
合の中から入力概念と共起する度合いの高い語を入力概
念間の関係性を表現する知識と見なして抽出するため、
入力概念間におけるより様々な連想的関係性を大量文書
集合から抽出することができ、入力概念間相互の関係性
理解のための記事文書の本文を読まなければならないと
いう従来の問題を解消することができる。
【0013】また、請求項2記載の本発明は、請求項1
記載の発明において、前記大量文書集合検索ステップ
が、インターネット上に分散蓄積されたウェブページの
集合を大量文書集合とし、該ウェブページの集合からウ
ェブ検索エンジンを用いて前記複数の入力概念に関連す
るウェブページを検索することを要旨とする。
【0014】請求項2記載の本発明にあっては、インタ
ーネット上に分散蓄積されたウェブページの集合から複
数の入力概念に関連するウェブページを検索することが
できる。
【0015】更に、請求項3記載の本発明は、請求項1
または2記載の発明において、前記高共起語抽出ステッ
プが、機能語辞書を用いて、抽出する語から機能語を予
め除外することを要旨とする。
【0016】請求項3記載の本発明にあっては、機能語
辞書を用いて、抽出する語から例えば助詞や助動詞など
の機能語を予め除外することができる。
【0017】請求項4記載の本発明は、請求項1または
2または3記載の発明において、前記高共起語抽出ステ
ップが、領域辞書を用いて、抽出する語を予め限定する
ことを要旨とする。
【0018】請求項4記載の本発明にあっては、例えば
歴史、文化などの特定分野の領域辞書を用いて、抽出す
る語を予め限定することができる。
【0019】また、請求項5記載の本発明は、文書情報
に対して索引付けを実施する文書情報構造化方法であっ
て、請求項1記載の前記大量文書集合検索ステップで検
索された各文書に対して、請求項1記載の前記高共起語
抽出ステップで抽出された語を用いて、前記各文書に索
引語を割り当てる索引語割当ステップを有することを要
旨とする。
【0020】請求項5記載の本発明にあっては、大量文
書集合検索ステップで検索された各文書に対して高共起
語抽出ステップで抽出された語を用いて、各文書に索引
語を割り当てるため、この割り当てられた索引語から該
当する文書を適確に選択することができる。
【0021】更に、請求項6記載の本発明は、請求項5
記載の発明において、前記索引語割当ステップが、前記
検索された各文書に対して、前記高共起語抽出ステップ
で抽出された語のうち前記文書に含まれる語のすべてを
索引語と定め、前記文書に割り当てることを要旨とす
る。
【0022】請求項6記載の本発明にあっては、検索さ
れた各文書に対して、高共起語抽出ステップで抽出され
た語のうち前記文書に含まれる語のすべてを索引語と定
め、文書に割り当てる。
【0023】請求項7記載の本発明は、概念の間の関係
性に関する知識を大量文書集合から獲得する知識獲得装
置であって、複数の所望の概念を語として入力する語入
力手段と、前記入力された語のAND検索を大量文書集
合に対して実施して前記複数の入力概念が同時に関連す
る文書を検索する大量文書集合検索手段と、前記検索さ
れた文書集合の中から前記入力概念と共起する度合いの
高い語を前記入力概念間の関係性を表現する知識と見な
して抽出する高共起語抽出手段とを有することを要旨と
する。
【0024】請求項7記載の本発明にあっては、複数の
概念が語として入力されると、この入力された語のAN
D検索を大量文書集合に対して実施して複数の入力概念
が同時に関連する文書を検索し、この検索された文書集
合の中から入力概念と共起する度合いの高い語を入力概
念間の関係性を表現する知識と見なして抽出するため、
入力概念間におけるより様々な連想的関係性を大量文書
集合から抽出することができ、入力概念間相互の関係性
理解のための記事文書の本文を読まなければならないと
いう従来の問題を解消することができる。
【0025】また、請求項8記載の本発明は、文書情報
に対して索引付けを実施する文書情報構造化装置であっ
て、請求項7記載の前記大量文書集合検索手段で検索さ
れた各文書に対して、請求項7記載の前記高共起語抽出
手段で抽出された語を用いて、前記各文書に索引語を割
り当てる索引語割当手段を有することを要旨とする。
【0026】請求項8記載の本発明にあっては、大量文
書集合検索手段で検索された各文書に対して高共起語抽
出手段で抽出された語を用いて、各文書に索引語を割り
当てるため、この割り当てられた索引語から該当する文
書を適確に選択することができる。
【0027】更に、請求項9記載の本発明は、概念の間
の関係性に関する知識を大量文書集合から獲得する知識
獲得プログラムを記録する記録媒体であって、ユーザが
複数の所望の概念を語として入力する語入力手順と、前
記入力された語のAND検索を大量文書集合に対して実
施して前記複数の入力概念が同時に関連する文書を検索
する大量文書集合検索手順と、前記検索された文書集合
の中から前記入力概念と共起する度合いの高い語を前記
入力概念間の関係性を表現する知識と見なして抽出する
高共起語抽出手順とを有する知識獲得プログラムを記録
媒体に記録することを要旨とする。
【0028】請求項9記載の本発明にあっては、複数の
概念が語として入力されると、この入力された語のAN
D検索を大量文書集合に対して実施して複数の入力概念
が同時に関連する文書を検索し、この検索された文書集
合の中から入力概念と共起する度合いの高い語を入力概
念間の関係性を表現する知識と見なして抽出する知識獲
得プログラムを記録媒体に記録しているため、該記録媒
体を用いて、その流通性を高めることができる。
【0029】請求項10記載の本発明は、請求項9記載
の発明において、前記大量文書集合検索手順が、インタ
ーネット上に分散蓄積されたウェブページの集合を大量
文書集合とし、該ウェブページの集合からウェブ検索エ
ンジンを用いて前記複数の入力概念に関連するウェブペ
ージを検索する知識獲得プログラムを記録媒体に記録す
ることを要旨とする。
【0030】請求項10記載の本発明にあっては、イン
ターネット上に分散蓄積されたウェブページの集合から
複数の入力概念に関連するウェブページを検索する知識
獲得プログラムを記録媒体に記録しているため、該記録
媒体を用いて、その流通性を高めることができる。
【0031】また、請求項11記載の本発明は、請求項
9または10記載の発明において、前記高共起語抽出手
順が、機能語辞書を用いて、抽出する語から機能語を予
め除外する知識獲得プログラムを記録媒体に記録するこ
とを要旨とする。
【0032】請求項11記載の本発明にあっては、機能
語辞書を用いて、抽出する語から例えば助詞や助動詞な
どの機能語を予め除外する知識獲得プログラムを記録媒
体に記録しているため、該記録媒体を用いて、その流通
性を高めることができる。
【0033】更に、請求項12記載の本発明は、請求項
9または10または11記載の発明において、前記高共
起語抽出手順が、領域辞書を用いて、抽出する語を予め
限定する知識獲得プログラムを記録媒体に記録すること
を要旨とする。
【0034】請求項12記載の本発明にあっては、例え
ば歴史、文化などの特定分野の領域辞書を用いて、抽出
する語を予め限定する知識獲得プログラムを記録媒体に
記録しているため、該記録媒体を用いて、その流通性を
高めることができる。
【0035】請求項13記載の本発明は、文書情報に対
して索引付けを実施する文書情報構造化プログラムを記
録した記録媒体であって、請求項9記載の前記大量文書
集合検索手順で検索された各文書に対して、請求項9記
載の前記高共起語抽出手順で抽出された語を用いて、前
記各文書に索引語を割り当てる索引語割当手順を有する
文書情報構造化プログラムを記録媒体に記録することを
要旨とする。
【0036】請求項13記載の本発明にあっては、大量
文書集合検索手順で検索された各文書に対して高共起語
抽出手順で抽出された語を用いて、各文書に索引語を割
り当てる文書情報構造化プログラムを記録媒体に記録し
ているため、該記録媒体を用いて、その流通性を高める
ことができる。
【0037】また、請求項14記載の本発明は、請求項
13記載の発明において、前記索引語割当手順が、前記
検索された各文書に対して、前記高共起語抽出手順で抽
出された語のうち前記文書に含まれる語のすべてを索引
語と定め、前記文書に割り当てる文書情報構造化プログ
ラムを記録媒体に記録することを要旨とする。
【0038】請求項14記載の本発明にあっては、検索
された各文書に対して、高共起語抽出手順で抽出された
語のうち前記文書に含まれる語のすべてを索引語と定
め、文書に割り当てる文書情報構造化プログラムを記録
媒体に記録しているため、該記録媒体を用いて、その流
通性を高めることができる。
【0039】
【発明の実施の形態】以下、図面を用いて本発明の実施
の形態を説明する。図1は、本発明の一実施形態に係る
知識獲得方法および文書情報構造化方法を実施する知識
獲得・文書情報構造化システムの構成を示す図である。
【0040】図1に示す知識獲得・文書情報構造化シス
テムは、コンピュータ10および該コンピュータ10に
ネットワーク30を介して接続されている文書情報デー
タベース20から構成されている。また、ネットワーク
30にはインターネット40が接続され、インターネッ
ト40にはウェブ(WWW)検索エンジン41が接続さ
れていて、コンピュータ10はウェブ検索エンジン41
を介してインターネット40上に分散蓄積されているウ
ェブページの収集を行うことができるようになってい
る。
【0041】コンピュータ10は、CPU11、例えば
RAM,ROM、磁気ディスクなどからなるメモリ1
2、マウスやキーボードなどからなる指示入力部13、
および表示部14から構成されている。また、文書情報
データベース20は、百科事典などの記事文書を見出し
語別に格納した文書ファイル群21、および該文書ファ
イル群21に格納された記事文書の全文検索を実施する
DB検索エンジン22から構成されている。
【0042】次に、図2に示すフローチャートを参照し
て、上述したように構成される図1の知識獲得・文書情
報構造化システムの作用を説明する。
【0043】図2に示す処理は、ユーザが所望のN個の
概念を語としてコンピュータ10に入力する語入力処理
(ステップS11)、文書情報データベース20に対し
て上記入力されたN個の語のAND検索を実施して、入
力概念が同時に関連する記事文書を検索するデータベー
ス検索処理(ステップS13)、上記検索された記事文
書集合に現れる語の中から入力概念と共起する度合いの
高い語を入力概念間相互の関連性を表現する語と見なし
て抽出する高共起語抽出処理(ステップS15)、上記
求められた高共起語に基づいて上記検索された記事文書
を索引付ける文書情報索引付け処理(ステップS17)
からなる。
【0044】各処理について詳細に説明する。まず、語
入力処理(ステップS11)では、ユーザがキーボード
などの指示入力部13を用いて所望のN個の概念を語と
してコンピュータ10に入力する。ここでは簡単のため
N=2として説明する。なお、本知識獲得・文書情報構
造化プログラムの処理はN>2の場合もN=2と同様に
して実施される。ここでは例えば2つの概念として語
「御所」と語「平安神宮」を入力する。このとき、コン
ピュータ10は入力された語をメモリ12に記録する。
【0045】次に、データベース検索処理(ステップS
13)では、上記語入力処理でコンピュータ10のメモ
リ12に記録された所望の語をネットワーク30により
文書情報データベース20の検索エンジン22に提出
し、入力語のAND検索(例えば語「御所」と語「平安
神宮」のAND検索)を実施して、入力概念双方が同時
に関連する記事文書を検索する。そして、検索結果の記
事文書をネットワーク30を介してコンピュータ10に
送信して、コンピュータ10のメモリ12に記録する。
【0046】また、インターネット上では、ネットワー
クに分散蓄積された大量のウェブページの中から所望の
キーワードを含むウェブページを検索するウェブページ
検索サービスが提供されている。例えば、株式会社エヌ
ティ ティ・エムイー情報流通では、「goo」の名称
で、ユーザが入力したキーワードを含むウェブページを
ネットワークから自動的に収集してユーザに収集結果の
リストを提示するサービスを提供している。
【0047】このようなサービスを実現するウェブ検索
エンジンを用いることで、上記データベース検索処理
は、上記記事文書を上記データベース20から検索する
代わりに、入力概念が同時に関連するウェブページをイ
ンターネット40上から収集するものにしてもよい。
【0048】すなわち、上記語入力処理でコンピュータ
10のメモリ12に記録された所望の語をネットワーク
30およびインターネット40を介して(例えば「go
o」などの)ウェブ検索エンジン41に提出し、入力語
のAND検索を実施して入力語が同時に含まれるウェブ
ページを検索する。そして、検索されたウェブページを
インターネット40およびネットワーク30を介してコ
ンピュータ10に送信しコンピュータ10のメモリ12
に記録する。
【0049】次に、高共起語抽出処理(ステップS1
5)では、コンピュータ10のCPU11を動作して、
メモリ12に記録されている上記記事文書集合を読み出
して、それら集合に現れる語の中から入力された語以外
の語であって文書頻度がある閾値よりも大きい語を抽出
する(このとき記事文書の見出し語も処理の対象とす
る)。ただし、語の文書頻度とは、上記記事文書集合に
おいてその語が出現する文書数として定義する。この処
理で抽出される語は、上記記事文書集合において入力概
念両者と共起して現れる特徴を持ち、このことから、そ
のような語は入力概念間相互の関係性を表現する概念と
見なされる。抽出結果の語リストはコンピュータ10の
メモリ12に記録する。
【0050】なお、この抽出処理では、助詞や助動詞な
どの機能語は機能語辞書を用いて予め除外しておく。ま
た、歴史、文化などの特定分野の領域辞書を併用するこ
とによって抽出対象とする語を予め制限しておくもので
あってよい。
【0051】次に、上記ステップS15の高共起語抽出
処理の詳細について図3および図4に示すフローチャー
トを参照して説明する。
【0052】高共起語抽出処理では、まず文書集合読み
出し処理(ステップS21)において、メモリ12に記
録されている記事文書集合を読み出す。次に機能語除外
処理(ステップS23)において、上記文書集合に対し
て形態素解析を実施し、機能語辞書を用いて上記文書集
合に含まれる語から機能語を除外する。ここで、本処理
で抽出する語を歴史、文化などの特定分野のものに限定
するか否かを判定し(ステップS25)、限定する場合
には高共起性判定処理の前に抽出語限定処理(ステップ
S27)を実施しておく。抽出語限定処理では、所望の
領域辞書を用いて上記文書集合に含まれる語から辞書に
含まれる語のみを選び出す。
【0053】次の、高共起性判定処理(ステップS2
9)は、図4に示すように、機能語除外処理もしくは機
能語除外処理および抽出語限定処理の実施後残された、
上記文書集合の各語に対して、語の文書頻度を求める文
書頻度算出処理を実施する(ステップS33)。そし
て、当該値が一定の閾値Tよりも大きい場合には(ステ
ップS35)、当該語を高共起語と判定して当該語をメ
モリ12に記録する記録処理(ステップS37)を実施
し、すべての語について高共起性判定処理を実施する
(ステップS31)。
【0054】また、文書情報索引付け処理(ステップS
17)では、コンピュータ10のCPU11を動作し
て、上記処理でメモリ12に記録している語リストに基
づいて、上記データベース検索処理で検索した各記事文
書における入力概念間の関係性に関わる記述内容を推定
する。すなわち、検索された記事文書に対して、リスト
の各語が文書中に含まれるか否かを調べ、含まれる場合
にはその語をその記事文書における関連性表現と見なし
て索引付けを行う。
【0055】次に、前記ステップS17の文書情報索引
付け処理の詳細について図5および図6に示すフローチ
ャートを参照して説明する。
【0056】文書情報索引付け処理では、まず語リスト
読み出し処理(ステップS41)において、メモリ12
に記録された高共起語リストを読み出し、次に、上記検
索された記事文書集合の各文書に対して以下で説明する
索引語割当て処理(ステップS45)を実施して各文書
に対して索引語を割り当てる。この処理をすべての検索
記事に行う(ステップS43)。索引語割当て処理(ス
テップS45)は、図6に示すように、索引語の割り当
てが未実施の検索記事文書を1つ取り出して、これおよ
び上記高共起語リストの各語に対して以下で説明する語
頻度算出処理、記録処理を実施する(ステップS4
7)。
【0057】語頻度算出処理(ステップS49)では、
語の上記文書における出現頻度を求める。そして当該値
が0よりも大きいか否かを判定し(ステップS51)、
大きい場合に限り当該語を上記文書の索引語と定める。
記録処理(ステップS53)では、当該語を上記文書の
索引語としてメモリ12に記録する。
【0058】具体的には、例えば、上記高共起語抽出処
理によって抽出された高共起語リストが「時代祭」、
「平安京大内裏」、「源氏物語」、…である場合で、検
索されたある記事文書が「時代祭の行列は御所を出発し
て平安神宮に向かいます。」の一文のみからなるとする
と、この記事文書に対しては(少なくとも)「時代祭」
が索引語として割り当てられることになる。最後に、各
記事文書の索引語付け結果を各記事文書に対応付けてコ
ンピュータ10のメモリ12に記録して終了する。
【0059】なお、上記実施形態の知識獲得方法および
文書情報構造化方法の処理手順をプログラムとして記録
媒体に記録して、この記録媒体をコンピュータシステム
に組み込むとともに、該記録媒体に記録されたプログラ
ムをコンピュータシステムにダウンロードまたはインス
トールし、該プログラムでコンピュータシステムを作動
させることにより、知識獲得方法および文書情報構造化
方法を実施する知識獲得・文書情報構造化システムとし
て機能させることができることは勿論であり、このよう
な記録媒体を用いることにより、その流通性を高めるこ
とができるものである。
【0060】
【発明の効果】以上説明したように、本発明によれば、
複数の概念が語として入力されると、この入力された語
のAND検索を大量文書集合に対して実施して複数の入
力概念が関連する文書を検索し、この検索文書集合の中
から入力概念と共起する度合いの高い語を入力概念間の
関係性を表現する知識と見なして抽出するので、入力概
念間におけるより様々な連想的関係性を大量文書集合か
ら抽出することができ、入力概念間相互の関係性理解の
ためにユーザが記事文書の本文を読まなければならない
という従来の問題を解消することができる。
【0061】また、本発明によれば、大量文書集合検索
で検索された各文書に対して高共起語抽出で抽出された
語を用いて、各文書に索引語を割り当てるので、この割
り当てられた索引語から該当する文書を適確に選択する
ことができる。具体的には、高共起語抽出処理で得られ
た結果の語リストをコンピュータ10の表示部14に出
力してユーザがそれを閲覧選択できるようにし(例え
ば、「時代祭」、「平安京大内裏」、「源氏物語」、
…)の各語を表示する)、ユーザがそのリストからある
語を選択した場合には、その語が索引語として割り当て
られている記事文書の見出し語リストを表示部14に出
力してユーザがそれを閲覧選択できるようにし、更に、
ユーザがそのリストからある見出し語を選択した場合に
は、その見出し語の記事文書の本文を表示部14に出力
してユーザが閲覧できるようにすることができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る知識獲得方法および
文書情報構造化方法を実施する知識獲得・文書情報構造
化システムの構成を示す図である。
【図2】図1に示す知識獲得・文書情報構造化システム
の作用を示すフローチャートである。
【図3】図2に示すフローチャートのステップS15の
高共起語抽出処理の詳細を示すフローチャートである。
【図4】図2に示すフローチャートのステップS29の
高共起性判定処理の詳細を示すフローチャートである。
【図5】図2に示すフローチャートのステップS17の
文書情報索引付け処理の詳細を示すフローチャートであ
る。
【図6】図5に示すフローチャートのステップS45の
索引語割当て処理の詳細を示すフローチャートである。
【符号の説明】
10 コンピュータ 12 メモリ 13 指示入力部 14 表示部 20 文書情報データベース 21 文書ファイル群 22 DB検索エンジン 30 ネットワーク 40 インターネット 41 ウェブ検索エンジン
フロントページの続き (72)発明者 外村 佳伸 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5B075 ND03 NK35 PP02 PP03 PP12 PQ02 PQ46 PR04

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 概念の間の関係性に関する知識を大量文
    書集合から獲得する知識獲得方法であって、 複数の所望の概念を語として入力する語入力ステップ
    と、 前記入力された語のAND検索を大量文書集合に対して
    実施して前記複数の入力概念が同時に関連する文書を検
    索する大量文書集合検索ステップと、 前記検索された文書集合の中から前記入力概念と共起す
    る度合いの高い語を前記入力概念間の関係性を表現する
    知識と見なして抽出する高共起語抽出ステップとを有す
    ることを特徴とする知識獲得方法。
  2. 【請求項2】 前記大量文書集合検索ステップは、イン
    ターネット上に分散蓄積されたウェブページの集合を大
    量文書集合とし、該ウェブページの集合からウェブ検索
    エンジンを用いて前記複数の入力概念に関連するウェブ
    ページを検索することを特徴とする請求項1記載の知識
    獲得方法。
  3. 【請求項3】 前記高共起語抽出ステップは、機能語辞
    書を用いて、抽出する語から機能語を予め除外すること
    を特徴とする請求項1または2記載の知識獲得方法。
  4. 【請求項4】 前記高共起語抽出ステップは、領域辞書
    を用いて、抽出する語を予め限定することを特徴とする
    請求項1または2または3記載の知識獲得方法。
  5. 【請求項5】 文書情報に対して索引付けを実施する文
    書情報構造化方法であって、 請求項1記載の前記大量文書集合検索ステップで検索さ
    れた各文書に対して、請求項1記載の前記高共起語抽出
    ステップで抽出された語を用いて、前記各文書に索引語
    を割り当てる索引語割当ステップを有することを特徴と
    する文書情報構造化方法。
  6. 【請求項6】 前記索引語割当ステップは、前記検索さ
    れた各文書に対して、前記高共起語抽出ステップで抽出
    された語のうち前記文書に含まれる語のすべてを索引語
    と定め、前記文書に割り当てることを特徴とする請求項
    5記載の文書情報構造化方法。
  7. 【請求項7】 概念の間の関係性に関する知識を大量文
    書集合から獲得する知識獲得装置であって、 複数の所望の概念を語として入力する語入力手段と、 前記入力された語のAND検索を大量文書集合に対して
    実施して前記複数の入力概念が同時に関連する文書を検
    索する大量文書集合検索手段と、 前記検索された文書集合の中から前記入力概念と共起す
    る度合いの高い語を前記入力概念間の関係性を表現する
    知識と見なして抽出する高共起語抽出手段とを有するこ
    とを特徴とする知識獲得装置。
  8. 【請求項8】 文書情報に対して索引付けを実施する文
    書情報構造化装置であって、 請求項7記載の前記大量文書集合検索手段で検索された
    各文書に対して、請求項7記載の前記高共起語抽出手段
    で抽出された語を用いて、前記各文書に索引語を割り当
    てる索引語割当手段を有することを特徴とする文書情報
    構造化装置。
  9. 【請求項9】 概念の間の関係性に関する知識を大量文
    書集合から獲得する知識獲得プログラムを記録する記録
    媒体であって、 ユーザが複数の所望の概念を語として入力する語入力手
    順と、 前記入力された語のAND検索を大量文書集合に対して
    実施して前記複数の入力概念が同時に関連する文書を検
    索する大量文書集合検索手順と、 前記検索された文書集合の中から前記入力概念と共起す
    る度合いの高い語を前記入力概念間の関係性を表現する
    知識と見なして抽出する高共起語抽出手順とを有するこ
    とを特徴とする知識獲得プログラムを記録した記録媒
    体。
  10. 【請求項10】 前記大量文書集合検索手順は、インタ
    ーネット上に分散蓄積されたウェブページの集合を大量
    文書集合とし、該ウェブページの集合からウェブ検索エ
    ンジンを用いて前記複数の入力概念に関連するウェブペ
    ージを検索することを特徴とする請求項9記載の知識獲
    得プログラムを記録した記録媒体。
  11. 【請求項11】 前記高共起語抽出手順は、機能語辞書
    を用いて、抽出する語から機能語を予め除外することを
    特徴とする請求項9または10記載の知識獲得プログラ
    ムを記録した記録媒体。
  12. 【請求項12】 前記高共起語抽出手順は、領域辞書を
    用いて、抽出する語を予め限定することを特徴とする請
    求項9または10または11記載の知識獲得プログラム
    を記録した記録媒体。
  13. 【請求項13】 文書情報に対して索引付けを実施する
    文書情報構造化プログラムを記録した記録媒体であっ
    て、 請求項9記載の前記大量文書集合検索手順で検索された
    各文書に対して、請求項9記載の前記高共起語抽出手順
    で抽出された語を用いて、前記各文書に索引語を割り当
    てる索引語割当手順を有することを特徴とする文書情報
    構造化プログラムを記録した記録媒体。
  14. 【請求項14】 前記索引語割当手順は、前記検索され
    た各文書に対して、前記高共起語抽出手順で抽出された
    語のうち前記文書に含まれる語のすべてを索引語と定
    め、前記文書に割り当てることを特徴とする請求項13
    記載の文書情報構造化プログラムを記録した記録媒体。
JP2000158481A 2000-05-29 2000-05-29 知識獲得方法、文書情報構造化方法および装置と前記方法を実施するプログラムを記録した記録媒体 Pending JP2001337969A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000158481A JP2001337969A (ja) 2000-05-29 2000-05-29 知識獲得方法、文書情報構造化方法および装置と前記方法を実施するプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000158481A JP2001337969A (ja) 2000-05-29 2000-05-29 知識獲得方法、文書情報構造化方法および装置と前記方法を実施するプログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2001337969A true JP2001337969A (ja) 2001-12-07

Family

ID=18662948

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000158481A Pending JP2001337969A (ja) 2000-05-29 2000-05-29 知識獲得方法、文書情報構造化方法および装置と前記方法を実施するプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2001337969A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008518345A (ja) * 2004-10-28 2008-05-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ データ処理システム及びデータ処理方法
JP2009026108A (ja) * 2007-07-20 2009-02-05 Uchida Yoko Co Ltd 発想支援装置、発想支援システム、発想支援プログラム及び発想支援方法
JP5741577B2 (ja) * 2010-05-28 2015-07-01 富士通株式会社 情報生成プログラム、情報生成装置、および情報生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09204433A (ja) * 1996-01-24 1997-08-05 Fuji Xerox Co Ltd キーワード設定装置
JPH1074210A (ja) * 1996-07-05 1998-03-17 Hitachi Ltd 文献検索支援方法及び装置およびこれを用いた文献検索サービス
JPH10124522A (ja) * 1996-10-22 1998-05-15 Fujitsu Ltd 情報検索装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09204433A (ja) * 1996-01-24 1997-08-05 Fuji Xerox Co Ltd キーワード設定装置
JPH1074210A (ja) * 1996-07-05 1998-03-17 Hitachi Ltd 文献検索支援方法及び装置およびこれを用いた文献検索サービス
JPH10124522A (ja) * 1996-10-22 1998-05-15 Fujitsu Ltd 情報検索装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008518345A (ja) * 2004-10-28 2008-05-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ データ処理システム及びデータ処理方法
KR101303363B1 (ko) * 2004-10-28 2013-09-03 코닌클리케 필립스 일렉트로닉스 엔.브이. 데이터 처리 시스템 및 방법
JP2009026108A (ja) * 2007-07-20 2009-02-05 Uchida Yoko Co Ltd 発想支援装置、発想支援システム、発想支援プログラム及び発想支援方法
JP5741577B2 (ja) * 2010-05-28 2015-07-01 富士通株式会社 情報生成プログラム、情報生成装置、および情報生成方法
US9501557B2 (en) 2010-05-28 2016-11-22 Fujitsu Limited Information generating computer product, apparatus, and method; and information search computer product, apparatus, and method

Similar Documents

Publication Publication Date Title
US6442540B2 (en) Information retrieval apparatus and information retrieval method
KR100572797B1 (ko) 데이터베이스 검색 방법, 데이터베이스 검색 시스템 및 컴퓨터 판독 가능 기록 매체
US10997678B2 (en) Systems and methods for image searching of patent-related documents
US6389412B1 (en) Method and system for constructing integrated metadata
US6665661B1 (en) System and method for use in text analysis of documents and records
EP1217535A2 (en) Method and apparatus for generating normalized representations of strings
JP2006048686A (ja) フレーズに基づく文書説明の生成方法
JP2006048683A (ja) 情報検索システムにおけるフレーズ識別方法
US20100131485A1 (en) Method and system for automatic construction of information organization structure for related information browsing
JP2005251115A (ja) 連想検索システムおよび連想検索方法
JP2004178604A (ja) 情報検索装置及びその方法
US9971828B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
JP2004178123A (ja) 情報処理装置、該情報処理装置を実現するためのプログラム
Rashid et al. A study on semantic searching, semantic search engines and technologies used for semantic search engines
JP2003150623A (ja) 言語横断型特許文献検索方法
KR102281266B1 (ko) 영상 내 자막 키워드 추출 및 순위 산정 시스템 및 방법
JPH09223150A (ja) 情報分類処理方法
JP2001337969A (ja) 知識獲得方法、文書情報構造化方法および装置と前記方法を実施するプログラムを記録した記録媒体
JP2008197952A (ja) テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体
JP2002049638A (ja) 文書情報検索装置、方法、文書情報検索プログラム及び文書情報検索プログラムを格納したコンピュータ可読の記録媒体
KR100942902B1 (ko) 웹페이지 검색 방법 및 상기 방법을 컴퓨터에서 구현하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
JP7428035B2 (ja) データ検索装置、データ検索方法およびプログラム
JP4368550B2 (ja) 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム
JPH0991305A (ja) 情報処理方法及び装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040720

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041102

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050308