JP2005208838A - ラベル表示型文書検索装置、ラベル表示型文書検索方法、ラベル表示型文書検索方法を実行させるコンピュータプログラム並びにこのコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体 - Google Patents

ラベル表示型文書検索装置、ラベル表示型文書検索方法、ラベル表示型文書検索方法を実行させるコンピュータプログラム並びにこのコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP2005208838A
JP2005208838A JP2004013398A JP2004013398A JP2005208838A JP 2005208838 A JP2005208838 A JP 2005208838A JP 2004013398 A JP2004013398 A JP 2004013398A JP 2004013398 A JP2004013398 A JP 2004013398A JP 2005208838 A JP2005208838 A JP 2005208838A
Authority
JP
Japan
Prior art keywords
document
label
information
display type
attribute value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004013398A
Other languages
English (en)
Other versions
JP4146361B2 (ja
Inventor
Hiroyuki Toda
浩之 戸田
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004013398A priority Critical patent/JP4146361B2/ja
Publication of JP2005208838A publication Critical patent/JP2005208838A/ja
Application granted granted Critical
Publication of JP4146361B2 publication Critical patent/JP4146361B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 管理者による文書の更新に応じた設定変更やユーザによる煩雑な操作を不要にできる文書検索装置を提供する。
【解決手段】 検索された文書に含まれた属性値を文書のラベルとするときの適合度をラベル適合度算出部114が算出し、ラベル決定部115が適合度の高い方から、当該属性値の数よりも少ない数の属性値をラベルとして選択し、選択されたラベルを示すラベル情報を記憶する。そして、要求処理部102が、ラベル情報を読み出すとともに当該ラベル情報をブラウザ2に送信することによりラベルを表示させ、ラベルがユーザにより指示された場合、このラベルを含み且つ検索された文書の中にも含まれる文書を文書検索部109が文書DB106から読み出し、これを要求処理部102がブラウザ2に送信して表示させる。
【選択図】図1

Description

本発明は、文書のラベルを表示させてから文書を表示させるラベル表示型文書検索装置に関するものである。
コンピュータネットワークにおける検索システムにおいて、検索結果を効率的に絞り込ませる検索システムとして以下のものが知られている。
・ランキング付き検索システム
google(登録商標)などに代表されるキーワード入力型の検索システムでは、入力されたキーワードを含むコンテンツを、入力したキーワードとの類似度(非特許文献1)やコンテンツの重要度を示すPageRank(非特許文献2に記載)順にコンテンツをランキングすることで、より効率的に所望のコンテンツに到達することが出来る。
・Relevance Feedbackシステム
ユーザに対して検索結果を提示し、その検索結果に対するユーザの評価を一度検索システムに返却し、その情報を元に検索条件式を変更することで、検索結果を返却するシステムである。これによって、ユーザは自身の意図するものに近い検索結果を得ることができる(非特許文献3に記載)。
・クラスタリングシステム
「適合文書同士は類似している」と言う仮定に基づき、文書間の類似度を元にクラスタを生成し、ユーザに対して検索結果を分類し提示する手法。ユーザは検索結果に含まれるコンテンツ全てを評価することなく、所望の情報に効率的に到達可能となる(非特許文献4に記載)。
・クエリー拡張システム
ユーザが入力したクエリーに関連するキーワードを提示し、ユーザがインタラクティブにクエリーを修正、変更し、効率的に所望のコンテンツを得る手法。テキストコーパスからあらかじめ関連語を取得しておく手法や、入力された検索要求から得られた検索結果を解析することで得たデータを利用するものがある(非特許文献5に記載)。
tf-idf;Salton, G. et al."Introduction to Modern Information Retrieval" McGraw-Hill Book Company, 1983 Brin, S. and Page, L., "The Anatomy of a Large-Scale Hypertextual Web Search Engine" Proceedings of 7th WWW Conference, 1998. Ricardo Baeza-Yates and Berthier Ribeiro-Neto, "Modern Information Retrieval", 1999 Anton Leuski, "Evaluating Document Clustering for Interactive Information Retrieval", Proceedings of the 2001 ACM CIKM International Conference on Information and Knowledge Management, 2001. H. Sakai, K. Ohtake and S. Masuyama, A retrieval support system by suggesting terms to a user, in Proceedings 2001 International Conference on Chinese Language Computing, 2001.
しかしながら、上記した各検索システムには、以下のような不都合がある。
ランキング付き検索システムでは、検索結果を優先度付きのリストによって提示するが、検索要求によって十分検索結果が絞られなかった場合、ユーザは膨大な検索結果のリストの中から所望のコンテンツを検索するか、新たな絞り込み用の検索条件を用意し、再検索を行わなければならない。前者は当然ながら大きなコストを要するし、後者についても一般に困難であることが知られている。
Relevance Feedbackシステムは、検索結果の上位数件〜数十件程度に対してユーザが適合、不適合の評価を行うことで検索要求を改善し、よりユーザの要求に近い検索結果を取得することが出来るので、手法的に直感的でよいが、実際には、ユーザが文書の適合不適合を判定するために多くの文書を判定しなければならない。この手法は一つの検索により多くのコストをかけて、確実にすべての適合文書を見つけるような再現率を重視するアプローチとしては有用であるが、テレビのチャンネルを選択するように一つでも気に入るものを見つけるというアプローチにおいてはユーザにかかるコストが大きすぎる。
クラスタリングシステムは、検索結果を分類する事により、ユーザが所望の検索結果に到達することを支援することができるが、一般にクラスタリングシステムは、クラスタリングの処理時間の制約により、クラスタリングの質とのトレードオフを考慮しなければならない。そこでK-Means法等のクラスタの数をあらかじめ決定するような手法が取られる。しかし、実際のトピックの分類数と決定した値が一致しない場合には、不明瞭なクラスタが生成され、それぞれのクラスタの内容を示すラベル付けが困難となり、生成されたラベルを一見してクラスタの内容を把握できない不明瞭なものとなることがある等の問題がある。
なお、カテゴライジングシステム、つまりあらかじめラベル付きのバスケットの中にラベルに適合する文書を投入することでラベルに関しては問題を解消したシステムがあるが、カテゴリの生成は人手で行なうことが前提となっており、カテゴリの定義、コンテンツの更新に伴うカテゴリのメンテナンスが情報検索システムの管理者にとって大きなコストとなるという問題がある。
クエリー拡張システムでは、クエリーと文書中で共起する語などを利用することで、ユーザが検索式を効率的に拡張することを可能とし、これにより容易に検索結果を絞り込むことが可能となるが、クエリー候補の属性を考慮しないと、クエリー候補とする語のレベルが不均一になり、検索結果全体から情報を選択することが難しくなる。
つまり、従来の検索システムでは、ユーザに対して膨大なリストからのコンテンツの探索を強いること、また、これを解決する手段においてもユーザやシステム管理者に多くのコストを強要したり、提供する情報自体が不十分な手法となるという問題がある。
本発明は、上記の課題に鑑みてなされたものであり、管理者による文書の更新に応じた設定変更やユーザによる煩雑な操作を不要にできる文書検索装置を提供することにある。
上記の課題を解決するために、請求項1の本発明は、文書を記憶した文書記憶手段から文書を検索する文書検索手段と、前記検索された文書に含まれた属性値を文書のラベルとするときの適合度を算出し、適合度の高い方から、当該属性値の数よりも少ない数の属性値をラベルとして選択し、選択されたラベルを示すラベル情報を記憶するラベル選択手段と、前記記憶されたラベル情報を読み出すとともに当該ラベル情報によりラベルを表示させ、ラベルが指示された場合、このラベルを含み且つ前記検索された文書の中にも含まれる文書を前記文書記憶手段から読み出して表示させる文書表示制御手段とを備えることを特徴とするラベル表示型文書検索装置をもって解決手段とする。
請求項1の本発明によれば、検索された文書に含まれた属性値の数よりも少ない数の属性値をラベルとして適合度の高い方から選択したので、ラベルを予め用意する必要がなく、しかもラベルの数を少なくでき、その結果、管理者による文書の更新に応じた設定変更やユーザによる煩雑な操作が不要となる。
請求項2の本発明は、属性名で属性値が分類され、前記ラベルの選択及び表示が属性名ごとに行われるように制御することを特徴とする請求項1記載のラベル表示型文書検索装置をもって解決手段とする。
請求項2の本発明によれば、ラベルの選択及び表示が属性名ごとに行われるように制御するので、ラベルの数を少なくして表示させることを属性名ごとに行うことができる。
請求項3の本発明は、前記選択されたラベルの1つを含み且つ前記検索された文書の中にも含まれる文書を示すクラスタ情報を生成するクラスタ情報生成手段と、前記クラスタ情報で示される文書と当該クラスタ情報で示されない文書との類似度を算出し、この類似度が高い場合、後者の文書が示されるようにクラスタ情報を変更するクラスタ情報変更手段とを備え、前記文書表示制御手段は、ラベルが指示された場合、前記変更されたクラスタ情報で示される文書の存在を表示させ、文書が指示された場合、この文書を前記文書記憶手段から読み出して表示させることを特徴とする請求項1または2記載のラベル表示型文書検索装置をもって解決手段とする。
請求項3の本発明によれば、類似度を算出し、類似度が高い場合、クラスタに含まれない文書が示されるようにクラスタ情報を変更することで、少なく表示させたラベルの指示により表示される文書数を多くすることができるので、所望の文書を表示させることのできる可能性が高まる。
請求項4の本発明は、ラベルとするときの適合度を算出する対象の属性値を含み且つ前記検索された文書にも含まれる文書の数と、当該属性値を含み且つ前記文書記憶手段にも記憶された文書の数とを用いてラベルの適合度を算出することを特徴とする請求項1乃至3のいずれかに記載のラベル表示型文書検索装置をもって解決手段とする。
請求項4記載の本発明では、検索された文書の数と記憶された文書の数によりラベルの適合度を算出するようにしている。
請求項5の本発明は、前記クラスタ情報で示される文書を示すクラスタベクトルと当該クラスタ情報で示されない文書を示す文書ベクトルとの余弦尺度を類似度とすることを特徴とする請求項3または4記載のラベル表示型文書検索装置をもって解決手段とする。
請求項5の本発明では、クラスタベクトルと文書ベクトルの余弦尺度を類似度とするようにしている。
請求項6の本発明は、前記文書記憶手段に記憶された文書に含まれた属性値についての統計情報を生成する統計情報生成手段と、生成された統計情報が記憶される統計情報記憶手段とを備え、前記ラベル選択手段は、当該記憶された統計情報を用いてラベルとするときの適合度を算出することを特徴とする請求項1乃至5のいずれかに記載のラベル表示型文書検索装置をもって解決手段とする。
請求項6の本発明によれば、統計情報を記憶しておくことにより、検索時に統計情報を生成する必要がなくなるので、検索時に迅速な処理が行える。
請求項7の本発明は、前記文書記憶手段に記憶された文書に含まれた属性値を正規化する属性値正規化手段を備えること特徴とする請求項1乃至6のいずれかに記載のラベル表示型文書検索装置をもって解決手段とする。
請求項7の本発明によれば、属性値を正規化することで正規化されたラベルを表示させることができる。
請求項8の本発明は、属性値の指示がない文書から当該指示のある文書を生成し前記文書記憶手段に記憶させる文書生成手段を備えること特徴とする請求項1乃至7のいずれかに記載のラベル表示型文書検索装置をもって解決手段とする。
請求項8の本発明によれば、属性値の指示がない文書から指示のある文書を生成するので属性値の指示が不要になる。
請求項9の本発明は、文書を記憶した文書記憶手段から文書を検索し、前記検索された文書に含まれた属性値を文書のラベルとするときの適合度を算出し、適合度の高い方から、当該属性値の数よりも少ない数の属性値をラベルとして選択し、選択されたラベルを示すラベル情報を記憶させ、前記記憶されたラベル情報を読み出すとともに当該ラベル情報によりラベルを表示させ、ラベルが指示された場合、このラベルを含み且つ前記検索された文書の中にも含まれる文書を前記文書記憶手段から読み出して表示させることを特徴とするラベル表示型文書検索方法をもって解決手段とする。
請求項9の本発明によれば、検索された文書に含まれた属性値の数よりも少ない数の属性値をラベルとして適合度の高い方から選択したので、ラベルを予め用意する必要がなく、しかもラベルの数を少なくでき、その結果、管理者による文書の更新に応じた設定変更やユーザによる煩雑な操作が不要となる。
請求項10の本発明は、属性名で属性値が分類され、前記ラベルの選択及び表示が属性名ごとに行われるように制御することを特徴とする請求項9記載のラベル表示型文書検索方法をもって解決手段とする。
請求項10の本発明によれば、ラベルの選択及び表示が属性名ごとに行われるように制御するので、ラベルの数を少なくして表示させることを属性名ごとに行うことができる。
請求項11の本発明は、文書を記憶した文書記憶手段から文書を検索し、前記検索された文書に含まれた属性値を文書のラベルとするときの適合度を算出し、適合度の高い方から、当該属性値の数よりも少ない数の属性値をラベルとして選択し、選択されたラベルを示すラベル情報を記憶させ、前記選択されたラベルの1つを含み且つ前記検索された文書の中にも含まれる文書を示すクラスタ情報を生成し、前記クラスタ情報で示される文書と当該クラスタ情報で示されない文書との類似度を算出し、この類似度が高い場合、後者の文書が示されるようにクラスタ情報を変更し、前記記憶されたラベル情報を読み出すとともに当該ラベル情報によりラベルを表示させ、ラベルが指示された場合、前記変更されたクラスタ情報で示される文書の存在を表示させ、文書が指示された場合、この文書を前記文書記憶手段から読み出して表示させることを特徴とするラベル表示型文書検索方法をもって解決手段とする。
請求項11の本発明によれば、類似度を算出し、類似度が高い場合、クラスタに含まれない文書が示されるようにクラスタ情報を変更することで、少なく表示させたラベルの指示により表示される文書数を多くすることができるので、所望の文書を表示させることのできる可能性が高まる。
請求項12の本発明は、ラベルとするときの適合度を算出する対象の属性値を含み且つ前記検索された文書にも含まれる文書の数と、当該属性値を含み且つ前記文書記憶手段にも記憶された文書の数とを用いてラベルの適合度を算出することを特徴とする請求項9乃至11のいずれかに記載のラベル表示型文書検索方法をもって解決手段とする。
請求項12記載の本発明では、検索された文書の数と記憶された文書の数によりラベルの適合度を算出するようにしている。
請求項13の本発明は、前記クラスタ情報で示される文書を示すクラスタベクトルと当該クラスタ情報で示されない文書を示す文書ベクトルとの余弦尺度を類似度とすることを特徴とする請求項11または12記載のラベル表示型文書検索方法をもって解決手段とする。
請求項13の本発明では、クラスタベクトルと文書ベクトルの余弦尺度を類似度とするようにしている。
請求項14の本発明は、前記文書記憶手段に記憶された文書に含まれた属性値についての統計情報を生成し、前記ラベル選択では、当該記憶された統計情報を用いてラベルとするときの適合度を算出することを特徴とする請求項9乃至13のいずれかに記載のラベル表示型文書検索方法をもって解決手段とする。
請求項14の本発明によれば、統計情報を記憶しておくことにより、検索時に統計情報を生成する必要がなくなるので、検索時に迅速な処理が行える。
請求項15の本発明は、前記文書記憶手段に記憶された文書に含まれた属性値を正規化すること特徴とする請求項9乃至14のいずれかに記載のラベル表示型文書検索方法をもって解決手段とする。
請求項15の本発明によれば、属性値を正規化することで正規化されたラベルを表示させることができる。
請求項16の本発明は、属性値の指示がない文書から当該指示のある文書を生成し前記文書記憶手段に記憶させること特徴とする請求項9乃至15のいずれかに記載のラベル表示型文書検索方法をもって解決手段とする。
請求項16の本発明によれば、属性値の指示がない文書から指示のある文書を生成するので属性値の指示が不要になる。
請求項17の本発明は、請求項9乃至16のいずれかに記載のラベル表示型文書検索方法をコンピュータに実行させるコンピュータプログラムをもって解決手段とする。
請求項17の本発明によれば、ラベル表示型文書検索方法をコンピュータに実行させるコンピュータプログラムにより流通性が高まる。
請求項18の本発明は、請求項9乃至16のいずれかに記載のラベル表示型文書検索方法をコンピュータに実行させるコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体をもって解決手段とする。
請求項18の本発明によれば、ラベル表示型文書検索方法をコンピュータに実行させるコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体により流通性が高まる。
本発明によれば、文書を記憶した文書記憶手段から文書を検索し、検索された文書に含まれた属性値を文書のラベルとするときの適合度を算出し、適合度の高い方から、当該属性値の数よりも少ない数の属性値をラベルとして選択し、選択されたラベルを示すラベル情報を記憶させ、記憶されたラベル情報を読み出すとともに当該ラベル情報によりラベルを表示させ、ラベルが指示された場合、このラベルを含み且つ検索された文書の中にも含まれる文書を文書記憶手段から読み出して表示させるので、ラベルを予め用意する必要がなく、しかもラベルの数を少なくでき、その結果、管理者による文書の更新に応じた設定変更やユーザによる煩雑な操作が不要となる。
また、文書を記憶した文書記憶手段から文書を検索し、検索された文書に含まれた属性値を文書のラベルとするときの適合度を算出し、適合度の高い方から、当該属性値の数よりも少ない数の属性値をラベルとして選択し、選択されたラベルを示すラベル情報を記憶させ、選択されたラベルの1つを含み且つ検索された文書の中にも含まれる文書を示すクラスタ情報を生成し、クラスタ情報で示される文書と当該クラスタ情報で示されない文書との類似度を算出し、この類似度が高い場合、後者の文書が示されるようにクラスタ情報を変更し、記憶されたラベル情報を読み出すとともに当該ラベル情報によりラベルを表示させ、ラベルが指示された場合、変更されたクラスタ情報で示される文書の存在を表示させ、文書が指示された場合、この文書を文書記憶手段から読み出して表示させるので、管理者による文書の更新に応じた設定変更やユーザによる煩雑な操作が不要となることに加えて、少なく表示させたラベルの指示により表示される文書数を多くすることができるので、所望の文書を表示させることのできる可能性が高まる。
以下、本発明の実施の形態を図面を参照して説明する。
[第1の実施の形態]
図1は、第1の実施の形態の装置構成を示すブロック図である。これより、文書をニュース記事としたときの例を示しながら説明を行う。
検索装置1は、文書を検索するサーバコンピュータであり、本発明のラベル表示型文書検索方法を実行するラベル表示型文書検索装置に相当する。検索装置1は、図示しないネットワークを介して接続されたクライアントコンピュータのブラウザ2に対し通信可能となっている。
ブラウザ2は、キーボードやマウス等の入力装置を介してキーワードが入力されるキーワード入力部21と、このキーワードにより検索された文書を図示しないCRT(Cathode Ray Tube)やLCD(Liquid CrystalDisplay)等からなる表示装置に表示させる文書表示制御部22とを備える。
ブラウザ2は、検索された文書を表示させる前に、文書に含まれる属性値をラベルとしてしかも当該属性値の属性名で分類して表示させる。そして、いずれかのラベルがクリックなどで指示されたときに、そのラベル(属性値)を含む文書の題名などを表示させ、いずれかの題名が指定されたときに、その題名の文書を表示させるようになっている。
検索装置1は、ブラウザ2からキーワードを受信し、検索された文書をブラウザ2に送信する通信部101と、通信部101から与えられるキーワードによる文書検索などを制御する要求処理部102とを備える。
また、検索装置1は、文書検索で使われる情報が書き込まれた設定ファイル103を備える。この設定ファイル103には、検索において用いられる属性名「ジャンル」、「組織」などが書き込まれている。また、この設定ファイル103には、選択されるラベルの数が書き込まれている。また、設定ファイル103には、表示させる属性名としての適合度(属性名適合度という)を求める際に使用されるパラメータα、β及びγが書き込まれている。また、設定ファイル103には、各種しきい値などが書き込まれる。
また、検索装置1は、タグ無し文書、すなわち、設定ファイル103に書き込まれた属性名のいずれかに分類される属性値を含んでいるがその属性値に属性名(タグ)が付与されていない文書を入力し、それに対して、ニュース記事管理者などが、いわゆる手動でタグを付すことにより文書を生成する文書生成部104と、タグ無し文書を入力し、その属性値に対し自動的にタグを付すことにより、タグ付き文書(単に文書ともいう)を生成する文書生成部105と、文書生成部104や文書生成部105で生成された文書が格納される文書データベース(以下、データベースをDBと略記する)106とを備える。
また、検索装置1は、文書DB106に格納された文書に含まれる属性値を正規化する正規化部107を備える。
また、検索装置1は、文書DB106に格納された文書に含まれるワード(属性値でもよい)とそのワードが含まれた文書を示す文書識別情報(以下、識別情報をIDという)とを対応づけたインデクス107を生成するインデクス生成部108と、キーワードとインデクス107を基に文書DB106から文書を検索する文書検索部109とを備える。
また、検索装置1は、設定ファイル103の属性名ごとに生成された第1統計情報が格納される第1統計情報DB110と、第1統計情報ごとに生成された第2統計情報が格納される第2統計情報DB111と、第1統計情報及び第2統計情報を生成する統計処理部112を備える。
また、検索装置1は、設定ファイル103の属性名ごとに複数の属性値をラベル候補として選択するラベル候補選択部113と、そのラベル候補を文書のラベルとするときの適合度(ラベル適合度という)を算出するラベル適合度算出部114と、算出されたラベル適合度を基にラベルを決定するラベル決定部115とを備える。
また、検索装置1は、決定されたラベルごとにクラスタ情報を生成するクラスタ情報生成部116を備える。なお、本実施の形態でクラスタとは、1つのラベルを含む1以上の検索された文書をいう。
[検索前処理]
次に、検索装置1が検索前に行う処理を説明する。
図2は、検索装置1が検索前に行う処理を示すフローチャートである。
文書生成部104は、例えば、図3に示すようなタグ無し文書が入力され、さらに例えば、「国際原子力機関が***を決定」が題名であるという指定や、属性値「国際原子力機関」が属性名「組織」に分類されるという指定や、属性値「経済」が属性名「ジャンル」に分類されるという指定があると、図4に示すように、タグ無し文書に、これら指定の内容と、例えば「001」という文書IDなどを付与することで文書を生成し、これを文書DB106に格納する(S101)。
一方、文書生成部105は、タグ無し文書が入力され、さらに題名指定などがあると、その属性値に対し自動的にタグを付すことにより文書を生成し、さらに文書IDを付与し、これを文書DB106に格納する(S101)。なお、自動的にタグを付す処理については詳しく後述する。
このような処理により、文書DB106には多数の文書が格納される。
次に、正規化部107は、文書DB106に格納された文書に含まれる属性値を正規化する(S103)。正規化とは、例えば、略記号で表記された属性値「IAEA」を略さない日本語で表記された属性値「国際原子力機関」に変換することをいう。
つまり、正規化部107は、文書中で同じ意味を持ちながら表現の異なる同義語となっている属性値を検出し、これらを同じ表現にする。
同義語の検出にはいくつかの方法があるが、図5に示す共起パタンを用いる方法を採用することができる。
このような処理により、文書DB106における文書の属性値が正規化される。
次に、インデクス生成部108は、文書DB106に格納された文書に含まれたワードと該ワードを含む文書の文書IDとを対応づけたインデクス107を生成する(S105)。
図6に示すように、インデクス107では、例えば、ワード「原子力」に対し、このワードを含む文書の文書ID「001」などが対応づけられる。
次に、統計処理部112は、文書DB106を基に、設定ファイル103の属性名ごとに第1統計情報を生成して第1統計情報DB110に格納する(S107)。
図7(a)や(b)に示すように、1つの第1統計情報には1つの属性名が割り当てられている。
また、1つの第1統計情報は、文書IDとこのIDの文書に含まれ且つ属性名に分類される属性値とを対応づけたものを1以上備える情報である。
図7(a)は、例えば、文書ID「001」の文書には、属性名「ジャンル」に分類される属性値「経済」などが含まれていることを示している。また、図7(b)は、文書ID「001」の文書には、属性名「組織」に分類される属性名「国際原子力機関」などが含まれていることを示している。
次に、統計処理部112は、第1統計情報ごとに第2統計情報を生成して第2統計情報DB111に格納する(S109)。
図8(a)や(b)に示すように、1つの第2統計情報には1つの第1統計情報の属性名が割り当てられている。
また、1つの第2統計情報は、属性名に分類される属性値と該属性値の第1統計情報DB110内における出現回数とを対応づけたものを1以上備える情報である。
図8(a)は、例えば、属性名「ジャンル」に分類される属性値「経済」の出現回数が100回であることを示している。また、図8(b)は、属性名「組織」に分類される属性値「国際原子力機関」の出現回数が70回であることを示している。
なお、第2統計情報は、第1統計情報において属性値と文書IDの対応を検出し、検出ごとに出現回数をカウントアップすることで生成してもよい。
また、第2統計情報を属性値自身やその属性値が出現する文書の文書ID自身で構成してもよい。また、第2統計情報を各属性値間の共起頻度で構成してもよい。このときの共起頻度は、同じ文書中に出現する属性値同士を共起すると定義できる。また、タグ無し文書から文書を自動生成する場合には、タグ無し文書中の同じセンテンスやパラグラフに含まれる属性値同士を共起すると定義できる。また、文書中の近接度によって共起関係を[0,1]のバイナリ値で表現するのでなく、共起度のようにより近くで共に出現する属性値間には大きい値を与えるようにしてもよい。
このようにして、S109までの処理が終わると文書検索が可能となるが、文書DB106の文書が更新、追加または削除されたときは、属性値の正規化や、インデクス107、第1統計DB110、第2統計DB111などの更新が行われる。
[検索処理]
次に、検索装置1が行う検索処理を説明する。
キーワード入力部21は、例えばキーワード「原子力」がユーザにより入力されると、このキーワード「原子力」を検索装置1の通信部101に送信する。
図9は、キーワードを送信された検索装置1が行う処理のフローチャートである。
先ず、通信部101は、送信されたキーワード「原子力」を要求処理部102に与え、要求処理部102は、そのキーワードを文書検索部109に与える。文書検索部109は、そのキーワード「原子力」に対しインデクス107で対応づけられた文書IDを検索し、それらを要求処理部102に返却する(S201:文書検索)。
要求処理部102は、その文書IDをラベル候補選択部113に与える(S203)。
ラベル候補選択部113は、第1統計情報DB110と、検索された文書IDを基に、設定ファイル103の属性名ごとに第1検索結果統計情報を生成して一時的に記憶する(S205)。
図10に示すように、1つの第1検索結果統計情報には1つの属性名が割り当てられている。
また、1つの第1検索結果統計情報は、1つの第1統計情報に含まれる各属性値に対し該属性値を含む文書の文書IDであり且つ検索された文書IDにも含まれる文書IDを対応づけたものである。
次に、ラベル候補選択部113は、第1検索結果統計情報を基に、属性名ごとに第2検索結果統計情報を生成して一時的に記憶する(S207)。
図11に示すように、1つの第2検索結果統計情報には1つの属性名が割り当てられている。
また、1つの第2検索結果統計情報は、1つの第1検索結果統計情報の各属性値に対し該属性値に対応づけられた文書IDの数を出現回数として対応づけたものである。
次に、ラベル候補選択部113は、第2統計情報と同じ属性名が割り当てられた第2検索結果統計情報とを基に、第2統計情報ごとに第3統計情報を生成する(S209)。
図12に示すように、1つの第3統計情報は、1つの第2統計情報に含まれた1以上の行からなる統計情報であり且つ該行の属性値が第2検索結果統計情報の対応行にも含まれたものである。
つぎに、ラベル適合度算出部114は、第2検索結果統計情報と第3統計情報と検索された文書IDを基に、ラベル適合度情報を第2検索結果統計情報ごと生成し一時的に記憶する(S211)。
図13に示すように、1つのラベル適合度情報には1つの属性名が割り当てられている。
また、1つのラベル適合度情報は、1つの第2検索結果統計情報に含まれた各属性値に対しラベル適合度を対応づけたものである。
ラベル適合度は、例えば以下のように算出する。
第2検索結果統計情報における1つの属性値に対応する出願回数をhとし、第3統計情報におけるその属性値に対応する出願回数をdとし、検索された文書IDの数を|H|とし、式(1)によりラベル適合度を算出する。
Figure 2005208838
なお、式(1)のh/dは、検索された文書における属性値の網羅性を、|H|/hは検索された文書における属性値の希少性を示している。
また、式(1)における第1項のhの代わりにh/|H|とし、第1項のdの代わりにd/|D|(|D|は、その属性値を含む文書数)としてもよい。
次に、ラベル決定部115は、ラベル適合度情報から属性値及びラベル適合度の組を減らしたものをラベル情報とし一時的に記憶する(S213)。なお、ラベル情報はラベル適合度情報ごとに生成され記憶される。また、ラベル情報における属性値は文書のラベルとなるものであるからラベルということにする。
図14に示すように、ラベル情報は、ラベルに対しラベル適合度を対応づけたものであるが、ラベル適合度情報におけるラベル適合度の高い方からラベルを選択することにより、ラベル情報におけるラベル及びラベル適合度の組数は、ラベル適合度情報における属性値及びラベル適合度の組数よりも少なくなっている。
図15は、ラベル決定部115が行うラベル選択のフローチャートである。
ラベル決定部115は、設定ファイル103に書き込まれた数のラベルをラベル適合度の高い方から選択する(S301)。次に、ラベル適合度が次点のラベルを追加選択するか否かを判定する(S303)。
具体的には、選択済みの最も低いラベル適合度をC(n)、その1つ上のラベル適合度をC(n+1)、次点のラベル適合度をC(n−1)とし、式(2)が成立するときは、次点のラベルを追加選択して(S305)、S303へと戻る。
Figure 2005208838
ただし、eは、設定ファイル103などに書き込まれたしきい値である。
つまり、値の傾きを評価し、傾きがあるしきい値を越えたところを境界とする考え方を適用した判定が行われる。
この方法により、ラベル適合度が近いにも関わらずラベルの選択から漏れるのを防止できる。つまり、ラベル適合度に差がある場合に限って選択しないようにできる。
なお、S301では、設定ファイル103などに書き込まれたラベル適合度のしきい値との比較によりラベルを選択してもよい。
次に、ラベル決定部115は、ラベル情報を基に属性名適合度情報を生成し一時的に記憶する(S215)。
図16に示すように、属性名適合度情報は、属性名ごとに属性名適合度を示したものである。
例えば、属性名「ジャンル」の場合の属性名適合度は、以下のように算出する。
まず、「ジャンル」のラベル情報におけるいずれかのラベルを含む文書の数dlを、「ジャンル」の第1検索結果統計情報から求める。このとき、複数のラベルを含む1文書を1と計算する。
そして、式(3)により網羅性S1を求める。
Figure 2005208838
ここで、drは、検索された文書IDの数である。
このS1が大きいほど、検索結果がラベルにより網羅されている程度が大きいことになる。
次に、式(4)により、重なりの少なさ、分類の明確さS2を求める。
Figure 2005208838
ここで、drは、検索された文書IDの数であり、dlは、「ジャンル」のラベル情報におけるi番目のラベルlを含む文書数であり、「ジャンル」の第2検索結果統計情報から得たものである。
このS2が大きいほど、検索結果がラベルにより明確に分類されている程度が大きいことになる。
次に、式(5)により、分類の均一さS3を求める。ここでは、後述するクラスタの平均エントロピーを算出することでS3を求める。
Figure 2005208838
ここで、drは、検索された文書IDの数であり、dlは、「ジャンル」のラベル情報におけるi番目のラベルlを含む文書数である。dlは第2検索結果統計情報から得ることができる。
このS3が大きいほど、検索結果がラベルにより均一に分類されている程度が大きいことになる。
次に、式(6)により、属性名適合度Sを求める。
Figure 2005208838
ここで、α、β、γは設定ファイル103に書き込まれたパラメータである。
次に、要求処理部102は、第2検索結果統計情報、ラベル情報及び属性名適合度情報を読み出し、ラベル情報をクラスタ情報生成部116に与える。
クラスタ情報生成部116は、ラベル情報に含まれたラベルごとにクラスタ情報を生成し一時的に記憶する(S217)。
図17に示すように、クラスタ情報は、ラベル情報に含まれる各ラベルと、該ラベルを含む文書の文書IDで且つ検索された文書IDにも含まれる文書IDと、当該文書の題名とを対応づけたものである。
次に、要求処理部102は、第2検索結果統計情報、ラベル情報、属性名適合度情報及びクラスタ情報をそれぞれ全て読み出して通信部101に与え、通信部101は、これらをブラウザ2に送信する(S219)。
図18は、こらら情報を送信されたブラウザ2が行う処理のフローチャートである。
ブラウザ2の文書表示制御部22は、図19に示すように、全てのクラスタ情報に含まれる文書IDと題名を表示させ(S401)、さらにラベル情報に含まれたラベルを表示させる(S403)。このとき、表示されるラベル数は適合度により少なくされているのでユーザによるラベルの指示を容易に行うことができる。
そして、ユーザにとって一層便宜となるように、例えば、ラベルは属性名ごとにまとめて表示させる。また、属性名適合度情報における属性名適合度の高い属性名のラベルをより見やすいように表示させる。また、1つのラベル情報に含まれたラベルについては対応づけられたラベル適合度の高いものをより見やすいように表示させる。また、ラベルには、第2検索結果統計情報において対応づけられた文書IDの数を対応づけて表示させる。
そして、文書表示制御部22は、ユーザにより1つのラベルが指示される(S405)と、表示済みの文書IDと題名を消去し、図20に示すように、そのラベルを含むクラスタ情報に含まれた文書IDと題名を表示させる(S407)。
そして、文書表示制御部22は、ユーザにより文書IDが指示される(S409)と、その文書IDを検索装置1の通信部101に送信する(S411)。なお、実際には、文書IDと題名の位置をクリックすると文書IDが指示できるようになっている。
図20に示すように、本実施の形態では、ラベル指示後においては指示前よりも、文書IDと題名の数が減っているので、ユーザは容易に指示することができる。
検索装置1の通信部101は、送信された文書IDを要求処理部102に与える。要求処理部102は、与えられた文書IDを文書検索部109に与える。文書検索部109は、与えられた文書IDの文書を読み出して要求処理部102に返却する。
要求処理部102は、返却された文書を通信部101に与え、通信部101はそれをブラウザ2に送信する。
ブラウザ2の文書表示制御部22は、送信された文書を表示させる。
以上説明したように、第1の実施の形態の検索装置1によれば、文書を記憶した文書記憶手段たる文書DB106から文書検索手段たる文書検索部109が文書を検索し、検索された文書に含まれた属性値を文書のラベルとするときの適合度をラベル選択手段を構成するラベル適合度算出部114が算出し、ラベル選択手段を構成するラベル決定部115が適合度の高い方から、当該属性値の数よりも少ない数の属性値をラベルとして選択し、選択されたラベルを示すラベル情報を記憶し、文書表示制御手段を構成する要求処理部102が、ラベル情報を読み出すとともに当該ラベル情報をブラウザ2に送信することによりラベルを表示させ、ラベルがユーザにより指示された場合、このラベルを含み且つ検索された文書の中にも含まれる文書を文書表示制御手段を構成する文書検索部109が文書DB106から読み出し、これを文書表示制御手段を構成する要求処理部102がブラウザ2に送信して表示させるので、ラベルを予め用意する必要がなく、しかもラベルの数を少なくでき、その結果、管理者による文書の更新に応じた設定変更やユーザによる煩雑な操作が不要となる。
また、ラベルの選択及び表示が属性名ごとに行われるように制御するので、ラベルの数を少なくして表示させることを属性名ごとに行うことができる。
また、統計情報を記憶しておくことにより、検索時に統計情報を生成する必要がなくなるので、検索時に迅速な処理が行える。
また、正規化部107が属性値を正規化するので、正規化されたラベルを表示させることができる。
[第2の実施の形態]
次に、本発明を適用した第2の実施の形態を説明する。ここでは、第1の実施の形態の構成要素や処理と同一のものには同一符号や同一ステップ番号を付すことにする。
図21は、第2の実施の形態の装置構成を示すブロック図である。
検索装置10は、検索装置1の構成要素に加えて、文書DB106に格納された1つの文書に含まれる属性値の数(以下、ベクトル要素という)を属性値ごとに含む文書ベクトルを生成する文書ベクトル生成部117と、生成された文書ベクトルが格納される文書ベクトルDB118を備える。なお、ベクトル要素は、属性値の有無に応じた2値情報でもよい。
また、検索装置10は、1つのクラスタ情報に含まれる属性値ごとのベクトル要素からなるクラスタベクトルを生成するクラスタベクトル生成部119と、クラスタとクラスタに含まれない文書の内容についての類似度を算出する類似度算出部120と、算出された類似度により、クラスタ情報の文書IDを増加させるクラスタ拡張部121を備える。
[検索前処理]
図22は、検索装置10が検索前に行う処理を示すフローチャートである。
S109の処理が終了すると、文書ベクトル生成部117は、文書ベクトルを文書DB106に格納された文書ごとに生成し、これを文書ベクトルDB118に格納する(S111)。
図23に示すように、1つの文書ベクトルは、1つの文書に含まれる属性値の数(ベクトル要素という)を属性値ごとに含むものである。
[検索処理]
図24は、キーワードを送信された検索装置10が行う処理のフローチャートである。
S217の処理が終了すると、要求処理部102の要求により、クラスタベクトル生成部119がクラスタ情報ごとにクラスタベクトルを生成する(S2181)。
図25に示すように、1つのクラスタベクトルは、1つのクラスタに含まれる属性値ごとのベクトル要素からなるものである。
クラスタベクトルは、式(7)により求めることができる。
Figure 2005208838
つまり、クラスタに含まれる文書のベクトル和を求めることによりクラスタベクトルが生成される。
そして、以下のS2183及び2185を、クラスタとクラスタに含まれない文書の組み合わせの全てについて行う。
まず、類似度算出部120が、クラスタとクラスタに含まれない文書の内容についての類似度を算出する(S2183)。類似度は、例えば、S2181で求めたクラスタベクトルとクラスタに含まれない文書の文書ベクトルとの余弦尺度とすることができる。
そして、クラスタ拡張部121が、算出された類似度によりクラスタ情報に文書ID及び題名を加える(S2185)。例えば、S2183で算出された類似度が、設定ファイル103に書き込まれたしきい値を越えていれば、該当の文書IDと題名をクラスタ情報に加えるようにする。
なお、これ以降は、第1の実施の形態におけるS219以降の処理が行われる。
以上説明したように、第2の実施の形態の検索装置10によれば、クラスタ情報生成手段たるクラスタ情報生成部116が、ラベルを含み且つ検索された文書の中にも含まれる文書を示すクラスタ情報を生成し、クラスタ情報変更手段を構成する類似度算出部120が、クラスタ情報で示される文書と当該クラスタ情報で示されない文書との類似度を算出し、この類似度が高い場合、クラスタ情報変更手段を構成するクラスタ拡張部121が、後者の文書が示されるようにクラスタ情報を変更するので、管理者による文書の更新に応じた設定変更やユーザによる煩雑な操作が不要となることに加えて、少なく表示させたラベルの指示により表示される文書数を多くすることができるので、所望の文書を表示させることのできる可能性が高まる。
次に、文書生成部105を説明する。ここでは、ニュース記事に限らない一般的な文書を例にして説明する。
図26は、文書生成部105に適用される固有表現抽出規則生成システムおよびそれを設けた固有表現抽出装置の構成例を示すブロック図であり、図27は、図26における固有表現抽出規則生成システムおよび固有表現抽出装置のハードウェア構成例を示すブロック図である。文書生成部105は、図26におけるタグ無し文書に相当する新規文書A11を除いたブロックで構成され、固有表現のリストA13に含まれる固有表現を属性値としてタグ付き文書を生成する。これにより、タグ無し文書に属性値の指示をする必要がなくなる。
図27において、1021はCRTやLCD等からなる表示装置、1022はキーボードやマウス等からなる入力装置、1023はHDD(Hard Disk Drive)等からなる外部記憶装置、1024はCPU(Central Processing Unit)1024aや主メモリ1024b等を具備して蓄積プログラム方式によるコンピュータ処理を行なう情報処理装置、1025はプログラムやデータを記録したCD−ROM(Compact Disc-Read Only Memory)もしくはDVD(Digital Video Disc/Digital Versatile Disc)等からなる光ディスク、1026は光ディスク1025に記録されたプログラムおよびデータを読み出すための駆動装置、1027はLAN(Local Area Network)カードやモデム等からなる通信装置である。
光ディスク1025に格納されたプログラムおよびデータを情報処理装置1024により駆動装置1026を介して外部記憶装置1023内にインストールした後、外部記憶装置1023から主メモリ1024bに読み込みCPU1024aで処理することにより、情報処理装置1024内に図26に示す固有表現抽出規則生成システムおよびそれを具備した固有表現抽出装置が構成される。
図26の固有表現抽出装置においては、訓練用文書A1と、正解リストA2、固有表現抽出規則群A5、改良後固有表現抽出規則群A5a、訓練用記録A7、タグ無し文書に相当する新規文書A11、および、抽出された固有表現のリストA13のそれぞれは、図27における外部記憶装置1023もしくは主メモリ1024b等に格納され、また、形態素解析・品詞文字種付与部A3と、規制生成部A4、訓練用規則適用部A6、規則評価部A8、規則削除部A9、規則精錬部A10、実施用規則適用部A12のそれぞれは、図27におけるCD−ROM1025に格納されたプログラムに基づき情報処理装置1024内に構成される。
そして、形態素解析・品詞文字種付与部A3と、規制生成部A4、訓練用規則適用部A6、規則評価部A8、規則削除部A9、規則精錬部A10のそれぞれが固有表現抽出規則生成システムを構成している。
形態素解析・品詞文字種付与部A3は、訓練用文書A1を単語分割して、各単語にその品詞名や構成文字種の情報を付加する。
規則生成部A4は、形態素解析・品詞文字種付与部A3の処理で得られる単語列を正解リストA2で与えられる抽出すべき固有表現のデータと突き合わせて、各固有表現を構成する単語列を取り出し、これを一般化して規則を生成する。
その結果が固有表現抽出規則群A5として図27における外部記憶装置1023に記録される。
訓練用規則適用部A6は、規則生成部A4の生成結果で得られる固有表現抽出規則群A5を訓練用文書A1に適用する。その結果は訓練用記録A7として図27における外部記憶装置1023に記録される。
規則評価部A8は、訓練用記録A7に基づいて各規則を評価する。規則削除部A9は、規則評価部A8の評価結果に基づいて、成績の悪い規則を削除する。
規則精錬部A10は、成績が良くなるように規則を精錬する。
実施用規則適用部A12は、このようにして改良された固有表現抽出規則群A5(改良後固有表現抽出規則群A5a)を、実際の新規文書A11に適用して固有表現リストA13を得る。
訓練用規則適用部A6と実施用規則適用部A12はいずれも、規則群を文書に適用して固有表現を抽出するものであり、その処理内容はほぼ同じであるため、単一の装置で両者を兼ねることも可能である。ただし、実施用規則適用部A12は、訓練用記録A7を残す必要がないが、最終的な候補の選択を行なう必要がある点が異なる。
まず、実施用規則適用部A12の動作、すなわち、本例の固有表現抽出規則生成システムで生成・改良された固有表現抽出規則群A5、改良後固有表現抽出規則群A5aを用いた固有表現抽出装置としての動作を説明する。
実施用規則適用部A12は、固有表現を抽出したい新規文書A11に対して、改良後固有表現抽出規則群A5aを適用して、文書中に含まれる固有表現を抽出して固有表現リストA13を出力する。
例えば、「田中太郎賞選考委員会では、・・・」という新規文書A11があるとすると、この文書中の固有表現として、「田中」、「太郎」、「田中太郎」という人名の候補と、「田中太郎賞」という人工物名の候補、さらに、「田中太郎賞選考委員会」という組織名の候補が考えられるが、一般には、その内で一番長い「田中太郎賞選考委員会」だけが固有表現として抽出され出力されることが望まれる場合が多く、この場合、これと重なっている「田中」や「太郎」などの他の候補(固有表現)は出力されるべきでない。
このような侯補間の関係は、重なりに起因する競合関係と、各候補の優先順位による抑制関係に還元することができる。つまり、「田中太郎賞選考委員会」は「田中」などの他の候補と重なっているがために競合し、長い「田中太郎賞選考委員会」の優先順位が高く、短い他の候補を抑制していると考えることができる。
本例においては、実施用規則適用部A12は、この考え方に基づき、まず、全ての規則を文書に適用することで、全ての固有表現の候補の集合(「田中」や「太郎」、「田中太郎」、「田中太郎賞」、「田中太郎賞選考委員会」などを含む)を求める。次に、これらの候補の中で同じ固有表現(上の各候補においては「田中」)が最初に現れるものの内で一番長いもの(上の各候補においては「田中太郎賞選考委員会」)を出力する。
このようにして一つの候補が出力されると、この候補と競合している他の全ての候補(「田中」、「田中太郎」、「田中太郎賞」)を候補の集合から削除する。候補の集合が空になるまで、この作業を繰り返すことにより、固有表現のリストA13が得られる。
ただし、このように長さだけに着目して、各々競合する各候補からの選択の判断を行うだけでは、同じ長さの複数の候補がある場合に判断に困る。
例えば「ホワイトハウス」は、地名と考えられる場合と組織名と考えられる場合があるので、同じ「ホワイトハウス」という文字列を地名とする候補と、組織名とする候補とが考えられる。
そこで、この2つの候補の間に、抽出するための優先順位を設ける。
例えば、その前後の単語を考慮して、「ホワイトハウスの近くの公園で・・・」であれば地名の可能性が高く、「ホワイトハウスによれば・・・」であれば、組織名の可能性が高い。また、例えば、その出現頻度を考慮して、訓練用文書A1に「ホワイトハウス」が地名として出現しているのが1回で、組織名として出現しているのが20回とすれば、組織名と判断した方が正解する可能性が高い。
本例では、改良後固有表現抽出規則群A5aにおける各規則には、これらの条件を加味した優先度が付与されている。
実施用規則適用部A12は、このような優先度と、前述の固有表現の長さとを組み合わせて、各候補の優先順位を計算する。この優先順位の設定としてはさまざまな変種が考えられるが、上記のように、開始位置が一番早いものの中で、さらに終了位置が一番遅いものの内、優先度が一番高いものを選ぶのが明快である。つまり、候補の優先関係については、以下のような定義を基本とする。
■候補Aの開始位置が候補Bの開始位置より早い(数字として小さい)ならば、候補Aの方が優先される。
■候補Aの開始位置と候補Bの開始位置が同じであれば、終了位置が遅い(数字として大きい)候補が優先される。
■両候補の開始位置と終了位置が全く同じであれば、予め規則で与えられた優先度uの大きい候補が優先される。
本例の固有表現抽出規則生成システムでは、このような実施用規則適用部A12による処理を容易とする固有表現抽出規則群A5および改良後固有表現抽出規則群A5aを生成する。以下、このような優先関係を加味した規則の生成処理に係わる固有表現抽出規則生成システムを構成する各部の動作について説明する。
まず、形態素解析・品詞文字種付与部A3において、文書を単語列に分割する。典型的には形態素解析機能を有し、訓練用文書A1や新規文書A11などの与えられた文書を単語分割して、各単語に品詞名とその単語を構成する文字の種類(構成文字種情報)を付与したデータ構造を作り、そのリストを作成する。
例えば、「東京製鉄の中野社長は・・・」という文があると、形態素解析により「東京」は固有名詞、「製鉄」は普通名詞、「の」は助詞、「中野」は固有名詞、「社長」は普通名詞、「は」は助詞、という結果が得られる。
また、「東京」は複数の漢字で構成されており、「の」はひらがなである。従って、形態素解析・品詞文字種付与部A3は、この文に対して、例えば以下のようなデータ構造からなるリストを出力する。[(東京,複数漢字,固有名詞)、(製鉄,複数漢字,普通名詞)、(の,ひらがな,助詞)、・・・]
一方、正解リストA2は、訓練用文書A1の中のどの位置にどのような種類の固有表現が含まれているかを列挙したものであり、「東京製鉄の中野社長は・・・」という訓練用文書A1に対応して予め用意される正解リストA2は、例えば、次のようなデータからなる。
このリストにおいて、最初の行は、この文書の「0文字目から3文字目の位置」が「東京製鉄」という「組織名」をその種類とする固有表現であり、次の行は「5文字目から6文字目の位置」が「中野」という「人名」をその種類とする固有表現であることを示している。このように、本例の正解リストA2においては、各固有表現の開始位置と終了位置を示す数字の対で、当該固有表現の位置を略称する。
規則生成部A4は、このような正解リストA2と、形態素解析・品詞文字種付与部A3の出力する単語列とを突き合わせて、固有表現を変数化等して、例えば、次のような固有表現の抽出規則を生成する。anytag(3) <-- <@(組織名,21),word(_,複数漢字,固有名詞),word(製鉄,複数漢字,普通名詞),>@(組織名).この規則(ルール)は、番号「21」が付与された規則であり、任意の(変数化された)漢字の固有名詞があり(「word(_,複数漢字,固有名詞)」)、その次の単語が「製鉄」という複数漢字の普通名詞であれば(「word(製鉄,複数漢字,普通名詞)」)、その2単語が、「組織名」の固有表現の候補として考えられるという意味の規則である。
このような規則(ルール)の生成は、より一般的には以下のように表せる。まず、固有表現は、N+1単語[(w0,c0,p0),・・・,(wi,ci,pi),・・・,(wN,cN,pN)]でできているとする。ここでwiは単語(「製鉄」、「中野」など)、ciは構成文字種(「複数漢字」や「数字」など)、piは品詞名(「固有名詞」、「普通名詞」など)である。
実際には、前後の幾つかの単語も、固有表現かどうかを判断するのに重要な手がかりとなるので、含めて考えるのが一般的であるが、ここでは単純化して、固有表現に含まれる単語だけを考える。
次に、このような単語列から、最小汎化などの既存の一般化技術を用いることによって、規則(ルール)を生成する。しかし、本例では、次のようにして簡単に生成する。
すなわち、訓練用文書A1に含まれる固有表現を構成する具体的な単語列[(w0,c0,p0),・・・,(wi,ci,pi),・・・,(wN,cN,pN)]に、以下に述べる経験則を適用して、変数を含むリスト[(w0',c0',p0'),・・・,(wi',ci',pi'),・・・,(wN',cN',pN')]を得て、次のような規則を作る。anytag(u) <-- <@(t+df,k),word(w0',c0',p0'),・・・,(wi',ci',pi'),・・・,word(wN',cN',pN'),>@(t−dt).
ここで「t」は、固有表現の種類(例えば「組織名」)を表す。
「+df」は、この固有表現の開始位置を何文字右にずらすかを表し、最初の単語の文字数未満の非負整数である。また、「−dt」は固有表現の終了位置を何文字左にずらすかを表し、最後の単語の文字数未満の非負整数である。
例えば、「厚木市内で・・・」という訓練用文書A1があり、正解リストA2によればこの内の「厚木市」が地名であるにもかかわらず、形態素解析・品詞文字種付与部A3の形態素解析で、「厚木」、「市内」、「で」というように単語分割された場合、固有表現を構成する単語列は、[(厚木,複数漢字,固有名詞),(市内、複数漢字、普通名詞)]となり、最後の1文字(「内」)が余分である。そこで終了位置を一文字左にずらすために、「dt=1」とする。尚、開始位置はずらさないので、「df=0」である。また、上述の規則(ルール)における「k」は、この規則につけられた番号であり、「u」はこの規則の優先度である。各変数を含むデータ(wi',ci',pi')は、訓練用文書A1に含まれる具体的な固有表現に対応するデータ(wi,ci,pi)に対して、以下の経験則を、上から順に調べ、最初に当てはまったものを適用することによって得る。
■「i」が「0」か「N」で、固有表現の境界を含む場合(df>0またはdt>0)は、これらを変数化しない。規則(ルール)の「df」と「dt」は、元になった固有表現に対する値をそのまま利用する。
■数字の場合は「wi」を変数化する。
■固有名詞の場合は「wi」を変数化する。
■リストの最後の単語か、記号・単漢字・接尾語・接頭語・助詞などの機能語であれば、変数化しない。
■それ以外であれば「wi」を変数化する。
各固有表現に対して以上の処理を適用することにより、固有表現抽出規則群A5を自動的に生成することができる。
また、各規則の優先度(u)としては、例えば、その規則の元になった固有表現が正解リスト中に現れる「のべ回数」を採用する。これにより、正解回数の少ない規則(前述の例では、地名としての「ホワイトハウス」)が正解回数の多い規則(組織名としての「ホワイトハウス」)を正当な理由もなく抑制してしまうことが避けられる。
こうして規則生成部A4により得られた各規則(固有表現抽出規則群A5)を、訓練用規則適用部A6において、訓練用文書A1の単語列に適用することにより訓練用記録A7を得る。すなわち、訓練用規則適用部A6では、訓練用文書A1の先頭から末尾まで、各規則がマッチする位置を順に調べていき、マッチしたら、それを候補として訓練用記録A7に追加することを繰り返す。
訓練用記録A7には、具体的には、後で各候補間の競合関係や抑制関係の比較をして、最終的な出力ができるように、ルール番号(k)や、マッチした位置、固有表現の種類(t)などのデータを記録しておく。
このような訓練用規則適用部A6による処理を、固有表現抽出規則群A5の全ての規則に対して行ない、訓練用記録A7を作り出す。
尚、ボトムアップ型の構文解析を用いれば、複数の規則の適用結果を効率良く一度に得ることも可能である。
規則評価部A8は、このようにして作成された訓練用記録A7を読み出して、各規則の成績を採点する。採点の仕方としては様々な基準を用いることができるが、不正解になった回数や割合による評価を用いれば簡単である。しかし、各規則の不正解回数は、厳密には、どのような規則と組み合わせて用いるかに依存するため、どの規則を採用するか未定のこの時点では、正確な数字を得られない。そこで、各規則(R)の記録を以下のように分類して考える。
(○)規則Rの元になった固有表現とマッチして得られた候補、つまり、他の候補に抑制されなければ必然的に正解になるもの(正解候補固有表現)。
(△)競合する別の固有表現が正解リストA2に登録されており、それに抑制されるもの。つまり、その固有表現が正解になれば出力が抑制されるので、精度の高い規則群においては、成績を下げない可能性の高いもの(中間候補固有表現)。
(×)それ以外のもの、つまり、抑制する正解固有表現がないため、精度の高い規則群においては、間違った候補を出力して成績を下げる可能性が高いもの(不正解候補固有表現)。
規則評価部A8は、各規則に対して「○」、「△」、「×」の回数を数え、この「×」の回数を不正解の回数、「○」の回数を正解の回数の代用として採用する。尚、単純に「△」を全て不正解と考えると、「田中」のように短い固有表現を抽出する規則が不利になるので避けた方が良い。そのため、規則評価部A8では、以下のような方法で不正解回数を数える。
すなわち、規則評価部A8は、訓練用記録A7を前から順に読み、規則Rが訓練用文書A1の位置Lで適用されており、規則Rが付与する固有表現のタイプ(地名や人名などの区別)がTであり、そのタイプTと位置Lの対が正解リストA2に正解として含まれておらず、さらに、位置Lに重なる位置に正解の固有表現が存在しないか、存在しても、その正解に対応する候補より規則Rによる候補の方が優先順位において優位であれば、規則Rの不正解回数を1増やす。これを訓練用記録A7の終わりに達するまで繰り返す。
規則評価部A8が、各規則の「○」、「△」、「×」の個数を数えると、この結果を参照して、規則削除部A9と規則精錬部A10が固有表現抽出規則群A5に修正を加える。
規則削除部A9は、固有表現抽出規則群A5の親則の内、例えば、「×」の個数が「○」の個数を超える規則を削除する。規則精錬部A10は、固有表現抽出規則群A5の規則の内、例えば、成績が「×」の個数が「○」の個数の半分以上ある規則に、前後の単語などに関する制約情報を加えて、当該規則の成績がより良くなるようにする。
例えば、固有表現の前後2単語ずつを含めて考えると、上記規則で抽出され、「○」や「×」に評価されて分類された各固有表現のそれぞれにおいて、[(w-2,c-2,p-2),(w-1,c-1,p-1),(w0,c0,p0),・・・,(wN+1,cN+1,pN+1),(wN+2,cN+2,pN+2),]という単語リストが各々に考えられる。そこで、各固有表現毎に(w-2,c-2,p-2,w-1,c-1,p-1,wN+1,cN+1,pN+1,wN+2,cN+2,pN+2)という特徴のリストを考え、「○」に分類された固有表現の場合を正例、「×」に分類された固有表現の場合を負例と考えれば、これは典型的な帰納学習の課題であり、既存の機械学習の手法がそのまま利用できる。
例えば、決定木による学習を用いることにより、前後の幾つかの単語の内、どの単語のどの性質の値を残し、他を変数化すべきかが決定できる。具体例として、「×」に分類された固有表現が「10」個抽出され、その内、「8」個の固有表現において、その前の単語(w-1)として「wX」が特定されれば、以下のようにして元の規則に制約条件{w-1'≠ wX}を加え、前の単語(w-1)として「wX」を有する固有表現が抽出されないように制約する。anytag(u) <-- word(w-1',c-1',p-1'),<@(t+df,k),word(w0',c0',p0'),・・・,(wi',ci',pi'),・・・,word(wN',cN',pN'),>@(t−dt),{w-1'≠ wX}.こうして得られた規則は、元の規則より制約が強いので、元の規則がマッチした部分と同じところにしかマッチしない。従って、訓練用文書A1全体に適用しなくても、訓練用記録A7に残っている元の規則のマッチした部分にのみ適用すれば、新しい規則の成績はわかる。
このように本例では、規則の改良が、他の規則とほぼ独立に行なえる。以上によって、元の規則(固有表現抽出規則群A5)から、より成績の良い規則(改良後固有表現抽出規則群A5a)を生成する。
図28は、固有表現抽出規則生成方法の処理手順例を示すフローチャートである。
本例は、図26における固有表現抽出規則生成システムにおける形態素解析・品詞文字種付与部A3、規則生成部A4、訓練用規則適用部A6、規則評価部A8の各処理動作を示すものであり、まず、形態素解析・品詞文字種付与部A3において、訓練用文書A1を形態素解析して単語に分割し(S1301)、各単語に品詞と文字種などの情報を付加する(S1302)。
次に、規則生成部A4において、正解リストA2の固有表現と、その近傍にある単語からなる単語列を抜き出して(S1303)、正解単語列に経験則等を適用して、抽出規則を生成し(S1304)、固有表現抽出規則群A5として記録する。そして、訓練用規則適用部A6において、このようにして生成した抽出規則を、訓練用文書A1に適用して、その結果得られた固有表現を候補として記録する(S1305)。さらに、規則評価部A8において、各抽出規則で抽出された固有表現の正解度(○、△、×)を求めて分類し、それに基づき、各抽出規則の適正度を採点する(S1306)。
その採点の結果、修正不可能な成績の悪い(適正度の低い)規則群は、規則削除部A9において削除し(S1307)、また、修正により適正度が高まる規則群には、規則精錬部A10において当該修正を加えて、新規則とし(S1308)、改良後固有表現抽出規則群A5aに記録する。S1305からの処理を繰り返すことにより、より成績の良い規則群の生成が可能となる。
図29は、図26における固有表現抽出装置の処理動作例を示すフローチャートである。本例は、図26に示す固有表現抽出装置における、新規文書A11に対する処理動作を示すものであり、まず、形態素解析・品詞文字種付与部A3において、新規文書A11を形態素解析して単語に分割し(S1401)、各単語リストに品詞と文字種などの情報を付加する(S1402)。
次に、実施用規則適用部A12において、各単語リストに、改良後固有表現抽出規則群A5aの各抽出規則を適用して、各固有表現を候補としてリストアップし(S1403)、全ての候補に対して以下の優先制御処理を行う(S1404)。すなわち、各候補の中で最優先の候補を出力し(S1405)、この出力された候補と競合する候補を削除する(S1406)。
以上、図26〜図29を用いて説明したように、本例の固有表現抽出規則生成システムと方法では、まず、予め用意された訓練用文書A1を形態素解析して単語に分割し、品詞名や構成文字種などの情報を各単語に付加し、こうして得られた単語から、固有表現を構成する単語列を取り出し、予め訓練用文書A1に対応して用意された正解リストA2を参照して経験則や最小汎化などの一般化手段によって多数の固有表現抽出規則を生成する。
次に、これらの抽出規則をそれぞれ独立に訓練用文書A1に適用して、その規則が訓練用文書A1のどの位置にマッチしたかの記録を用意しておく。この記録に入っているものは、訓練用文書A1に対してシステムが出力する固有表現の候補となる。そして、複数のルールを組み合わせる場合には、それらのルールに対応する記録に入っている全ての候補の中から、競合関係と優先順位を考慮して、最終的に出力する候補の列を一定の明快な基準で選び出す。
この結果、訓練用文書A1における不正解の頻度あるいは割合が非常に多い規則があれば、それを削除する。ただし、その規則が訓練用文書のどの位置で正解し、どの位置で不正解になっているかがわかる。そこで、正解の箇所の前後の単語列と、不正解の箇所の前後の単語列を比較して制約を加えることによって、訓練用文書における成績が良くなる規則が作れるかどうか判断できるので、成績が良くなる場合は制約を加えた規則を加える。
このように、本例によれば、固有表現を含む訓練用文書と、その文書の中のどの位置にどのような種類の固有表現が含まれているかを列挙した正解リストを与えると、システムがこの正解に基づいて固有表現抽出規則を生成するので、人間が多大な労力を払って抽出規則を書き下す必要がなくなる。さらに、予め用意された訓練用文書A1に対して出力される個々の規則の評価を求め、次に、複数の規則を種々に組み合わせた場合の各評価値を、個々の規則の評価値から簡単に計算できる。
これによって、良い成績が得られる規則の組み合わせを求める際の試行錯誤に要する処理時間を短縮することができる。また、このような固有表現抽出規則の改良が、他の規則とほぼ独立して行なえるため、精度を向上させることが容易になる。また、本例の固有表現抽出装置では、訓練用文書と正解リストに基づいて生成され、かつ、改良された規則を新規文書A11に適用して、この新規文書A11から固有表現を自動的に抽出すると共に、抽出した複数の固有表現に部分的な重なりがあれば、文書における記載開始位置が早いものを優先して抽出し、また、記載開始位置が同じであれば記載終了位置が遅いものを優先して抽出し、さらに、表現は同じであるが種類の異なる固有表現があれば、各固有表現の抽出に用いた各々の規則に予め付与された優先度の大きいものを優先して抽出するので、適切な固有表現のみに限定された抽出が可能である。尚、図26〜図29を用いて説明した例に限定されるものではなく、種々変更した実施を行うことができる。例えば、本例では、規則に制約を付加する際、候補固有表現の訓練用文書における前後の単語に基づき制約を設けているが、当該単語の文字種(漢字、カタカナ、・・・)や品詞(名詞、動詞、・・・)等に関して制約を設けることでも良い。また、本例では、光ディスク1025を記録媒体として用いているが、FDを記録媒体として用いることでも良い。また、プログラムのインストールに関しても、通信装置1027を介してネットワーク経由でプログラムをダウンロードしてインストールすることでも良い。
また、第1及び第2の実施の形態で説明したラベル表示型文書検索方法を検索装置1や10に実行させるコンピュータプログラムは、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク、磁気テープなどのコンピュータ読み取り可能な記録媒体に格納したり、インターネットなどの通信網を介して伝送させて、広く流通させることができる。
第1の実施の形態の装置構成を示すブロック図である。 検索装置1が検索前に行う処理を示すフローチャートである。 タグ無し文書の一例を示す図である。 タグ付き文書の一例を示す図である。 共起パタンを用いた同義語の検出方法を示す図である。 インデクスの一例を示す図である。 第1統計情報の一例を示す図である。 第2統計情報の一例を示す図である。 キーワードを送信された検索装置1が行う処理のフローチャートである。 第1検索結果統計情報の一例を示す図である。 第2検索結果統計情報の一例を示す図である。 第3統計情報の一例を示す図である。 ラベル適合度情報の一例を示す図である。 ラベル情報の一例を示す図である。 ラベル決定部115が行うラベル選択のフローチャートである。 属性名適合度情報の一例を示す図である。 クラスタ情報の一例を示す図である。 ブラウザ2が行う処理のフローチャートである。 文書表示制御部22によるラベル指示前の表示例を示す図である。 文書表示制御部22によるラベル指示後の表示例を示す図である。 第2の実施の形態の装置構成を示すブロック図である。 検索装置10が検索前に行う処理を示すフローチャートである。 文書ベクトルの一例を示す図である。 キーワードを送信された検索装置10が行う処理のフローチャートである。 クラスタベクトルの一例を示す図である。 文書生成部105に適用される固有表現抽出規則生成システムおよびそれを設けた固有表現抽出装置の構成例を示すブロック図である。 図26における固有表現抽出規則生成システムおよび固有表現抽出装置のハードウェア構成例を示すブロック図である。 固有表現抽出規則生成方法の処理手順例を示すフローチャートである。 図26における固有表現抽出装置の処理動作例を示すフローチャートである。
符号の説明
1,10…検索装置
2…ブラウザ
21…キーワード入力部
22…文書表示制御部
101…通信部
102…要求処理部
103…設定ファイル
104…文書生成部
105…文書生成部
106…文書DB
107…インデクス
107…正規化部
108…インデクス生成部
109…文書検索部
110…第1統計DB
111…第2統計DB
112…統計処理部
113…ラベル候補選択部
114…ラベル適合度算出部
115…ラベル決定部
116…クラスタ情報生成部
117…文書ベクトル生成部
118…文書ベクトルDB
119…クラスタベクトル生成部
120…類似度算出部
121…クラスタ拡張部

Claims (18)

  1. 文書を記憶した文書記憶手段から文書を検索する文書検索手段と、
    前記検索された文書に含まれた属性値を文書のラベルとするときの適合度を算出し、適合度の高い方から、当該属性値の数よりも少ない数の属性値をラベルとして選択し、選択されたラベルを示すラベル情報を記憶するラベル選択手段と、
    前記記憶されたラベル情報を読み出すとともに当該ラベル情報によりラベルを表示させ、ラベルが指示された場合、このラベルを含み且つ前記検索された文書の中にも含まれる文書を前記文書記憶手段から読み出して表示させる文書表示制御手段と
    を備えることを特徴とするラベル表示型文書検索装置。
  2. 属性名で属性値が分類され、前記ラベルの選択及び表示が属性名ごとに行われるように制御することを特徴とする請求項1記載のラベル表示型文書検索装置。
  3. 前記選択されたラベルの1つを含み且つ前記検索された文書の中にも含まれる文書を示すクラスタ情報を生成するクラスタ情報生成手段と、
    前記クラスタ情報で示される文書と当該クラスタ情報で示されない文書との類似度を算出し、この類似度が高い場合、後者の文書が示されるようにクラスタ情報を変更するクラスタ情報変更手段とを備え、
    前記文書表示制御手段は、ラベルが指示された場合、前記変更されたクラスタ情報で示される文書の存在を表示させ、文書が指示された場合、この文書を前記文書記憶手段から読み出して表示させることを特徴とする請求項1または2記載のラベル表示型文書検索装置。
  4. ラベルとするときの適合度を算出する対象の属性値を含み且つ前記検索された文書にも含まれる文書の数と、当該属性値を含み且つ前記文書記憶手段にも記憶された文書の数とを用いてラベルの適合度を算出することを特徴とする請求項1乃至3のいずれかに記載のラベル表示型文書検索装置。
  5. 前記クラスタ情報で示される文書を示すクラスタベクトルと当該クラスタ情報で示されない文書を示す文書ベクトルとの余弦尺度を類似度とすることを特徴とする請求項3または4記載のラベル表示型文書検索装置。
  6. 前記文書記憶手段に記憶された文書に含まれた属性値についての統計情報を生成する統計情報生成手段と、生成された統計情報が記憶される統計情報記憶手段とを備え、前記ラベル選択手段は、当該記憶された統計情報を用いてラベルとするときの適合度を算出することを特徴とする請求項1乃至5のいずれかに記載のラベル表示型文書検索装置。
  7. 前記文書記憶手段に記憶された文書に含まれた属性値を正規化する属性値正規化手段を備えること特徴とする請求項1乃至6のいずれかに記載のラベル表示型文書検索装置。
  8. 属性値の指示がない文書から当該指示のある文書を生成し前記文書記憶手段に記憶させる文書生成手段を備えること特徴とする請求項1乃至7のいずれかに記載のラベル表示型文書検索装置。
  9. 文書を記憶した文書記憶手段から文書を検索し、
    前記検索された文書に含まれた属性値を文書のラベルとするときの適合度を算出し、適合度の高い方から、当該属性値の数よりも少ない数の属性値をラベルとして選択し、選択されたラベルを示すラベル情報を記憶させ、
    前記記憶されたラベル情報を読み出すとともに当該ラベル情報によりラベルを表示させ、ラベルが指示された場合、このラベルを含み且つ前記検索された文書の中にも含まれる文書を前記文書記憶手段から読み出して表示させることを特徴とするラベル表示型文書検索方法。
  10. 属性名で属性値が分類され、前記ラベルの選択及び表示が属性名ごとに行われるように制御することを特徴とする請求項9記載のラベル表示型文書検索方法。
  11. 文書を記憶した文書記憶手段から文書を検索し、
    前記検索された文書に含まれた属性値を文書のラベルとするときの適合度を算出し、適合度の高い方から、当該属性値の数よりも少ない数の属性値をラベルとして選択し、選択されたラベルを示すラベル情報を記憶させ、
    前記選択されたラベルの1つを含み且つ前記検索された文書の中にも含まれる文書を示すクラスタ情報を生成し、
    前記クラスタ情報で示される文書と当該クラスタ情報で示されない文書との類似度を算出し、この類似度が高い場合、後者の文書が示されるようにクラスタ情報を変更し、
    前記記憶されたラベル情報を読み出すとともに当該ラベル情報によりラベルを表示させ、ラベルが指示された場合、前記変更されたクラスタ情報で示される文書の存在を表示させ、文書が指示された場合、この文書を前記文書記憶手段から読み出して表示させることを特徴とするラベル表示型文書検索方法。
  12. ラベルとするときの適合度を算出する対象の属性値を含み且つ前記検索された文書にも含まれる文書の数と、当該属性値を含み且つ前記文書記憶手段にも記憶された文書の数とを用いてラベルの適合度を算出することを特徴とする請求項9乃至11のいずれかに記載のラベル表示型文書検索方法。
  13. 前記クラスタ情報で示される文書を示すクラスタベクトルと当該クラスタ情報で示されない文書を示す文書ベクトルとの余弦尺度を類似度とすることを特徴とする請求項11または12記載のラベル表示型文書検索方法。
  14. 前記文書記憶手段に記憶された文書に含まれた属性値についての統計情報を生成し、前記ラベル選択では、当該記憶された統計情報を用いてラベルとするときの適合度を算出することを特徴とする請求項9乃至13のいずれかに記載のラベル表示型文書検索方法。
  15. 前記文書記憶手段に記憶された文書に含まれた属性値を正規化すること特徴とする請求項9乃至14のいずれかに記載のラベル表示型文書検索方法。
  16. 属性値の指示がない文書から当該指示のある文書を生成し前記文書記憶手段に記憶させること特徴とする請求項9乃至15のいずれかに記載のラベル表示型文書検索方法。
  17. 請求項9乃至16のいずれかに記載のラベル表示型文書検索方法をコンピュータに実行させるコンピュータプログラム。
  18. 請求項9乃至16のいずれかに記載のラベル表示型文書検索方法をコンピュータに実行させるコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体。
JP2004013398A 2004-01-21 2004-01-21 ラベル表示型文書検索装置、ラベル表示型文書検索方法、ラベル表示型文書検索方法を実行させるコンピュータプログラム並びにこのコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体 Expired - Lifetime JP4146361B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004013398A JP4146361B2 (ja) 2004-01-21 2004-01-21 ラベル表示型文書検索装置、ラベル表示型文書検索方法、ラベル表示型文書検索方法を実行させるコンピュータプログラム並びにこのコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004013398A JP4146361B2 (ja) 2004-01-21 2004-01-21 ラベル表示型文書検索装置、ラベル表示型文書検索方法、ラベル表示型文書検索方法を実行させるコンピュータプログラム並びにこのコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2005208838A true JP2005208838A (ja) 2005-08-04
JP4146361B2 JP4146361B2 (ja) 2008-09-10

Family

ID=34899470

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004013398A Expired - Lifetime JP4146361B2 (ja) 2004-01-21 2004-01-21 ラベル表示型文書検索装置、ラベル表示型文書検索方法、ラベル表示型文書検索方法を実行させるコンピュータプログラム並びにこのコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP4146361B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007265034A (ja) * 2006-03-28 2007-10-11 Nippon Telegr & Teleph Corp <Ntt> 文書検索支援方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2009064399A (ja) * 2007-09-14 2009-03-26 Hitachi East Japan Solutions Ltd 検索結果表示方法、検索結果表示プログラムおよび検索結果表示装置
JP2009064097A (ja) * 2007-09-04 2009-03-26 Hitachi East Japan Solutions Ltd 検索結果表示方法、検索結果表示プログラムおよび検索結果表示装置
JP2010067005A (ja) * 2008-09-10 2010-03-25 Yahoo Japan Corp 検索装置、および検索装置の制御方法
WO2011086820A1 (ja) * 2010-01-15 2011-07-21 日本電気株式会社 情報処理装置、情報処理方法、及びコンピュータ読み取り可能な記録媒体
JP5324018B1 (ja) * 2012-10-19 2013-10-23 楽天株式会社 コーパス生成装置、コーパス生成方法及びコーパス生成プログラム
WO2014061285A1 (ja) * 2012-10-19 2014-04-24 楽天株式会社 コーパス生成装置、コーパス生成方法及びコーパス生成プログラム
US8819054B2 (en) 2009-04-23 2014-08-26 Canon Kabushiki Kaisha Information processing apparatus, method for processing information, and storage medium
CN108628860A (zh) * 2017-03-15 2018-10-09 贵州白山云科技有限公司 一种自动获取网页数据的方法及装置
CN111949776A (zh) * 2020-07-17 2020-11-17 上海淇馥信息技术有限公司 一种用户标签评估的方法、装置和电子设备
CN114138966A (zh) * 2021-11-30 2022-03-04 四川大学 一种基于弱监督学习的网络威胁情报文本关键信息抽取方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4592629B2 (ja) * 2006-03-28 2010-12-01 日本電信電話株式会社 文書検索支援方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2007265034A (ja) * 2006-03-28 2007-10-11 Nippon Telegr & Teleph Corp <Ntt> 文書検索支援方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2009064097A (ja) * 2007-09-04 2009-03-26 Hitachi East Japan Solutions Ltd 検索結果表示方法、検索結果表示プログラムおよび検索結果表示装置
JP2009064399A (ja) * 2007-09-14 2009-03-26 Hitachi East Japan Solutions Ltd 検索結果表示方法、検索結果表示プログラムおよび検索結果表示装置
JP2010067005A (ja) * 2008-09-10 2010-03-25 Yahoo Japan Corp 検索装置、および検索装置の制御方法
US8819054B2 (en) 2009-04-23 2014-08-26 Canon Kabushiki Kaisha Information processing apparatus, method for processing information, and storage medium
US9824142B2 (en) 2010-01-15 2017-11-21 Nec Corporation Information processing device, information processing method, and computer-readable recording medium
WO2011086820A1 (ja) * 2010-01-15 2011-07-21 日本電気株式会社 情報処理装置、情報処理方法、及びコンピュータ読み取り可能な記録媒体
WO2014061285A1 (ja) * 2012-10-19 2014-04-24 楽天株式会社 コーパス生成装置、コーパス生成方法及びコーパス生成プログラム
JP5324018B1 (ja) * 2012-10-19 2013-10-23 楽天株式会社 コーパス生成装置、コーパス生成方法及びコーパス生成プログラム
CN108628860A (zh) * 2017-03-15 2018-10-09 贵州白山云科技有限公司 一种自动获取网页数据的方法及装置
CN111949776A (zh) * 2020-07-17 2020-11-17 上海淇馥信息技术有限公司 一种用户标签评估的方法、装置和电子设备
CN111949776B (zh) * 2020-07-17 2023-09-22 上海淇馥信息技术有限公司 一种用户标签评估的方法、装置和电子设备
CN114138966A (zh) * 2021-11-30 2022-03-04 四川大学 一种基于弱监督学习的网络威胁情报文本关键信息抽取方法
CN114138966B (zh) * 2021-11-30 2023-05-23 四川大学 一种基于弱监督学习的网络威胁情报文本关键信息抽取方法

Also Published As

Publication number Publication date
JP4146361B2 (ja) 2008-09-10

Similar Documents

Publication Publication Date Title
US9594747B2 (en) Generation of a semantic model from textual listings
US7890533B2 (en) Method and system for information extraction and modeling
Larkey A patent search and classification system
US8280886B2 (en) Determining candidate terms related to terms of a query
US6745183B2 (en) Document retrieval assisting method and system for the same and document retrieval service using the same
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US7822701B2 (en) Lexicon generation methods, lexicon generation devices, and lexicon generation articles of manufacture
US9262527B2 (en) Optimized ontology based internet search systems and methods
US20090327223A1 (en) Query-driven web portals
US20090300046A1 (en) Method and system for document classification based on document structure and written style
US20180004838A1 (en) System and method for language sensitive contextual searching
US20070112867A1 (en) Methods and apparatus for rank-based response set clustering
JP2003114906A (ja) ユーザ定義可能なパーソナリティを備えたメタ文書管理システム
US9015172B2 (en) Method and subsystem for searching media content within a content-search service system
JP2009093647A (ja) ワードと文書の深さの決定
JP4146361B2 (ja) ラベル表示型文書検索装置、ラベル表示型文書検索方法、ラベル表示型文書検索方法を実行させるコンピュータプログラム並びにこのコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体
JP2004178123A (ja) 情報処理装置、該情報処理装置を実現するためのプログラム
CN111831884B (zh) 一种基于信息查找的匹配系统与方法
JP2007323238A (ja) 強調表示装置及びプログラム
JP7117168B2 (ja) 情報処理装置および情報処理方法
Yan et al. Cross media entity extraction and linkage for chemical documents
Hartmann et al. Using similarity measures for context-aware user interfaces
JP2000200279A (ja) 情報検索装置
JP4146393B2 (ja) ラベル表示型文書検索装置、ラベル表示型文書検索方法、ラベル表示型文書検索方法を実行させるコンピュータプログラム並びにこのコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体
Alasiry et al. Mining named entities from search engine query logs

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080603

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080619

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4146361

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110627

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120627

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130627

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140627

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term