JP3875510B2 - 情報検索装置、その方法、そのプログラム及びそのプログラムが記録された記録媒体 - Google Patents
情報検索装置、その方法、そのプログラム及びそのプログラムが記録された記録媒体 Download PDFInfo
- Publication number
- JP3875510B2 JP3875510B2 JP2001140428A JP2001140428A JP3875510B2 JP 3875510 B2 JP3875510 B2 JP 3875510B2 JP 2001140428 A JP2001140428 A JP 2001140428A JP 2001140428 A JP2001140428 A JP 2001140428A JP 3875510 B2 JP3875510 B2 JP 3875510B2
- Authority
- JP
- Japan
- Prior art keywords
- name
- coordinates
- word
- information
- concept
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、情報検索技術に関し、特に予め与えられるデータが名称の付与されていないものであっても、要求される名称を検索できる情報検索装置、その方法、そのプログラム及びそのプログラムが記録された記録媒体に関する。
【0002】
【従来の技術】
利用者が必要とする文章の条件をキーワードの並びや自然言語で表現して、それを検索要求として入力し、その検索要求に適合する文章を蓄積された複数の文書の中から選び出すテキスト検索技術が数多く提案されている。その一つとして、文章と検索要求を多次元空間上に配置し、空間上の距離に基づいて検索する方法であるベクトルモデルがある。この方法では、検索対象の個々の文書を、その文書中の単語の出現頻度に基づく値を要素とするベクトルで表現する。検索要求も同様にベクトルで表現し、多次元空間において検索要求に近い文書を検索する。
【0003】
このテキスト検索技術の発展として、文書ではなく、人名や組織名を検索することが考えられている。ここではこれをKnowWho検索と呼ぶ。この技術は、例えば、組織においてある分野に問題が生じた際にはその分野の専門家を適切に選び、その人に連絡できるようにするなどのナレッジマネジメント支援や、個人の関心を分類し、共通する関心を持った人たちを適切に組織化することを試みるなど意思決定支援へ応用されている。
【0004】
上記KnowWho検索を実現する技術の一つとして、上記で説明したベクトルモデルを適用する方法がある。著者情報が付与された文書を利用し、ある人名を、その人名が著者である文書中の単語の出現頻度に基づく値を要素とするベクトルで表現する。そして検索要求も同様にベクトルで表現し、多次元空間において検索要求に近い著者を検索する。この技術では、文書を構成する単語の重要性を考慮して検索要求に適合する人名などを出力することが可能である。しかし検索要求と検索対象の比較は同一の単語に関する値を比較することのみであるため、両者に異なる表記であるが関連性が高い語(例えば「新聞」と「取材」)が含まれている時には、その関連性は考慮することができない。
【0005】
上記問題点を考慮した技術の一つとして、拡張したベクトルモデルのKnowWho検索の適用方法がある。その一例として、本出願人が出願した情報検索方法を説明する。この技術では、単語をその関連性に基づいて自動的に多次元空間上に配置した概念ベースを利用する。概念ベースには辞書型概念ベース(特許第3095097号)とコーパス型概念ベース(Schutze,Dimensions of Meaning of Meaning,Proceedings of Supercomputing 92, p.787-796,1992)の2種類がある。辞書型概念ベースは国語辞書を利用し、ある単語を、その語義文中の単語の出現頻度に基づく値を要素とするベクトルで表現する。また、コーパス型概念ベースは新聞などのテキストデータを利用し、ある単語を、テキスト中でその単語の周辺に出現する単語の出現頻度に基づく値を要素とするベクトルで表現する。関連性の高い単語同士は、表記が異なっていても多次元空間上の位置は近くなる。これらの概念ベースを利用して、文書や人名を同じ多次元空間上に配置する。文書の配置では、ある文書に含まれる複数の単語のベクトルの重心をその文書のベクトルとする。人名の場合は、ある人名を著者とする複数の文書のベクトルの重心をその人名のベクトルとする。ユーザが入力したキーワードや人名などの検索要求に対しても同様のベクトルを計算する。検索要求のベクトルと著者のベクトルとの類似度を計算し、類似度が高い著者を検索結果として出力する。類似度としては、二つのベクトルの成す角の余弦が使われている。ある著者が書いた文書中に、ユーザが入力したキーワードが一つも含まれていなくても、キーワードに関連性の高い単語が多く含まれていれば、その著者の類似度は高くなる。
【0006】
KnowWho検索に拡張したベクトルモデルを適用した従来技術では、情報源として著者情報が付与された文書を利用し、その著者を検索対象としているので、文書の著者のみを検索することができる。
【0007】
【発明が解決しようとする課題】
しかしながら、ユーザが検索したい人名が著者以外ではあるが文書中に現れているような人名の時には、従来の技術では検索することができない。そこで、著者情報の付与されていないテキストデータに対しても質問に適合する人名を検索する技術が望まれる。
【0008】
そこで本発明は、上記の従来の課題に鑑みてなされたものであり、その目的とするところは、予め与えられるデータが名称の付与されていないものであっても、要求される名称を検索できる情報検索装置、その方法、そのプログラム及びそのプログラムが記録された記録媒体を提供することにある。
【0009】
【課題を解決するための手段】
上記従来の課題を解決するために、請求項1の本発明は、情報検索に先立って収集される情報の源である1以上の文を基に名称と属性との組を予め複数組収集する情報収集手段であって、形態素解析により前記文に含まれる単語に品詞を付けさせ、該品詞付きの単語と予め用意された複数の名称のいずれとが一致するか、または当該単語に付けられた品詞と予め用意された複数種類の名詞のいずれとが一致する場合に当該単語を前記名称とするとともに前記文の中の当該名称に関連する部分を前記属性とする情報収集手段と、予め用意された複数の単語のそれぞれと該単語の概念を表す座標とが対応づけて蓄積される単語概念蓄積手段と、名称の概念を表す座標が記憶される座標記憶手段と、前記収集された各名称と組をなす属性と前記単語概念蓄積手段との双方に含まれる単語を求めるとともに当該単語概念蓄積手段において当該単語に対応づけられた座標を用いて当該収集された各名称の概念を表す座標を求め前記座標記憶手段に記憶させる座標演算手段と、情報検索に際し入力される文字列の概念を表す座標を前記蓄積された座標を用いて求め、該求めた座標と類似する座標を前記座標記憶手段に記憶された座標の中から求め、該求めた座標に対応する名称を出力する名称検索手段とを備える情報検索装置をもって解決手段とする。
【0010】
請求項2の本発明は、前記名称検索手段は、入力された文字列と前記収集された名称のいずれとが一致するときは、前記座標記憶手段に記憶された座標の中の当該名称に対応するものを当該入力された文字列の概念を表す座標とすることを特徴とする請求項1記載の情報検索装置をもって解決手段とする。
【0011】
請求項3の本発明は、前記情報収集手段は、前記文に名称とともに含まれる任意の部分の構文を解析させ、この解析結果が予め用意された構文用規則を満たすときに、当該部分を当該名称に関連する属性とすることを特徴とする請求項1または2記載の情報検索装置をもって解決手段とする。
【0012】
請求項4の本発明は、前記情報収集手段は、前記文に名称とともに含まれる任意の部分を品詞付きの単語の列に変換させ、該列が予め用意された品詞と単語の順序に関する規則を満たすときに、当該部分を当該名称に関連する属性とすることを特徴とする請求項1または2記載の情報検索装置をもって解決手段とする。
【0013】
請求項5の本発明は、情報検索装置の情報収集手段が、情報検索に先立って収集される情報の源である1以上の文を基に名称と属性との組を予め複数組収集する情報収集ステップであって、形態素解析により前記文に含まれる単語に品詞を付けさせ、該品詞付きの単語と予め用意された複数の名称のいずれとが一致するか、または当該単語に付けられた品詞と予め用意された複数種類の名詞のいずれとが一致する場合に当該単語を前記名称とするとともに前記文の中の当該名称に関連する部分を前記属性とする情報収集ステップと、前記情報検索装置の座標演算手段が、予め用意された複数の単語のそれぞれと該単語の概念を表す座標とが対応づけて蓄積されるときに、前記収集された各名称と組をなす属性に含まれかつ前記蓄積された単語のいずれかである単語を求めるとともに、当該単語に対応づけられた前記座標を用いて当該収集された各名称の概念を表す座標を求め記憶させる座標演算ステップと、前記情報検索装置の名称検索手段が、情報検索に際し入力される文字列の概念を表す座標を前記蓄積された座標を用いて求め、該求めた座標と類似する座標を前記座標演算ステップで予め求め記憶した座標の中から求め、該求めた座標に対応する名称を出力する名称検索ステップとを備える情報検索方法をもって解決手段とする。
【0014】
請求項6の本発明は、前記名称検索ステップでは、入力された文字列と前記収集された名称のいずれとが一致するときは、前記座標演算ステップで予め求め記憶された座標の中の当該名称に対応するものを当該入力された文字列の概念を表す座標とすることを特徴とする請求項5記載の情報検索方法をもって解決手段とする。
【0015】
請求項7の本発明は、前記情報収集ステップでは、前記文に含まれる任意の部分の構文を解析させ、この解析結果が予め用意された構文用規則を満たすときに、当該部分を属性とすることを特徴とする請求項5または6記載の情報検索方法をもって解決手段とする。
【0016】
請求項8の本発明は、前記情報収集ステップでは、前記文に含まれる任意の部分を品詞付きの単語の列に変換させ、該列が予め用意された品詞と単語の順序に関する規則を満たすときに、当該部分を属性とすることを特徴とする請求項5または6記載の情報検索方法をもって解決手段とする。
【0017】
請求項9の本発明は、情報検索装置の情報収集手段が、情報検索に先立って収集される情報の源である1以上の文を基に名称と属性との組を予め複数組収集する情報収集ステップであって、形態素解析により前記文に含まれる単語に品詞を付けさせ、該品詞付きの単語と予め用意された複数の名称のいずれとが一致するか、または当該単語に付けられた品詞と予め用意された複数種類の名詞のいずれとが一致する場合に当該単語を前記名称とするとともに前記文の中の当該名称に関連する部分を前記属性とする情報収集ステップと、前記情報検索装置の座標演算手段が、予め用意された複数の単語のそれぞれと該単語の概念を表す座標とが対応づけて蓄積されるときに、前記収集された各名称と組をなす属性に含まれかつ前記蓄積された単語のいずれかである単語を求めるとともに、当該単語に対応づけられた前記座標を用いて当該収集された各名称の概念を表す座標を求め記憶させる座標演算ステップと、前記情報検索装置の名称検索手段が、情報検索に際し入力される文字列の概念を表す座標を前記蓄積された座標を用いて求め、該求めた座標と類似する座標を前記座標演算ステップで予め求め記憶した座標の中から求め、該求めた座標に対応する名称を出力する名称検索ステップとを前記情報検索装置の各手段に実行させる情報検索プログラムをもって解決手段とする。
【0021】
請求項10の本発明は、情報検索装置の情報収集手段が、情報検索に先立って収集される情報の源である1以上の文を基に名称と属性との組を予め複数組収集する情報収集ステップであって、形態素解析により前記文に含まれる単語に品詞を付けさせ、該品詞付きの単語と予め用意された複数の名称のいずれとが一致するか、または当該単語に付けられた品詞と予め用意された複数種類の名詞のいずれとが一致する場合に当該単語を前記名称とするとともに前記文の中の当該名称に関連する部分を前記属性とする情報収集ステップと、前記情報検索装置の座標演算手段が、予め用意された複数の単語のそれぞれと該単語の概念を表す座標とが対応づけて蓄積されるときに、前記収集された各名称と組をなす属性に含まれかつ前記蓄積された単語のいずれかである単語を求めるとともに、当該単語に対応づけられた前記座標を用いて当該収集された各名称の概念を表す座標を求め記憶させる座標演算ステップと、前記情報検索装置の名称検索手段が、情報検索に際し入力される文字列の概念を表す座標を前記蓄積された座標を用いて求め、該求めた座標と類似する座標を前記座標演算ステップで予め求め記憶した座標の中から求め、該求めた座標に対応する名称を出力する名称検索ステップとを前記情報検索装置の各手段に実行させる情報検索プログラムが記録された記録媒体をもって解決手段とする。
【0025】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して説明する。
【0026】
[第1の実施の形態]
図1は、本発明の第1の実施の形態に係る情報検索装置1の構成を示す図である。情報検索装置1は、情報収集手段11と、形態素解析手段12と、概念ベース13と、座標演算手段14と、概念空間15と、類似度演算手段16とを備えるコンピュータシステムである。情報収集手段11、座標演算手段14及び類似度演算手段16は、本発明の情報検索プログラムを実行することにより実現される。概念ベース13及び概念空間15は外部記憶装置等に構成される。
【0027】
本実施の形態では、情報検索に先立ってデータ項目という情報を複数収集する必要がある。データ項目とは、名称と属性とからなる情報であり、収集された複数のデータ項目をデータ項目群という。
【0028】
情報収集手段11は、入力されるテキストデータを基に、データ項目群を収集する。テキストデータは、文を1以上含むものであればどのようなものであっても良いので、新聞やWeb上のテキスト等、電子化された文章であればどのようなものでも良い。
【0029】
情報収集手段11は、先ず形態素解析手段12をして、形態素解析により、テキストデータに含まれる単語に品詞を付けさせる。そして、該品詞付きの単語と予め用意された複数の名称のいずれとが一致するか、または当該単語に付された品詞と予め用意された複数種類の名詞のいずれとが一致する場合に当該単語を名称と判断するとともにテキストデータの中の当該名称に関連する部分を属性と判断する。情報収集手段11は、前述した複数の名称からなる名称リストL1と、複数種類の名詞からなる品詞リストL2と(共に図示せず)を備えている。名称リストL1は、「山田」,「佐藤」,「田中」を含むものとする。品詞リストL2は、「固有名詞」,「一般名詞」等の、名詞に分類される品詞名を含むものとする。
【0030】
概念ベース13は、予め用意された複数の単語のそれぞれに対応する、多次元空間上の座標(以下、座標)を記憶したデータベースである。多次元空間は1以上の次元数をを持つ空間であればどのような空間でも良いが、図2に示すように、2次元空間上の座標を割り当てたものとして、以下説明する。
【0031】
また、概念ベース13は、2つの単語が何らかの点で似ているほど近い位置に配置されるものならば、人手でそれぞれの単語に座標を割り当てたものでも良いし、テキストデータや電子化辞書等の言語データを利用して自動的に構築したものでも構わない。
【0032】
座標演算手段14は、各データ項目の属性と概念ベース13との双方に含まれる単語を求めるとともに、概念ベース13において当該単語に対応づけられた座標を用いて各データ項目の名称の概念を表す座標を求め、当該名称に対応づけることにより概念空間15を生成するようになっている。したがって、概念空間15にあっては、各データ項目の名称と当該名称の概念を表す座標とが対応づけられて蓄積されている。
【0033】
なお、座標の演算方法は、その属性に最も多く含まれる単語の座標や、その属性に含まれる単語の座標の重心など、データ項目に含まれる単語の座標に基づく計算方法ならばどのようなものでも構わない。
【0034】
類似度演算手段16に対しては、情報検索に際し、例えば、ユーザにより文字列が入力される。類似度演算手段16は先ず、この文字列の概念を表す座標を、概念ベース13に蓄積された座標を用いて求める。そして、該求めた座標と類似する座標を概念空間15に蓄積された座標の中から求める。そして、最後に該求めた座標に対応する名称を検索結果として出力するようになっている。
【0035】
なお、類似度の演算方法としては、2つの座標の位置ベクトルのなす角度の余弦、ユークリッド距離の逆数など、多次元空間上で2つの座標に基づいて定義できる尺度であればどのようなものであっても良い。
【0036】
出力先は、表示装置や印刷装置など(共に図示せず)である。例えば、名称は、類似度の大きい順にすべてを出力しても良いし、類似度の値や順位によって出力件数を制限しても良い。また、データ項目の属性を同時に出力しても良い。
【0037】
次に、第1の実施の形態の作用を説明する。
【0038】
図3は、情報検索装置1が予め行う処理の流れを示すフローチャートである。なお、ステップS1及びS3は、本発明の情報収集ステップを構成し、ステップS5は、座標演算ステップに相当する。
【0039】
さて、情報収集手段11は、図4に示すようなテキストデータ(以下単にテキストデータという)が入力されると、先ず形態素解析手段12を呼び出してテキストデータを品詞付きの単語の列に変換させる(S1)。例えば、テキストデータの中の1文「議会において、山田氏が改革の意見を述べた。」は、次のように変換される。
【0040】
議会[名詞−一般]において[助詞−格助詞−連語]、「記号−読点]山田[名詞−固有名詞−人名−性]氏[名詞−接尾−一般]が[助詞−格助詞−一般]改革[名詞−サ変接続]の[助詞−連体化]意見[名詞−サ変接続]を[助詞−格助詞−一般]述べ[連用形]た[基本形]。「記号−句点]
情報収集手段11は、他の文についても、同様に変換を行う。
【0041】
次に、情報収集手段11は、データ項目群を生成する(S3)。つまり、品詞付きの各単語の中から名称である単語とその属性とを求める。具体的には、変換された品詞付きの単語それぞれにつき、これが名称リストL1のいずれとが一致するか、または当該単語に付された品詞と品詞リストL2の名詞のいずれとが一致する場合に当該単語を名称と判断する。そして、テキストデータの中の当該名称に関連する部分を属性として求める。関連する部分とは、当該名称を含む文や段落など、名称との関係によって定義できるものならばどのようなものでも良い。
【0042】
ステップS3を繰り返すことにより、図5に示すような、テキストデータに含まれる名称である「山田」,「田中」及び「佐藤」の名称とその属性とからなるデータ項目が得られる。ここでは、名称を含む文を属性としているが、名称を含む段落等を属性としても勿論よい。
【0043】
次に、座標演算手段14は概念空間15を生成する(S5)。具体的には、先ずデータ項目の属性と概念ベース13の双方に含まれる単語を求める。例えば、名称「田中」に対応する属性は、概念ベース13に含まれる「意見」、「改革」、「賛成」、「同意」、「賛成」、「理由」という単語を含んでいるので、これらを選択する。そして、概念ベース13において当該選択された各単語に対応づけられた座標(3,3)、(1,6)、(3,5)、(2,4)、(3,5)、(1,3)を用いて、名称「田中」の概念を表す座標を求める。例えば、これら座標の重心座標(2.2,4.3)を求めればよい。同様に、他の名称「山田」、「佐藤」についても、これら名称の概念を表す座標(1.9,4.3)、(2.3,2.5)を求め、該求めた全ての座標を名称に対応づけて、図6のような概念空間15を生成するのである。
【0044】
図7は、情報検索装置1が、検索時に行う処理の流れを示すフローチャートである。なお、ステップS11、S13及びS15は、情報検索ステップを構成する。
【0045】
さて、類似度演算手段16は情報検索に際し、例えば、「保守の意見を主張した人」という文字列(以下、単に文字列という)が入力されると、この文字列の概念を表す座標を、概念ベース13に蓄積された座標を用いて求める(S11)。具体的には、先ず類似度演算手段16は、先ず形態素解析手段12をして、形態素解析により文字列に含まれる単語「保守」、「意見」、「主張」、「人」を求めさせる。そして、これら単語の中から、概念ベース13に含まれる単語「保守」、「意見」、「主張」だけを選択する。類似度演算手段16は、さらに、概念ベース13でこれらの単語に対応づけられている座標(1,0)、(3,3)、(4,3)を求める。そして、例えば、これら座標の重心座標(2.7,2.0)を、入力された文字列「保守の意見を主張した人」の概念を表す座標として求めるのである。
【0046】
次に類似度演算手段16は、求めた座標に類似する座標を求める(S13)。具体的には、求めた座標(2.7,2.0)と、概念空間15に格納された各座標との類似度を求める。例えば、ユークリッド距離に1を足した数の逆数を類似度として採用すると、座標(2.7,2.0)と、名称「山田」に対応する座標(1.9,4.3)との類似度は、図8に示すように、0.29となる。同様にして類似度演算手段16は、名称「田中」に対応する座標(2.2,4.3)との類似度は、0.30、名称「佐藤」に対応する座標(2.2,2.5)との類似度は、0.61となる。
【0047】
そして、類似度演算手段16は、この類似する座標に対応する名称を検索結果として出力する(S15)。例えば、図9のように、名称「佐藤」、「田中」、「山田」を、類似度の高い順に、類似度と順位を対応づけて出力する。さらに属性等を対応づけて出力しても良い。
【0048】
したがって、第1の実施の形態によれば、情報検索に先立って収集される情報の源である1以上の文を基に名称と属性との組を予め複数組収集する情報収集手段であって、形態素解析により前記文に含まれる単語に品詞を付けさせ、該品詞付きの単語と予め用意された複数の名称のいずれとが一致するか、または当該単語に付けられた品詞と予め用意された複数種類の名詞のいずれとが一致する場合に当該単語を前記名称とするとともに前記文の中の当該名称に関連する部分を前記属性とする情報収集手段11と、予め用意された複数の単語のそれぞれと該単語の概念を表す座標とが対応づけて蓄積される単語概念蓄積手段(概念ベース13)と、名称の概念を表す座標が記憶される座標記憶手段(概念空間15)と、前記収集された各名称と組をなす属性と前記単語概念蓄積手段(13)との双方に含まれる単語を求めるとともに当該単語概念蓄積手段(13)において当該単語に対応づけられた座標を用いて当該収集された各名称の概念を表す座標を求め座標記憶手段(15)に記憶させる座標演算手段14と、情報検索に際し入力される文字列の概念を表す座標を単語概念蓄積手段(13)に蓄積された座標を用いて求め、該求めた座標と類似する座標を、座標記憶手段(15)の座標の中から求め、該求めた座標に対応する名称を出力する名称検索手段(類似度演算手段16)とを備えるので、予め与えられるテキストデータに、例えば、著作者名といった名称の付与されていないものであっても、検索に際して要求される名称を出力することができる。
【0049】
[第2の実施の形態]
図10は、本発明の第2の実施の形態に係る情報検索装置1Aの構成を示す図である。情報検索装置1Aは、情報検索装置1の類似度演算手段16に代えて類似度演算手段16Aを構成したものである。その他の構成については、同一符号を付して説明を略す。
【0050】
類似度演算手段16Aは、入力された文字列とデータ項目の名称のいずれとが一致するときは、当該入力された文字列を名称と判断する。そして、概念空間15に格納された座標の中の当該名称に対応するものを、当該入力された文字列、すなわち名称、の概念を表す座標とするようになっている。
【0051】
具体的な作用を説明する。
【0052】
文字列「山田」が入力されると、類似度演算手段16Aは、この文字列「山田」が、データ項目の名称「佐藤」、「田中」、「山田」のいずれかと一致するかを判定する。名称「山田」と一致するので、文字列「山田」は名称と判定される。
【0053】
次に、類似度演算手段16Aは、概念空間15に格納された座標の中の当該名称「山田」に対応する座標(1.9,4.3)を、当該入力された文字列の概念を表す座標とする。
【0054】
次に、類似度演算手段16Aは、第1の実施の形態のステップS13と同様に、求めた座標に類似する座標を求める。具体的には、求めた座標(1.9,4.3)と、概念空間15に格納された各座標との類似度を求める。例えば、ユークリッド距離に1を足した数の逆数を類似度として採用すると、座標(1.9,4.3)と、名称「山田」に対応する座標(1.9,4.3)との類似度は、1.00となる。同様にして類似度演算手段16は、名称「田中」に対応する座標(2.2,4.3)との類似度は、0.76、名称「佐藤」に対応する座標(2.2,2.5)との類似度は、0.35となる。
【0055】
そして、類似度演算手段16は、第1の実施の形態のステップS15と同様に、この類似する座標に対応する名称を検索結果として出力する。例えば、図11のように、名称「佐藤」、「田中」、「山田」を、類似度の高い順に、類似度と順位を対応づけて出力する。
【0056】
したがって、第2の実施の形態によれば、名称検索手段(類似度演算手段16A)は、入力された文字列とデータ項目の名称のいずれとが一致するときは、概念空間15の座標の中の当該名称に対応するものを当該入力された文字列の概念を表す座標とするようにしたので、入力された文字列に等しい名称のみならず、その名称に関連する名称を自動的に検索することができる。
【0057】
[第3の実施の形態]
図12は、本発明の第3の実施の形態に係る情報検索装置1Bの構成を示す図である。情報検索装置1Bは、情報検索装置1の情報収集手段11に代えて情報収集手段11Aを構成し、さらに、与えられたテキストデータの構文を解析する構文解析手段17と、構文解析の結果に対する判定規則(構文用規則)の集合である構文用規則群18を設けたものである。その他の構成については、同一符号を付して説明を略す。
【0058】
情報収集手段11Aは、テキストデータに名称とともに含まれる任意の部分の構文を、構文解析手段17解析させ、この解析結果が構文用規則群18の構文用規則を満たすときに、当該部分を当該名称に関連する属性としてデータ項目を生成するようになっている。
【0059】
具体的な作用を説明する。
【0060】
情報収集手段11Aは、図4のテキストデータを入力として受け取ると、まず、形態素解析手段12にテキストデータを品詞付きの単語の列に変換させる。
【0061】
そして、第1の実施の形態の情報収集手段11と同様に名詞(例えば「山田」)を検出する。次に、構文解析手段17に、この名詞を含むテキストデータ中の文の構文構造を解析させる。
【0062】
例えば、「山田が発言する」という文を構文解析手段17に解析させると、以下の構文解析結果が得られる。
【0063】
構文解析結果の例)
[後置詞句[名詞句:“山田”][後置詞句:“が”]][動詞句:“発言した”]
情報収集手段11Aは、得られた構文解析結果が、構文用規則群18の構文用規則を満たすときは当該部分を当該名称「山田」に関連する属性とする。構文用規則は、構文解析結果に対して照合の判定ができるものならばどのようなものでも良い。例えば、以下の構文用規則を用いることとする。
【0064】
構文用規則の例)
[後置詞句[名詞句][後置詞句:“が”]][動詞句]
情報収集手段11Aは、当該名称「山田」が、構文用規則の[名詞句]の位置にあるような文を収集する。例えば前述の構文解析結果[後置詞句[名詞句:“山田”][後置詞句:“が”]][動詞句:“発言した”]は、この構文用規則に合致する。したがって、「山田が発言した」という文は、属性としてデータ項目を構成することとなる。
【0065】
図13は、情報収集手段11Aが収集したデータ項目を示す図である。名称「山田」に対応する属性は、図5の属性に含まれていた「山田氏の意見に対し、田中氏は「改革に賛成である」と同意した。」という文が含まれていない。すなわち、田中氏がとった行動により、山田氏の概念が形成されてしまうという不都合を防止することができる。
【0066】
したがって、第3の実施の形態によれば、情報収集手段11Bは、テキストデータに名称とともに含まれる任意の部分の構文を解析させ、この解析結果が予め用意された構文用規則を満たすときに、当該部分を当該名称に関連する属性とするようにしたので、好適な構文用規則を用意するだけで、より一層名称に関連する属性が得られ、その結果、より好適な名称を検索することができる。
【0067】
[第4の実施の形態]
図14は、本発明の第4の実施の形態に係る情報検索装置1Cの構成を示す図である。情報検索装置1Cは、情報検索装置1の情報収集手段11に代えて情報収集手段11Bを構成し、さらに、品詞と単語の順序に関する順序規則の集合である順序規則群19を設けたものである。その他の構成については、同一符号を付して説明を略す。
【0068】
情報収集手段11Bは、テキストデータに名称とともに含まれる任意の部分を、形態素解析手段12をして品詞付きの単語の列に変換させ、該列が、順序規則群19の規則を満たすときに、当該部分を当該名称に関連する属性としてデータ項目を生成するようになっている。
【0069】
具体的な作用を説明する。
【0070】
情報収集手段11Bは、図4のテキストデータを入力として受け取ると、まず、形態素解析手段12にテキストデータを品詞付きの単語の列に変換させる。そして、先ず、第1の実施の形態で説明したようにして、名詞である単語(「山田」とする)を特定する。次に、この単語「山田」を含む品詞付きの単語の列と、順序規則を照合する。
【0071】
順序規則としては、「[名詞]が*[動詞]。」のように、品詞付きの単語に列に対して照合の判定ができるものならばどのようなものでも良い。(*は任意の文字列に合致する)。ここで、順序規則の例として、以下の4つの規則を用いることとする。
【0072】
順序規則1:[名詞]が*述べた。
【0073】
順序規則2:[名詞]が*述べた。
【0074】
順序規則3:[名詞]が*主張した。
【0075】
順序規則4:[名詞]が*主張した。
【0076】
情報収集手段11Bは、名詞と判定した単語が、順序規則の[名詞]の位置にあるような文を収集する。例えば、「議会において、山田氏が改革の意見を述べた。」という文は順序規則1にマッチするので、この文を「山田」の属性として獲得する。
【0077】
図15は、情報収集手段11Bが収集したデータ項目を示す図である。名称「田中」に対応する属性は、図5の属性に含まれていた「山田氏の意見に対し、田中氏は「改革に賛成である」と同意した。」という文が含まれていない。すなわち、山田氏の行動に対して行った行動より、田中氏の概念が形成されてしまうという不都合を防止することができる。
【0078】
したがって、第4の実施の形態によれば、情報収集手段11Bは、テキストデータに名称とともに含まれる任意の部分を品詞付きの単語の列に変換させ、該列が予め用意された品詞と単語の順序に関する規則を満たすときに、当該部分を当該名称に関連する属性とするようにしたので、好適な順序規則を用意するだけで、より一層名称に関連する属性が得られ、その結果、より好適な名称を検索することができる。
【0079】
なお、上記説明した処理を実行する本発明に係る情報検索プログラムは、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク、磁気テープなどのコンピュータ読み取り可能な記録媒体に記録したり、インターネットなどの通信網を介して伝送させて、広く流通させることができる。
【0080】
【発明の効果】
以上説明したように、本発明によれば、形態素解析により文に含まれる単語に品詞を付けさせ、該品詞付きの単語と予め用意された複数の名称のいずれとが一致するか、または当該単語に付けられた品詞と予め用意された複数種類の名詞のいずれとが一致する場合に当該単語を前記名称とするとともに前記文の中の当該名称に関連する部分を前記属性とし、予め用意された複数の単語のそれぞれと該単語の概念を表す座標とが対応づけて蓄積されるときに、前記収集された各名称と組をなす属性に含まれかつ前記蓄積された単語のいずれかである単語を求めるとともに当該単語に対応づけられた前記座標を用いて当該収集された各名称の概念を表す座標を求め記憶し、情報検索に際し入力される文字列の概念を表す座標を蓄積された座標を用いて求め、該求めた座標と類似する座標を、予め求め記憶した座標の中から求め、該求めた座標に対応する名称を出力するようにしたので、予め与えられる文が名称の付与されていないものであっても、要求される名称を検索することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る情報検索装置1の構成を示す図である。
【図2】概念ベース13を示す図である。
【図3】情報検索装置1が予め行っておく処理の流れを示すフローチャートである。
【図4】テキストデータを示す図である。
【図5】情報収集手段11が収集したデータ項目を示す図である。
【図6】概念空間15を示す図である。
【図7】情報検索装置1が、検索時に行う処理の流れを示すフローチャートである。
【図8】類似度の演算方法を示す図である。
【図9】第1の実施の形態での検索結果を示す図である。
【図10】本発明の第2の実施の形態に係る情報検索装置1Aの構成を示す図である。
【図11】第2の実施の形態での検索結果を示す図である。
【図12】本発明の第3の実施の形態に係る情報検索装置1Bの構成を示す図である。
【図13】情報収集手段11Aが収集したデータ項目を示す図である。
【図14】本発明の第4の実施の形態に係る情報検索装置1Cの構成を示す図である。
【図15】情報収集手段11Aが収集したデータ項目を示す図である。
【符号の説明】
1,1A,1B,1C 情報検索装置
11,11A,11B 情報収集手段
12 形態素解析手段
13 概念ベース
14 座標演算手段
15 概念空間
16,16A 類似度演算手段
17 構文解析手段
18 構文用規則群
L1 名称リスト
L2 品詞リスト
Claims (10)
- 情報検索に先立って収集される情報の源である1以上の文を基に名称と属性との組を予め複数組収集する情報収集手段であって、形態素解析により前記文に含まれる単語に品詞を付けさせ、該品詞付きの単語と予め用意された複数の名称のいずれとが一致するか、または当該単語に付けられた品詞と予め用意された複数種類の名詞のいずれとが一致する場合に当該単語を前記名称とするとともに前記文の中の当該名称に関連する部分を前記属性とする情報収集手段と、
予め用意された複数の単語のそれぞれと該単語の概念を表す座標とが対応づけて蓄積される単語概念蓄積手段と、
名称の概念を表す座標が記憶される座標記憶手段と、
前記収集された各名称と組をなす属性と前記単語概念蓄積手段との双方に含まれる単語を求めるとともに当該単語概念蓄積手段において当該単語に対応づけられた座標を用いて当該収集された各名称の概念を表す座標を求め前記座標記憶手段に記憶させる座標演算手段と、
情報検索に際し入力される文字列の概念を表す座標を前記蓄積された座標を用いて求め、該求めた座標と類似する座標を前記座標記憶手段に記憶された座標の中から求め、該求めた座標に対応する名称を出力する名称検索手段
とを備える情報検索装置。 - 前記名称検索手段は、入力された文字列と前記収集された名称のいずれとが一致するときは、前記座標記憶手段に記憶された座標の中の当該名称に対応するものを当該入力された文字列の概念を表す座標とすることを特徴とする請求項1記載の情報検索装置。
- 前記情報収集手段は、前記文に名称とともに含まれる任意の部分の構文を解析させ、この解析結果が予め用意された構文用規則を満たすときに、当該部分を当該名称に関連する属性とすることを特徴とする請求項1または2記載の情報検索装置。
- 前記情報収集手段は、前記文に名称とともに含まれる任意の部分を品詞付きの単語の列に変換させ、該列が予め用意された品詞と単語の順序に関する規則を満たすときに、当該部分を当該名称に関連する属性とすることを特徴とする請求項1または2記載の情報検索装置。
- 情報検索装置の情報収集手段が、情報検索に先立って収集される情報の源である1以上の文を基に名称と属性との組を予め複数組収集する情報収集ステップであって、形態素解析により前記文に含まれる単語に品詞を付けさせ、該品詞付きの単語と予め用意された複数の名称のいずれとが一致するか、または当該単語に付けられた品詞と予め用意された複数種類の名詞のいずれとが一致する場合に当該単語を前記名称とするとともに前記文の中の当該名称に関連する部分を前記属性とする情報収集ステップと、
前記情報検索装置の座標演算手段が、予め用意された複数の単語のそれぞれと該単語の概念を表す座標とが対応づけて蓄積されるときに、前記収集された各名称と組をなす属性に含まれかつ前記蓄積された単語のいずれかである単語を求めるとともに、当該単語に対応づけられた前記座標を用いて当該収集された各名称の概念を表す座標を求め記憶させる座標演算ステップと、
前記情報検索装置の名称検索手段が、情報検索に際し入力される文字列の概念を表す座標を前記蓄積された座標を用いて求め、該求めた座標と類似する座標を前記座標演算ステップで予め求め記憶した座標の中から求め、該求めた座標に対応する名称を出力する名称検索ステップ
とを備える情報検索方法。 - 前記名称検索ステップでは、入力された文字列と前記収集された名称のいずれとが一致するときは、前記座標演算ステップで予め求め記憶された座標の中の当該名称に対応するものを当該入力された文字列の概念を表す座標とすることを特徴とする請求項5記載の情報検索方法。
- 前記情報収集ステップでは、前記文に含まれる任意の部分の構文を解析させ、この解析結果が予め用意された構文用規則を満たすときに、当該部分を属性とすることを特徴とする請求項5または6記載の情報検索方法。
- 前記情報収集ステップでは、前記文に含まれる任意の部分を品詞付きの単語の列に変換させ、該列が予め用意された品詞と単語の順序に関する規則を満たすときに、当該部分を属性とすることを特徴とする請求項5または6記載の情報検索方法。
- 情報検索装置の情報収集手段が、情報検索に先立って収集される情報の源である1以上の文を基に名称と属性との組を予め複数組収集する情報収集ステップであって、形態素解析により前記文に含まれる単語に品詞を付けさせ、該品詞付きの単語と予め用意された複数の名称のいずれとが一致するか、または当該単語に付けられた品詞と予め用意された複数種類の名詞のいずれとが一致する場合に当該単語を前記名称とするとともに前記文の中の当該名称に関連する部分を前記属性とする情報収集ステップと、
前記情報検索装置の座標演算手段が、予め用意された複数の単語のそれぞれと該単語の概念を表す座標とが対応づけて蓄積されるときに、前記収集された各名称と組をなす属性に含まれかつ前記蓄積された単語のいずれかである単語を求めるとともに、当該単語に対応づけられた前記座標を用いて当該収集された各名称の概念を表す座標を求め記憶させる座標演算ステップと、
前記情報検索装置の名称検索手段が、情報検索に際し入力される文字列の概念を表す座標を前記蓄積された座標を用いて求め、該求めた座標と類似する座標を前記座標演算ステップで予め求め記憶した座標の中から求め、該求めた座標に対応する名称を出力する名称検索ステップ
とを前記情報検索装置の各手段に実行させる情報検索プログラム。 - 情報検索装置の情報収集手段が、情報検索に先立って収集される情報の源である1以上の文を基に名称と属性との組を予め複数組収集する情報収集ステップであって、形態素解析により前記文に含まれる単語に品詞を付けさせ、該品詞付きの単語と予め用意された複数の名称のいずれとが一致するか、または当該単語に付けられた品詞と予め用意された複数種類の名詞のいずれとが一致する場合に当該単語を前記名称とするとともに前記文の中の当該名称に関連する部分を前記属性とする情報収集ステップと、
前記情報検索装置の座標演算手段が、予め用意された複数の単語のそれぞれと該単語の概念を表す座標とが対応づけて蓄積されるときに、前記収集された各名称と組をなす属性に含まれかつ前記蓄積された単語のいずれかである単語を求めるとともに、当該単語に対応づけられた前記座標を用いて当該収集された各名称の概念を表す座標を求め記憶させる座標演算ステップと、
前記情報検索装置の名称検索手段が、情報検索に際し入力される文字列の概念を表す座標を前記蓄積された座標を用いて求め、該求めた座標と類似する座標を前記座標演算ステップで予め求め記憶した座標の中から求め、該求めた座標に対応する名称を出力する名称検索ステップ
とを前記情報検索装置の各手段に実行させる情報検索プログラムが記録された記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001140428A JP3875510B2 (ja) | 2001-05-10 | 2001-05-10 | 情報検索装置、その方法、そのプログラム及びそのプログラムが記録された記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001140428A JP3875510B2 (ja) | 2001-05-10 | 2001-05-10 | 情報検索装置、その方法、そのプログラム及びそのプログラムが記録された記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002334081A JP2002334081A (ja) | 2002-11-22 |
JP3875510B2 true JP3875510B2 (ja) | 2007-01-31 |
Family
ID=18987034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001140428A Expired - Fee Related JP3875510B2 (ja) | 2001-05-10 | 2001-05-10 | 情報検索装置、その方法、そのプログラム及びそのプログラムが記録された記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3875510B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5213742B2 (ja) * | 2009-02-04 | 2013-06-19 | 日本電信電話株式会社 | 概念検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
-
2001
- 2001-05-10 JP JP2001140428A patent/JP3875510B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002334081A (ja) | 2002-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9613024B1 (en) | System and methods for creating datasets representing words and objects | |
US7707204B2 (en) | Factoid-based searching | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
KR101661198B1 (ko) | 단문/복문 구조의 자연어 질의에 대한 검색 및 정보 제공 방법 및 시스템 | |
JP4347226B2 (ja) | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 | |
JP4200834B2 (ja) | 情報検索システム、情報検索方法及び情報検索プログラム | |
US20220261545A1 (en) | Systems and methods for producing a semantic representation of a document | |
JP2019082931A (ja) | 検索装置、類似度算出方法、およびプログラム | |
JP4325370B2 (ja) | 文書関連語彙獲得装置及びプログラム | |
KR101476225B1 (ko) | 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 | |
KR101602342B1 (ko) | 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템 | |
JP4361299B2 (ja) | 評価表現抽出装置、プログラム、及び記憶媒体 | |
JP3875510B2 (ja) | 情報検索装置、その方法、そのプログラム及びそのプログラムが記録された記録媒体 | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
JP2006139484A (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
JPH11259524A (ja) | 情報検索システム、情報検索システムにおける情報処理方法および記録媒体 | |
JP6805927B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
JP5199968B2 (ja) | キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム | |
JP2005284776A (ja) | テキストマイニング装置及びテキスト分析方法 | |
JP2005025555A (ja) | シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体 | |
JP4384736B2 (ja) | 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
WO2001024053A2 (en) | System and method for automatic context creation for electronic documents | |
JP2004287696A (ja) | 検索システム及び検索プログラム | |
JPH1145249A (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2000339342A (ja) | 文書検索方法および文書検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060808 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060914 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061017 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061026 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101102 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101102 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111102 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |