JP2006107361A - 情報検索方法および情報検索プログラム - Google Patents
情報検索方法および情報検索プログラム Download PDFInfo
- Publication number
- JP2006107361A JP2006107361A JP2004296614A JP2004296614A JP2006107361A JP 2006107361 A JP2006107361 A JP 2006107361A JP 2004296614 A JP2004296614 A JP 2004296614A JP 2004296614 A JP2004296614 A JP 2004296614A JP 2006107361 A JP2006107361 A JP 2006107361A
- Authority
- JP
- Japan
- Prior art keywords
- information
- character string
- name
- information sources
- person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】検索対象語に関してより詳細で、かつ正確な情報を取得可能とする。
【解決手段】文書(Webページ)の文書集合Uから人名nameを含むものを抽出し(S11)、文書集合Sの要素をURLのホスト群が一致するもの同士をまとめ、Webページの集合Hを構成する(S12)。次に、集合Hの各々に属するWebページの内容を形態素解析し、人名name以外の人名を抽出する(S13)。次に、「活動の場」wsに対するWebページの集合をノードとし、関連度に応じた重みrを付けたリンクを生成してグラフGを作成する(S14)。次に、グラフGからノード間の関連性に従って、ノード同士をシードに分別し(S15、S16)、さらに、近接していないノードに関しても、最も関連性の高いシードに帰属させる(S18)。
【選択図】 図1
【解決手段】文書(Webページ)の文書集合Uから人名nameを含むものを抽出し(S11)、文書集合Sの要素をURLのホスト群が一致するもの同士をまとめ、Webページの集合Hを構成する(S12)。次に、集合Hの各々に属するWebページの内容を形態素解析し、人名name以外の人名を抽出する(S13)。次に、「活動の場」wsに対するWebページの集合をノードとし、関連度に応じた重みrを付けたリンクを生成してグラフGを作成する(S14)。次に、グラフGからノード間の関連性に従って、ノード同士をシードに分別し(S15、S16)、さらに、近接していないノードに関しても、最も関連性の高いシードに帰属させる(S18)。
【選択図】 図1
Description
本発明は、情報検索方法および情報検索プログラムなどに関する。
文字というシンボルを用いることにより言葉の記録・流通が効率化されたが、その文字をコード化し、計算機によって処理可能なものとすることにより、非常に効率的に情報処理を行うことができるようになってきた。
現在では、公的機関の報告書や新聞記事などをも含む多くの文書は、紙を使用した印刷物だけでなく、文字コードによって記述されたデータの集まり(これは「電子化された文書」とも呼ばれている)としても提供されている。この電子化により情報流通や保存(アーカイブ)が効率化されている。また、これらの電子化された文書中に、ある文字列が出現するか否かを判定することにより、必要な文書を効率的に捜し出すこともできる。
さらに、これらの文書集合を解析することにより知識(単純な検索によって得られる情報、すなわち、どの語がどの文書に出現するという事実以上の情報)を抽出する技術も開発されている(非特許文献1)。具体的には、ある語が出現する文書群を類似したものどうしに分別(クラスタリング)することで、その語のもつ多義性を調べることや、語Aが出現する文書(群)と語Bが出現する文書(群)とを比較することにより語Aと語Bの意味的な近さを推し量る、といったことができる。
文書集合より知識を抽出するために、既存技術は、文書を(文法を含む何らかのルールによって構成された)文字の集まりとして抽象化しその特徴を解析する。最も単純であり、かつよく用いられるのは、文書を単純に語の集合(Bag-of-words)として抽象化し、文書中に特徴的なパターンで出現する語により、その文書を特徴付けるという手法である。この他にも、意味抽出の精度を向上させるため、語間の文法的関係を解析する手法などもあるが、いずれにしても、文字の集合体という抽象的対象の性質を(文法などの文の成り立ちに関する知識を用いて)調べることが既存技術の基本的なアプローチである。
インターネット<URL:http://www.ai-gakkai.or.jp/jsai/journal/mybookmark/16-6.html>
インターネット<URL:http://www.ai-gakkai.or.jp/jsai/journal/mybookmark/16-6.html>
上述した従来技術によるアプローチでは、ある語(を表す文字列)が指し示すものがどのようなものであるかに関わらず、同じように処理できるという特徴を持つ。例えば、ある語が指し示すものを他の語により説明しようとするならば、既存技術では、文書集合からその語を含む文書を抽出し、その文書群において特徴的な語を選び出す。しかしながら、従来技術では、特徴的な語(特徴語)の選出は、出現頻度などの計量に基づいて行なわれだけであり、それが概念的にどのような範疇に属するものなのかなどということは考慮されないため、検索対象語に関して正確な情報を取得することができないという問題があった。
本発明は、このような事情を考慮してなされたものであり、その目的は、検索対象語に関してより詳細で、かつ正確な情報を取得することができる情報検索方法を提供することにある。
上述した課題を解決するために、本発明の情報検索方法は、検索対象に関する情報を複数の情報源から検索する情報検索方法であって、検索対象を指し示す文字列(人名)が出現する情報源(Webページ)を抽出し、前記情報源から前記文字列以外の同一概念に属する文字列を抽出し、前記文字列以外の同一概念に属する文字列の共出関係に基づいて、前記情報源の相互関係(グラフ)を決定し、前記情報源の相互関係に基づいて、前記検索対象の同一性を判定して前記情報源を分類することを特徴とする。
本発明は、上記の発明において、前記情報源をノードとし、関連性がある情報源同士を、情報源同士の関連度に応じた重みを付けた無指向リンクで結ぶことにより、前記情報源の相互関係を表し、前記情報源同士を結ぶ無指向リンクに基づいて、前記情報源を分類することを特徴とする。
本発明は、上記の発明において、前記文字列は、前記検索対象の固有名詞であることを特徴とする。
本発明は、上記の発明において、前記文字列は、情報源での任意の文字列の出現頻度と該任意の文字列が特定の情報源で出現する偏在性とに基づいて、前記文字列と同一概念に属する他の文字列として求められることを特徴とする。
上述した課題を解決するために、本発明の情報検索プログラムは、検索対象に関する情報を複数の情報源から検索する情報検索プログラムであって、検索対象を指し示す文字列が出現する情報源を抽出するステップと、前記情報源から前記文字列以外の同一概念に属する文字列を抽出するステップと、前記文字列以外の同一概念に属する文字列の共出関係に基づいて、前記情報源の相互関係を決定するステップと、前記情報源の相互関係に基づいて、前記検索対象の同一性を判定して前記情報源を分類するステップとをコンピュータに実行させることを特徴とする。
この発明によれば、検索対象を指し示す文字列が出現する情報源を抽出し、情報源から文字列以外の同一概念に属する文字列を抽出し、文字列以外の同一概念に属する文字列の共出関係に基づいて、情報源の相互関係を決定し、情報源の相互関係に基づいて、検索対象の同一性を判定して情報源を分類する。これにより、検索対象に関する情報源と検索対象以外の情報源とを高い確度で分離することが可能となり、検索対象語に関してより詳細で、かつ正確な情報を取得することができる。
また、本発明によれば、情報源をノードとし、関連性がある情報源同士を、情報源同士の関連度に応じた重みを付けた無指向リンクで結ぶことにより、情報源の相互関係を表し、前記情報源同士を結ぶ無指向リンクに基づいて、前記情報源を分類する。これにより、検索対象に関する情報源と検索対象以外の情報源とを高い確度で分離することが可能となり、検索対象語に関してより詳細で、かつ正確な情報を取得することができる。
この発明によれば、前記文字列を、前記検索対象の固有名詞とする。これにより、複数の情報源に同姓同名の文字列が存在した場合でも、検索対象である人物に関する情報源とその人物以外の情報源とを高い確度で分離することが可能となり、検索対象語に関してより詳細で、かつ正確な情報を取得することができる。
また、本発明によれば、前記文字列を、情報源での任意の文字列の出現頻度と該任意の文字列が特定の情報源で出現する偏在性とに基づいて文字列と同一概念に属する他の文字列として求めることができる。これにより、人名の場合に必要とした辞書の保守を不要とすることができ、検索対象に関する情報源と検索対象以外の情報源とを高い確度で分離することが可能となり、検索対象語に関してより詳細で、かつ正確な情報を取得することができる。
以下、本発明の一実施形態による情報検索方法を、図面を参照して説明する。
A.同姓同名人物の分離
A−1.概要
文書集合より知識を抽出する作業の例として、Webという文書集合を用いて、ある人物に関する情報を収集するというタスクを考える。このときの手がかりは、文書中に出現する当該人物の名前を表す文字列である。しかし、この人物と文字列の対応付けは、1対1でなく、一般には同一の文字列に複数の人物が対応する(同姓同名)。したがって、本タスクを処理するには、同姓同名人物の識別というサブタスクを処理しなければならない。ここでは、同姓同名分離タスクの本発明による処理手順を実施例として示す。なお、すでに文脈から明らかであると思われるが、ここでは、同姓同名を人名の綴りが同一であることとし、読みが同じであるか否かは問わない。文書集合中の(複数の)文書(Webページ)に出現する文字列が指し示す人物の同一性を判定して分類するのが本タスクである。
A−1.概要
文書集合より知識を抽出する作業の例として、Webという文書集合を用いて、ある人物に関する情報を収集するというタスクを考える。このときの手がかりは、文書中に出現する当該人物の名前を表す文字列である。しかし、この人物と文字列の対応付けは、1対1でなく、一般には同一の文字列に複数の人物が対応する(同姓同名)。したがって、本タスクを処理するには、同姓同名人物の識別というサブタスクを処理しなければならない。ここでは、同姓同名分離タスクの本発明による処理手順を実施例として示す。なお、すでに文脈から明らかであると思われるが、ここでは、同姓同名を人名の綴りが同一であることとし、読みが同じであるか否かは問わない。文書集合中の(複数の)文書(Webページ)に出現する文字列が指し示す人物の同一性を判定して分類するのが本タスクである。
同姓同名人物分離タスクは、以下の2つのステップからなる(名前をnameとする):
Sa1.文書集合Uから文字列nameを含む文書を選び出し、Uの部分集合Sを作る。
Sa2.Sの要素を同一人物ごとに分別する。
Sa1.文書集合Uから文字列nameを含む文書を選び出し、Uの部分集合Sを作る。
Sa2.Sの要素を同一人物ごとに分別する。
現時点では、文書に出現する文字列nameをそれぞれ実在する人物に直接対応付けるという、高度な知識を必要とする処理を機械的に行うのは困難である。そこで代替案として、上記ステップSa2のためには、以下のようなデータマイニング的手法を考える。
すなわち、Uの要素間に何らかの類似性の尺度を導入し、その尺度に基づいて似通ったもの同士をグループ化する。そして、得られたそれぞれのグループを個別の人物に対応させる。従来技術を用いたグループ化の方法としては、文書毎に抽出した特徴語群の類似性に基づくクラスタリングや、語の出現に関する機械学習による文書分類などがある。
しかし、これらの従来技術による方法で把握される文書の特徴から直ちに個々人が識別されるわけではない。文書を特徴付ける語が広い概念を指すものである場合、それが人物(に対応する文書)識別のために役立つ可能性は低くなる。逆に高い特殊性を持つ語により特徴付けられた文書は、他文書から孤立してしまう。したがって、適度な特殊性をもつ語というものが個人の識別に適していると考えられるが、適切な特殊性の度合とは、どの程度であるか、そもそも、特殊性をどのように測るべきか、などといった検討が必要である。
また、適切な特殊性の度合というものは、状況に応じて変化させなければならない。例えば、同姓同名の人物中、同じ分野で活躍している人が複数存在する場合には、そうでない場合より、より高い分解能が必要になる。さらに言えば、多くの場合、人物は、多面性をもっており、個人の複数の特徴で、概念体系的には関係が認められない特徴(を付与された文書)が別々のものでなく同一人物に帰属するものであることを検出できるような工夫も必要である。つまり、ある人物が全く関連のない複数の異なる業界に属する場合があり、この場合、異なる業界に関する文書内に出現する人物を同一人物であると検出しなければならない。
これらの要求条件に応えるために、本発明の実施形態では、特徴語を統計的な計量のみに基づいて決定するのではなく、説明対象である人物という概念の特徴をも考慮する。概念の特徴とは、それ自体を説明する情報だけでなく、関係のある概念にどのようなものが存在するのか、また、それら概念間にどのような関連性があるのか、といった情報も含む。これらの概念的特徴を文書集合に投影し、文書の分類などの処理を行う。本実施形態では、人と関係の深い関連概念として、その所属する組織やプロジェクトといった「活動の場」を選び、この二者の関係を文書集合に適用し、同姓同名人物の分離を行う。その手順は、以下の通りである。なお、以下では、「活動の場」は、ws(workspace)と呼ぶことにする。
Sb1.nameが登場するwsの抽出
Sb2.上記wsからname以外の人物の抽出
Sb3.人物の共出関係に基づくwsの相互関係の把握
Sb4.上記相互関係に基づくwsの分類
Sb2.上記wsからname以外の人物の抽出
Sb3.人物の共出関係に基づくwsの相互関係の把握
Sb4.上記相互関係に基づくwsの分類
上記ステップSb4において最終的に分類されたws群のそれぞれが1人の人物に対応する。この手法の基本的な考えは、人は他者とのつながり(人間関係)によって識別され、そのつながりは活動の場において形成されるというものである。これは、通常、我々が実社会において行っている対象(ここでは人、組織など)の把握と理解の方法であるが、それを文書集合に適用することで、従来技術では得られなかった深い知識の獲得が可能になる。
以下,各手順についてそれぞれ説明する.
以下,各手順についてそれぞれ説明する.
A−2.wsの抽出
現在、多くの組織やプロジェクトがその活動の一環としてWebサーバを立ち上げている。よって、本実施形態では、Webサーバをwsとみなす。このとき、wsは以下のように抽出できる。
現在、多くの組織やプロジェクトがその活動の一環としてWebサーバを立ち上げている。よって、本実施形態では、Webサーバをwsとみなす。このとき、wsは以下のように抽出できる。
文書集合Uから文字列nameを含む文書を選び出すことで構成されたUの部分集合Sの要素を、URLのホスト部が同一であるもの同士をまとめて得られるWebページの集合がwsである。すなわち、wsHは、Sの部分集合で、
・hi,h2∈Hならば、h1とh2のホスト部は等しく、
・h∈Hのホスト部と等しいホスト部を持つs∈Sがあればs∈H
が成り立つようなものである。
・hi,h2∈Hならば、h1とh2のホスト部は等しく、
・h∈Hのホスト部と等しいホスト部を持つs∈Sがあればs∈H
が成り立つようなものである。
A−3.wsからの人物の抽出
wsHに登場する人物(の名前)の抽出は次のように行う。すなわち、Hの要素であるWebページの内容を形態素解析し、姓と名が連続して出現した場合に、それらをつなぎ合わせてある人物の姓名であるとする。
このようにしてHより得られた(name以外の)人名の集合を、以下、P(H)と書くことにする。
wsHに登場する人物(の名前)の抽出は次のように行う。すなわち、Hの要素であるWebページの内容を形態素解析し、姓と名が連続して出現した場合に、それらをつなぎ合わせてある人物の姓名であるとする。
このようにしてHより得られた(name以外の)人名の集合を、以下、P(H)と書くことにする。
A−4.wsの相互関係把握
異なるwsH1,H2がそれぞれに登場する人物を共有する(これを、人物がH1とH2共出する、と呼ぶ)とき、すなわち、
異なるwsH1,H2がそれぞれに登場する人物を共有する(これを、人物がH1とH2共出する、と呼ぶ)とき、すなわち、
が正であるとき,H1とH2には関連性があるとする。
wsをノードとし、関連性があるwsH1、H2を重みr(H1,H2)を付けた無指向リンクで結ぶと、wsの相互関係を表すグラフが得られる。このグラフをG(U,name)とする。
wsをノードとし、関連性があるwsH1、H2を重みr(H1,H2)を付けた無指向リンクで結ぶと、wsの相互関係を表すグラフが得られる。このグラフをG(U,name)とする。
A−5.wsの分類
G(U,name)の構造をもとに、wsを分類する。
まず、連結成分の間には関連性を示すリンクが全く存在しないので、これを互いに分離する。次に、以下の手順で連結成分内を分解する。
G(U,name)の構造をもとに、wsを分類する。
まず、連結成分の間には関連性を示すリンクが全く存在しないので、これを互いに分離する。次に、以下の手順で連結成分内を分解する。
初めに、互いに緻密な関係にある部分、例えばクラスタ係数が「1」であるノードとそのリンク先とを抽出し、分解のシードとする。シードが複数ない場合(0個を含む)には、その連結成分全体を1つのシードとする。シードが複数存在する場合には、まず、互いに近接しているシード、すなわち、リンクでつながれたシード同士をまとめて1つのシードとする。このようにして得られたシード群に適当に番号を振り、{Ci}i=i,…,Mとしておく。
ここで、wsの集合Wiに対して、
ここで、wsの集合Wiに対して、
と定義する。ここで、wとWiとの距離とは、これらのG(U,name)上の最短経路長のことである。
W0を、シードを構成する全wsの集合とし、上記定義に従い順次Wiを構成する。そして、各ステップで得られたDiのそれぞれの要素dを{Dj}のいずれに追加していく。Cjの選択には、以下の数量を用いる。
ここで、l(n1,n2)は、2つのノードn1,n2を結ぶリンクの重みであり、リンクが存在しないときは、0とする。dは、g(d,Cj)が最も大きいCjを選んで、そこに追加する。これは、最も関連性の高いCjを選ぶことに相当する。
以上のステップを、Diが空になるまで繰り返す。その結果得られた{Ci}が、各人物に対応するwsである。
以上のステップを、Diが空になるまで繰り返す。その結果得られた{Ci}が、各人物に対応するwsである。
A−6.具体例
ここで、上述したwsの分類の一例について図を参照して説明する。ここで、図1は、本発明の実施形態による情報検索方法に基づいて、グラフ構造をもとにwsを分割する手順を説明するためのフローチャートである。
ここで、上述したwsの分類の一例について図を参照して説明する。ここで、図1は、本発明の実施形態による情報検索方法に基づいて、グラフ構造をもとにwsを分割する手順を説明するためのフローチャートである。
まず、文書(Webページ)の集合である文書集合U、人名nameが入力されると(S10)、文書(Webページ)の文書集合Uから人名nameを含むものを抽出し、文書集合S(部分集合)を作成する(S11)。次に、文書集合Sの要素をURLのホスト群が一致するもの同士をまとめ、図2に示すように、「活動の場」wsに対応するWebページの集合Hを構成する(S12)。図2の例では、URL「http://server1/index.html」、URL「http://server1/foo/l」、URL「http://server1/bar/baz.html」をまとめ、集合Hとして「server1」を構成する。また、URL「http://server2/one.html」、URL「http://server2/two.html」のホストをまとめ、集合Hとして「server2」を構成する。さらに、URL「http://server3/list.html」、…をまとめ、集合Hとして「server3」を構成する。
次に、集合Hの各々に属するWebページの内容を形態素解析し、人名name以外の人名を抽出し、集合Hから得られた人名name以外の人名の集合をP(H)とする(S13)。図2に示す例では、集合H「server1」のP(H)は、人名「山田○○」、「佐藤△△」、「鈴木□□」、…などを含む。また、集合H「server2」のP(H)は、人名「山田○○」、「田中××」、…などを含み、集合H「server3」のP(H)は、人名「佐藤△△」、「鈴木□□」、「田中××」、…などを含む。
次に、「活動の場」wsに対するWebページの集合H「server1」、「server2」、「server3」、…を、各々、ノード1、2、3、…に対応付ける。なお、図2の集合Hに記載の(1)、(2)、(3)、…は図3のノードの番号に対応する。ノード1、2、3、…の間に、前述した数式(1)の条件が満たされるとき、重みrを付けたリンクを生成してグラフGを作成する。ここで、重みrとはP(H)に含まれる人名において人名が一致する数である(S14)。図2に示す例では、集合H「server1」のノード1と集合H「server2」のノード2との間の重みrが「1」となり、集合H「server1」のノード1と集合H「server3」のノード3との間の重みrが「2」となる。さらに、集合H「server2」のノード2と集合H「server3」のノード3との間の重みrが「1」となる。以下、図示していないノードに付いても同様に重み付けする(図2の例では、ノード4〜9、A、Bが相当)。また、図2に示す例において作成したグラフGを、図3(a)に示す。
次に、グラフGの各連結成分gに対して、連結成分g中のシード(クラスタ係数が1のノードと、そこからリンク先のノードとからなる、ノードの集まり)を抽出する(S15)。なお、連結成分gにシードが存在しなければ、連結成分gの全ノードを1つのシードとする。次に、シード同士が近接している場合、それらを統合し、改めて1つのシードとし、得られたシードに順に番号jを付け、それぞれをCjとする(S16)。そして、Wを{Cj}の和集合、すなわちW=∪Cjとする(S16)。
図3(b)で示しているのはシードに対応する部分である。上部にはノード1、2、3からなるシードが存在し、下部にはノード8、9、A、Bからなるシードが存在する。下部のシード中には、実際には、クラスタ係数が1である3つのノード9、A、Bが存在している。いずれも、それらノードとそのリンク先からなるノードとの集合は、{8,9,A,B}で、3つのシードが完全に重なり合っており、結果的に、これらは1つのシードとして統合される。上部、下部のシードに属するノードの集合を順にC1、C2とする。図3(c)に示すように、C1とC2を合わせたものがW0である。W0より距離が1だけ離れているノード集合がD1である。
次に、Wに含まれないノードを順次{Cj}のうち、最も関連性の高いものに帰属させる(S18)。具体的には、D={W|WはGのノードでWからの距離が1}とし、Dの各要素dに対し、q(d,Cj)が最大となるCjを選び(複数可)、Cj=Cj∪(d)とする。そして、Dが空になるまで、W=W∪Dとしてこの処理を繰り返す。
図3(d)に示すように、ノード4、5については、C1にのみ繋がっているため、C1に帰属させる。一方、ノード7については、C1とC2の双方に繋がりがある(ノード2−ノード7、ノード7−ノード8)。いま、ノード2−ノード7の繋がり(リンクの重み)の方がノード7−ノード8のつながりより強いとすると、ノード7もまたC1に属することになる。同様に、ノード6についても、C1に属することになる。最終的には、図3(e)に示すように、ノードは2つに分別される。そして、{Cj}を出力して終了する(S19)。
A−7.人名の統計的特徴をもつ語による代用
上述した実施形態では、wsから人名を取り出すために形態素解析を利用しており、人名をどれだけ正確に抽出できるかは形態素解析の性能、特に辞書にどれだけ人名が登録されているかに依存する。よって、本処理の精度を高く保つためには辞書の保守という作業が必要になる。
上述した実施形態では、wsから人名を取り出すために形態素解析を利用しており、人名をどれだけ正確に抽出できるかは形態素解析の性能、特に辞書にどれだけ人名が登録されているかに依存する。よって、本処理の精度を高く保つためには辞書の保守という作業が必要になる。
辞書を用いることなく人名を抽出することは非常に困難であるが、人名という文字列が持つデータとしての特徴が把握できれば、同特徴を持つ語により人名を模擬することができる。これにより、辞書の保守が必要なくなる。
図4は、人名と普通名詞との出現に関する違いを示したものである。ある語がx個のWebページに出現し、そのページはy個の異なるWebサーバに含まれているとき、点(x,y)をプロットした。グラフは、両対数で示している。普通名詞については、logxとlogyがほぼ比例関係にあるが、人名はその関係から外れてグラフ下方に位置している。これは、同じ数のページに出現していても、一般に、人名の方が特定のサーバに限って出現する傾向、すなわち、偏在性があることを示している。この偏在性は、次式で測ることができる。
一方、従来の情報検索では、ある語が文書においてどのくらい特徴的であるかを、当該語の文書内出現頻度(TF)と他文書における出現し難さを表す数量(IDF)との積で計算していた(TF・IDF)。wsから人名の代わりとなる語を選び出す際にもこの考え方を適用する。上記PSRは、IDFに対応する数量なので、TFとPSR(TF・PSR)との積により特徴語としての妥当性を測る。
人名に代わる特徴語のwsからの抽出方法は以下の通りである。まず、ws毎の特徴語の数の上限Nを予め決めておく。wsのページに出現する語毎にTF・PSRを計算する。全ての語をこの値の大きい順に整列させ、上位N個を当該wsの特徴語として採用する。
上記「wsの相互関係把握」以降の処理は、人名の場合と全く同様である。本方法により実際に同姓同名分離を行った結果、約8割を正しく処理できた。処理精度は、人名には及ばないが、辞書を保守する必要がないという点で人名を用いる場合よりも優れている。
A−8.その他の例
前項の例は、ある概念と関係の深い別の概念との(実世界での)関係を文書集合に適用して知識を抽出するという本発明の1つの具体化であるが、注目する概念を別に選べば、その対象に関する知識を前例と同じように得ることができる。
前項の例は、ある概念と関係の深い別の概念との(実世界での)関係を文書集合に適用して知識を抽出するという本発明の1つの具体化であるが、注目する概念を別に選べば、その対象に関する知識を前例と同じように得ることができる。
例えば、実世界において、種々の商品が人々によって利用されている消費生活の様子、いわばライフスタイルは、商品を指し示す語である商品名が、個人の生活空間(個人のウェブページ、特にウェブログなど)において、どのように出現するかを調べることで解析できる。これは、かつて、商品科学研究所とCDI(Communication Design Institute)が「家の中にある物により(社会を)語らしめる」という考えに基づいて、一般世帯の家財を網羅的に調べあげた研究、「疋田正博:生活財生態学『生活文化研究の視点と手法から文化ニーズを考える』、インターネット<URL:http://www.cdij.org/pf/seikatu.html, 2004>」に相当するものと考えられる。
この他にも、実世界における概念間の関係を文書集合に適用することにより、多種多様な解析が可能となる。
この他にも、実世界における概念間の関係を文書集合に適用することにより、多種多様な解析が可能となる。
上述した実施形態の効果をみるため、同姓同名人物分離の実験を、実データを用いて行った。以下、確認された効果について述べる。まず、個々の同姓同名人物を識別する能力は、従来の統計的処理にのみ基づく手法では平均約7割強であるのに対し、本発明では9割を越えることが分かった。また、前述したように、人物の多面性の扱いが同姓同名分離固有の課題であるが、文書の内容に基づいて分類を行う従来手法では、これをうまく解決できないことは既に説明した。
一方、本発明では、例えば人名「AB」という名前を持つ同姓同名人物の分離を行った場合、野球界で活躍している人物と芸能界で活躍している人物とが同一であると認識することができる。これは、野球界を引退した後、芸能界で活躍している人が多いという事実が、文書集合の中の人名「AB」をとりまく人間関係の中にも見い出すことができるからである。高い識別の能力のみならず、本発明では、いままでにないこのような効果が得られる。
上述した実施形態によれば、対象がどのような概念に属するものであるかを考慮し、その概念と関連のある他の概念およびそれら概念間の関係を文書集合に当てはめることにより、より詳しい知識の抽出を可能とする。また、本実施形態では、対象の実世界における位置付け(概念体系、人々がそれをどのように見て解釈しているかという社会的評価や、自然の理りとしてどのような性質を持つか、など)に関する情報をも利用することにより、対象に関してより深く正確な知識を獲得することができる。
上述の情報検索方法は、コンピュータシステムにより実現している。そして、上述した情報検索方法の処理過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
S10 文書集合U、人名nameの入力ステップ
S11 文書集合Sの作成ステップ
S12 Webページの集合Hの構成ステップ
S13 人名name以外の人名の集合P(H)の生成ステップ
S14 ノードとノードを結ぶリンクからなるグラフGの作成ステップ
S15 シードの抽出ステップ
S11 文書集合Sの作成ステップ
S12 Webページの集合Hの構成ステップ
S13 人名name以外の人名の集合P(H)の生成ステップ
S14 ノードとノードを結ぶリンクからなるグラフGの作成ステップ
S15 シードの抽出ステップ
Claims (5)
- 検索対象に関する情報を複数の情報源から検索する情報検索方法であって、
検索対象を指し示す文字列が出現する情報源を抽出し、
前記情報源から前記文字列以外の同一概念に属する文字列を抽出し、
前記文字列以外の同一概念に属する文字列の共出関係に基づいて、前記情報源の相互関係を決定し、
前記情報源の相互関係に基づいて、前記検索対象の同一性を判定して前記情報源を分類することを特徴とする情報検索方法。 - 前記情報源をノードとし、関連性がある情報源同士を、情報源同士の関連度に応じた重みを付けた無指向リンクで結ぶことにより、前記情報源の相互関係を表し、
前記情報源同士を結ぶ無指向リンクに基づいて、前記情報源を分類することを特徴とする請求項1記載の情報検索方法。 - 前記文字列は、前記検索対象の固有名詞であることを特徴とする請求項1または2記載の情報検索方法。
- 前記文字列は、情報源での任意の文字列の出現頻度と該任意の文字列が特定の情報源で出現する偏在性とに基づいて、前記文字列と同一概念に属する他の文字列として求められることを特徴とする請求項1または2記載の情報検索方法。
- 検索対象に関する情報を複数の情報源から検索する情報検索プログラムであって、
検索対象を指し示す文字列が出現する情報源を抽出するステップと、
前記情報源から前記文字列以外の同一概念に属する文字列を抽出するステップと、
前記文字列以外の同一概念に属する文字列の共出関係に基づいて、前記情報源の相互関係を決定するステップと、
前記情報源の相互関係に基づいて、前記検索対象の同一性を判定して前記情報源を分類するステップと
をコンピュータに実行させることを特徴とする情報検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004296614A JP2006107361A (ja) | 2004-10-08 | 2004-10-08 | 情報検索方法および情報検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004296614A JP2006107361A (ja) | 2004-10-08 | 2004-10-08 | 情報検索方法および情報検索プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006107361A true JP2006107361A (ja) | 2006-04-20 |
Family
ID=36376995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004296614A Pending JP2006107361A (ja) | 2004-10-08 | 2004-10-08 | 情報検索方法および情報検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006107361A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009252186A (ja) * | 2008-04-10 | 2009-10-29 | Ricoh Co Ltd | 情報配信装置、情報配信方法、情報配信プログラム及び記録媒体 |
-
2004
- 2004-10-08 JP JP2004296614A patent/JP2006107361A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009252186A (ja) * | 2008-04-10 | 2009-10-29 | Ricoh Co Ltd | 情報配信装置、情報配信方法、情報配信プログラム及び記録媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tuarob et al. | AlgorithmSeer: A system for extracting and searching for algorithms in scholarly big data | |
US9317613B2 (en) | Large scale entity-specific resource classification | |
Rodriguez et al. | New multi-stage similarity measure for calculation of pairwise patent similarity in a patent citation network | |
JP5078173B2 (ja) | 多義性解消方法とそのシステム | |
US8161059B2 (en) | Method and apparatus for collecting entity aliases | |
US20040049499A1 (en) | Document retrieval system and question answering system | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
US8812504B2 (en) | Keyword presentation apparatus and method | |
Tsai et al. | Evaluation of novelty metrics for sentence-level novelty mining | |
CN112364173B (zh) | 一种基于知识图谱的ip地址机构溯源方法 | |
KR20130108503A (ko) | 퍼스널 아이덴티티를 기술하는 데이터에 대한 액셔너블 속성의 애스클라이빙 | |
US9552415B2 (en) | Category classification processing device and method | |
KR101638535B1 (ko) | 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체 | |
Navadiya et al. | Web Content Mining Techniques-A Comprehensive Survey | |
JP6346367B1 (ja) | 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム | |
KR20120014458A (ko) | 연관 규칙 마이닝을 이용한 주제어 기반 인터넷 정보 검색 방법 | |
JP2014102625A (ja) | 情報検索システム、プログラム、および方法 | |
Ghareb et al. | Text associative classification approach for mining Arabic data set | |
JP4525433B2 (ja) | 文書集約装置及びプログラム | |
JP2006107361A (ja) | 情報検索方法および情報検索プログラム | |
JPH10254899A (ja) | 文書分類システム | |
Hashim et al. | An implementation method for Arabic keyword tendency using decision tree | |
EP2793145A2 (en) | Computer device for minimizing computer resources for database accesses | |
Alotaibi et al. | A Comparison of Topic Modeling Algorithms on Visual Social Media Networks | |
Suzen et al. | Semantic analysis for automated evaluation of the potential impact of research articles |