JP2004501424A - 中心用語辞典を利用した表題語の中心用語抽出方法及びそれを利用した情報検索システム及びその方法 - Google Patents

中心用語辞典を利用した表題語の中心用語抽出方法及びそれを利用した情報検索システム及びその方法 Download PDF

Info

Publication number
JP2004501424A
JP2004501424A JP2001577207A JP2001577207A JP2004501424A JP 2004501424 A JP2004501424 A JP 2004501424A JP 2001577207 A JP2001577207 A JP 2001577207A JP 2001577207 A JP2001577207 A JP 2001577207A JP 2004501424 A JP2004501424 A JP 2004501424A
Authority
JP
Japan
Prior art keywords
word
central
title
term
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001577207A
Other languages
English (en)
Inventor
ジョン イル ヒョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KT Corp
Original Assignee
KT Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KT Corp filed Critical KT Corp
Publication of JP2004501424A publication Critical patent/JP2004501424A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

質疑語から中心用語を抽出するための方法及びシステム及びそれを利用した情報検索システムに関するものである。情報検索システムは、表題語の中心用語を抽出し、表題語を拡張し、拡張された表題語に基づいてテキストを検索して、情報検索システムの性能及びユーザの便利性を大きく改善させることができる。

Description

【0001】
(技術分野)
本発明は、中心用語辞典を利用した表題語の中心用語抽出方法、及びそれを利用した情報検索システム及びその方法に関し、より詳細には、中心用語辞典を利用して表題語の中心用語(中心語(core words)または付加語)を抽出する方法、前記方法を利用してシステムの性能を向上させユーザの便利性を高めた情報検索システム及びその方法と、前記方法を実現させるためのプログラムを記録したコンピュータで読み出すことができる記録媒体と前記中心用語辞典のデータが記録されたコンピュータで読み出すことができる記録媒体に関する。
【0002】
(背景技術)
一般に、情報検索と呼ばれる技術は、従来図書館の図書または文献情報の検索をより素早く正確に、そして所望の情報を容易に探そうとする要求から始まった。この要求に応じて開発された情報検索システムは、所望の情報を探そうとする検索利用者に最も適合な情報のみを提供するシステムである。ところが、情報の量が多くなることに伴って、実時間に素早く検索をするために、情報検索システムは、各々のデータから直接情報を検索せず、データを検索しやすい形態に予め加工して格納する索引過程で形成された索引システムを利用して検索する。このように情報検索は、質疑と索引、そして検索の3つの過程を通じて行なわれるが、情報を予め収集しその内容を検索しやすい形態に操作及び格納する過程を索引過程といい、ユーザが情報を要求する過程を質疑過程といい、該当情報を探して提供する過程を検索過程という。
【0003】
このような情報検索は、種々の形態でサービスできる。例えば、コンピュータオペレーティングシステムがハードディスク及び補助記憶装置に格納されたデータの中から特定ファイル及びフォルダを検索する場合、ワードプロセッサーから該当文書内の特定ストリングまたは単語を検索する場合、電子手帳で提供する電子辞典から特定単語を検索する場合、オフライン応用ソフトウェアとしての電子辞典から特定単語を検索する場合、インターネット環境下で運営される電子辞典サーバプログラムがクライアントから要請した特定単語と関連した情報を提供する場合などがあり得る。
【0004】
ところが、近年コンピュータにおいて利用する格納媒体の容量が大型化し、またインターネットの普及により全世界のコンピュータが一つのネットワークを形成してから検索対象情報量が幾何級数的に膨大となった。したがって、このように膨大となった量の検索対象から自分が所望する情報のみをより簡単かつ素早く正確に検索することが相当に困難となっている。
【0005】
一方、検索性能は、再現率と正確率との2つの要素で測定される。再現率とは、システムが有している適合テキストのうち検索された適合テキストの比率をいう。そして、正確率とは、検索されたテキストのうち適合テキストの比率をいう。すなわち、再現率は、システムが適合テキストを検索する能力を表し、正確率は、システムが非適合文献を検索しない能力を表す。結局、前者は検索の完全性を、後者は検索の正確性を測定することといえる。
【0006】
したがって、最も完全な検索システムであるならば、再現率と正確率とが各々100%となる場合であるが、一般的に再現率と正確率とは、反比例関係にある。すなわち、高い再現率を得るために、質疑に対する探索範囲を拡大すると正確率が落ち、逆に、正確率を高めるために探索範囲を狭くすると再現率が落ちる相反関係にある。したがって、実際に再現率と正確率との二つともに高い場合が稀であるので、情報検索システム毎にこれらの二つの要素を同時に改善させようとする努力をしている。
【0007】
ところが、近年インターネットの出現とともにその検索対象が膨大となることに伴って再現率と正確率を把握することが困難となった。インターネットでのように検索対象テキスト数が多くなると、その検索結果も多くなり、したがってその結果が全体検索対象のうちどれほど多い適合なテキストを検索したかを把握することが困難である。すなわち、質疑に対する適合なテキストであるにも拘わらず、検索されないテキストの数を把握することが不可能であり、検索された結果のうち非適合なテキストの数を把握するためには、検索利用者がいちいち検査しなければならない負担がある。
【0008】
このような検索性能は、索引の性能と密接な関連がある。索引は、効果的な情報検索のために検索対象であるテキストデータから必要な情報、すなわち索引語を予め抽出して格納することである。そして、情報検索システムは、ユーザ質疑と索引との比較を通じて最適のテキストをユーザに提示する。
【0009】
索引語生成方法は、専門家による手動索引と、コンピュータプログラムによる自動索引方法がある。手動索引は、自動索引に比べて手間がたくさんかかって、インターネット上における数多くのテキストを索引することが現実的に困難であり、また索引する人に応じて、また同じ索引者であっても索引する都度に同じ状況下において異なる索引語を選定する可能性が高いため、その一貫性を維持することが困難である。これにより索引者と検索利用者との不一致が生じる。自動索引は、人の代わりにコンピュータが索引を行なうため、大量のテキストを高速に索引するのみでなく、システムが採択した自動索引方法にしたがってプログラムが一貫性ある索引語を選定する長所がある。自動索引においてはこのような長所があるが、手動索引において提起した検索利用者の検索質疑語と索引者が選定した索引語との不一致問題のように、検索質疑語と索引プログラムが選定した索引語との不一致問題は、依然として存在する。自動索引プログラムは、テキストから索引語を選定するために、テキストを生成したテキストデータ生成者の用語選択の多様性が上記で述べた自動索引の索引語不一致にまたその原因を提供する。このような欠点をなくし検索利用者が同じ検索質疑語を用いて同じ検索結果を期待できるようにするための自動索引方法がこれまで多く研究されてきた。
【0010】
一方、索引の性能は2つの概念、すなわち徹底性と特定性により判断される。索引の特定性とは、特定な概念を正確に表現できる索引の能力を意味する。特定性が高い索引語であるほど概念の具体的表現が可能であるために、特定質疑に対する適合テキストを效果的に検索できる。したがって、このような特定性が高い索引語から構成された索引システムを利用する検索は、その正確率が高くなるが、再現率が低くなる。索引の徹底性とは、一つのテキストが取り扱っている概念をどれほど多くの索引語で表現するかという程度を意味する。テキストが取り扱っている核心的概念を含んで周辺的概念まで全部索引語で選択する場合に徹底性が高まるために、再現率が高まるのに対し、周辺的概念を取り扱ったテキストまで全部検索されるので、正確率は低くなる。結局再現率は、索引の徹底性により左右され、正確率は、索引の特定性により左右されるといえる。
【0011】
一方、検索方法は、索引方法の逆からなる。一例を挙げると、テキストに「政治的(political)」という単語が含まれている場合、「政治(politic)」と索引をすると、検索時に質疑語「政治的(political)」から「政治(politic)」という検索語を生成して検索する。もし、「政治的(political)」と索引をすると、検索時に質疑語「政治的(political)」から「政治的(political)」という検索語を生成して検索する。また、もし「政治(politic)」「的(al)」という二つのストリングで索引をすると、検索時に質疑語「政治的(political)」から「政治(politic)」と「的(al)」という二つのストリングを検索語に生成して、この二つのストリングが同時に存在するテキストを検索する。すなわち、「政治的(political)」と索引をしてから「政治(politic)」という検索語を生成して検索すると検索に失敗するためである。
【0012】
現在インターネット上の数多いデータまたはウェブページのうちユーザが所望する情報を検索してくれるウェブ検索エンジンが数十種類に達する。これらはユーザから質疑を受け取ってこれと最も近似したウェブ文書が存在する位置を探してくれる。ここで、位置とは、ユーザが所望するウェブ文書が集まっているディレクトリまたはパスであり得るし(ディレクトリ検索、ウェブ分類検索)、特定ウェブ文書のインターネット住所(URL)であり得る(ウェブページ検索)。
【0013】
ところが、現在まで知られているインターネット検索システムは、全部実際には検索者が所望する情報のごく一部分のみを探して提供することによって、情報検索の信頼度を低下させる問題がある。これは既存の検索エンジンが検索時に検索者の便宜性と検索速度のみに執着して公知された単純な方法で検索対象を索引し、その索引された内容とユーザの質疑語を比較判断するため、このような索引過程と質疑解析過程で該当検索対象の表現が少しだけ変わっても比較対象から除外させる結果を招く。すなわち、検索システムが低い性能に止まっている根本的な理由は、一方的な情報生産者の情報表現と索引作成者の索引表現、そして情報ユーザの質疑表現が互いに少しずつ異なり得るためである。
【0014】
一例として、情報生産者は、その該当情報を「政治家」と表現したし、索引作成者及び索引自動プログラムがこれを「政治」と索引したし、情報ユーザが「政治家」と質疑したと仮定してみる。この時、情報検索システムを利用してユーザ質疑である「政治家」と索引された情報を検索する場合に、「政治」と索引された情報は除外されるだろう。また、上記の場合に「政治家」と索引した場合にも、「政治家」という質疑では該当情報が検索されない。このように同一概念の用語が場合に応じて多様に表現される点に起因して実質的に情報利用者が所望の情報が存在するにも拘わらず、これを異に判断して該当情報を提供できなくなる。したがって、このような方式で具現された従来の検索システムは、ユーザが「政治」と関連した情報を検索するために、「政治」、「政治家」、「政治人」、「政治的」などのような関連語の全てに対していちいち質疑した場合に該当質疑語と一致する情報を提供できるようになる使用上の不便な問題点と情報検索の信頼度を低下させる問題点を内包している。
【0015】
一方、他の例として、情報生産者は、その該当情報を「backbone」と表現したし、索引作成者及び索引自動プログラムがこれを「back」と「bone」と「backbone」と索引したし、情報ユーザが「back」と質疑したと仮定してみる。この時、情報検索システムを利用してユーザ質疑である「back」と索引された情報を検索する場合に、前記「back」と索引された情報が検索結果として提供されるだろう。もちろん、単語毎の観念上の差を明確に認知している人が手動で索引するとすれば、上記したように「backbone」を「back」と索引しないだろう。しかし、コンピュータプログラムによる自動索引の場合に、または上記のような索引結果が発生し得る索引方法を選択した場合には、先に例示したように誤った検索結果が提供される問題点がある。
【0016】
このように情報の生成、索引そして質疑の他の表現による検索性能の低下を避けるために、既存の高級型情報検索システムでは、目新しい索引方法と検索方法が用いられることもあるが、このような情報検索システムでは、後述するような種々の関連用語の表現情報を使用している。
【0017】
一般に、収集された表現情報は、同義語(意味が同じ単語、例:政治家vs.政治人)、類義語(ストリングは違うが観念的に類似した平面的な単語、例:大気vs.空気、elderly vs.aged vs.retired vs.senior citizens vs.old people vs.golden−agers)、ストリングの一部分が違うが観念的に同じ単語(例:theatre vs.theater,color vs colour)、そしてシソーラス等と呼ばれる。これらのうち最も多くの関係を含むシソーラスは、同義語、類義語、拡張概念の用語である広義語(例:大気vs.環境)、縮小概念の用語である狭義語(例:大気vs.酸素)とその他の概念が含まれた関連語などが各用語の相互関係と関連用語から構成される。
【0018】
しかし、このようなシソーラスを検索システムに使用する場合には、使用するシソーラスの構築自体が非常に困難であり、検索の際にもあまりも多い用語の拡張により検索効率を著しく低下させる問題があるため、大部分の情報検索システムはこのような方法を採用していない。一例を挙げると、検索質疑語「クレジットカード(Credit Card)」の場合「カード(Card)」の類義語である「トランプ(Trump)」まで拡張して正確率を低下させる結果を招く。したがって、たとえシソーラスを使用するシステムの場合であるとしてもこれを追加的機能に採用して検索結果がないか非常に少ない特定の場合のみ制限的に適用させて検索している。
【0019】
もう一つの例を挙げて説明すると、検索ユーザが「大気汚染」と質疑する場合に、上記したようなシソーラスを許容する場合には、「大気」の類義語である「空気」、広義語である「環境」、狭義語である「酸素」に拡張して各々「空気汚染」、「環境汚染」、「酸素汚染」などのように質疑を相当に広く拡張して検索することによって、検索効率を著しく低下させ得る。また、先に述べた場合のように、「大企業」を「大気」で索引するシステムの場合には、このようなシソーラス拡張がその誤った検索結果をさらに増幅させてシステムの検索性能を悪化させる結果を招く短所がある。
【0020】
一方、シソーラスの構築において、用語の選定とその関係の設定、そして検索において使用すべき関係の種類とそのレベル(または水準)の調節がこのようなシソーラスを使用する情報検索システムの性能を左右するようになって、情報検索システムの構築を困難とし、システム構築コスト及びシステム負荷を増大させる要因となっている。
【0021】
以下に、先に述べた従来の方式が使用している従来の検索方法の例を具体的に述べる。
【0022】
まず、言語知識を使用しない、すなわち自然語処理をしない単純ストリングマッチング方法には次の2つの方法がある。
【0023】
第1、ユーザが「超高速インターネット」と質疑をしたと仮定する場合に、従来の検索方法のうち最長一致のみを検索する検索エンジンは、「超高速」と「インターネット」という単語が属したウェブ文書のみを検索する。すなわち、質疑語の表現が「超高速」と「高速」とに異なるとしても「超高速インターネット」と「高速インターネット」の検索要求がほぼ同等であることがあきらかであるにも拘わらず、超高速の中心語である「高速」と「インターネット」という単語が属したウェブ文書を検索できないことによって、それだけ情報損失が存在することになる問題点を有している。
【0024】
第2に、ユーザが「back」と質疑した場合に、既存の検索方法のうち部方一致を許容する検索エンジンは、「back」というストリングが含まれた単語、すなわち「大企業(=a large enterprise)」が属した文書を結果として検索することになる問題点を有している。
【0025】
上記2つの場合と異なって一般辞典そして同義語、類義語、ストリングの一部分が違うが観念的に同じ単語、シソーラスなどの言語知識を使用して自然語処理をする検索エンジンがある。一般辞典を使用する場合、形態素分析のような言語処理過程を行なうが、辞典に「backone」が表題語として登録されているため、これを一つの質疑語で認識するだけで観念的に「backbone」の中心をなす単語である「企業」という用語に対する検索までは行なうことができない問題点を有している。結局、このような従来の検索エンジンを使用して「backbone」という用語で質疑した場合には、「backbone」、「backbone」という用語を使用せずそのまま「bone」という用語のみを使用した文書などが検索されないため重要な情報の流失等による検索の信頼度を著しく低下させる問題点がある。また、類義語のような特殊辞典またはシソーラスなどの言語情報を利用する場合には、再現率を高める過程で正確率が落ちる逆効果が生じる問題点がある。
【0026】
(発明の開示)
本発明は、上記問題点に鑑みてなされたものであって、その目的は、中心用語辞典を利用して表題語の中心的意味を有する用語(中心語または付加語)を抽出して表題語を拡張した後、検索語により検索を行なうことによって、システムの性能を向上させユーザの便利性を高めた情報検索システム及びその方法と前記方法を実現させるためのプログラムを記録したコンピュータで読み出すことができる記録媒体を提供することにある。
【0027】
また、本発明は、中心用語辞典を利用して表題語の中心的意味を有する用語(中心語または付加語)を抽出して表題語を拡張した後、検索語により検索を行なって該当質疑に最も適合した優先順に検索結果を提供することによって、システムの性能を向上させユーザの便利性を高めた情報検索システム及びその方法と前記方法を実現させるためのプログラムを記録したコンピュータで読み出すことができる記録媒体を提供することに他の目的がある。
【0028】
また、本発明は、中心用語辞典を利用して表題語の中心的意味を有する用語(中心語または付加語)を抽出する方法と前記方法を実現させるためのプログラムを記録したコンピュータで読み出すことができる記録媒体を提供することにまた他の目的がある。
【0029】
また、本発明は、表題語と、前記表題語の種類を識別するための識別子と、前記表題語の中心的意味を有する用語(中心語または付加語)を含む中心用語辞典のデータが記録されたコンピュータで読み出すことができる記録媒体を提供することにもう一つの目的がある。
【0030】
また、本発明は、中心語である表題語と前記表題語の中心的意味を有する付加語を含む第1中心用語辞典と、付加語である表題語と前記表題語の中心的意味を有する中心語を含む第2中心用語辞典のデータが互いに連動して記録されたコンピュータで読み出すことができる記録媒体を提供することにもう一つの目的がある。
【0031】
また、本発明は、表題語と前記表題語の中心的意味を有する用語を含む中心用語辞典のデータが記録されたコンピュータで読み出すことができる記録媒体を提供することにまた他の目的がある。
【0032】
上記目的を達成するための本発明の情報検索システムは、中心用語辞典を利用した情報検索システムにおいて、表題語に対する中心的意味を有する用語(以下「中心用語」と記す)を検索できるように該当情報を格納している前記中心用語辞典格納手段と、ユーザから質疑語を受け取るための整合手段と、前記受け取った質疑語に基づいて前記中心用語辞典格納手段に格納された情報を照会するための少なくとも一つの表題語を設定し、前記設定された表題語を利用して前記中心用語辞典格納手段を照会して中心用語を抽出し、前記設定された表題語と前記抽出された中心用語を検索語に利用して関連情報を検索するための情報検索手段と、前記情報検索手段により検索された結果を出力するための検索結果出力手段とを含むことを特徴とする。
【0033】
また、本発明の他の情報検索システムは、中心用語辞典を利用した情報検索システムにおいて、表題語に対する中心的意味を有する用語を検索できるように該当情報を格納している前記中心用語辞典格納手段と、ユーザから前記中心用語辞典格納手段を利用して質疑語を拡張するか否かに対する選択情報と質疑語を受け取るための整合手段と、前記受け取った質疑語に基づいて少なくとも一つの表題語を設定し、前記受け取った選択情報が拡張選択情報であるか否かを確認して拡張選択情報ではないと、前記設定された表題語を利用して情報検索を行ない、拡張選択情報であると前記設定された表題語を利用して前記中心用語辞典格納手段を照会して中心用語を抽出し、前記設定された表題語と前記抽出された中心用語を検索語に利用して関連情報を検索するための情報検索手段と、前記情報検索手段により検索された結果を出力するための検索結果出力手段とを含むことを特徴とする。
【0034】
また、本発明の情報検索方法は、中心用語辞典を利用した情報検索システムに適用される情報検索方法において、表題語に対する中心的意味を有する用語を検索できるように前記中心用語辞典を構築する第1ステップと、ユーザから受け取った質疑語に基づいて前記中心用語辞典に格納された情報を照会するための少なくとも一つの表題語を設定する第2ステップと、前記中心用語辞典から前記表題語に対する中心用語を抽出して表題語を拡張する第3ステップと、前記設定された表題語と前記抽出された中心用語を検索語に利用して関連情報を検索する第4ステップと、前記情報検索結果を出力する第5ステップとを含むことを特徴とする。
【0035】
また、本発明の他の情報検索方法は、中心用語辞典を利用した情報検索システムに適用される情報検索方法において、表題語に対する中心的意味を有する用語を検索できるように前記中心用語辞典を構築する第1ステップと、ユーザから前記中心用語辞典を利用して質疑語を拡張するか否かに対する選択情報と質疑語を受け取る第2ステップと、前記ユーザから受け取った質疑語に基づいて少なくとも一つの表題語を設定する第3ステップと、前記ユーザから受け取った選択情報が前記中心用語辞典を利用した拡張選択情報であるか否かを確認する第4ステップと、前記第4ステップの確認の結果、拡張選択情報ではないと前記設定された表題語を利用して情報検索を行なって情報検索結果を出力する第5ステップと、前記第4ステップの確認の結果、拡張選択情報であると前記中心用語辞典から前記表題語に対する中心用語を抽出して表題語を拡張した後、前記設定された表題語と前記抽出された中心用語を検索語に利用して関連情報を検索してその結果を出力する第6ステップとを含むことを特徴とする。
【0036】
一方、前記もう一つの目的を達成するための本発明の表題語中心用語抽出方法は、中心用語辞典を利用した表題語の中心用語抽出システムに適用される表題語の中心用語抽出方法において、表題語に対する中心的意味を有する用語を検索できるように前記中心用語辞典を構築する第1ステップと、ユーザから受け取った質疑語に基づいて前記中心用語辞典に格納された情報を照会するための少なくとも一つの表題語を設定する第2ステップと、前記設定された表題語を利用して前記中心用語辞典を照会して前記表題語に対する中心的意味を有する用語を抽出する第3ステップとを含むことを特徴とする。
【0037】
また、本発明の他の表題語中心用語抽出方法は、中心用語辞典を利用した表題語の中心用語抽出システムに適用される表題語の中心用語抽出方法において、表題語に対する中心的意味を有する用語を検索できるように、前記中心用語辞典を構築する第1ステップと、ユーザから前記中心用語辞典を利用して質疑語を拡張するか否かに対する選択情報と質疑語を受け取る第2ステップと、前記ユーザから受け取った質疑語に基づいて少なくとも一つの表題語を設定する第3ステップと、前記ユーザから受け取った選択情報が前記中心用語辞典を利用した拡張選択情報であるか否かを確認する第4ステップと、前記第4ステップの確認の結果、拡張選択情報ではないと前記設定された表題語を拡張しない第5ステップと、前記第4ステップの確認の結果、拡張選択情報であると前記設定された表題語を利用して前記中心用語辞典を照会して前記表題語に対する中心的意味を有する用語を抽出して表題語を拡張する第6ステップとを含むことを特徴とする。
【0038】
一方、本発明は、中心用語辞典を利用して情報を検索するために、プロセッサを備えた情報検索システムに、表題語に対する中心的意味を有する用語を検索できるように、前記中心用語辞典を構築する第1機能と、ユーザから受け取った質疑語に基づいて前記中心用語辞典に格納された情報を照会するための少なくとも一つの表題語を設定する第2機能と、前記中心用語辞典から前記表題語に対する中心用語を抽出して表題語を拡張する第3機能と、前記設定された表題語と前記抽出された中心用語を検索語に利用して関連情報を検索する第4機能と、前記情報検索結果を出力する第5機能を実現させるためのプログラムを記録したコンピュータで読み出すことができる記録媒体を提供する。
【0039】
また、本発明は、中心用語辞典を利用して情報を検索するために、プロセッサを備えた情報検索システムに、表題語に対する中心的意味を有する用語を検索できるように、前記中心用語辞典を構築する第1機能と、ユーザから前記中心用語辞典を利用して質疑語を拡張するか否かに対する選択情報と質疑語を受け取る第2機能と、前記ユーザから受け取った質疑語に基づいて少なくとも一つの表題語を設定する第3機能と、前記ユーザから受け取った選択情報が前記中心用語辞典を利用した拡張選択情報であるか否かを確認する第4機能と、前記第4機能での確認の結果、拡張選択情報ではないと前記設定された表題語を利用して情報検索を行なって情報検索結果を出力する第5機能と、前記第4機能での確認の結果、拡張選択情報であると前記中心用語辞典から前記表題語に対する中心用語を抽出して表題語を拡張した後、前記設定された表題語と前記抽出された中心用語を検索語に利用して関連情報を検索してその結果を出力する第6機能を実現させるためのプログラムを記録したコンピュータで読み出すことができる記録媒体を提供する。
【0040】
また、本発明は、中心用語辞典を利用して表題語の中心用語を抽出するために、プロセッサを備えた表題語の中心用語抽出システムに、表題語に対する中心的意味を有する用語を検索できるように、前記中心用語辞典を構築する第1機能と、ユーザから受け取った質疑語に基づいて前記中心用語辞典に格納された情報を照会するための少なくとも一つの表題語を設定する第2機能と、前記設定された表題語を利用して前記中心用語辞典を照会して前記表題語に対する中心的意味を有する用語を抽出する第3機能とを実現させるためのプログラムを記録したコンピュータで読み出すことができる記録媒体を提供する。
【0041】
また、本発明は、中心用語辞典を利用して表題語の中心用語を抽出するために、プロセッサを備えた表題語の中心用語抽出システムに、表題語に対する中心的意味を有する用語を検索できるように、前記中心用語辞典を構築する第1機能と、ユーザから前記中心用語辞典を利用して質疑語を拡張するか否かに対する選択情報と質疑語を受け取る第2機能と、前記ユーザから受け取った質疑語に基づいて少なくとも一つの表題語を設定する第3機能と、前記ユーザから受け取った選択情報が前記中心用語辞典を利用した拡張選択情報であるか否かを確認する第4機能と、前記第4機能での確認の結果、拡張選択情報ではないと前記設定された表題語を拡張しない第5機能と、前記第4機能での確認の結果、拡張選択情報であると前記設定された表題語を利用して前記中心用語辞典を照会して前記表題語に対する中心的意味を有する用語を抽出して表題語を拡張する第6機能を実現させるためのプログラムを記録したコンピュータで読み出すことができる記録媒体を提供する。
【0042】
また、本発明は、中心語または付加語などのような表題語を挿入するための表題語フィールドと、前記表題語フィールドに挿入された表題語が中心語であるかまたは付加語であるかを識別できる識別子を挿入するための識別子フィールドと、前記表題語に対する中心用語として前記表題語が中心であると前記表題語の中心的意味を有する付加語を挿入し前記表題語が付加語であると前記表題語の中心的意味を有する中心語を挿入するための中心用語フィールドとを含むデータが記録されたコンピュータで読み出すことができる記録媒体を提供する。
【0043】
また、本発明は、表題語を挿入するための表題語フィールドと、前記表題語の中心的意味を有する中心語を挿入するための中心語フィールドと、前記表題語の中心的意味を有する付加語を挿入するための付加語フィールドとを含むデータが記録されたコンピュータで読み出すことができる記録媒体を提供する。
【0044】
また、本発明は、表題語を挿入するための表題語フィールドと、前記表題語の中心的意味を有する中心語または付加語を挿入するための中心用語フィールドとを含むデータが記録されたコンピュータで読み出すことができる記録媒体を提供する。
【0045】
ここで、中心語とは、一つの表題語を構成するストリングであって、そのストリングの一部または全部を含み、その表題語の意味の中心をなす。そして、そういうストリングが必ずしも連続的である必要はない。表題語「政治(=politics)」、「政治家(=politician)」、そして「政治的(=political)」の中心語は、「政治(=politic)」であって、その意味の中心をなす。
【0046】
そして、残りの「政治家(=politician)」と「政治的(=political)」は、「政治(=politic)」を中心語とする付加語となる。このように付加語も該当表題語に対する中心的意味を有する単語である。例えば、表題語が「政治家(=politician)」であるとすると、中心語は、「政治(=politic)」となり、付加語は、「政治家」と「政治的(=political)」になり得るため、「政府」などのような単語を排除できる。
【0047】
他の例として表題語「料理本(=cookbook)」は、二つの単語「料理(=cook)」と「本(=book)」とから形成されたものである。したがって、中心語は、これらのうち一つまたは二つともになり得る。これは情報検索システムの性能を考慮して中心用語辞典をどのように構成するかによる政策の問題である。ユーザの関心を考慮して「料理本(=cookbook)」の中心語は、「料理(=cook)」で構成することが一般的である。「料理(=cook)」と関連のない「本((=book))に関する情報よりは「本(=book)」ではないが「料理(=cook)」と関連のある情報により関心があると判断されるためである。このような例に「レーザープリンター」などがあり得るし、ここでは「プリンタ」が中心語となり得る。
【0048】
また他の例として表題語「慎政焼(嬰幼児)」の場合に、その中心語は、「慎焼(嬰児(infant))」そして「政焼(乳児(baby))」であって、中心語「慎焼(嬰児)」の場合には表題語「慎政焼(嬰幼児)」を構成することにおいて非連続的である。このような例に、「短舌鰍奄(青壮年期)」などがあり得るし、ここでは「短鰍(青年)」と「舌鰍(壮年)」両方ともに中心語となり得る。
【0049】
一方、表題語(辞典に登載された単語)は、質疑語と異なる概念に、表題語が質疑語と同一であることもあり得るが、質疑語が自然語等で入力された場合には、質疑語の中から表題語を選択して使用する。そして、表題語は、検索語とも異なる概念に、表題語自身も検索語となり得るし、また、前記表題語の中心的意味を有する中心語または付加語も検索語となり得る。
【0050】
上記のような本発明は、ワードプロセッサー、電子辞典、オペレーティングシステム、インターネット検索エンジン、形態素分析システム、自然語インターフェースなどのようなあらゆる環境及び応用システムにおける検索方法及びシステムの利用価値を増大させることができ、中心用語辞典を利用して表題語の中心的意味を有する中心語と付加語を提供してユーザに質疑と関連したあらゆる検索結果を検索してその中で質疑に最も適合な優先順にその結果を提供できるので、ユーザの便利性を大きく向上させることができる。
【0051】
(発明の実施のための最良の形態)
以下、添付する図を参照しながら本発明に係る好ましい一実施例を詳細に説明する。
【0052】
図1A及び図1Bは、本発明に係る表題語に対する中心用語が登録された中心用語辞典の構造に対する一実施例説明図である。
【0053】
図1A及び図1Bでは、本発明に係る中心用語辞典を一つのデータベースで構成し、各表題語の種類を識別子を利用して区分して中心用語辞典を構成する方法に対して示している。
【0054】
図に示されているように、1番目のフィールドの表題語のところには中心語または付加語101、104を挿入し、2番目のフィールドには、前記表題語が中心語であるかまたは付加語であるかを識別できる識別子102、105を挿入し、3番目のフィールドには前記表題語に対する中心用語として、前記表題語が中心語であると、それに対する中心的意味を有する付加語を挿入し前記表題語が付加語であると、それに対する中心的意味を有する中心語を挿入する103、106。
【0055】
すなわち、図1Aに示されているように、表題語が中心語であると、1番目のフィールドの表題語のところには中心語101を挿入し、2番目のフィールドには前記表題語が中心語であることを識別できる識別子(例:1)102を挿入し、3番目のフィールドには前記表題語に対する中心用語として前記中心語に対する中心的意味を有する付加語を挿入する103。
【0056】
そして、図1Bに示すように、表題語が付加語であると、1番目のフィールドの表題語のところには付加語104を挿入し、2番目のフィールドには前記表題語が付加語であることを識別できる識別子(例:2)105を挿入し、3番目のフィールドには前記表題語に対する中心用語として前記付加語に対する中心的意味を有する中心語を挿入する106。
【0057】
例えば、中心語が「政治」であり、それの付加語が「政治家」、「政治人」、「政治的」であるとする時、前述したように一つのデータベースから構成される実施例を説明すると次の通りである。
【0058】
【表1】
Figure 2004501424
【0059】
一方、上述したような中心用語辞典の構造に対する一例では、一つのデータベースで中心用語辞典を具現する方式に対して説明しているが、表題語が中心語である場合に前記中心語に対する中心的意味を有する付加語を含む第1データベースと表題語が付加語である場合に前記付加語に対する中心的意味を有する中心語を含む第2データベースを別に具現して連動させることもできる。但し、この場合には、データベースが互いに区分されるために、データ構造に別途の識別子フィールドを挿入しなくても良い。これを図1C及び図1Dを参照しながら以下に述べる。
【0060】
図1C及び図1Dは、本発明に係る表題語に対する中心用語が登録された中心用語辞典の構造に対する他の実施例説明図である。
【0061】
図1Cは、表題語が中心語である場合の第1データベースの構造図であって、1番目のフィールドの表題語のところには中心語107を挿入し、2番目のフィールドには、前記表題語に対する中心用語として前記中心語に対する中心的意味を有する付加語を挿入する108。
【0062】
そして、図1Dは、表題語が付加語である場合の第2データベースの構造図であって、1番目のフィールドの表題語のところには付加語109を挿入し、2番目のフィールドには、前記表題語に対する中心用語として前記付加語に対する中心的意味を有する中心語を挿入する110。
【0063】
例えば、中心語が「政治」であり、その付加語が「政治家」、「政治人」、「政治的」であるとすると、前述したように、二つのデータベースから構成される他の実施例を述べると、第1データベースの構造は次の通りである。
【0064】
【表2】
Figure 2004501424
【0065】
そして、第2データベースの構造は次の通りである。
【0066】
【表3】
Figure 2004501424
【0067】
一方、前記実施例とは異なって一つのデータベースで構成しながらも識別子を使用しない方式を使用することもできる。代りにこの場合には表題語に対する中心的意味を有する付加語を羅列しなければならない。これを図1Eを参照して述べると次の通りである。
【0068】
図1Eは、本発明に係る表題語に対する中心用語が登録された中心用語辞典の構造に対するもう一つの実施例説明図である。
【0069】
図1Eは、識別子なしに一つのデータベースで構成する場合の構造図であって、1番目のフィールドの表題語のところには中心語または付加語111を挿入し、2番目のフィールドには前記表題語が中心語である場合に前記表題語に対する中心的意味を有する付加語を中心用語として挿入し、前記表題語が付加語である場合に前記表題語に対する中心的意味を有する中心語と付加語を中心用語として挿入する112。
【0070】
例えば、中心語が「政治」であり、その付加語が「政治家」、「政治人」、「政治的」であるとすると、前述したように、識別子なしに一つのデータベースで構成されるもう一つの実施例を述べると次の通りである。
【0071】
【表4】
Figure 2004501424
【0072】
上前例において説明したように種々の方法で中心用語辞典を構成することもできる。しかし、本発明で上記のような中心用語辞典を構成する窮極的な理由は、表題語に対する中心的意味を有する用語(中心語または付加語)を検索するためである。
【0073】
図2は、本発明に係る中心用語辞典を利用した情報検索システムの一実施例構成図である。
【0074】
図2に示すように、本発明に係る情報検索システムは、表題語と前記表題語の中心的意味を有する中心語または付加語を中心用語として格納しているか、表題語と前記表題語が中心語であるか付加語であるかを識別するための識別子と前記表題語の中心的意味を有する中心語または付加語を中心用語として格納している中心用語辞典23と、ユーザから質疑として少なくとも一つ以上の質疑語を入力されるユーザインタフェース部21と、ユーザから質疑として入力された質疑語を中心用語辞典23に接近する表題語に設定してこの表題語で中心用語辞典23に接近して前記表題語の中心的意味を有する用語(中心語または付加語)を抽出して表題語を拡張した後、前記設定された表題語または抽出された中心語または抽出された付加語を検索語として検索を行なう情報検索機22と、その検索結果をユーザが所望する形態で示す出力機24とを備える。ここで、ユーザから受け取った質疑語から表題語を設定する過程は、公知の形態素分析機などを利用して質疑語を処理して少なくとも一つ以上の表題語を得る公知の方式を使用するので、ここではこれ以上詳細な説明は省略する。
【0075】
次に、前記情報検索システムの構成及び動作についてより詳細に述べる。
【0076】
本発明に係る情報検索システムは、表題語と前記表題語の中心的意味を有する中心語または付加語を中心用語として格納しているか、表題語と前記表題語が中心語であるか付加語であるかを識別するための識別子と前記表題語の中心的意味を有する中心語または付加語を中心用語として格納している中心用語辞典23と、ユーザから質疑として少なくとも一つ以上の質疑語を入力されるユーザインタフェース部21と、ユーザから質疑として受け取った質疑語を中心用語辞典23に接近する表題語に設定してこの表題語で中心用語辞典23に接近して前記表題語の中心的意味を有する用語(中心語または付加語)を抽出して表題語を拡張した後、前記設定された表題語または抽出された中心語、または抽出された付加語を検索語にして検索を行なう情報検索機22と、拡張前の検索語(表題語)と拡張語の検索語(中心語または付加語)に加重値を異にして付与して、すなわち表題語を検索語にして検索した結果と、中心語または付加語を検索語にして検索した結果に加重値を異にして付与して前記加重値による優先順位に応じて検索結果をユーザに出力する結果出力機24とを含む。
【0077】
そして、前記中心用語辞典23が識別子を利用して一つのデータベースから構成された場合(図1A及び図1B参照)に、前記情報検索機22における拡張過程をより詳細に述べると、前記表題語を中心用語辞典23に照会してその識別子を確認した結果、表題語が中心語であると、前記表題語の中心的意味を有する付加語を利用して表題語を拡張し、表題語が付加語であると、前記表題語の中心的意味を有する中心語を抽出した後、前記抽出した中心語を表題語にしてまた中心用語辞典23に照会して抽出した付加語を利用して表題語を拡張する。この場合、前記抽出された中心語も拡張に利用できる。
【0078】
そして、前記中心用語辞典23が識別子を利用せず二つのデータベースから構成された場合(図1C及び図1D参照)に、前記情報検索機22における拡張過程をより詳細に述べると、前記表題語を第1データベースに照会して該当表題語が中心語であるかを確認して、中心語であると前記表題語の中心的意味を有する付加語を利用して表題語を拡張し、中心語ではないと、第2データベースに照会して前記表題語の中心的意味を有する中心語を抽出した後、前記抽出した中心語を表題語にしてまた前記第1データベースに照会して抽出した付加語を利用して表題語を拡張する。
【0079】
前記2つの拡張方式では、中心語を質疑語に使用することもあり得るし、使用しないこともある。中心語を質疑語に使用する場合に、出力優先順位は、表題語を質疑語にして検索された結果が最優先となり、中心語を質疑語にして検索された結果が次順となり、その他の付加語で検索された結果は、優先順位なしに出力する方式を使用することができる。しかし、これは一例だけであって、実際にはユーザの意図に応じて付加語で検索された結果を中心語で検索された結果より優先的に出力するか、付加語で検索された結果間にも順位をおいて出力する等種々の方法が用いられることができる。そして、中心語を質疑語に使用しない場合に、出力優先順位は、表題語を質疑語にして検索された結果が最優先となり、その他の付加語で検索された結果は優先順位なしに出力する方式を使用することができる。ここでもユーザの意図に応じて付加語で検索された結果間に順位をおいて出力する等の種々の方式で優先順位を異にすることができる。
【0080】
そして、前記中心用語辞典23が識別子を利用せず一つのデータベースから構成された場合(図1e参照)、前記情報検索機22における拡張過程をより詳細に述べると、前記表題語を中心用語辞典23から照会して該当表題語の中心的意味を有する中心語または付加語を利用して表題語を拡張する。この場合には、中心用語辞典23を構成する時、前記中心語または付加語に予め加重値を反映して構成できる。したがって、該当中心語または付加語で検索された結果を該当順位で出力すれば良い。
【0081】
一方、前述したような情報検索システムは、情報を予め収集しその内容を検索しやすい形態に操作及び格納する索引過程(索引機)を必要とする。これにより本発明でも前述した中心用語辞典の概念に相応して索引データベースを構成する。一例に、政治、政治家、政治人及び政治的などのような関連語が含まれている情報を収集した場合には、該当表題語、すなわち、政治、政治家、政治人及び政治的のみを索引語として索引データベースに格納する。したがって、本発明の索引データベースは、部分文字列を全部索引語として索引する従来の索引データベースに比べてその大きさが著しき減ることになる。また、索引語として語根のみを索引語で索引する従来の索引データベースに比べてテキストの意味に充実な索引が可能となって検索利用者の要求により適合した検索結果を生成できる。そして、このような索引機は、前記情報検索機22に含んで構成したり連動させる等の種々の方法により構成できる。
【0082】
図3は、本発明に係る中心用語辞典を利用した表題語の中心用語抽出方法及びそれを利用した情報検索方法に対する一実施例フローチャートである。
【0083】
図3に示すように、まずユーザインタフェース部21がユーザから情報検索質疑語を入力されて(301)、質疑を構成する少なくとも一つ以上の質疑語から中心用語辞典23に接近する表題語を設定する(302)。その後、前記設定された表題語で中心用語辞典23に接近して前記表題語の中心的意味を有する用語(中心語または付加語)を抽出する(303)。その後、前記抽出された中心用語(中心語または付加語)を利用して表題語を拡張する(304)。その後、前記設定された表題語または抽出された中心語または抽出された付加語を検索語にして情報検索を行う(305)。そして、その結果を出力して(306)終了する。一方、前記表題語拡張過程(304)を行なった後、表題語が多数個である場合に、ユーザに拡張された表題語の中から検索語に使用しようとする表題語を選択するようにする過程(図示せず)をさらに行なうこともできる。これは前述したシステムにも同様に適用することができる。
【0084】
以下に上記のような方法をより具体的に述べる。
【0085】
まず、表題語と前記表題語の中心的意味を有する中心語または付加語を中心用語に設定して中心用語辞典(一つ以上のデータベースで構成)を構成するか、または表題語と前記表題語が中心語であるか付加語であるかを識別するための識別子と、前記表題語の中心的意味を有する中心語または付加語を中心用語に設定して中心用語辞典(一つのデータベースで構成)を構成するか、または表題語と前記表題語の中心的意味を有する中心語または付加語を中心用語に設定して中心用語辞典(一つのデータベースで構成)を構成する。
【0086】
その後、ユーザインタフェース部21がユーザから少なくとも一つ以上の質疑語を入力されて情報検索機22に伝達すると(301)、質疑語を受け取った情報検索機22が質疑語に基づいて中心用語辞典23に照会する表題語を設定し(302)、前記設定された表題語を中心用語辞典23に照会して前記表題語の中心的意味を有する用語(中心語または付加語)を抽出して(303)、前記抽出された中心用語(中心語または付加語)を利用して表題語を拡張し(304)、前記設定された表題語または抽出された中心語または抽出された付加語を検索語にして関連情報を検索する(305)。その後、結果出力機24が拡張前の検索語(表題語)と拡張後の検索語(中心語または付加語)に加重値を異にして付与して、すなわち、表題語を検索語にして検索した結果と、中心語または付加語を検索語にして検索した結果に加重値を異にして付与して前記加重値に応じた優先順位に応じて検索結果をユーザに出力する(306)。一方、前記情報検索機22は、表題語を拡張した後、表題語が複数の個である場合に、ユーザに拡張された表題語の中から検索語に使用しようとする表題語を選択するようにする過程(図示せず)をさらに行なうこともできる。
【0087】
図4は、本発明に係る中心用語辞典を利用した表題語の中心用語抽出方法及びそれを利用した情報検索方法に対する他の実施例フローチャートである。
【0088】
まず、表題語と前記表題語の中心的意味を有する中心語または付加語を中心用語に設定して中心用語辞典(一つ以上のデータベースで構成)を構成するか、または表題語と前記表題語が中心語であるか付加語であるかを識別するための識別子と、前記表題語の中心的意味を有する中心語または付加語を中心用語に設定して中心用語辞典(一つのデータベースで構成)を構成するか、または表題語と前記表題語の中心的意味を有する中心語または付加語を中心用語に設定して中心用語辞典(一つのデータベースで構成)を構成する。
【0089】
その後、ユーザインタフェース部21がユーザから検索質疑語と共に中心用語辞典を利用して質疑語を拡張するか否かの選択情報を受け取って情報検索機22に伝達すると(401)、質疑語と選択情報を受け取った情報検索機22が質疑語に基づいて中心用語辞典23に照会する表題語を設定し(402)、受け取った選択情報が中心用語辞典を利用した拡張であるか否かを確認する(403)。
【0090】
前記確認の結果、中心用語辞典を利用した拡張機能を使用することを所望しなければ、前記設定された現在の表題語を利用して情報検索を行なった後(406)、その結果を出力して(407)終了する。
【0091】
前記確認の結果、中心用語辞典を利用した拡張機能を使用することを所望すれば、前記設定された表題語を中心用語辞典23に照会して前記表題語の中心的意味を有する用語(中心語または付加語)を抽出して(404)、前記抽出された中心用語(中心語または付加語)を利用して表題語を拡張し(405)、前記設定された表題語または抽出された中心語、または抽出された付加語を検索語にして関連情報を検索する(406)。その後、結果出力機24が拡張前の検索語(表題語)と拡張後の検索語(中心語または付加語)に加重値を異にして付与して、すなわち表題語を検索語にして検索した結果と中心語または付加語を検索語にして検索した結果に加重値を異にして付与して前記加重値に応じた優先順位に応じて検索結果をユーザに出力する(407)。一方、前記情報検索機22は、表題語を拡張した後(405)、表題語が複数個である場合、ユーザに拡張された表題語の中で検索語に使用しようとする表題語を選択するようにする過程をさらに行なうことができる(図示せず)。
【0092】
一方、前記他の実施例では、情報検索方法のみについて図を参照しながら説明したが、このような他の実施例の情報検索システムも前記図2に示された情報検索システムと同様に具現できる。但し、ユーザインタフェース部21の次の端にユーザから受け取った選択情報が中心用語辞典を利用した拡張であるか否かを確認できる情報判定部をさらに備えれば良い。この情報判定部は、情報検索機22内に具現できる。そして、その全体的な動作は、図4 において説明した通りである。
【0093】
一方、上述したような本発明において説明した中心用語辞典は、公知のシソーラス概念、類義語概念、ストリングの一部分が違うが観念的に同じ単語、自然語検索概念などと共に使用可能である。例えば、質疑語が自然語等で入力された場合には、質疑語の中か表題語を予め選択した後、中心用語辞典を利用する方式などを使用できる。
【0094】
上述したことのような本発明の方法は、プログラムにより具現されてコンピュータで読み出すことができる記録媒体(CD−ROM、RAM、ROM、フロッピー(登録商標)ディスク、ハードディスク、光磁気ディスク等)に格納されることができる。
【0095】
上記のようになされる本発明によると、表題語の中心用語として表題語の中心的意味を有する中心語または付加語を利用することによって、ワードプロセッサー、電子辞典、オペレーティングシステム、インターネット検索エンジン、形態素分析システム、自然語インターフェースなどのあらゆる環境及び応用システムにおける検索方法及び検索システムの利用価値を増大させることができ、ユーザの質疑と関連のない検索結果を排除でき、またユーザの質疑と関連したものを全部検索して、その中で質疑に最も適合した優先順にその結果を提供でき、情報検索の信頼度を大きく向上させることができるのみでなく、ユーザの便利性を大きく向上させることができる効果がある。
【0096】
このような効果を、具体的な例を挙げて説明すると、本発明を適用する場合に、中心用語辞典に「back」はその自体が中心語であるという情報と、「backbone」はその中心語が「bone」であるという情報を構成し、これを利用してユーザの「back」という質疑に「backbone」は検索せず、「backbone」という質疑に中心語「back」と関連した情報も提供できる効果がある。
【0097】
また、本発明は、従来の方法に比べて索引データベースの大きさを著しく減らすことができる効果がある。
【0098】
なお、本発明は、本実施例に限られるものではない。本発明の趣旨から逸脱しない範囲内で多様に変更実施することが可能である。
【図面の簡単な説明】
【図1A】
本発明に係る表題語に対する中心用語が登録された中心用語辞典の構造に対する一実施例の説明図である。
【図1B】
本発明に係る表題語に対する中心用語が登録された中心用語辞典の構造に対する一実施例の説明図である。
【図1C】
本発明に係る表題語に対する中心用語が登録された中心用語辞典の構造に対する他の実施例説明図である。
【図1D】
本発明に係る表題語に対する中心用語が登録された中心用語辞典の構造に対する他の実施例説明図である。
【図1E】
本発明に係る表題語に対する中心用語が登録された中心用語辞典の構造に対するもう一つの実施例説明図である。
【図2】
本発明に係る中心用語辞典を利用した情報検索システムの一実施例構成図である。
【図3】
本発明に係る中心用語辞典を利用した表題語の中心用語抽出方法及びそれを利用した情報検索方法に対する一実施例フローチャートである。
【図4】
本発明に係る中心用語辞典を利用した表題語の中心用語抽出方法及びそれを利用した情報検索方法に対する他の実施例フローチャートである。

Claims (98)

  1. 中心用語辞典を利用した情報検索システムにおいて、
    表題語に対する中心的意味を有する用語(以下「中心用語」と記す)を検索できるように該当情報を格納している前記中心用語辞典格納手段と、
    ユーザから質疑語を受け取るための整合手段と、
    前記受け取った質疑語に基づいて前記中心用語辞典格納手段に格納された情報を照会するための少なくとも一つの表題語を設定し、前記設定された表題語を利用して前記中心用語辞典格納手段を照会して中心用語を抽出し、前記設定された表題語と前記抽出された中心用語を検索語に利用して関連情報を検索するための情報検索手段と、
    前記情報検索手段により検索された結果を出力するための検索結果出力手段と
    を含むことを特徴とする情報検索システム。
  2. 前記情報検索手段は、
    前記抽出された中心用語が複数個である場合に、検索語に使用しようとする中心用語を前記ユーザが選択するように提供することを特徴とする請求項1に記載の情報検索システム。
  3. 前記検索結果出力手段は、
    前記検索語が複数個である場合に、検索語別に加重値を異にして付与して前記加重値に基づいた優先順位に応じて該当検索結果を出力することを特徴とする請求項1に記載の情報検索システム。
  4. 前記中心用語辞典格納手段は、
    表題語と前記表題語が中心語であるか付加語であるかを識別するための識別子と、前記表題語の中心的意味を有する用語を格納していることを特徴とする請求項1ないし3のいずれかに記載の情報検索システム。
  5. 前記情報検索手段における抽出過程は、
    表題語を前記中心用語辞典格納手段に照会してその識別子を確認した結果、表題語が中心語であると前記表題語の中心的意味を有する付加語を抽出して前記表題語を拡張し、表題語が付加語であると前記表題語に対する中心的意味を有する中心語を抽出した後、前記抽出した中心語を表題語にしてまた前記中心用語辞典格納手段に照会して抽出した付加語を利用して表題語を拡張することを特徴とする請求項4に記載の情報検索システム。
  6. 前記表題語が付加語である場合、前記抽出された中心語を利用して前記表題語を拡張することを特徴とする請求項5に記載の情報検索システム。
  7. 前記中心用語辞典格納手段は、
    中心語である表題語とその表題語の中心的意味を有する付加語を格納している第1データベースと、付加語である表題語とその表題語の中心的意味を有する中心語を格納している第2データベースとを備え、前記第1及び第2データベースが連動されるようになされたことを特徴とする請求項1ないし3のいずれかに記載の情報検索システム。
  8. 前記情報検索手段における抽出過程は、
    表題語を前記第1データベースに照会して前記表題語が中心語であるかを確認して中心語であると、前記表題語の中心的意味を有する付加語を利用して前記表題語を拡張し、中心語ではないと、前記第2データベースに照会して前記表題語の中心的意味を有する中心語を抽出した後、前記抽出した中心語を表題語にしてまた前記第1データベースに照会して抽出した付加語を利用して表題語を拡張することを特徴とする請求項7に記載の情報検索システム。
  9. 前記中心用語辞典格納手段は、
    表題語と前記表題語の中心的意味を有する用語を格納していることを特徴とする請求項1ないし3のいずれかに記載の情報検索システム。
  10. 前記中心用語は、
    表題語に対する中心的意味を有する中心語を含むことを特徴とする請求項1ないし3のいずれかに記載の情報検索システム。
  11. 前記中心語は、
    表題語を構成するストリングの一部または全部のうちいずれか一つの場合であることを特徴とする請求項10に記載の情報検索システム。
  12. 前記中心語は、
    前記表題語を構成するストリングの連続的なストリングからなることを特徴とする請求項11に記載の情報検索システム。
  13. 中心語は、
    前記表題語を構成するストリングの不連続的なストリングからなることを特徴とする請求項11に記載の情報検索システム。
  14. 前記中心用語は、
    前記表題語に対する中心的意味を有する付加語を含むことを特徴とする請求項1ないし3のいずれかに記載の情報検索システム。
  15. 前記検索語は、
    前記抽出された表題語と前記表題語の中心的意味を有する付加語を含むことを特徴とする請求項1ないし3のいずれかに記載の情報検索システム。
  16. 前記検索語は、
    前記表題語の中心的意味を有する中心語を含むことを特徴とする請求項15に記載の情報検索システム。
  17. 中心用語辞典を利用した情報検索システムにおいて、
    表題語に対する中心的意味を有する用語を検索できるように該当情報を格納している前記中心用語辞典格納手段と、
    ユーザから前記中心用語辞典格納手段を利用して質疑語を拡張するか否かに対する選択情報と質疑語を受け取るための整合手段と、
    前記受け取った質疑語に基づいて少なくとも一つの表題語を設定し、前記受け取った選択情報が拡張選択情報であるか否かを確認して拡張選択情報ではないと、前記設定された表題語を利用して情報検索を行ない、拡張選択情報であると前記設定された表題語を利用して前記中心用語辞典格納手段を照会して中心用語を抽出し、前記設定された表題語と前記抽出された中心用語を検索語に利用して関連情報を検索するための情報検索手段と、
    前記情報検索手段により検索された結果を出力するための検索結果出力手段と を含むことを特徴とする情報検索システム。
  18. 前記情報検索手段は、
    前記抽出された中心用語が複数個である場合、検索語に使用しようとする中心用語を前記ユーザが選択するように提供することを特徴とする請求項17に記載の情報検索システム。
  19. 前記検索結果出力手段は、
    前記検索語が複数個である場合、検索語別に加重値を異にして付与して前記加重値に基づいた優先順位に応じて該当検索結果を出力することを特徴とする請求項17に記載の情報検索システム。
  20. 前記中心用語辞典格納手段は、
    表題語と前記表題語が中心語であるか付加語であるかを識別するための識別子と、前記表題語の中心的意味を有する用語を格納していることを特徴とする請求項17ないし19のいずれかに記載の情報検索システム。
  21. 前記情報検索手段における抽出過程は、
    表題語を前記中心用語辞典格納手段に照会してその識別子を確認した結果、表題語が中心語であると、前記表題語の中心的意味を有する付加語を抽出して前記表題語を拡張し、表題語が付加語であると、前記表題語に対する中心的意味を有する中心語を抽出した後、前記抽出した中心語を表題語にしてまた前記中心用語辞典格納手段に照会して抽出した付加語を利用して表題語を拡張することを特徴とする請求項20に記載の情報検索システム。
  22. 前記表題語が付加語である場合、前記抽出された中心語を利用して前記表題語を拡張することを特徴とする請求項21に記載の情報検索システム。
  23. 前記中心用語辞典格納手段は、
    中心語である表題語とその表題語の中心的意味を有する付加語を格納している第1データベースと、付加語を表題語とその表題語の中心的意味を有する中心語を格納している第2データベースとを備え、前記第1及び第2データベースが連動されるようになされたことを特徴とする請求項17ないし19のいずれかに記載の情報検索システム。
  24. 前記情報検索手段における抽出過程は、
    表題語を前記第1データベースに照会して前記表題語が中心語であるかを確認して中心語であると、前記表題語の中心的意味を有する付加語を利用して前記表題語を拡張し、中心語ではないと前記第2データベースに照会して前記表題語の中心的意味を有する中心語を抽出した後、前記抽出した中心語を表題語にしてまた前記第1データベースに照会して抽出した付加語を利用して表題語を拡張することを特徴とする請求項23に記載の情報検索システム。
  25. 前記中心用語辞典格納手段は、
    表題語と前記表題語の中心的意味を有する用語を格納していることを特徴とする請求項17ないし19のいずれかに記載の情報検索システム。
  26. 前記中心用語は、
    表題語に対する中心的意味を有する中心語を含むことを特徴とする請求項17ないし19のいずれかに記載の情報検索システム。
  27. 前記中心語は、
    表題語を構成するストリングの一部または全部のうちいずれか一つの場合であることを特徴とする請求項26に記載の情報検索システム。
  28. 前記中心語は、
    前記表題語を構成するストリングの連続的なストリングからなることを特徴とする請求項27に記載の情報検索システム。
  29. 前記中心語は、
    前記表題語を構成するストリングの不連続的なストリングからなることを特徴とする請求項27に記載の情報検索システム。
  30. 前記中心用語は、
    前記表題語に対する中心的意味を有する付加語を含むことを特徴とする請求項17ないし19のいずれかに記載の情報検索システム。
  31. 前記検索語は、
    前記抽出された表題語と前記表題語の中心的意味を有する付加語を含むことを特徴とする請求項17ないし19のいずれかに記載の情報検索システム。
  32. 前記検索語は、
    前記表題語の中心的意味を有する中心語を含むことを特徴とする請求項31に記載の情報検索システム。
  33. 中心用語辞典を利用した情報検索システムに適用される情報検索方法において、
    表題語に対する中心的意味を有する用語を検索できるように前記中心用語辞典を構築する第1ステップと、
    ユーザから受け取った質疑語に基づいて前記中心用語辞典に格納された情報を照会するための少なくとも一つの表題語を設定する第2ステップと、
    前記中心用語辞典から前記表題語に対する中心用語を抽出して表題語を拡張する第3ステップと、
    前記設定された表題語と前記抽出された中心用語を検索語に利用して関連情報を検索する第4ステップと、
    前記情報検索結果を出力する第5ステップと
    を含むことを特徴とする情報検索方法。
  34. 前記検索語が複数個である場合、検索語別に加重値を定める第6ステップをさらに含むことを特徴とする請求項33に記載の情報検索方法。
  35. 前記第5ステップは、
    前記検索語毎に異にして付与された前記加重値に基づいた優先順位に応じて該当検索結果を出力することを特徴とする請求項34に記載の情報検索方法。
  36. 前記抽出された中心用語が複数個である場合、検索語に使用しようとする中心用語を前記ユーザが選択するように提供する第6ステップをさらに含むことを特徴とする請求項33に記載の情報検索方法。
  37. 前記中心用語辞典は、
    表題語と前記表題語が中心語であるか付加語であるかを識別するための識別子と、前記表題語の中心的意味を有する用語を格納していることを特徴とする請求項33ないし36のいずれかに記載の情報検索方法。
  38. 前記拡張過程は、
    表題語を前記中心用語辞典に照会して前記表題語が中心語であるか付加語であるかを識別子を介して確認する第7ステップと、
    前記第7ステップの確認の結果、表題語が中心語であると、前記表題語に対する中心的意味を有する付加語を利用して表題語を拡張する第8ステップと、
    前記第7ステップの確認の結果、表題語が付加語であると、前記表題語に対する中心的意味を有する中心語を抽出した後、前記抽出した中心語を表題語にしてまた前記中心用語辞典に照会して抽出した付加語を利用して前記表題語を拡張する第9ステップと
    を含むことを特徴とする請求項37に記載の情報検索方法。
  39. 前記第9ステップの表題語拡張過程は、
    前記抽出された中心語を利用して前記表題語を拡張することを特徴とする請求項38に記載の情報検索方法。
  40. 前記中心用語辞典は、
    第1データベースに中心語である表題語とその表題語の中心的意味を有する付加語を格納しており、前記第1データベースと連動するようになされた第2データベースに付加語である表題語とその表題語の中心的意味を有する中心語を格納していることを特徴とする請求項33ないし36のいずれかに記載の情報検索方法。
  41. 前記拡張過程は、
    表題語を前記第1データベースに照会して前記表題語が中心語であるかを確認する第7ステップと、
    前記第7ステップの確認の結果、表題語が中心語であると、前記表題語の中心的意味を有する付加語を利用して前記表題語を拡張する第8ステップと、
    前記第7ステップの確認の結果、表題語が中心語ではないと、前記第2データベースに照会して前記表題語の中心的意味を有する中心語を抽出した後、前記抽出した中心語を表題語にしてまた前記第1データベースに照会して抽出した付加語を利用して表題語を拡張する第9ステップと
    を含むことを特徴とする請求項40に記載の情報検索方法。
  42. 前記中心用語辞典は、
    表題語と前記表題語の中心的意味を有する用語を格納していることを特徴とする請求項33ないし36のいずれかに記載の情報検索方法。
  43. 前記中心用語は、
    表題語に対する中心的意味を有する中心語を含むことを特徴とする請求項33ないし36のいずれかに記載の情報検索方法。
  44. 前記中心語は、
    表題語を構成するストリングの一部または全部のうちいずれか一つの場合であることを特徴とする請求項43に記載の情報検索方法。
  45. 前記中心語は、
    前記表題語を構成するストリングの連続的なストリングからなることを特徴とする請求項43に記載の情報検索方法。
  46. 前記中心語は、
    前記表題語を構成するストリングの不連続的なストリングからなることを特徴とする請求項44に記載の情報検索方法。
  47. 前記中心用語は、
    前記表題語に対する中心的意味を有する付加語を含むことを特徴とする請求項33ないし36のいずれかに記載の情報検索方法。
  48. 前記検索語は、
    前記抽出された表題語と前記表題語の中心的意味を有する付加語を含むことを特徴とする請求項33ないし36のいずれかに記載の情報検索方法。
  49. 前記検索語は、
    前記表題語の中心的意味を有する中心語を含むことを特徴とする請求項48に記載の情報検索方法。
  50. 中心用語辞典を利用した情報検索システムに適用される情報検索方法において、
    表題語に対する中心的意味を有する用語を検索できるように前記中心用語辞典を構築する第1ステップと、
    ユーザから前記中心用語辞典を利用して質疑語を拡張するか否かに対する選択情報と質疑語を受け取る第2ステップと、
    前記ユーザから受け取った質疑語に基づいて少なくとも一つの表題語を設定する第3ステップと、
    前記ユーザから受け取った選択情報が前記中心用語辞典を利用した拡張選択情報であるか否かを確認する第4ステップと、
    前記第4ステップの確認の結果、拡張選択情報ではないと、前記設定された表題語を利用して情報検索を行なって情報検索結果を出力する第5ステップと、
    前記第4ステップの確認の結果、拡張選択情報であると前記中心用語辞典から前記表題語に対する中心用語を抽出して表題語を拡張した後、前記設定された表題語と前記抽出された中心用語を検索語に利用して関連情報を検索してその結果を出力する第6ステップと
    を含むことを特徴とする情報検索方法。
  51. 前記検索語が複数個である場合、検索語別に加重値を定める第7ステップをさらに含むことを特徴とする請求項50に記載の情報検索方法。
  52. 前記第6ステップの検索結果出力過程は、
    前記検索語毎に異にして付与された前記加重値に基づいた優先順位に応じて該当検索結果を出力することを特徴とする請求項51に記載の情報検索方法。
  53. 前記抽出された中心用語が複数個である場合、検索語に使用しようとする中心用語を前記ユーザが選択するように提供する第7ステップをさらに含むことを特徴とする請求項50に記載の情報検索方法。
  54. 前記中心用語辞典は、
    表題語と前記表題語が中心語であるか付加語であるかを識別するための識別子と、前記表題語の中心的意味を有する用語を格納していることを特徴とする請求項50ないし53のいずれかに記載の情報検索方法。
  55. 前記拡張過程は、
    表題語を前記中心用語辞典に照会して前記表題語が中心語であるか付加語であるかを識別子を介して確認する第8ステップと、
    前記第8ステップの確認の結果、表題語が中心語であると、前記表題語に対する中心的意味を有する付加語を利用して表題語を拡張する第9ステップと、
    前記第8ステップの確認の結果、表題語が付加であると、前記表題語に対する中心的意味を有する中心語を抽出した後、前記抽出した中心語を表題語にしてまた前記中心用語辞典に照会して抽出した付加語を利用して前記表題語を拡張する第10ステップと
    を含むことを特徴とする請求項54に記載の情報検索方法。
  56. 前記第10ステップの表題語拡張過程は、
    前記抽出された中心語を利用して前記表題語を拡張することを特徴とする請求項55に記載の情報検索方法。
  57. 前記中心用語辞典は、
    第1データベースに中心語である表題語と、その表題語の中心的意味を有する付加語を格納しており、前記第1データベースと連動されるようになされた第2データベースに付加語である表題語と、その表題語の中心的意味を有する中心語を格納していることを特徴とする請求項50ないし53のいずれかに記載の情報検索方法。
  58. 前記拡張過程は、
    表題語を前記第1データベースに照会して前記表題語が中心語であるかを確認する第8ステップと、
    前記第8ステップの確認の結果、表題語が中心語であると、前記表題語の中心的意味を有する付加語を利用して前記表題語を拡張する第9ステップと、
    前記第8ステップの確認の結果、表題語が中心語ではないと、前記第2データベースに照会して前記表題語の中心的意味を有する中心語を抽出した後、前記抽出した中心語を表題語にしてまた前記第1データベースに照会して抽出した付加語を利用して表題語を拡張する第10ステップと
    を含むことを特徴とする請求項57に記載の情報検索方法。
  59. 前記中心用語辞典は、
    表題語と前記表題語の中心的意味を有する用語を格納していることを特徴とする請求項50ないし53のいずれかに記載の情報検索方法。
  60. 前記中心用語は、
    表題語に対する中心的意味を有する中心語を含むことを特徴とする請求項50ないし53のいずれかに記載の情報検索方法。
  61. 前記中心語は、
    表題語を構成するストリングの一部または全部のうちいずれか一つの場合であることを特徴とする請求項60に記載の情報検索方法。
  62. 前記中心語は、
    前記表題語を構成するストリングの連続的なストリングからなることを特徴とする請求項61に記載の情報検索方法。
  63. 前記中心語は、
    前記表題語を構成するストリングの不連続的なストリングからなることを特徴とする請求項46に記載の情報検索方法。
  64. 前記中心用語は、
    前記表題語に対する中心的意味を有する付加語を含むことを特徴とする請求項50ないし53のいずれかに記載の情報検索方法。
  65. 前記検索語は、
    前記抽出された表題語と前記表題語の中心的意味を有する付加語を含むことを特徴とする請求項50ないし53のいずれかに記載の情報検索方法。
  66. 前記検索語は、
    前記表題語の中心的意味を有する中心語を含むことを特徴とする請求項48に記載の情報検索方法。
  67. 中心用語辞典を利用した表題語の中心用語抽出システムに適用される表題語の中心用語抽出方法において、
    表題語に対する中心的意味を有する用語を検索できるように前記中心用語辞典を構築する第1ステップと、
    ユーザから受け取った質疑語に基づいて前記中心用語辞典に格納された情報を照会するための少なくとも一つの表題語を設定する第2ステップと、
    前記設定された表題語を利用して前記中心用語辞典を照会して前記表題語に対する中心的意味を有する用語を抽出する第3ステップと
    を含むことを特徴とする表題語の中心用語抽出方法。
  68. 前記中心用語辞典は、
    表題語と前記表題語が中心語であるか付加語であるかを識別するための識別子と、前記表題語の中心的意味を有する用語を格納していることを特徴とする請求項67に記載の表題語の中心用語抽出方法。
  69. 前記拡張過程は、
    表題語を前記中心用語辞典に照会して前記表題語が中心語であるか付加語であるかを識別子を介して確認する第4ステップと、
    前記第4ステップの確認の結果、表題語が中心語であると、前記表題語に対する中心的意味を有する付加語を利用して表題語を拡張する第5ステップと、
    前記第4ステップの確認の結果、表題語が付加語であると、前記表題語に対する中心的意味を有する中心語を抽出した後、前記抽出した中心語を表題語にしてまた前記中心用語辞典に照会して抽出した付加語を利用して前記表題語を拡張する第6ステップと
    を含むことを特徴とする請求項68に記載の表題語の中心用語抽出方法。
  70. 前記第6ステップの表題語拡張過程は、
    前記抽出された中心語を利用して前記表題語を拡張することを特徴とする請求項69に記載の表題語の中心用語抽出方法。
  71. 前記中心用語辞典は、
    第1データベースに中心語である表題語とその表題語の中心的意味を有する付加語を格納しており、前記第1データベースと連動されるようになされた第2データベースに付加語である表題語と、その表題語の中心的意味を有する中心語を格納していることを特徴とする請求項67に記載の表題語の中心用語抽出方法。
  72. 前記拡張過程は、
    表題語を前記第1データベースに照会して前記表題語が中心語であるかを確認する第4ステップと、
    前記第4ステップの確認の結果、表題語が中心語であると、前記表題語の中心的意味を有する付加語を利用して前記表題語を拡張する第5ステップと、
    前記第4ステップの確認の結果、表題語が中心語ではないと、前記第2データベースに照会して前記表題語の中心的意味を有する中心語を抽出した後、前記抽出した中心語を表題語にしてまた前記第1データベースに照会して抽出した付加語を利用して表題語を拡張する第6ステップと
    を含むことを特徴とする請求項71に記載の表題語の中心用語抽出方法。
  73. 前記中心用語辞典は、
    表題語と前記表題語の中心的意味を有する用語を格納していることを特徴とする請求項67に記載の表題語の中心用語抽出方法。
  74. 前記中心用語は、
    表題語に対する中心的意味を有する中心語を含むことを特徴とする請求項67ないし73のいずれかに記載の表題語の中心用語抽出方法。
  75. 前記中心語は、
    表題語を構成するストリングの一部または全部のうちいずれか一つの場合であることを特徴とする請求項74に記載の表題語の中心用語抽出方法。
  76. 前記中心語は、
    前記表題語を構成するストリングの連続的なストリングからなることを特徴とする請求項75に記載の表題語の中心用語抽出方法。
  77. 前記中心語は、
    前記表題語を構成するストリングの不連続的なストリングからなることを特徴とする請求項75に記載の表題語の中心用語抽出方法。
  78. 前記中心用語は、
    前記表題語に対する中心的意味を有する付加語を含むことを特徴とする請求項67ないし73のいずれかに記載の表題語の中心用語抽出方法。
  79. 中心用語辞典を利用した表題語の中心用語抽出システムに適用される表題語の中心用語抽出方法において、
    表題語に対する中心的意味を有する用語を検索できるように、前記中心用語辞典を構築する第1ステップと、
    ユーザから前記中心用語辞典を利用して質疑語を拡張するか否かに対する選択情報と質疑語を受け取る第2ステップと、
    前記ユーザから受け取った質疑語に基づいて少なくとも一つの表題語を設定する第3ステップと、
    前記ユーザから受け取った選択情報が前記中心用語辞典を利用した拡張選択情報であるか否かを確認する第4ステップと、
    前記第4ステップの確認の結果、拡張選択情報ではないと、前記設定された表題語を拡張しない第5ステップと、
    前記第4ステップの確認の結果、拡張選択情報であると前記設定された表題語を利用して前記中心用語辞典を照会して前記表題語に対する中心的意味を有する用語を抽出して表題語を拡張する第6ステップと
    を含むことを特徴とする表題語の中心用語抽出方法。
  80. 前記中心用語辞典は、
    表題語と前記表題語が中心語であるか付加語であるかを識別するための識別子と、前記表題語の中心的意味を有する用語を格納していることを特徴とする請求項79に記載の表題語の中心用語抽出方法。
  81. 前記拡張過程は、
    表題語を前記中心用語辞典に照会して前記表題語が中心語であるか付加語であるかを識別子を介して確認する第7ステップと、
    前記第7ステップの確認の結果、表題語が中心語であると、前記表題語に対する中心的意味を有する付加語を利用して表題語を拡張する第8ステップと、
    前記第7ステップの確認の結果、表題語が付加語であると、前記表題語に対する中心的意味を有する中心語を抽出した後、前記抽出した中心語を表題語にしてまた前記中心用語辞典に照会して抽出した付加語を利用して前記表題語を拡張する第9ステップと
    を含むことを特徴とする請求項80に記載の表題語の中心用語抽出方法。
  82. 前記第9ステップの表題語拡張過程は、
    前記抽出された中心語を利用して前記表題語を拡張することを特徴とする請求項81に記載の表題語の中心用語抽出方法。
  83. 前記中心用語辞典は、
    第1データベースに中心語である表題語と、その表題語の中心的意味を有する付加語を格納しており、前記第1データベースと連動されるようになされた第2データベースに付加語である表題語と、その表題語の中心的意味を有する中心語を格納していることを特徴とする請求項79に記載の表題語の中心用語抽出方法。
  84. 前記拡張過程は、
    表題語を前記第1データベースに照会して前記表題語が中心語であるかを確認する第7ステップと、
    前記第7ステップの確認の結果、表題語が中心語であると、前記表題語の中心的意味を有する付加語を利用して前記表題語を拡張する第8ステップと、
    前記第7ステップの確認の結果、表題語が中心語ではないと、前記第2データベースに照会して前記表題語の中心的意味を有する中心語を抽出した後、前記抽出した中心語を表題語にしてまた前記第1データベースに照会して抽出した付加語を利用して表題語を拡張する第9ステップと
    を含むことを特徴とする請求項83に記載の表題語の中心用語抽出方法。
  85. 前記中心用語辞典は、
    表題語と前記表題語の中心的意味を有する用語を格納していることを特徴とする請求項79に記載の表題語の中心用語抽出方法。
  86. 前記中心用語は、
    表題語に対する中心的意味を有する中心語を含むことを特徴とする請求項79ないし85のいずれかに記載の表題語の中心用語抽出方法。
  87. 前記中心語は、
    表題語を構成するストリングの一部または全部のうちいずれか一つの場合であることを特徴とする請求項86に記載の表題語の中心用語抽出方法。
  88. 前記中心語は、
    前記表題語を構成するストリングの連続的なストリングからなることを特徴とする請求項87に記載の表題語の中心用語抽出方法。
  89. 前記中心語は、
    前記表題語を構成するストリングの不連続的なストリングからなることを特徴とする請求項87に記載の表題語の中心用語抽出方法。
  90. 前記中心用語は、
    前記表題語に対する中心的意味を有する付加語を含むことを特徴とする請求項79ないし85のいずれかに記載の表題語の中心用語抽出方法。
  91. 中心用語辞典を利用して情報を検索するために、プロセッサを備えた情報検索システムに、
    表題語に対する中心的意味を有する用語を検索できるように、前記中心用語辞典を構築する第1機能と、
    ユーザから受け取った質疑語に基づいて前記中心用語辞典に格納された情報を照会するための少なくとも一つの表題語を設定する第2機能と、
    前記中心用語辞典から前記表題語に対する中心用語を抽出して表題語を拡張する第3機能と、
    前記設定された表題語と前記抽出された中心用語を検索語に利用して関連情報を検索する第4機能と、
    前記情報検索結果を出力する第5機能と
    を実現させるためのプログラムを記録したコンピュータで読み出すことができる記録媒体。
  92. 中心用語辞典を利用して情報を検索するために、プロセッサを備えた情報検索システムに、
    表題語に対する中心的意味を有する用語を検索できるように、前記中心用語辞典を構築する第1機能と、
    ユーザから前記中心用語辞典を利用して質疑語を拡張するか否かに対する選択情報と質疑語を受け取る第2機能と、
    前記ユーザから受け取った質疑語に基づいて少なくとも一つの表題語を設定する第3機能と、
    前記ユーザから受け取った選択情報が前記中心用語辞典を利用した拡張選択情報であるか否かを確認する第4機能と、
    前記第4機能での確認の結果、拡張選択情報ではないと、前記設定された表題語を利用して情報検索を行なって情報検索結果を出力する第5機能と、
    前記第4機能での確認の結果、拡張選択情報であると、前記中心用語辞典から前記表題語に対する中心用語を抽出して表題語を拡張した後、前記設定された表題語と前記抽出された中心用語を検索語に利用して関連情報を検索してその結果を出力する第6機能と
    を実現させるためのプログラムを記録したコンピュータで読み出すことができる記録媒体。
  93. 中心用語辞典を利用して表題語の中心用語を抽出するために、プロセッサを備えた表題語の中心用語抽出システムに、
    表題語に対する中心的意味を有する用語を検索できるように、前記中心用語辞典を構築する第1機能と、
    ユーザから受け取った質疑語に基づいて前記中心用語辞典に格納された情報を照会するための少なくとも一つの表題語を設定する第2機能と、
    前記設定された表題語を利用して前記中心用語辞典を照会して前記表題語に対する中心的意味を有する用語を抽出する第3機能と
    を実現させるためのプログラムを記録したコンピュータで読み出すことができる記録媒体。
  94. 中心用語辞典を利用して表題語の中心用語を抽出するために、プロセッサを備えた表題語の中心用語抽出システムに、
    を実現させるためのプログラムを記録したコンピュータで読み出すことができる記録媒体。
  95. 中心用語辞典を利用して表題語の中心用語を抽出するために、プロセッサを備えた表題語の中心用語抽出システムに、
    表題語に対する中心的意味を有する用語を検索できるように、前記中心用語辞典を構築する第1機能と、
    ユーザから前記中心用語辞典を利用して質疑語を拡張するか否かに対する選択情報と質疑語を受け取る第2機能と、
    前記ユーザから受け取った質疑語に基づいて少なくとも一つの表題語を設定する第3機能と、
    前記ユーザから受け取った選択情報が前記中心用語辞典を利用した拡張選択情報であるか否かを確認する第4機能と、
    前記第4機能での確認の結果、拡張選択情報ではないと、前記設定された表題語を拡張しない第5機能と、
    前記第4機能での確認の結果、拡張選択情報であると、前記設定された表題語を利用して前記中心用語辞典を照会して前記表題語に対する中心的意味を有する用語を抽出して表題語を拡張する第6機能と
    を実現させるためのプログラムを記録したコンピュータで読み出すことができる記録媒体。
  96. 中心語または付加語などのような表題語を挿入するための表題語フィールドと、
    前記表題語フィールドに挿入された表題語が中心語であるかまたは付加語であるかを識別できる識別子を挿入するための識別子フィールドと、
    前記表題語に対する中心用語として前記表題語が中心であると、前記表題語の中心的意味を有する付加語を挿入し、前記表題語が付加語であると、前記表題語の中心的意味を有する中心語を挿入するための中心用語フィールドと
    を含むデータが記録されたコンピュータで読み出すことができる記録媒体。
  97. 表題語を挿入するための表題語フィールドと、
    前記表題語の中心的意味を有する中心語を挿入するための中心語フィールドと、
    前記表題語の中心的意味を有する付加語を挿入するための付加語フィールドと
    を含むデータが記録されたコンピュータで読み出すことができる記録媒体。
  98. 表題語を挿入するための表題語フィールドと、
    前記表題語の中心的意味を有する中心語または付加語を挿入するための中心用語フィールドと
    を含むデータが記録されたコンピュータで読み出すことができる記録媒体。
JP2001577207A 2000-04-18 2001-04-18 中心用語辞典を利用した表題語の中心用語抽出方法及びそれを利用した情報検索システム及びその方法 Pending JP2004501424A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20000020398 2000-04-18
PCT/KR2001/000650 WO2001080077A1 (en) 2000-04-18 2001-04-18 Method and system for retrieving information based on meaningful core word

Publications (1)

Publication Number Publication Date
JP2004501424A true JP2004501424A (ja) 2004-01-15

Family

ID=19665216

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001577207A Pending JP2004501424A (ja) 2000-04-18 2001-04-18 中心用語辞典を利用した表題語の中心用語抽出方法及びそれを利用した情報検索システム及びその方法

Country Status (8)

Country Link
US (2) US20030171914A1 (ja)
EP (1) EP1290583A4 (ja)
JP (1) JP2004501424A (ja)
KR (1) KR100813806B1 (ja)
CN (2) CN101051311A (ja)
CA (1) CA2406203A1 (ja)
HK (1) HK1057632A1 (ja)
WO (1) WO2001080077A1 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030052416A (ko) * 2001-12-21 2003-06-27 윤남규 부동산 거래 싸이트 운영 시스템 및 방법
KR20030094966A (ko) * 2002-06-11 2003-12-18 주식회사 코스모정보통신 통제학습 기반의 문서 자동분류시스템 및 그 방법
US7403939B1 (en) 2003-05-30 2008-07-22 Aol Llc Resolving queries based on automatic determination of requestor geographic location
US20050283473A1 (en) * 2004-06-17 2005-12-22 Armand Rousso Apparatus, method and system of artificial intelligence for data searching applications
US7562069B1 (en) 2004-07-01 2009-07-14 Aol Llc Query disambiguation
CN1315084C (zh) * 2004-07-05 2007-05-09 朱龙安 一种专业化搜索引擎数据搜集方法
US7272597B2 (en) 2004-12-29 2007-09-18 Aol Llc Domain expert search
US7349896B2 (en) 2004-12-29 2008-03-25 Aol Llc Query routing
US7818314B2 (en) 2004-12-29 2010-10-19 Aol Inc. Search fusion
US7571157B2 (en) 2004-12-29 2009-08-04 Aol Llc Filtering search results
US8935269B2 (en) 2006-12-04 2015-01-13 Samsung Electronics Co., Ltd. Method and apparatus for contextual search and query refinement on consumer electronics devices
US8156154B2 (en) * 2007-02-05 2012-04-10 Microsoft Corporation Techniques to manage a taxonomy system for heterogeneous resource domain
US7895197B2 (en) * 2007-04-30 2011-02-22 Sap Ag Hierarchical metadata generator for retrieval systems
CN101606155B (zh) * 2007-08-09 2013-03-13 松下电器产业株式会社 内容检索装置
US8938465B2 (en) * 2008-09-10 2015-01-20 Samsung Electronics Co., Ltd. Method and system for utilizing packaged content sources to identify and provide information based on contextual information
CN101770499A (zh) * 2009-01-07 2010-07-07 上海聚力传媒技术有限公司 搜索引擎中的信息检索方法及相应搜索引擎
CN101604324B (zh) * 2009-07-15 2011-11-23 中国科学技术大学 一种基于元搜索的视频服务网站的搜索方法及系统
CN102088635B (zh) * 2009-12-04 2013-04-17 深圳Tcl新技术有限公司 网络电视机记录历史搜索关键字的方法
CN102254039A (zh) * 2011-08-11 2011-11-23 武汉安问科技发展有限责任公司 一种基于搜索引擎的网络搜索方法
US8661049B2 (en) 2012-07-09 2014-02-25 ZenDesk, Inc. Weight-based stemming for improving search quality
CN103593343B (zh) * 2012-08-13 2019-05-03 北京京东尚科信息技术有限公司 一种电子商务平台中的信息检索方法和装置
CN102929924A (zh) * 2012-09-20 2013-02-13 百度在线网络技术(北京)有限公司 一种基于浏览内容的取词搜索结果生成方法及装置
CN104182432A (zh) * 2013-05-28 2014-12-03 天津点康科技有限公司 基于人体生理参数检测结果的信息检索与发布系统及方法
US11170425B2 (en) * 2014-03-27 2021-11-09 Bce Inc. Methods of augmenting search engines for eCommerce information retrieval
US10740384B2 (en) * 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
CN105528441A (zh) * 2015-12-22 2016-04-27 北京奇虎科技有限公司 基于自动标注的中心词提取方法和装置
CN105659235A (zh) * 2016-01-08 2016-06-08 马岩 网络信息的搜词方法及系统
US10810256B1 (en) * 2017-06-19 2020-10-20 Amazon Technologies, Inc. Per-user search strategies
US11748563B2 (en) 2018-07-30 2023-09-05 Entigenlogic Llc Identifying utilization of intellectual property
US11720558B2 (en) 2018-07-30 2023-08-08 Entigenlogic Llc Generating a timely response to a query
US11176126B2 (en) * 2018-07-30 2021-11-16 Entigenlogic Llc Generating a reliable response to a query
CN109088195B (zh) * 2018-08-03 2023-09-15 昆山杰顺通精密组件有限公司 二合一usb连接器
JP7231190B2 (ja) * 2018-11-02 2023-03-01 株式会社ユニバーサルエンターテインメント 情報提供システム、及び、情報提供制御方法
US11429655B2 (en) * 2019-12-03 2022-08-30 Sap Se Iterative ontology learning
CN111723162B (zh) * 2020-06-19 2023-08-25 北京小鹏汽车有限公司 词典处理方法、处理装置、服务器和语音交互系统
CN112445895B (zh) * 2020-11-16 2024-04-19 深圳市世强元件网络有限公司 一种识别用户搜索场景的方法及系统
CN112580336A (zh) * 2020-12-25 2021-03-30 深圳壹账通创配科技有限公司 信息校准检索方法、装置、计算机设备及可读存储介质
CN114040012B (zh) * 2021-11-01 2023-04-21 东莞深创产业科技有限公司 一种信息查询推送方法、装置及计算机设备
CN114611486B (zh) * 2022-03-09 2022-12-16 上海弘玑信息技术有限公司 信息抽取引擎的生成方法及装置、电子设备
CN114881774B (zh) * 2022-07-12 2022-10-21 华中科技大学同济医学院附属协和医院 基于凭证信息处理的电子档案管理系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4724523A (en) * 1985-07-01 1988-02-09 Houghton Mifflin Company Method and apparatus for the electronic storage and retrieval of expressions and linguistic information
JPH01307865A (ja) * 1988-06-06 1989-12-12 Nec Corp 文字列検索方式
JPH02108158A (ja) * 1988-10-17 1990-04-20 Fujitsu Ltd 文字列検索装置
EP0378848A2 (en) * 1989-01-19 1990-07-25 International Business Machines Corporation Method for use of morphological information to cross reference keywords used for information retrieval
JPH03280159A (ja) * 1990-03-29 1991-12-11 Toshiba Corp 文字列検索方式
JPH05314181A (ja) * 1992-05-13 1993-11-26 Fujitsu Ltd 情報検索装置
JPH06504858A (ja) * 1991-02-01 1994-06-02 ウォング・ラボラトリーズ・インコーポレーテッド テキスト管理システム
US5404435A (en) * 1991-07-29 1995-04-04 International Business Machines Corporation Non-text object storage and retrieval
JPH08235191A (ja) * 1995-02-27 1996-09-13 Toshiba Corp 文書検索方法及び文書検索装置
US5937422A (en) * 1997-04-15 1999-08-10 The United States Of America As Represented By The National Security Agency Automatically generating a topic description for text and searching and sorting text by topic using the same
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US6101492A (en) * 1998-07-02 2000-08-08 Lucent Technologies Inc. Methods and apparatus for information indexing and retrieval as well as query expansion using morpho-syntactic analysis

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60159970A (ja) * 1984-01-30 1985-08-21 Hitachi Ltd 情報蓄積検索方式
JPS6320530A (ja) * 1986-07-14 1988-01-28 Brother Ind Ltd 電子辞書における単語検索装置
JPH04160566A (ja) * 1990-10-24 1992-06-03 Matsushita Electric Ind Co Ltd 単語解析装置
US5519840A (en) * 1994-01-24 1996-05-21 At&T Corp. Method for implementing approximate data structures using operations on machine words
US5724594A (en) * 1994-02-10 1998-03-03 Microsoft Corporation Method and system for automatically identifying morphological information from a machine-readable dictionary
JPH0844723A (ja) * 1994-07-27 1996-02-16 Toshiba Corp 文書作成装置または文書作成方法
JP3003915B2 (ja) * 1994-12-26 2000-01-31 シャープ株式会社 単語辞書検索装置
US5704060A (en) * 1995-05-22 1997-12-30 Del Monte; Michael G. Text storage and retrieval system and method
JP3111860B2 (ja) * 1995-08-02 2000-11-27 松下電器産業株式会社 スペルチェック装置
KR100286649B1 (ko) * 1996-06-27 2001-04-16 이구택 연어패턴에 기초한 어휘 변환방법
JPH11175564A (ja) * 1997-12-05 1999-07-02 Oki Electric Ind Co Ltd 文書検索システム
KR100308011B1 (ko) * 1998-06-09 2001-11-14 구자홍 시소러스컴파일방법
KR100323595B1 (ko) * 1998-12-17 2002-03-08 이계철 전자사전의표제어에대한결합구조정보구성방법및그를이용한전자사전검색방법
KR100282546B1 (ko) * 1998-12-29 2001-02-15 이계철 한-일 기계번역 시스템에서의 다어절 변환 단위의 변환 방법
JP2000259671A (ja) * 1999-03-12 2000-09-22 Dainippon Printing Co Ltd 情報生成システム、情報検索システム、及び記録媒体
US6708166B1 (en) * 1999-05-11 2004-03-16 Norbert Technologies, Llc Method and apparatus for storing data as objects, constructing customized data retrieval and data processing requests, and performing householding queries
JP2000331012A (ja) * 1999-05-19 2000-11-30 Oki Electric Ind Co Ltd 電子化文書検索方法
JP3945075B2 (ja) * 1999-05-21 2007-07-18 カシオ計算機株式会社 辞書機能を備えた電子装置及び情報検索処理プログラムを記憶した記憶媒体
US6516337B1 (en) * 1999-10-14 2003-02-04 Arcessa, Inc. Sending to a central indexing site meta data or signatures from objects on a computer network
US6665666B1 (en) * 1999-10-26 2003-12-16 International Business Machines Corporation System, method and program product for answering questions using a search engine
ATE288108T1 (de) * 2000-08-18 2005-02-15 Exalead Suchwerkzeug und prozess zum suchen unter benutzung von kategorien und schlüsselwörtern
US7185001B1 (en) * 2000-10-04 2007-02-27 Torch Concepts Systems and methods for document searching and organizing
US7403938B2 (en) * 2001-09-24 2008-07-22 Iac Search & Media, Inc. Natural language query processing

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4724523A (en) * 1985-07-01 1988-02-09 Houghton Mifflin Company Method and apparatus for the electronic storage and retrieval of expressions and linguistic information
JPH01307865A (ja) * 1988-06-06 1989-12-12 Nec Corp 文字列検索方式
JPH02108158A (ja) * 1988-10-17 1990-04-20 Fujitsu Ltd 文字列検索装置
EP0378848A2 (en) * 1989-01-19 1990-07-25 International Business Machines Corporation Method for use of morphological information to cross reference keywords used for information retrieval
JPH03280159A (ja) * 1990-03-29 1991-12-11 Toshiba Corp 文字列検索方式
JPH06504858A (ja) * 1991-02-01 1994-06-02 ウォング・ラボラトリーズ・インコーポレーテッド テキスト管理システム
US5404435A (en) * 1991-07-29 1995-04-04 International Business Machines Corporation Non-text object storage and retrieval
JPH05314181A (ja) * 1992-05-13 1993-11-26 Fujitsu Ltd 情報検索装置
JPH08235191A (ja) * 1995-02-27 1996-09-13 Toshiba Corp 文書検索方法及び文書検索装置
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US5937422A (en) * 1997-04-15 1999-08-10 The United States Of America As Represented By The National Security Agency Automatically generating a topic description for text and searching and sorting text by topic using the same
US6101492A (en) * 1998-07-02 2000-08-08 Lucent Technologies Inc. Methods and apparatus for information indexing and retrieval as well as query expansion using morpho-syntactic analysis

Also Published As

Publication number Publication date
HK1057632A1 (en) 2004-04-08
CA2406203A1 (en) 2001-10-25
KR100813806B1 (ko) 2008-03-13
EP1290583A1 (en) 2003-03-12
WO2001080077A1 (en) 2001-10-25
US20090144249A1 (en) 2009-06-04
CN101051311A (zh) 2007-10-10
US20030171914A1 (en) 2003-09-11
AU5273501A (en) 2001-10-30
CN1434952A (zh) 2003-08-06
KR20010098714A (ko) 2001-11-08
CN100535892C (zh) 2009-09-02
EP1290583A4 (en) 2004-12-08

Similar Documents

Publication Publication Date Title
JP2004501424A (ja) 中心用語辞典を利用した表題語の中心用語抽出方法及びそれを利用した情報検索システム及びその方法
US9817920B1 (en) Locating meaningful stopwords or stop-phrases in keyword-based retrieval systems
US7603370B2 (en) Method for duplicate detection and suppression
JP4936401B2 (ja) ナビゲーションパス情報に基づく主題関連ウェブページのフィルタリング方法およびシステム
US20040249808A1 (en) Query expansion using query logs
TW201027375A (en) Search system, search method and program
WO2008097856A2 (en) Search result delivery engine
MX2008013657A (es) Anotacion a traves de busqueda.
WO2002091216A1 (en) Very-large-scale automatic categorizer for web content
US7024405B2 (en) Method and apparatus for improved internet searching
WO2006108069A2 (en) Searching through content which is accessible through web-based forms
US9971828B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
US20110252313A1 (en) Document information selection method and computer program product
JP5613536B2 (ja) 利用者の要求に応じて動的にもっとも適したイメージを抽出して提供するための方法、システム及びコンピューター判読可能な記録媒体
Zhang et al. A preprocessing framework and approach for web applications
Schedl et al. Automatically detecting members and instrumentation of music bands via web content mining
US9996621B2 (en) System and method for retrieving internet pages using page partitions
JP5346045B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
KR100932046B1 (ko) 도서 검색 방법 및 도서 검색 시스템
AU785401B2 (en) Method and system for retrieving information based on meaningful core word
JP4223756B2 (ja) 文書検索方法、文書検索プログラム及び文書検索システム
KR20080024172A (ko) 중심용어사전의 데이터가 기록된 컴퓨터로 읽을 수 있는기록매체
JP2005050135A (ja) 情報検索システムおよび情報検索方法と、プログラムおよび記録媒体
Foo et al. Automatic thesaurus for enhanced Chinese text retrieval
Lin et al. Searching for Historical Events on a Large-Scale Web Archive

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060621

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090717

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20091019

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20091026

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091030

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100924