JP3915267B2 - 文書検索装置および文書検索方法 - Google Patents

文書検索装置および文書検索方法 Download PDF

Info

Publication number
JP3915267B2
JP3915267B2 JP25214598A JP25214598A JP3915267B2 JP 3915267 B2 JP3915267 B2 JP 3915267B2 JP 25214598 A JP25214598 A JP 25214598A JP 25214598 A JP25214598 A JP 25214598A JP 3915267 B2 JP3915267 B2 JP 3915267B2
Authority
JP
Japan
Prior art keywords
search
query
words
expression
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP25214598A
Other languages
English (en)
Other versions
JP2000082067A (ja
Inventor
忠信 宮内
惠久 川邉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP25214598A priority Critical patent/JP3915267B2/ja
Priority to US09/384,544 priority patent/US6574622B1/en
Publication of JP2000082067A publication Critical patent/JP2000082067A/ja
Application granted granted Critical
Publication of JP3915267B2 publication Critical patent/JP3915267B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、データベースにおける情報検索の支援に関する装置及び方法に関するものである。特に、情報検索を実行する利用者の意図に応じて利用者の発想で入力したプライマリクエリすなわち予備的検索式に基づいてデータベース検索に適した新たなクエリを設定し、この新たなクエリに基づいて実際の情報検索を実行する装置及び方法である。本発明の構成によれば、容易且的確な情報検索が可能となる。すなわち、ユーザはデータベース構成と無関係にユーザの意図に応じてキーワード等から成る暫定的なプライマリクエリを入力し、本発明のシステムは入力されたプライマリクエリに基づいてデータベース空間に適した検索条件として使用すべきクエリの候補をユーザに提示し、ユーザは提示された候補から検索用クエリを設定し、設定されたクエリによって検索を実行する装置および方法である。
【0002】
【従来の技術】
従来より、自然言語処理技術の一環として情報検索の研究が活発に行われている。情報検索システムは、一般に図1に示すようにモデル化される。この一般的モデルにおける情報検索には大きく分けて次に示す3つのギャップが存在すると考えられる。
【0003】
(1)ユーザの検索意図とシステムのクエリ(検索式)表現形式の間のギャップ。
ユーザが自分の検索意図(イメージ)を定められた表現形式にしたがって入力、変換する際に発生する差異である。検索意図自体が明らかでないため、とくに検索初心者にとってはクエリの表出自体が困難な場合も多い。
【0004】
(2)クエリの表現とデータベース中に存在する表現の間のギャップ。
検索システム内では、クエリで表現可能な情報とデータベース中に存在する表現のマッチングを行なうが、両者の間にも一般に乖離がある。
【0005】
(3)得られた検索結果に基づき適合フィードバックをする際のギャップ。
ユーザはシステムが出力する検索結果を参照して、検索意図に近づけるための適合フィードバック(relevance feedback)を行なうが、検索結果がユーザの意図に一致しているかの判断が困難であるうえ、クエリの変更による影響は実際に検索を行なわないと分からない。
【0006】
既存の検索システムの問題点を、上記に対応して列挙する。
A.ブール式などに基づく全文検索
全文検索方式は、上記(2)の問題を解決するものととらえられる。すなわち、文書中に記述されている単語であればその表記から検索できることにより、極力クエリの表現とデータベース中に存在する表現の間のギャップを低減する。しかし、これは単語レベルでの解決であるため、クエリ記述言語に慣れていないユーザにとっては(1)が問題となる。
【0007】
B.自然言語インタフェースに基づく検索
上記A.の問題を解決するため、自然言語インタフェースが提案されている。これは、思いついたフレーズまたは文を直接クエリとして入力することにより、(1)のギャップを低減するものと考えられる。ところが、データベースに保持される表現は必ずしも入力フレーズと同じでないため、これをマッチングさせようとするとかえって(2)のギャップが大きくなる。内部的にどのようなマッチングが行われるかがユーザから観測しにくいため、適合フィードバックがかえって困難になる、すなわち(3)の問題も顕在化する。
【0008】
C.適合フィードバック支援
検索結果に基づき、(3)の問題を解決するためになんらかのフィードバック支援を行なうもの。上記A、Bとの組み合わせも可能である。たとえば次のようなものがあるが、それぞれ問題を解決できているとは言い難い。
【0009】
C−1.絞り込みキーワードの候補リストを示し、ユーザに指定させるもの
クエリと検索結果中の単語間の統計的な情報などを用いて図2、図3に示すような絞り込み候補を示すもの。ともに、実際のインターネットサーチエンジンにおける例であり、図2はAltavista(http://altavista.digital.com)における英語の例であり、表示された英語キーワードを追加して検索を再実行することにより、データの絞り込みが実行される。図3はExcite Japan(http://www.excite.co.jp)における日本語の例であり、上段にある追加キーワードから選択してキーワードを追加することにより検索を実行してデータの絞り込みを可能とする。また、特開平10−74210「文献検索支援方法およびこれを用いた文献検索サービス」では、文書中に出現する単語の頻度などに基づいて特徴語を抽出し、ユーザに関心の有無に応じて単語を選択させるものである。
【0010】
これら従来公開されているシステム共通の問題として、図2または図3に示す例からも理解されるように、単純な単語レベルの頻度や共起関係などでは、どうしても類似語や隣接する名詞などが多くなり、適切な候補を示すことは困難である。また、ユーザはその単語が文書中でどのように使われているかの判断ができないため、検索ワードとして選択すべきかどうかの判断が困難であるうえ、その選択がどのように検索において反映されるかも理解し難い。これは、もともと単語という比較的粒度の小さい情報のみにすべての検索を依存しているためとも考えられる。
【0011】
C−2.候補のうちユーザの検索意図に近い文書をユーザに指定させるもの。
一例を図4に示す。この方式は図4に示すようにユーザが指定した文書中の特徴量に基づき、あらたな検索を実行する構成である。図4に示す例はInfoNavigator(http://infonavi.infoweb.ne.jp)の登録ホームページ検索における例であり、Yahoo!などと同じくいわゆる手動登録型のシステムである。このため、要約は人手で付与しているので、なんとか要約レベルでも指定するか否かの判断ができるかもしれないが、いわゆるロボット型のサーチエンジンでは文の先頭などを単純に表示しているものが多い。WWW文書においては、対象が特定できないうえ利用者も専門家でないことが多く、そのページをフィードバックに加えるか否かの判断は実際のページ内容を見ないと困難である。実際、同サーチエンジンのロボット収集ページのサーチにはこの機能はない。
【0012】
特開平9−153051「類似文書検索方法」には、n−gram(n文字が連続する文字列)を用いたランキングにおける適合フィードバックの例が示されている。しかし、適合フィードバックのために選択した文書が結果にどのように反映されるかが把握しにくいうえ、上述のように文書の内容をユーザ側でいちいち確認することは大きな手間を要する。
【0013】
このように、フィードバックの単位として文書を用いることは、対象の粒度が大きすぎることとなり、ユーザが文書を読むことによるユーザ負担の増大、また要約等の文書の信頼性の維持が必要となる等の課題が発生する。
【0014】
また、上記の各種の検索方式を組み合わせた検索方式も開示されている。特開平6−274538「情報検索装置」は、自然語文の検索要求に対し、システムの理解内容や検索式の生成内容を自然語文で利用者にフィードバックするものである。しかし、本構成は再構築に用いる関係がシソーラスや関連語辞書に基づく情報を単語レベルのAND、ORに帰着させるものであるため、ユーザの意図が辞書の構成と異なる場合、フィードバックが困難である。
【0015】
以上に対し、特開平8−129554「関係表現抽出装置および検索装置」を適用したシステムは、自然語から抽出した関係表現を介して概念に基づく検索を行なうことで、上述した(1)および(2)の問題をある程度解決するものであった。ただし、ブール検索に親しんでいて概念に基づく検索に慣れていないユーザにとっては、クエリ中に概念間の関係を明示的に示すことが難しい場合がある。この方式では、関係を具体的に指定したほうが適合率が向上する、すなわちギャップがより少なくなるが、単純に複合語や「の」で接続した場合、ブール検索に対する差異が少なく、効果が低くなってしまうという問題があった。また、(3)の問題に対する効果的な解決はなされていなかった。
【0016】
このように、図1に示す情報検索モデルにおける各レベルのギャップ低減をすべて満足することは、従来技術に開示されたいずれの検索方式においても困難であった。
【0017】
【発明が解決しようとする課題】
本発明は上述した従来技術各々が有する問題点を解決し、図1に示す情報検索モデルにおける各レベルのギャップを低減する構成を提供することを目的とするものである。
【0018】
まず、ユーザは自分の検索意図に対し、厳密な一致を求めることなく、プライマリクエリと呼ぶ暫定的な検索要求を実行して、ユーザがとりあえず思いついた単語または単語群を列挙する。このプライマリクエリ方式により、上述の「(1)ユーザの検索意図とシステムのクエリ表現形式の間のギャップ」の低減が達成される。
【0019】
このプライマリクエリを受けたシステムは、プライマリクエリとして与えられた単語(群)に対し、データベースを検索した結果の一部をサンプル空間としていったん保持する。つぎに、検索結果の一部であるサンプル空間に対し、プライマリクエリの単語(群)が持ち得る関係表現(複数の単語とそれらの関係)を推定し、その関係表現とサンプル空間との部分一致により、クエリの展開を行ない、予め定められた基準でカテゴライズしたクエリ候補群を合成する。このプライマリクエリに基づくクエリ群合成の構成により、実際にデータベースが保持するデータに対する検索が実行可能なクエリを合成することが可能となり、合成されたクエリはフィードバック検索においてシステムにそのまま検索式として与えることが可能となる。従って、上述の「(2)クエリの表現とデータベース中に存在する表現の間のギャップ」の低減が達成される。
【0020】
さらに、展開されたクエリ候補の表現群をユーザに提示し、ユーザは自分の意図にそぐう関係表現候補を単純に選択していくことができる。選択の単位は例えば概念間の関係を単位にカテゴライズされているため、ユーザは検索対象の概念空間の把握が容易になる。従って、「(3)得られた検索結果に基づき適合フィードバックをする際のギャップ」の低減が達成される。
【0021】
ユーザは自分の検索意図にあったクエリ候補が提示されるまで、上記の操作を途中に戻ることも含めて繰り返したうえで、選択したクエリ候補群の組み合わせにより検索を実際に実行するための実クエリを合成し検索を行なう。このように、本発明の構成は上述した従来の検索システムとは異なり、ユーザの検索意図の概念と、データベースを構成するシステムのデータ空間との双方に調和したクエリ候補を介して情報検索を行うことが可能となり、ユーザは容易にデータベース空間に調和した概念空間を操作して情報検索を実行することができ、従来の情報検索モデルにおいて存在した各種のギャップを低減した情報検索が可能となる。
【0022】
【課題を解決するための手段】
本発明は上述の目的を達成するものであり、文書の検索を実行する文書検索装置において、ユーザの意図に基づく任意の単語の列挙による暫定的な検索式として、複数の単語を含むプライマリクエリを指定するプライマリクエリ指示手段と、文書中に含まれる関係表現データであり、複数の単語と該複数の単語間の関係を示す関係表現データを保持するデータベースと、前記プライマリクエリに基づいて、前記データベースに保持された関係表現データから前記プライマリクエリに含まれる関係表現に対応する関係表現データを抽出する関係拡縮手段であり、記プライマリクエリを構成する単語間の関係を推定する関係推定手段であり、前記データベースに保持された複数の単語と該複数の単語間の関係を示す関係表現データのなかから前記プライマリクエリを構成する単語を含む関係表現を抽出する関係推定手段と、
前記プライマリクエリの構成要素を前記関係推定手段において推定された単語間の関係に基づいて、複数の自立語と該自立語間の関係とを含む関係表現に展開する展開手段であり、前記関係推定手段によって推定された前記プライマリクエリの関係表現の構成要素を1以上の自立語(W)と該自立語間の関係を示す関係データ(R)とに区分するとともに、部分一致検索手段による検索を実行する自立語(W)、または自立語(W)と関係データ(R)の組み合わせを決定する展開手段と、
記展開手段によって展開された関係表現に基づいて、該関係表現と部分的に一致する関係表現データを前記データベースから抽出する部分一致検索手段であり、前記展開手段によって決定された自立語(W)、または自立語(W)と関係データ(R)の組み合わせに基づいて部分一致検索を実行する部分一致検索手段と、
を有し、前記プライマリクエリを構成する単語を含む関係表現と部分的に一致する関係表現を前記データベースに保持された関係表現データから抽出する処理を実行する関係拡縮手段と、
前記関係拡縮手段より抽出された関係表現データに基づき、文書検索式として指定可能なクエリの候補群を選択するクエリ候補選択手段と、
前記クエリ候補選択手段によって選択されたクエリの候補群をユーザに提示し、該提示されたクエリ候補群中から選択されたクエリに対して、前記関係拡縮手段および前記クエリ候補選択手段の処理を繰り返し実行してクエリ候補群の絞り込みを行う適合フィードバックにより文書検索実行用クエリの設定処理を行なうフィードバック指示手段と、を有することを特徴とする。
【0026】
さらに、本発明の文書検索装置における関係拡縮手段は、データベースからサンプリングしたサンプルデータを保持するサンプル保持手段を有し、部分一致検索手段による関係表現データの抽出は、サンプル保持手段の保持するサンプルデータに対して実行する構成であることを特徴とする。
【0028】
さらに、本発明の文書検索装置における展開手段において展開される関係表現は、あらかじめデータベースにインデックスとして登録されている関係表現データに対応する表現であることを特徴とする。
【0034】
【発明の実施の形態】
図5に、本発明の文書検索装置の実施例に関する概略構成図を示す。
図5中、入出力部1は結果表示部11、プライマリクエリ指示部12、フィードバック・実検索指示部13を有し、ネットワーク経由で本実施例の検索システムに接続される。
データベース部2は、あらかじめインターネット7から収集部6により収集した文書群を、キーワード・関係表現抽出部3にてインデクシングして保持する。さらに、データベース部2は、関係拡縮部4および入出力部1にも接続する。関係拡縮部4は、サンプル保持部41、関係推定部42、関係展開部43、部分一致検索部44を持ち、クエリ候補選択部5に接続される。
【0035】
入出力部1はインターネット環境においては実際には例えばWWWブラウザであり、http(Hyper Text Transfer Protocol)経由でGETまたはPOSTメソッド等により検索指示を検索システムに送出し、結果ページを表示する。
【0036】
収集部6は、いわゆるロボットやスパイダーと呼ばれるものであり、インターネット上を巡回してWWWページを収集する。データベース部2は、あらかじめ登録したWWWページ(文書)へのインデックス群を大量に保持し、検索要求に応じて結果を返す。
【0037】
キーワード・関係表現抽出部3は、データベース部2に文書を登録するためにキーの抽出を行なう部分であり、キーワード(単語)および関係表現をWWWページから抽出する。関係表現は、複数の単語間と単語間の関係を抽出したものである。
【0038】
サンプル保持部41は、データベース部2から検索要求に基づき得られる検索結果のうち、上位100件など予め設定された適当な件数のサンプル集合を保持する。関係推定部42は、サンプル集合中の関係表現群に基づき適当な条件で関係を推定する。関係展開部43は、関係表現を要素の一部のみの一致により展開し、部分一致検索部44は、その部分一致検索をサンプル保持部41にに保持された集合に対して行なう。
【0039】
クエリ候補選択部5は、これらの関係の拡縮からユーザに提示するクエリ候補を選択する構成を有する。
【0040】
以下、本発明の実施例における動作の一例として、大量のデータを対象とするサーチエンジン(ここではインターネットサーチエンジンを想定)におけるクエリ提示システムの例を説明する。
【0041】
以下、本発明の文書検索装置について検索の実例を示しながら説明する。ユーザは検索意図として、「ケーキ」に関する何らかの情報を得たいものとする。ところが、前述のようにユーザの検索意図自体がはっきりしない場合、ユーザが検索に不慣れであった場合等はクエリを作成すること自体が非常に困難である。本発明の文書検索装置では、ユーザが思いついた単語を単純に列挙し、これらの単語を入出力部において入力することで予備的な文書検索の開始手続きがなされる。データベースの構成や検索手法を熟知しないユーザにとってユーザの発想する単語、ワードを順次入力することでクエリを暫定的に表出できることは検索に対する障壁を低くすることになり、検索初心者にとってより検索に親しみやすい環境となる。また、サーチエンジンにおいては、入力の手間を省き入力を簡単にするためスペースで区切って単語を列挙した場合、ANDまたはORで接続された検索式とみなすことが一般的であるため、従来のシステムに親しんだユーザにもなじみやすいものとなる。
【0042】
ここでは、プライマリクエリ指示部12(図5参照)から、図6のように ケーキ おいしい という単語表現を入力し、「クエリ提示」ボタンをクリック(押す)する。これらの「ケーキ」「おいしい」の単語が暫定的な検索式としてのプライマリクエリである。利用者としては、とくに「おいしい」という表現が欲しいわけではなく、なんらかの意味でケーキを形容したいのだが、適切な表現が浮かばない状態である。一般には、単純に「ケーキ AND おいしい」などで検索しても、膨大なデータが結果として出力されたり、ノイズの多い結果となったり、あまり意味のある検索結果は期待できないが、本発明のシステムではこのようなユーザがとりあえず思いついた表現で入力することを許容する。なお、ユーザの検索意図がはっきりしていて、確度の高いクエリ表出ができる場合は、適切なクエリを入力して「直接検索」ボタンをクリックして直接検索を行なってもよい。この場合には、特開平8−129554「関係表現抽出装置および検索装置」に開示された検索方法の適用が可能である。このように直接検索ボタン(図6参照)をクリックした場合は、図6の質問文の欄に入力されたワードはプライマリクエリではなく実際の検索ワードとして、すなわち実検索クエリとして認識されることとなる。
【0043】
ユーザが図6に示す状態、すなわち質問文の欄に「ケーキ」、「おいしい」を入力し、「直接検索ボタン」をクリックせずに「クエリ提示ボタン」を押すと、http経由でサーチエンジン側のデータベース部2(図5参照)に対して予備的な検索指示が出される。ここでは、いったん単純な単語のAND検索を行なうことにする。もちろん、この段階で重み付けOR検索などを行なってもよい。
【0044】
データベース部2には、あらかじめインターネット7から収集部6によって収集されたURLの内容に対し、キーワード・関係表現抽出部3でキーワードおよび関係表現のインデックスを付与してあるものとする。関係表現とは、複数の単語間の関係をあらわすものであり、この抽出には上述の特開平8−129554と同様の方法を用いることができる。また、キーワードの抽出と検索は、よく知られた全文検索の技術により可能である。
【0045】
インターネットサーチエンジンでは、サーチ結果は一般に大量のものとなるが、本実施例では関係拡縮部4において、サンプリングした一部のデータに対して処理を行なう。
【0046】
まず、関係拡縮部4中のサンプル保持部41に、サンプリングしたデータを保持する。サンプリングは、なんらかのランキングによる上位のものでも、ランダムに抽出したものでもよい。ここでは、ユーザの入力したプライマリクエリに対するランキング結果が高いもの100件を処理対象とする。ランキングには、一般にtf*IDFなどの頻度情報や、単語間の近さといった情報が用いられる。各データには、あらかじめキーワード・関係表現抽出部3で抽出され、データベースに保持される関係表現データが含まれる。以下、関係拡縮部4において計算する情報は、すべてこのサンプリングデータに基づくものとする。サンプリングデータを用いるのは、大量のデータに対する処理の高速化を主目的にしており、サーチ結果が少量の場合、あるいは高速性が要求されない場合等、とくに問題がない場合には全データを対象にしてももちろんよい。また、関係表現も実行時に抽出してもよい。
【0047】
つづいて、関係推定部42において、入力されたプライマリクエリにおける単語間の関係、すなわちユーザが入力した「ケーキ」と「おいしい」との関係を推定する。具体的には、プライマリクエリの自立語と、サンプル集合が含む関係表現の自立語群を比較し、一致するものを列挙・計数する。この場合、プライマリクエリの自立語は単語「ケーキ」(名詞)と「おいし(い)」(形容詞)であり、これに対し、サンプル集合が含む関係表現、すなわち実際のデータから抽出された「ケーキ」「おいしい」を含む表現にはいくつかの種類がある。
【0048】
例えば、サンプル保持部41が保持する100件のサンプル集合中に図7に示すように同じ自立語(「ケーキ」「おいしい」)を持つ次のような関係表現がそれぞれの個数得られる。
「ケーキ[が]おいしい」43個
「ケーキ[は]おいしい」13個
「ケーキ[も]おいしい」27個
「おいしい[形+名]ケーキ」62個
ひとつの文書中に同じ単語が複数回出現することもあるので、この計数された個数の合計は処理対象文書数(本例においては前述したように100件)より多くなっている。
【0049】
これら抽出された複数の関係表現群に対し、ユーザが入力したプライマリクエリに対応する代表的な関係表現を推定する。具体的な方法としては、特開平7−319885「キーワード抽出装置」の方法を用いることができる。簡単に説明すると、前述のそれぞれの関係は矛盾せず(概念的に同一になり得る)、[形+名]という関係がもっとも頻度が高く(62件)かつ抽象度が低い(概念間の具体的な関係をよく表している)ため、「おいしい[形+名]ケーキ」という関係表現を、人間が理解しやすい代表的なものとして選択する。これらの選択基準は予め設定する。この例では矛盾する関係が存在しないが、もし矛盾するリレーションがある場合、頻度などのパラメータに適当な閾値を設け、複数の候補を推定してもよい。
【0050】
この関係推定部42の推定結果に基づき、関係展開部43において関係表現の展開を行なう。部分一致検索部44を介し、サンプル保持部41より、さきほど推定した関係表現「おいしいケーキ」と部分的に一致する関係表現を取り出すことによって展開を行なう。
【0051】
この例すなわち関係推定部42で推定された関係表現「おいしいケーキ」は、次のように3つの要素を持つ表現としてモデル化される。
自立語群1(W1)関係[R]自立語群2(W2)
さきほど推定した代表的な関係表現に対応させると、次のようになる。
W1:おいしい
R :[形容詞+名詞]
W2:ケーキ
【0052】
この例では自立語(W)が「ケーキ」と「おいしい」の2つであるが、ユーザがプライマリクエリとして入力したワードが多数であれば、それらの個数分の自立語に分割され、それぞれを要素として認識する。
【0053】
部分一致検索とは、以上の認識された要素「W1」、「R」、「W2」の3つのうち一部のみ一致する関係表現をとりだすことを指す。部分一致を行なう理由は、関係表現は概念間の関係を示すため、AND的に作用し、目的によっては対象が絞られすぎることによる。しかしながら、単純にORを適用すると今度は候補数が膨大となり、処理が滞ることになる。そこでこれを解消するため、全要素中の部分一致によりマッチングの幅を広げたのちにユーザに候補から選択させることで関係の拡縮を行ない、適度な候補数を保つことが期待できる。これは、同じ関係を介することに基づくものであり、従来の単語レベルのマッチングにおいては困難である。
【0054】
ここでは、まずW1「おいし(い)」,R,W2「ケーキ」のうち2つが一致している関係表現を取り出すとする。この場合、最初の検索がW1「おいし(い)」とW2「ケーキ」が一致しているものであったから、W1「おいし(い)」とR、またはW2「ケーキ」とRが一致しているものを取り出すことになる。このとき、関係[R]に関しては特開平8−129554で述べているように概念的に同一になり得る(可換)関係であれば必ずしも同一の関係でなくても展開が可能である。展開の範囲は、あらかじめ設定した情報で制御できるので、ここでは、関係の抽象度を高め、修飾語として名詞を修飾している関係すべてに展開することにする。具体的には、前述の形容詞による関係に加え、「形容動詞+な+名詞」、「名詞+が+形容動詞」、「名詞+が+形容動詞」などである。
【0055】
部分一致検索の実現方法としては、特開平8−129554に述べられている方法を応用し、単語単位に設定したインデックスで容易に実現できる。まず、W1「おいし(い)」とRが一致するものとしては、たとえば次のような関係表現が得られる。
お菓子[が]おいしい、
おいしい[形+名]お菓子、
チョコレート[が]おいしい
【0056】
このとき、さきほど施したのと同様に、出現頻度を計数したうえで代表的な関係表現を推定する。すると、図8のような関係表現群が展開結果として抽出される。ここでは「おいしい」という語と「修飾」という関係を固定しているので、得られる関係は「おいしい」による被修飾関係を持つ名詞を含む関係である。図8に示す例では、「おいしい」による被修飾関係を持つ名詞として「ケーキ」、「お菓子」、「チョコレート」等10個の単語が抽出されている。なお、本システムでは、あまり頻度が低いものを抽出してもノイズとなる可能性があることと、のちに提示する候補数が多すぎるとユーザの手間が大きくなるおそれがあるため、適当なランキングを施してランキング先頭の10個程度を抽出する例を示している。ここでは頻度を用いてランキングを決定している。抽出個数、ランキング手法は様々な態様が可能である。
【0057】
つづいてW2「ケーキ」とRが一致するものに対して同様の処理を施すと、図9のような関係表現群が抽出される。抽出された単語は「おいしい」、「好き」「有名」…である。これらは「ケーキ」に対する修飾関係になる。
【0058】
さらに、より展開範囲を広げるため、W1「おいし(い)」もしくはW2「ケーキ」のみが一致する関係表現も抽出する。このとき、当然ながらさきほど抽出した「修飾」に関する関係と一致しうる関係は除く。このような部分一致をどこまで行なうかの条件は、たとえば前出の図6に示すようなスライダをユーザインタフェースに設定し、ユーザがスライダをセットすることで設定可能としてもよいし、適切な既定値を用いてもよい。この例では、図6に示されるスライダによって設定されているように広めの展開を行なうこととし、一単語のみの部分一致も許すものとする。
【0059】
この場合、W1「おいし(い)」、W2「ケーキ」はそれぞれ動詞とも接続し得るので、それらを図10のように動作接続関係として抽出する。このとき、形容詞が動詞を修飾する関係は絶対数が少ないので、抽出単語は先頭5個としてある。さらに、ここでは、ランキングに関し和語動詞とサ変動詞のスコア付けを変えている。すなわち、和語動詞(食べる、作る)などについてサ変動詞(紹介、販売など)の2倍のスコアを与えるようにしている。これは、WWW文書においてはやわらかい表現が多いため、和語動詞をより重視することを目的としている。逆に、サ変動詞のスコアを高めたり、他の品詞においても条件に応じて適当に抽出基準やスコア付け規則を変えることはもちろん差し支えない。また、動詞に関して「ある」「なる」などは、関係としては有用性が低いので、禁止語辞書を用意して排除している。これは、従来の単語ベースのキーワード抽出でも一般的である。動詞以外でも、形式名詞「もの」「こと」なども同様である。
【0060】
さらに、W2「ケーキ」は名詞どうしの接続、例えばチーズケーキ等もありえるので、それらを図11のように名詞接続関係として抽出する。図11で示す例で抽出された単語は、「チーズ」、「味」、「お店」…である。
【0061】
以上の部分一致に基づく関係展開結果を、クエリ候補選択部5においてまとめて、クエリの候補として選択する。
【0062】
展開されたそれぞれの関係表現は、あらかじめデータベース部にインデックスとして登録されているものに基づいているため、そのままデータベース検索用クエリとして適用可能なことが保証されている。すなわち、クエリの表現とデータベース側の表現とのギャップがないことが予め保証されている。クエリ候補は、ユーザが選択しやすいように適当なカテゴライズと優先度をつけて選択され、ユーザに提示されることになる。ここでは、カテゴライズの基準としてさきほど抽出した関係、すなわち、修飾、被修飾、動作対象、といった基準を用いる。これは、関係表現に基づくクエリを選択するには直感的であり、適切なもののひとつと考えられる。
【0063】
カテゴライズの基準として上述した修飾、被修飾、動作対象は一例であって、特に一つに限定されるものでなく、様々なものが適用可能である。たとえば、シソーラスを用い、単語間の階層関係に基づいて複数レベルでカテゴライズする、といった方法が考えられる。このようなとき、既存のシソーラスをWWWページに適用すると、対象が特定できないためうまくいかないことが多いが、そのような場合には、例えば特願平9−333489「シソーラス検索合成システム」に開示された方法を用いることで、インターネット上で目的に応じた分類基準を合成することができる。
【0064】
優先度づけの方法ももちろんさまざまであるが、こちらもユーザの直感に合うように、部分一致のレベルに応じて分けるものとする。もちろん、これ以外にも頻度別などさまざま基準が適用可能である。本システムでは、WWWベースのサーチエンジンを想定しているため、このようなカテゴライズおよび優先度付けの結果は、WWWページを介してユーザに提示される。
【0065】
この例においては、前述のように修飾、被修飾、動作対象、といった基準を用いてカテゴライズされたクエリ候補群が図12のようなフォームでユーザに示される。図12で示す単語は、前述の図8乃至図11において説明した抽出単語である。上段から、1.「おいしい」(被修飾関係)(図8に対応)、2.「ケーキ」(修飾関係)(図9に対応)、3.「ケーキ」(動作接続関係)(図10に対応)、4「おいし(く)」(動作接続関係)(図10に対応)、5.「ケーキ」(名詞接続関係)(図11に対応)に関する単語がチェックボックスとともに列挙される。
【0066】
このように図12に示す例では、展開した結果の各単語ごとにチェックボックスを設け、それらをそれぞれの関係ごと(1.〜5.)にカテゴライズし、さらに部分一致のレベルに応じて二つ(1.〜2.と3.〜5.)に優先度を分けて表示する。このようにすることで、ユーザの直感に整合し、かつ煩雑でないフィードバックが可能となる。このように、ユーザのプライマリクエリに対してフィードバックされる表示画面は非常にシンプルなページであるが、ユーザの指定により実際のクエリ(実検索用クエリ)を生成するには十分な情報を含む。なお、表示形態、表示単語数は、図12に示す例に限らず様々な態様での表示が可能である。
【0067】
図12に示す例では、先にユーザの任意の発想で設定したプライマリクエリに対応する関係表現として、「1.おいしい…」においては「ケーキ」が、「2.…な/いケーキ」においては「おいしい」があらかじめチェックされている。ここでチェックボックスではなく個別の単語そのものにリンクを設定しておき、クリックすると実際の検索結果のリストを要約込みで概観できるようにしておけば、選択の手助けになる。
【0068】
ユーザは、提示された候補の中から、自分の検索意図に合う、または近いものを適当に選択することにより実際のクエリ、すなわち実際に検索ワードとして機能する実検索クエリを生成する。ここでは、ユーザの意図としていったん「おいしいケーキ」から離れる意図を有していたとして、「おいしい」と「ケーキ」の選択をはずす例を示す。もちろん「おいしい」と「ケーキ」の選択をそのままにして、プライマリクエリにおいて設定した条件に加えて絞り込みを実行する場合は、チェックボックスのチェックを選択したままにしておくことになる。ブール式に基づく検索システムでは、「AND」で絞りすぎた場合は元に戻って別の表現を入れ直す、といった煩雑さをしばしば経験するが、本システムにおけるプライマリクエリはあくまで暫定的なものであるため、このような広げたり狭めたりすること自体が検索のシーケンスに含まれる。
【0069】
さて、あらためて「2.…な/いケーキ」という修飾関係から「素朴」「軽い」を、選んだ(チェックボックスをチェック)とする。このときのブラウザの表示は図13のようになる。
【0070】
初期状態では、これらの選択は、「1,おいしい」、「2,…な/いケーキ」、「3ケーキを」、といったカテゴライズされた関係単位の項目間ではAND条件として作用し、同一項目内の単語、この例では項目「2,…な/いケーキ」中の「素朴」と「軽い」はOR条件として働く。「ケーキ」のチェックははずされているので、被修飾語としては名詞なら何でも一致し得ることになり、この「何か」を表記の便宜上χと表わす。するとここでは「素朴[な]χ」または、「軽い[形+名]χ」を指定したことになる。
【0071】
このように、直感的に自然なかたちでAND/OR条件やもとのクエリを残すか否かが指定できるため、ユーザは複雑なクエリのたてかたにわずらわされることがない。
【0072】
さらに、検索意図が絞れてきたので、図13の最上部に示されているように一致範囲のスライダを狭める方向に動かす。これにより、単語のみ一致するものはマッチしなくなり、少なくとも選んだ単語と関係を含むもののみが結果として得られるようになる。ここで「フィードバック!」ボタンを押すと、選択内容から関係表現が選択され、再び関係拡縮部4に送られる。フィードバックもサンプル集合に対して行なうことで、処理の高速化が期待できる。
【0073】
さきほどと異なり関係が特定されており、関係の推定は不要であるため、関係表現は直接関係展開部43に送られる。この場合は、「素朴[な]χ」と「軽い[形+名]χ」がOR条件で送られ、部分一致検索部を経て展開される。部分一致結果としては、次のようなものが得られる。
素朴[な]味わい、
舌触り[が]素朴、
軽い[形+名]甘さ、
パイ[が]軽い、
………
【0074】
これらの結果に対し、再度同様に関係を推定し、ユーザにフィードバックされる結果は、図14のようになる。ユーザはふたたび自分の意図にあうものを選択する。ここでは、図15のように、もとの「素朴」「軽い」は残したまま、さらに被修飾関係から「スフレ」「シフォン」を選択し、いったん実際に検索を行なうために「一括検索!」ボタンをクリックする。すると、内部的には「(軽いOR 素朴)[修飾](スフレ OR シフォン)」というクエリ(文書検索実行用クエリ)が選択されたクエリ候補に基づいて生成され、データベースに対し実際に検索指示を出す。前述のように、本システムでは選択されたクエリ候補に基づく生成結果が正しいクエリになることが保証されている。結果は、通常の検索エンジンと同様に図16のように示される。これは例であるが、クエリ候補の選択にもとづくシンプルな操作のみで、最初の検索結果から検索意図に近い結果を得ることが期待できる。
【0075】
ここで検索意図に合うものが得られればそこで検索自体は終了となるが、ここではさらに検索をすすめる例を考える。前述の図12に示す表示状態において、こんどは対象に関する動作として、図17に示すように「紹介する」「掲載する」を選び、「フィードバック!」ボタンを押したとする。すると、図18に示すように、「ケーキ」以外の動作の対象となる各種の表現が提示される。これを見てたとえば雑誌などで紹介された店に行ってみたいのであれば「お店」「雑誌」などを選択すればよいし、また自分で作る場合に見た目や作り方を参考にしたいのであれば図19に示すように「写真」「レシピ」などを、自分の意図に応じて選択すればよい。
【0076】
図19で示すように「写真」「レシピ」、「紹介する」「掲載する」にチェックマークを付した状態で一括検索を実行すれば、内部的には「(写真 OR レシピ)[修飾](紹介する OR 掲載する)」というクエリが選択されたクエリ候補に基づいて生成され、データベースに対し実際に検索指示を出す。前述のように、これらの選択されたクエリ候補に基づいて生成した結果は正しいクエリになることが保証されている。
【0077】
ここでは、前述のように当初のユーザのプライマリクエリである「ケーキ」、「おいしい」のチェックマークをはずして検索を実行する例を示したが、ユーザは自身の検索意図に応じて、「ケーキ」、「おいしい」のチェックマークを残したままにしておくことも可能である。これらの語のチェックマークを残して検索を実行すれば、「ケーキ」、「おいしい」の語も実際の検索ワードとして機能することになる。
【0078】
このように、従来は実際に検索結果を見ないと一般に想像しえないようなクエリの展開も、実際の例に基づき選択されたクエリ候補に基づいてクエリを生成していくことで自然かつ容易に実現できる。
【0079】
【発明の効果】
以上説明したように、本発明によれば、情報検索における次の3つの従来相反すると考えられていた問題を同時に解決することが可能となる。
【0080】
(1)クエリ作成の困難さ(とくに初心者にとって)
ユーザの検索意図がはっきりしなくてもプライマリクエリとしてユーザが思い付く単語を適当に次々と入力できるうえ、サンプル集合から推定した関係表現を用いたパーシャルマッチ(部分一致検索)を行なうことで、ユーザが最初に入力したプライマリクエリが多少ユーザの検索意図とずれていても適切な実検索クエリをフィードバックにより得ることができ、ユーザの意図にあう検索が可能である。
【0081】
(2)クエリとデータベース中のインデックスのギャップ展開・選択されたクエリ候補に基づいて生成されたそれぞれのプライマリクエリに基づいて抽出される各種の関係表現は、あらかじめデータベース部にインデックスとして登録されているものに基づいているため、そのまま実検索用クエリとして適用可能なことが保証されている。
【0082】
(3)適合フィードバックの困難さ(変更がどう影響するかわからない)
ユーザは、実際の検索に使用される実検索クエリの複数の候補を所定の規準でカテゴライズされ、優先度付けされた表示として一覧することができ、この一覧から実検索クエリを単純に選択することでフィードバックができる。
【0083】
以上のように本発明の構成によれば、初心者に困難であった情報検索において、ユーザは任意の発想で単純なワードの羅列からなるプライマリクエリを入力することにより、その後の対話的入力による簡単な操作で知らず知らずのうちにデータベースに適応したクエリ(実検索用クエリ)が生成できる。このため、情報検索がインターネットを対象とするような巨大なデータ群に対してもユーザは容易にかつ時間のロスがなく低コストで行なえるようになる。
【0084】
また、このような検索意図の明確化というシーケンスをユーザは効果的に体験できるため、検索操作を繰り返すことで、学習効果により最初から適切な関係表現などを含むよいクエリを作れるようになる可能性が期待できる。
【図面の簡単な説明】
【図1】 情報検索における様々なギャップを説明する図である。(人工知能学会誌Vol.11No.1「知的情報検索の動向」より引用)
【図2】 従来の情報検索における絞り込みキーワードの候補リストを示す図(英語例)である。
【図3】 従来の情報検索における絞り込みキーワードの候補リストを示す図(日本語例)である。
【図4】 従来の情報検索において検索意図に近い文書を選択するためのリスト表示を示す図である。
【図5】 本発明の検索システムの構成図である。
【図6】 本発明の検索システムにおけるプライマリクエリの入力を説明する図である。
【図7】 本発明の検索システムにおける関係表現の抽出と推定について説明する図である。
【図8】 本発明の検索システムにおける関係表現群の展開(被修飾関係)について説明する図である。
【図9】 本発明の検索システムにおける関係表現群の展開(修飾関係)について説明する図である。
【図10】 本発明の検索システムにおける関係表現群の展開(動作関係)について説明する図である。
【図11】 本発明の検索システムにおける関係表現群の展開(名詞接続関係)について説明する図である。
【図12】 本発明の検索システムにおけるクエリ候補の提示例について説明する図である。
【図13】 本発明の検索システムにおけるクエリ候補の選択及びフィードバックについて説明する図である。
【図14】 本発明の検索システムにおけるクエリ候補の選択及びフィードバックについて説明する図である。
【図15】 本発明の検索システムにおけるクエリ候補の選択及び検索実行について説明する図である。
【図16】 本発明の検索システムにおける検索実行後の検索結果表示例を示す図である。
【図17】 本発明の検索システムにおけるクエリ候補の選択及びフィードバックについて説明する図である。
【図18】 本発明の検索システムにおけるクエリ候補の選択及びフィードバックについて説明する図である。
【図19】 本発明の検索システムにおけるクエリ候補の選択及び検索実行について説明する図である。
【符号の説明】
1 入出力部
2 データベース部
3 キーワード・関係表現抽出部
4 関係拡縮部
5 クエリ候補選択
6 収集部
7 インターネット
11 結果表示部
12 プライマリクエリ指示部
13 フィードバック・実検索指示部
41 サンプル保持部
42 関係推定部
43 関係展開部
44 部分一致検索部

Claims (3)

  1. 文書の検索を実行する文書検索装置において、
    ユーザの意図に基づく任意の単語の列挙による暫定的な検索式として、複数の単語を含むプライマリクエリを指定するプライマリクエリ指示手段と、
    文書中に含まれる関係表現データであり、複数の単語と該複数の単語間の関係を示す関係表現データを保持するデータベースと、
    前記プライマリクエリに基づいて、前記データベースに保持された関係表現データから前記プライマリクエリに含まれる関係表現に対応する関係表現データを抽出する関係拡縮手段であり、
    記プライマリクエリを構成する単語間の関係を推定する関係推定手段であり、前記データベースに保持された複数の単語と該複数の単語間の関係を示す関係表現データのなかから前記プライマリクエリを構成する単語を含む関係表現を抽出する関係推定手段と、
    前記プライマリクエリの構成要素を前記関係推定手段において推定された単語間の関係に基づいて、複数の自立語と該自立語間の関係とを含む関係表現に展開する展開手段であり、前記関係推定手段によって推定された前記プライマリクエリの関係表現の構成要素を1以上の自立語(W)と該自立語間の関係を示す関係データ(R)とに区分するとともに、部分一致検索手段による検索を実行する自立語(W)、または自立語(W)と関係データ(R)の組み合わせを決定する展開手段と、
    記展開手段によって展開された関係表現に基づいて、該関係表現と部分的に一致する関係表現データを前記データベースから抽出する部分一致検索手段であり、前記展開手段によって決定された自立語(W)、または自立語(W)と関係データ(R)の組み合わせに基づいて部分一致検索を実行する部分一致検索手段と、
    を有し、前記プライマリクエリを構成する単語を含む関係表現と部分的に一致する関係表現を前記データベースに保持された関係表現データから抽出する処理を実行する関係拡縮手段と、
    前記関係拡縮手段より抽出された関係表現データに基づき、文書検索式として指定可能なクエリの候補群を選択するクエリ候補選択手段と、
    前記クエリ候補選択手段によって選択されたクエリの候補群をユーザに提示し、該提示されたクエリ候補群中から選択されたクエリに対して、前記関係拡縮手段および前記クエリ候補選択手段の処理を繰り返し実行してクエリ候補群の絞り込みを行う適合フィードバックにより文書検索実行用クエリの設定処理を行なうフィードバック指示手段と、
    を有することを特徴とする文書検索装置。
  2. 前記関係拡縮手段は、
    前記データベースからサンプリングしたサンプルデータを保持するサンプル保持手段を有し、
    前記部分一致検索手段による関係表現データの抽出は、前記サンプル保持手段の保持するサンプルデータに対して実行する構成であることを特徴とする請求項記載の文書検索装置。
  3. 前記展開手段において展開される関係表現は、あらかじめ前記データベースにインデックスとして登録されている関係表現データに対応する表現であることを特徴とする請求項に記載の文書検索装置。
JP25214598A 1998-09-07 1998-09-07 文書検索装置および文書検索方法 Expired - Fee Related JP3915267B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP25214598A JP3915267B2 (ja) 1998-09-07 1998-09-07 文書検索装置および文書検索方法
US09/384,544 US6574622B1 (en) 1998-09-07 1999-08-27 Apparatus and method for document retrieval

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25214598A JP3915267B2 (ja) 1998-09-07 1998-09-07 文書検索装置および文書検索方法

Publications (2)

Publication Number Publication Date
JP2000082067A JP2000082067A (ja) 2000-03-21
JP3915267B2 true JP3915267B2 (ja) 2007-05-16

Family

ID=17233112

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25214598A Expired - Fee Related JP3915267B2 (ja) 1998-09-07 1998-09-07 文書検索装置および文書検索方法

Country Status (2)

Country Link
US (1) US6574622B1 (ja)
JP (1) JP3915267B2 (ja)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5836771A (en) * 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
US6498921B1 (en) * 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
WO2002019147A1 (en) * 2000-08-28 2002-03-07 Emotion, Inc. Method and apparatus for digital media management, retrieval, and collaboration
JP2002288201A (ja) * 2001-03-23 2002-10-04 Fujitsu Ltd 質問応答処理方法,質問応答処理プログラム,質問応答処理プログラム記録媒体および質問応答処理装置
JP4712221B2 (ja) * 2001-03-30 2011-06-29 株式会社ジャストシステム 主観的特徴要素生成装置、主観的特徴要素生成方法、及び主観的特徴要素生成プログラム
JP2003091541A (ja) * 2001-07-13 2003-03-28 Nippon Telegr & Teleph Corp <Ntt> 情報蓄積装置、そのプログラム及びそのプログラムを記録した媒体、並びに情報検索装置、そのプログラム及びそのプログラムを記録した媒体
US20030115191A1 (en) * 2001-12-17 2003-06-19 Max Copperman Efficient and cost-effective content provider for customer relationship management (CRM) or other applications
US7266553B1 (en) * 2002-07-01 2007-09-04 Microsoft Corporation Content data indexing
NO318841B1 (no) * 2002-08-20 2005-05-09 Telenor Asa System og fremgangsmate for a gi mobiltjenester hoyere tilgjengelighet
WO2004102417A1 (en) * 2003-05-16 2004-11-25 Docomo Communications Laboratories Europe Gmbh Personalized service selection
US7796744B1 (en) * 2003-05-19 2010-09-14 American Teleconferencing Services Dynamic reporting tool for conferencing customers
US20070016559A1 (en) * 2005-07-14 2007-01-18 Yahoo! Inc. User entertainment and engagement enhancements to search system
US20060085391A1 (en) * 2004-09-24 2006-04-20 Microsoft Corporation Automatic query suggestions
WO2006128947A1 (en) * 2005-05-30 2006-12-07 Nokia Corporation Method, associated device, system, and computer program product for data management
US9507850B1 (en) * 2005-08-30 2016-11-29 ProQuest, LLC Method and system for searching databases
US8340266B2 (en) 2005-09-13 2012-12-25 American Teleconferences Services, Ltd. Online reporting tool for conferencing customers
US7584179B2 (en) * 2006-01-27 2009-09-01 William Derek Finley Method of document searching
US20070192313A1 (en) * 2006-01-27 2007-08-16 William Derek Finley Data search method with statistical analysis performed on user provided ratings of the initial search results
US20070271202A1 (en) * 2006-05-08 2007-11-22 Corbis Corporation Determining content pricing for categories of use based on extrinsic and intrinsic factors
US20090048860A1 (en) * 2006-05-08 2009-02-19 Corbis Corporation Providing a rating for digital media based on reviews and customer behavior
US7933765B2 (en) * 2007-01-25 2011-04-26 Corbis Corporation Cross-lingual information retrieval
US8073828B2 (en) 2007-06-14 2011-12-06 Curbis Corporation Licensed rights clearance and tracking for digital assets
WO2009002847A1 (en) * 2007-06-22 2008-12-31 Corbis Corporation Distributed media reviewing for conformance to criteria
US8219494B1 (en) 2007-08-16 2012-07-10 Corbis Corporation End-to-end licensing of digital media assets
US8341195B1 (en) 2007-10-04 2012-12-25 Corbis Corporation Platform for managing media assets for multi-model licensing over multi-level pricing and asset grouping
US7831595B2 (en) * 2007-12-31 2010-11-09 Yahoo! Inc. Predicting and ranking search query results
CN101520784B (zh) * 2008-02-29 2011-09-28 富士通株式会社 信息发布系统和信息发布方法
US8150843B2 (en) 2009-07-02 2012-04-03 International Business Machines Corporation Generating search results based on user feedback
JP5459098B2 (ja) * 2010-06-22 2014-04-02 富士ゼロックス株式会社 プログラム及び同義語生成装置
US9727619B1 (en) * 2013-05-02 2017-08-08 Intelligent Language, LLC Automated search
CN105022787A (zh) * 2015-06-12 2015-11-04 广东小天才科技有限公司 一种推送作文的方法及装置
US11328796B1 (en) 2020-02-25 2022-05-10 Vignet Incorporated Techniques for selecting cohorts for decentralized clinical trials for pharmaceutical research
US11461216B1 (en) 2020-05-18 2022-10-04 Vignet Incorporated Monitoring and improving data collection using digital health technology
US11605038B1 (en) 2020-05-18 2023-03-14 Vignet Incorporated Selecting digital health technology to achieve data collection compliance in clinical trials
US11521714B1 (en) 2021-02-03 2022-12-06 Vignet Incorporated Increasing diversity of participants in health research using adaptive methods
US11789837B1 (en) 2021-02-03 2023-10-17 Vignet Incorporated Adaptive data collection in clinical trials to increase the likelihood of on-time completion of a trial
US11296971B1 (en) 2021-02-03 2022-04-05 Vignet Incorporated Managing and adapting monitoring programs
US11361846B1 (en) 2021-02-03 2022-06-14 Vignet Incorporated Systems and methods for customizing monitoring programs involving remote devices
US11316941B1 (en) 2021-02-03 2022-04-26 Vignet Incorporated Remotely managing and adapting monitoring programs using machine learning predictions
US11196656B1 (en) 2021-02-03 2021-12-07 Vignet Incorporated Improving diversity in cohorts for health research
WO2024042635A1 (ja) * 2022-08-24 2024-02-29 日本電気株式会社 情報処理装置、関連語出力方法および関連語出力プログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274538A (ja) 1993-03-22 1994-09-30 Nec Corp 情報検索装置
US5761496A (en) * 1993-12-14 1998-06-02 Kabushiki Kaisha Toshiba Similar information retrieval system and its method
JP3617096B2 (ja) 1994-05-25 2005-02-02 富士ゼロックス株式会社 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US6006221A (en) * 1995-08-16 1999-12-21 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US5640553A (en) * 1995-09-15 1997-06-17 Infonautics Corporation Relevance normalization for documents retrieved from an information retrieval system in response to a query
US5737734A (en) * 1995-09-15 1998-04-07 Infonautics Corporation Query word relevance adjustment in a search of an information retrieval system
JP3674119B2 (ja) 1995-11-29 2005-07-20 株式会社日立製作所 類似文書検索方法
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
JP3614618B2 (ja) 1996-07-05 2005-01-26 株式会社日立製作所 文献検索支援方法及び装置およびこれを用いた文献検索サービス
US5765147A (en) * 1996-11-21 1998-06-09 International Business Machines Corportion Query rewrite for extended search capabilities
US6269368B1 (en) * 1997-10-17 2001-07-31 Textwise Llc Information retrieval using dynamic evidence combination
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches

Also Published As

Publication number Publication date
JP2000082067A (ja) 2000-03-21
US6574622B1 (en) 2003-06-03

Similar Documents

Publication Publication Date Title
JP3915267B2 (ja) 文書検索装置および文書検索方法
US6904429B2 (en) Information retrieval apparatus and information retrieval method
US8527506B2 (en) Media discovery and playlist generation
US9026543B2 (en) System and method for generating a relationship network
US7440947B2 (en) System and method for identifying query-relevant keywords in documents with latent semantic analysis
US20100077001A1 (en) Search system and method for serendipitous discoveries with faceted full-text classification
WO2001067297A1 (en) System and method for computer searching
JP2003114906A (ja) ユーザ定義可能なパーソナリティを備えたメタ文書管理システム
US8812504B2 (en) Keyword presentation apparatus and method
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
JP2002073677A (ja) 閲覧者の個人嗜好情報収集装置およびこれを利用した情報閲覧支援装置
US20050114317A1 (en) Ordering of web search results
WO2003032199A2 (en) Classification of information sources using graph structures
KR100341396B1 (ko) 계층 단어를 이용한 3차원 클러스터링 생성 시스템 및 그방법
JP2000010986A (ja) ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体
JP2009288870A (ja) 文書重要度算出システム、文書重要度算出方法およびプログラム
JP2008204416A (ja) 高度情報収得システム
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
Gretzel et al. Intelligent search support: Building search term associations for tourism-specific search engines
JPH0934909A (ja) 情報検索装置
JP2000020538A (ja) 情報検索方法、情報検索装置および情報検索プログラム記憶媒体
JPH09319767A (ja) 類義語辞書登録方法
Mueller et al. Hunting moving targets: extension to Bayesian methods in multimedia databases
JP3632477B2 (ja) インターネット情報検索方法及びインターネット情報検索プログラムを格納した記憶媒体
JP3444223B2 (ja) データベース登録装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20030414

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060919

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070129

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110216

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120216

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130216

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130216

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140216

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees