JP2015138351A - 情報検索装置、情報検索方法および情報検索プログラム - Google Patents

情報検索装置、情報検索方法および情報検索プログラム Download PDF

Info

Publication number
JP2015138351A
JP2015138351A JP2014008962A JP2014008962A JP2015138351A JP 2015138351 A JP2015138351 A JP 2015138351A JP 2014008962 A JP2014008962 A JP 2014008962A JP 2014008962 A JP2014008962 A JP 2014008962A JP 2015138351 A JP2015138351 A JP 2015138351A
Authority
JP
Japan
Prior art keywords
search
search key
document
words
evaluation value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014008962A
Other languages
English (en)
Other versions
JP6260294B2 (ja
Inventor
清司 大倉
Seiji Okura
清司 大倉
明 潮田
Akira Shioda
明 潮田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014008962A priority Critical patent/JP6260294B2/ja
Priority to US14/597,006 priority patent/US20150205860A1/en
Publication of JP2015138351A publication Critical patent/JP2015138351A/ja
Application granted granted Critical
Publication of JP6260294B2 publication Critical patent/JP6260294B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】意味構造を用いる検索でも、適合率を保ちつつ検索もれを防ぐ。
【解決手段】情報検索装置が開示される。情報検索装置は、自然文を複数の単語に分解し、複数の単語のうちの2つの単語を含む検索キー候補から、2つの単語のそれぞれに付与される特徴に基づいて検索キーを生成する検索キー生成部と、検索キーを含む文書を特定し、特定された文書の評価値および特定された文書の数を算出する検索部と、特定された文書の数に基づいてノイズと判定された検索キーに対応する文書の評価値を再計算する評価値再計算部と、再計算された評価値に基づいて文書を出力する出力部、を含むことを特徴とする。
【選択図】図4

Description

本発明は、情報検索装置、情報検索方法および情報検索プログラムに関するものである。
近年、情報通信技術(IT)の発達によって、電子化された多くの文書がデータベースに蓄積されている。そして、それらのデータベースの活用の観点から、自然文を入力として、入力文に意味が近い文書を検索する情報検索の技術が注目されている。
たとえば、複数の検索条件に共通する文書を検索し、それらの文書内で検索条件同士の関係性を判定し、関係性があると判定された文書のみを出力する、たとえば表示する技術が知られている(たとえば、特許文献1)。このように、検索文書を絞り込むことによって、検索精度を向上させることができる。
また、ユーザが入力した検索条件を解析し、検索条件に含まれる語の間の関連性と、蓄積されている文書に含まれる語の関連性を取得し、これら二つの関連性の類似度に基づいて、入力された検索条件に合致する文書を選択する技術が知られている(たとえば、特許文献2)。たとえば、コンテンツと語彙との関連性と、語彙と語彙の関連性の両方を考慮することによって、多義な語彙でも、ユーザが日常的に使っている語彙と関連するコンテンツの類似度が高くなり、ユーザの嗜好に近いコンテンツを上位に表示することができる。
また、検索条件に含まれる自然文と、検索対象の文書との類似度を照合して類似度のランキング付き検索結果を出力する技術が知られている(たとえば、特許文献3)。たとえば、検索用のキーワードを抽出し、キーワードの属性に基づいて、検索条件に含まれる文の表す中心的な主題に関する主要タイプと、補足的な情報に関する非主要タイプに分類する。そして、分類結果に基づいて、文書検索処理を行う。このような技術では、分類後のキーワードタイプに応じてキーワードの処理を柔軟に変えることができ、検索条件に含まれる文の種別を考慮した文書検索が可能とすることができる。
また、異なる情報項目群が、相互関連性によりノード配列中のそれぞれのノードにマッピングされるように処理することで、類似の情報項目がノード配列の類似する位置のノードにマッピングされる情報検索システムが知られている(たとえば、特許文献4)。
一般に、情報検索においては、適合率と再現率は相反する関係にある。適合率とは、検索したい文書が検索されているか、という正解率と関わる。また、再現率とは、検索漏れがないかの度合いと関わる。たとえば、検索もれを防ぐ、つまり再現率を上げると適合率が下がる。
また、検索結果に利用者が所望する文書でない文書が多く含まれるため、所望する文書を見落としてしまうような検索もれを防ぐため、所望する文書に関連すると思われるキーワードを多く用いて検索式を作成する技術が知られている。しかしこの検索式に基づいて文書検索をすると、非常に多くの検索ノイズ、ゴミが検索結果に含まれてしまうことがある。そこで、文書検索ために入力された自然言語表現を意味構造に変換するとともに、意味構造から検索式を生成し、検索式を用いて文書を検索し、検索された文書の中から意味構造に変換した結果を含む文書を検索する技術が知られている(たとえば、特許文献5)。
特開2003−085203号公報 特開2012−003603公報 特開2004−139553号公報 特開2004−110834号公報 特開平6−231178号公報
検索条件に含まれる自然文を解析し、単語の意味と単語間の関係に自然文の意味を表す意味構造を用いる情報検索において、意味構造の最小の部分構造である意味最小単位の完全マッチによる検索では、マッチさせたい文書にマッチしない検索漏れが発生するというという問題がある。
よって、一つの側面として、本発明は、意味構造を用いる情報検索でも、適合率を保ちつつ検索もれを防ぐことを目的とする。
情報検索装置が開示される。情報検索装置は、自然文を複数の単語に分解し、複数の単語のうちの2つの単語を含む検索キー候補から、2つの単語のそれぞれに付与される特徴に基づいて検索キーを生成する検索キー生成部と、検索キーを含む文書を特定し、特定された文書の評価値および特定された文書の数を算出する検索部と、特定された文書の数に基づいてノイズと判定された検索キーに対応する文書の評価値を再計算する評価値再計算部と、再計算された評価値に基づいて文書を出力する出力部、を含むことを特徴とする。
意味構造を用いる検索でも、適合率を保ちつつ検索もれを防ぐことができる。
意味構造を用いる情報検索の概要を説明するための図である。 意味構造を用いる情報検索の概要を説明するための図である。 ノイズとなる検索キーの影響の除去とノイズの自動判定を含む実施例の概要を説明するための図である。 情報検索装置の機能ブロックの例を示す図である。 評価値テーブルに格納されるデータの例を示す図である。 組み合わせ品詞リストに格納されるデータの例を示す図である。 意味解析の概要を説明するための図である。 形態素解析の結果の例を示す図である。 検索キー候補生成の概要を説明するための図である。 検索キー候補の例を示す図である。 ノイズとなる検索キーの影響の除去の概要を説明するための図である。 ノイズの自動判定の概要を説明するための図である。 文書の評価値の再計算を説明するための図である。 情報検索装置の構成の例を示す図である。 情報検索方法の処理の流れの例を示す図である。
図1〜2は、意味構造を用いる情報検索の概要を説明するための図である。
たとえば、検索条件に含まれる自然文が「太郎は花子に本をあげた。」であるとする。このとき、原文が「太郎は花子に本をあげた。」であるとも言う。この原文を意味解析し、結果として有向グラフで表される意味構造を得る。
ここで、「意味構造」とは、自然文を解析し、単語の意味を表す意味記号を示すノードと、ノード間の関係を表すアークからなる有向グラフで文の意味を表したものとする。
ノードは、原文中の単語の意味(概念)を表す。図1に示されている例では、「あげる」、「本」、「太郎」、「花子」がノードである。それぞれのノードには、その概念を表す記号(概念記号)が付与されている。「GIVE」、「BOOK」、「TARO」、「HANAKO」は概念記号である。
アークは、ノード間の関係またはノードの役割を表す。アークが2つのノード間にある場合には、そのアークは2つのノード間の関係を表す。例えば、図1に示されている有向グラフ中の「あげる」を表すノードから「本」を表すノードに引かれているアークは、「対象」という属性が付与されている。属性のことを名前と呼んでも良い。たとえば、「あげる」を表すノードから「本」を表すノードに引かれているアークの名前は「対象」である。これは、「あげる」という動作の対象が「本」であることを示す。また、図1に示されている有向グラフでは、終点がないアークが存在する。たとえば、「あげる」を表すノードからは、「過去」、「述語」という属性が付与されたアークが出ている。このように終点がないアークは、ノードが有する役割を示す。たとえば、「あげる」を表すノードから「過去」という属性が付与されているアークが出ているということは、「あげる」という動作が過去のものであることを示す。
また、図1に示されているように、有向グラフを意味最小単位に分解する。
また、「意味最小単位」を、意味構造の最小の部分構造で、2つのノードとそのノードを結ぶアークの3つ組を意味最小単位として定義する。ノードがない場合は“NIL”で表しても良い。
意味最小単位の生成は次のように実行し得る。まず、有向グラフからアークを抽出する。
アークが2つのノードを繋いでいる場合には、意味最小単位として、それぞれのアークに対し、(アークが出る始点ノード,アークが向かう終点ノード,アークに付与されている属性)を出力する。図1に示されている例では、たとえば、(GIVE,HANAKO,目的)、(GIVE,TARO,動作主)、(GIVE,BOOK,対象)などがこの場合に相当する。
また、アークが出る起点ノードがない場合には、意味最小単位として、(NIL,アークが向かう終点ノード、アークに付与されている属性)を出力する。図1に示されている例では、たとえば、(NIL,GIVE,中心)がこの場合に相当する。
また、アークに向かう終点ノードがない場合には、意味最小単位として、(アークが出る始点ノード,NIL,アークに付与されている属性)を出力する。図1に示されている例では、たとえば、(GIVE,NIL,述語)、(GIVE,NIL,過去)がこの場合に相当する。
このように、意味最小単位は、原文中の2つの意味間の関係または、意味の役割を表す。これを検索キーにしてデータベースを検索することにより、自然文中に込められた検索者の意図を反映した検索が可能となる。
図2では、このような処理を検索クエリー(原文、または単に、クエリーとも呼ぶ)が「肝臓がんに関して、治療成績が向上したのは何年で、どういう方法だったか?」である場合に適用した結果が示されている。この場合、正解文書は、「・・・癌の治療成績は・・・」というものであるとする。
クエリーを解析した結果、「向上」、「治療成績」、「年」、「癌」、「肝臓」等をノードとする有向グラフを得ることができる。これらのノードにはそれぞれ、「IMPROVE」、「ABCXYZ」、「YEAR」、「CENCER」、「LIVER」等の概念記号が付与されている。また、「向上」を表すノードから「治療成績」を表すノードには、「OBJ(目的語)」なる属性が付与されたアークが引かれている。「向上」を表すノードから「年」を表すノードには「TIME(時間)」なる属性が付与されたアークが引かれ、「癌」を表すノードから「肝臓」を表すノードには「MODIFY(修飾)」なる属性が付与されたアークが引かれている。このような有向グラフで表される意味構造から、検索キーとなる意味最小単位を求めると、図2に示されているように、(IMPROVE,CANCER,KANSURU)と(IMPROVE,ABCXYZ,OBJ)を得ることができる。
一方、正解文書「・・・癌の治療成績は・・・」中の意味構造は、「癌」を表すノードから「治療成績」を表すノードに「MODIFY(修飾)」なる属性が付与されたアークが引かれているような有向グラフで表される。この有向グラフから検索キーとなる意味最小単位を求めると、図2に示されているように、(CANCER,ABCXYZ,MODIFY)となる。
意味最小単位は、有向グラフの部分構造に基づくので、意味最小単位のマッチングによる検索は、有向グラフのマッチングによる検索に比べて、より柔軟である。検索対象の文書に含まれる意味最小単位の逆文書頻度(IDF)の値を予め用意し、マッチした最小意味単位のIDF値を特定し、そのIDF値を用いて、マッチした意味最小単位についての分を含む文書の評価値を計算することができる。文書の評価値は、ランク付けに用いられ得る。
このように、クエリーと検索対象の文書に含まれる各文について意味解析を行い、それぞれの意味最小単位を得て、意味最小単位を検索キーとして検索することができる。そして、意味最小単位のIDF値を用いて、抽出された文書の評価値を計算し、文書をランク付けすることができる。
また、意味最小単位の完全マッチ(完全一致)を用いる情報検索では、検索条件中の自然文と、データベース中の文書の意味最小単位が完全に一致する(マッチする)場合には、高い正解率(適合率)となり得る。
上記のように、意味最小単位の完全マッチ(完全一致)を用いる情報検索では、マッチさせたい文書にマッチしないという検索もれの問題が生じ得る。情報検索においては、適合率と再現率は相反する関係にある。たとえば、検索もれを防ぐ、つまり再現率を上げると適合率が下がる。たとえば、クエリーを解析した意味構造の部分構造である意味最小単位により検索するのではなく、クエリーの解析結果に含まれる意味記号を2つ組み合わせて検索キー、たとえば、(意味記号1,意味記号2,*)および(意味記号2,意味記号1,*)(ここで、“*”は、2つの意味記号を結ぶアークは何でもよいとする)を生成し、それにマッチするデータベース中の意味構造を検索する。これにより再現率は大幅に上がるが、適合率が下がってしまう。
一般に、意味構造を用いる情報検索においては、適合率と再現率は相反する関係にある。適合率とは、検索したい文書が検索されているか、という正解率を関わる。また、再現率とは、検索漏れがないかの度合いと関わる。たとえば、検索もれを防ぐ、つまり再現率を上げると適合率が下がる。
以下では、意味構造を用いる検索でも、適合率を保ちつつ検索もれを防ぐことができる情報検索装置、情報検索方法および情報検索プログラムについて説明する。
<概要>
図3は、ノイズとなる検索キーの影響の除去とノイズの自動判定を含む実施例の概要を説明するための図である。
意味最小単位の完全マッチ(完全一致)を用いる情報検索では、適合率が下がってしまう原因は、検索キーの中にノイズとなる検索キー(大量の文書にマッチしてしまい、不正解文書の順位を上げてしまう)が大量に発生するためである。適合率を下げないために、以下の2つの処理を使って高精度な検索を実現する:
(M1)検索前に、意味記号の逆文書頻度(IDF)や品詞情報を使い不必要な組み合わせを除去して検索キーを生成する、
(M2)検索後に、ノイズになりやすい組み合わせを自動判定する。
上記(M1)では、ノイズとなる組み合わせとは、それを構成する意味記号が多くの文書にマッチするものである。たとえば、ノイズとなる組み合わせを、大量の文書にマッチする組み合わせと定義しても良い。そこで、組み合わせを構成する意味記号の逆文書頻度(IDF)が低く、(名詞,副詞,*)など特定の品詞の組み合わせを除去すれば、検索前にノイズを効果的に除去できる。
図3に示されている例では、自然文であるクエリー文として、「農業画像の耕作領域を用いて農作物の生育領域を探索する領域探索装置。」が入力される。
このクエリー文を意味解析し、任意の意味記号(単語の概念、意味を表したもの)の組み合わせで検索キーの候補を生成する。図3の検索キー候補10に示されているように、例えば、(農業,領域,*)、(農業,農作物,*)、(画像,領域,*)、(画像,探索,*)、(生育,装置,*)、(生育,領域,*)、(探索,領域,*)などが検索キー候補として生成される。
次に、上記(M1)のように、図3の検索キー候補10から意味記号の逆文書頻度(IDF)や品詞情報を使いノイズとなる検索キー候補が除去される。その結果の例は、ノイズ除去後検索キー候補12に示されている。この例では、(画像,領域,*)、(画像,探索,*)、(探索,領域,*)などがノイズと判定され、検索キー候補が除去される。
また、上記(M2)では、(M1)以外で検索するが、検索キー(組み合わせ)は多くの文書にマッチするほどノイズになりやすい。そこで、組み合わせごとにマッチ文書数を計算し、その降順にソートして上位n%、つまり所定の割合をノイズとなりやすい組み合わせ(ノイズ検索キー)と自動判定する。これにより、不正解文書にマッチしてしまう本来の検索意図とは関係の薄い組み合わせを除去できる。所定の割合(n%)はたとえば、10%、20%、30%のいずれかでも良いし、他の任意の割合でも良い。
図3に示されている例では、上位n%に入っている組み合わせには“○”(丸印)、そうでない組み合わせには“△”(三角印)が付けられた結果14が出力される。
ノイズになりやすいと判定された組み合わせを除去して、または、その組み合わせの検索時の重みを引き下げて各文書の評価値を決定し、ランキングする。
以下の実施形態では、正解文書にマッチするが、それ以外の文書にはあまりマッチしない検索キーを用いた情報検索を行うことができる。正解文書以外に大量の文書にマッチしてしまうと、正解でない文書の評価値も上がり、正解文書のランキング順位が下がってしまうが、そのようなことを避けることができる。以下の実施形態では、2段階でノイズとなる検索キーを判断している。検索前に、IDF値や、検索キーとして有効でない可能性が高い品詞や属性を持つ組み合わせを削除する。このとき、組み合わせは2つの品詞や属性の組み合わせであって良い。また、検索の結果、多数の文書にマッチする組み合わせの検索時の重みを引き下げて各文書の評価値を決定する。これにより、ノイズとなる検索キーによる副作用(正解でない文書が上位にきてしまう)を防ぐことができる。
<情報検索装置>
図4は、実施例の情報検索装置100の機能ブロックの例を示す図である。
情報検索装置100は、入力部102、解析部104、検索キー候補生成部106、ノイズ除去部108、検索部110、評価値計算部112、検索過程記憶部114、ノイズ判定部116、評価値再計算部118、ランキング部120、および出力部122を含む。情報検索装置100は、さらに、ノイズ除去部108に繋がる評価値テーブルデータベース(DB)124と組み合わせ品詞リストデータベース(DB)126、検索部110に繋がる検索用インデックスデータベース(DB)128を含む。情報検索装置100は、さらに、ノイズ除去部108に繋がる評価値テーブルデータベース(DB)124と組み合わせ品詞リストデータベース(DB)126、検索部110に繋がる検索用インデックスデータベース(DB)128を含む。
入力部102は、クエリーを入力し得る。
解析部104は、クエリーを解析して単語を意味記号に変換し、品詞情報や単語属性を付与し得る。
検索キー候補生成部106は、2つの意味記号を組み合わせて検索キー候補を生成し得る。
ノイズ除去部108は、各意味記号のIDF値を格納する評価値テーブルデータベース(DB)124およびノイズ組み合わせ判定用品詞リストを格納する組み合わせ品詞リストデータベース(DB)126を参照し、ノイズの組み合わせを判定し、生成された検索キー候補から除去し、検索キーを得る。
検索部110は、ノイズ除去部108により出力された各検索キーがデータベース中の意味構造にマッチするかを判定し得る。
評価値計算部112は、それぞれの文書につき、マッチした検索キーの重みに基づき文書評価値を算出し得る。
検索過程記憶部114は、検索キーとその重み、検索キーにマッチした文書を記憶し得る。
ノイズ判定部116は、検索過程記憶部の検索処理過程からノイズとなる検索キー(ノイズ検索キー)を自動判定し得る。
評価値再計算部118は、ノイズ判定部116によりノイズと判定された検索キー(ノイズ検索キー)にマッチした文書の文書評価値を検索過程記憶部に記憶された検索過程から再計算し得る。
ランキング部120は、評価値再計算部118により算出された文書評価値の順にソートし得る。
出力部122は、ランキング部120で得られた結果を出力し得る。
図5は、評価値テーブルDB124中の評価値テーブル130に格納されるデータの例を示す図である。評価値テーブル130には、各意味記号のIDF値が格納されている。たとえば、図5に示されている例では、「BOOK」なる意味記号のIDF値は、「4.83」であり、「GIVE」なる意味記号のIDF値は、「2.12」である。
図6は、組み合わせ品詞リストデータベース(DB)126中の組み合わせ品詞リスト132に格納されるデータの例を示す図である。組み合わせ品詞リストデータベース(DB)126に格納されている組み合わせ品詞リスト132は、上記(M1)の検索前に、意味記号の逆文書頻度(IDF)や品詞情報を使い不必要な組み合わせを除去する段階で参照されるものである。図6には、(名詞,副詞,*)、(動詞,サ変動詞,*)の組み合わせが示されているが、上述のように、他の組み合わせも含み得る。
入力部102は、自然文(自然言語文)の検索クエリーを受け付ける。検索クエリーは、情報検索装置100のユーザによって入力されても良い。
図7は、意味解析の概要を説明するための図である。
図7に示されている例では、入力部102は、検索クエリー(原文)として、自然文「太郎は花子に本をあげた」が入力される。
解析部104は、入力部102で受け付けた検索クエリーの意味解析を実施する。
解析部104は、形態素解析、意味解析を行う。形態素解析は、入力文を単語に分割する。意味解析は、形態素解析結果および文法規則を使い、各単語の意味関係を解析する技術。既存技術。右の意味構造を出力する。意味構造のノードは形態素解析結果の意味記号に相当する。
ところで、「〜を使って」のように、形態素解析では「使う」(意味記号:USE)と動詞として解析されても意味構造ではノードではなく、道具を表すアークとして解析されることもあり、必ずしも形態素解析結果の意味記号がそのまま意味解析で使われるわけでもない場合がある。そのため、本実施形態では、形態素解析と意味解析を両方行うものとしているが、形態素解析のみ行って意味記号を抽出してもよい。
図8は、形態素解析の結果の例136を示す図である。
図8では、形態素解析によって、自然文「太郎は花子に本をあげた」は、「太郎」、「は」、「花子」、「に」、「本」、「を」、「あげた」等の形態素に分解される。そして、図8に示されている例では、意味解析によって、形態素に対し、品詞、意味記号、属性が付与される。形態素に対して付与される、品詞、意味記号、属性を、単に特徴と呼ぶことがある。たとえば、形態素「太郎」に対して、品詞として「名詞」、意味記号として「TARO」、属性として「生物」が付与されている。また、形態素「は」に対して、品詞として「助詞」が付与され、意味記号と属性は空集合である。他の形態素、「花子」、「に」、「本」、「を」、「あげた」のそれぞれに対しても、品詞、意味記号、属性が付与される。属性の例には、他には、抽象物、行為、などが含まれ得る。
解析部104は、図7に示されているような有向グラフを得る。また、解析部104は、図7に示されているような意味記号リスト134を出力する。
検索キー候補生成部106は、意味記号リストを参照しながら、意味記号の全ての組み合わせを生成する。
図9は、検索キー生成の概要を説明するための図である。
原文として「太郎は花子に本をあげた」が入力部102に入力され、解析部104で、意味記号として「TARO」、「HANAKO」、「BOOK」、「GIVE」の4つの意味記号を含む意味記号リスト138が生成されている場合、検索キー候補生成部106は、(TARO,HANAKO,*)、(TARO,BOOK,*)など、4つの意味記号の全ての組み合わせを検索キー候補140として生成する。
図10は、検索キーの例を示す図である。この例では、「農業画像の耕作領域を用いて農作物の生育領域を探索する領域探索装置。」が入力部102に入力された場合に、検索キー候補生成部106で生成される検索キー候補142を示している。
たとえば、解析部104で、「農業画像の耕作領域を用いて農作物の生育領域を探索する領域探索装置。」を形態素解析および意味解析を行うと、「AGRICULTURE」、「IMAGE」、「AREA」、「FARM PRODUCTS」、「GROW」、「SEARCH」、「DEVICE」などの意味記号が生成される。そして検索キー候補生成部106は、これらの全ての組み合わせを検索キー候補として生成する。検索キー候補は、図10の表142に示されているように、たとえば、(AGRICULTURE,AREA,*)、(AGRICULTURE,FARM PRODUCTS,*)、(IMAGE,AREA,*)、(IMAGE,SEARCH,*)、(GROW,DEVICE,*)、(GROW,AREA,*)、(SEARCH,AREA,*)などを含み得る。
ノイズ除去部108は、検索前に、検索キー候補生成部106で生成された検索キー候補から、意味記号のIDF値や品詞情報を使い不必要な組み合わせを除去し、検索キーを生成する。
図11は、ノイズとなる検索キーの影響の除去の概要を説明するための図である。
図11に示されているように、ノイズ除去部108は、検索キー候補142の組み合わせに対して、評価値テーブルDB124を参照し、解析結果の品詞、属性と、評価値テーブル130からIDF値の情報を抽出し、表144を作成する。図11に示されている表144の例では、組み合わせ(NODE1,NODE2,*)に対して、NODE1の品詞、NODE1の属性、NODE1のIDF値、NODE2の品詞、NODE2の属性、NODE2のIDF値が与えられる。たとえば、検索キー候補の一つである(AGRICULTURE,AREA,*)に対しては、NODE1の品詞は「名詞」、NODE1の属性は「抽象物」、NODE1のIDF値は「8.17」、NODE2の品詞は「名詞」、NODE2の属性は「抽象物」、NODE2のIDF値は「1.61」であり得る。
ノイズ除去部108は、それぞれの組み合わせにつき、各意味記号の品詞、属性、IDF値の一部または全てを用いて、ノイズかどうかを判定し、ノイズの場合は検索キー候補から除去する。そして、ノイズ除去部108は、検索キー候補からノイズが除去されたものを検索キー146として生成する。
たとえば、意味記号の品詞を用いて、検索キー候補からノイズと判定される組み合わせを除去しても良い。除去される品詞の組み合わせとしては、検索キー候補を、(ノード1,ノード2,*)としたとき、
・ノード1またはノード2の品詞が助動詞(「〜できる」、など)
・ノード1またはノード2の品詞が副詞
・ノード1とノード2の品詞が両方とも助動詞
・ノード1とノード2の品詞が両方とも副詞
・ノード1とノード2の品詞が両方とも形容詞
・一方のノードの品詞が副詞で、他方のノードの品詞が名詞
・一方のノードの品詞が副詞で、他方のノードの品詞が形容詞
・一方のノードの品詞が形容詞で、他方のノードの品詞が動詞
・一方のノードの品詞が形容詞で、他方のノードの品詞がサ変名詞
の場合が含まれ得る。
また、IDF値を用いて、検索キー候補からノイズと判定される組み合わせを除去しても良い。
・ノード1またはノード2のIDF値が所定の値(たとえば、1.2など)以下
・ノード1、ノード2のIDF値がいずれも所定の値(たとえば、2.5など)以下
・ノード1またはノード2の属性が行為で他方の属性が行為
さらに、品詞とIDF値の両方の組み合わせで検索キー候補からノイズと判定される組み合わせを除去しても良い。
・ノード1の品詞が名詞でIDF値が第1の値(たとえば、2.5など)以下、かつノード2の品詞が動詞またはサ変名詞でIDF値が第2の値(たとえば、4)以下
このようにして生成された検索キーの例が図11に示されている。図11では、(IMAGE,AREA,*)、(IMAGE,SEARCH,*)などがノイズと判定され削除されている。(IMAGE,AREA,*)は、ノード1、ノード2のIDF値がいずれも所定の値(たとえば、2.5など)以下の場合に相当し、(IMAGE,SEARCH,*)は、「ノード1の品詞が名詞でIDF値が第1の値(たとえば、2.5など)以下、かつノード2の品詞が動詞またはサ変名詞でIDF値が第2の値(たとえば、4)以下」の場合に相当する。
そして、ノイズ除去部108は、検索キーとしては、(AGRICULTURE,AREA,*)、(AGRICULTURE,FARM PRODUCTS,*)、(GROW,DEVICE,*)、(GROW,AREA,*)等を生成する。
検索部110は、ノイズ除去部108により出力された各検索キーが検索用インデックスデータベース(DB)128中に格納されている意味構造にマッチするかを判定する。
検索部110は、検索を実行し、それぞれの検索キーに対して何文書マッチしたかも算出する。その結果は、例えば、図12の表148に示されている。表148では、各検索キーに対して、マッチした文書数(表中の「マッチ文書数」)が示されている。
評価値計算部112は、それぞれの文書につき、マッチした検索キーの重みに基づき文書評価値を算出し得る。各組み合わせに対して、その重みを計算し、その組み合わせにマッチした文書には組み合わせの重みを評価値として足していく。検索キーの各組み合わせの重みは、それぞれの意味記号のIDF値や意味記号のクエリー中の出現頻度、品詞情報などをもとに計算する。
たとえば組み合わせ(NODE1,NODE2,*)の重みを、NODE1のIDF値とNODE1の出現頻度の積と、NODE2のIDF値とNODE2の出現頻度の積の和、すなわち、「NODE1のIDF値×NODE1の出現頻度+NODE2のIDF値×NODE2の出現頻度」で定義しても良い。
検索過程記憶部114は、検索キーとなる組み合わせ、組み合わせの重み、組み合わせにマッチした文書を特定する情報(たとえば、文書ID)を全て記憶する。これらの情報は、ノイズ判定部116、評価値再計算部118で使用され得る。
ノイズ判定部116では、各検索キーに対する文書マッチ数で降順にソートし、上位n%に相当する数の検索キーを上位から数えてノイズと判定する。ノイズと判定された文書をノイズ文書と呼ぶことがある。
図12は、ノイズの自動判定の概要を説明するための図である。
図12では、表150中で背景が黒い枠で示されているように、組み合わせ数が32で上位10%に相当する数、すなわち3つの検索キーを上位から数えてノイズ(ノイズ検索キー)と判定している。
評価値再計算部118は、ノイズと判定された組み合わせにマッチする文書の評価値を再計算する。マッチした文書の評価値から、それぞれの組み合わせの重みから計算した値を差し引く。ここで、「組み合わせの重みから計算した値」は、組み合わせの重みそのものでもよいし、ノイズと自動判定されたとき、上位h%以上の順位の場合は組み合わせの重みそのものとするが、上位h%以下の場合は組み合わせの重み×0.5、などとしてもよい。
図13は、文書の評価値の再計算を説明するための図である。
図13中の表152には、(GROW,DEVICE,*)にマッチした文書の評価値とその再計算した評価値が示されている。表152では、(GROW,DEVICE,*)の重みは、795であり、差し引く値は(GROW,DEVICE,*)の重みそのものである場合が示されている。これを、ノイズと判定された全ての組み合わせに対して行い、最終的な文書の評価値を算出する。
ランキング部120は、評価値再計算部118により算出された文書評価値(たとえば、図13の表152中の「再計算した評価値」の欄に記入されている値)の順にソートする。
出力部122は、ランキング部120で得られた結果を出力し得る。たとえば、200位以内に正解が入る率が上昇する効果が得られている。
検索キー候補生成部106とノイズ除去部108は組み合わされて、自然文を複数の単語に分解し、複数の単語のうちの2つの単語を含む検索キー候補から、2つの単語のそれぞれに付与される特徴に基づいて検索キーを生成する検索キー生成部を形成しても良い。
検索キー生成部は、自然文を複数の単語に分解し、前記複数の単語のうちの2つの単語を含む検索キー候補から、前記2つの単語のそれぞれに付与される特徴に基づいて検索キーを生成する。
検索部110は、検索キーを含む文書を特定し、特定された文書の評価値および特定された文書の数を算出する。検索部110は、検索キーに含まれる2つの単語の特徴または検索キーに含まれる単語の自然文中の出現頻度のうち少なくとも一つを用いて算出される単語に対応する重みを用いて、検索キーに対応する文書の評価値を算出しても良い。
評価値再計算部118は、特定された文書の数に基づいてノイズと判定された検索キーに対応する文書の評価値を再計算する。
出力部122は、再計算された評価値に基づいて前記文書を出力する。
このように、情報検索装置100では、クエリー内の形態素に相当する意味記号の組み合わせを検索キーとするが、その組み合わせの中からノイズを自動判定することにより、高適合率を保ちつつ従来技術より再現率が高い検索を実現することができる。また、情報検索装置100では、意味構造を用いる検索でも、適合率を保ちつつ検索もれを防ぐことができる。
図14は実施形態の情報検索装置100の構成の例を示す図である。
このコンピュータ200は、Central Processing Unit(CPU)202、Read Only Memory(ROM)204、及びRandom Access Memory(RAM)206を備えている。コンピュータ500は、さらに、ハードディスク装置208、入力装置210、表示装置212、インターフェース装置214、及び記録媒体駆動装置216を備えている。なお、これらの構成要素はバスライン220を介して接続されており、CPU202の管理の下で各種のデータを相互に授受することができる。
Central Processing Unit(CPU)202は、このコンピュータ200全体の動作を制御する演算処理装置であり、コンピュータ200の制御処理部として機能する。
Read Only Memory(ROM)204は、所定の基本制御プログラムが予め記録されている読み出し専用半導体メモリである。CPU202は、この基本制御プログラムをコンピュータ100の起動時に読み出して実行することにより、このコンピュータ200の各構成要素の動作制御が可能になる。
Random Access Memory(RAM)206は、CPU202が各種の制御プログラムを実行する際に、必要に応じて作業用記憶領域として使用する、随時書き込み読み出し可能な半導体メモリである。
ハードディスク装置208は、CPU202によって実行される各種の制御プログラムや各種のデータを記憶しておく記憶装置である。CPU202は、ハードディスク装置208に記憶されている所定の制御プログラムを読み出して実行することにより、後述する各種の制御処理を行えるようになる。
入力装置210は、例えばマウス装置やキーボード装置であり、情報処理装置のユーザにより操作されると、その操作内容に対応付けられている各種情報の入力を取得し、取得した入力情報をCPU202に送付する。
表示装置212は例えば液晶ディスプレイであり、CPU202から送付される表示データに応じて各種のテキストや画像を表示する。
インターフェース装置214は、このコンピュータ200に接続される各種機器との間での各種情報の授受の管理を行う。
記録媒体駆動装置216は、可搬型記録媒体218に記録されている各種の制御プログラムやデータの読み出しを行う装置である。CPU202は、可搬型記録媒体218に記録されている所定の制御プログラムを、記録媒体駆動装置216を介して読み出して実行することによって、後述する各種の制御処理を行うようにすることもできる。なお、可搬型記録媒体218としては、例えばUSB(Universal Serial Bus)規格のコネクタが備えられているフラッシュメモリ、CD−ROM(Compact Disc Read Only Memory)、DVD−ROM(Digital Versatile Disc Read Only Memory)などがある。
このようなコンピュータ200を用いて情報検索装置100を構成するには、例えば、上述の各処理部における処理をCPU202に行わせるための制御プログラムを作成する。作成された制御プログラムはハードディスク装置208若しくは可搬型記録媒体218に予め格納しておく。そして、CPU202に所定の指示を与えてこの制御プログラムを読み出させて実行させる。こうすることで、情報検索装置100が備えている機能がCPU202により提供される。
<情報検索処理>
図15を参照して、情報検索処理について説明する。
また、情報検索装置100が図14に示されているような汎用コンピュータ200である場合には、下記の説明は、そのような処理を行う制御プログラムを定義する。すなわち、以下では、下記に説明する処理を汎用コンピュータに行わせる制御プログラムの説明でもある。
処理を開始すると、S100で入力部102は、クエリーを受ける。たとえば、図10に関連して説明したように、たとえば、クエリーは「農業画像の耕作領域を用いて農作物の生育領域を探索する領域探索装置。」であっても良い。
次のS102で解析部104は、クエリーを解析し、意味記号リストを作成する。クエリーが「農業画像の耕作領域を用いて農作物の生育領域を探索する領域探索装置。」である場合、意味記号リストは、「AGRICULTURE」、「IMAGE」、「AREA」、「FARM PRODUCTS」、「GROW」、「SEARCH」、「DEVICE」などを含み得る。
次にS104で検索キー候補生成部106は、2つの意味記号からなる組み合わせを検索キー候補として生成する。クエリーが「農業画像の耕作領域を用いて農作物の生育領域を探索する領域探索装置。」である場合、検索キー候補は図10の表142に示されているように、たとえば、(AGRICULTURE,AREA,*)、(AGRICULTURE,FARM PRODUCTS,*)、(IMAGE,AREA,*)、(IMAGE,SEARCH,*)、(GROW,DEVICE,*)、(GROW,AREA,*)、(SEARCH,AREA,*)などを含み得る。
次のS106でノイズ除去部108は、変数iをリセットする。たとえば、i=0としても良い。変数iは、S104で生成された組み合わせ(検索キー候補)を指定する変数である。
次のS108でノイズ除去部108は、変数iを1増やす。
次のS110でノイズ除去部108は、現在の変数iに対応する組み合わせについて、意味記号のIDF値は所定の数nより小さいか、あるいは特定の品詞の組み合わせかどうかを判定する。条件は、現在の変数iに対応する組み合わせにつき、各意味記号の品詞、属性、IDF値の一部または全てに関するものであっても良い。例としては、下記のような条件を含み得る。
・ノード1またはノード2の品詞が助動詞(「〜できる」、など)
・ノード1またはノード2の品詞が副詞
・ノード1とノード2の品詞が両方とも助動詞
・ノード1とノード2の品詞が両方とも副詞
・ノード1とノード2の品詞が両方とも形容詞
・一方のノードの品詞が副詞で、他方のノードの品詞が名詞
・一方のノードの品詞が副詞で、他方のノードの品詞が形容詞
・一方のノードの品詞が形容詞で、他方のノードの品詞が動詞
・一方のノードの品詞が形容詞で、他方のノードの品詞がサ変名詞
・ノード1またはノード2のIDF値が所定の値(たとえば、1.2など)以下
・ノード1、ノード2のIDF値がいずれも所定の値(たとえば、2.5など)以下
・ノード1またはノード2の属性が行為で他方の属性が行為
・ノード1の品詞が名詞でIDF値が第1の値(たとえば、2.5など)以下、かつノード2の品詞が動詞またはサ変名詞でIDF値が第2の値(たとえば、4)以下
S110での判定の結果が“YES”、すなわち現在の変数iに対応する組み合わせについて、意味記号のIDF値は所定の数nより小さいか、あるいは特定の品詞の組み合わせである場合、処理はS112に進む。S110での判定の結果が“NO”、すなわち現在の変数iに対応する組み合わせは、意味記号のIDF値は所定の数n以上であり、且つ特定の品詞の組み合わせではない場合、処理はS114に進む。
S112でノイズ除去部108は、S110で選択された組み合わせを検索キー候補から除外する。たとえば、図11に示されているように、ノイズ除去部108は、検索キー候補からノイズが除去されたものを検索キー146として生成する。
S114でノイズ除去部108は、現在の変数iが組み合わせの数、すなわち検索キー候補の数以上であるかどうかを判定する。もし、この判定の結果が“YES”、すなわち現在の変数iが組み合わせの数以上である場合、処理はS116に進む。また、この判定の結果が“NO”、すなわち現在の変数iが組み合わせの数より小さい場合、処理はS108に戻る。
S116でノイズ除去部108は、検索キーとなる組み合わせを生成する。本ステップの処理が終わると、処理はS118に進む。
S118で検索部110は、検索を実行し、それぞれの検索キーに対して何文書マッチしたかも算出する。その結果は、例えば、図12の表148に示されている。また、S118で評価値計算部112は、それぞれの文書につき、マッチした検索キーの重みに基づき文書評価値を算出し得る。各組み合わせに対して、その重みを計算し、その組み合わせにマッチした文書には組み合わせの重みを評価値として足していく。検索キーの各組み合わせの重みは、それぞれの意味記号のIDF値や意味記号のクエリー中の出現頻度、品詞情報などをもとに計算する。たとえば組み合わせ(NODE1,NODE2,*)の重みを、NODE1のIDF値とNODE1の出現頻度の積と、NODE2のIDF値とNODE2の出現頻度の積の和、すなわち、「NODE1のIDF値×NODE1の出現頻度+NODE2のIDF値×NODE2の出現頻度」で定義しても良い。
また、S118で検索過程記憶部114は、検索キーとなる組み合わせ、組み合わせの重み、組み合わせにマッチした文書を特定する情報(たとえば、文書ID)を全て記憶する。これらの情報は、ノイズ判定部116、評価値再計算部118で使用され得る。本ステップの処理が終わると、処理はS120に進む。
S120でノイズ判定部116は、各検索キーに対する文書マッチ数で降順にソートし、上位n%に相当する数の検索キーを上位から数えてノイズと判定する。たとえば、図12では、表150中で背景が黒い枠で示されているように、組み合わせ数が32で上位10%に相当する数、すなわち3つの検索キーを上位から数えてノイズと判定している。本ステップの処理が終わると、処理はS122に進む。
S122で評価値再計算部118は、ノイズと判定された組み合わせにマッチする文書の評価値を再計算する。図13中の表152には、(GROW,DEVICE,*)にマッチした文書の評価値とその再計算した評価値が示されている。本ステップの処理が終わると、処理はS124に進む。
S124でランキング部120は、評価値再計算部118により算出された文書評価値(たとえば、図13の表152中の「再計算した評価値」の欄に記入されている値)の順にソートする。また、S124で出力部122は、ランキング部120で得られた結果を出力する。
このように、クエリー内の形態素に相当する意味記号の組み合わせを検索キーとするが、その組み合わせの中からノイズを自動判定することにより、高適合率を保ちつつ従来技術より再現率が高い検索を実現することができる。また、意味構造を用いる検索でも、適合率を保ちつつ検索もれを防ぐことができる。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
自然文を複数の単語に分解し、前記複数の単語のうちの2つの単語を含む検索キー候補から、前記2つの単語のそれぞれに付与される特徴に基づいて検索キーを生成する検索キー生成部と、
前記検索キーを含む文書を特定し、前記特定された文書の評価値および前記特定された文書の数を算出する検索部と、
前記特定された文書の前記数に基づいてノイズと判定された検索キーに対応する前記文書の評価値を再計算する評価値再計算部と、
再計算された前記評価値に基づいて前記文書を出力する出力部と、
を含む情報検索装置。
(付記2)
前記検索部は、前記検索キーに含まれる前記2つの単語の特徴または前記検索キーに含まれる前記単語の前記自然文中の出現頻度のうち少なくとも一つを用いて算出される前記単語に対応する重みを用いて、前記検索キーに対応する前記文書の前記評価値を算出する、付記1に記載の情報検索装置。
(付記3)
前記単語の前記特徴は、品詞、属性、逆文書頻度を含む、付記1または2に記載の情報検索装置。
(付記4)
検索キー候補生成部は、前記2つの単語のそれぞれに対し、前記品詞、前記属性、および前記逆文書頻度の大きさに関する条件に基づいて、前記検索キー候補から、前記検索キーを生成する、付記3に記載の情報検索装置。
(付記5)
前記検索キー候補は、前記2つの単語に関して意味解析を実行して得られる記号である意味記号から形成される、付記1乃至4のいずれか一項に記載の情報検索装置。
(付記6)
コンピュータにより実行される情報検索方法であって、
自然文を複数の単語に分解し、前記複数の単語のうちの2つの単語を含む検索キー候補から、前記2つの単語のそれぞれに付与される特徴に基づいて検索キーを生成することと、
前記検索キーを含む文書を特定し、前記特定された文書の評価値および前記特定された文書の数を算出することと、
前記特定された文書の前記数に基づいてノイズと判定された検索キーに対応する前記文書の評価値を再計算することと、
再計算された前記評価値に基づいて前記文書を出力することと、
を含む情報検索方法。
(付記7)
前記特定された文書の評価値を算出すること際に、前記検索キーに含まれる前記2つの単語の特徴または前記検索キーに含まれる前記単語の前記自然文中の出現頻度のうち少なくとも一つを用いて算出される前記単語に対応する重みを用いて、前記検索キーに対応する前記文書の前記評価値を算出する、付記6に記載の情報検索方法。
(付記8)
前記単語の前記特徴は、品詞、属性、逆文書頻度を含む、付記6または7に記載の情報検索方法。
(付記9)
検索キーを生成することは、前記2つの単語のそれぞれに対し、前記品詞、前記属性、および前記逆文書頻度の大きさに関する条件に基づいて、前記検索キー候補から、前記検索キーを生成する、付記8に記載の情報検索方法。
(付記10)
前記検索キー候補は、前記2つの単語に関して意味解析を実行して得られる記号である意味記号から形成される、付記6乃至9のいずれか一項に記載の情報検索方法。
(付記11)
自然文を複数の単語に分解し、前記複数の単語のうちの2つの単語を含む検索キー候補から、前記2つの単語のそれぞれに付与される特徴に基づいて検索キーを生成し、
前記検索キーを含む文書を特定し、前記特定された文書の評価値および前記特定された文書の数を算出し、
前記特定された文書の前記数に基づいてノイズと判定された検索キーに対応する前記文書の評価値を再計算しと、
再計算された前記評価値に基づいて前記文書を出力する
処理をコンピュータに実行させることを特徴とする情報検索プログラム。
(付記12)
前記特定された文書の評価値を算出する際に、前記検索キーに含まれる前記2つの単語の特徴または前記検索キーに含まれる前記単語の前記自然文中の出現頻度のうち少なくとも一つを用いて算出される前記単語に対応する重みを用いて、前記検索キーに対応する前記文書の前記評価値を算出する
処理をコンピュータに実行させることを特徴とする、付記11に記載の情報検索プログラム。
(付記13)
前記単語の前記特徴は、品詞、属性、逆文書頻度を含む、付記11または12に記載の情報検索プログラム。
(付記14)
検索キーを生成することは、前記2つの単語のそれぞれに対し、前記品詞、前記属性、および前記逆文書頻度の大きさに関する条件に基づいて、前記検索キー候補から、前記検索キーを生成する、付記13に記載の情報検索プログラム。
(付記15)
前記検索キー候補は、前記2つの単語に関して意味解析を実行して得られる記号である意味記号から形成される、付記11乃至14のいずれか一項に記載の情報検索プログラム。
100 情報検索装置
102 入力部
104 解析部
106 検索キー候補生成部
108 ノイズ除去部
110 検索部
112 評価値計算部
114 検索過程記憶部
116 ノイズ判定部
118 評価値再計算部
120 ランキング部
122 出力部
124 評価値テーブルデータベース(DB)
126 組み合わせ品詞リストデータベース(DB)
128 検索用インデックスデータベース(DB)

Claims (7)

  1. 自然文を複数の単語に分解し、前記複数の単語のうちの2つの単語を含む検索キー候補から、前記2つの単語のそれぞれに付与される特徴に基づいて検索キーを生成する検索キー生成部と、
    前記検索キーを含む文書を特定し、前記特定された文書の評価値および前記特定された文書の数を算出する検索部と、
    前記特定された文書の前記数に基づいてノイズと判定された検索キーに対応する前記文書の評価値を再計算する評価値再計算部と、
    再計算された前記評価値に基づいて前記文書を出力する出力部と、
    を含む情報検索装置。
  2. 前記検索部は、前記検索キーに含まれる前記2つの単語の特徴または前記検索キーに含まれる前記単語の前記自然文中の出現頻度のうち少なくとも一つを用いて算出される前記単語に対応する重みを用いて、前記検索キーに対応する前記文書の前記評価値を算出する、付記1に記載の情報検索装置。
  3. 前記単語の前記特徴は、品詞、属性、逆文書頻度を含む、請求項1または2に記載の情報検索装置。
  4. 検索キー候補生成部は、前記2つの単語のそれぞれに対し、前記品詞、前記属性、および前記逆文書頻度の大きさに関する条件に基づいて、前記検索キー候補から、前記検索キーを生成する、請求項3に記載の情報検索装置。
  5. 前記検索キー候補は、前記2つの単語に関して意味解析を実行して得られる記号である意味記号から形成される、請求項1乃至4のいずれか一項に記載の情報検索装置。
  6. コンピュータにより実行される情報検索方法であって、
    自然文を複数の単語に分解し、前記複数の単語のうちの2つの単語を含む検索キー候補から、前記2つの単語のそれぞれに付与される特徴に基づいて検索キーを生成することと、
    前記検索キーを含む文書を特定し、前記特定された文書の評価値および前記特定された文書の数を算出することと、
    前記特定された文書の前記数に基づいてノイズと判定された検索キーに対応する前記文書の評価値を再計算することと、
    再計算された前記評価値に基づいて前記文書を出力することと、
    を含む情報検索方法。
  7. 自然文を複数の単語に分解し、前記複数の単語のうちの2つの単語を含む検索キー候補から、前記2つの単語のそれぞれに付与される特徴に基づいて検索キーを生成し、
    前記検索キーを含む文書を特定し、前記特定された文書の評価値および前記特定された文書の数を算出し、
    前記特定された文書の前記数に基づいてノイズと判定された検索キーに対応する前記文書の評価値を再計算しと、
    再計算された前記評価値に基づいて前記文書を出力する
    処理をコンピュータに実行させることを特徴とする情報検索プログラム。
JP2014008962A 2014-01-21 2014-01-21 情報検索装置、情報検索方法および情報検索プログラム Expired - Fee Related JP6260294B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014008962A JP6260294B2 (ja) 2014-01-21 2014-01-21 情報検索装置、情報検索方法および情報検索プログラム
US14/597,006 US20150205860A1 (en) 2014-01-21 2015-01-14 Information retrieval device, information retrieval method, and information retrieval program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014008962A JP6260294B2 (ja) 2014-01-21 2014-01-21 情報検索装置、情報検索方法および情報検索プログラム

Publications (2)

Publication Number Publication Date
JP2015138351A true JP2015138351A (ja) 2015-07-30
JP6260294B2 JP6260294B2 (ja) 2018-01-17

Family

ID=53545001

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014008962A Expired - Fee Related JP6260294B2 (ja) 2014-01-21 2014-01-21 情報検索装置、情報検索方法および情報検索プログラム

Country Status (2)

Country Link
US (1) US20150205860A1 (ja)
JP (1) JP6260294B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467271B2 (en) 2016-03-09 2019-11-05 Fujitsu Limited Search apparatus and search method
WO2023189440A1 (ja) * 2022-03-31 2023-10-05 株式会社LegalOn Technologies 情報処理装置及び情報処理方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2618374C1 (ru) * 2015-11-05 2017-05-03 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Выявление словосочетаний в текстах на естественном языке
US11222058B2 (en) * 2017-12-13 2022-01-11 International Business Machines Corporation Familiarity-based text classification framework selection
JP7013334B2 (ja) * 2018-06-25 2022-01-31 株式会社東芝 表示システム、プログラム、及び記憶媒体
JP7066844B2 (ja) * 2018-06-28 2022-05-13 株式会社Nttドコモ エンティティ特定システム
CN111159359B (zh) * 2019-12-31 2023-04-21 达闼机器人股份有限公司 文档检索方法、装置及计算机可读存储介质
CN111753048B (zh) * 2020-05-21 2024-02-02 高新兴科技集团股份有限公司 文档检索方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001513243A (ja) * 1997-03-07 2001-08-28 マイクロソフト コーポレイション テキストの意味論的表現を利用した情報の検索
US20020111941A1 (en) * 2000-12-19 2002-08-15 Xerox Corporation Apparatus and method for information retrieval
JP2005050239A (ja) * 2003-07-31 2005-02-24 Toshiba Corp 文書検索装置、文書検索方法および文書検索プログラム
JP2013186766A (ja) * 2012-03-09 2013-09-19 Fujitsu Ltd 情報検索方法、プログラムおよび情報検索装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69432575T2 (de) * 1993-01-28 2004-03-18 Kabushiki Kaisha Toshiba, Kawasaki Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung
JP2004139553A (ja) * 2002-08-19 2004-05-13 Matsushita Electric Ind Co Ltd 文書検索システムおよび質問応答システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001513243A (ja) * 1997-03-07 2001-08-28 マイクロソフト コーポレイション テキストの意味論的表現を利用した情報の検索
US20020111941A1 (en) * 2000-12-19 2002-08-15 Xerox Corporation Apparatus and method for information retrieval
JP2005050239A (ja) * 2003-07-31 2005-02-24 Toshiba Corp 文書検索装置、文書検索方法および文書検索プログラム
JP2013186766A (ja) * 2012-03-09 2013-09-19 Fujitsu Ltd 情報検索方法、プログラムおよび情報検索装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467271B2 (en) 2016-03-09 2019-11-05 Fujitsu Limited Search apparatus and search method
WO2023189440A1 (ja) * 2022-03-31 2023-10-05 株式会社LegalOn Technologies 情報処理装置及び情報処理方法

Also Published As

Publication number Publication date
US20150205860A1 (en) 2015-07-23
JP6260294B2 (ja) 2018-01-17

Similar Documents

Publication Publication Date Title
JP6260294B2 (ja) 情報検索装置、情報検索方法および情報検索プログラム
US11222167B2 (en) Generating structured text summaries of digital documents using interactive collaboration
US10296579B2 (en) Generation apparatus, generation method, and program
US20150269163A1 (en) Providing search recommendation
EP3016002A1 (en) Non-factoid question-and-answer system and method
JP5621773B2 (ja) 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム
KR20170046611A (ko) 질문문 생성 장치 및 컴퓨터 프로그램
US10678820B2 (en) System and method for computerized semantic indexing and searching
US20120179709A1 (en) Apparatus, method and program product for searching document
US11436278B2 (en) Database creation apparatus and search system
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
JP5834795B2 (ja) 情報処理装置及びプログラム
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005149014A (ja) 文書関連語彙獲得方法及び装置及びプログラム
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP5106431B2 (ja) 機械翻訳装置、プログラム及び方法
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP4314271B2 (ja) 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体
JP4934115B2 (ja) キーワード抽出装置、方法及びプログラム
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP2019211884A (ja) 情報検索システム
JP4074687B2 (ja) 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP7428035B2 (ja) データ検索装置、データ検索方法およびプログラム
JP7305077B2 (ja) 情報処理装置、要約文出力方法、及び要約文出力プログラム
JP7168826B2 (ja) データ統合支援装置、データ統合支援方法、及びデータ統合支援プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171127

R150 Certificate of patent or registration of utility model

Ref document number: 6260294

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees