JP4510483B2 - 情報検索装置 - Google Patents

情報検索装置 Download PDF

Info

Publication number
JP4510483B2
JP4510483B2 JP2004046126A JP2004046126A JP4510483B2 JP 4510483 B2 JP4510483 B2 JP 4510483B2 JP 2004046126 A JP2004046126 A JP 2004046126A JP 2004046126 A JP2004046126 A JP 2004046126A JP 4510483 B2 JP4510483 B2 JP 4510483B2
Authority
JP
Japan
Prior art keywords
category
word
importance
document
target document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004046126A
Other languages
English (en)
Other versions
JP2005235065A (ja
Inventor
啓 北内
一也 小西
徹 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2004046126A priority Critical patent/JP4510483B2/ja
Publication of JP2005235065A publication Critical patent/JP2005235065A/ja
Application granted granted Critical
Publication of JP4510483B2 publication Critical patent/JP4510483B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、検索キーに関連した文書を検索する情報検索装置及びそのコンピュータプログラムに関する。
大量の文書群の中から、入力されたキーワードや文書等に関連した文書を検索する代表的な方法として、入力と検索対象文書のそれぞれを語句の重要度を要素とする特徴ベクトルで表現し、検索する方法がある。その方法では、双方のベクトルの類似度を内積や余弦等の尺度を用いて算出し、類似度が高い文書を関連性が高い文書として出力するため、語句の重要度をどのような方法によって算出するかがポイントとなる。語句の重要度を算出する方法としては、TF(Term Frequency:単語頻度)やIDF(Inverse Document Frequency:逆数文書頻度)等の語句の出現頻度の分布に基づく重要度を付与する方法がある。
また、検索対象文書がカテゴリに分類されている場合、検索精度を向上させることを目的に、カテゴリ情報を利用して語句の重要度を算出する技術が特許文献1及び特許文献2で提案されている。これらの技術によれば、カテゴリごとに語句の重要度を算出することができるので、その語句との関連が高いカテゴリでは高い重要度を、関連が低いカテゴリでは低い重要度を付与することができるため、情報検索の精度の向上が期待できる。
特開平11−143892号公報 特開2000−331026号公報
しかしながら、特許文献1及び特許文献2に示す技術では、カテゴリごとに重要度を算出するか、あるいは、全カテゴリを通じてただひとつの重要度を算出することしかできない。ここで、専門的な語句と一般的な語句の重要度の算出について考える。専門的な語句の場合、カテゴリごとに重要度を算出すれば、語句とカテゴリとの関連の高さによって異なる重要度をより適切に付与することができる。しかし、一般的な語句の場合は、分野に関わらず重要度が同じであるため、カテゴリごとに異なる重要度を付与するのは適切ではなく、検索精度が低下するなどの逆効果をもたらすおそれがあるという問題がある。
また、検索対象文書が階層的なカテゴリに分類されている場合、どの階層のカテゴリにおいて語句の重要度を算出するかが問題となる。
特許文献1及び特許文献2では階層的なカテゴリを想定していないため、重要度を付与するカテゴリはある1つの階層に固定されてしまう。そのため、ある語句に対し、その語句と関連の高いカテゴリと関連の低いカテゴリの両方を含むような上位階層のカテゴリにおいて重要度を算出すると、適切な重要度を付与することができない。一方、その語句と関連が高く、関連度合いはほとんど同程度の下位階層の複数のカテゴリにおいて、別々に重要度を算出すると、カテゴリごとに異なる重要度を付与してしまう。その結果、他のカテゴリよりもわずかに関連の高いカテゴリに属する文書に対して高い類似度が算出されてしまい、検索精度が低下してしまう問題がある。
本発明は、上記問題を解決すべくなされたもので、その目的は、階層的なカテゴリに分類されている検索対象文書において、階層関係を考慮してカテゴリと検索対象文書に含まれる語句の関連性を適切に示す重要度を求める情報検索装置を提供することにある。
上述した問題を解決するために、請求項1に記載の発明は、検索キー文書に関連する文書を検索対象文書の中から検索する情報検索装置において、予め木構造に階層化されたカテゴリに分類され、分類されたカテゴリを示すカテゴリ情報が付与された前記検索対象文書を記憶する検索対象文書記憶部(検索対象文書データベース2)と、前記検索対象文書記憶部から検索対象文書を読み出し、所定の解析手段(例えば、自然言語処理の形態素解析)により前記検索対象文書に含まれる語句を抽出する処理と、前記検索対象文書に付与されたカテゴリ情報を抽出する処理とを行う語句カテゴリ抽出部(語句カテゴリ抽出部3)と、第1の集合に含まれる前記カテゴリのいずれか1つのカテゴリを抜き出して選択し、選択した該カテゴリの前記語句の出現頻度の分散を求め、該カテゴリの前記分散が所定の値未満である場合、該カテゴリを第2の集合に追加し、前記カテゴリの前記分散が前記所定の値以上である場合、該カテゴリが最下位の階層のカテゴリか否かを判定し、最下位の階層のカテゴリでないとき、該カテゴリの1つ下位の階層のカテゴリを前記第1の集合に加える第1の処理を前記木構造の最上位のカテゴリを前記第1の集合に加え前記第1の集合が空集合になるまで行い、前記第2の集合に含まれる全てのカテゴリにおける当該語句の出現頻度の平均値を求め、前記平均値と各カテゴリにおける当該語句の出現頻度に基づいて各カテゴリの当該語句の重要度を算出する語句重要度算出部(語句重要度算出部4)と、を備えたことを特徴とする情報検索装置(情報検索装置1)である。
請求項2に記載の発明は、請求項1に記載の発明において、前記語句重要度算出部は、
ある語句のあるカテゴリにおける重要度を算出する際に、最上位階層のカテゴリにおける当該語句の出現頻度の逆数を前記平均値で除した値に、算出対象の前記カテゴリにおける当該語句の出現頻度を乗じた値を重要度として求めることを特徴とする。
請求項3に記載の発明は、請求項1に記載の発明において、前記語句重要度算出部は、ある語句のあるカテゴリにおける重要度を算出する際に、最上位階のカテゴリにおける当該語句の出現頻度の逆数の対数を前記平均値で除した値に、算出対象の前記カテゴリにおける当該語句の前記出現頻度に乗じた値を重要度として求めることを特徴とする。
請求項4に記載の発明は、請求項1に記載の発明において、前記語句重要度算出部は、前記対象文書の前記出現頻度の平均値の代わりに、前記出現頻度の対数値の平均値を用い、最上位階のカテゴリにおける当該語句の出現頻度の逆数の対数を前記平均値で除した値に、算出対象の前記カテゴリにおける当該語句の前記出現頻度の対数値を乗じた値を重要度として求めることを特徴とする。
請求項5に記載の発明は、予め木構造に階層化されたカテゴリに分類され、分類されたカテゴリを示すカテゴリ情報が付与された前記検索対象文書を記憶する検索対象文書記憶部を備え、検索キー文書に関連する文書を検索対象文書の中から検索する情報検索装置のコンピュータを、前記検索対象文書記憶部から検索対象文書を読み出し、所定の解析手段により前記検索対象文書に含まれる語句を抽出する処理と、前記検索対象文書に付与されたカテゴリ情報を抽出する手段、第1の集合に含まれる前記カテゴリのいずれか1つのカテゴリを抜き出して選択し、選択した該カテゴリの前記語句の出現頻度の分散を求め、該カテゴリの前記分散が所定の値未満である場合、該カテゴリを第2の集合に追加し、前記カテゴリの前記分散が前記所定の値以上である場合、該カテゴリが最下位の階層のカテゴリか否かを判定し、最下位の階層のカテゴリでないとき、該カテゴリの1つ下位の階層のカテゴリを前記第1の集合に加える第1の処理を前記木構造の最上位のカテゴリを前記第1の集合に加え前記第1の集合が空集合になるまで行い、前記第2の集合に含まれる全てのカテゴリにおける当該語句の出現頻度の平均値を求め、前記平均値と各カテゴリにおける当該語句の出現頻度に基づいて各カテゴリの当該語句の重要度を算出する手段、として機能させるコンピュータプログラムである。
この発明によれば、木構造の階層構造のカテゴリに分類された検索対象文書において、最上位の階層のカテゴリから最下位の階層のカテゴリに向けてカテゴリごとの検索対象文書における語句ごとの出現頻度の分散を求めている。そして、その分散が所定の値未満であるカテゴリのうち木構造の枝ごとに最も上位に位置するカテゴリを検出し、検出した全てのカテゴリの語句の出現頻度の平均値を求め、その平均値を語句ごとの重要度を求める際の重み付けにする構成となっている。そのため、当該語句との関連が高いカテゴリに高い重要度を付与することを可能にしており、入力されたキーワードや文書に対して精度の高い検索結果を提供することができる。
また、一般的な語句には全カテゴリを通して、同じ重要度が付与されるので、その語句を偶然多く含むカテゴリがあった場合でもそのカテゴリが検索結果において上位となることを防ぐことができる。
以下、本発明の一実施形態による情報検索装置1を図面を参照して説明する。
図1は、この発明の一実施形態による情報検索装置1の構成を示す概略ブロック図である。情報検索装置1は大きく文書ベクトルデータベース構築ブロック11(以下、データベースをDBと略す)と関連文書検索ブロック12の2つのブロックから構成されている。文書ベクトル構築ブロック11は、検索対象文書DB2、語句カテゴリ抽出部3、語句重要度算出部4、文書ベクトルDB5から構成されている。関連文書検索ブロック12は、検索キー入力部6と検索語句抽出部7と検索語句重要度算出部8とベクトル間類似度算出部9と検索結果出力部10から構成されている。
文書ベクトルDB構築ブロック11は、関連文書の検索の前段階として、それぞれの検索対象文書から語句を抽出し、文書ごとに語句の重要度を算出することにより文書ベクトルを求める。
文書ベクトルDB構築ブロック11において、検索対象文書データベース2は、検索の対象となる文書データを記憶している。検索対象文書は予め木構造を有する階層的なカテゴリ、例えば特許文献のIPC(International Patent Classification)コードのように分類されており、各検索対象文書にはカテゴリ情報が付与されている。語句カテゴリ抽出部3は、検索対象文書を形態素解析によって単語に分割し、単語ごとの品詞を特定する。また、特定の品詞の単語やその複合語を語句として抽出する。例えば、名詞か未知語のいずれかの単語と、それらが2語連続した複合語を語句として抽出する。そして、検索対象文書に付与されているカテゴリ情報を抽出する。語句重要度算出部4は、語句カテゴリ抽出部3において抽出した語句とカテゴリ情報に基づいて、語句ごとに語句重要度算出の基準となるカテゴリの集合を求め、各カテゴリにおける語句ごとの語句重要度を算出する。そして、検索対象文章中の各語句の重要度を要素とするベクトルをその検索対象文書の文書ベクトルとして文書ベクトルDB5に記憶する。
関連文書検索ブロック12は、入力されたキーワードまたは文書から語句を抽出し、語句の重要度を算出することにより文書ベクトルを求めた後、検索対象文書それぞれの文書ベクトルとの類似度を算出し、類似度順に文書をランク付けしたものを検索結果として出力する。
関連文書検索ブロック12において、検索キー入力部6は、入力されたキーワードまたは文書のデータを受け付ける。検索語句抽出部7は、検索キー入力部6が受信したデータを形態素解析によって単語に分割し、単語ごとの品詞を特定する。なお、入力がキーワードの場合でも、品詞を求めるために形態素解析を行う必要がある。そして、上記の語句カテゴリ抽出部3で説明した手段と同様に特定の品詞の単語やその複合語を語句として抽出する。例えば、名詞か未知語のいずれかの単語と、それらが2語連続した複合語を語句として抽出する。抽出した語句を検索語句とする。検索語句重要度算出部8は、各検索語句の重要度を算出する。算出する手段としては、例えば、入力されたキーワードまたは文書における出現頻度をその検索語句の重要度とする手段がある。各検索語句の重要度を要素とするベクトルを入力ベクトルとする。ベクトル間類似度算出部9は、文書ベクトルDB5の各文書ベクトルと入力ベクトルの余弦(コサイン値)を類似度として算出する。検索結果出力部10は、類似度の高い順に検索対象文書をランク付けし、検索結果として出力する。
図2は、木構造に階層化されたカテゴリに分類された検索対象文書に対して、語句ごとの重要度を求める手段を示した図である。A1は全ての検索対象文書を含む最上位のカテゴリであり、以下B、C、Dと階層を下るにつれて分類が細かくなる。ここで、ある語句tがある場合に、その語句tのあるカテゴリの文書における出現頻度、即ちカテゴリ内で語句tが出現する文書数をカテゴリ内の全文書数で除した値をカテゴリ文書頻度と呼ぶこととする。最上位階層のAから最下位階層のDに向かって、カテゴリごとのカテゴリ文書頻度の不偏分散を算出し、不偏分散がある閾値より値より小さくなるカテゴリを求める。このカテゴリが、語句tとの関連が高いカテゴリのうち、最も上位階層のカテゴリとなる。
同図において、D1においては語句tのカテゴリ文書頻度は40/50であり、その1つ上の階層のC1のカテゴリ文書頻度は、D1とD2のカテゴリ文書頻度の分母を足し合わせた値を分母とし、分子を足し合わせた値を分子とすることで求めることができる。つまり、C1のカテゴリ文書頻度は75/90となる。この計算を最上位のA1まで計算するとA1のカテゴリ文書頻度は40/50、35/40、20/50、25/60、4/50、3/80、0/70、2/40に基づいて求められ、129/440となる。次に、A1のカテゴリの不偏分散を求める。不偏分散は、各カテゴリ文書頻度の値と各カテゴリ文書頻度の平均値との差を2乗した2乗誤差の値の総和を標本数−1で割ることによって求められる。この計算により、A1のカテゴリの不偏分散を求めると約0.12であり、これは同図において定められている閾値0.01以上である。そこで、その下位のカテゴリB1とB2における同様にカテゴリ文書頻度の不偏分散を算出する。カテゴリB1におけるカテゴリ文書頻度は40/50、35/40、20/50、25/60に基づいて120/200として求められる。その不偏分散は約0.062となり、閾値0.01以上であり、カテゴリB1も語句重要度を算出するカテゴリの対象とはならない。一方、カテゴリB2におけるカテゴリ文書頻度は4/50、3/80、0/70、2/40に基づいて9/240として求められる。その不偏分散は約0.0011であり、閾値0.01より小さいので、B2を語句重要度を算出するカテゴリとする。次に、カテゴリB1の下位のC1とC2について同様にカテゴリ文書頻度の不偏分散を算出すると、それぞれ約0.0028と約0.00014であり、閾値0.01より小さいのでC1とC2を語句重要度を算出するカテゴリとする。最終的に、同図における語句の重要度算出の基準となるカテゴリはC1、C2、B2の3つとなる。
従来技術においては、文書頻度を用いた重要度を求める際に、例えば文書全体におけるカテゴリ文書頻度の逆数、即ち同図においては最上位階層カテゴリA1の129/440の逆数を求めたものを重要度として用いている。本実施形態における重要度は、語句重要度を算出する対象となったカテゴリ内の文書頻度を重みとして調整した値を語句tの重要度としている点で異なる。同図において、文書全体におけるカテゴリ文書頻度の逆数は440/129である。一方、カテゴリC1、C2、B2内の文書頻度はそれぞれ75/90、45/110、9/240である。従って、カテゴリC1における語句tの重要度はweight(t,C1)=440/129÷((75/90+45/110+9/240)÷3)×75/90の式で求められ、約6.46となる。従来技術における重要度は、440/129=約3.41となり、その値よりも大きい値が重要度として算出できることがわかる。
なお、語句の重要度算出方法に関する従来技術では、文書頻度の逆数そのものではなく、その対数値などを重要度とするものもあるので、その場合には、上記の式においても文書全体のカテゴリ文書頻度の逆数としてlog(440/129)を用いてもよい。また、上記の式では、カテゴリ内の文書頻度そのものを重みとして語句tの重要度を求めている。即ち、各カテゴリの文書頻度の平均に対するカテゴリC1の文書頻度の割合を、全体の文書頻度の逆数に乗じている。このとき、カテゴリ文書頻度そのものではなく、カテゴリ文書頻度の対数値等を重みとして重要度を算出しても構わない。以上の手段により算出した語句重要度を用いて文書ベクトルを算出して、精度の高い文書の検索を行うことができる。
図3は、語句重要度を算出するためのカテゴリの集合を求める処理を示したフローチャートである。同図の処理において、重要度を求める対象となる語句は予め抽出され設定されているものとする。最初に、最上位階層のカテゴリであるカテゴリ集合Aを設定する(ステップS3−1)。次に、カテゴリ集合Aからカテゴリを1つ選択し、それをカテゴリcとして設定する(ステップS3−2)。カテゴリcにおける設定した語句のカテゴリ文書頻度の不偏分散Vを求める(ステップS3−3)。不偏分散Vが所定の閾値より小さい場合には、カテゴリcを語句重要度を求めるカテゴリ集合Bに追加する(ステップS3−5)。そしてカテゴリAが空き集合であるかを確認し、空き集合である場合には処理を終了し、空き集合でない場合にはステップS3−2に戻り、新たなカテゴリの分類を行う(ステップS3−6)。不偏分散Vが閾値以上である場合には、カテゴリcが最下位階層であるかを確認する(ステップS3−7)。最下位階層でない場合は、カテゴリcの1つ下位の階層のカテゴリ集合をカテゴリ集合Aに追加し、ステップS3−2に戻る(ステップS3−8)。カテゴリcが最下位階層の場合には、ステップS3−6の処理を行う。
この処理により、所定の閾値より小さい不偏分散値となるカテゴリの集合を求めることができ、上記で説明した、設定した語句に対する検索対象文書の語句重要度を求めることができる。
なお、本実施形態における情報検索装置は、文書検索における語句の重要度算出の手段に関するものであるが、文書検索以外にも、文書分類や文書クラスタリングなど単語の重要度用いた他のテキスト分析処理に対しても有効である。
また、上記実施形態においては、分散を不偏分散として求めているが、不偏分散に限らず標本分散等によっても同じ効果を得ることが可能である。
上述の情報検索装置は内部に、コンピュータシステムを有している。そして、上述した語句重要度を算出するためのカテゴリの集合を求める処理過程は、プログラム形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしてもよい。
本実施形態における情報検索装置を示すブロック図である。 同実施形態における語句重要度を算出する手段を示した図である。 同実施形態における語句重要度を算出するためのカテゴリの集合を求める処理を示したフローチャートである。
符号の説明
1 情報検索装置
2 検索対象文書データベース
3 語句カテゴリ抽出部
4 語句重要度算出部
5 文書ベクトルデータベース

Claims (5)

  1. 検索キー文書に関連する文書を検索対象文書の中から検索する情報検索装置において、
    予め木構造に階層化されたカテゴリに分類され、分類されたカテゴリを示すカテゴリ情報が付与された前記検索対象文書を記憶する検索対象文書記憶部と、
    前記検索対象文書記憶部から検索対象文書を読み出し、所定の解析手段により前記検索対象文書に含まれる語句を抽出する処理と、前記検索対象文書に付与されたカテゴリ情報を抽出する処理とを行う語句カテゴリ抽出部と、
    第1の集合に含まれる前記カテゴリのいずれか1つのカテゴリを抜き出して選択し、選択した該カテゴリの前記語句の出現頻度の分散を求め、該カテゴリの前記分散が所定の値未満である場合、該カテゴリを第2の集合に追加し、前記カテゴリの前記分散が前記所定の値以上である場合、該カテゴリが最下位の階層のカテゴリか否かを判定し、最下位の階層のカテゴリでないとき、該カテゴリの1つ下位の階層のカテゴリを前記第1の集合に加える第1の処理を前記木構造の最上位のカテゴリを前記第1の集合に加え前記第1の集合が空集合になるまで行い、前記第2の集合に含まれる全てのカテゴリにおける当該語句の出現頻度の平均値を求め、前記平均値と各カテゴリにおける当該語句の出現頻度に基づいて各カテゴリの当該語句の重要度を算出する語句重要度算出部と、
    を備えたことを特徴とする情報検索装置。
  2. 前記語句重要度算出部は、
    ある語句のあるカテゴリにおける重要度を算出する際に、最上位階層のカテゴリにおける当該語句の出現頻度の逆数を前記平均値で除した値に、算出対象の前記カテゴリにおける当該語句の出現頻度を乗じた値を重要度として求めることを特徴とする請求項1に記載の情報検索装置。
  3. 前記語句重要度算出部は、
    ある語句のあるカテゴリにおける重要度を算出する際に、最上位階のカテゴリにおける当該語句の出現頻度の逆数の対数を前記平均値で除した値に、算出対象の前記カテゴリにおける当該語句の前記出現頻度に乗じた値を重要度として求めることを特徴とする請求項1に記載の情報検索装置。
  4. 前記語句重要度算出部は、
    前記対象文書の前記出現頻度の平均値の代わりに、前記出現頻度の対数値の平均値を用い、最上位階のカテゴリにおける当該語句の出現頻度の逆数の対数を前記平均値で除した値に、算出対象の前記カテゴリにおける当該語句の前記出現頻度の対数値を乗じた値を重要度として求めることを特徴とする請求項1に記載の情報検索装置。
  5. 予め木構造に階層化されたカテゴリに分類され、分類されたカテゴリを示すカテゴリ情報が付与された前記検索対象文書を記憶する検索対象文書記憶部を備え、検索キー文書に関連する文書を検索対象文書の中から検索する情報検索装置のコンピュータを、
    前記検索対象文書記憶部から検索対象文書を読み出し、所定の解析手段により前記検索対象文書に含まれる語句を抽出する処理と、前記検索対象文書に付与されたカテゴリ情報を抽出する処理とを行う手段、
    第1の集合に含まれる前記カテゴリのいずれか1つのカテゴリを抜き出して選択し、選択した該カテゴリの前記語句の出現頻度の分散を求め、該カテゴリの前記分散が所定の値未満である場合、該カテゴリを第2の集合に追加し、前記カテゴリの前記分散が前記所定の値以上である場合、該カテゴリが最下位の階層のカテゴリか否かを判定し、最下位の階層のカテゴリでないとき、該カテゴリの1つ下位の階層のカテゴリを前記第1の集合に加える第1の処理を前記木構造の最上位のカテゴリを前記第1の集合に加え前記第1の集合が空集合になるまで行い、前記第2の集合に含まれる全てのカテゴリにおける当該語句の出現頻度の平均値を求め、前記平均値と各カテゴリにおける当該語句の出現頻度に基づいて各カテゴリの当該語句の重要度を算出する手段、
    として機能させるコンピュータプログラム。
JP2004046126A 2004-02-23 2004-02-23 情報検索装置 Expired - Lifetime JP4510483B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004046126A JP4510483B2 (ja) 2004-02-23 2004-02-23 情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004046126A JP4510483B2 (ja) 2004-02-23 2004-02-23 情報検索装置

Publications (2)

Publication Number Publication Date
JP2005235065A JP2005235065A (ja) 2005-09-02
JP4510483B2 true JP4510483B2 (ja) 2010-07-21

Family

ID=35017940

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004046126A Expired - Lifetime JP4510483B2 (ja) 2004-02-23 2004-02-23 情報検索装置

Country Status (1)

Country Link
JP (1) JP4510483B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100419753C (zh) * 2005-12-19 2008-09-17 株式会社理光 数字化数据集中按照分类信息搜索目标文档的方法和装置
JP5384884B2 (ja) * 2008-09-03 2014-01-08 日本電信電話株式会社 情報検索装置および情報検索プログラム
JP5072792B2 (ja) * 2008-09-30 2012-11-14 ヤフー株式会社 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ
JP5282880B2 (ja) * 2008-12-11 2013-09-04 日本電気株式会社 検索システム、検索方法、およびプログラム
JP5066147B2 (ja) * 2009-08-18 2012-11-07 株式会社東芝 文書処理装置およびプログラム
JP5505207B2 (ja) * 2010-08-31 2014-05-28 株式会社リコー 情報検索装置、情報検索方法及び情報検索プログラム
JP5644558B2 (ja) * 2011-02-03 2014-12-24 日本電気株式会社 文書関連度算出装置
JP5503632B2 (ja) * 2011-12-27 2014-05-28 日本電信電話株式会社 特徴語抽出方法、装置、及びプログラム
JP5959063B2 (ja) * 2013-04-23 2016-08-02 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報の取得を支援する装置及び方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110409A (ja) * 1997-10-07 1999-04-23 Ntt Data Corp 情報分類方法及び装置
JPH11120183A (ja) * 1997-10-08 1999-04-30 Ntt Data Corp キーワード抽出方法及び装置
JPH11167581A (ja) * 1997-12-04 1999-06-22 Ntt Data Corp 情報分類方法、装置及びシステム
JP2003162540A (ja) * 2001-11-28 2003-06-06 Seiko Epson Corp データ検索装置およびデータ検索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110409A (ja) * 1997-10-07 1999-04-23 Ntt Data Corp 情報分類方法及び装置
JPH11120183A (ja) * 1997-10-08 1999-04-30 Ntt Data Corp キーワード抽出方法及び装置
JPH11167581A (ja) * 1997-12-04 1999-06-22 Ntt Data Corp 情報分類方法、装置及びシステム
JP2003162540A (ja) * 2001-11-28 2003-06-06 Seiko Epson Corp データ検索装置およびデータ検索方法

Also Published As

Publication number Publication date
JP2005235065A (ja) 2005-09-02

Similar Documents

Publication Publication Date Title
US10467271B2 (en) Search apparatus and search method
CN108197117B (zh) 一种基于文档主题结构与语义的中文文本关键词提取方法
TWI536181B (zh) 在多語文本中的語言識別
US8849787B2 (en) Two stage search
CN108804421B (zh) 文本相似性分析方法、装置、电子设备及计算机存储介质
JP5216063B2 (ja) 未登録語のカテゴリを決定する方法と装置
US20040049499A1 (en) Document retrieval system and question answering system
JP2002169834A (ja) 文書のベクトル解析を行うコンピュータおよび方法
CN110162778B (zh) 文本摘要的生成方法及装置
RU2491622C1 (ru) Способ классификации документов по категориям
CN113076734A (zh) 一种项目文本的相似度检测方法及装置
JP4510483B2 (ja) 情報検索装置
JP7409484B2 (ja) リスク評価装置、リスク評価方法およびプログラム
JP4325370B2 (ja) 文書関連語彙獲得装置及びプログラム
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
US20030126138A1 (en) Computer-implemented column mapping system and method
JP6555810B2 (ja) 類似度算出装置、類似検索装置、および類似度算出プログラム
JP2004046612A (ja) データマッチング方法、データマッチング装置、データマッチングプログラムおよびコンピュータで読み取り可能な記録媒体
JP2012003333A (ja) 類似文書検索装置、類似文書検索方法、そのプログラムおよび記録媒体
JP3925418B2 (ja) トピック境界決定装置及びプログラム
JP2005010848A (ja) 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体
JP2005025465A (ja) 文書検索方法及び文書検索装置
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
CN116881437B (zh) 一种获取文本集的数据处理系统
JP3422396B2 (ja) 観点に基づく類似検索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100423

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100430

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4510483

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140514

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term