JP2011210110A - 複合語に対する文書数予測装置及び方法及びプログラム - Google Patents

複合語に対する文書数予測装置及び方法及びプログラム Download PDF

Info

Publication number
JP2011210110A
JP2011210110A JP2010078794A JP2010078794A JP2011210110A JP 2011210110 A JP2011210110 A JP 2011210110A JP 2010078794 A JP2010078794 A JP 2010078794A JP 2010078794 A JP2010078794 A JP 2010078794A JP 2011210110 A JP2011210110 A JP 2011210110A
Authority
JP
Japan
Prior art keywords
documents
word
document
transposed index
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010078794A
Other languages
English (en)
Other versions
JP5389715B2 (ja
Inventor
Shinji Miyahara
伸二 宮原
Yoshihito Yasuda
宜仁 安田
Takashi Inoue
孝史 井上
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010078794A priority Critical patent/JP5389715B2/ja
Publication of JP2011210110A publication Critical patent/JP2011210110A/ja
Application granted granted Critical
Publication of JP5389715B2 publication Critical patent/JP5389715B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 少ないコストで文書数を予測でき、また、一部の文書群から検出した複合語を含む文書数を基に、文書数を予測する場合に、一般的な手段での予測文書数よりも精度良く予測する。
【解決手段】 本発明は、ユーザから入力されたクエリが複合語の場合に複合語を単一の単語に分割し、分割された単語に基づいて転置インデックス記憶手段を参照して、分割した単語それぞれに対する転置インデックスを抽出し、予め設定した文書数を対象として、抽出された転置インデックスから抽出した複合語を含む文書数を算出し、検出した複合語を含む文書数と転置インデックス取得ステップで取得した各単語を含む文書数に基づいて、文書数予測ルールを用いて全文書に対する複合語を含む文書数の予測値を算出する。
【選択図】 図1

Description

本発明は、複合語に対する文書数予測装置及び方法及びプログラムに係り、特に、ユーザから入力された複合語のクエリに対し、複合語を含む文書数が未知の場合に、文書数を予測して文書検索の計算量と検索結果の応答速度を向上させるために、一部の文書群に対して複合語を含む文書の偏りに着目した複合語に対する文書数予測装置及び方法及びプログラムに関する。
近年、インターネット上で検索サービスが広く普及し、ユーザが欲しい文書へのクエリを用いて文書を効率良く文書が検索できるようになった。ここで、この検索を実現するために、文書に関するインデックスを作成し、ユーザから入力されたクエリに該当するインデックスから文書を検索結果として提供している。
文書群に対するインデックスとして、一般に転置インデックスが用いられる(例えば、非特許文献1参照)。この転置インデックスとは、ある単語に対して単語を含む文書をリスト化したものである。図9の転置インデックスの例を用いて説明する。同図には「太陽」に関する転置インデックスを示している。転置インデックス内の1つ目の四角は「太陽」を含む文書に関する情報を示している。ここでは、文書として「Doc1」に関する情報が入っている。このDoc1に関する情報はいくつかの情報から構成されており、同図では、「Doc1」の情報として以下の3つの情報が入っている。
1.文書ID
2.単語(「太陽」)の出現回数
3.単語(「太陽」)の出現位置
また、この転置インデックスは予め作成するため、単語を含む文書数の情報も保持している。図9では、「太陽」を含む文書は15文書存在する。
前述のように単語に対する転置インデックスを検索対象となる文書群から抽出した単語に対して作成しておくが、ユーザから入力されるクエリには転置インデックスが用意されていない単語の場合がある。転置インデックスが用意されていないクエリに対しては、クエリを構成する単語群や関連する単語の転置インデックスから該当する文書を求める必要がある。
ここではクエリが複合語(複数の単語から構成される語)の場合について取り上げ、複合語に対する転置インデックスが用意されていない時の文書のリストを求める方法について説明する。複合語のクエリとして「太陽エネルギー」の場合について説明する。図9のように「太陽」、「エネルギー」の転置インデックスが用意されている場合、「太陽エネルギー」を含む文書をこれら転置インデックスから求める必要がある。まずは、「太陽」を含む文書「Doc1」に着目し、「エネルギー」を含む文書を探索する。ここでは、「エネルギー」の転置インデックスから「Doc1」に「エネルギー」が含まれていることがわかる。
次に、「Doc1」の「太陽」の出現位置の次に、「エネルギー」の出現位置が連続する箇所を探索する。図9からは「太陽」の出現位置が"1"に対し、「エネルギー」の出現位置が"2"のため「Doc1」に「太陽エネルギー」が含まれることを検出する。同様の処理を、「太陽」の転置インデックスに存在するすべての文書に対して処理し、「太陽エネルギー」を含む文書のリストを作成する。
Justin Zobel, Alistair Moffat and Kotagiri Ramamohanarao, Inverted files versus signature files for text indexing. ACM Transactions on Database Systems (TODS), Volume 23, Issue 4 (December 1998), Pages: 453 - 490.
しかしながら、前述の従来技術では、ユーザからクエリが入力された際に、複合語を構成する複数の転置インデックスから複合語を含む文書を検出する必要があり、転置インデックス全体から逐次処理した場合は計算量が多く、応答時間が長くなる問題がある。
また、対象とする文書群から予め複合語に対する転置インデックスを作成して応答時間を短縮する場合は、用意する転置インデックスの数が膨大になりコストが大きくなる問題がある。
その一方で、複合語を構成する一部の文書数を基に、文書群全体の複合語を構成する文書数を予測する場合には、複合語を構成する一部の文書群の存在状況により予測値が大きく異なる問題がある。ここでの文書群の存在状況とは、文書に対象とする複合語が含まれていた文書数と含まれていなかった文書数の割合のことを示す。
本発明は、上記の点に鑑みなされたもので、少ないコストで文書数を予測でき、また、一部の文書群から検出した複合語を含む文書数を基に、文書数を予測する場合に、一般的な手段での予測文書数よりも精度良く予測可能な複合語に対する文書数予測装置及び方法及びプログラムを提供することを目的とする。
図1は、本発明の原理構成図である。
本発明(請求項1)は、文書検索における複合語に対する文書数予測装置であって、
単語名毎に、該単語を含んでいる文書ID、単語の出現回数、単語の出現位置を含む転置インデックスを格納した転置インデックス記憶手段60と、
ユーザから入力されたクエリが複合語の場合に複合語を単一の単語に分割する単語分割手段10と、
分割された単語に基づいて転置インデックス記憶手段60を参照して、分割した単語それぞれに対する転置インデックスを抽出する転置インデックス取得手段21と、
予め設定した文書数を対象として、抽出された転置インデックスから抽出した複合語を含む文書数を算出する文書数算出手段22と、
検出した複合語を含む文書数と転置インデックス取得手段21で取得した各単語を含む文書数に基づいて、文書数予測ルールを用いて全文書に対する複合語を含む文書数の予測値を算出する予測値算出手段100と、を有する。
また、本発明(請求項2)は、請求項1の文書量予測ルールにおいて、
複合語を含む文書を検出する際に、各単語の転置インデックスを探索した文書数比が単独の単語の文書数比よりも大きい場合は、単独文書数比を用いて予測する文書数を小さく補正するルールを含む。
また、本発明(請求項3)は、請求項1の文書量予測ルールにおいて、
複合語を含む文書を検出する際に、各単語の転置インデックスを探索した文書数比が単独の単語の文書数比よりも小さい場合は、単独文書数比を用いて予測する文書数を大きく補正するルールを含む。
図2は、本発明の原理を説明するための図である。
本発明(請求項4)は、文書検索における複合語に対する文書数予測方法であって、
単語名毎に、該単語を含んでいる文書ID、単語の出現回数、単語の出現位置を含む転置インデックスを格納した転置インデックス記憶手段と、
文書数予測ルールを格納したルール記憶手段と、を有する装置が、
ユーザから入力されたクエリが複合語の場合に複合語を単一の単語に分割する単語分割ステップ(ステップ1)と、
分割された単語に基づいて転置インデックス記憶手段を参照して、分割した単語それぞれに対する転置インデックスを抽出する転置インデックス取得ステップ(ステップ2)と、
予め設定した文書数を対象として、抽出された転置インデックスから抽出した複合語を含む文書数を算出する文書数算出ステップ(ステップ3)と、
検出した複合語を含む文書数と転置インデックス取得ステップ(ステップ2)で取得した各単語を含む文書数に基づいて、文書数予測ルールを用いて全文書に対する複合語を含む文書数の予測値を算出する予測値算出ステップ(ステップ4)と、を行う。
また、本発明(請求項5)は、請求項4の予測値算出ステップにおいて、
複合語を含む文書を検出する際に、各単語の転置インデックスを探索した文書数比が単独の単語の文書数比よりも大きい場合は、単独文書数比を用いて予測する文書数を小さく補正する文書数予測ルールを用いる。
また、本発明(請求項6)は、請求項4の予測値算出ステップにおいて、
複合語を含む文書を検出する際に、各単語の転置インデックスを探索した文書数比が単独の単語の文書数比よりも小さい場合は、単独文書数比を用いて予測する文書数を大きく補正する文書数予測ルールを用いる。
本発明(請求項7)は、請求項1乃至3のいずれか1項に記載の文書数予測装置を構成する各手段としてコンピュータを機能させるための文書数予測プログラムである。
上記のように本発明によれば、従来の複合語に対する文書数の計算において、複合語を構成する単語の転置インデックスを逐次スキャンして複合語を含む文書数を計算するより、少ない計算量で文書数を予測できる。また、一部の文書群から検出した複合語を含む文書数を基に文書数を予測する場合に、一般的な手段での予測文書数よりも精度よく予測できる。
本発明の原理構成図である。 本発明の原理を説明するための図である。 本発明の一実施の形態における文書数予測装置の構成図である。 本発明の一実施の形態における文書数予測装置の動作のフローチャートである。 本発明の一実施例の「太陽エネルギー」を持つ文書の検出状況である。 本発明の一実施例の複合語「太陽エネルギー」に対する文書数の計算例1である。 本発明の一実施例の複合語「太陽エネルギー」に対する文書数の計算例2である。 本発明の一実施例の複合語「太陽エネルギー」に対する文書数の計算例3である。 転置インデックスの例である。
以下、図面と共に、本発明の実施の形態を説明する。
図3は、本発明の一実施の形態における文書数予測装置の構成を示す。
同図に示す文書数予測装置は、クエリ入力部10、文書数予測部20、予測式1計算部30、予測式2計算部40、予測式3計算部50、転置インデックス記憶部60、予測ルール記憶部70から構成される。このうち、転置インデクス記憶部60、予測ルール記憶部70は、ハードディスクやメモリ等の記憶媒体である。
クエリ入力部10は、入力されたクエリが複合語である場合は、当該複合語を単一の単語に分割する。
文書数予測部20は、クエリ入力部10で分割された単語に基づいて、転置インデックス60を検索し、各単語に対応する文書ID、出現回数、出現位置を含む転置インデックスを抽出し、当該単語に対する転置リストを生成する。当該転置インデックスから複合語を含む文書数を検出する。
予測式1計算部30、予測式計算部40、予測式3計算部50は、予め設定された条件に対応する予測ルールに基づいて、検出した複合語を含む文書数と当該複合語中の各単語を含む文書数を基に文書数を予測する。
転置インデックス記憶部60は、単語名毎に転置インデックスが格納されている。ここで、転置インデックスは、単語を含んでいる文書の文書ID,単語の出現回数、単語の出現位置を含む。
予測ルール記憶部70は、予測式1計算部30、予測式計算部40、予測式3計算部50で用いる文書数予測のためのルールを格納する。
上記の構成における動作を説明する。
図4は、本発明の一実施の形態における文書数予測装置の動作のフローチャートである。
ステップ101) 予め、処理する転置インデックスの割合を文書数予測装置のメモリ(図示せず)に設定する。
ステップ102) クエリ入力部10は、入力された複合語を形態素解析し、単一の単語に分割する。
ステップ103) 文書数予測部20は、分割されたそれぞれの単語に対する転置インデックスを転置インデックス記憶部60から読み出す。
ステップ104) 文書数予測部20は、ステップ103で読み出した転置インデックスにより各単語に対する文書数dfを計数し、当該文書数において、最も文書数の小さい単語を選出し、ここでは単語aとする。反対に、文書数の小さい単語を単語bとする。また、単語aの文書数df1、単語bの文書数をdf2とする。
ステップ105) ステップ104で選出した単語aの転置インデックスに対して、ステップ101でメモリ(図示せず)に格納されている割合に基づいて、サーチする文書数を決定する。ここで決定した文書数をNとする。
ステップ106) ステップ104で選出した単語aの転置リストから、ステップ105で決定したN個分の、単語aの転置インデックスの先頭からの単語の出現位置を基に入力されたクエリの複合語を含む文書数を探索する。このとき検出した複合語を含む文書数をD、単語aでサーチしたインデックス数をs1、単語bでサーチしたインデックス数をs2とする。
ステップ107) 文書数予測部20は、s1/s2が、"1.0"よりも大きい場合は、ステップ108に移行し、そうでなければステップ109に移行する。
ステップ108) 予測式1計算部30は、条件(s1/s2>1.0)に基づいて予測ルール記憶部70から以下の予測式1を取得し、複合語の文書数を予測し、出力する。
予測式1=D/(s2/(df1−s1+s2))
ステップ109) s1/s2とdf1/df2を比較し、s1/s2<df1/df2である場合は、ステップ110に移行し、s1/s2≧df1/df2である場合はステップ111に移行する。
ステップ110) 予測式2計算部40は、条件(s1/s2>1.0かつ、s1/s2<df1/df2)に基づいて予測ルール記憶部70から以下の予測式2を取得し、複合語の文書数を予測し出力する。
予測式2=D/(a1/df1)×(1.0−((s1/s2)/(df1/df2)))
ステップ111) 予測式3計算部50は、条件(s1/s2>1.0、かつ、1/s2≧df1/df2)に基づいて予測ルール記憶部70から以下の予測式3を取得し、複合語の文書数を予測し出力する。
予測式3=D/(s1/df1)
以下に、上記の実施の形態で述べた文書数予測装置の具体的な動作を図4のフローチャートに沿って説明する。
以下の実施例では、転置インデックス記憶部60には、単語名として「太陽」、「エネルギー」に関する転置インデックス情報が格納されているものとして説明する。
クエリ入力部10にクエリとして、複合語「太陽エネルギー」が入力されると、「太陽エネルギー」を形態素解析し、「太陽」、「エネルギー」の2つの単語に分割する。次に、「太陽」、「エネルギー」を文書数予測部20に転送する(ステップ101)。
文書数予測部20は、「太陽」、「エネルギー」の単語を取得すると、「太陽」、「エネルギー」の2つの単語に関する転置インデックス情報を転置インデックス記憶部60から読み出す(ステップ102)。ここで、読み出した転置インデックス情報の例を図9に示す。同図では、文書内に「太陽」、「エネルギー」の単語を含んでいる文書に関する転置インデックスとして、各文書に対する文書ID、出現回数、出現位置が格納されている。
次に、文書数予測部20は、「太陽」、「エネルギー」の各転置インデックスに対し、文書ID毎に「太陽エネルギー」の単語を含む文書を探索する(ステップ103)。まず、始めに、文書IDが「Doc1」の文書に対して「太陽エネルギー」の複合語が文書に含まれるかを探索するために、「太陽」の転置インデックスから「太陽」の単語の出現位置を抽出する。ここでは、図9より「1」を取り出す。次に、「エネルギー」の転置インデックスから「1」よりも大きく、かつ、最小の出現位置を抽出する。ここでは、「2」が取り出される。「太陽」の出現位置「1」、「エネルギー」の出現位置「2」が連続しているため、「太陽エネルギー」が当該文書(文書ID「Doc1」)内に出現することを検知する。文書ID「Doc1」で「太陽エネルギー」が検出されたため、次の文書に対して同様の処理を行う。
本実施例での「太陽エネルギー」を含む文書群の検出状況を図5に示す。図5では、1つの長方形が文書の転置インデックスを表しており、「○」が付いているのは文書内に「太陽エネルギー」を含む文書であることを示す(ステップ104)。
本実施例では、文書数の小さい「太陽」の転置インデックスの先頭から4件サーチする。本実施例では、図6の例のように「太陽」の文書数(df1)が10とすると、転置インデックスの先頭の4文書をサーチする。このとき、4文書中1文書(D=1)見つかったものとする(図6の○の付いている文書)。
この例では、「太陽」をサーチした文書数s1が"4"、「エネルギー」をサーチした文書数s2が"2"となり(ステップ105,106)、2つの転置インデックスをサーチした文書数の比(4/2)が1.0以上のため(ステップ107)、予測式1計算部30において下記の予測式により文書数を予測する(ステップ108)。
予測文書数=D/(s2/(df1−s1+s2))
=1/(2/(10−4+2))
=4
上記を「太陽エネルギー」の予測文書数とする。
次に、図7の例のように、複合語「太陽エネルギー」に関する文書の文書数を予測する場合について説明する。同図の例では、「太陽」の文書数が"10"、「エネルギー」の文書数が"11"であり(ステップ103)、文書数小さい「太陽」の転置インデックスに対して(ステップ104)、先頭の2文書をサーチし(ステップ105,106)、「太陽エネルギー」を含む文書が1つ(D=1)見つかったものとする。
図7の例では、「太陽」をサーチした文書数s1が"2"、「エネルギー」でサーチした文書数s2が"7"となり、2つの転置インデックスをサーチした文書の比が2/7で1.0未満であり(ステップ107)、さらに、2つの単語のDF比(10/11)が2つの転置インデックスをサーチした文書の比(2/7)よりも大きいため(ステップ109)、予測式2計算部40において下記の予測式により文書数を予測する(ステップ110)。
予測文書数=D/(s1/df1)×(1.0−((s1/s2)/(df1/df2)))
=1/(2/10)×(1.0−((2/7)/(10/11)))
=1/(1/5)×(1.0−0.3143)
=1/(1/5)×0.6857
=3.4285
上記を「太陽エネルギー」の予測文書数とする。
次に、図8の例のように複合語「太陽エネルギー」に関する文書の文書数を予測する場合について説明する。同図の例では、「太陽」の文書数が"6"、「エネルギー」の文書数が"16"であり、文書数の小さい「太陽」の転置インデックスに対して、先頭の2文書をサーチし、「太陽エネルギー」を含む文書が1つ見つかったものとする(ステップ103〜104)。
この例では、「太陽」をサーチした文書数s1が"2"、「エネルギー」をサーチした文書数s2が"3"となり(ステップ105)、2つの転置インデックスをサーチした文書の比(2/3)が1.0未満であり(ステップ107)、さらに、2つの単語のDF比(6/16)が2つの転置インデックスをサーチした文書の比(2/3)よりも小さいため(ステップ109)、予測式3計算部50において下記の予測式により文書数を予測する(ステップ111)。
予測文書数=D/(s1/df1)
=1/(2/6)
=3
上記を「太陽エネルギー」の予測DFとする。
なお、上記の図3に示す文書数予測装置の構成要素の動作をプログラムとして構築し、文書数予測装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスクや、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更、応用が可能である。
10 単語分割手段、クエリ入力部
20 文書数予測部
21 転置インデックス取得手段
22 文書数算出手段
30 予測式1計算部
40 予測式2計算部
50 予測式3計算部
60 転置インデックス記憶手段、転置インデックス記憶部
70 予測ルール記憶部
100 予測値算出手段

Claims (7)

  1. 文書検索における複合語に対する文書数予測装置であって、
    単語名毎に、該単語を含んでいる文書ID、単語の出現回数、単語の出現位置を含む転置インデックスを格納した転置インデックス記憶手段と、
    ユーザから入力されたクエリが複合語の場合に複合語を単一の単語に分割する単語分割手段と、
    分割された単語に基づいて前記転置インデックス記憶手段を参照して、分割した単語それぞれに対する転置インデックスを抽出する転置インデックス取得手段と、
    予め設定した文書数を対象として、抽出された前記転置インデックスから抽出した複合語を含む文書数を算出する文書数算出手段と、
    検出した複合語を含む文書数と前記転置インデックス取得手段で取得した各単語を含む文書数に基づいて、文書数予測ルールを用いて全文書に対する複合語を含む文書数の予測値を算出する予測値算出手段と、
    を有することを特徴とする文書数予測装置。
  2. 前記文書量予測ルールは、
    複合語を含む文書を検出する際に、各単語の転置インデックスを探索した文書数比が単独の単語の文書数比よりも大きい場合は、単独文書数比を用いて予測する文書数を小さく補正するルールを含む
    請求項1記載の文書数予測装置。
  3. 前記文書量予測ルールは、
    複合語を含む文書を検出する際に、各単語の転置インデックスを探索した文書数比が単独の単語の文書数比よりも小さい場合は、単独文書数比を用いて予測する文書数を大きく補正するルールを含む
    請求項1記載の文書数予測装置。
  4. 文書検索における複合語に対する文書数予測方法であって、
    単語名毎に、該単語を含んでいる文書ID、単語の出現回数、単語の出現位置を含む転置インデックスを格納した転置インデックス記憶手段と、
    文書数予測ルールを格納したルール記憶手段と、を有する装置が、
    ユーザから入力されたクエリが複合語の場合に複合語を単一の単語に分割する単語分割ステップと、
    分割された単語に基づいて前記転置インデックス記憶手段を参照して、分割した単語それぞれに対する転置インデックスを抽出する転置インデックス取得ステップと、
    予め設定した文書数を対象として、抽出された前記転置インデックスから抽出した複合語を含む文書数を算出する文書数算出ステップと、
    検出した複合語を含む文書数と前記転置インデックス取得ステップで取得した各単語を含む文書数に基づいて、文書数予測ルールを用いて全文書に対する複合語を含む文書数の予測値を算出する予測値算出ステップと、
    を行うことを特徴とする文書数予測方法。
  5. 前記予測値算出ステップにおいて、
    複合語を含む文書を検出する際に、各単語の転置インデックスを探索した文書数比が単独の単語の文書数比よりも大きい場合は、単独文書数比を用いて予測する文書数を小さく補正する前記文書数予測ルールを用いる
    請求項4記載の文書数予測方法。
  6. 前記予測値算出ステップにおいて、
    複合語を含む文書を検出する際に、各単語の転置インデックスを探索した文書数比が単独の単語の文書数比よりも小さい場合は、単独文書数比を用いて予測する文書数を大きく補正する前記文書数予測ルールを用いる
    請求項4記載の文書数予測方法。
  7. 請求項1乃至3のいずれか1項に記載の文書数予測装置を構成する各手段としてコンピュータを機能させるための文書数予測プログラム。
JP2010078794A 2010-03-30 2010-03-30 複合語に対する文書数予測装置及び方法及びプログラム Expired - Fee Related JP5389715B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010078794A JP5389715B2 (ja) 2010-03-30 2010-03-30 複合語に対する文書数予測装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010078794A JP5389715B2 (ja) 2010-03-30 2010-03-30 複合語に対する文書数予測装置及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2011210110A true JP2011210110A (ja) 2011-10-20
JP5389715B2 JP5389715B2 (ja) 2014-01-15

Family

ID=44941077

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010078794A Expired - Fee Related JP5389715B2 (ja) 2010-03-30 2010-03-30 複合語に対する文書数予測装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5389715B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08329094A (ja) * 1995-05-30 1996-12-13 Toshiba Corp 文書検索装置
JPH11282880A (ja) * 1998-02-02 1999-10-15 Ricoh Co Ltd 電子化文書検索システムおよび記憶媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08329094A (ja) * 1995-05-30 1996-12-13 Toshiba Corp 文書検索装置
JPH11282880A (ja) * 1998-02-02 1999-10-15 Ricoh Co Ltd 電子化文書検索システムおよび記憶媒体

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNG200001297002; 小川泰嗣: '擬似頻度法:n-gram索引のための高速な日本語文書のランキング検索法' 電子情報通信学会論文誌 第J83-D-I巻,第10号, 20001025, p.1043-1054, 社団法人電子情報通信学会 *
CSNG200900399061; 原田昌紀、外2名: '索引篩法-大規模サーチエンジンのための高速なランキング検索法' 第14回データ工学ワークショップ(DEWS2003)論文集[online] , 20030516, p.1-8, 電子情報通信学会データ工学研究専門委員会 *
CSNG201000308173; 数原良彦、外4名: '全文検索における複合語を考慮した転置リストの併合処理' 第1回データ工学と情報マネジメントに関するフォーラム-DEIMフォーラム-論文集[online] , 20090509, p.1-6, 電子情報通信学会データ工学研究専門委員会 *
JPN6013032086; 数原良彦、外4名: '全文検索における複合語を考慮した転置リストの併合処理' 第1回データ工学と情報マネジメントに関するフォーラム-DEIMフォーラム-論文集[online] , 20090509, p.1-6, 電子情報通信学会データ工学研究専門委員会 *
JPN6013032087; 原田昌紀、外2名: '索引篩法-大規模サーチエンジンのための高速なランキング検索法' 第14回データ工学ワークショップ(DEWS2003)論文集[online] , 20030516, p.1-8, 電子情報通信学会データ工学研究専門委員会 *
JPN6013032090; 小川泰嗣: '擬似頻度法:n-gram索引のための高速な日本語文書のランキング検索法' 電子情報通信学会論文誌 第J83-D-I巻,第10号, 20001025, p.1043-1054, 社団法人電子情報通信学会 *

Also Published As

Publication number Publication date
JP5389715B2 (ja) 2014-01-15

Similar Documents

Publication Publication Date Title
Qi et al. Answering complex open-domain questions through iterative query generation
Francis-Landau et al. Capturing semantic similarity for entity linking with convolutional neural networks
US8533203B2 (en) Identifying synonyms of entities using a document collection
Shen et al. Multi-document summarization via the minimum dominating set
US20070294235A1 (en) Hashed indexing
CN106033416A (zh) 一种字符串处理方法及装置
CN102915381B (zh) 基于多维语义的可视化网络检索呈现系统及呈现控制方法
KR101541306B1 (ko) 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
KR101651780B1 (ko) 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템
US20080114742A1 (en) Object entity searching method and object entity searching device
JP2013149061A (ja) 文書類似性評価システム、文書類似性評価方法およびコンピュータ・プログラム
JP5486667B2 (ja) クエリ結果を多様化するための方法および装置
JP5389715B2 (ja) 複合語に対する文書数予測装置及び方法及びプログラム
CN110008407A (zh) 一种信息检索方法及装置
KR101113787B1 (ko) 텍스트 색인 장치 및 방법
US9916376B2 (en) Digital document keyword generation
CN104331483B (zh) 基于短文本数据的区域事件检测方法和设备
KR102243286B1 (ko) 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체
JP2009187211A (ja) 情報検索システム、情報検索方法およびプログラム
JP5199968B2 (ja) キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム
Chen et al. SMORe: modularize graph embedding for recommendation
Anand et al. Phrase query optimization on inverted indexes
Li et al. A New Shingling Similar Text Detection Algorithm
Benna et al. Building a social network, based on collaborative tagging, to enhance social information retrieval
JP2011227732A (ja) 文書数予測装置及び方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130902

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131001

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131001

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131009

R150 Certificate of patent or registration of utility model

Ref document number: 5389715

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees