JP6520052B2 - 情報処理装置及び情報処理プログラム - Google Patents
情報処理装置及び情報処理プログラムInfo
- Publication number
- JP6520052B2 JP6520052B2 JP2014226010A JP2014226010A JP6520052B2 JP 6520052 B2 JP6520052 B2 JP 6520052B2 JP 2014226010 A JP2014226010 A JP 2014226010A JP 2014226010 A JP2014226010 A JP 2014226010A JP 6520052 B2 JP6520052 B2 JP 6520052B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- feature
- features
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、文書の特徴の組み合わせを検索条件として提示する場合にあって、複数の検索結果に対応する特徴のうち、その検索結果の絞り込みの効果が高い特徴によって構成された検索条件を提示するようにした情報処理装置及び情報処理プログラムを提供することを目的としている。
請求項1の発明は、文書と該文書の特徴を対応付けた転置インデックスから、選択された文書の特徴を抽出する抽出手段と、前記抽出手段によって抽出された特徴のいずれかを有する文書を、前記転置インデックスによって検索する検索手段と、前記検索手段による複数の検索結果に対応する特徴のうち、該検索結果の絞り込みの効果の高い特徴を選択する選択手段と、前記選択手段によって選択された特徴の組み合わせを検索条件として提示する提示手段を有し、前記選択手段は、前記特徴としてユーザーが作成した文書から抽出した特徴を選択する、情報処理装置である。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、すべての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
一般に検索システムはユーザーから検索条件を受け取り、その条件を満たす文書を提示するシステムである。ここで、検索条件とは各文書がそれぞれ固有に持つ一つ又は複数の特徴の組み合わせで表現される。
例えば、全文検索システムでは、入力としていくつかのキーワードを検索条件と受け取るが、その全文検索システムはそのキーワードを文書のテキストに含むか否かを判断し、与えられたすべてのキーワードを含む文書を検索結果として返す。
しかし、一般に蓄えられた文書がどのような特徴を有しており、検索システムにどのようにインデックスされているかをユーザーは知らず、ましてや効率良く候補を絞り込むための検索条件の与え方についての知識を持たないので、ユーザーは検索条件を何度か入力し結果を確認するという試行錯誤を繰り返してきた。つまり、このような一般的な検索システムでは、文書サーバー等に格納された文書にどのような特徴づけがなされているかをユーザーがあまり知らない場合に、効率よい検索方法を学習することが困難であった。
本実施の形態は、このようなユーザーに対して、主に学習のために検索条件を提示する。本実施の形態では、ユーザーが選択した文書に絞り込むための検索条件を提示する。ユーザーは、その文書に辿りつくためのより良い検索条件を学ぶことができる。また、検索条件の一部を修正(削除、変更、追加)することで、本来得たかった文書と検索方法を得ることができる。
文書選択モジュール120は、文書記憶モジュール110、文書特徴抽出モジュール130と接続されている。文書選択モジュール120は、ユーザーの選択操作に応じて、文書記憶モジュール110内の文書を選択する。ここで、文書とは、主にテキストデータ、場合によっては図形、画像、動画、音声等の電子データ(ファイルとも言われる)、又はこれらの組み合わせであり、検索、記憶又は編集等の対象となり、システム又は利用者間で個別の単位として交換できるものをいい、これらに類似するものを含む。具体的には、文書作成プログラムによって作成された文書、Webページ等を含む。選択する文書数は、1つであってもよいし、複数であってもよい。
また、文書特徴抽出モジュール130は、転置インデックスから、選択された文書の特徴の否定を抽出するようにしてもよい。
検索モジュール150は、文書特徴選択モジュール140と接続されている。検索モジュール150は、文書特徴抽出モジュール130によって抽出された特徴のいずれかを有する文書を、転置インデックスによって検索する。
また、文書特徴選択モジュール140は、検索モジュール150によって検索された文書の数が最も少ない特徴若しくはその文書の減少数が最も多い特徴を選択する、又は既に選択した特徴ベクトルとの角度が予め定められた条件に合致する特徴を選択するようにしてもよい。ここでの予め定められた条件として、例えば、角度が直交に最も近いものを選択してもよい。
また、文書特徴選択モジュール140は、ユーザーの熟知度に応じた特徴を選択するようにしてもよい。熟知度は、その値が高いほど、ユーザーはその単語を熟知していることを示す値である。ここで「ユーザーの熟知度に応じた特徴」として、例えば、なじみのある単語を提示するために、ユーザーの熟知度が予め定められた閾値より高い又は以上である特徴としてもよいし、ユーザーの熟知度を降順にソートした場合の予め定められた順位未満又は以下であってもよいし(なじみのある単語を提示する)、逆に、なじみのない単語を提示し、未知の単語を学習するために、ユーザーの熟知度が予め定められた閾値未満又は以下である特徴としてもよいし、ユーザーの熟知度を昇順にソートした場合の予め定められた順位未満又は以下であってもよい。
また、提示モジュール160は、文書特徴選択モジュール140によって選択された特徴の組み合わせを検索条件として検索した結果を提示するようにしてもよい。
図2(a)に示す例では、情報処理装置100、ユーザー端末210a、ユーザー端末210b、ユーザー端末210cは、通信回線290を介してそれぞれ接続されている。情報処理装置100をサーバー(クラウドコンピューティングを構成する情報処理装置を含む)として、各ユーザー端末210から利用されるようにしたものである。検索等の処理は情報処理装置100によって一括して行われ、提示モジュール160による提示結果が、各ユーザー端末210のブラウザで表示される。
図2(b)に示す例では、文書記憶装置220、ユーザー端末230a、ユーザー端末230b、ユーザー端末230cは、通信回線290を介してそれぞれ接続されている。文書記憶装置220は、文書記憶モジュール110を有しており、各ユーザー端末230は、文書選択モジュール120、文書特徴抽出モジュール130、文書特徴選択モジュール140、検索モジュール150、提示モジュール160を有している。文書記憶モジュール110を有する文書サーバーとしての文書記憶装置220を、各ユーザー端末210から利用されるようにしたものである。
ステップS302では、文書選択モジュール120は、文書記憶モジュール110からユーザーの選択操作に応じて、文書を選択する。例えば、提示されている文書リストの中から、マウス、キーボード、タッチパネル、音声等に対するユーザーの操作によって、そのユーザーが着目する文書が一つ又は複数選択される。この場合、その文書を検索するのに適した検索条件を提示させるために行われる。
ステップS304では、文書特徴抽出モジュール130は、ステップS302で選択された文書の特徴を抽出する。ここで、複数の文書が選択されていた場合は、それらすべての文書に共通の特徴を選択する。
ステップS306では、文書特徴選択モジュール140は、絞り込み効果の高い特徴(検索条件)を選択する。ステップS304で抽出した特徴を検索条件とした場合の検索スコア等を評価し、特徴を選択する。この処理の詳細は、図4の例に示すフローチャートを用いて後述する。
ステップS308では、提示モジュール160は、検索条件を提示する。ステップS306で選択された特徴をキーとして検索するための検索条件をユーザーに提示する。
ステップS402では、空の検索条件と共通の文書特徴のリスト(以下、特徴リストという)を用意する。変数の検索条件は、最終的に提示される検索条件が格納されるものであり、最初の状態は空である。特徴リストは、図3の例に示すフローチャートのステップS304で抽出された特徴群(1つ以上の特徴の集合)である。
ステップS404では、特徴リスト内の特徴に対して、それぞれ検索条件に追加し検索を実行する。最初の処理では、検索条件は空であるので、特徴リスト内の1つの特徴で検索が行われることになる。2回目は、ステップS408で特徴が1つ設定された後であるので、2つの特徴によって検索(2つの特徴のAND検索)が行われることになる。3回目以降も同様に、ステップS408で特徴が1つ加えられた後に、特徴リスト内の特徴を加えた検索(3つ以上の特徴のAND検索)が行われることになる。
ステップS408では、検索結果の評価値のうち、最も絞り込み効果の高い特徴を検索条件に加え、特徴リストからその特徴を除き、ステップS404へ戻る。なお、ここで評価値は、検索結果の絞り込みの効果が高いほど、その評価値は高くなるものを採用する。例えば、前回の検索結果と今回の検索結果の文書数の減少数(差分)であってもよい。この場合、最初のステップS408の処理においては、「前回の検索結果」として、文書記憶モジュール110内の全文書数とすればよい。
ステップS410では、検索条件を出力する。この時点での変数としての検索条件の内容を提示する。
この具体例では、文書d1,…,d10に対して、特徴p1,…,p7の場合を挙げて説明する。
ここで、特徴とは、文書に対して、ある語を含んでいるか否か、あるタグがつけられているか否か、属性が付与されているか否かなどを示すものである。また、文書dにおける特徴pの特徴量とは、文書dにおける特徴pの強さを数値化したものとする。
以下では、説明の簡略化のため特徴量を「0」,「1」の2値とする。
すると、文書d1,…,d10に対する、特徴p1,…,p7の特徴量を図5の例に示す転置インデックス500のように行列で表すことができる。
例えば、(文書d1,特徴p1)が「1」であるのは、文書d1が特徴p1を有していることを表している。同様に(文書d10,特徴p1)が「0」であるのは、文書d10が特徴p1を有していないことを表している。
ここで、図6の例に示す選択文書610のように、ユーザーが元になる文書として事前に文書d1,d2を選択したとする。
次に、文書特徴選択モジュール140が、特徴の組み合わせの抽出を行う。
ここで、よい検索条件とは絞り込みの効果が高いもの、すなわちその条件を追加することで得られる文書数が大きく減少する条件と考える。
この例の場合、全文書数10に対してp1,p2,p3,p4,p5,p6のそれぞれの特徴を検索条件とした場合の検索結果の文書数は、
特徴p1:9文書
特徴p2:8文書
特徴p3:7文書
特徴p4:8文書
特徴p5:9文書
特徴p6:6文書(図8の例に示す検索結果810、検索結果812、検索結果814参照)
となるので、図8の例に示す選択検索条件850のように、特徴p6を検索条件として選ぶ。
同様にさらなる条件として、図10の例に示す選択検索条件1050のように、特徴p5を選ぶと検索結果は文書d1,d2,d3(図10の例に示す検索結果810参照)となる。
次に、どの特徴を選んでも文書数の減少は無いので、ここで検索条件となる特徴の選択は終了となり、得られた特徴はp6,p3,p5(図10の例に示す選択検索条件850、選択検索条件950、選択検索条件1050参照)となる。
よって、得られた検索条件は、「p6 AND p3 AND p5」となる。
ここで、検索式の解釈は特徴の順によらないが、検索の効率のよい絞り込みという意味では特徴の順に意味があるので、ユーザーに対してはその順序を提示するようにしてもよい。
前述の実施の形態では、検索条件による検索結果文書の減少数に着目したが、互いの検索条件がなるべく直交していることを基準に検索条件を選ぶことも考えることができる。
n個の特徴px1,…,pxnを選んだ状態で次の特徴pxn+1を選ぶ際に、pxn+1の文書ベクトル(転置インデックス500におけるpxn+1列をベクトル(10次元)とみる)とpx1,…,pxnのベクトルとの角度を計算し(内積を用いて角度のcosを容易に求めることができる)その角度が最も大きくなるように(例えば、特徴px1,…,pxnのそれぞれの角度の最小値が最大になるような)、特徴pxn+1を選択する。このような選択を行うことによって、検索における観点が異なる特徴を選択することができる。
前述の実施の形態では、特徴量を2値とした。例えば、全文検索においてキーワードを特徴と考えた場合、特徴量としてtf・idf値(参考文献:Salton著 McGill MJ(1986).Introduction to modern information retrieval.)のような実数値を与えることで、検索結果に対して実数値のスコアを得ることができる。
この場合、特徴の選択において文書数が大きく減少するようなものを選んだとしても、そこから得られる検索結果において事前に選択した文書のスコア、あるいは順位が低い場合、その検索条件はユーザーの意図を反映しているとは言いにくいので、特徴の組み合わせの抽出において検索スコアを考慮するのが望ましい。
例えば、特徴選択において、検索スコアとして、「文書数の減少量 * 選択した文書の特徴量(例えば、tf・idf値)の最小値」が最大になるものを選ぶ、といった方法をとってもよい。
以下、具体的な例で説明する。
文書d1−d10はテキストファイルであり、そのテキストに含まれる単語のスコアが図11の例に示す転置インデックス1100のようであったとする。
ここで、ユーザーの選択操作によって、文書d1,d2が選択されたとする。
文書d1,d2の両方を含む特徴は、単語1,単語2,単語3,単語4,単語5,単語6であり、全文書数10に対して各単語を検索条件とした場合の検索結果の文書数及び文書数の減少数は、以下のようになる。
単語1: 9文書(1減少)
単語2: 8文書(2減少)
単語3: 7文書(3減少)
単語4: 8文書(2減少)
単語5: 9文書(1減少)
単語6: 6文書(4減少)
また、各単語の文書d1と文書d2のtf・idf値の最小値は以下となる。
単語1: 0.01
単語2: 0.2
単語3: 0.4
単語4: 0.01
単語5: 0.04
単語6: 0.1
よって、各単語の「文書数の減少量 * 選択した文書の特徴量の最小値」は、
単語1: 1*0.01=0.01
単語2: 2*0.2=0.4
単語3: 3*0.4=1.2
単語4: 2*0.01=0.02
単語5: 1*0.04=0.04
単語6: 4*0.1=0.4
となるので、単語3を検索条件として選択する。以下同様に、検索条件となる単語を選択していけばよい。
本実施の形態は、ユーザーが絞り込み効果の高い検索式を入力できるように学習を支援するものである。しかし、例えば、特徴を文書内の単語の出現とした場合、ユーザーにとってなじみのない単語が提示される可能性があり、その場合ユーザーの学習意欲を削ぐ可能性がある。
そこで、各特徴に対して、ユーザーのその特徴に対する熟知度を、予め与えておくようにしてもよい。
その熟知度はユーザーが過去に検索した時に検索条件として入力した特徴、ユーザーが作成した文書の特徴等から抽出するようにしてもよい。
この熟知度を用いて、例えば、特徴選択において、
「文書数の減少量 * その特徴の熟知度」
の最大になるものを選択する等の方法を用いるようにしてもよい。
逆に、検索に必要となる語として未知の語を学習してもらうために、熟知度が低い語を選択するようにしてもよい。例えば、特徴選択において、
「文書数の減少量 / その特徴の熟知度」
の最大になるものを選択する等の方法を用いるようにしてもよい。
検索条件として否定を用いるようにしてもよい。
すなわち、文書d1−d10において、特徴p1−p7を抽出する際に、検索条件としてp1,…,p7に加えて、¬p1,…,¬p7を考慮する。
図5の例に示す転置インデックス500の場合は、図12の例に示す転置インデックス1200のように、各文書について各特徴(検索条件群(正)1210)及びその否定(検索条件群(否定)1250)を満たすか否かを、転置インデックスに表すことができる。
ここで、同様にユーザーが文書d1,d2を選択した場合、それらをすべて検索しうる条件として、p1,p2,p3,p4,p5,p6,¬p7が得られるが、そのうち文書数の減少数が最も多い¬p7を検索条件として選択できる。以降、同様にして検索条件を組み立てるようにすればよい。
前述の実施の形態では、ユーザーが絞り込み効果の高い検索式を入力できるように学習を支援するものであったが、選択した文書に関連する文書を検索するようにしてもよい。
図13は、拡張例5による処理例を示すフローチャートである。
図13は、図3の例に示すフローチャートにステップS1308〜ステップS1314を付加したものである。
ステップS1302では、文書選択モジュール120は、文書記憶モジュール110からユーザーの選択操作に応じて、文書を選択する。
ステップS1304では、文書特徴抽出モジュール130は、選択された文書の特徴を抽出する。
ステップS1306では、文書特徴選択モジュール140は、絞り込み効果の高い特徴(検索条件)を選択する。この処理の詳細は、図14の例に示すフローチャートを用いて後述する。
ステップS1308では、提示モジュール160は、ステップS1306で記憶された検索結果から、現在の検索条件に対応する検索結果を抽出する。
ステップS1310では、提示モジュール160は、検索結果を関連文書として提示する。
ステップS1312では、提示モジュール160は、続けるか否かを判断し、続ける場合はステップS1314へ進み、それ以外の場合は処理を終了する(ステップS1399)。続けるか否かを判断は、ユーザーの指示操作にしたがってもよいし、予め定められた回数繰り返す等のようにしてもよい。
ステップS1314では、提示モジュール160は、次の検索条件を設定する。
図14は、図4の例に示すフローチャートにステップS1406を付加したものである。
ステップS1402では、空の検索条件と共通の文書特徴のリスト(以下、特徴リストという)を用意する。
ステップS1404では、特徴リスト内の特徴に対して、それぞれ検索条件に追加し検索を実行する。
ステップS1406では、検索結果を記憶する。
ステップS1408では、検索結果の評価値が終了条件に合致するか否かを判断し、終了条件に合致する場合はステップS1412へ進み、それ以外の場合はステップS1410へ進む。
ステップS1410では、検索結果の評価値のうち、最も絞り込み効果の高い特徴を検索条件に加え、特徴リストからその特徴を除き、ステップS1404へ戻る。
ステップS1412では、検索条件を出力する。
なお、この処理例では、ステップS1406で検索結果(関連文書)を記憶し、記憶されている検索結果を提示するようにしたが、関連文書を提示するにあたって、再度検索を行うようにしてもよい。
つまり、図14の例に示すフローチャートの代わりに、図4の例に示すフローチャートを行い、図13の例に示すステップS1308で現在の検索条件での検索を行い、ステップS1314で、現在の検索条件のうち最後の検索条件を取りはずして、検索条件を設定するようにすればよい。
なお、図15に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図15に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図15に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、情報家電、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
110…文書記憶モジュール
120…文書選択モジュール
130…文書特徴抽出モジュール
140…文書特徴選択モジュール
150…検索モジュール
160…提示モジュール
210…ユーザー端末
220…文書記憶装置
230…ユーザー端末
290…通信回線
Claims (6)
- 文書と該文書の特徴を対応付けた転置インデックスから、選択された文書の特徴を抽出する抽出手段と、
前記抽出手段によって抽出された特徴のいずれかを有する文書を、前記転置インデックスによって検索する検索手段と、
前記検索手段による複数の検索結果に対応する特徴のうち、該検索結果の絞り込みの効果の高い特徴を選択する選択手段と、
前記選択手段によって選択された特徴の組み合わせを検索条件として提示する提示手段
を有し、
前記選択手段は、前記特徴としてユーザーが作成した文書から抽出した特徴を選択する、
情報処理装置。 - 前記提示手段は、前記選択手段によって選択された順番にしたがって前記特徴を提示する
請求項1に記載の情報処理装置。 - 前記選択手段は、前記検索手段によって検索された文書の数が最も少ない特徴若しくは該文書の減少数が最も多い特徴を選択する、又は既に選択した特徴ベクトルとの角度が予め定められた条件に合致する特徴を選択する
請求項1又は2に記載の情報処理装置。 - 前記抽出手段は、前記転置インデックスから、前記選択された文書の特徴の否定を抽出する
請求項1から3のいずれか一項に記載の情報処理装置。 - 前記提示手段は、前記選択手段によって選択された特徴の組み合わせを検索条件として検索した結果を提示する
請求項1、3、4のいずれか一項に記載の情報処理装置。 - コンピュータを、
文書と該文書の特徴を対応付けた転置インデックスから、選択された文書の特徴を抽出する抽出手段と、
前記抽出手段によって抽出された特徴のいずれかを有する文書を、前記転置インデックスによって検索する検索手段と、
前記検索手段による複数の検索結果に対応する特徴のうち、該検索結果の絞り込みの効果の高い特徴を選択する選択手段と、
前記選択手段によって選択された特徴の組み合わせを検索条件として提示する提示手段
として機能させ、
前記選択手段は、前記特徴としてユーザーが作成した文書から抽出した特徴を選択する、
情報処理プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014226010A JP6520052B2 (ja) | 2014-11-06 | 2014-11-06 | 情報処理装置及び情報処理プログラム |
US14/718,379 US10025851B2 (en) | 2014-11-06 | 2015-05-21 | Information processing apparatus, information processing method and non-transitory computer readable medium |
AU2015203102A AU2015203102B2 (en) | 2014-11-06 | 2015-06-10 | Information processing apparatus and information processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014226010A JP6520052B2 (ja) | 2014-11-06 | 2014-11-06 | 情報処理装置及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016091354A JP2016091354A (ja) | 2016-05-23 |
JP6520052B2 true JP6520052B2 (ja) | 2019-05-29 |
Family
ID=55912387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014226010A Active JP6520052B2 (ja) | 2014-11-06 | 2014-11-06 | 情報処理装置及び情報処理プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10025851B2 (ja) |
JP (1) | JP6520052B2 (ja) |
AU (1) | AU2015203102B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883160B (zh) * | 2021-02-25 | 2023-04-07 | 江西知本位科技创业发展有限公司 | 一种用于成果转移转化的捕捉方法及辅助系统 |
CN115033747B (zh) * | 2022-06-24 | 2023-05-30 | 北京百度网讯科技有限公司 | 异常状态的检索方法及其装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02158870A (ja) | 1988-12-12 | 1990-06-19 | Nippon Telegr & Teleph Corp <Ntt> | データベース検索方式 |
JPH03129472A (ja) | 1989-07-31 | 1991-06-03 | Ricoh Co Ltd | 文書検索装置における処理方法 |
JP3282937B2 (ja) * | 1995-01-12 | 2002-05-20 | 日本アイ・ビー・エム株式会社 | 情報検索方法及びシステム |
JP3422350B2 (ja) * | 1996-02-09 | 2003-06-30 | 日本電信電話株式会社 | 追加検索語候補提示方法、文書検索方法およびそれらの装置 |
US5987457A (en) * | 1997-11-25 | 1999-11-16 | Acceleration Software International Corporation | Query refinement method for searching documents |
JP4049317B2 (ja) * | 2003-05-14 | 2008-02-20 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 検索支援装置およびプログラム |
JP2006178599A (ja) * | 2004-12-21 | 2006-07-06 | Fuji Xerox Co Ltd | 文書検索装置および方法 |
US7822752B2 (en) * | 2007-05-18 | 2010-10-26 | Microsoft Corporation | Efficient retrieval algorithm by query term discrimination |
US20110004588A1 (en) * | 2009-05-11 | 2011-01-06 | iMedix Inc. | Method for enhancing the performance of a medical search engine based on semantic analysis and user feedback |
US20110047136A1 (en) * | 2009-06-03 | 2011-02-24 | Michael Hans Dehn | Method For One-Click Exclusion Of Undesired Search Engine Query Results Without Clustering Analysis |
US8122043B2 (en) | 2009-06-30 | 2012-02-21 | Ebsco Industries, Inc | System and method for using an exemplar document to retrieve relevant documents from an inverted index of a large corpus |
JP5208229B2 (ja) * | 2011-02-16 | 2013-06-12 | ヤフー株式会社 | 検索サジェスト装置及び方法 |
US8566340B2 (en) * | 2011-12-07 | 2013-10-22 | Microsoft Corporation | Provision of query suggestions independent of query logs |
JP6079207B2 (ja) * | 2012-12-18 | 2017-02-15 | 富士通株式会社 | キーワード提示プログラム、キーワード提示方法及びキーワード提示装置 |
-
2014
- 2014-11-06 JP JP2014226010A patent/JP6520052B2/ja active Active
-
2015
- 2015-05-21 US US14/718,379 patent/US10025851B2/en active Active
- 2015-06-10 AU AU2015203102A patent/AU2015203102B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
AU2015203102B2 (en) | 2017-03-30 |
US20160132592A1 (en) | 2016-05-12 |
US10025851B2 (en) | 2018-07-17 |
JP2016091354A (ja) | 2016-05-23 |
AU2015203102A1 (en) | 2016-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11341419B2 (en) | Method of and system for generating a prediction model and determining an accuracy of a prediction model | |
JP6141305B2 (ja) | 画像検索 | |
US11609920B2 (en) | Ranking and presenting search engine results based on category-specific ranking models | |
KR100930455B1 (ko) | 쿼리별 검색 컬렉션 생성 방법 및 시스템 | |
JP2017224184A (ja) | 機械学習装置 | |
KR101510973B1 (ko) | 언어 로캘에 기초한 인덱싱 및 검색 방법 | |
US9805035B2 (en) | Systems and methods for multimedia image clustering | |
US20150302036A1 (en) | Method, system and computer program for information retrieval using content algebra | |
US20120046937A1 (en) | Semantic classification of variable data campaign information | |
US8612882B1 (en) | Method and apparatus for creating collections using automatic suggestions | |
JP6520052B2 (ja) | 情報処理装置及び情報処理プログラム | |
CN111143400A (zh) | 一种全栈式检索方法、系统、引擎及电子设备 | |
JP5891875B2 (ja) | 情報処理装置及び情報処理プログラム | |
WO2021055868A1 (en) | Associating user-provided content items to interest nodes | |
CN117194322A (zh) | 文件分类管理方法、系统及计算设备 | |
CN109117434A (zh) | 裁判文书检索方法、装置、存储介质及处理器 | |
JP2009252185A (ja) | 情報検索装置、情報検索方法、制御プログラム及び記録媒体 | |
Maiya et al. | Exploratory analysis of highly heterogeneous document collections | |
JP2016018279A (ja) | 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法 | |
JP2012043258A (ja) | 検索システム、検索装置、検索プログラム、記録媒体及び検索方法 | |
JP2012027841A (ja) | 検索プログラム、検索装置、検索システム、検索方法及び記録媒体 | |
WO2019163610A1 (ja) | 情報処理システム及び情報処理方法 | |
JP6707410B2 (ja) | 文献検索装置、文献検索方法およびコンピュータプログラム | |
JP5018346B2 (ja) | 情報処理装置及び情報処理プログラム | |
US20200012652A1 (en) | Method and server for ranking documents on a seerp |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170926 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180821 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180904 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181030 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190415 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6520052 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |