JP6520052B2 - 情報処理装置及び情報処理プログラム - Google Patents

情報処理装置及び情報処理プログラム

Info

Publication number
JP6520052B2
JP6520052B2 JP2014226010A JP2014226010A JP6520052B2 JP 6520052 B2 JP6520052 B2 JP 6520052B2 JP 2014226010 A JP2014226010 A JP 2014226010A JP 2014226010 A JP2014226010 A JP 2014226010A JP 6520052 B2 JP6520052 B2 JP 6520052B2
Authority
JP
Japan
Prior art keywords
document
search
feature
features
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014226010A
Other languages
English (en)
Other versions
JP2016091354A (ja
Inventor
基行 鷹合
基行 鷹合
鈴木 星児
星児 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2014226010A priority Critical patent/JP6520052B2/ja
Priority to US14/718,379 priority patent/US10025851B2/en
Priority to AU2015203102A priority patent/AU2015203102B2/en
Publication of JP2016091354A publication Critical patent/JP2016091354A/ja
Application granted granted Critical
Publication of JP6520052B2 publication Critical patent/JP6520052B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置及び情報処理プログラムに関する。
特許文献1には、検索条件入力型の情報検索方式において、操作者が試行錯誤的に検索条件を入力しなければならないという欠点を克服することを目的とし、情報の蓄積された情報蓄積部と、該情報蓄積部に蓄積された各情報の識別番号とそのインデックスとが蓄積されたメインインデックステーブルと、操作者から入力された検索条件に適合するインデックスを該メインインデックステーブルから検索し、検索された情報に付されているインデックスを検索条件リスト生成部に出力する検索制御部と、該検索制御部から入力されたインデックスと操作者が入力した所望の検索件数とから、該所望の検索件数を満足する1つ又は複数個の検索条件を表示部に出力する検索条件リスト生成部とから構成され、操作者に対して表示部に表示されたいくつかの検索条件から所望の検索条件を選択させる表示を行うようにしたことを特徴とするデータ検索方式について開示されている。
特許文献2には、登録文書及びその書誌的情報を文書データベースに登録する際に前記登録文書からキーワードを抽出するキーワード抽出手段と、前記登録文書と前記キーワードとの間の関連を示すインバーテッドファイルを作成するインバーテッドファイル作成手段と、前記キーワード間の関連度を記述したキーワードコネクション表を作成するとともに既に登録されている関連度の値を修正し新規関連度を生成するキーワードコネクション管理手段とを設け、利用者が入力した検索条件に含まれるキーワード式と各ファイル内の登録文書のキーワード群との間の関連の強さを示す値を文書確度と定義して前記キーワードコネクション表、インバーテッドファイル及び所定の方法により文書確度を計算する文書確度計算手段と、算出された文書確度の大きさの順に検索結果の複数の文書を出力する文書ソート・表示管理手段と、検索結果内の文書毎に与えられている文書確度を利用者が対話的に適切か否か判断指示した時に所定の方法によりキーワードコネクションの重みを変更させる学習管理手段とを有する文書選出手段を設け、前記検索条件に合致した文書を選出するようにした文書検索装置において、キーワードを論理積と論理和と否定との演算子を任意に結合させたキーワード式で検索条件を入力させ、所定の計算式によりこの検索条件に対して適切な文書に大きな値の文書確度を与える文書確度計算処理を行わせるようにしたことを特徴とする文書検索装置における処理方法について開示されている。
特開平02−158870号公報 特開平03−129472号公報
ところで、検索式を提示するにあたって、一般的に、複雑な検索式の入力を簡便にするために行うものであって、効率よい検索方法を学習する観点で行うものはない。
本発明は、文書の特徴の組み合わせを検索条件として提示する場合にあって、複数の検索結果に対応する特徴のうち、その検索結果の絞り込みの効果が高い特徴によって構成された検索条件を提示するようにした情報処理装置及び情報処理プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、文書と該文書の特徴を対応付けた転置インデックスから、選択された文書の特徴を抽出する抽出手段と、前記抽出手段によって抽出された特徴のいずれかを有する文書を、前記転置インデックスによって検索する検索手段と、前記検索手段による複数の検索結果に対応する特徴のうち、該検索結果の絞り込みの効果の高い特徴を選択する選択手段と、前記選択手段によって選択された特徴の組み合わせを検索条件として提示する提示手段を有し、前記選択手段は、前記特徴としてユーザーが作成した文書から抽出した特徴を選択する、情報処理装置である。
請求項2の発明は、前記提示手段は、前記選択手段によって選択された順番にしたがって前記特徴を提示する請求項1に記載の情報処理装置である。
請求項3の発明は、前記選択手段は、前記検索手段によって検索された文書の数が最も少ない特徴若しくは該文書の減少数が最も多い特徴を選択する、又は既に選択した特徴ベクトルとの角度が予め定められた条件に合致する特徴を選択する請求項1又は2に記載の情報処理装置である。
請求項の発明は、前記抽出手段は、前記転置インデックスから、前記選択された文書の特徴の否定を抽出する請求項1からのいずれか一項に記載の情報処理装置である。
請求項の発明は、前記提示手段は、前記選択手段によって選択された特徴の組み合わせを検索条件として検索した結果を提示する請求項1、3、4のいずれか一項に記載の情報処理装置である。
請求項の発明は、コンピュータを、文書と該文書の特徴を対応付けた転置インデックスから、選択された文書の特徴を抽出する抽出手段と、前記抽出手段によって抽出された特徴のいずれかを有する文書を、前記転置インデックスによって検索する検索手段と、前記検索手段による複数の検索結果に対応する特徴のうち、該検索結果の絞り込みの効果の高い特徴を選択する選択手段と、前記選択手段によって選択された特徴の組み合わせを検索条件として提示する提示手段として機能させ、前記選択手段は、前記特徴としてユーザーが作成した文書から抽出した特徴を選択する、情報処理プログラムである。
請求項1の情報処理装置によれば、文書の特徴の組み合わせを検索条件として提示する場合にあって、複数の検索結果に対応する特徴のうち、その検索結果の絞り込みの効果の高い特徴によって構成された検索条件を提示することができる。
請求項2の情報処理装置によれば、選択された順番にしたがって特徴を提示することができる。
請求項3の情報処理装置によれば、検索結果の絞り込みの効果の高い特徴として、検索された文書の数が最も少ない特徴若しくはその文書の減少数が最も多い特徴を選択する、又は既に選択した特徴ベクトルとの角度が予め定められた条件に合致する特徴を選択することができる。
請求項の情報処理装置によれば、転置インデックスから、前記選択された文書の特徴の否定を抽出することができる。
請求項の情報処理装置によれば、選択された特徴の組み合わせを検索条件として検索した結果を提示することができる。
請求項の情報処理プログラムによれば、文書の特徴の組み合わせを検索条件として提示する場合にあって、複数の検索結果に対応する特徴のうち、その検索結果の絞り込みの効果の高い特徴によって構成された検索条件を提示することができる。
本実施の形態の構成例についての概念的なモジュール構成図である。 本実施の形態を利用したシステム構成例を示す説明図である。 本実施の形態による処理例を示すフローチャートである。 本実施の形態による処理例を示すフローチャートである。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示すフローチャートである。 本実施の形態による処理例を示すフローチャートである。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、すべての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
本実施の形態である情報処理装置100は、文書の特徴の組み合わせを検索条件として提示するものであって、図1の例に示すように、文書記憶モジュール110、文書選択モジュール120、文書特徴抽出モジュール130、文書特徴選択モジュール140、検索モジュール150、提示モジュール160を有している。文書の特徴とは、その文書を検索するにあたって検索語となるものであればよい。例えば、その文書内の単語であってもよいし、その文書の属性等であってもよい。
一般に検索システムはユーザーから検索条件を受け取り、その条件を満たす文書を提示するシステムである。ここで、検索条件とは各文書がそれぞれ固有に持つ一つ又は複数の特徴の組み合わせで表現される。
例えば、全文検索システムでは、入力としていくつかのキーワードを検索条件と受け取るが、その全文検索システムはそのキーワードを文書のテキストに含むか否かを判断し、与えられたすべてのキーワードを含む文書を検索結果として返す。
しかし、一般に蓄えられた文書がどのような特徴を有しており、検索システムにどのようにインデックスされているかをユーザーは知らず、ましてや効率良く候補を絞り込むための検索条件の与え方についての知識を持たないので、ユーザーは検索条件を何度か入力し結果を確認するという試行錯誤を繰り返してきた。つまり、このような一般的な検索システムでは、文書サーバー等に格納された文書にどのような特徴づけがなされているかをユーザーがあまり知らない場合に、効率よい検索方法を学習することが困難であった。
本実施の形態は、このようなユーザーに対して、主に学習のために検索条件を提示する。本実施の形態では、ユーザーが選択した文書に絞り込むための検索条件を提示する。ユーザーは、その文書に辿りつくためのより良い検索条件を学ぶことができる。また、検索条件の一部を修正(削除、変更、追加)することで、本来得たかった文書と検索方法を得ることができる。
文書記憶モジュール110は、文書選択モジュール120と接続されている。文書記憶モジュール110は、文書を記憶している。また、それらの文書を検索するための、文書とその文書の特徴を対応付けた転置インデックスを記憶していてもよい。ここで、転置インデックスとは、全文検索を行う対象となる文書群から単語の位置情報を格納するための索引構造のことである。なお、文書記憶モジュール110は、必ずしも情報処理装置100内に構成されている必要は無く、例えば、通信回線を介して情報処理装置100に接続されていてもよい。
文書選択モジュール120は、文書記憶モジュール110、文書特徴抽出モジュール130と接続されている。文書選択モジュール120は、ユーザーの選択操作に応じて、文書記憶モジュール110内の文書を選択する。ここで、文書とは、主にテキストデータ、場合によっては図形、画像、動画、音声等の電子データ(ファイルとも言われる)、又はこれらの組み合わせであり、検索、記憶又は編集等の対象となり、システム又は利用者間で個別の単位として交換できるものをいい、これらに類似するものを含む。具体的には、文書作成プログラムによって作成された文書、Webページ等を含む。選択する文書数は、1つであってもよいし、複数であってもよい。
文書特徴抽出モジュール130は、文書選択モジュール120、文書特徴選択モジュール140と接続されている。文書特徴抽出モジュール130は、文書と該文書の特徴を対応付けた転置インデックスから、選択された文書の特徴を抽出する。
また、文書特徴抽出モジュール130は、転置インデックスから、選択された文書の特徴の否定を抽出するようにしてもよい。
検索モジュール150は、文書特徴選択モジュール140と接続されている。検索モジュール150は、文書特徴抽出モジュール130によって抽出された特徴のいずれかを有する文書を、転置インデックスによって検索する。
文書特徴選択モジュール140は、文書特徴抽出モジュール130、検索モジュール150、提示モジュール160と接続されている。文書特徴選択モジュール140は、検索モジュール150による複数の検索結果に対応する特徴のうち、その検索結果の絞り込みの効果の高い特徴を選択する。また、文書特徴選択モジュール140は、検索モジュール150による検索処理と文書特徴選択モジュール140による選択処理を繰り返すように制御するようにしてもよい。
また、文書特徴選択モジュール140は、検索モジュール150によって検索された文書の数が最も少ない特徴若しくはその文書の減少数が最も多い特徴を選択する、又は既に選択した特徴ベクトルとの角度が予め定められた条件に合致する特徴を選択するようにしてもよい。ここでの予め定められた条件として、例えば、角度が直交に最も近いものを選択してもよい。
また、文書特徴選択モジュール140は、ユーザーの熟知度に応じた特徴を選択するようにしてもよい。熟知度は、その値が高いほど、ユーザーはその単語を熟知していることを示す値である。ここで「ユーザーの熟知度に応じた特徴」として、例えば、なじみのある単語を提示するために、ユーザーの熟知度が予め定められた閾値より高い又は以上である特徴としてもよいし、ユーザーの熟知度を降順にソートした場合の予め定められた順位未満又は以下であってもよいし(なじみのある単語を提示する)、逆に、なじみのない単語を提示し、未知の単語を学習するために、ユーザーの熟知度が予め定められた閾値未満又は以下である特徴としてもよいし、ユーザーの熟知度を昇順にソートした場合の予め定められた順位未満又は以下であってもよい。
提示モジュール160は、文書特徴選択モジュール140と接続されている。提示モジュール160は、文書特徴選択モジュール140によって選択された特徴の組み合わせを検索条件として提示する。例えば、液晶ディスプレイ等の表示装置に提示する。また、提示モジュール160は、文書特徴選択モジュール140によって選択された順番にしたがって、検索条件としての特徴を提示するようにしてもよい。
また、提示モジュール160は、文書特徴選択モジュール140によって選択された特徴の組み合わせを検索条件として検索した結果を提示するようにしてもよい。
図2は、本実施の形態を利用したシステム構成例を示す説明図である。
図2(a)に示す例では、情報処理装置100、ユーザー端末210a、ユーザー端末210b、ユーザー端末210cは、通信回線290を介してそれぞれ接続されている。情報処理装置100をサーバー(クラウドコンピューティングを構成する情報処理装置を含む)として、各ユーザー端末210から利用されるようにしたものである。検索等の処理は情報処理装置100によって一括して行われ、提示モジュール160による提示結果が、各ユーザー端末210のブラウザで表示される。
図2(b)に示す例では、文書記憶装置220、ユーザー端末230a、ユーザー端末230b、ユーザー端末230cは、通信回線290を介してそれぞれ接続されている。文書記憶装置220は、文書記憶モジュール110を有しており、各ユーザー端末230は、文書選択モジュール120、文書特徴抽出モジュール130、文書特徴選択モジュール140、検索モジュール150、提示モジュール160を有している。文書記憶モジュール110を有する文書サーバーとしての文書記憶装置220を、各ユーザー端末210から利用されるようにしたものである。
図3は、本実施の形態による処理例を示すフローチャートである。
ステップS302では、文書選択モジュール120は、文書記憶モジュール110からユーザーの選択操作に応じて、文書を選択する。例えば、提示されている文書リストの中から、マウス、キーボード、タッチパネル、音声等に対するユーザーの操作によって、そのユーザーが着目する文書が一つ又は複数選択される。この場合、その文書を検索するのに適した検索条件を提示させるために行われる。
ステップS304では、文書特徴抽出モジュール130は、ステップS302で選択された文書の特徴を抽出する。ここで、複数の文書が選択されていた場合は、それらすべての文書に共通の特徴を選択する。
ステップS306では、文書特徴選択モジュール140は、絞り込み効果の高い特徴(検索条件)を選択する。ステップS304で抽出した特徴を検索条件とした場合の検索スコア等を評価し、特徴を選択する。この処理の詳細は、図4の例に示すフローチャートを用いて後述する。
ステップS308では、提示モジュール160は、検索条件を提示する。ステップS306で選択された特徴をキーとして検索するための検索条件をユーザーに提示する。
図4は、本実施の形態による処理例を示すフローチャートである。
ステップS402では、空の検索条件と共通の文書特徴のリスト(以下、特徴リストという)を用意する。変数の検索条件は、最終的に提示される検索条件が格納されるものであり、最初の状態は空である。特徴リストは、図3の例に示すフローチャートのステップS304で抽出された特徴群(1つ以上の特徴の集合)である。
ステップS404では、特徴リスト内の特徴に対して、それぞれ検索条件に追加し検索を実行する。最初の処理では、検索条件は空であるので、特徴リスト内の1つの特徴で検索が行われることになる。2回目は、ステップS408で特徴が1つ設定された後であるので、2つの特徴によって検索(2つの特徴のAND検索)が行われることになる。3回目以降も同様に、ステップS408で特徴が1つ加えられた後に、特徴リスト内の特徴を加えた検索(3つ以上の特徴のAND検索)が行われることになる。
ステップS406では、検索結果の評価値が終了条件に合致するか否かを判断し、終了条件に合致する場合はステップS410へ進み、それ以外の場合はステップS408へ進む。ここでの終了するか否かの判断は、例えば、前回の検索結果の文書数と今回の検索結果の文書数が異ならない場合(今回と前回の検索結果とを比較して、文書数の減少数が0となった場合)に終了すると判断してもよいし、減少数が予め定められた閾値未満又は以下となった場合に終了すると判断してもよいし、予め定められた回数だけ繰り返された場合に終了すると判断してもよいし、検索結果の文書数が予め定められた閾値未満又は以下となった場合に終了すると判断してもよい。
ステップS408では、検索結果の評価値のうち、最も絞り込み効果の高い特徴を検索条件に加え、特徴リストからその特徴を除き、ステップS404へ戻る。なお、ここで評価値は、検索結果の絞り込みの効果が高いほど、その評価値は高くなるものを採用する。例えば、前回の検索結果と今回の検索結果の文書数の減少数(差分)であってもよい。この場合、最初のステップS408の処理においては、「前回の検索結果」として、文書記憶モジュール110内の全文書数とすればよい。
ステップS410では、検索条件を出力する。この時点での変数としての検索条件の内容を提示する。
以下、具体例を用いて説明する。
この具体例では、文書d1,…,d10に対して、特徴p1,…,p7の場合を挙げて説明する。
ここで、特徴とは、文書に対して、ある語を含んでいるか否か、あるタグがつけられているか否か、属性が付与されているか否かなどを示すものである。また、文書dにおける特徴pの特徴量とは、文書dにおける特徴pの強さを数値化したものとする。
以下では、説明の簡略化のため特徴量を「0」,「1」の2値とする。
すると、文書d1,…,d10に対する、特徴p1,…,p7の特徴量を図5の例に示す転置インデックス500のように行列で表すことができる。
例えば、(文書d1,特徴p1)が「1」であるのは、文書d1が特徴p1を有していることを表している。同様に(文書d10,特徴p1)が「0」であるのは、文書d10が特徴p1を有していないことを表している。
ここで、図6の例に示す選択文書610のように、ユーザーが元になる文書として事前に文書d1,d2を選択したとする。
文書特徴抽出モジュール130は、文書d1,d2の両方が1になるような特徴(文書d1,d2がともに検索結果に含まれるような特徴)をすべて選び出す。すなわち、図7の例に示す特徴選択結果710のように、特徴p1,p2,p3,p4,p5,p6の6つとなる。
次に、文書特徴選択モジュール140が、特徴の組み合わせの抽出を行う。
ここで、よい検索条件とは絞り込みの効果が高いもの、すなわちその条件を追加することで得られる文書数が大きく減少する条件と考える。
この例の場合、全文書数10に対してp1,p2,p3,p4,p5,p6のそれぞれの特徴を検索条件とした場合の検索結果の文書数は、
特徴p1:9文書
特徴p2:8文書
特徴p3:7文書
特徴p4:8文書
特徴p5:9文書
特徴p6:6文書(図8の例に示す検索結果810、検索結果812、検索結果814参照)
となるので、図8の例に示す選択検索条件850のように、特徴p6を検索条件として選ぶ。
次に、特徴p6を加えた検索条件とした場合の検索結果である文書d1,d2,d3,d5,d7,d8に対して、残りの特徴のうち検索条件とした場合の文書の減少数が最も大きいものを選ぶと、図9の例に示す選択検索条件950のように、特徴p3を選んだ場合の検索結果は文書d1,d2,d3,d5(図9の例に示す検索結果810、検索結果812参照)となる。
同様にさらなる条件として、図10の例に示す選択検索条件1050のように、特徴p5を選ぶと検索結果は文書d1,d2,d3(図10の例に示す検索結果810参照)となる。
次に、どの特徴を選んでも文書数の減少は無いので、ここで検索条件となる特徴の選択は終了となり、得られた特徴はp6,p3,p5(図10の例に示す選択検索条件850、選択検索条件950、選択検索条件1050参照)となる。
よって、得られた検索条件は、「p6 AND p3 AND p5」となる。
ここで、検索式の解釈は特徴の順によらないが、検索の効率のよい絞り込みという意味では特徴の順に意味があるので、ユーザーに対してはその順序を提示するようにしてもよい。
<拡張例1>
前述の実施の形態では、検索条件による検索結果文書の減少数に着目したが、互いの検索条件がなるべく直交していることを基準に検索条件を選ぶことも考えることができる。
n個の特徴px1,…,pxnを選んだ状態で次の特徴pxn+1を選ぶ際に、pxn+1の文書ベクトル(転置インデックス500におけるpxn+1列をベクトル(10次元)とみる)とpx1,…,pxnのベクトルとの角度を計算し(内積を用いて角度のcosを容易に求めることができる)その角度が最も大きくなるように(例えば、特徴px1,…,pxnのそれぞれの角度の最小値が最大になるような)、特徴pxn+1を選択する。このような選択を行うことによって、検索における観点が異なる特徴を選択することができる。
<拡張例2>
前述の実施の形態では、特徴量を2値とした。例えば、全文検索においてキーワードを特徴と考えた場合、特徴量としてtf・idf値(参考文献:Salton著 McGill MJ(1986).Introduction to modern information retrieval.)のような実数値を与えることで、検索結果に対して実数値のスコアを得ることができる。
この場合、特徴の選択において文書数が大きく減少するようなものを選んだとしても、そこから得られる検索結果において事前に選択した文書のスコア、あるいは順位が低い場合、その検索条件はユーザーの意図を反映しているとは言いにくいので、特徴の組み合わせの抽出において検索スコアを考慮するのが望ましい。
例えば、特徴選択において、検索スコアとして、「文書数の減少量 * 選択した文書の特徴量(例えば、tf・idf値)の最小値」が最大になるものを選ぶ、といった方法をとってもよい。
以下、具体的な例で説明する。
文書d1−d10はテキストファイルであり、そのテキストに含まれる単語のスコアが図11の例に示す転置インデックス1100のようであったとする。
スコアはその単語が多くの文書にわたって含まれる場合は低く、特定の文書に多く含まれる場合は高くなるように、値付けを行う。例えばTf・idf法による計算を用いる。図11の例に示す転置インデックス1100では、単語1は助詞「は」のように多くの文書にわたって含まれる語であって、単語7は専門用語のように特定の文書に多く含まれる語である。
ここで、ユーザーの選択操作によって、文書d1,d2が選択されたとする。
文書d1,d2の両方を含む特徴は、単語1,単語2,単語3,単語4,単語5,単語6であり、全文書数10に対して各単語を検索条件とした場合の検索結果の文書数及び文書数の減少数は、以下のようになる。
単語1: 9文書(1減少)
単語2: 8文書(2減少)
単語3: 7文書(3減少)
単語4: 8文書(2減少)
単語5: 9文書(1減少)
単語6: 6文書(4減少)
また、各単語の文書d1と文書d2のtf・idf値の最小値は以下となる。
単語1: 0.01
単語2: 0.2
単語3: 0.4
単語4: 0.01
単語5: 0.04
単語6: 0.1
よって、各単語の「文書数の減少量 * 選択した文書の特徴量の最小値」は、
単語1: 1*0.01=0.01
単語2: 2*0.2=0.4
単語3: 3*0.4=1.2
単語4: 2*0.01=0.02
単語5: 1*0.04=0.04
単語6: 4*0.1=0.4
となるので、単語3を検索条件として選択する。以下同様に、検索条件となる単語を選択していけばよい。
<拡張例3>
本実施の形態は、ユーザーが絞り込み効果の高い検索式を入力できるように学習を支援するものである。しかし、例えば、特徴を文書内の単語の出現とした場合、ユーザーにとってなじみのない単語が提示される可能性があり、その場合ユーザーの学習意欲を削ぐ可能性がある。
そこで、各特徴に対して、ユーザーのその特徴に対する熟知度を、予め与えておくようにしてもよい。
その熟知度はユーザーが過去に検索した時に検索条件として入力した特徴、ユーザーが作成した文書の特徴等から抽出するようにしてもよい。
この熟知度を用いて、例えば、特徴選択において、
「文書数の減少量 * その特徴の熟知度」
の最大になるものを選択する等の方法を用いるようにしてもよい。
逆に、検索に必要となる語として未知の語を学習してもらうために、熟知度が低い語を選択するようにしてもよい。例えば、特徴選択において、
「文書数の減少量 / その特徴の熟知度」
の最大になるものを選択する等の方法を用いるようにしてもよい。
<拡張例4>
検索条件として否定を用いるようにしてもよい。
すなわち、文書d1−d10において、特徴p1−p7を抽出する際に、検索条件としてp1,…,p7に加えて、¬p1,…,¬p7を考慮する。
図5の例に示す転置インデックス500の場合は、図12の例に示す転置インデックス1200のように、各文書について各特徴(検索条件群(正)1210)及びその否定(検索条件群(否定)1250)を満たすか否かを、転置インデックスに表すことができる。
ここで、同様にユーザーが文書d1,d2を選択した場合、それらをすべて検索しうる条件として、p1,p2,p3,p4,p5,p6,¬p7が得られるが、そのうち文書数の減少数が最も多い¬p7を検索条件として選択できる。以降、同様にして検索条件を組み立てるようにすればよい。
<拡張例5>
前述の実施の形態では、ユーザーが絞り込み効果の高い検索式を入力できるように学習を支援するものであったが、選択した文書に関連する文書を検索するようにしてもよい。
図13は、拡張例5による処理例を示すフローチャートである。
図13は、図3の例に示すフローチャートにステップS1308〜ステップS1314を付加したものである。
ステップS1302では、文書選択モジュール120は、文書記憶モジュール110からユーザーの選択操作に応じて、文書を選択する。
ステップS1304では、文書特徴抽出モジュール130は、選択された文書の特徴を抽出する。
ステップS1306では、文書特徴選択モジュール140は、絞り込み効果の高い特徴(検索条件)を選択する。この処理の詳細は、図14の例に示すフローチャートを用いて後述する。
ステップS1308では、提示モジュール160は、ステップS1306で記憶された検索結果から、現在の検索条件に対応する検索結果を抽出する。
ステップS1310では、提示モジュール160は、検索結果を関連文書として提示する。
ステップS1312では、提示モジュール160は、続けるか否かを判断し、続ける場合はステップS1314へ進み、それ以外の場合は処理を終了する(ステップS1399)。続けるか否かを判断は、ユーザーの指示操作にしたがってもよいし、予め定められた回数繰り返す等のようにしてもよい。
ステップS1314では、提示モジュール160は、次の検索条件を設定する。
図14は、拡張例5による処理(図13の例に示すフローチャート内のステップS1306)例を示すフローチャートである。
図14は、図4の例に示すフローチャートにステップS1406を付加したものである。
ステップS1402では、空の検索条件と共通の文書特徴のリスト(以下、特徴リストという)を用意する。
ステップS1404では、特徴リスト内の特徴に対して、それぞれ検索条件に追加し検索を実行する。
ステップS1406では、検索結果を記憶する。
ステップS1408では、検索結果の評価値が終了条件に合致するか否かを判断し、終了条件に合致する場合はステップS1412へ進み、それ以外の場合はステップS1410へ進む。
ステップS1410では、検索結果の評価値のうち、最も絞り込み効果の高い特徴を検索条件に加え、特徴リストからその特徴を除き、ステップS1404へ戻る。
ステップS1412では、検索条件を出力する。
なお、この処理例では、ステップS1406で検索結果(関連文書)を記憶し、記憶されている検索結果を提示するようにしたが、関連文書を提示するにあたって、再度検索を行うようにしてもよい。
つまり、図14の例に示すフローチャートの代わりに、図4の例に示すフローチャートを行い、図13の例に示すステップS1308で現在の検索条件での検索を行い、ステップS1314で、現在の検索条件のうち最後の検索条件を取りはずして、検索条件を設定するようにすればよい。
なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図15に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部(演算部)としてCPU1501を用い、記憶装置としてRAM1502、ROM1503、HD1504を用いている。HD1504として、例えばハードディスク、SSD(Solid State Drive)を用いてもよい。文書選択モジュール120、文書特徴抽出モジュール130、文書特徴選択モジュール140、検索モジュール150、提示モジュール160等のプログラムを実行するCPU1501と、そのプログラムやデータを記憶するRAM1502と、本コンピュータを起動するためのプログラム等が格納されているROM1503と、文書記憶モジュール110等の機能を有する補助記憶装置(フラッシュメモリ等であってもよい)であるHD1504と、キーボード、マウス、タッチパネル等に対する利用者の操作に基づいてデータを受け付ける受付装置1506と、CRT、液晶ディスプレイ等の出力装置1505と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース1507、そして、それらをつないでデータのやりとりをするためのバス1508により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。
前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図15に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図15に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図15に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、情報家電、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
また、前述の実施の形態の説明において、予め定められた値との比較において、「以上」、「以下」、「より大きい」、「より小さい(未満)」としたものは、その組み合わせに矛盾が生じない限り、それぞれ「より大きい」、「より小さい(未満)」、「以上」、「以下」としてもよい。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
100…情報処理装置
110…文書記憶モジュール
120…文書選択モジュール
130…文書特徴抽出モジュール
140…文書特徴選択モジュール
150…検索モジュール
160…提示モジュール
210…ユーザー端末
220…文書記憶装置
230…ユーザー端末
290…通信回線

Claims (6)

  1. 文書と該文書の特徴を対応付けた転置インデックスから、選択された文書の特徴を抽出する抽出手段と、
    前記抽出手段によって抽出された特徴のいずれかを有する文書を、前記転置インデックスによって検索する検索手段と、
    前記検索手段による複数の検索結果に対応する特徴のうち、該検索結果の絞り込みの効果の高い特徴を選択する選択手段と、
    前記選択手段によって選択された特徴の組み合わせを検索条件として提示する提示手段
    を有し、
    前記選択手段は、前記特徴としてユーザーが作成した文書から抽出した特徴を選択する、
    情報処理装置。
  2. 前記提示手段は、前記選択手段によって選択された順番にしたがって前記特徴を提示する
    請求項1に記載の情報処理装置。
  3. 前記選択手段は、前記検索手段によって検索された文書の数が最も少ない特徴若しくは該文書の減少数が最も多い特徴を選択する、又は既に選択した特徴ベクトルとの角度が予め定められた条件に合致する特徴を選択する
    請求項1又は2に記載の情報処理装置。
  4. 前記抽出手段は、前記転置インデックスから、前記選択された文書の特徴の否定を抽出する
    請求項1からのいずれか一項に記載の情報処理装置。
  5. 前記提示手段は、前記選択手段によって選択された特徴の組み合わせを検索条件として検索した結果を提示する
    請求項1、3、4のいずれか一項に記載の情報処理装置。
  6. コンピュータを、
    文書と該文書の特徴を対応付けた転置インデックスから、選択された文書の特徴を抽出する抽出手段と、
    前記抽出手段によって抽出された特徴のいずれかを有する文書を、前記転置インデックスによって検索する検索手段と、
    前記検索手段による複数の検索結果に対応する特徴のうち、該検索結果の絞り込みの効果の高い特徴を選択する選択手段と、
    前記選択手段によって選択された特徴の組み合わせを検索条件として提示する提示手段
    として機能させ
    前記選択手段は、前記特徴としてユーザーが作成した文書から抽出した特徴を選択する、
    情報処理プログラム。
JP2014226010A 2014-11-06 2014-11-06 情報処理装置及び情報処理プログラム Active JP6520052B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014226010A JP6520052B2 (ja) 2014-11-06 2014-11-06 情報処理装置及び情報処理プログラム
US14/718,379 US10025851B2 (en) 2014-11-06 2015-05-21 Information processing apparatus, information processing method and non-transitory computer readable medium
AU2015203102A AU2015203102B2 (en) 2014-11-06 2015-06-10 Information processing apparatus and information processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014226010A JP6520052B2 (ja) 2014-11-06 2014-11-06 情報処理装置及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2016091354A JP2016091354A (ja) 2016-05-23
JP6520052B2 true JP6520052B2 (ja) 2019-05-29

Family

ID=55912387

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014226010A Active JP6520052B2 (ja) 2014-11-06 2014-11-06 情報処理装置及び情報処理プログラム

Country Status (3)

Country Link
US (1) US10025851B2 (ja)
JP (1) JP6520052B2 (ja)
AU (1) AU2015203102B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883160B (zh) * 2021-02-25 2023-04-07 江西知本位科技创业发展有限公司 一种用于成果转移转化的捕捉方法及辅助系统
CN115033747B (zh) * 2022-06-24 2023-05-30 北京百度网讯科技有限公司 异常状态的检索方法及其装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02158870A (ja) 1988-12-12 1990-06-19 Nippon Telegr & Teleph Corp <Ntt> データベース検索方式
JPH03129472A (ja) 1989-07-31 1991-06-03 Ricoh Co Ltd 文書検索装置における処理方法
JP3282937B2 (ja) * 1995-01-12 2002-05-20 日本アイ・ビー・エム株式会社 情報検索方法及びシステム
JP3422350B2 (ja) * 1996-02-09 2003-06-30 日本電信電話株式会社 追加検索語候補提示方法、文書検索方法およびそれらの装置
US5987457A (en) * 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
JP4049317B2 (ja) * 2003-05-14 2008-02-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索支援装置およびプログラム
JP2006178599A (ja) * 2004-12-21 2006-07-06 Fuji Xerox Co Ltd 文書検索装置および方法
US7822752B2 (en) * 2007-05-18 2010-10-26 Microsoft Corporation Efficient retrieval algorithm by query term discrimination
US20110004588A1 (en) * 2009-05-11 2011-01-06 iMedix Inc. Method for enhancing the performance of a medical search engine based on semantic analysis and user feedback
US20110047136A1 (en) * 2009-06-03 2011-02-24 Michael Hans Dehn Method For One-Click Exclusion Of Undesired Search Engine Query Results Without Clustering Analysis
US8122043B2 (en) 2009-06-30 2012-02-21 Ebsco Industries, Inc System and method for using an exemplar document to retrieve relevant documents from an inverted index of a large corpus
JP5208229B2 (ja) * 2011-02-16 2013-06-12 ヤフー株式会社 検索サジェスト装置及び方法
US8566340B2 (en) * 2011-12-07 2013-10-22 Microsoft Corporation Provision of query suggestions independent of query logs
JP6079207B2 (ja) * 2012-12-18 2017-02-15 富士通株式会社 キーワード提示プログラム、キーワード提示方法及びキーワード提示装置

Also Published As

Publication number Publication date
AU2015203102B2 (en) 2017-03-30
US20160132592A1 (en) 2016-05-12
US10025851B2 (en) 2018-07-17
JP2016091354A (ja) 2016-05-23
AU2015203102A1 (en) 2016-05-26

Similar Documents

Publication Publication Date Title
US11341419B2 (en) Method of and system for generating a prediction model and determining an accuracy of a prediction model
JP6141305B2 (ja) 画像検索
US11609920B2 (en) Ranking and presenting search engine results based on category-specific ranking models
KR100930455B1 (ko) 쿼리별 검색 컬렉션 생성 방법 및 시스템
JP2017224184A (ja) 機械学習装置
KR101510973B1 (ko) 언어 로캘에 기초한 인덱싱 및 검색 방법
US9805035B2 (en) Systems and methods for multimedia image clustering
US20150302036A1 (en) Method, system and computer program for information retrieval using content algebra
US20120046937A1 (en) Semantic classification of variable data campaign information
US8612882B1 (en) Method and apparatus for creating collections using automatic suggestions
JP6520052B2 (ja) 情報処理装置及び情報処理プログラム
CN111143400A (zh) 一种全栈式检索方法、系统、引擎及电子设备
JP5891875B2 (ja) 情報処理装置及び情報処理プログラム
WO2021055868A1 (en) Associating user-provided content items to interest nodes
CN117194322A (zh) 文件分类管理方法、系统及计算设备
CN109117434A (zh) 裁判文书检索方法、装置、存储介质及处理器
JP2009252185A (ja) 情報検索装置、情報検索方法、制御プログラム及び記録媒体
Maiya et al. Exploratory analysis of highly heterogeneous document collections
JP2016018279A (ja) 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法
JP2012043258A (ja) 検索システム、検索装置、検索プログラム、記録媒体及び検索方法
JP2012027841A (ja) 検索プログラム、検索装置、検索システム、検索方法及び記録媒体
WO2019163610A1 (ja) 情報処理システム及び情報処理方法
JP6707410B2 (ja) 文献検索装置、文献検索方法およびコンピュータプログラム
JP5018346B2 (ja) 情報処理装置及び情報処理プログラム
US20200012652A1 (en) Method and server for ranking documents on a seerp

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170926

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180904

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190415

R150 Certificate of patent or registration of utility model

Ref document number: 6520052

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350