JP6772478B2

JP6772478B2 - 情報検索プログラム及び情報検索装置

Info

Publication number: JP6772478B2
Application number: JP2016029515A
Authority: JP
Inventors: 鈴木　星児; 星児鈴木; 基行鷹合; 奈実徳永
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2016-02-19
Filing date: 2016-02-19
Publication date: 2020-10-21
Anticipated expiration: 2036-02-19
Also published as: US20170242851A1; JP2017146869A

Description

本発明は、情報検索プログラム及び情報検索装置に関する。

従来から、文書データベースを検索対象として、ユーザが入力した入力キーワードが含まれる文書を検索し、検索結果の文書のリストを画面に表示する情報検索装置が知られている。特許文献１には、文書データベースを検索対象として、入力キーワードに基づいて情報検索を行い、検索結果である入力キーワードが含まれる複数の文書を、互いに類似した文書により構成される文書集合に分類し、各文書集合から特徴的な語句である特徴語および特徴的な関係を求め、文書集合毎に、文書のリストと、特徴語と、特徴的な関係とを画面に表示する技術が開示されている。ユーザは文書集合毎に表示されている特徴語や、特徴的な関係を頼りに、自らが求めている文書が含まれている可能性がある文書集合を見つけることが可能である。また、表示された特徴語や特徴的な関係を用いて、再検索を行うことで、求めている文書に到達し易い。

特開２００１−３０６５９４号公報

ところで、入力キーワードが含まれる文書である基本文書を、互いに類似した基本文書により構成される文書集合に分類し、文書集合にとって特徴的な語句である特徴語を出力した場合、文書集合に含まれる文書が入力キーワードを含む基本文書に限定されているため、文書集合の特徴語として、多様な語句が出力され難い課題がある。

そこで、本発明は、入力キーワードが含まれる文書である基本文書を、互いに類似した基本文書により構成される文書集合に分類し、文書集合にとって特徴的な語句である特徴語を出力した場合に比べて、より多様性のある特徴語を出力することができるようにすることを目的とする。

請求項１に係る発明は、入力キーワードを含む文書である基本文書を、文書データベースから検索する基本文書検索手段、前記基本文書に関連する関連文書を、前記文書データベースから検索する関連文書検索手段、複数の前記関連文書が含まれる文書群を分類することにより、複数の文書集合を生成する文書集合生成手段、前記文書集合ごとに、前記文書集合にとって特徴的な語句である特徴語を出力する特徴語出力手段、としてコンピュータを機能させ、前記特徴語出力手段は、前記文書集合内の文書に含まれるキーワードである文書キーワードを抽出し、共通の上位概念を有する前記文書キーワードの数が、他の前記上位概念よりも多い前記上位概念である選出上位概念を探索し、前記選出上位概念を有する前記文書キーワードの全て、または、いずれかを前記特徴語とする、情報検索プログラムである。

請求項２に係る発明は、前記特徴語出力手段は、前記選出上位概念を有する前記文書キーワードのうち、前記特徴語の出力の対象となっている前記文書集合内の文書において出現頻度が高く、かつ、他の前記文書集合内の文書において出現頻度が低い前記文書キーワードの全て、または、いずれかを前記特徴語とする、ことを特徴とする請求項１に記載の情報検索プログラムである。

請求項３に係る発明は、前記特徴語出力手段は、前記選出上位概念を有する前記文書キーワードのうち、前記文書集合内の多くの文書において出現する前記文書キーワードを前記特徴語とする、ことを特徴とする請求項１または２に記載の情報検索プログラムである。

請求項４に係る発明は、行列の行または列の一方に前記特徴語を伴って前記文書集合の表示を配列し、前記行列の行または列の他方に文書の背景を示す情報を配列し、前記行列の要素に前記文書集合内の文書に関する表示を配置した２次元表を表示部に表示させる表示処理手段、をさらに含む、ことを特徴とする請求項１から３のいずれか一項に記載の情報検索プログラムである。

請求項５に係る発明は、前記文書集合生成手段は、前記文書群を分類することにより生成した暫定文書集合と、前記文書集合生成手段により以前に生成された前記文書集合との集合演算を行って、前記文書集合を生成する、ことを特徴とする請求項１から４のいずれか一項に記載の情報検索プログラムである。

請求項６に係る発明は、前記入力キーワードとして第１入力キーワードが用いられたことによって、前記特徴語として第１特徴語が出力された場合に、前記第１特徴語を前記入力キーワードとした再検索、前記第１入力キーワードと前記第１特徴語との両方を前記入力キーワードとした再検索である絞り込み検索、拡張検索および周辺検索の少なくとも１つを実行可能である、ことを特徴とする請求項１から５のいずれか一項に記載の情報検索プログラムである。

請求項７に係る発明は、入力キーワードを含む文書である基本文書を、文書データベースから検索する基本文書検索手段と、前記基本文書に関連する関連文書を、前記文書データベースから検索する関連文書検索手段と、複数の前記関連文書が含まれる文書群を分類することにより、複数の文書集合を生成する文書集合生成手段と、前記文書集合ごとに、前記文書集合にとって特徴的な語句である特徴語を出力する特徴語出力手段と、を含み、前記特徴語出力手段は、前記文書集合内の文書に含まれるキーワードである文書キーワードを抽出し、共通の上位概念を有する前記文書キーワードの数が、他の前記上位概念よりも多い前記上位概念である選出上位概念を探索し、前記選出上位概念を有する前記文書キーワードの全て、または、いずれかを前記特徴語とする、ことを特徴とする情報検索装置である。

請求項１及び７に係る発明によれば、入力キーワードが含まれる文書である基本文書を、互いに類似した基本文書により構成される文書集合に分類し、文書集合にとって特徴的な語句である特徴語を出力した場合に比べて、より多様性のある特徴語を出力することができる。また、文書集合の特徴を表す概念に属する語句であって、実際に文書に登場する多様な語句を特徴語とすることができる。

請求項２及び３に係る発明によれば、選出上位概念を有する文書キーワードの全てを特徴語とする場合に比べて、特徴語の数をより少なくできる。

請求項４に係る発明によれば、文書集合毎に特徴語のみを表示させる場合に比べて、各文書集合内の文書が有する特徴をより可視化することができる。

請求項５に係る発明によれば、集合演算を行わずに文書集合を生成した場合に比べて、より様々な文書集合を生成することができる。

請求項６に係る発明によれば、入力キーワードとして第１入力キーワードのみを用いた検索では得られなかった検索結果を得ることができる。

情報検索装置の構成例を示すブロック図である。情報検索装置が実行する情報検索処理の流れの一例を示すフローチャートである。情報検索装置が実行する情報検索処理のうち文書集合生成の処理の流れの一例を示すフローチャートである。情報検索装置が実行する情報検索処理のうち特徴語出力の処理の流れの一例を示すフローチャートである。概念階層の辞書の一例を示す図である。検索結果の表示例を示す図である。

以下、図面を参照しながら本発明の一実施形態について説明する。

図１は、本実施形態の情報検索装置１００の構成例を示すブロック図である。本実施形態に係る情報検索装置１００は、制御部４０と、記憶部６０と、操作部７０と、表示部８０と、通信部９０とを含んでいる。

制御部４０は、ＣＰＵ等のプロセッサであり、記憶部６０に記憶されている情報検索プログラム５０に従って情報処理を実行する。記憶部６０は、ＲＯＭ、ＲＡＭ、ハードディスク等であり、制御部４０が実行する情報検索プログラム５０や、一時的なデータ等を記憶し、また、後述する概念階層の辞書５２や文書集合情報５４を記憶する。通信部９０は、例えばネットワークカードであり、ＬＡＮやインターネット等のネットワーク３００を介して、文書データベース２００等と通信を行う。なお、文書データベース２００は、記憶部６０に格納されていても良い。操作部７０は、キーボード、マウス、タッチパネルなどであり、ユーザからの検索指示等を受け付ける。表示部８０は、ディスプレイであり、ユーザに対して検索指示を促す画面の表示や、検索結果の表示などを行う。

制御部４０は、記憶部６０に記憶されている情報検索プログラム５０に従って情報処理を実行することにより、基本文書検索手段１０、関連文書検索手段１２、文書集合生成手段１４、特徴語出力手段１６、表示処理手段１８等として機能する。なお、情報検索プログラム５０は、インターネット等の通信手段により提供されても良いし、光ディスク等のコンピュータ読み取り可能な記憶媒体に格納して提供されても良い。

図２は、情報検索装置１００が実行する情報検索処理の流れの一例を示すフローチャートである。図２を参照しながら、情報検索装置１００が実行する情報検索処理について説明する。

まず、Ｓ１００において、基本文書検索手段１０は、操作部７０を介して、ユーザからキーワードの入力を受け付る。以降、このキーワードを、入力キーワードと呼ぶ。なお、「キーワード」は単語に限らず、句、節などであっても良い。基本文書検索手段１０は、受け付けられた入力キーワードを含む文書である基本文書を、文書データベース２００から検索する。そして、検索して見つかった基本文書の情報を、関連文書検索手段１２および文書集合生成手段１４に出力する。基本文書の情報とは、基本文書の内容全体を含んだ情報であっても良いし、基本文書を特定できる最低限の情報、例えば、文書の名称等だけであっても良い。

次に、Ｓ１０２に進み、関連文書検索手段１２は、基本文書の情報を受け取って、基本文書に関連する文書である関連文書を、文書データベース２００から検索する。関連文書の検索方法としては様々な方法が存在し、本発明においては特定の方法に限定されるものではない。関連文書の検索方法としては、例えば、次のような方法がある。

（１）Ｔｅｒｍｖｅｃｔｏｒによる方法
文書に含まれる語句を抽出して、当該語句の出現頻度を示す値を成分とする多次元ベクトル（Ｔｅｒｍｖｅｃｔｏｒ）を構成し、特定の文書の多次元ベクトルと、他の文書の多次元ベクトルのなす角度のコサイン値、すなわち、２つの多次元ベクトルの内積を演算し、演算結果の値が閾値以上の場合は、特定の文書と当該他の文書とは類似していると判断する方法である。この方法によれば、語句の出現頻度が似た文書を、関連する文書として見つけることができる。

（２）深層学習（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いた方法
この方法では、あらかじめ十分な量の画像を用いて、ニューラルネットワークを深層学習しておく。それにより、ニューラルネットワークに、文書のスクリーンショットまたはサムネールのような画像を入力した場合に、ニューラルネットワークのある深さの層を成すセル群、または、人為的に選択した特定のセル群の出力に画像の特徴が表れる。そのセル群の出力をベクトルとすることで、そのベクトルが画像の特徴を表すことになる。この方法では、ニューラルネットワークに、特定の文書の画像を入力して得られたベクトルと、他の文書の画像を入力して得られたベクトルとの内積を演算し、演算結果の値が閾値以上の場合は、特定の文書と当該他の文書とは類似していると判断する。この方法によれば、例えば、説明図や文章のレイアウトが同一である日本語版の文書と、英語版の文書とを類似であると判断できる。

（３）コミュニティの情報を用いた方法
特開２０１５−４６１０２には、文書へのアクセス履歴を用いて、例えば、同一文書に対して予め定めた回数以上のアクセスを行った利用者同士には関連性があるとして、当該利用者同士を同じグループに分類する（コミュニティを抽出する）ことが記載されている。また、こうしたアクセス履歴を用いてコミュティを抽出しなくても、例えば、会社の中における課やチームと、そこに属する社員の情報とが関連づけられた関連情報が存在すれば、すでにコミュティの抽出ができている。このようなコミュニティの情報を用いて関連する文書を見つける方法としては、例えば、次の方法が考えられる。同一コミュニティに属する利用者がアクセスする文書は、業務や興味などの背景から潜在的に関連性があると推定できる。したがって、各文書のアクセス履歴を確認して、同一コミュニティに属する利用者の多くがアクセスした文書同士を、互いに関連する文書であると判断する。この方法によれば、文書に含まれる内容が全く異なる場合であっても、関連文書とすることができる。

関連文書検索手段１２による関連文書の検索方法は、基本的には、上記した（１）Ｔｅｒｍｖｅｃｔｏｒによる方法のように、文書に含まれる語句が類似する文書が関連文書として検索される方法であるが、上記した（２）深層学習を用いた方法や、（３）コミュニティの情報を用いた方法のように、文書に含まれる語句が全く異なる文書であっても関連文書として検索される方法であっても良い。関連文書検索手段１２は、検索して見つかった関連文書の情報を文書集合生成手段１４に出力する。関連文書の情報とは、関連文書の内容全体を含んだ情報であっても良いし、関連文書を特定できる最低限の情報、例えば、文書の名称等だけであっても良い。

次に、Ｓ１０４に進み、文書集合生成手段１４は、基本文書の情報と、関連文書の情報とを受け取って、基本文書と関連文書とからなる文書群を分類することにより、複数の文書集合を生成する。

文書集合生成手段１４による文書集合の生成方法には、関連文書検索手段１２による関連文書の検索の仕方に応じて、２つの生成方法がある。１つ目の生成方法は、関連文書検索手段１２が基本文書毎に関連文書を検索した場合の文書集合の生成方法であり、２つ目の生成方法は、関連文書検索手段１２が複数の基本文書をまとめた全体に対して関連文書を検索した場合の文書集合の生成方法である。

まず、１つ目の生成方法について説明する。関連文書検索手段１２が基本文書毎に関連文書を検索した場合には、文書集合生成手段１４は、基本文書と、検索結果として得られた当該基本文書に関連する文書である関連文書とからなる文書集合を生成する。つまり、基本文書毎に文書集合を生成することになる。しかし、ある基本文書に関連するとして検索された関連文書と、別の基本文書が同じである場合は、別の基本文書については文書集合を生成しないとしても良い。これは、基本文書検索手段１０が、入力キーワードが含まれる基本文書を検索した場合、文書のバージョンが違うのみで、文書の内容にほとんど差が無い基本文書が大量に検索される場合が多く、このような基本文書の１つ１つに対して文書集合を生成した場合には、ほとんど差がない文書集合が大量に生成されてしまうので、それを防止するためである。

次に、２つ目の生成方法について説明する。関連文書検索手段１２が複数の基本文書をまとめた全体に対して関連文書を検索した場合には、文書集合生成手段１４は、従来から知られている様々なクラスタリング手法の１つまたは複数を用いて、文書群の分類を行い、複数の文書集合を生成する。なお、複数の基本文書をまとめた全体に対して関連文書を検索する場合とは、例えば、上記した（１）Ｔｅｒｍｖｅｃｔｏｒによる方法により、各基本文書の多次元ベクトルを求め、求められた多次元ベクトルを互いに加算した上で、基本文書の数で割ることにより平均の多次元ベクトルを求め、その平均の多次元ベクトルを用いて、関連文書を検索する場合等が考えられる。

また、文書集合生成手段１４は、以前に生成した文書集合と集合演算を行って、文書集合を生成するとしてもよい。以前に生成した文書集合とは、今回の情報検索処理（図２の一連の処理を言う、以下同じ。）が、前回の情報検索処理によって出力された後述する特徴語などを入力キーワードとして行う再検索の処理である場合における、前回の情報検索処理で生成された文書集合である。

しかし、それに限定されず、例えば、関連文書検索手段１２が基本文書毎に関連文書を検索し、文書集合生成手段１４が、基本文書と、当該基本文書の関連文書とからなる文書集合を生成する場合において、ある基本文書についての文書集合を生成した後に、別の基本文書についての文書集合を生成する場合には、すでに生成済みの文書集合を、以前に生成した文書集合としてもよい。

図３を用いて、以前に生成した文書集合と集合演算を行って、文書集合を生成する処理の一例について説明する。まず、Ｓ２００において、基本文書と関連文書とからなる文書群を分類することにより、暫定文書集合を生成する。

次のＳ２０２以降は、生成された暫定文書集合が１つずつ取りあげられて処理が行われる。Ｓ２０２では、まず１つ目の暫定文書集合である暫定文書集合１を処理するため、変数ｉに１が入力される。次のＳ２０４では、記憶部６０に、以前に生成した文書集合が記憶されているか否かを確認する。具体的には、記憶部６０に、以前に生成した文書集合の情報である文書集合情報５４が記憶されているか否かを確認する。なお、文書集合情報５４は、少なくとも、文書集合に含まれる文書を特定できる情報を含んでいるものとする。以前に生成した文書集合が記憶されていない場合には、集合演算することができないので、Ｓ２１０に進み、暫定文書集合ｉを文書集合ｉとする処理を行う。具体的には、現在ｉは１なので、暫定文書集合１を文書集合１とする処理を行う。

記憶部６０に、以前に生成した文書集合が記憶されている場合（Ｓ２０４：Ｙｅｓ）には、Ｓ２０６に進み、暫定文書集合と、以前に生成した文書集合と、の集合演算を行うか否かを決定する。この決定は、例えば、ユーザに指示を促す画面を表示部８０に表示し、ユーザが操作部７０を用いて指示を行うことで実現するが、予め、集合演算を行うか否かを決定しておいてもよい。集合演算を行わない場合（Ｓ２０６：Ｎｏ）には、Ｓ２１０に進み、暫定文書集合ｉを文書集合ｉとする処理を行う。

集合演算を行う場合（Ｓ２０６：Ｙｅｓ）には、Ｓ２０８に進み、集合演算を行って文書集合ｉを生成する処理を行う。集合演算として、基本的には、ＡＮＤ−ＮＯＴの集合演算を行う。ＡＮＤ−ＮＯＴの集合演算とは、暫定文書集合ｉに含まれる文書のうち、以前に生成した文書集合に含まれていない文書が抽出され、その抽出された文書からなる文書集合ｉが生成される集合演算である。以前に生成した文書集合が複数ある場合には、暫定文書集合ｉに含まれる文書のうち、以前に生成した複数の文書集合のいずれにも含まれていない文書が抽出され、その抽出された文書からなる文書集合ｉが生成される。しかし、例えば、どの文書集合とＡＮＤ−ＮＯＴの集合演算を行うのかを、ユーザが操作部７０を用いて特定することで、特定の文書集合とのみＡＮＤ−ＮＯＴの集合演算を行ってもよい。

Ｓ２０８で集合演算を行って文書集合ｉを生成した後は、Ｓ２１２において、生成した文書集合ｉの情報を、文書集合情報５４として記憶部６０に記憶する。現在ｉは１なので、集合演算を行って文書集合１を生成した後、生成した文書集合１の情報を、文書集合情報５４として記憶部６０に記憶する。次に、Ｓ２１４に進み、次の暫定文書集合の処理を行うため、変数ｉを１つ増やす。そして、Ｓ２１６で、変数ｉが、Ｓ２００において生成された暫定文書集合の数より大きいか否か、換言すれば、全ての暫定文書集合について文書集合を生成したかを確認する。文書集合を生成していない暫定文書集合がある場合（Ｓ２１６：Ｎｏ）は、Ｓ２０４に戻って、次の暫定文書集合である暫定文書集合２について、文書集合を生成する処理を進める。このようにして、全ての暫定文書集合について、文書集合が生成された場合（Ｓ２１６：Ｙｅｓ）は、図３のフローを終了する。なお、Ｓ２０８において集合演算を行った結果、文書集合内に文書が１つも存在しない場合には、その文書集合を生成しないとしても良い。

以上説明したように、ＡＮＤ−ＮＯＴの集合演算を行うことにより、以前に生成した文書集合に含まれていない文書からなる文書集合を生成することができる。このようにして生成された文書集合は、後述する文書集合の特徴語を出力させた場合に、以前に生成した文書集合の特徴語とは異なる特徴語を出力する可能性が高い。したがって、ＡＮＤ−ＮＯＴの集合演算を行わずに文書集合を生成した場合に比べて、より多様な特徴語を出力することが可能となる。

なお、集合演算は、ＡＮＤ−ＮＯＴに限られず、ＡＮＤやＯＲなどであってもよい。ＡＮＤの集合演算の場合には、暫定文書集合に含まれる文書のうち、以前に生成した文書集合に含まれる文書が抽出され、その抽出された文書からなる文書集合が生成される。また、ＯＲの集合演算の場合には、暫定文書集合に含まれる文書と、以前に生成した文書集合に含まれる文書とを合わせた文書集合が生成される。このように、ＡＮＤやＯＲなどの集合演算を行うと、様々な文書集合を生成することが可能となり、文書集合の生成に柔軟性を持たせることができる。

図２に戻り、Ｓ１０４において文書集合が生成された後は、Ｓ１０６に進む。Ｓ１０６では、特徴語出力手段１６により、文書集合毎に、文書集合にとって特徴的な語句である特徴語を出力する特徴語出力の処理が行われる。なお、「特徴語」は、「キーワード」と同様に、単語に限らず、句、節などであっても良い。特徴語出力手段１６には、文書集合生成手段１４において生成された文書集合の情報が入力される。文書集合の情報とは、少なくとも、各文書集合に含まれる文書を特定できる情報を含むものである。

図４は、１つの文書集合の特徴語出力の処理の流れの一例を示すフローチャートである。まず、Ｓ３００において、文書集合内の文書に含まれるキーワードである文書キーワードを抽出する。この際、数や曜日等の一般的に文書に用いられる語句や、文書の全ページのフッターに現れる会社名などは、特徴語として相応しくないので、文書キーワードとして抽出しないことが望ましい。実際には、多くの文書キーワードが抽出されることになるが、ここでは説明の都合上、７つの文書キーワードである「鉄」、「ニッケル」、「アルミニウム」、「真鍮」、「紙」、「ガラス」、「犬」が抽出されたとする例（以下、「７つの文書キーワードの例」という）を用いる。

次のＳ３０２からＳ３１０までは、抽出された文書キーワードが１つずつ取りあげられて処理が行われる。Ｓ３０２では、まず１つ目の文書キーワードを処理するため、変数ｊに１が入力される。次のＳ３０４では、文書キーワードｊの上位概念を、概念階層の辞書５２から探索する。現在、ｊは１であり、１つ目の文書キーワードである文書キーワード１の「鉄」の上位概念が探索される。

図５は、概念階層の辞書の一例を示す図である。図４のＳ３００において抽出された７つの文書キーワードを、一点破線で囲ってある。概念階層の辞書は、語句の上位下位概念の関係を階層状に示した辞書である。図５に示すように、文書キーワード１の「鉄」の上位概念は、第２階層にある「磁性」および第１階層にある「金属」である。探索すべき上位概念は、第２階層にある語句でも、第１階層にある語句でも、どちらでも構わないが、ここでは一例として、予めどちらにするか決まっているものとし、全ての文書キーワードについての上位概念の探索において、統一して同じ階層の上位概念が探索されるものとする。本実施形態では、第１階層の語句が探索されるものとする。したがって、Ｓ３０４において、文書キーワード１の「鉄」の上位概念として「金属」が探索される。なお、文書キーワードが、概念階層の辞書５２の最も上の階層である第１階層の語句であった場合（例えば、図５の「金属」）には、その語句自体が探索されるとしても良い。

次に、Ｓ３０６に進み、探索された上位概念についてのカウンタの値を増やす。例えば、図５に示す第１階層の語句である「金属」、「非金属」、「生物」のそれぞれに対して初期値を０とするカウンタを予め用意しておき、Ｓ３０６においては、探索された上位概念のカウンタを、１つ増やす処理を行う。文書キーワード１の「鉄」については、「金属」が探索された為、「金属」のカウンタを１つ増やし、０から１にする。

Ｓ３０８では、次の文書キーワードの処理を行うため、変数ｊを１つ増やす。そして、Ｓ３１０に進み、変数ｊが、Ｓ３００において抽出された文書キーワードの数より大きいか否か、換言すれば、抽出された文書キーワードの全てを処理したかを確認する。ここでは、処理していない文書キーワードが存在する（Ｓ３１０：Ｎｏ）ので、Ｓ３０４に戻り、次の文書キーワードである文書キーワード１の「ニッケル」の上位概念が探索される。このようにして、全ての文書キーワードについて上位概念の探索（Ｓ３０４）と、探索された上位概念についてのカウンタの値を増やす処理（Ｓ３０６）を行う。全ての文書キーワードの処理が終わると、Ｓ３１０がＹｅｓとなり、Ｓ３１２に進む。

Ｓ３１２では、カウンタの値が最も多い上位概念である選出上位概念を探索する。７つの文書キーワードの例における、「鉄」、「ニッケル」、「アルミニウム」、「真鍮」、「紙」、「ガラス」、「犬」については、図５の概念階層の辞書により、順番に、「金属」、「金属」、「金属」、「金属」、「非金属」、「非金属」、「生物」の上位概念が探索される。したがって、「金属」のカウンタの値は４、「非金属」のカウンタの値は２、「生物」のカウンタの値は１となる。したがって、Ｓ３１２において、カウンタの値が最も多い上位概念である「金属」が、選出上位概念として探索される。

次に、Ｓ３１４では、選出上位概念に属する文書キーワードが抽出される。７つの文書キーワードの例では、選出上位概念「金属」に属する文書キーワードである「鉄」、「ニッケル」、「アルミ」、「真鍮」が抽出される。この抽出された文書キーワードを特徴語として、Ｓ３１６では、特徴語の出力を行う。なお、本実施形態では、カウンタの値が最も多い上位概念のみを選出上位概念としたが、選出上位概念は複数でも良く、例えば、カウンタの値が２番目に多い上位概念も探索した上で選出上位概念としても良い。その場合は、それぞれの選出上位概念に属する文書キーワードが抽出され、その抽出された文書キーワードが特徴語として出力される。

以上説明したように、特徴語出力手段１６は、文書集合内の文書に含まれるキーワードである文書キーワードを抽出し、共通の上位概念を有する文書キーワードの数が、他の上位概念よりも多い上位概念である選出上位概念を探索し、探索された選出上位概念を有する文書キーワードを特徴語として出力する。

本実施形態では、文書集合に、入力キーワードを含む基本文書に加えて、基本文書に関連する関連文書が含まれている。したがって、文書集合内の文書が基本文書のみである場合に比べて、文書集合内の文書に含まれるキーワードである文書キーワードが多様となり、その文書キーワードの中から決定される特徴語も多様となる。特に、関連文書の検索として、上記した（２）深層学習を用いた方法や、（３）コミュニティの情報を用いた方法などを用いた場合には、文書に含まれる語句が全く異なる文書であっても関連文書として検索されるものであるため、より多様な語句を特徴語として得ることが可能となる。

また、本実施形態では、特徴語出力手段１６が、共通の上位概念を有する文書キーワードの数が、他の上位概念よりも多い上位概念である選出上位概念を探索する。そして、選出上位概念に属する文書キーワードを特徴語として出力する。これにより、文書集合の特徴を表す選出上位概念に属する語句であって、実際に文書に登場する多様な語句を特徴語とすることができる。このような特徴語は、例えば、ユーザが、後述する検索結果に表示される特徴語を入力キーワードとして再検索したい場合に、役に立つ特徴語である。

また、本実施形態では、選出上位概念に属する文書キーワードを特徴語として出力したが、選出上位概念を特徴語として出力しても良い。選出上位概念は文書集合の特徴を表している為、例えば、後述する検索結果において特徴語として選出上位概念を表示することにより、ユーザは、文書集合の概要を確認することができる。

概念階層の辞書５２を用いて特徴語を決定するその他の方法としては、入力キーワードの上位概念を探索し、その上位概念に属する文書キーワードを特徴語とする方法もある。図５の概念階層の辞書を用いて説明すると、入力キーワードが「磁性」であった場合、その上位概念は「金属」であり、その上位概念「金属」に属する文書キーワードである「鉄」、「ニッケル」、「アルミニウム」、「真鍮」が特徴語となる。この方法によれば、出力される特徴語を、入力キーワードの上位概念に属する語句に限定することができる。なお、この方法において、入力キーワードが、概念階層の辞書５２の最も上の階層である第１階層の語句であった場合（例えば、図５の「金属」）は、その語句（概念）に属する文書キーワードを特徴語としても良い。

また、本実施形態においては、１つの「概念階層の辞書５２」を用いた。しかし、複数の「概念階層の辞書５２」を用いてもよい。例えば、ユーザの属性（ユーザが会社の中の技術職なのか営業職なのか等）に応じて、複数の「概念階層の辞書５２」を切り替えて用いても良い。具体的には、ユーザの属性に応じて最適化した「概念階層の辞書５２」を複数用意しておき、例えば、ユーザが検索を行う前に、操作部７０を介して、使用する「概念階層の辞書５２」を選択し、ユーザが検索を実行した時には、その選択した「概念階層の辞書５２」を用いて、特徴語出力手段１６が特徴語を出力する。語句は多義的であり、検索を行うユーザの属性によって、上位概念にあたる語句が変化する。したがって、このように「概念階層の辞書５２」を切り替えて用いれば、各ユーザにとって、より関心のある特徴語を出力することが可能となる。

また、図４のフローの処理によって出力された特徴語の数が多い場合は、さらに選び出しを行って、特徴語の数を少なくしても良い。その方法として、例えば、次の２つの選出方法がある。

１つ目の選出方法は、特徴語の出力の対象となっている文書集合内の文書において出現頻度が高く、かつ、他の文書集合内の文書において出現頻度が低い語句を、特徴語として選出する方法である。例えば、文書集合内の文書における出現頻度が、相対的に、他の文書集合内の文書における出現頻度より高い語句の中から特徴語を選出する方法である。この選出方法は、例えば、ｔｆ−ｉｄｆの手法を用いて実現できる。ｔｆ−ｉｄｆは、本来、文書中の単語に関する重みであり、ｔｆ（ｔｅｒｍｆｒｅｑｕｅｎｃｙ、単語の出現頻度）及びｉｄｆ（ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ、逆文書頻度）の２つの指標で表される。ここでは、文書集合内の複数の文書をまとめて１つの文書として扱うことで、文書集合毎に、語句に関する重みを求める。ｔｆ−ｉｄｆ値の高い語句を優先的に特徴語として選出し、ｔｆ−ｉｄｆ値の低い語句を選出しないことで、特徴語を減らすことができる。

２つ目の選出方法は、文書集合内の多くの文書において出現する語句を、特徴語として選出する方法である。例えば、文書集合内の文書に出現する語句のうち、その語句が出現する文書の数がより多い語句ほど、優先的に特徴語として選出する方法である。この選出方法は、文書集合内の文書における、ｉｄｆ値の逆数、すなわち、ｄｆ値（ｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ、文書頻度）が高い語句を優先的に特徴語として選出し、ｄｆ値の低い語句を選出しないことで実現でき、特徴語を減らすことができる。なお、１つ目の選出方法と、２つ目の選出方法とを組み合わせて、特徴語を選出することも可能である。

次に、表示処理手段１８が行う、図２のＳ１０８の表示処理について説明する。表示処理手段１８は、文書集合生成手段１４から文書集合の情報を受付け、特徴語出力手段１６から特徴語を受付け、検索結果を、表示部８０に表示する。

図６は、キーワード入力枠４０１に入力キーワードとして「磁性」が入力され、検索ボタン４０２が操作部７０のマウス等により選択、押下されたことにより検索が実行された時の、表示部８０に表示された検索結果の表示例である。図６に示すように、キーワード入力枠４０１の下に、検索結果として２次元表４５０が表示される。２次元表４５０は、行列の行または列の一方に特徴語を伴って文書集合の表示が配列され、行列の行または列の他方に文書の背景を示す情報が配列され、行列の要素に文書集合内の文書に関する表示（図６では文書の数）が配置される。文書の背景を示す情報とは、例えば、文書の作成者、作成日時、ファイル形式といった情報であり、文書の背景を示す情報に従って、文書集合に含まれる文書が分類された上で、２次元表４５０が表示される。図６では、文書の背景を示す情報が「作成者」となっており、各文書集合に含まれる文書の数が、作成者毎に分類されて表示されている。

検索結果として、このような２次元表４５０を表示することにより、文書集合毎に特徴語のみを表示させる場合に比べて、各文書集合内の文書が有する特徴をより可視化することができる。例えば、文書集合Ｎｏ．1およびＮｏ．２については、「Ａさん」が作成した文書が多く含まれることが分かる。したがって、例えば、ユーザが、「Ａさん」が作成した文書を探し出したい場合には、文書集合Ｎｏ．1およびＮｏ．２に含まれる文書を確認すれば、探し出せる可能性が高いことが容易に分かる。また、各文書集合の特徴語を確認することで、ユーザが探し出したい文書に関連しているのは、文書集合Ｎｏ．1またはＮｏ．２のどちらなのか容易に判断することができる。

以上説明した本実施形態によれば、文書集合に関連文書が含まれるため、文書集合内の文書に含まれる語句が多様となる。その結果、入力キーワードが含まれる文書である基本文書を、互いに類似した基本文書により構成される文書集合に分類し、文書集合にとって特徴的な語句である特徴語を出力した場合に比べて、より多様性のある特徴語を出力することができる。

検索結果においては、多様性のある特徴語が表示されるため、ユーザは、それらの特徴語の中から、自らが求めている文書に関連すると思われる特徴語を見つけられる可能性が高い。そして、その関連すると思われる特徴語を入力キーワードとして、再検索を行うことで、最初の入力キーワードを用いた情報検索処理では検索結果として得られなかった文書が得られ、求めている文書に迅速に到達できる可能性がある。

再検索の方法としては、検索結果として得られた特徴語のみを入力キーワードとして使う方法以外にも、種々の方法が考えられる。例えば、ある入力キーワードである第１入力キーワードを用いた情報検索処理によって得られた特徴語である第１特徴語があった場合には、次の情報検索処理、すなわち再検索において、第１入力キーワードと、第１特徴語とを入力キーワードとして用いて、絞り込み検索（ＡＮＤ検索）、拡張検索（ＯＲ検索）、周辺検索（ＡＮＤ−ＮＯＴ検索）などの検索を行ってもよい。次に、この第１入力キーワードと、第１特徴語とを入力キーワードとして用いた再検索について、具体的に説明する。

絞り込み検索（ＡＮＤ検索）の場合は、図２のＳ１００の基本文書検索において、第１入力キーワードと第１特徴語との両方が含まれる文書が検索され、Ｓ１０２以降の情報検索処理を行う。また、別の方法としては、次の方法がある。まず、図２のＳ１００の基本文書検索において、第１入力キーワードが含まれる文書である「第１入力キーワードの基本文書」を検索し、Ｓ１０２の関連文書検索において、「第１入力キーワードの基本文書」に関連する関連文書である「第１入力キーワードの関連文書」を検索し、「第１入力キーワードの基本文書」と「第１入力キーワードの関連文書」とからなる「第１入力キーワードの文書群」を作る。同様に、第１特徴語についても基本文書検索と、関連文書検索とを行い、「第１特徴語の基本文書」と「第１特徴語の関連文書」とからなる「第１特徴語の文書群」を作る。そして、「第１入力キーワードの文書群」と「第１特徴語の文書群」に共通して含まれる文書を抽出して文書群を作り、その文書群に対して、図２のＳ１０４以降の情報検索処理を行う。

拡張検索（ＯＲ検索）の場合は、図２のＳ１００の基本文書検索において、第１入力キーワードが含まれる文書と、第１特徴語が含まれる文書とが検索され、図２のＳ１０２以降の情報検索処理を行う。また、別の方法としては、上記した「第１入力キーワードの文書群」と「第１特徴語の文書群」とをまとめた文書群を作り、その文書群に対して図２のＳ１０４以降の情報検索処理を行う。

周辺検索（ＡＮＤ−ＮＯＴ検索）の場合は、図２のＳ１００の基本文書検索において、第１特徴語が含まれる文書のうち、第１入力キーワードが含まれない文書を検索し、図２のＳ１０２以降の情報検索処理を行う。また、別の方法としては、上記した「第１特徴語の文書群」に含まれる文書のうち、「第１入力キーワードの文書群」に含まれていない文書からなる文書群を作り、その文書群に対して図２のＳ１０４以降の情報検索処理を行う。

以上のように、再検索として、絞り込み検索（ＡＮＤ検索）や周辺検索（ＡＮＤ−ＮＯＴ検索）を行うことにより、検索結果として得られる文書の数が減る可能性が高く、ユーザは求めている文書を見つけ易くなる。また、再検索として、拡張検索（ＯＲ検索）を行うことにより、検索結果として広範囲の文書をまとめて得ることが可能となる。

１０基本文書検索手段、１２関連文書検索手段、１４文書集合生成手段、１６特徴語出力手段、１８表示処理手段、４０制御部、５０情報検索プログラム、５２概念階層の辞書、５４文書集合情報、６０記憶部、７０操作部、８０表示部、９０通信部、１００情報検索装置、２００文書データベース、３００ネットワーク、４０１キーワード入力枠、４０２検索ボタン、４５０２次元表。

Claims

入力キーワードを含む文書である基本文書を、文書データベースから検索する基本文書検索手段、
前記基本文書に関連する関連文書を、前記文書データベースから検索する関連文書検索手段、
複数の前記関連文書が含まれる文書群を分類することにより、複数の文書集合を生成する文書集合生成手段、
前記文書集合ごとに、前記文書集合にとって特徴的な語句である特徴語を出力する特徴語出力手段、
としてコンピュータを機能させ、
前記特徴語出力手段は、
前記文書集合内の文書に含まれるキーワードである文書キーワードを抽出し、
共通の上位概念を有する前記文書キーワードの数が、他の前記上位概念よりも多い前記上位概念である選出上位概念を探索し、前記選出上位概念を有する前記文書キーワードの全て、または、いずれかを前記特徴語とする、情報検索プログラム。
前記特徴語出力手段は、
前記選出上位概念を有する前記文書キーワードのうち、前記特徴語の出力の対象となっている前記文書集合内の文書において出現頻度が高く、かつ、他の前記文書集合内の文書において出現頻度が低い前記文書キーワードの全て、または、いずれかを前記特徴語とする、
ことを特徴とする請求項１に記載の情報検索プログラム。
前記特徴語出力手段は、
前記選出上位概念を有する前記文書キーワードのうち、前記文書集合内の多くの文書において出現する前記文書キーワードを前記特徴語とする、
ことを特徴とする請求項１または２に記載の情報検索プログラム。
行列の行または列の一方に前記特徴語を伴って前記文書集合の表示を配列し、前記行列の行または列の他方に文書の背景を示す情報を配列し、前記行列の要素に前記文書集合内の文書に関する表示を配置した２次元表を表示部に表示させる表示処理手段、をさらに含む、
ことを特徴とする請求項１から３のいずれか一項に記載の情報検索プログラム。
前記文書集合生成手段は、
前記文書群を分類することにより生成した暫定文書集合と、前記文書集合生成手段により以前に生成された前記文書集合との集合演算を行って、前記文書集合を生成する、
ことを特徴とする請求項１から４のいずれか一項に記載の情報検索プログラム。
前記入力キーワードとして第１入力キーワードが用いられたことによって、前記特徴語として第１特徴語が出力された場合に、
前記第１特徴語を前記入力キーワードとした再検索、前記第１入力キーワードと前記第１特徴語との両方を前記入力キーワードとした再検索である絞り込み検索、拡張検索および周辺検索の少なくとも１つを実行可能である、
ことを特徴とする請求項１から５のいずれか一項に記載の情報検索プログラム。
入力キーワードを含む文書である基本文書を、文書データベースから検索する基本文書検索手段と、
前記基本文書に関連する関連文書を、前記文書データベースから検索する関連文書検索手段と、
複数の前記関連文書が含まれる文書群を分類することにより、複数の文書集合を生成する文書集合生成手段と、
前記文書集合ごとに、前記文書集合にとって特徴的な語句である特徴語を出力する特徴語出力手段と、
を含み、
前記特徴語出力手段は、
前記文書集合内の文書に含まれるキーワードである文書キーワードを抽出し、
共通の上位概念を有する前記文書キーワードの数が、他の前記上位概念よりも多い前記上位概念である選出上位概念を探索し、前記選出上位概念を有する前記文書キーワードの全て、または、いずれかを前記特徴語とする、ことを特徴とする情報検索装置。