JP7326920B2

JP7326920B2 - 検索装置、検索システム、及び検索プログラム

Info

Publication number: JP7326920B2
Application number: JP2019117923A
Authority: JP
Inventors: 維文川口
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2023-08-16
Anticipated expiration: 2039-06-25
Also published as: CN112131355A; US20200410007A1; JP2021005179A

Description

本発明は、検索装置、検索システム、及び検索プログラムに関する。

特許文献１には、クエリに入力された単語同士を関連付けて記憶する検索ログを利用してクエリサジェスチョンを行うクエリサジェスチョン提供装置が提案されている。具体的には、検索クエリ及び再検索クエリを含む一連の検索操作を示す検索ログを参照して、一連の検索操作に含まれる検索クエリ間の関連度を示すスコアを算出する。このとき、一連の検索操作のうちの最終クエリと、他の検索クエリと、の間のスコアに高いウェイトを付与してスコアを算出する。そして、ユーザ端末から検索クエリを受け付けると、当該検索クエリとの間のスコアの高い検索クエリをユーザ端末に提供する。

特許文献２には、ドキュメントを絞り込み検索するための情報検索装置が提案されている。具体的には、ドキュメントに含まれる文章を形態素解析することによって単語を抽出して前記ドキュメントと関連付けて初期状態の逆引きインデックスを作成して抽出された単語ごとに該単語を含むドキュメントを関連付けた単語リストを生成し、ユーザ端末に表示する。そして、単語リストからユーザに単語を選択させて、初期状態の逆引きインデックスから選択された単語を含むドキュメントの部分集合から再構成した逆引きインデックスを作成して、再構成した逆引きインデックスを用いて単語リストを再生成し、ユーザ端末に再表示する。

特開２０１２－００３５３２号公報特開２００８－２３４５５９号公報

ある単語から検索されたコンテンツをさらに絞り込むために、追加で単語を入力する場合において、入力する単語を推薦する方法として、コンテンツの一例である文書と単語を関連付けた逆引きインデックスを用いて推薦単語リストを作成し推薦する方法があったが、逆引きインデックスを用いた推薦単語リストの推薦方法では、絞り込むために推薦された単語が複数ある場合に、各単語によって検索されるコンテンツが重複したり、絞り込むために推薦された単語が複数ある場合に、各単語によって検索されるコンテンツの数にバラツキがある場合があるため、推薦された各単語をそれぞれ入力し、その中から必要な情報を見つけ出す必要があった。本発明は、ある単語から検索されたコンテンツをさらに絞り込むために、追加で単語を入力する場合において、逆引きインデックスを用いて推薦単語リストを作成し推薦する方法と比較して、ユーザにとって必要な情報の多い検索結果とすることが可能な検索装置、検索システム、及び検索プログラムを提供することを目的とする。

請求項１に記載の検索装置は、検索単語を受け付ける受付部と、前記受付部が受け付けた前記検索単語から得た検索結果を絞り込む推薦単語を複数出力する場合に、複数の前記推薦単語の各単語をクエリに追加した際に絞り込みの結果が重複すること、及び前記各単語をクエリに追加した際に絞り込んだ数に差が生じることの少なくとも一方が、他の単語の組み合わせで絞り込むよりも少なくなるような任意個の推薦単語を導出する導出部と、を含み、前記導出部は、予め記憶された複数の文書から前記受付部が受け付けた前記検索単語を含む文書を抽出して得た文書リストと、予め記憶された複数の単語との対応関係を用いて、単語同士の関係を求め、求めた単語同士の関係から任意個の推薦単語を導出する。

請求項２に記載の発明は、請求項１に記載の発明において、前記導出部は、前記単語同士の関係として、推薦する単語が選択される確率と絞り込みタイプの確率の相互情報量を求め、前記相互情報量が最小または予め定めた閾値以下になるような任意個の推薦単語を導出する。

請求項３に記載の発明は、請求項１又は請求項２に記載の発明において、前記受付部が受け付けた前記検索単語を用いて、前記単語同士の関係を求める際に用いる前記複数の単語の数を限定する限定部を更に含む。

請求項４に記載の発明は、請求項１～３の何れか１項に記載の発明において、前記文書リストの必要文書数を制限する制限部を更に含み、前記導出部は、前記制限部により制限された文書数の中から前記受付部が受け付けた前記検索単語を含む文書リストを抽出して抽出した前記文書リストと、予め記憶された複数の単語との対応関係を用いて、単語同士の関係を求めて任意個の推薦単語を導出する。

請求項５に記載の発明は、請求項４に記載の発明において、前記制限部は、文書数と予め定めた推薦単語数を用いて前記必要文書数を決定する。

請求項６に記載の発明は、請求項１～５の何れか１項に記載の発明において、前記導出部は、複数の前記推薦単語の各単語をクエリに追加した際に絞り込みの結果が重複することが、他の単語の組み合わせで絞り込むよりも少なくなるような任意個の推薦単語を導出する場合、Ｊａｃｃａｒｄ係数、Ｄｉｃｅ係数、または、Ｓｉｍｐｓｏｎ係数を用いて任意個の推薦単語を導出する。
請求項７に記載の発明は、検索単語を受け付ける受付部と、前記受付部が受け付けた前記検索単語から得た検索結果を絞り込む推薦単語を複数出力する場合に、複数の前記推薦単語の各単語をクエリに追加した際に絞り込みの結果が重複すること、及び前記各単語をクエリに追加した際に絞り込んだ数に差が生じることの少なくとも一方が、他の単語の組み合わせで絞り込むよりも少なくなるような任意個の推薦単語を導出する導出部と、を含み、前記導出部は、前記各単語をクエリに追加した際に絞り込んだ数に差が生じることが、他の単語の組み合わせで絞り込むよりも少なくなるような任意個の推薦単語を導出する場合、推薦単語をクエリに追加することで得られる文書数の差を利用して任意個の推薦単語を導出する。

請求項８に記載の発明は、請求項１～５の何れか１項に記載の発明において、前記導出部は、前記各単語をクエリに追加した際に絞り込んだ数に差が生じることが、他の単語の組み合わせで絞り込むよりも少なくなるような任意個の推薦単語を導出する場合、推薦単語をクエリに追加することで得られる文書数の差を利用して任意個の推薦単語を導出する。

請求項９に記載の発明は、請求項２に記載の発明において、前記導出部は、検索結果が予め定めた理想的な文書数で、かつ他の単語と検索結果が重複しない仮想的に定めたダミー単語を用いて前記推薦単語を導出する。
請求項１０に記載の発明は、検索単語を受け付ける受付部と、前記受付部が受け付けた前記検索単語から得た検索結果を絞り込む推薦単語を複数出力する場合に、複数の前記推薦単語の各単語をクエリに追加した際に絞り込みの結果が重複すること、及び前記各単語をクエリに追加した際に絞り込んだ数に差が生じることの少なくとも一方が、他の単語の組み合わせで絞り込むよりも少なくなるような任意個の推薦単語を導出する導出部と、絞り込む前のクエリの文書数、任意個の推薦単語の何れかの単語をクエリに追加した場合の文書量、任意個の推薦単語の何れかの単語をクエリに追加した場合の重複、任意個の推薦単語の何れかの単語をクエリに追加した場合の偏り、及び任意個の推薦単語の何れかの単語をクエリに追加した場合の損失のそれぞれを領域として表示する表示部と、を含む。

請求項１１に記載の発明は、請求項１～９の何れか１項に記載の発明において、絞り込む前のクエリの文書数、任意個の推薦単語の何れかの単語をクエリに追加した場合の文書量、任意個の推薦単語の何れかの単語をクエリに追加した場合の重複、任意個の推薦単語の何れかの単語をクエリに追加した場合の偏り、及び任意個の推薦単語の何れかの単語をクエリに追加した場合の損失のそれぞれを領域として表示する表示部を更に含む。

請求項１２に記載の発明は、請求項１１に記載の発明において、前記表示部は、前記領域を選択することにより領域に対応する単語をクエリに追加する追加部を更に含む。

請求項１３に記載の検索システムは、請求項１～１２の何れか１項に記載の検索装置と、前記受付部が受け付ける単語を入力し、前記導出部の導出結果を表示する情報処理端末と、を含む。

請求項１４に記載の検索プログラムは、コンピュータを、請求項１～１２の何れか１項に記載の検索装置として機能させる。

請求項１に記載の検索装置によれば、ある単語から検索されたコンテンツをさらに絞り込むために、追加で単語を入力する場合において、逆引きインデックスを用いて推薦単語リストを作成し推薦する方法と比較して、ユーザにとって必要な情報の多い検索結果とすることが可能で、かつ単語同士の関係を考慮した推薦単語を導出することが可能な検索装置を提供できる。

請求項２に記載の発明によれば、複数の推薦単語の各単語をクエリに追加した際に絞り込みの結果が重複すること、及び各単語をクエリに追加した際に絞り込んだ数に差が生じることの少なくとも一方が、他の単語の組み合わせで絞り込むよりも少なくなるような任意個の推薦単語を導出することが可能となる。

請求項３に記載の発明によれば、予め記憶された複数の単語全てを用いて推薦単語を導出する場合に比べて、計算量を削減できる。

請求項４に記載の発明によれば、全ての文書リストを用いて推薦単語を導出する場合に比べて、計算量を削減できる。

請求項５に記載の発明によれば、推薦単語を導出するために必要な文書数を決定することが可能となる。

請求項６に記載の発明によれば、複数の推薦単語の各単語をクエリに追加した際に絞り込みの結果が重複することが、他の単語の組み合わせで絞り込むよりも少なくなるような任意個の推薦単語を導出することが可能となる。
請求項７に記載の発明によれば、ある単語から検索されたコンテンツをさらに絞り込むために、追加で単語を入力する場合において、逆引きインデックスを用いて推薦単語リストを作成し推薦する方法と比較して、ユーザにとって必要な情報の多い検索結果とすることが可能で、かつ各単語をクエリに追加した際に絞り込んだ数に差が生じることが、他の単語の組み合わせで絞り込むよりも少なくなるような任意個の推薦単語を導出することが可能となる。

請求項８に記載の発明によれば、各単語をクエリに追加した際に絞り込んだ数に差が生じることが、他の単語の組み合わせで絞り込むよりも少なくなるような任意個の推薦単語を導出することが可能となる。

請求項９に記載の発明によれば、ダミー単語を用いずに相互情報量を求めて推薦単語を導出する場合に比べて、任意個の推薦単語のどの単語をクエリに追加しても検索にヒットしない文書が生じることを抑制することが可能となる。
請求項１０に記載の発明によれば、ある単語から検索されたコンテンツをさらに絞り込むために、追加で単語を入力する場合において、逆引きインデックスを用いて推薦単語リストを作成し推薦する方法と比較して、ユーザにとって必要な情報の多い検索結果とすることが可能で、かつ単語同士の関係を目視で確認することが可能となる。

請求項１１に記載の発明によれば、単語同士の関係を目視で確認することが可能となる。

請求項１２に記載の発明によれば、単語同士の関係を確認しながら、単語をクエリに追加することができる。

請求項１３に記載の検索システムによれば、ある単語から検索されたコンテンツをさらに絞り込むために、追加で単語を入力する場合において、逆引きインデックスを用いて推薦単語リストを作成し推薦する方法と比較して、ユーザにとって必要な情報の多い検索結果とすることが可能で、かつ単語同士の関係を考慮した推薦単語を導出することが可能な検索システムを提供できる。

請求項１３に記載の検索プログラムによれば、ある単語から検索されたコンテンツをさらに絞り込むために、追加で単語を入力する場合において、逆引きインデックスを用いて推薦単語リストを作成し推薦する方法と比較して、ユーザにとって必要な情報の多い検索結果とすることが可能で、かつ単語同士の関係を考慮した推薦単語を導出することが可能な検索プログラムを提供できる。

本実施形態に係る情報処理システムの概略構成を示す図である。本実施形態に係る情報処理システムにおける情報処理端末及びサーバの電気系の要部構成を示すブロック図である。第１実施形態に係るサーバの機能ブロック図である。クエリに「料理」を追加した場合の推薦単語の一例を示す図である。相互情報量の「重複」と「偏り」との関係を模式的に表したもので、「重複」が小さいと相互情報量は小さくなることを示す図である。相互情報量の「重複」と「偏り」との関係を模式的に表したもので、「偏り」が小さいと相互情報量は小さくなることを示す図である。第１実施形態に係るサーバで行われる処理の流れの一例を示すフローチャートである。第２実施形態に係るサーバの機能ブロック図である。第２実施形態に係るサーバ１６で行われる処理の流れの一例を示すフローチャートである。第３実施形態に係るサーバの機能ブロック図である。対応テーブルの一例を示す図である。対応テーブルをもとにスコアとして相互情報量を（９）式に従って計算したものである。相互情報量をもとに推薦単語リストのスコアを算出したものである。第３実施形態に係るサーバで行われる処理の流れの一例を示すフローチャートである。クエリに「料理」を追加した際の推薦単語候補とその単語をクエリに追加した時にヒットする文書数を示している。「ダミー単語」を用意した例を示す図である。「重複」、「偏り」、「損失」に対応したＧＵＩの一例を示す図である。「重複」、「偏り」、「損失」に対応したＧＵＩを用いてクエリへの単語の追加を行う例を説明するための図である。単語と文書の真偽テーブルを用いたＧＵＩの一例を示す図である。

以下、図面を参照して本実施形態の一例を詳細に説明する。本実施形態では、複数の情報処理装置、及びサーバが各種ネットワーク等の通信回線を介して各々接続された情報処理システムを検索システムの一例として説明する。図１は、本実施形態に係る情報処理システム１０の概略構成を示す図である。

本実施形態に係る情報処理システム１０は、図１に示すように、複数の情報処理端末１４ａ、１４ｂ、・・・と、検索装置としてのサーバ１６とを備えている。なお、情報処理端末１４ａ、１４ｂ・・・を区別して説明する必要がない場合は、符号末尾のアルファベットを省略して記載することがある。また、本実施形態では、複数の情報処理端末１４ａ、１４ｂ、・・・を備える例を説明するが、情報処理端末１４は１つでもよい。

各情報処理端末１４及びサーバ１６は、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、インターネット、イントラネット等の通信回線１２を介して各々接続されている。そして、情報処理端末１４及びサーバの各々は、通信回線１２を介して各種データの送受信を相互に行うことが可能とされている。

本実施形態に係る情報処理システム１０は、サーバ１６が、クラウドサービスとして文書を管理する文書管理サービスを提供する。文書管理サービスは、例えば、情報処理端末１４からサーバ１６にアクセスすることにより、サーバ１６に情報としての各種文書を格納したり、サーバ１６に格納された管理対象の文書の閲覧等が可能とされている。

続いて、本実施形態に係る情報処理端末１４及びサーバ１６の電気系の要部構成について説明する。図２は、本実施形態に係る情報処理システム１０における情報処理端末１４及びサーバ１６の電気系の要部構成を示すブロック図である。なお、情報処理端末１４及びサーバ１６は基本的には一般的なコンピュータの構成とされているので、情報処理端末１４を代表して説明する。

本実施の形態に係る情報処理端末１４は、図２に示すように、ＣＰＵ１４Ａ、ＲＯＭ１４Ｂ、ＲＡＭ１４Ｃ、ＨＤＤ１４Ｄ、キーボード１４Ｅ、ディスプレイ１４Ｆ、及び通信回線ＩＦ（インタフェース）部１４Ｇを備えている。ＣＰＵ１４Ａは、情報処理端末１４の全体の動作を司る。ＲＯＭ１４Ｂは、各種制御プログラムや各種パラメータ等が予め記憶される。ＲＡＭ１４Ｃは、ＣＰＵ１４Ａによる各種プログラムの実行時のワークエリア等として用いられる。ＨＤＤ１４Ｄは、各種のデータやアプリケーション・プログラム等が記憶される。キーボード１４Ｅは各種の情報を入力するために用いられる。ディスプレイ１４Ｆは、各種の情報を表示するために用いられる。通信回線ＩＦ部１４Ｇは、通信回線１２に接続され、当該通信回線１２に接続された他の装置と各種データの送受信を行う。以上の情報処理端末１４の各部はシステムバス１４Ｈにより電気的に相互に接続されている。なお、本実施の形態に係る情報処理端末１４では、ＨＤＤ１４Ｄを記憶部として適用しているが、これに限らず、フラッシュメモリ等の他の不揮発性の記憶部を適用してもよい。

以上の構成により、本実施の形態に係る情報処理端末１４は、ＣＰＵ１４Ａにより、ＲＯＭ１４Ｂ、ＲＡＭ１４Ｃ、及びＨＤＤ１４Ｄに対するアクセス、キーボード１４Ｅを介した各種データの取得、ディスプレイ１４Ｆに対する各種情報の表示を各々実行する。また、情報処理端末１４は、ＣＰＵ１４Ａにより、通信回線ＩＦ部１４Ｇを介した通信データの送受信の制御を実行する。

このように構成された本実施形態に係る情報処理システム１０では、上述したように、サーバ１６が、クラウドサービスとして文書を管理する文書管理サービスを提供する。例えば、情報処理端末１４に格納された情報を管理対象の文書としてサーバ１６に移行することで、サーバ１６によって文書の管理が行われ、情報処理端末１４を操作することで、サーバ１６に格納された文書へのアクセスが可能とされている。

（第１実施形態）
続いて、第１実施形態に係るサーバ１６の機能的構成について説明する。図３は、第１実施形態に係るサーバ１６の機能ブロック図である。

本実施形態では、情報処理端末１４からサーバ１６が提供する文書管理サービスに格納された文書情報を検索する際に、情報処理端末１４によって入力された単語に対応する単語リストをサーバ１６が利用者に推薦して検索を支援する機能を備えている。すなわち、情報処理端末１４によってクエリとして文字を入力すると、サーバ１６が入力中の文字または文字列に対応する単語リストを情報処理端末１４に推薦する。例えば、図４に示すように、クエリに「料理」を追加した場合に、「料理」に対応する推薦単語リスト候補として、「日本」、「イタリア」、「フランス」、「中華」、「美味しい」、「簡単」を推薦する。なお、以下の説明では、文書を検索するためにクエリに入力する単語を検索単語と称する。また、クエリに入力された検索単語に関係する単語を推薦単語と称する。

サーバ１６は、図３に示すように、文書ＤＢ（データベース）２２、単語ＤＢ（データベース）２４、受付部としてのクエリ受付部１８、検索部２０、スコア算出部２６、導出部としての推薦単語リスト算出部２８、及び単語選択部３０の機能を備えている。

文書ＤＢ２２には、サーバ１６に予め登録された文書情報が格納されており、情報処理端末１４から文書の登録及び閲覧が可能とされている。

単語ＤＢ２４には、文書ＤＢ２２に文書が登録された際に、文書内の単語が抽出されて文書と関連付けて登録される。

クエリ受付部１８は、情報処理端末１４を利用者が操作して、文書を検索するための単語を入力した場合に、入力された単語を検索単語として情報処理端末１４から取得して受け付ける。また、クエリ受付部１８は、単語ＤＢ２４を参照して、受け付けた単語を検索し、検索結果をスコア算出部２６に出力する。

検索部２０は、クエリ受付部１８が受け付けた単語を参照し、条件に一致する検索対象の文書リストを作成し、スコア算出部２６に出力する。すなわち、クエリ受付部１８が受け付けた単語を含む文書リストを文書ＤＢ２２から検索し、検索した文書リストをスコア算出部２６に出力する。

スコア算出部２６は、文書ＤＢ２２と単語ＤＢ２４の対応関係を用いて、単語同士の関係を表すスコアを計算する。

推薦単語リスト算出部２８は、スコア算出部２６によって算出されたスコアが最小となる任意個の単語を推薦単語リストとして算出する。本実施形態では、推薦単語リスト算出部２８は、クエリ受付部１８が受け付けた検索単語から得た検索結果を絞り込む推薦単語を複数出力する場合に、「重複」及び「偏り」の少なくとも一方が、他の単語の組み合わせで絞り込むよりも少なくなるような任意個の推薦単語を導出する。

単語選択部３０は、推薦単語リスト算出部２８が算出した推薦単語リストの中から、利用者が選択した単語をクエリに検索単語として追加する。

続いて、スコア算出部２６によるスコアの算出と、推薦単語リスト算出部２８による推薦端とリストの算出について詳細に説明する。
本実施形態では、絞り込みを単語ではなく推薦単語リストで行う。つまり、推薦単語同士の関係を考慮する。本実施形態では、推薦単語リストをクエリに追加した場合の検索結果の「重複」、「偏り」、「損失」をスコアリングする。なお、「重複」とは、各単語をクエリに追加した際に、絞り込みの結果が重複することである。また、「偏り」とは、各単語をクエリに追加した際に、絞り込んだ文書数に差が生じることである。また、「損失」とは、推薦単語リストの中のどの単語をクエリに追加しても、検索にヒットしない文書が生じることである。

「重複」をスコアリングする方法としては、例えば、Jaccard係数やDice係数、Simpson係数などの集合同士の類似度スコアを利用する方法がある。具体的には、ある単語ｗ_iを追加したことにより検索にヒットする文書の集合をｒ_iとし、ある単語ｗ_jを追加したことにより検索にヒットする文書の集合をｒ_jとすると、そのJaccard係数Ｊ_ijは、以下の（１）式で表すことができる。

つまり、推薦単語リスト算出部２８は、推薦単語リストのJaccard係数の総和Ｊが最小となる単語リストを選択すればよい。Jaccard係数の総和Ｊは、以下の（２）式で表される。

また、「偏り」をスコアリングする方法としては、例えば、推薦単語のクエリに追加することで得られる文書数の差を利用する方法がある。具体的には、ある単語ｗ_iを追加したことにより検索にヒットする文書数をｒ_iとし、ある単語ｗ_jを追加したことにより検索にヒットする文書数をｒ_jとすると、その差を用いて「偏り」のスコアＤ_ijは、以下の（３）式で表すことができる。

つまり、推薦単語リスト算出部２８は、推薦単語リストの差の絶対値の総和Ｄが最小となる単語リストを選択すればよい。総和Ｄは、以下の（４）式で表される。

また、「重複」と「偏り」を同時にスコアリングする方法としては、例えば、推薦単語リストの中の単語が選択される確率と、絞り込みタイプ（and検索、not検索）の確率の相互情報量を利用する方法がある。ある単語ｗ_iを追加したことにより検索にヒットする文書数をｒ_iとし、ある単語ｗ_jを追加したことにより検索にヒットする文書数ｒ_jとし、ｒ_iとｒ_jの和集合をｒ_ijとすると、相互情報量Ｉ_ijは、和集合ｒ_ijから任意の文書を選択する確率ｐ（ｒ_ijのエントロピーＨ（ｐ（ｒ_ij））と、絞り込みタイプの確率ｐ（ｔ）の元での確率ｐ（ｒ_ij）のエントロピーＨ（ｐ（ｒ_ij｜ｒ））の差から求まる。

図５、６は、相互情報量の「重複」と「偏り」との関係を模式的に表したもので、「重複」が小さいと相互情報量は小さくなり、「偏り」が小さいと相互情報量は小さくなる。相互情報量Ｉ_ijは、「単語ｗ_iによる絞り込み」と「単語ｗ_jによる絞り込み」の「重複」、「偏り」に対応している。つまり、推薦単語リスト算出部２８は、推薦単語リストの相互情報量の総和Ｉが最小になるような単語リストを選択すればよい。相互情報量の総和Ｉは、以下の（７）式で表される。

続いて、本実施形態に係るサーバ１６で行われる具体的な処理について説明する。図７は、本実施形態に係るサーバ１６で行われる処理の流れの一例を示すフローチャートである。なお、図７の処理は、情報処理端末１４が利用者によって操作されてクエリに単語が入力された場合に開始するものとする。

ステップ１００では、クエリ受付部１８は、情報処理端末１４によってクエリに入力された単語を受け付けてステップ１０２へ移行する。

ステップ１０２では、クエリ受付部１８が、単語ＤＢ２４を参照して、受け付けた単語を検索してステップ１０４へ移行する。

ステップ１０４では、検索部２０が、クエリ受付部１８が受け付けた単語を含む文書を文書ＤＢ２２から検索してステップ１０６へ移行する。

ステップ１０６では、スコア算出部２６が、文書ＤＢ２２と単語ＤＢ２４の対応関係を用いて、単語同士の関係を表すスコアを計算してステップ１０８へ移行する。スコアの算出は、上述したように、「重複」をスコアリングする方法を用いてもよいし、「偏り」をスコアリングする方法を用いてもよいし、「重複」と「偏り」を同時にスコアリングする方法を用いてもよい。

ステップ１０８では、推薦単語リスト算出部２８が、スコア算出部２６によって算出されたスコアが最小となる任意個の単語を推薦単語リストとして算出して利用者に提示してステップ１１０へ移行する。

ステップ１１０では、単語選択部３０が、推薦単語リスト算出部２８が算出した推薦単語リストの中から、利用者が選択した単語をクエリに検索単語として追加する指示が行われたか否かを判定する。該判定が肯定された場合には、指示された単語をクエリに追加してステップ１００に戻って上述の処理を繰り返す。判定が否定された場合にはステップ１１２へ移行する。

ステップ１１２では、単語選択部３０が、単語の選択が行われずに、文書の検索が指示されたか否かを判定する。該判定が肯定された場合にはステップ１１４へ移行する。一方、クエリに入力された単語がリセットされて他の単語がクエリに入力されたり、他の処理が指示された場合には判定が否定されて一連の処理を終了する。

ステップ１１４では、ＣＰＵ１６Ａが、クエリに入力された単語を含む文書を文書ＤＢ２２から検索して情報処理端末１４に提示して一連の処理を終了する。

（第２実施形態）
続いて、第２実施形態に係るサーバ１６の機能的構成について説明する。図８は、本実施形態に係るサーバ１６の機能ブロック図である。なお、上記実施形態と同一構成については同一符号を付して詳細な説明は省略する。

上記の実施形態では、スコア算出部２６がスコアを計算する際に、計算量の問題が生じる。例えば、単語ＤＢ２４に登録されている単語がＷ個とし、その中から単語Ｎ個を選択して推薦単語リストとする場合、その組み合わせは_WＣ_Nとなり、単語数が多い場合には現実的な時間での計算が不可能になる。

そこで、本実施形態では、図８に示すように、限定部としての推薦候補単語算出部３２の機能を更に備えて、入力クエリに基づいて単語ＤＢ２４からスコアの計算に使用する推薦単語候補の数を限定する。

推薦単語候補を限定する技術としては、例えば、word embed（word2vec(Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.)や、fasttext(Joulin, A., Grave, E., Bojanowski, P., & Mikolov, T. (2016). Bag of tricks for efficient text classification. arXiv preprint arXiv:1607.01759.)など）空間上の近傍単語を利用してもよい。或いは、知識グラフ（オントロジー）上の近傍単語を利用してもよい。

図９は、本実施形態に係るサーバ１６で行われる処理の流れの一例を示すフローチャートである。なお、図７と同一の処理については同一符号を付して詳細な説明は省略する。

図９に示すように、図７に対してステップ１０３を追加し、ステップ１０３において、推薦候補単語算出部３２が、推薦単語候補を算出することで、単語を限定してスコア計算を行うことで、計算量が削減され、利用者に対して高速に単語リストが推薦される。

（第３実施形態）
続いて、第３実施形態に係るサーバ１６の機能的構成について説明する。図１０は、本実施形態に係るサーバ１６の機能ブロック図である。なお、上記の各実施形態と同一構成については同一符号を付して詳細な説明は省略する。

本実施形態に係るサーバ１６は、第２実施形態に対して、検索結果表示部３４、及びテーブル作成部３６の機能を更に備えている。

検索結果表示部３４は、検索部２０による文書ＤＢ２２の検索結果を利用者が操作する情報処理端末１４に対して表示する処理を行う。

テーブル作成部３６は、推薦候補単語算出部３２によって算出された推薦単語候補と、検索部２０によって検索された文書との対応テーブルを作成する。図１１は、対応テーブルの一例を示す図である。

図１１の例では、簡単のために、単語ＤＢ２４の登録単語Ｗと、文書ＤＢ２２の登録文書Ｄを以下のように定義する。

Ｗ＝｛ｗ₁、ｗ₂、ｗ₃、ｗ₄、ｗ₅｝、Ｄ＝｛Ｄ₁、Ｄ₂、Ｄ₃、Ｄ₄、Ｄ₅｝・・・(8)

この定義した登録単語と対象文書をもとに、スコア算出部２６によるスコア算出と、推薦単語リスト算出部２８による推薦単語リスト算出とを行う。

図１１中の「Ｔ］は、単語ｗが文書ｄに対応すること、すなわち、検索にヒットすることを表しており、「Ｆ」は単語ｗが文書ｄに対応しないこと、すなわち、検索にヒットしないことを表している。

図１２は、図１１の対応テーブルをもとにスコアとして相互情報量を以下の（９）式に従って計算したものである。

ここで、Δｒは微少量であり、ｒ_jがｒ_iの部分集合である場合に、ｒ_ij－ｒ_i＝０となり、０で除算することによる計算不可が生じるのを防ぐためのものである。ここでは、Δｒ＝１．０×１０^－５として計算を行った。相互情報量は非対称であるため、基準が異なれば組み合わせが同じであってもスコアが異なる（例えば、ｗ₁、ｗ₃と、ｗ₃、ｗ₁とでは、スコアは異なる）

図１３は、図１２の結果をもとに推薦単語リスト（図１３の例では２単語）のスコアを算出したものである。図１３の例では、ｗ₁、ｗ₂のスコアが最小となり、推薦単語リストとなる。図１１のｗ₁、ｗ₂を見ると、「Ｔ」の「重複」及び「偏り」が小さいリストとなっている。例えば、ｗ₄、ｗ₅は、「偏り」はあるが、「重複」はないペアであるが、相互情報量は０．８０と他に比べて大きくなっている。また、ｗ₂、ｗ₃のペアは「重複」があり、「偏り」はないが、ｗ₁、ｗ₂のペアと比較すると相互情報量が大きくなっている。こられの結果からも、相互情報量が「重複」と「偏り」を同時にスコアリングしていることがわかる。

今回の例では、登録単語は５であり、２単語を選択する組み合わせ₅Ｃ₂＝１０通りとなるが、登録単語数と選択する単語の数の増加に伴って、推薦単語リストを作成する際に組み合わせの増加が生じる。そのため、リスト算出に使用する登録単語を制限する等のフィルタリングが必要となる。

図１４は、本実施形態に係るサーバ１６で行われる処理の流れの一例を示すフローチャートである。なお、図９と同一の処理については同一符号を付して詳細な説明は省略する。

本実施形態では、図１４に示すように、ステップ１０４において、検索部２０が、クエリ受付部１８が受け付けた単語を含む文書を文書ＤＢ２２から検索した後にステップ１０５Ａへ移行する。

ステップ１０５Ａでは、検索結果表示部３４が、検索部２０の検索結果を利用者が操作する情報処理端末１４に表示する処理を行ってステップ１０５Ｂへ移行する。

そして、ステップ１０５Ｂでは、テーブル作成部３６が、推薦候補単語算出部３２によって算出された推薦単語候補と、検索部２０によって検索された文書との対応テーブルを作成する。そして、上述のステップ１０６へ移行して、スコア算出部２６が、作成された対応テーブルを用いて、単語同士の関係を表すスコアを計算する。

なお、上記の各実施形態において、スコア算出部２６は、「重複」、「偏り」、「損失」の計算を分けて行うことが可能である。例えば、相互情報量は、「重複」と「偏り」は定量化できるが、「損失」は定量化できない。そこで、損失を先にスコアリングし、そのデータを元に相互情報量を計算することにより、「重複」、「偏り」、「損失」を考慮する。これにより、「重複」、「偏り」、「損失」が様々な計算で表現され、対象に応じてスコアリング方法を変更できるだけでなく、それぞれの計算段階で閾値を設けることで、計算量を削減するためのフィルタリングとして利用できる。具体的には、相互情報量では、「損失」を定量化できないため、「損失」を抑制するために、単語をクエリに追加することでヒットする文書の数に下限（以下、「必要単語数」という。）を設けて文書数を制限し、単語をフィルタリングする。推薦単語Ｗ_nと文書数Ｄから、必要文書数Ｄ_nを決定し、その条件を満たす単語をスコア算出部２６がスコアを算出する際にテーブルから選択し、相互情報量の計算を行うことで「損失」に対応する。なお、この場合のスコア算出部２６は制限部に対応する。

文書の数に下限を設けてフィルタリングする例を具体的に説明する。図１５は、クエリに「料理」を追加した際の推薦単語候補とその単語をクエリに追加した時にヒットする文書数を示している。クエリに「料理」を追加した場合のヒットする文書数Ｒ＝２００、推薦単語数Ｗ_n＝５とする。必要文書数Ｄ_nを以下の（１０）式のように定義する。なお、必要文書数Ｄ_nは、重複が０と仮定した時の損失を０にするための１単語あたりのヒット数とする。

Ｄ_n＝Ｒ／Ｗ_n ・・・(10)

文書数Ｒ＝２００、推薦単語数Ｗ_n＝５の場合、必要文書数Ｄ_n＝４０となり、図１５の例では、「時短」、「エジプト」、「激辛」は相互情報量の計算から除外される。

また、上記の各実施形態において、スコア算出部２６が相互情報量を用いてスコアリングする場合に、「ダミー単語」を用いることにより「損失」を抑制してもよい。相互情報量では「損失」を定量化できないので、「検索結果が理想的な文書数であり、かつ他の単語と検索結果が重複しない単語」を、図１６に示すように、「ダミー単語」として用意する。「ダミー単語」は他の単語との「重複」がないため、「偏り」だけで相互情報量が計算できる。つまり、「ダミー単語」を用いることで、「損失」が抑制される。

また、上記の各実施形態は、「重複」、「偏り」、「損失」に対応したＧＵＩ（Graphical User Interface）をサーバ１６が提供してもよい。すなわち、推薦単語リストからクエリに追加した場合の「重複」、「偏り」、「損失」を明示的に表示してもよい。具体的には、上述のステップ１０８において、推薦単語リスト算出部２８が推薦単語リストを算出して利用者に提示する際に、図１７に示すような画面５０をＧＵＩとして利用者に提示してもよい。なお、この場合の推薦単語リスト算出部２８は表示部に対応する。

図１７において、絞り込む前のクエリ（「料理」）の文書数は矩形の最外領域で表し、推薦単語リストの単語をクエリに追加した場合の文書量は、その単語の書かれた領域で表す。また、推薦単語リストの単語をクエリに追加した場合の「重複」は、それぞれの領域の重複部分の大きさで表す。また、推薦単語リストの単語をクエリに追加した場合の「偏り」は、それぞれの領域の差で表す。また、推薦単語リストの単語をクエリに追加した場合の「損失」は、領域が存在しない部分の大きさで表す。または、「損失」の領域として明示的に示す。

「重複」、「偏り」、「損失」を明示的に表示することで、利用者は単語同士の関係を直接目視で確認できるため理解が容易となる。また、単語を選択することにより全体からどの程度絞り込めたかが確認し易く効率的となる。

また、上記の各実施形態は、「重複」、「偏り」、「損失」に対応したＧＵＩを用いてクエリへの単語の追加を行ってもよい。例えば、利用者が情報処理端末１４を操作して、図１８に示す画面５２の各領域を指定する操作を行うことで、操作された領域に対応する単語をクエリに追加することが可能なＧＵＩを推薦単語リスト算出部２８が提供してもよい。例えば、図１８に示す画面５２の重複領域を指定する操作を行った場合には、「重複」を構成する複数単語をまとめてクエリに追加する。ＧＵＩによる単語追加を可能とすることで、利用者は単語同士の関係を確認しながらクエリを選択できるため、絞り込みが効率的となる。なお、この場合の推薦単語リスト算出部２８は追加部に対応する。

また、ＧＵＩとしては、単語と文書の真偽テーブルを用いたＧＵＩを適用してもよい。具体的には、図１９のような縦軸に単語、横軸に文書をとるような真理値テーブルとしたＧＵＩを適用する。単語と文書が対応する場合には「真」としてセルを埋めて「白」とし、対応しない場合には「偽」としてセルを埋めずに「黒」とする。このような真偽テーブルを作成することで、単語と文書の対応関係が明示的に表現される。

また、ＩＲＭ（Infinite Relational Model（Charles, K., Joshua, T., Thomas, G., Takeshi, Y., & Naonori, U. (2006). Learning Systems of Concepts with an Infinite Relational Model. AAAI））のような技術を利用することで、テーブルのクラスタリングが可能となり、単語同士の関係、及び文書同士の関係の理解が容易となる。

また、上記の実施形態に係るサーバ１６で行われる処理は、ソフトウエアで行われる処理としてもよいし、ハードウエアで行われる処理としてもよいし、双方を組み合わせた処理としてもよい。また、サーバ１６で行われる処理は、プログラムとして記憶媒体に記憶して流通させるようにしてもよい。

また、本発明は、上記に限定されるものでなく、上記以外にも、その主旨を逸脱しない範囲内において種々変形して実施可能であることは勿論である。

１０情報処理システム
１２通信回線
１４情報処理端末
１６サーバ
１８クエリ受付部
２０検索部
２２文書ＤＢ
２４単語ＤＢ
２６スコア算出部
２８推薦単語リスト算出部
３０単語選択部
３２推薦候補単語算出部
３６テーブル作成部
５０、５２画面

Claims

検索単語を受け付ける受付部と、
前記受付部が受け付けた前記検索単語から得た検索結果を絞り込む推薦単語を複数出力する場合に、複数の前記推薦単語の各単語をクエリに追加した際に絞り込みの結果が重複すること、及び前記各単語をクエリに追加した際に絞り込んだ数に差が生じることの少なくとも一方が、他の単語の組み合わせで絞り込むよりも少なくなるような任意個の推薦単語を導出する導出部と、
を含み、
前記導出部は、予め記憶された複数の文書から前記受付部が受け付けた前記検索単語を含む文書を抽出して得た文書リストと、予め記憶された複数の単語との対応関係を用いて、単語同士の関係を求め、求めた単語同士の関係から任意個の推薦単語を導出する検索装置。
前記導出部は、前記単語同士の関係として、推薦する単語が選択される確率と絞り込みタイプの確率の相互情報量を求め、前記相互情報量が最小または予め定めた閾値以下になるような任意個の推薦単語を導出する請求項１に記載の検索装置。
前記受付部が受け付けた前記検索単語を用いて、前記単語同士の関係を求める際に用いる前記複数の単語の数を限定する限定部を更に含む請求項１又は請求項２に記載の検索装置。
前記文書リストの必要文書数を制限する制限部を更に含み、
前記導出部は、前記制限部により制限された文書数の中から前記受付部が受け付けた前記検索単語を含む文書リストを抽出して抽出した前記文書リストと、予め記憶された複数の単語との対応関係を用いて、単語同士の関係を求めて任意個の推薦単語を導出する請求項１～３の何れか１項に記載の検索装置。
前記制限部は、文書数と予め定めた推薦単語数を用いて前記必要文書数を決定する請求項４に記載の検索装置。
前記導出部は、複数の前記推薦単語の各単語をクエリに追加した際に絞り込みの結果が重複することが、他の単語の組み合わせで絞り込むよりも少なくなるような任意個の推薦単語を導出する場合、Ｊａｃｃａｒｄ係数、Ｄｉｃｅ係数、または、Ｓｉｍｐｓｏｎ係数を用いて任意個の推薦単語を導出する請求項１～５の何れか１項に記載の検索装置。
検索単語を受け付ける受付部と、
前記受付部が受け付けた前記検索単語から得た検索結果を絞り込む推薦単語を複数出力する場合に、複数の前記推薦単語の各単語をクエリに追加した際に絞り込みの結果が重複すること、及び前記各単語をクエリに追加した際に絞り込んだ数に差が生じることの少なくとも一方が、他の単語の組み合わせで絞り込むよりも少なくなるような任意個の推薦単語を導出する導出部と、
を含み、
前記導出部は、前記各単語をクエリに追加した際に絞り込んだ数に差が生じることが、他の単語の組み合わせで絞り込むよりも少なくなるような任意個の推薦単語を導出する場合、推薦単語をクエリに追加することで得られる文書数の差を利用して任意個の推薦単語を導出する検索装置。
前記導出部は、前記各単語をクエリに追加した際に絞り込んだ数に差が生じることが、他の単語の組み合わせで絞り込むよりも少なくなるような任意個の推薦単語を導出する場合、推薦単語をクエリに追加することで得られる文書数の差を利用して任意個の推薦単語を導出する請求項１～５の何れか１項に記載の検索装置。
前記導出部は、検索結果が予め定めた理想的な文書数で、かつ他の単語と検索結果が重複しない仮想的に定めたダミー単語を用いて前記推薦単語を導出する請求項２に記載の検索装置。
検索単語を受け付ける受付部と、
前記受付部が受け付けた前記検索単語から得た検索結果を絞り込む推薦単語を複数出力する場合に、複数の前記推薦単語の各単語をクエリに追加した際に絞り込みの結果が重複すること、及び前記各単語をクエリに追加した際に絞り込んだ数に差が生じることの少なくとも一方が、他の単語の組み合わせで絞り込むよりも少なくなるような任意個の推薦単語を導出する導出部と、
絞り込む前のクエリの文書数、任意個の推薦単語の何れかの単語をクエリに追加した場合の文書量、任意個の推薦単語の何れかの単語をクエリに追加した場合の重複、任意個の推薦単語の何れかの単語をクエリに追加した場合の偏り、及び任意個の推薦単語の何れかの単語をクエリに追加した場合の損失のそれぞれを領域として表示する表示部と、
を含む検索装置。
絞り込む前のクエリの文書数、任意個の推薦単語の何れかの単語をクエリに追加した場合の文書量、任意個の推薦単語の何れかの単語をクエリに追加した場合の重複、任意個の推薦単語の何れかの単語をクエリに追加した場合の偏り、及び任意個の推薦単語の何れかの単語をクエリに追加した場合の損失のそれぞれを領域として表示する表示部を更に含む請求項１～９の何れか１項に記載の検索装置。
前記表示部は、前記領域を選択することにより領域に対応する単語をクエリに追加する追加部を更に含む請求項１１に記載の検索装置。
請求項１～１２の何れか１項に記載の検索装置と、
前記受付部が受け付ける単語を入力し、前記導出部の導出結果を表示する情報処理端末と、
を含む検索システム。
コンピュータを、請求項１～１２の何れか１項に記載の検索装置として機能させるための検索プログラム。