JP7174017B2

JP7174017B2 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: JP7174017B2
Application number: JP2020124075A
Authority: JP
Inventors: 雅二郎岩崎
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2022-11-17
Anticipated expiration: 2040-07-20
Also published as: JP2022020518A

Description

特許法第３０条第２項適用公開日令和２年３月２５日令和２年７月２７日時点における本願に関連するソフトウェアを公開するページｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｙａｈｏｏｊａｐａｎ／ＮＧＴ／ｒｅｌｅａｓｅｓ／ｔａｇ／ｖ１．１０．０

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

従来、種々の情報を検索する技術が提供されている。例えば、有向エッジや無向エッジ等のエッジによって生成されたグラフを用いて検索を行う技術が提供されている。例えば、各ノードが近傍ノードに有向エッジによって接続されている近傍グラフが近傍検索に利用されている。このような技術は、例えば、画像検索等に用いられる。

特開２０１１－０９０３５１号公報特許第５２０８００１号公報特許第６２９３３３５号公報

しかしながら、上記の従来技術では、適切なエッジ数を推定することが難しい場合がある。例えば、各ノードに接続されたエッジ数が多いほど、グラフを用いた検索を行った場合の検索精度が高くなる傾向があるが、一方で、計算時間が膨大になるといった課題がある。そのため、検索精度と、計算時間とを適切に調節可能なエッジ数を推定する必要がある。

本願は、上記に鑑みてなされたものであって、適切なエッジ数を推定する情報処理装置、情報処理方法及び情報処理プログラムを提供することを目的とする。

本願に係る情報処理装置は、検索対象となるオブジェクト群のうち、第１数のオブジェクトの各々のノードがエッジによって連結された測定対象グラフを対象として評価指標を測定し、当該評価指標が所定の条件を満たすエッジ数である最適エッジ数を特定する測定部と、前記測定部によって特定された前記測定対象グラフの前記最適エッジ数に基づいて、前記第１数よりも多い第２数のオブジェクトの各々のノードがエッジによって連結された推定対象グラフの前記最適エッジ数を推定する推定部と、を備えることを特徴とする。

実施形態の一態様によれば、適切なエッジ数を推定することができるという効果を奏する。

図１は、実施形態に係る情報処理装置が実行する推定処理の一例を示す図である。図２は、実施形態に係る情報処理システムの構成例を示す図である。図３は、実施形態に係る測定対象グラフ情報記憶部の一例を示す図である。図４は、実施形態に係る関数情報記憶部の一例を示す図である。図５は、実施形態に係る情報処理装置が実行する検索処理の一例を示すフローチャートである。図６は、実施形態に係る情報処理装置が実行する推定処理の一例を示すフローチャートである。図７は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．情報処理装置が示す推定処理の一例〕
まず、図１を用いて、情報処理装置１００が実行する推定処理の一例について説明する。図１は、実施形態に係る情報処理装置１００が実行する推定処理の一例を示す図である。図１の例では、情報処理装置１００が画像を検索する際に、検索に用いる推定対象グラフを生成する例を挙げて説明する。

図１に示すように、情報処理装置１００は、オブジェクトの集合であるオブジェクト群（オブジェクト群が示すオブジェクト数が第２数の一例に相当）を外部装置から取得する（ステップＳ１）。

例えば、外部装置に記憶される電子商取引サービスにおいて取引される取引対象に関する画像情報から検索対象のオブジェクトを検索する検索要求を外部装置から受付けるものとする。この場合、情報処理装置１００は、オブジェクト群として、取引対象に関する画像情報の集合（取引対象群の一例）を外部装置から取得する。より具体的な例を挙げると、情報処理装置１００は、オブジェクト群が示す第２数である「１０００００００」のオブジェクトを外部装置から取得する。なお、以下では、各オブジェクトは、ベクトル化され、ベクトル化されたオブジェクト（ベクトル情報）を対象として、後述する推定処理等の各種処理を行う。

続いて、情報処理装置１００は、オブジェクト群から第１数のオブジェクトを選択する（ステップＳ２）。例えば、情報処理装置１００は、「１０００００００」のオブジェクトから、第１数として「１２５００」のオブジェクトを選択する。

そして、情報処理装置１００は、第１数のオブジェクトに対応する各ノードが連結されるエッジの数である連結エッジ数を初期値に設定する（ステップＳ３）。例えば、情報処理装置１００は、連結エッジ数の初期値として、「１００」と設定する。

続いて、情報処理装置１００は、第１数のオブジェクトと、連結エッジ数とに基づいて、測定対象グラフを生成する（ステップＳ４）。例えば、情報処理装置１００は、「１２５００」のオブジェクトと、「１００」の連結エッジ数とに基づいて、測定対象グラフを生成する。

以下では、エッジが有効エッジである場合について説明する。ここで、有向エッジとは、一方向にしかデータを辿れないエッジを意味する。以下では、エッジにより辿る元、すなわち始点となるノードを参照元とし、エッジにより辿る先、すなわち終点となるノードを参照先とする。例えば、所定のノード「Ａ」から所定のノード「Ｂ」に連結される有向エッジとは、参照元をノード「Ａ」とし、参照先をノード「Ｂ」とするエッジである。

例えば、ノード「Ａ」を参照元とするエッジをノード「Ａ」の出力エッジという。また、例えば、ノード「Ｂ」を参照先とするエッジをノード「Ｂ」の入力エッジという。すなわち、ここでいう出力エッジ及び入力エッジとは、一の有向エッジをその有向エッジが連結する２個のノードのうち、いずれのノードを中心として捉えるか否かの相違であり、一の有向エッジが出力エッジ及び入力エッジになる。すなわち、出力エッジ及び入力エッジは、相対的な概念であって、一の有向エッジについて、参照元となるノードを中心として捉えた場合に出力エッジとなり、参照先となるノードを中心として捉えた場合に入力エッジとなる。

なお、本実施形態においては、エッジについては、出力エッジや入力エッジ等の有向エッジを対象とするため、以下では、有向エッジを単に「エッジ」と記載する場合がある。また、ここでいう、各ノードは、各オブジェクトに対応する。

例えば、情報処理装置１００は、測定対象グラフＧＲ１のような測定対象グラフを生成する。測定対象グラフＧＲ１は、第１数のオブジェクトに対応するノードが有向エッジで連結されたグラフ情報である。

なお、ノードは、「ノードＮ＊（＊は任意の数値）」と記載した場合、ノードＩＤ「Ｎ＊」によって識別されるノードを示す。例えば、ノードは、「ノードＮ１」と記載した場合、ノードＩＤ「Ｎ１」によって識別されるノードを示す。

また、エッジは、「エッジＥ＊（＊は任意の数値）」と記載した場合、エッジＩＤ「Ｅ＊」によって識別されるエッジを示す。例えば、エッジは、「エッジＥ３１」と記載した場合、エッジＩＤ「Ｅ３１」によって識別されるエッジである。

また、測定対象グラフＧＲ１には、第１数に対応する数のノードが含まれるが、図１の例では、説明を簡単にするために、５個のノードを図示して処理の概要を説明する。例えば、情報処理装置１００は、測定対象グラフＧＲ１に示すように、ノードＮ１～Ｎ３、Ｎ４３、Ｎ５３等の複数のノードを含むグラフ情報を生成する。

例えば、図１の例では、情報処理装置１００は、各オブジェクトに対応する各ノードから連結エッジ数「１００」の出力エッジが他のエッジに連結されるように、測定対象グラフＧＲ１を生成する。また、情報処理装置１００は、測定対象グラフＧＲ１における各ノードが、そのノードとの間の距離が近い方から連結エッジ数「１００」のノードへの出力エッジが連結されるように測定対象グラフＧＲ１を生成する。

ここで、各ノード間の距離は、ノードの類似性を示し、距離が近いほど類似している。本実施形態においては、測定対象グラフＧＲ１における各ノードの距離を、各ノードに対応する各オブジェクト間の類似度とする。例えば、各ノードに対応するオブジェクトの類似性が、測定対象グラフＧＲ１におけるノード間の距離として写像されているものとする。例えば、各ノードに対応する概念間の類似度が各ノード間の距離に写像されているものとする。ここで、図１の例では、測定対象グラフＧＲ１における各ノード間の距離が短いオブジェクト同士の類似度が高いことを示し、測定対象グラフＧＲ１における各ノード間の距離が長いオブジェクト同士の類似度が低いことを示す。

例えば、測定対象グラフＧＲ１において、ノードＮ４３とノードＮ２とは近接している、すなわち、距離が短い（近い）。そのため、ノードＮ４３に対応するオブジェクトと、ノードＮ２に対応するオブジェクトとは類似度が高いことを示す。また、測定対象グラフＧＲ１において、ノードＮ４３とノードＮ５３とは遠隔にある、すなわち、距離が長い（遠い）。そのため、ノードＮ４３に対応するオブジェクトと、ノードＮ５３に対応するオブジェクトとは類似度が低いことを示す。

なお、上記例では、ノード間の類似度を示す指標として、距離を挙げたが、距離は、ベクトル（Ｎ次元ベクトル）間の距離として適用可能であれば、如何なる距離であってもよい。例えば、距離は、ユークリッド距離や、マハラノビス距離等の種々の距離であってもよい。また、ノード間の類似度は、２つのオブジェクト間の類似度を反映するものであれば、如何なる情報であってもよく、例えば、コサイン類似度等の角度に関する情報であってもよい。

また、測定対象グラフＧＲ１では、ノードＮ１は、ノードＮ５３へ向かう有向エッジであるエッジＥ２が連結される。すなわち、ノードＮ１は、ノードＮ５３とエッジＥ２とによって連結される。例えば、ノードＮ１を参照元とし、ノードＮ５３を参照先として連結されるエッジＥ２により、ノードＮ１からノードＮ５３に辿ることが可能となる。この場合、有向エッジであるエッジＥ２は、ノードＮ１を中心として識別される場合、出力エッジとなり、ノードＮ５３を中心として識別される場合、入力エッジとなる。

言い換えると、有向エッジであるエッジＥ２は、ノードＮ１側からの視点でとらえた場合、ノードＮ１自身から他のエッジへ矢印が向いているエッジ（外向きエッジ）となり、ノードＮ５３側からの視点でとらえた場合、ノードＮ５３自身の方に矢印が向いているエッジ（内向きエッジ）となる。すなわち、ここでいう出力エッジは、外向きエッジと読み替えることができ、入力エッジは、内向きエッジと読み替えることができる。また、図１では図示を省略するが、ノードＮ５３は、ノードＮ１へ向かう有向エッジ（エッジＥ５３１とする）が連結されてもよい。このように、ノードＮ５３からの出力エッジであるエッジＥ５３１がノードＮ１に連結されてもよい。この場合、ノードＮ１とノードＮ５３との間には、ノードＮ１からノードＮ５３へ向かう有向エッジであるエッジＥ２と、ノードＮ５３からノードＮ１へ向かう有向エッジであるエッジＥ５３１との２個のエッジが連結される。

そして、情報処理装置１００は、測定対象グラフの評価指標として検索精度を測定する。なお、ここでいう評価指標は、測定対象グラフの性能を示す指標であれば、如何なる指標であってもよく、検索精度の代わりに、例えば、検索時間や、オブジェクトアクセス数や、距離計算回数や、測定対象グラフの生成速度等であってもよい。

ここで、精確な正解データを生成するには、すべてのオブジェクトとの距離を計算する必要があり、大規模なオブジェクト群である場合には現実的な時間でできない。そのため、情報処理装置１００が近似正解データを生成する場合に、評価用クエリに対して正解データを得る代わりに、何らかの評価対象のインデックスを用いて近似正解データを事前に取得するものとする。例えば、情報処理装置１００は、近傍検索に関する種々の技術を適宜用いて、評価用クエリに対応する近似正解データを生成する。

ここで、近似正解データを生成する生成処理について説明する。まず、情報処理装置１００は、評価用クエリを決定する。例えば、情報処理装置１００は、第１数のオブジェクトからランダムに抽出したオブジェクト、または、ランダムに抽出した二つ以上のオブジェクトの平均値のオブジェクトを、評価用クエリに決定する。

例えば、情報処理装置１００は、第１数のオブジェクトからランダムに二つ以上の所定数のオブジェクトを評価用クエリの生成に用いるオブジェクトとして抽出する。そして、情報処理装置１００は、ランダムに抽出された複数のオブジェクトの平均値である多次元のベクトル情報を評価用クエリに決定する。

なお、上記は一例であり、情報処理装置１００は、種々の情報を適宜用いて、評価用クエリを決定してもよい。平均値を求める複数のオブジェクトは、ランダムに選択した一つのオブジェクトと、そのオブジェクトに対して距離が近いオブジェクトを一つ以上選択したオブジェクトとしてもよい。また、例えば、情報処理装置１００は、オブジェクト群のうち、第１数のオブジェクトに対応する測定対象グラフに含まれないオブジェクトを評価用クエリとして用いてもよい。

次に、情報処理装置１００は、近似正解データを取得する。ここで、近似正解データとは、評価用クエリを対象とする近似正解データである。情報処理装置１００は、評価用クエリを用いて、ｋ個（ｋは任意の数）のノードを近傍ノードとして抽出した結果を示す近似正解データを取得する。

例えば、情報処理装置１００は、後述する図５に示す検索処理により、評価用クエリに対応する近似正解データを生成する。この場合、情報処理装置１００は、検索範囲係数「ε」の値を所定値以上大きくして、測定対象グラフＧＲ１を用いて図５に示す検索処理を行うことにより、評価用クエリに対応する近似正解データを生成する。これにより、情報処理装置１００は、すべてのオブジェクトとの距離を計算して正解データを生成する場合に比べて、処理時間を短縮することができる。

なお、上記処理は一例であり、すべてのオブジェクトとの距離を計算して正解データを生成するよりも短い処理時間で、近似正解データを生成することができれば、情報処理装置１００は、如何なる処理により、近似正解データを生成してもよい。

ここで、検索範囲係数「ε」の概念について簡単に説明する。例えば、情報処理装置１００は、評価用クエリを中心とする半径ｒ内の第１範囲と、評価用クエリを中心とする半径ｒ（１＋ε）内の第２範囲とを用いて、測定対象グラフＧＲ１を検索し、近傍ノードを抽出する。このように、情報処理装置１００は、検索範囲係数「ε」を適用した処理により、近傍ノードを抽出する処理を行うが、検索範囲係数「ε」を用いた処理の詳細は図５において説明する。

そして、情報処理装置１００は、測定対象グラフＧＲ１の検索精度を測定する。ここで、検索精度とは、例えば、再現率である。ここでいう再現率とは、「（近似正解データの中で実際に検索された結果）／（近似正解データ）」で得られる指標である。すなわち、再現率は、検索精度の測定対象となる検索処理における「近似正解データの中で実際に検索された結果」を、「近似正解データ」で除算することにより算出される。例えば、情報処理装置１００は、検索条件として、測定対象グラフＧＲ１に含まれるすべてのエッジを利用し、且つ、εの値を０とし、図５に示す検索処理を行う。これにより、情報処理装置１００は、近傍ノードを取得する。そして、情報処理装置１００は、かかる近傍ノードと、近似正解データとを比較することで、測定対象グラフＧＲ１の検索精度を測定する。例えば、情報処理装置１００は、検索処理を連結エッジ数「１００」の測定対象グラフに行い、取得された近傍ノードと、評価用クエリとを比較することで検索精度「９８％」と測定する。

また、情報処理装置１００は、測定対象グラフの検索精度が条件を満たすか否かを判定する（ステップＳ５）。例えば、情報処理装置１００は、測定対象グラフの検索精度が条件を満たさないと判定した場合に（ステップＳ５；Ｎｏ）、連結エッジ数を変更する（ステップＳ６）。例えば、情報処理装置１００は、測定対象グラフの検索精度が条件を満たさないと判定した場合に、測定対象グラフが示す連結エッジ数を小さい数に変更する。そして、情報処理装置１００は、小さい数に変更した連結エッジ数に基づいて、測定対象グラフを生成する（ステップＳ４）。情報処理装置１００は、このような処理（ステップＳ４～Ｓ６）を測定対象グラフの検索精度が条件を満たすと判定するまで繰返す。

一方、情報処理装置１００は、測定対象グラフの検索精度が条件を満たすと判定した場合に（ステップＳ５；Ｙｅｓ）、測定対象グラフの検索精度が条件を満たした連結エッジ数を、第１数に対応する最適エッジ数と特定する（ステップＳ６）。例えば、検索精度が９０％以上であり、且つ、最適エッジ数が最小値を示す場合に、測定対象グラフの検索精度が条件を満たすものとする。この場合、情報処理装置１００は、測定対象グラフの検索精度が条件を満たすと判定したときに、「１２５００」に対応する最適エッジ数を「２５」と特定する。

ここで、連結エッジ数の変更処理について説明する。例えば、検索精度が９０％以上であり、且つ、最適エッジ数が最小値を示す場合に、測定対象グラフの検索精度が条件を満たすものとする。また、測定対象グラフの検索精度が条件を満たさない場合に、連結エッジ数を半分の値に変更するものとする。この場合、情報処理装置１００は、初期値である連結エッジ数「１００」から初期値の半分の値である「５０」に基づいて、測定対象グラフを生成し、かかる測定対象グラフの検索精度を測定する。このとき、情報処理装置１００は、連結エッジ数「１００」の測定対象グラフから「５０」のエッジを取得し、連結エッジ数「５０」の測定対象グラフを生成する。

より具体的な例を挙げて説明すると、情報処理装置１００は、連結エッジ数「１００」の測定対象グラフから各ノードのみを取得する。また、情報処理装置１００は、かかる各ノードに対して、連結エッジ数「１００」の測定対象グラフを参照して距離の短い方のエッジから「５０」のエッジを選択する。そして、情報処理装置１００は、取得した各ノードと、選択した「５０」のエッジとに基づいて、連結エッジ数「５０」の測定対象グラフを生成する。これにより、情報処理装置１００は、測定対象グラフの生成に図５のような検索処理が不要となるため、高速に測定対象グラフを生成することができる。なお、このときの検索精度が９３％であるものとする。

そして、情報処理装置１００は、上記と同様の処理を行うことで、連結エッジ数「５０」の半分の値である「２５」に基づいて生成された測定対象グラフの検索精度が「９０」と測定する。また、情報処理装置１００は、上記と同様の処理を行うことで、連結エッジ数「２５」の半分の値である「１３」に基づいて生成された測定対象グラフの検索精度が「８５」と測定する。この場合、情報処理装置１００は、検索精度が９０％以上であり、且つ、最適エッジ数が最小値を示す場合が最適エッジ数「２５」であると特定する。

このように、情報処理装置１００は、初期値「１００」の最適エッジ数に基づいて生成された測定対象グラフを参照して、かかる測定対象グラフからエッジ数を減少させることで、変更する最適エッジ数に対応する測定対象グラフを生成することができる。これにより、情報処理装置１００は、最適エッジ数を有する測定対象グラフの生成をより短時間の計算時間で実現することができる。

続いて、情報処理装置１００は、推定対象グラフが推定可能か否かを判定する（ステップＳ８）。例えば、情報処理装置１００は、推定対象グラフが推定可能でないと判定した場合に（ステップＳ８；Ｎｏ）、第１数を変更する（ステップＳ９）。例えば、情報処理装置１００は、推定対象グラフが推定可能でないと判定した場合に、第１数を大きい数に変更する。例えば、情報処理装置１００は、第１数「１２５００」を「２５０００」と変更する。そして、情報処理装置１００は、大きい数に変更した第１数に基づいて、最適エッジ数を特定する。このように、情報処理装置１００は、各第１数に対応する最適エッジ数の特定処理（ステップＳ２～Ｓ８）を推定対象グラフが推定可能であると判定するまで繰返す。

一方、情報処理装置１００は、推定対象グラフが推定可能であると判定した場合に（ステップＳ８；Ｙｅｓ）、推定対象グラフの最適エッジ数を推定する（ステップＳ１０）。例えば、情報処理装置１００は、第１数（関数ＧＲ２ではオブジェクト数に相当）と、最適エッジ数との組合せに基づいて関数ＧＲ２を生成することができる場合に、推定対象グラフが推定可能であると判定する。

例えば、第１数と、最適エッジ数との組合せが４つである場合に、推定対象グラフが推定可能であるものとする。この場合、関数ＧＲ２は、ＮＯ１及びＮＥ１の組合せと、ＮＯ２及びＮＥ２の組合せと、ＮＯ３及びＮＥ３の組合せと、ＮＯ４及びＮＥ４の組合せとに基づいて生成される。より具体的な例を挙げると、関数ＧＲ２は、「１２５００」及び「２５」の組合せと、「２５０００」及び「３５」の組合せと、「５００００」及び「４５」の組合せと、「１０００００」及び「６５」の組合せとに基づいて生成される。

そして、情報処理装置１００は、オブジェクト群が示す第２数ＮＯＸを関数ＧＲ２に入力することで、出力として、推定対象グラフの最適エッジ数ＮＥＸを推定する。例えば、情報処理装置１００は、関数ＧＲ２を用いて、オブジェクト群が示す第２数「１０００００００」に基づいて、最適エッジ数を「８５」と推定する。

従来、各ノードに接続されたエッジ数が多いほど、グラフを用いた検索を行った場合の検索精度が高くなる傾向があるが、一方で、計算時間が膨大になるといった課題があった。例えば、図１の例でいうと、第２数が非常に大きい数である場合に、最適エッジ数を有したグラフの生成に非常に時間がかかる場合がある。そこで、実施形態に係る情報処理装置１００は、特定された測定対象グラフの最適エッジ数に基づいて、第１数よりも多い第２数のオブジェクトの各々のノードがエッジによって連結された推定対象グラフの最適エッジ数を推定することで従来の課題を解決する。

例えば、情報処理装置１００は、第２数よりも小さい第１数に基づいて測定対象グラフを生成し、第１数を複数回変更することで、推定したいオブジェクト群の特徴を示す関数であって、オブジェクト数と、最適エッジ数との関係性を示す関数を生成する。これにより、情報処理装置１００は、推定したいオブジェクト群が示すオブジェクト数（図１の例では第２数）をかかる関数に入力することで、第２数に対応する最適エッジ数を推定する。このように、情報処理装置１００は、第２数をすべて取扱い、最適エッジ数を有するグラフを生成するよりも計算時間を削減できる。したがって、情報処理装置１００は、検索精度と、計算時間とを適切に調節可能な最適エッジ数をより迅速に推定することができる。

〔２．情報処理システムの構成〕
次に、図２を用いて、実施形態に係る情報処理システム１の構成について説明する。図２は、実施形態に係る情報処理システム１の構成例を示す図である。図２に示すように、情報処理システム１には、外部装置５０と、情報処理装置１００とが含まれる。外部装置５０と、情報処理装置１００とはネットワークＮを介して有線又は無線により通信可能に接続される。なお、図２に示した情報処理システム１には、複数台の外部装置５０や、複数台の情報処理装置１００が含まれてもよい。

実施形態に係る外部装置５０は、ユーザ等に種々の情報提供を行うための情報が格納された情報処理装置であり、例えば、サーバ又はクラウドシステムによって実現される。例えば、外部装置５０は、ウェブサーバ等の種々の外部装置から収集した文字情報等に基づくオブジェクトＩＤが格納される。例えば、外部装置５０は、ユーザ等に画像検索サービスを提供する情報処理装置である。例えば、外部装置５０は、画像検索サービスを提供するための各情報が格納される。例えば、外部装置５０は、画像検索サービスの対象となる画像に対応するベクトル情報を情報処理装置１００に提供する。なお、外部装置５０が情報処理装置１００に提供するデータは、画像情報等のデータ自体であってもよいし、ＵＲＬ（Uniform Resource Locator）等の対応するデータを参照するための情報であってもよい。

実施形態に係る情報処理装置１００は、例えば、サーバ又はクラウドシステムによって実現される。情報処理装置１００は、検索対象となるオブジェクト群のうち、第１数のオブジェクトの各々のノードがエッジによって連結された測定対象グラフを対象として評価指標を測定し、評価指標が所定の条件を満たすエッジ数である最適エッジ数を特定する。そして、情報処理装置１００は、特定された測定対象グラフの最適エッジ数に基づいて、第１数よりも多い第２数のオブジェクトの各々のノードがエッジによって連結された推定対象グラフの最適エッジ数を推定する。

〔３．情報処理装置の構成〕
また、図２を用いて、実施形態に係る情報処理装置１００の構成について説明する。図２は、実施形態に係る情報処理装置１００の構成例を示す図である。図２に示すように、情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、情報処理装置１００は、情報処理装置１００の管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

（通信部１１０について）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１０は、所定のネットワークＮと有線又は無線で接続され、外部装置５０との間で情報の送受信を行う。

（記憶部１２０について）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部１２０は、測定対象グラフ情報記憶部１２１と、関数情報記憶部１２２とを有する。

（測定対象グラフ情報記憶部１２１について）
実施形態に係る測定対象グラフ情報記憶部１２１は、測定対象グラフに関する各種情報を記憶する。ここで、図３は、実施形態に係る測定対象グラフ情報記憶部１２１の一例を示す図である。図３に示す測定対象グラフ情報記憶部１２１は、「測定対象グラフＩＤ（Identifier）」、「ノードＩＤ」、「オブジェクトＩＤ」、「エッジ情報」といった項目を有する。また、「エッジ情報」には、「エッジＩＤ」や「参照先」といった情報が含まれる。

「測定対象グラフＩＤ」は、測定対象グラフを識別する識別子である。「ノードＩＤ」は、測定対象グラフデータにおける各ノードを識別する識別子である。また、「オブジェクトＩＤ」は、オブジェクトを識別する識別情報子である。

また、「エッジ情報」は、対応するノードに接続されるエッジに関する情報である。図３の例では、「エッジ情報」は、対応するノードから出力される有向エッジに関する情報である。また、「エッジＩＤ」は、ノード間を連結するエッジを識別する識別子である。また、「参照先」は、エッジにより連結された参照先を示す情報である。すなわち、図３の例では、ノードを識別するノードＩＤに対して、そのノードに対応するオブジェクトを識別する情報や、そのノードからの有向エッジが連結される参照先が対応付けられて登録されている。

図３の例では、測定対象グラフＩＤによって識別された「Ｇ１」は、ノードＩＤが「Ｎ１」であり、オブジェクトＩＤ「ＯＢ１」である。また、エッジＩＤ「Ｅ１」によって識別されるエッジが、ノードＩＤ「Ｎ２」によって識別されるノードに連結されることを示す。すなわち、図３の例では、測定対象グラフ情報におけるノードＮ１からはエッジＥ１によってノードＮ２へ辿ることができることを示す。

また、図３の例では、ノードＩＤ「Ｎ２」によって識別されるノードは、オブジェクトＩＤ「ＯＢ２」によって識別されるオブジェクトに対応することを示す。また、エッジＩＤ「Ｅ２１」によって識別されるエッジが、ノードＩＤ「Ｎ１」によって識別されるノードに連結されることを示す。すなわち、図３の例では、測定対象グラフ情報におけるノードＮ２からはエッジＥ２１によりノードＮ１へ辿ることができることを示す。

なお、測定対象グラフ情報記憶部１２１は、上記例に限定されなくともよく、目的に応じて種々の情報を記憶してもよい。例えば、測定対象グラフ情報記憶部１２１は、各ノード間を連結するエッジの長さが記憶されてもよい。すなわち、測定対象グラフ情報記憶部１２１は、各ノード間の距離を示す情報が記憶されてもよい。また、測定対象グラフ情報記憶部１２１には、有向エッジにより連結されたグラフ情報に限らず、種々のグラフ情報が記憶されてもよい。例えば、測定対象グラフ情報記憶部１２１には、無向エッジにより連結されたグラフ情報が記憶されてもよい。

（関数情報記憶部１２２について）
実施形態に係る関数情報記憶部１２２は、第１数と、第１数に対応する最適エッジ数に基づいて生成される関数に関する各種情報を記憶する。ここで、図４に、実施形態に係る関数情報記憶部１２２の一例を示す。図４に示した例では、関数情報記憶部１２２は、「関数ＩＤ」、「測定対象グラフＩＤ」、「測定対象グラフ情報」といった項目を有する。「測定対象グラフ情報」は、測定対グラフＩＤに対応付けられた測定対象グラフを特徴付ける情報を示す。例えば、「測定対象グラフ情報」は、「オブジェクト数」、「最適エッジ数」、「検索精度」といった項目を有する。

「関数ＩＤ」は、複数の測定対象グラフが示す各オブジェクト数と、各最適エッジ数との組合せに基づいて生成される関数を識別する識別子である。「測定対象グラフＩＤ」は、「関数ＩＤ」に対応付けられた測定対象グラフに関する情報である。

「オブジェクト数」は、「測定対象グラフＩＤ」に対応付けられた測定対象グラフが示すオブジェクト数に関する情報である。「最適エッジ数」は、「測定対象グラフＩＤ」に対応付けられた測定対象グラフが示す最適エッジ数に関する情報である。「検索精度」は、「測定対象グラフＩＤ」に対応付けられた測定対象グラフを測定したときに得られた検索精度に関する情報である。例えば、「最適エッジ数」及び「検索精度」に記憶される情報は、測定処理毎に更新されてもよい。

例えば、図４では、関数ＩＤによって識別された「Ｆ１」は、測定対象グラフＩＤが「Ｇ１」であり、オブジェクト数が「ＮＯ１」であり、最適エッジ数が「ＮＥ１」であり、検索精度が「ＡＣ１」である。なお、図４に示した例では、オブジェクト数、最適エッジ数及び検索精度を抽象的な符号で表現したが、オブジェクト数、最適エッジ数及び検索精度は、具体的な数値や、具体的なファイル形式等であってもよい。また、関数情報記憶部１２２は、上記項目例だけでなく、ノード数や、検索時間等を記憶してもよい。

（制御部１３０について）
制御部１３０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、情報処理装置１００内部の記憶装置に記憶されている各種プログラム（情報処理プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、コントローラであり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

図２に示すように、制御部１３０は、取得部１３１と、生成部１３２と、測定部１３３と、推定部１３４と、提供部１３５とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図２に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

（取得部１３１について）
取得部１３１は、各種情報を取得する。例えば、取得部１３１は、オブジェクトの集合であるオブジェクト群を外部装置５０から取得する。例えば、外部装置５０に記憶される電子商取引サービスにおいて取引される取引対象に関する画像情報から検索対象のオブジェクトを検索する検索要求を外部装置５０から受付けるものとする。この場合、取得部１３１は、オブジェクト群として、取引対象に関する画像情報の集合を外部装置５０から取得する。より具体的な例を挙げると、取得部１３１は、オブジェクト群が示す第２数である「１０００００００」のオブジェクトを外部装置５０から取得する。

また、取得部１３１は、オブジェクト群から第１数のオブジェクトを選択してもよい。例えば、取得部１３１は、「１０００００００」のオブジェクトから、第１数として、「１２５００」のオブジェクトを選択する。また、取得部１３１は、近似正解データを取得してもよい。

（生成部１３２について）
生成部１３２は、各種情報を生成する。具体的には、生成部１３２は、グラフ情報を生成する。より具体的には、生成部１３２は、所定のエッジ数に基づいて、第１数に対応する各ノードがエッジによって連結された測定対象グラフを生成する。

例えば、生成部１３２は、第１数のオブジェクトに対応する各ノードが連結されるエッジの数である連結エッジ数を初期値に設定する例えば、情報処理装置１００は、連結エッジ数の初期値として、「１００」と設定する。そして、生成部１３２は、第１数のオブジェクトと、連結エッジ数とに基づいて、測定対象グラフを生成する。例えば、生成部１３２は、「１２５００」のオブジェクトと、「１００」の連結エッジ数とに基づいて、測定対象グラフを生成する。

なお、上記例のように、測定対象グラフを生成する例に限定されなくともよく、生成部１３２は、第２数と、推定された最適エッジ数とに基づいて、推定対象グラフを生成してもよい。

（測定部１３３について）
測定部１３３は、検索対象となるオブジェクト群のうち、第１数のオブジェクトの各々のノードがエッジによって連結された測定対象グラフを対象として評価指標を測定し、評価指標が所定の条件を満たすエッジ数である最適エッジ数を特定する。例えば、測定部１３３は、測定対象グラフの評価指標として検索精度を測定する。

例えば、測定部１３３は、評価用クエリを決定する。例えば、測定部１３３は、第１数のオブジェクトからランダムに抽出したオブジェクト、または、ランダムに抽出した二つ以上のオブジェクトの平均値のオブジェクトを、評価用クエリに決定する。

例えば、測定部１３３は、第１数のオブジェクトからランダムに二つ以上の所定数のオブジェクトを評価用クエリの生成に用いるオブジェクトとして抽出する。そして、測定部１３３は、ランダムに抽出された複数のオブジェクトの平均値である多次元のベクトル情報を評価用クエリに決定する。

そして、測定部１３３は、図５に示すような処理により、評価用クエリに対応する近似正解データを生成する。この場合、測定部１３３は、検索範囲係数「ε」の値を所定値以上大きくして、測定対象グラフＧＲ１を用いて図５に示す検索処理を行うことにより、評価用クエリに対応する近似正解データを生成する。

そして、測定部１３３は、測定対象グラフＧＲ１の検索精度を測定する。例えば、測定部１３３は、検索条件として、測定対象グラフＧＲ１に含まれるすべてのエッジを利用し、且つ、εの値を０とし、図５に示す検索処理を行う。これにより、測定部１３３は、近傍ノードを取得する。そして、測定部１３３は、かかる近傍ノードと、近似正解データとを比較することで、測定対象グラフＧＲ１の検索精度を測定する。例えば、測定部１３３は、検索処理を連結エッジ数「１００」の測定対象グラフに行い、取得された近傍ノードと、評価用クエリとを比較することで検索精度「９８％」と測定する。

また、測定部１３３は、測定対象グラフの検索精度が条件を満たすか否かを判定する。例えば、測定部１３３は、測定対象グラフの検索精度が条件を満たさないと判定した場合に、連結エッジ数を変更する。例えば、測定部１３３は、測定対象グラフの検索精度が条件を満たさないと判定した場合に、測定対象グラフが示す連結エッジ数を小さい数に変更する。

一方、測定部１３３は、測定対象グラフの検索精度が条件を満たすと判定した場合に、測定対象グラフの検索精度が条件を満たした連結エッジ数を、第１数に対応する最適エッジ数と特定する。例えば、検索精度が９０％以上であり、且つ、最適エッジ数が最小値を示す場合に、測定対象グラフの検索精度が条件を満たすものとする。この場合、測定部１３３は、測定対象グラフの検索精度が条件を満たすと判定したときに、「１２５００」に対応する最適エッジ数を「２５」と特定する。

ここで、連結エッジ数の変更処理について説明する。例えば、検索精度が９０％以上であり、且つ、最適エッジ数が最小値を示す場合に、測定対象グラフの検索精度が条件を満たすものとする。また、測定対象グラフの検索精度が条件を満たさない場合に、連結エッジ数を半分の値に変更するものとする。この場合、測定部１３３は、初期値である連結エッジ数「１００」から初期値の半分の値である「５０」に基づいて、測定対象グラフを生成し、かかる測定対象グラフの検索精度を測定する。このとき、測定部１３３は、連結エッジ数「１００」の測定対象グラフから「５０」のエッジを取得し、連結エッジ数「５０」の測定対象グラフを生成する。

より具体的な例を挙げて説明すると、測定部１３３は、連結エッジ数「１００」の測定対象グラフから各ノードのみを取得する。また、測定部１３３は、かかる各ノードに対して、連結エッジ数「１００」の測定対象グラフを参照して距離の短い方のエッジから「５０」のエッジを選択する。そして、測定部１３３は、取得した各ノードと、選択した「５０」のエッジとに基づいて、連結エッジ数「５０」の測定対象グラフを生成する。なお、このときの検索精度が９３％であるものとする。

そして、測定部１３３は、上記と同様の処理を行うことで、連結エッジ数「５０」の半分の値である「２５」に基づいて生成された測定対象グラフの検索精度が「９０」と測定する。また、測定部１３３は、上記と同様の処理を行うことで、連結エッジ数「２５」の半分の値である「１３」に基づいて生成された測定対象グラフの検索精度が「８５」と測定する。この場合、測定部１３３は、検索精度が９０％以上であり、且つ、最適エッジ数が最小値を示す場合が最適エッジ数「２５」であると特定する。

（推定部１３４について）
推定部１３４は、測定部１３３によって特定された測定対象グラフの最適エッジ数に基づいて、第１数よりも多い第２数のオブジェクトの各々のノードがエッジによって連結された推定対象グラフの最適エッジ数を推定する。

例えば、推定部１３４は、推定対象グラフが推定可能であると判定した場合に、推定対象グラフの最適エッジ数を推定する。例えば、図１の例では、推定部１３４は、第１数と、最適エッジ数との組合せに基づいて関数ＧＲ２を生成することができる場合に、推定対象グラフが推定可能であると判定する。

図１の例では、第１数と、最適エッジ数との組合せが４つである場合に、推定対象グラフが推定可能であるものとする。この場合、関数ＧＲ２は、ＮＯ１及びＮＥ１の組合せと、ＮＯ２及びＮＥ２の組合せと、ＮＯ３及びＮＥ３の組合せと、ＮＯ４及びＮＥ４の組合せとに基づいて生成される。より具体的な例を挙げると、関数ＧＲ２は、「１２５００」及び「２５」の組合せと、「２５０００」及び「３５」の組合せと、「５００００」及び「４５」の組合せと、「１０００００」及び「６５」の組合せとに基づいて生成される。

そして、推定部１３４は、オブジェクト群が示す第２数ＮＯＸを関数ＧＲ２に入力することで、出力として、推定対象グラフの最適エッジ数ＮＥＸを推定する。例えば、推定部１３４は、関数ＧＲ２を用いて、オブジェクト群が示す第２数「１０００００００」に基づいて、最適エッジ数を「８５」と推定する。

なお、上記例では、推定部１３４が第１数と、最適エッジ数との組合せが４つである場合に、推定対象グラフが推定可能であると判定する例を挙げて説明したが、４つに限定されなくともよく、推定対象グラフが推定可能であれば、如何なる数であってもよい。

（提供部１３５について）
提供部１３５は、各種情報を提供する。例えば、提供部１３５は、外部装置５０に記憶される電子商取引サービスにおいて取引される取引対象に関する画像情報から検索対象のオブジェクトの指定を外部装置５０から受付けた場合に、推定部１３４によって推定された最適エッジ数を外部装置５０に提供する。また、提供部１３５は、情報処理装置１００の管理者から検索対象のオブジェクトの指定を受付けた場合に、かかる管理者対して、推定部１３４によって推定された最適エッジ数を提供する。

なお、上記例では、最適エッジ数を提供する例を挙げて説明したが、これに限定されなくともよく、第２数と、最適エッジ数とに基づいて生成された推定対象グラフに関する情報を提供してもよい。

〔４．処理手順（１）検索処理〕
次に、図５を用いて、実施形態に係る情報処理装置１００が実行する検索処理の手順について説明する。図５は、実施形態に係る情報処理装置１００が実行する検索処理の一例を示すフローチャートである。

ここでは、近傍集合Ｎ（Ｇ，ｙ）は、ノードｙに付与されているエッジにより関連付けられている近傍のオブジェクトの集合である。例えば、近傍集合Ｎ（Ｇ，ｙ）は、ノードｙとの間にエッジが連結されたオブジェクトの集合である。また、グラフのノード間が有向エッジで連結される場合、近傍集合Ｎ（Ｇ，ｙ）は、ノードｙからの出力エッジが連結されたオブジェクトの集合である。「Ｇ」は、所定のグラフデータ（例えば、グラフＧＲ１等）であってもよい。例えば、情報処理装置１００は、ｋ近傍検索処理を実行する。

例えば、図５に示すように、情報処理装置１００は、超球の半径ｒを∞（無限大）に設定し（ステップＳ１００）、既存のオブジェクト集合から集合Ｓを抽出する（ステップＳ１０１）。例えば、情報処理装置１００は、起点ノードとして選択されたオブジェクトを集合Ｓとして抽出してもよい。また、例えば、超球とは、検索範囲を示す仮想的な球である。

なお、ステップＳ１０１において抽出された集合Ｓに含まれるオブジェクトは、検索結果の集合Ｒの初期集合にも含められる。また、ステップＳ１０１において抽出された集合Ｓに含まれるオブジェクトは、集合Ｃに含められてもよい。集合Ｃは、重複検索を回避するために便宜上設けられるものであり、処理開始時には空集合に設定されてもよい。

次に、情報処理装置１００は、集合Ｓに含まれるオブジェクトの中で、検索対象となるオブジェクトをｙとするとオブジェクトｙとの距離が最も短いオブジェクトを抽出し、オブジェクトｓとする（ステップＳ１０２）。例えば、情報処理装置１００は、オブジェクトｙに対応する起点ノード等が含まれる集合Ｓから、一のノードをオブジェクトｓとして抽出する。次に、情報処理装置１００は、オブジェクトｓを集合Ｓから除外する（ステップＳ１０３）。例えば、情報処理装置１００は、起点ノードを集合Ｓから除外する。

次に、情報処理装置１００は、オブジェクトｓとオブジェクトｙとの距離ｄ（ｓ，ｙ）がｒ（１＋ε）を超えるか否かを判定する（ステップＳ１０４）。ここで、εは拡張要素であり、ｒ（１＋ε）は、探索範囲（この範囲内のノードのみを探索する。検索範囲よりも大きくすることで精度を高めることができる）の半径を示す値である。オブジェクトｓとオブジェクトｙとの距離ｄ（ｓ，ｙ）がｒ（１＋ε）を超える場合（ステップＳ１０４：Ｙｅｓ）、情報処理装置１００は、集合Ｒをオブジェクトｙの近傍集合として出力し（ステップＳ１０５）、処理を終了する。

オブジェクトｓとオブジェクトｙとの距離ｄ（ｓ，ｙ）がｒ（１＋ε）を超えない場合（ステップＳ１０４：Ｎｏ）、情報処理装置１００は、オブジェクトｓの近傍集合Ｎ（Ｇ，ｓ）の要素であるオブジェクトの中から集合Ｃに含まれないオブジェクトを、所定の基準に基づいて一つ選択し、選択したオブジェクトｕを、集合Ｃに格納する（ステップＳ１０６）。

次に、情報処理装置１００は、オブジェクトｕとオブジェクトｙとの距離ｄ（ｕ，ｙ）がｒ（１＋ε）以下であるか否かを判定する（ステップＳ１０７）。オブジェクトｕとオブジェクトｙとの距離ｄ（ｕ，ｙ）がｒ（１＋ε）以下である場合（ステップＳ１０７：Ｙｅｓ）、情報処理装置１００は、オブジェクトｕを集合Ｓに追加する（ステップＳ１０８）。また、オブジェクトｕとオブジェクトｙとの距離ｄ（ｕ，ｙ）がｒ（１＋ε）以下ではない場合（ステップＳ１０７：Ｎｏ）、情報処理装置１００は、ステップＳ１０９の判定（処理）を行う。

次に、情報処理装置１００は、オブジェクトｕとオブジェクトｙとの距離ｄ（ｕ，ｙ）がｒ以下であるか否かを判定する（ステップＳ１０９）。オブジェクトｕとオブジェクトｙとの距離ｄ（ｕ，ｙ）がｒを超える場合、情報処理装置１００は、ステップＳ１１５の判定処理を行う。また、オブジェクトｕとオブジェクトｙとの距離ｄ（ｕ，ｙ）がｒ以下ではない場合（ステップＳ１０９：Ｎｏ）、情報処理装置１００は、ステップＳ１１５の判定処理を行う。

オブジェクトｕとオブジェクトｙとの距離ｄ（ｕ，ｙ）がｒ以下である場合（ステップＳ１０９：Ｙｅｓ）、情報処理装置１００は、オブジェクトｕを集合Ｒに追加する（ステップＳ１１０）。そして、情報処理装置１００は、集合Ｒに含まれるオブジェクト数がｋｓを超えるか否かを判定する（ステップＳ１１１）。所定数ｋｓは、任意に定められる自然数である。例えば、ｋｓは、検索における抽出数を示し、「３」や「２０」や「１００」等の任意の値であってもよい。集合Ｒに含まれるオブジェクト数がｋｓを超えない場合（ステップＳ１１１：Ｎｏ）、情報処理装置１００は、ステップＳ１１３の判定処理を行う。

集合Ｒに含まれるオブジェクト数がｋｓを超える場合（ステップＳ１１１：Ｙｅｓ）、情報処理装置１００は、集合Ｒに含まれるオブジェクトの中でオブジェクトｙとの距離が最も長い（遠い）オブジェクトを、集合Ｒから除外する（ステップＳ１１２）。

次に、情報処理装置１００は、集合Ｒに含まれるオブジェクト数がｋｓと一致するか否かを判定する（ステップＳ１１３）。集合Ｒに含まれるオブジェクト数がｋｓと一致しない場合（ステップＳ１１３：Ｎｏ）、情報処理装置１００は、ステップＳ１１５の判定処理を行う。また、集合Ｒに含まれるオブジェクト数がｋｓと一致する場合（ステップＳ１１３：Ｙｅｓ）、情報処理装置１００は、集合Ｒに含まれるオブジェクトの中でオブジェクトｙとの距離が最も長い（遠い）オブジェクトと、オブジェクトｙとの距離を、新たなｒに設定する（ステップＳ１１４）。

そして、情報処理装置１００は、オブジェクトｓの近傍集合Ｎ（Ｇ，ｓ）の要素であるオブジェクトから全てのオブジェクトを選択したか否かを判定する（ステップＳ１１５）。オブジェクトｓの近傍集合Ｎ（Ｇ，ｓ）の要素であるオブジェクトから全てのオブジェクトを選択していない場合（ステップＳ１１５：Ｎｏ）、情報処理装置１００は、ステップＳ１０６に戻って処理を繰り返す。なお、情報処理装置１００は、オブジェクトｓの近傍集合Ｎ（Ｇ，ｓ）の要素であるオブジェクトから全てを選択する場合に限らず、所定の閾値を設定し、その閾値に対応する個数までオブジェクトを選択してもよい。

オブジェクトｓの近傍集合Ｎ（Ｇ，ｓ）の要素であるオブジェクトから全てのオブジェクトを選択した場合（ステップＳ１１５：Ｙｅｓ）、情報処理装置１００は、集合Ｓが空集合であるか否かを判定する（ステップＳ１１６）。集合Ｓが空集合でない場合（ステップＳ１１６：Ｎｏ）、情報処理装置１００は、ステップＳ１０２に戻って処理を繰り返す。また、集合Ｓが空集合である場合（ステップＳ１１６：Ｙｅｓ）、情報処理装置１００は、集合Ｒを出力し、処理を終了する（ステップＳ１１７）。例えば、情報処理装置１００は、オブジェクト集合に含まれるオブジェクトを対象ノード（入力オブジェクトｙ）に対応する近傍ノードとして選択してもよい。

〔５．処理手順（２）推定処理〕
次に、図６を用いて、実施形態に係る情報処理装置１００が実行する推定処理の手順について説明する。図６は、実施形態に係る情報処理装置１００が実行する推定処理の流れの一例を示すフローチャートである。

図６に示すように、情報処理装置１００は、オブジェクトの集合であるオブジェクト群を取得する（ステップＳ２０１）。そして、情報処理装置１００は、オブジェクト群から第１数のオブジェクトを選択する（ステップＳ２０２）。また、情報処理装置１００は、連結エッジ数を初期値に設定し（ステップＳ２０３）、測定対象グラフを生成する（ステップＳ２０４）。

そして、情報処理装置１００は、測定対象グラフの検索精度が所定の条件を満たすか否かを判定する（ステップＳ２０５）。具体的には、情報処理装置１００は、測定対象グラフの検索精度を測定する。そして、情報処理装置１００は、測定対象グラフの検索精度が所定の条件を満たさないと判定した場合（ステップＳ２０５；Ｎｏ）、連結エッジ数を変更する（ステップＳ２０６）。ここで、情報処理装置１００は、測定対象グラフの検索精度が所定の条件を満たすまで、ステップＳ２０４～Ｓ２０６を繰返す。

一方、情報処理装置１００は、測定対象グラフの検索精度が所定の条件を満たすと判定した場合（ステップＳ２０５；Ｙｅｓ）、かかる測定対象グラフの連結エッジ数を最適エッジ数と特定する（ステップＳ２０７）。そして、情報処理装置１００は、推定対象グラフが推定可能か否かを判定する（ステップＳ２０８）。具体的には、情報処理装置１００は、推定対象グラフが推定可能でないと判定した場合（ステップＳ２０８；Ｎｏ）、第１数を変更する（ステップＳ２０９）。ここで、情報処理装置１００は、推定対象グラフが推定可能と判定するまで、ステップＳ２０２～Ｓ２０９を繰返す。

一方、情報処理装置１００は、推定対象グラフが推定可能であると判定した場合（ステップＳ２０８；Ｙｅｓ）、かかる推定対象グラフの最適エッジ数を推定する（ステップＳ２１０）。

〔６．変形例〕
上述した情報処理装置１００は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、情報処理装置１００の他の実施形態について説明する。

〔６－１．検索対象〕
上記実施形態では、検索対象として、画像情報を例に挙げて説明したが、検索対象は、動画情報や、音声情報等の如何なる情報であってもよい。また、検索対象のデータは、画像、音声、テキストデータ等、如何なる種類のデータであってもよい。

〔６－２．オブジェクト〕
上記実施形態では、検索対象となる情報として、オブジェクトに関する情報を例に挙げて説明したが、ベクトルとして表現可能であれば、如何なる情報であってもよい。例えば、オブジェクトは、画像から抽出された複数の局所特徴量のそれぞれであってもよい。また、オブジェクトは、オブジェクト間の距離が定義された種々のデータであってもよい。

また、情報処理装置１００が用いる情報は、ベクトルに限らず、各対象の類似性を表現可能な情報であれば、如何なる形式の情報であってもよい。例えば、情報処理装置１００は、各対象に対応する所定のデータや、値等から生成されたグラフ情報を用いてもよい。例えば、情報処理装置１００は、各対象から生成された所定の数値（例えば２進数の値や１６進数の値）から生成されたグラフ情報を用いてもよい。例えば、情報処理装置１００は、ベクトルに代えて、データ間の距離が定義されていれば任意の形態のデータを用いてもよい。

〔６－３．類似オブジェクト群〕
上記実施形態では、検索対象となる情報として、オブジェクト群を例に挙げて説明したが、これに限定されなくともよく、例えば、オブジェクト群は、対象とするオブジェクト群と類似するオブジェクト群である類似オブジェクト群等であってもよい。

〔６－４．エッジ〕
上記実施形態では、各ノードを連結するエッジとして、有向エッジを例に挙げて説明したが、種々のエッジであってもよい。例えば、各ノードを連結するエッジは、ノードを連結する方向のないエッジであってもよい。例えば、各ノードを連結するエッジは、相互に参照可能なエッジであってもよい。例えば、各ノードを連結するエッジは、全て無向エッジ（双方向エッジ）であってもよい。

〔６－５．グラフ情報〕
上記実施形態では、情報処理装置１００が取得したオブジェクト群のすべて、または、一部のオブジェクト群に対してグラフを作成する例を挙げて説明したが、如何なるインデックスを生成してもよい。例えば、情報処理装置１００は、インデックスの一例として、ツリーを生成してもよい。

また、図１に示した測定対象グラフＧＲ１は、ユークリッド空間であってもよい。また、測定対象グラフＧＲ１は、各ベクトル間の距離等の説明のための概念的な図であり、測定対象グラフＧＲ１は、多次元空間である。例えば、図１に示す測定対象グラフＧＲ１は、平面上に図示するため２次元の態様にて図示したが、例えば、１００次元や、１０００次元等の多次元空間であるものとする。この場合、各ノードに対応するベクトルデータは、Ｎ次元の実数値ベクトルである。

〔６－６．正解データ〕
上記実施形態では、情報処理装置１００が近似正解データを用いて測定処理を行う例を挙げて説明したが、情報処理装置１００は、オブジェクト群のうち、すべてのオブジェクトとの距離を計算することで生成される正解データを用いて測定処理を行ってもよい。例えば、情報処理装置１００は、第１数のオブジェクトのうち、すべてのオブジェクトとの距離を計算することで生成される正解データを正解として、測定対象グラフに対応する検索精度を測定してもよい。

このように、情報処理装置１００は、近似正解データを用いて検索精度を測定するときには、近似正解データに含まれない正解が検索される場合があるので、検索結果が近似正解データの最遠の結果よりも近ければ正解として検索精度を測定してもよい。これにより、情報処理装置１００は、検索処理に関連する評価指標を適切に測定することができる。

〔６－７．連結エッジ数の変更処理〕
上記実施形態では、情報処理装置１００が実行する連結エッジ数の変更処理では、最適エッジ数を半分に減少させるように変更する例を挙げて説明したが、これに限定されない。例えば、情報処理装置１００は、最適エッジ数を１０ずつ等減少させるように変更してもよい。

また、情報処理装置１００が一律に最適エッジ数を減少させるように変更する例を挙げて説明したが、これに限定されなくともよい。例えば、情報処理装置１００は、最適エッジ数が所定の閾値を下回った場合には、最適エッジ数を増加させるように変更してもよい。

また、情報処理装置１００が連結エッジ数を半分の値に変更する例を挙げて説明したが、これに限定されなくともよい。例えば、情報処理装置１００は、連結エッジ数と、検索精度との組合せに基づいて、連結エッジ数を変更してもよい。例えば、情報処理装置１００は、検索精度を重みとして、変更する連結エッジ数を重み付き平均として算出してもよい。また、例えば、情報処理装置１００は、連結エッジ数に任意の値を乗算等することで、連結エッジ数を変更してもよい。

〔６－８．評価指標〕
上記実施形態では、情報処理装置１００が評価指標として検索精度を測定する測定処理の一例を挙げて説明したが、これに限定されなくともよい。例えば、情報処理装置１００は、評価指標として、検索時間や、オブジェクトアクセス数や、距離計算回数や、測定対象グラフの生成速度等を測定してもよい。

ここで、検索時間を例に挙げて連結エッジ数の変更処理について説明する。例えば、検索時間が１分以内であり、且つ、最適エッジ数が最大値を示す場合に、測定対象グラフの検索精度が条件を満たすものとする。また、連結エッジ数が初期値「１００」である場合に、検索時間は２分であったものとする。また、測定対象グラフの検索精度が条件を満たさない場合に、連結エッジ数を半分の値に変更するものとする。この場合、情報処理装置１００は、初期値である連結エッジ数「１００」から初期値の半分の値である「５０」に基づいて、測定対象グラフを生成し、かかる測定対象グラフの検索時間を測定する。このとき、検索精度が「１分３０秒」であるものとする。そして、情報処理装置１００は、上記と同様の処理を行うことで、連結エッジ数「５０」の半分の値である「２５」に基づいて生成された測定対象グラフの検索精度が「１分」と測定する。また、情報処理装置１００は、上記と同様の処理を行うことで、連結エッジ数「２５」の半分の値である「１３」に基づいて生成された測定対象グラフの検索精度が「３０秒」と測定する。この場合、情報処理装置１００は、検索時間が１分以下であり、且つ、最適エッジ数が最大値を示す場合が最適エッジ数「２５」であると特定する。

〔７．ハードウェア構成〕
上述してきた実施形態に係る情報処理装置１００は、例えば、図７に示すような構成のコンピュータ１０００によって実現される。図７は、情報処理装置１００の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read Only Memory）１３００、ＨＤＤ（Hard Disk Drive）１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を有する。

ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、ネットワークＮを介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が、ネットワークＮを介して、生成したデータを他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、生成したデータを出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えば、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が実施形態に係る情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置からネットワークＮを介してこれらのプログラムを取得してもよい。

〔８．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、上述してきた各実施形態に記載された各処理は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、推定部は、推定手段や推定回路に読み替えることができる。

〔９．効果〕
上述してきたように、実施形態に係る情報処理装置１００は、測定部１３３と、推定部１３４とを有する。測定部１３３は、検索対象となるオブジェクト群のうち、第１数のオブジェクトの各々のノードがエッジによって連結された測定対象グラフを対象として評価指標を測定し、評価指標が所定の条件を満たすエッジ数である最適エッジ数を特定する。推定部１３４は、測定部１３３によって特定された測定対象グラフの最適エッジ数に基づいて、第１数よりも多い第２数のオブジェクトの各々のノードがエッジによって連結された推定対象グラフの最適エッジ数を推定する。

このように、実施形態に係る情報処理装置１００は、特定された測定対象グラフの最適エッジ数に基づいて、第１数よりも多い第２数のオブジェクトの各々のノードがエッジによって連結された推定対象グラフの最適エッジ数を推定するため、適切なエッジ数を推定することができる。

また、実施形態に係る情報処理装置１００において、測定部１３３は、第１数を変化させて生成された複数の測定対象グラフの各々を対象として評価指標を測定し、複数の測定対象グラフの各々の最適エッジ数を特定し、推定部１３４は、複数の測定対象グラフの各々の最適エッジ数の推移に基づいて、推定対象グラフの最適エッジ数を推定する。

このように、実施形態に係る情報処理装置１００は、複数の測定対象グラフの各々の最適エッジ数の推移に基づいて推定対象グラフの最適エッジ数を推定するため、適切なエッジ数を推定することができる。

また、実施形態に係る情報処理装置１００において、推定部１３４は、複数の測定対象グラフの各々の最適エッジ数の推移から生成される関数を用いて、推定対象グラフの最適エッジ数を推定する。

このように、実施形態に係る情報処理装置１００は、複数の測定対象グラフの各々の最適エッジ数の推移から生成される関数を用いて、推定対象グラフの最適エッジ数を推定するため、適切なエッジ数を推定することができる。

また、実施形態に係る情報処理装置１００において、推定部１３４は、オブジェクトの数を入力として、入力された数のオブジェクトをノードとした場合の最適エッジ数を出力する関数を用いて、推定対象グラフの最適エッジ数を推定する。

このように、実施形態に係る情報処理装置１００は、オブジェクトの数を入力として、入力された数のオブジェクトをノードとした場合の最適エッジ数を出力する関数を用いて、推定対象グラフの最適エッジ数を推定するため、適切なエッジ数を推定することができる。

また、実施形態に係る情報処理装置１００において、所定のエッジ数に基づいて、第１数に対応する各ノードがエッジによって連結された測定対象グラフを生成する生成部１３２をさらに備える。

このように、実施形態に係る情報処理装置１００は、所定のエッジ数に基づいて、第１数に対応する各ノードがエッジによって連結された測定対象グラフを生成するため、適切なエッジ数を推定するために必要な測定対象グラフを簡便に生成することができる。

また、実施形態に係る情報処理装置１００において、測定部１３３は、評価指標として、測定対象グラフを用いた場合における検索時の精度を示す検索精度を測定する。

このように、実施形態に係る情報処理装置１００は、評価指標として、測定対象グラフを用いた場合における検索時の精度を示す検索精度を測定するため、適切なエッジ数を推定するために必要な測定対象グラフを適切に選択することができる。

また、実施形態に係る情報処理装置１００において、生成部１３２は、第１数に対応するノード数と、所定のエッジ数との組合せに基づいて、評価用の測定対象グラフを生成し、測定部１３４は、評価用の測定対象グラフを用いた検索時に所定の閾値以上の検索精度を示した組合せを正解データとして用いて、測定対象グラフが示す検索精度を測定する。

このように、実施形態に係る情報処理装置１００は、評価用の測定対象グラフを用いた検索時に所定の閾値以上の検索精度を示した組合せを正解データとして用いて、測定対象グラフが示す検索精度を測定するため、適切なエッジ数を推定するために必要な測定対象グラフを適切に選択することができる。

また、実施形態に係る情報処理装置１００において、推定部１３４は、オブジェクト群に含まれるオブジェクト数である第２数のオブジェクトの各々のノードがエッジによって連結された推定対象グラフの最適エッジ数を推定する。

このように、実施形態に係る情報処理装置１００は、オブジェクト群に含まれるオブジェクト数である第２数のオブジェクトの各々のノードがエッジによって連結された推定対象グラフの最適エッジ数を推定するため、適切なエッジ数を推定することができる。

また、実施形態に係る情報処理装置１００において、オブジェクト群は、電子商取引サービスにおいて取引される取引対象群である。

このように、実施形態に係る情報処理装置１００は、オブジェクト群が電子商取引サービスにおいて取引される取引対象群であるため、電子商取引サービスにおいて取引される取引対象を適切に検索することを可能とする推定対象グラフに必要な最適エッジ数を推定することができる。

また、実施形態に係る情報処理装置１００において、推定部１３３は、オブジェクト群のうち、第２数のオブジェクトの各々のノードがエッジによって連結された推定対象グラフの最適エッジ数を推定する。

このように、実施形態に係る情報処理装置１００は、オブジェクト群のうち、第２数のオブジェクトの各々のノードがエッジによって連結された推定対象グラフの最適エッジ数を推定するため、適切なエッジ数を推定することができる。

また、実施形態に係る情報処理装置１００において、推定部１３３は、オブジェクト群と類似する類似オブジェクト群のうち、第２数のオブジェクトの各々のノードがエッジによって連結された推定対象グラフの最適エッジ数を推定する。

このように、実施形態に係る情報処理装置１００は、オブジェクト群と類似する類似オブジェクト群のうち、第２数のオブジェクトの各々のノードがエッジによって連結された推定対象グラフの最適エッジ数を推定するため、適切なエッジ数を推定することができる。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の行に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

Ｎネットワーク
１情報処理システム
５０外部装置
１００情報処理装置
１１０通信部
１２０記憶部
１２１測定対象グラフ情報記憶部
１２２関数情報記憶部
１３０制御部
１３１取得部
１３２生成部
１３３測定部
１３４推定部
１３５提供部

Claims

検索対象となるオブジェクトの数が第２数であるオブジェクト群のうち、第１数のオブジェクトの各々のノードがエッジによって連結された測定対象グラフを対象として評価指標を測定し、当該評価指標が所定の条件を満たすエッジ数である最適エッジ数を特定する測定部と、
前記測定部によって特定された前記測定対象グラフの前記最適エッジ数に基づいて、前記第１数よりも多い前記第２数のオブジェクトの各々のノードがエッジによって連結された推定対象グラフの前記最適エッジ数を推定する推定部と、
を備え、
前記測定部は、
前記第１数を変化させて生成された複数の測定対象グラフの各々を対象として評価指標を測定し、前記複数の測定対象グラフの各々の前記最適エッジ数を特定し、
前記推定部は、
前記複数の測定対象グラフの各々の前記最適エッジ数の推移に基づいて、前記推定対象グラフの前記最適エッジ数を推定する
ことを特徴とする情報処理装置。
前記推定部は、
前記複数の測定対象グラフの各々の前記最適エッジ数の推移から生成される関数を用いて、前記推定対象グラフの前記最適エッジ数を推定する
ことを特徴とする請求項１に記載の情報処理装置。
前記推定部は、
オブジェクトの数を入力として、入力された数のオブジェクトをノードとした場合の前記最適エッジ数を出力する前記関数を用いて、前記推定対象グラフの前記最適エッジ数を推定する
ことを特徴とする請求項２に記載の情報処理装置。
所定のエッジ数に基づいて、前記第１数に対応する各ノードがエッジによって連結された測定対象グラフを生成する生成部をさらに備える
ことを特徴とする請求項１～３のいずれか１つに記載の情報処理装置。
前記測定部は、
前記評価指標として、測定対象グラフを用いた場合における検索時の精度を示す検索精度を測定する
ことを特徴とする請求項１～４のいずれか１つに記載の情報処理装置。
前記生成部は、
前記第１数に対応するノード数と、所定のエッジ数との組合せに基づいて、評価用の測定対象グラフを生成し、
前記測定部は、
前記評価用の測定対象グラフを用いた検索時に所定の閾値以上の検索精度を示した組合せを正解データとして用いて、測定対象グラフが示す検索精度を測定する
ことを特徴とする請求項４に記載の情報処理装置。
前記オブジェクト群は、
電子商取引サービスにおいて取引される取引対象群である
ことを特徴とする請求項１～６のいずれか１つに記載の情報処理装置。
前記推定部は、
前記オブジェクト群と類似する類似オブジェクト群であって、オブジェクト数が前記第２数である類似オブジェクト群において、前記第２数のオブジェクトの各々のノードがエッジによって連結された前記推定対象グラフの前記最適エッジ数を推定する
ことを特徴とする請求項１～７のいずれか１つに記載の情報処理装置。
コンピュータが実行する情報処理方法であって、
検索対象となるオブジェクトの数が第２数であるオブジェクト群のうち、第１数のオブジェクトの各々のノードがエッジによって連結された測定対象グラフを対象として評価指標を測定し、評価指標が所定の条件を満たすエッジ数である最適エッジ数を特定する測定工程と、
前記測定工程によって特定された前記測定対象グラフの前記最適エッジ数に基づいて、前記第１数よりも多い第２数のオブジェクトの各々のノードがエッジによって連結された推定対象グラフの前記最適エッジ数を推定する推定工程と、
を含み、
前記測定工程は、
前記第１数を変化させて生成された複数の測定対象グラフの各々を対象として評価指標を測定し、前記複数の測定対象グラフの各々の前記最適エッジ数を特定し、
前記推定工程は、
前記複数の測定対象グラフの各々の前記最適エッジ数の推移に基づいて、前記推定対象グラフの前記最適エッジ数を推定する
ことを特徴とする情報処理方法。
検索対象となるオブジェクトの数が第２数であるオブジェクト群のうち、第１数のオブジェクトの各々のノードがエッジによって連結された測定対象グラフを対象として評価指標を測定し、評価指標が所定の条件を満たすエッジ数である最適エッジ数を特定する測定手順と、
前記測定手順によって特定された前記測定対象グラフの前記最適エッジ数に基づいて、前記第１数よりも多い第２数のオブジェクトの各々のノードがエッジによって連結された推定対象グラフの前記最適エッジ数を推定する推定手順と、
をコンピュータに実行させ、
前記測定手順は、
前記第１数を変化させて生成された複数の測定対象グラフの各々を対象として評価指標を測定し、前記複数の測定対象グラフの各々の前記最適エッジ数を特定し、
前記推定手順は、
前記複数の測定対象グラフの各々の前記最適エッジ数の推移に基づいて、前記推定対象グラフの前記最適エッジ数を推定する
ことを特徴とする情報処理プログラム。