JP7180769B2

JP7180769B2 - データ管理装置、制御方法、及び記憶媒体

Info

Publication number: JP7180769B2
Application number: JP2021522164A
Authority: JP
Inventors: 諭史吉田; 健全劉; 祥治西村
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-05-27
Filing date: 2020-05-08
Publication date: 2022-11-30
Anticipated expiration: 2040-05-08
Also published as: WO2020241207A1; JPWO2020241207A1; US20220222232A1

Description

本発明は木構造データの管理に関する。

データを管理するためのデータ構造の１つに、木構造データがある。例えば木構造のデータは、データベースにおけるインデックスツリーなどとして利用されている。例えば特許文献１は、要素として特徴量データを扱い、特徴量データの類似度に基づいて各要素の配置が決定される類似度木が開示されている。

国際公開第２０１４／１０９１２７号

本発明者は、木構造データの要素として集合を扱う際に、木構造データに対する要素の挿入に工夫が必要であることを見出した。本発明はこの課題に鑑みてなされたものであり、その目的の一つは、集合を要素とする木構造データにおいて、適切に要素を挿入する技術を提供することである。

本発明のデータ管理装置は、データ集合をノードとして持つ木構造のデータである木構造データを格納する第１記憶領域と、木構造データに含まれていないデータ集合を格納する第２記憶領域とに対してアクセス可能である。
当該データ管理装置は、１）データ集合に挿入すべきデータを取得し、取得したデータを第１記憶領域又は第２記憶領域に既に格納されているデータ集合に挿入するか、又は新たなデータ集合を第２記憶領域に生成してそのデータ集合に取得したデータを挿入するデータ挿入部と、２）第２記憶領域に格納されているデータ集合について所定の条件が満たされたら、第２記憶領域に格納されているデータ集合の１つ以上を木構造データに挿入する集合挿入部と、を有する。

本発明の制御方法は、コンピュータによって実行される。前記コンピュータは、データ集合をノードとして持つ木構造のデータである木構造データを格納する第１記憶領域と、木構造データに含まれていないデータ集合を格納する第２記憶領域とに対してアクセス可能である。
当該制御方法は、１）データ集合に挿入すべきデータを取得し、取得したデータを第１記憶領域又は第２記憶領域に既に格納されているデータ集合に挿入するか、又は新たなデータ集合を第２記憶領域に生成してそのデータ集合に取得したデータを挿入するデータ挿入ステップと、２）第２記憶領域に格納されているデータ集合について所定の条件が満たされたら、第２記憶領域に格納されているデータ集合の１つ以上を木構造データに挿入する集合挿入ステップと、を有する。

本発明のプログラムは、本発明の制御方法が有する各ステップをコンピュータに実行させる。

本発明によれば、集合を要素とする木構造データにおいて、適切に要素を挿入する技術が提供される。

上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

本実施形態のデータ管理装置の概要を説明するための図である。実施形態１のデータ管理装置の機能構成を例示する図である。データ管理装置を実現するための計算機を例示する図である。実施形態１のデータ管理装置によって実行される処理の流れを例示するフローチャートである。データ管理装置のより具体的な利用シーンを例示する図である。類似度木として実現される木構造データを例示する図である。

以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また各ブロック図において、特に説明がない限り、各ブロックは、ハードウエア単位の構成ではなく機能単位の構成を表している。

［実施形態１］
＜概要＞
図１は、本実施形態のデータ管理装置２０００の概要を説明するための図である。なお、図１は、データ管理装置２０００に対する理解を容易にするための例示であり、データ管理装置２０００の機能は図１に表されているものに限定されない。

データ管理装置２０００は、木構造のデータである木構造データ１０の管理を行う。例えばデータ管理装置２０００は、木構造データ１０に対するデータの挿入を行う。木構造データ１０は、複数のノード１２で木構造を成している。例えば木構造データ１０は、国際公開第２０１４／１０９１２７号に開示されている類似度木の構造を持つ。

木構造データ１０は、ノードとして、データ集合２０を有する。データ集合２０は、１つ以上のデータ４０を含む集合である。データ４０としては、任意の種類のデータを採用することができる。例えばデータ４０として、動画フレームから抽出された人物等の物体の画像特徴（画像上の特徴量）を採用することができる。１つのデータ集合２０には、互いに類似するデータ４０が含まれるようにすることが好適である。例えばデータ４０として物体の画像特徴を用いるとする。この場合、１つのデータ集合２０には、同一物体から得られた複数の画像特徴が集まるようにする。

木構造データ１０は、第１記憶領域５０に記憶されている。第１記憶領域５０は、任意の記憶装置の一部又は全部の記憶領域である。また、複数の記憶装置で第１記憶領域５０を構成してもよい。さらに、木構造データ１０を構成しないデータ集合２０を格納する別の記憶領域として、第２記憶領域６０も用意されている。第２記憶領域６０も、第１記憶領域５０と同様に、任意の記憶装置の一部又は全部の記憶領域である。また、複数の記憶装置で第２記憶領域６０を構成してもよい。第１記憶領域５０と第２記憶領域６０には、同一の記憶装置が用いられてもよいし、互いに異なる記憶装置が用いられてもよい。

データ管理装置２０００は、管理すべき新たなデータ４０を取得したら、既存のデータ集合２０のいずれか１つにデータ４０を挿入するか、又は新たなデータ集合２０を第２記憶領域６０に生成して、その第２記憶領域６０にデータ４０を挿入する。さらに、データ管理装置２０００は、第２記憶領域６０に格納されているデータ集合２０について所定の条件が満たされたら、第２記憶領域６０に格納されているデータ集合２０のうちのいずれか１つ以上を木構造データ１０に挿入する。木構造データ１０に挿入されることにより、データ集合２０は、第２記憶領域６０ではなく第１記憶領域５０に格納されることになる。以下、上述した所定の条件を、挿入条件と呼ぶ。

＜代表的な作用効果＞
木構造のデータに対して要素（データ４０に相当）を挿入する場合、その要素の性質に応じて木構造内での適切な位置が決定され、その位置にその要素が挿入される。また、必要に応じ、木構造の再構築が行われる。

しかしながら、要素としてデータ集合を扱う場合、データ集合が生成された直後では、そのデータ集合の適切な位置を決定することが難しい。なぜなら、データ集合内にデータが少なかったり、そのデータ集合が頻繁に更新される間は、そのデータ集合の性質（例えば、データ集合に含まれるデータの平均や分散など）が、新たに挿入されるデータの影響を受けて大きく変化する可能性があるためである。そして、データ集合を適切な位置に挿入できないと、その後のデータの検索などのパフォーマンスが低下してしまう恐れがある。

本実施形態のデータ管理装置２０００によれば、挿入条件（第２記憶領域６０に格納されているデータ集合２０についての所定の条件）が満たされたことに応じて、データ集合２０が木構造データ１０に挿入される。言い換えれば、データ集合２０は、生成されてすぐに木構造データ１０に挿入されるのではなく、一旦第２記憶領域６０に格納される。よって、データ集合２０の性質がある程度固まったら満たされるような適切な挿入条件を設定することで、木構造データ１０における位置を適切に決定できるようになった後に、データ集合２０が木構造データ１０に挿入されるようになる。よって、データの集合を要素として扱う木構造データにおいて、要素を適切な位置に挿入できるようになる。その結果、例えば、木構造データ１０を利用したデータの検索のパフォーマンスを向上させることができる。

以下、本実施形態についてさらに詳細を述べる。

＜機能構成の例＞
図２は、実施形態１のデータ管理装置２０００の機能構成を例示する図である。データ管理装置２０００は、第１記憶領域５０及び第２記憶領域６０に対してアクセス可能である。また、データ管理装置２０００は、データ挿入部２０２０及び集合挿入部２０４０を有する。データ挿入部２０２０は、データ４０を取得する。また、データ挿入部２０２０は、１）第１記憶領域５０又は第２記憶領域６０に既に格納されているデータ集合２０に対してデータ４０を挿入するか、又は２）新たなデータ集合２０を第２記憶領域６０に生成し、そのデータ集合２０に対してデータ４０を挿入する。集合挿入部２０４０は、挿入条件が満たされたら、第２記憶領域６０に格納されているデータ集合２０の１つ以上を木構造データ１０に挿入する。

＜データ管理装置２０００のハードウエア構成の例＞
データ管理装置２０００の各機能構成部は、各機能構成部を実現するハードウエア（例：ハードワイヤードされた電子回路など）で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ（例：電子回路とそれを制御するプログラムの組み合わせなど）で実現されてもよい。以下、データ管理装置２０００の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。

図３は、データ管理装置２０００を実現するための計算機１０００を例示する図である。計算機１０００は任意の計算機である。例えば計算機１０００は任意の計算機である。例えば計算機１０００は、サーバマシンや PC（Personal Computer）などといった据え置き型の計算機である。その他にも例えば、計算機１０００は、スマートフォンやタブレット端末などの可搬型の計算機であってもよい。

計算機１０００は、データ管理装置２０００を実現するために設計された専用の計算機であってもよいし、汎用の計算機であってもよい。計算機１０００が汎用の計算機である場合、計算機１０００に対して所定のプログラムをインストールすることにより、計算機１０００がデータ管理装置２０００として機能するようにすることが好適である。

計算機１０００は、バス１０２０、プロセッサ１０４０、メモリ１０６０、ストレージデバイス１０８０、入出力インタフェース１１００、及びネットワークインタフェース１１２０を有する。バス１０２０は、プロセッサ１０４０、メモリ１０６０、ストレージデバイス１０８０、入出力インタフェース１１００、及びネットワークインタフェース１１２０が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ１０４０などを互いに接続する方法は、バス接続に限定されない。

プロセッサ１０４０は、CPU（Central Processing Unit）、GPU（Graphics Processing Unit）、FPGA（Field－Programmable Gate Array）などの種々のプロセッサである。メモリ１０６０は、RAM（Random Access Memory）などを用いて実現される主記憶装置である。ストレージデバイス１０８０は、ハードディスク、SSD（Solid State Drive）、メモリカード、又は ROM（Read Only Memory）などを用いて実現される補助記憶装置である。

入出力インタフェース１１００は、計算機１０００と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース１１００には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。

ネットワークインタフェース１１２０は、計算機１０００をネットワークに接続するためのインタフェースである。ネットワークインタフェース１１２０がネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。

計算機１０００は、ネットワークインタフェース１１２０を介して、第１記憶領域５０及び第２記憶領域６０と接続されている。ただし、計算機１０００を第１記憶領域５０や第２記憶領域６０と接続する方法は、ネットワークインタフェース１１２０を介した方法に限定されない。例えば第１記憶領域５０や第２記憶領域６０は、入出力インタフェース１１００を介して、計算機１０００と接続されてもよい。また、第１記憶領域５０や第２記憶領域６０は、計算機１０００の内部（例えばストレージデバイス１０８０の内部）に設けられてもよい。

ストレージデバイス１０８０は、データ管理装置２０００の各機能構成部を実現するプログラムモジュールを記憶している。プロセッサ１０４０は、これら各プログラムモジュールをメモリ１０６０に読み出して実行することで、各プログラムモジュールに対応する機能を実現する。

＜処理の流れ＞
図４は、実施形態１のデータ管理装置２０００によって実行される処理の流れを例示するフローチャートである。データ挿入部２０２０は、データ４０を取得する（Ｓ１０２）。データ挿入部２０２０は、既に第１記憶領域５０又は第２記憶領域６０に格納されているデータ集合２０の中に、データ４０を挿入すべきデータ集合２０が存在するか否かを判定する（Ｓ１０４）。データ４０を挿入すべきデータ集合２０が存在する場合（Ｓ１０４：ＹＥＳ）、データ挿入部２０２０は、そのデータ集合２０に対してデータ４０を挿入する（Ｓ１０６）。一方、データ４０を挿入すべきデータ集合２０が存在しない場合（Ｓ１０４：ＹＥＳ）、データ挿入部２０２０は、新たなデータ集合２０を第２記憶領域６０に生成し、そのデータ集合２０の中にデータ４０を挿入する（Ｓ１０８）。

集合挿入部２０４０は、挿入条件が満たされているか否かを判定する（Ｓ１１０）。挿入条件が満たされていない場合（Ｓ１１０：ＮＯ）、図４の処理は終了する。一方、挿入条件が満たされている場合（Ｓ１１０：ＹＥＳ）、集合挿入部２０４０は、第２記憶領域６０に格納されているデータ集合２０のうちのいずれか１つ以上を、木構造データ１０に挿入する（Ｓ１１２）。

＜利用シーンの例＞
図５は、データ管理装置２０００のより具体的な利用シーンを例示する図である。この例では、動画データから検出される物体の画像特徴を示す情報が、データ４０として扱われる。以下、さらに具体的に説明する。

解析装置１２０は、カメラ１１０によって生成された動画データ１１２を取得し、動画データ１１２を構成する各動画フレーム１１４について画像解析を行う。より具体的には、解析装置１２０は、動画フレーム１１４から物体を検出し、その物体についての情報である検出情報を生成する。例えば検出情報は、検出時刻（動画フレームの生成時刻）、動画フレーム１１４上の物体の位置、及び物体の画像特徴を含む情報である。検出情報は、動画フレーム１１４から検出される各物体について生成される。

解析装置１２０は、検出情報をデータ管理装置２０００に送信する。データ管理装置２０００（データ挿入部２０２０）は、この検出情報をデータ４０として取得する。データ管理装置２０００では、同一の物体についてのデータ４０が同一のデータ集合２０に含まれるように、データ４０の管理を行う。なお、データ管理装置２０００がデータ４０として取得する検出情報は、特定の種類の物体（例えば人間）についてのものに限定されてもよい。

データ管理装置２０００は、互いに類似する複数のデータ４０が同一のデータ集合２０に含まれるように、データ４０を管理する。ここで、前述した検出情報をデータ４０として扱う場合、データ４０同士の類似度を、検出情報が示す画像特徴に基づいて算出するようにする。こうすることで、動画データ１１２から抽出された物体に関する情報である検出情報を、画像特徴が互いに類似するものが同一のデータ集合２０に含まれるように管理することができる。すなわち、同一人物について得られる複数の画像特徴を、同一のデータ集合２０に集めて管理することができる。

このようにデータを管理することで、例えば、画像特徴を含む検索クエリによる検索で、その画像特徴を持つ人物を、データ管理装置２０００によって管理されているデータから見つけることが可能となる。データの検索についての詳細は後述する。

＜データ４０の取得：Ｓ１０２＞
データ挿入部２０２０は、データ集合２０に挿入すべきデータ４０を取得する（Ｓ１０２）。ここで、データ４０を取得する方法は様々である。例えば前述した利用シーンで例示したように、データ挿入部２０２０は、他の装置から送信されたデータ４０を受信することで、データ４０を取得する。その他にも例えば、データ挿入部２０２０は、第１記憶領域５０と第２記憶領域６０以外の記憶領域にアクセスすることで、その記憶領域に記憶されているデータ４０を取得する。例えば前述した利用シーンでは、解析装置１２０及びデータ管理装置２０００で共有される記憶装置を設けておき、解析装置１２０が検出情報をその記憶装置に格納するようにする。そして、データ挿入部２０２０は、この記憶装置に格納されている検出情報をデータ４０として取得する。その他にも例えば、データ挿入部２０２０は、ユーザによって入力されたデータ４０を取得してもよい。

＜データ４０を挿入すべきデータ集合２０が存在するか否かの判定：Ｓ１０４＞
データ挿入部２０２０は、取得したデータ４０を挿入すべきデータ集合２０が存在するか否かを判定する（Ｓ１０４）。この判定には、様々な基準を利用することができる。

例えば予め、既存のデータ集合２０について、そのデータ集合２０の代表データを算出しておく。例えばデータ集合２０の代表データは、そのデータ集合２０に含まれるデータの統計値（平均値など）である。なお、データ４０がベクトルデータである場合、代表データもベクトルデータ（例えば、平均ベクトル）となる。

データ挿入部２０２０は、既存のデータ集合２０の中から、データ４０とその代表データとの類似度が所定の閾値以上であるものを特定する。データ間の類似度には、例えば、データ間のノルムが小さいほど大きくなる値（例えば、ノルムの逆数）を利用することができる。なお、このノルムには、任意の種類のノルム（L1 ノルムや L2 ノルムなど）を採用することができる。

データ挿入部２０２０は、既存のデータ集合２０の中に、データ４０との類似度が所定の閾値以上であるものが存在する場合、そのデータ集合２０を、データ４０を挿入すべきデータ集合２０として特定する。一方、既存のデータ集合２０の中に、データ４０との類似度が所定の閾値以上であるものが存在しない場合、データ挿入部２０２０は、データ４０を挿入すべきデータ集合２０が存在しないと判定する。

なお、データ４０との類似度が所定の閾値以上であるものの探索は、木構造データ１０から優先して行うことが好適である。木構造のデータであるため、探索を高速に行うことができるためである。なお、木構造データ１０の探索には、その木構造データ１０の種類に応じて予め定められているアルゴリズムに従って行うことができる。以下、例として、類似度木の探索について説明する。

図６、類似度木として実現される木構造データ１０を例示する図である。図６においては、木構造データ１０は、３階層の類似度木である。上から順に、第１層、第２層、及び第３層と呼ぶ。第３層には、木構造データ１０に挿入されている全てのデータ集合２０が配置されている。第２層には、その直下にある複数のデータ集合２０のうちの１つが配置されている。同様に、第３層には、その直下にある複数のデータ集合２０のうちの１つが配置されている。

ここで、第１層には、互いの類似度が低いデータ集合２０が配置されている。これに対し、第２層では、互いの類似度が中程度である複数のデータ集合２０が、同一のデータ集合２０の直下に配置されている。さらに、第３層では、互いの類似度が高い複数のデータ集合２０が、同一のデータ集合２０の直下に配置されている。

まずデータ挿入部２０２０は、第１層のデータ集合２０の中から、データ４０との類似度が最も高い代表データを示すデータ集合２０を特定する。さらにデータ挿入部２０２０は、特定したデータ集合２０の直下にある第２層のデータ集合２０の中から、データ４０との類似度が最も高い代表データを示すデータ集合２０を特定する。さらに、データ挿入部２０２０は、特定したデータ集合２０の直下にある第３層のデータ集合２０の中から、データ４０との類似度が最も高いデータ集合２０を特定する。このような順にデータ４０とデータ集合２０との比較を行うことにより、データ４０との類似度が最大であるデータ集合２０を、階層の深さと等しい回数の比較（この例では３回）で特定することができる。

最終的に特定されたデータ集合２０とデータ４０との類似度が所定の閾値以上である場合、データ挿入部２０２０は、そのデータ集合２０を、データ４０を挿入すべきデータ集合２０として特定する。一方、最終的に特定されたデータ集合２０とデータ４０との類似度が所定の閾値未満である場合、データ挿入部２０２０は、データ４０を挿入すべきデータ集合２０が木構造データ１０の中に存在しないと判定する。

データ４０を挿入すべきデータ集合２０が木構造データ１０の中に存在しないと判定されたら、データ挿入部２０２０は、第２記憶領域６０に格納されている各データ集合２０の代表データとデータ４０との比較を行う。第２記憶領域６０の中に、データ４０との類似度が所定の閾値以上であるデータ集合２０が存在したら、データ挿入部２０２０は、そのデータ集合２０を、データ４０を挿入すべきデータ集合２０として特定する。一方、第２記憶領域６０の中に、データ４０との類似度が所定の閾値以上であるデータ集合２０が存在しなかったら、データ挿入部２０２０は、第２記憶領域６０の中に、データ４０を挿入すべきデータ集合２０が存在しないと判定する。この場合、第１記憶領域５０にも第２記憶領域６０にも、データ４０を挿入すべきデータ集合２０が存在しないこととなる。

＜既存のデータ集合２０に対するデータ４０の挿入：Ｓ１０６＞
データ４０を挿入すべきデータ集合２０が存在する場合（Ｓ１０４：ＹＥＳ）、データ挿入部２０２０は、データ４０をそのデータ集合２０に対して挿入する（Ｓ１０６）。なお、データの集合に対して新たなデータを挿入する技術には、既存の技術を利用することができる。

ここで、データ４０が木構造データ１０に挿入された場合において、木構造データ１０の再構築（構造の変更）が必要となることがありうる。例えば、木構造データ１０における各データ集合２０の位置を、データ集合２０の代表データに基づいて決める場合、データ４０が挿入されたデータ集合２０についての代表データが変化することにより、各データ集合２０の適切な配置が変化しうる。

このような場合、データ管理装置２０００は、木構造データ１０の再構築を行ってもよいし、行わなくてもよい。なお、木構造データに対して要素が追加されたことに応じて木構造の再構築を行う技術には、既存の技術を利用することができる。

＜新たなデータ集合２０の生成及びデータ４０の挿入：Ｓ１０８＞
データ４０を挿入すべきデータ集合２０が存在しない場合（Ｓ１０４：ＮＯ）、データ挿入部２０２０は、新たなデータ集合２０を第２記憶領域６０に生成し、生成したデータ集合２０にデータ４０を挿入する（Ｓ１０８）。ここで、新たなデータ集合を特定の記憶領域に生成し、そのデータ集合にデータを挿入する技術には、既存の技術を利用することができる。

＜挿入条件についての判定：Ｓ１１０、Ｓ１１２＞
集合挿入部２０４０は、挿入条件が満たされているか否かを判定する（Ｓ１１０）。挿入条件が満たされている場合、集合挿入部２０４０は、第２記憶領域６０に格納されているデータ集合２０のうちの１つ以上を、木構造データ１０に挿入する（Ｓ１１２）。すなわち、挿入条件は、木構造データ１０の外で管理していたデータ集合２０を木構造データ１０に加える契機となる条件である。

ここで、データ挿入部２０２０によってデータ４０が挿入されたデータ集合２０が、木構造データ１０に含まれているデータ集合２０であったとする。この場合、第２記憶領域６０に格納されているデータ集合２０には変化がない。そのため、挿入条件が満たされることはないと考えられる。そこで、データ挿入部２０２０によってデータ４０が挿入されたデータ集合２０が、木構造データ１０に含まれているデータ集合２０であった場合、データ挿入部２０２０は、挿入条件が満たされたか否かの判定を行わなくてもよい（Ｓ１１０を実行せずに、図４のフローチャートの処理を終了してもよい）。

挿入条件には、様々な条件を採用しうる。例えば挿入条件は、第２記憶領域６０に格納されている或るデータ集合２０について、そのデータ集合２０のサイズが閾値以上であるという条件である。また、データ集合２０のサイズの代わりに、データ集合２０に含まれるデータの個数を利用してもよい。閾値は、集合挿入部２０４０からアクセス可能な記憶装置に予め記憶させておく。

この挿入条件が満たされた場合、集合挿入部２０４０は、サイズ又はデータの個数が閾値以上となったデータ集合２０を木構造データ１０に挿入する。なお、データ４０を挿入することでサイズや個数が変化するデータ集合２０は、データ挿入部２０２０によってデータ４０が挿入されたデータ集合２０である。そのため、上記挿入条件を採用する場合、集合挿入部２０４０は、データ挿入部２０２０によってデータ４０が挿入されたデータ集合２０について、サイズやデータの個数を閾値と比較し、閾値以上となっていたら、そのデータ集合２０を木構造データ１０に挿入する。

その他にも例えば、挿入条件は、第２記憶領域６０に格納されている或るデータ集合２０において、その中に含まれるデータ４０の分散が所定の閾値以下であるという条件である。この挿入条件を採用する場合、集合挿入部２０４０は、データ４０の分散が所定の閾値以下となったデータ集合２０を、木構造データ１０に挿入する。なお、データ４０を挿入することでデータ４０の分散が変化するデータ集合２０は、データ挿入部２０２０によってデータ４０が挿入されたデータ集合２０である。そのため、この挿入条件を採用する場合も、集合挿入部２０４０は、データ挿入部２０２０によってデータ４０が挿入されたデータ集合２０について、その中に含まれるデータ４０の分散を算出し、算出した分散が閾値以下となっていたら、そのデータ集合２０を木構造データ１０に挿入する。

ただし、データ集合２０の中に含まれるデータ４０が少ない場合、データ集合２０の中に含まれるデータ４０の分散は、新たに挿入されるデータ４０の影響を受けて値が変化しやすい。そこで、「データ集合２０の中に含まれるデータ４０の分散が所定の閾値以下である」という条件と、「データ集合２０の個数が閾値以上である」という条件の双方を満たすことを、挿入条件としてもよい。例えば集合挿入部２０４０は、データ４０が挿入されたデータ集合２０について、まず、そのデータ集合２０の中に含まれるデータ４０の個数が閾値以上であるか否かを判定する。データ集合２０の個数が閾値以上であると判定されたら、さらに集合挿入部２０４０は、そのデータ集合２０に含まれるデータ４０の分散が閾値以下であるか否かを判定する。そして、データ集合２０に含まれるデータ４０の分散が閾値以下であると判定されたら、集合挿入部２０４０は、そのデータ集合２０を木構造データ１０に挿入する。

その他にも例えば、挿入条件には、第２記憶領域６０に格納されているデータ集合２０の個数が閾値以上となることや、第２記憶領域６０に格納されているデータ集合２０の合計サイズが閾値以上となることを採用できる。これらの挿入条件を採用する場合、集合挿入部２０４０は、選択ルールに基づき、第２記憶領域６０に格納されているデータ集合２０の中から、木構造データ１０に挿入するデータ集合２０を１つ以上選択する。選択ルールとは、木構造データ１０に挿入するデータ集合２０を選択する基準となるルールである。

ここで、木構造データ１０に挿入されるデータ集合２０は、その性質が今後変化する蓋然性が低いものであることが好ましい。なぜなら、木構造データ１０におけるデータ集合２０の挿入位置はそのデータ集合２０の性質（例えば、代表データやデータの分散など）によって決まるため、その性質が今後変化してしまうと、木構造データ１０におけるそのデータ集合２０の位置が、適切な位置でなくなってしまう蓋然性が高くなるからである。言い換えれば、データ集合２０の性質が今後変化する蓋然性が低ければ、現在のデータ集合２０の性質に基づいて定まるデータ集合２０の挿入位置が、今後もそのデータ集合２０について適切な位置であり続ける蓋然性が高いと言える。なお、木構造データの再構築を行うことは可能であるが、再構築の頻度を低くして計算コストを抑えることが好適であるため、挿入位置の適切さは重要であるといえる。

その性質が今後変化する蓋然性が低いデータ集合２０の選択を実現する選択ルールとしては、例えば、以下のルールが挙げられる。
（１）データ４０の個数が多い順で所定の順位以内であるデータ集合２０を選択
（２）サイズが大きい順で所定の順位以内であるデータ集合２０を選択
（３）生成された時点が早い順で所定の順位以内であるデータ集合２０を選択
（４）最終更新時点が早い順で所定の順位以内であるデータ集合２０を選択
（５）データ４０の分散の大きさが小さい順で所定の順位以内であるデータ集合２０を選択
（６）複数の指標を利用して算出したスコアが大きい順で所定の順位以内であるデータ集合２０を選択

以下、上記６つの例それぞれについて説明する。

＜＜（１）について＞＞
集合挿入部２０４０は、データ４０の個数が多い順で所定の順位以内であるデータ集合２０を選択する。例えば所定の順位が２であるとする。この場合、集合挿入部２０４０は、第２記憶領域６０に格納されているデータ集合２０の中から、データ４０の個数が最大であるデータ集合２０、及びその次にデータ４０の個数が多いデータ集合２０を選択する。

ここで、データ集合２０に含まれるデータ４０の個数が多いほど、それらのデータ４０によってデータ集合２０の性質が十分に表されている確率が高いと言える。よって、データ４０の個数が多いデータ集合２０を優先的に木構造データ１０に挿入することにより、データ集合２０を木構造データ１０内の適切な位置に挿入することができる。

＜＜（２）について＞＞
集合挿入部２０４０は、サイズが大きい順で所定の順位以内であるデータ集合２０を選択する。例えば所定の順位が２であるとする。この場合、集合挿入部２０４０は、第２記憶領域６０に格納されているデータ集合２０の中から、サイズ（データ集合２０に含まれる各データ４０のサイズ）の合計が最大であるデータ集合２０、及びその次にデータ４０の合計サイズが大きいデータ集合２０を選択する。

ここで、データ集合２０に含まれるデータ４０のサイズが大きいほど、それらのデータ４０によってデータ集合２０の性質が十分に表されている確率が高いと言える。よって、データ４０の合計サイズが大きいデータ集合２０を優先的に木構造データ１０に挿入することにより、データ集合２０を木構造データ１０内の適切な位置に挿入することができる。

＜＜（３）について＞＞
集合挿入部２０４０は、生成された時点が早い順で所定の順位以内であるデータ集合２０を選択する。例えば所定の順位が２であるとする。この場合、集合挿入部２０４０は、第２記憶領域６０に格納されているデータ集合２０の中から、生成された時点が最も早い（生成されてからの経過時間が最も長い）データ集合２０、及びその次に生成時点が早いデータ集合２０を選択する。

ここで、データ集合２０が生成されてからの経過時間が短いほど、新たなデータ４０がデータ集合２０に挿入されることにより、データ集合２０の性質が変化していく確率が高いと考えられる。言い換えれば、データ集合２０が生成されてからの経過時間が長いほど、新たなデータ４０の挿入によってデータ集合２０の性質が変化していく確率が低いと考えられる。よって、生成されてからの経過時間が長いデータ集合２０を優先的に木構造データ１０に挿入することにより、データ集合２０を木構造データ１０内の適切な位置に挿入することができる。

＜＜（４）について＞＞
集合挿入部２０４０は、最終更新時点（新たなデータ４０が挿入された時点）が早い順で所定の順位以内であるデータ集合２０を選択する。例えば所定の順位が２であるとする。この場合、集合挿入部２０４０は、第２記憶領域６０に格納されているデータ集合２０の中から、更新された時点が最も早い（最後に更新されてからの経過時間が最も長い）データ集合２０、及びその次に更新時点が早いデータ集合２０を選択する。

ここで、更新されてからの経過時間が長いデータ集合２０ほど、その後に更新される確率が低いと考えられる。そのため、更新されてからの経過時間が長いデータ集合２０ほど、その後にデータ集合２０の性質が変化する確率が低い。よって、更新されてからの経過時間が長いデータ集合２０を優先的に木構造データ１０に挿入することにより、データ集合２０を木構造データ１０内の適切な位置に挿入することができる。

＜＜（５）について＞＞
集合挿入部２０４０は、その中に含まれるデータ４０の分散の大きさが小さい順で所定の順位以内であるデータ集合２０を選択する。例えば所定の順位が２であるとする。この場合、集合挿入部２０４０は、第２記憶領域６０に格納されているデータ集合２０の中から、データ４０の分散が最小のデータ集合２０、及びその次にデータ４０の分散が小さいデータ集合２０を選択する。

ただし前述したように、データ集合２０の中に含まれるデータ４０の個数が少ない場合、データ集合２０に含まれるデータ４０の分散は、新たに挿入されるデータ４０の影響を受けて変化しやすい。すなわち、その中に含まれるデータ４０の個数が少ないデータ集合２０は、データ４０の分散が小さくても、その性質が安定していない可能性がある。

そこで例えば、集合挿入部２０４０は、データ集合２０の中から、その中に含まれるデータ４０の数が閾値以上であるものを抽出し、抽出したデータ集合２０のみを対象として、データ４０の分散を考慮したデータ集合２０の選択を行ってもよい。すなわち、まず集合挿入部２０４０は、データ集合２０の中から、その中に含まれるデータ４０の数が閾値以上であるものを抽出する。次に、集合挿入部２０４０は、抽出したデータ集合２０の中から、その中に含まれるデータ４０の分散の大きさが小さい順で所定の順位以内であるデータ集合２０を選択する。

＜＜（６）について＞＞
その他にも例えば、集合挿入部２０４０は、これまでに挙げた「データ４０の個数」、「サイズ」、「生成された時点」、「最終更新時点」、及び「データ４０の分散」などといった複数の指標を利用して各データ集合２０のスコアを算出し、算出したスコアが大きい順で所定の順位以内であるデータ集合２０を選択してもよい。例えば集合挿入部２０４０は、上述した５つの指標を利用して、以下に示すスコアを算出する。

ここで、i はデータ集合２０の識別子である。xi1、xi2、xi3、xi4、及び xi5 はそれぞれ、識別子が i であるデータ集合２０におけるデータ４０の個数、サイズ、生成された時点、最終更新時点、及びデータ４０の分散である。f1(xi1) は、データ４０の個数 xi1 についての単調非減少関数である。f2(xi2) は、サイズ xi2 についての単調非減少関数である。f3(xi3) は、生成された時点 xi3 についての単調非増加関数である。f4(xi4) は、最終更新時点 xi4 についての単調非増加関数である。f5(xi5) は、データ４０の分散 xi5 についての単調非増加関数である。

＜木構造データ１０に対するデータ集合２０の挿入：Ｓ１１２＞
集合挿入部２０４０は、第２記憶領域６０に格納されているデータ集合２０のうちのいずれか１つ以上を、木構造データ１０に挿入する。ここで、木構造のデータに対して要素となるデータ（木構造データ１０ではデータ集合２０）を挿入する技術には、既存の技術を利用することができる。以下、類似度木として実現されている木構造データ１０に対してデータ集合２０を挿入するケースについて例示する。

例えば木構造データ１０が、前述した図６に示した構造を持つ類似度木であるとする。この場合、集合挿入部２０４０は、第１層の各データ集合２０の中から、挿入対象のデータ集合２０の代表データとの類似度が最大である代表データを持つデータ集合２０を特定する。さらに集合挿入部２０４０は、特定したデータ集合２０の直下にある第２層のデータ集合２０の中から、挿入対象のデータ集合２０の代表データとの類似度が最大である代表データを持つデータ集合２０を特定する。そして、集合挿入部２０４０は、特定したデータ集合２０の直下に、挿入対象のデータ集合２０を挿入する。

なお、木構造データ１０に対して挿入したデータ集合２０は、第２記憶領域６０から削除することが好適である。ただし、木構造データ１０に対して挿入した直後にデータ集合２０を削除する代わりに、その後の適切なタイミングでデータ集合２０を削除してもよい。例えば、第２記憶領域６０に新たなデータ集合２０を生成する際に、削除すべきデータ集合２０を新たなデータ集合２０で上書きすることにより、データ集合２０の削除を行うようにする。

＜管理されているデータの活用方法＞
データ管理装置２０００によって管理されているデータの活用方法について例示する。例えば、データ管理装置２０００は、データ集合２０を示す検索クエリを取得し、第１記憶領域５０及び第２記憶領域６０に含まれるデータ集合２０の中から、検索クエリに示されるデータ集合２０と性質が近い（類似度が所定の閾値以上である）データ集合２０を特定して出力する。これにより、データ管理装置２０００によって管理されているデータ集合２０の中から、検索クエリが示すデータ集合２０と性質が近いものを容易に探すことができる。

検索クエリの処理は、例えば次のようにして行われる。まずデータ管理装置２０００は、検索クエリに示されるデータ集合２０で、木構造データ１０を検索する。木構造データ１０の中に、検索クエリに示されるデータ集合２０との類似度が所定の閾値以上のものがあれば、そのデータ集合２０が、検索クエリに該当するデータ集合２０（検索クエリに示されるデータ集合２０と性質が近いデータ集合２０）として特定される。一方、木構造データ１０の中に、検索クエリに示されるデータ集合２０との類似度が所定の閾値以上のものがなければ、データ管理装置２０００は、第２記憶領域６０を検索する。

第２記憶領域６０の中に、検索クエリに示されるデータ集合２０との類似度が所定の閾値以上のものがあれば、そのデータ集合２０が、検索クエリに該当するデータ集合２０として特定される。一方、第２記憶領域６０の中に、検索クエリに示されるデータ集合２０との類似度が所定の閾値以上のものがなければ、検索クエリに該当するデータ集合２０はないと判定される。

検索の結果としてデータ管理装置２０００が出力する情報は任意である。例えば、データ管理装置２０００は、検索クエリに該当するデータ集合２０を出力する。その他にも例えば、予め各データ集合２０に対して何らかの識別情報が割り当てられている場合、データ管理装置２０００は、検索クエリに該当するデータ集合２０の識別情報を出力してもよい。

例えば、データ集合２０の中に、同一人物の画像特徴が含まれているとする。この場合、データ集合２０に含まれる画像特徴を用いて人物の認証を行い、認証された人物の識別情報（名前や識別番号など）をデータ集合２０に割り当てておく。データ管理装置２０００は、検索クエリに対する出力として、この識別情報を返すようにする。これにより、検索対象のデータ集合２０がどの人物の画像特徴を表しているのかを容易に把握することができる。

検索クエリは、人手で入力されるものであってもよいし、他の装置から入力されるものであってもよい。ここで、或るデータ集合２０について検索が行われるタイミング（そのデータ集合２０を示す検索クエリが発行されるタイミング）は任意である。例えば、そのタイミングは、検索対象のデータ集合２０が生成されたとき（映像を解析することで同一人物の画像特徴の集合が得られたときなど）、検索対象のデータ集合２０にデータ４０が挿入されたとき、検索対象のデータ集合２０が完成したとき（例えば、そのデータ集合２０に一定時間データ４０が挿入されていないと判定されたとき）、検索対象のデータ集合２０の要素数が所定数に達したとき、又は検索対象のデータ集合２０に含まれるデータ４０同士の類似度の分散が所定値以下となったときなどである。また、上記各タイミングにおいてデータ管理装置２０００の処理負荷が高い場合（CPU などの計算機資源の使用率が閾値以上である場合）、データ管理装置２０００の処理負荷が低くなるまで（計算機資源の使用率が閾値未満となるまで）検索のタイミングをずらしてもよい。

ここで、前述した検索と同様の方法で、データ管理装置２０００に対してデータ集合２０を挿入する機能を実現してもよい。具体的には、データ管理装置２０００は、挿入対象のデータ集合２０を取得する。データ管理装置２０００は、木構造データ１０又は第２記憶領域６０の中に、挿入対象のデータ集合２０との類似度が所定の閾値以上のものがあれば、そのデータ集合２０と挿入対象のデータ集合２０とをマージする。これにより、データ４０を１つ１つ挿入するだけでなく、データ４０の集合であるデータ集合２０を一度に挿入することができる。

以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記各実施形態の組み合わせ、又は上記以外の様々な構成を採用することもできる。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
１．データ集合をノードとして持つ木構造のデータである木構造データを格納する第１記憶領域と、前記木構造データに含まれていないデータ集合を格納する第２記憶領域とに対してアクセス可能であり、
前記データ集合に挿入すべきデータを取得し、前記取得したデータを前記第１記憶領域又は前記第２記憶領域に既に格納されている前記データ集合に挿入するか、又は新たなデータ集合を前記第２記憶領域に生成してそのデータ集合に前記取得したデータを挿入するデータ挿入部と、
前記第２記憶領域に格納されている前記データ集合について所定の条件が満たされたら、前記第２記憶領域に格納されている前記データ集合の１つ以上を前記木構造データに挿入する集合挿入部と、を有するデータ管理装置。
２．前記データ挿入部は、
前記取得したデータを挿入すべきデータ集合が存在するか否かを判定し、
前記取得したデータを挿入すべきデータ集合が存在する場合、前記取得したデータをそのデータ集合に挿入し、
前記取得したデータを挿入すべきデータ集合が存在しない場合、前記第２記憶領域に新たなデータ集合を生成し、前記生成したデータ集合に前記取得したデータを挿入する、１．に記載のデータ管理装置。
３．１つの前記データ集合に格納される複数のデータは、それぞれ異なる画像から抽出された同一人物の画像特徴である、１．又は２．に記載のデータ管理装置。
４．前記所定の条件は、前記第２記憶領域に格納されている前記データ集合に含まれるデータの個数又は合計サイズが閾値以上となることであり、
前記集合挿入部は、データの個数又は合計サイズが閾値以上となった前記データ集合を前記木構造データに挿入する、１．乃至３に記載のデータ管理装置。
５．前記所定の条件は、前記第２記憶領域に格納されている前記データ集合の個数又は合計サイズが閾値以上となることであり、
前記集合挿入部は、前記所定の条件が満たされたら、選択ルールに基づいて、前記第２記憶領域に格納されている複数の前記データ集合のうちのいずれか１つ以上を選択し、選択した前記データ集合を前記木構造データに挿入する、１．乃至３に記載のデータ管理装置。
６．前記選択ルールは、
データの個数の多い順で所定の順位以内である前記データ集合を選択する、
サイズの大きい順で所定の順位以内である前記データ集合を選択する、
生成された時点が早い順で所定の順位以内である前記データ集合を選択する、
最終更新時点が早い順で所定の順位以内である前記データ集合を選択する、又は
データの分散の大きさが小さい順で所定の順位以内である前記データ集合を選択する、
というルールである、５．に記載のデータ管理装置。
７．コンピュータによって実行される制御方法であって、
前記コンピュータは、データ集合をノードとして持つ木構造のデータである木構造データを格納する第１記憶領域と、前記木構造データに含まれていないデータ集合を格納する第２記憶領域とに対してアクセス可能であり、
当該制御方法は、
前記データ集合に挿入すべきデータを取得し、前記取得したデータを前記第１記憶領域又は前記第２記憶領域に既に格納されている前記データ集合に挿入するか、又は新たなデータ集合を前記第２記憶領域に生成してそのデータ集合に前記取得したデータを挿入するデータ挿入ステップと、
前記第２記憶領域に格納されている前記データ集合について所定の条件が満たされたら、前記第２記憶領域に格納されている前記データ集合の１つ以上を前記木構造データに挿入する集合挿入ステップと、を有する制御方法。
８．前記データ挿入ステップにおいて、
前記取得したデータを挿入すべきデータ集合が存在するか否かを判定し、
前記取得したデータを挿入すべきデータ集合が存在する場合、前記取得したデータをそのデータ集合に挿入し、
前記取得したデータを挿入すべきデータ集合が存在しない場合、前記第２記憶領域に新たなデータ集合を生成し、前記生成したデータ集合に前記取得したデータを挿入する、７．に記載の制御方法。
９．１つの前記データ集合に格納される複数のデータは、それぞれ異なる画像から抽出された同一人物の画像特徴である、７．又は８．に記載の制御方法。
１０．前記所定の条件は、前記第２記憶領域に格納されている前記データ集合に含まれるデータの個数又は合計サイズが閾値以上となることであり、
前記集合挿入ステップにおいて、データの個数又は合計サイズが閾値以上となった前記データ集合を前記木構造データに挿入する、７．乃至９に記載の制御方法。
１１．前記所定の条件は、前記第２記憶領域に格納されている前記データ集合の個数又は合計サイズが閾値以上となることであり、
前記集合挿入ステップにおいて、前記所定の条件が満たされたら、選択ルールに基づいて、前記第２記憶領域に格納されている複数の前記データ集合のうちのいずれか１つ以上を選択し、選択した前記データ集合を前記木構造データに挿入する、７．乃至９に記載の制御方法。
１２．前記選択ルールは、
データの個数の多い順で所定の順位以内である前記データ集合を選択する、
サイズの大きい順で所定の順位以内である前記データ集合を選択する、
生成された時点が早い順で所定の順位以内である前記データ集合を選択する、
最終更新時点が早い順で所定の順位以内である前記データ集合を選択する、又は
データの分散の大きさが小さい順で所定の順位以内である前記データ集合を選択する、
というルールである、１１．に記載の制御方法。
１３．７．乃至１２．いずれか一つに記載の制御方法の各ステップをコンピュータに実行させるプログラム。

この出願は、２０１９年５月２７日に出願された日本出願特願２０１９－０９８７９２号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

データ集合をノードとして持つ木構造のデータである木構造データを格納する第１記憶領域と、前記木構造データに含まれていないデータ集合を格納する第２記憶領域とに対してアクセス可能であり、
前記データ集合に挿入すべきデータを取得し、前記取得したデータを前記第１記憶領域又は前記第２記憶領域に既に格納されている前記データ集合に挿入するか、又は新たなデータ集合を前記第２記憶領域に生成してそのデータ集合に前記取得したデータを挿入するデータ挿入手段と、
前記第２記憶領域に格納されている前記データ集合について所定の条件が満たされたら、前記第２記憶領域に格納されている前記データ集合の１つ以上を前記木構造データに挿入する集合挿入手段と、を有するデータ管理装置。
前記データ挿入手段は、
前記取得したデータを挿入すべきデータ集合が存在するか否かを判定し、
前記取得したデータを挿入すべきデータ集合が存在する場合、前記取得したデータをそのデータ集合に挿入し、
前記取得したデータを挿入すべきデータ集合が存在しない場合、前記第２記憶領域に新たなデータ集合を生成し、前記生成したデータ集合に前記取得したデータを挿入する、請求項１に記載のデータ管理装置。
１つの前記データ集合に格納される複数のデータは、それぞれ異なる画像から抽出された同一人物の画像特徴である、請求項１又は２に記載のデータ管理装置。
前記所定の条件は、前記第２記憶領域に格納されている前記データ集合に含まれるデータの個数又は合計サイズが閾値以上となることであり、
前記集合挿入手段は、データの個数又は合計サイズが閾値以上となった前記データ集合を前記木構造データに挿入する、請求項１乃至３に記載のデータ管理装置。
前記所定の条件は、前記第２記憶領域に格納されている前記データ集合の個数又は合計サイズが閾値以上となることであり、
前記集合挿入手段は、前記所定の条件が満たされたら、選択ルールに基づいて、前記第２記憶領域に格納されている複数の前記データ集合のうちのいずれか１つ以上を選択し、選択した前記データ集合を前記木構造データに挿入する、請求項１乃至３に記載のデータ管理装置。
前記選択ルールは、
データの個数の多い順で所定の順位以内である前記データ集合を選択する、
サイズの大きい順で所定の順位以内である前記データ集合を選択する、
生成された時点が早い順で所定の順位以内である前記データ集合を選択する、
最終更新時点が早い順で所定の順位以内である前記データ集合を選択する、又は
データの分散の大きさが小さい順で所定の順位以内である前記データ集合を選択する、
というルールである、請求項５に記載のデータ管理装置。
コンピュータによって実行される制御方法であって、
前記コンピュータは、データ集合をノードとして持つ木構造のデータである木構造データを格納する第１記憶領域と、前記木構造データに含まれていないデータ集合を格納する第２記憶領域とに対してアクセス可能であり、
当該制御方法は、
前記データ集合に挿入すべきデータを取得し、前記取得したデータを前記第１記憶領域又は前記第２記憶領域に既に格納されている前記データ集合に挿入するか、又は新たなデータ集合を前記第２記憶領域に生成してそのデータ集合に前記取得したデータを挿入するデータ挿入ステップと、
前記第２記憶領域に格納されている前記データ集合について所定の条件が満たされたら、前記第２記憶領域に格納されている前記データ集合の１つ以上を前記木構造データに挿入する集合挿入ステップと、を有する制御方法。
データ集合をノードとして持つ木構造のデータである木構造データを格納する第１記憶領域と、前記木構造データに含まれていないデータ集合を格納する第２記憶領域とに対してアクセス可能なコンピュータに、
前記データ集合に挿入すべきデータを取得し、前記取得したデータを前記第１記憶領域又は前記第２記憶領域に既に格納されている前記データ集合に挿入するか、又は新たなデータ集合を前記第２記憶領域に生成してそのデータ集合に前記取得したデータを挿入するデータ挿入ステップと、
前記第２記憶領域に格納されている前記データ集合について所定の条件が満たされたら、前記第２記憶領域に格納されている前記データ集合の１つ以上を前記木構造データに挿入する集合挿入ステップと、を実行させるプログラムを記憶する記憶媒体。