JP2013004093A - Search method and system by multi-instance learning - Google Patents

Search method and system by multi-instance learning Download PDF

Info

Publication number
JP2013004093A
JP2013004093A JP2012132915A JP2012132915A JP2013004093A JP 2013004093 A JP2013004093 A JP 2013004093A JP 2012132915 A JP2012132915 A JP 2012132915A JP 2012132915 A JP2012132915 A JP 2012132915A JP 2013004093 A JP2013004093 A JP 2013004093A
Authority
JP
Japan
Prior art keywords
training
instance
package
positive
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012132915A
Other languages
Japanese (ja)
Other versions
JP5953960B2 (en
Inventor
Fei Li
リ・フェイ
Rujie Liu
リィウ・ルゥジエ
Hao Yui
ハオ ユィ
Masaki Ishihara
正樹 石原
Yusuke Uehara
祐介 上原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2013004093A publication Critical patent/JP2013004093A/en
Application granted granted Critical
Publication of JP5953960B2 publication Critical patent/JP5953960B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

PROBLEM TO BE SOLVED: To disclose a search method and system by multi-instance learning.SOLUTION: Disclosed is a search method including: acquiring a training package including a positive training package and a training instance in the training packages; generating a weight in each training instance in the positive training package; acquiring, as for all instances in the training package and a test package, a sort score in each test instance by using the weight of each training instance in the positive training package; specifying the sort scores of each test package on the basis of the sort score of each test instance in the test package; and specifying a search result on the basis of the sort scores of the test package, and the absolute size of the weight indicates an extent to which the lookup word meaning of a user can be expressed by the corresponding training instance. Thus, it is possible to much more sufficiently use information provided by the instance in the positive training package, and to improve search performance.

Description

本発明は、一般的に画像処理技術分野に関し、特にマルチインスタンス学習による検索方法及びシステムに関する。   The present invention relates generally to the field of image processing technology, and more particularly to a search method and system using multi-instance learning.

デジタル画像数の急速な増大につれて、高速で且つ有効な画像検索技術が求められている。その技術は人間の日常生活、例えばデジタル写真管理、オンラインショッピング、リモート教育等に多く適用することができる。   With the rapid increase in the number of digital images, there is a need for fast and effective image retrieval techniques. The technology can be applied in many ways to human daily life, such as digital photo management, online shopping, remote education and the like.

画像検索技術は、主にテキストによる画像検索技術とコンテンツ〔内容〕による画像検索技術とを含む。コンテンツによる画像検索技術は、テキストによる画像検索技術と異なり、画像上の文字描画に基づいてインデックスを生成することなく、画像毎の視覚コンテンツ特徴、例えば色合い、テクスチャ、形状等を自動的に抽出し、そうした視覚コンテンツ特徴に基づいてインデックスを生成する。検索を行う際に、ユーザは代表的な一つ又は複数のサンプル画像を選択してルックアップを構築した後に、検索システムにサンプル画像の視覚コンテンツ特徴と類似する画像を探索させることができる。   The image search technology mainly includes an image search technology by text and an image search technology by contents. Unlike image search technology using text, content-based image search technology automatically extracts visual content features such as hue, texture, and shape for each image without generating an index based on the drawing of characters on the image. And generating an index based on such visual content features. In performing a search, the user can select one or more representative sample images to construct a lookup, and then cause the search system to search for images that are similar to the visual content features of the sample images.

領域特徴が人間の視覚感知によく合致し、且つ領域特徴による検索技術で一般的により良い検索性能を得られるため、領域特徴による画像検索はコンテンツによる画像検索の重要な手法の一つになる。領域特徴による検索とは、画像分割技術で画像において意味のある領域を抽出した後に、領域ごとに局所特徴を用いて描画を行い、各領域特徴を統合して画像の特徴描画を取得し、これら特徴に基づいて検索アルゴリズムを設計して検索を行うことである。マルチインスタンス学習は、領域による画像検索に適用されて成功を収めている効率的なアルゴリズムである。   Image retrieval based on region features is one of the important methods of image retrieval based on contents because region features are well matched to human visual perception and a search technique based on region features generally provides better search performance. Search based on region features is a method of extracting meaningful regions in an image using image segmentation technology, then drawing using local features for each region, and integrating each region feature to obtain a feature drawing of the image. The search is performed by designing a search algorithm based on the features. Multi-instance learning is an efficient algorithm that has been successfully applied to image retrieval by region.

マルチインスタンス学習による画像検索においては、それぞれの画像がパッケージとされ、画像における領域のそれぞれがインスタンスとされる。データセットは種類の標識を有するパッケージにより構成され、それぞれのパッケージには種類の標識を有しない若干のインスタンスが含まれる。マルチインスタンスの基本的な出発点として、少なくとも一つの正のインスタンス(後述)を含むパッケージであれば、当該パッケージが正の訓練〔トレーニング〕パッケージと標識される。その一方、パッケージ中のインスタンスが全て負のものであれば、当該パッケージが負の訓練パッケージと標識される。   In image search by multi-instance learning, each image is used as a package, and each region in the image is used as an instance. The data set is composed of packages with type indicators, each package containing a few instances without type indicators. As a basic starting point for multi-instances, if a package contains at least one positive instance (described below), the package is labeled as a positive training package. On the other hand, if all instances in a package are negative, the package is labeled as a negative training package.

負の訓練パッケージは、その中に含まれるインスタンスが必ず負のものである。正の訓練パッケージは、その中に正のインスタンスと負のインスタンスの両方が含まれてもよい。更に、システムはどのインスタンスが正であるか、どのインスタンスが負であるかは知らない。従って、マルチインスタンス学習において、最も重要な問題は、どのように正の訓練パッケージにおけるインスタンスにより提供される情報を用いて検索を行うかということにある。   A negative training package always contains negative instances. A positive training package may include both positive and negative instances therein. Furthermore, the system does not know which instances are positive and which are negative. Thus, in multi-instance learning, the most important issue is how to perform a search using information provided by instances in a positive training package.

従来の技術におけるアルゴリズムは、一般的に好適な方法を用いて、正の訓練パッケージに含まれる正のインスタンスを選択することを意図する。この方法は、少なくとも、予め選択すべきインスタンスの数を決定しておく必要があるという欠点がある。例えば、それぞれの正の訓練パッケージから一つの正のインスタンスしか選択できないという制限がある場合に、一つのインスタンスのみが最終的な検索に関係することになるが、実際に正の訓練パッケージに含まれる正のインスタンスが一つだけではないことがよくある。その中の一つのインスタンスのみを用いて検索を行うと、正の訓練パッケージにおけるインスタンスにより提供される情報が十分に利用できず、検索の性能が制限されることになる。   Algorithms in the prior art are generally intended to select positive instances included in positive training packages using a suitable method. This method has the disadvantage that at least the number of instances to be selected needs to be determined in advance. For example, if there is a restriction that only one positive instance can be selected from each positive training package, only one instance will be involved in the final search, but is actually included in the positive training package Often there is not just one positive instance. If a search is performed using only one instance among them, the information provided by the instances in the positive training package cannot be fully utilized, and the search performance is limited.

本発明の実施例は、上記の事情に鑑み、正の訓練パッケージにおけるインスタンスにより提供される情報がより十分に利用され、検索性能が向上される、マルチインスタンス学習による検索方法及びシステムを提供する。   In view of the above circumstances, an embodiment of the present invention provides a search method and system by multi-instance learning in which information provided by an instance in a positive training package is more fully utilized and search performance is improved.

本発明の実施例の一つの側面によれば、マルチインスタンス学習による検索方法であって、正の訓練パッケージを含む訓練パッケージ及び訓練パッケージにおける訓練インスタンスを取得し、前記正の訓練パッケージにおける訓練インスタンス毎に重みを生成し、訓練パッケージ及びテストパッケージにおけるインスタンスの全てについて、前記正の訓練パッケージにおける訓練インスタンスのそれぞれの重みを用いてテストインスタンスのそれぞれのソートスコアを取得し、テストパッケージにおけるテストインスタンスのそれぞれのソートスコアに基づいてテストパッケージのそれぞれのソートスコアを特定し、前記テストパッケージのソートスコアに基づいて検索結果を特定することを含み、前記重みの絶対的な大きさは、対応する訓練インスタンスがユーザのルックアップ語義を表現可能な度合いを表す、方法が提供される。   According to one aspect of an embodiment of the present invention, there is provided a search method using multi-instance learning, including a training package including a positive training package and a training instance in the training package, and each training instance in the positive training package. For each of the instances in the training package and the test package, obtain the respective sort score of the test instance using the weight of each of the training instances in the positive training package, and each of the test instances in the test package Identifying a respective sort score for the test package based on a sort score for the test package, and identifying a search result based on the sort score for the test package, wherein the absolute magnitude of the weight includes a corresponding lesson Instance representing a degree representable lookup semantics of user, a method is provided.

本発明の実施例の別の側面によれば、マルチインスタンス学習による検索システムであって、正の訓練パッケージを含む訓練パッケージ及び訓練パッケージにおける訓練インスタンスを取得するように構成される取得手段と、前記正の訓練パッケージにおける訓練インスタンス毎に重みを生成するように構成される訓練インスタンス重み生成手段と、訓練パッケージ及びテストパッケージにおけるインスタンスの全てについて、前記正の訓練パッケージにおける訓練インスタンスのそれぞれの重みを用いてテストインスタンスのそれぞれのソートスコアを取得するように構成されるテストインスタンスソートスコア取得手段と、テストパッケージにおけるテストインスタンスのそれぞれのソートスコアに基づいてテストパッケージのそれぞれのソートスコアを特定し、前記テストパッケージのソートスコアに基づいて検索結果を特定するように構成される検索結果特定手段とを備え、前記重みの絶対的な大きさは、対応する訓練インスタンスがユーザのルックアップ語義を表現可能な度合いを表す、システムが提供される。   According to another aspect of an embodiment of the present invention, a search system with multi-instance learning, an acquisition means configured to acquire a training package including a positive training package and a training instance in the training package; A training instance weight generating means configured to generate a weight for each training instance in the positive training package, and for each of the instances in the training package and the test package, each weight of the training instance in the positive training package is used. A test instance sort score obtaining means configured to obtain each sort score of the test instance, and each of the test packages based on each sort score of the test instance in the test package A search result specifying means configured to specify a sort score and to specify a search result based on the sort score of the test package, wherein the absolute magnitude of the weight is determined by the user corresponding to the training instance. A system is provided that represents the degree to which lookup semantics can be expressed.

また、本発明の別の側面によれば、さらに記憶媒体が提供される。前記記憶媒体は、機械読取可能なプログラムコードを含む。前記プログラムコードは、情報処理装置で実行されると、前記情報処理装置に本発明による前記のマルチインスタンス学習による検索方法を実行させる。   According to another aspect of the present invention, a storage medium is further provided. The storage medium includes machine readable program code. When the program code is executed by an information processing apparatus, it causes the information processing apparatus to execute the search method based on the multi-instance learning according to the present invention.

また、本発明の別の側面によれば、さらにプログラムが提供される。前記プログラムは機械読取可能なコマンドを含む。前記コマンドは、情報処理装置で実行されると、前記情報処理装置に本発明による前記のマルチインスタンス学習による検索方法を実行させる。   According to another aspect of the present invention, a program is further provided. The program includes machine readable commands. When the command is executed by the information processing apparatus, it causes the information processing apparatus to execute the search method by multi-instance learning according to the present invention.

本発明の実施例の前記方法によれば、画像検索を行う過程において、正の訓練パッケージにおいる訓練インスタンス毎に重みを生成することができる。当該重みの絶対的な大きさは、対応する訓練インスタンスがユーザのルックアップ語義を表現可能な度合いを表す。これにより、最後にテストパッケージにおけるテストインスタンスのそれぞれのソートスコアを算出する際に、正の訓練パッケージにおける訓練インスタンスに対し、それぞれの重みをその初期ラベルとし、最終的に各テストインスタンスのソートスコアに基づいてテストパッケージのソートスコアを取得して検索結果を与えることができる。従って、本発明の実施例においては、正の訓練パッケージから限定された数量の正のインスタンスを選択することは意図されず、正の訓練パッケージにおけるインスタンス毎にそれぞれの重みを算出し、当該重みの絶対的な大きさでインスタンスのそれぞれとユーザのルックアップ語義との一致度を表現する。これにより、更に正の訓練パッケージそれぞれにおけるインスタンスのそれぞれの重みに基づいてテストパッケージにおけるテストインスタンスのそれぞれのソートスコアを取得する。これにより、正の訓練パッケージにおける訓練インスタンスのそれぞれにより提供された情報が十分に利用され、検索の性能の向上に寄与する。   According to the method of the embodiment of the present invention, a weight can be generated for each training instance in the positive training package in the process of performing an image search. The absolute magnitude of the weight represents the degree to which the corresponding training instance can represent the user's lookup semantics. As a result, when calculating the sort score of each test instance in the test package at the end, for each training instance in the positive training package, each weight is set as the initial label, and finally the sort score of each test instance is set. Based on this, the sort score of the test package can be obtained and a search result can be given. Therefore, in an embodiment of the present invention, it is not intended to select a limited number of positive instances from the positive training package, but for each instance in the positive training package, each weight is calculated and The degree of agreement between each instance and the user's lookup semantics is expressed in absolute size. Thereby, the sort score of each test instance in the test package is acquired based on the weight of each instance in each positive training package. This fully utilizes the information provided by each of the training instances in the positive training package and contributes to improved search performance.

以下の明細書において本発明の実施例のその他の側面が提供される。ここで、詳細な説明は、本発明の実施例の好適な実施例を十全に開示するためのものであって、限定するものではない。   Other aspects of embodiments of the invention are provided in the following specification. Here, the detailed description is for the purpose of fully disclosing preferred embodiments of the embodiments of the present invention and is not intended to be limiting.

以下に、具体的な実施例を用いて、図面を参照しながら本発明の実施例の前記及びその他の目的と利点を更に説明する。図面において、同一又は対応する技術的特徴又は部品は、同一又は対応する符号で示される。
本発明による実施例により提供される方法を示すフローチャートである。 本発明による実施例により提供される別の方法を示すフローチャートである。 本発明による実施例により提供される第1の装置を示す模式図である。 本発明による実施例により提供される第2の装置を示す模式図である。 本発明による実施例により提供される第3の装置を示す模式図である。 本発明による実施例により提供される第4の装置を示す模式図である。 本発明による実施例により採用される情報処理装置のパーソナルコンピュータの模式的な構造を示すブロック図である。
The above and other objects and advantages of the embodiments of the present invention will be further described below using specific embodiments with reference to the drawings. In the drawings, the same or corresponding technical features or parts are denoted by the same or corresponding reference numerals.
4 is a flowchart illustrating a method provided by an embodiment according to the present invention. 6 is a flowchart illustrating another method provided by an embodiment according to the present invention. 1 is a schematic diagram showing a first apparatus provided by an embodiment according to the present invention. FIG. 3 is a schematic diagram showing a second apparatus provided by an embodiment according to the present invention. FIG. 6 is a schematic diagram showing a third device provided by an embodiment according to the present invention. FIG. 6 is a schematic diagram showing a fourth apparatus provided by an embodiment according to the present invention. It is a block diagram which shows the typical structure of the personal computer of the information processing apparatus employ | adopted by the Example by this invention.

以下に、図面を参照して本発明の実施例を説明する。   Embodiments of the present invention will be described below with reference to the drawings.

理解を容易にするために、以下に、先ず本発明の実施例に係る幾つかの概念(訓練パッケージ、訓練インスタンス、正の訓練パッケージ、負の訓練パッケージ、正のインスタンス、負のインスタンス、テストパッケージ、テストインスタンスを含む)を紹介する。   For ease of understanding, here are first some concepts according to embodiments of the present invention: training package, training instance, positive training package, negative training package, positive instance, negative instance, test package. , Including test instances).

まず、マルチインスタンス学習の枠組みにおいては、画像のそれぞれが一つのパッケージと見なされ、画像における領域のそれぞれが一つのインスタンスと見なされる。なお、検索シードであるサンプル画像が複数の領域に分割された後に、領域のそれぞれが訓練インスタンスと呼ばれ、一つのサンプル画像における全ての訓練インスタンスが一つの訓練パッケージを構成する。言い換えれば、一つのサンプル画像が一つの訓練パッケージに対応し、一つの訓練パッケージに複数の訓練インスタンスが含まれる。   First, in the multi-instance learning framework, each image is regarded as one package, and each region in the image is regarded as one instance. Note that after the sample image that is the search seed is divided into a plurality of regions, each of the regions is called a training instance, and all the training instances in one sample image constitute one training package. In other words, one sample image corresponds to one training package, and one training package includes a plurality of training instances.

なお、訓練インスタンスには正のインスタンスと負のインスタンスとが含まれる。正のインスタンスはユーザのルックアップ語義〔検索意図/検索対象〕を表現可能なもの、負のインスタンスはユーザのルックアップ語義を表現不可なものである。訓練パッケージは正の訓練パッケージと負の訓練パッケージに分けることができる。正の訓練パッケージは少なくとも一つの正のインスタンスを含むものである。負の訓練パッケージに含まれるインスタンスの全ては負のインスタンスである。例えば、ユーザがトラのある画像を検索しようとする場合に、提供されるサンプル画像がトラのある画像である場合もあるが、当該画像において更に幾つかの背景、例えば木、芝生等を含む可能性もある。つまり、当該サンプル画像は、一部の領域のみに本当にトラが表示され、別の一部の領域には木、芝生等が表示される。このように、当該サンプル画像に対して領域分割を行う際に、幾つかの領域にトラのパターンが表示される一方、幾つかの領域には木、芝生等だけが表示されるような場合もある。ユーザのルックアップ語義〔検索意図/検索対象〕は、トラのある画像を探索すべきであるため、当該サンプル画像について、トラのパターンのある領域に対応するインスタンスが正のインスタンスであり、木、芝生等のある領域に対応するインスタンスが負のインスタンスである。当該サンプル画像に対応する訓練パッケージは、正のインスタンスと負のインスタンスの両方を含むため、当該訓練パッケージが正の訓練パッケージである。当該サンプル画像は正のサンプル画像と呼ばれても良い。ユーザが検索しようとするものがトラのある画像であるが、提供されるサンプル画像に含まれるものが全て木、芝生等のパターンである場合に、当該サンプル画像を分割した全てのインスタンスは、ユーザのルックアップ語義〔検索意図/検索対象〕を表現不可なものとなり、負のインスタンスに該当する。それに対して、当該サンプル画像に対応する訓練パッケージも負の訓練パッケージであり、当該サンプル画像は負のサンプル画像と呼ばれても良い。   The training instance includes a positive instance and a negative instance. The positive instance can express the user's lookup meaning (search intention / search target), and the negative instance cannot express the user's lookup meaning. Training packages can be divided into positive training packages and negative training packages. A positive training package contains at least one positive instance. All instances included in the negative training package are negative instances. For example, if the user tries to search for an image with a tiger, the sample image provided may be an image with a tiger, but the image may contain some background, such as trees, lawn, etc. There is also sex. That is, in the sample image, tigers are actually displayed only in some areas, and trees, lawns, and the like are displayed in other areas. In this way, when performing segmentation on the sample image, tiger patterns are displayed in some areas, while only trees, lawns, etc. are displayed in some areas. is there. Since the user's lookup semantics [search intention / search target] should search for images with tigers, for the sample image, the instance corresponding to the region with the pattern of tigers is a positive instance, An instance corresponding to a certain area such as lawn is a negative instance. Since the training package corresponding to the sample image includes both positive and negative instances, the training package is a positive training package. The sample image may be referred to as a positive sample image. If the user wants to search is an image with a tiger, but all the sample images provided are patterns such as trees, lawns, etc. The lookup meaning [search intention / search target] cannot be expressed, and corresponds to a negative instance. On the other hand, the training package corresponding to the sample image is also a negative training package, and the sample image may be referred to as a negative sample image.

サンプル画像は、検索を開始する際にユーザにより提供されるものであっても良く、検索中に検索システムの提示でユーザにより選択されるものであっても良い。サンプル画像は複数あっても良い。更に、正のサンプル画像だけではなく、負のサンプル画像も提供されても良い。それと共に、ユーザはシステムにどれが正のサンプル画像であるか、どれが負のサンプル画像であるかを通知すべきである。それに対して、検索システムがサンプル画像に対して領域分割を行った後に、どの訓練パッケージが正のものであるか、どの訓練ペッケージが負のものであるかを了解することもできる。しかし、システムは、正の訓練パッケージにおけるインスタンスを取得した直後には、正の訓練パッケージにおいてどれが正のインスタンスであるか、どれが負のインスタンスであるかを知らず、解析処理をしたうえでインスタンスのレベルの情報を得なければならない。従って、サンプル画像は訓練画像と呼ばれる。即ち、画像検索を行うために、まずサンプル画像におけるインスタンスに基づいて訓練を行って使用可能な情報を取得する必要がある。これにより、更に後続の検索処理を完成させることができる。   The sample image may be provided by the user when starting the search, or may be selected by the user by presenting the search system during the search. There may be a plurality of sample images. Furthermore, not only positive sample images but also negative sample images may be provided. Along with that, the user should inform the system which are positive sample images and which are negative sample images. In contrast, after the search system has performed region segmentation on the sample image, it can also understand which training packages are positive and which training packages are negative. However, immediately after obtaining an instance in the positive training package, the system does not know which is a positive instance or which is a negative instance in the positive training package, You have to get the level information. Therefore, the sample image is called a training image. That is, in order to perform an image search, first, it is necessary to perform training based on an instance in a sample image and acquire usable information. Thereby, further subsequent search processing can be completed.

検索システムは、画像データベースからユーザのルックアップ語義に該当する画像を選択する。なお、画像データベースには各種の画像が含まれている。これらの画像はテスト画像である。マルチインスタンスによる画像検索においては、テスト画像に領域分割を行う必要もある。分割した領域はテストインスタンスと呼ばれる。それに対して、一つのテスト画像内のテストインスタンスが一つのテストパッケージを構成する。   The search system selects an image corresponding to the user's lookup semantics from the image database. Note that the image database includes various images. These images are test images. In multi-instance image retrieval, it is also necessary to divide the test image into regions. The divided area is called a test instance. In contrast, a test instance in one test image constitutes one test package.

以下に本発明による実施例に提供される画像検索方法について詳細に説明する。   The image search method provided in the embodiment according to the present invention will be described in detail below.

図1を参照すると、本発明による実施例により提供される、マルチインスタンス学習による検索方法は、以下のようなステップを含む。   Referring to FIG. 1, a search method using multi-instance learning provided by an embodiment according to the present invention includes the following steps.

S101:訓練パッケージ及び訓練パッケージにおける訓練インスタンスを取得する。前記訓練パッケージには正の訓練パッケージが含まれる。   S101: A training package and a training instance in the training package are acquired. The training package includes a positive training package.

上で説明したように、訓練パッケージはユーザにより提供されるものであっても良い。たとえば、ユーザは、画像検索を開始する際に、一つ又は複数の画像を選択してサンプル画像とすることができる。検索システムがこれらのサンプル画像に対して領域分割を行うことにより、領域のそれぞれが一つの訓練インスタンスに対応し、一つのサンプル画像が一つの訓練パッケージに対応する。本発明の実施例において、訓練パッケージには、少なくとも正の訓練パッケージが含まれる。勿論、訓練パッケージは、より良い検索結果を得るために、正の訓練パッケージだけではなく、負の訓練パッケージを含んでも良い。つまり、ユーザはサンプル画像を提供する時に、正のサンプル画像だけではなく、負のサンプル画像を提供することもできる。   As explained above, the training package may be provided by the user. For example, when starting an image search, the user can select one or a plurality of images as sample images. The search system performs region segmentation on these sample images, so that each region corresponds to one training instance, and one sample image corresponds to one training package. In an embodiment of the invention, the training package includes at least a positive training package. Of course, training packages may include not only positive training packages but also negative training packages in order to obtain better search results. That is, when providing a sample image, the user can provide not only a positive sample image but also a negative sample image.

S102:前記正の訓練パッケージにおける訓練インスタンス毎に重みを生成する。当該重みの絶対的な大きさは、対応する訓練インスタンスがユーザのルックアップ語義を表現可能な度合いを表す。   S102: A weight is generated for each training instance in the positive training package. The absolute magnitude of the weight represents the degree to which the corresponding training instance can represent the user's lookup semantics.

本発明の実施例においては、正の訓練パッケージから限定された数量の正のインスタンスを選択することなく、正の訓練パッケージにおける訓練インスタンス毎に重みを生成する。当該重みは対応する訓練インスタンスがユーザのルックアップ語義を表現可能な度合いを表す。ここでは、本発明の実施例において、当該重みの絶対的な大きさは、前記のユーザのルックアップ語義を表現可能な度合いを表すことができる。つまり、正の訓練パッケージにおけるあるインスタンスが確かに正のインスタンスであれば、そのパッケージに対して生成される重みは負のインスタンスの重みより大きくなり、且つその重みそのものが正の値である。   In an embodiment of the present invention, a weight is generated for each training instance in the positive training package without selecting a limited number of positive instances from the positive training package. The weight represents the degree to which the corresponding training instance can represent the user's lookup semantics. Here, in the embodiment of the present invention, the absolute magnitude of the weight can represent the degree that the user's lookup meaning can be expressed. That is, if an instance in a positive training package is indeed a positive instance, the weight generated for that package is greater than the weight of the negative instance, and the weight itself is a positive value.

S103:訓練パッケージ及びテストパッケージにおける全てのインスタンスに対して、前記正の訓練パッケージにおける各訓練インスタンスの重みを用いて各テストインスタンスのソートスコア〔順位付けに使われるスコア〕を取得する。   S103: For all instances in the training package and the test package, a sort score (score used for ranking) of each test instance is acquired using the weight of each training instance in the positive training package.

正の訓練パッケージにおける訓練インスタンスに対してそれぞれの重みを取得した後に、訓練パッケージ及びテストパッケージにおける全てのインスタンスに対して、全てのインスタンスの間の類似度及び前記正の訓練パッケージにおける各訓練インスタンスの重みに基づいて各テストインスタンスのソートスコアを取得することができる。即ち、正の訓練パッケージにおける各インスタンスの重みは、テストパッケージにおけるテストインスタンスについてソートスコアを算出する過程に応用される。   After obtaining the respective weights for the training instances in the positive training package, for all instances in the training package and the test package, the similarity between all instances and for each training instance in the positive training package A sort score for each test instance can be obtained based on the weight. That is, the weight of each instance in the positive training package is applied to the process of calculating the sort score for the test instance in the test package.

言い換えれば、一般的な検索方法は、正の訓練パッケージから幾つかの情報を取得した後に、これらの情報を用いてテストパッケージからユーザのルックアップ語義〔検索意図/検索対象〕を表現するパッケージを検索するものである。これらの情報は、例えばインスタンスのソートスコアである。従来の方法においては、ソートスコアは相対的な値であり、インスタンスがユーザのルックアップ語義に合致する度合いを直接に表現することができない。本発明の実施例においては、前記ソートスコアの代わりに、正の訓練パッケージにおける各インスタンスの重みを用いることにより、インスタンスがユーザのルックアップ語義に合致する度合いを直接に表現することができる。   In other words, in a general search method, after acquiring some information from a positive training package, a package that expresses the user's lookup semantics (search intention / search target) from the test package using the information is used. Search. These pieces of information are, for example, sort scores of instances. In the conventional method, the sort score is a relative value, and the degree to which the instance matches the user's lookup semantics cannot be expressed directly. In an embodiment of the present invention, instead of the sort score, the weight of each instance in the positive training package can be used to directly express the degree to which the instance matches the user's lookup semantics.

S104:テストパッケージにおける各テストインスタンスのソートスコアに基づいて各テストパッケージのソートスコアを特定し、前記テストパッケージのソートスコアに基づいて検索結果を特定する。   S104: The sort score of each test package is specified based on the sort score of each test instance in the test package, and the search result is specified based on the sort score of the test package.

各テストインスタンスのソートスコアが取得された後に、テストインスタンスのソートスコアに基づいてテストパッケージのソートスコアを特定することができる。例えば、あるテストパッケージについて、該テストパッケージ中の各テストインスタンスのソートスコアを平均した値を当該テストパッケージのソートスコアとすることができる。勿論、一つのテストパッケージにおいて一般的に一つ又は少数のインスタンスのみが正のインスタンスである可能性があるため、前記の平均値を取る方法を採用してテストパッケージのソートスコアを取得すれば、テストパッケージのソートスコアが低くなる恐れがある。テストパッケージのソートスコアの適正性を向上させるために、当該テストパッケージにおける各テストインスタンスのソートスコアの最大値を当該テストパッケージのソートスコアとしても良い。   After the sort score for each test instance is obtained, the sort score for the test package can be identified based on the sort score for the test instance. For example, for a test package, a value obtained by averaging the sort scores of the test instances in the test package can be used as the sort score of the test package. Of course, in general, only one or a small number of instances may be positive instances in one test package, so if the test package sort score is obtained using the above average method, Test package sort score may be low. In order to improve the appropriateness of the sort score of the test package, the maximum value of the sort score of each test instance in the test package may be used as the sort score of the test package.

各テストパッケージのソートスコアを取得した後に、それに基づいてユーザに検索結果を提供することができる。例えば、ソートスコアの順位が上位の予め設けられた数のテストパッケージに対応する画像をユーザに返してもよいし、あるいは、ソートスコアに従って各テストパッケージをソートした後に、当該順序に従ってテストパッケージに対応する画像をユーザに順次提供する等のようにしても良い。   After obtaining the sort score for each test package, search results can be provided to the user based thereon. For example, images corresponding to a predetermined number of test packages with higher ranks in the sort score may be returned to the user, or after each test package is sorted according to the sort score, it corresponds to the test package according to the order. The images to be performed may be sequentially provided to the user.

要するに、画像検索を行う過程において、正の訓練パッケージにおける訓練インスタンス毎に重みを生成することができる。当該重みの絶対的な大きさは対応する訓練インスタンスがユーザのルックアップ語義を表現可能な度合いを表す。このように、最後にテストパッケージにおける各テストインスタンスのソートスコアを算出する際に、正の訓練パッケージにおける訓練インスタンスに対して、それぞれの重みをその初期ラベルとし、最終的に各テストインスタンスのソートスコアに基づいてテストパッケージのソートスコアを取得して検索結果を与えることができる。以上のように、本発明の実施例において、正の訓練パッケージから限定された数量の正のインスタンスを選択することを意図することなく、正の訓練パッケージにおけるインスタンス毎にそれぞれの重みを算出し、当該重みの絶対的な大きさで各インスタンスとユーザのルックアップ語義との一致性を表すことにより、各正の訓練パッケージにおける各インスタンスの重みに基づいてテストパッケージにおける各テストインスタンスのソートスコアを取得する。このように、正の訓練パッケージにおける各訓練インスタンスにより提供される情報が十分に利用されることにより、検索の性能が向上される。   In short, in the process of performing the image search, a weight can be generated for each training instance in the positive training package. The absolute magnitude of the weight represents the degree to which the corresponding training instance can represent the user's lookup semantics. Thus, when the sort score of each test instance in the test package is finally calculated, the weight of each training instance in the positive training package is set as the initial label, and finally the sorting score of each test instance is calculated. Based on the test package, you can get the sort score of the test package and give the search result. As described above, in the embodiment of the present invention, each weight is calculated for each instance in the positive training package without intending to select a limited number of positive instances from the positive training package. Obtain the sort score of each test instance in the test package based on the weight of each instance in each positive training package by representing the consistency between each instance and the user's lookup semantics with the absolute magnitude of the weight To do. In this way, the search performance is improved by fully utilizing the information provided by each training instance in the positive training package.

具体的に実現するにあたって、正の訓練パッケージにおける訓練インスタンス毎に前記重みを生成する方法は多種ある。以下に一つの実現手段について詳細に説明する。図2を参照すると、以下のようなステップを含んでも良い。   In concrete implementation, there are various methods for generating the weight for each training instance in the positive training package. One implementation means will be described in detail below. Referring to FIG. 2, the following steps may be included.

S201:正の訓練パッケージにおける訓練インスタンスの初期重みを取得する。   S201: Obtain an initial weight of a training instance in a positive training package.

なお、正の訓練パッケージにおける訓練インスタンスの初期重みは、予めプロファイルに設定可能である。これにより、プロファイルを読み取る手段により、システムに当該初期重みを取得させることができる。例えば、統一的に10に設置しても良い(勿論その他の値であっても良いが、一般的に正の値である)。   The initial weight of the training instance in the positive training package can be set in the profile in advance. Thereby, the system can acquire the initial weight by means of reading the profile. For example, it may be installed uniformly at 10 (of course other values may be used, but generally a positive value).

S202:訓練パッケージ及び訓練パッケージにおける訓練インスタンスを取得し、訓練インスタンス同士の類似度に基づいて、グラフによるアルゴリズム(後述)を採用して学習を行って、各訓練インスタンスのソートスコアを取得する。   S202: Acquire a training package and a training instance in the training package, and learn using a graph algorithm (described later) based on the similarity between the training instances to acquire a sort score for each training instance.

訓練パッケージ及び訓練インスタンスが取得された後に、グラフによるアルゴリズムを採用して学習を行って各訓練インスタンスのソートスコアを取得することができる。なお、学習中に主に訓練インスタンス同士の類似度に基づいてグラフによる学習を行う。   After the training package and the training instance are acquired, learning can be performed by employing a graph algorithm to acquire the sort score of each training instance. During learning, learning by a graph is performed mainly based on the similarity between training instances.

ここで、グラフによるアルゴリズムに基づいて学習を行うことによって各訓練インスタンスのソートスコアを取得する過程は、従来の技術であり、本発明の要点ではない。従って、ここでは簡単に説明するにとどめる。   Here, the process of acquiring the sort score of each training instance by performing learning based on an algorithm based on a graph is a conventional technique and is not the main point of the present invention. Therefore, only a brief description will be given here.

以下の方法でグラフによる学習を行うことができる。即ち、まず重み付きグラフを構築する。同グラフにおけるノードは訓練パッケージにおける全ての訓練インスタンスに対応する。つまり、2つの訓練パッケージがあり、訓練パッケージのそれぞれに五つの訓練インスタンスがあることを仮定すれば、構築されたグラフには10個のノードが存在する。同グラフにおける辺〔エッジ〕の重みが、その辺と接続する2つのノード同士の類似度を表す。次に、グラフによるアルゴリズムを採用して学習を行う。アルゴリズムが終了した時点で、それぞれの訓練インスタンスが一つのソートスコアに対応することができる。   Learning by graphs can be performed by the following method. That is, a weighted graph is first constructed. The nodes in the graph correspond to all training instances in the training package. That is, assuming that there are two training packages and each training package has five training instances, there are 10 nodes in the constructed graph. The weight of an edge in the graph represents the similarity between two nodes connected to the edge. Next, learning is performed using an algorithm based on a graph. At the end of the algorithm, each training instance can correspond to one sort score.

なお、ノード間の類似度を算出する際、各訓練インスタンスから視覚特徴(一般的にベクトルの形式である)をそれぞれ抽出した後に、ベクトル計算の方法で二つずつの間の距離を算出することができる。ここでは、距離が小さいほど、類似度が高くなる。逆に、距離が大きいほど、類似度が低くなる。勿論、実際の応用において、視覚特徴を抽出する以外に、別途に各訓練インスタンスに関する特徴、例えば描画情報等を取得することもできる。また、これらの情報を訓練インスタンス同士の類似度の算出に加味することもできる。   Note that when calculating the similarity between nodes, the visual feature (generally in the form of a vector) is extracted from each training instance, and then the distance between the two is calculated using the vector calculation method. Can do. Here, the smaller the distance, the higher the similarity. Conversely, the greater the distance, the lower the similarity. Of course, in the actual application, in addition to extracting the visual features, it is also possible to separately acquire features relating to each training instance, such as drawing information. In addition, these pieces of information can be added to the calculation of the similarity between training instances.

以上に説明したように重み付きグラフを構築することは形象による説明方法である。コンピュータシステムにとっては、当該重み付きグラフに対応するデータはn×nの行列Sである。なお、nは訓練インスタンスの総数である。つまり、前記の例において、10個の訓練インスタンスがあれば、当該行列は10行10列を有し、i行目のj列目の要素Sijがi個目の訓練インスタンスとj個目の訓練インスタンスとの間の類似度に対応する。また、更に当該行列に対して行による正規化処理を行うこともできる。 As described above, constructing a weighted graph is an explanation method based on a figure. For the computer system, the data corresponding to the weighted graph is an n × n matrix S. Note that n is the total number of training instances. That is, in the above example, if there are 10 training instances, the matrix has 10 rows and 10 columns, and the element S ij of the i-th row and the j-th column is the i-th training instance and the j-th row. Corresponds to the similarity between training instances. Furthermore, normalization processing by rows can be performed on the matrix.

グラフによるアルゴリズムは多種の具体的な実現方法がある。例えば、一つの実施形態においては、以下のような方法で行うことができる。即ち、まず全ての訓練インスタンスに初期ラベルを設定する。例えば、訓練パッケージが全て正の訓練パッケージであれば、全ての訓練インスタンスの初期ラベルを1とすることができる。訓練パッケージに正の訓練パッケージと負の訓練パッケージとの両方があれば、正の訓練パッケージにおける全ての訓練インスタンスの初期ラベルを1とし、負の訓練パッケージにおける全ての訓練インスタンスの初期ラベルを−1とすることができる。次に、前に構築された重み付きグラフ上に初期ラベルをグローバルな安定性を有する状態になるまで伝送する。最終的にそれぞれの訓練インスタンスのソートスコアを取得することができる。コンピュータシステムにとっては、以上のような重み付きグラフ上でラベルを伝送する過程は、以下のような反復的な公式に従って達成することができる。
f(t+1)=αSf(t)+(1−α)y (1)
ただし、Sは前記の構築されたグラフに対応する正規化行列である。yは各訓練インスタンスの初期ラベルからなるラベルベクトルである。例えば、一つの正の訓練パッケージと一つの負の訓練パッケージがあり、訓練パッケージのそれぞれに五つのインスタンスがあるとすれば、yは(1,1,1,1,1,−1,−1,−1,−1,−1)Tとなる。α(0<α<1)は線形的な組合せ係数である。f(t)もベクトルであり、その中の要素数は訓練インスタンスの数と同じであり、各要素がt回目の反復工程後の各訓練インスタンスが対応するラベルの値に対応する。例えば、f(1)は1回目の反復工程後の各訓練インスタンスのラベルからなるベクトルを表す。初期状態において、f(0)は任意の値を取っても良く、一つの具体的な実施形態ではf(0)をyに等しくすることもできる。
There are many specific implementation methods for graph algorithms. For example, in one embodiment, the following method can be used. That is, first, initial labels are set for all training instances. For example, if all training packages are positive training packages, the initial label for all training instances can be 1. If a training package has both a positive training package and a negative training package, the initial label of all training instances in the positive training package is 1, and the initial label of all training instances in the negative training package is -1. It can be. The initial label is then transmitted on the previously constructed weighted graph until it has global stability. Finally, the sort score of each training instance can be obtained. For a computer system, the process of transmitting the labels on the weighted graph as described above can be achieved according to the following iterative formula.
f (t + 1) = αSf (t) + (1−α) y (1)
Where S is a normalization matrix corresponding to the constructed graph. y is a label vector composed of initial labels for each training instance. For example, if there is one positive training package and one negative training package, each of which has five instances, y is (1,1,1,1,1, −1, −1 , -1, -1, -1) T. α (0 <α <1) is a linear combination coefficient. f (t) is also a vector, the number of elements in it is the same as the number of training instances, and each element corresponds to the value of the label corresponding to each training instance after the tth iteration. For example, f (1) represents a vector consisting of labels for each training instance after the first iteration. In the initial state, f (0) may take any value, and in one specific embodiment f (0) may be equal to y.

つまり、(1)式を利用して複数回の反復工程を行うことができる。反復的な過程が収束することは、前記重み付きグラフ上で伝送する際にグローバルな安定性を有する状態になることに対応し、その後に対応するf(t)を取得し、その中の各要素の値に基づいて各訓練インスタンスのソートスコアを取得することができる。なお、具体的な実現において、以下の方法で反復的な過程が収束したか否かを判断することができる。即ち、f(t)とf(t−1)とが非常に接近したか否かを判断する(両者の距離を算出して、ある閾値と比較することができる)。この判断の結果が肯定の場合に収束したと判断し、反復的な過程を終了すれば良い。勿論、反復回数等を予め設ける方法で実現しても良く、ここでは詳細な説明を省略する。   That is, iterative steps can be performed a plurality of times using equation (1). The convergence of the iterative process corresponds to the state having global stability when transmitting on the weighted graph, and then obtains the corresponding f (t), A sort score for each training instance can be obtained based on the value of the element. In a specific implementation, it can be determined whether the iterative process has converged by the following method. That is, it is determined whether or not f (t) and f (t−1) are very close (the distance between the two can be calculated and compared with a certain threshold value). If the result of this determination is affirmative, it is determined that the process has converged, and the iterative process may be terminated. Of course, it may be realized by a method in which the number of repetitions is provided in advance, and detailed description thereof is omitted here.

なお、前記(1)式を採用して反復処理を行うことは、下記の最小化すべき関数を最小化する必要があるからである。

Figure 2013004093
The reason why the iterative process is performed by using the formula (1) is because it is necessary to minimize the following function to be minimized.
Figure 2013004093

上記の最小化すべき関数は二つの拘束関係からなる。一つ目の拘束関係

Figure 2013004093
は重み付きグラフにより得られた平滑性拘束条件(smoothness constraint)である。fi、fjはfの中のi項目及びj項目である。即ち、類似した訓練インスタンスに対応するソートスコアの差異は大きくないことが期待される。二つ目の拘束関係
Figure 2013004093
は、初期ラベルによるフィッテング〔適合〕拘束条件(fitting constraint)である。即ち、最終的なソートスコアと初期ラベルとの差異が大きくないことが期待される。ただし、μは2つの項目の重要性のバランスを取るための重みである。(1)式におけるαはμで算出することができる。即ちα=1/(1+μ)。このように、上記の関数を最適化することにより、(1)式における反復的な式を得ることができる。言い換えれば、(1)式を用いて反復を行うことにより、最終的なソートスコアに(2)式における拘束条件を満足させることができる。そして、このように算出されたソートスコアの高さは、対応する訓練インスタンスがユーザのルックアップ語義〔検索意図、検索対象〕を表現可能な度合いを表すことができる。即ち、訓練インスタンスのソートスコアが高いほど、ユーザのルックアップ語義を表すことができる。 The function to be minimized consists of two constraint relationships. First restraint relationship
Figure 2013004093
Is the smoothness constraint obtained by the weighted graph. f i and f j are i and j items in f. That is, it is expected that the difference in the sort scores corresponding to similar training instances is not large. Second constraint relationship
Figure 2013004093
Is the fitting constraint with the initial label. That is, it is expected that the difference between the final sort score and the initial label is not large. However, μ is a weight for balancing the importance of the two items. Α in the equation (1) can be calculated by μ. That is, α = 1 / (1 + μ). Thus, by optimizing the above function, an iterative formula in the formula (1) can be obtained. In other words, by performing the iteration using the equation (1), the final sort score can satisfy the constraint condition in the equation (2). The height of the sort score calculated in this way can represent the degree to which the corresponding training instance can express the user's lookup semantics (search intention, search target). That is, the higher the sort score of the training instance, the more the user's lookup meaning can be expressed.

ここで、具体的に実現する際、訓練インスタンスの数は一般的に大きくないため、(1)式の解析的な解を直接に用いて最終的な結果を取得しても良い。
f*=(1−α)(I−αS)-1y (3)
ただし、Iは単位行列である。
Here, since the number of training instances is generally not large when specifically realized, the final result may be obtained by directly using the analytical solution of equation (1).
f * = (1−α) (I−αS) −1 y (3)
Here, I is a unit matrix.

ステップS203:訓練パッケージにおける各訓練インスタンスの正の近隣するインスタンスセット(後述)を特定し、各訓練インスタンスについて、正の近隣するインスタンスセットにおける各訓練インスタンスのソートスコアに基づいて、正の近隣するインスタンスセットにおける訓練インスタンスの重みを変更し、これにより正の訓練パッケージにおける各訓練インスタンスの最終重みを取得する。なお、前記訓練インスタンスの正の近隣するインスタンスセットは、当該訓練インスタンスと予め設けられた類似関係を有する正の訓練パッケージにおける訓練インスタンスにより構成される。   Step S203: Identify a positive neighboring instance set (discussed below) for each training instance in the training package, and for each training instance, a positive neighboring instance based on the sort score of each training instance in the positive neighboring instance set Change the weight of the training instance in the set, thereby obtaining the final weight of each training instance in the positive training package. In addition, the positive neighboring instance set of the training instance is configured by a training instance in a positive training package having a similar relationship provided in advance with the training instance.

ステップS202において、各訓練インスタンスのソートスコアを算出して各訓練インスタンスがユーザのルックアップ語義を表現可能な度合いを表す。しかし、本発明を実現するにあたって、当該方法により算出されたソートスコアが一般的に相対性を有する、即ち各訓練インスタンスのソートスコアの相対的な大きさが意義を有することが本発明者により発見された。例えば、前記の方法により得られたソートスコアでは、ある正の訓練パッケージにおける各訓練インスタンスのソートスコアが何れも負の値である可能性がある。なお、あるインスタンスが確かに正のインスタンスであるとすれば、そのインスタンスがソートスコアに表現される際に負のインスタンスのソートスコアよりも確かに高い可能性がある。だが、そのものが負の値であると、その絶対的な大きさはあるべき意義を失ってしまっていた。ところが、実際に正の訓練パッケージであるからには、その中の少なくとも一つの訓練インスタンスが正のインスタンスであり、正のインスタンスのソートスコアは正の値であるだろう。これこそ、後続の検索に寄与することができる。従って、当該負の値を直接に利用して後続の検索過程を行うと、検索結果の有効性を損なう恐れがある(後続の検索過程とは、訓練インスタンスに初期ラベルを付与する必要があることを指し、ステップS202に得られたソートスコアを直接に利用して値を付与すれば、正の訓練パッケージにおける正のインスタンスの初期ラベルに負の値を付与する恐れがある)。従って、本発明の実施例においては、訓練インスタンスのソートスコアが得られた後に、更なる処理が必要である。   In step S202, the sort score of each training instance is calculated to indicate the degree to which each training instance can express the user's lookup semantics. However, in realizing the present invention, the present inventors have found that the sort score calculated by the method is generally relativistic, that is, the relative magnitude of the sort score of each training instance is significant. It was done. For example, in the sort score obtained by the above method, the sort score of each training instance in a certain positive training package may be negative. Note that if an instance is indeed a positive instance, it may be certainly higher than the sort score of a negative instance when that instance is represented in the sort score. However, if it is negative, its absolute size has lost its significance. However, since it is actually a positive training package, at least one training instance in it will be a positive instance, and the sort score of the positive instance will be a positive value. This can contribute to subsequent searches. Therefore, if the negative search value is directly used to perform a subsequent search process, the validity of the search results may be impaired. (The subsequent search process is the need to assign an initial label to a training instance. If a value is assigned by directly using the sort score obtained in step S202, a negative value may be assigned to the initial label of the positive instance in the positive training package). Thus, in an embodiment of the present invention, further processing is required after the sort score for the training instance is obtained.

前記の更なる処理を行うために、多種の方法が採用可能である。例えば、簡単には、各訓練インスタンスのソートスコアが算出された後に、正の訓練パッケージにおいて少なくとも一つの訓練インスタンスのソートスコアが正の値となるように、各ソートスコアにあるオフセットを加える。これにより、一つの正の訓練パッケージにおける全ての訓練インスタンスのソートスコアが何れも負の値であることを回避することができる。   Various methods can be employed to perform the further processing. For example, simply, after the sort score of each training instance is calculated, an offset in each sort score is added so that the sort score of at least one training instance in the positive training package has a positive value. As a result, it is possible to avoid that the sort scores of all the training instances in one positive training package are all negative values.

あるいは、本発明の実施例において、以下のような方法を採用して前記の処理過程を実現しても良い。即ち、先ず各訓練インスタンスに対して各訓練インスタンスの正の近隣するインスタンスセットをそれぞれ探す。ある訓練インスタンスLについて、訓練インスタンスLの正の近隣するインスタンスセットとは、そのセットが正の訓練パッケージにおける訓練インスタンスにより構成され、且つそのセットにおける各インスタンスが当該訓練インスタンスLとある隣接関係/類似関係を有するものである。具体的な実現においては、どのような隣接関係/類似関係を満足する必要があるかについて予め設定されていても良く、例えば二つの訓練インスタンスの間の類似度がある閾値よりも大きいか否かを簡単に設定することができる。あるいは、本発明の実施例において、ステップS202で構築された重み付きグラフ中の遷移関係に基づいて算出されても良い。   Alternatively, in the embodiment of the present invention, the above process may be realized by employing the following method. That is, first, each training instance is searched for a positive neighboring instance set of each training instance. For a training instance L, a positive neighboring instance set of a training instance L is an adjacency / similarity in which the set consists of training instances in a positive training package and each instance in the set is with the training instance L It has a relationship. In a concrete realization, what kind of adjacency / similarity needs to be satisfied may be set in advance, for example, whether the similarity between two training instances is greater than a certain threshold Can be set easily. Or in the Example of this invention, you may calculate based on the transition relationship in the weighted graph constructed | assembled by step S202.

なお、重み付きグラフ中の遷移関係に基づいて算出する際に、ノードの間の一次又は高次の伝達関係に基づいてノード間の類似関係を特定することができる。ここで、一次の伝達関係は二つの訓練インスタンス間の類似度を指す。二次の伝達関係は、インスタンス1とインスタンス2との間に非常に高い類似度を有し、且つインスタンス2とインスタンス3との間に比較的高い類似度を有する場合に、インスタンス1とインスタンス3との類似度を直接に算出した場合にスコアが低くなっても、インスタンス1とインスタンス3がある類似関係を満足すると考えられることを指す。その他はこれによって類推すれば良い。   In addition, when calculating based on the transition relationship in the weighted graph, the similarity relationship between the nodes can be specified based on the primary or higher order transmission relationship between the nodes. Here, the primary transmission relationship indicates the similarity between two training instances. A secondary transfer relationship has a very high similarity between instance 1 and instance 2 and a relatively high similarity between instance 2 and instance 3, and instance 1 and instance 3 When the degree of similarity is directly calculated, the instance 1 and the instance 3 are considered to satisfy a certain similarity even if the score is low. Others can be inferred from this.

ここでは、各訓練インスタンスにそれぞれ正の近隣するインスタンスセットが見つかるわけではない。つまり、ある訓練インスタンスに対し、その正の近隣するインスタンスセットが空であっても良い。   Here, a positive neighboring instance set is not found for each training instance. That is, for a training instance, its positive neighbor instance set may be empty.

本発明の実施例において、予め正の訓練パッケージにおける各訓練インスタンスの初期重みが知られている。従って、各訓練インスタンスの正の近隣するインスタンスセットが得られた後に、セット内のインスタンスの重みを調整することができる。同一の正の近隣するインスタンスセットにおける各インスタンスについて、具体的に調整を行う際に、多種の調整方針がある。例えば、一つの方針においては、各訓練インスタンスのソートスコアの高さに応じて各訓練インスタンスの調整幅を特定し、例えばソートスコアが最も高い訓練インスタンスの重みは1だけ増大し、二番目に高いものは0.8だけ増大し、三番目に高いものは0.5だけ増大する等のようにしても良い。勿論、その他の調整方針において、ソートスコアの最も高い一つの訓練インスタンスに対して調整を行っても良く、ここでは列挙しない。   In an embodiment of the present invention, the initial weight of each training instance in the positive training package is known in advance. Thus, after the positive neighboring instance set for each training instance is obtained, the weights of the instances in the set can be adjusted. There are a variety of adjustment policies when specifically adjusting for each instance in the same positive neighboring instance set. For example, in one policy, the adjustment range of each training instance is specified according to the height of the sort score of each training instance. For example, the weight of the training instance having the highest sort score is increased by 1, and is the second highest. Things may increase by 0.8, the third highest may increase by 0.5, and so on. Of course, in other adjustment policies, the adjustment may be performed on one training instance having the highest sort score, which is not listed here.

ここで、訓練パッケージにおいて正の訓練パッケージと負の訓練パッケージとの両方がある場合に、訓練インスタンスの重みを具体的に調整する際、正の訓練パッケージにおける訓練インスタンスについては、その正の近隣するインスタンスセットにおけるインスタンスの重みを大きくする調整を行い、負の訓練パッケージにおける訓練インスタンスについては、その正の近隣するインスタンスセットにおける重みを小さくする調整を行うことができる。つまり、負の訓練パッケージにおける訓練インスタンスは、絶対に正のインスタンスではないため、正の訓練パッケージにおけるあるインスタンスがそれと類似関係を有すれば、当該正の訓練パッケージにおけるインスタンスが正のインスタンスではない可能性もあるため、その重みを小さくすることが合理的である。   Here, when there is both a positive training package and a negative training package in the training package, when specifically adjusting the weight of the training instance, for the training instance in the positive training package, its positive neighbor Adjustments can be made to increase the weight of the instances in the instance set, and for training instances in the negative training package, adjustments can be made to decrease the weight in the positive neighboring instance set. That is, a training instance in a negative training package is never a positive instance, so if an instance in a positive training package has a similar relationship to it, the instance in that positive training package may not be a positive instance Therefore, it is reasonable to reduce the weight.

正の訓練パッケージにおける訓練インスタンス(説明を容易にするために、正の訓練パッケージにおけるある訓練インスタンスAを例とする)について、Aが正のインスタンスであるか、負のインスタンスであるかについて不明であるが、正のインスタンスである可能性が存在する。従って、正の訓練パッケージにおけるその他のインスタンスがそれと類似関係を有し、即ちこれらのその他のインスタンスが訓練インスタンスAの正の近隣するインスタンスセットを構成する場合に、訓練インスタンスAによりその正の近隣するインスタンスセットにおけるインスタンスの重みを大きくすることができる。その結果、二つの可能性が存在する。一つの可能性としては、当該訓練インスタンスAが確かに正のインスタンスである場合、その正の近隣するインスタンスセットにおけるインスタンスが正のインスタンスである可能性が高いため、その重みを大きくすることが合理的である。もう一つの可能性としては、訓練インスタンスAが正の訓練パッケージに位置するが、負のインスタンスである場合、その正の近隣するインスタンスセットにおけるインスタンスが正のインスタンスである可能性が低いため、その重みを大きくすることは一見して不合理である。しかし、ここで、全ての訓練インスタンスのそれぞれに各自の正の近隣するインスタンスセット(勿論、セットが空の場合もある)が決定されており、正の訓練パッケージにおける同一の訓練インスタンスが異なる複数の正の近隣するインスタンスセットに位置する可能性がある。従って、前記の二種目の場合において、訓練インスタンスAの正の近隣するインスタンスセットにおけるインスタンスがある訓練インスタンスB又はその他のインスタンスの正の近隣するインスタンスセットに位置し、訓練インスタンスB又はその他のインスタンスが負の訓練パッケージにおけるインスタンスである可能性がある。従って、更にその正の近隣するインスタンスセットにおけるインスタンスの重みを小さくする操作を行うことになる。これにより、その前に大きくされた重みを小さくすることができる。つまり、正の訓練パッケージにおける訓練インスタンスは、複数回の重み調整操作が行われる可能性があり、あるものは一貫して大きくされ、あるものは一貫して小さくされ、あるものが一部的に大きくされ且つ一部的に小さくされ、最終的に正の訓練パッケージにおける各訓練インスタンスに各自の重みを有させる。   For a training instance in a positive training package (for ease of explanation, let's take a training instance A in a positive training package as an example), it is unknown whether A is a positive instance or a negative instance. There is a possibility that it is a positive instance. Thus, if other instances in the positive training package have a similar relationship to it, i.e., if these other instances constitute a set of positive neighboring instances of training instance A, then training instance A will have its positive neighbors. The instance weight in the instance set can be increased. As a result, there are two possibilities. One possibility is that if the training instance A is indeed a positive instance, it is likely that an instance in the positive neighboring instance set is a positive instance, so it is reasonable to increase its weight. Is. Another possibility is that if training instance A is located in a positive training package, but is a negative instance, it is unlikely that an instance in its positive neighboring instance set is a positive instance, so that At first glance, it is unreasonable to increase the weight. However, here each positive training instance has its own set of positive neighboring instances (of course the set may be empty), and the same training instance in the positive training package has different May be located in a positive neighboring instance set. Thus, in the second case above, instances in training instance A's positive neighboring instance set are located in training instance B or other instance's positive neighboring instance set, and training instance B or other instance is May be an instance in a negative training package. Therefore, an operation of further reducing the weight of the instance in the positive neighboring instance set is performed. Thereby, the weight increased before that can be reduced. This means that training instances in a positive training package may be subject to multiple weight adjustment operations, some are consistently larger, some are consistently smaller, and some are partially It is increased and partially reduced, and finally each training instance in the positive training package has its own weight.

また、訓練パッケージを構成するものが全て正の訓練パッケージである場合に、訓練インスタンスの重みを調整する際、具体的な調整操作は重みを大きくする操作であっても良い。ここで、この場合に、大きくするという操作のみを行えるが、各訓練インスタンスのソートスコアが異なり、且つ正の近隣するインスタンスセットに訓練インスタンスのそれぞれが位置する場合も異なるため、依然として正の訓練パッケージにおける各訓練インスタンスに異なる最終的重みを有させることもできる。ここで、正の訓練パッケージのみがある場合においても、得られた最終的重みが依然として正の訓練パッケージにおける各訓練インスタンスとユーザのルックアップ語義との一致度を表現可能である。これは、前に記載された「正のインスタンス同士が一般的に類似である」という特徴により決められ、ここでは詳しく説明しない。   Further, when all of the components constituting the training package are positive training packages, when adjusting the weight of the training instance, the specific adjustment operation may be an operation for increasing the weight. Here, in this case, only the operation of increasing can be performed, but the sort score of each training instance is different, and the case where each of the training instances is located in the positive neighboring instance set is also different, so that the positive training package still remains. Each training instance in can also have a different final weight. Here, even if there is only a positive training package, the final weight obtained can still represent the degree of matching between each training instance in the positive training package and the user's lookup semantics. This is determined by the previously described feature of “positive instances are generally similar” and will not be described in detail here.

以上の方法により、正の訓練パッケージにおける各訓練インスタンスに重みを生成することができる。次に、当該重みを用いて検索を行う際に、以下のようなステップを含んでも良い。   With the above method, a weight can be generated for each training instance in the positive training package. Next, when performing a search using the weight, the following steps may be included.

S204:訓練パッケージ及びテストパッケージにおける全てのインスタンスに対し、全てのインスタンス間の類似度に基づいて、グラフによるアルゴリズムを採用して学習を行って各テストインスタンスのソートスコアを取得する。なお、正の訓練パッケージにおける各訓練インスタンスの初期ラベルは前記最終的重みにより特定されたものである。   S204: For all instances in the training package and the test package, learning is performed using an algorithm based on a graph based on the similarity between all instances to obtain a sort score for each test instance. Note that the initial label of each training instance in the positive training package is specified by the final weight.

正の訓練パッケージにおける各インスタンスの重みが得られた後に、訓練パッケージ及びテストパッケージにおける全てのインスタンスに対し、各テストインスタンスのソートスコアを特定するように、グラフによるアルゴリズムに基づいて学習を行うことができる。なお、グラフによるアルゴリズムに基づいて学習を行う際に、ステップ202と同様に、先ず重み付きグラフを構築する。当該グラフにおいては、ノードが訓練パッケージ及びテストパッケージにおける全てのインスタンスに対応し、辺の重みがその辺と接続する二つのノード間の類似度を表す。ここで、図によるアルゴリズムに基づいて学習を行う際に、各インスタンスに初期ラベルを設定する必要がある(例えば、ステップS202において、正の訓練パッケージにおける全てのインスタンスの初期ラベルを1に設定し、負の訓練パッケージにおける全てのインスタンスの初期ラベルを−1に設定することができる)。本発明の実施例において、テストパッケージにおける各インスタンスにソートスコアを算出する必要がある場合に、訓練パッケージにおける正の訓練パッケージについて、ステップS203に得られた各自の最終的重みに基づいてその中のインスタンスの初期ラベルを特定することができる。   After the weight of each instance in the positive training package is obtained, learning can be performed based on a graph algorithm to specify the sort score of each test instance for all instances in the training package and test package. it can. When learning is performed based on a graph algorithm, a weighted graph is first constructed as in step 202. In the graph, the node corresponds to all instances in the training package and the test package, and the edge weight represents the similarity between two nodes connected to the edge. Here, when learning is performed based on the algorithm according to the figure, it is necessary to set an initial label for each instance (for example, in step S202, the initial labels of all instances in the positive training package are set to 1, The initial label for all instances in the negative training package can be set to −1). In the embodiment of the present invention, when it is necessary to calculate the sort score for each instance in the test package, the positive training package in the training package is determined based on the final weight obtained in step S203. You can specify the initial label of the instance.

つまり、ステップS203で正の訓練パッケージにおける各インスタンスに対する重みをそれぞれ算出し、ステップS204で訓練パッケージ及びテストパッケージにおける全てのインスタンスに基づいてグラフによるアルゴリズムの学習を行う必要がある場合に、算出された重みに基づいて正の訓練パッケージにおける各訓練インスタンスの初期ラベルを特定することができる。例えば、ステップS203で算出された正の訓練パッケージにおける各訓練インスタンスの重みに対して直接に正規化処理を行った後に、正規化処理された値を正の訓練パッケージにおける各訓練インスタンスの初期ラベルとすることができる。   That is, the weight for each instance in the positive training package is calculated in step S203, and calculated in step S204 when it is necessary to learn the algorithm based on the graph based on all the instances in the training package and the test package. An initial label for each training instance in the positive training package can be identified based on the weights. For example, after performing the normalization process directly on the weight of each training instance in the positive training package calculated in step S203, the normalized value is used as the initial label of each training instance in the positive training package. can do.

訓練パッケージに負の訓練パッケージがある場合、負の訓練パッケージにおける各訓練インスタンスの初期ラベルは依然として−1に設定されても良い。ステップS202と同様に、各インスタンスの初期ラベルを、グローバルな安定性を有する状態になるまで前に構築された重み付きグラフ上に伝送し、最終的に各テストインスタンスのソートスコアを得ることができる。コンピュータシステムにとっては、以上のようにラベルを重み付きグラフ上に伝送する過程は、以下の反復的な公式により完成することができる。
f(t+1)=Sf(t) (4)
ここで、Sは訓練パッケージ及びテストパッケージにおける全てのインスタンスに基づいて構築されたグラフに対応する正規化行列である。f(t)はベクトルであり、その中の要素数は訓練インスタンスとテストインスタンスとの数の合計値であり、各要素がt回目の反復工程後の各インスタンスの対応するラベルの値に対応する。例えば、f(1)は1回目の反復工程後の各インスタンスのラベルからなるベクトルを表す。初期状態において、f(0)は各インスタンスに対応する初期ラベルからなるベクトルであっても良い。反復過程が終了した時に、f(t)における各要素の値を各インスタンスのソートスコアとすることができる。
ここで、(4)式を用いて反復処理を行う際に、一回の反復工程が終了するたびに、f(t)のうちの各訓練インスタンスのラベルに新たな初期値を付与する。つまり、反復の過程において、訓練インスタンスのラベルはそのままで保持される、言い換えると、常に初期ラベルと等しい(ただし、正の訓練パッケージにおける訓練インスタンスのラベルが常にその前に算出された重み又は正規化処理された重みと等しい一方、負の訓練パッケージにおける訓練インスタンスのラベルは常に付与された初期値、例えば−1等と等しい)。勿論、一回の反復工程が終了するたびに、テストインスタンスのラベルが変わることになる。ところが、テストパッケージにおける各テストインスタンスの初期ラベルは任意に設定可能である。これは、最終的な算出結果がテストインスタンスの初期ラベルの値と関係ないからである。
If the training package has a negative training package, the initial label of each training instance in the negative training package may still be set to -1. Similar to step S202, the initial label of each instance can be transmitted on the previously constructed weighted graph until it has global stability, and finally the sort score of each test instance can be obtained. . For a computer system, the process of transmitting labels on a weighted graph as described above can be completed by the following iterative formula.
f (t + 1) = Sf (t) (4)
Here, S is a normalization matrix corresponding to a graph constructed based on all instances in the training package and the test package. f (t) is a vector, the number of elements in it is the total number of training instances and test instances, and each element corresponds to the value of the corresponding label in each instance after the tth iteration. . For example, f (1) represents a vector composed of labels of each instance after the first iteration process. In the initial state, f (0) may be a vector composed of initial labels corresponding to each instance. When the iterative process ends, the value of each element in f (t) can be used as the sort score for each instance.
Here, when the iterative process is performed using the equation (4), a new initial value is assigned to the label of each training instance in f (t) every time an iterative process is completed. That is, in the iteration process, the training instance label is retained as it is, in other words, always equal to the initial label (but the training instance label in the positive training package is always the previously calculated weight or normalization. While equal to the processed weight, the label of the training instance in the negative training package is always equal to the given initial value, eg −1). Of course, each time an iterative process is completed, the label of the test instance will change. However, the initial label of each test instance in the test package can be arbitrarily set. This is because the final calculation result is not related to the initial label value of the test instance.

また、ここで、前に説明したのと同様に、反復の方法で最終的なソートスコアを取得することなく、(4)式の解析的な解を直接に用いて最終的な結果を取得しても良い。その結果は、反復によるものと同じである。勿論、テストインスタンスの数が一般的に多くなると、解析的な解は、行列の逆を求める演算に係るため、反復の方法と比べて演算の複雑性が高くなる。また、ステップS204におけるグラフによる学習について、詳しく説明していない部分については前の説明を参照することができ、ここでは詳しく説明しない。   Also, as described above, without obtaining the final sort score by the iterative method, the final result is obtained by directly using the analytical solution of equation (4). May be. The result is the same as with iteration. Of course, when the number of test instances generally increases, the analytical solution involves an operation for obtaining the inverse of the matrix, so that the operation complexity becomes higher than the iterative method. In addition, regarding the learning by the graph in step S204, the previous description can be referred to for portions not described in detail, and will not be described in detail here.

S205:テストパッケージにおける各テストインスタンスのソートスコアに基づいて各テストパッケージのソートスコアを特定し、前記テストパッケージのソートスコアに基づいて検索結果を特定する。   S205: The sort score of each test package is specified based on the sort score of each test instance in the test package, and the search result is specified based on the sort score of the test package.

本発明の実施例は、提供されたマルチインスタンス学習による検索方法に対応して、マルチインスタンス学習による検索システムを提供する。図3を参照すると、当該システムは以下のものを備える。   The embodiment of the present invention provides a search system using multi-instance learning corresponding to the provided search method using multi-instance learning. Referring to FIG. 3, the system includes:

訓練パッケージ及び訓練パッケージにおける訓練インスタンスを取得するように構成される取得手段301を備える。前記訓練パッケージには正の訓練パッケージが含まれる。   The acquisition means 301 is configured to acquire a training package and a training instance in the training package. The training package includes a positive training package.

前記正の訓練パッケージにおける訓練インスタンスごとに重みを生成するように構成される訓練インスタンス重み生成手段302を備える。当該重みの絶対的な大きさは対応する訓練インスタンスがユーザのルックアップ語義を表現可能な度合いを表す。   It comprises training instance weight generation means 302 configured to generate a weight for each training instance in the positive training package. The absolute magnitude of the weight represents the degree to which the corresponding training instance can represent the user's lookup semantics.

訓練パッケージ及びテストパッケージにおける全てのインスタンスに対し、前記正の訓練パッケージにおける各訓練インスタンスの重みを用いて各テストインスタンスのソートスコアを取得するように構成されるテストインスタンスソートスコア取得手段303を備える。   Test instance sort score acquisition means 303 configured to acquire the sort score of each test instance using the weight of each training instance in the positive training package for all instances in the training package and the test package.

テストパッケージにおける各テストインスタンスのソートスコアに基づいて各テストパッケージのソートスコアを特定し、前記テストパッケージのソートスコアに基づいて検索結果を特定するように構成される検索結果特定手段304を備える。   Search result specifying means 304 configured to specify the sort score of each test package based on the sort score of each test instance in the test package and to specify the search result based on the sort score of the test package is provided.

なお、図4を参照すると、正の訓練パッケージにおける訓練インスタンスに重みを具体的に生成するにあたり、訓練インスタンス重み生成手段302は以下のものを備えても良い。   Referring to FIG. 4, in generating weights specifically for the training instances in the positive training package, the training instance weight generating unit 302 may include the following.

正の訓練パッケージにおける訓練インスタンスの初期重みを知るように構成される初期重みラーニングサブ手段3021を備える。   An initial weight learning sub-means 3021 configured to know the initial weight of the training instance in the positive training package is provided.

訓練インスタンス間の類似度に基づいて、グラフによるアルゴリズムを採用して学習を行って各訓練インスタンスのソートスコアを取得するように構成される訓練インスタンスソートスコア取得サブ手段3022を備える。   A training instance sort score acquisition sub-unit 3022 configured to acquire a sort score of each training instance by employing a graph algorithm based on the similarity between the training instances is provided.

訓練パッケージにおける各訓練インスタンスの正の近隣するインスタンスセットを特定し、各訓練インスタンスに対して、正の近隣するインスタンスセットにおける各訓練インスタンスのソートスコアに基づいて、正の訓練パッケージにおける各訓練インスタンスの最終的な重みを取得するように正の近隣するインスタンスセットにおける訓練インスタンスの重みを変更するように構成される重み補正サブ手段3023を備える。なお、前記訓練インスタンスの正の近隣するインスタンスセットは、正の訓練パッケージのうち、当該訓練インスタンスと予め設けられた類似関係を有する訓練インスタンスにより構成される。   Identify the positive neighboring instance set for each training instance in the training package and for each training instance, for each training instance in the positive training package, based on the sort score of each training instance in the positive neighboring instance set A weight correction sub- means 3023 is provided that is configured to change the weight of the training instance in the positive neighboring instance set to obtain the final weight. In addition, the positive neighboring instance set of the training instance is configured by a training instance having a similar relationship provided in advance with the training instance in the positive training package.

具体的に実現する際、訓練パッケージに負の訓練パッケージが含まれても良い。これに対して、重み補正サブ手段3023は以下のものを備えても良い。   When specifically realized, the training package may include a negative training package. On the other hand, the weight correction sub means 3023 may include the following.

正の訓練パッケージにおける各訓練インスタンスに対し、正の近隣するインスタンスセットにおける訓練インスタンスのソートスコアに基づいて正の近隣するインスタンスセットにおける訓練インスタンスの重みを大きくするように構成される重み増大サブ手段を備える。   For each training instance in the positive training package, a weight increasing sub-means configured to increase the weight of the training instance in the positive neighboring instance set based on the training instance sort score in the positive neighboring instance set Prepare.

負の訓練パッケージにおける各訓練インスタンスに対し、正の近隣するインスタンスセットにおける訓練インスタンスのソートスコアに基づいて正の近隣するインスタンスセットにおける訓練インスタンスの重みを小さくするように構成される重み減少サブ手段を備える。   For each training instance in the negative training package, a weight reduction sub-means configured to reduce the weight of the training instance in the positive neighboring instance set based on the training instance sort score in the positive neighboring instance set Prepare.

具体的には、正の近隣するインスタンスセットにおける訓練インスタンスのソートスコアを補正する際、正の近隣するインスタンスセットにおいてソートスコアが最も大きい訓練インスタンスのソートスコアのみを、大きくする補正又は小さくする補正を行っても良い。この時に、重み補正サブ手段3023は、具体的に、正の近隣するインスタンスセットにおけるソートスコアが最も大きい訓練インスタンスの重みを変更するように構成することができる。   Specifically, when correcting the sort score of the training instance in the positive neighboring instance set, a correction to increase or decrease only the sort score of the training instance having the largest sort score in the positive neighboring instance set. You can go. At this time, the weight correction sub means 3023 can be specifically configured to change the weight of the training instance having the highest sort score in the positive neighboring instance set.

具体的には、正の近隣するインスタンスセットを決定する際、多種の方法を採用しうる。その一つの方法としては、グラフによるアルゴリズムに基づいて学習を行う過程に構築された重み付きグラフにおける各ノードの一次又は高次の伝達関係に基づいて、訓練パッケージにおける各訓練インスタンスの正の近隣するインスタンスセットを特定することができる。つまり、図5を参照すると、重み補正サブ手段3023は以下のものを備えても良い。   Specifically, various methods may be employed when determining a positive neighboring instance set. One way to do this is based on the first-order or higher-order transfer relationship of each node in the weighted graph built in the course of learning based on a graph-based algorithm. Instance set can be specified. That is, referring to FIG. 5, the weight correction sub means 3023 may include the following.

グラフによるアルゴリズムに基づいて学習を行う過程で構築された重み付きグラフにおける各ノードの一次又は高次の伝達関係に基づいて、訓練パッケージにおける各訓練インスタンスの正の近隣するインスタンスセットを特定するように構成される正の近隣するインスタンスセット特定サブ手段30231を備える。前記重み付きグラフにおいて、ノードは訓練パッケージにおける全ての訓練インスタンスに対応し、辺の重みはその辺と接続する2つのノードの間の類似度に対応する。   To identify the positive neighboring instance set of each training instance in the training package based on the first-order or higher-order transmission relation of each node in the weighted graph constructed in the course of learning based on the algorithm by the graph It comprises a configured positive neighboring instance set identification sub-means 30231. In the weighted graph, a node corresponds to all training instances in the training package, and an edge weight corresponds to the similarity between two nodes connected to that edge.

各訓練インスタンスに対し、正の近隣するインスタンスセットにおける各訓練インスタンスのソートスコアに基づいて、正の訓練パッケージにおける各訓練インスタンスの最終的な重みを得るように正の近隣するインスタンスセットにおける訓練インスタンスの重みを変更するように構成される補正サブ手段30232を備える。   For each training instance, based on the sort score of each training instance in the positive neighboring instance set, the training instance in the positive neighboring instance set is obtained to obtain the final weight of each training instance in the positive training package. Compensation sub-means 30232 configured to change the weights.

具体的に実現する際に、テストインスタンスソートスコア取得手段303は、具体的に、訓練パッケージ及びテストパッケージにおける全てのインスタンスに対し、全てのインスタンス間の類似度に基づいて、グラフによるアルゴリズムを採用して学習を行って各テストインスタンスのソートスコアを得るように構成することができる。なお、正の訓練パッケージにおける各訓練インスタンスの初期ラベルはそれぞれの重みにより決められる。   Specifically, the test instance sort score acquisition unit 303 adopts a graph algorithm based on the similarity between all instances for all instances in the training package and the test package. Learning to obtain a sort score for each test instance. Note that the initial label of each training instance in the positive training package is determined by its weight.

テストインスタンスのソートスコアに基づいてテストパッケージのソートスコアを特定する際には、多種の方法を採用できる。その一つの方法では、図6を参照すると、検索結果特定手段304は以下のものを備えても良い。   Various methods can be employed to specify the test package sort score based on the test instance sort score. In one method, referring to FIG. 6, the search result specifying means 304 may include the following.

テストパッケージにおける各テストインスタンスが対応するソートスコアの最大値を当該テストパッケージのソートスコアとするように構成されるテストパッケージソートスコア特定サブ手段3041を備える。   A test package sort score specifying sub means 3041 is provided which is configured so that the maximum value of the sort score corresponding to each test instance in the test package is used as the sort score of the test package.

前記テストパッケージのソートスコアに基づいて検索結果を特定するように構成される特定サブ手段3042を備える。   Specific sub means 3042 configured to specify search results based on the sort score of the test package is provided.

本発明による実施例により提供される前記システムによれば、画像検索を行う過程において、正の訓練パッケージにおけるそれぞれの訓練インスタンスに重みを生成することができる。当該重みの絶対的な大きさは、対応する訓練インスタンスがユーザのルックアップ語義を表現可能な度合いを表す。これにより、最後にテストパッケージにおける各テストインスタンスのソートスコアを算出する時に、正の訓練パッケージにおける訓練インスタンスに対し、それぞれの重みをその初期ラベルとし、最終的に各テストインスタンスのソートスコアに基づいてテストパッケージのソートスコアを取得して検索結果を与えることができる。従って、本発明の実施例において、正の訓練パッケージから有限な数量の正のインスタンスを選択することを意図せず、正の訓練パッケージにおける各インスタンスにそれぞれの重みを算出し、当該重みの絶対的な大きさで各インスタンスとユーザのルックアップ語義との一致度を表現する。これにより、更に各正の訓練パッケージにおける各インスタンスの重みに基づいてテストパッケージにおける各テストインスタンスのソートスコアを取得する。これにより、正の訓練パッケージにおける各訓練インスタンスにより提供された情報が十分に利用され、検索の性能の向上に寄与する。   According to the system provided by the embodiment according to the present invention, a weight can be generated for each training instance in the positive training package in the course of performing the image search. The absolute magnitude of the weight represents the degree to which the corresponding training instance can represent the user's lookup semantics. As a result, when the sort score of each test instance in the test package is finally calculated, for each training instance in the positive training package, each weight is set as its initial label, and finally, based on the sort score of each test instance. You can get the sort score of the test package and give the search result. Thus, in an embodiment of the present invention, it is not intended to select a finite quantity of positive instances from the positive training package, but calculates the respective weight for each instance in the positive training package and the absolute value of the weight The degree of coincidence between each instance and the user's lookup semantics is expressed with a large size. Thereby, the sort score of each test instance in the test package is further acquired based on the weight of each instance in each positive training package. Thereby, the information provided by each training instance in the positive training package is fully utilized, which contributes to the improvement of search performance.

ここで、前記システムの実施例は、前記方法の実施例に基づいて説明されたものである。その中の詳細説明のない部分は、方法の実施例の部分の説明を参照することができ、ここでは詳しく説明しない。   Here, the embodiment of the system has been described based on the embodiment of the method. For those parts that do not have a detailed description, reference may be made to the description of the method part, which is not described in detail here.

また、前記一連の処理及び装置は、ソフトウェア及び/又はファームウェアにより実現可能である。ソフトウェア及び/又はファームウェアにより実現される場合に、記憶媒体又はネットワークから、専用のハードウェア構成を有するコンピュータ、例えば図7に示された汎用のパーソナルコンピュータ700へ、当該ソフトウェアを構成するプログラムをインストールする。当該コンピュータは、各種のプログラムがインストールされている場合に、各機能などを実行することができる。   The series of processes and devices can be realized by software and / or firmware. When implemented by software and / or firmware, a program constituting the software is installed from a storage medium or a network to a computer having a dedicated hardware configuration, for example, the general-purpose personal computer 700 shown in FIG. . The computer can execute functions and the like when various programs are installed.

図7において、中央処理装置(CPU)701は、読取専用メモリ(ROM)702に記憶されたプログラム又は記憶部708からランダムアクセスメモリ(RAM)703にロードされたプログラムに基づいて各種の処理を実行する。RAM703には、必要に応じてCPU701が各種の処理等を実行するために必要なデータも記憶される。   In FIG. 7, a central processing unit (CPU) 701 executes various processes based on a program stored in a read-only memory (ROM) 702 or a program loaded from a storage unit 708 into a random access memory (RAM) 703. To do. The RAM 703 also stores data necessary for the CPU 701 to execute various processes as necessary.

CPU701、ROM702とRAM703はバス704を介して互いに接続されている。入力/出力インタフェース705もバス704に接続されている。   The CPU 701, ROM 702, and RAM 703 are connected to each other via a bus 704. An input / output interface 705 is also connected to the bus 704.

キーボード、マウス等を含む入力部706と、ディスプレイ、例えばブラウン管(CRT)、液晶ディスプレイ(LCD)等とスピーカ等を含む出力部707と、ハードディスク等を含む記憶部708と、ネットワークインターフェースカード、例えばLANカード、モデム等を含む通信部709とは、入力/出力インタフェース705に接続されている。通信部709がネットワーク、例えばインターネットを経由して通信処理を実行する。   An input unit 706 including a keyboard and a mouse, an output unit 707 including a display such as a cathode ray tube (CRT), a liquid crystal display (LCD) and a speaker, a storage unit 708 including a hard disk, and a network interface card such as a LAN A communication unit 709 including a card, a modem, and the like is connected to an input / output interface 705. A communication unit 709 executes communication processing via a network, for example, the Internet.

必要に応じて、入力/出力インタフェース705にはドライブ710も接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等のような取り外し可能な媒体711が、必要に応じてドライブ710に装着可能である。これにより、読み出されたコンピュータプログラムは必要に応じて記憶部708にインストールされる。   A drive 710 is also connected to the input / output interface 705 as necessary. A removable medium 711 such as a magnetic disk, an optical disk, a magneto-optical disk, a semiconductor memory, or the like can be mounted on the drive 710 as necessary. Thus, the read computer program is installed in the storage unit 708 as necessary.

ソフトウェアで前記一連の処理を実現する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取外し可能な媒体711からソフトウェアを構成するプログラムをインストールする。   When the series of processing is realized by software, a program constituting the software is installed from a network such as the Internet or a storage medium such as a removable medium 711.

このような記憶媒体は、図7に示された、その中にプログラムが記憶されており、デバイスから離れて配送されてユーザにプログラムを提供する取り外し可能な媒体711に限定されないことを、当業者は理解すべきである。取り外し可能な媒体711として、例えば、磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(コンパクトディスクリードオンリーメモリ(CD−ROM)やディジタルヴァーサタイルディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標)含む)及び半導体メモリを含む。または、記憶媒体は、ROM702、記憶部708に含まれるハードディスクであって、プログラムが記憶されており、且つそれらを含むデバイスと一緒にユーザに配送されるハードディスクなどであっても良い。   Those skilled in the art will recognize that such storage media is not limited to the removable media 711 shown in FIG. 7 in which the program is stored and delivered remotely from the device to provide the program to the user. Should be understood. Examples of the removable medium 711 include a magnetic disk (including a floppy disk (registered trademark)), an optical disk (including a compact disk read-only memory (CD-ROM) and a digital versatile disk (DVD)), and a magneto-optical disk ( Including mini disk (MD) (registered trademark) and semiconductor memory. Alternatively, the storage medium may be a hard disk included in the ROM 702 and the storage unit 708, which stores the program and is delivered to the user together with a device including them.

また、前記一連の処理のステップを実行する際、そのまま説明された順序に従い、時間順で実行しても良いが、時間順に限定されない。幾つかのステップは並行で、又は互いに個別で実行しても良い。   Further, when executing the series of processing steps, they may be executed in time order according to the order described as it is, but they are not limited to time order. Some steps may be performed in parallel or separately from each other.

本発明及びその利点を詳細に説明したが、付属の特許請求の範囲に限定された本発明の要旨と範囲から逸脱しない限り、各種の変更、置換及び変換が可能である。そして、本発明の実施例の用語「含む」、「有する」、又は如何なる他の同等の表現は、非排他的な包含を意図しており、一連の要素を含む過程、方法、物品又は装置がそれらの要素を含むだけではなく、明確に列挙されていない他の要素、又はこのような過程、方法、物品又は装置の固有要素も含むことも許容する。更なる限定のない場合に、語句「一つの…を含む」により限定された要素は、前記要素を含む過程、方法、物品又は装置において更に別の同一の要素が存在することを排除しない。   Although the invention and its advantages have been described in detail, various modifications, substitutions and transformations are possible without departing from the spirit and scope of the invention which is limited to the appended claims. And the terms “comprising”, “having”, or any other equivalent expression of an embodiment of the present invention are intended for non-exclusive inclusion, and a process, method, article or device comprising a series of elements In addition to including those elements, it is also permitted to include other elements not explicitly listed, or specific elements of such a process, method, article or device. In the absence of further limitation, an element defined by the phrase “comprising one” does not exclude the presence of other identical elements in a process, method, article or device that includes the element.

以上の実施例を含む実施形態について、さらに以下の付記が開示される。
(付記1)マルチインスタンス学習による検索方法であって、
正の訓練パッケージを含む訓練パッケージ及び訓練パッケージにおける訓練インスタンスを取得し、
前記正の訓練パッケージにおける訓練インスタンス毎に重みを生成し、
訓練パッケージ及びテストパッケージにおけるインスタンスの全てについて、正の訓練パッケージにおける訓練インスタンスのそれぞれの重みを用いてテストインスタンスのそれぞれのソートスコアを取得し、及び
テストパッケージにおけるテストインスタンスのそれぞれのソートスコアに基づいてテストパッケージのそれぞれのソートスコアを特定し、前記テストパッケージのソートスコアに基づいて検索結果を特定することを含み、
前記重みの絶対的な大きさは、対応する訓練インスタンスがユーザのルックアップ語義を表現可能な度合いを表す、ことを特徴とする方法。
(付記2)前記の、前記正の訓練パッケージにおける訓練インスタンス毎に重みを生成することは、
正の訓練パッケージにおける訓練インスタンスの初期重みを知り、
訓練インスタンス同士の類似度に基づいて、グラフによるアルゴリズムを採用して学習を行って訓練インスタンスのそれぞれのソートスコアを取得し、及び
訓練パッケージにおける訓練インスタンスのそれぞれの正の近隣するインスタンスセットを特定し、訓練インスタンス毎に、正の近隣するインスタンスセットにおける訓練インスタンスのそれぞれのソートスコアに基づいて、正の訓練パッケージにおける訓練インスタンスのそれぞれの最終的な重みを取得するように正の近隣するインスタンスセットにおける訓練インスタンスの重みを変更することを含み、
前記訓練インスタンスの正の近隣するインスタンスセットは、正の訓練パッケージのうち、当該訓練インスタンスと予め設けられた類似関係を有する訓練インスタンスにより構成される、ことを特徴とする付記1に記載の方法。
(付記3)前記訓練パッケージに負の訓練パッケージが更に含まれ、前記の、訓練インスタンス毎に、正の近隣するインスタンスセットにおける訓練インスタンスのソートスコアに基づいて正の近隣するインスタンスセットにおける訓練インスタンスの重みを変更することは、
正の訓練パッケージにおける訓練インスタンス毎に、正の近隣するインスタンスセットにおける訓練インスタンスのソートスコアに基づいて、正の近隣するインスタンスセットにおける訓練インスタンスの重みを大きくし、及び
負の訓練パッケージにおける訓練インスタンス毎に、正の近隣するインスタンスセットにおける訓練インスタンスのソートスコアに基づいて、正の近隣するインスタンスセットにおける訓練インスタンスの重みを小さくすることを含む、を特徴とする付記2に記載の方法。
(付記4)前記の、正の近隣するインスタンスセットにおける訓練インスタンスのソートスコアに基づいて、正の近隣するインスタンスセットにおける訓練インスタンスの重みを変更することは、
正の近隣するインスタンスセットにおけるソートスコアの最も大きい訓練インスタンスの重みを変更することを含む、付記2又は3に記載の方法。
(付記5)前記の、訓練パッケージにおける訓練インスタンスのそれぞれの正の近隣するインスタンスセットを特定することは、
グラフによるアルゴリズムに基づいて学習を行う過程に構築された重み付きグラフにおけるノードのそれぞれの一次又は複数次の伝達関係に基づいて、訓練パッケージにおける訓練インスタンスのそれぞれの正の近隣するインスタンスセットを特定することを含み、
前記重み付きグラムにおいて、ノードが訓練パッケージにおける全ての訓練インスタンスに対応し、辺の重みがそれと接続する2つのノードの間の類似度に対応する、付記2に記載の方法。
(付記6)前記の、訓練パッケージ及びテストパッケージにおけるインスタンスの全てについて、全てのインスタンス同士の類似度及び前記正の訓練パッケージにおける訓練インスタンスのそれぞれの重みに基づいてテストインスタンスのソートスコアを取得することは、
訓練パッケージ及びテストパッケージにおけるインスタンスの全てについて、全てのインスタンス同士の類似度に基づいて、グラフによるアルゴリズムを採用して学習を行ってテストインスタンスのそれぞれのソートスコアを取得することを含み、
正の訓練パッケージにおける訓練インスタンスのそれぞれの初期ラベルはそれぞれの重みにより決められる、付記1に記載の方法。
(付記7)前記の、テストパッケージにおけるテストインスタンスのそれぞれのソートスコアに基づいてテストパッケージのそれぞれのソートスコアを特定することは、
テストパッケージにおけるテストインスタンスのそれぞれに対応するソートスコアの最大値を当該テストパッケージのソートスコアとすることを含む、付記1に記載の方法。
(付記8)マルチインスタンス学習による検索システムであって、
正の訓練パッケージを含む訓練パッケージ及び訓練パッケージにおける訓練インスタンスを取得するように構成される取得手段と、
前記正の訓練パッケージにおける訓練インスタンス毎に重みを生成するように構成される訓練インスタンス重み生成手段と、
訓練パッケージ及びテストパッケージにおけるインスタンスの全てについて、前記正の訓練パッケージにおける訓練インスタンスのそれぞれの重みを用いてテストインスタンスのそれぞれのソートスコアを取得するように構成されるテストインスタンスソートスコア取得手段と、
テストパッケージにおけるテストインスタンスのそれぞれのソートスコアに基づいてテストパッケージのそれぞのソートスコアを特定し、前記テストパッケージのソートスコアに基づいて検索結果を特定するように構成される検索結果特定手段とを備え、
前記重みの絶対的な大きさは、対応する訓練インスタンスがユーザのルックアップ語義を表現可能な度合いを表す、ことを特徴とするシステム。
(付記9)前記訓練インスタンス重み生成手段は、
正の訓練パッケージにおける訓練インスタンスの初期重みを知るように構成される初期重みラーニングサブ手段と、
訓練インスタンス同士の類似度に基づいて、グラフによるアルゴリズムを採用して学習を行って訓練インスタンスのそれぞれのソートスコアを取得するように構成される訓練インスタンスソートスコア取得サブ手段と、
訓練パッケージにおける訓練インスタンスのそれぞれの正の近隣するインスタンスセットを特定し、訓練インスタンス毎に、正の近隣するインスタンスセットにおける訓練インスタンスのそれぞれのソートスコアに基づいて、正の訓練パッケージにおける訓練インスタンスのそれぞれの最終的な重みを取得するように正の近隣するインスタンスセットにおける訓練インスタンスの重みを変更するように構成される重み補正サブ手段とを備え、
前記訓練インスタンスの正の近隣するインスタンスセットは、正の訓練パッケージのうち、当該訓練インスタンスと予め設けられた類似関係を有する訓練インスタンスにより構成されることを特徴とする付記8に記載のシステム。
(付記10)前記訓練パッケージに負の訓練パッケージが更に含まれ、前記重み補正サブ手段は、
正の訓練パッケージにおける訓練インスタンス毎に、正の近隣するインスタンスセットにおける訓練インスタンスのソートスコアに基づいて、正の近隣するインスタンスセットにおける訓練インスタンスの重みを大きくするように構成される重み増大サブ手段と、
負の訓練パッケージにおける訓練インスタンス毎に、正の近隣するインスタンスセットにおける訓練インスタンスのソートスコアに基づいて、正の近隣するインスタンスセットにおける訓練インスタンスの重みを小さくするように構成される重み減少サブ手段と、を備える、ことを特徴とする付記9に記載のシステム。
(付記11)前記重み補正サブ手段は、正の近隣するインスタンスセットにおけるソートスコアの最も大きい訓練インスタンスの重みを変更するように構成される、ことを特徴とする付記9又は10に記載のシステム。
(付記12)前記重み補正サブ手段は、
グラフによるアルゴリズムに基づいて学習を行う過程に構築された重み付きグラフにおけるノードのそれぞれの一次又は複数次の伝達関係に基づいて、訓練パッケージにおける訓練インスタンスのそれぞれの正の近隣するインスタンスセットを特定するように構成される正の近隣するインスタンスセット特定サブ手段と、
訓練インスタンス毎に、正の近隣するインスタンスセットにおける訓練インスタンスのそれぞれのソートスコアに基づいて、正の訓練パッケージにおける訓練インスタンスのそれぞれの最終的な重みを取得するように、正の近隣するインスタンスセットにおける訓練インスタンスの重みを変更するように構成される補正サブ手段とを備え、
前記重み付きグラムにおいて、ノードが訓練パッケージにおける全ての訓練インスタンスに対応し、辺の重みがそれと接続する2つのノードの間の類似度に対応する、ことを特徴とする、付記9に記載のシステム。
(付記13)前記テストインスタンスソートスコア取得手段は、具体的に、訓練パッケージ及びテストパッケージにおける全てのインスタンスについて、全てのインスタンス同士の類似度に基づいて、グラフによるアルゴリズムを採用して学習を行ってテストインスタンスのそれぞれのソートスコアを取得するように構成され、
正の訓練パッケージにおける訓練インスタンスのそれぞれの初期ラベルはそれぞれの重みにより決められる、ことを特徴とする、付記8に記載のシステム。
(付記14)前記検索結果特定手段は、
テストパッケージにおけるテストインスタンスのそれぞれに対応するソートスコアの最大値を当該テストパッケージのソートスコアとするように構成されるテストパッケージソートスコア特定サブ手段と、
前記テストパッケージのソートスコアに基づいて検索結果を特定するように構成される特定サブ手段とを備える、ことを特徴とする、付記8に記載のシステム。
The following additional notes are further disclosed for the embodiment including the above examples.
(Appendix 1) A search method by multi-instance learning,
Obtain a training package including a positive training package and a training instance in the training package;
Generating a weight for each training instance in the positive training package;
For each of the instances in the training package and the test package, obtain the respective sort score of the test instance using the respective weight of the training instance in the positive training package, and based on the respective sort score of the test instance in the test package Identifying a respective sort score for the test package and identifying a search result based on the sort score for the test package;
The absolute magnitude of the weight represents the degree to which the corresponding training instance can represent the user's lookup semantics.
(Supplementary Note 2) Generating a weight for each training instance in the positive training package is as follows.
Know the initial weight of the training instance in the positive training package,
Based on the similarity between training instances, a graph-based algorithm is used to learn to obtain each sort score for the training instances, and to identify each positive neighboring instance set for each training instance in the training package. For each training instance, in the positive neighboring instance set to obtain the final weight of each training instance in the positive training package based on the respective sorting score of the training instance in the positive neighboring instance set Changing the weight of the training instance,
The method according to claim 1, wherein the set of positive neighboring instances of the training instance is constituted by training instances having a pre-established similar relationship with the training instance in the positive training package.
(Supplementary note 3) The training package further includes a negative training package, and for each training instance, the training instance in the positive neighboring instance set is based on the training score of the training instance in the positive neighboring instance set. Changing the weight is
For each training instance in the positive training package, increase the weight of the training instance in the positive neighboring instance set based on the training instance sort score in the positive neighboring instance set, and for each training instance in the negative training package The method of claim 2, further comprising reducing the weight of the training instance in the positive neighboring instance set based on the sort score of the training instance in the positive neighboring instance set.
(Supplementary Note 4) Based on the sort score of the training instance in the positive neighboring instance set described above, changing the weight of the training instance in the positive neighboring instance set is:
4. The method of claim 2 or 3, comprising changing the weight of the training instance with the highest sort score in the positive neighboring instance set.
(Supplementary note 5) Identifying each positive neighboring instance set of training instances in the training package described above is
Identify each positive neighboring instance set of training instances in the training package based on the primary or multi-order transmission relationships of each of the nodes in the weighted graph constructed in the course of learning based on a graph algorithm Including
The method of claim 2, wherein, in the weighted gram, nodes correspond to all training instances in a training package, and edge weights correspond to the similarity between two nodes connected to it.
(Supplementary Note 6) For all of the instances in the training package and the test package, obtain a test instance sort score based on the similarity between all instances and the weight of each training instance in the positive training package. Is
For all of the instances in the training package and the test package, based on the similarity between all instances, adopting a graphing algorithm to learn and obtaining each sort score of the test instance,
The method of claim 1, wherein each initial label of the training instance in the positive training package is determined by a respective weight.
(Appendix 7) Specifying the sort score of each test package based on the sort score of each test instance in the test package is as follows.
The method according to appendix 1, comprising: setting a maximum score of the sort score corresponding to each test instance in the test package as the sort score of the test package.
(Appendix 8) A search system using multi-instance learning,
An acquisition means configured to acquire a training package including a positive training package and a training instance in the training package;
Training instance weight generating means configured to generate a weight for each training instance in the positive training package;
Test instance sort score obtaining means configured to obtain a respective sort score of the test instance using a weight of each of the training instances in the positive training package for all of the instances in the training package and the test package;
A search result identifying means configured to identify each sort score of the test package based on a sort score of each test instance in the test package, and to identify a search result based on the sort score of the test package; Prepared,
The absolute magnitude of the weight represents the degree to which the corresponding training instance can represent the user's lookup semantics.
(Supplementary note 9) The training instance weight generation means includes:
An initial weight learning sub-means configured to know the initial weight of the training instance in the positive training package;
A training instance sort score acquisition sub-unit configured to acquire a respective sort score of the training instance by employing a graph algorithm based on the similarity between the training instances; and
Identify each positive neighboring instance set for each training instance in the training package, and for each training instance, each of the training instances in the positive training package based on the respective sorting score of the training instance in the positive neighboring instance set Weight correction sub-means configured to change the weight of the training instance in the positive neighboring instance set to obtain the final weight of
9. The system according to claim 8, wherein the set of positive neighboring instances of the training instance is configured by a training instance having a similar relationship provided in advance with the training instance in the positive training package.
(Supplementary Note 10) The training package further includes a negative training package, and the weight correction sub-unit includes:
For each training instance in the positive training package, a weight increasing sub-means configured to increase the weight of the training instance in the positive neighboring instance set based on the sort score of the training instance in the positive neighboring instance set ,
A weight reduction sub-means configured to reduce the training instance weight in the positive neighboring instance set based on the training instance sort score in the positive neighboring instance set for each training instance in the negative training package; The system according to appendix 9, characterized by comprising:
(Supplementary note 11) The system according to Supplementary note 9 or 10, wherein the weight correction sub-unit is configured to change the weight of the training instance having the largest sort score in the positive neighboring instance set.
(Supplementary Note 12) The weight correction sub means includes:
Identify each positive neighboring instance set of training instances in the training package based on the primary or multi-order transmission relationships of each of the nodes in the weighted graph constructed in the course of learning based on a graph algorithm A positive neighboring instance set specific sub-means configured such that
For each training instance, in the positive neighboring instance set to obtain the final weight of each training instance in the positive training package based on the respective sorting score of the training instance in the positive neighboring instance set. Correction sub-means configured to change the weight of the training instance;
The system of claim 9, wherein, in the weighted gram, nodes correspond to all training instances in the training package, and edge weights correspond to the similarity between two nodes connected to it. .
(Additional remark 13) The said test instance sort score acquisition means specifically employ | adopts the algorithm by a graph and learns about all the instances in a training package and a test package based on the similarity of all the instances. Configured to get the sort score for each of the test instances,
The system of claim 8 wherein each initial label of training instances in a positive training package is determined by a respective weight.
(Supplementary Note 14) The search result specifying means includes:
A test package sort score identifying sub-means configured to use the maximum value of the sort score corresponding to each of the test instances in the test package as the sort score of the test package;
The system according to claim 8, further comprising: specifying sub means configured to specify a search result based on a sort score of the test package.

(付記1′)複数のテストパッケージを記憶している記憶装置から一つまたは複数の訓練パッケージに基づいて一つまたは複数のテストパッケージを検索する、マルチインスタンス学習による検索方法であって、各訓練パッケージは訓練インスタンスを含み、各テストパッケージはテストインスタンスを含み、当該方法は、コンピュータが、
正の訓練パッケージを含む一つまたは複数の訓練パッケージを入力インターフェースを介して取得し、
前記正の訓練パッケージにおける訓練インスタンス毎に重みを生成し、
前記訓練パッケージ及び前記テストパッケージにおけるインスタンスの全てについて、インスタンス間の類似度および前記正の訓練パッケージにおける各訓練インスタンスの重みを用いて、各テストインスタンスのソートスコアを取得し、
各テストパッケージに含まれるテストインスタンスのそれぞれのソートスコアに基づいて各テストパッケージのソートスコアを計算し、
前記記憶装置に記憶されている各テストパッケージのソートスコアに基づいて一つまたは複数のテストパッケージを検索結果として特定することを含み、
前記訓練インスタンスについての重みの絶対的な大きさは、対応する訓練インスタンスがユーザの検索意図を表現可能な度合いを表す、
ことを特徴とする方法。
(付記2′)前記の、前記正の訓練パッケージにおける訓練インスタンス毎に重みを生成することは、
前記正の訓練パッケージにおける訓練インスタンスの初期重みを記憶装置から取得し、
訓練インスタンス同士の類似度に基づいて、グラフによるアルゴリズムを採用して学習を行って訓練インスタンスのそれぞれのソートスコアを取得し、
前記訓練パッケージにおける各訓練インスタンスについて正の近隣するインスタンスセットを特定し、前記正の近隣するインスタンスセットにおける訓練インスタンスのそれぞれのソートスコアに基づいて、前記正の近隣するインスタンスセットにおける訓練インスタンスの重みを変更して、前記正の訓練パッケージにおける訓練インスタンスのそれぞれの最終的な重みを取得することを含み、
前記訓練インスタンスの正の近隣するインスタンスセットとは、正の訓練パッケージのうち、当該訓練インスタンスと予め設けられた類似関係を有する訓練インスタンスの集合である、ことを特徴とする付記1′に記載の方法。
(付記3′)前記一つまたは複数の訓練パッケージに負の訓練パッケージが更に含まれ、前記の、各訓練インスタンスについて前記正の近隣するインスタンスセットにおける訓練インスタンスのソートスコアに基づいて前記正の近隣するインスタンスセットにおける訓練インスタンスの重みを変更することは、
前記正の訓練パッケージにおける各訓練インスタンスについて、正の近隣するインスタンスセットにおける訓練インスタンスのソートスコアに基づいて、正の近隣するインスタンスセットにおける訓練インスタンスの重みを大きくし、
前記負の訓練パッケージにおける各訓練インスタンスについて、正の近隣するインスタンスセットにおける訓練インスタンスのソートスコアに基づいて、正の近隣するインスタンスセットにおける訓練インスタンスの重みを小さくすることを含む、
ことを特徴とする付記2′に記載の方法。
(付記4′)前記の、前記正の近隣するインスタンスセットにおける訓練インスタンスのソートスコアに基づいて前記正の近隣するインスタンスセットにおける訓練インスタンスの重みを変更することは、
前記正の近隣するインスタンスセットにおける訓練インスタンスのソートスコアのうち最も大きい訓練インスタンスの重みを変更することを含む、
ことを特徴とする付記2′又は3′に記載の方法。
(付記5′)前記訓練パッケージにおける各訓練インスタンスについて正の近隣するインスタンスセットを特定することは、
グラフによるアルゴリズムに基づいて学習を行う過程で構築された重み付きグラフにおけるノードに対応する訓練インスタンス間の一次又は高次の伝達関係に基づく類似度に基づいて、前記訓練パッケージにおける各訓練インスタンスについて正の近隣するインスタンスセットを特定することを含み、
前記重み付きグラフにおいて、ノードが訓練パッケージにおける全ての訓練インスタンスに対応し、辺の重みが該辺と接続する2つのノードの間の類似度に対応する、
ことを特徴とする付記2′に記載の方法。
(付記6′)前記訓練パッケージ及び前記テストパッケージにおけるインスタンスの全てについて、全てのインスタンス間の類似度及び前記正の訓練パッケージにおける各訓練インスタンスの重みを用いて、各テストインスタンスのソートスコアを取得することは、
前記訓練パッケージ及び前記テストパッケージにおけるインスタンスの全てについて、全てのインスタンス間の類似度に基づいて、グラフによるアルゴリズムを採用して学習を行って各テストインスタンスのソートスコアを取得することを含み、
前記正の訓練パッケージにおける各訓練インスタンスの初期ラベルはそれぞれの重みにより決められる、
ことを特徴とする付記1′に記載の方法。
(付記7′)各テストパッケージに含まれるテストインスタンスのそれぞれのソートスコアに基づいて各テストパッケージのソートスコアを計算することは、
テストパッケージにおけるテストインスタンスのそれぞれに対応するソートスコアの最大値を当該テストパッケージのソートスコアとすることを含む、
ことを特徴とする付記1′に記載の方法。
(付記8′)複数のテストパッケージを記憶している記憶装置から一つまたは複数の訓練パッケージに基づいて一つまたは複数のテストパッケージを検索する、マルチインスタンス学習による検索システムであって、各訓練パッケージは訓練インスタンスを含み、各テストパッケージはテストインスタンスを含み、当該システムは、
正の訓練パッケージを含む一つまたは複数の訓練パッケージを入力インターフェースを介して取得するように構成された取得手段と、
前記正の訓練パッケージにおける訓練インスタンス毎に重みを生成するように構成された訓練インスタンス重み生成手段と、
前記訓練パッケージ及び前記テストパッケージにおけるインスタンスの全てについて、インスタンス間の類似度および前記前記正の訓練パッケージにおける各訓練インスタンスの重みを用いて、各テストインスタンスのソートスコアを取得するように構成されたテストインスタンスソートスコア取得手段と、
各テストパッケージに含まれるテストインスタンスのそれぞれのソートスコアに基づいて各テストパッケージのソートスコアを計算する計算手段と、
前記記憶装置に記憶されている各テストパッケージのソートスコアに基づいて一つまたは複数のテストパッケージを検索結果として特定するように構成された検索結果特定手段とを備え、
前記訓練インスタンスについての重みの絶対的な大きさは、対応する訓練インスタンスがユーザの検索意図を表現可能な度合いを表す、ことを特徴とするシステム。
(付記9′)前記訓練インスタンス重み生成手段は、
前記正の訓練パッケージにおける訓練インスタンスの初期重みを記憶装置から取得するサブ手段と、
訓練インスタンス同士の類似度に基づいて、訓練インスタンスのそれぞれのソートスコアを取得するサブ手段と、
前記訓練パッケージにおける各訓練インスタンスについて正の近隣するインスタンスセットを特定し、前記正の近隣するインスタンスセットにおける訓練インスタンスのそれぞれのソートスコアに基づいて、前記正の近隣するインスタンスセットにおける訓練インスタンスの重みを変更して、前記正の訓練パッケージにおける訓練インスタンスのそれぞれの最終的な重みを取得する重み補正サブ手段とを備え、
前記訓練インスタンスの正の近隣するインスタンスセットとは、正の訓練パッケージのうち、当該訓練インスタンスと予め設けられた類似関係を有する訓練インスタンスの集合である、
ことを特徴とする付記8′に記載のシステム。
(付記10′)前記テストインスタンスソートスコア取得手段は、前記訓練パッケージ及び前記テストパッケージにおける全てのインスタンスについて、全てのインスタンス間の類似度に基づいて、各テストインスタンスのソートスコアを取得するように構成され、
前記正の訓練パッケージにおける各訓練インスタンスの初期ラベルはそれぞれの重みにより決められる、
ことを特徴とする付記8′に記載のシステム。
(Supplementary Note 1 ′) A search method using multi-instance learning, in which one or a plurality of test packages are searched based on one or a plurality of training packages from a storage device storing a plurality of test packages, and each training The package includes a training instance, each test package includes a test instance, and the method includes:
Obtain one or more training packages, including positive training packages, via the input interface;
Generating a weight for each training instance in the positive training package;
For all of the instances in the training package and the test package, use the similarity between instances and the weight of each training instance in the positive training package to obtain a sort score for each test instance;
Calculate the sort score for each test package based on the sort score of each test instance contained in each test package,
Identifying one or more test packages as search results based on the sort score of each test package stored in the storage device,
The absolute magnitude of the weight for the training instance represents the degree to which the corresponding training instance can express the user's search intent.
A method characterized by that.
(Appendix 2 ') Generating a weight for each training instance in the positive training package is
Obtaining an initial weight of a training instance in the positive training package from a storage device;
Based on the similarity between training instances, we use a graph algorithm to learn and get the sort score for each training instance,
A positive neighboring instance set is identified for each training instance in the training package, and the training instance weights in the positive neighboring instance set are determined based on the respective sorting scores of the training instances in the positive neighboring instance set. Modifying to obtain a final weight of each training instance in the positive training package;
The positive neighboring instance set of the training instances is a set of training instances having a pre-established similar relationship with the training instances in the positive training package. Method.
(Supplementary Note 3 ′) The one or more training packages further include a negative training package, and the positive neighborhood is based on a training instance sort score in the positive neighborhood instance set for each training instance. Changing the weight of the training instance in the instance set to
For each training instance in the positive training package, based on the training instance sort score in the positive neighboring instance set, increase the weight of the training instance in the positive neighboring instance set;
Reducing the weight of the training instance in the positive neighboring instance set for each training instance in the negative training package based on the training instance sort score in the positive neighboring instance set.
The method according to appendix 2 ', characterized in that
(Supplementary Note 4 ′) Changing the weight of the training instance in the positive neighboring instance set based on the training score of the training instance in the positive neighboring instance set described above,
Changing the weight of the training instance having the largest training instance sort score in the positive neighboring instance set,
The method according to appendix 2 'or 3', characterized in that
(Supplementary Note 5 ') Identifying a positive neighboring instance set for each training instance in the training package
For each training instance in the training package based on the similarity based on the primary or higher order transmission relationship between the training instances corresponding to the nodes in the weighted graph constructed in the course of learning based on the algorithm by the graph. Identifying a set of neighboring instances of
In the weighted graph, a node corresponds to all training instances in a training package, and an edge weight corresponds to the similarity between two nodes connected to the edge.
The method according to appendix 2 ', characterized in that
(Supplementary Note 6 ′) For all the instances in the training package and the test package, the sort score of each test instance is obtained using the similarity between all instances and the weight of each training instance in the positive training package. That is
For all of the instances in the training package and the test package, based on the similarity between all instances, employing a graph algorithm to learn and obtain a sort score for each test instance,
The initial label of each training instance in the positive training package is determined by its weight.
The method according to appendix 1 ′, characterized in that
(Appendix 7 ') Calculate the sort score of each test package based on the sort score of each test instance included in each test package.
Including the maximum sort score corresponding to each test instance in the test package as the sort score of the test package,
The method according to appendix 1 ′, characterized in that
(Supplementary Note 8 ′) A search system using multi-instance learning that searches one or a plurality of test packages based on one or a plurality of training packages from a storage device storing a plurality of test packages, and each training A package contains training instances, each test package contains test instances, and the system
An acquisition means configured to acquire one or more training packages including a positive training package via an input interface;
Training instance weight generating means configured to generate a weight for each training instance in the positive training package;
A test configured to obtain a sort score for each test instance for all instances in the training package and the test package using similarity between instances and the weight of each training instance in the positive training package An instance sort score acquisition means;
A calculation means for calculating a sort score of each test package based on a sort score of each test instance included in each test package;
Search result specifying means configured to specify one or a plurality of test packages as search results based on the sort score of each test package stored in the storage device,
The absolute magnitude of the weight for the training instance represents the degree to which the corresponding training instance can express the user's search intention.
(Supplementary Note 9 ′) The training instance weight generation means includes:
Sub means for obtaining an initial weight of a training instance in the positive training package from a storage device;
A sub-means for obtaining each sort score of the training instances based on the similarity between the training instances;
A positive neighboring instance set is identified for each training instance in the training package, and the training instance weights in the positive neighboring instance set are determined based on the respective sorting scores of the training instances in the positive neighboring instance set. A weight correction sub-means for modifying to obtain the final weight of each training instance in the positive training package;
The positive neighboring instance set of the training instance is a set of training instances having a pre-established similar relationship with the training instance in the positive training package.
The system according to appendix 8 ′, characterized in that
(Additional remark 10 ') The said test instance sort score acquisition means is comprised so that the sort score of each test instance may be acquired based on the similarity between all instances about all the instances in the said training package and the said test package. And
The initial label of each training instance in the positive training package is determined by its weight.
The system according to appendix 8 ′, characterized in that

Claims (10)

複数のテストパッケージを記憶している記憶装置から一つまたは複数の訓練パッケージに基づいて一つまたは複数のテストパッケージを検索する、マルチインスタンス学習による検索方法であって、各訓練パッケージは訓練インスタンスを含み、各テストパッケージはテストインスタンスを含み、当該方法は、コンピュータが、
正の訓練パッケージを含む一つまたは複数の訓練パッケージを入力インターフェースを介して取得し、
前記正の訓練パッケージにおける訓練インスタンス毎に重みを生成し、
前記訓練パッケージ及び前記テストパッケージにおけるインスタンスの全てについて、インスタンス間の類似度および前記正の訓練パッケージにおける各訓練インスタンスの重みを用いて、各テストインスタンスのソートスコアを取得し、
各テストパッケージに含まれるテストインスタンスのそれぞれのソートスコアに基づいて各テストパッケージのソートスコアを計算し、
前記記憶装置に記憶されている各テストパッケージのソートスコアに基づいて一つまたは複数のテストパッケージを検索結果として特定することを含み、
前記訓練インスタンスについての重みの絶対的な大きさは、対応する訓練インスタンスがユーザの検索意図を表現可能な度合いを表す、
ことを特徴とする方法。
A search method by multi-instance learning, wherein one or a plurality of test packages are searched from a storage device storing a plurality of test packages based on one or a plurality of training packages. Each test package includes a test instance, and the method includes:
Obtain one or more training packages, including positive training packages, via the input interface;
Generating a weight for each training instance in the positive training package;
For all of the instances in the training package and the test package, use the similarity between instances and the weight of each training instance in the positive training package to obtain a sort score for each test instance;
Calculate the sort score for each test package based on the sort score of each test instance contained in each test package,
Identifying one or more test packages as search results based on the sort score of each test package stored in the storage device,
The absolute magnitude of the weight for the training instance represents the degree to which the corresponding training instance can express the user's search intent.
A method characterized by that.
前記の、前記正の訓練パッケージにおける訓練インスタンス毎に重みを生成することは、
前記正の訓練パッケージにおける訓練インスタンスの初期重みを記憶装置から取得し、
訓練インスタンス同士の類似度に基づいて、グラフによるアルゴリズムを採用して学習を行って訓練インスタンスのそれぞれのソートスコアを取得し、
前記訓練パッケージにおける各訓練インスタンスについて正の近隣するインスタンスセットを特定し、前記正の近隣するインスタンスセットにおける訓練インスタンスのそれぞれのソートスコアに基づいて、前記正の近隣するインスタンスセットにおける訓練インスタンスの重みを変更して、前記正の訓練パッケージにおける訓練インスタンスのそれぞれの最終的な重みを取得することを含み、
前記訓練インスタンスの正の近隣するインスタンスセットとは、正の訓練パッケージのうち、当該訓練インスタンスと予め設けられた類似関係を有する訓練インスタンスの集合である、ことを特徴とする請求項1に記載の方法。
Generating a weight for each training instance in the positive training package described above,
Obtaining an initial weight of a training instance in the positive training package from a storage device;
Based on the similarity between training instances, we use a graph algorithm to learn and get the sort score for each training instance,
A positive neighboring instance set is identified for each training instance in the training package, and the training instance weights in the positive neighboring instance set are determined based on the respective sorting scores of the training instances in the positive neighboring instance set. Modifying to obtain a final weight of each training instance in the positive training package;
The positive neighboring instance set of the training instances is a set of training instances having a similar relationship provided in advance with the training instances in the positive training package. Method.
前記一つまたは複数の訓練パッケージに負の訓練パッケージが更に含まれ、前記の、各訓練インスタンスについて前記正の近隣するインスタンスセットにおける訓練インスタンスのソートスコアに基づいて前記正の近隣するインスタンスセットにおける訓練インスタンスの重みを変更することは、
前記正の訓練パッケージにおける各訓練インスタンスについて、正の近隣するインスタンスセットにおける訓練インスタンスのソートスコアに基づいて、正の近隣するインスタンスセットにおける訓練インスタンスの重みを大きくし、
前記負の訓練パッケージにおける各訓練インスタンスについて、正の近隣するインスタンスセットにおける訓練インスタンスのソートスコアに基づいて、正の近隣するインスタンスセットにおける訓練インスタンスの重みを小さくすることを含む、
ことを特徴とする請求項2に記載の方法。
The one or more training packages further include a negative training package, wherein the training in the positive neighboring instance set is based on the training instance sort score in the positive neighboring instance set for each training instance. Changing the weight of an instance
For each training instance in the positive training package, based on the training instance sort score in the positive neighboring instance set, increase the weight of the training instance in the positive neighboring instance set;
Reducing the weight of the training instance in the positive neighboring instance set for each training instance in the negative training package based on the training instance sort score in the positive neighboring instance set.
The method according to claim 2.
前記の、前記正の近隣するインスタンスセットにおける訓練インスタンスのソートスコアに基づいて前記正の近隣するインスタンスセットにおける訓練インスタンスの重みを変更することは、
前記正の近隣するインスタンスセットにおける訓練インスタンスのソートスコアのうち最も大きい訓練インスタンスの重みを変更することを含む、
ことを特徴とする請求項2又は3に記載の方法。
Changing the weight of training instances in the positive neighboring instance set based on the sort score of training instances in the positive neighboring instance set,
Changing the weight of the training instance having the largest training instance sort score in the positive neighboring instance set,
The method according to claim 2 or 3, characterized in that
前記訓練パッケージにおける各訓練インスタンスについて正の近隣するインスタンスセットを特定することは、
グラフによるアルゴリズムに基づいて学習を行う過程で構築された重み付きグラフにおけるノードに対応する訓練インスタンス間の一次又は高次の伝達関係に基づく類似度に基づいて、前記訓練パッケージにおける各訓練インスタンスについて正の近隣するインスタンスセットを特定することを含み、
前記重み付きグラフにおいて、ノードが訓練パッケージにおける全ての訓練インスタンスに対応し、辺の重みが該辺と接続する2つのノードの間の類似度に対応する、
ことを特徴とする請求項2に記載の方法。
Identifying a positive neighboring instance set for each training instance in the training package is
For each training instance in the training package based on the similarity based on the primary or higher order transmission relationship between the training instances corresponding to the nodes in the weighted graph constructed in the course of learning based on the algorithm by the graph. Identifying a set of neighboring instances of
In the weighted graph, a node corresponds to all training instances in a training package, and an edge weight corresponds to the similarity between two nodes connected to the edge.
The method according to claim 2.
前記訓練パッケージ及び前記テストパッケージにおけるインスタンスの全てについて、全てのインスタンス間の類似度及び前記正の訓練パッケージにおける各訓練インスタンスの重みを用いて、各テストインスタンスのソートスコアを取得することは、
前記訓練パッケージ及び前記テストパッケージにおけるインスタンスの全てについて、全てのインスタンス間の類似度に基づいて、グラフによるアルゴリズムを採用して学習を行って各テストインスタンスのソートスコアを取得することを含み、
前記正の訓練パッケージにおける各訓練インスタンスの初期ラベルはそれぞれの重みにより決められる、
ことを特徴とする請求項1に記載の方法。
For all instances in the training package and the test package, using the similarity between all instances and the weight of each training instance in the positive training package, obtaining a sort score for each test instance;
For all of the instances in the training package and the test package, based on the similarity between all instances, employing a graph algorithm to learn and obtain a sort score for each test instance,
The initial label of each training instance in the positive training package is determined by its weight.
The method according to claim 1.
各テストパッケージに含まれるテストインスタンスのそれぞれのソートスコアに基づいて各テストパッケージのソートスコアを計算することは、
テストパッケージにおけるテストインスタンスのそれぞれに対応するソートスコアの最大値を当該テストパッケージのソートスコアとすることを含む、
ことを特徴とする請求項1に記載の方法。
Calculating the sort score for each test package based on the sort score for each test instance contained in each test package
Including the maximum sort score corresponding to each test instance in the test package as the sort score of the test package,
The method according to claim 1.
複数のテストパッケージを記憶している記憶装置から一つまたは複数の訓練パッケージに基づいて一つまたは複数のテストパッケージを検索する、マルチインスタンス学習による検索システムであって、各訓練パッケージは訓練インスタンスを含み、各テストパッケージはテストインスタンスを含み、当該システムは、
正の訓練パッケージを含む一つまたは複数の訓練パッケージを入力インターフェースを介して取得するように構成された取得手段と、
前記正の訓練パッケージにおける訓練インスタンス毎に重みを生成するように構成された訓練インスタンス重み生成手段と、
前記訓練パッケージ及び前記テストパッケージにおけるインスタンスの全てについて、インスタンス間の類似度および前記前記正の訓練パッケージにおける各訓練インスタンスの重みを用いて、各テストインスタンスのソートスコアを取得するように構成されたテストインスタンスソートスコア取得手段と、
各テストパッケージに含まれるテストインスタンスのそれぞれのソートスコアに基づいて各テストパッケージのソートスコアを計算する計算手段と、
前記記憶装置に記憶されている各テストパッケージのソートスコアに基づいて一つまたは複数のテストパッケージを検索結果として特定するように構成された検索結果特定手段とを備え、
前記訓練インスタンスについての重みの絶対的な大きさは、対応する訓練インスタンスがユーザの検索意図を表現可能な度合いを表す、ことを特徴とするシステム。
A search system using multi-instance learning that searches one or a plurality of test packages based on one or a plurality of training packages from a storage device storing a plurality of test packages. Each test package contains a test instance, and the system
An acquisition means configured to acquire one or more training packages including a positive training package via an input interface;
Training instance weight generating means configured to generate a weight for each training instance in the positive training package;
A test configured to obtain a sort score for each test instance for all instances in the training package and the test package using similarity between instances and the weight of each training instance in the positive training package An instance sort score acquisition means;
A calculation means for calculating a sort score of each test package based on a sort score of each test instance included in each test package;
Search result specifying means configured to specify one or a plurality of test packages as search results based on the sort score of each test package stored in the storage device,
The absolute magnitude of the weight for the training instance represents the degree to which the corresponding training instance can express the user's search intention.
前記訓練インスタンス重み生成手段は、
前記正の訓練パッケージにおける訓練インスタンスの初期重みを記憶装置から取得するサブ手段と、
訓練インスタンス同士の類似度に基づいて、訓練インスタンスのそれぞれのソートスコアを取得するサブ手段と、
前記訓練パッケージにおける各訓練インスタンスについて正の近隣するインスタンスセットを特定し、前記正の近隣するインスタンスセットにおける訓練インスタンスのそれぞれのソートスコアに基づいて、前記正の近隣するインスタンスセットにおける訓練インスタンスの重みを変更して、前記正の訓練パッケージにおける訓練インスタンスのそれぞれの最終的な重みを取得する重み補正サブ手段とを備え、
前記訓練インスタンスの正の近隣するインスタンスセットとは、正の訓練パッケージのうち、当該訓練インスタンスと予め設けられた類似関係を有する訓練インスタンスの集合である、
ことを特徴とする請求項8に記載のシステム。
The training instance weight generation means includes:
Sub means for obtaining an initial weight of a training instance in the positive training package from a storage device;
A sub-means for obtaining each sort score of the training instances based on the similarity between the training instances;
A positive neighboring instance set is identified for each training instance in the training package, and the training instance weights in the positive neighboring instance set are determined based on the respective sorting scores of the training instances in the positive neighboring instance set. A weight correction sub-means for modifying to obtain the final weight of each training instance in the positive training package;
The positive neighboring instance set of the training instance is a set of training instances having a pre-established similar relationship with the training instance in the positive training package.
The system according to claim 8.
前記テストインスタンスソートスコア取得手段は、前記訓練パッケージ及び前記テストパッケージにおける全てのインスタンスについて、全てのインスタンス間の類似度に基づいて、各テストインスタンスのソートスコアを取得するように構成され、
前記正の訓練パッケージにおける各訓練インスタンスの初期ラベルはそれぞれの重みにより決められる、
ことを特徴とする請求項8に記載のシステム。
The test instance sort score acquisition means is configured to acquire the sort score of each test instance based on the similarity between all instances for all instances in the training package and the test package,
The initial label of each training instance in the positive training package is determined by its weight.
The system according to claim 8.
JP2012132915A 2011-06-16 2012-06-12 Search method and system by multi-instance learning Active JP5953960B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201110171932.9 2011-06-16
CN201110171932.9A CN102831129B (en) 2011-06-16 2011-06-16 Retrieval method and system based on multi-instance learning

Publications (2)

Publication Number Publication Date
JP2013004093A true JP2013004093A (en) 2013-01-07
JP5953960B2 JP5953960B2 (en) 2016-07-20

Family

ID=47334272

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012132915A Active JP5953960B2 (en) 2011-06-16 2012-06-12 Search method and system by multi-instance learning

Country Status (2)

Country Link
JP (1) JP5953960B2 (en)
CN (1) CN102831129B (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361059A (en) * 2014-11-03 2015-02-18 中国科学院自动化研究所 Harmful information identification and web page classification method based on multi-instance learning
CN107392256A (en) * 2017-07-31 2017-11-24 广东工业大学 A kind of image-recognizing method and system
CN110874702A (en) * 2018-09-04 2020-03-10 菜鸟智能物流控股有限公司 Model training method and device in logistics sorting scene and electronic equipment
CN110910334A (en) * 2018-09-15 2020-03-24 北京市商汤科技开发有限公司 Instance segmentation method, image processing device and computer readable storage medium
CN111324752A (en) * 2020-02-20 2020-06-23 中国科学技术大学 Image and text retrieval method based on graph neural network structure modeling

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103325125B (en) * 2013-07-03 2016-08-10 北京工业大学 Based on the motion target tracking method improving multi-instance learning algorithm
CN105976401B (en) * 2016-05-20 2019-03-12 河北工业职业技术学院 Method for tracking target and system based on piecemeal multi-instance learning algorithm
CN109767457B (en) * 2019-01-10 2021-01-26 厦门理工学院 Online multi-example learning target tracking method, terminal device and storage medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08249353A (en) * 1995-03-15 1996-09-27 Omron Corp Method and device for image retrieval
JP2000132554A (en) * 1998-10-21 2000-05-12 Sharp Corp Image retrieval device and method
JP2002032751A (en) * 2000-07-18 2002-01-31 Olympus Optical Co Ltd Learning type image classifying device and method and recording medium with its processing program recorded thereon
JP2010211484A (en) * 2009-03-10 2010-09-24 Nippon Telegr & Teleph Corp <Ntt> Device, method, and program for retrieving similar image under consideration of position weighting by existence probability
JP2011070244A (en) * 2009-09-24 2011-04-07 Yahoo Japan Corp Device, method and program for retrieving image

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101295305B (en) * 2007-04-25 2012-10-31 富士通株式会社 Image retrieval device
CN101398893B (en) * 2008-10-10 2010-09-01 北京科技大学 Adaboost arithmetic improved robust human ear detection method
CN101419606B (en) * 2008-11-13 2011-10-05 浙江大学 Semi-automatic image labeling method based on semantic and content

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08249353A (en) * 1995-03-15 1996-09-27 Omron Corp Method and device for image retrieval
JP2000132554A (en) * 1998-10-21 2000-05-12 Sharp Corp Image retrieval device and method
JP2002032751A (en) * 2000-07-18 2002-01-31 Olympus Optical Co Ltd Learning type image classifying device and method and recording medium with its processing program recorded thereon
US20020012467A1 (en) * 2000-07-18 2002-01-31 Olympus Optical Co., Ltd. Learning type image classification apparatus, method thereof and processing recording medium on which processing program is recorded
JP2010211484A (en) * 2009-03-10 2010-09-24 Nippon Telegr & Teleph Corp <Ntt> Device, method, and program for retrieving similar image under consideration of position weighting by existence probability
JP2011070244A (en) * 2009-09-24 2011-04-07 Yahoo Japan Corp Device, method and program for retrieving image

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361059A (en) * 2014-11-03 2015-02-18 中国科学院自动化研究所 Harmful information identification and web page classification method based on multi-instance learning
CN107392256A (en) * 2017-07-31 2017-11-24 广东工业大学 A kind of image-recognizing method and system
CN110874702A (en) * 2018-09-04 2020-03-10 菜鸟智能物流控股有限公司 Model training method and device in logistics sorting scene and electronic equipment
CN110874702B (en) * 2018-09-04 2023-05-23 菜鸟智能物流控股有限公司 Model training method and device under logistics sorting scene and electronic equipment
CN110910334A (en) * 2018-09-15 2020-03-24 北京市商汤科技开发有限公司 Instance segmentation method, image processing device and computer readable storage medium
CN110910334B (en) * 2018-09-15 2023-03-21 北京市商汤科技开发有限公司 Instance segmentation method, image processing device and computer readable storage medium
CN111324752A (en) * 2020-02-20 2020-06-23 中国科学技术大学 Image and text retrieval method based on graph neural network structure modeling
CN111324752B (en) * 2020-02-20 2023-06-16 中国科学技术大学 Image and text retrieval method based on graphic neural network structure modeling

Also Published As

Publication number Publication date
JP5953960B2 (en) 2016-07-20
CN102831129B (en) 2015-03-04
CN102831129A (en) 2012-12-19

Similar Documents

Publication Publication Date Title
JP5953960B2 (en) Search method and system by multi-instance learning
JP7169369B2 (en) Method, system for generating data for machine learning algorithms
US8131786B1 (en) Training scoring models optimized for highly-ranked results
CN107220365B (en) Accurate recommendation system and method based on collaborative filtering and association rule parallel processing
WO2022052997A1 (en) Method and system for training neural network model using knowledge distillation
US20140222793A1 (en) System and Method for Automatically Importing, Refreshing, Maintaining, and Merging Contact Sets
US11200444B2 (en) Presentation object determining method and apparatus based on image content, medium, and device
US20190286978A1 (en) Using natural language processing and deep learning for mapping any schema data to a hierarchical standard data model (xdm)
US8583669B2 (en) Query suggestion for efficient legal E-discovery
CN108399213B (en) User-oriented personal file clustering method and system
US11328002B2 (en) Dynamic clustering of sparse data utilizing hash partitions
CN112925857A (en) Digital information driven system and method for predicting associations based on predicate type
US20200143274A1 (en) System and method for applying artificial intelligence techniques to respond to multiple choice questions
WO2020170593A1 (en) Information processing device and information processing method
WO2021253938A1 (en) Neural network training method and apparatus, and video recognition method and apparatus
WO2023155304A1 (en) Keyword recommendation model training method and apparatus, keyword recommendation method and apparatus, device, and medium
US10521455B2 (en) System and method for a neural metadata framework
CN117993772A (en) Knowledge graph-based crowdsourcing data acquisition method and system and electronic equipment
US7996341B1 (en) Methods and systems for searching for color themes, suggesting color theme tags, and estimating tag descriptiveness
CN114912623B (en) Method and device for model interpretation
JP5379812B2 (en) Data extraction apparatus, data extraction method, and program
CN108170665B (en) Keyword expansion method and device based on comprehensive similarity
JP5379813B2 (en) Data extraction apparatus, data extraction method, and program
JP2023170924A (en) Information processing method, information processing device, and program
CN113901278A (en) Data search method and device based on global multi-detection and adaptive termination

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150319

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160301

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160530

R150 Certificate of patent or registration of utility model

Ref document number: 5953960

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150