JP2012178095A - 高精度な類似検索システム - Google Patents
高精度な類似検索システム Download PDFInfo
- Publication number
- JP2012178095A JP2012178095A JP2011041268A JP2011041268A JP2012178095A JP 2012178095 A JP2012178095 A JP 2012178095A JP 2011041268 A JP2011041268 A JP 2011041268A JP 2011041268 A JP2011041268 A JP 2011041268A JP 2012178095 A JP2012178095 A JP 2012178095A
- Authority
- JP
- Japan
- Prior art keywords
- pivot
- data
- score
- registration
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】
pivot決定部によって登録用データからpivotを決定し、生データを取得し、前記生データから特徴量を抽出し、前記特徴量同士の距離或いは類似度としてスコアを計算し、前記pivotに対する前記スコアを用いて索引用ベクトルを生成し、前記索引用ベクトル同士の距離或いは類似度としてΔスコアを計算し、学習用データを用いて、回帰係数を含むnon−pivot毎のパラメータを学習し、検索用データと前記non−pivotとの前記Δスコアと前記回帰係数を用いて、ロジスティック回帰により事後確率の大きい順に前記non−pivotの選択順序を決定し、前記検索用データと前記登録用データとの前記スコアを基に、検索結果を出力する。
【選択図】 図1
Description
索引用ベクトルとしては、各pivotとのスコアで構成されるベクトル(以後、スコアベクトルと呼ぶ)であっても良いし、距離(或いは類似度)の小さい順(或いは大きい順)にpivotのIDを並べたベクトル(以後、順列ベクトルと呼ぶ)であっても良い。各non−pivotの第1の索引用ベクトルをまとめたものを、インデックスと呼ぶ。
1.wiの初期値wi (0)を適当に設定する。例えば、wi (0)=0とする。τ←0とする。
2.以下のようにwi (τ+1)を求める。τは逐次計算の回数である。
3.wi (τ+1)と(wi (τ))との差が十分小さい、或いはτがある一定値を超えたらwi (τ+1)をwi MAP或いはwi MLとして終了する。そうでなければ、τ←τ+1として、2.に戻る。
101 生データ取得部
102 通信I/F
103 グループID・ユーザ名取得部
104 特徴量抽出部
200 サーバ端末
201 pivot決定部
202 特徴量抽出部
203 スコア計算部
204 索引用ベクトル生成部
205 Δスコア計算部
206 non−pivot毎パラメータ学習部
207 non−pivot選択順序決定部
208 検索結果出力部
209 通信I/F
209a グループ絞込み部
210 データベース
220 マスタデータ
221 グループID
230 登録情報
231 登録用データID
232 生データ
233 特徴量
234 ユーザ名
240 補助情報
241 pivot情報
242 インデックス
250 non−pivot毎のパラメータ
251 索引用ベクトルサイズ
252 回帰係数
300 クライアント端末
301 生データ取得部
302 通信I/F
303 グループID取得部
304 特徴量抽出部
400 ネットワーク
500 CPU
501 メモリ
502 HDD
503 入力装置
504 出力装置
505 通信装置
Claims (15)
- 登録用データからpivotを決定するpivot決定部と、
生データを取得する生データ取得部と、
前記生データから特徴量を抽出する特徴量抽出部と、
前記特徴量同士の距離或いは類似度としてスコアを計算するスコア計算部と、
前記pivotに対する前記スコアを用いて索引用ベクトルを生成する索引用ベクトル生成部と、
前記索引用ベクトル同士の距離或いは類似度としてΔスコアを計算するΔスコア計算部と、
学習用データを用いて、回帰係数を含むnon−pivot毎のパラメータを学習するnon−pivot毎パラメータ学習部と、
検索用データと前記non−pivotとの前記Δスコアと前記回帰係数を用いて、ロジスティック回帰により事後確率の大きい順に前記non−pivotの選択順序を決定するnon−pivot選択順序決定部と、
前記検索用データと前記登録用データとの前記スコアを基に、検索結果を出力する検索結果出力部と、
前記登録用データの前記特徴量と、前記登録用データのうちどれが前記pivotであるかが記されたpivot情報と、前記non−pivot毎の前記索引用ベクトルから構成されるインデックスと、前記non−pivot毎のパラメータを保持するデータベースを持つ
ことを特徴とする類似検索システム。 - 前記non−pivot毎パラメータ学習部は、
索引用ベクトルサイズを含むnon−pivot毎のパラメータを学習する
ことを特徴とする請求項1に記載の類似検索システム。 - 前記non−pivot毎パラメータ学習部は、
誤差関数がなるべく小さくなるように、前記索引用ベクトルサイズを含むnon−pivot毎の前記パラメータを学習する
ことを特徴とする請求項2に記載の類似検索システム。 - 前記non−pivot毎パラメータ学習部は、
前記インデックスのサイズがある一定値以下となるうち、誤差関数の前記non−pivotに対する総和がなるべく小さくなるように、前記索引用ベクトルサイズを含むnon−pivot毎の前記パラメータを学習する
ことを特徴とする請求項2に記載の類似検索システム。 - 前記non−pivot毎パラメータ学習部は、
最大事後確率推定により前記non−pivot毎の前記パラメータを学習する
ことを特徴とする請求項1ないし4に記載の類似検索システム。 - 前記non−pivot毎パラメータ学習部は、
最尤推定により前記non−pivot毎の前記パラメータを学習する
ことを特徴とする請求項1ないし5に記載の類似検索システム。 - 前記non−pivot毎パラメータ学習部は、
前記non−pivot毎に、前記学習用データとのΔスコアを計算し、前記Δスコアを用いて学習に用いる前記学習用データを選択する
ことを特徴とする請求項1ないし6に記載の類似検索システム。 - 前記non−pivot毎パラメータ学習部は、
前記学習用データとして前記登録用データを用いる
ことを特徴とする請求項1ないし7に記載の類似検索システム。 - 前記non−pivot毎パラメータ学習部は、
前記学習用データとして前記登録用データとは別にあらかじめ用意しておいたデータを用いる
ことを特徴とする請求項1ないし7に記載の類似検索システム。 - 前記non−pivot毎パラメータ学習部は、
前記non−pivotに対してクラスタリングを行い、得られたクラスタ毎に前記パラメータの一部或いは全部が共通となるように、前記non−pivot毎の前記パラメータを学習する
ことを特徴とする請求項1ないし9に記載の類似検索システム。 - 前記索引用ベクトル生成部は、
前記索引用ベクトルとして順列ベクトルを生成する
ことを特徴とする請求項1ないし10に記載の類似検索システム。 - 前記索引用ベクトル生成部は、
前記索引用ベクトルとしてスコアベクトルを生成する
ことを特徴とする請求項1ないし10に記載の類似検索システム。 - グループIDを用いて前記登録用データの絞込みを行うグループ絞込み部を持ち、
前記データベースは、
前記グループIDを保持する
ことを特徴とする請求項1ないし12に記載の類似検索システム。 - 登録端末によって、クライアント端末から送信された生データに対して類似検索を行うサーバ端末における高精度な類似検索方法において、
前記生データから抽出した特徴量で構成される登録用データを生成し、
前記登録用データからpivotを選択し、
前記特徴量同士の距離或いは類似度として定義したスコアを計算し、
前記pivotに対する前記スコアを用いて索引用ベクトルを生成し、
前記索引用ベクトル同士の距離或いは類似度として定義したΔスコアを計算し、
予め用意された学習用データを用いて、前記登録用データから前記pivotとして選択されなかったnon−pivot毎の回帰係数を含むパラメータを学習し、
入力された検索用データと前記non−pivotとの前記Δスコアと前記回帰係数を用いて、ロジスティック回帰により事後確率の大きい順に前記non−pivotの選択順序を決定し、
前記検索用データと前記登録用データとの前記スコアを基に、検索結果を出力し、
前記登録用データの前記特徴量と、前記登録用データのうちどれが前記pivotであるかが記されたpivot情報と、前記non−pivot毎の前記索引用ベクトルから構成されるインデックスと、前記non−pivot毎のパラメータをデータベースに保持することを特徴とする高精度な類似検索方法。 - 前記選択順序の決定の際に、前記学習用データを用いて、前記回帰係数を含むnon−pivot毎のパラメータを学習し、前記検索用データと前記non−pivotとの前記Δスコアと前記回帰係数を用いて、ロジスティック回帰により事後確率の大きい順に前記non−pivotの選択順序を決定することを特徴とする請求項14に記載の高精度な類似検索方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011041268A JP5465689B2 (ja) | 2011-02-28 | 2011-02-28 | 高精度な類似検索システム |
EP12153718A EP2492826A1 (en) | 2011-02-28 | 2012-02-02 | High-accuracy similarity search system |
US13/369,634 US20120221574A1 (en) | 2011-02-28 | 2012-02-09 | High-accuracy similarity search system |
CN2012100288861A CN102693258A (zh) | 2011-02-28 | 2012-02-09 | 高精度的类似检索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011041268A JP5465689B2 (ja) | 2011-02-28 | 2011-02-28 | 高精度な類似検索システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012178095A true JP2012178095A (ja) | 2012-09-13 |
JP5465689B2 JP5465689B2 (ja) | 2014-04-09 |
Family
ID=45562814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011041268A Expired - Fee Related JP5465689B2 (ja) | 2011-02-28 | 2011-02-28 | 高精度な類似検索システム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20120221574A1 (ja) |
EP (1) | EP2492826A1 (ja) |
JP (1) | JP5465689B2 (ja) |
CN (1) | CN102693258A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015207818A (ja) * | 2014-04-17 | 2015-11-19 | 株式会社日立製作所 | 異常検知装置及び異常検知システム |
JP2017126330A (ja) * | 2015-12-31 | 2017-07-20 | ダッソー システムズDassault Systemes | 予測型モデルに基づく推薦 |
CN112347282A (zh) * | 2020-11-12 | 2021-02-09 | 四川长虹电器股份有限公司 | 基于原生JavaScript实现查找相似度最高图片的方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10754744B2 (en) | 2016-03-15 | 2020-08-25 | Wisconsin Alumni Research Foundation | Method of estimating program speed-up in highly parallel architectures using static analysis |
CN107423309A (zh) * | 2016-06-01 | 2017-12-01 | 国家计算机网络与信息安全管理中心 | 基于模糊哈希算法的海量互联网相似图片检测系统及方法 |
KR101758219B1 (ko) * | 2017-01-24 | 2017-07-14 | 김훈 | 수치정보 검색이 가능한 수치정보 관리장치 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002544530A (ja) * | 1999-05-14 | 2002-12-24 | エクソンモービル リサーチ アンド エンジニアリング カンパニー | 多変量較正を最適化するための方法 |
JP2010072896A (ja) * | 2008-09-18 | 2010-04-02 | Kddi Corp | 多クラスsvmのためのsv削減方法 |
JP2010152725A (ja) * | 2008-12-25 | 2010-07-08 | Rakuten Inc | 実在店舗検索サーバ及び実在店舗検索方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6468476B1 (en) * | 1998-10-27 | 2002-10-22 | Rosetta Inpharmatics, Inc. | Methods for using-co-regulated genesets to enhance detection and classification of gene expression patterns |
JP2005107743A (ja) * | 2003-09-29 | 2005-04-21 | Nec Corp | 学習システム |
JP5120254B2 (ja) * | 2006-07-06 | 2013-01-16 | 旭硝子株式会社 | クラスタリングシステムおよび欠陥種類判定装置 |
JP4274221B2 (ja) * | 2006-10-02 | 2009-06-03 | ソニー株式会社 | 情報処理装置および方法、プログラム、並びに記録媒体 |
-
2011
- 2011-02-28 JP JP2011041268A patent/JP5465689B2/ja not_active Expired - Fee Related
-
2012
- 2012-02-02 EP EP12153718A patent/EP2492826A1/en not_active Withdrawn
- 2012-02-09 CN CN2012100288861A patent/CN102693258A/zh active Pending
- 2012-02-09 US US13/369,634 patent/US20120221574A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002544530A (ja) * | 1999-05-14 | 2002-12-24 | エクソンモービル リサーチ アンド エンジニアリング カンパニー | 多変量較正を最適化するための方法 |
JP2010072896A (ja) * | 2008-09-18 | 2010-04-02 | Kddi Corp | 多クラスsvmのためのsv削減方法 |
JP2010152725A (ja) * | 2008-12-25 | 2010-07-08 | Rakuten Inc | 実在店舗検索サーバ及び実在店舗検索方法 |
Non-Patent Citations (2)
Title |
---|
CSNJ201110015130; 村上 隆夫 他: '照合順序の最適化とスコア融合判定に基づくIDレス生体認証の高速・高精度化' 2011年 暗号と情報セキュリティシンポジウム SCIS2011 [CD-ROM] , 20110125, pp.1-8, 電子情報通信学会情報セキュリティ研究専門委員会 * |
JPN6013063256; 村上 隆夫 他: '照合順序の最適化とスコア融合判定に基づくIDレス生体認証の高速・高精度化' 2011年 暗号と情報セキュリティシンポジウム SCIS2011 [CD-ROM] , 20110125, pp.1-8, 電子情報通信学会情報セキュリティ研究専門委員会 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015207818A (ja) * | 2014-04-17 | 2015-11-19 | 株式会社日立製作所 | 異常検知装置及び異常検知システム |
JP2017126330A (ja) * | 2015-12-31 | 2017-07-20 | ダッソー システムズDassault Systemes | 予測型モデルに基づく推薦 |
CN112347282A (zh) * | 2020-11-12 | 2021-02-09 | 四川长虹电器股份有限公司 | 基于原生JavaScript实现查找相似度最高图片的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102693258A (zh) | 2012-09-26 |
US20120221574A1 (en) | 2012-08-30 |
EP2492826A1 (en) | 2012-08-29 |
JP5465689B2 (ja) | 2014-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shanthamallu et al. | A brief survey of machine learning methods and their sensor and IoT applications | |
CN108846422B (zh) | 跨社交网络的账号关联方法及系统 | |
JP5465689B2 (ja) | 高精度な類似検索システム | |
CN111695415B (zh) | 图像识别方法及相关设备 | |
JP5286297B2 (ja) | 生体認証システム | |
CN109036577B (zh) | 糖尿病并发症分析方法及装置 | |
CN111259243B (zh) | 基于会话的并行推荐方法及系统 | |
Ilievski et al. | Personalized news recommendation based on implicit feedback | |
Yan et al. | Active learning from multiple knowledge sources | |
CN104112005B (zh) | 分布式海量指纹识别方法 | |
WO2023178971A1 (zh) | 就医的互联网挂号方法、装置、设备及存储介质 | |
CN110597956B (zh) | 一种搜索方法、装置及存储介质 | |
CN113806582B (zh) | 图像检索方法、装置、电子设备和存储介质 | |
CN111026877A (zh) | 基于概率软逻辑的知识验证模型构建与分析方法 | |
Ertekin et al. | Learning to predict the wisdom of crowds | |
Chen et al. | Multiple classifier integration for the prediction of protein structural classes | |
CN113609388A (zh) | 基于反事实用户行为序列生成的序列推荐方法 | |
Dai et al. | Sequential behavior prediction based on hybrid similarity and cross-user activity transfer | |
CN109858031B (zh) | 神经网络模型训练、上下文预测方法及装置 | |
CN115222443A (zh) | 客户群体划分方法、装置、设备及存储介质 | |
Buskirk et al. | Why machines matter for survey and social science researchers: Exploring applications of machine learning methods for design, data collection, and analysis | |
WO2021174923A1 (zh) | 概念词序列生成方法、装置、计算机设备及存储介质 | |
JP5971722B2 (ja) | ハッシュ関数の変換行列を定める方法、該ハッシュ関数を利用するハッシュ型近似最近傍探索方法、その装置及びそのコンピュータプログラム | |
Ng | Recent developments in expectation‐maximization methods for analyzing complex data | |
Kotsiantis | Increasing the accuracy of incremental naive Bayes classifier using instance based learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130305 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131224 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5465689 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |