JP5791666B2 - ビジュアルキーワードの動的生成装置 - Google Patents
ビジュアルキーワードの動的生成装置 Download PDFInfo
- Publication number
- JP5791666B2 JP5791666B2 JP2013149362A JP2013149362A JP5791666B2 JP 5791666 B2 JP5791666 B2 JP 5791666B2 JP 2013149362 A JP2013149362 A JP 2013149362A JP 2013149362 A JP2013149362 A JP 2013149362A JP 5791666 B2 JP5791666 B2 JP 5791666B2
- Authority
- JP
- Japan
- Prior art keywords
- visual
- visual keyword
- unit
- keyword
- local feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000007 visual effect Effects 0.000 title claims description 185
- 230000014509 gene expression Effects 0.000 claims description 74
- 238000000034 method Methods 0.000 claims description 59
- 230000008569 process Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
学習画像におけるビジュアルキーワードを、前記学習画像自体の学習過程において動的に生成するための装置であって、
前記学習画像における局所特徴量を取得する局所特徴量取得部と、
ビジュアルキーワードを登録するための語彙DBと、
取得された前記局所特徴量に基づいて、前記語彙DBに登録されているビジュアルキーワードを検索する、ビジュアルキーワード検索部と、
前記ビジュアルキーワード検索部により前記ビジュアルキーワードを検索できなかった場合に、前記局所特徴量を新たなビジュアルキーワードとして前記語彙DBに登録する、ビジュアルキーワード登録部と
を備えることを特徴とする、ビジュアルキーワードの動的生成装置。
前記ビジュアルキーワード検索部は、前記ビジュアルキーワードの検索を、前記局所特徴量と、前記語彙DBに登録されているビジュアルキーワードとの距離が既定値以下であることを基準として行う構成となっている
項目1に記載のビジュアルキーワードの動的生成装置。
前記ビジュアルキーワード登録部は、前記語彙DBに既に登録されている前記ビジュアルキーワードの数が既定値以上である場合には、前記新たなビジュアルキーワードの登録を実行しない構成となっている
項目1又は2に記載のビジュアルキーワードの動的生成装置。
項目1〜3のいずれか1項の動的生成装置を用いた、BoF表現生成用の学習装置であって、さらにBoF表現生成部を備えており、
前記ビジュアルキーワード登録部は、前記新たなビジュアルキーワードを登録する場合に、前記ビジュアルキーワードに対応するIDを生成して、前記BoF表現部に送る構成となっており、
前記語彙DBは、前記ビジュアルキーワードと前記IDとを対応して登録できる構成となっており、
前記ビジュアルキーワード検索部は、前記語彙DBから前記ビジュアルキーワードを検索できた場合には、前記ビジュアルキーワードに対応するIDを特定して、前記BoF表現部に送る構成となっており、
前記BoF表現生成部は、前記ビジュアルキーワード登録部又は前記ビジュアルキーワード検索部により送られた前記IDを用いて、学習画像に対応するBoF表現を生成する構成となっている
BoF表現生成用の学習装置。
項目4に記載の学習装置と、対象画像の認識を行うための認識部とを備えており、
前記認識部は、
前記対象画像に対応するBoF表現を、前記学習画像に対応するBoF表現から検索することによって、前記対象画像の認識を行う構成となっている
画像認識装置。
局所特徴量取得部と、語彙DBと、ビジュアルキーワード検索部と、ビジュアルキーワード登録部とを備えたビジュアルキーワードの動的生成装置を用いて、学習画像におけるビジュアルキーワードを、前記学習画像自体の学習過程において動的に生成するための方法であって、
前記局所特徴量取得部が、前記学習画像における局所特徴量を取得するステップと、
前記ビジュアルキーワード検索部が、取得された前記局所特徴量に基づいて、前記語彙DBに登録されているビジュアルキーワードを検索するステップと、
前記ビジュアルキーワード検索部により前記ビジュアルキーワードを検索できなかった場合に、前記ビジュアルキーワード登録部が、前記局所特徴量を新たなビジュアルキーワードとして前記語彙DBに登録するステップと
を備えることを特徴とする方法。
項目6に記載の各ステップをコンピュータに実行させるためのコンピュータプログラム。
本実施形態の画像認識装置は、学習部1と認識部2とを備えている。さらに、この装置は、語彙DB3と、転置インデックスDB4と、特徴点座標DB5とを備えている。
学習部1は、局所特徴量取得部11と、ビジュアルキーワード検索部12と、ビジュアルキーワード登録部13と、BoF表現生成部14とを備えている。さらに追加的に、本例の学習部1は、転置インデックス登録部15と、特徴点座標登録部16とを備えている。
・画像における特徴領域を特定する;
・特徴領域における特徴量を算出し、これを局所特徴量とする。
認識部2は、認識対象の画像(対象画像)20に対応するBoF表現を、学習画像10に対応するBoF表現から検索することによって、対象画像20の認識(照合)を行うものである。具体的には、本実施形態の認識部2は、対象画像用の局所特徴量取得部21と、ビジュアルキーワード検索部22と、BoF表現生成部23と、転置インデックス検索部24と、特徴点座標照合部25とを備えている。
つぎに、前記した本実施形態の画像認識装置を用いた画像認識方法を、図2及び図3をさらに参照しながら説明する。ここで、図2は学習段階、図3は認識段階を示している。
(図2のステップSA−1)
以下の説明の前提として、本実施形態では、複数枚の学習画像を、適宜な手法により取得して用いるものとする。学習画像は、例えば予め学習画像DB(図示せず)に格納されたもの、実物(例えば商品)をスキャンして取得されたもの、あるいは、ネットワーク上から取得されたものであるが、その入手経路や内容に特に制約はない。学習において用いる学習画像の枚数は、必要に応じて適宜に変更可能である。また、以下の説明では、1枚の学習画像ごとに処理を進めることを仮定するが、複数枚の学習画像について並行して学習工程を進めることは可能である。本実施形態の学習段階では、まず、局所特徴量取得部11が、学習画像10における局所特徴量と、この局所特徴量についての画像空間中での座標を取得する。前記した通り、局所特徴量の取得方法としては、既存の技術を利用できるので、これについての詳しい説明は省略する。
ついで、ビジュアルキーワード検索部12が、取得された局所特徴量に基づいて、語彙DB3に登録されているビジュアルキーワードを検索する(ステップSA−2)。この検索においては、一般的な多次元空間インデックスを利用することができる。検索によりビジュアルキーワードを得られた場合(つまり既定距離内のビジュアルキーワードを見つけられた場合)には、得られたビジュアルキーワードを特定するIDを、ビジュアルキーワード検索部12がBoF表現生成部14に送る(ステップSA−3)。もし複数のIDが検索された場合(つまり既定距離内に複数のビジュアルキーワードがあった場合)は、これら複数のIDを送ることもできる。もちろん、検索するIDの数を、例えば距離に基づいて一つに制限することもできる。
ステップSA−2において、既定距離内のビジュアルキーワードを取得できなかった場合(つまりステップSA−3での判定がNoのとき)は、語彙DB3に登録されているビジュアルキーワードの数が既定数以内かどうかを、ビジュアルキーワード登録部13が確認する(ステップSA−5)。既定数以内であれば、ビジュアルキーワード登録部13は、当該の局所特徴量を新たなビジュアルキーワードとして語彙DB3に登録する(ステップSA−6)。この処理により、本実施形態では、新たなビジュアルキーワードを生成して登録することができる。もし、語彙DB3に格納されているビジュアルキーワードが存在しない場合(例えば最初の局所特徴量に基づいて検索するとき)は、基本的に、取得した局所特徴量をビジュアルキーワードとして特定して登録することができる。なお、本例では、初期状態において語彙DB3に登録されているビジュアルキーワードが存在しないと仮定しているが、存在していても特に問題はない。
ついで、BoF表現生成部14は、ビジュアルキーワード登録部13又はビジュアルキーワード検索部12により送られたIDを用いて、学習画像10に対応するBoF表現を生成する。
ついで、転置インデックス登録部15は、生成されたBoF表現を検索するための転置インデックスを生成して、転置インデックスDB4に登録する。
ついで、特徴点座標登録部16は、前記処理が行われた学習画像についての局所特徴量の位置(つまり特徴点)を示す座標を、特徴点座標DB5に登録する。
次に、対象画像20を認識する手法を、図3をさらに参照しながら説明する。
まず、局所特徴量取得部21は、対象画像20における局所特徴量を取得する。局所特徴量を取得する手法としては、前記した学習画像についての局所特徴量の取得手法と同様に、既存手法を利用できるので、詳しい説明は省略する。
ついで、ビジュアルキーワード検索部22は、前記のステップSB−1で取得された各局所特徴量にもっとも近い一つのビジュアルキーワードを、語彙DB3から検索し、当該ビジュアルキーワードのIDを取得する。ここで、ビジュアルキーワードの検索においては、局所特徴量からの距離が既定値より遠いビジュアルキーワードを除外する(つまり、類似度が既定値より大きいビジュアルキーワードのみを検索する)ことができる。また、ビジュアルキーワードの検索においては、ある局所特徴量からの距離が既定値以内の複数のビジュアルキーワードを取得する構成とすることもできる。このようにすれば、一つの局所特徴量に複数のIDを紐づけることができる。ここで、ビジュアルキーワードの検索は、語彙DB3に登録されたビジュアルキーワードが既定数を越える前であっても行うことができる。つまり、本実施形態での認識は、語彙DB3の完成を待たずに実行可能である。このことは、実際の画像照合における運用の簡素化や効率化を図る上で重要である。
処理すべき全ての局所特徴量に対応するビジュアルキーワードのIDを、前記ステップSB−2において特定した後、BoF表現生成部23は、そのIDを用いてBoF表現を生成することができる。このBoF表現は、1枚の対象画像を量子化して表現するものとなる。
ついで、転置インデックス検索部24は、前記のステップSB−3で得られたBoF表現(つまり対象画像のBoF表現)に最も近いBoF表現を、転置インデックスDB4に格納された転置インデックスを用いて検索する。対象画像のBoF表現と、検索で得られたBoF表現(つまり学習画像のBoF表現)との距離が既定値以上であった場合には、その時点で照合失敗と判定することもできる。
ついで、特徴点座標照合部25は、検索で得られたBoF表現に対応する学習画像の特徴点の座標を、特徴点座標DB5から取得する。ついで、特徴点座標照合部25は、取得された学習画像の特徴点座標と、認識画像の特徴点座標との照合を行う。以下、特徴点座標を照合する手法の一例について説明する。
以下において説明する特徴点座標の照合とは、BoF表現の検索で得られた候補画像(学習画像)と認識対象画像との間における類似性あるいは同一性の確信度を検証するための手法である。
11 局所特徴量取得部
12 ビジュアルキーワード検索部
13 ビジュアルキーワード登録部
14 BoF表現生成部
15 転置インデックス登録部
16 特徴点座標登録部
2 認識部
21 局所特徴量取得部
22 ビジュアルキーワード検索部
23 BoF表現生成部
24 転置インデックス検索部
25 特徴点座標照合部
3 語彙DB
4 転置インデックスDB
5 特徴点座標DB
10 学習画像
20 対象画像
30 認識結果
Claims (7)
- 学習画像におけるBoF表現生成用のビジュアルキーワードを、前記学習画像自体の学習過程において動的に生成するための装置であって、
ここで、前記ビジュアルキーワードは、前記学習画像から生成された局所特徴量であるベクトルデータで構成されており、
さらに、
前記学習画像における局所特徴量を取得する局所特徴量取得部と、
ビジュアルキーワードと当該ビジュアルキーワードに対応するIDとを登録するための語彙DBと、
前記学習画像における前記局所特徴量に基づいて、前記語彙DBに登録されているビジュアルキーワードを、ベクトル空間上での距離に基づいて検索するための、ビジュアルキーワード検索部と、
前記ビジュアルキーワード検索部により、前記ベクトル空間上において前記取得された局所特徴量の近傍にある前記ビジュアルキーワードを検索できなかった場合に、前記局所特徴量を、BoF表現生成用の新たなビジュアルキーワードとして、対応して生成した新たなIDを付して前記語彙DBに登録する、ビジュアルキーワード登録部と
を備えており、
さらに、前記ビジュアルキーワード登録部は、前記学習画像を用いた前記学習過程において、前記新たなビジュアルキーワードに対応するIDを、前記学習画像自体に対応するBoF表現を生成するためのBoF表現生成部に送る構成となっている
ことを特徴とする、ビジュアルキーワードの動的生成装置。 - 前記ビジュアルキーワード検索部は、前記ビジュアルキーワードの検索を、前記局所特徴量と、前記語彙DBに登録されているビジュアルキーワードとの距離が既定値以下であることを基準として行う構成となっている
請求項1に記載のビジュアルキーワードの動的生成装置。 - 前記ビジュアルキーワード登録部は、前記語彙DBに既に登録されている前記ビジュアルキーワードの数が既定値以上である場合には、前記新たなビジュアルキーワードの登録を実行しない構成となっている
請求項1又は2に記載のビジュアルキーワードの動的生成装置。 - 請求項1〜3のいずれか1項の動的生成装置を用いた、BoF表現生成用の学習装置であって、前記BoF表現生成部を備えており、
前記ビジュアルキーワード検索部は、前記語彙DBから前記ビジュアルキーワードを検索できた場合には、前記ビジュアルキーワードに対応するIDを特定して、前記BoF表現部に送る構成となっており、
前記BoF表現生成部は、前記ビジュアルキーワード登録部又は前記ビジュアルキーワード検索部により送られた前記IDを用いて、学習画像に対応するBoF表現を生成する構成となっている
BoF表現生成用の学習装置。 - 請求項4に記載の学習装置と、対象画像の認識を行うための認識部とを備えており、
前記認識部は、
前記対象画像に対応するBoF表現を、前記学習画像に対応するBoF表現から検索することによって、前記対象画像の認識を行う構成となっている
画像認識装置。 - 局所特徴量取得部と、語彙DBと、ビジュアルキーワード検索部と、ビジュアルキーワード登録部とを備えたビジュアルキーワードの動的生成装置を用いて、学習画像におけるBoF表現生成用のビジュアルキーワードを、前記学習画像自体の学習過程において動的に生成するための方法であって、
ここで、前記ビジュアルキーワードは、前記学習画像から生成された局所特徴量であるベクトルデータで構成されており、
さらに、
前記局所特徴量取得部が、前記学習画像における局所特徴量を取得するステップと、
前記ビジュアルキーワード検索部が、前記学習画像における前記局所特徴量に基づいて、前記語彙DBにIDと対応して登録されているビジュアルキーワードを、ベクトル空間上での距離に基づいて検索するステップと、
前記ビジュアルキーワード検索部により、前記ベクトル空間上において前記取得された局所特徴量の近傍にある前記ビジュアルキーワードを検索できなかった場合に、前記ビジュアルキーワード登録部が、前記局所特徴量を、BoF表現生成用の新たなビジュアルキーワードとして、対応して生成した新たなIDを付して前記語彙DBに登録するステップと、
前記ビジュアルキーワード登録部が、前記学習画像を用いた前記学習過程において、前記新たなビジュアルキーワードに対応するIDを、前記学習画像自体に対応するBoF表現を生成するためのBoF表現生成部に送るステップと
を備えることを特徴とする方法。 - 請求項6に記載の各ステップをコンピュータに実行させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013149362A JP5791666B2 (ja) | 2013-07-18 | 2013-07-18 | ビジュアルキーワードの動的生成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013149362A JP5791666B2 (ja) | 2013-07-18 | 2013-07-18 | ビジュアルキーワードの動的生成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015022466A JP2015022466A (ja) | 2015-02-02 |
JP5791666B2 true JP5791666B2 (ja) | 2015-10-07 |
Family
ID=52486871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013149362A Active JP5791666B2 (ja) | 2013-07-18 | 2013-07-18 | ビジュアルキーワードの動的生成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5791666B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6368688B2 (ja) * | 2015-06-19 | 2018-08-01 | 日本電信電話株式会社 | 画像認識装置、画像認識方法、及び画像認識プログラム |
JP6678445B2 (ja) * | 2015-12-18 | 2020-04-08 | ヤフー株式会社 | 量子化装置及び量子化装置の動作方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3472032B2 (ja) * | 1995-04-24 | 2003-12-02 | 株式会社東芝 | 情報フィルタ装置及び情報フィルタ方法 |
-
2013
- 2013-07-18 JP JP2013149362A patent/JP5791666B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015022466A (ja) | 2015-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Universal perturbation attack against image retrieval | |
US11048966B2 (en) | Method and device for comparing similarities of high dimensional features of images | |
Wu et al. | Scalable face image retrieval with identity-based quantization and multireference reranking | |
JP6226802B2 (ja) | ユーザーの指紋から得られるバイオメトリックデータを認証する方法及びシステム、および、バイオメトリック認証システム | |
JP3689455B2 (ja) | 情報処理方法及び装置 | |
CN104615676B (zh) | 一种基于最大相似度匹配的图片检索方法 | |
WO2019080411A1 (zh) | 电子装置、人脸图像聚类搜索方法和计算机可读存储介质 | |
KR101191223B1 (ko) | 이미지 검색 방법, 장치, 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체 | |
JP2017162306A (ja) | 情報処理装置、類似検索プログラム、及び類似検索方法 | |
JP5862413B2 (ja) | 情報変換規則生成プログラム、情報変換規則生成装置および情報変換規則生成方法 | |
JP2006252333A (ja) | データ処理方法、データ処理装置およびそのプログラム | |
JP6004015B2 (ja) | 学習方法、情報処理装置および学習プログラム | |
KR102367859B1 (ko) | 특징 벡터를 이용하여 데이터를 분류하는 장치 및 방법 | |
JP5520353B2 (ja) | BoF表現生成装置及びBoF表現生成方法 | |
US8370390B1 (en) | Method and apparatus for identifying near-duplicate documents | |
CN114528421A (zh) | 内容审核方法、装置、电子设备及存储介质 | |
JP5791666B2 (ja) | ビジュアルキーワードの動的生成装置 | |
Du et al. | Large-scale signature matching using multi-stage hashing | |
JP6017277B2 (ja) | 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法 | |
JP2014225168A (ja) | 特徴点集合で表される画像間の類似度を算出するプログラム、装置及び方法 | |
JP2017162230A (ja) | 情報処理装置、類似データ検索方法、及び類似データ検索プログラム | |
JP5865043B2 (ja) | 情報処理装置、情報処理方法 | |
JP5490859B2 (ja) | ビジュアルキーワード抽出装置、これを用いたBoF表現生成装置、及びビジュアルキーワード抽出方法 | |
JP5646664B2 (ja) | 画像照合装置及び画像照合方法 | |
JP6453618B2 (ja) | 算出装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150413 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150421 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150619 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150707 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150804 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5791666 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |