JP2018190332A - 画像認識装置および学習装置 - Google Patents
画像認識装置および学習装置 Download PDFInfo
- Publication number
- JP2018190332A JP2018190332A JP2017094694A JP2017094694A JP2018190332A JP 2018190332 A JP2018190332 A JP 2018190332A JP 2017094694 A JP2017094694 A JP 2017094694A JP 2017094694 A JP2017094694 A JP 2017094694A JP 2018190332 A JP2018190332 A JP 2018190332A
- Authority
- JP
- Japan
- Prior art keywords
- identification
- learning
- layer
- unit
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
Description
以下、本発明の第1の実施形態について、図面を参照しながら説明する。
例えば、サッカーやラグビーなどのチームスポーツ競技の未編集動画から、試合内容に即したハイライトビデオを自動作成するには、競技特有のプレイや、それらの連鎖である重要なイベントの時間的セグメントを認識することが重要である。さらに競技特有のプレイを詳細に認識するには、映像全体から得られる特徴と、各プレイヤーのプリミティブな行動とが、重要な手がかりとなる。すなわち、試合内容に即したハイライトビデオの自動生成を実現するために、複数の認識タスクを実行することが重要である。つまり、プレイヤーの行動認識、競技特有のプレイ認識、重要イベントの時間的セグメントの認識(イベントセグメント認識)という、少なくとも3つの時間的尺度の異なる階層的な認識タスクを実行することが重要である。
図3において、画像認識装置300は、CPU301と、ROM302と、RAM303と、HDD304と、表示部305と、入力部306と、ネットワークI/F部307とを有している。CPU301は、ROM302に記憶された制御プログラムを読み出して各種処理を実行する。RAM303は、CPU301の主メモリー、ワークエリア等の一時記憶領域として用いられる。HDD304は、各種データや各種プログラム等を記憶する。表示部305は、各種情報を表示する。入力部306は、キーボードやマウスを有し、ユーザによる各種操作を受け付ける。
ネットワークI/F部307は、ネットワークを介して画像形成装置等の外部装置との通信処理を行う。また、他の例としては、ネットワークI/F部307は、無線により外部装置との通信を行ってもよい。
本実施形態の画像認識装置400は、動画取得部401、前処理部402、アクション特徴量取得部403、及びプレイ特徴量取得部404を有する。さらに、第1中間特徴量取得部405、第2中間特徴量取得部406、第3中間特徴量取得部407、アクション識別部408、プレイ識別部409、及びイベントセグメント識別部410を有する。さらに本実施形態における画像認識装置400は、記憶手段として、第1コンテキスト情報保持部411、第2コンテキスト情報保持部412、第3コンテキスト情報保持部413を有する。画像認識装置400が有するこれらの各機能の詳細については、図5(a)等を用いて後述する。
まず、S501において、動画取得部401は、複数のフレームからなる静止画像系列を取得する。例えば、図1(a)で例示した識別対象の動画の一部を動画取得部401が取得する。
図7に示すように、学習装置700は、ネットワーク構造初期化部701、ネットワークパラメータ最適化部702、精度評価部703、層追加部704、およびタスク追加部705を有する。さらに学習装置700は、記憶手段として、学習用データ保持部706、検証用データ保持部707、およびネットワークパラメータ保持部708を有する。
S801においては、ネットワーク構造初期化部701は、認識タスク毎の認識層とネットワーク全体の構造とを初期化する。本実施形態では、まず認識タスクとして、最もスケールの小さいアクション認識と次にスケールの小さいプレイ認識とを、最も浅いネットワークに構成した構造を初期構造とする。図9には、最も浅いネットワークに構成した具体的な初期構造の例を示す。図6に示した構造と比較して、アクション特徴量901、プレイ特徴量904、BLSTM905、アクション識別層906およびプレイ識別層907に示すように、中間層及び識別層の数を最小限にすることにより、最も浅いネットワークを構成している。
ΔE=αΔE(1)+βΔE(2) ・・・(1)
ΔE(1)=ΔE1 (1)+ΔE2 (1)+・・・+ΔEN (1) ・・・(2)
BLSTMの全体の勾配を算出する際に、式(1)を用いたが、代わりに以下の式(3)を用いてもよい。この場合、アクション識別の勾配は、プレイ識別の勾配に対しN人分の重みが加わっているので、それを相殺するためにNでアクション識別の勾配を割っても良い。
ΔE=(α/N)ΔE(1)+βΔE(2) ・・・(3)
以上の処理により学習されたパラメータは、ネットワークパラメータ保持部708に記憶される。
本実施形態では、空間的尺度の異なるマルチタスクを行うCNNを例に説明する。非特許文献2に記載の技術では、1000クラスの物体検出タスクで学習した7層のCNNにおいて各層が何に反応しているかをクラウドソーシングで調査している。受容野に対応する画像をワーカーに分類させると、1層目が色や単純図形、2層目がテクスチャ、3層目が領域や表面、4層目がオブジェクトパーツ、5層目がオブジェクトに反応しているとする答えが多かった。このことは最終的に1000クラスの物体検出を実現するために、低層で暗黙的に上記の性質が獲得されていることを示している。最終層で物体検出を学習すると同時に、低次の層で単純図形やテクスチャ、領域分割等のプリミティブな画像認識を教師あり学習の枠組みで積極的に学習することで、1つのネットワークで空間的スケールの異なるマルチタスクを行うCNNが学習できる。
本実施形態の画像認識装置430は、画像取得部431、前処理部432、第1中間特徴量取得部433、第2中間特徴量取得部434、第3中間特徴量取得部435、エッジ検出部436、物体輪郭検出部437、および物体検出部438を有する。画像認識装置430が有するこれらの各機能の詳細については、図5(b)等を用いて後述する。
まず、S531において、画像取得部431は、マルチタスクの認識を行う対象である静止画を取得する。静止画は外部の記憶装置から取得しも良いし、スチルカメラ等の撮像デバイスで新たに取得しても良い。
本実施形態では、問題の複雑さの尺度が異なるマルチタスクによりカメラの撮像制御用および現像用の画像認識を実現するCNNを例に説明する。本実施形態で扱う識別タスクは、具体的には合焦判定、笑顔検出、色温度推定、シーン分類とする。
本実施形態の画像認識装置450は、画像取得部451、前処理部452、第1中間特徴量取得部453、第2中間特徴量取得部454、第3中間特徴量取得部455、合焦判定部456、笑顔検出部457、色温度推定部458、シーン分類部459を有する。画像認識装置450が有するこれらの機能の詳細については、図5(c)等を用いて後述する。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
406 第2中間特徴量取得部
407 第3中間特徴量取得部
408 アクション識別部
409 プレイ識別部
410 イベントセグメント識別部
Claims (18)
- ニューラルネットワークを用いたネットワーク構造により対象の認識を行う画像認識装置であって、
入力画像から第1の識別を行うための第1の中間特徴量を取得する第1の取得手段と、
前記第1の中間特徴量に基づいて前記第1の識別を行う第1の識別手段と、
前記第1の中間特徴量から前記第1の識別よりもスケールの大きい第2の識別を行うための第2の中間特徴量を取得する第2の取得手段と、
前記第2の中間特徴量に基づいて前記第2の識別を行う第2の識別手段と、
を有することを特徴とする画像認識装置。 - 前記第1の識別手段は、前記ニューラルネットワークの中間層から分枝したネットワークによって実現されることを特徴とする請求項1に記載の画像認識装置。
- 前記スケールは、時間的尺度、空間的尺度、あるいは問題の複雑さの尺度の何れかであることを特徴とする請求項1又は2に記載の画像認識装置。
- 前記スケールは時間的尺度であり、前記ニューラルネットワークは再帰的ニューラルネットワーク(RNN)であることを特徴とする請求項3に記載の画像認識装置。
- 前記スケールは空間的尺度であり、前記ニューラルネットワークは畳み込みニューラルネットワーク(CNN)であることを特徴とする請求項3に記載の画像認識装置。
- 前記第2の識別手段は、さらに前記第1の中間特徴量に基づいて前記第2の識別を行うことを特徴とする請求項5に記載の画像認識装置。
- 前記入力画像は、静止画又は動画であることを特徴とする請求項1〜6の何れか1項に記載の画像認識装置。
- 請求項1〜7の何れか1項に記載の画像認識装置の識別器を学習する学習装置であって、
前記第1の取得手段および前記第2の取得手段をそれぞれ構成する中間層と前記第1の識別手段および前記第2の識別手段をそれぞれ構成する識別層とを初期化する初期化手段と、
前記初期化手段によって初期化された中間層および識別層を、学習データを用い学習する学習手段と、
前記学習手段による学習の結果に応じて、中間層もしくは識別層を新たに追加する追加手段と、
を有することを特徴とする学習装置。 - 前記初期化手段は、前記中間層および前記識別層の数を最小限に構成したネットワーク構造を設定することを特徴とする請求項8に記載の学習装置。
- 前記追加手段は、前記学習手段による学習の結果に応じて、前記中間層の後段に新たな中間層を追加、もしくは前記中間層の最終層に新たな識別層を追加することを特徴とする請求項8又は9に記載の学習装置。
- 前記追加手段は、新たに中間層を追加する場合に前記識別層の下方に追加することを特徴とする請求項10に記載の学習装置。
- 前記学習手段による学習の結果を、検証用データを用いて評価する評価手段をさらに有し、
前記評価手段による評価の結果、精度が閾値未満である場合に、前記追加手段は、新たに中間層を追加することを特徴とする請求項8〜11の何れか1項に記載の学習装置。 - 前記学習手段は、前記第1の識別手段および前記第2の識別手段による識別のそれぞれ対応する正解を含む学習データを用いて学習することを特徴とする請求項8〜12の何れか1項に記載の学習装置。
- 前記学習手段は、確率的勾配降下法を用いて学習を行うことを特徴とする請求項8〜13の何れか1項に記載の学習装置。
- ニューラルネットワークを用いたネットワーク構造により対象の認識を行う画像認識装置の制御方法であって、
入力画像から第1の識別を行うための第1の中間特徴量を取得する第1の取得工程と、
前記第1の中間特徴量に基づいて前記第1の識別を行う第1の識別工程と、
前記第1の中間特徴量から前記第1の識別よりもスケールの大きい第2の識別を行うための第2の中間特徴量を取得する第2の取得工程と、
前記第2の中間特徴量に基づいて前記第2の識別を行う第2の識別工程と、
を有することを特徴とする画像認識装置の制御方法。 - 請求項1〜7の何れか1項に記載の画像認識装置の識別器を学習する学習装置の制御方法であって、
前記第1の取得手段および前記第2の取得手段をそれぞれ構成する中間層と前記第1の識別手段および前記第2の識別手段をそれぞれ構成する識別層とを初期化する初期化工程と、
前記初期化工程において初期化された中間層および識別層を、学習データを用い学習する学習工程と、
前記学習工程による学習の結果に応じて、中間層もしくは識別層を新たに追加する追加工程と、
を有することを特徴とする学習装置の制御方法。 - 請求項1〜7の何れか1項に記載の画像認識装置の各手段としてコンピュータを機能させるためのプログラム。
- 請求項8〜14の何れか1項に記載の学習装置の各手段としてコンピュータを機能させるためのプログラム。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017094694A JP7023613B2 (ja) | 2017-05-11 | 2017-05-11 | 画像認識装置および学習装置 |
| US15/973,960 US10885372B2 (en) | 2017-05-11 | 2018-05-08 | Image recognition apparatus, learning apparatus, image recognition method, learning method, and storage medium |
| JP2022018932A JP7331172B2 (ja) | 2017-05-11 | 2022-02-09 | 画像認識装置および学習装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017094694A JP7023613B2 (ja) | 2017-05-11 | 2017-05-11 | 画像認識装置および学習装置 |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2022018932A Division JP7331172B2 (ja) | 2017-05-11 | 2022-02-09 | 画像認識装置および学習装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2018190332A true JP2018190332A (ja) | 2018-11-29 |
| JP7023613B2 JP7023613B2 (ja) | 2022-02-22 |
Family
ID=64097801
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017094694A Active JP7023613B2 (ja) | 2017-05-11 | 2017-05-11 | 画像認識装置および学習装置 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US10885372B2 (ja) |
| JP (1) | JP7023613B2 (ja) |
Cited By (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019091421A (ja) * | 2017-11-15 | 2019-06-13 | 富士通株式会社 | イベント検出に用いられる深層学習ネットワーク、該ネットワークの訓練装置及び訓練方法 |
| JP2020123244A (ja) * | 2019-01-31 | 2020-08-13 | キヤノン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
| KR102155381B1 (ko) * | 2019-09-19 | 2020-09-11 | 두에이아이(주) | 인공지능 기반 기술의 의료영상분석을 이용한 자궁경부암 판단방법, 장치 및 소프트웨어 프로그램 |
| JPWO2021019645A1 (ja) * | 2019-07-29 | 2021-02-04 | ||
| JP2021081790A (ja) * | 2019-11-14 | 2021-05-27 | キヤノン株式会社 | 認識装置、認識方法 |
| JP6970863B1 (ja) * | 2020-09-23 | 2021-11-24 | 株式会社デンソーテン | モデル生成装置及びモデル生成方法 |
| JP2022508157A (ja) * | 2019-03-07 | 2022-01-19 | エヌイーシー ラボラトリーズ アメリカ インク | 場面理解および高度な運転者支援システムのためのアプリケーションを有するマルチタスク感知ネットワーク |
| JP2022041154A (ja) * | 2020-08-31 | 2022-03-11 | ブラザー工業株式会社 | 印刷材の種類を特定する方法、印刷材の種類の特定装置、および、コンピュータプログラム |
| DE112020003840T5 (de) | 2019-08-13 | 2022-05-05 | Sony Semiconductor Solutions Corporation | Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren, und informationsverarbeitungsprogramm |
| US11417007B2 (en) | 2019-11-20 | 2022-08-16 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling thereof |
| JP2022172661A (ja) * | 2021-05-06 | 2022-11-17 | キヤノン株式会社 | 推論処理装置、撮像装置、推論処理方法及びプログラム |
| JP2022548293A (ja) * | 2019-09-25 | 2022-11-17 | ▲蘇▼州浪潮智能科技有限公司 | 目標検出モデルの自動モデリング方法及び装置 |
| JPWO2023002716A1 (ja) * | 2021-07-20 | 2023-01-26 | ||
| WO2023187899A1 (ja) * | 2022-03-28 | 2023-10-05 | 楽天グループ株式会社 | コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法 |
| WO2024003976A1 (ja) * | 2022-06-27 | 2024-01-04 | 楽天グループ株式会社 | コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム |
Families Citing this family (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020136899A (ja) * | 2019-02-19 | 2020-08-31 | ソニーセミコンダクタソリューションズ株式会社 | 撮像装置、電子機器、および撮像方法 |
| CN109919949B (zh) * | 2019-03-06 | 2020-04-28 | 中国科学院自动化研究所 | 图像精细化阴影区域分割系统、方法、装置 |
| CN109993163B (zh) * | 2019-03-19 | 2023-09-05 | 苏州大学 | 一种基于人工智能的非标铭牌识别系统及其识别方法 |
| CN110020658B (zh) * | 2019-03-28 | 2022-09-30 | 大连理工大学 | 一种基于多任务深度学习的显著目标检测方法 |
| CN110084122B (zh) * | 2019-03-28 | 2022-10-04 | 南京邮电大学 | 基于深度学习的动态人脸情绪识别方法 |
| CN110096964B (zh) * | 2019-04-08 | 2021-05-04 | 厦门美图之家科技有限公司 | 一种生成图像识别模型的方法 |
| JP7231464B2 (ja) * | 2019-04-09 | 2023-03-01 | 株式会社日立製作所 | 物体認識システム及び物体認識方法 |
| US11126890B2 (en) * | 2019-04-18 | 2021-09-21 | Adobe Inc. | Robust training of large-scale object detectors with a noisy dataset |
| CN110348482B (zh) * | 2019-06-05 | 2023-06-02 | 华东理工大学 | 一种基于深度模型集成架构的语音情感识别系统 |
| CN112446257A (zh) * | 2019-09-02 | 2021-03-05 | 株式会社Ntt都科摩 | 基于神经网络的属性识别装置、方法和存储介质 |
| WO2021093947A1 (en) * | 2019-11-13 | 2021-05-20 | Huawei Technologies Co., Ltd. | Multi-hypothesis classification for color constancy |
| US11321587B2 (en) * | 2020-01-30 | 2022-05-03 | Ford Global Technologies, Llc | Domain generation via learned partial domain translations |
| CN111291712B (zh) * | 2020-02-25 | 2023-03-24 | 河南理工大学 | 基于插值的cn和胶囊网络的森林火灾识别方法及装置 |
| WO2021183339A1 (en) * | 2020-03-09 | 2021-09-16 | Commscope Technologies Llc | Smart pole based incident detection and alerting system |
| CN111523414B (zh) * | 2020-04-13 | 2023-10-24 | 绍兴埃瓦科技有限公司 | 人脸识别方法、装置、计算机设备和存储介质 |
| CN115812164B (zh) * | 2020-07-02 | 2025-12-05 | 谷歌有限责任公司 | 用于低光子计数视觉对象检测和分类的系统 |
| CN112347950B (zh) * | 2020-11-11 | 2024-04-05 | 湖北大学 | 基于深度学习的pcb板镭射标靶识别方法及系统 |
| US11943184B2 (en) * | 2021-01-21 | 2024-03-26 | Samsung Electronics Co., Ltd. | Device and method for providing notification message related to content |
| CN113408525B (zh) * | 2021-06-17 | 2022-08-02 | 成都崇瑚信息技术有限公司 | 一种多层三值主元与双向长短期记忆融合的文本识别方法 |
| CN116205882B (zh) * | 2023-03-02 | 2025-03-11 | 超音速人工智能科技股份有限公司 | 基于深度学习的极耳识别方法、装置及存储介质 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2017007626A1 (en) * | 2015-07-09 | 2017-01-12 | Qualcomm Incorporated | Context-based priors for object detection in images |
| JP2017037392A (ja) * | 2015-08-07 | 2017-02-16 | トヨタ自動車株式会社 | ニューラルネットワーク学習装置 |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1650711B1 (en) * | 2003-07-18 | 2015-03-04 | Canon Kabushiki Kaisha | Image processing device, imaging device, image processing method |
| US7706571B2 (en) * | 2004-10-13 | 2010-04-27 | Sarnoff Corporation | Flexible layer tracking with weak online appearance model |
| JP2012235796A (ja) * | 2009-09-17 | 2012-12-06 | Sharp Corp | 診断処理装置、診断処理システム、診断処理方法、診断処理プログラム及びコンピュータ読み取り可能な記録媒体、並びに、分類処理装置 |
| US10074179B2 (en) * | 2013-05-07 | 2018-09-11 | Sharp Kabushiki Kaisha | Image measurement device |
| CN110443351B (zh) * | 2014-11-14 | 2021-05-28 | 谷歌有限责任公司 | 生成映像的自然语言描述 |
| CN109804386A (zh) * | 2016-10-03 | 2019-05-24 | 三菱电机株式会社 | 网络构筑装置和网络构筑方法 |
-
2017
- 2017-05-11 JP JP2017094694A patent/JP7023613B2/ja active Active
-
2018
- 2018-05-08 US US15/973,960 patent/US10885372B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2017007626A1 (en) * | 2015-07-09 | 2017-01-12 | Qualcomm Incorporated | Context-based priors for object detection in images |
| JP2018526723A (ja) * | 2015-07-09 | 2018-09-13 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | 画像中のオブジェクト検出のためのコンテキストベースの事前分布 |
| JP2017037392A (ja) * | 2015-08-07 | 2017-02-16 | トヨタ自動車株式会社 | ニューラルネットワーク学習装置 |
Cited By (33)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019091421A (ja) * | 2017-11-15 | 2019-06-13 | 富士通株式会社 | イベント検出に用いられる深層学習ネットワーク、該ネットワークの訓練装置及び訓練方法 |
| JP2020123244A (ja) * | 2019-01-31 | 2020-08-13 | キヤノン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
| JP7278088B2 (ja) | 2019-01-31 | 2023-05-19 | キヤノン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
| JP7181402B2 (ja) | 2019-03-07 | 2022-11-30 | エヌイーシー ラボラトリーズ アメリカ インク | 場面理解および高度な運転者支援システムのためのアプリケーションを有するマルチタスク感知ネットワーク |
| JP2022508157A (ja) * | 2019-03-07 | 2022-01-19 | エヌイーシー ラボラトリーズ アメリカ インク | 場面理解および高度な運転者支援システムのためのアプリケーションを有するマルチタスク感知ネットワーク |
| JP7268739B2 (ja) | 2019-07-29 | 2023-05-08 | 日本電気株式会社 | 学習データ生成装置、学習装置、識別装置、生成方法及びプログラム |
| JPWO2021019645A1 (ja) * | 2019-07-29 | 2021-02-04 | ||
| US12169960B2 (en) | 2019-07-29 | 2024-12-17 | Nec Corporation | Learning data generation device, learning device, identification device, generation method and storage medium |
| US12087049B2 (en) | 2019-08-13 | 2024-09-10 | Sony Semiconductor Solutions Corporation | Information processing device and information processing method |
| DE112020003840T5 (de) | 2019-08-13 | 2022-05-05 | Sony Semiconductor Solutions Corporation | Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren, und informationsverarbeitungsprogramm |
| WO2021054518A1 (ko) * | 2019-09-19 | 2021-03-25 | 두에이아이(주) | 인공지능 기반 기술의 의료영상분석을 이용한 자궁경부암 진단방법, 장치 및 소프트웨어 프로그램 |
| KR102155381B1 (ko) * | 2019-09-19 | 2020-09-11 | 두에이아이(주) | 인공지능 기반 기술의 의료영상분석을 이용한 자궁경부암 판단방법, 장치 및 소프트웨어 프로그램 |
| US12211258B2 (en) | 2019-09-25 | 2025-01-28 | Inspur Suzhou Intelligent Technology Co., Ltd. | Automatic modeling method and device for object detection model |
| JP2022548293A (ja) * | 2019-09-25 | 2022-11-17 | ▲蘇▼州浪潮智能科技有限公司 | 目標検出モデルの自動モデリング方法及び装置 |
| JP7335430B2 (ja) | 2019-09-25 | 2023-08-29 | ▲蘇▼州浪潮智能科技有限公司 | 目標検出モデルの自動モデリング方法及び装置 |
| JP2021081790A (ja) * | 2019-11-14 | 2021-05-27 | キヤノン株式会社 | 認識装置、認識方法 |
| JP7444585B2 (ja) | 2019-11-14 | 2024-03-06 | キヤノン株式会社 | 認識装置、認識方法 |
| US11417007B2 (en) | 2019-11-20 | 2022-08-16 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling thereof |
| JP2022041154A (ja) * | 2020-08-31 | 2022-03-11 | ブラザー工業株式会社 | 印刷材の種類を特定する方法、印刷材の種類の特定装置、および、コンピュータプログラム |
| JP7528645B2 (ja) | 2020-08-31 | 2024-08-06 | ブラザー工業株式会社 | 印刷材の種類を特定する方法、印刷材の種類の特定装置、および、コンピュータプログラム |
| JP6970863B1 (ja) * | 2020-09-23 | 2021-11-24 | 株式会社デンソーテン | モデル生成装置及びモデル生成方法 |
| WO2022064575A1 (ja) * | 2020-09-23 | 2022-03-31 | 株式会社デンソーテン | モデル生成装置及びモデル生成方法 |
| JP7739040B2 (ja) | 2021-05-06 | 2025-09-16 | キヤノン株式会社 | 推論処理装置、撮像装置、推論処理方法及びプログラム |
| JP2022172661A (ja) * | 2021-05-06 | 2022-11-17 | キヤノン株式会社 | 推論処理装置、撮像装置、推論処理方法及びプログラム |
| JP7460995B2 (ja) | 2021-07-20 | 2024-04-03 | 楽天グループ株式会社 | コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法 |
| WO2023002716A1 (ja) * | 2021-07-20 | 2023-01-26 | 楽天グループ株式会社 | コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法 |
| JPWO2023002716A1 (ja) * | 2021-07-20 | 2023-01-26 | ||
| JP7460997B2 (ja) | 2022-03-28 | 2024-04-03 | 楽天グループ株式会社 | コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法 |
| JPWO2023187899A1 (ja) * | 2022-03-28 | 2023-10-05 | ||
| WO2023187899A1 (ja) * | 2022-03-28 | 2023-10-05 | 楽天グループ株式会社 | コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法 |
| JPWO2024003976A1 (ja) * | 2022-06-27 | 2024-01-04 | ||
| JP7560844B2 (ja) | 2022-06-27 | 2024-10-03 | 楽天グループ株式会社 | コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム |
| WO2024003976A1 (ja) * | 2022-06-27 | 2024-01-04 | 楽天グループ株式会社 | コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| US20180330183A1 (en) | 2018-11-15 |
| US10885372B2 (en) | 2021-01-05 |
| JP7023613B2 (ja) | 2022-02-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7023613B2 (ja) | 画像認識装置および学習装置 | |
| Jaouedi et al. | A new hybrid deep learning model for human action recognition | |
| JP6320112B2 (ja) | 情報処理装置、情報処理方法 | |
| Burić et al. | Adapting YOLO network for ball and player detection | |
| CA3077517A1 (en) | Method and system for classifying an object-of-interest using an artificial neural network | |
| CN112446270A (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
| US20250054187A1 (en) | Main subject determining apparatus, image capturing apparatus, main subject determining method, and storage medium | |
| KR20190099443A (ko) | 외관 탐색을 위한 시스템 및 방법 | |
| CN110781962B (zh) | 基于轻量级卷积神经网络的目标检测方法 | |
| Kemelmacher-Shlizerman et al. | Being john malkovich | |
| KR20170047167A (ko) | 전자 장치가 동영상의 얼굴의 인상을 변형하는 방법 및 그 전자 장치 | |
| CN109074652A (zh) | 图像识别装置、移动体装置以及图像识别程序 | |
| Baby et al. | Dynamic vision sensors for human activity recognition | |
| CN114241379A (zh) | 一种乘客异常行为识别方法、装置、设备及乘客监控系统 | |
| KR102639187B1 (ko) | 얼굴 합성 서비스를 제공하는 방법 및 이를 위한 장치 | |
| Balaji et al. | Object detection using Metaheuristic algorithm for volley ball sports application | |
| CN119131891A (zh) | 一种复杂场景下的双模态手势识别方法及装置 | |
| CN115220574A (zh) | 位姿确定方法及装置、计算机可读存储介质和电子设备 | |
| Wahid et al. | Automated Gait Event Detection in Sports: A Novel Approach Using Ant Colony and XGBoost | |
| US11601591B2 (en) | Image processing apparatus for estimating action of subject and adding information indicating the action of the subject to an image, method for controlling the same, and storage medium | |
| WO2012153868A1 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
| Fernandes et al. | Cricket Shot Detection using 2D CNN | |
| JP7331172B2 (ja) | 画像認識装置および学習装置 | |
| CN113486717A (zh) | 一种行为识别的方法及装置 | |
| Moreno et al. | Marker-less feature and gesture detection for an interactive mixed reality avatar |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200415 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210527 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210706 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210831 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220111 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220209 |
|
| R151 | Written notification of patent or utility model registration |
Ref document number: 7023613 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |