JP2021190921A - Information processing device and method, program, and storage medium - Google Patents
Information processing device and method, program, and storage medium Download PDFInfo
- Publication number
- JP2021190921A JP2021190921A JP2020096335A JP2020096335A JP2021190921A JP 2021190921 A JP2021190921 A JP 2021190921A JP 2020096335 A JP2020096335 A JP 2020096335A JP 2020096335 A JP2020096335 A JP 2020096335A JP 2021190921 A JP2021190921 A JP 2021190921A
- Authority
- JP
- Japan
- Prior art keywords
- information processing
- recognition
- recognition process
- moving image
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims description 78
- 238000012545 processing Methods 0.000 claims abstract description 59
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 230000008569 process Effects 0.000 claims description 64
- 238000004891 communication Methods 0.000 claims description 48
- 230000001186 cumulative effect Effects 0.000 claims description 4
- 238000003672 processing method Methods 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 14
- 230000004044 response Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Landscapes
- Studio Devices (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、画像から被写体を認識する技術に関するものである。 The present invention relates to a technique for recognizing a subject from an image.
近年、機械学習を中心としたAI技術の開発が盛んに行われている。例えば、カメラで撮影した動画や静止画に含まれる被写体の情報(例えば、人物名、物体名、性別、年齢など)を自動で認識する技術の開発が進められている。このような技術を利用し、カメラで撮影した動画にタグを付与することが考えられる。 In recent years, AI technology centered on machine learning has been actively developed. For example, the development of a technology for automatically recognizing subject information (for example, person name, object name, gender, age, etc.) included in a moving image or a still image taken by a camera is being developed. It is conceivable to use such a technique to add a tag to a moving image taken by a camera.
特許文献1には、被写体認識の対象となる画像からデータ量を低減した画像を被写体認識に用いることにより、被写体認識に要する処理負荷を低減させる手法が開示されている。 Patent Document 1 discloses a method of reducing the processing load required for subject recognition by using an image in which the amount of data is reduced from the image to be subject recognition for subject recognition.
しかしながら、上記の特許文献1に記載のシステムでは、データ量を低減した画像を被写体認識に用いるため、必ずしも信頼度の高い認識結果が得られるとは限らない。一方で、信頼度の高い認識結果を得るためには、データ量を低減していない画像を被写体認識に用いる必要があり、被写体認識に要する時間、バッテリ消費、通信量といった処理負荷が高くなる。このような被写体認識の信頼度と処理負荷の高さがトレードオフの関係にある状況において、ユーザが処理負荷を抑えることを優先したい場合と、信頼度の高い認識結果を得ることを優先したい場合がそれぞれあると考えられる。 However, in the system described in Patent Document 1 above, since an image with a reduced amount of data is used for subject recognition, it is not always possible to obtain a highly reliable recognition result. On the other hand, in order to obtain a highly reliable recognition result, it is necessary to use an image in which the amount of data is not reduced for subject recognition, which increases the processing load such as the time required for subject recognition, battery consumption, and communication amount. In such a situation where the reliability of subject recognition and the high processing load are in a trade-off relationship, the user wants to prioritize reducing the processing load and the user wants to prioritize obtaining a highly reliable recognition result. It is thought that there are each.
例えば、ユーザがカメラでタグの表示や検索の操作をしている場合、ユーザはタグ(被写体認識結果)をすぐに取得したいものと考えられる。また、カメラのバッテリ残量が少ない場合、ユーザはバッテリ残量をなるべく抑えたいものと考えられる。また、ユーザがカメラの通信量に応じて通信料金を支払う場合を想定すると、累積通信量が多い場合、ユーザは通信量をなるべく抑えたいものと考えられる。これらの場合は、ユーザは処理負荷を抑えることを優先したいものと考えられる。 For example, when the user is operating the tag display or search with the camera, it is considered that the user wants to acquire the tag (subject recognition result) immediately. In addition, when the battery level of the camera is low, the user may want to reduce the battery level as much as possible. Further, assuming that the user pays the communication fee according to the communication amount of the camera, it is considered that the user wants to suppress the communication amount as much as possible when the cumulative communication amount is large. In these cases, the user wants to give priority to reducing the processing load.
一方で、上記のいずれの条件にも合致しない場合は、ユーザはより信頼度の高い認識結果を得ることを優先したいものと考えられる。 On the other hand, if none of the above conditions are met, the user may want to prioritize obtaining a more reliable recognition result.
しかし、従来の技術では、被写体の認識の信頼度と処理負荷の関係をユーザの意図に合うように制御することはできなかった。 However, with the conventional technology, it has not been possible to control the relationship between the reliability of subject recognition and the processing load so as to suit the user's intention.
本発明は、上述した課題に鑑みてなされたものであり、その目的は、ユーザの意図に合うように、被写体の認識の信頼度と処理負荷の関係を制御することができる情報処理装置を提供することである。 The present invention has been made in view of the above-mentioned problems, and an object thereof is to provide an information processing apparatus capable of controlling the relationship between the reliability of recognition of a subject and the processing load so as to meet the intention of the user. It is to be.
本発明に係わる情報処理装置は、第1の動画像を取得する取得手段と、前記第1の動画像から一部の画像を抽出する抽出手段と、前記第1の動画像に含まれる被写体を認識する認識処理を行う認識手段と、前記認識処理に要する処理負荷を抑えるべき場合は、前記認識手段に前記一部の画像を用いて前記認識処理を行わせるように制御する制御手段と、
を備えることを特徴とする。
The information processing apparatus according to the present invention includes an acquisition means for acquiring a first moving image, an extraction means for extracting a part of an image from the first moving image, and a subject included in the first moving image. A recognition means that performs recognition processing, and a control means that controls the recognition means to perform the recognition processing using a part of the image when the processing load required for the recognition processing should be suppressed.
It is characterized by having.
本発明によれば、ユーザの意図に合うように、被写体の認識の信頼度と処理負荷の関係を制御することが可能となる。 According to the present invention, it is possible to control the relationship between the reliability of recognition of a subject and the processing load so as to meet the intention of the user.
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。 Hereinafter, embodiments will be described in detail with reference to the accompanying drawings. The following embodiments do not limit the invention according to the claims. Although a plurality of features are described in the embodiment, not all of the plurality of features are essential for the invention, and the plurality of features may be arbitrarily combined. Further, in the attached drawings, the same or similar configurations are given the same reference numbers, and duplicate explanations are omitted.
<システムの構成>
図1は、本発明の一実施形態に係わる情報処理装置とサーバ装置とからなるシステムの構成を示すブロック図である。
<System configuration>
FIG. 1 is a block diagram showing a configuration of a system including an information processing device and a server device according to an embodiment of the present invention.
図1において、情報処理装置100は、例えばデジタルカメラ、スマートフォン端末、タブレット端末、ゲーム機器などのように、撮像機能および通信機能を有する装置からなる。
In FIG. 1, the
制御部101は、入力された信号や、プログラムに従って、情報処理装置100の各部を制御する制御部であり、例えばCentral Processing Unit(CPU)で実装される。なお、制御部101が情報処理装置100の全体を制御する代わりに、複数のハードウェアが処理を分担することにより、装置全体を制御してもよい。
The
メモリ102は、各種データを一時的に保持するバッファメモリや、制御部101の作業領域等として使用される。不揮発性メモリ103は、電気的に消去・記録可能な不揮発性のメモリであり、制御部101で実行されるプログラム等が格納される。
The
操作部104は、情報処理装置100に対する指示をユーザから受け付けるために用いられる。操作部104は、例えば、ユーザが情報処理装置100の電源のON/OFFを指示するための電源ボタンや、通信機能のON/OFFを指示するための操作ボタンを含む。また、後述する表示部105に形成されるタッチパネルも操作部104に含まれる。
The
表示部105は、対話的な操作のためのGUI(Graphical User Interface)表示を行う。なお、表示部105は必ずしも情報処理装置100が内蔵する必要はない。情報処理装置100は表示内容を制御する表示制御機能を少なくとも有していればよい。
The
記憶媒体106は、各種データを記憶することができる。記憶媒体106は、情報処理装置100に着脱可能なように構成されていてもよいし、内蔵されていてもよい。すなわち、情報処理装置100は少なくとも記憶媒体106にアクセスする手段を有していればよい。
The
撮像部107は、例えば、光学系と、絞り・ズーム・フォーカスなどを駆動制御する駆動制御部とを有する光学レンズユニットと、光学レンズユニットを経て導入された光(映像)を電気的な映像信号に変換するための撮像素子などを備えて構成される。撮像部107は、制御部101に制御されることにより、撮像部107に含まれる光学レンズユニットで結像された被写体像を、撮像素子により電気信号に変換し、ノイズ低減処理などを行い、デジタルの画像データを出力する。
The
通信部110は、他の機器との通信を実現するための通信ユニットである。通信部110は、例えば無線通信のためのアンテナと無線信号を処理するための通信コントローラとから構成され、W−CDMA(UMTS)やLTE(Long Term Evolution)等の規格に従って公衆無線通信を実現する。制御部101は、通信部110を制御し、公衆回線140を経由して、サーバ装置120と通信する。
The
サーバ装置120は、例えばパーソナルコンピュータ等のように、被写体認識機能および通信機能を有する装置からなる。
The
制御部121は、入力された信号や、プログラムに従って、サーバ装置120の各部を制御する制御部であり、例えばCentral Processing Unit(CPU)で実装される。なお、制御部121がサーバ装置120の全体を制御する代わりに、複数のハードウェアが処理を分担することにより、装置全体を制御してもよい。制御部121は、後述の通信部130を介して受信した動画または静止画に含まれる被写体情報(例えば、人物名、動作、感情など)を認識する認識処理機能を有する。
The
メモリ122は、各種データを一時的に保持するバッファメモリや、制御部121の作業領域等として使用される。不揮発性メモリ123は、電気的に消去・記録可能な不揮発性のメモリであり、制御部121で実行されるプログラム等が格納される。
The
操作部124は、サーバ装置120に対する指示をユーザから受け付けるために用いられる。操作部124は、例えば、ユーザがサーバ装置120の電源のON/OFFを指示するための電源ボタンを含む。なお、操作部124は、必ずしもサーバ装置120が内蔵する必要はない。サーバ装置120は操作内容を制御する制御機能を少なくとも有していればよい。
The
表示部125は、対話的な操作のためのGUI(Graphical User Interface)の表示を行う。なお、表示部125は必ずしもサーバ装置120が内蔵する必要はない。サーバ装置120は表示内容を制御する表示制御機能を少なくとも有していればよい。
The
記憶媒体126は、各種データを記憶することができる。記憶媒体126は、サーバ装置120に着脱可能なように構成されていてもよいし、内蔵されていてもよい。すなわち、サーバ装置120は少なくとも記憶媒体126にアクセスする手段を有していればよい。
The storage medium 126 can store various data. The storage medium 126 may be configured to be detachable from the
通信部130は、他の機器との通信を実現するための通信ユニットである。通信部130は、例えば通信信号を処理するための通信コントローラから構成され、IEEE802.3規格に従った有線通信を実現する。制御部121は、通信部130を制御し、公衆回線140を経由して、情報処理装置100と通信する。
The
<システムの動作の概要>
次に、本実施形態におけるシステムの動作の概要について説明する。図2は、本実施形態におけるシステムを実現するために、情報処理装置100が記憶媒体106に記憶する情報の一例を示す図である。
<Overview of system operation>
Next, the outline of the operation of the system in this embodiment will be described. FIG. 2 is a diagram showing an example of information stored in the
管理情報200は、情報処理装置100で撮影した動画(動画像)に関する情報であり、少なくともファイル名201、顔検出タイムスタンプ202、動き検出タイムスタンプ203、タグ204、認識方法205の組み合わせで構成される。管理情報200は、撮影した動画に関連付けて記憶される。
The
ファイル名201は、情報処理装置100で撮影した動画のファイル名である。顔検出タイムスタンプ202は、動画中に顔を検出した箇所を示すタイムスタンプである。動き検出タイムスタンプ203は、動画中に動きを検出した箇所を示すタイムスタンプである。タグ204は、動画に含まれる被写体に関する情報である。認識方法205は、タグ204を取得するために用いた被写体認識の方法を示す情報である。
The
図3は、本実施形態のシステムにおける処理の流れを示したシーケンス図である。図3において、情報処理装置100とサーバ装置120は、互いに通信部110および通信部130を介した接続を確立した状態であるものとする。また、図3に示す通信処理は、いずれも各装置の通信部110および通信部130を介して行うものとする。また、図3のステップS309〜S312に示す処理は、ステップS315〜317に示す処理と比べて、処理に要する負荷(時間、バッテリ消費、通信量)が小さいものとする。
FIG. 3 is a sequence diagram showing a processing flow in the system of the present embodiment. In FIG. 3, it is assumed that the
情報処理装置100の制御部101は、ステップS301において、操作部104を介して動画撮影を開始する旨の操作を受け付けると、ステップS302において、撮像部107により取得した画像データをメモリ102に記憶する。
When the
その後、情報処理装置100の制御部101は、ステップS302で記憶した画像データ中に顔を検出した場合は、ステップS303において、顔検出タイムスタンプをメモリ102に記憶する。また、情報処理装置100の制御部101は、ステップS302で記憶した画像データ中に動きを検出した場合は、ステップS304において、動き検出タイムスタンプをメモリ102に記憶する。
After that, when the
情報処理装置100の制御部101は、ステップS305において、操作部104を介して動画撮影を終了する旨の操作を受け付けるまで、ステップS302〜S304の処理を繰り返す。
The
情報処理装置100の制御部101は、ステップS305において、操作部104を介して動画撮影を終了する旨の操作を受け付けると、ステップS306において、ステップS302で記憶した複数の画像データを所定の動画フォーマットに変換して記憶媒体106に保存する。
When the
続いて、情報処理装置100の制御部101は、ステップS307において、下記の情報を管理情報200に記憶する。
・ファイル名201:ステップS306で保存したファイル名
・顔検出タイムスタンプ202:ステップ303で記憶した顔検出タイムスタンプ
・動き検出タイムスタンプ203:ステップ304で記憶した動き検出タイムスタンプ
続いて、情報処理装置100の制御部101は、ステップS308において、操作部104を介して、ステップS306で保存した動画のタグ表示を要求する操作を受け付けると、ステップS309において、該当する動画から部分動画を抽出する。ここで情報処理装置100の制御部101は、管理情報200を参照し、該当する動画から顔検出タイムスタンプ202および動き検出タイムスタンプ203の前後数フレームを抽出した動画を生成する。
Subsequently, the
-File name 201: File name saved in step S306-Face detection time stamp 202: Face detection time stamp stored in step 303-Motion detection time stamp 203: Motion detection time stamp stored in step 304 Next, the information processing device. When the
情報処理装置100の制御部101は、ステップS309で抽出した動画の数だけステップS310〜S312に示す処理を繰り返す。情報処理装置100の制御部101は、ステップS310において、サーバ装置120に対して、被写体認識要求を送信する。情報処理装置100の制御部101は、その被写体認識要求に、ステップS309で抽出した動画を含める。
The
サーバ装置120の制御部121は、ステップS310での被写体認識要求を受信すると、ステップS311において、受信した動画に含まれる被写体情報(例えば、人物名、動作、感情など)を認識する。その後、サーバ装置120の制御部121は、ステップS312において、情報処理装置100に対して、被写体認識応答を送信する。サーバ装置120の制御部121は、その被写体認識応答に、ステップS311において認識された被写体認識結果を含める。
When the
情報処理装置100の制御部101は、被写体認識応答S312を受信すると、ステップS313において、下記の情報を管理情報200に追加記憶する。
・タグ204:ステップS312で受信した全ての被写体認識結果
・認識方法205:「部分」
続いて、情報処理装置100の制御部101は、ステップS314において、ステップ312で受信した被写体認識結果のタグを表示部105に表示する。
Upon receiving the subject recognition response S312, the
-Tag 204: All subject recognition results / recognition method received in step S312: "Part"
Subsequently, in step S314, the
このように、情報処理装置100の制御部101は、S308でのタグ表示操作を受け付けることにより、処理負荷(ここでは時間)を抑えるべきと判定し、動画から所定の部分を抽出した動画を被写体認識に用いる。これにより、ユーザが被写体認識結果を取得するまでの時間を短縮することができる。
In this way, the
続いて、情報処理装置100の制御部101は、ステップS315において、操作部104を介して、動画のタグ表示を終了する操作を受け付けると、ステップS316において、サーバ装置120に対して、被写体認識要求を送信する。情報処理装置100の制御部101は、その被写体認識要求に、ステップS306で保存した動画を含める。
Subsequently, when the
サーバ装置120の制御部121は、ステップS316での被写体認識要求を受信すると、ステップS317において、受信した動画に含まれる被写体情報(例えば、人物名、動作、感情など)を認識する。その後、サーバ装置120の制御部121は、ステップS318において、情報処理装置100に対して、被写体認識応答を送信する。サーバ装置120の制御部121は、その被写体認識応答に、ステップS317の被写体認識結果を含める。
When the
情報処理装置100の制御部101は、ステップS318での被写体認識応答を受信すると、ステップS319において、下記の情報を管理情報200に追加記憶する。
・タグ204:ステップS318で受信した被写体認識結果
・認識方法205:「全体」
このように、情報処理装置100の制御部101は、タグ表示終了操作を受け付けることにより、処理負荷(ここでは時間)を抑えなくてもよいと判定し、動画全体を被写体認識に用いる。これにより、ユーザはより信頼度の高い被写体認識結果を得ることができる。
Upon receiving the subject recognition response in step S318, the
-Tag 204: Subject recognition result /
In this way, the
<各装置の動作>
続いて、上記の動作を実現するための情報処理装置100の詳細な動作について、図4を参照して説明する。
<Operation of each device>
Subsequently, the detailed operation of the
図4は、本実施形態の情報処理装置100の動作を示すフローチャートである。なお、本フローチャートに示す処理は、情報処理装置100の制御部101が入力信号やプログラムに従い、情報処理装置100の各部を制御することにより実現される。また、情報処理装置100は、サーバ装置120と通信部110を介した接続を確立した状態であるものとする。
FIG. 4 is a flowchart showing the operation of the
ステップS401では、制御部101は、操作部104を介して、情報処理装置100の操作を終了する旨の操作(例えば、電源OFF操作など)を受け付けたか否かを判定する。制御部101は、受け付けたと判定した場合は、本フローチャートの処理を終了し、そうでないと判定した場合は、ステップS402に処理を進める。
In step S401, the
ステップS402では、制御部101は、操作部104を介して動画撮影を開始する旨の操作を受け付けたか否かを判定する。制御部101は、受け付けたと判定した場合は、ステップS403に処理を進め、そうでないと判定した場合は、ステップS411に処理を進める。
In step S402, the
ステップS403では、制御部101は、撮像部107により取得された画像データをメモリ102に記憶する。本ステップは、図3のステップS302の処理に相当する。
In step S403, the
ステップS404では、制御部101は、ステップS403で記憶した画像データ中に顔が含まれるか否かを判定する。制御部101は、含まれると判定した場合は、ステップS405に処理を進め、そうでないと判定した場合は、ステップS406に処理を進める。
In step S404, the
ステップS405では、制御部101は、ステップS404で記録したタイムスタンプをメモリ102に記憶する。本ステップは、図3のステップS303の処理に相当する。
In step S405, the
ステップS406では、制御部101は、ステップS403で記憶した画像データ中に動きが含まれるか否かを判定する。制御部101は、含まれると判定した場合は、ステップS407に処理を進め、そうでないと判定した場合は、ステップS408に処理を進める。
In step S406, the
ステップS407では、制御部101は、ステップS406で記録したタイムスタンプをメモリ102に記憶する。本ステップは、図3のステップS304の処理に相当する。
In step S407, the
ステップS408では、制御部101は、操作部104を介して動画撮影を終了する旨の操作を受け付けたか否かを判定する。制御部101は、受け付けたと判定した場合は、ステップS409に処理を進め、そうでないと判定した場合は、ステップS403に処理を戻す。
In step S408, the
ステップS409では、制御部101は、ステップS403で記憶した複数の画像データを所定の動画フォーマットに変換して記憶媒体106に保存する。本ステップは、図3のステップS306の処理に相当する。
In step S409, the
ステップS410では、制御部101は、下記の情報を管理情報200に記憶する。
・ファイル名201:ステップS409で保存したファイル名
・顔検出タイムスタンプ202:ステップ405で記憶したタイムスタンプ
・動き検出タイムスタンプ203:ステップ407で記憶したタイムスタンプ
本ステップは、図3のステップS307の処理に相当する。
In step S410, the
-File name 201: File name saved in step S409-Face detection time stamp 202: Time stamp stored in step 405-Motion detection time stamp 203: Time stamp stored in
ステップS411では、制御部101は、処理負荷を抑えるべきか否かを判定する。制御部101は、下記の条件のいずれかに合致した場合に、処理負荷を抑えるべきと判定する。
・操作部104を介してタグ204を表示または検索する操作を受け付けた場合
・バッテリ残量が所定値以下の場合
・通信部110を介した通信の累積量が所定の量以上の場合
例えば、ユーザが情報処理装置100でタグの表示や検索の操作をしている場合、ユーザはタグ(被写体認識結果)をすぐに取得したいものと考えられる。また、情報処理装置100のバッテリ残量が少ない場合、ユーザはバッテリ残量をなるべく抑えたいものと考えられる。また、ユーザが情報処理装置100の通信量に応じて通信料金を支払う場合を想定すると、累積通信量が多い場合、ユーザは通信量をなるべく抑えたいものと考えられる。一方で、上記のいずれの条件にも合致しない場合(上記の条件の場合以外)は、ユーザはより信頼度の高い被写体認識結果を取得したいものと考えられる。
In step S411, the
-When an operation to display or search the
制御部101は、処理負荷を抑えるべきと判定した場合は、タグ204を未付与の動画について、ステップS412〜S415の処理を繰り返す。そうでない場合、制御部101は、認識方法205が「全体」ではない動画について、ステップS416〜S418の処理を繰り返す。なお、前者の処理は、後者の処理と比べて、処理に要する負荷(時間、バッテリ消費、通信量)が小さいものとする。
When the
ステップS412では、制御部101は、動画から部分動画を抽出する。ここで制御部101は、管理情報200を参照し、該当する動画から顔検出タイムスタンプ202および動き検出タイムスタンプ203の前後数フレームを抽出した動画を生成する。本ステップは、図3のステップS309の処理に相当する。
In step S412, the
制御部101は、ステップS412で抽出した動画について、ステップS413〜S414の処理を繰り返す。
The
ステップS413では、制御部101は、通信部110を介して、サーバ装置120に対して、被写体認識要求を送信する。制御部101は、その被写体認識要求に、ステップS412で抽出した動画を含める。本ステップは、図3のステップS310の処理に相当する。
In step S413, the
ステップS414では、制御部101は、通信部110を介して、サーバ装置120から、被写体認識応答を受信したか否かを判定する。制御部101は、受信したと判定した場合は、次のステップ(未認識の動画があればステップS413、なければステップS415)に処理を進め、そうでないと判定した場合は、再びステップS414の処理を繰り返す。
In step S414, the
ステップS415では、制御部101は、被写体認識対象の動画について、下記の情報を管理情報200に追加記憶する。
・タグ204:ステップS414で受信した全ての被写体認識結果
・認識方法205:「部分」
本ステップは、図3のステップS313の処理に相当する。
In step S415, the
-Tag 204: All subject recognition results received in step S414-Recognition method 205: "Part"
This step corresponds to the process of step S313 in FIG.
このように、情報処理装置100の制御部101は、処理負荷(時間、バッテリ消費、通信量など)を抑えるべきと判定した場合に、動画から所定の部分を抽出した動画を被写体認識に用いる。これにより、ユーザが被写体認識結果を取得するまでの時間を短縮し、バッテリ消費や通信量を抑えることができる。
As described above, when the
ステップS416では、制御部101は、通信部110を介して、サーバ装置120に対して、被写体認識要求を送信する。制御部101は、その被写体認識要求に、被写体認識対象の動画を含める。本ステップは、図3のステップS316の処理に相当する。
In step S416, the
ステップS417では、制御部101は、通信部110を介して、サーバ装置120から、被写体認識応答を受信したか否かを判定する。制御部101は、受信したと判定した場合は、ステップS418に処理を進め、そうでないと判定した場合は、再びステップS417の処理を繰り返す。
In step S417, the
ステップS418では、制御部101は、被写体認識対象の動画について、下記の情報を管理情報200に追加記憶する。
・タグ204:ステップS417で受信した被写体認識結果
・認識方法205:「全体」
本ステップは、図3のステップS319の処理に相当する。
In step S418, the
-Tag 204: Subject recognition result /
This step corresponds to the process of step S319 in FIG.
このように、情報処理装置100の制御部101は、処理負荷(時間、バッテリ消費、通信量など)を抑えなくてもよいと判定した場合に、動画全体を被写体認識に用いる。これにより、ユーザはより信頼度の高い被写体認識結果を得ることができる。
As described above, the
サーバ装置120の動作については、情報処理装置100から被写体認識要求を受信すると、その被写体認識要求に含まれる動画に対して被写体認識を実行し、情報処理装置100に被写体認識応答を送信する、という簡易な内容であるため、図示を省略する。
Regarding the operation of the
以上説明したように、本実施形態の情報処理装置は、被写体認識に要する処理負荷を抑えるべきか否かを判定して、被写体認識に動画の一部分を抽出した画像を用いるか、動画全体を用いるかを切り替える。これにより、被写体認識に要する処理負荷を抑えるべき場合には処理負荷を抑えることを優先し、そうでない場合には信頼度の高い認識結果を得ることを優先できる。 As described above, the information processing apparatus of the present embodiment determines whether or not the processing load required for subject recognition should be suppressed, and uses an image obtained by extracting a part of the moving image for subject recognition, or uses the entire moving image. Switch between. As a result, when the processing load required for subject recognition should be suppressed, it is possible to give priority to suppressing the processing load, and when not, it is possible to give priority to obtaining a highly reliable recognition result.
(実施形態の変形例)
なお、上述の実施形態では、外部のサーバ装置から被写体認識結果を取得する構成を例に挙げたが、情報処理装置の内部に被写体認識機能を有する構成でもよい。すなわち、処理負荷(時間、バッテリ消費など)を抑えるべき場合には、部分抽出した動画を用いて被写体認識を実行し、そうでない場合は動画全体を用いて被写体認識を実行する構成でもよい。
(Modified example of the embodiment)
In the above-described embodiment, the configuration for acquiring the subject recognition result from the external server device is given as an example, but the configuration may have a subject recognition function inside the information processing apparatus. That is, if the processing load (time, battery consumption, etc.) should be suppressed, the subject recognition may be executed using the partially extracted moving image, and if not, the subject recognition may be executed using the entire moving image.
また、上述の実施形態では、処理負荷を抑える場合に部分抽出した動画を用いる構成を例に挙げたが、静止画(静止画像)を抽出する構成でもよい。 Further, in the above-described embodiment, the configuration using the partially extracted moving image is given as an example when the processing load is suppressed, but a configuration for extracting a still image (still image) may also be used.
また、上述の実施形態では、部分抽出した全ての動画について、同一のサーバ装置で被写体認識する構成を例に挙げたが、顔を検出した箇所の動画と、動きを検出した箇所の動画に対して、それぞれ別のサーバ装置で被写体認識を行う構成でもよい。例えば、サーバ装置によって被写体認識の得手不得手がある場合には、得意なサーバ装置を選択することにより、より信頼度の高い被写体認識結果を得ることができる。 Further, in the above-described embodiment, the configuration in which the subject is recognized by the same server device for all the partially extracted moving images is given as an example, but for the moving image of the part where the face is detected and the moving image of the part where the movement is detected. Therefore, the subject may be recognized by different server devices. For example, when the server device has strengths and weaknesses in subject recognition, it is possible to obtain a more reliable subject recognition result by selecting a server device that is good at it.
また、上述の実施形態では被写体認識のアルゴリズムについて、特に限定せずに説明したが、機械学習を用いて被写体を認識する機能を実装してもよい。このようにすることで、より精度よく被写体を認識することができる場合がある。機械学習の具体的なアルゴリズムとしては、最近傍法、ナイーブベイズ法、決定木、サポートベクターマシンなどが挙げられる。また、ニューラルネットワークを利用して、学習するための特徴量、結合重み付け係数を自ら生成する深層学習(ディープラーニング)も挙げられる。適宜、上記アルゴリズムのうち利用できるものを用いて本実施形態に適用することができる。 Further, in the above-described embodiment, the subject recognition algorithm has been described without particular limitation, but a function of recognizing a subject may be implemented by using machine learning. By doing so, it may be possible to recognize the subject with higher accuracy. Specific algorithms for machine learning include the nearest neighbor method, the naive Bayes method, the decision tree, and the support vector machine. In addition, deep learning (deep learning) in which features for learning and coupling weighting coefficients are generated by themselves using a neural network can also be mentioned. As appropriate, any of the above algorithms that can be used can be applied to this embodiment.
例えば、ディープラーニングのような学習モデルを用いて被写体を認識する機能を実装場合、例えば人物の写った画像を入力データとし、その人物を正しく認識した場合の認識結果を教師データとして学習を行うことにより学習済みモデルをあらかじめ作成しておく。この学習モデルをサーバ装置に搭載し、部分抽出した動画を入力として学習済みモデルにより推論処理を行い、認識結果を出力として得ることができる。 For example, when implementing a function to recognize a subject using a learning model such as deep learning, for example, learning is performed using an image of a person as input data and the recognition result when the person is correctly recognized as teacher data. Create a trained model in advance. This learning model can be mounted on a server device, inference processing can be performed by the trained model using a partially extracted video as an input, and the recognition result can be obtained as an output.
また上述のとおり、顔を検出した箇所の動画を入力する学習済みモデルと、動きを検出した箇所の動画を入力する学習済みモデルとを個別に用意してもよい。この場合、動画のうち顔を検出した箇所の動画を入力データとし、顔を検出した箇所の動画から人物を正しく認識した場合の認識結果を教師データとして学習して、学習済みモデルをあらかじめ生成しておく。同様に、動きを検出した箇所の動画を入力データとし、動きを検出した箇所の動画から人物を正しく認識した場合の認識結果を教師データとして学習して、学習済みモデルをあらかじめ生成しておく。このようにすることで、より精度よく被写体を認識することができる。 Further, as described above, a trained model for inputting a moving image of a portion where a face is detected and a trained model for inputting a moving image of a portion where motion is detected may be prepared separately. In this case, the video of the part where the face is detected is used as the input data, and the recognition result when the person is correctly recognized from the video of the part where the face is detected is learned as the teacher data, and the trained model is generated in advance. Keep it. Similarly, the moving image of the place where the movement is detected is used as the input data, and the recognition result when the person is correctly recognized from the moving image of the place where the movement is detected is learned as the teacher data, and the trained model is generated in advance. By doing so, the subject can be recognized more accurately.
なお、ディープラーニングのような学習モデルを実装する場合には、データをより多く並列処理する必要があるため、CPUだけでなくGPUを用いてもよい。このようにすれば、より効率的な処理が可能である。具体的には、学習モデルを含む学習プログラムを実行する場合に、CPUとGPUが協働して演算を行うことで学習を行う。なお、学習の処理はGPUのみにより演算が行われてもよい。また、同様に推論の処理もGPUを用いてもよい。 When implementing a learning model such as deep learning, it is necessary to process more data in parallel, so not only the CPU but also the GPU may be used. By doing so, more efficient processing is possible. Specifically, when a learning program including a learning model is executed, learning is performed by the CPU and the GPU collaborating to perform calculations. The learning process may be performed only by the GPU. Similarly, the GPU may be used for inference processing.
なお、上述の説明では被写体認識機能を機械学習された学習済みモデルを用いて処理を実行したが、ルックアップテーブル(LUT)等のルールベースの処理を行ってもよい。その場合には、例えば、学習済みモデルの入力データと出力データとの関係をあらかじめLUTとして作成する。そして、この作成したLUTを装置のメモリに格納しておくとよい。被写体認識の処理を行う場合には、この格納されたLUTを参照して、出力データを取得することができる。つまりLUTは、前記学習済みモデルと同等の処理をするためのプログラムとして、CPUあるいはGPUなどと協働で動作することにより、被写体認識の処理を行う。 In the above description, the subject recognition function is processed using a machine-learned trained model, but a rule-based process such as a look-up table (LUT) may be performed. In that case, for example, the relationship between the input data and the output data of the trained model is created in advance as a LUT. Then, it is advisable to store the created LUT in the memory of the device. When the subject recognition process is performed, the output data can be acquired by referring to the stored LUT. That is, the LUT performs subject recognition processing by operating in collaboration with a CPU, GPU, or the like as a program for performing the same processing as the trained model.
また、上述の実施形態では、動画全体に対して一様にタグを付与する構成を例に挙げたが、タイムスタンプに対応させてタグを付与する構成でもよい。 Further, in the above-described embodiment, the configuration in which the tag is uniformly attached to the entire moving image is given as an example, but the configuration in which the tag is attached corresponding to the time stamp may be used.
また、上述の実施形態では、動画撮影完了後に被写体認識を実行する構成を例に挙げたが、動画撮影中に被写体認識を実行する構成でもよい。すなわち、動画撮影中に顔や動きを検出した際に、該当フレームを含む数フレームの動画を生成し、被写体認識を実行する構成でもよい。 Further, in the above-described embodiment, the configuration in which the subject recognition is executed after the completion of the moving image shooting is given as an example, but the configuration in which the subject recognition is executed during the moving image shooting may be used. That is, when a face or movement is detected during moving image shooting, a moving image of several frames including the corresponding frame may be generated and subject recognition may be executed.
(他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワークまたは記憶媒体を介してシステムまたは装置に供給し、そのシステムまたは装置のコンピュータがプログラムを読出し実行する処理でも実現可能である。コンピュータは、1または複数のプロセッサーまたは回路を有し、コンピュータ実行可能命令を読み出し実行するために、分離した複数のコンピュータまたは分離した複数のプロセッサーまたは回路のネットワークを含みうる。
(Other embodiments)
The present invention can also be realized by supplying a program that realizes one or more functions of the above-described embodiment to a system or a device via a network or a storage medium, and a process in which a computer of the system or the device reads and executes the program. be. A computer may have one or more processors or circuits and may include a network of separate computers or separate processors or circuits for reading and executing computer-executable instructions.
プロセッサーまたは回路は、中央演算処理装置(CPU)、マイクロプロセッシングユニット(MPU)、グラフィクスプロセッシングユニット(GPU)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートウェイ(FPGA)を含みうる。また、プロセッサーまたは回路は、デジタルシグナルプロセッサ(DSP)、データフロープロセッサ(DFP)、またはニューラルプロセッシングユニット(NPU)を含みうる。 The processor or circuit may include a central processing unit (CPU), a microprocessing unit (MPU), a graphics processing unit (GPU), an application specific integrated circuit (ASIC), a field programmable gateway (FPGA). Also, the processor or circuit may include a digital signal processor (DSP), a data flow processor (DFP), or a neural processing unit (NPU).
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。 The invention is not limited to the above embodiment, and various modifications and modifications can be made without departing from the spirit and scope of the invention. Therefore, a claim is attached to publicize the scope of the invention.
100:情報処理装置、101:制御部(抽出手段)、102:メモリ、103:不揮発性メモリ、104:操作部、105:表示部、106:記憶媒体、107:撮像部、110:通信部 100: Information processing device, 101: Control unit (extraction means), 102: Memory, 103: Non-volatile memory, 104: Operation unit, 105: Display unit, 106: Storage medium, 107: Imaging unit, 110: Communication unit
Claims (15)
前記第1の動画像から一部の画像を抽出する抽出手段と、
前記第1の動画像に含まれる被写体を認識する認識処理を行う認識手段と、
前記認識処理に要する処理負荷を抑えるべき場合は、前記認識手段に前記一部の画像を用いて前記認識処理を行わせるように制御する制御手段と、
を備えることを特徴とする情報処理装置。 The acquisition means for acquiring the first moving image,
An extraction means for extracting a part of an image from the first moving image,
A recognition means that performs a recognition process for recognizing a subject included in the first moving image,
When the processing load required for the recognition process should be suppressed, a control means for controlling the recognition means to perform the recognition process using the part of the image, and a control means.
An information processing device characterized by being equipped with.
前記第1の動画像から一部の画像を抽出する抽出工程と、
前記第1の動画像に含まれる被写体を認識する認識処理を行う認識工程と、
前記認識処理に要する処理負荷を抑えるべき場合は、前記認識工程において前記一部の画像を用いて前記認識処理を行わせるように制御する制御工程と、
を有することを特徴とする情報処理方法。 The acquisition process for acquiring the first moving image and
An extraction step of extracting a part of an image from the first moving image and
A recognition step of performing a recognition process for recognizing a subject included in the first moving image,
When the processing load required for the recognition process should be suppressed, a control step for controlling the recognition process by using a part of the images in the recognition process and a control step for controlling the recognition process.
An information processing method characterized by having.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020096335A JP2021190921A (en) | 2020-06-02 | 2020-06-02 | Information processing device and method, program, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020096335A JP2021190921A (en) | 2020-06-02 | 2020-06-02 | Information processing device and method, program, and storage medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021190921A true JP2021190921A (en) | 2021-12-13 |
Family
ID=78847664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020096335A Pending JP2021190921A (en) | 2020-06-02 | 2020-06-02 | Information processing device and method, program, and storage medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021190921A (en) |
-
2020
- 2020-06-02 JP JP2020096335A patent/JP2021190921A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5159515B2 (en) | Image processing apparatus and control method thereof | |
US20160037067A1 (en) | Method for generating image and electronic device thereof | |
JP5129683B2 (en) | Imaging apparatus and control method thereof | |
WO2017142278A1 (en) | Apparatus and method for providing dynamic panorama function | |
WO2019179283A1 (en) | Image recognition method and device | |
JP2009075999A (en) | Image recognition device, method, and program | |
JP2009253848A (en) | Face expression recognizing device, imaging device, method, and program face expression recognizing device, imaging device, method, and program | |
CN105469356A (en) | Human face image processing method and apparatus thereof | |
US20210209400A1 (en) | Method for providing text translation managing data related to application, and electronic device thereof | |
CN113965694B (en) | Video recording method, electronic device and computer readable storage medium | |
CN113542580B (en) | Method and device for removing light spots of glasses and electronic equipment | |
CN112188461A (en) | Control method and device for near field communication device, medium and electronic equipment | |
CN105307103A (en) | Communication apparatus and method for controlling communication apparatus | |
JP2021093568A (en) | Imaging apparatus, information processing apparatus, and method for controlling these, and program and learned model selection system | |
CN115525188A (en) | Shooting method and electronic equipment | |
JP2018084861A (en) | Information processing apparatus, information processing method and information processing program | |
JP2021190921A (en) | Information processing device and method, program, and storage medium | |
JP2021118399A (en) | Imaging control device, imaging control method, program and recording medium | |
JP2019083371A (en) | Image terminal device, transmission method, and program | |
US11954935B2 (en) | Electronic device improved in object detection performance, image capturing apparatus, method of controlling electronic device, and storage medium | |
JP5911300B2 (en) | Imaging apparatus and control method thereof | |
JP2021072623A (en) | Image forming apparatus and image forming method | |
JP2021193499A (en) | Position detection system, position detection apparatus, projector, and position detection method | |
JP2021180369A (en) | Worker terminal, remote work support device and work support system | |
EP4198925A1 (en) | Image processing apparatus and method for controlling the same, and computer program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20210103 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210113 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230526 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240422 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240617 |