JP7385417B2

JP7385417B2 - 情報処理装置、情報処理方法、および情報処理プログラム

Info

Publication number: JP7385417B2
Application number: JP2019188126A
Authority: JP
Inventors: 裕介三木; 寿英三宅; 雅弘藤丸; 恒男牧; 雅史桑野
Original assignee: Hitachi Zosen Corp; Tokyo Eco Service Co Ltd
Current assignee: Hitachi Zosen Corp; Tokyo Eco Service Co Ltd
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2023-11-22
Anticipated expiration: 2039-10-11
Also published as: JP2021064139A; CN112651281A

Description

本発明は、機械学習により構築された学習済みモデルを用いて検出対象を検出する情報処理装置等に関する。

近年、深層学習などの機械学習の発展により、画像上での物体の認識・検出精度が向上し、画像認識を用いた用途が広がりつつある。しかし、現状の検出精度は１００％ではないため、用途をさらに広げるためにさらなる工夫が必要となる。

例えば、下記の特許文献１に記載の画像認識装置は、物体を撮影した画像について複数種類のテンプレートによりパターンマッチングを行う。そして、この画像認識装置は、複数種類のテンプレートとのパターン一致が判定された場合であって、テンプレートそれぞれ同士が重なる度合が閾値以上である場合は、テンプレート内の少なくとも一つに係る認識対象物であると認識する。これにより、一種類のテンプレートによりパターンマッチングを行う場合と比べて認識精度を向上させることが可能になる。

特開２００８－１６５３９４号公報（２００８年７月１７日公開）

しかしながら、上述のような従来技術には、検出精度を向上させる余地がある。例えば、歩行者検知用のテンプレートと看板検知用のテンプレートを用いた場合、歩行者検知用のテンプレートで歩行者の検出漏れが生じた場合、看板検知用のテンプレートでは歩行者は検知されないので、歩行者の検出漏れを補う手段はない。また、歩行者用のテンプレートで誤検出が生じた場合（例えば街路樹を歩行者と誤認識した場合）にも、その誤検出を補う手段はない。また、検出対象が物体ではない場合（例えば音のデータを学習済みモデルに入力して、所定の音成分を検出する場合）に、特許文献１のような複数のテンプレートを用いたときにも、同様に検出精度を向上させる余地がある。

本発明の一態様は、機械学習済みモデルを用いた検出の検出精度を高めることが可能な情報処理装置等を実現することを目的とする。

上記の課題を解決するために、本発明の一態様に係る情報処理装置は、複数種類の第１の検出対象を検出できるように機械学習された第１の学習済みモデルに入力データを入力して上記第１の検出対象を検出する第１検出部と、上記複数種類の第１の検出対象の少なくとも一部である第２の検出対象を検出できるように機械学習された第２の学習済みモデルに上記入力データを入力して上記第２の検出対象を検出するか、または、上記第１の検出対象とは異なる第３の検出対象を検出できるように機械学習された第３の学習済みモデルに上記入力データを入力して上記第３の検出対象を検出する第２検出部と、を備え、上記第１検出部の検出結果と、上記第２検出部の検出結果とに基づいて、最終の検出結果を確定する。

上記の課題を解決するために、本発明の一態様に係る情報処理方法は、１または複数の情報処理装置により実行される情報処理方法であって、複数種類の検出対象を検出できるように機械学習された第１の学習済みモデルに入力データを入力して、該入力データから上記検出対象を検出する第１検出ステップと、上記複数種類の検出対象の少なくとも一部を検出できるように機械学習された第２の学習済みモデルか、または、上記第１の学習済みモデルとは異なる検出対象を検出できるように機械学習された第３の学習済みモデルに上記入力データを入力して、該入力データから検出対象を検出する第２検出ステップと、を含み、上記第１検出ステップの検出結果と、上記第２検出ステップの検出結果とに基づいて、最終の検出結果を確定する確定ステップと、を含む。

本発明の一態様によれば、機械学習済みモデルを用いた検出の検出精度を高めることが可能になる。

本発明の実施形態１に係る情報処理装置の制御部の機能ブロック図の一例である。上記情報処理装置を含む不適物検出システムの構成例を示すブロック図である。ごみ焼却施設において、ごみ収集車がごみをごみピット内に投下している様子を示す図である。ごみピット内を示す図である。上記情報処理装置が実行する処理の流れを説明する図である。学習済みモデルの構築と再学習を説明する図である。本発明の実施形態２に係る情報処理装置が備える制御部の構成例を示すブロック図である。上記情報処理装置が実行する処理の流れを説明する図である。本発明の実施形態３に係る情報処理装置が備える制御部の構成例を示すブロック図である。上記情報処理装置が実行する処理の流れを説明する図である。

〔実施形態１〕
近年、ごみ焼却施設への焼却不適物（以下、単に不適物と呼ぶ）の投入が問題となっている。不適物が焼却炉に投入されることで、焼却炉における燃焼の悪化、焼却炉の灰出し設備での閉塞などが発生したり、場合によっては、焼却炉を緊急停止させたりすることもある。従来は、ごみ焼却施設の従業員が、収集したごみをランダムに選択し、選択したごみに不適物が含まれていないかを手作業で確認しており、作業員の負担が大きかった。

また、ごみ焼却施設へ運搬される不適物を減らすために、ごみを収集する担当者に注意喚起しようとした場合、運搬されたごみの中から不適物を検出して、検出された不適物を収集の担当者に提示するシステムが必要となる。この場合、実際には不適物ではないものを、不適物であるとして提示することは好ましくない。また、撮影した画像をそのまま担当者に見せる場合、不適物がどのタイミングでどの位置に写っているかを把握しにくいため好ましくない。

本発明の一実施形態に係る情報処理装置１は、上記のような問題点を解決できるものである。情報処理装置１は、ごみ焼却施設に搬入されたごみから不適物を検出する機能を備えている。具体的には、情報処理装置１は、ごみピットに投入される途中のごみを撮影した画像を用いて、不適物を検出する。なお、ごみピットについては図４に基づいて後述する。また、不適物はごみの投下後に検出してもよい。また、不適物とは、ごみ焼却施設に設けられた焼却炉で焼却すべきでない物体である。不適物の具体例については後述する。

〔システム構成〕
本実施形態に係る不適物検出システムの構成を図２に基づいて説明する。図２は、不適物検出システム１００の構成例を示すブロック図である。不適物検出システム１００は、情報処理装置１、ごみ撮影装置２、車両情報収集装置３、選択表示装置４、および不適物表示装置５を含む。

また、図２には、情報処理装置１のハードウェア構成の例についても示している。図示のように、情報処理装置１は、制御部１０、高速記憶部１１、大容量記憶部１２、画像ＩＦ（インタフェース）部１３、車両情報ＩＦ部１４、選択表示ＩＦ部１５、不適物表示ＩＦ部１６を備えている。情報処理装置１は、一例として、パーソナルコンピュータ、サーバー、またはワークステーションであってもよい。

制御部１０は、情報処理装置１の各部を統括して制御するものである。図１に基づいて後述する制御部１０の各部の機能は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現することもできるし、ソフトウェアによって実現することもできる。このソフトウェアには、コンピュータを後述する図１、７、９に記載の制御部１０に含まれる各部として機能させる情報処理プログラムが含まれていてもよい。ソフトウェアによって実現する場合、制御部１０は、例えばＣＰＵ（Central Processing Unit）で構成してもよいし、ＧＰＵ（Graphics Processing Unit）で構成してもよく、これらの組み合わせで構成してもよい。また、この場合、上記ソフトウェアは、大容量記憶部１２に保存しておく。そして、制御部１０は、上記ソフトウェアを高速記憶部１１に読み込んで実行する。

高速記憶部１１と大容量記憶部１２は、何れも情報処理装置１が使用する各種データを記憶する記憶装置である。高速記憶部１１は大容量記憶部１２と比べて高速でデータの書き込みおよび読出しが可能な記憶装置である。大容量記憶部１２は高速記憶部１１と比べてデータの記憶容量が大きい。高速記憶部１１としては、例えばＳＤＲＡＭ（Synchronous Dynamic Random-Access Memory）等の高速アクセスメモリを適用することもできる。また、大容量記憶部１２としては、例えばＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid-State Drive）、ＳＤ（Secure Digital）カード、あるいはｅＭＭＣ（embedded Multi-Media Controller）等を適用することもできる。

画像ＩＦ部１３は、ごみ撮影装置２と情報処理装置１とを通信接続するためのインタフェースである。また、車両情報ＩＦ部１４は、車両情報収集装置３と情報処理装置１とを通信接続するためのインタフェースである。これらのＩＦ部は、有線通信用のものであってもよいし、無線通信用のものであってもよい。例えば、これらのＩＦ部として、ＵＳＢ（Universal Serial Bus）、ＬＡＮ（Local-Area Network）や無線ＬＡＮ等を適用することもできる。

選択表示ＩＦ部１５は、選択表示装置４と情報処理装置１とを通信接続するためのインタフェースである。また、不適物表示ＩＦ部１６は、不適物表示装置５と情報処理装置１とを通信接続するためのインタフェースである。これらのＩＦ部も、有線通信用のものであってもよいし、無線通信用のものであってもよい。例えば、これらのＩＦ部として、ＨＤＭＩ（High-Definition Multimedia Interface、登録商標）、ＤｉｓｐｌａｙＰｏｒｔ、ＤＶＩ（Digital Visual Interface）、ＶＧＡ（Video Graphics Array）端子、Ｓ端子、あるいはＲＣＡ端子等を適用することもできる。

ごみ撮影装置２は、ごみピットに投下される途中のごみを撮影し、撮影画像を情報処理装置１へ送信する。以降、この撮影画像をごみ画像と呼ぶ。一例として、ごみ撮影装置２は、動画を撮影するハイスピードシャッターカメラであってもよい。なお、ごみ画像は、動画像であってもよいし、連続して撮影された時系列の静止画像であってもよい。ごみ画像は、画像ＩＦ部１３を介して情報処理装置１に入力される。そして、入力されたごみ画像は、そのまま制御部１０で処理することもできるし、高速記憶部１１あるいは大容量記憶部１２に保存した後で、制御部１０で処理することもできる。

車両情報収集装置３は、ごみを搬入し、該ごみをごみピット内に投下する車両（いわゆるごみ収集車）の識別情報を収集して情報処理装置１へ送信する。なお、ごみ収集車によるごみピットへのごみの投下については図４に基づいて後述する。この識別情報は、搬入車両特定部１０５が、ごみの搬入主体を特定するために使用される。上記識別情報は、例えば、ナンバープレートのナンバー等を示す情報であってもよい。この場合、車両情報収集装置３は、ナンバープレートを撮影し、撮影した画像を識別情報として情報処理装置１へ送信するものであってもよい。また、車両情報収集装置３は、ごみ収集車の識別情報の入力を受け付けて情報処理装置１へ送信するものであってもよい。

選択表示装置４は、情報処理装置１が検出した不適物の画像を表示する。不適物検出システム１００では、情報処理装置１が、不適物ではないものを不適物と誤判定する可能性を考慮して、情報処理装置１が検出した不適物の画像を選択表示装置４に表示させて、その画像に写っているものが不適物であるか否かを目視確認させる。そして、目視確認の担当者は、選択表示装置４に表示された画像の中から、不適物が写っている画像を選定する。

不適物表示装置５は、情報処理装置１が検出した不適物の画像のうち、選択表示装置４を介して選定された不適物の画像、すなわち不適物が写っていることが目視確認された画像を表示する。不適物表示装置５は、上記不適物を搬入した担当者や事業者等への注意喚起のために上記画像を表示する。

〔ごみ画像の撮影〕
図３は、ごみ焼却施設において、ごみ収集車２００がごみをごみピット内に投下している様子を示す図である。図４は、ごみピット内を示す図である。ごみピットは、ごみ焼却施設に収集されたごみを一時的に格納する場所であり、ごみピット内のごみは順次焼却炉に送り込まれて焼却される。図３に示すように、ごみ焼却施設には扉３００Ａ、３００Ｂといった複数の扉（以降、区別する必要が無い場合、扉３００と総称する）が設けられている。また、図４に示すように、扉３００の先にはごみピットが設けられている。つまり、扉３００が開放されることで、ごみピットへごみを投下するための投下口が現れる。図３に示すように、ごみ収集車２００は、投下口からごみをごみピット内に投下する。

ごみ撮影装置２は、図４のスロープ６００を流れるごみを撮影可能な位置に取り付ける。例えば、図３および図４に示す取付箇所４００にごみ撮影装置２を取り付けてもよい。取付箇所４００は、各扉３００の表面に位置しているから、取付箇所４００にごみ撮影装置２を取り付けた場合、扉３００が開いたときにごみ撮影装置２がスロープ６００の上方に位置することになり、この位置がごみの撮影に好適である。無論、ごみ撮影装置２の取り付け箇所は、スロープ６００を流れるごみを撮影可能な任意の位置とすることができる。

また、車両情報収集装置３が撮影装置である場合、車両情報収集装置３も取付箇所４００に取り付けてもよい。ごみ収集車２００が扉３００に接近する段階では、扉３００が閉まっているため、取付箇所４００に取り付けた車両情報収集装置３からごみ収集車２００のナンバープレート等を撮影することができる。無論、車両情報収集装置３の取り付け箇所は、ごみ収集車２００を撮影可能な任意の位置とすることができ、ごみ撮影装置２とは異なる箇所に取り付けてもよい。また、車両情報収集装置３は、例えば情報の入力装置であってもよく、この場合、車両情報収集装置３をオペレータルームに取り付けて、オペレータによるごみ収集車２００の識別情報の入力を受け付ける構成としてもよい。

〔装置構成〕
情報処理装置１の構成を図１に基づいて説明する。図１は、情報処理装置１の制御部１０の機能ブロック図の一例である。図１に示す制御部１０には、第１検出部１０１、第２検出部１０２、学習部１０３、選択表示制御部１０４、搬入車両特定部１０５、および不適物表示制御部１０６が含まれている。また、図１に示す大容量記憶部１２には、入力データ格納部１２１、検出結果格納部１２２、学習済みモデル格納部１２３、および教師データ格納部１２４が含まれている。

第１検出部１０１は、複数種類の第１の検出対象を検出できるように機械学習された第１の学習済みモデルに入力データを入力して上記第１の検出対象を検出する。なお、複数種類の検出対象を検出する、とは、第１の学習済みモデルで学習させた分類（クラスとも呼ばれる）が複数あることを意味する。

また、第２検出部１０２は、複数種類の第１の検出対象の少なくとも一部である第２の検出対象を検出できるように機械学習された第２の学習済みモデルに上記入力データを入力して上記第２の検出対象を検出する。本実施形態では、複数種類の第１の検出対象が複数種類の不適物であり、第２の検出対象も不適物である例を説明する。なお、第１の検出対象と第２の検出対象には、不適物と外観が類似しているが不適物ではない物体が含まれていてもよい。

上記第１の学習済みモデルおよび第２の学習済みモデルは学習済みモデル格納部１２３から、上記入力データは入力データ格納部１２１から読み出される。詳細は後述するが、第１の学習済みモデルおよび第２の学習済みモデルは、教師データ格納部１２４に格納されている元教師データ１２４ａを用いた機械学習により構築される。また、第１の検出対象および第２の検出結果は、検出結果格納部１２２に保存される。これらの検出結果は、追加教師データ１２２ａとして用いられる。追加教師データ１２２ａを教師データ格納部１２４にコピーしたものが追加教師データ１２４ｂである。第１の学習済みモデルおよび第２の学習済みモデルの再学習は、教師データ格納部１２４に格納されている元教師データ１２４ａと追加教師データ１２４ｂを用いて行われる。

第１の学習済みモデルと第２の学習済みモデルは、機械学習により構築されたモデルであればよい。本実施形態では、第１の学習済みモデルと第２の学習済みモデルが、深層学習により構築したニューラルネットワークの学習済みモデルである例を説明する。より詳細には、これらの学習済みモデルは、画像を入力データとして、その画像に写る検出対象物の物体情報を出力する。物体情報には、物体の分類を示す識別子、位置、大きさ、形状等を示す情報が含まれていてもよい。また、物体情報には、検出結果の確からしさを示す確率値が含まれていてもよい。この確率値は、例えば０～１の数値であってもよい。

また、第１検出部１０１と第２検出部１０２は、上記の確率値に基づいて物体検出を行ってもよい。この場合、予め検出閾値を設定しておき、上記の確率値が閾値より大きい物体を検出した物体としてもよい。検出閾値が大きいほど検出精度は高くなるが、見逃しが多くなり、検出閾値が小さいほど見逃しが少なくなるが、誤検出が増えるので、必要とされる検出精度等に応じて適切な検出閾値を設定すればよい。なお、学習済みモデルの構築については図６に基づいて後述する。

学習部１０３は、第１の学習済みモデルと第２の学習済みモデルの再学習を行う。また、第１の学習済みモデルと第２の学習済みモデルの構築も学習部１０３が行う構成としてもよい。学習済みモデルの構築と再学習については図６に基づいて後述する。なお、第１の学習済みモデル用の学習部１０３と第２の学習済みモデル用の学習部１０３をそれぞれ別に設けてもよい。

選択表示制御部１０４は、第１検出部１０１と第２検出部１０２の検出結果に基づいて確定された検出結果（例えば不適物が写っていると判定された画像）を選択表示装置４に表示させる。目視確認の担当者は、表示された画像に不適物が写っているかを確認し、不適物が写っている画像を選定する。そして、選択表示制御部１０４は、目視確認の担当者による画像の選定を受け付ける。これにより、誤検出をほぼ確実に回避することができる。

搬入車両特定部１０５は、車両情報収集装置３がから受信する識別情報を用いてごみの搬入車両（例えば図３のごみ収集車２００）を特定する。そして、不適物表示制御部１０６は搬入車両特定部１０５が特定した搬入車両が過去に搬入したごみから情報処理装置１が不適物を検出していた場合、上記不適物の画像を不適物表示装置５に表示させる。これにより、当該搬入車両でごみを搬入した担当者に対して不適物の画像を提示して注意喚起することができる。

以上のように、情報処理装置１は、複数種類の第１の検出対象を検出できるように機械学習された第１の学習済みモデルに入力データを入力して上記第１の検出対象を検出する第１検出部１０１と、上記複数種類の第１の検出対象の少なくとも一部である第２の検出対象を検出できるように機械学習された第２の学習済みモデルに上記入力データを入力して上記第２の検出対象を検出する第２検出部１０２と、を備えている。そして、情報処理装置１は、第１検出部１０１の検出結果と、第２検出部１０２の検出結果とに基づいて、最終の検出結果を確定する。具体的には、情報処理装置１では、第１検出部１０１および第２検出部１０２が、共通の出力先に検出結果を出力するので、この共通の出力先に出力された検出結果を最終の検出結果とする。

上記の構成によれば、第１の学習済みモデルと第２の学習済みモデルの検出対象の少なくとも一部が重複しているため、当該重複部分について誤検出が生じる可能性を低減することができる。例えば、不適物である板と不適物ではない段ボールとは、外観が類似していることがあり、このような場合には、板を段ボールと誤検出したり、段ボールを板と誤検出したりすることがあり得る。上記の構成によれば、第１の学習済みモデルと第２の学習済みモデルの一方で、上述の板と段ボールのような誤検出が生じたとしても、他方でその物体を正しく検出できていれば、最終的にはその物体の正しい検出結果を出力することができる。よって、機械学習済みモデルを用いた検出の検出精度を高めることが可能になる。

また、上記の構成によれば、第１検出部１０１が、複数種類の第１の検出対象を検出できるように機械学習された第１の学習済みモデルを用いるため、複数種類の第１の検出対象を一括して効率的に検出することができる。

なお、最終の検出結果を決定する方法は、第１検出部１０１および第２検出部１０２の検出結果の出力先を共通化する方法に限られない。例えば、検出結果を統合するためのブロックを制御部１０に追加して、このブロックによって第１検出部１０１および第２検出部１０２の検出結果を統合し、最終の検出結果としてもよい。統合の方法としては、例えば下記のような方法が挙げられる。

（１）第１検出部１０１の検出結果に第２検出部１０２の検出結果を加えて最終の検出結果とする（例えば、ある画像から第１検出部１０１が不適物Ａ、Ｂを検出し、同じ画像から第２検出部１０２が不適物Ｂ、Ｃを検出した場合に、当該画像からの最終の検出結果を不適物Ａ、Ｂ、Ｃとする等。）。

（２）第１検出部１０１の検出結果と第２検出部１０２の検出結果の共通部分を最終の検出結果とする（例えば、ある画像から第１検出部１０１が不適物Ａ、Ｂ、Ｃを検出し、同じ画像から第２検出部１０２が不適物Ｂを検出した場合に、当該画像からの最終の検出結果を不適物Ｂとする等。）。

（３）第１検出部１０１の検出結果に第２検出部１０２の検出結果を加えるが、両検出結果が整合しない部分は最終の検出結果から除外する（例えば、物体Ｘと物体Ｙが写る画像について、第１検出部１０１は物体Ｘが不適物Ａ、物体Ｙが不適物Ｂであると検出し、第２検出部１０２は物体Ｘが不適物Ａ、物体Ｙが不適物Ｃであると検出した場合に、最終の検出結果を不適物Ａとする等。）。

〔処理の流れ〕
図５は、本実施形態の情報処理装置１が実行する処理の流れを説明する図である。本実施形態の情報処理装置１が実行する処理とその実行順序は、例えば、図５に示す設定ファイルＦ１により定義することができると共に、同図のフローチャートで表すこともできる。

（設定ファイルについて）
図５に示す設定ファイルＦ１は、セクションごとに区切られたデータ構造である。１つのセクションは、セクション名から開始する。図５の例では、“［”と“］”に囲まれた文字列がセクション名であり、具体的には［ＥＸ１］と［ＥＸ２］がセクション名である。１つのセクションは、次のセクションの開始または設定ファイル終了により終了する。１つのセクションに各段階で実行する内容を定義する。

セクションの実行は、本例ではセクション順とするが、この例に限られず、例えばセクション名の一部に実行順を定義してもよい。また、セクション毎に異なったアルゴリズムを実行してもよい。例えば、セクション毎に中間層の数が異なったニューラルネットワークを用いて処理を行うアルゴリズムを実行してもよいし、異なった内部処理を行うアルゴリズムを実行してもよい。なお、上述の各定義は、設定ファイルではなく、他の手段（例えば図５のフローチャートを実行する際の引数）で行ってもよい。

設定ファイルＦ１では、以下のように変数である＜ＫＥＹ＞毎に定義を行う。＜ＫＥＹ＞の値が＜ＶＡＬＵＥ＞である。

＜ＫＥＹ＞＝＜ＶＡＬＵＥ＞
本例の＜ＫＥＹ＞では、セクション毎に「ｓｃｒｉｐｔ」、「ｓｒｃ」、および「ｄｓｔ」の３つを定義している。このうち「ｓｃｒｉｐｔ」は、実行するスクリプトのファイル名を示す。スクリプトファイルは、例えば不適物を検出するアルゴリズムであり、このアルゴリズムには、不適物検出以外の処理が含まれていてもよい。

また、「ｓｒｃ」は、スクリプトの実行に用いる入力データを示す。例えば、画像から物体検出を行うスクリプトの場合、「ｓｒｃ」は、大容量記憶部１２における処理対象の画像の格納場所や、処理対象の画像リストを示すものとしてもよい。そして、「ｄｓｔ」は、スクリプト実行の結果の出力先を示す。例えば、「ｄｓｔ」は、大容量記憶部１２上の場所を示すものであってもよい。なお、実行時に使うその他パラメータ等は、例えば「ｓｃｒｉｐｔ」に定義してもよい。

制御部１０が設定ファイルＦ１を読み込み、設定ファイルＦ１の［ＥＸ１］に定義されている、ファイル名が「ｅｘ１」であるスクリプトファイルを実行することにより、制御部１０は第１検出部１０１として機能する。そして、第１検出部１０１は、「ｅｘ＿ｓｒｃ」を参照して処理対象の画像を特定し、特定した画像から物体検出を行って、その結果を「ｅｘ＿ｄｓｔ」に記録する。次に、制御部１０が、［ＥＸ２］に定義されているファイル名が「ｅｘ２」であるスクリプトファイルを実行することにより、制御部１０は第２検出部１０２として機能する。そして、第２検出部１０２は、「ｅｘ＿ｓｒｃ」を参照して処理対象の画像を特定し、特定した画像から物体検出を行って、その結果を「ｅｘ＿ｄｓｔ」に記録する。

設定ファイルＦ１の［ＥＸ１］における「ｅｘ１」は、上述の第１の学習済みモデルにより入力データである画像から物体検出するスクリプトである。また、［ＥＸ２］における「ｅｘ２」は、上述の第２の学習済みモデルにより入力データである画像から物体検出するスクリプトである。

また、設定ファイルＦ１における［ＥＸ１］と［ＥＸ２］は、「ｓｒｃ」、および「ｄｓｔ」の値が共通している。つまり、第１検出部１０１と第２検出部１０２は、処理対象の画像が共通であり、該画像からの物体検出結果の出力先も共通している。

設定ファイルＦ１における［ＥＸ１］として、例えば図５に示すスクリプトＳＣ１１（スクリプトファイル名：ｅｘ１）を適用してもよい。本スクリプトファイルはＬｉｎｕｘ（登録商標）を含むＵＮＩＸ（登録商標）形式のシェルスクリプト例であるが、例えばＤＯＳ（Disk Operating System）のＢａｔｃｈ形式等の他の形式であってもよい。

本スクリプトファイルを用いる場合、図５に示すように、（１）設定ファイル項目を元に、（２）スクリプトが実行される。ここで、ｅｘ１が前述の通りに実行するスクリプトファイル名であり、ｅｘ＿ｓｒｃおよびｅｘ＿ｄｓｔは引数としてスクリプトに渡される。ｅｘ１スクリプト（ＳＣ１１）は一行から構成され、ここでは第１検出部１０１の実行ファイル（第１検出コマンド）が実行されるが、この例ではこのコマンドは三つの引数を使っている。第１引数＄１にはｅｘ１の引数ｅｘ＿ｓｒｃが渡され、第２引数＄２にはｅｘ１の引数ｅｘ＿ｄｓｔが渡され、第三引数が学習済みモデル（第１の学習済みモデル）のファイル名である。第１の学習済みモデルとしては、例えば全ての検出対象物を機械学習した学習済みモデルを用いる。検出対象物は、例えば、段ボール、板、木、ござ、および長尺物としてもよい。これらの検出対象物のうち、板、木、ござ、および長尺物は不適物である。段ボールは不適物ではないが、板と外観が類似しているため検出対象物に含めている。このように、不適物と外観が類似したごみを検出対象物に含めることにより、不適物の検出漏れや誤検出が生じる可能性を低減することができる。

なお、本例の実行ファイルは三つの引数を用いているが、必要に応じて例えばその他設定項目（検出する閾値等）を引数として用いてもよい。また、必要に応じて引数の順番を変更してもよい。なお、ＳＣ１１は一行のみから構成されているが、例えば第１検出部１０１による処理前や処理後のコマンド（例えば前処理や後処理のコマンド）も必要に応じて追加してもよい。例えば、入力データの整理を行うコマンドや、実行後のログデータから必要な情報を抽出するコマンドなどを追加してもよい。

スクリプトＳＣ１１を用いる場合、例えば、ｓｒｃ＝ｅｘ＿ｓｒｃにて、ごみ撮影装置２で撮影された動画像のファイル（以下、動画ファイルと呼ぶ）あるいは複数の静止画ファイルを指定してもよい。これにより、当該動画ファイルからの検出結果（例えば物体が検出された画像および物体の位置や大きさ情報等）が「ｅｘ＿ｄｓｔ」に保存される。

設定ファイルＦ１における［ＥＸ２］としてスクリプトＳＣ１２を適用してもよい。ＳＣ１１とＳＣ１２の違いは実行する実行ファイル名と利用する学習済みモデルである。また、［ＥＸ２］は、［ＥＸ１］の検出対象物のうち、特に検出漏れを避けたいものを検出対象物とするものとしてもよい。例えば、木の検出漏れを避けたい場合、［ＥＸ２］は木を検出対象物とするものとしてもよい。これにより、［ＥＸ１］で木が検出漏れした場合であっても、［ＥＸ２］で木を検出できれば、全体として木の検出漏れが生じることがない。また、［ＥＸ１］を全ての検出対象物の一部を検出するものとした場合、［ＥＸ２］は全ての検出対象物の他の一部を検出するものとしてもよい。この場合も、［ＥＸ１］の検出対象物と、［ＥＸ２］の検出対象物の少なくとも１つを重複させておく。なお、ＳＣ１１とＳＣ１２ではそれぞれ別の実行ファイルを用いているが、学習済みモデルのみが違う場合、第１検出コマンドおよび第２検出コマンドは同じであってもよい。すなわち、第１検出部１０１および第２検出部１０２は同じであってもよい。

（フローチャートについて）
図５に示すフローチャートの処理（情報処理方法）を説明する。このフローチャートは同図に示す設定ファイルＦ１に沿った処理の流れを示している。このフローチャートの処理が行われる前に、ごみ撮影装置２で撮影された動画ファイルが入力データ格納部１２１の「ｅｘ＿ｓｒｃ」に格納されているとする。なお、動画ファイルの代わりに、該動画ファイルから抽出された複数のフレーム画像またはごみ撮影装置２により時系列で撮影された複数の静止画ファイルが格納されていてもよい。

Ｓ１１（第１検出ステップ）では、第１検出部１０１が、入力データ格納部１２１に格納されている画像から第１の学習済みモデルにより物体検出を行う。具体的には、第１検出部１０１は、入力データ格納部１２１の「ｅｘ＿ｓｒｃ」に格納されている動画ファイルから抽出したフレーム画像を入力データとし、そのフレーム画像をスクリプト名「ｅｘ１」の学習済みモデルに入力して物体情報を出力させる。そして、第１検出部１０１は、物体情報に基づいて物体が検出されたか否かを判定し、物体が検出された場合には、そのフレーム画像と物体情報とを対応付けて検出結果とし、検出結果格納部１２２の「ｅｘ＿ｄｓｔ」に記録する。これらの処理は、「ｅｘ＿ｓｒｃ」に格納されている動画ファイルから抽出したフレーム画像のそれぞれについて行われる。

Ｓ１２（第２検出ステップ、確定ステップ）では、第２検出部１０２が、Ｓ１１と同じフレーム画像から第２の学習済みモデルにより物体検出を行う。このように、第１の学習済みモデルと第２の学習済みモデルに入力する入力データを同じデータとすることにより、検出漏れの発生を抑えることができる。これは、一方の学習済みモデルによる検出で不適物の検出漏れが生じたときでも、他方による検出でその不適物が検出できれば、全体として検出漏れが生じることがないからである。

Ｓ１２において、第２検出部１０２は、具体的には、入力データ格納部１２１の「ｅｘ＿ｓｒｃ」に格納されている動画ファイルから抽出されたフレーム画像を入力データとし、そのフレーム画像をスクリプト名「ｅｘ２」の学習済みモデルに入力して物体情報を出力させる。そして、第２検出部１０２は、物体情報に基づいて物体が検出されたか否かを判定し、物体が検出された場合には、そのフレーム画像と物体情報とを対応付けて検出結果とする。第２検出部１０２は、この検出結果を第１検出部１０１の検出結果と共通の出力先である、検出結果格納部１２２の「ｅｘ＿ｄｓｔ」に記録する。これらの処理は、「ｅｘ＿ｓｒｃ」に格納されている動画ファイルから抽出したフレーム画像のそれぞれについて行われる。Ｓ１２の処理の終了時点で検出結果格納部１２２の「ｅｘ＿ｄｓｔ」に記録されているデータが最終の検出結果である。つまり、Ｓ１２の処理により、最終の検出結果が確定する。

Ｓ１３では、検出結果の出力が行われ、これにより処理は終了する。検出結果の出力は、例えば選択表示制御部１０４が行ってもよい。この場合、選択表示制御部１０４は、Ｓ１１およびＳ１２の処理により「ｅｘ＿ｄｓｔ」に記録されたフレーム画像と物体情報を選択表示装置４に表示させてもよい。これにより、選択表示制御部１０４の使用者は、情報処理装置１の検出結果が正しいか否かを目視で確認し、その確認結果を情報処理装置１に入力することができる。また、選択表示制御部１０４は、入力された上記の確認結果に従って不適物が写っていることが確認された画像を特定することができる。また、選択表示制御部１０４は、目視確認結果に基づいて、物体情報を修正してもよい。そして、目視により不適物が写っていることが確認された画像は、例えば、その不適物の搬入者が再びごみを搬入してきたとき等に、不適物表示制御部１０６によって不適物表示装置５に表示される。

なお、Ｓ１１の処理とＳ１２の処理の実行順序は図５の例に限られず、Ｓ１２の処理を行った後でＳ１１の処理を行ってもよいし、これらの処理を並行で行ってもよい。何れにせよ、Ｓ１１とＳ１２の処理の両方が終了した時点で最終の検出結果が確定する。また、図５の例では、２つの学習済みモデルを用いているが、３つ以上の学習済みモデルを用いてもよい。この場合、設定ファイルＦ１に３つ目以降の学習済みモデルに対応するセクションを追加すればよい。

〔入力データの解像度について〕
本実施形態のように、学習済みモデルに対する入力データが画像データである場合、第１検出部１０１は、画像データの解像度を低下させて第１の学習済みモデルに入力してもよい。あるいは、第２検出部１０２が、画像データの解像度を低下させて第２の学習済みモデルに入力してもよい。入力する画像データの解像度を低下させることにより、学習済みモデルを用いた物体検出処理の演算量を減らし、その所要時間を短縮することができる。

なお、何れの学習済みモデルに対する入力データの解像度を低下させるかは、各学習済みモデルの検出対象に応じて決めておけばよい。例えば、木や板などのサイズの大きい物体の検出は低解像度の画像データでも容易であるが、缶類などのサイズの小さい物体の検出には高解像度の画像データを用いることが好ましい。このため、使用する学習済みモデルのうち、検出対象のサイズが大きいものについては、撮影されたごみ画像を低解像度化したものを入力データとしてもよい。これにより、サイズの大きい物体について、検出精度は落とすことなく、検出処理の高速化を図ることができる。なお、低解像度の画像データを入力データとする学習済みモデルは、入力データと同じ低解像度の画像データを教師データとして構築しておく。また、低解像度の画像データを入力データとして物体検出した後は、画像データの解像度を元に戻して出力する構成としてもよい。解像度を変える処理は、第１検出部１０１または第２検出部１０２が行う構成としてもよいし、解像度を変えるブロックを制御部１０に別途追加してもよい。

また、各学習済みモデルは、検出対象に応じて、中間層の数が異なっていてもよい。例えば、サイズの大きい物体の検出に用いる学習済みモデルの中間層の数は、よりサイズの小さい物体の検出に用いる学習済みモデルの中間層の数よりも少なくしてもよい。このような構成においても、上記の例と同様に、サイズの大きい物体について、検出精度は落とすことなく、検出処理の高速化を図ることができる。

〔学習済みモデルの構築と再学習〕
上述の第１の学習済みモデルおよび第２の学習済みモデルの構築と再学習について図６に基づいて説明する。図６は、学習済みモデルの構築と再学習を説明する図である。ここではニューラルネットワークの学習済みモデルを構築する例を説明する。ニューラルネットワークを利用する場合、中間層を複数としてもよく、この場合の機械学習は深層学習となる。無論、中間層の数は１つとしてもよいし、ニューラルネットワーク以外の機械学習アルゴリズムを適用することもできる。

図示のように、学習済みモデルは初期学習により構築される。そして、初期学習により構築された学習済みモデルを用いて物体検出が行われ、その物体検出結果を用いて再学習が行われ、学習済みモデルが更新される。

初期学習には、検出対象物が写っている画像を教師画像とし、教師画像に写っている検出対象物の物体情報（例えば、物体の分類を示す識別子、位置、大きさ、形状等を示す情報）を正解データとする教師データを用いる。教師データは図１の教師データ格納部１２４に保存されているとするが、初期学習で用いる教師データは元教師データ１２４ａのみである。機械学習では、学習部１０３は、この教師画像をニューラルネットワークに入力し、該ニューラルネットワークの出力値が正解データに近付くように重み値を更新する処理を、教師画像を変更しながら繰り返し行う。

機械学習において、基本的には繰り返し回数が多いほど重み値は最適な値に近付くが、過学習等の要因で、繰り返し後に重み値が最適な値から離れることもある。また、複数の検出対象物を検出する学習済みモデルを構築する場合、ある重み値を適用したときにはある検出対象物の検出精度が高いが、他の検出対象物の検出精度が低くなるということもあり得る。

そこで、図６の例では、重み値の異なる複数の学習済みモデル１～Ｉを生成している。そして、これらの学習済みモデルの中から上述の第１の学習済みモデルとして適用するものと、上述の第２の学習済みモデルとして適用するものとを選定する。例えば、学習済みモデル１～Ｉのそれぞれに、検出対象物が写っている画像をテストデータとして入力し、その出力値から各検出対象物の検出精度を算出して、算出した検出精度を基準として上記選定を行ってもよい。なお、これらの学習済みモデルは学習済みモデル格納部１２３に保存される。

また、この選定では、第１の学習済みモデルと第２の学習済みモデルの両方の検出精度が低い検出対象物が生じないようにすることが好ましい。例えば、第１の学習済みモデルが長尺物の検出精度が低い場合、長尺物の検出精度が高いものを第２の学習済みモデルとすることが好ましい。なお、学習済みモデル１～Ｉから第１の学習済みモデルと第２の学習済みモデルの両方を選定する必要はない。例えば、学習済みモデル１～Ｉから第１の学習済みモデルを選定した場合、別途構築した複数の学習済みモデルから第２の学習済みモデルを選定してもよい。

また、学習済みモデルの選定は、人手によって行ってもよいし、情報処理装置１に行わせてもよい。後者の場合、学習済みモデルの選定基準を予め設定し、その選定基準を充足するか否かの判定に必要な情報（例えば各学習済みモデルにおける各検出対象物の検出精度を示す情報）を情報処理装置１に入力するか、算出させればよい。

このようにして選定した第１の学習済みモデルと第２の学習済みモデルを用いて検出対象画像から物体検出を行うことにより、図５に基づいて説明したように、物体が検出された画像と物体情報が検出結果格納部１２２に記録されていく。学習部１０３は、この画像を教師画像とし、この画像の物体情報を正解データとして追加した教師データと、初期学習に用いた元教師データ１２４ａとを用いて再学習を行う。なお、教師データとして使用する画像と物体情報は、選択表示装置４を介した目視により正しいことが確認されたものとすることが好ましい。ここで選ばれた教師データは追加教師データ１２２ａとし、再学習のために教師データ格納部１２４に追加教師データ１２４ｂとしてコピーしてもよい。なお、ここで追加教師データ１２４ｂは追加教師データ１２２ａのコピーとしているが、コピーせずに１２４ｂを１２２ａと同じにしてもよい。

なお、検出結果格納部１２２には画像および物体情報が記録されるが、入力データが静止画の場合は画像を保存する必要はなく、入力データの画像ファイル名のみを記録してもよい。

再学習では、学習部１０３は、教師データ格納部１２４に格納されている元教師データ１２４ａと追加教師データ１２４ｂとを用いて学習を行い、重み値の異なる複数の再学習済みモデル１～Ｊを構築する。そして、その中から第１の学習済みモデルと第２の学習済みモデルが選定される。初期学習との相違点は、機械学習に使用する教師データに追加教師データ１２４ｂが追加されている点である。教師データが追加されることにより、学習済みモデルの検出精度の向上が期待できる。なお、再学習では、学習部１０３は、物体検出の結果として記録されている物体情報の全てを使用する必要はなく、該物体情報の一部を選定して使用してもよい。また、学習部１０３は、再学習を複数回繰り返してもよい。また、実施形態２以降の各学習済みモデルも上記と同様にして構築することができ、また再学習することができる。

〔実施形態２〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。これは後述の実施形態３も同様である。

〔制御部の構成例〕
本実施形態の情報処理装置１の制御部１０の構成例を図７に基づいて説明する。図７は、実施形態２に係る情報処理装置１が備える制御部１０の構成例を示すブロック図である。また、図７では、大容量記憶部１２についても併せて図示している。

図７に示すように、制御部１０には、第１検出部２０１、第２検出部２０２Ａ、および第２検出部２０２Ｂが含まれている。なお、学習部１０３、選択表示制御部１０４、搬入車両特定部１０５、および不適物表示制御部１０６は実施形態１と同様であるから図示を省略している。

第１検出部２０１は、複数種類の第１の検出対象を検出できるように機械学習された第１の学習済みモデルに入力データを入力して上記第１の検出対象を検出する。第１検出部２０１は、実施形態１の第１検出部１０１と同様の機能を有しているが、第１検出部２０１の検出結果に基づいて第２検出部２０２Ａおよび第２検出部２０２Ｂが使用する入力データが決定される点で、第１検出部１０１と相違している。

第２検出部２０２Ａは、複数種類の第１の検出対象の少なくとも一部である第２の検出対象Ａを検出できるように機械学習された第２の学習済みモデルＡに上記入力データ（第１検出部２０１の検出結果）を入力して上記第２の検出対象Ａを検出する。第２の検出対象Ａについては、第２検出部２０２Ａの検出結果が最終の検出結果となる。第２検出部２０２Ａは、第２の学習済みモデルＡに対する入力データとして、第１検出部２０１に対する入力データのうち、第１検出部２０１が検出対象を検出した入力データを用いる点で、実施形態１の第２検出部１０２と相違している。

第２検出部２０２Ｂは、第２検出部２０２Ａと同様に、第１検出部２０１によって検出対象が検出された入力データを第２の学習済みモデルＢに入力して該入力データ（第１検出部２０１の検出結果）から、複数種類の第１の検出対象の少なくとも一部である第２の検出対象Ｂを検出する。第２の検出対象Ｂについては、第２検出部２０２Ｂの検出結果が最終の検出結果となる。なお、第２の検出対象Ａと第２の検出対象Ｂは、異なる物体である。

以上のように、情報処理装置１は、複数種類の第１の検出対象を検出できるように機械学習された第１の学習済みモデルに入力データを入力して上記第１の検出対象を検出する第１検出部２０１と、上記複数種類の第１の検出対象の少なくとも一部である第２の検出対象を検出できるように機械学習された第２の学習済みモデルに上記入力データを入力して上記第２の検出対象を検出する第２検出部２０２Ａと、を備えている。そして、情報処理装置１は、第１検出部２０１の検出結果と、第２検出部２０２Ａの検出結果とに基づいて、最終の検出結果を確定する。具体的には、本実施形態の情報処理装置１では、第２検出部２０２Ａは、上記複数の入力データのうち第１検出部２０１によって上記第１の検出対象が検出された入力データを第２の学習済みモデルに入力して第２の検出対象Ａを検出し、第２の検出対象Ａについては、第２検出部２０２Ａの検出結果を最終の検出結果とする。また、第２検出部２０２Ｂは、上記複数の入力データのうち第１検出部２０１によって上記第１の検出対象が検出された入力データを第２の学習済みモデルＢに入力して第２の検出対象Ｂを検出し、第２の検出対象Ｂについては、第２検出部２０２Ｂの検出結果を最終の検出結果とする。

上記の構成によれば、第１の学習済みモデルと第２の学習済みモデルＡの検出対象の少なくとも一部が重複しているため、当該重複部分について誤検出が生じる可能性を低減することができる。同様に、第１の学習済みモデルと第２の学習済みモデルＢの検出対象の少なくとも一部も重複しているため、当該重複部分について誤検出が生じる可能性を低減することができる。よって、機械学習済みモデルを用いた検出の検出精度を高めることが可能になる。また、上記の構成によれば、第１検出部２０１が、複数種類の第１の検出対象を検出できるように機械学習された第１の学習済みモデルを用いるため、複数種類の第１の検出対象を一括して効率的に検出することができる。

なお、最終の検出結果を決定する方法は、上述の方法に限られない。例えば、実施形態１で説明したように、検出結果を統合するためのブロックを制御部１０に追加して、このブロックによって第１検出部２０１および第２検出部２０２Ａの検出結果を統合し、最終の検出結果としてもよい。第１検出部２０１および第２検出部２０２Ｂの検出結果の統合についても同様である。また、実施形態１の「入力データの解像度について」で説明した例と同様に、第１の学習済みモデルの入力データか、第２の学習済みモデルＡおよび第２の学習済みモデルＢの何れかまたは両方の入力データとして、解像度を低下させた画像データを用いてもよい。

なお、図７の例では、第１検出部２０１の検出対象物の一部を検出するブロックとして第２検出部２０２Ａおよび第２検出部２０２Ｂの２つを記載している。しかし、第１検出部２０１の検出対象物の一部を検出するブロックは１つのみであってもよいし、３つ以上であってもよい。

〔処理の流れ〕
図８は、本実施形態の情報処理装置１が実行する処理の流れを説明する図である。本実施形態の情報処理装置１が実行する処理とその実行順序は、例えば、図８に示す設定ファイルＦ２により定義することができると共に、同図のフローチャートで表すこともできる。

（設定ファイルについて）
設定ファイルＦ２では、［ＥＸ＿ａｌｌ］、［ＥＸ＿ｇｏｚａ］、および［ＥＸ＿ｔｒｅｅ］という３つのセクションがこの順序で定義されている。それぞれのスクリプトの詳細は省略するがＳＣ１１およびＳＣ１２と同様である。［ＥＸ＿ａｌｌ］で用いる学習済みモデルはＳＣ１１と同じであり、全ての検出対象物（例えば、段ボール、板、木、ござ、および長尺物）を検出するセクションである。［ＥＸ＿ｇｏｚａ］は、検出対象物のうちござの検出に特化したセクションであり、［ＥＸ＿ｔｒｅｅ］は、検出対象物のうち木の検出に特化したセクションである。

［ＥＸ＿ｇｏｚａ］および［ＥＸ＿ｔｒｅｅ］のｓｒｃは、何れも［ＥＸ＿ａｌｌ］のｄｓｔである「ａｌｌ＿ｒｅｓ」である。つまり、［ＥＸ＿ｇｏｚａ］は、［ＥＸ＿ａｌｌ］により少なくとも何れかの検出対象物が検出された画像からござを検出し、［ＥＸ＿ｔｒｅｅ］は、［ＥＸ＿ａｌｌ］により少なくとも何れかの検出対象物が検出された画像から木を検出する。そして、［ＥＸ＿ｇｏｚａ］によるござの検出結果は「ｇｏｚａ＿ｒｅｓ」に出力され、［ＥＸ＿ｔｒｅｅ］による木の検出結果は「ｔｒｅｅ＿ｒｅｓ」に出力される。これらの検出結果が最終の検出結果となる。

（フローチャートについて）
制御部１０は、［ＥＸ＿ａｌｌ］に定義されているファイル名が「ａｌｌ」であるスクリプトファイルを実行することにより、第１検出部２０１として機能する。また、制御部１０は、上記スクリプトファイルの実行終了後に、［ＥＸ＿ｇｏｚａ］に定義されているファイル名が「ｇｏｚａ」であるスクリプトファイルを実行することにより、第２検出部２０２Ａとして機能する。そして、制御部１０は、上記スクリプトファイルの実行終了後に、［ＥＸ＿ｔｒｅｅ］に定義されているファイル名が「ｔｒｅｅ」であるスクリプトファイルを実行することにより、第２検出部２０２Ｂとして機能する。

以下、これらの処理部が実行する処理（情報処理方法）をフローチャートに基づいて説明する。このフローチャートの処理が行われる前に、ごみ撮影装置２で撮影された動画ファイルが入力データ格納部１２１の「ａｌｌ＿ｓｒｃ」に格納されているとする。なお、動画ファイルの代わりに、該動画ファイルから抽出された複数のフレーム画像またはごみ撮影装置２により時系列で撮影された複数の静止画ファイルが格納されていてもよい。

Ｓ２１（第１検出ステップ）では、第１検出部２０１が、第１の学習済みモデルを用いて、入力データ格納部１２１に格納されている処理対象画像から全ての検出対象物について物体検出を行う。具体的には、第１検出部２０１は、入力データ格納部１２１の「ａｌｌ＿ｓｒｃ」に格納されている動画ファイルから抽出したフレーム画像を入力データとし、そのフレーム画像をスクリプト名「ａｌｌ」の学習済みモデルに入力して物体情報を出力させる。そして、第１検出部２０１は、フレーム画像から物体が検出された場合には、そのフレーム画像と物体情報とを対応付けて検出結果とし、検出結果格納部１２２の「ａｌｌ＿ｒｅｓ」に記録する。これらの処理は、上記動画ファイルから抽出したフレーム画像のそれぞれについて行われる。

上述のように、「ａｌｌ＿ｒｅｓ」に記録されたフレーム画像は、［ＥＸ＿ｇｏｚａ］および［ＥＸ＿ｔｒｅｅ］の入力データとなり、ござと木については再度の検出が試みられる。このため、第１検出部２０１は、ござと木の誤検出が増えても、ござと木の見逃し、すなわちフレーム画像に写るござや木が検出できないことは避けることが好ましい。よって、第１の学習済みモデルの出力値に基づく物体検出において、該出力値に含まれる確率値と比較する検出閾値は低めに設定してもよい。

Ｓ２２（第２検出ステップ、確定ステップ）では、第２検出部２０２Ａが、Ｓ２１で物体が検出された画像から第２の学習済みモデルＡにより、本例における第２の検出対象Ａであるござの検出を行う。具体的には、第２検出部２０２Ａは、検出結果格納部１２２の「ａｌｌ＿ｒｅｓ」に記録されているフレーム画像を入力データとし、そのフレーム画像をスクリプト名「ｇｏｚａ」の学習済みモデルに入力して物体情報を出力させる。そして、第２検出部２０２Ａは、ござが検出されたと判定した場合には、そのフレーム画像と物体情報とを対応付けて検出結果とし、検出結果格納部１２２の「ｇｏｚａ＿ｒｅｓ」に記録する。これらの処理は、「ａｌｌ＿ｒｅｓ」に格納されているフレーム画像のそれぞれについて行われる。Ｓ２２の処理の終了時点で検出結果格納部１２２の「ｇｏｚａ＿ｒｅｓ」に記録されているデータがござについての最終の検出結果である。つまり、Ｓ２２の処理により、ござの最終の検出結果が確定する。

Ｓ２３では、第２検出部２０２Ｂが、Ｓ２１で物体が検出された画像から第２の学習済みモデルＢにより、本例における第２の検出対象Ｂである木の検出を行う。具体的には、第２検出部２０２Ｂは、検出結果格納部１２２の「ａｌｌ＿ｒｅｓ」に記録されているフレーム画像を入力データとし、そのフレーム画像をスクリプト名「ｔｒｅｅ」の学習済みモデルに入力して物体情報を出力させる。そして、第２検出部２０２Ｂは、木が検出されたと判定した場合には、そのフレーム画像と物体情報とを対応付けて検出結果とし、検出結果格納部１２２の「ｔｒｅｅ＿ｒｅｓ」に記録する。これらの処理は、「ａｌｌ＿ｒｅｓ」に格納されているフレーム画像のそれぞれについて行われる。Ｓ２３の処理の終了時点で検出結果格納部１２２の「ｔｒｅｅ＿ｒｅｓ」に記録されているデータが木についての最終の検出結果である。つまり、Ｓ２３の処理により、木の最終の検出結果が確定する。

Ｓ２４では、図５のＳ１３と同様にして検出結果の出力が行われ、これにより処理は終了する。なお、ござの検出結果は検出結果格納部１２２の「ｇｏｚａ＿ｒｅｓ」から読み出せばよく、木の検出結果は検出結果格納部１２２の「ｔｒｅｅ＿ｒｅｓ」から読み出せばよい。また、ござと木以外の検出対象物の検出結果は、検出結果格納部１２２の「ａｌｌ＿ｒｅｓ」から読み出せばよい。

［ＥＸ＿ａｌｌ］の検出結果には、木ではないものが木として検出されたり、ござではないものがござとして検出されたりする誤検出が含まれ得る。しかし、上記の処理によれば［ＥＸ＿ａｌｌ］で何らかの物体が検出されたフレーム画像については、［ＥＸ＿ｔｒｅｅ］と［ＥＸ＿ｇｏｚａ］による物体検出に供されるので、ござと木を高精度に検出することができる。

また、上記の構成によれば、［ＥＸ＿ｔｒｅｅ］と［ＥＸ＿ｇｏｚａ］の２つを用いて物体検出する場合と比べて、処理が高速化される場合がある。例えば、１つの動画ファイルから２００枚のフレーム画像を抽出した場合、［ＥＸ＿ｔｒｅｅ］と［ＥＸ＿ｇｏｚａ］の２つを用いれば、［ＥＸ＿ｔｒｅｅ］と［ＥＸ＿ｇｏｚａ］のそれぞれにより２００枚のフレーム画像が処理される。この場合、物体検出処理は、合計で４００回行われる。一方、上記の構成によれば、最初に、２００枚のフレーム画像のそれぞれが［ＥＸ＿ａｌｌ］によって処理される。ここで、３０枚のフレーム画像で物体が検出されたとすると、［ＥＸ＿ｔｒｅｅ］と［ＥＸ＿ｇｏｚａ］のそれぞれで処理されるフレーム画像は３０枚となり、物体検出処理は合計で２６０回行われることになる。よって、物体検出処理の実行回数を大きく削減して、当該処理の所要時間を大きく削減することができる。

〔実施形態３〕
本実施形態の情報処理装置１の制御部１０の構成例を図９に基づいて説明する。図９は、実施形態３に係る情報処理装置１が備える制御部１０の構成例を示すブロック図である。また、図９では、大容量記憶部１２についても併せて図示している。

図９に示すように、制御部１０には、ごみ画像抽出部３０１、第１検出部３０２、第２検出部３０３、および検出結果統合部３０４が含まれている。なお、学習部１０３、選択表示制御部１０４、搬入車両特定部１０５、および不適物表示制御部１０６は実施形態１と同様であるから図示を省略している。

ごみ画像抽出部３０１は、物体検出の対象となる画像（例えば、動画ファイルから抽出した各フレーム画像）から、ごみが写っている画像を抽出する。これにより、第１検出部３０２および第２検出部３０３が検出対象とする画像を、ごみが写っている画像に絞り込むことができるので、物体検出処理の実行回数を削減して、該処理を高速化することが可能になる。例えば、動画ファイルから抽出したフレーム画像のうち、３／４にはごみが写っていなかった場合、第１検出部３０２および第２検出部３０３は、ごみが写っているフレーム画像（全フレーム画像の１／４）を対象として物体検出処理を行えばよい。よって、全てのフレーム画像を対象として物体検出処理を行う場合と比べて、物体検出処理の実行回数を大きく削減して、当該処理の所要時間を大きく削減することができる。

ごみ画像抽出部３０１は、例えば、スロープ６００上をごみが流れている画像と、流れていない画像とを教師データとして構築した学習済みモデルを用いて上記抽出を行ってもよい。この学習済みモデルは、スロープ６００上のごみの有無を識別できればよく、ごみの分類の判別等は不要である。よって、この学習済みモデルをニューラルネットワークのモデルとした場合、後述する第１検出部３０２や第２検出部３０３が使用する学習済みモデルと比べて、中間層の数を少なくしてもよい。

また、ごみ画像抽出部３０１が使用する学習済みモデルの入力データとする画像は、第１検出部３０２や第２検出部３０３が使用する学習済みモデルの入力データとする画像よりも、低解像度の画像としてもよい。なお、第１検出部３０２や第２検出部３０３には、より高解像度の画像を入力することが好ましい。このため、ごみ画像を低解像度化してごみ画像抽出部３０１の入力データとした場合、ごみ画像抽出部３０１は、低解像度化前の解像度の画像を出力結果として保存することが好ましい。

ごみ画像抽出部３０１は、情報処理装置１の必須の構成要素ではないが、第１検出部３０２および第２検出部３０３による物体検出を効率化するために含めている。ごみ画像抽出部３０１は、実施形態１、２の情報処理装置１にも適用可能である。

第１検出部３０２は、複数種類の第１の検出対象を検出できるように機械学習された第１の学習済みモデルに入力データを入力して上記第１の検出対象を検出する。また、第２検出部３０３は、上記第１の検出対象とは異なる第３の検出対象を検出できるように機械学習された第３の学習済みモデルに上記入力データを入力して上記第３の検出対象を検出する。

本実施形態の情報処理装置１においても、上述の各実施形態と同様に、第１検出部３０２の検出結果と、第２検出部３０３の検出結果とに基づいて、最終の検出結果が確定される。具体的には、検出結果統合部３０４が、第１検出部３０２の検出結果と、第２検出部３０３の検出結果とに基づいて最終の検出結果を確定する。

より詳細には、検出結果統合部３０４は、第１検出部３０２が第１の検出対象として検出した検出対象から、第２検出部３０３が第３の検出対象として検出したものを除いた残りを、第１の検出対象の検出結果とする。言い換えれば、検出結果統合部３０４は、第１の学習済みモデルに基づく検出結果と、第３の学習済みモデルに基づく検出結果とが整合しない場合には、第１の学習済みモデルに基づく検出結果を無効とする。

上記の構成によれば、第１の学習済みモデルと第３の学習済みモデルの検出対象は異なっている。このため、ある検出対象について、第１検出部３０２が第１の検出対象として検出したときに、同じ検出対象について、第２検出部３０３が第３の検出対象として検出することがあり得る。このような場合、第１検出部３０２と第２検出部３０３の何れかが誤検出していると判断できる。したがって、第１検出部３０２が第１の検出対象として検出した検出対象から、第２検出部３０３が第３の検出対象として検出したものを除いた残りを、第１の検出対象の検出結果とする上記の構成によれば、誤検出を低減することができる。よって、上記の構成によれば、機械学習済みモデルを用いた検出の検出精度を高めることが可能になる。また、第１検出部３０２は、複数種類の第１の検出対象を検出できるように機械学習された第１の学習済みモデルを用いるため、複数種類の第１の検出対象を一括して効率的に検出することができる。

なお、本実施形態においても、実施形態１の「入力データの解像度について」で説明した例と同様にして、第１の学習済みモデルまたは第３の学習済みモデルに入力する画像データとして、解像度を低下させた画像データを用いてもよい。

〔処理の流れ〕
図１０は、本実施形態の情報処理装置１が実行する処理の流れを説明する図である。本実施形態の情報処理装置１が実行する処理とその実行順序は、例えば、図１０に示す設定ファイルＦ３により定義することができると共に、同図のフローチャートで表すこともできる。

（設定ファイルについて）
設定ファイルＦ３では、［ＥＸ＿ｔｒａｓｈ］、［ＥＸ＿ａｌｌ］、［ＥＸ＿ｂａｇ］、および［ＥＸ＿ｆｉｎａｌ］という４つのセクションがこの順序で定義されている。［ＥＸ＿ａｌｌ］は、図５のセクション［ＥＸ１］と同じであり、全ての検出対象物（例えば、段ボール、板、木、ござ、および長尺物）を検出するセクションである。［ＥＸ＿ｔｒａｓｈ］は、ごみが写っている画像と写っていない画像の中からごみが写っている画像を抽出するセクションである。また、［ＥＸ＿ｂａｇ］はごみ袋とスロープ６００（図４参照）を検出対象とするセクションであり、［ＥＸ＿ｆｉｎａｌ］は、［ＥＸ＿ａｌｌ］の結果から［ＥＸ＿ｂａｇ］の結果を除いた結果を出力するセクションである。

［ＥＸ＿ｔｒａｓｈ］のｄｓｔは「ｔｒａｓｈ＿ｒｅｓ」であり、「ｔｒａｓｈ＿ｒｅｓ」は［ＥＸ＿ａｌｌ］のｓｒｃである。つまり、［ＥＸ＿ｔｒａｓｈ］で抽出された画像から、［ＥＸ＿ａｌｌ］により検出対象物の検出が行われる。

また、［ＥＸ＿ａｌｌ］のｄｓｔは「ａｌｌ＿ｒｅｓ」であり、「ａｌｌ＿ｒｅｓ」は［ＥＸ＿ｂａｇ］のｓｒｃである。つまり、［ＥＸ＿ａｌｌ］で少なくとも何れかの検出対象物が検出された画像から、［ＥＸ＿ｂａｇ］によりごみ袋とスロープ６００の検出が行われる。

そして、［ＥＸ＿ｆｉｎａｌ］のｓｒｃは「ａｌｌ＿ｒｅｓ」であり、ｄｓｔは「ｆｉｎａｌ＿ｒｅｓ」である。「ａｌｌ＿ｒｅｓ」には、［ＥＸ＿ａｌｌ］の検出結果と、［ＥＸ＿ｂａｇ］の検出結果が記録されるから、［ＥＸ＿ｆｉｎａｌ］はこれらの検出結果に基づく最終の検出結果を「ｆｉｎａｌ＿ｒｅｓ」に出力する。

ここで、本実施形態において、［ＥＸ＿ａｌｌ］と［ＥＸ＿ｂａｇ］と［ＥＸ＿ｆｉｎａｌ］とを組み合わせて使用する理由について説明する。ごみが入ったごみ袋の形や色は無数にあり、それゆえごみ画像に写るごみ袋とごみ袋との間の部分の形状も多様なものとなる。例えば、ごみ袋とごみ袋との間の部分が長尺の棒のように見える場合には、実際には不適物が存在しない当該部分に基づき、不適物が写っていると誤検出されることがある。このような誤検出を避けるため、ごみ袋も学習させることが好ましいが、ごみ画像に写るごみ袋の数は、例えば１枚の画像に数十個程度となることもあり、非常に多い。それゆえ、全ての教師画像に対して正解データを作ることは非常に手間がかかる。スロープ６００も同様であり、スロープ６００上のごみの状況に応じて、画像に写るスロープ６００の外観が変わるため、全ての教師画像に対してスロープの正解データを作ることは非常に手間がかかる。

このため、本実施形態では、不適物等を検出する［ＥＸ＿ａｌｌ］とは別に、ごみ袋とスロープ６００の検出に特化した［ＥＸ＿ｂａｇ］を用いる。［ＥＸ＿ｂａｇ］において使用する第３の学習済みモデルは、ごみ袋とスロープ６００のみの教師データを用いた機械学習で構築することができる。

［ＥＸ＿ｆｉｎａｌ］は、［ＥＸ＿ａｌｌ］によって不適物が検出された場所に、［ＥＸ＿ｂａｇ］がごみ袋またはスロープ６００を検出していないか確認するためのセクションである。具体的には、［ＥＸ＿ｆｉｎａｌ］は、［ＥＸ＿ａｌｌ］によって不適物が検出された場所に、ごみ袋とスロープ６００の何れも検出されていない場合に、当該不適物の検出結果を「ｆｉｎａｌ＿ｒｅｓ」に出力するセクションである。これにより、［ＥＸ＿ａｌｌ］による不適物の検出結果のうち、［ＥＸ＿ｂａｇ］の検出結果からみてごみ袋またはスロープ６００を不適物と誤検出した可能性があるものを除いた検出結果を速やかに選別することができる。つまり、ごみ袋またはスロープ６００を不適物として誤検出してしまうことを短時間の処理で効率的に低減することができる。

（フローチャートについて）
制御部１０は、［ＥＸ＿ｔｒａｓｈ］に定義されているファイル名が「ｔｒａｓｈ」であるスクリプトファイルを実行することにより、ごみ画像抽出部３０１として機能する。また、制御部１０は、上記スクリプトファイルの実行終了後に、［ＥＸ＿ａｌｌ］に定義されているファイル名が「ａｌｌ」であるスクリプトファイルを実行することにより、第１検出部３０２として機能する。そして、制御部１０は、上記スクリプトファイルの実行終了後に、［ＥＸ＿ｂａｇ］に定義されているファイル名が「ｂａｇ」であるスクリプトファイルを実行することにより、第２検出部３０３として機能する。さらに、制御部１０は、上記スクリプトファイルの実行終了後に、［ＥＸ＿ｆｉｎａｌ］に定義されているファイル名が「ｆｉｎａｌ」であるスクリプトファイルを実行することにより、検出結果統合部３０４として機能する。

Ｓ３１では、ごみ画像抽出部３０１が、処理対象画像の中からごみが写る画像を抽出する。具体的には、ごみ画像抽出部３０１は、入力データ格納部１２１の「ａｌｌ＿ｓｒｃ」に格納されている動画ファイルから抽出したフレーム画像をスクリプト名「ｔｒａｓｈ」の学習済みモデルに入力して物体情報を出力させる。そして、ごみ画像抽出部３０１は、該物体情報に基づきごみが検出されたと判定したフレーム画像を検出結果格納部１２２の「ｔｒａｓｈ＿ｒｅｓ」に記録する。これらの処理は、上記動画ファイルから抽出したフレーム画像のそれぞれについて行われる。

Ｓ３２（第１検出ステップ）では、第１検出部３０２が、Ｓ３１で抽出されたフレーム画像から全ての検出対象物について物体検出を行う。具体的には、第１検出部３０２は、検出結果格納部１２２の「ｔｒａｓｈ＿ｒｅｓ」に格納されているフレーム画像を入力データとし、そのフレーム画像をスクリプト名「ａｌｌ」の学習済みモデルに入力して物体情報を出力させる。そして、第１検出部３０２は、該物体情報に基づき物体が検出されたと判定したフレーム画像と、該物体情報とを対応付けて検出結果とし、検出結果格納部１２２の「ａｌｌ＿ｒｅｓ」に記録する。これらの処理は、「ｔｒａｓｈ＿ｒｅｓ」に格納されているフレーム画像のそれぞれについて行われる。

Ｓ３３（第２検出ステップ）では、第２検出部３０３が、Ｓ３１で抽出された画像から第３の学習済みモデルによりごみ袋とスロープ６００の検出を行う。具体的には、第２検出部３０３は、検出結果格納部１２２の「ｔｒａｓｈ＿ｒｅｓ」に記録されているフレーム画像を入力データとし、そのフレーム画像をスクリプト名「ｂａｇ」の学習済みモデルに入力して物体情報を出力させる。そして、第２検出部３０３は、該物体情報に基づいて物体すなわちごみ袋またはスロープが検出されたか否かを判定し、検出されたと判定した場合には、そのフレーム画像と物体情報とを対応付けて検出結果とし、検出結果格納部１２２の「ａｌｌ＿ｒｅｓ」に記録する。これらの処理は、「ｔｒａｓｈ＿ｒｅｓ」に格納されているフレーム画像のそれぞれについて行われる。

なお、ごみ袋とスロープ６００をそれぞれ別の学習済みモデルを用いて検出する構成としてもよい。また、第２検出部３０３の検出対象は、第１検出部３０２の検出対象と異なる物体であればよく、ごみ袋やスロープ６００に限られない。ただし、第２検出部３０３の検出対象は、第１検出部３０２の検出対象と外観が類似している物体であることが好ましい。例えば、第２検出部３０３の検出対象は、不適物と外観が類似しているが不適物ではない物体（例えば段ボール等）を検出対象としてもよい。

Ｓ３４（確定ステップ）では、検出結果統合部３０４が、Ｓ３２とＳ３３の検出結果に基づいて最終の検出結果を確定させる。より詳細には、検出結果統合部３０４は、第１検出部３０２がＳ３２で検出した検出物から、第２検出部３０３がＳ３３でごみ袋またはスロープとして検出したものを除いた残りを、検出対象物の最終の検出結果とする。

具体的には、検出結果統合部３０４は、第１検出部３０２が「ａｌｌ＿ｒｅｓ」に格納した各検出対象物の物体情報から、当該検出対象物が画像上で占める範囲を特定する。次に、検出結果統合部３０４は、第２検出部３０３が「ａｌｌ＿ｒｅｓ」に格納した物体情報に基づき、上記範囲にごみ袋またはスロープ６００が検出されているか否かを判定する。ここで、検出結果統合部３０４は、上記範囲にごみ袋またはスロープ６００が検出されていないと判定した場合には、その検出対象物の物体情報とフレーム画像とを対応付けて最終の検出結果とし、検出結果格納部１２２の「ｆｉｎａｌ＿ｒｅｓ」に記録する。一方、検出結果統合部３０４は、上記範囲にごみ袋またはスロープ６００が検出されていると判定した場合には、その検出対象物の物体情報とフレーム画像は記録しない。つまり、この検出対象物の検出結果は誤検出であるとして無効にされる。

Ｓ３５では、図５のＳ１３と同様にして検出結果の出力が行われ、これにより処理は終了する。なお、出力する検出結果は検出結果格納部１２２の「ｆｉｎａｌ＿ｒｅｓ」から読み出せばよい。

〔変形例〕
上述の各実施形態における物体検出や物体の分類等には、機械学習済みのニューラルネットワーク（深層学習したものを含む）以外の人工知能・機械学習アルゴリズムを用いることもできる。

上記各実施形態で説明した各処理の実行主体は、適宜変更することが可能である。例えば、図１、図８、または図１０に示す各ブロックの少なくとも何れかを省略し、省略した処理部を他の一または複数の装置に設けてもよい。この場合、上述した各実施形態の処理は、一または複数の情報処理装置により実行される。

また、上記各実施形態ではごみ画像から不適物等を検出する例を説明したが、検出対象物は任意であり、不適物等に限られない。さらに、情報処理装置１の使用する学習済みモデルに対する入力データは画像データに限られず、例えば音声データであってもよい。この場合、情報処理装置１は、入力された音声データに含まれる所定の音の成分を検出対象として検出する構成としてもよい。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

１情報処理装置
１０１、２０１、３０２第１検出部
１０２、２０２Ａ、２０２Ｂ、３０３第２検出部
３０４検出結果統合部

Claims

複数種類の第１の検出対象を検出できるように機械学習された第１の学習済みモデルに入力データを入力して上記第１の検出対象を検出する第１検出部と、
上記第１の検出対象とは異なる第３の検出対象を検出できるように機械学習された第３の学習済みモデルに上記入力データを入力して上記第３の検出対象を検出する第２検出部と、を備え、
上記第１検出部の検出結果と、上記第２検出部の検出結果とに基づいて、最終の検出結果を確定し、
上記第１検出部が第１の検出対象として検出した検出対象から、上記第２検出部が第３の検出対象として検出したものを除いた残りを、上記第１の検出対象の検出結果とする検出結果統合部を備えている、ことを特徴とする情報処理装置。
上記入力データは画像データであり、
上記第１検出部が、上記画像データの解像度を低下させたデータを上記第１の学習済みモデルに入力するか、または、
上記第２検出部が、上記画像データの解像度を低下させたデータを上記第３の学習済みモデルに入力する、ことを特徴とする請求項１に記載の情報処理装置。
１または複数の情報処理装置により実行される情報処理方法であって、
複数種類の検出対象を検出できるように機械学習された第１の学習済みモデルに入力データを入力して、該入力データから上記検出対象を検出する第１検出ステップと、
上記第１の学習済みモデルとは異なる検出対象を検出できるように機械学習された第３の学習済みモデルに上記入力データを入力して、該入力データから検出対象を検出する第２検出ステップと、
上記第１検出ステップの検出結果と、上記第２検出ステップの検出結果とに基づいて、最終の検出結果を確定する確定ステップと、を含み、
上記確定ステップでは、上記第１検出ステップで検出された検出対象から、上記第２検出ステップで検出対象として検出されたものを除いた残りを、最終の検出結果とする、ことを特徴とする情報処理方法。
請求項１に記載の情報処理装置としてコンピュータを機能させるための情報処理プログラムであって、上記第１検出部、上記第２検出部、および上記検出結果統合部としてコンピュータを機能させるための情報処理プログラム。