JP2020173556A

JP2020173556A - 情報処理装置、情報処理方法、学習済モデルの生成方法、システム、および学習用データセット

Info

Publication number: JP2020173556A
Application number: JP2019074297A
Authority: JP
Inventors: 裕基戸田; Hironori Toda; 多加之堀; Takayuki Hori
Original assignee: Komatsu Ltd
Current assignee: Komatsu Ltd
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2020-10-22
Anticipated expiration: 2039-04-09
Also published as: US20220165058A1; WO2020209076A1; JP7334052B2; DE112020000899T5

Abstract

【課題】作業現場で行われている作業の業種を推定可能な情報処理装置を提供する。【解決手段】情報処理装置は、演算装置と、作業機械が稼働している作業現場を上空から撮像することにより得られた画像データから、当該作業現場で行われている作業の業種を推定するように構成された学習済モデルを記憶した記憶装置と、出力装置とを備える。演算装置は、学習済モデルを用いて、入力された画像データから業種を推定する。演算装置は、推定された業種を出力装置に出力させる。【選択図】図９

Description

本発明は、情報処理装置、情報処理方法、学習済モデルの生成方法、システム、および学習用データセットに関する。

従来、特許文献１に示すように、作業機械の運行状況を遠隔箇所で把握するための運行管理システムが知られている。この運行管理システムでは、作業現場内で移動される作業機械と、作業現場内の基準点とが、上空のＧＰＳ衛星からの電波を受信する。作業機械は、受信した電波を基に、作業機械の３次元位置座標を算出する。作業現場から離れた工事事務所のパソコンは、作業機械において算出された３次元位置座標と、当該パソコンに格納された現場の３次元地形データとに基づいて、作業現場内での作業機械の位置を示す３次元画像を生成する。さらに、当該パソコンは、生成された３次元画像をディスプレイに表示する。

また、特許文献２に示すように、機械学習が行なわれた装置を用いて、リモートセンシング地球画像（衛星画像）から土地の区分等を分類する技術も知られている。

特開平７−２３０５９７号公報米国特許公開第２０１５−００７１５２８Ａ１号明細書

作業現場での作業機械の位置だけではなく、作業現場で行われている作業の業種を、作業現場から離れた場所で把握したいという要望もある。

本開示の目的は、作業現場で行われている作業の業種を推定可能な情報処理装置、情報処理方法、学習済モデルの生成方法、システム、および学習用データセットを提供することにある。

本開示に従うと、情報処理装置は、演算装置と、作業機械が稼働している作業現場を上空から撮像することにより得られた画像データから、当該作業現場で行われている作業の業種を推定するように構成された学習済モデルを記憶した記憶装置と、出力装置とを備える。演算装置は、学習済モデルを用いて、入力された画像データから業種を推定する。演算装置は、推定された業種を出力装置に出力させる。

好ましくは、学習済モデルは、画像データと、作業機械の機械情報とから、業種を推定するように構成される。演算装置は、画像データの入力と作業機械の機械情報の入力とを受け付けると、学習済モデルを用いて、画像データと作業機械の機械情報とから業種を推定する。

好ましくは、機械情報は、作業機械の位置情報を含む。
好ましくは、機械情報は、作業機械の機種情報を含む。

好ましくは、機械情報は、作業機械の運転時の機械状態情報を含む。
好ましくは、情報処理装置は、サーバから機械情報を取得する。

好ましくは、学習済モデルは、学習用データセットを用いた学習により生成される。学習用データセットは、作業機械が稼働している作業現場を上空から撮像することにより得られた画像データと、当該作業現場の業種を示した教師データとを含む。

好ましくは、画像データは、人工衛星によって取得された衛星画像データである。
本発明の他の局面に従うと、情報処理方法は、作業機械が稼働している作業現場を上空から撮像することにより得られた画像データの入力を、演算装置が受け付けるステップと、演算装置が、学習済モデルを用いて、受け付けた画像データから、作業現場で行われている作業の業種を推定するステップと、演算装置が、推定された業種を出力装置に出力させるステップとを備える。

本発明のさらに他の局面に従うと、学習済モデルの生成方法は、学習用データセットを取得するステップを備える。学習用データセットは、作業機械が稼働している作業現場を上空から撮像することにより得られた画像データと、当該作業現場で行われている作業の業種を示した教師データとを含む。学習済モデルの生成方法は、学習用データセットを用いた学習処理によって、学習済モデルを生成するステップをさらに備える。当該学習済モデルは、作業機械が稼働している作業現場を上空から撮像することにより得られた画像データに基づいて、当該作業現場の業種を推定するためのプログラムである。

本発明のさらに他の局面に従うと、システムは、学習装置と端末装置とを備える。学習装置は、学習用データセットを用いた学習によって学習済モデルを生成する。当該学習用データセットは、作業機械が稼働している作業現場を上空から撮像することにより得られた画像データと、当該作業現場で行われている作業の業種を示した教師データとを含む。端末装置は、学習済モデルを学習装置から取得する。端末装置は、学習済モデルを用いて、作業機械が稼働している作業現場を上空から撮像することにより得られた画像データから、当該作業現場の業種を推定する。端末装置は、推定された業種を出力する。

本発明のさらに他の局面に従うと、学習用データセットは、作業機械が稼働している作業現場の業種を推定するための学習済モデルを生成するために用いられ、かつ、作業機械が稼働している作業現場を上空から撮像することにより得られた画像データと、当該作業現場で行われている作業の業種を示した教師データとを含む。

本開示によれば、作業現場で行われている作業の業種を推定可能となる。

通信システムの概略構成を示した図である。サーバ装置にて格納されているデータベースの概略構成を示した図である。端末装置における推定処理を説明するための図である。端末装置のハードウェア構成の一例を示す模式図である。サーバ装置のハードウェア構成の一例を示す模式図である。サーバ装置の機能的構成を説明するための機能ブロック図である。学習部の処理（学習機能）の詳細を説明するためのブロック図である。サーバ装置における学習処理の処理手順を示すフローチャートである。端末装置の機能的構成を説明するための機能ブロック図である。業種推定部の処理（推定機能）の詳細を説明するためのブロック図である。図１０に示す学習済モデルのネットワーク構造の例を示す模式図である。端末装置における推定処理の処理手順を示すフローチャートである。

はじめに、本実施の形態で用いる用語の一部について説明する。
「学習用データセット」とは、生データに対して、欠測値や外れ値の除去等の前処理や、ラベル情報（正解データ）等の別個のデータの付加等、あるいはこれらを組み合わせて、変換・加工処理を施すことによって、対象とする学習の手法による解析を容易にするために生成された二次的な加工データをいう。なお、「生データ」とは、ユーザやベンダ、その他の事業者や研究機関等により一次的に取得されたデータであって、データベースに読み込むことができるよう変換および／または加工処理されたものをいう。

「学習用プログラム」とは、学習用データセットの中から一定の規則を見出し、その規則を表現するモデルを生成するためのアルゴリズムを実行するプログラムをいう。具体的には、採用する学習手法による学習を実現するために、コンピュータに実行させる手順を規定するプログラムがこれに該当する。

「学習済モデル」とは「学習済パラメータ」が組み込まれた「推論プログラム」をいう。「学習済パラメータ」とは、学習用データセットを用いた学習の結果、得られたパラメータ（係数）をいう。学習済パラメータは、学習用データセットを学習用プログラムに対して入力することで、一定の目的のために機械的に調整されることで生成される。「推論プログラム」とは、組み込まれた学習済みパラメータを適用することで、入力に対して一定の結果を出力することを可能にするプログラムをいう。

＜Ａ．概要＞
図１は、本実施の形態にかかる通信システム１の概略構成を示した図である。

図１に示されているように、通信システム１は、端末装置１００と、サーバ装置２００と、サーバ装置３００と、サーバ装置４００と、端末装置５００とを備えている。通信システム１は、作業車両６００と、人工衛星７００との間で通信を行なう。なお、人工衛星７００との通信は、外部サーバ（図示せず）を介して行われてもよい。

図１においては１台の作業車両６００を記載しているが、作業車両の台数はこれに限定されるものでない。サーバ装置２００は、複数の作業車両６００から、車両情報を取得可能である。後述する学習段階では、複数の作業車両６００の各車両情報が用いられる。

また、図１においては作業車両６００の一例として、油圧ショベルを記載しているが、作業車両６００は、油圧ショベルに限定されるものではない。作業車両６００は、ブルドーザ、ホイールローダ、ダンプトラック、モータグレーダ等の他の作業車両であってもよい。

詳細については後述するが、本例では、サーバ装置３００によって学習済モデルが生成される。生成された学習済モデルは、端末装置１００にて利用される。端末装置１００は、学習済モデルを用いた推定処理（分類処理、識別処理）を行う。なお、これに限定されず、学習済モデルを生成したサーバ装置３００が、学習済モデルを用いた推定処理を行なってもよい。

（サーバ装置４００）
サーバ装置４００は、作業現場の上空を撮像することによって得られた画像を取得する。本例では、サーバ装置４００は、人工衛星７００によって撮像された画像（以下、「衛星画像」とも称する）を人工衛星７００から取得する。なお、衛星画像は、たとえば、０．５ｋｍ〜２０ｋｍ四方の場所（陸地、湖、池、海等を含む場所）を撮像対象とした画像とすることができる。

（端末装置５００）
端末装置５００は、作業車両の販売店等に設置されている。端末装置５００を用いて入力された情報は、サーバ装置２００に送信され、かつ記憶される。端末装置５００を用いて入力される情報については、後述する。

（サーバ装置２００）
サーバ装置２００は、各作業車両６００についての各種のデータを記憶するための機器である。当該データは、データベースＤ２（図２参照）に保存される。また、当該データは、各作業車両６００との通信、端末装置５００との通信、およびサーバ装置２００に対するユーザ操作等により、逐次更新される。サーバ装置２００は、たとえば、作業車両６００の製造メーカによって管理される。

サーバ装置２００は、ネットワーク９０１を介して、作業車両６００から作業車両６００の車両情報を取得し、かつ当該車両情報を記憶する。当該車両情報は、作業車両６００の位置を示した位置情報と、作業車両６００の車両状態を示した車両状態情報とを含む。

車両状態情報は、作業車両６００の稼働時において、作業車両６００が取得または算出する各種の情報を含む。たとえば、車両状態情報は、ポンプ圧、シリンダ圧、走行速度、燃費等の情報を含む。

また、サーバ装置２００には、車両情報として、作業車両６００の車種情報が予め記憶されている。このように、サーバ装置２００は、車両情報として、少なくと、位置情報と、車種情報と、車両状態情報とを記憶している。

なお、本例の端末装置１００またはサーバ装置３００は、本発明の「情報処理装置」の一例である。本例のサーバ装置２００は、本発明の「サーバ」の一例である。本例の作業車両６００は、本発明の「作業機械」の一例である。

また、本例の車両情報は、本発明の「機械情報」の一例である。さらに、本例の位置情報、車両状態情報、および車種情報は、それぞれ、本発明の「位置情報」、「車両状態情報」、および「機械情報」の一例である。

また、本例の通信システム１は、本発明の「システム」の一例である。本例のサーバ装置３００は、本発明の「学習装置」の一例である。本例の端末装置１００は、本発明の「端末装置」の一例である。

図２は、サーバ装置２００にて格納されているデータベースＤ２の概略構成を示した図である。

図２に示されているように、データベースＤ２は、作業車両毎に各種のデータを記憶している。データベースＤ２は、少なくとも、登録年月と、機種と、型式と、機番と、車両所在国と、車両所在地域と、緯度と、経度と、顧客業種といった複数の項目を備える。また、図示していないが、データベースＤ２には車両状態情報の項目も含まれる。なお、車両状態情報は、データベースＤ２とは異なるデータベースに格納されていてもよい。

データベースＤ２の例では、機種と、型式と、機番との３つの情報が、「車種情報」を構成する。経度と緯度とが、「位置情報」を構成する。なお、位置情報は、作業車両からサーバ装置２００に逐次通知される。

車両所在国は、作業車両が使用されている国の国名（たとえば、タイランド）を表す。車両所在地域は、車両所在国内における、作業車両が使用されている地域（たとえば、バンコク）を表す。

顧客業種は、作業車両を購入した顧客の業種を表す。詳しくは、顧客業種は、作業車両を購入した顧客が当該作業車両を用いて行なっている業種を表す。業種としては、たとえば、一般土木、解体、砂利採取、採石、製鉄業、農業、林業、産廃業、サンドピット等が挙げられる。業種により使用される作業車両は異なる。以下、一例を示す。

「一般土木」および「採石」には、典型的には、油圧ショベル、ブルドーザ、ホイールローダ、ダンプトラック、モータグレーダが用いられる。「解体」および「サンドピット」には、油圧ショベルが用いられる。「砂利採取」には、油圧ショベル、ブルドーザ、ホイールローダ、モータグレーダが用いられる。「製鉄業」および「産廃業」には、油圧ショベル、ブルドーザ、ホイールローダ、ダンプトラックが用いられる。「農業」および「林業」には、油圧ショベル、ブルドーザ、ホイールローダが用いられる。

ところで、データベースＤ２の各項目（位置情報を除く）の入力は、通常、作業車両を販売した販売店が、端末装置５００（図１参照）を用いて行なう。しかしながら、これらの項目のうち、顧客業種に関しては、データの入力（業種の選択）が行われていないことも多々ある。一方、作業車両の製造メーカは、顧客業種を知ることができれば、作業車両のメンテナンスに関する有益な情報を作業車両のユーザおよび販売店に提供することが可能となる。

上記のような観点から、通信システム１では、機械学習により、作業現場で行われている作業の業種（作業車両が作業現場で行なっている作業の業種）を推定する。そして、推定結果を、顧客業種とする。

（サーバ装置３００）
図１に戻り、サーバ装置３００は、ネットワーク９０２を介して、サーバ装置２００から車両情報を取得する。また、サーバ装置３００は、ネットワーク９０３を介して、サーバ装置４００から衛星画像を取得する。

サーバ装置３００は、作業現場の衛星画像と、作業現場で稼働している車両情報と、業種を示した教師データ（正解データ）とを用いた学習処理により、当該作業現場の業種を推定（分類、識別）するための学習済モデルを生成する。生成された学習済モデルは、端末装置１００に送信（配布）される。なお、学習済モデルの生成処理（学習処理）の詳細については、後述する。

（端末装置１００）
端末装置１００は、ネットワーク９０３を介して、サーバ装置３００から学習済モデルを取得する。端末装置１００は、当該学習済モデルを用いて、後述する推定処理を実行する。

端末装置１００は、学習済モデルをサーバ装置３００から取得した後、ネットワーク９０２を介して、サーバ装置２００から車両情報を取得する。また、端末装置１００は、ネットワーク９０３を介して、サーバ装置４００から衛星画像を取得する。なお、端末装置１００のユーザが端末装置１００に対して予め定められたユーザ操作を行なうことにより、端末装置１００は、車両情報の取得と衛星画像の取得とを実行する。

図３は、端末装置１００における推定処理を説明するための図である。
図３に示されているように、端末装置１００は、学習済モデル１１６を有する。端末装置１００は、学習済モデル１１６を用いて、作業現場の衛星画像と、当該作業現場で稼働している車両の車両情報とから、当該作業現場の業種を推定（分類、識別）する。

端末装置１００の演算装置（典型的には、プロセッサ１０４（図４参照））は、衛星画像と車両情報とを、学習済モデル１１６に入力する。学習済モデル１１６は、衛星画像と車両情報との入力を受け付けると、推定結果としての業種を出力する。演算装置は、学習済モデル１１６から出力された推定結果を、端末装置１００のディスプレイに出力する。

なお、端末装置１００は、推定結果を、端末装置１００のスピーカから音声で出力してもよい。さらには、端末装置１００は、推定結果を、サーバ装置２００等の他の外部機器に送信してもよい。推定結果の出力形態は、特に限定されず、推定結果が判別できるものであればよい。

このように、学習済モデル１１６を用いて作業現場で行われている作業の業種を推定することにより、作業現場で行われている作業の業種を作業現場から離れた場所で把握できる。また、当該作業現場で稼働している作業車両のメンテナンスに関する有益な情報を作業車両のユーザおよび販売店に提供することが可能となる。

さらに、サーバ装置２００の顧客業種を、推定結果を用いて更新することも可能となる。当該更新は、ユーザが推定結果を手入力することによって行われてもよい。あるいは、推定結果が端末装置１００からサーバ装置２００に送信され、かつサーバ装置２００において自動で更新されてもよい。

＜Ｂ．ハードウェア構成＞
（端末装置１００）
図４は、端末装置１００のハードウェア構成の一例を示す模式図である。

図４に示されているように、端末装置１００は、主要なハードウェア要素として、ディスプレイ１０２と、プロセッサ１０４と、メモリ１０６と、ネットワークコントローラ１０８と、ストレージ１１０と、光学ドライブ１２２と、入力装置１２６とを含む。入力装置１２６は、キーボード１２７と、マウス１２８とを含む。なお、入力装置１２６はタッチパネルを備えていてもよい。

ディスプレイ１０２は、端末装置１００での処理に必要な情報を表示する。ディスプレイ１０２は、たとえば、ＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electroluminescence）ディスプレイなどで構成される。

プロセッサ１０４は、後述するような各種プログラムを実行することで、端末装置１００の実現に必要な処理を実行する演算主体である、プロセッサ１０４としては、たとえば、１または複数のＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などで構成される。複数のコアを有するＣＰＵまたはＧＰＵを用いてもよい。

メモリ１０６は、プロセッサ１０４がプログラムを実行するにあたって、プログラムコードやワークメモリなどを一時的に格納する記憶領域を提供する。メモリ１０６としては、たとえば、ＤＲＡＭ（Dynamic Random Access Memory）やＳＲＡＭ（Static Random Access Memory）などの揮発性メモリデバイスを用いてもよい。

ネットワークコントローラ１０８は、ネットワーク９０２，９０３を介して、サーバ装置２００，３００，４００を含む任意の装置などとの間でデータを送受信する。ネットワークコントローラ１０８は、たとえば、イーサネット（登録商標）、無線ＬＡＮ（Local Area Network）、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの任意の通信方式に対応するようにしてもよい。

ストレージ１１０は、プロセッサ１０４にて実行されるＯＳ（Operating System）１１２、後述するような機能構成を実現するためのアプリケーションプログラム１１４、学習済モデル１１６などを格納する。ストレージ１１０としては、たとえば、ハードディスク、ＳＳＤ（Solid State Drive）などの不揮発性メモリデバイスを用いてもよい。

アプリケーションプログラム１１４をプロセッサ１０４で実行する際に必要となるライブラリや機能モジュールの一部を、ＯＳ１１２が標準で提供するライブラリまたは機能モジュールを用いるようにしてもよい。この場合には、アプリケーションプログラム１１４単体では、対応する機能を実現するために必要なプログラムモジュールのすべてを含むものにはならないが、ＯＳ１１２の実行環境下にインストールされることで、後述するような機能構成を実現できることになる。そのため、このような一部のライブラリまたは機能モジュールを含まないプログラムであっても、本発明の技術的範囲に含まれ得る。

光学ドライブ１２２は、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＤＶＤ（Digital Versatile Disc）などの光学ディスク１２４に格納されているプログラムなどの情報を読み出す。光学ディスク１２４は、非一過的（non-transitory）な記録媒体の一例であり、任意のプログラムを不揮発的に格納した状態で流通する。光学ドライブ１２２が光学ディスク１２４からプログラムを読み出して、ストレージ１１０にインストールすることで、本実施の形態に従う端末装置１００を構成できる。したがって、本発明の主題は、ストレージ１１０などにインストールされたプログラム自体、または、本実施の形態に従う機能や処理を実現するためのプログラムを格納した光学ディスク１２４などの記録媒体でもあり得る。

図４には、非一過的な記録媒体の一例として、光学ディスク１２４などの光学記録媒体を示すが、これに限らず、フラッシュメモリなどの半導体記録媒体、ハードディスクまたはストレージテープなどの磁気記録媒体、ＭＯ（Magneto-Optical disk）などの光磁気記録媒体を用いてもよい。

あるいは、端末装置１００を実現するためのプログラムは、上述したような任意の記録媒体に格納されて流通するだけでなく、インターネットまたはイントラネットを介してサーバ装置などからダウンロードすることで配布されてもよい。

図４には、汎用コンピュータ（プロセッサ１０４）がアプリケーションプログラム１１４を実行することで端末装置１００を実現する構成例を示すが、端末装置１００を実現するために必要な機能の全部または一部を、集積回路などのハードワイヤード回路（hard-wired circuit）を用いて実現してもよい。たとえば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field-Programmable Gate Array）などを用いて実現してもよい。

なお、プロセッサ１０４は、本発明の「演算装置」の一例である。ストレージ１１０は、本発明の「記憶装置」の一例である。ディスプレイ１０２は、本発明の「出力装置」の一例である。

（サーバ装置３００）
図５は、サーバ装置３００のハードウェア構成の一例を示す模式図である。

図５に示されているように、サーバ装置３００は、主要なハードウェア要素として、ディスプレイ３０２と、プロセッサ３０４と、メモリ３０６と、ネットワークコントローラ３０８と、ストレージ３１０と、入力装置３３０とを含む。

ディスプレイ３０２は、サーバ装置３００での処理に必要な情報を表示する。ディスプレイ３０２は、たとえば、ＬＣＤや有機ＥＬディスプレイなどで構成される。

プロセッサ３０４は、後述するような各種プログラムを実行することで、サーバ装置３００の実現に必要な処理を実行する演算主体である、プロセッサ３０４としては、たとえば、１または複数のＣＰＵやＧＰＵなどで構成される。複数のコアを有するＣＰＵまたはＧＰＵを用いてもよい。サーバ装置３００においては、学習済モデルを生成するための学習処理に適したＧＰＵなどを採用することが好ましい。

メモリ３０６は、プロセッサ３０４がプログラムを実行するにあたって、プログラムコードやワークメモリなどを一時的に格納する記憶領域を提供する。メモリ３０６としては、たとえば、ＤＲＡＭやＳＲＡＭなどの揮発性メモリデバイスを用いてもよい。

ネットワークコントローラ３０８は、ネットワーク９０２，９０３を介して、サーバ装置２００，４００および端末装置１００を含む任意の装置などとの間でデータを送受信する。ネットワークコントローラ３０８は、たとえば、イーサネット、無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈなどの任意の通信方式に対応するようにしてもよい。

ストレージ３１０は、プロセッサ３０４にて実行されるＯＳ３１２、後述するような機能構成を実現するためのアプリケーションプログラム３１４、衛星画像３２０と車両情報３２８と業種情報３２２とから学習用データセット３２４を生成するための前処理プログラム３１６、ならびに、学習用データセット３２４を用いて学習済モデル３２６を生成するための学習用プログラム３１８などを格納する。業種情報３２２の取得処理については、後に詳述する。

なお、説明の便宜上、端末装置１００に格納されている学習済モデルと、サーバ装置３００が生成する学習済モデルとに対しては、互いに異なる参照符号（１１６，３２６）を付している。しかしながら、端末装置１００に格納されている学習済モデル１１６はサーバ装置３００から送信（配布）された学習済モデルであるため、２つの学習済モデル１１６，３２６は実質的に同一である。詳しくは、学習済モデル１１６と学習済モデル３２６とは、ネットワーク構造と学習済パラメータとが実質的に同一である。

学習用データセット３２４は、衛星画像３２０と車両情報３２８とに業種情報３２２をラベル（あるいは、タグ）として付与した訓練データセットである。また、学習済モデル３２６は、学習用データセット３２４を用いて学習処理を実行することで得られる推定モデルである。

ストレージ３１０としては、たとえば、ハードディスク、ＳＳＤなどの不揮発性メモリデバイスを用いてもよい。

アプリケーションプログラム３１４、前処理プログラム３１６および学習用プログラム３１８をプロセッサ３０４で実行する際に必要となるライブラリや機能モジュールの一部を、ＯＳ３１２が標準で提供するライブラリまたは機能モジュールを用いるようにしてもよい。この場合には、アプリケーションプログラム３１４、前処理プログラム３１６および学習用プログラム３１８の各単体では、対応する機能を実現するために必要なプログラムモジュールのすべてを含むものにはならないが、ＯＳ３１２の実行環境下にインストールされることで、後述するような機能構成を実現できることになる。そのため、このような一部のライブラリまたは機能モジュールを含まないプログラムであっても、本発明の技術的範囲に含まれ得る。

アプリケーションプログラム３１４と、前処理プログラム３１６と、学習用プログラム３１８とは、光学ディスクなどの光学記録媒体、フラッシュメモリなどの半導体記録媒体、ハードディスクまたはストレージテープなどの磁気記録媒体、ならびにＭＯなどの光磁気記録媒体といった非一過的な記録媒体に格納されて流通し、ストレージ３１０にインストールされてもよい。したがって、本発明の主題は、ストレージ３１０などにインストールされたプログラム自体、または、本実施の形態に従う機能や処理を実現するためのプログラムを格納した記録媒体でもあり得る。

あるいは、サーバ装置３００を実現するためのプログラムは、上述したような任意の記録媒体に格納されて流通するだけでなく、インターネットまたはイントラネットを介してサーバ装置などからダウンロードすることで配布されてもよい。

入力装置３３０は、各種の入力操作を受け付ける。入力装置３３０としては、たとえば、キーボード、マウス、タッチパネルなどを用いてもよい。

図５には、汎用コンピュータ（プロセッサ３０４）がアプリケーションプログラム３１４、前処理プログラム３１６および学習用プログラム３１８を実行することでサーバ装置３００を実現する構成例を示すが、サーバ装置３００を実現するために必要な機能の全部または一部を、集積回路などのハードワイヤード回路を用いて実現してもよい。たとえば、ＡＳＩＣやＦＰＧＡなどを用いて実現してもよい。

なお、プロセッサ３０４は、本発明の「演算装置」の一例である。ストレージ３１０は、本発明の「記憶装置」の一例である。ディスプレイ３０２は、本発明の「出力装置」の一例である。

＜Ｃ．学習段階＞
サーバ装置３００によって実行される学習処理について説明する。具体的には、学習済モデル３２６の生成方法について説明する。

図６は、サーバ装置３００の機能的構成を説明するための機能ブロック図である。
図６に示されているように、サーバ装置３００は、入力受付部３５０と、制御部３６０と、通信ＩＦ（Interface）部３７０とを備える。制御部３６０は、学習部３６２を備える。学習部３６２は、学習用のモデル３６６と、学習用プログラム３６８とを備える。学習用のモデル３６６は、ネットワーク構造３６６Ｎとパラメータ３６６Ｐとで構成される。なお、ネットワーク構造３６６Ｎは予め構築され、サーバ装置３００に格納されている。

入力受付部３５０は、学習用データセット３２４の入力を受け付ける。学習用データセット３２４は、学習用の衛星画像と、学習用の車両情報と、教師データとしての業種情報とを含む。詳しくは、学習用データセット３２４は、複数のデータの組（学習用データ）を含み、各組（各学習用データ）が、衛星画像と学習用の車両情報と教師データとしての業種情報とを含む。なお、学習用データセットの複数のデータの組のうちの一部の組を、学習済モデルの精度を評価するために用いてもよい。

教師データは、以下のような手法で得ることができる。
たとえば、データベースＤ２において顧客業種のデータが入力されている場合、当該データを教師データとして用いることができる。この場合、作業車両が写っている作業現場の衛星画像と、当該作業車両の車両情報と、当該作業車両の顧客業種（教師データ）とが、学習用データセットを構成する１つのデータの組となる。

また、顧客業種のデータがデータベースＤ２には入力されてないが、販売店が顧客業種のデータを有している場合もある。たとえば、用紙を含む記録媒体に記憶している場合がある。このような場合には、販売店が有しているデータを、教師データとすることができる。

さらに、製造メーカの社員等が作業現場に行き、当該作業現場で行われている作業の業種を確認してもよい。この場合には、確認された業種を教師データとすることもできる。この場合、作業車両が写っている作業現場の衛星画像と、当該作業車両の車両情報と、当該作業現場で確認された作業の業種（教師データ）とが、学習用データセットを構成する１つのデータの組となる。

制御部３６０は、サーバ装置３００の全体的な動作を制御する。
制御部３６０内の学習部３６２は、学習済モデル３２６を生成する。学習済モデル３２６の生成について説明すると、以下のとおりである。

学習部３６２は、学習用データセット３２４を用いた機械学習により、学習用のモデル３６６のパラメータ３６６Ｐの値を更新する。具体的には、学習部３６２は、学習用プログラム３６８を用いることにより、パラメータ３６６Ｐの値を更新する。パラメータ３６６Ｐの更新は、学習に用いたデータの組（評価用のデータの組を除く）の数だけ、繰り返される。

学習が終了すると、学習済モデル３２６が得られる。学習済モデル３２６は、ネットワーク構造３６６Ｎと、学習済パラメータとを有する。なお、更新が完了したパラメータ３６６Ｐが、学習済パラメータに対応する。

生成された学習済モデル３２６は、通信ＩＦ３７０を介して、端末装置１００に送信される。なお、上述したように、端末装置１００に送信された学習済モデル３２６を、説明の便宜上、「学習済モデル１１６」と称する。

図７は、学習部３６２の処理（学習機能）の詳細を説明するためのブロック図である。
図７に示されているように、学習部３６２は、調整モジュール３４２を含む。

調整モジュール３４２において、衛星画像３２０は、予め定められた次元をもつ特徴量（特徴量ベクトル）に変換され、かつ学習用のモデル３６６に与えられる。ここで、衛星画像３２０の画像サイズは変動し得るため、調整モジュール３４２は画像サイズを規格化する。

より具体的には、調整モジュール３４２は、衛星画像を予め定められた画素数の画像に調整した上で、調整後の画像を構成する各画素の画素値を特徴量３４１０として学習用のモデル３６６に入力する。

また、衛星画像と同一の組の車両情報３２８が特徴量として学習用のモデル３６６に与えられる。詳しくは、位置情報３８２が、特徴量３４２０として学習用のモデル３６６に与えられる。車種情報３８４が、特徴量３４３０として学習用のモデル３６６に与えられる。車両状態情報３８６が、特徴量３４４０として学習用のモデル３６６に与えられる。

学習部３６２は、上述したように、学習用プログラム３１８を含む。学習用プログラム３１８は、パラメータ最適化モジュールである。学習用プログラム３１８は、学習用のモデル３６６を規定するためのパラメータ３６６Ｐを最適化することで、学習済モデル３２６（図５，図６参照）を生成する。

学習用プログラム３１８は、学習用データセット３２４に含まれる、衛星画像３２０、車両情報３２８および業種情報３２２の各組（各学習用データ）を用いて、パラメータ３６６Ｐを最適化する。

学習部３６２は、学習用データセット３２４に含まれる各組の衛星画像３２０から特徴量３４１０を生成して、学習用のモデル３６６に入力することで推定結果３４５０を算出する。具体的には、学習部３６２では、推定結果３４５０として業種毎のスコアが算出される。

学習用プログラム３１８は、学習用のモデル３６６から出力される推定結果３４５０と対応する業種情報３２２（教師データ，正解データ，正解ラベル）とを比較することで誤差を算出し、算出した誤差に応じてパラメータ３６６Ｐの値を最適化（調整）する。

以上のように、学習用プログラム３１８は、学習用データ（衛星画像３２０および車両情報３２８に対して業種情報３２２がラベル付けされている）から抽出された特徴量３４１０、３４２０，３４３０，３４４０を学習用のモデル３６６に入力して出力される推定結果３４５０が、当該学習用データにラベル付けされている業種情報３２２に近付くように、学習用のモデル３６６を最適化する。詳しくは、学習用プログラム３１８は、特徴量３４１０と車両情報３２８に関する特徴量３４２０，３４３０，３４４０を学習用のモデル３６６に入力したときに算出される推定結果３４５０が対応する業種情報３２２と一致するようにパラメータ３６６Ｐを調整する。

同様の手順で、学習用データセット３２４に含まれる各学習用データ（衛星画像３２０、位置情報３８２、車種情報３８４、車両状態情報３８６、および業種情報３２２）に基づいて、学習用のモデル３６６のパラメータ３６６Ｐを繰り返し最適化することで、学習済モデル３２６が生成される。

学習用プログラム３１８がパラメータ３６６Ｐの値を最適化するにあたっては、任意の最適化アルゴリズムを用いることができる。より具体的には、最適化アルゴリズムとしては、例えば、ＳＧＤ（Stochastic Gradient Descent：確率的勾配降下法）、ＭｏｍｅｎｔｕｍＳＧＤ（慣性項付加ＳＧＤ）、ＡｄａＧｒａｄ、ＲＭＳｐｒｏｐ、ＡｄａＤｅｌｔａ、Ａｄａｍ（Adaptive moment estimation）などの勾配法を用いることができる。

学習用プログラム３１８によりパラメータ３６６Ｐが最適化された学習用のモデル３６６は、学習済モデル３２６に相当し、上述したように、端末装置１００へ送信される。

図８は、サーバ装置３００における学習処理の処理手順を示すフローチャートである。
図８に示す各ステップは、典型的には、サーバ装置３００のプロセッサ３０４がＯＳ３１２、アプリケーションプログラム３１４、前処理プログラム３１６、および学習用プログラム３１８（いずれも図５参照）を実行することで実現されてもよい。

図８に示されるように、サーバ装置３００は、サーバ装置４００から衛星画像３２０を取得する（ステップＳ１）。また、サーバ装置３００は、サーバ装置２００から車両情報３２８を取得する（ステップＳ２）。次に、サーバ装置３００は、衛星画像３２０と、車両情報３２８と、業種情報３２２とを対応付けることで、学習用データセット３２４を生成する（ステップＳ３）。

サーバ装置３００は、生成した学習用データセット３２４のうち、１つのデータの組（学習用データ）を選択する（ステップＳ４）。サーバ装置３００は、衛星画像３２０をサイズ調整して特徴量３４１０を抽出する（ステップＳ５）。

サーバ装置３００は、ステップＳ５において生成した特徴量３４１０および車両情報３２８に関する各特徴量３４２０，３４３０，３４４０を学習用のモデル３６６に入力して推定結果３４５０を生成する（ステップＳ６）。次に、サーバ装置３００は、選択したデータの業種情報３２２とステップＳ６において生成した推定結果３４５０との誤差に基づいて学習用のモデル３６６のパラメータ３６６Ｐを最適化する（ステップＳ７）。

このように、サーバ装置３００は、特徴量３４１０と特徴量３４２０と特徴量３４３０と特徴量３４４０とを学習用のモデル３６６に入力して出力される推定結果３４５０が、当該学習用データにラベル付けされている業種（業種情報３２２）に近付くように、学習用のモデル３６６のパラメータ３６６Ｐを最適化する処理を実行する。

サーバ装置３００は、ステップＳ３において生成した学習用データセット３２４のすべてを処理したか否かを判断する（ステップＳ８）。学習用データセット３２４のすべてを処理していなければ（ステップＳ８においてＮＯ）、ステップＳ４以下の処理が繰り返される。学習用データセット３２４のすべてを処理していれば（ステップＳ８においてＹＥＳ）、サーバ装置３００は、現在のパラメータ３６６Ｐにより規定される学習済モデル３２６を端末装置１００へ送信する（ステップＳ９）。以上により、学習処理は完了する。

なお、上述したように、端末装置１００では、サーバ装置３００から送信された学習済モデルの参照符号を“１１６”としている。

＜Ｄ．利用段階＞
サーバ装置３００から送信（配布）された学習済モデル１１６の利用について説明する。具体的には、端末装置１００によって実行される推定処理について説明する。

図９は、端末装置１００の機能的構成を説明するための機能ブロック図である。
図９に示されているように、端末装置１００は、入力受付部１５０と、制御部１６０と、表示部１７０とを備える。制御部１６０は、業種推定部１６１と、表示制御部１６２とを備える。業種推定部１６１は、学習済モデル１１６を備える。

入力受付部１５０は、衛星画像３２０と車両情報３２８との入力を受け付ける。
制御部１６０は、端末装置１００の全体的な動作を制御する。

制御部１６０内の業種推定部１６１は、学習済モデル１１６を有する。学習済モデル１１６は、ネットワーク構造１１６Ｎと学習済パラメータ１１６Ｐとで構成される。なお、ネットワーク構造１１６Ｎは、ネットワーク構造３６６Ｎ（図６参照）と実質的に同一である。

業種推定部１６１は、学習済モデル１１６を用いて、衛星画像３２０と車両情報３２８とから、作業現場で行われている作業の業種を推定する。業種推定部１６１は、推定結果である業種情報を表示制御部１６２に送る。

表示制御部１６２は、業種情報を表示部１７０に表示させる。なお、表示部１７０は、ディスプレイ１０２（図４参照）に対応する。

図１０は、業種推定部１６１の処理（推定機能）の詳細を説明するためのブロック図である。

図１０に示されるように、業種推定部１６１は、調整モジュール１４２と学習済モデル１１６とを含む。調整モジュール１４２は、サーバ装置３００が有している調整モジュール３４２（図７参照）と実質的に同一である。

調整モジュール１４２において、衛星画像３２０は、予め定められた次元をもつ特徴量（特徴量ベクトル）に変換されて学習済モデル１１６に与えられる。ここで、衛星画像３２０の画像サイズは変動し得るため、調整モジュール１４２は画像サイズを規格化する。

より具体的には、調整モジュール１４２は、衛星画像を予め定められた画素数の画像に調整した上で、調整後の画像を構成する各画素の画素値を特徴量１４１０として学習済モデル１１６に入力する。

また、衛星画像と同一の組の車両情報３２８が特徴量として学習済モデル１１６に与えられる。詳しくは、位置情報３８２が、特徴量１４２０として学習済モデル１１６に与えられる。車種情報３８４が、特徴量１４３０として学習済モデル１１６に与えられる。車両状態情報３８６が、特徴量１４４０として学習済モデル１１６に与えられる。

学習済モデル１１６は、上述したように、ネットワーク構造１１６Ｎと学習済パラメータ１１６Ｐとで構成されている。特徴量１４１０、１４２０，１４３０，１４４０が学習済モデル１１６に入力されることで、学習済モデル１１６が定義する演算処理が実行されて、推定結果１４５０として業種毎のスコアが算出される。ここで、業種毎のスコアは、各業種が、推定されるべき業種であるそれぞれの可能性を示す値である。業種のスコアが高いほど、当該業種が、作業現場で行われている作業の業種である可能性が高い。なお、スコアは、正規化されていることが好ましい。

また、制御部１６０（図７）は、最もスコアの高い業種を表示部１７０に表示させる。しかしながら、これに限定されず、制御部１６０は、推定結果を各業種のスコアとして出力してもよい。

図１１は、図１０に示す学習済モデル１１６のネットワーク構造１１６Ｎの例を示す模式図である。

図１１に示されるように、学習済モデル１１６は、ＤＮＮ（Deep Neural Network）に分類されるネットワークである。学習済モデル１１６は、ＣＮＮ（Convolutional Neural Network）に分類される前処理ネットワーク１４６０と、中間層１４９０と、出力層に相当する活性化関数１４９２と、Ｓｏｆｔｍａｘ関数１４９４とを含む。

前処理ネットワーク１４６０は、相対的に次数の大きな特徴量１４１０から、推定結果１４５０を算出するために有効な特徴量を抽出するための一種のフィルタとして機能することが予定されている。前処理ネットワーク１４６０は、畳み込み層（CONV）およびプーリング層（Pooling）が交互に配置された構成を有している。なお、畳み込み層とプーリング層との数は同数でなくてもよく、また、畳み込み層の出力側にはＲｅＬＵ（正規化線形関数：rectified linear unit）などの活性化関数が配置される。

より具体的には、前処理ネットワーク１４６０は、特徴量１４１０（ｘ１１，ｘ１２，・・・，ｘ１ｒ）の入力を受けて、所定の属性情報を示す内部特徴量を出力するように構築される。

中間層１４９０は、所定数の層数を有する全結合ネットワークからなり、前処理ネットワーク１４６０からの出力を、各ノードについて決定される重みおよびバイアスを用いてノード毎に順次結合する。

中間層１４９０の出力側には、ＲｅＬＵなどの活性化関数１４９２が配置され、最終的には、Ｓｏｆｔｍａｘ関数１４９４により確率分布に正規化された上で、推定結果１４５０（ｙ１，ｙ２，・・・，ｙＮ）が出力される。

図１２は、端末装置１００における推定処理の処理手順を示すフローチャートである。
図１２に示す各ステップは、典型的には、端末装置１００のプロセッサ１０４がＯＳ１１２およびアプリケーションプログラム１１４（いずれも図４参照）を実行することで実現されてもよい。

図１２に示されるように端末装置１００は、サーバ装置４００から衛星画像３２０を取得する（ステップＳ１１）。端末装置１００は、サーバ装置２００から車両情報３２８を取得する（ステップＳ１２）。端末装置１００は、衛星画像３２０をサイズ調整して特徴量３４１０を抽出する（ステップＳ１３）。

端末装置１００は、衛星画像３２０の特徴量と車両情報の特徴量とを学習済モデル１１６に入力して、推定結果を生成する（ステップＳ１４）。端末装置１００は、学習済モデル１１６を用いて、衛星画像３２０の特徴量と車両情報の特徴量とから業種を推定する。

端末装置１００は、推定結果をディスプレイ１０２に表示する（ステップＳ１５）。詳しくは、端末装置１００は、推定結果のスコアが最も高い業種を示す画像データを生成し、生成された画像データ（業種を表示するためのデータ）をディスプレイ１０２に表示する。

＜Ｅ．変形例＞
（１）上記の実施の形態においては、精度の高い業種の推定を行なうため、サーバ装置３００は、衛星画像３２０と車両情報３２８とを用いた学習処理により学習済モデル３２６を生成した。また、端末装置１００は、サーバ装置３００から取得した学習済モデル１１６（学習済モデル３２６と実質的に同一の学習済モデル１１６）を用いて、業種の推定処理を行なった。しかしながら、車両情報３２８を用いた学習および利用は必須ではない。

たとえば、サーバ装置３００は、衛星画像３２０のみを用いた学習処理により学習済モデルを生成し、端末装置１００は、サーバ装置３００から取得した当該学習済モデルを用いて、業種の推定処理を行なってもよい。

（２）車両情報３２８を用いて学習済モデルを生成する場合、車両情報３２８としての３つの情報（位置情報３８２、車種情報３８４、車両状態情報３８６）を用いた学習処理により学習済モデルを生成した。しかしながら、これに限定されるものではない。車両情報３２８を用いて学習済モデルを生成する場合、サーバ装置３００は、位置情報３８２、車種情報３８４、および車両状態情報３８６のうち、少なくとも１つ以上の情報を用いて学習済モデルを生成してもよい。

また、車両情報３２８を用いて学習済モデルを生成する場合、位置情報３８２、車種情報３８４、車両状態情報３８６の３つの種類の情報のうち、学習済モデルの生成に用いる情報の種類を多くするほど、精度の高い業種の推定が可能となる。

（３）上記の実施の形態においては、「作業機械が稼働している作業現場を上空から撮像することにより得られた画像データ」の例として、人工衛星７００によって撮像された画像（衛星画像）を挙げた。しかしなから、これに限定されず、衛星画像の代わりに、たとえばＵＡＶ（Unmanned Aerial Vehicle）、飛行機、ヘリコプター等を含む航空機（大気中を飛行する機器）によって撮像された画像を用いてもよい。

今回開示された実施の形態は例示であって、上記内容のみに制限されるものではない。本発明の範囲は特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１通信システム、１００，５００端末装置、１０２，３０２ディスプレイ、１０４，３０４プロセッサ、１０６，３０６メモリ、１１０，３１０ストレージ、１１４，３１４アプリケーションプログラム、１１６，３２６学習済モデル、１１６Ｎ，３６６Ｎネットワーク構造、１１６Ｐ学習済パラメータ、１４２，３４２調整モジュール、１５０，３５０入力受付部、１６０，３６０制御部、１６１業種推定部、１６２表示制御部、１７０表示部、２００，３００，４００サーバ装置、３１６前処理プログラム、３１８，３６８学習用プログラム、３２０衛星画像、３２２業種情報、３２４学習用データセット、３２８車両情報、３６２学習部、３６６学習用のモデル、３６６Ｐパラメータ、３８２位置情報、３８４車種情報、３８６車両状態情報、６００作業車両、７００人工衛星、９０１，９０２，９０３ネットワーク、１４１０，１４２０，１４３０，１４４０，３４１０，３４２０，３４３０，３４４０特徴量、１４５０，３４５０推定結果、１４６０前処理ネットワーク、１４９０中間層、１４９２活性化関数、１４９４Ｓｏｆｔｍａｘ関数、Ｄ２データベース。

Claims

演算装置と、
作業機械が稼働している作業現場を上空から撮像することにより得られた画像データから、当該作業現場で行われている作業の業種を推定するように構成された学習済モデルを記憶した記憶装置と、
出力装置とを備え、
前記演算装置は、
前記学習済モデルを用いて、入力された前記画像データから前記業種を推定し、
推定された前記業種を前記出力装置に出力させる、情報処理装置。
前記学習済モデルは、前記画像データと、前記作業機械の機械情報とから、前記業種を推定するように構成され、
前記演算装置は、前記画像データの入力と前記作業機械の機械情報の入力とを受け付けると、前記学習済モデルを用いて、前記画像データと前記作業機械の機械情報とから前記業種を推定する、請求項１に記載の情報処理装置。
前記機械情報は、前記作業機械の位置情報を含む、請求項２に記載の情報処理装置。
前記機械情報は、前記作業機械の機種情報を含む、請求項２または３に記載の情報処理装置。
前記機械情報は、前記作業機械の運転時の機械状態情報を含む、請求項２から４のいずれか１項に記載の情報処理装置。
前記情報処理装置は、サーバから前記機械情報を取得する、請求項２から５のいずれか１項に記載の情報処理装置。
前記学習済モデルは、学習用データセットを用いた学習により生成され、
前記学習用データセットは、作業機械が稼働している作業現場を上空から撮像することにより得られた画像データと、当該作業現場の業種を示した教師データとを含む、請求項１から６のいずれか１項に記載の情報処理装置。
前記画像データは、人工衛星によって取得された衛星画像データである、請求項１から７のいずれか１項に記載の情報処理装置。
作業機械が稼働している作業現場を上空から撮像することにより得られた画像データの入力を、演算装置が受け付けるステップと、
前記演算装置が、学習済モデルを用いて、受け付けた前記画像データから、前記作業現場で行われている作業の業種を推定するステップと、
前記演算装置が、推定された前記業種を出力装置に出力させるステップとを備える、情報処理方法。
学習用データセットを取得するステップを備え、前記学習用データセットは、作業機械が稼働している作業現場を上空から撮像することにより得られた画像データと、当該作業現場で行われている作業の業種を示した教師データとを含み、
前記学習用データセットを用いた学習処理によって、学習済モデルを生成するステップをさらに備え、当該学習済モデルは、作業機械が稼働している作業現場を上空から撮像することにより得られた画像データに基づいて、当該作業現場の業種を推定するためのプログラムである、学習済モデルの生成方法。
学習装置と端末装置とを備えたシステムであって、
前記学習装置は、学習用データセットを用いた学習によって学習済モデルを生成し、当該学習用データセットは、作業機械が稼働している作業現場を上空から撮像することにより得られた画像データと、当該作業現場で行われている作業の業種を示した教師データとを含み、
前記端末装置は、
前記学習済モデルを前記学習装置から取得し、
前記学習済モデルを用いて、作業機械が稼働している作業現場を上空から撮像することにより得られた画像データから、当該作業現場の業種を推定し、
推定された前記業種を出力する、システム。
作業機械が稼働している作業現場の業種を推定するための学習済モデルを生成するために用いられ、かつ、作業機械が稼働している作業現場を上空から撮像することにより得られた画像データと、当該作業現場で行われている作業の業種を示した教師データとを含む、学習用データセット。