JP2022514935A

JP2022514935A - 多重予測ネットワーク

Info

Publication number: JP2022514935A
Application number: JP2021536301A
Authority: JP
Inventors: ロベルトカポビアンコ; ヴァルンコンペラ; カウシックスブラマニアン; ジェームズマクラシャン; ピーターワーマン; サティンダーバヴェジャ
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2019-01-04
Filing date: 2020-01-02
Publication date: 2022-02-16
Anticipated expiration: 2040-01-02
Also published as: CN113228063A; KR20210090265A; US20200218992A1; EP3888017A4; WO2020142620A1; JP7379494B2; EP3888017A1

Abstract

人工知能エージェントを訓練し、及び／又は動作させる方法及びシステムが、多重入力及び／又は多重予測ネットワークを使用することができる。多重予測は計算構造であり、必ずというわけではないが典型的にはニューラルネットワークであり、その共有されるネットワークの重みを使用して複数の関連する予測を計算することができる。このことは、必要なデータ量及び／又は経験に関してより効率的な訓練を可能にし、いくつかの事例ではこれらの予測のより効率的な計算を可能にする。多重予測ネットワークには、複数の関連する、時には作成可能な手法が存在する。【選択図】図１Ａ

Description

本発明の１又は２以上の実施形態は、一般に知的人工エージェント（ｉｎｔｅｌｌｉｇｅｎｔａｒｔｉｆｉｃｉａｌａｇｅｎｔｓ）に関する。具体的には、本発明は、予測計算をより効率的にするための多重予測（ｍｕｌｔｉ－ｆｏｒｅｃａｓｔｓ）及び／又は方法を通じて知的人工エージェントを訓練することに関する。

以下の背景情報は、先行技術のさらなる態様を読者にさらに伝えるのに役立つと期待されるが、本発明、又はそのいずれかの実施形態、その中で言及又は暗示される、或いはそれについて推測される何かを限定するものとして解釈すべきではない先行技術の特定の態様（例えば、限定ではなく、手法、事実又は通念）の例を提示することができる。

予測（ｆｏｒｅｃａｓｔｓ）は、多くの種類の人工知能（ＡＩ）システムにおいて有用な予想（ｐｒｅｄｉｃｔｉｏｎｓ）である。予測は、世界状況の関数としての、エージェントが実行するスキル又は挙動を条件とする何らかの結果の予想である。予測は、現在の状態における現在の挙動の結果に関する予想を行うために、或いは目的を計画するために仮説的挙動を条件とする仮説的予想を行うために使用することができる。予測の例としては、何らかのスキルの終了までの距離、何らかのスキルの終了までの時間、又は何らかのスキルの終了時の状態特徴（ｓｔａｔｅｆｅａｔｕｒｅ）の値などが挙げられる。

人工エージェントを訓練するための現在知られているシステムは様々な問題を示す。多くの場合、ユーザは、エージェントによって学習されるスキル及び知識を制御する能力に欠け、或いはこのような学習されるスキル及び知識は、ユーザが他の所望のスキル及び知識ほど重要であると気付かない項目となり得る。さらに、従来のシステムは、より高水準のスキル及び知識を学習する上で使用されるようにスキル及び知識をモジュール方式で階層化する能力に欠けていることもある。また、従来のシステムでは、人工エージェントが、スキルの実行中に特定の形態の知識、経験の特徴の予想を学習しないこともある。

これらを考慮すると、人工知能エージェントにおけるスキル及び知識の訓練の改善が必要である。

本発明の実施形態は、機械及びコンピュータベースのソフトウェアアプリケーションにおいて人工知能を形成する多重ヘッド予測方法（ｍｕｌｔｉ－ｈｅａｄｅｄｆｏｒｅｃａｓｔｍｅｔｈｏｄ）であって、環境から状態情報として入力を受け取るステップと、それぞれが異なる状態情報特徴に対応する複数の予測を出力するステップとを含む方法を提供する。

本発明の実施形態は、機械及びコンピュータベースのソフトウェアアプリケーションにおいて人工知能を形成する多重入力予測方法であって、環境から状態情報として入力を受け取るステップと、予測ＩＤ、スキルＩＤ、及びパラメータ値のうちの少なくとも１つからさらなる入力を受け取るステップと、さらなる入力の各々の予測を出力するステップとを含む方法をさらに提供する。

本発明の実施形態は、機械及びコンピュータベースのソフトウェアアプリケーションにおいて人工知能を形成する予測ネットワーク方法であって、環境から状態情報として入力を受け取るステップと、予測ＩＤ、スキルＩＤ、及びパラメータ値のうちの少なくとも１つからさらなる入力を受け取るステップと、さらなる入力を、予測ネットワークに入力される前に、学習され縮小されたベクトル表現に埋め込むステップと、各学習され縮小されたベクトル表現の予測を出力するステップとを含む方法も提供する。

以下の図面、説明及び特許請求の範囲を参照すれば、本発明のこれらの及びその他の特徴、態様及び利点がより良く理解されるであろう。

本発明のいくつかの実施形態を一例として示すが、これらは同様の要素を同様の参照で示すことができる添付図面の図によって限定されるものではない。

本発明の例示的な実施形態による多重ヘッド予測ネットワークを示す図である。ニューラルネットワークの入力ノードの重み付けの例を示す図である。本発明の例示的な実施形態による多重入力予測ネットワークを示す図である。本発明の例示的な実施形態による多重スキル予測ネットワークを示す図である。本発明の例示的な実施形態によるパラメータ化スキル予測ネットワークを示す図である。本発明の例示的な実施形態によるハイブリッドスキルＩＤ及び多重予測ネットワークを示す図である。本発明の例示的な実施形態による、多重予測ネットワークにおける予測ＩＤの埋め込みを示す図である。

別途指示していない限り、図のイラストは必ずしも縮尺通りではない。

図示の実施形態について説明する以下の詳細な説明を参照することによって、本発明及びその様々な実施形態をより良く理解することができる。図示の実施形態は一例として示すものであり、最終的に特許請求の範囲に定める本発明を限定するものではないと明確に理解されたい。

本明細書で使用する用語は、特定の実施形態を説明するためのものにすぎず、本発明を限定するように意図するものではない。本明細書で使用する「及び／又は」という用語は、関連する記載項目のうちの１つ又は２つ以上のありとあらゆる組み合わせを含む。本明細書で使用する単数形の「ａ、ａｎ（英文不定冠詞）」及び「ｔｈｅ（英文定冠詞）」は、その文脈で別途明確に示していない限り、単数形に加えて複数形も含むように意図される。さらに、「含む、備える（ｃｏｍｐｒｉｓｅｓ及び／又はｃｏｍｐｒｉｓｉｎｇ）」という用語は、本明細書で使用する場合、言及する特徴、ステップ、動作、要素及び／又はコンポーネントの存在を示すものであるが、１又は２以上の他の特徴、ステップ、動作、要素、コンポーネント、及び／又はこれらの群の存在又は追加を除外するものではないと理解されたい。

特に定めがない限り、本明細書で使用する（技術用語及び科学用語を含む）全ての用語は、本発明が属する技術の当業者が一般に理解している意味と同じ意味を有する。さらに、一般に使用される辞書に定義されているような用語については、関連技術及び本開示の文脈におけるこれらの意味に従う意味を有すると解釈すべきであり、本明細書で明確に定義していない限り、理想的な又は過度に形式的な意味で解釈されるものではないと理解されるであろう。

本発明の説明では、複数の技術及びステップが開示されていると理解されるであろう。これらはそれぞれ個々の利益を有し、それぞれ開示する他の技術の１つ又は２つ以上、又は場合によっては全てと共に使用することもできる。従って、明確にするために、本説明では個々のステップの全ての可能な組み合わせを不必要に繰り返さないようにする。しかしながら、本明細書及び特許請求の範囲については、このような組み合わせも本発明の範囲及び特許請求の範囲に完全に含まれるという理解の下で読むべきである。

以下の説明では、本発明の完全な理解をもたらすために数多くの具体的な詳細を示す。しかしながら、当業者には、これらの具体的な詳細を伴わずとも本発明を実施できることが明らかであろう。

少なくとも互いに一般通信を行う装置又はシステムモジュールは、別途明示していない限り互いに連続的に通信する必要はない。また、少なくとも互いに一般通信を行う装置又はシステムモジュールは、直接的に、或いは１又は２以上の仲介装置を通じて間接的に通信することができる。

互いに通信する複数のコンポーネントを含む実施形態の説明は、このようなコンポーネントが全て必要であることを意味するものではない。むしろ、本発明の幅広い可能な実施形態を示すために様々な任意のコンポーネントについて説明する。

当業者には周知のように、いずれかのシステムの、とりわけ本発明の実施形態の商業的実装の最適な構成を設計する際には、通常は多くの熟慮及び妥協を行わなければならない。本発明の趣旨及び教示による商業的実装は特定の用途のニーズに従って構成することができ、これによって当業者は、特定の用途のニーズに対応する所望の実装を達成するために、その平均的なスキル及び既知の技術を使用して、本発明のいずれかの説明する実施形態に関連する教示のいずれかの（単複の）態様、（単複の）特徴、（単複の）機能、（単複の）結果、（単複の）コンポーネント、（単複の）手法又は（単複の）ステップを好適に省略し、含め、適応させ、混合し、合致させ、或いは改善及び／又は最適化することができる、

「コンピュータ」は、構造化された入力を受け入れ、構造化された入力を規定のルールに従って処理し、処理の結果を出力として生成することができる１又は２以上の装置及び／又は１又は２以上のシステムを意味することができる。コンピュータの例としては、コンピュータ、固定及び／又はポータブルコンピュータ、単一のプロセッサ、複数のプロセッサ、又は並行して及び／又は並行しないで動作できるマルチコアプロセッサを有するコンピュータ、汎用コンピュータ、スーパーコンピュータ、メインフレーム、スーパーミニコンピュータ、ミニコンピュータ、ワークステーション、マイクロコンピュータ、サーバ、クライアント、双方向テレビ、ウェブアプライアンス、インターネットアクセスを有する通信装置、コンピュータと双方向テレビとのハイブリッド結合、ポータブルコンピュータ、タブレットパーソナルコンピュータ（ＰＣ）、携帯情報端末（ＰＤＡ）、携帯電話機、例えばデジタルシグナルプロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け命令セットプロセッサ（ＡＳＩＰ）、チップ、複数のチップ、システムオンチップ又はチップセットなどの、コンピュータ及び／又はソフトウェアをエミュレートする特定用途向けハードウェア、グラフィックプロセッシングユニット（ＧＰＵ）、データ収集装置、光コンピュータ、量子コンピュータ、バイオコンピュータ、及び一般にデータを受け入れ、１又は２以上の記憶されたソフトウェアプログラムに従ってデータを処理し、結果を生成し、典型的には入力装置、出力装置、記憶装置、算術演算装置、論理装置及び制御装置を含むことができる装置を挙げることができる。

当業者であれば、適切な場合、本開示のいくつかの実施形態は、パーソナルコンピュータ、ハンドヘルド装置、マルチプロセッサシステム、マイクロプロセッサベースの又はプログラム可能な消費者向け電子装置、ネットワークＰＣ、ミニコンピュータ及びメインフレームコンピュータなどを含む多くのタイプのコンピュータシステム構成を含むネットワークコンピューティング環境において実施することができると理解するであろう。適切な場合、実施形態は、通信ネットワークを通じて（有線リンク、無線リンクのいずれか又はこれらの組み合わせによって）リンクされた局所及び遠隔処理装置によってタスクが実行される分散コンピューティング環境において実施することもできる。分散コンピューティング環境では、局所及び遠隔の両方のメモリ記憶装置にプログラムモジュールを配置することができる。

「ソフトウェア」は、コンピュータを動作させるための規定のルールを意味することができる。ソフトウェアの例としては、１又は２以上のコンピュータ可読言語でのコードセグメント、グラフィック及び／又はテキスト命令、アプレット、プリコンパイル済みコード、解釈済みコード、コンパイル済みコード及びコンピュータプログラムを挙げることができる。

本明細書で説明する実施形態例は、コンピュータにインストールされたコンピュータ実行可能命令（例えば、ソフトウェア）を含む動作環境、ハードウェア、又はソフトウェアとハードウェアとの組み合わせにおいて実装することができる。コンピュータ実行可能命令は、コンピュータプログラミング言語で書くことができ、又はファームウェアロジックで具体化することができる。このような命令は、認可規格に従うプログラミング言語で書かれている場合、様々なハードウェアプラットフォーム上で様々なオペレーティングシステムと調和するように実行することができる。以下に限定するわけではないが、本発明の態様の動作を実行するためのコンピュータソフトウェアプログラムコードは、オブジェクト指向型プログラミング言語及び／又は従来の手続き型プログラミング言語、及び／又は、例えばハイパーテキストマークアップ言語（ＨＴＭＬ）、ダイナミックＨＴＭＬ、拡張マークアップ言語（ＸＭＬ）、拡張スタイルシート言語（ＸＳＬ）、文書スタイル意味指定言語（ＤＳＳＳＬ）、カスケーディングスタイルシート（ＣＳＳ）、同期化マルチメディア統合言語（ＳＭＩＬ）、ワイヤレスマークアップ言語（ＷＭＬ）、Ｊａｖａ（商標）、Ｊｉｎｉ（商標）、Ｃ、Ｃ＋＋、Ｓｍａｌｌｔａｌｋ、Ｐｙｔｈｏｎ、Ｐｅｒｌ、ＵＮＩＸシェル、ビジュアルベーシック又はビジュアルベーシックスクリプト、仮想現実マークアップ言語（ＶＲＭＬ）、ＣｏｌｄＦｕｓｉｏｎ（商標）又はその他のコンパイラ、アセンブラ、インタープリタ、或いはその他のコンピュータ言語又はプラットフォームなどのプログラミング言語を含む１又は２以上の好適なプログラミング言語のいずれかの組み合わせで書くことができる。

本発明の態様の動作を実行するためのコンピュータソフトウェアプログラムコードは、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ又はＣ＋＋などのオブジェクト指向型プログラミング言語、及び「Ｃ」プログラミング言語又は同様のプログラミング言語などの従来の手続き型プログラミング言語を含む１又は２以上のプログラミング言語のいずれかの組み合わせで書くことができる。プログラムコードは、完全にユーザのコンピュータ上で、スタンドアロン型ソフトウェアパッケージとして一部をユーザのコンピュータ上で、一部をユーザのコンピュータ上でかつ一部を遠隔コンピュータ上で、又は完全に遠隔コンピュータ又はサーバ上で実行することができる。後者のシナリオでは、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含むいずれかのタイプのネットワークを通じて遠隔コンピュータをユーザのコンピュータに接続し、或いは（例えば、インターネットサービスプロバイダを使用してインターネットを通じて）外部コンピュータへの接続を形成することができる。プログラムコードを複数の計算ユニット間で分散し、各ユニットが全計算の一部を処理することもできる。

以下、本発明の実施形態による方法、装置（システム）及びコンピュータプログラム製品のフローチャート図及び／又はブロック図を参照しながら本発明の態様を説明する。フローチャート図及び／又はブロック図の各ブロック、並びにフローチャート図及び／又はブロック図のブロックの組み合わせは、コンピュータプログラム命令によって実行することができると理解されるであろう。これらのコンピュータプログラム命令を汎用コンピュータ、専用コンピュータ又はその他のプログラマブルデータ処理装置のプロセッサに与えて機械を生産することで、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャート及び／又はブロック図の１又は複数のブロックに規定される機能／動作を実行する手段を生み出すようにすることができる。

図のフローチャート及びブロック図には、様々な実施形態によるシステム、方法及びコンピュータプログラム製品の可能な実装のアーキテクチャ、機能及び動作を示す。この点、フローチャート又はブロック図の各ブロックは、（単複の）特定の論理機能を実行するための１又は２以上の実行可能命令を含むモジュール、セグメント又はコード部分を表すことができる。なお、いくつかの別の実装では、ブロックに示す機能が図に示す順序とは異なる順序で発生することもできる。例えば、実際には、連続して示す２つのブロックが関連する機能に応じて実質的に同時に実行されることも、又は時にはブロックが逆の順序で実行されることもある。また、ブロック図及び／又はフローチャート図の各ブロック、並びにブロック図及び／又はフローチャート図のブロックの組み合わせは、特定の機能又は動作を実行する専用ハードウェアベースのシステム、又は専用ハードウェアとコンピュータ命令との組み合わせによって実行することもできる。

また、コンピュータ、他のプログラマブルデータ処理装置又はその他の装置に特定の形で機能するように指示することができるこれらのコンピュータプログラム命令をコンピュータ可読媒体に記憶することにより、コンピュータ可読媒体に記憶された命令が、フローチャート及び／又はブロック図の１又は複数のブロック内に指定される機能／動作を実行する命令を含む製造の物品を生み出すようにすることもできる。

さらに、プロセスステップ、方法ステップ又はアルゴリズムなどは一定の順序で説明することができるが、このようなプロセス、方法及びアルゴリズムは別の順序で機能するように構成することもできる。換言すれば、説明できるステップのあらゆる順番又は順序は、これらのステップを必ずしもこの順序で実行する必要があることを示すものではない。本明細書で説明するプロセスのステップは、あらゆる実用的な順序で実行することができる。さらに、いくつかのステップを同時に実行することもできる。

本明細書で説明する様々な方法及びアルゴリズムは、例えば適切にプログラムされた汎用コンピュータ及び計算装置によって実行できることが容易に明らかになるであろう。通常、プロセッサ（例えば、マイクロプロセッサ）は、メモリ又は同様の装置から命令を受け取ってこれらの命令を実行することにより、これらの命令によって定められたプロセスを実行する。さらに、このような方法及びアルゴリズムを実行するプログラムは、様々な既知の媒体を用いて記憶して送信することができる。

本明細書で使用する「コンピュータ可読媒体」という用語は、コンピュータ、プロセッサ又は同様の装置が読み取ることができるデータ（例えば、命令）を提供することに関与するいずれかの媒体を意味する。このような媒体は、以下に限定するわけではないが、不揮発性媒体、揮発性媒体及び送信媒体を含む多くの形態を取ることができる。不揮発性媒体は、例えば光又は磁気ディスク及びその他の永続的メモリを含む。揮発性媒体は、典型的にはメインメモリを構成するダイナミックランダムアクセスメモリ（ＤＲＡＭ）を含む。送信媒体は、プロセッサに結合されたシステムバスを含むワイヤを含む、同軸ケーブル、銅線及び光ファイバを含む。送信媒体は、無線周波数（ＲＦ）及び赤外線（ＩＲ）データ通信中に生成されるものなどの音波、光波及び電磁放射線を含み、又は伝えることができる。一般的な形態のコンピュータ可読媒体としては、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、他のいずれかの磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤ、他のいずれかの光媒体、パンチカード、紙テープ、穴パターンを有する他のいずれかの物理的媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ―ＥＥＰＲＯＭ、ＥＥＰＲＯＭ又は他のいずれかのメモリーチップ又はカートリッジ、後述するような搬送波、又はコンピュータが読み取ることができる他のいずれかの媒体を挙げることができる。

一連の命令をプロセッサに搬送することには、様々な形態のコンピュータ可読媒体が関与することができる。例えば、一連の命令は、（ｉ）ＲＡＭからプロセッサに供給することができ、（ｉｉ）無線送信媒体を介して搬送することができ、及び／又は（ｉｉｉ）Ｂｌｕｅｔｏｏｔｈ、ＴＤＭＡ、ＣＤＭＡ、３Ｇなどの数多くのフォーマット、標準又はプロトコルに従ってフォーマットすることができる。

本発明の実施形態は、本明細書に開示する動作を実行する装置を含むことができる。装置は、所望の目的で特別に構成することも、又は内部に記憶されたプログラムによって選択的に作動又は構成される汎用装置を含むこともできる。

本発明の実施形態は、ハードウェア、ファームウェア及びソフトウェアの１つ又は組み合わせで実装することもできる。これらは、本明細書で説明する動作を実行するためにコンピュータプラットフォームが読み取って実行できる、機械可読媒体に記憶された命令として実装することができる。

より具体的には、当業者であれば理解するように、本発明の態様は、システム、方法又はコンピュータプログラム製品として具体化することができる。従って、本発明の態様は、完全にハードウェアの実施形態、（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）完全にソフトウェアの実施形態、又はソフトウェアの態様とハードウェアの態様とを組み合わせた実施形態の形態を取ることができ、本明細書では一般にこれらを全て「回路」、「モジュール」又は「システム」と呼ぶことができる。さらに、本発明の態様は、コンピュータ可読プログラムコードを具体化した１又は２以上のコンピュータ可読媒体に具体化されるコンピュータプログラム製品の形態を取ることもできる。

以下の説明及び特許請求の範囲では、限定するわけではないが、取り外し可能記憶ドライブ、及びハードディスクドライブにインストールされたハードディスクなどの媒体を一般的に意味するために「コンピュータプログラム媒体」及び「コンピュータ可読媒体」という用語を使用することができる。これらのコンピュータプログラム製品は、コンピュータシステムにソフトウェアを提供することができる。本発明の実施形態は、このようなコンピュータプログラム製品に関することができる。

本開示の範囲内の実施形態は、コンピュータ実行可能命令又はデータ構造を搬送又は記憶する有形の及び／又は非一時的なコンピュータ可読記憶媒体を含むこともできる。このような非一時的コンピュータ可読記憶媒体は、上述したようないずれかの専用プロセッサの機能設計を含む汎用又は専用コンピュータがアクセスできるいずれかの利用可能な媒体とすることができる。限定ではなく一例として、このような非一時的コンピュータ可読媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤＲＯＭ又はその他の光ディスクストレージ、磁気ディスクストレージ又はその他の磁気記憶装置、或いはコンピュータ実行可能命令、データ構造又はプロセッサチップ設計の形態の所望のプログラムコード手段を搬送又は記憶するために使用できる他のいずれかの媒体を含むことができる。ネットワーク又は別の通信接続（有線、無線のいずれか、又はこれらの組み合わせ）を介してコンピュータに情報が転送又は提供される場合、コンピュータは、この接続を適切にコンピュータ可読媒体とみなす。従って、このようなあらゆる接続はコンピュータ可読媒体と呼ぶことが適切である。これらの組み合わせもコンピュータ可読媒体の範囲に含めるべきである。

非一時的コンピュータ可読媒体は、以下に限定するわけではないが、ハードドライブ、コンパクトディスク、フラッシュメモリ、揮発性メモリ、ランダムアクセスメモリ、磁気メモリ、光学メモリ、半導体ベースのメモリ、相変化メモリ、光学メモリ、及び周期的にリフレッシュされるメモリなどを含むが、純粋な一時的信号自体は含んでおらず、すなわちこの場合は媒体自体が一時的である。

アルゴリズムは、ここでは、及び一般的に、所望の結果をもたらす首尾一貫した一連の行為又は動作であると考えられる。これらは、物理量の物理的操作を含む。通常、必ずというわけではないが、これらの量は、記憶、転送、合成、比較及び別様な操作が可能な電気又は磁気信号の形態を取る。主に共通使用という理由で、時にはこれらの信号を、ビット、値、要素、記号、文字、用語又は番号などと呼ぶことが便利であると分かっている。しかしながら、これらの及び同様の用語は、全て適切な物理量に関連付けられるべきものであり、これらの量に与えられた便利な表記にすぎないと理解されたい。

特に別途述べていない限り、また以下の説明及び特許請求の範囲から明らかになり得るように、本明細書全体を通じて、「処理する」、「計算する」、「算出する」又は「決定する」などの用語を利用した説明は、コンピュータシステムのレジスタ及び／又はメモリ内の電子量などの物理量として表されるデータを操作し、及び／又はコンピュータシステムのメモリ、レジスタ又は他のこのような情報記憶、送信又は表示装置内の物理量として同様に表される他のデータに変形させるコンピュータ、コンピュータシステム又は同様の電子計算装置の動作及び／又はプロセスを意味すると理解されたい。

同様に、「プロセッサ」という用語は、レジスタ及び／又はメモリからの電子データを処理し、外部装置の物理的変化又は作動を引き起こすようにこの電子データをレジスタ及び／又はメモリへの記憶又は外部装置への伝達が可能な他の電子データに変換するいずれかの装置又は装置の一部を意味することができる。「コンピュータプラットフォーム」は、１又は２以上のプロセッサを含むことができる。

「ロボット」、「エージェント」、「知的エージェント」、「人工エージェント」又は「人工知能エージェント」という用語は、感知又は観察に応答して行動又はコマンドを発行するコンピュータ又はコンピュータシステムによって直接的又は間接的に制御されるいずれかのシステムを意味することができる。この用語は、カメラ、タッチセンサ及び距離センサなどの物理的センサを有する従来の物理的ロボット、又は仮想シミュレーション内に存在する模擬ロボット、或いはネットワーク内のソフトウェアとして存在するメールボット又はサーチボットなどの「ボット」を制限なく意味することができる。この用語は、いずれかの脚付きロボット（ｌｉｍｂｅｄｒｏｂｏｔｓ）、歩行ロボット、（以下に限定するわけではないが、組み立て、塗装、修理、メンテナンスなどの自動化のために使用されるロボットを含む）産業ロボット、車輪付きロボット、掃除又は芝刈りロボット、パーソナルアシスタントロボット、サービスロボット、医用又は外科ロボット、飛行ロボット、運転ロボット、航空機又は宇宙船ロボット、或いは車両用又はそれ以外の、実際の又は模擬の、知的家庭用又は作業用機器などの静止ロボットも含む、実質的に自律制御下で動作する他のいずれかのロボットを制限なく意味することもできる。

本発明の多くの実用的な実施形態は、人工知能エージェントによる活動を効率的に実行する手段及び方法を提供する。

いくつかの実施形態では、「センサ」が、限定ではないが、エージェントの環境、具体的には目標達成に向けてどのように制御を導くことができるかに関するいずれかの情報ソースを含むことができる。非限定的な例では、知覚情報が、限定ではないが、カメラ、タッチセンサ、距離センサ、温度センサ、波長センサ、音響又は音声センサ、固有感覚センサ（ｐｒｏｐｒｉｏｃｅｐｔｉｖｅｓｅｎｓｏｒｓ）、ポジションセンサ、圧力又は力センサ、速度又は加速度又はその他の動きセンサなどの知覚装置を含むいずれかのソース、或いは一群の知覚装置を（例えば、物体の最近の位置に関する）以前に保持していた情報、位置情報及び位置センサなどと組み合わせたものから作成できる、編集された、抽象的な又は状況的な情報（例えば、空間内の物体の既知の位置）に由来することができる。

「観察（ｏｂｓｅｒｖａｔｉｏｎ又はｏｂｓｅｒｖａｔｉｏｎｓ）」という用語は、エージェントがいずれかの手段によって受け取る、エージェントの環境又はエージェント自体に関するいずれかの情報を意味する。いくつかの実施形態では、この情報を、限定ではないが、カメラ、タッチセンサ、距離センサ、温度センサ、波長センサ、音響又は音声センサ、ポジションセンサ、圧力又は力センサ、速度又は加速度又はその他の動きセンサ、位置センサ（例えば、ＧＰＳ）などの知覚装置を通じて受け取られる知覚情報又は信号とすることができる。他の実施形態では、この情報が、限定ではないが、一群の知覚装置と記憶された情報とを組み合わせたものから作成された、編集された、抽象的な又は状況的な情報を含むこともできる。非限定的な例では、エージェントが、エージェント自体又は他の物体の位置又は特性に関する抽象情報を観察として受け取ることができる。いくつかの実施形態では、この情報が、人々又は顧客、或いはこれらの購買習慣、個人連絡先情報、個人的好みなどの特性を示すことができる。いくつかの実施形態では、観察を、限定ではないが、エージェントの現在又は過去の活動に関する固有感覚情報（ｐｒｏｐｒｉｏｃｅｐｔｉｖｅｉｎｆｏｒｍａｔｉｏｎ）又はその他の情報、エージェントの内部状態に関する情報、或いはエージェントによって既に計算又は処理された情報などの、エージェントの内部に関する情報とすることができる。

「活動」という用語は、エージェントの環境、エージェントの物理的又は模擬的自己（ｐｈｙｓｉｃａｌｏｒｓｉｍｕｌａｔｅｄｓｅｌｆ）、或いはエージェントの内部機能を制御し、これらに影響し、又はこれらを左右するための、最終的にはエージェントの将来の活動、活動選択、又は活動の好みを制御し、又はこれらに影響を与えることができるエージェントのいずれかの手段を意味する。多くの実施形態では、これらの活動が、物理的又は模擬サーボ又はアクチュエータを直接制御ことができる。いくつかの実施形態では、これらの活動を、エージェントの選択に影響するように意図された好み又は一連の好みの表現とすることができる。いくつかの実施形態では、エージェントの（単複の）活動に関する情報が、限定ではないが、エージェントの（単複の）活動にわたる確率分布、及び／又はエージェントの最終的な活動選択に影響するように意図された発信情報（ｏｕｔｇｏｉｎｇｉｎｆｏｒｍａｔｉｏn）を含むことができる。

「状態」又は「状態情報」という用語は、限定ではないが、エージェントの現在及び／又は過去の観察に関する情報を含むことができる、環境又はエージェントの状態に関するいずれかの一群の情報を意味する。

「ポリシー」という用語は、いずれかの完全な又は部分的な状態情報からいずれかの活動情報へのいずれかの関数又はマッピングを意味する。ポリシーは、ハードコーディングすることも、或いは限定ではないが、いずれかの強化学習法又は制御最適化法を含むいずれかの適切な学習法又は教示法を使用して修正、適合又は訓練することもできる。ポリシーは、限定ではないが、特定の尺度、値又は関数を最適化することによって生じ得るものなどの明示的マッピング又は非明示的マッピングとすることができる。ポリシーは、限定ではないが、どのような条件下でポリシーが開始又は継続できるかを反映する開始条件（又は確率）、どのような条件下でポリシーが終了できるかを反映する終了条件（又は確率）などの関連するさらなる情報、特徴又は特性を含むことができる。

「距離」という用語は、いずれかの単調関数（ｍｏｎｏｔｏｎｉｃｆｕｎｃｔｉｏｎ）を意味する。いくつかの実施形態では、距離が、限定ではないが、ユークリッド距離又はハミング距離などの便利なメトリックによって決定される表面上の２つの地点間の空間を意味することができる。２つの地点又は座標間の距離が短い場合、これらの地点又は座標は「近接」又は「隣接」する。

概して、本発明の実施形態は、人工知能エージェントを訓練し、及び／又は動作させるための方法及びシステムを提供する。多重予測は計算構造（ｃｏｍｐｕｔａｔｉｏｎａｌｃｏｎｓｔｒｕｃｔｓ）であり、必ずというわけではないが典型的にはニューラルネットワークであり、その共有されるネットワークの重みを使用して複数の関連する予測を計算することができる。このことは、必要なデータ量及び／又は経験に関してより効率的な訓練を可能にし、いくつかの事例ではこれらの予測のより効率的な計算を可能にする。多重予測ネットワークには、複数の関連する、時には作成可能な（ｃｏｍｐｏｓａｂｌｅ）手法が存在する。以下の説明では、関連する図を参照しながらこれらの手法について説明する。

図１～図６の各々では、ｆ（ｘ）が予測を意味し、ここでのｘは、状態、予測ｉｄ、スキルｉｄ、パラメータ値、又はこれらの組み合わせとすることができ、ｓは状態を意味し、ｇは予測ｉｄであり、ｋはスキルｉｄであり、ｐはパラメータ値である。

図１Ａに、多重ヘッド予測ネットワークを示す。ここでは単一のネットワークが複数の出力を有し、各出力は異なる特徴の予測である。ネットワークへの入力は、図１に示す複数の状態入力Ｓによって表される現在の状態である。ネットワークの最後の層を除く全ての層におけるネットワークの重み／パラメータは、異なる予測間で共有される。図１Ｂに、ニューラルネットワークの単一の隠れ層における単一の活性化ノード（ａｃｔｉｖａｔｉｏｎｎｏｄｅｓ）のための一連の入力１、ｘ₁、ｘ₂及びｘ₃の重み付けｗ₁～ｗ₄の単純な例を示す。理解できるように、異なる予測間で重み付けの共有を行わなければ、特にニューラルネットワークの隠れ層及び活性化ノードの数が成長するにつれて計算が必要になると考えられる。従って、この共有から得られる利点は３つある。第１に、この共有によって予測の学習を高速化することができる。第２に、この共有によってネットワークの下位層における計算が共有されるため、複数の予測を計算する計算コストを低下させることができる。第３に、この共有によって状態特徴全体を一般化することができる。

例えば、単一の多重ヘッド予測ネットワークは、最も近い物体の距離、色、形状及び重さを所与の状態から予想することができる。エージェントは、センサなどから状態入力データとして入力を受け取って、前方４０度の４フィート離れた位置に青色の丸い３オンスのボールが存在すると決定する予測を生成することができる。これらの予測を、図１にｆ₁（ｓ）、ｆ₂（ｓ）、ｆ₃（ｓ）及びｆ₄（ｓ）として示す。

次に図２に、多重入力予測ネットワークを示す。ここでは、単一のネットワークが複数の異なる予測の値を計算することができる。このネットワークは、現在の状態Ｓに加えて予測ＩＤｇ₁～ｇ₄を入力として受け取る。例えば、単一のネットワークは、赤色ブロック、緑色ブロック、青色ブロック又は黄色ブロックのいずれかまでの距離を予想することができる。ｇ値のベクトルを供給することによって４つのうちのどれについて予想したいかをネットワークに示すことができ、この場合ｇ値のうちの１つのみが「オン」になる。図面のようにｇ₂＝１である場合には、残りの状態情報に基づいて緑色のボールまでの距離を計算するようにネットワークに求めていることになる。

多重入力予測ネットワークの出力は、入力として供給された予測ＩＤの対応する予測値ｆ（ｓ，ｇ）である。ネットワークは共有されており、すなわち複数の予測にわたって重み／パラメータが共通である。パラメータ化予測には多重ヘッド予測に比べて著しい利点があり、すなわち前者は、十分な訓練で目に見えない入力への一般化を行うニューラルネットワークの能力によって、新たな又は未訓練時の予測（ｕｎｔｒａｉｎｅｄ－ｕｐｏｎｆｏｒｅｃａｓｔｓ）への一般化を行うことができる。

例えば、このような多重入力予測ネットワークは、物体の距離、色、形状又は重さを画像から予想することができる。ユーザは、どの値を計算すべきであるかをネットワークに伝えるフラグを入力として供給する。

図３に、多重スキル予測ネットワークを示す。このネットワークは、異なるスキルについて同じ種類の予測を計算することができる。予測ネットワークは、状態Ｓに加えてスキルＩＤｋ₁～ｋ₄を入力として受け取り、予測値ｆ（ｓ，ｋ）を出力する。多重スキル予測ネットワークは、いくつかの共通の状態依存を共有するスキルに基づいて予測を一般化することができる。

例えば、多重スキル予測ネットワークは、ドアまで走る、ドアまで歩く、ドアまでスキップする、又はドアまで這って行くといったスキルのうちの１つの継続時間を計算するために使用することができ、これらは全て、エージェントがドアからどれほど離れているかに依存する。ここでは、図２と同様に、［０，１］層が、供給された入力の「ワンホット」の性質を表すように意図される。図面では、第２のスキル（ドアまで歩く）のフラグを１に等しく設定して残りをゼロに設定することにより、ドアまで歩くスキルを実行した場合の予測を計算するようにネットワークに求めていることになる。

図４に、パラメータ化スキル予測ネットワークを示す。このネットワークは、挙動に影響する可変入力パラメータに基づいて状態特徴又はその他の予測を予想することができる。例えば、予測ｆ（ｓ，ｐ）は、ボールを蹴った時にどこまで転がるかを予想することができ、ここでの入力パラメータｐは、どれほど強くボールを蹴るべきか、又はキック動作について計画される全ての関節角度である。

図５には、ハイブリッドネットワークを示す。図示の例では、このネットワークが、図１Ａの多重ヘッド予測を図３又は図４に示すものなどのスキル条件付きネットワークのうちの１つ又は２つ以上と組み合わせる。例えば、単一のネットワークが、ドアまで走る、ドアまで歩く、ドアまでスキップする、又はドアまで這って行くなどの一連の同様のスキルについて、距離、継続時間及び膝の痛みの体験などの３つの出力予測を計算することができる。入力は、標準状態情報と、スキルＩＤの符号化とを含む。

図６を参照すると、埋め込みは、入力にわたるさらなる一般化を強要する技術である。埋め込みは、条件付け入力（ｃｏｎｄｉｔｉｏｎｉｎｇｉｎｐｕｔｓ）のうちのいずれかと共に使用することができる。図６では、条件付け入力が、学習され縮小されたベクトル表現に最初に埋め込まれてパラメータ化予測への入力を形成する。

例えば、ドアまで走る、ドアまで歩く、ドアまでスキップする、又はドアまで這って行く間の継続時間を予想する必要があるネットワークは、走ること及びスキップを１つのカテゴリにクラスタ化し、這って行くこと及び歩くことを第２のカテゴリにクラスタ化し、その後にこれらの２つのカテゴリの予測を条件付けるように学習することができる。

なお、ネットワークの多くの組み合わせが可能である。例えば、スキルＩＤ及び予測ＩＤの両方を条件とする、図２及び図３のネットワークを組み合わせた予測ネットワークを有することができる。或いは、図１Ａ、図３及び図４のネットワークを組み合わせて、力の量などの共通の実数値入力パラメータを使用して数多くのスキルのための複数の状態変数予測の予想を行うことができるネットワークを得ることもできる。

例えば、４つの異なるスキル（走る、歩く、スキップする、及び這う）の距離、継続時間及び膝の痛みの体験、並びに「努力」入力パラメータの予測を予想する１つのネットワークを構築することができる。

当業者であれば、本発明の教示を踏まえ、かつこれらに従って、特定の用途のニーズに応じて、上述したステップのいずれかを好適に置き換え、並べ替え、取り除いてさらなるステップを挿入することができると容易に認識するであろう。さらに、上述した実施形態の規定の方法ステップは、上述の教示に照らして当業者が容易に好適であると分かるいずれかの物理的及び／又はハードウェアシステムを使用して実装することができる。本出願において説明した、コンピュータマシン上で実行できるいずれかの方法ステップについては、典型的なコンピュータシステムが、適切に構成又は設計された時に、本発明のこれらの態様を具体化できるコンピュータシステムとしての役割を果たすことができる。従って、本発明は、いずれかの特定の有形の実装手段に限定されるものではない。

別途明示していない限り、いずれかの添付の要約書及び図面を含む本明細書に開示した全ての特徴は、同一の、同等の又は同様の目的にかなう別の特徴に置き換えることができる。従って、別途明示していない限り、開示した各特徴は、一般的な一連の同等又は同様の特徴の一例にすぎない。

知的人工エージェントの特定の実装は、特定の状況又は用途に応じて異なることができる。限定ではなく一例として、上記で説明した知的人工エージェントは主に２次元の実装に向けられたものであったが、代わりに同様の技術をより高次元の実装に適用することもでき、本発明のこのような実装も本発明の範囲内であると考えられる。従って、本発明は、以下の特許請求の範囲の趣旨及び範囲内に収まる全ての修正物、同等物及び代替物を対象とする。さらに、上述した明細書に開示した実施形態は、上述した明細書において説明した目的、利点又は改善の各々を必ずしも全てが満足させ又は達成するわけではないと理解されたい。

本明細書における請求項の要素及びステップには、単に可読性及び理解に役立つものとして番号及び／又は文字を付していることがある。あらゆるこのような番号及び文字の付与自体は、特許請求の範囲における要素及び／又はステップの順序付けを示すように意図するものではなく、そのように解釈すべきではない。

当業者であれば、本発明の趣旨及び範囲から逸脱することなく多くの変更及び修正を行うことができる。従って、図示の実施形態はほんの一例として示したものであり、以下の特許請求の範囲によって定められる本発明を限定するものとして解釈すべきではないと理解されたい。例えば、以下では請求項の要素を特定の組み合わせで示しているとしても、本発明は、開示する要素よりも少ない、多い、又はこれらと異なる要素の他の組み合わせを含むと明確に理解されたい。

本明細書において本発明及びその様々な実施形態を説明するために使用される単語は、その一般に定義される意味合いだけでなく、本明細書における特別な定義によって、これらが単一種を表す包括的構造、材料又は行為も含むと理解されたい。

従って、本明細書では、以下の特許請求の範囲の単語又は要素の定義が、文言として明記された要素の組み合わせしか含まないわけではないように定められる。従って、この意味では、以下の特許請求の範囲内の要素のうちのいずれか１つに代えて２又は３以上の要素の同等の代用物を使用し、或いは特許請求の範囲内の２又は３以上の要素に代えて単一の要素を使用することもできると考えられる。上記では、要素を特定の組み合わせで機能するように説明し、当初はこのように特許請求することもあるが、場合によっては、特許請求する組み合わせから生じる１又は２以上の要素をこれらの組み合わせから削除することもでき、特許請求する組み合わせを下位の組み合わせ又は下位の組み合わせの変形例に向けることもできると明確に理解されたい。

従って、特許請求の範囲は、上記で具体的に図示し説明したもの、概念的に同等のもの、明らかに代用できるもの、及び本発明の基本的発想を組み込んだものを含むと理解されたい。

Ｓ状態入力
ｆ１（Ｓ）～ｆ４（Ｓ）出力

Claims

機械及びコンピュータベースのソフトウェアアプリケーションにおいて人工知能を形成する多重ヘッド予測方法であって、
環境から状態情報として入力を受け取るステップと、
それぞれが異なる状態情報特徴に対応する複数の予測を出力するステップと、
を含むことを特徴とする方法。
前記ネットワークの最後の層を除く全ての層における前記ネットワークの重み又はパラメータが、前記複数の予測の各々の間で共有される、
請求項１に記載の多重ヘッド予測方法。
前記ネットワークの最後の層を除く全ての層における前記ネットワークの重み又はパラメータを前記複数の予測の各々の間で共有することによって、前記複数の予測の各々を学習するのに必要な時間を最小化するステップをさらに含む、
請求項１に記載の多重ヘッド予測方法。
前記ネットワークの最後の層を除く全ての層における前記ネットワークの重み又はパラメータを前記複数の予測の各々の間で共有することによって、前記複数の予測を計算する計算コストを最小化するステップをさらに含む、
請求項１に記載の多重ヘッド予測方法。
前記状態情報を一般化するステップをさらに含む、
請求項１に記載の多重ヘッド予測方法。
複数のスキルＩＤ及び複数の予測ＩＤのうちの少なくとも１つを入力してハイブリッドネットワークを提供するステップをさらに含み、前記複数の予測は、前記複数のスキルＩＤ及び前記複数の予測ＩＤにそれぞれ基づく一連の同様のスキル又は予測のための出力である、
請求項１に記載の多重ヘッド予測方法。
機械及びコンピュータベースのソフトウェアアプリケーションにおいて人工知能を形成する多重入力予測方法であって、
環境から状態情報として入力を受け取るステップと、
予測ＩＤ、スキルＩＤ、及びパラメータ値のうちの少なくとも１つからさらなる入力を受け取るステップと、
前記さらなる入力の各々の予測を出力するステップと、
を含むことを特徴とする方法。
前記さらなる入力は複数の予測ＩＤを含み、前記出力される予測は、入力として供給される前記予測ＩＤの予測値である、
請求項７に記載の多重入力予測方法。
前記ネットワークの重み又はパラメータが、前記予測のうちの複数の予測にわたって共有される、
請求項７に記載の多重入力予測方法。
前記さらなる入力は、複数のスキルＩＤを含む、
請求項７に記載の多重入力予測方法。
共通の状態依存を共有するスキルに基づいて前記予測を一般化するステップをさらに含む、
請求項１０に記載の多重入力予測方法。
前記さらなる入力は、挙動に影響を与える可変入力パラメータを含む、
請求項７に記載の多重入力予測方法。
機械及びコンピュータベースのソフトウェアアプリケーションにおいて人工知能を形成する予測ネットワーク方法であって、
環境から状態情報として入力を受け取るステップと、
予測ＩＤ、スキルＩＤ、及びパラメータ値のうちの少なくとも１つからさらなる入力を受け取るステップと、
前記さらなる入力を、前記予測ネットワークに入力される前に、学習され縮小されたベクトル表現に埋め込むステップと、
各学習され縮小されたベクトル表現の予測を出力するステップと、
を含むことを特徴とする方法。
それぞれが異なる状態情報特徴に対応する複数の予測を出力するステップをさらに含む、
請求項１３に記載の予測ネットワーク方法。
前記ネットワークの最後の層を除く全ての層における前記ネットワークの重み又はパラメータが、前記複数の予測の各々の間で共有される、
請求項１４に記載の予測ネットワーク方法。
複数のスキルＩＤ及び複数の予測ＩＤのうちの少なくとも１つを入力してハイブリッドネットワークを提供するステップをさらに含み、前記複数の予測は、前記複数のスキルＩＤ及び前記複数の予測ＩＤにそれぞれ基づく一連の同様のスキル又は予測のための出力である、
請求項１４に記載の予測ネットワーク方法。
前記さらなる入力は複数の予測ＩＤを含み、前記出力される予測は、入力として供給される前記予測ＩＤの予測値である、
請求項１３に記載の予測ネットワーク方法。
前記ネットワークの重み又はパラメータが、前記予測のうちの複数の予測にわたって共有される、
請求項１７に記載の予測ネットワーク方法。
前記さらなる入力は、複数のスキルＩＤを含む、
請求項１７に記載の予測ネットワーク方法。
共通の状態依存を共有するスキルに基づいて前記予測を一般化するステップをさらに含む、
請求項１９に記載の予測ネットワーク方法。