JP7296087B2

JP7296087B2 - マルチエージェントによる情報処理のための装置、方法、およびプログラム

Info

Publication number: JP7296087B2
Application number: JP2018085824A
Authority: JP
Inventors: 昇平大澤
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-04-26
Filing date: 2018-04-26
Publication date: 2023-06-22
Anticipated expiration: 2038-04-26
Also published as: JP2019192040A; WO2019207826A1

Description

特許法第３０条第２項適用ＩＣＬＲ２０１８のＣｏｎｆｅｒｅｎｃｅの公開レビューに伴い下記のとおりウェブサイト（ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｒｅｖｉｓｉｏｎｓ？ｉｄ＝ＢｋｆＥｚｚ－０－）に公開。平成２９年１０月２８日：ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｒｅｆｅｒｅｎｃｅｓ／ｐｄｆ？ｉｄ＝Ｈｋ＿ｐＧＭ－ＣＺ平成２９年１０月２８日：ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｒｅｆｅｒｅｎｃｅｓ／ｐｄｆ？ｉｄ＝ＳｋＲｑ６ｆｂＣｂ平成２９年１０月２８日：ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｒｅｆｅｒｅｎｃｅｓ／ｐｄｆ？ｉｄ＝ｒｋａｋＲＭ－Ｒｂ平成２９年１０月２８日：ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｒｅｆｅｒｅｎｃｅｓ／ｐｄｆ？ｉｄ＝ｒｙｃ７ＡＭ－０Ｚ平成２９年１２月３日：ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｒｅｆｅｒｅｎｃｅｓ／ｐｄｆ？ｉｄ＝ＳｙＶｊＷＯ－Ｚｚ平成２９年１２月３日：ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｒｅｆｅｒｅｎｃｅｓ／ｐｄｆ？ｉｄ＝Ｂ１ｚｎｚＯＺＷｚ平成２９年１２月４日：ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｒｅｆｅｒｅｎｃｅｓ／ｐｄｆ？ｉｄ＝Ｓｙ０ＣＺ９ＺｂＭ平成３０年１月６日：ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｒｅｆｅｒｅｎｃｅｓ／ｐｄｆ？ｉｄ＝ＳＪＴＪＱＤＴ７ｆ平成３０年１月６日：ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｒｅｆｅｒｅｎｃｅｓ／ｐｄｆ？ｉｄ＝ＨＪＱＴ７ＰａｍＭ平成３０年１月６日：ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｒｅｆｅｒｅｎｃｅｓ／ｐｄｆ？ｉｄ＝Ｈ１ＹｔＣｗｐｍｚ平成３０年１月６日：ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｒｅｆｅｒｅｎｃｅｓ／ｐｄｆ？ｉｄ＝ＨｋＲＺｒｄａＱＧ平成３０年１月６日：ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｒｅｆｅｒｅｎｃｅｓ／ｐｄｆ？ｉｄ＝Ｈ１ｋ２Ｓｕａｍｚ平成３０年１月９日：ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｒｅｆｅｒｅｎｃｅｓ／ｐｄｆ？ｉｄ＝ＢｙｚＦ１ｎ－ＥＧ平成３０年１月９日：ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｒｅｆｅｒｅｎｃｅｓ／ｐｄｆ？ｉｄ＝ＳｋＤＢＷｎＷＶｚ

特許法第３０条第２項適用平成３０年１月９日：ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｒｅｆｅｒｅｎｃｅｓ／ｐｄｆ？ｉｄ＝Ｂｋ－ｉＭｎｂＮＭ平成３０年１月９日：ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｒｅｆｅｒｅｎｃｅｓ／ｐｄｆ？ｉｄ＝Ｈｙａ２ＳｎＷＥｚ平成３０年１月９日：ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｒｅｆｅｒｅｎｃｅｓ／ｐｄｆ？ｉｄ＝Ｓｙ６ＧＹ２ＷＥｆ平成３０年１月２６日：ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｒｅｆｅｒｅｎｃｅｓ／ｐｄｆ？ｉｄ＝ＨｋｘＮｚＭＺＣＷＩＣＬＲ２０１８のＷｏｒｋｓｈｏｐの公開レビューに伴い下記のとおりウェブサイト（ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｆｏｒｕｍ？ｉｄ＝ＳｋｃＬＮＪＪｗｆ）に公開。平成３０年２月１２日：ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｐｄｆ？ｉｄ＝ＳｋｃＬＮＪＪｗｆ東京大学松尾研究室のブログにて下記のとおり公開。平成３０年２月２０日：ｈｔｔｐｓ：／／ｗｗｗ．ｗａｎｔｅｄｌｙ．ｃｏｍ／ｃｏｍｐａｎｉｅｓ／ｗｅｂｌａｂ／ｐｏｓｔ＿ａｒｔｉｃｌｅｓ／１０８６７９東京大学松尾研究室のホームページにて下記のとおり公開。平成３０年３月２２日：ｈｔｔｐ：／／ｗｅｂｌａｂ．ｔ．ｕ－ｔｏｋｙｏ．ａｃ．ｊｐ／ｅｎ／ｉｃｌｒ２０１８－ｗｏｒｋｓｈｏｐ％Ｅ３％８１％ＡＢ％Ｅ５％ＢＤ％９３％Ｅ７％Ａ０％９４％Ｅ７％Ａ９％Ｂ６％Ｅ５％ＡＥ％Ａ４％Ｅ３％８１％ＡＥ％Ｅ８％ＡＢ％９６％Ｅ６％９６％８７％Ｅ３％８１％８Ｃ５％Ｅ４％ＢＢ％Ｂ６％Ｅ６％８Ｅ％Ａ１％Ｅ６％８Ａ％９Ｅ％Ｅ３％８１％９５％Ｅ３％８２％８Ｃ％Ｅ３％８１％ＢＥ％Ｅ３％８１％９７％Ｅ３％８１％９Ｆ％Ｅ３％８０％８２／東京大学松尾研究室のブログにて下記のとおり公開。平成３０年４月４日：ｈｔｔｐｓ：／／ｗｗｗ．ｗａｎｔｅｄｌｙ．ｃｏｍ／ｃｏｍｐａｎｉｅｓ／ｗｅｂｌａｂ／ｐｏｓｔ＿ａｒｔｉｃｌｅｓ／１１４６９２

本発明は、マルチエージェントによる情報処理のための装置、方法、およびプログラムに関する。

近年、強化学習の研究が進められており、株式トレーディング、自動運転、スマートグリッド、およびＩｏＴといった産業分野へと適用されつつある。このような産業アプリケーションにおいては、各企業等が各々自己の収益を高めるために、各々が独立したエージェントを利用している。このような個別のエージェントは、得ることができる情報が限られている。このため、各企業等のエージェント同士が情報を交換して処理を行うことができれば、より有用な情報を生成することができ、全体の収益を高めることができる可能性がある。非特許文献１～２は、マルチエージェント間で通信しながら強化学習をする技術を開示する。
非特許文献１サインバヤール・スフバートル（Sainbayar Sukhbaatar）、他２名、「ラーニング・マルチエージェント・コミュニケーション・ウィズ・バックプロパゲーション（Learning Multiagent Communication with Backpropagation）」、第３０回ニューラル・インフォメーション・プロセッシング・システムズ２０１６（Neural Information Processing Systems 2016: NIPS2016）、２０１６年
非特許文献２エイドリアン・Ｋ・アゴジノ（Adrian K. Agogino）、他１名、「ＱＵＩＣＲ－ラーニング・フォア・マルチ－エージェント・コーディネーション（QUICR-learning for Multi-Agent Coordination）」、ナショナル・コンファレンス・オン・アーティフィシャル・インテリジェンス（National Conference on Artificial Intelligence）、プロシーディングス（Proceedings）、第２１巻、第１４３８～１４４３頁、２００６年
非特許文献３ジユ・ワン（Ziyu Wang）、他５名、「デュエリング・ネットワーク・アーキテクチャーズ・フォア・ディープ・リインフォースメント・ラーニング（Dueling Network Architectures for Deep Reinforcement Learning）」、第３３回インターナショナル・コンファレンス・オン・マシン・ラーニング、プロシーディングス（Proceedings of the 33rd International Conference on Machine Learning）、２０１６年
非特許文献４アレクセイ・ドソヴィッスキー（Alexey Dosovitskiy）、他１名、「ラーニング・トゥー・アクト・バイ・プレディクティング・ザ・フューチャー（Learning to Act by Predicting the Future）」、ＩＣＬＲ２０１７、２０１７年
非特許文献５リ・ワン（Li Wan）、他４名、「レギュラライゼーション・オブ・ニューラル・ネットワークス・ユージング・ドロップコネクト（Regularization of Neural Networks using DropConnect）」、第３０回インターナショナル・コンファレンス・オン・マシン・ラーニング、プロシーディングス（Proceedings of the 30th International Conference on Machine Learning）、２０１３年
非特許文献６レイ・ジミー・べ（Lei Jimmy Ba）、他１名、「アダプティブ・ドロップアウト・フォア・トレイニング・ディープ・ニューラル・ネットワークス（Adaptive dropout for training deep neural networks）」、イン・アドバンセズ・イン・ニューラル・インフォメーション・プロセッシング・システムズ（In Advances in Neural Information Processing Systems）、第３９８１～３９８９頁、２０１６年

各エージェントが別個の企業等によって運用されている場合、複数のエージェントのネットワークを用いて生成した情報によって得られた報酬を、複数のエージェントにどのように分配するかが問題となる。非特許文献１では、報酬を全エージェントに均等に分配する。非特許文献２では、信頼できる第三者が複数のエージェントに報酬を分配する。これらの分配方法においては、報酬が情報の貢献度によらず不公平となる、または第三者しか報酬を決定することができない等により納得性の高い報酬分配をすることができなかった。

上記課題を解決するために、本発明の第１の態様においては、装置を提供する。装置は、複数の情報供給エージェントのそれぞれから受け取る情報を利用して対象エージェントが得た報酬に基づいて、複数の情報供給エージェントのそれぞれが提供する情報によって得られる仮想収益を推定する仮想収益推定部を備えてよい。装置は、複数の情報供給エージェントのそれぞれに関する仮想収益に基づいて、複数の情報供給エージェントに対する情報の価格を判定する価格判定部を備えてよい。

価格判定部は、複数の情報供給エージェントのそれぞれに関する仮想収益に基づく入札額で、複数の情報供給エージェントのそれぞれの情報提供に対して入札を行う入札処理部を有してよい。

入札処理部は、複数の情報供給エージェントのうち一の情報供給エージェントが決定した落札額が一の情報供給エージェントに対する入札額以下であったことに応じて、一の情報供給エージェントが決定した価格を一の情報供給エージェントに対する情報の価格として決定してよい。

対象エージェントは、複数の情報供給エージェントのうち一の情報供給エージェントへの入札が失敗したことに応じて、一の情報供給エージェントが提供する情報の少なくとも一部を利用せずに処理を行って報酬を得てよい。

対象エージェントは、複数の情報供給エージェントの少なくとも１つから受け取る情報に基づいて生成した情報を、１または複数の情報消費エージェントに提供して報酬を得てよい。

価格判定部は、１または複数の情報消費エージェントからの入札に応じて対象エージェントが生成する情報の落札額を決定する応札処理部を有してよい。

応札処理部は、１または複数の情報消費エージェントのうち入札に成功した情報消費エージェントから得られる対価の合計額が最大となる価格を、対象エージェントが生成する情報の落札額として決定してよい。

仮想収益推定部は、複数の情報供給エージェントのうち第１情報供給エージェントからの情報を利用した場合に対象エージェントが得る報酬と、第１情報供給エージェントからの情報の少なくとも一部が利用できなかった場合に対象エージェントが得る報酬とに基づいて、第１情報供給エージェントに関する仮想収益を推定してよい。

仮想収益推定部は、第１情報供給エージェントからの情報を利用した場合に対象エージェントが得た報酬を用いて、第１情報供給エージェントからの情報を利用した場合に得られると推定される第１仮想報酬を更新してよい。仮想収益推定部は、第１情報供給エージェントからの情報の少なくとも一部が利用できなかった場合に対象エージェントが得た報酬を用いて、第１情報供給エージェントからの情報の少なくとも一部を利用できない場合に得られると推定される第２仮想報酬を更新してよい。仮想収益推定部は、第１仮想報酬および第２仮想報酬の差に基づいて、第１情報供給エージェントに関する仮想収益を算出してよい。

本発明の第２の態様においては、装置を提供する。装置は、複数の情報供給エージェントのそれぞれから受け取る情報を対象エージェントが重み付けして対象エージェントが出力する情報を生成するために用いる重みを取得する重み取得部を備えてよい。装置は、複数の情報供給エージェントのそれぞれに対する重みに基づいて、複数の情報供給エージェントに対する情報の価格を判定する価格判定部を備えてよい。

複数の情報供給エージェントおよび対象エージェントを含む複数のエージェントは、エージェントネットワークを形成してよい。複数のエージェントは、エージェントネットワーク内で情報を利用する側のエージェントから情報を供給する側のエージェントへと情報の誤差を逆伝播させ、受け取った誤差に基づいて重みを更新してよい。

価格判定部は、複数の情報供給エージェントのそれぞれに対する重みに基づく入札額で、複数の情報供給エージェントのそれぞれの情報提供に対して入札を行う入札処理部を有してよい。

対象エージェントは、複数の情報供給エージェントの少なくとも１つから受け取る情報を重み付けして生成した情報を、１または複数の情報消費エージェントに提供して報酬を得てよい。

応札処理部は、１または複数の情報消費エージェントのうち入札に成功した情報消費エージェントから得られる対価の合計額が最大となる価格を、対象エージェントが生成する情報の価格として決定してよい。

本発明の第３の態様においては、方法を提供する。方法においては、コンピュータが、複数の情報供給エージェントのそれぞれから受け取る情報を利用して対象エージェントが得た報酬に基づいて、複数の情報供給エージェントのそれぞれが提供する情報によって得られる仮想収益を推定してよい。方法においては、コンピュータが、複数の情報供給エージェントのそれぞれに関する仮想収益に基づいて、複数の情報供給エージェントに対する情報の価格を判定してよい。

本発明の第４の態様においては、コンピュータにより実行されるプログラムを提供する。プログラムは、コンピュータを、複数の情報供給エージェントのそれぞれから受け取る情報を利用して対象エージェントが得た報酬に基づいて、複数の情報供給エージェントのそれぞれが提供する情報によって得られる仮想収益を推定する仮想収益推定部として機能させてよい。プログラムは、コンピュータを、複数の情報供給エージェントのそれぞれに関する仮想収益に基づいて、複数の情報供給エージェントに対する情報の価格を判定する価格判定部として機能させてよい。

本発明の第５の態様においては、方法を提供する。方法においては、コンピュータが、複数の情報供給エージェントのそれぞれから受け取る情報を対象エージェントが重み付けして対象エージェントが出力する情報を生成するために用いる重みを取得してよい。方法においては、コンピュータが、複数の情報供給エージェントのそれぞれに対する重みに基づいて、複数の情報供給エージェントに対する情報の価格を判定してよい。

本発明の第６の態様においては、コンピュータにより実行されるプログラムを提供する。プログラムは、コンピュータを、複数の情報供給エージェントのそれぞれから受け取る情報を対象エージェントが重み付けして対象エージェントが出力する情報を生成するために用いる重みを取得する重み取得部として機能させてよい。プログラムは、コンピュータを、複数の情報供給エージェントのそれぞれに対する重みに基づいて、複数の情報供給エージェントに対する情報の価格を判定する価格判定部として機能させてよい。

なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。

本実施形態に係るマルチエージェント環境１０の構成を示す。本実施形態に係るエージェント１２０の構成を示す。本実施形態に係るエージェント１２０における情報の価格決定プロセスを示す。本実施形態に係るエージェント１２０における情報の落札額の決定方法を示すグラフである。本実施形態に係るマルチエージェント環境１０の動作フローを示す。本実施形態に係るマルチエージェント環境１０の動作フローを示す。本実施形態に係るマルチエージェント環境１０の動作アルゴリズムの一例を示す。本実施形態の変形例に係るマルチエージェント環境１０におけるエージェント１２０の構成を示す。本実施形態の変形例に係るマルチエージェント環境１０の動作フローを示す。本実施形態の変形例に係るマルチエージェント環境１０の動作アルゴリズムの一例を示す。本実施形態に係るコンピュータ２２００の構成の一例を示す。

以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

図１は、本実施形態に係るマルチエージェント環境１０の構成を示す。マルチエージェント環境１０は、１または複数の情報ソース１００ａ～ｃと、１または複数の特徴抽出装置１１０ａ～ｃと、１または複数のエージェント１２０ａ～ｆと、１または複数の情報利用装置１３０ａ～ｂと、プラットフォーム１４０とを備える。マルチエージェント環境１０は、各特徴抽出装置１１０ａ～ｃ、各エージェント１２０ａ～ｄ、および各情報利用装置１３０ａ～ｂが協調して情報処理を行いつつ、各々が独立して情報提供等に対する報酬を得て収益を最大化することが可能なフレームワークを提供する。

１または複数の情報ソース１００ａ～ｃ（「情報ソース１００」と総称する。）は、マルチエージェント環境１０における情報処理の大元となる情報を提供する。情報ソース１００は、ＰＣ（パーソナルコンピュータ）、タブレット型コンピュータ、スマートフォン、ワークステーション、サーバコンピュータ、または汎用コンピュータ等のコンピュータであってよく、複数のコンピュータが接続されたコンピュータシステムであってもよい。また、情報ソース１００は、コンピュータ内で１または複数実行可能な仮想コンピュータ環境によって実装されてもよい。これに代えて、情報ソース１００は、情報ソース１００が実現すべき機能を実装すべく設計された専用コンピュータであってもよく、専用回路によって実現された専用ハードウェアであってもよい。また、情報ソース１００は、温度センサ、湿度センサ、圧力センサ、加速度センサ、ガスセンサ、およびその他のセンサ等であってもよい。

このような情報ソース１００は、例えば、株価、企業情報およびその他の各種金融商品に関する情報、様々なウェブサイト、ＳＮＳ、掲示板、チャット、ツィート、動画または音声のストリームデータ、およびその他の、インターネット等のネットワークを介してアクセス可能な様々な情報、ならびに、天気、温度、湿度、圧力、加速度、ガスの成分、およびその他のセンサデータといった様々な情報を無料または有料で提供する。

ここで、各々の情報ソース１００は、例えばある特定のウェブサイトが提供する情報といった特定の情報を提供するものであってもよい。多数の情報ソース１００がマルチエージェント環境１０の中に導入されることによって、マルチエージェント環境１０内の複数の情報ソース１００は、全体として世界中に存在する全てまたは大部分の情報をマルチエージェント環境１０内で利用可能とすることも可能である。

１または複数の特徴抽出装置１１０ａ～ｃ（「特徴抽出装置１１０」と総称する。）は、１または複数の情報ソース１００の少なくとも１つに直接またはネットワークを介して接続され、情報ソース１００により提供される情報の特徴を抽出して、後段のエージェント１２０ａ～ｆ等で利用可能なデータ形式に変換する。特徴抽出装置１１０は、ＰＣ（パーソナルコンピュータ）、タブレット型コンピュータ、スマートフォン、ワークステーション、サーバコンピュータ、または汎用コンピュータ等のコンピュータであってよく、複数のコンピュータが接続されたコンピュータシステムであってもよい。また、特徴抽出装置１１０は、コンピュータ内で１または複数実行可能な仮想コンピュータ環境によって実装されてもよい。これに代えて、特徴抽出装置１１０は、特徴抽出装置１１０が実現すべき機能を実装すべく設計された専用コンピュータであってもよく、専用回路によって実現された専用ハードウェアであってもよい。

一例として、特徴抽出装置１１０は、あるウェブサイトのテキストデータを解析して、そのテキストの特徴データを出力する。このようなテキストからの特徴抽出またはテキストマイニングの手法は多数提案され、実用化されている。また、各特徴抽出装置１１０は、テキストデータ以外の情報についても、様々なデータマイニング手法、画像処理手法、音声データ処理手法、統計処理手法、およびその他のデータ処理手法の中から各特徴抽出装置１１０の設計者等が選択した手法を用いて解析し、得られたデータを出力してよい。ここで、各特徴抽出装置１１０は、独立した事業者または個人によって運営されてよく、各々の事業者等が得意分野または興味等に応じて他の事業者等の動向を気にすることなく独自の情報、または他の特徴抽出装置１１０と大差ない情報を出力してよい。このような特徴抽出装置１１０が多数マルチエージェント環境１０の中に導入されることによって、マルチエージェント環境１０内の複数の特徴抽出装置１１０は、全体として世界中に存在する全てまたは大部分の情報を様々な面から着目した多くの種類の特徴データセットを提供することも可能である。

本実施形態に係る各特徴抽出装置１１０は、マルチエージェント環境１０内のネットワークにおいて後段に位置するエージェント１２０ａ～ｆおよび情報利用装置１３０ａ～ｂの処理を規格化するべく、予め定められた共通データ形式の情報を出力する。この共通データ形式は、一例としてスカラ値、ベクトル値、またはテンソル値等であってよい。これに代えて、各特徴抽出装置１１０は、各々独自のデータ形式で情報を出力し、後段のエージェント１２０ａ～ｆ等が、各々の特徴抽出装置１１０が出力する情報のデータ形式を考慮したプログラムを実行等することにより目的とする情報処理を行うようにしてもよい。

１または複数のエージェント１２０ａ～ｆ（「エージェント１２０」と総称する。）のそれぞれは、１または複数の特徴抽出装置１１０ａ～ｃおよび／または他の１または複数のエージェント１２０に直接またはネットワークを介して接続され、上流側（情報供給側）の１または複数のエージェント（他のエージェント１２０に加え特徴抽出装置１１０を含む広義のエージェント）のそれぞれから受け取る情報を利用して情報処理を行う。そして、エージェント１２０は、情報処理によって生成した情報を下流側（情報消費側）の１または複数のエージェント（他のエージェント１２０に加え情報利用装置１３０を含む広義のエージェント）へと提供する。

エージェント１２０は、ＰＣ（パーソナルコンピュータ）、タブレット型コンピュータ、スマートフォン、ワークステーション、サーバコンピュータ、または汎用コンピュータ等のコンピュータであってよく、複数のコンピュータが接続されたコンピュータシステムであってもよい。また、エージェント１２０は、コンピュータ内で１または複数実行可能な仮想コンピュータ環境によって実装されてもよい。これに代えて、エージェント１２０は、エージェント１２０が実現すべき機能を実装すべく機能を実現すべく設計された専用コンピュータであってもよく、専用回路によって実現された専用ハードウェアであってもよい。

ここで、各エージェント１２０は、独立した事業者または個人によって運営されてよく、各々の事業者等が得意分野または興味等に応じて他の事業者等の動向を気にすることなく独自に他のエージェントから情報を収集し、収集した情報を独自に加工等して、独自の情報、または他の特徴抽出装置１１０と大差ない情報を出力してよい。

１または複数の情報利用装置１３０ａ～ｂ（「情報利用装置１３０」と総称する。）のそれぞれは、１または複数のエージェント１２０に直接またはネットワークを介して接続され、１または複数のエージェント１２０のそれぞれから受け取る情報を活用して収益を上げる。各情報利用装置１３０は、情報利用装置１３０を運用する事業者等自体で収益を上げてもよく、マルチエージェント環境１０の外部の事業者または個人等に収益をもたらし、その収益に対する報酬を受け取ってもよい。

情報利用装置１３０は、ＰＣ（パーソナルコンピュータ）、タブレット型コンピュータ、スマートフォン、ワークステーション、サーバコンピュータ、または汎用コンピュータ等のコンピュータであってよく、複数のコンピュータが接続されたコンピュータシステムであってもよい。また、情報利用装置１３０は、コンピュータ内で１または複数実行可能な仮想コンピュータ環境によって実装されてもよい。これに代えて、情報利用装置１３０は、情報利用装置１３０が実現すべき機能を実装すべく機能を実現すべく設計された専用コンピュータであってもよく、専用回路によって実現された専用ハードウェアであってもよい。

情報利用装置１３０は、例えば金融機関等によって運用されてもよく、上流側のエージェント１２０から受け取る情報に基づいて金融商品に投資して収益を上げてもよい。例えば情報利用装置１３０は、ヘッジファンドのファンド会社によって運用されてもよく、投資家によって投資を受けた資金を上流側のエージェント１２０から受け取る情報に基づいて運用して収益を上げ、その収益から報酬を除いて投資家に分配してもよい。

これに代えて、情報利用装置１３０は、例えば製造業の事業者等によって運用されてもよく、上流側のエージェント１２０から受け取る情報に基づいて製品の製造量、製造する製品の構成比率、製造国、およびその他のパラメータを変更することによって、収益の増加（コスト削減を含む）を図ってもよい。また、情報利用装置１３０は、例えば天気、農産物の生産量、およびその他の様々な環境に影響される事象を予測してもよく、予測データを販売することによって収益を上げてもよい。また、情報利用装置１３０は、テレビ事業者、新聞社、出版社、およびその他のマスコミュニケーション業者であってもよく、上流側のエージェント１２０から受け取る情報に基づいてメディアで提供する情報を生成または選別等をすることにより、収益を上げてもよい。

情報利用装置１３０は、収益を上げることによって得られる報酬をマルチエージェント環境１０内のエージェントに分配する。具体的には、情報利用装置１３０は、収益を上げることによって得られる報酬の少なくとも一部を、情報利用装置１３０が利用した情報を提供したエージェントに分配する。情報利用装置１３０から報酬の分配を受けたエージェントも、更に上流側のエージェントへと受け取った報酬の少なくとも一部を分配してもよく、このような報酬分配の連鎖によって情報利用装置１３０が収益を上げるのに寄与した各エージェントが報酬の分配を受け取ることが可能となる。

プラットフォーム１４０は、１または複数の特徴抽出装置１１０、１または複数のエージェント１２０、および１または複数の情報利用装置１３０と通信可能に接続され、これらの広義のエージェントがマルチエージェント環境１０内で動作するために利用可能な各種のライブラリ機能を提供する。プラットフォーム１４０は、ＰＣ（パーソナルコンピュータ）、タブレット型コンピュータ、スマートフォン、ワークステーション、サーバコンピュータ、または汎用コンピュータ等のコンピュータであってよく、複数のコンピュータが接続されたコンピュータシステムであってもよい。また、プラットフォーム１４０は、コンピュータ内で１または複数実行可能な仮想コンピュータ環境によって実装されてもよい。これに代えて、プラットフォーム１４０は、プラットフォーム１４０が実現すべき機能を実装すべく機能を実現すべく設計された専用コンピュータであってもよく、専用回路によって実現された専用ハードウェアであってもよい。

例えば、プラットフォーム１４０は、マルチエージェント環境１０内のエージェントの検索機能を、各エージェントの管理者に対して提供してもよい。例えばプラットフォーム１４０は、各エージェントの説明、紹介、および／または広告等の情報を記憶し、あるエージェントの管理者からの要求を受けて、これらの情報を検索してその管理者に提供してもよい。これにより、プラットフォーム１４０は、あるエージェントの管理者が、ある特定の情報（例えばグアテマラのウエウエテナンゴの天候予測情報）を提供する特徴抽出装置１１０またはエージェント１２０を検索した場合に、そのような情報または類似の情報を出力する特徴抽出装置１１０またはエージェント１２０に関する情報をその管理者に提供することができる。

また、プラットフォーム１４０は、一部または全てのエージェント間の通信を中継してもよい。ここで、プラットフォーム１４０は、マルチエージェントの情報処理に関する情報のやり取りについては中継せずにエージェント間で直接やり取りさせ、各エージェント間での報酬の分配処理に関するデータのやり取りついては各エージェントからプラットフォーム１４０が提供するＡＰＩ（アプリケーション・プログラム・インターフェイス）を呼び出すことによって実現可能としてもよい。

以上に示したとおり、マルチエージェント環境１０内の複数のエージェント（特徴抽出装置１１０、エージェント１２０、および情報利用装置１３０）は、ニューラルネットワークのようなネットワーク構造の中で情報を入出力しつつも、それぞれが独立して報酬を受け取るノードとして機能する。このため、本実施形態において、各エージェントをニューロンと呼ぶこともある。なお、本図においては、マルチエージェント環境１０は、複数の特徴抽出装置１１０のそれぞれを入力ノードとし、複数の情報利用装置１３０のそれぞれを出力ノードとし、複数のエージェント１２０のそれぞれを中間ノードとする多層ニューラルネットワークのようなネットワーク構造を有するが、マルチエージェント環境１０はこれに限られず複数の特徴抽出装置１１０および複数の情報利用装置１３０の間が任意のエージェント１２０のネットワークによって結合されていてもよい。本実施形態において、このエージェント１２０のネットワークは、非循環ネットワークを前提に説明をするが、エージェント１２０のネットワークは循環ネットワークであっても実現可能である。

以下に、マルチエージェント環境１０における報酬分配の前提を説明する。複数のエージェント間のネットワークを、有向グラフＧｒａｐｈ＝（Ｖｅｒｔｅｘ，Ｅｄｇｅ）と表す。ここで集合Ｖｅｒｔｅｘは、全エージェントｖ_１～Ｎの集合Ｖｅｒｔｅｘ＝｛ｖ_１，…，ｖ_Ｎ｝である。集合Ｅｄｇｅは、エージェント間のエッジの集合Ｅｄｇｅ⊂Ｖｅｒｔｅｘ^２である。ここで、（ｖｉ，ｖｊ）∈Ｅｄｇｅの場合、ｖ_ｉからｖ_ｊへと情報を伝達する接続が存在することを示す。エージェントｖ_ｉが接続されるエージェント（すなわち１つのエッジを介してエージェントｖ_ｉの下流側に接続されるエージェント）の集合は、Ｎ_ｉ ^ｏｕｔ＝｛ｊ｜（ｖ_ｉ，ｖ_ｊ）∈Ｅｄｇｅ｝と表される。エージェントｖ_ｉに接続されるエージェント（すなわち１つのエッジを介してエージェントｖｉの上流側に接続されるエージェント）の集合は、Ｎ_ｉ ^ｉｎ＝｛ｊ｜（ｖ_ｊ，ｖ_ｉ）∈Ｅｄｇｅ｝と表される。

エージェントｖ_ｉが時刻ｔに出力する情報は、ｘ_ｉｔと表される。本実施形態においては、説明を簡単にするためｘ_ｉｔは実数のスカラデータであることとするが、ｘ_ｉｔは任意のデータ形式をとってもよい。

本実施形態においては、各エージェントの特性として以下の仮定をおく。なお、本実施形態に係るマルチエージェント環境１０は、これらの仮定の一部を前提としない場合においても実現可能である。

（１）仮定１
各エージェントｖ_ｉは、自己の収益（累積報酬）を最大化する。ここで累積報酬は、将来価値を割引率γ（０＜γ≦１）によってディスカウントした値であってよく、以下の式（１）により表される。ここで、Ｔは累積報酬を考慮すべき期間の最終時刻であり、時刻１からTの期間をエピソードという。

（２）仮定２
全エージェントの集合Ｖｅｒｔｅｘの内部で発生する内部報酬の合計は０である。したがって、全エージェントの集合Ｖｅｒｔｅｘが時刻ｔに受け取る報酬の合計は、全エージェントの外部から時刻ｔに受け取る外部報酬Ｒ_ｔ ^ｅｘと等しくなる。ここで、エージェントｖ_ｉが時刻ｔに受け取る報酬をＲ_ｉｔ、外部報酬をＲ_ｉｔ ^ｅｘとすると、以下の式（２）が成立する。なお、情報利用装置１３０は、１または複数のエージェント１２０からの情報を受け取って最終的に使用する情報を生成し、その情報を利用して収益を上げる。なお、情報利用装置１３０は、情報利用装置１３０を運用する事業者等のコスト削減を行ってもよいが、このようなコスト削減による収益も複数のエージェントのネットワークの外部でのアクションによって得られる収益であることから、この収益による報酬も外部報酬とみなす。

なお、本実施形態において、情報利用装置１３０以外のエージェントは、他のエージェントに対する情報の出力以外に報酬を得る手段を有していない。そこで、本実施形態においては、各特徴抽出装置１１０および各エージェント１２０の外部報酬は０であるとする。なお、情報利用装置１３０以外のエージェントが情報の出力とは無関係に外部報酬を得ている場合においても、各エージェントは、その外部報酬を除いて以下に示すような処理を行うことで、自己の収益を最適化することができる。

（３）仮定３
エージェントｖ_ｉは、提供する情報ｘ_ｉに対する内部報酬ρ_ｊｉｔを下流側のエージェントｖ_ｊから受け取る。この場合、この内部報酬ρ_ｊｉｔは、エージェントｖ_ｊの報酬Ｒ_ｊｔから差し引かれる。

（４）仮定４
エージェントｖｉは、自己の収益がδ未満となる場合には、ノーオペレーション（ＮＯＯＰ）を選択し、情報の入出力を行わないことができる。このδは、一例として０を超える額（十分な収益とみなせない小さな額）であってもよい。

マルチエージェント環境１０の社会的厚生関数（Social Welfare function）Ｇ^ａｌｌは、仮定２から目的関数Ｇと等価であり、以下の式（３）で表される。

仮定３から、エージェントｖ_ｉの報酬Ｒ_ｉｔは、以下の式（４）のとおり表すことができる。

ここで正の項は、収入であり、以下の式（５）で表される。

式（４）の負の項は、コストであり、以下の式（６）で表される。

各エージェントｖ_ｉは、割引率を用いた累積報酬Ｇ_ｉｔを最大化する。累積報酬Ｇ_ｉｔは、以下の式（７）で表される。

ここで、累積報酬Ｇ_ｉｔは、エピソードの最後（最終時刻Ｔ）にならないと観測できないが、各エージェントｖ_ｉが最適なアクションを選択するためには現時点で得られる値が必要となる。そこで、累積報酬Ｇ_ｉｔは、以下の式（８）に示す価値関数Ｖ_ｉ ^πｉ（ｓ_ｉｔ）で近似される。ここで、ｓ_ｉｔは、エージェントｖ_ｉの状態であり、本実施形態においてエージェントｖ_ｉの観測値（エージェントｖ_ｉが入力する情報の値）およびエージェントｖ_ｉの内部状態の少なくとも一部を含む値に応じた状態値を有してよい。このエージェントｖ_ｉの観測値は、一例として直前の時刻におけるエージェントｖ_ｉの観測値であってよい。π_ｉは、エージェントｖｉが有するポリシーであり、状態ｓ_ｉｔにおいてエージェントｖ_ｉがどのように振る舞うかによって価値関数の値が変わりうることを示す。記号Ｅは、期待値を示す。

以上の条件の下、以下の式（９）が成立する。

式（９）から、各エージェントｖ_ｉは、収入ｒ_ｉｔを最大化し、コストｃ_ｉｔを最小化し、価値関数Ｖ_ｉ ^πｉ（ｓ_{ｉ，ｔ＋１}）を高めるように構成される。ここで、報酬Ｒ_ｉｔ＞０（すなわちｒ_ｉｔ＞ｃ_ｉｔ）の場合、エージェントｖ_ｉは、入力される情報に対して付加価値を加えたとみなすことができる。ここで、各エージェントｖ_ｉは、全ての時刻ｔでＲ_ｉｔ≦０である場合、および、ある時刻ｔでＲ_ｉｔ≦０であり価値関数Ｖ_ｉ ^πｉ（ｓ_ｉｔ）＜δの場合等の収益が上げられない場合等の予め定められた条件が成立する場合には、ＮＯＯＰを選択する。なお、各エージェントｖ_ｉは、エージェントｖ_ｉを運営する事業者独自の判断基準に応じて、どのような条件ＮＯＯＰを選択するかを設定可能であってもよい。

ここで、式（９）を無思慮に最適化しようとすると、各エージェントは、コストｃ_ｉｔを０に抑えることとなる。この場合、マルチエージェント環境１０全体では、最終段以外のエージェントが報酬を受け取ることができなくなり、ＮＯＯＰを選択して情報を提供しなくなってしまう。この結果情報利用装置１３０は、有用な情報を受け取って収益を上げることができなくなり、マルチエージェント環境１０全体が受け取る外部報酬Ｒ_ｔ ^ｅｘも大きく減少してしまうこととなる。このような社会的ジレンマを回避するために、マルチエージェント環境１０は、次に示すように、各エージェントが自己の収益を高めつつ、そのエージェントに情報を提供した情報供給エージェントに対して誠実に報酬を支払うことができるスキームを採用する。

図２は、本実施形態に係るエージェント１２０の構成を示す。エージェント１２０は、複数の上流側（情報供給側）のエージェントの少なくとも１つから受け取る情報に基づいて生成した情報を、１または複数の下流側（情報消費側）のエージェントに提供して報酬を得る。本実施形態において、各エージェント１２０は、オークションによってそのエージェント１２０の上流側（情報供給側）のエージェントの情報を入札し、下流側（情報消費側）のエージェントからの入札を受けて情報の価格を決定する。このような構成において、エージェント１２０は、複数の情報供給エージェントのうち一の情報供給エージェントへの入札が失敗したことに応じて、一の情報供給エージェントが提供する情報の少なくとも一部を利用せずに処理を行って報酬を得る。

エージェント１２０は、情報受信部２００と、情報処理部２１０と、情報送信部２２０と、仮想収益推定部２３０と、価格判定部２４０とを備える。情報受信部２００は、着目している対象エージェント１２０（ｖ_ｉ）に対して直接情報を提供すべく接続されている１または複数の情報供給エージェントｖ_ｊが出力する情報ｘ_ｊｔを受け取る。ここで、情報供給エージェントｖ_ｊは、対象エージェント１２０（ｖ_ｉ）との間で、（ｖ_ｊ，ｖ_ｉ）∈Ｅｄｇｅの関係を有する特徴抽出装置１１０またはエージェント１２０である。

情報処理部２１０は、情報受信部２００に接続され、情報受信部２００が受け取った情報を用いて情報処理を行う。情報処理部２１０は、受け取った情報を対象エージェント１２０の設計者が有用と考える情報に変換する任意の情報処理を行ってよく、ニューラルネットワーク、サポートベクタマシーン、ランダムフォレスト、勾配ブースティング、ロジスティック回帰、およびその他の機械学習アルゴリズムを用いて受け取った情報から目標とする情報が得られるように学習された情報処理を行ってもよい。

情報送信部２２０は、対象エージェント１２０（ｖ_ｉ）から直接情報を提供すべく接続されている１または複数の情報消費エージェントｖ_ｊに対して、情報処理部２１０の情報処理によって生成された情報ｘ_ｉｔを送信する。ここで、情報消費エージェントｖ_ｊは、対象エージェント１２０（ｖ_ｉ）との間で、（ｖ_ｉ，ｖ_ｊ）∈Ｅｄｇｅの関係を有するエージェント１２０または情報利用装置１３０である。

仮想収益推定部２３０は、複数の情報供給エージェントのそれぞれから受け取る情報を利用して対象エージェント１２０が得た報酬に基づいて、複数の情報供給エージェントのそれぞれが提供する情報によって得られる仮想収益を推定する。仮想収益推定部２３０による仮想収益の推定方法については、後述する。

価格判定部２４０は、複数の情報供給エージェントのそれぞれに関する仮想収益に基づいて、複数の情報供給エージェントに対する情報の価格を判定する。これにより各エージェント１２０は、各情報供給エージェントが提供する情報の価値を妥当な価格に見積もって各情報供給エージェントへと支払うことができ、自エージェントの収益を上げながら継続的に必要な情報を得て自エージェントが出力する情報の価値を維持向上することが可能となる。単純なインプリメンテーションにおいては、各エージェント１２０は、仮想収益のある割合（例えば予め定められた割合）の部分を自己の収益として留保し、残りの部分を情報供給エージェントへの報酬としてもよい。

本実施形態においては、価格判定部２４０は、更に情報の価格を妥当に決定するべくオークションによる価格決定メカニズムを採用する。このような価格判定部２４０は、入札処理部２５０と、応札処理部２６０とを有してよい。

入札処理部２５０は、複数の情報供給エージェントのそれぞれに関する仮想収益に基づく入札額で、複数の情報供給エージェントのそれぞれの情報提供に対して入札を行う。入札処理部２５０は、情報供給エージェントが決定した落札額がその情報供給エージェントに対する入札額以下であったことに応じて、その情報供給エージェントが決定した価格をその情報供給エージェントに対する情報の価格として決定する。入札処理部２５０は、各情報供給エージェントに対する入札が成功したか否かを情報受信部２００へと通知する。これを受けた情報受信部２００は、入札が成功した情報供給エージェントから受け取った情報は情報処理部２１０へと供給し、入札が失敗した情報供給エージェントについては例えば過去の情報の平均または疑似平均等のダミー情報を情報処理部２１０へと供給するようにしてよい。

応札処理部２６０は、１または複数の情報消費エージェントからの入札に応じて対象エージェントが生成する情報の落札額を決定し、落札結果及び／又は落札額を各情報消費エージェントに通知する。ここで、応札処理部２６０は、１または複数の情報消費エージェントのうち入札に成功した情報消費エージェントから得られる対価の合計額が最大となる価格を、対象エージェントが生成する情報の落札額として決定してよい。応札処理部２６０は、各情報消費エージェントからの入札が成功したか否かを情報送信部２２０へと通知する。これを受けた情報送信部２２０は、入札に成功した情報消費エージェントに対しては情報処理部２１０が生成した情報を送信し、入札に失敗した情報消費エージェントに対しては情報処理部２１０が生成した情報を送らないようにする。これに代えて、応札処理部２６０は、入札に失敗した情報消費エージェントに対しても、情報送信部２２０が生成した情報の一部のみ、または過去の情報の平均または疑似平均等の精度を下げた情報を送るようにしてもよい。

以上に示したエージェント１２０によれば、情報供給エージェントからの情報の価格を適正な価格に決定することができ、エージェント１２０が収益を上げつつ各情報供給エージェントに報酬を分配することができる。

なお、他のインプリメンテーションにおいては、エージェント１２０は仮想収益推定部２３０および価格判定部２４０を内蔵せず、各エージェント１２０に対する仮想収益推定部２３０および価格判定部２４０の機能・構成をプラットフォーム１４０側に設けるようにしてもよい。

また、上記においてはエージェント１２０の構成を示したが、他のエージェント（特徴抽出装置１１０および情報利用装置１３０）も上記エージェント１２０の機能の少なくとも一部を有していてよい。例えば、特徴抽出装置１１０は、複数のエージェント１２０に情報を提供することから、エージェント１２０における出力側の構成、すなわち例えば情報送信部２２０および価格判定部２４０（特に応札処理部２６０に関する機能構成）を有してもよい。また、情報利用装置１３０は、複数のエージェント１２０から情報を受け取ることから、エージェント１２０における入力側の構成、すなわち例えば情報受信部２００、仮想収益推定部２３０、および価格判定部２４０（特に入札処理部２５０に関する機能構成）を有してもよい。

図３は、本実施形態に係るエージェント１２０における情報の価格決定プロセスを示す。まず、複数のエージェントｖ_ｊ（図中ｊ＝１，２，３、「買い手」とも示す。）は、時刻ｔにおけるエージェントｖ_ｉ（「売り手」とも示す。）の情報提供（情報ｘ_ｉｔの提供）に対して、入札をする（図３左上の入札処理）。入札処理において、各買い手エージェントｖ_ｊ内の入札処理部２５０は、自エージェントｖ_ｊの入札額ｂ_ｊｉｔ（図中、ｂ_１ｉｔ～ｂ_３ｉｔ）を決定し、買い手に通知して入札を行う。

売り手エージェントｖ_ｉ内の応札処理部２６０は、各買い手エージェントｖ_ｊからの入札に応じて、売り手エージェントｖ_ｉが生成する情報の落札額ｑ_ｉｔを決定する。本実施形態においては、応札処理部２６０は、落札額を最適価格に決定するが、最適落札額であることを明示する場合には落札額ｑ_ｉｔの上に「＾」の記号を付す。売り手エージェントｖ_ｉ内の応札処理部２６０は、決定した落札額ｑ_ｉｔを各買い手エージェントｖ_ｊ内の入札処理部２５０に通知する（図３右上の落札処理）。買い手エージェントｖ_ｊは、入札額ｂ_ｊｉｔが落札額ｑ_ｉｔ以上の場合には情報ｘ_ｉｔを落札することができるが、入札額ｂ_ｊｉｔが落札額ｑ_ｉｔ未満の場合には情報ｘ_ｉｔを落札することができない。

ここで、割当ｇ_ｊｉｔを、買い手エージェントｖ_ｊが落札した場合に値１をとり、落札できなかった場合に値０をとる変数と定義する。割当ｇ_ｊｉｔは、ステップ関数Ｈ（）（入力値が０以上の場合に１、０未満の場合に０となる関数）を用いて以下のとおり表すことができる。

本実施形態おいては、前述した仮定１～４に加えて、価格の決定について以下の仮定をおく。

（５）仮定５
同じ売り手エージェントｖ_ｉに対して買い手エージェントｖ_ｊおよびｖ_ｊ'が支払う内部報酬をρ_ｊｉｔおよびρ_ｊ'ｉｔとすると、これらの対価の間には以下の関係（１１）が成り立つ。

すなわち、２以上の買い手エージェントは、同じ売り手エージェントに対して、同じ情報の提供を受ける場合には、同じ内部報酬ｑ_ｉｔ＝ρ_ｊｉｔ＝ρ_ｊ'ｉｔを支払うものとする。

買い手エージェントｖ_ｊ内の入札処理部２５０は、落札に成功した場合に落札額ｑ＾_ｉｔを売り手エージェントｖ_ｉに支払う処理を行い、落札に失敗した場合には売り手エージェントｖ_ｉに対して支払いを行わない（図３左下の支払処理）。売り手エージェントｖ_ｉに対価ｑ＾_ｉｔを支払った買い手エージェントｖ_ｊでは、収益が支払額ｑ＾_ｉｔ分減少する。買い手エージェントｖ_ｊが売り手エージェントｖ_ｉに支払う内部報酬ρ_ｊｉｔは、以下の式（１２）で表すことができる。

対価の支払いを受けたことに応じて、売り手エージェントｖ_ｉは、買い手エージェントｖ_ｊに対して情報ｘ_ｉｔを提供する。なお、各エージェントがある程度信用できる場合には、売り手エージェントｖ_ｉは、買い手エージェントｖ_ｊから後払いで対価の支払いを受けるスキームを採用してもよく、ある程度の期間（例えば１ヶ月等）の間の対価を累積して支払いを受けるスキームとしてもよい。

エージェント１２０（ｖ_ｉ）の収入およびコストは、本図に関連して説明したパラメータを用いて以下のように表すことができる。

（１）収入
エージェント１２０の収入は、式（５）および式（１２）から、以下の式（１３）で表すことができる。

ここで、ｄ_ｉｔは、エージェント１２０の情報提供に対する需要であり、以下の式（１４）に示すように、入札額ｂ_ｊｉｔが落札額ｑ_ｉｔ以上となった買い手エージェントｖ_ｊの数である。

外部報酬Ｒ_ｉ ^ｅｘは落札額ｑ_ｉｔとは独立に決まることから、エージェント１２０の収入ｒ_ｉｔを最大化する最適落札額ｑ＾_ｉｔは、需要ｄ_ｉｔ×落札額ｑ_ｉｔを最大とするｑ_ｉｔであり、以下の式（１５）で表すことができる。

図４は、式（１５）による情報の落札額の決定方法を示すグラフである。本図の横軸は、式（１５）における価格ｑを示し、縦軸は価格ｑにおける需要ｄ_ｉｔ（ｑ）および収入ｒ_ｉｔ＝ｑｄ_ｉｔ（ｑ）の大きさを示す。一般的には、本図のように価格ｑが上昇するにつれて需要曲線ｄ_ｉｔ（ｑ）は漸減していく。このため、価格ｑを増やしていくと、ある程度まで収入ｒ_ｉｔは増加していくが、価格ｑを増やしすぎると収入ｒ_ｉｔは却って減少していく。したがって、ある価格において収入ｒ_ｉｔが最大となるポイントがある。エージェント１２０内の応札処理部２６０は、入札してきた全ての買い手エージェントｖ_ｊの入札額ｂ_ｊｉｔを受信するので需要曲線ｄ_ｉｔ（ｑ）を知ることができる。したがって、応札処理部２６０は、全ての買い手エージェントｖ_ｊの入札額ｂ_ｊｉｔから、収入ｒ_ｉｔが最大となる最適落札額ｑ＾_ｉｔを決定することができる。

（２）コスト
エージェント１２０のコストは、エージェント１２０が情報供給エージェントに支払う内部報酬の合計であり、以下の式（１６）によって表すことができる。

ここで、ベクトルｇ_ｉｔは、割当ベクトルであり、以下の式（１７）に示すように定義される。

ベクトルｑ_ｔは、落札額ベクトルであり、以下の式（１８）に示すように定義される。

（３）価値関数
エージェント１２０（ｖ_ｉ）が生成する情報ｘ_ｉｔは、情報供給エージェントから入力される情報に依存し、情報消費エージェントの入札額に影響を与える。エージェント１２０の入札額ｂ_ｉｊｔが最小化されると、情報供給エージェントから情報を買うことができなくなり、エージェント１２０が得ることができる報酬が将来的に減少してしまう。したがって、入札が成功する場合および失敗する場合の両方を考慮した価値関数を用いる。

本実施形態において、価値関数は、以下の式（１９）に示すように、割当ベクトルｇ_ｉｔの線形関数として近似する。

ここで、ベクトルｏ_ｉｔは、仮想収益（「反実仮想収益（ｃｏｕｎｔｅｒｆａｃｔｕａｌｒｅｔｕｒｎ）」とも示す。）のベクトルである。ベクトルｏ_ｉｔの各要素は、各情報供給エージェントｖ_ｊからの情報ｘ_ｊｔを利用することによって得られる仮想収益である。また、Ｖ_ｉｔ ^０は、割当ベクトルｇ_ｉｔによらない定数であり、エージェント１２０が情報ｘ_１、…、ｘ_Ｎを用いずにアクションをした場合における価値関数である。

これにより、エージェント１２０における最適化問題は、以下の式（２０）に示すエージェントｖ_ｉの状態行動価値関数Ｑ_ｉ（・，・）によって実現される。

式（２０）の左辺は、状態ｓ_ｉｔにおいてアクションａを最適化したときのＱ_ｉ（ｓ_ｉｔ，ａ）の最大値を意味する。アクションａは、各情報供給エージェントへの入札額を要素とするベクトルｂ、および対象エージェント１２０の落札額ｑを含み、ａ＝（ベクトルｂ，ｑ）と表される。式（２０）の右辺は、式（９）の各項について、式（１３）、式（１６）、式（１９）を参照して導くことができる。ここで、式（１３）における外部報酬Ｒ_ｉｔ ^ｅｘ、および式（１９）におけるＶ_ｉｔ ^０は、式（２０）の定数項にまとめられる。なお、対象エージェント１２０にとって、落札額のベクトルｑ＾_ｔは、自己の落札額ｑ＾_ｉｔおよび入札をした情報供給エージェントの落札額を除いて未知であるから、式（２０）においてはＥ_ｑ＾ｔ［・］を用いて期待値であることを示している。

ここで、エージェント１２０の報酬を最大化させる入札額ｂ＾_ｉｔについては、以下の式（２１）に示す法則が成り立つ。この理由については後述する。

本実施形態において、各エージェントは、上記の式（２１）を用いて入札額を決定する。これに代えて、各エージェントは、仮想収益に基づいて、式（２１）とは異なる式を用いて入札額を決定してもある程度妥当な報酬分配を実現することができる。例えば、各エージェントは、入札額を、仮想収益にγ以外の係数を乗じた額としてもよく、仮想収益によらない定数を更に加えた額としてもよく、仮想収益に加えて他の変数を加味した額としてもよい。他の変数を加味する場合、各エージェントは、一例として前回入札に失敗した場合には今回の入札額を（損失が発生しないと予測される範囲で）増加させる等といった要素を採り入れてもよい。

式（２１）から、各エージェントは、自己に対する仮想収益（情報消費エージェントにおける自エージェントに対する仮想収益）を増やすように情報を充実させることで、入札額を増加させ、収益を増やすことができる。このようなマルチエージェント環境１０においては、各エージェントがとるアクションａ＝（ベクトルｂ，ｑ）について、以下の結論を導くことができる。
（結論）
各エージェントがとるアクションは、以下の式（２２）においてナッシュ均衡となる。

以上に示したマルチエージェント環境１０は、各エージェントが自己に対する仮想収益（情報消費エージェントにおける自エージェントに対する仮想収益）を増やすように情報を充実させることで、入札額を増加させ、収益を増やすことができる環境を提供することができる。このようなマルチエージェント環境１０においては、各エージェントを運用する事業者等は、情報供給エージェントに十分な支払をしつつ有用な情報を提供していかなければ淘汰されていく。これにより、マルチエージェント環境１０は、複数のエージェントが協調して情報を生成し、全体の収益を高めていくことができる環境を実現することができる。

図５Ａおよび図５Ｂは、本実施形態に係るマルチエージェント環境１０の動作フローを示す。また、図６は、本実施形態に係るマルチエージェント環境１０の動作アルゴリズムの一例を示す。

ステップＳ５００（図６の１行目に対応）およびＳ５８０（図６の１８行目に対応）において、マルチエージェント環境１０は、時刻１からＴまでの間Ｓ５０５～Ｓ５７５を繰り返すループ制御を行う。時刻１からＴまでの期間は、マルチエージェント環境１０による報酬等の学習の単位であり、「エピソード」と示される。図５～６においては、１エピソード分の動作を示しているが、マルチエージェント環境１０は、時間の経過に伴って多数のエピソード（時刻１からＴまでのエピソード）を実行していくことにより、学習を進めていく。例えば、時刻の１ステップが０．１秒、１エピソードが０．６分（Ｔ＝３６０）である場合、マルチエージェント環境１０は、１時間に１００エピソード、１日に２４００エピソード、１ヶ月（３０日）に７２０００エピソードを実行してよい。このような強化学習を行うことによって、マルチエージェント環境１０内の各エージェントは、推定する仮想収益の精度を高めていくことができ、より適切な落札額を提示することができるようになっていく。

Ｓ５０５（図６の２行目に対応）において、マルチエージェント環境１０内の複数のエージェントのそれぞれは、対象エージェントｖ_ｉへの接続が存在する各情報供給エージェントｖ_ｊに対して、各情報供給エージェントｖ_ｊに関連づけられた仮想収益ｏ_ｉｊｔに基づく入札額で入札を行う。本実施形態に係る各エージェント内の入札処理部２５０は、事業者等が各々収益を最大化する経営判断をした結果として、式（２１）に示した最適入札額で入札を行うように設定されてよい。

Ｓ５１０（図６の３行目に対応）およびＳ５４０（図６の１０行目に対応）において、入札を受けた各エージェント内の応札処理部２６０は、入札に成功する情報消費エージェトから得られる対価の合計額が最大となる最適落札額を決定する。ここで、応札処理部２６０は、式（１５）により落札額を決定してよい。応札処理部２６０は、決定した落札額を接続先の各情報消費エージェントに通知する。

Ｓ５１５（図６の４行目に対応）において、マルチエージェント環境１０内の各エージェントは、情報供給エージェントｖ_ｉから情報消費エージェントｖ_ｊへの各接続について、Ｓ５２０からＳ５３５を行うループ処理を開始する。

Ｓ５２０（図６の５行目に対応）において、情報消費エージェントｖ_ｊ内の入札処理部２５０は、情報供給エージェントｖ_ｉから受け取った落札額ｑ＾_ｉｔが自己の入札額ｂ_ｊｉｔ以上か否かを判定し、落札結果の一例として割当ｇ_ｊｉｔを式（１０）により算出する。情報供給エージェントｖ_ｉ内の応札処理部２６０は、同様にして各情報供給エージェントｖ_ｊに対する落札結果（一例として割当ｇ_ｊｉｔ）を算出する。

Ｓ５２５（図６の６行目に対応）において、情報消費エージェントｖ_ｊ内の入札処理部２５０は、落札結果ｇ_ｊｉｔおよび受け取った落札額ｑ＾_ｉｔに基づいて、情報供給エージェントｖ_ｉに対して支払う対価を決定する。入札処理部２５０は、式（１２）に基づいてこの対価を決定してよい。

Ｓ５３０（図６の７行目に対応）において、情報消費エージェントｖ_ｊ内の入札処理部２５０は、情報供給エージェントｖ_ｉに対して対価ρ_ｊｉｔを支払う処理を行う。これにより、情報供給エージェントｖ_ｉの報酬Ｒ_ｉｔは対価分増加し、情報消費エージェントｖ_ｊの報酬Ｒ_ｊｔは対価分減少する。なお、入札処理部２５０は、仮想通貨を情報供給エージェントｖ_ｉへと送金するブロックチェーン上の処理を行うこと、ＡＰＩ等を通じて銀行等の金融機関に送金トランザクションを送ること、または、電子マネーを送金する処理を行うこと等の価値の移転処理を行うことによって対価の支払処理を実現してよい。

Ｓ５３５（図６の８～９行目に対応）において、情報供給エージェントｖ_ｉ内の情報送信部２２０は、入札に成功した情報消費エージェントｖ_ｊに対して、情報供給エージェントｖ_ｉ内の情報処理部２１０が生成した情報ｘ_ｉｔを発送する。ここで、情報送信部２２０は、入札が失敗した情報消費エージェントｖ_ｊに対しては、図６の８行目に示すようにダミー情報ｘ￣_ｉｊｔを発送してもよい。このダミー情報ｘ￣_ｉｊｔは、例えば図６の９行目に示すように情報ｘ_ｉｔの平均（オンライン平均）等であってよい。

Ｓ５４５（図６の７行目に対応）およびＳ５７５（図６の１７行目に対応）において、マルチエージェント環境１０は、各エージェントｖ_ｉでＳ７５０～Ｓ７７５の処理を実行させるためのループ制御を行う。

Ｓ５５０（図６の１２行目に対応）において、エージェントｖ_ｉは、外部状態を観測する。

Ｓ５５５（図６の１３～１４行目に対応）において、エージェントｖ_ｉ内の情報処理部２１０は、内部状態Ｓ_ｉｔを更新する。本実施形態に係る情報処理部２１０は、時刻ｔにおける外部状態Ｓ_ｉｔ ^ｅｘ、各情報供給エージェントから受信した情報（またはダミー情報）、およびエージェントｖ_ｉに設定されたパラメータの組を内部状態Ｓ_ｉｔとする。外部状態Ｓ_ｉｔ ^ｅｘは、エージェントｖ_ｉが情報供給エージェント以外の情報ソース等（例えば外部の環境等）から受け取る情報および／またはセンスデータ等に応じて変化する状態である。あるエージェントｖ_ｉが、情報供給エージェントからの情報以外に、マルチエージェント環境１０の枠組を用いて報酬を支払う必要がない情報ソース等からの情報等を使用して自己が出力すべき情報を生成する場合、エージェントｖ_ｉ内の情報処理部２１０は、外部状態Ｓ_ｉｔ ^ｅｘを用いて内部状態Ｓ_ｉｔを更新してもよい。

本実施形態においては、説明の便宜上、外部状態、受信した情報、設定パラメータの組み合わせを内部状態としているが、どのような要素に応じてエージェントｖ_ｉの内部状態を決定するかは、エージェントｖ_ｉを運用する事業者等が任意に決定してよい。例えば、エージェントｖ_ｉは、外部状態、受信した情報、および設定されたパラメータのうちの一部のみに基づく内部状態を用いてもよい。また例えば、エージェントｖ_ｉは、外部状態、受信した情報、および設定されたパラメータのうちの少なくとも１つを非可逆変換により縮退した内部状態を用いてもよい。また、エージェントｖ_ｉは、例えば各情報供給エージェントに対する割当ｇ_ｊｉｔ等の他のパラメータを含めた内部状態を用いてもよい。

Ｓ５６０（図６の１４行目に対応）において、エージェントｖ_ｉ内の情報処理部２１０は、情報供給エージェントから受信した情報に基づいて、アクションａ_ｉｔ ^ｅｘを決定（サンプリング）する。エージェントｖ_ｉ内の情報処理部２１０は、図６の１４行目に示したように、受信した情報に応じて更新された内部状態ｓ_ｉｔに基づいて、エージェントｖ_ｉが有するアクション決定ポリシーπ_ｉ ^ｅｘを用いてアクションａ_ｉｔ ^ｅｘを決定してよい。情報処理部２１０は、予め定められたアルゴリズムを有するプログラムを実行することによりアクションａ_ｉｔ ^ｅｘを決定してもよい。これに代えて、情報処理部２１０は、内部状態ｓ_ｉｔと事後的に最適であったと判明したアクションとの組を用いて強化学習により選択するアクションａ_ｉｔ ^ｅｘの最適化を行ってもよい。この場合において、情報処理部２１０は、内部状態ｓ_ｉｔに応じて最適と推定されたアクションをより高い確率で選択する一方で、低い確率で準最適または他のアクションも選択しうるようにアクションａ_ｉｔ ^ｅｘをサンプリングしてもよい。

Ｓ５６５（図６の１５行目に対応）において、エージェントｖ_ｉ内の情報処理部２１０は、アクションａ_ｉｔ ^ｅｘを実行する。エージェントｖ_ｉ内の価格判定部２４０は、アクションａ_ｉｔ ^ｅｘを実行した結果得られた収益に応じて、外部報酬Ｒ_ｉｔ ^ｅｘ（ａ_ｉｔ ^ｅｘ）を取得する。ここで、Ｓ７６０およびＳ７７０は、主に情報利用装置１３０によって実行されてよく、アクションａ_ｉｔ ^ｅｘは金融商品への投資、製造業における各種の製造パラメータの変更、将来の予測、および情報の提供等であってよい。

Ｓ５７０（図６の１６行目に対応）において、エージェントｖ_ｉの情報消費エージェントｖ_ｊ内の仮想収益推定部２３０は、Ｓ７３０における内部報酬のやり取りおよびＳ７６５における外部報酬の取得の結果に基づいて、エージェントｖ_ｉが提供する情報によって得られるエージェントｖ_ｊの仮想収益ｏ_ｊｉｔを更新する。ここで、仮想収益ｏ_ｊｉｔは、以下の式（２３）で表される。

ここで、ｘ_{ｊ,［１：ｔ］}は、時刻１からｔにおいてエージェントｖ_ｊが観測したエージェントｖ_ｉの情報の集合を示す。Ｑｃ（ｘ_{ｊ,［１：ｔ］}，ｇ_ｊｉｔ＝１）は時刻ｔにおいてエージェントｖ_ｉからの情報を観測した場合のエージェントｖ_ｊの収益の予測値、Ｑ（ｘ_{ｊ,［１：ｔ］}，ｇ_ｊｉｔ＝０）は時刻ｔにおいてエージェントｖ_ｉからの情報を観測できなかった場合のエージェントｖ_ｊの収益の予測値を示し、以下の式（２４）および式（２５）を満たす。

式（２４）のＱをＱ_ｊｉｔ ^１、式（２５）のＱをＱ_ｊｉｔ ^０と略記すると、式（２６）が成立する。

仮想収益推定部２３０は、複数の情報供給エージェントのうちある情報供給エージェントｖ_ｉからの情報を利用した場合に対象エージェントｖ_ｊが得る報酬と、その情報供給エージェントｖ_ｉからの情報の少なくとも一部が利用できなかった場合に対象エージェントｖ_ｊが得る報酬とに基づいて、その情報供給エージェントｖ_ｉに関する仮想収益を推定してよい。仮想収益ｏ_ｊｉｔを推定する方法として、Ｑ_ｊｉｔ ^１およびＱ_ｊｉｔ ^０をＱラーニング、ＳＡＲＳＡ、Ａｃｔｏｒ－Ｃｒｉｔｉｃ等の様々な方法を用いることができる。

非常に単純なインプリメンテーション（「第１インプリメンテーション」と示す。）においては、エージェントｖ_ｊの内部状態を考慮せず、Ｑ_ｊｉｔ ^１およびＱ_ｊｉｔ ^０をそれぞれ時刻によらない一定値に収束させる、すなわちＱ_ｊｉｔ ^１＝Ｑ_{ｊｉ（ｔ－１）} ^１およびＱ_ｊｉｔ ^０＝Ｑ_{ｊｉ（ｔ－１）} ^０を前提とするようにすることが考えられる。このインプリメンテーションにおいては、エージェントｖ_ｊ内の仮想収益推定部２３０は、複数の情報供給エージェントｖ_ｉのそれぞれについて、時刻によらないＱ_ｊｉ ^１およびＱ_ｊｉ ^０を記憶しておく。エピソードを１回も実行していない初期状態において、仮想収益推定部２３０は、これらの値を乱数を用いて定めてもよい。ある時刻ｔにおいて、Ｓ７０５からＳ７６５までの処理を行うと、エージェントｖ_ｊにおける落札額ｑ＾_ｔ、割当ベクトルｇ_ｔ（式（１７）参照）、収入ｒ_ｊ、およびコストｃ_ｊが確定する。

ここで、複数の情報供給エージェントｖ_ｉのそれぞれについて、ｇ_ｊｉｔは１または０である。仮想収益推定部２３０は、ｇ_ｊｉｔ＝１の場合にはＱ_ｊｉ ^１を、ｇ_ｊｉｔ＝０の場合にはＱ_ｊｉｔ ^０を式（２０）に準じて更新する。すなわち、仮想収益推定部２３０は、情報供給エージェントｖ_ｉからの情報を利用した場合に対象エージェントｖ_ｊが得た報酬を用いて、その情報供給エージェントｖ_ｉからの情報を利用した場合に得られると推定される第１仮想報酬Ｑ_ｊｉ ^１を更新する。また、仮想収益推定部２３０は、情報供給エージェントｖ_ｉからの情報の少なくとも一部が利用できなかった場合に対象エージェントｖ_ｊが得た報酬を用いて、その情報供給エージェントｖ_ｉからの情報の少なくとも一部を利用できない場合に得られると推定される第２仮想報酬Ｑ_ｊｉ ^０を更新する。この際、仮想収益推定部２３０は、式（２０）どおりにＱ_ｊｉ ^１またはＱ_ｊｉ ^０を更新してもよく、以前の値との間で加重平均等を取ることにより徐々に更新してもよい。そして、仮想収益推定部２３０は、更新後のＱ_ｊｉ ^１およびＱ_ｊｉ ^０を用いて式（２６）により仮想収益ｏ_ｊｉｔを更新してもよい。すなわち、仮想収益推定部２３０は、第１仮想報酬および第２仮想報酬の差に基づいて、第１情報供給エージェントに関する仮想収益を算出してよい。

以上において、第１仮想報酬Ｑ_ｊｉ ^１および第２仮想報酬Ｑ_ｊｉ ^０は、式（９）から導かれたものであるから、情報供給エージェントからの情報を利用した場合および利用しない場合において対象エージェントｖ_ｊが得る、割引率を考慮した累積的な（反実）仮想収益（総収益）である。仮想収益推定部２３０は、情報供給エージェントからの情報を利用した場合および利用しない場合において対象エージェントｖ_ｊが得る総収益（推定総収益）の差に基づいて、仮想収益を算出してもよい。

仮想収益推定部２３０は、上記の処理を時刻１からＴまで、更には複数エピソードにおいて継続的に行っていくことにより、Ｑ_ｊｉ ^１およびＱ_ｊｉｔ ^０の値を好適な値に近づけることができ、好適な仮想収益ｏ_ｊｉｔを得ることができる。

他のインプリメンテーション（「第２インプリメンテーション」と示す。）においては、仮想収益推定部２３０は、エージェントｖ_ｊの内部状態を考慮するものの、各時刻における内部状態は独立であるという前提で仮想収益ｏ_ｊｉｔの推定を行ってもよい。このインプリメンテーションにおいては、仮想収益推定部２３０は、Ｑ_ｊｉｔ ^１およびＱ_ｊｉｔ ^０をそれぞれ時刻によらない一定値に収束させるようにするが、内部状態別のＱ_ｊｉ ^１（ｓ_ｊ）およびＱ_ｊｉ ^０（ｓ_ｊ）として記憶するようにする。エピソードを１回も実行していない初期状態において、仮想収益推定部２３０は、これらの値を乱数を用いて定めてもよい。ある時刻ｔにおいて、エージェントｖ_ｊの内部状態がｓ_ｊｔである場合、仮想収益推定部２３０は、内部状態ｓ_ｊｔに対応するＱ_ｊｉ ^１（ｓ_ｊｔ）またはＱ_ｊｉ ^０（ｓ_ｊｔ）のみを、第１インプリメーテーションと同様に更新する。この場合、仮想収益ｏ_ｊｉｔも内部状態に応じて異なる値をとるので、入札処理部２５０は、内部状態に応じた仮想収益ｏ_ｊｉｔ（ｓ_ｊｔ）を用いて入札額ｂ_ｊｉｔを決定してよい。

ここで、仮想収益推定部２３０は、第２インプリメンテーションまたは他のインプリメンテーションにおいて、外部状態、受信した情報、設定パラメータの全ての組み合わせについて個別に上記処理を行う代わりに、内部状態を例えば数個～数十個程度の状態値に写像して仮想収益の推定に用いる内部状態として用いてもよい。内部状態の状態数が多くなるほど学習の収束に時間がかかるものの、状況に応じてより高い精度で仮想収益を推定できるようになり、内部状態の状態数が少ないほど学習の収束が早くなるが仮想収益の推定精度が低くなりうる。

更に他のインプリメンテーション（「第３インプリメンテーション」と示す。）においては、仮想収益推定部２３０は、エージェントｖ_ｊの内部状態の遷移を考慮して仮想収益ｏ_ｊｉｔの推定を行ってもよい。このインプリメンテーションにおいては、Ｑラーニングの考え方を取り入れる。仮想収益推定部２３０は、複数の情報供給エージェントｖ_ｉのそれぞれについて、時刻１からＴの各時刻に対応してＱ_ｊｉｔ ^１（ｓ_ｊ）およびＱ_ｊｉｔ ^０（ｓ_ｊ）を記憶しておく。エピソードを１回も実行していない初期状態において、仮想収益推定部２３０は、これらの値を乱数を用いて定めてもよい。

仮想収益推定部２３０は、ｇ_ｊｉｔ＝１の場合にはＱ_ｊｉｔ ^１を、ｇ_ｊｉｔ＝０の場合にはＱ_ｊｉｔ ^０を式（９）に準じて更新する。ここで、式（９）におけるＶ_ｉ ^πｉ（ｓ_{ｉ，ｔ＋１}）として次の時刻ｔ＋１における状態ｓ_{ｊ，ｔ＋１}に対応するＱ_{ｊｉ，ｔ＋１} ^１（ｓ_{ｊ，ｔ＋１}）またはＱ_{ｊｉ，ｔ＋１} ^０（ｓ_{ｊ，ｔ＋１}）を用いることから、仮想収益推定部２３０は、次の時刻ｔ＋１のＳ７７０において前の時刻ｔのＱ_ｊｉｔ ^１（ｓ_ｊｔ）またはＱ_ｊｉｔ ^０（ｓ_ｊｔ）を更新してもよい。そして、仮想収益推定部２３０は、更新後のＱ_ｊｉ ^１およびＱ_ｊｉｔ ^０を用いて式（２６）により仮想収益ｏ_ｊｉｔを更新してもよい。

このインプリメンテーションにおいては、エージェントｖ_ｊは、上記の処理を複数のエピソードにわたって繰り返し行うことで、Ｑ_ｊｉｔ ^１（ｓ_ｊ）およびＱ_ｊｉｔ ^０（ｓ_ｊ）の値を好適な値に近づけることができ、さらに後に実行するエピソードにおいて好適な仮想収益ｏ_ｊｉｔを使うことができる。

更に他のインプリメンテーション（「第４インプリメンテーション」と示す。）においては、仮想収益推定部２３０は、内部状態ｓ_ｊｔからＱ関数（Ｑ_ｊｉｔ ^１（ｓ_ｊｔ）およびＱ_ｊｉｔ ^０（ｓ_ｊｔ））を予測するためにニューラルネットワーク等の機械学習を用いてもよい。時刻ｔのＳ７７０において、仮想収益推定部２３０は、内部状態ｓ_ｊｔ（時刻ｔまでの情報ｘ_{ｊ，［１：ｔ］}を含む状態）に基づいて、内部状態ｓ_{ｊ，ｔ＋１}（時刻ｔ＋１までの情報ｘ_{ｊ，［１：ｔ＋１］}を含む状態）におけるＱ_{ｊｉｔ＋１} ^１（ｓ_{ｊ，ｔ＋１}）およびＱ_{ｊｉｔ＋１} ^０（ｓ_{ｊ，ｔ＋１}）を予測し、時刻ｔ＋１における仮想収益ｏ_{ｊｉｔ＋１}を予測する。

次の時刻ｔ＋１のＳ７０５において、入札処理部２５０は、予測された仮想収益ｏ_{ｊｉｔ＋１}を用いて入札をすることができる。仮想収益推定部２３０は、時刻ｔ＋１のＳ７６５において、落札の成否に応じてＱ_{ｊｉｔ＋１} ^１（ｓ_{ｊ，ｔ＋１}）またはＱ_{ｊｉｔ＋１} ^０（ｓ_{ｊ，ｔ＋１}）の実績値が得られたことに応じて、ニューラルネットワーク等を更に学習させてよい。

このようなニューラルネットワークを用いた学習においては、非特許文献３に記載されたような二重化ネットワーク（ｄｕｅｌｉｎｇｎｅｔｗｏｒｋ）の手法を用いて状態関数とＱ関数との差分を別々に予測するようにしてもよい。この際、非特許文献４に記載されたように差分の要素の総和が０になるように正規化してもよい。

より具体的には、エージェントｖ_ｊにおいて、エージェントｖ_ｉからの情報に関するＱ関数は、以下の式（２７）によって表される。

ここで、ε（ｓ_ｔ）はエージェントｖ_ｊに対する複数の情報供給エージェントｖ_ｉについてのＱ関数の期待値であり、Ａ^～ _ｉ（ｓ_ｔ，ａ_ｔ）は各情報供給エージェントｖ_ｉについてのＱ関数の期待値に対する正規化差分であり、以下の式（２８）を満たすように決定される。

式（２７）から、Ｑ_ｉ（ｓ_ｔ，ａ_ｔ）の予測値Ａ_ｉ（ｓ_ｔ，ａ_ｔ）を用いて以下の式（２９）を導くことができる。

仮想収益推定部２３０は、各情報供給エージェントｖ_ｉについての正規化差分Ａ^～ _ｉ（ｓ_ｔ，ａ_ｔ）を、それぞれ別個のニューラルネットワーク等を用いて予測し、実績値に応じてこれらのニューラルネットワークを更新してよい。入札処理部２５０は、正規化差分Ａ^～ _ｉ（ｓ_ｔ，ａ_ｔ）を用いて以下の式（３０）により最適な入札額ｂ＾_ｉｔを算出できる。

更に他のインプリメンテーション（「第５のインプリメンテーション」と示す。）においては、仮想収益推定部２３０は、仮想収益ｏ_ｊｉｔを、式（２６）のようにＱ_ｊｉｔ ^１およびＱ_ｊｉｔ ^０に分解せずに直接最適化してもよい。このインプリメンテーションにおいては、仮想収益推定部２３０は、仮想収益ｏ_ｊｉ、時刻毎の仮想収益ｏ_ｊｉｔ、内部状態毎の仮想収益ｏ_ｊｉ（ｓ_ｊ）、または時刻および内部状態毎の仮想収益ｏ_ｊｉｔ（ｓ_ｊ）と、式（１９）におけるＶ_{ｉ，ｔ＋１} ^０とを記憶する。各エージェントｖ_ｊの仮想収益推定部２３０は、各時刻ｔにおける自エージェントの予測報酬を例えば式（１９）により算出し、報酬の実績値との差分をマルチエージェント環境１０の下流側のエージェントから上流側のエージェントへとバックプロパゲーションさせることにより、多層ニューラルネットワークと同様にして仮想収益およびＶ_{ｉ，ｔ＋１} ^０を更新してもよい。

なお、図５～６においては、説明の便宜上マルチエージェント環境１０全体の動作フローおよび動作アルゴリズムを示したが、マルチエージェント環境１０内の複数のエージェントは、それぞれが上記の動作フローおよび動作アルゴリズムにおける各エージェントの担当部分を他のエージェントと並列または並行して実行してもよい。

本実施形態において、各入札処理部２５０は、式（２１）により最適入札額ｂ＾_ｉｊｔを決定する。以下に、式（２１）の落札額が最適落札額であることを示す。

式（２０）において、第１項は入札額と無関係であり、第３項は定数である。したがって、最適落札額ｂ＾_ｉｊｔは、式（２０）の第２項を最小化するｂ_ｉｊｔの値となり、以下の式（３１）のように変形することができる。

最適落札額ｂ＾_ｉｊｔは、各エージェントｖ_ｊで独立であるから、式（３１）は以下の式（３２）に変形することができる。

したがって、最適落札額ｂ＾_ｉｊｔは、以下の式（３３）の条件を満たす解を求めることにより得ることができる。

以下説明の便宜上、ｑ＝ｑ_ｊｔ、ｏ＝ｏ_{ｉｊ，ｔ＋１}とおくと、以下の式（３４）および式（３５）が成立する。

式（３４）の（ｂ－γｏ）ｐ（ｑ＝ｂ）が０となるのは、ｂ＝γｏの場合、すなわちｂ＾_ｉｊｔ＝γｏ_ｉｊｔの場合のみである。さらに、式（３５）にｂ＾_ｉｊｔ＝γｏ_ｉｊｔを代入すると、以下の式（３６）のとおりとなる。

したがって、ｂ＾_ｉｊｔ＝γｏ_ｉｊｔは、式（３３）の条件を満たす唯一の解となる。以上により、マルチエージェント環境１０は、入札額を式（２１）のとおりとすることによって、各エージェントの報酬を最適化することができる。

図７は、本実施形態の変形例に係るマルチエージェント環境１０におけるエージェント１２０の構成を示す。本変形例におけるマルチエージェント環境１０は、図１～６に示したマルチエージェント環境１０の一部を変形したものである。本変形例のマルチエージェント環境１０における、図１～６に示したマルチエージェント環境１０と同様の機能および構成を有する構成要素については、図１～６と同じ符号を付し、以下相違点を除いて説明を省略する。本変形例において、エージェント１２０は、複数の情報供給エージェントの少なくとも１つから受け取る情報を重み付けして生成した情報を、１または複数の情報消費エージェントに提供して報酬を得る。

エージェント１２０内の情報処理部２１０は、情報受信部２００が受け取った情報を用いて情報処理を行う。本変形例において、エージェント１２０は、複数の情報供給エージェントのそれぞれから受け取る情報を重み付けして、エージェント１２０が出力する情報を生成する。ここで、複数の情報供給エージェントおよび対象エージェントを含む複数のエージェント（特徴抽出装置１１０、エージェント１２０、および情報利用装置１３０）は、エージェントネットワークを形成する。エージェント１２０（および情報処理部２１０を有する情報利用装置１３０）は、ニューラルネットワークにおけるニューロン単体またはニューラルネットワークの一部として含まれる部分ネットワークにおける情報処理を担当する。情報処理部２１０は、複数の情報供給エージェントのそれぞれとの間に定義された重み値を用いて各情報供給エージェントからの情報に重み付けをし、その重み付け和にバイアス値を加えた結果に基づいてエージェント１２０が出力する情報を生成する。

重み取得部７３５は、複数の情報供給エージェントのそれぞれから受け取る情報をエージェント１２０が重み付けしてエージェント１２０が出力する情報を生成するために用いる重みを情報処理部２１０から取得する。重み取得部７３５は、取得した重みを価格判定部２４０へと供給する。

価格判定部２４０は、複数の情報供給エージェントのそれぞれに対する重みに基づいて、複数の情報供給エージェントに対する情報の価格を決定する。本変形例においては、価格判定部２４０は、情報供給側および情報消費側のエージェントの間で情報の価格を妥当に決定するべくオークションによる価格決定メカニズムを採用してよい。価格判定部２４０内の入札処理部２５０は、複数の情報供給エージェントのそれぞれに対する重みに基づく入札額で、複数の情報供給エージェントのそれぞれの情報提供に対して入札を行う。

図８は、本実施形態の変形例に係るマルチエージェント環境１０の動作フローを示す。図９は、本実施形態の変形例に係るマルチエージェント環境１０の動作アルゴリズムの一例を示す。

ステップＳ７００（図９の１行目に対応）およびＳ７９０（図９の１２行目に対応）において、マルチエージェント環境１０は、時刻１からＴまでの間Ｓ７１０～Ｓ７８０を繰り返すループ制御を行う。図８～９においては、時刻１からＴまでの１エピソード分の動作を示しているが、マルチエージェント環境１０は、時間の経過に伴って多数のエピソードを実行していくことにより、学習を進めていく。

Ｓ７１０（図９の２行目に対応）において、マルチエージェント環境１０内の複数のエージェントのそれぞれは、対象エージェントｖ_ｉへの接続が存在する各情報供給エージェントｖ_ｊに対して、各情報供給エージェントｖ_ｊとの間に対応づけられた重みｗ_ｉｊｔに基づく入札額で入札を行う。本実施形態に係る各エージェント内の入札処理部２５０は、図６の２行目に示したように、一例として重みの絶対値｜ｗ_ｉｊｔ｜による入札を行ってよい。

Ｓ７２０（図９の３行目に対応）において、入札を受けた各エージェント内の応札処理部２６０は、入札に成功する情報消費エージェトから得られる対価の合計額が最大となる最適落札額を決定する。ここで、応札処理部２６０は、式（１５）により落札額を決定してよい。応札処理部２６０は、決定した落札額を接続先の各情報消費エージェントに通知する。

Ｓ７３０（図９の４行目に対応）において、情報消費エージェントｖ_ｊ内の入札処理部２５０は、情報供給エージェントｖ_ｉから受け取った落札額ｑ＾_ｉｔが自己の入札額ｂ_ｊｉｔ以上か否かを判定し、落札結果の一例として割当ｇ_ｊｉｔを式（１０）により算出する。情報供給エージェントｖｉ内の応札処理部２６０は、同様にして各情報供給エージェントｖ_ｊに対する落札結果（一例として割当ｇ_ｊｉｔ）を算出する。

Ｓ７３２（図９の５行目に対応）において、情報消費エージェントｖ_ｊ内の入札処理部２５０は、落札結果ｇ_ｊｉｔおよび受け取った落札額ｑ＾_ｉｔに基づいて、情報供給エージェントｖ_ｉに対して支払う対価を決定する。入札処理部２５０は、式（１２）に基づいてこの対価を決定してよい。

Ｓ７３７（図９の６行目に対応）において、情報消費エージェントｖ_ｊ内の入札処理部２５０は、情報供給エージェントｖ_ｉに対して対価ρ_ｊｉｔを支払う処理を行う。これにより、情報供給エージェントｖ_ｉの報酬Ｒ_ｉｔは対価分増加し、情報消費エージェントｖ_ｊの報酬Ｒ_ｊｔは対価分減少する。

Ｓ７４０（図９の７行目に対応）において、複数のエージェントの情報処理部２１０は、スイッチングマトリックスＵ_ｔのサンプリングを行う。各エージェントの情報処理部２１０は、スイッチングマトリックスＵ_ｔ全体のうち、情報供給エージェントから自エージェントへのリンクに対応する行列要素のサンプリングを担当してよい。本変形例におけるマルチエージェント環境１０は、非特許文献５および６を応用して、エージェント間のリンクが確率的にマスクされるエージェントネットワークを採用する。スイッチングマトリックスＵ_ｔは、各エージェントｖ_ｊから各エージェントｖ_ｉへのリンクのそれぞれについて、Ｓ７５０で生成するランダムマスクを用いて確率的にマスクするか、リンクをマスクせず割当ｇ_ｉｊｔに基づいて情報ｘ_ｊを利用可能とするかを選択する選択値を含む。複数のエージェントの情報処理部２１０は、各エージェントｖ_ｊから各エージェントｖ_ｉへのリンクのそれぞれについて、乱数を生成し、確率ε（０＜ε＜１）でスイッチングマトリックスＵ_ｔにおけるｉ行ｊ列の要素を１とし、それ以外の場合にその要素を０とする。

Ｓ７５０（図９の８行目に対応）において、複数のエージェントの情報処理部２１０は、ランダムマスクマトリックスＭ_ｔのサンプリングを行う。各エージェントの情報処理部２１０は、ランダムマスクマトリックスＭ_ｔ全体のうち、情報供給エージェントから自エージェントへのリンクに対応する行列要素のサンプリングを担当してよい。複数のエージェントの情報処理部２１０は、各エージェントｖ_ｊから各エージェントｖ_ｉへのリンクのそれぞれについて、乱数を生成し、予め定められた確率（例えば１／２）でランダムマスクマトリックスＭ_ｔにおけるｉ行ｊ列の要素を１とし、それ以外の場合にその要素を０とする。

Ｓ７６０（図９の９行目に対応）において、複数のエージェントの情報処理部２１０は、アダプティブマスクマトリックスＭ'_ｔを生成する。各エージェントの情報処理部２１０は、アダプティブマスクマトリックスＭ'_ｔ全体のうち、情報供給エージェントから自エージェントへのリンクに対応する行列要素の生成を担当してよい。複数のエージェントの情報処理部２１０は、スイッチングマトリックスＵ_ｔの各要素が１の場合にランダムマスクマトリックスＭ_ｔの対応する要素を選択し（Ｕ_ｔおよびＭ_ｔの対応する要素毎の積）、０の場合に割当マトリックスＧ_ｔの対応する要素（（１－Ｕ_ｔ）およびＧ_ｔの対応する要素毎の積）を選択する。ここで、割当マトリックスＧ_ｔは、ｉ行ｊ列の要素として割当ｇ_ｉｊｔを有する。

Ｓ７７０（図９の１０行目に対応）において、複数のエージェントの情報処理部２１０は、アダプティブマスクマトリックスＭ'_ｔ、重み、およびバイアスを用いて、出力する情報を生成する。各エージェントの情報処理部２１０は、自エージェントが出力する情報の計算を担当してよい。複数のエージェントの情報処理部２１０は、アダプティブマスクマトリックスＭ'_ｔと重みマトリックスＷ_ｔとの要素毎の積に、複数の情報供給エージェントからの情報を含むベクトルｘ_ｔを乗じて、複数のエージェントが有するバイアス値を含むバイアスベクトルｂｉａｓ_ｔを加えることにより、複数のエージェントが出力する情報のベクトルｈ_ｔを算出する。各エージェントの情報処理部２１０は、上記により算出した情報の値を出力する情報としてもよく、更にシグモイド関数、ｔａｎｈ関数等の出力関数により変換して出力する情報を生成してもよい。

情報供給エージェントｖ_ｉ内の情報送信部２２０は、入札に成功した情報消費エージェントｖ_ｊに対して、情報供給エージェントｖ_ｉ内の情報処理部２１０が生成した情報を発送する。ここで、情報送信部２２０は、入札が失敗した情報消費エージェントｖ_ｊに対しては、図６の８行目と同様にダミー情報を発送してもよい。

Ｓ７８０（図９の１１行目に対応）において、複数のエージェントの情報処理部２１０は、エージェントネットワークの学習を行う。本変形例において、複数のエージェント内の情報処理部２１０は、ニューラルネットワークにおけるバックプロパゲーションと同様にして、エージェントネットワーク内で情報消費側のエージェントから情報供給側のエージェントへと情報の誤差を逆伝播させ、受け取った誤差に基づいて重み（重みマトリックスＷ_ｔ）およびバイアス（ｂｉａｓ_ｔ）を更新してよい。

なお、図８～９においては、説明の便宜上マルチエージェント環境１０全体の動作フローおよび動作アルゴリズムを示したが、マルチエージェント環境１０内の複数のエージェントは、それぞれが上記の動作フローおよび動作アルゴリズムにおける各エージェントの担当部分を他のエージェントと並列または並行して実行してもよい。

本変形例に係るマルチエージェント環境１０によれば、複数の事業者が運営する複数のエージェントを組み合わせて、ニューラルネットワークのように機能するエージェントネットワークを実現することができる。そして、マルチエージェント環境１０内の複数のエージェントのそれぞれは、各情報供給エージェントからの情報提供の対価として、各情報供給エージェントとの間に割り当てられた重みの大きさに応じた報酬（または重みの大きさに応じた入札額に基づいて決定された落札額の報酬）を支払う処理を行う。ここで、情報供給エージェントとの間の重みが大きいほど対象エージェントが出力する情報に与える影響度が高くなることから、重みが大きいほど対象エージェントが出力する情報における寄与度が高くなるといえる。したがって、重みに応じた報酬分配スキームは、複数のエージェントを運営する複数の事業者にとって、納得性が高くなる。

図９の２行目においては、重みの大きさ｜Ｗ_ｉｊｔ｜を入札額ｂ_ｉｊｔとしているが、価格判定部２４０または入札処理部２５０は、重みに基づく情報の価格または入札額を、他の計算により決定してもよい。例えば、価格判定部２４０または入札処理部２５０は、重みの大きさに定数を乗じた値に応じて情報の価格等を決定してもよく、正規化した重みの大きさ（例えば（対象となる重みの大きさ）／（対象エージェントおよび各情報供給エージェントの間の全ての重みの大きさの和））に対象エージェントが受け取ると推定される仮想報酬を乗じた値に応じて情報の価格等を決定してもよい。また、価格判定部２４０または入札処理部２５０は、上記のようにして求めた額に予め定められた定額を加算または減算して情報の価格等を決定してもよい。

なお、図７～９は、マルチエージェント環境１０における構成および動作を示したが、図７～９の構成および動作は、複数のエージェントのそれぞれを１つのニューロン等の構成部品とし全体が１つの事業者等によって運営されるシングルエージェント環境にも適用することができる。

本発明の様々な実施形態は、フローチャートおよびブロック図を参照して記載されてよく、ここにおいてブロックは、（１）操作が実行されるプロセスの段階または（２）操作を実行する役割を持つ装置のセクションを表わしてよい。特定の段階およびセクションが、専用回路、コンピュータ可読媒体上に格納されるコンピュータ可読命令と共に供給されるプログラマブル回路、および／またはコンピュータ可読媒体上に格納されるコンピュータ可読命令と共に供給されるプロセッサによって実装されてよい。専用回路は、デジタルおよび／またはアナログハードウェア回路を含んでよく、集積回路（ＩＣ）および／またはディスクリート回路を含んでよい。プログラマブル回路は、論理ＡＮＤ、論理ＯＲ、論理ＸＯＲ、論理ＮＡＮＤ、論理ＮＯＲ、および他の論理操作、フリップフロップ、レジスタ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブルロジックアレイ（ＰＬＡ）等のようなメモリ要素等を含む、再構成可能なハードウェア回路を含んでよい。

コンピュータ可読媒体は、適切なデバイスによって実行される命令を格納可能な任意の有形なデバイスを含んでよく、その結果、そこに格納される命令を有するコンピュータ可読媒体は、フローチャートまたはブロック図で指定された操作を実行するための手段を作成すべく実行され得る命令を含む、製品を備えることになる。コンピュータ可読媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体等が含まれてよい。コンピュータ可読媒体のより具体的な例としては、フロッピー（登録商標）ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、コンパクトディスクリードオンリメモリ（ＣＤ-ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（ＲＴＭ）ディスク、メモリスティック、集積回路カード等が含まれてよい。

コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ、ＪＡＶＡ（登録商標）、Ｃ＋＋等のようなオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語または同様のプログラミング言語のような従来の手続型プログラミング言語を含む、１または複数のプログラミング言語の任意の組み合わせで記述されたソースコードまたはオブジェクトコードのいずれかを含んでよい。

コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサまたはプログラマブル回路に対し、ローカルにまたはローカルエリアネットワーク（ＬＡＮ）、インターネット等のようなワイドエリアネットワーク（ＷＡＮ）を介して提供され、フローチャートまたはブロック図で指定された操作を実行するための手段を作成すべく、コンピュータ可読命令を実行してよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラ等を含む。

図１０は、本発明の複数の態様が全体的または部分的に具現化されてよいコンピュータ２２００の例を示す。コンピュータ２２００にインストールされたプログラムは、コンピュータ２２００に、本発明の実施形態に係る装置に関連付けられる操作または当該装置の１または複数のセクションとして機能させることができ、または当該操作または当該１または複数のセクションを実行させることができ、および／またはコンピュータ２２００に、本発明の実施形態に係るプロセスまたは当該プロセスの段階を実行させることができる。そのようなプログラムは、コンピュータ２２００に、本明細書に記載のフローチャートおよびブロック図のブロックのうちのいくつかまたはすべてに関連付けられた特定の操作を実行させるべく、ＣＰＵ２２１２によって実行されてよい。

本実施形態によるコンピュータ２２００は、ＣＰＵ２２１２、ＲＡＭ２２１４、グラフィックコントローラ２２１６、およびディスプレイデバイス２２１８を含み、それらはホストコントローラ２２１０によって相互に接続されている。コンピュータ２２００はまた、通信インターフェイス２２２２、ハードディスクドライブ２２２４、ＤＶＤ－ＲＯＭドライブ２２２６、およびＩＣカードドライブのような入／出力ユニットを含み、それらは入／出力コントローラ２２２０を介してホストコントローラ２２１０に接続されている。コンピュータはまた、ＲＯＭ２２３０およびキーボード２２４２のようなレガシの入／出力ユニットを含み、それらは入／出力チップ２２４０を介して入／出力コントローラ２２２０に接続されている。

ＣＰＵ２２１２は、ＲＯＭ２２３０およびＲＡＭ２２１４内に格納されたプログラムに従い動作し、それにより各ユニットを制御する。グラフィックコントローラ２２１６は、ＲＡＭ２２１４内に提供されるフレームバッファ等またはそれ自体の中にＣＰＵ２２１２によって生成されたイメージデータを取得し、イメージデータがディスプレイデバイス２２１８上に表示されるようにする。

通信インターフェイス２２２２は、ネットワークを介して他の電子デバイスと通信する。ハードディスクドライブ２２２４は、コンピュータ２２００内のＣＰＵ２２１２によって使用されるプログラムおよびデータを格納する。ＤＶＤ－ＲＯＭドライブ２２２６は、プログラムまたはデータをＤＶＤ－ＲＯＭ２２０１から読み取り、ハードディスクドライブ２２２４にＲＡＭ２２１４を介してプログラムまたはデータを提供する。ＩＣカードドライブは、プログラムおよびデータをＩＣカードから読み取り、および／またはプログラムおよびデータをＩＣカードに書き込む。

ＲＯＭ２２３０はその中に、アクティブ化時にコンピュータ２２００によって実行されるブートプログラム等、および／またはコンピュータ２２００のハードウェアに依存するプログラムを格納する。入／出力チップ２２４０はまた、様々な入／出力ユニットをパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して、入／出力コントローラ２２２０に接続してよい。

プログラムが、ＤＶＤ－ＲＯＭ２２０１またはＩＣカードのようなコンピュータ可読媒体によって提供される。プログラムは、コンピュータ可読媒体から読み取られ、コンピュータ可読媒体の例でもあるハードディスクドライブ２２２４、ＲＡＭ２２１４、またはＲＯＭ２２３０にインストールされ、ＣＰＵ２２１２によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ２２００に読み取られ、プログラムと、上記様々なタイプのハードウェアリソースとの間の連携をもたらす。装置または方法が、コンピュータ２２００の使用に従い情報の操作または処理を実現することによって構成されてよい。

例えば、通信がコンピュータ２２００および外部デバイス間で実行される場合、ＣＰＵ２２１２は、ＲＡＭ２２１４にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インターフェイス２２２２に対し、通信処理を命令してよい。通信インターフェイス２２２２は、ＣＰＵ２２１２の制御下、ＲＡＭ２２１４、ハードディスクドライブ２２２４、ＤＶＤ－ＲＯＭ２２０１、またはＩＣカードのような記録媒体内に提供される送信バッファ処理領域に格納された送信データを読み取り、読み取られた送信データをネットワークに送信し、またはネットワークから受信された受信データを記録媒体上に提供される受信バッファ処理領域等に書き込む。

また、ＣＰＵ２２１２は、ハードディスクドライブ２２２４、ＤＶＤ－ＲＯＭドライブ２２２６（ＤＶＤ－ＲＯＭ２２０１）、ＩＣカード等のような外部記録媒体に格納されたファイルまたはデータベースの全部または必要な部分がＲＡＭ２２１４に読み取られるようにし、ＲＡＭ２２１４上のデータに対し様々なタイプの処理を実行してよい。ＣＰＵ２２１２は次に、処理されたデータを外部記録媒体にライトバックする。

様々なタイプのプログラム、データ、テーブル、およびデータベースのような様々なタイプの情報が記録媒体に格納され、情報処理を受けてよい。ＣＰＵ２２１２は、ＲＡＭ２２１４から読み取られたデータに対し、本開示の随所に記載され、プログラムの命令シーケンスによって指定される様々なタイプの操作、情報処理、条件判断、条件分岐、無条件分岐、情報の検索／置換等を含む、様々なタイプの処理を実行してよく、結果をＲＡＭ２２１４に対しライトバックする。また、ＣＰＵ２２１２は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第２の属性の属性値に関連付けられた第１の属性の属性値を有する複数のエントリが記録媒体内に格納される場合、ＣＰＵ２２１２は、第１の属性の属性値が指定される、条件に一致するエントリを当該複数のエントリの中から検索し、当該エントリ内に格納された第２の属性の属性値を読み取り、それにより予め定められた条件を満たす第１の属性に関連付けられた第２の属性の属性値を取得してよい。

上で説明したプログラムまたはソフトウェアモジュールは、コンピュータ２２００上またはコンピュータ２２００近傍のコンピュータ可読媒体に格納されてよい。また、専用通信ネットワークまたはインターネットに接続されたサーバーシステム内に提供されるハードディスクまたはＲＡＭのような記録媒体が、コンピュータ可読媒体として使用可能であり、それによりプログラムを、ネットワークを介してコンピュータ２２００に提供する。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。

１０マルチエージェント環境
１００ａ～ｃ情報ソース
１１０ａ～ｃ特徴抽出装置
１２０ａ～ｆエージェント
１３０ａ～ｂ情報利用装置
１４０プラットフォーム
２００情報受信部
２１０情報処理部
２２０情報送信部
２３０仮想収益推定部
２４０価格判定部
２５０入札処理部
２６０応札処理部
７３５重み取得部
２２００コンピュータ
２２０１ＤＶＤ－ＲＯＭ
２２１０ホストコントローラ
２２１２ＣＰＵ
２２１４ＲＡＭ
２２１６グラフィックコントローラ
２２１８ディスプレイデバイス
２２２０入／出力コントローラ
２２２２通信インターフェイス
２２２４ハードディスクドライブ
２２２６ＤＶＤ－ＲＯＭドライブ
２２３０ＲＯＭ
２２４０入／出力チップ
２２４２キーボード

Claims

対象エージェントが、複数の情報供給エージェントの少なくとも１つから受け取る情報に基づいて生成した情報を１または複数の情報消費エージェントに提供して報酬を得る環境において、前記複数の情報供給エージェントのそれぞれから受け取る情報を利用した場合および少なくとも一部を利用できなかった場合に前記対象エージェントが得た報酬に基づいて、前記複数の情報供給エージェントのそれぞれが提供する情報によって得られる仮想収益を推定する仮想収益推定部と、
前記複数の情報供給エージェントのそれぞれに関する前記仮想収益に基づいて、前記複数の情報供給エージェントに対する情報の価格を判定する価格判定部と
を備え、
前記価格判定部は、前記複数の情報供給エージェントのそれぞれに関する前記仮想収益に基づく入札額で、前記複数の情報供給エージェントのそれぞれの情報提供に対して入札を行う入札処理部を有し、
前記入札処理部は、前記複数の情報供給エージェントのうち一の情報供給エージェントが決定した落札額が前記一の情報供給エージェントに対する入札額以下であったことに応じて、前記一の情報供給エージェントが決定した価格を前記一の情報供給エージェントに対する情報の価格として決定する
装置。
前記対象エージェントは、前記複数の情報供給エージェントのうち一の情報供給エージェントへの入札が失敗したことに応じて、前記一の情報供給エージェントが提供する情報の少なくとも一部を利用せずに処理を行って報酬を得る請求項１に記載の装置。
前記価格判定部は、前記１または複数の情報消費エージェントからの入札に応じて前記対象エージェントが生成する情報の落札額を決定する応札処理部を有する請求項１または２に記載の装置。
前記応札処理部は、前記１または複数の情報消費エージェントのうち入札に成功した情報消費エージェントから得られる対価の合計額が最大となる価格を、前記対象エージェントが生成する情報の落札額として決定する請求項３に記載の装置。
前記仮想収益推定部は、前記複数の情報供給エージェントのうち第１情報供給エージェントからの情報を利用した場合に前記対象エージェントが得る報酬と、前記第１情報供給エージェントからの情報の少なくとも一部が利用できなかった場合に前記対象エージェントが得る報酬とに基づいて、前記第１情報供給エージェントに関する前記仮想収益を推定する請求項１から４のいずれか一項に記載の装置。
前記仮想収益推定部は、
前記第１情報供給エージェントからの情報を利用した場合に前記対象エージェントが得た報酬を用いて、前記第１情報供給エージェントからの情報を利用した場合に得られると推定される第１仮想報酬を更新し、
前記第１情報供給エージェントからの情報の少なくとも一部が利用できなかった場合に前記対象エージェントが得た報酬を用いて、前記第１情報供給エージェントからの情報の少なくとも一部を利用できない場合に得られると推定される第２仮想報酬を更新し、
前記第１仮想報酬および前記第２仮想報酬の差に基づいて、前記第１情報供給エージェントに関する前記仮想収益を算出する
請求項５に記載の装置。
対象エージェントが、複数の情報供給エージェントの少なくとも１つから受け取る情報に基づいて生成した情報を１または複数の情報消費エージェントに提供して報酬を得る環境において、コンピュータが、前記複数の情報供給エージェントのそれぞれから受け取る情報を利用した場合および少なくとも一部を利用できなかった場合に前記対象エージェントが得た報酬に基づいて、前記複数の情報供給エージェントのそれぞれが提供する情報によって得られる仮想収益を推定し、
前記コンピュータが、前記複数の情報供給エージェントのそれぞれに関する前記仮想収益に基づいて、前記複数の情報供給エージェントに対する情報の価格を判定し、
前記判定において、前記複数の情報供給エージェントのそれぞれに関する前記仮想収益に基づく入札額で、前記複数の情報供給エージェントのそれぞれの情報提供に対して入札を行い、
前記入札において、前記複数の情報供給エージェントのうち一の情報供給エージェントが決定した落札額が前記一の情報供給エージェントに対する入札額以下であったことに応じて、前記一の情報供給エージェントが決定した価格を前記一の情報供給エージェントに対する情報の価格として決定する
方法。
コンピュータにより実行され、前記コンピュータを、
対象エージェントが、複数の情報供給エージェントの少なくとも１つから受け取る情報に基づいて生成した情報を１または複数の情報消費エージェントに提供して報酬を得る環境において、前記複数の情報供給エージェントのそれぞれから受け取る情報を利用した場合および少なくとも一部を利用できなかった場合に前記対象エージェントが得た報酬に基づいて、前記複数の情報供給エージェントのそれぞれが提供する情報によって得られる仮想収益を推定する仮想収益推定部と、
前記複数の情報供給エージェントのそれぞれに関する前記仮想収益に基づいて、前記複数の情報供給エージェントに対する情報の価格を判定する価格判定部と
して機能させ、
前記価格判定部は、前記複数の情報供給エージェントのそれぞれに関する前記仮想収益に基づく入札額で、前記複数の情報供給エージェントのそれぞれの情報提供に対して入札を行う入札処理部を有し、
前記入札処理部は、前記複数の情報供給エージェントのうち一の情報供給エージェントが決定した落札額が前記一の情報供給エージェントに対する入札額以下であったことに応じて、前記一の情報供給エージェントが決定した価格を前記一の情報供給エージェントに対する情報の価格として決定する
プログラム。