JP7048893B2

JP7048893B2 - 学習装置、学習方法及びコンピュータプログラム

Info

Publication number: JP7048893B2
Application number: JP2018140113A
Authority: JP
Inventors: 陽平片山
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-07-26
Filing date: 2018-07-26
Publication date: 2022-04-06
Anticipated expiration: 2038-07-26
Also published as: US20210295214A1; WO2020021962A1; JP2020017104A

Description

本発明は、学習装置、学習方法及びコンピュータプログラムに関する。

自システムが過去に選択した処理の結果を繰り返し評価することにより、評価の高い処理を選択するポリシー（以下「制御選択ポリシー」という。）を生成（学習）する枠組みとして、強化学習が考案されている（非特許文献１参照）。以下、強化学習を実行するシステムを強化学習システムという。強化学習において、制御選択ポリシーの精度を高めるためには、強化学習システムによる学習回数を増やす必要がある。なお、制御選択ポリシーの精度とは、強化学習システムにおいて評価の高い処理が選択される確率を意味する。すなわち、評価の高い処理が選択される確率が高いほど、かつ、それらの処理の結果に対する評価が高いほど、精度が高いことを意味する。

牧野貴樹、他、「これからの強化学習」、森北出版、２０１６年１０月３１日第１版第１刷発行

一般に、強化学習においては、報酬と言われる値が存在する。報酬は、強化学習システムが過去に実行した処理の結果に対する評価を示す値である。ゲームの勝ち負けのように評価基準が明確な場合、強化学習システムが報酬の値を決定することは容易であるが、嗜好品の良し悪しの判定のようにヒトの感性に近い評価基準が求められる場合には強化学習システムが報酬の値を決定することは容易でない。そのため、従来の強化学習システムでは、強化学習システムの設計者が報酬と制御選択ポリシーの精度との関係を観測し、設計者自身の感性に基づいて学習結果を評価することによって、精度の高い制御選択ポリシーを生成する。より具体的には、従来の強化学習システムでは、設計者が、精度の制御選択ポリシーによって選択された処理の結果に基づいて報酬を決める報酬関数と、制御選択ポリシーとの組み合わせを学習によって更新することで、高い制御選択ポリシーが生成されていた（図８参照）。そのため、設計者は、所望の制御選択ポリシーが生成されるまで、学習のたびに報酬と制御選択ポリシーの精度との関係を観測する必要があり、制御選択ポリシーの精度の高さに応じて、設計者の労力が増大する場合があった。

上記事情に鑑み、本発明は、ヒトの感性に近い評価基準が求められる強化学習において、制御選択ポリシーの生成に要する設計者の労力の増大を抑制することができる学習装置、学習方法及びコンピュータプログラムを提供することにある。

本発明の一態様は、所定の環境に対する被験者の生体反応を示す情報である生体情報を取得する生体情報取得部と、前記環境に対する前記被験者の感情を示す情報である感情情報を取得する感情情報取得部と、前記被験者に作用する前記環境の属性を示す情報である環境情報を取得する第１環境情報取得部と、前記生体情報、前記感情情報及び前記環境情報に基づいて、前記生体情報と、前記感情情報と、前記環境情報との間の関係性を機械学習によって学習する関係性情報学習部と、を備える学習装置である。

本発明の一態様は、所定の環境に作用する出力部と、前記出力部の動作を制御する制御部と、前記環境の属性を示す情報である環境情報を取得する第２環境情報取得部と、前記環境に対する被験者の生体反応を示す情報である生体情報と、前記生体情報と一対一の関係にある情報であって前記被験者に作用する所定の環境の属性を示す情報である環境情報と、前記生体情報と一対一の関係にある情報であって前記環境に対する前記被験者の感情を示す情報である感情情報と、の間の関係性を示す関係性情報であって、予め自装置に記憶された前記関係性情報と、前記出力部によって作用された前記環境の属性を示す環境情報とに基づいて、前記感情情報に基づいて表される前記被験者の感情の大きさを示す数値を出力する報酬出力部と、を備え、前記制御部は、前記数値に基づいて前記出力部の動作を制御するための制御パラメータの値を更新する学習装置である。

本発明の一態様は、所定の環境に対する被験者の生体反応を示す情報である生体情報を取得する生体情報取得部と、前記環境に対する前記被験者の感情を示す情報である感情情報を取得する感情情報取得部と、前記被験者に作用する所定の環境の属性を示す情報である環境情報を取得する第１環境情報取得部と、前記生体情報と、前記感情情報と、前記環境情報とに基づいて、前記生体情報と、前記感情情報と、前記環境情報との間の関係性を機械学習によって学習する関係性情報学習部と、前記出力部の動作を制御する制御部と、前記生体情報と、前記環境情報と、前記感情情報と、の間の一対一の関係性を示す情報であって、予め自装置に記憶された情報である関係性情報と、前記出力部によって作用された前記環境の属性を示す環境情報とに基づいて、前記感情情報に基づいて表される前記被験者の感情の大きさを示す数値を出力する報酬出力部と、を備え、前記制御部は、前記数値に基づいて、前記出力部の動作を制御するための制御パラメータの値を更新する学習装置である。

本発明の一態様は、上記の学習装置であって、前記関係性情報学習部は、さらに、前記感情情報との間に所定の強さ以上の相関がある前記生体情報と、前記感情情報との間の関係性を学習する。

本発明の一態様は、所定の環境に対する被験者の生体反応を示す情報である生体情報を取得する生体情報取得ステップと、前記環境に対する前記被験者の感情を示す情報である感情情報を取得する感情情報取得ステップと、前記被験者に作用する前記環境の属性を示す情報である環境情報を取得する第１環境情報取得ステップと、前記生体情報、前記感情情報及び前記環境情報に基づいて、前記生体情報と、前記感情情報と、前記環境情報との間の関係性を機械学習によって学習する関係性情報学習ステップと、を有する学習方法である。

本発明の一態様は、所定の環境に作用する出力部の動作を制御する制御ステップと、前記環境の属性を示す情報である環境情報を取得する第２環境情報取得ステップと、前記環境に対する被験者の生体反応を示す情報である生体情報と、前記生体情報と一対一の関係にある情報であって前記被験者に作用する所定の環境の属性を示す情報である環境情報と、前記生体情報と一対一の関係にある情報であって前記環境に対する前記被験者の感情を示す情報である感情情報と、の間の関係性を示す関係性情報であって、予め自装置に記憶された前記関係性情報と、前記出力部によって作用された前記環境の属性を示す環境情報とに基づいて、前記感情情報に基づいて表される前記被験者の感情の大きさを示す数値を出力する報酬出力ステップと、を有し、前記制御ステップにおいて、前記数値に基づいて前記出力部の動作を制御するための制御パラメータの値が更新される、学習方法である。

本発明の一態様は、所定の環境に対する被験者の生体反応を示す情報である生体情報を取得する生体情報取得ステップと、前記環境に対する前記被験者の感情を示す情報である感情情報を取得する感情情報取得ステップと、前記被験者に作用する所定の環境の属性を示す情報である環境情報を取得する第１環境情報取得ステップと、前記生体情報と、前記感情情報と、前記環境情報とに基づいて、前記生体情報と、前記感情情報と、前記環境情報との間の関係性を機械学習によって学習する関係性情報学習ステップと、前記環境に作用する出力部の動作を制御する制御ステップと、前記生体情報と、前記環境情報と、前記感情情報と、の間の一対一の関係性を示す情報であって、予め自装置に記憶された情報である関係性情報と、前記出力部によって作用された前記環境の属性を示す環境情報とに基づいて、前記感情情報に基づいて表される前記被験者の感情の大きさを示す数値を出力する報酬出力ステップと、を有し、前記制御ステップにおいて、前記数値に基づいて、前記出力部の動作を制御するための制御パラメータの値が更新される、学習方法である。

本発明の一態様は、上記の学習装置としてコンピュータを機能させるためのコンピュータプログラムである。

本発明により、ヒトの感性に近い評価基準が求められる場合に、制御選択ポリシーの生成に要する設計者の労力の増大を抑制することが可能となる。

第１の実施形態の学習システム１のシステム構成の具体例を示す図。第１の実施形態における第１学習装置１０の具体的な処理の流れを示すフローチャート。第１の実施形態における第２学習装置２０の具体的な処理の流れを示すフローチャート。第１の実施形態の学習システム１を料理ロボットによる料理の学習に適用した場合の適用例を示す図。第２の実施形態の学習システム１ａのシステム構成の具体例を示す図。第２の実施形態における第３学習装置３０の具体的な処理の流れを示すフローチャート。第２の実施形態の学習システム１ａを、画像表示装置による表示画面の制御の学習に適用した場合の適用例を示す図。従来例の学習システムの具体例を示す図。

（第１の実施形態）
図１は、第１の実施形態の学習システム１のシステム構成の具体例を示す図である。
学習システム１は、第１学習装置１０及び第２学習装置２０を備える。
第１学習装置１０は、環境情報、生体情報及び感情情報を取得する。環境情報は、学習システム１の被験者に作用する所定の環境の属性を示す情報である。生体情報は、所定の環境に対する被験者の生体反応を示す情報である。感情情報は、環境に対する被験者の感情を示す情報である。
第１学習装置１０は、取得した環境情報、生体情報及び感情情報に基づいて、環境情報と生体情報と感情情報との間の関係性を学習する。なお、環境情報と、生体情報と、感情情報とは一対一の関係にある。
なお、被験者に作用する所定の環境は、どのような環境であってもよい。被験者に作用する所定の環境は、例えば、被験者の周囲の空気であってもよい。被験者に作用する所定の環境は、例えば、料理であってもよい。感情情報は、どのような感情を示してもよい。感情情報は、例えば、好き嫌いを示す情報であってもよい。
第１学習装置１０は、学習結果である、環境情報と生体情報と感情情報との間の関係性を示す情報（以下「関係性情報」という。）を第２学習装置２０に出力する。なお、関係性情報は、報酬関数の一例である。

第２学習装置２０は、環境に作用する。環境に作用するとは、具体的には、第２学習装置２０が環境に変化を与えることを意味する。第２学習装置２０は、予め、第１学習装置１０が学習した関係性情報を記憶する。第２学習装置２０は、強化学習データを記憶する。強化学習データは、第２学習装置２０による環境に作用する動作を制御する制御パラメータの値である。強化学習データは、第２学習装置２０によって所定のタイミングに更新される値である。
第２学習装置２０は、環境情報を取得する。第２学習装置２０は、取得した環境情報と、関係性情報と、強化学習データの現在値とに基づいて、強化学習データを更新する。第２学習装置２０は、強化学習データに応じた所定の動作を実行し、環境に作用する。なお、現在値は、更新直前の値を意味する。以下、強化学習データに応じた所定の動作であって、環境に作用する所定の動作を作用動作という。

第１学習装置１０は、バスで接続されたＣＰＵ（Central Processing Unit）やＲＡＭ（Random Access Memory）や第１補助記憶装置１０１などを備え、プログラムを実行する。第１学習装置１０は、プログラムの実行によって生体情報取得部１０２、第１入力トランスデューサ１０３、感情情報取得部１０４及び関係性情報学習部１０５を備える装置として機能する。

第１補助記憶装置１０１は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。第１補助記憶装置１０１は関係性情報を記憶する。関係性情報が、例えば、数値環境情報、数値生体情報及び数値感情情報の間の関係性を表す情報であって、所定の単項式又は多項式である場合、第１補助記憶装置１０１は、所定の単項式又は多項式や、所定の単項式又は多項式の係数を記憶する。数値環境情報は、所定の規則によって環境情報が示す内容を表す値である。数値生体情報は、所定の規則によって生体情報が示す内容を表す値である。数値感情情報は、所定の規則によって感情情報に基づいて表される被験者の感情の大きさを示す数値である。数値感情情報は、例えば、好きを＋１で表し、嫌いを（－１）で表す。

生体情報取得部１０２は、生体情報を取得する。生体情報取得部１０２は、被験者の生体反応に関する所定の情報を取得可能であればどのようなものであってもよい。生体情報取得部１０２は、例えば、生体反応に関する所定の情報が体温の変化を示す情報であれば、体温計であってもよい。生体情報取得部１０２は、例えば、生体反応に関する所定の情報が瞳孔の開き具合を示す情報であれば、カメラであってもよい。生体情報取得部１０２は、例えば、生体反応に関する所定の情報が味覚に関する情報であれば、味覚センサであってもよい。生体情報取得部１０２は、例えば、生体反応に関する所定の情報が脳波を示す情報であれば、脳波計であってもよい。生体情報取得部１０２は、例えば、生体反応に関する所定の情報が血圧の変化を示す情報であれば、血圧計であってもよい。生体情報取得部１０２は、例えば、生体反応に関する所定の情報が眼球運動に関する情報であれば、眼球運動計測器であってもよい。生体情報取得部１０２は、例えば、生体反応に関する所定の情報が心拍数を示す情報であれば、心拍計であってもよい。
生体情報取得部１０２は、取得した生体情報を示す信号を生成する。生体情報取得部１０２が生成する信号は、取得した生体情報を示す信号であればどのような信号であってもよく、電気信号であってもよいし、光信号であってもよい。

第１入力トランスデューサ１０３は、環境情報を取得する。第１入力トランスデューサ１０３は、被験者に作用する環境に関する所定の情報を取得可能であればどのようなものであってもよい。第１入力トランスデューサ１０３は、例えば、環境に関する所定の情報が気温を示す情報であれば、温度計であってもよい。第１入力トランスデューサ１０３は、例えば、環境に関する所定の情報が気圧を示す情報であれば、圧力計であってもよい。第１入力トランスデューサ１０３は、例えば、環境に関する所定の情報が湿度を示す情報であれば、湿度計であってもよい。第１入力トランスデューサ１０３は、例えば、環境が料理であって、環境に関する所定の情報が塩分濃度であれば、塩分濃度計であってもよい。第１入力トランスデューサ１０３は、例えば、環境が料理であって、環境に関する所定の情報が糖度であれば、糖度計であってもよい。
第１入力トランスデューサ１０３は、取得した環境情報を示す信号を生成する。第１入力トランスデューサ１０３が生成する信号は、取得した環境情報を示す信号であればどのような信号であってもよく、電気信号であってもよいし、光信号であってもよい。

感情情報取得部１０４は、感情情報を取得する。感情情報取得部１０４は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。感情情報取得部１０４は、これらの入力装置を自装置に接続するインタフェースとして構成されてもよい。感情情報取得部１０４は、自装置に対する感情情報の入力を受け付ける。

関係性情報学習部１０５は、生体情報、環境情報及び感情情報に基づいて、関係性情報を機械学習によって学習する。関係性情報学習部１０５が関係性情報を機械学習によって学習するとは、具体的には、関係性情報が、数値環境情報、数値生体情報及び数値感情情報の間の関係性を表す情報であって所定の単項式又は多項式である場合に、数値環境情報、数値生体情報及び数値感情情報に基づいて、関係性情報学習部１０５が単項式又は多項式の係数を機械学習によって決定することを意味する。

なお、数値環境情報は、環境情報に基づいてどのように取得されてもよい。数値環境情報は、例えば、第１入力トランスデューサ１０３によって環境情報が示す内容が所定の規則によって数値化されることで取得されてもよい。
なお、数値生体情報は、生体情報に基づいてどのように取得されてもよい。数値生体情報は、例えば、生体情報取得部１０２によって生体情報が示す内容が所定の規則によって数値化されることで取得されてもよい。
なお、数値感情情報は、感情情報に基づいてどのように取得されてもよい。数値感情情報は、例えば、感情情報取得部１０４によって感情情報が示す内容が所定の規則によって数値化されることで取得されてもよい。

第２学習装置２０は、バスで接続されたＣＰＵ（Central Processing Unit）やＲＡＭ（Random Access Memory）や第２補助記憶装置２０１などを備え、プログラムを実行する。第２学習装置２０は、プログラムの実行によって第２入力トランスデューサ２０２、出力トランスデューサ２０３、報酬出力部２０４及び学習制御部２０５を備える装置として機能する。

第２補助記憶装置２０１は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。第２補助記憶装置２０１は関係性情報、制御選択ポリシー及び強化学習データを記憶する。制御選択ポリシーは、強化学習データの現在値を用いて、強化学習データの現在値に応じた作用動作を第２学習装置２０に実行させるプログラムである。制御選択ポリシーは、強化学習データの現在値に応じた作用動作を第２学習装置２０に実行させるプログラムであればどのようなプログラムであってもよい。制御選択ポリシーは、例えば、強化学習データの現在値を後述する出力トランスデューサ２０３を制御する制御パラメータに変換する変換式であってもよい。このような場合、変換式は、例えば、強化学習データを係数とする単項式又は多項式である。

第２入力トランスデューサ２０２は、環境情報を取得する。第２入力トランスデューサ２０２は、第１入力トランスデューサ１０３が取得する環境情報を取得可能であればどのようなものであってもよい。例えば、第１入力トランスデューサ１０３が温度計である場合には、第２入力トランスデューサは気温を示す情報を取得可能であればどのようなものであってもよい。例えば、第１入力トランスデューサ１０３が圧力計である場合には、第２入力トランスデューサは気圧を示す情報を取得可能であればどのようなものであってもよい。例えば、第１入力トランスデューサ１０３が塩分濃度計である場合には、第２入力トランスデューサは塩分濃度を示す情報を取得可能であればどのようなものであってもよい。例えば、第１入力トランスデューサ１０３が糖度計である場合には、第２入力トランスデューサは糖度を示す情報を取得可能であればどのようなものであってもよい。
第２入力トランスデューサ２０２は、取得した環境情報を示す信号を生成する。第２入力トランスデューサ２０２が生成する信号は、取得した環境情報を示す信号であればどのような信号であってもよく、電気信号であってもよいし、光信号であってもよい。

出力トランスデューサ２０３は、後述する学習制御部２０５の制御によって、強化学習データの現在値に応じた所定の動作を実行することで環境に作用する。環境に作用するとは、具体的には、環境を変化させることを意味する。出力トランスデューサ２０３は、強化学習データの現在値に応じた所定の動作を実行可能であればどのようなものであってもよい。出力トランスデューサ２０３は、モータ等の駆動装置や、空調機や、プリンタ等のアクチュエータであってもよい。出力トランスデューサ２０３は、例えば、ディスプレイや照明等の発光装置や、臭気発生装置や、スピーカや、力覚発生装置や、振動発生装置等の出力インタフェースであってもよい。

報酬出力部２０４は、第２入力トランスデューサ２０２が取得した環境情報と、関係性情報とに基づいて報酬を出力する。報酬は、第２入力トランスデューサ２０２が取得した環境情報に対して関係性情報によって対応付けられた感情情報が表す感情の大きさを表す値（すなわち数値感情情報）である。

学習制御部２０５は、環境情報と、報酬と、強化学習データの現在値とに基づいて、第２補助記憶装置２０１に記憶された強化学習データを更新する。具体的には、学習制御部２０５は、更新後の強化学習データに応じた作用動作の結果、報酬が小さくならないように強化学習データを更新する。
学習制御部２０５は、環境情報と、報酬と、強化学習データの現在値とに基づいて更新後の強化学習データに応じた作用動作の結果、報酬が小さくならないように強化学習データを更新可能であればどのような方法で強化学習データを更新してもよい。学習制御部２０５は、例えば、ε－グリーディ法を用いたＱ学習によって決定された値によって強化学習データを更新してもよい。
学習制御部２０５が強化学習データを更新することは、制御選択ポリシーの精度を下げないことを意味する。
また、学習制御部２０５は、制御選択ポリシーと、強化学習データの現在値とに基づいて、出力トランスデューサ２０３の動作を制御する。

図２は、第１の実施形態における第１学習装置１０の具体的な処理の流れを示すフローチャートである。
生体情報取得部１０２が生体情報を取得し、第１入力トランスデューサ１０３が環境情報を取得し、感情情報取得部１０４が感情情報を取得する（ステップＳ１０１）。関係性情報学習部１０５が、生体情報、環境情報及び感情情報に基づいて、生体情報、環境情報及び感情情報の間の関係性を機械学習によって学習する（ステップＳ１０２）。ステップＳ１０１～ステップＳ１０２の処理が所定の回数繰り返される。

図３は、第１の実施形態における第２学習装置２０の具体的な処理の流れを示すフローチャートである。
出力トランスデューサ２０３が、第２補助記憶装置２０１に記憶された強化学習データ及び制御選択ポリシーに基づいた学習制御部２０５による制御によって環境に作用する（ステップＳ２０１）。第２入力トランスデューサ２０２が環境情報を取得する（ステップＳ２０２）。報酬出力部２０４は、第２入力トランスデューサ２０２が取得した環境情報と、関係性情報とに基づいて報酬を出力する（ステップＳ２０３）。学習制御部２０５が、環境情報と、報酬と、ステップＳ２０１の時点における強化学習データとに基づいて、強化学習データを更新する（ステップＳ２０４）。ステップＳ２０４の後、ステップＳ２０１～ステップＳ２０４の処理が所定の回数繰り返される。

図４は、第１の実施形態の学習システム１を料理ロボットによる料理の学習に適用した場合の適用例を示す図である。図４において図１と同様の機能を有するものは、同じ符号を付す。
図４の適用例において、脳波計は生体情報取得部１０２の具体例である。図４の適用例において、第１学習装置における味覚センサは第１入力トランスデューサ１０３の具体例である。図４の適用例において、食材／料理は、食材又は料理を表し、環境の具体例である。図４の適用例において、成分情報は、環境情報の具体例である。成分情報は、塩分濃度や、糖度等の料理の成分に関する情報である。図４の適用例において、第１学習装置における味見は作用の具体例である。図４の適用例において、調理ロボットは、出力トランスデューサ２０３の具体例である。図４の適用例において、調理動作制御は、制御の具体例である。図４の適用例において、調理は、第２学習装置における作用の具体例である。図４の適用例において、第２学習装置における味覚センサは第２入力トランスデューサの具体例である。

図４の適用例において、第１学習装置は、食材／料理を味見した人（被験者）の味見した時の生体情報である脳波を脳波計で取得する。図４の適用例において、第１学習装置は、味覚センサによって食材／料理の成分を分析し分析結果を取得する。図４の適用例において、第１学習装置は、食材／料理を味見した人（被験者）が料理の好き嫌いを示す感情情報を感情情報取得部１０４によって取得する。第１学習装置は、脳波計が取得した脳波と、味覚センサが取得した塩分濃度と、感情情報取得部１０４が取得した好き嫌いを示す感情情報とに基づいて、食材／料理を味見した人（被験者）の味の好みに関する関係性を機械学習によって学習する。
図４の適用例において、第２学習装置は、第１学習装置が学習した関係性と、調理ロボットによる調理と、味覚センサによる味見とに基づいて、報酬が大きくなるような強化学習パラメータを機械学習によって学習する。

このように構成された第１の実施形態の学習システム１は、感情情報を含む関係性情報（すなわち報酬関数）を決定する第１学習装置１０を備える。さらに、このように構成された第１の実施形態の学習システム１は、第２学習装置２０が、関係性情報に基づいて第１学習装置１０の設計者の手を介することなく、制御選択ポリシーの精度を向上させる。そのため、制御選択ポリシーの精度の向上に係る設計者の労力の増大を抑制することができる。

（第２の実施形態）
図５は、第２の実施形態の学習システム１ａのシステム構成の具体例を示す図である。
学習システム１ａは、第３学習装置３０を備える。第３学習装置３０は、バスで接続されたＣＰＵ（Central Processing Unit）やＲＡＭ（Random Access Memory）や第３補助記憶装置３０１及び第４補助記憶装置３０２などを備え、プログラムを実行する。第１学習装置１０は、プログラムの実行によって生体情報取得部１０２、第１入力トランスデューサ１０３、感情情報取得部１０４、関係性情報学習部１０５、出力トランスデューサ２０３、報酬出力部２０４ａ及び学習制御部２０５ａを備える。
以下、図１と同様の機能を有するものは、同じ符号を付すことで説明を省略する。

第３補助記憶装置３０１は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。第３補助記憶装置３０１は関係性情報を記憶する。関係性情報は、生体情報、環境情報及び感情情報の関係性を示す情報である。
第４補助記憶装置３０２は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。第４補助記憶装置３０２は強化学習データ及び制御選択ポリシーを記憶する。

報酬出力部２０４ａは、第１入力トランスデューサ１０３が取得した環境情報と、関係性情報とに基づいて報酬を出力する。なお、第２実施形態における報酬は、第１入力トランスデューサ１０３が取得した環境情報に対して関係性情報によって対応付けられた感情情報が表す感情の大きさを表す値（すなわち数値感情情報）である。

学習制御部２０５ａは、環境情報と、報酬と、強化学習データの現在値とに基づいて、第４補助記憶装置３０２に記憶された強化学習データを更新する。具体的には、学習制御部２０５ａは、更新後の強化学習データに応じた作用動作の結果、報酬が小さくならないように強化学習データを更新する。
学習制御部２０５ａは、環境情報と、報酬と、強化学習データの現在値とに基づいて更新後の強化学習データに応じた作用動作の結果、報酬が小さくならないように強化学習データを更新可能であればどのような方法で強化学習データを更新してもよい。学習制御部２０５ａは、例えば、ε－グリーディ法を用いたＱ学習によって決定された値によって強化学習データを更新してもよい。
学習制御部２０５ａが強化学習データを更新することは、制御選択ポリシーの精度を下げないことを意味する。
また、学習制御部２０５ａは、制御選択ポリシーと、強化学習データの現在値とに基づいて、出力トランスデューサ２０３の動作を制御する。
また、学習制御部２０５ａは、更新後の強化学習データを関係性情報学習部１０５に出力する。

図６は、第２の実施形態における第３学習装置３０の具体的な処理の流れを示すフローチャートである。
以下、図２及び図３と同様の処理は、同じ符号を付すことで説明を省略する。
ステップＳ１０１の次に、関係性情報学習部１０５が、生体情報、環境情報、感情情報及び強化学習データに基づいて、生体情報、環境情報、感情情報及び強化学習データの間の関係性を機械学習によって学習する（ステップＳ１０２ａ）。ステップＳ１０２ａの次に、ステップＳ２０１が実行される。ステップＳ２０１の次に、第１入力トランスデューサ１０３が環境情報を取得する（ステップＳ２０２ａ）。報酬出力部２０４ａがステップＳ１０２ａにおいて取得された関係性に基づいて報酬を出力する（ステップＳ２０３ａ）。学習制御部２０５ａが、環境情報と、報酬と、ステップＳ２０１の時点における強化学習データとに基づいて、強化学習データを更新する（ステップＳ２０４ａ）。
ステップＳ２０４の後、図６のステップＳ１０１～ステップＳ２０４ａの処理が所定の回数繰り返される。

図７は、第２の実施形態の学習システム１ａを、画像表示装置による表示画面の制御の学習に適用した場合の適用例を示す図である。図７において図５と同様の機能を有するものは、同じ符号を付す。
図７の適用例において、脳波計は生体情報取得部１０２の具体例である。図７の適用例において、第３学習装置における耳掛け式目線カメラは第１入力トランスデューサ１０３の具体例である。耳掛け式目線カメラは、被験者の耳に掛けて使用することで被験者の目線と同等の視覚情報を取得する。図７の適用例において、表示画像は、環境の具体例である。図７の適用例において、視覚情報は、環境情報の具体例である。図７の適用例において、光は環境から被験者への作用の具体例である。光は表示画面の光がユーザの目に入射することを表す。図７の適用例において、ディスプレイは、出力トランスデューサ２０３の具体例である。図７の適用例において、表示制御は、制御の具体例である。図７の適用例において、表示は出力トランスデューサ２０３による環境への作用の具体例である。

図７の適用例において、第３学習装置は、表示画像を見ることができる位置にいる人（被験者）の生体情報である脳波を脳波計で取得する。図７の適用例において、第３学習装置は、耳掛け式目線カメラによって被験者の視線の先にある表示画像を視覚情報として取得する。図７の適用例において、第３学習装置は、表示画像を見ることができる位置にいる人（被験者）の好き嫌いを示す感情情報を感情情報取得部１０４によって取得する。第３学習装置は、脳波計が取得した脳波と、耳掛け式目線カメラが取得した視覚情報と、感情情報取得部１０４が取得した好き嫌いを示す感情情報とに基づいて、出力画像の選択に関する制御の強化学習を行う。

このように構成された第２の実施形態の学習システム１ａは、生体情報取得部１０２、第１入力トランスデューサ１０３、感情情報取得部１０４、関係性情報学習部１０５、出力トランスデューサ２０３、報酬出力部２０４及び学習制御部２０５ａを備える。そのため、制御選択ポリシーの精度の向上に係る設計者の労力の増大を抑制することができる。

（変形例）
なお、第１の実施形態の学習システム１又は第２の実施形態の学習システム１ａは、被験者の身体の各部位の硬さと脳波の状態とに合わせて、もみ方やもみ位置を強化学習によって学習する装置に適用してもよい。この場合、具体的には、出力トランスデューサ２０３は、マッサージチェアであって、第１入力トランスデューサ１０３及び第２入力トランスデューサ２０２は力覚センサである。

なお、学習システム１及び学習システム１ａは、被験者の識別情報、被験者の特徴量、時刻、測位情報等を用いて、学習データの分類を行うなどの最適化を行ってもよい。

なお、第１学習装置１０は、１つの筐体で構成される装置であってもよいし、複数の筐体に分けて構成される装置であってもよい。複数の筐体に分けて構成される場合には、上述した第１学習装置１０の一部の機能が、ネットワークを介して物理的に離れた位置に実装されてもよい。
なお、第２学習装置２０は、１つの筐体で構成される装置であってもよいし、複数の筐体に分けて構成される装置であってもよい。複数の筐体に分けて構成される場合には、上述した第２学習装置２０の一部の機能が、ネットワークを介して物理的に離れた位置に実装されてもよい。
なお、第３学習装置３０は、１つの筐体で構成される装置であってもよいし、複数の筐体に分けて構成される装置であってもよい。複数の筐体に分けて構成される場合には、上述した第３学習装置３０の一部の機能が、ネットワークを介して物理的に離れた位置に実装されてもよい。

なお、第１学習装置１０及び第２学習装置２０は、それぞれ別々の装置として構成される必要はなく、２つが１つの筐体中に構成されてもよい。

なお、第３学習装置は、第３補助記憶装置３０１及び第４補助記憶装置３０２をそれぞれ異なる機能部として備える必要は無く、関係性情報、強化学習データ及び制御選択ポリシーを記憶するひとつの補助記憶装置として備えてもよい。

なお、第１学習装置１０、第２学習装置２０及び第３学習装置３０の各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。

なお、関係性情報学習部１０５は、さらに、感情情報との間に所定の強さ以上の相関がある生体情報と、感情情報との間の関係性を学習してもよい。

なお、学習制御部２０５及び２０５ａは、制御部の一例である。なお、第１学習装置１０、第２学習装置２０及び第３学習装置３０は、学習装置の一例である。なお、第１入力トランスデューサ１０３は、第１環境情報取得部の一例である。なお、第２入力トランスデューサ２０２は、第２環境情報取得部の一例である。なお、出力トランスデューサ２０３は、出力部の一例である。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１…学習システム、１ａ…学習システム、１０…第１学習装置、２０…第２学習装置、３０…第３学習装置、１０１…第１補助記憶装置、１０２…生体情報取得部、１０３…第１入力トランスデューサ、１０４…感情情報取得部、１０５…関係性情報学習部、２０１…第２補助記憶装置、２０２…第２入力トランスデューサ、２０３…出力トランスデューサ、２０４…報酬出力部、２０５…学習制御部、３０１…第３補助記憶装置、３０２…第４補助記憶装置、２０４ａ…報酬出力部、２０５ａ…学習制御部

Claims

所定の環境に対する被験者の生体反応を示す情報である生体情報を取得する生体情報取得部と、
前記環境に対する前記被験者の予め定められた１種類の感情の大きさを示す数値である感情情報を取得する感情情報取得部と、
前記被験者に作用する前記環境の属性を示す情報である環境情報を取得する第１環境情報取得部と、
前記生体情報、前記感情情報及び前記環境情報に基づいて、前記生体情報と、前記感情情報と、前記環境情報との間の関係性を機械学習によって学習する関係性情報学習部と、
を備える学習装置。
所定の環境に作用する出力部と、
前記出力部の動作を制御する制御部と、
前記環境の属性を示す情報である環境情報を取得する第２環境情報取得部と、
前記環境に対する被験者の生体反応を示す情報である生体情報と、前記生体情報と一対一の関係にある情報であって前記被験者に作用する所定の環境の属性を示す情報である環境情報と、前記生体情報と一対一の関係にある情報であって前記環境に対する前記被験者の予め定められた１種類の感情の大きさを示す数値である感情情報と、の間の関係性を示す関係性情報であって、予め自装置に記憶された前記関係性情報と、前記出力部によって作用された前記環境の属性を示す環境情報とに基づいて、前記感情情報である数値を出力する報酬出力部と、
を備え、
前記制御部は、前記報酬出力部から出力された数値が小さくならない動作を選択するように、前記出力部の動作を制御するための制御パラメータの値を更新する、
学習装置。
所定の環境に対する被験者の生体反応を示す情報である生体情報を取得する生体情報取得部と、
前記環境に対する前記被験者の予め定められた１種類の感情の大きさを示す数値である感情情報を取得する感情情報取得部と、
前記被験者に作用する所定の環境の属性を示す情報である環境情報を取得する第１環境情報取得部と、
前記環境に作用する出力部と、
前記生体情報と、前記感情情報と、前記環境情報とに基づいて、前記生体情報と、前記感情情報と、前記環境情報との間の関係性を機械学習によって学習する関係性情報学習部と、
前記出力部の動作を制御する制御部と、
前記生体情報と、前記環境情報と、前記感情情報と、の間の一対一の関係性を示す情報であって、予め自装置に記憶された情報である関係性情報と、前記出力部によって作用された前記環境の属性を示す環境情報とに基づいて、前記感情情報である数値を出力する報酬出力部と、
を備え、
前記制御部は、前記報酬出力部から出力された数値が小さくならない動作を選択するように、前記出力部の動作を制御するための制御パラメータの値を更新する、
学習装置。
前記関係性情報学習部は、さらに、前記感情情報との間に所定の強さ以上の相関がある前記生体情報と、前記感情情報との間の関係性を学習する、
請求項１又は３に記載の学習装置。
所定の環境に対する被験者の生体反応を示す情報である生体情報を取得する生体情報取得ステップと、
前記環境に対する前記被験者の予め定められた１種類の感情の大きさを示す数値である感情情報を取得する感情情報取得ステップと、
前記被験者に作用する前記環境の属性を示す情報である環境情報を取得する第１環境情報取得ステップと、
前記生体情報、前記感情情報及び前記環境情報に基づいて、前記生体情報と、前記感情情報と、前記環境情報との間の関係性を機械学習によって学習する関係性情報学習ステップと、
を有する学習方法。
所定の環境に作用する出力部の動作を制御する制御ステップと、
前記環境の属性を示す情報である環境情報を取得する第２環境情報取得ステップと、
前記環境に対する被験者の生体反応を示す情報である生体情報と、前記生体情報と一対一の関係にある情報であって前記被験者に作用する所定の環境の属性を示す情報である環境情報と、前記生体情報と一対一の関係にある情報であって前記環境に対する前記被験者の予め定められた１種類の感情の大きさを示す数値である感情情報と、の間の関係性を示す関係性情報であって、予め自装置に記憶された前記関係性情報と、前記出力部によって作用された前記環境の属性を示す環境情報とに基づいて、前記感情情報である数値を出力する報酬出力ステップと、
を有し、
前記制御ステップにおいて、前記報酬出力ステップにおいて出力された数値が小さくならない動作を選択するように、前記出力部の動作を制御するための制御パラメータの値が更新される、
学習方法。
所定の環境に対する被験者の生体反応を示す情報である生体情報を取得する生体情報取得ステップと、
前記環境に対する前記被験者の予め定められた１種類の感情の大きさを示す数値である感情情報を取得する感情情報取得ステップと、
前記被験者に作用する所定の環境の属性を示す情報である環境情報を取得する第１環境情報取得ステップと、
前記生体情報と、前記感情情報と、前記環境情報とに基づいて、前記生体情報と、前記感情情報と、前記環境情報との間の関係性を機械学習によって学習する関係性情報学習ステップと、
前記環境に作用する出力部の動作を制御する制御ステップと、
前記生体情報と、前記環境情報と、前記感情情報と、の間の一対一の関係性を示す情報であって、予め自装置に記憶された情報である関係性情報と、前記出力部によって作用された前記環境の属性を示す環境情報とに基づいて、前記感情情報である数値を出力する報酬出力ステップと、
を有し、
前記制御ステップにおいて、前記報酬出力ステップにおいて出力された数値が小さくならない動作を選択するように、前記出力部の動作を制御するための制御パラメータの値が更新される、
学習方法。
請求項１～４のいずれか一項に記載の学習装置としてコンピュータを機能させるためのコンピュータプログラム。