JP2023553638A

JP2023553638A - 強化学習基盤インテリアーサービスの事物配置モデル提供装置及び方法

Info

Publication number: JP2023553638A
Application number: JP2023535888A
Authority: JP
Inventors: ミンキム、ソ
Original assignee: UrbanBase Inc
Current assignee: UrbanBase Inc
Priority date: 2020-12-23
Filing date: 2021-12-22
Publication date: 2023-12-25
Also published as: CN116745797A; US20230315929A1; KR102549980B1; EP4246418A1; KR20220090695A; WO2022139469A1

Abstract

【課題】本発明は、強化学習基盤インテリアーサービスの事物配置モデル提供装置及び方法を提供する。【解決手段】本発明の一実施例による事物配置モデル提供方法は、仮想空間の状態を構成する変数、仮想空間の変数を変化させる制御動作、仮想空間内制御動作の対象になる事物であるエージェント、所定変数が他の変数に対して及ぼす影響を定義した政策、強化学習の対象になる学習環境を生成する段階と、補償を予測する価値関数を学習させる第１神経網を生成する段階と、遂行可能な制御動作によって変更されるそれぞれの状態に対する価値関数の予測値を基礎で、遂行可能な制御動作のうちで最終的に蓄積される補償を最大化する制御動作を判別する政策関数を学習させる第２神経網を生成する段階と、及び第１神経網及び第２神経網の費用関数が最小になる方向に強化学習を遂行する段階と、を含むことができる。【選択図】図１

Description

本発明は、強化学習基盤インテリアーサービスの事物配置モデル提供装置及び方法に関するものである。

人々は生きて行きながら自分の個性に符合しながらより美しい住居環境を追い求めようとする欲求を持っている。このために、簡単には、住居空間に新しい事物を配置してインテリアーを飾るか、またはひいては壁紙や床材を交替して空間の構造を変更するなどのインテリアー工事を進行したりする。

従来にはインテリアー工事のために依頼人がインテリアー専門家に自分が願う空間を作ろうと住居環境などのインテリアー試案を依頼し、依頼を受けたインテリアー専門家は顧客が願うインテリアーを設計して顧客に提示する方式で進行した。

しかし、現在は仮想空間に使用者が直接各種インテリアー要素を飾って見られるインテリアーサービス(ex．３D空間データプラットホームアーバンベース)が開発されることによって、インテリアーサービスの使用者が直接自分の住居環境を移植した仮想空間に自分の趣向どおり事物を配置して手軽く床材/壁紙などを交替して見られる。

これによって、使用者らは仮想空間のインテリアーを通じて実際インテリアーを間接的に体感することができるし、自分の気に入る実際インテリアー商品を注文するか、または実際施工と連動されたインテリアー発注を入れるなどのサービスの提供を受けている。

前述したインテリアーサービスは使用者が仮想空間に直接各種インテリアー要素を飾って見られるように、多様な種類の事物、床材、壁紙などのインテリアー要素を使用者の仮想空間に提供する。

一方、インテリアー要素らの配置は美的な側面と実用的な側面ですべて重要であるが、インテリアーサービスの使用者がインテリアー専門家ではない場合には数多くの種類の事物、床材、壁紙などを選択して配置することに困難を経験することがある。

これによって、本発明の実施例で解決しようとする課題は、インテリアーサービスを使用する使用者の仮想空間で事物らの調和と動線などを考慮し、インテリアー要素らが配置される位置を自動で推薦する技術を提供しようとする。

但し、本発明の実施例が達成しようとする技術的課題は以上で言及した課題に制限されないし、以下で説明する内容から通常の技術者に自明な範囲内で多様な技術的課題が導出されることができる。

本発明の一実施例による事物配置モデル提供装置は、所定の動作を遂行するようにする命令語らを保存する一つ以上のメモリーと、及び前記一つ以上のメモリーと動作可能になるように連結されて前記命令語らを実行するように設定された一つ以上のプロセッサを含み、前記プロセッサの遂行する動作はインテリアーサービスが提供する仮想空間の状態を構成する変数、前記仮想空間の変数を変化させる制御動作、前記仮想空間に配置されて前記制御動作の対象になる事物であるエージェント、所定変数が他の変数に対して及ぼす影響を定義した政策、前記制御動作によって変更された仮想空間の状態を基礎に評価される補償を設定して強化学習の対象になる学習環境を生成する動作と、前記学習環境が有することができるそれぞれの状態で所定の制御動作を実行することによって達成するようになる補償を予測する価値関数を学習させる第１神経網を生成する段階と、前記学習環境が有することができるそれぞれの状態で遂行可能な制御動作によって変更されるそれぞれの状態に対する前記価値関数の予測値を基礎で、前記遂行可能な制御動作のうちで最終的に蓄積される補償を最大化する制御動作を判別する政策関数を学習させる第２神経網を生成する動作と、及び前記第１神経網及び前記第２神経網の費用関数が最小になる方向で強化学習を遂行する動作を含むことができる。

また、前記変数は前記仮想空間を構成する壁及び底の位置、角度、領域を特定する第１変数と、及び前記仮想空間に配置される事物の位置、角度、領域を特定する第２変数を含むことができる。

また、前記第１変数は前記壁の重点を特定する位置座標、前記壁が配置された角度を特定するオイラー角度、前記底の中心座標、及び前記底の境界面を特定するポリゴン情報を含むことができる。

また、前記第２変数は前記事物の重点を特定する位置座標、前記事物の横/縦/幅の大きさを特定する大きさ情報、前記事物が配置された角度を特定するオイラー角度、及び前記事物と他の事物との干渉を評価することに使用される干渉情報を含むことができる。

また、前記干渉情報は前記横/縦/幅の大きさの内に前記事物の重点を含む六面体の面のうちである一面の広さに所定の距離を掛けた嵩程度突き出された多面体形態が占めるようになる空間に対する情報を含むことができる。

また、前記政策は前記事物のうちで前記仮想空間の底や壁に接して他の事物を支持する事物を第１階層で分類し、前記事物のうちで前記第１階層の事物に接して支持を受ける事物を第２階層で分類し、所定の第１階層の事物と連関されて共に配置される関係対で設定された第２階層の事物の種類、所定の第１階層の事物と関係対である第２階層の事物との配置距離、所定の第１階層の事物と関係対である第２階層の事物の配置方向に対して既定義された第１政策と、所定の事物が配置される高さに対する範囲を既定義した第２政策と、前記仮想空間の玄関からすべての種類の空間に最短空間に到逹する動線を所定幅の面積で認識するように既定義した第３政策を含むことができる。

また、前記制御動作は前記仮想空間内で前記エージェントの位置及び角度に対する変数を変化させる動作を含むことができる。

また、前記補償は前記制御動作によって変化された前記学習環境の状態が前記第１、第２、第３政策それぞれに符合する程度に対して評価する既設定された複数の評価式によって計算され、前記複数の評価式それぞれに対して反映する割合を決めた加重値で組み合わせて決まることができる。

また、前記複数の評価式は仮想空間内の事物間の距離に対する評価点数、仮想空間内事物を距離によってグループで分類した後分類された事物グループ間の距離に対する評価点数、仮想空間内事物間の整列関係に対する評価点数、前記事物グループ間の整列関係に対する評価点数、前記事物グループと壁との整列関係に対する評価点数、事物が配置された高さに対する評価点数、底の余裕空間に対する評価点数、事物が壁に配置された密度に対する評価点数、動線の長さに対する評価点数を含むことができる。

また、前記装置によって生成された事物配置モデルを保存するメモリーと、及びインテリアーサービスの使用者から所定の事物に対する配置要請を受信する入力インターフェースと、前記使用者の仮想空間の状態に関する情報と前記所定の事物に対する情報を特定する変数を生成した後、前記変数を前記事物配置モデルに入力して出力された制御動作を基礎で前記仮想空間で前記所定の事物に対する配置空間を決めるプロセッサを含むことができる。

本発明の一実施例による事物配置モデル提供方法は、インテリアーサービスが提供する仮想空間の状態を構成する変数、前記仮想空間の変数を変化させる制御動作、前記仮想空間に配置されて前記制御動作の対象になる事物であるエージェント、所定変数が他の変数に対して及ぼす影響を定義した政策、前記制御動作によって変更された仮想空間の状態を基礎に評価される補償を設定して強化学習の対象になる学習環境を生成する段階と、前記学習環境が有することができるそれぞれの状態で所定の制御動作を実行することによって達成するようになる補償を予測する価値関数を学習させる第１神経網を生成する段階と、前記学習環境が有することができるそれぞれの状態で遂行可能な制御動作によって変更されるそれぞれの状態に対する前記価値関数の予測値を基礎で、前記遂行可能な制御動作のうちで最終的に蓄積される補償を最大化する制御動作を判別する政策関数を学習させる第２神経網を生成する段階と、及び前記第１神経網及び前記第２神経網の費用関数が最小になる方向に強化学習を遂行する段階を含むことができる。

本発明の実施例によれば、強化学習を基盤でインテリアーサービスの仮想空間で事物が占める大きさ、事物間の干渉、共に配置する事物らの調和、配置密度、事物らが配置されるによる空間の動線などを考慮して最適の事物配置技術を提供することができる。

この外に、本文書を通じて直接的または間接的に把握される多様な効果らが提供されることができる。

本発明の一実施例による事物配置モデル提供装置の機能ブロック図である。本発明の一実施例による事物配置モデル提供装置が事物配置モデルに対する学習を遂行する事物配置モデル提供方法の動作流れ図である。本発明の一実施例による学習環境で仮想空間の例示図である。本発明の一実施例による学習環境で事物を特定する動作の例示図である（その１）。本発明の一実施例による学習環境で事物を特定する動作の例示図である（その２）。本発明の一実施例による学習環境で事物を特定する動作の例示図である（その３）。本発明の一実施例による学習環境で関係対に該当する第１階層の事物及び第２階層の事物に対して既定義された情報の例示図である。本発明の一実施例によって強化学習基盤で価値関数及び政策関数を学習させる動作を説明するための例示図である。本発明の一実施例による事物配置モデル提供装置が事物配置モデルを通じて事物が配置される位置を決める事物配置モデル提供方法の動作流れ図である。

本発明の利点及び特徴、そして、それらを達成する方法は、添付される図面と共に詳細に後述されている実施例らを参照すれば明確になるであろう。しかし、本発明は以下で開示される実施例らに限定されるものではなく多様な形態で具現されることができるし、単に本実施例らは本発明の開示が完全になるようにして、本発明が属する技術分野で通常の知識を持った者に発明の範疇を完全に知らせてくれるために提供されるものであり、本発明の範疇は請求項によって定義されるだけである。

本発明の実施例らを説明しながら公知機能または構成に対する具体的な説明は本発明の実施例らを説明しながら実際に必要な場合外には省略されるであろう。そして、後述される用語は本発明の実施例での機能を考慮して定義された用語として、これは使用者、運用者の意図または慣例などによって変わることができる。それで、その定義は本明細書全般にわたった内容を土台で下ろされなければならないであろう。

図面に表示されて下に説明される機能ブロックらは可能な具現の例らであるだけである。他の具現らでは詳細な説明の思想及び範囲を脱しない範囲で他の機能ブロックらが使用されることができる。また、本発明の一つ以上の機能ブロックが個別ブロックらに表示されるが、本発明の機能ブロックのうちで一つ以上は同一機能を実行する多様なハードウェア及びソフトウェア構成の組合であることができる。

また、ある構成要素らを含むという表現は、開放型の表現として該当構成要素らが存在することを単純に指称するだけであり、追加的な構成要素らを排除することで理解されてはいけない。

ひいては、ある構成要素が異なる構成要素に連結されているか、または接続されていると言及される時には、その他の構成要素に直接的に連結または接続されていることもできるが、中間に他の構成要素が存在することもできると理解されなければならない。

また‘第１、第２'などのような表現は、複数の構成を区分するための用途だけで使用された表現であり、構成らの間の手順やその他の特徴らを限定しない。

以下では、図面らを参照して本発明の実施例らに対して説明するようにする。

図１は、本発明の一実施例による事物配置モデル提供装置１００の機能ブロック図である。図１を参照すれば、一実施例による事物配置モデル提供装置１００はメモリー１１０、プロセッサ１２０、入力インターフェース１３０、ディスプレイ部１４０及び通信インターフェース１５０を含むことができる。

メモリー１１０はビックデータDB１１１、事物配置モデル１１３及び命令語DB１１５を含むことができる。

ビックデータDB１１１はインテリアーサービスから収集される多様なデータを含むことができる。インテリアーサービスとは、実際空間の姿を３次元の仮想空間に移植して仮想のインテリアー要素を飾って見られる機能を提供するサービスを含むことができる。インテリアーサービスを使用する使用者らは自分の趣向どおり仮想空間に事物/床材/壁紙などのインテリアー要素を配置することができる。インテリアーサービスを使用する使用者らは他の使用者らが飾った仮想空間のインテリアーを見て共感機能(ex．お気に入りボタン)などを通じて反応することができる。また、インテリアーサービスを通じて使用者らが特定インテリアーを問い合わせした問い合わせ数が集計されることができる。

ビックデータDB１１１がインテリアーサービスから収集されるすべての情報をビックデータとして保存することができる。例えば、ビックデータはインテリアーサービスの使用者情報、使用者がインテリアーした空間に対する情報、インテリアーした部屋種類に対する情報、使用者が配置した事物、壁紙、床材などに対する情報、使用者の趣向に対する情報、使用者らが特定インテリアーに対して評価した情報、使用者らが特定インテリアーを問い合わせした回数に対する情報などを含むことができる。

事物配置モデル１１３は強化学習を基盤でインテリアーサービスの仮想空間で事物が占める大きさ、事物間の干渉、共に配置する事物らの調和、配置密度、事物らが配置されることによる空間の動線などを考慮してインテリアーサービスの使用者にインテリアー要素が配置される最適の位置と方向を推薦する人工知能モデルである。事物配置モデル１１３は図２と共に後述される実施例によって学習が遂行されてメモリー１１０に保存されることができる。

本発明の実施例で強化学習は、インテリアーサービスの仮想空間で特定の事物を配置する場合、該当事物が他の事物との調和、干渉、動線などを考慮して最適の位置に配置される目的を達成するため、制御する対象であるエージェント(ex．仮想空間に配置される事物)がある位置に配置されるように制御動作(ex．配置される位置、角度などを決定)を取らなければならないか判別する事物配置モデルを生成することに使用される。例えば、本発明の実施例で強化学習アルゴリズムはA２C(Advantage Actor-Critic)モデルを使用することができるが、このような例示に限定されないで強化学習の概念に基盤した多様なアルゴリズムを本発明の実施例に適用することができる。

命令語DB１１５はプロセッサ１２０の動作を遂行させることができる命令語らを保存することができる。例えば、命令語DB１１５は後述するプロセッサ１２０の動作らと対応される動作を遂行するようにするコンピューターコードを保存することができる。

プロセッサ１２０は事物配置モデル提供装置１００が含む構成ら、メモリー１１０、入力インターフェース１３０、ディスプレイ部１４０及び通信インターフェース１５０の全般的な動作を制御することができる。プロセッサ１２０は環境設定モジュール１２１、強化学習モジュール１２３及び制御モジュール１２５を含むことができる。プロセッサ１２０はメモリー１１０に保存された命令語らを行って環境設定モジュール１２１、強化学習モジュール１２３及び制御モジュール１２５を駆動させることができる。環境設定モジュール１２１、強化学習モジュール１２３及び制御モジュール１２５によって遂行される動作はプロセッサ１２０によって遂行される動作で理解されることができる。

環境設定モジュール１２１は事物配置モデルを強化学習させるための学習環境を生成することができる。学習環境は事物配置モデルを学習させるために事前設定される環境に対する情報を含むことができる。例えば、環境設定モジュール１２１はインテリアーサービスが提供する仮想空間の状態を構成する変数(variable)、このような変数値の組合で表現される状態(state)、仮想空間の状態を構成する変数を変更させる制御動作(action)、制御動作の対象になるエージェント(agent)、所定の変数が他の変数に及ぶ影響を定義した政策(policy)、制御動作によって変更された仮想空間の状態を基礎に評価される補償(reward)を設定して学習環境を生成することができる。

強化学習モジュール１２３は学習環境に対する設定が完了すれば、学習環境が有することができるそれぞれの状態で所定の制御動作を実行することによって達成するようになる補償を予測する価値関数と、学習環境が有することができるそれぞれの状態で遂行可能な制御動作によって変更されるそれぞれの状態に対する価値関数の予測値を基礎で遂行可能な制御動作のうちで最終的に蓄積される補償を最大化する制御動作を判別する政策関数を学習させることで強化学習が遂行された事物配置モデルを生成することができる。

制御モジュール１２５はインテリアーサービスの仮想空間に使用者が特定事物の配置を要請した場合、事物配置モデルを活用して最適の事物配置空間を推薦することができる。

入力インターフェース１３０は使用者の入力を受信することができる。例えば、使用者がインテリアーサービスで選択するインテリアー要素などの入力を受信することができる。

ディスプレイ部１４０はディスプレイパネルを含んで画像を出力するハードウェア構成を含むことができる。

通信インターフェース１５０は外部装置(ex．外部DBサーバー、使用者端末など)と通信して情報を送受信できるようにする。このために、通信インターフェース１５０は無線通信モジュールまたは有線通信モジュールを含むことができる。

以下、図２乃至図７を通じて事物配置モデル提供装置１００の構成要素らが連動して事物配置モデルを学習させて事物配置モデルを利用する具体的な実施例に対して説明する。

図２は、本発明の一実施例による事物配置モデル提供装置１００が事物配置モデルに対する学習を遂行する事物配置モデル提供方法の動作流れ図である。図２による事物配置モデル提供方法の各段階は図１を通じて説明された事物配置モデル提供装置１００の構成らによって遂行されることができるし、各段階を説明すれば次のようである。

環境設定モジュール１２１は強化学習の対象になる学習環境を生成することができる(Ｓ２１０)。例えば、環境設定モジュール１２１はインテリアーサービスが提供する仮想空間の状態を構成する変数、仮想空間の変数を変化させる制御動作、仮想空間に配置されて制御動作の対象になる事物であるエージェント、所定変数が他の変数に対して及ぼす影響を定義した政策、制御動作によって変更された仮想空間の状態を基礎に評価される補償を設定することができる。

変数は図３のような仮想空間の状態(ex．仮想空間の大きさ、仮想空間の形態、仮想空間に配置される事物の位置、事物の大きさ、事物の種類など)を示すための変数に対する識別情報と各変数を示す値を含むことができる。このために、変数は大きく二つの種類としてインテリアーサービスの仮想空間を特定する第１変数と、仮想空間に配置される事物の位置、角度、占める領域、干渉領域を特定する第２変数を含むことができる。

第１変数は壁の重点を特定する３次元位置座標、壁が配置された角度を特定するオイラー角度、壁の大きさを特定する横/縦/幅の大きさ情報、底の中心を特定する３次元位置座標及び底の境界面を特定するポリゴン情報を含むことができる。これによって、底と壁の位置及び配置角度を設定して仮想空間を特定することができるし、壁を通じた空間の区分を通じて各空間の用途を特定することができる。

図４(a)を参照すれば、第２変数は事物の重点を特定する３次元位置座標、事物の横/縦/幅の大きさを特定する大きさ情報、事物が配置された角度を特定するオイラー角度に対する情報を含むことができる。これによって、事物の重点とオイラー角度を通じて事物が配置される位置と方向を特定することができるし、大きさ情報を通じて横/縦/幅の大きさ内に事物の重点を含む六面体の大きさで特定されて仮想空間内で該当事物が占めるようになる大きさ２１を特定することができる。

図４(b)を参照すれば、第２変数は特定事物と他の事物との干渉を評価することに使用される仮想の嵩である干渉領域に対する情報を含むことができる。干渉領域に対する情報は動線確保及び事物間の干渉を避ける要素を特定するため、事物を特定する六面体の面のうちである一面の広さに所定の距離を掛けた嵩程度突き出された多面体形態が占める空間の嵩を特定２３することができる。

図４(c)を参照すれば、干渉領域に対する情報は視野角を表現する要素を特定するため、事物を特定する六面体の面のうちである一面に対する既設定された割合の面積に所定の距離を掛けた嵩程度突き出された複数個の多面体が順番どおり占める空間の嵩を特定２５することができる。

政策は仮想空間でどのような状態が学習目的に符合する状態であるか学習の方向性を定義する情報を意味する。このために、本発明の実施例による政策は事物間の望ましい配置関係を定義する第１政策、事物の望ましい高さに対する範囲を定義する第２政策、第１位置から第２位置までの最短動線を確保するための第３政策を含むことができる。

第１政策はインテリアーサービスの事物のうちで仮想空間の底や壁に接して他の事物を支持する事物を第１階層で分類し、第１階層の事物に接して支持を受ける事物を第２階層で分類し、第１階層の事物と連関されて共に配置される関係対で設定された第２階層の事物の種類、第１階層の事物と関係対である第２階層の事物間の配置距離、第１階層の事物と関係対である第２階層の事物の配置方向に対して図５のように定義した政策情報を含むことができる。

第２政策は所定の事物が配置される適切な高さに対する範囲を定義した政策情報を含むことができる。

第３政策は特定位置(ex．玄関)からすべての種類の空間(ex．居間、キッチン、トイレ、寝室など)に最短空間に到逹する動線を所定幅の面積で認識するように定義した政策情報を含むことができる。

エージェントは仮想空間に配置される事物で特定されることができるし、エージェントは既定義された政策と補償に基盤し、仮想空間で配置される位置、角度などの決定に対する制御動作が遂行される対象になることができる。

補償はエージェントに対する制御動作によって変化された学習環境の状態(ex．仮想空間を示す変数らの組合)が第１政策、第２政策及び第３政策それぞれに符合する程度を評価する既設定された複数の評価式によって計算されることができるし、それぞれの評価式によって計算された評価点数を反映する割合を決めた加重値に基礎して合算されて決まることができる。

例えば、補償は下記数学式１乃至数学式１３によって決まることができる。
[数学式１]

(C_IF:事物間の距離の評価点数、F:仮想空間内すべての事物の集合、f１:第１事物、f２:第２事物、Objection Collision:仮想空間で第１事物と第２事物が重なっている嵩の割合、Bounding Box Collision仮想空間で第１事物の干渉情報に該当する空間と第２事物の干渉情報に該当する空間が重なっている嵩の割合、w_pは第１事物と第２事物が関係対に該当する場合０、関係対ではない場合には１)

[数学式２]

(C_IG:事物グループ間距離の評価点数、Bounding Box Collision仮想空間で第１グループに属した事物らの干渉情報に該当する空間と第２グループに属した事物らの干渉情報に該当する空間が重なっている嵩の割合)

この時数学式２の場合、事物のグループは仮想空間内で事物らが位置する３次元座標の位置を基盤で事物らを群集化する所定のアルゴリズムを利用してお互いに近く配置された事物間のグループを分類することができる。このために、多様なグループ化アルゴリズムを使用することができるし、例えばDBSCAN(Density Based Spatial Clustering of Applications with Noise)クラスタリングアルゴリズムを利用することができる。

[数学式３]

(C_AF:事物間の整列関係の評価点数、F:仮想空間内すべての事物の集合、f１:第１事物、f２:第２事物、f_１(θ)+f_２(θ):第１事物の重点と第２事物の重点を引き継いだ線が所定の軸(ex．x軸またはy軸)に対して形成する角度)

[数学式４]

(C_AG:事物グループの間整列関係の評価点数、g_１(θ)+g_２(θ):第１グループで形成された事物らの重点と第２グループで形成された事物らの重点を引き継いだ線が所定の軸(ex．x軸またはy軸)に対して形成する角度)

[数学式５]

(C_AW:事物グループと壁との整列関係の評価点数、F:仮想空間内すべての事物の集合、G:仮想空間内形成された事物のグループ、W:仮想空間内壁、G(θ)+W(θ):グループ内事物らの重点と壁の重点を引き継いだ線が所定の軸(ex．x軸またはy軸)に対して形成する角度)

[数学式６]

(C_H:事物が配置された高さに対する評価点数、F:仮想空間内すべての事物の集合、f:特定事物、H(f):特定事物が既定義された適正高さから脱した高さの割合、F(h):すべての事物らの平均高さが特定空間(ex．居間、寝室、トイレ)に対して既定義された適正高さから脱した高さの割合)

[数学式７]

(C_FAG:底の余裕空間に対する評価点数、Area(ground):底の全体面積、G:仮想空間内すべてのグループの集合、g:仮想空間内特定グループ、Area(proj(B(g))):特定グループに属したすべての事物の大きさを底に透写した場合底に透写された面積)

[数学式８]

(CF_AW:事物らが壁に密度あるように配置されたかに対する評価点数、W:仮想空間内すべての壁の集合、w:仮想空間内特定壁、Kw:壁wに所定距離以下に配置された事物の個数、f:壁wに所定距離以下に配置された事物、Area(w):壁wの面積、Area(proj(B(f))):壁wに所定距離以下に配置された事物の大きさを壁wに透写した場合壁に透写された面積)

[数学式９]

(Cc:動線の長さに対する評価点数、Length(Circulation Curve):既設定された第１位置(ex．玄関など)で既設定された第２位置(ex．窓、居間、キッチン、トイレ、寝室など)まで連結した線分の長さ)

この時数学式９の場合、第１位置及び第２位置の各位置を特定する重点情報に対してVoronoi Diagramアルゴリズムを適用して総長さを計算することができる。

[数学式１０]

数学式１０はそれぞれの事物を基準で、事物間の配置距離、配置高さ、事物間の整列関係、事物と壁との配置密度を考慮した評価点数である。

[数学式１１]

数学式１１は事物のグループを基準で、グループの間の配置距離、グループの間の整列関係、グループと壁との整列関係、グループと壁との配置密度を考慮した評価点数である。

[数学式１２]

数学式１２は事物が配置されることによって動線の効率性を考慮した評価点数である。

[数学式１３]

(w_Gは評価点数Gの反映の割合、w_Ppは評価点数Pの反映の割合、w_Ccは評価点数Cの反映の割合)

これによって、補償は制御動作によって変化された学習環境の状態が前記第１、第２、第３政策それぞれに符合する程度に対して既設定された数学式１乃至数学式９の評価式によって計算されることができるし、それぞれの基準に評価された数学式１０、数学式１１、数学式１２に対して、学習の意図によって反映される割合を考慮して数学式１３と共に最終補償を決めるように学習環境を設定することができる。

このように、学習環境に対する設定が完了された以後、強化学習モジュール１２３は学習環境が有することができる各状態で行うことができる制御動作によって達成するようになる補償を予測する価値関数を学習する第１神経網を生成して(Ｓ２２０)、学習環境が有することができるそれぞれの状態で行うことができる制御動作のうちで最終的に蓄積される補償を最大化する制御動作を導出する政策関数を学習する第２神経網を生成することができる(Ｓ２３０)。

図６は、本発明の一実施例によって強化学習のうちでActor-Criticアルゴリズム基盤で価値関数及び政策関数を学習させる動作を説明するための例示図である。

強化学習アルゴリズムの一実施例としてActor-Criticアルゴリズムは政策をモデリングして、この政策関数に対して傾斜下降法を適用して学習するOn-policy強化学習アルゴリズムで政策傾斜技法(Policy Gradient)を通じて最適の政策を学習することができる。

本発明の一実施例による事物配置モデル(ex．Actor-Criticモデル)は第１神経網及び第２神経網を含むことができる。第１神経網は学習環境が有することができるそれぞれの状態で所定の制御動作を実行することによって達成するようになる補償を予測する価値関数を学習するCriticモデルを含むことができる。制御動作は制御する対象になる事物が配置される位置、角度などの変数を変更する制御動作を含むことができる。

第２神経網は学習環境が有することができるそれぞれの状態で行うことができる制御動作のうちで最終的に蓄積される補償を最大化する制御動作を導出する政策関数を学習するActorモデルを含むことができる。

この時政策はπ_θ(a_t|s_t)で定義し、現在状態(s_t)に対する制御動作(a_t)の条件付き確率に表現される。また、状態と行動に対する状態-行動価値関数(state-action value function)はQ_w(s_t,a_t)で定義して、どのような状態(s_t)でどのような行動(a_t)を遂行した時獲得する総補償の期待値を示す。

強化学習モジュール１２３は第１神経網の入力変数を学習環境の状態(s_t)で設定し、第１神経網の出力変数は学習環境が有することができる各状態で政策を実行することによって達成するようになる補償、すなわち、価値関数の予測値(V_w(s_t))で設定することができる。この時、入力変数は学習環境の状態を構成する変数として第１変数または第２変数の組合が使用されることができる。

一方、第１神経網の学習方向を決める費用関数は価値関数の予測値(V_w(s_t))が実際価値よりどの程度良なのかを示す利得(A(s,a))が最小になるようにするMSE(mean square error)関数であることができるし、例えば、下の数学式１４で設定することができる。

[数学式１４]

この時Q_w()は状態-行動価値関数、wは学習されたパラメーター、s_tは学習環境の現在状態、Q_w(s_t,a_t)は現在状態(s_t)の制御行動(a_t)に対する総補償の期待値、loss_criticは第１神経網の費用関数、r_t+１は次の状態(s_t+１)で獲得する補償、V_w(s_t+１)は次状態(s_t+１)の政策に対する総補償の期待値、V_w(s_t)は現在状態(s_t)の政策に対する総補償の期待値、γは学習の減価率を意味する。

これによって、第１神経網は学習環境の状態が変更される度に第１神経網の費用関数を最小化する方向に第１神経網のパラメーター、例えば、加重値(weight)及びバイアス(bias)をアップデートすることができる。

第２神経網は学習環境が有することができるそれぞれの状態で行うことができる制御動作のうちで最終的に蓄積される補償を最大化する制御動作を導出する政策関数を学習する。このために、第２神経網の入力変数を価値関数の予測値及び学習環境の状態(s_t)で設定し、第２神経網の出力変数を学習環境が有することができるそれぞれの状態で行うことができる制御動作のうちで最終的に蓄積される補償を最大化する制御動作になるように設定することができる。この時、入力変数は学習環境の状態を構成する変数として第１変数または第２変数の組合が使用されることができる。

この時、第２神経網は例えば、下の数学式１５のような形態の費用関数を基礎に学習されることができる。

[数学式１５]

この時∇_θJ(θ,s_t)は第２神経網の費用関数、π_θ()は政策関数、θは第２神経網で学習されたパラメーター、s_tは学習環境の現在状態、π_θ(a_t｜s_t)は現在状態(s_t)で制御動作(a_t)の条件付き確率、Q_w()は状態-行動価値関数、wは学習されたパラメーター、s_tは学習環境の現在状態、Q_w(s_t,a_t)は現在状態(s_t)の制御行動(a_t)に対する総補償の期待値を意味する。

一方、第１神経網の出力変数は第２神経網の費用関数に適用されることができるし、下の数学式１６のように設定されることができる。

[数学式１６]

この時∇_θJ(θ,s_t)は第２神経網の費用関数、π_θ()は政策関数、θは第２神経網で学習されたパラメーター、stは学習環境の現在状態、π_θ(a_t|s_t)は現在状態(s_t)で制御動作(a_t)の条件付き確率、V_w()は価値関数、wは第１神経網で学習されたパラメーター、V_w(s_t)は現在状態(s_t)の政策に対する総補償の期待値、r_t+１は次の状態(s_t+１で獲得する補償、V_w(s_t+1)は次の状態(s_t+１)の政策に対する総補償の期待値、γは第１神経網(s_t+１で学習の減価率を意味する。

これによって、強化学習モジュール１２３は第１神経網の費用関数及び第２神経網の費用関数が最小になる方向に強化学習を遂行することができる(Ｓ２４０)。

すなわち、学習環境が任意のスタート状態(または、インテリアーサービスのビックデータに含まれた仮想空間の状態)で始まって特定事物に対する制御動作が行われることによって状態が変更されながら終了状態になるまで毎状態ごとに第１神経網の費用関数が最小になるように価値関数をアップデートして、アップデートされた価値関数を第２神経網の費用関数に反映して第２神経網の費用関数が最小になるように並列的に政策関数をアップデートすることができる。

これによって、第２神経網は学習環境の現在状態(s_t)の入力を受けて政策関数に基礎して現在学習環境の状態から最終状態まで蓄積するようになる補償が最大の制御動作(a_t)を導出することができる。

以後、学習環境は制御動作(a_t)によって現在状態(s_t)を設定された規則に基礎して次の状態(s_t+１)に変更させ、次の状態(s_t+１)を構成する変数及び次の状態での補償(r_t+１)を第１神経網に提供する。これによって、第１神経網は第１神経網の費用関数が最小になるように価値関数をアップデートして、アップデートされたパラメーターを第２神経網に提供し、第２神経網はアップデートされた価値関数のパラメーターを第２神経網の費用関数に反映して第２神経網の費用関数が最小になるように政策関数をアップデートすることができる。

このように、強化学習モジュール１２３は上述した方向性によって第１神経網及び第２神経網の学習回数を繰り返して、価値関数及び政策関数が最適の制御動作を決めるように学習させることができるし、事物配置モデルは学習が数回繰り返された第１神経網及び第２神経網を含む構成で理解されることができる。これによって事物配置モデルを使って特定仮想空間に事物を配置する場合既定義した政策に符合する最適の位置が算出されるようにできる。

一方、前述した数学式１４乃至数学式１６は、強化学習の説明のために例示した数学式として、本発明の実施例を具現するために自明な範囲で変更して使用することができる。

図７は、本発明の一実施例による事物配置モデル提供装置１００が事物配置モデルを通じて事物が配置される位置を決める事物配置モデル提供方法の動作流れ図である。但し、図７による事物配置モデルの使用動作は図２による事物配置モデルの学習動作と必ず等しい装置で遂行される必要がないし、お互いに異なる客体の装置であることができる。

図７を参照すれば、事物配置モデル提供装置１００によって生成された事物配置モデル１１３はメモリー１１０に保存されることができる(Ｓ７１０)。

入力インターフェースはインテリアーサービスの使用者から所定の事物に対する配置要請を受信することができる(Ｓ７２０)。

制御モジュール１２５は使用者の仮想空間の状態に関する情報と所定の事物に対する情報を特定する変数を生成した後、事物配置モデルに入力して出力された制御動作を基礎で仮想空間で所定の事物の配置空間を決めることができる(Ｓ７３０)。

前述した実施例によると、強化学習を基盤でインテリアーサービスの仮想空間で事物が占める大きさ、事物間の干渉、共に配置する事物らの種類、仮想空間の動線などを考慮して最適の事物配置技術を提供することができる。

前述した本発明の実施例らは多様な手段を通じて具現されることができる。例えば、本発明の実施例らはハードウェア、ファームウエア(firmware)、ソフトウェアまたはそれらの結合などによって具現されることができる。

ハードウェアによる具現の場合、本発明の実施例らによる方法は一つまたはその以上のASICs(Application Specific Integrated Circuits)、DSPs(Digital Signal Processors)、DSPDs(Digital Signal Processing Devices)、PLDs(Programmable Logic Devices)、FPGAs(Field Programmable Gate Arrays)、プロセッサ、コントローラー、マイクロコントローラー、マイクロプロセッサーなどによって具現されることができる。

ファームウエアやソフトウェアによる具現の場合、本発明の実施例らによる方法は以上で説明された機能または動作を遂行するモジュール、手続きまたは関数などの形態で具現されることができる。ソフトウェアコードなどが記録されたコンピュータープログラムはコンピューター判読可能記録媒体またはメモリーユニットに保存されてプロセッサによって駆動されることができる。メモリーユニットはプロセッサ内部または外部に位置して、既に公知された多様な手段によってプロセッサとデータを取り交わすことができる。

また、本発明に添付されたブロック図の各ブロックと流れ図の各段階の組合らはコンピュータープログラムインストラクションらによって遂行されることもできる。これらコンピュータープログラムインストラクションらは汎用コンピューター、特殊用コンピューターまたはその他プログラム可能なデータプロセッシング装備のエンコードプロセッサに搭載されることができるので、コンピューターまたはその他プログラム可能なデータプロセッシング装備のエンコードプロセッサを通じて遂行されるそのインストラクションらがブロック図の各ブロックまたは流れ図の各段階で説明された機能らを遂行する手段を生成するようになる。これらコンピュータープログラムインストラクションらは特定方法で機能を具現するためにコンピューターまたはその他プログラム可能なデータプロセッシング装備を指向することができるコンピューター利用可能またはコンピューター判読可能メモリーに保存されることも可能であるので、そのコンピューター利用可能またはコンピューター判読可能メモリーに保存されたインストラクションらはブロック図の各ブロックまたは流れ図の各段階で説明された機能を遂行するインストラクション手段を内包する製造品目を生産することも可能である。コンピュータープログラムインストラクションらはコンピューターまたはその他プログラム可能なデータプロセッシング装備上に搭載されることも可能であるので、コンピューターまたはその他プログラム可能なデータプロセッシング装備上で一連の動作段階らが遂行されてコンピューターで実行されるプロセスを生成してコンピューターまたはその他プログラム可能なデータプロセッシング装備を遂行するインストラクションらはブロック図の各ブロック及び流れ図の各段階で説明された機能らを実行するための段階らを提供することも可能である。

併せて、各ブロックまたは各段階は特定された論理的機能を実行するための一つ以上の実行可能なインストラクションらを含むモジュール、セグメントまたはコードの一部を示すことができる。また、幾つかの代替実施例らではブロックらまたは段階らで言及された機能らが手順を脱して発生することも可能であることを注目しなければならない。例えば、相次いで図示されている二つのブロックらまたは段階らは、実は実質的に同時に遂行されることも可能であり、またはそのブロックらまたは段階らが時々該当する機能によって逆順で遂行されることも可能である。

このように、本発明が属する技術分野の当業者は本発明がその技術的思想や必須特徴を変更しなくても他の具体的な形態で実施されることができるということを理解することができるであろう。それで、以上で記述した実施例らはすべての面で例示的で限定的ではないものとして理解しなければならない。本発明の範囲は詳細な説明よりは後述する特許請求範囲によって現わされ、特許請求範囲の意味及び範囲、そして、その等価概念から導出されるすべての変更または変形された形態が本発明の範囲に含まれることで解釈されなければならない。

１００事物配置モデル提供装置
１１０メモリー
１２０プロセッサ
１３０入力インターフェース
１４０ディスプレイ部
１５０通信インターフェース

Claims

事物配置モデル提供装置において、
所定の動作を遂行するようにする命令語らを保存する一つ以上のメモリーと、及び前記一つ以上のメモリーと動作可能になるように連結されて前記命令語らを実行するように設定された一つ以上のプロセッサを含み、
前記プロセッサが遂行する動作は、
インテリアーサービスが提供する仮想空間の状態を構成する変数、前記仮想空間の変数を変化させる制御動作、前記仮想空間に配置されて前記制御動作の対象になる事物であるエージェント、所定変数が他の変数に対して及ぼす影響を定義した政策、前記制御動作によって変更された仮想空間の状態を基礎に評価される補償を設定して強化学習の対象になる学習環境を生成する動作と、
前記学習環境が有することができるそれぞれの状態で所定の制御動作を実行することによって達成するようになる補償を予測する価値関数を学習させる第１神経網を生成する段階と、
前記学習環境が有することができるそれぞれの状態で遂行可能な制御動作によって変更されるそれぞれの状態に対する前記価値関数の予測値を基礎で、前記遂行可能な制御動作のうちで最終的に蓄積される補償を最大化する制御動作を判別する政策関数を学習させる第２神経網を生成する動作と、及び
前記第１神経網及び前記第２神経網の費用関数が最小になる方向に強化学習を遂行する動作を含む、
事物配置モデル提供装置。
前記変数は、
前記仮想空間を構成する壁及び底の位置、角度、領域を特定する第１変数と、及び
前記仮想空間に配置される事物の位置、角度、領域を特定する第２変数を含む、
請求項１に記載の事物配置モデル提供装置。
前記第１変数は、
前記壁の重点を特定する位置座標、前記壁が配置された角度を特定するオイラー角度、前記底の中心座標、及び前記底の境界面を特定するポリゴン情報を含む、
請求項２に記載の事物配置モデル提供装置。
前記第２変数は、
前記事物の重点を特定する位置座標、前記事物の横/縦/幅の大きさを特定する大きさ情報、前記事物が配置された角度を特定するオイラー角度、及び前記事物と他の事物との干渉を評価することに使用される干渉情報を含む、
請求項２に記載の事物配置モデル提供装置。
前記干渉情報は、
前記横/縦/幅の大きさの内に前記事物の重点を含む六面体の面のうちである一面の広さに所定の距離を掛けた嵩程度突き出された多面体形態が占めるようになる空間に対する情報を含む、
請求項４に記載の事物配置モデル提供装置。
前記政策は、
前記事物のうちで前記仮想空間の底や壁に接して他の事物を支持する事物を第１階層で分類し、前記事物のうちで前記第１階層の事物に接して支持を受ける事物を第２階層で分類し、所定の第１階層の事物と連関されて共に配置される関係対で設定された第２階層の事物の種類、所定の第１階層の事物と関係対である第２階層の事物との配置距離、所定の第１階層の事物と関係対である第２階層の事物の配置方向に対して既定義された第１政策と、
所定の事物が配置される高さに対する範囲を既定義した第２政策と、
前記仮想空間の玄関からすべての種類の空間に最短空間に到逹する動線を所定幅の面積で認識するように既定義した第３政策を含む、
請求項２に記載の事物配置モデル提供装置。
前記制御動作は、
前記仮想空間内で前記エージェントの位置及び角度に対する変数を変化させる動作を含む、
請求項６に記載の事物配置モデル提供装置。
前記補償は、
前記制御動作によって変化された前記学習環境の状態が前記第１、第２、第３政策それぞれに符合する程度に対して評価する既設定された複数の評価式によって計算され、前記複数の評価式それぞれに対して反映する割合を決めた加重値で組み合わせて決まる、
請求項７に記載の事物配置モデル提供装置。
前記複数の評価式は、
仮想空間内事物間の距離に対する評価点数、仮想空間内事物を距離によってグループで分類した後分類された事物グループ間の距離に対する評価点数、仮想空間内事物間の整列関係に対する評価点数、前記事物グループ間の整列関係に対する評価点数、前記事物グループと壁との整列関係に対する評価点数、事物が配置された高さに対する評価点数、底の余裕空間に対する評価点数、事物が壁に配置された密度に対する評価点数、動線の長さに対する評価点数を含む、
請求項８に記載の事物配置モデル提供装置。
請求項１乃至請求項９のうちで何れか一つの請求項の装置によって生成された事物配置モデルを保存するメモリーと、及び
インテリアーサービスの使用者から所定の事物に対する配置要請を受信する入力インターフェースと、
前記使用者の仮想空間の状態に関する情報と前記所定の事物に対する情報を特定する変数を生成した後、前記変数を前記事物配置モデルに入力して出力された制御動作を基礎で前記仮想空間で前記所定の事物に対する配置空間を決めるプロセッサを含む、
事物配置モデル提供装置。
事物配置モデル提供装置によって遂行される事物配置モデル提供方法において、
インテリアーサービスが提供する仮想空間の状態を構成する変数、前記仮想空間の変数を変化させる制御動作、前記仮想空間に配置されて前記制御動作の対象になる事物であるエージェント、所定変数が他の変数に対して及ぼす影響を定義した政策、前記制御動作によって変更された仮想空間の状態を基礎に評価される補償を設定して強化学習の対象になる学習環境を生成する段階と、
前記学習環境が有することができるそれぞれの状態で所定の制御動作を実行することによって達成するようになる補償を予測する価値関数を学習させる第１神経網を生成する段階と、
前記学習環境が有することができるそれぞれの状態で遂行可能な制御動作によって変更されるそれぞれの状態に対する前記価値関数の予測値を基礎で、前記遂行可能な制御動作のうちで最終的に蓄積される補償を最大化する制御動作を判別する政策関数を学習させる第２神経網を生成する段階と、及び
前記第１神経網及び前記第２神経網の費用関数が最小になる方向に強化学習を遂行する段階を含む、
事物配置モデル提供方法。
請求項１１の方法をプロセッサが遂行するようにする命令語を含むコンピュータープログラムが記録されたコンピューター判読可能記録媒体。