JP2021027917A - Information processing device, information processing system, and machine learning device - Google Patents

Information processing device, information processing system, and machine learning device Download PDF

Info

Publication number
JP2021027917A
JP2021027917A JP2019148053A JP2019148053A JP2021027917A JP 2021027917 A JP2021027917 A JP 2021027917A JP 2019148053 A JP2019148053 A JP 2019148053A JP 2019148053 A JP2019148053 A JP 2019148053A JP 2021027917 A JP2021027917 A JP 2021027917A
Authority
JP
Japan
Prior art keywords
user
state
exercise
information
instruction content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019148053A
Other languages
Japanese (ja)
Inventor
弥希子 風間
Mikiko Kazama
弥希子 風間
英也 岡本
Hideya Okamoto
英也 岡本
規之 田渕
Noriyuki Tabuchi
規之 田渕
長尾 裕史
Yasushi Nagao
裕史 長尾
昭彦 村井
Akihiko Murai
昭彦 村井
浩之 梅村
Hiroyuki Umemura
浩之 梅村
友美 藤村
Tomomi Fujimura
友美 藤村
持丸 正明
Masaaki Mochimaru
正明 持丸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mizuno Corp
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
Mizuno Corp
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mizuno Corp, National Institute of Advanced Industrial Science and Technology AIST filed Critical Mizuno Corp
Priority to JP2019148053A priority Critical patent/JP2021027917A/en
Publication of JP2021027917A publication Critical patent/JP2021027917A/en
Pending legal-status Critical Current

Links

Images

Abstract

To provide a technique which becomes an aid of improving a ratio of persons having exercise habits by supporting a user from standpoints other than a standpoint of improving an exercise technique.SOLUTION: A management device 10 includes a storage part (storage) for storing information for reference to selecting instruction content to be outputted to a user as a behavior related to a user's condition. The user's condition includes motivation information of exercise in the user. The management device 10 includes an acquisition part (a network controller) for acquiring the user's condition the exercising user, a selection part (a processor) for selecting instruction content to be outputted to the user on the basis of the user's condition and the information for reference, and an output part (a display and/or a network controller) for outputting the selected instruction content.SELECTED DRAWING: Figure 1

Description

本開示は、強化学習により学習された価値関数を利用した、運動に関する指示内容を出力に関する。 The present disclosure relates to the output of instruction content related to exercise using the value function learned by reinforcement learning.

従来、運動支援について、ユーザの運動技術向上を支援するための種々の提案がなされている。たとえば、特許文献1(特許第6332830号公報)には、ユーザの運動姿勢等について、指導ポイントごとに適切なアドバイスを提供する運動支援システムが開示されている。 Conventionally, various proposals have been made for exercise support to support the improvement of exercise skills of users. For example, Patent Document 1 (Patent No. 6332830) discloses an exercise support system that provides appropriate advice for each instruction point regarding a user's exercise posture and the like.

また、特許文献2(特許第6307457号公報)には、基準となる運動(正しい運動)に対する現在の運動の状態の判定結果をフィードバックするために、複数の被験者の運動状態の比較結果に応じたフィードバック信号を出力する方法が開示されている([請求項1],段落[0012]等)。特許文献3(特許第6270115号公報)には、運動部位の偏り等に基づいて、感覚情報が提示される位置毎に残り時間の減少率を設定する運動支援システムが開示されている([請求項1]等))。特許文献4(特開2018−42771号公報)には、ユーザの体力に合わせて適切に技能向上を支援するための装置が開示されている([要約]等)。特許文献5(特開2019−58285号公報)には、運動能力の評価に応じて活動メニューを選択する活動支援方法が開示されている(段落[0027]等)。特許文献6(特開2019−63558号公報)には、第1の時間期間にユーザが行った身体活動の量を示す活動ポイントメトリクス等に基づいて計算された目標状態に応じて動機付けメッセージをユーザに伝達する装置が開示されている([請求項1]等)。 Further, in Patent Document 2 (Japanese Patent No. 6307457), in order to feed back the determination result of the current exercise state with respect to the reference exercise (correct exercise), the comparison result of the exercise states of a plurality of subjects was provided. A method of outputting a feedback signal is disclosed ([Claim 1], paragraph [0012], etc.). Patent Document 3 (Patent No. 6270115) discloses an exercise support system that sets a reduction rate of the remaining time for each position where sensory information is presented based on the bias of the exercise site or the like ([claim]. Item 1] etc.)). Patent Document 4 (Japanese Unexamined Patent Publication No. 2018-42771) discloses a device for appropriately supporting skill improvement according to the physical strength of the user ([summary], etc.). Patent Document 5 (Japanese Unexamined Patent Publication No. 2019-58285) discloses an activity support method for selecting an activity menu according to an evaluation of athletic ability (paragraph [0027], etc.). In Patent Document 6 (Japanese Unexamined Patent Publication No. 2019-63558), a motivational message is provided according to a target state calculated based on an activity point metric indicating the amount of physical activity performed by the user during the first time period. A device for transmitting to a user is disclosed ([Claim 1], etc.).

一方、健康志向は高まっているものの、運動習慣を持たない人の割合は一定のままである。ここには、一度運動習慣を持ったものの、継続できなくなった人も含まれる。したがって、運動継続を支援することが求められている。 On the other hand, although health consciousness is increasing, the percentage of people who do not have exercise habits remains constant. This includes people who once had an exercise habit but could not continue. Therefore, it is required to support the continuation of exercise.

非特許文献1(上地広昭、スポーツ心理学研究 2013年 第40巻 第2号 165−172頁、"運動・スポーツ場面における理想自己への志向性と参加状況の関係"、[online]、平成25年(2013年)9月30日、日本スポーツ心理学会、[令和1年(2019年)6月19日検索]、インターネット<https://www.jstage.jst.go.jp/article/jjspopsy/40/2/40_2013-1218/_pdf>)では、理想自己を志向する強さは、運動(本明細書では、「スポーツ」を含む概念として記述される)に参加することと関連を持っていることが示唆され、また、自己にとって重要な他者(たとえば、インストラクタ)との一体感が理想自己を形成することが示唆されている。そのため、ユーザの運動継続の支援において、当該ユーザにとって重要な他者との一体感を感じさせることは、運動習慣を持つ人の割合を高める上で重要であると考えられる。 Non-Patent Document 1 (Hiroaki Uechi, Sport Psychology Research 2013, Vol. 40, No. 2, pp. 165-172, "Relationship between orientation toward ideal self and participation status in exercise / sports scenes", [online], Heisei September 30, 2013, Japan Sports Psychology Association, [Search June 19, 2019], Internet <https://www.jstage.jst.go.jp/article/ In jjspopsy / 40/2 / 40_2013-1218 / _pdf>), ideal self-oriented strength is associated with participating in exercise (described herein as a concept that includes "sports"). It is also suggested that a sense of unity with others (for example, an instructor) that is important to the self forms the ideal self. Therefore, in supporting the user to continue exercising, it is considered important to give the user a sense of unity with others, which is important for increasing the proportion of people who have exercise habits.

特許第6332830号公報Japanese Patent No. 6332830 特許第6307457号公報Japanese Patent No. 6307457 特許第6270115号公報Japanese Patent No. 6270115 特開2018−42771号公報JP-A-2018-42771 特開2019−58285号公報JP-A-2019-58285 特開2019−63558号公報JP-A-2019-63558

上地広昭、スポーツ心理学研究 2013年 第40巻 第2号 165−172頁、"運動・スポーツ場面における理想自己への志向性と参加状況の関係"、[online]、平成25年(2013年)9月30日、日本スポーツ心理学会、[令和1年(2019年)6月19日検索]、インターネット<https://www.jstage.jst.go.jp/article/jjspopsy/40/2/40_2013-1218/_pdf>Hiroaki Uechi, Sport Psychology Research 2013 Vol. 40, No. 2, pp. 165-172, "Relationship between Orientation to Ideal Self and Participation Status in Exercise / Sports Scenes", [online], 2013 (2013) ) September 30, Japan Society of Sport Psychology, [Search June 19, 2019], Internet <https://www.jstage.jst.go.jp/article/jjspopsy/40/2 / 40_2013-1218 / _pdf>

非特許文献1による示唆を考慮すると、ユーザは運動技術の向上という観点での支援のみによっては運動の継続を促進されないと考えられる。このことから、運動習慣を持つ人の割合を高めるという点について、従来提案されている運動支援は十分なものとは言えないと考えられる。 Considering the suggestion by Non-Patent Document 1, it is considered that the user cannot be promoted to continue the exercise only by the support from the viewpoint of improving the exercise technique. From this, it is considered that the exercise support proposed in the past is not sufficient in terms of increasing the proportion of people who have exercise habits.

本開示は、係る実情に鑑み考え出されたものであり、その目的は、運動技術の向上という観点以外の観点からもユーザを支援することにより、運動習慣を持つ人の割合の向上の一助となる技術を提供することである。 This disclosure was conceived in view of such circumstances, and its purpose is to help increase the proportion of people with exercise habits by supporting users from a viewpoint other than the viewpoint of improving exercise skills. Is to provide the technology.

本開示のある局面に従うと、ユーザの状態に係る行動としてユーザに対して出力される指示内容を選択するための参照用の情報を記憶する記憶部を備え、ユーザの状態は、ユーザにおける運動の継続意欲情報を含み、運動中のユーザについてユーザの状態を取得する取得部と、ユーザの状態と参照用の情報とに基づいて、ユーザに対して出力される指示内容を選択する選択部と、選択された指示内容を出力する出力部と、を備える、情報処理装置が提供される。 According to a certain aspect of the present disclosure, a storage unit for storing reference information for selecting an instruction content output to the user as an action related to the user's state is provided, and the user's state is the movement of the user. An acquisition unit that includes continuation motivation information and acquires the user's status for the exercising user, and a selection unit that selects instruction content to be output to the user based on the user's status and reference information. An information processing apparatus is provided that includes an output unit that outputs the selected instruction content.

好ましくは、参照用の情報は、ユーザの状態に係る行動としてユーザに対して出力される指示内容を選択するために強化学習によって学習された価値関数を含み、選択部は、運動中のユーザについてのユーザの状態に係る行動のうち、価値関数の値が最大となる行動を選択し、価値関数の値が最大となる行動は、報酬であるユーザの状態が運動終了時において最も高くなる行動である。 Preferably, the reference information includes a value function learned by reinforcement learning to select the instruction content output to the user as an action related to the user's state, and the selection unit is about the user in exercise. Among the actions related to the user's state, the action with the maximum value function value is selected, and the action with the maximum value function value is the action in which the user's state as a reward becomes the highest at the end of exercise. is there.

好ましくは、継続意欲情報は、指導者とユーザとの間の一体感を示す一体感情報を含む。 Preferably, the continuation motivation information includes a sense of unity information indicating a sense of unity between the instructor and the user.

好ましくは、一体感情報は、指導者とユーザの笑顔に基づく情報を含む。 Preferably, the sense of unity information includes information based on the smiles of the instructor and the user.

好ましくは、一体感情報は、複数のタイミングにおける指導者とユーザの表情が一致する割合を表す。 Preferably, the sense of unity information represents the ratio at which the facial expressions of the instructor and the user match at a plurality of timings.

好ましくは、ユーザの状態は、指導者とユーザとの間で運動負荷が一致する割合をさらに含む。 Preferably, the user's condition further includes the rate at which the exercise load matches between the instructor and the user.

好ましくは、運動負荷は、指導者とユーザのそれぞれの脈波に基づく。 Preferably, the exercise load is based on the respective pulse waves of the instructor and the user.

好ましくは、ユーザの状態は、指導者とユーザとの間で運動状態が一致する割合をさらに含む。 Preferably, the user's state further includes the rate at which the motor state matches between the instructor and the user.

好ましくは、運動状態は、指導者とユーザのそれぞれの身体について計測される、加速度および角速度の中の少なくとも一方に基づく。 Preferably, the state of motion is based on at least one of acceleration and angular velocity measured for each body of the instructor and the user.

好ましくは、出力部は、指導者の画像を出力し、運動状態は、出力される指導者の身体の移動に係る加速度および角速度の中の少なくとも一方と、ユーザの身体について計測される加速度および角速度の中の少なくとも一方とに基づく。 Preferably, the output unit outputs an image of the instructor, and the motion state is at least one of the output acceleration and angular velocity related to the movement of the instructor's body, and the acceleration and angular velocity measured for the user's body. Based on at least one of them.

好ましくは、継続意欲情報は、ユーザの状態の理想値に対する差異を表す情報を含む。 Preferably, the continuation motivation information includes information that represents a difference from the ideal value of the user's state.

好ましくは、参照用の情報は、ユーザの状態に対する理想的な値を表し、選択部は、ユーザの状態と参照用の情報との差異に基づいて、ユーザに対して出力される指示内容を選択する。 Preferably, the reference information represents an ideal value for the user's state, and the selection unit selects the instruction content to be output to the user based on the difference between the user's state and the reference information. To do.

好ましくは、ユーザの状態は、ユーザの笑顔度を含む。 Preferably, the user's condition includes the degree of smile of the user.

好ましくは、ユーザの状態は、ユーザの生体情報および運動状態の少なくとも一方を含む。 Preferably, the user's state includes at least one of the user's biometric information and motor state.

好ましくは、複数の行動のそれぞれに対応する複数の指示内容は、助言内容または運動強度の少なくとも一方を含む。 Preferably, the plurality of instructions corresponding to each of the plurality of actions includes at least one of the advice content or the exercise intensity.

本開示の他の局面に従うと、ユーザの状態に係る行動としてユーザに対して出力される指示内容を選択する情報処理装置と、ユーザに対して出力される指示内容の価値関数を強化学習により学習する機械学習装置とを備える情報処理システムであって、情報処理装置は、ユーザの状態に係る行動としてユーザに対して出力される指示内容を選択するために強化学習によって学習された価値関数を記憶する記憶部を含み、ユーザの状態は、ユーザの継続意欲情報を含み、情報処理装置は、運動中のユーザについての継続意欲情報を取得する取得部と、運動中のユーザについての継続意欲情報に係る行動のうち、価値関数の値が最大となる行動を選択する選択部と、選択された行動に対応する指示内容を出力する出力部と、を含み、価値関数の値が最大となる行動は、報酬である継続意欲情報が運動終了時において最も高くなる行動であり、機械学習装置は、ユーザの状態を取得する状態取得部と、指示内容の出力前のユーザの状態を状態として、ユーザに対して出力された指示内容を行動として、指示内容の出力後のユーザの状態を報酬として用いて、価値関数を更新する価値関数更新部とを含む、情報処理システムが提供される。 According to other aspects of the present disclosure, an information processing device that selects an instruction content output to the user as an action related to the user's state and a value function of the instruction content output to the user are learned by enhanced learning. It is an information processing system including a machine learning device that performs, and the information processing device stores a value function learned by enhanced learning in order to select an instruction content output to the user as an action related to the user's state. The user's state includes the user's continuation motivation information, and the information processing device includes the acquisition unit for acquiring the continuation motivation information about the exercising user and the continuation motivation information about the exercising user. Among such actions, the action having the maximum value function value includes a selection unit that selects the action having the maximum value function value and an output unit that outputs the instruction content corresponding to the selected action. , The action that the continuous motivation information, which is a reward, becomes the highest at the end of the exercise, and the machine learning device sets the state acquisition unit that acquires the user's state and the user's state before the output of the instruction content as the state, and gives the user An information processing system is provided that includes a value function update unit that updates the value function by using the instruction content output to the user as an action and the user's state after the instruction content is output as a reward.

本開示のさらに他の局面に従うと、ユーザの状態に係る行動としてユーザに対して出力される指示内容の価値関数を強化学習により学習する機械学習装置であって、ユーザの継続意欲情報を含むユーザの状態を取得する状態取得部と、指示内容の出力前のユーザの状態を状態として、ユーザに対して出力された指示内容を行動として、指示内容の出力後のユーザの状態を報酬として用いて、価値関数を更新する価値関数更新部とを備える、機械学習装置が提供される。 According to still another aspect of the present disclosure, it is a machine learning device that learns the value function of the instruction content output to the user as an action related to the user's state by reinforcement learning, and is a user including the user's continuous motivation information. The state acquisition unit that acquires the state of, and the state of the user before the output of the instruction content is used as the state, the instruction content output to the user is used as the action, and the user state after the instruction content is output is used as the reward. , A machine learning device is provided that includes a value function update unit that updates the value function.

本開示によれば、ユーザにおける運動の継続意欲情報に基づいて出力される指示内容が決定される。これにより、本開示は、ユーザに対して運動継続のための支援を実現し、結果として運動習慣を持つ人の割合の向上に寄与する。 According to the present disclosure, the instruction content to be output is determined based on the information on the user's willingness to continue exercising. Thereby, the present disclosure realizes support for the continuation of exercise for the user, and as a result, contributes to an increase in the proportion of people who have exercise habits.

運動支援システムの構成を概略的に説明するための図である。It is a figure for demonstrating the structure of an exercise support system. 管理装置10のハードウェア構成の一例を示す図である。It is a figure which shows an example of the hardware composition of management apparatus 10. インストラクタ端末900のハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware composition of an instructor terminal 900. ユーザ端末910のハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware composition of a user terminal 910. 第1の実施の形態における強化学習のモデルを概念的に示す図である。It is a figure which conceptually shows the model of reinforcement learning in 1st Embodiment. 管理装置10の機能的な構成の一例を示す図である。It is a figure which shows an example of the functional structure of management apparatus 10. カメラ920から取得された画像における顔領域の抽出の一例を説明するための図である。It is a figure for demonstrating an example of extraction of a face region in an image acquired from a camera 920. 状態認識部610の機能的な構成の一例を示す図である。It is a figure which shows an example of the functional structure of the state recognition part 610. 推定モデルを利用して指示内容を出力するための処理のフローチャートである。It is a flowchart of the process for outputting the instruction content using the estimation model. 状態認識部610の機能的な構成の他の例を示す図である。It is a figure which shows another example of the functional structure of the state recognition part 610. 状態認識部610の機能的な構成のさらに他の例を示す図である。It is a figure which shows still another example of the functional structure of the state recognition part 610. 状態認識部610の機能的な構成のさらに他の例を示す図である。It is a figure which shows still another example of the functional structure of the state recognition part 610. 管理装置10Aのハードウェア構成の一例を示す図である。It is a figure which shows an example of the hardware composition of management apparatus 10A. 笑顔参照情報16Pの具体例を説明するための図である。It is a figure for demonstrating a specific example of a smile reference information 16P. 心拍参照情報16Qの具体例を説明するための図である。It is a figure for demonstrating a specific example of heart rate reference information 16Q. 運動一致度参照情報16Rの具体例を説明するための図である。It is a figure for demonstrating the specific example of the motion coincidence degree reference information 16R. 第2の実施の形態において出力されるべき指示内容(助言および/または運動強度)の具体例を説明するための図である。It is a figure for demonstrating the specific example of the instruction content (advice and / or exercise intensity) to be output in the 2nd Embodiment.

以下、図面を参照しつつ、本開示に係る情報処理システムの一実現例として、運動支援システムの実施の形態について説明する。以下の説明では、同一の部品および構成要素には同一の符号を付してある。それらの名称および機能も同じである。したがって、これらについての詳細な説明は繰り返さない。 Hereinafter, an embodiment of the exercise support system will be described as an example of realization of the information processing system according to the present disclosure with reference to the drawings. In the following description, the same parts and components are designated by the same reference numerals. Their names and functions are the same. Therefore, the detailed description of these will not be repeated.

《第1の実施の形態》
[1.運動支援システムの構成の概要]
図1は運動支援システムの構成を概略的に説明するための図である。図1の例では、運動支援システムにおいて、二人のユーザ810が一人のインストラクタ800の指導の下で運動を行っている。管理装置10は、ユーザ810に対して指示内容を出力する。管理装置10は、当該指示内容を出力するときのインストラクタ800と各ユーザ810との間の一体感を表す情報を状態情報とし、出力される指示内容を行動情報とし、指示内容が出力された後の上記一体感を表す情報を報酬として強化学習された、各指示内容の価値関数を利用して、出力される指示内容を決定する。「一体感を表す情報」は、本実施の形態における継続意欲情報の一例である。
<< First Embodiment >>
[1. Outline of the structure of the exercise support system]
FIG. 1 is a diagram for schematically explaining the configuration of the exercise support system. In the example of FIG. 1, in the exercise support system, two users 810 are exercising under the guidance of one instructor 800. The management device 10 outputs the instruction content to the user 810. The management device 10 uses the information representing the sense of unity between the instructor 800 and each user 810 when outputting the instruction content as state information, the output instruction content as action information, and after the instruction content is output. The output instruction content is determined by using the value function of each instruction content that has been strengthened and learned by using the information expressing the above-mentioned sense of unity as a reward. "Information expressing a sense of unity" is an example of continuation motivation information in the present embodiment.

インストラクタ800はインストラクタ端末900を装着している。各ユーザ810はユーザ端末910を装着している。一実現例では、管理装置10は、インストラクタ端末900に指示内容を通知する。インストラクタ端末900は、通知された指示内容を表示する。すなわち、管理装置10による指示内容の出力は、管理装置10自身が直接指示内容の表示等を実施することだけでなく、管理装置10が他の装置に対して指示内容の表示等を促すデータを出力することをも意味する。 The instructor 800 is equipped with an instructor terminal 900. Each user 810 is equipped with a user terminal 910. In one implementation example, the management device 10 notifies the instructor terminal 900 of the instruction content. The instructor terminal 900 displays the notified instruction content. That is, in the output of the instruction content by the management device 10, not only the management device 10 itself directly displays the instruction content or the like, but also the management device 10 prompts other devices to display the instruction content or the like. It also means to output.

(指示内容)
指示内容の一例は、運動に関して出力されるべき助言である。助言の一例は、「完璧ですね!」「OK!」「いいですよ!」「できています!」等の称賛のメッセージである。助言の他の例は、「もっとがんばって!」「もっと大きく動いて!」等の激励のメッセージである。インストラクタ端末900が運動に関して出力されるべき助言を表示すると、インストラクタ800は、表示された助言に従った声を発する。
(Instruction content)
An example of the instruction content is advice to be output regarding exercise. An example of advice is a message of praise such as "It's perfect!", "OK!", "It's good!", "It's done!" Another example of advice is a message of encouragement, such as "Do your best!" Or "Move bigger!". When the instructor terminal 900 displays the advice to be output regarding the exercise, the instructor 800 utters a voice according to the displayed advice.

インストラクタ800は、助言に従った声を発する代わりに、または、助言に従った声を発することに加えて、助言に従った動作を行なってもよい。たとえば、「OK!」という助言に関連して、インストラクタ800はユーザ810の動作が正しいことを表すジェスチャー(例えば、手で「OK」のサインを表す)を行ってもよい。「もっとがんばって!」という助言に関連して、インストラクタ800はユーザ810を励ますためのジェスチャー(例えば、腕を大きく振る)を行ってもよい。 The instructor 800 may perform an action in accordance with the advice instead of or in addition to making a voice in accordance with the advice. For example, in connection with the advice "OK!", The instructor 800 may make a gesture indicating that the user 810's operation is correct (for example, a hand indicating an "OK" sign). In connection with the advice "Do your best!", The instructor 800 may make gestures (eg, swing his arms) to encourage the user 810.

指示内容の他の例は、運動強度である。インストラクタ端末900が運動強度を表示すると、インストラクタ800は、現状の運動強度と表示された運動強度とが異なる場合、ユーザ810に対して運動強度の変更を指示する声を発する。一実現例では、運動強度の上昇の一例は、ステップを踏むことがジャンプすることへと変更されることである。運動強度の低減の一例は、ジャンプすることがステップを踏むことへと変更されることである。 Another example of the instruction is exercise intensity. When the instructor terminal 900 displays the exercise intensity, the instructor 800 issues a voice instructing the user 810 to change the exercise intensity when the current exercise intensity and the displayed exercise intensity are different. In one embodiment, one example of increased exercise intensity is that stepping is transformed into jumping. An example of reduced exercise intensity is that jumping is transformed into stepping.

他の実現例では、運動強度の上昇の一例は、動作の速度を上げることである。この場合、インストラクタ800は「もっとはやく!」「もっと大きく!」等の声を発しても良い。運動強度の低減の一例は、動作の速度を下げることである。この場合、インストラクタ800は「もっとゆっくりでいいです!」等の声を発しても良い。 In another embodiment, one example of increasing exercise intensity is increasing the speed of movement. In this case, the instructor 800 may make voices such as "faster!" And "bigger!". An example of reducing exercise intensity is to reduce the speed of movement. In this case, the instructor 800 may make a voice such as "It's okay to be slower!".

現状の運動強度と表示された運動強度とが異なる場合、声を発することに代えて、または、声を発することに加えて、インストラクタ800は、ユーザ810が表示された運動強度に従って運動できるようにジェスチャーを行ってもよい。一実現例では、インストラクタ800は、変更後の強度に従った動作に従って動作する。より具体的には、インストラクタ800は、ステップを踏んでいた箇所をジャンプに変更された動作シーケンスの見本をユーザ810に見せてもよい。インストラクタ800は、より速い動きもしくはより大きい動き、または、より遅い動きを、動作シーケンスの見本としてユーザ810に見せても良い。 If the current exercise intensity is different from the displayed exercise intensity, instead of or in addition to speaking, the instructor 800 allows the user 810 to exercise according to the displayed exercise intensity. You may make a gesture. In one embodiment, the instructor 800 operates according to the operation according to the changed intensity. More specifically, the instructor 800 may show the user 810 a sample operation sequence in which the stepped portion is changed to a jump. The instructor 800 may show the user 810 a faster or larger or slower movement as a sample motion sequence.

(指示内容の出力方法)
管理装置10は、インストラクタ端末900に対して指示内容を出力する代わりに、または、インストラクタ端末900に対して指示内容を出力することに加えて、スピーカ950から指示内容を出力してもよい。
(Output method of instruction contents)
The management device 10 may output the instruction content from the speaker 950 instead of outputting the instruction content to the instructor terminal 900, or in addition to outputting the instruction content to the instructor terminal 900.

指示内容が助言である場合、管理装置10は、助言に対応する音声をスピーカ950かから出力する。 When the instruction content is advice, the management device 10 outputs the voice corresponding to the advice from the speaker 950.

指示内容が運動強度である場合、管理装置10は、変更後の運動強度に従った音声をスピーカ950から出力する。運動強度の上昇の一例は運動速度の上昇であってもよく、運動強度の低減の一例は運動速度の低減であってもよい。この例によれば、管理装置10は、変更後の運動強度に従った速度で運動ができるように、スピーカ950から出力される音楽のスピードを調整してもよい。音楽のスピードの調整は、スピーカ950から出力される音楽の再生速度の調整であってもよい。音楽のスピードの調整は、スピーカ950から出力される曲の変更であってもよい。運動強度として「高」「中」「低」が設定されている場合、管理装置10には、運動強度「高」に対応する曲と、運動強度「中」に対応する曲と、運動強度「低」に対応する曲とが格納されており、管理装置10は、変更後の運動強度に対応する曲をスピーカ950から出力してもよい。管理装置10は、変更後の運動強度に従った強度で運動ができるように、スピーカ950から出力される音楽の音量を調整しても良い。運動強度が上昇する場合、音量が上げられてもよい。 When the instruction content is exercise intensity, the management device 10 outputs a voice according to the changed exercise intensity from the speaker 950. An example of an increase in exercise intensity may be an increase in exercise speed, and an example of a decrease in exercise intensity may be a decrease in exercise speed. According to this example, the management device 10 may adjust the speed of the music output from the speaker 950 so that the exercise can be performed at a speed according to the changed exercise intensity. The adjustment of the music speed may be the adjustment of the reproduction speed of the music output from the speaker 950. The adjustment of the speed of the music may be a change of the song output from the speaker 950. When "high", "medium", and "low" are set as the exercise intensity, the management device 10 has a song corresponding to the exercise intensity "high", a song corresponding to the exercise intensity "medium", and an exercise intensity "medium". A song corresponding to "low" is stored, and the management device 10 may output a song corresponding to the changed exercise intensity from the speaker 950. The management device 10 may adjust the volume of the music output from the speaker 950 so that the exercise can be performed at an intensity according to the exercise intensity after the change. If the exercise intensity increases, the volume may be increased.

インストラクタ端末900からの指示内容の出力は、表示に代えて、または、表示に加えて、音声や振動であってもよい。インストラクタ端末900は、指示内容を振動パターンとして出力するための振動子を含んでも良い。 The output of the instruction content from the instructor terminal 900 may be voice or vibration instead of or in addition to the display. The instructor terminal 900 may include an oscillator for outputting the instruction content as a vibration pattern.

(出力されるべき指示内容の推定)
管理装置10は、推定モデルを利用して、ユーザ810に対して出力されるべき指示内容を推定する。推定モデルは、後述するように価値関数Qを含む。管理装置10は、ユーザ810の状態を取得し、取得された当該状態について価値関数の値が最大となる指示内容を出力する。「価値関数の値が最大になること」は、ユーザ810がインストラクタ800と一体感を感じている程度が最も高いことを意味する。
(Estimation of instruction content to be output)
The management device 10 estimates the instruction content to be output to the user 810 by using the estimation model. The estimation model includes a value function Q as described below. The management device 10 acquires the state of the user 810 and outputs the instruction content that maximizes the value of the value function for the acquired state. "The value of the value function is maximized" means that the user 810 feels a sense of unity with the instructor 800 at the highest level.

ユーザ810の状態は、ユーザ810が運動継続の意欲(すなわち、今回の運動が終了した後、次回も運動を行おうとする意欲)をどの程度持っているかを表す情報(以下、「継続意欲情報」とも称する)を含む。継続意欲情報の一例として、ユーザ810がインストラクタ800に対してどの程度「一体感」を感じているかを表す情報(以下、「一体感情報」とも称する)が挙げられる。 The state of the user 810 is information indicating how much the user 810 is motivated to continue exercising (that is, motivation to continue exercising after the end of this exercise) (hereinafter, "continuation motivation information"). Also referred to as). As an example of the continuation motivation information, there is information indicating how much the user 810 feels "sense of unity" with respect to the instructor 800 (hereinafter, also referred to as "sense of unity information").

運動支援システムは、一体感情報を生成するためにカメラ920によって撮影される画像を利用してもよい。カメラ920は、ユーザ810が運動する領域(たとえば、ワークアウトルーム)を撮影する。カメラ920は、360度カメラであってもよい。これにより、カメラ920は、ユーザ810だけでなく、ユーザ810と向かい合うインストラクタ800をも撮影し得る。一実現例では、管理装置10は、カメラ920によって撮影された画像のインストラクタ800の領域とユーザ810の領域とを用いて一体感情報を生成する。一体感情報の生成方法は後述する。 The exercise support system may utilize images taken by the camera 920 to generate sense of unity information. The camera 920 captures an area where the user 810 is moving (eg, a workout room). The camera 920 may be a 360 degree camera. As a result, the camera 920 can capture not only the user 810 but also the instructor 800 facing the user 810. In one embodiment, the management device 10 uses the region of the instructor 800 and the region of the user 810 of the image captured by the camera 920 to generate unity information. The method of generating the sense of unity information will be described later.

[2.管理装置の構成]
図2は、管理装置10のハードウェア構成の一例を示す図である。図2を参照して、管理装置10は、主要なハードウェア要素として、プロセッサ11と、メモリ12と、ディスプレイ13と、入力部14と、ネットワークコントローラ15と、ストレージ16とを含む。
[2. Management device configuration]
FIG. 2 is a diagram showing an example of the hardware configuration of the management device 10. With reference to FIG. 2, the management device 10 includes a processor 11, a memory 12, a display 13, an input unit 14, a network controller 15, and a storage 16 as main hardware elements.

ディスプレイ13は、管理装置10での処理に必要な情報を表示する。ディスプレイ13は、例えば、液晶ディスプレイおよび/または有機EL(organic electro-luminescence)ディスプレイなどで構成される。 The display 13 displays information necessary for processing by the management device 10. The display 13 is composed of, for example, a liquid crystal display and / or an organic EL (organic electro-luminescence) display.

プロセッサ11は、後述するような各種プログラムを実行することで、管理装置10の実現に必要な処理を実行する演算主体である、プロセッサ11としては、例えば、1または複数のCPU(Central Processing Unit)および/またはGPU(Graphics Processing Unit)などで構成される。複数のコアを有するCPUまたはGPUが用いられてもよい。管理装置10では、学習済モデルを生成するための学習処理に適したGPUなどを採用することが好ましい。 The processor 11 is an arithmetic unit that executes processing necessary for realizing the management device 10 by executing various programs as described later. The processor 11 includes, for example, one or a plurality of CPUs (Central Processing Units). And / or composed of GPU (Graphics Processing Unit) and the like. A CPU or GPU having a plurality of cores may be used. It is preferable that the management device 10 employs a GPU or the like suitable for the learning process for generating the trained model.

メモリ12は、プロセッサ11がプログラムを実行するにあたって、プログラムコードやワークメモリなどを一時的に格納する記憶領域を提供する。メモリ12としては、例えば、DRAM(Dynamic Random Access Memory)および/またはSRAM(Static Random Access Memory)などの揮発性メモリデバイスが用いられてもよい。 The memory 12 provides a storage area for temporarily storing a program code, a work memory, and the like when the processor 11 executes a program. As the memory 12, for example, a volatile memory device such as DRAM (Dynamic Random Access Memory) and / or SRAM (Static Random Access Memory) may be used.

ネットワークコントローラ15は、ローカルネットワークを介して、インストラクタ端末900およびユーザ端末910を含む任意の通信装置と管理装置10との間のデータの送受信を実現する。ネットワークコントローラ15は、例えば、イーサネット(登録商標)、無線LAN(Local Area Network)、Bluetooth(登録商標)などの任意の通信方式に対応するようにしてもよい。管理装置10は、ネットワークコントローラ15を介して、カメラ920、インストラクタ端末900、および/または、ユーザ端末910と通信し得る。 The network controller 15 realizes transmission / reception of data between an arbitrary communication device including the instructor terminal 900 and the user terminal 910 and the management device 10 via the local network. The network controller 15 may be compatible with any communication method such as Ethernet (registered trademark), wireless LAN (Local Area Network), and Bluetooth (registered trademark). The management device 10 may communicate with the camera 920, the instructor terminal 900, and / or the user terminal 910 via the network controller 15.

なお、管理装置10はインストラクタ端末900およびユーザ端末910と有線で通信してもよいし無線で通信してもよい。 The management device 10 may communicate with the instructor terminal 900 and the user terminal 910 by wire or wirelessly.

ストレージ16は、プロセッサ11にて実行されるOS(Operating System)16D、後述するような機能構成を実現するためのアプリケーションプログラム16C、画像情報16H等のデータから学習用データセット16Fを生成するための前処理プログラム16B、ならびに、学習用データセット16Fを用いて価値関数16Eを学習するための学習用プログラム16Aなどを格納する。 The storage 16 is for generating a learning data set 16F from data such as an OS (Operating System) 16D executed by the processor 11, an application program 16C for realizing a functional configuration as described later, and image information 16H. The preprocessing program 16B, the learning program 16A for learning the value function 16E using the learning data set 16F, and the like are stored.

画像情報16Hは、たとえばカメラ920で撮影された画像である。画像情報16Hの取得および前処理については後述する。 The image information 16H is, for example, an image taken by a camera 920. The acquisition and preprocessing of the image information 16H will be described later.

ストレージ16としては、例えば、ハードディスクおよび/またはSSD(Solid State Drive)などの不揮発性メモリデバイスが用いられてもよい。 As the storage 16, for example, a hard disk and / or a non-volatile memory device such as an SSD (Solid State Drive) may be used.

アプリケーションプログラム16C、前処理プログラム16Bおよび学習用プログラム16Aをプロセッサ11で実行する際に必要となるライブラリや機能モジュールの一部として、OS16Dが標準で提供するライブラリまたは機能モジュールが用いられてもよい。この場合には、アプリケーションプログラム16C、前処理プログラム16Bおよび学習用プログラム16Aの各単体では、対応する機能を実現するために必要なプログラムモジュールのすべてを含むものにはならないが、OS16Dの実行環境下にインストールされることで、後述するような機能構成を実現できることになる。そのため、このような一部のライブラリまたは機能モジュールを含まないプログラムであっても、本発明の技術的範囲に含まれ得る。 As a part of the library or functional module required when executing the application program 16C, the preprocessing program 16B, and the learning program 16A on the processor 11, the library or functional module provided as standard by the OS 16D may be used. In this case, each of the application program 16C, the preprocessing program 16B, and the learning program 16A does not include all the program modules necessary to realize the corresponding functions, but under the execution environment of the OS 16D. By installing it in, it is possible to realize the functional configuration described later. Therefore, even a program that does not include some such libraries or functional modules may be included in the technical scope of the present invention.

アプリケーションプログラム16C、前処理プログラム16Bおよび学習用プログラム16Aは、光学ディスクなどの光学記録媒体、フラッシュメモリなどの半導体記録媒体、ハードディスクまたはストレージテープなどの磁気記録媒体、ならびにMO(Magneto-Optical disk)などの光磁気記録媒体といった非一過的な記録媒体に格納されて流通し、ストレージ16にインストールされてもよい。したがって、本発明の主題は、ストレージ16などにインストールされたプログラム自体、または、本実施の形態に従う機能や処理を実現するためのプログラムを格納した記録媒体でもあり得る。 The application program 16C, the preprocessing program 16B, and the learning program 16A include an optical recording medium such as an optical disk, a semiconductor recording medium such as a flash memory, a magnetic recording medium such as a hard disk or a storage tape, and an MO (Magneto-Optical disk). It may be stored in a non-transient recording medium such as a magneto-optical recording medium, distributed, and installed in the storage 16. Therefore, the subject of the present invention may be the program itself installed in the storage 16 or the like, or a recording medium in which a program for realizing a function or process according to the present embodiment is stored.

あるいは、管理装置10を実現するためのプログラムは、上述したような任意の記録媒体に格納されて流通するだけでなく、インターネットまたはイントラネットを介してサーバ装置などからダウンロードすることで配布されてもよい。 Alternatively, the program for realizing the management device 10 may be distributed not only by being stored in an arbitrary recording medium as described above and distributed, but also by downloading from a server device or the like via the Internet or an intranet. ..

入力部14は、各種の入力操作を受け付ける。入力部14としては、例えば、キーボード、マウス、タッチパネル、ペンなどを用いてもよい。 The input unit 14 accepts various input operations. As the input unit 14, for example, a keyboard, a mouse, a touch panel, a pen, or the like may be used.

図2には、汎用コンピュータ(プロセッサ11)がアプリケーションプログラム16C、前処理プログラム16Bおよび学習用プログラム16Aを実行することで管理装置10を実現する構成例を示すが、管理装置10を実現するために必要な機能の全部または一部は、集積回路などのハードワイヤード回路を用いて実現されてもよい。例えば、ASIC(Application Specific Integrated Circuit、)やFPGA(Field-Programmable Gate Array)などを用いて実現されてもよい。 FIG. 2 shows a configuration example in which the general-purpose computer (processor 11) realizes the management device 10 by executing the application program 16C, the preprocessing program 16B, and the learning program 16A, but in order to realize the management device 10. All or part of the required functions may be realized using hard-wired circuits such as integrated circuits. For example, it may be realized by using an ASIC (Application Specific Integrated Circuit) or an FPGA (Field-Programmable Gate Array).

(統合型構成/クラウド構成)
図2には、典型例として、学習機能および推定モデルを利用した推定機能を実現するためにプロセッサを有している構成を例示したが、これに限らず、運動支援システムの実現に必要な機能をより少ない演算主体で実現する統合型の構成を採用してもよい。
(Integrated configuration / Cloud configuration)
FIG. 2 exemplifies a configuration in which a processor is provided to realize a learning function and an estimation function using an estimation model as a typical example, but the present invention is not limited to this, and functions necessary for realizing an exercise support system are not limited to this. May be adopted in an integrated configuration that realizes the above with fewer arithmetic units.

このような統合型の構成の一例として、学習機能および/または推定機能が、実質的には管理装置10において実現され、ユーザインターフェースを表示するタブレット端末がいわばシンクライアントとして用いられるような、システム構成が提供されてもよい。 As an example of such an integrated configuration, a system configuration in which a learning function and / or an estimation function is substantially realized in the management device 10 and a tablet terminal displaying a user interface is used as a so-called thin client. May be provided.

さらに、管理装置10についても、コンピュータネットワークを介して接続された複数のコンピュータが明示的または黙示的に連携して実現するようにしてもよい。複数のコンピュータが連携する場合、一部のコンピュータがいわゆるクラウドコンピュータと称される、ネットワーク上にある不特定のコンピュータであってもよい。 Further, the management device 10 may also be realized by a plurality of computers connected via a computer network in explicit or implicit cooperation. When a plurality of computers are linked, some of the computers may be unspecified computers on the network, so-called cloud computers.

当業者であれば、本発明が実施される時代に応じた技術を適宜用いて、本実施の形態に従う運動支援システムを実現できるであろう。 A person skilled in the art will be able to realize an exercise support system according to the present embodiment by appropriately using a technique suitable for the times when the present invention is implemented.

[3.インストラクタ端末の構成]
図3は、インストラクタ端末900のハードウェア構成を示すブロック図である。インストラクタ端末900は、たとえば腕時計型のデバイスによって実現される。
[3. Instructor terminal configuration]
FIG. 3 is a block diagram showing a hardware configuration of the instructor terminal 900. The instructor terminal 900 is realized by, for example, a wristwatch-type device.

図3を参照して、インストラクタ端末900は、主たる構成要素として、各種処理を実行するためのCPU901と、CPU901によって実行されるプログラムおよび/またはデータなどを格納するためのメモリ902と、3軸方向の加速度を検出可能な加速度センサ903と、3軸のそれぞれの周りの角速度を検出可能な角速度センサ904と、管理装置10等の外部機器と通信するための通信インターフェイス(I/F)905と、インストラクタ端末900内の各種構成要素に電力を供給する蓄電池906と、脈波センサ907と、液晶表示装置などによって構成されるディスプレイ908と、スピーカ909とを含む。 With reference to FIG. 3, the instructor terminal 900 has, as main components, a CPU 901 for executing various processes, a memory 902 for storing a program and / or data executed by the CPU 901, and a triaxial direction. Accelerometer 903 that can detect the acceleration of the device, angular velocity sensor 904 that can detect the angular velocity around each of the three axes, and a communication interface (I / F) 905 for communicating with an external device such as the management device 10. It includes a storage battery 906 that supplies power to various components in the instructor terminal 900, a pulse wave sensor 907, a display 908 composed of a liquid crystal display device and the like, and a speaker 909.

[4.ユーザ端末の構成]
図4は、ユーザ端末910のハードウェア構成を示すブロック図である。ユーザ端末910は、たとえば腕時計型のデバイスによって実現される。
[4. User terminal configuration]
FIG. 4 is a block diagram showing a hardware configuration of the user terminal 910. The user terminal 910 is realized by, for example, a wristwatch-type device.

図4を参照して、ユーザ端末910は、主たる構成要素として、各種処理を実行するためのCPU911と、CPU911によって実行されるプログラムおよび/またはデータなどを格納するためのメモリ912と、3軸方向の加速度を検出可能な加速度センサ913と、3軸のそれぞれの周りの角速度を検出可能な角速度センサ914と、管理装置10等の外部機器と通信するための通信I/F915と、ユーザ端末910内の各種構成要素に電力を供給する蓄電池916と、脈波センサ917と、液晶表示装置などによって構成されるディスプレイ918と、スピーカ919とを含む。 With reference to FIG. 4, the user terminal 910 has, as main components, a CPU 911 for executing various processes, a memory 912 for storing programs and / or data executed by the CPU 911, and a three-axis direction. Accelerometer 913 that can detect the acceleration of the device, angular velocity sensor 914 that can detect the angular velocity around each of the three axes, communication I / F 915 for communicating with an external device such as the management device 10, and the user terminal 910. Includes a storage battery 916 for supplying power to various components of the above, a pulse wave sensor 917, a display 918 composed of a liquid crystal display device and the like, and a speaker 919.

[5.機械学習]
管理装置10は、価値関数の学習として、運動中の一体感情報と運動終了時の一体感情報とを利用した強化学習を実行する。強化学習としては、どのような学習方法をも採用され得るが、以下の説明では、Q学習(Q-learning)を用いる場合を例に説明する。
[5. Machine learning]
The management device 10 executes reinforcement learning using the sense of unity information during exercise and the sense of unity information at the end of exercise as learning of the value function. Any learning method can be adopted as reinforcement learning, but in the following description, the case of using Q-learning will be described as an example.

Q学習とは、ある状態sに対して行動aを与えた場合に得られる価値を学習する学習方法である。得られる価値は、Q値と呼ばれ、Q(s,a)で表現することができる。 Q-learning is a learning method for learning the value obtained when an action a is given to a certain state s. The value obtained is called the Q value and can be expressed by Q (s, a).

(状態、行動、エージェント、報酬)
図5は、本実施の形態における強化学習のモデルを概念的に示す図である。
(State, behavior, agent, reward)
FIG. 5 is a diagram conceptually showing a model of reinforcement learning in the present embodiment.

本実施形態の強化学習では、状態sとは、運動中のユーザの状態(例えば、運動中の一体感情報)である。 In the reinforcement learning of the present embodiment, the state s is the state of the user during exercise (for example, information on the sense of unity during exercise).

一体感情報の一例は笑顔シンクロ率である。笑顔シンクロ率とは、所与の時間期間内にインストラクタとユーザとの間で笑顔が同時に発生している割合である。当該割合は、たとえば、所与の期間において一定時間毎に取得されたインストラクタとユーザとが撮影されたN枚の画像を取得し、各画像においてインストラクタの顔面領域とユーザの顔面領域とを抽出し、インストラクタとユーザのそれぞれが笑顔であるか否かを判断し、共通して笑顔が発生していた画像の数の全体数(N枚)に対する割合として算出され得る。画像における顔面領域の抽出および表情(笑顔であるか否か)の判定は、たとえば、OKAO(登録商標) Vision(オムロン株式会社)などとして実現される公知の技術によって実現され得る。 An example of unity information is the smile synchronization rate. The smile synchronization rate is the rate at which smiles occur simultaneously between the instructor and the user within a given time period. For this ratio, for example, N images taken by the instructor and the user acquired at regular intervals in a given period are acquired, and the instructor's face area and the user's face area are extracted in each image. , It can be determined as to whether or not each of the instructor and the user is smiling, and it can be calculated as a ratio to the total number of images (N images) in which smiles are commonly generated. The extraction of the facial region in the image and the determination of the facial expression (whether or not the person is smiling) can be realized by a known technique realized as, for example, OKAO (registered trademark) Vision (OMRON Corporation).

笑顔であるか否かの判断は、たとえば、笑顔の度合いを表す数字に対して予め定められた閾値が利用されてもよい。すなわち、ある者の顔画像に対して計測された笑顔の度合いが閾値以上である場合には当該者が笑顔であると判断されてもよく、ある者の顔画像に対して計測された笑顔の度合いが閾値を下回った場合には当該者が笑顔ではないと判断されてもよい。 For the determination of whether or not a person has a smile, for example, a predetermined threshold value may be used for a number indicating the degree of smile. That is, when the degree of the smile measured on the face image of a person is equal to or higher than the threshold value, it may be determined that the person is a smile, and the smile measured on the face image of a person If the degree is below the threshold value, it may be determined that the person is not smiling.

行動aとは、ユーザに対する指示内容の出力である。 The action a is an output of an instruction content to the user.

ここで、Q(s,a)の数は、状態sと行動aの組み合わせの数に等しい。そのため、状態sがとり得る数と行動aがとり得る数が膨大になるとQ(s,a)の数も膨大になり、全てのQ(s,a)をQ学習により求めることが困難になる。そこで、Q(s,a)の表現に深層学習を用いる、DQN(Deep Q Network)と呼ばれる手法が採用され得る。DQNを利用してニューラルネットワークを学習させることによって、状態sおよび行動aを入力することによってQ値が出力されるモデルが得られる。 Here, the number of Q (s, a) is equal to the number of combinations of the state s and the action a. Therefore, when the number that the state s can take and the number that the action a can take become enormous, the number of Q (s, a) also becomes enormous, and it becomes difficult to obtain all Q (s, a) by Q learning. .. Therefore, a method called DQN (Deep Q Network), which uses deep learning to express Q (s, a), can be adopted. By training the neural network using DQN, a model in which the Q value is output by inputting the state s and the action a can be obtained.

行動aを選択するエージェントは、指示内容を出力する運動プログラムである。運動プログラムは、たとえば、管理装置10において実行されるアプリケーションプログラム16C(図2)である。 The agent that selects the action a is an exercise program that outputs the instruction content. The exercise program is, for example, an application program 16C (FIG. 2) executed by the management device 10.

報酬は、指示内容を出力されたユーザの状態(たとえば、一体感情報)である。 The reward is the state of the user (for example, sense of unity information) for which the instruction content is output.

(価値関数の更新式)
Q学習を最初に開始する時点では、状態sと行動aとの組合せについて、価値関数Q(s,a)の正しい値は不明である。そこで、エージェントは、或る状態sの下で様々な行動aを選択し、その時の行動aに対して与えられる報酬に基づいてより良い行動の選択をすることにより、正しい価値関数Q(s,a)を学習していく。
(Update formula of value function)
At the time of first starting Q-learning, the correct value of the value function Q (s, a) is unknown for the combination of the state s and the action a. Therefore, the agent selects various actions a under a certain state s, and selects a better action based on the reward given to the action a at that time, so that the correct value function Q (s, Learn a).

将来にわたって得られる報酬の合計を最大化したいので、最終的にQ(s,a)=E[Σ(γ)r]となるようにすることを目指す。ここでE[]は期待値を表し、tは時刻、γは後述する割引率と呼ばれるパラメータ、rは時刻tにおける報酬、Σは時刻tによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。 Because we want to maximize the sum of the rewards future, finally Q (s, a) = E aims to [Σ (γ t) r t ] become so. Here E [] denotes the expected value, t is the time, parameter γ is called the discount rate to be described later, is r t compensation at time t, sigma is the sum by the time t. The expected value in this equation is the expected value when the state changes according to the optimum behavior.

しかしながら、Q学習の過程において最適な行動が何であるのかは不明であるので、様々な行動が行われることによって、探索しながら、強化学習が実施される。このような価値関数Q(s,a)の更新式は、例えば、次の数式(1)によって表され得る。 However, since it is unclear what the optimal behavior is in the process of Q-learning, reinforcement learning is carried out while searching by performing various behaviors. Such an update formula of the value function Q (s, a) can be expressed by, for example, the following formula (1).

Figure 2021027917
Figure 2021027917

数式(1)は、試行aの結果、返ってきた報酬rt+1を元に、状態sにおける行動aの価値関数Q(s,a)を更新する方法を表している。 Equation (1) as a result of the trial a t, based on the reward r t + 1, which has been returned, action in the state s t a t of value function Q (s t, a t) represents a way to update the.

この更新式は、状態sにおける行動aの価値関数Q(s,a)よりも、行動aによる次の状態st+1における最良の行動の価値maxQ(st+1,a)の方が大きければ、Q(s,a)を大きくし、逆に小さければ、Q(s,a)を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬rt+1のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。 This update equation, behavior in state s t a t the value function Q (s t, a t) than, action a t value of the best behavior in the next state s t + 1 by max a Q (s t + 1 , a) if is larger in, Q (s t, a t ) is increased and smaller Conversely, Q (s t, a t ) have been shown to reduce the. That is, it brings the value of one action in one state closer to the value of the best action in the next state. However, the difference depends on the discount rate γ and the reward rt + 1 , but basically, the value of the best action in a certain state propagates to the value of the action in the previous state. It is a mechanism to go.

ここで、Q学習では、すべての状態行動ペア(s,a)についてのQ(s,a)のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのQ(s,a)の値を求めるには状態数が多すぎて、Q学習が収束するのに多くの時間を要してしまう場合がある。 Here, in Q-learning, there is a method of creating a table of Q (s, a) for all state-behavior pairs (s, a) and performing learning. However, the number of states is too large to obtain the Q (s, a) values of all the state-behavior pairs, and it may take a long time for Q-learning to converge.

そこで、公知のDQN(Deep Q-Network)と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Qを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Qを適当なニューラルネットワークで近似することにより価値関数Q(s,a)の値を算出するようにしてもよい。 Therefore, a known technique called DQN (Deep Q-Network) may be used. Specifically, the value function Q is constructed by using an appropriate neural network, and the value function Q (s, a) is approximated by approximating the value function Q with an appropriate neural network by adjusting the parameters of the neural network. The value of may be calculated.

DQNが利用されることにより、Q学習が収束するのに要する時間が短くされ得る。DQNについては、公知の技術が参照され得る。公知の技術としては、公知文献(たとえば、「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著、URL:http://files.davidqiu.com/research/nature14236.pdf)が参照され得る。 By using DQN, the time required for Q-learning to converge can be shortened. For DQN, known techniques can be referred to. As a known technique, a known document (for example, "Human-level control through deep reinforcement learning", by Volodymyr Mnih1, URL: http://files.davidqiu.com/research/nature14236.pdf) can be referred to.

以上説明をしたQ学習が管理装置10によって行なわれる。 The Q-learning described above is performed by the management device 10.

具体的には、管理装置10は、運動中のユーザの一体感情報を状態sとし、ユーザに対して出力される指示内容を状態sに係る行動aとして選択する価値関数Qを学習する。 Specifically, the management device 10 learns a value function Q that sets the sense of unity information of the user during exercise as the state s and selects the instruction content output to the user as the action a related to the state s.

管理装置10は、情報sを観測して行動aを決定する。管理装置10は、行動aを実行した(指示内容を出力した)後、報酬としてユーザの一体感情報を取得する。管理装置10は、例えば、所与の時間期間の運動の終了時において報酬の合計が最大になるように最適な行動aを試行錯誤的に探索する。報酬が大きくなることは、一体感が高いことを意味する。すなわち、一体感情報は、インストラクタとユーザとの間の共感の度合いが高いほど高い値を呈する。そうすることで、管理装置10は、運動プログラムを実行することで取得される状態sに対して、最適な行動a(すなわち、最適な指示内容)を選択することが可能となる。 The management device 10 observes the information s and determines the action a. After executing the action a (outputting the instruction content), the management device 10 acquires the user's sense of unity information as a reward. The management device 10 searches for the optimum action a by trial and error so that the total reward is maximized at the end of the exercise for a given time period, for example. Larger rewards mean a higher sense of unity. That is, the higher the degree of empathy between the instructor and the user, the higher the value of the sense of unity information. By doing so, the management device 10 can select the optimum action a (that is, the optimum instruction content) for the state s acquired by executing the exercise program.

以上説明されたように、管理装置10により学習された価値関数Qに基づいて、或る状態sに係る行動aのうち、価値関数Qの値が最大となるような行動aを選択することで、運動終了時のインストラクタとユーザとの間の一体感がより高くなるような行動a(すなわち、指示内容)を選択することが可能となる。 As described above, by selecting the action a that maximizes the value of the value function Q among the actions a related to a certain state s, based on the value function Q learned by the management device 10. , It becomes possible to select the action a (that is, the instruction content) that enhances the sense of unity between the instructor and the user at the end of the exercise.

[6.管理装置の機能構成]
図6は、管理装置10の機能的な構成の一例を示す図である。管理装置10は、状態認識部610と、現状一体感推定部620と、最終一体感推定部630と、価値関数更新部640と、行動決定部650と、指示出力部660とを含む。現状一体感推定部620、最終一体感推定部630、価値関数更新部640、および、行動決定部650は、推定モデル(強化学習モデル)の構成要素である。
[6. Management device function configuration]
FIG. 6 is a diagram showing an example of a functional configuration of the management device 10. The management device 10 includes a state recognition unit 610, a current state of unity estimation unit 620, a final unity estimation unit 630, a value function update unit 640, an action determination unit 650, and an instruction output unit 660. The current sense of unity estimation unit 620, the final sense of unity estimation unit 630, the value function update unit 640, and the action determination unit 650 are components of the estimation model (reinforcement learning model).

状態認識部610は、推定モデルが状態sを取得するための情報を生成する。一実現例では、状態認識部610は、カメラ920から画像を取得し、当該画像からインストラクタの顔領域およびユーザの顔領域を抽出する。 The state recognition unit 610 generates information for the estimation model to acquire the state s. In one implementation example, the state recognition unit 610 acquires an image from the camera 920 and extracts the face area of the instructor and the face area of the user from the image.

図7は、カメラ920から取得された画像における顔領域の抽出の一例を説明するための図である。図7には、カメラ920から取得される画像の一例として画像9201が示される。画像9201は、インストラクタ800を含む第1の部分9201Aと、二人のユーザ810を含む第2の部分9201Bとを含む。第1の部分9201Aにおいて、領域AR11は、インストラクタ800の顔領域として特定され得る。第2の部分9201Bにおいて、領域AR12は、二人のユーザ810のうち左側のユーザの顔領域として特定され得、領域AR13は、二人のユーザ810のうち右側のユーザの顔領域として特定され得る。顔領域の抽出には、たとえば公知のパターン認識技術が採用され得る。 FIG. 7 is a diagram for explaining an example of extracting a face region in an image acquired from the camera 920. FIG. 7 shows image 9201 as an example of an image acquired from camera 920. Image 9201 includes a first portion 9201A that includes an instructor 800 and a second portion 9201B that includes two users 810. In the first portion 9201A, the region AR11 can be identified as the face region of the instructor 800. In the second portion 9201B, the area AR12 may be identified as the face area of the left user of the two users 810, and the area AR13 may be identified as the face area of the right user of the two users 810. .. For example, a known pattern recognition technique can be adopted for extracting the face region.

状態認識部610は、さらに、インストラクタの顔領域の画像に基づいてインストラクタが笑顔であるか否かを判定し、ユーザの顔領域の画像に基づいてユーザが笑顔であるか否かを判定し、これらの判定結果を現状一体感推定部620へ出力する。 The state recognition unit 610 further determines whether or not the instructor is smiling based on the image of the instructor's face area, and determines whether or not the user is smiling based on the image of the user's face area. These determination results are output to the current state of unity estimation unit 620.

一実現例では、状態認識部610は、プロセッサ11が前処理プログラム16Bを実行することによって実現され得る。 In one implementation example, the state recognition unit 610 can be realized by the processor 11 executing the preprocessing program 16B.

図8は、状態認識部610の機能的な構成の一例を示す図である。状態認識部610は、インストラクタおよびユーザのそれぞれの顔領域を抽出する領域抽出モジュール611を含む。一実現例では、領域抽出モジュール611は、所与の条件に従って、認識された顔領域がインストラクタのものであるかユーザのものであるかを特定してもよい。所与の条件の一例は、予めストレージ16等に格納された各インストラクタおよび各ユーザの顔画像である。領域抽出モジュール611は、たとえば、パターン認識に基づいて顔領域を特定した後、顔領域の特徴量(たとえば、両目の間隔(距離)と両目の中心点から鼻の重心までの距離との比)を当該顔領域を予め格納された顔画像から取得される特徴量とを対比することなどによって当該顔領域がインストラクタに対応するのかユーザに対応するのかを特定してもよい。 FIG. 8 is a diagram showing an example of the functional configuration of the state recognition unit 610. The state recognition unit 610 includes an area extraction module 611 that extracts each face area of the instructor and the user. In one embodiment, the region extraction module 611 may specify whether the recognized face region belongs to the instructor or the user according to a given condition. An example of a given condition is a face image of each instructor and each user stored in advance in the storage 16 or the like. The region extraction module 611 identifies the face region based on pattern recognition, and then features the facial region (for example, the ratio between the distance between the eyes (distance) and the distance from the center point of both eyes to the center of gravity of the nose). It may be specified whether the face area corresponds to the instructor or the user by comparing the face area with the feature amount acquired from the face image stored in advance.

状態認識部610は、表情判定モジュール612を含む。表情判定モジュール612は、各顔領域によって示される表情が笑顔であるのか否かを判定する。 The state recognition unit 610 includes a facial expression determination module 612. The facial expression determination module 612 determines whether or not the facial expression indicated by each face region is a smile.

図8に示された構成により、状態認識部610は、カメラ920から取得される画像において、インストラクタが笑顔であるか否かを表すデータ、および、ユーザが笑顔であるか否かを表すデータを出力し得る。 According to the configuration shown in FIG. 8, the state recognition unit 610 displays data indicating whether or not the instructor is smiling and data indicating whether or not the user is smiling in the image acquired from the camera 920. Can be output.

図6に戻って、現状一体感推定部620は、状態認識部610から出力されるデータを用いて、運動中の各ユーザの一体感情報を算出する。 Returning to FIG. 6, the current state of unity estimation unit 620 calculates the unity information of each user during exercise using the data output from the state recognition unit 610.

運動中の一体感情報の一例は、運動中の「笑顔シンクロ率」である。一実現例では、状態認識部610は、運動開始時から(または運動開始から特定時間が経過した時点から)所与の期間経過までの一定時間ごとの画像のそれぞれについて、インストラクタが笑顔であるか否かを表すデータと、ユーザが笑顔であるか否かを表すデータとを、現状一体感推定部620へ出力する。現状一体感推定部620は、これらのデータを利用して、運動中の「笑顔シンクロ率」を算出する。 An example of information on the sense of unity during exercise is the “smile synchronization rate” during exercise. In one implementation example, the state recognition unit 610 asks whether the instructor is smiling for each of the images at regular intervals from the start of exercise (or from the time when a specific time elapses from the start of exercise) to the elapse of a given period. The data indicating whether or not the user is smiling and the data indicating whether or not the user is smiling are output to the current state unity estimation unit 620. The current state of unity estimation unit 620 uses these data to calculate the “smile synchronization rate” during exercise.

たとえば、状態認識部610は、運動開始後、一定時間毎に5秒間、インストラクタおよびユーザのそれぞれの顔画像を1秒毎に合計6枚ずつ取得し、これらの画像のそれぞれについて、インストラクタが笑顔であるか否かを表すデータと、ユーザが笑顔であるか否かを表すデータとを生成する。1つの撮像画像にインストラクタとユーザの双方の顔画像が含まれていても良いし、インスタラクタの顔画像とユーザの顔画像とが別々の撮像画像に含まれていても良い。そして、これらのデータを時刻tのデータとして現状一体感推定部620へ出力する。現状一体感推定部620は、これらのデータを利用して、運動中の「笑顔シンクロ率」(時刻の状態「笑顔シンクロ率」)を算出する。 For example, the state recognition unit 610 acquires a total of six facial images of the instructor and the user every second for 5 seconds at regular intervals after the start of exercise, and the instructor smiles at each of these images. Data indicating whether or not there is, and data indicating whether or not the user is smiling are generated. The face image of both the instructor and the user may be included in one captured image, or the face image of the instructor and the face image of the user may be included in separate captured images. Then, these data are output to the current state unity estimation unit 620 as data at time t. The current state of unity estimation unit 620 uses these data to calculate the “smile synchronization rate” during exercise (the state “smile synchronization rate” at time t).

価値関数更新部640は、強化学習を実施することにより、推定モデルにおける価値関数を更新する。一実現例では、価値関数更新部640は、プロセッサ11が学習用プログラム16Aを実行することによって実現される。 The value function update unit 640 updates the value function in the estimation model by performing reinforcement learning. In one implementation example, the value function update unit 640 is realized by the processor 11 executing the learning program 16A.

より具体的には、価値関数更新部640は、時刻tの「笑顔シンクロ率」と、時刻tに出力された指示内容と、出力された当該指示内容に応じた「笑顔シンクロ率」(時刻t+1の「笑顔シンクロ率」)とを用いて、価値関数を更新する。現状一体感推定部620によって算出された時刻tの「笑顔シンクロ率」と、後述する行動決定部650によって決定さえた時刻tに出力された指示内容(行動)と関連付けられて、学習用データセットとしてストレージ16に格納されてもよい。 More specifically, the value function update unit 640 has a "smile synchronization rate" at time t, an instruction content output at time t, and a "smile synchronization rate" (time t + 1) according to the output instruction content. Update the value function using "Smile Synchro Rate"). A data set for learning is associated with the "smile synchronization rate" at time t calculated by the current state of unity estimation unit 620 and the instruction content (behavior) output at time t even determined by the action determination unit 650 described later. May be stored in the storage 16.

行動決定部650は、時刻tに出力するべき指示内容として決定する。より具体的には、行動決定部650は、上記指示内容として、マルコフ決定過程を用いて、時刻tの「笑顔シンクロ率」(状態)に対して価値関数の値が最大となる指示内容を決定する。そして、行動決定部650は、決定された指示内容を特定する情報を指示出力部660へ出力する。一実現例では、行動決定部650は、プロセッサ11がアプリケーションプログラム16Cを実行することによって実現される。 The action determination unit 650 determines the instruction content to be output at time t. More specifically, the action determination unit 650 determines the instruction content that maximizes the value of the value function with respect to the "smile synchronization rate" (state) at time t by using the Markov determination process as the above instruction content. To do. Then, the action determination unit 650 outputs the information for specifying the determined instruction content to the instruction output unit 660. In one implementation example, the action decision unit 650 is realized by the processor 11 executing the application program 16C.

指示出力部660は、行動決定部650からの指示内容を出力するための指示をインストラクタ端末900へ与える。一実現例では、行動決定部650は、複数の指示内容のそれぞれを構成する要素(たとえば、助言、運動強度、または、これらの組み合わせ)を符号化していてもよい。この場合、指示出力部660は、行動決定部650から出力された符号(指示内容を構成する要素を特定する符号)を具体的な指示内容へと変換し、変換された指示内容の出力の指示をインストラクタ端末900へ与えても良い。 The instruction output unit 660 gives an instruction to output the instruction content from the action determination unit 650 to the instructor terminal 900. In one implementation example, the action determination unit 650 may encode the elements (for example, advice, exercise intensity, or a combination thereof) that constitute each of the plurality of instruction contents. In this case, the instruction output unit 660 converts the code output from the action determination unit 650 (the code that identifies the element constituting the instruction content) into a specific instruction content, and instructs the output of the converted instruction content. May be given to the instructor terminal 900.

[7.指示内容の推定]
図9は、推定モデルを利用して指示内容を出力するための処理のフローチャートである。以下、図9を参照して、指示内容の出力について説明する。
[7. Guidance content estimation]
FIG. 9 is a flowchart of processing for outputting the instruction content using the estimation model. Hereinafter, the output of the instruction content will be described with reference to FIG.

ステップS100にて、状態認識部610は、運動の開始時条件を取得し、当該開始時条件を運動プログラムに適用することにより、運動開始時の条件を取得する。 In step S100, the state recognition unit 610 acquires the start condition of the exercise, and applies the start condition to the exercise program to acquire the condition at the start of the exercise.

運動開始時の条件の一例は、ユーザの特性(性別および/または年齢などの属性、性格、など)である。複数のユーザが一人のインストラクタの下で運動を行う場合、運動開始時の条件は、複数のユーザの特性のうち過半数を示す特性が選択されてもよい。 An example of a condition at the start of exercise is a user's characteristics (attributes such as gender and / or age, personality, etc.). When a plurality of users exercise under one instructor, a characteristic indicating a majority of the characteristics of the plurality of users may be selected as the condition at the start of the exercise.

運動開始時の条件の他の例は、運動開始時のユーザのバイタルデータ(たとえば、心拍数)である。複数のユーザが一人のインストラクタの下で運動を行う場合、運動開始時の条件は、複数のユーザの特性の平均値であってもよいし、最大値または最小値であってもよい。運動開始時の条件のさらに他の例は、上記された特性およびバイタルデータの組み合わせである。 Another example of an exercise start condition is the user's vital data (eg, heart rate) at the start of exercise. When a plurality of users exercise under one instructor, the condition at the start of the exercise may be an average value of the characteristics of the plurality of users, or may be a maximum value or a minimum value. Yet another example of the conditions at the start of exercise is a combination of the characteristics and vital data described above.

状態認識部610は、上記のように取得された条件に従って、運動開始時の運動の内容を選択する。選択される運動の内容は、たとえば運動強度である。本実施の形態では、運動強度として「高」「中」「低」の三段階が設定されていてもよい。状態認識部610は、上記のように取得された条件に従って、「高」「中」「低」の三段階の中から1つの段階を開始時の運動の内容として選択する。 The state recognition unit 610 selects the content of the exercise at the start of the exercise according to the conditions acquired as described above. The content of the exercise selected is, for example, exercise intensity. In the present embodiment, three stages of "high", "medium", and "low" may be set as the exercise intensity. The state recognition unit 610 selects one of the three stages of "high", "medium", and "low" as the content of the exercise at the start according to the conditions acquired as described above.

たとえば、ユーザの年齢が35歳以下であれば、状態認識部610は、開始時の運動の内容として運動強度「高」を選択してもよい。ユーザの年齢が36歳〜50歳の範囲に含まれる場合、状態認識部610は、開始時の運動の内容として運動強度「中」を選択してもよい。ユーザの年齢が51歳以上である場合、状態認識部610は、開始時の運動の内容として運動強度「低」を選択してもよい。 For example, if the age of the user is 35 years or younger, the state recognition unit 610 may select “high” exercise intensity as the content of the exercise at the start. When the age of the user is included in the range of 36 to 50 years old, the state recognition unit 610 may select the exercise intensity “medium” as the content of the exercise at the start. When the age of the user is 51 years or older, the state recognition unit 610 may select "low" exercise intensity as the content of the exercise at the start.

ステップS102にて、状態認識部610は、ステップS100において選択された内容で運動を実施する。運動の開始から一定時間が経過すると、または、前回ステップS104の制御が実行された時点から一定時間が経過すると、状態認識部610はステップS104へ制御を進める。 In step S102, the state recognition unit 610 performs the exercise with the content selected in step S100. When a certain time elapses from the start of the exercise, or when a certain time elapses from the time when the control in step S104 was executed last time, the state recognition unit 610 advances the control to step S104.

ステップS104にて、状態認識部610は、運動開始時から所与の期間(たとえば、15分)が経過したか否かを判断する。状態認識部510は、まだ運動開始時から所与の期間が経過していないと判断すると(ステップS104にてNO)、ステップS106へ制御を進め、運動開始時から所与の期間が経過していると判断すると(ステップS104にてYES)、ステップS112へ制御を進める。 In step S104, the state recognition unit 610 determines whether or not a given period (for example, 15 minutes) has elapsed from the start of the exercise. When the state recognition unit 510 determines that the given period has not yet elapsed from the start of the exercise (NO in step S104), the state recognition unit 510 advances control to step S106, and the given period has elapsed from the start of the exercise. If it is determined that there is (YES in step S104), the control proceeds to step S112.

すなわち、図9の処理では、所与の期間(たとえば、15分)の運動中、一定時間(たとえば、1分)ごとにステップS104が実施される。 That is, in the process of FIG. 9, step S104 is performed at regular time intervals (for example, 1 minute) during exercise for a given period (for example, 15 minutes).

ステップS106にて、状態認識部610は、運動中の一体感情報を算出するためのデータを生成する。一体感情報として「笑顔シンクロ率」が採用された場合、ステップS106において生成されるデータは、カメラ920から取得された画像における、インストラクタが笑顔であるか否かの判定結果、および、ユーザが笑顔であるか否かの判定結果を含む。 In step S106, the state recognition unit 610 generates data for calculating the sense of unity information during exercise. When the "smile synchronization rate" is adopted as the sense of unity information, the data generated in step S106 is the determination result of whether or not the instructor is smiling in the image acquired from the camera 920, and the user smiles. Includes the judgment result of whether or not.

ステップS108にて、現状一体感推定部620は、ステップS106にて生成されたデータを用いて、運動中のユーザの一体感情報を算出する。運動中のユーザの一体感情報は、運動中の各ユーザについての「笑顔シンクロ率」である。今回のステップS108によって、時刻tの「笑顔シンクロ率」が生成される。これにより、これ以前のステップS108によって生成された「笑顔シンクロ率」は、その時刻情報を変更される。たとえば、前回のステップS108において生成された時刻tの「笑顔シンクロ率」は、時刻t−1の「笑顔シンクロ率」へと変更される。 In step S108, the current state of unity estimation unit 620 calculates the sense of unity information of the user during exercise using the data generated in step S106. The unity information of the users during exercise is the "smile synchronization rate" for each user during exercise. In step S108 this time, the "smile synchronization rate" at time t is generated. As a result, the time information of the "smile synchronization rate" generated in step S108 prior to this is changed. For example, the "smile synchronization rate" at time t generated in the previous step S108 is changed to the "smile synchronization rate" at time t-1.

ステップS110にて、行動決定部650は、ステップS108にて算出された時刻tの「笑顔シンクロ率」について、価値関数の値が最大となる指示内容を、時刻tの指示内容として決定し、決定された時刻tの指示内容を指示出力部660へ出力する。指示出力部660は、当該指示内容の出力をインストラクタ端末900に対して指示する。その後、制御はステップS102へ戻される。 In step S110, the action determination unit 650 determines and determines the instruction content that maximizes the value of the value function as the instruction content at time t with respect to the "smile synchronization rate" at time t calculated in step S108. The instruction content at the time t is output to the instruction output unit 660. The instruction output unit 660 instructs the instructor terminal 900 to output the instruction content. After that, control is returned to step S102.

一方、ステップS112にて、価値関数更新部640は、学習用データセットとして、各時刻の「笑顔シンクロ率」と指示内容の組み合わせをストレージ16に格納する。その後、図9の処理は終了する。なお、管理装置10において、強化学習に利用されるデータセットの収集が不要である場合には、ステップS112は省略されてもよい。 On the other hand, in step S112, the value function update unit 640 stores a combination of the “smile synchronization rate” and the instruction content at each time in the storage 16 as a learning data set. After that, the process of FIG. 9 ends. If the management device 10 does not need to collect the data set used for reinforcement learning, step S112 may be omitted.

以上説明された図9の処理によれば、強化学習により更新された価値関数を利用されて、時刻tの「笑顔シンクロ率」について、価値関数の値が最大となる時刻tの指示内容が出力される。 According to the process of FIG. 9 described above, the value function updated by reinforcement learning is used to output the instruction content at time t at which the value of the value function is maximum for the “smile synchronization rate” at time t. Will be done.

また、図9の処理によれば、各時刻について、価値関数の強化学習に利用される、「笑顔シンクロ率」(状態)および指示内容(行動)が収集される。時刻tの「笑顔シンクロ率」は、時刻t−1の行動に対する報酬として利用され得る。 Further, according to the process of FIG. 9, the “smile synchronization rate” (state) and the instruction content (behavior) used for the reinforcement learning of the value function are collected at each time. The "smile synchronization rate" at time t can be used as a reward for the action at time t-1.

[変形例]
(ユーザの人数)
上述の実施の形態では、1人のインストラクタの下で2人のユーザが運動を行ったが、運動におけるインストラクタおよびユーザの人数はこれらに制限されない。たとえば、インストラクタが複数いても良いし、ユーザは1人であってもよい。なお、複数のユーザが同じインストラクタの下で運動を行った場合、価値関数の更新のために利用される「状態」「行動」「報酬」のそれぞれのデータは、各ユーザについて独立して生成されてもよいし、複数のユーザのそれぞれについて生成されたデータを組み合わされることによって生成されてもよい。
[Modification example]
(Number of users)
In the above-described embodiment, two users exercise under one instructor, but the number of instructors and users in the exercise is not limited thereto. For example, there may be a plurality of instructors, or there may be one user. When multiple users exercise under the same instructor, the "state", "behavior", and "reward" data used to update the value function are generated independently for each user. It may be generated by combining the data generated for each of a plurality of users.

(仮想インストラクタ)
上述の実施の形態では、インストラクタおよびユーザの表情に関する情報として、それぞれの画像の顔領域から判定された笑顔であるか否かの情報が採用された。
(Virtual instructor)
In the above-described embodiment, as information on facial expressions of the instructor and the user, information on whether or not the smile is determined from the face area of each image is adopted.

なお、管理装置10は、運動プログラムを実行することにより、インストラクタ800の代わりに、ディスプレイ13に仮想インストラクタを表示させてもよい。この場合、管理装置10は、インストラクタの表情に関する情報を、ディスプレイ13に表示させる仮想インストラクタの表示制御に利用されるデータから取得してもよい。さらに、管理装置10は、仮想インストラクタを指示内容に従って動作させることによって、指示内容を出力してもよい。すなわち、管理装置10は、仮想インストラクタに指示内容に従った助言内容のメッセージを言わせたり、指示内容に従った運動強度を表す動作を行わせたりしてもよい。1つの運動のクラスに、複数の仮想インストラクタが表示されてもよい。より具体的には、ワークアウトルームにおいて、前方右側に一体目の仮想インストラクタが前方左側に二体目の仮想インストラクタが表示されてもよい。この場合、二体の仮想インストラクタの双方から常に指示内容が出力されてもよいし、二体の仮想インストラクタから交互に指示内容が出力されてもよい。 The management device 10 may display the virtual instructor on the display 13 instead of the instructor 800 by executing the exercise program. In this case, the management device 10 may acquire information on the facial expression of the instructor from the data used for display control of the virtual instructor to be displayed on the display 13. Further, the management device 10 may output the instruction content by operating the virtual instructor according to the instruction content. That is, the management device 10 may have the virtual instructor say a message of advice content according to the instruction content, or perform an operation indicating exercise intensity according to the instruction content. Multiple virtual instructors may be displayed in one exercise class. More specifically, in the workout room, the first virtual instructor may be displayed on the front right side and the second virtual instructor may be displayed on the front left side. In this case, the instruction content may always be output from both of the two virtual instructors, or the instruction content may be output alternately from the two virtual instructors.

(物理的な一体感)
本実施の形態では、一体感情報は、ユーザがインストラクタとどの程度一体感を感じているかを表す。この意味において、管理装置10は、価値関数を用いることにより、運動終了時にユーザがインストラクタに対して精神的な一体感をより大きく感じられるような指示内容を選択し得る。なお、価値関数は、運動終了時にユーザがインストラクタに対して、精神的な一体感に加えて物理的な一体感をより大きく感じられるような指示内容を規定してもよい。このために、価値関数の更新において「状態」および「報酬」として利用される「ユーザの状態」は、笑顔シンクロ率に加えて、物理的な一体感を表す情報を含んでもよい。
(Physical sense of unity)
In the present embodiment, the sense of unity information indicates how much the user feels a sense of unity with the instructor. In this sense, the management device 10 can select the instruction content so that the user feels a greater sense of mental unity with the instructor at the end of the exercise by using the value function. The value function may specify the instruction content so that the user can feel a greater physical sense of unity in addition to the mental sense of unity to the instructor at the end of the exercise. For this reason, the "user state" used as the "state" and "reward" in the update of the value function may include information representing a physical sense of unity in addition to the smile synchronization rate.

<運動負荷のシンクロ率>
物理的な一体感を表す情報の一例は、運動負荷のシンクロ率である。運動負荷のシンクロ率とは、運動中のユーザにおける負荷が運動中のインストラクタにおける負荷にどれだけ近いかを表す。状態認識部610は、たとえば、インストラクタとユーザのそれぞれの一定時間の脈波の計測結果に基づいて、それぞれの運動負荷を表す値(たとえば、R−R距離(R波の出現間隔))を算出し、現状一体感推定部620へ出力する。現状一体感推定部620は、インストラクタの運動負荷とユーザの運動負荷の差異を、運動負荷のシンクロ率として導出する。
<Synchronization rate of exercise load>
An example of information that expresses a sense of physical unity is the synchronization rate of exercise load. The synchro rate of the exercise load represents how close the load in the user during exercise is to the load in the instructor during exercise. The state recognition unit 610 calculates, for example, a value representing each exercise load (for example, RR distance (R wave appearance interval)) based on the measurement results of pulse waves of the instructor and the user for a certain period of time. Then, it is output to the current state of unity estimation unit 620. The current state of unity estimation unit 620 derives the difference between the exercise load of the instructor and the exercise load of the user as the synchronization rate of the exercise load.

図10は、状態認識部610の機能的な構成の他の例を示す図である。図10の例では、状態認識部610はさらに信号処理モジュール621,622を含む。信号処理モジュール621は、インストラクタの脈波の計測結果1001を取得し、当該計測結果を公知の方法で処理することによりR−R距離を導出し、導出されたR−R距離を現状一体感推定部620へ出力する。信号処理モジュール622は、ユーザの脈波の計測結果1002を取得し、当該計測結果を公知の方法で処理することによりR−R距離を導出し、導出されたR−R距離を現状一体感推定部620へ出力する。 FIG. 10 is a diagram showing another example of the functional configuration of the state recognition unit 610. In the example of FIG. 10, the state recognition unit 610 further includes signal processing modules 621 and 622. The signal processing module 621 acquires the measurement result 1001 of the pulse wave of the instructor, derives the RR distance by processing the measurement result by a known method, and estimates the derived RR distance as a sense of unity at present. Output to unit 620. The signal processing module 622 acquires the measurement result 1002 of the user's pulse wave, derives the RR distance by processing the measurement result by a known method, and estimates the derived RR distance as a sense of unity at present. Output to unit 620.

計測結果1001は、たとえば脈波センサ907から管理装置10へ送信される。計測結果1002は、たとえば脈波センサ917から管理装置10へ送信される。 The measurement result 1001 is transmitted from, for example, the pulse wave sensor 907 to the management device 10. The measurement result 1002 is transmitted from, for example, the pulse wave sensor 917 to the management device 10.

図10に従った例では、「ユーザの状態」は、笑顔シンクロ率SSと運動負荷のシンクロ率LSとの関数として導出される。ユーザの状態USを規定する関数(状態規定関数)の一例は、US=mSS+nLS(mとnは定数)であるが、これに限定されない。現状一体感推定部620は、笑顔シンクロ率と運動負荷のシンクロ率とを上記状態規定関数に適用することにより、価値関数の更新に利用される行動の値および報酬の値を導出する。 In the example according to FIG. 10, the "user state" is derived as a function of the smile synchronization rate SS and the exercise load synchronization rate LS. An example of a function that defines the user's state US (state-defining function) is US = mSS + nLS (m and n are constants), but is not limited thereto. The current state of unity estimation unit 620 derives the action value and the reward value used for updating the value function by applying the smile synchronization rate and the exercise load synchronization rate to the above-mentioned state-determining function.

<運動状態のシンクロ率>
物理的な一体感を表す情報の他の例は、運動状態のシンクロ率である。運動状態のシンクロ率とは、運動中のユーザの動作が運動中のインストラクタの動作にどれだけ近いかを表す。状態認識部610は、たとえば、インストラクタとユーザのそれぞれの一定時間における手首等において生じた加速度および/または角速度の計測結果を用いて、インストラクタとユーザのそれぞれの運動ベクトルを生成する。そして、状態認識部610は、インストラクタの運動ベクトルとユーザの運動ベクトルを現状一体感推定部620へ出力する。現状一体感推定部620は、インストラクタの運動ベクトルとユーザの運動ベクトルの向きの一致度(たとえば、インストラクタの運動ベクトルとユーザの運動ベクトルの内積によって求められ得る)を、運動状態のシンクロ率として導出する。
<Synchronization rate of exercise state>
Another example of information that represents a sense of physical unity is the rate of synchronization of motor states. The synchronization rate of the exercise state indicates how close the movement of the user during exercise is to the movement of the instructor during exercise. The state recognition unit 610 generates motion vectors for the instructor and the user, for example, by using the measurement results of the acceleration and / or the angular velocity generated on the wrists of the instructor and the user for a certain period of time. Then, the state recognition unit 610 outputs the motion vector of the instructor and the motion vector of the user to the current state unity estimation unit 620. The current state of unity estimation unit 620 derives the degree of agreement between the direction of the instructor's motion vector and the user's motion vector (for example, it can be obtained by the inner product of the instructor's motion vector and the user's motion vector) as the synchronization rate of the motion state. To do.

なお、運動状態のシンクロ率の算出には、必ずしも向きの一致までは考慮されなくてもよい。すなわち、運動状態のシンクロ率は、運動の大きさのみが考慮されてもよい。運動の大きさのシンクロ率は、インストラクタの運動ベクトルの二乗平方根とユーザの運動ベクトルの二乗平方根の差異として算出され得る。差異が小さい程運動状態のシンクロ率が高いと判断され得る。 In addition, in the calculation of the synchronization rate of the exercise state, it is not always necessary to consider the coincidence of directions. That is, the synchronization rate of the exercise state may consider only the magnitude of the exercise. The motion magnitude sync rate can be calculated as the difference between the root mean square of the instructor's motion vector and the root mean square of the user's motion vector. It can be judged that the smaller the difference, the higher the synchronization rate of the exercise state.

また、運動状態のシンクロ率の算出に、運動ベクトルの向きの一致まで必要とするか、運動ベクトルの向きの一致までは必要としないかを、ユーザの特性に基づいて決定してもよい。 Further, it may be determined based on the characteristics of the user whether the calculation of the synchronization rate of the motion state requires the matching of the directions of the motion vectors or not.

ユーザの特性の一例は、ユーザの運動の熟練度である。ユーザの運動の熟練度が高い場合には、シンクロ率の算出において運動ベクトルの向きの一致まで考慮される。ユーザの運動の熟練度が低い場合には、シンクロ率の算出において運動ベクトルの向きの一致までは考慮されない。 An example of a user's characteristics is the user's exercise proficiency. When the user's skill level of exercise is high, even the matching of the directions of the motion vectors is taken into consideration in the calculation of the synchronization rate. When the user's skill level of exercise is low, the matching of the directions of the motion vectors is not considered in the calculation of the synchronization rate.

ユーザの特性の他の例は、ユーザの年齢である。ユーザの年齢が低い場合(ユーザが若い場合)には、シンクロ率の算出において運動ベクトルの向きの一致まで考慮される。ユーザの年齢が高い場合(ユーザが若くない場合)には、シンクロ率の算出において運動ベクトルの向きの一致までは考慮されない。 Another example of a user's characteristics is the age of the user. When the user is young (when the user is young), even the matching of the directions of the motion vectors is taken into consideration in the calculation of the synchronization rate. When the user is old (when the user is not young), the coincidence of the directions of the motion vectors is not considered in the calculation of the synchronization rate.

図11は、状態認識部610の機能的な構成のさらに他の例を示す図である。図11の例では、状態認識部610はさらに運動ベクトル生成モジュール631,632を含む。運動ベクトル生成モジュール631は、インストラクタの加速度データ1011と角速度データ1021を取得し、これらを用いてインストラクタの運動ベクトルを導出し、導出された運動ベクトルを現状一体感推定部620へ出力する。運動ベクトル生成モジュール632は、ユーザの加速度データ1012と角速度データ1022を取得し、これらを用いてユーザの運動ベクトルを導出し、導出された運動ベクトルを現状一体感推定部620へ出力する。 FIG. 11 is a diagram showing still another example of the functional configuration of the state recognition unit 610. In the example of FIG. 11, the state recognition unit 610 further includes motion vector generation modules 631, 632. The motion vector generation module 631 acquires the acceleration data 1011 and the angular velocity data 1021 of the instructor, derives the motion vector of the instructor using these, and outputs the derived motion vector to the current state unity estimation unit 620. The motion vector generation module 632 acquires the user's acceleration data 1012 and the angular velocity data 1022, derives the user's motion vector using these, and outputs the derived motion vector to the current state unity estimation unit 620.

加速度データ1011は加速度センサ903から、角速度データ1021は角速度センサ904から、加速度データ1012は加速度センサ913から、角速度データ1023は角速度センサ914から、管理装置10へと送信される。 The acceleration data 1011 is transmitted from the acceleration sensor 903, the angular velocity data 1021 is transmitted from the angular velocity sensor 904, the acceleration data 1012 is transmitted from the acceleration sensor 913, and the angular velocity data 1023 is transmitted from the angular velocity sensor 914 to the management device 10.

図11に従った例では、「ユーザの状態」は、笑顔シンクロ率SSと運動状態のシンクロ率ESとの関数として導出される。ユーザの状態USを規定する関数(状態規定関数)の一例はUS=mSS+pES(mとpは定数)であるが、これに限定されない。現状一体感推定部620は、笑顔シンクロ率と運動状態のシンクロ率とを上記状態規定関数に適用することにより、価値関数の更新に利用される行動の値および報酬の値を導出する。 In the example according to FIG. 11, the "user state" is derived as a function of the smile synchronization rate SS and the motion state synchronization rate ES. An example of a function that defines the user's state US (state-defining function) is US = mSS + pES (m and p are constants), but the present invention is not limited to this. The current state unity estimation unit 620 derives the action value and the reward value used for updating the value function by applying the smile synchronization rate and the motion state synchronization rate to the above-mentioned state-determining function.

なお、インストラクタが仮想的に表示される場合、笑顔シンクロ率および運動状態シンクロ率は、表示される仮想インストラクタの表示用データを利用して導出され得る。すなわち、笑顔シンクロ率は、インストラクタの表情に関する情報の代わりにインストラクタ表示制御に利用されるデータを利用して導出され得る。運動情報シンクロ率は、インストラクタの加速度データおよび角速度データの代わりに、仮想インストラクタの表示制御に利用されるデータを利用して導出され得る。 When the instructor is virtually displayed, the smile synchronization rate and the exercise state synchronization rate can be derived by using the display data of the displayed virtual instructor. That is, the smile synchronization rate can be derived by using the data used for the instructor display control instead of the information regarding the facial expression of the instructor. The motion information synchronization rate can be derived by using the data used for the display control of the virtual instructor instead of the acceleration data and the angular velocity data of the instructor.

図12は、状態認識部610の機能的な構成のさらに他の例を示す図である。図12の例では、状態認識部610はさらに信号処理モジュール621,622および運動ベクトル生成モジュール631,632を含む。 FIG. 12 is a diagram showing still another example of the functional configuration of the state recognition unit 610. In the example of FIG. 12, the state recognition unit 610 further includes signal processing modules 621 and 622 and motion vector generation modules 631, 632.

図12の例では、「ユーザの状態」は、笑顔シンクロ率SSと運動負荷のシンクロ率LSと運動状態のシンクロ率ESとの関数として導出される。ユーザの状態USを規定する関数(状態規定関数)の一例はUS=mSS+nLS+pES(mとnとpは定数)であるが、これに限定されない。現状一体感推定部620は、笑顔シンクロ率と運動負荷のシンクロ率と運動状態のシンクロ率とを上記状態規定関数に適用することにより、価値関数の更新に利用される行動の値および報酬の値を導出する。 In the example of FIG. 12, the “user state” is derived as a function of the smile synchro rate SS, the synchro rate LS of the exercise load, and the synchro rate ES of the exercise state. An example of a function that defines the user's state US (state-defining function) is US = mSS + nLS + pES (m, n, and p are constants), but the present invention is not limited to this. The current state of unity estimation unit 620 applies the smile synchronization rate, the exercise load synchronization rate, and the exercise state synchronization rate to the above-mentioned state-determining function, so that the action value and the reward value used for updating the value function are used. Is derived.

上記の定数(m,n,p)は、ユーザの属性に基づいて設定され得る。具体的な設定方法は、後述され得る。 The above constants (m, n, p) can be set based on the user's attributes. The specific setting method may be described later.

<運動終了時の報酬>
管理装置10は、運動終了時の報酬として、さらに、ユーザが所与の期間に対して付与した得点を利用してもよい。一実現例では、所与の期間の運動が終了すると、ステップS112にて、状態認識部610は、ディスプレイ13に、得点の入力を促すメッセージを表示する。ユーザは、入力部14を利用して、得点を入力する。
<Reward at the end of exercise>
The management device 10 may further use the score given by the user for a given period as a reward at the end of the exercise. In one embodiment, when the exercise for a given period is completed, in step S112, the state recognition unit 610 displays a message prompting the input of a score on the display 13. The user inputs a score by using the input unit 14.

この例では、状態認識部610は、所与の期間の運動における最後の一定時間について算出された笑顔シンクロ率(最終の一定時間を表す時刻tの「笑顔シンクロ率」)を、上記のように入力された得点を付加するように更新した後、学習用用データセットとしてストレージに格納する。 In this example, the state recognition unit 610 sets the smile synchronization rate (“smile synchronization rate” at time t representing the final fixed time) calculated for the last fixed time in the exercise for a given period as described above. After updating to add the input score, it is stored in the storage as a learning data set.

これにより、運動終了時の報酬として、インストラクタとユーザの表情として客観的に検出された情報に加えて、ユーザの主観的な情報が、強化学習に利用され得る。 As a result, as a reward at the end of exercise, in addition to the information objectively detected as the facial expressions of the instructor and the user, the subjective information of the user can be used for reinforcement learning.

<報酬(笑顔関連)>
推定モデルでは、一体感情報の代わりに、ユーザ個人の気分の高まりを表す情報(たとえば、「楽しさ感情報」)が利用されてもよい。より具体的には、管理装置10は、推定モデルにおいて、一体感情報の一例において利用された「笑顔シンクロ率」の代わりに、インストラクタの笑顔に関する情報を利用しない値が利用されてもよい。このような値の一例として「笑顔関連値」を説明する。「笑顔関連値」は楽しさ感情報の一例である。
<Reward (smile related)>
In the estimation model, instead of the sense of unity information, information representing the heightened mood of the individual user (for example, "feeling of fun information") may be used. More specifically, in the estimation model, the management device 10 may use a value that does not use the information about the smile of the instructor instead of the “smile synchronization rate” used in the example of the sense of unity information. As an example of such a value, "smile-related value" will be described. The "smile-related value" is an example of fun information.

笑顔関連値CVSは、運動中の一定時間(たとえば、1分)ごとにユーザの笑顔度が算出される場合において、当該運動中の前回算出された笑顔度と今回算出された笑顔度の比較結果として、以下のように導出される。なお、ユーザの笑顔度は、たとえば、OKAO(登録商標) Vision(オムロン株式会社)などとして実現される公知の技術によって実現され得る。 The smile-related value CVS is a comparison result of the smile degree calculated last time and the smile degree calculated this time during the exercise when the smile degree of the user is calculated at regular intervals (for example, 1 minute) during the exercise. As a result, it is derived as follows. The degree of smile of the user can be realized by a known technique realized as, for example, OKAO (registered trademark) Vision (OMRON Corporation).

・今回の笑顔度が前回の笑顔度以上であれば、「CVS=1.0」
・今回の笑顔度が前回の笑顔度未満であれば、「CVS=0.0」
たとえば、今回の笑顔度(運動開始から3分後の指示内容として選択された指示内容が出力された直後に算出された笑顔度)が「78」であり、前回の笑顔度(運動開始から2分後の指示内容として選択された指示内容が出力された直後に算出された笑顔度)が「64」であったとする。この場合、今回の笑顔度は、前回の笑顔度以上である。したがって、運動開始から3分後の笑顔関連値CVSの値は「1.0」である。
・ If the smile level this time is higher than the previous smile level, "CVS = 1.0"
・ If the smile level this time is less than the smile level of the previous time, "CVS = 0.0"
For example, the current smile degree (the smile degree calculated immediately after the instruction content selected as the instruction content 3 minutes after the start of exercise is output) is "78", and the previous smile degree (2 from the start of exercise). It is assumed that the smile degree calculated immediately after the instruction content selected as the instruction content after minutes is output) is "64". In this case, the smile level this time is higher than the smile level of the previous time. Therefore, the smile-related value CVS 3 minutes after the start of exercise is "1.0".

<報酬(運動負荷関連)>
推定モデルでは、一体感情報の一例において利用された「運動負荷のシンクロ率」の代わりに、楽しさ感情報の一例として、インストラクタの生体情報を利用しない値が利用されてもよい。このような値の一例として「運動負荷関連値」を説明する。
<Reward (exercise load related)>
In the estimation model, instead of the "synchronization rate of exercise load" used in the example of the sense of unity information, a value that does not use the biological information of the instructor may be used as an example of the sense of enjoyment information. As an example of such a value, "exercise load related value" will be described.

運動負荷関連値CVLの算出には、運動中の心拍数の変化に関する予め設定された理想値が利用され得る。理想値は、後述する図15において実線で示されるように、15分の運動における1分ごとの理想値として与えられる。運動負荷関連値CVLは、運動中の一定時間(たとえば、1分)ごとにユーザの脈拍が計測される場合であって、当該計測値と理想値との関係の変化として、以下のように導出される。 A preset ideal value for a change in heart rate during exercise can be used to calculate the exercise load-related value CVL. The ideal value is given as an ideal value for each minute in a 15-minute exercise, as shown by a solid line in FIG. 15 described later. The exercise load-related value CVL is a case where the user's pulse is measured at regular intervals (for example, 1 minute) during exercise, and is derived as follows as a change in the relationship between the measured value and the ideal value. Will be done.

・今回の計測値と理想値との差が前回の計測値と理想値との差以下であれば、「CVL=1.0」
・今回の計測値と理想値との差が前回の計測値と理想値との差より大きくなれば、「CVL=0.0」
たとえば、今回の計測値(運動開始から3分後の指示内容として選択された指示内容が出力された直後に計測された脈拍)と運動開始から3分後の理想値との差が、前回の計測値(運動開始から2分後の指示内容として選択された指示内容が出力された直後に計測された脈拍)と運動開始から2分後の理想値との差よりも小さくなった場合、運動開始から3分後の運動負荷関連値CVLの値は「1.0」である。一方、前者の差が後者の差より大きくなった場合、運動開始から3分後の運動負荷関連値CVLの値は「0.0」である。すなわち、前回の計測時より今回の計測時において理想値に近づけば運動負荷関連値CVLの値は「1.0」であり、前回の計測時より今回の計測時において理想値から離れれば運動負荷関連値CVLの値は「0.0」である。
-If the difference between the current measurement value and the ideal value is less than or equal to the difference between the previous measurement value and the ideal value, "CVL = 1.0"
・ If the difference between the current measurement value and the ideal value is larger than the difference between the previous measurement value and the ideal value, "CVL = 0.0"
For example, the difference between the current measurement value (the pulse measured immediately after the instruction content selected as the instruction content 3 minutes after the start of exercise is output) and the ideal value 3 minutes after the start of exercise is the previous time. If it becomes smaller than the difference between the measured value (the pulse measured immediately after the instruction content selected as the instruction content 2 minutes after the start of exercise is output) and the ideal value 2 minutes after the start of exercise, exercise The exercise load-related value CVL 3 minutes after the start is "1.0". On the other hand, when the difference between the former and the latter is larger than the difference between the latter, the exercise load-related value CVL 3 minutes after the start of exercise is "0.0". That is, the exercise load related value CVL value is "1.0" if it approaches the ideal value at the time of this measurement from the previous measurement, and the exercise load if it deviates from the ideal value at the time of this measurement from the previous measurement. The value of the related value CVL is "0.0".

<報酬(運動状態関連)>
推定モデルでは、一体感情報の一例において利用された「運動状態のシンクロ率」の代わりに、楽しさ感情報の一例として、インストラクタの動作に関する情報を利用しない値が利用されてもよい。このような値の一例として「運動状態関連値」を説明する。
<Reward (related to exercise status)>
In the estimation model, instead of the "synchronization rate of the motion state" used in the example of the sense of unity information, a value that does not use the information related to the movement of the instructor may be used as an example of the sense of enjoyment information. As an example of such a value, "exercise state-related value" will be described.

運動状態関連値CVEの算出には、予め定められた一定時間(たとえば、1分)ごとの理想的な運動ベクトルが利用されてもよい。運動状態関連値CVEは、たとえば、運動中の一定時間(たとえば、1分)ごとにユーザの運動ベクトルが生成される場合に、生成されたユーザの運動ベクトルと、生成された時間に対応する理想的な運動ベクトルとの一致度(たとえば、内積)の変化が利用されてもよい。より具体的には、運動状態関連値CVEは、今回生成された運動ベクトルに関する一致度と前回生成された運動ベクトルに関する一致度との比較結果として以下のように導出される。なお、本明細書では、ユーザの動作が理想的な運動ベクトルによって規定される動作に近い(運動の向きおよび/または速さが似ている)ほど一致度の値が高くなるものとする。 An ideal motion vector at predetermined fixed time intervals (for example, 1 minute) may be used for calculating the motion state-related value CVE. The motion state-related value CVE is an ideal corresponding to the generated user motion vector and the generated time when the user motion vector is generated at regular intervals (for example, 1 minute) during exercise. A change in the degree of agreement (for example, the inner product) with the motion vector may be used. More specifically, the motion state-related value CVE is derived as follows as a result of comparison between the degree of coincidence regarding the motion vector generated this time and the degree of coincidence regarding the motion vector generated last time. In this specification, it is assumed that the closer the user's motion is to the motion defined by the ideal motion vector (the direction and / or speed of the motion is similar), the higher the value of the degree of coincidence.

・今回の一致度が前回の一致度以上であれば、「CVE=1.0」
・今回の一致度が前回の一致度未満であれば、「CVE=0.0」
たとえば、運動開始から3分後の指示内容として選択された指示内容が出力された直後に生成された運動ベクトルと運動開始から3分後の理想的な運動ベクトルとの一致度が、運動開始から3分後の指示内容として選択された指示内容が出力された直後に生成された運動ベクトルと運動開始から3分後の理想的な運動ベクトルとの一致度よりも高い場合、「CVE=1.0」である。前者の一致度が後者の一致度より低い場合、「CVE=0.0」である。
・ If the degree of matching this time is equal to or higher than the degree of matching last time, "CVE = 1.0"
・ If the degree of matching this time is less than the degree of matching of the previous time, "CVE = 0.0"
For example, the degree of agreement between the motion vector generated immediately after the instruction content selected as the instruction content 3 minutes after the start of exercise is output and the ideal motion vector 3 minutes after the start of exercise is from the start of exercise. If the degree of agreement between the motion vector generated immediately after the instruction content selected as the instruction content after 3 minutes is output and the ideal motion vector 3 minutes after the start of exercise is higher than that of "CVE = 1. It is "0". When the degree of agreement of the former is lower than the degree of agreement of the latter, it is "CVE = 0.0".

<報酬の利用方法>
上述の3種類の報酬(笑顔関連値CVS、運動負荷関連値CVL、運動状態関連値CVE)の推定モデルにおける利用方法について説明する。
<How to use the reward>
A method of using the above-mentioned three types of rewards (smile-related value CVS, exercise load-related value CVL, and exercise state-related value CVE) in an estimation model will be described.

推定モデルにおいて、笑顔関連値CVSは単独で利用されてもよいし、運動負荷関連値CVLおよび/または運動状態関連値CVEと組み合わされて利用されてもよい。運動負荷関連値CVLおよび/または運動状態関連値CVEと組み合わされる場合、報酬は、笑顔関連値CVSと運動負荷関連値CVLと運動状態関連値CVEの和であってもよいし、次の数式(2)に従って導出されてもよい。 In the estimation model, the smile-related value CVS may be used alone or in combination with the exercise load-related value CVL and / or the exercise state-related value CVE. When combined with the exercise load-related value CVL and / or the exercise state-related value CVE, the reward may be the sum of the smile-related value CVS, the exercise load-related value CVL, and the exercise state-related value CVE, or the following formula ( It may be derived according to 2).

報酬=(mCVS+nCVL+pCVE)/m+n+p …(2)
数式(2)中のm,n,pはいずれも定数であり、笑顔シンクロ率SSと運動負荷のシンクロ率LSと運動状態のシンクロ率ESとを用いた「ユーザの状態」の関数について上述したm,n,pと同様とすることができる。
Reward = (mCVS + nCVL + pCVE) / m + n + p ... (2)
All of m, n, and p in the mathematical formula (2) are constants, and the function of "user state" using the smile synchro rate SS, the synchro rate LS of the exercise load, and the synchro rate ES of the exercise state is described above. It can be the same as m, n, p.

定数m,n,pは、任意に設定されることもできるし、ユーザの特性に従って設定されることもできる。ユーザの特性の一例は、ユーザの積極性に関する特性である。ユーザが、「中心になりたがり」という特性を有する場合と、「受け身」という特性を有する場合とでは、m,n,pは以下のように設定され得る。 The constants m, n, and p can be set arbitrarily, or can be set according to the characteristics of the user. An example of a user's characteristic is a characteristic relating to user's positivity. The m, n, and p can be set as follows depending on whether the user has the characteristic of "wanting to be the center" or the characteristic of "passive".

「中心になりたがり」→m=0.1,n=0.3,p=0.6
「受け身」→m=0.3,n=0.6,p=0.1
すなわち、「中心になりたがり」のユーザ(積極性の高いユーザ)については、運動負荷に関する情報がインストラクタとの一体感に大きく寄与し、「受け身」のユーザについては、運動状態に関する情報がインストラクタとの一体感に大きく寄与し得る。
"I want to be the center" → m = 0.1, n = 0.3, p = 0.6
"Passive" → m = 0.3, n = 0.6, p = 0.1
In other words, for "want to be central" users (highly aggressive users), information on exercise load greatly contributes to the sense of unity with the instructor, and for "passive" users, information on exercise status is the instructor. Can greatly contribute to the sense of unity.

ユーザの特性は、たとえば開始時条件(図9)として入力され得る。 The user's characteristics can be entered, for example, as a start condition (FIG. 9).

ユーザの特性は、ユーザ自身によって設定されても良いし、ユーザに対するアンケートの結果に基づいて設定されてもよい。ユーザに対するアンケートの結果に基づいてユーザの特性を設定する方法については、適宜公知の技術が利用され得る。公知の技術としては、たとえば、「高齢者の余暇活動に関する心理セグメント」(2019年3月3日のサービス学会第7回国内大会にて発表、URL:http://ja.serviceology.org/events/domestic2019/program190226.pdf)が挙げられる。 The characteristics of the user may be set by the user himself / herself, or may be set based on the result of the questionnaire to the user. As for the method of setting the characteristics of the user based on the result of the questionnaire to the user, a known technique can be appropriately used. Known technologies include, for example, "Psychological segment related to leisure activities of the elderly" (announced at the 7th National Convention of the Service Society on March 3, 2019, URL: http://ja.serviceology.org/events /domestic2019/program190226.pdf).

《第2の実施の形態》
[1.管理装置の構成]
運動支援システムの第2の実施の形態は、図1と同様に、管理装置から指示内容が出力される。第2の実施の形態では、管理装置は、推定モデルを利用することなく指示内容を決定して出力できる。第2の実施の形態では、第1の実施の形態の管理装置10と区別するために、管理装置は「管理装置10A」と称される。図13は、管理装置10Aのハードウェア構成の一例を示す図である。
<< Second Embodiment >>
[1. Management device configuration]
In the second embodiment of the exercise support system, the instruction content is output from the management device as in FIG. In the second embodiment, the management device can determine and output the instruction content without using the estimation model. In the second embodiment, the management device is referred to as "management device 10A" in order to distinguish it from the management device 10 of the first embodiment. FIG. 13 is a diagram showing an example of the hardware configuration of the management device 10A.

管理装置10Aは、管理装置10と同様のハードウェア要素(プロセッサ11等)を備える。管理装置10Aでは、ストレージ16に、笑顔参照情報16P、心拍参照情報16Q、および、運動一致度参照情報16Rが格納されている。 The management device 10A includes the same hardware elements (processor 11 and the like) as the management device 10. In the management device 10A, the smile reference information 16P, the heart rate reference information 16Q, and the exercise matching degree reference information 16R are stored in the storage 16.

笑顔参照情報16Pは、運動中の笑顔度の理想的な変化を規定する。図14は、笑顔参照情報16Pの具体例を説明するための図である。図14のグラフにおいて、実線は、笑顔度の理想的な変化を表す。より具体的には、図14のグラフは、一回の運動が15のフェーズに分けられた場合の各フェーズにおける笑顔度の理想的な値を表す。一回の運動の一例は15分間の運動であり、各フェーズは当該15分の運動の中の1分ごとの運動である。なお、破線は、ユーザの笑顔度の実際の変化の一例を表す。 The smile reference information 16P defines an ideal change in the degree of smile during exercise. FIG. 14 is a diagram for explaining a specific example of the smile reference information 16P. In the graph of FIG. 14, the solid line represents the ideal change in smile level. More specifically, the graph of FIG. 14 represents the ideal value of the degree of smile in each phase when one exercise is divided into 15 phases. An example of one exercise is a 15-minute exercise, and each phase is a minute-by-minute exercise in the 15-minute exercise. The broken line represents an example of an actual change in the smile level of the user.

心拍参照情報16Qは、運動中の心拍の理想的な変化を規定する。図15は、心拍参照情報16Qの具体例を説明するための図である。図15のグラフにおいて、実線は、運動中の心拍の理想的な変化を表す。より具体的には、図15の実線は、図14について説明されたのと同様の15のフェーズのそれぞれにおける心拍の理想値を表す。破線は、ユーザの脈拍の実際の変化の一例を表す。 Heart rate reference information 16Q defines an ideal change in heart rate during exercise. FIG. 15 is a diagram for explaining a specific example of the heartbeat reference information 16Q. In the graph of FIG. 15, the solid line represents the ideal change in heart rate during exercise. More specifically, the solid line in FIG. 15 represents the ideal value of the heartbeat in each of the 15 phases similar to those described for FIG. The dashed line represents an example of the actual change in the user's pulse.

運動一致度参照情報16Rは、運動中の心拍の理想的な変化を規定する。図16は、運動一致度参照情報16Rの具体例を説明するための図である。図16のグラフにおいて、実線は、運動中の運動一致度の理想的な変化を表す。運動一致度とは、たとえば、上記の項目「<報酬(運動状態関連)>」において説明された運動一致度である。 The exercise concordance reference information 16R defines an ideal change in heart rate during exercise. FIG. 16 is a diagram for explaining a specific example of the motion coincidence reference information 16R. In the graph of FIG. 16, the solid line represents the ideal change in motion coincidence during exercise. The exercise concordance degree is, for example, the exercise concordance degree described in the above item "<Reward (exercise state-related)>".

[2.指示内容の選択]
図17は、第2の実施の形態において出力されるべき指示内容(助言および/または運動強度)の具体例を説明するための図である。図17には、「笑顔」「心拍」「運動」の3種類の項目のそれぞれについて、「高」「低」の2種類の値の組み合わせが示される。
[2. Selection of instruction content]
FIG. 17 is a diagram for explaining a specific example of the instruction content (advice and / or exercise intensity) to be output in the second embodiment. FIG. 17 shows a combination of two types of values, “high” and “low”, for each of the three types of items “smile”, “heartbeat”, and “exercise”.

「笑顔」は、笑顔度を意味する。「心拍」は、心拍数を意味する。「運動」は、運動一致度を意味する。 "Smile" means the degree of smile. "Heart rate" means heart rate. "Exercise" means the degree of exercise agreement.

「高」は、笑顔度、心拍数、または、運動一致度が、理想値(図14〜図16の実線上の値)以上であることを意味する。「低」は、笑顔度、心拍数、または、運動一致度が、理想値よりも低いことを意味する。 “High” means that the degree of smile, heart rate, or degree of exercise agreement is equal to or higher than the ideal value (value on the solid line in FIGS. 14 to 16). "Low" means that the smile, heart rate, or exercise match is lower than ideal.

図17では、上記3種類の項目のそれぞれに対する値の組み合わせに従って、指示内容が決定される。 In FIG. 17, the instruction content is determined according to the combination of values for each of the above three types of items.

図17に従った一例では、ユーザの笑顔度が理想値より高く(「笑顔」が「高」)、ユーザの心拍数が理想値より高く(「心拍」が「高」)、運動一致度が理想値より高い場合(「運動」が「高」)、管理装置10Aは、図17の最も上段の指示内容、すなわち、称賛の助言(たとえば、「完璧ですね!」というメッセージ)を、出力されるべき指示内容として抽出し、抽出された指示内容を出力する。 In an example according to FIG. 17, the user's smile level is higher than the ideal value (“smile” is “high”), the user's heart rate is higher than the ideal value (“heart rate” is “high”), and the exercise agreement is high. If it is higher than the ideal value (“exercise” is “high”), the management device 10A outputs the instruction content at the top of FIG. 17, that is, praise advice (for example, the message “Perfect!”). Extract as the instruction content to be output, and output the extracted instruction content.

図17に従った他の例では、ユーザの笑顔度が理想値と一致し(「笑顔」が「高」)、ユーザの心拍数が理想値より低く(「心拍」が「低」)、運動一致度が理想値より低い場合(「運動」が「低」)、管理装置10Aは、激励のための助言(たとえば、「もっとがんばって!」)を、指示内容として抽出し、抽出された指示内容を出力する。 In another example according to FIG. 17, the user's smile level matches the ideal value (“smile” is “high”), the user's heart rate is lower than the ideal value (“heart rate” is “low”), and exercise. When the degree of agreement is lower than the ideal value (“exercise” is “low”), the management device 10A extracts advice for encouragement (for example, “do your best!”) As instruction content, and the extracted instruction content. Is output.

なお、選択される指示内容の設定のポリシーの一例では、ユーザの笑顔度が理想値より高い場合には、選択される指示内容は、運動強度を高くするものであってもよく、ユーザを激励する助言であってもよい。一方で、ユーザの笑顔度が理想値よりも高い場合でも、ユーザの心拍数が理想値より高い場合には、ユーザに対して過剰な強度の負荷がかかるのを回避するために、指示内容として、称賛の助言、または、運動を抑制するような助言が選択されてもよい。 In an example of the policy for setting the selected instruction content, when the smile level of the user is higher than the ideal value, the selected instruction content may increase the exercise intensity and encourage the user. It may be advice to give. On the other hand, even if the user's smile level is higher than the ideal value, if the user's heart rate is higher than the ideal value, as an instruction content in order to avoid applying an excessively intense load to the user. , Praise advice, or advice that suppresses exercise may be selected.

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。 It should be considered that the embodiments disclosed this time are exemplary in all respects and not restrictive. The scope of the present invention is shown by the scope of claims rather than the above description, and is intended to include all modifications within the meaning and scope equivalent to the scope of claims.

10 管理装置、11 プロセッサ、800 インストラクタ、810 ユーザ、900 インストラクタ端末、901,911 CPU、903,913 加速度センサ、904,914 角速度センサ、906,916 蓄電池、907,917 脈波センサ、909,919,950 スピーカ、910 ユーザ端末、920 カメラ。 10 management device, 11 processor, 800 instructor, 810 user, 900 instructor terminal, 901,911 CPU, 903,913 acceleration sensor, 904,914 angular velocity sensor, 906,916 storage battery, 907,917 pulse wave sensor, 909,919, 950 speakers, 910 user terminals, 920 cameras.

Claims (17)

ユーザの状態に係る行動としてユーザに対して出力される指示内容を選択するための参照用の情報を記憶する記憶部を備え、
前記ユーザの状態は、ユーザにおける運動の継続意欲情報を含み、
運動中のユーザについて前記ユーザの状態を取得する取得部と、
前記ユーザの状態と前記参照用の情報とに基づいて、ユーザに対して出力される指示内容を選択する選択部と、
選択された指示内容を出力する出力部と、を備える、情報処理装置。
It is equipped with a storage unit that stores reference information for selecting the instruction content output to the user as an action related to the user's state.
The user's state includes information on the user's willingness to continue exercising.
An acquisition unit that acquires the state of the user who is exercising,
A selection unit that selects the instruction content to be output to the user based on the state of the user and the information for reference.
An information processing device including an output unit that outputs the selected instruction content.
前記参照用の情報は、ユーザの状態に係る行動としてユーザに対して出力される指示内容を選択するために強化学習によって学習された価値関数を含み、
前記選択部は、運動中のユーザについての前記ユーザの状態に係る行動のうち、前記価値関数の値が最大となる行動を選択し、
前記価値関数の値が最大となる行動は、報酬である前記ユーザの状態が運動終了時において最も高くなる行動である、請求項1に記載の情報処理装置。
The reference information includes a value function learned by reinforcement learning to select the instruction content output to the user as an action related to the user's state.
The selection unit selects the action having the maximum value of the value function among the actions related to the state of the user with respect to the user during exercise.
The information processing device according to claim 1, wherein the action in which the value of the value function is maximized is the action in which the state of the user, which is a reward, becomes the highest at the end of the exercise.
前記継続意欲情報は、指導者とユーザとの間の一体感を示す一体感情報を含む、請求項1または請求項2に記載の情報処理装置。 The information processing device according to claim 1 or 2, wherein the continuation motivation information includes unity information indicating a sense of unity between the instructor and the user. 前記一体感情報は、指導者とユーザの笑顔に基づく情報を含む、請求項3に記載の情報処理装置。 The information processing device according to claim 3, wherein the sense of unity information includes information based on the smiles of the instructor and the user. 前記一体感情報は、複数のタイミングにおける前記指導者と前記ユーザの表情が一致する割合を表す、請求項3または請求項4に記載の情報処理装置。 The information processing device according to claim 3 or 4, wherein the sense of unity information represents a ratio in which the facial expressions of the leader and the user match at a plurality of timings. 前記ユーザの状態は、指導者とユーザとの間で運動負荷が一致する割合をさらに含む、請求項1〜請求項5のいずれか1項に記載の情報処理装置。 The information processing device according to any one of claims 1 to 5, wherein the state of the user further includes a ratio in which the exercise load matches between the instructor and the user. 前記運動負荷は、指導者とユーザのそれぞれの脈波に基づく、請求項6に記載の情報処理装置。 The information processing device according to claim 6, wherein the exercise load is based on the pulse waves of the instructor and the user. 前記ユーザの状態は、指導者とユーザとの間で運動状態が一致する割合をさらに含む、請求項1〜請求項7のいずれか1項に記載の情報処理装置。 The information processing device according to any one of claims 1 to 7, wherein the state of the user further includes a ratio in which the exercise state matches between the instructor and the user. 前記運動状態は、指導者とユーザのそれぞれの身体について計測される、加速度および角速度の中の少なくとも一方に基づく、請求項8に記載の情報処理装置。 The information processing apparatus according to claim 8, wherein the exercise state is based on at least one of acceleration and angular velocity, which is measured for each body of the instructor and the user. 前記出力部は、前記指導者の画像を出力し、
前記運動状態は、出力される前記指導者の身体の移動に係る加速度および角速度の中の少なくとも一方と、ユーザの身体について計測される加速度および角速度の中の少なくとも一方とに基づく、請求項8に記載の情報処理装置。
The output unit outputs an image of the instructor,
According to claim 8, the motion state is based on at least one of the output acceleration and angular velocity related to the movement of the body of the leader and at least one of the acceleration and angular velocity measured for the user's body. The information processing device described.
前記継続意欲情報は、ユーザの状態の理想値に対する差異を表す情報を含む、請求項1または請求項2に記載の情報処理装置。 The information processing device according to claim 1 or 2, wherein the continuation motivation information includes information representing a difference from an ideal value of the user's state. 前記参照用の情報は、ユーザの状態に対する理想的な値を表し、
前記選択部は、ユーザの状態と前記参照用の情報との差異に基づいて、ユーザに対して出力される指示内容を選択する、請求項1に記載の情報処理装置。
The reference information represents an ideal value for the user's condition.
The information processing apparatus according to claim 1, wherein the selection unit selects an instruction content to be output to the user based on a difference between the user's state and the reference information.
前記ユーザの状態は、ユーザの笑顔度を含む、請求項12に記載の情報処理装置。 The information processing device according to claim 12, wherein the state of the user includes a degree of smile of the user. 前記ユーザの状態は、ユーザの生体情報および運動状態の少なくとも一方を含む、請求項13に記載の情報処理装置。 The information processing apparatus according to claim 13, wherein the user's state includes at least one of the user's biological information and the exercise state. 複数の前記行動のそれぞれに対応する複数の指示内容は、助言内容または運動強度の少なくとも一方を含む、請求項1〜請求項14のいずれか1項に記載の情報処理装置。 The information processing apparatus according to any one of claims 1 to 14, wherein the plurality of instruction contents corresponding to each of the plurality of actions include at least one of advice contents and exercise intensity. ユーザの状態に係る行動としてユーザに対して出力される指示内容を選択する情報処理装置と、ユーザに対して出力される指示内容の価値関数を強化学習により学習する機械学習装置とを備える情報処理システムであって、
前記情報処理装置は、
ユーザの状態に係る行動としてユーザに対して出力される指示内容を選択するために強化学習によって学習された前記価値関数を記憶する記憶部を含み、
前記ユーザの状態は、ユーザの継続意欲情報を含み、
前記情報処理装置は、
運動中のユーザについての前記継続意欲情報を取得する取得部と、
運動中のユーザについての前記継続意欲情報に係る行動のうち、前記価値関数の値が最大となる行動を選択する選択部と、
選択された前記行動に対応する指示内容を出力する出力部と、を含み、
前記価値関数の値が最大となる行動は、報酬である前記継続意欲情報が運動終了時において最も高くなる行動であり、
前記機械学習装置は、
前記ユーザの状態を取得する状態取得部と、
指示内容の出力前の前記ユーザの状態を状態として、ユーザに対して出力された指示内容を行動として、指示内容の出力後の前記ユーザの状態を報酬として用いて、前記価値関数を更新する価値関数更新部とを含む、情報処理システム。
Information processing including an information processing device that selects the instruction content output to the user as an action related to the user's state, and a machine learning device that learns the value function of the instruction content output to the user by reinforcement learning. It's a system
The information processing device
It includes a storage unit that stores the value function learned by reinforcement learning in order to select the instruction content output to the user as an action related to the user's state.
The user's state includes the user's willingness to continue information.
The information processing device
The acquisition unit that acquires the continuation motivation information about the user who is exercising,
Among the actions related to the continuation motivation information about the user during exercise, a selection unit for selecting the action having the maximum value of the value function, and
Including an output unit that outputs an instruction content corresponding to the selected action,
The action in which the value of the value function is maximized is the action in which the reward, the continuation motivation information, is highest at the end of the exercise.
The machine learning device
A state acquisition unit that acquires the state of the user,
The value of updating the value function by using the state of the user before the output of the instruction content as a state, the instruction content output to the user as an action, and the state of the user after the output of the instruction content as a reward. An information processing system that includes a function update unit.
ユーザの状態に係る行動としてユーザに対して出力される指示内容の価値関数を強化学習により学習する機械学習装置であって、
ユーザの継続意欲情報を含むユーザの状態を取得する状態取得部と、
指示内容の出力前の前記ユーザの状態を状態として、ユーザに対して出力された指示内容を行動として、指示内容の出力後の前記ユーザの状態を報酬として用いて、前記価値関数を更新する価値関数更新部とを備える、機械学習装置。
It is a machine learning device that learns the value function of the instruction content output to the user as an action related to the user's state by reinforcement learning.
A status acquisition unit that acquires the user's status including the user's continuation motivation information,
The value of updating the value function by using the state of the user before the output of the instruction content as a state, the instruction content output to the user as an action, and the state of the user after the output of the instruction content as a reward. A machine learning device equipped with a function update unit.
JP2019148053A 2019-08-09 2019-08-09 Information processing device, information processing system, and machine learning device Pending JP2021027917A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019148053A JP2021027917A (en) 2019-08-09 2019-08-09 Information processing device, information processing system, and machine learning device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019148053A JP2021027917A (en) 2019-08-09 2019-08-09 Information processing device, information processing system, and machine learning device

Publications (1)

Publication Number Publication Date
JP2021027917A true JP2021027917A (en) 2021-02-25

Family

ID=74666981

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019148053A Pending JP2021027917A (en) 2019-08-09 2019-08-09 Information processing device, information processing system, and machine learning device

Country Status (1)

Country Link
JP (1) JP2021027917A (en)

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11139060B2 (en) 2019-10-03 2021-10-05 Rom Technologies, Inc. Method and system for creating an immersive enhanced reality-driven exercise experience for a user
US11264123B2 (en) 2019-10-03 2022-03-01 Rom Technologies, Inc. Method and system to analytically optimize telehealth practice-based billing processes and revenue while enabling regulatory compliance
US11270795B2 (en) 2019-10-03 2022-03-08 Rom Technologies, Inc. Method and system for enabling physician-smart virtual conference rooms for use in a telehealth context
US11282604B2 (en) 2019-10-03 2022-03-22 Rom Technologies, Inc. Method and system for use of telemedicine-enabled rehabilitative equipment for prediction of secondary disease
US11282599B2 (en) 2019-10-03 2022-03-22 Rom Technologies, Inc. System and method for use of telemedicine-enabled rehabilitative hardware and for encouragement of rehabilitative compliance through patient-based virtual shared sessions
US11282608B2 (en) 2019-10-03 2022-03-22 Rom Technologies, Inc. Method and system for using artificial intelligence and machine learning to provide recommendations to a healthcare provider in or near real-time during a telemedicine session
US11284797B2 (en) 2019-10-03 2022-03-29 Rom Technologies, Inc. Remote examination through augmented reality
US11295848B2 (en) 2019-10-03 2022-04-05 Rom Technologies, Inc. Method and system for using artificial intelligence and machine learning to create optimal treatment plans based on monetary value amount generated and/or patient outcome
US11309085B2 (en) 2019-10-03 2022-04-19 Rom Technologies, Inc. System and method to enable remote adjustment of a device during a telemedicine session
US11317975B2 (en) 2019-10-03 2022-05-03 Rom Technologies, Inc. Method and system for treating patients via telemedicine using sensor data from rehabilitation or exercise equipment
US11325005B2 (en) 2019-10-03 2022-05-10 Rom Technologies, Inc. Systems and methods for using machine learning to control an electromechanical device used for prehabilitation, rehabilitation, and/or exercise
US11328807B2 (en) 2019-10-03 2022-05-10 Rom Technologies, Inc. System and method for using artificial intelligence in telemedicine-enabled hardware to optimize rehabilitative routines capable of enabling remote rehabilitative compliance
US11337648B2 (en) 2020-05-18 2022-05-24 Rom Technologies, Inc. Method and system for using artificial intelligence to assign patients to cohorts and dynamically controlling a treatment apparatus based on the assignment during an adaptive telemedical session
US11348683B2 (en) 2019-10-03 2022-05-31 Rom Technologies, Inc. System and method for processing medical claims
CN114766756A (en) * 2022-04-22 2022-07-22 广东职业技术学院 Pronunciation electrical apparatus control system based on clothing is dressed to intelligence
US11404150B2 (en) 2019-10-03 2022-08-02 Rom Technologies, Inc. System and method for processing medical claims using biometric signatures
US11410768B2 (en) 2019-10-03 2022-08-09 Rom Technologies, Inc. Method and system for implementing dynamic treatment environments based on patient information
US11433276B2 (en) 2019-05-10 2022-09-06 Rehab2Fit Technologies, Inc. Method and system for using artificial intelligence to independently adjust resistance of pedals based on leg strength
US11445985B2 (en) 2019-10-03 2022-09-20 Rom Technologies, Inc. Augmented reality placement of goniometer or other sensors
WO2022201383A1 (en) * 2021-03-24 2022-09-29 株式会社I’mbesideyou Video analysis programme
JP2022151612A (en) * 2021-03-24 2022-10-07 株式会社I’mbesideyou Video image analysis program
US11471729B2 (en) 2019-03-11 2022-10-18 Rom Technologies, Inc. System, method and apparatus for a rehabilitation machine with a simulated flywheel
US11508482B2 (en) 2019-10-03 2022-11-22 Rom Technologies, Inc. Systems and methods for remotely-enabled identification of a user infection
US11596829B2 (en) 2019-03-11 2023-03-07 Rom Technologies, Inc. Control system for a rehabilitation and exercise electromechanical device
US11701548B2 (en) 2019-10-07 2023-07-18 Rom Technologies, Inc. Computer-implemented questionnaire for orthopedic treatment
US11756666B2 (en) 2019-10-03 2023-09-12 Rom Technologies, Inc. Systems and methods to enable communication detection between devices and performance of a preventative action
US11801423B2 (en) 2019-05-10 2023-10-31 Rehab2Fit Technologies, Inc. Method and system for using artificial intelligence to interact with a user of an exercise device during an exercise session
US11830601B2 (en) 2019-10-03 2023-11-28 Rom Technologies, Inc. System and method for facilitating cardiac rehabilitation among eligible users
US11826613B2 (en) 2019-10-21 2023-11-28 Rom Technologies, Inc. Persuasive motivation for orthopedic treatment
JP7388768B2 (en) 2022-02-01 2023-11-29 株式会社I’mbesideyou Video analysis program
US11887717B2 (en) 2019-10-03 2024-01-30 Rom Technologies, Inc. System and method for using AI, machine learning and telemedicine to perform pulmonary rehabilitation via an electromechanical machine
US11904207B2 (en) 2019-05-10 2024-02-20 Rehab2Fit Technologies, Inc. Method and system for using artificial intelligence to present a user interface representing a user's progress in various domains
US11915816B2 (en) 2019-10-03 2024-02-27 Rom Technologies, Inc. Systems and methods of using artificial intelligence and machine learning in a telemedical environment to predict user disease states
US11915815B2 (en) 2019-10-03 2024-02-27 Rom Technologies, Inc. System and method for using artificial intelligence and machine learning and generic risk factors to improve cardiovascular health such that the need for additional cardiac interventions is mitigated
US11923065B2 (en) 2019-10-03 2024-03-05 Rom Technologies, Inc. Systems and methods for using artificial intelligence and machine learning to detect abnormal heart rhythms of a user performing a treatment plan with an electromechanical machine
US11923057B2 (en) 2019-10-03 2024-03-05 Rom Technologies, Inc. Method and system using artificial intelligence to monitor user characteristics during a telemedicine session
US11942205B2 (en) 2019-10-03 2024-03-26 Rom Technologies, Inc. Method and system for using virtual avatars associated with medical professionals during exercise sessions
US11955218B2 (en) 2019-10-03 2024-04-09 Rom Technologies, Inc. System and method for use of telemedicine-enabled rehabilitative hardware and for encouraging rehabilitative compliance through patient-based virtual shared sessions with patient-enabled mutual encouragement across simulated social networks
US11955222B2 (en) 2019-10-03 2024-04-09 Rom Technologies, Inc. System and method for determining, based on advanced metrics of actual performance of an electromechanical machine, medical procedure eligibility in order to ascertain survivability rates and measures of quality-of-life criteria
US11955221B2 (en) 2019-10-03 2024-04-09 Rom Technologies, Inc. System and method for using AI/ML to generate treatment plans to stimulate preferred angiogenesis
US11955220B2 (en) 2019-10-03 2024-04-09 Rom Technologies, Inc. System and method for using AI/ML and telemedicine for invasive surgical treatment to determine a cardiac treatment plan that uses an electromechanical machine
US11950861B2 (en) 2019-10-03 2024-04-09 Rom Technologies, Inc. Telemedicine for orthopedic treatment
US11955223B2 (en) 2019-10-03 2024-04-09 Rom Technologies, Inc. System and method for using artificial intelligence and machine learning to provide an enhanced user interface presenting data pertaining to cardiac health, bariatric health, pulmonary health, and/or cardio-oncologic health for the purpose of performing preventative actions
US11961603B2 (en) 2023-05-31 2024-04-16 Rom Technologies, Inc. System and method for using AI ML and telemedicine to perform bariatric rehabilitation via an electromechanical machine

Cited By (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11904202B2 (en) 2019-03-11 2024-02-20 Rom Technolgies, Inc. Monitoring joint extension and flexion using a sensor device securable to an upper and lower limb
US11596829B2 (en) 2019-03-11 2023-03-07 Rom Technologies, Inc. Control system for a rehabilitation and exercise electromechanical device
US11541274B2 (en) 2019-03-11 2023-01-03 Rom Technologies, Inc. System, method and apparatus for electrically actuated pedal for an exercise or rehabilitation machine
US11471729B2 (en) 2019-03-11 2022-10-18 Rom Technologies, Inc. System, method and apparatus for a rehabilitation machine with a simulated flywheel
US11433276B2 (en) 2019-05-10 2022-09-06 Rehab2Fit Technologies, Inc. Method and system for using artificial intelligence to independently adjust resistance of pedals based on leg strength
US11904207B2 (en) 2019-05-10 2024-02-20 Rehab2Fit Technologies, Inc. Method and system for using artificial intelligence to present a user interface representing a user's progress in various domains
US11801423B2 (en) 2019-05-10 2023-10-31 Rehab2Fit Technologies, Inc. Method and system for using artificial intelligence to interact with a user of an exercise device during an exercise session
US11915815B2 (en) 2019-10-03 2024-02-27 Rom Technologies, Inc. System and method for using artificial intelligence and machine learning and generic risk factors to improve cardiovascular health such that the need for additional cardiac interventions is mitigated
US11923057B2 (en) 2019-10-03 2024-03-05 Rom Technologies, Inc. Method and system using artificial intelligence to monitor user characteristics during a telemedicine session
US11317975B2 (en) 2019-10-03 2022-05-03 Rom Technologies, Inc. Method and system for treating patients via telemedicine using sensor data from rehabilitation or exercise equipment
US11325005B2 (en) 2019-10-03 2022-05-10 Rom Technologies, Inc. Systems and methods for using machine learning to control an electromechanical device used for prehabilitation, rehabilitation, and/or exercise
US11328807B2 (en) 2019-10-03 2022-05-10 Rom Technologies, Inc. System and method for using artificial intelligence in telemedicine-enabled hardware to optimize rehabilitative routines capable of enabling remote rehabilitative compliance
US11955223B2 (en) 2019-10-03 2024-04-09 Rom Technologies, Inc. System and method for using artificial intelligence and machine learning to provide an enhanced user interface presenting data pertaining to cardiac health, bariatric health, pulmonary health, and/or cardio-oncologic health for the purpose of performing preventative actions
US11348683B2 (en) 2019-10-03 2022-05-31 Rom Technologies, Inc. System and method for processing medical claims
US11950861B2 (en) 2019-10-03 2024-04-09 Rom Technologies, Inc. Telemedicine for orthopedic treatment
US11404150B2 (en) 2019-10-03 2022-08-02 Rom Technologies, Inc. System and method for processing medical claims using biometric signatures
US11410768B2 (en) 2019-10-03 2022-08-09 Rom Technologies, Inc. Method and system for implementing dynamic treatment environments based on patient information
US11295848B2 (en) 2019-10-03 2022-04-05 Rom Technologies, Inc. Method and system for using artificial intelligence and machine learning to create optimal treatment plans based on monetary value amount generated and/or patient outcome
US11445985B2 (en) 2019-10-03 2022-09-20 Rom Technologies, Inc. Augmented reality placement of goniometer or other sensors
US11955220B2 (en) 2019-10-03 2024-04-09 Rom Technologies, Inc. System and method for using AI/ML and telemedicine for invasive surgical treatment to determine a cardiac treatment plan that uses an electromechanical machine
US11955221B2 (en) 2019-10-03 2024-04-09 Rom Technologies, Inc. System and method for using AI/ML to generate treatment plans to stimulate preferred angiogenesis
US11955222B2 (en) 2019-10-03 2024-04-09 Rom Technologies, Inc. System and method for determining, based on advanced metrics of actual performance of an electromechanical machine, medical procedure eligibility in order to ascertain survivability rates and measures of quality-of-life criteria
US11955218B2 (en) 2019-10-03 2024-04-09 Rom Technologies, Inc. System and method for use of telemedicine-enabled rehabilitative hardware and for encouraging rehabilitative compliance through patient-based virtual shared sessions with patient-enabled mutual encouragement across simulated social networks
US11284797B2 (en) 2019-10-03 2022-03-29 Rom Technologies, Inc. Remote examination through augmented reality
US11508482B2 (en) 2019-10-03 2022-11-22 Rom Technologies, Inc. Systems and methods for remotely-enabled identification of a user infection
US11515028B2 (en) 2019-10-03 2022-11-29 Rom Technologies, Inc. Method and system for using artificial intelligence and machine learning to create optimal treatment plans based on monetary value amount generated and/or patient outcome
US11515021B2 (en) 2019-10-03 2022-11-29 Rom Technologies, Inc. Method and system to analytically optimize telehealth practice-based billing processes and revenue while enabling regulatory compliance
US11282608B2 (en) 2019-10-03 2022-03-22 Rom Technologies, Inc. Method and system for using artificial intelligence and machine learning to provide recommendations to a healthcare provider in or near real-time during a telemedicine session
US11282599B2 (en) 2019-10-03 2022-03-22 Rom Technologies, Inc. System and method for use of telemedicine-enabled rehabilitative hardware and for encouragement of rehabilitative compliance through patient-based virtual shared sessions
US11942205B2 (en) 2019-10-03 2024-03-26 Rom Technologies, Inc. Method and system for using virtual avatars associated with medical professionals during exercise sessions
US11756666B2 (en) 2019-10-03 2023-09-12 Rom Technologies, Inc. Systems and methods to enable communication detection between devices and performance of a preventative action
US11282604B2 (en) 2019-10-03 2022-03-22 Rom Technologies, Inc. Method and system for use of telemedicine-enabled rehabilitative equipment for prediction of secondary disease
US11830601B2 (en) 2019-10-03 2023-11-28 Rom Technologies, Inc. System and method for facilitating cardiac rehabilitation among eligible users
US11309085B2 (en) 2019-10-03 2022-04-19 Rom Technologies, Inc. System and method to enable remote adjustment of a device during a telemedicine session
US11923065B2 (en) 2019-10-03 2024-03-05 Rom Technologies, Inc. Systems and methods for using artificial intelligence and machine learning to detect abnormal heart rhythms of a user performing a treatment plan with an electromechanical machine
US11887717B2 (en) 2019-10-03 2024-01-30 Rom Technologies, Inc. System and method for using AI, machine learning and telemedicine to perform pulmonary rehabilitation via an electromechanical machine
US11270795B2 (en) 2019-10-03 2022-03-08 Rom Technologies, Inc. Method and system for enabling physician-smart virtual conference rooms for use in a telehealth context
US11264123B2 (en) 2019-10-03 2022-03-01 Rom Technologies, Inc. Method and system to analytically optimize telehealth practice-based billing processes and revenue while enabling regulatory compliance
US11915816B2 (en) 2019-10-03 2024-02-27 Rom Technologies, Inc. Systems and methods of using artificial intelligence and machine learning in a telemedical environment to predict user disease states
US11139060B2 (en) 2019-10-03 2021-10-05 Rom Technologies, Inc. Method and system for creating an immersive enhanced reality-driven exercise experience for a user
US11701548B2 (en) 2019-10-07 2023-07-18 Rom Technologies, Inc. Computer-implemented questionnaire for orthopedic treatment
US11826613B2 (en) 2019-10-21 2023-11-28 Rom Technologies, Inc. Persuasive motivation for orthopedic treatment
US11337648B2 (en) 2020-05-18 2022-05-24 Rom Technologies, Inc. Method and system for using artificial intelligence to assign patients to cohorts and dynamically controlling a treatment apparatus based on the assignment during an adaptive telemedical session
US11935329B2 (en) 2021-03-24 2024-03-19 I'mbesideyou Inc. Video analysis program
JP7152817B1 (en) * 2021-03-24 2022-10-13 株式会社I’mbesideyou Video analysis program
JP7152819B1 (en) 2021-03-24 2022-10-13 株式会社I’mbesideyou Video analysis program
JP2022151612A (en) * 2021-03-24 2022-10-07 株式会社I’mbesideyou Video image analysis program
WO2022201383A1 (en) * 2021-03-24 2022-09-29 株式会社I’mbesideyou Video analysis programme
US11957960B2 (en) 2021-08-06 2024-04-16 Rehab2Fit Technologies Inc. Method and system for using artificial intelligence to adjust pedal resistance
JP7388768B2 (en) 2022-02-01 2023-11-29 株式会社I’mbesideyou Video analysis program
CN114766756A (en) * 2022-04-22 2022-07-22 广东职业技术学院 Pronunciation electrical apparatus control system based on clothing is dressed to intelligence
US11961603B2 (en) 2023-05-31 2024-04-16 Rom Technologies, Inc. System and method for using AI ML and telemedicine to perform bariatric rehabilitation via an electromechanical machine

Similar Documents

Publication Publication Date Title
JP2021027917A (en) Information processing device, information processing system, and machine learning device
CN111936036B (en) Using biometric sensor data to detect neurological status to guide in-situ entertainment
EP3384437B1 (en) Systems, computer medium and methods for management training systems
US10885800B2 (en) Human performance optimization and training methods and systems
US20220392625A1 (en) Method and system for an interface to provide activity recommendations
KR20210003718A (en) Social interaction applications for detection of neurophysiological conditions
US20220310247A1 (en) Virtual reality therapeutic systems
CN111477297A (en) Personal computing device
KR102432248B1 (en) System And Method For Generating An Avatar And Provides It To An External Metaverse Platform To Update The Avatar And Provide NFT For The Updated Avatar
WO2020071149A1 (en) Information processing device
KR102429630B1 (en) A system that creates communication NPC avatars for healthcare
KR102425481B1 (en) Virtual reality communication system for rehabilitation treatment
US20220134048A1 (en) Systems and methods for virtual-reality enhanced quantitative meditation
Hong et al. Adaptive mobile cloud computing on college physical training education based on virtual reality
KR102429627B1 (en) The System that Generates Avatars in Virtual Reality and Provides Multiple Contents
KR102425479B1 (en) System And Method For Generating An Avatar With User Information, Providing It To An External Metaverse Platform, And Recommending A User-Customized DTx(Digital Therapeutics)
KR102437583B1 (en) System And Method For Providing User-Customized Color Content For Preferred Colors Using Biosignals
JP6910919B2 (en) How to evaluate the system and actions to be taken to communicate
WO2020044124A1 (en) Relieving chronic symptoms through treatments in a virtual environment
CN113687744B (en) Man-machine interaction device for emotion adjustment
KR102432250B1 (en) The System that Provides Care Chatbot
KR102432251B1 (en) Virtual reality rehabilitation system performed on social servers
KR102543337B1 (en) System And Method For Providing User-Customized Color Healing Content Based On Biometric Information Of A User Who has Created An Avatar
KR102445133B1 (en) System That Creates An Avatar, Provides It To An External Metaverse Platforms, And Updates The Avatar, And Method Thereof
WO2022196059A1 (en) Information processing device, information processing method, and program