JP7432127B2

JP7432127B2 - 情報処理方法、情報処理システムおよびプログラム

Info

Publication number: JP7432127B2
Application number: JP2022553716A
Authority: JP
Inventors: 理恵伊藤; 友佳子日置; 佳祐有井; 潤井上; 治大島
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2020-09-30
Filing date: 2021-09-03
Publication date: 2024-02-16
Anticipated expiration: 2041-09-03
Also published as: WO2022070771A1; JPWO2022070771A1; US20230230493A1

Description

本開示は、情報処理方法、情報処理システムおよびプログラムに関する。

特許文献１は、演奏を自動的に評価する演奏評価装置を開示する。演奏評価装置は、演奏者によって操作される演奏装置から、演奏音を示す音信号を受信する。演奏評価装置は、演奏音を示す音信号と、楽譜を示す楽譜信号と、の差に基づく評価信号を、演奏装置に送信する。

特開平１０－６３１７５号公報

演奏者に対して演奏に関する情報を提供する手法として、演奏に関するコメントを示すコメント情報を演奏者に提供する手法が考えられる。この手法では、コメント情報が適切なコメントを示すことが重要である。
本開示は、適切なコメントを示すコメント情報を決定できる技術の提供を目的とする。

本開示の一態様に係る情報処理方法は、コンピュータによって実行される情報処理方法であって、楽器を用いる演奏者の画像を示す画像情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定する。

本開示の他の態様に係る情報処理システムは、楽器を用いる演奏者の画像を示す画像情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定する決定部を含む。

本開示のさらに他の態様に係るプログラムは、コンピュータに、楽器を用いる演奏者の画像を示す画像情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定する、処理を実行させる。

情報処理システム１の一例を示す図である。演奏教習システム１００の一例を示す図である。情報処理装置２００の一例を示す図である。演奏教習システム１００の動作を説明するための図である。情報処理装置２００の動作を説明するための図である。情報処理装置２０１の一例を示す図である。情報処理装置２０２の一例を示す図である。情報処理装置２０３の一例を示す図である。タブ譜の一例を示す図である。ギターコード譜の一例を示す図である。ドラム譜の一例を示す図である。連弾譜の一例を示す図である。複数音の同時発音を示す音符の一例を表す図である。スケジュール情報が示すスケジュールの一例を示す図である。スケジュール情報が示すスケジュールの他の例を示す図である。ユーザインターフェイスの一例を示す図である。情報処理装置２０４の一例を示す図である。学習処理部２４１の一例を示す図である。学習処理の一例を示す図である。第１３変形例を示す図である。

Ａ：第１実施形態
Ａ１：情報処理システム１
図１は、本開示の情報処理システム１の一例を示す図である。情報処理システム１は、楽器１００Ａを用いて楽曲Ｎの演奏を学習するユーザ１００Ｂによって利用される。楽器１００Ａは、ピアノである。ピアノは、楽器の種類の一例、および、楽器の一例である。以下、「楽器の種類」という文言は、「楽器」という文言に置き換えることができる。ユーザ１００Ｂは、オンラインで楽器１００Ａの演奏を教えるオンライン音楽教室の生徒である。ユーザ１００Ｂは、オンライン音楽教室の生徒に限らず、楽器１００Ａを用いる演奏の上達を望む者（オンライン音楽教室の生徒以外）でもよい。ユーザ１００Ｂは、演奏者の一例である。

情報処理システム１は、ユーザ１００Ｂに、コメント情報ｂを提供する。コメント情報ｂは、ユーザ１００Ｂによる楽器１００Ａの演奏に関するコメントを示す。情報処理システム１は、演奏教習システム１００と、情報処理装置２００と、を含む。演奏教習システム１００と情報処理装置２００は、ネットワークＮＷを介して相互に通信可能である。

演奏教習システム１００は、オンライン音楽教室を運営する事業者によって管理される部屋に配置される。演奏教習システム１００は、当該事業者が管理する部屋とは異なる場所、例えば、ユーザ１００Ｂの家に配置されてもよい。

ユーザ１００Ｂが楽器１００Ａを演奏する場所は、演奏教習システム１００が配置される部屋において予め定められている。このため、演奏中のユーザ１００Ｂ、演奏直前のユーザ１００Ｂ、および、演奏直後のユーザ１００Ｂは、固定のカメラによって撮像可能である。

演奏教習システム１００は、ユーザ画像情報ａ１を情報処理装置２００に送信する。ユーザ画像情報ａ１は、ユーザ１００Ｂが楽器１００Ａを用いて楽曲Ｎを演奏する状況を表す画像（以下「ユーザ画像」と称する）を示す。ユーザ画像情報ａ１は、楽器を用いる演奏者の画像を示す画像情報の一例である。

情報処理装置２００は、例えば、サーバである。情報処理装置２００は、サーバに限らず、例えば、パーソナルコンピュータまたはワークステーションでもよい。情報処理装置２００は、演奏教習システム１００からユーザ画像情報ａ１を受信する。情報処理装置２００は、ユーザ画像情報ａ１に応じたコメント情報ｂを演奏教習システム１００に送信する。

コメント情報ｂは、演奏者へのコメントである演奏コメントを示す。演奏コメントは、ユーザ画像情報ａ１が示すユーザ画像に応じたコメントである。演奏コメントは、例えば、「離鍵を早く。」、「和音の間違いに気をつけて。」および「もう少し指を伸ばしてみましょう。」のうち少なくとも１つを含む。演奏コメントは、上述のコメントに限らず適宜変更可能である。演奏コメントは、楽器に対する演奏者の身体の使い方に関するアドバイスの一例である。

コメント情報ｂは、コメント画像情報ｂ１と、コメント音情報ｂ２と、を含む。コメント情報ｂは、コメント画像情報ｂ１と、コメント音情報ｂ２と、の少なくとも一方を含めばよい。コメント画像情報ｂ１は、演奏コメントを画像で示す。コメント画像情報ｂ１は、例えば、演奏コメントを文字で表す画像、または、演奏コメントが記された楽譜を表す画像を示す。コメント音情報ｂ２は、演奏コメントを音（例えば、音声）で示す。

演奏教習システム１００は、情報処理装置２００からコメント情報ｂを受信する。演奏教習システム１００は、コメント情報ｂに含まれるコメント画像情報ｂ１に基づいて、演奏コメントを表示する。演奏教習システム１００は、コメント情報ｂに含まれるコメント音情報ｂ２に基づいて、演奏コメントを示す音を出力する。

Ａ２：演奏教習システム１００
図２は、演奏教習システム１００の一例を示す図である。演奏教習システム１００は、カメラ１１０と、表示部１３０と、スピーカ１４０と、操作部１５０と、通信部１６０と、記憶装置１７０と、処理装置１８０と、を含む。

カメラ１１０は、光を電気信号に変換するイメージセンサを含む。イメージセンサは、例えば、ＣＣＤ（Charge Coupled Device）イメージセンサまたはＣＭＯＳ（Complementary Metal Oxide Semiconductor）イメージセンサである。

カメラ１１０は、楽器１００Ａ（ピアノ）で楽曲Ｎを演奏するユーザ１００Ｂの手の各指を撮像することによって、ユーザ画像情報ａ１を生成する。この場合、ユーザ画像情報ａ１は、楽器１００Ａで楽曲Ｎを演奏するユーザ１００Ｂの手の各指と、楽器１００Ａと、を画像で表す。ユーザ画像情報ａ１は、ユーザ１００Ｂの手の各指と、楽器１００Ａと、のいずれとも異なる物体、例えば楽譜を表すこともある。カメラ１１０の向きおよび姿勢は、調整可能である。カメラ１１０は、撮像部とも称される。

表示部１３０は、液晶ディスプレイである。表示部１３０は、液晶ディスプレイに限らず、例えば、ＯＬＥＤ（Organic Light Emitting diode）ディスプレイでもよい。表示部１３０は、タッチパネルでもよい。表示部１３０は、種々の情報を表示する。表示部１３０は、例えば、コメント画像情報ｂ１に基づくコメント画像を表示する。コメント画像は、演奏コメントを示す画像である。

スピーカ１４０は、種々の音を出力する。スピーカ１４０は、例えば、コメント音情報ｂ２に基づくコメント音を出力する。コメント音は、演奏コメントを示す音である。

操作部１５０は、タッチパネルである。操作部１５０は、タッチパネルに限らず、例えば、種々の操作ボタンでもよい。操作部１５０は、ユーザ１００Ｂから種々の情報を受け取る。

通信部１６０は、ネットワークＮＷを介して有線または無線で情報処理装置２００と通信する。通信部１６０は、ネットワークＮＷを介さずに有線または無線で情報処理装置２００と通信してもよい。通信部１６０は、ユーザ画像情報ａ１を情報処理装置２００に送信する。通信部１６０は、コメント情報ｂを情報処理装置２００から受信する。

記憶装置１７０は、コンピュータによって読み取り可能な記録媒体（例えば、コンピュータによって読み取り可能なnon transitoryな記録媒体）である。記憶装置１７０は、１または２以上のメモリーを含む。記憶装置１７０は、例えば、不揮発性メモリーと、揮発性メモリーと、を含む。不揮発性メモリーは、例えば、ＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）およびＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）である。揮発性メモリーは、例えば、ＲＡＭ（Random Access Memory）である。

記憶装置１７０は、プログラムと、種々のデータと、を記憶する。記憶装置１７０は、不図示のサーバにおける記憶装置から読み取られたプログラムを記憶してもよい。この場合、サーバにおける記憶装置は、コンピュータによって読み取り可能な記録媒体（例えば、コンピュータによって読み取り可能なnon transitoryな記録媒体）の一例である。

処理装置１８０は、１または２以上のＣＰＵ（Central Processing Unit）を含む。１または２以上のＣＰＵは、１または２以上のプロセッサの一例である。処理装置、プロセッサおよびＣＰＵの各々は、コンピュータの一例である。処理装置１８０が有する機能の一部又は全部は、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）等の回路で実現されてもよい。

処理装置１８０は、記憶装置１７０からプログラムを読み取る。処理装置１８０は、当該プログラムを実行することによって、送信制御部１８１および出力制御部１８２として機能する。

送信制御部１８１は、通信部１６０を制御する。例えば、送信制御部１８１は、通信部１６０を制御することによってユーザ画像情報ａ１を情報処理装置２００へ送信する。

出力制御部１８２は、表示部１３０およびスピーカ１４０を制御する。例えば、出力制御部１８２は、コメント画像情報ｂ１に基づいて、コメント画像を表示部１３０に表示させる。出力制御部１８２は、コメント音情報ｂ２に基づいて、コメント音をスピーカ１４０に出力させる。

Ａ３：情報処理装置２００
図３は、情報処理装置２００の一例を示す図である。情報処理装置２００は、通信部２１０と、記憶装置２２０と、処理装置２３０と、を含む。

通信部２１０は、ネットワークＮＷを介して有線または無線で演奏教習システム１００と通信する。通信部２１０は、ネットワークＮＷを介さずに有線または無線で演奏教習システム１００と通信してもよい。通信部２１０は、ユーザ画像情報ａ１を演奏教習システム１００から受信する。通信部２１０は、コメント情報ｂを演奏教習システム１００に送信する。

記憶装置２２０は、コンピュータによって読み取り可能な記録媒体（例えば、コンピュータによって読み取り可能なnon transitoryな記録媒体）である。記憶装置２２０は、１または２以上のメモリーを含む。記憶装置２２０は、例えば、不揮発性メモリーと、揮発性メモリーと、を含む。

記憶装置２２０は、処理プログラムと、演算プログラムと、種々のデータと、を記憶する。処理プログラムは、情報処理装置２００の動作を規定する。演算プログラムは、入力Ｘ１から出力Ｙ１を特定する演算を規定する。

記憶装置２２０は、不図示のサーバにおける記憶装置から読み取られた処理プログラムおよび演算プログラムを記憶してもよい。この場合、サーバにおける記憶装置は、コンピュータによって読み取り可能な記録媒体（例えば、コンピュータによって読み取り可能なnon transitoryな記録媒体）の一例である。種々のデータは、後述の複数の変数Ｋ１を含む。

処理装置２３０は、１または２以上のＣＰＵを含む。処理装置２３０が有する機能の一部又は全部は、ＤＳＰ、ＡＳＩＣ、ＰＬＤ、ＦＰＧＡ等の回路で実現されてもよい。

処理装置２３０は、記憶装置２２０から処理プログラムと演算プログラムとを読み取る。処理装置２３０は、処理プログラムを実行することによって、抽出部２３１、決定部２３２および送信部２３４として機能する。処理装置２３０は、演算プログラムを実行しつつ複数の変数Ｋ１を用いることによって、学習済みモデル２３３として機能する。

抽出部２３１は、ユーザ画像情報ａ１から、指画像情報ｄ１を抽出する。指画像情報ｄ１は、楽器１００Ａであるピアノの鍵盤に対するユーザ１００Ｂにおける手の各指の使い方を画像で示す。例えば、指画像情報ｄ１は、ピアノの鍵盤に対するユーザ１００Ｂにおける手の各指の動きを画像で示す。指画像情報ｄ１は、楽器に対する演奏者の身体の使い方（動き）を示す特徴情報の一例である。楽器に対する演奏者の身体の使い方（動き）は、楽器と演奏者との相対関係の一例である。相対関係は、当然のことながら、相対的な位置関係を意味する。

抽出部２３１は、例えば、ピアノの鍵盤を操作する人間の手の指の画像を認識する画像認識技術を用いて、ユーザ画像情報ａ１から指画像情報ｄ１を特定する。ピアノの鍵盤を操作する人間の手の指の画像を認識する画像認識技術では、例えば、ピアノの鍵盤を操作する人間の手の指を示す画像情報と、当該画像情報によって示される物体がピアノの鍵盤を操作する人間の手の指であることを示す情報と、の関係を学習した学習済みモデルが用いられる。抽出部２３１は、特定した指画像情報ｄ１をユーザ画像情報ａ１から抽出する。

抽出部２３１は、指画像情報ｄ１として、ピアノの鍵盤に対するユーザ１００Ｂにおける手の指の骨格の動きを画像で示す骨格情報を用いてもよい。この場合、抽出部２３１は、まず、ピアノの鍵盤を操作する人間の手の指の画像を認識する画像認識技術を用いて、ユーザ画像情報ａ１から、ピアノの鍵盤を操作する人間の手の指を画像で示す指情報を特定する。続いて、抽出部２３１は、特定した指情報をユーザ画像情報ａ１から抽出する。続いて、抽出部２３１は、指情報から骨格情報を特定する。例えば、抽出部２３１は、ピアノの鍵盤を操作する人間の手の指を画像で示す情報と、当該情報によって示される指の骨格を画像で示す情報と、の関係を学習した学習済みモデルへの指情報の入力に応じて当該学習済みモデルが出力する情報を、骨格情報として特定する。

決定部２３２は、指画像情報ｄ１に基づいて、コメント情報ｂを決定する。決定部２３２は、例えば、学習済みモデル２３３を使用することによって、コメント情報ｂを決定する。

学習済みモデル２３３は、ニューラルネットワーク（Neural Network）で構成される。例えば、学習済みモデル２３３は、深層ニューラルネットワーク（DNN：Deep Neural Network）で構成される。学習済みモデル２３３は、例えば、畳込ニューラルネットワーク（CNN：Convolutional Neural Network）で構成されてもよい。深層ニューラルネットワークと、畳込ニューラルネットワークとの各々は、ニューラルネットワークの一例である。学習済みモデル２３３は、複数種のニューラルネットワークの組合せで構成されてもよい。学習済みモデル２３３は、Self-Attention等の付加的な要素を有してもよい。学習済みモデル２３３は、ニューラルネットワークで構成されずに、隠れマルコフモデル（HMM：Hidden Markov Model）、またはサポートベクターマシーン（SVM：support vector machine）で構成されてもよい。

学習済みモデル２３３は、楽器と演奏者との相対的な位置関係を示す第１情報と、第１情報が示す相対的な位置関係についてのコメントを示す第２情報と、の関係を学習した学習済みモデルである。第１情報は、学習用特徴情報の一例である。第２情報は、学習用コメント情報の一例である。学習済みモデル２３３は、第１学習済みモデルの一例である。

学習済みモデル２３３は、第１情報として、楽曲Ｎの演奏時におけるピアノの鍵盤に対する手の各指の使い方を画像で示す情報を用いる。楽曲Ｎの演奏時におけるピアノの鍵盤に対する手の各指の使い方を画像で示す情報は、楽器に対する演奏者の身体の使い方を示す情報の一例である。
指画像情報ｄ１が、ピアノの鍵盤に対する手の指の動きを画像で示す場合、第１情報（楽曲Ｎの演奏時におけるピアノの鍵盤に対する手の各指の使い方を画像で示す情報）は、楽曲Ｎの演奏時におけるピアノの鍵盤に対する手の指の動きを画像で示す情報である。
指画像情報ｄ１が、ピアノの鍵盤に対する手の指の骨格の動きを画像で示す場合、第１情報は、楽曲Ｎの演奏時におけるピアノの鍵盤に対する手の指の骨格の動きを画像で示す情報である。

学習済みモデル２３３は、第２情報として、第１画像情報と第１音情報との組を用いる。第１画像情報は、楽曲Ｎの演奏時におけるピアノの鍵盤に対する手の各指の使い方に関するお手本と、第１情報が示す画像についてのピアノ教師の適切なコメントと、を画像で示す。第１音情報は、第１情報が示す画像についてのピアノ教師の適切なコメントを音声で示す。ピアノ教師の適切なコメントは、例えば、「離鍵を早く。」、「和音の間違いに気をつけて。」および「もう少し指を伸ばしてみましょう。」の少なくとも１つを含む。ピアノ教師の適切なコメントは、上述のコメントに限らず適宜変更可能である。

学習済みモデル２３３を実現するために用いられる複数の変数Ｋ１は、複数の訓練データＴ１を利用した機械学習によって特定される。訓練データＴ１は、訓練用の入力データと、訓練用の出力データと、の組合せを含む。訓練データＴ１は、訓練用の入力データとして第１情報を含む。訓練データＴ１は、訓練用の出力データとして第２情報を含む。
学習済みモデル２３３は、入力Ｘ１に応じた出力Ｙ１を生成する。学習済みモデル２３３は、入力Ｘ１として「楽器と演奏者との相対的な位置関係を示す情報（例えば、指画像情報ｄ１）」を用い、出力Ｙ１として「コメントを示す情報」を用いる。

なお、複数の訓練データＴ１は、訓練用の出力データ（第２情報）を有さずに訓練用の入力データ（第１情報）のみを有してもよい。この場合、複数の訓練データＴ１が複数の訓練データＴ１の類似度に基づいて複数のクラスタに分けられるように、機械学習によって複数の変数Ｋ１が特定される。そして、学習済みモデル２３３において、クラスタごとに、当該クラスタに適した第２情報が人によって対応づけられる。学習済みモデル２３３は、入力Ｘ１に応じたクラスタを特定し、特定したクラスタに対応する第２情報を、出力Ｙ１として生成する。

送信部２３４は、コメント情報ｂを、通信部２１０から演奏教習システム１００に送信する。演奏教習システム１００は、送信先の一例である。

Ａ４：演奏教習システム１００の動作
図４は、演奏教習システム１００の動作を説明するための図である。以下では、ユーザ１００Ｂがピアノを用いて楽曲Ｎを演奏することを想定する。

ユーザ１００Ｂは、操作部１５０を操作することによって、演奏教習システム１００を起動する。続いて、ユーザ１００Ｂは、楽器１００Ａ（ピアノ）で楽曲Ｎの演奏を開始する。演奏教習システム１００の起動に応じて、ステップＳ１０１においてカメラ１１０は、ユーザ画像情報ａ１を生成する。

続いて、ステップＳ１０２において送信制御部１８１は、ユーザ画像情報ａ１を通信部１６０から情報処理装置２００に送信する。

続いて、ステップＳ１０３において通信部１６０は、ユーザ画像情報ａ１に応じたコメント情報ｂを情報処理装置２００から受信する。

続いて、ステップＳ１０４において出力制御部１８２は、表示部１３０およびスピーカ１４０の各々から、コメント情報ｂが示す演奏コメントを出力する。

Ａ５：情報処理装置２００の動作
図５は、情報処理装置２００の動作を説明するための図である。

ステップＳ２０１において通信部２１０は、ユーザ画像情報ａ１を演奏教習システム１００から受信する。

続いて、ステップＳ２０２において抽出部２３１は、ユーザ画像情報ａ１から指画像情報ｄ１を抽出する。例えば、ユーザ画像情報ａ１が、ユーザ１００Ｂの手の各指と楽器１００Ａに加えて楽譜を表す場合、ステップＳ２０２において抽出部２３１は、ユーザ画像情報ａ１から、楽譜を表す情報を除いた部分を、指画像情報ｄ１として抽出する。

続いて、ステップＳ２０３において決定部２３２は、指画像情報ｄ１に基づいて、コメント情報ｂを決定する。ステップＳ２０３では、決定部２３２は、まず、指画像情報ｄ１を学習済みモデル２３３に入力する。続いて、決定部２３２は、指画像情報ｄ１の入力に応じて学習済みモデル２３３が出力する情報を、コメント情報ｂとして決定する。学習済みモデル２３３は、ピアノ教師の適切なコメントを示す訓練データＴ１を学習済みである。このため、コメント情報ｂは、ユーザ１００Ｂが行う演奏について適切なコメントを示す可能性が高い。

続いて、ステップＳ２０４において送信部２３４は、コメント情報ｂを通信部２１０から演奏教習システム１００に送信する。

本実施形態によれば、ユーザ画像情報ａ１から抽出された指画像情報ｄ１に基づいて、コメント情報ｂが決定される。このため、コメント情報ｂの決定に関して不要な情報を含むユーザ画像情報ａ１を学習済みモデル２３３に入力することによってコメント情報ｂを決定する構成に比べて、適切なコメント情報ｂを特定できる。なお、ユーザ画像情報ａ１から抽出された指画像情報ｄ１に基づいてコメント情報ｂを決定することは、ユーザ画像情報ａ１に基づいてコメント情報ｂを決定することに包含される。このため、本実施形態は、決定部２３２がユーザ画像情報ａ１に基づいてコメント情報ｂを決定する構成を包含する。また、ユーザ画像情報ａ１は指画像情報ｄ１を含むため、決定部２３２は、指画像情報ｄ１の代わりにユーザ画像情報ａ１を用いてもよい。例えば、決定部２３２は、まず、ユーザ画像情報ａ１を学習済みモデル２３３に入力する。続いて、決定部２３２は、ユーザ画像情報ａ１に応じて学習済みモデル２３３が出力する情報を、コメント情報ｂとして決定する。この場合、抽出部２３１を省略できる。この場合も、決定部２３２は、ユーザ画像情報ａ１に基づいてコメント情報ｂを決定する。コメント情報ｂの決定に、指画像情報ｄ１の代わりにユーザ画像情報ａ１を用いる構成は、以下の変形例においても、相互に矛盾しない範囲において適用可能である。

Ｂ：変形例
上述の実施形態における変形の態様を以下に示す。以下の態様から任意に選択された２個以上の態様が、相互に矛盾しない範囲において適宜に併合されてもよい。

Ｂ１：第１変形例
上述の実施形態において、抽出部２３１は、情報処理装置２００ではなく、演奏教習システム１００における処理装置１８０によって実現されてもよい。この場合、演奏教習システム１００は、ユーザ画像情報ａ１の代わりに指画像情報ｄ１を情報処理装置２００に送信する。情報処理装置２００の決定部２３２は、演奏教習システム１００から受信した指画像情報ｄ１に基づいて、コメント情報ｂを決定する。第１変形例によれば、情報処理装置２００における処理の負荷を低減できる。

Ｂ２：第２変形例
上述の実施形態および第１変形例において、訓練データＴ１の第１情報（訓練用の入力データ）は、楽曲Ｎ全体の演奏においてピアノの鍵盤に対する手の指の使い方を画像で示す情報でもよい。
例えば、指画像情報ｄ１が、ピアノの鍵盤に対する手の指の動きを画像で示す場合、楽曲Ｎ全体の演奏においてピアノの鍵盤に対する手の指の使い方を画像で示す情報は、楽曲Ｎ全体の演奏においてピアノの鍵盤に対する手の指の動きを画像で示す情報である。指画像情報ｄ１が、ピアノの鍵盤に対する手の指の骨格の動きを画像で示す場合、楽曲Ｎ全体の演奏においてピアノの鍵盤に対する手の指の使い方を画像で示す情報は、楽曲Ｎ全体の演奏においてピアノの鍵盤に対する手の指の骨格の動きを画像で示す情報である。
当該第１情報は、楽曲Ｎの一部分の演奏においてピアノの鍵盤に対する手の指の使い方を画像で示す情報でもよい。
指画像情報ｄ１が、ピアノの鍵盤に対する手の指の動きを画像で示す場合、楽曲Ｎの一部分の演奏においてピアノの鍵盤に対する手の指の使い方を画像で示す情報は、楽曲Ｎの一部分の演奏においてピアノの鍵盤に対する手の指の動きを画像で示す情報である。指画像情報ｄ１がピアノの鍵盤に対する手の指の骨格の動きを画像で示す場合、楽曲Ｎの一部分の演奏においてピアノの鍵盤に対する手の指の使い方を画像で示す情報は、楽曲Ｎの一部分の演奏においてピアノの鍵盤に対する手の指の骨格の動きを画像で示す情報である。
楽曲Ｎの一部分は、例えば、楽曲Ｎを４小節ごとに区切った部分である。楽曲Ｎの一部分は、楽曲Ｎを４小節ごとに区切った部分に限らず適宜変更可能である。

学習済みモデル２３３が、楽曲Ｎの部分ごとに設けられてもよい。例えば、処理装置２３０は、楽曲Ｎの部分ごとに、学習済みモデル２３３を実現する。この場合、楽曲Ｎの部分ごとに、ユーザ１００Ｂによるピアノの演奏に関するコメント情報を決定できる。学習済みモデル２３３が、相互に異なる楽曲ごとに設けられてもよい。例えば、処理装置２３０は、相互に異なる楽曲ごとに、学習済みモデル２３３を実現する。この場合、楽曲ごとに、コメント情報を決定できる。第２変形例によれば、コメント対象の演奏部分を多様にできる。

Ｂ３：第３変形例
上述の実施形態および第１～第２変形例において、楽器と演奏者との相対的な位置関係を示す特徴情報、および、楽器に対する演奏者の身体の使い方を示す特徴情報は、指画像情報ｄ１に限らない。

例えば、当該特徴情報は、ピアノのペダルに対する演奏者における両足の使い方を画像で表す両足画像情報でもよい。両足画像情報は、例えば、ピアノのペダルに対する演奏者における両足の動きを画像で表す情報である。両足画像情報は、ピアノのペダルに対する演奏者における両足の骨格の動きを画像で表す情報でもよい。
この場合、ユーザ画像情報ａ１は、楽器１００Ａで楽曲Ｎを演奏するユーザ１００Ｂの両足と、楽器１００Ａと、を画像で表す。例えば、カメラ１１０の撮像範囲が、楽器１００Ａ（ピアノ）を操作するユーザ１００Ｂの両足と、楽器１００Ａと、を含む範囲に設定される。カメラ１１０は、楽器１００Ａ（ピアノ）を操作するユーザ１００Ｂの両足を撮像することによって、ユーザ画像情報ａ１を生成する。ユーザ画像情報ａ１から両足画像情報を抽出する手法は、ユーザ画像情報ａ１から指画像情報ｄ１を抽出する手法において「ピアノの鍵盤を操作する人間の手の指」の代わりに「ピアノのペダルを操作する人間の両足」を用いることによって実現される。
この場合、訓練データＴ１の第１情報が示す画像は、ピアノのペダルに対する演奏者における両足の使い方を表す。両足画像情報が、ピアノのペダルに対する演奏者における両足の動きを画像で表す情報である場合、訓練データＴ１の第１情報が示す画像は、ピアノのペダルに対する演奏者における両足の動きを表す。両足画像情報が、ピアノのペダルに対する演奏者における両足の骨格の動きを画像で表す情報である場合、訓練データＴ１の第１情報が示す画像は、ピアノのペダルに対する演奏者における両足の骨格の動きを表す。
訓練データＴ１の第２情報が示すピアノ教師の適切なコメントは、例えば、「ダンパーペダルを踏みこんで。」、「つま先に力が入りすぎです。」および「つま先に力を入れましょう。」の少なくとも１つを含む。ピアノ教師の適切なコメントは、上述のコメントに限らず適宜変更可能である。

当該特徴情報は、ピアノに対する演奏者の全身の使い方を画像で表す全身画像情報でもよい。全身画像情報は、例えば、ピアノに対する演奏者の全身の動きを画像で表す情報である。全身画像情報は、ピアノに対する演奏者の全身の骨格の動きを画像で表す情報でもよい。
この場合、ユーザ画像情報ａ１は、楽器１００Ａで楽曲Ｎを演奏するユーザ１００Ｂの全身と、楽器１００Ａと、を画像で表す。例えば、カメラ１１０は、楽器１００Ａ（ピアノ）を操作するユーザ１００Ｂの全身と、楽器１００Ａと、を撮像することによって、ユーザ画像情報ａ１を生成する。ユーザ画像情報ａ１から全身画像情報を抽出する手法は、ユーザ画像情報ａ１から指画像情報ｄ１を抽出する手法において「ピアノの鍵盤を操作する人間の手の指」の代わりに「ピアノを操作する人間の全身」を用いることによって実現される。
この場合、訓練データＴ１の第１情報が示す画像は、ピアノに対する演奏者の全身の使い方を表す。全身画像情報が、ピアノに対する演奏者の全身の動きを画像で表す情報である場合、訓練データＴ１の第１情報が示す画像は、ピアノに対する演奏者の全身の動きを表す。全身画像情報が、ピアノに対する演奏者の全身の骨格の動きを画像で表す情報である場合、訓練データＴ１の第１情報が示す画像は、ピアノに対する演奏者の全身の動きを表す。
訓練データＴ１の第２情報が示すピアノ教師の適切なコメントは、例えば、「背筋を伸ばしてね。」および「腕が身体に近すぎますよ。」のいずれかである。ピアノ教師の適切なコメントは、上述のコメントに限らず適宜変更可能である。

第３変形例によれば、楽器と演奏者との種々の相対的な位置関係に基づいて、多様なコメント情報を決定できる。

Ｂ４：第４変形例
上述の実施形態および第１～第３変形例において、決定部２３２は、学習済みモデル２３３を用いることなく、コメント情報ｂを決定してもよい。例えば、決定部２３２は、指の動きとコメント候補情報との対応関係を示すコメントテーブルを用いて、コメント情報ｂを決定する。コメントテーブルが、「指の動きの速度が参照速度以上」という指の動きと、「離鍵を早く。」というコメント候補情報と、の対応関係を示す例を説明する。決定部２３２は、指画像情報ｄ１（またはユーザ画像情報ａ１）に基づいて、ユーザ１００Ｂにおける手の指における動きの速度を算出する。決定部２３２は、算出した速度が参照速度以上である場合、コメントテーブルにおいて「指の動きの速度が参照速度以上」という指の動きに対応する「離鍵を早く。」というコメント候補情報を、コメント情報ｂとして決定する。指の動きの例とコメント候補情報の例は適宜変更可能である。例えば、コメントテーブルが、「正しい指の移動方向」という指の動きと、「上手です。」というコメント候補情報と、の対応関係を示してもよい。この場合、決定部２３２は、指画像情報ｄ１（またはユーザ画像情報ａ１）に基づいて、ユーザ１００Ｂにおける手の指の移動方向を特定する。決定部２３２は、特定した指の移動方向がコメントテーブルに示される「正しい指の移動方向」と一致する場合、コメントテーブルにおいて「正しい指の移動方向」という指の動きに対応する「上手です。」というコメント候補情報をコメント情報ｂとして決定する。

第４変形例によれば、学習済みモデル２３３を用いることなく、コメント情報ｂを決定できる。

Ｂ５：第５変形例
上述の実施形態および第１～第４変形例において、楽器１００Ａの種類が変更可能である場合、学習済みモデル２３３が、楽器の種類ごと（楽器ごと）に設けられてもよい。例えば、処理装置２３０は、楽器の種類ごとに、楽曲Ｎについての学習済みモデル２３３を実現する。以下、楽器１００Ａの種類として、ピアノとバイオリンが存在する例を説明する。ピアノとバイオリンは、それぞれ、楽器の一例である。ピアノとバイオリンは、複数の楽器の一例である。楽器１００Ａの種類（複数の楽器）は、ピアノとバイオリンに限らず適宜変更可能である。

図６は、第５変形例に係る情報処理装置２０１を示す図である。情報処理装置２０１は、学習済みモデル２３３に加えて学習済みモデル２３５を有する。学習済みモデル２３３は、上述のピアノ用の学習済みモデルである。学習済みモデル２３５は、バイオリン用の学習済みモデルである。すなわち、学習済みモデル２３５は、バイオリンに対応する学習済みモデル２３３の一例である。学習済みモデル２３３と学習済みモデル２３５は、複数の楽器に対応する複数の第１学習済みモデルの一例である。複数の楽器に対応する複数の第１学習済みモデルを含むモデルは、第１学習済みモデルの一例である。複数の楽器に対応することは、例えば、複数の楽器に１対１で対応することを意味する。

学習済みモデル２３５は、ニューラルネットワークで構成される。例えば、学習済みモデル２３５は、深層ニューラルネットワークで構成される。学習済みモデル２３５は、例えば、畳込ニューラルネットワークで構成されてもよい。学習済みモデル２３５は、複数種のニューラルネットワークの組合せで構成されてもよい。学習済みモデル２３５は、Self-Attention等の付加的な要素を有してもよい。学習済みモデル２３５は、ニューラルネットワークで構成されずに、隠れマルコフモデル、またはサポートベクターマシーンで構成されてもよい。

学習済みモデル２３５は、楽器と演奏者との相対的な位置関係を示す第１情報と、第１情報が示す相対的な位置関係についてのコメントを示す第２情報と、の関係を学習した学習済みモデルである。学習済みモデル２３５は、第１学習済みモデルの一例である。

学習済みモデル２３５は、第１情報として、楽曲Ｎの演奏時におけるバイオリンに対する左手の各指の使い方を画像で示す情報を用いる。楽曲Ｎの演奏時におけるバイオリンに対する左手の各指の使い方を画像で示す情報は、楽器に対する演奏者の身体の使い方を示す情報の一例である。
楽曲Ｎの演奏時におけるバイオリンに対する左手の各指の使い方を画像で示す情報は、例えば、楽曲Ｎの演奏時におけるバイオリンの絃に対する左手の各指の動きを画像で示す情報である。楽曲Ｎの演奏時におけるバイオリンに対する左手の各指の使い方を画像で示す情報は、楽曲Ｎの演奏時におけるバイオリンの絃に対する左手の各指の骨格の動きを画像で示す情報でもよい。

学習済みモデル２３５は、第２情報として、第２画像情報と第２音情報との組を用いる。第２画像情報は、楽曲Ｎの演奏時におけるバイオリンに対する左手の各指の使い方に関するお手本と、学習済みモデル２３５における第１情報が示す画像についてのバイオリン教師の適切なコメントと、を画像で示す。第２音情報は、学習済みモデル２３５における第１情報が示す画像についてのバイオリン教師の適切なコメントを音声で示す。バイオリン教師の適切なコメントは、例えば、「指の間をひろげましょう。」である。バイオリン教師の適切なコメントは、上述のコメントに限らず適宜変更可能である。

処理装置２３０は、入力Ｘ１から出力Ｙ１を特定する演算を規定する演算プログラムと、複数の変数Ｋ２と、の組合せに基づいて、学習済みモデル２３５として機能する。複数の変数Ｋ２は、複数の訓練データＴ２を利用した機械学習によって特定される。訓練データＴ２は、学習済みモデル２３５における第１情報（訓練用の入力データ）と、学習済みモデル２３５における第２情報（訓練用の出力データ）と、の組合せを含む。複数の訓練データＴ２は、訓練用の出力データ（第２情報）を有さずに訓練用の入力データ（第１情報）のみを有してもよい。この場合、複数の訓練データＴ２が複数の訓練データＴ２の類似度に基づいて複数のクラスタに分けられるように、機械学習によって複数の変数Ｋ２が特定される。そして、学習済みモデル２３５において、クラスタごとに、当該クラスタに適した第２情報が人によって対応づけられる。学習済みモデル２３５は、入力Ｘ１に応じたクラスタを特定し、特定したクラスタに対応する第２情報を、出力Ｙ１として生成する。

第５変形例では、ユーザ１００Ｂは、操作部１５０を操作することによって、楽器１００Ａの種類（ピアノまたはバイオリン）を示す楽器情報ｃ１を演奏教習システム１００に入力する。楽器情報ｃ１は、複数の楽器の中の楽器を示す楽器情報の一例である。演奏教習システム１００の送信制御部１８１は、楽器情報ｃ１を通信部１６０から情報処理装置２０１に送信する。

情報処理装置２０１の決定部２３２は、楽器情報ｃ１を取得し、学習済みモデル２３３および２３５の中から、楽器情報ｃ１が示す種類（楽器）に対応する学習済みモデルを特定する。例えば、楽器情報ｃ１がピアノを示す場合、決定部２３２は、楽器情報ｃ１が示す種類（楽器）に対応する学習済みモデルとして、学習済みモデル２３３を特定する。一方、楽器情報ｃ１がバイオリンを示す場合、決定部２３２は、楽器情報ｃ１が示す種類（楽器）に対応する学習済みモデルとして、学習済みモデル２３５を特定する。

ユーザ１００Ｂは、楽器１００Ａの種類としてピアノを示す楽器情報ｃ１を入力すると、カメラ１１０の撮像範囲を、楽器１００Ａ（ピアノ）で楽曲Ｎを演奏するユーザ１００Ｂの手の各指と、楽器１００Ａと、を含む第１範囲に設定する。

ユーザ１００Ｂは、楽器１００Ａの種類としてバイオリンを示す楽器情報ｃ１を入力すると、カメラ１１０の撮像範囲を、楽器１００Ａ（バイオリン）で楽曲Ｎを演奏するユーザ１００Ｂの手の各指と、楽器１００Ａと、を含む第２範囲に設定する。

ユーザ１００Ｂは、第１範囲または第２範囲の設定を、楽器情報ｃ１の入力前に行ってもよい。

第１範囲および第２範囲には、ユーザの手の各指と楽器１００Ａとのいずれとも異なる物体（例えば、楽譜）が存在することがある。

送信制御部１８１は、カメラ１１０が生成したユーザ画像情報ａ１を通信部１６０から情報処理装置２０１に送信する。

情報処理装置２０１の抽出部２３１は、楽器情報ｃ１がピアノを示す場合、第１実施形態で示したように動作する。

楽器情報ｃ１がバイオリンを示す場合、抽出部２３１は、ユーザ画像情報ａ１から、指画像情報ｄ２を抽出する。指画像情報ｄ２は、バイオリンの絃に対するユーザ１００Ｂにおける左手の各指の使い方を画像で示す。指画像情報ｄ２は、楽器に対する演奏者の身体の使い方を示す特徴情報の一例である。ユーザ画像情報ａ１から指画像情報ｄ２を抽出する手法は、ユーザ画像情報ａ１から指画像情報ｄ１を抽出する手法において「ピアノの鍵盤を操作する人間の手の指」の代わりに「バイオリンの絃を操作する人間の左手の各指」を用いることによって実現される。

学習済みモデル２３５が、第１情報として、楽曲Ｎの演奏時におけるバイオリンに対する左手の各指の動きを画像で示す情報を用いる場合、指画像情報ｄ２は、バイオリンの絃に対するユーザ１００Ｂにおける左手の各指の動きを画像で示す。
学習済みモデル２３５が、第１情報として、楽曲Ｎの演奏時におけるバイオリンに対する左手の各指の骨格の動きを画像で示す情報を用いている場合、指画像情報ｄ２は、バイオリンの絃に対するユーザ１００Ｂにおける左手の各指の骨格の動きを画像で示す。
決定部２３２は、指画像情報ｄ２を学習済みモデル２３５に入力する。続いて、決定部２３２は、指画像情報ｄ２の入力に応じて学習済みモデル２３５が出力する情報を、コメント情報ｂとして決定する。

第５変形例によれば、決定部２３２は、楽器１００Ａに種類に応じて適切なコメント情報ｂを決定できる。

第５変形例において、訓練データＴ２の第１情報（訓練用の入力データ）は、楽曲Ｎ全体の演奏時においてバイオリンに対する左手の各指の使い方を画像で示す情報でもよい。当該第１情報は、楽曲Ｎの一部分（例えば、楽曲Ｎを４小節ごとに区切った部分）の演奏時においてバイオリンに対する左手の各指の使い方を画像で示す情報でもよい。学習済みモデル２３５が、楽曲Ｎの部分ごとに設けられてもよい。例えば、処理装置２３０は、楽曲Ｎの部分ごとに、学習済みモデル２３５を実現する。この場合、楽曲Ｎの部分ごとに、バイオリンの演奏に関するコメント情報ｂを決定できる。学習済みモデル２３５が、相互に異なる楽曲ごとに設けられてもよい。例えば、処理装置２３０は、相互に異なる楽曲ごとに、学習済みモデル２３５を実現する。この場合、楽曲ごとに、バイオリンの演奏に関するコメント情報ｂを決定できる。

第５変形例において、バイオリンと演奏者との相対的な位置関係を示す特徴情報、および、バイオリンに対する演奏者の身体の使い方を示す特徴情報は、指画像情報ｄ２に限らない。例えば、当該特徴情報は、バイオリンに対する演奏者の上半身の姿勢を画像で表す上半身画像情報でもよい。上半身画像情報は、例えば、バイオリンに対する演奏者の上半身の動きを画像で表す情報である。上半身画像情報は、バイオリンに対する演奏者の上半身の骨格の動きを画像で表す情報でもよい。
この場合、ユーザ画像情報ａ１は、楽器１００Ａで楽曲Ｎを演奏するユーザ１００Ｂの上半身と、楽器１００Ａと、を画像で表す。例えば、カメラ１１０の撮像範囲が、楽器１００Ａ（バイオリン）を操作するユーザ１００Ｂの上半身と、楽器１００Ａと、を含む範囲に設定される。カメラ１１０は、楽器１００Ａ（バイオリン）を操作するユーザ１００Ｂの上半身と楽器１００Ａとを撮像することによって、ユーザ画像情報ａ１を生成する。ユーザ画像情報ａ１から上半身画像情報を抽出する手法は、ユーザ画像情報ａ１から指画像情報ｄ１を抽出する手法において「ピアノの鍵盤を操作する人間の手の指」の代わりに「バイオリンを操作する演奏者の上半身」を用いることによって実現される。
この場合、訓練データＴ２の第１情報が示す画像は、バイオリンに対する演奏者の上半身の使い方を表す。上半身画像情報が、バイオリンに対する演奏者の上半身の動きを画像で表す情報である場合、訓練データＴ２の第１情報が示す画像は、バイオリンに対する演奏者の上半身の動きを表す。上半身画像情報が、バイオリンに対する演奏者の上半身の骨格の動きを画像で表す情報である場合、訓練データＴ２の第１情報が示す画像は、バイオリンに対する演奏者の上半身の骨格の動きを表す。
訓練データＴ２の第２情報が示すバイオリン教師の適切なコメントは、例えば、「姿勢が良いですね。その調子。」、「弓の角度をもっとあげて。」および「人差し指だけでなく、中指・薬指を使って弓に圧力をかけましょう。」のいずれかである。バイオリン教師の適切なコメントは、上述のコメントに限らず適宜変更可能である。

第５変形例において、コメント学習済みモデルが対応する楽器の種類は、ピアノとバイオリンに限らず適宜変更可能である。例えば、学習済みモデル２３５が対応する楽器の種類は、ギター、サクソフォンまたはフルートでもよい。

学習済みモデル２３５が対応する楽器の種類が、ギターである場合、学習済みモデル２３５は、第１情報として、楽曲Ｎの演奏時におけるギターに対する両手の各指の使い方を画像で示す情報を用いる。楽曲Ｎの演奏時におけるギターに対する両手の各指の使い方を画像で示す情報は、楽器に対する演奏者の身体の使い方を示す情報の一例である。
楽曲Ｎの演奏時におけるギターに対する両手の各指の使い方を画像で示す情報は、例えば、楽曲Ｎの演奏時におけるギターに対する両手の各指の動きを画像で示す情報である。楽曲Ｎの演奏時におけるギターに対する両手の各指の使い方を画像で示す情報は、楽曲Ｎの演奏時におけるギターに対する両手の各指の骨格の動きを画像で示す情報でもよい。

この場合、学習済みモデル２３５は、第２情報として、第３画像情報と第３音情報との組を用いる。第３画像情報は、楽曲Ｎの演奏時におけるギターに対する両手の各指の使い方に関するお手本と、学習済みモデル２３５における第１情報が示す画像についてのギター教師の適切なコメントと、を画像で示す。第３音情報は、学習済みモデル２３５における第１情報が示す画像についてのギター教師の適切なコメントを音声で示す。ギター教師の適切なコメントは、例えば、「左手のローポジションからハイポジションへの移動が遅れがち。」および「よい感じです。」の少なくとも１つを含む。ギター教師の適切なコメントは、上述のコメントに限らず適宜変更可能である。

楽器１００Ａとしてギターが用いられる場合、カメラ１１０の撮像範囲が、ユーザ１００Ｂの両手と楽器１００Ａ（ギター）とを含む範囲に設定される。ユーザ１００ｂは、楽器１００Ａの種類としてギターを示す楽器情報ｃ１を、操作部１５０から演奏教習システム１００に入力する。楽器情報ｃ１は、情報処理装置２００に送信される。情報処理装置２０１の抽出部２３１は、楽器情報ｃ１がギターを示す場合、ユーザ画像情報ａ１から、両手画像情報ｄ３を抽出する。両手画像情報ｄ３は、ギターに対するユーザ１００Ｂにおける両手（左手および右手）の各指の使い方を画像で示す。両手画像情報ｄ３は、楽器に対する演奏者の身体の使い方を示す特徴情報の一例である。ユーザ画像情報ａ１から両手画像情報ｄ３を抽出する手法は、ユーザ画像情報ａ１から指画像情報ｄ１を抽出する手法において「ピアノの鍵盤を操作する人間の手の指」の代わりに「ギターを操作する人間の両手の各指」を用いることによって実現される。
学習済みモデル２３５が、第１情報として、楽曲Ｎの演奏時におけるギターに対する両手の各指の動きを画像で示す情報を用いる場合、両手画像情報ｄ３は、ギターに対するユーザ１００Ｂにおける両手の各指の動きを画像で示す。
学習済みモデル２３５が、第１情報として、楽曲Ｎの演奏時におけるギターに対する両手の各指の骨格の動きを画像で示す情報を用いる場合、両手画像情報ｄ３は、ギターに対するユーザ１００Ｂにおける両手の各指の骨格の動きを画像で示す。
決定部２３２は、両手画像情報ｄ３を学習済みモデル２３５に入力する。続いて、決定部２３２は、両手画像情報ｄ３の入力に応じて学習済みモデル２３５が出力する情報を、コメント情報ｂとして決定する。

学習済みモデル２３５が対応する楽器の種類が、サクソフォンである場合、学習済みモデル２３５は、第１情報として、楽曲Ｎの演奏時におけるサクソフォンに対する口および頬の筋肉の使い方を画像で示す情報を用いる。楽曲Ｎの演奏時におけるサクソフォンに対する口および頬の筋肉の使い方を画像で示す情報は、楽器に対する演奏者の身体の使い方を示す情報の一例である。
楽曲Ｎの演奏時におけるサクソフォンに対する口および頬の筋肉の使い方を画像で示す情報は、例えば、楽曲Ｎの演奏時におけるサクソフォンに対する口および頬の筋肉の動きを画像で示す情報である。楽曲Ｎの演奏時におけるサクソフォンに対する口および頬の筋肉の使い方を画像で示す情報は、例えば、楽曲Ｎの演奏時におけるサクソフォンに対する口および頬の骨格の動きを画像で示す情報でもよい。

この場合、学習済みモデル２３５は、第２情報として、第４画像情報と第４音情報との組を用いる。第４画像情報は、楽曲Ｎの演奏時におけるサクソフォンに対する口および頬の筋肉の使い方に関するお手本と、学習済みモデル２３５における第１情報が示す画像についてのサクソフォン教師の適切なコメントと、を画像で示す。第４音情報は、学習済みモデル２３５における第１情報が示す画像についてのサクソフォン教師の適切なコメントを音声で示す。サクソフォン教師の適切なコメントは、例えば、「口の両端はしっかり締めましょう。」および「少し、力が入りすぎです。少し、リラックスして吹きましょう。」の少なくとも１つを含む。サクソフォン教師の適切なコメントは、上述のコメントに限らず適宜変更可能である。

楽器１００Ａとしてサクソフォンが用いられる場合、カメラ１１０の撮像範囲が、ユーザ１００Ｂの顔と楽器１００Ａ（サクソフォン）とを含む範囲に設定される。ユーザ１００ｂは、楽器１００Ａの種類としてサクソフォンを示す楽器情報ｃ１を、操作部１５０から演奏教習システム１００に入力する。楽器情報ｃ１は、情報処理装置２００に送信される。情報処理装置２０１の抽出部２３１は、楽器情報ｃ１がサクソフォンを示す場合、ユーザ画像情報ａ１から、顔画像情報ｄ４を抽出する。顔画像情報ｄ４は、楽器１００Ａであるサクソフォンに対するユーザ１００Ｂにおける口および頬の筋肉の使い方を画像で示す。顔画像情報ｄ４は、楽器に対する演奏者の身体の使い方を示す特徴情報の一例である。ユーザ画像情報ａ１から顔画像情報ｄ４を抽出する手法は、ユーザ画像情報ａ１から指画像情報ｄ１を抽出する手法において「ピアノの鍵盤を操作する人間の手の指」の代わりに「サクソフォンを操作する人間の口および頬」を用いることによって実現される。
学習済みモデル２３５が、第１情報として、楽曲Ｎの演奏時におけるサクソフォンに対する口および頬の筋肉の動きを画像で示す情報を用いる場合、顔画像情報ｄ４は、サクソフォンに対する口および頬の筋肉の動きを画像で示す。
学習済みモデル２３５が、第１情報として、楽曲Ｎの演奏時におけるサクソフォンに対する口および頬の骨格の動きを画像で示す情報を用いる場合、顔画像情報ｄ４は、サクソフォンに対する口および頬の骨格の動きを画像で示す。
決定部２３２は、顔画像情報ｄ４を学習済みモデル２３５に入力する。続いて、決定部２３２は、顔画像情報ｄ４の入力に応じて学習済みモデル２３５が出力する情報を、コメント情報ｂとして決定する。

学習済みモデル２３５が対応する楽器の種類が、フルートである場合、学習済みモデル２３５は、第１情報として、楽曲Ｎの演奏時におけるフルートに対する頬の筋肉の使い方および呼吸のタイミングを画像で示す情報を用いる。楽曲Ｎの演奏時におけるフルートに対する頬の筋肉の使い方および呼吸のタイミングを画像で示す情報は、楽器に対する演奏者の身体の使い方を示す情報の一例であり、例えば楽曲Ｎの演奏時における演奏者の上半身とフルートを表す画像情報である。
楽曲Ｎの演奏時におけるフルートに対する頬の筋肉の使い方および呼吸のタイミングを画像で示す情報は、例えば、楽曲Ｎの演奏時におけるフルートに対する上半身の動きを画像で示す情報である。楽曲Ｎの演奏時におけるフルートに対する頬の筋肉の使い方および呼吸のタイミングを画像で示す情報は、楽曲Ｎの演奏時におけるフルートに対する上半身の骨格の動きを画像で示す情報でもよい。

この場合、学習済みモデル２３５は、第２情報として、第５画像情報と第５音情報との組を用いる。第５画像情報は、楽曲Ｎの演奏時におけるフルートに対する頬の筋肉の使い方および呼吸のタイミングに関するお手本と、学習済みモデル２３５における第１情報が示す画像についてのフルート教師の適切なコメントと、を画像で示す。第５音情報は、学習済みモデル２３５における第１情報が示す画像についてのフルート教師の適切なコメントを音声で示す。フルート教師の適切なコメントは、例えば、「ろうそくの火を消すようなイメージで、力を入れず、ボーと太めの息を入れてみましょう。」および「ゆっくり練習してから、早いパッセージに挑戦しましょう。」の少なくとも１つを含む。フルート教師の適切なコメントは、上述のコメントに限らず適宜変更可能である。

楽器１００Ａとしてフルートが用いられる場合、カメラ１１０の撮像範囲が、ユーザ１００Ｂの上半身と楽器１００Ａ（フルート）とを含む範囲に設定される。ユーザ１００ｂは、楽器１００Ａの種類としてフルートを示す楽器情報ｃ１を、操作部１５０から演奏教習システム１００に入力する。楽器情報ｃ１は、情報処理装置２００に送信される。情報処理装置２０２の抽出部２３１は、楽器情報ｃ１がフルートを示す場合、ユーザ画像情報ａ１から、上半身画像情報ｄ５を抽出する。上半身画像情報ｄ５は、フルートに対するユーザ１００Ｂにおける頬の筋肉の使い方および呼吸のタイミングを画像で示す。上半身画像情報ｄ５は、楽器に対する演奏者の身体の使い方を示す特徴情報の一例である。ユーザ画像情報ａ１から上半身画像情報ｄ５を抽出する手法は、ユーザ画像情報ａ１から指画像情報ｄ１を抽出する手法において「ピアノの鍵盤を操作する人間の手の指」の代わりに「フルートを操作する人間の上半身」を用いることによって実現される。
学習済みモデル２３５が、第１情報として、楽曲Ｎの演奏時におけるフルートに対する上半身の動きを画像で示す情報を用いる場合、上半身画像情報ｄ５は、フルートに対するユーザ１００Ｂにおける上半身の動きを画像で示す。
学習済みモデル２３５が、第１情報として、楽曲Ｎの演奏時におけるフルートに対する上半身の骨格の動きを画像で示す情報を用いる場合、上半身画像情報ｄ５は、フルートに対するユーザ１００Ｂにおける上半身の骨格の動きを画像で示す。
決定部２３２は、上半身画像情報ｄ５を学習済みモデル２３５に入力する。続いて、決定部２３２は、上半身画像情報ｄ５の入力に応じて学習済みモデル２３５が出力する情報を、コメント情報ｂとして決定する。

第５変形例において、学習済みモデルの数は２つに限らず３つ以上でもよい。３つ以上の学習済みモデルの各々は、相互に異なる種類の楽器に対応する。

Ｂ６：第６変形例
第５変形例において、ユーザ画像情報ａ１に基づいて、楽器情報ｃ１が特定されてもよい。

図７は、楽器情報ｃ１を特定する特定部２３６と、学習済みモデル２３７と、を含む情報処理装置２０２を示す図である。特定部２３６は、プログラムを実行する処理装置２３０によって実現される。特定部２３６は、ユーザ画像情報ａ１が示す楽器１００Ａの画像に基づいて、楽器情報ｃ１を特定する。特定部２３６は、例えば、学習済みモデル２３７を用いて、楽器情報ｃ１を特定する。ユーザ画像情報ａ１は、楽器の種類に関連する関連情報の一例である。楽器の種類（例えば、ピアノ）に関連する関連情報は、楽器（例えば、ピアノ）に関する関連情報の一例である。

学習済みモデル２３７は、ニューラルネットワークで構成される。例えば、学習済みモデル２３７は、深層ニューラルネットワークで構成される。学習済みモデル２３７は、例えば、畳込ニューラルネットワークで構成されてもよい。学習済みモデル２３７は、複数種のニューラルネットワークの組合せで構成されてもよい。学習済みモデル２３７は、Self-Attention等の付加的な要素を有してもよい。学習済みモデル２３７は、ニューラルネットワークで構成されずに、隠れマルコフモデル、またはサポートベクターマシーンで構成されてもよい。

学習済みモデル２３７は、楽器の種類に関連する第３情報と、第３情報に対応する楽器の種類を示す第４情報と、の関係を学習した学習済みモデルである。学習済みモデル２３７は、第２学習済みモデルの一例である。学習済みモデル２３７は、第３情報として、楽器を画像で示す情報を用いる。

処理装置２３０は、入力Ｘ１から出力Ｙ１を特定する演算を規定する演算プログラムと、複数の変数Ｋ３と、の組合せに基づいて、学習済みモデル２３７として機能する。複数の変数Ｋ３は、記憶装置２２０に記憶される。複数の変数Ｋ３は、複数の訓練データＴ３を利用した機械学習によって特定される。訓練データＴ３は、楽器を画像で示す情報（訓練用の入力データ）と、楽器の種類を示す情報（訓練用の出力データ）と、の組合せを含む。複数の訓練データＴ３は、訓練用の出力データ（楽器の種類を示す情報）を有さずに訓練用の入力データ（楽器を画像で示す情報）のみを有してもよい。この場合、複数の訓練データＴ３が複数の訓練データＴ３の類似度に基づいて複数のクラスタに分けられるように、機械学習によって複数の変数Ｋ３が特定される。そして、学習済みモデル２３７において、クラスタごとに、当該クラスタに適した第４情報（楽器の種類を示す情報）が人によって対応づけられる。学習済みモデル２３７は、入力Ｘ１に応じたクラスタを特定し、特定したクラスタに対応する第４情報を、出力Ｙ１として生成する。

特定部２３６は、ユーザ画像情報ａ１を学習済みモデル２３７に入力する。続いて、特定部２３６は、ユーザ画像情報ａ１の入力に応じて学習済みモデル２３７が出力する情報を、楽器情報ｃ１として特定する。

第６変形例によれば、楽器１００Ａを画像で示す情報に基づいて、楽器１００Ａの種類を特定できる。また、ユーザ画像情報ａ１を、楽器１００Ａの種類を特定するための情報として兼用できる。楽器１００Ａを画像で示す情報は、ユーザ画像情報ａ１に限らない。例えば、楽器１００Ａを画像で示す情報は、ユーザ１００Ｂを示さずに楽器１００Ａを示す画像情報でもよい。

Ｂ７：第７変形例
第６変形例において、楽器の種類に関連する関連情報（楽器に関する関連情報）は、楽器１００Ａを表す画像を情報に限らない。関連情報は、ユーザ１００Ｂが楽器１００Ａを演奏する状況において楽器１００Ａが出力する音を示す楽器音情報でもよい。楽器音情報は、演奏者が楽器を演奏する状況において楽器が出力する音を示す情報の一例である。以下では、楽器音情報は、楽曲Ｎについてユーザ１００Ｂが楽器１００Ａを演奏する状況において楽器１００Ａが出力する音を示す。

図８は、第７変形例に係る情報処理装置２０３を示す図である。情報処理装置２０３は、学習済みモデル２３８を有する点において、図７に示される情報処理装置２０２と異なる。

演奏教習システム１００がマイクを有する場合、楽器音情報は、例えば、演奏教習システム１００のマイクによって生成される。楽器音情報は、通信部１６０から情報処理装置２０３に送信される。情報処理装置２０３の特定部２３６は、楽器音情報に基づいて、楽器情報ｃ１を特定する。特定部２３６は、学習済みモデル２３８を用いることによって、楽器情報ｃ１を特定する。

学習済みモデル２３８は、ニューラルネットワークで構成される。例えば、学習済みモデル２３８は、深層ニューラルネットワークで構成される。学習済みモデル２３８は、例えば、畳込ニューラルネットワークで構成されてもよい。学習済みモデル２３８は、複数種のニューラルネットワークの組合せで構成されてもよい。学習済みモデル２３８は、Self-Attention等の付加的な要素を有してもよい。学習済みモデル２３８は、ニューラルネットワークで構成されずに、隠れマルコフモデル、またはサポートベクターマシーンで構成されてもよい。

学習済みモデル２３８は、楽器の種類に関連する第３情報と、第３情報に対応する楽器の種類を示す第４情報と、の関係を学習した学習済みモデルである。第３情報は、楽器に関する学習用関連情報の一例である。第４情報は、学習用関連情報から特定される楽器を示す学習用楽器情報の一例である。学習済みモデル２３８は、第３情報として、楽器が出力する音を示す情報を用いる。学習済みモデル２３８は、第２学習済みモデルの一例である。

処理装置２３０は、入力Ｘ１から出力Ｙ１を特定する演算を規定する演算プログラムと、複数の変数Ｋ４と、の組合せに基づいて、学習済みモデル２３８として機能する。複数の変数Ｋ４は、記憶装置２２０に記憶される。複数の変数Ｋ４は、複数の訓練データＴ４を利用した機械学習によって特定される。訓練データＴ４は、楽器が出力する音を示す情報（訓練用の入力データ）と、楽器の種類を示す情報（訓練用の出力データ）と、の組合せを含む。複数の訓練データＴ４は、訓練用の出力データ（楽器の種類を示す情報）を有さずに訓練用の入力データ（楽器が出力する音を示す情報）のみを有してもよい。この場合、複数の訓練データＴ４が複数の訓練データＴ４の類似度に基づいて複数のクラスタに分けられるように、機械学習によって複数の変数Ｋ４が特定される。そして、学習済みモデル２３８において、クラスタごとに、当該クラスタに適した楽器の種類を示す情報が人によって対応づけられる。学習済みモデル２３８は、入力Ｘ１に応じたクラスタを特定し、特定したクラスタに対応する楽器の種類を示す情報を、出力Ｙ１として生成する。

特定部２３６は、楽器音情報を学習済みモデル２３８に入力する。続いて、特定部２３６は、楽器音情報の入力に応じて学習済みモデル２３８が出力する情報を、楽器情報ｃ１として特定する。なお、特定部２３６によって使用される楽器音情報は、楽器１００Ａが出力する音を示す情報であればよく、ユーザ１００Ｂが楽器１００Ａを演奏する状況において楽器１００Ａが出力する音を示す情報に限定されない。

第７変形例によれば、楽器１００Ａが出力する音を示す情報に基づいて、楽器１００Ａの種類を特定できる。

第７変形例において、決定部２３２は、ユーザ１００Ｂが楽器１００Ａを演奏する状況において楽器１００Ａが出力する音を示す楽器音情報と、指画像情報ｄ１（特徴情報）と、に基づいて、コメント情報ｂを決定してもよい。

例えば、決定部２３２は、以下の訓練データＴ１で訓練された学習済みモデル２３３と、楽器音情報と、指画像情報ｄ１と、を用いることによって、コメント情報ｂを決定してもよい。

訓練データＴ１の訓練用の入力データは、楽曲Ｎについて演奏者がピアノを演奏する状況においてピアノが出力する音を示す情報と、楽曲Ｎの演奏時におけるピアノの鍵盤に対する手の各指の使い方を画像で示す情報と、の組である。

訓練データＴ１の訓練用の出力データは、訓練用の入力データによって示される音と画像との組についてのピアノ教師の適切なコメントを示す。

ピアノ教師の適切なコメントは、例えば、「指の使い方もピアノの音も大変上手です。」、「離鍵を早く。」、「和音の間違いに気をつけて。」および「もう少し指を伸ばしてみましょう。」の少なくとも１つを含む。

決定部２３２は、まず、ユーザ１００Ｂが楽器１００Ａを演奏する状況において楽器１００Ａが出力する音を示す楽器音情報と、指画像情報ｄ１と、を学習済みモデル２３３に入力する。続いて、決定部２３２は、楽器音情報と指画像情報ｄ１との入力に応じて学習済みモデル２３３が出力する情報を、コメント情報ｂとして決定する。この場合、決定部２３２は、楽器音情報と指画像情報ｄ１（特徴情報）とに基づいて、コメント情報ｂを決定するため、より適切なコメントを示すコメント情報ｂを決定できる。なお、特徴情報は、指画像情報ｄ１に限らず適宜変更可能である。

Ｂ８：第８変形例
第６～第７変形例において、楽器の種類に関連する関連情報（楽器に関する関連情報）は、楽器の種類に応じた楽譜を示す楽譜情報でもよい。楽器の種類に応じた楽譜は、楽器に応じた楽譜の一例である。楽譜は、譜面とも称される。楽譜情報は、例えば、楽譜を撮像するカメラによって生成される。例えば、カメラ１１０が、楽譜情報を生成する機器として兼用される。楽譜情報は、演奏教習システム１００から情報処理装置２０２または２０３に送信される。

特定部２３６は、楽譜情報が示す楽譜に基づいて、楽器情報ｃ１を特定する。例えば、特定部２３６は、楽譜の種類に基づいて、楽器情報ｃ１を特定する。

楽譜情報によって示される楽譜が、タブ譜である場合、特定部２３６は、楽器の種類としてギターを示す楽器情報ｃ１を特定する。タブ譜は、図９に示すように、互いに平行な６本の線でギターの絃を示す。このため、楽譜情報によって示される楽譜が、互いに平行な６本の線で構成される場合、特定部２３６は、楽譜情報によって示される楽譜が、タブ譜であると判定する。

楽譜情報によって示される楽譜が、ギターコード譜である場合、特定部２３６は、楽器の種類としてギターを示す楽器情報ｃ１を特定する。ギターコード譜は、図１０に示すように、歌詞の並びに沿うギターコードを表す。このため、楽譜情報によって示される楽譜が、ギターコードを表す場合、特定部２３６は、楽譜情報によって示される楽譜が、ギターコード譜であると判定する。

楽譜情報によって示される楽譜が、ドラム譜である場合、特定部２３６は、楽器の種類としてドラムを示す楽器情報ｃ１を特定する。ドラム譜は、図１１に示すように、ドラムセットに含まれる各楽器に対応する記号を表す。このため、楽譜情報によって示される楽譜が、ドラムセットの各楽器に対応する記号を表す場合、特定部２３６は、楽譜情報によって示される楽譜が、ドラム譜であると判定する。

楽譜情報によって示される楽譜が、連弾譜である場合、特定部２３６は、楽器の種類としてピアノを示す楽器情報ｃ１を特定する。連弾譜は、図１２に示すように、連弾を示す記号１２ａを表す。このため、楽譜情報によって示される楽譜が、連弾を示す記号１２ａを表す場合、特定部２３６は、楽譜情報によって示される楽譜が、連弾譜であると判定する。

特定部２３６は、楽譜情報が示す楽譜における音符の並びに基づいて、楽器情報ｃ１を特定してもよい。図１３に示すように、楽譜情報によって示される楽譜が、複数音の同時発音を示す音符１３ａを表す場合、特定部２３６は、楽譜情報によって示される楽譜が、鍵盤楽器（例えば、ピアノまたはエレクトーン（登録商標））用の楽譜であると特定する。この場合、特定部２３６は、楽器の種類としてピアノまたはエレクトーンを示す楽器情報ｃ１を特定する。

楽譜情報によって示される楽譜が、楽器の種類を特定する記号（例えば、楽器名を表す文字列、または、楽器の種類に関する符号）を示す場合、特定部２３６は、当該記号によって特定される楽器の種類を示す情報を、楽器情報ｃ１として特定してもよい。例えば、記憶装置２２０が、楽器の種類を示す情報と、楽器の種類に関する符号と、の対応関係を示す楽器テーブルを記憶する場合、特定部２３６は、楽器テーブルを参照することにより、楽譜に示された符号に対応する情報（楽器の種類を示す情報）を、楽器情報ｃ１として特定する。この場合、楽器の種類に関する符号は、関連情報の一例である。楽器テーブルは、楽器の種類に関連する情報と楽器の種類を示す情報との対応関係を示すテーブルの一例である。楽器の種類に関連する情報は、楽器に関する参照用関連情報の一例である。楽器の種類を示す情報は、楽器を示す参照用楽器情報の一例である。

楽譜情報は、楽譜を撮像するカメラによって生成される情報に限らず、いわゆる電子楽譜でもよい。電子楽譜が、楽器の種類を示す種類データを有する場合、特定部２３６は、種類データを、楽器情報ｃ１として特定してもよい。

第８変形例によれば、楽譜情報を、楽器の種類に関連する関連情報として用いることができる。

Ｂ９：第９変形例
第６～第８変形例において、ユーザ１００Ｂのスケジュールを示すスケジュール情報が、楽器の種類を示す場合、楽器の種類に関連する関連情報としてスケジュール情報が用いられてもよい。スケジュール情報は、楽器の種類と、当該種類の楽器の教習スケジュールと、の組合せを示していれば、演奏教習システム１００が配置される生徒用の部屋のスケジュールを示してもよい。楽器の種類（例えば、ピアノ）と、当該種類の楽器（例えば、ピアノ）の教習スケジュールと、の組合せは、楽器（例えば、ピアノ）と、当該楽器（例えば、ピアノ）の教習スケジュールと、の組合せの一例である。

図１４は、スケジュール情報が示すスケジュールの一例を示す図である。図１４では、教習（レッスン）の時間帯ごとに、教習対象の楽器の種類（ピアノ、フルートまたはバイオリン）が示される。特定部２３６は、まず、スケジュール情報を用いて、現在の時刻が含まれる教習の時間帯を特定する。続いて、特定部２３６は、特定した時間帯に対応する教習対象の楽器の種類を特定する。続いて、特定部２３６は、特定した教習対象の楽器の種類を示す情報を、楽器情報ｃ１として特定する。

図１５は、スケジュール情報が示すスケジュールの他の例を示す図である。図１５では、教習の日付ごとに、教習対象の楽器の種類が示される。特定部２３６は、まず、スケジュール情報を用いて、現在の日付に対応する教習対象の楽器の種類を特定する。続いて、特定部２３６は、特定した教習対象の楽器の種類を示す情報を、楽器情報ｃ１として特定する。

第９変形例によれば、スケジュール情報を、楽器の種類に関連する関連情報として兼用できる。

Ｂ１０：第１０変形例
上述の実施形態および第１～第９変形例において、タッチパネルである操作部１５０は、楽器情報ｃ１を受け付けるユーザインターフェイスとして、図１６に示すようなユーザインターフェイスを有してもよい。ピアノボタン１５１へのタッチは、楽器の種類としてピアノを示す楽器情報ｃ１の入力を意味する。フルートボタン１５２へのタッチは、楽器の種類としてフルートを示す楽器情報ｃ１の入力を意味する。楽器情報ｃ１を受け付けるユーザインターフェイスは、図１６に示されるユーザインターフェイスに限らない。第１０変形例によれば、ユーザは直感的に楽器情報ｃ１を入力できる。

Ｂ１１：第１１変形例
上述の実施形態および第１～第１０変形例において、コメント情報ｂの送信先は、演奏教習システム１００に限らず、例えば、ユーザ１００Ｂの保護者（例えば、ユーザ１００Ｂの親）が使用する電子機器でもよい。電子機器は、例えば、スマートフォン、タブレットまたはノート型パーソナルコンピュータである。コメント情報ｂの送信先は、演奏教習システム１００と、ユーザ１００Ｂの保護者が使用する電子機器と、の両方でもよい。

第１１変形例によれば、ユーザ１００Ｂの保護者が、コメント情報を参考してユーザ１００Ｂを指導できる。

Ｂ１２：第１２変形例
演奏教習システム１００の処理装置１８０が、情報処理装置２００～２０３の処理装置２３０が有する機能を、さらに有してもよい。この場合、演奏教習システム１００は、情報処理装置２００～２０３のいずれとも通信することなく、コメント情報ｂを得ることができる。

Ｂ１３：第１３変形例
上述の実施形態および第１～第１２変形例において、処理装置２３０は、学習済みモデル２３３を生成してもよい。

図１７は、第１３変形例に係る情報処理装置２０４を示す図である。情報処理装置２０４は、学習処理部２４１を有する点において、図８に示される情報処理装置２０４と異なる。学習処理部２４１は、機械学習プログラムを実行する処理装置２３０によって実現される。機械学習プログラムは、記憶装置２２０に記憶されている。

図１８は、学習処理部２４１の一例を示す図である。学習処理部２４１は、データ取得部２４２と訓練部２４３とを含む。データ取得部２４２は、複数の訓練データＴ１を取得する。記憶装置２２０が複数の訓練データＴ１を記憶している場合、データ取得部２４２は、記憶装置２２０から複数の訓練データＴ１を取得する。

訓練部２４３は、複数の訓練データＴ１を利用した処理（以下「学習処理」と称する）を実行することによって学習済みモデル２３３を生成する。学習処理は、複数の訓練データＴ１を利用した教師あり機械学習である。訓練部２４３は、複数の訓練データＴ１を用いて学習対象モデル２３３ａを訓練することによって、学習対象モデル２３３ａを学習済みモデル２３３に変更する。

学習対象モデル２３３ａは、暫定的な複数の変数Ｋ１と、演算プログラムと、を用いる処理装置２３０によって生成される。暫定的な複数の変数Ｋ１は、記憶装置２２０に記憶されている。学習対象モデル２３３ａは、暫定的な複数の変数Ｋ１を用いる点において、学習済みモデル２３３と異なる。学習対象モデル２３３ａは、入力される情報（入力データ）に応じた情報（出力データ）を生成する。

訓練部２４３は、訓練データＴ１における入力データを学習対象モデル２３３ａに入力した場合に学習対象モデル２３３ａが生成する出力データと、当該訓練データＴ１における出力データと、の誤差を表す損失関数Ｌの値を特定する。訓練部２４３は、損失関数Ｌの値が低減するように、暫定的な複数の変数Ｋ１を更新する。訓練部２４３は、暫定的な複数の変数Ｋ１を更新する処理を、複数の訓練データＴ１ごとに実行する。訓練部２４３による訓練の完了に伴い、複数の変数Ｋ１が確定する。訓練部２４３による訓練後の学習対象モデル２３３ａ、すなわち、学習済みモデル２３３は、未知の入力データに対して統計的に妥当な出力データを出力する。

図１９は、学習処理の一例を示す図である。例えばユーザからの指示を契機として学習処理が開始される。

ステップＳ３０１においてデータ取得部２４２は、複数の訓練データＴ１の中から未取得の訓練データＴ１を取得する。続いて、ステップＳ３０２において訓練部２４３は、当該訓練データＴ１用いて学習対象モデル２３３ａを訓練する。ステップＳ３０２では、訓練部２４３は、当該訓練データＴ１を用いて特定される損失関数Ｌの値が低減されるように、暫定的な複数の変数Ｋ１を更新する。暫定的な複数の変数Ｋ１を損失関数Ｌの値に応じて更新する処理には、例えば、誤差逆伝播法が利用される。

続いて、ステップＳ３０３において訓練部２４３は、学習処理に関する終了条件が成立したか否かを判定する。終了条件は、例えば、損失関数Ｌの値が所定の閾値を下回ること、または、損失関数Ｌの値の変化量が所定の閾値を下回ることである。終了条件が成立しない場合、処理がステップＳ３０１に戻る。このため、終了条件の成立まで、訓練データＴ１の取得と、当該訓練データＴ１を利用した暫定的な複数の変数Ｋ１の更新とが、反復される。終了条件が成立した場合、学習処理が終了する。

学習処理部２４１は、処理装置２３０とは異なる処理装置において実現されてもよい。処理装置２３０とは異なる処理装置は、少なくとも１つのコンピュータを含む。

データ取得部２４２は、複数の訓練データＴ１とは異なる複数の訓練データ、例えば、複数の訓練データＴ２、Ｔ３、Ｔ４、およびＴ５の４種類の複数の訓練データのうち、１種類以上の複数の訓練データを取得してもよい。訓練部２４３は、データ取得部２４２が取得した複数の訓練データの種類に応じた学習対象モデルを訓練する。複数の訓練データＴ２に応じた学習対象モデルは、暫定的な複数の変数Ｋ２と、演算プログラムと、を用いる処理装置２３０によって生成される学習対象モデルである。複数の訓練データＴ３に応じた学習対象モデルは、暫定的な複数の変数Ｋ３と、演算プログラムと、を用いる処理装置２３０によって生成される学習対象モデルである。複数の訓練データＴ４に応じた学習対象モデルは、暫定的な複数の変数Ｋ４と、演算プログラムと、を用いる処理装置２３０によって生成される学習対象モデルである。複数の訓練データＴ５に応じた学習対象モデルは、暫定的な複数の変数Ｋ５と、演算プログラムと、を用いる処理装置２３０によって生成される学習対象モデルである。

データ取得部２４２は、複数の訓練データの種類ごとに設けられてもよい。この場合、各データ取得部２４２は、対応する複数の訓練データを取得する。

訓練部２４３は、複数の訓練データの種類ごとに設けられてもよい。この場合、各訓練部２４３は、対応する複数の訓練データを用いて、当該対応する複数の訓練データに応じた学習対象モデルを訓練する。

第１３変形例によれば、学習処理部２４１は、少なくとも１つの学習済みモデルを生成できる。

第１３変形例において、データ取得部２４２は、複数の訓練データのうち少なくとも１つを生成してもよい。

例えば、データ取得部２４２は、図２０に示される端末装置３００に、第１コメントを示す第１コメント情報を送信する。端末装置３００は、例えば、スマートフォン、タブレットまたはノート型パーソナルコンピュータである。端末装置３００は、楽器の演奏を教える先生によって使用される電子機器である。先生は、例えば、遠隔地にいる。第１コメントは、未確定の１つの訓練データにおける訓練用の出力データ（第２情報）が示すコメントである。第１コメントは、例えば、「和音が間違っています。」というコメントである。第１コメントは、例えば、情報処理システム１の開発者によって生成される。

先生は、「和音が間違っています。」という第１コメントを「和音の間違いに気をつけて。」という第２コメントに修正するための入力を、端末装置３００に対して実行する。第２コメントは、先生が実際に使用している適切なコメントである。端末装置３００は、先生からの入力に基づいて第１コメント情報を修正することによって、第２コメントを示す第２コメント情報を生成する。端末装置３００は、第２コメント情報の生成後に、第２コメント情報（第２コメント）を情報処理装置２０４に送信する。

データ取得部２４２は、第２コメント情報（第２コメント）を端末装置３００から受信する。データ取得部２４２は、未確定の１つの訓練データにおける訓練用の出力データ（第２情報）を第１コメント情報から第２コメントを示す第２コメント情報に変更することによって、未確定の１つの訓練データを確定にする。

この場合、遠隔地にいる先生のコメントを示すコメント情報を用いることが可能である。なお、先生は遠隔地にいなくてもよい。

Ｃ：上述の形態から把握される態様
上述の形態の少なくとも１つから以下の態様が把握される。

Ｃ１：第１態様
本開示の態様（第１態様）に係る情報処理方法は、コンピュータによって実行される情報処理方法であって、楽器を用いる演奏者の画像を示す画像情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定する。この態様によれば、画像情報から抽出された特徴情報に基づいて、コメント情報が決定される。このため、楽器を用いる演奏者の画像に応じた適切なコメントを示すコメント情報を決定できる。

Ｃ２：第２態様
第１態様の例（第２態様）において、前記コメント情報を決定することは、前記画像情報から、前記楽器と前記演奏者との相対的な位置関係を示す特徴情報を抽出することと、前記抽出した特徴情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定することと、を含む。この態様によれば、画像情報から抽出された特徴情報に基づいて、コメント情報が決定される。このため、楽器と演奏者との相対的な位置関係に応じた適切なコメントを示すコメント情報を決定できる。

Ｃ３：第３態様
第２態様の例（第３態様）において、前記特徴情報は、前記相対的な位置関係として、前記楽器に対する前記演奏者の身体の使い方を示す。この態様によれば、楽器に対する演奏者の身体の使い方に応じた適切なコメントを示すコメント情報を決定できる。

Ｃ４：第４態様
第２態様または第３態様の例（第４態様）において、前記特徴情報に基づいてコメント情報を決定することは、前記楽器と前記演奏者との相対的な位置関係を示す学習用特徴情報と、前記学習用特徴情報が示す前記相対的な位置関係についてのコメントを示す学習用コメント情報と、の関係を学習した第１学習済みモデルへ前記特徴情報を入力することと、前記特徴情報に応じて前記第１学習済みモデルが出力する情報を、前記コメント情報として決定することと、を含む。この態様によれば、学習済みモデルを用いてコメント情報を決定するため、コメント情報は、高い確率で適切なコメントを示すことができる。

Ｃ５：第５態様
第４態様の例（第５態様）において、第１コメントを示す第１コメント情報を、前記楽器の演奏手法を教える先生によって使用される端末装置に送信し、前記端末装置が前記先生からの入力に基づいて前記第１コメント情報を修正することによって生成した第２コメントを受信することを、さらに含み、前記学習用コメントは、前記第２コメントを含む。この態様によれば、先生が遠隔地にいたとしても、先生のコメントを用いることが可能である。

Ｃ６：第６態様
第４態様または第５態様の例（第６態様）において、前記第１学習済みモデルは、複数の楽器に個別に対応する複数の第1学習済みモデルを含み、さらに、前記複数の楽器の中の前記楽器を示す楽器情報を取得し、前記複数の第1学習済みモデルから、前記楽器情報が示す前記楽器に対応する第１学習済みモデルを特定し、前記コメント情報を決定することは、前記特定した第１学習済みモデルへ入力された前記特徴情報に応じて当該第１学習済みモデルが出力する情報を、前記コメント情報として決定することを含む。この態様によれば、楽器ごとに、適切なコメント情報を決定できる。

Ｃ７：第７態様
第６態様の例（第７態様）において、さらに、前記楽器に関する関連情報を用いて、前記楽器情報を特定し、前記第１学習済みモデルを特定することは、前記複数の第１学習済みモデルから、前記特定した楽器情報が示す前記楽器に対応する第１学習済みモデルを特定することを含む。この態様によれば、楽器に関する関連情報に基づいて、適切なコメント情報を決定できる。

Ｃ８：第８態様
第７態様の例（第８態様）において、前記関連情報は、前記楽器が出力する音を示す情報、前記楽器を表す画像を示す情報、前記楽器に応じた楽譜を示す情報、または、前記楽器と当該楽器の教習スケジュールとの組合せを示す情報である。この態様によれば、種々の情報を関連情報として用いることが可能である。

Ｃ９：第９態様
第７態様の例（第９態様）において、前記楽器情報を特定することは、前記楽器に関する学習用関連情報と、前記学習用関連情報から特定される前記楽器を示す学習用楽器情報と、の関係を学習した第２学習済みモデルへ前記関連情報を入力することと、前記関連情報に応じて前記第２学習済みモデルが出力する情報を、前記楽器情報として特定することと、を含む。この態様によれば、学習済みモデルを用いて楽器情報を特定するため、楽器情報は、演奏者が演奏する楽器を高い精度で示すことができる。

Ｃ１０：第１０態様
第７態様の例（第１０態様）において、前記楽器情報を特定することは、前記楽器に関する参照用関連情報と、前記楽器を示す参照用楽器情報との対応関係を示すテーブルを参照することにより、前記関連情報に対応する参照用楽器情報を、前記楽器情報として特定することを含む。この態様によれば、学習済みモデル用いることなく、楽器情報を特定できる。

Ｃ１１：第１１態様
第１態様から第１０態様のいずれかの例（第１１態様）において、前記コメント情報は、前記楽器に対する前記演奏者の身体の使い方に関するアドバイスを示す。この態様によれば、楽器に対する演奏者の身体の使い方に関するアドバイスを決定できる。

Ｃ１２：第１２態様
第２態様の例（第１２態様）において、前記コメント情報を決定することは、前記演奏者が前記楽器を演奏する状況において前記楽器が出力する音を示す情報と、前記特徴情報と、に基づいて、前記コメント情報を決定することを含む。この態様によれば、楽器が出力する音を示す情報と特徴情報とに基づいて、コメント情報を決定するため、より適切なコメントを示すコメント情報を決定できる。

Ｃ１３：第１３態様
本開示の態様（第１３態様）に係る情報処理システムは、楽器を用いる演奏者の画像を示す画像情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定する決定部を含む。この態様によれば、画像情報に基づいて、コメント情報が決定される。このため、適切なコメントを示すコメント情報を決定できる。

Ｃ１４：第１４態様
本開示の態様（第１４態様）に係るプログラムは、コンピュータに、楽器を用いる演奏者の画像を示す画像情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定する、処理を実行させる。この態様によれば、画像情報に基づいて、コメント情報が決定される。このため、適切なコメントを示すコメント情報を決定できる。

１…情報処理システム、１００…演奏教習システム、１００Ａ…楽器、１００Ｂ…ユーザ、１１０…カメラ、１３０…表示部、１４０…スピーカ、１５０…操作部、１６０…通信部、１７０…記憶装置、１８０…処理装置、１８１…送信制御部、１８２…出力制御部、２００～２０４…情報処理装置、２１０…通信部、２２０…記憶装置、２３０…処理装置、２３１…抽出部、２３２…決定部、２３３…学習済みモデル、２３３ａ…学習対象モデル、２３４…送信部、２３５…学習済みモデル、２３６…特定部、２３７～２３８…学習済みモデル、２４１…学習処理部、２４２…データ取得部、２４３…訓練部。

Claims

コンピュータによって実行される情報処理方法であって、
楽器を用いる演奏者の画像を示す画像情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定し、
前記コメント情報を決定することは、
前記画像情報から、前記楽器と前記演奏者との相対的な位置関係を示す特徴情報を抽出することと、
前記抽出した特徴情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定することと、を含み、
前記特徴情報に基づいて前記コメント情報を決定することは、
前記楽器と前記演奏者との相対的な位置関係を示す学習用特徴情報と、前記学習用特徴情報が示す前記相対的な位置関係についてのコメントを示す学習用コメント情報と、の関係を学習した第１学習済みモデルへ前記特徴情報を入力することと、
前記特徴情報に応じて前記第１学習済みモデルが出力する情報を、前記コメント情報として決定することと、を含み、
第１コメントを示す第１コメント情報を、前記楽器の演奏手法を教える先生によって使用される端末装置に送信し、
前記端末装置が前記先生からの入力に基づいて前記第１コメント情報を修正することによって生成した第２コメントを受信することを、さらに含み、
前記学習用コメント情報は、前記第２コメントを含む、
情報処理方法。
前記第１学習済みモデルは、複数の楽器に対応する複数の第1学習済みモデルを含み、
さらに、
前記複数の楽器の中の前記楽器を示す楽器情報を取得し、
前記複数の第１学習済みモデルから、前記楽器情報が示す前記楽器に対応する第１学習済みモデルを特定し、
前記特徴情報に基づいて前記コメント情報を決定することは、前記特定した第１学習済みモデルへ入力された前記特徴情報に応じて当該第１学習済みモデルが出力する情報を、前記コメント情報として決定することを含む、
請求項１に記載の情報処理方法。
さらに、前記楽器に関する関連情報を用いて、前記楽器情報を特定し、
前記第１学習済みモデルを特定することは、前記複数の第１学習済みモデルから、前記特定した楽器情報が示す前記楽器に対応する第１学習済みモデルを特定することを含む、
請求項２に記載の情報処理方法。
コンピュータによって実行される情報処理方法であって、
楽器を用いる演奏者の画像を示す画像情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定し、
前記コメント情報を決定することは、
前記画像情報から、前記楽器と前記演奏者との相対的な位置関係を示す特徴情報を抽出することと、
前記抽出した特徴情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定することと、を含み、
前記特徴情報に基づいて前記コメント情報を決定することは、
前記楽器と前記演奏者との相対的な位置関係を示す学習用特徴情報と、前記学習用特徴情報が示す前記相対的な位置関係についてのコメントを示す学習用コメント情報と、の関係を学習した第１学習済みモデルへ前記特徴情報を入力することと、
前記特徴情報に応じて前記第１学習済みモデルが出力する情報を、前記コメント情報として決定することと、を含み、
前記第１学習済みモデルは、複数の楽器に対応する複数の第1学習済みモデルを含み、
さらに、
前記複数の楽器の中の前記楽器を示す楽器情報を取得し、
前記複数の第１学習済みモデルから、前記楽器情報が示す前記楽器に対応する第１学習済みモデルを特定し、
前記特徴情報に基づいて前記コメント情報を決定することは、前記特定した第１学習済みモデルへ入力された前記特徴情報に応じて当該第１学習済みモデルが出力する情報を、前記コメント情報として決定することを含み、
さらに、前記楽器に関する関連情報を用いて、前記楽器情報を特定し、
前記第１学習済みモデルを特定することは、前記複数の第１学習済みモデルから、前記特定した楽器情報が示す前記楽器に対応する第１学習済みモデルを特定することを含む、
情報処理方法。
前記関連情報は、
前記楽器が出力する音を示す情報、
前記楽器を表す画像を示す情報、
前記楽器に応じた楽譜を示す情報、または、
前記楽器と当該楽器の教習スケジュールとの組合せを示す情報である、
請求項３または４に記載の情報処理方法。
前記楽器情報を特定することは、
前記楽器に関する学習用関連情報と、前記学習用関連情報から特定される前記楽器を示す学習用楽器情報と、の関係を学習した第２学習済みモデルへ前記関連情報を入力することと、
前記関連情報に応じて前記第２学習済みモデルが出力する情報を、前記楽器情報として特定することと、を含む、
請求項３または４に記載の情報処理方法。
前記楽器情報を特定することは、
前記楽器に関する参照用関連情報と、前記楽器を示す参照用楽器情報との対応関係を示すテーブルを参照することにより、前記関連情報に対応する参照用楽器情報を、前記楽器情報として特定することを含む、
請求項３または４に記載の情報処理方法。
前記コメント情報は、前記楽器に対する前記演奏者の身体の使い方に関するアドバイスを示す、
請求項１から７のいずれか１項に記載の情報処理方法。
前記特徴情報は、前記相対的な位置関係として、前記楽器に対する前記演奏者の身体の使い方を示す、
請求項１から８のいずれか１項に記載の情報処理方法。
楽器を用いる演奏者の画像を示す画像情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定する情報処理システムであって、
前記画像情報から、前記楽器と前記演奏者との相対的な位置関係を示す特徴情報を抽出する抽出部と、
前記抽出した特徴情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定する決定部と、を含み、
前記決定部は、前記楽器と前記演奏者との相対的な位置関係を示す学習用特徴情報と、前記学習用特徴情報が示す前記相対的な位置関係についてのコメントを示す学習用コメント情報と、の関係を学習した第１学習済みモデルへ前記特徴情報を入力することと、前記特徴情報に応じて前記第１学習済みモデルが出力する情報を、前記コメント情報として決定することと、を実行し、
第１コメントを示す第１コメント情報を、前記楽器の演奏手法を教える先生によって使用される端末装置に送信し、前記端末装置が前記先生からの入力に基づいて前記第１コメント情報を修正することによって生成した第２コメントを受信するデータ取得部を、さらに含み、
前記学習用コメント情報は、前記第２コメントを含む、
情報処理システム。
楽器を用いる演奏者の画像を示す画像情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定する情報処理システムであって、
前記画像情報から、前記楽器と前記演奏者との相対的な位置関係を示す特徴情報を抽出する抽出部と、
前記抽出した特徴情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定する決定部と、を含み、
前記決定部は、前記楽器と前記演奏者との相対的な位置関係を示す学習用特徴情報と、前記学習用特徴情報が示す前記相対的な位置関係についてのコメントを示す学習用コメント情報と、の関係を学習した第１学習済みモデルへ前記特徴情報を入力することと、前記特徴情報に応じて前記第１学習済みモデルが出力する情報を、前記コメント情報として決定することと、を実行し、
前記第１学習済みモデルは、複数の楽器に対応する複数の第1学習済みモデルを含み、
前記決定部は、さらに、前記複数の楽器の中の前記楽器を示す楽器情報を取得し、前記複数の第１学習済みモデルから、前記楽器情報が示す前記楽器に対応する第１学習済みモデルを特定し、前記特定した第１学習済みモデルへ入力された前記特徴情報に応じて当該第１学習済みモデルが出力する情報を、前記コメント情報として決定し、
さらに、前記楽器に関する関連情報を用いて、前記楽器情報を特定する特定部を含み、
前記決定部は、前記複数の第１学習済みモデルから、前記特定した楽器情報が示す前記楽器に対応する第１学習済みモデルを特定する、
情報処理システム。
コンピュータに、
楽器を用いる演奏者の画像を示す画像情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定する、
処理を実行させるプログラムであって、
前記コメント情報を決定することは、
前記画像情報から、前記楽器と前記演奏者との相対的な位置関係を示す特徴情報を抽出することと、
前記抽出した特徴情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定することと、を含み、
前記特徴情報に基づいて前記コメント情報を決定することは、
前記楽器と前記演奏者との相対的な位置関係を示す学習用特徴情報と、前記学習用特徴情報が示す前記相対的な位置関係についてのコメントを示す学習用コメント情報と、の関係を学習した第１学習済みモデルへ前記特徴情報を入力することと、
前記特徴情報に応じて前記第１学習済みモデルが出力する情報を、前記コメント情報として決定することと、を含み、
第１コメントを示す第１コメント情報を、前記楽器の演奏手法を教える先生によって使用される端末装置に送信し、
前記端末装置が前記先生からの入力に基づいて前記第１コメント情報を修正することによって生成した第２コメントを受信することを、さらに含み、
前記学習用コメント情報は、前記第２コメントを含む、
プログラム。
コンピュータに、
楽器を用いる演奏者の画像を示す画像情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定する、
処理を実行させるプログラムであって、
前記コメント情報を決定することは、
前記画像情報から、前記楽器と前記演奏者との相対的な位置関係を示す特徴情報を抽出することと、
前記抽出した特徴情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定することと、を含み、
前記特徴情報に基づいて前記コメント情報を決定することは、
前記楽器と前記演奏者との相対的な位置関係を示す学習用特徴情報と、前記学習用特徴情報が示す前記相対的な位置関係についてのコメントを示す学習用コメント情報と、の関係を学習した第１学習済みモデルへ前記特徴情報を入力することと、
前記特徴情報に応じて前記第１学習済みモデルが出力する情報を、前記コメント情報として決定することと、を含み、
前記第１学習済みモデルは、複数の楽器に対応する複数の第1学習済みモデルを含み、
さらに、
前記複数の楽器の中の前記楽器を示す楽器情報を取得し、
前記複数の第１学習済みモデルから、前記楽器情報が示す前記楽器に対応する第１学習済みモデルを特定し、
前記特徴情報に基づいて前記コメント情報を決定することは、前記特定した第１学習済みモデルへ入力された前記特徴情報に応じて当該第１学習済みモデルが出力する情報を、前記コメント情報として決定することを含み、
さらに、前記楽器に関する関連情報を用いて、前記楽器情報を特定し、
前記第１学習済みモデルを特定することは、前記複数の第１学習済みモデルから、前記特定した楽器情報が示す前記楽器に対応する第１学習済みモデルを特定することを含む、
プログラム。