JP7243026B2

JP7243026B2 - 演奏解析方法、演奏解析装置およびプログラム

Info

Publication number: JP7243026B2
Application number: JP2018056601A
Authority: JP
Inventors: 陽前澤; ボチェンリー
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2018-03-23
Filing date: 2018-03-23
Publication date: 2023-03-22
Anticipated expiration: 2038-03-23
Also published as: US20210005173A1; JP2019168599A; US11869465B2; WO2019181735A1

Description

本発明は、演奏者による演奏を解析するための技術に関する。

演奏者の動作を解析する技術が従来から提案されている。例えば特許文献１には、演奏者が実行する特定の合図動作を検出し、当該合図動作に同期するように楽曲の自動演奏を制御する技術が開示されている。

特開平１１－１７５０６１号公報

特許文献１の技術では、演奏者による合図動作の検出から所定の時間が経過した時点が、当該演奏者による演奏が開始される時点として特定される。しかし、演奏者による演奏が開始される時点を高精度に推定するという観点から改善の余地がある。

以上の課題を解決するために、本発明の好適な態様に係る情報処理方法は、演奏者による演奏の動作を表す動作データを学習済モデルに入力することで、当該演奏による発音時点を推定する。また、本発明の他の態様に係る演奏解析装置は、演奏者による演奏の動作を表す動作データを学習済モデルに入力することで、当該演奏による発音時点を推定する演奏解析部を具備する。

本発明の実施形態に係る演奏システムの構成を例示するブロック図である。演奏解析装置の機能的な構成を例示するブロック図である。特徴点データの説明図である。演奏解析処理の説明図である。確率分布と発音時点との関係の説明図である。演奏解析処理の具体的な手順を例示するフローチャートである。

図１は、本発明の好適な形態に係る演奏システム１００の構成を例示するブロック図である。演奏システム１００は、演奏者Ｕが所在する音響ホール等の空間に設置されたシステムである。演奏者Ｕは、鍵盤楽器等の楽器２００を利用して楽曲を演奏する。演奏システム１００は、演奏者Ｕによる楽曲の演奏に並行して当該楽曲の自動演奏を実行する。具体的には、演奏システム１００は、演奏者Ｕによる演奏を解析し、解析結果に応じて当該楽曲の自動演奏を実行する。

図１に例示される通り、演奏システム１００は、演奏解析装置１１と演奏装置１２と撮像装置１３とを具備する。演奏解析装置１１は、演奏システム１００の各要素を制御するコンピュータシステムである。例えば携帯電話機、スマートフォンまたはパーソナルコンピュータ等の各種の情報端末が、演奏解析装置１１として好適に利用される。

撮像装置１３は、演奏者Ｕを撮像することで画像データＶを生成する。画像データＶは、演奏者Ｕの画像の時系列（すなわち動画像）を表すデータである。画像データＶの形式は任意である。撮像装置１３が生成した画像データＶは、有線または無線により演奏解析装置１１に供給される。なお、演奏解析装置１１に撮像装置１３を搭載してもよい。また、例えば演奏者Ｕの身体の各部位までの距離を示す深度情報を生成可能な深度カメラまたはステレオカメラを、撮像装置１３として利用してもよい。すなわち、撮像装置１３は、演奏者Ｕの画像と深度情報とを表す画像データＶを生成する。

演奏装置１２は、演奏解析装置１１による制御のもとで楽曲の自動演奏を実行する。具体的には、演奏装置１２は、駆動機構１２１と発音機構１２２とを具備する自動演奏楽器（例えば自動演奏ピアノ）である。発音機構１２２は、自然楽器の鍵盤楽器と同様に、鍵盤の各鍵の変位に連動して弦（発音体）を発音させる打弦機構を鍵毎に具備する。駆動機構１２１は、発音機構１２２を駆動することで対象楽曲の自動演奏を実行する。演奏解析装置１１からの指示に応じて駆動機構１２１が発音機構１２２を駆動することで自動演奏が実現される。なお、演奏解析装置１１を演奏装置１２に搭載してもよい。

図１に例示される通り、演奏解析装置１１は、制御装置１１１と記憶装置１１２とを具備するコンピュータシステムで実現される。制御装置１１１は、例えばＣＰＵ（Central Processing Unit）等の処理回路であり、演奏システム１００を構成する各要素（演奏装置１２および撮像装置１３）を統括的に制御する。制御装置１１１は、１個以上の処理回路を含んで構成される。

記憶装置１１２は、制御装置１１１が実行するプログラムと制御装置１１１が使用する各種のデータとを記憶するメモリである。例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置１１２として好適である。本実施形態の記憶装置１１２は、楽曲を表す楽曲データＺを記憶する。具体的には、楽曲データＺは、楽曲を構成する音符の時系列を指定する。例えば、ＭＩＤＩ（Musical Instrument Digital Interface）規格に準拠した形式のファイル（ＳＭＦ：Standard MIDI File）が楽曲データＺとして好適である。なお、演奏システム１００とは別体の記憶装置１１２（例えばクラウドストレージ）を用意し、制御装置１１１が通信網を介して記憶装置１１２に対する書込および読出を実行してもよい。すなわち、記憶装置１１２を演奏解析装置１１から省略してもよい。

図２は、演奏解析装置１１の機能的な構成を例示するブロック図である。制御装置１１１は、記憶装置１１２に記憶されたプログラムを実行することで複数の機能（画像解析部３１、演奏解析部３２および演奏制御部３３）を実現する。なお、相互に別体で構成された複数の装置の集合（すなわちシステム）で制御装置１１１の機能を実現してもよいし、制御装置１１１の機能の一部または全部を専用の電子回路で実現してもよい。また、演奏装置１２と撮像装置１３とが設置された音響ホール等の空間から離間した位置にあるサーバ装置が、制御装置１１１の一部または全部の機能を実現してもよい。

画像解析部３１は、演奏者Ｕの撮像により撮像装置１３が生成した画像データＶから特徴点データＦの時系列を生成する。特徴点データＦは所定の間隔で順次に生成される。図３は、特徴点データＦの説明図である。各特徴点データＦは、演奏者Ｕの身体における特徴点Ｂの位置を表すデータである。各特徴点Ｂは、演奏者Ｕの身体の特定の部位を代表する仮想的な地点である。例えば演奏者Ｕの関節または頭部等の各部位について特徴点Ｂが設定される。各特徴点Ｂは、相互に直交するＸ軸とＹ軸を含む座標平面内に設定される。特徴点データＦは、複数の特徴点Ｂの各々についてＸ座標とＹ座標とを指定する。以上の説明から理解される通り、任意の１個の特徴点データＦは、演奏者Ｕの姿勢または骨格を表すデータである。特徴点データＦの時系列は、演奏者Ｕの一連の動作（すなわち各特徴点Ｂの経時的な移動）を表現する。なお、３次元空間内における各特徴点Ｂの座標を表す特徴点データＦを画像解析部３１が生成してもよい。

図２の演奏解析部３２は、演奏者Ｕが楽曲を演奏する動作（以下「演奏動作」という）を解析する。具体的には、演奏解析部３２は、演奏者Ｕの演奏動作を表す特徴点データＦの時系列から、当該演奏により楽音が発音される時点（以下「発音時点」という）を推定する。すなわち、実際に楽音が発音される直前における演奏者Ｕの演奏動作から発音時点が予測される。例えば、演奏者Ｕが腕を鍵盤に対して上昇させる動作、または演奏者Ｕが頭部や上半身を上昇させる動作等、楽器２００を実際に操作する直前の準備的な動作（以下「準備動作」という）に応じて、発音時点が予測される。

図４および図５は、演奏解析部３２が演奏者Ｕの演奏動作を解析する処理（以下「演奏解析処理」という）の説明図である。図４に例示される通り、演奏解析部３２は、時間軸上の相異なる複数の時点（以下「解析時点」という）Ｑaの各々について確率Ｐを算定する。任意の１個の解析時点Ｑaについて算定される確率Ｐは、当該解析時点Ｑaの後方の時点（以下「推定時点」という）Ｑbが発音時点に該当する確度の指標（０≦Ｐ≦１）である。推定時点Ｑbは、解析時点Ｑaから所定の時間τ（例えば１００ミリ秒）だけ後方の時点である。

時間軸上の解析時点Ｑa毎に確率Ｐが算定されるから、図５に例示される通り、時間軸上における確率Ｐの分布（以下「確率分布」という）Ｄが特定される。演奏解析部３２は、確率分布Ｄから発音時点Ｏを推定する。具体的には、演奏解析部３２は、確率分布Ｄのうち確率Ｐが所定の閾値Ｐ0を上回る範囲内で確率Ｐが極大値となる時点を発音時点Ｏとして特定する。

図４に例示される通り、演奏解析部３２は、各解析時点Ｑaに対応する動作データＭから推定時点Ｑbの確率Ｐを算定する。時間軸上の任意の１個の解析時点Ｑaに対応する動作データＭは、当該解析時点Ｑaを含む期間（以下「参照期間」という）Ｒ内における複数の特徴点データＦの時系列で構成される。参照期間Ｒは、例えば解析時点Ｑaを終点とする所定長（例えば１秒）の期間である。以上の説明から理解される通り、動作データＭは、参照期間Ｒ内における演奏者Ｕの一連の演奏動作を表す時系列データである。相前後する解析時点Ｑaの間隔は参照期間Ｒの時間長を下回る。したがって、相前後する参照期間Ｒは時間軸上で相互に重複する。以上に説明した通り、本実施形態では、参照期間Ｒ内における特徴点データＦの時系列で構成される動作データＭが発音時点Ｏの推定に利用されるから、参照期間Ｒ内における演奏者Ｕの一連の演奏動作を考慮して発音時点Ｏを高精度に推定できる。

図２および図４に例示される通り、演奏解析部３２による演奏動作の解析には学習済モデルＬが利用される。具体的には、演奏解析部３２は、学習済モデルＬに動作データＭを入力することで確率Ｐを特定する。学習済モデルＬは、機械学習により生成された統計的推定モデルである。例えばニューラルネットワーク等の各種の数学モデルが学習済モデルＬとして任意に採用される。例えば畳込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）が学習済モデルＬとして好適である。

学習済モデルＬは、動作データＭから確率Ｐを出力する演算を制御装置１１１に実行させるプログラム（例えば人工知能ソフトウェアを構成するプログラムモジュール）と、当該演算に適用される複数の係数との組合せで実現される。複数の係数は、多数の教師データを利用した機械学習（特に深層学習）により設定されて記憶装置１１２に保持される。

具体的には、学習済モデルＬを規定する複数の係数は、動作データＭと確率Ｐとを対応させた複数の教師データを利用した機械学習により設定される。具体的には、教師データに含まれる動作データＭを暫定的なモデルに入力したときに出力される確率Ｐと、当該教師データが指定する確率Ｐとの差異（すなわち損失関数）が、複数の教師データについて低減（理想的には最小化）されるように、学習済モデルＬの複数の係数が設定される。損失関数としては、例えば相互エントロピー（cross-entropy）が好適である。以上の説明から理解される通り、学習済モデルＬは、複数の教師データにおける動作データＭと確率Ｐとの間に潜在する関係のもとで、未知の動作データＭに対して統計的に妥当な確率Ｐを出力する。

なお、教師データに含められる動作データＭとしては、楽曲のうち発音の直前の準備動作が顕著となり易い期間（以下「準備期間」という）内の動作データＭが好適である。準備期間としては、例えば、楽曲の演奏が開始される時点の直前の期間、または、楽曲内で長時間にわたる休止から演奏が再開される時点の直前の期間が例示される。楽曲の一連の演奏動作から生成された複数の動作データＭのうち、教師データの作成者が手動で指定した準備期間内の動作データＭが教師データとして利用される。

以上に説明した教師データを利用して生成される学習済モデルＬは、演奏者Ｕによる準備動作が顕著となる参照期間Ｒについて算定される確率Ｐが特に大きい数値となる傾向がある。すなわち、演奏者Ｕによる顕著な準備動作の直後に楽音が発音される時点が発音時点として推定され易い。他方、楽曲内の一連の演奏動作の途中において個々の楽音（顕著な準備動作を伴わずに発音される楽音）が発音される時点は、発音時点として推定されない可能性が高い。

図２の演奏制御部３３は、楽曲データＺが時系列に指定する音符の演奏を演奏装置１２に対して順次に指示するシーケンサである。具体的には、演奏制御部３３は、演奏解析部３２が特定した発音時点Ｏにおいて演奏装置１２が楽曲内の特定の音符を演奏するように演奏装置１２を制御する。例えば、楽曲演奏の開始の直後においては、楽曲の最初の音符が発音時点Ｏにおいて演奏されるように演奏装置１２が制御される。また、楽曲のうち長時間にわたる休止の直後においては、楽曲のうち当該休止後の最初の音符が発音時点Ｏにおいて演奏されるように演奏装置１２が制御される。以上の説明から理解される通り、演奏者Ｕによる演奏の開始と同時に演奏装置１２による自動演奏が開始される。

図６は、演奏解析処理の具体的な手順を例示するフローチャートである。例えば所定の間隔で図６の演奏解析処理が反復される。演奏解析処理を開始すると、画像解析部３１は、撮像装置１３が生成した画像データＶから特徴点データＦを生成する（Ｓ1）。特徴点データＦは演奏解析処理毎に記憶装置１１２に記憶される。すなわち、特徴点データＦの時系列が記憶装置１１２に記憶される。

演奏解析部３２は、現時点を解析時点Ｑaとして、解析時点Ｑaを含む参照期間Ｒ内の特徴点データＦの時系列を動作データＭとして生成する（Ｓ2）。すなわち、直近に生成した特徴点データＦを基点として前方の所定個にわたる特徴点データＦの集合が動作データＭとして選択される。

演奏解析部３２は、動作データＭを学習済モデルＬに入力することで、解析時点Ｑa（現時点）の後方に位置する推定時点Ｑbが発音時点Ｏに該当する確率Ｐを算定する（Ｓ3）。そして、演奏解析部３２は、現時点までの確率Ｐの確率分布Ｄについて、確率Ｐが閾値Ｐ0を上回る範囲内の極大点が観測された場合には、当該極大点を発音時点Ｏとして特定する（Ｓ4）。確率Ｐが閾値Ｐ0を下回る場合、または確率Ｐの極大点が観測されない場合には、発音時点Ｏを特定することなく演奏解析処理を終了する。

以上の説明から理解される通り、本実施形態によれば、演奏者Ｕの演奏の動作を表す動作データＭを学習済モデルＬに入力することで発音時点Ｏが推定される。したがって、演奏者Ｕによる特定の動作が検出されてから所定の時間が経過した時点を発音時点Ｏとして特定する構成と比較して、演奏者Ｕの未知の演奏動作による発音時点Ｏを高精度に推定することが可能である。本実施形態では特に、参照期間Ｒ内における演奏動作を表す動作データＭを学習済モデルＬに入力することで、当該参照期間Ｒの後方に位置する推定時点Ｑbが発音時点Ｏである確率Ｐが算定される。したがって、演奏による実際の発音前に発音時点Ｏを予測できる。また、各推定時点Ｑbが発音時点Ｏである確率Ｐの時系列が算定されるから、発音時点Ｏを高精度に推定できるという前述の効果は格別に顕著である。

＜変形例＞
以上に例示した態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の形態では、演奏解析部３２が推定した発音時点Ｏにおいて自動演奏を開始したが、演奏解析部３２による推定結果の用途は以上の例示に限定されない。例えば、楽曲内で演奏者Ｕが現に演奏している位置（以下「演奏位置」という）を推定する処理に、演奏解析部３２による推定結果を利用してもよい。例えば、演奏解析部３２は、演奏者Ｕによる楽器２００の演奏音を表す音響信号を解析することで演奏位置を推定する。演奏位置の推定には、例えば特開２０１５－７９１８３号公報等に開示された公知の解析技術（スコアアライメント）が採用される。演奏解析部３２が推定した発音時点Ｏが楽曲内の特定の音符の始点である確率が高いという条件を加味することで、演奏者Ｕによる演奏位置を高精度に推定することが可能である。以上の方法により推定された演奏位置の進行に追従するように、演奏制御部３３が演奏装置１２による自動演奏を制御してもよい。

（２）前述の形態では、演奏者Ｕが演奏する楽器２００として鍵盤楽器を例示したが、楽器２００の種類は以上の例示に限定されない。例えば、演奏者Ｕが管楽器または弦楽器等の楽器２００を演奏する動作を解析することで発音時点Ｏを推定することも可能である。

（３）学習済モデルＬが算定した確率Ｐから発音時点Ｏを特定する方法は、前述の形態の例示に限定されない。例えば、確率分布Ｄのうち確率Ｐが閾値Ｐ0を上回る時間的な範囲の始点、または、確率Ｐの増加率が所定値を上回る時点を、発音時点Ｏとして特定してもよい。

（４）前述の形態では、自動演奏ピアノ等の自動演奏楽器を演奏装置１２として例示したが、演奏装置１２は、自然楽器と同様の機構（駆動機構１２１および発音機構１２２）を具備する装置に限定されない。例えば、演奏制御部３３から指示された音響を放音する電子楽器を演奏装置１２として利用してもよい。電子楽器は、例えば、演奏制御部３３からの指示に応じた音響信号を生成する音源回路（例えばＭＩＤＩ音源）と、音源回路が生成した音響信号に応じた音響を放音する放音装置（例えばスピーカまたはヘッドホン）とを具備する。

（５）前述の形態では、ＭＩＤＩ規格に準拠した形式の楽曲データＺを例示したが、楽曲データＺの形式は以上の例示に限定されない。例えば、楽曲の演奏音を表す音響信号（すなわち、音響の波形を表すサンプル系列）を楽曲データＺとして利用してもよい。例えば、演奏者Ｕによる楽器２００の演奏音を表す音響信号を解析することで演奏位置を推定し、楽曲データＺ（音響信号）のうち当該演奏位置に対応するサンプルの時系列を放音装置に供給することで、楽曲データＺが表す音響を放音してもよい。なお、音響信号同士の時間的な対応の解析には、例えば特開２０１５－４５７３１号公報に開示された技術が好適に利用される。

（６）携帯電話機またはスマートフォン等の端末装置との間で通信するサーバ装置により演奏解析装置１１の機能を実現してもよい。演奏解析装置１１は、端末装置から受信した画像データＶに応じて発音時点Ｏを推定し、推定結果に応じた自動演奏の指示を端末装置に送信する。なお、端末装置から特徴点データＦが送信される構成では、演奏解析装置１１から画像解析部３１が省略され、端末装置が演奏制御部３３を具備する構成では、演奏解析装置１１から演奏制御部３３が省略される。

（７）前述の形態に係る演奏解析装置１１の機能は、コンピュータ（例えば制御装置１１１）とプログラムとの協働により実現される。前述の形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含む。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。

（８）学習済モデルＬを実現するための人工知能ソフトウェアの実行主体はＣＰＵに限定されない。例えば、Tensor Processing UnitおよびNeural Engine等のニューラルネットワーク用の処理回路、または、人工知能に専用されるＤＳＰ（Digital Signal Processor）が、人工知能ソフトウェアを実行してもよい。また、以上の例示から選択された複数種の処理回路が協働して人工知能ソフトウェアを実行してもよい。

１００…演奏システム、１１…演奏解析装置、１１１…制御装置、１１２…記憶装置、１２…演奏装置、１２１…駆動機構、１２２…発音機構、１３…撮像装置、３１…画像解析部、３２…演奏解析部、３３…演奏制御部、２００…楽器。

Claims

時間軸上の複数の解析時点の各々について、当該解析時点を含む参照期間内における演奏者による演奏の動作を表す動作データを学習済モデルに入力することで、前記参照期間の後方に位置する推定時点が当該参照期間内の動作に続く演奏による発音の発音時点に該当する確率を、当該学習済モデルから出力する
コンピュータにより実現される演奏解析方法。
演奏者を撮像した画像データから、当該演奏者の身体における特定の部位を代表する特徴点により当該演奏者の姿勢または骨格を表す特徴点データを順次に生成し、
時間軸上の複数の解析時点の各々について、当該解析時点を含む参照期間内における前記特徴点データの時系列を前記演奏者による演奏の動作を表す動作データとして学習済モデルに入力することで、前記参照期間の後方に位置する推定時点が当該動作に続く演奏による発音の発音時点に該当する確率を、当該学習済モデルから出力する
コンピュータにより実現される演奏解析方法。
さらに、前記学習済モデルから出力された確率の時系列から、当該演奏による発音時点を推定する
請求項１または請求項２の演奏解析方法。
時間軸上の複数の解析時点の各々について、当該参照期間内における演奏者による演奏の動作を表す動作データを学習済モデルに入力することで、前記参照期間の後方に位置する推定時点が当該参照期間内の動作に続く演奏による発音の発音時点に該当する確率を、当該学習済モデルから出力する演奏解析部
を具備する演奏解析装置。
演奏者を撮像した画像データから、当該演奏者の身体における特定の部位を代表する特徴点により当該演奏者の姿勢または骨格を表す特徴点データを順次に生成する画像解析部と、
時間軸上の複数の解析時点の各々について、当該解析時点を含む参照期間内における前記特徴点データの時系列を前記演奏者による演奏の動作を表す動作データとして学習済モデルに入力することで、前記参照期間の後方に位置する推定時点が当該動作に続く演奏による発音の発音時点に該当する確率を、当該学習済モデルから出力する演奏解析部と
を具備する演奏解析装置。
前記演奏解析部は、前記学習済モデルから出力された確率の時系列から、当該演奏による発音時点を推定する
請求項４または請求項５の演奏解析装置。
時間軸上の複数の解析時点の各々について、当該参照期間内における演奏者による演奏の動作を表す動作データを学習済モデルに入力することで、前記参照期間の後方に位置する推定時点が当該参照期間内の動作に続く演奏による発音の発音時点に該当する確率を、当該学習済モデルから出力する演奏解析部
としてコンピュータシステムを機能させるプログラム。