JP7383943B2

JP7383943B2 - 制御システム、制御方法、及びプログラム

Info

Publication number: JP7383943B2
Application number: JP2019163227A
Authority: JP
Inventors: 陽前澤
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2023-11-21
Anticipated expiration: 2039-09-06
Also published as: CN112466266A; JP2021043258A; CN112466266B

Description

本発明は、制御システム、制御方法、及びプログラムに関する。

楽曲を演奏した音の解析により、楽曲内で現に演奏されている位置（以下「演奏位置」という）を推定するスコアアライメント技術が従来から提案されている（例えば特許文献１）。

特開２０１５－７９１８３号公報

ところで、演奏者と自動演奏楽器等とが合奏をする合奏システムにおいては、例えば、演奏者による演奏の楽譜上における位置の推定結果に基づいて、自動演奏楽器が次の音を発音するイベントのタイミングを予想する処理が行われる。しかし、実際の人と人との合奏においては、楽曲の開始や、フェルマータの復帰、楽曲の最後の音の発音などを合せる際に、アイコンタクト等の合図動作によりタイミングを合わせている場合がある。

本発明は、このような状況に鑑みてなされたもので、その目的は、顔の動きに基づいてイベントを発生させるタイミングを推定することができる制御システム、制御方法、及びプログラムを提供することである。

上述した課題を解決するために、本発明の一態様は、経時的に撮影されたユーザを含む画像情報を取得する取得部と、前記画像情報から検出した前記ユーザの顔の動きと視線の方向に基づいて、イベントを発生させるタイミングを示す合図動作に関連する予備動作が行われているか否かを判定する判定部と、前記予備動作が行われていると判定した場合に、イベントを発生させるタイミングを推定する推定部と、前記推定部により推定された推定結果を出力する出力部と、を備える制御システムである。

上述した課題を解決するために、本発明の一態様は、画像情報を取得する取得部と、前記画像情報に基づいて、前記画像情報に示される撮像画像における顔部分の動きと、視線の方向を検出し、前記検出した結果を用いて、イベントを発生させるタイミングを示す合図動作に関連する予備動作が行われているか否かを判定する判定部と、前記判定部により前記予備動作が行われていると判定された場合、前記画像情報に基づいて、前記合図動作によりイベントを発生させるタイミングを推定する推定部と、前記推定部により推定された推定結果を出力する出力部と、を備える制御システムである。

また、本発明の一態様は、取得部が、画像情報を取得し、判定部が、前記画像情報に基づいて、前記画像情報に示される撮像画像における顔部分の動きと、視線の方向を検出し、前記検出した結果を用いて、イベントを発生させるタイミングを示す合図動作に関連する予備動作が行われているか否かを判定し、推定部が、前記判定部により前記予備動作が行われていると判定された場合、前記画像情報に基づいて、前記合図動作によりイベントを発生させるタイミングを推定し、出力部が、前記推定部により推定された推定結果を出力する、制御方法である。

本発明によれば、顔の動きに基づいて顔の動きに基づいてイベントを発生させるタイミングを推定することができる。

本発明の実施形態に係る自動演奏システムのブロック図である。合図動作および演奏位置の説明図である。画像合成部による画像合成の説明図である。演奏対象曲の演奏位置と自動演奏の指示位置との関係の説明図である。合図動作の位置と演奏対象曲の演奏の始点との関係の説明図である。演奏画像の説明図である。演奏画像の説明図である。制御装置の動作のフローチャートである。第２実施形態における解析処理部のブロック図である。第２実施形態における解析処理部の動作の説明図である。第２実施形態における解析処理部の動作のフローチャートである。自動演奏システムのブロック図である。演奏者の発音タイミングと伴奏パートの発音タイミングとのシミュレーション結果である。自動演奏システムの評価結果である。第３実施形態における検出処理部５２４のブロック図である。第３実施形態における検出処理部５２４の動作のフローチャートである。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る自動演奏システム１００のブロック図である。自動演奏システム１００は、複数の演奏者Ｐが楽器を演奏する音響ホール等の空間に設置され、複数の演奏者Ｐによる楽曲（以下「演奏対象曲」という）の演奏に並行して演奏対象曲の自動演奏を実行するコンピュータシステムである。なお、演奏者Ｐは、典型的には楽器の演奏者であるが、演奏対象曲の歌唱者も演奏者Ｐであり得る。すなわち、本出願における「演奏」には、楽器の演奏だけでなく歌唱も包含される。また、実際には楽器の演奏を担当しない者（例えば、コンサート時の指揮者またはレコーディング時の音響監督など）も、演奏者Ｐに含まれ得る。

図１に例示される通り、本実施形態の自動演奏システム１００は、制御装置１２と記憶装置１４と収録装置２２と自動演奏装置２４と表示装置２６とを具備する。制御装置１２と記憶装置１４とは、例えばパーソナルコンピュータ等の情報処理装置で実現される。

制御装置１２は、例えばＣＰＵ（Central Processing Unit）等の処理回路であり、自動演奏システム１００の各要素を統括的に制御する。記憶装置１４は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体、あるいは複数種の記録媒体の組合せで構成され、制御装置１２が実行するプログラムと制御装置１２が使用する各種のデータとを記憶する。なお、自動演奏システム１００とは別体の記憶装置１４（例えばクラウドストレージ）を用意し、移動体通信網またはインターネット等の通信網を介して制御装置１２が記憶装置１４に対する書込および読出を実行してもよい。すなわち、記憶装置１４は自動演奏システム１００から省略され得る。

本実施形態の記憶装置１４は、楽曲データＭを記憶する。楽曲データＭは、自動演奏による演奏対象曲の演奏内容を指定する。例えばＭＩＤＩ（Musical Instrument Digital Interface）規格に準拠した形式のファイル（ＳＭＦ：Standard MIDI File）が楽曲データＭとして好適である。具体的には、楽曲データＭは、演奏内容を示す指示データと、当該指示データの発生時点を示す時間データとが配列された時系列データである。指示データは、音高（ノートナンバ）と強度（ベロシティ）とを指定して発音および消音等の各種のイベントを指示する。時間データは、例えば相前後する指示データの間隔（デルタタイム）を指定する。

図１の自動演奏装置２４は、制御装置１２による制御のもとで演奏対象曲の自動演奏を実行する。具体的には、演奏対象曲を構成する複数の演奏パートのうち、複数の演奏者Ｐの演奏パート（例えば弦楽器）とは別個の演奏パートが、自動演奏装置２４により自動演奏される。本実施形態の自動演奏装置２４は、駆動機構２４２と発音機構２４４とを具備する鍵盤楽器（すなわち自動演奏ピアノ）である。発音機構２４４は、自然楽器のピアノと同様に、鍵盤の各鍵の変位に連動して弦（すなわち発音体）を発音させる打弦機構である。具体的には、発音機構２４４は、弦を打撃可能なハンマと、鍵の変位をハンマに伝達する複数の伝達部材（例えばウィペン，ジャックおよびレペティションレバー）とで構成されるアクション機構を鍵毎に具備する。駆動機構２４２は、発音機構２４４を駆動することで演奏対象曲の自動演奏を実行する。具体的には、駆動機構２４２は、各鍵を変位させる複数の駆動体（例えばソレノイド等のアクチュエータ）と、各駆動体を駆動する駆動回路とを含んで構成される。制御装置１２からの指示に応じて駆動機構２４２が発音機構２４４を駆動することで、演奏対象曲の自動演奏が実現される。なお、自動演奏装置２４に制御装置１２または記憶装置１４を搭載してもよい。

収録装置２２は、複数の演奏者Ｐが演奏対象曲を演奏する様子を収録する。図１に例示される通り、本実施形態の収録装置２２は、複数の撮像装置２２２と複数の収音装置２２４とを具備する。撮像装置２２２は、演奏者Ｐ毎に設置され、演奏者Ｐの撮像により画像信号Ｖ0を生成する。画像信号Ｖ0は、演奏者Ｐの動画像を表す信号である。収音装置２２４は、演奏者Ｐ毎に設置され、演奏者Ｐによる演奏（例えば楽器の演奏または歌唱）で発音された音（例えば楽音または歌唱音）を収音して音響信号Ａ0を生成する。音響信号Ａ0は、音の波形を表す信号である。以上の説明から理解される通り、相異なる演奏者Ｐを撮像した複数の画像信号Ｖ0と、相異なる演奏者Ｐが演奏した音を収音した複数の音響信号Ａ0とが収録される。なお、電気弦楽器等の電気楽器から出力される音響信号Ａ0を利用してもよい。したがって、収音装置２２４を省略してもよい。

制御装置１２は、記憶装置１４に記憶されたプログラムを実行することで、演奏対象曲の自動演奏を実現するための複数の機能（合図検出部５２，演奏解析部５４，演奏制御部５６および表示制御部５８）を実現する。なお、制御装置１２の機能を複数の装置の集合（すなわちシステム）で実現した構成、または、制御装置１２の機能の一部または全部を専用の電子回路で実現してもよい。また、収録装置２２と自動演奏装置２４と表示装置２６とが設置された音響ホール等の空間から離間した位置にあるサーバ装置が、制御装置１２の一部または全部の機能を実現してもよい。

各演奏者Ｐは、演奏対象曲の演奏の合図となる動作（以下「合図動作」という）を実行する。合図動作は、時間軸上の１個の時点を指示する動作（ジェスチャー）である。例えば、演奏者Ｐが自身の楽器を持上げる動作、または演奏者Ｐが自身の身体を動かす動作が、合図動作の好適例である。例えば演奏対象曲の演奏を主導する特定の演奏者Ｐは、図２に例示される通り、演奏対象曲の演奏を開始すべき始点に対して所定の期間（以下「準備期間」という）Ｂだけ手前の時点Ｑで合図動作を実行する。準備期間Ｂは、例えば演奏対象曲の１拍分の時間長の期間である。したがって、準備期間Ｂの時間長は演奏対象曲の演奏速度（テンポ）に応じて変動する。例えば演奏速度が速いほど準備期間Ｂは短い時間となる。演奏者Ｐは、演奏対象曲に想定される演奏速度のもとで１拍分に相当する準備期間Ｂだけ演奏対象曲の始点から手前の時点で合図動作を実行したうえで、当該始点の到来により演奏対象曲の演奏を開始する。合図動作は、他の演奏者Ｐによる演奏の契機となるほか、自動演奏装置２４による自動演奏の契機として利用される。なお、準備期間Ｂの時間長は任意であり、例えば複数拍分の時間長としてもよい。

図１の合図検出部５２は、演奏者Ｐによる合図動作を検出する。具体的には、合図検出部５２は、各撮像装置２２２が演奏者Ｐを撮像した画像を解析することで合図動作を検出する。図１に例示される通り、本実施形態の合図検出部５２は、画像合成部５２２と検出処理部５２４とを具備する。画像合成部５２２は、複数の撮像装置２２２が生成した複数の画像信号Ｖ0を合成することで画像信号Ｖを生成する。画像信号Ｖは、図３に例示される通り、各画像信号Ｖ0が表す複数の動画像（＃1，＃2，＃3，……）を配列した画像を表す信号である。すなわち、複数の演奏者Ｐの動画像を表す画像信号Ｖが画像合成部５２２から検出処理部５２４に供給される。

検出処理部５２４は、画像合成部５２２が生成した画像信号Ｖを解析することで複数の演奏者Ｐの何れかによる合図動作を検出する。検出処理部５２４による合図動作の検出には、演奏者Ｐが合図動作の実行時に移動させる要素（例えば身体または楽器）を画像から抽出する画像認識処理と、当該要素の移動を検出する動体検出処理とを含む公知の画像解析技術が使用され得る。また、ニューラルネットワークまたは多分木等の識別モデルを合図動作の検出に利用してもよい。例えば、複数の演奏者Ｐによる演奏を撮像した画像信号から抽出された特徴量を所与の学習データとして利用して、識別モデルの機械学習（例えばディープラーニング）が事前に実行される。検出処理部５２４は、実際に自動演奏が実行される場面で画像信号Ｖから抽出した特徴量を機械学習後の識別モデルに適用することで合図動作を検出する。

図１の演奏解析部５４は、演奏対象曲のうち複数の演奏者Ｐが現に演奏している位置（以下「演奏位置」という）Ｔを各演奏者Ｐによる演奏に並行して順次に推定する。具体的には、演奏解析部５４は、複数の収音装置２２４の各々が収音した音を解析することで演奏位置Ｔを推定する。図１に例示される通り、本実施形態の演奏解析部５４は、音響混合部５４２と解析処理部５４４とを具備する。音響混合部５４２は、複数の収音装置２２４が生成した複数の音響信号Ａ0を混合することで音響信号Ａを生成する。すなわち、音響信号Ａは、相異なる音響信号Ａ0が表す複数種の音の混合音を表す信号である。

解析処理部５４４は、音響混合部５４２が生成した音響信号Ａの解析により演奏位置Ｔを推定する。例えば、解析処理部５４４は、音響信号Ａが表す音と楽曲データＭが示す演奏対象曲の演奏内容とを相互に照合することで演奏位置Ｔを特定する。また、本実施形態の解析処理部５４４は、演奏対象曲の演奏速度（テンポ）Ｒを音響信号Ａの解析により推定する。例えば、解析処理部５４４は、演奏位置Ｔの時間変化（すなわち、時間軸方向における演奏位置Ｔの変化）から演奏速度Ｒを特定する。なお、解析処理部５４４による演奏位置Ｔおよび演奏速度Ｒの推定には、公知の音響解析技術（スコアアライメント）が任意に採用され得る。例えば、特許文献１に開示された解析技術を演奏位置Ｔおよび演奏速度Ｒの推定に利用してもよい。また、ニューラルネットワークまたは多分木等の識別モデルを演奏位置Ｔおよび演奏速度Ｒの推定に利用してもよい。例えば、複数の演奏者Ｐによる演奏を収音した音響信号Ａから抽出された特徴量を所与の学習データとして利用して、識別モデルを生成する機械学習（例えばディープラーニング）が自動演奏前に実行される。解析処理部５４４は、実際に自動演奏が実行される場面で音響信号Ａから抽出した特徴量を、機械学習により生成された識別モデルに適用することで演奏位置Ｔおよび演奏速度Ｒを推定する。

合図検出部５２による合図動作の検出と演奏解析部５４による演奏位置Ｔおよび演奏速度Ｒの推定とは、複数の演奏者Ｐによる演奏対象曲の演奏に並行して実時間的に実行される。例えば、合図動作の検出と演奏位置Ｔおよび演奏速度Ｒの推定とが所定の周期で反復される。ただし、合図動作の検出の周期と演奏位置Ｔおよび演奏速度Ｒの推定の周期との異同は不問である。

図１の演奏制御部５６は、合図検出部５２が検出する合図動作と演奏解析部５４が推定する演奏位置Ｔの進行とに同期するように自動演奏装置２４に演奏対象曲の自動演奏を実行させる。具体的には、演奏制御部５６は、合図検出部５２による合図動作の検出を契機として自動演奏の開始を自動演奏装置２４に対して指示するとともに、演奏対象曲のうち演奏位置Ｔに対応する時点について楽曲データＭが指定する演奏内容を自動演奏装置２４に指示する。すなわち、演奏制御部５６は、演奏対象曲の楽曲データＭに含まれる各指示データを自動演奏装置２４に対して順次に供給するシーケンサである。自動演奏装置２４は、演奏制御部５６からの指示に応じて演奏対象曲の自動演奏を実行する。複数の演奏者Ｐによる演奏の進行とともに演奏位置Ｔは演奏対象曲内の後方に移動するから、自動演奏装置２４による演奏対象曲の自動演奏も演奏位置Ｔの移動とともに進行する。以上の説明から理解される通り、演奏対象曲の各音の強度またはフレーズ表現等の音楽表現を楽曲データＭで指定された内容に維持したまま、演奏のテンポと各音のタイミングとは複数の演奏者Ｐによる演奏に同期するように、演奏制御部５６は自動演奏装置２４に自動演奏を指示する。したがって、例えば特定の演奏者（例えば現在では生存していない過去の演奏者）の演奏を表す楽曲データＭを使用すれば、当該演奏者に特有の音楽表現を自動演奏で忠実に再現しながら、当該演奏者と実在の複数の演奏者Ｐとが恰も相互に呼吸を合わせて協調的に合奏しているかのような雰囲気を醸成することが可能である。

ところで、演奏制御部５６が指示データの出力により自動演奏装置２４に自動演奏を指示してから自動演奏装置２４が実際に発音する（例えば発音機構２４４のハンマが打弦する）までには数百ミリ秒程度の時間が必要である。すなわち、演奏制御部５６からの指示に対して自動演奏装置２４による実際の発音は不可避的に遅延する。したがって、演奏対象曲のうち演奏解析部５４が推定した演奏位置Ｔ自体の演奏を演奏制御部５６が自動演奏装置２４に指示する構成では、複数の演奏者Ｐによる演奏に対して自動演奏装置２４による発音が遅延する結果となる。

そこで、本実施形態の演奏制御部５６は、図２に例示される通り、演奏対象曲のうち演奏解析部５４が推定した演奏位置Ｔに対して後方（未来）の時点ＴAの演奏を自動演奏装置２４に指示する。すなわち、遅延後の発音が複数の演奏者Ｐによる演奏に同期する（例えば演奏対象曲の特定の音符が自動演奏装置２４と各演奏者Ｐとで略同時に演奏される）ように、演奏制御部５６は演奏対象曲の楽曲データＭ内の指示データを先読みする。

図４は、演奏位置Ｔの時間的な変化の説明図である。単位時間内の演奏位置Ｔの変動量（図４の直線の勾配）が演奏速度Ｒに相当する。図４では、演奏速度Ｒが一定に維持された場合が便宜的に例示されている。

図４に例示される通り、演奏制御部５６は、演奏対象曲のうち演奏位置Ｔに対して調整量αだけ後方の時点ＴAの演奏を自動演奏装置２４に指示する。調整量αは、演奏制御部５６による自動演奏の指示から自動演奏装置２４が実際に発音するまでの遅延量Ｄと、演奏解析部５４が推定した演奏速度Ｒとに応じて可変に設定される。具体的には、演奏速度Ｒのもとで遅延量Ｄの時間内に演奏対象曲の演奏が進行する区間長を、演奏制御部５６は調整量αとして設定する。したがって、演奏速度Ｒが速い（図４の直線の勾配が急峻である）ほど調整量αは大きい数値となる。なお、図４では演奏対象曲の全区間にわたり演奏速度Ｒが一定に維持された場合を想定したが、実際には演奏速度Ｒは変動し得る。したがって、調整量αは、演奏速度Ｒに連動して経時的に変動する。

遅延量Ｄは、自動演奏装置２４の測定結果に応じた所定値（例えば数十から数百ミリ秒程度）に事前に設定される。なお、実際の自動演奏装置２４では、演奏される音高または強度に応じて遅延量Ｄが相違し得る。そこで、自動演奏の対象となる音符の音高または強度に応じて遅延量Ｄ（さらには遅延量Ｄに依存する調整量α）を可変に設定してもよい。

また、演奏制御部５６は、合図検出部５２が検出する合図動作を契機として演奏対象曲の自動演奏の開始を自動演奏装置２４に指示する。図５は、合図動作と自動演奏との関係の説明図である。図５に例示される通り、演奏制御部５６は、合図動作が検出された時点Ｑから時間長δが経過した時点ＱAで自動演奏装置２４に対する自動演奏の指示を開始する。時間長δは、準備期間Ｂに相当する時間長τから自動演奏の遅延量Ｄを減算した時間長である。準備期間Ｂの時間長τは演奏対象曲の演奏速度Ｒに応じて変動する。具体的には、演奏速度Ｒが速い（図５の直線の勾配が急峻である）ほど準備期間Ｂの時間長τは短くなる。ただし、合図動作の時点ＱAでは演奏対象曲の演奏は開始されていないから、演奏速度Ｒは推定されていない。そこで、演奏制御部５６は、演奏対象曲に想定される標準的な演奏速度（標準テンポ）Ｒ0に応じて準備期間Ｂの時間長τを算定する。演奏速度Ｒ0は、例えば楽曲データＭにて指定される。ただし、複数の演奏者Ｐが演奏対象曲について共通に認識している速度（例えば演奏練習時に想定した速度）を演奏速度Ｒ0として設定してもよい。

以上に説明した通り、演奏制御部５６は、合図動作の時点ＱAから時間長δ（δ＝τ－Ｄ）が経過した時点ＱAで自動演奏の指示を開始する。したがって、合図動作の時点Ｑから準備期間Ｂが経過した時点ＱB（すなわち、複数の演奏者Ｐが演奏を開始する時点）において、自動演奏装置２４による発音が開始される。すなわち、複数の演奏者Ｐによる演奏対象曲の演奏の開始と略同時に自動演奏装置２４による自動演奏が開始される。本実施形態の演奏制御部５６による自動演奏の制御は以上の例示の通りである。

図１の表示制御部５８は、自動演奏装置２４による自動演奏の進行を視覚的に表現した画像（以下「演奏画像」という）Ｇを表示装置２６に表示させる。具体的には、表示制御部５８は、演奏画像Ｇを表す画像データを生成して表示装置２６に出力することで演奏画像Ｇを表示装置２６に表示させる。表示装置２６は、表示制御部５８から指示された演奏画像Ｇを表示する。例えば液晶表示パネルまたはプロジェクタが表示装置２６の好適例である。複数の演奏者Ｐは、表示装置２６が表示する演奏画像Ｇを、演奏対象曲の演奏に並行して随時に視認することが可能である。

本実施形態の表示制御部５８は、自動演奏装置２４による自動演奏に連動して動的に変化する動画像を演奏画像Ｇとして表示装置２６に表示させる。図６および図７は、演奏画像Ｇの表示例である。図６および図７に例示される通り、演奏画像Ｇは、底面７２が存在する仮想空間７０に表示体（オブジェクト）７４を配置した立体的な画像である。図６に例示される通り、表示体７４は、仮想空間７０内に浮遊するとともに所定の速度で降下する略球状の立体である。仮想空間７０の底面７２には表示体７４の影７５が表示され、表示体７４の降下とともに底面７２上で当該影７５が表示体７４に接近する。図７に例示される通り、自動演奏装置２４による発音が開始される時点で表示体７４は仮想空間７０内の所定の高度まで上昇するとともに、当該発音の継続中に表示体７４の形状が不規則に変形する。そして、自動演奏による発音が停止（消音）すると、表示体７４の不規則な変形が停止して図６の初期的な形状（球状）に復帰し、表示体７４が所定の速度で降下する状態に遷移する。自動演奏による発音毎に表示体７４の以上の動作（上昇および変形）が反復される。例えば、演奏対象曲の演奏の開始前に表示体７４は降下し、演奏対象曲の始点の音符が自動演奏により発音される時点で表示体７４の移動の方向が降下から上昇に転換する。したがって、表示装置２６に表示された演奏画像Ｇを視認する演奏者Ｐは、表示体７４の降下から上昇への転換により自動演奏装置２４による発音のタイミングを把握することが可能である。

本実施形態の表示制御部５８は、以上に例示した演奏画像Ｇが表示されるように表示装置２６を制御する。なお、表示制御部５８が表示装置２６に画像の表示または変更を指示してから、表示装置２６による表示画像に当該指示が反映されるまでの遅延は、自動演奏装置２４による自動演奏の遅延量Ｄと比較して充分に小さい。そこで、表示制御部５８は、演奏対象曲のうち演奏解析部５４が推定した演奏位置Ｔ自体の演奏内容に応じた演奏画像Ｇを表示装置２６に表示させる。したがって、前述の通り、自動演奏装置２４による実際の発音（演奏制御部５６による指示から遅延量Ｄだけ遅延した時点）に同期して演奏画像Ｇが動的に変化する。すなわち、演奏対象曲の各音符の発音を自動演奏装置２４が実際に開始する時点で演奏画像Ｇの表示体７４の移動は降下から上昇に転換する。したがって、各演奏者Ｐは、自動演奏装置２４が演奏対象曲の各音符を発音する時点を視覚的に確認することが可能である。

図８は、自動演奏システム１００の制御装置１２の動作を例示するフローチャートである。例えば、所定の周期で発生する割込信号を契機として、複数の演奏者Ｐによる演奏対象曲の演奏に並行して図８の処理が開始される。図８の処理を開始すると、制御装置１２（合図検出部５２）は、複数の撮像装置２２２から供給される複数の画像信号Ｖ0を解析することで、任意の演奏者Ｐによる合図動作の有無を判定する（ＳA1）。また、制御装置１２（演奏解析部５４）は、複数の収音装置２２４から供給される複数の音響信号Ａ0の解析により演奏位置Ｔと演奏速度Ｒとを推定する（ＳA2）。なお、合図動作の検出（ＳA1）と演奏位置Ｔおよび演奏速度Ｒの推定（ＳA2）との順序は逆転され得る。

制御装置１２（演奏制御部５６）は、演奏位置Ｔおよび演奏速度Ｒに応じた自動演奏を自動演奏装置２４に対して指示する（ＳA3）。具体的には、合図検出部５２が検出する合図動作と演奏解析部５４が推定する演奏位置Ｔの進行とに同期するように自動演奏装置２４に演奏対象曲の自動演奏を実行させる。また、制御装置１２（表示制御部５８）は、自動演奏の進行を表現する演奏画像Ｇを表示装置２６に表示させる（ＳA4）。

以上に例示した実施形態では、演奏者Ｐによる合図動作と演奏位置Ｔの進行とに同期するように自動演奏装置２４による自動演奏が実行される一方、自動演奏装置２４による自動演奏の進行を表す演奏画像Ｇが表示装置２６に表示される。したがって、自動演奏装置２４による自動演奏の進行を演奏者Ｐが視覚的に確認して自身の演奏に反映させることが可能である。すなわち、複数の演奏者Ｐによる演奏と自動演奏装置２４による自動演奏とが相互に作用し合う自然な合奏が実現される。本実施形態では特に、自動演奏による演奏内容に応じて動的に変化する演奏画像Ｇが表示装置２６に表示されるから、演奏者Ｐが自動演奏の進行を視覚的および直観的に把握できるという利点がある。

また、本実施形態では、演奏解析部５４が推定した演奏位置Ｔに対して時間的に後方の時点ＴAの演奏内容が自動演奏装置２４に指示される。したがって、演奏制御部５６による演奏の指示に対して自動演奏装置２４による実際の発音が遅延する場合でも、演奏者Ｐによる演奏と自動演奏とを高精度に同期させることが可能である。また、演奏解析部５４が推定した演奏速度Ｒに応じた可変の調整量αだけ演奏位置Ｔに対して後方の時点ＴAの演奏が自動演奏装置２４に指示される。したがって、例えば演奏速度Ｒが変動する場合でも、演奏者による演奏と自動演奏とを高精度に同期させることが可能である。

＜第２実施形態＞
本発明の第２実施形態を説明する。なお、以下に例示する各形態において作用または機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

図９は、第２実施形態における解析処理部５４４の構成を例示するブロック図である。図９に例示される通り、第２実施形態の解析処理部５４４は、尤度算定部８２と位置推定部８４とを具備する。図１０は、尤度算定部８２の動作の説明図である。

尤度算定部８２は、複数の演奏者Ｐによる演奏対象曲の演奏に並行して、演奏対象曲内の複数の時点ｔの各々における観測尤度Ｌを算定する。すなわち、演奏対象曲内の複数の時点ｔにわたる観測尤度Ｌの分布（以下「観測尤度分布」という）が算定される。音響信号Ａを時間軸上で区分した単位区間（フレーム）毎に観測尤度分布が算定される。音響信号Ａの１個の単位区間について算定された観測尤度分布のうち任意の１個の時点ｔにおける観測尤度Ｌは、当該単位区間の音響信号Ａが表す音が演奏対象曲内の当該時点ｔで発音された確度の指標である。観測尤度Ｌは、複数の演奏者Ｐが演奏対象曲内の各時点ｔを演奏している確度の指標とも換言される。すなわち、任意の１個の単位区間について算定された観測尤度Ｌが高い時点ｔは、当該単位区間の音響信号Ａが表す音の発音位置に該当する可能性が高い。なお、相前後する単位区間は時間軸上で相互に重複し得る。

図９に例示される通り、第２実施形態の尤度算定部８２は、第１演算部８２１と第２演算部８２２と第３演算部８２３とを具備する。第１演算部８２１は第１尤度Ｌ1(A)を算定し、第２演算部８２２は第２尤度Ｌ2(C)を算定する。第３演算部８２３は、第１演算部８２１が算定した第１尤度Ｌ1(A)と第２演算部８２２が算定した第２尤度Ｌ2(C)との乗算により観測尤度Ｌの分布を算定する。すなわち、観測尤度Ｌは、第１尤度Ｌ1(A)と第２尤度Ｌ2(C)との積で表現される（Ｌ＝Ｌ1(A)Ｌ2(C)）。

第１演算部８２１は、各単位区間の音響信号Ａと演奏対象曲の楽曲データＭとを相互に照合することで、演奏対象曲内の複数の時点ｔの各々について第１尤度Ｌ1(A)を算定する。すなわち、図１０に例示される通り、演奏対象曲内の複数の時点ｔにわたる第１尤度Ｌ1(A)の分布が単位区間毎に算定される。第１尤度Ｌ1(A)は、音響信号Ａの解析により算定される尤度である。音響信号Ａの１個の単位区間の解析により任意の１個の時点ｔについて算定された第１尤度Ｌ1(A)は、当該単位区間の音響信号Ａが表す音が演奏対象曲内の当該時点ｔで発音された確度の指標である。時間軸上の複数の時点ｔのうち音響信号Ａの１個の単位区間の演奏位置に該当する可能性が高い時点ｔには、第１尤度Ｌ1(A)のピークが存在する。音響信号Ａから第１尤度Ｌ1(A)を算定する方法については、例えば特開２０１４－１７８３９５号公報の技術が好適に利用され得る。

図９の第２演算部８２２は、合図動作の検出の有無に応じた第２尤度Ｌ2(C)を算定する。具体的には、第２尤度Ｌ2(C)は、合図動作の有無を表す変数Ｃに応じて算定される。変数Ｃは、合図検出部５２から尤度算定部８２に通知される。合図検出部５２が合図動作を検出した場合に変数Ｃは１に設定され、合図検出部５２が合図動作を検出しない場合に変数Ｃは０に設定される。なお、変数Ｃの数値は０および１の２値に限定されない。例えば、合図動作の非検出時の変数Ｃを所定の正数（ただし、合図動作の検出時の変数Ｃの数値を下回る数値）に設定してもよい。

図１０に例示される通り、演奏対象曲の時間軸上には複数の基準点ａが指定される。基準点ａは、例えば楽曲の開始時点、または、フェルマータ等で指示された長時間の休符から演奏が再開される時点である。例えば、演奏対象曲内の複数の基準点ａの各々の時刻が楽曲データＭにより指定される。

図１０に例示される通り、第２尤度Ｌ2(C)は、合図動作が検出されない単位区間（Ｃ＝０）では１に維持される。他方、合図動作が検出された単位区間（Ｃ＝１）では、第２尤度Ｌ2(C)は、各基準点ａから時間軸上で前方側の所定長にわたる期間（以下「参照期間」という）ρにて０（第２値の例示）に設定され、各参照期間ρ以外の期間にて１（第１値の例示）に設定される。参照期間ρは、例えば、演奏対象曲の１拍分から２拍分ほどの時間長に設定される。前述の通り、観測尤度Ｌは、第１尤度Ｌ1(A)と第２尤度Ｌ2(C)との積で算定される。したがって、合図動作が検出された場合には、演奏対象曲に指定された複数の基準点ａの各々の前方の参照期間ρにおける観測尤度Ｌが０に低下する。他方、合図動作が検出されない場合には、第２尤度Ｌ2(C)は１に維持されるから、第１尤度Ｌ1(A)が観測尤度Ｌとして算定される。

図９の位置推定部８４は、尤度算定部８２が算定した観測尤度Ｌに応じて演奏位置Ｔを推定する。具体的には、位置推定部８４は、観測尤度Ｌから演奏位置Ｔの事後分布を算定し、当該事後分布から演奏位置Ｔを推定する。演奏位置Ｔの事後分布は、単位区間内の音響信号Ａが観測されたという条件のもとで当該単位区間の発音の時点が演奏対象曲内の位置ｔであった事後確率の確率分布である。観測尤度Ｌを利用した事後分布の算定には、例えば特開２０１５－７９１８３号公報に開示される通り、隠れセミマルコフモデル（ＨＳＭＭ）を利用したベイズ推定等の公知の統計処理が利用される。

前述の通り、合図動作に対応する基準点ａの前方の参照期間ρでは観測尤度Ｌが０に設定されるから、事後分布は、当該基準点ａ以降の区間にて有効となる。したがって、合図動作に対応する基準点ａ以降の時点が演奏位置Ｔとして推定される。また、位置推定部８４は、演奏位置Ｔの時間変化から演奏速度Ｒを特定する。解析処理部５４４以外の構成および動作は第１実施形態と同様である。

図１１は、解析処理部５４４が演奏位置Ｔおよび演奏速度Ｒを推定する処理（図８のステップＳA2）の内容を例示するフローチャートである。複数の演奏者Ｐによる演奏対象曲の演奏に並行して、時間軸上の単位区間毎に図１１の処理が実行される。

第１演算部８２１は、単位区間内の音響信号Ａを解析することにより、演奏対象曲内の複数の時点ｔの各々について第１尤度Ｌ1(A)を算定する（ＳA21）。また、第２演算部８２２は、合図動作の検出の有無に応じた第２尤度Ｌ2(C)を算定する（ＳA22）。なお、第１演算部８２１による第１尤度Ｌ1(A)の算定（ＳA21）と第２演算部８２２による第２尤度Ｌ2(C)の算定（ＳA22）との順序を逆転してもよい。第３演算部８２３は、第１演算部８２１が算定した第１尤度Ｌ1(A)と第２演算部８２２が算定した第２尤度Ｌ2(C)とを乗算することで観測尤度Ｌの分布を算定する（ＳA23）。

位置推定部８４は、尤度算定部８２が算定した観測尤度分布に応じて演奏位置Ｔを推定する（ＳA24）。また、位置推定部８４は、演奏位置Ｔの時間変化から演奏速度Ｒを算定する（ＳA25）。

以上に説明した通り、第２実施形態では、音響信号Ａの解析結果に加えて合図動作の検出結果が演奏位置Ｔの推定に加味されるから、例えば音響信号Ａの解析結果のみを考慮する構成と比較して演奏位置Ｔを高精度に推定することが可能である。例えば楽曲の開始時点または休符から演奏が再開される時点においても高精度に演奏位置Ｔが推定される。また、第２実施形態では、合図動作が検出された場合に、演奏対象曲に指定された複数の基準点ａのうち当該合図動作が検出された基準点ａに対応する参照期間ρ内の観測尤度Ｌが低下する。すなわち、参照期間ρ以外の合図動作の検出時点は演奏時点Ｔの推定に反映されない。したがって、合図動作が誤検出された場合の演奏時点Ｔの誤推定を抑制できるという利点がある。

＜変形例＞
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。

（１）前述の実施形態では、合図検出部５２が検出した合図動作を契機として演奏対象曲の自動演奏を開始したが、演奏対象曲の途中の時点における自動演奏の制御に合図動作を使用してもよい。例えば、演奏対象曲内で長時間にわたる休符が終了して演奏が再開される時点で、前述の各形態と同様に、合図動作を契機として演奏対象曲の自動演奏が再開される。例えば、図５を参照して説明した動作と同様に、演奏対象曲内で休符後に演奏が再開される時点に対して準備期間Ｂだけ手前の時点Ｑで特定の演奏者Ｐが合図動作を実行する。そして、遅延量Ｄと演奏速度Ｒとに応じた時間長δが当該時点Ｑから経過した時点で、演奏制御部５６は、自動演奏装置２４に対する自動演奏の指示を再開する。なお、演奏対象曲の途中の時点では既に演奏速度Ｒが推定されているから、時間長δの設定には、演奏解析部５４が推定した演奏速度Ｒが適用される。

ところで、演奏対象曲のうち合図動作が実行され得る期間は、演奏対象曲の演奏内容から事前に把握され得る。そこで、演奏対象曲のうち合図動作が実行される可能性がある特定の期間（以下「監視期間」という）を対象として合図検出部５２が合図動作の有無を監視してもよい。例えば、演奏対象曲に想定される複数の監視期間の各々について始点と終点とを指定する区間指定データが記憶装置１４に格納される。区間指定データを楽曲データＭに内包させてもよい。合図検出部５２は、演奏対象曲のうち区間指定データで指定される各監視期間内に演奏位置Ｔが存在する場合に合図動作の監視を実行し、演奏位置Ｔが監視期間の外側にある場合には合図動作の監視を停止する。以上の構成によれば、演奏対象曲のうち監視期間に限定して合図動作が検出されるから、演奏対象曲の全区間にわたり合図動作の有無を監視する構成と比較して合図検出部５２の処理負荷が軽減されるという利点がある。また、演奏対象曲のうち実際には合図動作が実行され得ない期間について合図動作が誤検出される可能性を低減することも可能である。

（２）前述の実施形態では、画像信号Ｖが表す画像の全体（図３）を解析することで合図動作を検出したが、画像信号Ｖが表す画像のうち特定の領域（以下「監視領域」という）を対象として、合図検出部５２が合図動作の有無を監視してもよい。例えば、合図検出部５２は、画像信号Ｖが示す画像のうち合図動作が予定されている特定の演奏者Ｐを含む範囲を監視領域として選択し、当該監視領域を対象として合図動作を検出する。監視領域以外の範囲については合図検出部５２による監視対象から除外される。以上の構成によれば、監視領域に限定して合図動作が検出されるから、画像信号Ｖが示す画像の全体にわたり合図動作の有無を監視する構成と比較して合図検出部５２の処理負荷が軽減されるという利点がある。また、実際には合図動作を実行しない演奏者Ｐの動作が合図動作と誤判定される可能性を低減することも可能である。

なお、前述の変形例（１）で例示した通り、演奏対象曲の演奏中に複数回にわたり合図動作が実行される場合を想定すると、合図動作を実行する演奏者Ｐが合図動作毎に変更される可能性もある。例えば、演奏対象曲の開始前の合図動作は演奏者Ｐ1が実行する一方、演奏対象曲の途中の合図動作は演奏者Ｐ2が実行する。したがって、画像信号Ｖが表す画像内で監視領域の位置（またはサイズ）を経時的に変更する構成も好適である。合図動作を実行する演奏者Ｐは演奏前に決定されるから、例えば監視領域の位置を時系列に指定する領域指定データが記憶装置１４に事前に格納される。合図検出部５２は、画像信号Ｖが表す画像のうち領域指定データで指定される各監視領域について合図動作を監視し、監視領域以外の領域については合図動作の監視対象から除外する。以上の構成によれば、合図動作を実行する演奏者Ｐが楽曲の進行とともに変更される場合でも、合図動作を適切に検出することが可能である。

（３）前述の実施形態では、複数の撮像装置２２２を利用して複数の演奏者Ｐを撮像したが、１個の撮像装置２２２により複数の演奏者Ｐ（例えば複数の演奏者Ｐが所在する舞台の全体）を撮像してもよい。同様に、複数の演奏者Ｐが演奏した音を１個の収音装置２２４により収音してもよい。また、複数の画像信号Ｖ0の各々について合図検出部５２が合図動作の有無を監視する構成（したがって、画像合成部５２２は省略され得る）も採用され得る。

（４）前述の実施形態では、撮像装置２２２が撮像した画像信号Ｖの解析で合図動作を検出したが、合図検出部５２が合図動作を検出する方法は以上の例示に限定されない。例えば、演奏者Ｐの身体に装着された検出器（例えば加速度センサ等の各種のセンサ）の検出信号を解析することで合図検出部５２が演奏者Ｐの合図動作を検出してもよい。ただし、撮像装置２２２が撮像した画像の解析により合図動作を検出する前述の実施形態の構成によれば、演奏者Ｐの身体に検出器を装着する場合と比較して、演奏者Ｐの演奏動作に対する影響を低減しながら合図動作を検出できるという利点がある。

（５）前述の実施形態では、相異なる楽器の音を表す複数の音響信号Ａ0を混合した音響信号Ａの解析により演奏位置Ｔおよび演奏速度Ｒを推定したが、各音響信号Ａ0の解析により演奏位置Ｔおよび演奏速度Ｒを推定してもよい。例えば、演奏解析部５４は、複数の音響信号Ａ0の各々について前述の実施形態と同様の方法で暫定的な演奏位置Ｔおよび演奏速度Ｒを推定し、各音響信号Ａ0に関する推定結果から確定的な演奏位置Ｔおよび演奏速度Ｒを決定する。例えば各音響信号Ａ0から推定された演奏位置Ｔおよび演奏速度Ｒの代表値（例えば平均値）が確定的な演奏位置Ｔおよび演奏速度Ｒとして算定される。以上の説明から理解される通り、演奏解析部５４の音響混合部５４２は省略され得る。

（６）前述の実施形態で例示した通り、自動演奏システム１００は、制御装置１２とプログラムとの協働で実現される。本発明の好適な態様に係るプログラムは、演奏対象曲を演奏する演奏者Ｐの合図動作を検出する合図検出部５２、演奏された音を表す音響信号Ａを当該演奏に並行して解析することで演奏対象曲内の演奏位置Ｔを順次に推定する演奏解析部５４、合図検出部５２が検出する合図動作と演奏解析部５４が推定する演奏位置Ｔの進行とに同期するように演奏対象曲の自動演奏を自動演奏装置２４に実行させる演奏制御部５６、および、自動演奏の進行を表す演奏画像Ｇを表示装置２６に表示させる表示制御部５８、としてコンピュータを機能させる。すなわち、本発明の好適な態様に係るプログラムは、本発明の好適な態様に係る楽曲データ処理方法をコンピュータに実行させるプログラムである。以上に例示したプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、通信網を介した配信の形態でプログラムをコンピュータに配信してもよい。

（７）本発明の好適な態様は、前述の実施形態に係る自動演奏システム１００の動作方法（自動演奏方法）としても特定される。例えば、本発明の好適な態様に係る自動演奏方法は、コンピュータシステム（単体のコンピュータ、または複数のコンピュータで構成されるシステム）が、演奏対象曲を演奏する演奏者Ｐの合図動作を検出し（ＳA1）、演奏された音を表す音響信号Ａを当該演奏に並行して解析することで演奏対象曲内の演奏位置Ｔを順次に推定し（ＳA2）、合図動作と演奏位置Ｔの進行とに同期するように演奏対象曲の自動演奏を自動演奏装置２４に実行させ（ＳA3）、自動演奏の進行を表す演奏画像Ｇを表示装置２６に表示させる（ＳA4）。

（８）以上に例示した形態から、例えば以下の構成が把握される。
［態様Ａ１］
本発明の好適な態様（態様Ａ１）に係る演奏解析方法は、楽曲を演奏する演奏者の合図動作を検出し、前記楽曲を演奏した音を表す音響信号の解析により、前記楽曲内の各時点が演奏位置に該当する確度の指標である観測尤度の分布を算定し、前記観測尤度の分布に応じて前記演奏位置を推定し、前記観測尤度の分布の算定において、前記合図動作を検出した場合には、前記楽曲について時間軸上に指定された基準点の前方の期間における観測尤度を低下させる。以上の態様では、音響信号の解析結果に加えて合図動作の検出結果が演奏位置の推定に加味されるから、例えば音響信号の解析結果のみを考慮する構成と比較して演奏位置を高精度に推定することが可能である。
［態様Ａ２］
態様Ａ１の好適例（態様Ａ２）において、前記観測尤度の分布の算定では、前記楽曲内の各時点が演奏位置に該当する確度の指標である第１尤度を前記音響信号から算定し、前記合図動作が検出されない状態において第１値に設定され、前記合図動作が検出された場合には、前記基準点の前方の期間において、前記第１値を下回る第２値に設定される第２尤度を算定し、前記第１尤度と前記第２尤度との乗算により前記観測尤度を算定する。以上の態様では、音響信号から算定された第１尤度と合図動作の検出結果に応じた第２尤度との乗算により観測尤度を簡便に算定できるという利点がある。
［態様Ａ３］
態様Ａ２の好適例（態様Ａ３）において、前記第１値は１であり、前記第２値は０である。以上の態様によれば、合図動作が検出された場合と検出されない場合とで観測尤度を明確に区別することが可能である。
［態様Ａ４］
本発明の好適な態様（態様Ａ４）に係る自動演奏方法は、楽曲を演奏する演奏者の合図動作を検出し、前記楽曲を演奏した音を表す音響信号の解析により前記楽曲内の演奏位置を推定し、前記演奏位置の進行に同期するように前記楽曲の自動演奏を自動演奏装置に実行させ、前記演奏位置の推定においては、前記音響信号の解析により、前記楽曲内の各時点が演奏位置に該当する確度の指標である観測尤度の分布を算定し、前記観測尤度の分布に応じて前記演奏位置を推定し、前記観測尤度の分布の算定において、前記合図動作を検出した場合には、前記楽曲について時間軸上に指定された基準点の前方の期間における観測尤度を低下させる。以上の態様では、音響信号の解析結果に加えて合図動作の検出結果が演奏位置の推定に加味されるから、例えば音響信号の解析結果のみを考慮する構成と比較して演奏位置を高精度に推定することが可能である。
［態様Ａ５］
態様Ａ４の好適例（態様Ａ５）において、前記観測尤度の分布の算定では、前記楽曲内の各時点が演奏位置に該当する確度の指標である第１尤度を前記音響信号から算定し、前記合図動作が検出されない状態において第１値に設定され、前記合図動作が検出された場合には、前記基準点の前方の期間において、前記第１値を下回る第２値に設定される第２尤度を算定し、前記第１尤度と前記第２尤度との乗算により前記観測尤度を算定する。以上の態様では、音響信号から算定された第１尤度と合図動作の検出結果に応じた第２尤度との乗算により観測尤度を簡便に算定できるという利点がある。
［態様Ａ６］
態様Ａ４または態様Ａ５の好適例（態様Ａ６）において、前記楽曲の演奏内容を表す楽曲データに従って前記自動演奏装置に自動演奏を実行させ、前記複数の基準点は、前記楽曲データにより指定される。以上の態様では、自動演奏装置に自動演奏を指示する楽曲データにより各基準点が指定されるから、楽曲データとは別個に複数の基準点を指定する構成と比較して構成および処理が簡素化されるという利点がある。
［態様Ａ７］
態様Ａ４から態様Ａ６の何れかの好適例（態様Ａ７）において、前記自動演奏の進行を表す画像を表示装置に表示させる。以上の態様によれば、自動演奏装置による自動演奏の進行を演奏者が視覚的に確認して自身の演奏に反映させることが可能である。すなわち、演奏者による演奏と自動演奏装置による自動演奏とが相互に作用し合う自然な演奏が実現される。
［態様Ａ８］
本発明の好適な態様（態様Ａ８）に係る自動演奏システムは、楽曲を演奏する演奏者の合図動作を検出する合図検出部と、前記楽曲を演奏した音を表す音響信号の解析により前記楽曲内の演奏位置を推定する解析処理部と、前記合図検出部が検出する合図動作と前記演奏解析部が推定する演奏位置の進行とに同期するように楽曲の自動演奏を自動演奏装置に実行させる演奏制御部とを具備し、前記解析処理部は、前記音響信号の解析により、前記楽曲内の各時点が演奏位置に該当する確度の指標である観測尤度の分布を算定する尤度算定部と、前記観測尤度の分布に応じて前記演奏位置を推定する位置推定部とを含み、前記尤度算定部は、前記合図動作を検出した場合には、前記楽曲について時間軸上に指定された基準点の前方の期間における観測尤度を低下させる。以上の態様では、音響信号の解析結果に加えて合図動作の検出結果が演奏位置の推定に加味されるから、例えば音響信号の解析結果のみを考慮する構成と比較して演奏位置を高精度に推定することが可能である。

（９）前述の形態で例示した自動演奏システムについて、例えば以下の構成が把握される。
［態様Ｂ１］
本発明の好適な態様（態様Ｂ１）に係る自動演奏システムは、楽曲を演奏する演奏者の合図動作を検出する合図検出部と、演奏された音を表す音響信号を当該演奏に並行して解析することで楽曲内の演奏位置を順次に推定する演奏解析部と、合図検出部が検出する合図動作と演奏解析部が推定する演奏位置の進行とに同期するように楽曲の自動演奏を自動演奏装置に実行させる演奏制御部と、自動演奏の進行を表す画像を表示装置に表示させる表示制御部とを具備する。以上の構成では、演奏者による合図動作と演奏位置の進行とに同期するように自動演奏装置による自動演奏が実行される一方、自動演奏装置による自動演奏の進行を表す画像が表示装置に表示される。したがって、自動演奏装置による自動演奏の進行を演奏者が視覚的に確認して自身の演奏に反映させることが可能である。すなわち、演奏者による演奏と自動演奏装置による自動演奏とが相互に作用し合う自然な演奏が実現される。
［態様Ｂ２］
態様Ｂ１の好適例（態様Ｂ２）において、演奏制御部は、楽曲のうち演奏解析部が推定した演奏位置に対して後方の時点の演奏を自動演奏装置に指示する。以上の態様では、演奏解析部が推定した演奏位置に対して時間的に後方の時点の演奏内容が自動演奏装置に指示される。したがって、演奏制御部による演奏の指示に対して自動演奏装置による実際の発音が遅延する場合でも、演奏者による演奏と自動演奏とを高精度に同期させることが可能である。
［態様Ｂ３］
態様Ｂ２の好適例（態様Ｂ３）において、演奏解析部は、音響信号の解析により演奏速度を推定し、演奏制御部は、楽曲のうち、演奏解析部が推定した演奏位置に対して演奏速度に応じた調整量だけ後方の時点の演奏を、自動演奏装置に指示する。以上の態様では、演奏解析部が推定した演奏速度に応じた可変の調整量だけ演奏位置に対して後方の時点の演奏が自動演奏装置に指示される。したがって、例えば演奏速度が変動する場合でも、演奏者による演奏と自動演奏とを高精度に同期させることが可能である。
［態様Ｂ４］
態様Ｂ１から態様Ｂ３の何れかの好適例（態様Ｂ４）において、合図検出部は、撮像装置が演奏者を撮像した画像の解析により合図動作を検出する。以上の態様では、撮像装置が撮像した画像の解析により演奏者の合図動作が検出されるから、例えば演奏者の身体に装着した検出器により合図動作を検出する場合と比較して、演奏者による演奏に対する影響を低減しながら合図動作を検出できるという利点がある。
［態様Ｂ５］
態様Ｂ１から態様Ｂ４の何れかの好適例（態様Ｂ５）において、表示制御部は、自動演奏による演奏内容に応じて動的に変化する画像を表示装置に表示させる。以上の態様では、自動演奏による演奏内容に応じて動的に変化する画像が表示装置に表示されるから、演奏者が自動演奏の進行を視覚的および直観的に把握できるという利点がある。
［態様Ｂ６］
本発明の好適な態様（態様Ｂ６）に係る自動演奏方法は、コンピュータシステムが、楽曲を演奏する演奏者の合図動作を検出し、演奏された音を表す音響信号を当該演奏に並行して解析することで楽曲内の演奏位置を順次に推定し、合図動作と演奏位置の進行とに同期するように楽曲の自動演奏を自動演奏装置に実行させ、自動演奏の進行を表す画像を表示装置に表示させる。

＜詳細な説明＞
本発明の好適な態様は、以下のように表現され得る。
１．前提
自動演奏システムとは、人間の演奏に対し、機械が合わせて伴奏を生成するシステムである。ここでは、クラシック音楽のように、自動演奏システムと人間それぞれが弾くべき楽譜表現が与えられている自動演奏システムについて論じる。このような自動演奏システムは、音楽演奏の練習支援、または、演奏者に合わせてエレクトロニクスを駆動するような音楽の拡張表現など、幅広い応用がある。なお、以下では、合奏エンジンが演奏するパートのことを「伴奏パート」と呼ぶ。音楽的に整合した合奏を行うためには、伴奏パートの演奏タイミングを適切に制御することが必要である。適切なタイミング制御には、以下に記載する４つの要求がある。

［要求１］原則として、自動演奏システムは、人間の奏者が弾いている場所を弾く必要がある。したがって、自動演奏システムは、再生する楽曲の位置を、人間の演奏者に合わせる必要がある。特にクラシック音楽では、演奏速度(テンポ)の抑揚が音楽表現上重要であるため、演奏者のテンポ変化を追従する必要がある。また、より精度が高い追従を行うために、演奏者の練習(リハーサル)を解析することで、演奏者のクセを獲得することが好ましい。

［要求２］自動演奏システムは、音楽的に整合した演奏を生成すること。つまり、伴奏パートの音楽性が保たれる範囲内で人間の演奏を追従する必要がある。

［要求３］楽曲のコンテキストに応じて、伴奏パートが演奏者に合わせる度合い（主従関係）を変えることが可能であること。楽曲中には、音楽性を多少損なってでも人に合わせるべき場所、または、追従性を損なっても伴奏パートの音楽性を保持すべき場所がある。従って、要求１と要求２でそれぞれ述べた「追従性」と「音楽性」のバランスは楽曲のコンテキストにより変わる。たとえば、リズムが不明瞭なパートは、リズムをよりはっきり刻むパートに追従する傾向がある。

［要求４］演奏者の指示によって、即座に主従関係を変えることが可能であること。追従性と自動演奏システムの音楽性のトレードオフは、リハーサル中に人間同士が対話を通じて調整することが多い。また、このような調整を行った場合、調整を行った箇所を弾き直すことで、調整結果を確認する。したがって、リハーサル中に追従性の挙動を設定できる自動演奏システムが必要である。

これらの要求を同時に満たすためには、演奏者が演奏している位置を追従した上で、音楽的に破綻しないように伴奏パートを生成する必要がある。これらを実現するためには、自動演奏システムは、(1)演奏者の位置を予測するモデル、(2)音楽的な伴奏パートを生成するためのタイミング生成モデル、(3)主従関係を踏まえ、演奏タイミングを補正するモデル、の三要素が必要となる。また、これらの要素は独立して操作もしくは学習できる必要がある。しかし、従来はこれらの要素を独立に扱うことが難しかった。そこで、以下の説明では、(1)演奏者の演奏タイミング生成過程、(2)自動演奏システムが音楽的に演奏できる範囲を表現した演奏タイミング生成過程、(3)自動演奏システムが主従関係を持ちながら演奏者に合わせるための、自動演奏システムと演奏者の演奏タイミングを結合する過程、これら三要素を独立にモデル化し、統合することを考える。独立に表現することにより、個々の要素を独立に学習したり、操作することが可能になる。システム使用時には、演奏者のタイミング生成過程を推論しながら、自動演奏システムが演奏できるタイミングの範囲を推論し、合奏と演奏者のタイミングを協調させるように伴奏パートを再生する。これにより、自動演奏システムは音楽的に破綻しない合奏を、人間に合わせながら演奏することが可能になる。

２．関連技術
従来の自動演奏システムでは、楽譜追従を用いることで演奏者の演奏タイミングを推定する。その上で、合奏エンジンと人間を協調させるため、大きく分けて二つのアプローチが用いられる。第一に、多数のリハーサルを通じて演奏者と合奏エンジンの演奏タイミングに対する関係性を回帰することで、楽曲における平均的な挙動、もしくは時々刻々と変化する挙動、を獲得することが提案されている。このようなアプローチでは、合奏の結果自体を回帰するため、結果的に伴奏パートの音楽性と、伴奏パートの追従性を同時に獲得できる。一方、演奏者のタイミング予測、合奏エンジンの生成過程と、合わせる度合いを切り分けて表現することが難しいため、リハーサル中に追従性または音楽性を独立に操作することは難しいと考えられる。また、音楽的な追従性を獲得するためには、人間同士の合奏データを別途解析する必要があるため、コンテンツ整備にコストがかかる。第二に、少ないパラメータで記述される動的システムを用いることでテンポ軌跡に対して制約を設けるアプローチがある。このアプローチでは、テンポの連続性といった事前情報を設けた上で、リハーサルを通じて演奏者のテンポ軌跡などを学習する。また、伴奏パートは伴奏パートの発音タイミングを別途学習できる。これらは少ないパラメータでテンポ軌跡を記述するため、リハーサル中に伴奏パートまたは人間の「癖」を容易に手動で上書きできる。しかし、追従性を独立に操作することは難しく、追従性は演奏者と合奏エンジンそれぞれが独立に演奏した時における発音タイミングのばらつきから間接的に得られていた。リハーサル中における瞬発力を高めるためには、自動演奏システムによる学習と、自動演奏システムと演奏者との対話を交互に行うことが有効と考えられる。そこで、追従性を独立に操作するため、合奏再生ロジック自体を調整する方法が提案されている。本手法では、このようなアイディアに基づき、「合わせ方」「伴奏パートの演奏タイミング」「演奏者の演奏タイミング」を独立かつ対話的に制御できるような数理モデルを考える。

３．システムの概要
自動演奏システムの構成を図１２に示す。本手法では、演奏者の位置を追従するために、音響信号とカメラ映像に基づき楽譜追従を行う。また、楽譜追従の事後分布から得られた統計情報を元に、演奏者の演奏している位置の生成過程に基づき、演奏者の位置を予測する。伴奏パートの発音タイミングを決定するためには、演奏者のタイミングを予測モデルと、伴奏パートが取りうるタイミングの生成過程を結合することで、伴奏パートのタイミングを生成する。

４．楽譜追従
演奏者が現在弾いている楽曲中の位置を推定するために、楽譜追従を用いる。本システムの楽譜追従手法では、楽譜の位置と演奏されているテンポを同時に表現する離散的な状態空間モデルを考える。観測音を状態空間上の隠れマルコフ過程(hidden Markov model;ＨＭＭ)としてモデル化し、状態空間の事後分布をdelayed-decision型のforward-backwardアルゴリズムで逐次推定する。delayed-decision型のfoward-backwardアルゴリズムとは、forwardアルゴリズムを逐次実行し、現在の時刻がデータの終端と見なしbackwardアルゴリズムを走らせることで、現在の時刻より数フレーム前の状態に対する事後分布を算出することを言う。事後分布のＭＡＰ値が楽譜上でオンセットとみなされる位置を通過した時点で、事後分布のラプラス近似を出力する。

状態空間の構造に関して述べる。まず、楽曲をＲ個の区間に分け、それぞれの区間を一つの状態とする。ｒ番目の区間では、その区間を通過するのに必要なフレーム数ｎと、それぞれのｎに対し、現在の経過フレーム０≦１＜ｎを状態変数として持つ。つまり、ｎはある区間のテンポに相当し、ｒとｌを組み合わせたものが楽譜上の位置に相当する。このような状態空間上の遷移を、次のようなマルコフ過程として表現する。

このようなモデルは、explicit-duration HMMとleft-to-right HMMとの双方の特長を兼備する。すなわち、ｎの選択により、区間内の継続長を大まかに決めつつも、区間内における微小なテンポ変動を自己遷移確率ｐで吸収できる。区間の長さまたは自己遷移確率は、楽曲データを解析して求める。具体的には、テンポ指令またはフェルマータといったアノテーション情報を活用する。

次に、このようなモデルの観測尤度を定義する。それぞれの状態（ｒ,ｎ,ｌ）には、ある楽曲中の位置~ｓ(ｒ,ｎ,ｌ)が対応している。また、楽曲中における任意の位置ｓに対して、観測される定Ｑ変換(ＣＱＴ)とΔＣＱＴの平均値/~ｃ_s ²と/Δ~ｃ_s ²とに加え、精度κ_s ^(c)とκ_s ^(Δc)とがそれぞれ割り当てられる（記号/はベクトルを意味し、記号~は数式内のオーバーラインを意味する）。これらに基づき、時刻tにおいて、ＣＱＴ，ｃ_t，ΔＣＱＴ，Δｃ_tを観測したとき、状態（ｒ_t,ｎ_t,ｌ_t）に対応する観測尤度を以下のように定義する。

ここで、ｖＭＦ(x|μ,κ)とはvon Mises-Fisher分布を指し、具体的には、ｘ∈Ｓ^D（ＳD：Ｄ－１次元単位球面）となるよう正規化して以下の数式で表現される。

~ｃまたはΔ~ｃを決める際には、楽譜表現のピアノロールと、各音から想定されるＣＱＴのモデルを用いる。まず楽譜上に存在する音高と楽器名のペアに対して固有のインデックスｉを割り当てる。また、ｉ番目の音に対して、平均的な観測ＣＱＴω_ifを割り当てる。楽譜上の位置sにおいて、ｉ番目の音の強度をｈ_siと置くと、~ｃ_s,fは次のように与えられる。Δ~ｃは、~ｃ_s,fに対してs方向に一次差分を取り、半波整流することで得られる。

無音の状態から楽曲を開始する際には、視覚情報がより重要になる。そこで、本システムでは、前述の通り、演奏者の前に配置されたカメラから検出された合図動作（キュー）を活用する。本手法では、自動演奏システムをトップダウンに制御するアプローチとは異なり、観測尤度に直接に合図動作の有無を反映させることで、音響信号と合図動作を統一的に扱う。そこで、まず楽譜情報に合図動作が必要とされる箇所｛^ｑ_i｝を抽出する。^ｑ_iには、楽曲の開始地点またはフェルマータの位置が含まれる。楽譜追従を実行中に合図動作を検出した場合、楽譜上の位置Ｕ[^ｑ_i－Τ,^ｑ_i]に対応する状態の観測尤度を０にすることで、合図動作の位置以降に事後分布を誘導する。楽譜追従により、合奏エンジンは、楽譜上で音が切り替わった位置から数フレーム後に、現在推定される位置またはテンポの分布を正規分布として近似したものを受け取る。すなわち、楽譜追従エンジンは、楽曲データ上に存在するn番目の音の切り替わり(以下「オンセットイベント」という)を検出したら、そのオンセットイベントが検出された時刻のタイムスタンプｔ_nと、推定された楽譜上の平均位置μ_nとその分散σ_n ²を合奏タイミング生成部に通知する。なお、delayed-decision型の推定を行うため、通知自体には１００ｍｓの遅延が生じる。

５．演奏タイミング結合モデル
合奏エンジンは、楽譜追従から通知された情報(ｔ_n,μ_n,σ_n ²)を元に、適切な合奏エンジンの再生位置を計算する。合奏エンジンが演奏者に合わせるためには、(1)演奏者が演奏するタイミングの生成過程、(2)伴奏パートが演奏するタイミングの生成過程、(3)演奏者を聞きながら伴奏パートが演奏する過程の三つを独立にモデル化することが好ましい。このようなモデルを使い、伴奏パート生成したい演奏タイミングと、演奏者の予測位置を加味しながら、最終的な伴奏パートのタイミングを生成する。

５.１演奏者の演奏タイミング生成過程
演奏者の演奏タイミングを表現するため、演奏者が、ｔ_nとｔ_n+1の間で楽譜上の位置を、速度ｖ_n ^(p)で直線運動していると仮定する。すなわち、ｘ_n ^(p)をｔ_nでの演奏者が弾いている楽譜上の位置とし、ε_n ^(p)を速度または楽譜上の位置に対するノイズとし、次のような生成過程を考える。ただし、ΔＴ_m,n＝ｔ_m－ｔ_nとする。

ノイズε_n ^(p)は、テンポの変化に加え、アゴーギクまたは発音タイミング誤差が含まれる。前者を表すためには、テンポ変化に応じて発音タイミングも変わることを踏まえ、ｔ_nとｔ_n-1の間を、分散ψ²の正規分布から生成された加速度で遷移するモデルを考える。すると、ε_n ^(p)の共分散行列は、ｈ＝[ΔＴ_n,n-1 ²／２,ΔＴ_n,n-1]とすると、Σ_n ^(p)＝ψ²ｈ’ｈと与えられ、テンポ変化と発音タイミング変化が相関するようになる。また、後者を表すため、標準偏差σ_n ^(p)の白色雑音を考え、σ_n ^(p)をΣ_n,0,0 ^(p)に加算する。したがって、σ_n ^(p)をΣ_n,0,0 ^(p)に加算した行列をΣ_n ^(p)とすると、ε_n ^(p)～Ｎ(０,Σ_n ^(p))と与えられる。Ｎ(a,b)は、平均ａおよび分散ｂの正規分布を意味する。

次に、楽譜追従システムが報告する、ユーザの演奏タイミングの履歴/μ_n＝[μ_n,μ_n-1,…,μ_n-In]と/σ_n ²＝[σ_n,σ_n-1,…,σ_n-In]を、式(3)または式(4)と結びつけることを考える。ここで、Ｉ_nは、考慮する履歴の長さであり、ｔ_nよりも１拍前のイベントまでを含むように設定される。このような/μ_nまたは/σ_n ²の生成過程を次のように定める。

ここで、/Ｗ_nは、ｘ_n ^(p)とｖ_n ^(p)から観測/μ_nを予測するための回帰係数である。ここでは、/Ｗ_nを以下のように定義する。

従来のように、観測値として直近のμ_nを使うのではなく、それ以前の履歴も用いることにより、楽譜追従が一部で失敗しても動作が破綻しにくくなると考えられる。また、/Ｗ_nをリハーサルを通じて獲得することも可能であると考えられ、テンポの増減のパターンといった、長時間の傾向に依存する演奏法にも追従ができるようになると考えられる。このようなモデルは、テンポと楽譜上の位置変化の関係性を明記するという意味では、トラジェクトリＨＭＭのコンセプトを連続状態空間に適用したものに相当する。

５.２伴奏パートの演奏タイミング生成過程
前述したような、演奏者のタイミングモデルを使うことで、演奏者の内部状態［ｘ_n ^(p),ｖ_n ^(p)］を、楽譜追従が報告した位置の履歴から推論することができる。自動演奏システムは、このような推論と、伴奏パートがどのように「弾きたいか」というクセを協調させながら、最終的な発音タイミングを推論する。そこで、ここでは伴奏パートがどのように「弾きたいか」という、伴奏パートにおける演奏タイミングの生成過程について考える。

伴奏パートの演奏タイミングでは、与えられたテンポ軌跡から一定の範囲内のテンポ軌跡で演奏される過程を考える。与えられるテンポ軌跡とは、演奏表情付けシステムまたは人間の演奏データを使うことが考えられる。自動演奏システムがｎ番目のオンセットイベントを受け取ったときに、楽曲上のどの位置を弾いているかの予測値^ｘ_n ^(a)とその相対速度^ｖ_n ^(a)を次のように表現する。

ここで、~ｖ_n ^(a)とは時刻ｔ_nで報告された楽譜上の位置ｎにおいて事前に与えたテンポであり、事前に与えたテンポ軌跡を代入する。また、ε^(a)は、事前に与えたテンポ軌跡から生成された演奏タイミングに対して許容される逸脱の範囲を定める。このようなパラメータにより、伴奏パートとして音楽的に自然な演奏の範囲を定める。β∈［０,１］とは事前に与えたテンポにどれだけ強く引き戻そうとするかを表す項であり、テンポ軌跡を~ｖ_n ^(a)に引き戻そうとする効果がある。このようなモデルはオーディオアラインメントにおいて一定の効果があるため、同一楽曲を演奏するタイミングの生成過程として妥当性があると示唆される。なお、このような制約がない場合（β＝１）、^ｖはウィナー過程に従うため、テンポが発散し、極端に速かったり遅い演奏が生成されうる。

５.３演奏者と伴奏パートの演奏タイミング結合過程
ここまでは、演奏者の発音タイミングと、伴奏パートの発音タイミングをそれぞれ独立にモデル化した。ここでは、これらの生成過程を踏まえた上で、演奏者を聞きながら、伴奏パートが「合わせる」過程について述べる。そこで、伴奏パートが人に合わせる際、伴奏パートが現在弾こうとする位置の予測値と、演奏者の現在位置の予測値の誤差を徐々に補正するような挙動を記述することを考える。以下では、このような、誤差を補正する程度を記述した変数を「結合係数」と呼ぶ。結合係数は、伴奏パートと演奏者の主従関係に影響される。例えば、演奏者が伴奏パートよりも明瞭なリズムを刻んでいる場合、伴奏パートは演奏者に強めに合わせること多い。また、リハーサル中に主従関係を演奏者から指示された場合は、指示されたように合わせ方を変える必要がある。つまり、結合係数は、楽曲のコンテキストまたは演奏者との対話に応じて変わる。そこで、ｔ_nを受け取った際の楽譜位置における結合係数γ_n∈［０,１］が与えられたとき、伴奏パートが演奏者に合わせる過程を以下のように記述する。

このモデルでは、γ_nの大小に応じて、追従度合いが変わる。例えば、γ_n＝０の時は、伴奏パートは演奏者に一切合わせず、γ_n＝１の時は、伴奏パートは演奏者に完璧に合わせようとする。このようなモデルでは、伴奏パートが演奏しうる演奏^ｘ_n ^(a)の分散と、演奏者の演奏タイミングｘ_n ^(p)における予測誤差も結合係数によって重み付けられる。そのため、ｘ^(a)またはｖ^(a)の分散は演奏者の演奏タイミング確率過程自体と、伴奏パートの演奏タイミング確率過程自体が協調されたものになる。そのため、演奏者と自動演奏システム、両者が「生成したい」テンポ軌跡を自然に統合できていることがわかる。

β＝０.９における、本モデルのシミュレーションを図１３に示す。このようにγを変えることで、伴奏パートのテンポ軌跡(正弦波)と、演奏者のテンポ軌跡(ステップ関数)の間を補完できることが分かる。また、βの影響により、生成されたテンポ軌跡は、演奏者のテンポ軌跡よりも伴奏パートの目標とするテンポ軌跡に近づけるようになっていることが分かる。つまり、~ｖ^(a)よりも演奏者が速い場合は演奏者を「引っ張り」、遅い場合は演奏者を「急かす」ような効果があると考えられる。

５.４結合係数γの算出方法
結合係数γ_nに表すような演奏者同士の同期度合いは、いくつかの要因により設定される。まず、楽曲中のコンテキストに主従関係が影響される。例えば、合奏をリードするのは、分かりやすいリズムを刻むパートであることが多い。また、対話を通じて主従関係を変えることもある。楽曲中のコンテキストから主従関係を設定するため、楽譜情報から、音の密度φ_n＝［伴奏パートに対する音符密度の移動平均、演奏者パートに対する音符密度の移動平均］を算出する。音の数が多いパートの方が、テンポ軌跡を決めやすいため、このような特徴量を使うことで近似的に結合係数を抽出できると考えられる。このとき、伴奏パートが演奏を行っていない場合（φ_n,0＝０）、合奏の位置予測は演奏者に完全に支配され、また、演奏者が演奏を行わない箇所（φ_n,1＝０)では、合奏の位置予測は演奏者を完全に無視するような挙動が望ましい。そこで、次のようにγ_nを決定する。

ただし、ε＞０は十分に小さい値とする。人間同士の合奏では、完全に一方的な主従関係（γ_n＝０またはγ_n＝１）は発生しにくいのと同様に、上式のようなヒューリスティックは、演奏者と伴奏パートどちらも演奏している場合は完全に一方的な主従関係にはならない。完全に一方的な主従関係は、演奏者・合奏エンジンどちらかがしばらく無音である場合のみ起こるが、このような挙動はむしろ望ましい。

また、γ_nはリハーサル中など、必要に応じて、演奏者またはオペレータが上書きすることができる。γ_nの定義域が有限であり、かつその境界条件での挙動が自明であること、または、γ_nの変動に対し挙動が連続的に変化することは、リハーサル中に適切な値を人間が上書きする上で望ましい特性であると考えられる。

５.５オンライン推論
自動演奏システムの運用時は、（ｔ_n,μ_n,σ_n ²）を受け取ったタイミングで、前述の演奏タイミングモデルの事後分布を更新する。提案手法はカルマンフィルタを用いて効率的に推論することができる。（ｔ_n,μ_n,σ_n ²）が通知された時点でカルマンフィルタのpredictとupdateステップを実行し、時刻ｔにおいて伴奏パートが演奏すべき位置を以下のように予測する。

ここでτ^(s)とは、自動演奏システムにおける入出力遅延である。なお、本システムでは、伴奏パート発音時にも状態変数を更新する。つまり、前述したように、楽譜追従結果に応じてpredict/updateステップを実行することに加え、伴奏パートが発音した時点で、predictステップのみを行い、得られた予測値を状態変数に代入する。

６．評価実験
本システムを評価するため、まず演奏者の位置推定精度を評価する。合奏のタイミング生成に関しては、合奏のテンポを規定値に引き戻そうとする項であるβ、または、伴奏パートを演奏者にどれだけ合わせるかの指標であるγの有用性を、演奏者へのヒアリングを行うことで評価する。

６.１楽譜追従の評価
楽譜追従精度の評価を行うため、Bergmullerのエチュードに対する追従精度を評価した。評価データとして、Bergmullerのエチュード(Op.100)のうち、14曲(1番，4番-10番，14番，15番，19番，20番，22番，23番)をピアニストが演奏したデータを収録したものを使い、譜面追従精度を評価した。なお、この実験ではカメラの入力は使用しなかった。評価尺度にはＭＩＲＥＸに倣い、Total precisionを評価した。Total precisionとは、アラインメントの誤差がある閾値τに収まる場合を正解とした場合の、コーパス全体に対する精度を示す。

まず、delayed-decision型の推論に関する有用性を検証するため、delayed-decision forward backwardアルゴリズムにおける遅延フレーム量に対するtotal precision(τ＝３００ｍｓ)を評価した。結果を図１４に示す。数フレーム前の結果の事後分布を活用することで精度が上がることが分かる。また、遅延量が２フレームを超えると精度は徐々に下がることも分かる。また、遅延量２フレームの場合、τ＝１００ｍｓでtotal precision＝８２％、τ＝５０ｍｓで６４％であった。

６.２演奏タイミング結合モデルの検証
演奏タイミング結合モデルの検証は、演奏者へのヒアリングを通じて行った。本モデルの特徴としては、合奏エンジンが想定テンポに引き戻そうとするβと、結合係数γの存在であり、これら両者についての有効性を検証した。まず、結合係数の影響を外すため、式(4)をｖ_n ^(p)＝βｖ_n-1 ^(p)＋(１－β)~ｖ_n ^(a)とし、ｘ_n ^(a)＝ｘ_n ^(p)、ｖ_n ^(a)＝ｖ_n ^(p)としたシステムを用意した。つまり、テンポの期待値が^ｖにあり、その分散がβにより制御されるようなダイナミクスを仮定しながら、楽譜追従の結果をフィルタリングした結果を直接伴奏の演奏タイミング生成に使うような合奏エンジンを考えた。まず、β＝０に設定した場合の自動演奏システムを、ピアニスト６名に一日間利用してもらったあと、使用感に関してヒアリングを行った。対象曲はクラシック・ロマン派・ポピュラーなど幅広いジャンルの曲から選曲した。ヒアリングでは、合奏に人間が合わせようとすると、伴奏パートも人間に合わせようとし、テンポが極端に遅くなったり速くなるという不満が支配的であった。このような現象は、式(12)におけるτ^(s)が不適切に設定されていることにより、システムの応答が演奏者と微妙に合わない場合に発生する。例えば、システムの応答が想定よりも少し早い場合、ユーザは少し早めに返されるシステムに合わせようとするため、テンポを上げる。その結果、そのテンポに追従するシステムが更に早めに応答を返すことで、テンポが加速し続ける。

次に、β＝０.１で同じ曲目を使って別のピアニスト５名と、β＝０の実験にも参加したピアニスト１名で実験を行った。β＝０の場合と同じ質問内容でヒアリングを行ったが、テンポが発散する問題は聞かれなかった。また、β＝０でも実験に協力したピアニストからも追従性が改善しているというコメントがあった。ただし、演奏者がある曲に対して想定しているテンポと、システムが引き戻そうとするテンポに大きな齟齬がある場合、システムがもたつく・急かす、といったコメントが聞かれた。この傾向は特に未知の曲を弾く場合、つまり演奏者が「常識的な」テンポを知らない場合、において見られた。このことから、システムが一定のテンポに引き込もうとする効果により、テンポの発散を未然に防ぐ一方で、伴奏パートとテンポに関する解釈が極端に異なる場合、伴奏パートに煽られるような印象を受けることが示唆された。また、追従性に関しては、楽曲のコンテキストに応じて変えたほうがよいことも示唆された。なぜならば、楽曲の特性よって「引っ張ってもらったほうがいい」「もっと合わせて欲しい」といった、合わせ方の度合いに関する意見がほぼ一貫したためである。

最後に、プロの弦カルテットにγ＝０に固定したシステムと、演奏のコンテキストに応じてγを調整したシステムを使ってもらったところ、後者の方が挙動が良いというコメントがあり、その有用性が示唆された。ただし、この検証では後者のシステムが改善後のシステムであることを被験者が知っていたため、好適にはＡＢ法などを使い追加検証する必要がある。また、リハーサル中の対話に応じてγを変更する局面がいくつか存在したため、結合係数をリハーサル中で変更することが有用であると示唆された。

７．事前の学習処理
演奏者の「癖」を獲得するため、楽譜追従から算出された時刻ｔでのＭＡＰ状態^ｓ_tと、その入力特徴系列｛ｃ_t｝^T _t=1をもとに、ｈ_siとω_ifおよびテンポ軌跡を推定する。ここでは、これらの推定方法について簡単に述べる。ｈ_siとω_ifの推定においては、次のようなPoisson-Gamma 系のInformed NMFモデルを考え、事後分布を推定する。

ここで現れる超パラメータは楽器音データベースまたは楽譜表現のピアノロールから適当に算出する。事後分布は、変分ベイズ法で近似的に推定する。具体的には、事後分布ｐ(ｈ,ω|c)をｑ(h)ｑ(w)という形で近似し、事後分布とｑ(h)ｑ(w)の間のＫＬ距離を、補助変数を導入しながら最小化する。このようにして推定された事後分布から、楽器音の音色に相当するパラメータωのＭＡＰ推定を保存し、以降のシステム運用で使う。なお、ピアノロールの強さに相当するｈを使うことも可能である。

続いて、演奏者がそれぞれの楽曲上の区間を演奏する長さ(すなわちテンポ軌跡)を推定する。テンポ軌跡を推定すると演奏者特有のテンポ表現を復元できるため、演奏者の位置予測が改善される。一方、リハーサルの回数が少ない場合は推定誤差などによりテンポ軌跡の推定が誤り、位置予測の精度がむしろ悪化する可能性もある。そこで、テンポ軌跡を変更する際には、テンポ軌跡に関する事前情報をまず持たせ、演奏者のテンポ軌跡が事前情報から一貫して逸脱している場所のテンポのみを変えることを考える。まず、演奏者のテンポがどれだけばらつくかを計算する。ばらつき度合いの推定値自体もリハーサルの回数が少ないと不安定になるため、演奏者のテンポ軌跡の分布自体にも事前分布を持たせる。演奏者が楽曲中の位置ｓにおけるテンポの平均μ_s ^(p)と分散λ_s ^(p)とがＮ(μ_s ^(p)|ｍ₀,ｂ₀λ_s ^(p)-1)Gamma(λ_s ^(p)-1|ａ₀ ^λ,ｂ₀ ^λ)に従うとする。すると、Ｋ回の演奏から得られたテンポの平均がμ_s ^(R)、精度（分散）がλ_s ^(R)-1であったとすると、テンポの事後分布は以下のように与えられる。

このようにして得られた事後分布を、楽曲中の位置ｓで取りうるテンポの分布Ｎ(μ_s ^S,λ_s ^S-1)から生成された分布とみなした場合の事後分布を求めると、その平均値は以下のように与えられる。

このようにして算出されたテンポを元に、式(3)または式(4)で用いられるεの平均値を更新する。

＜第３実施形態＞
本発明の第３実施形態を説明する。本実施形態では、自動演奏システム１００は、演奏者Ｐによる合図動作を認識して演奏を行う。なお、以下に例示する各形態において作用または機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

本実施形態における合図動作は、特に、演奏者Ｐの顔の動きにより行われる動作を前提する。本実施形態における合図動作は、イベントを発生させるタイミングを動作により表現するものである。ここでのイベントは、演奏における様々な挙動であり、例えば、発音の開始、終了、テンポの周期などを示すタイミングである。本実施形態における合図動作は、例えば、合図を送る相手の方向に視線を向けて、頷いたり、相槌を打ったり、軽く息を吸い込むように顔を振り上げたりする動作である。

図１５は、第３の実施形態の検出処理部５２４の構成の例を示すブロック図である。検出処理部５２４は、例えば、取得部５２４０と、判定部５２４１と、推定部５２４２と、出力部５２４３と、顔部分抽出モデル５２４４と、合図動作推定モデル５２４５とを備える。

取得部５２４０は、画像情報を取得する。画像情報は、演奏者Ｐによる演奏の様子が撮像された画像の情報であって、例えば、画像合成部５２２により生成された画像信号Ｖを含む情報である。

本実施形態において、画像情報は、デプス情報を含む情報である。デプス情報は、画像における画素ごとの、所定の位置（例えば、撮像位置）から被写体までの距離を示す情報である。この場合、収録装置２２における複数の撮像装置２２２には、少なくとも一のデプスカメラが含まれる。デプスカメラは、被写体までの距離を測定する測距センサであって、例えば、赤外線などの光線を照射し、照射した光線が被写体に反射した反射光を受光するまでに要した時間に基づいて、被写体までの距離を測定する。或いは、複数の撮像装置２２２に、ステレオカメラが含まれていてもよい。ステレオカメラは、複数の互いに異なる方向から被写体を撮像することにより被写体までの奥行値（デプス情報）を算出する。

取得部５２４０は、所定の時間間隔で繰り返し画像情報を取得する。なお、ここでの所定の時間間隔は任意であり、周期的であっても、ランダムであっても、これらが混在していてもよい。取得部５２４０は、取得した画像情報を、判定部５２４１に出力する。

判定部５２４１は、取得部５２４０から取得した画像情報に基づいて、画像情報に示される画像（以下、撮像画像という）に、人の目を含む顔部分（以下、顔部分という）を、抽出する。

具体的に、判定部５２４１は、まず、撮像画像から背景を分離する。判定部５２４１は、例えば、画素のデプス情報を用いて、被写体までの距離が所定の閾値より大きい画素を背景と判定し、被写体までの距離までの所定の閾値より小さい領域を抽出することにより、撮像画像から背景を分離する。この場合において、判定部５２４１は、被写体までの距離までの所定の閾値より小さい領域であっても、その領域の面積が所定の閾値より小さい領域を背景と判定するようにしてもよい。

次に、判定部５２４１は、背景を分離した画像と、顔部分抽出モデル５２４４とを用いて、顔部分を抽出する。顔部分抽出モデル５２４４は、学習モデルに教師データを学習させることにより作成された学習済みモデルである。学習モデルは、例えば、ＣＮＮ（Convolutional Neural Network）である。教師データは、人の目を含む顔部分が撮像された学習用画像と、前記学習用画像における人の顔部分が判定された判定結果とを対応付けたデータ（データセット）である。教示データを学習することにより、顔部分抽出モデル５２４４は、入力された画像から、その画像における人の顔部分を推定し、推定結果を出力するモデルとなる。判定部５２４１は、取得部５２４０から取得した画像情報を、顔部分抽出モデル５２４４に入力して得られた出力に基づいて、顔部分を抽出する。

次に、判定部５２４１は、撮像画像から抽出した顔部分の画像（以下、抽出画像という）に基づいて、当該顔部分の動きを検出する。判定部５２４１は、例えば、抽出画像を、時系列に順に比較することにより、顔部分の動きを検出する。判定部５２４１は、例えば、抽出画像における特徴点を抽出し、抽出した特徴点の位置座標における時系列に変化に基づいて顔部分の動きを検出する。ここでの特徴点は、顔部分の特徴的な箇所を示す点であり、例えば、目頭、眉尻等である。抽出画像に目以外の部分が含まれていれば、口角などを特徴点として抽出してもよい。

判定部５２４１は、抽出画像に基づいて、視線の方向を検出する。判定部５２４１は、抽出画像における目の領域を抽出する。目の領域を抽出する方法は任意であってよいが、例えば、顔部分抽出モデル５２４４と同様な学習済みモデルを用いてもよいし、他の画像処理の手法を用いてもよい。例えば、判定部５２４１は、顔の向きに基づいて視線の方向を判定する。通常、演奏者Ｐは、合図する相手の方向に顔を向けて相手を見て合図すると考えられるためである。判定部５２４１は、左右の目や眉など、顔の上下方向の中心線に対して左右対称な部分のデプス情報に基づいて、顔における左右方向の向きを判定する。判定部５２４１は、例えば、左右の目それぞれの距離の差分が所定の閾値より小さく、左右の目がデプスカメラからほぼ等距離にあると見なせる場合、デプスカメラに対して顔が正面を向いており、その正面の方向に視線の方向があると判定する。上下方向の向きについても同様な方法で判定することができる。

判定部５２４１は、検出した結果を用いてイベントのタイミングを示す合図動作に関連する予備動作が行われているか否かを判定する。予備動作は、合図動作における一部の動作、或いは合図動作に繋がる動作であり、合図動作において示される発音の開始等のタイミングの前に行われる予備的な動作である。予備動作は、例えば、頷くことにより合図動作が行われる場合には、顔を上げる動作（以下、ｃｕｅ－ｕｐともいう）の前に行われる、顔を下げる動作（以下、ｃｕｅ－ｄｏｗｎともいう）である。或いは、予備動作は、軽く息を吸い込むように顔を上げることにより合図動作が行われる場合には、顔を上げる前に行われる、息を吐く動作である。

判定部５２４１は、例えば、顔部分の動きが頷きを示す上下の方向に沿った方向（「第１方向」の一例）であり、且つ、視線の方向が合図する相手の方向（「第２方向」の一例）である場合に、予備動作が行われていると判定する。判定部５２４１は、予備動作の判定結果を推定部５２４２に出力する。

推定部５２４２は、判定部５２４１の判定結果に基づいて、予備動作が示された画像から、イベントが発生するタイミングを推定する。推定部５２４２は、例えば、予備動作を含む一連の動作の流れを示す画像群と、合図動作推定モデル５２４５とを用いて、イベントが発生するタイミングを推定する。合図動作推定モデル５２４５は、学習モデルに教師データを学習させることにより作成された学習済みモデルである。学習モデルは、例えば、ＬＳＴＭ（Long Short-Term Memory）である。教師データは、人の目を含む顔部分が撮像された時系列の学習用画像と、前記学習用画像における合図動作が判定された判定結果とを対応付けたデータ（データセット）である。ここでの合図動作には、合図動作を判定するための種々の動作が含まれてよく、例えば、合図動作（ｃｕｅ－ｕｐ）、予備動作（ｃｕｅ－ｄｏｗｎ）、視線が特定の方向を見ている、見ていない等の動作が含まれる。教示データを学習することにより、合図動作推定モデル５２４５は、入力された時系列画像群から、その一連の画像における次の画像に示される動作を推定し、推定結果を出力するモデルとなる。判定部５２４１は、備動作を含む一連の動作の流れを示す画像群を、顔部分抽出モデル５２４４に入力して得られた出力に基づいて、イベントを発生させるタイミングを推定する。

出力部５２４３は、推定部５２４２により推定されたイベントを発生させるタイミングを示す情報を出力する。

顔部分抽出モデル５２４４は、人の目を含む顔部分が撮像された学習用画像と、学習用画像における人の顔部分が判定された判定結果とを対応付けたデータセットを教師データとして、入力された画像における人の顔部分を出力するように学習されたモデルである。

合図動作推定モデル５２４５は、人の目を含む顔部分が撮像された学習用画像と、学習用画像における合図動作が判定された判定結果とを対応付けたデータセットを教師データとして、入力された画像において前記合図動作が行われるかを出力するように学習されたモデルである。

図１６は、検出処理部５２４が行う処理の流れを示すフローチャートである。
取得部５２４０は、画像情報を取得する。取得部５２４０は、取得した画像情報を判定部５２４１に出力する（ステップＳ１０）。
判定部５２４１は、画像情報に基づいて、画像における顔部分が撮像された領域を抽出し（ステップＳ１１）、抽出した画像に基づいて、顔部分の動き、及び視線の方向を検出する。判定部５２４１は、検出結果に基づいて、顔部分の動きが所定の方向であるか否かを判定する（ステップＳ１２）。また、判定部５２４１は、視線の方向が特定の方向（図１６では、カメラ方向）であるか否かを判定する（ステップＳ１３）。判定部５２４１は、顔部分に動き、及び視線の方向に基づいて、合図動作に関連する予備動作が行われる画像か否かを判定し、判定結果を、推定部５２４２に出力する。
推定部５２４２は、判定部５２４１により予備動作が行われていると判定された画像の画像情報に基づいて、イベントを発生させるタイミングを推定する（ステップＳ１４）。推定部５２４２は、例えば、予備動作を含む一連の時系列画像群と、合図動作推定モデル５２４５とを用いて、次に行われる動作を推定させることにより、イベントを発生させるタイミングを推定する。推定部５２４２は、推定結果を出力部５２４３に出力する。
出力部５２４３は、推定部５２４２により推定された推定結果を出力する。出力部５２４３は、例えば、推定されたイベントを発生させるタイミングに応じた演奏開始信号を出力する（ステップＳ１５）。

以上説明した通り、第３の実施形態の自動演奏システム１００（制御システム）は、取得部５２４０と、判定部５２４１と、推定部５２４２と、出力部５２４３とを備える。取得部５２４０は、画像情報を取得する。判定部５２４１は、画像情報に基づいて、画像情報に示される撮像画像に人の目を含む顔部分が撮像されている場合に、当該顔部分の動きと、当該人の視線の方向を検出し、前記検出した結果を用いて、イベントを発生させるタイミングを示す合図動作に関連する予備動作が行われているか否かを判定する。推定部５２４２は、判定部５２４１により予備動作が行われていると判定された場合、画像情報に基づいて、イベントを発生させるタイミングを推定する。出力部５２４３は、推定部５２４２により推定された推定結果を出力する。

これにより、第３の実施形態の自動演奏システム１００は、顔の動きに基づいてイベントを発生させるタイミングを推定することができる。すなわち、楽曲の演奏におけ、発音の開始タイミング、フェルマータの復帰タイミング、楽曲の最後の音の発音及び停止のタイミング合わせ等、アイコンタクトによる合図が想定される局面において、演奏者Ｐが顔の動き、及び視線方向により示される合図動作に基づいて、自動演奏システム１００による演奏を制御することが可能である。

第３の実施形態では、目を含む顔部分が撮像された画像を用いて推定を行う。このため、管楽器などの演奏者Ｐが撮像された画像において、演奏者Ｐの顔の一部が楽器などにより隠れてしまう（オクルージョンが発生する）場合であっても、演奏の過程でオクルージョンが発生し難い目の周辺部分を用いて合図動作を認識し、ベントを発生させるタイミングを推定することができる。したがって、演奏において様々な動作が行われた場合であっても頑健に推定することが可能である。
第３の実施形態では、顔部分の動きと、視線の方向との両方を用いて推定を行う。このため、演奏者Ｐが演奏に集中するあまり顔や体を動かす動作と、合図動作とを区別することができるため、顔部分の動きのみで推定する場合と比較して推定の精度を向上させることができる。

また、第３の実施形態の自動演奏システム１００では、推定部５２４２は、合図動作推定モデル５２４５を用いて、イベントを発生させるタイミングを推定する。これにより、複雑な画像処理を行うことなく、画像をモデルに入力させるという簡単な方法で推定を行うことができる。したがって、複雑な画像処理を行う場合と比較して処理負担の軽減や処理時間の短縮が期待できる。また、合図動作推定モデル５２４５に学習させる教示データにより、発音の開始、テンポの周期など、様々なイベントについて、そのタイミングを推定させることができ、任意のイベントに対応可能である。

また、第３の実施形態の自動演奏システム１００では、判定部５２４１は、画像情報に基づいて、前記顔部分の動きが頷くような上下方向に沿った方向（特定の第１方向）であり、且つ、視線の方向が合図する相手の方向（特定の第２方向）である場合に、予備動作が行われていると判定する。これにより、合図動作における特徴的な、特定の方向の動き、視線の方向に基づいて判定を行うことができ、精度を向上させることが可能である。

また、第３の実施形態の自動演奏システム１００では、判定部５２４１は、顔部分抽出モデル５２４４を用いて、前記顔部分の動きを検出する。これにより、上述した効果と同様の効果を奏する。

また、第３の実施形態の自動演奏システム１００では、記画像情報は、画像における画素ごと被写体との距離を示すデプス情報を含み、判定部５２４１は、デプス情報に基づいて、撮像画像における背景を分離して画像における顔部分を抽出する。顔に示す目の領域は比較的狭い領域であるため、画像から抽出した目の領域における画素数は、他の領域と比較して少ない。また、目は、他の部位と比較して形状や色が複雑である。このため、目の領域を正確に抽出できた場合であっても、他の領域と比較してノイズが混在し易い。このため目の領域を抽出した画像を画像処理することにより顔の向きを検出しようとしても精度よく抽出することが困難となる。これに対し、本実施形態ではデプス情報を用いている。デプス情報は、目の周辺であっても色情報などと比較して複雑に変化することはない。このため、目の周辺のデプス情報（深度情報）に基づいて、顔の向きを精度よく検出することが可能である。また、撮像装置２２２から演奏者Ｐまでのおおよその距離は、事前に把握することができる。このため、デプス情報を用いれは、輪郭抽出など複雑な画像処理を行うことなく、背景を容易に分離して演奏者Ｐを抽出することができる。背景の画素を、解析の対象から除外することにより、処理の高速化だけでなく、誤検出の軽減も期待できる。

なお、上記では、画像情報に基づいて視線の方向を検出する場合を例示して説明したが、これに限定されない。例えば、アイトラッキング等、眼球に照射した赤外線の反射光に基づいて検出した角膜と瞳孔との相対的な位置関係を用いて、視線の方向を検出するようにしてもよい。

また、第３の実施形態の自動演奏システム１００を用いて、合奏用のエージェントが反応するようにしてもよい。例えば、演奏者Ｐが、カメラが搭載されたロボットを注視すると、ロボットが演奏者Ｐを見る動作を行うようにしてもよい。さらに、演奏者Ｐが、合図動作（例えば、ｃｕｅ－ｕｐ）や予備動作（例えば、ｃｕｅ－ｄｏｗｎ）を行うと、その動作に合わせてロボットも相槌を打つ。これにより、演奏者Ｐに対して自動演奏システム１００が同調している演出を行うことができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１００…自動演奏システム、１２…制御装置、２２…収録装置、２２２…撮像装置、５２…合図検出部、５２２…画像合成部、５２４…検出処理部、５２４０…取得部、５２４１…判定部、５２４２…推定部、５２４３…出力部、５２４４…顔部分抽出モデル、５２４５…合図動作推定モデル

Claims

経時的に撮影されたユーザを含む画像情報を取得する取得部と、
前記画像情報から検出した前記ユーザの顔の動きと視線の方向に基づいて、イベントを発生させるタイミングを示す合図動作に関連する予備動作が行われているか否かを判定する判定部と、
前記予備動作が行われていると判定した場合に、イベントを発生させるタイミングを推定する推定部と、
前記推定部により推定された推定結果を出力する出力部と、
を備える制御システム。
画像情報を取得する取得部と、
前記画像情報に基づいて、前記画像情報に示される撮像画像における顔部分の動きと、視線の方向を検出し、前記検出した結果を用いて、イベントを発生させるタイミングを示す合図動作に関連する予備動作が行われているか否かを判定する判定部と、
前記判定部により前記予備動作が行われていると判定された場合、前記画像情報に基づいて、前記合図動作によりイベントを発生させるタイミングを推定する推定部と、
前記推定部により推定された推定結果を出力する出力部と、
を備える制御システム。
前記推定部は、人の目を含む顔部分が撮像された学習用画像と、前記学習用画像におけるイベントを発生させるタイミングを示す合図動作が判定された判定結果とを対応付けたデータセットを教師データとして、入力された画像において前記合図動作が行われるかを出力するように学習された合図動作推定モデルの出力結果を用いて、イベントを発生させるタイミングを推定する、
請求項１又は請求項２に記載の制御システム。
イベントを発生させるタイミングを示す合図動作により示されるイベントは、発音の開始であり、
前記推定部は、発音の開始を示す、人の目を含む顔部分の動きを前記合図動作として、画像と前記合図動作との関係を学習した学習結果を示す合図動作推定モデルを用いて、発音の開始を示すタイミングを推定する、
請求項１から請求項３のいずれか一項に記載の制御システム。
イベントを発生させるタイミングを示す合図動作により示されるイベントは、演奏におけるテンポの周期であり、
前記推定部は、演奏におけるテンポの周期を示す、人の目を含む顔部分の動きを前記合図動作として、画像と前記合図動作との関係を学習した学習結果を示す合図動作推定モデルを用いて、演奏におけるテンポの周期を示すタイミングを推定する、
請求項１から請求項４のいずれか一項に記載の制御システム。
前記判定部は、前記画像情報に基づいて、人の目を含む顔部分の動きが特定の第１方向であり、且つ、前記視線の方向が特定の第２方向である場合に、前記予備動作が行われていると判定する、
請求項１から請求項５のいずれか一項に記載の制御システム。
前記判定部は、人の目を含む顔部分が撮像された学習用画像と、前記学習用画像における前記顔部分が判定された判定結果とを対応付けたデータセットを教師データとして、入力された画像における人の顔部分を出力するように学習された顔部分抽出モデルの出力結果を用いて、前記画像情報に示される撮像画像における前記顔部分を抽出し、前記抽出した顔部分の画像に基づいて、前記顔部分の動きを検出する、
請求項１から請求項６のいずれか一項に記載の制御システム。
前記画像情報は、画像における画素ごとの被写体との距離を示すデプス情報を含み、
前記判定部は、前記デプス情報に基づいて、前記画像情報に示される撮像画像における背景を分離し、前記背景を分離した画像に基づいて、当該画像における、人の目を含む顔部分を抽出する、
請求項１から請求項７のいずれか一項に記載の制御システム。
取得部が、画像情報を取得し、
判定部が、前記画像情報に基づいて、前記画像情報に示される撮像画像における顔部分の動きと、視線の方向を検出し、前記検出した結果を用いて、イベントを発生させるタイミングを示す合図動作に関連する予備動作が行われているか否かを判定し、
推定部が、前記判定部により前記予備動作が行われていると判定された場合、前記画像情報に基づいて、前記合図動作によりイベントを発生させるタイミングを推定し、
出力部が、前記推定部により推定された推定結果を出力する、
制御方法。
コンピュータに、
経時的に撮影されたユーザを含む画像情報を取得させ、
前記画像情報から検出した前記ユーザの顔の動きと視線の方向に基づいて、イベントを発生させるタイミングを示す合図動作に関連する予備動作が行われているか否かを判定させ、
前記予備動作が行われていると判定した場合に、イベントを発生させるタイミングを推定させ、
前記推定された推定結果を出力させる、
処理を実行させる、プログラム。