JP7383943B2 - 制御システム、制御方法、及びプログラム - Google Patents

制御システム、制御方法、及びプログラム Download PDF

Info

Publication number
JP7383943B2
JP7383943B2 JP2019163227A JP2019163227A JP7383943B2 JP 7383943 B2 JP7383943 B2 JP 7383943B2 JP 2019163227 A JP2019163227 A JP 2019163227A JP 2019163227 A JP2019163227 A JP 2019163227A JP 7383943 B2 JP7383943 B2 JP 7383943B2
Authority
JP
Japan
Prior art keywords
performance
image
motion
signal
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019163227A
Other languages
English (en)
Other versions
JP2021043258A (ja
Inventor
陽 前澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2019163227A priority Critical patent/JP7383943B2/ja
Priority to US16/729,676 priority patent/US10846519B2/en
Priority to CN202010876140.0A priority patent/CN112466266B/zh
Publication of JP2021043258A publication Critical patent/JP2021043258A/ja
Application granted granted Critical
Publication of JP7383943B2 publication Critical patent/JP7383943B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/171Transmission of musical instrument data, control or status information; Transmission, remote access or control of music data for electrophonic musical instruments

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Acoustics & Sound (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本発明は、制御システム、制御方法、及びプログラムに関する。
楽曲を演奏した音の解析により、楽曲内で現に演奏されている位置(以下「演奏位置」という)を推定するスコアアライメント技術が従来から提案されている(例えば特許文献1)。
特開2015-79183号公報
ところで、演奏者と自動演奏楽器等とが合奏をする合奏システムにおいては、例えば、演奏者による演奏の楽譜上における位置の推定結果に基づいて、自動演奏楽器が次の音を発音するイベントのタイミングを予想する処理が行われる。しかし、実際の人と人との合奏においては、楽曲の開始や、フェルマータの復帰、楽曲の最後の音の発音などを合せる際に、アイコンタクト等の合図動作によりタイミングを合わせている場合がある。
本発明は、このような状況に鑑みてなされたもので、その目的は、顔の動きに基づいてイベントを発生させるタイミングを推定することができる制御システム、制御方法、及びプログラムを提供することである。
上述した課題を解決するために、本発明の一態様は、経時的に撮影されたユーザを含む画像情報を取得する取得部と、前記画像情報から検出した前記ユーザの顔の動きと視線の方向に基づいて、イベントを発生させるタイミングを示す合図動作に関連する予備動作が行われているか否かを判定する判定部と、前記予備動作が行われていると判定した場合に、イベントを発生させるタイミングを推定する推定部と、前記推定部により推定された推定結果を出力する出力部と、を備える制御システムである。
上述した課題を解決するために、本発明の一態様は、画像情報を取得する取得部と、前記画像情報に基づいて、前記画像情報に示される撮像画像における顔部分の動きと、視線の方向を検出し、前記検出した結果を用いて、イベントを発生させるタイミングを示す合図動作に関連する予備動作が行われているか否かを判定する判定部と、前記判定部により前記予備動作が行われていると判定された場合、前記画像情報に基づいて、前記合図動作によりイベントを発生させるタイミングを推定する推定部と、前記推定部により推定された推定結果を出力する出力部と、を備える制御システムである。
また、本発明の一態様は、取得部が、画像情報を取得し、判定部が、前記画像情報に基づいて、前記画像情報に示される撮像画像における顔部分の動きと、視線の方向を検出し、前記検出した結果を用いて、イベントを発生させるタイミングを示す合図動作に関連する予備動作が行われているか否かを判定し、推定部が、前記判定部により前記予備動作が行われていると判定された場合、前記画像情報に基づいて、前記合図動作によりイベントを発生させるタイミングを推定し、出力部が、前記推定部により推定された推定結果を出力する、制御方法である。
本発明によれば、顔の動きに基づいて顔の動きに基づいてイベントを発生させるタイミングを推定することができる。
本発明の実施形態に係る自動演奏システムのブロック図である。 合図動作および演奏位置の説明図である。 画像合成部による画像合成の説明図である。 演奏対象曲の演奏位置と自動演奏の指示位置との関係の説明図である。 合図動作の位置と演奏対象曲の演奏の始点との関係の説明図である。 演奏画像の説明図である。 演奏画像の説明図である。 制御装置の動作のフローチャートである。 第2実施形態における解析処理部のブロック図である。 第2実施形態における解析処理部の動作の説明図である。 第2実施形態における解析処理部の動作のフローチャートである。 自動演奏システムのブロック図である。 演奏者の発音タイミングと伴奏パートの発音タイミングとのシミュレーション結果である。 自動演奏システムの評価結果である。 第3実施形態における検出処理部524のブロック図である。 第3実施形態における検出処理部524の動作のフローチャートである。
<第1実施形態>
図1は、本発明の第1実施形態に係る自動演奏システム100のブロック図である。自動演奏システム100は、複数の演奏者Pが楽器を演奏する音響ホール等の空間に設置され、複数の演奏者Pによる楽曲(以下「演奏対象曲」という)の演奏に並行して演奏対象曲の自動演奏を実行するコンピュータシステムである。なお、演奏者Pは、典型的には楽器の演奏者であるが、演奏対象曲の歌唱者も演奏者Pであり得る。すなわち、本出願における「演奏」には、楽器の演奏だけでなく歌唱も包含される。また、実際には楽器の演奏を担当しない者(例えば、コンサート時の指揮者またはレコーディング時の音響監督など)も、演奏者Pに含まれ得る。
図1に例示される通り、本実施形態の自動演奏システム100は、制御装置12と記憶装置14と収録装置22と自動演奏装置24と表示装置26とを具備する。制御装置12と記憶装置14とは、例えばパーソナルコンピュータ等の情報処理装置で実現される。
制御装置12は、例えばCPU(Central Processing Unit)等の処理回路であり、自動演奏システム100の各要素を統括的に制御する。記憶装置14は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体、あるいは複数種の記録媒体の組合せで構成され、制御装置12が実行するプログラムと制御装置12が使用する各種のデータとを記憶する。なお、自動演奏システム100とは別体の記憶装置14(例えばクラウドストレージ)を用意し、移動体通信網またはインターネット等の通信網を介して制御装置12が記憶装置14に対する書込および読出を実行してもよい。すなわち、記憶装置14は自動演奏システム100から省略され得る。
本実施形態の記憶装置14は、楽曲データMを記憶する。楽曲データMは、自動演奏による演奏対象曲の演奏内容を指定する。例えばMIDI(Musical Instrument Digital Interface)規格に準拠した形式のファイル(SMF:Standard MIDI File)が楽曲データMとして好適である。具体的には、楽曲データMは、演奏内容を示す指示データと、当該指示データの発生時点を示す時間データとが配列された時系列データである。指示データは、音高(ノートナンバ)と強度(ベロシティ)とを指定して発音および消音等の各種のイベントを指示する。時間データは、例えば相前後する指示データの間隔(デルタタイム)を指定する。
図1の自動演奏装置24は、制御装置12による制御のもとで演奏対象曲の自動演奏を実行する。具体的には、演奏対象曲を構成する複数の演奏パートのうち、複数の演奏者Pの演奏パート(例えば弦楽器)とは別個の演奏パートが、自動演奏装置24により自動演奏される。本実施形態の自動演奏装置24は、駆動機構242と発音機構244とを具備する鍵盤楽器(すなわち自動演奏ピアノ)である。発音機構244は、自然楽器のピアノと同様に、鍵盤の各鍵の変位に連動して弦(すなわち発音体)を発音させる打弦機構である。具体的には、発音機構244は、弦を打撃可能なハンマと、鍵の変位をハンマに伝達する複数の伝達部材(例えばウィペン,ジャックおよびレペティションレバー)とで構成されるアクション機構を鍵毎に具備する。駆動機構242は、発音機構244を駆動することで演奏対象曲の自動演奏を実行する。具体的には、駆動機構242は、各鍵を変位させる複数の駆動体(例えばソレノイド等のアクチュエータ)と、各駆動体を駆動する駆動回路とを含んで構成される。制御装置12からの指示に応じて駆動機構242が発音機構244を駆動することで、演奏対象曲の自動演奏が実現される。なお、自動演奏装置24に制御装置12または記憶装置14を搭載してもよい。
収録装置22は、複数の演奏者Pが演奏対象曲を演奏する様子を収録する。図1に例示される通り、本実施形態の収録装置22は、複数の撮像装置222と複数の収音装置224とを具備する。撮像装置222は、演奏者P毎に設置され、演奏者Pの撮像により画像信号V0を生成する。画像信号V0は、演奏者Pの動画像を表す信号である。収音装置224は、演奏者P毎に設置され、演奏者Pによる演奏(例えば楽器の演奏または歌唱)で発音された音(例えば楽音または歌唱音)を収音して音響信号A0を生成する。音響信号A0は、音の波形を表す信号である。以上の説明から理解される通り、相異なる演奏者Pを撮像した複数の画像信号V0と、相異なる演奏者Pが演奏した音を収音した複数の音響信号A0とが収録される。なお、電気弦楽器等の電気楽器から出力される音響信号A0を利用してもよい。したがって、収音装置224を省略してもよい。
制御装置12は、記憶装置14に記憶されたプログラムを実行することで、演奏対象曲の自動演奏を実現するための複数の機能(合図検出部52,演奏解析部54,演奏制御部56および表示制御部58)を実現する。なお、制御装置12の機能を複数の装置の集合(すなわちシステム)で実現した構成、または、制御装置12の機能の一部または全部を専用の電子回路で実現してもよい。また、収録装置22と自動演奏装置24と表示装置26とが設置された音響ホール等の空間から離間した位置にあるサーバ装置が、制御装置12の一部または全部の機能を実現してもよい。
各演奏者Pは、演奏対象曲の演奏の合図となる動作(以下「合図動作」という)を実行する。合図動作は、時間軸上の1個の時点を指示する動作(ジェスチャー)である。例えば、演奏者Pが自身の楽器を持上げる動作、または演奏者Pが自身の身体を動かす動作が、合図動作の好適例である。例えば演奏対象曲の演奏を主導する特定の演奏者Pは、図2に例示される通り、演奏対象曲の演奏を開始すべき始点に対して所定の期間(以下「準備期間」という)Bだけ手前の時点Qで合図動作を実行する。準備期間Bは、例えば演奏対象曲の1拍分の時間長の期間である。したがって、準備期間Bの時間長は演奏対象曲の演奏速度(テンポ)に応じて変動する。例えば演奏速度が速いほど準備期間Bは短い時間となる。演奏者Pは、演奏対象曲に想定される演奏速度のもとで1拍分に相当する準備期間Bだけ演奏対象曲の始点から手前の時点で合図動作を実行したうえで、当該始点の到来により演奏対象曲の演奏を開始する。合図動作は、他の演奏者Pによる演奏の契機となるほか、自動演奏装置24による自動演奏の契機として利用される。なお、準備期間Bの時間長は任意であり、例えば複数拍分の時間長としてもよい。
図1の合図検出部52は、演奏者Pによる合図動作を検出する。具体的には、合図検出部52は、各撮像装置222が演奏者Pを撮像した画像を解析することで合図動作を検出する。図1に例示される通り、本実施形態の合図検出部52は、画像合成部522と検出処理部524とを具備する。画像合成部522は、複数の撮像装置222が生成した複数の画像信号V0を合成することで画像信号Vを生成する。画像信号Vは、図3に例示される通り、各画像信号V0が表す複数の動画像(#1,#2,#3,……)を配列した画像を表す信号である。すなわち、複数の演奏者Pの動画像を表す画像信号Vが画像合成部522から検出処理部524に供給される。
検出処理部524は、画像合成部522が生成した画像信号Vを解析することで複数の演奏者Pの何れかによる合図動作を検出する。検出処理部524による合図動作の検出には、演奏者Pが合図動作の実行時に移動させる要素(例えば身体または楽器)を画像から抽出する画像認識処理と、当該要素の移動を検出する動体検出処理とを含む公知の画像解析技術が使用され得る。また、ニューラルネットワークまたは多分木等の識別モデルを合図動作の検出に利用してもよい。例えば、複数の演奏者Pによる演奏を撮像した画像信号から抽出された特徴量を所与の学習データとして利用して、識別モデルの機械学習(例えばディープラーニング)が事前に実行される。検出処理部524は、実際に自動演奏が実行される場面で画像信号Vから抽出した特徴量を機械学習後の識別モデルに適用することで合図動作を検出する。
図1の演奏解析部54は、演奏対象曲のうち複数の演奏者Pが現に演奏している位置(以下「演奏位置」という)Tを各演奏者Pによる演奏に並行して順次に推定する。具体的には、演奏解析部54は、複数の収音装置224の各々が収音した音を解析することで演奏位置Tを推定する。図1に例示される通り、本実施形態の演奏解析部54は、音響混合部542と解析処理部544とを具備する。音響混合部542は、複数の収音装置224が生成した複数の音響信号A0を混合することで音響信号Aを生成する。すなわち、音響信号Aは、相異なる音響信号A0が表す複数種の音の混合音を表す信号である。
解析処理部544は、音響混合部542が生成した音響信号Aの解析により演奏位置Tを推定する。例えば、解析処理部544は、音響信号Aが表す音と楽曲データMが示す演奏対象曲の演奏内容とを相互に照合することで演奏位置Tを特定する。また、本実施形態の解析処理部544は、演奏対象曲の演奏速度(テンポ)Rを音響信号Aの解析により推定する。例えば、解析処理部544は、演奏位置Tの時間変化(すなわち、時間軸方向における演奏位置Tの変化)から演奏速度Rを特定する。なお、解析処理部544による演奏位置Tおよび演奏速度Rの推定には、公知の音響解析技術(スコアアライメント)が任意に採用され得る。例えば、特許文献1に開示された解析技術を演奏位置Tおよび演奏速度Rの推定に利用してもよい。また、ニューラルネットワークまたは多分木等の識別モデルを演奏位置Tおよび演奏速度Rの推定に利用してもよい。例えば、複数の演奏者Pによる演奏を収音した音響信号Aから抽出された特徴量を所与の学習データとして利用して、識別モデルを生成する機械学習(例えばディープラーニング)が自動演奏前に実行される。解析処理部544は、実際に自動演奏が実行される場面で音響信号Aから抽出した特徴量を、機械学習により生成された識別モデルに適用することで演奏位置Tおよび演奏速度Rを推定する。
合図検出部52による合図動作の検出と演奏解析部54による演奏位置Tおよび演奏速度Rの推定とは、複数の演奏者Pによる演奏対象曲の演奏に並行して実時間的に実行される。例えば、合図動作の検出と演奏位置Tおよび演奏速度Rの推定とが所定の周期で反復される。ただし、合図動作の検出の周期と演奏位置Tおよび演奏速度Rの推定の周期との異同は不問である。
図1の演奏制御部56は、合図検出部52が検出する合図動作と演奏解析部54が推定する演奏位置Tの進行とに同期するように自動演奏装置24に演奏対象曲の自動演奏を実行させる。具体的には、演奏制御部56は、合図検出部52による合図動作の検出を契機として自動演奏の開始を自動演奏装置24に対して指示するとともに、演奏対象曲のうち演奏位置Tに対応する時点について楽曲データMが指定する演奏内容を自動演奏装置24に指示する。すなわち、演奏制御部56は、演奏対象曲の楽曲データMに含まれる各指示データを自動演奏装置24に対して順次に供給するシーケンサである。自動演奏装置24は、演奏制御部56からの指示に応じて演奏対象曲の自動演奏を実行する。複数の演奏者Pによる演奏の進行とともに演奏位置Tは演奏対象曲内の後方に移動するから、自動演奏装置24による演奏対象曲の自動演奏も演奏位置Tの移動とともに進行する。以上の説明から理解される通り、演奏対象曲の各音の強度またはフレーズ表現等の音楽表現を楽曲データMで指定された内容に維持したまま、演奏のテンポと各音のタイミングとは複数の演奏者Pによる演奏に同期するように、演奏制御部56は自動演奏装置24に自動演奏を指示する。したがって、例えば特定の演奏者(例えば現在では生存していない過去の演奏者)の演奏を表す楽曲データMを使用すれば、当該演奏者に特有の音楽表現を自動演奏で忠実に再現しながら、当該演奏者と実在の複数の演奏者Pとが恰も相互に呼吸を合わせて協調的に合奏しているかのような雰囲気を醸成することが可能である。
ところで、演奏制御部56が指示データの出力により自動演奏装置24に自動演奏を指示してから自動演奏装置24が実際に発音する(例えば発音機構244のハンマが打弦する)までには数百ミリ秒程度の時間が必要である。すなわち、演奏制御部56からの指示に対して自動演奏装置24による実際の発音は不可避的に遅延する。したがって、演奏対象曲のうち演奏解析部54が推定した演奏位置T自体の演奏を演奏制御部56が自動演奏装置24に指示する構成では、複数の演奏者Pによる演奏に対して自動演奏装置24による発音が遅延する結果となる。
そこで、本実施形態の演奏制御部56は、図2に例示される通り、演奏対象曲のうち演奏解析部54が推定した演奏位置Tに対して後方(未来)の時点TAの演奏を自動演奏装置24に指示する。すなわち、遅延後の発音が複数の演奏者Pによる演奏に同期する(例えば演奏対象曲の特定の音符が自動演奏装置24と各演奏者Pとで略同時に演奏される)ように、演奏制御部56は演奏対象曲の楽曲データM内の指示データを先読みする。
図4は、演奏位置Tの時間的な変化の説明図である。単位時間内の演奏位置Tの変動量(図4の直線の勾配)が演奏速度Rに相当する。図4では、演奏速度Rが一定に維持された場合が便宜的に例示されている。
図4に例示される通り、演奏制御部56は、演奏対象曲のうち演奏位置Tに対して調整量αだけ後方の時点TAの演奏を自動演奏装置24に指示する。調整量αは、演奏制御部56による自動演奏の指示から自動演奏装置24が実際に発音するまでの遅延量Dと、演奏解析部54が推定した演奏速度Rとに応じて可変に設定される。具体的には、演奏速度Rのもとで遅延量Dの時間内に演奏対象曲の演奏が進行する区間長を、演奏制御部56は調整量αとして設定する。したがって、演奏速度Rが速い(図4の直線の勾配が急峻である)ほど調整量αは大きい数値となる。なお、図4では演奏対象曲の全区間にわたり演奏速度Rが一定に維持された場合を想定したが、実際には演奏速度Rは変動し得る。したがって、調整量αは、演奏速度Rに連動して経時的に変動する。
遅延量Dは、自動演奏装置24の測定結果に応じた所定値(例えば数十から数百ミリ秒程度)に事前に設定される。なお、実際の自動演奏装置24では、演奏される音高または強度に応じて遅延量Dが相違し得る。そこで、自動演奏の対象となる音符の音高または強度に応じて遅延量D(さらには遅延量Dに依存する調整量α)を可変に設定してもよい。
また、演奏制御部56は、合図検出部52が検出する合図動作を契機として演奏対象曲の自動演奏の開始を自動演奏装置24に指示する。図5は、合図動作と自動演奏との関係の説明図である。図5に例示される通り、演奏制御部56は、合図動作が検出された時点Qから時間長δが経過した時点QAで自動演奏装置24に対する自動演奏の指示を開始する。時間長δは、準備期間Bに相当する時間長τから自動演奏の遅延量Dを減算した時間長である。準備期間Bの時間長τは演奏対象曲の演奏速度Rに応じて変動する。具体的には、演奏速度Rが速い(図5の直線の勾配が急峻である)ほど準備期間Bの時間長τは短くなる。ただし、合図動作の時点QAでは演奏対象曲の演奏は開始されていないから、演奏速度Rは推定されていない。そこで、演奏制御部56は、演奏対象曲に想定される標準的な演奏速度(標準テンポ)R0に応じて準備期間Bの時間長τを算定する。演奏速度R0は、例えば楽曲データMにて指定される。ただし、複数の演奏者Pが演奏対象曲について共通に認識している速度(例えば演奏練習時に想定した速度)を演奏速度R0として設定してもよい。
以上に説明した通り、演奏制御部56は、合図動作の時点QAから時間長δ(δ=τ-D)が経過した時点QAで自動演奏の指示を開始する。したがって、合図動作の時点Qから準備期間Bが経過した時点QB(すなわち、複数の演奏者Pが演奏を開始する時点)において、自動演奏装置24による発音が開始される。すなわち、複数の演奏者Pによる演奏対象曲の演奏の開始と略同時に自動演奏装置24による自動演奏が開始される。本実施形態の演奏制御部56による自動演奏の制御は以上の例示の通りである。
図1の表示制御部58は、自動演奏装置24による自動演奏の進行を視覚的に表現した画像(以下「演奏画像」という)Gを表示装置26に表示させる。具体的には、表示制御部58は、演奏画像Gを表す画像データを生成して表示装置26に出力することで演奏画像Gを表示装置26に表示させる。表示装置26は、表示制御部58から指示された演奏画像Gを表示する。例えば液晶表示パネルまたはプロジェクタが表示装置26の好適例である。複数の演奏者Pは、表示装置26が表示する演奏画像Gを、演奏対象曲の演奏に並行して随時に視認することが可能である。
本実施形態の表示制御部58は、自動演奏装置24による自動演奏に連動して動的に変化する動画像を演奏画像Gとして表示装置26に表示させる。図6および図7は、演奏画像Gの表示例である。図6および図7に例示される通り、演奏画像Gは、底面72が存在する仮想空間70に表示体(オブジェクト)74を配置した立体的な画像である。図6に例示される通り、表示体74は、仮想空間70内に浮遊するとともに所定の速度で降下する略球状の立体である。仮想空間70の底面72には表示体74の影75が表示され、表示体74の降下とともに底面72上で当該影75が表示体74に接近する。図7に例示される通り、自動演奏装置24による発音が開始される時点で表示体74は仮想空間70内の所定の高度まで上昇するとともに、当該発音の継続中に表示体74の形状が不規則に変形する。そして、自動演奏による発音が停止(消音)すると、表示体74の不規則な変形が停止して図6の初期的な形状(球状)に復帰し、表示体74が所定の速度で降下する状態に遷移する。自動演奏による発音毎に表示体74の以上の動作(上昇および変形)が反復される。例えば、演奏対象曲の演奏の開始前に表示体74は降下し、演奏対象曲の始点の音符が自動演奏により発音される時点で表示体74の移動の方向が降下から上昇に転換する。したがって、表示装置26に表示された演奏画像Gを視認する演奏者Pは、表示体74の降下から上昇への転換により自動演奏装置24による発音のタイミングを把握することが可能である。
本実施形態の表示制御部58は、以上に例示した演奏画像Gが表示されるように表示装置26を制御する。なお、表示制御部58が表示装置26に画像の表示または変更を指示してから、表示装置26による表示画像に当該指示が反映されるまでの遅延は、自動演奏装置24による自動演奏の遅延量Dと比較して充分に小さい。そこで、表示制御部58は、演奏対象曲のうち演奏解析部54が推定した演奏位置T自体の演奏内容に応じた演奏画像Gを表示装置26に表示させる。したがって、前述の通り、自動演奏装置24による実際の発音(演奏制御部56による指示から遅延量Dだけ遅延した時点)に同期して演奏画像Gが動的に変化する。すなわち、演奏対象曲の各音符の発音を自動演奏装置24が実際に開始する時点で演奏画像Gの表示体74の移動は降下から上昇に転換する。したがって、各演奏者Pは、自動演奏装置24が演奏対象曲の各音符を発音する時点を視覚的に確認することが可能である。
図8は、自動演奏システム100の制御装置12の動作を例示するフローチャートである。例えば、所定の周期で発生する割込信号を契機として、複数の演奏者Pによる演奏対象曲の演奏に並行して図8の処理が開始される。図8の処理を開始すると、制御装置12(合図検出部52)は、複数の撮像装置222から供給される複数の画像信号V0を解析することで、任意の演奏者Pによる合図動作の有無を判定する(SA1)。また、制御装置12(演奏解析部54)は、複数の収音装置224から供給される複数の音響信号A0の解析により演奏位置Tと演奏速度Rとを推定する(SA2)。なお、合図動作の検出(SA1)と演奏位置Tおよび演奏速度Rの推定(SA2)との順序は逆転され得る。
制御装置12(演奏制御部56)は、演奏位置Tおよび演奏速度Rに応じた自動演奏を自動演奏装置24に対して指示する(SA3)。具体的には、合図検出部52が検出する合図動作と演奏解析部54が推定する演奏位置Tの進行とに同期するように自動演奏装置24に演奏対象曲の自動演奏を実行させる。また、制御装置12(表示制御部58)は、自動演奏の進行を表現する演奏画像Gを表示装置26に表示させる(SA4)。
以上に例示した実施形態では、演奏者Pによる合図動作と演奏位置Tの進行とに同期するように自動演奏装置24による自動演奏が実行される一方、自動演奏装置24による自動演奏の進行を表す演奏画像Gが表示装置26に表示される。したがって、自動演奏装置24による自動演奏の進行を演奏者Pが視覚的に確認して自身の演奏に反映させることが可能である。すなわち、複数の演奏者Pによる演奏と自動演奏装置24による自動演奏とが相互に作用し合う自然な合奏が実現される。本実施形態では特に、自動演奏による演奏内容に応じて動的に変化する演奏画像Gが表示装置26に表示されるから、演奏者Pが自動演奏の進行を視覚的および直観的に把握できるという利点がある。
また、本実施形態では、演奏解析部54が推定した演奏位置Tに対して時間的に後方の時点TAの演奏内容が自動演奏装置24に指示される。したがって、演奏制御部56による演奏の指示に対して自動演奏装置24による実際の発音が遅延する場合でも、演奏者Pによる演奏と自動演奏とを高精度に同期させることが可能である。また、演奏解析部54が推定した演奏速度Rに応じた可変の調整量αだけ演奏位置Tに対して後方の時点TAの演奏が自動演奏装置24に指示される。したがって、例えば演奏速度Rが変動する場合でも、演奏者による演奏と自動演奏とを高精度に同期させることが可能である。
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用または機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
図9は、第2実施形態における解析処理部544の構成を例示するブロック図である。図9に例示される通り、第2実施形態の解析処理部544は、尤度算定部82と位置推定部84とを具備する。図10は、尤度算定部82の動作の説明図である。
尤度算定部82は、複数の演奏者Pによる演奏対象曲の演奏に並行して、演奏対象曲内の複数の時点tの各々における観測尤度Lを算定する。すなわち、演奏対象曲内の複数の時点tにわたる観測尤度Lの分布(以下「観測尤度分布」という)が算定される。音響信号Aを時間軸上で区分した単位区間(フレーム)毎に観測尤度分布が算定される。音響信号Aの1個の単位区間について算定された観測尤度分布のうち任意の1個の時点tにおける観測尤度Lは、当該単位区間の音響信号Aが表す音が演奏対象曲内の当該時点tで発音された確度の指標である。観測尤度Lは、複数の演奏者Pが演奏対象曲内の各時点tを演奏している確度の指標とも換言される。すなわち、任意の1個の単位区間について算定された観測尤度Lが高い時点tは、当該単位区間の音響信号Aが表す音の発音位置に該当する可能性が高い。なお、相前後する単位区間は時間軸上で相互に重複し得る。
図9に例示される通り、第2実施形態の尤度算定部82は、第1演算部821と第2演算部822と第3演算部823とを具備する。第1演算部821は第1尤度L1(A)を算定し、第2演算部822は第2尤度L2(C)を算定する。第3演算部823は、第1演算部821が算定した第1尤度L1(A)と第2演算部822が算定した第2尤度L2(C)との乗算により観測尤度Lの分布を算定する。すなわち、観測尤度Lは、第1尤度L1(A)と第2尤度L2(C)との積で表現される(L=L1(A)L2(C))。
第1演算部821は、各単位区間の音響信号Aと演奏対象曲の楽曲データMとを相互に照合することで、演奏対象曲内の複数の時点tの各々について第1尤度L1(A)を算定する。すなわち、図10に例示される通り、演奏対象曲内の複数の時点tにわたる第1尤度L1(A)の分布が単位区間毎に算定される。第1尤度L1(A)は、音響信号Aの解析により算定される尤度である。音響信号Aの1個の単位区間の解析により任意の1個の時点tについて算定された第1尤度L1(A)は、当該単位区間の音響信号Aが表す音が演奏対象曲内の当該時点tで発音された確度の指標である。時間軸上の複数の時点tのうち音響信号Aの1個の単位区間の演奏位置に該当する可能性が高い時点tには、第1尤度L1(A)のピークが存在する。音響信号Aから第1尤度L1(A)を算定する方法については、例えば特開2014-178395号公報の技術が好適に利用され得る。
図9の第2演算部822は、合図動作の検出の有無に応じた第2尤度L2(C)を算定する。具体的には、第2尤度L2(C)は、合図動作の有無を表す変数Cに応じて算定される。変数Cは、合図検出部52から尤度算定部82に通知される。合図検出部52が合図動作を検出した場合に変数Cは1に設定され、合図検出部52が合図動作を検出しない場合に変数Cは0に設定される。なお、変数Cの数値は0および1の2値に限定されない。例えば、合図動作の非検出時の変数Cを所定の正数(ただし、合図動作の検出時の変数Cの数値を下回る数値)に設定してもよい。
図10に例示される通り、演奏対象曲の時間軸上には複数の基準点aが指定される。基準点aは、例えば楽曲の開始時点、または、フェルマータ等で指示された長時間の休符から演奏が再開される時点である。例えば、演奏対象曲内の複数の基準点aの各々の時刻が楽曲データMにより指定される。
図10に例示される通り、第2尤度L2(C)は、合図動作が検出されない単位区間(C=0)では1に維持される。他方、合図動作が検出された単位区間(C=1)では、第2尤度L2(C)は、各基準点aから時間軸上で前方側の所定長にわたる期間(以下「参照期間」という)ρにて0(第2値の例示)に設定され、各参照期間ρ以外の期間にて1(第1値の例示)に設定される。参照期間ρは、例えば、演奏対象曲の1拍分から2拍分ほどの時間長に設定される。前述の通り、観測尤度Lは、第1尤度L1(A)と第2尤度L2(C)との積で算定される。したがって、合図動作が検出された場合には、演奏対象曲に指定された複数の基準点aの各々の前方の参照期間ρにおける観測尤度Lが0に低下する。他方、合図動作が検出されない場合には、第2尤度L2(C)は1に維持されるから、第1尤度L1(A)が観測尤度Lとして算定される。
図9の位置推定部84は、尤度算定部82が算定した観測尤度Lに応じて演奏位置Tを推定する。具体的には、位置推定部84は、観測尤度Lから演奏位置Tの事後分布を算定し、当該事後分布から演奏位置Tを推定する。演奏位置Tの事後分布は、単位区間内の音響信号Aが観測されたという条件のもとで当該単位区間の発音の時点が演奏対象曲内の位置tであった事後確率の確率分布である。観測尤度Lを利用した事後分布の算定には、例えば特開2015-79183号公報に開示される通り、隠れセミマルコフモデル(HSMM)を利用したベイズ推定等の公知の統計処理が利用される。
前述の通り、合図動作に対応する基準点aの前方の参照期間ρでは観測尤度Lが0に設定されるから、事後分布は、当該基準点a以降の区間にて有効となる。したがって、合図動作に対応する基準点a以降の時点が演奏位置Tとして推定される。また、位置推定部84は、演奏位置Tの時間変化から演奏速度Rを特定する。解析処理部544以外の構成および動作は第1実施形態と同様である。
図11は、解析処理部544が演奏位置Tおよび演奏速度Rを推定する処理(図8のステップSA2)の内容を例示するフローチャートである。複数の演奏者Pによる演奏対象曲の演奏に並行して、時間軸上の単位区間毎に図11の処理が実行される。
第1演算部821は、単位区間内の音響信号Aを解析することにより、演奏対象曲内の複数の時点tの各々について第1尤度L1(A)を算定する(SA21)。また、第2演算部822は、合図動作の検出の有無に応じた第2尤度L2(C)を算定する(SA22)。なお、第1演算部821による第1尤度L1(A)の算定(SA21)と第2演算部822による第2尤度L2(C)の算定(SA22)との順序を逆転してもよい。第3演算部823は、第1演算部821が算定した第1尤度L1(A)と第2演算部822が算定した第2尤度L2(C)とを乗算することで観測尤度Lの分布を算定する(SA23)。
位置推定部84は、尤度算定部82が算定した観測尤度分布に応じて演奏位置Tを推定する(SA24)。また、位置推定部84は、演奏位置Tの時間変化から演奏速度Rを算定する(SA25)。
以上に説明した通り、第2実施形態では、音響信号Aの解析結果に加えて合図動作の検出結果が演奏位置Tの推定に加味されるから、例えば音響信号Aの解析結果のみを考慮する構成と比較して演奏位置Tを高精度に推定することが可能である。例えば楽曲の開始時点または休符から演奏が再開される時点においても高精度に演奏位置Tが推定される。また、第2実施形態では、合図動作が検出された場合に、演奏対象曲に指定された複数の基準点aのうち当該合図動作が検出された基準点aに対応する参照期間ρ内の観測尤度Lが低下する。すなわち、参照期間ρ以外の合図動作の検出時点は演奏時点Tの推定に反映されない。したがって、合図動作が誤検出された場合の演奏時点Tの誤推定を抑制できるという利点がある。
<変形例>
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
(1)前述の実施形態では、合図検出部52が検出した合図動作を契機として演奏対象曲の自動演奏を開始したが、演奏対象曲の途中の時点における自動演奏の制御に合図動作を使用してもよい。例えば、演奏対象曲内で長時間にわたる休符が終了して演奏が再開される時点で、前述の各形態と同様に、合図動作を契機として演奏対象曲の自動演奏が再開される。例えば、図5を参照して説明した動作と同様に、演奏対象曲内で休符後に演奏が再開される時点に対して準備期間Bだけ手前の時点Qで特定の演奏者Pが合図動作を実行する。そして、遅延量Dと演奏速度Rとに応じた時間長δが当該時点Qから経過した時点で、演奏制御部56は、自動演奏装置24に対する自動演奏の指示を再開する。なお、演奏対象曲の途中の時点では既に演奏速度Rが推定されているから、時間長δの設定には、演奏解析部54が推定した演奏速度Rが適用される。
ところで、演奏対象曲のうち合図動作が実行され得る期間は、演奏対象曲の演奏内容から事前に把握され得る。そこで、演奏対象曲のうち合図動作が実行される可能性がある特定の期間(以下「監視期間」という)を対象として合図検出部52が合図動作の有無を監視してもよい。例えば、演奏対象曲に想定される複数の監視期間の各々について始点と終点とを指定する区間指定データが記憶装置14に格納される。区間指定データを楽曲データMに内包させてもよい。合図検出部52は、演奏対象曲のうち区間指定データで指定される各監視期間内に演奏位置Tが存在する場合に合図動作の監視を実行し、演奏位置Tが監視期間の外側にある場合には合図動作の監視を停止する。以上の構成によれば、演奏対象曲のうち監視期間に限定して合図動作が検出されるから、演奏対象曲の全区間にわたり合図動作の有無を監視する構成と比較して合図検出部52の処理負荷が軽減されるという利点がある。また、演奏対象曲のうち実際には合図動作が実行され得ない期間について合図動作が誤検出される可能性を低減することも可能である。
(2)前述の実施形態では、画像信号Vが表す画像の全体(図3)を解析することで合図動作を検出したが、画像信号Vが表す画像のうち特定の領域(以下「監視領域」という)を対象として、合図検出部52が合図動作の有無を監視してもよい。例えば、合図検出部52は、画像信号Vが示す画像のうち合図動作が予定されている特定の演奏者Pを含む範囲を監視領域として選択し、当該監視領域を対象として合図動作を検出する。監視領域以外の範囲については合図検出部52による監視対象から除外される。以上の構成によれば、監視領域に限定して合図動作が検出されるから、画像信号Vが示す画像の全体にわたり合図動作の有無を監視する構成と比較して合図検出部52の処理負荷が軽減されるという利点がある。また、実際には合図動作を実行しない演奏者Pの動作が合図動作と誤判定される可能性を低減することも可能である。
なお、前述の変形例(1)で例示した通り、演奏対象曲の演奏中に複数回にわたり合図動作が実行される場合を想定すると、合図動作を実行する演奏者Pが合図動作毎に変更される可能性もある。例えば、演奏対象曲の開始前の合図動作は演奏者P1が実行する一方、演奏対象曲の途中の合図動作は演奏者P2が実行する。したがって、画像信号Vが表す画像内で監視領域の位置(またはサイズ)を経時的に変更する構成も好適である。合図動作を実行する演奏者Pは演奏前に決定されるから、例えば監視領域の位置を時系列に指定する領域指定データが記憶装置14に事前に格納される。合図検出部52は、画像信号Vが表す画像のうち領域指定データで指定される各監視領域について合図動作を監視し、監視領域以外の領域については合図動作の監視対象から除外する。以上の構成によれば、合図動作を実行する演奏者Pが楽曲の進行とともに変更される場合でも、合図動作を適切に検出することが可能である。
(3)前述の実施形態では、複数の撮像装置222を利用して複数の演奏者Pを撮像したが、1個の撮像装置222により複数の演奏者P(例えば複数の演奏者Pが所在する舞台の全体)を撮像してもよい。同様に、複数の演奏者Pが演奏した音を1個の収音装置224により収音してもよい。また、複数の画像信号V0の各々について合図検出部52が合図動作の有無を監視する構成(したがって、画像合成部522は省略され得る)も採用され得る。
(4)前述の実施形態では、撮像装置222が撮像した画像信号Vの解析で合図動作を検出したが、合図検出部52が合図動作を検出する方法は以上の例示に限定されない。例えば、演奏者Pの身体に装着された検出器(例えば加速度センサ等の各種のセンサ)の検出信号を解析することで合図検出部52が演奏者Pの合図動作を検出してもよい。ただし、撮像装置222が撮像した画像の解析により合図動作を検出する前述の実施形態の構成によれば、演奏者Pの身体に検出器を装着する場合と比較して、演奏者Pの演奏動作に対する影響を低減しながら合図動作を検出できるという利点がある。
(5)前述の実施形態では、相異なる楽器の音を表す複数の音響信号A0を混合した音響信号Aの解析により演奏位置Tおよび演奏速度Rを推定したが、各音響信号A0の解析により演奏位置Tおよび演奏速度Rを推定してもよい。例えば、演奏解析部54は、複数の音響信号A0の各々について前述の実施形態と同様の方法で暫定的な演奏位置Tおよび演奏速度Rを推定し、各音響信号A0に関する推定結果から確定的な演奏位置Tおよび演奏速度Rを決定する。例えば各音響信号A0から推定された演奏位置Tおよび演奏速度Rの代表値(例えば平均値)が確定的な演奏位置Tおよび演奏速度Rとして算定される。以上の説明から理解される通り、演奏解析部54の音響混合部542は省略され得る。
(6)前述の実施形態で例示した通り、自動演奏システム100は、制御装置12とプログラムとの協働で実現される。本発明の好適な態様に係るプログラムは、演奏対象曲を演奏する演奏者Pの合図動作を検出する合図検出部52、演奏された音を表す音響信号Aを当該演奏に並行して解析することで演奏対象曲内の演奏位置Tを順次に推定する演奏解析部54、合図検出部52が検出する合図動作と演奏解析部54が推定する演奏位置Tの進行とに同期するように演奏対象曲の自動演奏を自動演奏装置24に実行させる演奏制御部56、および、自動演奏の進行を表す演奏画像Gを表示装置26に表示させる表示制御部58、としてコンピュータを機能させる。すなわち、本発明の好適な態様に係るプログラムは、本発明の好適な態様に係る楽曲データ処理方法をコンピュータに実行させるプログラムである。以上に例示したプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、通信網を介した配信の形態でプログラムをコンピュータに配信してもよい。
(7)本発明の好適な態様は、前述の実施形態に係る自動演奏システム100の動作方法(自動演奏方法)としても特定される。例えば、本発明の好適な態様に係る自動演奏方法は、コンピュータシステム(単体のコンピュータ、または複数のコンピュータで構成されるシステム)が、演奏対象曲を演奏する演奏者Pの合図動作を検出し(SA1)、演奏された音を表す音響信号Aを当該演奏に並行して解析することで演奏対象曲内の演奏位置Tを順次に推定し(SA2)、合図動作と演奏位置Tの進行とに同期するように演奏対象曲の自動演奏を自動演奏装置24に実行させ(SA3)、自動演奏の進行を表す演奏画像Gを表示装置26に表示させる(SA4)。
(8)以上に例示した形態から、例えば以下の構成が把握される。
[態様A1]
本発明の好適な態様(態様A1)に係る演奏解析方法は、楽曲を演奏する演奏者の合図動作を検出し、前記楽曲を演奏した音を表す音響信号の解析により、前記楽曲内の各時点が演奏位置に該当する確度の指標である観測尤度の分布を算定し、前記観測尤度の分布に応じて前記演奏位置を推定し、前記観測尤度の分布の算定において、前記合図動作を検出した場合には、前記楽曲について時間軸上に指定された基準点の前方の期間における観測尤度を低下させる。以上の態様では、音響信号の解析結果に加えて合図動作の検出結果が演奏位置の推定に加味されるから、例えば音響信号の解析結果のみを考慮する構成と比較して演奏位置を高精度に推定することが可能である。
[態様A2]
態様A1の好適例(態様A2)において、前記観測尤度の分布の算定では、前記楽曲内の各時点が演奏位置に該当する確度の指標である第1尤度を前記音響信号から算定し、前記合図動作が検出されない状態において第1値に設定され、前記合図動作が検出された場合には、前記基準点の前方の期間において、前記第1値を下回る第2値に設定される第2尤度を算定し、前記第1尤度と前記第2尤度との乗算により前記観測尤度を算定する。以上の態様では、音響信号から算定された第1尤度と合図動作の検出結果に応じた第2尤度との乗算により観測尤度を簡便に算定できるという利点がある。
[態様A3]
態様A2の好適例(態様A3)において、前記第1値は1であり、前記第2値は0である。以上の態様によれば、合図動作が検出された場合と検出されない場合とで観測尤度を明確に区別することが可能である。
[態様A4]
本発明の好適な態様(態様A4)に係る自動演奏方法は、楽曲を演奏する演奏者の合図動作を検出し、前記楽曲を演奏した音を表す音響信号の解析により前記楽曲内の演奏位置を推定し、前記演奏位置の進行に同期するように前記楽曲の自動演奏を自動演奏装置に実行させ、前記演奏位置の推定においては、前記音響信号の解析により、前記楽曲内の各時点が演奏位置に該当する確度の指標である観測尤度の分布を算定し、前記観測尤度の分布に応じて前記演奏位置を推定し、前記観測尤度の分布の算定において、前記合図動作を検出した場合には、前記楽曲について時間軸上に指定された基準点の前方の期間における観測尤度を低下させる。以上の態様では、音響信号の解析結果に加えて合図動作の検出結果が演奏位置の推定に加味されるから、例えば音響信号の解析結果のみを考慮する構成と比較して演奏位置を高精度に推定することが可能である。
[態様A5]
態様A4の好適例(態様A5)において、前記観測尤度の分布の算定では、前記楽曲内の各時点が演奏位置に該当する確度の指標である第1尤度を前記音響信号から算定し、前記合図動作が検出されない状態において第1値に設定され、前記合図動作が検出された場合には、前記基準点の前方の期間において、前記第1値を下回る第2値に設定される第2尤度を算定し、前記第1尤度と前記第2尤度との乗算により前記観測尤度を算定する。以上の態様では、音響信号から算定された第1尤度と合図動作の検出結果に応じた第2尤度との乗算により観測尤度を簡便に算定できるという利点がある。
[態様A6]
態様A4または態様A5の好適例(態様A6)において、前記楽曲の演奏内容を表す楽曲データに従って前記自動演奏装置に自動演奏を実行させ、前記複数の基準点は、前記楽曲データにより指定される。以上の態様では、自動演奏装置に自動演奏を指示する楽曲データにより各基準点が指定されるから、楽曲データとは別個に複数の基準点を指定する構成と比較して構成および処理が簡素化されるという利点がある。
[態様A7]
態様A4から態様A6の何れかの好適例(態様A7)において、前記自動演奏の進行を表す画像を表示装置に表示させる。以上の態様によれば、自動演奏装置による自動演奏の進行を演奏者が視覚的に確認して自身の演奏に反映させることが可能である。すなわち、演奏者による演奏と自動演奏装置による自動演奏とが相互に作用し合う自然な演奏が実現される。
[態様A8]
本発明の好適な態様(態様A8)に係る自動演奏システムは、楽曲を演奏する演奏者の合図動作を検出する合図検出部と、前記楽曲を演奏した音を表す音響信号の解析により前記楽曲内の演奏位置を推定する解析処理部と、前記合図検出部が検出する合図動作と前記演奏解析部が推定する演奏位置の進行とに同期するように楽曲の自動演奏を自動演奏装置に実行させる演奏制御部とを具備し、前記解析処理部は、前記音響信号の解析により、前記楽曲内の各時点が演奏位置に該当する確度の指標である観測尤度の分布を算定する尤度算定部と、前記観測尤度の分布に応じて前記演奏位置を推定する位置推定部とを含み、前記尤度算定部は、前記合図動作を検出した場合には、前記楽曲について時間軸上に指定された基準点の前方の期間における観測尤度を低下させる。以上の態様では、音響信号の解析結果に加えて合図動作の検出結果が演奏位置の推定に加味されるから、例えば音響信号の解析結果のみを考慮する構成と比較して演奏位置を高精度に推定することが可能である。
(9)前述の形態で例示した自動演奏システムについて、例えば以下の構成が把握される。
[態様B1]
本発明の好適な態様(態様B1)に係る自動演奏システムは、楽曲を演奏する演奏者の合図動作を検出する合図検出部と、演奏された音を表す音響信号を当該演奏に並行して解析することで楽曲内の演奏位置を順次に推定する演奏解析部と、合図検出部が検出する合図動作と演奏解析部が推定する演奏位置の進行とに同期するように楽曲の自動演奏を自動演奏装置に実行させる演奏制御部と、自動演奏の進行を表す画像を表示装置に表示させる表示制御部とを具備する。以上の構成では、演奏者による合図動作と演奏位置の進行とに同期するように自動演奏装置による自動演奏が実行される一方、自動演奏装置による自動演奏の進行を表す画像が表示装置に表示される。したがって、自動演奏装置による自動演奏の進行を演奏者が視覚的に確認して自身の演奏に反映させることが可能である。すなわち、演奏者による演奏と自動演奏装置による自動演奏とが相互に作用し合う自然な演奏が実現される。
[態様B2]
態様B1の好適例(態様B2)において、演奏制御部は、楽曲のうち演奏解析部が推定した演奏位置に対して後方の時点の演奏を自動演奏装置に指示する。以上の態様では、演奏解析部が推定した演奏位置に対して時間的に後方の時点の演奏内容が自動演奏装置に指示される。したがって、演奏制御部による演奏の指示に対して自動演奏装置による実際の発音が遅延する場合でも、演奏者による演奏と自動演奏とを高精度に同期させることが可能である。
[態様B3]
態様B2の好適例(態様B3)において、演奏解析部は、音響信号の解析により演奏速度を推定し、演奏制御部は、楽曲のうち、演奏解析部が推定した演奏位置に対して演奏速度に応じた調整量だけ後方の時点の演奏を、自動演奏装置に指示する。以上の態様では、演奏解析部が推定した演奏速度に応じた可変の調整量だけ演奏位置に対して後方の時点の演奏が自動演奏装置に指示される。したがって、例えば演奏速度が変動する場合でも、演奏者による演奏と自動演奏とを高精度に同期させることが可能である。
[態様B4]
態様B1から態様B3の何れかの好適例(態様B4)において、合図検出部は、撮像装置が演奏者を撮像した画像の解析により合図動作を検出する。以上の態様では、撮像装置が撮像した画像の解析により演奏者の合図動作が検出されるから、例えば演奏者の身体に装着した検出器により合図動作を検出する場合と比較して、演奏者による演奏に対する影響を低減しながら合図動作を検出できるという利点がある。
[態様B5]
態様B1から態様B4の何れかの好適例(態様B5)において、表示制御部は、自動演奏による演奏内容に応じて動的に変化する画像を表示装置に表示させる。以上の態様では、自動演奏による演奏内容に応じて動的に変化する画像が表示装置に表示されるから、演奏者が自動演奏の進行を視覚的および直観的に把握できるという利点がある。
[態様B6]
本発明の好適な態様(態様B6)に係る自動演奏方法は、コンピュータシステムが、楽曲を演奏する演奏者の合図動作を検出し、演奏された音を表す音響信号を当該演奏に並行して解析することで楽曲内の演奏位置を順次に推定し、合図動作と演奏位置の進行とに同期するように楽曲の自動演奏を自動演奏装置に実行させ、自動演奏の進行を表す画像を表示装置に表示させる。
<詳細な説明>
本発明の好適な態様は、以下のように表現され得る。
1.前提
自動演奏システムとは、人間の演奏に対し、機械が合わせて伴奏を生成するシステムである。ここでは、クラシック音楽のように、自動演奏システムと人間それぞれが弾くべき楽譜表現が与えられている自動演奏システムについて論じる。このような自動演奏システムは、音楽演奏の練習支援、または、演奏者に合わせてエレクトロニクスを駆動するような音楽の拡張表現など、幅広い応用がある。なお、以下では、合奏エンジンが演奏するパートのことを「伴奏パート」と呼ぶ。音楽的に整合した合奏を行うためには、伴奏パートの演奏タイミングを適切に制御することが必要である。適切なタイミング制御には、以下に記載する4つの要求がある。
[要求1]原則として、自動演奏システムは、人間の奏者が弾いている場所を弾く必要がある。したがって、自動演奏システムは、再生する楽曲の位置を、人間の演奏者に合わせる必要がある。特にクラシック音楽では、演奏速度(テンポ)の抑揚が音楽表現上重要であるため、演奏者のテンポ変化を追従する必要がある。また、より精度が高い追従を行うために、演奏者の練習(リハーサル)を解析することで、演奏者のクセを獲得することが好ましい。
[要求2]自動演奏システムは、音楽的に整合した演奏を生成すること。つまり、伴奏パートの音楽性が保たれる範囲内で人間の演奏を追従する必要がある。
[要求3]楽曲のコンテキストに応じて、伴奏パートが演奏者に合わせる度合い(主従関係)を変えることが可能であること。楽曲中には、音楽性を多少損なってでも人に合わせるべき場所、または、追従性を損なっても伴奏パートの音楽性を保持すべき場所がある。従って、要求1と要求2でそれぞれ述べた「追従性」と「音楽性」のバランスは楽曲のコンテキストにより変わる。たとえば、リズムが不明瞭なパートは、リズムをよりはっきり刻むパートに追従する傾向がある。
[要求4]演奏者の指示によって、即座に主従関係を変えることが可能であること。追従性と自動演奏システムの音楽性のトレードオフは、リハーサル中に人間同士が対話を通じて調整することが多い。また、このような調整を行った場合、調整を行った箇所を弾き直すことで、調整結果を確認する。したがって、リハーサル中に追従性の挙動を設定できる自動演奏システムが必要である。
これらの要求を同時に満たすためには、演奏者が演奏している位置を追従した上で、音楽的に破綻しないように伴奏パートを生成する必要がある。これらを実現するためには、自動演奏システムは、(1)演奏者の位置を予測するモデル、(2)音楽的な伴奏パートを生成するためのタイミング生成モデル、(3)主従関係を踏まえ、演奏タイミングを補正するモデル、の三要素が必要となる。また、これらの要素は独立して操作もしくは学習できる必要がある。しかし、従来はこれらの要素を独立に扱うことが難しかった。そこで、以下の説明では、(1)演奏者の演奏タイミング生成過程、(2)自動演奏システムが音楽的に演奏できる範囲を表現した演奏タイミング生成過程、(3)自動演奏システムが主従関係を持ちながら演奏者に合わせるための、自動演奏システムと演奏者の演奏タイミングを結合する過程、これら三要素を独立にモデル化し、統合することを考える。独立に表現することにより、個々の要素を独立に学習したり、操作することが可能になる。システム使用時には、演奏者のタイミング生成過程を推論しながら、自動演奏システムが演奏できるタイミングの範囲を推論し、合奏と演奏者のタイミングを協調させるように伴奏パートを再生する。これにより、自動演奏システムは音楽的に破綻しない合奏を、人間に合わせながら演奏することが可能になる。
2.関連技術
従来の自動演奏システムでは、楽譜追従を用いることで演奏者の演奏タイミングを推定する。その上で、合奏エンジンと人間を協調させるため、大きく分けて二つのアプローチが用いられる。第一に、多数のリハーサルを通じて演奏者と合奏エンジンの演奏タイミングに対する関係性を回帰することで、楽曲における平均的な挙動、もしくは時々刻々と変化する挙動、を獲得することが提案されている。このようなアプローチでは、合奏の結果自体を回帰するため、結果的に伴奏パートの音楽性と、伴奏パートの追従性を同時に獲得できる。一方、演奏者のタイミング予測、合奏エンジンの生成過程と、合わせる度合いを切り分けて表現することが難しいため、リハーサル中に追従性または音楽性を独立に操作することは難しいと考えられる。また、音楽的な追従性を獲得するためには、人間同士の合奏データを別途解析する必要があるため、コンテンツ整備にコストがかかる。第二に、少ないパラメータで記述される動的システムを用いることでテンポ軌跡に対して制約を設けるアプローチがある。このアプローチでは、テンポの連続性といった事前情報を設けた上で、リハーサルを通じて演奏者のテンポ軌跡などを学習する。また、伴奏パートは伴奏パートの発音タイミングを別途学習できる。これらは少ないパラメータでテンポ軌跡を記述するため、リハーサル中に伴奏パートまたは人間の「癖」を容易に手動で上書きできる。しかし、追従性を独立に操作することは難しく、追従性は演奏者と合奏エンジンそれぞれが独立に演奏した時における発音タイミングのばらつきから間接的に得られていた。リハーサル中における瞬発力を高めるためには、自動演奏システムによる学習と、自動演奏システムと演奏者との対話を交互に行うことが有効と考えられる。そこで、追従性を独立に操作するため、合奏再生ロジック自体を調整する方法が提案されている。本手法では、このようなアイディアに基づき、「合わせ方」「伴奏パートの演奏タイミング」「演奏者の演奏タイミング」を独立かつ対話的に制御できるような数理モデルを考える。
3.システムの概要
自動演奏システムの構成を図12に示す。本手法では、演奏者の位置を追従するために、音響信号とカメラ映像に基づき楽譜追従を行う。また、楽譜追従の事後分布から得られた統計情報を元に、演奏者の演奏している位置の生成過程に基づき、演奏者の位置を予測する。伴奏パートの発音タイミングを決定するためには、演奏者のタイミングを予測モデルと、伴奏パートが取りうるタイミングの生成過程を結合することで、伴奏パートのタイミングを生成する。
4.楽譜追従
演奏者が現在弾いている楽曲中の位置を推定するために、楽譜追従を用いる。本システムの楽譜追従手法では、楽譜の位置と演奏されているテンポを同時に表現する離散的な状態空間モデルを考える。観測音を状態空間上の隠れマルコフ過程(hidden Markov model;HMM)としてモデル化し、状態空間の事後分布をdelayed-decision型のforward-backwardアルゴリズムで逐次推定する。delayed-decision型のfoward-backwardアルゴリズムとは、forwardアルゴリズムを逐次実行し、現在の時刻がデータの終端と見なしbackwardアルゴリズムを走らせることで、現在の時刻より数フレーム前の状態に対する事後分布を算出することを言う。事後分布のMAP値が楽譜上でオンセットとみなされる位置を通過した時点で、事後分布のラプラス近似を出力する。
状態空間の構造に関して述べる。まず、楽曲をR個の区間に分け、それぞれの区間を一つの状態とする。r番目の区間では、その区間を通過するのに必要なフレーム数nと、それぞれのnに対し、現在の経過フレーム0≦1<nを状態変数として持つ。つまり、nはある区間のテンポに相当し、rとlを組み合わせたものが楽譜上の位置に相当する。このような状態空間上の遷移を、次のようなマルコフ過程として表現する。
Figure 0007383943000001
このようなモデルは、explicit-duration HMMとleft-to-right HMMとの双方の特長を兼備する。すなわち、nの選択により、区間内の継続長を大まかに決めつつも、区間内における微小なテンポ変動を自己遷移確率pで吸収できる。区間の長さまたは自己遷移確率は、楽曲データを解析して求める。具体的には、テンポ指令またはフェルマータといったアノテーション情報を活用する。
次に、このようなモデルの観測尤度を定義する。それぞれの状態(r,n,l)には、ある楽曲中の位置~s(r,n,l)が対応している。また、楽曲中における任意の位置sに対して、観測される定Q変換(CQT)とΔCQTの平均値/~cs 2と/Δ~cs 2とに加え、精度κs (c)とκs (Δc)とがそれぞれ割り当てられる(記号/はベクトルを意味し、記号~は数式内のオーバーラインを意味する)。これらに基づき、時刻tにおいて、CQT,ct,ΔCQT,Δctを観測したとき、状態(rt,nt,lt)に対応する観測尤度を以下のように定義する。
Figure 0007383943000002
ここで、vMF(x|μ,κ)とはvon Mises-Fisher分布を指し、具体的には、x∈SD(SD:D-1次元単位球面)となるよう正規化して以下の数式で表現される。
Figure 0007383943000003
~cまたはΔ~cを決める際には、楽譜表現のピアノロールと、各音から想定されるCQTのモデルを用いる。まず楽譜上に存在する音高と楽器名のペアに対して固有のインデックスiを割り当てる。また、i番目の音に対して、平均的な観測CQTωifを割り当てる。楽譜上の位置sにおいて、i番目の音の強度をhsiと置くと、~cs,fは次のように与えられる。Δ~cは、~cs,fに対してs方向に一次差分を取り、半波整流することで得られる。
Figure 0007383943000004
無音の状態から楽曲を開始する際には、視覚情報がより重要になる。そこで、本システムでは、前述の通り、演奏者の前に配置されたカメラから検出された合図動作(キュー)を活用する。本手法では、自動演奏システムをトップダウンに制御するアプローチとは異なり、観測尤度に直接に合図動作の有無を反映させることで、音響信号と合図動作を統一的に扱う。そこで、まず楽譜情報に合図動作が必要とされる箇所{^qi}を抽出する。^qiには、楽曲の開始地点またはフェルマータの位置が含まれる。楽譜追従を実行中に合図動作を検出した場合、楽譜上の位置U[^qi-Τ,^qi]に対応する状態の観測尤度を0にすることで、合図動作の位置以降に事後分布を誘導する。楽譜追従により、合奏エンジンは、楽譜上で音が切り替わった位置から数フレーム後に、現在推定される位置またはテンポの分布を正規分布として近似したものを受け取る。すなわち、楽譜追従エンジンは、楽曲データ上に存在するn番目の音の切り替わり(以下「オンセットイベント」という)を検出したら、そのオンセットイベントが検出された時刻のタイムスタンプtnと、推定された楽譜上の平均位置μnとその分散σn 2を合奏タイミング生成部に通知する。なお、delayed-decision型の推定を行うため、通知自体には100msの遅延が生じる。
5.演奏タイミング結合モデル
合奏エンジンは、楽譜追従から通知された情報(tnnn 2)を元に、適切な合奏エンジンの再生位置を計算する。合奏エンジンが演奏者に合わせるためには、(1)演奏者が演奏するタイミングの生成過程、(2)伴奏パートが演奏するタイミングの生成過程、(3)演奏者を聞きながら伴奏パートが演奏する過程の三つを独立にモデル化することが好ましい。このようなモデルを使い、伴奏パート生成したい演奏タイミングと、演奏者の予測位置を加味しながら、最終的な伴奏パートのタイミングを生成する。
5.1 演奏者の演奏タイミング生成過程
演奏者の演奏タイミングを表現するため、演奏者が、tnとtn+1の間で楽譜上の位置を、速度vn (p)で直線運動していると仮定する。すなわち、xn (p)をtnでの演奏者が弾いている楽譜上の位置とし、εn (p)を速度または楽譜上の位置に対するノイズとし、次のような生成過程を考える。ただし、ΔTm,n=tm-tnとする。
Figure 0007383943000005
ノイズεn (p)は、テンポの変化に加え、アゴーギクまたは発音タイミング誤差が含まれる。前者を表すためには、テンポ変化に応じて発音タイミングも変わることを踏まえ、tnとtn-1の間を、分散ψ2の正規分布から生成された加速度で遷移するモデルを考える。すると、εn (p)の共分散行列は、h=[ΔTn,n-1 2/2,ΔTn,n-1]とすると、Σn (p)=ψ2h’hと与えられ、テンポ変化と発音タイミング変化が相関するようになる。また、後者を表すため、標準偏差σn (p)の白色雑音を考え、σn (p)をΣn,0,0 (p)に加算する。したがって、σn (p)をΣn,0,0 (p)に加算した行列をΣn (p)とすると、εn (p)~N(0,Σn (p))と与えられる。N(a,b)は、平均aおよび分散bの正規分布を意味する。
次に、楽譜追従システムが報告する、ユーザの演奏タイミングの履歴/μn=[μnn-1,…,μn-In]と/σn 2=[σnn-1,…,σn-In]を、式(3)または式(4)と結びつけることを考える。ここで、Inは、考慮する履歴の長さであり、tnよりも1拍前のイベントまでを含むように設定される。このような/μnまたは/σn 2の生成過程を次のように定める。
Figure 0007383943000006
ここで、/Wnは、xn (p)とvn (p)から観測/μnを予測するための回帰係数である。ここでは、/Wnを以下のように定義する。
Figure 0007383943000007
従来のように、観測値として直近のμnを使うのではなく、それ以前の履歴も用いることにより、楽譜追従が一部で失敗しても動作が破綻しにくくなると考えられる。また、/Wnをリハーサルを通じて獲得することも可能であると考えられ、テンポの増減のパターンといった、長時間の傾向に依存する演奏法にも追従ができるようになると考えられる。このようなモデルは、テンポと楽譜上の位置変化の関係性を明記するという意味では、トラジェクトリHMMのコンセプトを連続状態空間に適用したものに相当する。
5.2 伴奏パートの演奏タイミング生成過程
前述したような、演奏者のタイミングモデルを使うことで、演奏者の内部状態[xn (p),vn (p)]を、楽譜追従が報告した位置の履歴から推論することができる。自動演奏システムは、このような推論と、伴奏パートがどのように「弾きたいか」というクセを協調させながら、最終的な発音タイミングを推論する。そこで、ここでは伴奏パートがどのように「弾きたいか」という、伴奏パートにおける演奏タイミングの生成過程について考える。
伴奏パートの演奏タイミングでは、与えられたテンポ軌跡から一定の範囲内のテンポ軌跡で演奏される過程を考える。与えられるテンポ軌跡とは、演奏表情付けシステムまたは人間の演奏データを使うことが考えられる。自動演奏システムがn番目のオンセットイベントを受け取ったときに、楽曲上のどの位置を弾いているかの予測値^xn (a)とその相対速度^vn (a)を次のように表現する。
Figure 0007383943000008
ここで、~vn (a)とは時刻tnで報告された楽譜上の位置nにおいて事前に与えたテンポであり、事前に与えたテンポ軌跡を代入する。また、ε(a)は、事前に与えたテンポ軌跡から生成された演奏タイミングに対して許容される逸脱の範囲を定める。このようなパラメータにより、伴奏パートとして音楽的に自然な演奏の範囲を定める。β∈[0,1]とは事前に与えたテンポにどれだけ強く引き戻そうとするかを表す項であり、テンポ軌跡を~vn (a)に引き戻そうとする効果がある。このようなモデルはオーディオアラインメントにおいて一定の効果があるため、同一楽曲を演奏するタイミングの生成過程として妥当性があると示唆される。なお、このような制約がない場合(β=1)、^vはウィナー過程に従うため、テンポが発散し、極端に速かったり遅い演奏が生成されうる。
5.3 演奏者と伴奏パートの演奏タイミング結合過程
ここまでは、演奏者の発音タイミングと、伴奏パートの発音タイミングをそれぞれ独立にモデル化した。ここでは、これらの生成過程を踏まえた上で、演奏者を聞きながら、伴奏パートが「合わせる」過程について述べる。そこで、伴奏パートが人に合わせる際、伴奏パートが現在弾こうとする位置の予測値と、演奏者の現在位置の予測値の誤差を徐々に補正するような挙動を記述することを考える。以下では、このような、誤差を補正する程度を記述した変数を「結合係数」と呼ぶ。結合係数は、伴奏パートと演奏者の主従関係に影響される。例えば、演奏者が伴奏パートよりも明瞭なリズムを刻んでいる場合、伴奏パートは演奏者に強めに合わせること多い。また、リハーサル中に主従関係を演奏者から指示された場合は、指示されたように合わせ方を変える必要がある。つまり、結合係数は、楽曲のコンテキストまたは演奏者との対話に応じて変わる。そこで、tnを受け取った際の楽譜位置における結合係数γn∈[0,1]が与えられたとき、伴奏パートが演奏者に合わせる過程を以下のように記述する。
Figure 0007383943000009
このモデルでは、γnの大小に応じて、追従度合いが変わる。例えば、γn=0の時は、伴奏パートは演奏者に一切合わせず、γn=1の時は、伴奏パートは演奏者に完璧に合わせようとする。このようなモデルでは、伴奏パートが演奏しうる演奏^xn (a)の分散と、演奏者の演奏タイミングxn (p)における予測誤差も結合係数によって重み付けられる。そのため、x(a)またはv(a)の分散は演奏者の演奏タイミング確率過程自体と、伴奏パートの演奏タイミング確率過程自体が協調されたものになる。そのため、演奏者と自動演奏システム、両者が「生成したい」テンポ軌跡を自然に統合できていることがわかる。
β=0.9における、本モデルのシミュレーションを図13に示す。このようにγを変えることで、伴奏パートのテンポ軌跡(正弦波)と、演奏者のテンポ軌跡(ステップ関数)の間を補完できることが分かる。また、βの影響により、生成されたテンポ軌跡は、演奏者のテンポ軌跡よりも伴奏パートの目標とするテンポ軌跡に近づけるようになっていることが分かる。つまり、~v(a)よりも演奏者が速い場合は演奏者を「引っ張り」、遅い場合は演奏者を「急かす」ような効果があると考えられる。
5.4 結合係数γの算出方法
結合係数γnに表すような演奏者同士の同期度合いは、いくつかの要因により設定される。まず、楽曲中のコンテキストに主従関係が影響される。例えば、合奏をリードするのは、分かりやすいリズムを刻むパートであることが多い。また、対話を通じて主従関係を変えることもある。楽曲中のコンテキストから主従関係を設定するため、楽譜情報から、音の密度φn=[伴奏パートに対する音符密度の移動平均、演奏者パートに対する音符密度の移動平均]を算出する。音の数が多いパートの方が、テンポ軌跡を決めやすいため、このような特徴量を使うことで近似的に結合係数を抽出できると考えられる。このとき、伴奏パートが演奏を行っていない場合(φn,0=0)、合奏の位置予測は演奏者に完全に支配され、また、演奏者が演奏を行わない箇所(φn,1=0)では、合奏の位置予測は演奏者を完全に無視するような挙動が望ましい。そこで、次のようにγnを決定する。
Figure 0007383943000010
ただし、ε>0は十分に小さい値とする。人間同士の合奏では、完全に一方的な主従関係(γn=0またはγn=1)は発生しにくいのと同様に、上式のようなヒューリスティックは、演奏者と伴奏パートどちらも演奏している場合は完全に一方的な主従関係にはならない。完全に一方的な主従関係は、演奏者・合奏エンジンどちらかがしばらく無音である場合のみ起こるが、このような挙動はむしろ望ましい。
また、γnはリハーサル中など、必要に応じて、演奏者またはオペレータが上書きすることができる。γnの定義域が有限であり、かつその境界条件での挙動が自明であること、または、γnの変動に対し挙動が連続的に変化することは、リハーサル中に適切な値を人間が上書きする上で望ましい特性であると考えられる。
5.5 オンライン推論
自動演奏システムの運用時は、(tnnn 2)を受け取ったタイミングで、前述の演奏タイミングモデルの事後分布を更新する。提案手法はカルマンフィルタを用いて効率的に推論することができる。(tnnn 2)が通知された時点でカルマンフィルタのpredictとupdateステップを実行し、時刻tにおいて伴奏パートが演奏すべき位置を以下のように予測する。
Figure 0007383943000011
ここでτ(s)とは、自動演奏システムにおける入出力遅延である。なお、本システムでは、伴奏パート発音時にも状態変数を更新する。つまり、前述したように、楽譜追従結果に応じてpredict/updateステップを実行することに加え、伴奏パートが発音した時点で、predictステップのみを行い、得られた予測値を状態変数に代入する。
6.評価実験
本システムを評価するため、まず演奏者の位置推定精度を評価する。合奏のタイミング生成に関しては、合奏のテンポを規定値に引き戻そうとする項であるβ、または、伴奏パートを演奏者にどれだけ合わせるかの指標であるγの有用性を、演奏者へのヒアリングを行うことで評価する。
6.1 楽譜追従の評価
楽譜追従精度の評価を行うため、Bergmullerのエチュードに対する追従精度を評価した。評価データとして、Bergmullerのエチュード(Op.100)のうち、14曲(1番,4番-10番,14番,15番,19番,20番,22番,23番)をピアニストが演奏したデータを収録したものを使い、譜面追従精度を評価した。なお、この実験ではカメラの入力は使用しなかった。評価尺度にはMIREXに倣い、Total precisionを評価した。Total precisionとは、アラインメントの誤差がある閾値τに収まる場合を正解とした場合の、コーパス全体に対する精度を示す。
まず、delayed-decision型の推論に関する有用性を検証するため、delayed-decision forward backwardアルゴリズムにおける遅延フレーム量に対するtotal precision(τ=300ms)を評価した。結果を図14に示す。数フレーム前の結果の事後分布を活用することで精度が上がることが分かる。また、遅延量が2フレームを超えると精度は徐々に下がることも分かる。また、遅延量2フレームの場合、τ=100msでtotal precision=82%、τ=50msで64%であった。
6.2 演奏タイミング結合モデルの検証
演奏タイミング結合モデルの検証は、演奏者へのヒアリングを通じて行った。本モデルの特徴としては、合奏エンジンが想定テンポに引き戻そうとするβと、結合係数γの存在であり、これら両者についての有効性を検証した。まず、結合係数の影響を外すため、式(4)をvn (p)=βvn-1 (p)+(1-β)~vn (a)とし、xn (a)=xn (p)、vn (a)=vn (p)としたシステムを用意した。つまり、テンポの期待値が^vにあり、その分散がβにより制御されるようなダイナミクスを仮定しながら、楽譜追従の結果をフィルタリングした結果を直接伴奏の演奏タイミング生成に使うような合奏エンジンを考えた。まず、β=0に設定した場合の自動演奏システムを、ピアニスト6名に一日間利用してもらったあと、使用感に関してヒアリングを行った。対象曲はクラシック・ロマン派・ポピュラーなど幅広いジャンルの曲から選曲した。ヒアリングでは、合奏に人間が合わせようとすると、伴奏パートも人間に合わせようとし、テンポが極端に遅くなったり速くなるという不満が支配的であった。このような現象は、式(12)におけるτ(s)が不適切に設定されていることにより、システムの応答が演奏者と微妙に合わない場合に発生する。例えば、システムの応答が想定よりも少し早い場合、ユーザは少し早めに返されるシステムに合わせようとするため、テンポを上げる。その結果、そのテンポに追従するシステムが更に早めに応答を返すことで、テンポが加速し続ける。
次に、β=0.1で同じ曲目を使って別のピアニスト5名と、β=0の実験にも参加したピアニスト1名で実験を行った。β=0の場合と同じ質問内容でヒアリングを行ったが、テンポが発散する問題は聞かれなかった。また、β=0でも実験に協力したピアニストからも追従性が改善しているというコメントがあった。ただし、演奏者がある曲に対して想定しているテンポと、システムが引き戻そうとするテンポに大きな齟齬がある場合、システムがもたつく・急かす、といったコメントが聞かれた。この傾向は特に未知の曲を弾く場合、つまり演奏者が「常識的な」テンポを知らない場合、において見られた。このことから、システムが一定のテンポに引き込もうとする効果により、テンポの発散を未然に防ぐ一方で、伴奏パートとテンポに関する解釈が極端に異なる場合、伴奏パートに煽られるような印象を受けることが示唆された。また、追従性に関しては、楽曲のコンテキストに応じて変えたほうがよいことも示唆された。なぜならば、楽曲の特性よって「引っ張ってもらったほうがいい」「もっと合わせて欲しい」といった、合わせ方の度合いに関する意見がほぼ一貫したためである。
最後に、プロの弦カルテットにγ=0に固定したシステムと、演奏のコンテキストに応じてγを調整したシステムを使ってもらったところ、後者の方が挙動が良いというコメントがあり、その有用性が示唆された。ただし、この検証では後者のシステムが改善後のシステムであることを被験者が知っていたため、好適にはAB法などを使い追加検証する必要がある。また、リハーサル中の対話に応じてγを変更する局面がいくつか存在したため、結合係数をリハーサル中で変更することが有用であると示唆された。
7.事前の学習処理
演奏者の「癖」を獲得するため、楽譜追従から算出された時刻tでのMAP状態^stと、その入力特徴系列{ctT t=1をもとに、hsiとωifおよびテンポ軌跡を推定する。ここでは、これらの推定方法について簡単に述べる。hsiとωifの推定においては、次のようなPoisson-Gamma 系のInformed NMFモデルを考え、事後分布を推定する。
Figure 0007383943000012
ここで現れる超パラメータは楽器音データベースまたは楽譜表現のピアノロールから適当に算出する。事後分布は、変分ベイズ法で近似的に推定する。具体的には、事後分布p(h,ω|c)をq(h)q(w)という形で近似し、事後分布とq(h)q(w)の間のKL距離を、補助変数を導入しながら最小化する。このようにして推定された事後分布から、楽器音の音色に相当するパラメータωのMAP推定を保存し、以降のシステム運用で使う。なお、ピアノロールの強さに相当するhを使うことも可能である。
続いて、演奏者がそれぞれの楽曲上の区間を演奏する長さ(すなわちテンポ軌跡)を推定する。テンポ軌跡を推定すると演奏者特有のテンポ表現を復元できるため、演奏者の位置予測が改善される。一方、リハーサルの回数が少ない場合は推定誤差などによりテンポ軌跡の推定が誤り、位置予測の精度がむしろ悪化する可能性もある。そこで、テンポ軌跡を変更する際には、テンポ軌跡に関する事前情報をまず持たせ、演奏者のテンポ軌跡が事前情報から一貫して逸脱している場所のテンポのみを変えることを考える。まず、演奏者のテンポがどれだけばらつくかを計算する。ばらつき度合いの推定値自体もリハーサルの回数が少ないと不安定になるため、演奏者のテンポ軌跡の分布自体にも事前分布を持たせる。演奏者が楽曲中の位置sにおけるテンポの平均μs (p)と分散λs (p)とがN(μs (p)|m0,b0λs (p)-1)Gamma(λs (p)-1|a0 λ,b0 λ)に従うとする。すると、K回の演奏から得られたテンポの平均がμs (R)、精度(分散)がλs (R)-1であったとすると、テンポの事後分布は以下のように与えられる。
Figure 0007383943000013
このようにして得られた事後分布を、楽曲中の位置sで取りうるテンポの分布N(μs Ss S-1)から生成された分布とみなした場合の事後分布を求めると、その平均値は以下のように与えられる。
Figure 0007383943000014
このようにして算出されたテンポを元に、式(3)または式(4)で用いられるεの平均値を更新する。
<第3実施形態>
本発明の第3実施形態を説明する。本実施形態では、自動演奏システム100は、演奏者Pによる合図動作を認識して演奏を行う。なお、以下に例示する各形態において作用または機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
本実施形態における合図動作は、特に、演奏者Pの顔の動きにより行われる動作を前提する。本実施形態における合図動作は、イベントを発生させるタイミングを動作により表現するものである。ここでのイベントは、演奏における様々な挙動であり、例えば、発音の開始、終了、テンポの周期などを示すタイミングである。本実施形態における合図動作は、例えば、合図を送る相手の方向に視線を向けて、頷いたり、相槌を打ったり、軽く息を吸い込むように顔を振り上げたりする動作である。
図15は、第3の実施形態の検出処理部524の構成の例を示すブロック図である。検出処理部524は、例えば、取得部5240と、判定部5241と、推定部5242と、出力部5243と、顔部分抽出モデル5244と、合図動作推定モデル5245とを備える。
取得部5240は、画像情報を取得する。画像情報は、演奏者Pによる演奏の様子が撮像された画像の情報であって、例えば、画像合成部522により生成された画像信号Vを含む情報である。
本実施形態において、画像情報は、デプス情報を含む情報である。デプス情報は、画像における画素ごとの、所定の位置(例えば、撮像位置)から被写体までの距離を示す情報である。この場合、収録装置22における複数の撮像装置222には、少なくとも一のデプスカメラが含まれる。デプスカメラは、被写体までの距離を測定する測距センサであって、例えば、赤外線などの光線を照射し、照射した光線が被写体に反射した反射光を受光するまでに要した時間に基づいて、被写体までの距離を測定する。或いは、複数の撮像装置222に、ステレオカメラが含まれていてもよい。ステレオカメラは、複数の互いに異なる方向から被写体を撮像することにより被写体までの奥行値(デプス情報)を算出する。
取得部5240は、所定の時間間隔で繰り返し画像情報を取得する。なお、ここでの所定の時間間隔は任意であり、周期的であっても、ランダムであっても、これらが混在していてもよい。取得部5240は、取得した画像情報を、判定部5241に出力する。
判定部5241は、取得部5240から取得した画像情報に基づいて、画像情報に示される画像(以下、撮像画像という)に、人の目を含む顔部分(以下、顔部分という)を、抽出する。
具体的に、判定部5241は、まず、撮像画像から背景を分離する。判定部5241は、例えば、画素のデプス情報を用いて、被写体までの距離が所定の閾値より大きい画素を背景と判定し、被写体までの距離までの所定の閾値より小さい領域を抽出することにより、撮像画像から背景を分離する。この場合において、判定部5241は、被写体までの距離までの所定の閾値より小さい領域であっても、その領域の面積が所定の閾値より小さい領域を背景と判定するようにしてもよい。
次に、判定部5241は、背景を分離した画像と、顔部分抽出モデル5244とを用いて、顔部分を抽出する。顔部分抽出モデル5244は、学習モデルに教師データを学習させることにより作成された学習済みモデルである。学習モデルは、例えば、CNN(Convolutional Neural Network)である。教師データは、人の目を含む顔部分が撮像された学習用画像と、前記学習用画像における人の顔部分が判定された判定結果とを対応付けたデータ(データセット)である。教示データを学習することにより、顔部分抽出モデル5244は、入力された画像から、その画像における人の顔部分を推定し、推定結果を出力するモデルとなる。判定部5241は、取得部5240から取得した画像情報を、顔部分抽出モデル5244に入力して得られた出力に基づいて、顔部分を抽出する。
次に、判定部5241は、撮像画像から抽出した顔部分の画像(以下、抽出画像という)に基づいて、当該顔部分の動きを検出する。判定部5241は、例えば、抽出画像を、時系列に順に比較することにより、顔部分の動きを検出する。判定部5241は、例えば、抽出画像における特徴点を抽出し、抽出した特徴点の位置座標における時系列に変化に基づいて顔部分の動きを検出する。ここでの特徴点は、顔部分の特徴的な箇所を示す点であり、例えば、目頭、眉尻等である。抽出画像に目以外の部分が含まれていれば、口角などを特徴点として抽出してもよい。
判定部5241は、抽出画像に基づいて、視線の方向を検出する。判定部5241は、抽出画像における目の領域を抽出する。目の領域を抽出する方法は任意であってよいが、例えば、顔部分抽出モデル5244と同様な学習済みモデルを用いてもよいし、他の画像処理の手法を用いてもよい。例えば、判定部5241は、顔の向きに基づいて視線の方向を判定する。通常、演奏者Pは、合図する相手の方向に顔を向けて相手を見て合図すると考えられるためである。判定部5241は、左右の目や眉など、顔の上下方向の中心線に対して左右対称な部分のデプス情報に基づいて、顔における左右方向の向きを判定する。判定部5241は、例えば、左右の目それぞれの距離の差分が所定の閾値より小さく、左右の目がデプスカメラからほぼ等距離にあると見なせる場合、デプスカメラに対して顔が正面を向いており、その正面の方向に視線の方向があると判定する。上下方向の向きについても同様な方法で判定することができる。
判定部5241は、検出した結果を用いてイベントのタイミングを示す合図動作に関連する予備動作が行われているか否かを判定する。予備動作は、合図動作における一部の動作、或いは合図動作に繋がる動作であり、合図動作において示される発音の開始等のタイミングの前に行われる予備的な動作である。予備動作は、例えば、頷くことにより合図動作が行われる場合には、顔を上げる動作(以下、cue-upともいう)の前に行われる、顔を下げる動作(以下、cue-downともいう)である。或いは、予備動作は、軽く息を吸い込むように顔を上げることにより合図動作が行われる場合には、顔を上げる前に行われる、息を吐く動作である。
判定部5241は、例えば、顔部分の動きが頷きを示す上下の方向に沿った方向(「第1方向」の一例)であり、且つ、視線の方向が合図する相手の方向(「第2方向」の一例)である場合に、予備動作が行われていると判定する。判定部5241は、予備動作の判定結果を推定部5242に出力する。
推定部5242は、判定部5241の判定結果に基づいて、予備動作が示された画像から、イベントが発生するタイミングを推定する。推定部5242は、例えば、予備動作を含む一連の動作の流れを示す画像群と、合図動作推定モデル5245とを用いて、イベントが発生するタイミングを推定する。合図動作推定モデル5245は、学習モデルに教師データを学習させることにより作成された学習済みモデルである。学習モデルは、例えば、LSTM(Long Short-Term Memory)である。教師データは、人の目を含む顔部分が撮像された時系列の学習用画像と、前記学習用画像における合図動作が判定された判定結果とを対応付けたデータ(データセット)である。ここでの合図動作には、合図動作を判定するための種々の動作が含まれてよく、例えば、合図動作(cue-up)、予備動作(cue-down)、視線が特定の方向を見ている、見ていない等の動作が含まれる。教示データを学習することにより、合図動作推定モデル5245は、入力された時系列画像群から、その一連の画像における次の画像に示される動作を推定し、推定結果を出力するモデルとなる。判定部5241は、備動作を含む一連の動作の流れを示す画像群を、顔部分抽出モデル5244に入力して得られた出力に基づいて、イベントを発生させるタイミングを推定する。
出力部5243は、推定部5242により推定されたイベントを発生させるタイミングを示す情報を出力する。
顔部分抽出モデル5244は、人の目を含む顔部分が撮像された学習用画像と、学習用画像における人の顔部分が判定された判定結果とを対応付けたデータセットを教師データとして、入力された画像における人の顔部分を出力するように学習されたモデルである。
合図動作推定モデル5245は、人の目を含む顔部分が撮像された学習用画像と、学習用画像における合図動作が判定された判定結果とを対応付けたデータセットを教師データとして、入力された画像において前記合図動作が行われるかを出力するように学習されたモデルである。
図16は、検出処理部524が行う処理の流れを示すフローチャートである。
取得部5240は、画像情報を取得する。取得部5240は、取得した画像情報を判定部5241に出力する(ステップS10)。
判定部5241は、画像情報に基づいて、画像における顔部分が撮像された領域を抽出し(ステップS11)、抽出した画像に基づいて、顔部分の動き、及び視線の方向を検出する。判定部5241は、検出結果に基づいて、顔部分の動きが所定の方向であるか否かを判定する(ステップS12)。また、判定部5241は、視線の方向が特定の方向(図16では、カメラ方向)であるか否かを判定する(ステップS13)。判定部5241は、顔部分に動き、及び視線の方向に基づいて、合図動作に関連する予備動作が行われる画像か否かを判定し、判定結果を、推定部5242に出力する。
推定部5242は、判定部5241により予備動作が行われていると判定された画像の画像情報に基づいて、イベントを発生させるタイミングを推定する(ステップS14)。推定部5242は、例えば、予備動作を含む一連の時系列画像群と、合図動作推定モデル5245とを用いて、次に行われる動作を推定させることにより、イベントを発生させるタイミングを推定する。推定部5242は、推定結果を出力部5243に出力する。
出力部5243は、推定部5242により推定された推定結果を出力する。出力部5243は、例えば、推定されたイベントを発生させるタイミングに応じた演奏開始信号を出力する(ステップS15)。
以上説明した通り、第3の実施形態の自動演奏システム100(制御システム)は、取得部5240と、判定部5241と、推定部5242と、出力部5243とを備える。取得部5240は、画像情報を取得する。判定部5241は、画像情報に基づいて、画像情報に示される撮像画像に人の目を含む顔部分が撮像されている場合に、当該顔部分の動きと、当該人の視線の方向を検出し、前記検出した結果を用いて、イベントを発生させるタイミングを示す合図動作に関連する予備動作が行われているか否かを判定する。推定部5242は、判定部5241により予備動作が行われていると判定された場合、画像情報に基づいて、イベントを発生させるタイミングを推定する。出力部5243は、推定部5242により推定された推定結果を出力する。
これにより、第3の実施形態の自動演奏システム100は、顔の動きに基づいてイベントを発生させるタイミングを推定することができる。すなわち、楽曲の演奏におけ、発音の開始タイミング、フェルマータの復帰タイミング、楽曲の最後の音の発音及び停止のタイミング合わせ等、アイコンタクトによる合図が想定される局面において、演奏者Pが顔の動き、及び視線方向により示される合図動作に基づいて、自動演奏システム100による演奏を制御することが可能である。
第3の実施形態では、目を含む顔部分が撮像された画像を用いて推定を行う。このため、管楽器などの演奏者Pが撮像された画像において、演奏者Pの顔の一部が楽器などにより隠れてしまう(オクルージョンが発生する)場合であっても、演奏の過程でオクルージョンが発生し難い目の周辺部分を用いて合図動作を認識し、ベントを発生させるタイミングを推定することができる。したがって、演奏において様々な動作が行われた場合であっても頑健に推定することが可能である。
第3の実施形態では、顔部分の動きと、視線の方向との両方を用いて推定を行う。このため、演奏者Pが演奏に集中するあまり顔や体を動かす動作と、合図動作とを区別することができるため、顔部分の動きのみで推定する場合と比較して推定の精度を向上させることができる。
また、第3の実施形態の自動演奏システム100では、推定部5242は、合図動作推定モデル5245を用いて、イベントを発生させるタイミングを推定する。これにより、複雑な画像処理を行うことなく、画像をモデルに入力させるという簡単な方法で推定を行うことができる。したがって、複雑な画像処理を行う場合と比較して処理負担の軽減や処理時間の短縮が期待できる。また、合図動作推定モデル5245に学習させる教示データにより、発音の開始、テンポの周期など、様々なイベントについて、そのタイミングを推定させることができ、任意のイベントに対応可能である。
また、第3の実施形態の自動演奏システム100では、判定部5241は、画像情報に基づいて、前記顔部分の動きが頷くような上下方向に沿った方向(特定の第1方向)であり、且つ、視線の方向が合図する相手の方向(特定の第2方向)である場合に、予備動作が行われていると判定する。これにより、合図動作における特徴的な、特定の方向の動き、視線の方向に基づいて判定を行うことができ、精度を向上させることが可能である。
また、第3の実施形態の自動演奏システム100では、判定部5241は、顔部分抽出モデル5244を用いて、前記顔部分の動きを検出する。これにより、上述した効果と同様の効果を奏する。
また、第3の実施形態の自動演奏システム100では、記画像情報は、画像における画素ごと被写体との距離を示すデプス情報を含み、判定部5241は、デプス情報に基づいて、撮像画像における背景を分離して画像における顔部分を抽出する。顔に示す目の領域は比較的狭い領域であるため、画像から抽出した目の領域における画素数は、他の領域と比較して少ない。また、目は、他の部位と比較して形状や色が複雑である。このため、目の領域を正確に抽出できた場合であっても、他の領域と比較してノイズが混在し易い。このため目の領域を抽出した画像を画像処理することにより顔の向きを検出しようとしても精度よく抽出することが困難となる。これに対し、本実施形態ではデプス情報を用いている。デプス情報は、目の周辺であっても色情報などと比較して複雑に変化することはない。このため、目の周辺のデプス情報(深度情報)に基づいて、顔の向きを精度よく検出することが可能である。また、撮像装置222から演奏者Pまでのおおよその距離は、事前に把握することができる。このため、デプス情報を用いれは、輪郭抽出など複雑な画像処理を行うことなく、背景を容易に分離して演奏者Pを抽出することができる。背景の画素を、解析の対象から除外することにより、処理の高速化だけでなく、誤検出の軽減も期待できる。
なお、上記では、画像情報に基づいて視線の方向を検出する場合を例示して説明したが、これに限定されない。例えば、アイトラッキング等、眼球に照射した赤外線の反射光に基づいて検出した角膜と瞳孔との相対的な位置関係を用いて、視線の方向を検出するようにしてもよい。
また、第3の実施形態の自動演奏システム100を用いて、合奏用のエージェントが反応するようにしてもよい。例えば、演奏者Pが、カメラが搭載されたロボットを注視すると、ロボットが演奏者Pを見る動作を行うようにしてもよい。さらに、演奏者Pが、合図動作(例えば、cue-up)や予備動作(例えば、cue-down)を行うと、その動作に合わせてロボットも相槌を打つ。これにより、演奏者Pに対して自動演奏システム100が同調している演出を行うことができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
100…自動演奏システム、12…制御装置、22…収録装置、222…撮像装置、52…合図検出部、522…画像合成部、524…検出処理部、5240…取得部、5241…判定部、5242…推定部、5243…出力部、5244…顔部分抽出モデル、5245…合図動作推定モデル

Claims (10)

  1. 経時的に撮影されたユーザを含む画像情報を取得する取得部と、
    前記画像情報から検出した前記ユーザの顔の動きと視線の方向に基づいて、イベントを発生させるタイミングを示す合図動作に関連する予備動作が行われているか否かを判定する判定部と、
    前記予備動作が行われていると判定した場合に、イベントを発生させるタイミングを推定する推定部と、
    前記推定部により推定された推定結果を出力する出力部と、
    を備える制御システム。
  2. 画像情報を取得する取得部と、
    前記画像情報に基づいて、前記画像情報に示される撮像画像における顔部分の動きと、視線の方向を検出し、前記検出した結果を用いて、イベントを発生させるタイミングを示す合図動作に関連する予備動作が行われているか否かを判定する判定部と、
    前記判定部により前記予備動作が行われていると判定された場合、前記画像情報に基づいて、前記合図動作によりイベントを発生させるタイミングを推定する推定部と、
    前記推定部により推定された推定結果を出力する出力部と、
    を備える制御システム。
  3. 前記推定部は、人の目を含む顔部分が撮像された学習用画像と、前記学習用画像におけるイベントを発生させるタイミングを示す合図動作が判定された判定結果とを対応付けたデータセットを教師データとして、入力された画像において前記合図動作が行われるかを出力するように学習された合図動作推定モデルの出力結果を用いて、イベントを発生させるタイミングを推定する、
    請求項1又は請求項2に記載の制御システム。
  4. イベントを発生させるタイミングを示す合図動作により示されるイベントは、発音の開始であり、
    前記推定部は、発音の開始を示す、人の目を含む顔部分の動きを前記合図動作として、画像と前記合図動作との関係を学習した学習結果を示す合図動作推定モデルを用いて、発音の開始を示すタイミングを推定する、
    請求項1から請求項3のいずれか一項に記載の制御システム。
  5. イベントを発生させるタイミングを示す合図動作により示されるイベントは、演奏におけるテンポの周期であり、
    前記推定部は、演奏におけるテンポの周期を示す、人の目を含む顔部分の動きを前記合図動作として、画像と前記合図動作との関係を学習した学習結果を示す合図動作推定モデルを用いて、演奏におけるテンポの周期を示すタイミングを推定する、
    請求項1から請求項4のいずれか一項に記載の制御システム。
  6. 前記判定部は、前記画像情報に基づいて、人の目を含む顔部分の動きが特定の第1方向であり、且つ、前記視線の方向が特定の第2方向である場合に、前記予備動作が行われていると判定する、
    請求項1から請求項5のいずれか一項に記載の制御システム。
  7. 前記判定部は、人の目を含む顔部分が撮像された学習用画像と、前記学習用画像における前記顔部分が判定された判定結果とを対応付けたデータセットを教師データとして、入力された画像における人の顔部分を出力するように学習された顔部分抽出モデルの出力結果を用いて、前記画像情報に示される撮像画像における前記顔部分を抽出し、前記抽出した顔部分の画像に基づいて、前記顔部分の動きを検出する、
    請求項1から請求項6のいずれか一項に記載の制御システム。
  8. 前記画像情報は、画像における画素ごと被写体との距離を示すデプス情報を含み、
    前記判定部は、前記デプス情報に基づいて、前記画像情報に示される撮像画像における背景を分離し、前記背景を分離した画像に基づいて、当該画像における、人の目を含む顔部分を抽出する、
    請求項1から請求項7のいずれか一項に記載の制御システム。
  9. 取得部が、画像情報を取得し、
    判定部が、前記画像情報に基づいて、前記画像情報に示される撮像画像における顔部分の動きと、視線の方向を検出し、前記検出した結果を用いて、イベントを発生させるタイミングを示す合図動作に関連する予備動作が行われているか否かを判定し、
    推定部が、前記判定部により前記予備動作が行われていると判定された場合、前記画像情報に基づいて、前記合図動作によりイベントを発生させるタイミングを推定し、
    出力部が、前記推定部により推定された推定結果を出力する、
    制御方法。
  10. コンピュータに、
    経時的に撮影されたユーザを含む画像情報を取得させ、
    前記画像情報から検出した前記ユーザの顔の動きと視線の方向に基づいて、イベントを発生させるタイミングを示す合図動作に関連する予備動作が行われているか否かを判定させ、
    前記予備動作が行われていると判定した場合に、イベントを発生させるタイミングを推定させ、
    前記推定された推定結果を出力させる、
    処理を実行させる、プログラム。
JP2019163227A 2016-07-22 2019-09-06 制御システム、制御方法、及びプログラム Active JP7383943B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019163227A JP7383943B2 (ja) 2019-09-06 2019-09-06 制御システム、制御方法、及びプログラム
US16/729,676 US10846519B2 (en) 2016-07-22 2019-12-30 Control system and control method
CN202010876140.0A CN112466266B (zh) 2019-09-06 2020-08-27 控制系统以及控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019163227A JP7383943B2 (ja) 2019-09-06 2019-09-06 制御システム、制御方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2021043258A JP2021043258A (ja) 2021-03-18
JP7383943B2 true JP7383943B2 (ja) 2023-11-21

Family

ID=74833762

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019163227A Active JP7383943B2 (ja) 2016-07-22 2019-09-06 制御システム、制御方法、及びプログラム

Country Status (2)

Country Link
JP (1) JP7383943B2 (ja)
CN (1) CN112466266B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102577734B1 (ko) * 2021-11-29 2023-09-14 한국과학기술연구원 라이브 공연의 자막 동기화를 위한 인공지능 학습 방법
JPWO2023170757A1 (ja) * 2022-03-07 2023-09-14
JP2023142748A (ja) * 2022-03-25 2023-10-05 ヤマハ株式会社 データ出力方法、プログラム、データ出力装置および電子楽器
WO2024085175A1 (ja) * 2022-10-18 2024-04-25 ヤマハ株式会社 データ処理方法およびプログラム
WO2024190759A1 (ja) * 2023-03-13 2024-09-19 ヤマハ株式会社 情報処理方法、情報処理システムおよびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014033313A (ja) 2012-08-02 2014-02-20 Olympus Imaging Corp 撮影機器
JP2017207615A (ja) 2016-05-18 2017-11-24 ヤマハ株式会社 自動演奏システムおよび自動演奏方法
WO2018016582A1 (ja) 2016-07-22 2018-01-25 ヤマハ株式会社 演奏解析方法、自動演奏方法および自動演奏システム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3735969B2 (ja) * 1995-11-02 2006-01-18 ヤマハ株式会社 指揮動作判定方法および指揮動作判定装置
JPH09251342A (ja) * 1996-03-15 1997-09-22 Toshiba Corp 注視箇所推定装置とその方法及びそれを使用した情報表示装置とその方法
JP3353661B2 (ja) * 1997-07-18 2002-12-03 ヤマハ株式会社 音楽制御装置および記憶媒体
JP2000347692A (ja) * 1999-06-07 2000-12-15 Sanyo Electric Co Ltd 人物検出方法、人物検出装置及びそれを用いた制御システム
JP4305153B2 (ja) * 2003-12-04 2009-07-29 ヤマハ株式会社 音楽セッション支援方法、音楽セッション用楽器
JP2009031951A (ja) * 2007-07-25 2009-02-12 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP4572980B2 (ja) * 2008-10-27 2010-11-04 ヤマハ株式会社 自動演奏装置及びプログラム
US9880615B2 (en) * 2013-02-15 2018-01-30 Seiko Epson Corporation Information processing device and control method for information processing device
JP6443093B2 (ja) * 2015-02-02 2018-12-26 ヤマハ株式会社 信号処理装置、および信号処理システム
WO2017029915A1 (ja) * 2015-08-17 2017-02-23 日本テレビ放送網株式会社 プログラム、表示装置、表示方法、放送システム及び放送方法
JP2017125911A (ja) * 2016-01-13 2017-07-20 ヤマハ株式会社 鍵盤楽器の演奏支援装置及び方法
JP6776788B2 (ja) * 2016-10-11 2020-10-28 ヤマハ株式会社 演奏制御方法、演奏制御装置およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014033313A (ja) 2012-08-02 2014-02-20 Olympus Imaging Corp 撮影機器
JP2017207615A (ja) 2016-05-18 2017-11-24 ヤマハ株式会社 自動演奏システムおよび自動演奏方法
WO2018016582A1 (ja) 2016-07-22 2018-01-25 ヤマハ株式会社 演奏解析方法、自動演奏方法および自動演奏システム

Also Published As

Publication number Publication date
CN112466266B (zh) 2024-05-31
CN112466266A (zh) 2021-03-09
JP2021043258A (ja) 2021-03-18

Similar Documents

Publication Publication Date Title
US10580393B2 (en) Apparatus for analyzing musical performance, performance analysis method, automatic playback method, and automatic player system
JP7383943B2 (ja) 制御システム、制御方法、及びプログラム
US10586520B2 (en) Music data processing method and program
US10846519B2 (en) Control system and control method
US10825432B2 (en) Smart detecting and feedback system for smart piano
US10482856B2 (en) Automatic performance system, automatic performance method, and sign action learning method
US10878789B1 (en) Prediction-based communication latency elimination in a distributed virtualized orchestra
US10534955B2 (en) Facial capture analysis and training system
US20220414472A1 (en) Computer-Implemented Method, System, and Non-Transitory Computer-Readable Storage Medium for Inferring Audience's Evaluation of Performance Data
Li et al. Skeleton Plays Piano: Online Generation of Pianist Body Movements from MIDI Performance.
US20230014315A1 (en) Trained model establishment method, estimation method, performance agent recommendation method, performance agent adjustment method, trained model establishment system, estimation system, trained model establishment program, and estimation program
Kim et al. A kinematic study of critical and non-critical articulators in emotional speech production
Cosentino et al. Human–robot musical interaction
Athanasopoulos et al. 3D immersive karaoke for the learning of foreign language pronunciation
WO2021193032A1 (ja) 演奏エージェントの訓練方法、自動演奏システム、及びプログラム
JP2005209000A (ja) 音声可視化方法及び該方法を記憶させた記録媒体
JP6977813B2 (ja) 自動演奏システムおよび自動演奏方法
Jylhä Sonic gestures and rhythmic interaction between the human and the computer
Hassanien et al. Computational intelligence in speech and audio processing: Recent advances
WO2024178242A1 (en) Robust speaker-independent estimation of vocal articulation
Kim Emotional Speech Production: From Data to Computational Models and Application
Kim et al. A kinematic study of critical and non-critical articulators in emotional speech production (running title: criticality of articulators and emotion)
JP2005308992A (ja) 学習支援システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220721

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230705

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231010

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231023

R151 Written notification of patent or utility model registration

Ref document number: 7383943

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151