JP7383943B2 - 制御システム、制御方法、及びプログラム - Google Patents
制御システム、制御方法、及びプログラム Download PDFInfo
- Publication number
- JP7383943B2 JP7383943B2 JP2019163227A JP2019163227A JP7383943B2 JP 7383943 B2 JP7383943 B2 JP 7383943B2 JP 2019163227 A JP2019163227 A JP 2019163227A JP 2019163227 A JP2019163227 A JP 2019163227A JP 7383943 B2 JP7383943 B2 JP 7383943B2
- Authority
- JP
- Japan
- Prior art keywords
- performance
- image
- motion
- signal
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 59
- 230000033001 locomotion Effects 0.000 claims description 241
- 238000012545 processing Methods 0.000 claims description 44
- 210000001508 eye Anatomy 0.000 claims description 31
- 230000009471 action Effects 0.000 claims description 21
- 230000001815 facial effect Effects 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 description 58
- 238000004458 analytical method Methods 0.000 description 56
- 238000009826 distribution Methods 0.000 description 52
- 238000004364 calculation method Methods 0.000 description 30
- 230000008569 process Effects 0.000 description 30
- 230000000875 corresponding effect Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 16
- 238000012544 monitoring process Methods 0.000 description 16
- 238000003384 imaging method Methods 0.000 description 15
- 230000008859 change Effects 0.000 description 13
- 238000002360 preparation method Methods 0.000 description 13
- 230000007246 mechanism Effects 0.000 description 12
- 238000003860 storage Methods 0.000 description 12
- 230000008878 coupling Effects 0.000 description 11
- 238000010168 coupling process Methods 0.000 description 11
- 238000005859 coupling reaction Methods 0.000 description 11
- 230000008901 benefit Effects 0.000 description 10
- 230000004044 response Effects 0.000 description 9
- 230000006399 behavior Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000004519 manufacturing process Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 8
- 241000282412 Homo Species 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 230000003111 delayed effect Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000007423 decrease Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000002156 mixing Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 230000033764 rhythmic process Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 210000003128 head Anatomy 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000005653 Brownian motion process Effects 0.000 description 1
- 238000013398 bayesian method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 210000004087 cornea Anatomy 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000003028 elevating effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- GVYLCNUFSHDAAW-UHFFFAOYSA-N mirex Chemical compound ClC12C(Cl)(Cl)C3(Cl)C4(Cl)C1(Cl)C1(Cl)C2(Cl)C3(Cl)C4(Cl)C1(Cl)Cl GVYLCNUFSHDAAW-UHFFFAOYSA-N 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/171—Transmission of musical instrument data, control or status information; Transmission, remote access or control of music data for electrophonic musical instruments
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Acoustics & Sound (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Description
図1は、本発明の第1実施形態に係る自動演奏システム100のブロック図である。自動演奏システム100は、複数の演奏者Pが楽器を演奏する音響ホール等の空間に設置され、複数の演奏者Pによる楽曲(以下「演奏対象曲」という)の演奏に並行して演奏対象曲の自動演奏を実行するコンピュータシステムである。なお、演奏者Pは、典型的には楽器の演奏者であるが、演奏対象曲の歌唱者も演奏者Pであり得る。すなわち、本出願における「演奏」には、楽器の演奏だけでなく歌唱も包含される。また、実際には楽器の演奏を担当しない者(例えば、コンサート時の指揮者またはレコーディング時の音響監督など)も、演奏者Pに含まれ得る。
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用または機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
[態様A1]
本発明の好適な態様(態様A1)に係る演奏解析方法は、楽曲を演奏する演奏者の合図動作を検出し、前記楽曲を演奏した音を表す音響信号の解析により、前記楽曲内の各時点が演奏位置に該当する確度の指標である観測尤度の分布を算定し、前記観測尤度の分布に応じて前記演奏位置を推定し、前記観測尤度の分布の算定において、前記合図動作を検出した場合には、前記楽曲について時間軸上に指定された基準点の前方の期間における観測尤度を低下させる。以上の態様では、音響信号の解析結果に加えて合図動作の検出結果が演奏位置の推定に加味されるから、例えば音響信号の解析結果のみを考慮する構成と比較して演奏位置を高精度に推定することが可能である。
[態様A2]
態様A1の好適例(態様A2)において、前記観測尤度の分布の算定では、前記楽曲内の各時点が演奏位置に該当する確度の指標である第1尤度を前記音響信号から算定し、前記合図動作が検出されない状態において第1値に設定され、前記合図動作が検出された場合には、前記基準点の前方の期間において、前記第1値を下回る第2値に設定される第2尤度を算定し、前記第1尤度と前記第2尤度との乗算により前記観測尤度を算定する。以上の態様では、音響信号から算定された第1尤度と合図動作の検出結果に応じた第2尤度との乗算により観測尤度を簡便に算定できるという利点がある。
[態様A3]
態様A2の好適例(態様A3)において、前記第1値は1であり、前記第2値は0である。以上の態様によれば、合図動作が検出された場合と検出されない場合とで観測尤度を明確に区別することが可能である。
[態様A4]
本発明の好適な態様(態様A4)に係る自動演奏方法は、楽曲を演奏する演奏者の合図動作を検出し、前記楽曲を演奏した音を表す音響信号の解析により前記楽曲内の演奏位置を推定し、前記演奏位置の進行に同期するように前記楽曲の自動演奏を自動演奏装置に実行させ、前記演奏位置の推定においては、前記音響信号の解析により、前記楽曲内の各時点が演奏位置に該当する確度の指標である観測尤度の分布を算定し、前記観測尤度の分布に応じて前記演奏位置を推定し、前記観測尤度の分布の算定において、前記合図動作を検出した場合には、前記楽曲について時間軸上に指定された基準点の前方の期間における観測尤度を低下させる。以上の態様では、音響信号の解析結果に加えて合図動作の検出結果が演奏位置の推定に加味されるから、例えば音響信号の解析結果のみを考慮する構成と比較して演奏位置を高精度に推定することが可能である。
[態様A5]
態様A4の好適例(態様A5)において、前記観測尤度の分布の算定では、前記楽曲内の各時点が演奏位置に該当する確度の指標である第1尤度を前記音響信号から算定し、前記合図動作が検出されない状態において第1値に設定され、前記合図動作が検出された場合には、前記基準点の前方の期間において、前記第1値を下回る第2値に設定される第2尤度を算定し、前記第1尤度と前記第2尤度との乗算により前記観測尤度を算定する。以上の態様では、音響信号から算定された第1尤度と合図動作の検出結果に応じた第2尤度との乗算により観測尤度を簡便に算定できるという利点がある。
[態様A6]
態様A4または態様A5の好適例(態様A6)において、前記楽曲の演奏内容を表す楽曲データに従って前記自動演奏装置に自動演奏を実行させ、前記複数の基準点は、前記楽曲データにより指定される。以上の態様では、自動演奏装置に自動演奏を指示する楽曲データにより各基準点が指定されるから、楽曲データとは別個に複数の基準点を指定する構成と比較して構成および処理が簡素化されるという利点がある。
[態様A7]
態様A4から態様A6の何れかの好適例(態様A7)において、前記自動演奏の進行を表す画像を表示装置に表示させる。以上の態様によれば、自動演奏装置による自動演奏の進行を演奏者が視覚的に確認して自身の演奏に反映させることが可能である。すなわち、演奏者による演奏と自動演奏装置による自動演奏とが相互に作用し合う自然な演奏が実現される。
[態様A8]
本発明の好適な態様(態様A8)に係る自動演奏システムは、楽曲を演奏する演奏者の合図動作を検出する合図検出部と、前記楽曲を演奏した音を表す音響信号の解析により前記楽曲内の演奏位置を推定する解析処理部と、前記合図検出部が検出する合図動作と前記演奏解析部が推定する演奏位置の進行とに同期するように楽曲の自動演奏を自動演奏装置に実行させる演奏制御部とを具備し、前記解析処理部は、前記音響信号の解析により、前記楽曲内の各時点が演奏位置に該当する確度の指標である観測尤度の分布を算定する尤度算定部と、前記観測尤度の分布に応じて前記演奏位置を推定する位置推定部とを含み、前記尤度算定部は、前記合図動作を検出した場合には、前記楽曲について時間軸上に指定された基準点の前方の期間における観測尤度を低下させる。以上の態様では、音響信号の解析結果に加えて合図動作の検出結果が演奏位置の推定に加味されるから、例えば音響信号の解析結果のみを考慮する構成と比較して演奏位置を高精度に推定することが可能である。
[態様B1]
本発明の好適な態様(態様B1)に係る自動演奏システムは、楽曲を演奏する演奏者の合図動作を検出する合図検出部と、演奏された音を表す音響信号を当該演奏に並行して解析することで楽曲内の演奏位置を順次に推定する演奏解析部と、合図検出部が検出する合図動作と演奏解析部が推定する演奏位置の進行とに同期するように楽曲の自動演奏を自動演奏装置に実行させる演奏制御部と、自動演奏の進行を表す画像を表示装置に表示させる表示制御部とを具備する。以上の構成では、演奏者による合図動作と演奏位置の進行とに同期するように自動演奏装置による自動演奏が実行される一方、自動演奏装置による自動演奏の進行を表す画像が表示装置に表示される。したがって、自動演奏装置による自動演奏の進行を演奏者が視覚的に確認して自身の演奏に反映させることが可能である。すなわち、演奏者による演奏と自動演奏装置による自動演奏とが相互に作用し合う自然な演奏が実現される。
[態様B2]
態様B1の好適例(態様B2)において、演奏制御部は、楽曲のうち演奏解析部が推定した演奏位置に対して後方の時点の演奏を自動演奏装置に指示する。以上の態様では、演奏解析部が推定した演奏位置に対して時間的に後方の時点の演奏内容が自動演奏装置に指示される。したがって、演奏制御部による演奏の指示に対して自動演奏装置による実際の発音が遅延する場合でも、演奏者による演奏と自動演奏とを高精度に同期させることが可能である。
[態様B3]
態様B2の好適例(態様B3)において、演奏解析部は、音響信号の解析により演奏速度を推定し、演奏制御部は、楽曲のうち、演奏解析部が推定した演奏位置に対して演奏速度に応じた調整量だけ後方の時点の演奏を、自動演奏装置に指示する。以上の態様では、演奏解析部が推定した演奏速度に応じた可変の調整量だけ演奏位置に対して後方の時点の演奏が自動演奏装置に指示される。したがって、例えば演奏速度が変動する場合でも、演奏者による演奏と自動演奏とを高精度に同期させることが可能である。
[態様B4]
態様B1から態様B3の何れかの好適例(態様B4)において、合図検出部は、撮像装置が演奏者を撮像した画像の解析により合図動作を検出する。以上の態様では、撮像装置が撮像した画像の解析により演奏者の合図動作が検出されるから、例えば演奏者の身体に装着した検出器により合図動作を検出する場合と比較して、演奏者による演奏に対する影響を低減しながら合図動作を検出できるという利点がある。
[態様B5]
態様B1から態様B4の何れかの好適例(態様B5)において、表示制御部は、自動演奏による演奏内容に応じて動的に変化する画像を表示装置に表示させる。以上の態様では、自動演奏による演奏内容に応じて動的に変化する画像が表示装置に表示されるから、演奏者が自動演奏の進行を視覚的および直観的に把握できるという利点がある。
[態様B6]
本発明の好適な態様(態様B6)に係る自動演奏方法は、コンピュータシステムが、楽曲を演奏する演奏者の合図動作を検出し、演奏された音を表す音響信号を当該演奏に並行して解析することで楽曲内の演奏位置を順次に推定し、合図動作と演奏位置の進行とに同期するように楽曲の自動演奏を自動演奏装置に実行させ、自動演奏の進行を表す画像を表示装置に表示させる。
本発明の好適な態様は、以下のように表現され得る。
1.前提
自動演奏システムとは、人間の演奏に対し、機械が合わせて伴奏を生成するシステムである。ここでは、クラシック音楽のように、自動演奏システムと人間それぞれが弾くべき楽譜表現が与えられている自動演奏システムについて論じる。このような自動演奏システムは、音楽演奏の練習支援、または、演奏者に合わせてエレクトロニクスを駆動するような音楽の拡張表現など、幅広い応用がある。なお、以下では、合奏エンジンが演奏するパートのことを「伴奏パート」と呼ぶ。音楽的に整合した合奏を行うためには、伴奏パートの演奏タイミングを適切に制御することが必要である。適切なタイミング制御には、以下に記載する4つの要求がある。
従来の自動演奏システムでは、楽譜追従を用いることで演奏者の演奏タイミングを推定する。その上で、合奏エンジンと人間を協調させるため、大きく分けて二つのアプローチが用いられる。第一に、多数のリハーサルを通じて演奏者と合奏エンジンの演奏タイミングに対する関係性を回帰することで、楽曲における平均的な挙動、もしくは時々刻々と変化する挙動、を獲得することが提案されている。このようなアプローチでは、合奏の結果自体を回帰するため、結果的に伴奏パートの音楽性と、伴奏パートの追従性を同時に獲得できる。一方、演奏者のタイミング予測、合奏エンジンの生成過程と、合わせる度合いを切り分けて表現することが難しいため、リハーサル中に追従性または音楽性を独立に操作することは難しいと考えられる。また、音楽的な追従性を獲得するためには、人間同士の合奏データを別途解析する必要があるため、コンテンツ整備にコストがかかる。第二に、少ないパラメータで記述される動的システムを用いることでテンポ軌跡に対して制約を設けるアプローチがある。このアプローチでは、テンポの連続性といった事前情報を設けた上で、リハーサルを通じて演奏者のテンポ軌跡などを学習する。また、伴奏パートは伴奏パートの発音タイミングを別途学習できる。これらは少ないパラメータでテンポ軌跡を記述するため、リハーサル中に伴奏パートまたは人間の「癖」を容易に手動で上書きできる。しかし、追従性を独立に操作することは難しく、追従性は演奏者と合奏エンジンそれぞれが独立に演奏した時における発音タイミングのばらつきから間接的に得られていた。リハーサル中における瞬発力を高めるためには、自動演奏システムによる学習と、自動演奏システムと演奏者との対話を交互に行うことが有効と考えられる。そこで、追従性を独立に操作するため、合奏再生ロジック自体を調整する方法が提案されている。本手法では、このようなアイディアに基づき、「合わせ方」「伴奏パートの演奏タイミング」「演奏者の演奏タイミング」を独立かつ対話的に制御できるような数理モデルを考える。
自動演奏システムの構成を図12に示す。本手法では、演奏者の位置を追従するために、音響信号とカメラ映像に基づき楽譜追従を行う。また、楽譜追従の事後分布から得られた統計情報を元に、演奏者の演奏している位置の生成過程に基づき、演奏者の位置を予測する。伴奏パートの発音タイミングを決定するためには、演奏者のタイミングを予測モデルと、伴奏パートが取りうるタイミングの生成過程を結合することで、伴奏パートのタイミングを生成する。
演奏者が現在弾いている楽曲中の位置を推定するために、楽譜追従を用いる。本システムの楽譜追従手法では、楽譜の位置と演奏されているテンポを同時に表現する離散的な状態空間モデルを考える。観測音を状態空間上の隠れマルコフ過程(hidden Markov model;HMM)としてモデル化し、状態空間の事後分布をdelayed-decision型のforward-backwardアルゴリズムで逐次推定する。delayed-decision型のfoward-backwardアルゴリズムとは、forwardアルゴリズムを逐次実行し、現在の時刻がデータの終端と見なしbackwardアルゴリズムを走らせることで、現在の時刻より数フレーム前の状態に対する事後分布を算出することを言う。事後分布のMAP値が楽譜上でオンセットとみなされる位置を通過した時点で、事後分布のラプラス近似を出力する。
合奏エンジンは、楽譜追従から通知された情報(tn,μn,σn 2)を元に、適切な合奏エンジンの再生位置を計算する。合奏エンジンが演奏者に合わせるためには、(1)演奏者が演奏するタイミングの生成過程、(2)伴奏パートが演奏するタイミングの生成過程、(3)演奏者を聞きながら伴奏パートが演奏する過程の三つを独立にモデル化することが好ましい。このようなモデルを使い、伴奏パート生成したい演奏タイミングと、演奏者の予測位置を加味しながら、最終的な伴奏パートのタイミングを生成する。
演奏者の演奏タイミングを表現するため、演奏者が、tnとtn+1の間で楽譜上の位置を、速度vn (p)で直線運動していると仮定する。すなわち、xn (p)をtnでの演奏者が弾いている楽譜上の位置とし、εn (p)を速度または楽譜上の位置に対するノイズとし、次のような生成過程を考える。ただし、ΔTm,n=tm-tnとする。
前述したような、演奏者のタイミングモデルを使うことで、演奏者の内部状態[xn (p),vn (p)]を、楽譜追従が報告した位置の履歴から推論することができる。自動演奏システムは、このような推論と、伴奏パートがどのように「弾きたいか」というクセを協調させながら、最終的な発音タイミングを推論する。そこで、ここでは伴奏パートがどのように「弾きたいか」という、伴奏パートにおける演奏タイミングの生成過程について考える。
ここまでは、演奏者の発音タイミングと、伴奏パートの発音タイミングをそれぞれ独立にモデル化した。ここでは、これらの生成過程を踏まえた上で、演奏者を聞きながら、伴奏パートが「合わせる」過程について述べる。そこで、伴奏パートが人に合わせる際、伴奏パートが現在弾こうとする位置の予測値と、演奏者の現在位置の予測値の誤差を徐々に補正するような挙動を記述することを考える。以下では、このような、誤差を補正する程度を記述した変数を「結合係数」と呼ぶ。結合係数は、伴奏パートと演奏者の主従関係に影響される。例えば、演奏者が伴奏パートよりも明瞭なリズムを刻んでいる場合、伴奏パートは演奏者に強めに合わせること多い。また、リハーサル中に主従関係を演奏者から指示された場合は、指示されたように合わせ方を変える必要がある。つまり、結合係数は、楽曲のコンテキストまたは演奏者との対話に応じて変わる。そこで、tnを受け取った際の楽譜位置における結合係数γn∈[0,1]が与えられたとき、伴奏パートが演奏者に合わせる過程を以下のように記述する。
結合係数γnに表すような演奏者同士の同期度合いは、いくつかの要因により設定される。まず、楽曲中のコンテキストに主従関係が影響される。例えば、合奏をリードするのは、分かりやすいリズムを刻むパートであることが多い。また、対話を通じて主従関係を変えることもある。楽曲中のコンテキストから主従関係を設定するため、楽譜情報から、音の密度φn=[伴奏パートに対する音符密度の移動平均、演奏者パートに対する音符密度の移動平均]を算出する。音の数が多いパートの方が、テンポ軌跡を決めやすいため、このような特徴量を使うことで近似的に結合係数を抽出できると考えられる。このとき、伴奏パートが演奏を行っていない場合(φn,0=0)、合奏の位置予測は演奏者に完全に支配され、また、演奏者が演奏を行わない箇所(φn,1=0)では、合奏の位置予測は演奏者を完全に無視するような挙動が望ましい。そこで、次のようにγnを決定する。
自動演奏システムの運用時は、(tn,μn,σn 2)を受け取ったタイミングで、前述の演奏タイミングモデルの事後分布を更新する。提案手法はカルマンフィルタを用いて効率的に推論することができる。(tn,μn,σn 2)が通知された時点でカルマンフィルタのpredictとupdateステップを実行し、時刻tにおいて伴奏パートが演奏すべき位置を以下のように予測する。
本システムを評価するため、まず演奏者の位置推定精度を評価する。合奏のタイミング生成に関しては、合奏のテンポを規定値に引き戻そうとする項であるβ、または、伴奏パートを演奏者にどれだけ合わせるかの指標であるγの有用性を、演奏者へのヒアリングを行うことで評価する。
楽譜追従精度の評価を行うため、Bergmullerのエチュードに対する追従精度を評価した。評価データとして、Bergmullerのエチュード(Op.100)のうち、14曲(1番,4番-10番,14番,15番,19番,20番,22番,23番)をピアニストが演奏したデータを収録したものを使い、譜面追従精度を評価した。なお、この実験ではカメラの入力は使用しなかった。評価尺度にはMIREXに倣い、Total precisionを評価した。Total precisionとは、アラインメントの誤差がある閾値τに収まる場合を正解とした場合の、コーパス全体に対する精度を示す。
演奏タイミング結合モデルの検証は、演奏者へのヒアリングを通じて行った。本モデルの特徴としては、合奏エンジンが想定テンポに引き戻そうとするβと、結合係数γの存在であり、これら両者についての有効性を検証した。まず、結合係数の影響を外すため、式(4)をvn (p)=βvn-1 (p)+(1-β)~vn (a)とし、xn (a)=xn (p)、vn (a)=vn (p)としたシステムを用意した。つまり、テンポの期待値が^vにあり、その分散がβにより制御されるようなダイナミクスを仮定しながら、楽譜追従の結果をフィルタリングした結果を直接伴奏の演奏タイミング生成に使うような合奏エンジンを考えた。まず、β=0に設定した場合の自動演奏システムを、ピアニスト6名に一日間利用してもらったあと、使用感に関してヒアリングを行った。対象曲はクラシック・ロマン派・ポピュラーなど幅広いジャンルの曲から選曲した。ヒアリングでは、合奏に人間が合わせようとすると、伴奏パートも人間に合わせようとし、テンポが極端に遅くなったり速くなるという不満が支配的であった。このような現象は、式(12)におけるτ(s)が不適切に設定されていることにより、システムの応答が演奏者と微妙に合わない場合に発生する。例えば、システムの応答が想定よりも少し早い場合、ユーザは少し早めに返されるシステムに合わせようとするため、テンポを上げる。その結果、そのテンポに追従するシステムが更に早めに応答を返すことで、テンポが加速し続ける。
演奏者の「癖」を獲得するため、楽譜追従から算出された時刻tでのMAP状態^stと、その入力特徴系列{ct}T t=1をもとに、hsiとωifおよびテンポ軌跡を推定する。ここでは、これらの推定方法について簡単に述べる。hsiとωifの推定においては、次のようなPoisson-Gamma 系のInformed NMFモデルを考え、事後分布を推定する。
本発明の第3実施形態を説明する。本実施形態では、自動演奏システム100は、演奏者Pによる合図動作を認識して演奏を行う。なお、以下に例示する各形態において作用または機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
取得部5240は、画像情報を取得する。取得部5240は、取得した画像情報を判定部5241に出力する(ステップS10)。
判定部5241は、画像情報に基づいて、画像における顔部分が撮像された領域を抽出し(ステップS11)、抽出した画像に基づいて、顔部分の動き、及び視線の方向を検出する。判定部5241は、検出結果に基づいて、顔部分の動きが所定の方向であるか否かを判定する(ステップS12)。また、判定部5241は、視線の方向が特定の方向(図16では、カメラ方向)であるか否かを判定する(ステップS13)。判定部5241は、顔部分に動き、及び視線の方向に基づいて、合図動作に関連する予備動作が行われる画像か否かを判定し、判定結果を、推定部5242に出力する。
推定部5242は、判定部5241により予備動作が行われていると判定された画像の画像情報に基づいて、イベントを発生させるタイミングを推定する(ステップS14)。推定部5242は、例えば、予備動作を含む一連の時系列画像群と、合図動作推定モデル5245とを用いて、次に行われる動作を推定させることにより、イベントを発生させるタイミングを推定する。推定部5242は、推定結果を出力部5243に出力する。
出力部5243は、推定部5242により推定された推定結果を出力する。出力部5243は、例えば、推定されたイベントを発生させるタイミングに応じた演奏開始信号を出力する(ステップS15)。
第3の実施形態では、顔部分の動きと、視線の方向との両方を用いて推定を行う。このため、演奏者Pが演奏に集中するあまり顔や体を動かす動作と、合図動作とを区別することができるため、顔部分の動きのみで推定する場合と比較して推定の精度を向上させることができる。
Claims (10)
- 経時的に撮影されたユーザを含む画像情報を取得する取得部と、
前記画像情報から検出した前記ユーザの顔の動きと視線の方向に基づいて、イベントを発生させるタイミングを示す合図動作に関連する予備動作が行われているか否かを判定する判定部と、
前記予備動作が行われていると判定した場合に、イベントを発生させるタイミングを推定する推定部と、
前記推定部により推定された推定結果を出力する出力部と、
を備える制御システム。 - 画像情報を取得する取得部と、
前記画像情報に基づいて、前記画像情報に示される撮像画像における顔部分の動きと、視線の方向を検出し、前記検出した結果を用いて、イベントを発生させるタイミングを示す合図動作に関連する予備動作が行われているか否かを判定する判定部と、
前記判定部により前記予備動作が行われていると判定された場合、前記画像情報に基づいて、前記合図動作によりイベントを発生させるタイミングを推定する推定部と、
前記推定部により推定された推定結果を出力する出力部と、
を備える制御システム。 - 前記推定部は、人の目を含む顔部分が撮像された学習用画像と、前記学習用画像におけるイベントを発生させるタイミングを示す合図動作が判定された判定結果とを対応付けたデータセットを教師データとして、入力された画像において前記合図動作が行われるかを出力するように学習された合図動作推定モデルの出力結果を用いて、イベントを発生させるタイミングを推定する、
請求項1又は請求項2に記載の制御システム。 - イベントを発生させるタイミングを示す合図動作により示されるイベントは、発音の開始であり、
前記推定部は、発音の開始を示す、人の目を含む顔部分の動きを前記合図動作として、画像と前記合図動作との関係を学習した学習結果を示す合図動作推定モデルを用いて、発音の開始を示すタイミングを推定する、
請求項1から請求項3のいずれか一項に記載の制御システム。 - イベントを発生させるタイミングを示す合図動作により示されるイベントは、演奏におけるテンポの周期であり、
前記推定部は、演奏におけるテンポの周期を示す、人の目を含む顔部分の動きを前記合図動作として、画像と前記合図動作との関係を学習した学習結果を示す合図動作推定モデルを用いて、演奏におけるテンポの周期を示すタイミングを推定する、
請求項1から請求項4のいずれか一項に記載の制御システム。 - 前記判定部は、前記画像情報に基づいて、人の目を含む顔部分の動きが特定の第1方向であり、且つ、前記視線の方向が特定の第2方向である場合に、前記予備動作が行われていると判定する、
請求項1から請求項5のいずれか一項に記載の制御システム。 - 前記判定部は、人の目を含む顔部分が撮像された学習用画像と、前記学習用画像における前記顔部分が判定された判定結果とを対応付けたデータセットを教師データとして、入力された画像における人の顔部分を出力するように学習された顔部分抽出モデルの出力結果を用いて、前記画像情報に示される撮像画像における前記顔部分を抽出し、前記抽出した顔部分の画像に基づいて、前記顔部分の動きを検出する、
請求項1から請求項6のいずれか一項に記載の制御システム。 - 前記画像情報は、画像における画素ごとの被写体との距離を示すデプス情報を含み、
前記判定部は、前記デプス情報に基づいて、前記画像情報に示される撮像画像における背景を分離し、前記背景を分離した画像に基づいて、当該画像における、人の目を含む顔部分を抽出する、
請求項1から請求項7のいずれか一項に記載の制御システム。 - 取得部が、画像情報を取得し、
判定部が、前記画像情報に基づいて、前記画像情報に示される撮像画像における顔部分の動きと、視線の方向を検出し、前記検出した結果を用いて、イベントを発生させるタイミングを示す合図動作に関連する予備動作が行われているか否かを判定し、
推定部が、前記判定部により前記予備動作が行われていると判定された場合、前記画像情報に基づいて、前記合図動作によりイベントを発生させるタイミングを推定し、
出力部が、前記推定部により推定された推定結果を出力する、
制御方法。 - コンピュータに、
経時的に撮影されたユーザを含む画像情報を取得させ、
前記画像情報から検出した前記ユーザの顔の動きと視線の方向に基づいて、イベントを発生させるタイミングを示す合図動作に関連する予備動作が行われているか否かを判定させ、
前記予備動作が行われていると判定した場合に、イベントを発生させるタイミングを推定させ、
前記推定された推定結果を出力させる、
処理を実行させる、プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019163227A JP7383943B2 (ja) | 2019-09-06 | 2019-09-06 | 制御システム、制御方法、及びプログラム |
US16/729,676 US10846519B2 (en) | 2016-07-22 | 2019-12-30 | Control system and control method |
CN202010876140.0A CN112466266B (zh) | 2019-09-06 | 2020-08-27 | 控制系统以及控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019163227A JP7383943B2 (ja) | 2019-09-06 | 2019-09-06 | 制御システム、制御方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021043258A JP2021043258A (ja) | 2021-03-18 |
JP7383943B2 true JP7383943B2 (ja) | 2023-11-21 |
Family
ID=74833762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019163227A Active JP7383943B2 (ja) | 2016-07-22 | 2019-09-06 | 制御システム、制御方法、及びプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7383943B2 (ja) |
CN (1) | CN112466266B (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102577734B1 (ko) * | 2021-11-29 | 2023-09-14 | 한국과학기술연구원 | 라이브 공연의 자막 동기화를 위한 인공지능 학습 방법 |
JPWO2023170757A1 (ja) * | 2022-03-07 | 2023-09-14 | ||
JP2023142748A (ja) * | 2022-03-25 | 2023-10-05 | ヤマハ株式会社 | データ出力方法、プログラム、データ出力装置および電子楽器 |
WO2024085175A1 (ja) * | 2022-10-18 | 2024-04-25 | ヤマハ株式会社 | データ処理方法およびプログラム |
WO2024190759A1 (ja) * | 2023-03-13 | 2024-09-19 | ヤマハ株式会社 | 情報処理方法、情報処理システムおよびプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014033313A (ja) | 2012-08-02 | 2014-02-20 | Olympus Imaging Corp | 撮影機器 |
JP2017207615A (ja) | 2016-05-18 | 2017-11-24 | ヤマハ株式会社 | 自動演奏システムおよび自動演奏方法 |
WO2018016582A1 (ja) | 2016-07-22 | 2018-01-25 | ヤマハ株式会社 | 演奏解析方法、自動演奏方法および自動演奏システム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3735969B2 (ja) * | 1995-11-02 | 2006-01-18 | ヤマハ株式会社 | 指揮動作判定方法および指揮動作判定装置 |
JPH09251342A (ja) * | 1996-03-15 | 1997-09-22 | Toshiba Corp | 注視箇所推定装置とその方法及びそれを使用した情報表示装置とその方法 |
JP3353661B2 (ja) * | 1997-07-18 | 2002-12-03 | ヤマハ株式会社 | 音楽制御装置および記憶媒体 |
JP2000347692A (ja) * | 1999-06-07 | 2000-12-15 | Sanyo Electric Co Ltd | 人物検出方法、人物検出装置及びそれを用いた制御システム |
JP4305153B2 (ja) * | 2003-12-04 | 2009-07-29 | ヤマハ株式会社 | 音楽セッション支援方法、音楽セッション用楽器 |
JP2009031951A (ja) * | 2007-07-25 | 2009-02-12 | Sony Corp | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
JP4572980B2 (ja) * | 2008-10-27 | 2010-11-04 | ヤマハ株式会社 | 自動演奏装置及びプログラム |
US9880615B2 (en) * | 2013-02-15 | 2018-01-30 | Seiko Epson Corporation | Information processing device and control method for information processing device |
JP6443093B2 (ja) * | 2015-02-02 | 2018-12-26 | ヤマハ株式会社 | 信号処理装置、および信号処理システム |
WO2017029915A1 (ja) * | 2015-08-17 | 2017-02-23 | 日本テレビ放送網株式会社 | プログラム、表示装置、表示方法、放送システム及び放送方法 |
JP2017125911A (ja) * | 2016-01-13 | 2017-07-20 | ヤマハ株式会社 | 鍵盤楽器の演奏支援装置及び方法 |
JP6776788B2 (ja) * | 2016-10-11 | 2020-10-28 | ヤマハ株式会社 | 演奏制御方法、演奏制御装置およびプログラム |
-
2019
- 2019-09-06 JP JP2019163227A patent/JP7383943B2/ja active Active
-
2020
- 2020-08-27 CN CN202010876140.0A patent/CN112466266B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014033313A (ja) | 2012-08-02 | 2014-02-20 | Olympus Imaging Corp | 撮影機器 |
JP2017207615A (ja) | 2016-05-18 | 2017-11-24 | ヤマハ株式会社 | 自動演奏システムおよび自動演奏方法 |
WO2018016582A1 (ja) | 2016-07-22 | 2018-01-25 | ヤマハ株式会社 | 演奏解析方法、自動演奏方法および自動演奏システム |
Also Published As
Publication number | Publication date |
---|---|
CN112466266B (zh) | 2024-05-31 |
CN112466266A (zh) | 2021-03-09 |
JP2021043258A (ja) | 2021-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10580393B2 (en) | Apparatus for analyzing musical performance, performance analysis method, automatic playback method, and automatic player system | |
JP7383943B2 (ja) | 制御システム、制御方法、及びプログラム | |
US10586520B2 (en) | Music data processing method and program | |
US10846519B2 (en) | Control system and control method | |
US10825432B2 (en) | Smart detecting and feedback system for smart piano | |
US10482856B2 (en) | Automatic performance system, automatic performance method, and sign action learning method | |
US10878789B1 (en) | Prediction-based communication latency elimination in a distributed virtualized orchestra | |
US10534955B2 (en) | Facial capture analysis and training system | |
US20220414472A1 (en) | Computer-Implemented Method, System, and Non-Transitory Computer-Readable Storage Medium for Inferring Audience's Evaluation of Performance Data | |
Li et al. | Skeleton Plays Piano: Online Generation of Pianist Body Movements from MIDI Performance. | |
US20230014315A1 (en) | Trained model establishment method, estimation method, performance agent recommendation method, performance agent adjustment method, trained model establishment system, estimation system, trained model establishment program, and estimation program | |
Kim et al. | A kinematic study of critical and non-critical articulators in emotional speech production | |
Cosentino et al. | Human–robot musical interaction | |
Athanasopoulos et al. | 3D immersive karaoke for the learning of foreign language pronunciation | |
WO2021193032A1 (ja) | 演奏エージェントの訓練方法、自動演奏システム、及びプログラム | |
JP2005209000A (ja) | 音声可視化方法及び該方法を記憶させた記録媒体 | |
JP6977813B2 (ja) | 自動演奏システムおよび自動演奏方法 | |
Jylhä | Sonic gestures and rhythmic interaction between the human and the computer | |
Hassanien et al. | Computational intelligence in speech and audio processing: Recent advances | |
WO2024178242A1 (en) | Robust speaker-independent estimation of vocal articulation | |
Kim | Emotional Speech Production: From Data to Computational Models and Application | |
Kim et al. | A kinematic study of critical and non-critical articulators in emotional speech production (running title: criticality of articulators and emotion) | |
JP2005308992A (ja) | 学習支援システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220721 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230428 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230516 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230705 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231010 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231023 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7383943 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |