JP2022052389A

JP2022052389A - 演奏情報予測装置、演奏モデル訓練装置、演奏情報生成システム、演奏情報予測方法及び演奏モデル訓練方法

Info

Publication number: JP2022052389A
Application number: JP2020158761A
Authority: JP
Inventors: 博毅佐藤; Hirotake Sato
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2022-04-04

Abstract

【課題】電子弦楽器の演奏を演奏情報に高精度に変換する演奏情報予測装置、演奏モデル訓練装置、演奏情報生成システム、演奏情報予測方法及び演奏モデル訓練方法を提供する。【解決手段】演奏情報予測装置において、弦楽器演奏を表す弦振動波形データからスペクトルデータフレームを生成し、スペクトルデータフレームに基づいて、スペクトル特徴化データフレームを取得する前処理部３１０と、訓練済み演奏モデルを利用して、基準時刻のスペクトル特徴化データフレームと、基準時刻のスペクトル特徴化データフレームの前後のスペクトル特徴化データフレームとから、弦楽器演奏の演奏情報を予測する演奏情報予測部３２０と、を有する。【選択図】図１５

Description

本開示は、演奏情報予測装置、演奏モデル訓練装置、演奏情報生成システム、演奏情報予測方法及び演奏モデル訓練方法に関する。

ギターのような楽器の弦振動波形を、マグネティックピックアップもしくはピエゾピックアップによって電気信号化し、そのピッチや音量を分析することで、ＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔａｌＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）メッセージ等のデジタル演奏データに変換するギターコントローラ（もしくはギターシンセサイザー）という電子楽器が存在する。このようなタイプのコントローラは音源を鳴らすためのみの専用ギターコントローラと異なり、通常のギターのシェイプや機能を残しつつ、そこに演奏情報取得用の各弦に独立のピックアップを搭載することでＭＩＤＩ演奏も可能となるという大きなメリットがあり、最も一般的な形態であると言える。

特開平９－６３３９号公報特開２０００－１０５５９０号公報

しかしながら、このような楽器において長年解決されていない大きな問題の１つとして撥弦時に演奏者が意図しない演奏情報に変換されてしまう、いわゆるトラッキングエラーがある。これは、入力信号の波形のピークやゼロクロスポイントの周期などを観測することでピッチを検出し、入力エンベロープの変化量だけから発音方法を判断しているため、撥弦時に発生するピッキングやタッピングによる過渡的な演奏ノイズや、弦の複雑な倍音の動きに騙されてしまうためである。

例えば、ピッキングノイズについて、撥弦前にピックが弦に接した際に発生する摩擦音、及びピックとブリッジの間の非常に短い長さの弦の振動によるピッキングノイズを演奏音と認識してしまうケースがある。これにより、実際に弦を抑えたフレット位置に対応する演奏音程とはかけ離れた高い音程のノート情報が発生されうる。

また、ハーモニクスについて、意図的な奏法によってハーモニクスを発生したのではなく、通常演奏において弦振動に含まれるハーモニクスの量が多いために基音と倍音の区別が付かず、ハーモニクスの音程を演奏ノートと認識してしまうケースがある。最も多いのは、２倍音、すなわち、本来の音程よりも１オクターブ高い音程と誤認されてしまうことであるが、３倍音を基音と間違えるケースも起こりやすい。

また、ピッキングとレガートの奏法の誤認識について、ギターの弦の発音奏法を判断して演奏情報を付加する場合、意図しない発音奏法として誤解されるケースがある。例えば、ギターの弦の発音奏法は音の特性から以下のように分類できる。
Ａ．ピッキングや指に依る通常の撥弦
Ｂ．あるフレットが押さえられている弦に対して、それよりも上位のフレット位置を別の指で叩くか触れることで押弦し、音程を変えるハンマリング・オン奏法（ｈａｍｍｅｒ－ｏｎ）（フレットを押さえる手の指の場合)、あるいはタッピング奏法（通常の押弦の手と反対の手の指で弦を叩く）
Ｃ．フレットを押さえる指で弦を少し引っ張って離すか、あるいは前述のタッピングした指をそのまま使って引っ張って離すことで撥弦するプリング・オフ奏法（ｐｕｌｌ－ｏｆｆ）
Ｄ．現在発音中の弦の上を指で押さえながらスライドさせることで音程を変えるグリッサンド奏法、あるいはスライド奏法。これは、ＭＩＤＩメッセージでは撥弦による新規発音とは解釈せず、ピッチ変化として表現するのが普通である。

これらの中で一般的にＡ，Ｂ，Ｃのケースでは、新しい発音情報が発生し、Ｄのケースではレガート奏法と判断し、現在の発音中のノートに対してピッチベンド情報を発生させる。

これらの奏法の判断は発音時の音量エンベロープの変化だけでなく、過渡時に発生する各種ノイズの倍音のレベルの変化の様子なども解析することで判断できると考えられるが、このような解析は従来の方法では困難であった。

また、さらに言えばギターごとに異なる特性、演奏者の癖、ピックの形状や材質、フィンガーピッキングでは演奏者の皮膚の硬さなどで撥弦時の周波数成分や変化が大きく変わってくるため、判断時には個別の特性を考慮する必要もあるが、判断時にそのようなファクターを加味するものも存在しないのが実情であり、奏法の判断自体を行っている楽器はほとんど存在しないのが実情である。

上記課題を鑑み、本開示の課題は、電子弦楽器の演奏を演奏情報に高精度に変換するための技術を提供することである。

上記課題を解決するため、本開示の一態様は、弦楽器演奏を表す弦振動波形データからスペクトルデータフレームを生成し、前記スペクトルデータフレームに基づいて、スペクトル特徴化データフレームを取得する前処理部と、訓練済み演奏モデルを利用して、基準時刻のスペクトル特徴化データフレームと、前記基準時刻のスペクトル特徴化データフレームの前後のスペクトル特徴化データフレームとから、前記弦楽器演奏の演奏情報を予測する演奏情報予測部と、を有する演奏情報予測装置に関する。

本開示によると、電子弦楽器の演奏を演奏情報に高精度に変換することができる。

本開示の一実施例によるギターコントローラを示す概略図である。本開示の一実施例による演奏情報の構成を示す図である。本開示の一実施例によるＴＡＢ譜を示す図である。本開示の一実施例によるギターコントローラの外観を示す図である。本開示の一実施例によるギターのハードウェア構成を示すブロック図である。本開示の一実施例による制御装置のハードウェア構成を示すブロック図である。本開示の一実施例による演奏モデル訓練装置の動作を示す概略図である。本開示の一実施例による演奏モデル訓練装置の機能構成を示すブロック図である。本開示の一実施例によるスペクトルデータフレームを示す概略図である。本開示の一実施例による特徴化データフレームを示す概略図である。本開示の一実施例による演奏モデルのアーキテクチャを示す図である。本開示の他の実施例による演奏モデルのアーキテクチャを示す図である。本開示の一実施例による演奏モデル訓練処理を示すフローチャートである。本開示の一実施例による演奏情報予測装置の動作を示す概略図である。本開示の一実施例による演奏情報予測装置の機能構成を示すブロック図である。本開示の一実施例による音量検出及びピッチ検出を示す概略図である。本開示の一実施例による演奏情報予測処理を示すフローチャートである。

以下の実施例では、ギターの演奏によって生成される弦振動波形から演奏情報（例えば、ＭＩＤＩメッセージなど）を生成するギターコントローラが開示される。なお、本開示は、ギターコントローラに限定されず、弦振動波形抽出機能を備えた弦楽器の演奏から演奏情報を生成する他の何れかの演奏情報生成装置に適用されてもよい。
［本開示の概要］
後述される実施例を概略すると、図１に示されるように、本開示の一実施例によるギターコントローラ１０は、ギター５０及び制御装置１００を有する。ギターコントローラ１０は、ニューラルネットワークなどの機械学習モデルとして実現される演奏モデルを利用して、ギター５０の演奏によって生成される弦振動波形から演奏情報を生成する。

本開示の一実施例による演奏情報は、図２に示されるように、発音情報、消音情報及びピッチ変更情報の演奏種別を示す。

発音情報は、分類モデルとしての演奏モデルによって判別されるノート番号及び奏法と、エンベロープ検出による撥弦の強さとを示す。奏法は、例えば、０）ピックによるピッキング、１）フィンガーピッキング、２）ハンマリング・オン（タッピング）、３）プリング・オフ、４）ミュートピッキング、５）オープンハーモニクス、及び６）ピッキング・ハーモニクスの７種類に分類される。発音をＭＩＤＩメッセージにより表現する場合、奏法はＣｏｎｔｒｏｌＣｈａｎｇｅ：０ｘＢｎ，０ｘ４６，ｖｖによって表し、ノート番号及び撥弦の強さはＮｏｔｅＯｎ：０ｘ９ｎ，ｋｋ，ｖｖによって表してもよい。

また、消音情報は、エンベロープ検出によって検出され、０）発音停止及び１）置き換えを表す。消音をＭＩＤＩメッセージにより表現する場合、ＣｏｎｔｒｏｌＣｈａｎｇｅ：０ｘＢｎ，０ｘ４６，ｖｖ及びＮｏｔｅＯｆｆ：０ｘ８ｎ，ｋｋ，ｖｖによって表してもよい。

また、ピッチ変更情報は、ゼロクロスカウントによって検出され、例えば、半音チョーキングアップ、半音チョーキングダウン、全音チョーキングアップ、全音チョーキングダウン、１音半チョーキングアップ、１音半チョーキングダウン、２音チョーキングアップ、２音チョーキングダウン、及びスライドを示す。ピッチ変化をＭＩＤＩメッセージにより表現する場合、ＰｉｔｃｈＢｅｎｄ：０ｘＥｎ，ｌｌ，ｍｍによって表してもよい。

図１に示された実施例では、ギターコントローラ１０は、演奏モデルを訓練する訓練モードと、訓練した演奏モデルを利用して演奏情報を予測する演奏モードとの２つの動作モードを有し、制御装置１００は、訓練モードにおいて利用される演奏モデル訓練装置２００と、演奏モードにおいて利用される演奏情報予測装置３００とを有する。

まず、訓練モードにおいて、ギターコントローラ１０は、訓練用演奏情報データベース８０から訓練データを取得する。訓練データは、例えば、楽譜データ（例えば、ＴＡＢ譜など）と、当該楽譜データに対応するＭＩＤＩファイルとのペアから構成される。ＴＡＢ譜は、例えば、図３に示されるような周知の記法に従って記述されたものであってもよい。ユーザが取得した訓練用楽譜データの楽譜に従ってギター５０を演奏すると、演奏モデル訓練装置２００は、ユーザの演奏に基づきギター５０によって生成された弦振動情報を訓練対象の演奏モデルに入力し、演奏モデルから出力される演奏情報としてのＭＩＤＩメッセージと訓練用ＭＩＤＩファイルとを比較し、これらの誤差が小さくなるように演奏モデルを訓練する。本開示では、弦振動波形データが高速フーリエ変換（ＦＦＴ）によってスペクトルデータに変換され、スペクトルデータにおける所定数のピークに基づき特徴化されたスペクトル特徴化データを利用して、演奏モデルから演奏情報を取得する。訓練が終了すると、演奏モデル訓練装置２００は、訓練した演奏モデルを演奏情報予測装置３００に提供する。

次に、演奏モードでは、ユーザがギター５０を演奏すると、演奏情報予測装置３００は、ユーザの演奏に基づきギター５０によって生成された弦振動情報を訓練済み演奏モデルに入力し、ＭＩＤＩメッセージなどの演奏情報を取得する。取得した演奏情報は、例えば、外部の再生装置やコンピュータに送信され、ユーザは、再生装置を介してユーザによる演奏を再生したり、演奏情報をコンピュータ上で利用できる。

これにより、電子弦楽器の演奏を演奏情報に変換する際のトラッキングエラーを軽減すると共に、高精度に奏法を判断することが可能になる。

なお、以下に説明する実施例によるギターコントローラ１０は、演奏モデル訓練装置２００を有するが、本開示はこれに限定されず、例えば、演奏モデルは、外部のコンピュータやサーバによって訓練され、訓練された演奏モデル及び／又は演奏モデルの更新情報が外部のコンピュータやサーバから演奏情報予測装置３００に提供されてもよい。
［ハードウェア構成］
次に、図４を参照して、ギターコントローラ１０の物理的構成を説明する。図４は、本開示の一実施例によるギターコントローラ１０の外観を示す図である。

図４に示されるように、ギターコントローラ１０は、相互接続されたギター５０と制御装置１００とから構成されるセパレートタイプの演奏情報生成システムである。

ギター５０は、通常のエレクトリックギターに、６つの弦の各弦の独立した振動を拾うためのヘクサディバイデッドピックアップ、演奏情報の音量をコントロールするためのＭＩＤＩボリューム、制御装置１００に対してパッチメモリ番号の上下切り替えを行うためのアップダウンスイッチ、を搭載したものである。これらの情報とノーマルなピックアップの出力が、マルチケーブルによって制御装置１００に送信されている。また、電源は制御装置１００からマルチケーブル経由で供給される。本実施例のヘクサディバイデッドピックアップは、ノーマルピックアップと同じマグネティック（磁気）ピックアップである。

一方、制御装置１００は、ギターの弦振動の入力を受け、ＭＩＤＩフォーマットによる演奏情報を生成する。演奏情報の送信先は、限定することなく、音源ユニットやコンピュータ等であってもよい。制御装置１００は、図１に示されるように、各種設定を記憶したパッチメモリのバンク番号とナンバーを切り替えるフットスイッチ、任意の演奏メッセージを割り当てて送信することができるＣＯＮＴＲＯＬスイッチとフットペダルを有する。現在選択されているパッチメモリの番号はＢＡＮＫ／ＮＵＭ画面に表示される。メインの表示デバイスとしてＬＣＤがあるが、画面上にはタッチパネルが装着される。また、データを入力する際のロータリエンコーダもパネル上に装備される。端子として、ギター５０からのマルチケーブルの入力端子ＧＵＩＴＡＲＩＮＰＵＴ、ノーマルピックアップのオーディオ出力端子ＧＵＩＴＡＲＯＵＴ、ＭＩＤＩ演奏信号の出力端子ＭＩＤＩＯＵＴ、ホストコンピュータとの接続端子ＵＳＢｔｏＨＯＳＴ、ＡＣ電源入力端子ＡＣＰＯＷＥＲが備えられる。

次に、図５を参照して、本開示の一実施例によるギター５０のハードウェア構成を説明する。図５は、本開示の一実施例によるギター５０のハードウェア構成を示すブロック図である。

図５に示されるように、ギター５０は、ヘクサディバイデッドピックアップのバッファアンプを通した信号、ＭＩＤＩボリュームコントロール、パッチメモリのアップダウンスイッチ、そしてノーマルピックアップの信号がマルチケーブルで制御装置１００に送信される。３つのノーマルピックアップはピックアップセレクターで選択され、トーンコントロール回路と、ボリュームコントロール回路を経てバッファアンプを通過したものが制御装置１００に送信される。

次に、図６を参照して、本開示の一実施例による制御装置１００のハードウェア構成を説明する。図６は、本開示の一実施例による制御装置のハードウェア構成を示すブロック図である。

図６に示されるように、制御装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）及びＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）から構成され、ＣＰＵは制御装置１００全体の機能及び処理を管理し、ＤＳＰは高速処理が必要な波形解析処理を実行する。ＣＰＵのバスには、ＣＰＵが使用するＲＡＭ、ＦｌａｓｈＲＯＭ、ＬＣＤをコントロールするＬＣＤコントローラ、各種Ｉ／Ｏデバイスと接続されるＩ／Ｏインターフェース、ＤＳＰ、ＵＳＢインターフェース、及びＭＩＤＩインターフェースが接続される。さらに、Ｉ／Ｏインターフェースにはフットスイッチ、ロータリエンコーダ、ＬＣＤタッチパネル、ギター５０のＭＩＤＩボリュームと、制御装置１００のペダルの位置を検出するためのＡ／Ｄコンバータ、パッチメモリの番号表示用のＬＥＤが接続される。１つのＡ／Ｄコンバータしか図示されていないが、マルチプレクサによって入力ソースを時分割で切り替えて値を読み込んでいる。専用のＲＡＭとＦｌａｓｈＲＯＭが接続されているＤＳＰには、ヘクサディバイデッドピックアップの６つの弦の出力を高速にデジタル信号化するための独立したＡ／Ｄコンバータが接続されており高速な解析処理を行うことができる。

しかしながら、ギター５０及び制御装置１００は、上述したハードウェア構成に限定されるものでなく、他の何れか適切なハードウェア構成により実現されてもよい。
［演奏モデル訓練装置］
次に、図７～１２を参照して、本開示の一実施例による演奏モデル訓練装置２００を説明する。図７は、本開示の一実施例による演奏モデル訓練装置２００の動作を示す概略図である。

図７に示されるように、演奏モデル訓練装置２００は、訓練データを格納する訓練用演奏情報データベース８０に格納されている訓練データを利用して演奏モデルを訓練する。具体的には、訓練データは、訓練用楽譜データと当該楽譜データに対応する訓練用演奏情報とのペアから構成され、訓練用楽譜データに基づき表示された楽譜（例えば、ＴＡＢ譜など）を演奏者に表示し、演奏者は、メトロノームによるテンポ制御の下でギター５０を演奏する。当該演奏を表す弦振動波形データは、演奏モデル訓練装置２００に提供され、演奏モデル訓練装置２００は、取得した弦振動波形データを以下で詳細に説明するスペクトル特徴化データフレームに変換し、基準時及び基準時前後のスペクトル特徴化データフレームを訓練対象の演奏モデルに入力する。そして、演奏モデル訓練装置２００は、演奏モデルからの出力と訓練用演奏情報の発音情報（例えば、ノート番号と奏法など）とを比較し、その誤差に応じて演奏モデルのパラメータを更新する。演奏モデル訓練装置２００は、所定の終了条件が充足されるまで上述した処理を繰り返し、演奏モデルからの出力が訓練用演奏情報の発音情報に近づくように演奏モデルを最適化する。

図８は、本開示の一実施例による演奏モデル訓練装置２００の機能構成を示すブロック図である。

図８に示されるように、演奏モデル訓練装置２００は、前処理部２１０及び演奏モデル訓練部２２０を有する。

前処理部２１０は、訓練用演奏情報に従って演奏された弦楽器演奏を表す弦振動波形データからスペクトルデータフレームを生成し、スペクトルデータフレームをスペクトル特徴化データフレームに変換する。

具体的には、演奏者によってギター５０が演奏されると、ギター５０は、図９に示されるように、時間と各弦の振幅とを示す弦振動波形データを取得し、演奏モデル訓練装置２００に送信する。すなわち、ギター５０は６弦からなるため、６種類の弦振動波形データが生成される。前処理部２１０は、各弦の弦振動波形データに対して高速フーリエ変換（ＦＦＴ）を実行し、スペクトルデータを取得する。具体的には、前処理部２１０は、弦振動波形データから時間軸に関して重複する窓幅ｗ（例えば、Ｗ＝５１２，２５．６ｍｓｅｃなど）の弦振動波形フレームを抽出し、Ｉ回（Ｉ＝６４，３．２ｍｓｅｃなど）のサンプリング毎にＦＦＴを実行し、各弦振動波形フレームをスペクトルデータフレームに変換してもよい。

スペクトルデータフレームへの変換後、前処理部２１０は、各スペクトルデータフレームの所定数個の上位のピークによってスペクトルデータフレームを特徴化する。例えば、上位４個のピークによってスペクトルデータフレームを特徴化する場合、前処理部２１０は、図１０に示されるように、スペクトルデータフレーム内の周波数軸に関するピーク（極大点）のうち上位４個のピークの周波数によってスペクトルデータフレームを特徴化し、当該４個のピークの周波数によるスペクトル特徴化データフレームを構成する。当該特徴化によると、データサイズが圧縮されると共に、予測対象の奏法及びノート番号に関係すると想定されるピークの波高及びピークからの波高の時間変化が強調され、演奏モデル訓練処理の精度の向上及び高速化が可能になると考えられる。

前処理部２１０は、このようにして抽出した所定数のピークから構成されるスペクトル特徴化データを生成し、演奏モデル訓練部２２０に提供する。

演奏モデル訓練部２２０は、訓練用演奏情報を利用して、基準時刻のスペクトル特徴化データフレームと、当該基準時刻のスペクトル特徴化データフレームの前後のスペクトル特徴化データフレームとから弦楽器演奏の演奏情報を予測する演奏モデルを訓練する。ここで、訓練対象の演奏モデルは、予測対象の基準時刻の奏法及びノート番号を予測する際、当該基準時刻のスペクトル特徴化データフレームだけでなく、当該基準時刻の前後の時刻のスペクトル特徴化データフレームを入力として取得し、基準時刻の奏法及びノート番号を出力する。例えば、演奏モデル訓練部２２０は、基準時刻のスペクトル特徴化データフレームと、基準時刻直前のｐ個のスペクトル特徴化データフレームと、基準時刻直後のｎ個のスペクトル特徴化データフレームとを演奏モデルに入力してもよい。ここで、所定数ｐ，ｎは同一又は異なる所定値であってもよい。例えば、所定数ｐ，ｎは、演奏者によるギター５０の撥弦と、演奏情報予測装置３００における演奏情報の出力とのタイムラグが演奏者によって認知できない程度の値に設定されることが好ましい。

このように一定の時間範囲のスペクトル特徴化データフレームを利用することによって、フレーム間の前後関係を考慮して新たな撥弦が発生したか判断することができると共に、撥弦の時間変化を判断することが可能になる。

なお、基準時刻において発音がなかった場合、すなわち、基準時刻が消音状態であった場合、演奏モデルは、検出不可を示す値を出力するように訓練されてもよい。

一実施例では、演奏モデルは、ニューラルネットワークによって実現されてもよい。例えば、演奏モデルは、図１１に示されるようなネットワークアーキテクチャを有するニューラルネットワークであってもよい。この場合、演奏モデル訓練部２２０は、ニューラルネットワークの入力層に基準時刻のスペクトル特徴化データフレームと、基準時刻前後の（ｐ＋ｎ）個のスペクトル特徴化データフレームとを入力し、中間層における演算を介し出力層から奏法番号Ｖａｒ及びノート番号Ｎｏｔｅを取得する。

また、他の実施例では、演奏モデルは、図１２に示されるような再帰型ニューラルネットワークによって実現されてもよい。この場合、演奏モデル訓練部２２０は、上述したｐ，ｎによる時間範囲より広い時間範囲のスペクトル特徴化データフレームを利用してもよく、例えば、基準時刻ｔのスペクトル特徴化データフレーム、基準時刻直前のｂ個（ｂ＞ｐ）のスペクトル特徴化データフレーム、及び基準時刻直後のｆ個（ｆ＞ｎ）のスペクトル特徴化データフレームを再帰型ニューラルネットワークの入力層Ｘ_ｔ－ｂ，・・・Ｘ_ｔ－１，Ｘ_ｔ，Ｘ_ｔ＋１，・・・，Ｘ_ｔ＋ｆに入力し、中間層における演算を介し出力層から奏法番号Ｖａｒ及びノート番号Ｎｏｔｅを取得してもよい。再帰型ニューラルネットワークは、時系列データの処理に適しており、奏法番号Ｖａｒ及びノート番号Ｎｏｔｅを高精度に予測することができると考えられる。

また、訓練対象の演奏モデルは、事前訓練された機械学習モデルであってもよく、演奏モデル訓練部２２０は、上述した訓練処理によって、事前訓練された演奏モデルをファインチューニングするようにしてもよい。これにより、初期状態の機械学習モデルから演奏モデルを訓練するのと比較して、少ない訓練データにより高精度な演奏モデルを構築することが可能になる。

演奏モデルから奏法及びノート番号を取得すると、演奏モデル訓練部２２０は、取得した奏法及びノート番号と、訓練用演奏情報の奏法及びノート番号とを比較し、これらが一致するように演奏モデルのパラメータを更新する。例えば、演奏モデルがニューラルネットワークにより実現される場合、演奏モデル訓練部２２０は、周知の誤差逆伝播法に従って比較結果に応じてニューラルネットワークのパラメータを更新してもよい。

演奏モデル訓練部２２０は、所定の終了条件が充足されるまで、上述した処理を繰り返し、演奏モデルを訓練し、所定の終了条件が充足されると、当該時点における演奏モデルを訓練済み演奏モデルとして演奏情報予測装置３００にわたす。ここで、所定の終了条件は、準備された全ての訓練データを処理したことなどであってもよい。
［演奏モデル訓練処理］
次に、図１３を参照して、本開示の一実施例による演奏モデル訓練処理を説明する。当該演奏モデル訓練処理は、上述した演奏モデル訓練装置２００によって実現され、例えば、プロセッサがプログラム又は命令を実行することによって実現されてもよい。図１３は、本開示の一実施例による演奏モデル訓練処理を示すフローチャートである。

図１３に示されるように、ステップＳ１０１において、演奏モデル訓練装置２００は、訓練用演奏情報データベース８０から訓練用演奏情報を選択する。具体的には、演奏モデル訓練装置２００は、ランダム、順次、ユーザ選択によって訓練用演奏情報を自動選択してもよい。

ステップＳ１０２において、演奏モデル訓練装置２００は、演奏情報をＴＡＢ譜の表示情報に変換する。

ステップＳ１０３において、演奏モデル訓練装置２００は、ＴＡＢ譜を制御装置１００のＬＣＤなどに表示する。

ステップＳ１０４において、演奏モデル訓練装置２００は、演奏情報のテンポに合わせてＭＩＤＩプレーヤーをスタートする。

ステップＳ１０５において、演奏モデル訓練装置２００は、テンポに合わせてメトロノームをスタートする。

ステップＳ１０６において、ＭＩＤＩプレーヤーは、演奏情報を再生する。

ステップＳ１０７において、メトロノームは、演奏情報を再生する。これにより、演奏者の演奏を取得するための準備が整い、演奏者は演奏を開始する。

ステップＳ１０８において、演奏モデル訓練装置２００は、弦番号ｓを０に初期化する。ギター５０は６弦からなるため、弦番号ｓは０～５の値をとりうる。

ステップＳ１０９において、演奏モデル訓練装置２００は、ＭＩＤＩプレーヤーから発生したｓチャネルの発音情報を発音情報メモリｐに格納する。

ステップＳ１１０において、演奏モデル訓練装置２００は、演奏者による演奏を表す弦番号ｓの弦振動波形をバッファから取得し、スペクトル特徴化データフレームを生成し、リングバッファなどに格納する。

ステップＳ１１１において、演奏モデル訓練装置２００は、基準時刻のスペクトル特徴化データフレーム、基準時刻直前のｐ個のスペクトル特徴化データフレーム、及び基準時刻直後のｎ個のスペクトル特徴化データフレームを訓練対象の演奏モデルに入力する。

ステップＳ１１２において、演奏モデル訓練装置２００は、演奏モデルの出力結果をメモリｏに格納する。

ステップＳ１１３において、演奏モデル訓練装置２００は、メモリｐの発音情報（例えば、奏法番号及びノート番号など）と、メモリｏの演奏モデルの出力結果とを比較する。

ステップＳ１１４において、演奏モデル訓練装置２００は、メモリｐの発音情報とメモリｏの出力結果との間に差分があるか判断する。

有意な差分があった場合（Ｓ１１４：Ｙｅｓ）、演奏モデル訓練装置２００は、ステップＳ１１５において、当該差分から演奏モデルを更新するための最適化情報を演奏モデルに適用し、ステップＳ１１６に移行する。他方、有意な差分がなかった場合（Ｓ１１４：Ｎｏ）、演奏モデル訓練装置２００は、演奏モデルを更新することなく、ステップＳ１１６に移行する。

ステップＳ１１６において、演奏モデル訓練装置２００は、次の弦を処理するため、弦番号ｓを１だけインクリメントする。

ステップＳ１１７において、演奏モデル訓練装置２００は、全ての弦について演奏モデルの更新処理を終了したか判断し、全ての弦について更新処理が終了していない場合（Ｓ１１７：Ｙｅｓ）、ステップＳ１０９に戻る。

ステップＳ１１８において、演奏モデル訓練装置２００は、演奏情報全体を処理したか判断し、演奏情報全体を処理していない場合（Ｓ１１８：Ｎｏ）、ステップＳ１０６に戻る。

ステップＳ１１９において、演奏モデル訓練装置２００は、メトロノーム及びＭＩＤＩプレーヤーを停止する。

ステップＳ１２０において、演奏モデル訓練装置２００は、ユーザなどによる終了操作があったか判断し、終了操作がない場合（Ｓ１２０：Ｎｏ）、ステップＳ１０１に戻り、次の演奏情報を選択し、終了操作があった場合（Ｓ１２０：Ｙｅｓ）、当該処理を終了する。
［演奏情報予測装置］
次に、図１４～１６を参照して、本開示の一実施例による演奏情報予測装置３００を説明する。図１４は、本開示の一実施例による演奏情報予測装置３００の動作を示す概略図である。

演奏情報予測装置３００は、演奏モデル訓練装置２００によって訓練された演奏モデルを利用して、演奏者によるギター５０の演奏から演奏情報（例えば、ＭＩＤＩメッセージなど）を予測する。具体的には、図１４に示されるように、演奏情報予測装置３００は、ギター５０からギター演奏を表す弦振動波形データを取得すると、取得した弦振動波形データに対して高速フーリエ変換を実行し、時間軸に関して重複部分を有する所定の窓幅のスペクトルデータフレームを生成する。そして、演奏情報予測装置３００は、各スペクトルデータフレームにおける周波数に関する所定数個の上位のピークを特定し、特定したピークを抽出することによってスペクトル特徴化データフレームを生成する。例えば、これらの前処理は、ＤＳＰによって実現されてもよい。

基準時刻の演奏情報を予測するため、演奏情報予測装置３００は、基準時刻前後の一定の時間範囲のスペクトル特徴化データフレーム、すなわち、基準時刻のスペクトル特徴化データフレーム、基準時刻直前のｐ個のスペクトル特徴化データフレーム及び基準時刻直後のｎ個のスペクトル特徴化データフレームを訓練済み演奏モデルに入力し、奏法及びノート番号を含む発音情報を取得する。また、演奏情報予測装置３００は、基準時刻のスペクトルに対して音量検出及びピッチ検出を実行し、演奏の音量及びピッチを検出する。演奏情報予測装置３００は、検出した音量及びピッチに基づきそれぞれ消音情報及びピッチ変更情報を生成すると共に、音量に基づき撥弦の強さを示すベロシティー情報を生成し、発音情報に付加する。このようにして、演奏情報予測装置３００は、各時刻のスペクトル特徴化データフレームから発音情報、消音情報及び／又はピッチ変更情報を含む各時刻の演奏情報（例えば、ＭＩＤＩメッセージなど）を生成し、外部機器（例えば、再生装置、コンピュータ等）に送信する。例えば、これらの演奏情報生成処理は、ＣＰＵによって実現されてもよい。

図１５は、本開示の一実施例による演奏情報予測装置３００の機能構成を示すブロック図である。

図１５に示されるように、演奏情報予測装置３００は、前処理部３１０及び演奏情報予測部３２０を有する。

前処理部３１０は、弦楽器演奏を表す弦振動波形データからスペクトルデータフレームを生成し、スペクトルデータフレームをスペクトル特徴化データフレームに変換する。前処理部２１０と同様に、前処理部３１０は、演奏者によってギター５０が演奏されると、ギター５０から各弦の弦振動波形データを取得し、各弦の弦振動波形データに対して高速フーリエ変換（ＦＦＴ）を実行し、スペクトルデータを取得する。具体的には、前処理部２１０と同様の設定の下、前処理部３１０は、弦振動波形データから時間軸に関して重複する窓幅ｗの弦振動波形フレームを抽出し、サンプリング毎にＦＦＴを実行し、各弦振動波形フレームをスペクトルデータフレームに変換してもよい。スペクトルデータフレームへの変換後、前処理部３１０は、各スペクトルデータフレームの所定数個の上位のピークに基づきスペクトル特徴化データフレームを生成し、基準時刻前後の一定の時間範囲におけるスペクトル特徴化データフレームをリングバッファなどに格納する。

演奏情報予測部３２０は、訓練済み演奏モデルを利用して、基準時刻のスペクトル特徴化データフレームと、基準時刻のスペクトル特徴化データフレームの前後のスペクトル特徴化データフレームとから、弦楽器演奏の演奏情報を予測する。具体的には、演奏情報予測部３２０は、基準時刻のスペクトル特徴化データフレーム、基準時刻直前のｐ個のスペクトル特徴化データフレーム及び基準時刻直後のｎ個のスペクトル特徴化データフレームを訓練済み演奏モデルに入力し、基準時刻における奏法及びノート番号を取得する。

また、これと並行して、演奏情報予測部３２０は、基準時刻のスペクトル特徴化データフレームに対して音量検出及びピッチ検出を実行する。例えば、音量検出について、演奏情報予測部３２０は、図１６（ａ）に示されるように、スペクトル特徴化データフレームの所定数のピークの周波数レベルの合計を算出し、算出した合計の周波数レベルを当該基準時刻における音量として決定してもよい。当該基準時刻に対して訓練済み演奏モデルが発音を検出しなかった場合、あるいは、検出した音量が消音状態と認められる所定の閾値以下であった場合、演奏情報予測部３２０は、発音がなかったと判断し、演奏情報として消音情報を出力する。そうでない場合、演奏情報予測部３２０は、発音があったと判断し、検出した音量を当該発音のベロシティー値とし、演奏モデルから出力された奏法及びノート番号と共に当該ベロシティー値を発音情報に含める。

また、ピッチ検出について、演奏情報予測部３２０は、図１６（ｂ）に示されるように、スペクトル特徴化データフレームの所定数のピークのうち最小の周波数レベルを撥弦のピッチと決定し、ピッチ情報を生成する。そして、演奏情報予測部３２０は、直近のピッチ情報又は発音情報と差異があった場合、ピッチ変更があったと判断し、ピッチ変更情報を出力する。

なお、前処理部３１０及び演奏情報予測部３２０は、全ての弦に対して上述した処理を並列に実行する。
［演奏情報予測処理］
次に、図１７を参照して、本開示の一実施例による演奏情報予測処理を説明する。当該演奏情報予測処理は、上述した演奏情報予測装置３００によって実現され、例えば、プロセッサがプログラム又は命令を実行することによって実現されてもよい。図１７は、本開示の一実施例による演奏情報予測処理を示すフローチャートである。

図１７に示されるように、ステップＳ２０１において、演奏情報予測装置３００は、弦番号ｓを０に初期化する。ギター５０は６弦から構成されるため、弦番号ｓは０～５の値をとる。

ステップＳ２０２において、演奏情報予測装置３００は、弦振動波形データからスペクトル特徴化データフレームを生成し、基準時刻のスペクトル特徴化データフレームに対して音量検出を実行する。

ステップＳ２０３において、演奏情報予測装置３００は、検出した音量Ｉが所定の閾値未満であるか判断する。音量Ｉが所定の閾値以上である場合（Ｓ２０３：Ｎｏ）、演奏情報予測装置３００は、発音中であると判断し、ステップＳ２０６に移行する。

他方、音量Ｉが所定の閾値未満である場合（Ｓ２０３：Ｙｅｓ）、演奏情報予測装置３００は、ステップＳ２０４において、当該基準時刻において発音中であるかを判断する。例えば、当該判断は、訓練済み演奏モデルから前回発音情報の出力があったか否かに基づき行われてもよい。発音中であった場合（Ｓ２０４：Ｙｅｓ）、演奏情報予測装置３００は、ステップＳ２０５において、演奏モデルから出力されたノート番号に対応した消音情報を生成する。発音中でない場合（Ｓ２０４：Ｎｏ）、演奏情報予測装置３００は、ステップＳ２０６に移行する。

ステップＳ２０６において、演奏情報予測装置３００は、当該基準時刻のスペクトル特徴化データフレーム、基準時刻直前のｐ個のスペクトル特徴化データフレーム、及び基準時刻直後のｎ個のスペクトル特徴化データフレームをバッファから抽出する。

ステップＳ２０７において、演奏情報予測装置３００は、抽出したスペクトル特徴化データフレームを演奏モデルに入力する。

ステップＳ２０８において、演奏情報予測装置３００は、演奏モデルから奏法及びノート番号を含む発音情報が出力されたか判断する。発音情報が出力された場合（Ｓ２０８：Ｙｅｓ）、演奏情報予測装置３００は、ステップＳ２０９において、出力された奏法及びノート番号をそれぞれ変数ｖ，ｋに代入する。他方、発音情報が出力されなかった場合（Ｓ２０８：Ｎｏ）、演奏情報予測装置３００は、ステップＳ２１５に移行する。

ステップＳ２１０において、演奏情報予測装置３００は、発音があったか判断する。発音があった場合（Ｓ２１０：Ｙｅｓ）、演奏情報予測装置３００は、ステップＳ２１１において、前回の発音イベントのノート番号Ｋ０の消音情報を生成する。他方、発音がない場合（Ｓ２１０：Ｎｏ）、演奏情報予測装置３００は、ステップＳ２１２に移行する。

ステップＳ２１２において、演奏情報予測装置３００は、奏法番号ｖ、ノート番号ｋ及び音量Ｉから変換されたベロシティーを含む発音情報を生成する。

ステップＳ２１３において、演奏情報予測装置３００は、前回の発音イベントのノート番号Ｋ０にｋを代入する。

ステップＳ２１４において、演奏情報予測装置３００は、前回発生したピッチＰ０＝ｋに対応するピッチを特定する。

ステップＳ２１５において、演奏情報予測装置３００は、基準時刻のスペクトル特徴化データフレームに対してピッチ検出を実行し、検出したピッチをｐに格納する。

ステップＳ２１６において、演奏情報予測装置３００は、ｐ＝Ｐ０であるか判断する。演奏情報予測装置３００は、ｐ＝Ｐ０である場合（Ｓ２１６：Ｙｅｓ）、ステップＳ２１８に移行し、ｐ＝Ｐ０でない場合（Ｓ２１６：Ｎｏ）、ステップＳ２１７において、ｐからの差分によってピッチベンド情報を生成する。

ステップＳ２１８において、演奏情報予測装置３００は、次の弦に対して上述した処理を実行するため、弦番号ｓを１だけインクリメントする。

ステップＳ２１９において、演奏情報予測装置３００は、全ての弦が処理されたか判断し、全ての弦が処理された場合（Ｓ２１９：Ｎｏ）、当該演奏情報予測処理を終了し、そうでない場合（Ｓ２１９：Ｙｅｓ）、次の弦に対して上述した処理を繰り返す。

なお、上述した実施例では、ギター５０などの弦楽器の弦振動波形データから演奏情報を予測する演奏モデルを訓練し、訓練した演奏モデルを利用して演奏情報を予測する演奏情報予測システムを説明したが、本開示はこれに限定されず、管楽器に適用されてもよい。すなわち、本開示は、管楽器の空気振動波形データから演奏情報を予測する演奏モデルを訓練し、訓練した演奏モデルを利用して演奏情報を予測する演奏情報予測システムに適用されてもよい。

以上、本発明の実施例について詳述したが、本発明は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［付記］
本開示の一態様では、
弦楽器演奏を表す弦振動波形データからスペクトルデータフレームを生成し、前記スペクトルデータフレームに基づいて、スペクトル特徴化データフレームを取得する前処理部と、
訓練済み演奏モデルを利用して、基準時刻のスペクトル特徴化データフレームと、前記基準時刻のスペクトル特徴化データフレームの前後のスペクトル特徴化データフレームとから、前記弦楽器演奏の演奏情報を予測する演奏情報予測部と、
を有する演奏情報予測装置が提供される。

一実施例では、前記演奏情報は、発音情報、消音情報及びピッチ変更情報から構成されてもよい。

一実施例では前記発音情報は、奏法及びノート番号を含んでもよい。

一実施例では、前記訓練済み演奏モデルは、前記奏法及び前記ノート番号を出力してもよい。

一実施例では、前記訓練済み演奏モデルは、前記基準時刻のスペクトル特徴化データフレームと、前記基準時刻のスペクトル特徴化データフレームの前の第１の数のスペクトル特徴化データフレームと、前記基準時刻のスペクトル特徴化データフレームの後の第２の数のスペクトル特徴化データフレームとを取得し、前記奏法及び前記ノート番号を出力してもよい。

一実施例では、前記訓練済み演奏モデルは、ニューラルネットワークにより実現されてもよい。

一実施例では、前記スペクトル特徴化データフレームは、前記スペクトルデータフレームに含まれる所定数個の上位のピークから構成されてもよい。

一実施例では、前記演奏情報は、ＭＩＤＩプロトコルに従って記述されてもよい。

本開示の他の態様では、
訓練用演奏情報に従って演奏された弦楽器演奏を表す弦振動波形データからスペクトルデータフレームを生成し、前記スペクトルデータフレームに基づいて、スペクトル特徴化データフレームを取得する前処理部と、
前記訓練用演奏情報を利用して、基準時刻のスペクトル特徴化データフレームと、前記基準時刻のスペクトル特徴化データフレームの前後のスペクトル特徴化データフレームとから前記弦楽器演奏の演奏情報を予測する演奏モデルを訓練する演奏モデル訓練部と、
を有する演奏モデル訓練装置が提供される。

本開示の他の態様では、
電子弦楽器と、
上述した演奏情報予測装置と、
上述した演奏モデル訓練装置と、
を有する演奏情報生成システムが提供される。

本開示の他の態様では、
１つ以上のプロセッサが、弦楽器演奏を表す弦振動波形データからスペクトルデータフレームを生成し、前記スペクトルデータフレームに基づいて、スペクトル特徴化データフレームを取得するステップと、
前記１つ以上のプロセッサが、訓練済み演奏モデルを利用して、基準時刻のスペクトル特徴化データフレームと、前記基準時刻のスペクトル特徴化データフレームの前後のスペクトル特徴化データフレームとから、前記弦楽器演奏の演奏情報を予測するステップと、
を有する演奏情報予測方法が提供される。

本開示の他の態様では、
１つ以上のプロセッサが、訓練用演奏情報に従って演奏された弦楽器演奏を表す弦振動波形データからスペクトルデータフレームを生成し、前記スペクトルデータフレームに基づいて、スペクトル特徴化データフレームを取得するステップと、
前記１つ以上のプロセッサが、前記訓練用演奏情報を利用して、基準時刻のスペクトル特徴化データフレームと、前記基準時刻のスペクトル特徴化データフレームの前後のスペクトル特徴化データフレームとから前記弦楽器演奏の演奏情報を予測する演奏モデルを訓練するステップと、
を有する演奏モデル訓練方法が提供される。

１０ギターコントローラ
５０ギター
１００制御装置
２００演奏モデル訓練装置
２１０前処理部
２２０演奏モデル訓練部
３００演奏情報予測装置
３１０前処理部
３２０演奏情報予測部

Claims

弦楽器演奏を表す弦振動波形データからスペクトルデータフレームを生成し、前記スペクトルデータフレームに基づいて、スペクトル特徴化データフレームを取得する前処理部と、
訓練済み演奏モデルを利用して、基準時刻のスペクトル特徴化データフレームと、前記基準時刻のスペクトル特徴化データフレームの前後のスペクトル特徴化データフレームとから、前記弦楽器演奏の演奏情報を予測する演奏情報予測部と、
を有する演奏情報予測装置。
前記演奏情報は、発音情報、消音情報及びピッチ変更情報から構成される、請求項１記載の演奏情報予測装置。
前記発音情報は、奏法及びノート番号を含む、請求項２記載の演奏情報予測装置。
前記訓練済み演奏モデルは、前記奏法及び前記ノート番号を出力する、請求項３記載の演奏情報予測装置。
前記訓練済み演奏モデルは、前記基準時刻のスペクトル特徴化データフレームと、前記基準時刻のスペクトル特徴化データフレームの前の第１の数のスペクトル特徴化データフレームと、前記基準時刻のスペクトル特徴化データフレームの後の第２の数のスペクトル特徴化データフレームとを取得し、前記奏法及び前記ノート番号を出力する、請求項４記載の演奏情報予測装置。
前記訓練済み演奏モデルは、ニューラルネットワークにより実現される、請求項１乃至５何れか一項記載の演奏情報予測装置。
前記スペクトル特徴化データフレームは、前記スペクトルデータフレームに含まれる所定数個の上位のピークから構成される、請求項１乃至６何れか一項記載の演奏情報予測装置。
前記演奏情報は、ＭＩＤＩプロトコルに従って記述される、請求項１乃至７何れか一項記載の演奏情報予測装置。
訓練用演奏情報に従って演奏された弦楽器演奏を表す弦振動波形データからスペクトルデータフレームを生成し、前記スペクトルデータフレームに基づいて、スペクトル特徴化データフレームを取得する前処理部と、
前記訓練用演奏情報を利用して、基準時刻のスペクトル特徴化データフレームと、前記基準時刻のスペクトル特徴化データフレームの前後のスペクトル特徴化データフレームとから前記弦楽器演奏の演奏情報を予測する演奏モデルを訓練する演奏モデル訓練部と、
を有する演奏モデル訓練装置。
電子弦楽器と、
請求項１乃至８何れか一項記載の演奏情報予測装置と、
請求項９記載の演奏モデル訓練装置と、
を有する演奏情報生成システム。
１つ以上のプロセッサが、弦楽器演奏を表す弦振動波形データからスペクトルデータフレームを生成し、前記スペクトルデータフレームに基づいて、スペクトル特徴化データフレームを取得するステップと、
前記１つ以上のプロセッサが、訓練済み演奏モデルを利用して、基準時刻のスペクトル特徴化データフレームと、前記基準時刻のスペクトル特徴化データフレームの前後のスペクトル特徴化データフレームとから、前記弦楽器演奏の演奏情報を予測するステップと、
を有する演奏情報予測方法。
１つ以上のプロセッサが、訓練用演奏情報に従って演奏された弦楽器演奏を表す弦振動波形データからスペクトルデータフレームを生成し、前記スペクトルデータフレームに基づいて、スペクトル特徴化データフレームを取得するステップと、
前記１つ以上のプロセッサが、前記訓練用演奏情報を利用して、基準時刻のスペクトル特徴化データフレームと、前記基準時刻のスペクトル特徴化データフレームの前後のスペクトル特徴化データフレームとから前記弦楽器演奏の演奏情報を予測する演奏モデルを訓練するステップと、
を有する演奏モデル訓練方法。