JP2023149901A - 歌唱指導支援装置、その判定方法、その音響特徴の可視化方法およびそのプログラム - Google Patents

歌唱指導支援装置、その判定方法、その音響特徴の可視化方法およびそのプログラム Download PDF

Info

Publication number
JP2023149901A
JP2023149901A JP2022058703A JP2022058703A JP2023149901A JP 2023149901 A JP2023149901 A JP 2023149901A JP 2022058703 A JP2022058703 A JP 2022058703A JP 2022058703 A JP2022058703 A JP 2022058703A JP 2023149901 A JP2023149901 A JP 2023149901A
Authority
JP
Japan
Prior art keywords
acoustic feature
singing
unit
singer
formant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022058703A
Other languages
English (en)
Inventor
桂 宮城
Katsura Miyagi
親稔 山田
Chikatoshi Yamada
周一 市川
Shuichi Ichikawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyohashi University of Technology NUC
Institute of National Colleges of Technologies Japan
Original Assignee
Toyohashi University of Technology NUC
Institute of National Colleges of Technologies Japan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyohashi University of Technology NUC, Institute of National Colleges of Technologies Japan filed Critical Toyohashi University of Technology NUC
Priority to JP2022058703A priority Critical patent/JP2023149901A/ja
Publication of JP2023149901A publication Critical patent/JP2023149901A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

【課題】人間の音楽的感性に基づいた歌唱の巧拙を精度よく判定することができる歌唱指導支援装置、その判定方法、その音響特徴の可視化方法およびそのプログラムを提供する。【解決手段】歌唱指導支援装置は、収音装置と、スペクトル解析部と、音響特徴量算出部と、音響特徴量可視部と、評価DB部と、楽曲DB部と、表示装置と、放音装置と、を含む。音響特徴量算出部は、第1音響特徴および第2音響特徴のそれぞれを算出する。音響特徴量可視化部は、前記音響特徴量算出部の算出結果を可視化する。第1音響特徴は、シンガーズ・フォルマント・クラスタSFCの周波数の安定性を示す値である。第2音響特徴は、シンガーズ・フォルマント・クラスタSFCのパワーの安定性を示す値である。【選択図】図3

Description

本発明は、響きのある表現力豊かな音色で歌うための歌唱スキルが習得されるようにユーザ(声楽学習者)をサポートする歌唱指導支援装置と、歌唱時の声質(音色の豊かさ・響き)の判定方法と、ユーザがどのように歌っているかを認識・理解させるための音響特徴の可視化方法と、それらを実現するプログラムに関する。
歌声における音響特徴は大きく分け、音の大きさを示す『音量』、音の高さを示す『音高』、音の長さを示す『音価』、音のタイミングを示す『律動』、周波数成分の違いを示す『音色』の5つに分類される。これらの音響特徴の中でも咽喉の開閉によって変化するとされる音色の豊かさや響きは歌唱における熟達度との関連が強いとされている。
しかしながら、従来のカラオケの採点システム等を含めた歌唱評価システムでは、主に楽譜情報に基づいて音高や音価、律動に時間的要素を加えた歌唱旋律の適切さを評価するもので、音色の豊かさや響きといった声質まではほとんど評価に含められていないと考えられる。
その一方、声楽家が高度な歌唱表現を行おうとするとき、「豊かさや響き」のある音色を使いこなすことも重要であるため、それらを含めた評価手法が求められている。また、従来このような歌唱表現を習得するためには師匠の歌唱を入念に聴き、それを真似ることによって会得する方法が一般的であるため、専門的な歌唱訓練の機会は一部の者に限られていた。一方、昨今ではSDGsの一つ『質の高い教育をみんなに』でも示されるように、たとえばICT等を活用して一人一人の教育的ニーズに的確に応える指導を提供できる多様な学びの場の整備が求められている。
その従来の技術例として、歌唱評価を行うために、音程バーやガイドメロディといった標準パターンもしくはリファレンスと比較し、その標準パターンまたはリファレンスとどれだけ似ているかによってその評価(点数)が決定されるものが知られる(たとえば特許文献1参照)。
具体的には、前記特許文献1には、
『(カラオケ装置の動作の概要)
以下、このような構成のカラオケ装置200の動作について図面を参照して説明する。図7は、カラオケ装置200が実行するカラオケ制御処理の流れを示すフローチャートである。また、図8は、カラオケ制御処理内における音域測定処理の詳細を示すフローチャートである。
最初に、図7のカラオケ制御処理について説明する。このカラオケ制御処理は、歌唱者に楽曲を選ばせるところから開始する。
[0056]
まず、カラオケ装置200は、複数の楽曲を検索する(ステップS301)。
例えば、ヒット曲や新譜等のような歌唱者にお勧めの楽曲を適宜検索する。なお、検索対象の楽曲は、過去に選択された楽曲の履歴等に基づいて、検索しても良い。
[0057]
カラオケ装置200は、検索した各楽曲について、音域チェックを行う(ステップS302)。
すなわち、判定部209は、検索された楽曲(主旋律)の各音高と、記憶部208に記憶される歌唱者の音域との関係に基づいて、歌唱者による歌唱の適否を判定する。つまり、その楽曲における音高の分布が、歌唱者の音域内に収まっているかを判定する。
[0058]
カラオケ装置200は、音域チェックについてのチェック結果を含んだ楽曲一覧を表示する(ステップS303)。
すなわち、画像生成部202は、上述した図6に示すような音域チェックを含んだ選曲画像を生成して表示部203に表示する。
[0059]
カラオケ装置200は、歌唱者により、楽曲決定されたか否かを判別する(ステップS304)。
例えば、図6に示すような選曲画面から何れかの楽曲が選択されたかどうかを判別する。カラオケ装置200は、楽曲が決定されなかった場合に(ステップS304;No)、ステップS301に処理を戻し、ステップS301~S304の処理を繰り返し実行する。つまり、楽曲を検索し直すと共に、音域チェックを行った楽曲一覧(選曲画像)を再度表示する。
[0060]
一方、楽曲が決定されると(ステップS304;Yes)、カラオケ装置200は、その楽曲を再生すると共に、画像を生成する(ステップS305)。
すなわち、再生部204は、楽曲情報記憶部201から対象の楽曲情報を読み出して楽曲音を再生し、また、画像再生部202は、楽曲情報記憶部201から対象の歌詞情報や背景画像等を読み出して表示画像を生成する。
つまり、カラオケの楽曲音(伴奏等)を再生すると共に、上述した図3に示すような歌詞画像KG及び背景画像HGを生成して表示部203に表示する。
[0061]
カラオケ装置200は、入力音を受け付ける(ステップS306)。
すなわち、入力受付部205は、再生する楽曲音に合わせて、歌唱者により入力される歌唱音声等を受け付ける。なお、上述したように、入力受付部205は、歌唱音声だけでなく、周囲に生じるノイズ音も入力してしまう。
[0062]
カラオケ装置200は、音域測定処理を行う(ステップS307)。つまり、ノイズ音(雑音)等を除外しつつ、歌唱者が発声し得る音域を測定する。
なお、音域測定処理の詳細については、後述する。
[0063]
カラオケ装置200は、入力音声と模範音声とを比較し、得点を算出する(ステップS308)。
例えば、入力音声について音程、音量、および、リズム等を解析し、それらを模範音声の音程、音量、および、リズム等と比較し、類似度に応じた得点を算出する。この際、入力音声が模範音声に近いほど得点が高くなる。
[0064]
カラオケ装置200は、楽曲の再生が終了したか否かを判別する(ステップS309)。
すなわち、再生部204が、カラオケ楽曲の再生を終えたかどうかを判別する。楽曲の再生が終了していないと判別すると(ステップS309;No)、カラオケ装置200は、ステップS305に処理を戻し、上述したステップS305~S309の処理を繰り返し実行する。
[0065]
一方、楽曲の再生が終了したと判別した場合に(ステップS309;Yes)、カラオケ装置200は、得点を集計して歌唱力等を表示する(ステップS310)。つまり、集計した得点から、歌唱者の歌唱力を示すレベルや評価値を特定し、そのレベル等を表示する。
[0066]
次に、図8を参照して、上述したステップS307における音域測定処理の詳細を説明する。
[0067]
まず、カラオケ装置200は、入力音をサンプリングする(ステップS401)。
すなわち、入力受付部205は、受け付けた入力音をサンプリングし、サンプリングした入力信号データを推測部206に供給する。
[0068]
カラオケ装置200は、入力音が歌声であると推測されるか否かを判別する(ステップS402)。
すなわち、推測部206は、入力受付部205が受け付けた入力音が歌唱者の歌声であると推測されるかどうかを判別する。つまり、推測部206は、入力音の音高が、楽曲における模範音声(主旋律)の音高とほぼ等しい場合に、その入力音が、再生される楽曲音(伴奏)に合わせて発せられた歌唱者の歌声であると推測する。
具体的には、上述した図4(a)のように、受け付けた入力音の音高が、対応する模範音声(音高T1~T4)を基準とした半音(h1~h4)の範囲内であれば、推測部206は、その入力音が歌唱者の歌声であると推測する。一方、図4(b),(c)のように、入力音(N1,N4)の音高が対応する模範音声(音高T1,T4)を基準とした半音(h1,h4)の範囲外でれば、推測部206は、その入力音が歌唱者の歌声でない(ノイズ音である)と推測する。
そして、歌声でないと推測されると(ステップS402;No)、カラオケ装置200は、そのまま音域計測処理を抜けて、図7のカラオケ制御方法に処理を戻す。
[0069]
一方、歌声であると推測された場合に(ステップS402;Yes)、カラオケ装置200は、入力音の情報を測定部207に供給する(ステップS403)。
すなわち、推測部206は、模範音声を基準として歌唱者の歌声であると推測される入力音の情報(音高等)を測定部207に供給する。
[0070]
カラオケ装置200は、歌唱者の音域を測定する(ステップS404)。
すなわち、測定部207は、歌声であると推測された入力音の音高から、歌唱者の音域(声域)を測定する。つまり、上述したステップS403にて供給された各入力音の情報から、歌唱者の音域を測定する。
具体的に測定部207は、上述した図5(a)のように、歌声であると推測されて供給された各入力音Nの音の分布に基づいて、歌唱者の音域を測定する。このほかにも、上述した図5(b)のように、順次供給される各入力音Nから、楽曲中における最高の音高(入力音NH)及び最低の音高(入力音NL)を更新するようにし、楽曲終了時点の入力音NH,NLから歌唱者の音域を測定してもよい。
[0071]
カラオケ装置200は、計測結果に応じて、記憶部208を更新する(ステップS405)。
すなわち、測定部207は、計測された音域に関する情報に基づいて、記憶部208の情報を更新する。つまり、歌唱者の最も広い音域が維持されるように、記憶部208の情報が更新される。
そして、音域計測処理を終えると、カラオケ装置200は、図7のカラオケ制御方法に処理を戻す。
[0072]
このような、音域測定処理において、模範音声にほぼ等しい入力音を歌声であると推測する。そして、模範音声から外れた入力音を、カラオケ中に入力されてしまうノイズ音として除外することで、適切な入力音から歌唱者が発声し得る音域を正確に測定することができる。
また、歌唱者が歌う度に、歌唱者の音域が測定されるため、例えば、歌唱者が複数の楽曲(異なる楽曲等)を歌うことにより、正確な音域の情報が記憶部208に蓄積されて行くことになる。
そして、そのような記憶部208に蓄積された情報に基づいて、選曲候補となる楽曲の音域チェックを行い、その結果を表示する。つまり、歌唱者の音域に合致しているかどうか(歌えるかどうか)が、選曲時に提示されるため、適切な楽曲を選ぶことができる。
[0073]
この結果、歌唱者が発声し得る音域を適切に測定することができる。また、選曲時に、楽曲の音域を確認して選曲することができる。』ことが記載されている。
また、その他の従来例としては、豊かで心地よく響く声に倍音が多く含まれる点に着目し、基本周波数成分に対する倍音周波数成分ごとの比率の平均値に応じて、歌唱音声の評価を示す評価値を算出する評価手段を備えるものも知られる(たとえば特許文献2参照)。すなわち、倍音成分の比率の平均値が大きいほど高いポイントが加算されるものである。
具体的には、前記特許文献2には、
『[0022]
図5に示す処理は、採点の準備にあたる処理であり、歌唱者の歌唱に際し逐次評価した結果を蓄積してゆく。
まず、CPU11は、ピッチ、音量、リズムに関する差分値データを算出する(Sa1)。この処理の詳細は以下の通りである。
1.ガイドメロディピッチデータGPと歌唱ピッチデータSPとの差を検出し、ピッチ差分値データPDとしてRAM13の差分値記憶領域A2に蓄積記憶する。
2.ガイドメロディ音量データGVと歌唱音量データSVが表す音量との差を音量差分値データVDとして差分値記憶領域A2に蓄積記憶する。
3.ガイドメロディの発音タイミング(または消音タイミング)と歌唱音量データSVの立ち上がり(または立ち下がり)のタイミングの時間差をリズム差分値データRDとして差分値記憶領域A2に蓄積記憶する。以上の処理は音符毎に行う。
[0023]
続いてCPU11は、基本周波数成分と倍音周波数成分との比率を算出する(Sa2)。即ち、音声処理用DSP20の周波数成分抽出部20cから出力された各倍音の倍音周波数成分の、基本周波数成分に対する比率をそれぞれ算出し、これら各倍音ごとに算出した比率を示すデータを比率記憶領域A3に蓄積記憶する。
以上のようにして、ピッチ、音量、リズムに関する差分値データ、及び倍音周波数成分の基本周波数成分に対する比率が逐次蓄積される。
[0024]
図6は、スコア算出処理を示すフローチャートである。
まず、CPU11は、RAM13の差分値記憶領域A2に蓄積されているピッチ差分値データPD、音量差分値データVD、及びリズム差分値データRDを読み出して各々集計し、この集計結果に応じた減点ポイントを算出する(ステップSb1)。利用者の歌唱が、ガイドメロディからずれるほど減点ポイントが大きくなるように算出される。すなわち、各差分値データPD,BD,RDの集計値が大きい値になるほど減点ポイントが大きくなる。
[0025]
そして、CPU11は、この減点ポイントを満点(100点)から減算する(ステップSb2)。更に、CPU11は、RAM13の比率記憶領域A3に記憶されている比率を読み出し、各倍音ごとの平均値をそれぞれ算出する(ステップSb3)。そして、各倍音毎の比率の平均値に応じたボーナスポイントを合計して、ステップSb2での減算結果に加算する(ステップSb4)。
更に、ステップSb5に進んでボーナスポイント加算後の総合得点を表示制御部17に出力する。この結果、総合得点が表示制御部17の制御に従ってモニタ2に表示される。
[0026]
なお、ボーナスポイントの算出方法は、基本周波数に対する倍音周波数の比率が大きいほど高いポイントが算出されるようになっていれば、各倍音の比率と加算されるポイントとを関連付けたテーブルを用いて算出してもよいし、予め準備されたポイント算出式にそれぞれの比率を入力して算出してもよい。或いは、各倍音ごとに閾値を定め、比率がこの閾値より高いときは声質がよいとしてポイントを与える一方で、この閾値よりも低いときは声質がよくないとしてポイントを与えないといったような二者択一的な方法によってもよい。
以上の処理により、倍音を多く含む歌唱ほど高得点になる。これは、倍音が含まれている声は豊かな厚みのある声として心地よく響くからである。
[0027]
以上説明したように、本実施形態にかかるカラオケ装置は、歌唱音声信号から抽出した倍音周波数成分の基本周波数成分に対する比率の高さに応じて歌唱音声の声質を評価し、この評価内容を歌唱音声の巧拙の採点に反映させる。従って、人間の感性により近い採点結果を出力することができる。』ことが記載されている。
また、その他の従来例としては、より適切な評価を実現するために、母音のスペクトル包絡の変動が少ないほど当該母音に対し安定して発声しているものと評価するものも知られる(たとえば特許文献3参照)。
具体的には、前記特許文献3には、
『 [0048]
この安定性判定処理では、図2に示すように、起動されると、制御部20が、まず、対象楽曲の歌詞データDLを情報格納サーバ25から取得する(S110)。制御部20は、対象楽曲のメロノート情報を情報格納サーバ25から取得する(S120)。
[0049]
続いて、制御部20は、S110で取得した歌詞データDLに含まれている歌詞テロップデータDTを分析し、歌詞テロップデータDTによって表される歌詞を音節データに変換する(S130)。このS130では、具体的には、制御部20が、歌詞(歌詞構成文字)に対して形態素解析を実行する。そして、制御部20は、歌詞を構成する各形態素を、読みデータベース(DB)100に格納されている読み情報に基づいて、形態素の読み(即ち、音節)に変換する。
[0050]
なお、本実施形態における形態素解析は、周知の手法(例えば、“MeCab”)を用いれば良い。また、読み情報とは、形態素と当該形態素の音節とを予め対応付けた情報であり、読みデータベース100に予め格納されている。
[0051]
そして、制御部20は、S130にて変換された音節データ及びS120にて取得したメロノート情報に基づいて、対象楽曲の歌唱旋律における楽音の音高それぞれと歌詞の音節とを時系列に沿って対応付ける時間対応付けを実行する(S140)。このS140では、具体的には、制御部20が、歌詞出力データDOに規定された歌詞構成文字の出力タイミング及び対象楽曲の歌唱旋律における楽音のノートオン(オフ)タイミング従って、当該楽音のそれぞれの音高に、歌詞の音節それぞれを割り当てることを、時間対応付けとして実施する。
[0052]
そして、制御部20は、S140にて時間対応付けされた歌詞の音節に基づいて、各歌詞の音節に含まれる母音を抽出した母音データを生成する(S150)。ここで言う母音データは、図3に示すように、歌詞の音節に含まれ、かつ抽出された母音を対象楽曲の時系列に沿って並べたものである。
[0053]
続いて、制御部20は、カラオケ演奏処理にて対象楽曲を歌唱したユーザのユーザIDが割り当てられ、かつ、対象楽曲を歌唱することで生成された音声データSVを情報格納サーバ25から取得する(S160)。なお、ユーザIDは、ユーザが情報処理装置10にログインする際に、入力受付部12を介して取得されたものを用いれば良い。
[0054]
制御部20は、その取得した音声データSVによって表される音声波形(以下、「対象歌唱波形」と称す)のパワーを分析し、パワー時間変化を算出(導出)する(S170)。このS170では、制御部20が、例えば、対象歌唱波形における各時刻の振幅値を二乗し、その二乗した値の時系列に沿った推移をパワー時間変化として算出(導出)する。
[0055]
そして、制御部20は、対象歌唱波形を周波数解析する(S180)。本実施形態のS180における周波数解析では、制御部20が、対象歌唱波形に対して設定される分析時間窓を時系列に沿って順次スライドさせつつ、各分析時間窓にて離散フーリエ変換(DFT)する。
[0056]
さらに、制御部20は、対象歌唱波形に基づいて各時刻における基本周波数(F0)を推定し、基本周波数が時系列に沿って推移した基本周波数推移を算出(導出)する(S190)。このS190における基本周波数の推定方法としては、周知の手法を用いれば良い。この基本周波数の推定方法の具体例としては、時系列に沿った自己相関を用いる方法や、周波数解析の結果に対する周波数軸上での自己相関を用いる方法などが考えられる。
[0057]
さらに、制御部20は、歌唱旋律を構成する各楽音における母音の発声開始タイミングΔctsそれぞれを特定する(S200)。
具体的にS200では、制御部20が、S180での分析時間窓ごとの周波数解析の結果(即ち、周波数スペクトル)について自己相関を算出(導出)する。この自己相関の導出は、時系列に沿って順次実施される。そして、制御部20は、その自己相関の算出(導出)の結果、ピークの存在が未検出である状態から検出された状態へと切り替わった分析時間窓に対応する時刻を発声開始タイミングΔctsとして特定する。
[0058]
すなわち、母音に対して発声された音声の周波数スペクトルは調波構造である。このため、周波数軸上における自己相関関数の「最大値/平均値」は、値が大きくなる。一方、子音に対して発声された音声の周波数スペクトルは、非調波構造である。このため、周波数軸上における自己相関関数の「最大値/平均値」は、値が小さくなる。
[0059]
本実施形態においては、制御部20が、例えば、自己相関関数の「最大値/平均値」が予め規定された閾値以上である場合にピークが存在するものと判定し、自己相関関数の「最大値/平均値」が閾値未満である場合にピークの存在を未検出であるものと判定すれば良い。
[0060]
続いて、制御部20は、歌唱旋律を構成する各楽音における母音の発声終了タイミングΔcteそれぞれを特定する(S210)。
具体的にS210では、制御部20が、S200にて自己相関を算出した結果に基づいて、各発声開始タイミングΔcts以降に、所定の条件を満たす最初の時刻を発声終了タイミングΔcteとして特定しても良い。ここで言う所定の条件とは、例えば、ピークの存在を検出した状態から未検出である状態へと切り替わった分析時間窓に対応することである。
[0061]
また、発声終了タイミングΔcteを特定する他の方法として、S170にて算出したパワー時間変化を用いる方法が考えられる。この場合、例えば、各発声開始タイミングΔcts以降に、所定の条件を満たす最初のタイミングそれぞれを発声終了タイミングΔcteとして特定することが考えられる。ここで言う所定の条件とは、S170にて算出したパワー時間変化におけるパワーが予め規定されたパワー閾値未満となることである。
[0062]
そして、制御部20は、歌唱旋律を構成する各楽音における母音を発声した波形である母音発声波形それぞれを抽出すると共に、その母音発声波形にて発声された母音の内容を対応付ける(S220)。具体的にS220では、制御部20が、S200にて特定された各発声開始タイミングΔctsと、S210にて特定された発声終了タイミングΔcteとを対応する楽音ごとに組み合わせることで、母音発声区間それぞれを特定する。ここで言う母音発声区間とは、歌唱旋律を構成する各楽音における母音を発声した期間である。
[0063]
そして、制御部20は、図4に示すように、対象歌唱波形における各母音発声区間の波形それぞれを母音発声波形として抽出する。
さらに、S220では、制御部20が、母音データに基づいて、各母音発声波形にて発声された母音の内容を対応付ける。
[0064]
制御部20は、その母音発声波形それぞれについてケプストラム分析を実行する(S230)。このS230におけるケプストラム分析では、制御部20が、母音発声波形それぞれに対して一つのメル周波数ケプストラムを算出(導出)する。
[0065]
具体的な手法としては、母音発声波形それぞれに対して時系列に沿って時間窓を順次設定し、各時間窓に対して、メル周波数ケプストラムを算出する周知のケプストラム分析を実行し、その結果として算出されたメル周波数ケプストラムを母音発声波形ごとに平均す
ることが考えられる。また、その他の手法として、各母音発声区間に含まれる分析時間窓の周波数解析の結果(周波数スペクトル)に対してケプストラム分析を実行し、そのケプストラム分析の結果を母音発声区間ごとに平均することが考えられる。
[0066]
さらに、制御部20は、S230にて算出された各母音発声波形のメル周波数ケプストラムを母音の内容ごとに統計処理し、ケプストラムベクトルの平均ベクトルと分散ベクトルとを算出(導出)する(S240)。ケプストラムベクトルの平均ベクトルの算出は、S230にて算出された各母音発声波形のメル周波数ケプストラムを母音の内容ごとに相加平均することで実施する。また、ケプストラムベクトルの分散ベクトルの算出は、S230にて算出された各母音発声波形のメル周波数ケプストラム(各要素ごと)を母音の内容ごとに、周知の手法により分散を算出することで実施する。
[0067]
続いて、制御部20は、各母音に対する発声の声質を評価した指標である声質評価値を算出(導出)する(S250)。このS250では、制御部20が、各母音の内容に対するケプストラムベクトルの平均ベクトル(即ち、発声ケプストラムの一例)と、母音の内容ごとに予め用意された母音標準ケプストラムとの相関係数を声質評価値として算出する。ここで言う「母音標準ケプストラム」は、各内容の母音について安定して発声したとみなせる音声のフォルマント構造におけるスペクトル包絡から算出したメル周波数ケプストラム(MFCC)である。なお、本実施形態における母音標準ケプストラムは、特許請求の範囲に記載された「基準値」の一例である。
[0068]
制御部20は、対象楽曲における歌唱旋律を構成する楽音の総数に対する、各母音が割り当てられた楽音の割合である母音割合を算出(導出)する(S260)。
さらに、制御部20は、発声の安定性を表す指標である安定性指標を算出(導出)する(S270)。このS270にて算出する安定性指標には、母音ごとの発声の安定性を表す母音安定性指標と、対象楽曲全体に対する総合的な発声の安定性を表す総合安定性指標とを含む。
[0069]
制御部20は、ケプストラムベクトルの分散ベクトルの逆数の母音ごとの和を母音安定性指標として算出(導出)する。すなわち、本実施形態では、制御部20は、同一の母音に対する発声のスペクトラム包絡の変動が少ないほど当該母音に対して安定して発声しているものと評価する。
[0070]
また、制御部20は、対応する母音の声質評価値をS260にて算出された母音割合を重みとして重み付け加算した結果を、総合安定指標として算出(導出)する。なお、総合安定指標の算出では、母音ごとに、ケプストラムベクトルの分散ベクトルの平均値の逆数を重みとして、母音割合と声質評価値との重み付け加算の結果にさらに付加しても良い。
[0071]
このような総合安定性指標は、声質評価値が高いほど、発声の安定性が高いことを表す。
続いて、制御部20は、S270にて算出した安定性指標を報知する(S280)。このS280で報知する安定性指標には、母音安定性指標及び総合安定性指標のうちの少なくとも一方を表示部13に表示することを含む。
[0072]
この表示部13による表示は、制御部20が、表示部13に対して制御信号を出力することで実現する。制御信号が入力された表示部13は、例えば、図5に示すように、すべての母音の母音安定性指標をグラフ形式にて表示する。また、制御信号が入力された表示部13は、総合安定性指標を点数にて表示する。
[0073]
なお、安定性指標の報知は、音声出力部15により音声出力されても良い。この場合、
母音安定性指標及び総合安定性指標を表す信号を、制御部20が、音声出力部15に出力する。信号が入力された音声出力部15は、母音安定性指標及び総合安定性指標を音声にて出力する。
[0074]
その後、制御部20は、本安定性判定処理を終了する。
つまり、本実施形態の安定性判定処理では、対象楽曲に対する歌唱が完了した後、制御部20が、その対象楽曲に対する音声データSVに基づいて、母音に対する発声の安定度合いを表す安定性指標を算出している。その安定性指標は、母音に対して声質が高い発声ができていれば、高いものとして算出される。
[第一実施形態の効果]
本実施形態においては、ケプストラムベクトルの分散ベクトルの逆数の母音ごとの和を母音安定性指標として算出している。このため、その母音安定性指標は、同一母音に対する発声のスペクトル包絡のブレを表すものである。よって、母音安定性指標は、値が大きいほどブレが小さく、当該母音を安定して発声できており、声質が高いことを表している。
[0075]
一般的に、母音に対する発声の声質が低ければ、当該母音に対応する楽音の音高をユーザが苦しそうに歌唱しており、発声の声質が高ければ、当該母音に対応する楽音の音高をユーザが余裕を持って歌唱できていると考えられる。
[0076]
また、本実施形態における母音標準ケプストラムの各々は、各母音のフォルマント構造におけるスペクトル包絡から算出したメル周波数ケプストラムである。このような母音標準ケプストラムと、各母音の内容に対するケプストラムベクトルの平均ベクトルとの相関係数(即ち、声質評価値)は、対応する母音を発声した場合の声質を表し、相関係数が高いほど、母音を適切に発声できていることを表す。
[0077]
したがって、情報処理装置10によれば、歌唱の評価を適切なものとすることができる。
換言すれば、情報処理装置10によれば、歌唱の評価において、客観的で違和感が少なく、より適切な評価を実現できる。
[0078]
なお、本実施形態の安定性判定処理では、母音安定性指標を母音ごとに算出している。このため、安定性判定処理によれば、情報処理装置10のユーザが得意な母音や不得意な母音を特定できる。
[0079]
さらに、本実施形態の安定性判定処理では、対象楽曲全体に対する総合的な発声の安定性を表す総合安定性指標を算出している。このため、安定性判定処理によれば、情報処理装置10のユーザの対象楽曲全体を通した発声の安定性を評価できる。』ことが記載されている。
また、その他の従来例としては、音高ごとのフォルマント周波数(音声の周波数スペクトルに現れる、周囲よりも強度が大きい周波数帯域)の安定性から歌唱の巧拙を示す評価値を算出しているものも知られる(たとえば特許文献4参照)。
具体的には、前記特許文献4には、
『 [0029]
図6に、分析処理(音高解析部222、区間設定部224、特徴量算出部226、及び評価部228による処理)の動作例のフローチャートを示す。例えば、楽曲データベースDBLに記憶される楽曲のうち任意の1つの楽曲の再生が開始されると、図6の処理が開始される。
[0030]
音高解析部222が歌唱信号Vのうち時間軸上の1個の時点(以下「着目点」という)について音高Pを特定すると(SA1)、区間設定部224は、図7に例示される通り、音高Pが特定された時間軸上の着目点Kを終点とする所定長の解析区間TAを設定する(SA2)。解析区間TAは、時間窓関数が規定する分析の対象とされる時間的区間であり、例えば、音高解析が実行される周期(10ms)よりも十分に長い時間長(例えば200ms)に設定される。したがって、着目点Kについて新たに特定された音高Pと着目点K以前の音高Pとを含む複数の音高Pが解析区間TA内に包含される。
[0031]
区間設定部224は、解析区間TA内の複数の音高Pの最大値PMAXと最小値PMINとを特定し、最大値PMAXと最小値PMINとの差分値R(すなわち解析区間TA内の音高の分布幅)が所定の閾値PTHを下回るか否かを判定する(SA3)。差分値R(解析区間TA内の音高の分布幅)が狭いほど、歌唱信号Vの音高Pが安定していると評価できる。例えば、閾値PTHは、十二平均音律における半音(50cent)に設定され得る。
[0032]
区間設定部224は、差分値Rが閾値PTHを下回る場合(SA3:YES)、当該解析区間TAを音高安定区間TSに包含させる(SA4)。図7の解析区間TAnを例にとると、解析区間TAnでは音高Pの最大値PMAXと最小値PMINとの差分値Rが閾値PTHを下回るから、着目点Knを含む解析区間TAnが音高安定区間TSに包含される。
[0033]
区間設定部224は、当該着目点Knにおける音高P、強度L、及びフォルマント周波数Fを記憶装置12に記憶する(SA5)。ここで、着目点Knにおける強度Lは歌唱信号Vの強度の平均(例えば、着目点Kn-1からKnまでの歌唱信号Vの振幅の二乗の平均値)である。着目点Knにおけるフォルマント周波数Fnは任意に算出可能であるが、例えば、着目点Knにおける第1フォルマントの周波数及び第2フォルマントの周波数の組である。
[0034]
区間設定部224は、楽曲が終了するまでの間(SA10:NO)、音高解析部222によって音高Pが特定されるごとに(SA1)、当該音高Pの着目点Kを終点とする解析区間TAを設定し(SA2)、当該解析区間TAにおける音高Pの最大値PMAXと最小値PMINとの差分値Rが閾値PTHを下回るか否かを判定する(SA3)。すなわち、図7から理解される通り、音高解析部222が音高Pを特定する周期(10ms)ごとに解析区間TAを時間軸上で順次に移動させながら、当該解析区間TAが音高安定区間TS内に包含されるか否かが判定される。したがって、閾値PTHを下回る分布幅の範囲内の音高Pを音高解析部222が特定するたびに音高安定区間TSが時間軸上で順次に伸長していく。
[0035]
他方、解析区間TA内における音高Pの最大値PMAXと最小値PMINとの差分値Rが閾値PTH以上である場合(SA3:NO)、区間設定部224は、当該着目点Kを音高安定区間TSに含めない(SA6)。区間設定部224は、現在の解析区間TAの直前の解析区間TAが音高安定区間TS内に存在するか否かを判定する(SA7)。判定結果が肯定である場合、区間設定部224は、直前の解析区間TAの終点(着目点K)を1個の音高安定区間TSの終点として確定する(SA8)。つまり、区間設定部224は、歌唱の進行に並行して順次に音高安定区間TSを設定する。以上の手順(SA1~SA8)で音高安定区間TSが確定すると、特徴量算出部226は、当該音高安定区間TSについて各特徴量の持続度G(具体的には、音高Pの持続度GP、強度Lの持続度GL、及びフォルマント周波数Fの持続度GF)を算出する(SA9)。すなわち、特徴量算出部226は、区間設定部224が音高安定区間TSを設定するたびに(歌唱の進行に並行して順次に)当該音高安定区間TSについての各特徴量の持続度Gを算出する。特徴量算出部226は、当該音高安定区間TSについての各特徴量の持続度Gを音高(音高安定区間TSにおける音高)に対応付けて記憶装置12に記憶する。
[0036]
楽曲が終了すると(SA10:YES)、評価部228は、特徴量算出部226が算出した音高安定区間TSごとの各持続度G(GP,GL,GF)に基づいて音高ごとの評価値S(SP、SL、SF)を算出し(SA11)、評価データベースDBEに出力して記憶する(SA12)。すなわち、楽曲が終了するたびに評価処理が実行され、評価値Sが評価データベースDBEに蓄積される。
次に評価部228は、SA11で算出した音高ごとの評価値Sを表示処理部24に出力する。表示処理部24は、歌唱の巧拙を示す評価値Sを表示装置16に表示させる(SA13)。この表示態様は任意であるが、例えば、図8に例示するように、音高ごとに評価値SP、SL、SFを折れ線グラフで表示する。これを見た歌唱者(又はその他の者)は歌唱者が得意な音域を一目瞭然で把握できる。
[0037]
図9に、検索処理(音域特定部230と選択部232による処理)の動作例のフローチャートを示す。当該歌唱音声分析装置100の歌唱者(又はその他の者)が入力装置11に入力した楽曲検索要求が検知されると図9の処理が開始される。
[0038]
音域特定部230は、楽曲検索要求で指定される歌唱者について、当該歌唱者の音高ごとの評価値Sを評価データベースDBEの総合評価値テーブルEMAveから取得し(SB1)、当該歌唱者の適正音域を特定する(SB2)。
次に選択部232は、音域特定部230が特定した適正音域に適した楽曲を楽曲音域データベースDBMから検索する(SB3)。具体的には、楽曲音域データベースDBMに記憶された複数の楽曲のうち、歌唱者の適正音域と適合度が高い模範音域の楽曲を選択する。選択部232は、選択した楽曲を示す楽曲情報M(例えば、選択した楽曲の曲名と歌手名)を表示処理部24に出力し、表示装置16に表示させる(SB4)。
[0039]
以上に説明した通り、第1実施形態では、音高ごとに算出した歌唱音声の特徴量の持続度Gに基づいて歌唱者の歌唱の巧拙を示す評価値Sを音高ごとに算出し、この評価値Sが所定条件を満たす音高の範囲に応じて歌唱者の適正音域を特定する。よって、本実施形態によれば、対比例と比較して、歌唱の巧拙が考慮された、歌唱者が得意な音高ひいては適正音域の特定が可能となる。
さらに、歌唱の巧拙を考慮して特定された適正音域に適した楽曲を選択するから、対比例と比較して、歌唱者が得意な(より上手に歌唱可能な)適正音域の楽曲の推薦が可能となる。
また、歌唱者ごとに複数の楽曲にわたって評価データベースDBEに蓄積した評価値Sから歌唱者の適正音域を特定するので、1個の楽曲の歌唱についての評価値Sから適正音域を特定する態様と比較して、高精度に適正音域を特定することが可能となる。』ことが記載されている。
また、その他の従来例としては、歌詞や旋律に伴い音高や母音が変化する中で、シンガーズ・フォルマント(2400-4000Hz付近に生起し、歌声らしさや声の響きと関連するとされる特徴量)のパワー値の安定性から歌唱時の熟達度を評価しているものも知られる(たとえば非特許文献1参照)。
また、その他の従来例としては、歌声に含まれる音響特徴量(ピッチデータ、パワーデータ、周波数スペクトル)を可視化することで、歌唱指導の支援を目指したシステムも知られる(たとえば非特許文献2参照)。
また、その他の従来例としては、歌い方の分布や傾向を可視化するインタフェースSingDistVisも知られる(たとえば非特許文献3参照)。
特許5291742号公報 特開2005-107088号公報 特開2015-031728号公報 特開2016-142944号公報 高橋純 他,"歌唱におけるフォルマントの安定性"情報処理学会研究報告,Vol.2016-MUS-113, No.13, 2016. 羽賀翼 他,"歌声に含まれる音響特徴量の可視化に基づく歌唱指導支援システムの設計"教育システム情報学会,2013. 藤貴之 他,"SingDistVis: 多数の歌声から歌い方の傾向を可視化できるインタフェース"WISS, 2021
前記特許文献1のものは、歌唱者の声質そのものを客観的に判定するものはなかった。従って、カラオケ装置において、歌唱者が独自の歌唱法や声質で上手く歌唱しても、標準パターンやリファレンスと一致度が低い場合には、採点結果の点数が低くなってしまうという問題点があった。
前記特許文献2のものは、倍音成分は単純に多く含まれていればよいとは限らない。本発明の発明者らの評価結果では、熟達した歌い手は単に倍音を多く含むだけでなく、倍音に強弱を交えることで多様な音色を奏でるという特徴が見られた。そのため、前記特許文献2の評価手法では、正確な評価結果を得られない可能性がある。改善の余地があったといえる。
前記特許文献3、前記特許文献4および前記非特許文献1では、いずれも音高や母音が変化する中でのシンガーズ・フォルマントの周波数の安定性については考慮されていない。さらに、前記非特許文献1では、シンガーズ・フォルマントのパワー値の安定性を二乗平均平方根(RMS)により評価しているため、仮に安定性(フォルマントのパワー値の散らばり具合)が同等だった場合には、パワー値が小さいほど安定性が高いと評価される可能性がある。シンガーズ・フォルマントのパワー値は熟達度が高いほど強くなる傾向にあるため、RMSによる評価では正確な評価結果が得られない可能性がある。改善の余地があったといえる。
前記非特許文献2および前記非特許文献3では、基本周波数(F0)の時間的推移やその分布を可視化するものであるため、主に音高の変化しか考慮されておらず、音色の時間的遷移やその分布による声質の特徴までは扱われていない。
ところで、人の音楽的感性に基づいて歌唱の巧拙を評価する際、『音量』『音高』『音価』『律動』だけでなく歌唱者自身の声質そのものの印象がその評価内容に大きく影響する。たとえば、音色が豊かで響く声の持ち主であれば多少の音程のズレは気にならず聞き心地のよい歌唱に聞こえる一方で、そうでない単調な声の持ち主の歌唱であれば音程のズレが無くても聞き心地の悪い歌唱に聞こえるためである。
しかしながら、前述したように従来例は、『音量』『音高』『音価』『律動』のズレ度合いのみによって歌唱の巧拙を評価していたため、歌唱者自身の声質の巧拙を評価結果に十分に反映させることができなかった。つまり、前記特許文献1、前記特許文献2、前記特許文献3、前記特許文献4、非特許文献1、非特許文献2および非特許文献3のものは改善の余地があり、人間の音楽的感性に基づいた歌唱の巧拙を精度よく判定するものではないといえる。
本発明は前述した事情に鑑みてなされたものであり、人間の音楽的感性に基づいた歌唱の巧拙を精度よく判定することができる歌唱指導支援装置、その判定方法、その音響特徴の可視化方法およびそのプログラムを提供する。
本発明の前述した目的は、後記の構成により達成される。
(1)
収音装置と、
スペクトル解析部と、
音響特徴量算出部と、
音響特徴量可視部と、
評価DB部と、
楽曲DB部と、
表示装置と、
放音装置と、を含み、
前記音響特徴量算出部は、第1音響特徴および第2音響特徴のそれぞれを算出し、
前記音響特徴量可視化部は、前記音響特徴量算出部の算出結果を可視化し、
前記第1音響特徴は、シンガーズ・フォルマント・クラスタSFCの周波数の安定性を示す値であり、
前記第2音響特徴は、シンガーズ・フォルマント・クラスタSFCのパワーの安定性を示す値である、
歌唱指導支援装置。
(2)
前記音響特徴量算出部は、第3音響特徴および第4音響特徴および第5音響特徴のそれぞれをさらに算出し、
前記第3音響特徴は、シンガーズ・フォルマント・クラスタSFCの強度を示す値であり、
前記第4音響特徴は、倍音含有率を示す値であり、
前記第5音響特徴は、シンガーズ・フォルマント・クラスタの集中度を示す値である、
(1)に記載の歌唱指導支援装置。
(3)
前記音響特徴量可視化部は、前記音響特徴量算出部の算出結果のそれぞれを総合評価としてレーダーチャート上に出力する、
(1)または(2)に記載の歌唱指導支援装置。
(4)
前記音響特徴量可視化部は、前記第1音響特徴および前記第2音響特徴に関する値についてカーネル密度推定を使い母集団のデータを外挿したものを用いて可視化する、
(1)に記載の歌唱指導支援装置。
(5)
前記音響特徴量可視化部は、前記第3音響特徴、前記第4音響特徴および前記第5音響特徴に関する値についてスペクトル包絡(フォルマント構造)を直接可視化する、
(1)に記載の歌唱指導支援装置。
本発明によれば、人間の音楽的感性に基づいた歌唱の巧拙を精度よく判定することができる。
以上、本発明について簡潔に説明した。さらに、以下に説明される発明を実施するための形態(以下「実施形態」という。)またはその例(以下「実施例」ともいう。)を通読することにより、本発明の詳細はさらに明確化されるだろう。
経験者のスペクトル包絡を示すグラフ 熟練者のスペクトル包絡を示すグラフ 歌唱指導支援装置の構成の一例を示す機能ブロック図 音響特徴の定義を例示する第1のグラフ 音響特徴の定義を例示する第2のグラフ 音響特徴の定義を例示する第3のグラフ 色旋律の可視化の一例を示す模式図 第1実施例に係る試験の結果を示す比較グラフ 第1実施例に係る試験結果の総合評価を示すレーダーチャート 音響特徴の可視化の一例を示す模式図
以下、適宜図面を参照しながら、本発明に係る歌唱指導支援装置、その判定方法、その音響特徴の可視化方法およびそのプログラムを具体的に開示した実施形態を詳細に説明する。
ただし、必要以上に詳細な説明は省略する場合がある。たとえば、すでによく知られた事項の詳細説明または実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。また、添付図面のそれぞれは符号の向きに従って参照するものとする。
なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
また、実施形態でいう「部」または「装置」とは単にハードウェアによって機械的に実現される物理的構成に限らず、その構成が有する機能をプログラムなどのソフトウェアにより実現されるものも含む。また、1つの構成が有する機能が2つ以上の物理的構成により実現されても、または2つ以上の構成の機能がたとえば1つの物理的構成によって実現されていてもかまわない。
[・本発明の技術的特徴について]
図1および図2を参照しながら、本発明の技術的特徴について説明する。図1は、経験者のスペクトル包絡を示すグラフである。図2は、熟練者のスペクトル包絡を示すグラフである。
本発明は、音色の時間的変化、すなわち音色旋律(Schonberg,Harmonielehre,1911)と声の響きに影響を与えるシンガーズ・フォルマント(Sundberg,JASA,1974)を評価指標とすることで、従来技術には見られない技術的特徴を有する。加えて、声質の評価だけでなく、音色旋律やシンガーズ・フォルマントの音響特徴を分かりやすく可視化することで、学習者が歌唱時の音響特徴を認識・理解することができるため、歌唱力の向上や魅力的な歌い方の実現につながる。
しかしながら、人間が効率的に視認できる次元数は1~3次元程度であるため、音色のように多次元のベクトルとして表出し、かつ時間的に複雑に変化する音響特徴(音色旋律)の単純な可視化は視認性に欠ける。そのため、音色旋律の可視化には視認性の確保が必要不可欠である。
ここで、本発明者らは、3クラスに分類した歌い手(熟練者、経験者、初心者)の歌唱時のフォルマントを解析し、その解析結果より熟練者には共通する音響特徴があることを見出した。
図1に琉球古典音楽『歌三線』の経験者と熟練者を対象に評価したフォルマントを示す。
図1に示すように、このグラフはフレーム長を46msとし、歌唱時の音高が低音から高音に変化する際のフォルマント(スペクトル包絡)を約6秒間プロットしたもの(破線)と、その平均値をプロットしたもの(実線)であるが、評価結果から以下の知見が得られた。
(1)熟練者はシンガーズ・フォルマントという特定の周波数帯域(2400-4300Hz)を強調して歌い、その帯域に複数のパワースペクトルを集中させることでシンガーズ・フォルマント・クラスタ(Kenneth, Practical Vocal Acoustics,2013)を形成する。
(2)2400-4300Hz付近に形成されたシンガーズ・フォルマント・クラスタは、音高の変化によらず周波数およびパワーともに安定する傾向にある。
本発明の一部である声質の評価手法は、これらの知見に基づき完成されたものであって、この音響特徴を検出することにより、歌唱(声質)の巧拙を評価する技術である。また、以下に先行技術文献で示した課題の解決法も示す。
●前記特許文献1の課題に対し、シンガーズ・フォルマントの音響特徴と音色の時間的変化(音色旋律)により声質(響き・豊かさ)を評価する。
●前記特許文献2の課題に対し、倍音ではなく、スペクトル包絡から得られた複数のフォルマントと基音の比率の平均値から倍音の含有量を評価する。
●前記特許文献3、前記特許文献4および前記非特許文献1の課題に対し、音高や母音が変化する中でのシンガーズ・フォルマント・クラスタの周波数の安定性を標準偏差で評価する。また、シンガーズ・フォルマント・クラスタのパワーの安定性を乗平均平方根(RMS)ではなく、変動係数を用いて評価する。
さらに、本発明者らが知る限り従来技術では扱われていなかった音色旋律(多次元ベクトルとして表出するスペクトル包絡の時間推移)に着目し、その音響特徴の次元を圧縮して可視化することで声質や音色の豊かさを含めた評価ならびに訓練支援を実現する点が本発明の特徴である。なお、音色の時間的なふるまいを分かりやすく可視化するために、熟練者の歌唱を学習したAI(ニューラルネットワーク)を用いて音色を特徴付ける多次元のベクトル(スペクトル包絡)の次元数を圧縮する。
(第1実施形態)
図3~図7に基づいて本発明に係る第1実施形態について説明する。
[・歌唱指導支援装置の基本構成について]
図3~図7を参照しながら、歌唱指導支援装置の基本構成について説明する。図3は、歌唱指導支援装置の構成の一例を示す機能ブロック図である。図4は、音響特徴の定義を例示する第1のグラフである。図5は、音響特徴の定義を例示する第2のグラフである。図6は、音響特徴の定義を例示する第3のグラフである。図7は、色旋律の可視化の一例を示す模式図である。
図3に示すように、本実施形態に係る歌唱指導支援装置1は、収音装置と、スペクトル解析部と、音響特徴量算出部と、音響特徴量可視部と、評価DB部と、楽曲DB部と、表示装置と、放音装置と、を含んで構成される。
収音装置は、周囲の音響を収音する装置(マイクロホン)である。具体的には、収音装置は、歌唱者が楽曲を歌唱した歌唱音声を収音して歌唱信号を生成する。
スペクトル解析部は、歌唱信号を解析することで、その信号のスペクトルとスペクトル包絡を算出する。スペクトルの算出には高速フーリエ変換FFT、スペクトル包絡の算出には線形予測符号LPCなどの既存技術を用いることができる。
音響特徴量算出部は、次の第1音響特徴、第2音響特徴、第3音響特徴、第4音響特徴および第5音響特徴のそれぞれを算出する。
第1音響特徴は、シンガーズ・フォルマント・クラスタSFCの周波数の安定性を示す値である。これに関しては、楽曲に対して十分に短い周期(例えば50msecごと)に得られたシンガーズ・フォルマント・クラスタの複数のパワーのピーク値に対応する周波数x_iから次式の式に基づき、それぞれの標準偏差を求める。さらに、分散の加法性に基づき、それら総和を安定性の評価値とする。
第2音響特徴は、シンガーズ・フォルマント・クラスタSFCのパワーの安定性を示す値である。これに関してはシンガーズ・フォルマント・クラスタから得た複数のパワーのピーク値から第1音響特徴の算出で示された方法で標準偏差σを求め、その値を平均値xで割ることで変動係数CVを求める。ここで得られたCV(次式)の総和を安定性の評価値とする。
第3音響特徴は、シンガーズ・フォルマント・クラスタSFCの強度を示す値である。図4~図6に示すグラフは、フレーム長46msとした場合のスペクトルとその包絡線を図示したものである。図4に示すように、シンガーズ・フォルマントの強度はシンガーズ・フォルマントのパワーが最も強くなる谷の部分(凹部1)とパワーが最も低くなる谷の部分(凹部2)の差として算出する。
第4音響特徴は、倍音含有率を示す値である。図5に示すように、基音(F0)とフォルマントのパワー値(F1~FN)の比率の平均値として算出する。
第5音響特徴は、シンガーズ・フォルマント・クラスタの集中度を示す値である。図6に示すように、シンガーズ・フォルマントの前後に表れる極小値の範囲内のエネルギーの総和E(SF_min)と、極大値の範囲内のエネルギーの総和E(SF_max)の比率として算出する。
音響特徴量可視化部は、前述のように算出される第1音響特徴、第2音響特徴、第3音響特徴、第4音響特徴および第5音響特徴に関する評価値を総合評価としてレーダーチャート上に出力する。また、初学者がどのように歌っているかを認識・理解させるため、安定性を示す評価値、つまり前述の第1音響特徴および第2音響特徴に関する値は視認性を高めるためにカーネル密度推定を使い母集団のデータを外挿したもの(たとえばバイオリンプロット)を用いて可視化する。
第3音響特徴、第4音響特徴および第5音響特徴に関しては、スペクトル包絡(フォルマント構造)を直接、可視化する。
図7に示すように、音色旋律の可視化においてはニューラルネットワークモデルの一つであるVAE(Variational Autoencoder)を用いて多次元のベクトルを2次元に圧縮して可視化する。その際、楽曲に対して十分に短い周期(例えば50msごと)でリアルタイムにxとyを算出することで、音色の時間的ふるまいを含めて可視化できる。
ここで、可視化されたサークルをVoice Ballと呼ぶことにする。本実施形態は、学習者が音色空間上で模範となる熟練者のVoice Ballの動きを真似ることで歌唱訓練を行うものであり、単なる可視化ではなく、音楽ゲームの要素を取り入れた構成となる。そして、Voice Ballの分布の散らばり具合から音色の豊かさ、時間的ふるまいから歌唱の表現力(例えば抑揚など)を評価する。
また、Voice Ballは、前述の第1音響特徴、第2音響特徴、第3音響特徴、第4音響特徴および第5音響特徴に係る評価値と連動させ、スコアが高いほど濃淡が濃く、直径も小さくなるように構成する。それにより、学習者に明確な目標を設定し、学習者は歌いながら自らの習熟度を認識・理解することができる。
なお、次元の圧縮には一例としてVAEを用いているが、主成分分析やt-SNE等の既存技術を用いてもよく、音色の特徴に応じてVoice Ballのカラーが変わる構成にしてもよい。
評価DB部は、熟練者の歌唱の評価値と学習者の評価値を蓄積する。
楽曲DB部は、複数の熟練者やユーザの歌唱データを蓄積したDBである。ユーザが歌唱訓練を行う場合は、音響特徴量算出部で得られた音色の特徴から、学習者と最も近い音色を有する熟練者の歌唱を選択して出力する機能を有する。
なお、音色の類似度判定は、既存のニューラルネットワーク(たとえばオートエンコーダ)を用いることで実現できる。
表示装置は、たとえば液晶表示パネルであり、音響特徴量可視化部で得られた結果を画像として表示する。
放音装置は、たとえばスピーカやヘッドホンであり、楽曲DBから供給される信号に応じた音響を放音する。
[・本実施形態の利点について]
前述したように、従来の歌唱評価システムまたは歌唱指導システムは主に音高の時間変化、すなわち歌唱旋律によって評価するものであった。
その一方、本実施形態によれば、前述したように、音色の変化を要素とする旋律、すなわち音色旋律により声質を評価する。加えて、2次元の音色空間とVoice Ballを定義し、その空間上に音色の時間的ふるまいをリアルタイムで転写し、そのふるまいを真似ることで歌唱訓練を行える。また、古典的な解析手法では扱いが難しかった音色旋律(多次元のベクトルの時間変化)に対し、AI(VAE)を用いて特徴を抽出する。
シンガーズ・フォルマントに基づく歌唱評価手法はすでに各所で提案されているが、本実施形態はその集合体であるシンガーズ・フォルマント・クラスタに着目した音響特徴の抽出方法(アルゴリズム)である。加えて、音色空間上で得られた音色旋律の分布状況から音色の豊かさ、Voice Ballの時間的ふるまいから歌唱の表現力を評価する。また、それらの音響特徴を統合することで、従来技術よりも高い精度の声質評価を実現する。
従って、本実施形態によれば、シンガーズ・フォルマントならびに、音色旋律に基づく歌唱評価を行うことで、従来手法よりも人間の音楽的感性に基づいた歌唱の巧拙を判定する機能を提供することができる。
また、本実施形態によれば、これまで暗黙知として扱われていた熟練者の歌唱技能の一端(音色旋律やシンガーズ・フォルマントの音響特徴)を可視化することで形式知へと変換し、PCやスマートフォン等で誰でも気軽に歌唱訓練を行うことができる。また、訓練時は、ユーザと音響特徴(声質)が似ている熟練者の歌唱データをAIが類推し、その音声データに基づく訓練を行えるため、自分に合った歌唱訓練ができる。
また、本実施形態によれば、AIに熟練者の音響特徴を転写することで、熟練者の持つ深遠な技能の一端が明らかになり、そのかけがえのない「価値」を後世に正確に伝えることができる。
また、本実施形態によれば、歌の調子外れ(俗にいう音痴)の治療方法としては視覚フィードバックを伴った歌唱訓練が有効であるとされており、調子外れ治療支援システムとしての活用も見込まれる。
以上、図面を参照しながら実施形態について説明したが、本開示はかかる例に限定されないことはいうまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、前述した実施形態における各構成要素を任意に組み合わせてもよい。
次に実施例を挙げて本発明についてさらに詳細に説明するが、本発明の内容はこの実施例の説明によって特許請求の範囲に記載の主題が限定されることは意図されない。
本実施例では、本発明に係る具体例として試験例を挙げ本発明についてより詳細に説明する。
(第1実施例)
図8~図10に基づいて本発明に係る第1実施例について説明する。
[・比較試験について]
前述したように算出される第1音響特徴、第2音響特徴、第3音響特徴、第4音響特徴および第5音響特徴に係る評価値の有効性を確認するために、従前提案されている手法(「吉田祥 他,“声楽発声の習熟度に関連する音響特徴量に基づく歌声の評価指標の提案”,電子情報通信学会論文誌D, Vol. J103-D, No.4, pp.247-260, 2020.」参照、以下「比較例」ともいう)との比較実験を行った。
なお、比較例では、シンガーズ・フォルマントのQ値(LPCで得られたSinger’s formantのピークの鋭さ)とSFR(2.4~4kHzと0~4kHzのFFTパワースペクトルの合計値の比)の2次元平面上の分布具合により歌い手の習熟度を評価する手法が提案されている。
本比較試験では、沖縄の古典音楽・歌三線の師範免許を保持している者を熟練者、三線を弾きながら歌える者を経験者、未経験者を初心者と定義し、それぞれ10名、11名、7名の歌唱データを用いて評価した。
評価結果を図8および図9に示す。図8は、本実施例に係る試験の結果を示す比較グラフであり、左側のグラフは比較例を示し、右側のグラフは本発明例を示す。図9は、本実施例に係る試験結果の総合評価を示すレーダーチャートであり、内側のグラフは初心者7名の平均を示し、中間のグラフは経験者11名の平均を示し、外側のグラフは熟練者10名の平均を示す。
図8に示すように、縦軸と横軸の値が大きいほど熟達度が高いことを示しており、比較例で示されている手法と比べても精度良く分類できていることが分かる。
なお、図9に示すレーダーチャートは可視化の一例として第1音響特徴、第2音響特徴、第3音響特徴、第4音響特徴および第5音響特徴のそれぞれについて熟練者、経験者および初心者の音響特徴の平均値を表したものである。
[・本発明の開発状況について]
図10を参照しながら、音響特徴の可視化手法に関する開発状況について説明する。図10は、音響特徴の可視化の一例を示す模式図であり、左側の図は母音の発声訓練を行っている様子であり、右側の図はVAEを用いて多次元のスペクトル包絡を2次元に圧縮して2次元平面上にプロット(赤=熟練者、青=経験者、緑=初心者)したものである。
図10の左図に示すように、歌唱の音色を特徴づけるスペクトル包絡をリアルタイムで可視化するプログラムを実装した。これにより、学習者は熟練者の模範を見ながら発声訓練を行うことが可能となる。
図10の右図に示すように、図7で示したVAEの実装にも取り組んでいる。VAEを用いることで熟練者と初心者を分類でき、2次元で表されるデータ(プロット)から歌い手のスペクトル包絡が再現できることを確認した。
なお、左上のスペクトル包絡が熟練者、右下が初心者であり、それぞれの音色の音響特徴(スペクトル包絡)に明らかな差(熟練者のスペクトルは初心者と比較して倍音が多く含まれており、4000Hz付近にシンガーズ・フォルマントが生起する)が表れることが確認できた。これは、AI(VAE)が音色(スペクトル包絡)から音響特徴を抽出できていることを示している。また、これにより学習者は自らの音響特徴の課題を認識・理解することができる他、分布の散らばり具合から音色の豊かさ、Voiceballの時間的ふるまいから抑揚といった歌唱の表現力を評価することが可能である。現在は、時間的に変化する音色旋律を可視化するために、VAEのリアルタイム処理の実現に向けて取り組んでいる。
本発明は、人間の音楽的感性に基づいた歌唱の巧拙を精度よく判定することができる歌唱指導支援装置、その判定方法、その音響特徴の可視化方法およびそのプログラムとして有用である。
1:歌唱指導支援装置

Claims (5)

  1. 収音装置と、
    スペクトル解析部と、
    音響特徴量算出部と、
    音響特徴量可視部と、
    評価DB部と、
    楽曲DB部と、
    表示装置と、
    放音装置と、を含み、
    前記音響特徴量算出部は、第1音響特徴および第2音響特徴のそれぞれを算出し、
    前記音響特徴量可視化部は、前記音響特徴量算出部の算出結果を可視化し、
    前記第1音響特徴は、シンガーズ・フォルマント・クラスタSFCの周波数の安定性を示す値であり、
    前記第2音響特徴は、シンガーズ・フォルマント・クラスタSFCのパワーの安定性を示す値である、
    歌唱指導支援装置。
  2. 前記音響特徴量算出部は、第3音響特徴および第4音響特徴および第5音響特徴のそれぞれをさらに算出し、
    前記第3音響特徴は、シンガーズ・フォルマント・クラスタSFCの強度を示す値であり、
    前記第4音響特徴は、倍音含有率を示す値であり、
    前記第5音響特徴は、シンガーズ・フォルマント・クラスタの集中度を示す値である、
    請求項1に記載の歌唱指導支援装置。
  3. 前記音響特徴量可視化部は、前記音響特徴量算出部の算出結果のそれぞれを総合評価としてレーダーチャート上に出力する、
    請求項1または2に記載の歌唱指導支援装置。
  4. 前記音響特徴量可視化部は、前記第1音響特徴および前記第2音響特徴に関する値についてカーネル密度推定を使い母集団のデータを外挿したものを用いて可視化する、
    請求項1に記載の歌唱指導支援装置。
  5. 前記音響特徴量可視化部は、前記第3音響特徴、前記第4音響特徴および前記第5音響特徴に関する値についてスペクトル包絡(フォルマント構造)を直接可視化する、
    請求項2に記載の歌唱指導支援装置。
JP2022058703A 2022-03-31 2022-03-31 歌唱指導支援装置、その判定方法、その音響特徴の可視化方法およびそのプログラム Pending JP2023149901A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022058703A JP2023149901A (ja) 2022-03-31 2022-03-31 歌唱指導支援装置、その判定方法、その音響特徴の可視化方法およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022058703A JP2023149901A (ja) 2022-03-31 2022-03-31 歌唱指導支援装置、その判定方法、その音響特徴の可視化方法およびそのプログラム

Publications (1)

Publication Number Publication Date
JP2023149901A true JP2023149901A (ja) 2023-10-16

Family

ID=88326618

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022058703A Pending JP2023149901A (ja) 2022-03-31 2022-03-31 歌唱指導支援装置、その判定方法、その音響特徴の可視化方法およびそのプログラム

Country Status (1)

Country Link
JP (1) JP2023149901A (ja)

Similar Documents

Publication Publication Date Title
Gupta et al. Perceptual evaluation of singing quality
TW201407602A (zh) 演奏評估裝置、卡拉ok裝置及伺服器裝置
JP2008026622A (ja) 評価装置
JP2018533076A (ja) 音楽言語のコンピュータ支援教育のシステムおよび方法
JP4479701B2 (ja) 楽曲練習支援装置、動的時間整合モジュールおよびプログラム
Barnes et al. The relationship between professional operatic soprano voice and high range spectral energy
JP2001117568A (ja) 歌唱評価装置およびカラオケ装置
Law Assessing and understanding individual differences in music perception abilities
JP4808641B2 (ja) 似顔絵出力装置およびカラオケ装置
JP5346114B1 (ja) 音楽表現力の教育装置及び方法並びに音楽演奏評価装置
JP6098422B2 (ja) 情報処理装置、及びプログラム
JP2023149901A (ja) 歌唱指導支援装置、その判定方法、その音響特徴の可視化方法およびそのプログラム
JP2001117598A (ja) 音声変換装置及び方法
CN109754818B (zh) 一种发声检测和发声练习方法
Kirkov et al. Formant analysis of traditional bulgarian singing from rhodope region
JP5416396B2 (ja) 歌唱評価装置およびプログラム
JP2016180965A (ja) 評価装置およびプログラム
JP2008040258A (ja) 楽曲練習支援装置、動的時間整合モジュールおよびプログラム
JP4371156B2 (ja) カラオケ装置
JP2019090936A (ja) 歌唱支援装置および、カラオケ装置
JP2008015212A (ja) 音程変化量抽出方法、ピッチの信頼性算出方法、ビブラート検出方法、歌唱訓練プログラム及びカラオケ装置
Nagyvary A comparative study of power spectra and vowels in Guarneri violins and operatic singing
ZA et al. Investigating ornamentation in Malay traditional, Asli Music.
Soszynski et al. Music games as a tool supporting music education
JP4612329B2 (ja) 情報処理装置およびプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20230331