JP2023149901A

JP2023149901A - 歌唱指導支援装置、その判定方法、その音響特徴の可視化方法およびそのプログラム

Info

Publication number: JP2023149901A
Application number: JP2022058703A
Authority: JP
Inventors: 桂宮城; Katsura Miyagi; 親稔山田; Chikatoshi Yamada; 周一市川; Shuichi Ichikawa
Original assignee: Toyohashi University of Technology NUC; Institute of National Colleges of Technologies Japan
Current assignee: Toyohashi University of Technology NUC; Institute of National Colleges of Technologies Japan
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2023-10-16

Abstract

【課題】人間の音楽的感性に基づいた歌唱の巧拙を精度よく判定することができる歌唱指導支援装置、その判定方法、その音響特徴の可視化方法およびそのプログラムを提供する。【解決手段】歌唱指導支援装置は、収音装置と、スペクトル解析部と、音響特徴量算出部と、音響特徴量可視部と、評価ＤＢ部と、楽曲ＤＢ部と、表示装置と、放音装置と、を含む。音響特徴量算出部は、第１音響特徴および第２音響特徴のそれぞれを算出する。音響特徴量可視化部は、前記音響特徴量算出部の算出結果を可視化する。第１音響特徴は、シンガーズ・フォルマント・クラスタＳＦＣの周波数の安定性を示す値である。第２音響特徴は、シンガーズ・フォルマント・クラスタＳＦＣのパワーの安定性を示す値である。【選択図】図３

Description

本発明は、響きのある表現力豊かな音色で歌うための歌唱スキルが習得されるようにユーザ（声楽学習者）をサポートする歌唱指導支援装置と、歌唱時の声質（音色の豊かさ・響き）の判定方法と、ユーザがどのように歌っているかを認識・理解させるための音響特徴の可視化方法と、それらを実現するプログラムに関する。

歌声における音響特徴は大きく分け、音の大きさを示す『音量』、音の高さを示す『音高』、音の長さを示す『音価』、音のタイミングを示す『律動』、周波数成分の違いを示す『音色』の５つに分類される。これらの音響特徴の中でも咽喉の開閉によって変化するとされる音色の豊かさや響きは歌唱における熟達度との関連が強いとされている。

しかしながら、従来のカラオケの採点システム等を含めた歌唱評価システムでは、主に楽譜情報に基づいて音高や音価、律動に時間的要素を加えた歌唱旋律の適切さを評価するもので、音色の豊かさや響きといった声質まではほとんど評価に含められていないと考えられる。

その一方、声楽家が高度な歌唱表現を行おうとするとき、「豊かさや響き」のある音色を使いこなすことも重要であるため、それらを含めた評価手法が求められている。また、従来このような歌唱表現を習得するためには師匠の歌唱を入念に聴き、それを真似ることによって会得する方法が一般的であるため、専門的な歌唱訓練の機会は一部の者に限られていた。一方、昨今ではＳＤＧｓの一つ『質の高い教育をみんなに』でも示されるように、たとえばＩＣＴ等を活用して一人一人の教育的ニーズに的確に応える指導を提供できる多様な学びの場の整備が求められている。

その従来の技術例として、歌唱評価を行うために、音程バーやガイドメロディといった標準パターンもしくはリファレンスと比較し、その標準パターンまたはリファレンスとどれだけ似ているかによってその評価（点数）が決定されるものが知られる（たとえば特許文献１参照）。

具体的には、前記特許文献１には、
『（カラオケ装置の動作の概要）
以下、このような構成のカラオケ装置２００の動作について図面を参照して説明する。図７は、カラオケ装置２００が実行するカラオケ制御処理の流れを示すフローチャートである。また、図８は、カラオケ制御処理内における音域測定処理の詳細を示すフローチャートである。
最初に、図７のカラオケ制御処理について説明する。このカラオケ制御処理は、歌唱者に楽曲を選ばせるところから開始する。
［００５６］
まず、カラオケ装置２００は、複数の楽曲を検索する（ステップＳ３０１）。
例えば、ヒット曲や新譜等のような歌唱者にお勧めの楽曲を適宜検索する。なお、検索対象の楽曲は、過去に選択された楽曲の履歴等に基づいて、検索しても良い。
［００５７］
カラオケ装置２００は、検索した各楽曲について、音域チェックを行う（ステップＳ３０２）。
すなわち、判定部２０９は、検索された楽曲（主旋律）の各音高と、記憶部２０８に記憶される歌唱者の音域との関係に基づいて、歌唱者による歌唱の適否を判定する。つまり、その楽曲における音高の分布が、歌唱者の音域内に収まっているかを判定する。
［００５８］
カラオケ装置２００は、音域チェックについてのチェック結果を含んだ楽曲一覧を表示する（ステップＳ３０３）。
すなわち、画像生成部２０２は、上述した図６に示すような音域チェックを含んだ選曲画像を生成して表示部２０３に表示する。
［００５９］
カラオケ装置２００は、歌唱者により、楽曲決定されたか否かを判別する（ステップＳ３０４）。
例えば、図６に示すような選曲画面から何れかの楽曲が選択されたかどうかを判別する。カラオケ装置２００は、楽曲が決定されなかった場合に（ステップＳ３０４；Ｎｏ）、ステップＳ３０１に処理を戻し、ステップＳ３０１～Ｓ３０４の処理を繰り返し実行する。つまり、楽曲を検索し直すと共に、音域チェックを行った楽曲一覧（選曲画像）を再度表示する。
［００６０］
一方、楽曲が決定されると（ステップＳ３０４；Ｙｅｓ）、カラオケ装置２００は、その楽曲を再生すると共に、画像を生成する（ステップＳ３０５）。
すなわち、再生部２０４は、楽曲情報記憶部２０１から対象の楽曲情報を読み出して楽曲音を再生し、また、画像再生部２０２は、楽曲情報記憶部２０１から対象の歌詞情報や背景画像等を読み出して表示画像を生成する。
つまり、カラオケの楽曲音（伴奏等）を再生すると共に、上述した図３に示すような歌詞画像ＫＧ及び背景画像ＨＧを生成して表示部２０３に表示する。
［００６１］
カラオケ装置２００は、入力音を受け付ける（ステップＳ３０６）。
すなわち、入力受付部２０５は、再生する楽曲音に合わせて、歌唱者により入力される歌唱音声等を受け付ける。なお、上述したように、入力受付部２０５は、歌唱音声だけでなく、周囲に生じるノイズ音も入力してしまう。
［００６２］
カラオケ装置２００は、音域測定処理を行う（ステップＳ３０７）。つまり、ノイズ音（雑音）等を除外しつつ、歌唱者が発声し得る音域を測定する。
なお、音域測定処理の詳細については、後述する。
［００６３］
カラオケ装置２００は、入力音声と模範音声とを比較し、得点を算出する（ステップＳ３０８）。
例えば、入力音声について音程、音量、および、リズム等を解析し、それらを模範音声の音程、音量、および、リズム等と比較し、類似度に応じた得点を算出する。この際、入力音声が模範音声に近いほど得点が高くなる。
［００６４］
カラオケ装置２００は、楽曲の再生が終了したか否かを判別する（ステップＳ３０９）。
すなわち、再生部２０４が、カラオケ楽曲の再生を終えたかどうかを判別する。楽曲の再生が終了していないと判別すると（ステップＳ３０９；Ｎｏ）、カラオケ装置２００は、ステップＳ３０５に処理を戻し、上述したステップＳ３０５～Ｓ３０９の処理を繰り返し実行する。
［００６５］
一方、楽曲の再生が終了したと判別した場合に（ステップＳ３０９；Ｙｅｓ）、カラオケ装置２００は、得点を集計して歌唱力等を表示する（ステップＳ３１０）。つまり、集計した得点から、歌唱者の歌唱力を示すレベルや評価値を特定し、そのレベル等を表示する。
［００６６］
次に、図８を参照して、上述したステップＳ３０７における音域測定処理の詳細を説明する。
［００６７］
まず、カラオケ装置２００は、入力音をサンプリングする（ステップＳ４０１）。
すなわち、入力受付部２０５は、受け付けた入力音をサンプリングし、サンプリングした入力信号データを推測部２０６に供給する。
［００６８］
カラオケ装置２００は、入力音が歌声であると推測されるか否かを判別する（ステップＳ４０２）。
すなわち、推測部２０６は、入力受付部２０５が受け付けた入力音が歌唱者の歌声であると推測されるかどうかを判別する。つまり、推測部２０６は、入力音の音高が、楽曲における模範音声（主旋律）の音高とほぼ等しい場合に、その入力音が、再生される楽曲音（伴奏）に合わせて発せられた歌唱者の歌声であると推測する。
具体的には、上述した図４（ａ）のように、受け付けた入力音の音高が、対応する模範音声（音高Ｔ１～Ｔ４）を基準とした半音（ｈ１～ｈ４）の範囲内であれば、推測部２０６は、その入力音が歌唱者の歌声であると推測する。一方、図４（ｂ），（ｃ）のように、入力音（Ｎ１，Ｎ４）の音高が対応する模範音声（音高Ｔ１，Ｔ４）を基準とした半音（ｈ１，ｈ４）の範囲外でれば、推測部２０６は、その入力音が歌唱者の歌声でない（ノイズ音である）と推測する。
そして、歌声でないと推測されると（ステップＳ４０２；Ｎｏ）、カラオケ装置２００は、そのまま音域計測処理を抜けて、図７のカラオケ制御方法に処理を戻す。
［００６９］
一方、歌声であると推測された場合に（ステップＳ４０２；Ｙｅｓ）、カラオケ装置２００は、入力音の情報を測定部２０７に供給する（ステップＳ４０３）。
すなわち、推測部２０６は、模範音声を基準として歌唱者の歌声であると推測される入力音の情報（音高等）を測定部２０７に供給する。
［００７０］
カラオケ装置２００は、歌唱者の音域を測定する（ステップＳ４０４）。
すなわち、測定部２０７は、歌声であると推測された入力音の音高から、歌唱者の音域（声域）を測定する。つまり、上述したステップＳ４０３にて供給された各入力音の情報から、歌唱者の音域を測定する。
具体的に測定部２０７は、上述した図５（ａ）のように、歌声であると推測されて供給された各入力音Ｎの音の分布に基づいて、歌唱者の音域を測定する。このほかにも、上述した図５（ｂ）のように、順次供給される各入力音Ｎから、楽曲中における最高の音高（入力音ＮＨ）及び最低の音高（入力音ＮＬ）を更新するようにし、楽曲終了時点の入力音ＮＨ，ＮＬから歌唱者の音域を測定してもよい。
［００７１］
カラオケ装置２００は、計測結果に応じて、記憶部２０８を更新する（ステップＳ４０５）。
すなわち、測定部２０７は、計測された音域に関する情報に基づいて、記憶部２０８の情報を更新する。つまり、歌唱者の最も広い音域が維持されるように、記憶部２０８の情報が更新される。
そして、音域計測処理を終えると、カラオケ装置２００は、図７のカラオケ制御方法に処理を戻す。
［００７２］
このような、音域測定処理において、模範音声にほぼ等しい入力音を歌声であると推測する。そして、模範音声から外れた入力音を、カラオケ中に入力されてしまうノイズ音として除外することで、適切な入力音から歌唱者が発声し得る音域を正確に測定することができる。
また、歌唱者が歌う度に、歌唱者の音域が測定されるため、例えば、歌唱者が複数の楽曲（異なる楽曲等）を歌うことにより、正確な音域の情報が記憶部２０８に蓄積されて行くことになる。
そして、そのような記憶部２０８に蓄積された情報に基づいて、選曲候補となる楽曲の音域チェックを行い、その結果を表示する。つまり、歌唱者の音域に合致しているかどうか（歌えるかどうか）が、選曲時に提示されるため、適切な楽曲を選ぶことができる。
［００７３］
この結果、歌唱者が発声し得る音域を適切に測定することができる。また、選曲時に、楽曲の音域を確認して選曲することができる。』ことが記載されている。

また、その他の従来例としては、豊かで心地よく響く声に倍音が多く含まれる点に着目し、基本周波数成分に対する倍音周波数成分ごとの比率の平均値に応じて、歌唱音声の評価を示す評価値を算出する評価手段を備えるものも知られる（たとえば特許文献２参照）。すなわち、倍音成分の比率の平均値が大きいほど高いポイントが加算されるものである。

具体的には、前記特許文献２には、
『［００２２］
図５に示す処理は、採点の準備にあたる処理であり、歌唱者の歌唱に際し逐次評価した結果を蓄積してゆく。
まず、ＣＰＵ１１は、ピッチ、音量、リズムに関する差分値データを算出する（Ｓａ１）。この処理の詳細は以下の通りである。
１．ガイドメロディピッチデータＧＰと歌唱ピッチデータＳＰとの差を検出し、ピッチ差分値データＰＤとしてＲＡＭ１３の差分値記憶領域Ａ２に蓄積記憶する。
２．ガイドメロディ音量データＧＶと歌唱音量データＳＶが表す音量との差を音量差分値データＶＤとして差分値記憶領域Ａ２に蓄積記憶する。
３．ガイドメロディの発音タイミング（または消音タイミング）と歌唱音量データＳＶの立ち上がり（または立ち下がり）のタイミングの時間差をリズム差分値データＲＤとして差分値記憶領域Ａ２に蓄積記憶する。以上の処理は音符毎に行う。
［００２３］
続いてＣＰＵ１１は、基本周波数成分と倍音周波数成分との比率を算出する（Ｓａ２）。即ち、音声処理用ＤＳＰ２０の周波数成分抽出部２０ｃから出力された各倍音の倍音周波数成分の、基本周波数成分に対する比率をそれぞれ算出し、これら各倍音ごとに算出した比率を示すデータを比率記憶領域Ａ３に蓄積記憶する。
以上のようにして、ピッチ、音量、リズムに関する差分値データ、及び倍音周波数成分の基本周波数成分に対する比率が逐次蓄積される。
［００２４］
図６は、スコア算出処理を示すフローチャートである。
まず、ＣＰＵ１１は、ＲＡＭ１３の差分値記憶領域Ａ２に蓄積されているピッチ差分値データＰＤ、音量差分値データＶＤ、及びリズム差分値データＲＤを読み出して各々集計し、この集計結果に応じた減点ポイントを算出する（ステップＳｂ１）。利用者の歌唱が、ガイドメロディからずれるほど減点ポイントが大きくなるように算出される。すなわち、各差分値データＰＤ，ＢＤ，ＲＤの集計値が大きい値になるほど減点ポイントが大きくなる。
［００２５］
そして、ＣＰＵ１１は、この減点ポイントを満点（１００点）から減算する（ステップＳｂ２）。更に、ＣＰＵ１１は、ＲＡＭ１３の比率記憶領域Ａ３に記憶されている比率を読み出し、各倍音ごとの平均値をそれぞれ算出する（ステップＳｂ３）。そして、各倍音毎の比率の平均値に応じたボーナスポイントを合計して、ステップＳｂ２での減算結果に加算する（ステップＳｂ４）。
更に、ステップＳｂ５に進んでボーナスポイント加算後の総合得点を表示制御部１７に出力する。この結果、総合得点が表示制御部１７の制御に従ってモニタ２に表示される。
［００２６］
なお、ボーナスポイントの算出方法は、基本周波数に対する倍音周波数の比率が大きいほど高いポイントが算出されるようになっていれば、各倍音の比率と加算されるポイントとを関連付けたテーブルを用いて算出してもよいし、予め準備されたポイント算出式にそれぞれの比率を入力して算出してもよい。或いは、各倍音ごとに閾値を定め、比率がこの閾値より高いときは声質がよいとしてポイントを与える一方で、この閾値よりも低いときは声質がよくないとしてポイントを与えないといったような二者択一的な方法によってもよい。
以上の処理により、倍音を多く含む歌唱ほど高得点になる。これは、倍音が含まれている声は豊かな厚みのある声として心地よく響くからである。
［００２７］
以上説明したように、本実施形態にかかるカラオケ装置は、歌唱音声信号から抽出した倍音周波数成分の基本周波数成分に対する比率の高さに応じて歌唱音声の声質を評価し、この評価内容を歌唱音声の巧拙の採点に反映させる。従って、人間の感性により近い採点結果を出力することができる。』ことが記載されている。

また、その他の従来例としては、より適切な評価を実現するために、母音のスペクトル包絡の変動が少ないほど当該母音に対し安定して発声しているものと評価するものも知られる（たとえば特許文献３参照）。

具体的には、前記特許文献３には、
『［００４８］
この安定性判定処理では、図２に示すように、起動されると、制御部２０が、まず、対象楽曲の歌詞データＤＬを情報格納サーバ２５から取得する（Ｓ１１０）。制御部２０は、対象楽曲のメロノート情報を情報格納サーバ２５から取得する（Ｓ１２０）。
［００４９］
続いて、制御部２０は、Ｓ１１０で取得した歌詞データＤＬに含まれている歌詞テロップデータＤＴを分析し、歌詞テロップデータＤＴによって表される歌詞を音節データに変換する（Ｓ１３０）。このＳ１３０では、具体的には、制御部２０が、歌詞（歌詞構成文字）に対して形態素解析を実行する。そして、制御部２０は、歌詞を構成する各形態素を、読みデータベース（ＤＢ）１００に格納されている読み情報に基づいて、形態素の読み（即ち、音節）に変換する。
［００５０］
なお、本実施形態における形態素解析は、周知の手法（例えば、“ＭｅＣａｂ”）を用いれば良い。また、読み情報とは、形態素と当該形態素の音節とを予め対応付けた情報であり、読みデータベース１００に予め格納されている。
［００５１］
そして、制御部２０は、Ｓ１３０にて変換された音節データ及びＳ１２０にて取得したメロノート情報に基づいて、対象楽曲の歌唱旋律における楽音の音高それぞれと歌詞の音節とを時系列に沿って対応付ける時間対応付けを実行する（Ｓ１４０）。このＳ１４０では、具体的には、制御部２０が、歌詞出力データＤＯに規定された歌詞構成文字の出力タイミング及び対象楽曲の歌唱旋律における楽音のノートオン（オフ）タイミング従って、当該楽音のそれぞれの音高に、歌詞の音節それぞれを割り当てることを、時間対応付けとして実施する。
［００５２］
そして、制御部２０は、Ｓ１４０にて時間対応付けされた歌詞の音節に基づいて、各歌詞の音節に含まれる母音を抽出した母音データを生成する（Ｓ１５０）。ここで言う母音データは、図３に示すように、歌詞の音節に含まれ、かつ抽出された母音を対象楽曲の時系列に沿って並べたものである。
［００５３］
続いて、制御部２０は、カラオケ演奏処理にて対象楽曲を歌唱したユーザのユーザＩＤが割り当てられ、かつ、対象楽曲を歌唱することで生成された音声データＳＶを情報格納サーバ２５から取得する（Ｓ１６０）。なお、ユーザＩＤは、ユーザが情報処理装置１０にログインする際に、入力受付部１２を介して取得されたものを用いれば良い。
［００５４］
制御部２０は、その取得した音声データＳＶによって表される音声波形（以下、「対象歌唱波形」と称す）のパワーを分析し、パワー時間変化を算出（導出）する（Ｓ１７０）。このＳ１７０では、制御部２０が、例えば、対象歌唱波形における各時刻の振幅値を二乗し、その二乗した値の時系列に沿った推移をパワー時間変化として算出（導出）する。
［００５５］
そして、制御部２０は、対象歌唱波形を周波数解析する（Ｓ１８０）。本実施形態のＳ１８０における周波数解析では、制御部２０が、対象歌唱波形に対して設定される分析時間窓を時系列に沿って順次スライドさせつつ、各分析時間窓にて離散フーリエ変換（ＤＦＴ）する。
［００５６］
さらに、制御部２０は、対象歌唱波形に基づいて各時刻における基本周波数（Ｆ０）を推定し、基本周波数が時系列に沿って推移した基本周波数推移を算出（導出）する（Ｓ１９０）。このＳ１９０における基本周波数の推定方法としては、周知の手法を用いれば良い。この基本周波数の推定方法の具体例としては、時系列に沿った自己相関を用いる方法や、周波数解析の結果に対する周波数軸上での自己相関を用いる方法などが考えられる。
［００５７］
さらに、制御部２０は、歌唱旋律を構成する各楽音における母音の発声開始タイミングΔｃｔｓそれぞれを特定する（Ｓ２００）。
具体的にＳ２００では、制御部２０が、Ｓ１８０での分析時間窓ごとの周波数解析の結果（即ち、周波数スペクトル）について自己相関を算出（導出）する。この自己相関の導出は、時系列に沿って順次実施される。そして、制御部２０は、その自己相関の算出（導出）の結果、ピークの存在が未検出である状態から検出された状態へと切り替わった分析時間窓に対応する時刻を発声開始タイミングΔｃｔｓとして特定する。
［００５８］
すなわち、母音に対して発声された音声の周波数スペクトルは調波構造である。このため、周波数軸上における自己相関関数の「最大値／平均値」は、値が大きくなる。一方、子音に対して発声された音声の周波数スペクトルは、非調波構造である。このため、周波数軸上における自己相関関数の「最大値／平均値」は、値が小さくなる。
［００５９］
本実施形態においては、制御部２０が、例えば、自己相関関数の「最大値／平均値」が予め規定された閾値以上である場合にピークが存在するものと判定し、自己相関関数の「最大値／平均値」が閾値未満である場合にピークの存在を未検出であるものと判定すれば良い。
［００６０］
続いて、制御部２０は、歌唱旋律を構成する各楽音における母音の発声終了タイミングΔｃｔｅそれぞれを特定する（Ｓ２１０）。
具体的にＳ２１０では、制御部２０が、Ｓ２００にて自己相関を算出した結果に基づいて、各発声開始タイミングΔｃｔｓ以降に、所定の条件を満たす最初の時刻を発声終了タイミングΔｃｔｅとして特定しても良い。ここで言う所定の条件とは、例えば、ピークの存在を検出した状態から未検出である状態へと切り替わった分析時間窓に対応することである。
［００６１］
また、発声終了タイミングΔｃｔｅを特定する他の方法として、Ｓ１７０にて算出したパワー時間変化を用いる方法が考えられる。この場合、例えば、各発声開始タイミングΔｃｔｓ以降に、所定の条件を満たす最初のタイミングそれぞれを発声終了タイミングΔｃｔｅとして特定することが考えられる。ここで言う所定の条件とは、Ｓ１７０にて算出したパワー時間変化におけるパワーが予め規定されたパワー閾値未満となることである。
［００６２］
そして、制御部２０は、歌唱旋律を構成する各楽音における母音を発声した波形である母音発声波形それぞれを抽出すると共に、その母音発声波形にて発声された母音の内容を対応付ける（Ｓ２２０）。具体的にＳ２２０では、制御部２０が、Ｓ２００にて特定された各発声開始タイミングΔｃｔｓと、Ｓ２１０にて特定された発声終了タイミングΔｃｔｅとを対応する楽音ごとに組み合わせることで、母音発声区間それぞれを特定する。ここで言う母音発声区間とは、歌唱旋律を構成する各楽音における母音を発声した期間である。
［００６３］
そして、制御部２０は、図４に示すように、対象歌唱波形における各母音発声区間の波形それぞれを母音発声波形として抽出する。
さらに、Ｓ２２０では、制御部２０が、母音データに基づいて、各母音発声波形にて発声された母音の内容を対応付ける。
［００６４］
制御部２０は、その母音発声波形それぞれについてケプストラム分析を実行する（Ｓ２３０）。このＳ２３０におけるケプストラム分析では、制御部２０が、母音発声波形それぞれに対して一つのメル周波数ケプストラムを算出（導出）する。
［００６５］
具体的な手法としては、母音発声波形それぞれに対して時系列に沿って時間窓を順次設定し、各時間窓に対して、メル周波数ケプストラムを算出する周知のケプストラム分析を実行し、その結果として算出されたメル周波数ケプストラムを母音発声波形ごとに平均す
ることが考えられる。また、その他の手法として、各母音発声区間に含まれる分析時間窓の周波数解析の結果（周波数スペクトル）に対してケプストラム分析を実行し、そのケプストラム分析の結果を母音発声区間ごとに平均することが考えられる。
［００６６］
さらに、制御部２０は、Ｓ２３０にて算出された各母音発声波形のメル周波数ケプストラムを母音の内容ごとに統計処理し、ケプストラムベクトルの平均ベクトルと分散ベクトルとを算出（導出）する（Ｓ２４０）。ケプストラムベクトルの平均ベクトルの算出は、Ｓ２３０にて算出された各母音発声波形のメル周波数ケプストラムを母音の内容ごとに相加平均することで実施する。また、ケプストラムベクトルの分散ベクトルの算出は、Ｓ２３０にて算出された各母音発声波形のメル周波数ケプストラム（各要素ごと）を母音の内容ごとに、周知の手法により分散を算出することで実施する。
［００６７］
続いて、制御部２０は、各母音に対する発声の声質を評価した指標である声質評価値を算出（導出）する（Ｓ２５０）。このＳ２５０では、制御部２０が、各母音の内容に対するケプストラムベクトルの平均ベクトル（即ち、発声ケプストラムの一例）と、母音の内容ごとに予め用意された母音標準ケプストラムとの相関係数を声質評価値として算出する。ここで言う「母音標準ケプストラム」は、各内容の母音について安定して発声したとみなせる音声のフォルマント構造におけるスペクトル包絡から算出したメル周波数ケプストラム（ＭＦＣＣ）である。なお、本実施形態における母音標準ケプストラムは、特許請求の範囲に記載された「基準値」の一例である。
［００６８］
制御部２０は、対象楽曲における歌唱旋律を構成する楽音の総数に対する、各母音が割り当てられた楽音の割合である母音割合を算出（導出）する（Ｓ２６０）。
さらに、制御部２０は、発声の安定性を表す指標である安定性指標を算出（導出）する（Ｓ２７０）。このＳ２７０にて算出する安定性指標には、母音ごとの発声の安定性を表す母音安定性指標と、対象楽曲全体に対する総合的な発声の安定性を表す総合安定性指標とを含む。
［００６９］
制御部２０は、ケプストラムベクトルの分散ベクトルの逆数の母音ごとの和を母音安定性指標として算出（導出）する。すなわち、本実施形態では、制御部２０は、同一の母音に対する発声のスペクトラム包絡の変動が少ないほど当該母音に対して安定して発声しているものと評価する。
［００７０］
また、制御部２０は、対応する母音の声質評価値をＳ２６０にて算出された母音割合を重みとして重み付け加算した結果を、総合安定指標として算出（導出）する。なお、総合安定指標の算出では、母音ごとに、ケプストラムベクトルの分散ベクトルの平均値の逆数を重みとして、母音割合と声質評価値との重み付け加算の結果にさらに付加しても良い。
［００７１］
このような総合安定性指標は、声質評価値が高いほど、発声の安定性が高いことを表す。
続いて、制御部２０は、Ｓ２７０にて算出した安定性指標を報知する（Ｓ２８０）。このＳ２８０で報知する安定性指標には、母音安定性指標及び総合安定性指標のうちの少なくとも一方を表示部１３に表示することを含む。
［００７２］
この表示部１３による表示は、制御部２０が、表示部１３に対して制御信号を出力することで実現する。制御信号が入力された表示部１３は、例えば、図５に示すように、すべての母音の母音安定性指標をグラフ形式にて表示する。また、制御信号が入力された表示部１３は、総合安定性指標を点数にて表示する。
［００７３］
なお、安定性指標の報知は、音声出力部１５により音声出力されても良い。この場合、
母音安定性指標及び総合安定性指標を表す信号を、制御部２０が、音声出力部１５に出力する。信号が入力された音声出力部１５は、母音安定性指標及び総合安定性指標を音声にて出力する。
［００７４］
その後、制御部２０は、本安定性判定処理を終了する。
つまり、本実施形態の安定性判定処理では、対象楽曲に対する歌唱が完了した後、制御部２０が、その対象楽曲に対する音声データＳＶに基づいて、母音に対する発声の安定度合いを表す安定性指標を算出している。その安定性指標は、母音に対して声質が高い発声ができていれば、高いものとして算出される。
［第一実施形態の効果］
本実施形態においては、ケプストラムベクトルの分散ベクトルの逆数の母音ごとの和を母音安定性指標として算出している。このため、その母音安定性指標は、同一母音に対する発声のスペクトル包絡のブレを表すものである。よって、母音安定性指標は、値が大きいほどブレが小さく、当該母音を安定して発声できており、声質が高いことを表している。
［００７５］
一般的に、母音に対する発声の声質が低ければ、当該母音に対応する楽音の音高をユーザが苦しそうに歌唱しており、発声の声質が高ければ、当該母音に対応する楽音の音高をユーザが余裕を持って歌唱できていると考えられる。
［００７６］
また、本実施形態における母音標準ケプストラムの各々は、各母音のフォルマント構造におけるスペクトル包絡から算出したメル周波数ケプストラムである。このような母音標準ケプストラムと、各母音の内容に対するケプストラムベクトルの平均ベクトルとの相関係数（即ち、声質評価値）は、対応する母音を発声した場合の声質を表し、相関係数が高いほど、母音を適切に発声できていることを表す。
［００７７］
したがって、情報処理装置１０によれば、歌唱の評価を適切なものとすることができる。
換言すれば、情報処理装置１０によれば、歌唱の評価において、客観的で違和感が少なく、より適切な評価を実現できる。
［００７８］
なお、本実施形態の安定性判定処理では、母音安定性指標を母音ごとに算出している。このため、安定性判定処理によれば、情報処理装置１０のユーザが得意な母音や不得意な母音を特定できる。
［００７９］
さらに、本実施形態の安定性判定処理では、対象楽曲全体に対する総合的な発声の安定性を表す総合安定性指標を算出している。このため、安定性判定処理によれば、情報処理装置１０のユーザの対象楽曲全体を通した発声の安定性を評価できる。』ことが記載されている。

また、その他の従来例としては、音高ごとのフォルマント周波数（音声の周波数スペクトルに現れる、周囲よりも強度が大きい周波数帯域）の安定性から歌唱の巧拙を示す評価値を算出しているものも知られる（たとえば特許文献４参照）。

具体的には、前記特許文献４には、
『［００２９］
図６に、分析処理（音高解析部２２２、区間設定部２２４、特徴量算出部２２６、及び評価部２２８による処理）の動作例のフローチャートを示す。例えば、楽曲データベースＤＢＬに記憶される楽曲のうち任意の１つの楽曲の再生が開始されると、図６の処理が開始される。
［００３０］
音高解析部２２２が歌唱信号Ｖのうち時間軸上の１個の時点（以下「着目点」という）について音高Ｐを特定すると（ＳＡ１）、区間設定部２２４は、図７に例示される通り、音高Ｐが特定された時間軸上の着目点Ｋを終点とする所定長の解析区間ＴＡを設定する（ＳＡ２）。解析区間ＴＡは、時間窓関数が規定する分析の対象とされる時間的区間であり、例えば、音高解析が実行される周期（１０ｍｓ）よりも十分に長い時間長（例えば２００ｍｓ）に設定される。したがって、着目点Ｋについて新たに特定された音高Ｐと着目点Ｋ以前の音高Ｐとを含む複数の音高Ｐが解析区間ＴＡ内に包含される。
［００３１］
区間設定部２２４は、解析区間ＴＡ内の複数の音高Ｐの最大値ＰＭＡＸと最小値ＰＭＩＮとを特定し、最大値ＰＭＡＸと最小値ＰＭＩＮとの差分値Ｒ（すなわち解析区間ＴＡ内の音高の分布幅）が所定の閾値ＰＴＨを下回るか否かを判定する（ＳＡ３）。差分値Ｒ（解析区間ＴＡ内の音高の分布幅）が狭いほど、歌唱信号Ｖの音高Ｐが安定していると評価できる。例えば、閾値ＰＴＨは、十二平均音律における半音（５０ｃｅｎｔ）に設定され得る。
［００３２］
区間設定部２２４は、差分値Ｒが閾値ＰＴＨを下回る場合（ＳＡ３：ＹＥＳ）、当該解析区間ＴＡを音高安定区間ＴＳに包含させる（ＳＡ４）。図７の解析区間ＴＡｎを例にとると、解析区間ＴＡｎでは音高Ｐの最大値ＰＭＡＸと最小値ＰＭＩＮとの差分値Ｒが閾値ＰＴＨを下回るから、着目点Ｋｎを含む解析区間ＴＡｎが音高安定区間ＴＳに包含される。
［００３３］
区間設定部２２４は、当該着目点Ｋｎにおける音高Ｐ、強度Ｌ、及びフォルマント周波数Ｆを記憶装置１２に記憶する（ＳＡ５）。ここで、着目点Ｋｎにおける強度Ｌは歌唱信号Ｖの強度の平均（例えば、着目点Ｋｎ－１からＫｎまでの歌唱信号Ｖの振幅の二乗の平均値）である。着目点Ｋｎにおけるフォルマント周波数Ｆｎは任意に算出可能であるが、例えば、着目点Ｋｎにおける第１フォルマントの周波数及び第２フォルマントの周波数の組である。
［００３４］
区間設定部２２４は、楽曲が終了するまでの間（ＳＡ１０：ＮＯ）、音高解析部２２２によって音高Ｐが特定されるごとに（ＳＡ１）、当該音高Ｐの着目点Ｋを終点とする解析区間ＴＡを設定し（ＳＡ２）、当該解析区間ＴＡにおける音高Ｐの最大値ＰＭＡＸと最小値ＰＭＩＮとの差分値Ｒが閾値ＰＴＨを下回るか否かを判定する（ＳＡ３）。すなわち、図７から理解される通り、音高解析部２２２が音高Ｐを特定する周期（１０ｍｓ）ごとに解析区間ＴＡを時間軸上で順次に移動させながら、当該解析区間ＴＡが音高安定区間ＴＳ内に包含されるか否かが判定される。したがって、閾値ＰＴＨを下回る分布幅の範囲内の音高Ｐを音高解析部２２２が特定するたびに音高安定区間ＴＳが時間軸上で順次に伸長していく。
［００３５］
他方、解析区間ＴＡ内における音高Ｐの最大値ＰＭＡＸと最小値ＰＭＩＮとの差分値Ｒが閾値ＰＴＨ以上である場合（ＳＡ３：ＮＯ）、区間設定部２２４は、当該着目点Ｋを音高安定区間ＴＳに含めない（ＳＡ６）。区間設定部２２４は、現在の解析区間ＴＡの直前の解析区間ＴＡが音高安定区間ＴＳ内に存在するか否かを判定する（ＳＡ７）。判定結果が肯定である場合、区間設定部２２４は、直前の解析区間ＴＡの終点（着目点Ｋ）を１個の音高安定区間ＴＳの終点として確定する（ＳＡ８）。つまり、区間設定部２２４は、歌唱の進行に並行して順次に音高安定区間ＴＳを設定する。以上の手順（ＳＡ１～ＳＡ８）で音高安定区間ＴＳが確定すると、特徴量算出部２２６は、当該音高安定区間ＴＳについて各特徴量の持続度Ｇ（具体的には、音高Ｐの持続度ＧＰ、強度Ｌの持続度ＧＬ、及びフォルマント周波数Ｆの持続度ＧＦ）を算出する（ＳＡ９）。すなわち、特徴量算出部２２６は、区間設定部２２４が音高安定区間ＴＳを設定するたびに（歌唱の進行に並行して順次に）当該音高安定区間ＴＳについての各特徴量の持続度Ｇを算出する。特徴量算出部２２６は、当該音高安定区間ＴＳについての各特徴量の持続度Ｇを音高（音高安定区間ＴＳにおける音高）に対応付けて記憶装置１２に記憶する。
［００３６］
楽曲が終了すると（ＳＡ１０：ＹＥＳ）、評価部２２８は、特徴量算出部２２６が算出した音高安定区間ＴＳごとの各持続度Ｇ（ＧＰ，ＧＬ，ＧＦ）に基づいて音高ごとの評価値Ｓ（ＳＰ、ＳＬ、ＳＦ）を算出し（ＳＡ１１）、評価データベースＤＢＥに出力して記憶する（ＳＡ１２）。すなわち、楽曲が終了するたびに評価処理が実行され、評価値Ｓが評価データベースＤＢＥに蓄積される。
次に評価部２２８は、ＳＡ１１で算出した音高ごとの評価値Ｓを表示処理部２４に出力する。表示処理部２４は、歌唱の巧拙を示す評価値Ｓを表示装置１６に表示させる（ＳＡ１３）。この表示態様は任意であるが、例えば、図８に例示するように、音高ごとに評価値ＳＰ、ＳＬ、ＳＦを折れ線グラフで表示する。これを見た歌唱者（又はその他の者）は歌唱者が得意な音域を一目瞭然で把握できる。
［００３７］
図９に、検索処理（音域特定部２３０と選択部２３２による処理）の動作例のフローチャートを示す。当該歌唱音声分析装置１００の歌唱者（又はその他の者）が入力装置１１に入力した楽曲検索要求が検知されると図９の処理が開始される。
［００３８］
音域特定部２３０は、楽曲検索要求で指定される歌唱者について、当該歌唱者の音高ごとの評価値Ｓを評価データベースＤＢＥの総合評価値テーブルＥＭＡｖｅから取得し（ＳＢ１）、当該歌唱者の適正音域を特定する（ＳＢ２）。
次に選択部２３２は、音域特定部２３０が特定した適正音域に適した楽曲を楽曲音域データベースＤＢＭから検索する（ＳＢ３）。具体的には、楽曲音域データベースＤＢＭに記憶された複数の楽曲のうち、歌唱者の適正音域と適合度が高い模範音域の楽曲を選択する。選択部２３２は、選択した楽曲を示す楽曲情報Ｍ（例えば、選択した楽曲の曲名と歌手名）を表示処理部２４に出力し、表示装置１６に表示させる（ＳＢ４）。
［００３９］
以上に説明した通り、第１実施形態では、音高ごとに算出した歌唱音声の特徴量の持続度Ｇに基づいて歌唱者の歌唱の巧拙を示す評価値Ｓを音高ごとに算出し、この評価値Ｓが所定条件を満たす音高の範囲に応じて歌唱者の適正音域を特定する。よって、本実施形態によれば、対比例と比較して、歌唱の巧拙が考慮された、歌唱者が得意な音高ひいては適正音域の特定が可能となる。
さらに、歌唱の巧拙を考慮して特定された適正音域に適した楽曲を選択するから、対比例と比較して、歌唱者が得意な（より上手に歌唱可能な）適正音域の楽曲の推薦が可能となる。
また、歌唱者ごとに複数の楽曲にわたって評価データベースＤＢＥに蓄積した評価値Ｓから歌唱者の適正音域を特定するので、１個の楽曲の歌唱についての評価値Ｓから適正音域を特定する態様と比較して、高精度に適正音域を特定することが可能となる。』ことが記載されている。

また、その他の従来例としては、歌詞や旋律に伴い音高や母音が変化する中で、シンガーズ・フォルマント（２４００－４０００Ｈｚ付近に生起し、歌声らしさや声の響きと関連するとされる特徴量）のパワー値の安定性から歌唱時の熟達度を評価しているものも知られる（たとえば非特許文献１参照）。

また、その他の従来例としては、歌声に含まれる音響特徴量（ピッチデータ、パワーデータ、周波数スペクトル）を可視化することで、歌唱指導の支援を目指したシステムも知られる（たとえば非特許文献２参照）。

また、その他の従来例としては、歌い方の分布や傾向を可視化するインタフェースＳｉｎｇＤｉｓｔＶｉｓも知られる（たとえば非特許文献３参照）。

特許５２９１７４２号公報特開２００５－１０７０８８号公報特開２０１５－０３１７２８号公報特開２０１６－１４２９４４号公報高橋純他，"歌唱におけるフォルマントの安定性"情報処理学会研究報告，Ｖｏｌ．２０１６－ＭＵＳ－１１３，Ｎｏ．１３，２０１６．羽賀翼他，"歌声に含まれる音響特徴量の可視化に基づく歌唱指導支援システムの設計"教育システム情報学会，２０１３．藤貴之他，"ＳｉｎｇＤｉｓｔＶｉｓ：多数の歌声から歌い方の傾向を可視化できるインタフェース"ＷＩＳＳ，２０２１

前記特許文献１のものは、歌唱者の声質そのものを客観的に判定するものはなかった。従って、カラオケ装置において、歌唱者が独自の歌唱法や声質で上手く歌唱しても、標準パターンやリファレンスと一致度が低い場合には、採点結果の点数が低くなってしまうという問題点があった。

前記特許文献２のものは、倍音成分は単純に多く含まれていればよいとは限らない。本発明の発明者らの評価結果では、熟達した歌い手は単に倍音を多く含むだけでなく、倍音に強弱を交えることで多様な音色を奏でるという特徴が見られた。そのため、前記特許文献２の評価手法では、正確な評価結果を得られない可能性がある。改善の余地があったといえる。

前記特許文献３、前記特許文献４および前記非特許文献１では、いずれも音高や母音が変化する中でのシンガーズ・フォルマントの周波数の安定性については考慮されていない。さらに、前記非特許文献１では、シンガーズ・フォルマントのパワー値の安定性を二乗平均平方根（ＲＭＳ）により評価しているため、仮に安定性（フォルマントのパワー値の散らばり具合）が同等だった場合には、パワー値が小さいほど安定性が高いと評価される可能性がある。シンガーズ・フォルマントのパワー値は熟達度が高いほど強くなる傾向にあるため、ＲＭＳによる評価では正確な評価結果が得られない可能性がある。改善の余地があったといえる。

前記非特許文献２および前記非特許文献３では、基本周波数（Ｆ０）の時間的推移やその分布を可視化するものであるため、主に音高の変化しか考慮されておらず、音色の時間的遷移やその分布による声質の特徴までは扱われていない。

ところで、人の音楽的感性に基づいて歌唱の巧拙を評価する際、『音量』『音高』『音価』『律動』だけでなく歌唱者自身の声質そのものの印象がその評価内容に大きく影響する。たとえば、音色が豊かで響く声の持ち主であれば多少の音程のズレは気にならず聞き心地のよい歌唱に聞こえる一方で、そうでない単調な声の持ち主の歌唱であれば音程のズレが無くても聞き心地の悪い歌唱に聞こえるためである。

しかしながら、前述したように従来例は、『音量』『音高』『音価』『律動』のズレ度合いのみによって歌唱の巧拙を評価していたため、歌唱者自身の声質の巧拙を評価結果に十分に反映させることができなかった。つまり、前記特許文献１、前記特許文献２、前記特許文献３、前記特許文献４、非特許文献１、非特許文献２および非特許文献３のものは改善の余地があり、人間の音楽的感性に基づいた歌唱の巧拙を精度よく判定するものではないといえる。

本発明は前述した事情に鑑みてなされたものであり、人間の音楽的感性に基づいた歌唱の巧拙を精度よく判定することができる歌唱指導支援装置、その判定方法、その音響特徴の可視化方法およびそのプログラムを提供する。

本発明の前述した目的は、後記の構成により達成される。
（１）
収音装置と、
スペクトル解析部と、
音響特徴量算出部と、
音響特徴量可視部と、
評価ＤＢ部と、
楽曲ＤＢ部と、
表示装置と、
放音装置と、を含み、
前記音響特徴量算出部は、第１音響特徴および第２音響特徴のそれぞれを算出し、
前記音響特徴量可視化部は、前記音響特徴量算出部の算出結果を可視化し、
前記第１音響特徴は、シンガーズ・フォルマント・クラスタＳＦＣの周波数の安定性を示す値であり、
前記第２音響特徴は、シンガーズ・フォルマント・クラスタＳＦＣのパワーの安定性を示す値である、
歌唱指導支援装置。
（２）
前記音響特徴量算出部は、第３音響特徴および第４音響特徴および第５音響特徴のそれぞれをさらに算出し、
前記第３音響特徴は、シンガーズ・フォルマント・クラスタＳＦＣの強度を示す値であり、
前記第４音響特徴は、倍音含有率を示す値であり、
前記第５音響特徴は、シンガーズ・フォルマント・クラスタの集中度を示す値である、
（１）に記載の歌唱指導支援装置。
（３）
前記音響特徴量可視化部は、前記音響特徴量算出部の算出結果のそれぞれを総合評価としてレーダーチャート上に出力する、
（１）または（２）に記載の歌唱指導支援装置。
（４）
前記音響特徴量可視化部は、前記第１音響特徴および前記第２音響特徴に関する値についてカーネル密度推定を使い母集団のデータを外挿したものを用いて可視化する、
（１）に記載の歌唱指導支援装置。
（５）
前記音響特徴量可視化部は、前記第３音響特徴、前記第４音響特徴および前記第５音響特徴に関する値についてスペクトル包絡（フォルマント構造）を直接可視化する、
（１）に記載の歌唱指導支援装置。

本発明によれば、人間の音楽的感性に基づいた歌唱の巧拙を精度よく判定することができる。

以上、本発明について簡潔に説明した。さらに、以下に説明される発明を実施するための形態（以下「実施形態」という。）またはその例（以下「実施例」ともいう。）を通読することにより、本発明の詳細はさらに明確化されるだろう。

経験者のスペクトル包絡を示すグラフ熟練者のスペクトル包絡を示すグラフ歌唱指導支援装置の構成の一例を示す機能ブロック図音響特徴の定義を例示する第１のグラフ音響特徴の定義を例示する第２のグラフ音響特徴の定義を例示する第３のグラフ色旋律の可視化の一例を示す模式図第１実施例に係る試験の結果を示す比較グラフ第１実施例に係る試験結果の総合評価を示すレーダーチャート音響特徴の可視化の一例を示す模式図

以下、適宜図面を参照しながら、本発明に係る歌唱指導支援装置、その判定方法、その音響特徴の可視化方法およびそのプログラムを具体的に開示した実施形態を詳細に説明する。
ただし、必要以上に詳細な説明は省略する場合がある。たとえば、すでによく知られた事項の詳細説明または実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。また、添付図面のそれぞれは符号の向きに従って参照するものとする。

なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

また、実施形態でいう「部」または「装置」とは単にハードウェアによって機械的に実現される物理的構成に限らず、その構成が有する機能をプログラムなどのソフトウェアにより実現されるものも含む。また、１つの構成が有する機能が２つ以上の物理的構成により実現されても、または２つ以上の構成の機能がたとえば１つの物理的構成によって実現されていてもかまわない。

［・本発明の技術的特徴について］
図１および図２を参照しながら、本発明の技術的特徴について説明する。図１は、経験者のスペクトル包絡を示すグラフである。図２は、熟練者のスペクトル包絡を示すグラフである。

本発明は、音色の時間的変化、すなわち音色旋律（Ｓｃｈoｎｂｅｒｇ，Ｈａｒｍｏｎｉｅｌｅｈｒｅ，１９１１）と声の響きに影響を与えるシンガーズ・フォルマント（Ｓｕｎｄｂｅｒｇ，ＪＡＳＡ，１９７４）を評価指標とすることで、従来技術には見られない技術的特徴を有する。加えて、声質の評価だけでなく、音色旋律やシンガーズ・フォルマントの音響特徴を分かりやすく可視化することで、学習者が歌唱時の音響特徴を認識・理解することができるため、歌唱力の向上や魅力的な歌い方の実現につながる。

しかしながら、人間が効率的に視認できる次元数は１～３次元程度であるため、音色のように多次元のベクトルとして表出し、かつ時間的に複雑に変化する音響特徴（音色旋律）の単純な可視化は視認性に欠ける。そのため、音色旋律の可視化には視認性の確保が必要不可欠である。

ここで、本発明者らは、３クラスに分類した歌い手（熟練者、経験者、初心者）の歌唱時のフォルマントを解析し、その解析結果より熟練者には共通する音響特徴があることを見出した。

図１に琉球古典音楽『歌三線』の経験者と熟練者を対象に評価したフォルマントを示す。

図１に示すように、このグラフはフレーム長を４６ｍｓとし、歌唱時の音高が低音から高音に変化する際のフォルマント（スペクトル包絡）を約６秒間プロットしたもの（破線）と、その平均値をプロットしたもの（実線）であるが、評価結果から以下の知見が得られた。

（１）熟練者はシンガーズ・フォルマントという特定の周波数帯域（２４００－４３００Ｈｚ）を強調して歌い、その帯域に複数のパワースペクトルを集中させることでシンガーズ・フォルマント・クラスタ（Ｋｅｎｎｅｔｈ，ＰｒａｃｔｉｃａｌＶｏｃａｌＡｃｏｕｓｔｉｃｓ，２０１３）を形成する。
（２）２４００－４３００Ｈｚ付近に形成されたシンガーズ・フォルマント・クラスタは、音高の変化によらず周波数およびパワーともに安定する傾向にある。

本発明の一部である声質の評価手法は、これらの知見に基づき完成されたものであって、この音響特徴を検出することにより、歌唱（声質）の巧拙を評価する技術である。また、以下に先行技術文献で示した課題の解決法も示す。

●前記特許文献１の課題に対し、シンガーズ・フォルマントの音響特徴と音色の時間的変化（音色旋律）により声質（響き・豊かさ）を評価する。
●前記特許文献２の課題に対し、倍音ではなく、スペクトル包絡から得られた複数のフォルマントと基音の比率の平均値から倍音の含有量を評価する。
●前記特許文献３、前記特許文献４および前記非特許文献１の課題に対し、音高や母音が変化する中でのシンガーズ・フォルマント・クラスタの周波数の安定性を標準偏差で評価する。また、シンガーズ・フォルマント・クラスタのパワーの安定性を乗平均平方根（ＲＭＳ）ではなく、変動係数を用いて評価する。

さらに、本発明者らが知る限り従来技術では扱われていなかった音色旋律（多次元ベクトルとして表出するスペクトル包絡の時間推移）に着目し、その音響特徴の次元を圧縮して可視化することで声質や音色の豊かさを含めた評価ならびに訓練支援を実現する点が本発明の特徴である。なお、音色の時間的なふるまいを分かりやすく可視化するために、熟練者の歌唱を学習したＡＩ（ニューラルネットワーク）を用いて音色を特徴付ける多次元のベクトル（スペクトル包絡）の次元数を圧縮する。

（第１実施形態）
図３～図７に基づいて本発明に係る第１実施形態について説明する。

［・歌唱指導支援装置の基本構成について］
図３～図７を参照しながら、歌唱指導支援装置の基本構成について説明する。図３は、歌唱指導支援装置の構成の一例を示す機能ブロック図である。図４は、音響特徴の定義を例示する第１のグラフである。図５は、音響特徴の定義を例示する第２のグラフである。図６は、音響特徴の定義を例示する第３のグラフである。図７は、色旋律の可視化の一例を示す模式図である。

図３に示すように、本実施形態に係る歌唱指導支援装置１は、収音装置と、スペクトル解析部と、音響特徴量算出部と、音響特徴量可視部と、評価ＤＢ部と、楽曲ＤＢ部と、表示装置と、放音装置と、を含んで構成される。

収音装置は、周囲の音響を収音する装置（マイクロホン）である。具体的には、収音装置は、歌唱者が楽曲を歌唱した歌唱音声を収音して歌唱信号を生成する。

スペクトル解析部は、歌唱信号を解析することで、その信号のスペクトルとスペクトル包絡を算出する。スペクトルの算出には高速フーリエ変換ＦＦＴ、スペクトル包絡の算出には線形予測符号ＬＰＣなどの既存技術を用いることができる。

音響特徴量算出部は、次の第１音響特徴、第２音響特徴、第３音響特徴、第４音響特徴および第５音響特徴のそれぞれを算出する。

第１音響特徴は、シンガーズ・フォルマント・クラスタＳＦＣの周波数の安定性を示す値である。これに関しては、楽曲に対して十分に短い周期（例えば５０ｍｓｅｃごと）に得られたシンガーズ・フォルマント・クラスタの複数のパワーのピーク値に対応する周波数ｘ＿ｉから次式の式に基づき、それぞれの標準偏差を求める。さらに、分散の加法性に基づき、それら総和を安定性の評価値とする。

第２音響特徴は、シンガーズ・フォルマント・クラスタＳＦＣのパワーの安定性を示す値である。これに関してはシンガーズ・フォルマント・クラスタから得た複数のパワーのピーク値から第１音響特徴の算出で示された方法で標準偏差σを求め、その値を平均値ｘで割ることで変動係数ＣＶを求める。ここで得られたＣＶ（次式）の総和を安定性の評価値とする。

第３音響特徴は、シンガーズ・フォルマント・クラスタＳＦＣの強度を示す値である。図４～図６に示すグラフは、フレーム長４６ｍｓとした場合のスペクトルとその包絡線を図示したものである。図４に示すように、シンガーズ・フォルマントの強度はシンガーズ・フォルマントのパワーが最も強くなる谷の部分（凹部１）とパワーが最も低くなる谷の部分（凹部２）の差として算出する。

第４音響特徴は、倍音含有率を示す値である。図５に示すように、基音（Ｆ０）とフォルマントのパワー値（Ｆ１～ＦＮ）の比率の平均値として算出する。

第５音響特徴は、シンガーズ・フォルマント・クラスタの集中度を示す値である。図６に示すように、シンガーズ・フォルマントの前後に表れる極小値の範囲内のエネルギーの総和Ｅ（ＳＦ＿ｍｉｎ）と、極大値の範囲内のエネルギーの総和Ｅ（ＳＦ＿ｍａｘ）の比率として算出する。

音響特徴量可視化部は、前述のように算出される第１音響特徴、第２音響特徴、第３音響特徴、第４音響特徴および第５音響特徴に関する評価値を総合評価としてレーダーチャート上に出力する。また、初学者がどのように歌っているかを認識・理解させるため、安定性を示す評価値、つまり前述の第１音響特徴および第２音響特徴に関する値は視認性を高めるためにカーネル密度推定を使い母集団のデータを外挿したもの（たとえばバイオリンプロット）を用いて可視化する。

第３音響特徴、第４音響特徴および第５音響特徴に関しては、スペクトル包絡（フォルマント構造）を直接、可視化する。

図７に示すように、音色旋律の可視化においてはニューラルネットワークモデルの一つであるＶＡＥ（ＶａｒｉａｔｉｏｎａｌＡｕｔｏｅｎｃｏｄｅｒ）を用いて多次元のベクトルを２次元に圧縮して可視化する。その際、楽曲に対して十分に短い周期（例えば５０ｍｓごと）でリアルタイムにｘとｙを算出することで、音色の時間的ふるまいを含めて可視化できる。

ここで、可視化されたサークルをＶｏｉｃｅＢａｌｌと呼ぶことにする。本実施形態は、学習者が音色空間上で模範となる熟練者のＶｏｉｃｅＢａｌｌの動きを真似ることで歌唱訓練を行うものであり、単なる可視化ではなく、音楽ゲームの要素を取り入れた構成となる。そして、ＶｏｉｃｅＢａｌｌの分布の散らばり具合から音色の豊かさ、時間的ふるまいから歌唱の表現力（例えば抑揚など）を評価する。

また、ＶｏｉｃｅＢａｌｌは、前述の第１音響特徴、第２音響特徴、第３音響特徴、第４音響特徴および第５音響特徴に係る評価値と連動させ、スコアが高いほど濃淡が濃く、直径も小さくなるように構成する。それにより、学習者に明確な目標を設定し、学習者は歌いながら自らの習熟度を認識・理解することができる。
なお、次元の圧縮には一例としてＶＡＥを用いているが、主成分分析やｔ－ＳＮＥ等の既存技術を用いてもよく、音色の特徴に応じてＶｏｉｃｅＢａｌｌのカラーが変わる構成にしてもよい。

評価ＤＢ部は、熟練者の歌唱の評価値と学習者の評価値を蓄積する。

楽曲ＤＢ部は、複数の熟練者やユーザの歌唱データを蓄積したＤＢである。ユーザが歌唱訓練を行う場合は、音響特徴量算出部で得られた音色の特徴から、学習者と最も近い音色を有する熟練者の歌唱を選択して出力する機能を有する。
なお、音色の類似度判定は、既存のニューラルネットワーク（たとえばオートエンコーダ）を用いることで実現できる。

表示装置は、たとえば液晶表示パネルであり、音響特徴量可視化部で得られた結果を画像として表示する。

放音装置は、たとえばスピーカやヘッドホンであり、楽曲ＤＢから供給される信号に応じた音響を放音する。

［・本実施形態の利点について］
前述したように、従来の歌唱評価システムまたは歌唱指導システムは主に音高の時間変化、すなわち歌唱旋律によって評価するものであった。

その一方、本実施形態によれば、前述したように、音色の変化を要素とする旋律、すなわち音色旋律により声質を評価する。加えて、２次元の音色空間とＶｏｉｃｅＢａｌｌを定義し、その空間上に音色の時間的ふるまいをリアルタイムで転写し、そのふるまいを真似ることで歌唱訓練を行える。また、古典的な解析手法では扱いが難しかった音色旋律（多次元のベクトルの時間変化）に対し、ＡＩ（ＶＡＥ）を用いて特徴を抽出する。

シンガーズ・フォルマントに基づく歌唱評価手法はすでに各所で提案されているが、本実施形態はその集合体であるシンガーズ・フォルマント・クラスタに着目した音響特徴の抽出方法（アルゴリズム）である。加えて、音色空間上で得られた音色旋律の分布状況から音色の豊かさ、ＶｏｉｃｅＢａｌｌの時間的ふるまいから歌唱の表現力を評価する。また、それらの音響特徴を統合することで、従来技術よりも高い精度の声質評価を実現する。

従って、本実施形態によれば、シンガーズ・フォルマントならびに、音色旋律に基づく歌唱評価を行うことで、従来手法よりも人間の音楽的感性に基づいた歌唱の巧拙を判定する機能を提供することができる。

また、本実施形態によれば、これまで暗黙知として扱われていた熟練者の歌唱技能の一端（音色旋律やシンガーズ・フォルマントの音響特徴）を可視化することで形式知へと変換し、ＰＣやスマートフォン等で誰でも気軽に歌唱訓練を行うことができる。また、訓練時は、ユーザと音響特徴（声質）が似ている熟練者の歌唱データをＡＩが類推し、その音声データに基づく訓練を行えるため、自分に合った歌唱訓練ができる。

また、本実施形態によれば、ＡＩに熟練者の音響特徴を転写することで、熟練者の持つ深遠な技能の一端が明らかになり、そのかけがえのない「価値」を後世に正確に伝えることができる。

また、本実施形態によれば、歌の調子外れ（俗にいう音痴）の治療方法としては視覚フィードバックを伴った歌唱訓練が有効であるとされており、調子外れ治療支援システムとしての活用も見込まれる。

以上、図面を参照しながら実施形態について説明したが、本開示はかかる例に限定されないことはいうまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、前述した実施形態における各構成要素を任意に組み合わせてもよい。

次に実施例を挙げて本発明についてさらに詳細に説明するが、本発明の内容はこの実施例の説明によって特許請求の範囲に記載の主題が限定されることは意図されない。

本実施例では、本発明に係る具体例として試験例を挙げ本発明についてより詳細に説明する。

（第１実施例）
図８～図１０に基づいて本発明に係る第１実施例について説明する。

［・比較試験について］
前述したように算出される第１音響特徴、第２音響特徴、第３音響特徴、第４音響特徴および第５音響特徴に係る評価値の有効性を確認するために、従前提案されている手法（「吉田祥他，“声楽発声の習熟度に関連する音響特徴量に基づく歌声の評価指標の提案”，電子情報通信学会論文誌Ｄ，Ｖｏｌ．Ｊ１０３－Ｄ，Ｎｏ．４，ｐｐ．２４７－２６０，２０２０．」参照、以下「比較例」ともいう）との比較実験を行った。

なお、比較例では、シンガーズ・フォルマントのＱ値（ＬＰＣで得られたＳｉｎｇｅｒ’ｓｆｏｒｍａｎｔのピークの鋭さ）とＳＦＲ（２．４～４ｋＨｚと０～４ｋＨｚのＦＦＴパワースペクトルの合計値の比）の２次元平面上の分布具合により歌い手の習熟度を評価する手法が提案されている。

本比較試験では、沖縄の古典音楽・歌三線の師範免許を保持している者を熟練者、三線を弾きながら歌える者を経験者、未経験者を初心者と定義し、それぞれ１０名、１１名、７名の歌唱データを用いて評価した。

評価結果を図８および図９に示す。図８は、本実施例に係る試験の結果を示す比較グラフであり、左側のグラフは比較例を示し、右側のグラフは本発明例を示す。図９は、本実施例に係る試験結果の総合評価を示すレーダーチャートであり、内側のグラフは初心者７名の平均を示し、中間のグラフは経験者１１名の平均を示し、外側のグラフは熟練者１０名の平均を示す。

図８に示すように、縦軸と横軸の値が大きいほど熟達度が高いことを示しており、比較例で示されている手法と比べても精度良く分類できていることが分かる。
なお、図９に示すレーダーチャートは可視化の一例として第１音響特徴、第２音響特徴、第３音響特徴、第４音響特徴および第５音響特徴のそれぞれについて熟練者、経験者および初心者の音響特徴の平均値を表したものである。

［・本発明の開発状況について］
図１０を参照しながら、音響特徴の可視化手法に関する開発状況について説明する。図１０は、音響特徴の可視化の一例を示す模式図であり、左側の図は母音の発声訓練を行っている様子であり、右側の図はＶＡＥを用いて多次元のスペクトル包絡を２次元に圧縮して２次元平面上にプロット（赤＝熟練者、青＝経験者、緑＝初心者）したものである。

図１０の左図に示すように、歌唱の音色を特徴づけるスペクトル包絡をリアルタイムで可視化するプログラムを実装した。これにより、学習者は熟練者の模範を見ながら発声訓練を行うことが可能となる。

図１０の右図に示すように、図７で示したＶＡＥの実装にも取り組んでいる。ＶＡＥを用いることで熟練者と初心者を分類でき、２次元で表されるデータ（プロット）から歌い手のスペクトル包絡が再現できることを確認した。

なお、左上のスペクトル包絡が熟練者、右下が初心者であり、それぞれの音色の音響特徴（スペクトル包絡）に明らかな差（熟練者のスペクトルは初心者と比較して倍音が多く含まれており、４０００Ｈｚ付近にシンガーズ・フォルマントが生起する）が表れることが確認できた。これは、ＡＩ（ＶＡＥ）が音色（スペクトル包絡）から音響特徴を抽出できていることを示している。また、これにより学習者は自らの音響特徴の課題を認識・理解することができる他、分布の散らばり具合から音色の豊かさ、Ｖｏｉｃｅｂａｌｌの時間的ふるまいから抑揚といった歌唱の表現力を評価することが可能である。現在は、時間的に変化する音色旋律を可視化するために、ＶＡＥのリアルタイム処理の実現に向けて取り組んでいる。

本発明は、人間の音楽的感性に基づいた歌唱の巧拙を精度よく判定することができる歌唱指導支援装置、その判定方法、その音響特徴の可視化方法およびそのプログラムとして有用である。

１：歌唱指導支援装置

Claims

収音装置と、
スペクトル解析部と、
音響特徴量算出部と、
音響特徴量可視部と、
評価ＤＢ部と、
楽曲ＤＢ部と、
表示装置と、
放音装置と、を含み、
前記音響特徴量算出部は、第１音響特徴および第２音響特徴のそれぞれを算出し、
前記音響特徴量可視化部は、前記音響特徴量算出部の算出結果を可視化し、
前記第１音響特徴は、シンガーズ・フォルマント・クラスタＳＦＣの周波数の安定性を示す値であり、
前記第２音響特徴は、シンガーズ・フォルマント・クラスタＳＦＣのパワーの安定性を示す値である、
歌唱指導支援装置。
前記音響特徴量算出部は、第３音響特徴および第４音響特徴および第５音響特徴のそれぞれをさらに算出し、
前記第３音響特徴は、シンガーズ・フォルマント・クラスタＳＦＣの強度を示す値であり、
前記第４音響特徴は、倍音含有率を示す値であり、
前記第５音響特徴は、シンガーズ・フォルマント・クラスタの集中度を示す値である、
請求項１に記載の歌唱指導支援装置。
前記音響特徴量可視化部は、前記音響特徴量算出部の算出結果のそれぞれを総合評価としてレーダーチャート上に出力する、
請求項１または２に記載の歌唱指導支援装置。
前記音響特徴量可視化部は、前記第１音響特徴および前記第２音響特徴に関する値についてカーネル密度推定を使い母集団のデータを外挿したものを用いて可視化する、
請求項１に記載の歌唱指導支援装置。
前記音響特徴量可視化部は、前記第３音響特徴、前記第４音響特徴および前記第５音響特徴に関する値についてスペクトル包絡（フォルマント構造）を直接可視化する、
請求項２に記載の歌唱指導支援装置。