JP6705142B2

JP6705142B2 - 音質判定装置及びプログラム

Info

Publication number: JP6705142B2
Application number: JP2015183718A
Authority: JP
Inventors: 隆一成山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2015-09-17
Filing date: 2015-09-17
Publication date: 2020-06-03
Anticipated expiration: 2035-09-17
Also published as: US20180204588A1; WO2017047453A1; US10453478B2; JP2017058536A

Description

本発明は、音質をリアルタイムに判定する技術に関する。

発声の技法として裏声又はファルセットと呼ばれる技法が存在する。これらは、特に高いピッチ（音高）に対応する発音を作り出すための技法であり、アーティストの間でも一般的に用いられる技法である。そのため、近年では、表声（地声）及び裏声を含む発声を客観的に評価する技術を開発する動きがある（特許文献１）。

特開２０１４−１３０２２７号公報

しかしながら、特許文献１に記載された技術では、評価部において機械学習を行う必要があり、膨大なデータが必要になるという問題があった。

本発明の課題の一つは、膨大なデータを必要とせず、リアルタイムに音質を判定することにある。

本発明の一実施形態による音質判定装置は、入力音を取得する取得部と、前記取得部によって取得された前記入力音の周波数分布を算出する周波数分布算出部と、前記周波数分布算出部によって算出された前記周波数分布に基づいて、周波数に対する倍音の強度の変化を示すチルトを算出するチルト算出部と、前記チルト算出部によって算出されたチルトと、当該チルトに関連した閾値とを比較するチルト比較部と、前記チルト比較部によって比較された結果に基づいて、前記入力音が所定の音質であるか否かを判定する判定部と、を備えることを特徴とする。

上記音質判定装置は、さらに、前記周波数分布算出部によって算出された前記周波数分布に基づいて、基音の周波数に対する倍音の周波数の比率を示す倍音比率を算出する倍音比率算出部と、前記倍音比率算出部によって算出された倍音比率と、当該倍音比率に関連した閾値とを比較する倍音比率比較部と、を備え、前記判定部は、チルト比較部によって比較された結果及び前記倍音比率比較部によって比較された結果に基づいて、前記入力音が所定の音質であるか否かを判定してもよい。

また、本発明の他の実施形態による音質判定装置は、入力音を取得する取得部と、前記入力音取得部によって取得された前記入力音の周波数分布を算出する周波数分布算出部と、前記周波数分布算出部によって算出された前記周波数分布に基づいて、基音に対する倍音の比率を示す倍音比率を算出する倍音比率算出部と、前記倍音比率算出部によって算出された倍音比率と、当該倍音比率に関連した閾値とを比較する倍音比率比較部と、前記倍音比率比較部によって比較された結果に基づいて、前記入力音が所定の音質であるか否かを判定する判定部と、を備えることを特徴とする。

前記チルトに関連した閾値、または倍音比率に関連した閾値としては、前記周波数分布における基音の周波数を用いて導出された値を用いてもよい。これらの閾値は、所定の演算式により導出されてもよいし、予めチルトまたは倍音比率と閾値とを関連付けたルックアップテーブルから導出してもよい。前記閾値を所定の演算式により導出する場合、当該演算式のパラメータを変更可能なパラメータ変更部をさらに備えてもよい。

また、前記入力音の入力期間において出力される伴奏音を選択する選択部をさらに備えてもよく、前記パラメータ変更部は、選択された前記伴奏音に関連付けられた情報に基づいて前記パラメータを変更してもよい。

上述した音質判定装置において、前記判定部は、前記チルトが所定の基準を満たすとき、前記所定の音質であると判定してもよいし、前記チルトが所定の基準を所定時間継続して満たすとき、前記所定の音質であると判定してもよい。

また、本発明の一実施形態によるプログラムは、コンピュータに、入力音を取得し、
取得された前記入力音の周波数分布を算出し、算出された前記周波数分布に基づいて、周波数に対する倍音の強度の変化を示すチルトを算出し、算出されたチルトと、当該チルトに関連した閾値とを比較し、比較された結果に基づいて、前記入力音が所定の音質であるか否かを判定することを実行させる。

また、本発明の他の実施形態によるプログラムは、コンピュータに、入力音を取得し、取得された前記入力音の周波数分布を算出し、算出された前記周波数分布に基づいて、基音に対する倍音の比率を示す倍音比率を算出し、算出された倍音比率と、当該倍音比率に関連した閾値とを比較し、比較された結果に基づいて、前記入力音が所定の音質であるか否かを判定することを実行させる。

上述した構成によれば、膨大なデータを必要とせず、リアルタイムに音質を判定することが可能となる。

本発明の第１実施形態における音質判定装置の構成を示すブロック図である。本発明の第１実施形態における音質判定機能の構成を示すブロック図である。チルトの概念を説明するための図である。本発明の第１実施形態における音質判定機能を構成する判定部による裏声判定の概念を説明するための図である。本発明の第２実施形態における音質判定機能の構成を示すブロック図である。倍音比率の算出方法を説明するための図である。本発明の第２実施形態における音質判定機能を構成する判定部による裏声判定の概念を説明するための図である。ピッチと倍音比率の相関を説明するための図である。本発明の第３実施形態における音質判定機能の構成を示すブロック図である。本発明の第３実施形態における音質判定機能を構成する判定部による裏声判定の概念を説明するための図である。変形例１における音質判定機能の構成を示すブロック図である。変形例２における音質判定機能の構成を示すブロック図である。変形例３における音質判定機能の構成を示すブロック図である。

以下、本発明の一実施形態における音質判定装置について、図面を参照しながら詳細に説明する。以下に示す実施形態は、本発明の実施形態の一例であって、本発明はこれらの実施形態に限定されるものではない。

（第１実施形態）
本発明の第１実施形態における音質判定装置１０について説明する。第１実施形態における音質判定装置１０は、歌唱する利用者（以下、歌唱者という場合がある）の歌唱音声の音質を判定する機能を備えた装置である。音質判定装置１０は、ピッチ（基本周波数）の変化に依存した閾値を用いて音質パラメータを評価し、所定の条件を満たした場合に特定の音質であると判定する機能を備えている。

本実施形態では、音質パラメータとして、周波数に対する倍音の強度の変化を示すチルト（詳細は後述する）を用いる例を示し、歌唱音声から、音質として裏声（ファルセット）を判定する例を示す。

［ハードウエア］
図１は、本発明の第１実施形態における音質判定装置１０の構成を示すブロック図である。音質判定装置１０は、例えば、歌唱採点機能を備えたカラオケ装置である。音質判定装置１０は、制御部１１、記憶部１３、操作部１５、表示部１７、通信部１９、および信号処理部２１を含む。また、信号処理部２１には、音入力部（例えばマイクロフォン）２３及び音出力部（例えばスピーカー）２５が接続されている。これらの各構成は、バス２７を介して相互に接続されている。

制御部１１は、ＣＰＵなどの演算処理回路を含む。制御部１１は、記憶部１３に記憶された制御プログラム１３ａをＣＰＵにより実行して、各種機能を音質判定装置１０において実現させる。実現される機能には、歌唱音声の音質判定機能が含まれる。本実施形態では、音質判定機能の具体例として、歌唱音声から裏声を判定する機能を例示する。

記憶部１３は、不揮発性メモリ、ハードディスク等の記憶装置である。記憶部１３は、音質判定機能を実現するための制御プログラム１３ａを記憶する。制御プログラムは、磁気記録媒体、光記録媒体、光磁気記録媒体、半導体メモリなどのコンピュータ読み取り可能な記録媒体に記憶した状態で提供されてもよい。この場合には、音質判定装置１０は、記録媒体を読み取る装置を備えていればよい。また、制御プログラム１３ａは、インターネット等のネットワーク経由でダウンロードされてもよい。

また、記憶部１３は、歌唱に関するデータとして、楽曲データ１３ｂ、及び歌唱音声データ１３ｃを記憶する。楽曲データ１３ｂは、カラオケの歌唱曲に関連するデータ、例えば、ガイドメロディデータ、伴奏データ、歌詞データなどが含まれている。ガイドメロディデータは、歌唱曲のメロディを示すデータである。伴奏データは、歌唱曲の伴奏を示すデータである。ガイドメロディデータおよび伴奏データは、ＭＩＤＩ形式で表現されたデータであってもよい。歌詞データは、歌唱曲の歌詞を表示させるためのデータ、および表示させた歌詞テロップを色替えするタイミングを示すデータである。歌唱音声データ１３ｃは、歌唱者が音入力部２３から入力した歌唱音声を示すデータである。この例では、歌唱音声データは、音質判定機能によって歌唱音声に基づいて音質判定がなされるまで、記憶部１３に記憶される。

操作部１５は、操作パネルおよびリモコンなどに設けられた操作ボタン、キーボード、マウスなどの装置であり、入力された操作に応じた信号を制御部１１に出力する。表示部１７は、液晶ディスプレイ、有機ＥＬディスプレイ等の表示装置であり、制御部１１による制御に基づいた画面が表示される。なお、操作部１５と表示部１７とは一体としてタッチパネルを構成してもよい。通信部１９は、制御部１１の制御に基づいて、インターネットやＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）などの通信回線と接続して、サーバ等の外部装置と情報の送受信を行う。なお、記憶部１３の機能は、通信部１９において通信可能な外部装置で実現されてもよい。

信号処理部２１は、ＭＩＤＩ形式の信号からオーディオ信号を生成する音源、Ａ／Ｄコンバータ、Ｄ／Ａコンバータ等を含む。歌唱音声は、マイクロフォン等の音入力部２３において電気信号に変換されて信号処理部２１に入力され、信号処理部２１においてＡ／Ｄ変換されて制御部１１に出力される。上述したように、歌唱音声は、歌唱音声データとして記憶部１３に記憶される。また、伴奏データは、制御部１１によって読み出され、信号処理部２１においてＤ／Ａ変換され、スピーカー等の音出力部２５から歌唱曲の伴奏音として出力される。このとき、ガイドメロディも音出力部２５から出力されるようにしてもよい。

［音質判定機能］
音質判定装置１０の制御部１１が記憶部１３に記憶された制御プログラム１３ａを実行することによって実現される音質判定機能について説明する。なお、以下に説明する音質判定機能を実現する構成の一部または全部は、ハードウエアによって実現されてもよい。

図２は、本発明の第１実施形態における音質判定機能１００の構成を示すブロック図である。音質判定機能１００は、伴奏出力部１０１、入力音取得部１０３、周波数分布算出部１０５、チルト算出部１０７、閾値Ｔｔｈ導出部１０９、比較部１１１、および判定部１１３を含む。なお、伴奏出力部１０１及び閾値Ｔｔｈ導出部１０９は、音質判定機能１００の構成として必須の構成ではないため破線で示している。後述する図５、図９、図１１〜図１３においても同様に、破線で示す要素（機能）は必須の構成ではない。

伴奏出力部１０１は、歌唱者に指定された歌唱曲に対応する伴奏データを読み出し、信号処理部２１を介して、伴奏音を音出力部２５から出力させる。入力音取得部１０３は、音入力部２３から入力された歌唱音声を示す歌唱音声データを取得する。この例では、伴奏音が出力されている期間における音入力部２３への入力音を、判定対象の歌唱音声として認識する。なお、入力音取得部１０３は、歌唱音声データを信号処理部２１から直接取得するが、いったん記憶部１３に記憶された歌唱音声データを取得するようにしてもよい。また、入力音取得部１０３は、音入力部２３への入力音を示す歌唱音声データを取得する場合に限らず、外部装置への入力音を示す歌唱音声データを、通信部１９によりネットワーク経由で取得してもよい。

周波数分布算出部１０５は、入力音取得部１０３によって取得された歌唱音声データに対しフレーム（所定期間で区切られたデータサンプル）ごとにフーリエ解析を行い、各フレームにおける周波数分布を算出する。周波数分布算出部１０５で取得された周波数分布から、各フレームにおける歌唱音声の基音と倍音との関係を求めることができる。

チルト算出部１０７は、周波数分布算出部１０５で取得された歌唱音声データの周波数分布からチルト（Ｔ）を算出する。ここで、チルトとは、周波数に対する倍音の強度（パワー）の変化を示す値のことをいう。例えば、チルト算出部１０７は、周波数分布から複数の倍音にそれぞれ対応する複数の強度を求め、それら複数の強度を用いた直線近似により得た一次関数の傾きをチルトとして算出することができる。図３は、チルトの概念を説明するための図である。図３において、横軸は歌唱音声に含まれる周波数成分を対数で取ったものであり、縦軸は各周波数における音の強度を対数で取ったものである。周波数ｆ０は、ピッチ（基本周波数）と呼ばれ、基音の周波数に対応する。また、周波数ｆ１、ｆ２、ｆ３は、それぞれ２倍音、３倍音、４倍音の周波数に対応する。

このとき、例えば、各倍音の強度のピーク値について最小二乗法による直線近似を行うと、一次関数３０１を得ることができる。一般的に、高い周波数の倍音（高調波）ほど強度が低くなる傾向にあるため、一次関数３０１は右下がりとなることが多い。そのため、一次関数３０１を式で表すと、通常はｙ＝−ａｘ＋ｂ（「ｘ」及び「ｙ」は、それぞれ図３のｘ軸及びｙ軸に対応する変数）となり、このときの定数ａを本明細書中では「チルト」と定義する。すなわち、「チルト」とは、周波数の増加分に対して倍音の強度がどのように減少するかを示すパラメータとも言える。

なお、この例では、最小二乗法による直線近似によりチルトを求めているが、周波数の変化に対して倍音の強度がどのように変化するかを示すパラメータを抽出することさえできれば、どのような手法を用いてチルトを求めてもよい。また、「倍音に対応する強度」の一例として倍音の強度のピーク値を用いる例を示したが、各倍音の強度の変化の傾向を表すことが可能な値であれば、ピーク値に限定する必要はない。例えば、倍音の周波数における強度の値（上述したピーク値とは異なる場合がある）を用いてもよいし、倍音の強度を所定範囲で積分して得た面積を用いてもよい。

また、図３の例では、ｆ１からｆ３（つまり、２倍音から４倍音）までを用いてチルトを求めたが、これに限らず、チルトの算出に用いる倍音は任意に決定することができる。さらに、例えば強度が一定以上の倍音を用いてチルトを算出するようにしてもよい。

閾値Ｔｔｈ導出部１０９は、チルトに関連した閾値（Ｔｔｈ）として、周波数分布算出部１０５で取得されたピッチに基づく閾値を導出する。チルトに関連した閾値（Ｔｔｈ）は、ピッチに依存して変化する値であり、所定の演算式（例えば、独立変数をピッチとする関数Ｆｔ（Ｆ０））を用いて導出することができる。このとき、所定の演算式は、一次関数であってもよいし、２次以上の高次関数であってもよい。さらに、所定の演算式を用いる方式に代えて、予めピッチと閾値とを関連付けたルックアップテーブルから導出してもよい。これらの演算式やルックアップテーブルは、様々な歌唱音声を統計処理するなどして予め求めておけばよい。

比較部１１１は、チルト算出部１０７で取得されたチルトと、閾値Ｔｔｈ導出部１０９で取得されたチルトに関連した閾値とを比較する。そして、チルトと閾値との間の大小関係を示す信号を判定部１１３に対して出力する。

判定部１１３は、比較部１１１から取得したチルトと閾値との間の大小関係を示す信号に基づいて、入力音取得部１０３で取得された歌唱音声データが裏声を示すものであるか否かを判定する。ここで、上述のチルトに関連した閾値は、任意のピッチにおいて、歌唱音声が裏声であるか否かを判定する指標となる値としての意味を持つ。具体的には、あるフレームにおけるチルトが、そのフレームにおけるピッチに依存した所定の閾値以上である場合（すなわち、上述した一次関数３０１の傾きを示す定数「ａ」が、所定の閾値以上である場合）には、そのフレームの歌唱音声は、裏声であると判定される。

図４は、判定部１１３における裏声判定の概念を説明するための図である。図４において、横軸はピッチ（Ｐ）であり、縦軸はチルト（Ｔ）である。図４には、前述の閾値（Ｔｔｈ）を導出するための所定の演算式として、関数Ｆｔ（Ｐ）が示されている。この例では、あるフレームにおけるピッチ（Ｐ）が決まると、そのピッチに対応した閾値（Ｔｔｈ）が関数Ｆｔ（Ｐ）から求まる。判定部１１３では、チルト算出部１０７で算出されたチルトと、閾値Ｔｔｈ導出部１０９で関数Ｆｔ（Ｐ）から求められた閾値（Ｔｔｈ）とを比較した結果に基づいて、チルトが閾値（Ｔｔｈ）以上であれば、そのフレームの歌唱音声は裏声であると判定する。

図４において、あるフレーム１では、ピッチがＰ１、チルトがＴ１となり、Ｔ１が閾値（Ｆｔ（Ｐ１））未満であったとする。この場合、判定部１１３は、フレーム１の歌唱音声は、表声であると判定する。他方、フレーム１とは異なるフレーム２において、ピッチがＰ１、チルトがＴ２となり、Ｔ２が閾値（Ｆｔ（Ｐ２））以上になったとする。この場合、判定部１１３は、フレーム２の歌唱音声は、裏声であると判定する。なお、ここではフレーム単位で裏声であるか否か判定する例を示したが、所定数以上のフレームが連続して上記条件を満たすときに裏声と判定されるように構成してもよい。

本発明者らの知見によれば、歌唱音声の音質（声質）が裏声に近づくにつれて、図３に示すような周波数分布図においては、２倍音、３倍音、４倍音と高調波になるにしたがって、急激に強度が低くなる傾向がある。つまり、図３に示すように、周波数に対する倍音の強度の変化を示すチルト（傾き）が急峻なものとなる。これ傾向を利用すれば、チルトが算出できれば、それが所定の閾値以上となった場合（すなわち、周波数に対する倍音の強度の変化が急峻である場合）に裏声であると判定できる。上述の関数Ｆｔ（Ｐ）は、発声する人に依存して変化し得るが、様々な人物の歌唱音声を統計的に処理することにより、予め関数Ｆｔ（Ｐ）を求めておくことができる。

以上のように、第１実施形態における音質判定装置１０は、入力音取得部１０３から入力した歌唱音声データに対して周波数分布算出部１０５で周波数解析を行い、その解析結果に基づいて、チルト算出部１０７で音質パラメータとしてチルトを算出する。その後、算出されたチルトと閾値Ｔｔｈ導出部１０９から取得したチルトに関連した所定の閾値とを比較部１１１にて比較する。そして、その比較結果に基づいて、判定部１１３が、入力した歌唱音声データが裏声を示すデータであるか否かを判定する。このように、周波数解析から判定までの一連の処理は、所定のフレームごとに少ない演算量で実行することが可能であるため、歌唱音声データの蓄積や機械学習が不要である。これにより、膨大なデータを必要とせず、リアルタイムに裏声を判定することが可能となる。

（第２実施形態）
本発明の第２実施形態における音質判定機能１００ａは、音質パラメータとして、第１実施形態で説明したチルトに加えて倍音比率を用い、チルト及び倍音比率に基づいて裏声判定を行う点で第１実施形態における音質判定機能１００とは異なる。ここで、倍音比率とは、基音の周波数に対する倍音の周波数の比率を示すパラメータである。なお、本実施形態では、第１実施形態における音質判定機能１００との構成上の差異に注目して説明を行い、同じ部分については同じ符号を付して説明を省略する。

図５は、本発明の第２実施形態における音質判定機能１００ａの構成を示すブロック図である。音質判定機能１００ａは、伴奏出力部１０１、入力音取得部１０３、周波数分布算出部１０５、チルト算出部１０７、閾値Ｔｔｈ導出部１０９、倍音比率算出部２０１、閾値Ｈｔｈ導出部２０３、比較部１１１ａ、および判定部１１３ａを含む。

倍音比率算出部２０１は、周波数分布算出部１０５から取得した基音の周波数の強度と倍音の周波数の強度とを用いて倍音比率を算出する。ここで、倍音比率の具体的な算出方法の一例について図６を用いて説明する。

図６は、１フレーム分の歌唱音声データにおける周波数分布を示す図である。この例では、基音の周波数ｆ０、倍音の周波数ｆ１〜ｆ３に強度のピークが現れている。倍音比率は、基音の周波数に対する倍音の周波数の比率であるから、「倍音の周波数の強度／基音の周波数の強度」で表すことができる。本実施形態では、各倍音における強度の幅（例えば半値幅Ｗ０〜Ｗ３）を基準として、各ピークが占める面積Ａ０〜Ａ３を求め、これらの面積Ａ０〜Ａ３を各ピークにおける強度として演算する。したがって、図６に示す周波数分布における倍音比率は、「（Ａ１＋Ａ２＋Ａ３）／Ａ０」で求められる。

なお、倍音比率の算出方法は、上述した例に限定されるものではない。例えば、半値幅以外の所定の幅を基準として各ピークの面積を求めてもよいし、簡易的に、強度として各ピークの最大ピーク値を用いてもよい。また、倍音比率の算出に使用する倍音は、例えば３倍音または４倍音まで使用したり、特定の周波数帯域に含まれる倍音のみを使用したりするなど、任意に決めることができる。さらに、例えば強度が一定以上の倍音を用いて倍音比率を算出することも可能である。

閾値Ｈｔｈ導出部２０３は、倍音比率に関連した閾値（Ｈｔｈ）を導出する。倍音比率に関連した閾値（Ｈｔｈ）は、チルトに関連した閾値（Ｔｔｈ）と同様に、ピッチに依存して変化する値である。すなわち、倍音比率に関連した閾値（Ｈｔｈ）も、所定の演算式（例えば、独立変数をピッチとする関数Ｆｈ（ｆ０））を用いて導出することができる。所定の演算式は、一次関数であってもよいし、２次以上の高次関数であってもよい。さらに、所定の演算式を用いる方式に代えて、予めピッチと閾値とを関連付けたルックアップテーブルから導出してもよい。これらの演算式やルックアップテーブルは、様々な歌唱音声を統計処理するなどして予め求めておけばよい。

比較部１１１ａは、チルト算出部１０７で取得されたチルトと閾値Ｔｔｈ導出部１０９で取得された閾値（Ｔｔｈ）とを比較するとともに、倍音比率算出部２０１で取得された倍音比率と閾値Ｈｔｈ導出部２０３で取得された閾値（Ｈｔｈ）とを比較する。そして、チルトと閾値（Ｔｔｈ）との間の大小関係を示す信号及び倍音比率と閾値（Ｈｔｈ）との間の大小関係を示す信号を判定部１１３ａに対して出力する。

判定部１１３ａは、比較部１１１ａから取得したチルトと閾値（Ｔｔｈ）との間の大小関係を示す信号及び倍音比率と閾値（Ｈｔｈ）との間の大小関係を示す信号に基づいて、入力音取得部１０３で取得された歌唱音声データが裏声を示すものであるか否かを判定する。具体的には、あるフレームにおけるチルトが、閾値（Ｔｔｈ）以上であって、かつ、倍音比率が、閾値（Ｈｔｈ）以下である場合に、そのフレームの歌唱音声は、裏声であると判定される。なお、ここではフレーム単位で裏声であるか否か判定する例を示したが、所定数以上のフレームが連続して上記条件を満たすときに裏声と判定されるように構成してもよい。

図７は、判定部１１３ａにおける裏声判定の概念を説明するための図である。本実施形態の判定部１１３ａでは、図７（ａ）に示すチルトに基づく判定及び図７（ｂ）に示す倍音比率に基づく判定の両方を用いて裏声であるか否かの判定を行う。図７（ａ）において、横軸はピッチ（Ｐ）、縦軸はチルト（Ｔ）であり、関数Ｆｔ（Ｐ）は、図４と同様に、チルトに関連した閾値（Ｔｔｈ）を導出するための演算式に対応する。また、図７（ｂ）において、横軸はピッチ（Ｐ）、縦軸は倍音比率（Ｈ）であり、関数Ｆｈ（Ｐ）は、倍音比率に関連した閾値（Ｈｔｈ）を導出するための演算式に対応する。

図７（ａ）に示すように、あるフレーム１において、ピッチがＰ１、チルトがＴ１となり、Ｔ１が閾値（Ｆｔ（Ｐ１））以上であったとする。この場合、第１実施形態における判定部１１３では、フレーム１の歌唱音声は、裏声であると判定されるが、本実施形態における判定部１１３ａでは、さらに同一ピッチ（Ｐ１）における倍音比率に基づく判定を追加する。例えば、図７（ｂ）に示すように、ピッチがＰ１のとき、倍音比率がＨ１となった場合、すなわち倍音比率が閾値（Ｆｈ（Ｐ１））以下となった場合に、入力された歌唱音声は裏声であると判定される。逆に、ピッチがＰ１のとき、倍音比率がＨ２となった場合、すなわち倍音比率が閾値（Ｆｈ（Ｐ１））を超えた場合には、たとえチルトＴ１が閾値（Ｆｔ（Ｐ１））以上であったとしても、入力された歌唱音声は表声であると判定される。

つまり、本実施形態の場合、ピッチ、チルト、及び倍音比率のそれぞれを軸とする三次元座標系において、所定のピッチにおいてチルトが閾値（Ｆｔ（Ｐ））以上であって、かつ、倍音比率が閾値（Ｆｈ（Ｐ））以下となる一定の空間に位置する歌唱音声が裏声であると判定されることになる。なお、上述の関数Ｆｔ（Ｐ）及び関数Ｆｈ（Ｐ）は、いずれも発生する人に依存して変化し得るが、様々な人物の歌唱音声を統計的に処理することにより、関数Ｆｔ（Ｐ）及び関数Ｆｈ（Ｐ）を求めておくことができる。

本発明者らの知見によれば、歌唱音声の音質（声質）が裏声に近づくにつれて、基音に対する倍音の比率が低くなる傾向にある。具体的には、図８に示すように、ピッチを横軸、倍音比率を縦軸にとって歌唱音声の統計をとった場合、相対的に、表声８０１はピッチが低く倍音比率が高い領域に分布し、裏声８０２はピッチが高く倍音比率が低い領域に分布する傾向にあることが分かっている。そのため、これら表声８０１と裏声８０２との境界を、簡易的に関数Ｆｈ（Ｐ）により画定することにより、図８において関数Ｆｈ（Ｐ）以下となる領域を裏声領域と推定することができる。

以上のように、第２実施形態における音質判定機能１００ａは、音質パラメータとして第１実施形態にて説明したチルトに加えて倍音比率を算出し、これらのチルト及び倍音比率とそれぞれに関連した所定の閾値とを比較する。そして、それらの比較結果に基づいて、入力した歌唱音声データが裏声を示すデータであるか否かを判定する。このように、チルトに加えて倍音比率も裏声判定のための音質パラメータとして用いることにより、第１実施形態にて説明した効果に加えて、さらに裏声判定の精度が向上する。

（第３実施形態）
第２実施形態における音質判定機能１００ａでは、音質パラメータとしてチルト及び倍音比率の両方を用いた例を示したが、図８を用いて説明したように、倍音比率とピッチの関係から簡易的に裏声であるか否かを判定することも可能である。

本発明の第３実施形態における音質判定機能１００ｂは、音質パラメータとして、第２実施形態で説明した倍音比率に基づいて裏声判定を行うものである。なお、本実施形態では、第１実施形態及び第２実施形態における音質判定機能１００、１００ａとの構成上の差異に注目して説明を行い、同じ部分については同じ符号を付して説明を省略する。

図９は、本発明の第３実施形態における音質判定機能１００ｂの構成を示すブロック図である。音質判定機能１００ｂは、伴奏出力部１０１、入力音取得部１０３、周波数分布算出部１０５、倍音比率算出部２０１、閾値Ｈｔｈ導出部２０３、比較部１１１ｂ、および判定部１１３ｂを含む。

第２実施形態にて説明したように、倍音比率算出部２０１は、周波数分布算出部１０５から取得した基音の周波数の強度と倍音の周波数の強度とを用いて倍音比率を算出する。また、閾値Ｈｔｈ導出部２０３は、倍音比率に関連した閾値（Ｈｔｈ）を導出する。

比較部１１１ｂは、倍音比率算出部２０１で取得された倍音比率と閾値Ｈｔｈ導出部２０３で取得された閾値（Ｈｔｈ）とを比較し、倍音比率と閾値（Ｈｔｈ）との間の大小関係を示す信号を判定部１１３ｂに対して出力する。

判定部１１３ｂは、比較部１１１ｂから取得した倍音比率と閾値（Ｈｔｈ）との間の大小関係を示す信号に基づいて、入力音取得部１０３で取得された歌唱音声データが裏声を示すものであるか否かを判定する。具体的には、あるフレームにおける倍音比率が、閾値（Ｈｔｈ）以下である場合に、そのフレームの歌唱音声は、裏声であると判定される。

図１０は、判定部１１３ｂにおける裏声判定の概念を説明するための図である。図１０において、横軸はピッチ（Ｐ）であり、縦軸は倍音比率（Ｈ）である。図１０には、第２実施形態にて説明した閾値（Ｈｔｈ）を導出するための所定の演算式として、関数Ｆｈ（Ｐ）が示されている。この例では、あるフレームにおけるピッチ（Ｐ）が決まると、そのピッチに対応した閾値（Ｈｔｈ）が関数Ｆｈ（Ｐ）から求まる。判定部１１３ｂでは、倍音比率算出部２０１で算出された倍音比率と、閾値Ｈｔｈ導出部２０３で関数Ｆｈ（Ｐ）から求められた閾値（Ｈｔｈ）とを比較した結果に基づいて、倍音比率が閾値以下であれば、そのフレームの歌唱音声は裏声であると判定する。

図１０において、あるフレーム１では、ピッチがＰ１、倍音比率がＨ１となり、倍音比率が閾値（Ｆｈ（Ｐ１））未満であったとする。この場合、判定部１１３ｂは、フレーム１の歌唱音声は、裏声であると判定する。他方、同じピッチＰ１であっても、倍音比率が閾値以上のＨ２となった場合には、フレーム１の歌唱音声は表声であると判定される。さらに、たとえ倍音比率がＨ１であっても、ピッチがＰ１より低いＰ２となったことにより、倍音比率が閾値（Ｆｈ（Ｐ２））を超えれば、その歌唱音声は表声であると判定される。なお、ここではフレーム単位で裏声であるか否か判定する例を示したが、所定数以上のフレームが連続して上記条件を満たすときに裏声と判定されるように構成してもよい。

以上のように、第３実施形態における音質判定機能１００ｂは、音質パラメータとして倍音比率を算出し、倍音比率とそれに関連した所定の閾値とを比較する。そして、その比較結果に基づいて、入力した歌唱音声データが裏声を示すデータであるか否かを判定する。このように、本実施形態における音質判定機能１００ｂによれば、周波数解析から判定までの一連の処理が所定のフレームごとに少ない演算量で実行することが可能である。そのため、歌唱音声データの蓄積や機械学習が不要であり、演算量を抑えつつ、リアルタイムに裏声を判定することが可能である。

（変形例）
以上の各実施形態は、必要に応じて適宜変形が可能である。変形例の一例を以下に示す。これらの変形例は、組み合わせて実施されてもよい。
（変形例１）
第１実施形態における音質判定機能１００では、周波数分布算出部１０５から取得したデータに基づいて、閾値Ｔｔｈ導出部１０９がチルトに関連した閾値（Ｔｔｈ）を導出し、該閾値とチルトとを比較する例を示した。しかし、裏声になるとチルトが急峻なものとなるという傾向は、あまり大きく人に依存しない場合がある。そのため、簡易的には、閾値を一定値とみなして裏声判定を行うことも可能である。

図１１は、変形例１における音質判定機能１００ｃの構成を示すブロック図である。音質判定機能１００ｃは、第１実施形態における音質判定機能１００の閾値Ｔｔｈ導出部１０９が省略され、比較部１１１ｃが固定値としての閾値Ｔｔｈを有する。したがって、音質判定機能１００ｃでは、チルト算出部１０７で取得されたチルトが比較部１１１ｃに入力されると、固定値である閾値Ｔｔｈとの間で大小関係を比較される。このとき、閾値Ｔｔｈは、様々な歌唱音声を統計処理するなどして予め求めておけばよい。

これにより、閾値（Ｔｔｈ）を導出する処理を省略することができ、裏声判定の処理全体の負荷を軽減できるとともに、より迅速に裏声判定を行うことが可能となる。

なお、ここでは、第１実施形態における音質判定機能１００を例に挙げて、チルトに関連した閾値（Ｔｔｈ）を固定値として閾値Ｔｔｈ導出部を省略する例を示した。しかし、これに限らず、第２実施形態における音質判定機能１００ａや第３実施形態における音質判定機能１００ｂの倍音比率に関連した閾値（Ｈｔｈ）についても固定値として閾値Ｈｔｈ導出部２０３を省略することが可能である。この場合においても、比較部１１１ａや１１１ｂに閾値Ｈｔｈをもたせておけばよい。

さらに、第２実施形態の音質判定機能１００ｂにおいては、閾値Ｔｔｈ導出部１０９及び閾値Ｈｔｈ導出部２０３の両方を省略することも可能である。この場合、比較部１１１ａに閾値Ｔｔｈ及び閾値Ｈｔｈをもたせておけばよい。

（変形例２）
上述した各実施形態では、チルトに関連した閾値（Ｔｔｈ）または倍音比率に関連した閾値（Ｈｔｈ）を予め求めておく例を示したが、これらの閾値を導出するための演算式（関数を含む）のパラメータを適宜変更可能としてもよい。例えば、歌唱者が男性であるか女性であるか等の性別、または、大人であるか子どもであるか等の年齢に応じてパラメータを変更し、閾値を導出するための演算式（例えば係数）を変更することができる。このような演算式の設定パラメータの変更は、自動的に行われてもよいし、手動で行われてもよい。手動で行う場合、例えば、図１に示した音質判定装置１０において、操作部１５を操作することにより、演算式のパラメータを変更すればよい。

図１２は、変形例２における音質判定機能１００ｄの構成を示すブロック図である。音質判定機能１００ｄは、第１実施形態における音質判定機能１００における閾値Ｔｔｈ導出部１０９において、関数Ｆｔ（ｆ０）の設定パラメータを変更可能としたものである。図１２に示すように、音質判定機能１００ｄの閾値Ｔｔｈ導出部１０９ａには、パラメータ変更部２０５からのデータが入力されている。

パラメータ変更部２０５は、閾値Ｔｔｈを導出するための演算式における定数（設定パラメータ）を変更するためのデータを閾値Ｔｔｈ導出部１０９ａに対して出力する。例えば、パラメータ変更部２０５は、歌唱者が男性である場合と女性である場合とで異なるデータを出力し、前述の演算式の定数を変更することにより、閾値Ｔｔｈ導出部１０９ａで用いられる演算式を男性用の演算式に変更したり女性用の演算式に変更したりすることができる。

このようなパラメータ変更部２０５を設けることにより、男性の裏声と女性の裏声の音質的な差異を判定部１１３による裏声判定に反映させることが可能となり、より精度の高い裏声判定が可能となる。なお、ここでは第１実施形態の変形を例に挙げたが、第２実施形態または第３実施形態の音質判定機能に適用できることは勿論である。

（変形例３）
変形例２で説明したパラメータ変更部は、さらに伴奏音に関連づけられた情報に基づいてパラメータを変更するように構成することも可能である。例えば、パラメータ変更部は、伴奏音に関連づけられた、男性パートを示す情報、女性パートを示す情報、子ども用の伴奏音である旨を示す情報等に基づいてパラメータを変更することが可能である。

図１３は、変形例３における音質判定機能１００ｅの構成を示すブロック図である。音質判定機能１００ｅは、パラメータ変更部２０５ａに対し、伴奏音を選択する選択部２０７が接続されている。歌唱者が所望の歌唱曲を指定すると、歌唱曲に対応する伴奏データが選択部２０７により選択される。選択部２０７による伴奏データの選択を指示する信号は、伴奏出力部１０１に入力され、伴奏データが再生される。また、選択部２０７からは伴奏音に関連づけられた情報がパラメータ変更部２０５ａに入力される。

伴奏音に関連づけられた情報は、伴奏データに付随するデータであってもよいし、伴奏データに関連づけて記憶された別のデータであってもよい。伴奏音に関連づけられた情報として、例えば男性パートを示す情報がパラメータ変更部２０５ａに入力されると、閾値Ｔｔｈ導出部１０９ａの演算式を男性歌唱者用の演算式に変更するべく、パラメータ変更部２０５ａから男性歌唱者用演算式に対応するデータが出力される。

同様に、選択部２０７から女性パートを示す情報が出力された場合には、パラメータ変更部２０５ａから演算式を女性歌唱者用演算式に設定するためのデータが出力され、子ども用の伴奏音である旨を示す情報が出力された場合には、パラメータ変更部２０５ａから演算式を子ども用演算式に設定するためのデータが出力される。その他、伴奏音に関連づけてファルセットが多用される旨の情報を用意しておけば、裏声判定の精度を上げるように演算式のパラメータを変更することも可能である。

このような選択部２０７及びパラメータ変更部２０５ａを設けることにより、伴奏音に合わせて、閾値Ｔｔｈ導出部１０９ａにおける演算式のきめ細やかなパラメータ設定が可能となり、より精度の高い裏声判定が可能となる。なお、ここでは第１実施形態の変形を例に挙げたが、第２実施形態または第３実施形態の音質判定機能に適用できることは勿論である。

（変形例４）
上述した各実施形態では、音質判定装置として、歌唱者による歌唱音声から裏声を判定する例を示したが、裏声に限るものではなく、チルトや倍音比率を用いて他の音質を判定することも可能である。例えば、チルトが小さく倍音比率が高めに現れるような歌唱音声である場合に、明るい音質であると判定するなど、チルトまたは倍音比率の音質に依存した傾向を把握することにより、様々な音質を判定することも可能である。

（変形例５）
上述した各実施形態では、人の歌唱音声の音質（声質）を判定する例を示したが、楽器から発せられた音または合成歌唱音（歌詞を構成する文字に応じた音声素片を組み合わせつつ、指定された音高になるように波形を合成することによって生成された歌唱音）の音質を判定することも可能である。楽器からの発音であっても、人の発声と同様に、周波数分布図において、高調波になるにしたがって、急峻に強度が低くなり、周波数に対する倍音の強度の変化を示すチルト（傾き）が急峻なものとなる場合がある。このような場合に、その楽器からの発音が裏声に相当する音質であると判定することができる。このような音質の発音は、基本的にサイン波に近い音となる。

本発明の実施形態として説明した構成を基にして、当業者が適宜構成要素の追加、削除もしくは設計変更を行ったもの、又は、工程の追加、省略もしくは条件変更を行ったものも、本発明の要旨を備えている限り、本発明の範囲に含まれる。

また、上述した実施形態の態様によりもたらされる作用効果とは異なる他の作用効果であっても、本明細書の記載から明らかなもの、又は、当業者において容易に予測し得るものについては、当然に本発明によりもたらされると解される。

１０…音質判定装置、１１…制御部、１３…記憶部、１３ａ…制御プログラム、１３ｂ…楽曲データ、１３ｃ…歌唱音声データ、１５…操作部、１７…表示部、１９…通信部、２１…信号処理部、２３…音入力部、２５…音出力部、１００…音質判定機能、１０１…伴奏出力部、１０３…入力音取得部、１０５…周波数分布算出部、１０７…チルト算出部、１０９…閾値Ｔｔｈ導出部、１１１…比較部、１１３…判定部

Claims

入力音を取得する取得部と、
前記取得部によって取得された前記入力音の周波数分布を算出する周波数分布算出部と、
前記周波数分布算出部によって算出された前記周波数分布に基づいて、周波数に対する倍音の強度の変化を示すチルトを算出するチルト算出部と、
前記チルト算出部によって算出されたチルトと、当該チルトに関連した閾値とを比較するチルト比較部と、
前記チルト比較部によって比較された結果に基づいて、前記入力音が所定の音質であるか否かを判定する判定部と、
を備えることを特徴とする音質判定装置。
さらに、前記周波数分布算出部によって算出された前記周波数分布に基づいて、基音の周波数に対する倍音の周波数の比率を示す倍音比率を算出する倍音比率算出部と、
前記倍音比率算出部によって算出された倍音比率と、当該倍音比率に関連した閾値とを比較する倍音比率比較部と、
を備え、
前記判定部は、チルト比較部によって比較された結果及び前記倍音比率比較部によって比較された結果に基づいて、前記入力音が所定の音質であるか否かを判定することを特徴とする請求項１に記載の音質判定装置。
前記チルト算出部は、前記周波数分布から複数の倍音にそれぞれ対応する複数の強度を求め、前記複数の強度を用いた直線近似により得た一次関数の傾きを前記チルトとして算出することを特徴とする請求項１に記載の音質判定装置。
前記チルトに関連した閾値として、前記周波数分布における基音の周波数を用いて導出された値を用いることを特徴とする請求項１乃至３のいずれか１項に記載の音質判定装置。
前記倍音比率に関連した閾値として、前記周波数分布における基音の周波数を用いて導出された値を用いることを特徴とする請求項２に記載の音質判定装置。
入力音を取得する取得部と、
前記入力音取得部によって取得された前記入力音の周波数分布を算出する周波数分布算出部と、
前記周波数分布算出部によって算出された前記周波数分布に基づいて、基音に対する倍音の比率を示す倍音比率を算出する倍音比率算出部と、
前記倍音比率算出部によって算出された倍音比率と、当該倍音比率に関連した閾値とを比較する倍音比率比較部と、
前記倍音比率比較部によって比較された結果に基づいて、前記入力音が所定の音質であるか否かを判定する判定部と、
を備え、
前記閾値は、所定の演算式により導出され、
前記演算式のパラメータを変更可能なパラメータ変更部をさらに備えることを特徴とする音質判定装置。
前記倍音比率に関連した閾値として、前記周波数分布における基音の周波数を用いて導出された値を用いることを特徴とする請求項６に記載の音質判定装置。
前記閾値は、所定の演算式により導出され、
前記演算式のパラメータを変更可能なパラメータ変更部をさらに備えることを特徴とする請求項１乃至５のいずれか１項に記載の音質判定装置。
前記入力音の入力期間において出力される伴奏音を選択する選択部をさらに備え、
前記パラメータ変更部は、選択された前記伴奏音に関連付けられた情報に基づいて前記パラメータを変更することを特徴とする請求項８に記載の音質判定装置。
コンピュータに、
入力音を取得し、
取得された前記入力音の周波数分布を算出し、
算出された前記周波数分布に基づいて、周波数に対する倍音の強度の変化を示すチルトを算出し、
算出されたチルトと、当該チルトに関連した閾値とを比較し、
比較された結果に基づいて、前記入力音が所定の音質であるか否かを判定することを実行させるためのプログラム。
コンピュータに、
入力音を取得し、
取得された前記入力音の周波数分布を算出し、
算出された前記周波数分布に基づいて、基音に対する倍音の比率を示す倍音比率を算出し、
算出された倍音比率と、当該倍音比率に関連した所定の演算式により導出される閾値とを比較し、
比較された結果に基づいて、前記入力音が所定の音質であるか否かを判定し、
前記演算式のパラメータを変更することを実行させるためのプログラム。