JP6690181B2

JP6690181B2 - 楽音評価装置及び評価基準生成装置

Info

Publication number: JP6690181B2
Application number: JP2015208173A
Authority: JP
Inventors: 隆一成山; 松本　秀一; 秀一松本
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2015-10-22
Filing date: 2015-10-22
Publication date: 2020-04-28
Anticipated expiration: 2035-10-22
Also published as: US20180240448A1; JP2017083484A; US10453435B2; WO2017068990A1

Description

本発明は、楽音（楽器の演奏音、人の歌唱音その他の音楽の音）を評価する技術に関する。

カラオケ装置には、歌唱音声を解析して評価する機能が備えられていることが多い。歌唱の評価には様々な方法が用いられる。その方法の一つとして、例えば、特許文献１には、歌唱者の音声から取得したレベルデータと、オリジナルの楽曲データの中に含まれる基準歌唱音のＭＩＤＩメッセージを構成するレベルデータとを比較し、その差に応じて歌唱を評価する技術が開示されている。

特開平１０−４９１８３号公報

特許文献１に記載された技術では、歌唱評価のリファレンスとして、基準歌唱音のＭＩＤＩメッセージを予め楽曲データの中に含めておく必要がある。逆に言えば、そのような基準歌唱音を含まない楽曲データを用いた場合、歌唱評価を行うことができず、その点において改善の余地があった。

本発明の課題の一つは、リファレンスを含まない楽曲データを用いた楽音の評価を可能とするための技術を提供することにある。

本発明の一実施形態による楽音評価装置は、入力された楽音を取得する楽音取得部と、前記楽音から特徴量を算出する特徴量算出部と、事前に取得された複数の楽音についての特徴量の分布を示す特徴量分布データを取得する特徴量分布データ取得部と、前記特徴量算出部が算出した特徴量と前記特徴量分布データ取得部が取得した前記特徴量分布データとに基づいて、前記入力された楽音に対する評価値を算出する評価値算出部と、前記評価値に基づいて前記楽音を評価する評価部と、を備える。

前記評価値算出部は、前記特徴量の分布の散布度に応じて前記評価値に対する重みづけを行うようにしてもよい。散布度としては、分散または標準偏差を用いることができる。

上述の楽音評価装置は、前記入力された楽音におけるキーシフトの量を判定するキーシフト判定部と、前記キーシフト判定部により判定されたキーシフトの量を用いて、前記特徴量算出部が算出した前記特徴量に対して補正を行うキーシフト補正部と、を備えていてもよい。

上述の楽音評価装置は、前記入力された楽音における区間ごとの特徴を示す情報を含む区間情報を取得する区間情報取得部を備え、前記評価部は、前記区間情報に基づいて前記評価値に対する重みづけを行うようにしてもよい。

また、本発明の一実施形態による評価基準生成装置は、楽音を示す情報を取得する楽音情報取得部と、ｎ個の楽音について特徴量の時間的変化を示す特徴量データを取得する特徴量データ取得部と、前記楽音を示す情報から取得した該楽音の特徴量データと前記ｎ個の楽音の各特徴量データとを用いた統計処理を行い、（ｎ＋１）個の楽音における特徴量の分布を示す特徴量分布データを生成する特徴量分布データ生成部と、を備える。

上述の評価基準生成装置は、前記楽音に関する楽曲を識別する識別子と前記特徴量分布データとを対応付けて外部に出力する出力部を備えてもよい。このとき、前記楽曲を識別する識別子は、前記楽音情報取得部によって楽音を示す情報とともに取得されてもよい。

第１実施形態のデータ処理システムの構成を示すブロック図である。第１実施形態の楽音評価装置の構成を示すブロック図である。第１実施形態の楽音評価機能の構成を示すブロック図である。第１実施形態の評価基準生成機能の構成を示すブロック図である。特徴量データを用いて過去の歌唱音声における代表的なピッチ波形データを抽出する概念図である。評価対象のピッチ波形データと評価基準のピッチ波形データとを比較した場合の一例を示す図である。各評価ポイントにおけるピッチの分布状態と、評価対象のピッチと評価基準のピッチとのずれ量を説明するための図である。第２実施形態の楽音評価機能の構成を示すブロック図である。第３実施形態の楽音評価機能の構成を示すブロック図である。特徴量分布データにおける所定の評価ポイントのピッチのヒストグラムを示す図である。

以下、本発明の一実施形態における評価装置について、図面を参照しながら詳細に説明する。以下に示す実施形態は、本発明の実施形態の一例であって、本発明はこれらの実施形態に限定されるものではない。なお、本実施形態で参照する図面において、同一部分または同様な機能を有する部分には同一の符号または類似の符号（数字の後にＡ、Ｂ等を付しただけの符号）を付し、その繰り返しの説明は省略する場合がある。

（第１実施形態）
［データ処理システムの構成］
図１は、本発明の第１実施形態におけるデータ処理システムの構成を示すブロック図である。データ処理システム１０００は、評価装置１０、データ処理装置２０、およびデータベース３０を備える。これらの各構成は、インターネット等のネットワーク４０を介して接続されている。この例では、複数の評価装置１０がネットワーク４０に接続されている。評価装置１０は、例えば、カラオケ装置であり、この例では歌唱評価が可能なカラオケ装置である。なお、評価装置１０は、スマートフォン等の端末装置であってもよい。

本実施形態では、これらの評価装置１０において歌唱音声が入力され、データ処理装置２０において歌唱音声の特徴量の分布を求める統計処理がなされる。また、歌唱音声データから時系列に求めた特徴量を示すデータ（特徴量データ３０ａ）と、複数の特徴量データに対して統計処理を行うことにより得られた、所定タイミングごとの特徴量の分布を示すデータ（特徴量分布データ３０ｂ）とがデータベース３０に登録される。

本実施形態では、歌唱音声の特徴量として、歌唱音声のピッチ（基本周波数）を用い、特徴量データとして、歌唱音声データから算出されたピッチの時間的な変化を示すデータ（以下「ピッチ波形データ」という）を用いる。また、特徴量分布データとして、複数のピッチ波形データの統計処理により求めた、所定タイミングごとのピッチの度数分布を示すデータを用いる。このとき、特徴量データは、評価装置１０において算出されたものであってもよいし、データ処理装置２０において算出されたものであってもよい。

以上のように、データベース３０には、各評価装置１０またはデータ処理装置２０において歌唱音声から生成された特徴量データ３０ａが、楽音ごとに関連付けられて登録され、複数の特徴量データ３０ａから生成された特徴量分布データ３０ｂが楽曲ごと（例えば歌唱音声に関連する楽曲を識別する識別子ごと）に関連付けられて登録されている。

なお、図１では、データ処理装置２０とデータベース３０とがネットワーク４０を介して接続される構成を示しているが、これに限らず、データベース３０がデータ処理装置２０に対して物理的に接続された構成としてもよい。また、データベース３０には、特徴量データだけでなく、その元となった歌唱音声データも登録してあってもよい。

［データ処理装置の構成］
図１に示すように、データ処理装置２０は、制御部２１、記憶部２３、および通信部２５を含む。制御部２１は、ＣＰＵなどの演算処理回路を含む。制御部２１は、記憶部２３に記憶された制御プログラム２３ａをＣＰＵにより実行して、各種機能をデータ処理装置２０において実現する。実現される機能には、歌唱音声の特徴量に対して統計処理を行い、歌唱音声の評価基準となる特徴量分布データを生成する機能（評価基準生成機能）が含まれる。評価基準生成機能については後述する。

記憶部２３は、不揮発性メモリ、ハードディスク等の記憶装置である。記憶部２３は、評価基準生成機能を実現するための制御プログラム２３ａを記憶する。制御プログラム２３ａは、コンピュータにより実行可能であればよく、磁気記録媒体、光記録媒体、光磁気記録媒体、半導体メモリなどのコンピュータ読み取り可能な記録媒体に記憶した状態で提供されてもよい。この場合には、データ処理装置２０は、記録媒体を読み取る装置を備えていればよい。また、制御プログラム２３ａは、ネットワーク４０を経由して外部サーバ等からダウンロードされてもよい。通信部２５は、制御部２１の制御に基づいて、ネットワーク４０に接続して、ネットワーク４０に接続された外部装置と情報の送受信を行う。

［評価装置の構成］
本発明の第１実施形態における評価装置１０について説明する。図２は、本発明の第１実施形態における評価装置１０の構成を示すブロック図である。評価装置１０は、例えば、歌唱採点機能を備えたカラオケ装置である。評価装置１０は、制御部１１、記憶部１３、操作部１５、表示部１７、通信部１９、および信号処理部２１を含む。また、信号処理部２１には、楽音入力部（例えばマイクロフォン）２３及び楽音出力部（例えばスピーカー）２５が接続されている。これらの各構成は、バス２７を介して相互に接続されている。

制御部１１は、ＣＰＵなどの演算処理回路を含む。制御部１１は、記憶部１３に記憶された制御プログラム１３ａをＣＰＵにより実行して、各種機能を評価装置１０において実現させる。実現される機能には、歌唱音声の評価機能が含まれる。本実施形態では、歌唱音声の評価機能の具体例として、カラオケにおける歌唱の採点機能を例示する。

記憶部１３は、不揮発性メモリ、ハードディスク等の記憶装置である。記憶部１３は、評価機能を実現するための制御プログラム１３ａを記憶する。制御プログラムは、磁気記録媒体、光記録媒体、光磁気記録媒体、半導体メモリなどのコンピュータ読み取り可能な記録媒体に記憶した状態で提供されてもよい。この場合には、評価装置１０は、記録媒体を読み取る装置を備えていればよい。また、制御プログラム１３ａは、インターネット等のネットワーク経由でダウンロードされてもよい。

また、記憶部１３は、歌唱に関するデータとして、楽曲データ１３ｂ、歌唱音声データ１３ｃ、及び分布データ１３ｄを記憶する。楽曲データ１３ｂは、カラオケの歌唱曲に関連するデータ、例えば、伴奏データ、歌詞データなどが含まれている。伴奏データは、歌唱曲の伴奏を示すデータである。伴奏データは、ＭＩＤＩ形式で表現されたデータであってもよい。歌詞データは、歌唱曲の歌詞を表示させるためのデータ、及び表示させた歌詞テロップを色替えするタイミングを示すデータである。なお、楽曲データ１３ｂは、歌唱曲のメロディを示すガイドメロディデータを含んでいてもよい。本実施形態では、ガイドメロディデータが無くても歌唱評価が可能であるが、有っても何ら差し支えない。

歌唱音声データ１３ｃは、歌唱者が楽音入力部２３から入力した歌唱音声を示すデータである。つまり、記憶部１３は、歌唱音声データのバッファとして機能する。本実施形態では、歌唱音声データ１３ｃは、評価機能によって歌唱音声の評価がなされるまで記憶部１３に記憶される。また、歌唱音声の評価が終了した後は、歌唱音声データ１３ｃをデータ処理装置２０またはデータベース３０に送信するようにしてもよい。

特徴量分布データ１３ｄは、複数の歌唱音声のピッチ波形データについての統計処理の結果を示すデータである。例えば、特徴量分布データ１３ｄとしては、過去に歌唱された複数の歌唱音声について、それぞれのピッチ波形データを用いて統計処理を行い、その結果得られた各タイミングにおけるピッチの度数分布を示すデータを用いることができる。また、特徴量分布データ１３ｄには、度数分布から算出することが可能な各種統計値を含めることができ、例えば散布度（標準偏差、分散）や代表値（最頻値、中央値、平均値）などを含めることができる。この特徴量分布データ１３ｄが、歌唱音声の評価における評価基準となる。

操作部１５は、操作パネルおよびリモコンなどに設けられた操作ボタン、キーボード、マウスなどの装置であり、入力された操作に応じた信号を制御部１１に出力する。表示部１７は、液晶ディスプレイ、有機ＥＬディスプレイ等の表示装置であり、制御部１１による制御に基づいた画面が表示される。なお、操作部１５と表示部１７とは一体としてタッチパネルを構成してもよい。通信部１９は、制御部１１の制御に基づいて、インターネットやＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）などの通信回線と接続して、サーバ等の外部装置と情報の送受信を行う。なお、記憶部１３の機能は、通信部１９において通信可能な外部装置で実現されてもよい。

信号処理部２１は、ＭＩＤＩ形式の信号からオーディオ信号を生成する音源、Ａ／Ｄコンバータ、Ｄ／Ａコンバータ等を含む。歌唱音声は、マイクロフォン等の楽音入力部２３において電気信号に変換されて信号処理部２１に入力され、信号処理部２１においてＡ／Ｄ変換されて制御部１１に出力される。上述したように、歌唱音声は、歌唱音声データとして記憶部１３に記憶される。また、伴奏データは、制御部１１によって読み出され、信号処理部２１においてＤ／Ａ変換され、スピーカー等の楽音出力部２５から歌唱曲の伴奏音として出力される。このとき、ガイドメロディも楽音出力部２５から出力されるようにしてもよい。

［楽音評価機能］
評価装置１０の制御部１１が記憶部１３に記憶された制御プログラム１３ａを実行することによって実現される楽音評価機能について説明する。なお、以下に説明する楽音評価機能を実現する構成の一部または全部は、ハードウエアによって実現されてもよい。また、以下に説明する楽音評価機能は、楽音評価方法または楽音評価プログラムとしても把握することができる。つまり、楽音評価機能を構成する各要素において実行される処理（または当該処理を実行する命令）を、それぞれ楽音評価方法（または楽音評価プログラム）の構成として把握してもよい。

図３は、本発明の第１実施形態における楽音評価機能１００の構成を示すブロック図である。楽音評価機能１００は、楽音取得部１０１、特徴量算出部１０３、特徴量分布データ取得部１０５、評価値算出部１０７、及び評価部１０９を含む。

楽音取得部１０１は、入力された歌唱音声を示す歌唱音声データを取得する。この例では、伴奏音が出力されている期間における楽音入力部２３への入力音を、評価対象の歌唱音声として認識する。なお、本実施形態では、楽音取得部１０１は、記憶部１３に記憶された歌唱音声データ１３ｃを取得するが、信号処理部２１から直接取得するように構成してもよい。また、楽音取得部１０１は、楽音入力部２３への入力音を示す歌唱音声データを取得する場合に限らず、外部装置への入力音を示す歌唱音声データを、通信部１９によりネットワーク経由で取得してもよい。

特徴量算出部１０３は、楽音取得部１０１によって取得された歌唱音声データに対して、例えばフーリエ解析を行い、歌唱音声の特徴量としてピッチを時系列に算出する。ピッチの算出は、時間的に連続して行われてもよいし、所定の間隔を空けて行われてもよい。また、本実施形態では、フーリエ解析を用いる例を示したが、歌唱音声の波形のゼロクロスを用いた方法など、その他の公知の方法を用いてもよい。

なお、特徴量算出部１０３で時系列に算出された特徴量は、いったん記憶部１３に記憶された後、楽曲を識別する識別子と共にネットワーク４０を介してデータベース３０に送信され、特徴量データ３０ａとして登録される。勿論、特徴量のデータベース３０への送信は、データ処理装置２０を経由して行われてもよい。また、このとき、特徴量算出部１０３は、記憶部１３に記憶された楽曲データ１３ｂから楽曲を識別する識別子を取得してもよい。

特徴量分布データ取得部１０５は、記憶部１３に記憶された特徴量分布データ１３ｄを取得する。本実施形態では、データベース３０からネットワーク４０を介してダウンロードされた特徴量分布データを通信部１９で受信し、それを一旦記憶部１３に記憶しておく例を示す。しかし、これに限らず、ダウンロードした特徴量分布データをそのまま取得することも可能である。

なお、特徴量分布データは、入力された楽音に関連付けられたものを取得する。すなわち、楽音取得部１０１で取得された歌唱音声に関連した楽曲に関連付けられた特徴量分布データを取得する。この関連付けは、例えば楽曲を識別する識別子を用いて行うことができる。この場合、楽曲を識別する識別子は、楽音取得部１０１において取得すればよい。

評価値算出部１０７は、特徴量算出部１０３から出力された評価対象となる歌唱音声のピッチと、特徴量分布データ取得部１０５で取得された特徴量分布データとに基づいて歌唱評価（採点）の基礎となる評価値を算出する。例えば、評価値算出部１０７では、評価対象となるタイミング（以下「評価ポイント」という）における歌唱音声のピッチと、同一タイミングにおける過去の複数の歌唱音声のピッチの分布との関係に基づいて、当該分布から評価対象のピッチがどの程度乖離しているかを求める。そして、その乖離の度合いが大きいほど評価値を低くする算出するなどして、評価ポイントごとに歌唱音声の評価を行うことができる。

評価部１０９は、評価値算出部１０７から出力された評価値に応じて歌唱音声の評価を行う。評価の仕方は様々な方法を採用することができ、例えば評価値算出部１０７から出力された評価値をそのまま用いてもよいし、評価ポイントごとの重要性や難易度に応じて各評価値に対して重みづけを行って歌唱音声を評価してもよい。

以上のように、本実施形態における楽音評価機能１００は、過去から現在に至るまで蓄積された複数の歌唱音声をいわゆるビッグデータとして活用し、それら歌唱音声の特徴量の分布を示す情報を用いて各評価装置１０における歌唱評価を可能とする。なお、楽音評価機能１００は、単独のコンピュータで実現されてもよいし、複数のコンピュータの協働により実現されてもよい。例えば、楽音取得部１０１、特徴量算出部１０３、特徴量分布データ取得部１０５、評価値算出部１０７、及び評価部１０９の一部又は全部が異なるコンピュータで実現され、これらのコンピュータがネットワークを介した通信を行うことにより、楽音評価機能１００が実現されてもよい。

［評価基準生成機能］
データ処理装置２０の制御部２１が記憶部２３に記憶された制御プログラム２３ａを実行することによって実現される評価基準生成機能について説明する。なお、以下に説明する評価基準生成機能を実現する構成の一部または全部は、ハードウエアによって実現されてもよい。また、以下に説明する評価基準生成機能は、評価基準生成方法または評価基準生成プログラムとしても把握することができる。つまり、評価基準生成機能を構成する各要素において実行される処理（または当該処理を実行する命令）を、それぞれ評価基準生成方法（または評価基準生成プログラム）の構成として把握してもよい。

図４は、本発明の第１実施形態における評価基準生成機能２００の構成を示すブロック図である。評価基準生成機能２００は、楽音情報取得部２０１、特徴量データ取得部２０３、特徴量分布データ生成部２０５、及び出力部２０７を含む。なお、出力部２０７は、必要に応じて設ければよく、必須の構成ではないため点線で示してある。

楽音情報取得部２０１は、楽音を示す情報を取得する。本実施形態では、楽音を示す情報として、図１に示す各評価装置１０で取得された歌唱音声データを、ネットワーク４０を介して取得する。つまり、楽音情報取得部２０１には、ネットワーク４０を介して接続される複数の評価装置１０から、複数の歌唱音声データが収集される。なお、楽音を示す情報としては、歌唱音声データのような楽音データそのものだけでなく、楽音データから算出したピッチなどの特徴量を取得してもよい。

特徴量データ取得部２０３は、データベース３０から特徴量データ３０ａを取得する。前述のとおり、特徴量データとは、歌唱音声データから時系列に求めた特徴量の示すデータである。本実施形態の場合、データベース３０には、過去に各評価装置１０で歌唱された複数の歌唱音声についてのピッチ波形データが楽曲ごとに記憶されている。特徴量データ取得部２０３は、これらのピッチ波形データを取得することにより、過去に歌唱された複数の歌唱音声のピッチ波形データを取得することができる。

特徴量分布データ生成部２０５は、楽音情報取得部２０１から入力された歌唱音声データと、特徴量データ取得部２０３から入力された特徴量データとに基づいて、特徴量分布データを生成する。具体的には、楽音情報取得部２０１から入力された歌唱音声データを解析して算出したピッチ波形データと、特徴量データ取得部２０３から取得したピッチ波形データ（過去に蓄積されたピッチ波形データ）とを合わせ、統計処理を行うことにより、各タイミングにおけるピッチの度数分布を示すデータを生成する。

ピッチの度数分布は、例えばピッチの属するグリッドについて度数を求めればよい。グリッドの幅は、セント単位で任意に決めることができ、例えば、数セントごとや数十セントごとに設定することができる。このとき、グリッドの幅は、母集団の数に応じて決めることが好ましい。具体的には、母集団が大きければグリッド幅を狭く（度数分布の粒度を高く）し、母集団が少なければグリッド幅を広く（度数分布の粒度を低く）すればよい。

また、特徴量分布データ生成部２０５は、ピッチの度数分布だけでなく、その度数分布から算出される散布度（例えば標準偏差、分散）、代表値（例えば最頻値、中央値、平均値）といった統計値も特徴量分布データに含めることができる。

特徴量データ取得部２０３から取得したピッチ波形データには、過去に歌唱された複数の歌唱音声について、所定のタイミングごとのピッチが含まれる。つまり、所定のタイミングに着目した場合、過去の様々な歌唱に対応して複数のピッチが存在する。本実施形態では、それら過去の複数のピッチに対して楽音情報取得部２０１を介して取得した歌唱音声のピッチを追加し、統計処理の母集団を逐次更新することにより、所定のタイミングにおける度数分布を逐次更新することができる。

出力部２０７は、特徴量分布データ生成部２０５で生成された特徴量分布データを外部に出力する。例えば、出力部２０７は、生成した特徴量分布データを、図１に示すネットワーク４０を介してデータベース３０に出力することができる。勿論、これに限らず、ネットワーク４０に接続された他のいかなる装置に対しても出力することが可能である。

なお、楽音情報取得部２０１は、各評価装置１０から出力されたピッチ波形データに加えて、対応する楽曲を識別する識別子を取得してもよい。楽曲を識別する識別子を用いることにより、特徴量データ取得部２０３は、楽音情報取得部２０１で取得された歌唱音声データと同一楽曲についての特徴量データを取得することができる。

以上のように、本実施形態における評価基準生成機能２００は、過去に歌唱された歌唱音声をネットワーク４０上に接続された複数の評価装置１０から収集し、それらに基づいて、歌唱評価の基準となる歌唱音声の特徴量の分布を示す情報を生成することができる。これにより、リファレンスを含まない楽曲データを用いた歌唱または演奏においても評価をすることが可能となる。なお、評価基準生成機能２００は、単独のコンピュータで実現されてもよいし、複数のコンピュータの協働により実現されてもよい。例えば、楽音情報取得部２０１、特徴量データ取得部２０３、及び特徴量分布データ生成部２０５の一部又は全部が異なるコンピュータで実現され、これらのコンピュータがネットワークを介した通信を行うことにより、評価基準生成機能２００が実現されてもよい。

［歌唱評価の一例］
歌唱評価の一例について図５〜７を用いて説明する。図５は、特徴量データを用いて過去の歌唱音声における代表的なピッチ波形データを抽出する概念図である。図５において、横軸は時間、縦軸はピッチである。時間軸上には、複数の評価ポイントＥＰ１、ＥＰ２、ＥＰ３及びＥＰ４が示されている。なお、評価ポイントは、歌唱評価を実行する所定のタイミングを特定する概念であり、所定の時刻であってもよいし、所定の期間であってもよい。

また、図５では、評価ポイントの一例として４点の評価ポイントを示しているが、評価ポイントをどこに設定するかは任意に決定することができる。また、楽曲全体における歌唱部分の重要度や難易度に応じて評価ポイントの粗密を調整してもよい。例えば、重要度や難易度の高い部分については評価ポイントの数を増やし、低い部分については評価ポイントの数を減らすなどしてもよい。

各評価ポイントの軸上には、過去の歌唱音声におけるピッチの分布を示すヒストグラムＰＨ１、ＰＨ２、ＰＨ３及びＰＨ４が示されている。つまり、各評価ポイントでは、過去の歌唱音声のピッチが、所定の幅をもって分布していることが分かる。これらは、歌唱音声の歌唱者による音声のばらつきに起因するものであり、この分布の尖度が大きいほど多くの歌唱者が同じように歌唱していることを示し、尖度が小さいほど歌唱者によって歌い方が異なることを意味している。換言すれば、その評価ポイントは、分布の尖度が大きいほど難易度が低く、尖度が小さいほど難易度が高いことを意味しているとも言える。

このとき、各ヒストグラムＰＨ１、ＰＨ２、ＰＨ３及びＰＨ４それぞれにおける最頻値であるピッチＰ１、Ｐ２、Ｐ３及びＰ４を繋いだピッチ波形データＰＳは、過去の歌唱音声におけるピッチの代表値を用いたピッチ波形データ（以下「基準ピッチ波形データ」という）となる。このような基準ピッチ波形データＰＳは、例えば図３に示した評価値算出部１０７で生成することが可能である。

図６は、評価対象のピッチ波形データと評価基準のピッチ波形データとを比較した場合の一例を示す図である。図６において、評価対象のピッチ波形データＰＥ（以下「評価ピッチ波形データＰＥ」という）は、図３に示した特徴量算出部１０３で算出された特徴量を時系列に並べた波形データである。図６に示すように、通常、評価ピッチ波形データＰＥと基準ピッチ波形データＰＳとの間には「ずれ」が生じる。このずれは、評価対象となっている歌唱者の音高と、過去の大多数の歌唱者による音高とがずれていることを意味する。

図６において、評価ポイントＥＰ２に着目すると、評価ピッチ波形データＰＥ上の点ＰｅにおけるピッチはＰｅ２であり、基準ピッチ波形データＰＳ上の点ＰｓにおけるピッチはＰｓ２である。すなわち、評価ポイントＥＰ２においては、評価ピッチ波形データＰＥと基準ピッチ波形データＰＳとの間に、｜Ｐｅ２−Ｐｓ２｜に相当するずれ量が発生していることが示されている。本実施形態では、このずれ量を、図３に示した評価値算出部１０７における評価値の算出に用いる。

図７は、各評価ポイントにおけるピッチの分布状態と、評価対象のピッチと評価基準のピッチとのずれ量を説明するための図である。図７（Ａ）は、評価ポイントＥＰ１におけるピッチの分布状態、図７（Ｂ）は、評価ポイントＥＰ２におけるピッチの分布状態、図７（Ｃ）は、評価ポイントＥＰ４におけるピッチの分布状態を示している。

図７（Ａ）において、評価ポイントＥＰ１におけるピッチの分布状態ＤＳ１は、ほぼ正規分布を示し、過去の歌唱音声のピッチに偏りが少ないことを示している。このとき、分布状態ＤＳ１におけるピークに対応するピッチＰｓ１と、評価対象の歌唱音声におけるピッチＰｅ１との間には、ずれ量Ｐｄ１（＝｜Ｐｅ１−Ｐｓ１｜）が存在する。

評価値算出部１０７では、ずれ量Ｐｄ１を用いて評価値を算出する。例えば、第１閾値及び第２閾値を設定し、ずれ量Ｐｄ１が第１閾値よりも小さい場合、第１閾値より大きく第２閾値より小さい場合、第２閾値より大きい場合というように場合分けを行って、どこに該当するかに応じて評価値を変えてもよい。また、ずれ量Ｐｄ１をそのまま評価値として用いることも可能である。また、上述した閾値を設定して評価値を求めるほかに、ずれ量Ｐｄ１がピッチの分布状態ＤＳ１の標準偏差の何倍であるかを求め、評価対象となる歌唱の代表値からのずれが、母集団の何パーセント以内に収まるかを評価してもよい。

図７（Ｂ）において、評価ポイントＥＰ２におけるピッチの分布状態ＤＳ２は、ややブロードな分布を示し、過去の歌唱音声にばらつきが多いことを示している。このとき、分布状態ＤＳ２におけるピークに対応するピッチＰｓ２と、評価対象の歌唱音声におけるピッチＰｅ２との間には、ずれ量Ｐｄ２（＝｜Ｐｅ２−Ｐｓ２｜）が存在する。このずれ量Ｐｄ２を用いて評価値算出部１０７は評価値を算出する。

図７（Ｃ）において、評価ポイントＥＰ４におけるピッチの分布状態ＤＳ４は、尖度の大きい分布（ピークの鋭い分布）を示し、過去の歌唱音声にばらつきが少ないことを示している。このとき、分布状態ＤＳ４におけるピークに対応するピッチＰｓ４と、評価対象の歌唱音声におけるピッチＰｅ４との間には、ずれがなく、完全に一致している。この場合、評価値算出部１０７における評価値の算出にあたっては、ずれ量ゼロとして扱えばよい。例えば、歌唱評価が減点方式であれば、評価値をゼロとして減点せず、加点方式であれば特定の加算点を加えて加点してもよい。

以上のように、評価値算出部１０７では、評価ポイントごとに、評価対象の歌唱音声におけるピッチと、過去の複数の歌唱音声におけるピッチの分布との関係を解析し、過去の複数の歌唱音声におけるピッチの分布から評価対象のピッチがどの程度乖離しているかに応じて評価値を決定することができる。そして、図３に示した評価部１０９において、評価値算出部１０７で算出された評価値を用いた評価が行われる。

なお、図７に示したピッチの分布状態は、その評価ポイントにおける歌唱の重要度や難易度を示しているとも言える。例えば、評価ポイントＥＰ２は、分布状態ＤＳ２がブロードであるため、歌唱者によって様々に音高が変化することが分かる。つまり、評価ポイントＥＰ２付近は、難易度が高くて音高がばらつくか、重要度が低くて音高がばらつくか（つまり、大多数が適当に歌っている状態）であると推測できる。そのため、評価部１０９において、評価ポイントＥＰ２の評価値に対する重みづけを低くする（評価ポイントＥＰ２の評価値を考慮しない場合も含む）といった評価が可能である。

逆に、評価ポイントＥＰ４は、分布状態ＤＳ４が急峻なピークを示すため、複数の歌唱者の音高に殆ど差がないことが分かる。つまり、評価ポイントＥＰ４付近は、難易度が低いか、重要度が高いか（つまり、大多数が慎重に歌っている状態）であると推測できる。そのため、評価部１０９において、評価ポイントＥＰ４の評価値に対する重みづけを高くするといった評価が可能である。

以上のように、評価部１０９は、歌唱音声の評価に際して、特徴量の分布の散布度（例えば標準偏差、分散）に応じて評価値算出部１０７で算出された評価値に対する重みづけを行うことができる。これにより、評価ポイントごとに重みづけを変え、過去の複数の歌唱音声の傾向に沿った適切な評価を行うことが可能となる。

（第２実施形態）
本発明の第２実施形態における楽音評価機能１００ａは、特徴量算出部１０３で算出した特徴量に対してキーシフト処理を行う点で第１実施形態における楽音評価機能１００とは異なる。なお、本実施形態では、第１実施形態における楽音評価機能１００との構成上の差異に注目して説明を行い、同じ部分については同じ符号を付して説明を省略する。

図８は、本発明の第２実施形態における楽音評価機能１００ａの構成を示すブロック図である。楽音評価機能１００ａは、評価装置１０の制御部１１が記憶部１３に記憶された制御プログラム１３ａを実行することによって実現される。楽音評価機能１００ａは、楽音取得部１０１、特徴量算出部１０３、特徴量分布データ取得部１０５、キーシフト判定部１１３、キーシフト補正部１１５、評価値算出部１０７、及び評価部１０９を含む。

ここで、キーシフト判定部１１３は、特徴量算出部１０３から入力されたピッチを解析して歌唱音声のキーシフトの量を判定する。本実施形態では、キーシフトの量は、記憶部１３に記憶された楽曲データ１３ｂからキーシフトの入力値（歌唱者が設定したキーのシフト量または楽曲に予め設定されたキーのシフト量）を取得することにより判定する。キーシフト判定部１１３は、キーシフトの入力値が無い場合には、歌唱音声に対してキーシフトは無いと判定し、キーシフトの入力値がある場合には、歌唱音声に対してキーシフトがあると判定してその入力値をキーシフトの量としてキーシフト補正部１１５に出力する。

キーシフト補正部１１５では、特徴量算出部１０３で算出されたピッチに対し、キーシフト判定部１１３から入力されたキーシフトの量に応じてキーシフトをキャンセルする補正を行う。これにより、歌唱者がどのようなキーで歌唱した場合においても、その影響を受けることなく歌唱評価を行うことが可能となる。

なお、本実施形態では、キーシフトの量を楽曲データ１３ｂから取得したキーシフトの入力値に基づいて判定する例を示したが、特徴量算出部１０３で算出したピッチに基づいて判定することも可能である。例えば、評価ピッチ波形データの平坦部におけるピッチと特徴量分布データから取得した基準ピッチ波形データの平坦部におけるピッチとの差分に基づいてキーシフトの量を判定してもよい。また、例えば、評価ピッチ波形データ全体における平均ピッチと特徴量分布データから取得した基準ピッチ波形データ全体における平均ピッチとの差分に基づいてキーシフトの量を判定してもよい。

（第３実施形態）
本発明の第３実施形態における楽音評価機能１００ｂは、評価部１０９における歌唱評価の際に、楽曲全体の区間情報を考慮した評価を行う点で第１実施形態における楽音評価機能１００とは異なる。なお、本実施形態では、第１実施形態における楽音評価機能１００との構成上の差異に注目して説明を行い、同じ部分については同じ符号を付して説明を省略する。

図９は、本発明の第３実施形態における楽音評価機能１００ｂの構成を示すブロック図である。楽音評価機能１００ｂは、評価装置１０の制御部１１が記憶部１３に記憶された制御プログラム１３ａを実行することによって実現される。楽音評価機能１００ｂは、楽音取得部１０１、特徴量算出部１０３、特徴量分布データ取得部１０５、評価値算出部１０７、区間情報取得部１１７、及び評価部１０９ａを含む。

ここで、区間情報とは、楽曲（伴奏曲とも言える）の区間ごとに付随する情報であり、例えばＡメロ、Ｂメロ、サビの区別といった曲構成その他の楽曲における区間の特徴を示す情報である。区間情報取得部１１７は、例えば記憶部１３に記憶された楽曲データ１３ｂから区間情報を取得することができる。ただし、これに限らず、ネットワーク４０を介してデータ処理装置２０から区間情報を取得してもよい。

評価部１０９ａは、区間情報取得部１１７で取得された区間情報を考慮して歌唱音声の評価を行う。例えば、評価部１０９ａは、区間情報に応じて評価値の重みづけを行い、区間ごとに評価の重要度を変更することができる。具体的には、区間情報がＡメロやＢメロである場合には評価値に対する重みづけを軽くして重要度を下げ、サビである場合には評価値に対する重みづけを重くして重要度を上げることができる。

また、区間情報が難易度を示す情報を有していれば、その難易度に応じて重みづけの強弱を調整することができる。例えば、楽曲全体の中でピッチの低い部分（低音部）の難易度が高く設定されていれば、その部分の評価の重みづけを低く設定すればよいし、ピッチの高い部分（高音部）の難易度が高く設定されていれば、その部分の評価の重みづけは高く設定すればよい。

本実施形態の構成によれば、評価ポイントごとのピッチの分布状態における散布度などを用いることなく、簡易な方法で評価値に対する重みづけを行うことができ、より柔軟性のある歌唱評価を高速に行うことができる。

（変形例１）
上述した実施形態１〜３では、歌唱音声の特徴量としてピッチ（基本周波数）を用いる例を示したが、特徴量として、音量、特定の周波数帯の強度（パワー値）、倍音比率その他の歌唱音声データから算出可能な特徴量を用いることも可能である。これら音量等は、ゲインの違いにより取得される値が異なるため、ゲインが既知であればその値を用いて予め補正することが望ましい。ゲインが不明である場合は、音量等について歌唱音声全体の平均値を算出し、その平均値を所定の値に合わせ込むように補正すればよい。なお、倍音比率に関しては、特開２０１２−１９４３８９号公報を参照すればよい。

また、他の方法として、隣接する評価ポイントの音量等との差分を求め、その差分を用いて度数分布を算出してもよい。これにより、音量等について相対的な分布傾向を算出することができるため、ゲインに依らず特徴量の分布を把握することができる。また、隣接する評価ポイントの音量の差分を求めた場合、その差分によって音量の立ち上がり箇所を判定することも可能である。そして、過去の複数の歌唱音声からそれぞれ音量の立ち上がりタイミングを収集することにより、音量の立ち上がり、すなわち歌唱のタイミングの分布を求めて歌唱評価に利用することも可能である。

（変形例２）
上述した実施形態１〜３では、評価値算出部１０７における評価値の算出に当たり、評価対象のピッチと評価基準のピッチとの間のずれ量を用いる例を示したが、評価基準のピッチの度数に対する評価対象のピッチの度数の割合を用いることも可能である。

図１０は、特徴量分布データにおける所定の評価ポイントのピッチのヒストグラムを示す図である。図１０に示すヒストグラムＤＳにおいて、最頻値に相当する度数ａを示す階級５１に対応するピッチＰｓが評価基準のピッチであり、度数ｂを示す階級５２に対応するピッチＰｅが評価対象のピッチである。なお、ここでは、階級５１におけるピッチ範囲の中央値をピッチＰｓとし、階級５２におけるピッチ範囲の中央値をピッチＰｅとしている。

このとき、評価値算出部１０７では、例えば、算出式ｂ／ａを計算することにより評価値を算出することができる。ただし、これに限らず、評価基準のピッチの度数に対する評価対象のピッチの度数の割合を求めることができれば、どのような算出式を用いてもよい。

また、ここでは特徴量としてピッチを例示したが、音量、特定の周波数帯の強度（パワー値）、倍音比率その他の歌唱音声データから算出可能な特徴量についても同様である。ただし、これら音量等については、変形例１で述べたように、ゲインの影響をキャンセルするために、隣接する評価ポイントの音量等との差分を求め、その差分を用いて度数分布を算出することが好ましい。

（変形例３）
上述した実施形態１〜３では、歌唱音声に歌唱技法（ビブラート、ファルセット、こぶしなど）が入れた場合について考慮していないが、別途歌唱技法を検出する手段を設け、歌唱技法を考慮して歌唱評価を行ってもよい。

例えば、過去の複数の歌唱音声における特徴量データごとに、公知の方法により歌唱技法の検出を行い、歌唱技法を入れた歌唱音声の割合に応じて、歌唱技法の評価の大小を決定してもよい。具体的には、歌唱技法を入れた歌唱音声の割合が多ければ歌唱技法を含めて特徴量分布データを生成し、割合が少なければ歌唱技法が入った部分の特徴量を考慮せずに特徴量分布データを生成してもよい。

これにより、歌唱技法を入れた場合に、他の大多数の歌唱者が歌唱技法を入れてないことに起因して評価が下がるといった不具合を改善することができる。

（変形例４）
上述した実施形態１〜３では、人の歌唱音声を評価する例を示したが、楽器から発せられた音または合成歌唱音（歌詞を構成する文字に応じた音声素片を組み合わせつつ、指定された音高になるように波形を合成することによって生成された歌唱音）の評価を行うことも可能である。
（変形例５）
上述した実施形態１〜３では、評価装置としてカラオケ装置を例に挙げて説明したが、その他の装置に応用することも可能である。例えば、合唱曲について複数の歌唱者が一斉に歌唱する場合における練習用教習装置として利用することも可能である。

具体的には、歌唱者全員の歌唱音声を独立に取得して、それぞれについて求めた特徴量データの統計処理を行い、特徴量分布データを生成する。その上で、この特徴量分布データと個々の歌唱音声から求めた特徴量とを用いて歌唱評価を行う。これにより、例えば特徴量分布データから求めた平均値からのずれ量が大きい歌唱者に対して適切に指導を行い、修正を試みることが可能となる。なお、ここでは合唱する場合を例に挙げて説明したが、複数の楽器の演奏による合奏についても同様である。すなわち、演奏者全員の演奏音を独立に取得して、それぞれについて求めた特徴量データの統計処理を行い、生成した特徴量分布データと個々の演奏音から求めた特徴量とを用いて演奏評価を行うことも可能である。

本発明の実施形態として説明した構成を基にして、当業者が適宜構成要素の追加、削除もしくは設計変更を行ったもの、又は、工程の追加、省略もしくは条件変更を行ったものも、本発明の要旨を備えている限り、本発明の範囲に含まれる。

また、上述した実施形態の態様によりもたらされる作用効果とは異なる他の作用効果であっても、本明細書の記載から明らかなもの、又は、当業者において容易に予測し得るものについては、当然に本発明によりもたらされると解される。

１０００…データ処理システム、１０…評価装置、１１…制御部、１３…記憶部、１３ａ…制御プログラム、１３ｂ…楽曲データ、１３ｃ…歌唱音声データ、１３ｄ…特徴量分布データ、１５…操作部、１７…表示部、１９…通信部、２１…信号処理部、２３…音入力部、２５…音出力部、２０…データ処理装置、２１…制御部、２３…記憶部、２３ａ…制御プログラム、２５…通信部、３０…データベース、３０ａ…特徴量データ、３０ｂ…特徴量分布データ、４０…ネットワーク、１００…楽音評価機能、１０１…楽音取得部、１０３…特徴量算出部、１０５…特徴量分布データ取得部、１０７…評価値算出部、１０９…評価部、２００…評価基準生成機能、２０１…楽音情報取得部、２０３…特徴量データ取得部、２０５…特徴量分布データ生成部、２０７…出力部

Claims

入力された楽音を取得する楽音取得部と、
前記楽音から特徴量を算出する特徴量算出部と、
複数の歌唱者からそれぞれ事前に取得された複数の楽音についての特徴量の分布を示す特徴量分布データを取得する特徴量分布データ取得部と、
前記特徴量算出部が算出した特徴量と前記特徴量分布データ取得部が取得した前記特徴量分布データとに基づいて、前記入力された楽音に対する評価値を算出する評価値算出部と、
前記評価値に基づいて前記楽音を評価する評価部と、
を備えることを特徴とする楽音評価装置。
前記評価部は、前記特徴量の分布の散布度に応じて前記評価値に対する重みづけを行うことを特徴とする請求項１に記載の楽音評価装置。
さらに、前記入力された楽音におけるキーシフトの量を判定するキーシフト判定部と、
前記キーシフト判定部により判定されたキーシフトの量を用いて、前記特徴量算出部が算出した前記特徴量に対して補正を行うキーシフト補正部と、
を備えることを特徴とする請求項１に記載の楽音評価装置。
さらに、前記入力された楽音における区間ごとの特徴を示す情報を含む区間情報を取得する区間情報取得部を備え、
前記評価部は、前記区間情報に基づいて前記評価値に対する重みづけを行うことを特徴とする請求項１に記載の楽音評価装置。
楽音を示す情報を取得する楽音情報取得部と、
複数の歌唱者からそれぞれ事前に取得されたｎ個の楽音について特徴量の時間的変化を示す特徴量データを取得する特徴量データ取得部と、
前記楽音を示す情報から取得した該楽音の特徴量データと前記ｎ個の楽音の各特徴量データとを用いた統計処理を行い、（ｎ＋１）個の楽音における特徴量の分布を示す特徴量分布データを生成する特徴量分布データ生成部と、
を備えることを特徴とする評価基準生成装置。
さらに、前記楽音に関する楽曲を識別する識別子と前記特徴量分布データとを対応付けて外部に出力する出力部を備えることを特徴とする請求項５に記載の評価基準生成装置。