JP2016180965A

JP2016180965A - 評価装置およびプログラム

Info

Publication number: JP2016180965A
Application number: JP2015062598A
Authority: JP
Inventors: 松本　秀一; Shuichi Matsumoto; 秀一松本; 辰弥寺島; Tatsuya Terajima
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2015-03-25
Filing date: 2015-03-25
Publication date: 2016-10-13

Abstract

【課題】デュエット演奏を行う場合、相互の演奏のそろい具合の程度を多角的に判定し、よりユーザの感覚に近い演奏評価を行う。【解決手段】評価機能１００は、歌唱者のそれぞれのマイク２３Ａ、２３Ｂからの歌唱音声を、信号取得部Ａ１１１、信号取得部Ｂ１１３で取得する。分析部１０３は、信号取得部１０１により取得された各歌唱者の歌唱音声を解析し、検出部１２１で、各入力信号に含まれる評価対象の有無や種類を検出し、特定部１２３は、検出部１２１の検出結果に基づき、各入力信号に含まれる各評価対象を比較する際の各評価対象の内容及びタイミングを特定する。比較部１０５は、分析部１０３で行われた各歌唱者の歌唱音声の分析結果に基づいて、複数の歌唱者相互のピッチ、音量、声質、技法の分析結果の差分を算出して比較し、評価部１０７は、比較部１０５における比較結果に基づき、複数の歌唱音声の評価の指標となる評価値を算出する。【選択図】図２

Description

本発明は、複数名が歌唱又は楽器により一緒に歌唱又は演奏する部分を含むデュエット演奏を評価する技術に関する。

カラオケ装置などの歌唱を評価する装置には、歌唱音声を解析して評価する機能が備えられていることが多い。しかし、従来のカラオケ装置は一人の歌唱を評価するものである。また、下記特許文献１には、複数名で歌唱する曲であるデュエット曲の歌唱を評価する際に、デュエット区間における複数の歌唱者の歌唱タイミングの一致度を判定するカラオケ装置が開示されている。

特開２００６―２５９４０１公報

しかしながら、特許文献１に開示された評価方法は、複数の歌唱音声をそれぞれのリファレンスデータと比較することによって歌唱タイミングのずれを検出するものであるため、評価のためにリファレンスデータが必要になる。そのため、リファレンスデータとの比較では分析できない歌唱音声の抑揚の一致度や歌唱技法の一致度などを評価することができない。また、例えば、ある歌唱者がリファレンスデータに沿った歌唱をしている際に、他の歌唱者が即興でリファレンスデータと無関係に協和音程でハモリパートを歌唱した場合にも、デュエット歌唱として積極的に評価することができないので、デュエット歌唱の評価結果がユーザの感覚とずれるおそれがある。

本発明の目的の一つは、複数の歌唱者又は演奏者がデュエット演奏を行う場合に、相互の発音のそろい具合の程度を多角的に判定することで、よりユーザの感覚に近い演奏評価を行うことにある。

本発明の一実施形態において、複数の入力信号を取得する取得部と、前記入力信号ごとに前記入力信号に含まれる評価対象事由の有無及び内容を検出する検出部と、前記評価対象事由が出現したタイミングを特定する特定部と、前記複数の入力信号間の前記評価対象事由の内容及びタイミングの差分を検出する比較部と、前記差分に基づいて前記複数の入力信号に対する評価を行う評価部とを備えることを特徴とする評価装置が提供される。

また、本発明の一実施形態において、前記取得部は、複数の歌唱音声を示す複数の入力信号を取得し、前記検出部は、前記歌唱音声ごとに前記入力信号に含まれる前記評価対象事由の有無及び内容を検出し、前記特定部は、前記歌唱音声ごとに前記評価対象事由が出現したタイミングを特定し、前記比較部は、前記複数の歌唱音声間の前記評価対象事由の内容及びタイミングの差分を検出し、前記評価部は、前記差分に基づいて前記複数の歌唱音声に対する評価を行うものでもよい。

また、本発明の一実施形態において、前記検出部は、前記入力信号のピッチの時間的変化である歌唱ピッチ波形を検出し、前記歌唱ピッチ波形に基づいて前記ピッチが特定の変化をする場合に前記評価対象事由の出現を検出してもよい。

また、本発明の一実施形態において、前記評価対象事由の出現を検出することは、前記歌唱ピッチ波形からノートオン又はノートオフの出現を検出することを含むものでもよい。

また、本発明の一実施形態において、前記評価対象事由の出現を検出することは、前記歌唱ピッチ波形から技法を含む特定区間の出現を検出することを含むものでもよい。

また、本発明の一実施形態において、前記検出部は、前記入力信号の音量の時間的変化である音量変化の波形を検出し、前記音量変化の波形に基づいて音量傾向が変化する場合に前記評価対象事由の出現を検出してもよい。

また、本発明の一実施形態において、前記特定部は、前記評価対象事由が検出された区間の開始点から終了点までの区間を前記評価対象事由が出現したタイミングとして特定してもよい。

また、本発明の一実施形態において、前記特定部は、前記評価対象事由が検出された区間のうちの特定の時点を代表点として、前記代表点のタイミングを前記評価対象事由が出現したタイミングとして特定してもよい。

また、本発明の一実施形態において、前記代表点は、前記評価対象事由が検出された区間のうちの検出開始点又は検出終了点であってもよい。

また、本発明の一実施形態において、異なる演奏者によって演奏される複数のパートを含む楽曲データを記憶する記憶部をさらに備え、前記楽曲データに基づき、前記入力信号に対して、各パートの演奏者が他のパートの演奏者と対応して一緒に演奏するデュエット演奏に対する評価を行う演奏区間を、前記楽曲の一部に特定してもよい。

また、本発明の一実施形態において、前記比較部は、前記複数の入力信号間のピッチの値の差分を検出し、前記評価部は、前記ピッチの値の差分に基づいて前記複数の入力信号に対する評価を行ってもよい。

また、本発明の一実施形態において、前記比較部は、前記特定部によって特定された前記入力信号間のタイミングの差分を検出し、前記評価部は、前記タイミングの差分に基づいて前記複数の入力信号に対する評価を行ってもよい。

また、本発明の一実施形態において、前記比較部は、前記検出部によって検出された前記入力信号間の音量変化の差分を検出し、前記評価部は、前記音量変化の差分に基づいて前記複数の入力信号に対する評価を行ってもよい。

また、本発明の一実施形態において、前記比較部は、前記複数の入力信号間の前記特定区間におけるピッチ変化の量又は周期あるいは前記特定区間の長さの差分を検出し、前記評価部は、前記特定区間におけるピッチ変化の量又は周期あるいは前記特定区間の長さの差分に基づいて前記複数の入力信号に対する評価を行ってもよい。

また、本発明の一実施形態において、前記評価部は、ピッチの検出開始点におけるノートオンのタイミングに重みづけして前記複数の入力信号に対する評価を行ってもよい。

また、本発明の一実施形態において、前記評価部は、幅広い音程にわたってノートが急激に変化する音程跳躍が検出された区間のうちの検出開始点におけるノートオンのタイミング又は検出終了点におけるノートオフのタイミングに重みづけして前記複数の入力信号に対する評価を行ってもよい。

また、本発明の一実施形態において、異なる演奏者によって演奏される複数のパートを含む楽曲データを記憶する記憶部をさらに備え、前記評価部は、前記楽曲データに含まれる複数のパートのメロディに基づき、各パートに主従関係があると判断した場合には、当該パートに対応する入力信号ごとにその属性に応じた重みづけをして入力信号を評価してもよい。

また、本発明の一実施形態において、異なる演奏者によって演奏される複数のパートを含む楽曲データを記憶する記憶部をさらに備え、前記評価部は、前記楽曲データに含まれる複数のパートのメロディに基づき、各パートに主従関係があると判断した場合に、サブパートの演奏者の入力信号として、前記楽曲データに含まれるサブパートのメロディと異なるピッチであって、メインパートの演奏者の入力信号に対する協和音程であるピッチが検出された場合は、前記ピッチの値の差分を評価対象から除外して前記複数の入力信号に対する評価を行ってもよい。

また、本発明の一実施形態において、複数の入力信号を取得し、前記入力信号ごとに前記入力信号に含まれる評価対象事由の有無及び内容を検出し、前記評価対象事由が出現したタイミングを特定し、前記複数の入力信号間の前記評価対象事由の内容及びタイミングの差分を検出し、前記差分に基づいて前記複数の入力信号に対する評価を行うことをコンピュータに実行させるためのプログラムが提供されてもよい。

本発明の一実施形態によれば、複数の歌唱者又は演奏者がデュエット演奏を行う場合に、相互の発音のそろい具合の程度を多角的に判定することで、よりユーザの感覚に近い演奏評価を行うことができる。

本発明の一実施形態における評価装置１の構成を示すブロック図である。本発明の一実施形態における評価機能１００の構成全体を示すブロック図である。本発明の一実施形態における評価機能１００の構成の一部を示すブロック図である。本発明の一実施形態における評価機能１００の構成の一部を示すブロック図である。本発明の一実施形態における評価機能１００の構成の一部を示すブロック図である。本発明の一実施形態における評価機能１００の構成の一部を示すブロック図である。本発明の一実施形態における評価方法を説明する図である。本発明の一実施形態における評価方法を説明する図である。本発明の一実施形態における評価方法を説明する図である。本発明の一実施形態における評価方法を説明する図である。本発明の一実施形態における評価方法を説明する図である。

以下、本発明の一実施形態における評価装置について、図面を参照しながら詳細に説明する。以下に示す実施形態は本発明の実施形態の一例であって、本発明はこれらの実施形態に限定されるものではない。

＜第１実施形態＞
本発明の第１実施形態における評価装置について、図面を参照しながら詳細に説明する。第１実施形態に係る評価装置は、歌唱又は楽器を演奏するユーザ（以下、「歌唱者」又は「演奏者」という場合がある）の発音を評価する装置である。この評価装置は、複数名によるデュエット演奏のそろい具合の程度を多角的に判定して、よりユーザの感覚に近いデュエット演奏の評価を行う。

本明細書において、デュエット演奏とは、歌唱又は楽器を演奏する複数名に割り当てられた複数の演奏パートを有し、複数名が同時に発音する部分を含む曲を、複数名が演奏するものをいう。デュエット演奏には、例えば男性パートと女性パートとを有する曲を男女２名が一緒に歌唱する場合が含まれるが、これに限定されるものではない。複数の演奏パートは、例えばメロディパートとハモリパート（又はコーラスパート）であってもよい。メロディパートとは、主旋律であるメロディを構成するパートをいう。ハモリパートとは、主旋律を引き立てるために主旋律と同時に歌唱されて和音を形成する別の旋律を構成するパートをいう。コーラスパートとは、主旋律を引き立てるために複数名によって歌唱される補助的な歌唱パートであって、同一パート内の複数名が同一のメロディを同時に歌唱（ユニゾン歌唱）するものをいう。また、歌唱パートは３パート以上であってもよい。さらに、複数の歌唱者の構成も男女の組み合わせに限定されるものではなく、男性同士または女性同士の歌唱（デュオ）であってもよい。また、デュエット歌唱において複数の歌唱者が同時に歌唱する部分には、複数の歌唱者が同時に同じメロディを歌唱するユニゾン歌唱と、複数の歌唱者が異なるメロディを歌唱するハモリ歌唱又はコーラス歌唱を含む。以下、このような評価装置について説明する。

［ハードウエア］
図１は、本発明の一実施形態における評価装置１の構成を示すブロック図である。評価装置１は、例えば、カラオケ装置である。なお、評価装置１はスマートフォン等の携帯装置であってもよいし、ＰＣでもよい。評価装置１は、制御部１１、記憶部１３、操作部１５、表示部１７、通信部１９、および信号処理部２１を含む。これらの各構成は、バスを介して接続されている。また、信号処理部２１には、複数のマイクロフォン２３Ａ、２３Ｂからなる収音装置２３およびスピーカ２５が接続されている。なお、図１では２名の歌唱者が歌唱する場合を例示しているが、歌唱者は３名以上であってもよく、複数のマイクロフォン２３Ａ、２３Ｂは歌唱者の人数に対応した数だけ設けられる。

制御部１１は、ＣＰＵなどの演算処理回路を含む。制御部１１は、記憶部１３に記憶された制御プログラム３１をＣＰＵにより実行して、各種機能を評価装置１において実現させる。実現される機能には、歌唱音声の評価機能が含まれる。記憶部１３は、不揮発性メモリ、ハードディスク等の記憶装置である。記憶部１３は、評価機能を実現するための制御プログラム３１を記憶する。制御プログラム３１は、磁気記録媒体、光記録媒体、光磁気記録媒体、半導体メモリなどのコンピュータ読み取り可能な記録媒体に記憶した状態で提供されてもよい。この場合には、評価装置１は、記録媒体を読み取る装置を備えていればよい。また、制御プログラム３１は、ネットワーク経由でダウンロードされてもよい。

また、記憶部１３は、歌唱に関するデータとして、楽曲データ３３、入力信号データ３５、および評価基準情報３７を記憶する。楽曲データ３３は、カラオケの歌唱曲に関連するデータ、例えば、ガイドメロディデータ、伴奏データ、歌詞データなどが含まれている。ガイドメロディデータは、歌唱曲のメロディを示すデータである。ガイドメロディデータは、さらに当該歌唱曲のメロディパート（メインパート）とハモリパート（サブパート）の各メロディを示すデータや、デュエット歌唱曲の複数の歌唱パートの各メロディを示すデータを有してもよい。伴奏データは、歌唱曲の伴奏を示すデータである。ガイドメロディデータおよび伴奏データは、ＭＩＤＩ形式で表現されたデータであってもよい。歌詞データは、歌唱曲の歌詞を表示させるためのデータ、および表示させた歌詞テロップを色替えするタイミングを示すデータである。入力信号データ３５は、歌唱者がマイクロフォン２３から入力した歌唱音声を示すデータである。この例では、入力信号データ３５は、評価機能によって歌唱音声が評価されるまで、記憶部１３にバッファされる。

評価基準情報３７は、評価機能が歌唱音声の評価の基準として用いる評価対象事由に関する情報である。評価対象事由には、例えば、歌唱ピッチ波形に基づいて検出されるものとして、ノートオン、ノートオフ、ノート変化、ノート到達、及び歌唱技法の出現などが含まれる。また、音量変化の波形に基づいて検出される評価対象事由として、音量の増加、減少、及び音量のピークが含まれる。その他に歌唱音声の評価の基準として用いられる評価対象事由として、例えば入力信号を解析して得られた歌唱音声の声質が含まれる。

例えば、評価基準情報３７には、ノートオン又はノートオフのタイミングを検出するための歌唱ピッチの変化（歌唱ピッチ波形）を特定するための情報や、声質を評価するためのパラメータ情報が含まれる。ここで、ノートとは、あるメロディを構成する各音（メロディ音）をいう。あるノートが歌唱されるタイミングに関し、ノートオンとは、あるノートを発したと想定される時点、又は複数のノートが連続して発音される場合において、発音されるノートが他のノートから当該ノートに変化した時点をいう。ノートオフとは、あるノートの発音が終了したと想定される時点、又は複数のノートが連続して発音される場合において、発音されるノートが当該ノートから他のノートに変化した時点をいう。

また、評価基準情報３７には、歌唱技法を検出するための歌唱ピッチの変化（歌唱ピッチ波形）を特定するための情報が含まれる。歌唱技法には、例えば、シャクリ、ビブラート、フォール、コブシといった技法が含まれる。これらの歌唱技法が用いられると、豊かな歌唱をしていると感じられることから、高い評価が与えられることがある。

ビブラート、コブシ、シャクリ、フォールといった歌唱技法であれば、例えば、以下のような歌唱ピッチ波形を示す。
（１）ビブラート：ピッチが細かく（所定周期以下で）高低に変化する。ビブラート検出の具体的な例は、特開２００５−１０７０８７号公報に開示されている。
（２）コブシ：ピッチが一時的に（所定時間以内で）高くなり、その後、元のピッチに戻る。コブシ検出の具体的な例は、特開２００８−２６８３７０号公報に開示されている。
（３）シャクリ：ピッチが目標音程の下から始まり所定時間上昇し、目的音程で安定する。シャクリ検出の具体的な例は、特開２００５−１０７３３４号公報に開示されている。
（４）フォール：ピッチが所定時間下降し、その後、歌唱が途切れる。フォール検出の具体的な例は、特開２００８−２２５１１５号公報に開示されている。

操作部１５は、操作パネルおよびリモコンなどに設けられた操作ボタン、キーボード、マウスなどの装置であり、入力された操作に応じた信号を制御部１１に出力する。表示部１７は、液晶ディスプレイ、有機ＥＬディスプレイ等の表示装置であり、制御部１１による制御に基づいた画面が表示される。なお、操作部１５と表示部１７とは一体としてタッチパネルを構成してもよい。通信部１９は、制御部１１の制御に基づいて、インターネットなどの通信回線と接続して、サーバ等の外部装置と情報の送受信を行う。なお、記憶部１３の機能は、通信部１９において通信可能な外部装置で実現されてもよい。

信号処理部２１は、ＭＩＤＩ形式の信号からオーディオ信号を生成する音源、Ａ／Ｄコンバータ、Ｄ／Ａコンバータ等を含む。各歌唱者の歌唱音声は、各歌唱者に対応するマイクロフォン２３Ａ、２３Ｂからなる収音装置２３においてそれぞれ電気信号に変換されて信号処理部２１に入力され、信号処理部２１においてＡ／Ｄ変換されて制御部１１に出力される。上述したように、複数の歌唱音声は、それぞれ入力信号データとして記憶部１３にバッファされる。また、伴奏データは、制御部１１によって読み出され、信号処理部２１においてＤ／Ａ変換され、スピーカ２５から歌唱曲の伴奏として出力される。このとき、ガイドメロディもスピーカ２５から出力されるようにしてもよい。

［評価機能］
評価装置１の制御部１１が制御プログラムを実行することによって実現される評価機能について説明する。なお、以下に説明する評価機能を実現する構成の一部または全部は、ハードウエアによって実現されてもよい。

図２は、本発明の一実施形態における評価機能の全体構成を示すブロック図である。評価機能１００は信号取得部１０１、分析部１０３、比較部１０５、及び評価部１０７を含む。信号取得部１０１は、収音装置２３から入力された複数の歌唱音声を示す複数の入力信号データをそれぞれ取得する。図２に示す例では、収音装置２３は、２名の歌唱者のそれぞれに対応するマイクロフォン２３Ａとマイクロフォン２３Ｂからなる。マイクロフォン２３Ａ及びマイクロフォン２３Ｂからそれぞれ入力された歌唱音声を示す入力信号データは、それぞれ信号取得部Ａ（１１１）及び信号取得部Ｂ（１１３）からなる信号取得部１０２に取得される。

この例では、伴奏音が出力されている期間における収音装置２３への入力音を、評価対象の歌唱音声として認識する。なお、信号取得部１０１は、記憶部１３にバッファされた入力信号データを取得するが、記憶部１３に１曲全体の入力信号データが記憶された後にまとめて取得してもよいし、信号処理部２１から直接取得してもよい。

分析部１０３は、評価対象事由を検出する検出部１２１と評価対象事由の内容やタイミングを特定する特定部１２３とを含む。検出部１２１は、ピッチ検出部１３１、音量検出部１３３、声質検出部１３５、及び技法検出部１３７を含む。分析部１０３は、信号取得部１０３によって取得された各歌唱者の歌唱音声に対応する複数の入力信号データを解析し、検出部１２１において、各入力信号データに含まれる評価対象事由の有無や種類を検出する。特定部１２３は、検出部１２１の検出結果に基づいて、各入力信号データに含まれる各評価対象事由を比較する際の各評価対象事由の内容及びタイミングを特定する。

ピッチ検出部１３１は、信号取得部１０１によって取得された入力信号データを解析し、歌唱ピッチ（周波数）の時間的な変化、すなわち歌唱ピッチ波形を検出する。具体的には、歌唱音声の波形のゼロクロスを用いた方法、ＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を用いた方法等、公知の方法で歌唱ピッチ波形が算出される。ピッチ検出部１３１は、歌唱ピッチ波形に基づいて、ノートオン又はノートオフのタイミングをさらに検出してもよい。例えば後述する図８においてマイクロフォン２３Ａから入力される入力信号Ａのノートオンの時点はＯＮ１ａであり、ノートオフの時点はＯＦＦ２ａである。なお、ノートオン及びノートオフのタイミングは音量検出部１３３の検出結果も合わせて考慮して検出されてもよい。

図３は、本発明の一実施形態における評価機能の一部の構成を示すブロック図である。図３に示すように、ピッチ検出部１３１は、変化点検出部２１１、到達点検出部２１３、検出開始点特定部２１５をさらに含む。変化点検出部２１１は、歌唱ピッチ波形に基づいて、ピッチがあるノートから他のノートに変化するタイミング（ノート変化のタイミング）を検出する。ノート変化のタイミングは、連続して歌唱される２つのノートのうち、２つめのノートのノートオンのタイミングに相当する。

ノート変化のタイミングの検出は、レガート歌唱など複数のノート（音符）がなめらかに連続して歌唱される場合には、歌唱周波数が予め定めた一定範囲内に接近したタイミングをノート変化（次のノートのノートオン）のタイミングとしてもよい。また、歌唱ピッチ波形に基づいて、歌唱者が前のノートから次のノートに移行しようとし始めたタイミングを特定し、これをノート変化（次のノートのノートオン）のタイミングとしてもよい。例えば後述する図８において入力信号Ａのノート変化のタイミング（２つめのノートのノートオンのタイミング）はＯＮ２ａの時点である。

また、変化点検出部２１１は、時系列におけるピッチ変化の波形において、ノートが変化した変化点におけるピッチ変化の傾きの程度（ピッチ変化の速度）を検出する。例えば、後述する図８の入力信号Ａのノートの変化点（ＯＮ２ａ）及び入力信号Ｂのノートの変化点（ＯＮ２ｂ）におけるピッチ変化の傾きについてみると、入力信号Ａのピッチ変化の傾きはなだらかである（ピッチ変化の速度が遅い）のに対し、入力信号Ｂのピッチ変化の傾きは急である（ピッチ変化の速度が速い）。

さらに、到達点検出部２１３は、歌唱ピッチ波形に基づいて、連続するピッチの変化が一定範囲内に収まる程度に平坦になる開始点を、あるノートに到達した時点（タイミング）と判断して当該ノートに対する到達タイミングを検出する。ノートの到達タイミングは、例えば後述する図８において入力信号Ｂの１つめのノートに対する到達タイミングはＴ１ｂの時点である。

検出開始点特定部２１５は、歌唱ピッチ波形に基づいて、歌唱音声のピッチが検出された開始点を検出する。ピッチの検出開始点は、曲の歌い出し部分や各フレーズの歌い出し部分など、歌唱者が歌唱するために発声を開始した音の開始点をいう。ピッチの検出開始点は、イントロやブレス区間、間奏区間など歌唱音声が切れて歌唱音声を示すピッチが検出されない区間の後、最初に歌唱音声を示すピッチが検出された時点として特定されてもよい。例えば後述する図８において入力信号Ａの検出開始点はＯＮａ１の時点である。

このように、ピッチ検出部１３１は、ノートオン、ノートオフ、ノート変化、ピッチ変化の速度、ノート到達点、及びピッチの検出開始点を検出する。これらの検出結果は、タイミング特定部１２３において音量検出部１３３の検出結果等と合わせて評価され、各入力信号データに含まれる各評価対象事由を比較する際のノートオンやノートオフのタイミングが特定される。

音量検出部１３３は、信号取得部１０１によって取得された入力信号を解析し、入力信号の音量（ａｍｐ）の時間的な変化やタイミングを、入力信号の音量変化の波形を示すエンベロープとして抽出する。

図４は、本発明の一実施形態における評価機能の一部の構成を示すブロック図である。図４に示すように、音量検出部１３３は、増加点検出部２３１、減少点検出部２３３、及び変化量検出部２３５をさらに含む。増加点検出部２３１及び減少点検出部２３３は、入力信号の音量変化の波形に基づいて、歌唱音声の入力期間における音量の増減を示す傾き傾向を、例えば後述する図８及び図９の「音量傾向」欄に示すように、所定の単位時間ごとに、増加（＋）、減少（−）、又は維持（０）のいずれであるか検出してもよい。変化量検出部２３５は、入力信号の音量変化の波形に基づいて音量のピークの位置及び程度を検出してもよい。変化量検出部２３５は、単位時間当たりの音量増加量が一定以上である場合に音量が急激に増加したと判断して、急激な音量増加の開始点を検出し、これを歌唱者が歌唱するために発声を開始した音の開始点と判断して、前述したピッチ検出部１３１の検出結果と合わせてノートオンのタイミングを検出してもよい。

このように、音量検出部１３３は、入力信号の音量の増加点、減少点、増加量、ピークの位置及び程度を検出する。これらの検出結果は、タイミング特定部１２３においてピッチ検出部１３１の検出結果等と合わせて評価され、各入力信号データに含まれる各評価対象事由を比較する際のノートオンやノートオフのタイミングが特定される。

声質検出部１３５は、信号取得部１０１によって取得された入力信号を解析し、歌唱音声の声質を評価するためのパラメータを算定する。図５は、本発明の一実施形態における評価機能の一部の構成を示すブロック図である。図５に示すように、声質検出部１３５は、声質距離検出部２５１、声質変化検出部２５３をさらに含む。

声質距離検出部２５１は、信号取得部１０１によって取得された入力信号を解析し、歌唱音声のスペクトル距離やその時間的遷移を検出してもよい。声質変化検出部２５３は、信号取得部１０１によって取得された入力信号を解析し、歌唱音声のＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ、メル周波数ケプストラム係数）を検出してもよい。

声質検出部１３５による検出結果に基づいて声質を評価する際のパラメータとして、例えば、歌唱音声の調波成分と非調波成分との強度比に応じた指標である歌唱ＳＮ比を用いてもよい。歌唱ＳＮ比をパラメータとして声質の相性を評価する構成では、歌唱音声の気息性（ハスキー度）という観点から歌唱音声を評価することが可能である。

また、声質を評価するためのパラメータとして、歌唱音声のうち特定の周波数帯域内のスペクトルを近似する直線の勾配に応じた指標である包絡近似勾配を用いてもよい。包絡近似勾配をパラメータとして声質の相性を評価する構成では、歌唱音声の聴感的な響きという観点から歌唱音声を評価することが可能である。

また、声質を評価するためのパラメータとして、人の周波数知覚特性を考慮しながらスペクトルの特徴を表現する特徴量の指標であるＭＦＣＣを用いてもよい。ＭＦＣＣをパラメータとして声質の相性を評価する構成では、人の周波数知覚特性を考慮しながら歌唱音声を評価することが可能である。

技法検出部１３７は、歌唱ピッチ波形を解析し、歌唱音声の入力期間のうち、評価基準情報によって規定された歌唱技法を含む区間（特定区間）の有無及び位置を検出する。技法検出部１３７が検出する歌唱技法には、例えば、シャクリ、ビブラート、フォールといった技法が含まれる。このとき検出される特定区間は、歌唱技法の種類ごとに対応付けられていてもよい。

図６は、本発明の一実施形態における評価機能の一部の構成を示すブロック図である。図６に示すように、技法検出部１３７は、技法有無検出部２７１、技法程度検出部２７３、及び技法区間検出部２７５をさらに含む。技法有無検出部２７１は歌唱技法の種類ごとに各技法の有無及び位置を検出する。技法有無検出部２７１は、技法の種類ごとに、技法が出現したと判断する場合に、当該技法が出現した時間的な位置を検出する。技法の位置は、当該技法が検出された区間の開始時点から終了時点までの区間として検出されてもよいが、当該技法が検出された区間のうち、当該技法の検出開始時点又は検出終了時点などの代表点として検出されてもよい。

技法程度検出部２７３は、検出された各技法の程度、例えばシャクリの場合にはピッチが高くなる際の速度（スピード）、フォールの場合にはピッチが低くなる際の程度（深さ）を検出する。

技法区間検出部２７５は、検出された各技法が継続する時間、例えばビブラートの場合にはビブラートが検出される区間の開始点と終了点を検出する。ビブラートの場合には、技法区間のみならずさらにピッチの高低変化の周期、振幅を検出してもよい。

比較部１０５は、分析部１０３で行われた各歌唱者の歌唱音声の分析結果に基づいて、複数の歌唱者相互のピッチ、音量、声質、又は技法に対する分析結果の差分を算出するなどして比較する。例えば、音量を比較する場合には、後述する図８及び図９の「差分」欄に示すように、音量検出部１３３の増加点検出部２３１及び減少点検出部２３３によって検出された単位時間ごとの音量の増減を示す傾き傾向（増加（＋）、減少（−）、又は維持（０）のいずれか）を比較して、各単位時間ごとに同じ傾き傾向であれば差分は○、異なる傾き傾向であれば差分は×として差分を算出してもよい。この場合、差分として○が多いほど音量変化傾向は一致しており、×が多いほど音量変化傾向は不一致である。

また、分析部１０３で行われた各歌唱者の歌唱音声の分析結果に基づいて技法を比較する場合には、比較部１０５は、技法の有無及び技法の種類の一致の程度のみならず技法が出現した時間的なタイミングを比較する。その際、例えば、ビブラートのような一定の期間継続して出現する技法の場合には、当該技法が検出された検出区間の開始点と終了点のタイミングを検出し、技法の種類ごとに、歌唱者間の技法の有無を比較し、共に同じ技法が検出された場合には当該技法が検出された検出区間の開始点と終了点のタイミングを比較して、開始点と終了点のタイミングが同じであるほど技法は一致しており、開始点と終了点のタイミングがずれているほど技法は不一致であると分析してもよい。

他方で、ある技法が出現した時間的なタイミングを比較する際には、当該技法が検出された検出区間の位置のみならず、当該技法が検出された検出区間のうちの特定の時点を代表点として、当該代表点のタイミングを比較してもよい。例えば、技法の検出開始時点又は技法の検出終了時点を代表点として、当該代表点のタイミングが同じであるほど技法は一致しており、当該代表点のタイミングがずれているほど技法は不一致であると分析してもよい。

評価部１０７は、比較部１０５における比較結果に基づいて、複数の歌唱音声の評価の指標となる評価値を算出する。例えば、複数の歌唱者が同時に同じメロディを歌唱するデュエット歌唱（ユニゾン）の例では、比較部１０５で算出されたピッチや音量の差分が大きいほど評価値が低く算出され歌唱の評価が悪くなり、比較部１０５で算出されたピッチや音量の差分が小さいほど評価値が高く算出され歌唱の評価が高くなる。ユニゾンの場合は、技法の有無や程度、区間についても不一致であるほど評価値が低く算出され歌唱の評価が悪くなり、一致しているほど評価値が高く算出され歌唱の評価が高くなる。

また、複数の歌唱者がそれぞれメインメロディ（メロディパート）とサブメロディ（ハモリパート）に分かれて異なるパートを同時に歌唱するデュエット歌唱（ハモリ）の例でも、ノートオン、ノートオフ、ノート到達のタイミング、ノート変化の傾き、音量変化傾向等が一致しているほど評価値が高く算出され歌唱の評価が高くなる。

［歌唱評価の例］
上述した評価機能１００による歌唱音声の評価方法について、図７〜図１１に示す具体的な歌唱例を用いて説明する。

図７は本発明の一実施形態における評価方法を説明する図である。図７を参照して歌唱区間ごとに異なる歌唱評価を行う評価方法について説明する。図７に示す波形は、楽曲データに含まれる複数のパートの各メロディのピッチ変化を示す一例である。図７において縦軸は楽曲データのピッチを示し、横軸は時間の経過を示す。図７に示す楽曲は、２名の歌唱者に対応付けられる２つの歌唱パートを含み、４つの歌唱区間Ｓ１〜Ｓ４から構成されている。２つの歌唱パートは、例えば男性パート（Ａ）と女性パート（Ｂ）から構成されていてもよい。

図７において、歌唱区間Ｓ１は男性パート（Ａ）のソロ歌唱区間であり、歌唱区間Ｓ２は女性パート（Ｂ）のソロ歌唱区間である。歌唱区間Ｓ３は男性パート（Ａ）と女性パート（Ｂ）の各パートのメロディが併存し、かつ、各パートのメロディは、ピッチの値は異なるがピッチ変化の形状（音型）が類似する。歌唱区間Ｓ４も男性パート（Ａ）と女性パート（Ｂ）の各パートのメロディが一部併存しているが、メロディ相互の音型が異なっており、男性パート（Ａ）と女性パート（Ｂ）の各メロディは対応していない。

図７の場合、評価機能１００は、歌唱区間Ｓ１、Ｓ２、及びＳ４を、各パートの歌唱者が他のパートの歌唱者と関係なく独立して歌唱する通常採点区間であると判断して、一人の歌唱を評価する通常採点を行ってもよい。ただし、それぞれの歌唱者が独立して歌唱しているＳ１歌唱区間とＳ２歌唱区間では、それぞれ歌唱音量平均やピーク値を調べ、その音量差を評価してもよい。その場合は、音量差が少ない方が高評価となる。

また、評価機能１００は、歌唱区間Ｓ３を、各パートの歌唱者が他のパートの歌唱者と対応して一緒に歌唱するデュエット区間であると判断して、通常採点に加えて以下で詳述するデュエット評価をさらに行ってもよい。

このように、評価機能１００は、楽曲データに含まれる複数の歌唱パートの各メロディのピッチ変化の音型を比較して、デュエット評価を行う歌唱区間（デュエット区間）とデュエット評価を行わない歌唱区間（通常採点区間）とを分類してもよい。図７にはデュエット区間として各パートのメロディのピッチの値は異なるがピッチ変化の音型が類似するハモリの例を示すが、本発明におけるデュエット区間はハモリの場合に限定されるものではなく、同じピッチの値のメロディを複数の歌唱者が同時に歌唱するユニゾン歌唱も含む。

なお、歌唱区間Ｓ４も男性パート（Ａ）と女性パート（Ｂ）の各メロディが存在するが、各パートのピッチ変化の音型が異なるため、単に各パートの歌唱者が同時に独立して歌唱している区間であると評価し、本発明におけるデュエット区間として扱わない。

評価機能１００は、通常採点区間では各パートの歌唱者の歌唱音声をそれぞれ単独の歌唱として採点する通常採点を行い、デュエット区間では通常採点に加えて以下で詳述するデュエット評価をさらに行う。

図８から図１０は本発明の一実施形態における評価方法を説明する図である。図８から図１０のピッチ欄に示す波形は、各歌唱者の歌唱音声を示す入力信号Ａ及び入力信号Ｂの歌唱ピッチ波形である。また、図８から図１０の音量欄に示す図形は、各歌唱者の歌唱音声を示す入力信号Ａ及び入力信号Ｂの音量変化を示す図形である。図８は入力信号Ａ及び入力信号Ｂが同じメロディを歌唱するユニゾンの例である。図９は入力信号Ａ及び入力信号Ｂがメロディは異なるがピッチ変化の音型が類似するメロディを歌唱するハモリの例である。図１０は入力信号Ａ及び入力信号Ｂがピッチ変化の音型が異なる別のメロディを歌唱するハモリの例である。

デュエット区間では、デュエット評価として、各歌唱者のノートオン及びノートオフのタイミングのずれを評価してもよい。図８において入力信号Ａ及び入力信号Ｂの１つめノートのノートオンのタイミングを比較すると、入力信号Ａのノートオンの時点であるＯＮ１ａと入力信号Ｂのノートオンの時点であるＯＮ１ｂとがずれているほど、デュエット評価として低く評価される。

他方で、図９及び図１０において入力信号Ａ及び入力信号Ｂの最初のノートのノートオンのタイミングを比較すると、入力信号Ａのノートオンの時点であるＯＮ１ａと入力信号Ｂのノートオンの時点であるＯＮ１ｂとが一致しているほど、デュエット評価として高く評価される。

同様に二つ目のノートのノートオンのタイミングとノートオフのタイミングを比較してみると、図８では入力信号Ａ及び入力信号Ｂにおいて二つ目のノートのノートオン（ＯＮ２ａとＯＮ２ｂ）及びノートオフ（ＯＦＦ２ａとＯＦＦ２ｂ）のタイミングがいずれもずれているため、ずれているほどデュエット評価として低く評価されるが、図９及び図１０では入力信号Ａ及び入力信号Ｂにおいて二つ目のノートのノートオン（ＯＮ２ａとＯＮ２ｂ）及びノートオフ（ＯＦＦ２ａとＯＦＦ２ｂ）のタイミングがいずれもほぼ一致しているため、一致しているほどデュエット評価として高く評価される。

特に、曲の歌い出し部分や各フレーズの歌い出し部分など、イントロやブレス区間、間奏区間などのピッチが検出されない区間の後で最初にピッチが検出された時点（ピッチの検出開始点）におけるノートオンのタイミングのずれは、デュエット歌唱時において特に目立つ部分であるため、ピッチの検出開始点におけるノートオンに重み付けして評価してもよい。例えば、ピッチの検出開始点におけるノートオンのタイミングが一致している場合には、複数の歌唱者による歌唱の息が合っていると評価されるため、通常のノートオンのタイミング評価に加えてデュエット評価を加点してもよい。

また、ピッチの検出開始点以外でも、幅広い音程にわたってノートが急激に変化する音程跳躍のある部分におけるノートオンのタイミングのずれは、デュエット歌唱時において特に目立つ部分であるため、音程跳躍点におけるノートオンに重み付けして評価してもよい。例えば図７の楽曲の例において領域Ｊに音程跳躍がみられる。この場合、音程跳躍におけるノートオンのタイミングが一致している場合には、通常のノートオンのタイミング評価に加えてデュエット評価を加点してもよい。

また、デュエット評価として、各歌唱者のノート変化点におけるノート間のピッチ変化の傾きのずれを評価してもよい。図８の入力信号Ａのノートの変化点（ＯＮ２ａ）及び入力信号Ｂのノートの変化点（ＯＮ２ｂ）におけるピッチ変化の傾きについてみると、入力信号Ａのノートの変化点（ＯＮ２ａ）におけるピッチ変化の傾きはなだらかであるが、入力信号Ｂのノートの変化点（ＯＮ２ｂ）におけるピッチ変化の傾きは急であるため、傾きの程度がずれていることから、傾きの程度がずれているほどデュエット評価として低く評価される。

他方、図９の入力信号Ａのノートの変化点（ＯＮ２ａ）及び入力信号Ｂのノートの変化点（ＯＮ２ｂ）におけるピッチ変化の傾きについてみると、入力信号Ａのノートの変化点（ＯＮ２ａ）におけるピッチ変化の傾きと入力信号Ｂのノートの変化点（ＯＮ２ｂ）におけるピッチ変化の傾きはほぼ一致しているため、傾きの程度が一致しているほど、デュエット評価として高く評価される。

また、図１０の入力信号Ａのノートの変化点（ＯＮ２ａ）及び入力信号Ｂのノートの変化点（ＯＮ２ｂ）におけるピッチ変化の傾きについてみると、入力信号Ａのノートの変化点（ＯＮ２ａ）と入力信号Ｂのノートの変化点（ＯＮ２ｂ）において、ピッチ変化の高低方向は逆であるが、ピッチがノートの変化点から次のノートに到達するまでの時間がほぼ一致しているため、図９と同様にピッチ変化の傾き（ピッチ変化の速度）はほぼ一致しており、傾きの程度が一致しているほど、デュエット評価として高く評価される。

さらに、デュエット評価として、各歌唱者の技法の有無、タイミング及び程度のずれを評価してもよい。図８では、入力信号Ａには歌唱技法が存在する特定区間は検出されていないが、入力信号Ｂにはシャクリ（シ）、フォール（フ）、コブシ（コ）、ビブラート（ビ）にそれぞれ対応する特定区間が検出されている。この場合、入力信号Ａは技法が用いられておらずあっさりとした歌唱であるのに対し、入力信号Ｂは技法が多く用いられている豊かな歌唱であることから、技法に関して歌唱方法がずれており、ずれているほどデュエット評価として低く評価される。

他方で、図９及び図１０では、入力信号Ａ、入力信号Ｂともシャクリ（シ）及びフォール（フ）が１回ずつ検出されており、かつ、シャクリ（シ）及びフォール（フ）が検出された位置（タイミング）もほぼ一致しているため、技法に関して歌唱方法が一致しているほど、デュエット評価として高く評価される。

また、図示しないが入力信号Ａ、入力信号Ｂともビブラート（ビ）を含む場合には、ビブラート（ビ）が検出された区間の開始点と終了点戸を比較してビブラート（ビ）区間のずれを評価してもよい。さらに、ビブラート（ビ）区間のずれのみならず、さらに入力信号Ａ、入力信号Ｂのビブラート（ビ）におけるピッチの高低変化の周期、振幅のずれを検出してもよい。ビブラート（ビ）区間及び周期についても一致しているほどデュエット評価として高く評価される。

さらに、デュエット評価として、各歌唱者の抑揚のずれを評価してもよい。抑揚のずれは各歌唱者の音量変化傾向とピーク位置のずれに基づいて評価する。図８では、単位時間ごとの音量の増減を示す傾き傾向（増加（＋）、減少（−）、又は維持（０）のいずれか）を比較すると、各単位時間ごとの傾き傾向の差分は○より×の方が多いため、音量変化傾向は不一致であるから、不一致であるほどデュエット評価として低く評価される。

他方、図９及び図１０では、単位時間ごとの音量の増減を示す傾き傾向（増加（＋）、減少（−）、又は維持（０）のいずれか）を比較すると、各単位時間ごとの傾き傾向の差分はほとんど○で×が少ないため、音量変化傾向はほぼ一致しており、一致しているほどデュエット評価として高く評価される。

さらに、デュエット評価として、各歌唱者の声質の相性を評価してもよい。例えば、歌唱音声の声質を評価するためのパラメータとして、歌唱ＳＮ比、包絡近似勾配、ＭＦＣＣ等のパラメータを用いて、これらのパラメータの値が近似しているほど声質が似ていると判断し、声質が似ている場合には声質の相性が良いと評価して加点してもよい。

なお、歌唱ＳＮ比をパラメータとして声質の相性を評価する構成では、歌唱音声の気息性（ハスキー度）という観点から歌唱音声を評価することが可能である。

また、包絡近似勾配をパラメータとして声質の相性を評価する構成では、歌唱音声の聴感的な響きという観点から歌唱音声を評価することが可能である。

さらに、ＭＦＣＣをパラメータとして声質の相性を評価する構成では、人の周波数知覚特性を考慮しながら歌唱音声を評価することが可能である。

図１１は、本発明の一実施形態における評価方法の一例を示す図である。図１１に本発明の一実施形態における声質評価の一例を示す。図１１に示すように、比較部１０５は、声質を比較する際に、声質距離検出部２５１によって検出された歌唱音声のスペクトル距離やその時間的遷移に基づいてフォルマントを測定し、各歌唱音声のフォルマントの周波数のピークと谷の位置を比較してもよい。図１１に示すように、複数の歌唱音声のフォルマントの周波数の波形が近似していない場合であっても、一方の歌唱音声のフォルマントの周波数のピークの位置（入力信号Ａのピークの位置：Ｐａ）が他方の歌唱音声のフォルマントの周波数の谷の位置に対応する場合（入力信号Ｂの谷の位置：Ｖｂ）には、これらの歌唱音声は声質の相性がよいと評価されるため、デュエット評価として加点してもよい。

本実施形態における評価装置によれば、デュエット歌唱を、単に各歌唱者の歌唱のうまさではなく、複数の歌唱者間の歌唱評価の一致度（歌唱評価の類似性）に基づいて評価することができるため、どの程度歌唱者相互の息が合っているのかを多角的に判定することで、よりユーザの感覚に近い評価をすることができる。

＜第２実施形態＞
本発明の第２実施形態における評価装置について、図面を参照しながら詳細に説明する。第２実施形態に係る評価装置は、楽曲データに含まれる複数の歌唱パートのメロディを示すメロディデータに基づき、各歌唱パートにメイン・サブなどの主従関係がある場合において、当該歌唱パートに対応する歌唱音声のマイクロフォンごとにその属性に応じた重みづけをして歌唱音声を評価する装置である。この評価装置は、複数の歌唱者によるデュエット歌唱のそろい具合の程度を、各歌唱パートの属性に応じた重みづけをして判定し、よりユーザの感覚に近いデュエット歌唱の評価を行う。その他のハードウエア構成や評価処理の具体的内容は第１実施形態において説明したものと同じであるため同じ内容の繰り返しは省略する。

本実施形態において、評価部１０７は、複数の歌唱音声が異なるメロディパートに分かれており、各パートにメイン・サブなどの主従関係がある場合に、当該歌唱音声ごとの属性に応じた重みづけを加味して評価値を算出する。評価機能１００は、楽曲データに含まれる複数の歌唱パートのメロディを示すメロディデータに基づき、メインパート（メロディパート）とサブパート（ハモリパート又はコーラスパート）の識別フラグを有してもよく、信号取得部１０１で取得された複数の入力信号について、識別フラグに基づき、サブパート（ハモリパート又はコーラスパート）に対応する歌唱音声のマイクロフォンと、メインパート（メロディパート）に対応する歌唱音声のマイクロフォンとが識別される場合には、各マイクロフォンに対して識別された主従関係に対応する重み付けを行ってもよい。

例えば、複数の歌唱音声を示す入力信号の分析結果から、マイクロフォンＡに対応する歌唱者がメインパートを歌唱しており、マイクロフォンＢに対応する歌唱者がサブパート（ハモリパートなど）を歌唱していると識別される場合には、識別された主従関係に対応した重み付けがなれるので、サブパートの歌唱音声がメインパートの歌唱音声に比べて音量のピークの値や曲全体の平均値が小さい場合であっても、主従のバランスに対応した重み付けを付して評価を行うことにより、メインパートとサブパートの歌唱音声の音量が同じである場合よりも低く評価されることがなく、より精度の高いデュエット評価をすることができる。この例では、メインパートとサブパートの歌唱音声の音量バランスが、識別された主従関係に対応した重み付け比率に対応しているほど多く加点評価してもよい。

具体的には、図９に示す例において、入力信号Ａと入力信号Ｂとが異なるメロディパートに分かれており、入力信号Ａがメインパートであり、入力信号Ｂがサブパートであるなどの主従関係が認められる場合には、入力信号Ａ及び入力信号Ｂに当該主従関係に対応する重み付けをしてデュエット評価を行ってもよい。

図９では入力信号Ａの方が入力信号Ｂより音量のピークの値や音量の平均値が小さくなっているが、入力信号Ａにメインパート（メロディパート）の歌唱という属性があり、入力信号Ｂにサブパート（ハモリパート）という属性があるので、サブパートの歌唱音声の音量がメインパートより小さいことはデュエット歌唱としてバランスがよいと評価されるため、デュエット評価として加点してもよい。

同様に、入力信号Ａにメインパート（メロディパート）の歌唱という属性があり、入力信号Ｂにサブパート（ハモリパート）という属性がある場合には、シャクリ、ビブラート、フォール、コブシといった技法が検出される特定区間の評価においても、主従のバランスに対応した重み付けを付して評価を行うことで、より精度の高いデュエット評価をすることができる。この例では、サブパートである入力信号Ｂよりもメインパートである入力信号Ａの方が検出される技法の回数や種類が多く、技法の程度が大きく、又は技法の区間が長い場合であっても、メインパートとサブパートの技法の有無又は程度のバランスが、識別された主従関係に対応した重み付け比率に対応しているほど多く加点評価してもよい。

入力信号Ａにメインパート（メロディパート）の歌唱という属性があり、入力信号Ｂにサブパート（ハモリパート）という属性がある場合、サブパートである入力信号Ｂよりもメインパートである入力信号Ａの方に技法が多く含まれると、メインパートの歌唱音声がより豊かに歌唱されるため、デュエット歌唱としてバランスがよいと評価される。

本実施形態における評価装置によれば、デュエット歌唱を、単に各歌唱者の歌唱のうまさではなく、複数の歌唱者間の歌唱評価の一致度（歌唱評価の類似性）に基づいて評価することができるとともに、各歌唱者の属性に応じた適切な評価の重み付けをすることができるため、よりデュエット歌唱としての精度の高い評価をすることができる。

＜第３実施形態＞
本発明の第３実施形態における評価装置について、図面を参照しながら詳細に説明する。第３実施形態に係る評価装置は、複数の歌唱音声が異なるメロディパートに分かれており、各パートにメイン・サブなどの主従関係がある場合において、楽曲データに含まれるサブパートのメロディパターン（歌うべきノート情報としてのリファレンス）と異なるピッチが検出された場合であっても、即興で協和音程のハモリを歌唱したと評価される場合に歌唱音声を評価する装置である。この評価装置は、複数の歌唱者によるデュエット歌唱のそろい具合の程度をサブパートのメロディパターンに依存することなく具体的に判定してよりユーザの感覚に近いデュエット歌唱の評価を行う。その他のハードウエア構成や評価処理の具体的内容は第１実施形態において説明したものと同じであるため同じ内容の繰り返しは省略する。

図７では歌唱区間Ｓ３のデュエット区間において楽曲データに含まれる複数のメロディパターン（歌うべきノート情報としてのリファレンス）を参照したが、入力信号Ａにメインパート（メロディパート）の歌唱という属性があり、入力信号Ｂにサブパート（ハモリパート）という属性がある場合には、入力信号Ｂとして入力信号Ｂの楽曲データに含まれるメロディパターンと異なるピッチが検出された場合であっても、入力信号Ａとのピッチ差が１００ｃｅｎｔ単位で対応して変化している場合には、即興で協和音程のハモリを歌唱したと評価して、デュエット評価として加点し、入力信号Ｂの楽曲データに含まれるメロディパターンとのずれについては、当該ピッチの値の差分を評価対象から除外して評価を行ってもよい。この場合、不協和音が歌唱された場合を加点評価から除外するために、他の入力信号とのピッチ差が１００ｃｅｎｔ単位で対応して変化しているという加点評価の条件を、さらにコードやスケールに基づいて限定してもよい。

本実施形態における評価装置によれば、デュエット歌唱を、単に各歌唱者の歌唱のうまさではなく、複数の歌唱者間の歌唱評価の一致度（歌唱評価の類似性）に基づいて評価することができるとともに、サブパートの歌唱者が即興で楽曲データに含まれるメロディパターンとずれて協和音程を歌唱した場合においても各歌唱者の属性に応じた適切な評価の重み付けをすることができるため、即興による歌唱が含まれる場合であっても精度の高いデュエット評価をすることができる。

信号取得部１０１によって取得される歌唱音声データが示す音は、歌唱者による音声に限られず、歌唱合成による音声であってもよいし、歌唱合成による音声と歌唱者による音声によるデュエット歌唱であってもよい。また、信号取得部１０１によって取得される歌唱音声データが示す音は、歌唱者による音声に限られず、複数名による楽器の演奏音（楽器音）であってもよい。楽器音である場合には、短音演奏であることが望ましい。また、楽器音である場合には、技法検出部１３７によって検出される技法として、例えば、ビブラート、スタッカート、ベンドアップ（シャクリ）、ベンドダウン（フォール）、スライド（ポルタメント）がある。これらの技法のうち、ピッチ変化を伴うビブラート、ベンドアップ、ベンドダウン、スライドが、実施形態と同様な方法で検出される。これら以外にも、トリルおよび極めて短い修飾音等の音符の表現、サックスのグロール、ギターのカッティング等の音色に関する技法についても、技法として検出して評価の対象としてもよい。

１…評価装置、１１…制御部、１３…記憶部、１５…操作部、１７…表示部、１９…通信部、２１…信号処理部、２３…収音装置、２５…スピーカ、１００…評価機能、１０１…信号取得部、１０３…分析部、１２１…検出部、１２３…特定部、１０５…比較部、１０７…評価部

Claims

複数の入力信号を取得する取得部と、
前記入力信号ごとに前記入力信号に含まれる評価対象事由の有無及び内容を検出する検出部と、
前記評価対象事由が出現したタイミングを特定する特定部と、
前記複数の入力信号間の前記評価対象事由の内容及びタイミングの差分を検出する比較部と、
前記差分に基づいて前記複数の入力信号に対する評価を行う評価部と、
を備えることを特徴とする評価装置。
前記取得部は、複数の歌唱音声を示す複数の入力信号を取得し、
前記検出部は、前記歌唱音声ごとに前記入力信号に含まれる前記評価対象事由の有無及び内容を検出し、
前記特定部は、前記歌唱音声ごとに前記評価対象事由が出現したタイミングを特定し、
前記比較部は、前記複数の歌唱音声間の前記評価対象事由の内容及びタイミングの差分を検出し、
前記評価部は、前記差分に基づいて前記複数の歌唱音声に対する評価を行うことを特徴とする請求項１に記載の評価装置。
前記検出部は、前記入力信号のピッチの時間的変化である歌唱ピッチ波形を検出し、前記歌唱ピッチ波形に基づいて前記ピッチが特定の変化をする場合に前記評価対象事由の出現を検出することを特徴とする請求項１に記載の評価装置。
前記評価対象事由の出現を検出することは、前記歌唱ピッチ波形からノートオン又はノートオフの出現を検出することを含むことを特徴とする請求項３に記載の評価装置。
前記評価対象事由の出現を検出することは、前記歌唱ピッチ波形から技法を含む特定区間の出現を検出することを含むことを特徴とする請求項３に記載の評価装置。
前記検出部は、前記入力信号の音量の時間的変化である音量変化の波形を検出し、前記音量変化の波形に基づいて音量傾向が変化する場合に前記評価対象事由の出現を検出することを特徴とする請求項１から請求項５のいずれか１つに記載の評価装置。
前記特定部は、前記評価対象事由が検出された区間の開始点から終了点までの区間を前記評価対象事由が出現したタイミングとして特定することを特徴とする請求項１から請求項６のいずれか１つに記載の評価装置。
前記特定部は、前記評価対象事由が検出された区間のうちの特定の時点を代表点として、前記代表点のタイミングを前記評価対象事由が出現したタイミングとして特定することを特徴とする請求項１から請求項６のいずれか１つに記載の評価装置。
異なる演奏者によって演奏される複数のパートを含む楽曲データを記憶する記憶部をさらに備え、
前記楽曲データに基づき、前記入力信号に対して、各パートの演奏者が他のパートの演奏者と対応して一緒に演奏するデュエット演奏に対する評価を行う演奏区間を、前記楽曲の一部に特定することを特徴とする請求項１から請求項８のいずれか１つに記載の評価装置。
異なる演奏者によって演奏される複数のパートを含む楽曲データを記憶する記憶部をさらに備え、
前記評価部は、前記楽曲データに含まれる複数のパートのメロディに基づき、各パートに主従関係があると判断した場合には、当該パートに対応する入力信号ごとにその属性に応じた重みづけをして入力信号を評価することを特徴とする請求項１から請求項９のいずれか１つに記載の評価装置。