JP2016122164A

JP2016122164A - 音声評価装置、およびカラオケ装置

Info

Publication number: JP2016122164A
Application number: JP2014263628A
Authority: JP
Inventors: 川▲原▼　毅彦; Takehiko Kawahara; 毅彦川▲原▼
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2014-12-25
Filing date: 2014-12-25
Publication date: 2016-07-07

Abstract

【課題】市販の音楽用ＣＤ等に記録されたデータを用いて、従来より多様な評価方法により、ユーザ満足度の高い音声評価を行う。【解決手段】音声評価装置（１０）は、評価対象ピッチ抽出部（１１）と基準ピッチ抽出部（１２）と評価部（２０）とを備える。評価対象ピッチ抽出部（１１）は、音声データから、時間軸に沿ってその音声のピッチを評価対象ピッチとして抽出する。基準ピッチ抽出部（１２）は、複数の音が含まれるオーディオデータから時間軸に沿って複数の音のピッチを各々基準ピッチとして抽出する。評価部（２０）は、時間軸に沿って単位時間毎に、評価対象ピッチと複数の基準ピッチとを比較することにより音声データを評価する。【選択図】図１

Description

本発明は、音声データを評価する音声評価装置等に関する。

従来から、歌唱者による歌唱の巧拙を採点（以下では、評価とも称する）する機能を備えるカラオケ装置が存在する。このようなカラオケ装置に関する技術が特許文献１および２に開示されている。特許文献１には、楽譜に表される正確なピッチで構成された楽曲データ（以下では、正解データと称する）を用いて評価を行う方法の一例が開示されている。正解データの形式の一例としては、ＭＩＤＩ（Musical Instrument Digital Interface）形式が挙げられる。また、特許文献２には、市販の音楽用ＣＤ（compact disk）を採点に用いる技術が開示されている。

特開２０１３−１９０５６４号公報（２０１３年９月２６日公開）特開２００５−１４８５９９号公報（２００５年６月９日公開）特許第３４１３６３４号公報（２００３年４月４日登録）

しかしながら、特許文献１の技術では、正解データを用いて評価を行うため、予め正解データを準備しておく必要がある。また、歌唱による音声と正解データとの一致度に応じて評価が行われるため、正解データが示す旋律通りに歌わなければ、評価点が下がる。

また、特許文献２の技術では、正解データとの対比により評価を行うのではなく、市販の音楽用ＣＤから抽出した、メインボーカルと想定される音声との比較により評価を行う。そのため、歌い手が、メインボーカル以外の旋律を歌った場合、その音声については評価されない。

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、市販の音楽用ＣＤ等に記録されたデータを用いて、従来より多様な評価方法により、ユーザ満足度の高い音声評価を行う音声評価装置等を提供することにある。

上記の課題を解決するために、本発明に係る音声評価装置は、音声データを評価する音声評価装置であって、上記音声データから、時間軸に沿ってその音声のピッチを評価対象ピッチとして抽出する評価対象ピッチ抽出部と、複数の音が含まれるオーディオデータから、時間軸に沿って上記複数の音のピッチを、各々基準ピッチとして抽出する基準ピッチ抽出部と、時間軸に沿って単位時間毎に、上記評価対象ピッチと複数の上記基準ピッチとを比較し、該比較の結果に応じて上記音声データを評価する評価部と、を備える構成である。

上記構成によれば、上記オーディオデータから抽出した複数のピッチ候補である上記基準ピッチと上記音声データから抽出した上記評価対象ピッチとを、時間軸に沿って単位時間毎に比較した結果に応じて、上記音声データを評価する。

よって、上述したＭＩＤＩ形式などで記録された正解データを用いることなく、市販の音楽用ＣＤなどから得られる上記オーディオデータのみに基づいて、上記音声データを評価することができる。さらに、単位時間毎に上記評価対象ピッチと比較し得る上記基準ピッチが複数存在するため、１つのピッチと比較する場合と比べて、評価方法が多様に増大する。例えば、上記評価対象ピッチが複数の上記基準ピッチのいずれかと一致すれば評価を上げる（高評価を付ける）等のように、従来は実現できなかった新たな評価方法が実現可能となる。より具体的には、上記評価対象ピッチが歌唱による音声のピッチであり、上記基準ピッチが上記ＣＤに記録されたボーカル、コーラス、および楽器演奏などの各ピッチである場合において、歌唱者が、ボーカルに限らず、コーラスまたは楽器演奏のピッチを歌っても加点して評価を上げるという評価方法が実現可能となる。これにより、加点が多くなりユーザの満足度を高めることができる。

なお、本発明の各態様に係る音声評価装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記音声評価装置が備える各部として動作させることにより上記音声評価装置をコンピュータにて実現させる音声評価装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。さらに、本発明の各態様に係る音声評価装置は集積回路（ＩＣチップ）として実現してもよく、この場合には、上記集積回路を備えるチップなども本発明の範疇に入る。

本発明によれば、市販の音楽用ＣＤ等に記録されたデータを用いて、従来より多様な評価方法により、ユーザ満足度の高い音声評価が実現可能となる。

本発明の一実施形態に係るカラオケ装置の機能ブロック図である。上記カラオケ装置にて基準ピッチを分類した例を示す模式図である。上記カラオケ装置における処理の一例を示すフローチャートである。上記カラオケ装置の変形例を示す機能ブロック図である。

本発明の一実施形態について、図１〜図４に基づいて説明すると以下のとおりである。まず、図１を用いて、本実施形態に係るカラオケ装置１の概要について説明する。図１は、カラオケ装置１の機能ブロック図である。

図１に示すように、カラオケ装置１は、音声入力部２、オーディオ再生部３、カラオケ音作成部４、ミキサー部５、音出力部６（提示部）、表示部７（提示部）、および音声評価装置１０を備えている。また、音声評価装置１０は、音声データの評価を行うものであり、評価対象ピッチ抽出部１１、基準ピッチ抽出部１２、および評価部２０を備えている。

音声入力部２は、歌い手の歌唱による音声が入力されるものであり、マイクロフォン、アンプ、Ａ／Ｄ（Analog/Digital）コンバータなどによって構成されている。音声入力部２は、入力された音声を、音声データとして、評価対象ピッチ抽出部１１およびミキサー部５に出力する。なお、音声入力部２は、歌唱以外の楽器演奏等による音が入力されてもよい。この場合、音声入力部２は、当該音を音声データとして評価対象ピッチ抽出部１１に出力する。

オーディオ再生部３は、市販の音楽用ＣＤ等の記録媒体に記録されている、複数の音が含まれるオーディオデータを再生するものであり、ＣＤプレーヤー等によって構成されている。オーディオ再生部３が再生したオーディオデータは、基準ピッチ抽出部１２およびカラオケ音作成部４に出力される。このオーディオデータは、リニアＰＣＭ（pulse code modulation）などの、同時に再生される複数の音が個々に分離不能である形式のデータであり、ＭＩＤＩ形式などの正解データではない。なお、オーディオデータは、必ずしも記録媒体から取得する必要はなく、通信ネットワークを介して外部の装置から取得してもよい。

カラオケ音作成部４は、オーディオデータから、カラオケ用の伴奏として出力する音（以下、カラオケ音と称する）を作成する。具体的には、オーディオデータに含まれるボーカルの周波数帯域のみを除去したり、オーディオデータに含まれる特定の音程を強調したりするなどによって、カラオケ音を作成する。作成されたカラオケ音は、ミキサー部５に出力される。なお、記憶媒体（不図示）にカラオケ音が予め記憶されている場合、カラオケ装置１はカラオケ音作成部４を備えなくてもよい。この場合、オーディオ再生部３は、上記記録媒体から読み出したカラオケ音をミキサー部５に出力する。

ミキサー部５は、カラオケ音作成部４により作成されたカラオケ音と、音声入力部２に入力された音声データとをミキシングし、出力音を作成する。作成された出力音は、音出力部６に出力される。ミキサー部５は、ミキシングした音に対して、エコーまたはリバーブなどの残響効果を付加したり、ハウリングをキャンセルするなどの調整を施してもよい。

音出力部６は、ミキサー部５が作成した出力音を外部に出力するものであり、Ｄ／Ａコンバータ、アンプ、スピーカなどによって構成されている。また、音出力部６は、評価部２０による評価結果を音声（効果音など）で出力してもよい。これにより、ユーザ（歌い手を含む）は評価結果を聴覚で捉えることができる。

表示部７は、評価部２０による評価結果を画像として表示するものであり、ディスプレイなどによって構成されている。これにより、ユーザは評価結果を視覚で捉えることができる。

評価対象ピッチ抽出部１１は、入力された音声データから、時間軸に沿ってその音声のピッチを評価対象ピッチとして抽出する。抽出した評価対象ピッチは、評価対象ピッチデータとして評価部２０に出力される。音声データに含まれる音のピッチを抽出する手法は公知であるので、その詳細については省略する。

基準ピッチ抽出部１２は、入力されたオーディオデータから、時間軸に沿って複数の音のピッチの各々を、評価基準となるピッチ（以下では「基準ピッチ」と称する）として抽出する。すなわち、基準ピッチ抽出部１２は、メインボーカルの音声、コーラスの音声、各種楽器の演奏音等、オーディオデータに含まれる全ての音のピッチを時間軸に沿って抽出する。抽出した基準ピッチの各々は、基準ピッチデータとして評価部２０に出力される。

基準ピッチは、例えば以下の公知手法にて抽出される。まず、オーディオデータに含まれる複数の音源の音の高調波成分となるべき周波数成分の候補を、所定のバンドパスフィルタを用いて抽出する。次に、周波数成分の候補に対して、各高調波成分の相対的な優勢さを表す基本周波数の確率密度関数を求める。そして、確率密度関数の中でピークを複数抽出し、それぞれのピークの信頼度に基づき、信頼度が高くパワーが大きい基本周波数を抽出する。この基本周波数の抽出手法については、特許文献３に具体的に開示されている。そして、基準ピッチ抽出部１２は、上記基本周波数を有する音から倍音を除いた音のピッチを、基準ピッチとして抽出する。なお、以下のような選択処理を行うことにより基準ピッチを抽出してもよい。

オーディオ再生部３の入力がステレオ方式の場合、基準ピッチ抽出部１２は、２チャンネルにおいて同時刻に再生される音のピッチを抽出する。そして、基準ピッチ抽出部１２は、同時刻に再生される音の各々から抽出された２つのピッチが同一周波数である場合のみ、基準ピッチとして選択する。すなわち、同時刻に再生される２つの音の中央成分のピッチのみを、基準ピッチとして選択する。

また、基準ピッチ抽出部１２は、抽出した基準ピッチの各々を複数のグループに分類してもよい。典型的な分類方法として、（方法１）抽出した基準ピッチの各々を、当該基準ピッチに応じて分類する方法、（方法２）抽出した基準ピッチの各々を、当該基準ピッチが抽出された音の長さ（再生時間長）に応じて分類する方法、が挙げられる。なお、上記方法１に関していえば、音の周波数帯域は当該音の発生源（人、楽器など）に応じて大凡定まるから、上記バンドパスフィルタの帯域を適宜調整することにより、オーディオデータに含まれる旋律毎（パート毎）に分類することも可能である。

図２を用いて、基準ピッチの分類例について説明する。図２の（ａ）および（ｂ）は、基準ピッチの分類例を示す模式図である。同図に示す横長の実線の各々は、時間軸に沿って抽出された１または複数の基準ピッチから構成されており、実線の長さは、基準ピッチの抽出元である音の再生時間長を示している。

図２の（ａ）は、上記方法１による分類例を示している。この例では、分類の基準となる周波数を「Ｆ」として図示した。この例では、周波数Ｆ以上の周波数帯域に属する基準ピッチをグループＡに分類し、周波数Ｆ未満の周波数帯域に属する基準ピッチをグループＢに分類している。

図２の（ｂ）は、上記方法２による分類例を示している。この例では、分類の基準となる音の再生時間長を「Ｔ」として図示した。この例では、Ｔ未満の再生時間長の音から抽出された基準ピッチをグループＣに分類し、Ｔ以上の再生時間長の音から抽出された基準ピッチをグループＤに分類している。なお、基準ピッチの抽出元の音の再生時間長がＴ以上であるか否かは、下記のとおり判定することができる。基準ピッチ抽出部１２にて同一の周波数の基準ピッチを連続して抽出した時間がＴ以上である場合、これら連続して抽出した基準ピッチの抽出元の音の再生時間長はＴ以上であると判定し、一方、基準ピッチ抽出部１２にて同一の周波数の基準ピッチを連続して抽出した時間がＴ未満である場合、これら連続して抽出した基準ピッチの抽出元の音の再生時間長はＴ未満であると判定する。

なお、上述では、周波数Ｆおよび再生時間長Ｔをそれぞれ１つずつ設ける例を示したが、それぞれを複数個ずつ設けることにより、基準ピッチを３以上のグループに分類してもよい。また、オーディオデータに含まれる音声または各種楽器の演奏音の周波数帯域をあらかじめ特定できる場合には、その周波数帯域に応じて周波数Ｆを設定してもよい。この場合、音声入力部２に入力された音声と、オーディオデータに含まれるメインボーカルや特定の楽器等の音との比較を、より精度よく行うことができる。同様に、音声または各種楽器の演奏音の長さをあらかじめ特定できる場合には、その長さに応じて再生時間長Ｔを設定してもよい。

なお、基準ピッチ抽出部１２は、基準ピッチの各々をグループに分類する場合、基準ピッチデータとともに、当該基準ピッチが分類されたグループを示すグループ情報を、評価部２０に出力する。この場合、基準ピッチの分類先のグループが決定してから、当該基準ピッチデータを評価部２０に出力することとなる。

再び図１を参照する。評価部２０は、時間軸に沿って単位時間毎に、評価対象ピッチ抽出部１１が抽出した評価対象ピッチと、基準ピッチ抽出部１２が抽出した複数の基準ピッチとを比較し、該比較の結果に応じて、音声データを評価する。そして、評価結果を音出力部６および／または表示部７に出力する。評価部２０は、一致度判定部２１および評価結果算出部２２を備えている。

一致度判定部２１は、時間軸に沿って単位時間毎に、１つの評価対象ピッチと複数の基準ピッチのいずれかとが一致するか否かを判定する。具体的には、（i）オーディオデータの再生に合わせて音声入力部２に入力された音声から抽出された評価対象ピッチと、（ii）当該評価対象ピッチを抽出した音声が入力された時刻に再生されたオーディオデータから抽出された基準ピッチとが一致するか否かを、時間軸に沿って順次判定する。そして、判定結果を評価結果算出部２２に出力する。判定結果の典型例は、評価対象ピッチと基準ピッチとが一致した回数である。

また、一致度判定部２１は、評価対象ピッチと、複数の基準ピッチのうちのいずれか１つの基準ピッチとが一致する時間の長さを、判定結果に含めることが好ましい。

また、基準ピッチ抽出部１２にて基準ピッチの各々がグループに分類されている場合、一致度判定部２１は、次に示す事項を判定結果に含めることが好ましい。（i）評価対象ピッチが、複数の上記基準ピッチのうち同一グループに属する基準ピッチのいずれかと一致した回数、（ii）評価対象ピッチが、複数の上記基準ピッチのうち同一グループに属する基準ピッチのいずれかと一致した時間の長さ、（iii）評価対象ピッチが、ユーザにより予め定められた特定グループに属する基準ピッチのいずれかと一致した回数、（iv）評価対象ピッチが、ユーザにより予め定められた特定グループに属する基準ピッチのいずれかと連続して一致した時間の長さ。

評価結果算出部２２は、入力された判定結果に基づいて評価結果を算出し、当該評価結果を音出力部６および／または表示部７に出力する。音出力部６に評価結果を提示する場合、評価結果算出部２２は、評価結果に応じた音声を音出力部６に出力する。また、表示部７に評価結果を提示する場合、評価結果算出部２２は、評価結果に応じた画像（点数、文字、など）を表示部７に出力する。なお、評価結果に応じた音声および／または画像は予め音声評価装置１０に記憶されている。

入力された判定結果に、評価対象ピッチと基準ピッチとが一致した回数が含まれる場合、評価結果算出部２２は、当該回数に応じて評価結果を算出する。典型的には、当該回数が多いほど、評価結果として高評価を付ける（つまり、加点を増やす）。

また、入力された判定結果に、評価対象ピッチと、複数の基準ピッチのうちのいずれか１つの基準ピッチとが一致する時間の長さが含まれる場合、評価結果算出部２２は、当該長さに応じて評価結果を算出することが好ましい。典型的には、当該長さが長いほど、評価結果として高評価を付ける（つまり、加点して評価を上げる）。一般に、オーディオデータに含まれる１音が比較的長い場合、その１音と同一の音程を維持したままその長さ分だけ発声した方が、その長さに満たない発声をした場合より、オーディオデータを忠実に歌唱しているといえる。そのため、上記長さに応じて評価を上げることにより、ユーザが満足する評価を提供することができる。

また、入力された判定結果に、評価対象ピッチが同一グループに属する基準ピッチのいずれかと一致した時間の長さが含まれる場合、評価結果算出部２２は、当該長さに応じて評価結果を算出することが好ましい。典型的には、当該長さが長いほど、評価結果として高評価を付ける（つまり、加点を増やす）。この構成によれば、評価対象ピッチが、同一グループに属する基準ピッチと続けて一致するほど評価が上がる。よって、ユーザは、同一グループ内の旋律を続けて歌う場合（または楽器を奏でる場合）、複数グループ内の旋律を移り変わりながら歌うよりも、高い評価を得ることができる。

特に、基準ピッチ抽出部１２にて基準ピッチに応じて複数のグループに分類されている場合、評価対象ピッチが、予め定められた特定グループに属する基準ピッチと一致した回数に応じて評価を上げることが好ましい。一般に、メインボーカル、コーラス、各種楽器が形成する旋律の周波数帯域は、それぞれが所定範囲内に存在する。つまり、その周波数帯域内の旋律に音声データが一致している（すなわち、評価対象ピッチが連続的に抽出された基準ピッチに一致している）ほど、オーディオデータに忠実に即してユーザが歌っている（または楽器を奏でている）ことになる。したがって、特定の周波数帯域に属する基準ピッチと一致した回数に応じて評価を上げることにより、例えばメインボーカルと推定される旋律を歌っている場合の評価を上げることなどが可能となる。それゆえ、ユーザの期待に応じた評価が可能となる。

また、基準ピッチ抽出部１２にて基準ピッチが抽出元の音の長さに応じて複数のグループに分類されており、一致度判定部２１にて評価対象ピッチが同一グループに属する基準ピッチのいずれかと一致する時間の長さを判定している場合には、例えば、オーディオデータに含まれる特定の音の抑揚またはリズムを忠実に再現してユーザが歌うほど評価を上げてもよい。

また、評価結果算出部２２は、判定結果に対して重み付けを行ってもよい。例えば、評価対象ピッチが同一グループに属する基準ピッチのいずれかと所定時間一致した場合、それ以降は、通常より２倍の得点を与えるといった高評価を行ってもよい。さらに、所定時間が経過する毎に、３倍、４倍、・・・の得点を与えるといった高評価を段階的に行ってもよい。

また、評価対象ピッチが、あるグループに属する基準ピッチと一致している場合の評価を、他のグループに属する基準ピッチと一致している場合の評価とに差が生じるように重み付けを行ってもよい。例えば、図２の（ａ）において、評価対象ピッチがグループＡに属する基準ピッチと一致している場合の評価は、グループＢに属する基準ピッチと一致している場合の評価より２倍の重み付けを行ってもよい。

次に、図３を用いて、カラオケ装置１における処理の一例について説明する。なお、ステップＳ１〜Ｓ４の処理は、音声評価装置１０にて行われる。

オーディオ再生部３によりオーディオデータが再生されている間、基準ピッチ抽出部１２は、オーディオデータから時間軸に沿って基準ピッチを抽出する（ステップＳ１；基準ピッチ抽出工程）。また、音声入力部２に音声が入力されている間、評価対象ピッチ抽出部１１は、音声データから時間軸に沿って評価対象ピッチを抽出する（ステップＳ２；評価対象ピッチ抽出工程）。なお、ステップＳ１およびＳ２の処理順は、この順に限定されない。例えば、オーディオデータの再生開始とともに、音声入力が行われた場合には、ステップＳ１およびＳ２の処理は同時に開始される。

ステップＳ１およびＳ２のそれぞれにおいて抽出された基準ピッチおよび評価対象ピッチは、評価部２０によって、時間軸に沿って単位時間毎に比較され（ステップＳ３；評価工程）、比較結果に基づき評価結果が算出される（ステップＳ４；評価工程）。具体的には、一致度判定部２１が、時間軸に沿って、単位時間毎に評価対象ピッチが複数の基準ピッチのいずれかと一致するかどうかを判定し、評価結果算出部２２が、その判定結果に基づく評価結果を算出する。そして、表示部７および／または音出力部６に、評価結果が提示される（ステップＳ５；提示工程）。

なお、各ステップの実行順序として、例えば、次のパターンがある。（i）ステップＳ１〜Ｓ５を単位として繰り返す。（ii）ステップＳ１〜Ｓ４を単位として繰り返した後、ステップＳ５を実行する。（iii）ステップＳ１〜Ｓ３を単位として繰り返した後、ステップＳ４〜Ｓ５を実行する。（iv）ステップＳ１〜Ｓ２を単位として繰り返した後、ステップＳ３〜Ｓ５を実行する。

以上のように、本実施形態の音声評価装置１０は、オーディオデータに含まれる複数の音の全てを評価対象として、音声データの評価を行うことができる。そのため、例えば、メインボーカル以外の旋律を歌ったり、楽器を奏でる場合であっても、適切に評価することができる。なお、メインボーカル以外の旋律には、（i）コーラスの旋律、（ii）各種楽器の旋律、および、（iii）歌い手が意図的にピッチを変えて歌うような音楽的に破綻していない程度の演出等による旋律等が含まれる。

また、各種楽器の旋律も評価対象となるため、間奏またはインストルメンタル曲についても評価対象とすることができる。なお、メインボーカルの旋律も評価対象となるため、正解データを用いた評価と同様の評価を行うことも当然ながら可能である。

このように、音声評価装置１０によれば、オーディオデータを用いて、従来より多様な評価を実現することができる。それゆえ、従来より、ユーザの満足度を向上させることが可能となる。

なお、音声評価装置１０は、ＭＩＤＩ形式等の正解データを含まないオーディオデータから基準ピッチを抽出する点で、正解データを用いてピッチを抽出しない従来技術とは異なることに留意されたい。また、音声評価装置１０は、簡易な構成により、オーディオデータに含まれるメインボーカル、コーラス、各種楽器などのあらゆる音の基準ピッチを評価対象とし得る点で、従来技術とは異なることに留意されたい。

次に、図４を用いて、カラオケ装置１の変形例であるカラオケ装置１ａについて説明する。図４に示すように、カラオケ装置１ａは、記憶部３０および編集部３１を備える点で、カラオケ装置１と異なる。

記憶部３０は、ハードディスク、フラッシュメモリ等の不揮発性の記憶装置によって構成される。記憶部３０には、基準ピッチ抽出部１２が抽出した基準ピッチデータ、および、カラオケ音作成部４が作成したカラオケ音が格納される。

オーディオ再生部３は、カラオケ装置１のオーディオ再生部３が備える構成に加え、カラオケ音の再生指示を受け付けた場合、記憶部３０から読み出したカラオケ音をミキサー部５に出力する。

一致度判定部２１は、評価対象ピッチと比較する基準ピッチを、記憶部３０から読み出す。

編集部３１は、記憶部３０に格納されている基準ピッチおよびカラオケ音をユーザ操作等に応じて編集する処理を行う。例えば、これらのデータに含まれているエラーをユーザ操作等に応じて修正する。

以上のように、カラオケ装置１ａでは、記憶部３０に予め基準ピッチおよびカラオケ音を格納する構成である。よって、基準ピッチ抽出部１２による基準ピッチの抽出、および、カラオケ音作成部４によるカラオケ音の作成を、リアルタイムより長い時間をかけて精度良く行ったり、編集部３１による編集作業を長時間かけて精度良く行うことが可能となる。これにより、正解データに近い各旋律の基準ピッチを提供することができ、また、より高品質のカラオケ音を出力することができる。

なお、記憶部３０は、必ずしもカラオケ装置１ａが備える必要はない。例えば、記憶部３０は、通信ネットワーク上の記憶装置として設けられてもよい。この場合、通信ネットワークに接続可能な複数の装置が、記憶部３０に格納された基準ピッチおよびカラオケ音を共有することが可能となる。

最後に、音声評価装置１０の制御ブロック（特に、評価対象ピッチ抽出部１１、基準ピッチ抽出部１２、および評価部２０）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。その他、カラオケ装置１のカラオケ音作成部４およびミキサー部５についても同様である。後者の場合、音声評価装置１０は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

本発明は、歌唱や楽器演奏などを評価する音声評価装置に利用できる。特に、カラオケでの歌唱を採点するカラオケ装置に好適に利用することができる。

１カラオケ装置、１ａカラオケ装置、６音出力部（提示部）、７表示部（提示部）、１０音声評価装置、１１評価対象ピッチ抽出部、１２基準ピッチ抽出部、２０評価部、２１一致度判定部（評価部）、２２評価結果算出部（評価部）

Claims

音声データを評価する音声評価装置であって、
上記音声データから、時間軸に沿ってその音声のピッチを評価対象ピッチとして抽出する評価対象ピッチ抽出部と、
複数の音が含まれるオーディオデータから、時間軸に沿って上記複数の音のピッチを、各々基準ピッチとして抽出する基準ピッチ抽出部と、
時間軸に沿って単位時間毎に、上記評価対象ピッチと複数の上記基準ピッチとを比較し、該比較の結果に応じて上記音声データを評価する評価部と、を備えることを特徴とする音声評価装置。
上記評価部は、複数の上記基準ピッチのいずれかと上記評価対象ピッチとが一致するとき、評価を上げることを特徴とする請求項１に記載の音声評価装置。
上記評価部は、複数の上記基準ピッチのうちのいずれか１つの基準ピッチと上記評価対象ピッチとが一致する時間の長さに応じて評価を上げることを特徴とする請求項１または２に記載の音声評価装置。
上記基準ピッチ抽出部は、抽出した上記基準ピッチの各々を、当該基準ピッチに応じて複数のグループに分類し、
上記評価部は、同一のグループに属する複数の上記基準ピッチのいずれかと上記評価対象ピッチとが一致する時間の長さに応じて評価を上げることを特徴とする請求項１から３のいずれか１項に記載の音声評価装置。
上記基準ピッチ抽出部は、抽出した上記基準ピッチの各々を、当該基準ピッチの抽出元の音の長さに応じて複数のグループに分類し、
上記評価部は、同一のグループに属する複数の上記基準ピッチのいずれかと上記評価対象ピッチとが一致する時間の長さに応じて評価を上げることを特徴とする請求項１から３のいずれか１項に記載の音声評価装置。
上記音声データは、歌唱による音声を示すデータであり、
請求項１から５のいずれか１項に記載の音声評価装置と、
上記評価部による評価結果をユーザに提示する提示部と、を備えることを特徴とするカラオケ装置。