JP2007256618A

JP2007256618A - 検索装置

Info

Publication number: JP2007256618A
Application number: JP2006080811A
Authority: JP
Inventors: Tatsuya Iriyama; 達也入山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2006-03-23
Filing date: 2006-03-23
Publication date: 2007-10-04

Abstract

【課題】カラオケ装置において、所望する歌唱感を有する歌唱者を検索することのできる技術を提供する。
【解決手段】サーバ装置３のＣＰＵ３１は、通信部３５を介して歌唱分析データを受信したことを検知すると、受信した歌唱分析データと歌唱分析データベース記憶領域３４ａに記憶された歌唱分析データとを比較して、その一致度に応じて、歌唱分析データベース記憶領域３４ａから１以上の歌唱分析データを選択する。ＣＰＵ３１は、選択した歌唱分析データと対応する識別情報を歌唱分析データベース記憶領域３４ａから読み出して、読み出した識別情報を通信ネットワーク４を介してカラオケ装置２に送信する。カラオケ装置２のＣＰＵ１１は、受信した識別情報の示す歌唱者を表示部１５に表示させる。
【選択図】図１

Description

本発明は、歌唱者を検索するための技術に関する。

カラオケ装置においては、歌唱者の歌唱の巧拙を採点するための方法が種々提案されている。例えば、特許文献１においては、歌唱された音声のピッチと基準ピッチとを比較して、どの部分がうまく歌えなかったかを判定する方法が提案されている。また、特許文献２に記載の技術では、歌唱者が歌った曲の物理的特性、聴取者のその曲に対する評価等に応じて歌唱者の歌唱を採点し、よりよい採点のために採点結果を蓄積する方法が提案されている。
特開２００４−０９３６０１号公報特開２０００−９９０１４号公報

ところで、デュエット、アカペラ、ゴスペル、合唱など複数人数で行う歌唱形態はさまざまあるが、そのいずれにおいても、複数人数が「声質」、「音程感」などを揃えることは重要なポイントである。均一な「音質」が効果的なのは、双子の歌手「ザ・ピーナッツ」などの例からも明らかであるし、器楽合奏と異なり、人の歌唱感は「音程感」の個人差が大きい。高度な合唱団でも、練習においてこの「音程感」をそろえることにかなりの苦労を有する。ここでいう音程感とは、例えば、歌いだしの音程上げ下げや、ビブラートの中心音程をどこにおくか、などといった、楽譜に表しきれない細かな音程表現を指す。

カラオケ装置の利用者のなかには、自分と歌唱感が似ている人や、ある特定の歌唱感を有する人（例えば、自分と音程感は同じで声質が異なる人、等）を探してデュエットや合唱を行いたいという要望をもつ者もいる。
本発明は上述した背景の下になされたものであり、所望する歌唱感を有する歌唱者を利用者が見つけることのできる技術を提供することを目的とする。

上記課題を解決するため、本発明は、歌唱者を識別する識別情報と前記歌唱者の歌唱音声の特徴を示す歌唱分析データとの対を複数記憶した記憶手段と、歌唱者の歌唱音声の特徴を示す歌唱分析データを取得する取得手段と、前記取得手段により取得した歌唱分析データと前記記憶手段に記憶された歌唱分析データとを比較し、その一致度に応じて、前記記憶手段に記憶された歌唱分析データから１以上の歌唱分析データを選択する選択手段と、前記選択手段により選択された歌唱分析データと対応する識別情報を前記記憶手段から読み出し、読み出した識別情報を出力する出力手段とを具備することを特徴とする検索装置を提供する。
本発明の好ましい態様においては、前記記憶手段は、前記識別情報に対応付けて歌唱者に関する歌唱者情報を記憶し、前記出力手段は、前記選択手段により選択された歌唱分析データと対応する識別情報を前記記憶手段から読み出し、読み出した識別情報を出力するとともに、当該識別情報と対応する歌唱者情報を前記記憶手段から読み出し、読み出した歌唱者情報を報知することを特徴とする。
本発明の別の好ましい態様においては、前記記憶手段は、前記識別情報に対応付けて歌唱者の連絡先を示す通信アドレスを記憶し、前記出力手段は、前記選択手段により選択された歌唱分析データと対応する識別情報を前記記憶手段から読み出し、読み出した識別情報を出力するとともに、当該識別情報と対応する通信アドレスを前記記憶手段から読み出し、読み出した通信アドレスに宛てて、選択された旨を示すメッセージを通信することを特徴とする。
本発明の更に好ましい態様においては、前記歌唱分析データは、前記音声のピッチ、スペクトルおよびパワーの少なくともいずれか一つを示すデータであることを特徴とする。
また、本発明の別の好ましい態様においては、前記歌唱分析データは、歌唱に用いられている技法の種類とタイミングを示す技法データであることを特徴とする。
また、本発明の更に好ましい態様においては、入力される歌唱者の音声を音声データとして出力する入力手段と、前記入力手段が出力した音声データから前記歌唱分析データを生成する生成手段とを備え、前記取得手段は、前記生成手段により生成された歌唱分析データを取得することを特徴とする。
また、本発明の更に好ましい態様においては、前記生成手段により生成された歌唱分析データを前記記憶手段に記憶する記憶制御手段を備えることを特徴とする。

本発明によれば、所望する歌唱感を有する歌唱者を利用者が見つけることができる。

＜Ａ：第１実施形態＞
＜Ａ−１：構成＞
図１は、この発明の一実施形態に係る検索システム１の全体構成の一例を示すブロック図である。この検索システム１は、カラオケ装置２ａ，２ｂ，２ｃとサーバ装置３とが通信ネットワーク４を介して接続されて構成される。なお、図１には３つのカラオケ装置が例示されているが、本検索システムに含まれるカラオケ装置の数は３に限定されるものではなく、これより多くても少なくてもよい。また、以下では、カラオケ装置２ａ，２ｂ，２ｃを各々区別する必要がない場合には、単に「カラオケ装置２」とする。

図２は、カラオケ装置２のハードウェア構成を例示したブロック図である。図において、ＣＰＵ（Central Processing Unit）１１は、ＲＯＭ（Read Only Memory）１２または記憶部１４に記憶されているコンピュータプログラムを読み出してＲＡＭ（Random Access Memory）１３にロードし、これを実行することにより、カラオケ装置２の各部を制御する。記憶部１４は、例えばハードディスクなどの大容量の記憶手段であり、伴奏データ記憶領域１４ａと、歌詞データ記憶領域１４ｂと、音声データ記憶領域１４ｃと、歌唱分析データ記憶領域１４ｄとを有している。表示部１５は、例えば液晶ディスプレイなどであり、ＣＰＵ１１の制御の下で、カラオケ装置２を操作するためのメニュー画面や、背景画像に歌詞テロップを重ねたカラオケ画面などの各種画面を表示する。操作部１６は、各種のキーを供えており、押下されたキーに対応した信号をＣＰＵ１１へ出力する。マイクロフォン１７は、歌唱者が発音した音声を収音する収音手段である。音声処理部１８は、マイクロフォン１７によって収音された音声（アナログデータ）をデジタルデータに変換してＣＰＵ１１に供給する。スピーカ１９は、音声処理部１８に接続されており、音声処理部１８から出力される信号に応じた強度で放音する。通信部２０は、各種通信装置等を備えており、ＣＰＵ１１の制御の下、通信ネットワーク４を介してサーバ装置３とデータの授受を行う。

記憶部１４の伴奏データ記憶領域１４ａには、例えばＭＩＤＩ（Musical Instruments Digital Interface）形式の伴奏データであって、各曲の伴奏を行う各種楽器の音程（ピッチ）や強さ（ベロシティ）や効果の付与等を示す情報が楽曲の進行に従って記された伴奏データが記憶されている。この伴奏データの中には、楽曲のメロディの音階を示すメロディデータが含まれている。歌詞データ記憶領域１４ｂには、伴奏データと対応する歌詞を示す歌詞データが記憶されている。音声データ記憶領域１４ｃには、マイクロフォン１７から音声処理部１８を経てＡ／Ｄ変換された音声データが、例えばＷＡＶＥ形式やＭＰ３（MPEG Audio Layer-3）形式で時系列に記憶される。歌唱分析データ記憶領域１４ｄには、歌唱者の音声の特徴を示す歌唱分析データが記憶される。本実施形態においては、歌唱分析データとして、音声データのスペクトル、ピッチおよびパワーを示す情報を用いる。

図３は、サーバ装置３のハードウェア構成を例示したブロック図である。図において、ＣＰＵ３１は、ＲＯＭ３２または記憶部３４に記憶されているコンピュータプログラムを読み出してＲＡＭ３３にロードし、これを実行することにより、サーバ装置３の各部を制御する。記憶部３４は、例えばハードディスクなどの大容量の記憶手段であり、歌唱分析データベース記憶領域３４ａと歌唱者情報テーブル記憶領域３４ｂとを有している。通信部３５は、各種通信装置等を備えており、ＣＰＵ３１の制御の下、通信ネットワーク４を介してカラオケ装置２とデータの授受を行う。

記憶部３４の歌唱分析データベース記憶領域３４ａには、歌唱分析データの集合である歌唱分析データベースが記憶されている。
図４は、歌唱分析データベースの内容の一例を示す図である。図示のように、この歌唱分析データベースは、「識別情報」と「歌唱分析データ」との対が複数記憶されている。これらの項目のうち、「識別情報」の項目には、歌唱者を識別する情報が記憶される。この識別情報は、例えば会員番号やユーザＩＤなどの歌唱者個人を識別する情報であってもよい。または、歌唱が行われた場所（部屋番号、店番号）や時刻を示す情報であってもよい。要するに、この識別情報は、歌唱者を識別する情報であればどのようなものであってもよい。
次に、「歌唱分析データ」の項目には、カラオケ装置２で生成された歌唱分析データが記憶される。この歌唱分析データベースには、図示のように、複数の歌唱分析データが記憶される。

次に、記憶部３４の歌唱者情報テーブル記憶領域３４ｂには、「識別情報」と「歌唱者情報」とが対応付けて記憶されている。「識別情報」の項目には歌唱者を識別する情報が記憶されている。「歌唱者情報」の項目には、歌唱者の名前やその歌唱者が利用している店の名称等、歌唱者に関する情報が記憶されている。

＜Ａ−２：動作＞
次に、検索システム１の動作を説明する。
＜Ａ−２−１：歌唱分析データ蓄積動作＞
まず、検索システム１の歌唱分析データ蓄積動作を説明する。
歌唱者は、カラオケ装置２の操作部１６を操作して、伴奏データの再生を指示する。ＣＰＵ１１は、この指示に応じて、伴奏データを伴奏データ記憶領域１４ａから読み出し、音声処理部１８に供給する。音声処理部１８は、供給された伴奏データをアナログ信号に変換してスピーカ１９に供給して放音させる。このとき、ＣＰＵ１１は表示部１５を制御して、「伴奏に合わせて歌唱してください」というような歌唱を促すメッセージを表示するようにしてもよい。歌唱者は、スピーカ１９から放音される伴奏に合わせて歌唱を行う。このとき、歌唱者の音声はマイクロフォン１７によって収音されて音声信号に変換され、音声処理部１８へと供給される。そして、音声処理部１８によってＡ／Ｄ変換された音声データは、記憶部１４の音声データ記憶領域１４ｃに時系列に記憶される。

伴奏データの再生が終了すると、ＣＰＵ１１は、音声データ記憶領域１４ｃに記憶された音声データを所定時間長のフレーム単位に分離し、フレーム単位でピッチ、スペクトルおよびパワーを音声データから算出する。スペクトルの検出にはＦＦＴ（Fast Fourier Transform）を用いればよい。ＣＰＵ１１は、算出したピッチ、スペクトルおよびパワーを示す情報を歌唱分析データとして、歌唱分析データ記憶領域１４ｄに記憶する。なお、この歌唱分析データは、曲全体のピッチ、スペクトルおよびパワーを示す情報であってもよく、または、曲の一部分におけるピッチ、スペクトルおよびパワーを示す情報であってもよい。

続けて、ＣＰＵ１１は、生成した歌唱分析データと識別情報とを、通信ネットワーク４を介してサーバ装置３に送信する。なお、この識別情報は、操作部１６を介して歌唱者によって入力されるようにしてもよく、または、ＣＰＵ１１が自動的に生成するようにしてもよい。

サーバ装置３のＣＰＵ３１は、通信ネットワーク４を介して歌唱分析データを受信したことを検知すると、受信された歌唱分析データと識別情報とを記憶部３４の歌唱分析データベース記憶領域３４ａに記憶する。

カラオケ装置２は、歌唱者によって歌唱が行われる度に、その都度歌唱分析データを生成し、生成した歌唱分析データと識別情報とをサーバ装置３に送信する。これにより、サーバ装置３には、複数の歌唱における歌唱分析データが記憶される。

＜Ａ−２−２：検索動作＞
次に、検索システム１の検索動作について説明する。
まず、検索システム１の利用者は、操作部１６を操作して検索を指示する。カラオケ装置２のＣＰＵ１１は、検索が指示されたことを検知すると、上述した歌唱分析データの生成処理を行う。すなわち、ＣＰＵ１１は、伴奏データを伴奏データ記憶領域１４ａから読み出して伴奏音をスピーカ１９から放音させ、利用者の音声をマイクロフォン１７で収音させて音声データから歌唱分析データを生成する。
カラオケ装置２のＣＰＵ１１は、歌唱分析データを生成すると、生成した歌唱分析データを、通信ネットワーク４を介してサーバ装置３に送信する。

サーバ装置３のＣＰＵ３１は、通信部３５を介して歌唱分析データを受信した（取得した）ことを検知すると、受信した歌唱分析データと歌唱分析データベース記憶領域３４ａに記憶された歌唱分析データとを比較し、その一致度に応じて、歌唱分析データベース記憶領域３４ａに記憶された歌唱分析データから１以上の歌唱分析データを選択する。具体的には、例えば、ＣＰＵ３１は、受信した歌唱分析データ（以下、「受信分析データ」）のピッチと歌唱分析データベース記憶領域３４ａに記憶された歌唱分析データ（以下、「記憶分析データ」）のピッチとを比較して、その一致度が最も高い歌唱分析データを選択する。同様に、受信分析データのスペクトルと記憶分析データのスペクトルとを比較して、その一致度が最も高い歌唱分析データを選択し、また、受信分析データのパワーと記憶分析データのパワーとを比較して、その一致度が最も高い歌唱分析データを選択する。なお、本実施形態においては、ピッチ、スペクトルおよびパワーのそれぞれについて、その一致度が最も高い歌唱分析データをそれぞれ１つずつ選択するようにしたが、選択する数は１に限定されるものではなく、ピッチ、スペクトルおよびパワーのそれぞれについて２以上の歌唱分析データを選択するようにしてもよい。

サーバ装置３のＣＰＵ３１は、選択した歌唱分析データと対応する識別情報を歌唱分析データベース記憶領域３４ａから読み出して、読み出した識別情報を通信ネットワーク４を介してカラオケ装置２に送信（出力）する。このとき、ＣＰＵ３１は、当該識別情報と対応する歌唱者情報を歌唱者情報テーブル記憶領域３４ｂから読み出し、読み出した歌唱者情報を識別情報とあわせて送信する。

カラオケ装置２のＣＰＵ１１は、受信した歌唱者情報を表示部１５に出力し、表示部１５を制御して、歌唱者情報の示す内容を表示部１５に表示させる。
図５は、カラオケ装置２の表示部１５に表示される画面の一例を示す図である。図５に示す例においては、ピッチの一致度が最も高い歌唱者として「歌唱者Ａ」が表示され、また、スペクトルの一致度が最も高い歌唱者として「歌唱者Ｂ」が表示され、また、パワーの一致度が最も高い歌唱者として「歌唱者Ｃ」が表示された場合の例を示している。

このように本実施形態においては、歌唱者の歌唱音声を分析して、分析結果である歌唱分析データを蓄積し、検索結果を利用者に報知する。利用者は、検索システム１を利用して、歌唱における音程感、音質、ダイナミクス等の歌唱感が自分と似ている人を探し出すことができたり、誰と誰の歌い方が似ているか、といったことを知ることができる。これにより、例えば合唱のオーディションやメンバー募集を自動化することが可能である。または、オーディオデータを送信しあっての（遠隔地での）バーチャルデュエット、バーチャル合唱等も可能となる。

＜Ｂ：第２実施形態＞
次に、この発明の第２の実施形態について説明する。この実施形態が、上述した第１の実施形態と異なる点は、歌唱分析データの内容が異なる点である。そのため、以下の説明においては、上述した第１実施形態と同様の構成要素については、同じ符号を付与してその説明を省略する。

本実施形態においては、歌唱分析データとして、歌唱に用いられている歌唱技法の種類とタイミングを示す技法データを用いる。
図６は、本実施形態における歌唱分析データの内容の一例を示す図である。図示のように、歌唱分析データは、「区間情報」と「種別情報」との各項目が互いに関連付けられている。これらの項目のうち、「区間情報」の項目には、音声データにおいて歌唱技法が用いられた区間を示す情報が記憶される。なお、この区間情報が示す区間は、開始時刻情報と終了時刻情報とによって表される時間幅を有した区間であってもよく、またはある１点の時刻を示すものであってもよい。

「種別情報」の項目には、予め複数種類設定された歌唱技法を識別する情報が記憶される。この「種別情報」は、例えば「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」、「つっこみ」、「ため」、「息継ぎ」などの歌唱技法を識別する情報である。「ビブラート」は、音の高さをほんのわずかに連続的に上下させ、震えるような音色を出す技法を示す。「しゃくり」は、目的の音より低い音から発音し、音程を滑らかに目的の音に近づけていく技法を示す。「こぶし」は、装飾的に加えるうねるような節回しを行う技法を示す。「ファルセット」は、いわゆる「裏声」で歌う技法を示す。「つっこみ」は、歌い出しを本来のタイミングよりも早いタイミングにする技法を示す。「ため」は、歌い出しを本来のタイミングよりも遅いタイミングにする技法を示す。「息継ぎ」は、歌唱者が息継ぎをするタイミングを示すものである。

次に、カラオケ装置２が行う歌唱分析データ生成処理について以下に説明する。
歌唱者は、カラオケ装置２の操作部１６を操作して、伴奏データの再生を指示する。ＣＰＵ１１は、この指示に応じて、伴奏データを伴奏データ記憶領域１４ａから読み出し、音声処理部１８に供給する。音声処理部１８は、供給された伴奏データをアナログ信号に変換してスピーカ１９に供給して放音させる。歌唱者は、スピーカ１９から放音される伴奏に合わせて歌唱を行う。このとき、歌唱者の音声はマイクロフォン１７によって収音されて音声信号に変換され、音声処理部１８へと供給される。そして、音声処理部１８によってＡ／Ｄ変換された音声データは、記憶部１４の音声データ記憶領域１４ｃに時系列に記憶される。

伴奏データの再生が終了すると、ＣＰＵ１１は、音声データ記憶領域１４ｃに記憶された音声データに対して音声分析処理を行い、時刻に対応したピッチ、パワー、スペクトルを音声データから算出する。続けて、ＣＰＵ１１は、伴奏データ記憶領域１４ａに記憶された伴奏データに含まれるメロディデータと音声データ記憶領域１４ｃに記憶された音声データとを所定のフレーム単位で解析し、音声データとメロディデータとの時間的な対応関係を検出する。

次に、ＣＰＵ１１は、音声データから算出されたピッチ、パワーおよびスペクトルの時間的な変化のパターンを解析して、この解析結果が予め定められたパターンに対応するか否かを判定し、対応する場合には当該パターンに対応する区間を特定の歌唱技法が用いられている区間として特定する。そして、ＣＰＵ１１は、特定した区間の区間情報を、その歌唱技法を示す種別情報と関連付けて記憶部１４の歌唱分析データ記憶領域１４ｄに記憶する。

ここで、各歌唱技法が用いられている区間の特定処理について以下に説明する。本実施形態においては、ＣＰＵ１１は、「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」、「つっこみ」、「ため」および「息継ぎ」の各歌唱技法が用いられている区間を特定（検出）する。これらのうち、「ビブラート」および「しゃくり」は音声データから算出されたピッチに基づいて検出する。また、「こぶし」および「ファルセット」は音声データから算出されたスペクトルに基づいて検出する。また、「ため」および「つっこみ」は、音声データから算出されたピッチとメロディデータとに基づいて検出する。また、「息継ぎ」は、音声データから算出されたパワーとメロディデータとに基づいて検出する。

ＣＰＵ１１は、音声データとメロディデータとの対応関係と、音声データから算出されたピッチとに基づいて、音声データに含まれる音の開始時刻と当該音に対応するメロディデータの音の開始時刻とが異なる区間を特定する。ここで、ＣＰＵ１１は、音声データのピッチの変化タイミングがメロディデータのピッチの変化タイミングよりも早く現れている区間、すなわち音声データに含まれる音の開始時刻が当該音に対応するメロディデータの音の開始時刻よりも早い区間については、この区間を「つっこみ」の歌唱技法が用いられている区間であると特定する。ＣＰＵ１１は、特定した区間の区間情報を、「つっこみ」を示す識別情報と関連付けて記憶部１４の歌唱分析データ記憶領域１４ｄに記憶する。

逆に、ＣＰＵ１１は、音声データとメロディデータとの対応関係と、音声データから算出されたピッチとに基づいて、音声データのピッチの変化タイミングがメロディデータのピッチの変化タイミングよりも遅れて現れている区間、すなわち音声データに含まれる音の開始時刻が当該音に対応するメロディデータの音の開始時刻よりも遅い区間を検出し、検出した区間を「ため」の歌唱技法が用いられている区間であると特定する。

また、ＣＰＵ１１は、音声データから算出したピッチの時間的な変化のパターンを解析して、中心となる周波数の上下に所定の範囲内でピッチが連続的に変動している区間を検出し、検出した区間を「ビブラート」の歌唱技法が用いられている区間であると特定する。

また、ＣＰＵ１１は、音声データから算出したピッチの時間的な変化のパターンを解析して、低いピッチから高いピッチに連続的にピッチが変化する区間を検出し、検出した区間を「しゃくり」の歌唱技法が用いられている区間であると特定する。なお、この処理は、メロディデータとの対応関係に基づいて行うようにしてもよい。すなわち、ＣＰＵ１１は、音声データとメロディデータとの対応関係に基づいて、音声データのピッチが、低いピッチから連続的にメロディデータのピッチに近づいている区間を検出すればよい。

また、ＣＰＵ１１は、音声データとメロディデータとの対応関係と、音声データから算出されたパワーとに基づいて、メロディデータが有音である区間であって音声データのパワー値が所定の閾値よりも小さい区間を検出し、検出した箇所を「息継ぎ」の区間であると特定する。

また、ＣＰＵ１１は、音声データから算出されたスペクトルの時間的な変化パターンを解析して、スペクトル特性がその予め決められた変化状態に急激に遷移している区間を検出し、検出した区間を「ファルセット」の歌唱技法が用いられている区間であると特定する。ここで、予め決められた変化状態とは、スペクトル特性の高調波成分が極端に少なくなる状態である。例えば、図７に示すように、地声の場合は沢山の高調波成分が含まれるが（同図（ａ）参照）、ファルセットになると高調波成分の大きさが極端に小さくなる（同図（ｂ）参照）。なお、この場合、ＣＰＵ１１は、ピッチが大幅に上方に変化したかどうかも参照してもよい。ファルセットは地声と同一のピッチを発生する場合でも用いられることもあるが、一般には地声では発声できない高音を発声するときに使われる技法だからである。したがって、音声データのピッチが所定音高以上の場合に限って「ファルセット」の検出をするように構成してもよい。また、男声と女声とでは一般にファルセットを用いる音高の領域が異なるので、音声データの音域や、音声データから検出されるフォルマントによって性別検出を行い、この結果を踏まえてファルセット検出の音高領域を設定してもよい。

また、ＣＰＵ１１は、スペクトル特性の変化の態様が短時間に多様に切り替わる区間を検出し、検出した部分を「こぶし」の歌唱技法が用いられている部分であると特定する。「こぶし」の場合は、短い区間において声色や発声方法を変えて唸るような味わいを付加する歌唱技法であるため、この技法が用いられている区間においてはスペクトル特性が多様に変化するからである。

以上のようにして、ＣＰＵ１１は、音声データから各歌唱技法が用いられている区間を検出し、検出した区間を示す区間情報をその歌唱技法を示す種別情報と関連付けて記憶部１４の歌唱分析データ記憶領域１４ｄに記憶する。

サーバ装置３のＣＰＵ１１は、取得した歌唱分析データと歌唱分析データベース記憶領域３４ａに記憶された歌唱分析データとを比較し、その一致度に応じて歌唱分析データを選択する。このように、本実施形態においては、歌唱技法を示す技法データを歌唱分析データとして用いるから、歌唱技法を用いるタイミング等が似ている歌唱者を検索することができる。

＜Ｃ：変形例＞
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
（１）上述した実施形態においては、サーバ装置３のＣＰＵ３１は、取得した歌唱分析データとの一致度が最も高い歌唱分析データを選択するようにした。これに加えて、あるグループにおいて誰と誰とが似ているかという組み合わせを生成して利用者に報知するようにしてもよい。具体的には、例えば、歌唱者Ａ〜歌唱者Ｄのグループと、歌唱者Ｅ〜歌唱者Ｈのグループとのふたつのグループとにおいて、歌唱分析データの一致度の高い組み合わせ（例えば、「歌唱者Ａと歌唱者Ｅ、歌唱者Ｂと歌唱者Ｈ」等）を特定するようにしてもよい。
歌い方は、その人の性格や、音楽的嗜好を反映すると考えられる。例えば、素直で照れ屋な人は安定したストレートな歌い方をするだろうし、開放的で情熱的な人は表現豊かであるといえる。また、クラシックしか聴かない人と演歌しか聴かない人とでは歌い方は全く異なる。このような特徴を予め採集し、性格情報や相性情報を生成してデータベース化しておくことで、歌唱分析データを基に、性格・相性判断を行うこともできる。すなわち、歌唱分析データを検索キーにして、データベースを検索することにより、性格情報や相性情報を出力するように構成することもできる。この場合、複数の人が順番に歌った後に性格判断や相性判断を行い、その結果を記憶しておけば、それらの結果を照合することにより、誰と誰との相性が合っているというような判定を行うこともできる。これによれば、似たもの同士のカップルを生成するというゲームも行うことができる。

または、取得した歌唱分析データに対して所定の条件を満たす歌唱分析データを選択するようにしてもよい。具体的には、例えば、サーバ装置の記憶部に、歌手ユニットの各メンバーの歌唱分析データを夫々記憶部に記憶させておき、サーバ装置のＣＰＵが、取得した歌唱分析データと記憶部に記憶された歌唱分析データとを比較して、取得した歌唱分析データがどのユニットのどのメンバーの歌唱感に似ているかを判定する。そして、サーバ装置のＣＰＵが、判定されたユニットの他のメンバーと似ている歌唱分析データを、歌唱分析データベースから選択して利用者に報知する。このようにすれば、例えば利用者が、ある歌手ユニットのあるメンバーに歌唱感が似ている場合に、そのパートを歌うと効果的であることを知ることができる。
さらに、ある特徴を持つ歌声を持つ人や、あるユニットの特定のメンバーの歌唱感に似ている人を捜し出すこともできる。すなわち、サーバ装置３にそのようなリクエストを登録しておき、サーバ装置３においては、事前に記憶している歌唱分析データにリクエストがあった旨のマーク（フラグなど）を付けておく。そして、これに似ている歌唱が入力された場合に、その方の識別情報（あるいは名前データなど）をリクエストした人に報知する。リクエストをした人がメールアドレスをサーバに登録している場合は、そのメールアドレスに通知すればよい。このようにすれば、所望の歌唱感を持った人を容易に捜し出すことができる。

（２）上述した第１の実施形態においては、歌唱分析データとして、音声のパワー、ピッチおよびスペクトルを示す情報を用いたが、音声のピッチを示す情報を歌唱分析データとして用いるようにしてもよく、または、スペクトルを示す情報を歌唱分析データとして用いるようにしてもよい。要するに、音声のピッチ、スペクトルおよびパワーの少なくともいずれか一つを示す情報を歌唱分析データとして用いるようにしてもよい。また、ピッチ、スペクトルおよびパワーのうちのどの情報を用いるかを利用者が操作部を用いて選択できるようにしてもよい。または、第２実施形態で示した歌唱技法のいずれかを利用者が選択できるようにしてもよい。

また、ピッチやパワー、スペクトル等の複数の情報を総合した結果を利用者に報知するようにしてもよい。
図８は、複数の情報を総合した結果を報知する画面の一例を示す図である。この例においては、サーバ装置３のＣＰＵ３１は、ピッチ、パワーおよびスペクトルのそれぞれの検索結果を数値で算出し、重み付けを行って総合結果を出力する。

（３）なお、カラオケ装置による検索結果の報知の形態は、表示に限らず、例えば音声メッセージを出力するような形態であってもよいし、また、メッセージを電子メール形式で利用者のメール端末に送信するなどといった形態であってもよい。要は、利用者に対して何らかの手段でメッセージ乃至情報を伝えることができる報知形態であればよい。

（４）また、上述した実施形態においては、選択された歌唱分析データと対応する識別情報の示す利用者を報知させるようにしたが、これに加えて、選択された歌唱分析データと対応する識別情報の示す歌唱者（以下、「選択された歌唱者」）に、選択された旨を報知するようにしてもよい。
具体的には、例えば、サーバ装置が、選択された歌唱者の利用しているカラオケ装置に選択された旨を示す情報を送信し、そのカラオケ装置のＣＰＵが、受信した情報に基づいて、「あなたと声質の似ている○○さんがバーチャルデュエットを希望しています」といったメッセージを表示するようにしてもよい。または、メッセージを電子メール形式で選択された歌唱者に送信するようにしてもよい。このようにすれば、選択された歌唱者は、自分が選択されたことを認識することができる。なお、電子メール形式で選択された歌唱者に送信する際は、歌唱分析データとともにその人の電子メールアドレスを識別情報に対応付けて記憶しておき、当該アドレスに宛てて送信するように構成すればよい。
なお、メッセージの宛先アドレスとなる通信アドレスは、電子メールアドレスに限らず、選択された歌唱者が利用しているカラオケ装置のＩＰアドレスやＭＡＣアドレスであってもよく、または、選択された歌唱者が利用しているパーソナルコンピュータのＩＰアドレスやＭＡＣアドレスであってもよい。または、歌唱者の電話番号であってもよい。電話番号の場合は、サーバ装置またはカラオケ装置が、識別情報に対応付けて記憶された電話番号に対して自動的に発呼し、呼接続が確立した時点で予め記憶された音声メッセージを再生するようにしてもよい。要するに、識別情報に対応付けて歌唱者の連絡先を示す通信アドレスを記憶し、識別情報に対応する通信アドレスを記憶手段から読み出して、読み出した通信アドレスに宛てて、選択された旨を示すメッセージを通信するようにすればよい。

また、カラオケボックスなどでは、各部屋の利用者について歌唱分析データを生成すれば、上述のようなバーチャルデュエットの組み合わせを作ることが容易である。この場合、各部屋に設置されているカラオケ装置毎にＩＤを持っておけば、どの部屋から入力された歌声であるかを知ることができるから、似た歌声を持つ人が在席している部屋のモニタ装置に上述の「あなたと声質の似ている○○さんがバーチャルデュエットを希望しています」というようなメッセージを表示することができる。
これに応答する場合は、カラオケ装置に入力される音声を互いに相手の部屋のカラオケ装置の音声入力系統に加えることにより、リアルタイムでバーチャルデュエットを行うことができる。伴奏については、いずれか一方の部屋の伴奏信号を他方の部屋のカラオケ装置に転送するように構成すればよい。同様にして、３以上の部屋において、バーチャルコーラスを行うことも可能である。

（５）また、上述した実施形態においては、検索キーとなる歌唱分析データは、カラオケ装置２のＣＰＵが生成するようにしたが、これに代えて、ＣＰＵ１１が、歌唱分析データの入力を促す処理を行い、利用者が歌唱分析データを入力するようにしてもよい。この場合は、例えば、ＣＰＵ１１が、歌唱分析データの入力を促す画面を表示部１５に表示させ、利用者は、例えばＵＳＢ（Universal Serial Bus）等のインタフェースを介してカラオケ装置２に歌唱分析データを入力するようにすればよい。この場合、事前にパーソナルコンピュータ等の装置で歌唱分析データを生成するようにしておけばよい。この際も、上述した実施形態と同様に、パーソナルコンピュータが、マイクロフォンで歌唱者の音声を収音して、収音した音声を分析して歌唱分析データを生成する。
また、カラオケ装置２にＲＦＩＤリーダを設けて、歌唱分析データが書き込まれたＲＦＩＤをカラオケ装置２のＲＦＩＤリーダが読み取るようにしてもよい。要するに、歌唱分析データの取得は、ＣＰＵ１１が歌唱分析データを生成してもよく、あるいはＣＰＵ１１に歌唱分析データを直接入力してもよい。

または、識別情報が入力されることによって歌唱分析データが指定されるようにしてもよい。この場合は、例えば、ＣＰＵ１１が、利用者の識別情報の入力を促す画面を表示部１５に表示させ、利用者が操作部１６を操作してカラオケ装置２に入力するようにしてもよい。この場合は、カラオケ装置２のＣＰＵ１１がサーバ装置３に識別情報を送信し、サーバ装置３のＣＰＵ３１は、識別情報を受信すると、これに対応する歌唱分析データを歌唱分析データベース記憶領域３４ａから読み出す。

（６）歌唱者を識別する識別情報に加えて、曲を識別する曲識別情報を歌唱分析データに対応付けて歌唱分析データベースに記憶させるようにしてもよい。このように構成するとともに、歌唱分析データを検索する際には、曲識別情報も入力するようにすれば、曲識別情報が一致する歌唱分析データ群を対象として検索を行うことができるから、任意の曲について似た歌声の人を捜すことができる。

（７）上述した実施形態では、カラオケ装置２とサーバ装置３とが通信ネットワークで接続された検索システム１が、本実施形態に係る機能の全てを実現するようになっている。これに対し、通信ネットワークで接続された３以上の装置が上記機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態のシステムを実現するようにしてもよい。または、ひとつの装置が上記機能のすべてを実現するようにしてもよい。

（８）上述した実施形態におけるカラオケ装置２のＣＰＵ１１またはサーバ装置３のＣＰＵ３１によって実行されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、ＣＤ（Compact Disk）−ＲＯＭ、ＤＶＤ（Digital Versatile Disk）、ＲＡＭなどの記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由でカラオケ装置２またはサーバ装置３にダウンロードさせることも可能である。

本発明の第１実施形態に係る検索システムの構成の一例を示すブロック図である。同実施形態のカラオケ装置のハードウェア構成の一例を示すブロック図である。同実施形態のサーバ装置のハードウェア構成の一例を示すブロック図である。同実施形態の歌唱分析データベースの内容の一例を示す図である。同実施形態のカラオケ装置の表示部に表示される画面の一例を示す図である。本発明の第２実施形態に係る歌唱分析データの内容の一例を示す図である。ファルセットの検出処理を説明するための図である。カラオケ装置の表示部に表示される画面の一例を示す図である。

符号の説明

１…検索システム、２，２ａ，２ｂ，２ｃ…カラオケ装置、３…サーバ装置、４…通信ネットワーク、１１，３１…ＣＰＵ、１２，３２…ＲＯＭ、１３，３３…ＲＡＭ、１４，３４…記憶部、１５…表示部、１６…操作部、１７…マイクロフォン、１８…音声処理部、１９…スピーカ、２０，３５…通信部。

Claims

歌唱者を識別する識別情報と前記歌唱者の歌唱音声の特徴を示す歌唱分析データとの対を複数記憶した記憶手段と、
歌唱者の歌唱音声の特徴を示す歌唱分析データを取得する取得手段と、
前記取得手段により取得した歌唱分析データと前記記憶手段に記憶された歌唱分析データとを比較し、その一致度に応じて、前記記憶手段に記憶された歌唱分析データから１以上の歌唱分析データを選択する選択手段と、
前記選択手段により選択された歌唱分析データと対応する識別情報を前記記憶手段から読み出して、読み出した識別情報を出力する出力手段と
を具備することを特徴とする検索装置。
前記記憶手段は、前記識別情報に対応付けて歌唱者に関する歌唱者情報を記憶し、
前記出力手段は、前記選択手段により選択された歌唱分析データと対応する識別情報を前記記憶手段から読み出し、読み出した識別情報を出力するとともに、当該識別情報と対応する歌唱者情報を前記記憶手段から読み出し、読み出した歌唱者情報を報知することを特徴とする請求項１に記載の検索装置。
前記記憶手段は、前記識別情報に対応付けて歌唱者の連絡先を示す通信アドレスを記憶し、
前記出力手段は、前記選択手段により選択された歌唱分析データと対応する識別情報を前記記憶手段から読み出し、読み出した識別情報を出力するとともに、当該識別情報と対応する通信アドレスを前記記憶手段から読み出し、読み出した通信アドレスに宛てて、選択された旨を示すメッセージを通信することを特徴とする請求項１に記載の検索装置。
前記歌唱分析データは、前記音声のピッチ、スペクトルおよびパワーの少なくともいずれか一つを示すデータであることを特徴とする請求項１乃至３のいずれかに記載の検索装置。
前記歌唱分析データは、歌唱に用いられている技法の種類とタイミングを示す技法データであることを特徴とする請求項１乃至３のいずれかに記載の検索装置。
入力される歌唱者の音声を音声データとして出力する入力手段と、
前記入力手段が出力した音声データから前記歌唱分析データを生成する生成手段とを備え、
前記取得手段は、前記生成手段により生成された歌唱分析データを取得する
ことを特徴とする請求項１乃至５のいずれかに記載の検索装置。
前記生成手段により生成された歌唱分析データを前記記憶手段に記憶する記憶制御手段を備えることを特徴とする請求項６に記載の検索装置。