JP2004021233A

JP2004021233A - 楽曲検索サーバ、音声認識装置、楽曲提供システム、楽曲提供方法、およびそのプログラム

Info

Publication number: JP2004021233A
Application number: JP2002180438A
Authority: JP
Inventors: Yasuhisa Fujito; 藤戸　靖久; Hiroshi Sasaki; 佐々木　浩; Rika Shimizu; 清水　里香
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2002-06-20
Filing date: 2002-06-20
Publication date: 2004-01-22
Anticipated expiration: 2022-06-20
Also published as: JP4030808B2

Abstract

【課題】複雑なキー操作を必要とせず、ユーザの歌唱に応じて、容易に楽曲を提供する音声認識装置、楽曲提供システム、楽曲提供方法、およびそのプログラムを提供する。
【解決手段】ユーザは、楽曲を歌唱する。携帯端末１０は、ユーザの歌唱による音声データを音声認識装置３０に送信する。音声認識装置３０は、受信した音声データを構成する各音素の高さおよび長さを検出し、該当する楽曲データを検索する。音声認識装置３０は、サーバ２０に検索結果を送信する。サーバ２０は、受信した検索結果に基づいて、楽曲データを抽出し、携帯端末１０に送信する。
【選択図】　　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、楽曲検索サーバ、音声認識装置、楽曲提供システム、楽曲提供方法、およびそのプログラムに関し、特に、ユーザの歌唱による音声データに基づいて、楽曲データを検索する楽曲検索サーバ、音声認識装置、楽曲提供システム、楽曲提供方法、およびそのプログラムに関する。
【０００２】
【従来の技術】
従来、ユーザの嗜好または声域などに応じてカラオケなどの楽曲を調整する従来技術として、以下のようなものがあった。
【０００３】
例えば、特開平８−２３４７７１号公報が開示するところのカラオケ装置（以下、従来例１）では、歌唱者の歌唱音声信号に基づいてハーモニー音声信号を形成することにより、歌唱者の歌唱に対してオリジナル歌手のような声のハーモニー音声を付加することを可能にしていた。
【０００４】
また、特開平８−２９２７７２号公報が開示するところの個人情報読取機能付きカラオケ装置（以下、従来例２）では、個人情報に書き込まれている調データおよびテンポデータを読み取り、その読み取ったデータをカラオケ曲演奏に反映させることにより、顧客の歌いやすいカラオケ曲設定を自動的に行っていた。
【０００５】
また、特開平１１−２５９０７０号公報が開示するところの電子楽器（以下、従来例３）では、録音した演奏データを再生する際にテンポ情報を入力することにより、操作者の好みに応じた様々なテンポで演奏データを再生することが可能であった。
【０００６】
【発明が解決しようとする課題】
しかしながら、従来例１は、歌唱者が歌唱する楽曲に自動的にハーモニーを付加するものであり、歌唱者の歌唱に従って、特定の楽曲を提供するといった構成を有していなかった。
【０００７】
また、従来例２は、顧客が選択したカラオケ曲のキーおよびテンポを調整するものであり、歌唱者の歌唱に従って、特定の楽曲を提供するといった構成を有していなかった。
【０００８】
また、従来例３は、演奏データのテンポを調整するものであって、歌唱者の歌唱に従って、特定の楽曲を提供するといった構成を有していなかった。
【０００９】
本発明は、上記問題点に鑑みてなされたものであり、複雑なキー操作を必要とせず、ユーザの歌唱に応じて、容易に楽曲を提供する音声認識装置、楽曲提供システム、楽曲提供方法、およびそのプログラムを提供することを目的とする。
【００１０】
【課題を解決するための手段】
かかる目的を達成するため、請求項１記載の発明は、ユーザの歌唱に基づく音声データを構成する各音の高さおよび長さに基づいて、自身に格納されている１つ以上の楽曲を示す楽曲データから、音声データに対応する楽曲データを検索することを特徴とする。
【００１１】
また、請求項２記載の発明は、ユーザの歌唱に基づく音声データを構成する各音の高さおよび長さを検出し、検出した音声データにおける各音の高さおよび長さに基づいて、自装置に格納されている１つ以上の楽曲を示す楽曲データから、音声データに対応する楽曲データを検索することを特徴とする。
【００１２】
また、請求項３記載の発明は、楽曲を示す１つ以上の楽曲データに、それぞれ、各楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納手段と、ネットワークを介して通信可能となっている携帯端末装置からユーザの歌唱に基づく音声データを受信する音声データ受信手段と、音声データ受信手段により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出手段と、音声データ検出手段により検出された音声データにおける各音の高さおよび長さに基づいて、１つ以上の楽曲データのうち、当する楽曲データを検索する楽曲データ検索手段と、を有することを特徴とする。
【００１３】
また、請求項４記載の発明によれば、請求項３記載の音声認識装置において、楽曲データ検索手段は、音声データ検出手段により検出された音声データにおける各音の高さおよび長さと各楽曲データにおける各音の高さおよび長さとをそれぞれ比較し、１つ以上の楽曲データから、音声データと構成する各音の高さおよび長さが略一致した楽曲データを検索することを特徴とする。
【００１４】
また、請求項５記載の発明は、楽曲を示す１つ以上の楽曲データに、それぞれ、各楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納手段と、ネットワークを介して通信可能となっている携帯端末装置からユーザの歌唱に基づく音声データを受信する音声データ受信手段と、音声データ受信手段により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出手段と、音声データ検出手段により検出された音声データを構成する各音の高さに基づいて、音声データ全体のキーを示すキー情報を出力するキー情報出力手段と、音声データ検出手段により検出された音声データを構成する各音の長さに基づいて、音声データ全体のテンポを示すテンポ情報を出力するテンポ情報出力手段と、１つ以上の楽曲データのうち、キー情報出力手段により出力されたキー情報と、テンポ情報出力手段により出力されたテンポ情報と、に略一致したキー情報およびテンポ情報の楽曲データを検索するキーテンポ楽曲検索手段と、を有することを特徴とする。
【００１５】
また、請求項６記載の発明によれば、請求項５記載の音声認識装置において、キー情報出力手段は、音声データ検出手段により検出された音声データを構成する各音の高さのうち、最高値および最低値を検出し、検出した音の高さの最高値および最低値をキー情報として出力することを特徴とする。
【００１６】
また、請求項７記載の発明によれば、請求項５または６記載の音声認識装置において、テンポ情報出力手段は、音声データ検出手段により検出された音声データを構成する各音の長さの平均値を検出し、検出した音の長さの平均値をテンポ情報として出力することを特徴とする。
【００１７】
また、請求項８記載の発明は、楽曲を示す１つ以上の楽曲データに、それぞれ、各楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納手段と、ネットワークを介して通信可能となっている携帯端末装置からユーザの歌唱に基づく音声データを受信する音声データ受信手段と、音声データ受信手段により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出手段と、楽曲データ格納手段により格納される楽曲データであって、ユーザが歌唱した楽曲を示す歌唱楽曲データを構成する各音の高さおよび長さを検出する歌唱楽曲データ検出手段と、音声データを構成する各音と歌唱楽曲データを構成する各音との間における各音ごとの音の高さおよび長さの差分を検出する差分情報検出手段と、１つ以上の楽曲データのうち、差分情報検出手段により検出された音の高さおよび長さの差分に基づいて、当する楽曲データを検索する差分楽曲検索手段と、を有することを特徴とする。
【００１８】
また、請求項９記載の発明によれば、請求項８記載の音声認識装置において、差分情報検出手段は、音声データを構成する各音と歌唱楽曲データを構成する各音との間における各音ごとの音の高さおよび長さの差分を検出し、検出した音の高さおよび長さの差分の平均値をそれぞれ算出し、差分楽曲検索手段は、歌唱楽曲データに付加されているキーおよびテンポを示す情報から、差分情報検出手段により算出された差分の平均値分だけ異なるキーおよびテンポを示す情報が付加されている楽曲データを抽出することを特徴とする。
【００１９】
また、請求項１０記載の発明は、携帯端末装置と、ネットワークを介して携帯端末装置と通信可能である楽曲配信サーバと、携帯端末装置とネットワークを介して通信可能であり、楽曲配信サーバと接続されている音声認識装置と、を有する楽曲提供システムであって、音声認識装置は、楽曲を示す１つ以上の楽曲データに、それぞれ、各楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納手段と、携帯端末装置からユーザの歌唱に基づく音声データを受信する音声データ受信手段と、音声データ受信手段により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出手段と、音声データ検出手段により検出された音声データにおける各音の高さおよび長さと１つ以上の楽曲データにおける各音の高さおよび長さとをそれぞれ比較し、１つ以上の楽曲データのうち、音声データと構成する各音の高さおよび長さが略一致した楽曲データを検索する楽曲データ検索手段と、楽曲配信サーバは、楽曲を示す１つ以上の楽曲データを格納するサーバ楽曲格納手段と、楽曲データ検索手段による検出結果を、音声認識装置から受信し、受信した検出結果に基づいて、サーバ楽曲格納手段により格納されている１つ以上の楽曲データのうち、当する楽曲データを携帯端末装置に送信する楽曲データ送信手段と、を有することを特徴とする。
【００２０】
また、請求項１１記載の発明は、携帯端末装置と、ネットワークを介して携帯端末装置と通信可能である楽曲配信サーバと、携帯端末装置とネットワークを介して通信可能であり、楽曲配信サーバと接続されている音声認識装置と、を有する楽曲提供システムであって、音声認識装置は、楽曲を示す１つ以上の楽曲データに、それぞれ、各楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納手段と、携帯端末装置からユーザの歌唱に基づく音声データを受信する音声データ受信手段と、音声データ受信手段により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出手段と、音声データ検出手段により検出された音声データを構成する各音の高さのうち、最高値および最低値を抽出して音声データ全体のキーを示すキー情報とし、出力するキー情報出力手段と、音声データ検出手段により検出された音声データを構成する各音の長さの平均値を音声データ全体のテンポを示すテンポ情報とし、出力するテンポ情報出力手段と、１つ以上の楽曲データのうち、キー情報出力手段により出力されたキー情報と、テンポ情報出力手段により出力されたテンポ情報と、にそれぞれ略一致したキー情報およびテンポ情報の楽曲データを検索するキーテンポ楽曲検索手段と、を有し、楽曲配信サーバは、楽曲を示す１つ以上の楽曲データを格納するサーバ楽曲格納手段と、キーテンポ楽曲検索手段による検索結果を、音声認識装置から受信し、受信した検索結果に基づいて、サーバ楽曲格納手段により格納されている１つ以上の楽曲データのうち、当する楽曲データを携帯端末装置に送信する楽曲データ送信手段と、を有することを特徴とする。
【００２１】
また、請求項１２記載の発明は、携帯端末装置と、ネットワークを介して携帯端末装置と通信可能である楽曲配信サーバと、携帯端末装置とネットワークを介して通信可能であり、楽曲配信サーバと接続されている音声認識装置と、を有する楽曲提供システムであって、音声認識装置は、楽曲を示す１つ以上の楽曲データに、それぞれ、各楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納手段と、携帯端末装置からユーザの歌唱に基づく音声データを受信する音声データ受信手段と、音声データ受信手段により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出手段と、楽曲データ格納手段により格納される楽曲データであって、ユーザが歌唱した楽曲を示す歌唱楽曲データを構成する各音の高さおよび長さを検出する歌唱楽曲データ検出手段と、音声データを構成する各音と歌唱楽曲データを構成する各音との間における各音ごとの音の高さおよび長さの差分を検出する差分情報検出手段と、差分情報検出手段により検出された音の高さおよび長さの差分に基づいて、１つ以上の楽曲データから、当する楽曲データを検索する差分楽曲検索手段と、を有し、楽曲配信サーバは、楽曲を示す１つ以上の楽曲データを格納するサーバ楽曲格納手段と、キーテンポ楽曲検索手段による検索結果を、音声認識装置から受信し、受信した検索結果に基づいて、サーバ楽曲格納手段により格納されている１つ以上の楽曲データのうち、当する楽曲データを携帯端末装置に送信する楽曲データ送信手段と、を有することを特徴とする。
【００２２】
また、請求項１３記載の発明によれば、請求項１１または１２記載の楽曲提供システムにおいて、携帯端末装置からユーザが歌唱するための楽曲データのダウンロード要求を受信すると、サーバ楽曲格納手段により格納されている１つ以上の楽曲データのうち、ダウンロード要求されている楽曲データを抽出し、抽出した楽曲データを携帯端末装置に送信する歌唱楽曲送信手段を有することを特徴とする。
【００２３】
また、請求項１４記載の発明は、楽曲を示す１つ以上の楽曲データから所定の楽曲データを検索する楽曲提供システムを用いた楽曲提供方法であって、１つ以上の楽曲データに、それぞれ、各楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納工程と、ユーザの歌唱に基づく音声データを受信する音声データ受信工程と、音声データ受信工程により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出工程と、音声データ検出工程により検出された音声データにおける各音の高さおよび長さと１つ以上の楽曲データにおける各音の高さおよび長さとをそれぞれ比較し、１つ以上の楽曲データのうち、音声データと構成する各音の高さおよび長さが略一致した楽曲データを検索する楽曲データ検索工程と、を有することを特徴とする。
【００２４】
また、請求項１５記載の発明は、楽曲を示す１つ以上の楽曲データから所定の楽曲データを検索する楽曲提供システムを用いた楽曲提供方法であって、１つ以上の楽曲データに、それぞれ、各楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納工程と、ユーザの歌唱に基づく音声データを受信する音声データ受信工程と、音声データ受信工程により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出工程と、音声データ検出工程により検出された音声データを構成する各音の高さのうち、最高値および最低値を抽出して音声データ全体のキーを示すキー情報とし、出力するキー情報出力工程と、音声データ検出工程により検出された音声データを構成する各音の長さの平均値を音声データ全体のテンポを示すテンポ情報とし、出力するテンポ情報出力工程と、１つ以上の楽曲データのうち、キー情報出力工程により出力されたキー情報と、テンポ情報出力工程により出力されたテンポ情報と、にそれぞれ略一致したキー情報およびテンポ情報の楽曲データを検索するキーテンポ楽曲検索工程と、を有することを特徴とする。
【００２５】
また、請求項１６記載の発明は、楽曲を示す１つ以上の楽曲データから所定の楽曲データを検索する楽曲提供システムを用いた楽曲提供方法であって、１つ以上の楽曲データに、それぞれ、各楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納工程と、ユーザの歌唱に基づく音声データを受信する音声データ受信工程と、音声データ受信工程により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出工程と、楽曲データ格納工程により格納される楽曲データであって、ユーザが歌唱した楽曲を示す歌唱楽曲データを構成する各音の高さおよび長さを検出する歌唱楽曲データ検出工程と、音声データを構成する各音と歌唱楽曲データを構成する各音との間における各音ごとの音の高さおよび長さの差分を検出する差分情報検出工程と、差分情報検出工程により検出された音の高さおよび長さの差分に基づいて、１つ以上の楽曲データから、当する楽曲データを検索する差分楽曲検索工程と、を有することを特徴とする。
【００２６】
また、請求項１７記載の発明は、楽曲を示す１つ以上の楽曲データに、それぞれ、各楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納処理と、ユーザの歌唱に基づく音声データを受信する音声データ受信処理と、音声データ受信処理により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出処理と、音声データ検出処理により検出された音声データにおける各音の高さおよび長さと１つ以上の楽曲データにおける各音の高さおよび長さとをそれぞれ比較し、１つ以上の楽曲データのうち、音声データと構成する各音の高さおよび長さが略一致した楽曲データを検索する楽曲データ検索処理と、をコンピュータに実行させることを特徴とする。
【００２７】
また、請求項１８記載の発明は、楽曲を示す１つ以上の楽曲データに、それぞれ、各楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納処理と、ユーザの歌唱に基づく音声データを受信する音声データ受信処理と、音声データ受信処理により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出処理と、音声データ検出処理により検出された音声データを構成する各音の高さのうち、最高値および最低値を抽出して音声データ全体のキーを示すキー情報とし、出力するキー情報出力処理と、音声データ検出処理により検出された音声データを構成する各音の長さの平均値を音声データ全体のテンポを示すテンポ情報とし、出力するテンポ情報出力処理と、１つ以上の楽曲データのうち、キー情報出力処理により出力されたキー情報と、テンポ情報出力処理により出力されたテンポ情報と、にそれぞれ略一致したキー情報およびテンポ情報の楽曲データを検索するキーテンポ楽曲検索処理と、をコンピュータに実行させることを特徴とする。
【００２８】
また、請求項１９記載の発明は、楽曲を示す１つ以上の楽曲データに、それぞれ、各楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納処理と、ユーザの歌唱に基づく音声データを受信する音声データ受信処理と、音声データ受信処理により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出処理と、楽曲データ格納処理により格納される楽曲データであって、ユーザが歌唱した楽曲を示す歌唱楽曲データを構成する各音の高さおよび長さを検出する歌唱楽曲データ検出処理と、音声データを構成する各音と歌唱楽曲データを構成する各音との間における各音ごとの音の高さおよび長さの差分を検出する差分情報検出処理と、差分情報検出処理により検出された音の高さおよび長さの差分に基づいて、１つ以上の楽曲データから、当する楽曲データを検索する差分楽曲検索処理と、をコンピュータに実行させることを特徴とする。
【００２９】
【発明の実施の形態】
（第１の実施形態）
（第１の実施例）
図１は、本発明の第１の実施形態における第１の実施例の楽曲提供システムの構成を示す図である。本実施例では、まず、ユーザは、歌詞およびメロディがわかっているが曲名がわからないといった楽曲について歌唱する。楽曲提供システムは、上記の歌唱による音声データに適合する楽曲を検索し、ユーザに検索した楽曲を提供するものである。以下、図１を用いて、本実施例における楽曲提供システムの構成および動作について説明する。
【００３０】
楽曲提供システムは、携帯端末１０と、サーバ２０と、音声認識装置３０と、無線パケット網１と、無線音声網２と、ネットワーク３と、を有する。
【００３１】
無線パケット網１は、携帯端末１０とサーバ２０とを無線で接続するものであり、携帯端末１０・サーバ２０間のデータ転送を行う伝送路である。
【００３２】
無線音声網２は、携帯端末１０と音声認識装置３０とを無線で接続するものであり、携帯端末１０・音声認識装置３０間の音声データ転送を行う伝送路である。
【００３３】
ネットワーク３は、サーバ２０と音声認識装置３０とを有線／無線で接続するものであり、サーバ２０・音声認識装置３０間のデータ転送を行う伝送路である。
【００３４】
携帯端末１０は、ユーザにより操作される情報処理装置であって、携帯電話機であってもよいし、ＰＨＳ、ＰＤＡ、またはノートブック型ＰＣであってもよい。また、携帯端末１０は、デスクトップ型ＰＣ、タワー型ＰＣ、またはカラオケ店などにもうけられているカラオケ装置であってもよいし、以下説明する携帯端末１０の機能を有しているものであれば、他の機器であってもよい。ユーザは、携帯端末１０を操作してユーザの歌唱に基づく音声データを音声認識装置３０に送信し、そのユーザの歌唱に応じた楽曲を取得する。
【００３５】
サーバ２０は、ユーザに係る情報を管理する情報処理装置であって、Ｗｅｂサーバであってもよい。また、サーバ２０は、ワークステーションなどのハイエンドＰＣにより実現されるとしてもよい。サーバ２０は、ユーザに係る情報を管理するとともに、携帯端末１０に、楽曲再生のための楽曲データおよびＷｅｂページなどの情報を配信する。
【００３６】
音声認識装置３０は、ユーザの歌唱による音声データを音声認識して該当する楽曲を検索する情報処理装置であって、ワークステーションなどのハイエンドＰＣにより実現されるとしてもよい。音声認識装置３０は、携帯端末１０から音声データを受け取ると、自身に蓄積されている楽曲データのうち該当する楽曲データを検索し、検索結果をサーバ２０に送信する。
【００３７】
図２は、本発明の第１の実施形態の第１の実施例における携帯端末１０の構成を示す図である。以下、図２を用いて、本実施例における携帯端末１０の構成および動作について説明する。
【００３８】
携帯端末１０は、制御部１１と、送受信部１２と、データ格納部１３と、表示部１４と、操作部１５と、音声入出力部１６と、を有する。
【００３９】
制御部１１は、送受信部１２、データ格納部１３、表示部１４、操作部１５、および音声入出力部１６と接続されており、送受信部１２、データ格納部１３、表示部１４、操作部１５、および音声入出力部１６を含む携帯端末１０が有する各部位の制御を行う。
【００４０】
送受信部１２は、無線パケット網１を介してサーバ２０と、無線音声網２を介して音声認識装置３０と、それぞれデータの送受信を行う。さらに、送受信部１２は、通常の携帯電話機またはＰＨＳなどのように電話通信を行う機能を有する。
【００４１】
データ格納部１３は、データを格納する部位である。例えば、サーバ２０からダウンロードされた楽曲のデータなどを格納する。
【００４２】
表示部１４は、例えば、液晶または有機ＥＬなどによるディスプレイであって、文字および画像情報などを表示する。例えば、表示部１４は、サーバ２０から送信された文字／画像情報などを表示する。
【００４３】
操作部１５は、情報の入力を行う。例えば、操作部１５は、通常の携帯電話機などに設けられているテンキーまたは方向キーなどであってもよいし、他の形状の操作部位であってもよい。
【００４４】
音声入出力部１６は、音声の入出力を行う部位である。例えば、音声入出力部１６には、通常の携帯電話機などに設けられているようなマイクロフォンおよびスピーカが設けられているとしてもよい。音声入出力部１６は、ユーザの発声（歌唱）による携帯端末１０近傍の音声を入力する。また、音声入出力部１６は、サーバ２０または音声認識装置３０から送信された音声情報を出力する。さらに、音声入出力部１６は、データ格納部１３に格納されている楽曲データを出力する。
【００４５】
図３は、本発明の第１の実施形態の第１の実施例におけるサーバ２０の構成を示す図である。以下、図３を用いて、本実施例におけるサーバ２０の構成および動作について説明する。
【００４６】
サーバ２０は、制御部２１と、送受信部２２と、楽曲データ格納部２３と、楽曲属性情報格納部２４と、ユーザ情報格納部２５と、楽曲データ編集部２６と、配信情報格納部２７と、データ比較部２８と、を有する。
【００４７】
制御部２１は、送受信部２２、楽曲データ格納部２３、楽曲属性情報格納部２４と、ユーザ情報格納部２５、楽曲データ編集部２６、配信情報格納部２７、およびデータ比較部２８と接続されており、送受信部２２、楽曲データ格納部２３、楽曲属性情報格納部２４、ユーザ情報格納部２５、楽曲データ編集部２６、配信情報格納部２７、およびデータ比較部２８を含むサーバ２０が有する各部位の制御を行う。
【００４８】
送受信部２２は、無線パケット網１を介して携帯端末１０とデータ通信を行う。また、送受信部２２は、ネットワーク３を介して音声認識装置３０と接続されており、データの送受信を行う。例えば、送受信部２２は、音声認識装置３０から検索結果を受信し、携帯端末１０に検索結果を示す楽曲のデータを送信する。
【００４９】
楽曲データ格納部２３は、１つ以上のＭＩＤＩ形式による楽曲データを格納する。また、楽曲データ格納部２３は、各楽曲データにおいて、音素ごとに対応した歌詞データを格納する。
【００５０】
楽曲属性情報格納部２４は、楽曲データ格納部２３に格納されている各楽曲データの属性情報を含むデータベースを保持する。例えば、楽曲属性情報格納部２４には、属性情報として、各楽曲データに対応した曲名、歌手名、楽曲データＩＤ、および楽曲における所定の範囲を示す選択範囲情報などが格納されている。なお、楽曲属性情報格納部２４は、上記以外の情報を格納するとしてもよい。
【００５１】
ユーザ情報格納部２５は、１つ以上のユーザに係る情報（以下、ユーザ情報）を格納する。各ユーザ情報には、各ユーザを識別するためのユーザＩＤ情報が付加されている。ユーザ情報には、ユーザ名、携帯端末の電話番号、ユーザのメールアドレス、ユーザの年齢／性別、および各ユーザによる楽曲提供システムの利用履歴などの情報が含まれるとしてよい。なお、ユーザ情報には、上記以外の情報が含まれるとしてよい。
【００５２】
楽曲データ編集部２６は、楽曲属性情報格納部２４に格納されている選択範囲情報に基づいて、楽曲データを編集し、楽曲を所定時間分（例えば、１０秒間分）再生するための部分データを作成する。
【００５３】
配信情報格納部２７は、例えば、携帯端末１０に表示させるＷｅｂページなどの配信情報などを格納する。
【００５４】
データ比較部２８は、音声認識装置３０から送信された音声データと、楽曲データ格納部２３に格納されている楽曲データを比較し、音声データと一致または近い楽曲データを検索する。なお、携帯端末１０から検索条件を示す検索条件情報が送信された場合、データ比較部２８は、その検索条件を反映させて楽曲データ検索を行う。
【００５５】
図４は、本発明の第１の実施形態の第１の実施例における音声認識装置３０の構成を示す図である。以下、図４を用いて、本実施例における音声認識装置３０の構成および動作について説明する。
【００５６】
音声認識装置３０は、制御部３１と、送受信部３２と、データ格納部３３と、音声変換部３６と、を有する。
【００５７】
制御部３１は、送受信部３２、データ格納部３３、および音声変換部３６と接続されており、送受信部３２、データ格納部３３、および音声変換部３６を含む音声認識装置３０における各部位を制御する。
【００５８】
送受信部３２は、無線音声網２を介して携帯端末１０と音声情報の送受信を行う。例えば、送受信部３２は、携帯端末１０から、ユーザの歌唱による音声情報を受信する。また、送受信部３２は、ネットワーク３を介してサーバ２０と有線／無線接続されており、データの送受信を行う。さらに、送受信部３２は、通常の携帯電話機またはＰＨＳなどのように電話通信を行う機能を有する。
【００５９】
データ格納部３３は、送受信部３１により受信された音声を自身に録音する。また、データ格納部３３は、サーバ２０から送信されたユーザ情報を一時格納する。データ格納部３３は、ユーザ情報として少なくともユーザの携帯端末の電話番号を示す情報を格納するものとする。なお、ユーザ情報には、上記以外の情報が含まれるとしてもよい。
【００６０】
音声変換部３６は、データ格納部３３に格納された所定のデータ形式（例えばＷＡＶ形式）の音声データを他のデータ形式（楽曲データ格納部２３に格納されている楽曲データのデータ形式）の音声データに変換し、格納する。
【００６１】
図５は、本発明の第１の実施形態の第１の実施例における楽曲提供システムによるユーザ情報登録を示すシーケンスである。以下、図１を用い、図５に沿って、楽曲提供システムによるユーザ情報登録処理について説明する。
【００６２】
まず、携帯端末１０は、携帯端末１０のユーザの氏名および電話番号などのユーザ情報をサーバ２０に送信する（Ａ１０→Ａ２０）。
【００６３】
サーバ２０は、携帯端末１０からユーザ情報を受信し、自身にユーザ情報を登録すると、ユーザ情報の登録が完了した旨の情報を携帯端末１０に送信する（Ａ２１→Ａ１１）。
【００６４】
図６は、本発明の第１の実施形態における楽曲提供システムによるユーザ情報登録動作の流れを示すフローチャートである。以下、図１乃至図４を用い、図６に沿って、本実施形態における楽曲提供システムによるユーザ情報登録動作について詳細に説明する。
【００６５】
まず、携帯端末１０は、サーバ２０に対してユーザ情報を登録するための配信情報の配信要求（Ｗｅｂサイトの接続要求）を行う（ステップＳ１０１）。
【００６６】
送受信部２２は、携帯端末１０からの配信情報の配信要求を受信すると、配信情報格納部２７に格納されているユーザ情報登録のための配信情報（Ｗｅｂページ）を携帯端末１０に送信する（ステップＳ１０２）。
【００６７】
送受信部１２は、サーバ２０からユーザ情報登録のための配信情報を受信すると、表示部１４は、受信された配信情報を表示する（ステップＳ１０３）。
【００６８】
次に、操作部１５は、表示部１４に表示された配信情報のフォームに従ってユーザ情報を入力する（ステップＳ１０４）。
【００６９】
ここで、図７を用いて、ユーザ情報登録のための画面表示について説明する。図７は、本発明の第１の実施形態の第１の実施例におけるユーザ情報登録のための配信情報の画面表示を示す図である。操作部１５は、図７に示されているような、「氏名」、「性別」、「（携帯端末の）電話番号」、および「住所」といったユーザ情報を入力し、入力後「登録」キーを選択すると、送受信部１２は、入力されたユーザ情報をサーバ２０に送信する。なお、入力されるユーザ情報は、図７に示されるものに限定されないものとする。
【００７０】
再度図６に沿って説明を進める。送受信部２２は、携帯端末１０からユーザ情報を受信すると、制御部２１は、その受信されたユーザ情報送信元のユーザのＩＤを示すユーザＩＤ情報を発行し、送受信部２２により受信されたユーザ情報に付加する。ユーザ情報格納部２５は、ユーザＩＤ情報が付加されたユーザ情報を格納する（ステップＳ１０５）。ユーザ情報格納後、送受信部２２は、ユーザ情報登録が完了した旨の情報を携帯端末１０に送信する。また、送受信部２２は、発行されたユーザＩＤ情報についても携帯端末１０に送信する。以上で楽曲提供システムは、ユーザ情報の登録処理を終了する。
【００７１】
図８は、本発明の第１の実施形態における楽曲提供システムによる楽曲検索処理を示すシーケンスである。以下、図８に沿って、本実施形態における楽曲提供システムによる楽曲通信処理について説明する。
【００７２】
まず、携帯端末１０は、サーバ２０が保持する楽曲検索サイトにアクセス要求する（Ｂ１０→Ｂ２０）。
【００７３】
次に、サーバ２０は、携帯端末１０にアクセス要求された楽曲検索サイトの情報を、携帯端末１０に送信する（Ｂ２１→Ｂ１１）。
【００７４】
次に、携帯端末１０は、楽曲検索を行う際の検索条件を示す情報をサーバ２０に送信する（Ｂ１２→Ｂ２２）。
【００７５】
サーバ２０は、携帯端末１０の電話番号情報を音声認識装置３０に送信する（Ｂ２３→Ｂ３０）。
【００７６】
次に、携帯端末１０は、ユーザの歌唱による音声を音声認識装置３０に送信する（Ｂ１３→Ｂ３１）。
【００７７】
音声認識装置３０は、受信した音声を所定のデータ形式で録音する。音声認識装置３０は、その録音した音声データのデータ形式を変換し、変換した音声データをサーバ２０に送信する（Ｂ３２→Ｂ２４）。
【００７８】
サーバ２０は、音声認識装置３０から受信した音声データに基づいて、楽曲データを検索し、その検索結果情報を携帯端末１０に送信する（Ｂ２５→Ｂ１４）。
【００７９】
次に、携帯端末１０は、受信した検索結果に示されている楽曲データのダウンロード要求をサーバ２０に送信する（Ｂ１５→Ｂ２６）。
【００８０】
サーバ２０は、要求された楽曲データを携帯端末１０にダウンロードする（Ｂ２７→Ｂ１６）。以上で、楽曲提供システムは、楽曲検索処理を終了する。
【００８１】
図９および図１０は、本発明の第１の実施形態における楽曲提供システムによる楽曲検索動作の流れを示すフローチャートである。以下、図９および図１０に沿って、本実施形態における楽曲提供システムによる楽曲検索処理について説明する。
【００８２】
まず、携帯端末１０は、サーバ２０に対して楽曲を検索するための配信情報の配信要求（Ｗｅｂサイトの接続要求）を行う（ステップＳ２０１）。この際、送受信部１２は、操作部１５などにより入力されたユーザＩＤを示す情報を、サーバ２０に送信する。
【００８３】
送受信部２２は、携帯端末１０から、ユーザＩＤ情報および配信情報の配信要求を受信すると、配信情報格納部２７に格納されている楽曲検索のための配信情報（Ｗｅｂページ）を携帯端末１０に送信する（ステップＳ２０２）。
【００８４】
送受信部１２は、サーバ２０から楽曲検索のための配信情報を受信すると、表示部１４は、受信された配信情報（検索条件入力画面）を表示する（ステップＳ２０３）。
【００８５】
図１１は、本発明の第１の実施形態における楽曲（歌声）検索の際の検索条件入力画面を示す図である。図１１に示されているように、検索条件入力画面には、「１．歌手名」、「２．ジャンル」、および「３．曲調」といった検索条件の入力欄と、「送信」キーと、が設けられている。本実施形態では、例として、歌手名は「山本三郎」、ジャンルは「歌謡曲」、曲調は「バラード」が入力されている。操作部１５が、各検索条件入力後に「送信」キーを選択すると、送受信部１２は、入力された検索条件を示す情報をサーバ２０に送信する（ステップＳ２０４）。また、送受信部１２は、検索条件情報送信とともに、楽曲検索画面の情報の送信要求をサーバ２０に送信する。
【００８６】
なお、操作部１５は、検索条件入力画面上の検索条件欄に、直接文字入力してもよいし、検索条件欄に検索条件が列挙されたプルダウンメニューを設けて、そのプルダウンメニューから所定の検索条件を選択するようにしてもよい。また、操作部１５は、複数設けられている検索条件のうち所定の検索条件だけ指定するとしてもよい。また、検索条件の種類および個数は、図１１に示されているものに限定されない。
【００８７】
送受信部２２が、携帯端末１０から検索条件情報を受信すると、制御部２１は、送受信部２２により受信されたユーザＩＤ情報に基づいて、ユーザ情報格納部２５から該当するユーザの電話番号情報を抽出し、受信されたユーザＩＤ情報に付加する。送受信部２２は、電話番号情報が付加されたユーザＩＤ情報を、音声認識装置３０に送信する（ステップＳ２０５）。また、ユーザ情報格納部２５は、受信された検索条件情報を該当するユーザＩＤに対応させて格納する。
【００８８】
送受信部３２がユーザＩＤ情報を受信すると、制御部３１は、ユーザＩＤ情報および検索条件情報送信元の電話番号情報をそれぞれ互いに対応させるようにしてデータ格納部３３に格納させる。
【００８９】
送受信部２２は、携帯端末１０から楽曲検索画面の表示要求を受信すると、配信情報格納部２７に格納されている楽曲検索画面情報を、携帯端末１０に送信する（ステップＳ２０６）。携帯端末１０に送信される楽曲検索画面情報には、後述するＰＨＯＮＥ−ＴＯ機能を起動させるための「歌声検索スタートキー」が含まれる。また、送受信部２２は、楽曲検索画面情報とともに、音声認識装置３０の電話番号情報についても携帯端末１０に送信する。
【００９０】
送受信部１２は、サーバ２０から音声認識装置３０の電話番号情報とともに楽曲検索画面情報を受信すると、表示部１４は、楽曲検索画面を表示する。また、データ格納部１３は、送受信部１２により受信された音声認識装置３０の電話番号情報を格納する（ステップＳ２０７）。
【００９１】
図１２は、本発明の第１の実施形態における楽曲検索画面を示す図である。図１２に示されているように、楽曲検索画面には、「歌声検索スタート」キーが表示されている。
【００９２】
操作部１５が、楽曲検索画面における歌声検索スタートキーを選択すると、制御部１１は、携帯端末１０が有するＰＨＯＮＥ−ＴＯ機能を起動させる。ＰＨＯＮＥ−ＴＯ機能とは、所定の入力を検出すると所定の端末などへ発呼し、電話通信を確立する機能である。送受信部１２は、データ格納部１３に格納されている音声認識装置３０の電話番号情報を用いて、音声認識装置３０に発呼し、無線音声網３を介した携帯端末１０・音声認識装置３０間の電話通信を確立する（ステップＳ２０８）。
【００９３】
次に、ユーザは検索したい楽曲を歌唱する。音声入出力部１６は、ユーザの歌唱に基づく音声を入力する（ステップＳ２０９）。
【００９４】
送受信部１２は、電話通信により音声とともに、携帯端末１０の電話番号を示す情報を音声認識装置３０に送信する（ステップＳ２１０）。
【００９５】
送受信部３２は、携帯端末１０から音声を受信し、所定のデータ形式（ＷＡＶ形式）で受信した音声をデータ格納部３３に録音する。また、送受信部３２は、音声とともに、携帯端末１０の電話番号情報を受信すると、制御部３１は、音声データ送信元の携帯端末１０の電話番号に該当する電話番号情報がデータ格納部３３に格納されているか否かを判断する（ステップＳ２１１）。音声データ送信元の端末の電話番号情報が格納されていないと判断された場合（ステップＳ２１１／Ｎｏ）、制御部３１は、送信元端末のユーザから楽曲の検索要求がないと判断し、楽曲提供システムは、動作を終了する。また、制御部３１は、データ格納部３３に格納されている音声データを消去する。
【００９６】
送信元端末の電話番号情報がデータ格納部３３に格納されていると判断された場合（ステップＳ２１１／Ｙｅｓ）、音声変換部３６は、データ格納部３３に録音されている音声データを、楽曲データ格納部２３に格納されている楽曲データのデータ形式に変換する（ステップＳ２１２）。本実施例では、音声変換部３６は、音声データをＭＩＤＩ形式に変換するものとする。
【００９７】
ＭＩＤＩ形式は、音単位で、「音の高さ」、「音の長さ」、および「ボリューム」などの情報を保持するデータ形式である。音声データをＭＩＤＩ形式に変換することにより、音声データを構成する音単位で容易に解析することが可能となる。また、本実施例では、音声認識装置３０は、ＷＡＶ形式の音声データをＭＩＤＩ形式に変換してからサーバ２０に送信するが、サーバ２０が音声データのデータ形式を変換する手段をさらに有しているとしてもよく、サーバ２０が音声認識装置３０から受け取ったＷＡＶ方式の音声データをＭＩＤＩ形式に変換するとしてもよい。
【００９８】
次に、送受信部３２は、変換された音声データに、該当するユーザＩＤ情報（格納されていた電話番号情報に対応するユーザＩＤ情報）を付加させて、サーバ２０に送信する（ステップＳ２１３）。
【００９９】
送受信部２２が音声認識装置３０から音声データを受信すると、データ比較部２８は、受信された音声データに付加されたユーザＩＤ情報を参照し、対応する検索条件情報を、ユーザ情報格納部２５から抽出する。データ比較部２８は、抽出した検索条件情報に示されている検索条件内において、変換されたＭＩＤＩ形式の音声データと、楽曲データ格納部２３に格納されているＭＩＤＩ形式の楽曲データと、を比較し、音声データと一致または近い楽曲データを検索する（ステップＳ２１４）。
【０１００】
ＭＩＤＩデータは、「音の高さ」、「音の長さ」、「音の大きさ」、「テンポ（ＢＰＭ）」、および「音色」などの様々な演奏情報からなる。データ比較部２８は、音声データと各楽曲データとの間で、「音の高さ」および「音の長さ」の比較を行い、楽曲を検索する。
【０１０１】
図１３は、本発明の第１の実施形態の第１の実施例における音声データおよび楽曲データの例を示す図である。図１３の（ａ）は、音声データを示す図であり、図１３の（ｂ）は、楽曲データ格納部２３に格納されている楽曲データａを示す図であり、図１３の（ｃ）は、楽曲データ格納部２３に格納されている楽曲データｂを示す図である。以下、図１３を用いて、データ比較部２８による楽曲検索動作の一例について説明する。
【０１０２】
図１３の（ａ）、（ｂ）、（ｃ）における縦軸は、音声／楽曲を構成する音の高さを示しており、横軸は、時間軸を示している。例えば、図１３の（ａ）に示されている音声データは、「ド」の音が１単位時間再生された後に、「ミ」の音が４単位時間再生され、その後「レ」の音が２単位時間再生されるデータを示している。なお、「単位時間」は、所定の時間の長さを示すものとし、その時間の長さは、特に限定されないものとする。
【０１０３】
図１３に示されているように、音声データおよび楽曲データａ、ｂを構成する１番目の音（１単位時間長の「ド」）と３番目の音（２単位時間長の「レ」）では、「音の高さ」および「音の長さ」が一致している。
【０１０４】
一方、各データの２番目の音に関しては、各データにおいてそれぞれ異なっている。図１３に示されているように、音声データの２番目の音は、４単位時間長の「ミ」であり、楽曲データａの２番目の音は、３単位時間長の「ミ」であり、楽曲データｂの２番目の音は、２単位時間長の「ファ」である。各データの２番目の音を比較すると、「音の高さ」および「音の長さ」に関して、楽曲データａの方が楽曲データｂよりも音声データに近い値を示している。データ比較部３７は、上記の比較結果から音声データに基づく楽曲の検索結果として、楽曲データａを楽曲データｂよりも上位にリストアップする。
【０１０５】
なお、本実施例では、便宜上、「ド」、「レ」、「ミ」、「ファ」、「ソ」、「ラ」、「シ」の７音を用いて「音の高さ」を説明したが、音声データおよび楽曲データは、他の音により構成されるとしてもよい。また、本実施例では、「音の長さ」は単位時間×ｎ（ｎは１以上の整数）で示されていたが、「音の長さ」を他の方法により表現するようにしてもよい。
【０１０６】
本実施例では、データ比較部２８は、音声データを構成する音の「高さ」および「長さ」に一致／近い音により構成される楽曲データを検索結果として出力する。データ比較部２８は、データ比較の際、「音の高さ」が一致／近い楽曲データを検索結果において優先的に出力してもよいし、「音の長さ」が一致／近い楽曲データを検索結果において優先的に出力してもよい。
【０１０７】
図１４は、本発明の第１の実施形態の第１の実施例におけるサーバ２０が保持する楽曲属性情報を示す図である。各楽曲属性情報は、楽曲データの属性を示す情報であって、楽曲データ格納部２３により格納されている各楽曲データにそれぞれ対応している。楽曲属性情報格納部２４は、例えば、図１４に示されているように、属性情報として、楽曲データＩＤ、楽曲の曲名、歌手名、ジャンル、および曲調などの情報を格納する。
【０１０８】
データ比較部２８は、ユーザ情報格納部２５に格納されている検索条件情報に基づいて、楽曲検索処理を行う。例えば、図１２に示されているように、検索条件が、「１．歌手名：山本三郎」、「２．ジャンル：歌唱曲」、「３．曲調：バラード」であった場合、制御部２１は、上記検索条件を全て満たす楽曲を抽出する。楽曲属性情報格納部２４に図１４に示されているような楽曲属性情報が格納されている場合、制御部２１は、楽曲データＩＤ「０００１」、「０００２」、「０００３」、「０００５」を抽出する。データ比較部２８は、音声データと抽出されたＩＤの楽曲データとを比較し、楽曲検索処理を行う。なお、検索結果として出力する楽曲数は、予め設定されているとしてもよいし、携帯端末１０から送信された情報に基づいて決定されるようにしてもよい。
【０１０９】
データ比較部２８が楽曲の検索結果を示す情報を出力すると、送受信部２２は、その出力された検索結果情報を携帯端末１０に送信する（ステップＳ２１５）。
【０１１０】
送受信部１２が検索結果情報を受信すると、表示部１４は、その検索結果情報を表示する（ステップＳ２１６）。図１５は、本発明の第１の実施形態の第１の実施例における検索結果情報を示す画面図である。図１５には、検索結果情報として、音の高さ・長さにおいて、ユーザが歌唱した音声データと一致／近い楽曲名および歌手名が示されている。その際、表示部１４は、表示する楽曲データを、音声データに最も近いものから順に並べ替えるようにして表示するようにしてもよい。操作部１５が検索結果として表示されている楽曲名のうち所定のものを選択すると、送受信部１２は、選択された楽曲データのダウンロードを要求する旨の情報をサーバ２０に送信する（ステップＳ２１７）。
【０１１１】
送受信部２２が携帯端末１０からの楽曲データのダウンロード要求を受信すると、制御部２１は、ダウンロード要求された楽曲データを楽曲データ格納部２３から抽出する（ステップＳ２１８）。
【０１１２】
楽曲データ編集部２６は、抽出された楽曲データを用いて、その抽出された楽曲データの所定部分（例えば１０秒間分）からなる部分データを作成する（ステップＳ２１９）。送受信部２２は、作成された部分データを携帯端末１０に送信する（ステップＳ２２０）。また、送受信部２２は、部分データとともに、該当する歌詞データを送信してもよい。
【０１１３】
送受信部１２がサーバ２０から部分データを受信すると、データ格納部１３は、一時部分データを格納する。音声入出力部１６は、データ格納部１３に格納されている部分データを出力し、該当する楽曲を予め設定された時間分（例えば１０秒間）再生する（ステップＳ２２１）。サーバ２０から歌詞データが送信された場合、楽曲再生時に、表示部１４はその歌詞を表示する。ユーザは、再生された楽曲を確認し、その楽曲が、曲名を知りたかった楽曲であるか否かを判断する。以上で楽曲提供システムは、楽曲検索動作を終了する。
【０１１４】
また、操作部１５が、図１５に示されている「さらに絞り込む」と示されている領域を選択すると、表示部１４は、再度楽曲の検索条件を入力する画面を表示し、さらに検索条件を入力して楽曲検索を繰り返すことにより、検索結果として表示される楽曲名の数を限定することが可能である。
【０１１５】
以上説明したように、本実施形態によれば、楽曲提供システムは、ユーザの歌唱による音声データと楽曲データとを比較して、楽曲を検索する。従って、複雑なキー操作を行うことなく、容易かつ迅速にユーザが意図する楽曲を探し出すことが可能となる。
【０１１６】
（第２の実施例）
第１の実施形態における第１の実施例では、サーバ２０が楽曲検索処理を行っていた。本実施例では、音声認識装置３０が楽曲検索処理を行う。以下、特記しない限り、本実施例における構成および動作は、第１の実施形態における第１の実施例と同様であるとする。
【０１１７】
図１６は、本発明の第１の実施形態の第２の実施例における楽曲提供システムの構成を示す図である。本実施形態では、まず、ユーザは、歌詞およびメロディがわかっているが曲名がわからないといった楽曲について歌唱する。楽曲提供システムは、上記の歌唱による音声データに適合する楽曲を検索し、ユーザに検索した楽曲を提供するものである。以下、図１６を用いて、本実施例における楽曲提供システムの構成および動作について説明する。
【０１１８】
楽曲提供システムは、携帯端末１０と、サーバ２０と、音声認識装置３０と、無線パケット網１と、無線音声網２と、ネットワーク３と、を有する。
【０１１９】
無線パケット網１は、携帯端末１０とサーバ２０とを無線で接続するものであり、携帯端末１０・サーバ２０間のデータ転送を行う伝送路である。
【０１２０】
無線音声網２は、携帯端末１０と音声認識装置３０とを無線で接続するものであり、携帯端末１０・音声認識装置３０間の音声データ転送を行う伝送路である。
【０１２１】
ネットワーク３は、サーバ２０と音声認識装置３０とを有線／無線で接続するものであり、サーバ２０・音声認識装置３０間のデータ転送を行う伝送路である。
【０１２２】
携帯端末１０は、ユーザにより操作される情報処理装置であって、携帯電話機であってもよいし、ＰＨＳ、ＰＤＡ、またはノートブック型ＰＣであってもよい。また、携帯端末１０は、デスクトップ型ＰＣ、タワー型ＰＣ、またはカラオケ店などにもうけられているカラオケ装置であってもよいし、以下説明する携帯端末１０の機能を有しているものであれば、他の機器であってもよい。ユーザは、携帯端末１０を操作してユーザの歌唱に基づく音声データを音声認識装置３０に送信し、そのユーザの歌唱に応じた楽曲を取得する。
【０１２３】
サーバ２０は、ユーザに係る情報を管理する情報処理装置であって、Ｗｅｂサーバであってもよい。また、サーバ２０は、ワークステーションなどのハイエンドＰＣにより実現されるとしてもよい。サーバ２０は、ユーザに係る情報を管理するとともに、携帯端末１０に、楽曲再生のための楽曲データおよびＷｅｂページなどの情報を配信する。
【０１２４】
音声認識装置３０は、ユーザの歌唱による音声データを音声認識して該当する楽曲を検索する情報処理装置であって、ワークステーションなどのハイエンドＰＣにより実現されるとしてもよい。音声認識装置３０は、携帯端末１０から音声データを受け取ると、自身に蓄積されている楽曲データのうち該当する楽曲データを検索し、検索結果をサーバ２０に送信する。
【０１２５】
図１７は、本発明の第１の実施形態の第２の実施例における携帯端末１０の構成を示す図である。以下、図１７を用いて、本実施例における携帯端末１０の構成および動作について説明する。
【０１２６】
携帯端末１０は、制御部１１と、送受信部１２と、データ格納部１３と、表示部１４と、操作部１５と、音声入出力部１６と、を有する。
【０１２７】
制御部１１は、送受信部１２、データ格納部１３、表示部１４、操作部１５、および音声入出力部１６と接続されており、送受信部１２、データ格納部１３、表示部１４、操作部１５、および音声入出力部１６を含む携帯端末１０が有する各部位の制御を行う。
【０１２８】
送受信部１２は、無線パケット網１を介してサーバ２０と、無線音声網２を介して音声認識装置３０と、それぞれデータの送受信を行う。さらに、送受信部１２は、通常の携帯電話機またはＰＨＳなどのように電話通信を行う機能を有する。
【０１２９】
データ格納部１３は、データを格納する部位である。例えば、サーバ２０からダウンロードされた楽曲のデータなどを格納する。
【０１３０】
表示部１４は、例えば、液晶または有機ＥＬなどによるディスプレイであって、文字および画像情報などを表示する。例えば、表示部１４は、サーバ２０から送信された文字／画像情報などを表示する。
【０１３１】
操作部１５は、情報の入力を行う。例えば、操作部１５は、通常の携帯電話機などに設けられているテンキーまたは方向キーなどであってもよいし、他の形状の操作部位であってもよい。
【０１３２】
音声入出力部１６は、音声の入出力を行う部位である。例えば、音声入出力部１６には、通常の携帯電話機などに設けられているようなマイクロフォンおよびスピーカが設けられているとしてもよい。音声入出力部１６は、ユーザの発声（歌唱）による携帯端末１０近傍の音声を入力する。また、音声入出力部１６は、サーバ２０または音声認識装置３０から送信された音声情報を出力する。さらに、音声入出力部１６は、データ格納部１３に格納されている楽曲データを出力する。
【０１３３】
図１８は、本発明の第１の実施形態の第２の実施例におけるサーバ２０の構成を示す図である。以下、図１８を用いて、本実施例におけるサーバ２０の構成および動作について説明する。
【０１３４】
サーバ２０は、制御部２１と、送受信部２２と、楽曲データ格納部２３と、楽曲属性情報格納部２４と、ユーザ情報格納部２５と、楽曲データ編集部２６と、配信情報格納部２７と、を有する。
【０１３５】
制御部２１は、送受信部２２、楽曲データ格納部２３、楽曲属性情報格納部２４と、ユーザ情報格納部２５、楽曲データ編集部２６、および配信情報格納部２７と接続されており、送受信部２２、楽曲データ格納部２３、楽曲属性情報格納部２４、ユーザ情報格納部２５、楽曲データ編集部２６、および配信情報格納部２７を含むサーバ２０が有する各部位の制御を行う。
【０１３６】
送受信部２２は、無線パケット網１を介して携帯端末１０とデータ通信を行う。また、送受信部２２は、ネットワーク３を介して音声認識装置３０と接続されており、データの送受信を行う。例えば、送受信部２２は、音声認識装置３０から検索結果を受信し、携帯端末１０に検索結果を示す楽曲のデータを送信する。
【０１３７】
楽曲データ格納部２３は、１つ以上の楽曲データを格納する。なお、楽曲データは、例えばＷＡＶ、ＭＰ３、またはＭＩＤＩなどのデータ形式であるとしてもよい。また、楽曲データ格納部２３は、各楽曲データに対応する歌詞情報を格納する。
【０１３８】
楽曲属性情報格納部２４は、楽曲データ格納部２３に格納されている各楽曲データの属性情報を含むデータベースを保持する。例えば、楽曲属性情報格納部２４には、属性情報として、各楽曲データに対応した曲名、歌手名、楽曲データＩＤ、および楽曲における所定の範囲を示す選択範囲情報などが格納されている。なお、楽曲属性情報格納部２４は、上記以外の情報を格納するとしてもよい。
【０１３９】
ユーザ情報格納部２５は、１つ以上のユーザに係る情報（以下、ユーザ情報）を格納する。各ユーザ情報には、各ユーザを識別するためのユーザＩＤ情報が付加されている。ユーザ情報には、ユーザ名、携帯端末の電話番号、ユーザのメールアドレス、ユーザの年齢／性別、および各ユーザによる楽曲提供システムの利用履歴などの情報が含まれるとしてよい。なお、ユーザ情報には、上記以外の情報が含まれるとしてよい。
【０１４０】
楽曲データ編集部２６は、楽曲属性情報格納部２４に格納されている選択範囲情報に基づいて、楽曲データを編集し、楽曲を所定時間分（例えば、１０秒間分）再生するための部分データを作成する。
【０１４１】
配信情報格納部２７は、例えば、携帯端末１０に表示させるＷｅｂページなどの配信情報などを格納する。
【０１４２】
図１９は、本発明の第１の実施形態の第２の実施例における音声認識装置３０の構成を示す図である。以下、図１９を用いて、本実施例における音声認識装置３０の構成および動作について説明する。
【０１４３】
音声認識装置３０は、制御部３１と、送受信部３２と、データ格納部３３と、楽曲データ格納部３４と、楽曲属性情報格納部３５と、音声変換部３６と、データ比較部３７と、を有する。
【０１４４】
制御部３１は、送受信部３２、データ格納部３３、楽曲データ格納部３４、楽曲属性情報格納部３５、音声変換部３６、およびデータ比較部３７と接続されており、送受信部３２、データ格納部３３、楽曲データ格納部３４、楽曲属性情報格納部３５、音声変換部３６、およびデータ比較部３７を含む音声認識装置３０における各部位を制御する。
【０１４５】
送受信部３２は、無線音声網２を介して携帯端末１０と音声情報の送受信を行う。例えば、送受信部３２は、携帯端末１０から、ユーザの歌唱による音声情報を受信する。また、送受信部３２は、ネットワーク３を介してサーバ２０と有線／無線接続されており、データの送受信を行う。さらに、送受信部３２は、通常の携帯電話機またはＰＨＳなどのように電話通信を行う機能を有する。
【０１４６】
データ格納部３３は、送受信部３１により受信された音声を自身に録音する。また、データ格納部３３は、サーバ２０から送信されたユーザ情報を一時格納する。データ格納部３３は、ユーザ情報として少なくともユーザの携帯端末の電話番号を示す情報を格納するものとする。なお、ユーザ情報には、上記以外の情報が含まれるとしてもよい。
【０１４７】
楽曲データ格納部３４は、１つ以上のＭＩＤＩ形式による楽曲データを格納する。また、楽曲データ格納部３４は、各楽曲データにおいて、音素ごとに対応した歌詞データを格納する。
【０１４８】
楽曲属性情報格納部３５は、楽曲データ格納部３４に格納されている各楽曲データの属性情報を含むデータベースを保持する。例えば、楽曲属性情報格納部３５には、属性情報として、各楽曲データに対応した曲名、歌手名、楽曲データＩＤ、ジャンル、および曲調などを示す情報が格納されている。なお、楽曲属性情報格納部３５は、上記以外の情報を格納するとしてもよい。
【０１４９】
音声変換部３６は、送受信部３２により録音された所定のデータ形式（例えばＷＡＶ形式）の音声データを他のデータ形式（楽曲データ格納部３４に格納されている楽曲データのデータ形式）の音声データに変換し、格納する。
【０１５０】
データ比較部３７は、音声変換部３６により形式変換された音声データと、楽曲データ格納部３４に格納されている形式の楽曲データを比較し、音声データと一致または近い楽曲データを検索する。なお、サーバ２０を介して携帯端末１０から検索条件を示す検索条件情報が送信された場合、データ比較部３７は、その検索条件を反映させて楽曲データ検索を行う。
【０１５１】
以下、図１６を用い、第１の実施形態の第１の実施例と同様に図５に沿って、楽曲提供システムによるユーザ情報登録処理について説明する。
【０１５２】
まず、携帯端末１０は、携帯端末１０のユーザの氏名および電話番号などのユーザ情報をサーバ２０に送信する（Ａ１０→Ａ２０）。
【０１５３】
サーバ２０は、携帯端末１０からユーザ情報を受信し、自身にユーザ情報を登録すると、ユーザ情報の登録が完了した旨の情報を携帯端末１０に送信する（Ａ２１→Ａ１１）。
【０１５４】
以下、図１６乃至図１９を用い、第１の実施形態における第１の実施例と同様に図６に沿って、本実施例における楽曲提供システムによるユーザ情報登録動作について詳細に説明する。
【０１５５】
まず、携帯端末１０は、サーバ２０に対してユーザ情報を登録するための配信情報の配信要求（Ｗｅｂサイトの接続要求）を行う（ステップＳ１０１）。
【０１５６】
送受信部２２は、携帯端末１０からの配信情報の配信要求を受信すると、配信情報格納部２７に格納されているユーザ情報登録のための配信情報（Ｗｅｂページ）を携帯端末１０に送信する（ステップＳ１０２）。
【０１５７】
送受信部１２は、サーバ２０からユーザ情報登録のための配信情報を受信すると、表示部１４は、受信された配信情報を表示する（ステップＳ１０３）。
【０１５８】
次に、操作部１５は、表示部１４に表示された配信情報のフォームに従ってユーザ情報を入力する（ステップＳ１０４）。
【０１５９】
ここで、第１の実施形態における第１の実施例と同様に図７を用いて、ユーザ情報登録のための画面表示について説明する。操作部１５は、図７に示されているような、「氏名」、「性別」、「（携帯端末の）電話番号」、および「住所」といったユーザ情報を入力し、入力後「登録」キーを選択すると、送受信部１２は、入力されたユーザ情報をサーバ２０に送信する。なお、入力されるユーザ情報は、図７に示されるものに限定されないものとする。
【０１６０】
再度図６に沿って説明を進める。送受信部２２は、携帯端末１０からユーザ情報を受信すると、制御部２１は、その受信されたユーザ情報送信元のユーザのＩＤを示すユーザＩＤ情報を発行し、送受信部２２により受信されたユーザ情報に付加する。ユーザ情報格納部２５は、ユーザＩＤ情報が付加されたユーザ情報を格納する（ステップＳ１０５）。ユーザ情報格納後、送受信部２２は、ユーザ情報登録が完了した旨の情報を携帯端末１０に送信する。また、送受信部２２は、発行されたユーザＩＤ情報についても携帯端末１０に送信する。以上で楽曲提供システムは、ユーザ情報の登録処理を終了する。
【０１６１】
図２０は、本発明の第１の実施形態の第２の実施例における楽曲提供システムによる楽曲検索処理を示すシーケンスである。以下、図２０に沿って、本実施例における楽曲提供システムによる楽曲通信処理について説明する。
【０１６２】
まず、携帯端末１０は、サーバ２０が保持する楽曲検索サイトにアクセス要求する（Ｃ１０→Ｃ２０）。
【０１６３】
次に、サーバ２０は、携帯端末１０にアクセス要求された楽曲検索サイトの情報を、携帯端末１０に送信する（Ｃ２１→Ｃ１１）。
【０１６４】
次に、携帯端末１０は、楽曲検索を行う際の検索条件を示す情報をサーバ２０に送信する（Ｃ１２→Ｃ２２）。
【０１６５】
サーバ２０は、携帯端末１０から受信した検索条件情報を音声認識装置３０に送信する（Ｃ２３→Ｃ３０）。
【０１６６】
次に、携帯端末１０は、ユーザの歌唱による音声を音声認識装置３０に送信する（Ｃ１３→Ｃ３１）。
【０１６７】
音声認識装置３０は、受信した音声および検索条件情報に基づいて楽曲検索を行い、その検索結果をサーバ２０に送信する（Ｃ３２→Ｃ２４）。
【０１６８】
サーバ２０は、音声認識装置３０から受信した検索結果情報を携帯端末１０に送信する（Ｃ２５→Ｃ１４）。
【０１６９】
次に、携帯端末１０は、受信した検索結果に示されている楽曲データのダウンロード要求をサーバ２０に送信する（Ｃ１５→Ｃ２６）。
【０１７０】
サーバ２０は、要求された楽曲データを携帯端末１０にダウンロードする（Ｃ２７→Ｃ１６）。以上で、楽曲提供システムは、楽曲検索処理を終了する。
【０１７１】
図２１および図２２は、本発明の第１の実施形態の第２の実施例における楽曲提供システムによる楽曲検索動作の流れを示すフローチャートである。以下、図２１および図２２に沿って、本実施形態における楽曲提供システムによる楽曲検索処理について説明する。
【０１７２】
まず、携帯端末１０は、サーバ２０に対して楽曲を検索するための配信情報の配信要求（Ｗｅｂサイトの接続要求）を行う（ステップＳ３０１）。この際、送受信部１２は、操作部１５などにより入力されたユーザＩＤを示す情報を、サーバ２０に送信する。
【０１７３】
送受信部２２は、携帯端末１０か　ら、ユーザＩＤ情報および配信情報の配信要求を受信すると、配信情報格納部２７に格納されている楽曲検索のための配信情報（Ｗｅｂページ）を携帯端末１０に送信する（ステップＳ３０２）。
【０１７４】
送受信部１２は、サーバ２０から楽曲検索のための配信情報を受信すると、表示部１４は、受信された配信情報（検索条件入力画面）を表示する（ステップＳ３０３）。
【０１７５】
以下、本発明の第１の実施形態の第１の実施例と同様に、図１１を用いて、楽曲（歌声）検索の際の検索条件入力画面について説明する。図１１に示されているように、検索条件入力画面には、「１．歌手名」、「２．ジャンル」、および「３．曲調」といった検索条件の入力欄と、「送信」キーと、が設けられている。本実施形態では、例として、歌手名は「山本三郎」、ジャンルは「歌謡曲」、曲調は「バラード」が入力されている。操作部１５が、各検索条件入力後に「送信」キーを選択すると、送受信部１２は、入力された検索条件を示す情報をサーバ２０に送信する（ステップＳ３０４）。また、送受信部１２は、検索条件情報送信とともに、楽曲検索画面の情報の送信要求をサーバ２０に送信する。
【０１７６】
なお、操作部１５は、検索条件入力画面上の検索条件欄に、直接文字入力してもよいし、検索条件欄に検索条件が列挙されたプルダウンメニューを設けて、そのプルダウンメニューから所定の検索条件を選択するようにしてもよい。また、操作部１５は、複数設けられている検索条件のうち所定の検索条件だけ指定するとしてもよい。また、検索条件の種類および個数は、図１１に示されているものに限定されない。
【０１７７】
送受信部２２が、携帯端末１０から検索条件情報を受信すると、制御部２１は、送受信部２２により受信された検索条件情報の送信元ユーザ（携帯端末１０のユーザ）のＩＤ情報を、その検索条件情報に付加する。また、制御部２１は、送受信部２２により受信されたユーザＩＤ情報に基づいて、ユーザ情報格納部２５から該当するユーザの電話番号情報を抽出し、受信された検索条件情報に付加する。送受信部２２は、ユーザＩＤ情報および携帯端末１０の電話番号情報が付加された検索条件情報を、音声認識装置３０に送信する（ステップＳ３０５）。
【０１７８】
送受信部３２が検索条件情報を受信すると、制御部３１は、検索条件情報とともに、付加されているユーザＩＤ情報および検索条件情報送信元の電話番号情報をそれぞれ検索条件情報に対応させるようにしてデータ格納部３３に格納させる。
【０１７９】
送受信部２２は、携帯端末１０から楽曲検索画面の表示要求を受信すると、配信情報格納部２７に格納されている楽曲検索画面情報を、携帯端末１０に送信する（ステップＳ３０６）。携帯端末１０に送信される楽曲検索画面情報には、ＰＨＯＮＥ−ＴＯ機能を起動させるための「歌声検索スタートキー」が含まれる。また、送受信部２２は、楽曲検索画面情報とともに、音声認識装置３０の電話番号情報についても携帯端末１０に送信する。
【０１８０】
送受信部１２は、サーバ２０から、音声認識装置３０の電話番号情報とともに楽曲検索画面情報を受信すると、表示部１４は、楽曲検索画面を表示する。また、データ格納部１３は、送受信部１２により受信された音声認識装置３０の電話番号情報を格納する（ステップＳ３０７）。
【０１８１】
以下、本発明の第１の実施形態の第１の実施例と同様に、図１２を用いて、楽曲検索画面について説明する。図１２に示されているように、楽曲検索画面には、「歌声検索スタート」キーが表示されている。
【０１８２】
操作部１５が、楽曲検索画面における歌声検索スタートキーを選択すると、制御部１１は、携帯端末１０が有するＰＨＯＮＥ−ＴＯ機能を起動させる。送受信部１２は、データ格納部１３に格納されている音声認識装置３０の電話番号情報を用いて、音声認識装置３０に発呼し、無線音声網３を介した携帯端末１０・音声認識装置３０間の電話通信を確立する（ステップＳ３０８）。
【０１８３】
次に、ユーザは検索したい楽曲を歌唱する。音声入出力部１６は、ユーザの歌唱に基づく音声を入力する（ステップＳ３０９）。
【０１８４】
送受信部１２は、電話通信により音声とともに、携帯端末１０の電話番号を示す情報を音声認識装置３０に送信する（ステップＳ３１０）。
【０１８５】
送受信部３２は、携帯端末１０から音声を受信し、所定のデータ形式（ＷＡＶ形式）で受信した音声をデータ格納部３３に録音する。また、送受信部３２は、音声とともに、携帯端末１０の電話番号情報を受信すると、制御部３１は、音声データ送信元の携帯端末１０の電話番号に該当する電話番号情報がデータ格納部３３に格納されているか否かを判断する（ステップＳ３１１）。音声データ送信元の端末の電話番号情報が格納されていないと判断された場合（ステップＳ３１１／Ｎｏ）、制御部３１は、送信元端末のユーザから楽曲の検索要求がないと判断し、楽曲提供システムは、動作を終了する。また、制御部３１は、データ格納部３３に格納されている音声データを消去する。
【０１８６】
送信元端末の電話番号情報がデータ格納部３３に格納されていると判断された場合（ステップＳ３１１／Ｙｅｓ）、音声変換部３６は、データ格納部３３に格納された音声データのデータ形式を変換する（ステップＳ３１２）。本実施形態では、音声変換部３６は、録音された音声データ（例えばＷＡＶ形式）をＭＩＤＩ形式の音声データに変換する。ＭＩＤＩ形式は、音単位で、「音の高さ」、「音の長さ」、および「ボリューム」などの情報を保持するデータ形式である。音声データをＭＩＤＩ形式に変換することにより、音声データを構成する音単位で容易に解析することが可能となる。
【０１８７】
次に、データ比較部３７は、データ格納部３３に格納されている音声データ送信元の端末（携帯端末１０）に対応するユーザ情報を参照し、該当する検索条件情報を抽出する。データ比較部３７は、抽出した検索条件情報に示されている検索条件内において、変換されたＭＩＤＩ形式の音声データと、楽曲データ格納部３４に格納されているＭＩＤＩ形式の楽曲データと、を比較し、音声データと一致または近い楽曲データを検索する（ステップＳ３１３）。
【０１８８】
ＭＩＤＩデータは、「音の高さ」、「音の長さ」、「音の大きさ」、「テンポ（ＢＰＭ）」、および「音色」などの様々な演奏情報からなる。データ比較部３７は、音声データと各楽曲データとの間で、「音の高さ」および「音の長さ」の比較を行い、楽曲を検索する。
【０１８９】
以下、第１の実施形態における第１の実施例と同様に図１３を用いて、データ比較部３７による楽曲検索動作の一例について説明する。
【０１９０】
図１３の（ａ）、（ｂ）、（ｃ）における縦軸は、音声／楽曲を構成する音の高さを示しており、横軸は、時間軸を示している。例えば、図１３の（ａ）に示されている音声データは、「ド」の音が１単位時間再生された後に、「ミ」の音が４単位時間再生され、その後「レ」の音が２単位時間再生されるデータを示している。なお、「単位時間」は、所定の時間の長さを示すものとし、その時間の長さは、特に限定されないものとする。
【０１９１】
図１３に示されているように、音声データおよび楽曲データａ、ｂを構成する１番目の音（１単位時間長の「ド」）と３番目の音（２単位時間長の「レ」）では、「音の高さ」および「音の長さ」が一致している。
【０１９２】
一方、各データの２番目の音に関しては、各データにおいてそれぞれ異なっている。図１３に示されているように、音声データの２番目の音は、４単位時間長の「ミ」であり、楽曲データａの２番目の音は、３単位時間長の「ミ」であり、楽曲データｂの２番目の音は、２単位時間長の「ファ」である。各データの２番目の音を比較すると、「音の高さ」および「音の長さ」に関して、楽曲データａの方が楽曲データｂよりも音声データに近い値を示している。データ比較部３７は、上記の比較結果から音声データに基づく楽曲の検索結果として、楽曲データａを楽曲データｂよりも上位にリストアップする。
【０１９３】
なお、本実施形態では、便宜上、「ド」、「レ」、「ミ」、「ファ」、「ソ」、「ラ」、「シ」の７音を用いて「音の高さ」を説明したが、音声データおよび楽曲データは、他の音により構成されるとしてもよい。また、本実施形態では、「音の長さ」は単位時間×ｎ（ｎは１以上の整数）で示されていたが、「音の長さ」を他の方法により表現するようにしてもよい。
【０１９４】
本実施形態では、データ比較部３７は、音声データを構成する音の「高さ」および「長さ」に一致／近い音により構成される楽曲データを検索結果として出力する。データ比較部３７は、データ比較の際、「音の高さ」が一致／近い楽曲データを検索結果において優先的に出力してもよいし、「音の長さ」が一致／近い楽曲データを検索結果において優先的に出力してもよい。
【０１９５】
以下、第１の実施形態における第１の実施例と同様に図１４を用いて、本実施例における楽曲属性情報について説明する。各楽曲属性情報は、楽曲データの属性を示す情報であって、楽曲データ格納部２３により格納されている各楽曲データにそれぞれ対応している。楽曲属性情報格納部３５は、例えば、図１４に示されているように、属性情報として、楽曲データＩＤ、楽曲の曲名、歌手名、ジャンル、および曲調などの情報を格納する。
【０１９６】
データ比較部３７は、データ格納部３３に格納されている検索条件情報に基づいて、楽曲検索処理を行う。例えば、図１２に示されているように、検索条件が、「１．歌手名：山本三郎」、「２．ジャンル：歌唱曲」、「３．曲調：バラード」であった場合、制御部３１は、上記検索条件を全て満たす楽曲を抽出する。楽曲属性情報格納部３５に図１４に示されているような楽曲属性情報が格納されている場合、制御部３１は、楽曲データＩＤ「０００１」、「０００２」、「０００３」、「０００５」を抽出する。データ比較部３７は、音声データと抽出されたＩＤの楽曲データとを比較し、楽曲検索処理を行う。なお、検索結果として出力する楽曲数は、予め設定されているとしてもよいし、携帯端末１０から送信された情報に基づいて決定されるようにしてもよい。
【０１９７】
データ比較部３７が楽曲の検索結果を示す情報を出力すると、送受信部３２は、その出力された検索結果情報をサーバ２０に送信する（ステップＳ３１４）。制御部３１は、データ格納部３３に格納されているもののうち、サーバ２０に送信された検索結果情報に対応する音声データ、検索条件情報、ユーザＩＤ情報、および電話番号情報を消去する。
【０１９８】
送受信部２２は、音声認識装置３０から検索結果情報を受信すると、受信した検索結果情報を携帯端末１０に送信する（ステップＳ３１５）。
【０１９９】
送受信部１２が検索結果情報を受信すると、表示部１４は、その検索結果情報を表示する（ステップＳ３１６）。以下、第１の実施形態における第１の実施例と同様に図１５を用いて、本実施例における楽曲の検索結果情報について説明する。図１５には、検索結果情報として、音の高さ・長さにおいて、ユーザが歌唱した音声データと一致／近い楽曲名および歌手名が示されている。その際、表示部１４は、表示する楽曲データを、音声データに最も近いものから順に並べ替えるようにして表示するようにしてもよい。操作部１５が検索結果として表示されている楽曲名のうち所定のものを選択すると、送受信部１２は、選択された楽曲データのダウンロードを要求する旨の情報をサーバ２０に送信する（ステップＳ３１７）。
【０２００】
送受信部２２が携帯端末１０からの楽曲データのダウンロード要求を受信すると、制御部２１は、ダウンロード要求された楽曲データを楽曲データ格納部２３から抽出する（ステップＳ３１８）。
【０２０１】
楽曲データ編集部２６は、抽出された楽曲データを用いて、その抽出された楽曲データの所定部分（例えば１０秒間分）からなる部分データを作成する（ステップＳ３１９）。送受信部２２は、作成された部分データを携帯端末１０に送信する（ステップＳ３２０）。また、送受信部２２は、部分データとともに、該当する歌詞データを送信してもよい。
【０２０２】
送受信部１２がサーバ２０から部分データを受信すると、データ格納部１３は、一時部分データを格納する。音声入出力部１６は、データ格納部１３に格納されている部分データを出力し、該当する楽曲を予め設定された時間分（例えば１０秒間）再生する（ステップＳ３２１）。サーバ２０から歌詞データが送信された場合、楽曲再生時に、表示部１４はその歌詞を表示する。ユーザは、再生された楽曲を確認し、その楽曲が、曲名を知りたかった楽曲であるか否かを判断する。以上で楽曲提供システムは、楽曲検索動作を終了する。
【０２０３】
また、操作部１５が、図１５に示されている「さらに絞り込む」と示されている領域を選択すると、表示部１４は、再度楽曲の検索条件を入力する画面を表示し、さらに検索条件を入力して楽曲検索を繰り返すことにより、検索結果として表示される楽曲名の数を限定することが可能である。
【０２０４】
以上説明したように、本実施形態によれば、楽曲提供システムは、ユーザの歌唱による音声データと楽曲データとを比較して、楽曲を検索する。従って、複雑なキー操作を行うことなく、容易かつ迅速にユーザが意図する楽曲を探し出すことが可能となる。
【０２０５】
（第２の実施形態）
（第１の実施例）
本発明の第２の実施形態における第１の実施例では、ユーザは、所定の楽曲（歌唱楽曲）を歌唱し、楽曲提供システムは、そのユーザの歌唱による音声データを解析し、ユーザが快適に歌唱可能なキーおよびテンポを検出する。楽曲提供システムは、上記の検出したキーおよびテンポに一致／近いキーおよびテンポのおすすめの楽曲（レコメンド楽曲）をユーザに提供する。なお、本実施例において、楽曲データおよびレコメンド楽曲データは、主に楽曲の伴奏を演奏するカラオケデータであるとする。以下、特記しない限り、本実施例における楽曲提供システムの構成および動作は、本発明の第１の実施形態における第１の実施例と同様であるとし、第１の実施形態における第１の実施例と同様に図１〜図４を用いて本実施例の説明を進める。
【０２０６】
本実施例では、楽曲提供システムは、第１の実施形態における第１の実施例と同様に、図５および図６に示されるようなユーザ情報登録処理を行う。
【０２０７】
図２３は、本発明の第２の実施形態の第１の実施例における楽曲提供処理を示すシーケンスである。以下、図２３に沿って、本実施例における楽曲提供システムによる楽曲提供処理について説明する。
【０２０８】
まず、携帯端末１０は、ユーザが歌唱する楽曲（歌唱楽曲）を指定するための画面（歌唱楽曲入力画面）に係る情報（Ｗｅｂページ）のダウンロード要求をサーバ２０に送信する（Ｄ１０→Ｄ２０）。
【０２０９】
次に、サーバ２０は、携帯端末１０にダウンロード要求された歌唱楽曲入力画面情報を携帯端末１０に送信する（Ｄ２１→Ｄ１１）。
【０２１０】
次に、携帯端末１０は、歌唱楽曲およびその曲名を示す情報を含む歌唱楽曲データのダウンロード要求をサーバ２０に送信する（Ｄ１２→Ｄ２２）。「歌唱楽曲データ」とは、歌唱楽曲を再生出力するための楽曲データであり、楽曲の所定部分（例えばサビ部分など）を示すデータである。
【０２１１】
サーバ２０は、携帯端末１０にダウンロード要求された歌唱楽曲データを携帯端末１０に送信する。また、サーバ２０は、歌唱楽曲データとともに、レコメンド楽曲を提供するための画面（レコメンド楽曲取得画面）の情報についても携帯端末１０に送信する（Ｄ２３→Ｄ１３）。
【０２１２】
次に、携帯端末１０は、音声認識装置３０によるレコメンド楽曲検索の際における検索条件を示す情報をサーバ２０に送信する（Ｄ１４→Ｄ２４）。
【０２１３】
次に、サーバ２０は、携帯端末１０の電話番号情報を音声認識装置３０に送信する（Ｄ２５→Ｄ３０）。
【０２１４】
次に、携帯端末１０は、受信した歌唱楽曲データに沿ったユーザの歌唱による音声を音声認識装置３０に送信する（Ｄ１５→Ｄ３１）。
【０２１５】
音声認識装置３０は、携帯端末１０から受信した音声を所定のデータ形式で録音する。音声認識装置３０は、その録音した音声データのデータ形式を変換し、変換した音声データに基づいて、その音声データのキー・テンポ情報を出力する。音声認識装置３０は、出力したキー・テンポ情報をサーバ２０に送信する（Ｄ３２→Ｄ２６）。
【０２１６】
サーバ２０は、音声認識装置３０から受信したキー・テンポ情報に基づいて、レコメンド楽曲を検索する。サーバ２０は、その検索結果情報を携帯端末１０に送信する（Ｄ２７→Ｄ１６）。
【０２１７】
次に、携帯端末１０は、検索結果に示されている１つ以上のレコメンド楽曲から所定の楽曲を選択して、その楽曲データのダウンロード要求を示す情報をサーバ２０に送信する（Ｄ１７→Ｄ２８）。
【０２１８】
サーバ２０は、携帯端末１０からレコメンド楽曲のダウンロード要求を受信すると、該当する楽曲データを携帯端末１０に送信する（Ｄ２９→Ｄ１８）。以上で、楽曲提供システムは、レコメンド楽曲提供処理を終了する。
【０２１９】
図２４および図２５は、本発明の第２の実施形態の第１の実施例における楽曲提供システムによるレコメンド楽曲提供動作の流れを示すフローチャートである。以下、図２４および図２５に沿って、本実施例における楽曲提供システムによるレコメンド楽曲提供動作について説明する。
【０２２０】
まず、携帯端末１０は、サーバ２０に対して、歌唱楽曲入力画面の情報のダウンロード要求（Ｗｅｂサイトの接続要求）を行う（ステップＳ４０１）。「歌唱楽曲」とは、音声データを音声認識装置３０に送る際にユーザが歌唱する楽曲を示し、「歌唱楽曲入力画面」とは、歌唱楽曲の曲名および歌手名を入力する画面を示す。また、送受信部１２は、歌唱楽曲入力画面のダウンロード要求とともに、操作部１５などにより入力されたユーザＩＤを示す情報を、サーバ２０に送信する。
【０２２１】
送受信部２２は、歌唱楽曲入力画面のダウンロード要求およびユーザＩＤ情報を受信すると、配信情報格納部２７に格納されている歌唱楽曲入力画面の情報（Ｗｅｂページ）を携帯端末１０に送信する（ステップＳ４０２）。
【０２２２】
送受信部１２は、サーバ２０から歌唱楽曲入力画面の情報を受信すると、表示部１４は、歌唱楽曲入力画面を表示する（ステップＳ４０３）。
【０２２３】
図２６は、本発明の第２の実施形態の第１の実施例における歌唱楽曲入力画面を示す図である。図２６に示されている歌唱楽曲入力画面上には、歌唱楽曲の曲名および歌手名を入力する領域が設けられている。操作部１５は、歌唱楽曲の曲名および歌手名を入力した後に歌唱楽曲入力画面上に設けられている「送信」キーを選択すると、送受信部１２は、入力された曲名および歌手名を示す情報をサーバ２０に送信する（ステップＳ４０４）。
【０２２４】
なお、本実施例では、携帯端末１０は、歌唱楽曲の曲名および歌手名をサーバ２０に送信しているが、ユーザが歌唱楽曲の曲名および歌手名を記憶していない場合には、ユーザは、第１の実施形態の第１の実施例における楽曲データ検索機能を用いて、ユーザが意図する歌唱楽曲の曲名などを検索することが可能である。
【０２２５】
送受信部２２が携帯端末１０から歌唱楽曲の曲名および歌手名を示す情報を受信すると、制御部２１は、受信された曲名および歌手名に該当する楽曲データを楽曲データ格納部２３から抽出する（ステップＳ４０５）。
【０２２６】
楽曲データ編集部２６は、抽出された楽曲データの所定部分（例えば１０秒間分）からなる歌唱楽曲データを作成する（ステップＳ４０６）。送受信部２２は、作成された歌唱楽曲データを携帯端末１０に送信する。また、送受信部２２は、配信情報格納部２７に格納されているレコメンド楽曲提供（取得）画面の情報（Ｗｅｂページ）を携帯端末１０に送信する。（ステップＳ４０７）。また、ユーザ情報格納部２５は、携帯端末１０に送信された部分データを識別するための情報を、携帯端末１０のユーザのユーザ情報と対応づけて格納する。
【０２２７】
送受信部１２は、サーバ２０からレコメンド楽曲取得画面の情報を受信すると、表示部１４は、送受信部１２により受信されたレコメンド楽曲取得画面を表示する（ステップＳ４０８）。また、データ格納部１３は、送受信部１２により受信された歌唱楽曲データを格納する。
【０２２８】
図２７は、本発明の第２の実施形態の第１の実施例におけるレコメンド楽曲取得画面を示す図である。図２７に示されているように、レコメンド楽曲取得画面には、歌唱楽曲データにより再生可能な楽曲の曲名および歌手名が表示される。また、レコメンド楽曲取得画面上には、「１．楽曲再生」および「２．検索条件入力」と示された各キーが設けられている。
【０２２９】
操作部１５が「１．楽曲再生」キーを選択すると、制御部１１は、データ格納部１３に格納されている歌唱楽曲データのうち、現在レコメンド楽曲取得画面に曲名が示されている楽曲データを読み込む。音声入出力部１６は、その読み込まれた歌唱楽曲データに基づく音声を出力する。ユーザは、再生された歌唱楽曲の再生範囲、キー、およびテンポを確認する。また、歌唱楽曲データとともに、その歌唱楽曲データに対応する歌詞データが、サーバ２０から携帯端末１０に送信された場合、表示部１４は、歌唱楽曲データ再生時にその歌詞を表示するとしてよい。
【０２３０】
操作部１５が「２．検索条件入力」キーを選択すると、表示部１４上のレコメンド楽曲取得画面は、検索条件入力画面に遷移する。図２８は、本発明の第２の実施形態の第１の実施例における検索条件入力画面を示す図である。図２８に示されているように、検索条件入力画面には、「１．歌手名」、「２．ジャンル」、および「３．曲調」といった検索条件入力欄と、「送信」キーと、「楽曲取得画面へ」の移動キーとが設けられている。本実施例では、例として、各検索条件入力欄には、歌手名として「山本三郎」、ジャンルとして「歌謡曲」、曲調として「バラード」がそれぞれ入力されている。操作部１５が、各検索条件入力後に「送信」キーを選択すると、送受信部１２は、入力された検索条件を示す情報をサーバ２０に送信する（ステップＳ４０９）。
【０２３１】
なお、操作部１５は、検索条件入力画面上の検索条件欄に、直接文字入力してもよいし、検索条件欄に検索条件が列挙されたプルダウンメニューを設けて、そのプルダウンメニューから所定の検索条件を選択するようにしてもよい。また、操作部１５は、複数設けられている検索条件のうち所定の検索条件だけ指定するとしてもよい。また、検索条件は、図２８に示されているものに限定されないものとする。
【０２３２】
送受信部２２が、携帯端末１０から検索条件情報を受信すると、制御部２１は、送受信部２２により受信されたユーザＩＤ情報に基づいて、ユーザ情報格納部２５から該当するユーザの電話番号情報を抽出し、受信されたユーザＩＤ情報に付加する。送受信部２２は、携帯端末１０の電話番号情報が付加されたユーザＩＤ情報を、音声認識装置３０に送信する（ステップＳ４１０）。また、ユーザ情報格納部２５は、受信された検索条件情報を該当するユーザＩＤに対応させて格納する。
【０２３３】
送受信部３２がユーザＩＤ情報を受信すると、制御部３１は、ユーザＩＤ情報および検索条件情報送信元の電話番号情報をそれぞれ互いに対応させるようにしてデータ格納部３３に格納させる。
【０２３４】
操作部１５が図２８に「楽曲取得画面へ」と示されている領域を選択すると、送受信部１２は、新たなレコメンド楽曲取得画面情報のダウンロード要求をサーバ２０に送信する。送受信部２２は、携帯端末１０から新たなレコメンド楽曲取得画面情報の取得要求を受信すると、配信情報格納部２７に格納されているレコメンド楽曲取得画面情報を携帯端末１０に送信する。この際、送信するレコメンド楽曲取得画面情報には、ＰＨＯＮＥ−ＴＯ機能を起動させるための録音キーを表示させる情報が含まれている。また、送受信部２２は、レコメンド楽曲取得画面情報とともに、配信情報格納部２７に格納されている音声認識装置３０の電話番号情報についても、携帯端末１０に送信する。
【０２３５】
送受信部１２は、サーバ２０から新たにレコメンド楽曲取得画面情報を受信すると、表示部１４は、図２９に示されるレコメンド楽曲取得画面を表示する（ステップＳ４１１）。図２９に示されるレコメンド楽曲取得画面には、図２７に示されたレコメンド楽曲画面にさらに、「３．録音」キーが追加されている。また、送受信部１２は、音声認識装置３０の電話番号情報を受信すると、データ格納部１３は、一旦、受信された音声認識装置３０の電話番号情報を格納する。
【０２３６】
操作部１５が、レコメンド楽曲取得画面における「３．録音」キーを選択すると、制御部１１は、携帯端末１０が有するＰＨＯＮＥ−ＴＯ機能を起動させる。送受信部１２は、データ格納部１３に格納されている音声認識装置３０の電話番号情報を用いて、音声認識装置３０に発呼し、無線音声網３を介した携帯端末１０・音声認識装置３０間の電話通信を確立する（ステップＳ４１２）。
【０２３７】
次に、ユーザは、予め確認した歌唱楽曲を歌唱する。音声入出力部１６は、ユーザの歌唱に基づく音声を入力する（ステップＳ４１３）。
【０２３８】
送受信部１２は、電話通信により音声とともに、携帯端末１０の電話番号を示す情報を音声認識装置３０に送信する（ステップＳ４１４）。
【０２３９】
送受信部３２は、携帯端末１０から音声を受信し、所定のデータ形式（例えばＷＡＶ形式）で、受信した音声をデータ格納部３３に録音する。また、送受信部３２は、音声とともに、携帯端末１０の電話番号情報を受信すると、制御部３１は、音声データ送信元である携帯端末１０の電話番号に該当する電話番号情報がデータ格納部３３に格納されているか否かを判断する（ステップＳ４１５）。音声データ送信元の端末の電話番号情報が格納されていないと判断された場合（ステップＳ４１５／Ｎｏ）、制御部３１は、送信元端末のユーザによりレコメンド楽曲の取得が要求されていないと判断し、楽曲提供システムは、動作を終了する。また、制御部３１は、データ格納部３３に格納されている音声データを消去する。
【０２４０】
送信元端末の電話番号情報がデータ格納部３３に格納されていると判断された場合（ステップＳ４１５／Ｙｅｓ）、音声変換部３６は、データ格納部３３に録音されている音声データを、楽曲データ格納部２３に格納されている楽曲データのデータ形式に変換する（ステップＳ４１６）。本実施例では、音声変換部３６は、音声データをＭＩＤＩ形式に変換するものとする。
【０２４１】
音声データをＭＩＤＩ形式に変換することにより、音声データを構成する音単位で容易に解析することが可能となる。また、本実施例では、音声認識装置３０は、ＷＡＶ形式の音声データをＭＩＤＩ形式に変換してからサーバ２０に送信するが、サーバ２０が音声データのデータ形式を変換する手段をさらに有しているとしてもよく、サーバ２０が音声認識装置３０から受け取ったＷＡＶ方式の音声データをＭＩＤＩ形式に変換するとしてもよい。
【０２４２】
次に、制御部３１は、ＭＩＤＩ変換された音声データを解析し、音声データを構成する各音素の高さおよび長さなどを検出する。制御部３１は、上記の各音素における高さおよび長さなどに基づいて、音声データのキーおよびテンポ情報を出力する（ステップＳ４１７）。図３０は、本発明の第２の実施形態の第１の実施例における音声データを示す図である。以下、図３０を用いて、本実施例における音声データのキーおよびテンポ情報の出力方法について説明する。
【０２４３】
制御部３１は、ＭＩＤＩ変換された音声データを音素単位に分割する。図３０には、音声データが音素Ｐ１〜Ｐ５に分割されて示されている。なお、音声データにおいて、音の高さが変化するごとに音素として区切るようにしてもよい。例えば、制御部３１は、ユーザにより「ド」→「ミ」→「ラ」→「ソ」→「レ」の各音で順に歌唱されたと判断した場合、音声データを「ド」、「ミ」、「ラ」、「ソ」、「レ」の５つの音素に区切る。
【０２４４】
本実施例では、説明の便宜上、各音素における「音の高さ」は、「ド」、「レ」、「ミ」、「ファ」、「ソ」、「ラ」、「シ」の７音のうちのいずれかをとることとする。また、「音の高さ」が低い順に並べられた「ド」、「レ」、「ミ」、「ファ」、「ソ」、「ラ」、「シ」の７音において、互いに隣り合う音における「音の高さ」の差分は、それぞれ等しいものとする。例えば、「ド」と「レ」との間の「音の高さ」の差分は、「ソ」と「ラ」との間の「音の高さ」の差分に等しい。
【０２４５】
また、本実施例では、各音素における「音の長さ」は、単位時間長×ｎ（ｎは１以上の整数）で表されるものとする。なお、「単位時間長」は、所定の時間長（例えば１秒間）を表すものであって、その値は限定されないものとする。
【０２４６】
また、音声データを音声認識し、ユーザが発声した母音／子音ごとに音素として区切るようにしてもよい。例えば、制御部３１は、ユーザにより「さようなら」と歌唱されたと判断した場合、音声データを「さ」、「よ」、「う」、「な」、「ら」の５つの音素に区切る。
【０２４７】
図３０に示されているように、音素Ｐ１は、「さ」と発音された音素であって、音の高さが「ド」、音の長さが「３単位時間長」である。また、音素Ｐ２は、「よ」と発音された音素であって、音の高さが「ミ」、音の長さが「４単位時間長」である。また、音素Ｐ３は、「う」と発音された音素であって、音の高さが「ラ」、音の長さが「２単位時間長」である。また、音素Ｐ４は、「な」と発音された音素であって、音の高さが「ソ」、音の長さが「３単位時間長」である。また、音素Ｐ５は、「ら」と発音された音素であって、音の高さが「レ」、音の長さが「１単位時間長」である。
【０２４８】
本実施例において、音声データのキー情報は、その音声データにおける音の高さの最高値および最低値を示す情報を含む。制御部３１は、図３０に示される音声データを解析する場合、キー情報として、音素Ｐ３が示すキー最高値「ラ」、音素Ｐ１が示すキー最低値「ド」を検出する。
【０２４９】
また、本実施例では、音声データのテンポ情報は、ある音素から次の音素に移るまでの時間長の平均を示す情報を含む。例えば、音素Ｐ１から音素Ｐ２に移るまでの時間は、「３単位時間長」である。同様に、音素Ｐ２→音素Ｐ３は「４単位時間長」、音素Ｐ３→音素Ｐ４は「２単位時間長」、音素Ｐ４→音素Ｐ５は「３単位時間長」となる。制御部３１は、上記の次の音素に移るまでの時間平均を算出する。図３０に示される音声データでは、時間平均は「（３＋４＋２＋３）÷４＝３」となる。
【０２５０】
次に、送受信部３２は、出力されたキー・テンポ情報に、該当するユーザＩＤ情報（格納されていた電話番号情報に対応するユーザＩＤ情報）を付加させて、サーバ２０に送信する（ステップＳ４１８）。
【０２５１】
送受信部２２が音声認識装置３０からキー・テンポ情報を受信すると、データ比較部２８は、受信されたキー・テンポ情報に一致／近い値の楽曲データを検索する（ステップＳ４１９）。図３１は、本発明の第２の実施形態の第１の実施例におけるキー情報に基づく楽曲データのグループ区分を示す図である。また、図３２は、本発明の第２の実施形態の第１の実施例におけるキーおよびテンポ情報に基づく楽曲データのグループ区分を示す図である。以下、図３１および図３２を用いて、本実施例におけるレコメンド楽曲データの検索動作について説明する。
【０２５２】
図３１に示されているように、楽曲データ格納部２３に格納されている１つ以上の楽曲データは、その楽曲データを構成する音のキー最高値およびキー最低値に基づいて区分されたグループＧｋ１１、Ｇｋ２１、Ｇｋ２２、Ｇｋ３１、Ｇｋ３２、Ｇｋ３３の計６個のグループのいずれかに属する。
【０２５３】
図３１に示されているように、キーの最高値およびキーの最低値は、それぞれ「１」、「２」、「３」の３種類の値をとり得る。例えば、キーの最高値および最低値における「１」には、「ド」、「レ」、「ミ」の３音が含まれ、「２」には、「ファ」、「ソ」の２音が含まれ、「３」には、「ラ」、「シ」の２音が含まれるとしてもよい。例えば、最高キーが「シ」でキーの最低キーが「ファ」の楽曲データは、キー最高値が「３」、最低値が「２」となり、図３１から、グループＧｋ３２に含まれることとなる。
【０２５４】
図３２に示されているように、楽曲データ格納部２３に格納されている１つ以上の楽曲データは、その楽曲データを構成する音のキーの最高値・最低値およびテンポに基づいて区分されたグループＧｔ１〜Ｇｔ１８の計１８個のグループのいずれかに属する。グループＧｔ１〜Ｇｔ１８は、図３１に示されている６個のグループをテンポ別にさらに細分化したものである。例えば、グループＧｋ１１に属する楽曲データは、その楽曲データのテンポに従って、グループＧｔ１、Ｇｔ７、Ｇｔ１３のいずれかに属することとなる。例としてあげると、グループＧｔ５に属する楽曲は、最高キーが「ラ」または「シ」、最低キーが「ファ」または「ソ」、次の音素に移るまでの平均時間が「２単位時間長未満」のものである。楽曲属性情報格納部２４は、各楽曲データが属するグループを示す情報を、各楽曲データに対応するようにして格納している。
【０２５５】
図３２に示されているように、テンポは、「１」、「２」、「３」の３値をとり得る。例えば、本実施例では、音声データにおける次の音素に移るまでの時間平均が、２単位時間長未満の場合にその音声データのテンポを、テンポ「１」、２単位時間長以上４単位時間長未満の場合にテンポ「２」、４単位時間長以上の場合にテンポ「３」とする。
【０２５６】
ここで、図３０に示されている音声データを例に挙げて、レコメンド楽曲データの検索動作について説明する。上記したように、図３０の音声データの最高キーは「ラ」、最低キーは「ド」である。データ比較部２８は、図３０に示されているテーブルに基づいて、音声データが属するグループを検出する。音声データのキー最高値は「３」、キー最低値は「１」であるので、音声データが属するグループは、グループＧｋ３１となる。
【０２５７】
次に、データ比較部２８は、図３２に示されているテーブルに基づいて、音声データが属するグループを検出する。音声データは、グループＧｋ３１に属し、音声データにおける次の音素にまでの時間平均は、「３単位時間長」であるので、音声データが属するグループは、グループＧｔ１０となる。
【０２５８】
次に、データ比較部２８は、データ格納部３３に格納されている検索条件情報のうち、音声データの送信元に対応するものを参照して、グループＧｔ１０に属する楽曲データのうち、検索条件を満たすものを抽出する。データ比較部２８は、上記の所定グループにおいて検索条件を満たす１つ以上の楽曲データの曲名および歌手名などの検索結果を出力する。以上のようにして、データ比較部２８は、レコメンド楽曲を検索する。
【０２５９】
なお、本実施例では、便宜上、「ド」、「レ」、「ミ」、「ファ」、「ソ」、「ラ」、「シ」の７音を用いて「音の高さ」を説明したが、音声データおよび楽曲データは、他の音により構成されるとしてもよい。また、本実施例では、「音の長さ」は単位時間×ｎ（ｎは１以上の整数）で示されていたが、「音の長さ」を他の方法により表現するようにしてもよい。
【０２６０】
制御部２１は、送受信部２２によりキー・テンポ情報と同時に受信されたユーザＩＤ情報を参照して、受信されたユーザ固有のキー・テンポ情報をユーザ情報格納部２５に該当するユーザ情報に対応づけて格納させる。また、ユーザ情報格納部２５は、検索されたレコメンド楽曲の曲名などを含む検索結果についても、該当するユーザ情報に対応づけて格納する。
【０２６１】
次に、送受信部２２は、検索結果（楽曲データの曲名など）が示されている検索結果情報と、配信情報格納部２７に格納されている新たなレコメンド楽曲取得画面の情報とを携帯端末１０に送信する（ステップＳ４２０）。なお、検索結果情報には、レコメンド楽曲の曲名、歌手名、およびユーザ固有のキー・テンポ情報などが含まれる。
【０２６２】
送受信部１２は、サーバ２０から検索結果情報およびレコメンド楽曲取得画面情報を受信すると、表示部１４は、図３３に示されるレコメンド楽曲取得画面を表示する。図３３は、本発明の第２の実施形態の第１の実施例における検索結果受信後のレコメンド楽曲取得画面を示す図である。図３３に示されるレコメンド楽曲取得画面には、図２９に示されるレコメンド楽曲取得画面に、「４．レコメンド楽曲表示」キーがさらに設けられている。
【０２６３】
操作部１５が「４．レコメンド楽曲表示」キーを選択すると、表示部１４は、レコメンド楽曲表示画面を表示する（ステップＳ４２１）。図３４は、本発明の第２の実施形態の第１の実施例におけるレコメンド楽曲表示画面を示す図である。図３４には、レコメンド曲としてサーバ２０側がすすめる楽曲の曲名および歌手名が表示されている。操作部１５が表示されている曲名のうちの１つを選択すると、送受信部１２は、選択された曲名が示すレコメンド楽曲データのダウンロード要求をサーバ２０に送信する（ステップＳ４２２）。
【０２６４】
送受信部２２が携帯端末１０からレコメンド楽曲のダウンロード要求を受信すると、制御部２１は、楽曲データ格納部２３に格納されている楽曲データのうち、ダウンロード要求されているものを抽出する。送受信部２２は、抽出された楽曲データをレコメンド楽曲データとして携帯端末１０に送信する（ステップＳ４２３）。
【０２６５】
また、ユーザ情報格納部２５は、レコメンド楽曲データとして携帯端末１０に送信した楽曲データの曲名を、該当するユーザ情報に対応づけて格納する。
【０２６６】
送受信部１２が、サーバ２０からレコメンド楽曲データを受信すると、データ格納部１３は、受信されたレコメンド楽曲データを格納する（ステップＳ４２４）。データ格納部１３に格納されたレコメンド楽曲データについては、図３５に示されるように、レコメンド楽曲表示画面において、曲名に対応するようにして「ダウンロード済み」と表示される。操作部１５が、「ダウンロード済み」と表示されている曲名を再度選択すると、制御部１１は、データ格納部１３に格納されている楽曲データのうち選択された曲名に対応する楽曲データを読み込む。音声入出力部１６は、読み込まれた楽曲データを音声により再生して出力する。以上で、本実施例における楽曲提供システムによるレコメンド楽曲提供動作は終了する。
【０２６７】
図３６は、本発明の第２の実施形態の第１の実施例におけるユーザ情報格納部２５内のユーザ情報を示す図である。図３６に示されているように、ユーザ情報格納部２５は、各ユーザを識別するためのユーザＩＤ情報に対応付けて、そのユーザ名と、ユーザの端末（携帯端末１０）の電話番号と、ユーザの声のキー最高値・最低値と、ユーザのテンポ情報と、そのユーザの音声データに基づくレコメンド楽曲の検索履歴（検索時期の情報を含む）と、そのユーザの端末への楽曲のダウンロード履歴（ダウンロード時期の情報を含む）と、をユーザ情報として格納するようにしてもよい。また、ユーザ情報格納部２５は、ユーザの性別、住所、およびメールアドレスなどのユーザの属性情報をさらに格納するようにしてもよいし、他の情報を格納するようにしてもよい。
【０２６８】
図３６に示されているように、１度検出されたキー・テンポ情報は、ユーザ情報格納部２５により格納されているので、ユーザは、次回にレコメンド楽曲を取得要求する際、歌唱して音声データを入力する作業を省くことが可能である。また、サーバ２０が新たにキー・テンポ情報を検出した場合には、制御部２１は、その都度ユーザ情報格納部２５内のキー・テンポ情報を書き換える。また、１度検索されたレコメンド楽曲の曲名は、ユーザ情報格納部２５により格納されているので、ユーザは、検索済みのレコメンド楽曲データをいつでも取得することが可能となる。
【０２６９】
なお、本実施例では、サーバ２０は、音声データを構成する各音素から次の音素に移るまでの時間平均に基づいて、テンポ情報を出力していたが、音声データを構成する各音素の長さの平均に基づいて、テンポ情報を出力するとしてもよい。
【０２７０】
以上説明したように、本実施例によれば、携帯端末１０は、歌唱楽曲データを再生出力し、ユーザは、その再生された楽曲を歌唱する。音声認識装置３０は、その歌唱に基づく音声データを解析して、音声データのキー・テンポ情報を検出する。サーバ２０は、検出したキー・テンポ情報に基づいて、レコメンド楽曲データを検索する。サーバ２０は、検索したレコメンド楽曲データを携帯端末１０に提供する。従って、本実施例によれば、ユーザは、複雑なキー操作をすることなく、自身のキーおよびテンポにあった楽曲を容易かつ迅速に取得することが可能となる。
【０２７１】
（第２の実施例）
本発明の第２の実施形態における第２の実施例では、ユーザは、所定の楽曲（歌唱楽曲）を歌唱し、楽曲提供システムは、そのユーザの歌唱による音声データを解析し、ユーザが快適に歌唱可能なキーおよびテンポを検出する。楽曲提供システムは、上記の検出したキーおよびテンポに一致／近いキーおよびテンポのおすすめの楽曲（レコメンド楽曲）をユーザに提供する。なお、本実施例において、楽曲データおよびレコメンド楽曲データは、主に楽曲の伴奏を演奏するカラオケデータであるとする。以下、特記しない限り、本実施例における楽曲提供システムの構成および動作は、本発明の第１の実施形態における第２の実施例と同様であるとし、第１の実施形態における第２の実施例と同様に図１６〜図１９を用いて本実施例の説明を進める。
【０２７２】
本実施例では、楽曲提供システムは、第１の実施形態における第２の実施例と同様に、図５および図６に示されるようなユーザ情報登録処理を行う。
【０２７３】
図３７は、本発明の第２の実施形態の第２の実施例における楽曲提供処理を示すシーケンスである。以下、図３７に沿って、本実施例における楽曲提供システムによる楽曲提供処理について説明する。
【０２７４】
まず、携帯端末１０は、ユーザが歌唱する楽曲（歌唱楽曲）を指定するための画面（歌唱楽曲入力画面）に係る情報（Ｗｅｂページ）のダウンロード要求をサーバ２０に送信する（Ｅ１０→Ｅ２０）。
【０２７５】
次に、サーバ２０は、携帯端末１０にダウンロード要求された歌唱楽曲入力画面情報を携帯端末１０に送信する（Ｅ２１→Ｅ１１）。
【０２７６】
次に、携帯端末１０は、歌唱楽曲およびその曲名を示す情報を含む歌唱楽曲データのダウンロード要求をサーバ２０に送信する（Ｅ１２→Ｅ２２）。「歌唱楽曲データ」とは、歌唱楽曲を再生出力するための楽曲データであり、楽曲の所定部分（例えばサビ部分など）を示すデータである。
【０２７７】
サーバ２０は、携帯端末１０にダウンロード要求された歌唱楽曲データを携帯端末１０に送信する。また、サーバ２０は、歌唱楽曲データとともに、レコメンド楽曲を提供するための画面（レコメンド楽曲取得画面）の情報についても携帯端末１０に送信する（Ｅ２３→Ｅ１３）。
【０２７８】
次に、携帯端末１０は、音声認識装置３０によるレコメンド楽曲検索の際における検索条件を示す情報をサーバ２０に送信する（Ｅ１４→Ｅ２４）。
【０２７９】
次に、サーバ２０は、携帯端末１０に送信した歌唱楽曲データを示す情報と、携帯端末１０から受信した検索条件情報と、を音声認識装置３０に送信する（Ｅ２５→Ｅ３０）。
【０２８０】
次に、携帯端末１０は、受信した歌唱楽曲データに沿ったユーザの歌唱による音声データを音声認識装置３０に送信する（Ｅ１５→Ｅ３１）。
【０２８１】
音声認識装置３０は、携帯端末１０から受信した音声データに基づいてレコメンド楽曲を検索し、その検索結果情報をサーバ２０に送信する（Ｅ３２→Ｅ２６）。
【０２８２】
サーバ２０は、音声認識装置３０から受信した検索結果情報を携帯端末１０に送信する（Ｅ２７→Ｅ１６）。
【０２８３】
次に、携帯端末１０は、検索結果に示されている１つ以上のレコメンド楽曲から所定の楽曲を選択して、その楽曲データのダウンロード要求を示す情報をサーバ２０に送信する（Ｅ１７→Ｅ２８）。
【０２８４】
サーバ２０は、携帯端末１０からレコメンド楽曲のダウンロード要求を受信すると、該当する楽曲データを携帯端末１０に送信する（Ｅ２９→Ｅ１８）。以上で、楽曲提供システムは、レコメンド楽曲提供処理を終了する。
【０２８５】
図３８および図３９は、本発明の第２の実施形態の第２の実施例における楽曲提供システムによるレコメンド楽曲提供動作の流れを示すフローチャートである。以下、図３８および図３９に沿って、本実施例における楽曲提供システムによるレコメンド楽曲提供動作について説明する。
【０２８６】
まず、携帯端末１０は、サーバ２０に対して、歌唱楽曲入力画面の情報のダウンロード要求（Ｗｅｂサイトの接続要求）を行う（ステップＳ５０１）。「歌唱楽曲」とは、音声データを音声認識装置３０に送る際にユーザが歌唱する楽曲を示し、「歌唱楽曲入力画面」とは、歌唱楽曲の曲名および歌手名を入力する画面を示す。また、送受信部１２は、歌唱楽曲入力画面のダウンロード要求とともに、操作部１５などにより入力されたユーザＩＤを示す情報を、サーバ２０に送信する。
【０２８７】
送受信部２２は、歌唱楽曲入力画面のダウンロード要求およびユーザＩＤ情報を受信すると、配信情報格納部２７に格納されている歌唱楽曲入力画面の情報（Ｗｅｂページ）を携帯端末１０に送信する（ステップＳ５０２）。
【０２８８】
送受信部１２は、サーバ２０から歌唱楽曲入力画面の情報を受信すると、表示部１４は、歌唱楽曲入力画面を表示する（ステップＳ５０３）。
【０２８９】
以下、本発明の第２の実施形態における第１の実施例と同様に、図２６を用いて、本実施例における歌唱楽曲入力画面について説明する。図２６に示されている歌唱楽曲入力画面上には、歌唱楽曲の曲名および歌手名を入力する領域が設けられている。操作部１５は、歌唱楽曲の曲名および歌手名を入力した後に歌唱楽曲入力画面上に設けられている「送信」キーを選択すると、送受信部１２は、入力された曲名および歌手名を示す情報をサーバ２０に送信する（ステップＳ５０４）。
【０２９０】
なお、本実施例では、携帯端末１０は、歌唱楽曲の曲名および歌手名をサーバ２０に送信しているが、ユーザが歌唱楽曲の曲名および歌手名を記憶していない場合には、ユーザは、第１の実施形態の第２の実施例における楽曲データ検索機能を用いて、ユーザが意図する歌唱楽曲の曲名などを検索することが可能である。
【０２９１】
送受信部２２が携帯端末１０から歌唱楽曲の曲名および歌手名を示す情報を受信すると、制御部２１は、受信された曲名および歌手名に該当する楽曲データを楽曲データ格納部２３から抽出する（ステップＳ５０５）。
【０２９２】
楽曲データ編集部２６は、抽出された楽曲データの所定部分（例えば１０秒間分）からなる歌唱楽曲データを作成する（ステップＳ５０６）。送受信部２２は、作成された歌唱楽曲データを携帯端末１０に送信する。また、送受信部２２は、配信情報格納部２７に格納されているレコメンド楽曲提供（取得）画面の情報（Ｗｅｂページ）を携帯端末１０に送信する。（ステップＳ５０７）。また、ユーザ情報格納部２５は、携帯端末１０に送信された部分データを識別するための情報を、携帯端末１０のユーザのユーザ情報と対応づけて格納する。
【０２９３】
送受信部１２は、サーバ２０からレコメンド楽曲取得画面の情報を受信すると、表示部１４は、送受信部１２により受信されたレコメンド楽曲取得画面を表示する（ステップＳ５０８）。また、データ格納部１３は、送受信部１２により受信された歌唱楽曲データを格納する。
【０２９４】
以下、本発明の第２の実施形態における第１の実施例と同様に、図２７を用いて、本実施例におけるレコメンド楽曲取得画面について説明する。図２７に示されているように、レコメンド楽曲取得画面には、歌唱楽曲データにより再生可能な楽曲の曲名および歌手名が表示される。また、レコメンド楽曲取得画面上には、「１．楽曲再生」および「２．検索条件入力」と示された各キーが設けられている。
【０２９５】
操作部１５が「１．楽曲再生」キーを選択すると、制御部１１は、データ格納部１３に格納されている歌唱楽曲データのうち、現在レコメンド楽曲取得画面に曲名が示されている楽曲データを読み込む。音声入出力部１６は、その読み込まれた歌唱楽曲データに基づく音声を出力する。ユーザは、再生された歌唱楽曲の再生範囲、キー、およびテンポを確認する。また、歌唱楽曲データとともに、その歌唱楽曲データに対応する歌詞データが、サーバ２０から携帯端末１０に送信された場合、表示部１４は、歌唱楽曲データ再生時にその歌詞を表示するとしてよい。
【０２９６】
操作部１５が「２．検索条件入力」キーを選択すると、表示部１４上のレコメンド楽曲取得画面は、検索条件入力画面に遷移する。以下、本発明の第２の実施形態における第１の実施例と同様に、図２８を用いて、本実施例における検索条件入力画面について説明する。図２８に示されているように、検索条件入力画面には、「１．歌手名」、「２．ジャンル」、および「３．曲調」といった検索条件入力欄と、「送信」キーと、「楽曲取得画面へ」の移動キーとが設けられている。本実施例では、例として、各検索条件入力欄には、歌手名として「山本三郎」、ジャンルとして「歌謡曲」、曲調として「バラード」がそれぞれ入力されている。操作部１５が、各検索条件入力後に「送信」キーを選択すると、送受信部１２は、入力された検索条件を示す情報をサーバ２０に送信する（ステップＳ５０９）。
【０２９７】
なお、操作部１５は、検索条件入力画面上の検索条件欄に、直接文字入力してもよいし、検索条件欄に検索条件が列挙されたプルダウンメニューを設けて、そのプルダウンメニューから所定の検索条件を選択するようにしてもよい。また、操作部１５は、複数設けられている検索条件のうち所定の検索条件だけ指定するとしてもよい。また、検索条件は、図２８に示されているものに限定されないものとする。
【０２９８】
送受信部２２が、携帯端末１０から検索条件情報を受信すると、制御部２１は、送受信部２２により受信された検索条件情報の送信元ユーザ（携帯端末１０のユーザ）のＩＤ情報を、その検索条件情報に付加する。また、制御部２１は、送受信部２２により受信されたユーザＩＤ情報に基づいて、ユーザ情報格納部２５から該当するユーザの電話番号情報を抽出し、受信された検索条件情報に付加する。送受信部２２は、ユーザＩＤ情報および携帯端末１０の電話番号情報が付加された検索条件情報を、音声認識装置３０に送信する。また、送受信部２２は、携帯端末１０に送信した歌唱楽曲データを識別するための情報についても同様に音声認識装置３０に送信する（ステップＳ５１０）。
【０２９９】
送受信部３２が検索条件情報および歌唱楽曲データの識別情報を受信すると、制御部３１は、検索条件情報とともに、付加されているユーザＩＤ情報および検索条件情報送信元の電話番号情報をそれぞれ検索条件情報に対応させるようにしてデータ格納部３３に格納させる。
【０３００】
操作部１５が図２８に「楽曲取得画面へ」と示されている領域を選択すると、送受信部１２は、新たなレコメンド楽曲取得画面情報のダウンロード要求をサーバ２０に送信する。送受信部２２は、携帯端末１０から新たなレコメンド楽曲取得画面情報の取得要求を受信すると、配信情報格納部２７に格納されているレコメンド楽曲取得画面情報を携帯端末１０に送信する。この際、送信するレコメンド楽曲取得画面情報には、ＰＨＯＮＥ−ＴＯ機能を起動させるための録音キーを表示させる情報が含まれている。また、送受信部２２は、レコメンド楽曲取得画面情報とともに、配信情報格納部２７に格納されている音声認識装置３０の電話番号情報についても、携帯端末１０に送信する。
【０３０１】
送受信部１２は、サーバ２０から新たにレコメンド楽曲取得画面情報を受信すると、表示部１４は、第２の実施形態における第１の実施例と同様に、図２９に示されるレコメンド楽曲取得画面を表示する（ステップＳ５１１）。図２９に示されるレコメンド楽曲取得画面には、図２７に示されたレコメンド楽曲画面にさらに「３．録音」キーが追加されている。また、送受信部１２は、音声認識装置３０の電話番号情報を受信すると、データ格納部１３は、一旦、受信された音声認識装置３０の電話番号情報を格納する。
【０３０２】
操作部１５が、レコメンド楽曲取得画面における「３．録音」キーを選択すると、制御部１１は、携帯端末１０が有するＰＨＯＮＥ−ＴＯ機能を起動させる。送受信部１２は、データ格納部１３に格納されている音声認識装置３０の電話番号情報を用いて、音声認識装置３０に発呼し、無線音声網３を介した携帯端末１０・音声認識装置３０間の電話通信を確立する（ステップＳ５１２）。
【０３０３】
次に、ユーザは、予め確認した歌唱楽曲を歌唱する。音声入出力部１６は、ユーザの歌唱に基づく音声を入力する（ステップＳ５１３）。
【０３０４】
送受信部１２は、電話通信により音声とともに、携帯端末１０の電話番号を示す情報を音声認識装置３０に送信する（ステップＳ５１４）。
【０３０５】
送受信部３２は、携帯端末１０から音声を受信し、所定のデータ形式（例えばＷＡＶ形式）で、受信した音声をデータ格納部３３に録音する。また、送受信部３２は、音声とともに、携帯端末１０の電話番号情報を受信すると、制御部３１は、音声データ送信元である携帯端末１０の電話番号に該当する電話番号情報がデータ格納部３３に格納されているか否かを判断する（ステップＳ５１５）。音声データ送信元の端末の電話番号情報が格納されていないと判断された場合（ステップＳ５１５／Ｎｏ）、制御部３１は、送信元端末のユーザによりレコメンド楽曲の取得が要求されていないと判断し、楽曲提供システムは、動作を終了する。また、制御部３１は、データ格納部３３に格納されている音声データを消去する。
【０３０６】
送信元端末の電話番号情報がデータ格納部３３に格納されていると判断された場合（ステップＳ５１５／Ｙｅｓ）、音声変換部３６は、録音された音声データのデータ形式を変換する（ステップＳ５１６）。本実施例では、音声変換部３６は、録音された音声データ（例えばＷＡＶ形式）をＭＩＤＩ形式の音声データに変換する。
【０３０７】
次に、データ比較部３７は、ＭＩＤＩ変換された音声データを解析し、音声データを構成する各音素の高さおよび長さなどを検出する。データ比較部３７は、上記の各音素における高さおよび長さなどに基づいて、音声データのキーおよびテンポ情報を出力する（ステップＳ５１７）。以下、本発明の第２の実施形態における第１の実施例と同様に、図３０を用いて、本実施例における音声データのキーおよびテンポ情報の出力方法について説明する。
【０３０８】
データ比較部３７は、ＭＩＤＩ変換された音声データを音素単位に分割する。図３０には、音声データが音素Ｐ１〜Ｐ５に分割されて示されている。なお、音声データにおいて、音の高さが変化するごとに音素として区切るようにしてもよい。例えば、データ比較部３７は、ユーザにより「ド」→「ミ」→「ラ」→「ソ」→「レ」の各音で順に歌唱されたと判断した場合、音声データを「ド」、「ミ」、「ラ」、「ソ」、「レ」の５つの音素に区切る。
【０３０９】
本実施例では、説明の便宜上、各音素における「音の高さ」は、「ド」、「レ」、「ミ」、「ファ」、「ソ」、「ラ」、「シ」の７音のうちのいずれかをとることとする。また、「音の高さ」が低い順に並べられた「ド」、「レ」、「ミ」、「ファ」、「ソ」、「ラ」、「シ」の７音において、互いに隣り合う音における「音の高さ」の差分は、それぞれ等しいものとする。例えば、「ド」と「レ」との間の「音の高さ」の差分は、「ソ」と「ラ」との間の「音の高さ」の差分に等しい。
【０３１０】
また、本実施例では、各音素における「音の長さ」は、単位時間長×ｎ（ｎは１以上の整数）で表されるものとする。なお、「単位時間長」は、所定の時間長（例えば１秒間）を表すものであって、その値は限定されないものとする。
【０３１１】
また、音声データを音声認識し、ユーザが発声した母音／子音ごとに音素として区切るようにしてもよい。例えば、データ比較部３７は、ユーザにより「さようなら」と歌唱されたと判断した場合、音声データを「さ」、「よ」、「う」、「な」、「ら」の５つの音素に区切る。
【０３１２】
図３０に示されているように、音素Ｐ１は、「さ」と発音された音素であって、音の高さが「ド」、音の長さが「３単位時間長」である。また、音素Ｐ２は、「よ」と発音された音素であって、音の高さが「ミ」、音の長さが「４単位時間長」である。また、音素Ｐ３は、「う」と発音された音素であって、音の高さが「ラ」、音の長さが「２単位時間長」である。また、音素Ｐ４は、「な」と発音された音素であって、音の高さが「ソ」、音の長さが「３単位時間長」である。また、音素Ｐ５は、「ら」と発音された音素であって、音の高さが「レ」、音の長さが「１単位時間長」である。
【０３１３】
本実施例において、音声データのキー情報は、その音声データにおける音の高さの最高値および最低値を示す情報を含む。データ比較部３７は、図３０に示される音声データを解析する場合、キー情報として、音素Ｐ３が示すキー最高値「ラ」、音素Ｐ１が示すキー最低値「ド」を検出する。
【０３１４】
また、本実施例では、音声データのテンポ情報は、ある音素から次の音素に移るまでの時間長の平均を示す情報を含む。例えば、音素Ｐ１から音素Ｐ２に移るまでの時間は、「３単位時間長」である。同様に、音素Ｐ２→音素Ｐ３は「４単位時間長」、音素Ｐ３→音素Ｐ４は「２単位時間長」、音素Ｐ４→音素Ｐ５は「３単位時間長」となる。データ比較部３７は、上記の次の音素に移るまでの時間平均を算出する。図３０に示される音声データでは、時間平均は「（３＋４＋２＋３）÷４＝３」となる。
【０３１５】
データ比較部３７は、音声データのキー・テンポ情報検出後、そのキー・テンポ情報に一致／近い値の楽曲データを検索する（ステップＳ５１８）。以下、本発明の第２の実施形態における第１の実施例と同様に、図３１および図３２を用いて、本実施例におけるレコメンド楽曲データの検索動作について説明する。
【０３１６】
図３１に示されているように、楽曲データ格納部３４に格納されている１つ以上の楽曲データは、その楽曲データを構成する音のキー最高値およびキー最低値に基づいて区分されたグループＧｋ１１、Ｇｋ２１、Ｇｋ２２、Ｇｋ３１、Ｇｋ３２、Ｇｋ３３の計６個のグループのいずれかに属する。
【０３１７】
図３１に示されているように、キーの最高値およびキーの最低値は、それぞれ「１」、「２」、「３」の３種類の値をとり得る。例えば、キーの最高値および最低値における「１」には、「ド」、「レ」、「ミ」の３音が含まれ、「２」には、「ファ」、「ソ」の２音が含まれ、「３」には、「ラ」、「シ」の２音が含まれるとしてもよい。例えば、最高キーが「シ」でキーの最低キーが「ファ」の楽曲データは、キー最高値が「３」、最低値が「２」となり、図３１から、グループＧｋ３２に含まれることとなる。
【０３１８】
図３２に示されているように、楽曲データ格納部３４に格納されている１つ以上の楽曲データは、その楽曲データを構成する音のキーの最高値・最低値およびテンポに基づいて区分されたグループＧｔ１〜Ｇｔ１８の計１８個のグループのいずれかに属する。グループＧｔ１〜Ｇｔ１８は、図３１に示されている６個のグループをテンポ別にさらに細分化したものである。例えば、グループＧｋ１１に属する楽曲データは、その楽曲データのテンポに従って、グループＧｔ１、Ｇｔ７、Ｇｔ１３のいずれかに属することとなる。例としてあげると、グループＧｔ５に属する楽曲は、最高キーが「ラ」または「シ」、最低キーが「ファ」または「ソ」、次の音素に移るまでの平均時間が「２単位時間長未満」のものである。楽曲属性情報格納部３５は、各楽曲データが属するグループを示す情報を、各楽曲データに対応するようにして格納している。
【０３１９】
図３１に示されているように、テンポは、「１」、「２」、「３」の３値をとり得る。例えば、本実施例では、音声データにおける次の音素に移るまでの時間平均が、２単位時間長未満の場合にその音声データのテンポを、テンポ「１」、２単位時間長以上４単位時間長未満の場合にテンポ「２」、４単位時間長以上の場合にテンポ「３」とする。
【０３２０】
ここで、図３０に示されている音声データを例に挙げて、レコメンド楽曲データの検索動作について説明する。上記したように、図３０の音声データの最高キーは「ラ」、最低キーは「ド」である。データ比較部３７は、図３１に示されているテーブルに基づいて、音声データが属するグループを検出する。音声データのキー最高値は「３」、キー最低値は「１」であるので、音声データが属するグループは、グループＧｋ３１となる。
【０３２１】
次に、データ比較部３７は、図３２に示されているテーブルに基づいて、音声データが属するグループを検出する。音声データは、グループＧｋ３１に属し、音声データにおける次の音素にまでの時間平均は、「３単位時間長」であるので、音声データが属するグループは、グループＧｔ１０となる。
【０３２２】
次に、データ比較部３７は、データ格納部３３に格納されている検索条件情報のうち、音声データの送信元に対応するものを参照して、グループＧｔ１０に属する楽曲データのうち、検索条件を満たすものを抽出する。データ比較部３７は、上記の所定グループにおいて検索条件を満たす１つ以上の楽曲データの曲名および歌手名などの検索結果を出力する。以上のようにして、データ比較部３７は、レコメンド楽曲を検索する。
【０３２３】
なお、本実施例では、便宜上、「ド」、「レ」、「ミ」、「ファ」、「ソ」、「ラ」、「シ」の７音を用いて「音の高さ」を説明したが、音声データおよび楽曲データは、他の音により構成されるとしてもよい。また、本実施例では、「音の長さ」は単位時間×ｎ（ｎは１以上の整数）で示されていたが、「音の長さ」を他の方法により表現するようにしてもよい。
【０３２４】
次に、送受信部３２は、検索結果（楽曲データの曲名など）が示されている検索結果情報をサーバ２０に送信する（ステップＳ５１９）。なお、検索結果情報には、レコメンド楽曲の曲名、歌手名、およびユーザ固有のキー・テンポ情報などが含まれる。また、制御部３１は、データ格納部３３に格納されているもののうち、サーバ２０に送信された検索結果情報に対応する音声データ、検索結果情報、ユーザＩＤ情報、電話番号情報、および楽曲データのＩＤ情報を消去する。
【０３２５】
送受信部２２は、音声認識装置３０から検索結果情報を受信すると、その受信した検索結果情報と、配信情報格納部２７に格納されている新たなレコメンド楽曲取得画面の情報とを携帯端末１０に送信する（ステップＳ５２０）。
【０３２６】
また、ユーザ情報格納部２５は、検索されたレコメンド楽曲の曲名およびユーザ固有のキー・テンポ情報を該当するユーザ情報に対応づけて格納する。
【０３２７】
送受信部１２は、サーバ２０から検索結果情報およびレコメンド楽曲取得画面情報を受信すると、表示部１４は、第２の実施形態における第１の実施例と同様に、図３３に示されるレコメンド楽曲取得画面を表示する。図３３に示されるレコメンド楽曲取得画面には、図２９に示されるレコメンド楽曲取得画面に、「４．レコメンド楽曲表示」キーがさらに設けられている。
【０３２８】
操作部１５が「４．レコメンド楽曲表示」キーを選択すると、表示部１４は、レコメンド楽曲表示画面を表示する（ステップＳ５２１）。以下、本発明の第２の実施形態における第１の実施例と同様に、図３４を用いて、本実施例におけるレコメンド楽曲表示画面について説明する。図３４には、レコメンド曲としてサーバ２０・音声認識装置３０側がすすめる楽曲の曲名および歌手名が表示されている。操作部１５が表示されている曲名のうちの１つを選択すると、送受信部１２は、選択された曲名が示すレコメンド楽曲データのダウンロード要求をサーバ２０に送信する（ステップＳ５２２）。
【０３２９】
送受信部２２が携帯端末１０からレコメンド楽曲のダウンロード要求を受信すると、制御部２１は、楽曲データ格納部２３に格納されている楽曲データのうち、ダウンロード要求されているものを抽出する。送受信部２２は、抽出された楽曲データをレコメンド楽曲データとして携帯端末１０に送信する（ステップＳ５２３）。
【０３３０】
また、ユーザ情報格納部２５は、レコメンド楽曲データとして携帯端末１０に送信した楽曲データの曲名を、該当するユーザ情報に対応づけて格納する。
【０３３１】
送受信部１２が、サーバ２０からレコメンド楽曲データを受信すると、データ格納部１３は、受信されたレコメンド楽曲データを格納する（ステップＳ５２４）。データ格納部１３に格納されたレコメンド楽曲データについては、第２の実施形態における第１の実施例と同様に、図３５に示されるようなレコメンド楽曲表示画面において、曲名に対応するようにして「ダウンロード済み」と表示される。操作部１５が、「ダウンロード済み」と表示されている曲名を再度選択すると、制御部１１は、データ格納部１３に格納されている楽曲データのうち選択された曲名に対応する楽曲データを読み込む。音声入出力部１６は、読み込まれた楽曲データを音声により再生して出力する。以上で、本実施例における楽曲提供システムによるレコメンド楽曲提供動作は終了する。
【０３３２】
以下、第２の実施形態における第１の実施例と同様に、図３６を用いて、ユーザ情報格納部２５により格納されているユーザ情報について説明する。図３６に示されているように、ユーザ情報格納部２５は、各ユーザを識別するためのユーザＩＤ情報に対応付けて、そのユーザ名と、ユーザの端末（携帯端末１０）の電話番号と、ユーザの声のキー最高値・最低値と、ユーザのテンポ情報と、そのユーザの音声データに基づくレコメンド楽曲の検索履歴（検索時期の情報を含む）と、そのユーザの端末への楽曲のダウンロード履歴（ダウンロード時期の情報を含む）と、をユーザ情報として格納するようにしてもよい。また、ユーザ情報格納部２５は、ユーザの性別、住所、およびメールアドレスなどのユーザの属性情報をさらに格納するようにしてもよいし、他の情報を格納するようにしてもよい。
【０３３３】
図３６に示されているように、１度検出されたキー・テンポ情報は、ユーザ情報格納部２５により格納されているので、ユーザは、次回にレコメンド楽曲を取得要求する際、歌唱して音声データを入力する作業を省くことが可能である。また、音声認識装置３０が新たにキー・テンポ情報を検出した場合には、制御部２１は、その都度ユーザ情報格納部２５内のキー・テンポ情報を書き換える。また、１度検索されたレコメンド楽曲の曲名は、ユーザ情報格納部２５により格納されているので、ユーザは、検索済みのレコメンド楽曲データをいつでも取得することが可能となる。
【０３３４】
なお、本実施例では、音声認識装置３０は、音声データを構成する各音素から次の音素に移るまでの時間平均に基づいて、テンポ情報を出力していたが、音声データを構成する各音素の長さの平均に基づいて、テンポ情報を出力するとしてもよい。
【０３３５】
以上説明したように、本実施例によれば、携帯端末１０は、歌唱楽曲データを再生出力し、ユーザは、その再生された楽曲を歌唱する。音声認識装置３０は、その歌唱に基づく音声データを解析して、音声データのキー・テンポ情報を検出する。音声認識装置３０は、検出したキー・テンポ情報に基づいて、レコメンド楽曲データを検索する。サーバ２０は、音声認識装置３０により検索されたレコメンド楽曲データを携帯端末１０に提供する。従って、本実施例によれば、ユーザは、複雑なキー操作をすることなく、自身のキーおよびテンポにあった楽曲を容易かつ迅速に取得することが可能となる。
【０３３６】
（第３の実施形態）
（第１の実施例）
本発明の第３の実施形態における第１の実施例では、第２の実施形態と同様に、楽曲提供システムは、ユーザの歌唱による音声に基づいて、ユーザが快適に歌唱可能なキーおよびテンポのレコメンド楽曲をユーザに提供する。本実施形態と第２の実施形態とは、レコメンド楽曲の検索方法において異なる。以下、特記しない限り、本実施例における楽曲提供システムの構成および動作は、本発明の第２の実施形態における第１の実施例と同様であるとする。以下、第２の実施形態における第１の実施例と同様に、図１〜図４を用いて本実施例の説明を進める。
【０３３７】
第２の実施形態における第１の実施例では、サーバ２０は、携帯端末１０から受信したユーザの歌唱による音声データを解析し、音声データにおける最高キーおよび最低キーを検出していた。また、第２の実施形態の第１の実施例におけるサーバ２０は、音声データを構成する各音素において、音素が発生してから次の音素が発生するまでの時間の間隔を検出し、その時間の間隔の平均を算出してテンポ情報を出力していた。
【０３３８】
本実施例では、サーバ２０は、ユーザが歌唱する楽曲の歌唱楽曲データを携帯端末１０に送信した時にその歌唱楽曲データをユーザ情報に対応付けて記憶しておく。そして、受信したユーザの歌唱による音声データと、そのユーザのユーザ情報に対応付けられた歌唱楽曲データと、を比較し、両者間における「音の高さ（キー）」および「音の長さ（テンポ）」の差分を算出する。サーバ２０は、その算出した差分情報に基づいて、レコメンド楽曲データを検索し、携帯端末１０に提供する。
【０３３９】
本実施例では、データ比較部２８は、音声データを構成する各音素と歌唱楽曲データを構成する各音素との間において、両データ間の各音素における「音の高さ」および「音の長さ」の差分を検出する。データ比較部２８は、音声データと歌唱楽曲データとをそれぞれ構成する音素を再生される時間順に並べて、音声データと歌唱楽曲データとにおける１番目の音素同士の差分、２番目の音素同士の差分、３番目同士の差分、．．．を算出し、所定の順の音素まで差分の算出を行う。次に、データ比較部２８は、算出した差分を積算し、その積算した差分を、差分を算出した音素の組の数で割り、「音の高さ」および「音の長さ」の差分平均を算出する。
【０３４０】
図４０の（ａ）は、本発明の第３の実施形態の第１の実施例における音声データを示す図であり、（ｂ）は、歌唱楽曲データを示す図である。以下、図４０を用いて、本実施例におけるサーバ２０による差分情報算出動作について説明する。
【０３４１】
本実施例では、説明の便宜上、各音素における「音の高さ」は、「ド」、「レ」、「ミ」、「ファ」、「ソ」、「ラ」、「シ」の７音のうちのいずれかをとることとする。また、「音の高さ」が低い順に並べられた「ド」、「レ」、「ミ」、「ファ」、「ソ」、「ラ」、「シ」の７音において、互いに隣り合う音における「音の高さ」の間隔は、それぞれ等しいものとする。例えば、「ド」と「レ」との間の「音の高さ」の間隔と、「ソ」と「ラ」との間の「音の高さ」の間隔と、は互いに等しい。上記の互いに隣り合う音における「音の高さ」の間隔を、以下「単位音程」と表記する。
【０３４２】
また、本実施例では、各音素における「音の長さ」は、単位時間長×ｎ（ｎは１以上の整数）で表されるものとする。なお、「単位時間長」は、所定の時間長（例えば１秒間）を表すものであって、その値は限定されないものとする。
【０３４３】
ユーザは、図４０の（ｂ）に示されている歌唱楽曲データ（ＭＩＤＩデータ）により再生される楽曲を歌唱する。携帯端末１０は、そのユーザによる歌唱に基づく音声データを音声認識装置３０に送信する。音声認識装置３０は、携帯端末１０から音声データを受信すると、その受信した音声データをＭＩＤＩデータに変換する。そのＭＩＤＩ変換された音声データは、図４０の（ａ）に示されているようなものとなる。
【０３４４】
図４０の（ａ）には、音声データを構成する音素Ｐ１１、Ｐ１２、Ｐ１３が示されている。音素Ｐ１１は、音の高さが「ド」で音の長さが「２単位時間長」である。音素Ｐ１２は、音の高さが「レ」で音の長さが「４単位時間長」である。音素Ｐ１３は、音の高さが「ミ」で音の長さが「２単位時間長」である。
【０３４５】
図４０の（ｂ）には、歌唱楽曲データを構成する音素Ｐ２１、Ｐ２２、Ｐ２３が示されている。音素Ｐ２１は、音素Ｐ１１の差分計算対象となる音素であり、音素Ｐ２２は、音素Ｐ１２の差分計算対象となる音素であり、音素Ｐ２３は、音素Ｐ１３の差分計算対象となる音素である。音素Ｐ２１は、音の高さが「レ」で音の長さが「１単位時間長」である。音素Ｐ２２は、音の高さが「ファ」で音の長さが「１単位時間長」である。音素Ｐ２３は、音の高さが「ミ」で音の長さが「３単位時間長」である。
【０３４６】
データ比較部２８は、音声データと歌唱楽曲データとを音素単位で比較して、両者における「音の高さ」の差分を算出する。音素Ｐ１１は、音素Ｐ２１よりも音の高さが「−１」だけ高い（「１」単位音程分だけ低い）。また、音素Ｐ１２は、音素Ｐ２２よりも音の高さが「−２」だけ高い（「２」単位音程分だけ低い）。また、音素Ｐ１３は、音素Ｐ２３よりも音の高さが「０」だけ高い（両者は等しい）。以上から、各音素における音の高さの差分の平均は、「｛（−１）＋（−２）＋０｝÷３＝−１」となる。
【０３４７】
データ比較部２８は、音声データと歌唱楽曲データとの音の高さにおける差分「−１」を算出する。音声データと歌唱楽曲データとの間の「音の高さ」における差分が、正の数である場合、音声データは歌唱楽曲データよりも「音の高さ」が高いことを示し、負の数である場合、音声データは歌唱楽曲データよりも「音の高さ」が低いことを示す。従って、データ比較部２８は、「音声データは歌唱楽曲データと比べて「１」単位音程分だけ音の高さが低い」旨のキー情報を出力する。
【０３４８】
音声データと歌唱楽曲データとの間のテンポの差分については、データ比較部２８により、以下のように算出される。データ比較部２８は、音声データと歌唱楽曲データとを音素単位で比較して、両者のテンポの差分を算出する。音素Ｐ１１は、音素Ｐ２１よりも音の長さが「１（１単位時間長）」だけ長い。また、音素Ｐ１２は、音素Ｐ２２よりも音の長さが「３」だけ長い。また、音素Ｐ１３は、音素Ｐ２３よりも音の長さが「−１」だけ長い（「１」だけ短い）。以上から、各音素における音の長さの差分の平均は「｛１＋３＋（−１）｝÷３＝１」となる。
【０３４９】
データ比較部２８は、音声データと歌唱楽曲データとの音の長さにおける差分「１」を算出する。音声データと歌唱楽曲データとの間の「音の長さ」における差分が正の数である場合、音声データは歌唱楽曲データよりもテンポが遅いことを示し、負の数である場合、音声データは歌唱楽曲データよりもテンポが速いことを示す。従って、データ比較部２８は、「音声データは歌唱楽曲データと比べて「１」単位時間長だけテンポが遅い」旨のテンポ情報を出力する。
【０３５０】
楽曲データ格納部３４には、１つ以上の楽曲データが格納されており、その１つ以上の楽曲データは、各楽曲データのキー・テンポ情報に基づいて、それぞれ該当するグループに配置される。楽曲属性情報格納部３５は、各楽曲データが属するグループを示す情報を、各楽曲データに対応づけて格納している。図４１は、本発明の第３の実施形態の第１の実施例における楽曲属性情報格納部３５により格納される各楽曲データが属するグループ区分情報を示す図である。以下、図４１を用いて、本実施例におけるキーおよびテンポに基づくレコメンド楽曲データの検索動作について説明する。
【０３５１】
図４１には、５段階のキーレベルおよびテンポレベルがそれぞれ示されている。また、図４１には、キーおよびテンポに基づいて区分されたグループＧ１１〜Ｇ１５、Ｇ２１〜Ｇ２５、Ｇ３１〜Ｇ３５、Ｇ４１〜Ｇ４５、Ｇ５１〜Ｇ５５の２５グループが示されている。
【０３５２】
「キーレベル」とは、楽曲データ全体のキー（音）の高さの度合いを示すものであって、「１」が最も低いキーを表し、レベルの数字が増加するにつれてキーは高くなり、キーレベル「５」が最も高いキーを表す。
【０３５３】
また、「テンポレベル」とは、楽曲データ全体のテンポの速さの度合いを示すものであって、「１」が最も遅いテンポを表し、レベルの数字が増加するにつれてテンポは速くなり、テンポレベル「５」が最も速いテンポを表すものとする。
【０３５４】
また、図４１に示される各グループは、キーレベルおよびテンポレベルに従って、それぞれ区分されている。例えば、最もキーが低く（キーレベルが低く）、かつ最もテンポが遅い（テンポレベルが低い）グループは、グループＧ１１であり、最もキーが高く（キーレベルが高く）、かつ最もテンポが速い（テンポレベルが高い）グループは、グループＧ５５である。
【０３５５】
図４２は、本発明の第３の実施形態の第１の実施例における楽曲属性情報格納部３５に格納されているキーレベルと音の高さの差分平均との関係を示す図である。データ比較部２８は、図４２に示されるテーブルを参照して、歌唱楽曲データのキーレベルと、音声データと歌唱楽曲データとの間の「音の高さ」の差分平均Ｄｋとから、音声データのキーレベルを出力する。
【０３５６】
図４２において、縦に並べられた「１」〜「５」の数字は、「歌唱楽曲データ」のキーレベルを示す。また、図４２において、横に並べられた「１」〜「５」の数字は、データ比較部２８により出力される音声データのキーレベルを示す。また、「Ｄｋ」は、音声データと歌唱楽曲データの間における「音の高さ」の差分の平均を示す。例えば、歌唱楽曲データのキーレベルが「４」であって、差分平均Ｄｋが「−２．５」である場合、データ比較部２８は、音声データのキーレベル「２」を出力する。
【０３５７】
また、図４２に示されるテーブルからも明らかなように、所定の歌唱楽曲データのキーレベルに対して、差分平均Ｄｋの値が大きくなるほど、出力される音声データのキーレベルも大きな値となる。
【０３５８】
図４３は、本発明の第３の実施形態の第１の実施例における楽曲属性情報格納部３５に格納されているテンポレベルと音の長さの差分平均との関係を示す図である。データ比較部２８は、図４３に示されるテーブルを参照して、歌唱楽曲データのテンポレベルと、音声データと歌唱楽曲データとの間の「音の長さ」の差分平均Ｄｔとから、音声データのテンポレベルを出力する。
【０３５９】
図４３において、縦に並べられた「１」〜「５」の数字は、「歌唱楽曲データ」のテンポレベルを示す。また、図４３において、横に並べられた「１」〜「５」の数字は、データ比較部２８により出力される音声データのテンポレベルを示す。また、「Ｄｔ」は、音声データと歌唱楽曲データの間における「音の長さ」の差分の平均を示す。例えば、歌唱楽曲データのテンポレベルが「３」であって、差分平均Ｄｔが「−１．７」である場合、データ比較部２８は、音声データのテンポレベル「４」を出力する。
【０３６０】
また、図４３に示されるテーブルからも明らかであるように、所定の歌唱楽曲データのテンポレベルに対して、差分平均Ｄｔの値が大きくなるほど、出力される音声データのテンポレベルは小さな値となる。
【０３６１】
データ比較部２８は、算出したキー・テンポ情報および図４１に示されるグループ区分が示されているテーブルに基づいて、レコメンド楽曲が属するグループを検索する。ここで、図４０の（ｂ）に示された歌唱楽曲データは、キーレベル「３」であるとする。また、音声データと歌唱楽曲データとの間における音の高さの差分平均Ｄｋは「−１」である。データ比較部２８は、図４２に示されるテーブルを参照して、音声データのキーレベル「２」を出力する。
【０３６２】
また、歌唱楽曲データのテンポレベルは「３」であるとする。データ比較部２８は、音声データと歌唱楽曲データとの間における音の長さの差分平均Ｄｔ（＝１）と、図４３に示されるテーブルとに基づいて、音声データのテンポレベル「２」を出力する。
【０３６３】
データ比較部２８は、キーレベル「２」でテンポレベル「２」であるグループＧ２２を、レコメンド楽曲データが属するグループとして抽出する。
【０３６４】
データ比較部２８は、抽出したグループに属する楽曲データのうち、携帯端末１０から送信された検索条件を満たす楽曲データを、レコメンド楽曲として抽出する。以下の処理は、第２の実施形態における第１の実施例と同様であるとする。
【０３６５】
以上説明したように、本実施例によれば、携帯端末１０は、歌唱楽曲データを出力再生し、ユーザは、その再生された楽曲を歌唱する。サーバ２０は、そのユーザの歌唱による音声データと歌唱楽曲データとの間のキー・テンポ差分を算出し、その差分情報に基づいて、レコメンド楽曲データを検索し、サーバ２０は、その検索されたレコメンド楽曲データを携帯端末１０に提供する。従って、本実施例によれば、ユーザは、複雑なキー操作をすることなく、容易に自身が歌唱しやすいキーおよびテンポの楽曲を取得することが可能となる。
【０３６６】
以上説明したように、本実施例によれば、携帯端末１０は、歌唱楽曲データを出力再生し、ユーザは、その再生された楽曲を歌唱する。音声認識装置３０は、そのユーザの歌唱による音声データと歌唱楽曲データとの間のキー・テンポ差分を算出し、算出したキー・テンポ差分情報をサーバ２０に送信する。サーバ２０は、受信したキー・テンポ差分情報に基づいて、レコメンド楽曲データを検索し、その検索したレコメンド楽曲データを携帯端末１０に提供する。従って、本実施例によれば、ユーザは、複雑なキー操作をすることなく、容易に自身が歌唱しやすいキーおよびテンポの楽曲を取得することが可能となる。
【０３６７】
（第２の実施例）
第３の実施形態における第１の実施例では、データ比較部２８がレコメンド楽曲データの検索を行っていた。本発明の第３の実施形態における第２の実施例では、第２の実施形態における第２の実施例と同様の構成を有し、同様の動作を行うものとする。本実施例では、音声認識装置３０におけるデータ比較部３７が、第３の実施形態の第１の実施例におけるデータ比較部２８と同様のレコメンド楽曲データ検索動作を行う。詳細な動作については省略する。
【０３６８】
本実施例によれば、携帯端末１０は、歌唱楽曲データを出力再生し、ユーザは、その再生された楽曲を歌唱する。音声認識装置３０は、そのユーザの歌唱による音声データと歌唱楽曲データとの間のキー・テンポ差分を算出し、その差分情報に基づいて、レコメンド楽曲データを検索し、サーバ２０は、その検索されたレコメンド楽曲データを携帯端末１０に提供する。従って、本実施例によれば、ユーザは、複雑なキー操作をすることなく、容易に自身が歌唱しやすいキーおよびテンポの楽曲を取得することが可能となる。
【０３６９】
また、携帯端末１０は、データを送信・受信する処理と、データを格納する処理と、音声を入力・出力する処理と、情報を表示する処理と、所定の情報を入力する処理と、を行う。また、サーバ２０は、データを送信・受信する処理と、データを格納する処理と、楽曲データを編集する処理と、楽曲データを検索する処理と、を行う。また、音声認識装置３０は、データを送信・受信する処理と、データを格納する処理と、データ形式を変換する処理と、音声データ／楽曲データを構成する音の高さおよび長さを検出する処理と、音声データを構成する音の高さおよび長さと一致または近い楽曲データを検索する処理と、音声データと楽曲データとの差分を算出する処理と、算出した差分に基づいて楽曲データを検索する処理と、を行う。上記の処理は、携帯端末１０、サーバ２０、または音声認識装置３０が有するコンピュータプログラムにより実行されるが、上記のプログラムは、光記録媒体、磁気記録媒体、光磁気記録媒体、または半導体等の記録媒体に記録され、上記の記録媒体からロードされるようにしてもよいし、所定のネットワークを介して接続されている外部機器からロードされるようにしてもよい。
【０３７０】
なお、上記の実施形態は本発明の好適な実施の一例であり、本発明の実施形態は、これに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変形して実施することが可能となる。
【０３７１】
【発明の効果】
以上説明したように、本発明によれば、ユーザの歌唱に基づく音声データを構成する各音の高さおよび長さに一致または近い音により構成される楽曲データを検索する。従って、本発明によれば、ユーザは、歌詞およびメロディしか覚えていない楽曲の曲名を、複雑なキー操作などを行うことなく、歌唱するだけで、容易かつ迅速に検索することが可能となる。
【０３７２】
また、本発明によれば、ユーザの歌唱に基づく音声データを構成する各音の高さの最高値および最低値を検出するとともに、音の長さの平均値を検出する。検出した音の高さの最高値および最低値と音の長さの平均値とに基づくキー・テンポ情報に一致または近い楽曲データを検索する。従って、ユーザは、自身が歌唱しやすいキーおよびテンポの楽曲を、複雑なキー操作などを行うことなく、歌唱するだけで、容易かつ迅速に取得することが可能となる。
【０３７３】
また、本発明によれば、ユーザの歌唱に基づく音声データと歌唱楽曲データとをそれぞれ構成する各音の高さおよび長さの差分の平均値を算出する。歌唱楽曲データ全体のキーおよびテンポから、算出した差分情報分異なるキーおよびテンポの楽曲データを検索する。従って、ユーザは、自身が歌唱しやすいキーおよびテンポの楽曲を、複雑なキー操作などを行うことなく、歌唱するだけで、容易かつ迅速に取得することが可能となる。
【図面の簡単な説明】
【図１】本発明の第１の実施形態の第１の実施例における楽曲提供システムの構成を示す図である。
【図２】本発明の第１の実施形態の第１の実施例における携帯端末の構成を示す図である。
【図３】本発明の第１の実施形態の第１の実施例におけるサーバの構成を示す図である。
【図４】本発明の第１の実施形態の第１の実施例における音声認識装置の構成を示す図である。
【図５】本発明の第１の実施形態の第１の実施例におけるユーザ情報登録処理を示すシーケンスである。
【図６】本発明の第１の実施形態の第１の実施例における楽曲提供システムによるユーザ登録動作の流れを示すフローチャートである。
【図７】本発明の第１の実施形態の第１の実施例におけるユーザ情報登録画面を示す図である。
【図８】本発明の第１の実施形態の第１の実施例における楽曲検索処理を示すシーケンスである。
【図９】本発明の第１の実施形態の第１の実施例における楽曲提供システムによる楽曲検索動作の流れを示すフローチャートである。
【図１０】本発明の第１の実施形態の第１の実施例における楽曲提供システムによる楽曲検索動作の流れを示すフローチャートである。
【図１１】本発明の第１の実施形態の第１の実施例における楽曲検索画面を示す図である。
【図１２】本発明の第１の実施形態の第１の実施例における検索条件入力画面を示す図である。
【図１３】（ａ）は、本発明の第１の実施形態の第１の実施例における音声データを示す図であり、（ｂ）および（ｃ）は、本発明の第１の実施形態の第１の実施例における楽曲データを示す図である。
【図１４】本発明の第１の実施形態の第１の実施例における楽曲属性情報を示す図である。
【図１５】本発明の第１の実施形態の第１の実施例における検索結果画面を示す図である。
【図１６】本発明の第１の実施形態の第２の実施例における楽曲提供システムの構成を示す図である。
【図１７】本発明の第１の実施形態の第２の実施例における携帯端末の構成を示す図である。
【図１８】本発明の第１の実施形態の第２の実施例におけるサーバの構成を示す図である。
【図１９】本発明の第１の実施形態の第２の実施例における音声認識装置の構成を示す図である。
【図２０】本発明の第１の実施形態の第２の実施例における楽曲検索処理を示すシーケンスである。
【図２１】本発明の第１の実施形態の第２の実施例における楽曲提供システムによる楽曲検索動作の流れを示すフローチャートである。
【図２２】本発明の第１の実施形態の第２の実施例における楽曲提供システムによる楽曲検索動作の流れを示すフローチャートである。
【図２３】本発明の第２の実施形態の第１の実施例における楽曲提供処理を示すシーケンスである。
【図２４】本発明の第２の実施形態の第１の実施例における楽曲提供システムによるレコメンド楽曲提供動作の流れを示すフローチャートである。
【図２５】本発明の第２の実施形態の第１の実施例における楽曲提供システムによるレコメンド楽曲提供動作の流れを示すフローチャートである。
【図２６】本発明の第２の実施形態の第１の実施例における歌唱楽曲入力画面を示す図である。
【図２７】本発明の第２の実施形態の第１の実施例におけるレコメンド楽曲取得画面を示す図である。
【図２８】本発明の第２の実施形態の第１の実施例における検索条件入力画面を示す図である。
【図２９】本発明の第２の実施形態の第１の実施例におけるレコメンド楽曲取得画面を示す図である。
【図３０】本発明の第２の実施形態の第１の実施例における音声データを示す図である。
【図３１】本発明の第２の実施形態の第１の実施例におけるキー情報に基づく楽曲データのグループ区分を示す図である。
【図３２】本発明の第２の実施形態の第１の実施例におけるキーおよびテンポ情報に基づく楽曲データのグループ区分を示す図である。
【図３３】本発明の第２の実施形態の第１の実施例における検索結果受信後のレコメンド楽曲取得画面を示す図である。
【図３４】本発明の第２の実施形態の第１の実施例におけるレコメンド楽曲表示画面を示す図である。
【図３５】本発明の第２の実施形態の第１の実施例におけるレコメンド楽曲ダウンロード後のレコメンド楽曲表示画面を示す図である。
【図３６】本発明の第２の実施形態の第１の実施例におけるユーザ情報格納部内のユーザ情報を示す図である。
【図３７】本発明の第２の実施形態の第２の実施例における楽曲提供処理を示すシーケンスである。
【図３８】本発明の第２の実施形態の第２の実施例における楽曲提供システムによるレコメンド楽曲提供動作の流れを示すフローチャートである。
【図３９】本発明の第２の実施形態の第２の実施例における楽曲提供システムによるレコメンド楽曲提供動作の流れを示すフローチャートである。
【図４０】（ａ）は、本発明の第３の実施形態の第１の実施例における音声データを示す図であり、（ｂ）は、歌唱楽曲データを示す図である。
【図４１】本発明の第３の実施形態の第１の実施例における各楽曲データのグループ区分を示す図である。
【図４２】本発明の第３の実施形態の第１の実施例におけるキーレベルと音の高さの差分平均との関係を示す図である。
【図４３】本発明の第３の実施形態の第１の実施例におけるテンポレベルと音の長さの差分平均との関係を示す図である。
【符号の説明】
１０　携帯端末
１１、２１、３１　制御部
１２、２２、３２　送受信部
１３、３３　データ格納部
１４　表示部
１５　操作部
１６　音声入出力部
２０　サーバ
２３、３４　楽曲データ格納部
２４、３５　楽曲属性情報格納部
２５　ユーザ情報格納部
２６　楽曲データ編集部
２７　配信情報格納部
２８、３７　データ比較部
３０　音声認識装置
３６　音声変換部
ａ、ｂ　楽曲データ
Ｄｋ、Ｄｔ　差分平均
Ｇｋ１１、Ｇｋ２１、Ｇｋ２２、Ｇｋ３１〜Ｇｋ３３、Ｇｔ１〜Ｇｔ１８、Ｇ１１〜Ｇ１５、Ｇ２１〜Ｇ２５、Ｇ３１〜Ｇ３５、Ｇ４１〜Ｇ４５、Ｇ５１〜Ｇ５５　グループ
Ｐ１〜Ｐ５、Ｐ１１〜Ｐ１３、Ｐ２１〜Ｐ２３　音素

Claims

ユーザの歌唱に基づく音声データを構成する各音の高さおよび長さに基づいて、自身に格納されている１つ以上の楽曲を示す楽曲データから、前記音声データに対応する前記楽曲データを検索することを特徴とする楽曲検索サーバ。
ユーザの歌唱に基づく音声データを構成する各音の高さおよび長さを検出し、該検出した音声データにおける各音の高さおよび長さに基づいて、自装置に格納されている１つ以上の楽曲を示す楽曲データから、前記音声データに対応する前記楽曲データを検索することを特徴とする音声認識装置。
楽曲を示す１つ以上の楽曲データに、それぞれ、各該楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納手段と、
ネットワークを介して通信可能となっている携帯端末装置からユーザの歌唱に基づく音声データを受信する音声データ受信手段と、
前記音声データ受信手段により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出手段と、
前記音声データ検出手段により検出された音声データにおける各音の高さおよび長さに基づいて、前記１つ以上の楽曲データのうち、該当する前記楽曲データを検索する楽曲データ検索手段と、
を有することを特徴とする音声認識装置。
前記楽曲データ検索手段は、
前記音声データ検出手段により検出された音声データにおける各音の高さおよび長さと前記各楽曲データにおける各音の高さおよび長さとをそれぞれ比較し、前記１つ以上の楽曲データから、前記音声データと構成する各音の高さおよび長さが略一致した前記楽曲データを検索することを特徴とする請求項３記載の音声認識装置。
楽曲を示す１つ以上の楽曲データに、それぞれ、各該楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納手段と、
ネットワークを介して通信可能となっている携帯端末装置からユーザの歌唱に基づく音声データを受信する音声データ受信手段と、
前記音声データ受信手段により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出手段と、
前記音声データ検出手段により検出された前記音声データを構成する各音の高さに基づいて、前記音声データ全体のキーを示すキー情報を出力するキー情報出力手段と、
前記音声データ検出手段により検出された前記音声データを構成する各音の長さに基づいて、前記音声データ全体のテンポを示すテンポ情報を出力するテンポ情報出力手段と、
前記１つ以上の楽曲データのうち、前記キー情報出力手段により出力されたキー情報と、前記テンポ情報出力手段により出力されたテンポ情報と、に略一致した前記キー情報および前記テンポ情報の前記楽曲データを検索するキーテンポ楽曲検索手段と、
を有することを特徴とする音声認識装置。
前記キー情報出力手段は、
前記音声データ検出手段により検出された前記音声データを構成する各音の高さのうち、最高値および最低値を検出し、該検出した音の高さの最高値および最低値を前記キー情報として出力することを特徴とする請求項５記載の音声認識装置。
前記テンポ情報出力手段は、
前記音声データ検出手段により検出された前記音声データを構成する各音の長さの平均値を検出し、該検出した音の長さの平均値を前記テンポ情報として出力することを特徴とする請求項５または６記載の音声認識装置。
楽曲を示す１つ以上の楽曲データに、それぞれ、各該楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納手段と、
ネットワークを介して通信可能となっている携帯端末装置からユーザの歌唱に基づく音声データを受信する音声データ受信手段と、
前記音声データ受信手段により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出手段と、
前記楽曲データ格納手段により格納される楽曲データであって、前記ユーザが歌唱した楽曲を示す歌唱楽曲データを構成する各音の高さおよび長さを検出する歌唱楽曲データ検出手段と、
前記音声データを構成する各音と前記歌唱楽曲データを構成する各音との間における各音ごとの音の高さおよび長さの差分を検出する差分情報検出手段と、
前記１つ以上の楽曲データのうち、前記差分情報検出手段により検出された音の高さおよび長さの差分に基づいて、該当する前記楽曲データを検索する差分楽曲検索手段と、
を有することを特徴とする音声認識装置。
前記差分情報検出手段は、
前記音声データを構成する各音と前記歌唱楽曲データを構成する各音との間における各音ごとの音の高さおよび長さの差分を検出し、該検出した音の高さおよび長さの差分の平均値をそれぞれ算出し、
前記差分楽曲検索手段は、
前記歌唱楽曲データに付加されているキーおよびテンポを示す情報から、前記差分情報検出手段により算出された差分の平均値分だけ異なるキーおよびテンポを示す情報が付加されている前記楽曲データを抽出することを特徴とする請求項８記載の音声認識装置。
携帯端末装置と、ネットワークを介して前記携帯端末装置と通信可能である楽曲配信サーバと、前記携帯端末装置とネットワークを介して通信可能であり、前記楽曲配信サーバと接続されている音声認識装置と、を有する楽曲提供システムであって、
前記音声認識装置は、
楽曲を示す１つ以上の楽曲データに、それぞれ、各該楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納手段と、
前記携帯端末装置からユーザの歌唱に基づく音声データを受信する音声データ受信手段と、
前記音声データ受信手段により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出手段と、
前記音声データ検出手段により検出された音声データにおける各音の高さおよび長さと前記１つ以上の楽曲データにおける各音の高さおよび長さとをそれぞれ比較し、前記１つ以上の楽曲データのうち、前記音声データと構成する各音の高さおよび長さが略一致した前記楽曲データを検索する楽曲データ検索手段と、
前記楽曲配信サーバは、
楽曲を示す１つ以上の楽曲データを格納するサーバ楽曲格納手段と、
前記楽曲データ検索手段による検出結果を、前記音声認識装置から受信し、該受信した検出結果に基づいて、前記サーバ楽曲格納手段により格納されている１つ以上の楽曲データのうち、該当する前記楽曲データを前記携帯端末装置に送信する楽曲データ送信手段と、
を有することを特徴とする楽曲提供システム。
携帯端末装置と、ネットワークを介して前記携帯端末装置と通信可能である楽曲配信サーバと、前記携帯端末装置とネットワークを介して通信可能であり、前記楽曲配信サーバと接続されている音声認識装置と、を有する楽曲提供システムであって、
前記音声認識装置は、
楽曲を示す１つ以上の楽曲データに、それぞれ、各該楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納手段と、
前記携帯端末装置からユーザの歌唱に基づく音声データを受信する音声データ受信手段と、
前記音声データ受信手段により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出手段と、
前記音声データ検出手段により検出された前記音声データを構成する各音の高さのうち、最高値および最低値を抽出して前記音声データ全体のキーを示すキー情報とし、出力するキー情報出力手段と、
前記音声データ検出手段により検出された前記音声データを構成する各音の長さの平均値を前記音声データ全体のテンポを示すテンポ情報とし、出力するテンポ情報出力手段と、
前記１つ以上の楽曲データのうち、前記キー情報出力手段により出力されたキー情報と、前記テンポ情報出力手段により出力されたテンポ情報と、にそれぞれ略一致した前記キー情報および前記テンポ情報の前記楽曲データを検索するキーテンポ楽曲検索手段と、
を有し、
前記楽曲配信サーバは、
楽曲を示す１つ以上の楽曲データを格納するサーバ楽曲格納手段と、
前記キーテンポ楽曲検索手段による検索結果を、前記音声認識装置から受信し、該受信した検索結果に基づいて、前記サーバ楽曲格納手段により格納されている１つ以上の楽曲データのうち、該当する前記楽曲データを前記携帯端末装置に送信する楽曲データ送信手段と、
を有することを特徴とする楽曲提供システム。
携帯端末装置と、ネットワークを介して前記携帯端末装置と通信可能である楽曲配信サーバと、前記携帯端末装置とネットワークを介して通信可能であり、前記楽曲配信サーバと接続されている音声認識装置と、を有する楽曲提供システムであって、
前記音声認識装置は、
楽曲を示す１つ以上の楽曲データに、それぞれ、各該楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納手段と、
前記携帯端末装置からユーザの歌唱に基づく音声データを受信する音声データ受信手段と、
前記音声データ受信手段により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出手段と、
前記楽曲データ格納手段により格納される楽曲データであって、前記ユーザが歌唱した楽曲を示す歌唱楽曲データを構成する各音の高さおよび長さを検出する歌唱楽曲データ検出手段と、
前記音声データを構成する各音と前記歌唱楽曲データを構成する各音との間における各音ごとの音の高さおよび長さの差分を検出する差分情報検出手段と、
前記差分情報検出手段により検出された音の高さおよび長さの差分に基づいて、前記１つ以上の楽曲データから、該当する前記楽曲データを検索する差分楽曲検索手段と、
を有し、
前記楽曲配信サーバは、
楽曲を示す１つ以上の楽曲データを格納するサーバ楽曲格納手段と、
前記キーテンポ楽曲検索手段による検索結果を、前記音声認識装置から受信し、該受信した検索結果に基づいて、前記サーバ楽曲格納手段により格納されている１つ以上の楽曲データのうち、該当する前記楽曲データを前記携帯端末装置に送信する楽曲データ送信手段と、
を有することを特徴とする楽曲提供システム。
前記携帯端末装置からユーザが歌唱するための前記楽曲データのダウンロード要求を受信すると、前記サーバ楽曲格納手段により格納されている１つ以上の楽曲データのうち、ダウンロード要求されている前記楽曲データを抽出し、該抽出した楽曲データを前記携帯端末装置に送信する歌唱楽曲送信手段を有することを特徴とする請求項１１または１２記載の楽曲提供システム。
楽曲を示す１つ以上の楽曲データから所定の前記楽曲データを検索する楽曲提供システムを用いた楽曲提供方法であって、
前記１つ以上の楽曲データに、それぞれ、各該楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納工程と、
ユーザの歌唱に基づく音声データを受信する音声データ受信工程と、
前記音声データ受信工程により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出工程と、
前記音声データ検出工程により検出された音声データにおける各音の高さおよび長さと前記１つ以上の楽曲データにおける各音の高さおよび長さとをそれぞれ比較し、前記１つ以上の楽曲データのうち、前記音声データと構成する各音の高さおよび長さが略一致した前記楽曲データを検索する楽曲データ検索工程と、
を有することを特徴とする楽曲提供方法。
楽曲を示す１つ以上の楽曲データから所定の前記楽曲データを検索する楽曲提供システムを用いた楽曲提供方法であって、
前記１つ以上の楽曲データに、それぞれ、各該楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納工程と、
ユーザの歌唱に基づく音声データを受信する音声データ受信工程と、
前記音声データ受信工程により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出工程と、
前記音声データ検出工程により検出された前記音声データを構成する各音の高さのうち、最高値および最低値を抽出して前記音声データ全体のキーを示すキー情報とし、出力するキー情報出力工程と、
前記音声データ検出工程により検出された前記音声データを構成する各音の長さの平均値を前記音声データ全体のテンポを示すテンポ情報とし、出力するテンポ情報出力工程と、
前記１つ以上の楽曲データのうち、前記キー情報出力工程により出力されたキー情報と、前記テンポ情報出力工程により出力されたテンポ情報と、にそれぞれ略一致した前記キー情報および前記テンポ情報の前記楽曲データを検索するキーテンポ楽曲検索工程と、
を有することを特徴とする楽曲提供方法。
楽曲を示す１つ以上の楽曲データから所定の前記楽曲データを検索する楽曲提供システムを用いた楽曲提供方法であって、
前記１つ以上の楽曲データに、それぞれ、各該楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納工程と、
ユーザの歌唱に基づく音声データを受信する音声データ受信工程と、
前記音声データ受信工程により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出工程と、
前記楽曲データ格納工程により格納される楽曲データであって、前記ユーザが歌唱した楽曲を示す歌唱楽曲データを構成する各音の高さおよび長さを検出する歌唱楽曲データ検出工程と、
前記音声データを構成する各音と前記歌唱楽曲データを構成する各音との間における各音ごとの音の高さおよび長さの差分を検出する差分情報検出工程と、
前記差分情報検出工程により検出された音の高さおよび長さの差分に基づいて、前記１つ以上の楽曲データから、該当する前記楽曲データを検索する差分楽曲検索工程と、
を有することを特徴とする楽曲提供方法。
楽曲を示す１つ以上の楽曲データに、それぞれ、各該楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納処理と、
ユーザの歌唱に基づく音声データを受信する音声データ受信処理と、
前記音声データ受信処理により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出処理と、
前記音声データ検出処理により検出された音声データにおける各音の高さおよび長さと前記１つ以上の楽曲データにおける各音の高さおよび長さとをそれぞれ比較し、前記１つ以上の楽曲データのうち、前記音声データと構成する各音の高さおよび長さが略一致した前記楽曲データを検索する楽曲データ検索処理と、
をコンピュータに実行させるためのプログラム。
楽曲を示す１つ以上の楽曲データに、それぞれ、各該楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納処理と、
ユーザの歌唱に基づく音声データを受信する音声データ受信処理と、
前記音声データ受信処理により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出処理と、
前記音声データ検出処理により検出された前記音声データを構成する各音の高さのうち、最高値および最低値を抽出して前記音声データ全体のキーを示すキー情報とし、出力するキー情報出力処理と、
前記音声データ検出処理により検出された前記音声データを構成する各音の長さの平均値を前記音声データ全体のテンポを示すテンポ情報とし、出力するテンポ情報出力処理と、
前記１つ以上の楽曲データのうち、前記キー情報出力処理により出力されたキー情報と、前記テンポ情報出力処理により出力されたテンポ情報と、にそれぞれ略一致した前記キー情報および前記テンポ情報の前記楽曲データを検索するキーテンポ楽曲検索処理と、
をコンピュータに実行させるためのプログラム。
楽曲を示す１つ以上の楽曲データに、それぞれ、各該楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納処理と、
ユーザの歌唱に基づく音声データを受信する音声データ受信処理と、
前記音声データ受信処理により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出処理と、
前記楽曲データ格納処理により格納される楽曲データであって、前記ユーザが歌唱した楽曲を示す歌唱楽曲データを構成する各音の高さおよび長さを検出する歌唱楽曲データ検出処理と、
前記音声データを構成する各音と前記歌唱楽曲データを構成する各音との間における各音ごとの音の高さおよび長さの差分を検出する差分情報検出処理と、
前記差分情報検出処理により検出された音の高さおよび長さの差分に基づいて、前記１つ以上の楽曲データから、該当する前記楽曲データを検索する差分楽曲検索処理と、
をコンピュータに実行させるためのプログラム。