JP2004021233A - 楽曲検索サーバ、音声認識装置、楽曲提供システム、楽曲提供方法、およびそのプログラム - Google Patents

楽曲検索サーバ、音声認識装置、楽曲提供システム、楽曲提供方法、およびそのプログラム Download PDF

Info

Publication number
JP2004021233A
JP2004021233A JP2002180438A JP2002180438A JP2004021233A JP 2004021233 A JP2004021233 A JP 2004021233A JP 2002180438 A JP2002180438 A JP 2002180438A JP 2002180438 A JP2002180438 A JP 2002180438A JP 2004021233 A JP2004021233 A JP 2004021233A
Authority
JP
Japan
Prior art keywords
data
music
song
sound
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002180438A
Other languages
English (en)
Other versions
JP4030808B2 (ja
Inventor
Yasuhisa Fujito
藤戸 靖久
Hiroshi Sasaki
佐々木 浩
Rika Shimizu
清水 里香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2002180438A priority Critical patent/JP4030808B2/ja
Publication of JP2004021233A publication Critical patent/JP2004021233A/ja
Application granted granted Critical
Publication of JP4030808B2 publication Critical patent/JP4030808B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複雑なキー操作を必要とせず、ユーザの歌唱に応じて、容易に楽曲を提供する音声認識装置、楽曲提供システム、楽曲提供方法、およびそのプログラムを提供する。
【解決手段】ユーザは、楽曲を歌唱する。携帯端末10は、ユーザの歌唱による音声データを音声認識装置30に送信する。音声認識装置30は、受信した音声データを構成する各音素の高さおよび長さを検出し、該当する楽曲データを検索する。音声認識装置30は、サーバ20に検索結果を送信する。サーバ20は、受信した検索結果に基づいて、楽曲データを抽出し、携帯端末10に送信する。
【選択図】    図1

Description

【0001】
【発明の属する技術分野】
本発明は、楽曲検索サーバ、音声認識装置、楽曲提供システム、楽曲提供方法、およびそのプログラムに関し、特に、ユーザの歌唱による音声データに基づいて、楽曲データを検索する楽曲検索サーバ、音声認識装置、楽曲提供システム、楽曲提供方法、およびそのプログラムに関する。
【0002】
【従来の技術】
従来、ユーザの嗜好または声域などに応じてカラオケなどの楽曲を調整する従来技術として、以下のようなものがあった。
【0003】
例えば、特開平8−234771号公報が開示するところのカラオケ装置(以下、従来例1)では、歌唱者の歌唱音声信号に基づいてハーモニー音声信号を形成することにより、歌唱者の歌唱に対してオリジナル歌手のような声のハーモニー音声を付加することを可能にしていた。
【0004】
また、特開平8−292772号公報が開示するところの個人情報読取機能付きカラオケ装置(以下、従来例2)では、個人情報に書き込まれている調データおよびテンポデータを読み取り、その読み取ったデータをカラオケ曲演奏に反映させることにより、顧客の歌いやすいカラオケ曲設定を自動的に行っていた。
【0005】
また、特開平11−259070号公報が開示するところの電子楽器(以下、従来例3)では、録音した演奏データを再生する際にテンポ情報を入力することにより、操作者の好みに応じた様々なテンポで演奏データを再生することが可能であった。
【0006】
【発明が解決しようとする課題】
しかしながら、従来例1は、歌唱者が歌唱する楽曲に自動的にハーモニーを付加するものであり、歌唱者の歌唱に従って、特定の楽曲を提供するといった構成を有していなかった。
【0007】
また、従来例2は、顧客が選択したカラオケ曲のキーおよびテンポを調整するものであり、歌唱者の歌唱に従って、特定の楽曲を提供するといった構成を有していなかった。
【0008】
また、従来例3は、演奏データのテンポを調整するものであって、歌唱者の歌唱に従って、特定の楽曲を提供するといった構成を有していなかった。
【0009】
本発明は、上記問題点に鑑みてなされたものであり、複雑なキー操作を必要とせず、ユーザの歌唱に応じて、容易に楽曲を提供する音声認識装置、楽曲提供システム、楽曲提供方法、およびそのプログラムを提供することを目的とする。
【0010】
【課題を解決するための手段】
かかる目的を達成するため、請求項1記載の発明は、ユーザの歌唱に基づく音声データを構成する各音の高さおよび長さに基づいて、自身に格納されている1つ以上の楽曲を示す楽曲データから、音声データに対応する楽曲データを検索することを特徴とする。
【0011】
また、請求項2記載の発明は、ユーザの歌唱に基づく音声データを構成する各音の高さおよび長さを検出し、検出した音声データにおける各音の高さおよび長さに基づいて、自装置に格納されている1つ以上の楽曲を示す楽曲データから、音声データに対応する楽曲データを検索することを特徴とする。
【0012】
また、請求項3記載の発明は、楽曲を示す1つ以上の楽曲データに、それぞれ、各楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納手段と、ネットワークを介して通信可能となっている携帯端末装置からユーザの歌唱に基づく音声データを受信する音声データ受信手段と、音声データ受信手段により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出手段と、音声データ検出手段により検出された音声データにおける各音の高さおよび長さに基づいて、1つ以上の楽曲データのうち、当する楽曲データを検索する楽曲データ検索手段と、を有することを特徴とする。
【0013】
また、請求項4記載の発明によれば、請求項3記載の音声認識装置において、楽曲データ検索手段は、音声データ検出手段により検出された音声データにおける各音の高さおよび長さと各楽曲データにおける各音の高さおよび長さとをそれぞれ比較し、1つ以上の楽曲データから、音声データと構成する各音の高さおよび長さが略一致した楽曲データを検索することを特徴とする。
【0014】
また、請求項5記載の発明は、楽曲を示す1つ以上の楽曲データに、それぞれ、各楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納手段と、ネットワークを介して通信可能となっている携帯端末装置からユーザの歌唱に基づく音声データを受信する音声データ受信手段と、音声データ受信手段により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出手段と、音声データ検出手段により検出された音声データを構成する各音の高さに基づいて、音声データ全体のキーを示すキー情報を出力するキー情報出力手段と、音声データ検出手段により検出された音声データを構成する各音の長さに基づいて、音声データ全体のテンポを示すテンポ情報を出力するテンポ情報出力手段と、1つ以上の楽曲データのうち、キー情報出力手段により出力されたキー情報と、テンポ情報出力手段により出力されたテンポ情報と、に略一致したキー情報およびテンポ情報の楽曲データを検索するキーテンポ楽曲検索手段と、を有することを特徴とする。
【0015】
また、請求項6記載の発明によれば、請求項5記載の音声認識装置において、キー情報出力手段は、音声データ検出手段により検出された音声データを構成する各音の高さのうち、最高値および最低値を検出し、検出した音の高さの最高値および最低値をキー情報として出力することを特徴とする。
【0016】
また、請求項7記載の発明によれば、請求項5または6記載の音声認識装置において、テンポ情報出力手段は、音声データ検出手段により検出された音声データを構成する各音の長さの平均値を検出し、検出した音の長さの平均値をテンポ情報として出力することを特徴とする。
【0017】
また、請求項8記載の発明は、楽曲を示す1つ以上の楽曲データに、それぞれ、各楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納手段と、ネットワークを介して通信可能となっている携帯端末装置からユーザの歌唱に基づく音声データを受信する音声データ受信手段と、音声データ受信手段により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出手段と、楽曲データ格納手段により格納される楽曲データであって、ユーザが歌唱した楽曲を示す歌唱楽曲データを構成する各音の高さおよび長さを検出する歌唱楽曲データ検出手段と、音声データを構成する各音と歌唱楽曲データを構成する各音との間における各音ごとの音の高さおよび長さの差分を検出する差分情報検出手段と、1つ以上の楽曲データのうち、差分情報検出手段により検出された音の高さおよび長さの差分に基づいて、当する楽曲データを検索する差分楽曲検索手段と、を有することを特徴とする。
【0018】
また、請求項9記載の発明によれば、請求項8記載の音声認識装置において、差分情報検出手段は、音声データを構成する各音と歌唱楽曲データを構成する各音との間における各音ごとの音の高さおよび長さの差分を検出し、検出した音の高さおよび長さの差分の平均値をそれぞれ算出し、差分楽曲検索手段は、歌唱楽曲データに付加されているキーおよびテンポを示す情報から、差分情報検出手段により算出された差分の平均値分だけ異なるキーおよびテンポを示す情報が付加されている楽曲データを抽出することを特徴とする。
【0019】
また、請求項10記載の発明は、携帯端末装置と、ネットワークを介して携帯端末装置と通信可能である楽曲配信サーバと、携帯端末装置とネットワークを介して通信可能であり、楽曲配信サーバと接続されている音声認識装置と、を有する楽曲提供システムであって、音声認識装置は、楽曲を示す1つ以上の楽曲データに、それぞれ、各楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納手段と、携帯端末装置からユーザの歌唱に基づく音声データを受信する音声データ受信手段と、音声データ受信手段により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出手段と、音声データ検出手段により検出された音声データにおける各音の高さおよび長さと1つ以上の楽曲データにおける各音の高さおよび長さとをそれぞれ比較し、1つ以上の楽曲データのうち、音声データと構成する各音の高さおよび長さが略一致した楽曲データを検索する楽曲データ検索手段と、楽曲配信サーバは、楽曲を示す1つ以上の楽曲データを格納するサーバ楽曲格納手段と、楽曲データ検索手段による検出結果を、音声認識装置から受信し、受信した検出結果に基づいて、サーバ楽曲格納手段により格納されている1つ以上の楽曲データのうち、当する楽曲データを携帯端末装置に送信する楽曲データ送信手段と、を有することを特徴とする。
【0020】
また、請求項11記載の発明は、携帯端末装置と、ネットワークを介して携帯端末装置と通信可能である楽曲配信サーバと、携帯端末装置とネットワークを介して通信可能であり、楽曲配信サーバと接続されている音声認識装置と、を有する楽曲提供システムであって、音声認識装置は、楽曲を示す1つ以上の楽曲データに、それぞれ、各楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納手段と、携帯端末装置からユーザの歌唱に基づく音声データを受信する音声データ受信手段と、音声データ受信手段により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出手段と、音声データ検出手段により検出された音声データを構成する各音の高さのうち、最高値および最低値を抽出して音声データ全体のキーを示すキー情報とし、出力するキー情報出力手段と、音声データ検出手段により検出された音声データを構成する各音の長さの平均値を音声データ全体のテンポを示すテンポ情報とし、出力するテンポ情報出力手段と、1つ以上の楽曲データのうち、キー情報出力手段により出力されたキー情報と、テンポ情報出力手段により出力されたテンポ情報と、にそれぞれ略一致したキー情報およびテンポ情報の楽曲データを検索するキーテンポ楽曲検索手段と、を有し、楽曲配信サーバは、楽曲を示す1つ以上の楽曲データを格納するサーバ楽曲格納手段と、キーテンポ楽曲検索手段による検索結果を、音声認識装置から受信し、受信した検索結果に基づいて、サーバ楽曲格納手段により格納されている1つ以上の楽曲データのうち、当する楽曲データを携帯端末装置に送信する楽曲データ送信手段と、を有することを特徴とする。
【0021】
また、請求項12記載の発明は、携帯端末装置と、ネットワークを介して携帯端末装置と通信可能である楽曲配信サーバと、携帯端末装置とネットワークを介して通信可能であり、楽曲配信サーバと接続されている音声認識装置と、を有する楽曲提供システムであって、音声認識装置は、楽曲を示す1つ以上の楽曲データに、それぞれ、各楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納手段と、携帯端末装置からユーザの歌唱に基づく音声データを受信する音声データ受信手段と、音声データ受信手段により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出手段と、楽曲データ格納手段により格納される楽曲データであって、ユーザが歌唱した楽曲を示す歌唱楽曲データを構成する各音の高さおよび長さを検出する歌唱楽曲データ検出手段と、音声データを構成する各音と歌唱楽曲データを構成する各音との間における各音ごとの音の高さおよび長さの差分を検出する差分情報検出手段と、差分情報検出手段により検出された音の高さおよび長さの差分に基づいて、1つ以上の楽曲データから、当する楽曲データを検索する差分楽曲検索手段と、を有し、楽曲配信サーバは、楽曲を示す1つ以上の楽曲データを格納するサーバ楽曲格納手段と、キーテンポ楽曲検索手段による検索結果を、音声認識装置から受信し、受信した検索結果に基づいて、サーバ楽曲格納手段により格納されている1つ以上の楽曲データのうち、当する楽曲データを携帯端末装置に送信する楽曲データ送信手段と、を有することを特徴とする。
【0022】
また、請求項13記載の発明によれば、請求項11または12記載の楽曲提供システムにおいて、携帯端末装置からユーザが歌唱するための楽曲データのダウンロード要求を受信すると、サーバ楽曲格納手段により格納されている1つ以上の楽曲データのうち、ダウンロード要求されている楽曲データを抽出し、抽出した楽曲データを携帯端末装置に送信する歌唱楽曲送信手段を有することを特徴とする。
【0023】
また、請求項14記載の発明は、楽曲を示す1つ以上の楽曲データから所定の楽曲データを検索する楽曲提供システムを用いた楽曲提供方法であって、1つ以上の楽曲データに、それぞれ、各楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納工程と、ユーザの歌唱に基づく音声データを受信する音声データ受信工程と、音声データ受信工程により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出工程と、音声データ検出工程により検出された音声データにおける各音の高さおよび長さと1つ以上の楽曲データにおける各音の高さおよび長さとをそれぞれ比較し、1つ以上の楽曲データのうち、音声データと構成する各音の高さおよび長さが略一致した楽曲データを検索する楽曲データ検索工程と、を有することを特徴とする。
【0024】
また、請求項15記載の発明は、楽曲を示す1つ以上の楽曲データから所定の楽曲データを検索する楽曲提供システムを用いた楽曲提供方法であって、1つ以上の楽曲データに、それぞれ、各楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納工程と、ユーザの歌唱に基づく音声データを受信する音声データ受信工程と、音声データ受信工程により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出工程と、音声データ検出工程により検出された音声データを構成する各音の高さのうち、最高値および最低値を抽出して音声データ全体のキーを示すキー情報とし、出力するキー情報出力工程と、音声データ検出工程により検出された音声データを構成する各音の長さの平均値を音声データ全体のテンポを示すテンポ情報とし、出力するテンポ情報出力工程と、1つ以上の楽曲データのうち、キー情報出力工程により出力されたキー情報と、テンポ情報出力工程により出力されたテンポ情報と、にそれぞれ略一致したキー情報およびテンポ情報の楽曲データを検索するキーテンポ楽曲検索工程と、を有することを特徴とする。
【0025】
また、請求項16記載の発明は、楽曲を示す1つ以上の楽曲データから所定の楽曲データを検索する楽曲提供システムを用いた楽曲提供方法であって、1つ以上の楽曲データに、それぞれ、各楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納工程と、ユーザの歌唱に基づく音声データを受信する音声データ受信工程と、音声データ受信工程により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出工程と、楽曲データ格納工程により格納される楽曲データであって、ユーザが歌唱した楽曲を示す歌唱楽曲データを構成する各音の高さおよび長さを検出する歌唱楽曲データ検出工程と、音声データを構成する各音と歌唱楽曲データを構成する各音との間における各音ごとの音の高さおよび長さの差分を検出する差分情報検出工程と、差分情報検出工程により検出された音の高さおよび長さの差分に基づいて、1つ以上の楽曲データから、当する楽曲データを検索する差分楽曲検索工程と、を有することを特徴とする。
【0026】
また、請求項17記載の発明は、楽曲を示す1つ以上の楽曲データに、それぞれ、各楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納処理と、ユーザの歌唱に基づく音声データを受信する音声データ受信処理と、音声データ受信処理により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出処理と、音声データ検出処理により検出された音声データにおける各音の高さおよび長さと1つ以上の楽曲データにおける各音の高さおよび長さとをそれぞれ比較し、1つ以上の楽曲データのうち、音声データと構成する各音の高さおよび長さが略一致した楽曲データを検索する楽曲データ検索処理と、をコンピュータに実行させることを特徴とする。
【0027】
また、請求項18記載の発明は、楽曲を示す1つ以上の楽曲データに、それぞれ、各楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納処理と、ユーザの歌唱に基づく音声データを受信する音声データ受信処理と、音声データ受信処理により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出処理と、音声データ検出処理により検出された音声データを構成する各音の高さのうち、最高値および最低値を抽出して音声データ全体のキーを示すキー情報とし、出力するキー情報出力処理と、音声データ検出処理により検出された音声データを構成する各音の長さの平均値を音声データ全体のテンポを示すテンポ情報とし、出力するテンポ情報出力処理と、1つ以上の楽曲データのうち、キー情報出力処理により出力されたキー情報と、テンポ情報出力処理により出力されたテンポ情報と、にそれぞれ略一致したキー情報およびテンポ情報の楽曲データを検索するキーテンポ楽曲検索処理と、をコンピュータに実行させることを特徴とする。
【0028】
また、請求項19記載の発明は、楽曲を示す1つ以上の楽曲データに、それぞれ、各楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納処理と、ユーザの歌唱に基づく音声データを受信する音声データ受信処理と、音声データ受信処理により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出処理と、楽曲データ格納処理により格納される楽曲データであって、ユーザが歌唱した楽曲を示す歌唱楽曲データを構成する各音の高さおよび長さを検出する歌唱楽曲データ検出処理と、音声データを構成する各音と歌唱楽曲データを構成する各音との間における各音ごとの音の高さおよび長さの差分を検出する差分情報検出処理と、差分情報検出処理により検出された音の高さおよび長さの差分に基づいて、1つ以上の楽曲データから、当する楽曲データを検索する差分楽曲検索処理と、をコンピュータに実行させることを特徴とする。
【0029】
【発明の実施の形態】
(第1の実施形態)
(第1の実施例)
図1は、本発明の第1の実施形態における第1の実施例の楽曲提供システムの構成を示す図である。本実施例では、まず、ユーザは、歌詞およびメロディがわかっているが曲名がわからないといった楽曲について歌唱する。楽曲提供システムは、上記の歌唱による音声データに適合する楽曲を検索し、ユーザに検索した楽曲を提供するものである。以下、図1を用いて、本実施例における楽曲提供システムの構成および動作について説明する。
【0030】
楽曲提供システムは、携帯端末10と、サーバ20と、音声認識装置30と、無線パケット網1と、無線音声網2と、ネットワーク3と、を有する。
【0031】
無線パケット網1は、携帯端末10とサーバ20とを無線で接続するものであり、携帯端末10・サーバ20間のデータ転送を行う伝送路である。
【0032】
無線音声網2は、携帯端末10と音声認識装置30とを無線で接続するものであり、携帯端末10・音声認識装置30間の音声データ転送を行う伝送路である。
【0033】
ネットワーク3は、サーバ20と音声認識装置30とを有線/無線で接続するものであり、サーバ20・音声認識装置30間のデータ転送を行う伝送路である。
【0034】
携帯端末10は、ユーザにより操作される情報処理装置であって、携帯電話機であってもよいし、PHS、PDA、またはノートブック型PCであってもよい。また、携帯端末10は、デスクトップ型PC、タワー型PC、またはカラオケ店などにもうけられているカラオケ装置であってもよいし、以下説明する携帯端末10の機能を有しているものであれば、他の機器であってもよい。ユーザは、携帯端末10を操作してユーザの歌唱に基づく音声データを音声認識装置30に送信し、そのユーザの歌唱に応じた楽曲を取得する。
【0035】
サーバ20は、ユーザに係る情報を管理する情報処理装置であって、Webサーバであってもよい。また、サーバ20は、ワークステーションなどのハイエンドPCにより実現されるとしてもよい。サーバ20は、ユーザに係る情報を管理するとともに、携帯端末10に、楽曲再生のための楽曲データおよびWebページなどの情報を配信する。
【0036】
音声認識装置30は、ユーザの歌唱による音声データを音声認識して該当する楽曲を検索する情報処理装置であって、ワークステーションなどのハイエンドPCにより実現されるとしてもよい。音声認識装置30は、携帯端末10から音声データを受け取ると、自身に蓄積されている楽曲データのうち該当する楽曲データを検索し、検索結果をサーバ20に送信する。
【0037】
図2は、本発明の第1の実施形態の第1の実施例における携帯端末10の構成を示す図である。以下、図2を用いて、本実施例における携帯端末10の構成および動作について説明する。
【0038】
携帯端末10は、制御部11と、送受信部12と、データ格納部13と、表示部14と、操作部15と、音声入出力部16と、を有する。
【0039】
制御部11は、送受信部12、データ格納部13、表示部14、操作部15、および音声入出力部16と接続されており、送受信部12、データ格納部13、表示部14、操作部15、および音声入出力部16を含む携帯端末10が有する各部位の制御を行う。
【0040】
送受信部12は、無線パケット網1を介してサーバ20と、無線音声網2を介して音声認識装置30と、それぞれデータの送受信を行う。さらに、送受信部12は、通常の携帯電話機またはPHSなどのように電話通信を行う機能を有する。
【0041】
データ格納部13は、データを格納する部位である。例えば、サーバ20からダウンロードされた楽曲のデータなどを格納する。
【0042】
表示部14は、例えば、液晶または有機ELなどによるディスプレイであって、文字および画像情報などを表示する。例えば、表示部14は、サーバ20から送信された文字/画像情報などを表示する。
【0043】
操作部15は、情報の入力を行う。例えば、操作部15は、通常の携帯電話機などに設けられているテンキーまたは方向キーなどであってもよいし、他の形状の操作部位であってもよい。
【0044】
音声入出力部16は、音声の入出力を行う部位である。例えば、音声入出力部16には、通常の携帯電話機などに設けられているようなマイクロフォンおよびスピーカが設けられているとしてもよい。音声入出力部16は、ユーザの発声(歌唱)による携帯端末10近傍の音声を入力する。また、音声入出力部16は、サーバ20または音声認識装置30から送信された音声情報を出力する。さらに、音声入出力部16は、データ格納部13に格納されている楽曲データを出力する。
【0045】
図3は、本発明の第1の実施形態の第1の実施例におけるサーバ20の構成を示す図である。以下、図3を用いて、本実施例におけるサーバ20の構成および動作について説明する。
【0046】
サーバ20は、制御部21と、送受信部22と、楽曲データ格納部23と、楽曲属性情報格納部24と、ユーザ情報格納部25と、楽曲データ編集部26と、配信情報格納部27と、データ比較部28と、を有する。
【0047】
制御部21は、送受信部22、楽曲データ格納部23、楽曲属性情報格納部24と、ユーザ情報格納部25、楽曲データ編集部26、配信情報格納部27、およびデータ比較部28と接続されており、送受信部22、楽曲データ格納部23、楽曲属性情報格納部24、ユーザ情報格納部25、楽曲データ編集部26、配信情報格納部27、およびデータ比較部28を含むサーバ20が有する各部位の制御を行う。
【0048】
送受信部22は、無線パケット網1を介して携帯端末10とデータ通信を行う。また、送受信部22は、ネットワーク3を介して音声認識装置30と接続されており、データの送受信を行う。例えば、送受信部22は、音声認識装置30から検索結果を受信し、携帯端末10に検索結果を示す楽曲のデータを送信する。
【0049】
楽曲データ格納部23は、1つ以上のMIDI形式による楽曲データを格納する。また、楽曲データ格納部23は、各楽曲データにおいて、音素ごとに対応した歌詞データを格納する。
【0050】
楽曲属性情報格納部24は、楽曲データ格納部23に格納されている各楽曲データの属性情報を含むデータベースを保持する。例えば、楽曲属性情報格納部24には、属性情報として、各楽曲データに対応した曲名、歌手名、楽曲データID、および楽曲における所定の範囲を示す選択範囲情報などが格納されている。なお、楽曲属性情報格納部24は、上記以外の情報を格納するとしてもよい。
【0051】
ユーザ情報格納部25は、1つ以上のユーザに係る情報(以下、ユーザ情報)を格納する。各ユーザ情報には、各ユーザを識別するためのユーザID情報が付加されている。ユーザ情報には、ユーザ名、携帯端末の電話番号、ユーザのメールアドレス、ユーザの年齢/性別、および各ユーザによる楽曲提供システムの利用履歴などの情報が含まれるとしてよい。なお、ユーザ情報には、上記以外の情報が含まれるとしてよい。
【0052】
楽曲データ編集部26は、楽曲属性情報格納部24に格納されている選択範囲情報に基づいて、楽曲データを編集し、楽曲を所定時間分(例えば、10秒間分)再生するための部分データを作成する。
【0053】
配信情報格納部27は、例えば、携帯端末10に表示させるWebページなどの配信情報などを格納する。
【0054】
データ比較部28は、音声認識装置30から送信された音声データと、楽曲データ格納部23に格納されている楽曲データを比較し、音声データと一致または近い楽曲データを検索する。なお、携帯端末10から検索条件を示す検索条件情報が送信された場合、データ比較部28は、その検索条件を反映させて楽曲データ検索を行う。
【0055】
図4は、本発明の第1の実施形態の第1の実施例における音声認識装置30の構成を示す図である。以下、図4を用いて、本実施例における音声認識装置30の構成および動作について説明する。
【0056】
音声認識装置30は、制御部31と、送受信部32と、データ格納部33と、音声変換部36と、を有する。
【0057】
制御部31は、送受信部32、データ格納部33、および音声変換部36と接続されており、送受信部32、データ格納部33、および音声変換部36を含む音声認識装置30における各部位を制御する。
【0058】
送受信部32は、無線音声網2を介して携帯端末10と音声情報の送受信を行う。例えば、送受信部32は、携帯端末10から、ユーザの歌唱による音声情報を受信する。また、送受信部32は、ネットワーク3を介してサーバ20と有線/無線接続されており、データの送受信を行う。さらに、送受信部32は、通常の携帯電話機またはPHSなどのように電話通信を行う機能を有する。
【0059】
データ格納部33は、送受信部31により受信された音声を自身に録音する。また、データ格納部33は、サーバ20から送信されたユーザ情報を一時格納する。データ格納部33は、ユーザ情報として少なくともユーザの携帯端末の電話番号を示す情報を格納するものとする。なお、ユーザ情報には、上記以外の情報が含まれるとしてもよい。
【0060】
音声変換部36は、データ格納部33に格納された所定のデータ形式(例えばWAV形式)の音声データを他のデータ形式(楽曲データ格納部23に格納されている楽曲データのデータ形式)の音声データに変換し、格納する。
【0061】
図5は、本発明の第1の実施形態の第1の実施例における楽曲提供システムによるユーザ情報登録を示すシーケンスである。以下、図1を用い、図5に沿って、楽曲提供システムによるユーザ情報登録処理について説明する。
【0062】
まず、携帯端末10は、携帯端末10のユーザの氏名および電話番号などのユーザ情報をサーバ20に送信する(A10→A20)。
【0063】
サーバ20は、携帯端末10からユーザ情報を受信し、自身にユーザ情報を登録すると、ユーザ情報の登録が完了した旨の情報を携帯端末10に送信する(A21→A11)。
【0064】
図6は、本発明の第1の実施形態における楽曲提供システムによるユーザ情報登録動作の流れを示すフローチャートである。以下、図1乃至図4を用い、図6に沿って、本実施形態における楽曲提供システムによるユーザ情報登録動作について詳細に説明する。
【0065】
まず、携帯端末10は、サーバ20に対してユーザ情報を登録するための配信情報の配信要求(Webサイトの接続要求)を行う(ステップS101)。
【0066】
送受信部22は、携帯端末10からの配信情報の配信要求を受信すると、配信情報格納部27に格納されているユーザ情報登録のための配信情報(Webページ)を携帯端末10に送信する(ステップS102)。
【0067】
送受信部12は、サーバ20からユーザ情報登録のための配信情報を受信すると、表示部14は、受信された配信情報を表示する(ステップS103)。
【0068】
次に、操作部15は、表示部14に表示された配信情報のフォームに従ってユーザ情報を入力する(ステップS104)。
【0069】
ここで、図7を用いて、ユーザ情報登録のための画面表示について説明する。図7は、本発明の第1の実施形態の第1の実施例におけるユーザ情報登録のための配信情報の画面表示を示す図である。操作部15は、図7に示されているような、「氏名」、「性別」、「(携帯端末の)電話番号」、および「住所」といったユーザ情報を入力し、入力後「登録」キーを選択すると、送受信部12は、入力されたユーザ情報をサーバ20に送信する。なお、入力されるユーザ情報は、図7に示されるものに限定されないものとする。
【0070】
再度図6に沿って説明を進める。送受信部22は、携帯端末10からユーザ情報を受信すると、制御部21は、その受信されたユーザ情報送信元のユーザのIDを示すユーザID情報を発行し、送受信部22により受信されたユーザ情報に付加する。ユーザ情報格納部25は、ユーザID情報が付加されたユーザ情報を格納する(ステップS105)。ユーザ情報格納後、送受信部22は、ユーザ情報登録が完了した旨の情報を携帯端末10に送信する。また、送受信部22は、発行されたユーザID情報についても携帯端末10に送信する。以上で楽曲提供システムは、ユーザ情報の登録処理を終了する。
【0071】
図8は、本発明の第1の実施形態における楽曲提供システムによる楽曲検索処理を示すシーケンスである。以下、図8に沿って、本実施形態における楽曲提供システムによる楽曲通信処理について説明する。
【0072】
まず、携帯端末10は、サーバ20が保持する楽曲検索サイトにアクセス要求する(B10→B20)。
【0073】
次に、サーバ20は、携帯端末10にアクセス要求された楽曲検索サイトの情報を、携帯端末10に送信する(B21→B11)。
【0074】
次に、携帯端末10は、楽曲検索を行う際の検索条件を示す情報をサーバ20に送信する(B12→B22)。
【0075】
サーバ20は、携帯端末10の電話番号情報を音声認識装置30に送信する(B23→B30)。
【0076】
次に、携帯端末10は、ユーザの歌唱による音声を音声認識装置30に送信する(B13→B31)。
【0077】
音声認識装置30は、受信した音声を所定のデータ形式で録音する。音声認識装置30は、その録音した音声データのデータ形式を変換し、変換した音声データをサーバ20に送信する(B32→B24)。
【0078】
サーバ20は、音声認識装置30から受信した音声データに基づいて、楽曲データを検索し、その検索結果情報を携帯端末10に送信する(B25→B14)。
【0079】
次に、携帯端末10は、受信した検索結果に示されている楽曲データのダウンロード要求をサーバ20に送信する(B15→B26)。
【0080】
サーバ20は、要求された楽曲データを携帯端末10にダウンロードする(B27→B16)。以上で、楽曲提供システムは、楽曲検索処理を終了する。
【0081】
図9および図10は、本発明の第1の実施形態における楽曲提供システムによる楽曲検索動作の流れを示すフローチャートである。以下、図9および図10に沿って、本実施形態における楽曲提供システムによる楽曲検索処理について説明する。
【0082】
まず、携帯端末10は、サーバ20に対して楽曲を検索するための配信情報の配信要求(Webサイトの接続要求)を行う(ステップS201)。この際、送受信部12は、操作部15などにより入力されたユーザIDを示す情報を、サーバ20に送信する。
【0083】
送受信部22は、携帯端末10から、ユーザID情報および配信情報の配信要求を受信すると、配信情報格納部27に格納されている楽曲検索のための配信情報(Webページ)を携帯端末10に送信する(ステップS202)。
【0084】
送受信部12は、サーバ20から楽曲検索のための配信情報を受信すると、表示部14は、受信された配信情報(検索条件入力画面)を表示する(ステップS203)。
【0085】
図11は、本発明の第1の実施形態における楽曲(歌声)検索の際の検索条件入力画面を示す図である。図11に示されているように、検索条件入力画面には、「1.歌手名」、「2.ジャンル」、および「3.曲調」といった検索条件の入力欄と、「送信」キーと、が設けられている。本実施形態では、例として、歌手名は「山本三郎」、ジャンルは「歌謡曲」、曲調は「バラード」が入力されている。操作部15が、各検索条件入力後に「送信」キーを選択すると、送受信部12は、入力された検索条件を示す情報をサーバ20に送信する(ステップS204)。また、送受信部12は、検索条件情報送信とともに、楽曲検索画面の情報の送信要求をサーバ20に送信する。
【0086】
なお、操作部15は、検索条件入力画面上の検索条件欄に、直接文字入力してもよいし、検索条件欄に検索条件が列挙されたプルダウンメニューを設けて、そのプルダウンメニューから所定の検索条件を選択するようにしてもよい。また、操作部15は、複数設けられている検索条件のうち所定の検索条件だけ指定するとしてもよい。また、検索条件の種類および個数は、図11に示されているものに限定されない。
【0087】
送受信部22が、携帯端末10から検索条件情報を受信すると、制御部21は、送受信部22により受信されたユーザID情報に基づいて、ユーザ情報格納部25から該当するユーザの電話番号情報を抽出し、受信されたユーザID情報に付加する。送受信部22は、電話番号情報が付加されたユーザID情報を、音声認識装置30に送信する(ステップS205)。また、ユーザ情報格納部25は、受信された検索条件情報を該当するユーザIDに対応させて格納する。
【0088】
送受信部32がユーザID情報を受信すると、制御部31は、ユーザID情報および検索条件情報送信元の電話番号情報をそれぞれ互いに対応させるようにしてデータ格納部33に格納させる。
【0089】
送受信部22は、携帯端末10から楽曲検索画面の表示要求を受信すると、配信情報格納部27に格納されている楽曲検索画面情報を、携帯端末10に送信する(ステップS206)。携帯端末10に送信される楽曲検索画面情報には、後述するPHONE−TO機能を起動させるための「歌声検索スタートキー」が含まれる。また、送受信部22は、楽曲検索画面情報とともに、音声認識装置30の電話番号情報についても携帯端末10に送信する。
【0090】
送受信部12は、サーバ20から音声認識装置30の電話番号情報とともに楽曲検索画面情報を受信すると、表示部14は、楽曲検索画面を表示する。また、データ格納部13は、送受信部12により受信された音声認識装置30の電話番号情報を格納する(ステップS207)。
【0091】
図12は、本発明の第1の実施形態における楽曲検索画面を示す図である。図12に示されているように、楽曲検索画面には、「歌声検索スタート」キーが表示されている。
【0092】
操作部15が、楽曲検索画面における歌声検索スタートキーを選択すると、制御部11は、携帯端末10が有するPHONE−TO機能を起動させる。PHONE−TO機能とは、所定の入力を検出すると所定の端末などへ発呼し、電話通信を確立する機能である。送受信部12は、データ格納部13に格納されている音声認識装置30の電話番号情報を用いて、音声認識装置30に発呼し、無線音声網3を介した携帯端末10・音声認識装置30間の電話通信を確立する(ステップS208)。
【0093】
次に、ユーザは検索したい楽曲を歌唱する。音声入出力部16は、ユーザの歌唱に基づく音声を入力する(ステップS209)。
【0094】
送受信部12は、電話通信により音声とともに、携帯端末10の電話番号を示す情報を音声認識装置30に送信する(ステップS210)。
【0095】
送受信部32は、携帯端末10から音声を受信し、所定のデータ形式(WAV形式)で受信した音声をデータ格納部33に録音する。また、送受信部32は、音声とともに、携帯端末10の電話番号情報を受信すると、制御部31は、音声データ送信元の携帯端末10の電話番号に該当する電話番号情報がデータ格納部33に格納されているか否かを判断する(ステップS211)。音声データ送信元の端末の電話番号情報が格納されていないと判断された場合(ステップS211/No)、制御部31は、送信元端末のユーザから楽曲の検索要求がないと判断し、楽曲提供システムは、動作を終了する。また、制御部31は、データ格納部33に格納されている音声データを消去する。
【0096】
送信元端末の電話番号情報がデータ格納部33に格納されていると判断された場合(ステップS211/Yes)、音声変換部36は、データ格納部33に録音されている音声データを、楽曲データ格納部23に格納されている楽曲データのデータ形式に変換する(ステップS212)。本実施例では、音声変換部36は、音声データをMIDI形式に変換するものとする。
【0097】
MIDI形式は、音単位で、「音の高さ」、「音の長さ」、および「ボリューム」などの情報を保持するデータ形式である。音声データをMIDI形式に変換することにより、音声データを構成する音単位で容易に解析することが可能となる。また、本実施例では、音声認識装置30は、WAV形式の音声データをMIDI形式に変換してからサーバ20に送信するが、サーバ20が音声データのデータ形式を変換する手段をさらに有しているとしてもよく、サーバ20が音声認識装置30から受け取ったWAV方式の音声データをMIDI形式に変換するとしてもよい。
【0098】
次に、送受信部32は、変換された音声データに、該当するユーザID情報(格納されていた電話番号情報に対応するユーザID情報)を付加させて、サーバ20に送信する(ステップS213)。
【0099】
送受信部22が音声認識装置30から音声データを受信すると、データ比較部28は、受信された音声データに付加されたユーザID情報を参照し、対応する検索条件情報を、ユーザ情報格納部25から抽出する。データ比較部28は、抽出した検索条件情報に示されている検索条件内において、変換されたMIDI形式の音声データと、楽曲データ格納部23に格納されているMIDI形式の楽曲データと、を比較し、音声データと一致または近い楽曲データを検索する(ステップS214)。
【0100】
MIDIデータは、「音の高さ」、「音の長さ」、「音の大きさ」、「テンポ(BPM)」、および「音色」などの様々な演奏情報からなる。データ比較部28は、音声データと各楽曲データとの間で、「音の高さ」および「音の長さ」の比較を行い、楽曲を検索する。
【0101】
図13は、本発明の第1の実施形態の第1の実施例における音声データおよび楽曲データの例を示す図である。図13の(a)は、音声データを示す図であり、図13の(b)は、楽曲データ格納部23に格納されている楽曲データaを示す図であり、図13の(c)は、楽曲データ格納部23に格納されている楽曲データbを示す図である。以下、図13を用いて、データ比較部28による楽曲検索動作の一例について説明する。
【0102】
図13の(a)、(b)、(c)における縦軸は、音声/楽曲を構成する音の高さを示しており、横軸は、時間軸を示している。例えば、図13の(a)に示されている音声データは、「ド」の音が1単位時間再生された後に、「ミ」の音が4単位時間再生され、その後「レ」の音が2単位時間再生されるデータを示している。なお、「単位時間」は、所定の時間の長さを示すものとし、その時間の長さは、特に限定されないものとする。
【0103】
図13に示されているように、音声データおよび楽曲データa、bを構成する1番目の音(1単位時間長の「ド」)と3番目の音(2単位時間長の「レ」)では、「音の高さ」および「音の長さ」が一致している。
【0104】
一方、各データの2番目の音に関しては、各データにおいてそれぞれ異なっている。図13に示されているように、音声データの2番目の音は、4単位時間長の「ミ」であり、楽曲データaの2番目の音は、3単位時間長の「ミ」であり、楽曲データbの2番目の音は、2単位時間長の「ファ」である。各データの2番目の音を比較すると、「音の高さ」および「音の長さ」に関して、楽曲データaの方が楽曲データbよりも音声データに近い値を示している。データ比較部37は、上記の比較結果から音声データに基づく楽曲の検索結果として、楽曲データaを楽曲データbよりも上位にリストアップする。
【0105】
なお、本実施例では、便宜上、「ド」、「レ」、「ミ」、「ファ」、「ソ」、「ラ」、「シ」の7音を用いて「音の高さ」を説明したが、音声データおよび楽曲データは、他の音により構成されるとしてもよい。また、本実施例では、「音の長さ」は単位時間×n(nは1以上の整数)で示されていたが、「音の長さ」を他の方法により表現するようにしてもよい。
【0106】
本実施例では、データ比較部28は、音声データを構成する音の「高さ」および「長さ」に一致/近い音により構成される楽曲データを検索結果として出力する。データ比較部28は、データ比較の際、「音の高さ」が一致/近い楽曲データを検索結果において優先的に出力してもよいし、「音の長さ」が一致/近い楽曲データを検索結果において優先的に出力してもよい。
【0107】
図14は、本発明の第1の実施形態の第1の実施例におけるサーバ20が保持する楽曲属性情報を示す図である。各楽曲属性情報は、楽曲データの属性を示す情報であって、楽曲データ格納部23により格納されている各楽曲データにそれぞれ対応している。楽曲属性情報格納部24は、例えば、図14に示されているように、属性情報として、楽曲データID、楽曲の曲名、歌手名、ジャンル、および曲調などの情報を格納する。
【0108】
データ比較部28は、ユーザ情報格納部25に格納されている検索条件情報に基づいて、楽曲検索処理を行う。例えば、図12に示されているように、検索条件が、「1.歌手名:山本三郎」、「2.ジャンル:歌唱曲」、「3.曲調:バラード」であった場合、制御部21は、上記検索条件を全て満たす楽曲を抽出する。楽曲属性情報格納部24に図14に示されているような楽曲属性情報が格納されている場合、制御部21は、楽曲データID「0001」、「0002」、「0003」、「0005」を抽出する。データ比較部28は、音声データと抽出されたIDの楽曲データとを比較し、楽曲検索処理を行う。なお、検索結果として出力する楽曲数は、予め設定されているとしてもよいし、携帯端末10から送信された情報に基づいて決定されるようにしてもよい。
【0109】
データ比較部28が楽曲の検索結果を示す情報を出力すると、送受信部22は、その出力された検索結果情報を携帯端末10に送信する(ステップS215)。
【0110】
送受信部12が検索結果情報を受信すると、表示部14は、その検索結果情報を表示する(ステップS216)。図15は、本発明の第1の実施形態の第1の実施例における検索結果情報を示す画面図である。図15には、検索結果情報として、音の高さ・長さにおいて、ユーザが歌唱した音声データと一致/近い楽曲名および歌手名が示されている。その際、表示部14は、表示する楽曲データを、音声データに最も近いものから順に並べ替えるようにして表示するようにしてもよい。操作部15が検索結果として表示されている楽曲名のうち所定のものを選択すると、送受信部12は、選択された楽曲データのダウンロードを要求する旨の情報をサーバ20に送信する(ステップS217)。
【0111】
送受信部22が携帯端末10からの楽曲データのダウンロード要求を受信すると、制御部21は、ダウンロード要求された楽曲データを楽曲データ格納部23から抽出する(ステップS218)。
【0112】
楽曲データ編集部26は、抽出された楽曲データを用いて、その抽出された楽曲データの所定部分(例えば10秒間分)からなる部分データを作成する(ステップS219)。送受信部22は、作成された部分データを携帯端末10に送信する(ステップS220)。また、送受信部22は、部分データとともに、該当する歌詞データを送信してもよい。
【0113】
送受信部12がサーバ20から部分データを受信すると、データ格納部13は、一時部分データを格納する。音声入出力部16は、データ格納部13に格納されている部分データを出力し、該当する楽曲を予め設定された時間分(例えば10秒間)再生する(ステップS221)。サーバ20から歌詞データが送信された場合、楽曲再生時に、表示部14はその歌詞を表示する。ユーザは、再生された楽曲を確認し、その楽曲が、曲名を知りたかった楽曲であるか否かを判断する。以上で楽曲提供システムは、楽曲検索動作を終了する。
【0114】
また、操作部15が、図15に示されている「さらに絞り込む」と示されている領域を選択すると、表示部14は、再度楽曲の検索条件を入力する画面を表示し、さらに検索条件を入力して楽曲検索を繰り返すことにより、検索結果として表示される楽曲名の数を限定することが可能である。
【0115】
以上説明したように、本実施形態によれば、楽曲提供システムは、ユーザの歌唱による音声データと楽曲データとを比較して、楽曲を検索する。従って、複雑なキー操作を行うことなく、容易かつ迅速にユーザが意図する楽曲を探し出すことが可能となる。
【0116】
(第2の実施例)
第1の実施形態における第1の実施例では、サーバ20が楽曲検索処理を行っていた。本実施例では、音声認識装置30が楽曲検索処理を行う。以下、特記しない限り、本実施例における構成および動作は、第1の実施形態における第1の実施例と同様であるとする。
【0117】
図16は、本発明の第1の実施形態の第2の実施例における楽曲提供システムの構成を示す図である。本実施形態では、まず、ユーザは、歌詞およびメロディがわかっているが曲名がわからないといった楽曲について歌唱する。楽曲提供システムは、上記の歌唱による音声データに適合する楽曲を検索し、ユーザに検索した楽曲を提供するものである。以下、図16を用いて、本実施例における楽曲提供システムの構成および動作について説明する。
【0118】
楽曲提供システムは、携帯端末10と、サーバ20と、音声認識装置30と、無線パケット網1と、無線音声網2と、ネットワーク3と、を有する。
【0119】
無線パケット網1は、携帯端末10とサーバ20とを無線で接続するものであり、携帯端末10・サーバ20間のデータ転送を行う伝送路である。
【0120】
無線音声網2は、携帯端末10と音声認識装置30とを無線で接続するものであり、携帯端末10・音声認識装置30間の音声データ転送を行う伝送路である。
【0121】
ネットワーク3は、サーバ20と音声認識装置30とを有線/無線で接続するものであり、サーバ20・音声認識装置30間のデータ転送を行う伝送路である。
【0122】
携帯端末10は、ユーザにより操作される情報処理装置であって、携帯電話機であってもよいし、PHS、PDA、またはノートブック型PCであってもよい。また、携帯端末10は、デスクトップ型PC、タワー型PC、またはカラオケ店などにもうけられているカラオケ装置であってもよいし、以下説明する携帯端末10の機能を有しているものであれば、他の機器であってもよい。ユーザは、携帯端末10を操作してユーザの歌唱に基づく音声データを音声認識装置30に送信し、そのユーザの歌唱に応じた楽曲を取得する。
【0123】
サーバ20は、ユーザに係る情報を管理する情報処理装置であって、Webサーバであってもよい。また、サーバ20は、ワークステーションなどのハイエンドPCにより実現されるとしてもよい。サーバ20は、ユーザに係る情報を管理するとともに、携帯端末10に、楽曲再生のための楽曲データおよびWebページなどの情報を配信する。
【0124】
音声認識装置30は、ユーザの歌唱による音声データを音声認識して該当する楽曲を検索する情報処理装置であって、ワークステーションなどのハイエンドPCにより実現されるとしてもよい。音声認識装置30は、携帯端末10から音声データを受け取ると、自身に蓄積されている楽曲データのうち該当する楽曲データを検索し、検索結果をサーバ20に送信する。
【0125】
図17は、本発明の第1の実施形態の第2の実施例における携帯端末10の構成を示す図である。以下、図17を用いて、本実施例における携帯端末10の構成および動作について説明する。
【0126】
携帯端末10は、制御部11と、送受信部12と、データ格納部13と、表示部14と、操作部15と、音声入出力部16と、を有する。
【0127】
制御部11は、送受信部12、データ格納部13、表示部14、操作部15、および音声入出力部16と接続されており、送受信部12、データ格納部13、表示部14、操作部15、および音声入出力部16を含む携帯端末10が有する各部位の制御を行う。
【0128】
送受信部12は、無線パケット網1を介してサーバ20と、無線音声網2を介して音声認識装置30と、それぞれデータの送受信を行う。さらに、送受信部12は、通常の携帯電話機またはPHSなどのように電話通信を行う機能を有する。
【0129】
データ格納部13は、データを格納する部位である。例えば、サーバ20からダウンロードされた楽曲のデータなどを格納する。
【0130】
表示部14は、例えば、液晶または有機ELなどによるディスプレイであって、文字および画像情報などを表示する。例えば、表示部14は、サーバ20から送信された文字/画像情報などを表示する。
【0131】
操作部15は、情報の入力を行う。例えば、操作部15は、通常の携帯電話機などに設けられているテンキーまたは方向キーなどであってもよいし、他の形状の操作部位であってもよい。
【0132】
音声入出力部16は、音声の入出力を行う部位である。例えば、音声入出力部16には、通常の携帯電話機などに設けられているようなマイクロフォンおよびスピーカが設けられているとしてもよい。音声入出力部16は、ユーザの発声(歌唱)による携帯端末10近傍の音声を入力する。また、音声入出力部16は、サーバ20または音声認識装置30から送信された音声情報を出力する。さらに、音声入出力部16は、データ格納部13に格納されている楽曲データを出力する。
【0133】
図18は、本発明の第1の実施形態の第2の実施例におけるサーバ20の構成を示す図である。以下、図18を用いて、本実施例におけるサーバ20の構成および動作について説明する。
【0134】
サーバ20は、制御部21と、送受信部22と、楽曲データ格納部23と、楽曲属性情報格納部24と、ユーザ情報格納部25と、楽曲データ編集部26と、配信情報格納部27と、を有する。
【0135】
制御部21は、送受信部22、楽曲データ格納部23、楽曲属性情報格納部24と、ユーザ情報格納部25、楽曲データ編集部26、および配信情報格納部27と接続されており、送受信部22、楽曲データ格納部23、楽曲属性情報格納部24、ユーザ情報格納部25、楽曲データ編集部26、および配信情報格納部27を含むサーバ20が有する各部位の制御を行う。
【0136】
送受信部22は、無線パケット網1を介して携帯端末10とデータ通信を行う。また、送受信部22は、ネットワーク3を介して音声認識装置30と接続されており、データの送受信を行う。例えば、送受信部22は、音声認識装置30から検索結果を受信し、携帯端末10に検索結果を示す楽曲のデータを送信する。
【0137】
楽曲データ格納部23は、1つ以上の楽曲データを格納する。なお、楽曲データは、例えばWAV、MP3、またはMIDIなどのデータ形式であるとしてもよい。また、楽曲データ格納部23は、各楽曲データに対応する歌詞情報を格納する。
【0138】
楽曲属性情報格納部24は、楽曲データ格納部23に格納されている各楽曲データの属性情報を含むデータベースを保持する。例えば、楽曲属性情報格納部24には、属性情報として、各楽曲データに対応した曲名、歌手名、楽曲データID、および楽曲における所定の範囲を示す選択範囲情報などが格納されている。なお、楽曲属性情報格納部24は、上記以外の情報を格納するとしてもよい。
【0139】
ユーザ情報格納部25は、1つ以上のユーザに係る情報(以下、ユーザ情報)を格納する。各ユーザ情報には、各ユーザを識別するためのユーザID情報が付加されている。ユーザ情報には、ユーザ名、携帯端末の電話番号、ユーザのメールアドレス、ユーザの年齢/性別、および各ユーザによる楽曲提供システムの利用履歴などの情報が含まれるとしてよい。なお、ユーザ情報には、上記以外の情報が含まれるとしてよい。
【0140】
楽曲データ編集部26は、楽曲属性情報格納部24に格納されている選択範囲情報に基づいて、楽曲データを編集し、楽曲を所定時間分(例えば、10秒間分)再生するための部分データを作成する。
【0141】
配信情報格納部27は、例えば、携帯端末10に表示させるWebページなどの配信情報などを格納する。
【0142】
図19は、本発明の第1の実施形態の第2の実施例における音声認識装置30の構成を示す図である。以下、図19を用いて、本実施例における音声認識装置30の構成および動作について説明する。
【0143】
音声認識装置30は、制御部31と、送受信部32と、データ格納部33と、楽曲データ格納部34と、楽曲属性情報格納部35と、音声変換部36と、データ比較部37と、を有する。
【0144】
制御部31は、送受信部32、データ格納部33、楽曲データ格納部34、楽曲属性情報格納部35、音声変換部36、およびデータ比較部37と接続されており、送受信部32、データ格納部33、楽曲データ格納部34、楽曲属性情報格納部35、音声変換部36、およびデータ比較部37を含む音声認識装置30における各部位を制御する。
【0145】
送受信部32は、無線音声網2を介して携帯端末10と音声情報の送受信を行う。例えば、送受信部32は、携帯端末10から、ユーザの歌唱による音声情報を受信する。また、送受信部32は、ネットワーク3を介してサーバ20と有線/無線接続されており、データの送受信を行う。さらに、送受信部32は、通常の携帯電話機またはPHSなどのように電話通信を行う機能を有する。
【0146】
データ格納部33は、送受信部31により受信された音声を自身に録音する。また、データ格納部33は、サーバ20から送信されたユーザ情報を一時格納する。データ格納部33は、ユーザ情報として少なくともユーザの携帯端末の電話番号を示す情報を格納するものとする。なお、ユーザ情報には、上記以外の情報が含まれるとしてもよい。
【0147】
楽曲データ格納部34は、1つ以上のMIDI形式による楽曲データを格納する。また、楽曲データ格納部34は、各楽曲データにおいて、音素ごとに対応した歌詞データを格納する。
【0148】
楽曲属性情報格納部35は、楽曲データ格納部34に格納されている各楽曲データの属性情報を含むデータベースを保持する。例えば、楽曲属性情報格納部35には、属性情報として、各楽曲データに対応した曲名、歌手名、楽曲データID、ジャンル、および曲調などを示す情報が格納されている。なお、楽曲属性情報格納部35は、上記以外の情報を格納するとしてもよい。
【0149】
音声変換部36は、送受信部32により録音された所定のデータ形式(例えばWAV形式)の音声データを他のデータ形式(楽曲データ格納部34に格納されている楽曲データのデータ形式)の音声データに変換し、格納する。
【0150】
データ比較部37は、音声変換部36により形式変換された音声データと、楽曲データ格納部34に格納されている形式の楽曲データを比較し、音声データと一致または近い楽曲データを検索する。なお、サーバ20を介して携帯端末10から検索条件を示す検索条件情報が送信された場合、データ比較部37は、その検索条件を反映させて楽曲データ検索を行う。
【0151】
以下、図16を用い、第1の実施形態の第1の実施例と同様に図5に沿って、楽曲提供システムによるユーザ情報登録処理について説明する。
【0152】
まず、携帯端末10は、携帯端末10のユーザの氏名および電話番号などのユーザ情報をサーバ20に送信する(A10→A20)。
【0153】
サーバ20は、携帯端末10からユーザ情報を受信し、自身にユーザ情報を登録すると、ユーザ情報の登録が完了した旨の情報を携帯端末10に送信する(A21→A11)。
【0154】
以下、図16乃至図19を用い、第1の実施形態における第1の実施例と同様に図6に沿って、本実施例における楽曲提供システムによるユーザ情報登録動作について詳細に説明する。
【0155】
まず、携帯端末10は、サーバ20に対してユーザ情報を登録するための配信情報の配信要求(Webサイトの接続要求)を行う(ステップS101)。
【0156】
送受信部22は、携帯端末10からの配信情報の配信要求を受信すると、配信情報格納部27に格納されているユーザ情報登録のための配信情報(Webページ)を携帯端末10に送信する(ステップS102)。
【0157】
送受信部12は、サーバ20からユーザ情報登録のための配信情報を受信すると、表示部14は、受信された配信情報を表示する(ステップS103)。
【0158】
次に、操作部15は、表示部14に表示された配信情報のフォームに従ってユーザ情報を入力する(ステップS104)。
【0159】
ここで、第1の実施形態における第1の実施例と同様に図7を用いて、ユーザ情報登録のための画面表示について説明する。操作部15は、図7に示されているような、「氏名」、「性別」、「(携帯端末の)電話番号」、および「住所」といったユーザ情報を入力し、入力後「登録」キーを選択すると、送受信部12は、入力されたユーザ情報をサーバ20に送信する。なお、入力されるユーザ情報は、図7に示されるものに限定されないものとする。
【0160】
再度図6に沿って説明を進める。送受信部22は、携帯端末10からユーザ情報を受信すると、制御部21は、その受信されたユーザ情報送信元のユーザのIDを示すユーザID情報を発行し、送受信部22により受信されたユーザ情報に付加する。ユーザ情報格納部25は、ユーザID情報が付加されたユーザ情報を格納する(ステップS105)。ユーザ情報格納後、送受信部22は、ユーザ情報登録が完了した旨の情報を携帯端末10に送信する。また、送受信部22は、発行されたユーザID情報についても携帯端末10に送信する。以上で楽曲提供システムは、ユーザ情報の登録処理を終了する。
【0161】
図20は、本発明の第1の実施形態の第2の実施例における楽曲提供システムによる楽曲検索処理を示すシーケンスである。以下、図20に沿って、本実施例における楽曲提供システムによる楽曲通信処理について説明する。
【0162】
まず、携帯端末10は、サーバ20が保持する楽曲検索サイトにアクセス要求する(C10→C20)。
【0163】
次に、サーバ20は、携帯端末10にアクセス要求された楽曲検索サイトの情報を、携帯端末10に送信する(C21→C11)。
【0164】
次に、携帯端末10は、楽曲検索を行う際の検索条件を示す情報をサーバ20に送信する(C12→C22)。
【0165】
サーバ20は、携帯端末10から受信した検索条件情報を音声認識装置30に送信する(C23→C30)。
【0166】
次に、携帯端末10は、ユーザの歌唱による音声を音声認識装置30に送信する(C13→C31)。
【0167】
音声認識装置30は、受信した音声および検索条件情報に基づいて楽曲検索を行い、その検索結果をサーバ20に送信する(C32→C24)。
【0168】
サーバ20は、音声認識装置30から受信した検索結果情報を携帯端末10に送信する(C25→C14)。
【0169】
次に、携帯端末10は、受信した検索結果に示されている楽曲データのダウンロード要求をサーバ20に送信する(C15→C26)。
【0170】
サーバ20は、要求された楽曲データを携帯端末10にダウンロードする(C27→C16)。以上で、楽曲提供システムは、楽曲検索処理を終了する。
【0171】
図21および図22は、本発明の第1の実施形態の第2の実施例における楽曲提供システムによる楽曲検索動作の流れを示すフローチャートである。以下、図21および図22に沿って、本実施形態における楽曲提供システムによる楽曲検索処理について説明する。
【0172】
まず、携帯端末10は、サーバ20に対して楽曲を検索するための配信情報の配信要求(Webサイトの接続要求)を行う(ステップS301)。この際、送受信部12は、操作部15などにより入力されたユーザIDを示す情報を、サーバ20に送信する。
【0173】
送受信部22は、携帯端末10か ら、ユーザID情報および配信情報の配信要求を受信すると、配信情報格納部27に格納されている楽曲検索のための配信情報(Webページ)を携帯端末10に送信する(ステップS302)。
【0174】
送受信部12は、サーバ20から楽曲検索のための配信情報を受信すると、表示部14は、受信された配信情報(検索条件入力画面)を表示する(ステップS303)。
【0175】
以下、本発明の第1の実施形態の第1の実施例と同様に、図11を用いて、楽曲(歌声)検索の際の検索条件入力画面について説明する。図11に示されているように、検索条件入力画面には、「1.歌手名」、「2.ジャンル」、および「3.曲調」といった検索条件の入力欄と、「送信」キーと、が設けられている。本実施形態では、例として、歌手名は「山本三郎」、ジャンルは「歌謡曲」、曲調は「バラード」が入力されている。操作部15が、各検索条件入力後に「送信」キーを選択すると、送受信部12は、入力された検索条件を示す情報をサーバ20に送信する(ステップS304)。また、送受信部12は、検索条件情報送信とともに、楽曲検索画面の情報の送信要求をサーバ20に送信する。
【0176】
なお、操作部15は、検索条件入力画面上の検索条件欄に、直接文字入力してもよいし、検索条件欄に検索条件が列挙されたプルダウンメニューを設けて、そのプルダウンメニューから所定の検索条件を選択するようにしてもよい。また、操作部15は、複数設けられている検索条件のうち所定の検索条件だけ指定するとしてもよい。また、検索条件の種類および個数は、図11に示されているものに限定されない。
【0177】
送受信部22が、携帯端末10から検索条件情報を受信すると、制御部21は、送受信部22により受信された検索条件情報の送信元ユーザ(携帯端末10のユーザ)のID情報を、その検索条件情報に付加する。また、制御部21は、送受信部22により受信されたユーザID情報に基づいて、ユーザ情報格納部25から該当するユーザの電話番号情報を抽出し、受信された検索条件情報に付加する。送受信部22は、ユーザID情報および携帯端末10の電話番号情報が付加された検索条件情報を、音声認識装置30に送信する(ステップS305)。
【0178】
送受信部32が検索条件情報を受信すると、制御部31は、検索条件情報とともに、付加されているユーザID情報および検索条件情報送信元の電話番号情報をそれぞれ検索条件情報に対応させるようにしてデータ格納部33に格納させる。
【0179】
送受信部22は、携帯端末10から楽曲検索画面の表示要求を受信すると、配信情報格納部27に格納されている楽曲検索画面情報を、携帯端末10に送信する(ステップS306)。携帯端末10に送信される楽曲検索画面情報には、PHONE−TO機能を起動させるための「歌声検索スタートキー」が含まれる。また、送受信部22は、楽曲検索画面情報とともに、音声認識装置30の電話番号情報についても携帯端末10に送信する。
【0180】
送受信部12は、サーバ20から、音声認識装置30の電話番号情報とともに楽曲検索画面情報を受信すると、表示部14は、楽曲検索画面を表示する。また、データ格納部13は、送受信部12により受信された音声認識装置30の電話番号情報を格納する(ステップS307)。
【0181】
以下、本発明の第1の実施形態の第1の実施例と同様に、図12を用いて、楽曲検索画面について説明する。図12に示されているように、楽曲検索画面には、「歌声検索スタート」キーが表示されている。
【0182】
操作部15が、楽曲検索画面における歌声検索スタートキーを選択すると、制御部11は、携帯端末10が有するPHONE−TO機能を起動させる。送受信部12は、データ格納部13に格納されている音声認識装置30の電話番号情報を用いて、音声認識装置30に発呼し、無線音声網3を介した携帯端末10・音声認識装置30間の電話通信を確立する(ステップS308)。
【0183】
次に、ユーザは検索したい楽曲を歌唱する。音声入出力部16は、ユーザの歌唱に基づく音声を入力する(ステップS309)。
【0184】
送受信部12は、電話通信により音声とともに、携帯端末10の電話番号を示す情報を音声認識装置30に送信する(ステップS310)。
【0185】
送受信部32は、携帯端末10から音声を受信し、所定のデータ形式(WAV形式)で受信した音声をデータ格納部33に録音する。また、送受信部32は、音声とともに、携帯端末10の電話番号情報を受信すると、制御部31は、音声データ送信元の携帯端末10の電話番号に該当する電話番号情報がデータ格納部33に格納されているか否かを判断する(ステップS311)。音声データ送信元の端末の電話番号情報が格納されていないと判断された場合(ステップS311/No)、制御部31は、送信元端末のユーザから楽曲の検索要求がないと判断し、楽曲提供システムは、動作を終了する。また、制御部31は、データ格納部33に格納されている音声データを消去する。
【0186】
送信元端末の電話番号情報がデータ格納部33に格納されていると判断された場合(ステップS311/Yes)、音声変換部36は、データ格納部33に格納された音声データのデータ形式を変換する(ステップS312)。本実施形態では、音声変換部36は、録音された音声データ(例えばWAV形式)をMIDI形式の音声データに変換する。MIDI形式は、音単位で、「音の高さ」、「音の長さ」、および「ボリューム」などの情報を保持するデータ形式である。音声データをMIDI形式に変換することにより、音声データを構成する音単位で容易に解析することが可能となる。
【0187】
次に、データ比較部37は、データ格納部33に格納されている音声データ送信元の端末(携帯端末10)に対応するユーザ情報を参照し、該当する検索条件情報を抽出する。データ比較部37は、抽出した検索条件情報に示されている検索条件内において、変換されたMIDI形式の音声データと、楽曲データ格納部34に格納されているMIDI形式の楽曲データと、を比較し、音声データと一致または近い楽曲データを検索する(ステップS313)。
【0188】
MIDIデータは、「音の高さ」、「音の長さ」、「音の大きさ」、「テンポ(BPM)」、および「音色」などの様々な演奏情報からなる。データ比較部37は、音声データと各楽曲データとの間で、「音の高さ」および「音の長さ」の比較を行い、楽曲を検索する。
【0189】
以下、第1の実施形態における第1の実施例と同様に図13を用いて、データ比較部37による楽曲検索動作の一例について説明する。
【0190】
図13の(a)、(b)、(c)における縦軸は、音声/楽曲を構成する音の高さを示しており、横軸は、時間軸を示している。例えば、図13の(a)に示されている音声データは、「ド」の音が1単位時間再生された後に、「ミ」の音が4単位時間再生され、その後「レ」の音が2単位時間再生されるデータを示している。なお、「単位時間」は、所定の時間の長さを示すものとし、その時間の長さは、特に限定されないものとする。
【0191】
図13に示されているように、音声データおよび楽曲データa、bを構成する1番目の音(1単位時間長の「ド」)と3番目の音(2単位時間長の「レ」)では、「音の高さ」および「音の長さ」が一致している。
【0192】
一方、各データの2番目の音に関しては、各データにおいてそれぞれ異なっている。図13に示されているように、音声データの2番目の音は、4単位時間長の「ミ」であり、楽曲データaの2番目の音は、3単位時間長の「ミ」であり、楽曲データbの2番目の音は、2単位時間長の「ファ」である。各データの2番目の音を比較すると、「音の高さ」および「音の長さ」に関して、楽曲データaの方が楽曲データbよりも音声データに近い値を示している。データ比較部37は、上記の比較結果から音声データに基づく楽曲の検索結果として、楽曲データaを楽曲データbよりも上位にリストアップする。
【0193】
なお、本実施形態では、便宜上、「ド」、「レ」、「ミ」、「ファ」、「ソ」、「ラ」、「シ」の7音を用いて「音の高さ」を説明したが、音声データおよび楽曲データは、他の音により構成されるとしてもよい。また、本実施形態では、「音の長さ」は単位時間×n(nは1以上の整数)で示されていたが、「音の長さ」を他の方法により表現するようにしてもよい。
【0194】
本実施形態では、データ比較部37は、音声データを構成する音の「高さ」および「長さ」に一致/近い音により構成される楽曲データを検索結果として出力する。データ比較部37は、データ比較の際、「音の高さ」が一致/近い楽曲データを検索結果において優先的に出力してもよいし、「音の長さ」が一致/近い楽曲データを検索結果において優先的に出力してもよい。
【0195】
以下、第1の実施形態における第1の実施例と同様に図14を用いて、本実施例における楽曲属性情報について説明する。各楽曲属性情報は、楽曲データの属性を示す情報であって、楽曲データ格納部23により格納されている各楽曲データにそれぞれ対応している。楽曲属性情報格納部35は、例えば、図14に示されているように、属性情報として、楽曲データID、楽曲の曲名、歌手名、ジャンル、および曲調などの情報を格納する。
【0196】
データ比較部37は、データ格納部33に格納されている検索条件情報に基づいて、楽曲検索処理を行う。例えば、図12に示されているように、検索条件が、「1.歌手名:山本三郎」、「2.ジャンル:歌唱曲」、「3.曲調:バラード」であった場合、制御部31は、上記検索条件を全て満たす楽曲を抽出する。楽曲属性情報格納部35に図14に示されているような楽曲属性情報が格納されている場合、制御部31は、楽曲データID「0001」、「0002」、「0003」、「0005」を抽出する。データ比較部37は、音声データと抽出されたIDの楽曲データとを比較し、楽曲検索処理を行う。なお、検索結果として出力する楽曲数は、予め設定されているとしてもよいし、携帯端末10から送信された情報に基づいて決定されるようにしてもよい。
【0197】
データ比較部37が楽曲の検索結果を示す情報を出力すると、送受信部32は、その出力された検索結果情報をサーバ20に送信する(ステップS314)。制御部31は、データ格納部33に格納されているもののうち、サーバ20に送信された検索結果情報に対応する音声データ、検索条件情報、ユーザID情報、および電話番号情報を消去する。
【0198】
送受信部22は、音声認識装置30から検索結果情報を受信すると、受信した検索結果情報を携帯端末10に送信する(ステップS315)。
【0199】
送受信部12が検索結果情報を受信すると、表示部14は、その検索結果情報を表示する(ステップS316)。以下、第1の実施形態における第1の実施例と同様に図15を用いて、本実施例における楽曲の検索結果情報について説明する。図15には、検索結果情報として、音の高さ・長さにおいて、ユーザが歌唱した音声データと一致/近い楽曲名および歌手名が示されている。その際、表示部14は、表示する楽曲データを、音声データに最も近いものから順に並べ替えるようにして表示するようにしてもよい。操作部15が検索結果として表示されている楽曲名のうち所定のものを選択すると、送受信部12は、選択された楽曲データのダウンロードを要求する旨の情報をサーバ20に送信する(ステップS317)。
【0200】
送受信部22が携帯端末10からの楽曲データのダウンロード要求を受信すると、制御部21は、ダウンロード要求された楽曲データを楽曲データ格納部23から抽出する(ステップS318)。
【0201】
楽曲データ編集部26は、抽出された楽曲データを用いて、その抽出された楽曲データの所定部分(例えば10秒間分)からなる部分データを作成する(ステップS319)。送受信部22は、作成された部分データを携帯端末10に送信する(ステップS320)。また、送受信部22は、部分データとともに、該当する歌詞データを送信してもよい。
【0202】
送受信部12がサーバ20から部分データを受信すると、データ格納部13は、一時部分データを格納する。音声入出力部16は、データ格納部13に格納されている部分データを出力し、該当する楽曲を予め設定された時間分(例えば10秒間)再生する(ステップS321)。サーバ20から歌詞データが送信された場合、楽曲再生時に、表示部14はその歌詞を表示する。ユーザは、再生された楽曲を確認し、その楽曲が、曲名を知りたかった楽曲であるか否かを判断する。以上で楽曲提供システムは、楽曲検索動作を終了する。
【0203】
また、操作部15が、図15に示されている「さらに絞り込む」と示されている領域を選択すると、表示部14は、再度楽曲の検索条件を入力する画面を表示し、さらに検索条件を入力して楽曲検索を繰り返すことにより、検索結果として表示される楽曲名の数を限定することが可能である。
【0204】
以上説明したように、本実施形態によれば、楽曲提供システムは、ユーザの歌唱による音声データと楽曲データとを比較して、楽曲を検索する。従って、複雑なキー操作を行うことなく、容易かつ迅速にユーザが意図する楽曲を探し出すことが可能となる。
【0205】
(第2の実施形態)
(第1の実施例)
本発明の第2の実施形態における第1の実施例では、ユーザは、所定の楽曲(歌唱楽曲)を歌唱し、楽曲提供システムは、そのユーザの歌唱による音声データを解析し、ユーザが快適に歌唱可能なキーおよびテンポを検出する。楽曲提供システムは、上記の検出したキーおよびテンポに一致/近いキーおよびテンポのおすすめの楽曲(レコメンド楽曲)をユーザに提供する。なお、本実施例において、楽曲データおよびレコメンド楽曲データは、主に楽曲の伴奏を演奏するカラオケデータであるとする。以下、特記しない限り、本実施例における楽曲提供システムの構成および動作は、本発明の第1の実施形態における第1の実施例と同様であるとし、第1の実施形態における第1の実施例と同様に図1〜図4を用いて本実施例の説明を進める。
【0206】
本実施例では、楽曲提供システムは、第1の実施形態における第1の実施例と同様に、図5および図6に示されるようなユーザ情報登録処理を行う。
【0207】
図23は、本発明の第2の実施形態の第1の実施例における楽曲提供処理を示すシーケンスである。以下、図23に沿って、本実施例における楽曲提供システムによる楽曲提供処理について説明する。
【0208】
まず、携帯端末10は、ユーザが歌唱する楽曲(歌唱楽曲)を指定するための画面(歌唱楽曲入力画面)に係る情報(Webページ)のダウンロード要求をサーバ20に送信する(D10→D20)。
【0209】
次に、サーバ20は、携帯端末10にダウンロード要求された歌唱楽曲入力画面情報を携帯端末10に送信する(D21→D11)。
【0210】
次に、携帯端末10は、歌唱楽曲およびその曲名を示す情報を含む歌唱楽曲データのダウンロード要求をサーバ20に送信する(D12→D22)。「歌唱楽曲データ」とは、歌唱楽曲を再生出力するための楽曲データであり、楽曲の所定部分(例えばサビ部分など)を示すデータである。
【0211】
サーバ20は、携帯端末10にダウンロード要求された歌唱楽曲データを携帯端末10に送信する。また、サーバ20は、歌唱楽曲データとともに、レコメンド楽曲を提供するための画面(レコメンド楽曲取得画面)の情報についても携帯端末10に送信する(D23→D13)。
【0212】
次に、携帯端末10は、音声認識装置30によるレコメンド楽曲検索の際における検索条件を示す情報をサーバ20に送信する(D14→D24)。
【0213】
次に、サーバ20は、携帯端末10の電話番号情報を音声認識装置30に送信する(D25→D30)。
【0214】
次に、携帯端末10は、受信した歌唱楽曲データに沿ったユーザの歌唱による音声を音声認識装置30に送信する(D15→D31)。
【0215】
音声認識装置30は、携帯端末10から受信した音声を所定のデータ形式で録音する。音声認識装置30は、その録音した音声データのデータ形式を変換し、変換した音声データに基づいて、その音声データのキー・テンポ情報を出力する。音声認識装置30は、出力したキー・テンポ情報をサーバ20に送信する(D32→D26)。
【0216】
サーバ20は、音声認識装置30から受信したキー・テンポ情報に基づいて、レコメンド楽曲を検索する。サーバ20は、その検索結果情報を携帯端末10に送信する(D27→D16)。
【0217】
次に、携帯端末10は、検索結果に示されている1つ以上のレコメンド楽曲から所定の楽曲を選択して、その楽曲データのダウンロード要求を示す情報をサーバ20に送信する(D17→D28)。
【0218】
サーバ20は、携帯端末10からレコメンド楽曲のダウンロード要求を受信すると、該当する楽曲データを携帯端末10に送信する(D29→D18)。以上で、楽曲提供システムは、レコメンド楽曲提供処理を終了する。
【0219】
図24および図25は、本発明の第2の実施形態の第1の実施例における楽曲提供システムによるレコメンド楽曲提供動作の流れを示すフローチャートである。以下、図24および図25に沿って、本実施例における楽曲提供システムによるレコメンド楽曲提供動作について説明する。
【0220】
まず、携帯端末10は、サーバ20に対して、歌唱楽曲入力画面の情報のダウンロード要求(Webサイトの接続要求)を行う(ステップS401)。「歌唱楽曲」とは、音声データを音声認識装置30に送る際にユーザが歌唱する楽曲を示し、「歌唱楽曲入力画面」とは、歌唱楽曲の曲名および歌手名を入力する画面を示す。また、送受信部12は、歌唱楽曲入力画面のダウンロード要求とともに、操作部15などにより入力されたユーザIDを示す情報を、サーバ20に送信する。
【0221】
送受信部22は、歌唱楽曲入力画面のダウンロード要求およびユーザID情報を受信すると、配信情報格納部27に格納されている歌唱楽曲入力画面の情報(Webページ)を携帯端末10に送信する(ステップS402)。
【0222】
送受信部12は、サーバ20から歌唱楽曲入力画面の情報を受信すると、表示部14は、歌唱楽曲入力画面を表示する(ステップS403)。
【0223】
図26は、本発明の第2の実施形態の第1の実施例における歌唱楽曲入力画面を示す図である。図26に示されている歌唱楽曲入力画面上には、歌唱楽曲の曲名および歌手名を入力する領域が設けられている。操作部15は、歌唱楽曲の曲名および歌手名を入力した後に歌唱楽曲入力画面上に設けられている「送信」キーを選択すると、送受信部12は、入力された曲名および歌手名を示す情報をサーバ20に送信する(ステップS404)。
【0224】
なお、本実施例では、携帯端末10は、歌唱楽曲の曲名および歌手名をサーバ20に送信しているが、ユーザが歌唱楽曲の曲名および歌手名を記憶していない場合には、ユーザは、第1の実施形態の第1の実施例における楽曲データ検索機能を用いて、ユーザが意図する歌唱楽曲の曲名などを検索することが可能である。
【0225】
送受信部22が携帯端末10から歌唱楽曲の曲名および歌手名を示す情報を受信すると、制御部21は、受信された曲名および歌手名に該当する楽曲データを楽曲データ格納部23から抽出する(ステップS405)。
【0226】
楽曲データ編集部26は、抽出された楽曲データの所定部分(例えば10秒間分)からなる歌唱楽曲データを作成する(ステップS406)。送受信部22は、作成された歌唱楽曲データを携帯端末10に送信する。また、送受信部22は、配信情報格納部27に格納されているレコメンド楽曲提供(取得)画面の情報(Webページ)を携帯端末10に送信する。(ステップS407)。また、ユーザ情報格納部25は、携帯端末10に送信された部分データを識別するための情報を、携帯端末10のユーザのユーザ情報と対応づけて格納する。
【0227】
送受信部12は、サーバ20からレコメンド楽曲取得画面の情報を受信すると、表示部14は、送受信部12により受信されたレコメンド楽曲取得画面を表示する(ステップS408)。また、データ格納部13は、送受信部12により受信された歌唱楽曲データを格納する。
【0228】
図27は、本発明の第2の実施形態の第1の実施例におけるレコメンド楽曲取得画面を示す図である。図27に示されているように、レコメンド楽曲取得画面には、歌唱楽曲データにより再生可能な楽曲の曲名および歌手名が表示される。また、レコメンド楽曲取得画面上には、「1.楽曲再生」および「2.検索条件入力」と示された各キーが設けられている。
【0229】
操作部15が「1.楽曲再生」キーを選択すると、制御部11は、データ格納部13に格納されている歌唱楽曲データのうち、現在レコメンド楽曲取得画面に曲名が示されている楽曲データを読み込む。音声入出力部16は、その読み込まれた歌唱楽曲データに基づく音声を出力する。ユーザは、再生された歌唱楽曲の再生範囲、キー、およびテンポを確認する。また、歌唱楽曲データとともに、その歌唱楽曲データに対応する歌詞データが、サーバ20から携帯端末10に送信された場合、表示部14は、歌唱楽曲データ再生時にその歌詞を表示するとしてよい。
【0230】
操作部15が「2.検索条件入力」キーを選択すると、表示部14上のレコメンド楽曲取得画面は、検索条件入力画面に遷移する。図28は、本発明の第2の実施形態の第1の実施例における検索条件入力画面を示す図である。図28に示されているように、検索条件入力画面には、「1.歌手名」、「2.ジャンル」、および「3.曲調」といった検索条件入力欄と、「送信」キーと、「楽曲取得画面へ」の移動キーとが設けられている。本実施例では、例として、各検索条件入力欄には、歌手名として「山本三郎」、ジャンルとして「歌謡曲」、曲調として「バラード」がそれぞれ入力されている。操作部15が、各検索条件入力後に「送信」キーを選択すると、送受信部12は、入力された検索条件を示す情報をサーバ20に送信する(ステップS409)。
【0231】
なお、操作部15は、検索条件入力画面上の検索条件欄に、直接文字入力してもよいし、検索条件欄に検索条件が列挙されたプルダウンメニューを設けて、そのプルダウンメニューから所定の検索条件を選択するようにしてもよい。また、操作部15は、複数設けられている検索条件のうち所定の検索条件だけ指定するとしてもよい。また、検索条件は、図28に示されているものに限定されないものとする。
【0232】
送受信部22が、携帯端末10から検索条件情報を受信すると、制御部21は、送受信部22により受信されたユーザID情報に基づいて、ユーザ情報格納部25から該当するユーザの電話番号情報を抽出し、受信されたユーザID情報に付加する。送受信部22は、携帯端末10の電話番号情報が付加されたユーザID情報を、音声認識装置30に送信する(ステップS410)。また、ユーザ情報格納部25は、受信された検索条件情報を該当するユーザIDに対応させて格納する。
【0233】
送受信部32がユーザID情報を受信すると、制御部31は、ユーザID情報および検索条件情報送信元の電話番号情報をそれぞれ互いに対応させるようにしてデータ格納部33に格納させる。
【0234】
操作部15が図28に「楽曲取得画面へ」と示されている領域を選択すると、送受信部12は、新たなレコメンド楽曲取得画面情報のダウンロード要求をサーバ20に送信する。送受信部22は、携帯端末10から新たなレコメンド楽曲取得画面情報の取得要求を受信すると、配信情報格納部27に格納されているレコメンド楽曲取得画面情報を携帯端末10に送信する。この際、送信するレコメンド楽曲取得画面情報には、PHONE−TO機能を起動させるための録音キーを表示させる情報が含まれている。また、送受信部22は、レコメンド楽曲取得画面情報とともに、配信情報格納部27に格納されている音声認識装置30の電話番号情報についても、携帯端末10に送信する。
【0235】
送受信部12は、サーバ20から新たにレコメンド楽曲取得画面情報を受信すると、表示部14は、図29に示されるレコメンド楽曲取得画面を表示する(ステップS411)。図29に示されるレコメンド楽曲取得画面には、図27に示されたレコメンド楽曲画面にさらに、「3.録音」キーが追加されている。また、送受信部12は、音声認識装置30の電話番号情報を受信すると、データ格納部13は、一旦、受信された音声認識装置30の電話番号情報を格納する。
【0236】
操作部15が、レコメンド楽曲取得画面における「3.録音」キーを選択すると、制御部11は、携帯端末10が有するPHONE−TO機能を起動させる。送受信部12は、データ格納部13に格納されている音声認識装置30の電話番号情報を用いて、音声認識装置30に発呼し、無線音声網3を介した携帯端末10・音声認識装置30間の電話通信を確立する(ステップS412)。
【0237】
次に、ユーザは、予め確認した歌唱楽曲を歌唱する。音声入出力部16は、ユーザの歌唱に基づく音声を入力する(ステップS413)。
【0238】
送受信部12は、電話通信により音声とともに、携帯端末10の電話番号を示す情報を音声認識装置30に送信する(ステップS414)。
【0239】
送受信部32は、携帯端末10から音声を受信し、所定のデータ形式(例えばWAV形式)で、受信した音声をデータ格納部33に録音する。また、送受信部32は、音声とともに、携帯端末10の電話番号情報を受信すると、制御部31は、音声データ送信元である携帯端末10の電話番号に該当する電話番号情報がデータ格納部33に格納されているか否かを判断する(ステップS415)。音声データ送信元の端末の電話番号情報が格納されていないと判断された場合(ステップS415/No)、制御部31は、送信元端末のユーザによりレコメンド楽曲の取得が要求されていないと判断し、楽曲提供システムは、動作を終了する。また、制御部31は、データ格納部33に格納されている音声データを消去する。
【0240】
送信元端末の電話番号情報がデータ格納部33に格納されていると判断された場合(ステップS415/Yes)、音声変換部36は、データ格納部33に録音されている音声データを、楽曲データ格納部23に格納されている楽曲データのデータ形式に変換する(ステップS416)。本実施例では、音声変換部36は、音声データをMIDI形式に変換するものとする。
【0241】
音声データをMIDI形式に変換することにより、音声データを構成する音単位で容易に解析することが可能となる。また、本実施例では、音声認識装置30は、WAV形式の音声データをMIDI形式に変換してからサーバ20に送信するが、サーバ20が音声データのデータ形式を変換する手段をさらに有しているとしてもよく、サーバ20が音声認識装置30から受け取ったWAV方式の音声データをMIDI形式に変換するとしてもよい。
【0242】
次に、制御部31は、MIDI変換された音声データを解析し、音声データを構成する各音素の高さおよび長さなどを検出する。制御部31は、上記の各音素における高さおよび長さなどに基づいて、音声データのキーおよびテンポ情報を出力する(ステップS417)。図30は、本発明の第2の実施形態の第1の実施例における音声データを示す図である。以下、図30を用いて、本実施例における音声データのキーおよびテンポ情報の出力方法について説明する。
【0243】
制御部31は、MIDI変換された音声データを音素単位に分割する。図30には、音声データが音素P1〜P5に分割されて示されている。なお、音声データにおいて、音の高さが変化するごとに音素として区切るようにしてもよい。例えば、制御部31は、ユーザにより「ド」→「ミ」→「ラ」→「ソ」→「レ」の各音で順に歌唱されたと判断した場合、音声データを「ド」、「ミ」、「ラ」、「ソ」、「レ」の5つの音素に区切る。
【0244】
本実施例では、説明の便宜上、各音素における「音の高さ」は、「ド」、「レ」、「ミ」、「ファ」、「ソ」、「ラ」、「シ」の7音のうちのいずれかをとることとする。また、「音の高さ」が低い順に並べられた「ド」、「レ」、「ミ」、「ファ」、「ソ」、「ラ」、「シ」の7音において、互いに隣り合う音における「音の高さ」の差分は、それぞれ等しいものとする。例えば、「ド」と「レ」との間の「音の高さ」の差分は、「ソ」と「ラ」との間の「音の高さ」の差分に等しい。
【0245】
また、本実施例では、各音素における「音の長さ」は、単位時間長×n(nは1以上の整数)で表されるものとする。なお、「単位時間長」は、所定の時間長(例えば1秒間)を表すものであって、その値は限定されないものとする。
【0246】
また、音声データを音声認識し、ユーザが発声した母音/子音ごとに音素として区切るようにしてもよい。例えば、制御部31は、ユーザにより「さようなら」と歌唱されたと判断した場合、音声データを「さ」、「よ」、「う」、「な」、「ら」の5つの音素に区切る。
【0247】
図30に示されているように、音素P1は、「さ」と発音された音素であって、音の高さが「ド」、音の長さが「3単位時間長」である。また、音素P2は、「よ」と発音された音素であって、音の高さが「ミ」、音の長さが「4単位時間長」である。また、音素P3は、「う」と発音された音素であって、音の高さが「ラ」、音の長さが「2単位時間長」である。また、音素P4は、「な」と発音された音素であって、音の高さが「ソ」、音の長さが「3単位時間長」である。また、音素P5は、「ら」と発音された音素であって、音の高さが「レ」、音の長さが「1単位時間長」である。
【0248】
本実施例において、音声データのキー情報は、その音声データにおける音の高さの最高値および最低値を示す情報を含む。制御部31は、図30に示される音声データを解析する場合、キー情報として、音素P3が示すキー最高値「ラ」、音素P1が示すキー最低値「ド」を検出する。
【0249】
また、本実施例では、音声データのテンポ情報は、ある音素から次の音素に移るまでの時間長の平均を示す情報を含む。例えば、音素P1から音素P2に移るまでの時間は、「3単位時間長」である。同様に、音素P2→音素P3は「4単位時間長」、音素P3→音素P4は「2単位時間長」、音素P4→音素P5は「3単位時間長」となる。制御部31は、上記の次の音素に移るまでの時間平均を算出する。図30に示される音声データでは、時間平均は「(3+4+2+3)÷4=3」となる。
【0250】
次に、送受信部32は、出力されたキー・テンポ情報に、該当するユーザID情報(格納されていた電話番号情報に対応するユーザID情報)を付加させて、サーバ20に送信する(ステップS418)。
【0251】
送受信部22が音声認識装置30からキー・テンポ情報を受信すると、データ比較部28は、受信されたキー・テンポ情報に一致/近い値の楽曲データを検索する(ステップS419)。図31は、本発明の第2の実施形態の第1の実施例におけるキー情報に基づく楽曲データのグループ区分を示す図である。また、図32は、本発明の第2の実施形態の第1の実施例におけるキーおよびテンポ情報に基づく楽曲データのグループ区分を示す図である。以下、図31および図32を用いて、本実施例におけるレコメンド楽曲データの検索動作について説明する。
【0252】
図31に示されているように、楽曲データ格納部23に格納されている1つ以上の楽曲データは、その楽曲データを構成する音のキー最高値およびキー最低値に基づいて区分されたグループGk11、Gk21、Gk22、Gk31、Gk32、Gk33の計6個のグループのいずれかに属する。
【0253】
図31に示されているように、キーの最高値およびキーの最低値は、それぞれ「1」、「2」、「3」の3種類の値をとり得る。例えば、キーの最高値および最低値における「1」には、「ド」、「レ」、「ミ」の3音が含まれ、「2」には、「ファ」、「ソ」の2音が含まれ、「3」には、「ラ」、「シ」の2音が含まれるとしてもよい。例えば、最高キーが「シ」でキーの最低キーが「ファ」の楽曲データは、キー最高値が「3」、最低値が「2」となり、図31から、グループGk32に含まれることとなる。
【0254】
図32に示されているように、楽曲データ格納部23に格納されている1つ以上の楽曲データは、その楽曲データを構成する音のキーの最高値・最低値およびテンポに基づいて区分されたグループGt1〜Gt18の計18個のグループのいずれかに属する。グループGt1〜Gt18は、図31に示されている6個のグループをテンポ別にさらに細分化したものである。例えば、グループGk11に属する楽曲データは、その楽曲データのテンポに従って、グループGt1、Gt7、Gt13のいずれかに属することとなる。例としてあげると、グループGt5に属する楽曲は、最高キーが「ラ」または「シ」、最低キーが「ファ」または「ソ」、次の音素に移るまでの平均時間が「2単位時間長未満」のものである。楽曲属性情報格納部24は、各楽曲データが属するグループを示す情報を、各楽曲データに対応するようにして格納している。
【0255】
図32に示されているように、テンポは、「1」、「2」、「3」の3値をとり得る。例えば、本実施例では、音声データにおける次の音素に移るまでの時間平均が、2単位時間長未満の場合にその音声データのテンポを、テンポ「1」、2単位時間長以上4単位時間長未満の場合にテンポ「2」、4単位時間長以上の場合にテンポ「3」とする。
【0256】
ここで、図30に示されている音声データを例に挙げて、レコメンド楽曲データの検索動作について説明する。上記したように、図30の音声データの最高キーは「ラ」、最低キーは「ド」である。データ比較部28は、図30に示されているテーブルに基づいて、音声データが属するグループを検出する。音声データのキー最高値は「3」、キー最低値は「1」であるので、音声データが属するグループは、グループGk31となる。
【0257】
次に、データ比較部28は、図32に示されているテーブルに基づいて、音声データが属するグループを検出する。音声データは、グループGk31に属し、音声データにおける次の音素にまでの時間平均は、「3単位時間長」であるので、音声データが属するグループは、グループGt10となる。
【0258】
次に、データ比較部28は、データ格納部33に格納されている検索条件情報のうち、音声データの送信元に対応するものを参照して、グループGt10に属する楽曲データのうち、検索条件を満たすものを抽出する。データ比較部28は、上記の所定グループにおいて検索条件を満たす1つ以上の楽曲データの曲名および歌手名などの検索結果を出力する。以上のようにして、データ比較部28は、レコメンド楽曲を検索する。
【0259】
なお、本実施例では、便宜上、「ド」、「レ」、「ミ」、「ファ」、「ソ」、「ラ」、「シ」の7音を用いて「音の高さ」を説明したが、音声データおよび楽曲データは、他の音により構成されるとしてもよい。また、本実施例では、「音の長さ」は単位時間×n(nは1以上の整数)で示されていたが、「音の長さ」を他の方法により表現するようにしてもよい。
【0260】
制御部21は、送受信部22によりキー・テンポ情報と同時に受信されたユーザID情報を参照して、受信されたユーザ固有のキー・テンポ情報をユーザ情報格納部25に該当するユーザ情報に対応づけて格納させる。また、ユーザ情報格納部25は、検索されたレコメンド楽曲の曲名などを含む検索結果についても、該当するユーザ情報に対応づけて格納する。
【0261】
次に、送受信部22は、検索結果(楽曲データの曲名など)が示されている検索結果情報と、配信情報格納部27に格納されている新たなレコメンド楽曲取得画面の情報とを携帯端末10に送信する(ステップS420)。なお、検索結果情報には、レコメンド楽曲の曲名、歌手名、およびユーザ固有のキー・テンポ情報などが含まれる。
【0262】
送受信部12は、サーバ20から検索結果情報およびレコメンド楽曲取得画面情報を受信すると、表示部14は、図33に示されるレコメンド楽曲取得画面を表示する。図33は、本発明の第2の実施形態の第1の実施例における検索結果受信後のレコメンド楽曲取得画面を示す図である。図33に示されるレコメンド楽曲取得画面には、図29に示されるレコメンド楽曲取得画面に、「4.レコメンド楽曲表示」キーがさらに設けられている。
【0263】
操作部15が「4.レコメンド楽曲表示」キーを選択すると、表示部14は、レコメンド楽曲表示画面を表示する(ステップS421)。図34は、本発明の第2の実施形態の第1の実施例におけるレコメンド楽曲表示画面を示す図である。図34には、レコメンド曲としてサーバ20側がすすめる楽曲の曲名および歌手名が表示されている。操作部15が表示されている曲名のうちの1つを選択すると、送受信部12は、選択された曲名が示すレコメンド楽曲データのダウンロード要求をサーバ20に送信する(ステップS422)。
【0264】
送受信部22が携帯端末10からレコメンド楽曲のダウンロード要求を受信すると、制御部21は、楽曲データ格納部23に格納されている楽曲データのうち、ダウンロード要求されているものを抽出する。送受信部22は、抽出された楽曲データをレコメンド楽曲データとして携帯端末10に送信する(ステップS423)。
【0265】
また、ユーザ情報格納部25は、レコメンド楽曲データとして携帯端末10に送信した楽曲データの曲名を、該当するユーザ情報に対応づけて格納する。
【0266】
送受信部12が、サーバ20からレコメンド楽曲データを受信すると、データ格納部13は、受信されたレコメンド楽曲データを格納する(ステップS424)。データ格納部13に格納されたレコメンド楽曲データについては、図35に示されるように、レコメンド楽曲表示画面において、曲名に対応するようにして「ダウンロード済み」と表示される。操作部15が、「ダウンロード済み」と表示されている曲名を再度選択すると、制御部11は、データ格納部13に格納されている楽曲データのうち選択された曲名に対応する楽曲データを読み込む。音声入出力部16は、読み込まれた楽曲データを音声により再生して出力する。以上で、本実施例における楽曲提供システムによるレコメンド楽曲提供動作は終了する。
【0267】
図36は、本発明の第2の実施形態の第1の実施例におけるユーザ情報格納部25内のユーザ情報を示す図である。図36に示されているように、ユーザ情報格納部25は、各ユーザを識別するためのユーザID情報に対応付けて、そのユーザ名と、ユーザの端末(携帯端末10)の電話番号と、ユーザの声のキー最高値・最低値と、ユーザのテンポ情報と、そのユーザの音声データに基づくレコメンド楽曲の検索履歴(検索時期の情報を含む)と、そのユーザの端末への楽曲のダウンロード履歴(ダウンロード時期の情報を含む)と、をユーザ情報として格納するようにしてもよい。また、ユーザ情報格納部25は、ユーザの性別、住所、およびメールアドレスなどのユーザの属性情報をさらに格納するようにしてもよいし、他の情報を格納するようにしてもよい。
【0268】
図36に示されているように、1度検出されたキー・テンポ情報は、ユーザ情報格納部25により格納されているので、ユーザは、次回にレコメンド楽曲を取得要求する際、歌唱して音声データを入力する作業を省くことが可能である。また、サーバ20が新たにキー・テンポ情報を検出した場合には、制御部21は、その都度ユーザ情報格納部25内のキー・テンポ情報を書き換える。また、1度検索されたレコメンド楽曲の曲名は、ユーザ情報格納部25により格納されているので、ユーザは、検索済みのレコメンド楽曲データをいつでも取得することが可能となる。
【0269】
なお、本実施例では、サーバ20は、音声データを構成する各音素から次の音素に移るまでの時間平均に基づいて、テンポ情報を出力していたが、音声データを構成する各音素の長さの平均に基づいて、テンポ情報を出力するとしてもよい。
【0270】
以上説明したように、本実施例によれば、携帯端末10は、歌唱楽曲データを再生出力し、ユーザは、その再生された楽曲を歌唱する。音声認識装置30は、その歌唱に基づく音声データを解析して、音声データのキー・テンポ情報を検出する。サーバ20は、検出したキー・テンポ情報に基づいて、レコメンド楽曲データを検索する。サーバ20は、検索したレコメンド楽曲データを携帯端末10に提供する。従って、本実施例によれば、ユーザは、複雑なキー操作をすることなく、自身のキーおよびテンポにあった楽曲を容易かつ迅速に取得することが可能となる。
【0271】
(第2の実施例)
本発明の第2の実施形態における第2の実施例では、ユーザは、所定の楽曲(歌唱楽曲)を歌唱し、楽曲提供システムは、そのユーザの歌唱による音声データを解析し、ユーザが快適に歌唱可能なキーおよびテンポを検出する。楽曲提供システムは、上記の検出したキーおよびテンポに一致/近いキーおよびテンポのおすすめの楽曲(レコメンド楽曲)をユーザに提供する。なお、本実施例において、楽曲データおよびレコメンド楽曲データは、主に楽曲の伴奏を演奏するカラオケデータであるとする。以下、特記しない限り、本実施例における楽曲提供システムの構成および動作は、本発明の第1の実施形態における第2の実施例と同様であるとし、第1の実施形態における第2の実施例と同様に図16〜図19を用いて本実施例の説明を進める。
【0272】
本実施例では、楽曲提供システムは、第1の実施形態における第2の実施例と同様に、図5および図6に示されるようなユーザ情報登録処理を行う。
【0273】
図37は、本発明の第2の実施形態の第2の実施例における楽曲提供処理を示すシーケンスである。以下、図37に沿って、本実施例における楽曲提供システムによる楽曲提供処理について説明する。
【0274】
まず、携帯端末10は、ユーザが歌唱する楽曲(歌唱楽曲)を指定するための画面(歌唱楽曲入力画面)に係る情報(Webページ)のダウンロード要求をサーバ20に送信する(E10→E20)。
【0275】
次に、サーバ20は、携帯端末10にダウンロード要求された歌唱楽曲入力画面情報を携帯端末10に送信する(E21→E11)。
【0276】
次に、携帯端末10は、歌唱楽曲およびその曲名を示す情報を含む歌唱楽曲データのダウンロード要求をサーバ20に送信する(E12→E22)。「歌唱楽曲データ」とは、歌唱楽曲を再生出力するための楽曲データであり、楽曲の所定部分(例えばサビ部分など)を示すデータである。
【0277】
サーバ20は、携帯端末10にダウンロード要求された歌唱楽曲データを携帯端末10に送信する。また、サーバ20は、歌唱楽曲データとともに、レコメンド楽曲を提供するための画面(レコメンド楽曲取得画面)の情報についても携帯端末10に送信する(E23→E13)。
【0278】
次に、携帯端末10は、音声認識装置30によるレコメンド楽曲検索の際における検索条件を示す情報をサーバ20に送信する(E14→E24)。
【0279】
次に、サーバ20は、携帯端末10に送信した歌唱楽曲データを示す情報と、携帯端末10から受信した検索条件情報と、を音声認識装置30に送信する(E25→E30)。
【0280】
次に、携帯端末10は、受信した歌唱楽曲データに沿ったユーザの歌唱による音声データを音声認識装置30に送信する(E15→E31)。
【0281】
音声認識装置30は、携帯端末10から受信した音声データに基づいてレコメンド楽曲を検索し、その検索結果情報をサーバ20に送信する(E32→E26)。
【0282】
サーバ20は、音声認識装置30から受信した検索結果情報を携帯端末10に送信する(E27→E16)。
【0283】
次に、携帯端末10は、検索結果に示されている1つ以上のレコメンド楽曲から所定の楽曲を選択して、その楽曲データのダウンロード要求を示す情報をサーバ20に送信する(E17→E28)。
【0284】
サーバ20は、携帯端末10からレコメンド楽曲のダウンロード要求を受信すると、該当する楽曲データを携帯端末10に送信する(E29→E18)。以上で、楽曲提供システムは、レコメンド楽曲提供処理を終了する。
【0285】
図38および図39は、本発明の第2の実施形態の第2の実施例における楽曲提供システムによるレコメンド楽曲提供動作の流れを示すフローチャートである。以下、図38および図39に沿って、本実施例における楽曲提供システムによるレコメンド楽曲提供動作について説明する。
【0286】
まず、携帯端末10は、サーバ20に対して、歌唱楽曲入力画面の情報のダウンロード要求(Webサイトの接続要求)を行う(ステップS501)。「歌唱楽曲」とは、音声データを音声認識装置30に送る際にユーザが歌唱する楽曲を示し、「歌唱楽曲入力画面」とは、歌唱楽曲の曲名および歌手名を入力する画面を示す。また、送受信部12は、歌唱楽曲入力画面のダウンロード要求とともに、操作部15などにより入力されたユーザIDを示す情報を、サーバ20に送信する。
【0287】
送受信部22は、歌唱楽曲入力画面のダウンロード要求およびユーザID情報を受信すると、配信情報格納部27に格納されている歌唱楽曲入力画面の情報(Webページ)を携帯端末10に送信する(ステップS502)。
【0288】
送受信部12は、サーバ20から歌唱楽曲入力画面の情報を受信すると、表示部14は、歌唱楽曲入力画面を表示する(ステップS503)。
【0289】
以下、本発明の第2の実施形態における第1の実施例と同様に、図26を用いて、本実施例における歌唱楽曲入力画面について説明する。図26に示されている歌唱楽曲入力画面上には、歌唱楽曲の曲名および歌手名を入力する領域が設けられている。操作部15は、歌唱楽曲の曲名および歌手名を入力した後に歌唱楽曲入力画面上に設けられている「送信」キーを選択すると、送受信部12は、入力された曲名および歌手名を示す情報をサーバ20に送信する(ステップS504)。
【0290】
なお、本実施例では、携帯端末10は、歌唱楽曲の曲名および歌手名をサーバ20に送信しているが、ユーザが歌唱楽曲の曲名および歌手名を記憶していない場合には、ユーザは、第1の実施形態の第2の実施例における楽曲データ検索機能を用いて、ユーザが意図する歌唱楽曲の曲名などを検索することが可能である。
【0291】
送受信部22が携帯端末10から歌唱楽曲の曲名および歌手名を示す情報を受信すると、制御部21は、受信された曲名および歌手名に該当する楽曲データを楽曲データ格納部23から抽出する(ステップS505)。
【0292】
楽曲データ編集部26は、抽出された楽曲データの所定部分(例えば10秒間分)からなる歌唱楽曲データを作成する(ステップS506)。送受信部22は、作成された歌唱楽曲データを携帯端末10に送信する。また、送受信部22は、配信情報格納部27に格納されているレコメンド楽曲提供(取得)画面の情報(Webページ)を携帯端末10に送信する。(ステップS507)。また、ユーザ情報格納部25は、携帯端末10に送信された部分データを識別するための情報を、携帯端末10のユーザのユーザ情報と対応づけて格納する。
【0293】
送受信部12は、サーバ20からレコメンド楽曲取得画面の情報を受信すると、表示部14は、送受信部12により受信されたレコメンド楽曲取得画面を表示する(ステップS508)。また、データ格納部13は、送受信部12により受信された歌唱楽曲データを格納する。
【0294】
以下、本発明の第2の実施形態における第1の実施例と同様に、図27を用いて、本実施例におけるレコメンド楽曲取得画面について説明する。図27に示されているように、レコメンド楽曲取得画面には、歌唱楽曲データにより再生可能な楽曲の曲名および歌手名が表示される。また、レコメンド楽曲取得画面上には、「1.楽曲再生」および「2.検索条件入力」と示された各キーが設けられている。
【0295】
操作部15が「1.楽曲再生」キーを選択すると、制御部11は、データ格納部13に格納されている歌唱楽曲データのうち、現在レコメンド楽曲取得画面に曲名が示されている楽曲データを読み込む。音声入出力部16は、その読み込まれた歌唱楽曲データに基づく音声を出力する。ユーザは、再生された歌唱楽曲の再生範囲、キー、およびテンポを確認する。また、歌唱楽曲データとともに、その歌唱楽曲データに対応する歌詞データが、サーバ20から携帯端末10に送信された場合、表示部14は、歌唱楽曲データ再生時にその歌詞を表示するとしてよい。
【0296】
操作部15が「2.検索条件入力」キーを選択すると、表示部14上のレコメンド楽曲取得画面は、検索条件入力画面に遷移する。以下、本発明の第2の実施形態における第1の実施例と同様に、図28を用いて、本実施例における検索条件入力画面について説明する。図28に示されているように、検索条件入力画面には、「1.歌手名」、「2.ジャンル」、および「3.曲調」といった検索条件入力欄と、「送信」キーと、「楽曲取得画面へ」の移動キーとが設けられている。本実施例では、例として、各検索条件入力欄には、歌手名として「山本三郎」、ジャンルとして「歌謡曲」、曲調として「バラード」がそれぞれ入力されている。操作部15が、各検索条件入力後に「送信」キーを選択すると、送受信部12は、入力された検索条件を示す情報をサーバ20に送信する(ステップS509)。
【0297】
なお、操作部15は、検索条件入力画面上の検索条件欄に、直接文字入力してもよいし、検索条件欄に検索条件が列挙されたプルダウンメニューを設けて、そのプルダウンメニューから所定の検索条件を選択するようにしてもよい。また、操作部15は、複数設けられている検索条件のうち所定の検索条件だけ指定するとしてもよい。また、検索条件は、図28に示されているものに限定されないものとする。
【0298】
送受信部22が、携帯端末10から検索条件情報を受信すると、制御部21は、送受信部22により受信された検索条件情報の送信元ユーザ(携帯端末10のユーザ)のID情報を、その検索条件情報に付加する。また、制御部21は、送受信部22により受信されたユーザID情報に基づいて、ユーザ情報格納部25から該当するユーザの電話番号情報を抽出し、受信された検索条件情報に付加する。送受信部22は、ユーザID情報および携帯端末10の電話番号情報が付加された検索条件情報を、音声認識装置30に送信する。また、送受信部22は、携帯端末10に送信した歌唱楽曲データを識別するための情報についても同様に音声認識装置30に送信する(ステップS510)。
【0299】
送受信部32が検索条件情報および歌唱楽曲データの識別情報を受信すると、制御部31は、検索条件情報とともに、付加されているユーザID情報および検索条件情報送信元の電話番号情報をそれぞれ検索条件情報に対応させるようにしてデータ格納部33に格納させる。
【0300】
操作部15が図28に「楽曲取得画面へ」と示されている領域を選択すると、送受信部12は、新たなレコメンド楽曲取得画面情報のダウンロード要求をサーバ20に送信する。送受信部22は、携帯端末10から新たなレコメンド楽曲取得画面情報の取得要求を受信すると、配信情報格納部27に格納されているレコメンド楽曲取得画面情報を携帯端末10に送信する。この際、送信するレコメンド楽曲取得画面情報には、PHONE−TO機能を起動させるための録音キーを表示させる情報が含まれている。また、送受信部22は、レコメンド楽曲取得画面情報とともに、配信情報格納部27に格納されている音声認識装置30の電話番号情報についても、携帯端末10に送信する。
【0301】
送受信部12は、サーバ20から新たにレコメンド楽曲取得画面情報を受信すると、表示部14は、第2の実施形態における第1の実施例と同様に、図29に示されるレコメンド楽曲取得画面を表示する(ステップS511)。図29に示されるレコメンド楽曲取得画面には、図27に示されたレコメンド楽曲画面にさらに「3.録音」キーが追加されている。また、送受信部12は、音声認識装置30の電話番号情報を受信すると、データ格納部13は、一旦、受信された音声認識装置30の電話番号情報を格納する。
【0302】
操作部15が、レコメンド楽曲取得画面における「3.録音」キーを選択すると、制御部11は、携帯端末10が有するPHONE−TO機能を起動させる。送受信部12は、データ格納部13に格納されている音声認識装置30の電話番号情報を用いて、音声認識装置30に発呼し、無線音声網3を介した携帯端末10・音声認識装置30間の電話通信を確立する(ステップS512)。
【0303】
次に、ユーザは、予め確認した歌唱楽曲を歌唱する。音声入出力部16は、ユーザの歌唱に基づく音声を入力する(ステップS513)。
【0304】
送受信部12は、電話通信により音声とともに、携帯端末10の電話番号を示す情報を音声認識装置30に送信する(ステップS514)。
【0305】
送受信部32は、携帯端末10から音声を受信し、所定のデータ形式(例えばWAV形式)で、受信した音声をデータ格納部33に録音する。また、送受信部32は、音声とともに、携帯端末10の電話番号情報を受信すると、制御部31は、音声データ送信元である携帯端末10の電話番号に該当する電話番号情報がデータ格納部33に格納されているか否かを判断する(ステップS515)。音声データ送信元の端末の電話番号情報が格納されていないと判断された場合(ステップS515/No)、制御部31は、送信元端末のユーザによりレコメンド楽曲の取得が要求されていないと判断し、楽曲提供システムは、動作を終了する。また、制御部31は、データ格納部33に格納されている音声データを消去する。
【0306】
送信元端末の電話番号情報がデータ格納部33に格納されていると判断された場合(ステップS515/Yes)、音声変換部36は、録音された音声データのデータ形式を変換する(ステップS516)。本実施例では、音声変換部36は、録音された音声データ(例えばWAV形式)をMIDI形式の音声データに変換する。
【0307】
次に、データ比較部37は、MIDI変換された音声データを解析し、音声データを構成する各音素の高さおよび長さなどを検出する。データ比較部37は、上記の各音素における高さおよび長さなどに基づいて、音声データのキーおよびテンポ情報を出力する(ステップS517)。以下、本発明の第2の実施形態における第1の実施例と同様に、図30を用いて、本実施例における音声データのキーおよびテンポ情報の出力方法について説明する。
【0308】
データ比較部37は、MIDI変換された音声データを音素単位に分割する。図30には、音声データが音素P1〜P5に分割されて示されている。なお、音声データにおいて、音の高さが変化するごとに音素として区切るようにしてもよい。例えば、データ比較部37は、ユーザにより「ド」→「ミ」→「ラ」→「ソ」→「レ」の各音で順に歌唱されたと判断した場合、音声データを「ド」、「ミ」、「ラ」、「ソ」、「レ」の5つの音素に区切る。
【0309】
本実施例では、説明の便宜上、各音素における「音の高さ」は、「ド」、「レ」、「ミ」、「ファ」、「ソ」、「ラ」、「シ」の7音のうちのいずれかをとることとする。また、「音の高さ」が低い順に並べられた「ド」、「レ」、「ミ」、「ファ」、「ソ」、「ラ」、「シ」の7音において、互いに隣り合う音における「音の高さ」の差分は、それぞれ等しいものとする。例えば、「ド」と「レ」との間の「音の高さ」の差分は、「ソ」と「ラ」との間の「音の高さ」の差分に等しい。
【0310】
また、本実施例では、各音素における「音の長さ」は、単位時間長×n(nは1以上の整数)で表されるものとする。なお、「単位時間長」は、所定の時間長(例えば1秒間)を表すものであって、その値は限定されないものとする。
【0311】
また、音声データを音声認識し、ユーザが発声した母音/子音ごとに音素として区切るようにしてもよい。例えば、データ比較部37は、ユーザにより「さようなら」と歌唱されたと判断した場合、音声データを「さ」、「よ」、「う」、「な」、「ら」の5つの音素に区切る。
【0312】
図30に示されているように、音素P1は、「さ」と発音された音素であって、音の高さが「ド」、音の長さが「3単位時間長」である。また、音素P2は、「よ」と発音された音素であって、音の高さが「ミ」、音の長さが「4単位時間長」である。また、音素P3は、「う」と発音された音素であって、音の高さが「ラ」、音の長さが「2単位時間長」である。また、音素P4は、「な」と発音された音素であって、音の高さが「ソ」、音の長さが「3単位時間長」である。また、音素P5は、「ら」と発音された音素であって、音の高さが「レ」、音の長さが「1単位時間長」である。
【0313】
本実施例において、音声データのキー情報は、その音声データにおける音の高さの最高値および最低値を示す情報を含む。データ比較部37は、図30に示される音声データを解析する場合、キー情報として、音素P3が示すキー最高値「ラ」、音素P1が示すキー最低値「ド」を検出する。
【0314】
また、本実施例では、音声データのテンポ情報は、ある音素から次の音素に移るまでの時間長の平均を示す情報を含む。例えば、音素P1から音素P2に移るまでの時間は、「3単位時間長」である。同様に、音素P2→音素P3は「4単位時間長」、音素P3→音素P4は「2単位時間長」、音素P4→音素P5は「3単位時間長」となる。データ比較部37は、上記の次の音素に移るまでの時間平均を算出する。図30に示される音声データでは、時間平均は「(3+4+2+3)÷4=3」となる。
【0315】
データ比較部37は、音声データのキー・テンポ情報検出後、そのキー・テンポ情報に一致/近い値の楽曲データを検索する(ステップS518)。以下、本発明の第2の実施形態における第1の実施例と同様に、図31および図32を用いて、本実施例におけるレコメンド楽曲データの検索動作について説明する。
【0316】
図31に示されているように、楽曲データ格納部34に格納されている1つ以上の楽曲データは、その楽曲データを構成する音のキー最高値およびキー最低値に基づいて区分されたグループGk11、Gk21、Gk22、Gk31、Gk32、Gk33の計6個のグループのいずれかに属する。
【0317】
図31に示されているように、キーの最高値およびキーの最低値は、それぞれ「1」、「2」、「3」の3種類の値をとり得る。例えば、キーの最高値および最低値における「1」には、「ド」、「レ」、「ミ」の3音が含まれ、「2」には、「ファ」、「ソ」の2音が含まれ、「3」には、「ラ」、「シ」の2音が含まれるとしてもよい。例えば、最高キーが「シ」でキーの最低キーが「ファ」の楽曲データは、キー最高値が「3」、最低値が「2」となり、図31から、グループGk32に含まれることとなる。
【0318】
図32に示されているように、楽曲データ格納部34に格納されている1つ以上の楽曲データは、その楽曲データを構成する音のキーの最高値・最低値およびテンポに基づいて区分されたグループGt1〜Gt18の計18個のグループのいずれかに属する。グループGt1〜Gt18は、図31に示されている6個のグループをテンポ別にさらに細分化したものである。例えば、グループGk11に属する楽曲データは、その楽曲データのテンポに従って、グループGt1、Gt7、Gt13のいずれかに属することとなる。例としてあげると、グループGt5に属する楽曲は、最高キーが「ラ」または「シ」、最低キーが「ファ」または「ソ」、次の音素に移るまでの平均時間が「2単位時間長未満」のものである。楽曲属性情報格納部35は、各楽曲データが属するグループを示す情報を、各楽曲データに対応するようにして格納している。
【0319】
図31に示されているように、テンポは、「1」、「2」、「3」の3値をとり得る。例えば、本実施例では、音声データにおける次の音素に移るまでの時間平均が、2単位時間長未満の場合にその音声データのテンポを、テンポ「1」、2単位時間長以上4単位時間長未満の場合にテンポ「2」、4単位時間長以上の場合にテンポ「3」とする。
【0320】
ここで、図30に示されている音声データを例に挙げて、レコメンド楽曲データの検索動作について説明する。上記したように、図30の音声データの最高キーは「ラ」、最低キーは「ド」である。データ比較部37は、図31に示されているテーブルに基づいて、音声データが属するグループを検出する。音声データのキー最高値は「3」、キー最低値は「1」であるので、音声データが属するグループは、グループGk31となる。
【0321】
次に、データ比較部37は、図32に示されているテーブルに基づいて、音声データが属するグループを検出する。音声データは、グループGk31に属し、音声データにおける次の音素にまでの時間平均は、「3単位時間長」であるので、音声データが属するグループは、グループGt10となる。
【0322】
次に、データ比較部37は、データ格納部33に格納されている検索条件情報のうち、音声データの送信元に対応するものを参照して、グループGt10に属する楽曲データのうち、検索条件を満たすものを抽出する。データ比較部37は、上記の所定グループにおいて検索条件を満たす1つ以上の楽曲データの曲名および歌手名などの検索結果を出力する。以上のようにして、データ比較部37は、レコメンド楽曲を検索する。
【0323】
なお、本実施例では、便宜上、「ド」、「レ」、「ミ」、「ファ」、「ソ」、「ラ」、「シ」の7音を用いて「音の高さ」を説明したが、音声データおよび楽曲データは、他の音により構成されるとしてもよい。また、本実施例では、「音の長さ」は単位時間×n(nは1以上の整数)で示されていたが、「音の長さ」を他の方法により表現するようにしてもよい。
【0324】
次に、送受信部32は、検索結果(楽曲データの曲名など)が示されている検索結果情報をサーバ20に送信する(ステップS519)。なお、検索結果情報には、レコメンド楽曲の曲名、歌手名、およびユーザ固有のキー・テンポ情報などが含まれる。また、制御部31は、データ格納部33に格納されているもののうち、サーバ20に送信された検索結果情報に対応する音声データ、検索結果情報、ユーザID情報、電話番号情報、および楽曲データのID情報を消去する。
【0325】
送受信部22は、音声認識装置30から検索結果情報を受信すると、その受信した検索結果情報と、配信情報格納部27に格納されている新たなレコメンド楽曲取得画面の情報とを携帯端末10に送信する(ステップS520)。
【0326】
また、ユーザ情報格納部25は、検索されたレコメンド楽曲の曲名およびユーザ固有のキー・テンポ情報を該当するユーザ情報に対応づけて格納する。
【0327】
送受信部12は、サーバ20から検索結果情報およびレコメンド楽曲取得画面情報を受信すると、表示部14は、第2の実施形態における第1の実施例と同様に、図33に示されるレコメンド楽曲取得画面を表示する。図33に示されるレコメンド楽曲取得画面には、図29に示されるレコメンド楽曲取得画面に、「4.レコメンド楽曲表示」キーがさらに設けられている。
【0328】
操作部15が「4.レコメンド楽曲表示」キーを選択すると、表示部14は、レコメンド楽曲表示画面を表示する(ステップS521)。以下、本発明の第2の実施形態における第1の実施例と同様に、図34を用いて、本実施例におけるレコメンド楽曲表示画面について説明する。図34には、レコメンド曲としてサーバ20・音声認識装置30側がすすめる楽曲の曲名および歌手名が表示されている。操作部15が表示されている曲名のうちの1つを選択すると、送受信部12は、選択された曲名が示すレコメンド楽曲データのダウンロード要求をサーバ20に送信する(ステップS522)。
【0329】
送受信部22が携帯端末10からレコメンド楽曲のダウンロード要求を受信すると、制御部21は、楽曲データ格納部23に格納されている楽曲データのうち、ダウンロード要求されているものを抽出する。送受信部22は、抽出された楽曲データをレコメンド楽曲データとして携帯端末10に送信する(ステップS523)。
【0330】
また、ユーザ情報格納部25は、レコメンド楽曲データとして携帯端末10に送信した楽曲データの曲名を、該当するユーザ情報に対応づけて格納する。
【0331】
送受信部12が、サーバ20からレコメンド楽曲データを受信すると、データ格納部13は、受信されたレコメンド楽曲データを格納する(ステップS524)。データ格納部13に格納されたレコメンド楽曲データについては、第2の実施形態における第1の実施例と同様に、図35に示されるようなレコメンド楽曲表示画面において、曲名に対応するようにして「ダウンロード済み」と表示される。操作部15が、「ダウンロード済み」と表示されている曲名を再度選択すると、制御部11は、データ格納部13に格納されている楽曲データのうち選択された曲名に対応する楽曲データを読み込む。音声入出力部16は、読み込まれた楽曲データを音声により再生して出力する。以上で、本実施例における楽曲提供システムによるレコメンド楽曲提供動作は終了する。
【0332】
以下、第2の実施形態における第1の実施例と同様に、図36を用いて、ユーザ情報格納部25により格納されているユーザ情報について説明する。図36に示されているように、ユーザ情報格納部25は、各ユーザを識別するためのユーザID情報に対応付けて、そのユーザ名と、ユーザの端末(携帯端末10)の電話番号と、ユーザの声のキー最高値・最低値と、ユーザのテンポ情報と、そのユーザの音声データに基づくレコメンド楽曲の検索履歴(検索時期の情報を含む)と、そのユーザの端末への楽曲のダウンロード履歴(ダウンロード時期の情報を含む)と、をユーザ情報として格納するようにしてもよい。また、ユーザ情報格納部25は、ユーザの性別、住所、およびメールアドレスなどのユーザの属性情報をさらに格納するようにしてもよいし、他の情報を格納するようにしてもよい。
【0333】
図36に示されているように、1度検出されたキー・テンポ情報は、ユーザ情報格納部25により格納されているので、ユーザは、次回にレコメンド楽曲を取得要求する際、歌唱して音声データを入力する作業を省くことが可能である。また、音声認識装置30が新たにキー・テンポ情報を検出した場合には、制御部21は、その都度ユーザ情報格納部25内のキー・テンポ情報を書き換える。また、1度検索されたレコメンド楽曲の曲名は、ユーザ情報格納部25により格納されているので、ユーザは、検索済みのレコメンド楽曲データをいつでも取得することが可能となる。
【0334】
なお、本実施例では、音声認識装置30は、音声データを構成する各音素から次の音素に移るまでの時間平均に基づいて、テンポ情報を出力していたが、音声データを構成する各音素の長さの平均に基づいて、テンポ情報を出力するとしてもよい。
【0335】
以上説明したように、本実施例によれば、携帯端末10は、歌唱楽曲データを再生出力し、ユーザは、その再生された楽曲を歌唱する。音声認識装置30は、その歌唱に基づく音声データを解析して、音声データのキー・テンポ情報を検出する。音声認識装置30は、検出したキー・テンポ情報に基づいて、レコメンド楽曲データを検索する。サーバ20は、音声認識装置30により検索されたレコメンド楽曲データを携帯端末10に提供する。従って、本実施例によれば、ユーザは、複雑なキー操作をすることなく、自身のキーおよびテンポにあった楽曲を容易かつ迅速に取得することが可能となる。
【0336】
(第3の実施形態)
(第1の実施例)
本発明の第3の実施形態における第1の実施例では、第2の実施形態と同様に、楽曲提供システムは、ユーザの歌唱による音声に基づいて、ユーザが快適に歌唱可能なキーおよびテンポのレコメンド楽曲をユーザに提供する。本実施形態と第2の実施形態とは、レコメンド楽曲の検索方法において異なる。以下、特記しない限り、本実施例における楽曲提供システムの構成および動作は、本発明の第2の実施形態における第1の実施例と同様であるとする。以下、第2の実施形態における第1の実施例と同様に、図1〜図4を用いて本実施例の説明を進める。
【0337】
第2の実施形態における第1の実施例では、サーバ20は、携帯端末10から受信したユーザの歌唱による音声データを解析し、音声データにおける最高キーおよび最低キーを検出していた。また、第2の実施形態の第1の実施例におけるサーバ20は、音声データを構成する各音素において、音素が発生してから次の音素が発生するまでの時間の間隔を検出し、その時間の間隔の平均を算出してテンポ情報を出力していた。
【0338】
本実施例では、サーバ20は、ユーザが歌唱する楽曲の歌唱楽曲データを携帯端末10に送信した時にその歌唱楽曲データをユーザ情報に対応付けて記憶しておく。そして、受信したユーザの歌唱による音声データと、そのユーザのユーザ情報に対応付けられた歌唱楽曲データと、を比較し、両者間における「音の高さ(キー)」および「音の長さ(テンポ)」の差分を算出する。サーバ20は、その算出した差分情報に基づいて、レコメンド楽曲データを検索し、携帯端末10に提供する。
【0339】
本実施例では、データ比較部28は、音声データを構成する各音素と歌唱楽曲データを構成する各音素との間において、両データ間の各音素における「音の高さ」および「音の長さ」の差分を検出する。データ比較部28は、音声データと歌唱楽曲データとをそれぞれ構成する音素を再生される時間順に並べて、音声データと歌唱楽曲データとにおける1番目の音素同士の差分、2番目の音素同士の差分、3番目同士の差分、...を算出し、所定の順の音素まで差分の算出を行う。次に、データ比較部28は、算出した差分を積算し、その積算した差分を、差分を算出した音素の組の数で割り、「音の高さ」および「音の長さ」の差分平均を算出する。
【0340】
図40の(a)は、本発明の第3の実施形態の第1の実施例における音声データを示す図であり、(b)は、歌唱楽曲データを示す図である。以下、図40を用いて、本実施例におけるサーバ20による差分情報算出動作について説明する。
【0341】
本実施例では、説明の便宜上、各音素における「音の高さ」は、「ド」、「レ」、「ミ」、「ファ」、「ソ」、「ラ」、「シ」の7音のうちのいずれかをとることとする。また、「音の高さ」が低い順に並べられた「ド」、「レ」、「ミ」、「ファ」、「ソ」、「ラ」、「シ」の7音において、互いに隣り合う音における「音の高さ」の間隔は、それぞれ等しいものとする。例えば、「ド」と「レ」との間の「音の高さ」の間隔と、「ソ」と「ラ」との間の「音の高さ」の間隔と、は互いに等しい。上記の互いに隣り合う音における「音の高さ」の間隔を、以下「単位音程」と表記する。
【0342】
また、本実施例では、各音素における「音の長さ」は、単位時間長×n(nは1以上の整数)で表されるものとする。なお、「単位時間長」は、所定の時間長(例えば1秒間)を表すものであって、その値は限定されないものとする。
【0343】
ユーザは、図40の(b)に示されている歌唱楽曲データ(MIDIデータ)により再生される楽曲を歌唱する。携帯端末10は、そのユーザによる歌唱に基づく音声データを音声認識装置30に送信する。音声認識装置30は、携帯端末10から音声データを受信すると、その受信した音声データをMIDIデータに変換する。そのMIDI変換された音声データは、図40の(a)に示されているようなものとなる。
【0344】
図40の(a)には、音声データを構成する音素P11、P12、P13が示されている。音素P11は、音の高さが「ド」で音の長さが「2単位時間長」である。音素P12は、音の高さが「レ」で音の長さが「4単位時間長」である。音素P13は、音の高さが「ミ」で音の長さが「2単位時間長」である。
【0345】
図40の(b)には、歌唱楽曲データを構成する音素P21、P22、P23が示されている。音素P21は、音素P11の差分計算対象となる音素であり、音素P22は、音素P12の差分計算対象となる音素であり、音素P23は、音素P13の差分計算対象となる音素である。音素P21は、音の高さが「レ」で音の長さが「1単位時間長」である。音素P22は、音の高さが「ファ」で音の長さが「1単位時間長」である。音素P23は、音の高さが「ミ」で音の長さが「3単位時間長」である。
【0346】
データ比較部28は、音声データと歌唱楽曲データとを音素単位で比較して、両者における「音の高さ」の差分を算出する。音素P11は、音素P21よりも音の高さが「−1」だけ高い(「1」単位音程分だけ低い)。また、音素P12は、音素P22よりも音の高さが「−2」だけ高い(「2」単位音程分だけ低い)。また、音素P13は、音素P23よりも音の高さが「0」だけ高い(両者は等しい)。以上から、各音素における音の高さの差分の平均は、「{(−1)+(−2)+0}÷3=−1」となる。
【0347】
データ比較部28は、音声データと歌唱楽曲データとの音の高さにおける差分「−1」を算出する。音声データと歌唱楽曲データとの間の「音の高さ」における差分が、正の数である場合、音声データは歌唱楽曲データよりも「音の高さ」が高いことを示し、負の数である場合、音声データは歌唱楽曲データよりも「音の高さ」が低いことを示す。従って、データ比較部28は、「音声データは歌唱楽曲データと比べて「1」単位音程分だけ音の高さが低い」旨のキー情報を出力する。
【0348】
音声データと歌唱楽曲データとの間のテンポの差分については、データ比較部28により、以下のように算出される。データ比較部28は、音声データと歌唱楽曲データとを音素単位で比較して、両者のテンポの差分を算出する。音素P11は、音素P21よりも音の長さが「1(1単位時間長)」だけ長い。また、音素P12は、音素P22よりも音の長さが「3」だけ長い。また、音素P13は、音素P23よりも音の長さが「−1」だけ長い(「1」だけ短い)。以上から、各音素における音の長さの差分の平均は「{1+3+(−1)}÷3=1」となる。
【0349】
データ比較部28は、音声データと歌唱楽曲データとの音の長さにおける差分「1」を算出する。音声データと歌唱楽曲データとの間の「音の長さ」における差分が正の数である場合、音声データは歌唱楽曲データよりもテンポが遅いことを示し、負の数である場合、音声データは歌唱楽曲データよりもテンポが速いことを示す。従って、データ比較部28は、「音声データは歌唱楽曲データと比べて「1」単位時間長だけテンポが遅い」旨のテンポ情報を出力する。
【0350】
楽曲データ格納部34には、1つ以上の楽曲データが格納されており、その1つ以上の楽曲データは、各楽曲データのキー・テンポ情報に基づいて、それぞれ該当するグループに配置される。楽曲属性情報格納部35は、各楽曲データが属するグループを示す情報を、各楽曲データに対応づけて格納している。図41は、本発明の第3の実施形態の第1の実施例における楽曲属性情報格納部35により格納される各楽曲データが属するグループ区分情報を示す図である。以下、図41を用いて、本実施例におけるキーおよびテンポに基づくレコメンド楽曲データの検索動作について説明する。
【0351】
図41には、5段階のキーレベルおよびテンポレベルがそれぞれ示されている。また、図41には、キーおよびテンポに基づいて区分されたグループG11〜G15、G21〜G25、G31〜G35、G41〜G45、G51〜G55の25グループが示されている。
【0352】
「キーレベル」とは、楽曲データ全体のキー(音)の高さの度合いを示すものであって、「1」が最も低いキーを表し、レベルの数字が増加するにつれてキーは高くなり、キーレベル「5」が最も高いキーを表す。
【0353】
また、「テンポレベル」とは、楽曲データ全体のテンポの速さの度合いを示すものであって、「1」が最も遅いテンポを表し、レベルの数字が増加するにつれてテンポは速くなり、テンポレベル「5」が最も速いテンポを表すものとする。
【0354】
また、図41に示される各グループは、キーレベルおよびテンポレベルに従って、それぞれ区分されている。例えば、最もキーが低く(キーレベルが低く)、かつ最もテンポが遅い(テンポレベルが低い)グループは、グループG11であり、最もキーが高く(キーレベルが高く)、かつ最もテンポが速い(テンポレベルが高い)グループは、グループG55である。
【0355】
図42は、本発明の第3の実施形態の第1の実施例における楽曲属性情報格納部35に格納されているキーレベルと音の高さの差分平均との関係を示す図である。データ比較部28は、図42に示されるテーブルを参照して、歌唱楽曲データのキーレベルと、音声データと歌唱楽曲データとの間の「音の高さ」の差分平均Dkとから、音声データのキーレベルを出力する。
【0356】
図42において、縦に並べられた「1」〜「5」の数字は、「歌唱楽曲データ」のキーレベルを示す。また、図42において、横に並べられた「1」〜「5」の数字は、データ比較部28により出力される音声データのキーレベルを示す。また、「Dk」は、音声データと歌唱楽曲データの間における「音の高さ」の差分の平均を示す。例えば、歌唱楽曲データのキーレベルが「4」であって、差分平均Dkが「−2.5」である場合、データ比較部28は、音声データのキーレベル「2」を出力する。
【0357】
また、図42に示されるテーブルからも明らかなように、所定の歌唱楽曲データのキーレベルに対して、差分平均Dkの値が大きくなるほど、出力される音声データのキーレベルも大きな値となる。
【0358】
図43は、本発明の第3の実施形態の第1の実施例における楽曲属性情報格納部35に格納されているテンポレベルと音の長さの差分平均との関係を示す図である。データ比較部28は、図43に示されるテーブルを参照して、歌唱楽曲データのテンポレベルと、音声データと歌唱楽曲データとの間の「音の長さ」の差分平均Dtとから、音声データのテンポレベルを出力する。
【0359】
図43において、縦に並べられた「1」〜「5」の数字は、「歌唱楽曲データ」のテンポレベルを示す。また、図43において、横に並べられた「1」〜「5」の数字は、データ比較部28により出力される音声データのテンポレベルを示す。また、「Dt」は、音声データと歌唱楽曲データの間における「音の長さ」の差分の平均を示す。例えば、歌唱楽曲データのテンポレベルが「3」であって、差分平均Dtが「−1.7」である場合、データ比較部28は、音声データのテンポレベル「4」を出力する。
【0360】
また、図43に示されるテーブルからも明らかであるように、所定の歌唱楽曲データのテンポレベルに対して、差分平均Dtの値が大きくなるほど、出力される音声データのテンポレベルは小さな値となる。
【0361】
データ比較部28は、算出したキー・テンポ情報および図41に示されるグループ区分が示されているテーブルに基づいて、レコメンド楽曲が属するグループを検索する。ここで、図40の(b)に示された歌唱楽曲データは、キーレベル「3」であるとする。また、音声データと歌唱楽曲データとの間における音の高さの差分平均Dkは「−1」である。データ比較部28は、図42に示されるテーブルを参照して、音声データのキーレベル「2」を出力する。
【0362】
また、歌唱楽曲データのテンポレベルは「3」であるとする。データ比較部28は、音声データと歌唱楽曲データとの間における音の長さの差分平均Dt(=1)と、図43に示されるテーブルとに基づいて、音声データのテンポレベル「2」を出力する。
【0363】
データ比較部28は、キーレベル「2」でテンポレベル「2」であるグループG22を、レコメンド楽曲データが属するグループとして抽出する。
【0364】
データ比較部28は、抽出したグループに属する楽曲データのうち、携帯端末10から送信された検索条件を満たす楽曲データを、レコメンド楽曲として抽出する。以下の処理は、第2の実施形態における第1の実施例と同様であるとする。
【0365】
以上説明したように、本実施例によれば、携帯端末10は、歌唱楽曲データを出力再生し、ユーザは、その再生された楽曲を歌唱する。サーバ20は、そのユーザの歌唱による音声データと歌唱楽曲データとの間のキー・テンポ差分を算出し、その差分情報に基づいて、レコメンド楽曲データを検索し、サーバ20は、その検索されたレコメンド楽曲データを携帯端末10に提供する。従って、本実施例によれば、ユーザは、複雑なキー操作をすることなく、容易に自身が歌唱しやすいキーおよびテンポの楽曲を取得することが可能となる。
【0366】
以上説明したように、本実施例によれば、携帯端末10は、歌唱楽曲データを出力再生し、ユーザは、その再生された楽曲を歌唱する。音声認識装置30は、そのユーザの歌唱による音声データと歌唱楽曲データとの間のキー・テンポ差分を算出し、算出したキー・テンポ差分情報をサーバ20に送信する。サーバ20は、受信したキー・テンポ差分情報に基づいて、レコメンド楽曲データを検索し、その検索したレコメンド楽曲データを携帯端末10に提供する。従って、本実施例によれば、ユーザは、複雑なキー操作をすることなく、容易に自身が歌唱しやすいキーおよびテンポの楽曲を取得することが可能となる。
【0367】
(第2の実施例)
第3の実施形態における第1の実施例では、データ比較部28がレコメンド楽曲データの検索を行っていた。本発明の第3の実施形態における第2の実施例では、第2の実施形態における第2の実施例と同様の構成を有し、同様の動作を行うものとする。本実施例では、音声認識装置30におけるデータ比較部37が、第3の実施形態の第1の実施例におけるデータ比較部28と同様のレコメンド楽曲データ検索動作を行う。詳細な動作については省略する。
【0368】
本実施例によれば、携帯端末10は、歌唱楽曲データを出力再生し、ユーザは、その再生された楽曲を歌唱する。音声認識装置30は、そのユーザの歌唱による音声データと歌唱楽曲データとの間のキー・テンポ差分を算出し、その差分情報に基づいて、レコメンド楽曲データを検索し、サーバ20は、その検索されたレコメンド楽曲データを携帯端末10に提供する。従って、本実施例によれば、ユーザは、複雑なキー操作をすることなく、容易に自身が歌唱しやすいキーおよびテンポの楽曲を取得することが可能となる。
【0369】
また、携帯端末10は、データを送信・受信する処理と、データを格納する処理と、音声を入力・出力する処理と、情報を表示する処理と、所定の情報を入力する処理と、を行う。また、サーバ20は、データを送信・受信する処理と、データを格納する処理と、楽曲データを編集する処理と、楽曲データを検索する処理と、を行う。また、音声認識装置30は、データを送信・受信する処理と、データを格納する処理と、データ形式を変換する処理と、音声データ/楽曲データを構成する音の高さおよび長さを検出する処理と、音声データを構成する音の高さおよび長さと一致または近い楽曲データを検索する処理と、音声データと楽曲データとの差分を算出する処理と、算出した差分に基づいて楽曲データを検索する処理と、を行う。上記の処理は、携帯端末10、サーバ20、または音声認識装置30が有するコンピュータプログラムにより実行されるが、上記のプログラムは、光記録媒体、磁気記録媒体、光磁気記録媒体、または半導体等の記録媒体に記録され、上記の記録媒体からロードされるようにしてもよいし、所定のネットワークを介して接続されている外部機器からロードされるようにしてもよい。
【0370】
なお、上記の実施形態は本発明の好適な実施の一例であり、本発明の実施形態は、これに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変形して実施することが可能となる。
【0371】
【発明の効果】
以上説明したように、本発明によれば、ユーザの歌唱に基づく音声データを構成する各音の高さおよび長さに一致または近い音により構成される楽曲データを検索する。従って、本発明によれば、ユーザは、歌詞およびメロディしか覚えていない楽曲の曲名を、複雑なキー操作などを行うことなく、歌唱するだけで、容易かつ迅速に検索することが可能となる。
【0372】
また、本発明によれば、ユーザの歌唱に基づく音声データを構成する各音の高さの最高値および最低値を検出するとともに、音の長さの平均値を検出する。検出した音の高さの最高値および最低値と音の長さの平均値とに基づくキー・テンポ情報に一致または近い楽曲データを検索する。従って、ユーザは、自身が歌唱しやすいキーおよびテンポの楽曲を、複雑なキー操作などを行うことなく、歌唱するだけで、容易かつ迅速に取得することが可能となる。
【0373】
また、本発明によれば、ユーザの歌唱に基づく音声データと歌唱楽曲データとをそれぞれ構成する各音の高さおよび長さの差分の平均値を算出する。歌唱楽曲データ全体のキーおよびテンポから、算出した差分情報分異なるキーおよびテンポの楽曲データを検索する。従って、ユーザは、自身が歌唱しやすいキーおよびテンポの楽曲を、複雑なキー操作などを行うことなく、歌唱するだけで、容易かつ迅速に取得することが可能となる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態の第1の実施例における楽曲提供システムの構成を示す図である。
【図2】本発明の第1の実施形態の第1の実施例における携帯端末の構成を示す図である。
【図3】本発明の第1の実施形態の第1の実施例におけるサーバの構成を示す図である。
【図4】本発明の第1の実施形態の第1の実施例における音声認識装置の構成を示す図である。
【図5】本発明の第1の実施形態の第1の実施例におけるユーザ情報登録処理を示すシーケンスである。
【図6】本発明の第1の実施形態の第1の実施例における楽曲提供システムによるユーザ登録動作の流れを示すフローチャートである。
【図7】本発明の第1の実施形態の第1の実施例におけるユーザ情報登録画面を示す図である。
【図8】本発明の第1の実施形態の第1の実施例における楽曲検索処理を示すシーケンスである。
【図9】本発明の第1の実施形態の第1の実施例における楽曲提供システムによる楽曲検索動作の流れを示すフローチャートである。
【図10】本発明の第1の実施形態の第1の実施例における楽曲提供システムによる楽曲検索動作の流れを示すフローチャートである。
【図11】本発明の第1の実施形態の第1の実施例における楽曲検索画面を示す図である。
【図12】本発明の第1の実施形態の第1の実施例における検索条件入力画面を示す図である。
【図13】(a)は、本発明の第1の実施形態の第1の実施例における音声データを示す図であり、(b)および(c)は、本発明の第1の実施形態の第1の実施例における楽曲データを示す図である。
【図14】本発明の第1の実施形態の第1の実施例における楽曲属性情報を示す図である。
【図15】本発明の第1の実施形態の第1の実施例における検索結果画面を示す図である。
【図16】本発明の第1の実施形態の第2の実施例における楽曲提供システムの構成を示す図である。
【図17】本発明の第1の実施形態の第2の実施例における携帯端末の構成を示す図である。
【図18】本発明の第1の実施形態の第2の実施例におけるサーバの構成を示す図である。
【図19】本発明の第1の実施形態の第2の実施例における音声認識装置の構成を示す図である。
【図20】本発明の第1の実施形態の第2の実施例における楽曲検索処理を示すシーケンスである。
【図21】本発明の第1の実施形態の第2の実施例における楽曲提供システムによる楽曲検索動作の流れを示すフローチャートである。
【図22】本発明の第1の実施形態の第2の実施例における楽曲提供システムによる楽曲検索動作の流れを示すフローチャートである。
【図23】本発明の第2の実施形態の第1の実施例における楽曲提供処理を示すシーケンスである。
【図24】本発明の第2の実施形態の第1の実施例における楽曲提供システムによるレコメンド楽曲提供動作の流れを示すフローチャートである。
【図25】本発明の第2の実施形態の第1の実施例における楽曲提供システムによるレコメンド楽曲提供動作の流れを示すフローチャートである。
【図26】本発明の第2の実施形態の第1の実施例における歌唱楽曲入力画面を示す図である。
【図27】本発明の第2の実施形態の第1の実施例におけるレコメンド楽曲取得画面を示す図である。
【図28】本発明の第2の実施形態の第1の実施例における検索条件入力画面を示す図である。
【図29】本発明の第2の実施形態の第1の実施例におけるレコメンド楽曲取得画面を示す図である。
【図30】本発明の第2の実施形態の第1の実施例における音声データを示す図である。
【図31】本発明の第2の実施形態の第1の実施例におけるキー情報に基づく楽曲データのグループ区分を示す図である。
【図32】本発明の第2の実施形態の第1の実施例におけるキーおよびテンポ情報に基づく楽曲データのグループ区分を示す図である。
【図33】本発明の第2の実施形態の第1の実施例における検索結果受信後のレコメンド楽曲取得画面を示す図である。
【図34】本発明の第2の実施形態の第1の実施例におけるレコメンド楽曲表示画面を示す図である。
【図35】本発明の第2の実施形態の第1の実施例におけるレコメンド楽曲ダウンロード後のレコメンド楽曲表示画面を示す図である。
【図36】本発明の第2の実施形態の第1の実施例におけるユーザ情報格納部内のユーザ情報を示す図である。
【図37】本発明の第2の実施形態の第2の実施例における楽曲提供処理を示すシーケンスである。
【図38】本発明の第2の実施形態の第2の実施例における楽曲提供システムによるレコメンド楽曲提供動作の流れを示すフローチャートである。
【図39】本発明の第2の実施形態の第2の実施例における楽曲提供システムによるレコメンド楽曲提供動作の流れを示すフローチャートである。
【図40】(a)は、本発明の第3の実施形態の第1の実施例における音声データを示す図であり、(b)は、歌唱楽曲データを示す図である。
【図41】本発明の第3の実施形態の第1の実施例における各楽曲データのグループ区分を示す図である。
【図42】本発明の第3の実施形態の第1の実施例におけるキーレベルと音の高さの差分平均との関係を示す図である。
【図43】本発明の第3の実施形態の第1の実施例におけるテンポレベルと音の長さの差分平均との関係を示す図である。
【符号の説明】
10 携帯端末
11、21、31 制御部
12、22、32 送受信部
13、33 データ格納部
14 表示部
15 操作部
16 音声入出力部
20 サーバ
23、34 楽曲データ格納部
24、35 楽曲属性情報格納部
25 ユーザ情報格納部
26 楽曲データ編集部
27 配信情報格納部
28、37 データ比較部
30 音声認識装置
36 音声変換部
a、b 楽曲データ
Dk、Dt 差分平均
Gk11、Gk21、Gk22、Gk31〜Gk33、Gt1〜Gt18、G11〜G15、G21〜G25、G31〜G35、G41〜G45、G51〜G55 グループ
P1〜P5、P11〜P13、P21〜P23 音素

Claims (19)

  1. ユーザの歌唱に基づく音声データを構成する各音の高さおよび長さに基づいて、自身に格納されている1つ以上の楽曲を示す楽曲データから、前記音声データに対応する前記楽曲データを検索することを特徴とする楽曲検索サーバ。
  2. ユーザの歌唱に基づく音声データを構成する各音の高さおよび長さを検出し、該検出した音声データにおける各音の高さおよび長さに基づいて、自装置に格納されている1つ以上の楽曲を示す楽曲データから、前記音声データに対応する前記楽曲データを検索することを特徴とする音声認識装置。
  3. 楽曲を示す1つ以上の楽曲データに、それぞれ、各該楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納手段と、
    ネットワークを介して通信可能となっている携帯端末装置からユーザの歌唱に基づく音声データを受信する音声データ受信手段と、
    前記音声データ受信手段により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出手段と、
    前記音声データ検出手段により検出された音声データにおける各音の高さおよび長さに基づいて、前記1つ以上の楽曲データのうち、該当する前記楽曲データを検索する楽曲データ検索手段と、
    を有することを特徴とする音声認識装置。
  4. 前記楽曲データ検索手段は、
    前記音声データ検出手段により検出された音声データにおける各音の高さおよび長さと前記各楽曲データにおける各音の高さおよび長さとをそれぞれ比較し、前記1つ以上の楽曲データから、前記音声データと構成する各音の高さおよび長さが略一致した前記楽曲データを検索することを特徴とする請求項3記載の音声認識装置。
  5. 楽曲を示す1つ以上の楽曲データに、それぞれ、各該楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納手段と、
    ネットワークを介して通信可能となっている携帯端末装置からユーザの歌唱に基づく音声データを受信する音声データ受信手段と、
    前記音声データ受信手段により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出手段と、
    前記音声データ検出手段により検出された前記音声データを構成する各音の高さに基づいて、前記音声データ全体のキーを示すキー情報を出力するキー情報出力手段と、
    前記音声データ検出手段により検出された前記音声データを構成する各音の長さに基づいて、前記音声データ全体のテンポを示すテンポ情報を出力するテンポ情報出力手段と、
    前記1つ以上の楽曲データのうち、前記キー情報出力手段により出力されたキー情報と、前記テンポ情報出力手段により出力されたテンポ情報と、に略一致した前記キー情報および前記テンポ情報の前記楽曲データを検索するキーテンポ楽曲検索手段と、
    を有することを特徴とする音声認識装置。
  6. 前記キー情報出力手段は、
    前記音声データ検出手段により検出された前記音声データを構成する各音の高さのうち、最高値および最低値を検出し、該検出した音の高さの最高値および最低値を前記キー情報として出力することを特徴とする請求項5記載の音声認識装置。
  7. 前記テンポ情報出力手段は、
    前記音声データ検出手段により検出された前記音声データを構成する各音の長さの平均値を検出し、該検出した音の長さの平均値を前記テンポ情報として出力することを特徴とする請求項5または6記載の音声認識装置。
  8. 楽曲を示す1つ以上の楽曲データに、それぞれ、各該楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納手段と、
    ネットワークを介して通信可能となっている携帯端末装置からユーザの歌唱に基づく音声データを受信する音声データ受信手段と、
    前記音声データ受信手段により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出手段と、
    前記楽曲データ格納手段により格納される楽曲データであって、前記ユーザが歌唱した楽曲を示す歌唱楽曲データを構成する各音の高さおよび長さを検出する歌唱楽曲データ検出手段と、
    前記音声データを構成する各音と前記歌唱楽曲データを構成する各音との間における各音ごとの音の高さおよび長さの差分を検出する差分情報検出手段と、
    前記1つ以上の楽曲データのうち、前記差分情報検出手段により検出された音の高さおよび長さの差分に基づいて、該当する前記楽曲データを検索する差分楽曲検索手段と、
    を有することを特徴とする音声認識装置。
  9. 前記差分情報検出手段は、
    前記音声データを構成する各音と前記歌唱楽曲データを構成する各音との間における各音ごとの音の高さおよび長さの差分を検出し、該検出した音の高さおよび長さの差分の平均値をそれぞれ算出し、
    前記差分楽曲検索手段は、
    前記歌唱楽曲データに付加されているキーおよびテンポを示す情報から、前記差分情報検出手段により算出された差分の平均値分だけ異なるキーおよびテンポを示す情報が付加されている前記楽曲データを抽出することを特徴とする請求項8記載の音声認識装置。
  10. 携帯端末装置と、ネットワークを介して前記携帯端末装置と通信可能である楽曲配信サーバと、前記携帯端末装置とネットワークを介して通信可能であり、前記楽曲配信サーバと接続されている音声認識装置と、を有する楽曲提供システムであって、
    前記音声認識装置は、
    楽曲を示す1つ以上の楽曲データに、それぞれ、各該楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納手段と、
    前記携帯端末装置からユーザの歌唱に基づく音声データを受信する音声データ受信手段と、
    前記音声データ受信手段により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出手段と、
    前記音声データ検出手段により検出された音声データにおける各音の高さおよび長さと前記1つ以上の楽曲データにおける各音の高さおよび長さとをそれぞれ比較し、前記1つ以上の楽曲データのうち、前記音声データと構成する各音の高さおよび長さが略一致した前記楽曲データを検索する楽曲データ検索手段と、
    前記楽曲配信サーバは、
    楽曲を示す1つ以上の楽曲データを格納するサーバ楽曲格納手段と、
    前記楽曲データ検索手段による検出結果を、前記音声認識装置から受信し、該受信した検出結果に基づいて、前記サーバ楽曲格納手段により格納されている1つ以上の楽曲データのうち、該当する前記楽曲データを前記携帯端末装置に送信する楽曲データ送信手段と、
    を有することを特徴とする楽曲提供システム。
  11. 携帯端末装置と、ネットワークを介して前記携帯端末装置と通信可能である楽曲配信サーバと、前記携帯端末装置とネットワークを介して通信可能であり、前記楽曲配信サーバと接続されている音声認識装置と、を有する楽曲提供システムであって、
    前記音声認識装置は、
    楽曲を示す1つ以上の楽曲データに、それぞれ、各該楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納手段と、
    前記携帯端末装置からユーザの歌唱に基づく音声データを受信する音声データ受信手段と、
    前記音声データ受信手段により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出手段と、
    前記音声データ検出手段により検出された前記音声データを構成する各音の高さのうち、最高値および最低値を抽出して前記音声データ全体のキーを示すキー情報とし、出力するキー情報出力手段と、
    前記音声データ検出手段により検出された前記音声データを構成する各音の長さの平均値を前記音声データ全体のテンポを示すテンポ情報とし、出力するテンポ情報出力手段と、
    前記1つ以上の楽曲データのうち、前記キー情報出力手段により出力されたキー情報と、前記テンポ情報出力手段により出力されたテンポ情報と、にそれぞれ略一致した前記キー情報および前記テンポ情報の前記楽曲データを検索するキーテンポ楽曲検索手段と、
    を有し、
    前記楽曲配信サーバは、
    楽曲を示す1つ以上の楽曲データを格納するサーバ楽曲格納手段と、
    前記キーテンポ楽曲検索手段による検索結果を、前記音声認識装置から受信し、該受信した検索結果に基づいて、前記サーバ楽曲格納手段により格納されている1つ以上の楽曲データのうち、該当する前記楽曲データを前記携帯端末装置に送信する楽曲データ送信手段と、
    を有することを特徴とする楽曲提供システム。
  12. 携帯端末装置と、ネットワークを介して前記携帯端末装置と通信可能である楽曲配信サーバと、前記携帯端末装置とネットワークを介して通信可能であり、前記楽曲配信サーバと接続されている音声認識装置と、を有する楽曲提供システムであって、
    前記音声認識装置は、
    楽曲を示す1つ以上の楽曲データに、それぞれ、各該楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納手段と、
    前記携帯端末装置からユーザの歌唱に基づく音声データを受信する音声データ受信手段と、
    前記音声データ受信手段により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出手段と、
    前記楽曲データ格納手段により格納される楽曲データであって、前記ユーザが歌唱した楽曲を示す歌唱楽曲データを構成する各音の高さおよび長さを検出する歌唱楽曲データ検出手段と、
    前記音声データを構成する各音と前記歌唱楽曲データを構成する各音との間における各音ごとの音の高さおよび長さの差分を検出する差分情報検出手段と、
    前記差分情報検出手段により検出された音の高さおよび長さの差分に基づいて、前記1つ以上の楽曲データから、該当する前記楽曲データを検索する差分楽曲検索手段と、
    を有し、
    前記楽曲配信サーバは、
    楽曲を示す1つ以上の楽曲データを格納するサーバ楽曲格納手段と、
    前記キーテンポ楽曲検索手段による検索結果を、前記音声認識装置から受信し、該受信した検索結果に基づいて、前記サーバ楽曲格納手段により格納されている1つ以上の楽曲データのうち、該当する前記楽曲データを前記携帯端末装置に送信する楽曲データ送信手段と、
    を有することを特徴とする楽曲提供システム。
  13. 前記携帯端末装置からユーザが歌唱するための前記楽曲データのダウンロード要求を受信すると、前記サーバ楽曲格納手段により格納されている1つ以上の楽曲データのうち、ダウンロード要求されている前記楽曲データを抽出し、該抽出した楽曲データを前記携帯端末装置に送信する歌唱楽曲送信手段を有することを特徴とする請求項11または12記載の楽曲提供システム。
  14. 楽曲を示す1つ以上の楽曲データから所定の前記楽曲データを検索する楽曲提供システムを用いた楽曲提供方法であって、
    前記1つ以上の楽曲データに、それぞれ、各該楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納工程と、
    ユーザの歌唱に基づく音声データを受信する音声データ受信工程と、
    前記音声データ受信工程により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出工程と、
    前記音声データ検出工程により検出された音声データにおける各音の高さおよび長さと前記1つ以上の楽曲データにおける各音の高さおよび長さとをそれぞれ比較し、前記1つ以上の楽曲データのうち、前記音声データと構成する各音の高さおよび長さが略一致した前記楽曲データを検索する楽曲データ検索工程と、
    を有することを特徴とする楽曲提供方法。
  15. 楽曲を示す1つ以上の楽曲データから所定の前記楽曲データを検索する楽曲提供システムを用いた楽曲提供方法であって、
    前記1つ以上の楽曲データに、それぞれ、各該楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納工程と、
    ユーザの歌唱に基づく音声データを受信する音声データ受信工程と、
    前記音声データ受信工程により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出工程と、
    前記音声データ検出工程により検出された前記音声データを構成する各音の高さのうち、最高値および最低値を抽出して前記音声データ全体のキーを示すキー情報とし、出力するキー情報出力工程と、
    前記音声データ検出工程により検出された前記音声データを構成する各音の長さの平均値を前記音声データ全体のテンポを示すテンポ情報とし、出力するテンポ情報出力工程と、
    前記1つ以上の楽曲データのうち、前記キー情報出力工程により出力されたキー情報と、前記テンポ情報出力工程により出力されたテンポ情報と、にそれぞれ略一致した前記キー情報および前記テンポ情報の前記楽曲データを検索するキーテンポ楽曲検索工程と、
    を有することを特徴とする楽曲提供方法。
  16. 楽曲を示す1つ以上の楽曲データから所定の前記楽曲データを検索する楽曲提供システムを用いた楽曲提供方法であって、
    前記1つ以上の楽曲データに、それぞれ、各該楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納工程と、
    ユーザの歌唱に基づく音声データを受信する音声データ受信工程と、
    前記音声データ受信工程により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出工程と、
    前記楽曲データ格納工程により格納される楽曲データであって、前記ユーザが歌唱した楽曲を示す歌唱楽曲データを構成する各音の高さおよび長さを検出する歌唱楽曲データ検出工程と、
    前記音声データを構成する各音と前記歌唱楽曲データを構成する各音との間における各音ごとの音の高さおよび長さの差分を検出する差分情報検出工程と、
    前記差分情報検出工程により検出された音の高さおよび長さの差分に基づいて、前記1つ以上の楽曲データから、該当する前記楽曲データを検索する差分楽曲検索工程と、
    を有することを特徴とする楽曲提供方法。
  17. 楽曲を示す1つ以上の楽曲データに、それぞれ、各該楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納処理と、
    ユーザの歌唱に基づく音声データを受信する音声データ受信処理と、
    前記音声データ受信処理により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出処理と、
    前記音声データ検出処理により検出された音声データにおける各音の高さおよび長さと前記1つ以上の楽曲データにおける各音の高さおよび長さとをそれぞれ比較し、前記1つ以上の楽曲データのうち、前記音声データと構成する各音の高さおよび長さが略一致した前記楽曲データを検索する楽曲データ検索処理と、
    をコンピュータに実行させるためのプログラム。
  18. 楽曲を示す1つ以上の楽曲データに、それぞれ、各該楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納処理と、
    ユーザの歌唱に基づく音声データを受信する音声データ受信処理と、
    前記音声データ受信処理により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出処理と、
    前記音声データ検出処理により検出された前記音声データを構成する各音の高さのうち、最高値および最低値を抽出して前記音声データ全体のキーを示すキー情報とし、出力するキー情報出力処理と、
    前記音声データ検出処理により検出された前記音声データを構成する各音の長さの平均値を前記音声データ全体のテンポを示すテンポ情報とし、出力するテンポ情報出力処理と、
    前記1つ以上の楽曲データのうち、前記キー情報出力処理により出力されたキー情報と、前記テンポ情報出力処理により出力されたテンポ情報と、にそれぞれ略一致した前記キー情報および前記テンポ情報の前記楽曲データを検索するキーテンポ楽曲検索処理と、
    をコンピュータに実行させるためのプログラム。
  19. 楽曲を示す1つ以上の楽曲データに、それぞれ、各該楽曲データ全体のキーおよびテンポを示す情報を付加して格納する楽曲データ格納処理と、
    ユーザの歌唱に基づく音声データを受信する音声データ受信処理と、
    前記音声データ受信処理により受信された音声データを構成する各音の高さおよび長さを検出する音声データ検出処理と、
    前記楽曲データ格納処理により格納される楽曲データであって、前記ユーザが歌唱した楽曲を示す歌唱楽曲データを構成する各音の高さおよび長さを検出する歌唱楽曲データ検出処理と、
    前記音声データを構成する各音と前記歌唱楽曲データを構成する各音との間における各音ごとの音の高さおよび長さの差分を検出する差分情報検出処理と、
    前記差分情報検出処理により検出された音の高さおよび長さの差分に基づいて、前記1つ以上の楽曲データから、該当する前記楽曲データを検索する差分楽曲検索処理と、
    をコンピュータに実行させるためのプログラム。
JP2002180438A 2002-06-20 2002-06-20 楽曲検索サーバ、音声認識装置、楽曲提供システム、楽曲提供方法、およびそのプログラム Expired - Fee Related JP4030808B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002180438A JP4030808B2 (ja) 2002-06-20 2002-06-20 楽曲検索サーバ、音声認識装置、楽曲提供システム、楽曲提供方法、およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002180438A JP4030808B2 (ja) 2002-06-20 2002-06-20 楽曲検索サーバ、音声認識装置、楽曲提供システム、楽曲提供方法、およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2004021233A true JP2004021233A (ja) 2004-01-22
JP4030808B2 JP4030808B2 (ja) 2008-01-09

Family

ID=31177564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002180438A Expired - Fee Related JP4030808B2 (ja) 2002-06-20 2002-06-20 楽曲検索サーバ、音声認識装置、楽曲提供システム、楽曲提供方法、およびそのプログラム

Country Status (1)

Country Link
JP (1) JP4030808B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008003483A (ja) * 2006-06-26 2008-01-10 Taito Corp カラオケ装置
JP2008227881A (ja) * 2007-03-13 2008-09-25 Yamaha Corp 映像コンテンツ再生装置
JP2009093618A (ja) * 2007-08-27 2009-04-30 Mitsubishi Electric Research Laboratories Inc オーディオレコーディングのマッチング方法及びシステム
US8200490B2 (en) 2006-03-02 2012-06-12 Samsung Electronics Co., Ltd. Method and apparatus for searching multimedia data using speech recognition in mobile device

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8200490B2 (en) 2006-03-02 2012-06-12 Samsung Electronics Co., Ltd. Method and apparatus for searching multimedia data using speech recognition in mobile device
JP2008003483A (ja) * 2006-06-26 2008-01-10 Taito Corp カラオケ装置
JP2008227881A (ja) * 2007-03-13 2008-09-25 Yamaha Corp 映像コンテンツ再生装置
JP2009093618A (ja) * 2007-08-27 2009-04-30 Mitsubishi Electric Research Laboratories Inc オーディオレコーディングのマッチング方法及びシステム

Also Published As

Publication number Publication date
JP4030808B2 (ja) 2008-01-09

Similar Documents

Publication Publication Date Title
Schwarz Concatenative sound synthesis: The early years
US7368652B2 (en) Music search system and music search apparatus
JP4329191B2 (ja) 楽曲情報及び再生態様制御情報の両者が付加された情報の作成装置、特徴idコードが付加された情報の作成装置
KR100952186B1 (ko) 악곡들을 식별하는 방법
US7328272B2 (en) Apparatus and method for adding music content to visual content delivered via communication network
CN101552000B (zh) 音乐相似性处理方法
JP2010521021A (ja) 楽曲ベースの検索エンジン
US20030075036A1 (en) Electronic music apparatus that enables user to purchase music related product from server
JP2000187671A (ja) ネットワ―クを利用した歌声による曲検索システム及び検索時に用いる歌声の入力端末装置
CN101551997B (zh) 一种乐曲辅助学习系统
JP2007256618A (ja) 検索装置
JP4030808B2 (ja) 楽曲検索サーバ、音声認識装置、楽曲提供システム、楽曲提供方法、およびそのプログラム
JP4916945B2 (ja) 楽曲情報付与サーバ、端末、及び楽曲情報付与システム
CN201397672Y (zh) 乐曲学习系统
JP2002055695A (ja) 音楽検索システム
JP2003131674A (ja) 楽曲検索システム
JP4574299B2 (ja) 音楽再生装置
CN101552003B (zh) 一种媒体信息处理方法
CN201397671Y (zh) 媒体播放设备
CN101551999B (zh) 一种自动翻页装置
CN101552002B (zh) 一种媒体播放装置及媒体操作方法
JP2002049627A (ja) コンテンツの自動検索システム
JP3602059B2 (ja) 旋律検索式カラオケ演奏予約システム、旋律検索サーバー、カラオケ付属コンピュータ
CN201397670Y (zh) 网络搜索系统
CN101552001B (zh) 一种网络搜索系统及信息搜索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040426

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20060823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070604

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070710

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070802

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20070802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070802

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071002

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071017

R150 Certificate of patent or registration of utility model

Ref document number: 4030808

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101026

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111026

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121026

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131026

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees