JP5098896B2

JP5098896B2 - 再生装置および再生方法

Info

Publication number: JP5098896B2
Application number: JP2008219061A
Authority: JP
Inventors: 基行高井; 真哉福田; 敬木野内; 武史小澤; 晃井上; 秀介高橋; 学内野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-08-28
Filing date: 2008-08-28
Publication date: 2012-12-12
Anticipated expiration: 2028-08-28
Also published as: JP2010054758A; US20100058186A1; CN101661788B; CN101661788A

Description

本発明は、例えば音声データを解析し再生可能な再生装置および再生方法に関する。

ユーザがアクセスできるコンテンツが膨大になるにつれ、特定のコンテンツを選択することが煩わしくなり、所持する全曲からランダムに曲を聴くようなスタイルが定着している。しかし、全曲からランダムに曲を聴くような場合、曲調や雰囲気もランダムに選ばれてしまうという問題がある。たとえばリラックスしたいという目的で音楽を聴いている場合は、一般に静かな曲だけが連続して再生されることが望ましい。

このような目的のために、コンテンツの曲調の解析を行い、あらかじめ類似する曲調に基づいた複数のグループに分類しておき、所定のグループの中からコンテンツをランダムに再生するシステムが提案されている。このシステムを使うことで、ユーザは一様な曲調のコンテンツを連続して再生することができる。

ソニー（登録商標）NetJuke（登録商標）のおまかせチャンネル（登録商標）、VAIO（登録商標）MusicBox（登録商標）、パナソニック（登録商標）のミュージックソムリエ（登録商標）がその例である。しかし、これらはいずれもパーソナルコンピュータや据え置きタイプの電子機器で用いられる。また、ポータブル機器で同様の機能をもつものもあるが、（ソニーエリクソン（登録商標）：W595 SensMe（登録商標））、曲調の解析自体はパーソナルコンピュータ等で行っている（例えば、特許文献１参照。）。
特開２００８−６５９０５号公報（段落[０００５]、図２）

しかしながら、曲などのコンテンツの曲調の解析及び分類をポータブル機器で行う場合には、ポータブル機器のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）の演算負荷が大きくなる、という問題がある。また、ポータブル機器のバッテリは、その容量に制限がある。このため、コンテンツの曲調の解析及び分類をポータブル機器で行う場合には、できる限り効率よくコンテンツの曲調の解析等を行うことが求められる。

また、この分類結果と、分類結果に応じてユーザが実際に聴いた曲の印象とが異なると、ユーザが解析結果に違和感を覚えることになる。

以上のような事情に鑑み、本発明の目的は、音声データの解析を効率的に行うと共にユーザが解析結果に違和感を感じないようにすることが可能な再生装置および再生方法を提供することにある。

上記問題を解決するために、本発明に係る再生装置は、記憶手段と、判定手段と、解析手段と、分類手段と、入力手段と、再生手段とを有する。上記記憶手段は、複数の音声データを記憶する。上記判定手段は、上記記憶手段に記憶された個々の音声データの長さに基づいて上記音声データに対する解析時間区間を判定する。上記解析手段は、上記判定手段により判定された上記解析時間区間の上記音声データを解析する。上記分類手段は、解析結果に基づきそれぞれ音声データを予め定められた複数の分類項目に分類する。上記入力手段は、再生する音声データの分類項目をユーザに選択させる。上記再生手段は、上記入力手段により選択された分類項目に属する音声データを上記解析時間区間内の再生開始点から再生する。

本発明では、音声データの長さに基づいて音声データに対する解析時間区間を判定し、判定手段により判定された解析時間区間の音声データを解析するので、再生装置の演算負荷を低減し効率的に解析を行うことができる。入力手段により選択された分類項目に属する音声データを解析時間区間内の再生開始点から再生するので、再生開始点が解析時間区間に含まれ、解析結果に違和感を感じないようにすることができる。

上記判定手段は、上記音声データの長さが所定の値以上であることを判定したとき、上記音声データの長さの一部を上記解析時間区間として判定するようにしてもよい。
これにより、音声データの長さが所定の値以上であるときに、音声データの一部を解析時間区間とし、再生装置の演算負荷を低減することができる。

上記再生開始点が上記解析時間区間の解析の開始点と同じであるようにしてもよい。
これにより、音声データの再生時に、より確実にユーザが解析結果に違和感を感じないようにすることができる。

上記記憶手段に記憶された未解析の音声データの解析をユーザに促すための案内画面を表示する表示手段を更に具備するようにしてもよい。
これにより、未解析の音声データの解析をユーザに促すことができる。

上記記憶手段に記憶された複数の音声データについて、上記判定手段、上記解析手段、上記分類手段による処理を連続的に行うように制御する制御手段を更に具備するようにしてもよい。
これにより、複数の音声データを連続的に解析することができる。

上記制御手段は、上記記憶手段に記憶された全ての音声データに対する上記処理の残り時間を計算し表示するように制御するようにしてもよい。
これにより、音声データの解析中にこれらの処理が終了するまでの時間をユーザが知ることができる。

上記解析手段は、上記音声データの曲調を解析するようにしてもよい。
これにより、音声データの曲調を解析し、解析結果に応じて、音声データを分類することができる。

本発明に係る再生方法は、複数の音声データを記憶することを含む。個々の音声データの長さに基づいて上記音声データに対する解析時間区間が判定される。判定された上記解析時間区間の上記音声データが解析される。解析結果に基づきそれぞれ音声データが予め定められた複数の分類項目に分類される。再生する音声データの分類項目がユーザにより選択される。選択された分類項目に属する音声データが上記解析時間区間内の再生開始点から再生される。

本発明では、音声データの長さに基づいて音声データに対する解析時間区間を判定し、判定された解析時間区間の音声データを解析するので、演算負荷を低減し効率的に解析を行うことができる。ユーザにより選択された分類項目に属する音声データを解析時間区間内の再生開始点から再生するので、再生開始点が解析時間区間に含まれ、解析結果に違和感を感じないようにすることができる。

以上のように、本発明によれば、音声データの解析を効率的に行うと共にユーザが解析結果に違和感を感じないようにすることができる。

以下、本発明の実施の形態を図面に基づき説明する。
［再生装置の構成］
図１は本発明の一実施形態に係る再生装置のハードウェアの構成を示すブロック図である。
再生装置１は、例えばコンテンツ（例えば音声ファイル）を記録再生可能な携帯型の電子機器である。再生装置１は、ＣＰＵ２、ＲＯＭ３、ＲＡＭ４、デコード部５、内部記憶装置６、キー入力部７、音声処理部８、音声出力部９、表示制御部１０、表示部１１、及び音声解析部１２を備える。

ＣＰＵ２は、各部を制御したり音楽等のコンテンツのデータを処理したりする。ＲＯＭ３は、コンテンツの後述する解析（例えば曲調の解析）のときに用いられる解析式データや各種プログラムが記憶されている。ＲＡＭ４は、例えばコンテンツデータの解析処理時のワークスペースとなる。

デコード部５は、例えばＭＰ３（ＭＰＥＧＡｕｄｉｏＬａｙｅｒ−３）等のフォーマットでエンコードされている音楽等のコンテンツデータをデコードする。

内部記憶装置６は、インターフェース（Ｉ／Ｆ）１３を介してバス１５に接続されている。内部記憶装置６は、例えば音声ファイル管理用のコンテンツデータベースが記憶されている。このコンテンツデータベースは、例えば複数の音声ファイルを含んでいる。ここで、音声ファイルとは、音声を情報として含むデータであり、例えば、楽曲、人の発生音、その他の音全般のデータである。内部記憶装置６は、インターフェース（Ｉ／Ｆ）１３、バス１５を介して各部との間でデータ等のやり取りが可能である。

キー入力部７は、例えばインターフェース（Ｉ／Ｆ）１４等を介してバス１５に接続されている。キー入力部７は、例えば電源のオンオフを切り替えるためのボタン、再生中の音量を調節するための音量調節ボタン、再生を開始するボタン、再生を停止するボタン、及び各種機能を切り替えて選択するためのボタンなどを備える。

音声処理部８は、例えばユーザによるキー入力部７の操作に応じて音声ファイルを再生するためのボタンが選択されると、内部記憶装置６に記憶されている音声ファイルを取得し音声データを処理する。音声出力部９は音声処理部８からの音声信号に基づき可聴音を出力する。

表示制御部１０は、例えば音声ファイルに含まれる属性情報の１つである画像データ（ジャケットの画像データ等）を取得し、画像処理を行い、表示部１１に画像信号を出力する。表示部１１は、表示制御部１０からの画像信号に基づき画像を表示する。

音声解析部１２は、個々の音声ファイルを、例えば曲調等に応じた分類項目としてのグループ（チャンネル）に分類するために、後で詳述するように音声ファイルの解析を行う。

図２は再生装置１の解析、分類時における機能的な構成を示すブロック図である。
再生装置１は、キー情報検出部２１、コンテンツ検索部２２、コンテンツデータベース２３、コンテンツデコード部２４、コンテンツ解析部２５、コンテンツグループ管理部２６、及びコンテンツグループ管理データベース２７を備える。ここで、「コンテンツ」とは音声ファイル、画像データなどである。

キー情報検出部２１は、例えばユーザによるキー入力部７の所定のボタンの操作に応じてキー情報を検出し、キー情報をコンテンツ検索部２２に送信する。具体的には、音声解析部１２に未解析のコンテンツを解析させるための所定のボタンをユーザが押下すると、キー情報検出部２１は、キー情報を検出しコンテンツ検索部２２に送信する。

コンテンツ検索部２２は、このキー情報を受信すると、例えばコンテンツデータベース２３に含まれるコンテンツの中から未解析のコンテンツを検索する。コンテンツデータベース２３には、複数の音声ファイル等が含まれている。コンテンツ検索部２２は、未解析のコンテンツの検索結果をコンテンツデコード部２４に通知する。

コンテンツデコード部２４は、例えばコンテンツ検索部２２からの検索結果を取得し、この検索結果に応じて、コンテンツデータベース２３から未解析のコンテンツデータを読込みデコード部５を用いてデコード処理を行う。

コンテンツ解析部２５は、デコードされたコンテンツデータの解析を行う。この解析は、例えばコンテンツである音声ファイルの曲調の解析を含む。コンテンツ解析部２５は、後で詳述するように、曲調の解析を行う解析時間区間（解析開始位置及び解析終了位置）を演算し、この解析時間区間の音声ファイルを解析すると共に、再生開始位置を演算する。

曲調の解析は、音声ファイルを周波数解析する周波数解析処理と、その周波数解析処理の結果を基に、音声データの特徴を数値化した特徴量を求める特徴量演算処理とからなる。すなわち、コンテンツ解析部２５は、音声ファイルに対する周波数解析処理を実行する。これにより、コンテンツ解析部２５は、音声ファイルを音楽の時間軸に沿って所定の解析開始位置から解析終了位置まで１オクターブの１２音階それぞれに相当する周波数帯域毎のエネルギー値を抽出する。このようにして、コンテンツ解析部２５は、音声データの所定の解析時間区間に亘る周波数帯域毎のエネルギー値を得ると、次に、その周波数帯域毎のエネルギー値を基に、特徴量演算処理を行う。特徴量は、例えば音楽のテンポ、音のバラツキ、音階、リズム等の情報を用いて求められるパラメータ値である。この解析の結果、コンテンツ解析部２５は、特徴量（パラメータ値）を得て、この特徴量をコンテンツグループ管理部２６に送信する。

コンテンツグループ管理部２６は、特徴量をもとに音声ファイルが属するべき曲調のグループを判定し、その音声ファイルとグループとを対応つけるように、コンテンツグループ管理データベース２７への登録を行う。

図３は図２のコンテンツデータベース２３中のコンテンツリストの構成を示す図である。
コンテンツデータベース２３には、複数の音声ファイルＤ１、Ｄ２等を含むコンテンツリスト４１が含まれる。例えば音声ファイルＤ１は、図３に示すようにオーディオデータである「音声データ」、音楽の「タイトル名」、音楽の属する「ジャンル名」、音楽の再生可能な長さである「コンテンツ全長の長さｃ」に加えて、「解析フラグ」、「特徴量」、及び「グループ」等の属性情報を含んでいる。「解析フラグ」は、例えば音声ファイルＤ１の解析が済んでいるかいないかを示すフラグである。「特徴量」は、例えば解析の結果、得られるパラメータ値である。特徴量は、例えば音声ファイルＤ１、Ｄ２等が属するグループの判定に用いられる。「グループ」は、音声ファイルＤ１等が属する曲調のグループを示している。

図４は図２のコンテンツグループ管理データベース２７中のグループリストの構成を示す図である。
コンテンツグループ管理データベース２７には、グループリスト４２が含まれている。グループリスト４２は、特徴量に応じて分類される曲調のグループの一覧である。これらのグループには、例えば、リラックスＧ１、エネルギッシュＧ２、バラードＧ３、クラッシックＧ４、及びジャズＧ５等がある。リラックスＧ１は、リラックスできる静かな曲のグループである。エネルギッシュＧ２は、元気の出る曲のグループである。バラードＧ３は、バラード調の曲のグループである。クラッシックＧ４は、クラッシック調の曲のグループである。ジャズＧ５は、ジャズ調の曲のグループである。

図５はＲＯＭ３に含まれる解析式データテーブルを示す図である。
解析式データテーブルは、コンテンツ全長の長さｃと、解析時間区間Ｋと、再生開始位置Ｐとの関係を示すデータが登録されたテーブルである。コンテンツ全長の長さｃの４つの場合（１）〜（４）に対応して、解析時間区間Ｋ、再生開始位置Ｐが解析式データテーブルに記憶されている。
（１）コンテンツ全長の長さｃが０≦ｃ＜Ｔのときには、コンテンツの解析時間区間Ｋは０〜ｃ、再生開始位置Ｐはｃ／２となる。ここで、Ｔは、固定解析長（予め所定の値に定められた固定値）であり、例えば３０秒に設定されている。
（２）コンテンツ全長の長さｃがＴ≦ｃ＜２Ｔのときには、コンテンツの解析時間区間Ｋはｃ−Ｔ〜ｃ、再生開始位置Ｐはｃ／２となる。
（３）コンテンツ全長の長さｃが２Ｔ≦ｃ＜２Ｓのときには、コンテンツの解析時間区間Ｋはｃ／２〜ｃ／２＋Ｔ、再生開始位置Ｐはｃ／２となる。
（４）コンテンツ全長の長さｃが２Ｓ≦ｃのときには、コンテンツの解析時間区間ＫはＳ〜Ｓ＋Ｔ、再生開始位置ＰはＳとなる。ここで、Ｓは、固定さび位置（予め所定の値に定められた固定値）であり、例えば９０秒に設定されている。

解析式データテーブルに示すように、解析時間区間Ｋと、再生開始位置Ｐとが対応しており、解析時間区間Ｋ内に再生開始位置Ｐが含まれている。つまり、解析時間区間Ｋの解析開始位置と解析終了位置との間に、再生開始位置Ｐが位置する。

図６はコンテンツ全長の長さｃと解析時間区間Ｔとの関係を示すグラフである。
ここで、縦軸は再生開始後の経過時間である再生時間、横軸はコンテンツ全長の長さｃである。解析時間区間Ｋは斜線で示す。音声ファイルＤ１等の固定さびの位置Ｓは、例えば３分以上の曲の場合には、曲の再生開始から９０秒の位置以降であると予測される。

ここで、固定サビ位置Ｓとは、一般的に曲のどのあたりの時間からサビが開始されるかを統計的に調べて一意に決めた位置のことである。例えば、３分以上の曲の場合には、曲の再生開始から９０秒の位置からサビが始まる場合が多い。このような理由から、この実施形態では、コンテンツ全長の長さｃが２Ｓ（３分Ｓ＝９０秒）以上の場合には、その再生開始から９０秒の位置を解析開始位置と再生開始位置として採用している。
［再生装置１による音声ファイルの解析分類の動作］
図７は再生装置１による音声ファイルの解析分類（登録）動作を示すフローチャートである。

コンテンツ検索部２２は、未解析のコンテンツが記憶されているか否かを判断する（ＳＴ７０１）。具体的には、コンテンツ検索部２２は、内部記憶装置６に記憶された図３に示す音声ファイルＤ１の解析フラグの情報に基づき、音声ファイルＤ１が解析済みか否かを判断する。

コンテンツ検索部２２は、未解析のコンテンツがないときには（ＳＴ７０１でＮＯ）、解析分類処理を終了する。コンテンツ検索部２２は、未解析のコンテンツがあるときには（ＳＴ７０１でＹＥＳ）、解析を促すためのメッセージを表示部１１に表示させる（ＳＴ７０２）。

図８は解析を促すメッセージの例を示す図である。
例えばこの例においては、「解析されていない曲があります。オプションメニューからチャンネルの更新を実行して下さい。」といったメッセージ３２が用いられている。
図７の動作説明に戻る。

キー情報検出部２１は、ユーザにより解析を開始させるための操作が行われたか否かを判断する（ＳＴ７０３）。具体的には、キー情報検出部２１は、例えばユーザにより所定のボタン（解析開始を指示するためのボタン）が押下されたときに入力されるキー情報を検出する。

コンテンツ検索部２２は、検出されたキー情報を取得して、コンテンツリスト４１に含まれる音声ファイルＤ１の中から未解析のコンテンツを検索を開始する（ＳＴ７０４）。具体的には、コンテンツ検索部２２は、コンテンツリスト４１中の図３に示す音声ファイルＤ１に含まれる属性データを取得し、属性データ中の解析フラグに基づき、音声ファイルＤ１が解済みか否かを判断する。

コンテンツ検索部２２は、未解析のコンテンツ数、未解析のコンテンツの解析に必要な残りの時間である残り解析時間等を演算し、未解析のコンテンツ数及び残り解析時間を図９に示すように表示画面に表示させる（ＳＴ７０５）。例えば各コンテンツの長さの和を基に、残り解析時間を解析する。図９は未解析コンテンツの数及び残り解析時間を示す図である。コンテンツの解析中に、表示画面には、同図に示すように、例えば、現在解析中であることを示すメッセージとともに、解析済みの曲の数／未解析の曲の数（４／６０）、残り解析時間（１分２３秒）等が表示される。

コンテンツ検索部２２は、ＳＴ７０１と同様に未解析のコンテンツがあるか否かを判断する（ＳＴ７０６）。なお、最初にＳＴ７０６の処理が実行されるときには、ＳＴ７０１で既に未解析のコンテンツがあると判断されているので、ＳＴ７０６の処理は省略可能である。コンテンツ検索部２２は、未解析のコンテンツがないときには（ＳＴ７０６でＮＯ）、解析分類処理を終了する。

コンテンツグループ管理部２６は、未解析のコンテンツがあるときには（ＳＴ７０６でＹＥＳ）、音声ファイルＤ１の図３に示すグループ管理テーブルを参照して、当該音声ファイルＤ１が特定のグループに登録されているか否かを判断する（ＳＴ７０７）。コンテンツグループ管理部２６は、音声ファイルＤ１が特定のグループに登録されていると判断したときには（ＳＴ７０７でＹＥＳ）、ＳＴ７０５に戻って未解析のコンテンツ数、未解析の残りコンテンツ数・残り解析時間の計算と計算結果の表示を行う。コンテンツグループ管理部２６は、音声ファイルＤ１が特定のグループに登録されていないと判断したときには（ＳＴ７０７でＮＯ）、ＳＴ７０８に進む。

コンテンツグループ管理部２６は、音声ファイルＤ１が音声コンテンツか否かを判断する（ＳＴ７０８）。この音声コンテンツとは、例えば英会話等の教材、ニュース、本を読み上げただけの音声等を含む。音声ファイルＤ１が音声コンテンツであるか否かは、例えば、音声ファイルＤ１の属性情報に、「Ｐｏｄｃａｓｔ」、「語学」、「Ｎｅｗｓ」、「ＡｕｄｉｏＢｏｏｋ」、「Ｔａｌｋ」等の文字列が含まれているか否かに基づき判断する。コンテンツグループ管理部２６が、このような文字列が属性情報に含まれていると判断したときには（ＳＴ７０８でＹＥＳ）、そのコンテンツを音声コンテンツと判定し、含まれていないと判断したときには（ＳＴ７０８でＮＯ）、音声コンテンツでないと判断する。

コンテンツグループ管理部２６は、音声データＤ１を音声コンテンツであると判断したときには（ＳＴ７０８でＹＥＳ）、ＳＴ７０５に戻って未解析のコンテンツ数、未解析の残りコンテンツ数・残り解析時間の計算と計算結果の表示を行う。音声コンテンツでないと判断したときには（ＳＴ７０８でＮＯ）、ＳＴ７０９に進む。つまり、コンテンツが未解析であり（ＳＴ７０６でＹＥＳ）、グループに未登録であり（ＳＴ７０７でＮＯ）、かつ音声コンテンツでない（ＳＴ７０８でＮＯ）ときに、ＳＴ７０９以降のコンテンツの解析分類処理が実行される。

コンテンツ解析部２５は、コンテンツデータベース２３に格納された音声データＤ１の属性データを取得し、音声データＤ１の属性データからコンテンツ全長の長さｃを取得する（ＳＴ７０９）。

コンテンツ解析部２５は、図５に示す解析式データテーブルに基づき、音声ファイルＤ１の解析時間区間Ｋ（解析開始位置及び解析終了位置）を解析式データベースを用いて演算する（ＳＴ７１０）。

コンテンツ解析部２５は、イコライザの設定をオフにする（ＳＴ７１１）。

コンテンツデコード部２４は、音声ファイルＤ１をデコードする（ＳＴ７１２）。

コンテンツ解析部２５は、コンテンツデコード部２４でデコードしたデータを用いて、上述したように解析時間区間Ｋの音声ファイルＤ１の曲調解析を行う（ＳＴ７１３）。これにより、音声ファイルＤ１をグループに分類するための特徴量が得られる。

この後、コンテンツ解析部２５は、イコライザの設定を復帰する（ＳＴ７１４）。

コンテンツグループ管理部２６は、コンテンツ解析部２５から取得した特徴量をもとに、音声ファイルＤ１が属するべきグループを判定し、この判定結果でコンテンツグループ管理データベース２７に登録されたグループ管理テーブルを更新する（ＳＴ７１５）。

この後、ＳＴ７０５に戻って、に戻って未解析のコンテンツ数、未解析の残りコンテンツ数・残り解析時間の計算と計算結果の表示を繰り返す。そして、コンテンツ解析部２５は、ＳＴ７０６で未解析のコンテンツがないと判断したときには、解析分類処理を終了する。

［再生装置１による再生］
図１０は再生装置１の再生時における機能的な構成を示すブロック図である。

なお、以下、例えばユーザにより一様な曲調の（同一グループ内の）コンテンツを連続して再生することが可能なチャンネル（おまかせチャンネル（登録商標））が選択され、図４に示すようなグループリスト４２から所望のグループをユーザが選択することができるものとする。

キー情報検出部２１は、ユーザにより入力されたキーの情報を検出し、コンテンツグループ管理部２６に送信する。具体的には、キー情報検出部２１は、図４に示すグループのうち例えばリラックスＧ１がユーザにより選択される。すると、コンテンツグループ管理部２６は、ユーザにより選択されたグループを示す情報に基づいて、コンテンツグループ管理データベース２７に含まれるグループ管理テーブル４２からそのグループに属する音声ファイルを示す情報を抽出して、コンテンツ検索部２２に通知する。

コンテンツ検索部２２は、コンテンツグループ管理部２６から通知された情報を基に、コンテンツデータベース２３中から該当する音声ファイルを検索する。コンテンツ検索部２２は、検索された音声ファイルの中からデコードする音声ファイルを選択し、選択された音声ファイルの情報、例えばファイル名などの情報をコンテンツデコード部２４に送信する。

コンテンツデコード部２４は、コンテンツ検索部２２により通知された音声ファイルの情報を基に、コンテンツデータベース２３から該当する音声ファイルの音声データを取得し、音声データのデコードを行う。

音声再生部４０は、コンテンツデコード部２４からデコードされた音声データを取得し当該再生対象である音声ファイルに含まれる属性データ中のコンテンツ全長の長さｃを取得し、このコンテンツ全長の長さｃから再生開始位置Ｐを求める。そして、音声再生部４０は、解析時間区間Ｋに対応した再生開始位置Ｐから音声データを再生する。

［再生装置１による再生の動作］
図１１は再生装置１のコンテンツデータ再生動作を示すフローチャートである。以下、図４に示す複数のグループ（Ｇ１〜Ｇ５等）からユーザが所望のグループを選択することが可能となっているものとする。

まず、ユーザはキー入力部７を操作することにより、再生すべきグループを選択するための入力操作を行う。キー情報検出部２１は、キー入力部７からの入力に対応するキーコードをコンテンツグループ管理部２６に出力する。コンテンツグループ管理部２６は、キー情報検出部２１より入力されたキーコードを基に、ユーザによって選択されたグループを判定し、このグループに属する音声ファイルのファイル名をコンテンツ検索部２２に通知する（ＳＴ１１０１）。

コンテンツ検索部２２は、コンテンツグループ管理部２６より通知された音声ファイルのファイル名の中から最初に再生する音声ファイルのファイル名を例えばランダム方式で決定し、そのファイル名を音声再生部４０及びコンテンツデコード部２７に通知する（ＳＴ１１０２）。

音声再生部４０は、コンテンツ検索部２２より通知されたファイル名を基に、コンテンツデータベース２３から該当する音声ファイルの属性データに含まれるコンテンツ全長の長さｃを取得する（ＳＴ１１０３）。

音声再生部４０は、取得したコンテンツ全長の長さｃに基づき、図５に示す解析式データテーブルを用いて再生開始位置Ｐを演算する（ＳＴ１１０４）。

音声再生部４０は、ＳＴ１１０４で演算した再生開始位置Ｐを音声データの再生開始位置として設定する（ＳＴ１１０５）。

これにより、音声再生部４０は、当該音声データの再生開始位置Ｐ（図５参照）に相当する位置から再生処理を開始する（ＳＴ１１０６）。

音声再生部４０は、音声ファイルの再生が終了したか否かを判断する（ＳＴ１１０７）。

音声再生部４０は、音声データの再生が終了していないときには（ＳＴ１１０７でＮＯ）、キー情報検出部２１より入力されたキーコードを基に、ユーザによるグループの変更操作があったか否かを判断する（ＳＴ１１０８）。

音声再生部４０は、ユーザによるグループの変更操作があったときには（ＳＴ１１０８でＹＥＳ）、ＳＴ１１０１に戻り再び再生するグループを決定し直す。

音声再生部４０は、ユーザによるグループの変更操作がなかったときには（ＳＴ１１０８でＮＯ）、ＳＴ１１０９に進む。

音声再生部４０は、キー情報検出部２１より入力されたキーコードを基に、再生する音声データを変更する操作がユーザによりあった否かを判断する（ＳＴ１１０９）。

音声再生部４０は、ユーザによる音声データの変更操作があったときには（ＳＴ１１０９でＹＥＳ）、ＳＴ１１０２に戻り、再生する音声ファイルを決定する。これにより、同一グループ内の別の音声ファイルに、再生される音声ファイルが変更される。

音声再生部４０は、ユーザによる音声ファイルの変更操作がなかったときには（ＳＴ１１０９でＮＯ）、キー情報検出部２１より入力されたキーコードを基に、ユーザによる終了操作があったか否かを判断する（ＳＴ１１１０）。

音声再生部４０は、ユーザによる終了操作があったときには（ＳＴ１１１０でＹＥＳ）、再生処理を終了する。音声再生部４０は、ユーザによる終了操作がなかったときには（ＳＴ１１１０でＮＯ）、ＳＴ１１０７に戻り、音声ファイルの再生が終了したか否かを判断する。

音声再生部４０は、音声データの再生が終了したときには（ＳＴ１１０７でＹＥＳ）、グループに属するコンテンツ群から次に再生するコンテンツを決定する（ＳＴ１１１１）。具体的には、音声データの再生が終了したときには、音声ファイルの含まれるグループと同じグループに含まれる音声ファイルの中からランダムに次に再生する音声ファイルが決定される。なお、音声ファイルの再生が終了したときに、図４に示すように、同じグループ内の音声ファイルをリストアップされている順に再生するようにしてもよい。

音声再生部４０は、次に再生する音声ファイルの音声データの先頭位置を音声データの再生開始位置として設定する（ＳＴ１１１２）。

音声再生部４０は、音声データの再生を開始し（ＳＴ１１１３）、ＳＴ１１０７に戻り、音声ファイルの再生が終了したか否かを判断する。

［作用］
このように本実施形態によれば、再生装置１は、コンテンツ全長の長さｃに基づいて音声データに対する解析時間区間Ｋを判定し（ＳＴ７１０）、判定結果に基づいて解析時間区間Ｋの音声データを解析するので、再生装置１のＣＰＵ２にかかる演算負荷を低減し効率的に解析を行うことができる。キー入力部７により選択されたグループ（分類項目）に属する音声データを解析時間区間Ｋ内の再生開始位置Ｐから再生するので、再生開始位置Ｐが解析時間区間Ｋに含まれ、ユーザが解析結果に違和感を感じないようにすることができる。

つまり、例えば音声ファイルの場合、コンテンツ全長の長さｃの全域に亘って音声ファイルの曲調を解析しなくても、曲の一部から全体を曲調を類推することができる。そのため、解析時間区間Ｋだけ曲調を解析して音声ファイル全体の曲調とすることで曲調の解析を効率良く行うことができる。

この際、ユーザが実際に曲を聴いた印象と、解析された分類結果とが異なると、ユーザが解析結果に違和感を覚えることになる。本実施形態では、図５に示すように、再生開始位置Ｐが解析時間区間Ｋに含まれるようにすることによって、再生開始時に解析結果に違和感を感じないようにする。

ここで、再生開始位置Ｐは、図６に示すように、曲の先頭よりも、むしろ曲の途中の特定の位置である。曲の先頭は無音であったり、イントロ部分であることが多いため、曲の先頭から再生する場合、曲調をすぐに把握できない。さび位置などから再生することが望ましい。

再生装置１は、コンテンツ全長の長さｃが所定の値（例えばＴ）以上であることを判定したとき（図５参照）、コンテンツ全長の長さｃの一部を解析時間区間Ｋと判定する。これにより、コンテンツ全長の長さｃが所定の値Ｔ以上であるときに、音声データの一部を解析時間区間Ｋとし、再生装置１の演算負荷を低減することができる。

例えば図５に示すように、再生装置１は、再生開始位置Ｐを解析時間区間Ｋの解析の開始点と同じにすることができる。このため、音声データの再生時に、より確実にユーザが解析結果に違和感を感じないようにすることができる。

再生装置１は、未解析の音声ファイルが記憶されているときに、未解析の音声ファイルの解析をユーザに促すための図８に示すメッセージ３２を表示することができる。これにより、未解析の音声データの解析をユーザに促すことができる。

再生装置１は、解析中（ＳＴ７１３等）に、図９に示すように、未解析のコンテンツ数及び残り解析時間を表示画面に表示することができる（ＳＴ７０５）。これにより、音声データの解析中や分類中にこれらの処理が終了するまでの時間や音声ファイルの数をユーザが知ることができる。

例えば音声ファイルＤ１は、音声データが解析済か否かを示す判断情報である解析フラグを含む。再生装置１は、解析フラグに基づき、音声ファイルＤ１を解析するか否かを判断することができる。例えば音声ファイルＤ１が既に外部機器において解析済みである場合には、再生装置１は、解析処理や分類処理を実行しない。例えば、音声ファイルＤ１が既に外部機器において解析済みであるときには、予め音声ファイルＤ１の音声データと、解析フラグや解析結果である特徴量とが関係付けられて、音声ファイルＤ１に記憶されている。これにより、例えば音声ファイルが予め解析済みであるとき（音声データが予め解析結果に関係付けられているとき）に、解析処理や分類処理を実行しないことで、ＣＰＵ２による演算負荷を低減することができる。

再生装置１は、図５に示すように再生開始位置Ｐが解析時間区間Ｋ中の所定の時点（解析時間区間Ｋの中間点）とし、解析時間区間Ｋ中の所定の時点（解析時間区間Ｋの中間点）から所定の時間（固定解析長Ｔ）、音声データを再生することができる。これにより、さびの位置の音声データを解析し、さびの位置の音声データを再生することができる。

予め曲の盛り上がるさび位置が情報として分かっている場合には、解析時間区間Ｋが再生開始位置Ｐに先行して決まる。この場合においても、解析式データテーブルを用いることで、例えば再生開始位置Ｐを解析時間区間Ｋに合わせることができる。

＜変形例＞
次に変形例の再生装置について説明する。なお、本変形例以降では、上記実施形態と同一の部材などには同一の符号を付し、異なる箇所のみ説明する。

上記実施形態では、図５に示す例１の解析式データテーブルを用いて再生開始位置Ｐを求めたが、本変形例では、図５に示す例２の解析式データテーブルを用いて再生開始位置Ｐを求める点が異なる。

図５に示すように、コンテンツ全長の長さｃの４つの場合（１）〜（４）に対応して、解析時間区間Ｋ、再生開始位置Ｐが解析式データテーブルに記憶されている。

（１）コンテンツ全長の長さｃが０≦ｃ＜Ｔのときには、コンテンツの解析時間区間Ｋは０〜ｃ、再生開始位置Ｐは０となる。
（２）コンテンツ全長の長さｃがＴ≦ｃ＜２Ｔのときには、コンテンツの解析時間区間Ｋはｃ−Ｔ〜ｃ、再生開始位置Ｐはｃ−Ｔとなる。
（３）コンテンツ全長の長さｃが２Ｔ≦ｃ＜２Ｓのときには、コンテンツの解析時間区間Ｋはｃ／２〜ｃ／２＋Ｔ、再生開始位置Ｐはｃ／２となる。
（４）コンテンツ全長の長さｃが２Ｓ≦ｃのときには、コンテンツの解析時間区間ＫはＳ〜Ｓ＋Ｔ、再生開始位置ＰはＳとなる。

例えば図５に示すように、再生装置は、再生開始位置Ｐを解析時間区間Ｋの解析の開始点と同じにすることができる。このため、音声データの再生時に、より確実にユーザが解析結果に違和感を感じないようにすることができる。

本発明は以上説明した実施の形態には限定されるものではなく、種々の変形が可能である。

本発明の一実施形態に係る再生装置の構成を示すブロック図である。再生装置の解析、分類時における機能的な構成を示すブロック図である。図２のコンテンツデータベース中のコンテンツリストの構成を示す図である。図２のコンテンツ管理データベース中のグループリストの構成を示す図である。ＲＯＭに含まれる解析式データテーブルを示す図である。長さと再生時間との関係を示す図である。再生装置の解析、分類（登録）動作を示すフローチャートである。メッセージが表示画面に表示された状態を示す図である。未解析コンテンツの数及び残り時間を示す図である。再生装置の再生時における機能的な構成を示すブロック図である。再生装置のコンテンツデータ再生動作を示すフローチャートである。

符号の説明

Ｄ１、Ｄ２音声ファイル
ｃ長さ
Ｋ解析時間区間
Ｐ再生開始位置
１再生装置
２ＣＰＵ
３ＲＯＭ
６内部記憶装置
７キー入力部
８音声処理部
９音声出力部
１２音声解析部
２１キー情報検出部
２２コンテンツ検索部
２３コンテンツデータベース
２４コンテンツデコード部
２５コンテンツ解析部
２６コンテンツグループ管理部
２７コンテンツグループ管理データベース
３２メッセージ
４０音声再生部
４１コンテンツリスト
４２グループリスト

Claims

音声データの再生時間の長さに対して予め決められた当該音声データの解析時間区間に関する情報を記憶する区間情報記憶手段と、
再生対象である複数の音声データを記憶する記憶手段と、
前記区間情報記憶手段に記憶された前記情報をもとに、前記記憶手段に記憶された前記音声データの解析時間区間を判定する判定手段と、
前記判定手段により判定された前記解析時間区間の前記音声データを解析する解析手段と、
解析結果に基づきそれぞれ音声データを予め定められた複数の分類項目に分類する分類手段と、
再生する音声データの分類項目をユーザに選択させる入力手段と、
前記入力手段により選択された分類項目に属する音声データを前記解析時間区間内の再生開始点から再生する再生手段と
を具備する再生装置。
請求項１に記載の再生装置であって、
前記再生開始点が前記解析時間区間の解析の開始点と同じである
再生装置。
請求項２に記載の再生装置であって、
前記記憶手段に記憶された未解析の音声データの解析をユーザに促すための案内画面を表示する表示手段を更に具備する
再生装置。
請求項３に記載の再生装置であって、
前記記憶手段に記憶された複数の音声データについて、前記判定手段、前記解析手段、前記分類手段による処理を連続的に行うように制御する制御手段を更に具備する
再生装置。
請求項４に記載の再生装置であって、
前記制御手段は、前記記憶手段に記憶された全ての音声データに対する前記処理の残り時間を計算し表示するように制御する
再生装置。
請求項５に記載の再生装置であって、
前記解析手段は、前記音声データの曲調を解析する
再生装置。
音声データの再生時間の長さに対して予め決められた当該音声データの解析時間区間に関する情報を記憶し、
再生対象である複数の音声データを記憶し、
記憶された前記情報をもとに、記憶された前記音声データの解析時間区間を判定し、
判定された前記解析時間区間の前記音声データを解析し、
解析結果に基づきそれぞれ音声データを予め定められた複数の分類項目に分類し、
再生する音声データの分類項目をユーザに選択させ、
選択された分類項目に属する音声データを前記解析時間区間内の再生開始点から再生する
再生方法。