JP2023091483A

JP2023091483A - 格納装置、再生装置、格納方法、再生方法、データ構造、及びプログラム

Info

Publication number: JP2023091483A
Application number: JP2021206254A
Authority: JP
Inventors: 亨強矢; Toru Suneya
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2023-06-30
Also published as: US20230197114A1

Abstract

【課題】音声データのうち特徴的な部分を主に再生することを容易にする格納装置、再生装置、格納方法、再生方法、データ構造及びプログラムを提供する。
【解決手段】処理装置１００が、ネットワークを介して、音楽配信サービスと接続するシステムにおいて、処理装置は、音声の音圧及び音声内の繰り返し区間を検出する音声解析部１０６と、検出された繰り返し区間のうち音圧に応じて選択された特定区間の音声データを特定する特定データを生成する生成部１０７と、生成された特定データを音声の音声データと共に所定のフォーマットで１つのファイルに格納するデータ格納部１０８と、を備える。
【選択図】図２

Description

本発明は格納装置、再生装置、格納方法、再生方法、データ構造、及びプログラムに関し、特に音声（オーディオ）ファイルの格納及び再生方法に関する。

近年、オンラインでの音楽配信サービスを利用するユーザが増加している。例えば、買い切り型のサービスでは、データを曲ごとに購入することができ、購入した曲をいつでも再生することができる。また、サブスクリプション型のサービスでは、契約期間のみ不特定の曲を再生する権利を得ることができる。さらに、ユーザが、音声データを音楽配信サービスからローカル端末にダウンロードすることもあり、この場合、オフラインの環境で曲を再生することができる。

音声データを購入する際に、ユーザの気に入る曲を探すことを容易にするには、その曲の特徴的な部分を試聴できることが望ましい。例えば、ユーザがテレビＣＭなどで曲の一部を聞いた際に、ユーザがこの曲を気に入り、この曲を探すことがある。この場合、ユーザが曲名を知らなくても、候補曲を試聴する際にその曲の特徴的な部分を主に試聴することができれば、ユーザは効率よく目当ての曲を見つけることができる。

一方で、曲を複数の区間に分割する技術も知られている。例えば、特許文献１には、歌唱動画のコンテンツを複数の区間に分割し、複数の歌唱動画のそれぞれの区間を組み合わせる技術が開示されている。区間としては、サビ／High Point、Ａメロ／Verse、及びＢメロ／Bridge等が挙げられている。

特開２０１４－１０９６５９号公報

ダウンロードした曲は、例えばＭＰ４ファイルフォーマット（ISO/IEC 14496 Part14）のような形式で保存される。一方で、ダウンロードした曲を再生する場合に、ユーザは主にその曲の特徴的な部分を再生することを望む場合がある。例えば、ユーザは、ダウンロードした曲から所望の曲を探すことがあり、またダウンロードした多数の曲を聴きたいことがある。

本発明は、音声データのうち特徴的な部分を主に再生することを容易にする技術を提供する。

本発明の一実施形態に係る格納装置は以下の構成を備える。すなわち、音声の音圧及び前記音声内の繰り返し区間を検出する解析手段と、前記解析手段により検出された繰り返し区間のうち音圧に応じて選択された特定区間の音声データを特定する特定データを生成する生成手段と、前記特定データを前記音声の音声データと共に所定のフォーマットで１つのファイルに格納する格納手段と、を備える。

音声データのうち特徴的な部分を主に再生することが容易になる。

一実施形態に係るシステム図。一実施形態に係る処理装置の機能構成例を示すブロック図。一実施形態に係る音声データ解析の一例を示すフローチャート。一実施形態における解析データの例を示す説明図。一実施形態に係る音声ファイルの構造を示す説明図。一実施形態に係る特定データの内容を示す説明図。一実施形態に係る音声ファイルの構造を示す説明図。一実施形態に係る特定データの内容を示す説明図。一実施形態に係る音声ファイルの生成手順を示すフローチャート。一実施形態に係る音声ファイルの構造を示す説明図。一実施形態に係る特定データの内容を示す説明図。一実施形態に係るコンピュータの基本構成を示すブロック図。一実施形態に係る音声ファイルの再生手順を示すフローチャート。一実施形態に係る音声ファイルの再生メニューを示す説明図。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

（実施形態１）
図１は、本発明の一実施形態に係る格納装置を含むシステムの一例を示す。本実施形態に係る格納装置である処理装置１００は、ネットワーク３００を介して、音楽配信サービス２００と接続することができる。なお、処理装置１００及び音楽配信サービス２００はそれぞれ複数存在していてもよい。

処理装置１００は、例えばパーソナルコンピュータ、スマートフォン、又はタブレットＰＣでありうるが、これらの例には限定されない。図１２は、処理装置１００として使用可能なコンピュータの基本構成を示す図である。図１２においてプロセッサ１２０１は、例えばＣＰＵであり、コンピュータ全体の動作をコントロールする。メモリ１２０２は、例えばＲＡＭであり、プログラム及びデータ等を一時的に記憶する。コンピュータが読み取り可能な記憶媒体１２０３は、例えばハードディスク又はＣＤ－ＲＯＭ等であり、プログラム及びデータ等を長期的に記憶する。本実施形態においては、記憶媒体１２０３が格納している、各部の機能を実現するプログラムが、メモリ１２０２へと読み出される。そして、プロセッサ１２０１が、メモリ１２０２上のプログラムに従って動作することにより、各部の機能が実現される。

図１２において、入力インタフェース１２０４は外部の装置から情報を取得するためのインタフェースである。また、出力インタフェース１２０５は外部の装置へと情報を出力するためのインタフェースである。バス１２０６は、上述の各部を接続し、データのやりとりを可能とする。なお、処理装置１００が有する各処理部のうちの一部又は全部が、専用のハードウェアによって実現されてもよい。

ネットワーク３００は、例えばインターネット、３Ｇ／４Ｇ／ＬＴＥ／５Ｇ等のＷＡＮ(Wide Area Network)、有線ＬＡＮ(Local Area Network)、無線ＬＡＮ(Wireless LAN)、アドホックネットワーク、又はBluetoothでありうるが、これらの例には限定されない。

次に、本実施形態に係る処理装置１００の機能構成について、図２を参照して説明する。本実施形態に係る処理装置１００は、生成部１０７、データ格納部１０８を備える。図２に示すように、処理装置１００は、さらにファイル格納部１０１、入出力部１０２、構造解析部１０３、復号部１０４、再生部１０５、及び音声解析部１０６を有していてもよい。

ファイル格納部１０１は音声（オーディオ）ファイルを格納することができる。ファイル格納部１０１は、音声ファイルとして、音楽配信サービスからダウンロードされた音楽ファイルを格納していてもよい。

入出力部１０２は、ファイル格納部１０１に格納された音声ファイルの読み出し、及びファイル格納部１０１への音声ファイルの書き込みを行うことができる。

構造解析部１０３は、入出力部１０２を介してファイル格納部１０１から読み出した音声ファイルのフォーマットを解析し、音声ファイルに格納された音声（オーディオ）の符号化データを取り出すことができる。また、復号部１０４は、構造解析部１０３によって取り出された符号化データを復号することができる。さらに、再生部１０５は、復号部１０４による復号により得られた音声データを、スピーカー等の出力部から出力させることができる。

音声解析部１０６は、音声の一部である特定区間を設定する。この特定区間は、音声の特徴的な部分に対応していてもよい。例えば、音声が曲である場合、特定区間は、曲の代表的なフレーズを含む部分又は盛り上がる部分であってもよく、サビ部分であってもよい。

本実施形態に係る音声解析部１０６は、音声の音圧及び音声内の繰り返し区間を検出することができる。例えば、音声解析部１０６は、復号部１０４による復号により得られた音声データを定量的に解析する機能を備える。具体的には、音声解析部１０６は、周波数解析、音圧解析、及び曲の繰り返しパターンを検出するパターン解析の機能を備えていてもよい。このように、音声解析部１０６は、音声の音圧、繰り返し区間、及び周波数のうちの少なくとも１つを解析することにより、特定区間を設定することができる。

音声解析部１０６による特定区間の設定方法の一例については後述する。一方で、音声解析部１０６の代わりにユーザによって特定区間が設定されてもよい。例えば、音声によっては、解析によって特徴的な部分を検出することが困難であるかもしれない。このような場合には、実際に音声を聴いたユーザが所望の区間を特定区間として設定することができる。

生成部１０７は、音声の一部である特定区間に関連するデータを取得することができる。本実施形態において、生成部１０７は、音声解析部１０６により検出された繰り返し区間のうち、音圧に応じて選択された特定区間に関連するデータを生成する。この例において、この特定区間に関連するデータ（以下、特定データと呼ぶことがある）は、特定区間の音声データを特定するデータである。例えば、特定データは、音声における特定区間の位置を示す位置情報であってもよい。このような位置情報を用いることで、音声内の特定区間を識別することができる。

一方で、特定データは、特定区間の特性を表す特性情報を含んでいてもよい。例えば、特定データが、特定区間の音圧情報を含んでいてもよい。また、特定データが、特定区間の種類を示す情報を含んでいてもよい。例えば、特定データは、特定区間が音声の特徴的な部分（例えば代表的なフレーズを含む部分であるHigh Point）であることを示す情報を含んでいてもよい。特定区間の種類の別の例としては、Verse、Bridge、第１楽章、などが挙げられる。このような特性情報を用いることで、ユーザが特定区間又は音声の特徴的な部分の特性を把握することが容易となり、複数の音声の中から再生したい音声を選択することが容易になる。特定データは、特定区間の位置を示す位置情報を含んでいてもよく、特定区間の特性を表す特性情報を含んでいてもよく、これらの双方を含んでいてもよい。

本実施形態において、生成部１０７は、音声解析部１０６による解析結果に従って上記のような特定データを生成する。一方で、生成部１０７は、ユーザによる特定区間の設定に従って特定データを生成し、又は、ユーザ入力に基づく特定データを取得してもよい。

データ格納部１０８は、特定区間に関連するデータを音声の音声データと共に所定のフォーマットで１つのファイルに格納する。データ格納部１０８は、生成部１０７によって生成された特定データを、解析された音声ファイルに格納することができる。特定データを格納した音声ファイルは、入出力部１０２によってファイル格納部１０１に書き込まれる。

次に、音声解析部１０６が行う処理の一例について、図３及び図４を参照して説明する。以下の処理において、音声解析部１０６は音声の音圧及び音声内の繰り返し区間に基づいて特定区間を設定する。一方で、特定区間の設定方法は以下の方法に限定されず、例えば音声解析部１０６はニューラルネットワークを用いて検出した音声の特徴的な部分を特定区間として設定してもよい。

Ｓ３０１において音声解析部１０６は音声の音圧を検出する。例えば、図４（Ａ）に示すように、音声解析部１０６は音声データの始めから終わりまでの音圧を検出することができる。なお、図４（Ａ）～（Ｃ）は、ステレオ音声の解析結果の例を示している。

次のＳ３０２において音声解析部１０６は音圧の検出結果に基づいて音圧のパターンを解析する。この解析において、音声解析部１０６は、類似する音圧の波形パターンが局所的に繰り返される区間の検出を行うことができる。例えば図４（Ｂ）は、Ａ、Ｂ、Ｃ、及びＤの３つのパターンが検出された例を示している。

次のＳ３０３において音声解析部１０６は、音声内の繰り返し区間を検出する。音声解析部１０６は、音圧パターンの解析結果に基づいて繰り返し区間を検出することができる。例えば、音声解析部１０６は、類似する音圧の波形パターンが、異なる波形パターンを挟んで２回以上繰り返されているか否かを判定することができる。繰り返し区間が検出されない場合、処理はＳ３０４に進む。Ｓ３０４において音声解析部１０６は、Ｓ３０２で検出された区間のうち音圧が最も大きい区間を特定区間として設定する。

一方で、Ｓ３０３で繰り返し区間が検出された場合、処理はＳ３０５に進む。Ｓ３０５において音声解析部１０６は、繰り返し区間ごとに音圧を比較する。そして、続くＳ３０６において、音声解析部１０６は、最大音圧の繰り返し区間とその次に音圧が高い繰り返し区間との音圧の差異が所定値より大きいか否かを判定する。音圧の差異が所定値よりも大きい場合、処理はＳ３０７に進み、音声解析部１０６は音圧が最大となる繰り返し区間のうちの１つを特定区間に設定する。例えば図４（Ｃ）は、検出された３つの繰り返しパターンＡ，Ｂ，Ｃのうち、繰り返しパターンＣの区間の音圧が最大であり、その次に音圧が大きい繰り返しパターンＡの区間との音圧の差が所定値よりも大きい様子を示している。この例では、繰り返しパターンＣの区間うち、最も音圧が大きい区間であるＣ１の区間が特定区間として設定される。

一方で、音圧の差異が所定値以下である場合、処理はＳ３０８に進み、音声解析部１０６は音声の周波数解析を行う。例えば、音声解析部１０６は、図４（Ｄ）に示すように音声全体の周波数を解析することができる。次のＳ３０９において音声解析部１０６は、特定の周波数成分が最も多い区間を特定区間として設定することができる。ここで、特定の周波数成分はその音声の種類に応じて選択することができる。例えば、特定の周波数成分は、主に人の声が含まれる周波数帯であってもよいし、特定の楽器の音が多く含まれる周波数帯であってもよい。

図３及び図４に示すように設定された特定区間は、現代の一般的な楽曲における楽曲の特徴的な部分、例えば代表的なフレーズを含む区間である可能性が高い。なお、区間ごとに音圧を比較する際には、各区間の音圧の大きさの平均値を比較してもよいし、各区間の音圧の大きさの最大値を比較してもよい。さらに、平均値と最大値の両方を用いて各区間の音圧の比較を行ってもよい。

また、特定区間の長さは制限されていてもよい。例えば、特定区間の長さは所定の長さ以下に制限されていてもよいし、所定の長さ以上に制限されていてもよい。この場合、Ｓ３０２において、このような制限を考慮してパターン解析を行ってもよい。例えば、音声解析部１０６は、各区間の長さが制限を満たすように、区間の検出を行うことができる。別の方法として、図３のフローチャートに従って設定された特定区間のうちの一部であるか又はこれを含む区間を、最終的な特定区間として設定してもよい。例えば、音声解析部１０６は、図３のフローチャートに従って設定された特定区間の先頭から始まり、制限を満たす長さの区間を、最終的な特定区間として設定することができる。この場合、特定区間が、Ｓ３０２で検出された複数の区間を含んでいてもよく、すなわち特定データが、特定区間を少なくとも一部に含む区間を特定する情報であってもよい。

次に、特定区間に関連する特定データを音声ファイルに格納する方法について、図５及び図６を参照して説明する。図５は、一実施形態に係る、ＭＰ４ファイルフォーマットに従う音声ファイルの構造を示す。ＭＰ４ファイルフォーマットは、ＢＯＸと呼ばれる要素が入れ子となったツリー構造を持つが、図５では主要なＢＯＸのみ図示されている。図５において、４文字の英子文字はＢＯＸの名称を表す。この例では、特定データとして、特定区間の位置を示す時間情報が音声ファイルに格納される。

mdat(502)には符号化された音声データ５０３が格納され、moov(501)にはメタデータが格納される。メタデータとしては、例えば、音声データの再生処理に必要なデータを格納することができる。また、ＭＰ４ファイルフォーマットは、格納される音声又は動画等の各メディアに対応するトラックと呼ばれる構造を持ち、trak(504)がトラックの情報を格納するＢＯＸである。

さらに、trak(504)は複数のＢＯＸによって構成される。stsd(505)はSampleDescriptionBoxと呼ばれ、音声データ(503)を復号する為に必要な情報、及び再生処理する際のタイミング情報などの詳細情報が格納される。音声データのトラックにおいては、stsd(505)はAudioSampleEntry(506)と呼ばれる構造を持つ。AudioSampleEntry(506)には、音声データのサンプリング周波数、ビット数、及びチャンネル数などの情報が格納される。

本発明の一実施形態では、AudioSampleEntry(506)の中に特定データが格納される。図５の例では、特定区間５０８は音声のHigh Pointであり、特定データはこの特定区間５０８の位置を示す位置情報であって、hipt(507)と記述されている。

次に、AudioSampleEntry(506)に格納する特定データの内容について、図６を参照して説明する。図６において、コード６０１はAudioSampleEntry(506)の構文を示す。基本的な構成はＭＰ４ファイルフォーマットの標準規格と同じであるが、標準規格と比較して最後のHighPointBox(602)が追加されている。

図６のコード６０３はHighPointBox(602)の構文の例である。図５の音声データ５０３についての特定区間の位置を示す位置情報として、特定区間が始まる時刻を示すstart_time及び特定区間の期間を示すdurationが格納される。なお、特定区間は複数の区間に分割されていてもよい。例えば、図４（Ｃ）の例において、Ｃ１の区間及びＣ２の区間の双方が特定区間として選択されてもよい。この場合、HighPointBox(602)の構文にあるentry_countを２以上とすることができる。なお、start_time及びdurationは、トラックごとに設定されるタイムスケールに基づく数値を設定することができる。例えば、音声データのサンプリング周波数が４８ｋＨｚの場合、トラックのタイムスケールを４８０００とすると１サンプル当たりの期間は１０２４となる。したがって、特定区間が１分２５秒から３０秒間である場合、start_time = 4079616 (1024x3984)、duration = 1439744 (1024x1406)とすることができる。

このように、特定データは音声ファイルのSampleEntryに格納することができる。図５及び図６において、特定データを格納するＢＯＸの名称はHighPointBoxであり、その４文字コードはhiptであるが、これらは一例にすぎず、他の名称及び４文字コードを用いることもできる。例えば、ＢＯＸの名称と４文字コードの組み合わせとして、FeaturePartBox(feat)、ImpressionPartBox(impr)、HighlightBox(hglt)、又はChorusBox(chrs)等を用いてもよい。

次に、特定区間に関連する特定データを音声ファイルに格納する別の方法について、図７及び図８を参照して説明する。図７も、一実施形態に係る、ＭＰ４ファイルフォーマットに従う音声ファイルの構造を示す。この例では、特定データとして、特定区間の位置を示す位置情報であるサンプルカウント情報が音声ファイルに格納される。

図７において、sbgp(702)はsample to group box、sgpd(703)はsample group description boxであり、共にＭＰ４ファイルフォーマットの標準規格で定義されている。sbgp(702)は何らかの共通の属性を持つサンプル群で構成されるグループを定義することができる。また、sgpd(703)はこの共通の属性をグルーピングタイプとして定義し、グループについての属性情報を格納することができる。この例では、特定区間に該当するサンプルがsbgp(702)を用いてグループ化され、sgpd(703)を用いて特定区間の属性情報が定義される。

これらの定義方法について図８を参照して説明する。図８において、コード８０１はsbgp(702)の構文を示している。ここでは、sample_countごとにgroup_description_indexを設定する事でグループ化が行われる。また、group_description_indexが「０」であることは、そのサンプルをグループ化しない事を示す。そこで、特定区間の前までのサンプルのgroup_description_indexを「０」に設定し、特定区間内のサンプルのgroup_description_indexを１以上の数値に設定することができる。このような方法により、特定区間に該当するサンプルをグループ化することができる。このように、特定データは音声ファイルのサンプルグループ情報として格納することができる。

また、コード８０２はsgpd(703)の構文を示しており、これはコード８０１に従って定義されたグループの属性情報を定義する。ここでは、特定区間に関連する情報をSampleGroupDescriptionEntryとして定義することができる。SampleGroupDescriptionEntryの定義の例としては図８のコード８０３に示すＢＯＸが挙げられる。コード８０３に示すHighPointEntryは、特にパラメータを保有していない。しかしながら、HighPointEntryには、特定区間の特性を表す特性情報を格納してもよい。例えば、HighPointEntryには特定区間の音圧を示すパラメータを格納することができる。このような構成により、曲の特徴的な部分であり、盛り上がる部分である特定区間の音圧情報を格納することができる。

以上のように、特定区間の位置は、時間又はサンプルグループを用いて特定することができる。もっとも、音声の特定区間を識別する方法は、ここで説明した例に限定されない。

次に、特定区間に関連するデータを含むファイルを格納する手順について、図９を参照して説明する。以下では、図５又は図７に示すようなＭＰ４ファイルを生成する手順について説明する。

まずＳ９０１において、生成部１０７はファイル格納部１０１から音声ファイルを読み出す。次のＳ９０２において、音声解析部１０６は特定区間を設定する。音声解析部１０６は、上述したように、図３のフローチャートに従って特定区間を設定してもよいし、ユーザ入力に基づいて特定区間を設定してもよい。

Ｓ９０３において生成部１０７は、特定区間に関連するデータである特定データを生成する。上述したように、特定データは、特定区間の位置を示す位置情報、及び／又は特定区間の特性を表す特性情報でありうる。具体例として、生成部１０７は、図５又は図７を参照して説明した方法にしたがって、特定データを生成することができる。

Ｓ９０３で生成された特定データをメタデータとして音声ファイルに格納する際には、メタデータを格納するＢＯＸであるmoov(501)のバイト数が変わることにより、mdat(502)のファイル内での位置が変わる可能性がある。そこで次のＳ９０４において生成部１０７は、ファイルの先頭からmdat(502)の先頭までのバイト数が変わった場合に、符号化された音声データを参照するためのオフセット値を変更する。このように、生成部１０７はオフセット値の再計算を行う。

なお、オフセット値を利用するＢＯＸの種類は多い。複雑な処理を伴う再計算を削減するために、free BOXなどの内容が読まれないことが多いＢＯＸを、予めmoov(501)の中又はmoov(501)とmdat(502)との間に配置しておくことができる。この場合、生成部１０７は、メタデータの増加量だけfree BOXを縮小することにより、mdat(502)のファイル内での位置が変わることを避けることができる。

次のＳ９０５においてデータ格納部１０８は、Ｓ９０３で生成された特定データをメタデータとして音声ファイルに格納する。すなわち、データ格納部１０８は、Ｓ９０１で読み出された音声ファイルのメタデータを、Ｓ９０３で生成された特定データを含むように更新することができる。この際にデータ格納部１０８は、音声ファイルのメタデータにおけるオフセット値を、Ｓ９０４の結果に従って更新することができる。

ここまで、特定区間に関するデータとして、特定区間の位置を示す位置情報又は特定区間の特性を表す特性情報をファイルに格納する場合について説明した。一方で、特定区間に関するデータの種類はこれらに限定されない。以下では、特定区間に関するデータとして、音声データとは別に格納された特定区間の音声データを特定する情報をファイルに格納する場合について説明する。

本実施形態においてデータ格納部１０８は、音声データとは別に特定区間の音声データを１つの音声ファイルに格納する。例えばデータ格納部１０８は、特定区間の音声データを、音声データとは別のトラックに格納することができる。図１０は、一実施形態に係る、ＭＰ４ファイルフォーマットに従う音声ファイルの構造を示す。mdatには音声データ１００１と音声データ１００２とが格納される。音声データ１００１を管理するトラックのＩＤは１であり、音声データ１００２を管理するトラックのＩＤは２である。音声データ１００２は、音声データ１００１の特定区間と同じ内容を持つ。すなわち、音声データ１００２の音声は、音声データ１００１の音声の一部である。

一方で、音声データ１００１と音声データ１００２との間で、音声データの形式は異なっていてもよい。例えば、サンプリングレート、量子化ビット数、又は符号化形式等の音声データ属性が異なっていてもよい。このように、データ格納部１０８は、特定区間の音声データを、音声データとは異なる形式で格納することができる。

一例として、音声データ１００１は符号化形式がＭＰＥＧ－４ＡＬＳ(Audio Lossless Coding)、サンプリングレート１９２ｋＨｚ、及び量子化ビット数２４ｂｉｔであってもよい。一方で、音声データ１００２は、符号化形式がリニアＰＣＭ、サンプリングレート４８ｋＨｚ、及び量子化ビット数１６ｂｉｔであってもよい。この場合、音声データ１００１はいわゆるハイレゾと呼ばれる品質の高い音声データであり、能力の低い再生機器を用いた場合には再生できないかもしれない。一方で、音声データ１００２はほとんどの再生機器で再生可能だろう。このような音声ファイルを用意することにより、曲を試聴する際には、曲の特徴的な部分である音声データ１００２を再生することにより曲を効率的に把握することができる。これに加えて、音声データ１００１と音声データ１００２の品質が異なるため、曲を様々な再生機器を用いて再生すること、又はより低い処理負荷で再生することが可能となる。

本実施形態のように複数のトラックが存在する場合、trak(1005)はトラックの数だけ存在する。そして、音声データ１００２が音声データ１００１の特定区間１００３と同じ内容を持つことを示す情報は、tref(1004)に格納することができる。tref(1004)はトラック間の参照情報を格納するＢＯＸであり、図１１に示す構成を持つことができる。

図１１において、trak_IDs(1101)は参照先のトラックのＩＤを配列形式で記述する。また、reference_type(1102)は参照関係の種類を示す４文字コードの識別子を記述する。本実施形態では、トラックＩＤ＝２の音声データ１００２が、トラックＩＤ＝１の音声データ１００１の特定区間１００３と同じ内容を持つ。そこで、トラックＩＤ＝２のtref(1004)におけるtrak_IDs(1101)を１にすることができる。また、トラックＩＤ＝２のtref(1004)におけるreference_type(1102)を、hipt(HighPointBox)、feat(FeaturePartBox)、impr(ImpressionPartBox)、hglt(HighlightBox)、又はchrs(ChorusBox)等にすることができる。

このような参照情報は、特定のトラックの音声データ（例えば音声データ１００１）についての特定区間に関連するデータであり、特定区間の音声データ（例えば音声データ１００２）を識別するために用いることができる。また、reference_type(1102)も、特定区間に関連するデータであり、特定区間の種類（例えばHigh Point）を示すこともできる。本実施形態では、これらのデータを、特定区間に関連するデータとして音声ファイルに格納することができる。このように、データ格納部１０８は、音声データとは異なるトラックに特定区間の音声データを格納し、特定区間に関連するデータをトラック参照情報として格納することができる。なお、特定区間に関連するデータとして、特定区間が音声データ１００１として格納されている音声のどの区間に対応するのかを示す、例えば上述の位置情報のようなデータが、さらに格納されていてもよい。

このようなＭＰ４ファイルの生成も、図９のフローチャートに従って行うことができる。Ｓ９０３における特定データの生成は以下のように行うことができる。生成部１０７は、Ｓ９０２で設定された特定区間の音声データを再エンコードする。この時、生成部１０７は、サンプリングレート、量子化ビット数、又は符号化形式等の音声データ属性を、元の属性から変更してもよい。また、データ格納部１０８は、再エンコードにより得られた音声データをmdatに格納する。さらに、生成部１０７は、この音声データを管理するための新しいトラックを生成し、特定データをこのトラックに含める。このデータは、Ｓ９０５においてメタデータとして音声ファイルに格納される。

以上のように、本実施形態によれば、音声ファイルに、音声の一部である特定区間の音声データを特定可能な情報を格納することができる。このような音声ファイルを用いることにより、代表的なフレーズを含む部分のような特定区間の音声を、優先的に再生することが可能となる。

（実施形態２）
次に、上述の実施形態に従って作成可能である音声ファイルを再生する方法について説明する。音声ファイルを再生する再生装置としては、処理装置１００を用いることができる。入出力部１０２は、音声の音声データと、音声の一部である特定区間に関連するメタデータとを含む音声ファイルを取得する。

構造解析部１０３は、メタデータを解析することにより、特定区間の音声データを特定する。例えば、図５に示される音声ファイルを取得した場合、構造解析部１０３は、特定データであるhipt(507)に従って、特定区間５０８の音声データを特定することができる。また、図７に示される音声ファイルを取得した場合、構造解析部１０３は、特定データであるsbgp(702)及びsgpd(703)に従って、グループ化されている、特定区間の音声データを特定することができる。さらに、図１０に示される音声ファイルを取得した場合、構造解析部１０３は、特定データであるtraf(1004)に従って、音声データ１００１についての特定区間の音声データ１００２を特定することができる。

復号部１０４は、構造解析部１０３が特定した特定区間の音声データを再生のために音声ファイルから読み出すことができる。本実施形態において、復号部１０４は符号化された音声データを復号し、音声データを再生のために再生部１０５に送ることができる。

次に、このような音声ファイルを再生する方法について、図１３を参照して説明する。Ｓ１３０１で入出力部１０２は音声ファイルをファイル格納部１０１から読み出す。上述のように、特定区間に関連する特定データは、メタデータとして音声ファイルに格納されている。したがって、Ｓ１３０２において構造解析部１０３は、読み出した音声ファイルのメタデータの解析を行う。

さらに、構造解析部１０３は、音声ファイルが特定区間に関連するメタデータを含んでいるか否かに応じて、ユーザインタフェースに特定区間の音声の再生に関する項目を表示するか否かを制御することができる。すなわち、特定データが存在しているか否かに応じて、ユーザインタフェースを変更することができる。例えば、次のＳ１３０３で構造解析部１０３は、音声ファイルに特定データが存在しているか否かを判定することができる。特定データが存在している場合、処理はＳ１３０４に進む。Ｓ１３０４において構造解析部１０３は、ディスプレイ（不図示）に、「特定区間の再生」項目を含む再生メニューを表示することができる。また、Ｓ１３０３において特定データが存在しない場合、処理はＳ１３０５に進む。Ｓ１３０５において構造解析部１０３は、ディスプレイ（不図示）に、「特定区間の再生」項目を含まない再生メニューを表示することができる。その後、これらのユーザインタフェースに対するユーザ操作に基づいて、再生部１０５は、音声のうち特定区間の再生を行い、又は音声全体の再生を行うことができる。

次に、再生メニューの例について図１４を参照して説明する。図１４は、音声ファイル１４０１を再生する際に表示されるユーザインタフェースである、コンテキストメニューの例を示す。音声データを最初から再生することを指示する「再生」１４０２は常に表示される一方で、特定区間のみの再生を行う「特定区間を再生」１４０３は、音声ファイル１４０１が特定データを含む場合のみ表示される。つまり、音声ファイル１４０１が特定データを含む場合は、「特定区間を再生」１４０３を選択することで、特定区間のみを再生することができる。

特定データを用いた再生制御方法は、図１３に示す方法には限られない。例えば、ユーザが複数の曲の中から所望の曲を探すことを所望する場合には、複数の曲のそれぞれの特定区間のみを連続再生してもよい。この場合、連続再生中に、現在どの曲の特定区間を再生しているのかを示す情報を、ユーザインタフェース上に表示し、又は音声ガイドにより通知してもよい。

また、ＭＰ４ファイルフォーマットに従う１つの音声ファイルには、複数の音楽データを格納することができる。例えば、お気に入りのアーティストのアルバム、又はお気に入りの曲の集合を、１つの音声ファイルに格納することができる。このように格納された音楽データは、それぞれ別トラックとして格納することができる。このため、トラックごとの特定データを音声ファイルに格納することにより、聞きたい音楽データを選ぶことが容易となる。

以上では、図１に示す処理装置１００が格納装置又は再生装置として動作する場合について説明した。しかしながら、一実施形態に係る格納装置及び再生装置は、他の装置によって実現されてもよい。また、一実施形態に係る格納装置及び再生装置は、例えばネットワークを介して接続された複数の情報処理装置によって構成されていてもよい。

また、本発明の一実施形態は、上記のような音声ファイルのデータ構造にも関する。一実施形態に係るデータ構造は、音声の音声データと、音声の一部である特定区間に関連する特定データとが、所定のフォーマットで格納されたデータ構造である。この特定データは、特定区間の音声データを特定していてもよく、音声の一部である特定区間の位置を示す位置情報及び特定区間の特性を表す特性情報を含んでいてもよい。この特定区間に関連するデータは、再生装置の構造解析部１０３が、特定区間の再生を行うために、ファイル格納部１０１に格納された音声の音声データから特定区間の音声データを読み出す処理に用いられる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１００：処理装置、１０１：ファイル格納部、１０３：構造解析部、１０４：復号部、１０６：音声解析部、１０７：生成部、１０８：データ格納部

Claims

音声の音圧及び前記音声内の繰り返し区間を検出する解析手段と、
前記解析手段により検出された繰り返し区間のうち音圧に応じて選択された特定区間の音声データを特定する特定データを生成する生成手段と、
前記特定データを前記音声の音声データと共に所定のフォーマットで１つのファイルに格納する格納手段と、
を備えることを特徴とする格納装置。
前記特定データは、前記音声における前記特定区間の位置を示す位置情報であることを特徴とする、請求項１に記載の格納装置。
前記特定データは、前記特定区間の位置を示す時間情報であることを特徴とする、請求項１又は２に記載の格納装置。
前記特定データは、前記特定区間の位置を示すサンプルカウント情報であることを特徴とする、請求項１又は２に記載の格納装置。
前記特定データは、前記特定区間を少なくとも一部に含む区間を特定する情報であることを特徴とする、請求項１から４のいずれか１項に記載の格納装置。
前記所定のフォーマットはＭＰ４ファイルフォーマットであり、前記格納手段は前記特定データを前記１つのファイルのSampleEntryに格納し、又は前記特定データをサンプルグループ情報として格納することを特徴とする、請求項１から４のいずれか１項に記載の格納装置。
前記格納手段は、前記音声データとは別に前記特定区間の音声データを前記１つのファイルに格納することを特徴とする、請求項１又は２に記載の格納装置。
前記格納手段は、前記特定区間の音声データを、前記音声データとは異なる形式で格納することを特徴とする、請求項７に記載の格納装置。
前記格納手段は、前記音声データとは異なる符号化形式、サンプリングレート、又は量子化ビット数を有する前記特定区間の音声データを格納することを特徴とする、請求項８に記載の格納装置。
前記所定のフォーマットはＭＰ４ファイルフォーマットであり、前記格納手段は前記音声データとは異なるトラックに前記特定区間の音声データを格納し、前記特定データをトラック参照情報として格納することを特徴とする、請求項７から９のいずれか１項に記載の格納装置。
前記特定データが、さらに前記特定区間の特性を表す特性情報を含むことを特徴とする、請求項１から１０のいずれか１項に記載の格納装置。
音声の一部である特定区間の位置を示す位置情報と、前記特定区間の特性を表す特性情報と、を含む、前記特定区間に関連する特定データを取得する取得手段と、
前記特定データを前記音声の音声データと共に所定のフォーマットで１つのファイルに格納する格納手段と、
を備えることを特徴とする格納装置。
前記特性情報は、前記特定区間の音圧情報であるか、又は前記特定区間が前記音声の特徴的な部分であることを示す情報であることを特徴とする、請求項１１又は１２に記載の格納装置。
音声の音声データと、前記音声の一部である特定区間に関連するメタデータとを含む音声ファイルを取得する取得手段と、
前記メタデータを解析することにより、前記特定区間の音声データを特定する解析手段と、
前記解析手段が特定した前記特定区間の音声データを再生のために前記音声ファイルから読み出す読み出し手段と、
を備えることを特徴とする再生装置。
前記解析手段は、前記取得手段が取得した音声ファイルが前記特定区間に関連するメタデータを含んでいるか否かに応じて、ユーザインタフェースに特定区間の音声の再生に関する項目を表示するか否かを制御することを特徴とする、請求項１４に記載の再生装置。
音声の音声データと、前記音声の一部である特定区間の位置を示す位置情報及び前記特定区間の特性を表す特性情報を含む前記特定区間に関連する特定データとが、所定のフォーマットで格納されたデータ構造であって、
前記特定データは、再生装置の解析手段が前記特定区間の再生を行うために、格納手段に格納された前記音声の音声データから前記特定区間の音声データを読み出す処理に用いられる、データ構造。
格納装置が行う格納方法であって、
音声の音圧及び前記音声内の繰り返し区間を検出する工程と、
前記検出された繰り返し区間のうち、音圧に応じて選択された特定区間の音声データを特定する特定データを生成する工程と、
前記特定データを前記音声の音声データと共に所定のフォーマットで１つのファイルに格納する工程と、
を有することを特徴とする格納方法。
格納装置が行う格納方法であって、
音声の一部である特定区間の位置を示す位置情報と、前記特定区間の特性を表す特性情報と、を含む、前記特定区間に関連する特定データを取得する工程と、
前記特定データを前記音声の音声データと共に所定のフォーマットで１つのファイルに格納する工程と、
を有することを特徴とする格納方法。
再生装置が行う再生方法であって、
音声の音声データと、前記音声の一部である特定区間に関連するメタデータとを含む音声ファイルを取得する工程と、
前記メタデータを解析することにより、前記特定区間の音声データを特定する工程と、
特定した前記特定区間の音声データを前記音声ファイルから読み出す工程と、
を有することを特徴とする再生方法。
コンピュータを、請求項１から１３のいずれか１項に記載の格納装置又は請求項１４若しくは１５に記載の再生装置として機能させるためのプログラム。