JP2023091483A - 格納装置、再生装置、格納方法、再生方法、データ構造、及びプログラム - Google Patents
格納装置、再生装置、格納方法、再生方法、データ構造、及びプログラム Download PDFInfo
- Publication number
- JP2023091483A JP2023091483A JP2021206254A JP2021206254A JP2023091483A JP 2023091483 A JP2023091483 A JP 2023091483A JP 2021206254 A JP2021206254 A JP 2021206254A JP 2021206254 A JP2021206254 A JP 2021206254A JP 2023091483 A JP2023091483 A JP 2023091483A
- Authority
- JP
- Japan
- Prior art keywords
- data
- audio
- specific
- specific section
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000004458 analytical method Methods 0.000 claims abstract description 62
- 238000005070 sampling Methods 0.000 claims description 7
- 238000013139 quantization Methods 0.000 claims description 5
- 206010036649 Pressure of speech Diseases 0.000 claims description 3
- 238000013500 data storage Methods 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 11
- AWSBQWZZLBPUQH-UHFFFAOYSA-N mdat Chemical compound C1=C2CC(N)CCC2=CC2=C1OCO2 AWSBQWZZLBPUQH-UHFFFAOYSA-N 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 238000012916 structural analysis Methods 0.000 description 3
- 241001342895 Chorus Species 0.000 description 2
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/34—Indicating arrangements
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/102—Programmed access in sequence to addressed parts of tracks of operating record carriers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
Description
本発明は格納装置、再生装置、格納方法、再生方法、データ構造、及びプログラムに関し、特に音声(オーディオ)ファイルの格納及び再生方法に関する。
近年、オンラインでの音楽配信サービスを利用するユーザが増加している。例えば、買い切り型のサービスでは、データを曲ごとに購入することができ、購入した曲をいつでも再生することができる。また、サブスクリプション型のサービスでは、契約期間のみ不特定の曲を再生する権利を得ることができる。さらに、ユーザが、音声データを音楽配信サービスからローカル端末にダウンロードすることもあり、この場合、オフラインの環境で曲を再生することができる。
音声データを購入する際に、ユーザの気に入る曲を探すことを容易にするには、その曲の特徴的な部分を試聴できることが望ましい。例えば、ユーザがテレビCMなどで曲の一部を聞いた際に、ユーザがこの曲を気に入り、この曲を探すことがある。この場合、ユーザが曲名を知らなくても、候補曲を試聴する際にその曲の特徴的な部分を主に試聴することができれば、ユーザは効率よく目当ての曲を見つけることができる。
一方で、曲を複数の区間に分割する技術も知られている。例えば、特許文献1には、歌唱動画のコンテンツを複数の区間に分割し、複数の歌唱動画のそれぞれの区間を組み合わせる技術が開示されている。区間としては、サビ/High Point、Aメロ/Verse、及びBメロ/Bridge等が挙げられている。
ダウンロードした曲は、例えばMP4ファイルフォーマット(ISO/IEC 14496 Part14)のような形式で保存される。一方で、ダウンロードした曲を再生する場合に、ユーザは主にその曲の特徴的な部分を再生することを望む場合がある。例えば、ユーザは、ダウンロードした曲から所望の曲を探すことがあり、またダウンロードした多数の曲を聴きたいことがある。
本発明は、音声データのうち特徴的な部分を主に再生することを容易にする技術を提供する。
本発明の一実施形態に係る格納装置は以下の構成を備える。すなわち、音声の音圧及び前記音声内の繰り返し区間を検出する解析手段と、前記解析手段により検出された繰り返し区間のうち音圧に応じて選択された特定区間の音声データを特定する特定データを生成する生成手段と、前記特定データを前記音声の音声データと共に所定のフォーマットで1つのファイルに格納する格納手段と、を備える。
音声データのうち特徴的な部分を主に再生することが容易になる。
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
(実施形態1)
図1は、本発明の一実施形態に係る格納装置を含むシステムの一例を示す。本実施形態に係る格納装置である処理装置100は、ネットワーク300を介して、音楽配信サービス200と接続することができる。なお、処理装置100及び音楽配信サービス200はそれぞれ複数存在していてもよい。
図1は、本発明の一実施形態に係る格納装置を含むシステムの一例を示す。本実施形態に係る格納装置である処理装置100は、ネットワーク300を介して、音楽配信サービス200と接続することができる。なお、処理装置100及び音楽配信サービス200はそれぞれ複数存在していてもよい。
処理装置100は、例えばパーソナルコンピュータ、スマートフォン、又はタブレットPCでありうるが、これらの例には限定されない。図12は、処理装置100として使用可能なコンピュータの基本構成を示す図である。図12においてプロセッサ1201は、例えばCPUであり、コンピュータ全体の動作をコントロールする。メモリ1202は、例えばRAMであり、プログラム及びデータ等を一時的に記憶する。コンピュータが読み取り可能な記憶媒体1203は、例えばハードディスク又はCD-ROM等であり、プログラム及びデータ等を長期的に記憶する。本実施形態においては、記憶媒体1203が格納している、各部の機能を実現するプログラムが、メモリ1202へと読み出される。そして、プロセッサ1201が、メモリ1202上のプログラムに従って動作することにより、各部の機能が実現される。
図12において、入力インタフェース1204は外部の装置から情報を取得するためのインタフェースである。また、出力インタフェース1205は外部の装置へと情報を出力するためのインタフェースである。バス1206は、上述の各部を接続し、データのやりとりを可能とする。なお、処理装置100が有する各処理部のうちの一部又は全部が、専用のハードウェアによって実現されてもよい。
ネットワーク300は、例えばインターネット、3G/4G/LTE/5G等のWAN(Wide Area Network)、有線LAN(Local Area Network)、無線LAN(Wireless LAN)、アドホックネットワーク、又はBluetoothでありうるが、これらの例には限定されない。
次に、本実施形態に係る処理装置100の機能構成について、図2を参照して説明する。本実施形態に係る処理装置100は、生成部107、データ格納部108を備える。図2に示すように、処理装置100は、さらにファイル格納部101、入出力部102、構造解析部103、復号部104、再生部105、及び音声解析部106を有していてもよい。
ファイル格納部101は音声(オーディオ)ファイルを格納することができる。ファイル格納部101は、音声ファイルとして、音楽配信サービスからダウンロードされた音楽ファイルを格納していてもよい。
入出力部102は、ファイル格納部101に格納された音声ファイルの読み出し、及びファイル格納部101への音声ファイルの書き込みを行うことができる。
構造解析部103は、入出力部102を介してファイル格納部101から読み出した音声ファイルのフォーマットを解析し、音声ファイルに格納された音声(オーディオ)の符号化データを取り出すことができる。また、復号部104は、構造解析部103によって取り出された符号化データを復号することができる。さらに、再生部105は、復号部104による復号により得られた音声データを、スピーカー等の出力部から出力させることができる。
音声解析部106は、音声の一部である特定区間を設定する。この特定区間は、音声の特徴的な部分に対応していてもよい。例えば、音声が曲である場合、特定区間は、曲の代表的なフレーズを含む部分又は盛り上がる部分であってもよく、サビ部分であってもよい。
本実施形態に係る音声解析部106は、音声の音圧及び音声内の繰り返し区間を検出することができる。例えば、音声解析部106は、復号部104による復号により得られた音声データを定量的に解析する機能を備える。具体的には、音声解析部106は、周波数解析、音圧解析、及び曲の繰り返しパターンを検出するパターン解析の機能を備えていてもよい。このように、音声解析部106は、音声の音圧、繰り返し区間、及び周波数のうちの少なくとも1つを解析することにより、特定区間を設定することができる。
音声解析部106による特定区間の設定方法の一例については後述する。一方で、音声解析部106の代わりにユーザによって特定区間が設定されてもよい。例えば、音声によっては、解析によって特徴的な部分を検出することが困難であるかもしれない。このような場合には、実際に音声を聴いたユーザが所望の区間を特定区間として設定することができる。
生成部107は、音声の一部である特定区間に関連するデータを取得することができる。本実施形態において、生成部107は、音声解析部106により検出された繰り返し区間のうち、音圧に応じて選択された特定区間に関連するデータを生成する。この例において、この特定区間に関連するデータ(以下、特定データと呼ぶことがある)は、特定区間の音声データを特定するデータである。例えば、特定データは、音声における特定区間の位置を示す位置情報であってもよい。このような位置情報を用いることで、音声内の特定区間を識別することができる。
一方で、特定データは、特定区間の特性を表す特性情報を含んでいてもよい。例えば、特定データが、特定区間の音圧情報を含んでいてもよい。また、特定データが、特定区間の種類を示す情報を含んでいてもよい。例えば、特定データは、特定区間が音声の特徴的な部分(例えば代表的なフレーズを含む部分であるHigh Point)であることを示す情報を含んでいてもよい。特定区間の種類の別の例としては、Verse、Bridge、第1楽章、などが挙げられる。このような特性情報を用いることで、ユーザが特定区間又は音声の特徴的な部分の特性を把握することが容易となり、複数の音声の中から再生したい音声を選択することが容易になる。特定データは、特定区間の位置を示す位置情報を含んでいてもよく、特定区間の特性を表す特性情報を含んでいてもよく、これらの双方を含んでいてもよい。
本実施形態において、生成部107は、音声解析部106による解析結果に従って上記のような特定データを生成する。一方で、生成部107は、ユーザによる特定区間の設定に従って特定データを生成し、又は、ユーザ入力に基づく特定データを取得してもよい。
データ格納部108は、特定区間に関連するデータを音声の音声データと共に所定のフォーマットで1つのファイルに格納する。データ格納部108は、生成部107によって生成された特定データを、解析された音声ファイルに格納することができる。特定データを格納した音声ファイルは、入出力部102によってファイル格納部101に書き込まれる。
次に、音声解析部106が行う処理の一例について、図3及び図4を参照して説明する。以下の処理において、音声解析部106は音声の音圧及び音声内の繰り返し区間に基づいて特定区間を設定する。一方で、特定区間の設定方法は以下の方法に限定されず、例えば音声解析部106はニューラルネットワークを用いて検出した音声の特徴的な部分を特定区間として設定してもよい。
S301において音声解析部106は音声の音圧を検出する。例えば、図4(A)に示すように、音声解析部106は音声データの始めから終わりまでの音圧を検出することができる。なお、図4(A)~(C)は、ステレオ音声の解析結果の例を示している。
次のS302において音声解析部106は音圧の検出結果に基づいて音圧のパターンを解析する。この解析において、音声解析部106は、類似する音圧の波形パターンが局所的に繰り返される区間の検出を行うことができる。例えば図4(B)は、A、B、C、及びDの3つのパターンが検出された例を示している。
次のS303において音声解析部106は、音声内の繰り返し区間を検出する。音声解析部106は、音圧パターンの解析結果に基づいて繰り返し区間を検出することができる。例えば、音声解析部106は、類似する音圧の波形パターンが、異なる波形パターンを挟んで2回以上繰り返されているか否かを判定することができる。繰り返し区間が検出されない場合、処理はS304に進む。S304において音声解析部106は、S302で検出された区間のうち音圧が最も大きい区間を特定区間として設定する。
一方で、S303で繰り返し区間が検出された場合、処理はS305に進む。S305において音声解析部106は、繰り返し区間ごとに音圧を比較する。そして、続くS306において、音声解析部106は、最大音圧の繰り返し区間とその次に音圧が高い繰り返し区間との音圧の差異が所定値より大きいか否かを判定する。音圧の差異が所定値よりも大きい場合、処理はS307に進み、音声解析部106は音圧が最大となる繰り返し区間のうちの1つを特定区間に設定する。例えば図4(C)は、検出された3つの繰り返しパターンA,B,Cのうち、繰り返しパターンCの区間の音圧が最大であり、その次に音圧が大きい繰り返しパターンAの区間との音圧の差が所定値よりも大きい様子を示している。この例では、繰り返しパターンCの区間うち、最も音圧が大きい区間であるC1の区間が特定区間として設定される。
一方で、音圧の差異が所定値以下である場合、処理はS308に進み、音声解析部106は音声の周波数解析を行う。例えば、音声解析部106は、図4(D)に示すように音声全体の周波数を解析することができる。次のS309において音声解析部106は、特定の周波数成分が最も多い区間を特定区間として設定することができる。ここで、特定の周波数成分はその音声の種類に応じて選択することができる。例えば、特定の周波数成分は、主に人の声が含まれる周波数帯であってもよいし、特定の楽器の音が多く含まれる周波数帯であってもよい。
図3及び図4に示すように設定された特定区間は、現代の一般的な楽曲における楽曲の特徴的な部分、例えば代表的なフレーズを含む区間である可能性が高い。なお、区間ごとに音圧を比較する際には、各区間の音圧の大きさの平均値を比較してもよいし、各区間の音圧の大きさの最大値を比較してもよい。さらに、平均値と最大値の両方を用いて各区間の音圧の比較を行ってもよい。
また、特定区間の長さは制限されていてもよい。例えば、特定区間の長さは所定の長さ以下に制限されていてもよいし、所定の長さ以上に制限されていてもよい。この場合、S302において、このような制限を考慮してパターン解析を行ってもよい。例えば、音声解析部106は、各区間の長さが制限を満たすように、区間の検出を行うことができる。別の方法として、図3のフローチャートに従って設定された特定区間のうちの一部であるか又はこれを含む区間を、最終的な特定区間として設定してもよい。例えば、音声解析部106は、図3のフローチャートに従って設定された特定区間の先頭から始まり、制限を満たす長さの区間を、最終的な特定区間として設定することができる。この場合、特定区間が、S302で検出された複数の区間を含んでいてもよく、すなわち特定データが、特定区間を少なくとも一部に含む区間を特定する情報であってもよい。
次に、特定区間に関連する特定データを音声ファイルに格納する方法について、図5及び図6を参照して説明する。図5は、一実施形態に係る、MP4ファイルフォーマットに従う音声ファイルの構造を示す。MP4ファイルフォーマットは、BOXと呼ばれる要素が入れ子となったツリー構造を持つが、図5では主要なBOXのみ図示されている。図5において、4文字の英子文字はBOXの名称を表す。この例では、特定データとして、特定区間の位置を示す時間情報が音声ファイルに格納される。
mdat(502)には符号化された音声データ503が格納され、moov(501)にはメタデータが格納される。メタデータとしては、例えば、音声データの再生処理に必要なデータを格納することができる。また、MP4ファイルフォーマットは、格納される音声又は動画等の各メディアに対応するトラックと呼ばれる構造を持ち、trak(504)がトラックの情報を格納するBOXである。
さらに、trak(504)は複数のBOXによって構成される。stsd(505)はSampleDescriptionBoxと呼ばれ、音声データ(503)を復号する為に必要な情報、及び再生処理する際のタイミング情報などの詳細情報が格納される。音声データのトラックにおいては、stsd(505)はAudioSampleEntry(506)と呼ばれる構造を持つ。AudioSampleEntry(506)には、音声データのサンプリング周波数、ビット数、及びチャンネル数などの情報が格納される。
本発明の一実施形態では、AudioSampleEntry(506)の中に特定データが格納される。図5の例では、特定区間508は音声のHigh Pointであり、特定データはこの特定区間508の位置を示す位置情報であって、hipt(507)と記述されている。
次に、AudioSampleEntry(506)に格納する特定データの内容について、図6を参照して説明する。図6において、コード601はAudioSampleEntry(506)の構文を示す。基本的な構成はMP4ファイルフォーマットの標準規格と同じであるが、標準規格と比較して最後のHighPointBox(602)が追加されている。
図6のコード603はHighPointBox(602)の構文の例である。図5の音声データ503についての特定区間の位置を示す位置情報として、特定区間が始まる時刻を示すstart_time及び特定区間の期間を示すdurationが格納される。なお、特定区間は複数の区間に分割されていてもよい。例えば、図4(C)の例において、C1の区間及びC2の区間の双方が特定区間として選択されてもよい。この場合、HighPointBox(602)の構文にあるentry_countを2以上とすることができる。なお、start_time及びdurationは、トラックごとに設定されるタイムスケールに基づく数値を設定することができる。例えば、音声データのサンプリング周波数が48kHzの場合、トラックのタイムスケールを48000とすると1サンプル当たりの期間は1024となる。したがって、特定区間が1分25秒から30秒間である場合、start_time = 4079616 (1024x3984)、duration = 1439744 (1024x1406)とすることができる。
このように、特定データは音声ファイルのSampleEntryに格納することができる。図5及び図6において、特定データを格納するBOXの名称はHighPointBoxであり、その4文字コードはhiptであるが、これらは一例にすぎず、他の名称及び4文字コードを用いることもできる。例えば、BOXの名称と4文字コードの組み合わせとして、FeaturePartBox(feat)、ImpressionPartBox(impr)、HighlightBox(hglt)、又はChorusBox(chrs)等を用いてもよい。
次に、特定区間に関連する特定データを音声ファイルに格納する別の方法について、図7及び図8を参照して説明する。図7も、一実施形態に係る、MP4ファイルフォーマットに従う音声ファイルの構造を示す。この例では、特定データとして、特定区間の位置を示す位置情報であるサンプルカウント情報が音声ファイルに格納される。
図7において、sbgp(702)はsample to group box、sgpd(703)はsample group description boxであり、共にMP4ファイルフォーマットの標準規格で定義されている。sbgp(702)は何らかの共通の属性を持つサンプル群で構成されるグループを定義することができる。また、sgpd(703)はこの共通の属性をグルーピングタイプとして定義し、グループについての属性情報を格納することができる。この例では、特定区間に該当するサンプルがsbgp(702)を用いてグループ化され、sgpd(703)を用いて特定区間の属性情報が定義される。
これらの定義方法について図8を参照して説明する。図8において、コード801はsbgp(702)の構文を示している。ここでは、sample_countごとにgroup_description_indexを設定する事でグループ化が行われる。また、group_description_indexが「0」であることは、そのサンプルをグループ化しない事を示す。そこで、特定区間の前までのサンプルのgroup_description_indexを「0」に設定し、特定区間内のサンプルのgroup_description_indexを1以上の数値に設定することができる。このような方法により、特定区間に該当するサンプルをグループ化することができる。このように、特定データは音声ファイルのサンプルグループ情報として格納することができる。
また、コード802はsgpd(703)の構文を示しており、これはコード801に従って定義されたグループの属性情報を定義する。ここでは、特定区間に関連する情報をSampleGroupDescriptionEntryとして定義することができる。SampleGroupDescriptionEntryの定義の例としては図8のコード803に示すBOXが挙げられる。コード803に示すHighPointEntryは、特にパラメータを保有していない。しかしながら、HighPointEntryには、特定区間の特性を表す特性情報を格納してもよい。例えば、HighPointEntryには特定区間の音圧を示すパラメータを格納することができる。このような構成により、曲の特徴的な部分であり、盛り上がる部分である特定区間の音圧情報を格納することができる。
以上のように、特定区間の位置は、時間又はサンプルグループを用いて特定することができる。もっとも、音声の特定区間を識別する方法は、ここで説明した例に限定されない。
次に、特定区間に関連するデータを含むファイルを格納する手順について、図9を参照して説明する。以下では、図5又は図7に示すようなMP4ファイルを生成する手順について説明する。
まずS901において、生成部107はファイル格納部101から音声ファイルを読み出す。次のS902において、音声解析部106は特定区間を設定する。音声解析部106は、上述したように、図3のフローチャートに従って特定区間を設定してもよいし、ユーザ入力に基づいて特定区間を設定してもよい。
S903において生成部107は、特定区間に関連するデータである特定データを生成する。上述したように、特定データは、特定区間の位置を示す位置情報、及び/又は特定区間の特性を表す特性情報でありうる。具体例として、生成部107は、図5又は図7を参照して説明した方法にしたがって、特定データを生成することができる。
S903で生成された特定データをメタデータとして音声ファイルに格納する際には、メタデータを格納するBOXであるmoov(501)のバイト数が変わることにより、mdat(502)のファイル内での位置が変わる可能性がある。そこで次のS904において生成部107は、ファイルの先頭からmdat(502)の先頭までのバイト数が変わった場合に、符号化された音声データを参照するためのオフセット値を変更する。このように、生成部107はオフセット値の再計算を行う。
なお、オフセット値を利用するBOXの種類は多い。複雑な処理を伴う再計算を削減するために、free BOXなどの内容が読まれないことが多いBOXを、予めmoov(501)の中又はmoov(501)とmdat(502)との間に配置しておくことができる。この場合、生成部107は、メタデータの増加量だけfree BOXを縮小することにより、mdat(502)のファイル内での位置が変わることを避けることができる。
次のS905においてデータ格納部108は、S903で生成された特定データをメタデータとして音声ファイルに格納する。すなわち、データ格納部108は、S901で読み出された音声ファイルのメタデータを、S903で生成された特定データを含むように更新することができる。この際にデータ格納部108は、音声ファイルのメタデータにおけるオフセット値を、S904の結果に従って更新することができる。
ここまで、特定区間に関するデータとして、特定区間の位置を示す位置情報又は特定区間の特性を表す特性情報をファイルに格納する場合について説明した。一方で、特定区間に関するデータの種類はこれらに限定されない。以下では、特定区間に関するデータとして、音声データとは別に格納された特定区間の音声データを特定する情報をファイルに格納する場合について説明する。
本実施形態においてデータ格納部108は、音声データとは別に特定区間の音声データを1つの音声ファイルに格納する。例えばデータ格納部108は、特定区間の音声データを、音声データとは別のトラックに格納することができる。図10は、一実施形態に係る、MP4ファイルフォーマットに従う音声ファイルの構造を示す。mdatには音声データ1001と音声データ1002とが格納される。音声データ1001を管理するトラックのIDは1であり、音声データ1002を管理するトラックのIDは2である。音声データ1002は、音声データ1001の特定区間と同じ内容を持つ。すなわち、音声データ1002の音声は、音声データ1001の音声の一部である。
一方で、音声データ1001と音声データ1002との間で、音声データの形式は異なっていてもよい。例えば、サンプリングレート、量子化ビット数、又は符号化形式等の音声データ属性が異なっていてもよい。このように、データ格納部108は、特定区間の音声データを、音声データとは異なる形式で格納することができる。
一例として、音声データ1001は符号化形式がMPEG-4 ALS(Audio Lossless Coding)、サンプリングレート192kHz、及び量子化ビット数24bitであってもよい。一方で、音声データ1002は、符号化形式がリニアPCM、サンプリングレート48kHz、及び量子化ビット数16bitであってもよい。この場合、音声データ1001はいわゆるハイレゾと呼ばれる品質の高い音声データであり、能力の低い再生機器を用いた場合には再生できないかもしれない。一方で、音声データ1002はほとんどの再生機器で再生可能だろう。このような音声ファイルを用意することにより、曲を試聴する際には、曲の特徴的な部分である音声データ1002を再生することにより曲を効率的に把握することができる。これに加えて、音声データ1001と音声データ1002の品質が異なるため、曲を様々な再生機器を用いて再生すること、又はより低い処理負荷で再生することが可能となる。
本実施形態のように複数のトラックが存在する場合、trak(1005)はトラックの数だけ存在する。そして、音声データ1002が音声データ1001の特定区間1003と同じ内容を持つことを示す情報は、tref(1004)に格納することができる。tref(1004)はトラック間の参照情報を格納するBOXであり、図11に示す構成を持つことができる。
図11において、trak_IDs(1101)は参照先のトラックのIDを配列形式で記述する。また、reference_type(1102)は参照関係の種類を示す4文字コードの識別子を記述する。本実施形態では、トラックID=2の音声データ1002が、トラックID=1の音声データ1001の特定区間1003と同じ内容を持つ。そこで、トラックID=2のtref(1004)におけるtrak_IDs(1101)を1にすることができる。また、トラックID=2のtref(1004)におけるreference_type(1102)を、hipt(HighPointBox)、feat(FeaturePartBox)、impr(ImpressionPartBox)、hglt(HighlightBox)、又はchrs(ChorusBox)等にすることができる。
このような参照情報は、特定のトラックの音声データ(例えば音声データ1001)についての特定区間に関連するデータであり、特定区間の音声データ(例えば音声データ1002)を識別するために用いることができる。また、reference_type(1102)も、特定区間に関連するデータであり、特定区間の種類(例えばHigh Point)を示すこともできる。本実施形態では、これらのデータを、特定区間に関連するデータとして音声ファイルに格納することができる。このように、データ格納部108は、音声データとは異なるトラックに特定区間の音声データを格納し、特定区間に関連するデータをトラック参照情報として格納することができる。なお、特定区間に関連するデータとして、特定区間が音声データ1001として格納されている音声のどの区間に対応するのかを示す、例えば上述の位置情報のようなデータが、さらに格納されていてもよい。
このようなMP4ファイルの生成も、図9のフローチャートに従って行うことができる。S903における特定データの生成は以下のように行うことができる。生成部107は、S902で設定された特定区間の音声データを再エンコードする。この時、生成部107は、サンプリングレート、量子化ビット数、又は符号化形式等の音声データ属性を、元の属性から変更してもよい。また、データ格納部108は、再エンコードにより得られた音声データをmdatに格納する。さらに、生成部107は、この音声データを管理するための新しいトラックを生成し、特定データをこのトラックに含める。このデータは、S905においてメタデータとして音声ファイルに格納される。
以上のように、本実施形態によれば、音声ファイルに、音声の一部である特定区間の音声データを特定可能な情報を格納することができる。このような音声ファイルを用いることにより、代表的なフレーズを含む部分のような特定区間の音声を、優先的に再生することが可能となる。
(実施形態2)
次に、上述の実施形態に従って作成可能である音声ファイルを再生する方法について説明する。音声ファイルを再生する再生装置としては、処理装置100を用いることができる。入出力部102は、音声の音声データと、音声の一部である特定区間に関連するメタデータとを含む音声ファイルを取得する。
次に、上述の実施形態に従って作成可能である音声ファイルを再生する方法について説明する。音声ファイルを再生する再生装置としては、処理装置100を用いることができる。入出力部102は、音声の音声データと、音声の一部である特定区間に関連するメタデータとを含む音声ファイルを取得する。
構造解析部103は、メタデータを解析することにより、特定区間の音声データを特定する。例えば、図5に示される音声ファイルを取得した場合、構造解析部103は、特定データであるhipt(507)に従って、特定区間508の音声データを特定することができる。また、図7に示される音声ファイルを取得した場合、構造解析部103は、特定データであるsbgp(702)及びsgpd(703)に従って、グループ化されている、特定区間の音声データを特定することができる。さらに、図10に示される音声ファイルを取得した場合、構造解析部103は、特定データであるtraf(1004)に従って、音声データ1001についての特定区間の音声データ1002を特定することができる。
復号部104は、構造解析部103が特定した特定区間の音声データを再生のために音声ファイルから読み出すことができる。本実施形態において、復号部104は符号化された音声データを復号し、音声データを再生のために再生部105に送ることができる。
次に、このような音声ファイルを再生する方法について、図13を参照して説明する。S1301で入出力部102は音声ファイルをファイル格納部101から読み出す。上述のように、特定区間に関連する特定データは、メタデータとして音声ファイルに格納されている。したがって、S1302において構造解析部103は、読み出した音声ファイルのメタデータの解析を行う。
さらに、構造解析部103は、音声ファイルが特定区間に関連するメタデータを含んでいるか否かに応じて、ユーザインタフェースに特定区間の音声の再生に関する項目を表示するか否かを制御することができる。すなわち、特定データが存在しているか否かに応じて、ユーザインタフェースを変更することができる。例えば、次のS1303で構造解析部103は、音声ファイルに特定データが存在しているか否かを判定することができる。特定データが存在している場合、処理はS1304に進む。S1304において構造解析部103は、ディスプレイ(不図示)に、「特定区間の再生」項目を含む再生メニューを表示することができる。また、S1303において特定データが存在しない場合、処理はS1305に進む。S1305において構造解析部103は、ディスプレイ(不図示)に、「特定区間の再生」項目を含まない再生メニューを表示することができる。その後、これらのユーザインタフェースに対するユーザ操作に基づいて、再生部105は、音声のうち特定区間の再生を行い、又は音声全体の再生を行うことができる。
次に、再生メニューの例について図14を参照して説明する。図14は、音声ファイル1401を再生する際に表示されるユーザインタフェースである、コンテキストメニューの例を示す。音声データを最初から再生することを指示する「再生」1402は常に表示される一方で、特定区間のみの再生を行う「特定区間を再生」1403は、音声ファイル1401が特定データを含む場合のみ表示される。つまり、音声ファイル1401が特定データを含む場合は、「特定区間を再生」1403を選択することで、特定区間のみを再生することができる。
特定データを用いた再生制御方法は、図13に示す方法には限られない。例えば、ユーザが複数の曲の中から所望の曲を探すことを所望する場合には、複数の曲のそれぞれの特定区間のみを連続再生してもよい。この場合、連続再生中に、現在どの曲の特定区間を再生しているのかを示す情報を、ユーザインタフェース上に表示し、又は音声ガイドにより通知してもよい。
また、MP4ファイルフォーマットに従う1つの音声ファイルには、複数の音楽データを格納することができる。例えば、お気に入りのアーティストのアルバム、又はお気に入りの曲の集合を、1つの音声ファイルに格納することができる。このように格納された音楽データは、それぞれ別トラックとして格納することができる。このため、トラックごとの特定データを音声ファイルに格納することにより、聞きたい音楽データを選ぶことが容易となる。
以上では、図1に示す処理装置100が格納装置又は再生装置として動作する場合について説明した。しかしながら、一実施形態に係る格納装置及び再生装置は、他の装置によって実現されてもよい。また、一実施形態に係る格納装置及び再生装置は、例えばネットワークを介して接続された複数の情報処理装置によって構成されていてもよい。
また、本発明の一実施形態は、上記のような音声ファイルのデータ構造にも関する。一実施形態に係るデータ構造は、音声の音声データと、音声の一部である特定区間に関連する特定データとが、所定のフォーマットで格納されたデータ構造である。この特定データは、特定区間の音声データを特定していてもよく、音声の一部である特定区間の位置を示す位置情報及び特定区間の特性を表す特性情報を含んでいてもよい。この特定区間に関連するデータは、再生装置の構造解析部103が、特定区間の再生を行うために、ファイル格納部101に格納された音声の音声データから特定区間の音声データを読み出す処理に用いられる。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
100:処理装置、101:ファイル格納部、103:構造解析部、104:復号部、106:音声解析部、107:生成部、108:データ格納部
Claims (20)
- 音声の音圧及び前記音声内の繰り返し区間を検出する解析手段と、
前記解析手段により検出された繰り返し区間のうち音圧に応じて選択された特定区間の音声データを特定する特定データを生成する生成手段と、
前記特定データを前記音声の音声データと共に所定のフォーマットで1つのファイルに格納する格納手段と、
を備えることを特徴とする格納装置。 - 前記特定データは、前記音声における前記特定区間の位置を示す位置情報であることを特徴とする、請求項1に記載の格納装置。
- 前記特定データは、前記特定区間の位置を示す時間情報であることを特徴とする、請求項1又は2に記載の格納装置。
- 前記特定データは、前記特定区間の位置を示すサンプルカウント情報であることを特徴とする、請求項1又は2に記載の格納装置。
- 前記特定データは、前記特定区間を少なくとも一部に含む区間を特定する情報であることを特徴とする、請求項1から4のいずれか1項に記載の格納装置。
- 前記所定のフォーマットはMP4ファイルフォーマットであり、前記格納手段は前記特定データを前記1つのファイルのSampleEntryに格納し、又は前記特定データをサンプルグループ情報として格納することを特徴とする、請求項1から4のいずれか1項に記載の格納装置。
- 前記格納手段は、前記音声データとは別に前記特定区間の音声データを前記1つのファイルに格納することを特徴とする、請求項1又は2に記載の格納装置。
- 前記格納手段は、前記特定区間の音声データを、前記音声データとは異なる形式で格納することを特徴とする、請求項7に記載の格納装置。
- 前記格納手段は、前記音声データとは異なる符号化形式、サンプリングレート、又は量子化ビット数を有する前記特定区間の音声データを格納することを特徴とする、請求項8に記載の格納装置。
- 前記所定のフォーマットはMP4ファイルフォーマットであり、前記格納手段は前記音声データとは異なるトラックに前記特定区間の音声データを格納し、前記特定データをトラック参照情報として格納することを特徴とする、請求項7から9のいずれか1項に記載の格納装置。
- 前記特定データが、さらに前記特定区間の特性を表す特性情報を含むことを特徴とする、請求項1から10のいずれか1項に記載の格納装置。
- 音声の一部である特定区間の位置を示す位置情報と、前記特定区間の特性を表す特性情報と、を含む、前記特定区間に関連する特定データを取得する取得手段と、
前記特定データを前記音声の音声データと共に所定のフォーマットで1つのファイルに格納する格納手段と、
を備えることを特徴とする格納装置。 - 前記特性情報は、前記特定区間の音圧情報であるか、又は前記特定区間が前記音声の特徴的な部分であることを示す情報であることを特徴とする、請求項11又は12に記載の格納装置。
- 音声の音声データと、前記音声の一部である特定区間に関連するメタデータとを含む音声ファイルを取得する取得手段と、
前記メタデータを解析することにより、前記特定区間の音声データを特定する解析手段と、
前記解析手段が特定した前記特定区間の音声データを再生のために前記音声ファイルから読み出す読み出し手段と、
を備えることを特徴とする再生装置。 - 前記解析手段は、前記取得手段が取得した音声ファイルが前記特定区間に関連するメタデータを含んでいるか否かに応じて、ユーザインタフェースに特定区間の音声の再生に関する項目を表示するか否かを制御することを特徴とする、請求項14に記載の再生装置。
- 音声の音声データと、前記音声の一部である特定区間の位置を示す位置情報及び前記特定区間の特性を表す特性情報を含む前記特定区間に関連する特定データとが、所定のフォーマットで格納されたデータ構造であって、
前記特定データは、再生装置の解析手段が前記特定区間の再生を行うために、格納手段に格納された前記音声の音声データから前記特定区間の音声データを読み出す処理に用いられる、データ構造。 - 格納装置が行う格納方法であって、
音声の音圧及び前記音声内の繰り返し区間を検出する工程と、
前記検出された繰り返し区間のうち、音圧に応じて選択された特定区間の音声データを特定する特定データを生成する工程と、
前記特定データを前記音声の音声データと共に所定のフォーマットで1つのファイルに格納する工程と、
を有することを特徴とする格納方法。 - 格納装置が行う格納方法であって、
音声の一部である特定区間の位置を示す位置情報と、前記特定区間の特性を表す特性情報と、を含む、前記特定区間に関連する特定データを取得する工程と、
前記特定データを前記音声の音声データと共に所定のフォーマットで1つのファイルに格納する工程と、
を有することを特徴とする格納方法。 - 再生装置が行う再生方法であって、
音声の音声データと、前記音声の一部である特定区間に関連するメタデータとを含む音声ファイルを取得する工程と、
前記メタデータを解析することにより、前記特定区間の音声データを特定する工程と、
特定した前記特定区間の音声データを前記音声ファイルから読み出す工程と、
を有することを特徴とする再生方法。 - コンピュータを、請求項1から13のいずれか1項に記載の格納装置又は請求項14若しくは15に記載の再生装置として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021206254A JP2023091483A (ja) | 2021-12-20 | 2021-12-20 | 格納装置、再生装置、格納方法、再生方法、データ構造、及びプログラム |
US18/066,808 US20230197114A1 (en) | 2021-12-20 | 2022-12-15 | Storage apparatus, playback apparatus, storage method, playback method, and medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021206254A JP2023091483A (ja) | 2021-12-20 | 2021-12-20 | 格納装置、再生装置、格納方法、再生方法、データ構造、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023091483A true JP2023091483A (ja) | 2023-06-30 |
Family
ID=86768756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021206254A Pending JP2023091483A (ja) | 2021-12-20 | 2021-12-20 | 格納装置、再生装置、格納方法、再生方法、データ構造、及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230197114A1 (ja) |
JP (1) | JP2023091483A (ja) |
-
2021
- 2021-12-20 JP JP2021206254A patent/JP2023091483A/ja active Pending
-
2022
- 2022-12-15 US US18/066,808 patent/US20230197114A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230197114A1 (en) | 2023-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8017852B2 (en) | Music content reproduction apparatus, method thereof and recording apparatus | |
US10229669B2 (en) | Apparatus, process, and program for combining speech and audio data | |
CN106486128B (zh) | 一种双音源音频数据的处理方法及装置 | |
JP4989480B2 (ja) | 付加データとベースデータとを同期させるための装置及び方法 | |
US8457977B2 (en) | Advanced encoding of music files | |
TW201238279A (en) | Semantic audio track mixer | |
KR20060049375A (ko) | 콘텐츠 이용장치, 콘텐츠 이용방법, 분배 서버 장치, 정보분배 방법 및 기록 매체 | |
JP2006127573A (ja) | コンテンツ利用装置、コンテンツ利用方法、配信サーバー装置、情報配信方法および記録媒体 | |
JP2003177784A (ja) | 音響変節点抽出装置及びその方法、音響再生装置及びその方法、音響再生システム、音響配信システム、情報提供装置、音響信号編集装置、音響変節点抽出方法プログラム記録媒体、音響再生方法プログラム記録媒体、音響信号編集方法プログラム記録媒体、音響変節点抽出方法プログラム、音響再生方法プログラム、音響信号編集方法プログラム | |
US20200272659A1 (en) | Device for efficient use of computing resources based on usage analysis | |
JP4898272B2 (ja) | プレイリスト検索装置およびプレイリスト検索方法 | |
Jang et al. | The MPEG interactive music application format standard [standards in a nutshell] | |
JP2023091483A (ja) | 格納装置、再生装置、格納方法、再生方法、データ構造、及びプログラム | |
JP2012018282A (ja) | 演奏ファイル管理装置、演奏ファイル再生装置および演奏ファイル再生方法 | |
JP6733240B2 (ja) | コンテンツの一覧の更新方法 | |
US10819884B2 (en) | Method and device for processing multimedia data | |
JP6648586B2 (ja) | 楽曲編集装置 | |
JP5098896B2 (ja) | 再生装置および再生方法 | |
JP2004241095A (ja) | オーディオ再生装置 | |
JP7197688B2 (ja) | 再生制御装置、プログラムおよび再生制御方法 | |
JP6699137B2 (ja) | データ管理装置、コンテンツ再生装置、コンテンツ再生方法、及びプログラム | |
JP2006243398A (ja) | 音響信号の合成装置および検索装置 | |
CN115440177A (zh) | 一种控制电钢琴变音色的方法、装置、系统及介质 | |
TWI492070B (zh) | 音樂視頻伺服器及其音樂視頻個性化設置方法 | |
KR20020074665A (ko) | 데이터 기록 및 재생 방법 및 그 장치 |