JP2006243398A - 音響信号の合成装置および検索装置 - Google Patents

音響信号の合成装置および検索装置 Download PDF

Info

Publication number
JP2006243398A
JP2006243398A JP2005059647A JP2005059647A JP2006243398A JP 2006243398 A JP2006243398 A JP 2006243398A JP 2005059647 A JP2005059647 A JP 2005059647A JP 2005059647 A JP2005059647 A JP 2005059647A JP 2006243398 A JP2006243398 A JP 2006243398A
Authority
JP
Japan
Prior art keywords
additional information
acoustic signal
acoustic
frame
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005059647A
Other languages
English (en)
Inventor
Toshio Motegi
敏雄 茂出木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2005059647A priority Critical patent/JP2006243398A/ja
Publication of JP2006243398A publication Critical patent/JP2006243398A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Stereophonic System (AREA)

Abstract

【課題】 ミックスダウン後の完成された音楽、CDや放送で流通している音楽から、制作時に使用された音楽素材やミックス時の条件パラメータ等の制作環境をバックトラック可能な音響信号の合成装置および検索装置を提供する。
【解決手段】 合成対象とする、付加情報が埋め込まれた複数の素材音響信号に対して、高周波成分と低周波成分の分離を行う。高周波成分についてはそのまま加算合成するが、低周波成分に対しては(a)(b)、単純に加算した後(c)、元のLR間比率になるように比率を変更して、合成後の低周波成分(d)に、元の付加情報が埋め込まれた状態とする。この後、高周波成分と統合して付加情報が埋め込まれた合成音響信号を得る。
【選択図】 図14

Description

本発明は、CD・DVD等を用いた民生・業務用途における鑑賞用のパッケージ音楽分野、放送事業者等が商業目的で配信する放送・ネットワーク音楽配信分野向けの音楽制作工程における音楽素材管理およびプロジェクト管理分野に関する。
音楽制作においては複数の音楽素材を合成する作業(ミックスダウンまたはトラックダウンと呼ばれる)が基本になる。また、過去に制作された音楽作品をリミックス(一部のパート素材を差し替えてミックスをやり直すこと)する場合もあるが、この場合は、制作時のミックスダウン環境(全素材データと合成条件パラメータ)を用いて行うことになる。
さらに、ループ音楽という市販のエンドレス波形素材を貼り合わせて、楽譜作成、楽器演奏を行わずに、作曲と音楽制作を簡便に行えるMIDIに替わる新規な制作手法も普及している。
また、音楽制作プロセスにおいて発生したデータを全て保存する素材・プロジェクト管理システムも提案されている(例えば、特許文献1、2参照)。
特開2002−245052号公報 特開2001−296865号公報
しかしながら、上記音楽素材の合成作業を行った場合、完成された音楽からはどのような音楽素材を基に制作されているかを逆に追跡することは不可能である。また、上記のように、音楽作品をリミックスする場合には、制作時のミックスダウン環境が再現できないと、全素材のレコーディングからやり直しになる。近年はデジタル制作環境が整っているため、制作時の環境(プロジェクトファイルと呼ばれ、素材や制作指示情報などミックスダウン時に参照するファイル一式)をCD/DVD/DAT等にバックアップすることが可能であるが、3分程度のシングル楽曲制作においても、この処理は半日程度要し、10G程度の保存メディアが必要になり、保管作業にはそれなりの負荷がかかる。
さらに、上記ループ音楽を利用する場合には、各ループ波形素材データのファイルヘッダには著作権情報のほかにテンポやピッチ情報といった編集に必要なパラメータが記録されているが、音楽を合成する段階でこれらの情報は消失し、完成された音楽データからはどのループ素材を用いているか判断することはできず、同様に制作時の素材レイアウト環境を保存する必要がある。また、上記特許文献1、2に記載の発明においても、完成された楽曲から制作プロセスをバックトラックできないという問題がある。
そこで、本発明は、ミックスダウン後の完成された音楽、CDや放送で流通している音楽から、制作時に使用された音楽素材やミックス時の条件パラメータ等の制作環境をバックトラック可能な音響信号の合成装置および検索装置を提供することを課題とする。
上記課題を解決するため、本発明では、聴取不能な状態で付加情報が埋め込まれた素材音響信号を複数合成して、元の付加情報が全て埋め込まれた合成音響信号を作成する装置であって、前記各素材音響信号から付加情報を抽出する付加情報抽出手段と、前記抽出された付加情報を合成して合成付加情報を作成する付加情報合成手段と、前記素材音響信号を指示された変更パラメータに従って変更する音響信号変更手段と、前記変更された素材音響信号を含めた複数の素材音響信号を合成して合成音響信号を作成する音響信号合成手段と、前記合成音響信号に対して、前記付加情報合成手段により作成された合成付加情報を埋め込み、埋め込み合成音響信号を作成する合成付加情報埋め込み手段を有する音響信号の合成装置を提供する。
また、本発明では、聴取不能な状態で低周波成分に付加情報が埋め込まれた素材音響信号を複数合成して、元の付加情報が全て埋め込まれた合成音響信号を作成する装置であって、前記各素材音響信号の低周波成分を抽出し、各素材音響信号の低周波成分を所定の時間単位で配置して合成する低周波成分合成手段と、前記各素材音響信号の高周波成分を抽出し、合成を行う高周波成分合成手段と、前記合成後の低周波成分および前記合成後の高周波成分を統合する統合手段を有する音響信号の合成装置を提供する。
本発明によれば、聴取不能な状態で低周波成分に付加情報が埋め込まれた素材音響信号の低周波成分を抽出して所定の時間単位で配置して合成すると共に、高周波成分についても合成し、合成した低周波成分、高周波成分を統合するようにしたので、完成された音楽に、音楽素材を特定する情報を埋め込むことが可能となり、ミックスダウン後の完成された音楽、CDや放送で流通している音楽から、制作時に使用された音楽素材やミックス時の条件パラメータ等の制作環境をバックトラックすることが可能となる。
以下、本発明の実施形態について図面を参照して詳細に説明する。
(1.素材音響信号への情報の埋め込み)
まず、素材音響信号への付加情報の埋め込みについて説明する。図1は、素材音響信号に付加情報を埋め込む装置の構成を示す機能ブロック図である。図1において、10は音響フレーム読込手段、20は周波数変換手段、30は低周波成分変更手段、40は周波数逆変換手段、50は改変音響フレーム出力手段、60は記憶手段、61は音響信号記憶部、62は付加情報記憶部、63は改変音響信号記憶部、70は付加情報読込手段である。
音響フレーム読込手段10は、付加情報の埋め込み対象とする元のステレオ音響信号の各チャンネルから所定数のサンプルを1フレームとして読み込む機能を有している。周波数変換手段20は、音響フレーム読込手段10が読み込んだ音響信号のフレームをフーリエ変換等により周波数変換してフレームスペクトルを生成する機能を有している。低周波成分変更手段30は、生成された複数のフレームスペクトルから所定の周波数以下に相当する各低周波強度データを抽出し、付加情報記憶部62から抽出した付加情報に基づいて、チャンネル間で対応する低周波強度データのチャンネル間比率を変更する機能を有している。周波数逆変換手段40は、変更された低周波強度データを含む複数のフレームスペクトルに対して周波数逆変換を行うことにより、複数の改変音響フレームを生成する機能を有している。改変音響フレーム出力手段50は、生成された改変音響フレームを順次出力する機能を有している。記憶手段60は、付加情報を埋め込む対象とするステレオ音響信号を記憶した音響信号記憶部61と、ビット配列として構成され、ステレオ音響信号に埋め込まれる付加情報を記憶した付加情報記憶部62と、付加情報埋め込み後の改変音響信号を記憶する改変音響信号記憶部63を有しており、その他処理に必要な各種情報を記憶するものである。付加情報読込手段70は、付加情報記憶部62から付加情報を抽出する機能を有している。なお、付加情報とは、音響情報に付加して埋め込むべき情報であり、タイトルやアーティスト名等、その音響信号を特定するための音響信号ID等の属性情報、および属性情報以外の他の情報を含むものである。図1に示した各構成手段は、現実にはコンピュータおよびその周辺機器等のハードウェアに専用のプログラムを搭載することにより実現される。すなわち、コンピュータが、専用のプログラムに従って各手段の内容を実行することになる。
次に、図1に示した埋め込み装置の処理動作について図2のフローチャートに従って説明する。図2は、付加情報1バイトの処理に対応したものとなっている。まず、付加情報読込手段70は、付加情報記憶部62から付加情報を1バイト単位で読み込む(S101)。具体的には、レジスタに1バイト読み込むことになる。続いて、モードを区切りモードに設定する(S102)。モードは区切りモードと、ビットモードの2種類が存在する。区切りモードは1バイト単位の区切りにおける処理を行うモードを示し、ビットモードは1バイトの各ビットの値に基づいた処理を行うモードを示している。付加情報記憶部62から1バイト読み込んだ場合には、その直後に必ず区切りモードに設定されることになる。
続いて、音響フレーム読込手段10が、音響信号記憶部61に記憶されたステレオ音響信号の左右の各チャンネルから、それぞれ所定数のサンプルを1音響フレームとして読み込む(S104)。音響フレーム読込手段10が読み込む1音響フレームのサンプル数は、適宜設定することができるが、サンプリング周波数が44.1kHzの場合、4096サンプル程度とすることが望ましい。したがって、音響フレーム読込手段10は、左チャンネル、右チャンネルについてそれぞれ4096サンプルずつ、順次音響フレームとして読み込んでいくことになる。
続いて、周波数変換手段20は、読み込んだ各音響フレームに対して、周波数変換を行って、その音響フレームのスペクトルであるフレームスペクトルを得る(S105)。周波数変換としては、フーリエ変換、ウェーブレット変換その他公知の種々の手法を用いることができる。本実施形態では、フーリエ変換を用いた場合を例にとって説明する。フーリエ変換を行う場合、左チャンネル信号xl(i)、右チャンネル信号xr(i)(i=0,…,N−1)に対して、以下の〔数式1〕に従った処理を行い、左チャンネルに対応する変換データの実部Al(j)、虚部Bl(j)、右チャンネルに対応する変換データの実部Ar(j)、虚部Br(j)を得る。
〔数式1〕
Al(j)=Σi=0,…,N-1xl(i)・cos(2πij/N)
Bl(j)=Σi=0,…,N-1xl(i)・sin(2πij/N)
Ar(j)=Σi=0,…,N-1xr(i)・cos(2πij/N)
Br(j)=Σi=0,…,N-1xr(i)・sin(2πij/N)
〔数式1〕において、iは、各音響フレーム内のN個のサンプルに付した通し番号であり、i=0,1,2,…N−1の整数値をとる。また、jは周波数の値について、値の小さなものから順に付した通し番号であり、iと同様にj=0,1,2,…N−1の整数値をとる。サンプリング周波数が44.1kHz、N=4096の場合、jの値が1つ異なると、周波数が10.8Hz異なることになる。この際、音響信号xl(i)、xr(i)には、それぞれW(i)=0.5−0.5・cos(2πi/N)で表現される窓関数(ハニング窓)を重みとして乗じる。このような窓関数は、フーリエ変換を行う際に、周波数成分に波形を分断することにより発生する高周波ノイズを低減するためと、フーリエ逆変換を行う際に解析区間(音響フレームに相当)の間で信号レベルが不連続にならないように連結させるために用いられるものであり、周知の技術である。
上記〔数式1〕に従った処理を実行することにより、各音響フレームの信号成分を周波数に対応した成分であるスペクトルで表現されたフレームスペクトルが得られる。続いて、低周波成分変更手段30が、生成された複数のフレームスペクトルから所定の周波数以下の低周波強度データを抽出する。人間の聴覚は、200〜300Hz程度までの低周波成分については、方向性を感知しにくくなっていることが知られている(コロナ社1990年10月30日発行「音響工学講座1.基礎音響工学、日本音響学会編」p247図9・26参照)。したがって、本実施形態では、所定の周波数として200Hz程度を設定し、周波数が200Hz以下の低周波強度データを抽出することにしている。周波数200Hz付近は、上記jが20に相当するので、上記〔数式1〕により算出された実部Al(j)、虚部Bl(j)、実部Ar(j)、虚部Br(j)のうち、j≦20のものを抽出する。
続いて、低周波成分変更手段30は、抽出した実部Al(j)、虚部Bl(j)、実部Ar(j)、虚部Br(j)を利用して、以下の〔数式2〕によりj=1〜M(200Hz以下を抽出する場合は、20)までの低周波強度の合計値を算出する。
〔数式2〕
E=Σj=1,…,M{Al(j)2+Bl(j)2+Ar(j)2+Br(j)2
上記〔数式2〕により算出されたEは、フレームスペクトルにおける低周波成分の合算値を示すことになる。続いて、この合算値Eがレベル下限値以上であるかどうかの判定を行う。レベル下限値は、音響信号xl(i)、xr(i)の振幅最大値が1に正規化されており、M=20に設定されている場合、4程度に設定する。合算値Eがレベル下限以上であるかどうかを判断するのは、信号の強度が小さいと、信号を変化させても、その変化を抽出側で検出することができないためである。したがって、合算値Eがレベル下限値未満である場合は、付加情報のビット値に応じた記録をせず、先頭ビットから再度処理するため、読み込み位置を先頭ビットに戻し、モードを区切りモードに設定する(S106)。一方、合算値Eがレベル下限値以上である場合には、モードを判断することになる。
低周波成分変更手段30は、モードが区切りモードである場合、低周波強度を左右のチャンネルで同一とする処理を行う(S108)。すなわち、低周波成分の音源を中央へ移動することになる。具体的には、以下の〔数式3〕に従った処理を実行することになる。
〔数式3〕
E(j)=[0.5・{Al(j)2+Bl(j)2+Ar(j)2+Br(j)2}]1/2
Al(j)←Al(j)・E(j)/{Al(j)2+Bl(j)21/2
Bl(j)←Bl(j)・E(j)/{Al(j)2+Bl(j)21/2
Ar(j)←Ar(j)・E(j)/{Ar(j)2+Br(j)21/2
Br(j)←Br(j)・E(j)/{Ar(j)2+Br(j)21/2
上記〔数式3〕において、第2式から第5式における“←”は右辺の計算結果を左辺に代入することを示している。上記〔数式3〕に従った処理を実行することにより、フレームスペクトルの低周波数成分は、左右チャンネル均等のパターンに変更されることになる。この左右チャンネル均等のパターンは、付加情報の先頭位置(区切り)を示す情報となる。
一方、低周波成分変更手段30は、モードがビットモードである場合、付加情報記憶部62から抽出した付加情報のビット配列のビット値に応じて、低周波成分の左右チャンネル間の分布を左チャンネル大か、右チャンネル大かのいずれかに変更する処理を行う(S107)。すなわち、低周波成分の音源を左又は右へ移動することになる。具体的には、第1の値と第2の値をとり得るビット値に応じて以下の〔数式4〕、〔数式5〕のいずれかに従った処理を実行することにより、低周波成分の左右分布を変更する。例えば、第1の値を1、第2の値を0とした場合、ビット値が1のとき、以下の〔数式4〕に従った処理を実行する。
〔数式4〕
E(j)={Al(j)2+Bl(j)2+Ar(j)2+Br(j)21/2
Ar(j)←Ar(j)・E(j)/{Ar(j)2+Br(j)21/2
Br(j)←Br(j)・E(j)/{Ar(j)2+Br(j)21/2
Al(j)=0
Bl(j)=0
ビット値が0の場合、以下の〔数式5〕に従った処理を実行する。
〔数式5〕
E(j)={Al(j)2+Bl(j)2+Ar(j)2+Br(j)21/2
Al(j)←Al(j)・E(j)/{Al(j)2+Bl(j)21/2
Bl(j)←Bl(j)・E(j)/{Al(j)2+Bl(j)21/2
Ar(j)=0
Br(j)=0
上記〔数式4〕、〔数式5〕のいずれかに従った処理を実行することにより、付加情報のビット配列の各ビット値に応じて、低周波数成分が左チャンネル、右チャンネル、のどちらかのパターンに変更されることになる。結局、低周波成分変更手段30は、区切りモードの場合に〔数式3〕に基づく処理をS108において行い、ビットモードの場合に〔数式4〕又は〔数式5〕に基づく処理をS107において行うことになる。
次に、周波数逆変換手段40が、低周波強度データのチャンネル間比率が変更されたフレームスペクトルを周波数逆変換して改変音響フレームを得る処理を行う(S109)。この周波数逆変換は、当然のことながら、周波数変換手段20がS105において実行した手法に対応していることが必要となる。本実施形態では、周波数変換手段20において、フーリエ逆変換を施しているため、周波数逆変換手段40は、フーリエ逆変換を実行することになる。具体的には、上記〔数式3〕〜〔数式5〕のいずれかにより得られたスペクトルの左チャンネルの実部Al(j)、虚部Bl(j)、右チャンネルの実部Ar(j)、虚部Br(j)を用いて、以下の〔数式6〕に従った処理を行い、xl´(i)、xr´(i)を算出する。
〔数式6〕
xl´(i)=1/N・{Σj=0,…,N-1Al(j)・cos(2πij/N)−Σj=0,…,N-1Bl(j)・sin(2πij/N)}+{1−W(i)}・xl(i)
xr´(i)=1/N・{Σj=0,…,N-1Ar(j)・cos(2πij/N)−Σj=0,…,N-1Br(j)・sin(2πij/N)}+{1−W(i)}・xr(i)
上記〔数式6〕における第1式の“+{1−W(i)}・xl(i)”、第2式の“+{1−W(i)}・xr(i)”の項は、上記〔数式1〕において周波数変換する際に、窓関数W(i)を乗じることにより除去された信号成分を復元するためのものである。上記〔数式6〕により改変音響フレームの左チャンネルの各サンプルxl´(i)、右チャンネルの各サンプルxr´(i)、が得られることになる。改変音響フレーム出力手段50は、得られた改変音響フレームを順次出力ファイルに出力する(S110)。こうして1つの音響フレームに対する処理を終えたら、モードをビットモードに設定した後(S111)、付加情報読込手段70が付加情報のビット配列中の次のビットを読み込む(S103)。以上のような処理を音響信号の両チャンネルの全サンプルに渡って実行していく。すなわち、所定数のサンプルを音響フレームとして読み込み、音響信号から読み込むべき音響フレームがなくなったら(S104)、処理を終了する。なお、S101において読み込んだ1バイトのデータの各ビットに対応する処理を終えた場合、S103からS101に戻り、付加情報の次のバイトを読み込み処理をすることになる。付加情報の全バイトに対して、処理が終了した場合は、付加情報の先頭バイトに戻って処理を行う。この結果、全ての音響フレームに対して処理を行った全ての改変音響フレームが出力ファイルに記録されて、改変音響信号として得られる。得られた改変音響信号は、記憶手段60内の改変音響信号記憶部63に出力され、記憶される。
以上の処理による信号の変化の様子を図3を用いて説明する。図3において、左右方向は、時間軸であり、サンプル数に比例する。L、Rはそれぞれ改変音響信号の左チャンネル、右チャンネルを示している。また、図中多数存在する矩形は、改変音響フレームの低周波成分を示し、その横幅はサンプル数(本実施形態では、4096)、縦幅は強度を示している。図3(a)は、上記〔数式2〕により算出された合算値Eがレベル下限値未満となる音響フレームが存在しない場合、すなわち、付加情報を埋め込むには、良好な信号である場合を示している。図3(b)は、上記〔数式2〕により算出された合算値Eがレベル下限値未満となる音響フレームが存在する場合、すなわち、付加情報を埋め込むには、良好でない信号である場合を示している。
例えば、付加情報として、1バイト目が「11011100」、2バイト目が「11000001」の2バイトのビット配列を埋め込むとする。まず、各バイトの先頭には、区切りを示す情報として、左右均等な状態に設定されることになる。これは、S102により区切りモードに設定され、S108において、上記〔数式3〕に従った処理を実行した結果得られる。また、図3(a)の例では、合算値Eがレベル下限値未満となる音響フレームが存在しないため、1バイトが連続して上記〔数式4〕又は〔数式5〕により処理されることになる。これは、S103からS111を経由するループが8回連続して繰り返され、その間レベル下限値未満であるとしてS106およびS108を経由することがなかったことを示している。図に示すように、付加情報のビット値が1の場合は、R側に存在し、付加情報のビット値が0の場合は、L側に低周波成分が設定される。上記〔数式4〕、〔数式5〕からもわかるように、この場合は他方の低周波成分は0となる。
図3(b)の例では、上記〔数式2〕に従った処理の結果、レベル下限値未満となる音響フレームが存在するので、この場合S106およびS108を経由して、上記〔数式3〕に従った処理を実行した結果左右均等な状態に設定される。この場合、S106において、読み込み位置が先頭ビットに戻されるため、再び同じビットを読むことになる。図3(b)の例では、1バイト目の「11011100」を埋め込む場合に、最初は「11」の2ビット処理した時点でレベル下限値未満の音響フレームが出現し、2度目は「11011」の5ビット処理した時点でレベル下限値未満の音響フレームが出現し、3度目でようやく8ビット処理することができたことを示している。
しかし、図2に従った処理を行った場合には、図3(b)に示したように、低周波成分の信号レベルが小さい音響フレームが出現するたびに、1バイト単位で先頭から繰り返して処理することになるため、効率が悪い。そこで、図2に代えて、図4に示すような処理を行うようにしても良い。
図4に示す処理で、図2に示す処理と大きく異なるのは、区切りモード、ビットモードの他に継続識別モードを備え、3つのモードとし、低周波成分の信号レベルが小さい音響フレームが出現した場合であっても、先頭に戻らず、継続して処理するようにした点である。そのため、継続識別モードにおいては、次のビットが先頭から始まる新規なものか、中断されたために継続されたものであるかを識別するための情報を記録することになる。なお、図4の処理では、付加情報の処理をバイト単位でなく、ワード単位で行っている。これは、図2のS106に示したように、強制的に読み込み位置を先頭に戻す処理がないため、バイト以外の単位で処理するのが容易であるためである。1ワードのビット数は自由に設定でき、1バイトに設定することもできる。
図4の処理については、図2の処理と共通する部分が多いため、異なる部分について説明していく。まず、付加情報読込手段70は、付加情報記憶部62から付加情報を1ワード単位で読み込む(S201)。その後、モードを区切りモードに設定し(S202)、音響フレーム読込手段10が、音響信号記憶部61に記憶されたステレオ音響信号の左右各チャンネルから、音響フレームを読み込み(S204)、周波数変換手段20が、読み込んだ各音響フレームに対して、〔数式1〕に従って周波数変換を行ってフレームスペクトルを得て(S205)、低周波成分変更手段30が、抽出した実部Al(j)、虚部Bl(j)、実部Ar(j)、虚部Br(j)を利用して、〔数式2〕により合算値Eを算出し、合算値Eがレベル下限以上であるかどうかを判断するところまでは同一である。ただし、図4の処理においては、合算値Eがレベル下限値未満である場合は、モードを区切りモードに設定するだけである(S206)。一方、合算値Eがレベル下限値以上である場合には、モードを判断することになる。
低周波成分変更手段30は、モードが区切りモードである場合、上記〔数式3〕に従って、低周波強度を左右のチャンネルで同一とする処理を行う(S208)。一方、低周波成分変更手段30は、モードがビットモードである場合、上記〔数式4〕、〔数式5〕に従って、付加情報記憶部62から抽出した付加情報のビット配列のビット値に応じて、低周波強度の左右チャンネル間の比率を変更する処理を行う(S207)。また、S207においては、図2のS107と異なり、継続識別モードである場合にも処理を行う。継続識別モードである場合、新規であるときは〔数式4〕に従って低周波成分の左右チャンネル間の分布を右チャンネル大に変更し、継続であるときは〔数式5〕に従って低周波成分の左右チャンネル間の分布を左チャンネル大に変更する。
次に、周波数逆変換手段40が、低周波強度データのチャンネル間比率が変更されたフレームスペクトルを〔数式6〕に従って周波数逆変換して改変音響フレームを得る処理を行い(S209)、改変音響フレーム出力手段50は、得られた改変音響フレームを順次出力ファイルに出力する(S210)。こうして1つの音響フレームに対する処理を終えたら、モードの判定を行い(S211)、モードが区切りモードである場合は、モードを継続識別モードに設定した後(S212)、音響フレーム読込手段10が、音響フレームを読み込む(S204)。一方、モードがビットモード又は継続識別モードである場合は、モードをビットモードに設定した後(S213)、低周波成分変更手段30が付加情報のビット配列中の次のビットを読み込む(S203)。そして、全音響フレームの処理を行い、音響信号から読み込むべき音響フレームがなくなったら(S204)、処理を終了する。
図4に従った処理による信号の変化の様子を図5を用いて説明する。図5においては、図3と同様、左右方向は時間軸であり、図中多数存在する矩形は、改変音響フレームの低周波成分を示し、その横幅はサンプル数、縦幅は強度を示している。図5(a)は、図3(a)と同様、上記〔数式2〕により算出された合算値Eが、レベル下限値以上となる音響フレームが存在しない場合を示しており、図5(b)は、図3(b)と同様、上記〔数式2〕により算出された合算値Eが、レベル下限値未満となる音響フレームが存在する場合を示している。
また、図2の処理との比較のため、埋め込む付加情報も、図3の場合と同様、1バイト目が「11011100」、2バイト目が「11000001」の2バイトのビット配列とする。図3と同様、各バイトの先頭には、区切りを示す情報として、左右均等な状態に設定されることになる。これは、S202により区切りモードに設定され、S208において、上記〔数式3〕に従った処理を実行した結果得られる。続いて、付加情報の各ビットに対応した処理を行う前に、新規であるか継続であるかを示す情報を記録することになる。図2に示す処理によれば、レベル下限値未満となる音響フレームが存在した場合には、処理するビットを各バイトの先頭に戻して処理するため、全て新規となるが、図4に示す処理では、レベル下限値未満となる音響フレームが存在した場合であっても、その時点で処理したビットは有効とし、そこから継続して行うため、そのビットが新規であるか継続であるかの情報を記録しておく必要がある。そこで、区切りを示す情報を記録した後には、新規であるか継続であるかを示す情報を記録する。具体的には、区切りモードの状態で、モード判断を行うことにより(S211)、継続識別モードに設定され(S212)、付加情報のビットを読み込むことなく、音響フレームの抽出を行う(S204)。そして、周波数変換後(S205)、新規である場合には、〔数式4〕に従った処理により、低周波成分の左右チャンネル間の分布を右チャンネル大に変更する(S207)。
このようにして、新規か継続かを示す情報を記録した後は、継続識別モードの状態でモード判断を行うため(S211)、ビットモードに設定され(S213)、レジスタから先頭のビットを読み込み(S203)、音響フレームの抽出を行う(S204)。図5(a)の例では、レベル下限値未満となる音響フレームが存在しないため、1バイトが連続して上記〔数式4〕又は〔数式5〕により処理されることになる。これは、S203からS213を経由するループが8回連続して繰り返され、その間レベル下限値未満であるとしてS206およびS208、S212を経由することがなかったことを示している。
図5(b)の例では、上記〔数式2〕に従った処理の結果、レベル下限値未満となる音響フレームが存在するので、この場合S206およびS208を経由して、上記〔数式3〕に従った処理を実行した結果左右均等な状態に設定される。この場合、S206において、区切りモードに設定されるため、S212を経由して、新規か継続かを示す情報を記録することになる。図5(b)の例では、1バイト目の「11011100」を埋め込む場合に、最初は第1ビット目の「1」の1ビット処理した時点でレベル下限値未満の音響フレームが出現しているため、区切りを示す情報を記録した後、継続を示す情報を記録し、継続して第2ビット目の「1」から処理をしている。そして、第2ビット目から第5ビット目の「1011」を処理した時点でレベル下限値未満の音響フレームが出現しているため、区切りを示す情報を記録した後、継続を示す情報を記録し、継続して第6ビット目の「1」から処理をしている。
なお、図5の例では、図3との比較のため、付加情報がバイト単位で記録されている場合について説明したが、図4に示す処理は、新規か継続かを示す情報を記録するため、付加情報を任意のビット数単位で記録することが可能である。
上記の例では、区切り情報を固定長のバイト単位又は可変長のワード単位で区切りを示す情報を挿入するようにしたが、さらにビット単位で区切りを示す情報を挿入することも可能である。この場合、音響フレーム読込手段10が音響フレームの抽出を行う際、前後の音響フレームに重複する重複音響フレームを抽出し、この重複音響フレームに対して、〔数式1〕に従って周波数変換を行い、さらに、〔数式3〕に従って左右チャンネルの低周波成分を均等にする処理を行う。重複音響フレームは、前後の音響フレームと半数づつサンプルが重複するように設定する。例えば、先行する音響フレームがサンプル番号1から4096まで、後続する音響フレームがサンプル番号4097から8192までである場合、この間に設定される重複音響フレームはサンプル番号2049から6144までとなる。同様にして、音響信号の全区間について、重複音響フレームを読み込み、左右チャンネルの低周波成分を均等にする処理を行うことになる。
上記のように、重複音響フレームを設定して、その左右チャンネルの低周波成分を均等にする処理を行った場合、これを改変音響信号に反映させるため、左右チャンネルの低周波成分を均等にする処理後の重複フレームスペクトルに対して周波数逆変換を行って改変重複音響フレームを得て、さらに音響フレームと連結する処理を行う必要がある。この場合、窓関数W(i)を乗じることにより音響フレームから除去された信号成分を、重複音響フレームの信号と連結することにより補うことが可能となるため、上記〔数式6〕における第1式の“+{1−W(i)}・xl(i)”、第2式の“+{1−W(i)}・xr(i)” の項が不要となる。したがって、この場合、重複フレームスペクトルに対する周波数逆変換、およびフレームスペクトルに対する周波数逆変換(S109、S209)は上記〔数式6〕ではなく、以下の〔数式7〕に従って処理することになる。
〔数式7〕
xl´(i)=1/N・{Σj=0,…,N-1Al(j)・cos(2πij/N)−Σj=0,…,N-1Bl(j)・sin(2πij/N)}
xr´(i)=1/N・{Σj=0,…,N-1Ar(j)・cos(2πij/N)−Σj=0,…,N-1Br(j)・sin(2πij/N)}
上記〔数式7〕により改変音響フレーム、改変重複音響フレームの左チャンネルの各サンプルxl´(i)、右チャンネルの各サンプルxr´(i)、が得られることになる。改変音響フレーム出力手段50は、S110、S210において、得られた改変音響フレームおよび改変重複音響フレームを順次連結して出力ファイルに出力する。上述のように、音響フレームおよび重複音響フレームは、音響フレーム読込手段10により音響信号から読み込む際、音響フレームと重複音響フレームに同一のサンプルが重複して含まれるように処理されている。したがって、音響フレーム出力手段50においては、重複して読み込まれたサンプルについて、各サンプルの値を合算した値として、出力ファイルに記録していく。
このようにして得られた改変音響信号のうち、付加情報が埋め込まれている部分については、低周波成分は、双方のチャンネルに均等に存在するか、あるいはどちらか一方のチャンネルに偏在するかの3通りの分布しかないことになる。しかし、高周波成分については、元の音響信号のままであるので、両チャンネルから制作者の設定に基づいた種々な分布になる。人間の聴覚は、高周波成分については、方向性を感知し易いが、低周波成分については、方向性を感知しにくくなっている。したがって、低周波成分が一方に偏っていても、聴いている人にとっては、通常の音響信号と変わりなく聴こえることになる。
(2.音響信号の合成装置:第1の実施形態)
次に、本発明第1の実施形態に係る音響信号の合成装置について説明する。図6は、本発明第1の実施形態に係る音響信号の合成装置の構成を示す機能ブロック図である。図6において、100は素材音響信号記憶部、110は付加情報抽出手段、120は変更パラメータ設定手段、130は付加情報合成手段、140は音響信号変更手段、150は音響信号合成手段、160は合成付加情報埋め込み手段、170は埋め込み合成音響信号記憶部である。
素材音響信号記憶部100は、合成対象とする音響信号である素材音響信号を記憶した記憶手段である。この素材音響信号には、上述した手法により既に付加情報が埋め込まれている。付加情報抽出手段110は、素材音響信号から、埋め込まれている付加情報を抽出する機能を有している。変更パラメータ設定手段120は、音量やチャンネル間のバランス等のパラメータを設定する機能を有している。付加情報合成手段130は、複数の素材音響信号から、それぞれ抽出した付加情報を合成して合成付加情報を作成する機能を有している。音響信号変更手段140は、変更パラメータ設定手段120により設定された変更パラメータに従って、素材音響信号を変更する機能を有している。音響信号合成手段150は、複数の素材音響信号を合成して合成音響信号を作成する機能を有している。合成付加情報埋め込み手段160は、付加情報合成手段130が作成した合成付加情報を、音響信号合成手段150が作成した合成音響信号に埋め込み、埋め込み合成音響信号を作成する機能を有している。埋め込み合成音響信号記憶部170は、合成付加情報埋め込み手段160により作成された埋め込み合成音響信号を記憶する記憶手段である。図6に示した各構成手段は、現実にはコンピュータおよびその周辺機器等のハードウェアに専用のプログラムを搭載することにより実現される。すなわち、コンピュータが、専用のプログラムに従って各手段の内容を実行することになる。
(2.1.付加情報抽出手段の詳細)
ここで、付加情報抽出手段110の詳細について説明する。図7は、付加情報抽出手段110の詳細を示す構成図である。図7において、111は音響フレーム獲得手段、112は周波数変換手段、113はチャンネル間比率符号化手段、114は付加情報認識手段である。
音響フレーム獲得手段111は、入力されたデジタルのステレオ音響信号の各チャンネルから所定数のサンプルを1フレームとして読み込む機能を有している。したがって、図1に示した音響フレーム読込手段10と同様の処理を行うものであるが、隣接する音響フレームと重複させるサンプルの数が音響フレーム読込手段10とは異なっている。周波数変換手段112は、図1に示した周波数変換手段20と同様の機能を有している。チャンネル間比率符号化手段113は、生成された複数のフレームスペクトルから所定の周波数以下に相当する各低周波強度データを抽出し、左右各チャンネルごとに各低周波強度データの総和値を算出し、その総和値のチャンネル間比率に基づいて、所定の符号を出力する機能を有している。付加情報認識手段114は、チャンネル間比率符号化手段113により出力された符号の集合である3値配列を、所定の規則により変換して意味のある付加情報として認識する機能を有している。
(2.2.合成付加情報埋め込み手段の詳細)
合成付加情報埋め込み手段160の詳細について説明する。図8は、合成付加情報埋め込み手段160の詳細を示す構成図である。図8において、161は音響フレーム読込手段、162は合成付加情報読込手段、163は周波数変換手段、164は低周波成分変更手段、165は周波数逆変換手段、166は改変音響フレーム出力手段である。
音響フレーム読込手段161は、合成音響信号の各チャンネルから所定数のサンプルを1フレームとして読み込む機能を有している。したがって、処理対象が素材音響信号であるか合成音響信号であるかの違いはあるが、図1に示した音響フレーム読込手段10と同様の処理を行うものである。合成付加情報読込手段162は、付加情報合成手段により作成された合成付加情報を読み込む機能を有している。したがって、読み込み対象が付加情報であるか合成付加情報であるかの違いはあるが、図1に示した付加情報読込手段70と同様の処理を行うものである。周波数変換手段163は、図1に示した周波数変換手段20と同様の機能を有している。低周波成分変更手段164は、図1に示した低周波成分変更手段30と同様、生成された複数のフレームスペクトルから所定の周波数以下に相当する各低周波強度データを抽出し、読み込んだ合成付加情報に基づいて、チャンネル間で対応する低周波強度データのチャンネル間比率を変更する機能を有している。周波数逆変換手段165は、図1に示した周波数逆変換手段40と同様、変更された低周波強度データを含む複数のフレームスペクトルに対して周波数逆変換を行うことにより、複数の改変音響フレームを生成する機能を有している。改変音響フレーム出力手段166は、図1に示した改変音響フレーム出力手段50と同様、生成された改変音響フレームを順次出力する機能を有している。
(2.3.合成装置の処理動作)
次に、図6に示した音響信号の合成装置の処理動作について説明する。まず、付加情報抽出手段110が、合成対象とする複数の素材音響信号を、素材音響信号記憶部100から読み込む。すると、付加情報抽出手段110が各素材音響信号から付加情報を抽出する。この付加情報抽出手段110における処理について、図9のフローチャートに従って説明する。
上述のように、付加情報抽出手段110は、図7に示したような構成となっている。まず、音響フレーム獲得手段111が、読み込んだステレオ音響信号の各チャンネルから、それぞれ所定数のサンプルを1音響フレームとして読み込む(S310)。音響フレーム獲得手段111が読み込む1音響フレームのサンプル数は、図1に示した音響フレーム読込手段10で設定されたものと同一にする必要がある。したがって、本実施形態の場合、音響フレーム獲得手段111は、左チャンネル、右チャンネルについてそれぞれ4096サンプルずつ、順次音響フレームとして読み込んでいくことになる。
続いて、周波数変換手段112、チャンネル間比率符号化手段113が、読み込んだ各音響フレームから、埋め込まれている情報を判定し、対応する符号を出力する(S320)。出力される情報の形式は、埋め込み側のビット値に対応する2値、および区切りとして入力された値の3値の形式となる。このS320における処理については後述する。
S320による処理の結果、ビット値に相当する符号が抽出された場合には、そのビット値をバッファに保存する(S330)。続いて、ビットカウンタをカウントアップする(S340)。そして、ビットカウンタが8ビット以上であるかどうかを判断する(S350)。その結果、ビットカウンタが8ビット以上である場合には、1バイト分のビット値がバッファに格納されていることになるので、バッファ内の1バイト分のデータを、付加情報認識手段140が出力する(S360)。一方、S320による処理の結果、区切り情報に対応する値が出力された場合には、ビットカウンタを0に初期化する(S370)。図9に示す処理を各音響フレームに対して実行することにより、付加情報が認識され、素材音響信号から抽出されることになる。S310において全ての音響フレームが抽出されたと判断された場合には、処理を終了する。
続いて、上記S320の符号判定処理の詳細を図10のフローチャートに従って説明する。まず、周波数変換手段112が、読み込んだ各音響フレームに対して、周波数変換を行ってフレームスペクトルを得る(S321)。この処理は、図1に示した周波数変換手段20における処理と同様である。したがって、本実施形態では、上記〔数式1〕に従った処理を行い、左チャンネルに対応する変換データの実部Al(j)、虚部Bl(j)、右チャンネルに対応する変換データの実部Ar(j)、虚部Br(j)を得る。この際、音響信号xl(i)、xr(i)には、それぞれW(i)=0.5−0.5・cos(2πi/N)で表現される窓関数(ハニング窓)を重みとして乗じる処理も、周波数変換手段20と同様に行われる。
上記周波数変換手段112における処理により、周波数に対応した成分であるスペクトルで表現されたフレームスペクトルが得られる。続いて、チャンネル間比率符号化手段113は、生成された複数のフレームスペクトルから所定の周波数範囲の各低周波強度データを抽出する。抽出すべき周波数範囲は、埋め込み装置と対応させる必要がある。したがって、ここでは、周波数が200Hz以下の低周波強度データを抽出することになり、埋め込み装置の場合と同様、上記〔数式1〕により算出された実部Al(j)、虚部Bl(j)、実部Ar(j)、虚部Br(j)のうち、j≦20のものを抽出する。
続いて、チャンネル間比率符号化手段113は、埋め込み装置の低周波成分変更手段30と同様、抽出した実部Al(j)、虚部Bl(j)、実部Ar(j)、虚部Br(j)を利用して、上記〔数式2〕によりj=1〜M(例えば20)までの低周波強度の合計値Eを算出する。さらに、低周波成分変更手段30と同様、この合算値Eがレベル下限値以上であるかどうかの判定を行う(S322)。
合算値Eがレベル下限以上である場合、以下の〔数式8〕に従った処理を実行する。
〔数式8〕
El=Cl・Σj=1,…,M{Al(j)2+Bl(j)2
Er=Cr・Σj=1,…,M{Ar(j)2+Br(j)2
上記〔数式8〕において、Cl、Crはキャリブレーションデータを用いた補正係数であり、抽出装置の利用環境に応じて設定されるが、本実施形態では、共にCl=Cr=1と設定してある。さらに、チャンネル間比率符号化手段113は、上記算出されたEl、Erの比較判定を以下の〔数式9〕に従って行い(S323)、比較結果に対応する符号を出力する。
〔数式9〕
Er/El>2の場合、右チャンネル大
El/Er>2の場合、左チャンネル大
Er/El≦2かつEl/Er≦2の場合、左右均等
チャンネル間比率符号化手段113は、各音響フレーム単位で、上記判定結果に応じて3値の符号を出力する。すなわち、右チャンネル大と判定した場合には、第1のビット値(例えば“1”)を出力し(S324)、左チャンネル大と判定した場合には、第2のビット値(例えば“0”)を出力し(S325)、左右均等と判定した場合には、区切り情報を示す符号を出力する(S326)。
上記S360の処理において、付加情報認識手段114は、まず、チャンネル間比率符号化手段113により出力された3値の符号のうち、左右均等を示す符号を区切り位置として、その次の符号を先頭とし、右チャンネル大、左チャンネル大の符号をビット値に対応させて、ビット配列を作成する。続いて、このビット配列を、所定の規則により変換して意味のある付加情報として認識する。所定の規則としては、情報を埋め込む者が意図した情報が受け取った者に認識可能な状態とできるものであれば、さまざまな規則が適用できるが、本実施形態では、文字情報として認識するための規則としている。すなわち、付加情報認識手段140は、チャンネル間比率符号化手段113から出力される符号を1バイト(8ビット)単位で認識し、これを設定されたコード体系に従って文字情報を認識する。このようにして得られた文字情報は、付加情報として抽出されることになる。
図6に示した付加情報抽出手段110が、読み込んだ素材音響信号から付加情報を抽出したら、付加情報合成手段130は、各素材音響信号から抽出した付加情報を合成する。これは、各付加情報間に、付加情報全体の区切りを示す情報を挿入して、連続して記録することにより行う。
一方、変更パラメータ設定手段120からは、各素材音響信号に対する変更パラメータが設定される。変更パラメータとしては、音量、定位等に関する情報が設定されることになる。この変更パラメータは、従来のミキシングに用いられているものと同様である。
続いて、音響信号変更手段140は、変更パラメータ設定手段120により設定された変更パラメータに従って素材音響信号を変化させる。これも従来のミキシングにおける処理と同様である。
次に、音響信号合成手段150が、変更後の複数の素材音響信号を合成する。これも従来のミキシングにおける処理と同様である。
続いて、合成付加情報埋め込み手段160が、付加情報合成手段120が作成した合成付加情報を、音響信号合成手段150が作成した合成音響信号に埋め込む処理を行う。合成付加情報埋め込み手段160による合成付加情報の埋め込み処理は、図1に示した装置により付加情報を素材音響信号に埋め込む場合と同様に行う。したがって、図2または図4に示したフローチャートに従った処理を実行することになる。この結果、合成付加情報が埋め込まれた埋め込み合成音響信号が得られることになる。
図9のフローチャートは、素材音響信号への埋め込みの際、付加情報をバイト単位で記録したものに対応している。埋め込み側で付加情報をワード単位で記録している場合には、図11のフローチャートに従った処理を行うことになる。まず、図9のS310と同様、音響フレーム獲得手段111が、ステレオの素材音響信号の各チャンネルから、それぞれ所定数のサンプルを1音響フレームとして読み込む(S401)。
続いて、図9のS310と同様、周波数変換手段112、チャンネル間比率符号化手段113が、読み込んだ各音響フレームから、埋め込まれている情報を判定し、対応する符号を出力する(S402)。このS402における処理の詳細は、図10に示したようなものとなる。
S402による処理の結果、ビット値に相当する符号が抽出された場合には、モードの判定を行う(S403)。モードは、区切りモードとビット出力モードの2つが用意されている。ビット出力モードである場合は、そのビット値をバッファに保存する(S408)。続いて、ビットカウンタをカウントアップする(S409)。一方、S403による判定の結果、区切りモードである場合には、さらに抽出された符号が、新規を意味するものか継続を意味するものかを判定する(S404)。この結果、新規である場合には、その直前で1ワードが終了していることを意味するので、バッファに記録された1ワード分のデータを、付加情報認識手段114が出力する(S405)。そして、ビットカウンタを0に初期化する(S406)。さらに、モードをビット出力モードに設定する(S407)。S404において、継続と判定された場合には、バッファ内のビットに値を出力すべきであるので、ビット出力モードに設定する処理のみを行う。また、S402において、区切り情報に相当する符号が抽出された場合には、次の音響フレームから新規か継続かの情報を抽出するため、モードを区切りモードに設定する(S410)。図11に示す処理を各音響フレームに対して実行することにより、付加情報が抽出されることになる。S401において全ての音響フレームが抽出されたと判断された場合には、処理を終了する。
なお、図6に示した装置では、付加情報が埋め込まれていない素材音響信号も合成することが可能である。すなわち、付加情報が埋め込まれている素材音響信号と、付加情報が埋め込まれていない素材音響信号を合成することが可能である。付加情報が埋め込まれていない素材音響信号を合成する場合は、その素材音響信号についての付加情報を、別途付加情報入力手段(図示省略)から入力する。この付加情報入力手段としては、例えば、文字入力可能なキーボード等が利用できる。そして、入力された付加情報は、付加情報抽出手段110により抽出された他の付加情報と、付加情報合成手段120において合成されることになる。また、素材音響信号については、音響信号変更手段140で処理された後、他の素材音響信号と、音響信号合成手段150において合成されることになる。
(3.音響信号の合成装置:第2の実施形態)
続いて、第2の実施形態について説明する。図12は、本発明第2の実施形態に係る音響信号の合成装置の構成を示す機能ブロック図である。図12において、100は素材音響信号記憶部、120は変更パラメータ設定手段、170は埋め込み合成音響信号記憶部、200は信号分離手段、210は低周波成分合成手段、220は高周波成分合成手段、230は信号統合手段である。
素材音響信号記憶部100は、図6に示したものと同様、合成対象とする音響信号である素材音響信号を記憶した記憶手段であり、記憶されている素材音響信号も第1の実施形態におけるものと同様である。変更パラメータ設定手段120も、図6に示した第1の実施形態におけるものと同様である。埋め込み合成音響信号記憶部170も、図6に示した第1の実施形態におけるものと同様、付加情報の埋め込みが行われ合成音響信号を記憶する記憶手段である。信号分離手段200は、素材音響信号記憶部100から読み込んだ各素材音響信号の高周波成分と低周波成分を分離する機能を有している。低周波成分合成手段210は、信号分離手段200により分離された各素材音響信号の低周波成分を合成する機能を有している。高周波成分合成手段220は、信号分離手段200により分離された各素材音響信号の高周波成分を合成する機能を有している。信号統合手段230は、低周波成分合成手段210により合成された低周波成分と、高周波成分合成手段220により合成された高周波成分を統合して、埋め込み合成音響信号を作成する機能を有している。図12に示した各構成手段は、現実にはコンピュータおよびその周辺機器等のハードウェアに専用のプログラムを搭載することにより実現される。すなわち、コンピュータが、専用のプログラムに従って各手段の内容を実行することになる。
(3.2.合成装置の処理動作)
次に、図12に示した音響信号の合成装置の処理動作について図13のフローチャートを用いて説明する。まず、信号分離手段200が、合成対象とする複数の素材音響信号を、素材音響信号記憶部100から読み込む。読み込みは、具体的には、第1の実施形態と同様、所定数のサンプルで構成される音響フレーム単位で行うことになる(S501)。続いて、信号分離手段200は、読み込んだ各音響フレームに対して周波数変換を行う。これは、上記周波数変換手段20と同様、上記〔数式1〕に従った処理により実現される。周波数変換によりフレームスペクトルが得られる。このうち、上記のように、200Hz未満(j≦20)に相当する成分が、低周波成分合成手段210に渡され、200Hz以上(j≧21)に相当する成分が、高周波成分合成手段220に渡される。
低周波成分合成手段210では、まず、低周波成分を各周波数成分ごとに加算合成する。具体的には、上記〔数式1〕に従った周波数変換処理により得られた各素材信号のAl(j)同士、Bl(j)同士、Ar(j)同士、Br(j)同士を、各jごとに加算する(S502)。なお、この際、変更パラメータ設定手段120により変更パラメータが設定されている場合は、設定されている変更パラメータに従って各Al(j)、Bl(j)、Ar(j)、Br(j)を変更した後、加算処理を行う。続いて、合成された低周波成分の左右比率を、反映させるべく設定されている素材音響信号に合わせる。具体的には、設定されている音響信号について、上記S501における〔数式1〕に従った処理の結果得られる低周波成分Al(j)、Bl(j)、Ar(j)、Br(j)を用いて左右の強度比率を算出し、上記S502で算出された信号の左右比率が、設定されている音響信号の左右比率となるように合わせる処理を行う(S503)。
一方、高周波成分合成手段220では、高周波成分を各周波数成分ごとに加算合成する(S504)。なお、この場合も、変更パラメータ設定手段120により変更パラメータが設定されている場合は、設定されている変更パラメータに従って各Al(j)、Bl(j)、Ar(j)、Br(j)を変更した後、加算処理を行う。
続いて、信号統合手段230は、低周波成分合成手段210により合成された低周波成分と、高周波成分合成手段220により合成された高周波成分を周波数逆変換により統合する処理を行う(S505)。具体的には、上記S503、S504による処理後の各周波数成分各Al(j)、Bl(j)、Ar(j)、Br(j)に対して上記〔数式6〕または〔数式7〕に従った処理を行うことにより、xl´(i)、xr´(i)を算出する。
所定数の音響フレームに対する処理が終わったら、S503において低周波成分に反映させる素材音響信号を設定する(S506)。所定ビット数の付加情報を埋め込む場合、最低、そのビット数に対応した数の音響フレームがあれば良いが、抽出時には、付加情報の先頭から読み込めるとは限らないので、その分余裕をみておく必要がある。したがって、埋め込むべき付加情報の倍程度に渡って、埋め込んでおく必要がある。そこで、各素材音響信号について埋め込みに必要な音響フレーム数を事前に設定しておき、S506では、各音響信号について設定された音響フレーム数に達したら、反映させるべき音響信号を切り替える設定を行う。
上記S502、S503の処理は複雑であり、わかりづらいため、ここで、S502、S503の処理を図14を用いて概念的に説明する。なお、図14(a)〜(d)において、左右方向の実線は時間軸であり、縦方向の破線が1音響フレーム分に相当する。また、波形の振幅は、上記〔数式8〕に基づいて得られるElおよびErに対応している。ここでは、2つの素材音響信号を合成する場合を想定し、各音響信号についてS501の処理により得られた低周波成分を波形で示した状態を図14(a)(b)に示す。図14(a)(b)に示す素材信号波形は左から順に1番目から3番目の音響フレームと、4番目から6番目の音響フレームについて同じパターンが繰り返されている。これは、同じビット列が繰り返し埋め込まれていることを示している。
図14(a)(b)に示したような波形に対して、S502においては、単純に加算される。この結果、図14(c)に示すような波形が得られることになる。そして、S503において、図14(c)に示したような波形に対して、左右比率の調整を行う。この際、設定されている素材音響信号に合わせることになるが、図14の例では、1番目から3番目の音響フレームは図14(a)の素材音響信号、4番目から6番目の音響フレームは図14(b)の素材音響信号に合わせていることがわかる。
(4.合成装置の具体的構成)
ここで、ハードウェアの観点から見た合成装置の具体的構成について説明する。図16は、本発明に係る音響信号の合成装置の具体的構成を示す図である。図16は、上記第1の実施形態、第2の実施形態に共通の構成となっている。図16において、RAIDディスクアレイ装置は、必要な情報を記憶するための記憶装置であり、素材音響信号記憶部および埋め込み合成音響信号記憶部170を実現するものである。ミキシングコンソールは、複数の音楽素材の合成(ミックスダウンまたはトラックダウン)を行うための装置であり、合成条件パラメータ等のミックスダウン環境を設定することができる。
制御用コンピュータは、第1の実施形態における付加情報抽出手段110、付加情報合成手段130、音響信号変更手段140、音響信号合成手段150、合成付加情報埋め込み手段160、および第2の実施形態における信号分離手段200、低周波成分合成手段210、高周波成分合成手段220、信号統合手段230としての機能を実現するためのものであり、これらの機能は、専用のプログラムを制御用コンピュータが実行することにより実現される。なお、変更パラメータ設定手段120は、ミキシングコンソール内において条件パラメータを設定する部分、および、設定された条件パラメータを、制御用コンピュータ内において変更パラメータに変換する部分により実現される。
ミキシング信号処理プロセッサは、複数の素材音響信号を合成すると共にアナログ変換を行う専用プロセッサである。このミキシング信号処理プロセッサは、本発明において得られる埋め込み合成音響信号をアナログ変換して出力する機能を有している。なお、このような合成環境においては、音響信号の中でも音楽のみを記録した音楽信号が用いられる。
(5.検索装置の構成)
次に、本発明に係る音響信号の検索装置について説明する。本発明の検索装置は、上記のようにして得られた合成音響信号を用いて、元の素材音響信号を検索する場合に用いられる。例えば、合成音響信号として得られた楽曲について、元の素材としてどの楽曲データが用いられていたかを知りたい場合に用いられることになる。本発明の音響信号の検索装置の構成を図15に示す。図15において、300は素材音響信号記憶手段、310は合成付加情報抽出手段、320は付加情報分離手段、330は音響信号検索手段である。図15に示した各構成手段は、現実にはコンピュータおよびその周辺機器等のハードウェアに専用のプログラムを搭載することにより実現される。すなわち、コンピュータが、専用のプログラムに従って各手段の内容を実行することになる。
素材音響信号記憶手段300は、素材音響信号をその素材音響信号を特定するためのIDと対応付けて記録したものであり、素材音響信号データベースとしても役割を果たすものである。合成付加情報抽出手段310は、合成音響信号から合成付加情報を抽出する機能を有するものであり、詳細には、図6に示した付加情報抽出手段110と同様、図7に示したような構成となっている。すなわち、音響フレーム獲得手段111、周波数変換手段112、チャンネル間比率符号化手段113、付加情報認識手段114により構成されている。付加情報分離手段320は、合成付加情報抽出手段310が合成音響信号から抽出した合成付加情報を元の個々の付加情報に分離する機能を有している。音響信号検索手段330は、分離された個々の付加情報を用いて、素材音響信号記憶手段300に記憶された素材音響信号を検索する機能を有している。
(5.2.検索装置の処理動作)
続いて、図15に示した検索装置の処理動作について説明する。まず、対象とする合成音響信号を読み込ませると、合成付加情報抽出手段310が、合成音響信号に埋め込まれている合成付加情報を抽出する。具体的には、上記図9または図11のフローチャートに従った処理を実行することにより合成付加情報が得られる。
続いて、付加情報分離手段320が、抽出された合成付加情報を元の複数の付加情報に分離する。ここで、図6に示される第1の実施形態に基づく埋め込みが行なわれている場合、前述した通り、付加情報合成手段130が個々の素材音響信号の付加情報間に区切り符号を挿入するようにしているため、当該区切り符号を手がかりに容易に分離することができる。しかし、図12に示される第2の実施形態に基づく埋め込みが行なわれている場合、設定したフレーム数単位に個々の素材音響信号に対応する付加情報が埋め込まれている可能性があるだけで、付加情報を構成するワードを構成する途中のビットから埋め込まれる可能性があり、それらが明瞭に識別できるように埋め込まれていない。そのため、個々の素材音響信号の付加情報の符号配列の先頭にユニークなヘッダワードを設定し、区切り符号無しでもヘッダワードだけで個々の付加情報を識別分離できるようにする工夫が付加情報の符号仕様を設計する上で必要である。このようにして、いずれの実施形態においても、抽出された合成付加情報から元の複数の付加情報に分離することができる。そして、分離した個々の付加情報を用いて、音響信号検索手段330が、素材音響信号記憶手段300を検索し、該当する素材音響信号を抽出する。以上のようにして、合成音響信号を、音響信号の検索装置に入力するだけで、元の素材音響信号を得ることが可能になる。
なお、付加情報として素材音響信号IDだけでなく変更パラメータも埋め込んでいた場合には、付加情報分離手段320は、付加情報の分離と同時に変更パラメータの抽出も行う。これにより、合成の際に、変更パラメータ設定手段により設定された音量・定位等の変更パラメータが得られることになる。
素材音響信号に付加情報を埋め込む装置の構成を示す機能ブロック図である。 図1に示した装置の処理概要を示すフローチャートである。 図2に従った処理による低周波成分の変化の様子を示すである。 図1に示した装置の他の手法による処理概要を示すフローチャートである。 図4に従った処理による低周波成分の変化の様子を示すである。 本発明第1の実施形態に係る音響信号の合成装置の構成を示す機能ブロック図である。 図6に示した付加情報抽出手段110の詳細を示す構成図である。 図6に示した合成付加情報埋め込み手段160の詳細を示す構成図である。 図6に示した装置の処理概要を示すフローチャートである。 図9のS320の符号出力処理の詳細を示すフローチャートである。 図6に示した装置の他の手法による処理概要を示すフローチャートである。 本発明第2の実施形態に係る音響信号の合成装置の構成を示す機能ブロック図である。 図12に示した装置の処理概要を示すフローチャートである。 図13のS502、S503の処理を概念的に示した図である。 本発明に係る音響信号の検索装置の構成を示す図である。 本発明に係る音響信号の合成装置の具体的構成を示す図である。
符号の説明
10・・・音響フレーム読込手段
20・・・周波数変換手段
30・・・低周波成分変更手段
40・・・周波数逆変換手段
50・・・改変音響フレーム出力手段
60・・・記憶手段
61・・・音響信号記憶部
62・・・付加情報記憶部
63・・・改変音響信号記憶部
70・・・付加情報読込手段
100・・・素材音響信号記憶部
110・・・付加情報抽出手段
111・・・音響フレーム獲得手段
112・・・周波数変換手段
113・・・チャンネル間比率符号化手段
114・・・付加情報認識手段
120・・・変更パラメータ設定手段
130・・・付加情報合成手段
140・・・音響信号変更手段
150・・・音響信号合成手段
160・・・合成付加情報埋め込み手段
161・・・音響フレーム読込手段
162・・・合成付加情報読込手段
163・・・周波数変換手段
164・・・低周波成分変更手段
165・・・周波数逆変換手段
166・・・改変音響フレーム出力手段
170・・・埋め込み合成音響信号記憶部
200・・・信号分離手段
210・・・低周波成分合成手段
220・・・高周波成分合成手段
230・・・信号統合手段
300・・・素材音響信号記憶手段
310・・・合成付加情報抽出手段
320・・・付加情報分離手段
330・・・音響信号検索手段


Claims (7)

  1. 聴取不能な状態で付加情報が埋め込まれた素材音響信号を複数合成して、元の付加情報が全て埋め込まれた合成音響信号を作成する装置であって、
    前記各素材音響信号から付加情報を抽出する付加情報抽出手段と、
    前記抽出された付加情報を合成して合成付加情報を作成する付加情報合成手段と、
    前記素材音響信号を指示された変更パラメータに従って変更する音響信号変更手段と、
    前記変更された素材音響信号を含めた複数の素材音響信号を合成して合成音響信号を作成する音響信号合成手段と、
    前記合成音響信号に対して、前記付加情報合成手段により作成された合成付加情報を埋め込み、埋め込み合成音響信号を作成する合成付加情報埋め込み手段と、
    を有することを特徴とする音響信号の合成装置。
  2. 請求項1において、
    前記素材音響信号が2つのチャンネルで構成され、
    前記付加情報抽出手段は、
    前記素材音響信号より、所定数のサンプルで構成される音響フレームを、各チャンネルに対応して獲得する音響フレーム獲得手段と、
    前記獲得した各音響フレームに対して周波数変換を行い、前記各チャンネルに対応するフレームスペクトルを生成する周波数変換手段と、
    前記生成されたチャンネルごとのフレームスペクトルから所定の周波数以下の成分に相当する低周波強度データを抽出し、各チャンネルごとに各低周波強度データの総和値を算出し、当該総和値のチャンネル間比率が左チャンネル優位の場合、第1の値を出力し、総和値のチャンネル間比率が右チャンネル優位の場合、第2の値を出力し、前記比率がいずれが優位か判断できない場合、第3の値を出力するチャンネル間比率符号化手段と、
    前記出力された符号のうち、前記第1の値と第2の値の2値の符号により構成されるビット配列を、所定の規則により変換して付加情報を抽出する付加情報抽出手段を有するものであることを特徴とする音響信号の合成装置。
  3. 請求項1において、
    前記合成音響信号が2つのチャンネルで構成され、
    前記合成付加情報埋め込み手段は、
    前記合成音響信号の各チャンネルより、それぞれ所定数のサンプルを音響フレームとして読み込む音響フレーム読込手段と、
    前記合成付加情報のビット配列を順次読み込む合成付加情報読み込み手段と、
    前記読み込んだ各音響フレームに対して周波数変換を行い、前記各チャンネルに対応するフレームスペクトルを生成する周波数変換手段と、
    前記生成されたフレームスペクトルから所定の周波数以下の成分に相当する低周波強度データを抽出し、前記読み込んだ合成付加情報のビット配列の各ビット値がとり得る値、および合成付加情報のビット配列の区切りを示す情報に基づいて、チャンネル間で対応する前記低周波強度データのチャンネル間比率を、左チャンネルを大、右チャンネルを大、左右均等の3パターンのいずれかに変更する低周波成分変更手段と、
    前記変更された低周波成分を含む前記複数のフレームスペクトルに対して周波数逆変換を行い、複数の改変音響フレームを生成する周波数逆変換手段と、
    前記生成された改変音響フレームを順次出力する改変音響フレーム出力手段と、
    を有することを特徴とする音響信号の合成装置。
  4. 請求項1において、
    さらに、前記付加情報を、付加情報が埋め込まれていない素材音響信号と対応付けて直接入力する付加情報入力手段を有することを特徴とする音響信号の合成装置。
  5. 請求項1において、
    前記付加情報合成手段は、前記変更パラメータを付加して、付加情報を合成するものであることを特徴とする音響信号の合成装置。
  6. 聴取不能な状態で低周波成分に付加情報が埋め込まれた素材音響信号を複数合成して、元の付加情報が全て埋め込まれた合成音響信号を作成する装置であって、
    前記各素材音響信号の低周波成分を抽出し、各素材音響信号の低周波成分を所定の時間単位で配置して合成する低周波成分合成手段と、
    前記各素材音響信号の高周波成分を抽出し、合成を行う高周波成分合成手段と、
    前記合成後の低周波成分および前記合成後の高周波成分を統合する統合手段と、
    を有することを特徴とする音響信号の合成装置。
  7. 聴取不能な状態で付加情報が埋め込まれた素材音響信号を基に作成した、複数の素材音響信号に対応した付加情報が埋め込まれた合成音響信号を利用して、素材音響信号を検索する装置であって、
    前記素材音響信号を記憶した素材音響信号記憶手段と、
    前記合成音響信号から、埋め込まれている合成付加情報を抽出する合成付加情報抽出手段と、
    前記合成付加情報を元の付加情報に分離する付加情報分離手段と、
    前記分離された付加情報に基づいて、前記素材音響信号記憶手段を検索する音響信号検索手段と、
    を有することを特徴とする音響信号の検索装置。

JP2005059647A 2005-03-03 2005-03-03 音響信号の合成装置および検索装置 Withdrawn JP2006243398A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005059647A JP2006243398A (ja) 2005-03-03 2005-03-03 音響信号の合成装置および検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005059647A JP2006243398A (ja) 2005-03-03 2005-03-03 音響信号の合成装置および検索装置

Publications (1)

Publication Number Publication Date
JP2006243398A true JP2006243398A (ja) 2006-09-14

Family

ID=37049866

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005059647A Withdrawn JP2006243398A (ja) 2005-03-03 2005-03-03 音響信号の合成装置および検索装置

Country Status (1)

Country Link
JP (1) JP2006243398A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014101169A1 (zh) * 2012-12-31 2014-07-03 北京印声科技有限公司 提供增强音频数据流的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014101169A1 (zh) * 2012-12-31 2014-07-03 北京印声科技有限公司 提供增强音频数据流的方法及装置
CN104871243A (zh) * 2012-12-31 2015-08-26 张江红 提供增强音频数据流的方法及装置

Similar Documents

Publication Publication Date Title
CN106486128B (zh) 一种双音源音频数据的处理方法及装置
JP4780375B2 (ja) 音響信号への制御コード埋込装置、および音響信号を用いた時系列駆動装置の制御システム
US10229669B2 (en) Apparatus, process, and program for combining speech and audio data
CN101617360B (zh) 用于编码和解码具有各种声道的多对象音频信号的设备和方法
JP5759022B2 (ja) セマンティック・オーディオ・トラック・ミキサー
US20110112672A1 (en) Systems and Methods of Constructing a Library of Audio Segments of a Song and an Interface for Generating a User-Defined Rendition of the Song
JP2007121626A (ja) ネットワーク接続装置およびネットワーク接続システム
CN105075117A (zh) 根据多个音频主干的自动多声道音乐混合
JP4660275B2 (ja) 音響信号に対する情報の埋め込み装置および方法
JP4629495B2 (ja) 音響信号に対する情報の埋め込み装置および方法
JP4770194B2 (ja) 音響信号に対する情報の埋め込み装置および方法
JP4531653B2 (ja) 音響信号からの情報の抽出装置
JP2006195061A (ja) 音響信号に対する情報の埋め込み装置、音響信号からの情報の抽出装置および音響信号再生装置
JP5082257B2 (ja) 音響信号検索装置
JP2006201527A (ja) 音響信号に対する情報の埋め込み装置、音響信号からの情報の抽出装置、音響信号再生装置および方法
JP4839721B2 (ja) 音響信号に対する情報の埋め込み装置
JP2006243398A (ja) 音響信号の合成装置および検索装置
JP4713181B2 (ja) 音響信号に対する情報の埋め込み装置、音響信号からの情報の抽出装置、および音響信号再生装置
JP4713180B2 (ja) 音響信号からの情報の抽出装置
CN111883090A (zh) 基于移动终端的音频文件的制作方法及装置
KR102431737B1 (ko) 멀티미디어 데이터에서 하이라이트를 찾는 방법 및 그를 이용한 장치
JP5104200B2 (ja) ネットワーク接続装置
JP5699316B2 (ja) 音響データの関連情報検索装置
JP4876978B2 (ja) 音響信号に対する情報の埋め込み装置および音響信号からの情報の抽出装置
JP5011865B2 (ja) 音響信号に対する情報の埋め込み装置および音響信号からの情報の抽出装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080513