JP6512607B2 - 環境音合成装置、その方法及びプログラム - Google Patents

環境音合成装置、その方法及びプログラム Download PDF

Info

Publication number
JP6512607B2
JP6512607B2 JP2016026744A JP2016026744A JP6512607B2 JP 6512607 B2 JP6512607 B2 JP 6512607B2 JP 2016026744 A JP2016026744 A JP 2016026744A JP 2016026744 A JP2016026744 A JP 2016026744A JP 6512607 B2 JP6512607 B2 JP 6512607B2
Authority
JP
Japan
Prior art keywords
template
sound
environmental
environmental sound
reverberation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016026744A
Other languages
English (en)
Other versions
JP2017146391A (ja
Inventor
優 鎌本
優 鎌本
守谷 健弘
健弘 守谷
佐藤 尚
尚 佐藤
亮介 杉浦
亮介 杉浦
善史 白木
善史 白木
川西 隆仁
隆仁 川西
賢一 野口
賢一 野口
公孝 堤
公孝 堤
一彦 河原
一彦 河原
朗穂 藤森
朗穂 藤森
章 尾本
章 尾本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyushu University NUC
Nippon Telegraph and Telephone Corp
Original Assignee
Kyushu University NUC
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyushu University NUC, Nippon Telegraph and Telephone Corp filed Critical Kyushu University NUC
Priority to JP2016026744A priority Critical patent/JP6512607B2/ja
Publication of JP2017146391A publication Critical patent/JP2017146391A/ja
Application granted granted Critical
Publication of JP6512607B2 publication Critical patent/JP6512607B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

本発明は、伝送元で収音された環境音を、伝送先で再生する環境音合成装置、その方法及びプログラムに関する。
実測データをもとに算出した個人差や、速度・大きさの揺らぎの程度を利用して、単独のユーザと同期するように複数の拍手音を合成し出力する技術が提案されている(非特許文献1)。また、ある地点の音を別の場所に伝送し再生する技術として、音響符号化技術が知られている。例えば、非特許文献2では、聴覚マスキングを巧みに利用し、また楽器の特性を利用して低域の成分を高域にコピーして使うという楽音の特性に合わせたモデルにより、低ビットレートで品質の高い音響符号化技術が提案されている。
非特許文献1は、ユーザと同調する複数の人がその場にいるような環境を仮想的に実現することを目的としたものであり、ユーザの拍手のピッチに合わせて仮想的な拍手音を合成する技術であり、実在する遠隔地の場の状況(拍手音や手拍子)を、別の場所に伝送し再現することはできなかった。また、声援・掛け声などの拍手音以外の環境音を伝送し再現することは対象としていない。また、拍手音や声援・掛け声などの環境音は純粋な音声や楽器音とは異なり白色雑音に近いため、非特許文献2のような従来の音響符号化技術ではうまく表現できず、音質が劣化していた。
伝送元において収音された拍手や手拍子音、声援・掛け声などの環境音を効率よく伝送し、伝送先で伝送元の場の雰囲気を再現することができる環境音合成装置として、特許文献1が知られている。
特許文献1の環境音合成装置では、テンプレート記憶部に1フレーム分(一定時間分)の環境音のテンプレートと当該テンプレートの環境音の音量に対応する情報とを対応付けて記憶しておき、音源合成部が受信した環境音量パラメタと同じ音量大きさのテンプレートをテンプレート記憶部から選択し、選択したテンプレートを合成して環境音を生成する。
特開2014−63145号公報
西村竜一、宮里勉、「仮想的集団による拍手音の合成」、電子情報通信学会技術研究報告、電子情報通信学会、1999年3月、MVE,マルチメディア・仮想環境基礎、98(684), p.17-24, Stefan Meltzer and Gerald Moser,"MPEG-4 HE-AAC v2 - audio coding for today's digital media world," EBU technical review, Jan., 2006.
しかしながら、特許文献1では、伝送元における残響を考慮していない。そのため、生成された環境音を再生すると、一点から環境音が発せられるように聞こえてしまい、実際には一点ではなく所定の空間から発せられる環境音を適切に再現することが難しい。特に、伝送元の空間が広い場合にその傾向が強くなる。
そこで本発明では、伝送元において収音された環境音を効率よく伝送し、伝送先で伝送元の場の雰囲気を残響を考慮して再現することができる環境音合成装置、その方法及びプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、環境音合成装置は、環境音分析装置から伝送元の音響信号の音量に関する環境音量パラメタを取得して環境音を生成する。環境音合成装置は、環境音分析装置から環境音量パラメタを受信するデータ受信部と、1フレーム分の環境音のテンプレート(以下、テンプレートという)と当該テンプレートの環境音の音量に対応する情報とを対応付けて記憶するテンプレート記憶部と、環境音量パラメタで特定される音量に応じたテンプレートをテンプレート記憶部から選択し、選択したテンプレートに環境音量パラメタで特定される音量とその音量に応じた残響特性とを用いて、残響を加えたテンプレートを合成することで環境音を生成する残響付加音源合成部とを含む。
上記の課題を解決するために、本発明の他の態様によれば、環境音合成装置は、環境音分析装置から伝送元の音響信号の音量に関する環境音量パラメタを取得して環境音を生成する。環境音合成装置は、環境音分析装置から環境音量パラメタを受信するデータ受信部と、1フレーム分の残響を加えた環境音のテンプレート(以下、テンプレートという)と当該テンプレートの環境音の音量に対応する情報とを対応付けて記憶するテンプレート記憶部と、環境音量パラメタで特定される音量に応じたテンプレートをテンプレート記憶部から選択し、選択したテンプレートを合成して環境音を生成する残響付加音源合成部とを含む。
上記の課題を解決するために、本発明の他の態様によれば、環境音合成装置は、環境音分析装置から伝送元の空間の大きさに基づく音響信号の残響に関する環境残響パラメタを取得して環境音を生成する。環境音合成装置は、環境音分析装置から環境残響パラメタを受信するデータ受信部と、1フレーム分の残響を加えた環境音のテンプレート(以下、テンプレートという)と当該テンプレートの環境音の残響に対応する情報とを対応付けて記憶するテンプレート記憶部と、環境残響パラメタで特定される残響に応じたテンプレートをテンプレート記憶部から選択し、選択したテンプレートを合成して環境音を生成する残響付加音源合成部とを含む。
上記の課題を解決するために、本発明の他の態様によれば、環境音合成方法は、伝送元の音響信号の音量に関する環境音量パラメタを取得して環境音を生成する。環境音合成方法は、データ受信部が、環境音量パラメタを受信するデータ受信ステップと、残響付加音源合成部が、1フレーム分の環境音のテンプレート(以下、テンプレートという)と当該テンプレートの環境音の音量に対応する情報とを対応付けて記憶するテンプレート記憶部から環境音量パラメタで特定される音量に応じたテンプレートを選択し、選択したテンプレートに環境音量パラメタで特定される音量とその音量に応じた残響特性とを用いて、残響を加えたテンプレートを合成することで環境音を生成する残響付加音源合成ステップとを含む。
上記の課題を解決するために、本発明の他の態様によれば、環境音合成方法は、伝送元の音響信号の音量に関する環境音量パラメタを取得して環境音を生成する。環境音合成方法は、データ受信部が、環境音量パラメタを受信するデータ受信ステップと、残響付加音源合成部が、1フレーム分の残響を加えた環境音のテンプレート(以下、テンプレートという)と当該テンプレートの環境音の音量に対応する情報とを対応付けて記憶するテンプレート記憶部から、環境音量パラメタで特定される音量に応じたテンプレートを選択し、選択したテンプレートを合成して環境音を生成する音源合成ステップとを含む。
上記の課題を解決するために、本発明の他の態様によれば、環境音合成方法は、伝送元の空間の大きさに基づく音響信号の残響に関する環境残響パラメタを取得して環境音を生成する。環境音合成方法は、データ受信部が、環境残響パラメタを受信するデータ受信ステップと、残響付加音源合成部が、1フレーム分の残響を加えた環境音のテンプレート(以下、テンプレートという)と当該テンプレートの環境音の残響に対応する情報とを対応付けて記憶するテンプレート記憶部から、環境残響パラメタで特定される残響に応じたテンプレートを選択し、選択したテンプレートを合成して環境音を生成する音源合成ステップとを含む。
本発明によれば、伝送元において収音された環境音を効率よく伝送し、伝送先で伝送元の場の雰囲気を残響を考慮して再現することができるという効果を奏する。
本発明の環境音伝送システムの構成例を示すブロック図。 実施例1の環境音分析装置の構成を示すブロック図。 実施例1の環境音分析装置の動作を示すフローチャート。 実施例2の環境音分析装置の構成を示すブロック図。 実施例2の環境音分析装置の動作を示すフローチャート。 実施例2のパラメタ変換部のパラメタ生成手順を例示する図。 実施例2の変形例1の環境音分析装置の構成を示すブロック図。 実施例2の変形例1の環境音分析装置の動作を示すフローチャート。 実施例3、実施例5の環境音合成装置の構成を示すブロック図。 実施例3の環境音合成装置の動作を示すフローチャート。 実施例3の残響付加音源合成部の残響付加方法を説明するための図。 実施例4の環境音合成装置の構成を示すブロック図。 実施例4の環境音合成装置の動作を示すフローチャート。 実施例4の音源合成部の環境音素片テンプレート合成手順を例示する図。 実施例5の環境音合成装置の動作を示すフローチャート。 実施例6の環境音分析装置の構成を示すブロック図。 実施例6の環境音分析装置の動作を示すフローチャート。 実施例7、8の環境音合成装置の構成を示すブロック図。 実施例7の環境音合成装置の動作を示すフローチャート。 実施例8の環境音分析装置の動作を示すフローチャート。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
拍手や手拍子音、声援・掛け声などの環境音の総音量は、観客の人数が多いほど大きくなる。本発明では、環境音そのものを伝送するのではなく、環境音の音量を表す情報だけを伝送する。そして、伝送先では予め記憶された環境音のテンプレートを、音量を表す情報に応じて変換することにより、伝送元の環境音(に類似した音)を再生する。
また、拍手や手拍子音の一拍(一度両手を合わせて打つこと)は、音響パワーの個人差が小さい。また、一拍と一拍の時間間隔(以下、拍手間隔ともいう)の個人差も小さく、200ms〜300ms程度である。したがって、ある人の拍手音(一拍分)を環境音素片テンプレートとして用意しておき、それを個人差に応じたゆらぎ(200ms〜300ms)を持たせた間隔で繰り返し再生することにより、別の人の拍手音に類似した音を構成することができる。
<環境音伝送システム>
以下、図1を参照して本発明の環境音伝送システムについて説明する。図1は本発明の環境音伝送システムの構成例を示すブロック図である。図1に示すように、本発明の環境音伝送システムは、伝送元の環境音分析装置と、伝送先の環境音合成装置から構成される。図1Aに示すように、後述する実施例1,2,2’の環境音分析装置は、入力された音響信号(環境音)の音量に対応する情報(環境音量パラメタP、以下単にパラメタともいう)を抽出し、出力する。後述する実施例4,5の環境音合成装置は、予め記憶された環境音のテンプレートを用いて、入力された環境音量パラメタPを用いてテンプレートを選択し、選択したテンプレートを用いて環境音を合成し、出力する。また、図1Bに示すように、後述する実施例6の環境音分析装置は、入力された音響信号(環境音)の音量に対応する情報(環境音量パラメタP、以下単にパラメタPともいう)と、音響信号(環境音)の残響に対応する情報(環境残響パラメタRP、以下単にパラメタRPともいう)とを抽出し、出力する。後述する実施例7,8の環境音合成装置は、予め記憶された環境音のテンプレートを用いて、入力された環境残響パラメタRPまたは環境音量パラメタPを用いて、テンプレートを選択し、選択したテンプレートを用いて環境音を合成し、出力する。以下、実施例1において環境音分析装置1、実施例2において環境音分析装置2、実施例2の変形例1において環境音分析装置2’、実施例3において環境音合成装置3、実施例4において環境音合成装置4、実施例5において環境音合成装置5、実施例6において環境音分析装置6、実施例7において環境音合成装置7、実施例8において環境音合成装置8をそれぞれ説明する。また、環境音分析装置1,2,2’と環境音合成装置3、4、5との組み合わせを環境音伝送システム1000、環境音分析装置6と環境音合成装置7,8との組み合わせを環境音伝送システム2000と呼ぶ。
以下、図2、図3を参照して本発明の実施例1の環境音分析装置について説明する。図2は本実施例の環境音分析装置1の構成を示すブロック図である。図3は本実施例の環境音分析装置1の動作を示すフローチャートである。図2に示すように、本実施例の環境音分析装置1は、収音部11と、音量計算部12と、パラメタ変換部13と、データ送信部14とを備える。
<収音部11>
収音部11は伝送元の音を収音する(S11)。ここでは、収音部11には伝送元の拍手音が入力されるものとする。
<音量計算部12>
音量計算部12は、拍手音の音響信号を取得する。音量計算部12が取得する拍手音の音響信号は、所定のサンプリング周波数でサンプリングされた信号列とする。ここで、Xを第jフレームの音響信号とし、X=(x(1),x(2),…,x(N))(Nはフレームあたりのサンプル数)とする。例えば8kHzサンプリングのときに1フレーム20msとすると、N=160である。なお、遅延が短い方が良ければフレームの長さを短くし、遅延が長くなっても良ければ、フレームの長さを長くすれば良い。音量計算部12は、フレーム毎に、入力された拍手音の音響信号の音量に対応する値(以下、「拍手音量に対応する値」ともいう)を求めて出力する。具体的には、音量計算部12は、フレーム毎に、入力された拍手音の音響信号X=(x(1),x(2),…,x(N))の平均エネルギー
Figure 0006512607
を計算する(S12)。
<パラメタ変換部13>
パラメタ変換部13は、音量計算部12から出力された拍手音量に対応する値を取得する。パラメタ変換部13は、取得した拍手音量に対応する値を量子化し、環境音量パラメタを出力する。具体的には、パラメタ変換部13は、平均エネルギーEの取りうる範囲(例えばx(i)(i=1,2,…,N)が符号付き16bitの場合は最小値が0で最大値が2^30となる)をあらかじめ定められた場合の数(例えば16bit)に量子化し、そのインデックスを環境音量パラメタPとして出力する(S13)。
<データ送信部14>
データ送信部14は、パラメタ変換部13が出力した環境音量パラメタPを伝送先の環境音合成装置3(または4、5)に送信する(S14)。環境音合成装置3,4,5についてはそれぞれ実施例3,4,5に記載する。
このように、本実施例の環境音分析装置1によれば、伝送元において収音された拍手音を効率よく低遅延に伝送することができる。
[実施例1の動作例2]
上述の実施例1では、伝送元の環境音の例として拍手音を対象とし、伝送元の拍手音を分析する環境音分析装置1の動作例を説明したが、これに限らず拍手音以外の環境音を対象としても良い。例えば、声援や掛け声などを環境音としても良いし、伝送元で収音される音の中から伝送元会場のメインコンテンツの音を除いた音響信号(雑音を含む)を環境音としても良い。
実施例1の動作例2における環境音分析装置1は、環境音分析装置1の収音部11、音量計算部12、パラメタ変換部13、データ送信部14の各部で取り扱われる拍手音および拍手音量が、環境音及び環境音の音量に置き換わる点を除いては、上述の動作例と同じである。
拍手音や声援・掛け声、雑音などは、いずれも伝送元の会場の雰囲気を決定づける重要な要素である一方で、いろいろな音響信号が混合された白色雑音に近い信号である。前述したようにこれらの音を環境音と呼ぶ。伝送元で環境音が発せられたタイミング及び音量が保たれていれば、信号そのものは伝送元の環境音と全く同じ信号でなくとも、場の雰囲気を再現することができる。そこで、環境音分析装置1において、伝送元の環境音の音量に関するパラメタを抽出することで、伝送元において収音された環境音を効率よく低遅延に伝送することができる。
以下、図4、図5、図6を参照して本発明の実施例2の環境音分析装置について説明する。図4は本実施例の環境音分析装置2の構成を示すブロック図である。図5は本実施例の環境音分析装置2の動作を示すフローチャートである。図6は本実施例のパラメタ変換部23のパラメタ生成手順を例示する図である。図4に示すように、本実施例の環境音分析装置2は、収音部11と、音量計算部12と、パラメタ変換部23と、データ送信部14とを備える。収音部11、音量計算部12、データ送信部14は実施例1の環境音分析装置1における同一番号の各構成部と同じであるから説明を適宜略する。
<音量計算部12>
音量計算部12は、48kHzサンプリングでサンプリングされた信号列であり、1フレーム6サンプル(N=6)で構成される信号列X=(x(1),x(2),…,x(6))を取得する。音量計算部12は、フレーム毎に、入力された拍手音響信号X=(x(1),x(2),…,x(6))から、平均エネルギー
Figure 0006512607
を計算する(S12)。
<パラメタ変換部23>
パラメタ変換部23は、求めた平均エネルギーEを以下の式により変形した列Fを求める。
Figure 0006512607
つまり、図6に示すように、ガウス関数や床関数により整数値化されたFの取りうる値(0〜32768)のうち、奇数の値に負の符号を与え、さらに1を減じる。これにより、Fはすべて偶数の値を取ることになる。次に、全部偶数になったFの各々を2で割る(右に1ビットシフトでも構わない)。この値をG.711準拠の範囲に収めるために、μ−lawを使うのであればさらに2で割り(右に1ビットシフトでもよい)値Gを求める。そして、Gに対して、ITU−T_G.711の符号化処理を行い、GをG.711の符号(番号)に変換する。48kHzサンプリング6サンプル分を一塊(1フレーム)にすると8kHzの1サンプル分に相当するので、上記のG毎にG.711のシンボル1つを割り当てることができる。割り当てられたシンボル列をパラメタPとして出力する(S23)。パラメタPは通常の音声と同様に固定電話回線を用いて伝送すると遅延が短くすむ。式(1)のかわりに式(2)のように対数を用いてもよい。
Figure 0006512607
また、平方根演算や対数演算は多項式近似(テイラー展開など)で演算量を削減してもよい。
[実施例2の変形例1]
以下、図7、図8を参照して実施例2のパラメタ変換部23に変更を加えた変形例1の環境音分析装置について説明する。図7は本変形例の環境音分析装置2’の構成を示すブロック図である。図8は本変形例の環境音分析装置2’の動作を示すフローチャートである。図7に示すように、本変形例の環境音分析装置2’は、収音部11と、音量計算部12と、パラメタ変換部23’と、データ送信部14とを備える。収音部11、音量計算部12、データ送信部14は実施例2の環境音分析装置2における同一番号の各構成部と同じであるから説明を適宜略する。
<パラメタ変換部23’>
パラメタ変換部23’は、図6のようなマッピング演算の代わりに、Fの取りうる0〜32768の値を直接8bitのシンボルにマッピングするマッピングテーブル23Aを予め備えており、マッピングテーブル23Aを参照してパラメタPを求める(S23’)。または、パラメタ変換部23’は、Fの取りうる0〜32768の値をあらかじめビットシフト等により場合の数を減らしてから、マッピングテーブル23Aを用いてパラメタPを求めてもよい。この場合はマッピングテーブル23Aの大きさを削減できる。Fはデシベル単位に変換したものを用いてもよい。
実施例2及び変形例1の環境音分析装置は以下の効果を有する。収音された拍手音の音響信号は正の値となるため、Eの平方根の値の取りうる範囲は正の整数値、例えばx(n)(n=1,2,…,N)が符号付き16bitの場合は最小値が0で最大値が32768となる。このまま、パラメタ変換部でITU−T_G.711の符号化を行うと、符号化効率が悪くなるという問題がある。上記式(1)の変形を行うと、例えばx(n)(n=1,2,…,N)が符号付き16bitの場合は、Fの取りうる範囲は−16384から16384になる。そこで、パラメタ変換部においてEの取りうる範囲が負の整数値から正の整数値の範囲となるように変換した値Fを用いることにより、符号化効率を向上させることができ、パラメタPの情報量を削減することができる。つまり、伝送遅延をより少なくすることが可能となる。
[実施例2の動作例2]
上述の実施例2および実施例2の変形例1では、伝送元の環境音の例として拍手音を対象とし、伝送元の拍手音を分析する環境音分析装置2(2’)の動作例を説明したが、これに限らず拍手音以外の環境音を対象としても良い。例えば、声援や掛け声などを環境音としても良いし、伝送元で収音される音の中から伝送元会場のメインコンテンツの音を除いた音響信号(雑音を含む)を環境音としても良い。
実施例2の動作例2においては、環境音分析装置2(2’)の収音部11、音量計算部12、パラメタ変換部23または23’、データ送信部14の各部で取り扱われる拍手音および拍手音量が、環境音及び環境音の音量に置き換わる点を除いては、上述の動作例と同じである。
以下、図9、図10を参照して本発明の実施例3の環境音合成装置について説明する。図9は本実施例の環境音合成装置3の構成を示すブロック図である。図10は本実施例の環境音合成装置3の動作を示すフローチャートである。図9に示すように、本実施例の環境音合成装置3は、データ受信部31と、残響付加音源合成部32と、テンプレート記憶部33と、再生部34とを備える。環境音合成装置3は環境音分析装置1(2、2’)から伝送元の音響信号の音量に関する環境音量パラメタを取得して環境音を生成する装置である。以下、実施例1、2で詳述した動作例に従い、環境音の例として拍手音を用いて説明を進める。
<データ受信部31>
データ受信部31は、環境音分析装置から環境音量パラメタPを受信する(S31)。
<テンプレート記憶部33>
テンプレート記憶部33には、拍手音の各音量バリエーションに対して複数の拍手音(1フレーム分)のテンプレートが記憶されている。つまり、テンプレート記憶部33には、iをフレームのインデックスとした場合に、1フレーム分の拍手音を含む環境音のテンプレートTと当該テンプレートの環境音の音量に対応する情報E’とが対応付けて記憶されているものとする。なお、テンプレートの環境音の音量に対応する値は、各テンプレートTを入力として、上記実施例1または2の音量計算部12及びパラメタ変換部13(23)と同じ方法により求めることができる。なお、実施例1または2のどの方法を用いるかは、環境音分析装置と環境音合成装置との間で統一しておくものとする。
<残響付加音源合成部32>
残響付加音源合成部32は、入力された環境音量パラメタPで特定される音量に応じたテンプレートのうちいずれか1つをテンプレート記憶部33からランダムに選択する。つまり、P=E’を満たすE’に対応づけられているテンプレートTのうち、いずれか1つをランダムに選択する。残響付加音源合成部32は、選択したテンプレートに環境音量パラメタで特定される音量とその音量に応じた残響特性とを用いて、テンプレートに残響を加え、残響を加えたテンプレートを、必要に応じて前のフレームと補間をして、1フレーム分の音響信号を合成して環境音(この動作例では拍手音)を生成する(S32)。ここでは、環境音量パラメタで特定される音量が大きいほど、伝送元の空間の広いと仮定する。例えば、環境音量パラメタPの値が所定の閾値よりも小さい場合は、狭い空間であることが想定されるので、図11Aのように、テンプレートに短い残響Hsを畳み込む。また、環境音量パラメタPの値が閾値以上の場合は、広い空間であることが想定されるので、図11Bのように、テンプレートに短い残響Hsとともに長い残響Hlを畳み込む。所定の閾値は、例えば実験やシュミレーション等により適切な値を調べ、設定すればよい。例えば、20msのフレームあたり環境音量パラメタに8bitのバリエーションがあったとすると、400bit/secで拍手音を伝送できる。なお、音量が大きいほど、残響が長くなるという特性が前述の残響特性に相当する。
<再生部34>
再生部34は、残響付加音源合成部32が合成した拍手音を再生する(S34)。
このように、本実施例の環境音合成装置3によれば、テンプレート記憶部33に拍手音の各音量バリエーションに対して複数のテンプレートを保持しておき、残響付加音源合成部32が音量の条件を充たす複数のテンプレートから1つのテンプレートをランダムに選択するため、合成された拍手音が定常的なパターンとして聞こえないようにすることができる。さらに、選択したテンプレートに環境音量パラメタで特定される音量に応じた残響を加えるため、伝送先で伝送元の場の雰囲気を残響を考慮して再現することができる。
[実施例3の動作例2]
実施例3では、伝送元の環境音の例として拍手音を対象とし、伝送元の拍手音の音量に関するパラメタを取得して、伝送先で拍手音を生成する環境音合成装置3の動作例を説明したが、これに限らず拍手音以外の環境音を対象としても良い。例えば、声援や掛け声や、伝送元で収音される音の中から伝送元会場のメインコンテンツの音を除いた音響信号(雑音を含む)を環境音とし、伝送元の環境音量パラメタが入力され、伝送先で環境音を合成してもよい。
実施例3の動作例2では、実施例3の環境音合成装置3のデータ受信部31と、残響付加音源合成部32と、テンプレート記憶部33と、再生部34において、拍手音が環境音に置き換わる点を除いては、上述の動作例と同じである。なお、以降において説明する環境音分析装置、環境音合成装置においても同様に拍手音以外の環境音を対象としても良い。
以下、図12、図13、図14を参照して本発明の実施例4の環境音合成装置について説明する。図12は本実施例の環境音合成装置4の構成を示すブロック図である。図13は本実施例の環境音合成装置4の動作を示すフローチャートである。図14は本実施例の残響付加音源合成部42の環境音素片テンプレート合成手順を例示する図である。図12に示すように、本実施例の環境音合成装置4は、データ受信部31と、残響付加音源合成部42と、テンプレート記憶部43と、再生部34と、人数推定部45と、テンプレート音量記憶部46とを備える。データ受信部31、再生部34は実施例3の環境音合成装置3における同一番号の各構成部と同じであるから説明を省略する。
<テンプレート記憶部43>
テンプレート記憶部43には、一人の人間による一拍分の拍手音(300ms程度)のテンプレートの複数のバリエーションが記憶されている。本実施例では環境音の例として拍手音を扱うため、拍手音のテンプレートを環境音素片テンプレートのバリエーションのひとつとする。従って、以下では拍手音のテンプレートを環境音素片テンプレートともいう。例えば、異なる人の一拍分の拍手音をそれぞれ異なる環境音素片テンプレートとして記憶しておく。以下、単にテンプレートという場合には、所定フレーム長の複数人による拍手音(環境音)全体を収録したテンプレートを指すものとし、環境音素片テンプレートという場合には、一人の人間による一拍分の拍手音(環境音)のテンプレートを指すものとする。
<テンプレート音量記憶部46>
テンプレート音量記憶部46には、テンプレート記憶部43に記憶されている環境音素片テンプレートの音量に対応する情報(具体的には、実施例1または2の音量計算部12により計算される、平均エネルギー)が記憶されている。なお、1人分の拍手音の音量の差は小さいので、テンプレート記憶部43に記憶されている環境音素片テンプレートのいずれか一つについて計算された平均エネルギーを環境音素片テンプレートの音量に対応する情報として記憶しておいてもよい。また、テンプレート記憶部43に記憶されている全環境音素片テンプレートの平均エネルギーの平均値を、環境音素片テンプレートの音量に対応する情報としてテンプレート音量記憶部46に記憶しておいてもよい。あるいは、予め定めた定数を音量に対応する情報としてテンプレート音量記憶部46に記憶しておいても良い。
なお、テンプレート音量記憶部46に予め環境音素片テンプレートの音量に対応する情報を記憶せず、その都度テンプレート記憶部43からランダムに選択した環境音素片テンプレートについて計算した平均エネルギーを環境音素片テンプレートの音量に対応する情報として用いても良い。
<人数推定部45>
人数推定部45は、環境音量パラメタPに応じて音量のゲイン調整を行うための構成である。人数推定部45は、伝送元から出力された環境音量パラメタPを取得し、当該環境音量パラメタPから音量に対応する情報E’を求める。具体的には、実施例1または2のパラメタ変換部13(23)と逆の処理を行うことにより、音量に対応する情報E’を得る。人数推定部45は、音量に対応する情報E’を環境音素片テンプレートの音量に対応する情報で除算した値の整数値(小数点以下を四捨五入、または切り捨てた値)を拍手の人数Mとして出力する(S45)。
<残響付加音源合成部42>
残響付加音源合成部42は、テンプレート記憶部43から環境音素片テンプレートをランダムに選択して、環境音量パラメタで特定される音量とその音量に応じた残響特性とを用いて、テンプレートに残響を加え、残響を加えた環境音素片テンプレートを合成することで環境音を生成する(S42)。ここでは(環境音量パラメタで特定される音量に応じた)人数に応じて空間の広さが変化すると仮定する。例えば、10人(M=10)程度の拍手であれば10人程度の人が入れる空間の大きさに応じた残響を加え、100人(M=100)程度の拍手であれば100人程度の人が入れる空間の大きさに応じた残響を加える。なお、空間の大きさに応じて残響の長さが変化するという特性が前述の残響特性に相当する。例えば、コンサート会場等における、観客間の間隔は50〜70cm程度なので、その値から空間の大きさを推定する。例えば、円形、正方形、直線、格子状または、それらの組合せからなる形状に、50〜70cmの間隔で人間を配置したとして、空間の大きさを推定する。人数が少ない場合、例えば、環境音量パラメタPの値が小さく、Mの値が閾値よりも小さい場合は、狭い空間であることが想定されるので、図11Aのように、環境音素片テンプレートに短い残響Hsを畳み込む。人数が多い場合、例えば、環境音量パラメタPの値が大きく、Mの値が閾値以上の場合は、広い空間であることが想定されるので、図11Bのように、環境音素片テンプレートに短い残響Hsとともに長い残響Hlを畳み込む。
例えば、拍手音の間隔を特許文献1と同様とする。例えば、M=1の場合、図14Aのように、約300msごとにランダムに選択された環境音素片テンプレートTを用いて合成した波形に残響を付加して拍手音として出力する。前述のように合成の時間間隔は約300msでよいが、より好ましくは300msを中心として時間間隔に揺らぎを持たせてもよい。時間間隔に揺らぎを持たせることによってさらに自然な拍手音を合成することができる。たとえば300msを中心としてガウス分布にしたがう乱数により、±数10msの揺らぎを持たせればよい。例えば残響付加音源合成部42は
Figure 0006512607
によりテンプレートを変換した拍手音Y(i=0,1,2,・・・)を出力する(S42)。なお、式中、Hは残響を示し、前述の通り、Mの値に応じて短い残響Hsまたは長い残響Hlを用いる。M=1の場合には、狭い空間であることが想定されるので、短い残響Hsを用いる。別の表現方法で書くと、時系列テンプレート信号T=(t[1] t[2] … t[P])と拍手タイミングを表すインパルスδ(i・τ+σ)とを用いて、合成音Ziを求め、残響Hを畳み込み、Yを求め、出力とする。
Figure 0006512607
ここで*は畳み込み演算を表す。ここで、τ=300msであり、σは−10ms≦σ≦+10msの範囲で生成した乱数である。また、δ関数ではなく時間方向に揺れている伝達関数(残響)Hを畳み込み、Yを求めてもよい。
Figure 0006512607
環境音量パラメタによりM人分の拍手を合成する場合は、図14Bのように、時間間隔を約300/M(ms)ごとにランダムに選択された環境音素片テンプレートを用いて合成された波形に残響を付加して拍手音として出力する。人数Mの逆数を使って、時間間隔を約300/M(ms)と設定することで、拍手の人数Mが増えるに従って時間間隔が小さくなるように設定することができる。この場合もガウス分布やラプラス分布に従う乱数によって、揺らぎを持たせることができる。例えば残響付加音源合成部42は、
Figure 0006512607
によりテンプレートを変換し、残響を付加した環境音Y(i=0,1,2,・・・)を出力する(S42)。
このように、本実施例の環境音合成装置4によれば、実施例3のように音量ごとにテンプレートを用意しておく必要がなく、テンプレート記憶部43に記憶しておく環境音素片テンプレートの数も少なくてよいため、環境音合成装置4のメモリ量を削減することができる。さらに、人数に応じて空間の広さを推定することができ、より適切な残響を生成し、より適切に伝送元の場の雰囲気を再現することができると考えられる。なお、本実施例のポイントは、環境音素片テンプレートを用いて合成された波形に残響を付加して拍手音とすることなので、拍手音の間隔については他の方法を用いて設定してもよい。
[実施例4の動作例2]
実施例4は、伝送元の伝送元の環境音の例として拍手音を対象とし、伝送元の拍手音の音量に関するパラメタを取得して、伝送先で拍手音を生成する環境音合成装置4を説明したが、これに限らず拍手音以外の環境音を対象としても良い。上述では、一人の人間による一拍分の拍手音(300ms程度)のテンプレートを環境音素片テンプレートの例として示したが、これに限らず、たとえば、一人の人間による一拍分の声援、掛け声のテンプレートを環境音素片テンプレートとしてもよい。
実施例4の動作例2では、実施例4の環境音合成装置4のデータ受信部31と、残響付加音源合成部42と、テンプレート記憶部43と、再生部34と、人数推定部45と、テンプレート音量記憶部46において取り扱われるデータが拍手音から環境音に置き換わる点を除いては、上述の動作例と同じである。
なお、残響付加音源合成部42において、式(3)の代わりに、時系列テンプレート信号T=(t[1] t[2] … t[P])と環境音タイミングを表すインパルスδ(m・τ+σ)とを用いて、合成音Ziを求め、残響Hを畳み込み、Yを求め、Yを出力としても良い。
Figure 0006512607
ここで*は畳み込み演算を表す。
また、テンプレート記憶部43に記憶しておく環境音素片テンプレートの波形のエネルギーをあらかじめ正規化してあってもよい。その場合は、人数推定部45のパラメタに応じで、音量(ゲイン)を調整すればよい。この場合もメモリ量を少なくしながらバリエーションを増やすことができる。
以下、実施例3と異なる部分を中心に説明する。
以下、図9、図15を参照して本発明の実施例5の環境音合成装置について説明する。図9は本実施例の環境音合成装置5の構成を示すブロック図である。図15は本実施例の環境音合成装置5の動作を示すフローチャートである。図9に示すように、本実施例の環境音合成装置5は、データ受信部31と、残響付加音源合成部52と、テンプレート記憶部53と、再生部34とを備える。残響付加音源合成部52及びテンプレート記憶部53以外の各構成部は実施例3の環境音合成装置3における同一番号の各構成部と同じであるから説明を省略する。
<テンプレート記憶部53>
テンプレート記憶部53には、拍手音の各音量バリエーションに対して残響を加えた複数の拍手音(以下「残響付加済の拍手音」ともいう、これを1フレーム分)のテンプレートが記憶されている。つまり、テンプレート記憶部53には、iをフレームのインデックスとした場合に、1フレーム分の残響付加済の拍手音を含む環境音のテンプレートTと当該テンプレートの環境音の音量に対応する情報E’とが対応付けて記憶されているものとする。ここでは、環境音量パラメタで特定される音量が大きいほど、伝送元の空間の広いと仮定する。そのため、音量が大きいほど、伝送元の空間の広く、残響は長くなる。つまり、本実施例のテンプレート記憶部53に記憶されるテンプレートには、既に、残響特性(音量が大きいほど、残響は長くなるという特性)に応じた残響が加えられていると言える。
なお、残響付加済の拍手音は、所望の残響を観測できる場所で録音したものでもよいし、残響がない(または少ない)状態で録音した信号に残響を畳み込んだものでもよい。
<残響付加音源合成部52>
残響付加音源合成部52は、入力された環境音量パラメタPで特定される音量に応じた(残響付加済の拍手音の)テンプレートをテンプレート記憶部53から選択し、選択したテンプレートを合成して環境音を生成し(S52)、出力する。
例えば、1つ以上の閾値を設け、テンプレート記憶部53では、閾値と環境音の音量に対応する情報E’との大小関係により、テンプレートを複数のグループに分けておく。残響付加音源合成部52は、環境音量パラメタPと閾値との大小関係により、何れのグレープに含まれるテンプレートを選択するか決定する。
(グループ例1)
例えば、二つの閾値Th1とTh2(Th1<Th2)を設け、E’<Th1となるテンプレートを短い残響が畳み込まれたテンプレートのグループ(以下DB1-1ともいう)に、E’>Th2となるテンプレートを長い残響が畳み込まれたテンプレートのグループ(以下DB1-3ともいう)に、Th1≦E’≦Th2となるテンプレートを中くらいの残響が畳み込まれたテンプレートのグループ(以下DB1-2ともいう)に分類する。
(選択例1−1)
残響付加音源合成部52は、P<Th1のときにDB1-1からテンプレートを選択し、Th1≦Pji≦Th2のときにDB1-1及びDB1-2からテンプレートを選択し、Th2<PのときにDB1-1,DB1-2及びDB1-3からテンプレートを選択する。
(選択例1−2)
閾値で完全に分けずに、音量に応じて各DBから選ばれるテンプレートに確率の重みを付けて選択しても良い。
例えば、残響付加音源合成部52は、P<Th1のときに70パーセントの確率でDB1-1からテンプレートを選択し、20パーセントの確率でDB1-2からテンプレートを選択し、10パーセントの確率でDB1-3からテンプレートを選択する。また、Th1≦Pji≦Th2のときに80パーセントの確率でDB1-1及びDB1-2からテンプレートを選択し、20パーセントの確率でDB1-3からテンプレートを選択する。また、Th2<Pのときに10パーセントの確率でDB1-1からテンプレートを選択し、20パーセントの確率でDB1-2からテンプレートを選択し、70パーセントの確率でDB1-3からテンプレートを選択する。
(グループ例2)
例えば、二つの閾値Th1とTh2(Th1<Th2)を設け、E’<Th1となるテンプレートを短い残響が畳み込まれたテンプレートのグループ(以下DB2-1ともいう)に、E’≦Th2となるテンプレートを短い残響と中くらいの残響とが畳み込まれたテンプレートのグループ(以下DB2-2ともいう)に、E’>Th2となるテンプレートを短い残響と中くらいの残響と長い残響とが畳み込まれたテンプレートのグループ(以下DB2-3ともいう)に分類する。
(選択例2−1)
残響付加音源合成部52は、P<Th1のときにDB2-1からテンプレートを選択し、Th1≦Pji≦Th2のときにDB2-2からテンプレートを選択し、Th2<PのときにDB2-3からテンプレートを選択する。
(選択例2−2)
閾値で完全に分けずに、音量に応じて各DBから選ばれるテンプレートに確率の重みを付けて選択しても良い。例えば、選択例1−2と同様の方法により選択する。
このような構成により、残響付加音源合成部において畳み込み処理に伴う演算量、時間を省くことができる。なお、本実施例と実施例4とを組合せてもよい。
以下、図16、図17を参照して本発明の実施例6の環境音分析装置について説明する。図16は本実施例の環境音分析装置6の構成を示すブロック図である。図17は本実施例の環境音分析装置6の動作を示すフローチャートである。図16に示すように、本実施例の環境音分析装置6は、収音部11と、音量計算部12と、パラメタ変換部63と、データ送信部64と、空間計算部65を備える。パラメタ変換部63、データ送信部64、及び空間計算部65以外の各構成部は実施例1の環境音分析装置1における同一番号の各構成部と同じであるから説明を省略する。
<空間計算部65>
空間計算部65は、拍手音の音響信号を取得する。空間計算部65は、フレーム毎に入力された拍手音の音響信号X=(x(1),x(2),…,x(N))の残響に対応する値を求め(S65)、出力する。具体的には、空間計算部65は、フレーム毎に、入力された拍手音の音響信号X=(x(1),x(2),…,x(N))の直接音と残響音との平均エネルギー比REを計算し、残響に対応する値として出力する。例えば、参考文献1の残響制御技術を用いて音響信号から直接音と残響音との平均エネルギー比REを計算することができる。
(参考文献1)木下慶介、中谷智広、三好正人、“実環境音声処理-音声認識に適した残響除去収音”、NTT技術ジャーナル、2007、Vol.19、No.6
また、直接音と残響音との平均エネルギー比REに代えて、直接音の平均エネルギーと残響音の平均エネルギーとの組合せ(等価な値)を残響に対応する値として出力してもよい。残響に対応する値は、伝送元の空間の残響の特徴を示すような値であれば、上述の値以外の値でもよい。また、図示しないカメラ等を使って(または人手により)、横並びか正方形か円形かなどの配置に関する情報を残響に対応する値の一部として付加しても良い。
<パラメタ変換部63及びデータ送信部64>
パラメタ変換部63は、音量計算部12から出力された拍手音量に対応する値及び残響に対応する値を取得する。パラメタ変換部13は、取得した拍手音量に対応する値及び残響に対応する値を量子化し、環境音量パラメタ及び環境残響パラメタを出力する。環境音量パラメタについては、実施例1で説明した通りである。例えば、パラメタ変換部13は、直接音と残響音との平均エネルギー比REの取りうる範囲をあらかじめ定められた場合の数(例えば16bit)に量子化し、そのインデックスを環境残響パラメタRPとして出力する(S63)。
データ送信部64は、パラメタ変換部63が出力した環境音量パラメタP及び環境残響パラメタRPを伝送先の環境音合成装置7に送信する(S64)。環境音合成装置7については実施例7に記載する。例えば、環境音量パラメタPを示すデータなのか、環境残響パラメタRPを示すデータなのかを示すフラグを付けて符号化し、送信すればよい。
なお、環境音量パラメタP及び環境残響パラメタRPそのものではなく、たとえば環境音量パラメタPに基づく値と環境残響パラメタRPに基づく値の比(例:たとえば、部屋の容積から概算収容人数を求める所定のテーブルを用いて、環境音量パラメタPから推定される人数を、環境残響パラメタRPに基づく部屋の容積で特定される概算収容人数で割った値)や、その符号化値を送信することとしても良い。このとき、環境音量パラメタPと環境残響パラメタRPとの比を示すデータであることを示すフラグをつけて符号化することとしても良い。もしくは、環境音量パラメタPに基づく値を符号化したものと、環境音量パラメタPに基づく値と環境残響パラメタRPに基づく値の比を符号化したもの、を伝送しても良い。なお、「部屋の容積」は、環境残響パラメタRPに基づき推定することができる。例えば、環境残響パラメタRPが直接音と残響音との平均エネルギー比の場合、環境残響パラメタRPが大きいときには残響が多く部屋の容積が大きいと推定し、環境残響パラメタRPが小さいときには残響が少なく部屋の容積が小さいと推定する。また、環境残響パラメタは、音響信号(環境音)の残響に対応する情報であり、例えば、部屋の容積や部屋の概算収容人数自体を環境残響パラメタとして用いてもよい。
このように、本実施例の環境音分析装置6によれば、伝送元において収音された拍手音を残響を考慮した上で効率よく低遅延に伝送することができる。
以下、図18、図19を参照して本発明の実施例7の環境音合成装置について説明する。図18は本実施例の環境音合成装置7の構成を示すブロック図である。図19は本実施例の環境音合成装置7の動作を示すフローチャートである。図18に示すように、本実施例の環境音合成装置7は、データ受信部71と、残響付加音源合成部72と、テンプレート記憶部73と、再生部34とを備える。再生部34は実施例3の環境音合成装置3における同一番号の再生部34と同じであるから説明を省略する。
<データ受信部71>
データ受信部71は、環境音分析装置から環境音量パラメタP及び環境残響パラメタRPを受信する(S71)。
<テンプレート記憶部73>
テンプレート記憶部73には、拍手音の各残響バリエーションに対して複数の拍手音(1フレーム分、残響バリエーションに対するものなので、当然、残響付加済の拍手音である)のテンプレートが記憶されている。つまり、テンプレート記憶部73には、iをフレームのインデックスとした場合に、1フレーム分の残響付加済の拍手音を含む環境音のテンプレートTと当該テンプレートの環境音の残響に対応する情報R’とが対応付けて記憶されているものとする。なお、当該テンプレートの環境音の残響に対応する情報R’は、例えば、空間計算部65において、残響に対応する値を計算する際に用いた方法と同じ方法を用いて、テンプレートから計算すればよい。
なお、残響付加済の拍手音は、所望の残響を観測できる場所で録音したものでもよいし、残響がない(または少ない)状態で録音した信号に残響を畳み込んだものでもよい。
<残響付加音源合成部72>
残響付加音源合成部72は、入力された環境残響パラメタRPで特定される残響に応じたテンプレートのうちいずれか1つをテンプレート記憶部73からランダムに選択する。つまり、RP=R’を満たすR’に対応づけられているテンプレートTのうち、いずれか1つをランダムに選択する。残響付加音源合成部72は、選択したテンプレートを、必要に応じて前のフレームと補間をして、1フレーム分の音響信号を合成して環境音(この動作例では拍手音)を生成する(S72)。例えば、20msのフレームあたり環境残響パラメタに8bitのバリエーションがあったとすると、400bit/secで拍手音を伝送できる。
例えば、1つ以上の閾値を設け、テンプレート記憶部73では、閾値と環境音の残響に対応する情報R’との大小関係により、テンプレートを複数のグループに分けておく。残響付加音源合成部52は、環境残響パラメタRPと閾値との大小関係により、何れのグレープに含まれるテンプレートを選択するか決定する。
(グループ例)
例えば、二つの閾値Th1とTh2(Th1<Th2)を設け、R’<Th1となるテンプレートを短い残響が畳み込まれたテンプレートのグループ(以下DB3-1ともいう)に、R’>Th2となるテンプレートを長い残響が畳み込まれたテンプレートのグループ(以下DB3-3ともいう)に、Th1≦R’≦Th2となるテンプレートを中くらいの残響が畳み込まれたテンプレートのグループ(以下DB3-2ともいう)に分類する。
(選択例3−1)
残響付加音源合成部72は、RP<Th1のときにDB3-1からテンプレートを選択し、Th1≦RPji≦Th2のときにDB3-2からテンプレートを選択し、Th2<RPのときにDB3-3からテンプレートを選択する。
(選択例3−2)
閾値で完全に分けずに、環境残響パラメタRPに応じて各DBから選ばれるテンプレートに確率の重みを付けて選択しても良い。なお、本実施例と実施例2及びその変形例とを組合せてもよい。
例えば、残響付加音源合成部72は、RP<Th1のときに70パーセントの確率でDB3-1からテンプレートを選択し、20パーセントの確率でDB3-2からテンプレートを選択し、10パーセントの確率でDB3-3からテンプレートを選択する。また、Th1≦RPji≦Th2のときに70パーセントの確率でDB3-2からテンプレートを選択し、それぞれ15パーセントの確率でDB3-1、DB3-3からテンプレートを選択する。また、Th2<RPのときに10パーセントの確率でDB3-1からテンプレートを選択し、20パーセントの確率でDB3-2からテンプレートを選択し、70パーセントの確率でDB3-3からテンプレートを選択する。この例では、RPにより各DBに対して所定の重みをつけているが、各DBを同じ重みで利用することとしても良い。部屋の中に人がまばらに分散している場合、つまり、RPから想定される部屋の収容人数に対して、Pから想定される人数が小さな値を取る場合、様々な長さの残響が均等に混じったように聞こえるため、各DBから等分の重みでテンプレートを選択することとしても良い。このとき、RPやPとそのものではなく、部屋の中で人がどの程度密集しているかに関する値であるRPとPとの比(例:PをRPで割った値、あるいは、その逆数)に着目し、所定の閾値を用いて、たとえばPをRPで割った値がこの閾値よりも小さな場合には各DBそれぞれから同じ確率でテンプレートを選択することとしても良い(選択するテンプレートの数は、Pに基づく個数とする)。なお、受信したデータが、環境音量パラメタPと環境残響パラメタRPとの比を示すデータであることを示すフラグがつけられたデータであった場合、受信したデータをRPとPとの比の代りに用いても良い。もしくは、環境音量パラメタPに基づく値を符号化したものと、環境音量パラメタPに基づく値と環境残響パラメタRPに基づく値の比を符号化したもの、を受信して代わりに用いても良い。
実施例3、4、5では、音量から残響を推定していたが、環境音の残響に対応する情報(例えば、直接音と間接音とのエネルギー比)を用いることで、より適切に残響の特徴をとられることができ、伝送元の場の雰囲気をより適切に再現することができる。例えば、観客などの音源が劇場や映画館などの空間の後ろ側の座席に偏って座っている場合には、音量が小さくても(人数が少なくても)、長い残響が畳み込まれたテンプレートを用いたほうが伝送元の場の雰囲気をより適切に再現することができる。しかし、実施例3、4、5の構成では、短い残響が畳み込まれたテンプレートを選択する可能性が高い。一方、本実施例では長い残響が畳み込まれたテンプレートを選択する可能性が高く、伝送元の場の雰囲気をより適切に再現することができる。また、本実施例の構成であれば、実施例5と同様に畳み込み処理に伴う演算量、時間を省くことができる。なお、本実施例と実施例4とを組合せてもよい。
なお、本実施例では、残響付加音源合成部72において、音響信号を合成して環境音を生成する際に、環境音量パラメタPを利用していない。そのため、環境音量パラメタPを伝送しない構成としてもよい。その場合、環境音分析装置6では環境音量パラメタPを求める必要がないため、音量計算部12を備えなくともよい。パラメタ変換部63では、残響に対応する値のみを量子化すればよい。また、本実施例の構成を維持しておき、何からの原因により、環境残響パラメタRPを伝送されずに、環境音量パラメタPのみが伝送されてきた場合に、実施例3、4、5の構成で環境音を生成してもよい。
また、テンプレート記憶部73には、拍手音の各残響バリエーションと各音量のバリエーションの組合せに対して複数の拍手音のテンプレートが記憶されている構成としてもよい。この場合、残響付加音源合成部72は、入力された環境残響パラメタRP及び環境音量パラメタPで特定される残響及び音量の組合せに応じたテンプレートのうちいずれか1つをテンプレート記憶部73からランダムに選択する。つまり、RP=R’かつP=E’を満たすR’及びE’に対応づけられているテンプレートTのうち、いずれか1つをランダムに選択する。
以下、図18、図20を参照して本発明の実施例8の環境音合成装置について説明する。図18は本実施例の環境音合成装置8の構成を示すブロック図である。図20は本実施例の環境音合成装置8の動作を示すフローチャートである。図18に示すように、本実施例の環境音合成装置8は、データ受信部71と、残響付加音源合成部82と、テンプレート記憶部33と、再生部34とを備える。テンプレート記憶部33及び再生部34は実施例3の環境音合成装置3における同一番号のテンプレート記憶部33及び再生部34と同じであるから説明を省略する。また、データ受信部71は実施例7の環境音合成装置7における同一番号のデータ受信部71と同じであるから説明を省略する。
<残響付加音源合成部82>
残響付加音源合成部82は、入力された環境音量残響パラメタPで特定される音量に応じたテンプレートのうちいずれか1つをテンプレート記憶部33からランダムに選択する。つまり、P=E’を満たすE’に対応づけられているテンプレートTのうち、いずれか1つをランダムに選択する。残響付加音源合成部82は、選択したテンプレートに環境残響パラメタRPで特定される残響を加え、残響を加えたテンプレートを、必要に応じて前のフレームと補間をして、1フレーム分の音響信号を合成して環境音(この動作例では拍手音)を生成する(S82)。例えば、環境残響パラメタRPが直接音と残響音との平均エネルギー比を量子化したものである場合、平均エネルギー比が大きいほど残響が長くなるため、所定の閾値よりも環境残響パラメタRPの値が小さい場合にはテンプレートに短い残響Hsを畳み込み、環境残響パラメタRPの値が閾値以上の場合はテンプレートに短い残響Hsとともに長い残響Hlを畳み込む。
このような構成により、実施例7の場合に比べ、テンプレート記憶部に記憶するテンプレートの量を減らすことができる。なお、本実施例と実施例4とを組合せてもよい。
<その他の変形例>
実施例7では、環境音分析装置により分析された部屋の広さ・大きさ(容積)に関連する情報である環境残響パラメタRPを用いて残響畳み込み済のテンプレートを選択したが、実施例4のように残響が含まれないテンプレートを用いて、環境残響パラメタRPに応じて特定される長さ、分布の残響を畳み込むこととしても良い。具体的には、環境残響パラメタRPに基づき、残響の最大値を求め、所定の残響の最小値から求めた残響の最大値までの範囲の中から、ランダムに、環境音量パラメタPに基づく個数の残響の長さを決定し、決定した各長さに応じてテンプレートに残響を畳み込むこととしても良い。
残響付加音源合成部で環境音を収音する部屋の広さが、環境音合成装置で環境音を合成する部屋に比べて大きな場合、本来は部屋の中で聞こえることがない領域の音が部屋の中で発生しているような合成音となるため、合成音を聞いた人が違和感を感じる場合がある。この問題を低減するために、たとえば、収音を行う部屋の収容人数で環境音量パラメタPを正規化した値をパラメタとして伝送し、環境音合成装置において、予め定めた合成を行う部屋の収容人数と受信したパラメタとを掛けて得られる値を環境音量パラメタPに替えて用いて、畳み込む残響の長さを求めたり残響畳み込み済のDBからテンプレートを選択することとしても良い。
別の方法としては、たとえば、環境音を合成する部屋に応じて予め、環境音量パラメタPの上限値や環境残響パラメタRPの上限値を設けておき、受信したパラメタが上限以上の場合には、受信したパラメタに替えて、部屋に応じた所定の上限値を用いることとしても良い。もしくは、環境音を合成する部屋に応じて予め、環境音量パラメタPの下限値や環境残響パラメタRPの下限値を設けておき、受信したパラメタが下限以下の場合には、受信したパラメタに替えて、部屋に応じた所定の下限値を用いることとしても良い。
なお、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. 環境音分析装置から出力された伝送元の音響信号の音量に関する環境音量パラメタを取得して環境音を生成する環境音合成装置であって、
    前記環境音分析装置から出力された前記環境音量パラメタを取得するデータ受信部と、
    1フレーム分の環境音のテンプレート(以下、テンプレートという)と当該テンプレートの環境音の音量に対応する情報とを対応付けて記憶するテンプレート記憶部と、
    前記環境音量パラメタで特定される音量に応じたテンプレートを前記テンプレート記憶部から選択し、前記環境音量パラメタで特定される音量とその音量に応じた残響特性とを用いて、前記選択したテンプレートに残響を加え、当該残響を加えたテンプレートを合成することで環境音を生成する残響付加音源合成部とを含む、
    環境音合成装置。
  2. 請求項1の環境音合成装置であって、
    前記残響付加音源合成部は、伝送元に存在する音源の個数に応じた空間の大きさに基づく残響を加える、
    環境音合成装置。
  3. 環境音分析装置から出力された伝送元の音響信号の音量に関する環境音量パラメタを取得して環境音を生成する環境音合成装置であって、
    前記環境音分析装置から出力された前記環境音量パラメタを取得するデータ受信部と、
    1フレーム分の残響を加えた環境音のテンプレート(以下、テンプレートという)と当該テンプレートの環境音の音量に対応する情報とを対応付けて記憶するテンプレート記憶部と、
    前記環境音量パラメタで特定される音量に応じたテンプレートを前記テンプレート記憶部から選択し、前記選択したテンプレートを合成して環境音を生成する残響付加音源合成部とを含む、
    環境音合成装置。
  4. 環境音分析装置から出力された伝送元の空間の大きさに基づく音響信号の残響に関する環境残響パラメタを取得して環境音を生成する環境音合成装置であって、
    前記環境音分析装置から出力された前記環境残響パラメタを取得するデータ受信部と、
    1フレーム分の残響を加えた環境音のテンプレート(以下、テンプレートという)と当該テンプレートの環境音の残響に対応する情報とを対応付けて記憶するテンプレート記憶部と、
    前記環境残響パラメタで特定される残響に応じたテンプレートを前記テンプレート記憶部から選択し、前記選択したテンプレートを合成して環境音を生成する残響付加音源合成部とを含む、
    環境音合成装置。
  5. 伝送元の音響信号の音量に関する環境音量パラメタを取得して環境音を生成する環境音合成方法であって、
    データ受信部が、前記環境音量パラメタを取得するデータ受信ステップと、
    残響付加音源合成部が、1フレーム分の環境音のテンプレート(以下、テンプレートという)と当該テンプレートの環境音の音量に対応する情報とを対応付けて記憶するテンプレート記憶部から前記環境音量パラメタで特定される音量に応じたテンプレートを選択し、前記環境音量パラメタで特定される音量とその音量に応じた残響特性とを用いて、前記選択したテンプレートに残響を加え、当該残響を加えたテンプレートを合成することで環境音を生成する残響付加音源合成ステップとを含む、
    環境音合成方法。
  6. 伝送元の音響信号の音量に関する環境音量パラメタを取得して環境音を生成する環境音合成方法であって、
    データ受信部が、前記環境音量パラメタを取得するデータ受信ステップと、
    残響付加音源合成部が、1フレーム分の残響を加えた環境音のテンプレート(以下、テンプレートという)と当該テンプレートの環境音の音量に対応する情報とを対応付けて記憶するテンプレート記憶部から、前記環境音量パラメタで特定される音量に応じたテンプレートを選択し、前記選択したテンプレートを合成して環境音を生成する音源合成ステップとを含む、
    環境音合成方法。
  7. 伝送元の空間の大きさに基づく音響信号の残響に関する環境残響パラメタを取得して環境音を生成する環境音合成方法であって、
    データ受信部が、前記環境残響パラメタを取得するデータ受信ステップと、
    残響付加音源合成部が、1フレーム分の残響を加えた環境音のテンプレート(以下、テンプレートという)と当該テンプレートの環境音の残響に対応する情報とを対応付けて記憶するテンプレート記憶部から、前記環境残響パラメタで特定される残響に応じたテンプレートを選択し、前記選択したテンプレートを合成して環境音を生成する音源合成ステップとを含む、
    環境音合成方法。
  8. 請求項1から請求項4の何れかの環境音合成装置としてコンピュータを機能させるためのプログラム。
JP2016026744A 2016-02-16 2016-02-16 環境音合成装置、その方法及びプログラム Active JP6512607B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016026744A JP6512607B2 (ja) 2016-02-16 2016-02-16 環境音合成装置、その方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016026744A JP6512607B2 (ja) 2016-02-16 2016-02-16 環境音合成装置、その方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2017146391A JP2017146391A (ja) 2017-08-24
JP6512607B2 true JP6512607B2 (ja) 2019-05-15

Family

ID=59682225

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016026744A Active JP6512607B2 (ja) 2016-02-16 2016-02-16 環境音合成装置、その方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6512607B2 (ja)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2698942B2 (ja) * 1991-06-26 1998-01-19 株式会社河合楽器製作所 楽音発生装置
JPH09127983A (ja) * 1995-10-31 1997-05-16 Sony Corp 音声合成装置および音声合成方法、並びに記憶媒体
JPH10340080A (ja) * 1997-06-06 1998-12-22 Casio Comput Co Ltd 音響効果制御装置
JP2000148139A (ja) * 1998-11-10 2000-05-26 Roland Corp 効果付加装置
JP3707457B2 (ja) * 2002-03-01 2005-10-19 ヤマハ株式会社 改修プラン作成支援装置、改修プラン作成支援方法およびそのプログラム
JP4127094B2 (ja) * 2003-03-26 2008-07-30 ヤマハ株式会社 残響音生成装置およびプログラム
ATE539431T1 (de) * 2004-06-08 2012-01-15 Koninkl Philips Electronics Nv Kodierung von tonsignalen mit hall
EP1794744A1 (en) * 2004-09-23 2007-06-13 Koninklijke Philips Electronics N.V. A system and a method of processing audio data, a program element and a computer-readable medium
JP6095223B2 (ja) * 2012-08-27 2017-03-15 日本電信電話株式会社 環境音合成装置、環境音伝送システム、環境音合成方法、環境音伝送方法、プログラム

Also Published As

Publication number Publication date
JP2017146391A (ja) 2017-08-24

Similar Documents

Publication Publication Date Title
JP4742087B2 (ja) オーディオ信号の2重変換符号化
KR101443568B1 (ko) 오디오 디코더
JP5291096B2 (ja) オーディオ信号処理方法及び装置
JP5468092B2 (ja) 高速格子ベクトル量子化
JP2016510905A (ja) ビットストリームにおける球面調和係数および/または高次アンビソニックス係数の指定
JP2012032803A (ja) フルバンド拡張可能なオーディオコーデック
JP4033840B2 (ja) 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体
JP6095223B2 (ja) 環境音合成装置、環境音伝送システム、環境音合成方法、環境音伝送方法、プログラム
JP6160072B2 (ja) オーディオ信号符号化装置および方法、オーディオ信号伝送システムおよび方法、オーディオ信号復号装置
JP2003140692A (ja) 符号化装置及び復号化装置
JPH11242499A (ja) 音声符号化/復号化方法および音声信号の成分分離方法
JP6443841B2 (ja) 環境音伝送システム及び環境音伝送方法
TWI834163B (zh) 三維音頻訊號編碼方法、裝置和編碼器
JP6512607B2 (ja) 環境音合成装置、その方法及びプログラム
JP2005512134A (ja) リアルタイム時間伸縮用パラメータ付きデジタルオーディオ
JP4317355B2 (ja) 符号化装置、符号化方法、復号化装置、復号化方法および音響データ配信システム
TW202305785A (zh) 三維音訊訊號編碼方法、裝置、編碼器和系統
TW202123220A (zh) 使用方向性元資料之多通道音頻編碼及解碼
JP6887620B2 (ja) 環境音合成システム、その方法、及びプログラム
WO2022242481A1 (zh) 三维音频信号编码方法、装置和编码器
WO2024024468A1 (ja) 情報処理装置および方法、符号化装置、音声再生装置、並びにプログラム
JP2024518846A (ja) 3次元オーディオ信号符号化方法および装置、ならびにエンコーダ
Ratnarajah Efficient learning-based sound propagation for virtual and real-world audio processing applications
KR100264389B1 (ko) 키변환 기능을 갖는 컴퓨터 음악반주기
Dong et al. Robustness analysis of a digital audio steganographic method based on phase manipulation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20171121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190403

R150 Certificate of patent or registration of utility model

Ref document number: 6512607

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250