JP2007060041A - 音量調整装置、音量調整方法及びプログラム - Google Patents

音量調整装置、音量調整方法及びプログラム Download PDF

Info

Publication number
JP2007060041A
JP2007060041A JP2005240341A JP2005240341A JP2007060041A JP 2007060041 A JP2007060041 A JP 2007060041A JP 2005240341 A JP2005240341 A JP 2005240341A JP 2005240341 A JP2005240341 A JP 2005240341A JP 2007060041 A JP2007060041 A JP 2007060041A
Authority
JP
Japan
Prior art keywords
section data
section
amplification
data
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005240341A
Other languages
English (en)
Other versions
JP4050289B2 (ja
Inventor
Kazunori Hideya
和則 秀谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konami Digital Entertainment Co Ltd
Original Assignee
Konami Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konami Digital Entertainment Co Ltd filed Critical Konami Digital Entertainment Co Ltd
Priority to JP2005240341A priority Critical patent/JP4050289B2/ja
Publication of JP2007060041A publication Critical patent/JP2007060041A/ja
Application granted granted Critical
Publication of JP4050289B2 publication Critical patent/JP4050289B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

【課題】 音声データの音量を適切に自動調整することができる音量調整装置を提供すること。
【解決手段】 区間データ取得部14は、音声を示す音声データから前記音声の一部区間を示す区間データを取得し、FFT部16、補正部18、基準スペクトル記憶部20及び逆FFT部22は、取得される前記区間データに対して聴感補正処理を施し、聴感補正済み区間データを生成する。振幅最大倍率算出部24及び増幅率決定部24は、聴感補正済み区間データが示す音声の振幅に基づいて、区間データに適用する増幅率を決定する。その後、増幅部28は、決定される前記増幅率により区間データに対して増幅処理を施す。
【選択図】 図1

Description

本発明は音量調整装置、音量調整方法及びプログラムに関し、特に、音声データの音量を自動調整する音量調整装置及び方法並びにプログラムに関する。
ゲームソフトウェアの開発では、台詞等の多数の音声データを使用する。これらの音声データは、ゲーム進行に合わせた適宜のタイミングで再生される。従来、こうした音声データは、マイク等で収録した後、制作段階でスピーカやヘッドホンを通して予め聴いて、手作業でその音量を調整し、所期の音量の音声データ群がゲームソフトウェアに組み込まれるようにしている。このように人手で音声データの音量調整を実施するのは、音声データの周波数特性はそれぞれ異なり、同じ音量でも実際にユーザが再生音を聴いた感覚は異なるから、人間の実際の聴感に依らなければ適切な音量調整が出来ないからである。
なお、下記特許文献1には、騒音環境で使用する音響再生装置の自動音量制御を行う自動音量調整装置が開示されている。
特開平6−310962号公報
しかしながら、多数の音声データを聞いて、手作業でその音量を調整する作業は、非常に時間が掛かる。また、作業者の疲労により音量調整が適切に行えない場合もありうる。
本発明は上記課題に鑑みてなされたものであって、その目的は、音声データの音量を適切に自動調整することができる音量調整装置、音量調整方法及びプログラムを提供することにある。
上記課題を解決するために、本発明に係る音量調整装置は、音声を示す音声データの音量を調整する音量調整装置において、前記音声データから前記音声の一部区間を示す区間データを取得する区間データ取得手段と、前記区間データ取得手段により取得される前記区間データに対して聴感補正処理を施し、聴感補正済み区間データを生成する聴感補正手段と、前記聴感補正済み区間データが示す音声の振幅に基づいて、前記区間データに適用する増幅率を決定する増幅率決定手段と、前記増幅率決定手段により決定される前記増幅率により、前記区間データ取得手段により取得される前記区間データに対して増幅処理を施す増幅手段と、を含むことを特徴とする。
また、本発明に係る音量調整方法は、音声を示す音声データの音量を調整する音量調整方法において、前記音声データから前記音声の一部区間を示す区間データを取得する区間データ取得ステップと、前記区間データ取得ステップで取得される前記区間データに対して聴感補正処理を施し、聴感補正済み区間データを生成する聴感補正ステップと、前記聴感補正済み区間データが示す音声の振幅に基づいて、前記区間データに適用する増幅率を決定する増幅率決定ステップと、前記増幅率決定ステップで決定される前記増幅率により、前記区間データ取得ステップにより取得される前記区間データに対して増幅処理を施す増幅ステップと、を含むことを特徴とする。
また、本発明に係るプログラムは、音声を示す音声データから前記音声の一部区間を示す区間データを取得する区間データ取得手段、前記区間データ取得手段により取得される前記区間データに対して聴感補正処理を施し、聴感補正済み区間データを生成する聴感補正手段、前記聴感補正済み区間データが示す音声の振幅に基づいて、前記区間データに適用する増幅率を決定する増幅率決定手段、及び前記増幅率決定手段により決定される前記増幅率により、前記区間データ取得手段により取得される前記区間データに対して増幅処理を施す増幅手段としてコンピュータを機能させるためのプログラムである。このプログラムは、CD−ROMやDVD−ROM等のコンピュータ読み取り可能な各種情報記憶媒体に格納されてもよい。
本発明では、音声の一部区間を示す区間データに対して聴感補正処理を施す。そして、この聴感補正済みの区間データが示す音声の振幅に基づいて決定される増幅率により、区間データに対して増幅処理を施す(波形の振幅を大きくする計算処理)。本発明によれば、聴感補正後の区間データが示す波形の振幅に基づいて区間データの増幅率を決定するので、周波数による人間の聴感の違いを考慮して、音声データに対して音量調整を施すことができる。こうして、音声データの音量を適切に自動調整することができる。
なお、前記聴感補正手段は、前記区間データ取得手段により取得される前記区間データに基づいて前記一部区間のスペクトルを算出するスペクトル算出手段と、所定の基準スペクトルを記憶する基準スペクトル記憶手段と、前記スペクトル算出手段により算出されるスペクトルを、前記基準スペクトル記憶手段に記憶される基準スペクトルに基づいて補正するスペクトル補正手段と、前記スペクトル補正手段により補正されるスペクトルに基づいて、前記区間データ取得手段により取得される前記区間データを変換し、前記聴感補正済み区間データを生成するデータ変換手段と、を含んでもよい。スペクトル算出手段としてFFT(Fast Fourier Transform)を用い、データ変換手段として逆FFTを用いれば、高速に音声データの音量を自動調整することができるようになる。
また、前記区間データ取得手段は、前記音声データから前記区間データを順次取得し、前記聴感補正手段は、前記区間データ取得手段により順次取得される前記区間データに対して聴感補正処理を順次施し、前記聴感補正済み区間データを順次生成し、前記増幅率決定手段は、前記聴感補正済み区間データが示す音声の振幅に基づいて、前記区間データに適用する増幅率を順次決定し、前記増幅手段は、前記増幅率決定手段により順次決定される前記増幅率により、前記区間データ取得手段により順次取得される前記区間データに対して増幅処理を順次施し、前記音量調整装置は、前記増幅手段により順次増幅処理が施される前記各区間データを合成する合成手段をさらに含むようにしてもよい。こうすれば、音声データの全体に対して音量調整を施すことができるようになる。
図1は、本発明の実施形態に係る音量調整装置の構成を示す図である。同図に示すように、音量調整装置10は、音声データ記憶部12、区間データ切出部14、FFT部16、補正部18、基準スペクトル記憶部20、逆FFT部22、振幅最大倍率算出部24、増幅率決定部26、増幅部28、クロスフェード部30、増幅結果記憶部32を含んで構成されている。これらは、例えばコンピュータに所定のプログラムをインストールし、コンピュータに該プログラムを実行させることにより実現することができる。
まず、音声データ記憶部12は、音量調整の対象となる音声データを複数記憶する。この音声データは、例えばマイクで人の声を録音することにより作成されるものであり、音声の波形を示すものである。区間データ取得部14は、音声データ記憶部12に記憶される音声データを読み出し、該音声データが示す音声の一部区間を示す区間データを順次取得する。すなわち、区間データ取得部14は、音声データが示す音声から、所定長の時間区間の音声を切り出し、その音声を示す区間データを取得する。この際、切り出し区間は音声の先頭から末尾に向けて順にずらされる。そして、各区間データが示す音声は、その前側の区間データが示す音声と一部が重なり、また後ろ側の区間データが示す音声とも一部が重なる。図2(a)は、こうして取得される区間データの波形例を示している。
FFT部16は、区間データ取得部14により順次取得される区間データに基づいて、図2(b)に示すような、その区間データが示す区間の音声のスペクトル(周波数特性データ)を、FFT(Fast Fourier Transform)により順次算出する。基準スペクトル記憶部20は、図2(c)に示すような、予め定めた音声のスペクトルを基準スペクトル(所定の周波数特性データ)として記憶するものである。ここでは、この基準スペクトルとして、例えばフレッチャー=マンソンの等ラウドネス曲線(人間の聴感を示すスペクトル)等に応じたものを採用している。
補正部18は、基準スペクトル記憶部20から基準スペクトルを読み出し、その内容に従ってFFT部16から出力される区間データのスペクトルを補正する。そして、逆FFT部22は、この補正済みのスペクトルを用いて逆FFTを実施し、聴感補正済みの区間データを算出する。
振幅最大倍率算出部24は、聴感補正済みの区間データと、区間データ取得部14により取得される区間データと、の振幅の倍率の瞬間最大値を算出し、この値に従って区間データに対する増幅率を決定する。このとき、直前に取得された区間データについて算出された瞬間最大値と比較して、差が所定値以上であれば、今回取得された区間データについて算出された瞬間最大値を前回取得された区間データについて算出された瞬間最大値に近づける処理をして、その圧縮済みの値を増幅率とする。また、波形の立ち上がりなどでは例外的に大きな増幅率を与える。さらに、今回取得された区間データについて算出された瞬間最大値(倍率)が所定値未満であった場合には、増幅率を小さな値に抑える。或いは、音量の揺らぎを抑えるべく、前回取得された区間データについて決定された増幅率(或いはその値に0<α<1である係数αを乗じた増幅率)を用いる。
そして、増幅部28は、こうして決定される増幅率を、区間データ取得部14で取得されていた区間データに乗算し、増幅処理を実施する。クロスフェード部30は、こうして増幅された区間データの前側の一部が、直前に取得され、増幅された区間データの後ろ側の一部に重畳させ、これにより増幅済みの音声データを合成する。そして、増幅結果記憶部32は、この合成結果を記憶する。
図3は、音量調整装置10の処理を示すフロー図である。同図に示すように、音量調整装置10は、まず区間データ取得部14により、音声データ記憶部12に記憶される音声データを読み出し、その全域から複数の区間データを切り出す(S101)。次に、FFT部16により、各区間データに対してFFTを施し、各区間データのスペクトルを算出する(S102)。そして、補正部18により、それらのスペクトルに対して、基準スペクトルに基づく補正を施す(S103)。また、逆FFT部22により、これら補正済みのスペクトルを対して逆FFTをそれぞれ施し、聴感補正済みの区間データを算出する(S104)。
音量調整装置10では、次に振幅最大倍率算出部24により、各聴感補正済みの区間データと、それに対応する、区間データ取得部14により取得された区間データと、の振幅の倍率の瞬間最大値を算出し(S105)、この値に従って区間データに対する増幅率を決定する(S106)。そして、増幅部28により、こうして決定される各増幅率を、区間データ取得部14で取得されていた各区間データに乗算し、増幅処理を実施する(S107)。その後、クロスフェード部30により、こうして増幅された各区間データを合成し(S108)、その合成結果を増幅結果記憶部32に記憶する(S109)。
以上説明した音量調整装置10によれば、FFT部16、補正部18、基準スペクトル記憶部20及び逆FFT部22により区間データに対して聴感補正処理を施し、この聴感補正済み区間データが示す音声の振幅に基づいて、区間データに適用する増幅率を決定するので、周波数による人間の聴感の違いを考慮して、音声データに対して音量調整を施すことができる。この結果、音声データの音量を人間の聴感を考慮して適切に自動調整することができるようになる。
本発明の実施形態に係る音量調整装置の構成を示す図である。 音量調整装置によるデータ処理を説明する図である。 音量調整装置によるデータ処理を示すフロー図である。
符号の説明
10 音量調整装置、12 音声データ記憶部、14 区間データ取得部、16 FFT部、18 補正部、20 基準スペクトル記憶部、22 逆FFT部、24 振幅最大倍率算出部、26 増幅率決定部、28 増幅部、30 クロスフェード部、32 増幅結果記憶部。

Claims (5)

  1. 音声を示す音声データの音量を調整する音量調整装置において、
    前記音声データから前記音声の一部区間を示す区間データを取得する区間データ取得手段と、
    前記区間データ取得手段により取得される前記区間データに対して聴感補正処理を施し、聴感補正済み区間データを生成する聴感補正手段と、
    前記聴感補正済み区間データが示す音声の振幅に基づいて、前記区間データに適用する増幅率を決定する増幅率決定手段と、
    前記増幅率決定手段により決定される前記増幅率により、前記区間データ取得手段により取得される前記区間データに対して増幅処理を施す増幅手段と、
    を含むことを特徴とする音量調整装置。
  2. 請求項1に記載の音量調整装置において、
    前記聴感補正手段は、
    前記区間データ取得手段により取得される前記区間データに基づいて前記一部区間のスペクトルを算出するスペクトル算出手段と、
    所定の基準スペクトルを記憶する基準スペクトル記憶手段と、
    前記スペクトル算出手段により算出されるスペクトルを、前記基準スペクトル記憶手段に記憶される基準スペクトルに基づいて補正するスペクトル補正手段と、
    前記スペクトル補正手段により補正されるスペクトルに基づいて、前記区間データ取得手段により取得される前記区間データを変換し、前記聴感補正済み区間データを生成するデータ変換手段と、
    を含むことを特徴とする音量調整装置。
  3. 請求項1又は2に記載の音量調整装置において、
    前記区間データ取得手段は、前記音声データから前記区間データを順次取得し、
    前記聴感補正手段は、前記区間データ取得手段により順次取得される前記区間データに対して聴感補正処理を順次施し、前記聴感補正済み区間データを順次生成し、
    前記増幅率決定手段は、前記聴感補正済み区間データが示す音声の振幅に基づいて、前記区間データに適用する増幅率を順次決定し、
    前記増幅手段は、前記増幅率決定手段により順次決定される前記増幅率により、前記区間データ取得手段により順次取得される前記区間データに対して増幅処理を順次施し、
    前記音量調整装置は、前記増幅手段により順次増幅処理が施される前記各区間データを合成する合成手段をさらに含む、
    ことを特徴とする音量調整装置。
  4. 音声を示す音声データの音量を調整する音量調整方法において、
    前記音声データから前記音声の一部区間を示す区間データを取得する区間データ取得ステップと、
    前記区間データ取得ステップで取得される前記区間データに対して聴感補正処理を施し、聴感補正済み区間データを生成する聴感補正ステップと、
    前記聴感補正済み区間データが示す音声の振幅に基づいて、前記区間データに適用する増幅率を決定する増幅率決定ステップと、
    前記増幅率決定ステップで決定される前記増幅率により、前記区間データ取得ステップにより取得される前記区間データに対して増幅処理を施す増幅ステップと、
    を含むことを特徴とする音量調整方法。
  5. 音声を示す音声データから前記音声の一部区間を示す区間データを取得する区間データ取得手段、
    前記区間データ取得手段により取得される前記区間データに対して聴感補正処理を施し、聴感補正済み区間データを生成する聴感補正手段、
    前記聴感補正済み区間データが示す音声の振幅に基づいて、前記区間データに適用する増幅率を決定する増幅率決定手段、及び
    前記増幅率決定手段により決定される前記増幅率により、前記区間データ取得手段により取得される前記区間データに対して増幅処理を施す増幅手段
    としてコンピュータを機能させるためのプログラム。
JP2005240341A 2005-08-22 2005-08-22 音量調整装置、音量調整方法及びプログラム Expired - Fee Related JP4050289B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005240341A JP4050289B2 (ja) 2005-08-22 2005-08-22 音量調整装置、音量調整方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005240341A JP4050289B2 (ja) 2005-08-22 2005-08-22 音量調整装置、音量調整方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2007060041A true JP2007060041A (ja) 2007-03-08
JP4050289B2 JP4050289B2 (ja) 2008-02-20

Family

ID=37923170

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005240341A Expired - Fee Related JP4050289B2 (ja) 2005-08-22 2005-08-22 音量調整装置、音量調整方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4050289B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7817787B2 (en) 2007-12-18 2010-10-19 Kabushiki Kaisha Toshiba Voice mail apparatus and control method of voice mail apparatus
JP2013223130A (ja) * 2012-04-17 2013-10-28 Nec Engineering Ltd ラウドネス調整装置、ラウドネス調整方法、及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7817787B2 (en) 2007-12-18 2010-10-19 Kabushiki Kaisha Toshiba Voice mail apparatus and control method of voice mail apparatus
JP2013223130A (ja) * 2012-04-17 2013-10-28 Nec Engineering Ltd ラウドネス調整装置、ラウドネス調整方法、及びプログラム

Also Published As

Publication number Publication date
JP4050289B2 (ja) 2008-02-20

Similar Documents

Publication Publication Date Title
JP4583781B2 (ja) 音声補正装置
JP4234174B2 (ja) 残響調整装置、残響調整方法、残響調整プログラムおよびそれを記録した記録媒体、並びに、音場補正システム
JP2013537321A (ja) 知覚スペクトルアンバランス改善のための音声信号動的補正
US20070078546A1 (en) Sound output system and method
JP2011193465A (ja) オーディオ信号のラウドネスレベルの自動補正
JP2007288713A (ja) 音響再生装置
JP5585401B2 (ja) 再生装置、再生方法、提供装置および再生システム
JP2007178675A (ja) オーディオ再生の効果付加方法およびその装置
JP4983694B2 (ja) 音声再生装置
JP5340121B2 (ja) オーディオ信号再生装置
JP2013031125A (ja) 音信号処理装置、および音信号処理方法
JP6622829B2 (ja) オーディオ信号の周波数を歪ませるための方法及びこの方法に従って動作する聴取装置
JP4050289B2 (ja) 音量調整装置、音量調整方法及びプログラム
JP2005318521A (ja) 増幅装置
JP2006324786A (ja) 音響信号処理装置およびその方法
JP4811475B2 (ja) 録音装置、録音方法、音声信号補正回路及びプログラム
JP5062055B2 (ja) 音声信号処理装置及び方法
JP2006333396A (ja) 音声信号拡声装置
JP5106651B2 (ja) 信号処理装置及び信号処理方法
JP2009086481A (ja) 音響装置、残響音付加方法、残響音付加プログラム及びその記録媒体
JP4522509B2 (ja) オーディオ装置
JP2012213114A (ja) 音響信号処理装置及び音響信号処理方法
JP2008227681A (ja) 音響特性補正システム
JP5395826B2 (ja) 補聴器調整装置
JP2005309212A (ja) 音場補正装置、音場補正装置の制御方法、制御プログラムおよび記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070828

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071023

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071128

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees