JP2010210815A - 音声信号調整装置及びその調整方法 - Google Patents

音声信号調整装置及びその調整方法 Download PDF

Info

Publication number
JP2010210815A
JP2010210815A JP2009055468A JP2009055468A JP2010210815A JP 2010210815 A JP2010210815 A JP 2010210815A JP 2009055468 A JP2009055468 A JP 2009055468A JP 2009055468 A JP2009055468 A JP 2009055468A JP 2010210815 A JP2010210815 A JP 2010210815A
Authority
JP
Japan
Prior art keywords
audio signal
level
frequency domain
signal
determination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009055468A
Other languages
English (en)
Other versions
JP5547414B2 (ja
Inventor
Satoshi Yamamoto
聡 山本
Yuto Imamura
勇人 今村
Kazuki Matsui
一樹 松井
Daisuke Wakamatsu
大介 若松
Yutaka Kaneda
豊 金田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yawata Electric Industrial Co Ltd
Original Assignee
Yawata Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yawata Electric Industrial Co Ltd filed Critical Yawata Electric Industrial Co Ltd
Priority to JP2009055468A priority Critical patent/JP5547414B2/ja
Publication of JP2010210815A publication Critical patent/JP2010210815A/ja
Application granted granted Critical
Publication of JP5547414B2 publication Critical patent/JP5547414B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

【課題】音質を改善する音声信号調整技術を提供する。
【解決手段】音声信号調整装置が、音声信号を単位時間毎の周波数領域信号に変換する変換手段と、所定の判定ルールを用いて上記周波数領域信号を評価することにより音声信号の不快聴取成分を特定する判定手段と、上記不快聴取成分のレベルを抑圧することにより上記周波数領域信号を補正する補正手段と、その補正された周波数領域信号から時間領域信号に変換する逆変換手段と、を備える。
【選択図】図1

Description

本発明は、音声信号調整技術に関する。
近年、高品質なアナウンス音声の採用、拡声装置の音響性能の向上、音声伝送の高品質化などに伴い、列車や乗用車等の車内の放送の品質が向上している。しかし、列車や乗用車等の車内では、トンネル内走行時や地下走行時などのように走行騒音が増大すると、車内放送音声やカーナビゲーションのガイダンス音声などの内容が聞き辛くなる場合がある。
このような問題を解決するために、マイクロフォンで検出された周囲騒音レベルの大きさに応じて増幅器で音量を増減する手法が存在する。この手法によれば、高騒音下においても、放送音声やガイダンス音声の音量が増加されるため、音声を聞き漏らす搭乗者は少なくなる。しかしながら、逆に、音量が増加されたことに伴い、その音声が耳障りに感じられるようになる場合がある。
このような問題を解決するために、上記音量制御が施された音声信号をコンプレッサに送ることにより、過大な音量部分を非線形操作で抑圧する手法がある。図19は、音声波形の例を示すグラフである。図19に示すように、放送音声等の音声信号は、時間の経過によって音量(振幅)が変動する。このような音声信号では、図19の矢印で示した音声部分、即ち音量が他の部分よりも著しく大きくなる部分を耳障りと感じる場合が多いと考えられていた。
図20は、コンプレッサの入出力特性の例を示すグラフである。コンプレッサは、図20に示す特性に基づいて上述のような音声信号を処理する。具体的には、コンプレッサは、入力信号のうち閾値Lth以下のレベルの部分はそのまま同じレベルで出力し、閾値Lthより大きいレベルの部分は図20に示される曲線に応じて出力レベルを低下させる。また、コンプレッサに出力レベルの閾値Lth2が更に設けられ、その閾値Lth2を超えないように出力レベルが制限される場合もある。
図21は、図19の音声波形が処理された後のコンプレッサからの出力波形の例を示すグラフである。図21の例に示されるように、コンプレッサからの出力波形は、音量の大きな部分のレベルが低減され、波形全体の振幅の変動が小さくなる。結果として、コンプレッサから出力される音声信号によれば騒々しいと感じられる音声部分が改善される。このように、従来手法では、音量が他の部分よりも著しく大きくなる部分(図19の矢印で示した部分)の音量をコンプレッサにより低減させることにより、耳障りと感じられると思われていた部分の改善が図られていた。
その他、上記コンプレッサに替え、AGC(Automatic Gain Control)回路を適用する場合もある。このAGC回路は、短時間のレベル変動に対応することができ、短時間で信号レベルを一定量減衰させることができる。
特開2008−170980号公報 特開2007−82173号公報
しかしながら、上述のコンプレッサを用いる従来手法では、コンプレッサ動作がクリッピング操作等に近い非線形操作であって高調波歪等を引き起こす場合がある。よって、この従来手法では、騒々しさは改善するものの、逆に音声が濁るといった音質の劣化が生じる場合があった。また、コンプレッサ動作による音質劣化によらず、そもそも、音声中の耳障りに感じられる部分を適切に改善させることができない場合があった。また、上述のAGC回路を適用する手法では、音声レベルの的確な検出が困難である、或いは処理結果に不自然感が生じるといった問題点があった。
本発明の目的は、このような問題点に鑑み、音質を改善する音声信号調整技術を提供することにある。ここでの音質の改善とは、人間が聴取したときにその人が主観的に不快に感じるような音声部分(音声信号成分)(以降、不快聴取部分又は不快聴取成分と表記する)を改善することを意味する。この不快感には、例えば、「うるさい」といった感覚、「音声が歪んだ、濁った」といった感覚、「音声が不自然で違和感を感じる」といった感覚、「耳障り」といった感覚等が含まれる。
本発明の各態様では、上述した課題を解決するためにそれぞれ以下の構成が採用される。
第1の態様では、音声信号調整装置が、音声信号を単位時間毎の周波数領域信号に変換する変換手段と、所定の判定ルールを用いて上記周波数領域信号を評価することにより音声信号の不快聴取成分を特定する判定手段と、上記不快聴取成分のレベルを抑圧することにより上記周波数領域信号を補正する補正手段と、その補正された周波数領域信号から時間領域信号に変換する逆変換手段と、を備える。
第1態様では、音声信号が周波数領域の信号に変換されることにより、周波数領域において音声信号が評価され、その不快聴取成分が特定される。続いて、特定された不快聴取成分のレベルが抑圧され、このように補正された周波数領域信号が時間領域信号に戻される。ここで、不快聴取成分とは、聴取時に人間に主観的不快感を抱かせる音声部分となる信号成分を意味する。
従って、第1態様によれば、音声信号中の不快聴取成分のレベルが抑圧されることで、音声の不快聴取部分を低減することができるため、音質を改善することができる。
更に、第1態様では、音声信号中の不快聴取成分のみが対象として補正され、不快聴取成分以外の信号成分が不必要に補正されない。従って、第1態様によれば、不快聴取成分以外の信号成分のような信号補正する必要のない部分の補正に伴う音質劣化も併せて防ぐことができるため、トータルとして音質を一層改善することができる。
上記第1態様において好ましくは、上記判定手段が、不快聴取成分となり得る周波数帯域及び時間を特定可能な判定ルールを用いることにより、不快聴取成分となる周波数帯域及び時間を特定し、上記補正手段が、上記特定された時間及び周波数帯域のレベルを抑圧するように構成する。
第1態様では、周波数領域において音声信号が評価され、その周波数領域信号が単位時間毎の音声信号に対応するため、不快聴取成分となり得る周波数帯域及び時間を特定可能な判定ルールを用いることができる。これにより、不快聴取成分を時間及び周波数帯域で特定することができるため、不快聴取成分のみへの補正を正確に行うことができる。この
ように補正箇所を正確に限定できるようにすることで、一層の音質改善に繋がる。
上記第1態様において好ましくは、上記所定の判定ルールが聴感評価に基づいて決定された複数の判定ルールを含むように構成する。例えば、上記判定手段が、所定の判定ルールとして、各周波数帯域における所定時間間隔のレベル差が所定の閾値を超えるか否かの判定、所定の高周波帯域に所定閾値より大きいレベルを継続的に有するか否かの判定、及び所定閾値より大きいレベルを持つ周波数帯域を有するか否かの判定の少なくとも1つを用いて周波数領域信号を評価するように構成する。
人間の音質判定は、音声信号に含まれる音声内容、発話者等に応じて異なる。しかしながら、この構成によれば、人の主観的な聴感評価を判定ルールに組み込むことができるため、上記判定手段における不快聴取成分の特定精度を上げることができる。また、不快聴取成分の特定に複数の判定ルールが用いられるため、音声信号の内容に制限されることなく不快聴取成分の特定精度を向上させることができる。
上記第1態様において好ましくは、上記判定手段が、当該周波数領域信号に聴感補正特性を掛け合わせた後の信号を所定の判定ルールを用いて評価するように構成する。
この構成によれば、上記判定手段における不快聴取成分の特定を人の聴感に近似させることができる。
上記第1態様において好ましくは、上記補正手段が、上記複数の判定ルールに対応する複数の抑圧特性を統合させた統合抑圧特性を当該周波数領域信号に掛け合わせることにより、不快聴取成分のレベルを抑圧するように構成する。
また、上記第1態様において好ましくは、上記補正手段が、当該周波数領域信号から得られるレベルに応じた抑圧量を決定し、この決定された抑圧量で当該不快聴取成分のレベルを抑圧するように構成する。
この構成によれば、上記不快聴取成分の抑圧されるレベル、即ち抑圧量が音声信号のレベルに応じて決められるため、過不足のない抑圧量で当該不快聴取成分を抑圧することができる。従って、音声信号の不快聴取成分を適切に改善することができる。
上記第1態様において好ましくは、入力された音声信号を騒音レベルに応じたレベルに増幅し、増幅された音声信号を上記変換手段に送る増幅手段を更に備え、上記補正手段が、上記増幅手段によるレベルの増幅量に応じて上記抑圧量を決定するように構成する。
この構成によれば、騒音レベルに応じて増幅された音声信号に対して、上述のように不快聴取成分を抑圧する補正が行われるため、結果として、音質を改善しつつ騒音下でも聴取可能な音声信号を取得することができる。
なお、本発明の別態様としては、以上の何れかの構成を実現する方法やプログラムであってもよいし、このようなプログラムを記録したコンピュータが読み取り可能な記憶媒体であってもよい。
本発明によれば、音質を改善する音声信号調整技術を提供することができる。
図1は、実施例1における音声信号調整装置の構成を示すブロック図である。 図2は、実施例1における音量制御部の構成を示すブロック図である。 図3は、実施例1における音声信号分析部の処理を示す概念図である。 図4は、聴取試験の例を示す図である。 図5は、放送音声サンプルの一節の音声波形を示すグラフである。 図6は、図5に示す放送音声サンプルの一節のスペクトログラムである。 図7は、図6に示すスペクトログラムにおける2500Hzから3500Hzの周波数帯域を拡大したグラフである。 図8は、図6及び7に示す放送音声サンプルの一節のうち2900Hzの周波数帯域のレベルの時間変化を示すグラフである。 図9は、A特性を示すグラフである。 図10は、図8に示す信号の時間差分を示すグラフである。 図11は、放送音声サンプルの一節の音声波形を示すグラフである。 図12は、図11に示す放送音声サンプルの一節のスペクトログラムである。 図13は一般的な電車騒音スペクトルを示すグラフである。 図14は、図12の音声を第2の判定基準に従って耳障り感判定した結果を示すグラフである。 図15は、実施例1における耳障り感判定部30の構成を示すブロック図である。 図16は、フェイドアウト処理の一例を示す図である。 図17は、統合抑圧特性の抑圧量の決定例を示すグラフである。 図18Aは、図4に示す環境において実施例1における音声信号調整装置1を適用した場合の聴取試験の聴取者全員の結果を示す表である。 図18Bは、図4に示す環境において実施例1における音声信号調整装置1を適用した場合の聴取試験結果の聴取者一人当たりの平均を示す表である。 図19は、音声波形の例を示すグラフである。 図20は、コンプレッサの入出力特性の例を示すグラフである。 図21は、図19の音声波形が処理された後のコンプレッサからの出力波形の例を示すグラフである。
以下、本発明の実施形態としての音声信号調整装置について具体例を挙げ説明する。以下の実施例では、列車の車両内の放送音声を対象とする音声信号調整装置を例に挙げる。しかし、以下に挙げた実施例は例示であり、本発明は以下の実施例の構成に限定されない。例えば、本実施形態としての音声信号調整装置は、車両の車内音声、船舶の船内音声等のような複数の聴取者をターゲットして音声出力する音声出力装置に適用されてもよいし、携帯電話や音声再生装置等のような個人の聴取者をターゲットとして音声出力する音声出力装置に適用されてもよい。
[実施形態の概要]
上述のような従来技術は、音量が大きい部分に着目しこの部分の音量を低減する手法を用いている。この点が上述のような従来技術の問題点を生ずる一因となっている。例えば、人が耳障りと感じる音声は必ずしも音量が大きい部分に一致するわけではない。すなわち、音量が所定のレベルより大きい部分でも耳障りと感じる部分と耳障りと感じない部分とがあり、逆に、音量が所定のレベルより小さい部分であっても耳障りと感じる部分がある。
従って、本実施形態における音声信号調整装置は、音量が所定のレベルより大きい全ての部分をレベル抑圧するのではなく、耳障り感のある部分を検出し、この耳障り感のある
部分を耳障り感がなくなるように補正する。これにより、本実施形態によれば、騒音下でも聴取可能に増幅された音声に関し耳障り感を低減することができる。更に、本実施形態では、新たな音声歪み等の音質劣化が生じないように必要最低限の処理により耳障り感をなくす補正を行う。
本実施形態における音声信号調整装置は、周波数領域の解析を利用して決定された耳障り感判定基準に基づいて、耳障り感がなくなるようにフィルタ処理を行う。なお、以下の説明では、音質判定の基準として耳障り感という文言を用いる。耳障り感とは主観的な聴感評価に基づいて人間が主観的に不快と感じることを意味し、この文言が音質を判定する基準に何らかの限定を加えるものではない。
以下、実施例1における音声信号調整装置について説明する。
[装置構成]
図1は、実施例1における音声信号調整装置の構成を示すブロック図である。図1に示すように、実施例1における音声信号調整装置1は、音量制御部10、音声信号分析部20、耳障り感判定部30、抑圧特性決定部40、耳障り感抑圧部50、信号合成部60等を備える。これら各処理部は、フィールド・プログラマブル・ゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)等のハードウェア回路としてそれぞれ実現されてもよいし、メモリに格納されるプログラムが1又は複数のプロセッサ(例えば、CPU(Central Processing Unit)、DSP(Digital Signal Processor)等)で実行されるソフ
トウェア構成要素としてそれぞれ実現されてもよい。
実施例1における音声信号調整装置1は、入力された放送音声信号に対して、受音された周囲騒音(車内騒音)に応じた音量制御を行い(音量制御部10)、音量調整された放送音声信号から耳障りな部分を検出し(耳障り感判定部30)、この耳障りと判定された部分を補正する(耳障り感抑圧部50)。これにより、音声信号調整装置1は、騒音下でも聴取可能に増幅されており耳障り感が軽減された放送音声信号を出力する。この出力された放送音声信号はスピーカ70へ送られる。なお、入力される放送音声は、予め録音されて保持される音声が再生された音声であってもよいし、乗務員等により発声されたリアルタイム音声であってもよい。以下、各処理部の詳細についてそれぞれ説明する。
〔音量制御部〕
図2は、実施例1における音量制御部10の構成を示すブロック図である。図2に示すように、音量制御部10は、マイクロフォン11、騒音レベル測定部12、増幅器15等を含む。
マイクロフォン11は、車両内の騒音を電気信号に変換する。マイクロフォン11は、受音された騒音を示す騒音信号を騒音レベル測定部12へ送る。
騒音レベル測定部12は、マイクロフォン11から送られる騒音信号を受け、この騒音信号のレベルを測定する。測定されるレベルは騒音の大きさを示す。騒音レベル測定部12は、測定された騒音信号のレベルに応じて、増幅器15の利得を決定する。騒音レベル測定部12は、例えば、予め騒音信号レベルと利得との対応関係を保持しており、これにより測定された騒音レベルに対応する利得を決定する。この対応関係については論理回路等のハードウェア要素として保持されてもよし、テーブルのようなソフトウェア要素として保持されていてもよい。なお、騒音レベルに対する適正な放送音声の聴取レベルについては、例えば公知文献(岡田ほか、“騒音下における放送音声の最適聴取レベルの予測について”、信学技報、EA2002-22、2002-05)等に開示される情報が利用される。
騒音レベル測定部12は、騒音レベルに応じて決定された利得を増幅器15に設定する。例えば、騒音レベル測定部12は、利得設定値(ゲインコード)を示す制御信号を増幅器15へ送る。
増幅器15は、入力される放送音声信号を騒音レベル測定部12から与えられる利得により増幅する。増幅器15は、例えば可変利得増幅器(VGA)である。増幅器15は、騒音レベル測定部12で測定された騒音のレベルに応じて放送音声信号を増幅し、増幅された音声信号を出力する。ここでは、利得が可変な増幅器を用いる例を示したが、それぞれ異なる所定の利得を有する複数の増幅器を用いて、騒音レベル測定部12で測定された騒音レベルに応じて動作する増幅器を切り替えるよう構成してもよい。
音量制御部10から出力された騒音下でも聴取可能に増幅された音声信号は、音声信号分析部20に送られる。音量制御部10は、騒音レベル測定部12の測定結果に応じて騒音レベルが低く増幅する必要がない場合には、入力された放送音声信号を増幅することなくそのまま音声信号分析部20へ送る。また、音量制御部10は、増幅器15による増幅量に関する情報を音声信号分析部20へ送る。この増幅量の情報として騒音レベル測定部12により決定される利得設定値が利用されてもよい。
〔音声信号分析部〕
音声信号分析部20は、音量制御部10から出力される音声信号を受け、この音声信号の各時間における周波数分析を行う。図3は、実施例1における音声信号分析部20の処理を示す概念図である。
図3に示すように、音声信号分析部20は、音量制御部10から出力された音声信号を受けると、その音声信号から所定の間隔(Ts)で所定の長さTの波形データを切り出す。この切り出しには、例えばハミング窓が利用される。本発明はこの時間窓を限定するものではない。音声信号分析部20は、切り出された波形データに長さTのゼロデータを付加することで長さ2Tのデータを生成し、このデータに対して離散フーリエ変換(DFT;Discrete Fourier Transform)又は高速フーリエ変換(FFT;Fast Fourier Transform)を行う。
長さTには、音声スペクトルの概形が略一定とみなせる時間長、言い換えれば、音声周波数が略一定とみなせる時間長として、数十ms(millisecond)から数百msの値が利
用される。所定の間隔Tsには、長さTの4分の1の値が利用される。ここでは、例えば、長さTには20msが利用され、間隔Tsには5msが利用される。なお、これら長さT及び間隔Tsは、音声分析や音声合成等の一般的な音声処理で利用される値が利用されればよい。
音声信号分析部20は、このようにDFT処理又はFFT処理することにより、時間領域で示される信号(以降、時間領域信号と表記する)から間隔Ts毎の周波数領域で示される信号(以降、周波数領域信号と表記する)を得て、この周波数領域信号を出力する。この出力された周波数領域信号は、分岐部(図示せず)により分岐され耳障り感判定部20と耳障り感抑圧部50へそれぞれ送られる。
〔耳障り感判定部〕
耳障り感判定部30は、音声信号分析部20から送られる間隔Ts毎の周波数領域信号を受け、各周波数領域信号を所定の耳障り感判定基準(以降、単に判定基準と表記する)を用いてそれぞれ評価する。耳障り感判定部30は、間隔Ts毎の各周波数領域信号について評価し、時間Ts毎、又は、時間Ts毎及び周波数帯域毎に耳障りか否かを判定する
実施例1の耳障り感判定部30は、3つの判定基準を有する。以下、本実施形態で採用した判定基準の決定方法について説明する。これら判定基準は、大音量時の放送音声の聴取試験の結果に基づいて生成する。具体的には、音量制御部10で増幅される最大音量、即ち、高騒音下でも放送音声が理解でき、かつ騒々し過ぎると感じられない音量に、増幅された放送音声に対して作成された判定基準となる。聴取試験は、例えば、次のように行われる。
録音された電車走行騒音を所定レベルでスピーカ再生し、この状況下において放送音声を別途スピーカ再生する。放送音声は、上記音量制御部10によりレベル調整されることを仮定して、別途再生されている電車走行騒音下においてもその放送内容が理解できる程度に増幅され再生される。複数の聴取者がこのように再生される放送音声を聴取する。各聴取者は、再生された放送音声の中から耳障りと感じた部分(語又は音韻)を選び出す。再生される放送音声は、異なる内容及び異なる話者の複数サンプルを含み、各サンプル間には十分な休憩が挟まれており合計30分程度再生される。最終的に、各聴取者がそれぞれ選出した耳障りと感じられた部分についての情報を各聴取者からそれぞれ収集する。
図4は、聴取試験の例を示す図である。本実施形態では、図4に示す環境において聴取試験を行い、その結果に基づいて当該判定基準を生成する。具体的には、幅5メートル(m)、奥行き6m、高さ2.5mの部屋において、スピーカ45、46、47及び48から電車走行騒音を約90デシベル(dB)で送出し、スピーカ49から放送音声を送出する。聴取者44は、成人男性6名とし図4に示す位置に配置される。話者4名、4文章の合計16サンプルの放送音声が用いられる。各サンプルの音声提示時間は8秒から12秒であり、スピーカ49からの距離は車内放送装置の下を想定し1mとされた。
次に、上記聴取試験の結果に基づいて、各聴取者が耳障りと指摘した部分の統計を取ることにより、耳障りと判定された部分の特徴を周波数領域(時間−周波数パターン(スペクトログラム))上でルール化する。このルールを数式化することにより最終的な判定基準とする。数値化された耳障り感判定基準は、耳障り感判定部30においてソフトウェア構成要素(データ、プロシージャ等)又はハードウェア構成要素(論理回路等)として保持される。可能であれば、このような判定基準が外部から調整可能にデータベース等に保持されるようにしてもよい。
以下、実施例1の耳障り感判定部30が保持する3つの判定基準についてそれぞれ説明する。
〈第1判定基準〉
まず、第1判定基準について説明する。図5は、放送音声サンプルの一節の音声波形を示すグラフである。
上記聴取試験の結果、1つのサンプル内の「・・・ ゆうせん せき ふきんでは けいたい でんわの でんげんを ・・・」という文章において、「せき」の「き」と、「ふきん」の「き」の音韻が多くの聴取者から耳障りであると指摘された(図5の矢印参照)。
これにより、耳障りを感じられる音韻は必ずしも音量(振幅)の大きい音韻とは限らず、図5のような時間波形(時間領域信号)上では耳障り感を判定することは難しい。すなわち、音量の大きい部分を低減する従来技術では、耳障りと感じられる部分を改善することはできず、耳障りと感じられることが少ない「では」の部分が抑圧される。これでは、
逆に不自然な音声を生じさせる恐れがある。
図6は、図5に示す放送音声サンプルの一節のスペクトログラムである。スペクトログラムは、図6に示すように、横軸に時間(秒(s))、縦軸に周波数(Hz)、各時刻の短時間周波数帯域のレベル(強度)を色によって示す。図6は、白黒であるため視認することは難しいが、図面左部におけるグラフ上の濃度と信号強度との対応関係で示されるように、黒色の濃い部分が低いレベルを示し、黒色の薄い白色部分が黒色部分よりは高いレベルを示す。このスペクトログラムによれば、耳障りと指摘された「き」の音韻には図6の斜め矢印で示す箇所に特徴がある。すなわち、耳障りと指摘された音韻には、レベルが急激に増加している周波数帯域が存在し(第1の特徴)、その周波数帯域は人間の聴覚感度の高い領域(1キロヘルツ(kHz)から4kHz)内に存在する(第2の特徴)という特徴がある。
図7は、図6に示すスペクトログラムにおける2500Hzから3500Hzの周波数帯域を拡大した図である。耳障りと指摘された「き」の音韻は、3000Hz付近に上記特徴を示す箇所が存在する。図8は、図6及び7に示す放送音声サンプルの一節のうち2900Hzの周波数帯域のレベル(サブバンド信号の振幅)の時間変化を示す図である。図8に示すように、「ゆうせん せき」の「き」の音韻は、2900Hzにおいて急激なレベル変化が存在する。図7及び8は、上記耳障りと認識される音韻についての第1の特徴を明確化する。
ところで、聴覚を含めた人間の感覚は変化量に敏感であることが知られている。また、人間の聴覚周波数特性では低周波音は感度が低いことが知られている。これらの事実からも、耳障りと認識される音韻についての上記第1及び第2の各特徴はそれぞれ妥当である。従って、本実施形態では、聴覚感度の高い周波数帯域において急激な音量増加が生じている場合に耳障りと判定することを第1の判定基準のルールとする。実施例1の耳障り感判定部30は、このルールを以下のように実装することで耳障り判定を行う。
人間の聴覚感度を表わすものとして等ラウドネス曲線(例えば、次の文献参照:鈴木陽一、竹島久志、「最小可聴値と等ラウドネス曲線をめぐる最近の話題」、日本音響学会誌、58巻2号(2002)、130〜137頁)が知られている。また、この等ラウドネス曲線に近似しており騒音計等で利用されるA特性が知られている(図9参照)。そこで、上記ルールのうちの第2の特徴を検出するために、A特性や等ラウドネス曲線等の聴感補正特性を持つフィルタ(以降、聴感フィルタと表記する)を用いる。耳障り感判定部30は、この聴感フィルタを音声信号分析部20から送られる周波数領域信号に掛けることにより、人の聴覚の感度が低い周波数帯域のレベルが小さくなるようにその信号を補正する。言い換えれば、音声信号分析部20から送られる周波数領域信号は、この聴感フィルタにより人が感じる音声に近似するように補正される。
耳障り感判定部30は、この聴感フィルタを掛けた後の周波数領域信号から上記第1の特徴を示す箇所、即ち急激にレベル変化する箇所を検出する。信号のレベル変化の大きさは、信号の時間差分を取ることにより求められる。耳障り感判定部30は、各周波数帯域について所定の時間間隔分離れたサンプル間でレベルの差分をそれぞれ求める(以下の式1参照)。所定の時間間隔離れたサンプルを用いるのは、隣接するサンプル、即ち時間間隔Ts毎の信号との差分では雑音の影響を受けやすいからである。具体的には、耳障り感判定部30は、5サンプル離れた信号間の差分を計算する。これにより、耳障り感判定部30は、音声信号分析部20から送られるTs間隔の各周波数領域信号を少なくとも5サンプル離れた信号まで保持し、上記演算に利用する。
DIF[|Xc(f、t)|] > TH1 (式1)
この(式1)において、Xc(f、t)は聴感フィルタを掛けた後の周波数領域信号(複素数)を示し、|Xc(f、t)|はその信号の絶対値を示し、DIFは時間差分演算を示し、TH1は閾値を示す。なお、実施例1では、音声信号分析部20から送られる信号間の間隔はTsであり、5サンプル離れた信号間の差分が計算されるため、以下の式2のように展開される。
|Xc(f、t)|−|Xc(f、t−5Ts)| > TH1 (式2)
なお、上記演算は各周波数帯域(f)についてそれぞれ実行されるが、この演算単位は、音声信号分析部20の分解能に依存する。音声信号分析部20のFFT又はDFTのサイズが40msの場合にはこの演算単位は25Hzとなる。また、この演算から、聴感フィルタによりマスクされる低周波域(例えば、700Hz以下)、及び耳障り感に影響の小さい高周波域(例えば、5kHz以上)を除外するようにすれば、演算量を少なくすることができる。
耳障り感判定部30は、音声信号分析部20から送られるTs間隔の各周波数領域信号Xc(f、t)の各周波数帯域fが第1の判定基準、即ち上記(式1)を満たすか否かを判定する。図10は、図8に示す信号の時間差分を示すグラフである。図10によれば、耳障りな音において時間差分が大きくなっており、この差分量は耳ざわり感の基準量として有効なものであることが示される。
〈第2判定基準〉
以下、第2判定基準について説明する。図11は、放送音声サンプルの一節の音声波形を示すグラフである。
上記聴取試験の結果、1つのサンプル内の「しって です・・・」(尻手:駅名)という文章において、「しって」の「し」と、「です」の「す」の音韻が多くの聴取者から耳障りであると指摘された(図11の矢印参照)。この放送音声サンプルにおいても、図5に示すサンプルと同様に耳障りを感じられる音韻は必ずしも音量の大きい音韻とはならない。よって、このサンプルにおいても、従来技術では、耳障りと感じられる部分を改善することはできない。
図12は、図11に示す放送音声サンプルの一節のスペクトログラムである。図12のスペクトログラムによれば、耳障りと指摘された「し」及び「す」の各音韻は、その「し=si」、「す=su」の「s」の部分が広い帯域にわたって周波数帯域を有するという特徴が見出せる。特に、この「し」及び「す」の各音韻は、低い周波数帯域(例えば、2kHz以下の帯域)のレベルが小さく、4kHz以上の帯域において高いレベルの周波数帯域を継続的に有している点で、その他の音韻とは大きく異なる。その他の音韻では、4kHz以上の帯域ではレベルが小さくなる。
図13は一般的な電車騒音スペクトルを示すグラフである。図13によれば、電車騒音は1kHz以下の周波数帯域の利得が高いという特性を有する。すなわち、人間は、騒音の含まれる低周波帯域には注意を払わず、高周波帯域を中心に聴取する傾向にある。この状態において高周波に強いレベルを持った音が継続した場合に耳障りと感じるのは妥当である。
従って、本実施形態では、高周波帯域に大きなレベルを継続的に有する場合に耳障りと判定することを第2の判定基準のルールとする。実施例1の耳障り感判定部30は、このルールを以下のように実装することで耳障り判定を行う。なお、継続的という条件を含めたのは、「p」、「t」、「k」のような破裂性の子音では瞬間的に高いレベルの周波数帯域を含むことがあり、これら破裂性の子音と区別するためである。
耳障り感判定部30は、音声信号分析部20から送られる周波数領域信号から高周波帯域に大きなレベルを継続的に有する箇所を検出する。具体的には、耳障り感判定部30は、音声信号分析部20から送られる周波数領域信号に基づいて、所定帯域幅の高周波帯域の合計レベル(エネルギー)(PH)と所定帯域幅の低周波帯域の合計レベル(PL)との比を算出する。耳障り感判定部30は、この算出された比が所定の閾値(TH2)を超えた時間が所定の閾値時間(TH3)を超えるか否かを判定する。この判定処理を以下に(式3)として示す。
PER[PH/PL > TH2] > TH3 (式3)
ここで、PER[]は括弧内の条件を満たす継続時間を示し、TH2及びTH3はそれぞれ閾値を示す。継続時間については、音声信号分析部20から送られる周波数領域信号はTs間隔の信号であるため、音声信号分析部20から受けた信号の個数にTsを掛けることにより求められる。また、TH2及びTH3は、聴取試験の結果に基づいて、上述の「si」や「su」の「s」のような耳障りと指摘される音のエネルギー比及び継続時間の平均値を多数の音声から取得して設定する。一例としては、TH2が0dB、TH3が150msにそれぞれ設定される。なお、PHの帯域幅として例えば4kHzから8kHzが適用され、PLの帯域幅として例えば0から700Hzが適用される。
耳障り感判定部30は、上記(式3)を満たすと判定すると、更に、高周波帯域の合計レベル(PH)が所定の閾値TH4よりも大きいか否かを判定する。この判定処理を以下に(式4)として示す。
PH > TH4 (式4)
耳障り感判定部30は、上記(式3)及び(式4)を満たす場合に耳障りであると判定する。なお、上述のような「s」等の発音時においても話者に応じてその音が耳障りと感じられるか否かが異なる。従って、上記(式4)のように、更に、高周波帯域のレベルが耳障りと感じやすい大きな音量か否かの判定が行われる。なお、閾値TH4は、聴取試験等において耳障りと指摘される話者の音とそうでない話者の音とを比較することにより、決められる。
図14は、図12の音声を第2の判定基準に従って耳障り感判定した結果を示すグラフである。図14は、横軸に時間(s)を示し、縦軸に判定結果を示す。図14の判定結果YESは上記第2の判定基準に適合したことを示し、NOは上記第2の判定基準に適合しないことを示す。図14によれば、上記第2判定基準が耳障りと指摘された「s」の存在区間を適切に判定可能であることが示される。
〈第3判定基準〉
以下、第3判定基準について説明する。本実施形態では、聴覚感度の高い周波数帯域において極端に大きな音量の周波数帯域を有する場合に耳障りと判定することを第3の判定基準のルールとする。ここで、極端に大きな音量としたのは、コンプレッサ等を用いる従来技術と異なることを明記するためである。本実施形態では、上述のような第1判定基準及び第2判定基準を設けているため、この第3判定基準における条件を従来技術よりもより限定することができる。なお、第3判定基準に適合する部分は、語頭や語尾において発生することが多い。
耳障り感判定部30は、第1判定基準と同様に、聴感フィルタを音声信号分析部20から送られる周波数領域信号に掛けた後、フィルタリングされた周波数領域信号から極端に大きな音量の周波数帯域を検出する。この判定処理を以下に(式5)として示す。
|Xc(f、t)| > TH5 (式5)
ここで、Xc(f、t)は聴感フィルタを掛けた後の周波数領域信号を示し、|Xc(f、t)|はその信号の絶対値を示し、TH5は閾値を示す。TH5の値は、例えば、音声区間における該当帯域の平均エネルギーの10dB大きい値を設定する。TH5の値は、録音された放送音声を対象とする場合にはこの録音音声から予め求められる平均エネルギーを利用して設定されてもよいし、リアルタイム音声を対象とする場合には積算された音声エネルギーの平均をその都度求め、この算出された平均値を用いるようにしてもよい。なお、この演算から、聴感フィルタによりマスクされる低周波域(例えば、1kHz以下)、及び耳障り感に影響の小さい高周波域(例えば、4kHz以上)を除外するようすれば、演算量を少なくすることができるため有効である。
図15は、実施例1における耳障り感判定部30の構成を示すブロック図である。耳障り感判定部30は、上述のような各判定基準を実現するために、聴感フィルタ31、第1判定基準判定部32、第2判定基準判定部33、第3判定基準判定部34等を有する。耳障り感判定部30では、音声信号分析部20からの周波数領域信号が入力されると、当該周波数領域信号は分岐部(図示せず)により分岐され、1つは聴感フィルタ31に送られ、1つはそのまま第2判定基準判定部33へ送られる。
なお、聴感フィルタ31を通さない信号が第2判定基準判定部33に入力されるのは、上述したように第2判定基準が高周波帯域と低周波帯域とのエネルギー比を用いているため、聴覚感度に応じたレベル補正が施されると第2判定基準の判定の精度が落ちる恐れがあるからである。
聴感フィルタ31は、上述したような聴感補正特性を持つフィルタであり、音声信号分析部20から送られる周波数領域信号を人の聴覚の感度が低い周波数帯域のレベルが小さくなるように補正する。聴感フィルタ31は、このように補正された周波数領域信号を第1判定基準判定部32及び第3判定基準判定部34にそれぞれ送る。
第1判定基準判定部32は、聴感フィルタ31から送られる補正後の周波数領域信号を受け、この信号に対し上記(式1)及び(式2)に示す第1判定基準による耳障り感判定を行う。第2判定基準判定部33は、音声信号分析部20からの周波数領域信号に対し、上記(式3)及び(式4)に示す第2判定基準による耳障り感判定を行う。第3判定基準判定部34は、聴感フィルタ31から送られる補正後の周波数領域信号を受け、この信号に対し上記(式5)に示す第3判定基準による耳障り感判定を行う。
第1判定基準判定部32は、上記判定により第1の判定基準を満たす時間(t)及び周波数帯域(f)を検出し、この検出された時間情報及び周波数情報をそれぞれ抑圧特性決定部40に送る。第2判定基準判定部33は、上記判定により第2判定基準を満たす時間(t)を検出し、この検出された時間情報を抑圧特性決定部40に送る。第3判定基準判定部34は、上記判定により第3判定基準を満たす時間(t)を検出し、この検出された時間情報を抑圧特性決定部40に送る。
〔抑圧特性決定部〕
抑圧特性決定部40は、耳障り感判定部30からの判定結果に対応するフィルタ特性を決定する。具体的には、抑圧特性決定部40は、音声信号分析部20から出力される周波数領域信号における耳障り感判定部30で耳障りであると判定された部分(時間又は周波数帯)を抑圧し、耳障り感判定部30の各判定基準に適合しない(耳障り感のない)信号となるように補正するための抑圧特性を決定する。
抑圧特性決定部40は、耳障り感判定部30の各判定基準に対応する各抑圧特性を予め
保持し、これら各抑圧特性に基づいて統合抑圧特性を決定する。なお、各抑圧特性における抑圧量は、聴取試験等の結果に基づいて、対応する各判定基準に適合しなくなるような値に設定される。抑圧特性決定部40は、最終的に、統合抑圧特性における抑圧量を音量制御部10で制御された後の放送音声のレベル(音量)に基づいて調整する。抑圧特性決定部40は、このように決定された統合抑圧特性に関する情報を耳障り感抑圧部50へ送る。
以下、各判定基準に対応する各抑圧特性についてそれぞれ説明する。なお、これら各抑圧特性はそれぞれフィルタ関数、減衰関数等のようなソフトウェア構成要素として実装されてもよいし、可能であればそれぞれ回路等のハードウェア構成要素として実装されてもよい。
〈第1判定基準に対応する抑圧特性〉
第1判定基準に対応する抑圧特性は、急激なレベル変化を有する周波数帯域の立ち上がり部分のレベルを抑圧する。この第1の抑圧特性は、従来のコンプレッサとは異なり、耳障りと判定された時間tの周波数帯域fのみを補正する。この第1の抑圧特性は、例えば、減衰フィルタとして実現される。
他の例として、急激なレベル増加部分を有する周波数帯域に対して時間方向の平滑化を行うようにしてもよい。具体的には、この抑圧特性は、急激なレベル増加部分を有する周波数帯域fのレベルが時間方向で平滑化されるようにTs毎の各周波数領域信号(Xc(f、t))を補正する。この抑圧特性は、例えば、帯域信号に対する低域通過フィルタとして実現される。この抑圧特性は、上記抑圧特性に比べて、振幅の急激な変化を軽減することができる。
これら第1判定基準に対応する抑圧特性は、音声劣化の影響の最も少ない上記2つの例のいずれか1方の特性が用いられるようにしてもよいし、組み合わせた特性が用いられてもよい。
〈第2判定基準に対応する抑圧特性〉
第2判定基準に対応する抑圧特性は、高周波帯域に大きなレベルが継続的に存在することのないように補正するために、所定の高周波帯域を抑圧する。この所定の高周波帯域とは、第2判定基準におけるPHの対象帯域を更に拡げた帯域とする。例えば、上述したようにPHの対象帯域を4kHzから8kHzとした場合には、ここでの所定の高周波帯域の対象帯域は3kHzから8kHzとする。これは、耳障り感判定時には誤判定を防ぐために焦点を絞った帯域とするべきであるところ、補正時には判定時よりも広い帯域を対象とすることにより耳障りな音を確実に抑圧することができるからである。
他の例としては、高周波帯域に大きなレベルが継続的に存在することのないように補正するために、第2判定基準に適合する間は全周波数帯域を対象にフェイドアウト処理によりレベルを低減させるようにしてもよい。
図16は、フェイドアウト処理の一例を示す図である。フェイドアウト処理とは、図16に示すように、耳障り感判定部30の第2判定基準における高周波帯域に大きなレベルが存在することが検出されてから(PH/PL>TH2が満足されてから)、所定の時間Toutまでの間、時間に応じて単調減少する利得を全周波数帯域に与えることを意味する。フェイドアウト処理で利用される利得減少曲線は、聴取試験によって決定されるが、一例として、図16に示した以下の(式6)の波形が利用される。
0.5+0.5cos(at) (式6)
ここで、定数aは、π/Toutとし、atは0からπまでとする。フェイドアウト時間Toutは、耳障り感判定部30の第2判定基準におけるTH3を基準に決められ、例えば、TH3が150msの場合には、100msから200msの間で決められる。第2判定基準によれば高周波帯域に大きなレベルが存在する状況がTH3時間継続した場合に耳障りと感じられるため、このフェイドアウト時間Toutは、当該状況がTH3時間経過時には改善されているような値に決められる。
これら第2判定基準に対応する抑圧特性は、音声劣化の影響の最も少ない上記2つの例のいずれか1方の特性が用いられるようにしてもよいし、組み合わせた特性が用いられてもよい。
〈第3判定基準に対応する抑圧特性〉
第3判定基準に対応する抑圧特性は、極端に大きな音量の周波数帯域のレベルを抑圧する。この抑圧特性は、上述の第1判定基準に対応する抑圧特性とは異なり、該当周波数のみを抑圧するのではなく、該当周波数帯域を含んだ耳障り感の生じ易い帯域(例えば、1kHzから4kHz)全体に抑圧を行う。これにより、音声の自然感が維持されるからである。この抑圧特性は、例えば、減衰フィルタなどとして実現される。
〈統合抑圧特性〉
上述の各抑圧特性はそれぞれ各判定基準に対応するが、周波数領域信号を各抑圧特性に直列に通した場合には必要以上にレベル抑圧されてしまうという問題が生ずる。例えば、或る時間の或る周波数帯域が第1判定基準に適合したため10dBのレベル抑圧が必要であり、更に第2判定基準に適合したため10dBのレベル抑圧が必要となった場合には、両者を合せた20dBの抑圧ではなく、10dBのレベル抑圧が施されれば第1判定基準及び第2判定基準の両方の耳障り感判定をパスすることができる。
そこで、抑圧特性決定部40は、上述の各抑圧特性を統合しかつ各抑圧特性の抑圧量のうち最も大きい抑圧量をその抑圧量とする統合抑圧特性を更に保持する。この統合抑圧特性は、抑圧量を利得で示した場合、以下の(式7)で示すことができる。
INT(f)=min(H1(f)、H2(f)、・・・) (式7)
この式は、第i番目の判定基準を満たす抑圧特性をHi(f)で示す。各抑圧特性の抑圧量は、抑圧方向であり利得が0dB以下の負の値となるため、(式7)では最大抑圧量を示す利得を抽出することを意味してmin()で示される。
抑圧特性決定部40は、このような統合抑圧特性の抑圧量を以下のように調整する。
音量制御部10は、入力される放送音声の音量を、無騒音下における適正音量である最低音量と、高騒音下においても放送音声が理解できかつ騒々し過ぎると感じられない最大音量の間で制御する。例えば、音量制御部10は、70dBから90dBの間で音量制御される。このとき、90dB増幅された放送音声には、上述の統合抑圧特性Hall(f)が適用されることが好ましい。しかしながら、最低音量の放送音声はレベル抑圧されないことが好ましい。
そこで、抑圧特性決定部40は、図17に示すような放送音声の音量に対応した抑圧量を決定する。図17は、統合抑圧特性の抑圧量の決定例を示すグラフである。抑圧特性決定部40は、放送音量が最大限に増幅された音量(例えば、90(dB))である場合に、上記統合抑圧特性の抑圧量Hall(f)とし、放送音量が最低音量(例えば、70(dB))の場合に抑圧なし(0(dB))とし、その間の放送音量に対しては線形補間をして得られる抑圧量とする。
抑圧特性決定部40は、放送音声(周波数領域信号)のレベルを耳障り感判定部30から送られる放送音声の周波数領域信号から取得してもよいし、音量制御部10から送られる増幅情報から算出するようにしてもよい。後者の場合には、音量制御部10は、無騒音時の最適音量を最小音量と定義し、この最小音量からの増幅量の情報を抑圧特性決定部40に送るようにすればよい。
〔耳障り感抑圧部〕
耳障り感抑圧部50は、抑圧特性決定部40から送られる統合抑圧特性を音声信号分析部20から送られる周波数領域信号に掛け合わせる。これにより、耳障りと判定された時間及び周波数帯域のみがレベル抑圧され、信号合成部60へ送られる。なお、音量制御部10で増幅されていない音声信号が対象となっている場合には、上述のように抑圧特性決定部40から送られる統合抑圧特性の抑圧量が0となっているため、その周波数領域信号は抑圧されることなく出力される。
〔信号合成部〕
信号合成部60は、耳障り感抑圧部50により耳障りな部分が補正された周波数領域信号を受けると、Ts間隔の所定数の周波数領域信号を時間−周波数合成し、重畳加算法(overlap-add method)により時間領域信号を合成する。この時間−周波数合成には、逆離散フーリエ変換(IDFT;Inverse Discrete Fourier Transform)又は逆高速フーリエ変換(IFFT;Inverse Fast Fourier Transform)が利用される。また、重畳加算法は、例えば、文献(オッペンハイム(伊達訳)、「ディジタル信号処理(上)」、コロナ社、1978)等で周知である。この時間−周波数合成により時間領域信号に戻された放送音声信号は、スピーカ70に送られる。
〔実施例1における作用及び効果〕
以下、上述の実施例1における音声信号調整装置1の作用及び効果について説明する。
実施例1における音声信号調整装置1では、放送音声信号が入力され、音量制御部10に送られる。それと共に、音量制御部10では、マイクロフォン11で受音された車内騒音が騒音レベル測定部12でレベル測定され、測定された騒音レベルに応じた利得が増幅器15に設定される。増幅器15は、当該騒音レベルに応じて放送音声信号を増幅する。このように増幅された音声信号及びその増幅量は音量制御部10から音声信号分析部20へそれぞれ送られる。
この音量制御部10によれば、放送音声が騒音下でも聴取可能な音量に設定される。
続いて、音声信号分析部20では、増幅された音声信号がDFT又はFFTにより周波数分析される。この周波数分析により得られた時間間隔Tsの周波数領域信号は耳障り感判定部30及び耳障り感抑圧部50にそれぞれ送られる。
耳障り感判定部30では、聴取試験によりルール化され数値化された複数の判定基準が実装されており(第1判定基準判定部32、第2判定基準判定部33、第3判定基準判定部34)、間隔Ts毎の周波数領域信号について各判定基準に適合するか否かがそれぞれ判定されることにより耳障りな部分(時間、時間及び周波数)が検出される。
第1判定基準では、聴覚感度の高い周波数帯域において急激な音量増加が生じている部分が耳障り部分として検出され、この耳障り部分を特定するための時間情報及び周波数情報がそれぞれ抑圧特性決定部40に送られる。
第2判定基準では、高周波帯域に大きなレベルを継続的に有する部分が耳障り部分として検出され、この耳障り部分を特定するための時間情報が抑圧特性決定部40に送られる。
第3判定基準では、聴覚感度の高い周波数帯域において極端に大きな音量の周波数帯域を有する部分が耳障り部分として検出され、この耳障り部分を特定するための時間情報が抑圧特性決定部40に送られる。
人間にとって耳障りと感じる音はその発音者、音量等に応じて異なる。しかしながら、実施例1によれば、人に耳障りと感じられた音の各特徴がそれぞれ判定基準として実装されているため、放送音声の内容に制限されることなく耳障りと感じられるであろう部分を適切に検出することができる。
更に、上記第1判定基準及び第3判定基準では、聴感補正特性を持つ聴感フィルタが掛けられた後の周波数領域信号に基づいて耳障り感の判定が行われる。これにより、人の聴覚で感じ易い音がクローズアップされた音声信号に基づいて耳障り感判定を行うことができるため、耳障りと判定され得る部分を適切に特定することができ、耳障り感の判定精度を向上させることができる。
抑圧特性決定部40では、各判定基準に対応する各抑圧特性が統合された統合抑圧特性が備えられ、耳障り感判定部30において特定された耳障り部分を示す情報に基づいて、その耳障り部分を抑圧し、各判定基準に適合しない(耳障り感のない)信号となるように当該周波数領域信号を補正するための統合抑圧特性を決定する。決定された統合抑圧特性は、耳障り感抑圧部50において音声信号分析部20から送られる周波数領域信号に掛け合わされる。
このように実施例1によれば、音量が大きい部分のみに着目していた従来手法では認識されていなかった、耳障りの原因となっている音声信号成分(時間、又は時間及び周波数帯域)に対してレベル抑圧が行われるため、適切に音声中の耳障りな部分を適切に改善することができる。更に、実施例1によれば、従来の手法とは異なり、耳障りの原因となっている音声信号成分に対してのみレベル抑圧が行われ、耳障りの原因とならず補正の必要のない信号成分をそのままに保つことができるため、信号補正による音声品質の劣化を最小限に抑えることができる。
更に、抑圧特性決定部40では、音量制御部10において増幅された放送音声の音量に応じて、統合抑圧特性における抑圧量が調整される。これにより、騒音レベルに応じた抑圧量が決められるため、抑圧され過ぎることを防ぎ、適切な音量を維持することができる。
図18A及び18Bは、図4に示す環境において実施例1における音声信号調整装置1を適用した場合の聴取試験結果を示す表である。図18Aは、聴取者全員の結果を示し、図18Bは、聴取者一人当たりの平均を示す。図18A及び18Bの各表によれば、実施例1における音声信号調整装置1を適用する前の状態で聴取者が耳障りと指摘した音韻の数と、実施例1における音声信号調整装置1を適用したことにより改善された音韻の数と、改善率とが示される。なお、聴取試験環境は、図4についての上述の例と同様とする。
図18A及び18Bの試験例によれば、実施例1における音声信号調整装置1を適用することにより、適用する前と比べて耳障りな音韻を70%程度削減することができる。
[変形例]
上述の実施例1では、騒音レベルが低く音量制御部10で増幅されない場合であって、音声信号がレベル抑圧されない場合であっても、音声信号分析部20で分析処理され、耳障り感判定部30で判定され、抑圧特性決定部40で統合抑圧特性が決定され、耳障り感抑圧部50で特性処理され、信号合成部60で信号合成されていた。しかしながら、変形例としての音声信号調整装置は、音量制御部10からスピーカ70へ出力する迂回路を更に備えるようにし、音量制御部10が増幅量に応じてその音声信号を出力する経路を上記迂回路か、上述の実施例1のような経路かを切り替えるようにしてもよい。具体的には、音量制御部10は、レベル抑圧の必要のない程度の増幅量であると判断した場合には、音声信号の出力先を当該迂回路に決定する。
この変形例では、騒音レベルが低く音声信号が増幅されない場合には、各処理部の無駄な動作を抑えることができ、消費電力の削減に繋がる。音声信号が増幅されない場合には、耳障り感の発生が少ないため、レベル抑圧の必要性も低減するからである。
更に、上述の実施例1の音声信号調整装置1には音量制御部10が設けられていたが、音量制御部10がない構成が採られてもよい。この場合には、音量制御部10による音量増幅が行われない音声信号に対して、他の処理部がそれぞれ上記と同様の処理を行うようにすればよい。この構成によれば、騒音レベルに応じた増幅処理が行われない音声信号に対しても音質改善を行うことができる。
1 音声信号調整装置
10 音量制御部
11 マイクロフォン
12 騒音レベル測定部
15 増幅器
20 音声信号分析部
30 耳障り感判定部
31 聴感フィルタ
32 第1判定基準判定部
33 第2判定基準判定部
34 第3判定基準判定部
40 抑圧特性決定部
50 耳障り感抑圧部
60 信号合成部
70 スピーカ

Claims (10)

  1. 音声信号を単位時間毎の周波数領域信号に変換する変換手段と、
    所定の判定ルールを用いて前記周波数領域信号を評価することにより前記音声信号の不快聴取成分を特定する判定手段と、
    前記不快聴取成分のレベルを抑圧することにより前記周波数領域信号を補正する補正手段と、
    前記補正された周波数領域信号から時間領域信号に変換する逆変換手段と、
    を備えることを特徴とする音声信号調整装置。
  2. 前記判定手段は、不快聴取成分となり得る周波数帯域及び時間を特定可能な判定ルールを用いることにより、不快聴取成分となる周波数帯域及び時間を特定し、
    前記補正手段は、前記特定された時間及び周波数帯域のレベルを抑圧する、
    ことを特徴とする請求項1に記載の音声信号調整装置。
  3. 前記所定の判定ルールは、聴感評価に基づいて決定された複数の判定ルールを含むことを特徴とする請求項1又は2に記載の音声信号調整装置。
  4. 前記判定手段は、
    前記所定の判定ルールとして、各周波数帯域における所定時間間隔のレベル差が所定の閾値を超えるか否かの判定、所定の高周波帯域に所定閾値より大きいレベルを継続的に有するか否かの判定、及び所定閾値より大きいレベルを持つ周波数帯域を有するか否かの判定の少なくとも1つを用いて前記周波数領域信号を評価する、
    ことを特徴とする請求項1から3のいずれか1項に記載の音声信号調整装置。
  5. 前記判定手段は、前記周波数領域信号に聴感補正特性を掛け合わせた後の信号を前記所定の判定ルールを用いて評価する、
    ことを特徴とする請求項1から4のいずれか1項に記載の音声信号調整装置。
  6. 前記補正手段は、前記複数の判定ルールに対応する複数の抑圧特性を統合させた統合抑圧特性を前記周波数領域信号に掛け合わせることにより、前記不快聴取成分のレベルを抑圧する、
    ことを特徴とする請求項3から5のいずれか1項に記載の音声信号調整装置。
  7. 前記補正手段は、前記周波数領域信号から得られるレベルに応じた抑圧量を決定し、この決定された抑圧量で前記不快聴取成分のレベルを抑圧する、
    ことを特徴とする請求項1から6のいずれか1項に記載の音声信号調整装置。
  8. 入力された音声信号を騒音レベルに応じたレベルに増幅し、増幅された音声信号を前記変換手段に送る増幅手段、
    を更に備え、
    前記補正手段は、前記増幅手段によるレベルの増幅量に応じて前記抑圧量を決定する、
    ことを特徴とする請求項7に記載の音声信号調整装置。
  9. 音声信号を単位時間毎の周波数領域信号に変換するステップと、
    所定の判定ルールを用いて前記周波数領域信号を評価することにより前記音声信号の不快聴取成分を特定するステップと、
    前記不快聴取成分のレベルを抑圧することにより前記周波数領域信号を補正するステップと、
    前記補正された周波数領域信号から時間領域信号に変換するステップと、
    を実行する音声信号調整方法。
  10. 音声信号を単位時間毎の周波数領域信号に変換するステップと、
    所定の判定ルールを用いて前記周波数領域信号を評価することにより前記音声信号の不快聴取成分を特定するステップと、
    前記不快聴取成分のレベルを抑圧することにより前記周波数領域信号を補正するステップと、
    前記補正された周波数領域信号から時間領域信号に変換するステップと、
    を実行する音声信号調整プログラム。
JP2009055468A 2009-03-09 2009-03-09 音声信号調整装置及びその調整方法 Active JP5547414B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009055468A JP5547414B2 (ja) 2009-03-09 2009-03-09 音声信号調整装置及びその調整方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009055468A JP5547414B2 (ja) 2009-03-09 2009-03-09 音声信号調整装置及びその調整方法

Publications (2)

Publication Number Publication Date
JP2010210815A true JP2010210815A (ja) 2010-09-24
JP5547414B2 JP5547414B2 (ja) 2014-07-16

Family

ID=42971070

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009055468A Active JP5547414B2 (ja) 2009-03-09 2009-03-09 音声信号調整装置及びその調整方法

Country Status (1)

Country Link
JP (1) JP5547414B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016066923A (ja) * 2014-09-25 2016-04-28 株式会社富士通エフサス サーバ装置、警告方法および警告プログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0968997A (ja) * 1995-08-30 1997-03-11 Sony Corp 音声処理方法及び装置
JP2001222289A (ja) * 2000-02-08 2001-08-17 Yamaha Corp 音響信号分析方法及び装置並びに音声信号処理方法及び装置
JP2003228387A (ja) * 2002-02-01 2003-08-15 Fuji Xerox Co Ltd 動作制御装置
JP2004061617A (ja) * 2002-07-25 2004-02-26 Fujitsu Ltd 受話音声処理装置
WO2004109661A1 (ja) * 2003-06-05 2004-12-16 Matsushita Electric Industrial Co., Ltd. 音質調整装置および音質調整方法
JP2006050045A (ja) * 2004-08-02 2006-02-16 Hitachi Ltd 動画像データ編集装置及び動画像データ編集方法
JP2006208820A (ja) * 2005-01-28 2006-08-10 Advanced Telecommunication Research Institute International 音声処理装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0968997A (ja) * 1995-08-30 1997-03-11 Sony Corp 音声処理方法及び装置
JP2001222289A (ja) * 2000-02-08 2001-08-17 Yamaha Corp 音響信号分析方法及び装置並びに音声信号処理方法及び装置
JP2003228387A (ja) * 2002-02-01 2003-08-15 Fuji Xerox Co Ltd 動作制御装置
JP2004061617A (ja) * 2002-07-25 2004-02-26 Fujitsu Ltd 受話音声処理装置
WO2004109661A1 (ja) * 2003-06-05 2004-12-16 Matsushita Electric Industrial Co., Ltd. 音質調整装置および音質調整方法
JP2006050045A (ja) * 2004-08-02 2006-02-16 Hitachi Ltd 動画像データ編集装置及び動画像データ編集方法
JP2006208820A (ja) * 2005-01-28 2006-08-10 Advanced Telecommunication Research Institute International 音声処理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016066923A (ja) * 2014-09-25 2016-04-28 株式会社富士通エフサス サーバ装置、警告方法および警告プログラム

Also Published As

Publication number Publication date
JP5547414B2 (ja) 2014-07-16

Similar Documents

Publication Publication Date Title
JP5665134B2 (ja) ヒアリングアシスタンス装置
KR100860805B1 (ko) 음성 강화 시스템
JP4894342B2 (ja) 音響再生装置
CN101166017B (zh) 用于声音产生设备的自动杂音补偿方法及装置
KR101068227B1 (ko) 명료도 향상장치와 이를 이용한 음성출력장치
JP4649546B2 (ja) 補聴器
US20100158269A1 (en) Method and apparatus for reducing wind noise
JPWO2010131470A1 (ja) ゲイン制御装置及びゲイン制御方法、音声出力装置
JP2006243178A (ja) 音声処理方法と装置及びプログラム並びに音声システム
Parizet et al. Noise assessment in a high-speed train
JP2002051392A (ja) 車内会話補助装置
JP5115818B2 (ja) 音声信号強調装置
CN117321681A (zh) 嘈杂环境中的语音优化
JP2007219188A (ja) 子音加工装置、音声情報伝達装置及び子音加工方法
JP2007065285A (ja) 音声信号処理方法、装置及びプログラム
JP5547414B2 (ja) 音声信号調整装置及びその調整方法
JP2006333396A (ja) 音声信号拡声装置
Brouckxon et al. Time and frequency dependent amplification for speech intelligibility enhancement in noisy environments
RU2589298C1 (ru) Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
JPH05175772A (ja) 音響再生装置
JP5715853B2 (ja) 音場補正装置
JPH07111527A (ja) 音声の加工方法およびそれを用いた装置
JP2011141540A (ja) 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体
JPH08110796A (ja) 音声強調方法および装置
Schmidt et al. Evaluation of in-car communication systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121101

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121211

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20130205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130917

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140515

R150 Certificate of patent or registration of utility model

Ref document number: 5547414

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250