JP2010028663A

JP2010028663A - 音声レベル調整装置、音声レベル調整方法およびプログラム

Info

Publication number: JP2010028663A
Application number: JP2008189983A
Authority: JP
Inventors: Nozomi Toki; 望土岐
Original assignee: NEC Saitama Ltd
Current assignee: NEC Saitama Ltd
Priority date: 2008-07-23
Filing date: 2008-07-23
Publication date: 2010-02-04

Abstract

【課題】音割れの発生を抑制し、音声を聴き取り易くする。
【解決手段】標準ホルマント補正部１８は、音声分析部１３が検出した音声レベル同士の差と標準音声レベルＳＴとの比較に基づいて、第１ホルマント以外のホルマントの音声レベルを補正する。変更量算出部１６は、補正された各ホルマントの音声レベルと当該ホルマントに対応する周波数での雑音レベルとの差に基づく、補正された各ホルマントの特定音声信号レベルの変更量の算出と、第１ホルマントＰ１の音声レベルと第１雑音レベルとに基づく第１ホルマントＰ１の音声レベルの変更量Ｇ１の算出とを行う。レベル変更部１７は、変更量Ｇ１に基づいてホルマントの特定音声信号レベルをそれぞれ変更して出力する。
【選択図】図１

Description

本発明は、音声レベル調整装置、音声レベル調整方法およびプログラムに関する。

一般的に、マイクなどの音声入力機器へ音声とともに周囲の雑音が入力されてしまうと、その雑音が音声とともに増幅器や通信機器を介してスピーカなどの音声出力機器から出力されてしまう。そのため、出力される音声が聴き取りにくくなってしまうおそれがある。

このような状況となることを回避するために、音声の明瞭度を改善するための技術が考えられている。

一般的に音声の明瞭度を改善するために用いられる音声レベル調整装置２００は、図１６に示すように、レベル変更部２４０を用いて、マイク２１０で集音した音声ＶＯのホルマントの強調と音量アップとを行う。これにより、当該音声ＶＯにレベルの大きな雑音が含まれている場合でも、雑音レベルに対するホルマントのレベルが相対的に大きくなり、音声が聴き取り易いようにその明瞭度が改善される。

ここで「ホルマント（Formant）」とは、音声ＶＯのスペクトラムにおける音声レベルのピークのことを指し、当該ピークが表れる周波数を「ホルマント周波数」という。ホルマント周波数のうちで最も低い（つまり、周波数が最も小さい）第１ホルマント周波数ｆ１に表れるピークを第１ホルマントＰ１といい、ｎ番目のホルマント周波数ｆｎに表れるピークを第ｎホルマントＰｎという。

図１７（ａ）に示すように、通常の人間の声のスペクトラムでは、当該スペクトラムに表れるホルマントのうちの第１ホルマントＰ１が有する音声レベルが最も大きく、周波数帯域が高くなるに伴って、第ｎホルマントにおける音声レベルは小さくなる。図１７（ａ）の例では、第２ホルマントＰ２の音声レベルは、第１ホルマントＰ１の音声レベルよりも小さくなる。また、第３ホルマントＰ３の音声レベルは、第２ホルマントＰ２の音声レベルよりもさらに小さくなる。

レベル検出部２２０は、マイク２１０で集音した音声ＶＯに含まれている雑音を示す雑音信号ＮＳの雑音信号レベル（以下、「雑音レベルＮＬＶ」という）を検出する。

変更量算出部２３０は、レベル検出部２２０が検出した雑音レベルＮＬＶに応じて、音声品質の改善対象である「特定音声信号ＯＢ」の音声レベルの調整を行う。

より具体的には、変更量算出部２３０は、雑音信号ＮＳの雑音レベルＮＬＶが大きくなるに伴って、特定音声信号ＯＢの音声レベルＯＬＶ（「特定音声信号レベルＯＬＶ」）の変更量Ｇを大きくする。また、音声レベルＯＬＶの変更量Ｇが大きくなるに伴って、音声レベルの総和である「音量」も大きくなる。

レベル変更部２４０は、変更量算出部２３０が大きくした音声レベルの変更量Ｇに基づいて、特定音声信号ＯＢに含まれているホルマントの音声レベルＯＬＶを変更する。これにより、特定音声信号ＯＢが示す音声の明瞭度を改善する。

例えば、図１７（ｂ）に示すようなスペクトラムであれば、第１ホルマントＰ１の音声レベルＯＬＶを小さくして、第２ホルマントＰ３および第３ホルマントＰ３それぞれの音声レベルＯＬＶを大きくする。

また、レベル変更部２４０は、音声レベルＯＬＶを変更した特定音声信号ＯＢである「ホルマント強調信号ＦＥ」を出力する。

上述した一般的な音声レベル調整装置２００は、話者ごとの声質の違いがあっても、音声ホルマントを強調と音量アップとを一律に行う、つまり、話者の声質に応じた調整を行わない。しかしながら、同じ雑音に対する音声の明瞭度は、個人ごと（例えば、男性と女性との間、大人と子供との間など）の声質などに応じて異なる。そのため、この音声レベル調整装置２００においては、声質によっては音声が聴き取りにくいものとなってしまったり、音質が不自然なものとなってしまったりするおそれがある。

また、一般的に、雑音を構成する周波数成分それぞれによる違いなどによって、特定音声信号ＯＢが雑音信号ＮＳによってマスキングされる周波数も異なり、音声の明瞭度も相対的に異なる。しかしながら、上述した音声レベル調整装置２００は、雑音レベルＮＬＶによって音声ホルマントを強調するため、雑音の種類に対応した音声レベルの変更を行わない。そのため、当該音声レベル調整装置２００においては、雑音信号を構成する周波数成分によって、音声が聴き取りにくいものとなってしまうおそれがある。

このような問題を回避するために、話者の声質や雑音に応じて音声の明瞭度を調整するための技術が考えられている（例えば、特許文献１参照。）。

特許文献１に開示された技術によれば、マイクが入力した音声を示す入力音声信号を、当該音声の声質に対応した低域と中域と高域との３つの周波数帯域に分割する。さらに、低域、中域および高域ごとの振幅制御特性に従って、低域、中域および高域それぞれにおける各出力音声レベルが最小可聴レベルと不快レベルとの間となるように設定する。さらに、特許文献１に開示された技術によれば、最小可聴レベルと不快レベルとの間で各出力音声レベルを設定する際に、低域、中域および高域ごとの雑音レベルに応じて、当該出力音声レベルそれぞれを調整する。
特開平０９−０６８９９７号公報

特許文献１に開示された技術においては、第１ホルマントＰ１〜第３ホルマントＰ３ごとの出力音声レベルがそれぞれ不快レベル以下となるように、第１ホルマントＰ１〜第３ホルマントＰ３の各音質を個別に改善するが、第１ホルマントＰ１〜第３ホルマントＰ３同士の間における音声レベルの相対的な大きさについては考慮されていない。そのため、音質の改善がそれぞれ個別に施された第１ホルマントＰ１〜第３ホルマントＰ３の出力音声レベルすべてを総和した音量が過度に大きい場合、改善後の音質の劣化により、ホルマントの波形のピーク部分が潰れることにより特定音声信号ＯＢがクリップする現象である「音割れ」が発生してしまうおそれがあるという問題点がある。音割れが発生した場合、音声品質を改善するための処理を施したにも関わらず、却って音声が聴き取りにくいものとなってしまう。

本発明は、上述した課題を解決する音声レベル調整装置、音声レベル調整方法およびプログラムを提供することを目的とする。

上記課題を解決するために、本発明の音声レベル調整装置は、音声を入力し、該音声のレベルに応じた音声信号を出力するマイクと、前記マイクが出力した音声信号を、特定音源が出力した音声を示す特定音声信号と、雑音を示す雑音信号とに分離してそれぞれ出力する信号分離部と、前記分離された特定音声信号に含まれる複数のホルマントそれぞれの特定音声信号レベルを検出する音声分析部と、前記ホルマントそれぞれの特定音声信号レベルがピークとなる周波数における前記雑音信号の雑音信号レベルを検出する雑音検出部と、前記検出された互いの特定音声信号レベルの差を示すホルマントレベル差と、該特定音声信号レベルを補正する際の基準となる標準音声レベルとの比較に基づいて、周波数が最も小さなホルマント以外のホルマントの特定音声信号レベルそれぞれを補正する標準ホルマント補正部と、前記補正されたホルマントの特定音声信号レベルそれぞれと該ホルマントに対応する周波数における雑音信号レベルそれぞれとのレベル差に基づいて、該補正されたホルマントそれぞれの特定音声信号レベルの変更量を算出するとともに、前記周波数が最も小さなホルマントの特定音声信号レベルと該周波数における雑音信号レベルとに基づいて、該周波数が最も小さなホルマントの特定音声信号レベルの変更量を算出する変更量算出部と、前記算出された変更量に基づいて前記ホルマントの特定音声信号レベルをそれぞれ変更し、該特定音声信号レベルが変更されたホルマントを含む前記特定音声信号を出力するレベル変更部とを有する。

上記課題を解決するために、本発明の音声レベル調整方法は、音声を入力し、該音声のレベルに応じた音声信号を出力する処理と、前記出力した音声信号を、特定音源が出力した音声を示す特定音声信号と、雑音を示す雑音信号とに分離してそれぞれ出力する処理と、前記分離された特定音声信号に含まれる複数のホルマントそれぞれの特定音声信号レベルを検出する処理と、前記ホルマントそれぞれの特定音声信号レベルがピークとなる周波数における前記雑音信号の雑音信号レベルを検出する処理と、前記検出された互いの特定音声信号レベルの差を示すホルマントレベル差と、該特定音声信号レベルを補正する際の基準となる標準音声レベルとの比較に基づいて、周波数が最も小さなホルマント以外のホルマントの特定音声信号レベルそれぞれを補正する処理と、前記補正されたホルマントの特定音声信号レベルそれぞれと該ホルマントに対応する周波数における雑音信号レベルそれぞれとのレベル差に基づいて、該補正されたホルマントそれぞれの特定音声信号レベルの変更量を算出するとともに、前記周波数が最も小さなホルマントの特定音声信号レベルと該周波数における雑音信号レベルとに基づいて、該周波数が最も小さなホルマントの特定音声信号レベルの変更量を算出する変更量算出処理と、前記算出された変更量に基づいて前記ホルマントの特定音声信号レベルをそれぞれ変更し、該特定音声信号レベルが変更されたホルマントを含む前記特定音声信号を出力するレベル変更処理とを有する。

また、コンピュータに実行させるプログラムであって、コンピュータに、音声を入力し、該音声のレベルに応じた音声信号を出力する手順と、前記出力した音声信号を、特定音源が出力した音声を示す特定音声信号と、雑音を示す雑音信号とに分離してそれぞれ出力する手順と、前記分離された特定音声信号に含まれる複数のホルマントそれぞれの特定音声信号レベルを検出する手順と、前記ホルマントそれぞれの特定音声信号レベルがピークとなる周波数における前記雑音信号の雑音信号レベルを検出する手順と、前記検出された互いの特定音声信号レベルの差を示すホルマントレベル差と、該特定音声信号レベルを補正する際の基準となる標準音声レベルとの比較に基づいて、周波数が最も小さなホルマント以外のホルマントの特定音声信号レベルそれぞれを補正する手順と、前記補正されたホルマントの特定音声信号レベルそれぞれと該ホルマントに対応する周波数における雑音信号レベルそれぞれとのレベル差に基づいて、該補正されたホルマントそれぞれの特定音声信号レベルの変更量を算出するとともに、前記周波数が最も小さなホルマントの特定音声信号レベルと該周波数における雑音信号レベルとに基づいて、該周波数が最も小さなホルマントの特定音声信号レベルの変更量を算出する変更量算出手順と、前記算出された変更量に基づいて前記ホルマントの特定音声信号レベルをそれぞれ変更し、該特定音声信号レベルが変更されたホルマントを含む前記特定音声信号を出力するレベル変更手順とを実行させる。

本発明によれば、入力した音声のレベルに応じて出力した音声信号を、特定音源が出力した音声を示す特定音声信号と、雑音を示す雑音信号とに分離してそれぞれ出力し、分離された特定音声信号に含まれる複数のホルマントそれぞれの特定音声信号レベルを検出し、ホルマントそれぞれの特定音声信号レベルがピークとなる周波数における雑音信号の雑音信号レベルを検出し、検出された互いの特定音声信号レベルの差を示すホルマントレベル差と、特定音声信号レベルを補正する際の基準となる標準音声レベルとの比較に基づいて、周波数が最も小さなホルマント以外のホルマントの特定音声信号レベルそれぞれを補正し、補正されたホルマントの特定音声信号レベルそれぞれとホルマントに対応する周波数における雑音信号レベルそれぞれとのレベル差に基づいて、補正されたホルマントそれぞれの特定音声信号レベルの変更量を算出するとともに、周波数が最も小さなホルマントの特定音声信号レベルと周波数における雑音信号レベルとに基づいて、周波数が最も小さなホルマントの特定音声信号レベルの変更量を算出し、算出された変更量に基づいてホルマントの特定音声信号レベルをそれぞれ変更し、特定音声信号レベルが変更されたホルマントを含む特定音声信号を出力する。

このような構成としたため、音声レベルの調整による音質の改善を施した際に、音割れが発生しない範囲で当該音質の改善を行うことができ、音声を聴き取り易くすることができる。

（実施形態１）
以下、本発明の実施形態１に従った音声レベル調整装置（音声レベル調整方法およびプログラムを含む）を説明する。

まず、実施形態１の音声レベル調整装置１の構成を説明する。

図1に示すように、音声レベル調整装置１は、マイク１１と、信号分離部１２と、音声分析部１３と、雑音分析部１４と、比較部１５と、変更量算出部１６と、レベル変更部１７とを有する。

マイク１１は、周囲から到来した音声ＶＯのレベルに応じて、当該音声ＶＯを音声信号ＳＶ（電気信号）へ変換し、該音声信号ＳＶを出力する。

マイク１１から出力された音声信号ＳＶには、特定音源ＳＲが出力した音声を示す特定音声信号ＯＢと、該特定音源ＳＲ以外の音源が出力した雑音を示す雑音信号ＮＳとが含まれている。なお、特定音声信号ＯＢは、音声レベル調整装置１によって行われる音声品質の改善対象となる。

なお、以下では、特定音源ＳＲは「話者」であり、音声品質の改善対象となる特定音声信号ＯＢが「話者が発声した声」を示す音声信号である場合を例に挙げて説明する。また、特定音声信号ＯＢには、第１ホルマントＰ１〜第３ホルマントＰ３の３つのホルマントが含まれている。

信号分離部１２は、所定のタイミングごとに、マイク１１が集音した音声ＶＯを示す音声信号ＳＶの音声レベルと、特定音声検出レベルＬｄとを比較する。

ここでいう「特定音声検出レベルＬｄ」とは、特定音源ＳＲ（この例では、話者）からの音声がマイク１１に到達したことを検出するための所定値である。

また、信号分離部１２は、比較の結果、音声信号ＳＶの音声レベルが特定音声検出レベルＬｄよりも大きい場合、該音声信号ＳＶから特定音声信号ＯＢを抽出し、当該特定音声信号ＯＢを音声分析部１３へ出力する。

ここで、音声信号ＶＯから特定音声信号ＯＢを抽出する方法については特に限定しない。

以下の説明例では、信号分離部１２は、特定音声検出レベルＬｄよりも大きな音声レベルを有する音声信号ＳＶから、当該音声信号ＳＶが入力される直前に集音された音声信号ＳＶ（つまり、特定音声検出レベルＬｄよりも小さな音声レベルの音声信号ＳＶ）を減算する。そして、信号分離部１２は、当該減算によって抽出された特定音声信号ＯＢを音声分析部１３へ出力する。

また、信号分離部１２は、特定音声信号ＯＢの抽出の際、特定音声検出レベルＬｄよりも大きな音声レベルの音声信号ＳＶから減算された音声信号ＳＶを、雑音信号ＮＳとして雑音分析部１４へ出力する。

音声分析部１３は、信号分離部１２から出力されてきた特定音声信号ＯＢのスペクトルにおいて、「特定音声信号レベルＯＬＶ」である第１ホルマントＰ１〜第３ホルマントＰ３の音声レベルＯＬＶ１〜ＯＬＶ３を検出する。

なお、以下では、第１ホルマントＰ１の音声レベルＯＬＶ１を「第１音声レベルＯＬＶ１」という。また、第２ホルマントＰ２の音声レベルＯＬＶ２を「第２音声レベルＯＬＶ２」といい、第３ホルマントＰ３の音声レベルＯＬＶ３を「第３音声レベルＯＬＶ３」という。

図２に示すように、音声分析部１３は、帯域分割部１３１と、音声レベル検出部１３２−１〜１３２−３とを有する。なお、音声レベル検出部１３２−１〜１３２−３の数は、周波数帯域Ｂ１〜Ｂ３の数と同じである。

帯域分割部１３１は、例えば、バンドパスフィルタ（Band-pass filter；BPF）で構成される。帯域分割部１３１は、信号分離部１２から出力されてきた特定音声信号ＯＢを、所定の帯域幅をそれぞれ有する周波数帯域Ｂ１〜Ｂ３に分割する。

図３に示すように、帯域分割部１３１によって分割された周波数帯域Ｂ１〜Ｂ３それぞれには、第１ホルマント周波数ｆ１〜第３ホルマント周波数ｆ３が含まれている。なお、周波数帯域Ｂ１〜Ｂ３の数は「３」に限らず、任意でよい。

また、帯域分割部１３１は、周波数帯域Ｂ１〜Ｂ３ごとに分割した特定音声信号ＯＢである「第１分割音声信号ＯＢ−１〜第３分割音声信号ＯＢ−３」を、音声レベル検出部１３２−１〜１３２−３へそれぞれ出力する。

より具体的には、帯域分割部１３１は、図４（ａ）に示す第１分割音声信号ＯＢ−１を音声レベル検出部１３２−１へ出力する。また、帯域分割部１３１は、図４（ｂ）に示す第２分割音声信号ＯＢ−２を音声レベル検出部１３２−２へ出力する。また、帯域分割部１３１は、図４（ｃ）に示す第３分割音声信号ＯＢ−３を音声レベル検出部１３２−３へ出力する。

さらに、帯域分割部１３１は、第１分割音声信号ＯＢ−１〜第３分割音声信号ＯＢ−３すべてをレベル変更部１７へ出力する。

音声レベル検出部１３２−１〜１３２−３それぞれは、図４（ａ）〜４（ｃ）に示した第１分割音声信号ＯＢ−１〜第３分割音声信号ＯＢ−３それぞれに含まれている第１ホルマントＰ１〜第３ホルマントＰ３の第１音声レベルＯＬＶ１〜第３音声レベルＯＬＶ３を検出する。なお、第１ホルマントＰ１〜第３ホルマントＰ３の第１音声レベルＯＬＶ１〜第３音声レベルＯＬＶ３の検出方法については特に限定しないが、ピークピッキングなどの一般的な検出方法でよい。

また、音声レベル検出部１３２−１〜１３２−３それぞれは、周波数帯域Ｂ１〜Ｂ３それぞれにて検出した第１音声レベルＯＬＶ１〜第３音声レベルＯＬＶ３を比較部１５へ出力する。

図１に示した雑音分析部１４は、信号分離部１２から出力されてきた雑音信号ＮＳのスペクトル（つまり、雑音を構成する周波数成分）について、第１ホルマント周波数ｆ１〜第３ホルマント周波数ｆ３それぞれにおける雑音信号ＮＳの雑音信号レベルＮＬＶ１〜ＮＬＶ３を検出する。

なお、以下では、第１ホルマント周波数ｆ１における雑音信号ＮＳの雑音信号レベルＮＬＶ１を「第１雑音レベルＮＬＶ１」という。また、第２ホルマント周波数ｆ２における雑音信号ＮＳの雑音信号レベルＮＬＶ２を「第２雑音レベルＮＬＶ２」といい、第３ホルマント周波数ｆ３における雑音信号ＮＳの雑音信号レベルＮＬＶ３を「第３雑音レベルＮＬＶ３」という。

図５に示すように、雑音分析部１４は、雑音帯域分割部１４１と、雑音レベル検出部１４２−１〜１４２−３とを有する。なお、雑音レベル検出部１４２−１〜１４２−３の数は、周波数帯域Ｂ１〜Ｂ３の数と同じである。

雑音帯域分割部１４１は、例えば、バンドパスフィルタ（Band-pass filter；BPF）で構成される。雑音帯域分割部１４１は、信号分離部１２からの雑音信号ＮＳを、所定の帯域幅をそれぞれ有する周波数帯域Ｂ１〜Ｂ３に分割する。なお、周波数帯域Ｂ１〜Ｂ３それぞれの帯域幅は、互いに同一でもよく、また、互いに異なっていてもよい。

雑音帯域分割部１４１は、周波数帯域Ｂ１〜Ｂ３それぞれに分割した雑音信号ＮＳである「第１分割雑音信号ＮＳ−１〜第３分割雑音信号ＮＳ−３」を、雑音レベル検出部１４２−１〜１４２−３へ出力する。

より具体的には、雑音帯域分割部１４１は、図６（ａ）に示す第１分割雑音信号ＮＳ−１を雑音レベル検出部１４２−１へ出力する。また、雑音帯域分割部１４１は、図６（ｂ）に示す第２分割雑音信号ＮＳ−２を雑音レベル検出部１４２−２へ出力する。また、雑音帯域分割部１４１は、図６（ｃ）に示す第３分割雑音信号ＮＳ−３を雑音レベル検出部１４２−３へ出力する。

図５に示した雑音レベル検出部１４２−１〜１４２−３それぞれは、雑音帯域分割部１４１からの第１分割雑音信号ＮＳ−１〜第３分割雑音信号ＮＳ−３それぞれについて、第１ホルマント周波数ｆ１〜第３ホルマント周波数ｆ３における雑音信号ＮＳの雑音レベル、つまり、図６（ａ）〜６（ｃ）に示した第１雑音レベルＮＬＶ１〜第３雑音レベルＮＬＶ３を検出する。

また、雑音レベル検出部１４２−１〜１４２−３それぞれは、検出した第１雑音レベルＮＬＶ１〜第３雑音レベルＮＬＶ３を比較部１５へ出力する。

比較部１５は、周波数帯域Ｂ１〜Ｂ３ごとに、第１音声レベルＯＬＶ１〜第３音声レベルＯＬＶ３それぞれと第１雑音レベルＮＬＶ１〜第３雑音レベルＮＬＶ３それぞれとの比較により、音声レベルＯＬＶ１〜ＯＬＶ３それぞれと雑音レベルＮＬＶ１〜ＮＬＶ３それぞれとの差分であるレベル差ＤＦ１〜ＤＦ３を算出する。また、比較部１５は、算出した第１レベル差ＤＦ１〜第３レベル差ＤＦ３を変更量算出部１６へ出力する。

なお、以下では、第１音声レベルＯＬＶ１と第１雑音レベルＮＬＶ１との差を「第１レベル差ＤＦ１」という。また、第２音声レベルＯＬＶ２と第２雑音レベルＮＬＶ２との差を「第２レベル差ＤＦ２」といい、第３音声レベルＯＬＶ３と第３雑音レベルＮＬＶ３との差を「第３レベル差ＤＦ３」という。

図７に示すように、比較部１５は、第１レベル比較部１５１−１、第２レベル比較部１５１−２および第３レベル比較部１５１−３を有する。

第１レベル比較部１５１−１〜第３レベル比較部１５１−３それぞれには、第１音声レベルＯＬＶ１〜第３音声レベルＯＬＶ３が音声レベル検出部１３２−１〜１３２−３それぞれから入力され、第１雑音レベルＮＬＶ１〜第３雑音レベルＮＬＶ３が雑音レベル検出部１４２−１〜１４２−３それぞれから入力される。

第１レベル比較部１５１−１〜第３レベル比較部１５１−３それぞれは、周波数帯域Ｂ１〜Ｂ３ごとに、「第１レベル差ＤＦ１〜第３レベル差ＤＦ３」を算出する。例えば、帯域レベル比較部１５１−１は、第１ホルマント周波数ｆ１において、第１音声レベルＯＬＶ１と第１雑音レベルＮＬＶ１とに基づいて、第１レベル差ＤＦ１を算出し、当該第１レベル差ＤＦ１を変更量算出部１６へ出力する。

なお、ここでいう第１レベル差ＤＦ１〜第３レベル差ＤＦ３は、第１音声レベルＯＬＶ１〜第３音声レベルＯＬＶ３それぞれから、第１雑音レベルＮＬＶ１〜第３雑音レベルＮＬＶ３それぞれを減じた各差分でもよい。

また、ここでいう第１レベル差ＤＦ１〜第３レベル差ＤＦ３は、第１雑音レベルＮＬＶ１〜第３雑音レベルＮＬＶ３それぞれに対する、第１音声レベルＯＬＶ１〜第３音声レベルＯＬＶ３それぞれの割合（例えば、第１音声レベルＯＬＶ１／第１雑音レベルＮＬＶ１など）の常用対数を所定倍したデシベル（ｄＢ）で表わした量などでもよい。

図１に示した変更量算出部１６は、「変更量算出処理」を実行する。図８に示すように、変更量算出部１６は、第１変更量算出部１６１−１と、第２変更量算出部１６１−２と、第３変更量算出部１６１−３とを有する。

第１変更量算出部１６１−１〜第３変更量算出部１６１−３それぞれは、第１レベル差ＤＦ１〜第３レベル差ＤＦ３と増減判別値Ｖｉｄとの比較に基づいて、第１ホルマントＰ１〜第３ホルマントＰ３が有する第１音声レベルＯＬＶ１〜第３音声レベルＯＬＶ３それぞれの「変更量Ｇ１〜Ｇ３」を算出する。

ここで、「増減判別値Ｖｉｄ」とは、変更量Ｇ１〜変更量Ｇ３それぞれの値を決定するための基準値である。

第１変更量算出部１６１−１は、図９（ａ）に例示するような第１変更量算出情報ＧＣＩ−１などを参照して、「変更量Ｇ１」を算出してもよい。

例えば、周波数帯域Ｂ１について、第１変更量算出部１６１−１は、第１レベル差ＤＦ１が小さい場合、変更量Ｇ１を大きくする。また、第１変更量算出部１６１−１は、第１レベル差ＤＦ１が大きくなるに伴って、変更量Ｇ１を小さくする。

また、第２変更量算出部１６１−２〜第３変更量算出部１６１−３それぞれは、図９（ｂ）に例示するような第２変更量算出情報ＧＣＩ−２などを参照して、「変更量Ｇ２〜Ｇ３」を算出してもよい。なお、第２変更量算出部１６１−２が参照する変更量算出情報と、第３変更量算出部１６１−３が参照する変更量算出情報とは、互いに異なる内容を有する情報でもよい。

図１０に示すように、「音声レベルＯＬＶ１〜ＯＬＶ３の変更量Ｇ１〜Ｇ３」とは、例えば、特定音声信号ＯＢのゲインの変更量である。以下では、第１ホルマントＰ１における変更量Ｇ１を「第１変更量Ｇ１」という。また、第２ホルマントＰ２における変更量Ｇ２を「第２変更量Ｇ２」といい、第３ホルマントＰ３における変更量Ｇ３を「第３変更量Ｇ３」という。

例えば、周波数帯域Ｂ２について、第２レベル差ＤＦ２の値が５ｄＢである場合、第２変更量算出部１６１−２は第２変更量Ｇ２の値（図９（ｂ）の例では、「−１４ｄＢ」）を相対的に小さくする。また、例えば、第２レベル差ＤＦ２の値が０ｄＢである場合、第２変更量算出部１６１−２は第２変更量Ｇ２の値（図９（ｂ）の例では、「−４ｄＢ」）を相対的に大きくする。

また、第２変更量算出部１６１−２または第３変更量算出部１６１−３（「符号決定部」）は、「符号決定処理」の実行により、第２レベル差ＤＦ２または第３レベル差ＤＦ３と、増減判別値Ｖｉｄとを比較した結果に基づいて、第２ホルマントＰ２の第２音声レベルＯＬＶ２または第３ホルマントＰ３の第３音声レベルＯＬＶ３それぞれを増大させるか、または、減少させるかを決定する。

ここでは、上述した「増減判別値Ｖｉｄ」は、第２ホルマントＰ２または第３ホルマントＰ３それぞれを増大させるか、それとも、減少させるかを判別するための基準値としての役割を果たす。

第２変更量算出部１６１−２または第３変更量算出部１６１−３は、レベル変更部１７が、第２変更量Ｇ２または第３変更量Ｇ３を、第２音声レベルＯＬＶ２または第３音声レベルＯＬＶ３に加算するか減算するかを示す符号（プラスまたはマイナスのどちらか一方）を決定する。以下では、第２変更量Ｇ２についての加減を示す符号を「第２符号ＳＧＮ２」といい、第３変更量Ｇ３についての加減を示す符号を「第３符号ＳＧＮ３」という。

例えば、周波数帯域Ｂ２について、基準とする増減判別値Ｖｉｄが「６ｄＢ」であるとする。なお、「６ｄＢ」である場合とは、第２音声レベルＯＬＶ２の値が第２雑音レベルＮＬＶ２の値のおよそ２倍である場合である。第２変更量算出部１６１−２は、第２レベル差ＤＦ２が増減判別値Ｖｉｄ（６ｄＢ）よりも大きい際には、レベル変更部１７が第２ホルマントＰ２を増大させるように、第２符号ＳＧＮ２をプラスに決定する。

また、第２変更量算出部１６１−２は、第２レベル差ＤＦ２が増減判別値Ｖｉｄ（６ｄＢ）以下である場合、レベル変更部１７が第２ホルマントＰ２を減少させるように、第２符号ＳＧＮ２をマイナスに決定する。

また、この例では、第１変更量算出部１６１−１（「符号決定部」）は、「符号決定処理」において、第１ホルマントＰ１の第１音声レベルＯＬＶ１については「減少」させるように決定する。つまり、第１変更量Ｇ１についての「第１符号ＳＧＮ１」をマイナスに設定する。これは、特定音声信号ＯＢが示す特定音源ＳＲからの音声の明瞭度を向上させるためである。

音量算出部１６２は、第１音声レベルＯＬＶ１〜第３音声レベルＯＬＶ３と、第１符号ＳＧＮ１〜第３符号ＳＧＮ３を含めた第１変更量Ｇ１〜第３変更量Ｇ３との総和を算出することにより、周波数帯域Ｂ１〜Ｂ３全体における音声レベルである「音量ＶＬ」を算出する。

なお、音量算出部１６２が算出した音量ＶＬが過度に大きい場合（例えば、最大音量の上限値を超過した場合）、特定音声信号ＯＢ再生時の音質が劣化して、却って聴き取りにくくなってしまう「音割れ」のおそれがある。音割れが発生した場合には、ホルマントの波形のピーク部分が潰れた状態となってしまうため、特定音声信号ＯＢのクリップが発生してしまう。

音割れを回避するために、音量算出部１６２は、第１変更量Ｇ１〜第３変更量Ｇ３を用いて第１音声レベルＯＬＶ１〜第３音声レベルＯＬＶ３を変更する際に、当該変更による第１音声レベルＯＬＶ１〜第３音声レベルＯＬＶ３全体のバランスが好適となるよう、音量ＶＬを調整する。

図１に示したレベル変更部１７は、「レベル変更処理」を実行する。図１１に示すように、レベル変更部１７は、第１変更部１７１−１〜第３変更部１７１−３と、音声重畳部１７２とを有する。

第１変更部１７１−１〜第３変更部１７１−３は、変更量算出部１６が算出した第１変更量Ｇ１〜第３変更量Ｇ３と第１符号ＳＧＮ１〜第３符号ＳＧＮ３とに基づいて、音声分析部１３からの第１分割音声信号ＯＢ−１〜第３分割音声信号ＯＢ−３それぞれに含まれている第１ホルマントＰ１〜第３ホルマントＰ３を強調するためのホルマント強調処理を施す。

ここでいう「ホルマント強調処理」とは、第１ホルマントＰ１〜第３ホルマントＰ３の第１音声レベルＯＬＶ１〜第３音声レベルＯＬＶ３ごとに、第１符号ＳＧＮ１〜第３符号ＳＧＮ３に従って、第１変更量Ｇ１〜第３変更量Ｇ３それぞれを加算または減算する処理を指す。これにより、第１音声レベルＯＬＶ１〜第３音声レベルＯＬＶ３が変更される。

音声重畳部１７２は、第１変更量Ｇ１〜第３変更量Ｇ３それぞれを用いて第１音声レベルＯＬＶ１〜第３音声レベルＯＬＶ３が変更された第１分割音声信号ＯＢ−１〜第３分割音声信号ＯＢ−３すべてを重畳する。

当該重畳により、音声重畳部１７２は、分割されていた周波数帯域Ｂ１〜Ｂ３を結合し、音声品質が改善された特定音声信号ＯＢを再構成する。また、音声重畳部１７２は、再構成された特定音声信号ＯＢを、「ホルマント強調信号ＦＥ」として外部へ出力する。

なお、第１ホルマントＰ１〜第３ホルマントＰ３の第１音声レベルＯＬＶ１〜第３音声レベルＯＬＶ３を第１変更部１７１−１〜第３変更部１７１−３が変更する際の基本動作は以下の通りである。

第１変更部１７１−１は、第１ホルマントＰ１については、第１符号ＳＧＮ１（符号はマイナス）に従って、第１変更量Ｇ１だけ第１音声レベルＯＬＶ１を「下げる」動作を行う。

つまり、レベル変更部１７は、第１ホルマントＰ１を「減少させる」動作を行う。

一方、第２変更部１７１−２は、第２変更量Ｇ２および第２符号ＳＧＮ２に従って、第２ホルマントＰ２の第２音声レベルＯＬＶ２を「上げる」または「下げる」動作を行う。

また、第２変更部１７１−２と同様に、第３変更部１７１−３も、第３変更量Ｇ３および第３符号ＳＧＮ３に従って、第３ホルマントＰ３の第３音声レベルＯＬＶ３を「上げる」または「下げる」動作を行う。

つまり、第２変更部１７１−２または第３変更部１７１−３は、第２ホルマントＰ２または第３ホルマントＰ３それぞれについて、「増大または減少」のどちらか一方を行う。

例えば、第２符号ＳＧＮ２が「マイナス」である場合、第２変更部１７１−２は、第２変更量Ｇ２だけ第２ホルマントＰ２を「減少」させる。

なお、第２変更量算出部１６１−２は、第２レベル差ＤＦ２が増減判別値Ｖｉｄ以下の際において、第２レベル差ＤＦ２の値が相対的に小さい場合、第２変更量Ｇ２の値を大きくする。この場合には、第２変更部１７１−２が第２ホルマントＰ２を減少させる量も相対的に大きくなる。また、第２変更量算出部１６１−２は、第２レベル差ＤＦ２の値が大きい場合、第２変更量Ｇ２の値を小さくする。この場合、第２変更部１７１−２が第２ホルマントＰ２を減少させる量も相対的に小さくなる。

つぎに、上記構成を有する音声レベル調整装置１が、特定音声信号ＯＢと雑音信号ＮＳとの比較に基づいて、当該特定音声信号ＯＢの音声レベルを変更する動作を説明する。

信号分離部１２は、所定のタイミングごとに、マイク１１から出力されてきた音声信号ＳＶの音声レベルと、特定音声検出レベルＬｄとを比較する。

当該比較の結果、音声信号ＳＶの音声レベルが特定音声検出レベルＬｄよりも大きい場合、図１２に示すステップ３０１にて、信号分離部１２は、該音声信号ＳＶから特定音声信号ＯＢを抽出する。例えば、信号分離部１２は、特定音声検出レベルＬｄよりも音声レベルが大きな音声信号ＳＶから、当該音声信号ＳＶを入力する直前の音声信号ＳＶを減算することにより、特定音声信号ＯＢを抽出する。

そして、信号分離部１２は、特定音声信号ＯＢを音声分析部１３へ出力する。

また、信号分離部１２は、上述した「直前の音声信号ＳＶ」を、雑音信号ＮＳとして雑音分析部１４へ出力する。

音声分析部１３の帯域分割部１３１は、ステップ３０２にて、信号分離部１２からの図３に示した特定音声信号ＯＢを、図４（ａ）〜４（ｃ）に示した第１ホルマントＰ１、第２ホルマントＰ２および第３ホルマントＰ３それぞれを含む第１分割音声信号ＯＢ−１〜第３分割音声信号ＯＢ−３に分割する。

音声レベル検出部１３２−１〜１３２−３それぞれは、ステップ３０４にて、第１音声レベルＯＬＶ１〜第３音声レベルＯＬＶ３をそれぞれ検出する。

また、雑音分析部１４の雑音帯域分割部１４１は、ステップ３０３にて、信号分離部１２からの図３に示した雑音信号ＮＳを、図６（ａ）〜６（ｃ）に示した第１分割雑音信号ＮＳ−１〜第３分割雑音信号ＮＳ−３に分割する。

雑音レベル検出部１４２−１〜１４２−３それぞれは、ステップ３０５にて、第１雑音レベルＮＬＶ１〜第３雑音レベルＮＬＶ３をそれぞれ検出する。

比較部１５の第１レベル比較部１５１−１〜第３レベル比較部１５３−１それぞれは、ステップ３０６にて、第１レベル差ＤＦ１〜第３レベル差ＤＦ３を算出し、変更量算出部１６へ出力する。

図６（ａ）および６（ｂ）に示した例では、第１ホルマント周波数ｆ１における第１雑音レベルＮＬＶ１が、第２ホルマント周波数ｆ２における第２雑音レベルＮＬＶ２よりも大きな状態にある。

第１ホルマントＰ１の第１音声レベルＯＬＶ１が、第２ホルマントＰ２の第２音声レベルＯＬＶ２、第３ホルマントＰ３の第３音声レベルＯＬＶ３よりもかなり大きい。また、周波数帯域Ｂ１における雑音信号ＮＳの第１雑音レベルＮＬＶ１も大きい。

そのため、図３に示した周波数帯域Ｂ１では、図４（ａ）に示した第１音声レベルＯＬＶ１と、図６（ａ）に示した第１雑音レベルＮＬＶ１との間の第１レベル差ＤＦ１が小さくなる。

この場合、第１変更量算出部１６１−１は、図１２に示したステップ３０７にて、第１音声レベルＯＬＶ１の変更量である第１変更量Ｇ１を相対的に大きくする。なお、第１変更量算出部１６１−１は、図９（ａ）に示した第１変更量算出情報ＧＣＩ−１に基づいて第１変更量Ｇ１を算出してもよい。

また、第１変更量算出部１６１−１（符号決定部）は、ステップ３０８および３０９にて、第１ホルマントＰ１〜第３ホルマントＰ３のうちでホルマント周波数が最も小さな第１ホルマントＰ１については第１音声レベルＯＬＶ１を減少させるよう、第１符号ＳＧＮ１を「マイナス」に決定する。

この場合、図１０に示したように、第１変更部１７１−１は、ステップ３１３にて、第１ホルマントＰ１の第１音声レベルＯＬＶ１を、大きく、第１符号ＳＧＮ１に従って下げる。

一方、図３に示した周波数帯域Ｂ２については、図４（ｂ）に示した第２音声レベルＯＬＶ２と、図６（ｂ）に示した第２雑音レベルＮＬＶ２との間の第２レベル差ＤＦ２はかなり大きい。

第２レベル差ＤＦ２が増減判別値Ｖｉｄ（図９（ｂ）の例では「６ｄＢ」）よりも大きい場合、ステップ３０７にて、第２変更量算出部１６１−２は、第２レベル差ＤＦ２が大きくなるに伴って、第２変更量Ｇ２を大きくする。第２変更量算出部１６１−２は、例えば、図９（ｂ）に示した第２変更量算出情報ＧＣＩ−２に基づいて第２変更量Ｇ２を算出してもよい。なお、第２レベル差ＤＦ２は第３レベル差ＤＦ３よりも小さいため、第２変更量Ｇ２は第３変更量Ｇ３よりも小さくなる。

ステップ３１０にて当該第２レベル差ＤＦ２が増減判別値Ｖｉｄよりも大きい場合、第２変更量算出部１６１−２（符号決定部）は、ステップ３１１にて、第２ホルマントＰ２の第２音声レベルＯＬＶ２を増大させるよう、第２符号ＳＧＮ２を「プラス」に決定する。

そのため、図９に示した例では、第２変更部１７１−２は、ステップ３１３にて、第２ホルマントＰ２の第２音声レベルＯＬＶ２を、第３ホルマントＰ３の第３変更量Ｇ３よりも小さく、第２符号ＳＧＮ２に従って上げる。

また、図３に示した周波数帯域Ｂ３については、図４（ｃ）に示した第３音声レベルＯＬＶ３と、図６（ｃ）に示した第３雑音レベルＮＬＶ３との間の第３レベル差ＤＦ３が大きい。

ステップ３１０にて当該第３レベル差ＤＦ３が増減判別値Ｖｉｄよりも大きい場合、第３変更量算出部１６１−３（符号決定部）は、ステップ３１１にて、第３ホルマントＰ３の第３音声レベルＯＬＶ３を増大させるよう、第３符号ＳＧＮ３を「プラス」に決定する。

また、第３レベル差ＤＦ３が増減判別値Ｖｉｄ（図９（ｂ）の例では「６ｄＢ」）よりも大きい場合、第３変更量算出部１６１−３は、第３レベル差ＤＦ３が大きくなるに伴って、第３変更量Ｇ３を大きくする。第３レベル差ＤＦ３は第２レベル差ＤＦ２よりも大きいため、第３変更量Ｇ３は第２変更量Ｇ２よりも大きくなる。

そのため、図１０に示した例では、第３変更部１７１−３は、図１２に示したステップ３１３にて、第３ホルマントＰ３の第３音声レベルＯＬＶ３を、第２ホルマントＰ２の第２変更量Ｇ２よりも大きく、第３符号ＳＧＮ３に従って上げる。

さらに、ステップ３１４にて、音声重畳部１７２は、第１変更部１７１−１〜第３変更部１７１−３により第１音声レベルＯＬＶ１〜第３音声レベルＯＬＶ３がそれぞれ変更された第１分割音声信号ＯＢ−１〜第３分割音声信号ＯＢ−３すべてを重畳する。

そして、音声重畳部１７２は、重畳によって構成したホルマント強調信号ＦＥを外部へ出力する。該ホルマント強調信号ＦＥは、例えば、スピーカなどによって放音される。以上で、音声レベル調整装置１が、特定音声信号ＯＢと雑音信号ＮＳとの比較に基づいて、当該特定音声信号ＯＢの音声レベルを変更する際の一連の動作が終了する。

また、図１３（ａ）に示した例では、点線で表わした雑音信号ＮＳのスペクトラムにおいて、第１ホルマント周波数ｆ１における第１雑音レベルＮＬＶ１が、第２ホルマント周波数ｆ２における第２雑音レベルＮＬＶ２よりも小さな状態にある。

また、図１３（ａ）に示した第１ホルマントＰ１の第１音声レベルＯＬＶ１は、第２ホルマントＰ２の第２音声レベルＯＬＶ２または第３ホルマントＰ３の第３音声レベルＯＬＶ３それぞれよりも大きい。

この場合、第１ホルマント周波数ｆ１において、第１音声レベルＯＬＶ１と第１雑音レベルＮＬＶ１との第１レベル差ＤＦ１が大きくなっている。

この場合、図１３（ｂ）に示すように音声の明瞭度が改善されるよう、第１変更量算出部１６１−１は、図１２に示したステップ３０７にて、第１ホルマントＰ１の音声レベルについての第１変更量Ｇ１が小さな値となるように、当該第１変更量Ｇ１を算出する。第１変更量算出部１６１−１は、例えば、図９（ａ）に示した第１変更量算出情報ＧＣＩ−１に基づいて第１変更量Ｇ１を算出してもよい。

また、第１変更量算出部１６１−１（符号決定部）は、ステップ３０８および３０９にて、第１ホルマントＰ１については第１音声レベルＯＬＶ１を減少させるよう、第１符号ＳＧＮ１を「マイナス」に決定する。

そして、ステップ３１３にて、第１変更部１７１−１は、第１音声レベルＯＬＶ１を、第１変更量算出部１６１−１が算出した第１変更量Ｇ１に基づいてわずかに、第１符号ＳＧＮ１に従って下げる。

また、周波数帯域Ｂ２における第２ホルマントＰ２については、第２音声レベルＯＬＶ２と第２雑音レベルＮＬＶ２との第２レベル差ＤＦ２が小さくなる。

ステップ３１０にて当該第２レベル差ＤＦ２が増減判別値Ｖｉｄ以下である場合、第２変更量算出部１６１−２（符号決定部）は、ステップ３１２にて、第２音声レベルＯＬＶ２を減少させるよう、第２符号ＳＧＮ２を「マイナス」に決定する。

そのため、図１３（ｂ）に示すように、第２変更部１７１−２は、ステップ３１３にて、第２ホルマントＰ２の音声レベルを大きく、第２符号ＳＧＮ２に従って下げる。

また、周波数帯域Ｂ３においては、第３音声レベルＯＬＶ３と、第３雑音レベルＮＬＶ３との間の第３レベル差ＤＦ３が大きい。ステップ３１０にて当該第３レベル差ＤＦ３が増減判別値Ｖｉｄよりも大きい場合、第３変更量算出部１６１−３（符号決定部）は、ステップ３１１にて、第３音声レベルＯＬＶ３を増大させるよう、第３符号ＳＧＮ３を「プラス」に決定する。

また、第３レベル差ＤＦ３が増減判別値Ｖｉｄよりも大きい場合、第３変更量算出部１６１−３は、第３レベル差ＤＦ３が大きくなるに伴って第３変更量Ｇ３を大きくするように設定する。

そのため、図１３（ｂ）に示すように、第１変更部１７１−３は、ステップ３１３にて、第３音声レベルＯＬＶ３を、大きく、第３符号ＳＧＮ３に従って上げる。

さらに、ステップ３１４にて、音声重畳部１７２は、第１音声レベルＯＬＶ１〜第３音声レベルＯＬＶ３が変更された第１分割音声信号ＯＢ−１〜第３分割音声信号ＯＢ−３すべてを重畳し、該重畳により構成したホルマント強調信号ＦＥを外部へ出力する。

以上説明したように、本発明の実施形態１によれば、音声レベル調整装置１は、特定音声信号ＯＢを、第１ホルマントＰ１〜第３ホルマントＰ３をそれぞれ含む周波数領域Ｂ１〜Ｂ３に分割する。そして、分割された周波数領域Ｂ１〜Ｂ３ごとに、第１ホルマントＰ１〜第３ホルマントＰ３それぞれの音声レベルＯＬＶ１〜ＯＬＶ３と、第１ホルマント周波数ｆ１〜第３ホルマント周波数ｆ３それぞれにおける雑音レベルＮＬＶ１〜ＮＬＶ３とを比較する。そして、当該比較に基づいて算出したレベル差ＤＦ１〜ＤＦ３に応じて、特定音声信号ＯＢ内の第１ホルマントＰ１〜第３ホルマントＰ３の減少または増大と、当該減少または増大を行う際の変更量Ｇ１〜Ｇ３を制御する。

ここで、一般的に、話者ごとの声質によって、第１ホルマントＰ１の第１音声レベルＯＬＶ１に対する第２ホルマントＰ２の第２音声レベルＯＬＶ２の割合は異なる。

第１音声レベルＯＬＶ１に対して第２音声レベルＯＬＶ２が相対的に小さい場合、つまり、第１ホルマントＰ１に対して第２ホルマントＰ２が弱い声の場合、レベル変更部１７は、第２ホルマントＰ２をより大きく強調する。その理由は、このような状況下では、音声レベルＯＬＶと雑音レベルＮＬＶとの間のレベル差ＤＦが小さくなり易いことが想定されるためである。

一方、第１音声レベルＯＬＶ１に対して第２音声レベルＯＬＶ２が相対的に大きい場合、つまり、第１ホルマントＰ１に対して第２ホルマントＰ２が相対的に強い声の場合、第２ホルマントＰ２をより小さく強調する。

これにより、話者それぞれの声質により特定音声信号ＯＢのスペクトルが異なる場合でも、当該声質の差異に応じて、特定音声信号ＯＢの音声レベルを調整することが可能となる。つまり、話者の声質に応じて、適切な音声の明瞭度を得ることが可能となる。
（実施形態２）
一般的に、特定音声信号ＯＢの音声レベルＯＬＶと雑音信号ＮＳの雑音レベルＮＬＶとの間のレベル差ＤＦが大きい周波数帯域では、特定音源ＳＲ（この例では、話者）から発生した音声がその周囲の雑音によってマスキングされにくい。

ここでいう「マスキング」とは、ある音声（例えば、特定音源ＳＲからの音声）の最小可聴値が、他の音声（例えば、周囲の雑音）のために上昇し、聴き取りにくくなる現象のことを指す。

一方、特定音声信号ＯＢの音声レベルＯＬＶと雑音信号ＮＳの雑音レベルＮＬＶとのレベル差ＤＦが小さい周波数帯域では、特定音源ＳＲ（この例では、話者）から発生した音声がその周囲の雑音によってマスキングされ易くなる。

以下では、上述したマスキングが発生した場合でも、音声の明瞭度を改善することが可能な実施形態２の音声レベル調整装置１Ａについて説明する。

実施形態２の音声レベル調整装置１Ａの構成は、実施形態１において図１に示した音声レベル調整装置１が有する構成と基本的に同じである。

ただし、図１４に示すように、音声レベル調整装置１Ａは、図１に示した構成に加えて、標準ホルマント補正部１８を有する。

標準ホルマント補正部１８は、音声分析部１３と比較部１５との間に設けられている。実施形態２の音声分析部１３は、第１音声レベルＯＬＶ１〜第３音声レベルＯＬＶ３を標準ホルマント補正部１８へ出力する。また、実施形態２の音声分析部１３は、第１音声レベルＯＬＶ１を比較部１５へ出力する。

標準ホルマント補正部１８は、「標準ホルマント補正処理」を実行する。図１５に示すように、標準ホルマント補正部１８は、ホルマント比較部１８１と、補正判別部１８２と、補正量算出部１８３−１〜１８３−２と、補正部１８４−１〜１８４−２とを有する。

ホルマント比較部１８１は、音声分析部１３からの第１音声レベルＯＬＶ１〜第３音声レベルＯＬＶ３同士を比較することにより、「第１ホルマントレベル差ＦＤＦ１２〜第２ホルマントレベル差ＦＤＦ１３」を算出する。

そして、ホルマント比較部１８１は、第１ホルマントレベル差ＦＤＦ１２〜第２ホルマントレベル差ＦＤＦ１３を補正判別部１８２へ出力する。

ここでいう「第１ホルマントレベル差ＦＤＦ１２〜第２ホルマントレベル差ＦＤＦ１３」は、ホルマント同士の音声レベルの差を示す量であればよい。例えば、第１ホルマントレベル差ＦＤＦ１２または第２ホルマントレベル差ＦＤＦ１３は、第１音声レベルＯＬＶ１に対する、第２音声レベルＯＬＶ２または第３音声レベルＯＬＶ３それぞれの割合（例えば、第１音声レベルＯＬＶ１／第２音声レベルＯＬＶ２など）の常用対数を所定倍したデシベル（ｄＢ）で表わした量などでもよい。

補正判別部１８２は、ホルマント比較部１８１からの第１ホルマントレベル差ＦＤＦ１２〜第２ホルマントレベル差ＦＤＦ１３と、「標準音声レベルＳＴ」とを比較する。

ここで、「標準音声レベルＳＴ」とは、第２ホルマントＰ２および第３ホルマントＰ３を補正する際の基準となる標準ホルマントの音声レベルである。

補正量算出部１８３−１〜１８３−２は、補正判別部１８２による比較の結果に基づいて、第２ホルマントＰ２の第２音声レベルＯＬＶ２および第３ホルマントＰ３の第３音声レベルＯＬＶ３それぞれの補正量である「第１補正量ＲＥＶ１〜第２補正量ＲＥＶ２」を算出する。

補正判別部１８２による比較の結果、第１ホルマントレベル差ＦＤＦ１２または第２ホルマントレベル差ＦＤＦ１３が標準音声レベルＳＴ以下である場合、補正量算出部１８３−１または１８３−２は、その周波数帯域Ｂ２またはＢ３に含まれるホルマントの音声レベルを下げるように、第１補正量ＲＥＶ１または第２補正量ＲＥＶ２を算出する。

例えば、補正量算出部１８３−１は、第１ホルマントレベル差ＦＤＦ１２が標準音声レベルＳＴよりも大きい場合、つまり、第２ホルマントＰ２の第１ホルマントＰ１に対する割合が相対的に大きい場合、第２ホルマントＰ２の第２音声レベルＯＬＶ２を下げるように、第１補正量ＲＥＶ１の値を算出する。この場合、補正部１８４−１は、第２音声レベルＯＬＶ２を第１補正量ＲＥＶ１だけ下げる。そして、補正部１８４−１は、第１補正量ＲＥＶ１を用いて補正した第２補正音声信号ＲＯＢ−２を比較部１５へ出力する。

また、補正判別部１８２による比較の結果、第１ホルマントレベル差ＦＤＦ１２または第２ホルマントレベル差ＦＤＦ１３が標準音声レベルＳＴ以下である場合、補正量算出部１８３−１または１８３−２は、その周波数帯域Ｂ２またはＢ３に含まれるホルマントの音声レベルを上げるように、第１補正量ＲＥＶ１または第２補正量ＲＥＶ２を算出する。

この場合、補正部１８４−１は、第２ホルマントＰ２の第２音声レベルＯＬＶ２を、補正量算出部１８３−１が算出した第１補正量ＲＥＶ１だけ上げる。そして、補正部１８４−１は、第１補正量ＲＥＶ１を用いて補正した第２補正音声信号ＲＯＢ−２を比較部１５へ出力する。

標準ホルマント補正部１８が音声レベルを補正した後の実施形態２の音声レベル調整装置１Ａの動作は、実施形態１の音声レベル調整装置１が行う動作と基本的に同じである。

比較部１５には、音声分析部１３からの第１音声レベルＯＬＶ１と、標準ホルマント補正部１８からの第２補正音声信号ＲＯＢ−２〜第３補正音声信号ＲＯＢ−３それぞれの第２補正音声レベルＲＬＶ２〜第３補正音声レベルＲＬＶ３と、雑音分析部１４からの第１雑音レベルＮＬＶ１〜第３雑音レベルＮＬＶ３とが入力される。

比較部１５は、第１音声レベルＯＬＶ１および第２補正音声レベルＲＬＶ２〜第３補正音声レベルＲＬＶ３と、第１雑音レベルＮＬＶ１〜第３雑音レベルＮＬＶ３とを比較する。

当該比較により、比較部１５の第１レベル比較部１５１−１〜第３レベル比較部１５１−３は、第１補正レベル差ＲＤＦ１〜第３補正レベル差ＲＤＦ３を検出する。例えば、第１レベル比較部１５１−１は、第１音声レベルＯＬＶ１と第１雑音レベルＮＬＶ１との間の第１補正レベル差ＲＤＦ１を検出する。また、例えば、第２レベル比較部１５１−２は、第２補正音声レベルＲＬＶ２と第２雑音レベルＮＬＶ２との間の第２補正レベル差ＲＤＦ２を検出する。

変更量算出部１６は、比較部１５が検出した第１補正レベル差ＲＤＦ１〜第３補正レベル差ＲＤＦ３と増減判別値Ｖｉｄとの比較に基づいて、第１変更量Ｇ１〜第３変更量Ｇ３と第１符号ＳＧＮ１〜第３符号ＳＧＮ３とを算出する。

レベル変更部１７は、変更量算出部１６が算出した第１変更量Ｇ１〜第３変更量Ｇ３と第１符号ＳＧＮ１〜第３符号ＳＧＮ３とを用いて、第１補正音声信号ＲＯＢ−２〜第２補正音声信号ＲＯＢ−３の音声レベルを変更する。そして、レベル変更部１７は、当該変更が施された第１補正音声信号ＲＯＢ−２〜第２補正音声信号ＲＯＢ−３の重畳により構成されたホルマント強調信号ＦＥを出力する。

以上説明したように、実施形態２によれば、レベル変更部１７によるホルマント強調処理に先立ち、第１ホルマントＰ１〜第３ホルマントＰ３の第１音声レベルＯＬＶ１〜第３音声レベルＯＬＶ３同士の比較に基づいて、第１ホルマントＰ１〜第３ホルマントＰ３の補正を行う。

そのため、雑音レベルが小さい静かな環境において、音声の個人差によって明瞭度がそれぞれ異なる場合でも、標準的なホルマントの音声レベルに補正することで一定の明瞭度を得ることが可能となる。

また、実施形態２によれば、補正音声レベルＲＬＶと雑音レベルＮＬＶとの補正レベル差ＲＤＦに対応して、特定音声信号ＯＢ内の第１ホルマントＰ１〜第３ホルマントＰ３の音声レベルの変更量Ｇ１〜Ｇ３を算出する。

補正レベル差ＲＤＦが大きい場合、特定音源ＳＲからの音声は周囲の雑音によってマスキングされにくい。そのため、変更量算出部１６は、マスキングされにくい周波数帯域に含まれているホルマントの補正音声レベルＲＬＶについて、その変更量Ｇを大きくする。つまり、補正音声レベルＲＬＶを強調する程度を大きくする。

また、補正レベル差ＲＤＦが小さい場合、特定音源ＳＲからの音声は周囲の雑音によってマスキングされ易い。この場合、マスキングされ易い周波数帯域に含まれているホルマントの補正音声レベルＲＬＶについて、その変更量Ｇを小さくする。つまり、補正音声レベルＲＬＶを強調する程度を小さくする。

これにより、特定音源ＳＲからの音声が雑音によってマスキングされにくい周波数帯域において、特定音声信号ＯＢに含まれるホルマントの強調が行われる。そのため、マイク１１によって集音された雑音を示す雑音信号ＮＳのスペクトルが異なる場合でも、適切な音声の明瞭度を得ることが可能となる。

また、音割れが発生しない範囲で当該音質の改善を行うことができるため、音声を聴き取り易くすることができる。

なお、本発明の要旨を逸脱しない範囲で各種の変形が可能である。

なお、本発明においては、音声レベル調整装置１内の処理は上述の専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを音声レベル調整装置１にて読取可能な記録媒体に記録し、この記録媒体に記録されたプログラムを音声レベル調整装置１に読み込ませ、実行するものであってもよい。音声レベル調整装置１にて読取可能な記録媒体とは、フロッピーディスク（登録商標）、光磁気ディスク、ＤＶＤ、ＣＤなどの移設可能な記録媒体の他、音声レベル調整装置１に内蔵されたＨＤＤ等を指す。この記録媒体に記録されたプログラムは、例えば、音声レベル調整装置１が有する信号分離部１２、音声分析部１３、雑音分析部１４、比較部１５、変更量算出部１６、レベル変更部１７および標準ホルマント補正部１８の制御によって、上述したものと同様の処理が行われる。

ここで、音声レベル調整装置１が有する信号分離部１２、音声分析部１３、雑音分析部１４、比較部１５、変更量算出部１６、レベル変更部１７および標準ホルマント補正部１８は、プログラムが記録された記録媒体から読み込まれたプログラムを実行するコンピュータとして動作するものである。

本発明の実施形態１に従った音声レベル調整装置の構成を示す図である。図１に示した音声分析部の構成を示す図である。特定音声信号または雑音信号それぞれについての、音声レベルと周波数との関係の第１の例を示す図である。（ａ）図３に示した特定音声信号を帯域分割したときに出力される分割音声信号の第１の例を示す図である。（ｂ）図３に示した特定音声信号を帯域分割したときに出力される分割音声信号の第２の例を示す図である。（ｃ）図３に示した特定音声信号を帯域分割したときに出力される分割音声信号の第３の例を示す図である。図１に示した雑音分析部の構成を示す図である。（ａ）図３に示した雑音信号を帯域分割したときに出力される分割雑音信号の第１の例を示す図である。（ｂ）図３に示した雑音信号を帯域分割したときに出力される分割雑音信号の第２の例を示す図である。（ｃ）図３に示した雑音信号を帯域分割したときに出力される分割雑音信号の第３の例を示す図である。図１に示した比較部の構成を示す図である。図１に示した変更量算出部の構成を示す図である。（ａ）第１変更量算出情報のデータ構造の一例を示す図である。（ｂ）第２変更量算出情報のデータ構造の一例を示す図である。図３に示した特定音声信号のレベルを変更したときに出力されるホルマント強調信号の第１の例を示す図である。図１に示したレベル変更部の構成を示す図である。特定音声信号と雑音信号との比較に基づいて、特定音声信号のレベルを変更する際の動作を示すフローチャートである。（ａ）特定音声信号または雑音信号それぞれについての、音声レベルと周波数との関係の第２の例を示す図である。（ｂ）特定音声信号のレベルを変更したときに出力されるホルマント強調信号の第２の例を示す図である。実施形態２に従った音声レベル調整装置の構成を示す図である。図１４に示した標準ホルマント補正部の構成を示す図である。一般的な音声レベル調整装置の構成を示す図である。（ａ）一般的な音声レベル調整装置へ入力される特定音声信号または雑音信号それぞれについての、音声レベルと周波数との関係の第１の例を示す図である。（ｂ）一般的な音声レベル調整装置によるホルマントの強調前後における、特定音声信号または雑音信号それぞれの音声レベルと周波数との関係の第２の例を示す図である。

符号の説明

１、１Ａ音声レベル調整装置
１１マイク
１２信号分離部
１３音声分析部
１３１帯域分割部
１３２−１〜１３２−３音声レベル検出部
１４雑音分析部
１４１雑音帯域分割部
１４２−１〜１４２−３雑音レベル検出部
１５比較部
１５１−１第１レベル比較部
１５１−２第２レベル比較部
１５１−３第３レベル比較部
１６変更量算出部
１６１−１第１変更量算出部
１６１−２第２変更量算出部
１６１−３第３変更量算出部
１７レベル変更部
１７１−１第１変更部
１７１−２第２変更部
１７１−３第３変更部
１７２音声重畳部
１８標準ホルマント補正部
１８１ホルマント比較部
１８２補正判別部
１８３−１〜１８３−２補正量算出部
１８４−１〜１８４−２補正部

Claims

音声を入力し、該音声のレベルに応じた音声信号を出力するマイクと、
前記マイクが出力した音声信号を、特定音源が出力した音声を示す特定音声信号と、雑音を示す雑音信号とに分離してそれぞれ出力する信号分離部と、
前記分離された特定音声信号に含まれる複数のホルマントそれぞれの特定音声信号レベルを検出する音声分析部と、
前記ホルマントそれぞれの特定音声信号レベルがピークとなる周波数における前記雑音信号の雑音信号レベルを検出する雑音検出部と、
前記検出された互いの特定音声信号レベルの差を示すホルマントレベル差と、該特定音声信号レベルを補正する際の基準となる標準音声レベルとの比較に基づいて、周波数が最も小さなホルマント以外のホルマントの特定音声信号レベルそれぞれを補正する標準ホルマント補正部と、
前記補正されたホルマントの特定音声信号レベルそれぞれと該ホルマントに対応する周波数における雑音信号レベルそれぞれとのレベル差に基づいて、該補正されたホルマントそれぞれの特定音声信号レベルの変更量を算出するとともに、前記周波数が最も小さなホルマントの特定音声信号レベルと該周波数における雑音信号レベルとに基づいて、該周波数が最も小さなホルマントの特定音声信号レベルの変更量を算出する変更量算出部と、
前記算出された変更量に基づいて前記ホルマントの特定音声信号レベルをそれぞれ変更し、該特定音声信号レベルが変更されたホルマントを含む前記特定音声信号を出力するレベル変更部とを有する音声レベル調整装置。
請求項１に記載の音声レベル調整装置において、
前記特定音声信号レベルと前記雑音信号レベルとの間のレベル差と、前記ホルマントの増大または減少を判別するための基準となる増減判別値との比較に基づいて、前記変更量算出部が算出した変更量の加算または減算を示す符号を決定する符号決定部を有し、
前記レベル変更部は、前記符号決定部が決定した符号に従って、前記ホルマントの特定音声信号レベルに対して前記変更量の加算または減算を行うことを特徴とする音声レベル調整装置。
請求項２に記載の音声レベル調整装置において、
前記符号決定部は、前記ホルマント周波数が最も小さなホルマントについては、前記変更量の減算を示すように前記符号を決定することを特徴とする音声レベル調整装置。
音声を入力し、該音声のレベルに応じた音声信号を出力する処理と、
前記出力した音声信号を、特定音源が出力した音声を示す特定音声信号と、雑音を示す雑音信号とに分離してそれぞれ出力する処理と、
前記分離された特定音声信号に含まれる複数のホルマントそれぞれの特定音声信号レベルを検出する処理と、
前記ホルマントそれぞれの特定音声信号レベルがピークとなる周波数における前記雑音信号の雑音信号レベルを検出する処理と、
前記検出された互いの特定音声信号レベルの差を示すホルマントレベル差と、該特定音声信号レベルを補正する際の基準となる標準音声レベルとの比較に基づいて、周波数が最も小さなホルマント以外のホルマントの特定音声信号レベルそれぞれを補正する処理と、
前記補正されたホルマントの特定音声信号レベルそれぞれと該ホルマントに対応する周波数における雑音信号レベルそれぞれとのレベル差に基づいて、該補正されたホルマントそれぞれの特定音声信号レベルの変更量を算出するとともに、前記周波数が最も小さなホルマントの特定音声信号レベルと該周波数における雑音信号レベルとに基づいて、該周波数が最も小さなホルマントの特定音声信号レベルの変更量を算出する変更量算出処理と、
前記算出された変更量に基づいて前記ホルマントの特定音声信号レベルをそれぞれ変更し、該特定音声信号レベルが変更されたホルマントを含む前記特定音声信号を出力するレベル変更処理とを有する音声レベル調整方法。
請求項４に記載の音声レベル調整方法において、
前記特定音声信号レベルと前記雑音信号レベルとの間のレベル差と、前記ホルマントの増大または減少を判別するための基準となる増減判別値との比較に基づいて、前記変更量算出処理にて算出した変更量の加算または減算を示す符号を決定する符号決定処理を有し、
前記レベル変更処理では、前記符号決定処理にて決定した符号に従って、前記ホルマントの特定音声信号レベルに対して前記変更量の加算または減算を行うことを特徴とする音声レベル調整方法。
請求項５に記載の音声レベル調整方法において、
前記符号決定処理では、前記周波数が最も小さなホルマントについては、前記変更量の減算を示すように前記符号を決定することを特徴とする音声レベル調整方法。
コンピュータに、
音声を入力し、該音声のレベルに応じた音声信号を出力する手順と、
前記出力した音声信号を、特定音源が出力した音声を示す特定音声信号と、雑音を示す雑音信号とに分離してそれぞれ出力する手順と、
前記分離された特定音声信号に含まれる複数のホルマントそれぞれの特定音声信号レベルを検出する手順と、
前記ホルマントそれぞれの特定音声信号レベルがピークとなる周波数における前記雑音信号の雑音信号レベルを検出する手順と、
前記検出された互いの特定音声信号レベルの差を示すホルマントレベル差と、該特定音声信号レベルを補正する際の基準となる標準音声レベルとの比較に基づいて、周波数が最も小さなホルマント以外のホルマントの特定音声信号レベルそれぞれを補正する手順と、
前記補正されたホルマントの特定音声信号レベルそれぞれと該ホルマントに対応する周波数における雑音信号レベルそれぞれとのレベル差に基づいて、該補正されたホルマントそれぞれの特定音声信号レベルの変更量を算出するとともに、前記周波数が最も小さなホルマントの特定音声信号レベルと該周波数における雑音信号レベルとに基づいて、該周波数が最も小さなホルマントの特定音声信号レベルの変更量を算出する変更量算出手順と、
前記算出された変更量に基づいて前記ホルマントの特定音声信号レベルをそれぞれ変更し、該特定音声信号レベルが変更されたホルマントを含む前記特定音声信号を出力するレベル変更手順とを実行させるプログラム。
請求項７に記載のプログラムにおいて、
前記特定音声信号レベルと前記雑音信号レベルとの間のレベル差と、前記ホルマントの増大または減少を判別するための基準となる増減判別値との比較に基づいて、前記変更量算出手順にて算出した変更量の加算または減算を示す符号を決定する符号決定手順を前記コンピュータに実行させ、
前記レベル変更手順では、前記符号決定手順にて決定した符号に従って、前記ホルマントの特定音声信号レベルに対して前記変更量の加算または減算を行うことを特徴とするプログラム。
請求項８に記載のプログラムにおいて、
前記符号決定手順では、前記周波数が最も小さなホルマントについては、前記変更量の減算を示すように前記符号を決定することを特徴とするプログラム。