JP4552064B2

JP4552064B2 - 音声レベル自動補正装置

Info

Publication number: JP4552064B2
Application number: JP2003354938A
Authority: JP
Inventors: 英治沢村; 隆雄門馬; 徹都木; 克彦白井
Original assignee: NEC Corp; National Institute of Information and Communications Technology; NHK Engineering Services Inc; Japan Broadcasting Corp
Current assignee: NEC Corp; National Institute of Information and Communications Technology; Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2003-10-15
Filing date: 2003-10-15
Publication date: 2010-09-29
Anticipated expiration: 2023-10-15
Also published as: JP2005121786A

Description

本発明は、放送番組音声などを対象とする非スピーチ区間（以下、「ポーズ部分」とする）検出のための入力音声レベル自動補正装置に関する。

［発明の概要］
本発明は、放送番組音声などを対象とする非スピーチ区間（ポーズ部分）検出のための入力音声レベル自動補正に関するものである。音声信号におけるスピーチとその他の音声の特徴を利用し、閾値との差を用いて非スピーチ区間（ポーズ部）を判定する場合、通常、入力音声レベルの大小によって大きく影響される。そのため、本発明では、スピーチ近似成分による自動レベル補正によりその影響を低減し、ポーズ部分（非スピーチ部分）を安定かつ精度良く検出できるようにしている。音声などのポーズ部分検出は、一般的な音声信号処理でも効果的な手法の一つとして利用されているが、字幕番組制作関連でも字幕用テキストとしてのスピーチ部分の書き起こし、スピーチポーズを利用した番組音声の分割、字幕のタイミング付与など多くの用途があり、字幕制作の効率化に寄与する技術である。

放送番組音声などのポーズ部分を、簡単かつ精度良く検出できる手法が有ると、その後の音声処理などに大きな効果が期待できる。

また、番組音声などのポーズ部分やスピーチ区間の検出は、字幕用テキストとしてのスピーチ区間の書起し、スピーチポーズの検出、字幕へのタイミング付与など、字幕制作に関連しても多くの用途がある。ポーズ区間を検出して字幕へのタイミング付与を行う先行例としては、本発明者が提唱した特開２００２−３５１４９０がある。
特開２００２−３５１４９０

ところで、字幕付きテレビ放送番組を受信者が利用する際、字幕が読み易く、理解し易いものであることが重要である。したがって、字幕番組制作における字幕原稿作成では、熟練した人手を使い、多大な労力と時間を掛けて、読み易くて理解し易い字幕を制作している。

しかしながら、今後適用番組の分野や番組数などの拡大を進めている字幕放送において、この熟練した人手、多大な労力と時間を要するこのような形態の字幕番組制作手法は、字幕番組制作上の大きなネックとなっており、その改善が急がれている。

現在最も多く行われている字幕番組制作形態では、タイムコードを映像にスーパーした番組テープとタイムコードを音声チャンネルに記録した番組テープ、場合によっては番組台本も素材とし、これを放送関係経験者など専門知識のある人によって、番組スピーチの書起し（処理１）、字幕イメージ化（処理２）、およびその開始・終了タイムコード記入（処理３）の各作業を行い、字幕用の原稿を作成している。この字幕原稿をもとに、オペレータが電子化字幕データを作成し、担当の字幕制作責任者、原稿作成者、電子化したオペレータ立ち会いのもとで、試写・校正を行って完成字幕としている。

上述した処理１〜処理３の作業の中でより多くの時間を必要とするのは、処理１の番組スピーチの書起し作業であり、この作業では、番組スピーチを聴取して字幕原稿を作成するという点において最も人間の知能に負うところが多い。

すなわち、番組スピーチの書起し作業は、番組テープを再生操作して音声を聴取し、音声中のスピーチ開始点からテープを再生聴取しつつ、ワープロや筆記で書起しを行う。実際には、書起し作業者の書起し速度や内容確認などのため、一区切りのスピーチ区間を対象として録音テープの頭出し・再生操作を繰り返し、書起し作業が行われる。したがって、書起し作業は、テープの頭出し・再生といった煩雑なテープ操作と、スピーチの聴取、書起しといった人間の知能に負う負担の多い業務である。

音声などのスピーチ区間を適切に検出できると、書起し作業における前記「一区切りのスピーチ区間についてテープの頭出し・再生操作の繰り返し」を自動化することが可能であり、またこの区間のスピーチについて、書起しし易いような適当な低速化再生や繰り返しを行うことも可能である。また、逆に非スピーチ区間については高速送りなどして時間節約することも可能である。その結果、書起し作業者は、書起し作業に専念することができ、字幕用テキストの正確・迅速な作成に大いに貢献することができる。

また、上述した処理３の開始・終了タイムコード付与における開始・終了のタイミングの多くは、スピーチ区間の開始・終了であり、非スピーチ区間であるポーズ部分の検出結果を活用することで可能である。

例えば文単位でのアナウンス音声の開始、終了のタイミングをポーズ部分検出を活用して求め、そのタイミングを表示単位字幕文の開始、終了のタイミングの少なくとも一部として適用することによって、自動的なタイミングの付与を高速化することもできる。

このようにポーズ部分の検出手法は、前記のように字幕番組制作における処理１〜処理３の各段階で広く活用できる可能性があり、しかもこれらの処理は、番組音声時間の数十分の一以下の時間で高速処理可能なので、きわめて有効な手法である。

ポーズ部分を検出してスピーチ区間を抽出する従来手法の一例を図９のフローチャートを用いて説明する。

この従来手法では、例えば、まずＷＡＶ形式の番組音声信号を入力してアナログ形式の音声信号に変換する（ステップＳ１０１，Ｓ１０２）。そして、その音声信号を帯域ろ波し、そのエンベロープの４〜７Ｈｚをスピーチ近似成分信号として抽出する（ステップＳ１０３）。抽出されたスピーチ近似成分信号を所定の閾値でスライスして微小ポーズ部分を除去する（ステップＳ１０４，Ｓ１０５）ことにより、スピーチ部分とポーズ部分を分離するようにしている。なお、ステップＳ１０６、ステップＳ１０７は、前述のようにして求められたスピーチ区間が正確に抽出されているのかを検証するために、実測スピーチ区間とを比較してグラフ表示する処理を示す。

しかしながら、入力される音声信号の平均レベルは必ずしも一定ではない。マイクロホンに届く複数話者のスピーチレベルが人によって異なる場合とか、全体の録音レベル調整の小さな失敗とか、あるいは意図的に強調して信号レベルを変動させる場合もあり、一定閾値によるスライスでは、必ずしも正確な非スピーチ区間を検出することができないという問題がある。

本発明は、上記事情に鑑みてなされたものであり、入力音声レベルの変動に影響されることなく、ポーズ部分、スピーチ区間を簡単かつ精度良く検出することのできる入力音声レベル自動補正装置を提供することを目的としている。

上記の目的を達成するために請求項１の発明は、入力音声信号中からスピーチ区間とポーズ区間とを検出する際に入力音声信号のレベル変動を自動補正する装置であって、第１のレベル補正部と、第２のレベル補正部と、パワー補正部とを備え、第１のレベル補正部は、入力音声信号中の所定の低域成分をろ波する第１の低域ろ波手段と、前記入力音声信号と、第１の低域ろ波手段の出力信号とから入力音声信号全体のレベルを所定のレベルにする第１の補正手段とを有し、第２のレベル補正部は、第１の補正手段の出力信号中から所定の帯域成分をろ波する第１の帯域ろ波手段と、第１の帯域ろ波手段の出力のエンベロープ信号中の所定の低域成分をろ波する第２の低域ろ波手段と、第１の帯域ろ波手段の出力信号を第２の低域ろ波手段の出力信号によりレベルの一定化を行う第２の補正手段とを有し、パワー補正部は、第１の帯域ろ波手段の出力信号と第２の補正手段の出力信号との差分を演算する差分演算手段と、差分演算手段の出力信号中の低域成分をろ波する第３の低域ろ波手段と、第２の補正手段の出力信号中の低域成分をろ波する第４の低域ろ波手段と、第３の低域ろ波手段の出力信号と第４の低域ろ波手段の出力信号とに基づいてパワー補正を行うパワー補正手段とを有し、パワー補正手段の出力信号を所定の閾値でスライスしてスピーチ区間とポーズ区間とを検出可能にさせることを特徴としている。

請求項２の発明は、請求項１に記載の音声レベル自動補正装置において、前記第１、第２、および第３の低域ろ波手段の低域ろ波周波数は、およそ１．５Ｈｚ以下であり、前記第１の帯域ろ波手段の帯域ろ波周波数は、およそ３〜６Ｈｚであり、前記第２の帯域ろ波手段の帯域ろ波周波数は、およそ４〜５Ｈｚであることを特徴としている。

請求項３の発明は、入力音声信号中からスピーチ区間とポーズ区間とを検出する際に入力音声信号のレベル変動を自動補正する装置であって、第１のレベル補正部と、第２のレベル補正部と、パワー補正部とを備え、第１のレベル補正部は、入力音声信号中の所定の帯域成分をろ波する第１の帯域ろ波手段と、前記入力音声信号と、第１の帯域ろ波手段の出力信号とから入力音声レベルを一定化するレベル補正を実行する第１の補正手段とを有し、第２のレベル補正部は、第１の補正手段の出力信号中の所定の低域成分をろ波する低域ろ波手段と、第１の補正手段の出力信号と低域ろ波手段の出力信号との差分を求める差分演算手段と、前記低域ろ波手段の出力信号と前記差分演算手段の出力信号とから入力音声信号のレベル補正を実行する第２の補正手段とを有し、パワー補正部は、第２の補正手段の出力信号を帯域ろ波する第２の帯域ろ波手段と、前記第２の補正手段の出力信号と第２の帯域ろ波手段の出力信号との差分を演算する第２の差分演算手段と、第２の差分演算手段の出力信号と帯域ろ波手段の出力信号とからパワー補正を行うパワー補正手段とを有し、パワー補正手段の出力信号を所定の閾値でスライスしてスピーチ区間とポーズ区間とを検出可能にさせることを特徴としている。

請求項４の発明は、請求項３に記載の音声レベル自動補正装置において、前記第１、第２の帯域ろ波手段の帯域ろ波周波数は、およそ４〜６Ｈｚであり、前記低域ろ波手段の低域ろ波周波数は、およそ２Ｈｚ以下であることを特徴としている。

本発明によれば、入力音声信号のレベルを適切に補正することにより、入力音声信号のレベル変動に影響されることなく、ポーズ部分、スピーチ区間を簡単かつ精度良く検出することが可能となる。

＜発明の原理＞
番組音声のパワー値を種々分析した結果、適当な周波数範囲の抽出とレベル補償などによって、かなり高い確度でポーズ部分を検出できることが分かった。

図１０（Ａ）は、ある番組音声の波形であり、（Ｂ）はその波形に対応するパワー値を示したものである。この番組音声パワー値の時間軸方向の分布を分析すると、ほぼ無音の区間、スピーチ区間、その他の区間に分けることができる。

ここで、下段の矢印の範囲はスピーチ区間であり、この部分の音声パワー値を時間方向に約１０倍に拡大したのが図１１（Ａ）の波形である。

ポーズ部分検出手法は、この波形の時間軸方向の変動特性に注目し、大まかな周期性を利用するものである。

すなわち、スピーチに関する時間軸方向の変動特性をスピーチの発音記号列と比較すると、母音の発音記号に対応する音声パワーが他より大きくなる傾向がある。そして通常速度の日本語スピーチにおける変動特性は、４〜７Ｈｚ程度の周波数になっている。

図１１（Ｂ）の波形は、この周波数成分を抽出したものであり、母音の発音記号に対応すると考えられる大まかな周期性を示している。

図１１（Ａ）に示す番組音声のパワー値の波形から、その４〜７Ｈｚの周波数範囲を抽出し、さらにそのエンベロープを求めたのが図１２の波形である。

この波形の所定の閾値（例えば図の細い点線のレベル）以下の範囲をポーズ部分として検出するものであり、実測したスピーチ区間を示す図の太い線と比較すると、この例の場合はかなり一致しており、かなり良い精度で検出できたことを示している。

しかしながら、図１２の閾値（図の細い点線のレベル）がこの状態では良い結果となるが、このレベルを上下に動かすと、そのレベルに応じて結果は大きく変わり、良い結果とならない。

逆に、閾値は通常固定値であるので、比較される波形のレベルが変わっても良い結果とならない。

そこで、本発明では、比較される波形の長周期のレベルが変わらないよう自動レベル補正を行い、閾値は固定値であっても良好な検出精度を維持できるようにしたものである。

具体的には、図１に示すように、本発明に係る音声レベル自動補正装置１は、（第１）スピーチ近似成分抽出部１０と、レベル補正部２０とを備え、スピーチ近似成分抽出部１０は、入力音声信号中の所定のスピーチ近似成分を抽出してレベル制御信号を生成し、レベル補正部２０は、入力音声信号レベルを前記レベル制御信号により制御して、入力音声信号中のスピーチ近似成分レベルを一定化する。そして、レベル補正部２０の出力信号から（第２）スピーチ近似成分抽出部３０でスピーチ近似成分を抽出した後、スライス部４０によって所定の閾値でスライスしてスピーチ区間とポーズ区間とを検出可能にしている。すなわち、本発明の音声レベル自動補正装置１は、スピーチ近似成分レベル自動補正装置として機能する。以下、具体的な実施形態を説明する。

＜第１の実施形態＞
図２は本発明に係る音声レベル自動補正装置の第１の実施形態の基本処理を示すブロック図である。

同図に示すように、この音声レベル自動補正装置１は、第１のレベル補正部５０と、第２のレベル補正部６０と、パワー補正部７０とを備えている。そして、パワー補正部７０の出力信号に対してスピーチ近似成分抽出部３０ではスピーチ近似成分を抽出し、次いでスライス部４０では所定の閾値でスライスしてスピーチ区間とポーズ区間とを検出するようにしている。

図３のフローチャートを参照して後述するが、第１のレベル補正部５０は、入力音声信号中の所定の低域成分をろ波する第１の低域ろ波手段と、前記入力音声信号と、第１の低域ろ波手段の出力信号とから入力音声信号全体のレベルを所定のレベルにする全体一定化を行う第１の補正手段とを有している。また、第２のレベル補正部６０は、第１のレベル補正部５０の出力信号中から所定の帯域成分をろ波する第１の帯域ろ波手段と、第１の帯域ろ波手段の出力信号中の所定の低域成分をろ波する第２の低域ろ波手段と、第１の帯域ろ波手段の出力信号と第２の低域ろ波手段の出力信号とからＳＰ（スピーチ）近似成分の一定化を行う第２の補正手段とを有している。さらに、パワー補正部７０は、第１の帯域ろ波手段の出力信号と第２の補正手段の出力信号との差分を演算する差分演算手段と、差分演算手段の出力信号中の低域成分をろ波する第３の低域ろ波手段と、第２の補正手段の出力信号中の低域成分をろ波する第４の低域ろ波手段と、第３の低域ろ波手段の出力信号と第４の低域ろ波手段の出力信号とに基づいてパワー補正を行うパワー補正手段とを有している。

図３は、本発明に係る音声レベル自動補正装置の第１の実施形態における処理手順を示すフローチャートである。

入力される例えばＷＡＶ形式の番組音声信号は、集音などの番組制作時の条件によって異なり、特にスピーチの信号レベルは、平均値としてもまた短期間をとっても、基準値からずれている場合がままある。この場合でも出来るだけ安定にスピーチ部分を検出できるように、図３のフローチャートでは、複数のレベル補正、パワー補正を適用した非スピーチ部分検出処理を示している。

図３において、ステップＳ１〜ステップＳ４の処理は、第１のレベル補正部５０で実行され、ステップＳ５〜ステップＳ８の処理は、第２のレベル補正部６０で実行され、ステップＳ９からステップＳ１２の処理は、パワー補正部７０で実行される。

まず、入力されたＷＡＶ形式の番組音声信号をアナログ形式の番組音声信号に変換（ステップＳ１，Ｓ２）した後、低域ろ波を行って帯域が１．５Ｈｚ以下の低域成分が抽出される（ステップＳ３）。番組音声のレベル補正（第１の補正手段）では、アナログ形式の番組音声信号と１．５Ｈｚ以下の低域成分とから番組音声全体の一定化が実行される（ステップＳ４）。全体の一定化処理では、取り込まれた番組音声信号中からそのエンベロープの低域成分のみを取り出して、この低域成分の振幅値を基として信号成分を所定レベルの大きさにする処理である。一般に、低域成分のレベルが大きい場合には高域成分のレベルも大きいと考えられる。レベルに違いがあると検出精度に影響を与えるので、ある程度のレベル基準化を図る必要があるからである。

次に、レベル補正がされた音声信号中から３〜６Ｈｚの帯域成分の音声信号が抽出される（ステップＳ５）。さらに、抽出された３〜６Ｈｚの帯域成分の音声信号から４〜５Ｈｚの帯域成分が抽出される（ステップＳ６）。４〜５Ｈｚの帯域成分は「スピーチらしい成分（スピーチ近似成分）」を意味しており、この処理によってスピーチに近似した信号（スピーチ近似信号）が抽出される。ステップＳ７では、帯域ろ波された信号中の低域成分が抽出され、この低域成分と４〜５Ｈｚの帯域成分とに基づいてレベル補正がされる（ステップＳ８、第２の補正手段）。

次いで、パワー補正部７０の処理では、抽出された３〜６Ｈｚの帯域成分と第２の補正手段でレベル補正された信号との差分が演算され（ステップＳ９）、さらに、この差分信号のエンベロープから１．５Ｈｚ以下の低域成分がろ波される（ステップＳ１０）。一方、第２の補正手段でレベル補正された信号のエンベロープからも１．５Ｈｚ以下の低域成分がろ波され（ステップＳ１１）、この低域成分と、ステップＳ１０で抽出された低域成分とに基づいてスピーチ疑似成分を抑圧するパワー補正が行われる（ステップＳ１２）。

こうして、パワー補正がされた信号は、必要ならばディスプレイ上に波形表示され、また、所定のスライスレベル（閾値）でスライスされ（ステップＳ１３）てポーズ部分が検出される。

次に、微小ポーズ部分除去処理が実行される（ステップＳ１４）。なお、図中“ＰＺは“ポーズ”を示す。この処理では、スライス処理された音声振幅値信号中から、例えば、ちょっとした息継ぎ程度の区間は検出対象から除外するために、検出時間範囲として、例えば、“１．５〜２秒”程度を設定し、その以下の時間を検出対象外として除去する処理である。これにより、意味を持たない無駄なポーズ検出が効果的に防止できる。図４には、ステップＳ１４〜ステップＳ１７の処理で出力される信号が図示されている。

ステップＳ１５以下の処理では、スピーチ部分の書き起こし作業に適したポーズ検出処理である。ステップＳ１４で検出したポーズをステップＳ１５の処理で最小化する。図４（Ａ）において、ステップＳ１４では、４秒、２秒、１秒、４秒の４つのポーズが出力されている。図４（Ｂ）では、ステップＳ１５の出力として、前記４つのポーズ出力を最小化した信号が生成されている。一方、ステップＳ１６では、図４（Ｃ）に示すように、３秒程度以上の比較的長いポーズ部分のみが取り出される。ステップＳ１７では、ステップＳ１６の出力と、ステップＳ１５の出力とのポーズをＯＲ合成して新たなポーズ部分が生成される。ステップＳ１７の出力で長いポーズは、スピーチのポーズであり、短いポーズは、息継ぎ箇所と考えて区切りとして利用される。

こうして検出されたポーズ区間は画面表示されると共に、ポーズの検出精度やスライスレベル設定の最適化などの目的でスピーチ区間を実測し、実測スピーチ区間と比較される（ステップＳ１８）。これにより、実測されたスピーチ区間から導かれるポーズ区間と、検出されたポーズ区間とが比較され、比較によって、ポーズ検出精度をチェックしたり、スライスレベルが最適となるように変更することができる（ステップＳ１７）。

＜実験例＞
図５は、背景音がかなり大きい番組Ａ、番組Ｂについて、入力音声レベルを変化させた場合のスピーチ検出誤差（任意スケール）を示したものであり、（Ａ）は数値例を、（Ｂ）は折れ線グラフ化した例を示している。レベル補正は、図３のステップＳ１２までの処理に従った。

同図に示すように、図２のステップＳ１２までに示すレベル補正を実行した結果、番組Ａ、番組Ｂ共に入力音声レベルの変化に対する検出誤差の変動は小さく、十分に実用に耐え得ることが判った。

＜第２の実施形態＞
次に第２の実施形態を説明する。なお、第２の実施形態の基本的な装置構成は図２と同じため、図２を援用して説明する。

第２の実施形態では、主にスピーチ近似成分による番組音声レベルの補正および番組音声低域成分によるレベルの補正により入力音声レベル補正を行うようにしたものである。

第２の実施形態の音声レベル自動補正装置１は、図２に示したように、第１のレベル補正部５０と、第２のレベル補正部６０と、パワー補正部７０とを備えている。図６のフローチャートを用いて後述するが、第１のレベル補正部５０は、入力音声信号中の所定の帯域成分をろ波する第１の帯域ろ波手段と、前記入力音声信号と、第１の帯域ろ波手段の出力信号とから入力音声レベルを一定化するレベル補正を実行する第１の補正手段とを有している。また、第２のレベル補正部６０は、第１の補正手段の出力信号中の所定の低域成分をろ波する低域ろ波手段と、第１の補正手段の出力信号と低域ろ波手段の出力信号との差分を求める差分演算手段と、前記低域ろ波手段の出力信号と前記差分演算手段の出力信号とから入力音声信号のレベル補正を実行する第２の補正手段とを有している。さらに、パワー補正部７０は、第２の補正手段の出力信号を帯域ろ波する第２の帯域ろ波手段と、前記第２の補正手段の出力信号と第２の帯域ろ波手段の出力信号との差分を演算する第２の差分演算手段と、第２の差分演算手段の出力信号と帯域ろ波手段の出力信号とからスピーチ疑似成分を抑圧するパワー補正を行うパワー補正手段とを有しており、パワー補正手段の出力信号を所定の閾値でスライスしてスピーチ区間とポーズ区間とを検出可能にさせている。

図６は、本発明に係る音声レベル自動補正装置の第２の実施形態における処理手順を示すフローチャートである。

図６のフローチャートにおいて、ステップＳ２１〜ステップＳ２４の処理は、第１のレベル補正部５０で実行され、ステップＳ２５〜ステップＳ２７の処理は、第２のレベル補正部６０で実行され、ステップＳ２８〜ステップＳ３０の処理は、パワー補正部７０で実行される。

まず、第１のレベル補正部５０では、入力されたＷＡＶ形式の番組音声信号をアナログ形式の番組音声信号に変換した後、帯域ろ波を行って周波数帯域が４〜７Ｈｚのスピーチ近似成分が抽出される（ステップＳ２１〜Ｓ２３）。番組音声のレベル補正の処理では、音声レベルをなるべく一定にするために、アナログ形式の番組音声信号Ｂと帯域ろ波後の帯域成分信号Ｄとから次式に基づく演算処理が実行されて音声レベルが補正される（ステップＳ２４，第１の補正手段）。

（数１）
Ｅ＝α・Ｂ／（Ｄ＋β）
ここで、αはろ波器固有のフィルタ係数、βはレベル補正係数であり、β＝２００，３００，５００，７００，・・の値をとるものとする。

次いで、第２のレベル補正部６０では、レベル補正された信号中から１．５Ｈｚ以下の低域成分がろ波され（ステップＳ２５）、この低域成分とレベル補正された信号との差分が演算される（ステップＳ２６）。そして、低域ろ波された信号と、差分信号とから入力音声信号のレベル補正が実行される（ステップＳ２７、第２の補正手段）。

次いで、パワー補正部７０では、第２の補正手段でレベル補正された信号中から４〜７ＨＺ程度の帯域成分が帯域ろ波され、この帯域成分と、第２の補正手段でレベル補正された信号との差分が演算される（ステップＳ２９）。そして、差分信号と、帯域成分からスピーチ疑似成分を抑圧するパワー補正が実行される（ステップＳ３０）。

以下のステップＳ３１からステップＳ３４の処理は、図３に示したステップＳ１４からステップＳ１９の処理と基本的に同じため、その説明は省略する。

＜実験例＞
自動レベル補正の実験は、かなり背景音の大きい番組音声も含む２種の番組Ａ，Ｂの音声を例題とし、図６で示す第２の実施形態による処理法によって行った。これら番組音声に対して行った自動レベル補正の実験結果を、図７、図８のグラフに示した。

図７は、背景音がかなり大きい番組Ａについて、入力音声レベルを変化させた場合のスピーチ検出誤差をレベル補正をしない場合と比較して示したものであり、（Ａ）は数値例を、（Ｂ）は折れ線グラフ化した例を示している。同図において、ＫＡは、入力信号レベルを示しており、ＫＡ＝１００％を標準として、半分のレベル（ＫＡ＝５０％）から２倍のレベル（ＫＡ＝２００％）まで変化された場合の検出誤差を示している。２００，３００，５００，７００は前述したレベル補正係数βを示し、ＮＯＮはレベル補正をしない無補償を示している。

同図に示すように、無補償（ＮＯＮ）の場合には、入力音声レベルが１００％付近での検出誤差はおよそ１１％程度であるが、入力音声レベルが１００％からプラス、マイナスいずれの方向にずれても検出誤差は急激に上昇し、実用には耐えられないことが判った。

これに対して、補償をした場合、補正係数βの大小によって多少の差があるものの、入力音声レベルが６０％のとき、検出誤差は約１２．５％前後、入力音声レベルが８０％のとき、検出誤差は約９％前後と次第に低下していき、入力音声レベルが１００％のとき、検出誤差は最低の７％前後となった。その後、入力音声レベルを上昇させていったがそのときの検出誤差は、急激に上昇することなく、なだらかに上昇していくことが判明した。図示のように、入力音声レベル２００％での検出誤差は約１０％前後であった。

図８は、背景音がやや大きい番組Ｂについて、入力音声レベルを変化させた場合のスピーチ検出誤差を示したもので、（Ａ）は数値例を、（Ｂ）は折れ線グラフ化した例をレベル補正をしない場合と比較して示す。

図８に示すように、図７に示した「背景音がかなり大きい場合」ほどではないが、無補償の場合には、入力音声レベルが１００〜１１０％程度でその検出誤差は任意単位で２．８程度であり、入力音声レベルが低下すると急激に検出誤差が増加して行く傾向があった。また、入力音声レベルが１００％から上昇していくと、次第に検出誤差も上昇して行く傾向がみられた。これに対して、補償をした場合には、入力音声レベルが１００％から７０％付近では検出誤差は２．４程度、入力音声レベルが１００〜２００％の間でも、検出誤差はほとんど上昇することがなかった。このように、補償をすることによって検出誤差を著しく改善出来ることが判明した。

図７、図８に示すように、第２の実施形態による自動レベル補正を行った場合でも、レベル補正をしない場合と比較して検出誤差の増大を大幅に低減することができる。

本発明に係る音声レベル自動補正装置の構成例を示すブロック図。本発明に係る音声レベル自動補正装置の実施形態を示すブロック図。第１の実施形態の処理手順を示すフローチャート。第１の実施形態の作用を説明するタイムチャート。第１の実施形態を検証する実験例を示す説明図。第２の実施形態の処理手順を示すフローチャート。第２の実施形態を検証するための実験例を示す説明図であり、背景音がかなり大きい番組Ａについて、入力音声レベルを変化させた場合のスピーチ検出誤差をレベル補正をしない場合と比較して示す。第２の実施形態を検証するための実験例を示す説明図であり、背景音がやや大きい番組Ｂについて、入力音声レベルを変化させた場合のスピーチ検出誤差をレベル補正をしない場合と比較して示す。従来の処理手順を示すフローチャート。従来処理における波形例を示す説明図であり、番組音声波形とその波形に対応するパワー値の例を示す。従来処理における波形例を示す説明図であり、時間軸を拡大した音声パワー値と特定周波数範囲の抽出成分値を示す。従来処理における波形例を示す説明図であり、特定周波数範囲のパワー値のエンベロープ波形と実測ポーズ（スピーチ）部分である、ポーズ部分検出処理を示す。

符号の説明

１音声レベル自動補正装置
１０スピーチ近似成分抽出部
２０レベル補正部
３０（第２）スピーチ近似成分抽出部
４０スライス部
５０第１のレベル補正部
６０第２のレベル補正部
７０パワー補正部

Claims

入力音声信号中からスピーチ区間とポーズ区間とを検出する際に入力音声信号のレベル変動を自動補正する装置であって、
第１のレベル補正部と、第２のレベル補正部と、パワー補正部とを備え、
第１のレベル補正部は、
入力音声信号中の所定の低域成分をろ波する第１の低域ろ波手段と、前記入力音声信号と、第１の低域ろ波手段の出力信号とから入力音声信号全体のレベルを所定のレベルにする第１の補正手段とを有し、
第２のレベル補正部は、
第１の補正手段の出力信号中から所定の帯域成分をろ波する第１の帯域ろ波手段と、第１の帯域ろ波手段の出力のエンベロープ信号中の所定の低域成分をろ波する第２の低域ろ波手段と、第１の帯域ろ波手段の出力信号を第２の低域ろ波手段の出力信号によりレベルの一定化を行う第２の補正手段とを有し、
パワー補正部は、第１の帯域ろ波手段の出力信号と第２の補正手段の出力信号との差分を演算する差分演算手段と、差分演算手段の出力信号中の低域成分をろ波する第３の低域ろ波手段と、第２の補正手段の出力信号中の低域成分をろ波する第４の低域ろ波手段と、
第３の低域ろ波手段の出力信号と第４の低域ろ波手段の出力信号とに基づいてパワー補正を行うパワー補正手段とを有し、
パワー補正手段の出力信号を所定の閾値でスライスしてスピーチ区間とポーズ区間とを検出可能にさせる、
ことを特徴とする音声レベル自動補正装置。
請求項１に記載の音声レベル自動補正装置において、
前記第１、第２、および第３の低域ろ波手段の低域ろ波周波数は、およそ１．５Ｈｚ以下であり、
前記第１の帯域ろ波手段の帯域ろ波周波数は、およそ３〜６Ｈｚであり、
前記第２の帯域ろ波手段の帯域ろ波周波数は、およそ４〜５Ｈｚである、
ことを特徴とする音声レベル自動補正装置。
入力音声信号中からスピーチ区間とポーズ区間とを検出する際に入力音声信号のレベル変動を自動補正する装置であって、
第１のレベル補正部と、第２のレベル補正部と、パワー補正部とを備え、
第１のレベル補正部は、入力音声信号中の所定の帯域成分をろ波する第１の帯域ろ波手段と、前記入力音声信号と、第１の帯域ろ波手段の出力信号とから入力音声レベルを一定化するレベル補正を実行する第１の補正手段とを有し、
第２のレベル補正部は、第１の補正手段の出力信号中の所定の低域成分をろ波する低域ろ波手段と、第１の補正手段の出力信号と低域ろ波手段の出力信号との差分を求める差分演算手段と、前記低域ろ波手段の出力信号と前記差分演算手段の出力信号とから入力音声信号のレベル補正を実行する第２の補正手段とを有し、
パワー補正部は、第２の補正手段の出力信号を帯域ろ波する第２の帯域ろ波手段と、前記第２の補正手段の出力信号と第２の帯域ろ波手段の出力信号との差分を演算する第２の差分演算手段と、第２の差分演算手段の出力信号と帯域ろ波手段の出力信号とからパワー補正を行うパワー補正手段とを有し、
パワー補正手段の出力信号を所定の閾値でスライスしてスピーチ区間とポーズ区間とを検出可能にさせる、
ことを特徴とする音声レベル自動補正装置。
請求項３に記載の音声レベル自動補正装置において、
前記第１、第２の帯域ろ波手段の帯域ろ波周波数は、およそ４〜６Ｈｚであり、
前記低域ろ波手段の低域ろ波周波数は、およそ２Ｈｚ以下である、
ことを特徴とする音声レベル自動補正装置。