JP4552064B2 - 音声レベル自動補正装置 - Google Patents

音声レベル自動補正装置 Download PDF

Info

Publication number
JP4552064B2
JP4552064B2 JP2003354938A JP2003354938A JP4552064B2 JP 4552064 B2 JP4552064 B2 JP 4552064B2 JP 2003354938 A JP2003354938 A JP 2003354938A JP 2003354938 A JP2003354938 A JP 2003354938A JP 4552064 B2 JP4552064 B2 JP 4552064B2
Authority
JP
Japan
Prior art keywords
level
output signal
low
correction
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003354938A
Other languages
English (en)
Other versions
JP2005121786A (ja
Inventor
英治 沢村
隆雄 門馬
徹 都木
克彦 白井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
National Institute of Information and Communications Technology
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
NEC Corp
National Institute of Information and Communications Technology
NHK Engineering Services Inc
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, National Institute of Information and Communications Technology, NHK Engineering Services Inc, Japan Broadcasting Corp filed Critical NEC Corp
Priority to JP2003354938A priority Critical patent/JP4552064B2/ja
Publication of JP2005121786A publication Critical patent/JP2005121786A/ja
Application granted granted Critical
Publication of JP4552064B2 publication Critical patent/JP4552064B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

本発明は、放送番組音声などを対象とする非スピーチ区間(以下、「ポーズ部分」とする)検出のための入力音声レベル自動補正装置に関する。
[発明の概要]
本発明は、放送番組音声などを対象とする非スピーチ区間(ポーズ部分)検出のための入力音声レベル自動補正に関するものである。音声信号におけるスピーチとその他の音声の特徴を利用し、閾値との差を用いて非スピーチ区間(ポーズ部)を判定する場合、通常、入力音声レベルの大小によって大きく影響される。そのため、本発明では、スピーチ近似成分による自動レベル補正によりその影響を低減し、ポーズ部分(非スピーチ部分)を安定かつ精度良く検出できるようにしている。音声などのポーズ部分検出は、一般的な音声信号処理でも効果的な手法の一つとして利用されているが、字幕番組制作関連でも字幕用テキストとしてのスピーチ部分の書き起こし、スピーチポーズを利用した番組音声の分割、字幕のタイミング付与など多くの用途があり、字幕制作の効率化に寄与する技術である。
放送番組音声などのポーズ部分を、簡単かつ精度良く検出できる手法が有ると、その後の音声処理などに大きな効果が期待できる。
また、番組音声などのポーズ部分やスピーチ区間の検出は、字幕用テキストとしてのスピーチ区間の書起し、スピーチポーズの検出、字幕へのタイミング付与など、字幕制作に関連しても多くの用途がある。ポーズ区間を検出して字幕へのタイミング付与を行う先行例としては、本発明者が提唱した特開2002−351490がある。
特開2002−351490
ところで、字幕付きテレビ放送番組を受信者が利用する際、字幕が読み易く、理解し易いものであることが重要である。したがって、字幕番組制作における字幕原稿作成では、熟練した人手を使い、多大な労力と時間を掛けて、読み易くて理解し易い字幕を制作している。
しかしながら、今後適用番組の分野や番組数などの拡大を進めている字幕放送において、この熟練した人手、多大な労力と時間を要するこのような形態の字幕番組制作手法は、字幕番組制作上の大きなネックとなっており、その改善が急がれている。
現在最も多く行われている字幕番組制作形態では、タイムコードを映像にスーパーした番組テープとタイムコードを音声チャンネルに記録した番組テープ、場合によっては番組台本も素材とし、これを放送関係経験者など専門知識のある人によって、番組スピーチの書起し(処理1)、字幕イメージ化(処理2)、およびその開始・終了タイムコード記入(処理3)の各作業を行い、字幕用の原稿を作成している。この字幕原稿をもとに、オペレータが電子化字幕データを作成し、担当の字幕制作責任者、原稿作成者、電子化したオペレータ立ち会いのもとで、試写・校正を行って完成字幕としている。
上述した処理1〜処理3の作業の中でより多くの時間を必要とするのは、処理1の番組スピーチの書起し作業であり、この作業では、番組スピーチを聴取して字幕原稿を作成するという点において最も人間の知能に負うところが多い。
すなわち、番組スピーチの書起し作業は、番組テープを再生操作して音声を聴取し、音声中のスピーチ開始点からテープを再生聴取しつつ、ワープロや筆記で書起しを行う。実際には、書起し作業者の書起し速度や内容確認などのため、一区切りのスピーチ区間を対象として録音テープの頭出し・再生操作を繰り返し、書起し作業が行われる。したがって、書起し作業は、テープの頭出し・再生といった煩雑なテープ操作と、スピーチの聴取、書起しといった人間の知能に負う負担の多い業務である。
音声などのスピーチ区間を適切に検出できると、書起し作業における前記「一区切りのスピーチ区間についてテープの頭出し・再生操作の繰り返し」を自動化することが可能であり、またこの区間のスピーチについて、書起しし易いような適当な低速化再生や繰り返しを行うことも可能である。また、逆に非スピーチ区間については高速送りなどして時間節約することも可能である。その結果、書起し作業者は、書起し作業に専念することができ、字幕用テキストの正確・迅速な作成に大いに貢献することができる。
また、上述した処理3の開始・終了タイムコード付与における開始・終了のタイミングの多くは、スピーチ区間の開始・終了であり、非スピーチ区間であるポーズ部分の検出結果を活用することで可能である。
例えば文単位でのアナウンス音声の開始、終了のタイミングをポーズ部分検出を活用して求め、そのタイミングを表示単位字幕文の開始、終了のタイミングの少なくとも一部として適用することによって、自動的なタイミングの付与を高速化することもできる。
このようにポーズ部分の検出手法は、前記のように字幕番組制作における処理1〜処理3の各段階で広く活用できる可能性があり、しかもこれらの処理は、番組音声時間の数十分の一以下の時間で高速処理可能なので、きわめて有効な手法である。
ポーズ部分を検出してスピーチ区間を抽出する従来手法の一例を図9のフローチャートを用いて説明する。
この従来手法では、例えば、まずWAV形式の番組音声信号を入力してアナログ形式の音声信号に変換する(ステップS101,S102)。そして、その音声信号を帯域ろ波し、そのエンベロープの4〜7Hzをスピーチ近似成分信号として抽出する(ステップS103)。抽出されたスピーチ近似成分信号を所定の閾値でスライスして微小ポーズ部分を除去する(ステップS104,S105)ことにより、スピーチ部分とポーズ部分を分離するようにしている。なお、ステップS106、ステップS107は、前述のようにして求められたスピーチ区間が正確に抽出されているのかを検証するために、実測スピーチ区間とを比較してグラフ表示する処理を示す。
しかしながら、入力される音声信号の平均レベルは必ずしも一定ではない。マイクロホンに届く複数話者のスピーチレベルが人によって異なる場合とか、全体の録音レベル調整の小さな失敗とか、あるいは意図的に強調して信号レベルを変動させる場合もあり、一定閾値によるスライスでは、必ずしも正確な非スピーチ区間を検出することができないという問題がある。
本発明は、上記事情に鑑みてなされたものであり、入力音声レベルの変動に影響されることなく、ポーズ部分、スピーチ区間を簡単かつ精度良く検出することのできる入力音声レベル自動補正装置を提供することを目的としている。
上記の目的を達成するために請求項1の発明は、入力音声信号中からスピーチ区間とポーズ区間とを検出する際に入力音声信号のレベル変動を自動補正する装置であって、第1のレベル補正部と、第2のレベル補正部と、パワー補正部とを備え、第1のレベル補正部は、入力音声信号中の所定の低域成分をろ波する第1の低域ろ波手段と、前記入力音声信号と、第1の低域ろ波手段の出力信号とから入力音声信号全体のレベルを所定のレベルにする第1の補正手段とを有し、第2のレベル補正部は、第1の補正手段の出力信号中から所定の帯域成分をろ波する第1の帯域ろ波手段と、第1の帯域ろ波手段の出力のエンベロープ信号中の所定の低域成分をろ波する第2の低域ろ波手段と、第1の帯域ろ波手段の出力信号を第2の低域ろ波手段の出力信号によりレベルの一定化を行う第2の補正手段とを有し、パワー補正部は、第1の帯域ろ波手段の出力信号と第2の補正手段の出力信号との差分を演算する差分演算手段と、差分演算手段の出力信号中の低域成分をろ波する第3の低域ろ波手段と、第2の補正手段の出力信号中の低域成分をろ波する第4の低域ろ波手段と、第3の低域ろ波手段の出力信号と第4の低域ろ波手段の出力信号とに基づいてパワー補正を行うパワー補正手段とを有し、パワー補正手段の出力信号を所定の閾値でスライスしてスピーチ区間とポーズ区間とを検出可能にさせることを特徴としている。
請求項2の発明は、請求項1に記載の音声レベル自動補正装置において、前記第1、第2、および第3の低域ろ波手段の低域ろ波周波数は、およそ1.5Hz以下であり、前記第1の帯域ろ波手段の帯域ろ波周波数は、およそ3〜6Hzであり、前記第2の帯域ろ波手段の帯域ろ波周波数は、およそ4〜5Hzであることを特徴としている。
請求項3の発明は、入力音声信号中からスピーチ区間とポーズ区間とを検出する際に入力音声信号のレベル変動を自動補正する装置であって、第1のレベル補正部と、第2のレベル補正部と、パワー補正部とを備え、第1のレベル補正部は、入力音声信号中の所定の帯域成分をろ波する第1の帯域ろ波手段と、前記入力音声信号と、第1の帯域ろ波手段の出力信号とから入力音声レベルを一定化するレベル補正を実行する第1の補正手段とを有し、第2のレベル補正部は、第1の補正手段の出力信号中の所定の低域成分をろ波する低域ろ波手段と、第1の補正手段の出力信号と低域ろ波手段の出力信号との差分を求める差分演算手段と、前記低域ろ波手段の出力信号と前記差分演算手段の出力信号とから入力音声信号のレベル補正を実行する第2の補正手段とを有し、パワー補正部は、第2の補正手段の出力信号を帯域ろ波する第2の帯域ろ波手段と、前記第2の補正手段の出力信号と第2の帯域ろ波手段の出力信号との差分を演算する第2の差分演算手段と、第2の差分演算手段の出力信号と帯域ろ波手段の出力信号とからパワー補正を行うパワー補正手段とを有し、パワー補正手段の出力信号を所定の閾値でスライスしてスピーチ区間とポーズ区間とを検出可能にさせることを特徴としている。
請求項4の発明は、請求項3に記載の音声レベル自動補正装置において、前記第1、第2の帯域ろ波手段の帯域ろ波周波数は、およそ4〜6Hzであり、前記低域ろ波手段の低域ろ波周波数は、およそ2Hz以下であることを特徴としている。
本発明によれば、入力音声信号のレベルを適切に補正することにより、入力音声信号のレベル変動に影響されることなく、ポーズ部分、スピーチ区間を簡単かつ精度良く検出することが可能となる。
<発明の原理>
番組音声のパワー値を種々分析した結果、適当な周波数範囲の抽出とレベル補償などによって、かなり高い確度でポーズ部分を検出できることが分かった。
図10(A)は、ある番組音声の波形であり、(B)はその波形に対応するパワー値を示したものである。この番組音声パワー値の時間軸方向の分布を分析すると、ほぼ無音の区間、スピーチ区間、その他の区間に分けることができる。
ここで、下段の矢印の範囲はスピーチ区間であり、この部分の音声パワー値を時間方向に約10倍に拡大したのが図11(A)の波形である。
ポーズ部分検出手法は、この波形の時間軸方向の変動特性に注目し、大まかな周期性を利用するものである。
すなわち、スピーチに関する時間軸方向の変動特性をスピーチの発音記号列と比較すると、母音の発音記号に対応する音声パワーが他より大きくなる傾向がある。そして通常速度の日本語スピーチにおける変動特性は、4〜7Hz程度の周波数になっている。
図11(B)の波形は、この周波数成分を抽出したものであり、母音の発音記号に対応すると考えられる大まかな周期性を示している。
図11(A)に示す番組音声のパワー値の波形から、その4〜7Hzの周波数範囲を抽出し、さらにそのエンベロープを求めたのが図12の波形である。
この波形の所定の閾値(例えば図の細い点線のレベル)以下の範囲をポーズ部分として検出するものであり、実測したスピーチ区間を示す図の太い線と比較すると、この例の場合はかなり一致しており、かなり良い精度で検出できたことを示している。
しかしながら、図12の閾値(図の細い点線のレベル)がこの状態では良い結果となるが、このレベルを上下に動かすと、そのレベルに応じて結果は大きく変わり、良い結果とならない。
逆に、閾値は通常固定値であるので、比較される波形のレベルが変わっても良い結果とならない。
そこで、本発明では、比較される波形の長周期のレベルが変わらないよう自動レベル補正を行い、閾値は固定値であっても良好な検出精度を維持できるようにしたものである。
具体的には、図1に示すように、本発明に係る音声レベル自動補正装置1は、(第1)スピーチ近似成分抽出部10と、レベル補正部20とを備え、スピーチ近似成分抽出部10は、入力音声信号中の所定のスピーチ近似成分を抽出してレベル制御信号を生成し、レベル補正部20は、入力音声信号レベルを前記レベル制御信号により制御して、入力音声信号中のスピーチ近似成分レベルを一定化する。そして、レベル補正部20の出力信号から(第2)スピーチ近似成分抽出部30でスピーチ近似成分を抽出した後、スライス部40によって所定の閾値でスライスしてスピーチ区間とポーズ区間とを検出可能にしている。すなわち、本発明の音声レベル自動補正装置1は、スピーチ近似成分レベル自動補正装置として機能する。以下、具体的な実施形態を説明する。
<第1の実施形態>
図2は本発明に係る音声レベル自動補正装置の第1の実施形態の基本処理を示すブロック図である。
同図に示すように、この音声レベル自動補正装置1は、第1のレベル補正部50と、第2のレベル補正部60と、パワー補正部70とを備えている。そして、パワー補正部70の出力信号に対してスピーチ近似成分抽出部30ではスピーチ近似成分を抽出し、次いでスライス部40では所定の閾値でスライスしてスピーチ区間とポーズ区間とを検出するようにしている。
図3のフローチャートを参照して後述するが、第1のレベル補正部50は、入力音声信号中の所定の低域成分をろ波する第1の低域ろ波手段と、前記入力音声信号と、第1の低域ろ波手段の出力信号とから入力音声信号全体のレベルを所定のレベルにする全体一定化を行う第1の補正手段とを有している。また、第2のレベル補正部60は、第1のレベル補正部50の出力信号中から所定の帯域成分をろ波する第1の帯域ろ波手段と、第1の帯域ろ波手段の出力信号中の所定の低域成分をろ波する第2の低域ろ波手段と、第1の帯域ろ波手段の出力信号と第2の低域ろ波手段の出力信号とからSP(スピーチ)近似成分の一定化を行う第2の補正手段とを有している。さらに、パワー補正部70は、第1の帯域ろ波手段の出力信号と第2の補正手段の出力信号との差分を演算する差分演算手段と、差分演算手段の出力信号中の低域成分をろ波する第3の低域ろ波手段と、第2の補正手段の出力信号中の低域成分をろ波する第4の低域ろ波手段と、第3の低域ろ波手段の出力信号と第4の低域ろ波手段の出力信号とに基づいてパワー補正を行うパワー補正手段とを有している。
図3は、本発明に係る音声レベル自動補正装置の第1の実施形態における処理手順を示すフローチャートである。
入力される例えばWAV形式の番組音声信号は、集音などの番組制作時の条件によって異なり、特にスピーチの信号レベルは、平均値としてもまた短期間をとっても、基準値からずれている場合がままある。この場合でも出来るだけ安定にスピーチ部分を検出できるように、図3のフローチャートでは、複数のレベル補正、パワー補正を適用した非スピーチ部分検出処理を示している。
図3において、ステップS1〜ステップS4の処理は、第1のレベル補正部50で実行され、ステップS5〜ステップS8の処理は、第2のレベル補正部60で実行され、ステップS9からステップS12の処理は、パワー補正部70で実行される。
まず、入力されたWAV形式の番組音声信号をアナログ形式の番組音声信号に変換(ステップS1,S2)した後、低域ろ波を行って帯域が1.5Hz以下の低域成分が抽出される(ステップS3)。番組音声のレベル補正(第1の補正手段)では、アナログ形式の番組音声信号と1.5Hz以下の低域成分とから番組音声全体の一定化が実行される(ステップS4)。全体の一定化処理では、取り込まれた番組音声信号中からそのエンベロープの低域成分のみを取り出して、この低域成分の振幅値を基として信号成分を所定レベルの大きさにする処理である。一般に、低域成分のレベルが大きい場合には高域成分のレベルも大きいと考えられる。レベルに違いがあると検出精度に影響を与えるので、ある程度のレベル基準化を図る必要があるからである。
次に、レベル補正がされた音声信号中から3〜6Hzの帯域成分の音声信号が抽出される(ステップS5)。さらに、抽出された3〜6Hzの帯域成分の音声信号から4〜5Hzの帯域成分が抽出される(ステップS6)。4〜5Hzの帯域成分は「スピーチらしい成分(スピーチ近似成分)」を意味しており、この処理によってスピーチに近似した信号(スピーチ近似信号)が抽出される。ステップS7では、帯域ろ波された信号中の低域成分が抽出され、この低域成分と4〜5Hzの帯域成分とに基づいてレベル補正がされる(ステップS8、第2の補正手段)。
次いで、パワー補正部70の処理では、抽出された3〜6Hzの帯域成分と第2の補正手段でレベル補正された信号との差分が演算され(ステップS9)、さらに、この差分信号のエンベロープから1.5Hz以下の低域成分がろ波される(ステップS10)。一方、第2の補正手段でレベル補正された信号のエンベロープからも1.5Hz以下の低域成分がろ波され(ステップS11)、この低域成分と、ステップS10で抽出された低域成分とに基づいてスピーチ疑似成分を抑圧するパワー補正が行われる(ステップS12)。
こうして、パワー補正がされた信号は、必要ならばディスプレイ上に波形表示され、また、所定のスライスレベル(閾値)でスライスされ(ステップS13)てポーズ部分が検出される。
次に、微小ポーズ部分除去処理が実行される(ステップS14)。なお、図中“PZは“ポーズ”を示す。この処理では、スライス処理された音声振幅値信号中から、例えば、ちょっとした息継ぎ程度の区間は検出対象から除外するために、検出時間範囲として、例えば、“1.5〜2秒”程度を設定し、その以下の時間を検出対象外として除去する処理である。これにより、意味を持たない無駄なポーズ検出が効果的に防止できる。図4には、ステップS14〜ステップS17の処理で出力される信号が図示されている。
ステップS15以下の処理では、スピーチ部分の書き起こし作業に適したポーズ検出処理である。ステップS14で検出したポーズをステップS15の処理で最小化する。図4(A)において、ステップS14では、4秒、2秒、1秒、4秒の4つのポーズが出力されている。図4(B)では、ステップS15の出力として、前記4つのポーズ出力を最小化した信号が生成されている。一方、ステップS16では、図4(C)に示すように、3秒程度以上の比較的長いポーズ部分のみが取り出される。ステップS17では、ステップS16の出力と、ステップS15の出力とのポーズをOR合成して新たなポーズ部分が生成される。ステップS17の出力で長いポーズは、スピーチのポーズであり、短いポーズは、息継ぎ箇所と考えて区切りとして利用される。
こうして検出されたポーズ区間は画面表示されると共に、ポーズの検出精度やスライスレベル設定の最適化などの目的でスピーチ区間を実測し、実測スピーチ区間と比較される(ステップS18)。これにより、実測されたスピーチ区間から導かれるポーズ区間と、検出されたポーズ区間とが比較され、比較によって、ポーズ検出精度をチェックしたり、スライスレベルが最適となるように変更することができる(ステップS17)。
<実験例>
図5は、背景音がかなり大きい番組A、番組Bについて、入力音声レベルを変化させた場合のスピーチ検出誤差(任意スケール)を示したものであり、(A)は数値例を、(B)は折れ線グラフ化した例を示している。レベル補正は、図3のステップS12までの処理に従った。
同図に示すように、図2のステップS12までに示すレベル補正を実行した結果、番組A、番組B共に入力音声レベルの変化に対する検出誤差の変動は小さく、十分に実用に耐え得ることが判った。
<第2の実施形態>
次に第2の実施形態を説明する。なお、第2の実施形態の基本的な装置構成は図2と同じため、図2を援用して説明する。
第2の実施形態では、主にスピーチ近似成分による番組音声レベルの補正および番組音声低域成分によるレベルの補正により入力音声レベル補正を行うようにしたものである。
第2の実施形態の音声レベル自動補正装置1は、図2に示したように、第1のレベル補正部50と、第2のレベル補正部60と、パワー補正部70とを備えている。図6のフローチャートを用いて後述するが、第1のレベル補正部50は、入力音声信号中の所定の帯域成分をろ波する第1の帯域ろ波手段と、前記入力音声信号と、第1の帯域ろ波手段の出力信号とから入力音声レベルを一定化するレベル補正を実行する第1の補正手段とを有している。また、第2のレベル補正部60は、第1の補正手段の出力信号中の所定の低域成分をろ波する低域ろ波手段と、第1の補正手段の出力信号と低域ろ波手段の出力信号との差分を求める差分演算手段と、前記低域ろ波手段の出力信号と前記差分演算手段の出力信号とから入力音声信号のレベル補正を実行する第2の補正手段とを有している。さらに、パワー補正部70は、第2の補正手段の出力信号を帯域ろ波する第2の帯域ろ波手段と、前記第2の補正手段の出力信号と第2の帯域ろ波手段の出力信号との差分を演算する第2の差分演算手段と、第2の差分演算手段の出力信号と帯域ろ波手段の出力信号とからスピーチ疑似成分を抑圧するパワー補正を行うパワー補正手段とを有しており、パワー補正手段の出力信号を所定の閾値でスライスしてスピーチ区間とポーズ区間とを検出可能にさせている。
図6は、本発明に係る音声レベル自動補正装置の第2の実施形態における処理手順を示すフローチャートである。
図6のフローチャートにおいて、ステップS21〜ステップS24の処理は、第1のレベル補正部50で実行され、ステップS25〜ステップS27の処理は、第2のレベル補正部60で実行され、ステップS28〜ステップS30の処理は、パワー補正部70で実行される。
まず、第1のレベル補正部50では、入力されたWAV形式の番組音声信号をアナログ形式の番組音声信号に変換した後、帯域ろ波を行って周波数帯域が4〜7Hzのスピーチ近似成分が抽出される(ステップS21〜S23)。番組音声のレベル補正の処理では、音声レベルをなるべく一定にするために、アナログ形式の番組音声信号Bと帯域ろ波後の帯域成分信号Dとから次式に基づく演算処理が実行されて音声レベルが補正される(ステップS24,第1の補正手段)。
(数1)
E=α・B/(D+β)
ここで、αはろ波器固有のフィルタ係数、βはレベル補正係数であり、β=200,300,500,700,・・の値をとるものとする。
次いで、第2のレベル補正部60では、レベル補正された信号中から1.5Hz以下の低域成分がろ波され(ステップS25)、この低域成分とレベル補正された信号との差分が演算される(ステップS26)。そして、低域ろ波された信号と、差分信号とから入力音声信号のレベル補正が実行される(ステップS27、第2の補正手段)。
次いで、パワー補正部70では、第2の補正手段でレベル補正された信号中から4〜7HZ程度の帯域成分が帯域ろ波され、この帯域成分と、第2の補正手段でレベル補正された信号との差分が演算される(ステップS29)。そして、差分信号と、帯域成分からスピーチ疑似成分を抑圧するパワー補正が実行される(ステップS30)。
以下のステップS31からステップS34の処理は、図3に示したステップS14からステップS19の処理と基本的に同じため、その説明は省略する。
<実験例>
自動レベル補正の実験は、かなり背景音の大きい番組音声も含む2種の番組A,Bの音声を例題とし、図6で示す第2の実施形態による処理法によって行った。これら番組音声に対して行った自動レベル補正の実験結果を、図7、図8のグラフに示した。
図7は、背景音がかなり大きい番組Aについて、入力音声レベルを変化させた場合のスピーチ検出誤差をレベル補正をしない場合と比較して示したものであり、(A)は数値例を、(B)は折れ線グラフ化した例を示している。同図において、KAは、入力信号レベルを示しており、KA=100%を標準として、半分のレベル(KA=50%)から2倍のレベル(KA=200%)まで変化された場合の検出誤差を示している。200,300,500,700は前述したレベル補正係数βを示し、NONはレベル補正をしない無補償を示している。
同図に示すように、無補償(NON)の場合には、入力音声レベルが100%付近での検出誤差はおよそ11%程度であるが、入力音声レベルが100%からプラス、マイナスいずれの方向にずれても検出誤差は急激に上昇し、実用には耐えられないことが判った。
これに対して、補償をした場合、補正係数βの大小によって多少の差があるものの、入力音声レベルが60%のとき、検出誤差は約12.5%前後、入力音声レベルが80%のとき、検出誤差は約9%前後と次第に低下していき、入力音声レベルが100%のとき、検出誤差は最低の7%前後となった。その後、入力音声レベルを上昇させていったがそのときの検出誤差は、急激に上昇することなく、なだらかに上昇していくことが判明した。図示のように、入力音声レベル200%での検出誤差は約10%前後であった。
図8は、背景音がやや大きい番組Bについて、入力音声レベルを変化させた場合のスピーチ検出誤差を示したもので、(A)は数値例を、(B)は折れ線グラフ化した例をレベル補正をしない場合と比較して示す。
図8に示すように、図7に示した「背景音がかなり大きい場合」ほどではないが、無補償の場合には、入力音声レベルが100〜110%程度でその検出誤差は任意単位で2.8程度であり、入力音声レベルが低下すると急激に検出誤差が増加して行く傾向があった。また、入力音声レベルが100%から上昇していくと、次第に検出誤差も上昇して行く傾向がみられた。これに対して、補償をした場合には、入力音声レベルが100%から70%付近では検出誤差は2.4程度、入力音声レベルが100〜200%の間でも、検出誤差はほとんど上昇することがなかった。このように、補償をすることによって検出誤差を著しく改善出来ることが判明した。
図7、図8に示すように、第2の実施形態による自動レベル補正を行った場合でも、レベル補正をしない場合と比較して検出誤差の増大を大幅に低減することができる。
本発明に係る音声レベル自動補正装置の構成例を示すブロック図。 本発明に係る音声レベル自動補正装置の実施形態を示すブロック図。 第1の実施形態の処理手順を示すフローチャート。 第1の実施形態の作用を説明するタイムチャート。 第1の実施形態を検証する実験例を示す説明図。 第2の実施形態の処理手順を示すフローチャート。 第2の実施形態を検証するための実験例を示す説明図であり、背景音がかなり大きい番組Aについて、入力音声レベルを変化させた場合のスピーチ検出誤差をレベル補正をしない場合と比較して示す。 第2の実施形態を検証するための実験例を示す説明図であり、背景音がやや大きい番組Bについて、入力音声レベルを変化させた場合のスピーチ検出誤差をレベル補正をしない場合と比較して示す。 従来の処理手順を示すフローチャート。 従来処理における波形例を示す説明図であり、番組音声波形とその波形に対応するパワー値の例を示す。 従来処理における波形例を示す説明図であり、時間軸を拡大した音声パワー値と特定周波数範囲の抽出成分値を示す。 従来処理における波形例を示す説明図であり、特定周波数範囲のパワー値のエンベロープ波形と実測ポーズ(スピーチ)部分である、ポーズ部分検出処理を示す。
符号の説明
1 音声レベル自動補正装置
10 スピーチ近似成分抽出部
20 レベル補正部
30 (第2)スピーチ近似成分抽出部
40 スライス部
50 第1のレベル補正部
60 第2のレベル補正部
70 パワー補正部

Claims (4)

  1. 入力音声信号中からスピーチ区間とポーズ区間とを検出する際に入力音声信号のレベル変動を自動補正する装置であって、
    第1のレベル補正部と、第2のレベル補正部と、パワー補正部とを備え、
    第1のレベル補正部は、
    入力音声信号中の所定の低域成分をろ波する第1の低域ろ波手段と、前記入力音声信号と、第1の低域ろ波手段の出力信号とから入力音声信号全体のレベルを所定のレベルにする第1の補正手段とを有し、
    第2のレベル補正部は、
    第1の補正手段の出力信号中から所定の帯域成分をろ波する第1の帯域ろ波手段と、第1の帯域ろ波手段の出力のエンベロープ信号中の所定の低域成分をろ波する第2の低域ろ波手段と、第1の帯域ろ波手段の出力信号を第2の低域ろ波手段の出力信号によりレベルの一定化を行う第2の補正手段とを有し、
    パワー補正部は、第1の帯域ろ波手段の出力信号と第2の補正手段の出力信号との差分を演算する差分演算手段と、差分演算手段の出力信号中の低域成分をろ波する第3の低域ろ波手段と、第2の補正手段の出力信号中の低域成分をろ波する第4の低域ろ波手段と、
    第3の低域ろ波手段の出力信号と第4の低域ろ波手段の出力信号とに基づいてパワー補正を行うパワー補正手段とを有し、
    パワー補正手段の出力信号を所定の閾値でスライスしてスピーチ区間とポーズ区間とを検出可能にさせる、
    ことを特徴とする音声レベル自動補正装置。
  2. 請求項1に記載の音声レベル自動補正装置において、
    前記第1、第2、および第3の低域ろ波手段の低域ろ波周波数は、およそ1.5Hz以下であり、
    前記第1の帯域ろ波手段の帯域ろ波周波数は、およそ3〜6Hzであり、
    前記第2の帯域ろ波手段の帯域ろ波周波数は、およそ4〜5Hzである、
    ことを特徴とする音声レベル自動補正装置。
  3. 入力音声信号中からスピーチ区間とポーズ区間とを検出する際に入力音声信号のレベル変動を自動補正する装置であって、
    第1のレベル補正部と、第2のレベル補正部と、パワー補正部とを備え、
    第1のレベル補正部は、入力音声信号中の所定の帯域成分をろ波する第1の帯域ろ波手段と、前記入力音声信号と、第1の帯域ろ波手段の出力信号とから入力音声レベルを一定化するレベル補正を実行する第1の補正手段とを有し、
    第2のレベル補正部は、第1の補正手段の出力信号中の所定の低域成分をろ波する低域ろ波手段と、第1の補正手段の出力信号と低域ろ波手段の出力信号との差分を求める差分演算手段と、前記低域ろ波手段の出力信号と前記差分演算手段の出力信号とから入力音声信号のレベル補正を実行する第2の補正手段とを有し、
    パワー補正部は、第2の補正手段の出力信号を帯域ろ波する第2の帯域ろ波手段と、前記第2の補正手段の出力信号と第2の帯域ろ波手段の出力信号との差分を演算する第2の差分演算手段と、第2の差分演算手段の出力信号と帯域ろ波手段の出力信号とからパワー補正を行うパワー補正手段とを有し、
    パワー補正手段の出力信号を所定の閾値でスライスしてスピーチ区間とポーズ区間とを検出可能にさせる、
    ことを特徴とする音声レベル自動補正装置。
  4. 請求項3に記載の音声レベル自動補正装置において、
    前記第1、第2の帯域ろ波手段の帯域ろ波周波数は、およそ4〜6Hzであり、
    前記低域ろ波手段の低域ろ波周波数は、およそ2Hz以下である、
    ことを特徴とする音声レベル自動補正装置。
JP2003354938A 2003-10-15 2003-10-15 音声レベル自動補正装置 Expired - Lifetime JP4552064B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003354938A JP4552064B2 (ja) 2003-10-15 2003-10-15 音声レベル自動補正装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003354938A JP4552064B2 (ja) 2003-10-15 2003-10-15 音声レベル自動補正装置

Publications (2)

Publication Number Publication Date
JP2005121786A JP2005121786A (ja) 2005-05-12
JP4552064B2 true JP4552064B2 (ja) 2010-09-29

Family

ID=34612704

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003354938A Expired - Lifetime JP4552064B2 (ja) 2003-10-15 2003-10-15 音声レベル自動補正装置

Country Status (1)

Country Link
JP (1) JP4552064B2 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61223796A (ja) * 1985-03-29 1986-10-04 沖電気工業株式会社 音声区間検出回路
JPH02140021A (ja) * 1988-11-19 1990-05-29 Sony Corp 波形データ圧縮符号化方法及び装置
JPH06236195A (ja) * 1993-02-12 1994-08-23 Sony Corp 音声区間検出方法
JPH06332491A (ja) * 1993-05-21 1994-12-02 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 音声区間検出装置と雑音抑圧装置
JP2002091487A (ja) * 2000-07-10 2002-03-27 Matsushita Electric Ind Co Ltd 音声認識装置、音声認識方法および音声認識プログラム
JP2003244539A (ja) * 2002-02-18 2003-08-29 Telecommunication Advancement Organization Of Japan 逐次自動字幕制作処理システム
JP2004004343A (ja) * 2002-05-31 2004-01-08 Telecommunication Advancement Organization Of Japan 音声のスピーチ/ポーズ区間検出装置
JP2004212799A (ja) * 2003-01-07 2004-07-29 Telecommunication Advancement Organization Of Japan 書起し支援装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61223796A (ja) * 1985-03-29 1986-10-04 沖電気工業株式会社 音声区間検出回路
JPH02140021A (ja) * 1988-11-19 1990-05-29 Sony Corp 波形データ圧縮符号化方法及び装置
JPH06236195A (ja) * 1993-02-12 1994-08-23 Sony Corp 音声区間検出方法
JPH06332491A (ja) * 1993-05-21 1994-12-02 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 音声区間検出装置と雑音抑圧装置
JP2002091487A (ja) * 2000-07-10 2002-03-27 Matsushita Electric Ind Co Ltd 音声認識装置、音声認識方法および音声認識プログラム
JP2003244539A (ja) * 2002-02-18 2003-08-29 Telecommunication Advancement Organization Of Japan 逐次自動字幕制作処理システム
JP2004004343A (ja) * 2002-05-31 2004-01-08 Telecommunication Advancement Organization Of Japan 音声のスピーチ/ポーズ区間検出装置
JP2004212799A (ja) * 2003-01-07 2004-07-29 Telecommunication Advancement Organization Of Japan 書起し支援装置

Also Published As

Publication number Publication date
JP2005121786A (ja) 2005-05-12

Similar Documents

Publication Publication Date Title
US7286749B2 (en) Moving image playback apparatus, moving image playback method, and computer program thereof with determining of first voice period which represents a human utterance period and second voice period other than the first voice period
JP5267115B2 (ja) 信号処理装置、その処理方法およびプログラム
US8190432B2 (en) Speech enhancement apparatus, speech recording apparatus, speech enhancement program, speech recording program, speech enhancing method, and speech recording method
US9774747B2 (en) Transcription system
KR20060123072A (ko) 오디오 신호의 재생을 제어하는 방법 및 장치
JP2008546016A (ja) マルチメディア信号で自動的なダビングを実行する方法及び装置
EP1426926B1 (en) Apparatus and method for changing the playback rate of recorded speech
JP2012063726A (ja) 音質補正装置及び音声補正方法
JP2010283605A (ja) 映像処理装置及び方法
JP4552064B2 (ja) 音声レベル自動補正装置
US6704671B1 (en) System and method of identifying the onset of a sonic event
JP3643372B1 (ja) 放送信号監視装置及び放送信号監視方法
JP4314376B2 (ja) 書起し支援装置
JP2007072273A (ja) 音声信号判別装置、音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体
JP4280893B2 (ja) 音声のスピーチ/ポーズ区間検出装置
US7092884B2 (en) Method of nonvisual enrollment for speech recognition
JP2006350246A (ja) スピーチ/ポーズ区間検出装置
JP3944830B2 (ja) スピーチ近似データによる字幕用データ作成・編集支援システム
JP4381108B2 (ja) 話速変換装置における時報処理装置
JP4313724B2 (ja) 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体
JPH07295588A (ja) 発話速度推定方法
JP6313619B2 (ja) 音声信号処理装置及びプログラム
John et al. Phonetic analysis vs. dirty signals: Fixing the paradox
JP2007174074A (ja) 再生装置
JP2004140583A (ja) 情報提示装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060807

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100601

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100625

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130723

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4552064

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130723

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term