JP4280893B2

JP4280893B2 - 音声のスピーチ／ポーズ区間検出装置

Info

Publication number: JP4280893B2
Application number: JP2002160255A
Authority: JP
Inventors: 英治沢村; 隆雄門馬; 則好浦谷; 克彦白井
Original assignee: NEC Corp; National Institute of Information and Communications Technology; NHK Engineering Services Inc; Japan Broadcasting Corp
Current assignee: NEC Corp; National Institute of Information and Communications Technology; Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2002-05-31
Filing date: 2002-05-31
Publication date: 2009-06-17
Anticipated expiration: 2022-05-31
Also published as: JP2004004343A

Description

【０００１】
【発明の属する技術分野】
本発明は、放送番組音声などを対象とするスピーチ区間とポーズ区間とを効果的に検出する音声のスピーチ／ポーズ区間検出装置に関する。
【０００２】
［発明の概要］
本発明は、放送番組音声などを対象とするスピーチ／ポーズ区間の検出装置に関するものであり、特に音声信号におけるスピーチとその他の音声の特徴差を活用し、音声パワー値などの適当な周波数範囲の抽出とレベル補正などを行うことによって、ポーズ部分（非スピーチ部分）を簡単かつ精度良く検出する。
【０００３】
音声などのポーズ部分検出は、一般的な音声信号処理でも効果的な手法の一つであるが、字幕番組制作関連でも字幕用テキストとしてのスピーチ部分の書起し、スピーチ、ポーズを利用した番組音声の分割、字幕のタイミング付与など多くの用途があり、字幕制作の効率化に寄与する技術である。
【０００４】
【従来の技術】
放送番組音声などのポーズ部分を、簡単かつ精度良く検出できる手法が有ると、その後の音声処理などに大きな効果が期待できる。
【０００５】
また、番組音声などのポーズ部分やスピーチ区間の検出は、字幕用テキストとしてのスピーチ区間の書起し、スピーチポーズの検出、字幕へのタイミング付与など、字幕制作に関連しても多くの用途がある。ポーズ区間を検出して字幕へのタイミング付与を行う先行例としては、本発明者が提唱した特願２００１−１６０９８４があり、また音声のポーズ区間の検出には、音声レベルの特徴を利用するブロック・ケプストラム・フラックス法がある。ブロック・ケプストラム・フラックス法は、音響データ内の複数のＬＰＣケプストラムベクトルを基準フレームから相互に比較することで、音響データ内容の切り替わり点をより安定に検出する方法である。図１０は、この手法によるポーズ／スピーチ区間検出の実験例である。しかし、この実験例では、音楽や動物の鳴き声などの背景音があるため、検出されたスピーチ区間は、実測したスピーチ区間と比較すると不十分な点が多い。
【０００６】
【発明が解決しようとする課題】
ところで、字幕付きテレビ放送番組を受信者が利用する際、字幕が読み易く、理解し易いものであることが重要である。したがって、字幕番組制作における字幕原稿作成では、熟練した人手を使い、多大な労力と時間を掛けて、読み易くて理解し易い字幕の制作を試みている。
【０００７】
しかしながら、今後適用番組の分野や番組数などの拡大を進めている字幕放送において、この熟練した人手、多大な労力と時間を要するこのような形態の字幕番組制作システムは、字幕番組制作上の大きなネックとなっており、その改善が急がれている。
【０００８】
現在最も多く行われている字幕番組制作形態では、タイムコードを映像にスーパーした番組テープまたはタイムコードを音声チャンネルに記録した番組テープおよび番組台本を素材とし、これを放送関係経験者など専門知識のある人によって、処理（１）番組スピーチの書起し、処理（２）字幕イメージ化,および処理（３）その開始・終了タイムコード記入の各作業を行い、字幕用の原稿を作成している。この字幕原稿をもとに、オペレータが電子化字幕データを作成し、担当の字幕制作責任者、原稿作成者、電子化したオペレータ立ち会いのもとで、試写・校正を行って完成字幕としている。
【０００９】
上述した処理（１）〜処理（３）の作業の中でより多くの時間を必要とするのは、処理（１）の番組スピーチの書起し作業であり、この作業では、番組スピーチを聴取して字幕原稿を作成するという点において最も人間の知能に負うところが多い
すなわち、番組スピーチの書起し作業は、番組テープを再生操作して音声を聴取し、音声中のスピーチ開始点からテープを再生聴取しつつ、ワープロや筆記で書起しを行う。実際には、書起し作業者の書起し速度や内容確認などのため、一区切りのスピーチ区間を対象として録音テープの頭出し・再生操作を繰り返し、書起し作業が行われる。したがって、書起し作業は、テープの頭出し・再生といった煩雑なテープ操作と、スピーチの聴取、書起しといった人間の知能に負う負担の多い業務である。
【００１０】
音声などのスピーチ区間をポーズ部分検出を活用して適切に検出できると、書起し作業における前記「一区切りのスピーチ区間についてテープの頭出し・再生操作の繰り返し」を自動化することが可能であり、またこの区間のスピーチについて、書起しし易いような適当な低速化再生や繰り返し、ポーズの挿入を行うことも可能である。また、逆に非スピーチ区間については高速送りなどして時間節約することも可能である。その結果、書起し作業者は、書起し作業に専念することができ、字幕用テキストの正確・迅速な作成に大いに貢献することができる。
【００１１】
また、字幕番組の急速な拡充が要請されている状況下、字幕制作作業者もこのような専門家のみに頼るのみでは不十分であり、専門家ではないワープロ作業が一応できる程度の人にも作業の一端を分担できるシステムが可能になる。
【００１２】
本発明は、上記事情に鑑みてなされたものであり、ポーズ部分、スピーチ区間を簡単かつ精度良く検出することのできる音声のスピーチ／ポーズ区間検出装置を提供することを目的としている。
【００１３】
【課題を解決するための手段】
上記の目的を達成するために本発明は、入力された音声信号中からスピーチ区間とポーズ区間とを検出する装置であって、入力された音声信号の振幅レベルまたはパワーレベルを示すレベル信号から、そのエンベロープの低域成分のみを取り出すとともに、取り出した低域成分から絶対値化された波形信号を生成し、この波形信号からディジタル帯域ろ波処理によって、通常の速度におけるスピーチの変動特性を示す４〜７Ｈｚの特定周波数成分を抽出する特定周波数成分抽出手段と、抽出された特定周波数成分のエンベロープ波形を求め、求められたエンベロープ波形信号に対して所定のスライスレベルを設定し、スライスレベル以上の信号部分を近似スピーチ区間として、所定のスライスレベル以下の信号部分をポーズ区間として検出するスピーチ／ポーズ区間検出手段とを備えたことを特徴としている。
【００１５】
請求項２では、請求項１に記載の音声のスピーチ／ポーズ区間検出装置において、入力音声信号がステレオ信号である場合、左右のいずれか一方の信号レベルが他方の信号レベルに比較して差がある場合には、当該一方の信号に基づく検出結果を補正するステレオ成分補正手段を備えたことを特徴としている。
【００１６】
請求項３では、請求項１または２に記載の音声のスピーチ／ポーズ区間検出装置において、前記スピーチ／ポーズ区間検出手段は、ポーズ区間として検出された信号部分の内、所定時間以下の微小ポーズ分を検出対象から除外する微小ポーズ分除去手段を備えたことを特徴としている。
【００１７】
上記構成の本発明を検証する。音声などのスピーチ区間をポーズ部分検出を活用して適切に検出できると、上述した字幕番組制作の書起し作業における前記「一区切りのスピーチ区間についてテープの頭出し・再生操作の繰り返し」を自動化することが可能であり、またこの区間のスピーチについて、書起しし易いような適当な低速化再生や繰り返し、ポーズの挿入を行うことも可能である。また、逆に非スピーチ区間については高速送りなどして時間節約することも可能である。その結果、書起し作業者は、書起し作業に専念することができ、字幕用テキストの正確・迅速な作成に大いに貢献することができる。
【００１８】
現在放送中の字幕番組のなかで、予めアナウンス原稿が作成され、その原稿がほとんど修正されることなく実際の放送字幕となっていると推測される番組がいくつかある。例えば、「生きもの地球紀行」という字幕付き情報番組を実際に調べて見ると、アナウンス音声と字幕内容はほとんど共通であり、共通の原稿をアナウンス用と字幕用の双方に利用しているものと推測出来る。
【００１９】
このようにアナウンス音声と字幕内容が極めて類似し、アナウンス用と字幕用の双方にほぼ共通の原稿を利用しており、その原稿が電子化されている番組を想定した場合、従来の技術の欄で説明した処理（１）の番組アナウンスの要約書起し作業はほとんど必要ないことになる。この場合、残る作業は、処理（２）の字幕表示イメージ化、及び処理（３）の開始・終了タイムコード記入、の各作業工程である。
【００２０】
処理（２）の字幕表示イメージ化は、字幕テキスト文を字幕表示に適した行数、文字数の各表示単位字幕文に分割するものであるが、音声の長いポーズにまたがる字幕分割は好ましくない。その理由は、表示単位字幕文が長いポーズの前後の字幕つまり時間的・空間的に無関係な字幕で構成されることとなるからである。長いポーズつまり非スピーチ区間の検出は、表示単位字幕文への分割にも活用することができる。
【００２１】
処理（３）の開始・終了タイムコード付与における開始・終了のタイミングの多くは、スピーチ区間の開始・終了であり、ポーズ部分の検出結果を活用することで可能である。
【００２２】
例えば、文単位でのアナウンス音声の開始、終了のタイミングをポーズ部分検出を活用して求め、そのタイミングを表示単位字幕文の開始、終了のタイミングの少なくとも一部として適用することによって、自動的なタイミングの付与を高速化することができる。また、従来、表示単位字幕文の開始、終了タイミングの付与は、人手によるか、またはその各タイミングを比較的時間を要する音声と字幕テキスト文との照合によっていたため、多くの時間を必要としていたが、そのタイミング付与を自動化・高速化することによって、今後適用分野・番組数などの拡大が見込まれる字幕放送の字幕番組制作上に大きな効果が期待できる。
【００２３】
このようにポーズ部分の検出は、前述したように字幕番組制作の処理（１）〜処理（３）の各段階で広く活用できる可能性があり、しかもこれらの処理は、番組音声時間の数十分の一以下の時間で高速処理可能なものであり、極めて有効な手法であると考えられる。
【００２４】
【発明の実施の形態】
図１は本発明による音声のスピーチ／ポーズ区間検出装置の実施形態を示すブロック図である。なお、この図は、以下に説明する第１〜第３の実施形態において共通に使用することとする。
【００２５】
同図に示す音声のスピーチ／ポーズ区間検出装置１は、コンピュータのソフトウェアで処理されるものであり、その機能上、入力された音声信号の振幅レベルまたはパワーレベルを示すレベル信号から、通常の速度におけるスピーチの変動特性を示す特定周波数成分を抽出する特定周波数成分抽出手段３と、抽出された特定周波数成分のエンベロープ波形を求め、求められたエンベロープ波形信号に対して所定のスライスレベルを設定してポーズ区間を検出するポーズ区間検出手段５とを備えている。
【００２６】
＜第１の実施形態＞
この第１の実施形態では、特定周波数成分抽出手段３は、入力された音声信号の振幅レベル信号から、通常の速度におけるスピーチの変動特性を示す４〜７Ｈｚの特定周波数成分を抽出する。そして、ポーズ区間検出手段５は、抽出された特定周波数成分のエンベロープ波形を求め、求められたエンベロープ波形信号に対して所定のスライスレベルを設定してポーズ区間を検出する。
【００２７】
次に本実施の形態の動作について図２のフローチャート、図３乃至図７の特性図等を参照して詳述する。
【００２８】
先ず、図３（Ａ）に示すような振幅波形を持つ番組音声信号を取り込んで、音声振幅値の基準化処理を実行する（ステップＳＴ１，ＳＴ３）。この処理では、取り込まれた番組音声信号中からそのエンベロープの低域成分のみを取り出して（ステップＳＴ５）、この低域成分の振幅値を基として信号成分を所定レベルの大きさにする処理である。一般に、低域成分のレベルが大きい場合には高域成分のレベルも大きいと考えられる。レベルに違いがあると検出精度に影響を与えるので、ある程度のレベル基準化を図る必要があるからである。
【００２９】
こうして音声振幅値の基準化がされた音声信号は、次に、絶対値化処理がされて、図３（Ｂ）に示すような＋側に折り返した振幅値波形信号（Ｌｃｈ，Ｒｃｈのステレオ音声信号）と成る（ステップＳＴ７）。図４（Ａ）の波形は、図３（Ｂ）に矢印で示した範囲の時間軸を１０倍に拡大して示したものである。
【００３０】
次いで、絶対値化された振幅値波形信号からディジタル高域ろ波処理（ステップＳＴ９）、ディジタル帯域ろ波処理（ステップＳＴ１１）が実行される。ディジタル高域ろ波処理では、２Ｈｚ以上の周波数の信号が取り出され、ディジタル帯域ろ波処理では、４〜７Ｈｚの周波数の信号が取り出される。図４（Ｂ）の波形は、４〜７Ｈｚ成分の信号波形である。
【００３１】
スピーチに関する時間軸方向の変動特性をスピーチの発音記号列と比較すると、母音の発音記号に対応する音声パワーが他の部分よりも大きくなる傾向があることが知られている。そして、通常速度のスピーチにおける信号波形の時間軸方向への変動は、４〜７Ｈｚ程度の周波数となっていることが分かっている。本発明は、この波形の時間軸方向の変動に着目し、大まかな周期性を捉えることでポーズ部分の検出をするものである。
【００３２】
ディジタル帯域ろ波処理で４〜７Ｈｚの周波数の信号が取り出され、さらに絶対値化処理（ステップＳＴ１２）をすると、スピーチに類似した波形の信号となる。一方、演算処理（ステップＳＴ１３）が実行されると、これら取り出された信号の差分が抽出され、さらに絶対値化処理（ステップＳＴ１５）、ディジタル低域ろ波処理（ステップＳＴ１７）が実行される。レベル補正処理（ステップＳＴ１９）では、低域ろ波処理で生成された０．５Ｈｚ以下の低域成分の波形はスピーチ成分以外の成分が多いので、このレベルを参照して、ステップＳＴ１２出力のスピーチ類似波形信号のレベルを逆方向に補正する処理がされる。この処理後のスピーチ近似波形を図５に示す。
【００３３】
こうして、レベル補正がされたエンベロープ波形信号は、ディスプレイ上に波形表示される（ステップＳＴ２１）。そして、図５に示すように、所定のスライスレベル（閾値）でスライスされる（ステップＳＴ２３）。
【００３４】
次に、微小ポーズ区間除去処理が実行される（ステップＳＴ２５）。この処理では、スライス処理された音声振幅値信号中から、例えば、ちょっとした息継ぎ程度の区間は検出対象から除外するために、検出時間範囲として、例えば、“１．５〜２秒”程度を設定し、その以下の時間を検出対象外として除去する処理である。これにより、意味を持たない無駄なポーズ検出が効果的に防止できる。
【００３５】
こうして検出されたポーズ区間は画面表示される（ステップＳＴ２７）。ポーズの検出精度やスライス（ステップＳＴ２３）レベル設定の最適化などの目的でスピーチ区間を実測し、図５に示すように、実測スピーチ区間と比較される（ステップＳＴ２９）。これにより、実測されたスピーチ区間から導かれるポーズ区間と、検出されたポーズ区間とが比較され、比較によって、ポーズ検出精度をチチェックしたり、スライスレベルが最適となるように変更することができた。
【００３６】
＜実験結果＞
図６は、ポーズ検出の実験結果を示している。この実験では、４つの番組音声Ａ，Ｂ，Ｃ，Ｄについて、２値化スライスレベル（ＳＳＬ）を２．２〜３．８まで０．２ずつ変化させたときの検出率（％）と誤り率（％）をそれぞれ調べたものである。図７は、各番組音声別にスライスレベルに対するポーズ部分の検出率と誤り率をグラフ表示したものである。
【００３７】
最初の２つの番組Ａ，Ｂは比較的小さい背景音が存在する音声であり、番組Ｄが最も背景音が大きい音声である。また、実測値として、番組Ａには７個、番組Ｂには４５個、番組Ｃには１４個、番組Ｄには４９個のそれぞれポーズ区間（１秒程度以上）が存在する。また、検出％は正しく検出できた場合、誤り％はポーズでない所を検出した割合を示し、ＳＬＬは２値化スライスレベルである。
【００３８】
各図から理解できるように、番組Ａでは、スライスレベル“３．０”から検出率が１００％となり、“２．２〜３．６”全範囲で誤り率は０％という良好な結果が得られた。番組Ｂでは、スライスレベル“３．０”から検出率は１００％、スライスレベル“３．４”で誤り率は４％となり、これもほぼ良好な結果となった。また、番組Ｃでは、スライスレベル“３．４”以上で検出率は９２％となり、飽和した。このとき、誤り率はスライスレベル“３．４”以上で、５％、１５％と上昇していった。さらに、番組Ｄでは、スライスレベル“３．４”以上で検出率は９８％となり、飽和したが、誤り率は、スライスレベル“３．２”から、２％、４％、１０％と上昇していく傾向が確認された。
【００３９】
このように番組音声のポーズ検出では、検出率が低くても誤り率が極力低いもの、反対に多少誤り率が高くても検出率が高いものが存在する。このため、この実験結果から分かるように、ポーズ部分の検出の用途に応じて、適切な検出結果が得られるようにスライスレベルを設定して使用する。
【００４０】
＜第２の実施形態＞
図８は本発明による音声のスピーチ／ポーズ区間検出装置の第２の実施形態の処理手順を示すフローチャートである。
【００４１】
第１の実施形態では、番組音声の振幅値を入力信号とし、その振幅レベルの大きさ基づいてポーズ区間を検出するようにしたが、第２の実施形態では、番組音声のパワー値（電力値）を入力信号とし、そのパワーレベルの大きさに基づいてポーズ区間を検出するようにしている。
【００４２】
すなわち、ステップＳＴ４７のパワー補正１の処理では、低域ろ波処理（ステップＳＴ４３）で求められた４Ｈｚ以下の信号成分のパワーレベルによって４Ｈｚ以上の高域信号成分のパワーレベルを補正してパワーレベルの違いに起因する検出精度の劣化を防止している。次のステップＳＴ４９の処理では、図４（Ｂ）に示したような４〜７Ｈｚの帯域成分を抽出する。ステップＳＴ４９のパワー補正２は、４〜７Ｈｚの帯域成分の中でも信号レベルの大きい部分は実際のポーズ検出には不要であるため、リミットを掛けて圧縮する処理である。以下、ステップＳＴ５３からステップＳＴ６３までの処理は、図２のステップＳＴ２１からステップＳＴ３１までの処理と同様であるため、説明は省略する。
【００４３】
このようにしても、第１の実施形態と同様な作用効果を得ることができる。
【００４４】
＜第３の実施形態＞
図９は本発明による音声のスピーチ／ポーズ区間検出装置の第３の実施形態の処理手順を示すフローチャートである。
【００４５】
第３の実施形態は、入力信号として２ｃｈのステレオ信号を想定したものであり、右のいずれか一方の信号レベルが他方の信号レベルに比較して大きな差がある場合には、当該一方の信号に基づく検出結果を補正するステレオ成分補正手段を設けたものである。通常の番組音声では、スピーチは中央から聞こえるように左右ほぼ同レベルになっている。したがって、左右チャンネル間に差がある場合、その差分はスピーチ成分ではなく、ポーズ検出に悪影響を与える。例えば、図５に円Ｃで囲んだＬｃｈ信号成分は、Ｒｃｈ信号成分と比較して突出した高い信号レベルを表している。この高い信号レベルの部分は、誤検出の恐れがあるため、取り除いておくのが望ましい。
【００４６】
このため、図９のフローチャートに示すように、左音声信号のパワー値を基準として、右音声信号のパワー値との差分を演算し（ステップＳＴ８３，ＳＴ８５）、この差分信号の低域成分を抽出し、この低域成分で左音声系統で抽出したスピーチ類似信号を補正するものである（ステップＳＴ８９）。なお、その他の処理は、図８の処理と同様であるため、その説明は省略する。
【００４７】
このように、第３の実施形態によれば、第１、第２の実施形態と同様な効果を奏すると共に、ステレオ信号を効果的に利用することにより、ポーズ区間の誤検出を防止することが可能となる。
【００４８】
以上の各実施形態に示したポーズ区間の検出は、番組テープを再生操作して音声を聴取し、音声中のスピーチ開始点からテープを再生聴取しつつ、ワープロや筆記で書起しを行うという“番組スピーチの書起し”作業において、テープの再生操作、頭出しなどの自動化を可能とし、作業効率を飛躍的に向上させることができる。また、番組スピーチの書起しの他に、字幕イメージ化、およびその開始・終了タイムコード記入の各作業で広く活用できる可能性があり、しかもこれらの処理は、番組音声時間の数十分の一以下の時間で高速処理可能なものであり、極めて有効な手法である。
【００４９】
【発明の効果】
以上説明したように本発明によれば、ポーズ部分、スピーチ区間を簡単かつ精度良く検出することが可能となる。
【００５０】
また、入力信号がステレオ信号の場合、このステレオ信号を効果的に利用した誤検出の防止が可能となる。
【図面の簡単な説明】
【図１】本発明による音声のスピーチ／ポーズ区間検出装置の実施形態を示すブロック図である。
【図２】本発明による音声のスピーチ／ポーズ区間検出装置の第１の実施形態の処理手順を示すフローチャートである。
【図３】番組音声信号波形と、この波形に対応する振幅レベル信号またはパワーレベル信号を示す説明図である。
【図４】図３に示した振幅レベル信号またはパワーレベル信号を時間軸を拡大して示すと共に特性周波数範囲の抽出成分値を示す説明図である。
【図５】図４に示した特定周波数範囲の振幅レベル信号またはパワーレベル信号のエンベロープ波形と実測ポーズ（スピーチ）部分を示す説明図である。
【図６】ポーズ部分の検出処理の実験例を示す説明図である。
【図７】図６に示したポーズ部分の検出処理の実験例をグラフ表示した説明図である。
【図８】本発明による音声のスピーチ／ポーズ区間検出装置の第２の実施形態の処理手順を示すフローチャートである。
【図９】本発明による音声のスピーチ／ポーズ区間検出装置の第３の実施形態の処理手順を示すフローチャートである。
【図１０】ブロック・ケプストラム・フラックス法を用いてポーズ／スピーチ区間を検出した実験例を示す説明図である。
【符号の説明】
１音声のスピーチ／ポーズ区間検出装置
３特定周波数成分抽出手段
５ポーズ区間検出手段

Claims

入力された音声信号中からスピーチ区間とポーズ区間とを検出する装置であって、
入力された音声信号の振幅レベルまたはパワーレベルを示すレベル信号から、そのエンベロープの低域成分のみを取り出すとともに、取り出した低域成分から絶対値化された波形信号を生成し、この波形信号からディジタル帯域ろ波処理によって、通常の速度におけるスピーチの変動特性を示す４〜７Ｈｚの特定周波数成分を抽出する特定周波数成分抽出手段と、
抽出された特定周波数成分のエンベロープ波形を求め、求められたエンベロープ波形信号に対して所定のスライスレベルを設定し、所定のスライスレベル以上の信号部分を近似スピーチ区間として、所定のスライスレベル以下の信号部分をポーズ区間として検出するスピーチ／ポーズ区間検出手段と、
を備えたことを特徴とする音声のスピーチ／ポーズ区間検出装置。
請求項１に記載の音声のスピーチ／ポーズ区間検出装置において、
入力音声信号がステレオ信号である場合、左右のいずれか一方の信号レベルが他方の信号レベルに比較して差がある場合には、当該一方の信号に基づく検出結果を補正するステレオ成分補正手段、
を備えたことを特徴とする音声のスピーチ／ポーズ区間検出装置。
請求項１または２に記載の音声のスピーチ／ポーズ区間検出装置において、
前記スピーチ／ポーズ区間検出手段は、ポーズ区間として検出された信号部分の内、所定時間以下の微小ポーズ分を検出対象から除外する微小ポーズ分除去手段、
を備えたことを特徴とする音声のスピーチ／ポーズ区間検出装置。