JP4280893B2 - 音声のスピーチ/ポーズ区間検出装置 - Google Patents

音声のスピーチ/ポーズ区間検出装置 Download PDF

Info

Publication number
JP4280893B2
JP4280893B2 JP2002160255A JP2002160255A JP4280893B2 JP 4280893 B2 JP4280893 B2 JP 4280893B2 JP 2002160255 A JP2002160255 A JP 2002160255A JP 2002160255 A JP2002160255 A JP 2002160255A JP 4280893 B2 JP4280893 B2 JP 4280893B2
Authority
JP
Japan
Prior art keywords
speech
signal
pause
pause section
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002160255A
Other languages
English (en)
Other versions
JP2004004343A (ja
Inventor
英治 沢村
隆雄 門馬
則好 浦谷
克彦 白井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
National Institute of Information and Communications Technology
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
NEC Corp
National Institute of Information and Communications Technology
NHK Engineering Services Inc
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, National Institute of Information and Communications Technology, NHK Engineering Services Inc, Japan Broadcasting Corp filed Critical NEC Corp
Priority to JP2002160255A priority Critical patent/JP4280893B2/ja
Publication of JP2004004343A publication Critical patent/JP2004004343A/ja
Application granted granted Critical
Publication of JP4280893B2 publication Critical patent/JP4280893B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、放送番組音声などを対象とするスピーチ区間とポーズ区間とを効果的に検出する音声のスピーチ/ポーズ区間検出装置に関する。
【0002】
[発明の概要]
本発明は、放送番組音声などを対象とするスピーチ/ポーズ区間の検出装置に関するものであり、特に音声信号におけるスピーチとその他の音声の特徴差を活用し、音声パワー値などの適当な周波数範囲の抽出とレベル補正などを行うことによって、ポーズ部分(非スピーチ部分)を簡単かつ精度良く検出する。
【0003】
音声などのポーズ部分検出は、一般的な音声信号処理でも効果的な手法の一つであるが、字幕番組制作関連でも字幕用テキストとしてのスピーチ部分の書起し、スピーチ、ポーズを利用した番組音声の分割、字幕のタイミング付与など多くの用途があり、字幕制作の効率化に寄与する技術である。
【0004】
【従来の技術】
放送番組音声などのポーズ部分を、簡単かつ精度良く検出できる手法が有ると、その後の音声処理などに大きな効果が期待できる。
【0005】
また、番組音声などのポーズ部分やスピーチ区間の検出は、字幕用テキストとしてのスピーチ区間の書起し、スピーチポーズの検出、字幕へのタイミング付与など、字幕制作に関連しても多くの用途がある。ポーズ区間を検出して字幕へのタイミング付与を行う先行例としては、本発明者が提唱した特願2001−160984があり、また音声のポーズ区間の検出には、音声レベルの特徴を利用するブロック・ケプストラム・フラックス法がある。ブロック・ケプストラム・フラックス法は、音響データ内の複数のLPCケプストラムベクトルを基準フレームから相互に比較することで、音響データ内容の切り替わり点をより安定に検出する方法である。図10は、この手法によるポーズ/スピーチ区間検出の実験例である。しかし、この実験例では、音楽や動物の鳴き声などの背景音があるため、検出されたスピーチ区間は、実測したスピーチ区間と比較すると不十分な点が多い。
【0006】
【発明が解決しようとする課題】
ところで、字幕付きテレビ放送番組を受信者が利用する際、字幕が読み易く、理解し易いものであることが重要である。したがって、字幕番組制作における字幕原稿作成では、熟練した人手を使い、多大な労力と時間を掛けて、読み易くて理解し易い字幕の制作を試みている。
【0007】
しかしながら、今後適用番組の分野や番組数などの拡大を進めている字幕放送において、この熟練した人手、多大な労力と時間を要するこのような形態の字幕番組制作システムは、字幕番組制作上の大きなネックとなっており、その改善が急がれている。
【0008】
現在最も多く行われている字幕番組制作形態では、タイムコードを映像にスーパーした番組テープまたはタイムコードを音声チャンネルに記録した番組テープおよび番組台本を素材とし、これを放送関係経験者など専門知識のある人によって、処理(1)番組スピーチの書起し、処理(2)字幕イメージ化,および処理(3)その開始・終了タイムコード記入の各作業を行い、字幕用の原稿を作成している。この字幕原稿をもとに、オペレータが電子化字幕データを作成し、担当の字幕制作責任者、原稿作成者、電子化したオペレータ立ち会いのもとで、試写・校正を行って完成字幕としている。
【0009】
上述した処理(1)〜処理(3)の作業の中でより多くの時間を必要とするのは、処理(1)の番組スピーチの書起し作業であり、この作業では、番組スピーチを聴取して字幕原稿を作成するという点において最も人間の知能に負うところが多い
すなわち、番組スピーチの書起し作業は、番組テープを再生操作して音声を聴取し、音声中のスピーチ開始点からテープを再生聴取しつつ、ワープロや筆記で書起しを行う。実際には、書起し作業者の書起し速度や内容確認などのため、一区切りのスピーチ区間を対象として録音テープの頭出し・再生操作を繰り返し、書起し作業が行われる。したがって、書起し作業は、テープの頭出し・再生といった煩雑なテープ操作と、スピーチの聴取、書起しといった人間の知能に負う負担の多い業務である。
【0010】
音声などのスピーチ区間をポーズ部分検出を活用して適切に検出できると、書起し作業における前記「一区切りのスピーチ区間についてテープの頭出し・再生操作の繰り返し」を自動化することが可能であり、またこの区間のスピーチについて、書起しし易いような適当な低速化再生や繰り返し、ポーズの挿入を行うことも可能である。また、逆に非スピーチ区間については高速送りなどして時間節約することも可能である。その結果、書起し作業者は、書起し作業に専念することができ、字幕用テキストの正確・迅速な作成に大いに貢献することができる。
【0011】
また、字幕番組の急速な拡充が要請されている状況下、字幕制作作業者もこのような専門家のみに頼るのみでは不十分であり、専門家ではないワープロ作業が一応できる程度の人にも作業の一端を分担できるシステムが可能になる。
【0012】
本発明は、上記事情に鑑みてなされたものであり、ポーズ部分、スピーチ区間を簡単かつ精度良く検出することのできる音声のスピーチ/ポーズ区間検出装置を提供することを目的としている。
【0013】
【課題を解決するための手段】
上記の目的を達成するために本発明は、入力された音声信号中からスピーチ区間とポーズ区間とを検出する装置であって、入力された音声信号の振幅レベルまたはパワーレベルを示すレベル信号から、そのエンベロープの低域成分のみを取り出すとともに、取り出した低域成分から絶対値化された波形信号を生成し、この波形信号からディジタル帯域ろ波処理によって、通常の速度におけるスピーチの変動特性を示す4〜7Hzの特定周波数成分を抽出する特定周波数成分抽出手段と、抽出された特定周波数成分のエンベロープ波形を求め、求められたエンベロープ波形信号に対して所定のスライスレベルを設定し、スライスレベル以上の信号部分を近似スピーチ区間として、所定のスライスレベル以下の信号部分をポーズ区間として検出するスピーチ/ポーズ区間検出手段とを備えたことを特徴としている。
【0015】
請求項では、請求項に記載の音声のスピーチ/ポーズ区間検出装置において、入力音声信号がステレオ信号である場合、左右のいずれか一方の信号レベルが他方の信号レベルに比較して差がある場合には、当該一方の信号に基づく検出結果を補正するステレオ成分補正手段を備えたことを特徴としている。
【0016】
請求項では、請求項1または2に記載の音声のスピーチ/ポーズ区間検出装置において、前記スピーチ/ポーズ区間検出手段は、ポーズ区間として検出された信号部分の内、所定時間以下の微小ポーズ分を検出対象から除外する微小ポーズ分除去手段を備えたことを特徴としている。
【0017】
上記構成の本発明を検証する。音声などのスピーチ区間をポーズ部分検出を活用して適切に検出できると、上述した字幕番組制作の書起し作業における前記「一区切りのスピーチ区間についてテープの頭出し・再生操作の繰り返し」を自動化することが可能であり、またこの区間のスピーチについて、書起しし易いような適当な低速化再生や繰り返し、ポーズの挿入を行うことも可能である。また、逆に非スピーチ区間については高速送りなどして時間節約することも可能である。その結果、書起し作業者は、書起し作業に専念することができ、字幕用テキストの正確・迅速な作成に大いに貢献することができる。
【0018】
現在放送中の字幕番組のなかで、予めアナウンス原稿が作成され、その原稿がほとんど修正されることなく実際の放送字幕となっていると推測される番組がいくつかある。例えば、「生きもの地球紀行」という字幕付き情報番組を実際に調べて見ると、アナウンス音声と字幕内容はほとんど共通であり、共通の原稿をアナウンス用と字幕用の双方に利用しているものと推測出来る。
【0019】
このようにアナウンス音声と字幕内容が極めて類似し、アナウンス用と字幕用の双方にほぼ共通の原稿を利用しており、その原稿が電子化されている番組を想定した場合、従来の技術の欄で説明した処理(1)の番組アナウンスの要約書起し作業はほとんど必要ないことになる。この場合、残る作業は、処理(2)の字幕表示イメージ化、及び処理(3)の開始・終了タイムコード記入、の各作業工程である。
【0020】
処理(2)の字幕表示イメージ化は、字幕テキスト文を字幕表示に適した行数、文字数の各表示単位字幕文に分割するものであるが、音声の長いポーズにまたがる字幕分割は好ましくない。その理由は、表示単位字幕文が長いポーズの前後の字幕つまり時間的・空間的に無関係な字幕で構成されることとなるからである。長いポーズつまり非スピーチ区間の検出は、表示単位字幕文への分割にも活用することができる。
【0021】
処理(3)の開始・終了タイムコード付与における開始・終了のタイミングの多くは、スピーチ区間の開始・終了であり、ポーズ部分の検出結果を活用することで可能である。
【0022】
例えば、文単位でのアナウンス音声の開始、終了のタイミングをポーズ部分検出を活用して求め、そのタイミングを表示単位字幕文の開始、終了のタイミングの少なくとも一部として適用することによって、自動的なタイミングの付与を高速化することができる。また、従来、表示単位字幕文の開始、終了タイミングの付与は、人手によるか、またはその各タイミングを比較的時間を要する音声と字幕テキスト文との照合によっていたため、多くの時間を必要としていたが、そのタイミング付与を自動化・高速化することによって、今後適用分野・番組数などの拡大が見込まれる字幕放送の字幕番組制作上に大きな効果が期待できる。
【0023】
このようにポーズ部分の検出は、前述したように字幕番組制作の処理(1)〜処理(3)の各段階で広く活用できる可能性があり、しかもこれらの処理は、番組音声時間の数十分の一以下の時間で高速処理可能なものであり、極めて有効な手法であると考えられる。
【0024】
【発明の実施の形態】
図1は本発明による音声のスピーチ/ポーズ区間検出装置の実施形態を示すブロック図である。なお、この図は、以下に説明する第1〜第3の実施形態において共通に使用することとする。
【0025】
同図に示す音声のスピーチ/ポーズ区間検出装置1は、コンピュータのソフトウェアで処理されるものであり、その機能上、入力された音声信号の振幅レベルまたはパワーレベルを示すレベル信号から、通常の速度におけるスピーチの変動特性を示す特定周波数成分を抽出する特定周波数成分抽出手段3と、抽出された特定周波数成分のエンベロープ波形を求め、求められたエンベロープ波形信号に対して所定のスライスレベルを設定してポーズ区間を検出するポーズ区間検出手段5とを備えている。
【0026】
<第1の実施形態>
この第1の実施形態では、特定周波数成分抽出手段3は、入力された音声信号の振幅レベル信号から、通常の速度におけるスピーチの変動特性を示す4〜7Hzの特定周波数成分を抽出する。そして、ポーズ区間検出手段5は、抽出された特定周波数成分のエンベロープ波形を求め、求められたエンベロープ波形信号に対して所定のスライスレベルを設定してポーズ区間を検出する。
【0027】
次に本実施の形態の動作について図2のフローチャート、図3乃至図7の特性図等を参照して詳述する。
【0028】
先ず、図3(A)に示すような振幅波形を持つ番組音声信号を取り込んで、音声振幅値の基準化処理を実行する(ステップST1,ST3)。この処理では、取り込まれた番組音声信号中からそのエンベロープの低域成分のみを取り出して(ステップST5)、この低域成分の振幅値を基として信号成分を所定レベルの大きさにする処理である。一般に、低域成分のレベルが大きい場合には高域成分のレベルも大きいと考えられる。レベルに違いがあると検出精度に影響を与えるので、ある程度のレベル基準化を図る必要があるからである。
【0029】
こうして音声振幅値の基準化がされた音声信号は、次に、絶対値化処理がされて、図3(B)に示すような+側に折り返した振幅値波形信号(Lch,Rchのステレオ音声信号)と成る(ステップST7)。図4(A)の波形は、図3(B)に矢印で示した範囲の時間軸を10倍に拡大して示したものである。
【0030】
次いで、絶対値化された振幅値波形信号からディジタル高域ろ波処理(ステップST9)、ディジタル帯域ろ波処理(ステップST11)が実行される。ディジタル高域ろ波処理では、2Hz以上の周波数の信号が取り出され、ディジタル帯域ろ波処理では、4〜7Hzの周波数の信号が取り出される。図4(B)の波形は、4〜7Hz成分の信号波形である。
【0031】
スピーチに関する時間軸方向の変動特性をスピーチの発音記号列と比較すると、母音の発音記号に対応する音声パワーが他の部分よりも大きくなる傾向があることが知られている。そして、通常速度のスピーチにおける信号波形の時間軸方向への変動は、4〜7Hz程度の周波数となっていることが分かっている。本発明は、この波形の時間軸方向の変動に着目し、大まかな周期性を捉えることでポーズ部分の検出をするものである。
【0032】
ディジタル帯域ろ波処理で4〜7Hzの周波数の信号が取り出され、さらに絶対値化処理(ステップST12)をすると、スピーチに類似した波形の信号となる。一方、演算処理(ステップST13)が実行されると、これら取り出された信号の差分が抽出され、さらに絶対値化処理(ステップST15)、ディジタル低域ろ波処理(ステップST17)が実行される。レベル補正処理(ステップST19)では、低域ろ波処理で生成された0.5Hz以下の低域成分の波形はスピーチ成分以外の成分が多いので、このレベルを参照して、ステップST12出力のスピーチ類似波形信号のレベルを逆方向に補正する処理がされる。この処理後のスピーチ近似波形を図5に示す。
【0033】
こうして、レベル補正がされたエンベロープ波形信号は、ディスプレイ上に波形表示される(ステップST21)。そして、図5に示すように、所定のスライスレベル(閾値)でスライスされる(ステップST23)。
【0034】
次に、微小ポーズ区間除去処理が実行される(ステップST25)。この処理では、スライス処理された音声振幅値信号中から、例えば、ちょっとした息継ぎ程度の区間は検出対象から除外するために、検出時間範囲として、例えば、“1.5〜2秒”程度を設定し、その以下の時間を検出対象外として除去する処理である。これにより、意味を持たない無駄なポーズ検出が効果的に防止できる。
【0035】
こうして検出されたポーズ区間は画面表示される(ステップST27)。ポーズの検出精度やスライス(ステップST23)レベル設定の最適化などの目的でスピーチ区間を実測し、図5に示すように、実測スピーチ区間と比較される(ステップST29)。これにより、実測されたスピーチ区間から導かれるポーズ区間と、検出されたポーズ区間とが比較され、比較によって、ポーズ検出精度をチチェックしたり、スライスレベルが最適となるように変更することができた。
【0036】
<実験結果>
図6は、ポーズ検出の実験結果を示している。この実験では、4つの番組音声A,B,C,Dについて、2値化スライスレベル(SSL)を2.2〜3.8まで0.2ずつ変化させたときの検出率(%)と誤り率(%)をそれぞれ調べたものである。図7は、各番組音声別にスライスレベルに対するポーズ部分の検出率と誤り率をグラフ表示したものである。
【0037】
最初の2つの番組A,Bは比較的小さい背景音が存在する音声であり、番組Dが最も背景音が大きい音声である。また、実測値として、番組Aには7個、番組Bには45個、番組Cには14個、番組Dには49個のそれぞれポーズ区間(1秒程度以上)が存在する。また、検出%は正しく検出できた場合、誤り%はポーズでない所を検出した割合を示し、SLLは2値化スライスレベルである。
【0038】
各図から理解できるように、番組Aでは、スライスレベル“3.0”から検出率が100%となり、“2.2〜3.6”全範囲で誤り率は0%という良好な結果が得られた。番組Bでは、スライスレベル“3.0”から検出率は100%、スライスレベル“3.4”で誤り率は4%となり、これもほぼ良好な結果となった。また、番組Cでは、スライスレベル“3.4”以上で検出率は92%となり、飽和した。このとき、誤り率はスライスレベル“3.4”以上で、5%、15%と上昇していった。さらに、番組Dでは、スライスレベル“3.4”以上で検出率は98%となり、飽和したが、誤り率は、スライスレベル“3.2”から、2%、4%、10%と上昇していく傾向が確認された。
【0039】
このように番組音声のポーズ検出では、検出率が低くても誤り率が極力低いもの、反対に多少誤り率が高くても検出率が高いものが存在する。このため、この実験結果から分かるように、ポーズ部分の検出の用途に応じて、適切な検出結果が得られるようにスライスレベルを設定して使用する。
【0040】
<第2の実施形態>
図8は本発明による音声のスピーチ/ポーズ区間検出装置の第2の実施形態の処理手順を示すフローチャートである。
【0041】
第1の実施形態では、番組音声の振幅値を入力信号とし、その振幅レベルの大きさ基づいてポーズ区間を検出するようにしたが、第2の実施形態では、番組音声のパワー値(電力値)を入力信号とし、そのパワーレベルの大きさに基づいてポーズ区間を検出するようにしている。
【0042】
すなわち、ステップST47のパワー補正1の処理では、低域ろ波処理(ステップST43)で求められた4Hz以下の信号成分のパワーレベルによって4Hz以上の高域信号成分のパワーレベルを補正してパワーレベルの違いに起因する検出精度の劣化を防止している。次のステップST49の処理では、図4(B)に示したような4〜7Hzの帯域成分を抽出する。ステップST49のパワー補正2は、4〜7Hzの帯域成分の中でも信号レベルの大きい部分は実際のポーズ検出には不要であるため、リミットを掛けて圧縮する処理である。以下、ステップST53からステップST63までの処理は、図2のステップST21からステップST31までの処理と同様であるため、説明は省略する。
【0043】
このようにしても、第1の実施形態と同様な作用効果を得ることができる。
【0044】
<第3の実施形態>
図9は本発明による音声のスピーチ/ポーズ区間検出装置の第3の実施形態の処理手順を示すフローチャートである。
【0045】
第3の実施形態は、入力信号として2chのステレオ信号を想定したものであり、右のいずれか一方の信号レベルが他方の信号レベルに比較して大きな差がある場合には、当該一方の信号に基づく検出結果を補正するステレオ成分補正手段を設けたものである。通常の番組音声では、スピーチは中央から聞こえるように左右ほぼ同レベルになっている。したがって、左右チャンネル間に差がある場合、その差分はスピーチ成分ではなく、ポーズ検出に悪影響を与える。例えば、図5に円Cで囲んだLch信号成分は、Rch信号成分と比較して突出した高い信号レベルを表している。この高い信号レベルの部分は、誤検出の恐れがあるため、取り除いておくのが望ましい。
【0046】
このため、図9のフローチャートに示すように、左音声信号のパワー値を基準として、右音声信号のパワー値との差分を演算し(ステップST83,ST85)、この差分信号の低域成分を抽出し、この低域成分で左音声系統で抽出したスピーチ類似信号を補正するものである(ステップST89)。なお、その他の処理は、図8の処理と同様であるため、その説明は省略する。
【0047】
このように、第3の実施形態によれば、第1、第2の実施形態と同様な効果を奏すると共に、ステレオ信号を効果的に利用することにより、ポーズ区間の誤検出を防止することが可能となる。
【0048】
以上の各実施形態に示したポーズ区間の検出は、番組テープを再生操作して音声を聴取し、音声中のスピーチ開始点からテープを再生聴取しつつ、ワープロや筆記で書起しを行うという“番組スピーチの書起し”作業において、テープの再生操作、頭出しなどの自動化を可能とし、作業効率を飛躍的に向上させることができる。また、番組スピーチの書起しの他に、字幕イメージ化、およびその開始・終了タイムコード記入の各作業で広く活用できる可能性があり、しかもこれらの処理は、番組音声時間の数十分の一以下の時間で高速処理可能なものであり、極めて有効な手法である。
【0049】
【発明の効果】
以上説明したように本発明によれば、ポーズ部分、スピーチ区間を簡単かつ精度良く検出することが可能となる。
【0050】
また、入力信号がステレオ信号の場合、このステレオ信号を効果的に利用した誤検出の防止が可能となる。
【図面の簡単な説明】
【図1】本発明による音声のスピーチ/ポーズ区間検出装置の実施形態を示すブロック図である。
【図2】本発明による音声のスピーチ/ポーズ区間検出装置の第1の実施形態の処理手順を示すフローチャートである。
【図3】番組音声信号波形と、この波形に対応する振幅レベル信号またはパワーレベル信号を示す説明図である。
【図4】図3に示した振幅レベル信号またはパワーレベル信号を時間軸を拡大して示すと共に特性周波数範囲の抽出成分値を示す説明図である。
【図5】図4に示した特定周波数範囲の振幅レベル信号またはパワーレベル信号のエンベロープ波形と実測ポーズ(スピーチ)部分を示す説明図である。
【図6】ポーズ部分の検出処理の実験例を示す説明図である。
【図7】図6に示したポーズ部分の検出処理の実験例をグラフ表示した説明図である。
【図8】本発明による音声のスピーチ/ポーズ区間検出装置の第2の実施形態の処理手順を示すフローチャートである。
【図9】本発明による音声のスピーチ/ポーズ区間検出装置の第3の実施形態の処理手順を示すフローチャートである。
【図10】ブロック・ケプストラム・フラックス法を用いてポーズ/スピーチ区間を検出した実験例を示す説明図である。
【符号の説明】
1 音声のスピーチ/ポーズ区間検出装置
3 特定周波数成分抽出手段
5 ポーズ区間検出手段

Claims (3)

  1. 入力された音声信号中からスピーチ区間とポーズ区間とを検出する装置であって、
    入力された音声信号の振幅レベルまたはパワーレベルを示すレベル信号から、そのエンベロープの低域成分のみを取り出すとともに、取り出した低域成分から絶対値化された波形信号を生成し、この波形信号からディジタル帯域ろ波処理によって、通常の速度におけるスピーチの変動特性を示す4〜7Hzの特定周波数成分を抽出する特定周波数成分抽出手段と、
    抽出された特定周波数成分のエンベロープ波形を求め、求められたエンベロープ波形信号に対して所定のスライスレベルを設定し、所定のスライスレベル以上の信号部分を近似スピーチ区間として、所定のスライスレベル以下の信号部分をポーズ区間として検出するスピーチ/ポーズ区間検出手段と、
    を備えたことを特徴とする音声のスピーチ/ポーズ区間検出装置。
  2. 請求項に記載の音声のスピーチ/ポーズ区間検出装置において、
    入力音声信号がステレオ信号である場合、左右のいずれか一方の信号レベルが他方の信号レベルに比較して差がある場合には、当該一方の信号に基づく検出結果を補正するステレオ成分補正手段、
    を備えたことを特徴とする音声のスピーチ/ポーズ区間検出装置。
  3. 請求項1または2に記載の音声のスピーチ/ポーズ区間検出装置において、
    前記スピーチ/ポーズ区間検出手段は、ポーズ区間として検出された信号部分の内、所定時間以下の微小ポーズ分を検出対象から除外する微小ポーズ分除去手段、
    を備えたことを特徴とする音声のスピーチ/ポーズ区間検出装置。
JP2002160255A 2002-05-31 2002-05-31 音声のスピーチ/ポーズ区間検出装置 Expired - Fee Related JP4280893B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002160255A JP4280893B2 (ja) 2002-05-31 2002-05-31 音声のスピーチ/ポーズ区間検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002160255A JP4280893B2 (ja) 2002-05-31 2002-05-31 音声のスピーチ/ポーズ区間検出装置

Publications (2)

Publication Number Publication Date
JP2004004343A JP2004004343A (ja) 2004-01-08
JP4280893B2 true JP4280893B2 (ja) 2009-06-17

Family

ID=30429736

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002160255A Expired - Fee Related JP4280893B2 (ja) 2002-05-31 2002-05-31 音声のスピーチ/ポーズ区間検出装置

Country Status (1)

Country Link
JP (1) JP4280893B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4552064B2 (ja) * 2003-10-15 2010-09-29 独立行政法人情報通信研究機構 音声レベル自動補正装置

Also Published As

Publication number Publication date
JP2004004343A (ja) 2004-01-08

Similar Documents

Publication Publication Date Title
US6697564B1 (en) Method and system for video browsing and editing by employing audio
US8150687B2 (en) Recognizing speech, and processing data
US9774747B2 (en) Transcription system
US20080195386A1 (en) Method and a Device For Performing an Automatic Dubbing on a Multimedia Signal
CA2477697A1 (en) Methods and apparatus for use in sound replacement with automatic synchronization to images
WO1994016443A1 (en) Display system facilitating computer assisted audio editing
KR20060123072A (ko) 오디오 신호의 재생을 제어하는 방법 및 장치
CN108091352B (zh) 一种音频文件处理方法、装置、存储介质及终端设备
US20240112668A1 (en) Audio-based media edit point selection
US20130246061A1 (en) Automatic realtime speech impairment correction
JP2008084381A (ja) 番組録画装置及びコマーシャル検出方法
JP2004343488A (ja) 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム
CN108848411B (zh) 基于音频信号波形界定节目边界和广告边界的系统和方法
US6934462B2 (en) Signal processing apparatus and method, recording medium, and program
EP2328143B1 (en) Human voice distinguishing method and device
JP4314376B2 (ja) 書起し支援装置
JP4280893B2 (ja) 音声のスピーチ/ポーズ区間検出装置
JP4210723B2 (ja) 自動字幕番組制作システム
JP2002344805A (ja) オープンキャプションに対する字幕表示制御方法
Whalen et al. The Haskins Laboratories’ pulse code modulation (PCM) system
JP2006350246A (ja) スピーチ/ポーズ区間検出装置
JP2005129971A (ja) 半自動型字幕番組制作システム
JP2015046758A (ja) 情報処理装置、情報処理方法及びプログラム
JP4272611B2 (ja) 映像処理方法、映像処理装置、映像処理用プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003216200A (ja) 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20040513

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040517

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040903

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050603

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050822

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090203

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090303

R150 Certificate of patent or registration of utility model

Ref document number: 4280893

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120327

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130327

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130327

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130327

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130327

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140327

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140327

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140327

Year of fee payment: 5

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees