JP4552064B2 - 音声レベル自動補正装置 - Google Patents
音声レベル自動補正装置 Download PDFInfo
- Publication number
- JP4552064B2 JP4552064B2 JP2003354938A JP2003354938A JP4552064B2 JP 4552064 B2 JP4552064 B2 JP 4552064B2 JP 2003354938 A JP2003354938 A JP 2003354938A JP 2003354938 A JP2003354938 A JP 2003354938A JP 4552064 B2 JP4552064 B2 JP 4552064B2
- Authority
- JP
- Japan
- Prior art keywords
- level
- output signal
- low
- correction
- band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000012937 correction Methods 0.000 title claims description 153
- 238000001914 filtration Methods 0.000 claims description 93
- 238000001514 detection method Methods 0.000 claims description 39
- 230000005236 sound signal Effects 0.000 claims description 38
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000000034 method Methods 0.000 description 34
- 230000008569 process Effects 0.000 description 28
- 238000012545 processing Methods 0.000 description 17
- 238000000605 extraction Methods 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 7
- 238000013518 transcription Methods 0.000 description 5
- 230000035897 transcription Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000029058 respiratory gaseous exchange Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
Images
Description
本発明は、放送番組音声などを対象とする非スピーチ区間(ポーズ部分)検出のための入力音声レベル自動補正に関するものである。音声信号におけるスピーチとその他の音声の特徴を利用し、閾値との差を用いて非スピーチ区間(ポーズ部)を判定する場合、通常、入力音声レベルの大小によって大きく影響される。そのため、本発明では、スピーチ近似成分による自動レベル補正によりその影響を低減し、ポーズ部分(非スピーチ部分)を安定かつ精度良く検出できるようにしている。音声などのポーズ部分検出は、一般的な音声信号処理でも効果的な手法の一つとして利用されているが、字幕番組制作関連でも字幕用テキストとしてのスピーチ部分の書き起こし、スピーチポーズを利用した番組音声の分割、字幕のタイミング付与など多くの用途があり、字幕制作の効率化に寄与する技術である。
番組音声のパワー値を種々分析した結果、適当な周波数範囲の抽出とレベル補償などによって、かなり高い確度でポーズ部分を検出できることが分かった。
図2は本発明に係る音声レベル自動補正装置の第1の実施形態の基本処理を示すブロック図である。
図5は、背景音がかなり大きい番組A、番組Bについて、入力音声レベルを変化させた場合のスピーチ検出誤差(任意スケール)を示したものであり、(A)は数値例を、(B)は折れ線グラフ化した例を示している。レベル補正は、図3のステップS12までの処理に従った。
次に第2の実施形態を説明する。なお、第2の実施形態の基本的な装置構成は図2と同じため、図2を援用して説明する。
E=α・B/(D+β)
ここで、αはろ波器固有のフィルタ係数、βはレベル補正係数であり、β=200,300,500,700,・・の値をとるものとする。
自動レベル補正の実験は、かなり背景音の大きい番組音声も含む2種の番組A,Bの音声を例題とし、図6で示す第2の実施形態による処理法によって行った。これら番組音声に対して行った自動レベル補正の実験結果を、図7、図8のグラフに示した。
10 スピーチ近似成分抽出部
20 レベル補正部
30 (第2)スピーチ近似成分抽出部
40 スライス部
50 第1のレベル補正部
60 第2のレベル補正部
70 パワー補正部
Claims (4)
- 入力音声信号中からスピーチ区間とポーズ区間とを検出する際に入力音声信号のレベル変動を自動補正する装置であって、
第1のレベル補正部と、第2のレベル補正部と、パワー補正部とを備え、
第1のレベル補正部は、
入力音声信号中の所定の低域成分をろ波する第1の低域ろ波手段と、前記入力音声信号と、第1の低域ろ波手段の出力信号とから入力音声信号全体のレベルを所定のレベルにする第1の補正手段とを有し、
第2のレベル補正部は、
第1の補正手段の出力信号中から所定の帯域成分をろ波する第1の帯域ろ波手段と、第1の帯域ろ波手段の出力のエンベロープ信号中の所定の低域成分をろ波する第2の低域ろ波手段と、第1の帯域ろ波手段の出力信号を第2の低域ろ波手段の出力信号によりレベルの一定化を行う第2の補正手段とを有し、
パワー補正部は、第1の帯域ろ波手段の出力信号と第2の補正手段の出力信号との差分を演算する差分演算手段と、差分演算手段の出力信号中の低域成分をろ波する第3の低域ろ波手段と、第2の補正手段の出力信号中の低域成分をろ波する第4の低域ろ波手段と、
第3の低域ろ波手段の出力信号と第4の低域ろ波手段の出力信号とに基づいてパワー補正を行うパワー補正手段とを有し、
パワー補正手段の出力信号を所定の閾値でスライスしてスピーチ区間とポーズ区間とを検出可能にさせる、
ことを特徴とする音声レベル自動補正装置。 - 請求項1に記載の音声レベル自動補正装置において、
前記第1、第2、および第3の低域ろ波手段の低域ろ波周波数は、およそ1.5Hz以下であり、
前記第1の帯域ろ波手段の帯域ろ波周波数は、およそ3〜6Hzであり、
前記第2の帯域ろ波手段の帯域ろ波周波数は、およそ4〜5Hzである、
ことを特徴とする音声レベル自動補正装置。 - 入力音声信号中からスピーチ区間とポーズ区間とを検出する際に入力音声信号のレベル変動を自動補正する装置であって、
第1のレベル補正部と、第2のレベル補正部と、パワー補正部とを備え、
第1のレベル補正部は、入力音声信号中の所定の帯域成分をろ波する第1の帯域ろ波手段と、前記入力音声信号と、第1の帯域ろ波手段の出力信号とから入力音声レベルを一定化するレベル補正を実行する第1の補正手段とを有し、
第2のレベル補正部は、第1の補正手段の出力信号中の所定の低域成分をろ波する低域ろ波手段と、第1の補正手段の出力信号と低域ろ波手段の出力信号との差分を求める差分演算手段と、前記低域ろ波手段の出力信号と前記差分演算手段の出力信号とから入力音声信号のレベル補正を実行する第2の補正手段とを有し、
パワー補正部は、第2の補正手段の出力信号を帯域ろ波する第2の帯域ろ波手段と、前記第2の補正手段の出力信号と第2の帯域ろ波手段の出力信号との差分を演算する第2の差分演算手段と、第2の差分演算手段の出力信号と帯域ろ波手段の出力信号とからパワー補正を行うパワー補正手段とを有し、
パワー補正手段の出力信号を所定の閾値でスライスしてスピーチ区間とポーズ区間とを検出可能にさせる、
ことを特徴とする音声レベル自動補正装置。 - 請求項3に記載の音声レベル自動補正装置において、
前記第1、第2の帯域ろ波手段の帯域ろ波周波数は、およそ4〜6Hzであり、
前記低域ろ波手段の低域ろ波周波数は、およそ2Hz以下である、
ことを特徴とする音声レベル自動補正装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003354938A JP4552064B2 (ja) | 2003-10-15 | 2003-10-15 | 音声レベル自動補正装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003354938A JP4552064B2 (ja) | 2003-10-15 | 2003-10-15 | 音声レベル自動補正装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005121786A JP2005121786A (ja) | 2005-05-12 |
JP4552064B2 true JP4552064B2 (ja) | 2010-09-29 |
Family
ID=34612704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003354938A Expired - Lifetime JP4552064B2 (ja) | 2003-10-15 | 2003-10-15 | 音声レベル自動補正装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4552064B2 (ja) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61223796A (ja) * | 1985-03-29 | 1986-10-04 | 沖電気工業株式会社 | 音声区間検出回路 |
JPH02140021A (ja) * | 1988-11-19 | 1990-05-29 | Sony Corp | 波形データ圧縮符号化方法及び装置 |
JPH06236195A (ja) * | 1993-02-12 | 1994-08-23 | Sony Corp | 音声区間検出方法 |
JPH06332491A (ja) * | 1993-05-21 | 1994-12-02 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | 音声区間検出装置と雑音抑圧装置 |
JP2002091487A (ja) * | 2000-07-10 | 2002-03-27 | Matsushita Electric Ind Co Ltd | 音声認識装置、音声認識方法および音声認識プログラム |
JP2003244539A (ja) * | 2002-02-18 | 2003-08-29 | Telecommunication Advancement Organization Of Japan | 逐次自動字幕制作処理システム |
JP2004004343A (ja) * | 2002-05-31 | 2004-01-08 | Telecommunication Advancement Organization Of Japan | 音声のスピーチ/ポーズ区間検出装置 |
JP2004212799A (ja) * | 2003-01-07 | 2004-07-29 | Telecommunication Advancement Organization Of Japan | 書起し支援装置 |
-
2003
- 2003-10-15 JP JP2003354938A patent/JP4552064B2/ja not_active Expired - Lifetime
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61223796A (ja) * | 1985-03-29 | 1986-10-04 | 沖電気工業株式会社 | 音声区間検出回路 |
JPH02140021A (ja) * | 1988-11-19 | 1990-05-29 | Sony Corp | 波形データ圧縮符号化方法及び装置 |
JPH06236195A (ja) * | 1993-02-12 | 1994-08-23 | Sony Corp | 音声区間検出方法 |
JPH06332491A (ja) * | 1993-05-21 | 1994-12-02 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | 音声区間検出装置と雑音抑圧装置 |
JP2002091487A (ja) * | 2000-07-10 | 2002-03-27 | Matsushita Electric Ind Co Ltd | 音声認識装置、音声認識方法および音声認識プログラム |
JP2003244539A (ja) * | 2002-02-18 | 2003-08-29 | Telecommunication Advancement Organization Of Japan | 逐次自動字幕制作処理システム |
JP2004004343A (ja) * | 2002-05-31 | 2004-01-08 | Telecommunication Advancement Organization Of Japan | 音声のスピーチ/ポーズ区間検出装置 |
JP2004212799A (ja) * | 2003-01-07 | 2004-07-29 | Telecommunication Advancement Organization Of Japan | 書起し支援装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2005121786A (ja) | 2005-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7286749B2 (en) | Moving image playback apparatus, moving image playback method, and computer program thereof with determining of first voice period which represents a human utterance period and second voice period other than the first voice period | |
JP5267115B2 (ja) | 信号処理装置、その処理方法およびプログラム | |
US8190432B2 (en) | Speech enhancement apparatus, speech recording apparatus, speech enhancement program, speech recording program, speech enhancing method, and speech recording method | |
US9774747B2 (en) | Transcription system | |
KR20060123072A (ko) | 오디오 신호의 재생을 제어하는 방법 및 장치 | |
JP2008546016A (ja) | マルチメディア信号で自動的なダビングを実行する方法及び装置 | |
EP1426926B1 (en) | Apparatus and method for changing the playback rate of recorded speech | |
JP2012063726A (ja) | 音質補正装置及び音声補正方法 | |
JP2010283605A (ja) | 映像処理装置及び方法 | |
JP4552064B2 (ja) | 音声レベル自動補正装置 | |
US6704671B1 (en) | System and method of identifying the onset of a sonic event | |
JP3643372B1 (ja) | 放送信号監視装置及び放送信号監視方法 | |
JP4314376B2 (ja) | 書起し支援装置 | |
JP2007072273A (ja) | 音声信号判別装置、音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体 | |
JP4280893B2 (ja) | 音声のスピーチ/ポーズ区間検出装置 | |
US7092884B2 (en) | Method of nonvisual enrollment for speech recognition | |
JP2006350246A (ja) | スピーチ/ポーズ区間検出装置 | |
JP3944830B2 (ja) | スピーチ近似データによる字幕用データ作成・編集支援システム | |
JP4381108B2 (ja) | 話速変換装置における時報処理装置 | |
JP4313724B2 (ja) | 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体 | |
JPH07295588A (ja) | 発話速度推定方法 | |
JP6313619B2 (ja) | 音声信号処理装置及びプログラム | |
John et al. | Phonetic analysis vs. dirty signals: Fixing the paradox | |
JP2007174074A (ja) | 再生装置 | |
JP2004140583A (ja) | 情報提示装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060807 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20060807 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100601 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100625 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130723 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4552064 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130723 Year of fee payment: 3 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |