JP5737808B2 - 音響処理装置およびそのプログラム - Google Patents
音響処理装置およびそのプログラム Download PDFInfo
- Publication number
- JP5737808B2 JP5737808B2 JP2011188874A JP2011188874A JP5737808B2 JP 5737808 B2 JP5737808 B2 JP 5737808B2 JP 2011188874 A JP2011188874 A JP 2011188874A JP 2011188874 A JP2011188874 A JP 2011188874A JP 5737808 B2 JP5737808 B2 JP 5737808B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- signal
- section
- unit
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
所定時間内における前記ラウドネス値の平均値を基準として所定幅以上上回る回数と所定幅以上下回る回数とをカウントし、この回数に基づいて音声区間であるか非音声区間であるかを判断する方法の具体例は、平均値を基準として所定幅以上上回る回数と所定幅以上下回る回数との合計が、所定の閾値(1を含む)以上である場合に音声区間であると判断し、その他の場合に非音声区間であると判断することである。
本発明によれば、音声区間であるか非音声区間であるかに応じて、スピーチ音声を主成分とする推定スピーチ音声信号N’と、背景音を主成分とする推定背景音信号BG’の混合比を変える。これにより、音声区間の背景音の大きさと、音楽や効果音だけの区間の背景音の大きさを独立に変えることができる。音声区間と音楽や効果音だけの区間では、視聴者(特に高齢者視聴者)の好ましいと感じる、背景音の大きさは異なっていることわかっていることから、独立に変えることで、より聞きやすいバランスにカスタマイズして調整することもできる。
[第1の実施形態]
図1は、第1の実施形態による音響処理装置の機能構成を示すブロック図である。図示するように、音響処理装置1は、背景音分離部100と、音声区間判断部120と、混合比調整部140と、混合部150とを含んで構成される。また、音声区間判断部120は、言語特徴抽出型区間検出部121と、信号特徴抽出型区間検出部122と、字幕情報抽出型区間検出部123と、重み付け判断部130とを含んで構成される。
背景音分離部100は、入力音声信号(N+BG)に基づき、スピーチ音声信号と背景音信号とを推定し、入力音声信号を推定スピーチ音声信号(N’,推定されたスピーチ音声信号)と推定背景音信号(BG’,推定された背景音信号)とに分離する。
混合部150は、混合比調整部140が決定した混合比で、スピーチ音声信号と背景音信号とを混合し、出力音声信号(N+BG)’として出力する。なお、後述するように、(N+BG)=(N’+BG’)として良いので、混合部150は、入力音声信号(N+BG)と推定スピーチ音声信号(N’)と推定背景音信号(BG’)との少なくともいずれかを、適宜用いることにより、混合比調整部140によって決定された混合比に基づく音声を出力することができる。
別の言い方をすると、信号特徴抽出型区間検出部122は、所定時間のフレーム毎に入力音声信号の音の大きさを検出し、その音の大きさの特徴から、人の声であるスピーチ音声が連続しているかどうかの判断を行い、スピーチ音声の連続している区間情報をP2として出力する。
[ナレーション音声と背景音との分離]
背景音分離部100は、ステレオ相関法を利用してナレーション音声信号と背景音信号を分離する。入力音声信号は、2チャンネルステレオ信号であり、左チャンネルをL、右チャンネルとRと表わす。左チャンネルLに含まれる背景音信号をLBとし、右チャンネルRに含まれる背景音信号をRBとし、ナレーション音声信号CNは完全に左右相関することを用いると、これらの信号の関係は下の式(1)で表わされる。
言語特徴抽出型区間検出部121は、言語が有する特有の音響的特徴を用いて音声区間の検出を行う。具体的には、言語特徴抽出型区間検出部121は、所定の言語における音素や語等に含まれる周波数やパワー等の特徴量を用いた確率モデルに基づいて、音声区間を検出する。
信号特徴抽出型区間検出部122は、音声波形の包絡情報や、パワー等の時間方向の変化の特徴量を利用して、音声区間を検出する。その方法の一例として、信号特徴抽出型区間検出部122は、ラウドネスの振幅変化の特徴量を用いて音声区間を検出する。
字幕情報抽出型区間検出部123は、デジタルテレビ放送の信号に含まれるデジタル字幕データを利用して、入力音声信号における音声区間を検出する。字幕情報抽出型区間検出部123は、デジタルテレビ放送の受信手段によって受信された字幕データを入力とする。なお、デジタルテレビ放送における字幕データの構造は、下記の参考文献に記載されている。
上記のように、言語特徴抽出型区間検出部121と信号特徴抽出型区間検出部122と字幕情報抽出型区間検出部123は、各々独自の手法によって音声区間であるか非音声区間であるかを判定し、判定結果として、それぞれP1,P2,P3を出力する。重み付け判断部130は、これらの値を用いて演算を行い、判断結果としてCPの値を出力する。具体的には、重み付け判断部130は、下の式(10)によって、音声区間判断値Dを算出する。
重み付け判断部130は、算出したHCPの値に基づく補正処理を行う。具体的には、重み付け判断部130は、算出したHCPの値が連続して1.0となる時間がTL以下の場合(その直前および直後におけるHCPの値は0.0)には、その区間のHCPの値を0.0に補正する。また、重み付け判断部130は、算出したHCPの値が連続して0.0となる時間がTU以下の場合(その直前および直後におけるHCPの値は1.0)には、その区間のHCPの値を1.0に補正する。
混合比調整部140は、音声区間評価部120から出力されたCPの値に基づき、N’とBG’を混合させる際の混合比を調整する。具体的には、混合比調整部140は、音声区間判断部120から出力されたCPの値に基づいて、背景音抑圧手法とゲイン制御手法とを切り替える。具体的には、混合比調整部140は、CP=1.0の区間では背景音抑圧手法を使用し、CP=0.0の区間ではゲイン制御手法を使用する。
次に、本発明の第2の実施形態について説明する。図3は、同実施形態による音響処理装置の機能構成を示すブロック図である。この音響処理装置2が第1の実施形態と異なる点は、音声区間判断部120Aが、言語特徴抽出型区間検出部121による検出結果のみに基づいて最終的なCP(音声区間判定結果)を出力している点である。言語特徴抽出型区間検出部121の機能自体は、第1の実施形態におけるそれと同様である。また、音声区間判断部120Aは、信号特徴の抽出に基づく区間検出(第1の実施形態における符号122)や、字幕情報の抽出に基づく区間検出(第1の実施形態における符号123)を行う機能を有していない。また、音声区間判断部120Aは、一種類の方法のみで音声区間の検出を行うため、重み付け判断(第1の実施形態における符号130)を行う機能を有していない。但し、音声区間判断部120Aから出力する値を滑らかに変化させることを目的として、第1の実施形態において行っている補正処理と同様の処理を、言語特徴抽出型区間検出部121が行うようにしても良い。
第2の実施形態は、第1の実施形態と比較して、装置規模を相対的に小さくできるという利点がある。
次に、本発明の第3の実施形態について説明する。図4は、同実施形態による音響処理装置の機能構成を示すブロック図である。この音響処理装置3が第1の実施形態と異なる点は、音声区間判断部120Bが、信号特徴抽出型区間検出部122による検出結果のみに基づいて最終的なCP(音声区間判定結果)を出力している点である。信号特徴抽出型区間検出部122の機能自体は、第1の実施形態におけるそれと同様である。また、音声区間判断部120Bは、言語特徴の抽出に基づく区間検出(第1の実施形態における符号121)や、字幕情報の抽出に基づく区間検出(第1の実施形態における符号123)を行う機能を有していない。また、音声区間判断部120Bは、一種類の方法のみで音声区間の検出を行うため、重み付け判断(第1の実施形態における符号130)を行う機能を有していない。但し、音声区間判断部120Bから出力する値を滑らかに変化させることを目的として、第1の実施形態において行っている補正処理と同様の処理を、信号特徴抽出型区間検出部122が行うようにしても良い。
第3の実施形態は、第1の実施形態と比較して、装置規模を相対的に小さくできるという利点がある。
次に、本発明の第4の実施形態について説明する。図5は、同実施形態による音響処理装置の機能構成を示すブロック図である。この音響処理装置4が第1の実施形態と異なる点は、音声区間判断部120Cが、字幕情報抽出型区間検出部123による検出結果のみに基づいて最終的なCP(音声区間判定結果)を出力している点である。字幕情報抽出型区間検出部123の機能自体は、第1の実施形態におけるそれと同様である。また、音声区間判断部120Cは、言語特徴の抽出に基づく区間検出(第1の実施形態における符号121)や、信号特徴の抽出に基づく区間検出(第1の実施形態における符号122)を行う機能を有していない。また、音声区間判断部120Cは、一種類の方法のみで音声区間の検出を行うため、重み付け判断(第1の実施形態における符号130)を行う機能を有していない。但し、音声区間判断部120Cから出力する値を滑らかに変化させることを目的として、第1の実施形態において行っている補正処理と同様の処理を、字幕情報抽出型区間検出部123が行うようにしても良い。
第4の実施形態は、第1の実施形態と比較して、装置規模を相対的に小さくできるという利点がある。
例えば、第1〜第4の各実施形態における背景音分離部100は、ステレオ相関法によってナレーション音声信号と背景音信号とを分離することとしたが、他にも、スペクトルサブトラクション法(spectral subtraction method)やウィナーフィルター(Wiener Filter)などの手法を用いるようにしても良い。
また、例えば、第1または第2の実施形態における言語特徴抽出型区間検出部121は、背景音分離部100によって分離された推定ナレーション信号(N’)を入力として音声区間および非音声区間の検出を行ったが、代わりに、分離される前の入力音声信号(N+BG)に基づいて音声区間および非音声区間の検出を行うようにしても良い。
発明者らは、第1の実施形態による音響処理装置を実現し、実際の放送番組から取得した音声および字幕データを用いて、音声区間であるか否かに応じて異なる方法によって、推定ナレーション音声信号と推定効果音信号とを混合させる実証実験を行った。そして、複数の被験者によってスピーチ音声の聞き取りやすさを試聴実験した結果、従来技術よりも聞き取りやすさが改善されたことが確認できた。特に、被験者からは、自然・歪みがあまりない出力音声であるという評価が得られた。
1L,1R 信号入力部
2L,2R 適応フィルタ
3L,3R フィルタ係数生成器
4L,4R M/2サンプル遅延器
5L,5R (誤差信号算出用)演算器
6 (同相信号加算用)演算器
8 乗算器
10 同期信号出力部
100 背景音分離部
120,120A,120B,120C 音声区間判断部
121 言語特徴抽出型区間検出部(音声区間検出手段)
122 信号特徴抽出型区間検出部(音声区間検出手段)
123 字幕情報抽出型区間検出部(音声区間検出手段)
124 重み付け判断部
140 混合比調整部
150 混合部
Claims (2)
- 入力音声信号に基づき、スピーチ音声信号と背景音信号とを推定し、前記入力音声信号を推定スピーチ音声信号と推定背景音信号とに分離する背景音分離部と、
前記入力音声信号に基づき、または前記入力音声信号に関連する信号に基づき、前記入力音声信号がスピーチを含む音声区間であるかスピーチを含まない非音声区間であるかを判断し判断結果を出力する音声区間判断部と、
前記音声区間判断部による前記判断結果が音声区間であるか非音声区間であるかに応じた方法で、信号の混合比を決定する混合比調整部と、
前記入力音声信号と前記推定スピーチ音声信号と前記推定背景音信号との少なくともいずれかを、前記混合比調整部によって決定された混合比に基づいて混合し、出力音声信号として出力する混合部と、を具備し、
前記音声区間判断部は、前記入力音声信号に対応するラウドネス値が、所定時間内における前記ラウドネス値の平均値を基準として所定幅以上上回る回数と所定幅以上下回る回数とをカウントし、この回数に基づいて音声区間であるか非音声区間であるかを判断する信号特徴抽出型区間検出部を音声区間検出手段の少なくとも一つとして具備する、
ことを特徴とする音響処理装置。 - コンピューターを、請求項1に記載の音響処理装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011188874A JP5737808B2 (ja) | 2011-08-31 | 2011-08-31 | 音響処理装置およびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011188874A JP5737808B2 (ja) | 2011-08-31 | 2011-08-31 | 音響処理装置およびそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013050604A JP2013050604A (ja) | 2013-03-14 |
JP5737808B2 true JP5737808B2 (ja) | 2015-06-17 |
Family
ID=48012667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011188874A Active JP5737808B2 (ja) | 2011-08-31 | 2011-08-31 | 音響処理装置およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5737808B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8811629B1 (en) | 2013-09-09 | 2014-08-19 | Voyetra Turtle Beach, Inc. | Automatic volume control for combined game and chat audio |
CN104424956B9 (zh) | 2013-08-30 | 2022-11-25 | 中兴通讯股份有限公司 | 激活音检测方法和装置 |
WO2015097818A1 (ja) | 2013-12-26 | 2015-07-02 | 株式会社 東芝 | テレビシステムとサーバ装置及びテレビ装置 |
WO2015097826A1 (ja) | 2013-12-26 | 2015-07-02 | 株式会社東芝 | 電子機器、制御方法およびプログラム |
WO2015097831A1 (ja) * | 2013-12-26 | 2015-07-02 | 株式会社東芝 | 電子機器、制御方法およびプログラム |
JP6143887B2 (ja) * | 2013-12-26 | 2017-06-07 | 株式会社東芝 | 方法、電子機器およびプログラム |
JP6313619B2 (ja) * | 2014-03-20 | 2018-04-18 | 日本放送協会 | 音声信号処理装置及びプログラム |
CN110827843B (zh) * | 2018-08-14 | 2023-06-20 | Oppo广东移动通信有限公司 | 音频处理方法、装置、存储介质及电子设备 |
CN110246506A (zh) * | 2019-05-29 | 2019-09-17 | 平安科技(深圳)有限公司 | 人声智能检测方法、装置及计算机可读存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05173592A (ja) * | 1991-12-25 | 1993-07-13 | Matsushita Electric Ind Co Ltd | 音声/非音声判別方法および判別装置 |
JPH09154093A (ja) * | 1995-11-29 | 1997-06-10 | Sanyo Electric Co Ltd | 映像・音声再生装置 |
JPH09319393A (ja) * | 1996-05-24 | 1997-12-12 | Hitachi Ltd | 音声認識翻訳システム |
JP3933909B2 (ja) * | 2001-10-29 | 2007-06-20 | 日本放送協会 | 音声/音楽混合比推定装置およびそれを用いたオーディオ装置 |
JP4791857B2 (ja) * | 2006-03-02 | 2011-10-12 | 日本放送協会 | 発話区間検出装置及び発話区間検出プログラム |
JP4952698B2 (ja) * | 2008-11-04 | 2012-06-13 | ソニー株式会社 | 音声処理装置、音声処理方法およびプログラム |
JP2011059186A (ja) * | 2009-09-07 | 2011-03-24 | Gifu Univ | 音声区間検出装置及び音声認識装置、プログラム並びに記録媒体 |
-
2011
- 2011-08-31 JP JP2011188874A patent/JP5737808B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013050604A (ja) | 2013-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5737808B2 (ja) | 音響処理装置およびそのプログラム | |
JP6801023B2 (ja) | ボリューム平準化器コントローラおよび制御方法 | |
US7974838B1 (en) | System and method for pitch adjusting vocals | |
JP4336364B2 (ja) | テレビジョン受像機 | |
US7162045B1 (en) | Sound processing method and apparatus | |
KR101538623B1 (ko) | 두 개의 입력 오디오 신호 믹싱 방법, 및 이를 실행하기 위한 디코더 및 컴퓨터 판독가능한 매체, 및 입력 오디오 신호 믹싱 디바이스 | |
EP2194733B1 (en) | Sound volume correcting device, sound volume correcting method, sound volume correcting program, and electronic apparatus. | |
JP2011501486A (ja) | スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法 | |
JP2002078100A (ja) | ステレオ音響信号処理方法及び装置並びにステレオ音響信号処理プログラムを記録した記録媒体 | |
US20110071837A1 (en) | Audio Signal Correction Apparatus and Audio Signal Correction Method | |
US8750529B2 (en) | Signal processing apparatus | |
WO2006051586A1 (ja) | 音響電子回路及びその音量調節方法 | |
US8837744B2 (en) | Sound quality correcting apparatus and sound quality correcting method | |
JP2003274492A (ja) | ステレオ音響信号処理方法、ステレオ音響信号処理装置、ステレオ音響信号処理プログラム | |
US8099276B2 (en) | Sound quality control device and sound quality control method | |
US20050246170A1 (en) | Audio signal processing apparatus and method | |
JPH08179792A (ja) | 音声処理装置 | |
JP4922427B2 (ja) | 信号補正装置 | |
JP2002247699A (ja) | ステレオ音響信号処理方法及び装置並びにプログラム及び記録媒体 | |
JP2006333396A (ja) | 音声信号拡声装置 | |
JP2008102551A (ja) | 音声信号の処理装置およびその処理方法 | |
JP3303446B2 (ja) | 音声信号処理装置 | |
JP3627189B2 (ja) | 音響電子回路の音量調節方法 | |
JP6313619B2 (ja) | 音声信号処理装置及びプログラム | |
JP2011141540A (ja) | 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141125 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150324 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150420 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5737808 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |