JP5737808B2

JP5737808B2 - 音響処理装置およびそのプログラム

Info

Publication number: JP5737808B2
Application number: JP2011188874A
Authority: JP
Inventors: 小森　智康; 智康小森; 信正清山; 礼子齋藤; 亨今井; 真一本間; 今井　篤; 篤今井; 都木　徹; 徹都木
Original assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2011-08-31
Filing date: 2011-08-31
Publication date: 2015-06-17
Anticipated expiration: 2031-08-31
Also published as: JP2013050604A

Description

本発明は、音声信号を処理する音響処理装置およびそのプログラムに関する。

テレビ放送やラジオ放送などのコンテンツを再生する際に、スピーチ（人の発話。ナレーション等。）を聞き取りやすくすることが求められる。スピーチ成分を強調するためにスピーチ成分を含む周波数帯域を強調する方法も考えられるが、この方法では、背景音（例えばスピーチの背景で流れる音楽など）のうち、スピーチの周波数帯域にあたる部分も強調されてしまう。

特許文献１には、ステレオ信号の相関を利用して、相関の低い音（異相成分）を小さくしてから、相関の高い音（同相成分）と再度ミキシングすることで、背景の音楽や効果音など（異相成分）を抑制する技術が記載されている。

特開２００９−０２５５００号公報

しかしながら、特許文献１に記載された技術では、同相成分と異相成分とを推定して分離して、異相成分のみを抑制しているため、例えばモノラルのスピーチ成分のない部分で、番組の背景音で使われる音楽のように同相成分の相対的な比率が元々小さいときに、異相成分の混合ゲインを小さくしすぎる場合がある。こうした場合、背景音のみの部分で、無相関成分を抑圧する処理は、ナレーションなど視聴者の注意をひきつける信号が含まれていないため、その抑圧処理による音質劣化は、スピーチと背景音が混在する部分よりも気になりやすく、耳障りなノイズ（例えばミュージカルノイズのようなノイズ）を発生させ、音質劣化をより気づきやすくしてしまうことがある。

本発明は、上記の課題認識に基づいて行なわれたものであり、異相成分と同相成分の混合ゲインを適切に調整することにより、聞き取りやすさの度合いを向上させることのできる音響処理装置およびそのプログラムを提供するものである。

また本発明は、特に、ナレーション信号（同相成分）と背景音信号（異相成分）とが混合された状態の入力音声を元に、耳障りなノイズを極力小さくしつつ、音楽や効果音などの背景音の音量を抑制することのできる音響処理装置およびそのプログラムを提供する。

［１］上記の課題を解決するため、本発明の一態様による音響処理装置は、入力音声信号に基づき、スピーチ音声信号と背景音信号とを推定し、前記入力音声信号を推定スピーチ音声信号と推定背景音信号とに分離する背景音分離部と、前記入力音声信号に基づき、または前記入力音声信号に関連する信号に基づき、前記入力音声信号がスピーチを含む音声区間であるかスピーチを含まない非音声区間であるかを判断し判断結果を出力する音声区間判断部と、前記音声区間判断部による前記判断結果が音声区間であるか非音声区間であるかに応じた方法で、信号の混合比を決定する混合比調整部と、前記入力音声信号と前記推定スピーチ音声信号と前記推定背景音信号との少なくともいずれかを、前記混合比調整部によって決定された混合比に基づいて混合し、出力音声信号として出力する混合部とを具備し、前記音声区間判断部は、前記入力音声信号に対応するラウドネス値が、所定時間内における前記ラウドネス値の平均値を基準として所定幅以上上回る回数と所定幅以上下回る回数とをカウントし、この回数に基づいて音声区間であるか非音声区間であるかを判断する信号特徴抽出型区間検出部を音声区間検出手段の少なくとも一つとして具備することを特徴とする。

上記においてスピーチとは人の発話である。例えば、放送番組においては、ナレーションやアナウンスや演者によるその他の発話がスピーチに該当する。音声区間とは、スピーチを含む区間である。非音声区間とは、スピーチを含まない区間である。音声区間も非音声区間も、一般に効果音や背景音を含む。
所定時間内における前記ラウドネス値の平均値を基準として所定幅以上上回る回数と所定幅以上下回る回数とをカウントし、この回数に基づいて音声区間であるか非音声区間であるかを判断する方法の具体例は、平均値を基準として所定幅以上上回る回数と所定幅以上下回る回数との合計が、所定の閾値（１を含む）以上である場合に音声区間であると判断し、その他の場合に非音声区間であると判断することである。

［２］また、本発明の一態様は、上記の音響処理装置としてコンピューターを機能させるためのプログラムである。

本発明によれば、人の音声と背景音が混合された状態の番組のミキシングバランスを、放送等の受信機側で自動的に聴感に対応させて調整することができる。
本発明によれば、音声区間であるか非音声区間であるかに応じて、スピーチ音声を主成分とする推定スピーチ音声信号Ｎ’と、背景音を主成分とする推定背景音信号ＢＧ’の混合比を変える。これにより、音声区間の背景音の大きさと、音楽や効果音だけの区間の背景音の大きさを独立に変えることができる。音声区間と音楽や効果音だけの区間では、視聴者（特に高齢者視聴者）の好ましいと感じる、背景音の大きさは異なっていることわかっていることから、独立に変えることで、より聞きやすいバランスにカスタマイズして調整することもできる。

本発明の第１の実施形態による音響処理装置の機能構成を示すブロック図である。同実施形態における背景音分離部が内部に備える同相成分抽出器の構成を示すブロック図である。本発明の第２の実施形態による音響処理装置の機能構成を示すブロック図である。本発明の第３の実施形態による音響処理装置の機能構成を示すブロック図である。本発明の第４の実施形態による音響処理装置の機能構成を示すブロック図である。

以下、図面を参照しながら本発明の実施形態について説明する。
［第１の実施形態］
図１は、第１の実施形態による音響処理装置の機能構成を示すブロック図である。図示するように、音響処理装置１は、背景音分離部１００と、音声区間判断部１２０と、混合比調整部１４０と、混合部１５０とを含んで構成される。また、音声区間判断部１２０は、言語特徴抽出型区間検出部１２１と、信号特徴抽出型区間検出部１２２と、字幕情報抽出型区間検出部１２３と、重み付け判断部１３０とを含んで構成される。

この音響処理装置１は、例えば、デジタルテレビ受信機の内部に組み込まれる。その場合、デジタルテレビ受信機が受信した番組の音声信号や字幕データ情報を、音響処理装置１の入力とする。

背景音分離部１００に入力される入力音声は、ナレーション信号（Ｎ）と背景音信号（Ｂ）とが混合されたものである。よって同図では、入力音声の信号を「Ｎ＋ＢＧ」と示している。背景音信号は、背景音楽や効果音などを含む音響信号である。この入力音声は、例えば、テレビやラジオ等の放送信号に含まれる音声信号である。また例えば、放送以外のコンテンツに含まれる音声信号を入力音声としても良い。

背景音分離部１００は、上記の入力信号を元に、推定されたナレーション信号（Ｎ）である推定ナレーション信号（Ｎ’）と、推定された背景音信号（ＢＧ）である推定背景音信号（ＢＧ’）とを出力する。

字幕情報抽出型区間検出部１２３に入力される字幕データ情報（図では「ｄ１」と示す）は、上記の入力音声と同期しており、入力音声に対応する字幕テキストの情報を含むデータである。必要に応じて、字幕データ情報が、ＰＴＳ（プレゼンテーションタイムスタンプ）など、コンテンツの提示タイミングに関する情報を含むようにしても良い。

言語特徴抽出型区間検出部１２１は、入力音声が音声区間であるか否かを表わす信号（Ｐ１）を出力する。信号特徴抽出型区間検出部１２２は、入力音声が音声区間であるか否かを表わす信号（Ｐ２）を出力する。字幕情報抽出型区間検出部１２３は、入力音声が音声区間であるか否かを表わす信号（Ｐ３）を出力する。重み付け判断部１３０は、上記の信号Ｐ１，Ｐ２，Ｐ３に基づき、演算を行い、音声区間判断の結果を表わす信号（ＣＰ，ＣｏｒｒｅｃｔｅｄＰｅｒｉｏｄ）を出力する。

混合比調整部１４０は、上記の信号（ＣＰ）に基づき、推定ナレーション信号（Ｎ’）と推定背景音信号（ＢＧ’）の混合比を調整する。そして、混合部１５０は、混合比調整部１４０によって調整された混合比を用いて推定ナレーション信号（Ｎ’）と推定背景音信号（ＢＧ’）とを混合し、出力音声の信号（Ｎ＋ＢＧ）’を出力する。

次に、各部の処理の概略について説明する。
背景音分離部１００は、入力音声信号（Ｎ＋ＢＧ）に基づき、スピーチ音声信号と背景音信号とを推定し、入力音声信号を推定スピーチ音声信号（Ｎ’，推定されたスピーチ音声信号）と推定背景音信号（ＢＧ’，推定された背景音信号）とに分離する。

音声区間判断部１２０は、入力音声信号（Ｎ＋ＢＧ）に基づき、または入力音声信号に関連する信号（Ｎ＋ＢＧから推定されたＮ’や、Ｎ＋ＢＧと関連するタイミングで外部から取得される字幕データ情報等）に基づき、音声区間であるか非音声区間であるかを判断し判断結果（ＣＰ）を出力する。ここで、音声区間とは、入力音声信号がスピーチを含む区間である。また、非音声区間とは、入力音声信号がスピーチを含まず音楽や効果音等のみを含む区間である。

混合比調整部１４０は、音声区間判断部１２０による判断結果が音声区間であるか非音声区間であるかに応じて、音声区間の場合と非音声区間の場合とで異なった方法で、信号の混合比を決定する。つまり、音声区間判断部１２０から出力される判断結果に応じて、推定スピーチ音声信号Ｎ’と推定背景音ＢＧ’の混合比を、区間毎に変える。
混合部１５０は、混合比調整部１４０が決定した混合比で、スピーチ音声信号と背景音信号とを混合し、出力音声信号（Ｎ＋ＢＧ）’として出力する。なお、後述するように、（Ｎ＋ＢＧ）＝（Ｎ’＋ＢＧ’）として良いので、混合部１５０は、入力音声信号（Ｎ＋ＢＧ）と推定スピーチ音声信号（Ｎ’）と推定背景音信号（ＢＧ’）との少なくともいずれかを、適宜用いることにより、混合比調整部１４０によって決定された混合比に基づく音声を出力することができる。

言語特徴抽出型区間検出部１２１は、ケプストラム等の特徴を用いて入力音声信号の統計的解析を行い、人の声であるスピーチ音声として連続している区間かどうかの判断を行い、音声の連続している区間であるか否かを表す情報Ｐ１を算出して出力する。具体的には、言語特徴抽出型区間検出部１２１は、入力音声信号に基づき、ケプストラム等の音響特徴量を抽出するとともに、音響特徴量とスピーチとの間の関係を表わす統計値および音響特徴量と非スピーチとの間の関係を表わす統計値を含んだ音響モデルを読み出して、抽出された音響特徴量に対するスピーチおよび非スピーチの各々の尤度（累積尤度）を算出し、算出された尤度に基づいて音声区間であるか非音声区間であるかを判断する。

信号特徴抽出型区間検出部１２２は、入力音声信号に対応するラウドネス値を求め、このラウドネス値が、所定時間内におけるラウドネス値の平均値を基準として所定幅以上上回る回数と所定幅以上下回る回数とをカウントし、この回数に基づいて音声区間であるか非音声区間であるかを判断する。一例としては、信号特徴抽出型区間検出部１２２は、ラウドネス値の平均値を基準として、ラウドネス値が所定幅以上上回る回数と所定幅以上下回る回数との和が、所定の閾値（例えば、１）以上であるかどうかに応じて、閾値を上回る場合には音声区間であると判断し、その他の場合には非音声区間であると判断する。
別の言い方をすると、信号特徴抽出型区間検出部１２２は、所定時間のフレーム毎に入力音声信号の音の大きさを検出し、その音の大きさの特徴から、人の声であるスピーチ音声が連続しているかどうかの判断を行い、スピーチ音声の連続している区間情報をＰ２として出力する。

字幕情報抽出型区間検出部１２３は、入力音声信号に対応する字幕データに基づき、スピーチに対応する字幕データが提示されるべきタイミングであるか否かに基づいて、音声区間であるか非音声区間であるかを判断する。字幕情報抽出型区間検出部１２３は、字幕データが提示されるべきタイミングであるか否かをＰ３の値として出力する。

つまり、言語特徴抽出型区間検出部１２１と信号特徴抽出型区間検出部１２２と字幕情報抽出型区間検出部１２３の各々は、異なる手法によって音声区間と非音声区間を検出するという意味で、判断結果が互いに異なり得る複数の型の音声区間検出手段である。

重み付け判断部１３０は、複数の型の音声区間検出手段の各々の判断結果を所定の重みで重み付けすることによって、複合された判断結果を求めて出力する。具体的には、重み付け判断部１３０は、言語特徴抽出型区間検出部１２１からの出力である判断結果Ｐ１と、信号特徴抽出型区間検出部１２２からの出力である判断結果Ｐ２と、字幕情報抽出型区間検出部１２３からの出力である判断結果Ｐ３のそれぞれに重み付けを行い、重み付けした結果の和が所定の閾値を超えるか否かに応じて、判断結果ＨＣＰを求める。さらに、ＨＣＰの変化を滑らかにするような補正処理を行って、補正処理後の判断結果ＣＰを出力する。

次に、各部の処理の詳細について説明する。
［ナレーション音声と背景音との分離］
背景音分離部１００は、ステレオ相関法を利用してナレーション音声信号と背景音信号を分離する。入力音声信号は、２チャンネルステレオ信号であり、左チャンネルをＬ、右チャンネルとＲと表わす。左チャンネルＬに含まれる背景音信号をＬ_Ｂとし、右チャンネルＲに含まれる背景音信号をＲ_Ｂとし、ナレーション音声信号Ｃ_Ｎは完全に左右相関することを用いると、これらの信号の関係は下の式（１）で表わされる。

また、各チャンネル間で同相な信号をＣとして、無相関な信号をそれぞれＬ₀，Ｒ₀とすると、２チャンネルステレオ信号Ｌ，Ｒは、下の式（２）で表わすこともできる。

この式（２）において、Ｃは２チャンネルステレオ信号の同相成分であり、このＣには、ナレーション音声信号と、背景音信号の同相成分とが含まれている。

背景音分離部１００は、２チャンネルの入力音声信号中から、同相成分であるナレーション音声信号Ｃ_Ｎのみを抽出して、このナレーション音声信号Ｃ_Ｎに対する、左側入力信号の無相関信号部分Ｌ_０および右側入力信号の無相関信号部分Ｒ_０の加算割合を制御することで、ナレーション音声信号Ｃ_Ｎのみを適正に制御することが可能になる。

図２は、背景音分離部１００が内部に備える同相成分抽出器の構成を示すブロック図である。背景音分離部１００は、２チャンネルステレオ信号から同相成分を抽出するために、この適応フィルタを用いる。

同図において、符号１Ｌおよび１Ｒは、入力される信号ＬおよびＲの入力部である。信号入力部１Ｌおよび１Ｒの出力側は、それぞれ、適応フィルタ２Ｌおよび２Ｒ、フィルタ係数生成器３Ｌおよび３Ｒ、サンプル遅延器４Ｌおよび４Ｒに接続されている。

つまり、Ｌ側とＲ側の２チャンネルの離散信号ベクトルＬおよびＲがあるとき、時刻ｋにおける入力信号をＬ（ｋ）およびＲ（ｋ）とし、一方の入力信号Ｌ（ｋ）を適応フィルタ２Ｌ、フィルタ係数生成器３Ｌ、サンプル遅延器４Ｌに入力させ、他方の入力信号Ｒ（ｋ）を適応フィルタ２Ｒ、フィルタ係数生成器３Ｒ、サンプル遅延器４Ｒに入力させる。

適応フィルタ２Ｌおよび２Ｒには、それぞれ、フィルタ係数生成器３Ｌおよび３Ｒが接続され、これら適応フィルタ２Ｌ，２Ｒおよびフィルタ係数生成器３Ｌ，３Ｒによって、刻々と変化するフィルタ係数Ｗ_Ｌ，Ｗ_Ｒが得られる。

この適応フィルタ２Ｌ，２Ｒにおいて、時刻ｋにおける入力信号Ｌ（ｋ）に適応フィルタ係数Ｗ_Ｌを畳み込み、得られる信号をＣ_Ｌ（ｋ）とし、入力信号Ｒ（ｋ）に適応フィルタ係数Ｗ_Ｒを畳み込み、得られる信号をＣ_Ｒ（ｋ）とする。

また、サンプル遅延器４Ｌおよび４Ｒは、それぞれ、入力信号Ｌ（ｋ）およびＲ（ｋ）を、Ｍ／２（Ｍは適応フィルタ長）だけ遅延させた、信号Ｌ’（ｋ）およびＲ’（ｋ）を生成する。

なお、適応フィルタ２Ｌおよび２Ｒにおける適応信号処理には、ＦＩＲ（Finite Impulse Response）フィルタやＩＩＲ（Infinite Impulse Response）フィルタ等の構成を用いることができるが、これらには限定されない。諸条件を考慮して、適応信号処理のフィルタ構成や更新アルゴリズムを適宜選択する。

適応フィルタ２Ｌおよび２Ｒの出力Ｃ_Ｌ（ｋ），Ｃ_Ｒ（ｋ）は、それぞれ、誤差信号算出用の演算器５Ｌおよび５Ｒに入力され、サンプル遅延器４Ｌおよび４Ｒの出力は、それぞれ、同じく誤差信号算出用の演算器５Ｌおよび５Ｒに入力される。演算器５Ｌにおいて、サンプル遅延器４Ｒからの出力Ｒ’（ｋ）から適応フィルタ２Ｌの出力Ｃ_Ｌ（ｋ）を差し引いた誤差信号ｅｒｒＬ（ｋ）が生成される。また、演算器５Ｒにおいて、サンプル遅延器４Ｌからの出力Ｌ’ （ｋ）から適応フィルタ２Ｒの出力Ｃ_Ｒ（ｋ）を差し引いた誤差信号ｅｒｒＲ（ｋ）が生成される。

生成された誤差信号ｅｒｒＬ（ｋ）およびｅｒｒＲ（ｋ）は、それぞれ、フィルタ係数生成器３Ｌおよび３Ｒにフィードバックされ、この誤差信号ｅｒｒＬ（ｋ）およびｅｒｒＲ（ｋ）を利用して、適応アルゴリズムにより逐次適応フィルタ２Ｌおよび２Ｒが更新され、フィルタ出力Ｃ_Ｌ（ｋ）およびＣ_Ｒ（ｋ）が得られる。

適応フィルタ２Ｌおよび２Ｒからの出力は、それぞれ、誤差信号算出用の演算器５Ｌおよび５Ｒとは別に、同相信号加算用演算器６にも出力される。この同相信号加算用の演算器６は、各適応フィルタ２Ｌおよび２Ｒからの出力Ｃ_Ｌ（ｋ）とＣ_Ｒ（ｋ）とを加算する。この同相信号加算用の演算器６の出力は、乗算器８において０．５倍され、その結果、同相信号出力部１０からは、同相信号としてＣ’（ｋ）＝（Ｃ_Ｌ（ｋ）＋Ｃ_Ｒ（ｋ））／２が出力される。

この同相信号抽出回路２０は、信号入力部１Ｌに入力される信号Ｌ＝Ｃ＋Ｌ_０、および信号入力部１Ｒに入力される信号Ｒ＝Ｃ＋Ｒ_０に対して、それらの同相成分Ｃを抽出し同相信号出力部１０から出力する。同相信号抽出回路２０は、ＮＬＳＭ（学習同定法：Normalized Least Mean Square Algorithm）を用い、ステップサイズパラメータは、μ＝０．０２、γ＝０．０００００１（＝１×１０^−６）である。そして、同相信号抽出回路２０は、誤差であるｅｒｒＬ（ｋ）とｅｒｒＲ（ｋ）を最小とするよう更新を行うことで同相信号を抽出する。図示した同相信号抽出回路２０における適応フィルタＷ_ＬおよびＷ_Ｒの出力は、それぞれ、式（３）および式（４）で表わす通りである。

上記のように、背景音分離部１００は、左チャンネルの信号（Ｌ）および右チャンネルの信号（Ｒ）から、同相成分の信号Ｃを抽出することができる。式（１）および式（２）からもわかるように、この信号Ｃには背景音信号（ＢＧ）の同相成分も含まれている。そのため、信号Ｃは厳密にはナレーション音声信号（Ｃ_Ｎ＝Ｎ）と同一ではないが、信号Ｃはナレーション音声信号Ｎの近似であるＮ’とすることができる。また、背景音分離部１００は、入力音声信号ＬおよびＲから、信号Ｃを減算して、それぞれ、無相関成分の信号Ｌ_０およびＲ_０を得る。この信号Ｌ_０およびＲ_０が、近似的な背景音信号ＢＧ’に相当する。つまり、背景音分離部１００は、入力信号Ｎ＋ＢＧを、ナレーション信号（Ｎ）に近似すると推定される推定ナレーション信号（Ｎ’）と背景音信号（ＢＧ）に近似すると推定される推定背景音信号（ＢＧ’）に分離し、出力する。

［言語特徴抽出型の音声区間検出］
言語特徴抽出型区間検出部１２１は、言語が有する特有の音響的特徴を用いて音声区間の検出を行う。具体的には、言語特徴抽出型区間検出部１２１は、所定の言語における音素や語等に含まれる周波数やパワー等の特徴量を用いた確率モデルに基づいて、音声区間を検出する。

より具体的には、例えば特許第４７９１８５７号公報に示されている手法を用いる方法がある。詳細に説明すると、言語特徴抽出型区間検出部１２１は、累積音素尤度を利用して、音声区間（発話の始端と終端）を検出する。そのため、言語特徴抽出型区間検出部１２１は、複数の話者クラスタの各々について、予めサブワード音響モデルを記憶しておく。そして、言語特徴抽出型区間検出部１２１は、複数の話者クラスタのサブワード音響モデルを用いて、入力される音声（具体的には、背景音分離部１００によって分離された推定ナレーション信号Ｎ’）に対して、サブワード単位の、スピーチと非スピーチに対応する累積尤度を算出する。ここでサブワードとは、例えば、音素や音節である。言語特徴抽出型区間検出部１２１は、入力音声に同期しながら少ない遅れ時間で上記の累積尤度を算出し、発話始端および発話終端を検出する。

さらに具体的に説明すると、次の通りである。サブワード音響モデルは、サブワードと音響的特徴量との間の統計的な確率分布に関するデータの集合を記憶媒体に記憶させたものである。また、サブワード音響モデルは、非スピーチ（発話されていない区間）に対しても同様に音響的特徴量の統計的確率分布のデータを保持している。サブワード音響モデルの話者クラスタ数が２であり、話者クラスタの集合が｛Ａ，Ｂ｝であるとき、話者クラスタＳ∈｛Ａ，Ｂ｝の非スピーチ音響モデルをｓｉｌ_Ｓと表わす。また、話者クラスタＳのスピーチ音響モデルをｐｈ_Ｓ，ｉと表わす。ここで、ｉは、音素や音節等のサブワードを指標する番号である。

言語特徴抽出型区間検出部１２１は、発話始端では、入力される音声信号を元に算出した音響特徴量に対応する可能性のある複数のサブワード列に対して、最尤サブワード列の累積尤度の対数値Ｌ１を逐次求める。このＬ１は、下の式（６）によって算出される。なお、ｘ_τ ^ｔは、時刻τから現時刻ｔまでの音響特徴量の列である。また、ｈは、サブワード列を示す。

また、言語特徴抽出型区間検出部１２１は、発話始端の非スピーチ音響モデルの累積尤度の対数値Ｌ２を逐次求める。このＬ２は、下の式（７）によって算出される。なお、話者クラスタＳは、式（６）と式（７）とで共通である。

また、言語特徴抽出型区間検出部１２１は、発話終端では、音響特徴量の列ｘ_τ ^ｔに対応する可能性のある複数のサブワード列に対して、全話者クラスタのスピーチに対応する音響モデルに後続して非スピーチに対応する音響モデルのうち、最大の累積尤度の対数値Ｌ３を逐次求める。このＬ３は下の式（８）によって算出される。なお、ｘ_τ ^ｔ発話の始端検出開始時刻τから現時刻ｔまでの音響特徴量の列である。

更に、言語特徴抽出型区間検出部１２１は、同じ話者クラスタのスピーチに対応する音響モデルの最大の累積尤度の対数値Ｌ４を逐次求める。このＬ４は下の式（９）によって算出される。

言語特徴抽出型区間検出部１２１は、発話始端においては、最尤サブワード列の累積尤度の対数値Ｌ１と、始端の非スピーチ音響モデルの累積尤度の対数値Ｌ２の差が一定の閾値θ_{ｓｔａｒｔ}を超えた時、すなわち（Ｌ1−Ｌ２）＞θ_{ｓｔａｒｔ}となる時、これを発話始端検出条件として、最大の累積尤度を示すサブワード列の始端の非スピーチ音響モデルの終端時刻から、所定の時間長ｔ_{ｓｔａｒｔ}遡った時刻を発話始端時刻とする。なお、この時間長ｔ_{ｓｔａｒｔ}は、例えばアナウンサーがニュース原稿を読み上げるような一般的な音声速度の場合には約２００ｍｓｅｃ（ミリ秒）程度が好ましいが、特に、時間長ｔ_{ｓｔａｒｔ}については限定されない。

一方、言語特徴抽出型区間検出部１２１は、発話終端においては、終端が非スピーチ音響モデルとなる最尤サブワード列のうち最大の累積尤度の対数値Ｌ３と、同話者クラスタのスピーチ音響モデルを終端とする最尤サブワード列の累積尤度の対数値Ｌ４との差が、一定の閾値θ_ｅｎｄを時間長ｔ_ｅｎｄ１継続して超えた場合、すなわち時間長ｔ_ｅｎｄ１継続して（Ｌ３−Ｌ４）＞θ_ｅｎｄとなるとき、これを発話終端検出条件として、現時刻ｔから時間長ｔ_ｅｎｄ２遡った時刻を発話終端時刻とする。なお、時間長ｔ_ｅｎｄ２は、時間長ｔ_ｅｎｄ１を基準として、ｔ_ｅｎｄ２＜ｔ_ｅｎｄ１の条件を満たして設定される時間長である。これは、時間長ｔ_ｅｎｄ１が発話終端検出条件の基準であるため、実際の発話終端時刻を求めるための時間長として時間長ｔ_ｅｎｄ１は長すぎることとなってしまうためである。このため、ｔ_ｅｎｄ２＜ｔ_ｅｎｄ１の関係を満たす時間長ｔ_ｅｎｄ２を設定することにより、実際の発話終端部により近い時刻を検出することができる。ここで、時間長ｔ_ｅｎｄ２は、例えばニュース原稿を読み上げるような一般的な音声速度の場合には約２００ｍｓｅｃ（ミリ秒）程度が好ましいが、特に、時間長ｔ_ｅｎｄ２の値が限定されるものではない。

そしてこの場合、所定の時間ｔ_{ｄｅｌａｙ１}（約３５０ｍｓｅｃ）の観測時間後に、当該区間中央部までの音声区間が決まる。そこで、言語特徴抽出型区間検出部１２１は、時間ｔ_{ｄｅｌａｙ１}遡った時刻が音声区間か非音声区間かを示すデータを区間情報Ｐ１として出力する。ｔ_{ｄｅｌａｙ１}遡った時刻が音声区間であればＰ１＝１．０を出力し、非音声区間であればＰ１＝０．０を出力する。本実施形態では、言語特徴抽出型区間検出部１２１が、例えば、１０ｍｓｅｃ毎に音声区間か非音声区間かを示すＰ１の値を出力すれば十分であるが、この時間間隔は１０ｍｓｅｃに限定されない。また、連続的にＰ１の値を出力し続けるようにしても良い。

［信号特徴抽出型の音声区間検出］
信号特徴抽出型区間検出部１２２は、音声波形の包絡情報や、パワー等の時間方向の変化の特徴量を利用して、音声区間を検出する。その方法の一例として、信号特徴抽出型区間検出部１２２は、ラウドネスの振幅変化の特徴量を用いて音声区間を検出する。

具体的には、信号特徴抽出型区間検出部１２２は、入力音声（Ｎ＋ＢＧ）のラウドネス値を測定（算出）する。このラウドネス値は、例えば、ＩＴＵ−ＲＢＳ１７７１に準拠するものである。そして、信号特徴抽出型区間検出部１２２は、所定時間内（例えば、２０００ｍｓｅｃ）の間のラウドネスの平均値を算出し、当該所定時間内において、ラウドネス波形がその平均値プラスＬホン（ｐｈｏｎ）のラインと交差した回数Ｃ_Ｕ、およびラウドネス波形がその平均値マイナスＬホンのラインと交差した回数Ｃ_Ｌをそれぞれカウントする。そして、Ｃ_Ｕ＋Ｃ_Ｌの値が所定の回数（例えば、１回）以上となった場合にその区間は音声区間であると判定し、その他の場合にその区間は非音声区間であると判定する。

なお、Ｌの値は、例えば３〜５程度とすることが好ましいが、この範囲の値に限定されない。Ｌの値は、放送番組等におけるナレーション音声と背景音の標準的な混合比率等に基づいて予め設定しておく。

この場合、所定の時間ｔ_{ｄｅｌａｙ２}（約１０００ｍｓｅｃ）の観測時間後に、当該区間中央部までの音声区間が決まる。従って、信号特徴抽出型区間検出部１２２は、時間ｔ_{ｄｅｌａｙ２}遡った時刻が音声区間か非音声区間かを示すデータを区間情報Ｐ２として出力する。信号特徴抽出型区間検出部１２２は、時間ｔ_{ｄｅｌａｙ２}遡った時刻が音声区間であればＰ２＝１．０を出力し、時間ｔ_{ｄｅｌａｙ２}遡った時刻が非音声区間であればＰ２＝０．０を出力する。本実施形態では、信号特徴抽出型区間検出部１２２が、例えば、２０ｍｓｅｃ毎に音声区間か非音声区間かを示すＰ２の値を出力すれば十分であるが、この時間間隔は２０ｍｓｅｃに限定されない。また、連続的にＰ２の値を出力し続けるようにしても良い。

［字幕情報抽出型の音声区間検出］
字幕情報抽出型区間検出部１２３は、デジタルテレビ放送の信号に含まれるデジタル字幕データを利用して、入力音声信号における音声区間を検出する。字幕情報抽出型区間検出部１２３は、デジタルテレビ放送の受信手段によって受信された字幕データを入力とする。なお、デジタルテレビ放送における字幕データの構造は、下記の参考文献に記載されている。

参考資文献：「補助データパケット形式で伝送されるデジタル字幕データの構造と運用」標準規格，ＡＲＩＢＳＴＤ−Ｂ３７２．４版，平成１８年（２００６年）３月１４日，社団法人電波産業会

字幕情報抽出型区間検出部１２３は、テレビ放送受信機が受信した字幕データを受け取ると、直ちにその字幕データの解析を開始する。具体的には、字幕情報抽出型区間検出部１２３は、字幕データを解析し、字幕の有無を判断するとともに、字幕がある場合にはその字句解析を行う。そして、字幕データのうち、括弧「（）」に囲まれた部分と、音符記号（♪）に後続する部分は、ナレーションやセリフ等のスピーチに対応しないものと判断する。また、字幕データのうち上記以外の部分は、ナレーションやセリフ等のスピーチに対応するものと判断する。つまり、字幕情報抽出型区間検出部１２３は、字幕データのない時間帯を、非音声区間と判断する。また、字幕データのある時間帯のうち、スピーチに対応しない字幕が表示される時間帯を、非音声区間と判断する。また、字幕データのある時間帯のうち、スピーチに対応する字幕が表示される時間帯を、音声区間と判断する。

そして、字幕情報抽出型区間検出部１２３は、音声区間か否かを示すデータＰ３を出力する。字幕情報抽出型区間検出部１２３は、音声区間においてはＰ３＝１．０を出力し、非音声区間においてはＰ３＝０．０を出力する。

［重み付け判断］
上記のように、言語特徴抽出型区間検出部１２１と信号特徴抽出型区間検出部１２２と字幕情報抽出型区間検出部１２３は、各々独自の手法によって音声区間であるか非音声区間であるかを判定し、判定結果として、それぞれＰ１，Ｐ２，Ｐ３を出力する。重み付け判断部１３０は、これらの値を用いて演算を行い、判断結果としてＣＰの値を出力する。具体的には、重み付け判断部１３０は、下の式（１０）によって、音声区間判断値Ｄを算出する。

ここで、α１、α２、α３はそれぞれの区間検出部に対応した重み値である。例えば、α_１＝０．６， α_２＝０．４， α_３＝１．０という重み値を用いることができるが、これらの値には限られない。Ｐ１とＰ２とＰ３の値はそれぞれ０．０または１．０であるので、上記のようなα_１，α_２，α_３を用いた場合にＤが取り得る値の範囲は、０≦Ｄ≦２．０である。そして、字幕情報抽出型区間検出部１２３は、算出したＤの値に基づいて、音声区間か非音声区間かを判断し、ＨＣＰ（ＨｉｇｈＣｏｎｆｉｄｅｎｃｅＰｅｒｉｏｄ）の値を求める。具体的には、字幕情報抽出型区間検出部１２３は、Ｄ≧１．０の場合にはＨＣＰ＝１．０とし、Ｄ＜１．０の場合にはＨＣＰ＝０．０とする。

このように、複数の区間検出手段を用いて、それら各々の出力結果に基づき、重み付け判断部１３０が総合的に音声区間であるか否かを判断することにより、判断の精度が上がる。例えば、字幕情報抽出型区間検出部１２３による区間検出の精度は比較的高いが、番組中に字幕がオープンキャプションに切り替わった状況においては字幕情報抽出型区間検出部１２３による検出精度が急激に落ちる。また、予め字幕データを準備した番組ではなく、生放送の番組でリアルタイムに字幕データを生成させて放送信号に付与している場合には、字幕の提示のタイミングに遅延が生じるため、この場合も字幕情報抽出型区間検出部１２３による検出精度が落ちる。こういった状況においても、本実施形態のように複数の区間検出手段を用いることにより、トータルな検出精度の向上につなげることができる。

［補正処理］
重み付け判断部１３０は、算出したＨＣＰの値に基づく補正処理を行う。具体的には、重み付け判断部１３０は、算出したＨＣＰの値が連続して１．０となる時間がＴ_Ｌ以下の場合（その直前および直後におけるＨＣＰの値は０．０）には、その区間のＨＣＰの値を０．０に補正する。また、重み付け判断部１３０は、算出したＨＣＰの値が連続して０．０となる時間がＴ_Ｕ以下の場合（その直前および直後におけるＨＣＰの値は１．０）には、その区間のＨＣＰの値を１．０に補正する。

言い換えれば、この補正処理は、音声区間と非音声区間との間での切り替えが起こったときに切り替え先の状態が所定の時間継続せずに切り替え元の状態に戻った場合には、当該切り替えは起こらなかったものとして切り替え元の状態を継続して判断結果として出力するものである。

上記のような補正処理により、重み付け判断部１３０から出力する値を滑らかに変化させることができる。上記の時間Ｔ_Ｌは、例えば１０００ｍｓｅｃに予め設定する。また、上記の時間Ｔ_Ｕは、例えば１０００ｍｓｅｃに予め設定する。また、Ｔ_ＬとＴ_Ｕは、それぞれ１０００ｍｓｅｃ以外の値としても良い。また、Ｔ_Ｌ≠Ｔ_Ｕであっても良い。そして、重み付け判断部１３０は、このように補正された後のＨＣＰの値をＣＰ（音声区間判定結果）として、出力する。

［混合比調整処理］
混合比調整部１４０は、音声区間評価部１２０から出力されたＣＰの値に基づき、Ｎ’とＢＧ’を混合させる際の混合比を調整する。具体的には、混合比調整部１４０は、音声区間判断部１２０から出力されたＣＰの値に基づいて、背景音抑圧手法とゲイン制御手法とを切り替える。具体的には、混合比調整部１４０は、ＣＰ＝１．０の区間では背景音抑圧手法を使用し、ＣＰ＝０．０の区間ではゲイン制御手法を使用する。

背景音抑圧手法を使用する場合、混合比調整部１４０は、背景音分離部１００から出力された推定ナレーション信号Ｎ’と推定背景音信号ＢＧ’の混合比が、下の式（１１）の通りとなるように調整する。なお、Ｏｕｔは出力音声信号である。また、ここに示すβ_１の値は一例であり、適宜変更可能である。

また、ゲイン制御手法を使用する場合、混合比調整部１４０は、出力Ｏｕｔが下の式（１２）の通りとなるように調整する。なお、（Ｎ＋ＢＧ）は、背景音分離部１００をスルーした入力音声信号である。また、ここに示すβ_２の値は一例であり、適宜変更可能である。

なお、背景音分離部１００の処理から明らかなように、（Ｎ＋ＢＧ）＝（Ｎ’＋ＢＧ’）であるので、式（１２）を下の式（１３）で置き換えても良い。

このように、混合比調整部１４０は、ＣＰの値に応じて異なる手法を切り替えて使用しながら、出力音声を調整する。

なお、音声区間と非音声区間が切り替わる前後１０００ｍｓｅｃ程度でクロスフェードするようにしても良い。クロスフェードさせる区間での出力の一例は、下の式（１４）の通りである。ここで、Ｏｕｔ_１は切り替え後の出力であり、Ｏｕｔ_２は切り替え前の出力である。Ｏｕｔ_１式およびＯｕｔ_２のそれぞれは、式（１１）または式（１２）のいずれかで表わされるものである。また、θはクロスフェードする区間における位相であり、０からπ／２まで増加する。このようにクロスフェードさせることにより、より自然な出力音声を得ることができる。

混合部１５０は、混合比調整部１４０による上記の調整に従って、前段からの音声信号を処理し、出力音声（Ｎ＋ＢＧ）’として出力する。

［第２の実施形態］
次に、本発明の第２の実施形態について説明する。図３は、同実施形態による音響処理装置の機能構成を示すブロック図である。この音響処理装置２が第１の実施形態と異なる点は、音声区間判断部１２０Ａが、言語特徴抽出型区間検出部１２１による検出結果のみに基づいて最終的なＣＰ（音声区間判定結果）を出力している点である。言語特徴抽出型区間検出部１２１の機能自体は、第１の実施形態におけるそれと同様である。また、音声区間判断部１２０Ａは、信号特徴の抽出に基づく区間検出（第１の実施形態における符号１２２）や、字幕情報の抽出に基づく区間検出（第１の実施形態における符号１２３）を行う機能を有していない。また、音声区間判断部１２０Ａは、一種類の方法のみで音声区間の検出を行うため、重み付け判断（第１の実施形態における符号１３０）を行う機能を有していない。但し、音声区間判断部１２０Ａから出力する値を滑らかに変化させることを目的として、第１の実施形態において行っている補正処理と同様の処理を、言語特徴抽出型区間検出部１２１が行うようにしても良い。
第２の実施形態は、第１の実施形態と比較して、装置規模を相対的に小さくできるという利点がある。

［第３の実施の形態］
次に、本発明の第３の実施形態について説明する。図４は、同実施形態による音響処理装置の機能構成を示すブロック図である。この音響処理装置３が第１の実施形態と異なる点は、音声区間判断部１２０Ｂが、信号特徴抽出型区間検出部１２２による検出結果のみに基づいて最終的なＣＰ（音声区間判定結果）を出力している点である。信号特徴抽出型区間検出部１２２の機能自体は、第１の実施形態におけるそれと同様である。また、音声区間判断部１２０Ｂは、言語特徴の抽出に基づく区間検出（第１の実施形態における符号１２１）や、字幕情報の抽出に基づく区間検出（第１の実施形態における符号１２３）を行う機能を有していない。また、音声区間判断部１２０Ｂは、一種類の方法のみで音声区間の検出を行うため、重み付け判断（第１の実施形態における符号１３０）を行う機能を有していない。但し、音声区間判断部１２０Ｂから出力する値を滑らかに変化させることを目的として、第１の実施形態において行っている補正処理と同様の処理を、信号特徴抽出型区間検出部１２２が行うようにしても良い。
第３の実施形態は、第１の実施形態と比較して、装置規模を相対的に小さくできるという利点がある。

［第４の実施の形態］
次に、本発明の第４の実施形態について説明する。図５は、同実施形態による音響処理装置の機能構成を示すブロック図である。この音響処理装置４が第１の実施形態と異なる点は、音声区間判断部１２０Ｃが、字幕情報抽出型区間検出部１２３による検出結果のみに基づいて最終的なＣＰ（音声区間判定結果）を出力している点である。字幕情報抽出型区間検出部１２３の機能自体は、第１の実施形態におけるそれと同様である。また、音声区間判断部１２０Ｃは、言語特徴の抽出に基づく区間検出（第１の実施形態における符号１２１）や、信号特徴の抽出に基づく区間検出（第１の実施形態における符号１２２）を行う機能を有していない。また、音声区間判断部１２０Ｃは、一種類の方法のみで音声区間の検出を行うため、重み付け判断（第１の実施形態における符号１３０）を行う機能を有していない。但し、音声区間判断部１２０Ｃから出力する値を滑らかに変化させることを目的として、第１の実施形態において行っている補正処理と同様の処理を、字幕情報抽出型区間検出部１２３が行うようにしても良い。
第４の実施形態は、第１の実施形態と比較して、装置規模を相対的に小さくできるという利点がある。

以上、第１〜第４の実施形態について説明した。まとめると、音声区間と非音声区間とで異なるパラメータ（混合比率）を用いてスピーチ音声信号と背景音信号とを混合することにより、スピーチ音声の聞き取りやすさが向上する。加齢による聴覚特性の変化で、高齢者ほどスピーチを聞き取りにくい傾向もあるが、上述した実施形態では、スピーチ音声信号と背景音信号とを分けて制御することにより、聞き取りやすさが向上する。また、パラメータを適宜変えることにより、個人の聴覚特性に応じた出力音声を得ることもできる。

各実施形態による音響処理装置は、高精度に、音声区間と非音声区間を検出することができる。そして、音声区間では、背景音を抑圧する処理によって、マスキングの効果が有効に働き、耳障りなノイズが検知されにくくなる。これは、放送番組等の音声において、一般的にスピーチ音声が背景音よりも大きな音量でミキシングされていることと整合する。また、非音声区間では、ゲイン制御のみを行うことによって、耳障りなノイズが発生しないようにできる。このように音声区間か非音声区間かによって異なる制御をするために、すべての区間において、視聴者の主観としても、耳障りなノイズの発生を大幅に抑えることが可能となる。

また、音声区間であるか非音声区間であるかに応じて、視聴者にとって好ましい背景音の大きさが異なることを発明者は確認済みであり、この意味からも、音声区間である場合と非音声区間である場合とに応じて、背景音のラウドネス制御を異なるパラメータで行えるようにしたことの効果が得られる。

なお、上述した実施形態における音響処理装置の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
例えば、第１〜第４の各実施形態における背景音分離部１００は、ステレオ相関法によってナレーション音声信号と背景音信号とを分離することとしたが、他にも、スペクトルサブトラクション法（spectral subtraction method）やウィナーフィルター（Wiener Filter）などの手法を用いるようにしても良い。
また、例えば、第１または第２の実施形態における言語特徴抽出型区間検出部１２１は、背景音分離部１００によって分離された推定ナレーション信号（Ｎ’）を入力として音声区間および非音声区間の検出を行ったが、代わりに、分離される前の入力音声信号（Ｎ＋ＢＧ）に基づいて音声区間および非音声区間の検出を行うようにしても良い。

また、例えば、第１〜第４の各実施形態における混合部１５０は、背景音分離部１００から（Ｎ＋ＢＧ）の信号を受けるようにしているが、既に述べたように前記の式（１２）を式（１３）で置き換えることが可能であるので、この（Ｎ＋ＢＧ）の信号の受け渡しを行わないようにしても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

［試聴実験について］
発明者らは、第１の実施形態による音響処理装置を実現し、実際の放送番組から取得した音声および字幕データを用いて、音声区間であるか否かに応じて異なる方法によって、推定ナレーション音声信号と推定効果音信号とを混合させる実証実験を行った。そして、複数の被験者によってスピーチ音声の聞き取りやすさを試聴実験した結果、従来技術よりも聞き取りやすさが改善されたことが確認できた。特に、被験者からは、自然・歪みがあまりない出力音声であるという評価が得られた。

本発明は、例えば、テレビやラジオ等の放送受信機に利用することができる。また、放送に限らず、人の音声（ナレーション等）と背景音（効果音や背景音楽等）とが混合されたコンテンツを再生する装置に利用することができる。

１，２，３，４音響処理装置
１Ｌ，１Ｒ信号入力部
２Ｌ，２Ｒ適応フィルタ
３Ｌ，３Ｒフィルタ係数生成器
４Ｌ，４ＲＭ／２サンプル遅延器
５Ｌ，５Ｒ（誤差信号算出用）演算器
６（同相信号加算用）演算器
８乗算器
１０同期信号出力部
１００背景音分離部
１２０，１２０Ａ，１２０Ｂ，１２０Ｃ音声区間判断部
１２１言語特徴抽出型区間検出部（音声区間検出手段）
１２２信号特徴抽出型区間検出部（音声区間検出手段）
１２３字幕情報抽出型区間検出部（音声区間検出手段）
１２４重み付け判断部
１４０混合比調整部
１５０混合部

Claims

入力音声信号に基づき、スピーチ音声信号と背景音信号とを推定し、前記入力音声信号を推定スピーチ音声信号と推定背景音信号とに分離する背景音分離部と、
前記入力音声信号に基づき、または前記入力音声信号に関連する信号に基づき、前記入力音声信号がスピーチを含む音声区間であるかスピーチを含まない非音声区間であるかを判断し判断結果を出力する音声区間判断部と、
前記音声区間判断部による前記判断結果が音声区間であるか非音声区間であるかに応じた方法で、信号の混合比を決定する混合比調整部と、
前記入力音声信号と前記推定スピーチ音声信号と前記推定背景音信号との少なくともいずれかを、前記混合比調整部によって決定された混合比に基づいて混合し、出力音声信号として出力する混合部と、を具備し、
前記音声区間判断部は、前記入力音声信号に対応するラウドネス値が、所定時間内における前記ラウドネス値の平均値を基準として所定幅以上上回る回数と所定幅以上下回る回数とをカウントし、この回数に基づいて音声区間であるか非音声区間であるかを判断する信号特徴抽出型区間検出部を音声区間検出手段の少なくとも一つとして具備する、
ことを特徴とする音響処理装置。
コンピューターを、請求項１に記載の音響処理装置として機能させるためのプログラム。