JP6313619B2

JP6313619B2 - 音声信号処理装置及びプログラム

Info

Publication number: JP6313619B2
Application number: JP2014058753A
Authority: JP
Inventors: 小森　智康; 智康小森; 都木　徹; 徹都木; 信正清山; 今井　篤; 篤今井
Original assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2014-03-20
Filing date: 2014-03-20
Publication date: 2018-04-18
Anticipated expiration: 2034-03-20
Also published as: JP2015184349A

Description

本発明は、入力音声の話速（話す速さ）を変換し、入力音声に含まれる背景音量を調整する技術に関し、特に、テレビ、ラジオ等のために制作された番組の音声（ナレーション）信号と背景音（音楽、効果音）信号とが混合された信号から、音質良く話速を変換し、かつ背景音信号の大きさを調整する音声信号処理装置及びプログラムに関する。

一般に、高齢者の聴覚機能の低下には、「速すぎる話速では言葉を理解できない」「背景音と音声とを分離する能力が低下する」という大きな２つの問題がある。

前者の問題のためのアプローチとして、入力音声を、その話速が遅くなるように音質良く変換する処理が行われる。具体的には、音声信号処理装置は、入力音声の声帯の振動周期である基本周期をできるだけ正確に抽出し、それに基づいた伸縮処理を行う。

例えば、音声信号処理装置は、入力音声信号の波形を、基本周期を単位としたブロック毎に分割し、そのブロック単位の波形を繰り返すことで伸長を行い、または、そのブロック単位の波形を間引くことで短縮を行うことにより、声の高さを変えることなく話速を変換する（特許文献１を参照）。

このような信号処理において、入力音声信号に対し基本周期を単位としたブロック毎の分割処理を施すための基本周期抽出手法としては、様々なものが提案されている。

しかし、男性の低い声から女性または子供の高い声までの任意の声を扱う場合には、正しい周期の半分の長さを抽出してしまう半周期エラー、または２倍の周期の長さを抽出してしまう倍周期エラーを生じることが少なくない。特に、音声に背景音（音楽、効果音）が混在する場合には、基本周期の抽出精度が低下して正確な話速変換が行われなくなり、これらのエラーが生じやすくなる。

このような問題を解決するために、入力音声信号に対して複数の分析窓幅による自己相関関数を求め、自己相関関数の最大値等に基づいて、複数の基本周期の候補から最適な候補を選択し、音声の基本周期を抽出する手法が提案されている（特許文献２を参照）。これにより、音声に背景音が混在する場合であっても、ある程度の精度を有する基本周期を抽出することができ、音質良く話速変換することができる。

また、音声を自動認識すること等を目的として、音声に混在している背景音を抑圧する手法が提案されている（特許文献３，４を参照）。この手法によれば、音声に背景音が混在している場合、背景音を抑圧した後に、話速変換のための音声の基本周期を求めることで、精度の高い基本周期を得ることができる。

一方、前述の２つの問題のうち後者の問題のためのアプローチとして、番組音声を聞きやすくするために、背景音を抑圧する処理及び音声を強調する処理が行われる。

例えば、音楽成分の背景音を相対的に小さくするためには、音声の帯域を強調して強調音声とする手法が用いられる。しかし、単純なイコライジングでは、音声の周波数と同じ帯域の背景音も強調されてしまう。

そこで、音声のステレオ信号の相関を利用して、相関の低い音が小さくなるように再度ミキシングすることで、相関の低い背景音を小さくする手法が提案されている（特許文献５を参照）。

これらの手法は、番組音声を聞きやすくするためのものである。したがって、これらの手法を用いることにより、抑圧された背景音及び強調された音声信号を再度ミキシングすることで、背景音の大きさを制御することができる。

特許第２９５５２４７号公報特許第３２１９８６８号公報特許第３６９３０２２号公報特開２０１１−２５７６４３号公報特開２００９−２５５００号公報

しかしながら、従来の音声信号処理装置では、音声と背景音とが混合した入力音声信号に対し、話速変換を行うために精度の高い基本周波数を抽出する処理と、耳障りなノイズを極力抑えるために入力音声信号から背景音を抑圧する処理とを行う必要があり、回路規模が大きくなるという課題があった（課題１）。

また、従来の音声信号処理装置では、音声区間を抽出して話速変換する際に、非音声区間も音声区間として抽出してしまうと、非音声区間の信号も音声区間の信号と同様に話速変換されるから、耳障りなノイズが発生するという課題があった（課題２）。

また、従来の音声信号処理装置では、入力音声信号から音声信号と背景音信号とを分離し、分離した音声信号に対して話速変換を行い、音声信号及び背景音信号の音源毎に分析して最ミキシングを行う場合、音声信号と背景音信号とが完全に分離できていない限り、信号間で同期をとることが難しく、音質良く話速変換を行うことができないという課題があった（課題３）。

また、従来の音声信号処理装置では、背景音の抑圧と話速変換とを組み合わせた処理を行う場合において、音声信号と背景音信号との同期をとるために、両信号を再ミキシングした後に話速変換を行うと、背景音の抑圧処理の効果が話速変換による遅延時間だけ遅れてしまい、ユーザの操作感が悪くなってしまうという課題があった（課題４）。

そこで、本発明は前記課題１〜４を解決するためになされたものであり、その目的は、精度の高い音声区間を検出すると共に、音質良く話速変換を行い、より聞き易い音声及び背景音のバランスとなるように背景音信号の大きさを調整可能な音声信号処理装置及びプログラムを提供することにある。

前記目的を達成するために、本発明による音声信号処理装置は、入力音声信号を話速変換し、入力音声信号の背景音の大きさを制御する音声信号処理装置において、前記入力音声信号から音声及び背景音を推定し、前記音声を主成分とする推定音声信号と、前記背景音を主成分とする推定背景音信号とに分離する音声・背景音分離部と、複数の手法により、前記入力音声信号から音声区間及び非音声区間をそれぞれ検出し、前記音声区間及び非音声区間を示す区間情報をそれぞれ生成する区間検出部と、前記音声・背景音分離部により分離された推定音声信号から基本周波数を抽出する基本周期抽出部と、前記区間検出部により生成された複数の区間情報に対し、所定の重み付けに従い多数決判断を行い、新たな区間情報を生成する多数決判断部と、前記入力音声信号、並びに前記音声・背景音分離部により分離された推定音声信号及び推定背景音信号の速度を変換し、変換後の入力音声信号、推定音声信号及び推定背景音信号を話速変換信号として出力する話速変換部と、前記話速変換部により出力された話速変換信号から出力音声信号を生成する出力音声信号生成部と、を備え、前記話速変換部が、前記入力音声信号、並びに前記音声・背景音分離部により分離された推定音声信号及び推定背景音信号が格納される再生用バッファと、前記多数決判断部により生成された新たな区間情報が格納される区間識別バッファと、前記区間識別バッファに格納された新たな区間情報における非音声区間内の所定位置に対応したスキップ位置を決定すると共に、当該話速変換部による速度の変換に伴う遅延時間をスキップ時間に設定し、前記スキップ位置を開始点として前記スキップ時間の間のスキップ区間を決定し、前記再生用バッファに格納された入力音声信号、推定音声信号及び推定背景音信号から、前記スキップ区間の信号をスキップするように削除すると共に、前記区間識別バッファに格納された新たな区間情報から、前記スキップ区間の情報をスキップするように削除するスキップ決定手段と、前記区間識別バッファに格納されたスキップ後の区間情報が音声区間を示している場合、前記基本周期抽出部により抽出された基本周期を単位として、前記再生用バッファに格納されたスキップ後の入力音声信号、推定音声信号及び推定背景音信号の伸縮を行って所定速度に話速を変換する第１の変換処理を行い、前記区間識別バッファに格納されたスキップ後の区間情報が非音声区間を示している場合、前記再生用バッファに格納されたスキップ後の入力音声信号、推定音声信号及び推定背景音信号の速度を変換しないかまたは所定速度に変換する第２の変換処理を行い、前記第１及び第２の変換処理後の入力音声信号、推定音声信号及び推定背景音信号を話速変換信号として出力する話速変換手段と、前記区間識別バッファからスキップ後の区間情報を読み出し、当該区間情報の時刻を、前記第１及び第２の変換処理における所定速度に応じた時刻に変換し、変換後の区間情報を生成する時刻変換手段と、を備え、前記出力音声信号生成部が、前記時刻変換手段により生成された変換後の区間情報が示す音声区間及び非音声区間について、前記話速変換手段により出力された話速変換信号のうちの少なくとも１以上の信号に対し、所定のパラメータを乗算して出力音声信号を生成する、ことを特徴とする。

また、本発明による音声信号処理装置は、前記区間検出部が用いる複数の手法には、前記入力音声信号から音声言語の周波数またはパワーの特徴量を抽出し、当該特徴量に基づいて前記区間情報を生成する手法、前記入力音声信号から音の大きさの特徴量を抽出し、当該特徴量に基づいて前記区間情報を生成する手法、及び、前記入力音声信号に対応する番組の字幕情報を含む字幕データ情報から前記字幕情報を抽出し、前記字幕情報の区間を音声区間とし、前記字幕情報以外の区間を非音声区間とすることで、前記区間情報を生成する手法のうち、少なくとも２つの手法が含まれる、ことを特徴とする。

また、本発明による音声信号処理装置は、前記多数決判断部が、前記区間検出部により生成された複数の区間情報に対し、所定の重み付けに従い多数決判断を行い、前記多数決判断による区間情報を生成し、前記多数決判断による区間情報が音声区間を示しており、当該音声区間の連続する時間が所定時間以下の場合、前記音声区間を非音声区間に補正し、前記多数決判断による区間情報が非音声区間を示しており、当該非音声区間の連続する時間が所定時間以下の場合、前記非音声区間を音声区間に補正し、補正後の区間情報を新たな区間情報として生成する、ことを特徴とする。

また、本発明による音声信号処理装置は、前記出力音声信号生成部が、前記変換後の区間情報が音声区間を示している場合、前記話速変換手段により出力された変換処理後の推定音声信号と、前記話速変換手段により出力された変換処理後の推定背景音信号に第１のパラメータを乗算した信号とを混合し、出力音声信号を生成し、前記変換後の区間情報が非音声区間を示している場合、前記話速変換手段により出力された変換処理後の入力音声信号に第２のパラメータを乗算した信号を、出力音声信号として生成する、ことを特徴とする。

また、本発明による音声信号処理装置は、さらに、前記音声・背景音分離部により分離された推定音声信号を帯域別に分け、フィルタ処理を施して強調音声信号を生成する音声強調部を備え、前記話速変換部の再生用バッファが、前記入力音声信号、前記音声・背景音分離部により分離された推定音声信号及び推定背景音信号、並びに前記音声強調部により生成された強調音声信号が格納され、前記話速変換部のスキップ決定手段が、前記再生用バッファに格納された入力音声信号、推定音声信号、推定背景音信号及び強調音声信号から、前記スキップ区間の信号をスキップするように削除し、前記話速変換部の話速変換手段が、前記区間識別バッファに格納されたスキップ後の区間情報が音声区間を示している場合、前記基本周期抽出部により抽出された基本周期を単位として、前記再生用バッファに格納されたスキップ後の入力音声信号、推定音声信号、推定背景音信号及び強調音声信号の伸縮を行って所定速度に話速を変換する第１の変換処理を行い、前記区間識別バッファに格納されたスキップ後の区間情報が非音声区間を示している場合、前記再生用バッファに格納されたスキップ後の入力音声信号、推定音声信号、推定背景音信号及び強調音声信号の速度を変換しないかまたは所定速度に変換する第２の変換処理を行い、前記第１及び第２の変換処理後の入力音声信号、推定音声信号、推定背景音信号及び強調音声信号を話速変換信号として出力する、ことを特徴とする。

さらに、本発明によるプログラムは、コンピュータを、前記音声信号処理装置として機能させることを特徴とする。

以上のように、本発明によれば、精度の高い音声区間を検出することができ、音質良く話速変換を行い、より聞き易い音声及び背景音のバランスとなるように背景音信号の大きさを調整することができる。

本発明の実施形態による音声信号処理装置の構成を示すブロック図である。多数決判断部の処理を示すフローチャートである。混合比調整部の処理を示すフローチャートである入力音声信号NplsBG等を同期させるタイミング補正部を説明するブロック図である。遅延時間を短縮する他の話速変換部を説明するブロック図である。他の話速変換部の処理を説明する図である。同相成分抽出器の構成を示すブロック図である。

以下、本発明を実施するための形態について図面を用いて詳細に説明する。図１は、本発明の実施形態による音声信号処理装置の構成を示すブロック図である。この音声信号処理装置１０は、入力音声の話速変換を行うと共に、背景音量を調整する機能を有し、音声・背景音分離部１、言語特徴抽出区間検出部２、信号特徴抽出区間検出部３、字幕情報抽出区間検出部４、多数決判断部５、基本周期抽出部６、音声強調部７、話速変換部８及び混合比調整部（出力音声信号生成部）９を備えている。

以下、音声信号処理装置１０について、デジタルテレビ放送等の番組を受信し、番組音声の話速を変換し、番組背景音量を調整する受信装置に適用した例を挙げて説明する。

〔音声・背景音分離部１〕
音声・背景音分離部１は、音声と背景音が混合した信号（入力音声信号NplsBG）を入力し、入力音声信号NplsBGから音声及び背景音を推定し、入力音声信号NplsBGを、推定した音声を主成分とする推定音声信号Ｎ’と、推定した背景音を主成分とする推定背景音信号ＢＧ’とに分離する。音声・背景音分離部１により分離された推定音声信号Ｎ’は、基本周期抽出部６、音声強調部７及び話速変換部８に出力される。音声・背景音分離部１により分離された推定背景音信号ＢＧ’は話速変換部８に出力される。

例えば、音声・背景音分離部１は、Spectral Subtraction法、Wiener Filter法、ステレオ相関法等により、入力音声信号NplsBGを推定音声信号Ｎ’と推定背景音信号ＢＧ’とに分離する。

以下、ステレオ相関法について説明する。入力音声信号である２チャンネルのステレオ信号Ｌ，Ｒを、ナレーションの音声信号Ｃ_Naと、ステレオ信号Ｌに含まれる背景音Ｌ_Bと、ステレオ信号Ｒに含まれる背景音Ｒ_Bとの和により表すと、式（１）のようになる。

一方で、２チャンネルのステレオ信号Ｌ，Ｒの間で同相な信号をＣ、無相関な信号をＬ₀，Ｒ₀とし、入力音声信号である２チャンネルのステレオ信号Ｌ，Ｒを、同相信号Ｃと無相関信号Ｌ₀，Ｒ₀との和により表すと、式（２）のようになる。

ここで、同相信号Ｃには、ナレーションの音声信号Ｃ_Na及び背景音Ｌ_B，Ｒ_Bの同相成分が含まれる。

２チャンネルのステレオ信号Ｌ，Ｒから、ナレーションの音声信号Ｃ_Na及び背景音Ｌ_B，Ｒ_Bの同相信号Ｃのみを抽出し、この同相信号Ｃに対する左側入力信号と右側入力信号の無相関信号Ｌ₀，Ｒ₀の加算割合を制御することにより、背景音信号の一部である背景音の無相関信号Ｌ₀，Ｒ₀のみを適正に制御することが可能になる。

同相信号Ｃである同相成分の抽出には、適応フィルタが用いられる。図７は、同相成分を抽出する同相成分抽出器の構成を示すブロック図である。この同相成分抽出器は、適応フィルタを含んで構成される。適応フィルタは、ステレオ信号Ｌに相当する入力信号Ｘ＝（Ｘ₀＋Ｚ）、及びステレオ信号Ｒに相当する入力信号Ｙ＝（Ｙ₀＋Ｚ）から、所望応答である入力信号Ｘ及び入力信号Ｙの同相成分Ｚ（同相信号Ｃ）を抽出する。

同相成分Ｚを抽出するためには、例えばＮＬＭＳアルゴリズム（学習同定法：Normalized Least Mean Square Algorithm）が用いられる。当該アルゴリズムを実行するためのステップサイズパラメータはμ＝０．０２，γ＝０．０００００１である。

この適応フィルタでは、入力信号Ｘ，Ｙの誤差であるｅｒｒＸ（ｋ）及びｅｒｒＹ（ｋ）を最小とするように更新することで、同相成分Ｚが抽出される。適応フィルタに用いるフィルタ係数Ｗ_x，Ｗ_Yは、以下の式（３）（４）にて表され、これらのフィルタ係数Ｗ_x，Ｗ_Yを生成するための更新式として、以下の式（５）が用いられる。式（５）において、ｅ（ｎ）は誤差ｅｒｒＸ（ｋ）またはｅｒｒＹ（ｋ）を示す。

このように、ステレオ相関法により、ステレオ信号Ｌ，Ｒが、ナレーションの音声信号Ｃ_Naと背景音Ｌ_B，Ｒ_Bとに分離される。すなわち、音声・背景音分離部１は、ステレオ相関法により、ステレオ信号Ｌ，Ｒである入力音声信号NplsBGを、ナレーションの音声信号Ｃ_Naである推定音声信号Ｎ’と背景音Ｌ_B，Ｒ_Bである推定背景音信号ＢＧ’とに分離することができる。

尚、ステレオ相関法は既知であり、その詳細については、前述の特許文献５（特開２００９−２５５００号公報）を参照されたい。

〔言語特徴抽出区間検出部２〕
言語特徴抽出区間検出部２は、音声と背景音が混合した信号（入力音声信号NplsBG）を入力し、入力音声信号NplsBGに対し、周波数特性を表すケプストラム等の言語の特徴量を抽出し、抽出した特徴量に基づいて、人の声である音声として連続している区間か否かを判定して音声連続区間を検出し、音声区間であるかまたは非音声区間であるかを示す音声連続区間情報Ｐ１（時系列の入力音声信号NplsBGの各サンプルにおいて、音声区間及び非音声区間のいずれかを示す情報）を生成する。言語特徴抽出区間検出部２により生成された音声連続区間情報Ｐ１は、多数決判断部５に出力される。

例えば、言語特徴抽出区間検出部２は、音声認識により言語らしさを判断する手法を用いて、所定の確率モデルに基づき音声連続区間を検出する。この確率モデルは、音声言語の一部と考えられる音素及び語等に含まれる周波数、パワー等の特徴量にて設定される。

以下、累積音素尤度に基づいて発話の始端及び終端を検出する手法について説明する。この手法は、複数の話者クラスタのサブワード音響モデルに基づいて、入力音声に対するサブワード（例えば、音素、音節）単位のスピーチ及び非スピーチに対応する各サブワードにおける累積尤度を入力音声に同期して算出し、累積尤度を比較することにより、少ない遅れ時間で高精度に発話の始端及び終端を検出するものである。

例えば、サブワード音響モデルの話者クラスタ数を２、話者クラスタＳ∈｛Ａ，Ｂ｝の非スピーチ音響モデルをｓｉｌ_S、話者クラスタＳのスピーチ音響モデルをｐｈ_S,i（ｉは音素等のサブワード番号を示す）、サブワード列をｈ、発話の始端検出開始時刻τから現時刻ｔまでの音響特徴量の列をｘ_τ ^tとする。Ｌは、累積音素対数尤度である。

発話の始端では、言語特徴抽出区間検出部２は、音響特徴量の列ｘ_τ ^tに対応する可能性のある複数のサブワード列ｈに対し、最尤サブワード列の累積尤度の対数値Ｌ１を、以下の式により逐次算出する。

また、言語特徴抽出区間検出部２は、発話の始端における非スピーチ音響モデルｓｉｌ_Sの累積尤度の対数値Ｌ２を、以下の式により逐次算出する。

一方、発話の終端では、言語特徴抽出区間検出部２は、音響特徴量の列ｘ_τ ^tに対応する可能性のある複数のサブワード列ｈに対し、全話者クラスタＳのスピーチ音響モデルｐｈ_S,iに後続することで、非スピーチ音響モデルｓｉｌ_Sにおける最大の累積尤度の対数値Ｌ３を、以下の式により逐次算出する。

また、言語特徴抽出区間検出部２は、同じ話者クラスタＳのスピーチ音響モデルｐｈ_S,iにおける最大の累積尤度の対数値Ｌ４を、以下の式により逐次算出する。

言語特徴抽出区間検出部２は、発話始端時刻を検出する際に、最尤サブワード列の累積尤度の対数値Ｌ１と、非スピーチ音響モデルｓｉｌ_Sの累積尤度の対数値Ｌ２との間の差を求める。そして、言語特徴抽出区間検出部２は、その差が一定の閾値θ_startを超えたとき、すなわち（Ｌ１−Ｌ２）＞θ_startとなるとき、これを発話始端時刻検出条件として、最大の累積尤度を示すサブワード列ｈにおける始端の非スピーチ音響モデルｓｉｌ_Sの終端時刻から、所定の時間長ｔ_start（例えばニュース原稿を読み上げる一般的な音声速度の場合、約２００ｍｓｅｃ程度）遡った時刻を発話始端時刻とする。

一方、言語特徴抽出区間検出部２は、発話終端時刻を検出する際に、非スピーチ音響モデルｓｉｌ_Sにおける最大の累積尤度の対数値Ｌ３と、同じ話者クラスタＳのスピーチ音響モデルｐｈ_S,iにおける最大の累積尤度の対数値Ｌ４の間の差を求める。そして、言語特徴抽出区間検出部２は、その差が一定の閾値θ_endを時間長ｔ_end1継続して超えたとき、すなわちｔ_end1継続して（Ｌ３−Ｌ４）＞θ_endとなるとき、これを発話終端時刻検出条件として、現時刻ｔから時間長ｔ_end1を基準とした所定の時間長ｔ_end2（ｔ_end2＜ｔ_end1）分遡った時刻を発話終端時刻とする。

尚、時間長ｔ_end1は、発話終端検出条件の基準であるため、実際の発話終端時刻よりも長くなってしまう。そこで、ｔ_end2＜ｔ_end1の関係を満たす時間長ｔ_end2（例えばニュース原稿を読み上げる一般的な音声速度の場合、約２００ｍｓｅｃ程度）を設定することにより、より発話終端部に近い時刻を発話終端時刻として検出することができる。

このように、累積音素尤度に基づいて、発話始端時刻及び発話終端時刻が検出される。すなわち、言語特徴抽出区間検出部２は、入力音声信号NplsBGに対して言語の特徴量を算出し、所定の音響モデルを用いて累積尤度を算出し、累積尤度に基づいて発話始端時刻及び発話終端時刻を求めて音声連続区間を検出し、音声連続区間情報Ｐ１を生成する。

尚、累積音素尤度に基づいた発話の始端及び終端を検出する手法は既知であり、その詳細については、特開２００７−２３３１４８号公報を参照されたい。

この場合、言語特徴抽出区間検出部２は、所定の観測時間ｔ_delay1の入力音声信号NplsBGを用いることで、音声が連続しているか否かを逐次判定し、音声連続区間を検出する。所定の観測時間ｔ_delay1は、音声連続区間を検出するために必要な時間である。例えば、所定の観測時間ｔ_delay1が３５０ｍｓｅｃである場合、言語特徴抽出区間検出部２は、所定の観測時間ｔ_delay1＝３５０ｍｓｅｃ後に、その観測時間ｔ_delay1遡った時点の情報として音声連続区間情報Ｐ１を出力する。

言語特徴抽出区間検出部２は、所定の観測時間ｔ_delay1遡った時刻について、音声区間であるかまたは非音声区間であるかを示す音声連続区間情報Ｐ１を生成して出力する。例えば、言語特徴抽出区間検出部２は、音声区間の場合に１．０を設定し、非音声区間の場合に０．０を設定することで、音声連続区間情報Ｐ１を生成し、１０ｍｓｅｃ毎に音声連続区間情報Ｐ１を出力する。尚、本発明は、音声連続区間情報Ｐ１の構成及びその出力タイミングを限定するものではない。

〔信号特徴抽出区間検出部３〕
信号特徴抽出区間検出部３は、音声と背景音が混合した信号（入力音声信号NplsBG）を入力し、入力音声信号NplsBGの音の大きさ（ラウドネス）を所定時間のフレーム毎に検出する。そして、信号特徴抽出区間検出部３は、当該音の大きさの特徴量を抽出し、人の声である音声として連続している区間か否かを判定して音声連続区間を検出し、音声区間であるかまたは非音声区間であるかを示す音声連続区間情報Ｐ２を生成する。信号特徴抽出区間検出部３により生成された音声連続区間情報Ｐ２は、多数決判断部５に出力される。

例えば、信号特徴抽出区間検出部３は、音声波形の包絡情報、パワー等における時間方向の変化の特徴量に基づいて、音声連続区間を検出する。

以下、ラウドネスの振幅変化の特徴量に基づいた音声連続区間を検出する手法について説明する。一般に、音声区間において、背景音は、音声よりも小さくミキシングされており、楽音等のラウドネスの振幅変化はもともと小さく、スピーチ等のラウドネスの振幅変化は、２秒程度の短い時間でも十分大きいものである。そこで、本手法は、音声の振幅変化が背景音の振幅変化よりも大きい点に着目し、２秒間のラウドネスの振幅変化の特徴量に基づいて、音声連続区間を検出するようにした。

具体的には、信号特徴抽出区間検出部３は、入力音声信号NplsBGについて、２秒間におけるラウドネスの振幅の移動平均値を算出し、この２秒間におけるラウドネス波形が移動平均値＋５［ｐｈｏｎ］の値と交差した回数ＣＵをカウントすると共に、この２秒間のラウドネス波形が移動平均値−５［ｐｈｏｎ］の値と交差した回数ＣＬをカウントする。そして、信号特徴抽出区間検出部３は、回数ＣＵ，ＣＬが１以上であり、かつ回数ＣＵ，ＣＬが増加し、その後減少する連続した区間を音声区間として検出し、その他の区間を非音声区間として検出する。

このように、ラウドネスの振幅変化の特徴量に基づいて、音声連続区間が検出される。すなわち、信号特徴抽出区間検出部３は、所定時間毎に、入力音声信号NplsBGについてラウドネスの振幅変化を算出し、ラウドネスの振幅変化の幅が所定幅以上となる回数を算出し、その回数が所定回数以上の場合に、その区間（ラウドネスの振幅変化が大きい区間）を音声連続区間として検出し、音声連続区間情報Ｐ２を生成する。

尚、ラウドネスの振幅変化の特徴量に基づいた音声連続区間の検出手法は既知であり、その詳細については、以下の文献の第７８頁右欄第７−２０行目を参照されたい。
小森智康、外６名、“音声／非音声区間切替による背景音抑圧処理法の検討”、信学技報、IEICE Technical Report、SP2011-66、WIT2011-48（2011-10）

この場合、信号特徴抽出区間検出部３は、所定の観測時間ｔ_delay2の入力音声信号NplsBGを用いることで、音声が連続しているか否かを逐次判定し、音声連続区間を検出する。所定の観測時間ｔ_delay2は、音声連続区間を検出するために必要な時間である。例えば、所定の観測時間ｔ_delay2が１０００ｍｓｅｃである場合、信号特徴抽出区間検出部３は、所定の観測時間ｔ_delay2＝１０００ｍｓｅｃ後に、その観測時間ｔ_delay2遡った時点の情報として音声連続区間情報Ｐ２を出力する。

信号特徴抽出区間検出部３は、所定の観測時間ｔ_delay2遡った時刻について、音声区間であるかまたは非音声区間であるかを示す音声連続区間情報Ｐ２を生成して出力する。例えば、信号特徴抽出区間検出部３は、音声区間の場合に１．０を設定し、非音声区間の場合に０．０を設定することで、音声連続区間情報Ｐ２を生成し、２０ｍｓｅｃ毎に音声連続区間情報Ｐ２を出力する。尚、本発明は、音声連続区間情報Ｐ２の構成及びその出力タイミングを限定するものではない。

〔字幕情報抽出区間検出部４〕
字幕情報抽出区間検出部４は、入力音声信号NplsBGに対応した番組の字幕データ情報ｄ１を入力し、番組の字幕データ情報ｄ１から字幕情報を抽出し、抽出した字幕情報の区間を、字幕表示を行う字幕表示区間として検出し、字幕表示区間情報Ｐ３を生成する。字幕情報抽出区間検出部４により生成された字幕表示区間情報Ｐ３は、多数決判断部５に出力される。

ここで、番組の字幕データ情報ｄ１のうち音符記号及びカッコ（）に囲まれた情報は、セリフ以外の情報である。そこで、字幕情報抽出区間検出部４は、番組の字幕データ情報ｄ１から、音符記号及びカッコ（）に囲まれた情報を除外することで、残りの情報を字幕情報として抽出する。そして、字幕情報抽出区間検出部４は、字幕情報の区間（字幕表示が存在する区間）を音声区間とし、それ以外の区間を非音声区間とすることで、音声区間または非音声区間を示す情報（音声区間の場合は１．０、非音声区間の場合は０．０）を字幕表示区間情報Ｐ３として生成する。

音声信号処理装置１０が番組の字幕データ情報ｄ１を入力すると、字幕情報抽出区間検出部４は、そのタイミングにてほぼ遅延することなく、字幕表示区間情報Ｐ３を生成することができる。

尚、字幕データ情報ｄ１から字幕表示区間を検出する手法は既知であり、その詳細については、ＡＲＩＢＳＴＤ−Ｂ２４（デジタル放送におけるデータ放送符号化方式と伝送方式）及びＡＲＩＢＳＴＤ−Ｂ３７（補助データパケット形式で伝送されるデジタル字幕データの構造と運用）を参照されたい。

〔多数決判断部５〕
多数決判断部５は、言語特徴抽出区間検出部２から音声連続区間情報Ｐ１を入力すると共に、信号特徴抽出区間検出部３から音声連続区間情報Ｐ２を、字幕情報抽出区間検出部４から字幕表示区間情報Ｐ３をそれぞれ入力する。そして、多数決判断部５は、音声連続区間情報Ｐ１，Ｐ２及び字幕表示区間情報Ｐ３に対し、予め設定された重み付けに従い多数決判断を行って高信頼度音声区間情報ＨＣＰを生成し、高信頼度音声区間情報ＨＣＰに所定の補正処理を施して補正音声区間情報ＣＰを生成する。

多数決判断部５により生成された補正音声区間情報ＣＰは、話速変換部８及び混合比調整部９に出力される。この場合、話速変換部８に出力される補正音声区間情報ＣＰは、後述する先読みにより、入力音声信号NplsBG、後述する音声強調部７から出力される強調音声信号Ｎ’’、音声・背景音分離部１から出力される推定音声信号Ｎ’及び推定背景音信号ＢＧ’と同期しているものとする。混合比調整部９に出力される補正音声区間情報ＣＰは、後述する先読みにより、後述する話速変換部８から出力される話速変換後の入力音声信号Ｆ（NplsBG）等と同期しているものとする。

ここで、多数決判断部５は、同期した音声連続区間情報Ｐ１，Ｐ２及び字幕表示区間情報Ｐ３を用いて多数決判断を行うために、同期した音声連続区間情報Ｐ１，Ｐ２及び字幕表示区間情報Ｐ３を入力するか、または、音声連続区間情報Ｐ１，Ｐ２及び字幕表示区間情報Ｐ３入力し、これらの情報を同期させる。

図２は、多数決判断部５の処理を示すフローチャートである。音声連続区間情報Ｐ１，Ｐ２及び字幕表示区間情報Ｐ３について予め設定された重み付けをα１，α２，α３とする。

多数決判断部５は、音声連続区間情報Ｐ１，Ｐ２及び字幕表示区間情報Ｐ３を入力し（ステップＳ２０１）、音声区間判断値Ｄ＝α１×Ｐ１＋α２×Ｐ２＋α３×Ｐ３を時系列のサンプル毎に算出する（ステップＳ２０２）。この音声区間判断値Ｄは、同期した音声連続区間情報Ｐ１，Ｐ２及び字幕表示区間情報Ｐ３における時系列のサンプルを用いて算出された値である。そして、多数決判断部５は、音声区間判断値Ｄ≧１．０であるか否かを判定する（ステップＳ２０３）。

多数決判断部５は、ステップＳ２０３において、音声区間判断値Ｄ≧１．０であることを判定した場合（ステップＳ２０３：Ｙ）、そのサンプルについて、多数決判断による高信頼度音声区間情報ＨＣＰ（High Confidence Period）＝１．０を設定し（ステップＳ２０４）、音声区間判断値Ｄ≧１．０でないことを判定した場合（ステップＳ２０３：Ｎ）、そのサンプルについて、多数決判断による高信頼度音声区間情報ＨＣＰ＝０．０を設定する（ステップＳ２０５）。そして、多数決判断部５は、ステップＳ２０４またはステップＳ２０５から移行して、補正音声区間情報ＣＰの初期値として高信頼度音声区間情報ＨＣＰの値を保持する（ステップＳ２０６）。

多数決判断部５は、高信頼度音声区間情報ＨＣＰ＝１．０の連続時間が３００ｍｓｅｃ以下であり、かつその後の高信頼度音声区間情報ＨＣＰが１．０から０．０に変化したか否かを判定する（ステップＳ２０７）。

多数決判断部５は、ステップＳ２０７の条件を満たすと判定した場合（ステップＳ２０７：Ｙ）、当該連続時間について補正音声区間情報ＣＰ＝１．０を０．０に補正する（ステップＳ２０８）。一方、多数決判断部５は、ステップＳ２０７の条件を満たさないと判定した場合（ステップＳ２０７：Ｎ）、ステップＳ２０９へ移行する。

例えば、直前の高信頼度音声区間情報ＨＣＰが０．０であり、その後３００ｍｓｅｃ以内の区間で高信頼度音声区間情報ＨＣＰが連続して１．０となり、そして、高信頼度音声区間情報ＨＣＰが０．０となった場合、３００ｍｓｅｃ以内で連続した補正音声区間情報ＣＰ＝１．０の区間を０．０に補正する。これにより、補正音声区間情報ＣＰ＝０．０から１．０への変化を少なくすることができる。

多数決判断部５は、ステップＳ２０７またはステップＳ２０８から移行して、高信頼度音声区間情報ＨＣＰ＝０．０の連続時間が１０００ｍｓｅｃ以下であり、かつその後の高信頼度音声区間情報ＨＣＰが０．０から１．０に変化したか否かを判定する（ステップＳ２０９）。

多数決判断部５は、ステップＳ２０９の条件を満たすと判定した場合（ステップＳ２０９：Ｙ）、当該連続時間について補正音声区間情報ＣＰ＝０．０を１．０に補正する（ステップＳ２１０）。一方、多数決判断部５は、ステップＳ２０９の条件を満たさないと判定した場合（ステップＳ２０９：Ｎ）、ステップＳ２１１へ移行する。

例えば、直前の高信頼度音声区間情報ＨＣＰが１．０であり、その後１０００ｍｓｅｃ以内の区間で高信頼度音声区間情報ＨＣＰが連続して０．０となり、そして、高信頼度音声区間情報ＨＣＰが１．０となった場合、１０００ｍｓｅｃ以内で連続した補正音声区間情報ＣＰ＝０．０の区間を１．０に補正する。これにより、補正音声区間情報ＣＰ＝１．０から０．０への変化を少なくすることができる。

多数決判断部５は、ステップＳ２０９またはステップＳ２１０から移行して、ステップＳ２０７〜ステップＳ２１０の補正処理後の補正音声区間情報ＣＰを出力する（ステップＳ２１１）。

このように、多数決判断部５によれば、異なる手法にて検出された音声連続区間情報Ｐ１，Ｐ２及び字幕表示区間情報Ｐ３に対し、予め設定された重み付けα１，α２，α３に従い多数決判断を行って高信頼度音声区間情報ＨＣＰを生成し、高信頼度音声区間情報ＨＣＰに所定の補正処理を施して補正音声区間情報ＣＰを生成するようにした。これにより、音声区間であるかまたは非音声区間であるかを正確に反映した精度の高い補正音声区間情報ＣＰを得ることができる。

また、多数決判断部５は、高信頼度音声区間情報ＨＣＰ＝１．０の連続時間が３００ｍｓｅｃ以内の場合、その連続時間の補正音声区間情報ＣＰを０．０に補正し、高信頼度音声区間情報ＨＣＰ＝０．０の連続時間が１０００ｍｓｅｃ以内の場合、その連続時間の補正音声区間情報ＣＰを１．０に補正するようにした。これにより、音声区間と非音声区間との間の変化を少なくすることができるから、後段の混合比調整部９により出力される出力音声信号を滑らかに変化させることができる。

尚、図２のステップＳ２０２にて用いる重み付けα１，α２，α３は、例えばα１＝０．６，α２＝０．４，α３＝１．０とするのが望ましい。これらは、本願の発明者らが実験的に使用した値であり、本発明は、この値に限定されるものではない。

また、ステップＳ２０７の判定処理においては３００ｍｓｅｃを用い、ステップＳ２０９の判定処理においては１０００ｍｓｅｃを用いるようにしたが、本発明は、これらの値に限定されるものではない。

また、多数決判断部５は、ステップＳ２０１〜ステップＳ２０５において多数決判断の結果である高信頼度音声区間情報ＨＣＰを生成し、ステップＳ２０７〜ステップＳ２１０において補正音声区間情報ＣＰを補正し、ステップＳ２１１において補正音声区間情報ＣＰを出力するようにした。これに対し、多数決判断部５は、ステップＳ２０７〜ステップＳ２１０の補正処理を行わないようにしてもよい。この場合、多数決判断部５は、多数決判断の結果である高信頼度音声区間情報ＨＣＰを生成し、高信頼度音声区間情報ＨＣＰである補正音声区間情報ＣＰを補正することなくそのまま出力する。

〔基本周期抽出部６〕
図１に戻って、基本周期抽出部６は、音声・背景音分離部１から推定音声信号Ｎ’を入力し、推定音声信号Ｎ’から基本周期ｆを抽出する。基本周期抽出部６により抽出された基本周期ｆは、話速変換部８に出力される。

例えば、基本周期抽出部６は、推定音声信号Ｎ’の有声音区間全体の各部分毎に複数のピッチ候補を求め、最も適しているピッチ候補を判定し、判定したピッチ候補を基本周期ｆとして抽出する。尚、基本周期抽出部６の処理は既知であるから、詳細については省略する。

〔音声強調部７〕
音声強調部７は、音声・背景音分離部１から推定音声信号Ｎ’を入力し、推定音声信号Ｎ’から強調音声信号Ｎ’’を生成する。音声強調部７により生成された強調音声信号Ｎ’’は、話速変換部８に出力される。

例えば、音声強調部７は、フィルタバンクを用いて推定音声信号Ｎ’を帯域別に分け、異なるＱ値のフィルタ処理を施して強調音声信号Ｎ’’を生成する。これにより、帯域全体が抑圧され、中心周波数が伸長した強調音声信号Ｎ’’を得ることができる。また、周波数的な山谷のコントラストが強調されるから、音声のメリハリがついて明瞭度が改善され、高齢者にとって聞き取りやすい音声が得られる。

尚、推定音声信号Ｎ’から強調音声信号Ｎ’’を生成する手法は既知であり、その詳細については、以下の文献を参照されたい。
田高礼子，清山信正，小森智康，清山信正，今井篤，都木徹，“雑音下音声に対する高齢者の聞き取り易さ改善のためのスペクトル強調方法の検討”，音講論（秋），２−Ｑ−ａ８，２０１２，ｐ．５３１−５３２．

〔話速変換部８〕
話速変換部８は、音声と背景音が混合した信号（入力音声信号NplsBG）を入力すると共に、音声・背景音分離部１から推定音声信号Ｎ’及び推定背景音信号ＢＧ’を、多数決判断部５から補正音声区間情報ＣＰを、基本周期抽出部６から基本周期ｆを、音声強調部７から強調音声信号Ｎ’’をそれぞれ入力する。

話速変換部８は、補正音声区間情報ＣＰが音声区間を示している場合（ＣＰ＝１．０の場合）、入力音声信号NplsBG、推定音声信号Ｎ’、推定背景音信号ＢＧ’及び強調音声信号Ｎ’’を、基本周期ｆを単位にして所定速度に（例えば、音声区間の語頭（前半）は２．０倍、後半は１．０倍の速度になるように）変換する。また、話速変換部８は、補正音声区間情報ＣＰが非音声区間を示している場合（ＣＰ＝０．０の場合）、入力音声信号NplsBG、推定音声信号Ｎ’、推定背景音信号ＢＧ’及び強調音声信号Ｎ’’を所定速度に（例えば１．０倍または１．２倍の速度になるように）変換する。１．０倍の場合、変換処理は行わない。

話速変換部８により話速変換された入力音声信号Ｆ（NplsBG）、推定音声信号Ｆ（Ｎ’）、推定背景音信号Ｆ（ＢＧ’）及び強調音声信号Ｆ（Ｎ’’）は、話速変換信号として混合比調整部９に出力される。

例えば、話速変換部８は、補正音声区間情報ＣＰが音声区間を示している場合、当該時間区間において、入力音声信号NplsBG等の波形を、基本周期ｆを単位としたブロック毎にそれぞれ分割し、そのブロック単位の波形を繰り返すことで伸長を行い、または、そのブロック単位の波形を間引くことで短縮を行い、声の高さを変えずに所定速度に話速を変換し、入力音声信号Ｆ（NplsBG）、推定音声信号Ｆ（Ｎ’）、推定背景音信号Ｆ（ＢＧ’）及び強調音声信号Ｆ（Ｎ’’）を出力する。

また、話速変換部８は、補正音声区間情報ＣＰが非音声区間を示しており、速度変換を行わない場合、当該時間区間において、入力音声信号NplsBG等のそれぞれに対し変換処理を施すことなく、入力音声信号NplsBGを入力音声信号Ｆ（NplsBG）として、推定音声信号Ｎ’を推定音声信号Ｆ（Ｎ’）として、推定背景音信号ＢＧ’を推定背景音信号Ｆ（ＢＧ’）として、強調音声信号Ｎ’’を強調音声信号Ｆ（Ｎ’’）としてそのまま出力する。

また、話速変換部８は、補正音声区間情報ＣＰが非音声区間を示しており、速度変換を行う場合、当該時間区間において、入力音声信号NplsBG等のそれぞれに対し、後述する周期性判定処理、基本周期抽出処理、スペクトル包絡ピーク検出処理及び速度変換処理を行い所定速度に変換し、入力音声信号Ｆ（NplsBG）、推定音声信号Ｆ（Ｎ’）、推定背景音信号Ｆ（ＢＧ’）及び強調音声信号Ｆ（Ｎ’’）を出力する。

具体的には、話速変換部８は、周期性判定処理において、入力音声信号NplsBG等から所定時間幅の波形を切り出して自己相関関数Ｒ_n（ｋ）を算出し、所定時間幅のフレーム毎に、自己相関関数Ｒ_n（ｋ）の最大値を用いて周期性の強さＵ_nを算出し、閾値を用いて「周期性が強い」または「周期性が弱い」を判定する。

話速変換部８は、「周期性が強い」場合に、基本周期抽出処理において、前記基本周期抽出部６と同様の処理により入力音声信号NplsBG等の基本周期を抽出する。一方、話速変換部８は、「周期性が弱い」場合に、スペクトル包絡ピーク検出処理において、入力音声信号NplsBG等から周波数のスペクトル包絡を求め、そのピーク位置の周波数の逆数（擬似基本周期）を求める。

話速変換部８は、速度変換処理において、入力音声信号NplsBG等の波形を、基本周期抽出処理にて抽出した基本周期またはスペクトル包絡ピーク検出処理にて求めた擬似基本周期を単位としたブロック毎に分割し、そのブロック単位の波形を繰り返すことで伸長を行い、または、そのブロック単位の波形を間引くことで短縮を行い、所定速度に変換し、入力音声信号Ｆ（NplsBG）等を出力する。

これらの周期性判定処理、基本周期抽出処理、スペクトル包絡ピーク検出処理及び速度変換処理は、入力音声信号NplsBG、推定音声信号Ｎ’、推定背景音信号ＢＧ’及び強調音声信号Ｎ’’のそれぞれに対して行われ、所定速度に変換された入力音声信号Ｆ（NplsBG）、推定音声信号Ｆ（Ｎ’）、推定背景音信号Ｆ（ＢＧ’）及び強調音声信号Ｆ（Ｎ’’）が出力される。

尚、話速変換部８は、音声区間の処理と同様に非音声区間においても、入力音声信号NplsBG、推定音声信号Ｎ’、推定背景音信号ＢＧ’及び強調音声信号Ｎ’’の波形を、基本周期抽出部６から入力した基本周期ｆまたは前述の擬似基本周期を単位としたブロック毎にそれぞれ分割し、そのブロック単位の波形を繰り返すことで伸長を行い、または、そのブロック単位の波形を間引くことで短縮を行い、音の高さを変えずに所定速度に変換し、所定速度に変換した入力音声信号Ｆ（NplsBG）、推定音声信号Ｆ（Ｎ’）、推定背景音信号Ｆ（ＢＧ’）及び強調音声信号Ｆ（Ｎ’’）を出力するようにしてもよい。

〔混合比調整部９〕
混合比調整部９は、話速変換部８から話速変換後の話速変換信号Ｆ（NplsBG），Ｆ（Ｎ’），Ｆ（ＢＧ’），Ｆ（Ｎ’’）を入力すると共に、多数決判断部５から補正音声区間情報ＣＰを入力する。そして、混合比調整部９は、補正音声区間情報ＣＰが示す音声区間及び非音声区間のそれぞれについて、話速変換信号Ｆ（NplsBG），Ｆ（Ｎ’），Ｆ（ＢＧ’），Ｆ（Ｎ’’）のうちの１以上の信号に対し、所定のパラメータを乗算し、出力音声信号Ｍ（Ｆ（・））を生成して出力する。

例えば、混合比調整部９は、補正音声区間情報ＣＰに基づいて、背景音抑圧手法とゲイン制御手法とを切り替えることにより、背景音の大きさを制御する。

図３は、混合比調整部９の処理を示すフローチャートである。この処理は、補正音声区間情報ＣＰが音声区間を示している場合、背景音抑圧手法により背景音の大きさを制御し、補正音声区間情報ＣＰが非音声区間を示している場合、ゲイン制御手法により背景音の大きさを制御するものである。

混合比調整部９は、話速変換信号Ｆ（NplsBG），Ｆ（Ｎ’），Ｆ（ＢＧ’），Ｆ（Ｎ’’）及び補正音声区間情報ＣＰを入力し（ステップＳ３０１）、補正音声区間情報ＣＰが１．０であるか（音声区間を示しているか）、または０．０であるか（非音声区間を示しているか）を判定する（ステップＳ３０２）。

混合比調整部９は、ステップＳ３０２において、補正音声区間情報ＣＰ＝１．０（音声区間）を判定した場合、背景音抑圧手法により、話速変換信号Ｆ（Ｎ’），Ｆ（ＢＧ’）すなわち話速変換後の推定音声信号Ｆ（Ｎ’）及び推定背景音信号Ｆ（ＢＧ’）から出力音声信号Ｍ（Ｆ（・））を以下の式にて算出する（ステップＳ３０３）。
出力音声信号Ｍ（Ｆ（・））＝Ｆ（Ｎ’）＋β１×Ｆ（ＢＧ’）
パラメータβ１は、例えばβ１＝１０＾（−６／１０）であり、予め設定される。

尚、混合比調整部９は、背景音抑圧手法により、話速変換信号Ｆ（Ｎ’），Ｆ（ＢＧ’），Ｆ（Ｎ’’）すなわち話速変換後の推定音声信号Ｆ（Ｎ’）、推定背景音信号Ｆ（ＢＧ’）及び強調音声信号Ｆ（Ｎ’’）から出力音声信号Ｍ（Ｆ（・））を以下の式にて算出するようにしてもよい。
出力音声信号Ｍ（Ｆ（・））＝γ１×Ｆ（Ｎ’）＋γ２×Ｆ（Ｎ’’）＋β１×Ｆ（ＢＧ’）
パラメータγ１，γ２は、Ｆ（Ｎ’），Ｆ（Ｎ’’）の比率を定めるパラメータであり、予め設定される。

一方、混合比調整部９は、ステップＳ３０２において、補正音声区間情報ＣＰ＝０．０（非音声区間）を判定した場合、ゲイン制御手法により、話速変換信号Ｆ（NplsBG）すなわち話速変換後の入力音声信号Ｆ（NplsBG）から出力音声信号Ｍ（Ｆ（・））を以下の式にて算出する（ステップＳ３０４）。
出力音声信号Ｍ（Ｆ（・））＝β２×Ｆ（NplsBG）
パラメータβ２は、例えばβ２＝１０＾（−３／１０）であり、予め設定される。

混合比調整部９は、ステップＳ３０３またはステップＳ３０４から移行して、出力音声信号Ｍ（Ｆ（・））を出力する（ステップＳ３０５）。

これにより、音声区間では、背景音抑圧手法により推定背景音信号Ｆ（ＢＧ’）にβ１が乗算され、非音声区間では、ゲイン制御手法により入力音声信号Ｆ（NplsBG）にβ２が乗算されることで、音声区間の背景音の大きさ及び非音声区間の背景音の大きさが独立して調整される。前述の例では、β１＝１０＾（−６／１０）、β２＝１０＾（−３／１０）であるから、音声区間の背景音が非音声区間の背景音よりも抑圧され、視聴者（特に高齢者視聴者）が好ましいと感じる背景音の大きさに調整することができる。

尚、混合比調整部９は、補正音声区間情報ＣＰが０．０から１．０に変化する場合（非音声区間から音声区間に切り替わる場合）、または１．０から０．０に変化する場合（音声区間から非音声区間に切り替わる場合）、その前後の所定時間（例えば１０００ｍｓｅｃ）において、クロスフェードしながら出力音声信号Ｍ（Ｆ（・））を切り替えるようにしてもよい。これにより、自然な出力音声信号Ｍ（Ｆ（・））を得ることができる。

また、混合比調整部９は、パラメータβ１，β２，γ１，γ２として、予め設定された値を用いるようにしたが、時間的に動的に変化する値を用いるようにしてもよい。例えば、混合比調整部９は、時間的に動的に変化するパラメータβ１を求める場合、話速変換信号Ｆ（Ｎ’），Ｆ（ＢＧ’）のレベルの統計値をそれぞれ算出し、両統計値のレベル差を算出し、レベル差または話速変換信号Ｆ（ＢＧ’）のレベルのいずれかを評価信号として選択し、話速変換信号Ｆ（Ｎ’），Ｆ（ＢＧ’）の統計値及び評価信号の平均値に基づいてゲインを算出し、当該ゲインをパラメータβ１に設定する。これにより、時間的に動的に変化するパラメータβ１が得られる。このようにして、背景音信号の大きさが自動的に調整される。

時間的に動的に変化するパラメータを求め、背景音信号の大きさを自動調整する手法は既知であり、その詳細については、特開２０１３−９２９２号公報を参照されたい。

以上のように、本発明の実施形態による音声信号処理装置１０によれば、多数決判断部５は、言語特徴抽出区間検出部２により周波数特性を表すケプストラム等の言語の特徴量に基づいて生成された音声連続区間情報Ｐ１、信号特徴抽出区間検出部３により音の大きさの（振幅変化の）特徴量に基づいて生成された音声連続区間情報Ｐ２、及び字幕情報抽出区間検出部４により字幕情報の区間に基づいて生成された字幕表示区間情報Ｐ３に対し、予め設定された重み付けに従い多数決判断を行い、補正処理を施して補正音声区間情報ＣＰを生成するようにした。

これにより、字幕情報がある番組においては、字幕情報抽出区間検出手段４により生成された字幕表示区間情報Ｐ３を含めて補正音声区間情報ＣＰが生成されるから、入力音声信号NplsBGから音声区間を正確に検出することができる。

また、字幕情報がない番組、生で字幕を付けている番組、音声区間と字幕表示区間が一致しない番組、字幕情報があったとしてもオープンキャプション等が存在することによって字幕情報がない音声区間が存在する番組であっても、言語特徴抽出区間検出部２により生成された音声連続区間情報Ｐ１及び信号特徴抽出区間検出部３により生成された音声連続区間情報Ｐ２に基づいて補正音声区間情報ＣＰが生成され、入力音声信号NplsBGから音声区間を正確に検出することができる。

また、字幕表示区間情報Ｐ３は、本来の音声区間の前後も含めて音声区間とした情報であるが、音声連続区間情報Ｐ１，Ｐ２及び字幕表示区間情報Ｐ３を用いた多数決判断が行われるから、入力音声信号NplsBGから音声区間を正確にかつ信頼性高く検出することができる。

また、字幕情報抽出区間検出部４により字幕表示区間情報Ｐ３が生成されない場合であっても、字幕表示区間情報Ｐ３とは異なる手法でそれぞれ生成された音声連続区間情報Ｐ１，Ｐ２を用いた多数決判断が行われるから、入力音声信号NplsBGから音声区間を正確にかつ信頼性高く検出することができる。

本発明の実施形態による音声信号処理装置１０によれば、話速変換部８は、補正音声区間情報ＣＰが音声区間を示している場合、基本周期抽出部６により推定音声信号Ｎ’から抽出した１つの基本周期ｆを単位として、入力音声信号NplsBG、推定音声信号Ｎ’等の波形を繰り返すことで伸長を行い、または波形を間引くことで短縮を行い、所定速度に話速を変換するようにし、補正音声区間情報ＣＰが非音声区間を示している場合、速度変換を行わない、または所定速度に変換するようにした。

これにより、正確に検出された音声区間及び非音声区間について、適正に話速を制御することができる。

本発明の実施形態による音声信号処理装置１０によれば、混合比調整部９は、補正音声区間情報ＣＰが示す音声区間及び非音声区間のそれぞれについて、例えば音声区間では背景音抑圧手法により背景音の大きさを制御し、非音声区間ではゲイン制御手法により背景音の大きさを制御するようにした。

これにより、正確に検出された音声区間及び非音声区間について、音声区間の背景音の大きさと、音楽または効果音だけの非音声区間における背景音の大きさとを独立して調整することができる。

一般に、音声区間と音楽または効果音だけの非音声区間とでは、視聴者（特に高齢者視聴者）が好ましいと感じる背景音の大きさは異なるものである。音声区間の背景音の大きさと非音声区間の背景音の大きさとを独立して変更することで、より聞きやすいバランスにカスタマイズして調整することもでき、耳障りなノイズを小さくすることができる。

したがって、本発明の実施形態による音声信号処理装置１０では、精度の高い音声区間を検出することができ、音質良く話速変換を行い、より聞き易い音声及び背景音のバランスとなるように背景音信号の大きさを調整することができる。

つまり、前述した課題１〜４（発明が解決しようとする課題を参照）を解決することができる。具体的には、前記課題１（回路規模が大きくなる）に対し、基本周波数を抽出する処理と背景音を抑圧する処理とを行う際に、１つの音声・背景音分離部１が、入力音声信号NplsBGから音声信号と背景音信号とを分離するようにした。

これにより、それぞれの処理において入力音声信号NplsBGから音声信号と背景音信号とを分離する必要がないから、回路規模を小さくすることができ、前記課題１を解決することができる。

前記課題２（非音声区間も音声区間として抽出されてしまうことがあり、耳障りなノイズが発生する）に対し、多数決判断部５が、言語特徴抽出区間検出部２、信号特徴抽出区間検出部３及び字幕情報抽出区間検出部４により複数の手法にて検出された音声区間及び非音声区間の情報を、多数決判断して音声区間を検出するようにした。

これにより、音声区間を正確にかつ信頼性高く検出することができる。そして、話速変換部８は、正確にかつ信頼性高く検出された音声区間について話速変換を行うことができ、混合比調整部９は、正確にかつ信頼性高く検出された音声区間及び非音声区間について、背景音の大きさを個別に制御することができる。したがって、非音声区間が音声区間として抽出される可能性は低くなり、前記課題２を解決することができる。

また、話速変換部８において、音声区間では語頭の前半を２．０倍で話速変換し、後半を１．０倍で話速変換するように、音声区間の速度を可変速とする場合がある。この場合、非音声区間の話速を例えば１．０倍または１．２倍とすることにより、音楽等によって不自然な変化を起こさないような話速変換を実現することができる。

また、混合比調整部９は、正確にかつ信頼性高く検出された音声区間及び非音声区間の情報、並びに話速変換部８により話速変換された信号を用いて、背景音抑圧手法とゲイン制御手法とを組合せることで、背景音の大きさを制御する。例えば、音声区間では、ステレオ相関を利用した背景音抑圧手法を用い、音楽または効果音だけの非音声区間では、ゲイン制御手法を用いることにより、適した音量に制御することができる。

一般に、放送音声の音声区間では、音声が背景音よりも大きくミキシングされていることから、前記背景音抑圧手法を用いたマスキングの効果により、背景音を抑圧することができ、耳障りなノイズは検知され難くなる。また、音楽または効果音だけの非音声区間では、前記ゲイン制御手法のみを用いることで、耳障りなノイズを除去することができる。

このように、音声区間及び非音声区間の全区間を含む番組全体において、視聴者の主観からすると、耳障りなノイズの発生を大幅に抑えることが可能となる。

本願の発明者の実験によれば、音声区間と音楽または効果音だけの非音声区間とでは、視聴者（特に高齢者視聴者）が好ましいと感じる背景音の大きさは異なっていることが確認されている。これは、音声区間と音楽または効果音だけの非音声区間とでは、背景音の大きさの制御すなわちラウドネス制御を、異なるパラメータを用いて行うことが望ましいことを示している。本発明の実施形態による音声信号処理装置１０により、音声区間と音楽または効果音だけの非音声区間について独立に制御することが可能となる。

前記課題３（音声信号と背景音信号との間で同期をとることが難しい）に対し、基本周期抽出部６は、音声・背景音分離部１により分離された推定音声信号Ｎ’を用いて基本周期ｆを抽出し、話速変換部８は、その基本周期ｆに同期して、入力音声信号NplsBG、推定音声信号Ｎ’等を同時に話速変換するようにした。これにより、音質良く話速変換することができると共に、混合比調整部９による調整処理において、同期ずれをなくすことができ、前記課題３を解決することができる。

前記課題４（再ミキシング後に話速変換を行う場合、再ミキシング時における背景音の抑圧処理の効果が話速変換による遅延時間だけ遅れてしまいユーザの操作感が悪くなる）に対し、話速変換部８の後段に混合比調整部９を設け、話速変換後に再ミキシングを行うようにした。これにより、再ミキシング時における背景音の抑圧処理による効果の遅延を小さくすることができ、ユーザの操作感が悪くなることもなく不自然に感じることもなくなる。したがって、前記課題４を解決することができる。

本発明の実施形態による音声信号処理装置１０によれば、既に音声と音楽または効果音等の背景音とが混合された状態の番組の番組音声に対し、話速変換を行い聞き取りやすくするという効果、及び番組ミキシングバランスを受信側で聴感に対応させて調整することができるという効果を得ることができる。例えば、テレビまたはラジオ等の話速とミキシングバランスの状態を受信機側で調整する話速変換付き番組背景音量自動調整受信装置に有用である。

〔同期処理〕
次に、入力音声信号NplsBG、音声・背景音分離部１により出力される推定音声信号Ｎ’及び推定背景音信号ＢＧ’、並びに音声強調部７により出力される強調音声信号Ｎ’’の同期処理について説明する。

入力音声信号NplsBGがＴＳ等のタイムスタンプを持つ信号である場合には、音声区間を検出するために、例えば２秒分程度の先読みを行う。先読みは、音声信号処理装置１０がリアルタイムの入力音声信号NplsBGを入力し、音声信号処理を行って所定時間遅延した出力音声信号Ｍ（Ｆ（・））を出力する際に、各種信号が格納されるバッファを用いることにより行われる。

音声信号処理装置１０は、先読みを行うと共に、出力音声信号Ｍ（Ｆ（・））である話速再生音声を出力するために、入力音声信号NplsBGにおける本来のタイムスタンプの進行速度よりも、再生速度をゆっくりにして再生を行う。すなわち、音声信号処理装置１０は、入力音声信号NplsBGであるＴＳのタイムスタンプを、話速変換に応じた速度で進ませる。

図４は、入力音声信号NplsBG等を同期させるタイミング補正部を説明するブロック図である。図１に示した音声信号処理装置１０は、所定時間の先読みを行い、入力音声信号NplsBG等を同期させるために、図４に示すタイミング補正部１１を備えている。

タイミング補正部１１は、入力音声信号NplsBG、推定音声信号Ｎ’、強調音声信号Ｎ’’及び推定背景音信号ＢＧ’を入力し、入力した入力音声信号NplsBG、推定音声信号Ｎ’、強調音声信号Ｎ’’及び推定背景音信号ＢＧ’をバッファに格納する。そして、タイミング補正部１１は、最も入力が遅れた信号に同期させるように、または最も入力が遅れた信号をバッファに格納した後所定時間遅らせるように、バッファから各信号を読み出し、同期した入力音声信号NplsBG、推定音声信号Ｎ’、強調音声信号Ｎ’’及び推定背景音信号ＢＧ’を出力する。これにより、入力音声信号NplsBG、推定音声信号Ｎ’、強調音声信号Ｎ’’及び推定背景音信号ＢＧ’である各チャンネルの信号を同期させることができる。

このように、音声信号処理装置１０は、先読みにより、各種の信号を同期させることができ、各構成部において同期した信号に対し処理を行うことができ、少なくとも先読みの時間分遅延した出力音声信号Ｍ（Ｆ（・））を出力することができる。

すなわち、話速変換部８は、同期した入力音声信号NplsBG、推定音声信号Ｎ’、強調音声信号Ｎ’、推定背景音信号ＢＧ’及び補正音声区間情報ＣＰを入力し、所定の処理を行うことができる。また、多数決判断部５は、同期した音声連続区間情報Ｐ１，Ｐ２及び字幕表示区間情報Ｐ３を入力し、所定の処理を行うことができる。また、混合比調整部９は、同期した話速変換信号Ｆ（NplsBG），Ｆ（Ｎ’），Ｆ（ＢＧ’），Ｆ（Ｎ’’）及び補正音声区間情報ＣＰを入力し、所定の処理を行うことができる。

〔遅延時間を短縮する処理〕
図１に示した音声信号処理装置１０において、話速変換部８により話速をゆっくりにした場合には、番組全体の再生時間が延びてしまい、遅延時間が蓄積してしまう。そこで、話速変換部８に代わる他の話速変換部８’は、図１に示した話速変換部８の処理に加え、非音声区間内の信号を適宜スキップした話速変換信号Ｆ（NplsBG），Ｆ（Ｎ’），Ｆ（ＢＧ’），Ｆ（Ｎ’’）を出力する。これにより、話速をゆっくりにした話速変換に伴う遅延時間を短縮することができる。

図５は、遅延時間を短縮する他の話速変換部８’を説明するブロック図である。この話速変換部８’は、再生用バッファ１３、区間識別バッファ１４、スキップ決定手段１５、Ｆｏ／Ｆｉｎ（フェードアウト／フェードイン）部１６、話速変換手段１７及び時刻変換手段１８を備えている。

話速変換部８’は、入力音声信号NplsBGを入力すると共に、音声・背景音分離部１から推定音声信号Ｎ’及び推定背景音信号ＢＧ’を、多数決判断部５から補正音声区間情報ＣＰを、基本周期抽出部６から基本周期ｆを、音声強調部７から強調音声信号Ｎ’’をそれぞれ入力する。そして、話速変換部８’は、話速変換に伴って番組全体の再生時間が延びないように、すなわち話速変換に伴う遅延時間が蓄積しないように、補正音声区間情報ＣＰが示す非音声区間の信号をスキップし、補正音声区間情報ＣＰが示す音声区間の信号を基本周期ｆを単位にして所定速度に変換すると共に、非音声区間においてスキップしないで残された信号を所定速度に変換する。

図５を参照して、再生用バッファ１３は、例えば６０秒程度のリングバッファで構成され、入力音声信号NplsBG、推定音声信号Ｎ’、推定背景音信号ＢＧ’及び強調音声信号Ｎ’’が格納される。区間識別バッファ１４は、例えば６０秒程度のリングバッファで構成され、補正音声区間情報ＣＰが格納される。尚、入力音声信号NplsBG、推定音声信号Ｎ’、推定背景音信号ＢＧ’及び強調音声信号Ｎ’’は、前述の先読みにより同期しており、補正音声区間情報ＣＰも、先読みにより入力音声信号NplsBG等に同期しているものとする。

スキップ決定手段１５は、話速変換手段１７から遅延時間（話速変換に伴い実時間に対して遅延した時間）Stotalを入力する。そして、スキップ決定手段１５は、区間識別バッファ１４に格納された補正音声区間情報ＣＰにおける非音声区間内の所定位置に対応したスキップ位置を決定すると共に、遅延時間Stotalをスキップ時間に設定し、区間識別バッファ１４に格納された補正音声区間情報ＣＰにおけるスキップ区間Skp（tm）を決定する。スキップ区間Skp（tm）は、スキップ位置を開始時点とし、そこからスキップ時間の間の区間（スキップ動作する時間区間）を示す。ｔｍは、補正音声区間情報ＣＰにおいてスキップ動作する時間位置を示す。

スキップ決定手段１５は、スキップ区間Skp（tm）に基づいて、再生用バッファ１３に格納された入力音声信号NplsBG、推定音声信号Ｎ’、推定背景音信号ＢＧ’及び強調音声信号Ｎ’’からその区間の信号をスキップするように、アドレスをシフトする。つまり、スキップ決定手段１５は、スキップ区間Skp（tm）の信号を、再生用バッファ１３に格納された入力音声信号NplsBG、推定音声信号Ｎ’、推定背景音信号ＢＧ’及び強調音声信号Ｎ’’から削除する。これにより、スキップ区間Skp（tm）の信号がスキップする。

スキップ決定手段１５は、スキップ区間Skp（tm）に基づいて、区間識別バッファ１４に格納された補正音声区間情報ＣＰからその区間の情報をスキップするように、アドレスをシフトする。つまり、スキップ決定手段１５は、スキップ区間Skp（tm）の情報を、区間識別バッファ１４に格納された補正音声区間情報ＣＰから削除する。これにより、スキップ区間Skp（tm）の情報がスキップする。

スキップ決定手段１５は、スキップ区間Skp（tm）が示すスキップ時刻（最初にスキップ動作する時刻）をＦｏ／Ｆｉｎ部１６に出力する。また、スキップ決定手段１５は、遅延時間Stotalからスキップ区間Skp（tm）の時間を減算する。この減算結果は、遅延時間Stotalを更新するための更新遅延時間Stotal’として、話速変換手段１７に出力される。ここで、話速変換手段１７は、話速変換に伴う総合的な遅延時間（総合遅延時間）Stotalを管理している。

Ｆｏ／Ｆｉｎ部１６は、スキップ決定手段１５からスキップ時刻を入力すると共に、再生用バッファ１３からスキップ後の入力音声信号NplsBG、推定音声信号Ｎ’、推定背景音信号ＢＧ’及び強調音声信号Ｎ’’を読み出す。そして、Ｆｏ／Ｆｉｎ部１６は、読み出した入力音声信号NplsBG、推定音声信号Ｎ’、推定背景音信号ＢＧ’及び強調音声信号Ｎ’’に対し、スキップ時刻を基準にして、スキップ時刻以前の信号にフェードアウトの処理を施し、スキップ時刻以降の信号にフェードインの処理を施す。これにより、信号のスキップに伴い、その前後の信号が滑らかに接続される。フェードアウト及びフェードインの処理が施された入力音声信号NplsBG、推定音声信号Ｎ’、推定背景音信号ＢＧ’及び強調音声信号Ｎ’’は、話速変換手段１７に出力される。

話速変換手段１７は、基本周期ｆを入力すると共に、Ｆｏ／Ｆｉｎ部１６から入力音声信号NplsBG、推定音声信号Ｎ’、推定背景音信号ＢＧ’及び強調音声信号Ｎ’’を入力し、図１に示した話速変換部８と同様に、音声区間の入力音声信号NplsBG、推定音声信号Ｎ’、推定背景音信号ＢＧ’及び強調音声信号Ｎ’’を、基本周期ｆを単位にして所定速度に変換し、非音声区間の入力音声信号NplsBG、推定音声信号Ｎ’、推定背景音信号ＢＧ’及び強調音声信号Ｎ’’を所定速度に変換する。所定速度である話速倍率は時刻変換手段１８に出力され、所定速度に変換された入力音声信号Ｆ（NplsBG）、推定音声信号Ｆ（Ｎ’）、推定背景音信号Ｆ（ＢＧ’）及び強調音声信号Ｆ（Ｎ’’）は、混合比調整部９に出力される。

話速変換手段１７は、話速変換に伴う総合的な遅延時間（総合遅延時間）Stotalを管理している。話速変換手段１７は、当該遅延時間Stotalをスキップ決定手段１５に出力すると共に、スキップ決定手段１５からスキップ区間Skp（tm）の時間が減算された更新遅延時間Stotal’を入力し、遅延時間Stotalを更新する。

時刻変換手段１８は、話速変換手段１７から話速倍率を入力すると共に、区間識別バッファ１４からスキップ後の区間情報を読み出す。そして、時刻変換手段１８は、区間情報の時刻を話速倍率に応じた時刻に変換し、変更後の新たな区間情報を生成する。時刻変換手段１８により時刻が変換された新たな区間情報は、修正区間情報として混合比調整部９に出力される。この修正区間情報は、話速変換手段１７から出力される入力音声信号Ｆ（NplsBG）、推定音声信号Ｆ（Ｎ’）、推定背景音信号Ｆ（ＢＧ’）及び強調音声信号Ｆ（Ｎ’’）と同期することになる。

この場合、混合比調整部９は、話速変換部８’から話速変換後の入力音声信号Ｆ（NplsBG）、推定音声信号Ｆ（Ｎ’）、推定背景音信号Ｆ（ＢＧ’）及び強調音声信号Ｆ（Ｎ’’）を入力すると共に、多数決判断部５から補正音声区間情報ＣＰを入力する代わりに、話速変換部８’から修正区間情報を入力する。そして、混合比調整部９は、修正区間情報が示す音声区間及び非音声区間について、例えば音声区間では背景音抑圧手法により、非音声区間ではゲイン制御手法により背景音の大きさを制御する。

図６は、図５に示した話速変換部８’の処理を説明する図である。話速変換部８’は内部時計を備えており、実時間と内部時計の時間との間のずれが、話速変換に伴う遅延時間Stotalとなる。図６（１）（２）から、実時間ｔ１を開始時点とすると、実時間ｔ２，ｔ３に対し、話速変換によってその内部時計がゆっくり進むから、その時間は遅くなり、実時間ｔ３に対する遅れが遅延時間Stotalとなっていることがわかる。

この遅延時間Stotalを短縮するため（図６（３）（４）の例では、遅延時間Stotalを０にするため）、非音声区間内でスキップ処理が行われる。図６（３）に示す実時間ｔ４〜ｔ６の音声区間及び実時間ｔ６〜ｔ７の非音声区間のうちの非音声区間内の所定のスキップ位置Ａに対応して、図６（４）に示す内部時計の時間における非音声区間内の所定位置Ｂにて、スキップが行われる。このスキップ動作は、遅延時間Stotalの時間長分行われることにより、遅延時間Stotalを０に更新することができる。

以上のように、図５に示した話速変換部８’は、非音声区間の信号をスキップした話速変換信号Ｆ（NplsBG），Ｆ（Ｎ’），Ｆ（ＢＧ’），Ｆ（Ｎ’’）を求めるようにした。これにより、話速をゆっくりにした話速変換に伴う遅延時間を短縮することができ、番組全体の再生時間の延びを抑えることができる。

尚、本発明の実施形態による音声信号処理装置１０のハードウェア構成としては、通常のコンピュータを使用することができる。音声信号処理装置１０は、ＣＰＵ、ＲＡＭ等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。音声信号処理装置１０に備えた音声・背景音分離部１、言語特徴抽出区間検出部２、信号特徴抽出区間検出部３、字幕情報抽出区間検出部４、多数決判断部５、基本周期抽出部６、音声強調部７、話速変換部８（または話速変換部８’）及び混合比調整部９の各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。また、これらのプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。

以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、図１に示した音声信号処理装置１０は、言語特徴抽出区間検出部２、信号特徴抽出区間検出部３及び字幕情報抽出区間検出部４を備え、３つの異なる手法にて、音声区間であるかまたは非音声区間であるかを示す情報をそれぞれ生成するようにした。これに対し、音声信号処理装置１０は、言語特徴抽出区間検出部２、信号特徴抽出区間検出部３及び字幕情報抽出区間検出部４のうちいずれか２つの区間検出部を備えるようにしてもよい。

例えば、音声信号処理装置１０が言語特徴抽出区間検出部２及び字幕情報抽出区間検出部４を備え、信号特徴抽出区間検出部３を備えていない場合、多数決判断部５は、言語特徴抽出区間検出部２により生成された音声連続区間情報Ｐ１及び字幕情報抽出区間検出部４により生成された字幕表示区間情報Ｐ３を入力し、多数決判断により補正音声区間情報ＣＰを生成する。

要するに、本発明では、２以上の異なる手法にて、音声区間であるかまたは非音声区間であるかを示す情報をそれぞれ生成し、２以上の情報による多数決判断を行うようにすればよい。例えば、言語特徴抽出区間検出部２、信号特徴抽出区間検出部３及び字幕情報抽出区間検出部４による手法の他、入力音声信号NplsBGのパワー及び零交差数を用いる手法、低周波数帯域のパワーを用いる手法、線スペクトル周波数の時間方向の変化量を用いる手法、入力音声信号NplsBGに含まれる雑音の情報を推定し、それにより得られるＳＮ比を用いる手法等（石塚健太郎、外２名、“音声区間検出技術の最近の研究動向”、日本音響学会誌、65巻10号（2009）、pp.537-543）を用いることにより、音声区間であるかまたは非音声区間であるかを示す情報を生成する。これにより、図１の場合と同様に、入力音声信号NplsBGから音声区間を正確に検出することができる。

また、図１に示した音声信号処理装置１０は、音声強調部７を備えているが、音声強調部７を備えていなくてもよい。

１音声・背景音分離部
２言語特徴抽出区間検出部
３信号特徴抽出区間検出部
４字幕情報抽出区間検出部
５多数決判断部
６基本周期抽出部
７音声強調部
８話速変換部
９混合比調整部
１０音声信号処理装置
１１タイミング補正部
１３再生用バッファ
１４区間識別バッファ
１５スキップ決定手段
１６Ｆｏ／Ｆｉｎ部
１７話速変換手段
１８時刻変換手段

Claims

入力音声信号を話速変換し、入力音声信号の背景音の大きさを制御する音声信号処理装置において、
前記入力音声信号から音声及び背景音を推定し、前記音声を主成分とする推定音声信号と、前記背景音を主成分とする推定背景音信号とに分離する音声・背景音分離部と、
複数の手法により、前記入力音声信号から音声区間及び非音声区間をそれぞれ検出し、前記音声区間及び非音声区間を示す区間情報をそれぞれ生成する区間検出部と、
前記音声・背景音分離部により分離された推定音声信号から基本周波数を抽出する基本周期抽出部と、
前記区間検出部により生成された複数の区間情報に対し、所定の重み付けに従い多数決判断を行い、新たな区間情報を生成する多数決判断部と、
前記入力音声信号、並びに前記音声・背景音分離部により分離された推定音声信号及び推定背景音信号の速度を変換し、変換後の入力音声信号、推定音声信号及び推定背景音信号を話速変換信号として出力する話速変換部と、
前記話速変換部により出力された話速変換信号から出力音声信号を生成する出力音声信号生成部と、を備え、
前記話速変換部は、
前記入力音声信号、並びに前記音声・背景音分離部により分離された推定音声信号及び推定背景音信号が格納される再生用バッファと、
前記多数決判断部により生成された新たな区間情報が格納される区間識別バッファと、
前記区間識別バッファに格納された新たな区間情報における非音声区間内の所定位置に対応したスキップ位置を決定すると共に、当該話速変換部による速度の変換に伴う遅延時間をスキップ時間に設定し、前記スキップ位置を開始点として前記スキップ時間の間のスキップ区間を決定し、
前記再生用バッファに格納された入力音声信号、推定音声信号及び推定背景音信号から、前記スキップ区間の信号をスキップするように削除すると共に、前記区間識別バッファに格納された新たな区間情報から、前記スキップ区間の情報をスキップするように削除するスキップ決定手段と、
前記区間識別バッファに格納されたスキップ後の区間情報が音声区間を示している場合、前記基本周期抽出部により抽出された基本周期を単位として、前記再生用バッファに格納されたスキップ後の入力音声信号、推定音声信号及び推定背景音信号の伸縮を行って所定速度に話速を変換する第１の変換処理を行い、
前記区間識別バッファに格納されたスキップ後の区間情報が非音声区間を示している場合、前記再生用バッファに格納されたスキップ後の入力音声信号、推定音声信号及び推定背景音信号の速度を変換しないかまたは所定速度に変換する第２の変換処理を行い、前記第１及び第２の変換処理後の入力音声信号、推定音声信号及び推定背景音信号を話速変換信号として出力する話速変換手段と、
前記区間識別バッファからスキップ後の区間情報を読み出し、当該区間情報の時刻を、前記第１及び第２の変換処理における所定速度に応じた時刻に変換し、変換後の区間情報を生成する時刻変換手段と、を備え、
前記出力音声信号生成部は、
前記時刻変換手段により生成された変換後の区間情報が示す音声区間及び非音声区間について、前記話速変換手段により出力された話速変換信号のうちの少なくとも１以上の信号に対し、所定のパラメータを乗算して出力音声信号を生成する、ことを特徴とする音声信号処理装置。
請求項１に記載の音声信号処理装置において、
前記区間検出部が用いる複数の手法には、
前記入力音声信号から音声言語の周波数またはパワーの特徴量を抽出し、当該特徴量に基づいて前記区間情報を生成する手法、前記入力音声信号から音の大きさの特徴量を抽出し、当該特徴量に基づいて前記区間情報を生成する手法、及び、前記入力音声信号に対応する番組の字幕情報を含む字幕データ情報から前記字幕情報を抽出し、前記字幕情報の区間を音声区間とし、前記字幕情報以外の区間を非音声区間とすることで、前記区間情報を生成する手法のうち、少なくとも２つの手法が含まれる、ことを特徴とする音声信号処理装置。
請求項１または２に記載の音声信号処理装置において、
前記多数決判断部は、
前記区間検出部により生成された複数の区間情報に対し、所定の重み付けに従い多数決判断を行い、前記多数決判断による区間情報を生成し、前記多数決判断による区間情報が音声区間を示しており、当該音声区間の連続する時間が所定時間以下の場合、前記音声区間を非音声区間に補正し、前記多数決判断による区間情報が非音声区間を示しており、当該非音声区間の連続する時間が所定時間以下の場合、前記非音声区間を音声区間に補正し、補正後の区間情報を新たな区間情報として生成する、ことを特徴とする音声信号処理装置。
請求項１から３までのいずれか一項に記載の音声信号処理装置において、
前記出力音声信号生成部は、
前記変換後の区間情報が音声区間を示している場合、前記話速変換手段により出力された変換処理後の推定音声信号と、前記話速変換手段により出力された変換処理後の推定背景音信号に第１のパラメータを乗算した信号とを混合し、出力音声信号を生成し、
前記変換後の区間情報が非音声区間を示している場合、前記話速変換手段により出力された変換処理後の入力音声信号に第２のパラメータを乗算した信号を、出力音声信号として生成する、ことを特徴とする音声信号処理装置。
請求項１から４までのいずれか一項に記載の音声信号処理装置において、
さらに、前記音声・背景音分離部により分離された推定音声信号を帯域別に分け、フィルタ処理を施して強調音声信号を生成する音声強調部を備え、
前記話速変換部の再生用バッファは、
前記入力音声信号、前記音声・背景音分離部により分離された推定音声信号及び推定背景音信号、並びに前記音声強調部により生成された強調音声信号が格納され、
前記話速変換部のスキップ決定手段は、
前記再生用バッファに格納された入力音声信号、推定音声信号、推定背景音信号及び強調音声信号から、前記スキップ区間の信号をスキップするように削除し、
前記話速変換部の話速変換手段は、
前記区間識別バッファに格納されたスキップ後の区間情報が音声区間を示している場合、前記基本周期抽出部により抽出された基本周期を単位として、前記再生用バッファに格納されたスキップ後の入力音声信号、推定音声信号、推定背景音信号及び強調音声信号の伸縮を行って所定速度に話速を変換する第１の変換処理を行い、
前記区間識別バッファに格納されたスキップ後の区間情報が非音声区間を示している場合、前記再生用バッファに格納されたスキップ後の入力音声信号、推定音声信号、推定背景音信号及び強調音声信号の速度を変換しないかまたは所定速度に変換する第２の変換処理を行い、前記第１及び第２の変換処理後の入力音声信号、推定音声信号、推定背景音信号及び強調音声信号を話速変換信号として出力する、ことを特徴とする音声信号処理装置。
コンピュータを、請求項１から５までのいずれか一項に記載の音声信号処理装置として機能させるためのプログラム。