JP6313619B2 - 音声信号処理装置及びプログラム - Google Patents

音声信号処理装置及びプログラム Download PDF

Info

Publication number
JP6313619B2
JP6313619B2 JP2014058753A JP2014058753A JP6313619B2 JP 6313619 B2 JP6313619 B2 JP 6313619B2 JP 2014058753 A JP2014058753 A JP 2014058753A JP 2014058753 A JP2014058753 A JP 2014058753A JP 6313619 B2 JP6313619 B2 JP 6313619B2
Authority
JP
Japan
Prior art keywords
speech
signal
section
estimated
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014058753A
Other languages
English (en)
Other versions
JP2015184349A (ja
Inventor
小森 智康
智康 小森
都木 徹
徹 都木
信正 清山
信正 清山
今井 篤
篤 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Japan Broadcasting Corp
NHK Engineering System Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp, NHK Engineering System Inc filed Critical Japan Broadcasting Corp
Priority to JP2014058753A priority Critical patent/JP6313619B2/ja
Publication of JP2015184349A publication Critical patent/JP2015184349A/ja
Application granted granted Critical
Publication of JP6313619B2 publication Critical patent/JP6313619B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、入力音声の話速(話す速さ)を変換し、入力音声に含まれる背景音量を調整する技術に関し、特に、テレビ、ラジオ等のために制作された番組の音声(ナレーション)信号と背景音(音楽、効果音)信号とが混合された信号から、音質良く話速を変換し、かつ背景音信号の大きさを調整する音声信号処理装置及びプログラムに関する。
一般に、高齢者の聴覚機能の低下には、「速すぎる話速では言葉を理解できない」「背景音と音声とを分離する能力が低下する」という大きな2つの問題がある。
前者の問題のためのアプローチとして、入力音声を、その話速が遅くなるように音質良く変換する処理が行われる。具体的には、音声信号処理装置は、入力音声の声帯の振動周期である基本周期をできるだけ正確に抽出し、それに基づいた伸縮処理を行う。
例えば、音声信号処理装置は、入力音声信号の波形を、基本周期を単位としたブロック毎に分割し、そのブロック単位の波形を繰り返すことで伸長を行い、または、そのブロック単位の波形を間引くことで短縮を行うことにより、声の高さを変えることなく話速を変換する(特許文献1を参照)。
このような信号処理において、入力音声信号に対し基本周期を単位としたブロック毎の分割処理を施すための基本周期抽出手法としては、様々なものが提案されている。
しかし、男性の低い声から女性または子供の高い声までの任意の声を扱う場合には、正しい周期の半分の長さを抽出してしまう半周期エラー、または2倍の周期の長さを抽出してしまう倍周期エラーを生じることが少なくない。特に、音声に背景音(音楽、効果音)が混在する場合には、基本周期の抽出精度が低下して正確な話速変換が行われなくなり、これらのエラーが生じやすくなる。
このような問題を解決するために、入力音声信号に対して複数の分析窓幅による自己相関関数を求め、自己相関関数の最大値等に基づいて、複数の基本周期の候補から最適な候補を選択し、音声の基本周期を抽出する手法が提案されている(特許文献2を参照)。これにより、音声に背景音が混在する場合であっても、ある程度の精度を有する基本周期を抽出することができ、音質良く話速変換することができる。
また、音声を自動認識すること等を目的として、音声に混在している背景音を抑圧する手法が提案されている(特許文献3,4を参照)。この手法によれば、音声に背景音が混在している場合、背景音を抑圧した後に、話速変換のための音声の基本周期を求めることで、精度の高い基本周期を得ることができる。
一方、前述の2つの問題のうち後者の問題のためのアプローチとして、番組音声を聞きやすくするために、背景音を抑圧する処理及び音声を強調する処理が行われる。
例えば、音楽成分の背景音を相対的に小さくするためには、音声の帯域を強調して強調音声とする手法が用いられる。しかし、単純なイコライジングでは、音声の周波数と同じ帯域の背景音も強調されてしまう。
そこで、音声のステレオ信号の相関を利用して、相関の低い音が小さくなるように再度ミキシングすることで、相関の低い背景音を小さくする手法が提案されている(特許文献5を参照)。
これらの手法は、番組音声を聞きやすくするためのものである。したがって、これらの手法を用いることにより、抑圧された背景音及び強調された音声信号を再度ミキシングすることで、背景音の大きさを制御することができる。
特許第2955247号公報 特許第3219868号公報 特許第3693022号公報 特開2011−257643号公報 特開2009−25500号公報
しかしながら、従来の音声信号処理装置では、音声と背景音とが混合した入力音声信号に対し、話速変換を行うために精度の高い基本周波数を抽出する処理と、耳障りなノイズを極力抑えるために入力音声信号から背景音を抑圧する処理とを行う必要があり、回路規模が大きくなるという課題があった(課題1)。
また、従来の音声信号処理装置では、音声区間を抽出して話速変換する際に、非音声区間も音声区間として抽出してしまうと、非音声区間の信号も音声区間の信号と同様に話速変換されるから、耳障りなノイズが発生するという課題があった(課題2)。
また、従来の音声信号処理装置では、入力音声信号から音声信号と背景音信号とを分離し、分離した音声信号に対して話速変換を行い、音声信号及び背景音信号の音源毎に分析して最ミキシングを行う場合、音声信号と背景音信号とが完全に分離できていない限り、信号間で同期をとることが難しく、音質良く話速変換を行うことができないという課題があった(課題3)。
また、従来の音声信号処理装置では、背景音の抑圧と話速変換とを組み合わせた処理を行う場合において、音声信号と背景音信号との同期をとるために、両信号を再ミキシングした後に話速変換を行うと、背景音の抑圧処理の効果が話速変換による遅延時間だけ遅れてしまい、ユーザの操作感が悪くなってしまうという課題があった(課題4)。
そこで、本発明は前記課題1〜4を解決するためになされたものであり、その目的は、精度の高い音声区間を検出すると共に、音質良く話速変換を行い、より聞き易い音声及び背景音のバランスとなるように背景音信号の大きさを調整可能な音声信号処理装置及びプログラムを提供することにある。
前記目的を達成するために、本発明による音声信号処理装置は、入力音声信号を話速変換し、入力音声信号の背景音の大きさを制御する音声信号処理装置において、前記入力音声信号から音声及び背景音を推定し、前記音声を主成分とする推定音声信号と、前記背景音を主成分とする推定背景音信号とに分離する音声・背景音分離部と、複数の手法により、前記入力音声信号から音声区間及び非音声区間をそれぞれ検出し、前記音声区間及び非音声区間を示す区間情報をそれぞれ生成する区間検出部と、前記音声・背景音分離部により分離された推定音声信号から基本周波数を抽出する基本周期抽出部と、前記区間検出部により生成された複数の区間情報に対し、所定の重み付けに従い多数決判断を行い、新たな区間情報を生成する多数決判断部と、記入力音声信号、並びに前記音声・背景音分離部により分離された推定音声信号及び推定背景音信号の速度を変換し、変換後の入力音声信号、推定音声信号及び推定背景音信号を話速変換信号として出力する話速変換部と、記話速変換部により出力された話速変換信号から出力音声信号を生成する出力音声信号生成部と、を備え、前記話速変換部が、前記入力音声信号、並びに前記音声・背景音分離部により分離された推定音声信号及び推定背景音信号が格納される再生用バッファと、前記多数決判断部により生成された新たな区間情報が格納される区間識別バッファと、前記区間識別バッファに格納された新たな区間情報における非音声区間内の所定位置に対応したスキップ位置を決定すると共に、当該話速変換部による速度の変換に伴う遅延時間をスキップ時間に設定し、前記スキップ位置を開始点として前記スキップ時間の間のスキップ区間を決定し、前記再生用バッファに格納された入力音声信号、推定音声信号及び推定背景音信号から、前記スキップ区間の信号をスキップするように削除すると共に、前記区間識別バッファに格納された新たな区間情報から、前記スキップ区間の情報をスキップするように削除するスキップ決定手段と、前記区間識別バッファに格納されたスキップ後の区間情報が音声区間を示している場合、前記基本周期抽出部により抽出された基本周期を単位として、前記再生用バッファに格納されたスキップ後の入力音声信号、推定音声信号及び推定背景音信号の伸縮を行って所定速度に話速を変換する第1の変換処理を行い、前記区間識別バッファに格納されたスキップ後の区間情報が非音声区間を示している場合、前記再生用バッファに格納されたスキップ後の入力音声信号、推定音声信号及び推定背景音信号の速度を変換しないかまたは所定速度に変換する第2の変換処理を行い、前記第1及び第2の変換処理後の入力音声信号、推定音声信号及び推定背景音信号を話速変換信号として出力する話速変換手段と、前記区間識別バッファからスキップ後の区間情報を読み出し、当該区間情報の時刻を、前記第1及び第2の変換処理における所定速度に応じた時刻に変換し、変換後の区間情報を生成する時刻変換手段と、を備え、前記出力音声信号生成部が、前記時刻変換手段により生成された変換後の区間情報が示す音声区間及び非音声区間について、前記話速変換手段により出力された話速変換信号のうちの少なくとも1以上の信号に対し、所定のパラメータを乗算して出力音声信号を生成する、ことを特徴とする。
また、本発明による音声信号処理装置は、前記区間検出部が用いる複数の手法には、前記入力音声信号から音声言語の周波数またはパワーの特徴量を抽出し、当該特徴量に基づいて前記区間情報を生成する手法、前記入力音声信号から音の大きさの特徴量を抽出し、当該特徴量に基づいて前記区間情報を生成する手法、及び、前記入力音声信号に対応する番組の字幕情報を含む字幕データ情報から前記字幕情報を抽出し、前記字幕情報の区間を音声区間とし、前記字幕情報以外の区間を非音声区間とすることで、前記区間情報を生成する手法のうち、少なくとも2つの手法が含まれる、ことを特徴とする。
また、本発明による音声信号処理装置は、前記多数決判断部が、前記区間検出部により生成された複数の区間情報に対し、所定の重み付けに従い多数決判断を行い、前記多数決判断による区間情報を生成し、前記多数決判断による区間情報が音声区間を示しており、当該音声区間の連続する時間が所定時間以下の場合、前記音声区間を非音声区間に補正し、前記多数決判断による区間情報が非音声区間を示しており、当該非音声区間の連続する時間が所定時間以下の場合、前記非音声区間を音声区間に補正し、補正後の区間情報を新たな区間情報として生成する、ことを特徴とする。
また、本発明による音声信号処理装置は、前記出力音声信号生成部が、前記変換後の区間情報が音声区間を示している場合、前記話速変換手段により出力された変換処理後の推定音声信号と、前記話速変換手段により出力された変換処理後の推定背景音信号に第1のパラメータを乗算した信号とを混合し、出力音声信号を生成し、前記変換後の区間情報が非音声区間を示している場合、前記話速変換手段により出力された変換処理後の入力音声信号に第2のパラメータを乗算した信号を、出力音声信号として生成する、ことを特徴とする。
また、本発明による音声信号処理装置は、さらに、前記音声・背景音分離部により分離された推定音声信号を帯域別に分け、フィルタ処理を施して強調音声信号を生成する音声強調部を備え、前記話速変換部の再生用バッファが、前記入力音声信号、前記音声・背景音分離部により分離された推定音声信号及び推定背景音信号、並びに前記音声強調部により生成された強調音声信号が格納され、前記話速変換部のスキップ決定手段が、前記再生用バッファに格納された入力音声信号、推定音声信号、推定背景音信号及び強調音声信号から、前記スキップ区間の信号をスキップするように削除し、前記話速変換部の話速変換手段が、前記区間識別バッファに格納されたスキップ後の区間情報が音声区間を示している場合、前記基本周期抽出部により抽出された基本周期を単位として、前記再生用バッファに格納されたスキップ後の入力音声信号、推定音声信号、推定背景音信号及び強調音声信号の伸縮を行って所定速度に話速を変換する第1の変換処理を行い、前記区間識別バッファに格納されたスキップ後の区間情報が非音声区間を示している場合、前記再生用バッファに格納されたスキップ後の入力音声信号、推定音声信号、推定背景音信号及び強調音声信号の速度を変換しないかまたは所定速度に変換する第2の変換処理を行い、前記第1及び第2の変換処理後の入力音声信号、推定音声信号、推定背景音信号及び強調音声信号を話速変換信号として出力する、ことを特徴とする。
さらに、本発明によるプログラムは、コンピュータを、前記音声信号処理装置として機能させることを特徴とする。
以上のように、本発明によれば、精度の高い音声区間を検出することができ、音質良く話速変換を行い、より聞き易い音声及び背景音のバランスとなるように背景音信号の大きさを調整することができる。
本発明の実施形態による音声信号処理装置の構成を示すブロック図である。 多数決判断部の処理を示すフローチャートである。 混合比調整部の処理を示すフローチャートである 入力音声信号NplsBG等を同期させるタイミング補正部を説明するブロック図である。 遅延時間を短縮する他の話速変換部を説明するブロック図である。 他の話速変換部の処理を説明する図である。 同相成分抽出器の構成を示すブロック図である。
以下、本発明を実施するための形態について図面を用いて詳細に説明する。図1は、本発明の実施形態による音声信号処理装置の構成を示すブロック図である。この音声信号処理装置10は、入力音声の話速変換を行うと共に、背景音量を調整する機能を有し、音声・背景音分離部1、言語特徴抽出区間検出部2、信号特徴抽出区間検出部3、字幕情報抽出区間検出部4、多数決判断部5、基本周期抽出部6、音声強調部7、話速変換部8及び混合比調整部(出力音声信号生成部)9を備えている。
以下、音声信号処理装置10について、デジタルテレビ放送等の番組を受信し、番組音声の話速を変換し、番組背景音量を調整する受信装置に適用した例を挙げて説明する。
〔音声・背景音分離部1〕
音声・背景音分離部1は、音声と背景音が混合した信号(入力音声信号NplsBG)を入力し、入力音声信号NplsBGから音声及び背景音を推定し、入力音声信号NplsBGを、推定した音声を主成分とする推定音声信号N’と、推定した背景音を主成分とする推定背景音信号BG’とに分離する。音声・背景音分離部1により分離された推定音声信号N’は、基本周期抽出部6、音声強調部7及び話速変換部8に出力される。音声・背景音分離部1により分離された推定背景音信号BG’は話速変換部8に出力される。
例えば、音声・背景音分離部1は、Spectral Subtraction法、Wiener Filter法、ステレオ相関法等により、入力音声信号NplsBGを推定音声信号N’と推定背景音信号BG’とに分離する。
以下、ステレオ相関法について説明する。入力音声信号である2チャンネルのステレオ信号L,Rを、ナレーションの音声信号CNaと、ステレオ信号Lに含まれる背景音LBと、ステレオ信号Rに含まれる背景音RBとの和により表すと、式(1)のようになる。
Figure 0006313619
一方で、2チャンネルのステレオ信号L,Rの間で同相な信号をC、無相関な信号をL0,R0とし、入力音声信号である2チャンネルのステレオ信号L,Rを、同相信号Cと無相関信号L0,R0との和により表すと、式(2)のようになる。
Figure 0006313619
ここで、同相信号Cには、ナレーションの音声信号CNa及び背景音LB,RBの同相成分が含まれる。
2チャンネルのステレオ信号L,Rから、ナレーションの音声信号CNa及び背景音LB,RBの同相信号Cのみを抽出し、この同相信号Cに対する左側入力信号と右側入力信号の無相関信号L0,R0の加算割合を制御することにより、背景音信号の一部である背景音の無相関信号L0,R0のみを適正に制御することが可能になる。
同相信号Cである同相成分の抽出には、適応フィルタが用いられる。図7は、同相成分を抽出する同相成分抽出器の構成を示すブロック図である。この同相成分抽出器は、適応フィルタを含んで構成される。適応フィルタは、ステレオ信号Lに相当する入力信号X=(X0+Z)、及びステレオ信号Rに相当する入力信号Y=(Y0+Z)から、所望応答である入力信号X及び入力信号Yの同相成分Z(同相信号C)を抽出する。
同相成分Zを抽出するためには、例えばNLMSアルゴリズム(学習同定法:Normalized Least Mean Square Algorithm)が用いられる。当該アルゴリズムを実行するためのステップサイズパラメータはμ=0.02,γ=0.000001である。
この適応フィルタでは、入力信号X,Yの誤差であるerrX(k)及びerrY(k)を最小とするように更新することで、同相成分Zが抽出される。適応フィルタに用いるフィルタ係数Wx,WYは、以下の式(3)(4)にて表され、これらのフィルタ係数Wx,WYを生成するための更新式として、以下の式(5)が用いられる。式(5)において、e(n)は誤差errX(k)またはerrY(k)を示す。
Figure 0006313619
Figure 0006313619
Figure 0006313619
このように、ステレオ相関法により、ステレオ信号L,Rが、ナレーションの音声信号CNaと背景音LB,RBとに分離される。すなわち、音声・背景音分離部1は、ステレオ相関法により、ステレオ信号L,Rである入力音声信号NplsBGを、ナレーションの音声信号CNaである推定音声信号N’と背景音LB,RBである推定背景音信号BG’とに分離することができる。
尚、ステレオ相関法は既知であり、その詳細については、前述の特許文献5(特開2009−25500号公報)を参照されたい。
〔言語特徴抽出区間検出部2〕
言語特徴抽出区間検出部2は、音声と背景音が混合した信号(入力音声信号NplsBG)を入力し、入力音声信号NplsBGに対し、周波数特性を表すケプストラム等の言語の特徴量を抽出し、抽出した特徴量に基づいて、人の声である音声として連続している区間か否かを判定して音声連続区間を検出し、音声区間であるかまたは非音声区間であるかを示す音声連続区間情報P1(時系列の入力音声信号NplsBGの各サンプルにおいて、音声区間及び非音声区間のいずれかを示す情報)を生成する。言語特徴抽出区間検出部2により生成された音声連続区間情報P1は、多数決判断部5に出力される。
例えば、言語特徴抽出区間検出部2は、音声認識により言語らしさを判断する手法を用いて、所定の確率モデルに基づき音声連続区間を検出する。この確率モデルは、音声言語の一部と考えられる音素及び語等に含まれる周波数、パワー等の特徴量にて設定される。
以下、累積音素尤度に基づいて発話の始端及び終端を検出する手法について説明する。この手法は、複数の話者クラスタのサブワード音響モデルに基づいて、入力音声に対するサブワード(例えば、音素、音節)単位のスピーチ及び非スピーチに対応する各サブワードにおける累積尤度を入力音声に同期して算出し、累積尤度を比較することにより、少ない遅れ時間で高精度に発話の始端及び終端を検出するものである。
例えば、サブワード音響モデルの話者クラスタ数を2、話者クラスタS∈{A,B}の非スピーチ音響モデルをsilS、話者クラスタSのスピーチ音響モデルをphS,i(iは音素等のサブワード番号を示す)、サブワード列をh、発話の始端検出開始時刻τから現時刻tまでの音響特徴量の列をxτ tとする。Lは、累積音素対数尤度である。
発話の始端では、言語特徴抽出区間検出部2は、音響特徴量の列xτ tに対応する可能性のある複数のサブワード列hに対し、最尤サブワード列の累積尤度の対数値L1を、以下の式により逐次算出する。
Figure 0006313619
また、言語特徴抽出区間検出部2は、発話の始端における非スピーチ音響モデルsilSの累積尤度の対数値L2を、以下の式により逐次算出する。
Figure 0006313619
一方、発話の終端では、言語特徴抽出区間検出部2は、音響特徴量の列xτ tに対応する可能性のある複数のサブワード列hに対し、全話者クラスタSのスピーチ音響モデルphS,iに後続することで、非スピーチ音響モデルsilSにおける最大の累積尤度の対数値L3を、以下の式により逐次算出する。
Figure 0006313619
また、言語特徴抽出区間検出部2は、同じ話者クラスタSのスピーチ音響モデルphS,iにおける最大の累積尤度の対数値L4を、以下の式により逐次算出する。
Figure 0006313619
言語特徴抽出区間検出部2は、発話始端時刻を検出する際に、最尤サブワード列の累積尤度の対数値L1と、非スピーチ音響モデルsilSの累積尤度の対数値L2との間の差を求める。そして、言語特徴抽出区間検出部2は、その差が一定の閾値θstartを超えたとき、すなわち(L1−L2)>θstartとなるとき、これを発話始端時刻検出条件として、最大の累積尤度を示すサブワード列hにおける始端の非スピーチ音響モデルsilSの終端時刻から、所定の時間長tstart(例えばニュース原稿を読み上げる一般的な音声速度の場合、約200msec程度)遡った時刻を発話始端時刻とする。
一方、言語特徴抽出区間検出部2は、発話終端時刻を検出する際に、非スピーチ音響モデルsilSにおける最大の累積尤度の対数値L3と、同じ話者クラスタSのスピーチ音響モデルphS,iにおける最大の累積尤度の対数値L4の間の差を求める。そして、言語特徴抽出区間検出部2は、その差が一定の閾値θendを時間長tend1継続して超えたとき、すなわちtend1継続して(L3−L4)>θendとなるとき、これを発話終端時刻検出条件として、現時刻tから時間長tend1を基準とした所定の時間長tend2(tend2<tend1)分遡った時刻を発話終端時刻とする。
尚、時間長tend1は、発話終端検出条件の基準であるため、実際の発話終端時刻よりも長くなってしまう。そこで、tend2<tend1の関係を満たす時間長tend2(例えばニュース原稿を読み上げる一般的な音声速度の場合、約200msec程度)を設定することにより、より発話終端部に近い時刻を発話終端時刻として検出することができる。
このように、累積音素尤度に基づいて、発話始端時刻及び発話終端時刻が検出される。すなわち、言語特徴抽出区間検出部2は、入力音声信号NplsBGに対して言語の特徴量を算出し、所定の音響モデルを用いて累積尤度を算出し、累積尤度に基づいて発話始端時刻及び発話終端時刻を求めて音声連続区間を検出し、音声連続区間情報P1を生成する。
尚、累積音素尤度に基づいた発話の始端及び終端を検出する手法は既知であり、その詳細については、特開2007−233148号公報を参照されたい。
この場合、言語特徴抽出区間検出部2は、所定の観測時間tdelay1の入力音声信号NplsBGを用いることで、音声が連続しているか否かを逐次判定し、音声連続区間を検出する。所定の観測時間tdelay1は、音声連続区間を検出するために必要な時間である。例えば、所定の観測時間tdelay1が350msecである場合、言語特徴抽出区間検出部2は、所定の観測時間tdelay1=350msec後に、その観測時間tdelay1遡った時点の情報として音声連続区間情報P1を出力する。
言語特徴抽出区間検出部2は、所定の観測時間tdelay1遡った時刻について、音声区間であるかまたは非音声区間であるかを示す音声連続区間情報P1を生成して出力する。例えば、言語特徴抽出区間検出部2は、音声区間の場合に1.0を設定し、非音声区間の場合に0.0を設定することで、音声連続区間情報P1を生成し、10msec毎に音声連続区間情報P1を出力する。尚、本発明は、音声連続区間情報P1の構成及びその出力タイミングを限定するものではない。
〔信号特徴抽出区間検出部3〕
信号特徴抽出区間検出部3は、音声と背景音が混合した信号(入力音声信号NplsBG)を入力し、入力音声信号NplsBGの音の大きさ(ラウドネス)を所定時間のフレーム毎に検出する。そして、信号特徴抽出区間検出部3は、当該音の大きさの特徴量を抽出し、人の声である音声として連続している区間か否かを判定して音声連続区間を検出し、音声区間であるかまたは非音声区間であるかを示す音声連続区間情報P2を生成する。信号特徴抽出区間検出部3により生成された音声連続区間情報P2は、多数決判断部5に出力される。
例えば、信号特徴抽出区間検出部3は、音声波形の包絡情報、パワー等における時間方向の変化の特徴量に基づいて、音声連続区間を検出する。
以下、ラウドネスの振幅変化の特徴量に基づいた音声連続区間を検出する手法について説明する。一般に、音声区間において、背景音は、音声よりも小さくミキシングされており、楽音等のラウドネスの振幅変化はもともと小さく、スピーチ等のラウドネスの振幅変化は、2秒程度の短い時間でも十分大きいものである。そこで、本手法は、音声の振幅変化が背景音の振幅変化よりも大きい点に着目し、2秒間のラウドネスの振幅変化の特徴量に基づいて、音声連続区間を検出するようにした。
具体的には、信号特徴抽出区間検出部3は、入力音声信号NplsBGについて、2秒間におけるラウドネスの振幅の移動平均値を算出し、この2秒間におけるラウドネス波形が移動平均値+5[phon]の値と交差した回数CUをカウントすると共に、この2秒間のラウドネス波形が移動平均値−5[phon]の値と交差した回数CLをカウントする。そして、信号特徴抽出区間検出部3は、回数CU,CLが1以上であり、かつ回数CU,CLが増加し、その後減少する連続した区間を音声区間として検出し、その他の区間を非音声区間として検出する。
このように、ラウドネスの振幅変化の特徴量に基づいて、音声連続区間が検出される。すなわち、信号特徴抽出区間検出部3は、所定時間毎に、入力音声信号NplsBGについてラウドネスの振幅変化を算出し、ラウドネスの振幅変化の幅が所定幅以上となる回数を算出し、その回数が所定回数以上の場合に、その区間(ラウドネスの振幅変化が大きい区間)を音声連続区間として検出し、音声連続区間情報P2を生成する。
尚、ラウドネスの振幅変化の特徴量に基づいた音声連続区間の検出手法は既知であり、その詳細については、以下の文献の第78頁右欄第7−20行目を参照されたい。
小森智康、外6名、“音声/非音声区間切替による背景音抑圧処理法の検討”、信学技報、IEICE Technical Report、SP2011-66、WIT2011-48(2011-10)
この場合、信号特徴抽出区間検出部3は、所定の観測時間tdelay2の入力音声信号NplsBGを用いることで、音声が連続しているか否かを逐次判定し、音声連続区間を検出する。所定の観測時間tdelay2は、音声連続区間を検出するために必要な時間である。例えば、所定の観測時間tdelay2が1000msecである場合、信号特徴抽出区間検出部3は、所定の観測時間tdelay2=1000msec後に、その観測時間tdelay2遡った時点の情報として音声連続区間情報P2を出力する。
信号特徴抽出区間検出部3は、所定の観測時間tdelay2遡った時刻について、音声区間であるかまたは非音声区間であるかを示す音声連続区間情報P2を生成して出力する。例えば、信号特徴抽出区間検出部3は、音声区間の場合に1.0を設定し、非音声区間の場合に0.0を設定することで、音声連続区間情報P2を生成し、20msec毎に音声連続区間情報P2を出力する。尚、本発明は、音声連続区間情報P2の構成及びその出力タイミングを限定するものではない。
〔字幕情報抽出区間検出部4〕
字幕情報抽出区間検出部4は、入力音声信号NplsBGに対応した番組の字幕データ情報d1を入力し、番組の字幕データ情報d1から字幕情報を抽出し、抽出した字幕情報の区間を、字幕表示を行う字幕表示区間として検出し、字幕表示区間情報P3を生成する。字幕情報抽出区間検出部4により生成された字幕表示区間情報P3は、多数決判断部5に出力される。
ここで、番組の字幕データ情報d1のうち音符記号及びカッコ()に囲まれた情報は、セリフ以外の情報である。そこで、字幕情報抽出区間検出部4は、番組の字幕データ情報d1から、音符記号及びカッコ()に囲まれた情報を除外することで、残りの情報を字幕情報として抽出する。そして、字幕情報抽出区間検出部4は、字幕情報の区間(字幕表示が存在する区間)を音声区間とし、それ以外の区間を非音声区間とすることで、音声区間または非音声区間を示す情報(音声区間の場合は1.0、非音声区間の場合は0.0)を字幕表示区間情報P3として生成する。
音声信号処理装置10が番組の字幕データ情報d1を入力すると、字幕情報抽出区間検出部4は、そのタイミングにてほぼ遅延することなく、字幕表示区間情報P3を生成することができる。
尚、字幕データ情報d1から字幕表示区間を検出する手法は既知であり、その詳細については、ARIB STD−B24(デジタル放送におけるデータ放送符号化方式と伝送方式)及びARIB STD−B37(補助データパケット形式で伝送されるデジタル字幕データの構造と運用)を参照されたい。
〔多数決判断部5〕
多数決判断部5は、言語特徴抽出区間検出部2から音声連続区間情報P1を入力すると共に、信号特徴抽出区間検出部3から音声連続区間情報P2を、字幕情報抽出区間検出部4から字幕表示区間情報P3をそれぞれ入力する。そして、多数決判断部5は、音声連続区間情報P1,P2及び字幕表示区間情報P3に対し、予め設定された重み付けに従い多数決判断を行って高信頼度音声区間情報HCPを生成し、高信頼度音声区間情報HCPに所定の補正処理を施して補正音声区間情報CPを生成する。
多数決判断部5により生成された補正音声区間情報CPは、話速変換部8及び混合比調整部9に出力される。この場合、話速変換部8に出力される補正音声区間情報CPは、後述する先読みにより、入力音声信号NplsBG、後述する音声強調部7から出力される強調音声信号N’’、音声・背景音分離部1から出力される推定音声信号N’及び推定背景音信号BG’と同期しているものとする。混合比調整部9に出力される補正音声区間情報CPは、後述する先読みにより、後述する話速変換部8から出力される話速変換後の入力音声信号F(NplsBG)等と同期しているものとする。
ここで、多数決判断部5は、同期した音声連続区間情報P1,P2及び字幕表示区間情報P3を用いて多数決判断を行うために、同期した音声連続区間情報P1,P2及び字幕表示区間情報P3を入力するか、または、音声連続区間情報P1,P2及び字幕表示区間情報P3入力し、これらの情報を同期させる。
図2は、多数決判断部5の処理を示すフローチャートである。音声連続区間情報P1,P2及び字幕表示区間情報P3について予め設定された重み付けをα1,α2,α3とする。
多数決判断部5は、音声連続区間情報P1,P2及び字幕表示区間情報P3を入力し(ステップS201)、音声区間判断値D=α1×P1+α2×P2+α3×P3を時系列のサンプル毎に算出する(ステップS202)。この音声区間判断値Dは、同期した音声連続区間情報P1,P2及び字幕表示区間情報P3における時系列のサンプルを用いて算出された値である。そして、多数決判断部5は、音声区間判断値D≧1.0であるか否かを判定する(ステップS203)。
多数決判断部5は、ステップS203において、音声区間判断値D≧1.0であることを判定した場合(ステップS203:Y)、そのサンプルについて、多数決判断による高信頼度音声区間情報HCP(High Confidence Period)=1.0を設定し(ステップS204)、音声区間判断値D≧1.0でないことを判定した場合(ステップS203:N)、そのサンプルについて、多数決判断による高信頼度音声区間情報HCP=0.0を設定する(ステップS205)。そして、多数決判断部5は、ステップS204またはステップS205から移行して、補正音声区間情報CPの初期値として高信頼度音声区間情報HCPの値を保持する(ステップS206)。
多数決判断部5は、高信頼度音声区間情報HCP=1.0の連続時間が300msec以下であり、かつその後の高信頼度音声区間情報HCPが1.0から0.0に変化したか否かを判定する(ステップS207)。
多数決判断部5は、ステップS207の条件を満たすと判定した場合(ステップS207:Y)、当該連続時間について補正音声区間情報CP=1.0を0.0に補正する(ステップS208)。一方、多数決判断部5は、ステップS207の条件を満たさないと判定した場合(ステップS207:N)、ステップS209へ移行する。
例えば、直前の高信頼度音声区間情報HCPが0.0であり、その後300msec以内の区間で高信頼度音声区間情報HCPが連続して1.0となり、そして、高信頼度音声区間情報HCPが0.0となった場合、300msec以内で連続した補正音声区間情報CP=1.0の区間を0.0に補正する。これにより、補正音声区間情報CP=0.0から1.0への変化を少なくすることができる。
多数決判断部5は、ステップS207またはステップS208から移行して、高信頼度音声区間情報HCP=0.0の連続時間が1000msec以下であり、かつその後の高信頼度音声区間情報HCPが0.0から1.0に変化したか否かを判定する(ステップS209)。
多数決判断部5は、ステップS209の条件を満たすと判定した場合(ステップS209:Y)、当該連続時間について補正音声区間情報CP=0.0を1.0に補正する(ステップS210)。一方、多数決判断部5は、ステップS209の条件を満たさないと判定した場合(ステップS209:N)、ステップS211へ移行する。
例えば、直前の高信頼度音声区間情報HCPが1.0であり、その後1000msec以内の区間で高信頼度音声区間情報HCPが連続して0.0となり、そして、高信頼度音声区間情報HCPが1.0となった場合、1000msec以内で連続した補正音声区間情報CP=0.0の区間を1.0に補正する。これにより、補正音声区間情報CP=1.0から0.0への変化を少なくすることができる。
多数決判断部5は、ステップS209またはステップS210から移行して、ステップS207〜ステップS210の補正処理後の補正音声区間情報CPを出力する(ステップS211)。
このように、多数決判断部5によれば、異なる手法にて検出された音声連続区間情報P1,P2及び字幕表示区間情報P3に対し、予め設定された重み付けα1,α2,α3に従い多数決判断を行って高信頼度音声区間情報HCPを生成し、高信頼度音声区間情報HCPに所定の補正処理を施して補正音声区間情報CPを生成するようにした。これにより、音声区間であるかまたは非音声区間であるかを正確に反映した精度の高い補正音声区間情報CPを得ることができる。
また、多数決判断部5は、高信頼度音声区間情報HCP=1.0の連続時間が300msec以内の場合、その連続時間の補正音声区間情報CPを0.0に補正し、高信頼度音声区間情報HCP=0.0の連続時間が1000msec以内の場合、その連続時間の補正音声区間情報CPを1.0に補正するようにした。これにより、音声区間と非音声区間との間の変化を少なくすることができるから、後段の混合比調整部9により出力される出力音声信号を滑らかに変化させることができる。
尚、図2のステップS202にて用いる重み付けα1,α2,α3は、例えばα1=0.6,α2=0.4,α3=1.0とするのが望ましい。これらは、本願の発明者らが実験的に使用した値であり、本発明は、この値に限定されるものではない。
また、ステップS207の判定処理においては300msecを用い、ステップS209の判定処理においては1000msecを用いるようにしたが、本発明は、これらの値に限定されるものではない。
また、多数決判断部5は、ステップS201〜ステップS205において多数決判断の結果である高信頼度音声区間情報HCPを生成し、ステップS207〜ステップS210において補正音声区間情報CPを補正し、ステップS211において補正音声区間情報CPを出力するようにした。これに対し、多数決判断部5は、ステップS207〜ステップS210の補正処理を行わないようにしてもよい。この場合、多数決判断部5は、多数決判断の結果である高信頼度音声区間情報HCPを生成し、高信頼度音声区間情報HCPである補正音声区間情報CPを補正することなくそのまま出力する。
〔基本周期抽出部6〕
図1に戻って、基本周期抽出部6は、音声・背景音分離部1から推定音声信号N’を入力し、推定音声信号N’から基本周期fを抽出する。基本周期抽出部6により抽出された基本周期fは、話速変換部8に出力される。
例えば、基本周期抽出部6は、推定音声信号N’の有声音区間全体の各部分毎に複数のピッチ候補を求め、最も適しているピッチ候補を判定し、判定したピッチ候補を基本周期fとして抽出する。尚、基本周期抽出部6の処理は既知であるから、詳細については省略する。
〔音声強調部7〕
音声強調部7は、音声・背景音分離部1から推定音声信号N’を入力し、推定音声信号N’から強調音声信号N’’を生成する。音声強調部7により生成された強調音声信号N’’は、話速変換部8に出力される。
例えば、音声強調部7は、フィルタバンクを用いて推定音声信号N’を帯域別に分け、異なるQ値のフィルタ処理を施して強調音声信号N’’を生成する。これにより、帯域全体が抑圧され、中心周波数が伸長した強調音声信号N’’を得ることができる。また、周波数的な山谷のコントラストが強調されるから、音声のメリハリがついて明瞭度が改善され、高齢者にとって聞き取りやすい音声が得られる。
尚、推定音声信号N’から強調音声信号N’’を生成する手法は既知であり、その詳細については、以下の文献を参照されたい。
田高礼子,清山信正,小森智康,清山信正,今井篤,都木徹,“雑音下音声に対する高齢者の聞き取り易さ改善のためのスペクトル強調方法の検討”,音講論(秋),2−Q−a8,2012,p.531−532.
〔話速変換部8〕
話速変換部8は、音声と背景音が混合した信号(入力音声信号NplsBG)を入力すると共に、音声・背景音分離部1から推定音声信号N’及び推定背景音信号BG’を、多数決判断部5から補正音声区間情報CPを、基本周期抽出部6から基本周期fを、音声強調部7から強調音声信号N’’をそれぞれ入力する。
話速変換部8は、補正音声区間情報CPが音声区間を示している場合(CP=1.0の場合)、入力音声信号NplsBG、推定音声信号N’、推定背景音信号BG’及び強調音声信号N’’を、基本周期fを単位にして所定速度に(例えば、音声区間の語頭(前半)は2.0倍、後半は1.0倍の速度になるように)変換する。また、話速変換部8は、補正音声区間情報CPが非音声区間を示している場合(CP=0.0の場合)、入力音声信号NplsBG、推定音声信号N’、推定背景音信号BG’及び強調音声信号N’’を所定速度に(例えば1.0倍または1.2倍の速度になるように)変換する。1.0倍の場合、変換処理は行わない。
話速変換部8により話速変換された入力音声信号F(NplsBG)、推定音声信号F(N’)、推定背景音信号F(BG’)及び強調音声信号F(N’’)は、話速変換信号として混合比調整部9に出力される。
例えば、話速変換部8は、補正音声区間情報CPが音声区間を示している場合、当該時間区間において、入力音声信号NplsBG等の波形を、基本周期fを単位としたブロック毎にそれぞれ分割し、そのブロック単位の波形を繰り返すことで伸長を行い、または、そのブロック単位の波形を間引くことで短縮を行い、声の高さを変えずに所定速度に話速を変換し、入力音声信号F(NplsBG)、推定音声信号F(N’)、推定背景音信号F(BG’)及び強調音声信号F(N’’)を出力する。
また、話速変換部8は、補正音声区間情報CPが非音声区間を示しており、速度変換を行わない場合、当該時間区間において、入力音声信号NplsBG等のそれぞれに対し変換処理を施すことなく、入力音声信号NplsBGを入力音声信号F(NplsBG)として、推定音声信号N’を推定音声信号F(N’)として、推定背景音信号BG’を推定背景音信号F(BG’)として、強調音声信号N’’を強調音声信号F(N’’)としてそのまま出力する。
また、話速変換部8は、補正音声区間情報CPが非音声区間を示しており、速度変換を行う場合、当該時間区間において、入力音声信号NplsBG等のそれぞれに対し、後述する周期性判定処理、基本周期抽出処理、スペクトル包絡ピーク検出処理及び速度変換処理を行い所定速度に変換し、入力音声信号F(NplsBG)、推定音声信号F(N’)、推定背景音信号F(BG’)及び強調音声信号F(N’’)を出力する。
具体的には、話速変換部8は、周期性判定処理において、入力音声信号NplsBG等から所定時間幅の波形を切り出して自己相関関数Rn(k)を算出し、所定時間幅のフレーム毎に、自己相関関数Rn(k)の最大値を用いて周期性の強さUnを算出し、閾値を用いて「周期性が強い」または「周期性が弱い」を判定する。
話速変換部8は、「周期性が強い」場合に、基本周期抽出処理において、前記基本周期抽出部6と同様の処理により入力音声信号NplsBG等の基本周期を抽出する。一方、話速変換部8は、「周期性が弱い」場合に、スペクトル包絡ピーク検出処理において、入力音声信号NplsBG等から周波数のスペクトル包絡を求め、そのピーク位置の周波数の逆数(擬似基本周期)を求める。
話速変換部8は、速度変換処理において、入力音声信号NplsBG等の波形を、基本周期抽出処理にて抽出した基本周期またはスペクトル包絡ピーク検出処理にて求めた擬似基本周期を単位としたブロック毎に分割し、そのブロック単位の波形を繰り返すことで伸長を行い、または、そのブロック単位の波形を間引くことで短縮を行い、所定速度に変換し、入力音声信号F(NplsBG)等を出力する。
これらの周期性判定処理、基本周期抽出処理、スペクトル包絡ピーク検出処理及び速度変換処理は、入力音声信号NplsBG、推定音声信号N’、推定背景音信号BG’及び強調音声信号N’’のそれぞれに対して行われ、所定速度に変換された入力音声信号F(NplsBG)、推定音声信号F(N’)、推定背景音信号F(BG’)及び強調音声信号F(N’’)が出力される。
尚、話速変換部8は、音声区間の処理と同様に非音声区間においても、入力音声信号NplsBG、推定音声信号N’、推定背景音信号BG’及び強調音声信号N’’の波形を、基本周期抽出部6から入力した基本周期fまたは前述の擬似基本周期を単位としたブロック毎にそれぞれ分割し、そのブロック単位の波形を繰り返すことで伸長を行い、または、そのブロック単位の波形を間引くことで短縮を行い、音の高さを変えずに所定速度に変換し、所定速度に変換した入力音声信号F(NplsBG)、推定音声信号F(N’)、推定背景音信号F(BG’)及び強調音声信号F(N’’)を出力するようにしてもよい。
〔混合比調整部9〕
混合比調整部9は、話速変換部8から話速変換後の話速変換信号F(NplsBG),F(N’),F(BG’),F(N’’)を入力すると共に、多数決判断部5から補正音声区間情報CPを入力する。そして、混合比調整部9は、補正音声区間情報CPが示す音声区間及び非音声区間のそれぞれについて、話速変換信号F(NplsBG),F(N’),F(BG’),F(N’’)のうちの1以上の信号に対し、所定のパラメータを乗算し、出力音声信号M(F(・))を生成して出力する。
例えば、混合比調整部9は、補正音声区間情報CPに基づいて、背景音抑圧手法とゲイン制御手法とを切り替えることにより、背景音の大きさを制御する。
図3は、混合比調整部9の処理を示すフローチャートである。この処理は、補正音声区間情報CPが音声区間を示している場合、背景音抑圧手法により背景音の大きさを制御し、補正音声区間情報CPが非音声区間を示している場合、ゲイン制御手法により背景音の大きさを制御するものである。
混合比調整部9は、話速変換信号F(NplsBG),F(N’),F(BG’),F(N’’)及び補正音声区間情報CPを入力し(ステップS301)、補正音声区間情報CPが1.0であるか(音声区間を示しているか)、または0.0であるか(非音声区間を示しているか)を判定する(ステップS302)。
混合比調整部9は、ステップS302において、補正音声区間情報CP=1.0(音声区間)を判定した場合、背景音抑圧手法により、話速変換信号F(N’),F(BG’)すなわち話速変換後の推定音声信号F(N’)及び推定背景音信号F(BG’)から出力音声信号M(F(・))を以下の式にて算出する(ステップS303)。
出力音声信号M(F(・))=F(N’)+β1×F(BG’)
パラメータβ1は、例えばβ1=10^(−6/10)であり、予め設定される。
尚、混合比調整部9は、背景音抑圧手法により、話速変換信号F(N’),F(BG’),F(N’’)すなわち話速変換後の推定音声信号F(N’)、推定背景音信号F(BG’)及び強調音声信号F(N’’)から出力音声信号M(F(・))を以下の式にて算出するようにしてもよい。
出力音声信号M(F(・))=γ1×F(N’)+γ2×F(N’’)+β1×F(BG’)
パラメータγ1,γ2は、F(N’),F(N’’)の比率を定めるパラメータであり、予め設定される。
一方、混合比調整部9は、ステップS302において、補正音声区間情報CP=0.0(非音声区間)を判定した場合、ゲイン制御手法により、話速変換信号F(NplsBG)すなわち話速変換後の入力音声信号F(NplsBG)から出力音声信号M(F(・))を以下の式にて算出する(ステップS304)。
出力音声信号M(F(・))=β2×F(NplsBG)
パラメータβ2は、例えばβ2=10^(−3/10)であり、予め設定される。
混合比調整部9は、ステップS303またはステップS304から移行して、出力音声信号M(F(・))を出力する(ステップS305)。
これにより、音声区間では、背景音抑圧手法により推定背景音信号F(BG’)にβ1が乗算され、非音声区間では、ゲイン制御手法により入力音声信号F(NplsBG)にβ2が乗算されることで、音声区間の背景音の大きさ及び非音声区間の背景音の大きさが独立して調整される。前述の例では、β1=10^(−6/10)、β2=10^(−3/10)であるから、音声区間の背景音が非音声区間の背景音よりも抑圧され、視聴者(特に高齢者視聴者)が好ましいと感じる背景音の大きさに調整することができる。
尚、混合比調整部9は、補正音声区間情報CPが0.0から1.0に変化する場合(非音声区間から音声区間に切り替わる場合)、または1.0から0.0に変化する場合(音声区間から非音声区間に切り替わる場合)、その前後の所定時間(例えば1000msec)において、クロスフェードしながら出力音声信号M(F(・))を切り替えるようにしてもよい。これにより、自然な出力音声信号M(F(・))を得ることができる。
また、混合比調整部9は、パラメータβ1,β2,γ1,γ2として、予め設定された値を用いるようにしたが、時間的に動的に変化する値を用いるようにしてもよい。例えば、混合比調整部9は、時間的に動的に変化するパラメータβ1を求める場合、話速変換信号F(N’),F(BG’)のレベルの統計値をそれぞれ算出し、両統計値のレベル差を算出し、レベル差または話速変換信号F(BG’)のレベルのいずれかを評価信号として選択し、話速変換信号F(N’),F(BG’)の統計値及び評価信号の平均値に基づいてゲインを算出し、当該ゲインをパラメータβ1に設定する。これにより、時間的に動的に変化するパラメータβ1が得られる。このようにして、背景音信号の大きさが自動的に調整される。
時間的に動的に変化するパラメータを求め、背景音信号の大きさを自動調整する手法は既知であり、その詳細については、特開2013−9292号公報を参照されたい。
以上のように、本発明の実施形態による音声信号処理装置10によれば、多数決判断部5は、言語特徴抽出区間検出部2により周波数特性を表すケプストラム等の言語の特徴量に基づいて生成された音声連続区間情報P1、信号特徴抽出区間検出部3により音の大きさの(振幅変化の)特徴量に基づいて生成された音声連続区間情報P2、及び字幕情報抽出区間検出部4により字幕情報の区間に基づいて生成された字幕表示区間情報P3に対し、予め設定された重み付けに従い多数決判断を行い、補正処理を施して補正音声区間情報CPを生成するようにした。
これにより、字幕情報がある番組においては、字幕情報抽出区間検出手段4により生成された字幕表示区間情報P3を含めて補正音声区間情報CPが生成されるから、入力音声信号NplsBGから音声区間を正確に検出することができる。
また、字幕情報がない番組、生で字幕を付けている番組、音声区間と字幕表示区間が一致しない番組、字幕情報があったとしてもオープンキャプション等が存在することによって字幕情報がない音声区間が存在する番組であっても、言語特徴抽出区間検出部2により生成された音声連続区間情報P1及び信号特徴抽出区間検出部3により生成された音声連続区間情報P2に基づいて補正音声区間情報CPが生成され、入力音声信号NplsBGから音声区間を正確に検出することができる。
また、字幕表示区間情報P3は、本来の音声区間の前後も含めて音声区間とした情報であるが、音声連続区間情報P1,P2及び字幕表示区間情報P3を用いた多数決判断が行われるから、入力音声信号NplsBGから音声区間を正確にかつ信頼性高く検出することができる。
また、字幕情報抽出区間検出部4により字幕表示区間情報P3が生成されない場合であっても、字幕表示区間情報P3とは異なる手法でそれぞれ生成された音声連続区間情報P1,P2を用いた多数決判断が行われるから、入力音声信号NplsBGから音声区間を正確にかつ信頼性高く検出することができる。
本発明の実施形態による音声信号処理装置10によれば、話速変換部8は、補正音声区間情報CPが音声区間を示している場合、基本周期抽出部6により推定音声信号N’から抽出した1つの基本周期fを単位として、入力音声信号NplsBG、推定音声信号N’等の波形を繰り返すことで伸長を行い、または波形を間引くことで短縮を行い、所定速度に話速を変換するようにし、補正音声区間情報CPが非音声区間を示している場合、速度変換を行わない、または所定速度に変換するようにした。
これにより、正確に検出された音声区間及び非音声区間について、適正に話速を制御することができる。
本発明の実施形態による音声信号処理装置10によれば、混合比調整部9は、補正音声区間情報CPが示す音声区間及び非音声区間のそれぞれについて、例えば音声区間では背景音抑圧手法により背景音の大きさを制御し、非音声区間ではゲイン制御手法により背景音の大きさを制御するようにした。
これにより、正確に検出された音声区間及び非音声区間について、音声区間の背景音の大きさと、音楽または効果音だけの非音声区間における背景音の大きさとを独立して調整することができる。
一般に、音声区間と音楽または効果音だけの非音声区間とでは、視聴者(特に高齢者視聴者)が好ましいと感じる背景音の大きさは異なるものである。音声区間の背景音の大きさと非音声区間の背景音の大きさとを独立して変更することで、より聞きやすいバランスにカスタマイズして調整することもでき、耳障りなノイズを小さくすることができる。
したがって、本発明の実施形態による音声信号処理装置10では、精度の高い音声区間を検出することができ、音質良く話速変換を行い、より聞き易い音声及び背景音のバランスとなるように背景音信号の大きさを調整することができる。
つまり、前述した課題1〜4(発明が解決しようとする課題を参照)を解決することができる。具体的には、前記課題1(回路規模が大きくなる)に対し、基本周波数を抽出する処理と背景音を抑圧する処理とを行う際に、1つの音声・背景音分離部1が、入力音声信号NplsBGから音声信号と背景音信号とを分離するようにした。
これにより、それぞれの処理において入力音声信号NplsBGから音声信号と背景音信号とを分離する必要がないから、回路規模を小さくすることができ、前記課題1を解決することができる。
前記課題2(非音声区間も音声区間として抽出されてしまうことがあり、耳障りなノイズが発生する)に対し、多数決判断部5が、言語特徴抽出区間検出部2、信号特徴抽出区間検出部3及び字幕情報抽出区間検出部4により複数の手法にて検出された音声区間及び非音声区間の情報を、多数決判断して音声区間を検出するようにした。
これにより、音声区間を正確にかつ信頼性高く検出することができる。そして、話速変換部8は、正確にかつ信頼性高く検出された音声区間について話速変換を行うことができ、混合比調整部9は、正確にかつ信頼性高く検出された音声区間及び非音声区間について、背景音の大きさを個別に制御することができる。したがって、非音声区間が音声区間として抽出される可能性は低くなり、前記課題2を解決することができる。
また、話速変換部8において、音声区間では語頭の前半を2.0倍で話速変換し、後半を1.0倍で話速変換するように、音声区間の速度を可変速とする場合がある。この場合、非音声区間の話速を例えば1.0倍または1.2倍とすることにより、音楽等によって不自然な変化を起こさないような話速変換を実現することができる。
また、混合比調整部9は、正確にかつ信頼性高く検出された音声区間及び非音声区間の情報、並びに話速変換部8により話速変換された信号を用いて、背景音抑圧手法とゲイン制御手法とを組合せることで、背景音の大きさを制御する。例えば、音声区間では、ステレオ相関を利用した背景音抑圧手法を用い、音楽または効果音だけの非音声区間では、ゲイン制御手法を用いることにより、適した音量に制御することができる。
一般に、放送音声の音声区間では、音声が背景音よりも大きくミキシングされていることから、前記背景音抑圧手法を用いたマスキングの効果により、背景音を抑圧することができ、耳障りなノイズは検知され難くなる。また、音楽または効果音だけの非音声区間では、前記ゲイン制御手法のみを用いることで、耳障りなノイズを除去することができる。
このように、音声区間及び非音声区間の全区間を含む番組全体において、視聴者の主観からすると、耳障りなノイズの発生を大幅に抑えることが可能となる。
本願の発明者の実験によれば、音声区間と音楽または効果音だけの非音声区間とでは、視聴者(特に高齢者視聴者)が好ましいと感じる背景音の大きさは異なっていることが確認されている。これは、音声区間と音楽または効果音だけの非音声区間とでは、背景音の大きさの制御すなわちラウドネス制御を、異なるパラメータを用いて行うことが望ましいことを示している。本発明の実施形態による音声信号処理装置10により、音声区間と音楽または効果音だけの非音声区間について独立に制御することが可能となる。
前記課題3(音声信号と背景音信号との間で同期をとることが難しい)に対し、基本周期抽出部6は、音声・背景音分離部1により分離された推定音声信号N’を用いて基本周期fを抽出し、話速変換部8は、その基本周期fに同期して、入力音声信号NplsBG、推定音声信号N’等を同時に話速変換するようにした。これにより、音質良く話速変換することができると共に、混合比調整部9による調整処理において、同期ずれをなくすことができ、前記課題3を解決することができる。
前記課題4(再ミキシング後に話速変換を行う場合、再ミキシング時における背景音の抑圧処理の効果が話速変換による遅延時間だけ遅れてしまいユーザの操作感が悪くなる)に対し、話速変換部8の後段に混合比調整部9を設け、話速変換後に再ミキシングを行うようにした。これにより、再ミキシング時における背景音の抑圧処理による効果の遅延を小さくすることができ、ユーザの操作感が悪くなることもなく不自然に感じることもなくなる。したがって、前記課題4を解決することができる。
本発明の実施形態による音声信号処理装置10によれば、既に音声と音楽または効果音等の背景音とが混合された状態の番組の番組音声に対し、話速変換を行い聞き取りやすくするという効果、及び番組ミキシングバランスを受信側で聴感に対応させて調整することができるという効果を得ることができる。例えば、テレビまたはラジオ等の話速とミキシングバランスの状態を受信機側で調整する話速変換付き番組背景音量自動調整受信装置に有用である。
〔同期処理〕
次に、入力音声信号NplsBG、音声・背景音分離部1により出力される推定音声信号N’及び推定背景音信号BG’、並びに音声強調部7により出力される強調音声信号N’’の同期処理について説明する。
入力音声信号NplsBGがTS等のタイムスタンプを持つ信号である場合には、音声区間を検出するために、例えば2秒分程度の先読みを行う。先読みは、音声信号処理装置10がリアルタイムの入力音声信号NplsBGを入力し、音声信号処理を行って所定時間遅延した出力音声信号M(F(・))を出力する際に、各種信号が格納されるバッファを用いることにより行われる。
音声信号処理装置10は、先読みを行うと共に、出力音声信号M(F(・))である話速再生音声を出力するために、入力音声信号NplsBGにおける本来のタイムスタンプの進行速度よりも、再生速度をゆっくりにして再生を行う。すなわち、音声信号処理装置10は、入力音声信号NplsBGであるTSのタイムスタンプを、話速変換に応じた速度で進ませる。
図4は、入力音声信号NplsBG等を同期させるタイミング補正部を説明するブロック図である。図1に示した音声信号処理装置10は、所定時間の先読みを行い、入力音声信号NplsBG等を同期させるために、図4に示すタイミング補正部11を備えている。
タイミング補正部11は、入力音声信号NplsBG、推定音声信号N’、強調音声信号N’’及び推定背景音信号BG’を入力し、入力した入力音声信号NplsBG、推定音声信号N’、強調音声信号N’’及び推定背景音信号BG’をバッファに格納する。そして、タイミング補正部11は、最も入力が遅れた信号に同期させるように、または最も入力が遅れた信号をバッファに格納した後所定時間遅らせるように、バッファから各信号を読み出し、同期した入力音声信号NplsBG、推定音声信号N’、強調音声信号N’’及び推定背景音信号BG’を出力する。これにより、入力音声信号NplsBG、推定音声信号N’、強調音声信号N’’及び推定背景音信号BG’である各チャンネルの信号を同期させることができる。
このように、音声信号処理装置10は、先読みにより、各種の信号を同期させることができ、各構成部において同期した信号に対し処理を行うことができ、少なくとも先読みの時間分遅延した出力音声信号M(F(・))を出力することができる。
すなわち、話速変換部8は、同期した入力音声信号NplsBG、推定音声信号N’、強調音声信号N’、推定背景音信号BG’及び補正音声区間情報CPを入力し、所定の処理を行うことができる。また、多数決判断部5は、同期した音声連続区間情報P1,P2及び字幕表示区間情報P3を入力し、所定の処理を行うことができる。また、混合比調整部9は、同期した話速変換信号F(NplsBG),F(N’),F(BG’),F(N’’)及び補正音声区間情報CPを入力し、所定の処理を行うことができる。
〔遅延時間を短縮する処理〕
図1に示した音声信号処理装置10において、話速変換部8により話速をゆっくりにした場合には、番組全体の再生時間が延びてしまい、遅延時間が蓄積してしまう。そこで、話速変換部8に代わる他の話速変換部8’は、図1に示した話速変換部8の処理に加え、非音声区間内の信号を適宜スキップした話速変換信号F(NplsBG),F(N’),F(BG’),F(N’’)を出力する。これにより、話速をゆっくりにした話速変換に伴う遅延時間を短縮することができる。
図5は、遅延時間を短縮する他の話速変換部8’を説明するブロック図である。この話速変換部8’は、再生用バッファ13、区間識別バッファ14、スキップ決定手段15、Fo/Fin(フェードアウト/フェードイン)部16、話速変換手段17及び時刻変換手段18を備えている。
話速変換部8’は、入力音声信号NplsBGを入力すると共に、音声・背景音分離部1から推定音声信号N’及び推定背景音信号BG’を、多数決判断部5から補正音声区間情報CPを、基本周期抽出部6から基本周期fを、音声強調部7から強調音声信号N’’をそれぞれ入力する。そして、話速変換部8’は、話速変換に伴って番組全体の再生時間が延びないように、すなわち話速変換に伴う遅延時間が蓄積しないように、補正音声区間情報CPが示す非音声区間の信号をスキップし、補正音声区間情報CPが示す音声区間の信号を基本周期fを単位にして所定速度に変換すると共に、非音声区間においてスキップしないで残された信号を所定速度に変換する。
図5を参照して、再生用バッファ13は、例えば60秒程度のリングバッファで構成され、入力音声信号NplsBG、推定音声信号N’、推定背景音信号BG’及び強調音声信号N’’が格納される。区間識別バッファ14は、例えば60秒程度のリングバッファで構成され、補正音声区間情報CPが格納される。尚、入力音声信号NplsBG、推定音声信号N’、推定背景音信号BG’及び強調音声信号N’’は、前述の先読みにより同期しており、補正音声区間情報CPも、先読みにより入力音声信号NplsBG等に同期しているものとする。
スキップ決定手段15は、話速変換手段17から遅延時間(話速変換に伴い実時間に対して遅延した時間)Stotalを入力する。そして、スキップ決定手段15は、区間識別バッファ14に格納された補正音声区間情報CPにおける非音声区間内の所定位置に対応したスキップ位置を決定すると共に、遅延時間Stotalをスキップ時間に設定し、区間識別バッファ14に格納された補正音声区間情報CPにおけるスキップ区間Skp(tm)を決定する。スキップ区間Skp(tm)は、スキップ位置を開始時点とし、そこからスキップ時間の間の区間(スキップ動作する時間区間)を示す。tmは、補正音声区間情報CPにおいてスキップ動作する時間位置を示す。
スキップ決定手段15は、スキップ区間Skp(tm)に基づいて、再生用バッファ13に格納された入力音声信号NplsBG、推定音声信号N’、推定背景音信号BG’及び強調音声信号N’’からその区間の信号をスキップするように、アドレスをシフトする。つまり、スキップ決定手段15は、スキップ区間Skp(tm)の信号を、再生用バッファ13に格納された入力音声信号NplsBG、推定音声信号N’、推定背景音信号BG’及び強調音声信号N’’から削除する。これにより、スキップ区間Skp(tm)の信号がスキップする。
スキップ決定手段15は、スキップ区間Skp(tm)に基づいて、区間識別バッファ14に格納された補正音声区間情報CPからその区間の情報をスキップするように、アドレスをシフトする。つまり、スキップ決定手段15は、スキップ区間Skp(tm)の情報を、区間識別バッファ14に格納された補正音声区間情報CPから削除する。これにより、スキップ区間Skp(tm)の情報がスキップする。
スキップ決定手段15は、スキップ区間Skp(tm)が示すスキップ時刻(最初にスキップ動作する時刻)をFo/Fin部16に出力する。また、スキップ決定手段15は、遅延時間Stotalからスキップ区間Skp(tm)の時間を減算する。この減算結果は、遅延時間Stotalを更新するための更新遅延時間Stotal’として、話速変換手段17に出力される。ここで、話速変換手段17は、話速変換に伴う総合的な遅延時間(総合遅延時間)Stotalを管理している。
Fo/Fin部16は、スキップ決定手段15からスキップ時刻を入力すると共に、再生用バッファ13からスキップ後の入力音声信号NplsBG、推定音声信号N’、推定背景音信号BG’及び強調音声信号N’’を読み出す。そして、Fo/Fin部16は、読み出した入力音声信号NplsBG、推定音声信号N’、推定背景音信号BG’及び強調音声信号N’’に対し、スキップ時刻を基準にして、スキップ時刻以前の信号にフェードアウトの処理を施し、スキップ時刻以降の信号にフェードインの処理を施す。これにより、信号のスキップに伴い、その前後の信号が滑らかに接続される。フェードアウト及びフェードインの処理が施された入力音声信号NplsBG、推定音声信号N’、推定背景音信号BG’及び強調音声信号N’’は、話速変換手段17に出力される。
話速変換手段17は、基本周期fを入力すると共に、Fo/Fin部16から入力音声信号NplsBG、推定音声信号N’、推定背景音信号BG’及び強調音声信号N’’を入力し、図1に示した話速変換部8と同様に、音声区間の入力音声信号NplsBG、推定音声信号N’、推定背景音信号BG’及び強調音声信号N’’を、基本周期fを単位にして所定速度に変換し、非音声区間の入力音声信号NplsBG、推定音声信号N’、推定背景音信号BG’及び強調音声信号N’’を所定速度に変換する。所定速度である話速倍率は時刻変換手段18に出力され、所定速度に変換された入力音声信号F(NplsBG)、推定音声信号F(N’)、推定背景音信号F(BG’)及び強調音声信号F(N’’)は、混合比調整部9に出力される。
話速変換手段17は、話速変換に伴う総合的な遅延時間(総合遅延時間)Stotalを管理している。話速変換手段17は、当該遅延時間Stotalをスキップ決定手段15に出力すると共に、スキップ決定手段15からスキップ区間Skp(tm)の時間が減算された更新遅延時間Stotal’を入力し、遅延時間Stotalを更新する。
時刻変換手段18は、話速変換手段17から話速倍率を入力すると共に、区間識別バッファ14からスキップ後の区間情報を読み出す。そして、時刻変換手段18は、区間情報の時刻を話速倍率に応じた時刻に変換し、変更後の新たな区間情報を生成する。時刻変換手段18により時刻が変換された新たな区間情報は、修正区間情報として混合比調整部9に出力される。この修正区間情報は、話速変換手段17から出力される入力音声信号F(NplsBG)、推定音声信号F(N’)、推定背景音信号F(BG’)及び強調音声信号F(N’’)と同期することになる。
この場合、混合比調整部9は、話速変換部8’から話速変換後の入力音声信号F(NplsBG)、推定音声信号F(N’)、推定背景音信号F(BG’)及び強調音声信号F(N’’)を入力すると共に、多数決判断部5から補正音声区間情報CPを入力する代わりに、話速変換部8’から修正区間情報を入力する。そして、混合比調整部9は、修正区間情報が示す音声区間及び非音声区間について、例えば音声区間では背景音抑圧手法により、非音声区間ではゲイン制御手法により背景音の大きさを制御する。
図6は、図5に示した話速変換部8’の処理を説明する図である。話速変換部8’は内部時計を備えており、実時間と内部時計の時間との間のずれが、話速変換に伴う遅延時間Stotalとなる。図6(1)(2)から、実時間t1を開始時点とすると、実時間t2,t3に対し、話速変換によってその内部時計がゆっくり進むから、その時間は遅くなり、実時間t3に対する遅れが遅延時間Stotalとなっていることがわかる。
この遅延時間Stotalを短縮するため(図6(3)(4)の例では、遅延時間Stotalを0にするため)、非音声区間内でスキップ処理が行われる。図6(3)に示す実時間t4〜t6の音声区間及び実時間t6〜t7の非音声区間のうちの非音声区間内の所定のスキップ位置Aに対応して、図6(4)に示す内部時計の時間における非音声区間内の所定位置Bにて、スキップが行われる。このスキップ動作は、遅延時間Stotalの時間長分行われることにより、遅延時間Stotalを0に更新することができる。
以上のように、図5に示した話速変換部8’は、非音声区間の信号をスキップした話速変換信号F(NplsBG),F(N’),F(BG’),F(N’’)を求めるようにした。これにより、話速をゆっくりにした話速変換に伴う遅延時間を短縮することができ、番組全体の再生時間の延びを抑えることができる。
尚、本発明の実施形態による音声信号処理装置10のハードウェア構成としては、通常のコンピュータを使用することができる。音声信号処理装置10は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。音声信号処理装置10に備えた音声・背景音分離部1、言語特徴抽出区間検出部2、信号特徴抽出区間検出部3、字幕情報抽出区間検出部4、多数決判断部5、基本周期抽出部6、音声強調部7、話速変換部8(または話速変換部8’)及び混合比調整部9の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、図1に示した音声信号処理装置10は、言語特徴抽出区間検出部2、信号特徴抽出区間検出部3及び字幕情報抽出区間検出部4を備え、3つの異なる手法にて、音声区間であるかまたは非音声区間であるかを示す情報をそれぞれ生成するようにした。これに対し、音声信号処理装置10は、言語特徴抽出区間検出部2、信号特徴抽出区間検出部3及び字幕情報抽出区間検出部4のうちいずれか2つの区間検出部を備えるようにしてもよい。
例えば、音声信号処理装置10が言語特徴抽出区間検出部2及び字幕情報抽出区間検出部4を備え、信号特徴抽出区間検出部3を備えていない場合、多数決判断部5は、言語特徴抽出区間検出部2により生成された音声連続区間情報P1及び字幕情報抽出区間検出部4により生成された字幕表示区間情報P3を入力し、多数決判断により補正音声区間情報CPを生成する。
要するに、本発明では、2以上の異なる手法にて、音声区間であるかまたは非音声区間であるかを示す情報をそれぞれ生成し、2以上の情報による多数決判断を行うようにすればよい。例えば、言語特徴抽出区間検出部2、信号特徴抽出区間検出部3及び字幕情報抽出区間検出部4による手法の他、入力音声信号NplsBGのパワー及び零交差数を用いる手法、低周波数帯域のパワーを用いる手法、線スペクトル周波数の時間方向の変化量を用いる手法、入力音声信号NplsBGに含まれる雑音の情報を推定し、それにより得られるSN比を用いる手法等(石塚健太郎、外2名、“音声区間検出技術の最近の研究動向”、日本音響学会誌、65巻10号(2009)、pp.537-543)を用いることにより、音声区間であるかまたは非音声区間であるかを示す情報を生成する。これにより、図1の場合と同様に、入力音声信号NplsBGから音声区間を正確に検出することができる。
また、図1に示した音声信号処理装置10は、音声強調部7を備えているが、音声強調部7を備えていなくてもよい。
1 音声・背景音分離部
2 言語特徴抽出区間検出部
3 信号特徴抽出区間検出部
4 字幕情報抽出区間検出部
5 多数決判断部
6 基本周期抽出部
7 音声強調部
8 話速変換部
9 混合比調整部
10 音声信号処理装置
11 タイミング補正部
13 再生用バッファ
14 区間識別バッファ
15 スキップ決定手段
16 Fo/Fin部
17 話速変換手段
18 時刻変換手段

Claims (6)

  1. 入力音声信号を話速変換し、入力音声信号の背景音の大きさを制御する音声信号処理装置において、
    前記入力音声信号から音声及び背景音を推定し、前記音声を主成分とする推定音声信号と、前記背景音を主成分とする推定背景音信号とに分離する音声・背景音分離部と、
    複数の手法により、前記入力音声信号から音声区間及び非音声区間をそれぞれ検出し、前記音声区間及び非音声区間を示す区間情報をそれぞれ生成する区間検出部と、
    前記音声・背景音分離部により分離された推定音声信号から基本周波数を抽出する基本周期抽出部と、
    前記区間検出部により生成された複数の区間情報に対し、所定の重み付けに従い多数決判断を行い、新たな区間情報を生成する多数決判断部と、
    記入力音声信号、並びに前記音声・背景音分離部により分離された推定音声信号及び推定背景音信号の速度を変換し、変換後の入力音声信号、推定音声信号及び推定背景音信号を話速変換信号として出力する話速変換部と、
    記話速変換部により出力された話速変換信号から出力音声信号を生成する出力音声信号生成部と、を備え
    前記話速変換部は、
    前記入力音声信号、並びに前記音声・背景音分離部により分離された推定音声信号及び推定背景音信号が格納される再生用バッファと、
    前記多数決判断部により生成された新たな区間情報が格納される区間識別バッファと、
    前記区間識別バッファに格納された新たな区間情報における非音声区間内の所定位置に対応したスキップ位置を決定すると共に、当該話速変換部による速度の変換に伴う遅延時間をスキップ時間に設定し、前記スキップ位置を開始点として前記スキップ時間の間のスキップ区間を決定し、
    前記再生用バッファに格納された入力音声信号、推定音声信号及び推定背景音信号から、前記スキップ区間の信号をスキップするように削除すると共に、前記区間識別バッファに格納された新たな区間情報から、前記スキップ区間の情報をスキップするように削除するスキップ決定手段と、
    前記区間識別バッファに格納されたスキップ後の区間情報が音声区間を示している場合、前記基本周期抽出部により抽出された基本周期を単位として、前記再生用バッファに格納されたスキップ後の入力音声信号、推定音声信号及び推定背景音信号の伸縮を行って所定速度に話速を変換する第1の変換処理を行い、
    前記区間識別バッファに格納されたスキップ後の区間情報が非音声区間を示している場合、前記再生用バッファに格納されたスキップ後の入力音声信号、推定音声信号及び推定背景音信号の速度を変換しないかまたは所定速度に変換する第2の変換処理を行い、前記第1及び第2の変換処理後の入力音声信号、推定音声信号及び推定背景音信号を話速変換信号として出力する話速変換手段と、
    前記区間識別バッファからスキップ後の区間情報を読み出し、当該区間情報の時刻を、前記第1及び第2の変換処理における所定速度に応じた時刻に変換し、変換後の区間情報を生成する時刻変換手段と、を備え、
    前記出力音声信号生成部は、
    前記時刻変換手段により生成された変換後の区間情報が示す音声区間及び非音声区間について、前記話速変換手段により出力された話速変換信号のうちの少なくとも1以上の信号に対し、所定のパラメータを乗算して出力音声信号を生成する、ことを特徴とする音声信号処理装置。
  2. 請求項1に記載の音声信号処理装置において、
    前記区間検出部が用いる複数の手法には、
    前記入力音声信号から音声言語の周波数またはパワーの特徴量を抽出し、当該特徴量に基づいて前記区間情報を生成する手法、前記入力音声信号から音の大きさの特徴量を抽出し、当該特徴量に基づいて前記区間情報を生成する手法、及び、前記入力音声信号に対応する番組の字幕情報を含む字幕データ情報から前記字幕情報を抽出し、前記字幕情報の区間を音声区間とし、前記字幕情報以外の区間を非音声区間とすることで、前記区間情報を生成する手法のうち、少なくとも2つの手法が含まれる、ことを特徴とする音声信号処理装置。
  3. 請求項1または2に記載の音声信号処理装置において、
    前記多数決判断部は、
    前記区間検出部により生成された複数の区間情報に対し、所定の重み付けに従い多数決判断を行い、前記多数決判断による区間情報を生成し、前記多数決判断による区間情報が音声区間を示しており、当該音声区間の連続する時間が所定時間以下の場合、前記音声区間を非音声区間に補正し、前記多数決判断による区間情報が非音声区間を示しており、当該非音声区間の連続する時間が所定時間以下の場合、前記非音声区間を音声区間に補正し、補正後の区間情報を新たな区間情報として生成する、ことを特徴とする音声信号処理装置。
  4. 請求項1から3までのいずれか一項に記載の音声信号処理装置において、
    前記出力音声信号生成部は
    前記変換後の区間情報が音声区間を示している場合、前記話速変換手段により出力された変換処理後の推定音声信号と、前記話速変換手段により出力された変換処理後の推定背景音信号に第1のパラメータを乗算した信号とを混合し、出力音声信号を生成し、
    前記変換後の区間情報が非音声区間を示している場合、前記話速変換手段により出力された変換処理後の入力音声信号に第2のパラメータを乗算した信号を、出力音声信号として生成する、ことを特徴とする音声信号処理装置。
  5. 請求項1から4までのいずれか一項に記載の音声信号処理装置において、
    さらに、前記音声・背景音分離部により分離された推定音声信号を帯域別に分け、フィルタ処理を施して強調音声信号を生成する音声強調部を備え、
    前記話速変換部の再生用バッファは、
    前記入力音声信号、前記音声・背景音分離部により分離された推定音声信号及び推定背景音信号、並びに前記音声強調部により生成された強調音声信号が格納され、
    前記話速変換部のスキップ決定手段は、
    前記再生用バッファに格納された入力音声信号、推定音声信号、推定背景音信号及び強調音声信号から、前記スキップ区間の信号をスキップするように削除し、
    前記話速変換部の話速変換手段は、
    前記区間識別バッファに格納されたスキップ後の区間情報が音声区間を示している場合、前記基本周期抽出部により抽出された基本周期を単位として、前記再生用バッファに格納されたスキップ後の入力音声信号、推定音声信号、推定背景音信号及び強調音声信号の伸縮を行って所定速度に話速を変換する第1の変換処理を行い、
    前記区間識別バッファに格納されたスキップ後の区間情報が非音声区間を示している場合、前記再生用バッファに格納されたスキップ後の入力音声信号、推定音声信号、推定背景音信号及び強調音声信号の速度を変換しないかまたは所定速度に変換する第2の変換処理を行い、前記第1及び第2の変換処理後の入力音声信号、推定音声信号、推定背景音信号及び強調音声信号を話速変換信号として出力する、ことを特徴とする音声信号処理装置。
  6. コンピュータを、請求項1からまでのいずれか一項に記載の音声信号処理装置として機能させるためのプログラム。
JP2014058753A 2014-03-20 2014-03-20 音声信号処理装置及びプログラム Active JP6313619B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014058753A JP6313619B2 (ja) 2014-03-20 2014-03-20 音声信号処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014058753A JP6313619B2 (ja) 2014-03-20 2014-03-20 音声信号処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2015184349A JP2015184349A (ja) 2015-10-22
JP6313619B2 true JP6313619B2 (ja) 2018-04-18

Family

ID=54350990

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014058753A Active JP6313619B2 (ja) 2014-03-20 2014-03-20 音声信号処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6313619B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869626B (zh) * 2016-05-31 2019-02-05 宇龙计算机通信科技(深圳)有限公司 一种语速自动调节的方法及终端

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0564297A (ja) * 1991-09-05 1993-03-12 Terumo Corp 補聴器
JP4965371B2 (ja) * 2006-07-31 2012-07-04 パナソニック株式会社 音声再生装置
JP4952698B2 (ja) * 2008-11-04 2012-06-13 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
JP5325059B2 (ja) * 2009-09-14 2013-10-23 日本放送協会 映像音声同期再生装置、映像音声同期処理装置、映像音声同期再生プログラム
JP5737808B2 (ja) * 2011-08-31 2015-06-17 日本放送協会 音響処理装置およびそのプログラム

Also Published As

Publication number Publication date
JP2015184349A (ja) 2015-10-22

Similar Documents

Publication Publication Date Title
JP5530720B2 (ja) エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体
KR101334366B1 (ko) 오디오 배속 재생 방법 및 장치
JP5737808B2 (ja) 音響処理装置およびそのプログラム
US6763329B2 (en) Method of converting the speech rate of a speech signal, use of the method, and a device adapted therefor
JP2005157363A (ja) フォルマント帯域を利用したダイアログエンハンシング方法及び装置
US8635077B2 (en) Apparatus and method for expanding/compressing audio signal
US20050246170A1 (en) Audio signal processing apparatus and method
JP6313619B2 (ja) 音声信号処理装置及びプログラム
JP5166470B2 (ja) 音声認識装置、及びコンテンツ再生装置
JP5830364B2 (ja) 韻律変換装置およびそのプログラム
JP3803302B2 (ja) 映像要約装置
JP2007183410A (ja) 情報再生装置および方法
JP6321334B2 (ja) 信号処理装置及びプログラム
JP3081469B2 (ja) 話速変換装置
JP2002297200A (ja) 話速変換装置
JP4580297B2 (ja) 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路
KR100359988B1 (ko) 실시간 화속 변환 장치
JP4313724B2 (ja) 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体
JP6790851B2 (ja) 音声処理プログラム、音声処理方法、及び音声処理装置
JPH06337696A (ja) 速度変換制御装置と速度変換制御方法
JP2006038956A (ja) 音声速度遅延装置及び方法
JP2005204003A (ja) 連続メディアデータ高速再生方法、複合メディアデータ高速再生方法、多チャンネル連続メディアデータ高速再生方法、映像データ高速再生方法、連続メディアデータ高速再生装置、複合メディアデータ高速再生装置、多チャンネル連続メディアデータ高速再生装置、映像データ高速再生装置、プログラム、および、記録媒体
JP5677137B2 (ja) 韻律変換装置およびプログラム
CN112309419A (zh) 多路音频的降噪、输出方法及其系统
JP2007163915A (ja) 音声速度変換装置、音声速度変換プログラム及びそのプログラムを記憶したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170131

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180323

R150 Certificate of patent or registration of utility model

Ref document number: 6313619

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250