JP2009192739A - 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体 - Google Patents

音声信号処理装置、音声信号処理方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP2009192739A
JP2009192739A JP2008032178A JP2008032178A JP2009192739A JP 2009192739 A JP2009192739 A JP 2009192739A JP 2008032178 A JP2008032178 A JP 2008032178A JP 2008032178 A JP2008032178 A JP 2008032178A JP 2009192739 A JP2009192739 A JP 2009192739A
Authority
JP
Japan
Prior art keywords
audio signal
unit
filter
audio
reproduction speed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008032178A
Other languages
English (en)
Inventor
Tetsujiro Kondo
哲二郎 近藤
Kazutaka Uchida
和隆 内田
Junichi Shima
淳一 嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2008032178A priority Critical patent/JP2009192739A/ja
Publication of JP2009192739A publication Critical patent/JP2009192739A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】再生速度に応じて、その再生速度での再生時に聴き取り可能な音声を、ユーザが認識しやすい音声に処理して提供する。
【解決手段】入力された音声信号の再生速度を変更する再生速度変更部50と、音声信号に適用するフィルタのフィルタ係数と音声信号の再生速度との対応情報を記載した対応情報蓄積部とを備えた。さらに、再生速度変更部から出力される音声信号の再生速度に対応付けられたフィルタ係数を対応情報蓄積部から抽出して、フィルタ係数に設定されたフィルタを、再生速度変更部50から出力された音声信号に適用する音声処理部60と、音声処理部60でフィルタが適用された音声信号を出力する音声出力部70とを備えた。
【選択図】図3

Description

本発明は、音声信号処理装置、音声信号処理方法、プログラム及び記録媒体に関し、特に音声信号の周波数特性に応じて当該音声信号の再生速度を変更する技術に関する。
再生装置や記録再生装置等においては、一般的に、映像や音声を通常より早い速度で再生することができる早送り再生機能が備えられている場合が多い。この機能を用いて映像を早送り再生することで、映像の視聴者(ユーザ)は、通常の再生速度による再生映像視聴時に比べて、多くの情報を取得することができるようになる。
ところが、早送り再生時に映像の再生速度と同じ速度で音声を再生すると、音声のピッチが変化してしまい、ユーザが音声を聞き取りづらくなってしまうという問題があった。このため、音声を通常の音程で再生できるように、音声信号を加工するようなことも行われている。
例えば特許文献1には、音声信号の無音部分を削除して有音部分のみで構成される音声信号に加工することにより、音声のピッチを変えることなく、音声の再生速度を上げられるようにしたことが開示されている。また、特許文献2には、音声信号の有音部分では再生速度を1倍速とすることが開示されている。
特開平10−243351号公報 特開2001−134300号公報
上述した従来技術においては、早送り再生時の音声の聞き取りづらさを解消するために、音声信号の有音部分では、再生速度をあまり上げないような制御が行われている。ところが、音声信号に含まれる音声と一言で言っても、実際には、「言葉」、「歓声」、「拍手」、「効果音」といったように、様々な種類が存在する。そして、「言葉」以外の「歓声」や「拍手」等の音声については、再生速度を3倍以上等の高速にした場合でも認識が可能であることが、発明者等の行った実験により明らかとなっている。
これによれば、音声信号に含まれる音声が「言葉」以外の場合には、音声の種類が「言葉」である場合よりも早い再生速度で再生しても、ユーザにおける提示内容の理解度は損なわれないことになる。また、このような場合は再生速度を高速にすることで、ユーザにおける単位時間での情報の取得量も増大させることができる。
図21に、再生速度と可聴音声の種類との関連をグラフで示してある。図21に示したグラフは、発明者等が行った実験の結果に基づいて作成したものである。実験は、テレビジョン放送を通して放映された番組を、再生速度を変えながら被験者に対して提示し、各再生速度において被験者が認識できた内容を記録するという形態で行われた。
図21の横軸は再生速度(単位:倍速)であり、「声」、「自然音」、「人工音」の3種類の音声における再生速度毎の可聴音声の種類(と内容)が示されている。音声の種類が「声」である場合、再生速度が1倍速から3倍速であれば「言葉」の認識が可能であることが示されている。また、再生速度が5倍速以上であっても、15倍速程度までであれば「しゃべりの雰囲気」は認識可能であることが示されている。
また、35倍速程度までであれば「声の表情」を認識することができ、52倍速程度までであれば大雑把な「話者人数」を特定することができ、60倍速の高速再生時においても、「声」の有無の認知や、男性の声か女性の声かといった「声質」の認識はできることが示されている。
音声の種類が「自然音」である場合には、10倍速程度までであれば、その音声が風による音声なのか波による音声なのかといった「音源の種類」の特定ができ、25倍速程度までであれば、バットがボールを打つ音に代表されるような「単発音」の有無を認知可能であることが示されている。また、「歓声」であれば再生速度が60倍速であっても認識可能であることが示されている。
音声の種類が「人工音」である場合には、23倍速程度までであれば「BGM(Back Ground Music)の雰囲気」を感じることができ、50倍速程度までであれば、「効果音の特徴」を認知可能であり、60倍速程度の高速においても、「効果音やBGMの有無」については認識可能であることが示されている。
すなわち、音声信号に含まれる音声の種類が「言葉」以外である場合には、その音声を聞き取れる範囲内の再生速度であれば、3倍速以上等の高速で再生した場合にも、ユーザは音声の種類の特定や内容の認識を行うことができることが分かる。
ところが、従来の早送り再生技術においては、人の話す「言葉」を認識可能とすることに主眼を置いているため、早送り再生時の再生速度は1.5倍〜2.0倍程度の低速な値に設定されている場合が多かった。すなわち、音声の内容が「言葉」以外のものである場合にも、早送り再生の速度は2.0倍速等の低い速度にされるため、ユーザによる情報取得効率を上げることができないという問題があった。
また、例えば再生速度を50倍速にした場合には、再生音声から「効果音の特徴」を認識することは可能となるが、再生される音声信号に「効果音」以外の音声成分が含まれており、その音声成分が50倍速では聞き取りづらいものであった場合には、その音声成分がユーザにはノイズのように聞こえてしまい、耳障りとなってしまうという問題があった。
本発明はかかる点に鑑みてなされたものであり、再生速度に応じて、その再生速度での再生時に聴き取り可能な音声を、ユーザが聴き取りやすい音声に処理して提供することを目的とする。
本発明は、入力された音声信号の再生速度を変更する再生速度変更部と、音声信号に適用するフィルタのフィルタ係数と、音声信号の再生速度との対応情報を記載した対応情報蓄積部とを備えた。さらに、再生速度変更部から出力される音声信号の再生速度に対応するフィルタ係数をテーブルから抽出して、フィルタ係数に設定されたフィルタを、再生速度変更部から出力される音声信号に適用する音声処理部と、音声処理部でフィルタが適用された音声信号を出力する音声出力部とを備えるようにしたものである。
このようにしたことで、再生速度に応じて、再生速度の種類に対応させて予め設定してあるフィルタ係数が選択される。そして、そのフィルタ係数を有するフィルタによって、音声信号の所定の周波数帯域の成分がカットされる。
音声信号の所定の周波数帯域の成分をカットさせる場合、フィルタの係数を適切に設定することで、所定の再生速度での再生時にユーザが聴き取りやすい音声以外の音声の成分を、フィルタ処理によって除去することができる。
本発明によると、再生速度の大きさに応じて、ユーザが聴き取りやすい音声以外の音声の成分をカットできるため、その再生速度での再生時に聴き取り可能な音声を、ユーザが認識しやすい音声に処理して提供することができる。
本発明では、ある再生速度において聴き取りやすい音声以外の音声の周波数成分をカットすることにより、その再生速度で聴き取りやすい音声をより聴き取りやすくする処理を行う。
図1に、再生速度によって音声信号の周波数成分が変化する例を示してある。図1は、発話状態における声の音声成分と拍手の音声成分とが含まれる音声を、FFT((Fast Fourier Transform:高速フーリエ変換))を用いてスペクトル解析した結果の、解析波形を示したものである。縦軸はスペクトラムのパワーであり、FFT係数の二乗で表現される。横軸は周波数[Hz]である。
図1(a)は再生速度が1倍速の場合の例を示したものであり、図1(b)は再生速度が20倍速の場合の例を示したものである。再生速度を20倍にした場合には、図21に示した実験結果によれば、「拍手」の音声は聴き取りやすいが、「声(言葉)」の音声は聴き取りづらくなる。ところが、図1(a)に示されたスペクトラムを有する音声を20倍速で再生した場合は、図1(b)に示されるように、聴き取りづらい音域にある「声(言葉)」のパワーが強くなってしまう。この場合は、この音域の音声がユーザにはノイズとして聞こえてしまう。
図1(b)のスペクトラムを有する音声信号に、声(言葉)の周波数帯の音声成分をカットするフィルタをかけた場合の例を、図2に示してある。図2には、20倍速の再生速度では聴き取りづらい、声(言葉)の周波数帯の音声成分がカットされており、聴き取りやすい「拍手」の音声成分のみが抽出されている状態が示されている。すなわち、このようなフィルタ処理を行うことで、再生される音声における「拍手」の音が、より聞き取りやすいものとなる。
したがって、本発明では、音声信号の再生速度の情報や、音声に含まれる周波数成分の情報を基に、その再生速度で聴き取りやすい音声を、より聴き取りやすくするための処理を行う。
(第1の実施の形態)
以下、本発明の第1の実施の形態を、図1〜図7を参照して説明する。本実施の形態では、ユーザにより指定された再生速度に基づいて、その再生速度で聴き取りやすい音声をより聞き取りやすく加工して出力する処理を行う。
図3は、本例における音声信号処理装置の内部構成の例を示したものである。図3に示した音声信号処理装置100は、音声入力部10と、符号化・復号処理部20と、蓄積部30と、制御部40と、再生速度変更部50と、音声処理部60と、音声出力部70とから成る。
音声入力部10は、チューナや入力端子等を介して音声信号処理装置100内に取り込まれた音声信号の、信号レベルの変更処理等を行う。符号化・復号処理部20は、音声入力部10から入力された音声信号を符号化し、記録音声として蓄積部30に蓄積する。また、蓄積部30に蓄積された圧縮映像データや圧縮音声データを読み出して復号し、復号した音声信号を再生速度変更部50に出力する。
蓄積部30は、例えばHDD(Hard Disc Drive)やDVD(Digital Versatile Disc)等で構成してあり、符号化・復号処理部20で符号化された映像信号や音声信号を蓄積する。もしくは、他の録画再生装置で記録された映像データや音声データを蓄積する。
制御部40は、MPU(Micro Processing Unit)等で構成され、音声信号処理装置100の各部を制御する。図示せぬ操作部等を介して、ユーザより再生速度の入力を受け付けた場合には、その内容に応じた操作信号を生成して、再生速度変更部50に出力する。
再生速度変更部50は、その時点での音声信号の再生速度を、制御部40からの操作信号内で指定された再生速度に変更する処理を行う。具体的には、特開2000−99097号公報に記載された技術等を用いて、音声信号の無音部分を削除したり、特徴が連続する箇所を削除することで、ピッチを変えずに音声信号の再生速度を変更する。そして、再生速度が所定の速度に変更された音声信号を、音声処理部60に出力する。
音声処理部60は、ユーザによって指定された再生速度において、聴き取りづらい音声の成分を、フィルタ処理によってカットする。本例では、フィルタとしてFIR(Finite Impulse Response)フィルタを使用することを想定しているが、IIR(Infinite Impulse Response)フィルタ等の他のデジタルフィルタを用いてもよく、アナログフィルタや非線型フィルタ等を用いるようにしてもよい。
音声処理部60は、図4に示されるように、LUT(Look Up Table)61とフィルタ62とを有する。LUT61は、再生速度とフィルタ係数との対応情報を記載したテーブルであり、ROM(Read Only Memory)などの記憶装置に記憶されている。フィルタ62は、音声信号を構成する周波数成分のうち、特定の周波数帯の成分のみを通過させるためのフィルタである。フィルタ62で用いられるフィルタ係数は、ユーザより入力される再生速度に基づいて、LUT61を参照することにより決定される。
図5に、LUT61の構成例を示してある。図5に示したLUT61の左側の列には、再生速度の範囲が「1.0−1.5」、「1.5−2.0」のように記載されており、その右隣の列には、各再生速度に対応付けられたフィルタ係数が「係数A」、「係数B」のように記載されている。
再生速度の項目には、複数の再生速度の範囲が記載されており、各項目に記載されている左側の値は、範囲の下限を意味しており、右側の値は範囲の上限を意味している。つまり「1.0−1.5」は、1.0倍速以上1.5倍速未満を意味する。例えば、ユーザによって指定された再生速度が1.2倍速であった場合には、再生速度は、LUT61の「再生速度」の項目における「1.0−1.5」に区分されることになる。
図5に示したLUT61によれば、再生速度「1.0−1.5」の区分に対応付けられたフィルタ係数は「係数A」であるため、指定された再生速度が1.2倍速であった場合には、音声処理部60によってLUT61から係数Aが選択される。
係数Aや係数B等の各係数における、それらの係数を用いた場合に通過させることのできる周波数帯域の例を、図6に示してある。図6には、係数Aを用いた場合に通過させられる帯域は全帯域であり、係数Bを用いた場合の通過帯域は1000Hz以下であり、係数Cを用いた場合の通過帯域は1500Hz以下であることが示されている。
すなわち、図5に示したLUT61と図6に示したフィルタ係数の構成例によれば、ユーザから入力された再生速度が例えば1.2倍速であった場合には、音声処理部60によって、音声信号の波形の全帯域を通過させることのできる係数Aが、LUT61から抽出されるようになる。再生速度として4.0が入力された場合には、500Hz〜1500Hzを通過させることのできる係数Dが選択されるようになる。
音声処理部60は、このようにして求めた係数をフィルタ62に設定し、フィルタ62を用いて、再生速度変更部50から入力された音声信号をフィルタ処理する。そして、フィルタ処理後の音声信号を、音声出力部70に出力する。音声出力部70は、音声処理部60から出力された音声信号を音声信号処理装置100の外部へ出力する。
LUT61において、各再生速度と対応させるフィルタ係数は、その再生速度において聴き取りやすい音声の成分のみを通すための係数とし、図21に記載された実験結果等に基づいて予め設定しておくものとする。
次に、音声処理部40による処理の例について、図7のフローチャートを参照して説明する。音声処理部40おいて、まず、ユーザより指定された再生速度が変数Vに代入され(ステップS1)、再生速度Vに対応するフィルタ係数が、LUT61より抽出される(ステップS2)。抽出されたフィルタ係数は、フィルタに設定され(ステップS3)、再生速度変更部50から出力された音声信号に対して、フィルタがかけられる。そしてフィルタ処理された音声信号が出力される(ステップS4)。
次に、ユーザから新たな再生速度が設定される等によって、再生速度が変化したか否かの判断が行われ(ステップS5)、再生速度が変化したと判断された場合には、再びステップS1に戻って処理が続けられる。再生速度に変化がないと判断された場合には、音声信号の入力が終了したか否かの判断が行われ(ステップS6)、音声信号の入力が続いている場合には、ステップS4に戻って処理が行われる。音声信号の入力が終了した場合には、音声処理部40での処理は終了となる。
上述した実施の形態によれば、入力された再生速度に応じて、その再生速度で聴き取りやすい音声以外の音声の成分がカットされるため、ユーザは、その再生速度で聴き取りやすい音声を、より明瞭に聴き取ることができるようになる。
また、言葉を言葉として聞き取れない程の高速な再生速度においても、その再生速度で聞き取りやすい音声がクリアに出力されるようになるため、ユーザは、例えば声質や声の表情、背景音や効果音等の言葉以外の要素を基に、音声の内容を理解することができるようになる。
なお、上述した実施の形態では、ユーザから入力された再生速度の情報を基に、音声信号に適用するフィルタのフィルタ係数を選ぶ構成を例に挙げたが、再生速度だけでなく、音声の波形の特徴の情報にも基づいてフィルタ係数を選択する構成としてもよい。
図8に、この場合の音声処理部60Aの構成例を示してある。図8において、図4と対応する箇所には同一の符号を付してある。図8に示す音声処理部60Aは、FFT処理部63と、LUT61Aと、フィルタ62とを有する。
FFT処理部63は、再生速度変更部50(図3参照)から出力された音声信号を高速フーリエ変換してFFT係数を算出し、算出したFFT係数を、LUT61Aに出力する。
LUT61Aには、FFT係数と再生速度の情報とフィルタ係数との対応が記載されている。図9に、LUT61Aの構成例を示してある。LUT61Aの左側の列には、FFT係数の種類が「係数a−係数b」、「係数c−係数d」のように、係数の値による範囲で示されている。その右隣の列には、再生速度の種類が「1.0−1.5」、「1.5−2.0」のように再生速度の範囲で示されている。FFT係数の項目と再生速度の項目とは、多対多で結んであり、FFT係数と再生速度の組み合わせのすべての種類に対して、最適なフィルタ係数を対応付けてある。例えば、FFT処理部63から出力されたFFT係数が、係数cから係数dの間の値であり、かつ、ユーザにより入力された再生速度が1.4倍速である場合には、係数Jが選択される。
LUT61Aにおいても、FFT係数と再生速度との各組み合わせと対応させるフィルタ係数は、その再生速度において聴き取りやすい音声の成分のみを通すための係数とし、図21に記載された実験結果等に基づいて予め設定しておくものとする。
音声処理部60Aでは、FFT処理部63から出力されるFFT係数とユーザより入力される再生速度をキーに、それらと対応付けられたフィルタ係数を、LUT61Aから抽出する。そして、抽出したフィルタ係数をフィルタ62にセットし、フィルタ係数がセットされたフィルタ62を音声信号に適用した後に、フィルタ処理された音声信号を出力する。
このように、音声処理部を図8に示したような構成とすることで、再生速度だけでなく、音声信号の波形の分析結果、例えばFFT係数の値も考慮してフィルタ係数が設定されるようになる。つまり、音声信号に適用させるフィルタのフィルタ係数を、より細かく設定することができるようになる。
また、上述した実施の形態では、再生速度のみ、もしくは再生速度とFFT係数とを用いてフィルタ係数を決定する場合を例に挙げたが、フィルタ係数を決定する要素として、これら以外の要素を用いるようにしてもよい。例えば、ユーザに、ユーザが聴き取りたい音声の種類(以下、「音声ターゲット」とも称する。)を指定させ、指定された音声の種類に基づいて、再生速度とフィルタ係数とを決定する構成としてもよい。
図10に、この場合の音声処理部61Bの構成例を示してある。図10において、図4及び図8に対応する箇所には同一の符号を付してある。図10に示した音声処理部60Bは、LUT61Bと、フィルタ62とを有する。LUT61Bは、図11に構成例を示してあるように、音声ターゲットの種類毎に、最適な再生速度及びフィルタ係数を対応付けたものである。
音声ターゲットと、再生速度及びフィルタ係数との対応付けは、図21に示した実験結果を基に行うようにする。図21には、例えば再生速度が30倍速のときには「声の表情」を聴き取り可能であることが示されているため、音声ターゲットが「声の表情」である場合は、再生速度が30倍速となり、かつ、「声の表情」以外の音声成分がカットされるようなフィルタ係数が選択されるように、LUT61Bを構成すればよい。
図11に示したLUT61Bでは、音声ターゲットの「言葉」には、再生速度としては「2.0倍」が対応付けてあり、フィルタ係数としては「係数B」が対応付けてある。また音声ターゲットの「拍手」には、再生速度としては「15.0倍」が、フィルタ係数としては「係数F」が対応付けられている。つまり、音声ターゲットとして「言葉」が選択された場合には、再生速度の値としては「15.0倍」が選択され、フィルタ係数としては「係数B」が選択されるようになる。
そして、選択された再生速度の情報は、再生速度変更部50(図3参照)に出力され、選択されたフィルタ係数は、フィルタ62に出力される。再生速度変更部50では、その時点での再生速度を、音声処理部60Bから出力された再生速度に変更する処理が行われ、フィルタ62では、再生速度変更部50から入力された音声信号に対するフィルタ処理が行われる。
音声ターゲットの種類は、例えば図12に示したようなGUI(Graphical User Interface)を通して、ユーザに指定させるようにする。図12に示したGUIは、表示装置の画面上等に表示されるものであり、「音声ターゲットを選択してください」というガイド表示の下に、音声ターゲットの各種類に対応させたボタンB1〜ボタンB6が配置されている。図12に示した例では、ボタンB1には「言葉」を割り当ててあり、ボタンB2には「拍手」を、ボタンB3には「歓声」を、ボタンB4には「BGM」を、ボタンB5には「笑い」を、ボタンB6には「効果音」を割り当ててある。
このGUIを通して選択された音声ターゲットの情報が、LUT61Bに出力され、音声処理部60Bによって、音声ターゲットに対応する再生速度及びフィルタ係数が抽出される。これにより、ユーザが聴き取りたい対象である音声ターゲットの種類に応じて、適切な再生速度が設定され、ユーザが聴き取りたい音声以外の音声の成分がカットされるようになる。
つまり、音声処理部を図10に示したような構成とすることで、ユーザが聴き取りたいと考える音声の種類に応じて、自動的に最適な再生速度が設定され、聴き取りたい対象の音声がより明瞭に出力されるようになる。
また、LUT61Bにおいて、音声ターゲットの種類毎に、その音声を聴き取り可能な再生速度の最大値を対応付けて設定しておくことで、ユーザによる情報取得の効率を向上させることができる。
なお、図11に示したLUT61Bにおいては、音声ターゲットの各種類に対して、再生速度とフィルタ係数とをそれぞれ一対一で対応させてあるが、音声ターゲットに対して、複数の再生速度を対応させ、音声ターゲットと再生速度の組み合わせの種類毎にフィルタ係数を設けるようにしてもよい。
このように構成した場合は、音声ターゲットと再生速度の両方をユーザにより指定させるようする。これにより、例えば「歓声」という1つの音声ターゲットにおいても、少し遅めの再生速度もしくは少し早めの再生速度といったように、再生速度の選択肢に幅を持たせることができる。すなわち、よりユーザの嗜好に即した音声を提示できるようになる。
(第2の実施の形態)
次に、本発明の第2の実施の形態を、図13〜図19を参照して説明する。本実施の形態では、再生速度や音声ターゲットといった情報をユーザより受け付けることなく、音声信号の特徴情報のみに基づいて、フィルタ係数を選択する処理を行う。具体的には、音声信号を構成するそれぞれの周波数帯において定常度の高さを計測し、その情報を基に音声波形のパターンを割り出す。そして、種類分けされた波形パターンに基づいて、フィルタ係数を選択する。
ここでいう定常性とは、ある一定の時間領域内において音声信号の周波数成分が類似することをいう。そして、定常性の高さを示す定常度は、その類似する区間の長さにより決定するものであり、後述する定常度計算部により計算される。
図13に、本例における音声処理部60Cの構成例を示すブロック図である。図13において、図4、図8、図10と対応する箇所には同一の符号を付してあり、音声処理部60C以外の構成については、図3に示した第1の実施の形態による構成と同一の構成であるものとする。
図13に示した音声処理部60Cは、波形分類部64と、LUT61Cと、フィルタ62とを有する。波形分類部64は、再生速度変更部50(図3参照)から出力された音声信号を周波数分析して、分析結果を基に音声波形を所定の波形パターンに分類し、分類された波形パターンをLUT61Cに出力する。波形分類部64の構成及び処理の詳細については、後述する。
LUT61Cは、波形パターンとフィルタ係数との対応を示したテーブルである。音声処理部60Cは、波形分類部64から出力された波形パターンに基づいて、LUT61Cから対応するフィルタ係数を選択し、選択したフィルタ係数をフィルタ62に出力する。フィルタ62は、再生速度変更部50から入力された音声信号に対して、LUT61Cから出力されたフィルタ係数を用いてフィルタ処理を行う。
次に、図14を参照して、波形分類部64の内部構成の例について説明する。波形分類部64は、帯域分割部64aと、定常度計算部64b−1〜64b−n(nは自然数)と、波形パターン算出部64cとを有する。
帯域分割部64aは、入力された音声信号の波形をn個の周波数帯域に分割し、分割した各帯域の波形を、帯域の数に対応して設けられたそれぞれの定常度計算部64b−1〜64b−nに出力する。定常度計算部64b−1〜64b−nは、各帯域における音声の定常度を算出し、算出した定常度の情報を波形パターン算出部64cに出力する。定常度計算部64bの詳細な構成及び処理については、次の図15と図16を参照して後述する。
波形パターン算出部64cは、定常度計算部64b−1〜64b−nから出力された各定常度の情報を基に、音声波形を所定の波形パターンに分類する。波形パターン算出部64cにおける処理の詳細については、図17を参照して後述する。
次に、図15を参照して、定常度計算部64bの内部構成の例について説明する。定常度計算部64bは、FFT処理部63と、係数蓄積部71と、定常度判定部72とを有する。なお、図15には定常度計算部64bのうち、定常度計算部64b−1の構成例を示してあるが、定常度計算部64b−1〜定常度計算部64b−nにおいては、すべて同一の構成としてあるものとする。
FFT処理部63は、再生速度変更部50(図3参照)から出力された音声信号を高速フーリエ変換してFFT係数を算出し、算出したFFT係数を、係数蓄積部71と定常性判定部72に出力する。係数蓄積部71は、FFT処理部63から出力されたFFT係数を、所定の期間分蓄積する。
定常性判定部72は、FFT処理部63から出力されたFFT係数のパワーが、所定の閾値を超えていた場合に、係数蓄積部71に蓄積された1つ過去のFFT係数との相関値を計算する。そして、相関値が所定の閾値を超えた場合には、さらにもう1つ過去のFFT係数を読み出して、その前の時点で「1つ過去のFFT係数」として読み出された係数との相関値を計算する。FFT係数間の相関度が閾値を下回るまでの間、このような処理を繰り返すことにより、相関値が所定の閾値を超えた回数を求める。そして、求めた値を定常度pとして、波形パターン算出部64cに出力する。本例では、閾値を0.8としてある。
相関値の計算には、例えば下記の式を用いるものとする。下記式において、NはFFT係数の数であり、CはFFT係数のノルムの対数値、tは時刻、反転CtはCtの平均値、σtは標準偏差である。-
Figure 2009192739
つまり、時刻tにおけるFFT係数の平均値からのずれ量と、時刻t−1におけるFFT係数の平均値からのずれ量とを積算したものを、FFT係数の個数分加算し、それぞれの標準偏差を積算した値で除算することにより、比較対象となる2つのFFT係数の相関値を算出している。
このように構成された定常度計算部64bにおける処理の例を、図16のフローチャートを参照して説明する。定常度計算部64bでは、まず、FFT処理部63によって入力音声波形のFFT係数が算出されるとともに(ステップS11)、定常度を示す変数pに0が代入される(ステップS12)。次に、FFT処理部63から入力されたFFT係数が所定の閾値以下であるか否かの判断が行われ(ステップS13)、所定の閾値以下であった場合には、定常度は0として波形パターン算出部64cに出力され、定常度計算部64bでの処理は終了となる。
FFT係数が所定の閾値を超えていた場合には、係数蓄積部71から1つ過去のFFT係数が読み出される(ステップS14)。そして、読み出した1つ過去のFFT係数と、FFT処理部63から出力された現在の(その時点での)FFT係数との相関値が計算され(ステップS15)、求められた相関値の値が、閾値として設定された0.8より大きいか否かの判断が行われる(ステップS16)。
相関値の大きさが0.8よりも大きかった場合には、定常度pの値に1が追加され(ステップS17)、再びステップS14に戻って処理が続けられる。そしてここ(ステップS14)では、既に取得済みの「1つ過去の」FFT係数の、さらに1つ過去のFFT係数が取得される。そして、1つ過去のFFT係数と2つ過去のFFT係数との相関値が算出され(ステップS15)、その相関値の大きさが閾値より大きいか否かの判断が行われる(ステップS16)。
つまり、ステップS14〜ステップS16の処理は、FFT係数間の相関度が閾値以下になるまでの間、継続して続けられることになる。そして、FFT係数間の相関値の大きさが閾値を超えた回数が、定常度pとなる。ステップS16において、FFT係数間の相関値が閾値以下であると判断された場合には処理は終了となり、定常度pの値が波形パターン算出部64cに出力される。
次に、波形パターン算出部64cでの処理の例について、図17を参照して説明する。図17は、波形パターン算出部64cが有するLUTの構成例を示したものである。LUTには、前述した帯域分割部64aによって分割された、帯域1〜帯域nの各帯域における定常度が、閾値を超えているか、あるいは閾値以下であるかの判定結果情報が記載されており、その判定結果の数に対応して、複数種類の波形パターンが設けてある。
図17に示したLUTによれば、例えば、帯域1〜帯域nのすべての帯域において、定常度が閾値以下であった場合には、その音声波形は波形パターン1に分類される。(図17において、帯域3から帯域n−1の行は図示略)また、定常度が閾値以上である帯域が帯域1のみであった場合には、音声波形は波形パターン2に分類される。
波形パターン算出部64cで求められた波形パターンの情報は、LUT61Cに出力され、LUT61Cに記載の情報に基づいて、音声処理部60Cによって、波形パターンとマッチングするフィルタ係数が抽出される。LUT61Cの構成例を、図19に示してある。図19に示したLUT61Cは、波形パターンとフィルタ係数とを対応付けたテーブルであり、左側の列に波形パターンの種類が「パターン1」、「パターン2」のように記載され、その右隣の列に、各波形パターンに対応付けられたフィルタ係数が「係数A」、「係数B」のように記載されている。
ここで、波形パターンに対応して設定するフィルタ係数は、定常度の高い音声成分を含む帯域については、それを通過させるような値に設定するものとする。定常度が高いと判断された音声の波形は、類似した波形の繰り返しにより構成されるため、再生速度を高速にした場合においても、音声波形の特徴は保持されやすい。すなわち、フィルタ処理によって定常度の高い音声成分のみを残すことで、どのような速度で再生された音声においても、聴き取りやすい音声のみが明確に出力されるようになる。
なお、上述した各実施の形態では、音声信号の波形の特徴を抽出する手法としてFFTを用い、特徴量としてFFT係数を算出する例を挙げたが、これに限定されるものではない。例えば、音声波形の特徴量として、音量を抽出するようにしてもよく、MFCC(Mel-Frequency Cepstrum Coefficient)やニューラルネットワーク等の手法を用いて特徴量を抽出するようにしてもよい。
また、上述した各実施の形態では、フィルタ処理に用いるフィルタ係数を、再生速度の種類毎に予め設定しておく例を挙げたが、再生速度の速さに応じて動的に変化させるようにしてもよい。
また、上述した各実施の形態では、それぞれの再生速度において聴き取りやすい音声の周波数成分を通過させるように、フィルタ係数を設定した例を挙げたが、再生速度が2倍速以上の場合にはフィルタ係数を0とするようにしてもよい。このような処理を行えば、従来通り、言葉を言葉として聞き取れない程度の高速再生時には、音声が出力されなくなる。
音声処理部60C(図13参照)は、このようなLUT61Cを用いて、波形パターン1と対応するフィルタ係数を抽出し、その係数を用いたフィルタを、再生速度変更部50から出力された音声信号に適用する。そして、フィルタ処理後の音声信号を、音声出力部70(図3参照)を通して音声信号処理装置100の外に出力する。
図18に、上述した各部を有する波形分類部64での処理の例を、フローチャートで示してある。波形分類部64は、まず、再生速度変更部50より音声の入力を受け付けると(ステップS21)、入力された音声の波形が、帯域分割部64aによって所定数の帯域に分割される(ステップS22)。
そして、各帯域に対応して設けられた定常度計算部64b−1〜64b−nによって、各帯域での音声信号の定常度が計算される(ステップS23)。各帯域において算出された定常度の情報は、波形パターン算出部64cに出力され、波形パターン算出部64cによって、定常度の情報に基づいて波形パターンが決定される(ステップS24)。決定された波形パターンは、LUT61Cに出力される(ステップS25)。そして、音声信号の入力が終了したか否かの判断が行われ(ステップS26)、音声信号の入力が続いている場合には、ステップS21に戻って処理が続けられる。音声信号の入力が終了している場合には、ここで処理が終了となる。
上述した第2の実施の形態によれば、音声信号の周波数特性に応じて、自動的に最適なフィルタ係数が抽出され、そのフィルタ係数を用いたフィルタにより音声信号が処理されるようになる。これにより、ユーザによる操作を要することなく、聴き取りやすい音域以外の音声成分を除去することができる。また、第1の実施の形態における処理と比べて、より詳細に音声波形の分類がされるようになるため、入力される音声信号に対してより最適なフィルタが適用されるようになる。
また、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで各種の機能を実行することが可能な、例えば汎用のコンピュータなどに、プログラム記録媒体からインストールされる。
図20に、上述した実施の形態の一連の処理をプログラムにより実行することが可能な、パーソナルコンピュータ200(以下、PC200と称する)の構成例を示してある。図20に示したPC200は、制御部101、メモリ102、通信部103、操作部104、表示部105、記憶部106、外部記憶媒体I/F部107、外部記憶媒体108とを備える。
制御部101は、CPU(Central Processing Unit)等で構成され、メモリ102、または記憶部に記録されているプログラムに従って、上記一連の処理や、他の各種の処理を実行する。メモリ102は、RAM(Random Access Memory)やROM(Read Only Memory)で構成され、制御部101が実行するプログラムやデータなどが記憶される。
通信部103は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。外部記憶媒体I/F部107は、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリなどの外部記憶媒体108が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記録108に転送され、記録される。
操作部104は、キーボードやマウスなどより構成され、ユーザからの操作入力に応じた操作信号を生成して制御部101に出力する。表示部105は、CRT(Cathode Ray Tube)やLCDよりなるディスプレイである。記憶部106は、例えばハードディスクやDVD(Digital Versatile Disc)からなり、制御部101が実行するプログラムや各種のデータを記録する。
コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図20に示すように、外部記憶媒体108として構成される。外部記憶媒体108としては、上述した磁気ディスクのようなリムーバブルメディアの他に、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているメモリ102や、記憶部106なども含む。
プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部103を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。
なお、本明細書において、プログラム記録媒体に格納されるプログラムを記述する処理ステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)をも含むものである。
また、プログラムは、一つのコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。
音声信号の周波数成分を示す図であり、(a)は再生速度が1倍速である場合の例を示し、(b)は再生速度が20倍速である場合の例を示すものである。 再生速度が20倍速である場合の音声信号に対して、フィルタ処理を行った後の波形の例を示す図である。 本発明の第1の実施の形態による音声信号処理装置の内部構成例を示すブロック図である。 本発明の第1の実施の形態による音声処理部の内部構成例を示すブロック図である。 本発明の第1の実施の形態によるLUTの構成例を示す説明図である。 本発明の第1の実施の形態にフィルタ係数の構成例を示す説明図である。 本発明の第1の実施の形態による音声処理部の処理の例を示すフローチャートである。 本発明の第1の実施の形態の他の実施例による音声処理部の内部構成例を示すブロック図である。 本発明の第1の実施の形態の他の実施例によるLUTの構成例を示す説明図である。 本発明の第1の実施の形態の他の実施例による音声処理部の内部構成例を示すブロック図である。 本発明の第1の実施の形態の他の実施例によるLUTの構成例を示す説明図である。 本発明の第1の実施の形態の他の実施例による音声ターゲット入力用GUIの構成例を示す説明図である。 本発明の第2の実施の形態による音声処理部の内部構成例を示すブロック図である。 本発明の第2の実施の形態による波形分類部の内部構成例を示すブロック図である。 本発明の第2の実施の形態による定常度計算部の内部構成例を示すブロック図である。 本発明の第2の実施の形態による定常度計算部による定常度の算出処理例を示すフローチャートである。 本発明の第2の実施の形態による波形パターン算出部が有するLUTの構成例を示す説明図である。 本発明の第2の実施の形態による波形分類部の処理の例を示すフローチャートである。 本発明の第2の実施の形態によるLUTの構成例を示す説明図である。 パーソナルコンピュータの構成例を示すブロック図である。 再生速度と可聴音声の種類との関連性を示す説明図である。
符号の説明
10…音声入力部、20…符号化・復号処理部、30…蓄積部、40…制御部、50…再生速度変更部、60,60A,60B,60C…音声処理部、61,61A,61B,61C…LUT、62…フィルタ、63…FFT処理部、64…波形分類部、64a…帯域分割部、64b−1〜64b−n…定常度計算部、64c…波形パターン算出部、70…音声出力部、71…係数蓄積部、72…定常性判定部

Claims (15)

  1. 入力された音声信号の再生速度を変更する再生速度変更部と、
    前記音声信号に適用するフィルタのフィルタ係数と、前記音声信号の再生速度との対応情報を記載した対応情報蓄積部と、
    前記再生速度変更部から出力される音声信号の再生速度に対応するフィルタ係数を前記テーブルから抽出し、抽出した前記フィルタ係数を設定したフィルタを、前記再生速度変更部から出力された音声信号に適用する音声処理部と、
    前記音声処理部で前記フィルタが適用された音声信号を出力する音声出力部とを備えたことを特徴とする
    音声信号処理装置。
  2. 請求項1記載の音声信号処理装置において、
    前記テーブルに記載された再生速度は、1倍速以上の速度であることを特徴とする
    音声信号処理装置。
  3. 請求項2記載の音声信号処理装置において、
    前記テーブルに記載されたフィルタ係数は、前記音声信号が当該フィルタ係数に対応する再生速度で再生された場合に、当該再生速度における音声信号の、人間の耳で認識しやすい周波数成分のみを通過させる値に設定されていることを特徴とする
    音声信号処理装置。
  4. 請求項3記載の音声信号処理装置において、
    前記音声処理部は、前記再生速度変更部で再生速度が変更された音声信号を周波数分析して、周波数帯毎の成分を示す係数を出力する周波数分析部を備え、
    前記テーブルに記載されたフィルタ係数は、前記周波数帯毎の成分を示す係数の値と前記再生速度との組み合わせ毎に設けることを特徴とする
    音声信号処理装置。
  5. 請求項3記載の音声信号処理装置において、
    前記テーブルは、音声の種類を示す音声ターゲットの情報を含み、
    前記音声ターゲットは、前記テーブルにおいて前記フィルタ係数と前記再生速度とに対応付けられていることを特徴とする
    音声信号処理装置。
  6. 請求項5記載の音声信号処理装置において、
    前記テーブルに記載の前記音声ターゲットを指定するための指示部を備え、
    前記指示部により前記音声ターゲットの種類が指定された場合には、前記再生速度変更部は、前記入力された音声信号の再生速度を、前記テーブルにおいて前記指定された音声ターゲットと対応付けられている再生速度に変更し、前記音声処理部は、前記指定された音声ターゲットに対応付けられた前記フィルタ係数を抽出し、抽出した前記フィルタ係数に設定されたフィルタを、前記再生速度変更部から出力される音声信号に適用することを特徴とする
    音声信号処理装置。
  7. 請求項3記載の音声信号処理装置において、
    前記音声処理部は、前記再生速度変更部で再生速度が変更された音声信号を周波数分析して、前記音声信号を、音声信号の波形の種類毎に設けた複数の波形パターンのうち、特定の波形パターンに分類し、前記波形パターンを前記テーブルに出力する波形分類部とを有することを特徴とする
    音声信号処理装置。
  8. 請求項7記載の音声信号処理装置において、
    前記波形分類部は、前記再生速度変更部で再生速度が変更された音声信号の波形を所定数の周波数帯に分割する帯域分割部と、
    前記帯域分割部で分割された各帯域における前記音声信号の定常度を算出する定常度計算部と、
    前記帯域毎に設けられた定常度計算部で算出された各定常度に基づいて、前記音声信号の波形の波形パターンを特定する波形パターン算出部とを有することを特徴とする
    音声信号処理装置。
  9. 請求項8記載の音声信号処理装置において、
    前記定常度計算部は、前記再生速度変更部で再生速度が変更された音声信号を周波数分析して、周波数帯毎の成分を示す係数を出力する周波数分析部と、
    前記周波数分析部から出力された係数を蓄積する係数蓄積部とを有し、
    前記周波数分析部から出力された現在の係数と前記係数蓄積部に蓄積された1つ過去の係数との相関値を求め、前記相関値が所定の閾値以上であると判定された場合には、前記1つ過去の係数として抽出した係数と、さらに1つ過去の係数との相関値を求める処理を繰り返し、前記相関値が閾値以上であった場合の回数をカウントし、前記回数によって定常性の高さを判定することを特徴とする
    音声信号処理装置。
  10. 請求項8記載の音声信号処理装置において、
    前記波形パターン算出部は、前記複数の定常度計算部から出力された各定常度が所定の閾値以上であるか否かを判定し、前記判定結果に基づいて波形パターンの種類を特定することを特徴とする
    音声信号処理装置。
  11. 請求項7記載の音声信号処理装置において、
    前記テーブルに記載されたフィルタ係数は、前記波形パターンの種類に対応して設けられ、
    前記音声処理部は、前記波形分類部で分類された波形パターンに基づいて、前記波形パターンと対応するフィルタ係数を前記テーブルより抽出することを特徴とする
    音声信号処理装置。
  12. 請求項1記載の音声信号処理装置において、
    前記再生速度変更部は、ユーザから指定された再生速度に基づいて音声信号の再生速度を変更し、変更した音声信号を出力することを特徴とする
    音声信号処理装置。
  13. 入力された音声信号の再生速度を変更するステップと、
    再生すべき再生速度に対応付けられた前記フィルタ係数を、前記音声信号に適用するフィルタのフィルタ係数と、前記音声信号の再生速度との対応情報を記載したテーブルから抽出して、前記フィルタ係数が設定されたフィルタを、前記再生速度が変更された音声信号に適用するステップと、
    前記フィルタが適用された音声信号を出力するステップとを含むことを特徴とする
    音声信号処理方法。
  14. 入力された音声信号の再生速度を変更するステップと、
    再生すべき再生速度に対応付けられた前記フィルタ係数を、前記音声信号に適用するフィルタのフィルタ係数と、前記音声信号の再生速度との対応情報を記載したテーブルから抽出して、前記フィルタ係数が設定されたフィルタを、前記再生速度が変更された音声信号に適用するステップと、
    前記フィルタが適用された音声信号を出力するステップとをコンピュータに実行させるための
    プログラム。
  15. 入力された音声信号の再生速度を変更するステップと、
    再生すべき再生速度に対応付けられた前記フィルタ係数を、前記音声信号に適用するフィルタのフィルタ係数と、前記音声信号の再生速度との対応情報を記載したテーブルから抽出して、前記フィルタ係数が設定されたフィルタを、前記再生速度が変更された音声信号に適用するステップと、
    前記フィルタが適用された音声信号を出力するステップとをコンピュータに実行させるためのプログラムが記録されたコンピュータ読み取り可能な
    記録媒体。
JP2008032178A 2008-02-13 2008-02-13 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体 Pending JP2009192739A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008032178A JP2009192739A (ja) 2008-02-13 2008-02-13 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008032178A JP2009192739A (ja) 2008-02-13 2008-02-13 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2009192739A true JP2009192739A (ja) 2009-08-27

Family

ID=41074824

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008032178A Pending JP2009192739A (ja) 2008-02-13 2008-02-13 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2009192739A (ja)

Similar Documents

Publication Publication Date Title
JP7150939B2 (ja) ボリューム平準化器コントローラおよび制御方法
JP6921907B2 (ja) オーディオ分類および処理のための装置および方法
US20120275625A1 (en) Signal processing device, method thereof, program, and data recording medium
JP5593244B2 (ja) 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体
US8027487B2 (en) Method of setting equalizer for audio file and method of reproducing audio file
JP2008191659A (ja) 音声強調方法及び音声再生システム
US20090074204A1 (en) Information processing apparatus, information processing method, and program
US10108395B2 (en) Audio device with auditory system display and methods for use therewith
CN101909191B (zh) 视频处理设备和视频处理方法
US20240314499A1 (en) Techniques for audio track analysis to support audio personalization
JP4965371B2 (ja) 音声再生装置
Wilson et al. Perception & evaluation of audio quality in music production
CN105632523A (zh) 调节音频数据的音量输出值的方法和装置及终端
JP2009075280A (ja) コンテンツ再生装置
JP5412204B2 (ja) 適応的な話速変換装置及びプログラム
JP2009192739A (ja) 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体
JP3803302B2 (ja) 映像要約装置
Weber et al. Constructing a dataset of speech recordings with lombard effect
JP6409163B2 (ja) 音声処理装置、音声処理プログラムおよび音声処理方法
US9998082B1 (en) Comparative balancing
Tucker et al. Novel techniques for time-compressing speech: an exploratory study
JP2009181044A (ja) 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体
JP2007025039A (ja) 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路
CN112309419B (zh) 多路音频的降噪、输出方法及其系统
JPH0854895A (ja) 再生装置