JP2009192739A

JP2009192739A - 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体

Info

Publication number: JP2009192739A
Application number: JP2008032178A
Authority: JP
Inventors: Tetsujiro Kondo; 哲二郎近藤; Kazutaka Uchida; 和隆内田; Junichi Shima; 淳一嶋
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-02-13
Filing date: 2008-02-13
Publication date: 2009-08-27

Abstract

【課題】再生速度に応じて、その再生速度での再生時に聴き取り可能な音声を、ユーザが認識しやすい音声に処理して提供する。
【解決手段】入力された音声信号の再生速度を変更する再生速度変更部５０と、音声信号に適用するフィルタのフィルタ係数と音声信号の再生速度との対応情報を記載した対応情報蓄積部とを備えた。さらに、再生速度変更部から出力される音声信号の再生速度に対応付けられたフィルタ係数を対応情報蓄積部から抽出して、フィルタ係数に設定されたフィルタを、再生速度変更部５０から出力された音声信号に適用する音声処理部６０と、音声処理部６０でフィルタが適用された音声信号を出力する音声出力部７０とを備えた。
【選択図】図３

Description

本発明は、音声信号処理装置、音声信号処理方法、プログラム及び記録媒体に関し、特に音声信号の周波数特性に応じて当該音声信号の再生速度を変更する技術に関する。

再生装置や記録再生装置等においては、一般的に、映像や音声を通常より早い速度で再生することができる早送り再生機能が備えられている場合が多い。この機能を用いて映像を早送り再生することで、映像の視聴者（ユーザ）は、通常の再生速度による再生映像視聴時に比べて、多くの情報を取得することができるようになる。

ところが、早送り再生時に映像の再生速度と同じ速度で音声を再生すると、音声のピッチが変化してしまい、ユーザが音声を聞き取りづらくなってしまうという問題があった。このため、音声を通常の音程で再生できるように、音声信号を加工するようなことも行われている。

例えば特許文献１には、音声信号の無音部分を削除して有音部分のみで構成される音声信号に加工することにより、音声のピッチを変えることなく、音声の再生速度を上げられるようにしたことが開示されている。また、特許文献２には、音声信号の有音部分では再生速度を１倍速とすることが開示されている。
特開平１０−２４３３５１号公報特開２００１−１３４３００号公報

上述した従来技術においては、早送り再生時の音声の聞き取りづらさを解消するために、音声信号の有音部分では、再生速度をあまり上げないような制御が行われている。ところが、音声信号に含まれる音声と一言で言っても、実際には、「言葉」、「歓声」、「拍手」、「効果音」といったように、様々な種類が存在する。そして、「言葉」以外の「歓声」や「拍手」等の音声については、再生速度を３倍以上等の高速にした場合でも認識が可能であることが、発明者等の行った実験により明らかとなっている。

これによれば、音声信号に含まれる音声が「言葉」以外の場合には、音声の種類が「言葉」である場合よりも早い再生速度で再生しても、ユーザにおける提示内容の理解度は損なわれないことになる。また、このような場合は再生速度を高速にすることで、ユーザにおける単位時間での情報の取得量も増大させることができる。

図２１に、再生速度と可聴音声の種類との関連をグラフで示してある。図２１に示したグラフは、発明者等が行った実験の結果に基づいて作成したものである。実験は、テレビジョン放送を通して放映された番組を、再生速度を変えながら被験者に対して提示し、各再生速度において被験者が認識できた内容を記録するという形態で行われた。

図２１の横軸は再生速度（単位：倍速）であり、「声」、「自然音」、「人工音」の３種類の音声における再生速度毎の可聴音声の種類（と内容）が示されている。音声の種類が「声」である場合、再生速度が１倍速から３倍速であれば「言葉」の認識が可能であることが示されている。また、再生速度が５倍速以上であっても、１５倍速程度までであれば「しゃべりの雰囲気」は認識可能であることが示されている。

また、３５倍速程度までであれば「声の表情」を認識することができ、５２倍速程度までであれば大雑把な「話者人数」を特定することができ、６０倍速の高速再生時においても、「声」の有無の認知や、男性の声か女性の声かといった「声質」の認識はできることが示されている。

音声の種類が「自然音」である場合には、１０倍速程度までであれば、その音声が風による音声なのか波による音声なのかといった「音源の種類」の特定ができ、２５倍速程度までであれば、バットがボールを打つ音に代表されるような「単発音」の有無を認知可能であることが示されている。また、「歓声」であれば再生速度が６０倍速であっても認識可能であることが示されている。

音声の種類が「人工音」である場合には、２３倍速程度までであれば「ＢＧＭ（Back Ground Music）の雰囲気」を感じることができ、５０倍速程度までであれば、「効果音の特徴」を認知可能であり、６０倍速程度の高速においても、「効果音やＢＧＭの有無」については認識可能であることが示されている。

すなわち、音声信号に含まれる音声の種類が「言葉」以外である場合には、その音声を聞き取れる範囲内の再生速度であれば、３倍速以上等の高速で再生した場合にも、ユーザは音声の種類の特定や内容の認識を行うことができることが分かる。

ところが、従来の早送り再生技術においては、人の話す「言葉」を認識可能とすることに主眼を置いているため、早送り再生時の再生速度は１．５倍〜２．０倍程度の低速な値に設定されている場合が多かった。すなわち、音声の内容が「言葉」以外のものである場合にも、早送り再生の速度は２．０倍速等の低い速度にされるため、ユーザによる情報取得効率を上げることができないという問題があった。

また、例えば再生速度を５０倍速にした場合には、再生音声から「効果音の特徴」を認識することは可能となるが、再生される音声信号に「効果音」以外の音声成分が含まれており、その音声成分が５０倍速では聞き取りづらいものであった場合には、その音声成分がユーザにはノイズのように聞こえてしまい、耳障りとなってしまうという問題があった。

本発明はかかる点に鑑みてなされたものであり、再生速度に応じて、その再生速度での再生時に聴き取り可能な音声を、ユーザが聴き取りやすい音声に処理して提供することを目的とする。

本発明は、入力された音声信号の再生速度を変更する再生速度変更部と、音声信号に適用するフィルタのフィルタ係数と、音声信号の再生速度との対応情報を記載した対応情報蓄積部とを備えた。さらに、再生速度変更部から出力される音声信号の再生速度に対応するフィルタ係数をテーブルから抽出して、フィルタ係数に設定されたフィルタを、再生速度変更部から出力される音声信号に適用する音声処理部と、音声処理部でフィルタが適用された音声信号を出力する音声出力部とを備えるようにしたものである。

このようにしたことで、再生速度に応じて、再生速度の種類に対応させて予め設定してあるフィルタ係数が選択される。そして、そのフィルタ係数を有するフィルタによって、音声信号の所定の周波数帯域の成分がカットされる。

音声信号の所定の周波数帯域の成分をカットさせる場合、フィルタの係数を適切に設定することで、所定の再生速度での再生時にユーザが聴き取りやすい音声以外の音声の成分を、フィルタ処理によって除去することができる。

本発明によると、再生速度の大きさに応じて、ユーザが聴き取りやすい音声以外の音声の成分をカットできるため、その再生速度での再生時に聴き取り可能な音声を、ユーザが認識しやすい音声に処理して提供することができる。

本発明では、ある再生速度において聴き取りやすい音声以外の音声の周波数成分をカットすることにより、その再生速度で聴き取りやすい音声をより聴き取りやすくする処理を行う。

図１に、再生速度によって音声信号の周波数成分が変化する例を示してある。図１は、発話状態における声の音声成分と拍手の音声成分とが含まれる音声を、ＦＦＴ（（Fast Fourier Transform:高速フーリエ変換））を用いてスペクトル解析した結果の、解析波形を示したものである。縦軸はスペクトラムのパワーであり、ＦＦＴ係数の二乗で表現される。横軸は周波数［Ｈｚ］である。

図１（ａ）は再生速度が１倍速の場合の例を示したものであり、図１（ｂ）は再生速度が２０倍速の場合の例を示したものである。再生速度を２０倍にした場合には、図２１に示した実験結果によれば、「拍手」の音声は聴き取りやすいが、「声（言葉）」の音声は聴き取りづらくなる。ところが、図１（ａ）に示されたスペクトラムを有する音声を２０倍速で再生した場合は、図１（ｂ）に示されるように、聴き取りづらい音域にある「声（言葉）」のパワーが強くなってしまう。この場合は、この音域の音声がユーザにはノイズとして聞こえてしまう。

図１（ｂ）のスペクトラムを有する音声信号に、声（言葉）の周波数帯の音声成分をカットするフィルタをかけた場合の例を、図２に示してある。図２には、２０倍速の再生速度では聴き取りづらい、声（言葉）の周波数帯の音声成分がカットされており、聴き取りやすい「拍手」の音声成分のみが抽出されている状態が示されている。すなわち、このようなフィルタ処理を行うことで、再生される音声における「拍手」の音が、より聞き取りやすいものとなる。

したがって、本発明では、音声信号の再生速度の情報や、音声に含まれる周波数成分の情報を基に、その再生速度で聴き取りやすい音声を、より聴き取りやすくするための処理を行う。

（第１の実施の形態）
以下、本発明の第１の実施の形態を、図１〜図７を参照して説明する。本実施の形態では、ユーザにより指定された再生速度に基づいて、その再生速度で聴き取りやすい音声をより聞き取りやすく加工して出力する処理を行う。

図３は、本例における音声信号処理装置の内部構成の例を示したものである。図３に示した音声信号処理装置１００は、音声入力部１０と、符号化・復号処理部２０と、蓄積部３０と、制御部４０と、再生速度変更部５０と、音声処理部６０と、音声出力部７０とから成る。

音声入力部１０は、チューナや入力端子等を介して音声信号処理装置１００内に取り込まれた音声信号の、信号レベルの変更処理等を行う。符号化・復号処理部２０は、音声入力部１０から入力された音声信号を符号化し、記録音声として蓄積部３０に蓄積する。また、蓄積部３０に蓄積された圧縮映像データや圧縮音声データを読み出して復号し、復号した音声信号を再生速度変更部５０に出力する。

蓄積部３０は、例えばＨＤＤ（Hard Disc Drive）やＤＶＤ（Digital Versatile Disc）等で構成してあり、符号化・復号処理部２０で符号化された映像信号や音声信号を蓄積する。もしくは、他の録画再生装置で記録された映像データや音声データを蓄積する。

制御部４０は、ＭＰＵ（Micro Processing Unit）等で構成され、音声信号処理装置１００の各部を制御する。図示せぬ操作部等を介して、ユーザより再生速度の入力を受け付けた場合には、その内容に応じた操作信号を生成して、再生速度変更部５０に出力する。

再生速度変更部５０は、その時点での音声信号の再生速度を、制御部４０からの操作信号内で指定された再生速度に変更する処理を行う。具体的には、特開２０００−９９０９７号公報に記載された技術等を用いて、音声信号の無音部分を削除したり、特徴が連続する箇所を削除することで、ピッチを変えずに音声信号の再生速度を変更する。そして、再生速度が所定の速度に変更された音声信号を、音声処理部６０に出力する。

音声処理部６０は、ユーザによって指定された再生速度において、聴き取りづらい音声の成分を、フィルタ処理によってカットする。本例では、フィルタとしてＦＩＲ（Finite Impulse Response）フィルタを使用することを想定しているが、ＩＩＲ（Infinite Impulse Response）フィルタ等の他のデジタルフィルタを用いてもよく、アナログフィルタや非線型フィルタ等を用いるようにしてもよい。

音声処理部６０は、図４に示されるように、ＬＵＴ（Look Up Table）６１とフィルタ６２とを有する。ＬＵＴ６１は、再生速度とフィルタ係数との対応情報を記載したテーブルであり、ＲＯＭ（Read Only Memory）などの記憶装置に記憶されている。フィルタ６２は、音声信号を構成する周波数成分のうち、特定の周波数帯の成分のみを通過させるためのフィルタである。フィルタ６２で用いられるフィルタ係数は、ユーザより入力される再生速度に基づいて、ＬＵＴ６１を参照することにより決定される。

図５に、ＬＵＴ６１の構成例を示してある。図５に示したＬＵＴ６１の左側の列には、再生速度の範囲が「１．０−１．５」、「１．５−２．０」のように記載されており、その右隣の列には、各再生速度に対応付けられたフィルタ係数が「係数Ａ」、「係数Ｂ」のように記載されている。

再生速度の項目には、複数の再生速度の範囲が記載されており、各項目に記載されている左側の値は、範囲の下限を意味しており、右側の値は範囲の上限を意味している。つまり「１．０−１．５」は、１．０倍速以上１．５倍速未満を意味する。例えば、ユーザによって指定された再生速度が１．２倍速であった場合には、再生速度は、ＬＵＴ６１の「再生速度」の項目における「１．０−１．５」に区分されることになる。

図５に示したＬＵＴ６１によれば、再生速度「１．０−１．５」の区分に対応付けられたフィルタ係数は「係数Ａ」であるため、指定された再生速度が１．２倍速であった場合には、音声処理部６０によってＬＵＴ６１から係数Ａが選択される。

係数Ａや係数Ｂ等の各係数における、それらの係数を用いた場合に通過させることのできる周波数帯域の例を、図６に示してある。図６には、係数Ａを用いた場合に通過させられる帯域は全帯域であり、係数Ｂを用いた場合の通過帯域は１０００Ｈｚ以下であり、係数Ｃを用いた場合の通過帯域は１５００Ｈｚ以下であることが示されている。

すなわち、図５に示したＬＵＴ６１と図６に示したフィルタ係数の構成例によれば、ユーザから入力された再生速度が例えば１．２倍速であった場合には、音声処理部６０によって、音声信号の波形の全帯域を通過させることのできる係数Ａが、ＬＵＴ６１から抽出されるようになる。再生速度として４．０が入力された場合には、５００Ｈｚ〜１５００Ｈｚを通過させることのできる係数Ｄが選択されるようになる。

音声処理部６０は、このようにして求めた係数をフィルタ６２に設定し、フィルタ６２を用いて、再生速度変更部５０から入力された音声信号をフィルタ処理する。そして、フィルタ処理後の音声信号を、音声出力部７０に出力する。音声出力部７０は、音声処理部６０から出力された音声信号を音声信号処理装置１００の外部へ出力する。

ＬＵＴ６１において、各再生速度と対応させるフィルタ係数は、その再生速度において聴き取りやすい音声の成分のみを通すための係数とし、図２１に記載された実験結果等に基づいて予め設定しておくものとする。

次に、音声処理部４０による処理の例について、図７のフローチャートを参照して説明する。音声処理部４０おいて、まず、ユーザより指定された再生速度が変数Ｖに代入され（ステップＳ１）、再生速度Ｖに対応するフィルタ係数が、ＬＵＴ６１より抽出される（ステップＳ２）。抽出されたフィルタ係数は、フィルタに設定され（ステップＳ３）、再生速度変更部５０から出力された音声信号に対して、フィルタがかけられる。そしてフィルタ処理された音声信号が出力される（ステップＳ４）。

次に、ユーザから新たな再生速度が設定される等によって、再生速度が変化したか否かの判断が行われ（ステップＳ５）、再生速度が変化したと判断された場合には、再びステップＳ１に戻って処理が続けられる。再生速度に変化がないと判断された場合には、音声信号の入力が終了したか否かの判断が行われ（ステップＳ６）、音声信号の入力が続いている場合には、ステップＳ４に戻って処理が行われる。音声信号の入力が終了した場合には、音声処理部４０での処理は終了となる。

上述した実施の形態によれば、入力された再生速度に応じて、その再生速度で聴き取りやすい音声以外の音声の成分がカットされるため、ユーザは、その再生速度で聴き取りやすい音声を、より明瞭に聴き取ることができるようになる。

また、言葉を言葉として聞き取れない程の高速な再生速度においても、その再生速度で聞き取りやすい音声がクリアに出力されるようになるため、ユーザは、例えば声質や声の表情、背景音や効果音等の言葉以外の要素を基に、音声の内容を理解することができるようになる。

なお、上述した実施の形態では、ユーザから入力された再生速度の情報を基に、音声信号に適用するフィルタのフィルタ係数を選ぶ構成を例に挙げたが、再生速度だけでなく、音声の波形の特徴の情報にも基づいてフィルタ係数を選択する構成としてもよい。

図８に、この場合の音声処理部６０Ａの構成例を示してある。図８において、図４と対応する箇所には同一の符号を付してある。図８に示す音声処理部６０Ａは、ＦＦＴ処理部６３と、ＬＵＴ６１Ａと、フィルタ６２とを有する。

ＦＦＴ処理部６３は、再生速度変更部５０（図３参照）から出力された音声信号を高速フーリエ変換してＦＦＴ係数を算出し、算出したＦＦＴ係数を、ＬＵＴ６１Ａに出力する。

ＬＵＴ６１Ａには、ＦＦＴ係数と再生速度の情報とフィルタ係数との対応が記載されている。図９に、ＬＵＴ６１Ａの構成例を示してある。ＬＵＴ６１Ａの左側の列には、ＦＦＴ係数の種類が「係数ａ−係数ｂ」、「係数ｃ−係数ｄ」のように、係数の値による範囲で示されている。その右隣の列には、再生速度の種類が「１．０−１．５」、「１．５−２．０」のように再生速度の範囲で示されている。ＦＦＴ係数の項目と再生速度の項目とは、多対多で結んであり、ＦＦＴ係数と再生速度の組み合わせのすべての種類に対して、最適なフィルタ係数を対応付けてある。例えば、ＦＦＴ処理部６３から出力されたＦＦＴ係数が、係数ｃから係数ｄの間の値であり、かつ、ユーザにより入力された再生速度が１．４倍速である場合には、係数Ｊが選択される。

ＬＵＴ６１Ａにおいても、ＦＦＴ係数と再生速度との各組み合わせと対応させるフィルタ係数は、その再生速度において聴き取りやすい音声の成分のみを通すための係数とし、図２１に記載された実験結果等に基づいて予め設定しておくものとする。

音声処理部６０Ａでは、ＦＦＴ処理部６３から出力されるＦＦＴ係数とユーザより入力される再生速度をキーに、それらと対応付けられたフィルタ係数を、ＬＵＴ６１Ａから抽出する。そして、抽出したフィルタ係数をフィルタ６２にセットし、フィルタ係数がセットされたフィルタ６２を音声信号に適用した後に、フィルタ処理された音声信号を出力する。

このように、音声処理部を図８に示したような構成とすることで、再生速度だけでなく、音声信号の波形の分析結果、例えばＦＦＴ係数の値も考慮してフィルタ係数が設定されるようになる。つまり、音声信号に適用させるフィルタのフィルタ係数を、より細かく設定することができるようになる。

また、上述した実施の形態では、再生速度のみ、もしくは再生速度とＦＦＴ係数とを用いてフィルタ係数を決定する場合を例に挙げたが、フィルタ係数を決定する要素として、これら以外の要素を用いるようにしてもよい。例えば、ユーザに、ユーザが聴き取りたい音声の種類（以下、「音声ターゲット」とも称する。）を指定させ、指定された音声の種類に基づいて、再生速度とフィルタ係数とを決定する構成としてもよい。

図１０に、この場合の音声処理部６１Ｂの構成例を示してある。図１０において、図４及び図８に対応する箇所には同一の符号を付してある。図１０に示した音声処理部６０Ｂは、ＬＵＴ６１Ｂと、フィルタ６２とを有する。ＬＵＴ６１Ｂは、図１１に構成例を示してあるように、音声ターゲットの種類毎に、最適な再生速度及びフィルタ係数を対応付けたものである。

音声ターゲットと、再生速度及びフィルタ係数との対応付けは、図２１に示した実験結果を基に行うようにする。図２１には、例えば再生速度が３０倍速のときには「声の表情」を聴き取り可能であることが示されているため、音声ターゲットが「声の表情」である場合は、再生速度が３０倍速となり、かつ、「声の表情」以外の音声成分がカットされるようなフィルタ係数が選択されるように、ＬＵＴ６１Ｂを構成すればよい。

図１１に示したＬＵＴ６１Ｂでは、音声ターゲットの「言葉」には、再生速度としては「２．０倍」が対応付けてあり、フィルタ係数としては「係数Ｂ」が対応付けてある。また音声ターゲットの「拍手」には、再生速度としては「１５．０倍」が、フィルタ係数としては「係数Ｆ」が対応付けられている。つまり、音声ターゲットとして「言葉」が選択された場合には、再生速度の値としては「１５．０倍」が選択され、フィルタ係数としては「係数Ｂ」が選択されるようになる。

そして、選択された再生速度の情報は、再生速度変更部５０（図３参照）に出力され、選択されたフィルタ係数は、フィルタ６２に出力される。再生速度変更部５０では、その時点での再生速度を、音声処理部６０Ｂから出力された再生速度に変更する処理が行われ、フィルタ６２では、再生速度変更部５０から入力された音声信号に対するフィルタ処理が行われる。

音声ターゲットの種類は、例えば図１２に示したようなＧＵＩ（Graphical User Interface）を通して、ユーザに指定させるようにする。図１２に示したＧＵＩは、表示装置の画面上等に表示されるものであり、「音声ターゲットを選択してください」というガイド表示の下に、音声ターゲットの各種類に対応させたボタンＢ１〜ボタンＢ６が配置されている。図１２に示した例では、ボタンＢ１には「言葉」を割り当ててあり、ボタンＢ２には「拍手」を、ボタンＢ３には「歓声」を、ボタンＢ４には「ＢＧＭ」を、ボタンＢ５には「笑い」を、ボタンＢ６には「効果音」を割り当ててある。

このＧＵＩを通して選択された音声ターゲットの情報が、ＬＵＴ６１Ｂに出力され、音声処理部６０Ｂによって、音声ターゲットに対応する再生速度及びフィルタ係数が抽出される。これにより、ユーザが聴き取りたい対象である音声ターゲットの種類に応じて、適切な再生速度が設定され、ユーザが聴き取りたい音声以外の音声の成分がカットされるようになる。

つまり、音声処理部を図１０に示したような構成とすることで、ユーザが聴き取りたいと考える音声の種類に応じて、自動的に最適な再生速度が設定され、聴き取りたい対象の音声がより明瞭に出力されるようになる。

また、ＬＵＴ６１Ｂにおいて、音声ターゲットの種類毎に、その音声を聴き取り可能な再生速度の最大値を対応付けて設定しておくことで、ユーザによる情報取得の効率を向上させることができる。

なお、図１１に示したＬＵＴ６１Ｂにおいては、音声ターゲットの各種類に対して、再生速度とフィルタ係数とをそれぞれ一対一で対応させてあるが、音声ターゲットに対して、複数の再生速度を対応させ、音声ターゲットと再生速度の組み合わせの種類毎にフィルタ係数を設けるようにしてもよい。

このように構成した場合は、音声ターゲットと再生速度の両方をユーザにより指定させるようする。これにより、例えば「歓声」という１つの音声ターゲットにおいても、少し遅めの再生速度もしくは少し早めの再生速度といったように、再生速度の選択肢に幅を持たせることができる。すなわち、よりユーザの嗜好に即した音声を提示できるようになる。

（第２の実施の形態）
次に、本発明の第２の実施の形態を、図１３〜図１９を参照して説明する。本実施の形態では、再生速度や音声ターゲットといった情報をユーザより受け付けることなく、音声信号の特徴情報のみに基づいて、フィルタ係数を選択する処理を行う。具体的には、音声信号を構成するそれぞれの周波数帯において定常度の高さを計測し、その情報を基に音声波形のパターンを割り出す。そして、種類分けされた波形パターンに基づいて、フィルタ係数を選択する。

ここでいう定常性とは、ある一定の時間領域内において音声信号の周波数成分が類似することをいう。そして、定常性の高さを示す定常度は、その類似する区間の長さにより決定するものであり、後述する定常度計算部により計算される。

図１３に、本例における音声処理部６０Ｃの構成例を示すブロック図である。図１３において、図４、図８、図１０と対応する箇所には同一の符号を付してあり、音声処理部６０Ｃ以外の構成については、図３に示した第１の実施の形態による構成と同一の構成であるものとする。

図１３に示した音声処理部６０Ｃは、波形分類部６４と、ＬＵＴ６１Ｃと、フィルタ６２とを有する。波形分類部６４は、再生速度変更部５０（図３参照）から出力された音声信号を周波数分析して、分析結果を基に音声波形を所定の波形パターンに分類し、分類された波形パターンをＬＵＴ６１Ｃに出力する。波形分類部６４の構成及び処理の詳細については、後述する。

ＬＵＴ６１Ｃは、波形パターンとフィルタ係数との対応を示したテーブルである。音声処理部６０Ｃは、波形分類部６４から出力された波形パターンに基づいて、ＬＵＴ６１Ｃから対応するフィルタ係数を選択し、選択したフィルタ係数をフィルタ６２に出力する。フィルタ６２は、再生速度変更部５０から入力された音声信号に対して、ＬＵＴ６１Ｃから出力されたフィルタ係数を用いてフィルタ処理を行う。

次に、図１４を参照して、波形分類部６４の内部構成の例について説明する。波形分類部６４は、帯域分割部６４ａと、定常度計算部６４ｂ−１〜６４ｂ−ｎ（ｎは自然数）と、波形パターン算出部６４ｃとを有する。

帯域分割部６４ａは、入力された音声信号の波形をｎ個の周波数帯域に分割し、分割した各帯域の波形を、帯域の数に対応して設けられたそれぞれの定常度計算部６４ｂ−１〜６４ｂ−ｎに出力する。定常度計算部６４ｂ−１〜６４ｂ−ｎは、各帯域における音声の定常度を算出し、算出した定常度の情報を波形パターン算出部６４ｃに出力する。定常度計算部６４ｂの詳細な構成及び処理については、次の図１５と図１６を参照して後述する。

波形パターン算出部６４ｃは、定常度計算部６４ｂ−１〜６４ｂ−ｎから出力された各定常度の情報を基に、音声波形を所定の波形パターンに分類する。波形パターン算出部６４ｃにおける処理の詳細については、図１７を参照して後述する。

次に、図１５を参照して、定常度計算部６４ｂの内部構成の例について説明する。定常度計算部６４ｂは、ＦＦＴ処理部６３と、係数蓄積部７１と、定常度判定部７２とを有する。なお、図１５には定常度計算部６４ｂのうち、定常度計算部６４ｂ−１の構成例を示してあるが、定常度計算部６４ｂ−１〜定常度計算部６４ｂ−ｎにおいては、すべて同一の構成としてあるものとする。

ＦＦＴ処理部６３は、再生速度変更部５０（図３参照）から出力された音声信号を高速フーリエ変換してＦＦＴ係数を算出し、算出したＦＦＴ係数を、係数蓄積部７１と定常性判定部７２に出力する。係数蓄積部７１は、ＦＦＴ処理部６３から出力されたＦＦＴ係数を、所定の期間分蓄積する。

定常性判定部７２は、ＦＦＴ処理部６３から出力されたＦＦＴ係数のパワーが、所定の閾値を超えていた場合に、係数蓄積部７１に蓄積された１つ過去のＦＦＴ係数との相関値を計算する。そして、相関値が所定の閾値を超えた場合には、さらにもう１つ過去のＦＦＴ係数を読み出して、その前の時点で「１つ過去のＦＦＴ係数」として読み出された係数との相関値を計算する。ＦＦＴ係数間の相関度が閾値を下回るまでの間、このような処理を繰り返すことにより、相関値が所定の閾値を超えた回数を求める。そして、求めた値を定常度ｐとして、波形パターン算出部６４ｃに出力する。本例では、閾値を０．８としてある。

相関値の計算には、例えば下記の式を用いるものとする。下記式において、ＮはＦＦＴ係数の数であり、ＣはＦＦＴ係数のノルムの対数値、ｔは時刻、反転ＣｔはＣｔの平均値、σｔは標準偏差である。-

つまり、時刻ｔにおけるＦＦＴ係数の平均値からのずれ量と、時刻ｔ−１におけるＦＦＴ係数の平均値からのずれ量とを積算したものを、ＦＦＴ係数の個数分加算し、それぞれの標準偏差を積算した値で除算することにより、比較対象となる２つのＦＦＴ係数の相関値を算出している。

このように構成された定常度計算部６４ｂにおける処理の例を、図１６のフローチャートを参照して説明する。定常度計算部６４ｂでは、まず、ＦＦＴ処理部６３によって入力音声波形のＦＦＴ係数が算出されるとともに（ステップＳ１１）、定常度を示す変数ｐに０が代入される（ステップＳ１２）。次に、ＦＦＴ処理部６３から入力されたＦＦＴ係数が所定の閾値以下であるか否かの判断が行われ（ステップＳ１３）、所定の閾値以下であった場合には、定常度は０として波形パターン算出部６４ｃに出力され、定常度計算部６４ｂでの処理は終了となる。

ＦＦＴ係数が所定の閾値を超えていた場合には、係数蓄積部７１から１つ過去のＦＦＴ係数が読み出される（ステップＳ１４）。そして、読み出した１つ過去のＦＦＴ係数と、ＦＦＴ処理部６３から出力された現在の（その時点での）ＦＦＴ係数との相関値が計算され（ステップＳ１５）、求められた相関値の値が、閾値として設定された０．８より大きいか否かの判断が行われる（ステップＳ１６）。

相関値の大きさが０．８よりも大きかった場合には、定常度ｐの値に１が追加され（ステップＳ１７）、再びステップＳ１４に戻って処理が続けられる。そしてここ（ステップＳ１４）では、既に取得済みの「１つ過去の」ＦＦＴ係数の、さらに１つ過去のＦＦＴ係数が取得される。そして、１つ過去のＦＦＴ係数と２つ過去のＦＦＴ係数との相関値が算出され（ステップＳ１５）、その相関値の大きさが閾値より大きいか否かの判断が行われる（ステップＳ１６）。

つまり、ステップＳ１４〜ステップＳ１６の処理は、ＦＦＴ係数間の相関度が閾値以下になるまでの間、継続して続けられることになる。そして、ＦＦＴ係数間の相関値の大きさが閾値を超えた回数が、定常度ｐとなる。ステップＳ１６において、ＦＦＴ係数間の相関値が閾値以下であると判断された場合には処理は終了となり、定常度ｐの値が波形パターン算出部６４ｃに出力される。

次に、波形パターン算出部６４ｃでの処理の例について、図１７を参照して説明する。図１７は、波形パターン算出部６４ｃが有するＬＵＴの構成例を示したものである。ＬＵＴには、前述した帯域分割部６４ａによって分割された、帯域１〜帯域ｎの各帯域における定常度が、閾値を超えているか、あるいは閾値以下であるかの判定結果情報が記載されており、その判定結果の数に対応して、複数種類の波形パターンが設けてある。

図１７に示したＬＵＴによれば、例えば、帯域１〜帯域ｎのすべての帯域において、定常度が閾値以下であった場合には、その音声波形は波形パターン１に分類される。（図１７において、帯域３から帯域ｎ−１の行は図示略）また、定常度が閾値以上である帯域が帯域１のみであった場合には、音声波形は波形パターン２に分類される。

波形パターン算出部６４ｃで求められた波形パターンの情報は、ＬＵＴ６１Ｃに出力され、ＬＵＴ６１Ｃに記載の情報に基づいて、音声処理部６０Ｃによって、波形パターンとマッチングするフィルタ係数が抽出される。ＬＵＴ６１Ｃの構成例を、図１９に示してある。図１９に示したＬＵＴ６１Ｃは、波形パターンとフィルタ係数とを対応付けたテーブルであり、左側の列に波形パターンの種類が「パターン１」、「パターン２」のように記載され、その右隣の列に、各波形パターンに対応付けられたフィルタ係数が「係数Ａ」、「係数Ｂ」のように記載されている。

ここで、波形パターンに対応して設定するフィルタ係数は、定常度の高い音声成分を含む帯域については、それを通過させるような値に設定するものとする。定常度が高いと判断された音声の波形は、類似した波形の繰り返しにより構成されるため、再生速度を高速にした場合においても、音声波形の特徴は保持されやすい。すなわち、フィルタ処理によって定常度の高い音声成分のみを残すことで、どのような速度で再生された音声においても、聴き取りやすい音声のみが明確に出力されるようになる。

なお、上述した各実施の形態では、音声信号の波形の特徴を抽出する手法としてＦＦＴを用い、特徴量としてＦＦＴ係数を算出する例を挙げたが、これに限定されるものではない。例えば、音声波形の特徴量として、音量を抽出するようにしてもよく、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）やニューラルネットワーク等の手法を用いて特徴量を抽出するようにしてもよい。

また、上述した各実施の形態では、フィルタ処理に用いるフィルタ係数を、再生速度の種類毎に予め設定しておく例を挙げたが、再生速度の速さに応じて動的に変化させるようにしてもよい。

また、上述した各実施の形態では、それぞれの再生速度において聴き取りやすい音声の周波数成分を通過させるように、フィルタ係数を設定した例を挙げたが、再生速度が２倍速以上の場合にはフィルタ係数を０とするようにしてもよい。このような処理を行えば、従来通り、言葉を言葉として聞き取れない程度の高速再生時には、音声が出力されなくなる。

音声処理部６０Ｃ（図１３参照）は、このようなＬＵＴ６１Ｃを用いて、波形パターン１と対応するフィルタ係数を抽出し、その係数を用いたフィルタを、再生速度変更部５０から出力された音声信号に適用する。そして、フィルタ処理後の音声信号を、音声出力部７０（図３参照）を通して音声信号処理装置１００の外に出力する。

図１８に、上述した各部を有する波形分類部６４での処理の例を、フローチャートで示してある。波形分類部６４は、まず、再生速度変更部５０より音声の入力を受け付けると（ステップＳ２１）、入力された音声の波形が、帯域分割部６４ａによって所定数の帯域に分割される（ステップＳ２２）。

そして、各帯域に対応して設けられた定常度計算部６４ｂ−１〜６４ｂ−ｎによって、各帯域での音声信号の定常度が計算される（ステップＳ２３）。各帯域において算出された定常度の情報は、波形パターン算出部６４ｃに出力され、波形パターン算出部６４ｃによって、定常度の情報に基づいて波形パターンが決定される（ステップＳ２４）。決定された波形パターンは、ＬＵＴ６１Ｃに出力される（ステップＳ２５）。そして、音声信号の入力が終了したか否かの判断が行われ（ステップＳ２６）、音声信号の入力が続いている場合には、ステップＳ２１に戻って処理が続けられる。音声信号の入力が終了している場合には、ここで処理が終了となる。

上述した第２の実施の形態によれば、音声信号の周波数特性に応じて、自動的に最適なフィルタ係数が抽出され、そのフィルタ係数を用いたフィルタにより音声信号が処理されるようになる。これにより、ユーザによる操作を要することなく、聴き取りやすい音域以外の音声成分を除去することができる。また、第１の実施の形態における処理と比べて、より詳細に音声波形の分類がされるようになるため、入力される音声信号に対してより最適なフィルタが適用されるようになる。

また、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで各種の機能を実行することが可能な、例えば汎用のコンピュータなどに、プログラム記録媒体からインストールされる。

図２０に、上述した実施の形態の一連の処理をプログラムにより実行することが可能な、パーソナルコンピュータ２００（以下、ＰＣ２００と称する）の構成例を示してある。図２０に示したＰＣ２００は、制御部１０１、メモリ１０２、通信部１０３、操作部１０４、表示部１０５、記憶部１０６、外部記憶媒体Ｉ／Ｆ部１０７、外部記憶媒体１０８とを備える。

制御部１０１は、ＣＰＵ（Central Processing Unit）等で構成され、メモリ１０２、または記憶部に記録されているプログラムに従って、上記一連の処理や、他の各種の処理を実行する。メモリ１０２は、ＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）で構成され、制御部１０１が実行するプログラムやデータなどが記憶される。

通信部１０３は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。外部記憶媒体Ｉ／Ｆ部１０７は、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリなどの外部記憶媒体１０８が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記録１０８に転送され、記録される。

操作部１０４は、キーボードやマウスなどより構成され、ユーザからの操作入力に応じた操作信号を生成して制御部１０１に出力する。表示部１０５は、ＣＲＴ（Cathode Ray Tube）やＬＣＤよりなるディスプレイである。記憶部１０６は、例えばハードディスクやＤＶＤ（Digital Versatile Disc）からなり、制御部１０１が実行するプログラムや各種のデータを記録する。

コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図２０に示すように、外部記憶媒体１０８として構成される。外部記憶媒体１０８としては、上述した磁気ディスクのようなリムーバブルメディアの他に、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているメモリ１０２や、記憶部１０６なども含む。

プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部１０３を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。

なお、本明細書において、プログラム記録媒体に格納されるプログラムを記述する処理ステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）をも含むものである。

また、プログラムは、一つのコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。

音声信号の周波数成分を示す図であり、（ａ）は再生速度が１倍速である場合の例を示し、（ｂ）は再生速度が２０倍速である場合の例を示すものである。再生速度が２０倍速である場合の音声信号に対して、フィルタ処理を行った後の波形の例を示す図である。本発明の第１の実施の形態による音声信号処理装置の内部構成例を示すブロック図である。本発明の第１の実施の形態による音声処理部の内部構成例を示すブロック図である。本発明の第１の実施の形態によるＬＵＴの構成例を示す説明図である。本発明の第１の実施の形態にフィルタ係数の構成例を示す説明図である。本発明の第１の実施の形態による音声処理部の処理の例を示すフローチャートである。本発明の第１の実施の形態の他の実施例による音声処理部の内部構成例を示すブロック図である。本発明の第１の実施の形態の他の実施例によるＬＵＴの構成例を示す説明図である。本発明の第１の実施の形態の他の実施例による音声処理部の内部構成例を示すブロック図である。本発明の第１の実施の形態の他の実施例によるＬＵＴの構成例を示す説明図である。本発明の第１の実施の形態の他の実施例による音声ターゲット入力用ＧＵＩの構成例を示す説明図である。本発明の第２の実施の形態による音声処理部の内部構成例を示すブロック図である。本発明の第２の実施の形態による波形分類部の内部構成例を示すブロック図である。本発明の第２の実施の形態による定常度計算部の内部構成例を示すブロック図である。本発明の第２の実施の形態による定常度計算部による定常度の算出処理例を示すフローチャートである。本発明の第２の実施の形態による波形パターン算出部が有するＬＵＴの構成例を示す説明図である。本発明の第２の実施の形態による波形分類部の処理の例を示すフローチャートである。本発明の第２の実施の形態によるＬＵＴの構成例を示す説明図である。パーソナルコンピュータの構成例を示すブロック図である。再生速度と可聴音声の種類との関連性を示す説明図である。

符号の説明

１０…音声入力部、２０…符号化・復号処理部、３０…蓄積部、４０…制御部、５０…再生速度変更部、６０，６０Ａ，６０Ｂ，６０Ｃ…音声処理部、６１，６１Ａ，６１Ｂ，６１Ｃ…ＬＵＴ、６２…フィルタ、６３…ＦＦＴ処理部、６４…波形分類部、６４ａ…帯域分割部、６４ｂ−１〜６４ｂ−ｎ…定常度計算部、６４ｃ…波形パターン算出部、７０…音声出力部、７１…係数蓄積部、７２…定常性判定部

Claims

入力された音声信号の再生速度を変更する再生速度変更部と、
前記音声信号に適用するフィルタのフィルタ係数と、前記音声信号の再生速度との対応情報を記載した対応情報蓄積部と、
前記再生速度変更部から出力される音声信号の再生速度に対応するフィルタ係数を前記テーブルから抽出し、抽出した前記フィルタ係数を設定したフィルタを、前記再生速度変更部から出力された音声信号に適用する音声処理部と、
前記音声処理部で前記フィルタが適用された音声信号を出力する音声出力部とを備えたことを特徴とする
音声信号処理装置。
請求項１記載の音声信号処理装置において、
前記テーブルに記載された再生速度は、１倍速以上の速度であることを特徴とする
音声信号処理装置。
請求項２記載の音声信号処理装置において、
前記テーブルに記載されたフィルタ係数は、前記音声信号が当該フィルタ係数に対応する再生速度で再生された場合に、当該再生速度における音声信号の、人間の耳で認識しやすい周波数成分のみを通過させる値に設定されていることを特徴とする
音声信号処理装置。
請求項３記載の音声信号処理装置において、
前記音声処理部は、前記再生速度変更部で再生速度が変更された音声信号を周波数分析して、周波数帯毎の成分を示す係数を出力する周波数分析部を備え、
前記テーブルに記載されたフィルタ係数は、前記周波数帯毎の成分を示す係数の値と前記再生速度との組み合わせ毎に設けることを特徴とする
音声信号処理装置。
請求項３記載の音声信号処理装置において、
前記テーブルは、音声の種類を示す音声ターゲットの情報を含み、
前記音声ターゲットは、前記テーブルにおいて前記フィルタ係数と前記再生速度とに対応付けられていることを特徴とする
音声信号処理装置。
請求項５記載の音声信号処理装置において、
前記テーブルに記載の前記音声ターゲットを指定するための指示部を備え、
前記指示部により前記音声ターゲットの種類が指定された場合には、前記再生速度変更部は、前記入力された音声信号の再生速度を、前記テーブルにおいて前記指定された音声ターゲットと対応付けられている再生速度に変更し、前記音声処理部は、前記指定された音声ターゲットに対応付けられた前記フィルタ係数を抽出し、抽出した前記フィルタ係数に設定されたフィルタを、前記再生速度変更部から出力される音声信号に適用することを特徴とする
音声信号処理装置。
請求項３記載の音声信号処理装置において、
前記音声処理部は、前記再生速度変更部で再生速度が変更された音声信号を周波数分析して、前記音声信号を、音声信号の波形の種類毎に設けた複数の波形パターンのうち、特定の波形パターンに分類し、前記波形パターンを前記テーブルに出力する波形分類部とを有することを特徴とする
音声信号処理装置。
請求項７記載の音声信号処理装置において、
前記波形分類部は、前記再生速度変更部で再生速度が変更された音声信号の波形を所定数の周波数帯に分割する帯域分割部と、
前記帯域分割部で分割された各帯域における前記音声信号の定常度を算出する定常度計算部と、
前記帯域毎に設けられた定常度計算部で算出された各定常度に基づいて、前記音声信号の波形の波形パターンを特定する波形パターン算出部とを有することを特徴とする
音声信号処理装置。
請求項８記載の音声信号処理装置において、
前記定常度計算部は、前記再生速度変更部で再生速度が変更された音声信号を周波数分析して、周波数帯毎の成分を示す係数を出力する周波数分析部と、
前記周波数分析部から出力された係数を蓄積する係数蓄積部とを有し、
前記周波数分析部から出力された現在の係数と前記係数蓄積部に蓄積された１つ過去の係数との相関値を求め、前記相関値が所定の閾値以上であると判定された場合には、前記１つ過去の係数として抽出した係数と、さらに１つ過去の係数との相関値を求める処理を繰り返し、前記相関値が閾値以上であった場合の回数をカウントし、前記回数によって定常性の高さを判定することを特徴とする
音声信号処理装置。
請求項８記載の音声信号処理装置において、
前記波形パターン算出部は、前記複数の定常度計算部から出力された各定常度が所定の閾値以上であるか否かを判定し、前記判定結果に基づいて波形パターンの種類を特定することを特徴とする
音声信号処理装置。
請求項７記載の音声信号処理装置において、
前記テーブルに記載されたフィルタ係数は、前記波形パターンの種類に対応して設けられ、
前記音声処理部は、前記波形分類部で分類された波形パターンに基づいて、前記波形パターンと対応するフィルタ係数を前記テーブルより抽出することを特徴とする
音声信号処理装置。
請求項１記載の音声信号処理装置において、
前記再生速度変更部は、ユーザから指定された再生速度に基づいて音声信号の再生速度を変更し、変更した音声信号を出力することを特徴とする
音声信号処理装置。
入力された音声信号の再生速度を変更するステップと、
再生すべき再生速度に対応付けられた前記フィルタ係数を、前記音声信号に適用するフィルタのフィルタ係数と、前記音声信号の再生速度との対応情報を記載したテーブルから抽出して、前記フィルタ係数が設定されたフィルタを、前記再生速度が変更された音声信号に適用するステップと、
前記フィルタが適用された音声信号を出力するステップとを含むことを特徴とする
音声信号処理方法。
入力された音声信号の再生速度を変更するステップと、
再生すべき再生速度に対応付けられた前記フィルタ係数を、前記音声信号に適用するフィルタのフィルタ係数と、前記音声信号の再生速度との対応情報を記載したテーブルから抽出して、前記フィルタ係数が設定されたフィルタを、前記再生速度が変更された音声信号に適用するステップと、
前記フィルタが適用された音声信号を出力するステップとをコンピュータに実行させるための
プログラム。
入力された音声信号の再生速度を変更するステップと、
再生すべき再生速度に対応付けられた前記フィルタ係数を、前記音声信号に適用するフィルタのフィルタ係数と、前記音声信号の再生速度との対応情報を記載したテーブルから抽出して、前記フィルタ係数が設定されたフィルタを、前記再生速度が変更された音声信号に適用するステップと、
前記フィルタが適用された音声信号を出力するステップとをコンピュータに実行させるためのプログラムが記録されたコンピュータ読み取り可能な
記録媒体。