JP2008145841A - 再生装置、再生方法、信号処理装置、信号処理方法 - Google Patents
再生装置、再生方法、信号処理装置、信号処理方法 Download PDFInfo
- Publication number
- JP2008145841A JP2008145841A JP2006334411A JP2006334411A JP2008145841A JP 2008145841 A JP2008145841 A JP 2008145841A JP 2006334411 A JP2006334411 A JP 2006334411A JP 2006334411 A JP2006334411 A JP 2006334411A JP 2008145841 A JP2008145841 A JP 2008145841A
- Authority
- JP
- Japan
- Prior art keywords
- data
- speech
- amplitude
- control
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
【課題】話速変換処理をこれまでよりも速い速度で行う場合であっても、聞き取り易い状態で音声データを出力する。
【解決手段】分離された音声データのうち、発話データの開始部分の振幅を増加させ、非発話データの振幅を低下させ、それらを合成したものについて話速変換を施す。これにより、これまでよりも高い再生速度倍率での再生が可能となる。
【選択図】図2
【解決手段】分離された音声データのうち、発話データの開始部分の振幅を増加させ、非発話データの振幅を低下させ、それらを合成したものについて話速変換を施す。これにより、これまでよりも高い再生速度倍率での再生が可能となる。
【選択図】図2
Description
本発明は、再生装置として、特に音声データを高速で再生する際に、内容把握をし易くするための機能を備えた再生装置と、その方法とに関する。また、信号処理装置と、その方法とに関する。
例えばHDD(Hard Disc Drive)などの比較的大容量の記憶媒体を備えるビデオレコーダの普及により、映像などのコンテンツを多数記憶しておくことが可能とされている。近年では、ビデオレコーダとしても数百GB(ギガバイト)程度の容量を有するHDDを搭載したものも普及しており、そのようなビデオレコーダには、何十時間もの映像コンテンツが保存可能である。
このように多くのコンテンツを保存可能であることから、ビデオレコーダを用いた視聴スタイルとして、コンテンツを或る程度まとめて録り溜めしておき、それらを後でまとめて視聴するというスタイルが提案されている。
このように多くのコンテンツを保存可能であることから、ビデオレコーダを用いた視聴スタイルとして、コンテンツを或る程度まとめて録り溜めしておき、それらを後でまとめて視聴するというスタイルが提案されている。
但し、このようにまとめ録りしたコンテンツを視聴するといったとき、通常の再生速度でしか再生を行うことができないとすれば、再生に膨大な時間がかかってしまうことになる。そこで、ビデオレコーダには、いわゆる早聴きや早見などと呼ばれる倍速再生機能を備えるようにされたものがある。
この早聴き機能としては、映像が通常速度(1倍速)よりも速い速度で再生されるとともに、それに同期するようにして音声が出力される。このように早送りされる映像と同期した音声再生を実現させるためには、例えば間引き処理などにより音声データを部分的に削除して音声全体の区間を短くするという手法が採られている。この手法によれば、声の高さを変化させず、且つ映像と或る程度連動した音声の早送り再生を行うことができる。
この早聴き機能としては、映像が通常速度(1倍速)よりも速い速度で再生されるとともに、それに同期するようにして音声が出力される。このように早送りされる映像と同期した音声再生を実現させるためには、例えば間引き処理などにより音声データを部分的に削除して音声全体の区間を短くするという手法が採られている。この手法によれば、声の高さを変化させず、且つ映像と或る程度連動した音声の早送り再生を行うことができる。
なお、関連する従来技術については、以下の特許文献を挙げることができる。
特開2001−222300号公報
しかしながら、上記のようにして音声データを部分的に削除するという手法は、映像は早送りで再生される一方で、音声は通常の速度で再生されている状態で所々削除されて全体として短くなるだけであり、音声自体が早送りで再生されるというわけではない。そのため、再生速度倍率が高くなればなるほど、音声と映像との時間的なずれが発生しやすく映像と音声との同期がとりずらくなったり、また音声が細切りになり過ぎて内容の聞き取りや把握が行われにくくなるという欠点がある。
これらの点で、上記のような音声データを部分的に削除するという早聴きの手法を採用する現状では、再生速度倍率はおよそ1.5倍程度が限界とされている。
これらの点で、上記のような音声データを部分的に削除するという早聴きの手法を採用する現状では、再生速度倍率はおよそ1.5倍程度が限界とされている。
ここで、上述のようにしてまとめ録りしたコンテンツをより効率的に視聴するという観点からすると、再生速度倍率としてはより高く設定できるのが望ましい。
この点を考慮し、例えば上記特許文献1では、音声中の内容把握に重要とされる部分で逐次再生速度を下げるといった手法を提案しているが、この手法では再生速度を逐次変化させるための構成が複雑となるため、装置の大型化やコストアップにつながるといった問題がある。
この点を考慮し、例えば上記特許文献1では、音声中の内容把握に重要とされる部分で逐次再生速度を下げるといった手法を提案しているが、この手法では再生速度を逐次変化させるための構成が複雑となるため、装置の大型化やコストアップにつながるといった問題がある。
そこで本発明は、上記した問題点を考慮して、再生装置として以下のように構成することとした。
つまり、記憶媒体に記憶される音声データを再生する再生手段を備える。
また、上記再生手段により再生された音声データと所定の基準データとの類似度を算出した結果に基づき、発話データと非発話データとに分離する音声分析手段を備える。
また、上記音声分析手段により分離された非発話データの振幅を低下させて制御後非発話データを生成する非発話振幅制御手段を備える。
また、上記音声分析手段により分離された発話データの振幅を部分的に増加させて制御後発話データを生成する発話振幅制御手段を備える。
さらに、上記制御後非発話データと制御後発話データを合成し、合成後のデータに対し速度変換処理を施す話速変換手段とを備えることとした。
つまり、記憶媒体に記憶される音声データを再生する再生手段を備える。
また、上記再生手段により再生された音声データと所定の基準データとの類似度を算出した結果に基づき、発話データと非発話データとに分離する音声分析手段を備える。
また、上記音声分析手段により分離された非発話データの振幅を低下させて制御後非発話データを生成する非発話振幅制御手段を備える。
また、上記音声分析手段により分離された発話データの振幅を部分的に増加させて制御後発話データを生成する発話振幅制御手段を備える。
さらに、上記制御後非発話データと制御後発話データを合成し、合成後のデータに対し速度変換処理を施す話速変換手段とを備えることとした。
また、本発明では信号処理装置として以下のように構成することとした。
つまり、入力された音声データと所定の基準データとの類似度を算出した結果に基づき、上記音声データを発話データと非発話データとに分離する音声分析手段を備える。
また、上記音声分析手段により分離された非発話データの振幅を低下させて制御後非発話データを生成する非発話振幅制御手段を備える。
また、上記音声分析手段により分離された発話データの振幅を部分的に増加させて制御後発話データを生成する発話振幅制御手段を備える。
さらに、上記制御後非発話データと制御後発話データを合成し、合成後のデータに対し速度変換処理を施す話速変換手段を備えることとした。
つまり、入力された音声データと所定の基準データとの類似度を算出した結果に基づき、上記音声データを発話データと非発話データとに分離する音声分析手段を備える。
また、上記音声分析手段により分離された非発話データの振幅を低下させて制御後非発話データを生成する非発話振幅制御手段を備える。
また、上記音声分析手段により分離された発話データの振幅を部分的に増加させて制御後発話データを生成する発話振幅制御手段を備える。
さらに、上記制御後非発話データと制御後発話データを合成し、合成後のデータに対し速度変換処理を施す話速変換手段を備えることとした。
上記構成によれば、入力された音声データのうち、発話データの振幅を部分的に上げ、非発話データの振幅を下げたうえで、両者を合成する。このようにすることで、再生速度を上げた場合にも、発話データの部分的な振幅増加により、ユーザの注意が喚起され易くなり、その結果として発話データがより聞き取り易い状態となる。
このようにして本発明では、発話データの振幅が部分的に増加されて発話部分がより注意喚起されやすくなるので、より速い再生速度倍率とした場合にも、再生されるコンテンツの内容がより把握されやすくすることができる。つまりこれにより、本発明では従来以上の再生速度倍率での再生が可能となる。
以下、発明を実施するための最良の形態(以下実施の形態とする)について説明していく。
図1は、本発明の実施の形態としての再生装置1の内部構成を示したブロック図である。
図1は、本発明の実施の形態としての再生装置1の内部構成を示したブロック図である。
この再生装置1において、システムコントローラ2は、例えばCPU(Central Processing Unit )、ROM(Read Only Memory)、RAM(Random Access Memory)等を備えたマイクロコンピュータで構成され、起動されたプログラムや操作入力に応じて、例えば映像及び音声の再生制御など、再生装置1の全体制御を行う。
なお、再生装置1においては、上記システムコントローラ2、及び後述するHDD4、デコーダ5、信号処理部6の各部は、図示するようにバス18を介して接続されており、このバス18を介して各部との間でコマンドやデータのやりとりを行うことが可能とされる。
なお、再生装置1においては、上記システムコントローラ2、及び後述するHDD4、デコーダ5、信号処理部6の各部は、図示するようにバス18を介して接続されており、このバス18を介して各部との間でコマンドやデータのやりとりを行うことが可能とされる。
操作部3は、再生装置1において設けられる各種の操作子と、これらの操作子に対して行われた操作に応じた操作信号をシステムコントローラ2に出力する部位とを一括して示している。この場合、操作部3の操作子としては、通常再生ボタンや早送りボタンが備えられており、それらのボタンが操作されることで映像や音声の通常再生や早送り動作が行われる。なお、この場合の操作部3は、リモートコントローラからのコマンド信号を受信する部分とすることもできる。
ここで、操作部3に設けられている上記通常再生ボタンが操作された場合には、それに応じた操作信号がシステムコントローラ2に供給されるが、その操作信号に応じ、システムコントローラ2は信号処理部6に対して通常再生を指示するための制御信号cntを送信する。また、操作部3に設けられている上記早送りボタンに応じた操作信号が供給された場合には、システムコントローラ2は信号処理部6に対して早送りを指示するための制御信号cntを送信する。
HDD(Hard Disc Drive)4は、システムコントローラ2が実行する各種プログラムがインストールされるようにして記憶される他、再生装置1において再生される映像及び音声等のコンテンツ情報も保存される。
デコーダ5は、HDD4から読み出された所定の圧縮符号化方式により圧縮符号化された映像及び音声についての復号化処理を行う。
なお、実際には映像についての処理も行われるが、以降は音声の処理が中心となるため、映像についての説明は省略する。
デコーダ5は、HDD4から読み出された所定の圧縮符号化方式により圧縮符号化された映像及び音声についての復号化処理を行う。
なお、実際には映像についての処理も行われるが、以降は音声の処理が中心となるため、映像についての説明は省略する。
信号処理部6は、デコーダ5から供給される音声信号に対するゲイン調整や残響付加などの音声信号処理を実行するために構成される。
特に本実施の形態の場合は、デコーダ5から供給される音声データについて、話速変換処理を行うようにされる。なお、話速変換処理の詳細については、後述する。
アンプ7には、信号処理部6から出力される音声データが入力され、これを増幅して図示する出力端子Toutに供給する。
特に本実施の形態の場合は、デコーダ5から供給される音声データについて、話速変換処理を行うようにされる。なお、話速変換処理の詳細については、後述する。
アンプ7には、信号処理部6から出力される音声データが入力され、これを増幅して図示する出力端子Toutに供給する。
図2は、再生装置1における信号処理部6の内部構成例を示している。
先ず、スイッチ21は、信号処理部6に入力された音声データを振り分ける。
すなわち、システムコントローラ2からスイッチ21に対して早送りを指示する制御信号cntが送信された場合には、スイッチ21は入力された音声データを音声分析部22に出力する。一方、システムコントローラ2から通常再生を指示する制御信号cntが送信された場合には、スイッチ21は入力された音声データを音声分析部22を経由せずにそのまま出力する。
先ず、スイッチ21は、信号処理部6に入力された音声データを振り分ける。
すなわち、システムコントローラ2からスイッチ21に対して早送りを指示する制御信号cntが送信された場合には、スイッチ21は入力された音声データを音声分析部22に出力する。一方、システムコントローラ2から通常再生を指示する制御信号cntが送信された場合には、スイッチ21は入力された音声データを音声分析部22を経由せずにそのまま出力する。
音声分析部22は、スイッチ21から出力された音声データを非発話データと発話データとに分離する。
すなわち、音声データには、内容把握に重要な発話データと、内容把握に重要でない非発話データ(無音部分や背景音を含む)が含まれているため、音声分析部22はそれぞれの分離を行う。
入力された音声データの発話データと非発話データの分離は、音声データと基準データを照合し、両者の類似度を算出することによって行われる。この場合の基準データとは、一例として予め複数の発話データの解析を行った結果から生成された発話データについての特徴ベクトルである。
音声分析部22には上記基準データがデータベースとして格納されており、発話データと非発話データを分離する際には、入力される音声データと基準データを照合して、基準データとの類似度が高いものは発話データ、類似度が低いものは非発話データであるというように分離する。
すなわち、音声データには、内容把握に重要な発話データと、内容把握に重要でない非発話データ(無音部分や背景音を含む)が含まれているため、音声分析部22はそれぞれの分離を行う。
入力された音声データの発話データと非発話データの分離は、音声データと基準データを照合し、両者の類似度を算出することによって行われる。この場合の基準データとは、一例として予め複数の発話データの解析を行った結果から生成された発話データについての特徴ベクトルである。
音声分析部22には上記基準データがデータベースとして格納されており、発話データと非発話データを分離する際には、入力される音声データと基準データを照合して、基準データとの類似度が高いものは発話データ、類似度が低いものは非発話データであるというように分離する。
より具体的に言うと、音声分析部22は、上記データベースに蓄積された基準データと入力された音声データについて、例えば数十msecの単位などの周期で両者の類似度を逐次算出して、発話データと非発話データとに分離する。
このとき、発話データ後の非発話データの長さがあまりに短い場合には、その非発話区間をそのまま非発話区間として扱うのは妥当ではない。すなわち、一般的に考えて発話区間は発話としての音声が常時連続して構成されるものではないから、その間の非常に短い非発話区間を分離してしまっては、本来期待される発話区間を抽出することはできない。そこで音声分析部22では、上記類似度の計算で検出された発話データ後の所定長以下の非発話データ区間については、発話データ中に含めるようにして発話データと非発話データとの分離を行う。
音声分析部22は、このような動作によって分離した非発話データを非発話振幅制御部23へと出力し、発話データを発話振幅制御部24及びピッチ変換部25へと出力する。
このとき、発話データ後の非発話データの長さがあまりに短い場合には、その非発話区間をそのまま非発話区間として扱うのは妥当ではない。すなわち、一般的に考えて発話区間は発話としての音声が常時連続して構成されるものではないから、その間の非常に短い非発話区間を分離してしまっては、本来期待される発話区間を抽出することはできない。そこで音声分析部22では、上記類似度の計算で検出された発話データ後の所定長以下の非発話データ区間については、発話データ中に含めるようにして発話データと非発話データとの分離を行う。
音声分析部22は、このような動作によって分離した非発話データを非発話振幅制御部23へと出力し、発話データを発話振幅制御部24及びピッチ変換部25へと出力する。
なお、上記のようにして発話データと非発話データの両者を分離する方法については、例えば「環境音モデルを用いた頑健な音声認識に関する研究(0221036) 山田武志 筑波大学大学院システム情報工学研究科」にも記載されている。
図3は、音声分析部22による分離後の音声データの波形を時間軸上で示している。なお、この図3をはじめとして、後で説明する図4、図5、図7の時間軸上での波形を示す図では、それぞれ音声データ中の同じ期間を示しているとする。
図3(a)では分離された音声データのうちの非発話データの波形を示しており、図3(b)では分離された音声データのうちの発話データの波形を示している。
先ず図3(a)では、最初と最後の部分に振幅が現れており、真中の大部分は空白となっている。これは、入力された音声データのうちの最初と最後だけが非発話データとなっており、発話データが音声分析部22によって抜き出されていることを示している。
また図3(b)では逆に、最初と最後の部分を除き、真中の部分に振幅が現れている。これは、入力された音声データのうちの真中あたりが発話データとなっており、非発話データが音声分析部22によって抜き出されていることを意味している。
先ず図3(a)では、最初と最後の部分に振幅が現れており、真中の大部分は空白となっている。これは、入力された音声データのうちの最初と最後だけが非発話データとなっており、発話データが音声分析部22によって抜き出されていることを示している。
また図3(b)では逆に、最初と最後の部分を除き、真中の部分に振幅が現れている。これは、入力された音声データのうちの真中あたりが発話データとなっており、非発話データが音声分析部22によって抜き出されていることを意味している。
説明を図2に戻す。
非発話振幅制御部23は、音声分析部22によって分離された非発話データの振幅を低下させて、制御後非発話データを生成する。すなわち、内容把握の際に聞き取りやすくする必要があるのは発話データであるため、内容把握には特に必要がない非発話データについては入力されたときよりも振幅を低下させて、発話データを遮ることがないようにしている。
そして、非発話振幅制御部23は、生成した制御後非発話データを、話速変換部26へと出力する。
非発話振幅制御部23は、音声分析部22によって分離された非発話データの振幅を低下させて、制御後非発話データを生成する。すなわち、内容把握の際に聞き取りやすくする必要があるのは発話データであるため、内容把握には特に必要がない非発話データについては入力されたときよりも振幅を低下させて、発話データを遮ることがないようにしている。
そして、非発話振幅制御部23は、生成した制御後非発話データを、話速変換部26へと出力する。
上記非発話振幅制御部23によって振幅が制御された波形を図4(a)に示す。図において、振幅制御後の非発話データの振幅は、先の図3(a)に示した振幅制御前の非発話データの振幅よりも、全ての時点において一律に低下している。
また図2において、発話振幅制御部24は、音声分析部22によって分離された発話データの振幅を部分的に増加させて、制御後発話データを生成する。すなわち、振幅を区間全体に渡り一律に増加させると、メリハリがなくなるため注意を喚起することができなくなってしまうので、部分的に振幅を増加させる。
本実施の形態の場合、このように発話データの振幅を部分的に増加させるにあたっては、発話データの開始部分の振幅を増加させることとしている。これは、開始部分で振幅を増加させたときが、聴覚上一番聞き取り易い、という実験結果が得られたことによる。
本実施の形態の場合、このように発話データの振幅を部分的に増加させるにあたっては、発話データの開始部分の振幅を増加させることとしている。これは、開始部分で振幅を増加させたときが、聴覚上一番聞き取り易い、という実験結果が得られたことによる。
ここで、発話振幅制御部24において発話データの振幅を増加させる際に乗算されるゲイン係数の一例を図5に示す。
図示するように、この場合のゲイン係数としては、発話データの開始部分と終了部分に合致するように区間を区切り、開始部分の振幅が増加し、終了部分へと進むにつれて次第に振幅が低下するように設定する。
図示するように、この場合のゲイン係数としては、発話データの開始部分と終了部分に合致するように区間を区切り、開始部分の振幅が増加し、終了部分へと進むにつれて次第に振幅が低下するように設定する。
上記発話振幅制御部24によって振幅が制御された波形を図4(b)に示す。図において、振幅制御後の発話データの振幅は、先の図3(b)に示した振幅制御前の発話データの振幅よりも大きくなっていることが確認できる。
本実施の形態では、特に発話データの開始の部分の振幅を増加させるため、開始部分に近いほど振幅の増加率が高くなり、開始部分から遠ざかるに従って次第に振幅の増加率が低下していることがわかる。なお、図中の開始部分の一部において、発話データの振幅が小さくなっている箇所が見られるが、これはもとの信号の振幅が小さいからである。
本実施の形態では、特に発話データの開始の部分の振幅を増加させるため、開始部分に近いほど振幅の増加率が高くなり、開始部分から遠ざかるに従って次第に振幅の増加率が低下していることがわかる。なお、図中の開始部分の一部において、発話データの振幅が小さくなっている箇所が見られるが、これはもとの信号の振幅が小さいからである。
図2に戻り、ピッチ変換部25は、音声分析部22によって分離された発話データについてピッチ変換処理を施し、ピッチ変換データを生成する。このピッチ変換処理は、発話部分が背景音によってマスキングされやすい状況下であったとしても、発話部分を聞き取りやすいようにするために行う。
図6は、ピッチ変換部によるピッチ変換処理を模式的に示しており、ここでは周波数軸上での波形を示している。
図6(a)は、音声分析部22によって分離され、ピッチ変換部25に入力された発話データの波形を周波数軸上で示している。発話データの波形は、図示するように、ほぼ一定の周波数間隔でピークが現れる。
ピッチ変換部25は、図6(a)の波形に対して、図6(b)に示すようにそのピッチを変換する。ここでは、一例としてピッチを2倍に広げている。このように、ピッチ変換部25がピッチ変換を行うことにより、音程を高くすることができる。
そして、ピッチ変換部25は、もとの発話データ図6(a)と、図6(b)に示すようなピッチ変換後の発話データを合成し、さらに振幅を低下させる。このようにして得られたピッチ変換データの波形を、図6(c)に示す。この図によれば、1周期おきに振幅が高くなっており、もとのピッチの奇数倍音成分が強調されていることが確認できる。
このように、もとの発話データの波形にピッチの間隔を広げて音を高くした波形を合成することにより、背景音に隠れて聞き取りにくかった発話データを、聞き取りやすくすることができる。
このようにピッチを変換し、また振幅を制御したピッチ変換データを、ピッチ変換部25は話速変換部26へと出力する。
図6(a)は、音声分析部22によって分離され、ピッチ変換部25に入力された発話データの波形を周波数軸上で示している。発話データの波形は、図示するように、ほぼ一定の周波数間隔でピークが現れる。
ピッチ変換部25は、図6(a)の波形に対して、図6(b)に示すようにそのピッチを変換する。ここでは、一例としてピッチを2倍に広げている。このように、ピッチ変換部25がピッチ変換を行うことにより、音程を高くすることができる。
そして、ピッチ変換部25は、もとの発話データ図6(a)と、図6(b)に示すようなピッチ変換後の発話データを合成し、さらに振幅を低下させる。このようにして得られたピッチ変換データの波形を、図6(c)に示す。この図によれば、1周期おきに振幅が高くなっており、もとのピッチの奇数倍音成分が強調されていることが確認できる。
このように、もとの発話データの波形にピッチの間隔を広げて音を高くした波形を合成することにより、背景音に隠れて聞き取りにくかった発話データを、聞き取りやすくすることができる。
このようにピッチを変換し、また振幅を制御したピッチ変換データを、ピッチ変換部25は話速変換部26へと出力する。
図4(c)は、図6(c)で合成した、ピッチ変換後の発話データの波形を、時間軸上で示した図である。
上記のようにしてピッチ変換部25では、合成後の波形について振幅を低下させるので、先の図3(b)に示した波形と比較すると、全体的に振幅が低下したものとなることがわかる。
上記のようにしてピッチ変換部25では、合成後の波形について振幅を低下させるので、先の図3(b)に示した波形と比較すると、全体的に振幅が低下したものとなることがわかる。
図2に戻り、話速変換部26は、非発話振幅制御部23によって生成された制御後非発話データ、発話振幅制御部24によって生成された制御後発話データ、そしてピッチ変換部25によって生成されたピッチ変換データを合成し、さらに合成したデータを所定の話速(一例としては、2倍速)に変換して出力する。
ここで、話速変換を行う際には、例えば間引き処理として、音声データを部分的に削除する処理を行う。
ここで、話速変換を行う際には、例えば間引き処理として、音声データを部分的に削除する処理を行う。
話速変換部26で合成された、話速変換前の波形を、図7で説明する。
図7に示す波形は、制御後非発話データ、制御後発話データ、ピッチ変換データそれぞれの波形を合成したものである。この図によれば、非発話部分の振幅に対し、発話部分の振幅が相対的に増加していることがわかる。
図7に示す波形は、制御後非発話データ、制御後発話データ、ピッチ変換データそれぞれの波形を合成したものである。この図によれば、非発話部分の振幅に対し、発話部分の振幅が相対的に増加していることがわかる。
このように、本実施の形態としての話速変換処理は、入力された音声データのうちの発話データの振幅を部分的に増加させつつ、非発話データの振幅を低下させて、両者を合成する。
具体的には、発話データについてはその開始部分の振幅を増加させることとしている。これにより、話速変換された場合にも、発話データの開始部分をより聞き取り易くして、より注意を喚起することができる。その結果、従来よりも速い速度での倍速再生とした場合にも、聞き取りを可能とすることができる。
具体的には、発話データについてはその開始部分の振幅を増加させることとしている。これにより、話速変換された場合にも、発話データの開始部分をより聞き取り易くして、より注意を喚起することができる。その結果、従来よりも速い速度での倍速再生とした場合にも、聞き取りを可能とすることができる。
さらに本実施の形態では、最終的に話速変換にかける音声データに対し、ピッチ変換データを合成するものとしているが、これにより、背景音に隠れて聞き取りにくかった発話データを聞き取り易くすることができる。
なお、ここまでの説明では、本実施の形態としての話速変換処理動作が、先の図2に示したようなハードウェア構成により実現される場合を例示したが、本実施の形態の話速変換動作としてはソフトウェア処理によっても実現することができる。つまり、信号処理部6としては、例えばCPUやメモリを備えた演算処理部で構成することができ、この演算処理部のソフトウェア処理により上述した実施の形態としての話速変換動作を実現するものである。
この場合において実行されるべき処理動作を、次の図8のフローチャートに示す。
なお、この図に示す処理動作は、上述のような信号処理部6としての演算処理部が、例えば上記メモリ内に格納されるプログラムに従って実行するものである。
先ず、ステップS101では、倍速再生か否かを判別する。そして、倍速再生でないと判別した場合には、ステップS108へと処理を進め、そのまま通常再生として音声データを出力する。
一方、ステップS101において、倍速再生であると判別した場合には、ステップS102へと処理を進め、入力された音声データの分析を行う。すなわち、データベースに保存されている特徴ベクトル(基準データ)をもとにして、音声データを発話データと非発話データとして分離する。
なお、この図に示す処理動作は、上述のような信号処理部6としての演算処理部が、例えば上記メモリ内に格納されるプログラムに従って実行するものである。
先ず、ステップS101では、倍速再生か否かを判別する。そして、倍速再生でないと判別した場合には、ステップS108へと処理を進め、そのまま通常再生として音声データを出力する。
一方、ステップS101において、倍速再生であると判別した場合には、ステップS102へと処理を進め、入力された音声データの分析を行う。すなわち、データベースに保存されている特徴ベクトル(基準データ)をもとにして、音声データを発話データと非発話データとして分離する。
ステップS103では、非発話データの振幅を低下させる。すなわち、先のステップS102において分離された非発話データの振幅を低下させて、制御後非発話データを生成する。
また、ステップS104では、発話データの振幅を増加させる。すなわち、先のステップS102において分離された発話データの振幅を増加させて、制御後発話データを生成する。
また、ステップS104では、発話データの振幅を増加させる。すなわち、先のステップS102において分離された発話データの振幅を増加させて、制御後発話データを生成する。
ステップS105では、ステップS102で分離した発話データのピッチ変換を行う。すなわち、先のステップS102で分離した発話データについて、ピッチを変換し、これをもとの発話データの波形と合成したうえで振幅を低下させることにより、ピッチ変換データを生成する。
そして、ステップS106では、非発話データ、発話データ、ピッチ変換データの3者を合成する。つまり、ステップS103で生成した制御後非発話データ、ステップS104で生成した制御後発話データ、さらにステップS105で生成したピッチ変換データを合成する。
次のステップS107では、所定の話速に変換する。すなわち、ステップS106で合成したデータを、例えば間引き処理を行うことで、所定の話速に変換する。
そして、ステップS106では、非発話データ、発話データ、ピッチ変換データの3者を合成する。つまり、ステップS103で生成した制御後非発話データ、ステップS104で生成した制御後発話データ、さらにステップS105で生成したピッチ変換データを合成する。
次のステップS107では、所定の話速に変換する。すなわち、ステップS106で合成したデータを、例えば間引き処理を行うことで、所定の話速に変換する。
さらに、ステップS108では、音声データを出力する。すなわち、ステップS107で所定の話速に変換された音声データを出力する。
以上、本発明の実施の形態について説明したが、本発明としてはこれまでに説明した実施の形態に限定されるべきものではない。
例えば実施の形態では、先の図8のフローチャートによれば、非発話データについての振幅制御、発話データについての振幅制御、ピッチ変換の順番で処理を実行することとしたが、これらは独立した処理であるために、処理の順番を変更することとしてもよい。
例えば実施の形態では、先の図8のフローチャートによれば、非発話データについての振幅制御、発話データについての振幅制御、ピッチ変換の順番で処理を実行することとしたが、これらは独立した処理であるために、処理の順番を変更することとしてもよい。
また、ゲイン係数としては、図5に示したように直線的に低下させるのではなく、一例として階段状に低下させることとしてもよいし、開始部分のみの振幅を増加させて、その他の残りの部分については振幅制御を行わないようにしてもよい。
また、先の説明では、ピッチ変換を実行する際に、ピッチを2倍に広げて変換前の波形に合成することとしたが、ピッチ変換の倍率としては、2倍以外の値を採ることとしてもよい。
また、本発明では話速変換を間引き処理によって行うこととしたが、話速変換の手法としては、間引き処理に限定されない。
また、本発明では話速変換を間引き処理によって行うこととしたが、話速変換の手法としては、間引き処理に限定されない。
また、実施の形態では、本発明の記録再生装置が、映像と音声がともに再生可能である再生装置として構成される場合を例示したが、本発明の再生装置としては、音声のみの再生が可能である再生装置に対しても好適に適用することができる。また、再生と共に記録も可能な記録再生装置にも適用できる。
また、音声データの出力源としては、HDD以外のCD(Compact Disc)やDVD(Digital Versatile Disc)などのメディアであってもよい。
なお、本実施の形態では、話速変換処理として間引き処理を採用する場合を例示したが、単に再生速度倍率に応じた固定周期で音声データを間引く処理を行った場合には、聞き取りのために振幅を上げたところでデータが削除されてしまうといった事態が起こりかねない。
例えば、実施の形態のように発話部分の主に開始部分で振幅を増加させる場合、発話データ/非発話データの分離を行う音声分析部22が発話データの開始部分の情報を把握することができるので、その情報を利用して話速変換部26が間引き位置を可変的に設定すればよい。具体的にその場合、音声分析部22は、話速変換部26に対して分離した発話データの開始部分の情報を逐次供給する。そして、話速変換部26は、このように音声分析部22から供給される開始部分の情報に基づき、音声データ中のその情報で示される期間以外を対象として、間引き処理を行う。このように構成すれば、聞き取りのために振幅を増加させた部分で間引きが行われてしまうといったことを効果的に防止することができる。
また、音声と映像との多少のずれが許容される場合では、間引き処理を非発話部分に対してより多く行うことにより、聞き取りに重要な発話部分での間引きを減らすことができる。
例えば、実施の形態のように発話部分の主に開始部分で振幅を増加させる場合、発話データ/非発話データの分離を行う音声分析部22が発話データの開始部分の情報を把握することができるので、その情報を利用して話速変換部26が間引き位置を可変的に設定すればよい。具体的にその場合、音声分析部22は、話速変換部26に対して分離した発話データの開始部分の情報を逐次供給する。そして、話速変換部26は、このように音声分析部22から供給される開始部分の情報に基づき、音声データ中のその情報で示される期間以外を対象として、間引き処理を行う。このように構成すれば、聞き取りのために振幅を増加させた部分で間引きが行われてしまうといったことを効果的に防止することができる。
また、音声と映像との多少のずれが許容される場合では、間引き処理を非発話部分に対してより多く行うことにより、聞き取りに重要な発話部分での間引きを減らすことができる。
1 再生装置、21 スイッチ、22 音声分析部、23 非発話振幅制御部、24 発話振幅制御部、25 ピッチ変換部、26 話速変換部
Claims (8)
- 記憶媒体に記憶される音声データを再生する再生手段と、
上記再生手段により再生された音声データと所定の基準データとの類似度を算出した結果に基づき、発話データと非発話データとに分離する音声分析手段と、
上記音声分析手段により分離された非発話データの振幅を低下させて制御後非発話データを生成する非発話振幅制御手段と、
上記音声分析手段により分離された発話データの振幅を部分的に増加させて制御後発話データを生成する発話振幅制御手段と、
上記制御後非発話データと制御後発話データを合成し、合成後のデータに対し速度変換処理を施す話速変換手段と、
を備えることを特徴とする再生装置。 - 上記音声分析手段により分離された発話データに対して、所定の比率で周波数のピッチを変更することによりピッチ変換データを生成するピッチ変換手段をさらに備えるとともに、
上記話速変換手段は、上記ピッチ変換データを上記制御後非発話データと上記制御後発話データとともに合成して速度変換処理を施す、
ことを特徴とする請求項1に記載の再生装置。 - 上記発話振幅制御手段は、上記発話データの開始部分の振幅を増加させることを特徴とする請求項1に記載の再生装置。
- 上記発話振幅制御手段は、発話データの開始部分の振幅を増加させるとともに、さらに発話データの終了時点へと進むにつれて次第に振幅を低下させることを特徴とする請求項1に記載の再生装置。
- 上記所定の基準データは、予め複数の発話データについて解析を行った結果から生成された発話データについての特徴ベクトルであることを特徴とする請求項1に記載の再生装置。
- 記憶媒体に記憶される音声データを再生する再生手順と、
上記再生手順により再生した音声データと所定の基準データとの類似度を算出した結果に基づき、発話データと非発話データとに分離する音声分析手順と、
上記音声分析手順により分離した非発話データの振幅を低下させて制御後非発話データを生成する非発話振幅制御手順と、
上記音声分析手順により分離した発話データの振幅を部分的に増加させて制御後発話データを生成する発話振幅制御手順と、
上記制御後非発話データと制御後発話データを合成し、合成後のデータに対し速度変換処理を施す話速変換手順と、
を備えることを特徴とする再生方法。 - 入力された音声データと所定の基準データとの類似度を算出した結果に基づき、上記音声データを発話データと非発話データとに分離する音声分析手段と、
上記音声分析手段により分離された非発話データの振幅を低下させて制御後非発話データを生成する非発話振幅制御手段と、
上記音声分析手段により分離された発話データの振幅を部分的に増加させて制御後発話データを生成する発話振幅制御手段と、
上記制御後非発話データと制御後発話データを合成し、合成後のデータに対し速度変換処理を施す話速変換手段と、
を備えることを特徴とする信号処理装置。 - 入力された音声データと所定の基準データとの類似度を算出した結果に基づき、上記音声データを発話データと非発話データとに分離する音声分析手順と、
上記音声分析手順により分離した非発話データの振幅を低下させて制御後非発話データを生成する非発話振幅制御手順と、
上記音声分析手順により分離した発話データの振幅を部分的に増加させて制御後発話データを生成する発話振幅制御手順と、
上記制御後非発話データと制御後発話データを合成し、合成後のデータに対し速度変換処理を施す話速変換手順と、
を備えることを特徴とする信号処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006334411A JP2008145841A (ja) | 2006-12-12 | 2006-12-12 | 再生装置、再生方法、信号処理装置、信号処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006334411A JP2008145841A (ja) | 2006-12-12 | 2006-12-12 | 再生装置、再生方法、信号処理装置、信号処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008145841A true JP2008145841A (ja) | 2008-06-26 |
Family
ID=39606077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006334411A Pending JP2008145841A (ja) | 2006-12-12 | 2006-12-12 | 再生装置、再生方法、信号処理装置、信号処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008145841A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011170261A (ja) * | 2010-02-22 | 2011-09-01 | Oki Electric Industry Co Ltd | 音声強調装置及び音声強調プログラム |
JP2014228691A (ja) * | 2013-05-22 | 2014-12-08 | 日本電気株式会社 | 航空管制用音声通信装置および音声処理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0527792A (ja) * | 1991-07-22 | 1993-02-05 | Nippon Telegr & Teleph Corp <Ntt> | 音声強調装置 |
JPH07104788A (ja) * | 1993-10-06 | 1995-04-21 | Technol Res Assoc Of Medical & Welfare Apparatus | 音声強調処理装置 |
JP2005064745A (ja) * | 2003-08-08 | 2005-03-10 | Yamaha Corp | 聴覚補助装置 |
-
2006
- 2006-12-12 JP JP2006334411A patent/JP2008145841A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0527792A (ja) * | 1991-07-22 | 1993-02-05 | Nippon Telegr & Teleph Corp <Ntt> | 音声強調装置 |
JPH07104788A (ja) * | 1993-10-06 | 1995-04-21 | Technol Res Assoc Of Medical & Welfare Apparatus | 音声強調処理装置 |
JP2005064745A (ja) * | 2003-08-08 | 2005-03-10 | Yamaha Corp | 聴覚補助装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011170261A (ja) * | 2010-02-22 | 2011-09-01 | Oki Electric Industry Co Ltd | 音声強調装置及び音声強調プログラム |
JP2014228691A (ja) * | 2013-05-22 | 2014-12-08 | 日本電気株式会社 | 航空管制用音声通信装置および音声処理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2007132690A1 (ja) | 音声データ要約再生装置、音声データ要約再生方法および音声データ要約再生用プログラム | |
JP2000511651A (ja) | 記録されたオーディオ信号の非均一的時間スケール変更 | |
EP1483908B1 (en) | Audio frequency scaling during video trick modes utilizing digital signal processing | |
JP2009063714A (ja) | オーディオ再生装置およびオーディオ早送り再生方法 | |
JP2008145841A (ja) | 再生装置、再生方法、信号処理装置、信号処理方法 | |
JP2005044409A (ja) | 情報再生装置、情報再生方法および情報再生プログラム | |
JP2009075280A (ja) | コンテンツ再生装置 | |
JPWO2009090705A1 (ja) | 記録再生装置 | |
JP4542805B2 (ja) | 変速再生方法及び装置、並びにプログラム | |
JP4130927B2 (ja) | 音響再生装置 | |
JP4588626B2 (ja) | 楽曲再生装置、再生制御方法、および、プログラム | |
JP2001222300A (ja) | 音声再生装置および記録媒体 | |
JP2001296892A (ja) | 再生装置 | |
JP2002116784A (ja) | 情報信号処理装置、情報信号処理方法、情報信号記録再生装置及び情報信号記録媒体 | |
JP4537490B2 (ja) | オーディオ再生装置およびオーディオ早送り再生方法 | |
JP2006243128A (ja) | 再生装置及び再生方法 | |
JP4529859B2 (ja) | 音声再生装置 | |
JP2005204003A (ja) | 連続メディアデータ高速再生方法、複合メディアデータ高速再生方法、多チャンネル連続メディアデータ高速再生方法、映像データ高速再生方法、連続メディアデータ高速再生装置、複合メディアデータ高速再生装置、多チャンネル連続メディアデータ高速再生装置、映像データ高速再生装置、プログラム、および、記録媒体 | |
JPH09146587A (ja) | 話速変換装置 | |
JP4433954B2 (ja) | 情報処理装置および方法、並びにプログラム | |
JP6182894B2 (ja) | 音響処理装置および音響処理方法 | |
JP6149514B2 (ja) | サーチ機能を備えるデジタル信号処理装置 | |
JP2005275149A (ja) | 楽曲情報編集装置 | |
JPH06202691A (ja) | 音声情報再生速度制御方法 | |
JP6181921B2 (ja) | 音声再生装置および音声合成再生装置ならびにこれらのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091118 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110620 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110628 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20111025 |