JP2005148307A - 話速変換装置、話速変換方法、プログラム及び記録媒体 - Google Patents
話速変換装置、話速変換方法、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP2005148307A JP2005148307A JP2003384097A JP2003384097A JP2005148307A JP 2005148307 A JP2005148307 A JP 2005148307A JP 2003384097 A JP2003384097 A JP 2003384097A JP 2003384097 A JP2003384097 A JP 2003384097A JP 2005148307 A JP2005148307 A JP 2005148307A
- Authority
- JP
- Japan
- Prior art keywords
- speech speed
- speech
- speed
- search
- speed conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 検索機能と、音程を変えずに音声の速度を変えることができる話速変換機能とを組み合わせて、検索結果部分の話速変換速度とその他の部分の話速変換速度とを変えることにより、聴取効果を高めることができる話速変換装置を提供する。
【解決手段】 コンテンツデータ4をコンテンツデータ入力部に入力し(S1)、そのコンテンツデータに対して検索処理を行い(S2)、検索された部分の話速を速く、または、遅くする処理を行い(S3)、コンテンツ出力部に変換後コンテンツを出力する(S4)。
【選択図】 図2
【解決手段】 コンテンツデータ4をコンテンツデータ入力部に入力し(S1)、そのコンテンツデータに対して検索処理を行い(S2)、検索された部分の話速を速く、または、遅くする処理を行い(S3)、コンテンツ出力部に変換後コンテンツを出力する(S4)。
【選択図】 図2
Description
本発明は、話速変換装置に関し、さらに詳しくは、コンテンツの特定部分を検索して話速変換する装置及び方法に関するものである。
講演等を記録したマルチメディアコンテンツを聴取するとき、内容を理解しつつ短時間で聴取したいという要求がある。このような要求に応えるために、ピッチを変えずに話速のみを変える話速変換技術が従来から用いられている。しかしながら、話速変換技術を用いてコンテンツ全体の話速を速くしてしまうと、重要で正確に聞きたい部分も早口で再生されるため聞き難くなってしまう。また、音が小さくて聞き難い部分も速く再生されて余計に聞き難くなってしまうといった問題がある。
また、逆に外国語のマルチメディアコンテンツに対しては、話速を遅くして聞き易くする方法が考えられるが、全体の聴取時間が延びてしまい、話と話の間のポーズが間延びして聞き難くなるという問題がある。
これらの課題を解決するための従来技術として、特開平11−202890号公報には、重要性の高いキーワードを指定し、そのキーワードでワードスポッティングによる音声検索を行う技術が開示されている。
また特開2002−297131公報には、曲の一部を音声で入力することによって曲を検索し、検索した曲の販売を行う曲検索システムについて開示されている。
また特開2000−285141公報には、画像検索を検索部に利用して、映像中の重要な部分を検出する技術が開示されている。
特開平11−202890号公報
特開2002−297131公報
特開2000−285141公報
また、逆に外国語のマルチメディアコンテンツに対しては、話速を遅くして聞き易くする方法が考えられるが、全体の聴取時間が延びてしまい、話と話の間のポーズが間延びして聞き難くなるという問題がある。
これらの課題を解決するための従来技術として、特開平11−202890号公報には、重要性の高いキーワードを指定し、そのキーワードでワードスポッティングによる音声検索を行う技術が開示されている。
また特開2002−297131公報には、曲の一部を音声で入力することによって曲を検索し、検索した曲の販売を行う曲検索システムについて開示されている。
また特開2000−285141公報には、画像検索を検索部に利用して、映像中の重要な部分を検出する技術が開示されている。
しかしながら、特許文献1に開示されている従来技術は、重要性の高いキーワードを指定し、そのキーワードでワードスポッティングによる音声検索を行うものであり、検索された音声の話速変換については言及していない。
また特許文献2に開示されている従来技術は、あくまでも曲を検索するための技術であり、特許文献1と同様に検索された曲の話速変換については言及していない。
また特許文献3に開示されている従来技術は、あくまでも画像を検索するための技術であり、特許文献1と同様に検索された画像に対応する音声の話速変換については言及していない。
本発明は、かかる課題に鑑み、検索機能と、音程を変えずに音声の速度を変えることができる話速変換機能とを組み合わせて、検索結果部分の話速変換速度とその他の部分の話速変換速度とを変えることにより、聴取効果を高めることができる話速変換装置を提供することを目的とする。
また特許文献2に開示されている従来技術は、あくまでも曲を検索するための技術であり、特許文献1と同様に検索された曲の話速変換については言及していない。
また特許文献3に開示されている従来技術は、あくまでも画像を検索するための技術であり、特許文献1と同様に検索された画像に対応する音声の話速変換については言及していない。
本発明は、かかる課題に鑑み、検索機能と、音程を変えずに音声の速度を変えることができる話速変換機能とを組み合わせて、検索結果部分の話速変換速度とその他の部分の話速変換速度とを変えることにより、聴取効果を高めることができる話速変換装置を提供することを目的とする。
本発明はかかる課題を解決するために、請求項1は、音程を変えずに音声の速度を変える話速変換部と、話速変換する音声の対象部分を検索する検索部とを備えた話速変換装置であって、前記検索部により検索された音声の対象部分又は該対象部分の近傍の話速を前記話速変換部により変換することにより、前記音声の聴取効果を高めることを特徴とする。
本発明の特徴は、検索部により検索された音声の対象部分とその近傍の音声を、話速変換部により話速変換してより明瞭に音声を聞き取ることができるようにするものである。ここで、話速変換の速度は音声の種類により通常速度、通常より速く、或いは遅くする場合が考えられる。
かかる発明によれば、検索部により検索された音声の対象部分又はこの対象部分の近傍の話速を話速変換部により変換するので、音声の種類に応じた最適の速度を効率良く選択することができる。
請求項2は、前記検索部は、コンテンツの音声からキーワードが存在する部分を検出するキーワード検出部を備え、該キーワード検出部により前記コンテンツ内にキーワードが存在する部分を検出した場合、前記話速変換部は、検索された近傍の部分の話速を他の部分に比べて相対的に遅い速度に変換することを特徴とする。
講演等を記録したマルチメディアコンテンツに本発明を適用する場合は、重要性の高いキーワードを指定し、そのキーワードでワードスポッティングによる音声検索を行ってキーワードの位置を特定し、コンテンツ全体の話速を速くするが、キーワードの近辺は速度を速くする割合を下げるか、または元の速度のままにするなどして、全体の話速は速いが重要なキーワードの近辺はそれよりも遅くすることにより聞き易いコンテンツが作成できる。
かかる発明によれば、キーワード検出部によりコンテンツ内にキーワードが存在する部分を検出した場合、話速変換部は、このキーワード及び近傍の話速を通常の速度に変換するので、全体の話速は速いが重要なキーワードの近辺はそれよりも遅くすることにより、聞き易いコンテンツを作成することができる。
本発明の特徴は、検索部により検索された音声の対象部分とその近傍の音声を、話速変換部により話速変換してより明瞭に音声を聞き取ることができるようにするものである。ここで、話速変換の速度は音声の種類により通常速度、通常より速く、或いは遅くする場合が考えられる。
かかる発明によれば、検索部により検索された音声の対象部分又はこの対象部分の近傍の話速を話速変換部により変換するので、音声の種類に応じた最適の速度を効率良く選択することができる。
請求項2は、前記検索部は、コンテンツの音声からキーワードが存在する部分を検出するキーワード検出部を備え、該キーワード検出部により前記コンテンツ内にキーワードが存在する部分を検出した場合、前記話速変換部は、検索された近傍の部分の話速を他の部分に比べて相対的に遅い速度に変換することを特徴とする。
講演等を記録したマルチメディアコンテンツに本発明を適用する場合は、重要性の高いキーワードを指定し、そのキーワードでワードスポッティングによる音声検索を行ってキーワードの位置を特定し、コンテンツ全体の話速を速くするが、キーワードの近辺は速度を速くする割合を下げるか、または元の速度のままにするなどして、全体の話速は速いが重要なキーワードの近辺はそれよりも遅くすることにより聞き易いコンテンツが作成できる。
かかる発明によれば、キーワード検出部によりコンテンツ内にキーワードが存在する部分を検出した場合、話速変換部は、このキーワード及び近傍の話速を通常の速度に変換するので、全体の話速は速いが重要なキーワードの近辺はそれよりも遅くすることにより、聞き易いコンテンツを作成することができる。
請求項3は、前記検索部は、コンテンツの無音部分を検出する無音部分検出部を備え、該無音部分検出部により前記コンテンツ内に無音部分を検出した場合、前記話速変換部は、検索された近傍の部分の話速を他の部分に比べて相対的に速い速度に変換することを特徴とする。
コンテンツには音声と音声の間に無音部分がある。この無音部分の検索を用いて無音の部分を特定し、有音の部分の話速は遅くし、無音の部分の話速は元のままや速くするなどして、全体を聞き易くしながら話と話の間のポーズが間延びすることを防ぐこともできる。
かかる発明によれば、無音部分検出部によりコンテンツ内に無音部分を検出した場合、話速変換部は、この無音部分の話速を通常の速度より速い速度に変換するので、全体を聞き易くしながら話と話の間のポーズが間延びすることを防ぐことができる。
請求項4は、前記検索部は、音楽コンテンツから所定のメロディーを検出するメロディー検出部を備え、該メロディー検出部により前記音楽コンテンツ内に所定のメロディーを検出した場合、前記話速変換部は、当該メロディー部分の話速を通常の速度に変換することを特徴とする。
鼻歌、ハミング、歌唱などのメロディーからそれに類似するメロディーを持つ音楽コンテンツを検索するメロディー検索を検索部に利用することにより、メロディー検索で検索された部分を通常の速度のままにし、他の部分は話速変換技術で音程を変えずに早回しで再生することにより、興味のない部分は速く聞いて、覚えていたサビの部分だけ通常の速度で聞くという使い方ができる。
かかる発明によれば、メロディー検出部により音楽コンテンツ内に所定のメロディーを検出した場合、話速変換部は、このメロディー部分の話速を通常の速度に変換するので、興味のない部分は速く聞いて、覚えていたサビの部分だけ通常の速度で聞くことができる。
コンテンツには音声と音声の間に無音部分がある。この無音部分の検索を用いて無音の部分を特定し、有音の部分の話速は遅くし、無音の部分の話速は元のままや速くするなどして、全体を聞き易くしながら話と話の間のポーズが間延びすることを防ぐこともできる。
かかる発明によれば、無音部分検出部によりコンテンツ内に無音部分を検出した場合、話速変換部は、この無音部分の話速を通常の速度より速い速度に変換するので、全体を聞き易くしながら話と話の間のポーズが間延びすることを防ぐことができる。
請求項4は、前記検索部は、音楽コンテンツから所定のメロディーを検出するメロディー検出部を備え、該メロディー検出部により前記音楽コンテンツ内に所定のメロディーを検出した場合、前記話速変換部は、当該メロディー部分の話速を通常の速度に変換することを特徴とする。
鼻歌、ハミング、歌唱などのメロディーからそれに類似するメロディーを持つ音楽コンテンツを検索するメロディー検索を検索部に利用することにより、メロディー検索で検索された部分を通常の速度のままにし、他の部分は話速変換技術で音程を変えずに早回しで再生することにより、興味のない部分は速く聞いて、覚えていたサビの部分だけ通常の速度で聞くという使い方ができる。
かかる発明によれば、メロディー検出部により音楽コンテンツ内に所定のメロディーを検出した場合、話速変換部は、このメロディー部分の話速を通常の速度に変換するので、興味のない部分は速く聞いて、覚えていたサビの部分だけ通常の速度で聞くことができる。
請求項5は、前記検索部は、映像中の重要な部分を検出する映像検出部を備え、該映像検出部により重要な映像部分を検出した場合、前記話速変換部は、検索された近傍の部分の話速を他の部分に比べて相対的に遅い速度に変換することを特徴とする。
画像検索を検索部に利用して、映像中の重要な部分を検出し、対応する映像音声部分を話速変換で速度変化させることにより、重要な部分を聞き易くし、その他の部分を短時間で聴取することができる。話速に合わせて、映像の速度を変えることも当然可能である。
かかる発明によれば、話速変換部は、該当する映像部分に対応する音声部分の話速を通常の速度より遅い速度に変換するので、重要な部分を聞き易くし、その他の部分を短時間で聴取することができる。
請求項6は、前記検索部は、字幕つきのコンテンツの字幕部分を文字列検索して重要なキーワード部分を検出する字幕検出部を備え、該字幕検出部により重要なキーワード部分を検出した場合、前記話速変換部は、検索された近傍の部分の話速を他の部分に比べて相対的に遅い速度に変換することを特徴とする。
かかる発明によれば、話速変換部は、該当するキーワード部分に対応する音声部分の話速を通常の速度より遅い速度に変換するので、重要な部分を聞き易くし、その他の部分を短時間で聴取することができる。
画像検索を検索部に利用して、映像中の重要な部分を検出し、対応する映像音声部分を話速変換で速度変化させることにより、重要な部分を聞き易くし、その他の部分を短時間で聴取することができる。話速に合わせて、映像の速度を変えることも当然可能である。
かかる発明によれば、話速変換部は、該当する映像部分に対応する音声部分の話速を通常の速度より遅い速度に変換するので、重要な部分を聞き易くし、その他の部分を短時間で聴取することができる。
請求項6は、前記検索部は、字幕つきのコンテンツの字幕部分を文字列検索して重要なキーワード部分を検出する字幕検出部を備え、該字幕検出部により重要なキーワード部分を検出した場合、前記話速変換部は、検索された近傍の部分の話速を他の部分に比べて相対的に遅い速度に変換することを特徴とする。
かかる発明によれば、話速変換部は、該当するキーワード部分に対応する音声部分の話速を通常の速度より遅い速度に変換するので、重要な部分を聞き易くし、その他の部分を短時間で聴取することができる。
請求項7は、前記検索部は、請求項2乃至6の何れか一項に記載の検索部の機能を少なくとも2つ以上組み合わせたことを特徴とする。
請求項2乃至6の検索部は、それぞれ個別に機能する以外に、複数の機能が組み合わさっても可能である。例えば、キーワード検出部と無音部分検出部を組合わせることにより、キーワードを検出するまでの無音部分の話速を速くして、キーワード検出の所要時間を短くすることができる。
かかる発明によれば、検索部の機能を少なくとも2つ以上組み合わせるので、装置全体の検索効率を高めることができる。
請求項8は、音程を変えずに音声の速度を変える話速変換ステップと、話速変換する音声の対象部分を検索する検索ステップとを備えた話速変換方法であって、前記ステップにより検索された音声の対象部分又は該対象部分の近傍の話速を前記話速変換ステップにより変換することにより、前記音声の聴取効果を高めることを特徴とする。
かかる発明によれば、請求項1と同様の作用効果を奏する。
請求項9は、前記検索ステップは、コンテンツの音声からキーワードが存在する部分を検出するキーワード検出ステップを備え、該キーワード検出ステップ部により前記コンテンツ内にキーワードが存在する部分を検出した場合、前記話速変換ステップは、検索された近傍の部分の話速を他の部分に比べて相対的に遅いに変換することを特徴とする。
かかる発明によれば、請求項2と同様の作用効果を奏する。
請求項10は、前記検索ステップは、コンテンツの無音部分を検出する無音部分検出ステップを備え、該無音部分検出ステップにより前記コンテンツ内に無音部分を検出した場合、前記話速変換ステップは、検索された近傍の部分の話速を他の部分に比べて相対的に速い速度に変換することを特徴とする。
かかる発明によれば、請求項3と同様の作用効果を奏する。
請求項2乃至6の検索部は、それぞれ個別に機能する以外に、複数の機能が組み合わさっても可能である。例えば、キーワード検出部と無音部分検出部を組合わせることにより、キーワードを検出するまでの無音部分の話速を速くして、キーワード検出の所要時間を短くすることができる。
かかる発明によれば、検索部の機能を少なくとも2つ以上組み合わせるので、装置全体の検索効率を高めることができる。
請求項8は、音程を変えずに音声の速度を変える話速変換ステップと、話速変換する音声の対象部分を検索する検索ステップとを備えた話速変換方法であって、前記ステップにより検索された音声の対象部分又は該対象部分の近傍の話速を前記話速変換ステップにより変換することにより、前記音声の聴取効果を高めることを特徴とする。
かかる発明によれば、請求項1と同様の作用効果を奏する。
請求項9は、前記検索ステップは、コンテンツの音声からキーワードが存在する部分を検出するキーワード検出ステップを備え、該キーワード検出ステップ部により前記コンテンツ内にキーワードが存在する部分を検出した場合、前記話速変換ステップは、検索された近傍の部分の話速を他の部分に比べて相対的に遅いに変換することを特徴とする。
かかる発明によれば、請求項2と同様の作用効果を奏する。
請求項10は、前記検索ステップは、コンテンツの無音部分を検出する無音部分検出ステップを備え、該無音部分検出ステップにより前記コンテンツ内に無音部分を検出した場合、前記話速変換ステップは、検索された近傍の部分の話速を他の部分に比べて相対的に速い速度に変換することを特徴とする。
かかる発明によれば、請求項3と同様の作用効果を奏する。
請求項11は、前記検索ステップは、音楽コンテンツから所定のメロディーを検出するメロディー検出ステップを備え、該メロディー検出ステップにより前記音楽コンテンツ内に所定のメロディーを検出した場合、前記話速変換ステップは、当該メロディー部分の話速を通常の速度に変換することを特徴とする。
かかる発明によれば、請求項4と同様の作用効果を奏する。
請求項12は、前記検索ステップは、映像中の重要な部分を検出する映像検出ステップを備え、該映像検出ステップにより重要な映像部分を検出した場合、前記話速変換ステップは、検索された近傍の部分の話速を他の部分に比べて相対的に遅い速度に変換することを特徴とする。
かかる発明によれば、請求項5と同様の作用効果を奏する。
請求項13は、前記検索ステップは、字幕つきのコンテンツの字幕部分を文字列検索して重要なキーワード部分を検出する字幕検出ステップを備え、該字幕検出ステップにより重要なキーワード部分を検出した場合、前記話速変換ステップは、検索された近傍の部分の話速を他の部分に比べて相対的に遅い速度に変換することを特徴とする。
かかる発明によれば、請求項6と同様の作用効果を奏する。
請求項14は、前記検索ステップは、請求項8乃至13の何れか一項に記載の検索ステップの機能を少なくとも2つ以上組み合わせたことを特徴とする。
かかる発明によれば、請求項7と同様の作用効果を奏する。
請求項15は、請求項8乃至14の何れか一項に記載の話速変換方法をコンピュータが制御可能にプログラミングしたことを特徴とする。
かかる発明によれば、本発明の話速変換方法をコンピュータが制御可能なOSに従ってプログラミングすることにより、そのOSを備えたコンピュータであれば同じ処理方法により制御することができる。
請求項16は、請求項15に記載の話速変換プログラムをコンピュータが読み取り可能な形式で記録したことを特徴とする。
かかる発明によれば、話速変換プログラムをコンピュータが読み取り可能な形式で記録媒体に記録することにより、この記録媒体を持ち運ぶことにより何処でもプログラムを稼動することができる。
かかる発明によれば、請求項4と同様の作用効果を奏する。
請求項12は、前記検索ステップは、映像中の重要な部分を検出する映像検出ステップを備え、該映像検出ステップにより重要な映像部分を検出した場合、前記話速変換ステップは、検索された近傍の部分の話速を他の部分に比べて相対的に遅い速度に変換することを特徴とする。
かかる発明によれば、請求項5と同様の作用効果を奏する。
請求項13は、前記検索ステップは、字幕つきのコンテンツの字幕部分を文字列検索して重要なキーワード部分を検出する字幕検出ステップを備え、該字幕検出ステップにより重要なキーワード部分を検出した場合、前記話速変換ステップは、検索された近傍の部分の話速を他の部分に比べて相対的に遅い速度に変換することを特徴とする。
かかる発明によれば、請求項6と同様の作用効果を奏する。
請求項14は、前記検索ステップは、請求項8乃至13の何れか一項に記載の検索ステップの機能を少なくとも2つ以上組み合わせたことを特徴とする。
かかる発明によれば、請求項7と同様の作用効果を奏する。
請求項15は、請求項8乃至14の何れか一項に記載の話速変換方法をコンピュータが制御可能にプログラミングしたことを特徴とする。
かかる発明によれば、本発明の話速変換方法をコンピュータが制御可能なOSに従ってプログラミングすることにより、そのOSを備えたコンピュータであれば同じ処理方法により制御することができる。
請求項16は、請求項15に記載の話速変換プログラムをコンピュータが読み取り可能な形式で記録したことを特徴とする。
かかる発明によれば、話速変換プログラムをコンピュータが読み取り可能な形式で記録媒体に記録することにより、この記録媒体を持ち運ぶことにより何処でもプログラムを稼動することができる。
以上記載のごとく請求項1、8の発明によれば、検索部により検索された音声の対象部分又はこの対象部分の近傍の話速を話速変換部により変換するので、音声の種類に応じた最適の速度を効率良く選択することができる。
また請求項2、9では、キーワード検出部によりコンテンツ内にキーワードが存在する部分を検出した場合、話速変換部は、このキーワード及び近傍の話速を通常の速度に変換するので、全体の話速は速いが重要なキーワードの近辺はそれよりも遅くすることにより、聞き易いコンテンツを作成することができる。
また請求項3、10では、無音部分検出部によりコンテンツ内に無音部分を検出した場合、話速変換部は、この無音部分の話速を通常の速度より速い速度に変換するので、全体を聞き易くしながら話と話の間のポーズが間延びすることを防ぐことができる。
また請求項4、11では、メロディー検出部により音楽コンテンツ内に所定のメロディーを検出した場合、話速変換部は、このメロディー部分の話速を通常の速度に変換するので、興味のない部分は速く聞いて、覚えていたサビの部分だけ通常の速度で聞くことができる。
また請求項5、12では、話速変換部は、該当する映像部分に対応する音声部分の話速を通常の速度より遅い速度に変換するので、重要な部分を聞き易くし、その他の部分を短時間で聴取することができる。
また請求項6、13では、話速変換部は、該当するキーワード部分に対応する音声部分の話速を通常の速度より遅い速度に変換するので、重要な部分を聞き易くし、その他の部分を短時間で聴取することができる。
また請求項7、14では、検索部の機能を少なくとも2つ以上組み合わせるので、装置全体の検索効率を高めることができる。
また請求項15では、本発明の話速変換方法をコンピュータが制御可能なOSに従ってプログラミングすることにより、そのOSを備えたコンピュータであれば同じ処理方法により制御することができる。
また請求項16では、話速変換プログラムをコンピュータが読み取り可能な形式で記録媒体に記録することにより、この記録媒体を持ち運ぶことにより何処でもプログラムを稼動することができる。
また請求項2、9では、キーワード検出部によりコンテンツ内にキーワードが存在する部分を検出した場合、話速変換部は、このキーワード及び近傍の話速を通常の速度に変換するので、全体の話速は速いが重要なキーワードの近辺はそれよりも遅くすることにより、聞き易いコンテンツを作成することができる。
また請求項3、10では、無音部分検出部によりコンテンツ内に無音部分を検出した場合、話速変換部は、この無音部分の話速を通常の速度より速い速度に変換するので、全体を聞き易くしながら話と話の間のポーズが間延びすることを防ぐことができる。
また請求項4、11では、メロディー検出部により音楽コンテンツ内に所定のメロディーを検出した場合、話速変換部は、このメロディー部分の話速を通常の速度に変換するので、興味のない部分は速く聞いて、覚えていたサビの部分だけ通常の速度で聞くことができる。
また請求項5、12では、話速変換部は、該当する映像部分に対応する音声部分の話速を通常の速度より遅い速度に変換するので、重要な部分を聞き易くし、その他の部分を短時間で聴取することができる。
また請求項6、13では、話速変換部は、該当するキーワード部分に対応する音声部分の話速を通常の速度より遅い速度に変換するので、重要な部分を聞き易くし、その他の部分を短時間で聴取することができる。
また請求項7、14では、検索部の機能を少なくとも2つ以上組み合わせるので、装置全体の検索効率を高めることができる。
また請求項15では、本発明の話速変換方法をコンピュータが制御可能なOSに従ってプログラミングすることにより、そのOSを備えたコンピュータであれば同じ処理方法により制御することができる。
また請求項16では、話速変換プログラムをコンピュータが読み取り可能な形式で記録媒体に記録することにより、この記録媒体を持ち運ぶことにより何処でもプログラムを稼動することができる。
以下、本発明を図に示した実施形態を用いて詳細に説明する。但し、この実施形態に記載される構成要素、種類、組み合わせ、形状、その相対配置などは特定的な記載がない限り、この発明の範囲をそれのみに限定する主旨ではなく単なる説明例に過ぎない。
図1は本発明の話速変換装置の概略構成図である。この話速変換装置1は、音程を変えずに音声の速度を変える話速変換部2と、話速変換する音声の対象部分を検索する検索部3とを備えて構成される。
本発明の話速変換装置1は、検索機能と音程を変えずに音声の速度を変えることができる話速変換機能とを組み合わせて、検索結果部分の話速変換速度と、その他の部分の話速変換速度とを変えることにより聴取効果を高めることができる。即ち、検索機能を用いて、データ中から重要な内容の部分や重要でない部分、聞き取り易い部分や聞き取り難い部分等を検出し、それらの位置に応じて話速を速くしたり遅くしたりする割合を変更して話速変換を行うことにより、重要な部分を聞き易くでき、重要でない部分を聴取する時間を節約することができる。さらに、話速変換と組み合わせる検索方式としては、上記に限定されず、メロディー検索、画像検索、テキスト検索など様々な手法を利用することが可能である。
図2は本発明の話速変換装置1の動作フローチャートであり、コンテンツデータ4をコンテンツデータ入力部に入力し(S1)、そのコンテンツデータに対して検索処理を行い(S2)、検索された部分の話速を速く、または、遅くする処理を行い(S3)、コンテンツ出力部に変換後コンテンツを出力する(S4)。
図1は本発明の話速変換装置の概略構成図である。この話速変換装置1は、音程を変えずに音声の速度を変える話速変換部2と、話速変換する音声の対象部分を検索する検索部3とを備えて構成される。
本発明の話速変換装置1は、検索機能と音程を変えずに音声の速度を変えることができる話速変換機能とを組み合わせて、検索結果部分の話速変換速度と、その他の部分の話速変換速度とを変えることにより聴取効果を高めることができる。即ち、検索機能を用いて、データ中から重要な内容の部分や重要でない部分、聞き取り易い部分や聞き取り難い部分等を検出し、それらの位置に応じて話速を速くしたり遅くしたりする割合を変更して話速変換を行うことにより、重要な部分を聞き易くでき、重要でない部分を聴取する時間を節約することができる。さらに、話速変換と組み合わせる検索方式としては、上記に限定されず、メロディー検索、画像検索、テキスト検索など様々な手法を利用することが可能である。
図2は本発明の話速変換装置1の動作フローチャートであり、コンテンツデータ4をコンテンツデータ入力部に入力し(S1)、そのコンテンツデータに対して検索処理を行い(S2)、検索された部分の話速を速く、または、遅くする処理を行い(S3)、コンテンツ出力部に変換後コンテンツを出力する(S4)。
図3は本発明の第1の実施形態の話速変換装置の構成図である。本実施形態はコンテンツ入力部5と、重要性の高いキーワードを検索するキーワードスポッティング部6と、音程を変えずに音声の速度を変える話速変換部7と、コンテンツ出力部8とを備えて構成される。この構成による話速変換装置は、講演等を記録したマルチメディアコンテンツに本実施形態を適用する場合は、重要性の高いキーワードを指定し、そのキーワードでワードスポッティングによる音声検索を行ってキーワードの位置を特定し、コンテンツ全体の話速を速くするが、キーワードの近辺は速度を速くする割合を下げるまたは元の速度のままにするなどして、全体の話速は速いが重要なキーワードの近辺はそれよりも遅いので聞き易くなっているコンテンツが作成できる。また、音のパワーと音声特徴を組み合わせた検索により、話声だが音量の小さいを特定して、コンテンツ全体の話速を速くするが、その部分は速度を速くする割合を下げるか、元の速度より遅くするなどして、全体の話速は速いが音が、小さくて聞き難い部分はそれより話速が遅く聞き易くなっているコンテンツが作成できる。尚、ピッチを変えずに話速のみを変える話速変換手法の例としては、PICOLA (Pointer Interval Controlled OverLap and Add)などが利用できる。
図4は本発明の第2の実施形態の話速変換装置の構成図である。同じ構成要素には同じ参照番号が付されている。本実施形態はコンテンツ入力部5と、コンテンツの無音部分を検出する無音部分検出部9と、音程を変えずに音声の速度を変える話速変換部7と、コンテンツ出力部8とを備えて構成される。この構成による話速変換装置は、外国語のマルチメディアコンテンツに対して本方式を適用する場合は、重要性の高いキーワードを指定し、そのキーワードでワードスポッティングによる音声検索を行ってキーワードの位置を特定し、コンテンツ全体の話速を遅くする代わりに、キーワードの近辺の話速のみ遅くすることにより、全体の聴取時間が延びるのを抑えて、重要な部分が聞き易くなったコンテンツが作成できる。また、無音部分の検索を用いて無音の部分を特定し、有音の部分の話速は遅くし、無音の部分の話速は元のままや速くするなどして、全体を聞き易くしながら話と話の間のポーズが間延びすることを防ぐこともできる。
図4は本発明の第2の実施形態の話速変換装置の構成図である。同じ構成要素には同じ参照番号が付されている。本実施形態はコンテンツ入力部5と、コンテンツの無音部分を検出する無音部分検出部9と、音程を変えずに音声の速度を変える話速変換部7と、コンテンツ出力部8とを備えて構成される。この構成による話速変換装置は、外国語のマルチメディアコンテンツに対して本方式を適用する場合は、重要性の高いキーワードを指定し、そのキーワードでワードスポッティングによる音声検索を行ってキーワードの位置を特定し、コンテンツ全体の話速を遅くする代わりに、キーワードの近辺の話速のみ遅くすることにより、全体の聴取時間が延びるのを抑えて、重要な部分が聞き易くなったコンテンツが作成できる。また、無音部分の検索を用いて無音の部分を特定し、有音の部分の話速は遅くし、無音の部分の話速は元のままや速くするなどして、全体を聞き易くしながら話と話の間のポーズが間延びすることを防ぐこともできる。
図5は本発明の第3の実施形態の話速変換装置の構成図である。同じ構成要素には同じ参照番号が付されている。本実施形態はコンテンツ入力部5と、音楽コンテンツから所定のメロディーを検出するメロディー検出部10と、音程を変えずに音声の速度を変える話速変換部7と、コンテンツ出力部8とを備えて構成される。この構成による話速変換装置は、鼻歌、ハミング、歌唱などのメロディーからそれに類似するメロディーを持つ音楽コンテンツを検索するメロディー検索を検索部に利用することにより、メロディー検索で検索された部分を通常の速度のままにし、他の部分は話速変換技術で音程を変えずに早回しで再生することにより、あまり興味のない部分は速く聞いて、覚えていたサビの部分だけ通常の速度で聞くという使い方ができる。また、特開2002−297131公報のような曲検索システムと組み合わせて使うことも可能である。尚、話速変換手法PICOLAは、人の声だけでなく音楽にも適用でき、ピッチを変えずに速度を早くすることができる。
図6は本発明の第4の実施形態の話速変換装置の構成図である。同じ構成要素には同じ参照番号が付されている。本実施形態はコンテンツ入力部5と、映像中の重要な部分を検出する映像検出部11と、音程を変えずに音声の速度を変える話速変換部7と、コンテンツ出力部8とを備えて構成される。この構成による話速変換装置は、映像検索(特開2000−285141公報参照)を検索部に利用して、映像中の重要な部分を検出し、対応する映像音声部分を話速変換で速度変化させることにより、重要な部分を聞き易くし、その他の部分を短時間で聴取することができる。話速に合わせて、映像の速度を変えることも当然可能である。
図6は本発明の第4の実施形態の話速変換装置の構成図である。同じ構成要素には同じ参照番号が付されている。本実施形態はコンテンツ入力部5と、映像中の重要な部分を検出する映像検出部11と、音程を変えずに音声の速度を変える話速変換部7と、コンテンツ出力部8とを備えて構成される。この構成による話速変換装置は、映像検索(特開2000−285141公報参照)を検索部に利用して、映像中の重要な部分を検出し、対応する映像音声部分を話速変換で速度変化させることにより、重要な部分を聞き易くし、その他の部分を短時間で聴取することができる。話速に合わせて、映像の速度を変えることも当然可能である。
図7は本発明の第5の実施形態の話速変換装置の構成図である。同じ構成要素には同じ参照番号が付されている。本実施形態はコンテンツ入力部5と、字幕つきのコンテンツの字幕部分を文字列検索して重要なキーワード部分を検出する字幕検出部12と、音程を変えずに音声の速度を変える話速変換部7と、コンテンツ出力部8とを備えて構成される。この構成による話速変換装置は、コンテンツに字幕が付いていれば、音声からキーワードスポッティングする代わりに、字幕の部分を文字列検索して重要なキーワードがある部分を検出し、対応する映像音声部分を話速変換で速度変化させることにより、重要な部分を聞き易くし、その他の部分を短時間で聴取することができる。
図8は本発明のキーワード検索を利用した話速変換の例を示す図である。即ち、元のコンテンツ30が非キーワード部分20、キーワードA21、非キーワード部分22、キーワードB23、非キーワード部分24により構成されているとすると、キーワード検索を利用した話速変換後のコンテンツ31が非キーワード部分20、22、24を高速化して20a、22a、24aとし、キーワードA21、キーワードB23の部分はそのままの速度21a、23aとすることにより、全体の聴取時間を節約しながら、キーワード近辺の重要な部分が聞き取り易くなり、音が小さくて聞き難い部分も聞き取り易くなるという効果がある。また、外国語のマルチメディアコンテンツに対しても、全体の聴取時間が延びる量を減らしながら、キーワード近辺の重要な部分が聞き取り易くなり、音声が間延びすることを防止できるという効果がある。また、コンテンツに応じた検索手法を選択することにより、重要な部分を聞き易くでき、重要でない部分を聴取する時間を節約することができるという効果がある。
図8は本発明のキーワード検索を利用した話速変換の例を示す図である。即ち、元のコンテンツ30が非キーワード部分20、キーワードA21、非キーワード部分22、キーワードB23、非キーワード部分24により構成されているとすると、キーワード検索を利用した話速変換後のコンテンツ31が非キーワード部分20、22、24を高速化して20a、22a、24aとし、キーワードA21、キーワードB23の部分はそのままの速度21a、23aとすることにより、全体の聴取時間を節約しながら、キーワード近辺の重要な部分が聞き取り易くなり、音が小さくて聞き難い部分も聞き取り易くなるという効果がある。また、外国語のマルチメディアコンテンツに対しても、全体の聴取時間が延びる量を減らしながら、キーワード近辺の重要な部分が聞き取り易くなり、音声が間延びすることを防止できるという効果がある。また、コンテンツに応じた検索手法を選択することにより、重要な部分を聞き易くでき、重要でない部分を聴取する時間を節約することができるという効果がある。
5 コンテンツ入力部、6 キーワードスポッティング部、7 話速変換部、8 コンテンツ出力部、9 無音部分検出部、10 メロディー検出部、11 映像検出部、12 字幕検出部
Claims (16)
- 音程を変えずに音声の速度を変える話速変換部と、話速変換する音声の対象部分を検索する検索部とを備えた話速変換装置であって、
前記検索部により検索された音声の対象部分又は該対象部分の近傍の話速を前記話速変換部により変換することにより、前記音声の聴取効果を高めることを特徴とする話速変換装置。 - 前記検索部は、コンテンツの音声からキーワードが存在する部分を検出するキーワード検出部を備え、該キーワード検出部により前記コンテンツ内にキーワードが存在する部分を検出した場合、前記話速変換部は、検索された近傍の部分の話速を他の部分に比べて相対的に遅い速度に変換することを特徴とする請求項1に記載の話速変換装置。
- 前記検索部は、コンテンツの無音部分を検出する無音部分検出部を備え、該無音部分検出部により前記コンテンツ内に無音部分を検出した場合、前記話速変換部は、検索された近傍の部分の話速を他の部分に比べて相対的に速い速度に変換することを特徴とする請求項1に記載の話速変換装置。
- 前記検索部は、音楽コンテンツから所定のメロディーを検出するメロディー検出部を備え、該メロディー検出部により前記音楽コンテンツ内に所定のメロディーを検出した場合、前記話速変換部は、当該メロディー部分の話速を通常の速度に変換することを特徴とする請求項1に記載の話速変換装置。
- 前記検索部は、映像中の重要な部分を検出する映像検出部を備え、該映像検出部により重要な映像部分を検出した場合、前記話速変換部は、検索された近傍の部分の話速を他の部分に比べて相対的に遅い速度に変換することを特徴とする請求項1に記載の話速変換装置。
- 前記検索部は、字幕つきのコンテンツの字幕部分を文字列検索して重要なキーワード部分を検出する字幕検出部を備え、該字幕検出部により重要なキーワード部分を検出した場合、前記話速変換部は、検索された近傍の部分の話速を他の部分に比べて相対的に遅い速度に変換することを特徴とする請求項1に記載の話速変換装置。
- 前記検索部は、請求項2乃至6の何れか一項に記載の検索部の機能を少なくとも2つ以上組み合わせたことを特徴とする話速変換装置。
- 音程を変えずに音声の速度を変える話速変換ステップと、話速変換する音声の対象部分を検索する検索ステップとを備えた話速変換方法であって、
前記ステップにより検索された音声の対象部分又は該対象部分の近傍の話速を前記話速変換ステップにより変換することにより、前記音声の聴取効果を高めることを特徴とする話速変換方法。 - 前記検索ステップは、コンテンツの音声からキーワードが存在する部分を検出するキーワード検出ステップを備え、該キーワード検出ステップ部により前記コンテンツ内にキーワードが存在する部分を検出した場合、前記話速変換ステップは、検索された近傍の部分の話速を他の部分に比べて相対的に遅いに変換することを特徴とする請求項8に記載の話速変換方法。
- 前記検索ステップは、コンテンツの無音部分を検出する無音部分検出ステップを備え、該無音部分検出ステップにより前記コンテンツ内に無音部分を検出した場合、前記話速変換ステップは、検索された近傍の部分の話速を他の部分に比べて相対的に速い速度に変換することを特徴とする請求項8に記載の話速変換方法。
- 前記検索ステップは、音楽コンテンツから所定のメロディーを検出するメロディー検出ステップを備え、該メロディー検出ステップにより前記音楽コンテンツ内に所定のメロディーを検出した場合、前記話速変換ステップは、当該メロディー部分の話速を通常の速度に変換することを特徴とする請求項8に記載の話速変換方法。
- 前記検索ステップは、映像中の重要な部分を検出する映像検出ステップを備え、該映像検出ステップにより重要な映像部分を検出した場合、前記話速変換ステップは、検索された近傍の部分の話速を他の部分に比べて相対的に遅い速度に変換することを特徴とする請求項8に記載の話速変換方法。
- 前記検索ステップは、字幕つきのコンテンツの字幕部分を文字列検索して重要なキーワード部分を検出する字幕検出ステップを備え、該字幕検出ステップにより重要なキーワード部分を検出した場合、前記話速変換ステップは、検索された近傍の部分の話速を他の部分に比べて相対的に遅い速度に変換することを特徴とする請求項8に記載の話速変換方法。
- 前記検索ステップは、請求項8乃至13の何れか一項に記載の検索ステップの機能を少なくとも2つ以上組み合わせたことを特徴とする話速変換方法。
- 請求項8乃至14の何れか一項に記載の話速変換方法をコンピュータが制御可能にプログラミングしたことを特徴とする話速変換プログラム。
- 請求項15に記載の話速変換プログラムをコンピュータが読み取り可能な形式で記録したことを特徴とする記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003384097A JP2005148307A (ja) | 2003-11-13 | 2003-11-13 | 話速変換装置、話速変換方法、プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003384097A JP2005148307A (ja) | 2003-11-13 | 2003-11-13 | 話速変換装置、話速変換方法、プログラム及び記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005148307A true JP2005148307A (ja) | 2005-06-09 |
Family
ID=34692629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003384097A Pending JP2005148307A (ja) | 2003-11-13 | 2003-11-13 | 話速変換装置、話速変換方法、プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005148307A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008058956A (ja) * | 2006-07-31 | 2008-03-13 | Matsushita Electric Ind Co Ltd | 音声再生装置 |
JP2013148795A (ja) * | 2012-01-20 | 2013-08-01 | Nippon Hoso Kyokai <Nhk> | 音声処理装置及びプログラム |
JP2014527648A (ja) * | 2011-08-31 | 2014-10-16 | アルカテル−ルーセント | デジタルオーディオ信号を低速化するための方法およびデバイス |
-
2003
- 2003-11-13 JP JP2003384097A patent/JP2005148307A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008058956A (ja) * | 2006-07-31 | 2008-03-13 | Matsushita Electric Ind Co Ltd | 音声再生装置 |
JP2014527648A (ja) * | 2011-08-31 | 2014-10-16 | アルカテル−ルーセント | デジタルオーディオ信号を低速化するための方法およびデバイス |
US9928849B2 (en) | 2011-08-31 | 2018-03-27 | Wsou Investments, Llc | Method and device for slowing a digital audio signal |
JP2013148795A (ja) * | 2012-01-20 | 2013-08-01 | Nippon Hoso Kyokai <Nhk> | 音声処理装置及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107464555B (zh) | 增强包含语音的音频数据的方法、计算装置和介质 | |
US9240180B2 (en) | System and method for low-latency web-based text-to-speech without plugins | |
US20120084086A1 (en) | System and method for open speech recognition | |
EP3824461B1 (en) | Method and system for creating object-based audio content | |
US20170262537A1 (en) | Audio scripts for various content | |
US11749279B2 (en) | Detection of story reader progress for pre-caching special effects | |
US20190079918A1 (en) | Controlling playback of speech-containing audio data | |
US20210183378A1 (en) | Dynamic adjustment of story time special effects based on contextual data | |
US20240135960A1 (en) | Algorithmic determination of a story readers discontinuation of reading | |
CN106067310A (zh) | 录音数据处理方法及装置 | |
JP5213273B2 (ja) | 電子書籍装置及び電子書籍再生方法 | |
US11526671B2 (en) | Reading progress estimation based on phonetic fuzzy matching and confidence interval | |
JP2006171579A (ja) | 音声再生プログラムおよびその記録媒体、音声再生装置ならびに音声再生方法 | |
JP5404726B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US7373299B2 (en) | Variable voice rate apparatus and variable voice rate method | |
JP2005148307A (ja) | 話速変換装置、話速変換方法、プログラム及び記録媒体 | |
JP2012181307A (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
KR101611224B1 (ko) | 오디오 인터페이스 | |
JP6441177B2 (ja) | ポーズ長決定装置、ポーズ長決定方法、およびプログラム | |
JP2006284645A (ja) | 音声再生装置およびその再生プログラムならびにその再生方法 | |
KR101030777B1 (ko) | 스크립트 데이터 생성 방법 및 장치 | |
KR20040062317A (ko) | 오디오 데이터 파일의 부가 정보 음성 안내방법 | |
JP2007172597A (ja) | 音声処理装置及び音声処理方法 | |
Bigi et al. | The Automatic Search for Sounding Segments of SPPAS: Application to Cheese! Corpus | |
JP2022049118A (ja) | 情報処理装置及び疲労度判定装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060317 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090526 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090722 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090901 |