JP2009075280A - コンテンツ再生装置 - Google Patents

コンテンツ再生装置 Download PDF

Info

Publication number
JP2009075280A
JP2009075280A JP2007243248A JP2007243248A JP2009075280A JP 2009075280 A JP2009075280 A JP 2009075280A JP 2007243248 A JP2007243248 A JP 2007243248A JP 2007243248 A JP2007243248 A JP 2007243248A JP 2009075280 A JP2009075280 A JP 2009075280A
Authority
JP
Japan
Prior art keywords
content
playback
reproduction
audio
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007243248A
Other languages
English (en)
Inventor
Atsushi Imai
篤 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2007243248A priority Critical patent/JP2009075280A/ja
Publication of JP2009075280A publication Critical patent/JP2009075280A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】再生の目的に応じて最適なコンテンツの再生を実現する。
【解決手段】入力される音声を含むコンテンツデータの再生時に、通常速度の音声を所定のタイミングで再生するコンテンツ再生装置において、前記入力されるコンテンツデータの音声の属性情報を分析する音信号分析部と、前記コンテンツデータに前記音信号分析部により得られる属性情報を対応付けて記録する記録部と、前記コンテンツデータの再生条件を設定する再生条件設定部と、前記音信号分析部により得られる音声及び非音声の出力時間長を前記再生条件に基づいて伸張し、音声の出力速度及び出力時間を調整する出力時間長調整部と、前記出力時間長調整部により調整されたコンテンツを再生する再生部とを有することにより、上記課題を解決する。
【選択図】図1

Description

本発明は、コンテンツ再生装置に係り、特に再生の目的に応じて最適なコンテンツの再生を実現するためのコンテンツ再生装置に関する。
従来、デジタル記録されたコンテンツの再生に関して、その音声が早口に感じられて聞き取りにくいという要求に対し、これを聞き易くすることを目的として発話速度を制御する技術が提案されている。特に、ラジオや映像、番組等のコンテンツを対象とした場合には、決められた再生時間を変えることなく、受聴者にゆっくり感を持たせて聴取させることを目的にした逐次処理による方法が提案されている(例えば、特許文献1参照。)。
なお、特許文献1に示されている技術は、無音区間が継続して所定時間を超える場合に、話速の伸張時間を制御するものであり、入力データに対する出力データの伸張時間を、この伸張時間内の任意の時間だけ削減を制御している。
特開平10−301598号公報
しかしながら、従来技術では、生放送等のリアルタイム再生が行われる場合に、再生時刻より先にどのくらいの長さの非音声があるか否かは予測することができず、また予測するとしても統計的な値に頼らざるを得ないため、最適な再生処理を行うことができない。つまり、例えば再生時刻より先に十分な非音声が存在するような場合であっても、これを最適に短縮して音声部分の十分な伸張に割り当てることができなかった。
また、高速再生時には、聞き易い高速音声を実現する手法として、例えば家庭用のVTR等を用い、音声をゆっくり再生させるために無音部分を主に削除する方法が用いられたり、また高速再生による時間遅れが音声出力バッファの蓄積容量を超えた場合には、一定時間を物理的にスキップして遅れを解消する技術等も存在しているが、何れも場合も高速再生に対応させるために受聴者が聴取したい内容までもがスキップされてしまうことがあった。
つまり、従来技術における話速変換は、一般的に音の入力に対するリアルタイム処理を念頭にしたものであり、音の逐次再生に対してある所定の区間を基準にゆっくり再生する部分の決定や音声波形の伸縮処理を行っていたため、コンテンツ全体の音響的な特徴を把握した上で最適な波形伸縮処理(=話速変換処理)を行う技術はこれまでになかった。
本発明は、上述した問題点に鑑みなされたものであり、再生の目的に応じて最適なコンテンツの再生を実現するためのコンテンツ再生装置を提供することを目的とする。
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
請求項1に記載された発明は、入力される音声を含むコンテンツデータの再生時に、通常速度の音声を所定のタイミングで再生するコンテンツ再生装置において、前記入力されるコンテンツデータの音声の属性情報を分析する音信号分析部と、前記コンテンツデータに前記音信号分析部により得られる属性情報を対応付けて記録する記録部と、前記コンテンツデータの再生条件を設定する再生条件設定部と、前記音信号分析部により得られる音声及び非音声の出力時間長を前記再生条件に基づいて伸張し、音声の出力速度及び出力時間を調整する出力時間長調整部と、前記出力時間長調整部により調整されたコンテンツを再生する再生部とを有することを特徴とする。
請求項1記載の発明によれば、再生の目的に応じて最適なコンテンツの再生を実現することができる。したがって、例えば、コンテンツを再生する場合には、コンテンツの再生時間でできるだけ内容をゆっくりとした印象の音声の再生をしたり、また、高速再生時に、所望の再生時間でできるだけ内容をゆっくりと聞き取りやすく再生したりする等、与えられた再生時間を基準として通常の再生に比べてゆっくり感が高い音声の再生を実現することができる。
請求項2に記載された発明は、入力される音声を含むコンテンツデータの再生時に、通常速度の音声を所定のタイミングで再生するコンテンツ再生装置において、前記入力されるコンテンツデータの音声の属性情報を分析する音信号分析部と、前記コンテンツデータに前記音信号分析部により得られる属性情報を対応付けて記録する記録部と、前記音信号分析部により得られる音声及び非音声の出力時間長を予め設定された調整条件に基づいて複数伸張し、音声の出力速度及び出力時間を調整する出力時間長調整部と、前記コンテンツデータの再生条件を設定する再生条件設定部と、前記出力時間長調整部により調整された再生内容の異なる複数のコンテンツのうち、前記再生条件設定部により設定された条件に対応するコンテンツを選択する選択部と、前記選択部により選択されたコンテンツを再生する再生部とを有することを特徴とする。
請求項2記載の発明によれば、再生の目的に応じて最適なコンテンツの再生を実現することができる。また、コンテンツ再生中に音声を任意に変更しても時間的な無駄が少なく所望する音声を迅速に提供することができる。
請求項3に記載された発明は、前記再生条件設定部は、前記再生部により再生される音声の再生速度、再生様式、再生倍率、及び非音声区間における短縮許容限界値のうち、少なくとも1つを設定することを特徴とする。
請求項3記載の発明によれば、各受聴者の聞き取り易さを基準とした音声の出力形態を簡易でありながら詳細に設定することができる。
請求項4に記載された発明は、前記出力時間長調整部は、予め設定された非音声区間における短縮許容限界値を超えない範囲で各音声区間を均等比率で伸張することを特徴とする。
請求項4記載の発明によれば、どの音声区間も等しい比率で伸張させればよいため、容易に音声区間を伸張することができる。また、話速を統一することができる。
請求項5に記載された発明は、前記出力時間長調整部は、前記音信号分析部により得られる音声区間のうち、音信号分析部により得られる音のパワーが所定の閾値以上の区間を伸張させることを特徴とする。
請求項5記載の発明によれば、伸張してもあまり意味を持たない部分については、その部分の伸張をしないことにより、より効率的に話速のゆっくり感を演出することができる。
本発明によれば、再生の目的に応じて最適なコンテンツの再生を実現することができる。したがって、例えば、コンテンツを再生する場合には、コンテンツの再生時間でできるだけ内容をゆっくりとした印象の音声の再生をしたり、また、高速再生(2倍速や3倍速等の所定の倍率の高速再生や所定のシーンを見つけるための映像や音声を高速で再生させるサーチ再生等を含む)時に、所望の再生時間でできるだけ内容をゆっくりと聞き取りやすく再生したりする等、与えられた再生時間で、通常の再生に比べてゆっくり感が高い音声の再生を実現することができる。
<本発明の概要>
本発明は、例えば、PCやHDDレコーダ等にデジタル記録された音声コンテンツや、音声とそれに付随する映像情報とを含むコンテンツ(以下、何れもコンテンツデータという)を視聴する場合に、コンテンツの再生時間を変えることなく、元となる通常音声(原音声)よりもゆっくりとした印象を受聴者に与える音声を再生する。
また、高速再生時には、2倍速、3倍速等、所望の再生時間全体を基準としてできるだけ内容をゆっくりと聞き取り易く再生する等、与えられた再生時間を基準として、通常の再生に比べてゆっくり感が高い音声の再生を実現する。
具体的には、コンテンツをデジタルメディア等の記録媒体に記録する場合、或いは、記録した後に記録信号の時系列音響情報(どの時刻に、どのような属性の音信号がある、又は、ない等)を抽出し、これを付加情報としてコンテンツと対応付けを行う。これにより、コンテンツ全体の音信号の構成を高精度に把握することができる。
また、本発明では、コンテンツを所定の時間でできるだけゆっくり再生したい場合、非音声の時間短縮を音声の伸張(ゆっくり再生等)に割り当てることが考えられるが、コンテンツ全体の音声と非音声の時系列情報が予め把握できるため、コンテンツ全体を基準として音声区間と非音声区間の両者の時間バランスを考慮した最適な再生方法を決定することができる。
なお、この再生方法は一通りではなく、コンテンツの聴取目的に応じた効果(例えば、実時間でよりゆっくり聴取したいのか、又は、高速再生時の聞き取り補助を期待するのか等)に応じた波形伸縮(話速変換)ルールを再生条件として予め設定しておくことで適応性を持たせることもできる。
以下に、上述したような特徴を有する本発明におけるコンテンツ再生装置を好適に実施した形態について、図面を用いて詳細に説明する。
<コンテンツ再生装置:第1の実施形態>
図1は、第1の実施形態におけるコンテンツ再生装置の一構成例を示す図である。図1に示すコンテンツ再生装置10は、コンテンツ記録部11と、音信号抽出部12と、音信号分析部13と、音信号属性記録部14と、再生条件設定部15と、音声/非音声出力時間長調整部16と、再生部17とを有するよう構成されている。
コンテンツ記録部11は、外部から入力される映像や音声等を含むコンテンツデータを入力し、そのコンテンツデータを記録する。なお、コンテンツ記録部11は、例えば、ハードディスクやメモリ等のストレージ手段により記録される。
また、音信号抽出部12は、外部から入力されるコンテンツから音信号のみを抽出し、抽出した音信号を音信号分析部13に出力する。
なお、入力されるコンテンツがラジオ等の音声データしか存在しない場合には、音信号抽出部12を設けていなくてもよい。また、音信号抽出部12を設けたとしても入力したコンテンツデータが音声データした存在しない場合には、そのまま音信号分析部13に出力するだけでよい。なお、音信号抽出部12は、音声データだけの入力であるか否かの判断を、例えばコンテンツに付随するメタデータ等のコンテンツのデータ種別や、データの拡張子等を参照することで容易に把握することができる。
また、音信号抽出部12は、入力されるコンテンツがMPEG2データ等の映像と音声が一緒に入力される場合には、データ種別等の予め設定されたメタデータのパラメータに基づいて音信号のみのデータを抽出する。
音信号分析部13は、入力した音信号から音信号波形を伸縮させ話速変換を行うために、有声、無声、子音、無音、非音声、ピッチ周波数の変化量、パワーの変化量、コンテンツの再生速度、音声/非音声の時間バランス等の音響分析を行う。
なお、音響分析において、発話の開始部分であるか否かは、その直前の無音区間の継続時間長によって判定することができる。例えば、無音区間の継続時間長の閾値を200〜500(ms)の範囲で設定し、この値を越えるか否かで発話の開始部分を推定する。また、音信号分析部13は、上述した分析結果を入力された音信号(音声データ)の各属性情報として設定する。
なお、音信号分析部13における分析においては、音信号に含まれる雑音や音楽等の背景音もある属性として考慮することもできるが、一般に雑音や背景音の信号と、音声信号とを自動的に判別することが難しいことから、雑音、背景音も例えば上述した有声音(声帯の振動を伴う音声(母音は一般に有声音であり、子音では例えば[b]、[d]、[g]、[z]、[dz]、[n]、[m]、[w]、[r]、[l]等))、無声音(声帯の振動を伴わない音声(子音の[p]、[t]、[k]、[s]、[ts]等))、無音(音が無い状態)の3つの属性のうちの1つに分類して分析を行うことができる。
また、本実施形態における音信号の分析手法としては、上述した各属性を取得できるものであれば既存の手法を用いることができ、例えば特許第3220043号公報等に示されている手法を用いることができる。具体的には、所定時間毎の音声データのパワーを算出し、このパワーが所定の閾値未満の場合に、その部分を無音区間に決定する。また、パワーが閾値以上の場合は、その区間について、声帯の振動を伴う音声である有声音か、声帯の振動を伴わない無声音かの判定を行う。これには、パワーの大きさだけでなく、ゼロ交差分析、自己相関分析等も行う。
また、音信号分析部13は、有声、無声、子音、無音、非音声、ピッチ周波数の変化量、パワーの変化量、コンテンツの再生速度、音声/非音声の時間バランス等がコンテンツ中のどの時刻にどのくらいの時間出現するかを取得して、これを付加情報としてコンテンツと対応付けて音信号属性記録部14に出力する。
音信号属性記録部14は、音信号分析部13により分析された音信号の属性と、音信号に対する付加情報を記録する。上述した付加情報を用いることにより、コンテンツ中の主に音声が記録されている部分(以下、「音声区間」という)と、それ以外の部分(以下、「非音声区間)という)を予め把握することができる。
再生条件設定部15は、再生部17により再生されるコンテンツを選択すると共に、音声の再生条件(波形伸縮のルール)として、再生速度、再生様式(ファイル形式(例えば、mpg、avi、wmv、asf、rm、mp3、wma、wav等))、再生倍率、及び非音声区間における短縮許容限界値のうち、少なくとも1つを設定する。これにより、各受聴者の聞き取り易さを基準とした音声の出力形態を簡易でありながら詳細に設定することができる。なお、短縮許容限界値とは、ある2つの連続する音声区間の間に設けられる有声音を聞き取り易くするために設定される値である。なお、短縮許容限界値については後述する。また、再生条件設定部15は、設定した再生条件を音声/非音声出力時間長調整部16に出力する。なお、再生条件設定部15は、コンテンツ再生装置10の外部装置として設けられていてもよく、その場合には、設定された再生条件を外部から通信ネットワーク等により入力し、音声/非音声出力時間長調整部16に出力する。
音声/非音声出力時間長調整部16は、再生条件設定部15により選択されたコンテンツ、及びその再生条件に基づいて、コンテンツ記録部11より選択されたコンテンツデータを取得し、また、音信号属性記録部14よりコンテンツの付加情報を取得して、コンテンツの再生を行う際に、付加情報と予め設定された再生条件とを対応付けながら波形伸縮処理による所定の話速変換処理を行う。なお、音声/非音声出力時間長調整部16における処理の詳細については後述する。また、音声/非音声出力時間長調整部16は、話速変換により時間調整されたコンテンツデータを再生部に出力する。
再生部17は、音声/非音声出力時間長調整部16により調整された時間長の音声データを含むコンテンツデータを入力し、そのデータをファイル形式に対応した適切な出力手段により再生する。具体的には、例えばコンテンツデータが映像であればディスプレイ等により出力し、音声があればスピーカ等の各種出力手段により再生する。これにより、再生の目的に応じて最適なコンテンツの再生を実現することができる。
<音声/非音声出力時間長調整部16における話速変換手法>
次に、音声/非音声出力時間長調整部16における話速変換手法について、図を用いて説明する。図2は、本実施形態における話速変換の一例を示す図である。なお、図2の例では、話速変換前の音声(原音声)から変換した後の音声(変換音声)に話速変換する場合の一例を示すものである。
図2の例では、あるコンテンツの再生時間Tの中に、原音声について音声が出力されている区間として分析された音声区間21−1〜21−5と、各音声区間に対応する変換音声の音声区間22−1〜22−5が存在する。また、音声区間21−1〜21−5、22−1〜22−5以外の区間は、非音声区間となる。
図2の例では、全ての非音声区間を再生条件設定部15で予め設定された短縮許容限Pcまで短縮し、その分音声区間の伸張に割り当てた場合を示している。このとき、各音声区間の開始時刻は、現音声より早い場合もある。
具体的には、例えば図2に示す原音声の音声区間21−2及びその区間に対応して変換された音声区間22−2に示すように、原音声の音声開始区間よりも時間的に前の時間区間E、及び/又は、音声区間に対して時間的に後の時間区間Eに伸張して音声区間を調整して出力することができる。
また、音声/非音声出力時間長調整部16は、再生速度や再生倍率等の再生条件について再生条件設定部15により予め設定されている場合には、その再生条件に基づいて、音声区間と非音声区間のそれぞれの出力時間を調整する。更に、音声/非音声出力時間長調整部16は、再生様式について再生条件設定部15により予め設定されている場合には、所定のフォーマット(ファイル形式)に変換して出力する。
ここで、非音声区間と判定されたそれぞれの部分については、例えば、予め設定した非音声区間の短縮許容限の時間長Pcを超えるものについては、その設定時間までの短縮を行うものとする。なお、Pcについては、コンテンツの通常の再生時間速度や、コンテンツの全再生時間T等に応じて任意に設定することができる。
ここで、再生条件設定手段15で設定された非音声区間の短縮許容限の時間長Pcを超える時間を有する各非音声区間長をPk(k:1,2,…,n)とすると、コンテンツ全体での短縮許容限Tcは、以下に示す式(1)のように計算される。
Figure 2009075280
これにより、原音声をどのくらいの時間が短縮できるかを算出することができると共に、この時間を利用して音声の伸張(ゆっくり再生)に割り当てることができる。
なお、音声の再生時間調節は、任意の技術を用いてよく、例えば、ピッチ単位で時間長制御が可能な話速変換技術(例えば、特許第2955247号公報)等を用いることもできる。
この場合、例えば、入力された音声データに対して、属性に基づく分析処理を施し、この分析処理で得られた情報に基づいて音声データを所定の時間幅を有するブロック単位に分割し、これをブロック音声データとして蓄積すると共に、音声データの時間的な伸張を実現するために、隣り合うブロック音声データ間において、置換又は挿入すべき接続データを各ブロック毎に生成して蓄積しながら、受聴者の操作に応じた任意の音声スピードに対応する出力音声データを生成するためのブロック接続順序を生成し、この接続順序にしたがって、既にブロック単位に分割されて蓄積されているブロック音声データ及び接続データを順次、接続して出力音声データを生成する。
また、音声区間が伸張可能な倍率rは、次のように算出される。コンテンツ全体の再生時間をTとすると、以下の式(2)に示す関係式が成り立つ。
1<r≦T/(T−Tc) ・・・(2)
ここで、伸張率rは、音声区間と判定されたそれぞれの部分が伸張可能な平均倍率である。本実施形態では、音声区間に適用する伸張率rは、必ずしも固定値である必要はなく、非音声区間の短縮許容限との関係において、目的に応じた聞こえ方で聞こえるように適当な計算式を与えて修正することもできる。
例えば、2倍速を超えるような高速音声を再生する場合、非音声を多く短縮して音声の伸張を優先し受聴者の聞き取り時間を確保する等の処理を行うことができる。また、高速再生等のように音声の伸張が十分に確保できないような場合、音声部分を適応的に波形伸縮してよりゆっくり感が得られる方式(例えば、特許第3220043号公報等)を用いることができる。具体的には、時間的に変化する任意の比率で、入力データを伸張合成して得られた出力データについて、ある無音区間が出現し、この無音区間の継続時間が所定の閾値を超えているとき、この入力データに対する出力データの伸張時間を、この伸張時間内の任意の時間だけ削減する。
つまり、本発明では、音声/非音声出力時間調整部16において、このように再生速度、再生様式、再生倍率、及び非音声区間における短縮許容限界値等に応じて音声区間と非音声区間の割合を変化させるようなルールを再生条件設定部15において適応的に設定する。
例えば、設定されたコンテンツの再生倍率をrpとすると、通常再生rp=1.0を受聴者によりゆっくり聞かせるための一例として、上述したように非音声区間を短縮許容限まで短縮し、全ての音声区間をr=T/(T−Tc)で伸張する方法がある。
また同様に、高速再生rp=w(1<w)されたコンテンツの音声を聞かせるための一例としては、全ての音声区間をr/w倍に伸張し、非音声区間全体の時間をTc/wまで短縮するを用いることができる。
また、上述のように音声区間の伸張率を再生速度に応じて適応的に変化させることもできる。例えば、rp=wの場合、非音声区間全体での短縮許容時間Tcwを「Tcw=Tc/{w+(w−1)}」で与えると、再生速度の上昇に伴って音声区間の伸張割合を増加させることができる。
<伸張方法の他の例>
なお、再生条件として設定される伸張の方法については、例えば再生時に音声にゆっくり感を持たせるため、有声音のみを伸ばすことで、ゆっくり感を向上させることができる。
また、複数の人の声が混在する場合には、例えば一番の声の大きい人の音声区間を基準に変換音声を取得する。これにより、迅速に音速変換を行うことができる。また、複数の声を認識し、分離できる場合には、それぞれの人物や動物等のその発生先の声に対応させて伸張を変更してもよい。
<伸張方法:実施例1>
なお、伸張方法としては、図2に示す原音声の各音声区間21−1〜21−5について、ある所定の非音声区間の短縮許容限界を超えない程度で各音声区間を均等比率で伸ばす方法を用いることができる。これにより、どの音声区間も等しい比率で伸張させればよいため、容易に音声区間を伸張することができると共に、話速を統一することができる。
<伸張方法:実施例2>
図3は、伸張方法の第2の実施例を説明するための図である。通常、音声区間のうち、有声音等の場合は音のパワーが高くなるため、図3に示すように原音声の音声区間31のうち、音のパワーが所定の閾値以上の区間のみを伸張させる方法を用いることができる。なお、この場合には、各音声区間の先頭側の方が音のパワーが大きい場合が多いため、図3の変換音声の音声区間32に示すように、その部分のみを伸ばすことができる。
なお、音のパワーは、上述した音信号分析部13により分析され、属性情報のメタデータとして音信号属性記録部14に蓄積される。そのため、音声/非音声出力時間長調整部16は、音信号属性記録部14から再生条件で設定されたコンテンツに対応する属性情報を取得し、その属性情報から上述した音のパワーに基づく処理を行うことができる。また、上述の閾値は、例えば再生条件設定部15により設定してもよく、また音信号分析部13によりゼロ交差分析を行い、その分析結果に基づいて音声を調整する。
つまり、図3に示すように、原音声の音声区間t〜tにおいて、t〜tの区間wにおいて音のパワーが所定の閾値以上あるため、変換音声の音声区間31において、t〜tの区間をt〜tの区間の再生倍率をゆっくりになるよう伸張して音声区間wとすることで、全体の変換音声は音声区間32となる。これにより、伸張してもあまり意味を持たない音のパワーの小さい部分については、その部分の伸張をしないことにより、より効率的に強調させて話速のゆっくり感を演出することができる。
<伸張方法:実施例3>
なお、他の伸張方法としては、上述した実施例1及び2を組み合わせてもよく、例えば音声区間単位の区間長の長さに応じて予め設定された長さ以上の音声区間の場合には上述した実施例2の手法を行い、音声区間長が設定された閾値未満の場合には、上述した実施例1の手法により各音声区間毎に均等に伸張させることができる。
これにより、適切な位置での音声の伸張を行うことができ、例えば、実時間でよりゆっくりしたいのか、高速再生時の聞き取り補助を期待するのか等のコンテンツの聴取目的に応じた効果に対応する再生条件(音信号波形の伸縮ルール)を予め設定することで、話速変換に適応性を持たせることができる。
このように、予めコンテンツの音声情報を把握することにより、全体の再生時間を固定した上で、目的に応じた適応的な再生を実現することができる。
<コンテンツ再生装置:第2の実施形態>
ここで、上述した第1の実施形態におけるコンテンツ再生装置10は、音声/非音声出力時間長調整部16において、映像等と共にコンテンツとして直接音声が出力される例を示しているが、第2の実施形態では、予め与えられた再生条件(例えば、再生倍率等)で幾つかの変換音声を作成しておき、これを任意に選択できるようにして提示する手法を示す。
図4は、第2の実施形態におけるコンテンツ再生装置の一構成例を示す図である。図4に示すコンテンツ再生装置40は、コンテンツ記録部11と、音信号抽出部12と、音信号分析部13と、音信号属性記録部14と、再生条件設定部41と、音声/非音声出力時間長調整部42と、音声選択部43とを有するよう構成されている。
なお、図4に示すコンテンツ再生装置40において、上述した第1に実施形態に示すコンテンツ再生装置10と略同一の処理を行う構成部分については、図1と同一の名称及び番号を付するものとし、ここでの詳細な説明は省略する。したがって、ここでは第1の実施形態と異なる再生条件設定部41と、音声/非音声出力時間長調整部42と、音声選択部43とについて具体的に説明する。
再生条件設定部41は、音声/非音声出力時間長調整部42から音声選択部43に対して出力される予め設定された複数の調整条件に基づいて調整されたコンテンツの中から、再生部17により再生される音声の再生速度、再生様式、再生倍率、及び非音声区間における短縮許容限界値のうち、少なくとも1つを設定する。また、再生条件設定部41は、設定した再生条件を音声選択部43に出力する。
なお、再生条件設定部41は、コンテンツ再生装置40の外部装置として設けられていてもよく、その場合には、設定された再生条件を外部から通信ネットワーク等により入力し、音声選択部43に出力する。
音声/非音声出力時間長調整部42は、コンテンツ記録部11から予め設定された1又は複数のコンテンツを抽出し、抽出したコンテンツに対応する属性情報を音信号属性記録部14から抽出して、予め設定された調整条件(音声の再生速度、再生様式、再生倍率(2倍、3倍、4倍、8倍、3/4倍、1/2倍、1/3倍等)、及び非音声区間における短縮許容限界値等)に基づいて、1つのコンテンツに対して複数の再生条件の異なるコンテンツが生成されるように調整を行う。
つまり、音声/非音声出力時間長調整部42は、付加情報と予め設定された波形伸縮のルールを対応付けながら波形伸縮処理による話速変換処理等を行う。なお、これらの処理は、予め設定された複数の調整条件に基づいて、その複数の調整条件の全てにおいて複数種類の話速変換処理を行い、予め音声/非音声の出力時間長の調整を行う。また、音声/非音声出力時間長調整部42は、予め設定された再生形態等に基づいてフォーマット変換を行うこともできる。音声/非音声出力時間長調整部42は、これらの調整された複数のコンテンツデータを音声選択部43に出力する。
音声選択部43では、音声/非音声出力時間長調整部42から得られる音声/非音声が調整された複数のコンテンツを一時的に蓄積しておき、再生条件設定部41からの再生条件に基づいて、蓄積された複数のコンテンツの中から再生条件(調整条件)が一致又は類似度が高いコンテンツを選択し、再生部17に出力する。再生部17は、音声選択部43により選択された時間長が調整された音声データを含むコンテンツを再生する。これにより、再生の目的に応じて最適なコンテンツの再生を実現することができる。また、コンテンツ再生中に音声を任意に変更する場合には、すでに音声選択部43に蓄積されているため、再生するコンテンツを切り換えればよく時間的な無駄が少なく所望する音声を提供することができる。
なお、上述のコンテンツ再生装置第1及び第2の実施形態は組み合わせて適用することもできる。また、上述の第1及び第2の実施形態におけるコンテンツデータは、例えば音情報だけでなく映像情報を含む場合もある。この場合には、音の再生タイミングに応じて映像を同期再生することが考えられる。一例として、映像/音声を共にMPEGの再生形態(フォーマット形式)で扱うことで、MPEGの基本動作に基づく音声の再生タイミングに合わせて映像再生を簡便に実現することができる。
上述したように、コンテンツ再生装置により、再生の目的に応じて最適なコンテンツの再生を実現することができる。したがって、例えば、コンテンツを再生する場合には、コンテンツの再生時間でできるだけ内容をゆっくりとした印象の音声の再生をしたり、また、高速再生時に所望の再生時間でできるだけ内容をゆっくりと聞き取りやすく再生したりする等、与えられた再生時間を基準として、通常の再生に比べてゆっくり感が高い音声の再生を実現することができる。
<コンテンツ再生プログラム>
ここで、上述したコンテンツ再生装置10,40は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、マウスやキーボード、ポインティングデバイス等の入力装置、コンテンツを表示する表示手段、並びに外部と通信するためのインタフェースを備えたコンピュータによって構成される。
また、コンテンツ再生装置10,40に備えたコンテンツ記録部11、音信号抽出部12、音信号分析部13、音信号属性記録部14、再生条件設定部15,41、音声/非音声出力時間長調整部16,42、音声選択部43におけるにおける各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、これらのプログラムは、磁気ディスク(フロッピィーディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもできる。
つまり、上述した各構成における処理をコンピュータに実行させるための実行プログラム(コンテンツ再生プログラム)を生成し、例えば、汎用のパーソナルコンピュータやサーバ等にそのプログラムをインストールすることにより、コンテンツ再生処理を実現することができる。
<ハードウェア構成>
ここで、本発明における実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図5は、本発明におけるコンテンツ再生処理が実現可能なハードウェア構成の一例を示す図である。
図5におけるコンピュータ本体には、入力装置51と、出力装置52と、ドライブ装置53と、補助記憶装置54と、メモリ装置55と、各種制御を行うCPU(Central Processing Unit)56と、ネットワーク接続装置57とを有するよう構成されており、これらはシステムバスBで相互に接続されている。
入力装置51は、使用者(受聴者)等が操作するキーボード及びマウス等のポインティングデバイスやマイク等の音声入力デバイス等を有しており、使用者等からのプログラムの実行等、各種操作信号を入力する。出力装置52は、本発明における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイや音声を出力するスピーカ等を有し、CPU56が有する制御プログラムによりプログラムの実行経過や結果等を表示又は音声出力することができる。
ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えばCD−ROM等の記録媒体58等により提供される。プログラムを記録した記録媒体58は、ドライブ装置53にセット可能であり、記録媒体58に含まれる実行プログラムが、記録媒体58からドライブ装置53を介して補助記憶装置54にインストールされる。
補助記憶装置54は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。
メモリ装置55は、CPU56により補助記憶装置54から読み出された実行プログラム等を格納する。なお、メモリ装置55は、ROM(Read Only Memory)やRAM(Random Access Memory)等からなる。
CPU56は、OS(Operating System)等の制御プログラム、メモリ装置55に格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して各処理を実現することができる。また、CPU56は、プログラムの実行中に必要な各種情報を補助記憶装置54から取得することができ、またCPU56は、処理結果等を格納することもできる。
ネットワーク接続装置57は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。
上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで効率的にコンテンツ再生処理を実現することができる。また、プログラムをインストールすることにより、コンテンツ再生処理を容易に実現することができる。
<コンテンツ再生処理手順>
次に、本発明における実行プログラム(コンテンツ再生プログラム)によるコンテンツ再生処理手順についてフローチャートを用いて説明する。なお、以下の説明では、上述したコンテンツ再生装置の第1の実施形態及び第2の実施形態にそれぞれ対応したコンテンツ再生処理手順について説明する。
<第1の実施形態におけるコンテンツ再生処理手順>
図6は、第1の実施形態におけるコンテンツ再生処理手順の一例を示すフローチャートである。図6において、まず、ラジオ、映像、番組等のコンテンツデータを入力し(S01)、入力したコンテンツデータを蓄積する(S02)。
次に、コンテンツデータから音信号のみを抽出し(S03)、抽出された音信号に基づいて音信号の分析を行う(S04)。なお、S04の処理では、例えば音響分析ソフトウェア等を用いて、有声、無声、子音、無音、非音声、ピッチ周波数の変化量、パワーの変化量、コンテンツの再生速度、音声/非音声の時間バランス等の音響分析を行う。
また、S04の処理にて得られた音信号の属性情報等を含む分析結果を蓄積する(S05)。なお、S05の処理において得られる分析結果は、例えば、記録されたコンテンツ信号の時系列音響情報(どの時刻に、どのような属性の音信号があったか否か等)であり、この情報を付加情報としてコンテンツと対応付けて蓄積させることで、コンテンツ全体の音信号の構成を予め把握することができる。
次に、S05の処理後、又はそれ以前に予め設定された再生条件を入力し(S06)、入力した再生条件に基づいて音声/非音声出力時間長を上述した手法に基づいて調整し(S07)、調整されたコンテンツを出力する(S08)。
これにより、コンテンツ全体の音声と非音声のバランスを考慮した最適な再生方法を決定することができる。したがって、再生の目的に応じて最適なコンテンツの再生を実現することができる。
<第2の実施形態におけるコンテンツ再生処理手順>
次に、第2の実施形態におけるコンテンツ再生処理手順について、フローチャートを用いて説明する。図7は、第2の実施形態におけるコンテンツ再生処理手順の一例を示すフローチャートである。
図7において、上述した第1の実施形態におけるコンテンツ再生処理手順と同様に、まず、ラジオ、映像、番組等からなるコンテンツデータを入力し(S11)、入力したコンテンツデータを蓄積する(S12)。
次に、コンテンツデータから音信号のみを抽出し(S13)、抽出された音信号に基づいて音信号の分析を行う(S14)。また、S14の処理にて得られた音信号の属性情報等を含む分析結果を蓄積する(S15)。
次に、S15の処理後、予め設定された複数の調整条件に基づいて、その条件毎に音声/非音声出力時間長を上述した手法に基づいて調整を行い(S16)、調整された複数のデータを一時的に蓄積する(S17)。
ここで、使用者(受聴者、視聴者等)等により設定された再生条件を入力すると(S18)、S17の処理にて蓄積されている複数のコンテンツデータの中から、S18の処理にて設定された再生条件に対応したコンテンツデータを選択して出力する。ここで、コンテンツの再生条件が変更されたか否かを判断し(S20)、再生条件が変更された場合(S20において、YES)、S18の処理に戻り後続の処理を行う。
また、S20の処理において、再生条件が変更されていない場合(S20において、NO)、コンテンツの再生が終了したか否かを判断し(S21)、終了していない場合(S21において、NO)、S19の処理戻り後続の処理を行う。また、S21の処理において、コンテンツの再生が終了した場合(S21において、YES)、処理を終了する。
これにより、コンテンツ全体の音声と非音声のバランスを考慮した最適な再生方法を決定することができる。したがって、再生の目的に応じて最適なコンテンツの再生を実現することができる。また、コンテンツ再生中に音声の再生条件を任意に変更しても時間的なロスが少なく所望する音声を提供することができる。上述したように、コンテンツ再生プログラムにより、再生の目的に応じて最適なコンテンツの再生を実現することができる。つまり、コンテンツ全体の音声と非音声のバランスを考慮した最適な再生方法を決定することができる。
上述したように、本発明によれば、再生の目的に応じて最適なコンテンツの再生を実現することができる。したがって、例えば、コンテンツを再生する場合には、コンテンツの再生時間でできるだけ内容をゆっくりとした印象の音声の再生をしたり、また、高速再生時に、所望の再生時間でできるだけ内容をゆっくりと聞き取りやすく再生したりする等、与えられた再生時間で、通常の再生に比べてゆっくり感が高い音声の再生を実現することができる。
上述したように本発明によれば、HDDレコーダやPC等に記録されたコンテンツを再生する際に、通常の再生時間でゆっくりとした聴き易い音声再生を実現したり、また、高速再生時にも所定の再生時間で音声が聞き取りやすいダイジェスト視聴を可能とする等、何れもコンテンツの音声部分を最も効果的に伸張できるようにコンテンツ全体の音声/非音声の割合を再構成するため、安定したゆっくり感を得ることができる。
また、受聴者の受聴能力を補い、最適な発話速度で受聴することができる。また、視覚障害者の多くが望んでいる速聴(いわゆる“ななめ聞き”)においても、これまでの聴取限界を超えた速さのコンテンツ再生が可能となる。
なお、本発明は、テレビジョン、ラジオ、テープレコーダ、ビデオテープレコーダ、ビデオディスクプレーヤ、補聴器等の映像機器、音響機器、医療機器等において、再生時間を伸張させることなく、話速変換に期待される聞き易さを実現する話速変換手法として適用することができる。
以上本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
第1の実施形態におけるコンテンツ再生装置の一構成例を示す図である。 本実施形態における話速変換の一例を示す図である。 伸張方法の第2の実施例を説明するための図である。 第2の実施形態におけるコンテンツ再生装置の一構成例を示す図である。 本発明におけるコンテンツ再生処理が実現可能なハードウェア構成の一例を示す図である。 第1の実施形態におけるコンテンツ再生処理手順の一例を示すフローチャートである。 第2の実施形態におけるコンテンツ再生処理手順の一例を示すフローチャートである。
符号の説明
10,40 コンテンツ再生装置
11 コンテンツ記録部
12 音信号抽出部
13 音信号分析部
14 音信号属性記録部
15,41 再生条件設定部
16,42 音声/非音声出力時間長調整部
17 再生部
21,22,31,32 音声区間
43 音声選択部
51 入力装置
52 出力装置
53 ドライブ装置
54 補助記憶装置
55 メモリ装置
56 CPU
57 ネットワーク接続装置
58 記録媒体

Claims (5)

  1. 入力される音声を含むコンテンツデータの再生時に、通常速度の音声を所定のタイミングで再生するコンテンツ再生装置において、
    前記入力されるコンテンツデータの音声の属性情報を分析する音信号分析部と、
    前記コンテンツデータに前記音信号分析部により得られる属性情報を対応付けて記録する記録部と、
    前記コンテンツデータの再生条件を設定する再生条件設定部と、
    前記音信号分析部により得られる音声及び非音声の出力時間長を前記再生条件に基づいて伸張し、音声の出力速度及び出力時間を調整する出力時間長調整部と、
    前記出力時間長調整部により調整されたコンテンツを再生する再生部とを有することを特徴とするコンテンツ再生装置。
  2. 入力される音声を含むコンテンツデータの再生時に、通常速度の音声を所定のタイミングで再生するコンテンツ再生装置において、
    前記入力されるコンテンツデータの音声の属性情報を分析する音信号分析部と、
    前記コンテンツデータに前記音信号分析部により得られる属性情報を対応付けて記録する記録部と、
    前記音信号分析部により得られる音声及び非音声の出力時間長を予め設定された調整条件に基づいて複数伸張し、音声の出力速度及び出力時間を調整する出力時間長調整部と、
    前記コンテンツデータの再生条件を設定する再生条件設定部と、
    前記出力時間長調整部により調整された再生内容の異なる複数のコンテンツのうち、前記再生条件設定部により設定された条件に対応するコンテンツを選択する選択部と、
    前記選択部により選択されたコンテンツを再生する再生部とを有することを特徴とするコンテンツ再生装置。
  3. 前記再生条件設定部は、
    前記再生部により再生される音声の再生速度、再生様式、再生倍率、及び非音声区間における短縮許容限界値のうち、少なくとも1つを設定することを特徴とする請求項1又は2に記載のコンテンツ再生装置。
  4. 前記出力時間長調整部は、
    予め設定された非音声区間における短縮許容限界値を超えない範囲で各音声区間を均等比率で伸張することを特徴とする請求項1乃至3の何れか1項に記載のコンテンツ再生装置。
  5. 前記出力時間長調整部は、
    前記音信号分析部により得られる音声区間のうち、音信号分析部により得られる音のパワーが所定の閾値以上の区間を伸張させることを特徴とする請求項1乃至4の何れか1項に記載のコンテンツ再生装置。
JP2007243248A 2007-09-20 2007-09-20 コンテンツ再生装置 Pending JP2009075280A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007243248A JP2009075280A (ja) 2007-09-20 2007-09-20 コンテンツ再生装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007243248A JP2009075280A (ja) 2007-09-20 2007-09-20 コンテンツ再生装置

Publications (1)

Publication Number Publication Date
JP2009075280A true JP2009075280A (ja) 2009-04-09

Family

ID=40610310

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007243248A Pending JP2009075280A (ja) 2007-09-20 2007-09-20 コンテンツ再生装置

Country Status (1)

Country Link
JP (1) JP2009075280A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101909191A (zh) * 2009-06-04 2010-12-08 佳能株式会社 视频处理设备和视频处理方法
JP2012088392A (ja) * 2010-10-15 2012-05-10 Nippon Hoso Kyokai <Nhk> 話速変換装置及びプログラム
WO2014069220A1 (ja) 2012-10-31 2014-05-08 Necカシオモバイルコミュニケーションズ株式会社 再生装置、設定装置、再生方法およびプログラム
US9330679B2 (en) 2012-12-12 2016-05-03 Fujitsu Limited Voice processing device, voice processing method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08146985A (ja) * 1994-11-17 1996-06-07 Sanyo Electric Co Ltd 話速制御システム
JPH08255000A (ja) * 1995-03-17 1996-10-01 Sanyo Electric Co Ltd 音声信号再生装置
JP2001117596A (ja) * 1999-10-21 2001-04-27 Sony Corp 音声信号再生方法および音声信号再生装置
JP2007094234A (ja) * 2005-09-30 2007-04-12 Sony Corp データ記録再生装置、データ記録再生方法及びそのプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08146985A (ja) * 1994-11-17 1996-06-07 Sanyo Electric Co Ltd 話速制御システム
JPH08255000A (ja) * 1995-03-17 1996-10-01 Sanyo Electric Co Ltd 音声信号再生装置
JP2001117596A (ja) * 1999-10-21 2001-04-27 Sony Corp 音声信号再生方法および音声信号再生装置
JP2007094234A (ja) * 2005-09-30 2007-04-12 Sony Corp データ記録再生装置、データ記録再生方法及びそのプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101909191A (zh) * 2009-06-04 2010-12-08 佳能株式会社 视频处理设备和视频处理方法
US8391669B2 (en) 2009-06-04 2013-03-05 Canon Kabushiki Kaisha Video processing apparatus and video processing method
CN101909191B (zh) * 2009-06-04 2013-04-10 佳能株式会社 视频处理设备和视频处理方法
JP2012088392A (ja) * 2010-10-15 2012-05-10 Nippon Hoso Kyokai <Nhk> 話速変換装置及びプログラム
WO2014069220A1 (ja) 2012-10-31 2014-05-08 Necカシオモバイルコミュニケーションズ株式会社 再生装置、設定装置、再生方法およびプログラム
US9728201B2 (en) 2012-10-31 2017-08-08 Nec Corporation Playback apparatus, setting apparatus, playback method, and program
US9330679B2 (en) 2012-12-12 2016-05-03 Fujitsu Limited Voice processing device, voice processing method

Similar Documents

Publication Publication Date Title
JP2955247B2 (ja) 話速変換方法およびその装置
KR101334366B1 (ko) 오디오 배속 재생 방법 및 장치
WO2017006766A1 (ja) 音声対話方法および音声対話装置
JP3619946B2 (ja) 話速変換装置、話速変換方法及び記録媒体
JP2010283605A (ja) 映像処理装置及び方法
JP2009075280A (ja) コンテンツ再生装置
TW200304123A (en) Audio frequency scaling during video trick modes utilizing digital signal processing
JP4965371B2 (ja) 音声再生装置
JP3308567B2 (ja) ディジタル音声処理装置及びディジタル音声処理方法
JP2005044409A (ja) 情報再生装置、情報再生方法および情報再生プログラム
JP2007183410A (ja) 情報再生装置および方法
JP2001222300A (ja) 音声再生装置および記録媒体
JP4130927B2 (ja) 音響再生装置
JP3373933B2 (ja) 話速変換装置
JP2006317768A (ja) 話速変換装置、及びこの話速変換装置を制御する話速変換プログラム
JP3081469B2 (ja) 話速変換装置
JPH09138698A (ja) 音声記録再生装置
JP4212253B2 (ja) 話速変換装置
CN108028055A (zh) 信息处理装置、信息处理系统和程序
JP4580297B2 (ja) 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路
JP4353084B2 (ja) 映像再生方法及び装置及びプログラム
JP2005266571A (ja) 変速再生方法及び装置、並びにプログラム
JP2008145841A (ja) 再生装置、再生方法、信号処理装置、信号処理方法
JPH09146587A (ja) 話速変換装置
JP4529859B2 (ja) 音声再生装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091016

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110712

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120124