JP2008233208A - 再生装置 - Google Patents
再生装置 Download PDFInfo
- Publication number
- JP2008233208A JP2008233208A JP2007068900A JP2007068900A JP2008233208A JP 2008233208 A JP2008233208 A JP 2008233208A JP 2007068900 A JP2007068900 A JP 2007068900A JP 2007068900 A JP2007068900 A JP 2007068900A JP 2008233208 A JP2008233208 A JP 2008233208A
- Authority
- JP
- Japan
- Prior art keywords
- link
- information
- reproduction
- destination
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 claims abstract description 80
- 230000000737 periodic effect Effects 0.000 claims description 77
- 238000003860 storage Methods 0.000 claims description 42
- 230000001172 regenerating effect Effects 0.000 claims description 21
- 230000002123 temporal effect Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 description 45
- 230000006870 function Effects 0.000 description 39
- 238000000034 method Methods 0.000 description 31
- 238000010586 diagram Methods 0.000 description 21
- 238000004458 analytical method Methods 0.000 description 16
- 230000000694 effects Effects 0.000 description 12
- 230000008929 regeneration Effects 0.000 description 7
- 238000011069 regeneration method Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/01—Correction of time axis
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
【解決手段】再生装置1において、再生データを再生する再生部Rと、再生データに対応して予め設定されたリンク元に対応する複数のリンク先に関するリンク情報に基づいてリンク元と各リンク先との間の評価値を算出し、当該複数のリンク先の中から当該評価値における評価が最も高いリンク先を選択する選択プログラム173bを実行したCPU171と、再生部Rによる再生データの再生ポイントがリンク元に対応する位置に達すると、当該リンク元を当該選択されたリンク先にリンクさせることによって当該再生ポイントを当該リンク先に対応する位置に移動させ、再生部Rに当該再生データを再生させる再生制御プログラム173cを実行したCPU171と、を備えるよう構成した。
【選択図】図12
Description
そこで、ピッチを変化させることなく話速を変化させることによって、話速をユーザにとって聴き易く修正する話速変換技術が提案された。
音声データ及び/又は映像データからなる再生データを再生する再生手段と、
前記再生データに対して予め設定されたリンク元に対応する複数のリンク先に関するリンク情報に基づいて、予め決められた所定の演算式によりリンク元と各リンク先との間の評価値を算出し、当該複数のリンク先の中から当該評価値における評価が最も高いリンク先を選択する選択手段と、
前記再生手段による前記再生データの再生ポイントが前記リンク元に対応する位置に対して所定のポイントに達すると、当該リンク元を前記選択手段により選択されたリンク先にリンクさせることによって当該再生ポイントを当該リンク先に対応する位置に移動させ、前記再生手段に当該再生データを再生させる再生制御手段と、
前記再生データの再生速度を指定する指定手段と、
前記リンク先毎に、前記選択手段により選択された回数を記憶する記憶手段と、を備え、
前記リンク情報は、前記再生データにおける前記リンク先の位置に関するリンク先位置情報と、前記リンク元と前記リンク先との波形の不一致度に関する不一致度情報と、前記再生ポイントを前記リンク元から前記リンク先へ移動させることによって生じる信号エネルギーの損失に関する損失情報と、を含み、
前記選択手段は、前記再生データにおける前記指定手段により指定された再生速度に応じた指定再生ポイントと、前記リンク情報に含まれるリンク先位置情報に基づくリンク先ポイントと、の時間的誤差に関する誤差情報を取得し、当該取得した誤差情報と当該誤差情報に設定された誤差情報用重み付けとの積と、前記リンク情報に含まれる不一致度情報と当該不一致度情報に設定された不一致度情報用重み付けとの積と、前記リンク情報に含まれる損失情報と当該損失情報に設定された損失情報用重み付けとの積と、の和である前記評価値を算出して、前記複数のリンク先のうちの、前記記憶手段に記憶された回数が所定の閾値を下回るリンク先の中から、当該評価値が最も小さいリンク先を選択することを特徴とする。
音声データ及び/又は映像データからなる再生データを再生する再生手段と、
前記再生データに対して予め設定されたリンク元に対応する複数のリンク先に関するリンク情報に基づいて、予め決められた所定の演算式によりリンク元と各リンク先との間の評価値を算出し、当該複数のリンク先の中から当該評価値における評価が最も高いリンク先を選択する選択手段と、
前記再生手段による前記再生データの再生ポイントが前記リンク元に対応する位置に対して所定のポイントに達すると、当該リンク元を前記選択手段により選択されたリンク先にリンクさせることによって当該再生ポイントを当該リンク先に対応する位置に移動させ、前記再生手段に当該再生データを再生させる再生制御手段と、
を備えることを特徴とする。
請求項2に記載の再生装置において、
前記再生データの再生速度を指定する指定手段を備え、
前記リンク情報は、前記再生データにおける前記リンク先の位置に関するリンク先位置情報と、前記リンク元と前記リンク先との波形の不一致度に関する不一致度情報と、前記再生ポイントを前記リンク元から前記リンク先へ移動させることによって生じる信号エネルギーの損失に関する損失情報と、を含み、
前記選択手段は、前記再生データにおける前記指定手段により指定された再生速度に応じた指定再生ポイントと、前記リンク情報に含まれるリンク先位置情報に基づくリンク先ポイントと、の時間的誤差に関する誤差情報を取得し、当該取得した誤差情報と、前記リンク情報に含まれる不一致度情報及び損失情報のうちの少なくとも1つの情報と、に基づいて前記評価値を算出することを特徴とする。
請求項3に記載の再生装置において、
前記評価値は、前記誤差情報と当該誤差情報に設定可能な誤差情報用重み付けとの積と、前記不一致度情報と当該不一致度情報に設定可能な不一致度情報用重み付けとの積及び前記損失情報と当該損失情報に設定可能な損失情報用重み付けとの積のうちの少なくとも1つの積と、の和であり、
前記評価値における評価が最も高いリンク先は、当該評価値が最も小さいリンク先であることを特徴とする。
請求項4に記載の再生装置において、
前記リンク元よりも時間的に未来方向にある前記リンク先に関するリンク情報から取得される誤差情報と、前記リンク元よりも時間的に過去方向にある前記リンク先に関するリンク情報から取得される誤差情報と、には別個の前記誤差情報用重み付けが設定可能であり、
前記リンク元よりも時間的に未来方向にある前記リンク先に関するリンク情報に含まれる不一致度情報と、前記リンク元よりも時間的に過去方向にある前記リンク先に関するリンク情報に含まれる不一致度情報と、には別個の前記不一致度情報用重み付けが設定可能であり、
前記リンク元よりも時間的に未来方向にある前記リンク先に関するリンク情報に含まれる損失情報と、前記リンク元よりも時間的に過去方向にある前記リンク先に関するリンク情報に含まれる損失情報と、には別個の前記損失情報用重み付けが設定可能であることを特徴とする。
請求項2〜5の何れか一項に記載の再生装置において、
前記リンク先毎に、前記選択手段により選択された回数を記憶する記憶手段を備え、
前記選択手段は、前記複数のリンク先のうちの、前記記憶手段に記憶された回数が所定の閾値を下回るリンク先の中から、前記評価値における評価が最も高いリンク先を選択することを特徴とする。
請求項2〜6の何れか一項に記載の再生装置において、
前記再生データは、当該再生データに対して予め設定された前記リンク情報とともに所定の記録媒体に記録されていることを特徴とする。
請求項2〜7の何れか一項に記載の再生装置において、
前記リンク情報に基づいて作成された前記リンク元と前記各リンク先との時間的な対応付けを表示するためのリンク表示データに基づくリンク画像を、表示装置に表示させる表示制御手段を備えることを特徴とする。
請求項2〜8の何れか一項に記載の再生装置において、
前記リンク元の前記リンク情報は、当該リンク元の位置から所定の検索範囲内にある任意点のうちの、前記不一致度情報に基づく不一致度が最も小さい不一致度最小点を前記リンク先とした単純リンク情報を含むことを特徴とする。
請求項2〜9の何れか一項に記載の再生装置において、
前記再生データは音声データであり、
前記再生データ中の無音領域内に前記リンク元が位置する場合、当該リンク元の前記リンク情報は、当該無音領域の開始点及び終了点を前記リンク先とした無音内リンク情報を含むことを特徴とする。
請求項2〜10の何れか一項に記載の再生装置において、
前記再生データは音声データであり、
前記再生データ中の無音領域内に前記リンク元が位置する場合、当該リンク元の前記リンク情報は、当該無音領域とは異なる当該再生データ中の無音領域の終了点を前記リンク先とした無音間リンク情報を含むことを特徴とする。
請求項2〜11の何れか一項に記載の再生装置において、
前記再生データは音声データであり、
前記再生データ中の周期音領域の開始点又は終了点に前記リンク元が位置する場合、当該リンク元の前記リンク情報は、それぞれ当該周期音領域の終了点及び開始点を前記リンク先とした周期音リンク情報を含むことを特徴とする。
請求項2〜12の何れか一項に記載の再生装置において、
前記リンク元の前記リンク情報は、ユーザにより指定された指定リンク先を前記リンク先とした主観的リンク情報を含むことを特徴とする。
請求項1〜13の何れか一項に記載の再生装置において、
前記リンク情報を作成するリンク作成手段を備えることを特徴とする。
すなわち、予め設定されたリンク情報に基づいて再生データを再生することができるため、再生時の計算負荷を抑えることができ、さらに、リンク情報に基づいて複数のリンク先の中から最適なリンク先を選択することができるため、ユーザにとって視聴し易い状態で再生データの可変速再生を行うことができる。
したがって、誤差情報(リンク先と指定再生ポイントとの時間的誤差)と、不一致度情報(リンク元とリンク先との波形の不一致度)と、損失情報(再生ポイントの移動によって生じる信号エネルギーの損失)と、を加味して、最適なリンク先を選択して再生データを再生するため、より一層ユーザにとって視聴し易い状態で再生データを再生できる。
また、誤差情報、不一致度情報、損失情報にはそれぞれ重み付けが設定可能であるため、ユーザの好みに応じた重み付けを設定することによって、ユーザの好みに応じたリンク先を決定することができる。
また、記憶手段に記憶された回数が所定の閾値を下回るリンク先の中から、評価値が最も小さいリンク先を選択することができるため、同じリンク先を繰り返して選択することを防止できることとなって、ユーザは不快感をおぼえることなく視聴することができる。
すなわち、予め設定されたリンク情報に基づいて再生データを再生することができるため、再生時の計算負荷を抑えることができ、さらに、リンク情報に基づいて複数のリンク先の中から最適なリンク先を選択することができるため、再生データをユーザにとって視聴し易い状態で再生できる。
したがって、誤差情報(リンク先と指定再生ポイントとの時間的誤差)と、不一致度情報(リンク元とリンク先との波形の不一致度)又は損失情報(再生ポイントの移動によって生じる信号エネルギーの損失)と、を加味して、最適なリンク先を選択して再生データを再生するため、より一層ユーザにとって視聴し易い状態で再生データを再生できる。
したがって、誤差情報、不一致度情報、損失情報にはそれぞれ重み付けが設定可能であるため、ユーザの好みに応じた重み付けを設定することによって、ユーザの好みに応じたリンク先を決定することができる。
したがって、リンク元よりも時間的に未来方向にあるリンク先を選択する場合(すなわち、再生データを高速再生する場合)と、リンク元よりも時間的に過去方向にあるリンク先を選択する場合(すなわち、再生データをスロー再生する場合)と、で別個の重み付けが設定可能であるため、より一層ユーザの好みに応じたリンク先を決定することができる。
したがって、同じリンク先を繰り返して選択することを防止できるため、ユーザは不快感をおぼえることなく視聴することができる。
したがって、記録媒体に記録されたリンク情報に基づいて再生データを再生することができる。
すなわち、リンクを可視化してユーザに呈することができるので、ユーザに予め再生データのどの位置にリンクが張られているかを一望させることができ、ユーザ操作の支援になるため、使い勝手が良い。
すなわち、単純リンク情報に基づくリンクは、リンク元の波形とリンク先の波形との不一致度が小さいリンクであるため、当該リンクを利用すると、再生ポイントを移動させても、再生データの波形の連続性を好適に維持することができることとなって、再生ポイントを移動させることによって生じる不快な音声の出力を抑えることができる。
すなわち、無音内リンク情報に基づくリンクは、無音領域内で移動するリンクであるため、当該リンクを利用すると、例えば、高速再生時に無音領域を省略したり、或いは、スロー再生時に無音領域で時間つぶしをすることができることとなって、有効である。
すなわち、無音間リンク情報に基づくリンクは、異なる無音領域間を移動するためのリンクであるため、当該リンクを利用すると、例えば、高速再生時に1単語を省略すること等ができることとなって、有効である。
すなわち、周期音リンク情報に基づくリンクは、周期音領域内でのリンクであるため、当該リンクを利用すると、例えば、高速再生時に周期音領域を省略したり、或いは、スロー再生時に周期音領域で時間つぶしをすることができることとなって、有効である。
すなわち、主観的リンク情報に基づくリンクは、ユーザが主観的に判断して設けるリンクであるため、当該リンクを利用すると、例えば、ユーザが重要であると判断した領域を省略することなく再生したり、或いは、ユーザが不要であると判断した領域は省略することができることとなって、有効である。
ここで、ユーザとは、リンク情報を作成する者であり、例えば、再生データDを作成した者(例えば、再生データDが映画であれば映画監督、再生データDがドキュメンタリー番組であれば編集者)であってもよいし、再生データDを鑑賞する者(再生データDの視聴者)であってもよい。
したがって、リンク情報を作成して、そのリンク情報に基づいて再生データを再生することができる。
まず、第1の実施の形態における再生装置1について説明する。
図12に示す再生装置1は、例えば、所定の記録媒体Mに記録された音声データからなる再生データDを再生するための装置である。
再生データDは、例えば、図1〜3に示すように、再生データDに対して予め設定されたリンク情報及びリンク表示データとともに記録媒体Mに記録されており、再生装置1は、例えば、当該リンク情報に基づいてピッチを変化させることなく再生データDの時間軸を変更して再生データDを再生するとともに、図14に示すように、当該リンク表示データに基づいて再生中の再生データDに応じたリンク画像G2(詳しくはリンク画像G2が合成された音声画像配置図G1)を表示する。
リンク情報は、例えば、図6に示すリンク情報作成装置3により、記録媒体Mに記録された再生データDに基づいて作成されて、記録媒体Mに記録されるようになっている。
リンク表示データは、例えば、図10に示すリンク表示データ作成装置5により、記録媒体Mに記録された再生データD及びリンク情報に基づいて作成されて、記録媒体Mに記録されるようになっている。
なお、記録媒体Mは、例えば、CDや、DVD、HDD、半導体メモリ、メモリカードなど、データの読み書きが可能な記録媒体であれば任意である。
なお、サンプリング周波数及びフレームの長さは任意であるが、本実施の形態では、サンプリング周波数を44.1kHzとし、1フレームの長さを1/30秒とする。したがって、本実施の形態では、図2(a)に示すように、1フレームの幅WFは1470サンプルとなる。
ここで、各フレームには、先頭からフレーム番号F(F=0,1,…,Fmax(フレームの総数)−1)が付与されているとともに、再生データ中の各サンプル(各信号)には、先頭からサンプル番号P(P=0,1,…,Pmax(サンプルの総数)−1)が付与されていることとする。
なお、リンク元L1は、フレーム内の任意の位置に設けることが可能であるが、フレームの末尾近くに設けることで、アクセスした情報を最大限に活用できるようになる。
ここで、再生データDの再生の際、再生装置1は、例えば、リンク情報に基づいて、リンク元L1に対応する複数のリンク先L2の中から一のリンク先L2を選択して、そのリンク元L1を当該選択されたリンク先L2にリンクさせるようになっているが、このリンク部分(継ぎ接ぎ部分)では、リンク元L1を開始点とする波形と、リンク先L2を開始点とする波形と、を所定の幅WVでオーバーラップするようになっている。本実施の形態では、例えば、図2(a)に示すように、オーバーラップ領域(図2(a)において斜線で示した領域)の幅WVを490サンプルとするため、リンク元L1をフレームの末尾近くに設けるのが好都合である点も考慮して、リンク元L1の位置を、フレームの末尾よりも時間的に489サンプル前の位置に設けることとする。
したがって、本実施の形態では、フレーム番号Fのフレーム内にあるリンク元L1のサンプル番号は、P=((F+1)×WF−1)−(WV−1)=(F+1)×WF−WVとなる。
具体的には、例えば、図2(a)に示すように、フレーム番号F=20のフレーム内にあるリンク元L1のサンプル番号は、P=30380(=(20+1)×1470−490)となり、フレーム番号Fのフレーム内にあるリンク元L1のオーバーラップ領域は、P=30380〜30869の490サンプルとなる。
リンク元L1のサンプル番号をP1とし、リンク先L2のサンプル番号をP2とし、サンプル番号Pの再生データD(音声データ)をdata[P]としたときのオーバーラップ領域の出力波形のi番目のサンプル値out[i]は、加重平均(以下の式(1))で算出される。
ここで、式(1)中のW[i]は窓関数であり、以下の式(2)で定義される。
恒等リンク情報、単純リンク情報、無音内リンク情報、無音間リンク情報、周期音リンク情報及び主観的リンク情報は、例えば、カテゴリctgry[F][K]と、リンク先サンプル番号link[F][K]と、不一致度err[F][K]と、損失loss[F][K]と、などにより構成される。なお、恒等リンク情報、単純リンク情報、無音内リンク情報、無音間リンク情報、周期音リンク情報及び主観的リンク情報は、後述で示すように、カテゴリctgry[F][K]によってそれぞれ識別される。
具体的には、例えば、図2(a)に示すフレーム番号F=20のフレーム内にあるリンク元L1に対応するリンク先L2に関するリンク情報は、例えば、図2(b)に示すような情報となる。
例えば、図2(a)では、リンク元L1に対応するリンク先L2の個数は6個、すなわち、リンク元L1に張られたリンクの本数は6本であるため、図2(b)では、リンク数Kmax[20]=6となっている。
リンクの種類には、例えば、恒等リンクと、単純リンクと、無音内リンクと、無音間リンクと、周期音リンクと、主観的リンクと、などがあり、例えば、図4に示すように、カテゴリctgry[F][K]=0は恒等リンクを示し、カテゴリctgry[F][K]=1は単純リンクを示し、カテゴリctgry[F][K]=2は無音内リンクを示し、カテゴリctgry[F][K]=3は無音間リンクを示し、カテゴリctgry[F][K]=4は周期音リンクを示し、カテゴリctgry[F][K]=5は主観的リンクを示す。
このように再生ポイントを移動させないことをリンクとしておくことで、再生データDの再生時には最適なリンク先L2を探すという操作に一本化できるので、再生装置1のソフトウエアが単純化できる。
すなわち、例えば、周期音リンクには、周期音領域の開始点がリンク元L1であり当該周期音領域の終了点がリンク先L2である周期音リンクと、周期音領域の終了点がリンク元L1であり当該周期音領域の開始点がリンク先L2である周期音リンクと、がある。
ここで、ユーザとは、リンク情報作成装置3を操作してリンク情報を作成する者であり、例えば、再生データDを作成した者であってもよいし、再生データDを鑑賞する者であってもよい。
また、図2(b)では、カテゴリctgry[20][1]=1,カテゴリctgry[20][2]=1,カテゴリctgry[20][3]=1であるので、リンク番号K=1,2,3のリンクは、単純リンクであることが分かる。
また、図2(b)では、カテゴリctgry[20][4]=5,カテゴリctgry[20][5]=5であるので、リンク番号K=4,5のリンクは、主観的リンクであることが分かる。
したがって、図2に示すフレーム番号F=20のフレーム内にあるリンク元L1のリンク情報は、リンク番号K=0のリンクに係る1組の恒等リンク情報と、リンク番号K=1,2,3のリンクに係る3組の単純リンク情報と、リンク番号K=4,5のリンクに係る2組の主観的リンク情報と、を含んでいることになる。
例えば、図2(a)では、リンク番号K=1のリンクのリンク先L2は、サンプル番号P=32456であるため、図2(b)では、リンク先サンプル番号link[20][1]=32456となっている。
ここで、不一致度err[F][K]は、リンク元L1のサンプル番号をP1=(F+1)×WF−WVとし、リンク先L2のサンプル番号をP2=link[F][K]とすると、以下の式(3)で定義することができる。
式(3)中のWW[i]を式(4)とすることで、不一致度err[F][K]は、以下の式(5)に示すように、リンク元信号からの修正量のエネルギーと、リンク先信号からの修正量のエネルギーと、をそれぞれに対する窓関数W[i]で重み付けして加算した量と等しくなる。
また、例えば、図2(a)では、リンク番号K=2のリンクのリンク先L2のオーバーラップ領域は、リンク番号K=1のリンクのリンク先L2のオーバーラップ領域よりも、リンク元L1のオーバーラップ領域に波形が一致しているため、例えば、図2(b)では、リンク番号K=2の不一致度err[20][2]=1.38は、リンク番号K=1の不一致度err[20][1]=2.77よりも小さい値となっている。
具体的には、例えば、リンク先L2がリンク元L1よりも時間的に未来方向にある場合、すなわち、リンク元L1のサンプル番号P1がリンク先L2のサンプル番号P2よりも小さい場合、損失loss[F][K]は、リンク元L1とリンク先L2との間の信号を省略することによって損失する信号エネルギーとして、以下の式(6)で定義され、例えば、リンク先L2がリンク元L1よりも時間的に過去方向にある場合、すなわち、リンク元L1のサンプル番号P1がリンク先L2のサンプル番号P2よりも大きい場合、損失loss[F][K]は、リンク元L1とリンク先L2との間の信号を繰り返すことによって損失する信号エネルギーとして、以下の式(7)で定義される。
さらに、損失loss[F][K]は、ユーザによって決定可能である。すなわち、ユーザは、例えば、再生ポイントがリンク元L1からリンク先L2に移動することによって聴き逃してしまう音声があることに重大な問題があれば損失loss[F][K]を増加させてより大きな値になるように変更したり、或いは逆に、語句等の重要性を主観的に判断した結果、不要な部分を省略するリンクであると判断した場合には、損失loss[F][K]を減少させてより小さな値になるように変更することができる。さらに、ユーザは、語句等の重要性を主観的に判断した結果、不要な部分を省略するリンクを張りたいと判断した場合には、その他のリンクの損失loss[F][K]との相対的関係を考慮して、その不要な部分を省略するリンクの損失loss[F][K]を設定することができる。このようにユーザによって損失loss[F][K]が決定されたリンクが主観的リンクになる。
なお、ユーザによる損失loss[F][K]の決定に際しては、式(6)及び式(7)で定義される客観的損失との相対的関係に注意する必要がある。
具体的には、例えば、図5(a)に示すように、再生データDとリンク情報とを別々にして、記録媒体Mに記録するようにしてもよい。この場合、再生データDの再生直前に、リンク情報のみを再生装置1のメモリ18に転送できるため、使い勝手がよい。
また、例えば、図5(b)に示すように、再生データDがフレーム毎に区切られている場合には、一のフレームに対応するリンク情報を当該一のフレームの前に挿入するようにして、記録媒体Mに記録するようにしてもよい。
また、例えば、図5(c)に示すように、再生データDがフレーム毎に区切られており、且つ、帯域(バンド)毎に分割されている場合には、一のフレーム及び一のバンドに対応するリンク情報を、当該一のフレーム及び当該一のバンドの前に挿入するようにして、記録媒体Mに記録するようにしてもよい。
なお、本実施の形態では、例えば、図5(a)に示すように、再生データDとリンク情報とを別々にして、記録媒体Mに記録することとする。
リンク情報作成装置3は、例えば、図6に示すように、読取部31と、デコーダ32と、リンク情報作成部33と、エンコーダ34と、再生データ出力制御部35と、操作部36と、制御部37と、などを備えて構成される。
また、リンク情報作成装置3は、例えば、再生データ出力制御部35を介して音声出力装置3a及び表示装置3bを接続している。
また、操作部36は、必要に応じてマウス等のポインティングデバイスやジョグダイヤルなどその他の操作装置を備えるものとしてもよい。
次いで、CPU371は、例えば、リンク情報作成部33において、再生データDの全部もしくは一部の信号エネルギー分布から、無音であると判定するための判定閾値を求める。この判定閾値を求める処理は、背景雑音の小さな再生データDと背景雑音の大きな再生データDとでは無音であるか否かの判定閾値が異なるため、必要な処理である。
次いで、CPU371は、例えば、リンク情報作成部33において、再生データD中の信号エネルギーが当該求めた判定閾値以下である領域を無音領域であると判定することによって、再生データD中の無音領域を検出する。
次いで、CPU371は、例えば、リンク情報作成部33において、当該検出した無音領域毎に無音領域情報を作成して、当該検出した無音領域の総数Mmaxをカウントする。
ここで、m(m=0,1,…,Mmax−1)番目の無音領域の無音領域情報には、例えば、当該無音領域の開始点のサンプル番号MA[m]と、当該無音領域の終了点のサンプル番号MB[m]と、などが含まれている。
次いで、CPU371は、例えば、リンク情報作成部33において、再生データD中の信号エネルギーが一定の周期で変化している一定幅以上の領域を周期音領域であると判定することによって、再生データD中の周期音領域を検出する。
次いで、CPU371は、例えば、リンク情報作成部33において、当該検出した周期音領域毎に周期音領域情報を作成して、当該検出した周期音領域の総数Nmaxをカウントする。
ここで、n(n=0,1,…,Nmax−1)番目の周期音領域の周期音領域情報には、例えば、当該周期音領域の開始点のサンプル番号NA[n]と、当該周期音領域の終了点のサンプル番号NB[n]と、などが含まれている。
まず、CPU371は、例えば、記録媒体Mに記録された再生データDを、読取部31に読み取らせて、デコーダ32を介して、リンク情報作成部33に出力させる。
次いで、CPU371は、例えば、リンク情報作成部33において、全てのフレーム(フレーム番号F=0〜Fmax−1)について、カテゴリctgry[F][0]=0、リンク先サンプル番号link[F][0]=リンク元L1のサンプル番号、不一致度err[F][0]=0、損失loss[F][0]=0、とした恒等リンク情報を作成し、そして、恒等リンク情報を作成する度に当該恒等リンクに対応するリンク数Kmax[F]をインクリメントする。
単純リンク情報とは、例えば、リンク元L1の位置から所定の検索範囲内にある任意点のうちの、不一致度err[F][K]が最も小さい不一致度最小点をリンク先L2とした情報である。
図7(a)に、リンク元L1からリンク先L2までのサンプル数(リンク長)と、対応するリンク長となるリンク先L2を選択し続けたときの平均再生速度の逆数と、の関係を示し、図7(b)に、図7(a)における同じ平均再生速度を示すリンク長に関して、アクセス率の低い領域(図7(b)における斜線部)を示す。
そして、図8(a)に、図7(b)の斜線部をテーブル化したものを示す。単純リンクのリンク先L2を探す際、図8(a)のそれぞれの検索範囲内で、不一致度err[F][K]が最も小さくなる不一致度最小点をリンク先L2として探すとよい。その際、図8(a)の“種別7”は平均再生速度が標準速度に近いため、重要であり、且つ、使われる頻度が高い。したがって、“種別7”の検索範囲を2〜3つに分割すると、単純リンクの数が増えてリンク先L2の候補が増えるため、再生時に好ましい結果が得られる。そこで、図8(b)に、図8(a)の“種別7”の検索範囲を3つに分割したものを示す。
また、図8(b)には、“種別12”として、リンク元L1とリンク先L2との時間差が2秒程度の長距離リンクも加えてある。このような長距離リンクは、高速再生において、ユーザにより指定された指定再生ポイントとの時間的誤差が大きくなってしまって、短距離の単純リンクだけではその差を取り戻すことができず、且つ、無音領域が全く存在しないので長距離の移動ができないような再生データDに対しては大変有効である。
次いで、CPU371は、例えば、リンク情報作成部33において、全てのフレーム(フレーム番号F=0〜Fmax−1)内にあるリンク元L1について、図8(b)に示す各種別の検索範囲内から、それぞれ不一致度err[F][K]が最も小さくなる不一致度最小点を探し、そして、当該探した不一致度最小点毎に、カテゴリctgry[F][Kmax[F]]=1、リンク先サンプル番号link[F][Kmax[F]]=不一致度最小点のサンプル番号、不一致度err[F][Kmax[F]]=式(3)から求めた値、損失loss[F][Kmax[F]]=式(6)又は式(7)から求めた値、とした単純リンク情報を作成し、そして、単純リンク情報を作成する度に当該単純リンクに対応するリンク数Kmax[F]をインクリメントする。
ここで、検索範囲(例えば、図8(b))は、予めリンク情報作成装置3に記憶されていることとする。
無音内リンク情報とは、例えば、再生データD中の無音領域内にリンク元L1が位置する場合、当該無音領域の開始点及び終了点をリンク先L2とした情報である。
次いで、CPU371は、例えば、m=0,1,…,(Mmax−1)の順に、無音領域検出プログラム373aを実行したCPU371により検出されたm番目の無音領域内にある全てのフレームについて、カテゴリctgry[F][Kmax[F]]=2、リンク先サンプル番号link[F][Kmax[F]]=m番目の無音領域の終了点のサンプル番号MB[m]、不一致度err[F][Kmax[F]]=式(3)から求めた値、損失loss[F][Kmax[F]]=式(6)又は式(7)から求めた値、とした無音内リンク情報を作成するとともに、カテゴリctgry[F][Kmax[F]]=2、リンク先サンプル番号link[F][Kmax[F]]=m番目の無音領域の開始点のサンプル番号MA[m]、不一致度err[F][Kmax[F]]=式(3)から求めた値、損失loss[F][Kmax[F]]=式(6)又は式(7)から求めた値、とした無音内リンク情報を作成し、そして、無音内リンク情報を作成する度に当該無音内リンク情報に対応するリンク数Kmax[F]をインクリメントする。
ここで、無音内リンクは無音領域内でのリンクであるため、式(6)又は式(7)から求められる損失loss[F][K]は“0”になる。
無音間リンク情報とは、例えば、再生データD中の無音領域内にリンク元L1が位置する場合、当該無音領域とは異なる再生データD中の無音領域の終了点をリンク先L2とした情報である。
次いで、CPU371は、m=0,1,…,(Mmax−1)の順に、無音領域検出プログラム373aを実行したCPU371により検出されたm番目の無音領域内にある全てのフレームについて、カテゴリctgry[F][Kmax[F]]=3、リンク先サンプル番号link[F][Kmax[F]]=m番目の無音領域以外の無音領域の終了点のサンプル番号MB[m]、不一致度err[F][Kmax[F]]=式(3)から求めた値、損失loss[F][Kmax[F]]=式(6)又は式(7)から求めた値、とした無音間リンク情報を作成し、そして、無音間リンク情報を作成する度に当該無音間リンク情報に対応するリンク数Kmax[F]をインクリメントする。
周期音リンク情報とは、例えば、再生データD中の周期音領域の開始点又は終了点にリンク元L1が位置する場合、それぞれ当該周期音領域の終了点及び開始点をリンク先L2とした情報である。
次いで、CPU371は、例えば、n=0,1,…,(Nmax−1)の順に、周期音領域検出プログラム373bを実行したCPU371により検出されたn番目の周期音領域内にあって当該周期音領域の開始点に最も近いフレームについて、カテゴリctgry[F][Kmax[F]]=4、リンク先サンプル番号link[F][Kmax[F]]=n番目の周期音領域の終了点のサンプル番号NB[m]、不一致度err[F][Kmax[F]]=式(3)から求めた値、損失loss[F][Kmax[F]]=式(6)又は式(7)から求めた値、とした周期音リンク情報を作成するとともに、周期音領域検出プログラム373bを実行したCPU371により検出されたn番目の周期音領域内にあって当該周期音領域の終了点に最も近いフレームについて、カテゴリctgry[F][Kmax[F]]=4、リンク先サンプル番号link[F][Kmax[F]]=n番目の周期音領域の開始点のサンプル番号NA[m]、不一致度err[F][Kmax[F]]=式(3)から求めた値、損失loss[F][Kmax[F]=式(6)又は式(7)から求めた値、とした周期音リンク情報を作成し、そして、周期音リンク情報を作成する度に当該周期音リンク情報に対応するリンク数Kmax[F]をインクリメントする。
主観的リンク情報とは、例えば、ユーザによる操作部36の操作により指定された指定リンク先をリンク先L2とした情報である。
なお、主観的リンク情報は、予め作成された単純リンク情報、無音内リンク情報、無音間リンク情報、周期音リンク情報のうち、ユーザによる操作部36の操作により損失loss[F][K]が変更された情報であってもよい。
ここで、ユーザは、主観的リンク情報の作成を指示すると、表示装置3bに表示される音声波形のエンベロープを見ながら音声出力装置3aから出力される音声を聴くことができるとともに、操作部36のジョグダイヤル等を操作して再生データDの再生ポイントをコントロールすることができる。そして、ユーザは、例えば、単語の重要度や会話の重要度、話者の重要度などに応じて、不要な部分を省略するリンクが張られるように操作部36を操作して指定リンク元や指定リンク先を指定することができるとともに、そのリンクの損失loss[F][K]を入力することができる。
次いで、CPU371は、例えば、再生データ出力制御部35において、再生データDを音声出力装置3aに出力するとともに、再生データDに基づいて音声波形のエンベロープデータを作成して表示装置3bに出力する。これにより、音声出力装置3aから再生データD(音声データ)に基づく音声が出力され、表示装置3bから再生データD(音声データ)に基づく音声波形のエンベロープが表示されることになる。なお、表示装置3bには、例えば、音声出力装置3aから出力されている現時点での音声を含む過去から未来の音声に対応した音声波形のエンベロープが表示される。
次いで、CPU371は、例えば、ユーザにより指定リンク元と指定リンク先が指定されると、指定リンク元に最も近いフレーム内にあるリンク元L1から主観的リンクを張るよう決定するとともに、指定リンク先の位置を、その指定リンク先の位置から所定の範囲内にあり、且つ、主観的リンクを張るよう決定されたリンク元L1との波形の不一致度err[F][K]が小さくなる位置に変更し、そして、指定リンク元に最も近いフレームについて、カテゴリctgry[F][Kmax[F]]=5、リンク先サンプル番号link[F][Kmax[F]]=位置が変更された指定リンク先のサンプル番号、不一致度err[F][Kmax[F]]=式(3)から求めた値、損失loss[F][Kmax[F]]=ユーザにより入力された値、とした主観的リンク情報を作成し、そして、主観的リンク情報を作成する度に当該主観的リンク情報に対応するリンク数Kmax[F]をインクリメントする。
また、CPU371は、例えば、既に作成された情報の中に、ユーザにより指定された指定リンク元と指定リンク先とを連結するリンクに関する単純リンク情報、無音内リンク情報、無音間リンク情報及び周期音リンク情報がある場合には、その情報を構成するカテゴリctgry[F][Kmax[F]]を“5”に変更するとともに損失loss[F][K]を“ユーザにより入力された値”に変更することによって、その情報を主観的リンク情報に変更する。
リンク情報作成装置3によるリンク情報の作成に関する処理について、図9のフローチャートを参照して説明する。
具体的には、CPU371は、例えば、リンク情報作成部33において、再生データD中の無音領域を検出して、無音領域の開始点のサンプル番号MA[m]と、無音領域の終了点のサンプル番号MB[m]と、などを含む無音領域情報を作成する。
具体的には、CPU371は、例えば、リンク情報作成部33において、再生データD中の周期音領域を検出して、周期音領域の開始点のサンプル番号NA[n]と、周期音領域の終了点のサンプル番号NB[n]と、などを含む周期音領域情報を作成する。
具体的には、CPU371は、例えば、リンク情報作成部33において、恒等リンク情報を作成するとともに、当該恒等リンクに対応するリンク数Kmax[F]をインクリメントする。
具体的には、CPU371は、例えば、リンク情報作成部33において、単純リンク情報を作成するとともに、当該単純リンクに対応するリンク数Kmax[F]をインクリメントする。
具体的には、CPU371は、例えば、リンク情報作成部33において、ステップS11にて得られた無音領域情報に基づいて、無音内リンク情報を作成するとともに、当該無音内リンクに対応するリンク数Kmax[F]をインクリメントする。
具体的には、CPU371は、例えば、リンク情報作成部33において、ステップS11にて得られた無音領域情報に基づいて、無音間リンク情報を作成するとともに、当該無音間リンクに対応するリンク数Kmax[F]をインクリメントする。
具体的には、CPU371は、例えば、リンク情報作成部33において、ステップS12にて得られた周期音領域情報に基づいて、周期音リンク情報を作成するとともに、当該無音間リンクに対応するリンク数Kmax[F]をインクリメントする。
具体的には、CPU371は、例えば、再生データ出力制御部35において、音声出力装置3aを介して再生データD(音声データ)に基づく音声を出力させるとともに、表示装置3bを介して再生データD(音声データ)に基づく音声波形のエンベロープを表示させ、そして、リンク情報作成部33において、主観的リンク情報を作成するとともに、必要があれば当該主観的リンクに対応するリンク数Kmax[F]をインクリメントする。
リンク表示データ作成装置5は、例えば、図10に示すように、読取部51と、デコーダ52と、リンク表示データ作成部53と、エンコーダ54と、操作部56と、制御部57と、などを備えて構成される。
次いで、CPU571は、例えば、リンク表示データ作成部53において、再生データDを所定の分析条件に従って分析する。
ここで、分析条件は、例えば、短時間フーリエ変換(FFT)、ケプストラム分析、ウイグナー分析による時間周波数平面表現、ARモデル当てはめによる極位置の推定などである。また、分析条件は、理論的な最適性などの裏付けがなくても、人間の直感に一致している経験的な条件であってもよい。
具体的には、CPU571は、例えば、リンク表示データ作成部53において、分析プログラム573aを実行したCPU571による分析結果を、分析によって得られたパラメータ値に対応するRGB値及び画素数(画像の大きさ)に変換することにより、RGB値で表現された色を有する画素集団として画素小片化することによって、音声画像Bの画像データに変換する。
次いで、CPU571は、例えば、リンク表示データ作成部53において、リンク情報に基づいて、リンク表示データを作成する。
ここで、CPU571は、例えば、リンク長(リンク元L1からリンク先L2までのサンプル数)が所定サンプル数以上(例えば、1万サンプル以上)のリンクを示すリンク画像G2のみを音声画像配置図G1に合成することとする。
リンク表示データ作成装置5によるリンク表示データの作成に関する処理について、図11のフローチャートを参照して説明する。
再生装置1は、例えば、図12に示すように、再生部Rと、リンク表示データ時間軸変更部15と、操作部16と、制御部17と、メモリ18と、などを備えて構成される。
また、再生装置1は、例えば、再生部Rの再生データ時間軸変更部13を介して音声出力装置3aを接続するとともに、リンク表示データ時間軸変更部15を介して表示装置3bを接続している。
より具体的には、制御部17は、例えば、フレーム番号Fのフレーム内にあるリンク元L1について選択プログラム173bを実行したCPU171により一のリンク先L2が選択されると、当該フレーム番号Fと、当該リンク元L1と当該選択された一のリンク先L2とを連結するリンクのリンク番号Kと、の組{F,K}をメモリ18に記憶させる。
ここで、メモリ18には、例えば、最新の{F,K}が、所定数(例えば、100個)記憶されるようになっている。
リンクを利用して再生ポイントを移動させるとき、特にスロー再生の場合は、同じリンクを繰り返し利用してしまうことが起こりがちであり、ユーザは、その繰り返しの周期を強く感じてしまって不快感をおぼえることがある。そこで、これを防止するために、メモリ18に{F,K}を記憶するようになっている。しかしながら、恒等リンクの場合は、再生ポイントの実質的な移動を伴わないため、繰り返し利用してもユーザは不快感をおぼえることがなく、メモリ18に{F,K}を記録する実益がない。そのため、本実施の形態では、恒等リンクの場合には、メモリ18に{F,K}を記録しないようになっている。
より具体的には、制御部17は、例えば、ユーザによる操作部16の操作により再生データDを再生するよう指示されると、記録媒体Mに記録されたリンク情報を、読取部11に読み取らせて、デコーダ12を介して、メモリ18に出力させ、メモリ18にリンク情報を記憶させる。
ここで、所定のポイントは、リンク元L1に対応する位置であってもよいし、リンク元L1に対応する位置から所定のサンプル数だけ過去方向に離れた位置であってもよい。本実施の形態では、所定のポイントを、リンク元L1に対応する位置とする。
すなわち、CPU171は、再生部Rによる再生データDの再生ポイントがリンク元L1に対応する位置に達すると、指定再生ポイントのサンプル番号を検出する。
そして、CPU171は、例えば、再生データDの再生開始から現時点までのユーザにより指定された再生速度(例えば、図13の太線)に基づいて、再生データDの中から、ユーザにより指定された現時点での再生速度(例えば、図13の破線)に応じた指定再生ポイントのサンプル番号を検出する。
次いで、CPU171は、例えば、再生データ時間軸変更部13において、当該取得した誤差情報ETと、リンク情報に含まれる不一致度情報EE(EE=不一致度err[F][K])と、リンク情報に含まれる損失情報EL(EL=損失loss[F][K])と、に基づいて評価値Eを算出する。
また、リンク元L1よりも時間的に未来方向にあるリンク先L2(正方向リンクのリンク先L2)に関するリンク情報に含まれる不一致度情報EEと、リンク元L1よりも時間的に過去方向にあるリンク先L2(逆方向リンクのリンク先L2)に関するリンク情報に含まれる不一致度情報EEと、には別個の不一致度情報用重み付けCEが設定可能である。
また、リンク元L1よりも時間的に未来方向にあるリンク先L2(正方向リンクのリンク先L2)に関するリンク情報に含まれる損失情報ELと、リンク元L1よりも時間的に過去方向にあるリンク先L2(逆方向リンクのリンク先L2)に関するリンク情報に含まれる損失情報ELと、には別個の損失情報用重み付けCLが設定可能である。
なお、誤差情報用重み付けCTと、不一致度情報用重み付けCEと、損失情報用重み付けCLとは、リンク元L1よりも時間的に未来方向にあるリンク先L2と、リンク元L1よりも時間的に過去方向にあるリンク先L2と、で変化させる限りではなく、例えば、リンクの種類によって変化させてもよい。
無論、誤差情報用重み付けCTの値、不一致度情報用重み付けCEの値及び損失情報用重み付けCLの値は、式(9)に示す限りでなく任意である。
具体的には、CPU171は、例えば、フレーム番号Fのフレーム内にあるリンク元L1について選択プログラム173bを実行したCPU171により一のリンク先L2が選択されると、メモリ18に記憶された、当該フレーム番号Fと、当該リンク元L1と当該選択された一のリンク先L2とを連結するリンクのリンク番号Kと、の組{F,K}の個数が、所定の閾値を下回るか否かを判断して、下回ると判断したリンク先L2の中から、評価値Eが最も小さいリンク先L2を選択する。
なお、所定の閾値は、例えば、リンクの種類毎に設定されていることとする。
CPU171は、かかる選択プログラム173bを実行することによって、選択手段として機能する。
ここで、所定のポイントは、リンク元L1に対応する位置であってもよいし、リンク元L1に対応する位置から所定のサンプル数だけ過去方向に離れた位置であってもよい。本実施の形態では、所定のポイントを、リンク元L1に対応する位置とする。
すなわち、CPU171は、再生部Rによる再生データDの再生ポイントがリンク元L1に対応する位置に達すると、メモリ18に転送されたリンク情報に基づいてピッチを変化させることなく再生データDの時間軸を変更するよう、再生部Rに再生データDを再生させて、再生データDに基づく音声を音声出力装置1aから出力させる。
より具体的には、CPU171は、例えば、前述の式(1)を用いて、リンク元L1のオーバーラップ領域と、選択されたリンク先L2のオーバーラップ領域と、をオーバーラップさせることによって、再生データDの時間軸を変更する。
CPU171は、かかる再生制御プログラム173cを実行することによって、再生制御手段として機能する。
次いで、CPU571は、例えば、リンク表示データ時間軸変更部15において、再生データ時間軸変更部13における再生データDの時間軸の変更に応じて、リンク表示データの時間軸を変更して、表示装置1bに出力する。これにより、表示装置1bからは、音声出力装置1bから出力されている音声に対応した、リンク画像G2が合成された音声画像配置図G1が表示されることになる。なお、表示装置1bには、例えば、音背出力装置1aから出力されている現時点での音声を含む過去から未来の音声に対応した、リンク画像G2が合成された音声画像配置図G1が表示される。
図14に示すリンク画像G2が合成された音声画像配置図G1では、例えば、横軸は時間経過を示す現時点を起点とした相対的な時間軸となっており、当該時間軸に沿って配置された各音声画像Bの大きさによって音声の強度が表現され、各音声画像Bの形によって音声の音色(例えば、前述のFTT解析によって得られる倍音成分の構成比)が表現され、各音声画像Bの色によって音声の基本周波数(例えば、前述のケプストラム分析によって得られる基本周波数)が表現され、現時点を示す指標Sが表現されている。
さらに、図14に示すリンク画像G2が合成された音声画像配置図G1では、例えば、リンク元L1とそのリンク元L1に対応するリンク先L2とを連結するリンクを示すリンク画像G2が、例えば、リンク元L1を起点とした矢印によって表現されている。
次に、再生装置1による再生データDの再生に関する処理について、図15及び図16のフローチャートを参照して説明する。
具体的には、CPU171は、再生部Rによる再生データDの再生ポイント(リンク元L1)のオーバーラップ領域と、リンク先サンプル番号link[F][Kopt]のリンク先L2のオーバーラップ領域と、をオーバーラップさせる。
すなわち、予め設定されたリンク情報に基づいて再生データD(音声データ)を再生することができるため、再生時の計算負荷を抑えつつ、ピッチを変化させることなく再生データDの時間軸を変更して再生ポイントを移動することができ、さらに、リンク情報に基づいて複数のリンク先L2の中から最適なリンク先L2を選択することができるため、ユーザにとって視聴し易い状態で再生データDの可変速再生を行うことができる。
したがって、誤差情報ET(リンク先L2と指定再生ポイントとの時間的誤差)と、不一致度情報EE(リンク元L1のオーバーラップ領域とリンク先L2のオーバーラップ領域との波形の不一致度)と、損失情報EL(再生ポイントの移動によって生じる信号エネルギーの損失)と、を加味して、最適なリンク先L2を選択して再生データDを再生するため、より一層ユーザにとって視聴し易い状態で再生データDを再生できる。
したがって、誤差情報ET、不一致度情報EE、損失情報ELにはそれぞれ重み付けが設定可能であるため、ユーザの好みに応じた重み付けを設定することによって、ユーザの好みに応じたリンク先L2を決定することができる。
したがって、リンク元L1よりも時間的に未来方向にあるリンク先L2を選択する場合(すなわち、再生データDを高速再生する場合)と、リンク元L1よりも時間的に過去方向にあるリンク先L2を選択する場合(すなわち、再生データDをスロー再生する場合)と、で別個の重み付けが設定可能であるため、より一層ユーザの好みに応じたリンク先L2を決定することができる。
したがって、同じリンク先L2を繰り返して選択することを防止できるため、ユーザは不快感をおぼえることなく視聴することができる。
したがって、記録媒体Mに記録されたリンク情報に基づいて再生データDを再生することができる。
すなわち、リンクを可視化してユーザに呈することができるため、ユーザは予め再生データのどの位置にリンクが張られているかが分かることとなって、使い勝手が良い。
具体的には、例えば、主観的リンクを呈することによって、重要でない時間区間が再生データDの中にどのように分布しているかをユーザに一望させることができ、ユーザ操作の支援になる。
すなわち、単純リンク情報に基づくリンクは、リンク元L1のオーバーラップ領域の波形とリンク先L2のオーバーラップ領域の波形との不一致度が小さいリンクであるため、当該リンクを利用すると、再生ポイントを移動させても、再生データDの波形の連続性を好適に維持することができることとなって、再生ポイントを移動させることによって生じる不快な音声の出力を抑えることができる。
すなわち、無音内リンク情報に基づくリンクは、無音領域内で移動するリンクであるため、当該リンクを利用すると、例えば、高速再生時に無音領域を省略したり、或いは、スロー再生時に無音領域で時間つぶしをすることができることとなって、有効である。
すなわち、無音間リンク情報に基づくリンクは、異なる無音領域間を移動するためのリンクであるため、当該リンクを利用すると、例えば、高速再生時に1単語を省略すること等ができることとなって、有効である。
すなわち、周期音リンク情報に基づくリンクは、周期音領域内でのリンクであるため、当該リンクを利用すると、例えば、高速再生時に周期音領域を省略したり、或いは、スロー再生時に周期音領域で時間つぶしをすることができることとなって、有効である。
すなわち、主観的リンク情報に基づくリンクは、ユーザが主観的に判断して設けるリンクであるため、当該リンクを利用すると、例えば、ユーザが重要であると判断した領域を省略することなく再生したり、或いは、ユーザが不要であると判断した領域は省略することができることとなって、有効である。
次に、第2の実施の形態における再生装置1Aについて説明する。
なお、第2の実施の形態の再生装置1Aは、第1の実施の形態の再生装置1に、リンク情報作成装置3とリンク表示データ作成装置5とを含んで構成される装置である。したがって、異なる箇所のみについて説明し、その他の共通する部分は同一符号を付して説明する。
再生装置1Aは、例えば、所定の記録媒体MAに記録された音声データからなる再生データDに基づいてリンク情報を作成して記録媒体MAに記録し、その後、記録媒体MAに記録されたリンク情報に基づいて記録媒体MAに記録された再生データDを再生すると同時に、記録媒体MAに記録された再生データD及びリンク情報に基づいてリンク表示データを作成して表示する。
また、再生装置1Aは、例えば、再生データ出力制御部35及び再生データ時間軸変更部13を介して音声出力装置1aAを接続するとともに、再生データ出力制御部35及びリンク表示データ作成部15Aを介して表示装置1bAを接続している。
すなわち、例えば、再生データDの再生時にユーザにより早送り再生がされると、その早送り再生がされた領域を省略するように主観的リンクを張ることができる。
この場合、早送り再生が開始された位置に最も近いフレーム内にあるリンク元L1から主観的リンクを張るよう決定するとともに、早送り再生が終了された位置を、その早送り再生が終了された位置から所定の範囲内にあり、且つ、主観的リンクを張るよう決定されたリンク元L1との波形の不一致度err[F][K]が小さくなる位置に変更するとよい。また、この場合、損失loss[F][K]は、ユーザにより入力された値であってもよいし、早送り再生時に作成する主観的リンク用として予め設定された値であってもよいし、早送り再生をするユーザ毎に設定された値であってもよい。
また、第1及び第2の実施の形態において、映像データDは、映像データのみからなってもよい。この場合、音声データに関するリンク情報に代えて、映像データに関するリンク情報を作成する必要がある。
すなわち、例えば、1時間分の再生データDを、15分で再生するようユーザによる操作部16,16Aの操作により指定された場合、ユーザによる操作部16,16Aの操作により指定された再生速度が“4倍速”であるとして、指定再生ポイントを検出し、そして、リンク先L2を選択して、再生ポイントを当該選択されたリンク先L2に移動させて再生データDを再生するようにしてもよい。これにより、再生装置1,1Aは、ユーザにとって視聴し易い状態で再生データDのダイジェスト再生を行うことができる。
第1の実施の形態において、再生装置1と、リンク表示データ作成装置5と、は別体ではなく、一体であってもよい。この場合、リンク表示データは予め作成する必要はなく、再生データDの再生時に作成して表示することができる。
1b,1bA 表示装置
16,16A 操作部(指定手段)
18 メモリ(記憶手段)
171 CPU(選択手段、再生制御手段、表示制御手段、リンク情報作成手段)
173b 選択プログラム(選択手段)
173c 再生制御プログラム(再生制御手段)
173d 表示制御プログラム(表示制御手段)
373a 無音領域検出プログラム(リンク情報作成手段)
373b 周期音領域検出プログラム(リンク情報作成手段)
373c リンク情報作成プログラム(リンク情報作成手段)
D 再生データ
G2 リンク画像
L1 リンク元
L2 リンク先
M,MA 記録媒体
R,RA 再生部(再生手段)
Claims (14)
- 音声データ及び/又は映像データからなる再生データを再生する再生手段と、
前記再生データに対して予め設定されたリンク元に対応する複数のリンク先に関するリンク情報に基づいて、予め決められた所定の演算式によりリンク元と各リンク先との間の評価値を算出し、当該複数のリンク先の中から当該評価値における評価が最も高いリンク先を選択する選択手段と、
前記再生手段による前記再生データの再生ポイントが前記リンク元に対応する位置に対して所定のポイントに達すると、当該リンク元を前記選択手段により選択されたリンク先にリンクさせることによって当該再生ポイントを当該リンク先に対応する位置に移動させ、前記再生手段に当該再生データを再生させる再生制御手段と、
前記再生データの再生速度を指定する指定手段と、
前記リンク先毎に、前記選択手段により選択された回数を記憶する記憶手段と、を備え、
前記リンク情報は、前記再生データにおける前記リンク先の位置に関するリンク先位置情報と、前記リンク元と前記リンク先との波形の不一致度に関する不一致度情報と、前記再生ポイントを前記リンク元から前記リンク先へ移動させることによって生じる信号エネルギーの損失に関する損失情報と、を含み、
前記選択手段は、前記再生データにおける前記指定手段により指定された再生速度に応じた指定再生ポイントと、前記リンク情報に含まれるリンク先位置情報に基づくリンク先ポイントと、の時間的誤差に関する誤差情報を取得し、当該取得した誤差情報と当該誤差情報に設定された誤差情報用重み付けとの積と、前記リンク情報に含まれる不一致度情報と当該不一致度情報に設定された不一致度情報用重み付けとの積と、前記リンク情報に含まれる損失情報と当該損失情報に設定された損失情報用重み付けとの積と、の和である前記評価値を算出して、前記複数のリンク先のうちの、前記記憶手段に記憶された回数が所定の閾値を下回るリンク先の中から、当該評価値が最も小さいリンク先を選択することを特徴とする再生装置。 - 音声データ及び/又は映像データからなる再生データを再生する再生手段と、
前記再生データに対して予め設定されたリンク元に対応する複数のリンク先に関するリンク情報に基づいて、予め決められた所定の演算式によりリンク元と各リンク先との間の評価値を算出し、当該複数のリンク先の中から当該評価値における評価が最も高いリンク先を選択する選択手段と、
前記再生手段による前記再生データの再生ポイントが前記リンク元に対応する位置に対して所定のポイントに達すると、当該リンク元を前記選択手段により選択されたリンク先にリンクさせることによって当該再生ポイントを当該リンク先に対応する位置に移動させ、前記再生手段に当該再生データを再生させる再生制御手段と、
を備えることを特徴とする再生装置。 - 請求項2に記載の再生装置において、
前記再生データの再生速度を指定する指定手段を備え、
前記リンク情報は、前記再生データにおける前記リンク先の位置に関するリンク先位置情報と、前記リンク元と前記リンク先との波形の不一致度に関する不一致度情報と、前記再生ポイントを前記リンク元から前記リンク先へ移動させることによって生じる信号エネルギーの損失に関する損失情報と、を含み、
前記選択手段は、前記再生データにおける前記指定手段により指定された再生速度に応じた指定再生ポイントと、前記リンク情報に含まれるリンク先位置情報に基づくリンク先ポイントと、の時間的誤差に関する誤差情報を取得し、当該取得した誤差情報と、前記リンク情報に含まれる不一致度情報及び損失情報のうちの少なくとも1つの情報と、に基づいて前記評価値を算出することを特徴とする再生装置。 - 請求項3に記載の再生装置において、
前記評価値は、前記誤差情報と当該誤差情報に設定可能な誤差情報用重み付けとの積と、前記不一致度情報と当該不一致度情報に設定可能な不一致度情報用重み付けとの積及び前記損失情報と当該損失情報に設定可能な損失情報用重み付けとの積のうちの少なくとも1つの積と、の和であり、
前記評価値における評価が最も高いリンク先は、当該評価値が最も小さいリンク先であることを特徴とする再生装置。 - 請求項4に記載の再生装置において、
前記リンク元よりも時間的に未来方向にある前記リンク先に関するリンク情報から取得される誤差情報と、前記リンク元よりも時間的に過去方向にある前記リンク先に関するリンク情報から取得される誤差情報と、には別個の前記誤差情報用重み付けが設定可能であり、
前記リンク元よりも時間的に未来方向にある前記リンク先に関するリンク情報に含まれる不一致度情報と、前記リンク元よりも時間的に過去方向にある前記リンク先に関するリンク情報に含まれる不一致度情報と、には別個の前記不一致度情報用重み付けが設定可能であり、
前記リンク元よりも時間的に未来方向にある前記リンク先に関するリンク情報に含まれる損失情報と、前記リンク元よりも時間的に過去方向にある前記リンク先に関するリンク情報に含まれる損失情報と、には別個の前記損失情報用重み付けが設定可能であることを特徴とする再生装置。 - 請求項2〜5の何れか一項に記載の再生装置において、
前記リンク先毎に、前記選択手段により選択された回数を記憶する記憶手段を備え、
前記選択手段は、前記複数のリンク先のうちの、前記記憶手段に記憶された回数が所定の閾値を下回るリンク先の中から、前記評価値における評価が最も高いリンク先を選択することを特徴とする再生装置。 - 請求項2〜6の何れか一項に記載の再生装置において、
前記再生データは、当該再生データに対して予め設定された前記リンク情報とともに所定の記録媒体に記録されていることを特徴とする再生装置。 - 請求項2〜7の何れか一項に記載の再生装置において、
前記リンク情報に基づいて作成された前記リンク元と前記各リンク先との時間的な対応付けを表示するためのリンク表示データに基づくリンク画像を、表示装置に表示させる表示制御手段を備えることを特徴とする再生装置。 - 請求項2〜8の何れか一項に記載の再生装置において、
前記リンク元の前記リンク情報は、当該リンク元の位置から所定の検索範囲内にある任意点のうちの、前記不一致度情報に基づく不一致度が最も小さい不一致度最小点を前記リンク先とした単純リンク情報を含むことを特徴とする再生装置。 - 請求項2〜9の何れか一項に記載の再生装置において、
前記再生データは音声データであり、
前記再生データ中の無音領域内に前記リンク元が位置する場合、当該リンク元の前記リンク情報は、当該無音領域の開始点及び終了点を前記リンク先とした無音内リンク情報を含むことを特徴とする再生装置。 - 請求項2〜10の何れか一項に記載の再生装置において、
前記再生データは音声データであり、
前記再生データ中の無音領域内に前記リンク元が位置する場合、当該リンク元の前記リンク情報は、当該無音領域とは異なる当該再生データ中の無音領域の終了点を前記リンク先とした無音間リンク情報を含むことを特徴とする再生装置。 - 請求項2〜11の何れか一項に記載の再生装置において、
前記再生データは音声データであり、
前記再生データ中の周期音領域の開始点又は終了点に前記リンク元が位置する場合、当該リンク元の前記リンク情報は、それぞれ当該周期音領域の終了点及び開始点を前記リンク先とした周期音リンク情報を含むことを特徴とする再生装置。 - 請求項2〜12の何れか一項に記載の再生装置において、
前記リンク元の前記リンク情報は、ユーザにより指定された指定リンク先を前記リンク先とした主観的リンク情報を含むことを特徴とする再生装置。 - 請求項1〜13の何れか一項に記載の再生装置において、
前記リンク情報を作成するリンク作成手段を備えることを特徴とする再生装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007068900A JP4390289B2 (ja) | 2007-03-16 | 2007-03-16 | 再生装置 |
US12/048,297 US8165888B2 (en) | 2007-03-16 | 2008-03-14 | Reproducing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007068900A JP4390289B2 (ja) | 2007-03-16 | 2007-03-16 | 再生装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008233208A true JP2008233208A (ja) | 2008-10-02 |
JP4390289B2 JP4390289B2 (ja) | 2009-12-24 |
Family
ID=39775636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007068900A Expired - Fee Related JP4390289B2 (ja) | 2007-03-16 | 2007-03-16 | 再生装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8165888B2 (ja) |
JP (1) | JP4390289B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011223097A (ja) * | 2010-04-05 | 2011-11-04 | Sony Corp | 画像処理装置、画像処理方法及び画像処理プログラム |
US10051279B2 (en) * | 2014-07-01 | 2018-08-14 | Samsung Display Co., Ltd. | High quality display system combining compressed frame buffer and temporal compensation technique |
US10878835B1 (en) * | 2018-11-16 | 2020-12-29 | Amazon Technologies, Inc | System for shortening audio playback times |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL84902A (en) * | 1987-12-21 | 1991-12-15 | D S P Group Israel Ltd | Digital autocorrelation system for detecting speech in noisy audio signal |
JPH06259093A (ja) | 1993-03-08 | 1994-09-16 | Fujitsu Ltd | デジタル音声データの再生速度変換方法及び装置 |
US5611018A (en) * | 1993-09-18 | 1997-03-11 | Sanyo Electric Co., Ltd. | System for controlling voice speed of an input signal |
JP3178505B2 (ja) * | 1995-07-31 | 2001-06-18 | 日本ビクター株式会社 | 伝送再生装置 |
ES2267135T3 (es) | 1996-11-11 | 2007-03-01 | Matsushita Electric Industrial Co., Ltd. | Convertidor de velocidad de reproduccion de sonido. |
JP2955247B2 (ja) | 1997-03-14 | 1999-10-04 | 日本放送協会 | 話速変換方法およびその装置 |
JP2003223199A (ja) * | 2002-01-28 | 2003-08-08 | Telecommunication Advancement Organization Of Japan | 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム |
JP2003241800A (ja) | 2003-02-10 | 2003-08-29 | Yamaha Corp | ディジタル信号の時間軸圧伸方法及び装置 |
JP2005352047A (ja) * | 2004-06-09 | 2005-12-22 | Victor Co Of Japan Ltd | 学習装置 |
JP2006127647A (ja) | 2004-10-29 | 2006-05-18 | Sharp Corp | 音声高速再生装置及び方法 |
JP4630876B2 (ja) * | 2005-01-18 | 2011-02-09 | 富士通株式会社 | 話速変換方法及び話速変換装置 |
-
2007
- 2007-03-16 JP JP2007068900A patent/JP4390289B2/ja not_active Expired - Fee Related
-
2008
- 2008-03-14 US US12/048,297 patent/US8165888B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP4390289B2 (ja) | 2009-12-24 |
US20080235010A1 (en) | 2008-09-25 |
US8165888B2 (en) | 2012-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5045670B2 (ja) | 音声データ要約再生装置、音声データ要約再生方法および音声データ要約再生用プログラム | |
US8306812B2 (en) | Method and apparatus to vary audio playback speed | |
US20070071413A1 (en) | Reproducing apparatus, reproducing method, and storage medium | |
US9336823B2 (en) | Playing audio in trick-modes | |
JP4952469B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US8818163B2 (en) | Motion picture playing method, motion picture playing apparatus and recording medium | |
KR20070092419A (ko) | 동영상 정보를 썸네일로 재생하는 방법 및 이를 이용한단말기 | |
JP2019068300A (ja) | ダイジェストデータ生成装置、ダイジェストデータ再生装置、ダイジェストデータ生成システム、ダイジェストデータ生成方法及びプログラム | |
US20190254572A1 (en) | Auditory training device, auditory training method, and program | |
JP6641045B1 (ja) | コンテンツ生成システム、及びコンテンツ生成方法 | |
JP4390289B2 (ja) | 再生装置 | |
JP2010283605A (ja) | 映像処理装置及び方法 | |
US8761567B2 (en) | Moving image reproducer reproducing moving image in synchronization with musical piece | |
JP6295381B1 (ja) | 表示タイミング決定装置、表示タイミング決定方法、及びプログラム | |
KR20040055802A (ko) | 실시간 시간 스케일링에 대한 매개변수가 있는 디지털오디오 | |
CN115516770A (zh) | 解码装置、解码方法、程序、编码装置以及编码方法 | |
CN108028055A (zh) | 信息处理装置、信息处理系统和程序 | |
WO2019229936A1 (ja) | 情報処理システム | |
JP2009282536A (ja) | 既知音響信号除去方法及び装置 | |
JP2008154258A (ja) | 動画再生装置、動画再生方法及びそのコンピュータ・プログラム | |
KR100619291B1 (ko) | 재생 속도 가변 방법 및 장치 | |
JP2003309786A (ja) | 動画再生装置、動画再生方法及びそのコンピュータ・プログラム | |
JP2017021212A (ja) | 音声生成方法、音声生成装置、プログラム、及び記録媒体 | |
JP2006195091A (ja) | 演奏レッスン端末 | |
WO2020066660A1 (ja) | 情報処理方法、情報処理装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070328 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070601 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090302 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090310 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090427 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090915 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091005 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121016 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121016 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131016 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |