JP2006510304A - 音声ひずみのない選択可能レート再生用の方法及び装置 - Google Patents
音声ひずみのない選択可能レート再生用の方法及び装置 Download PDFInfo
- Publication number
- JP2006510304A JP2006510304A JP2004560092A JP2004560092A JP2006510304A JP 2006510304 A JP2006510304 A JP 2006510304A JP 2004560092 A JP2004560092 A JP 2004560092A JP 2004560092 A JP2004560092 A JP 2004560092A JP 2006510304 A JP2006510304 A JP 2006510304A
- Authority
- JP
- Japan
- Prior art keywords
- playback
- rate
- content
- audio
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000001360 synchronised effect Effects 0.000 claims abstract description 45
- 230000000877 morphologic effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 235000020004 porter Nutrition 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/91—Television signal processing therefor
- H04N5/92—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/78—Television signal recording using magnetic recording
- H04N5/782—Television signal recording using magnetic recording on tape
- H04N5/783—Adaptations for reproducing at a rate different from the recording rate
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/005—Reproducing at a different information rate from the information rate of recording
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/34—Indicating arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/04—Synchronising
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/91—Television signal processing therefor
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B2220/00—Record carriers by type
- G11B2220/20—Disc-shaped record carriers
- G11B2220/25—Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
- G11B2220/2525—Magneto-optical [MO] discs
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B2220/00—Record carriers by type
- G11B2220/20—Disc-shaped record carriers
- G11B2220/25—Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
- G11B2220/2537—Optical discs
- G11B2220/2562—DVDs [digital versatile discs]; Digital video discs; MMCDs; HDCDs
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B2220/00—Record carriers by type
- G11B2220/90—Tape-like record carriers
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/102—Programmed access in sequence to addressed parts of tracks of operating record carriers
- G11B27/105—Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/102—Programmed access in sequence to addressed parts of tracks of operating record carriers
- G11B27/107—Programmed access in sequence to addressed parts of tracks of operating record carriers of operating tapes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/84—Television signal recording using optical recording
- H04N5/85—Television signal recording using optical recording on discs or drums
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Television Signal Processing For Recording (AREA)
- Television Receiver Circuits (AREA)
Abstract
再生コンテンツの選択可能レート再生による音声のひずみを生じずに、及び別々に格納されている同期の映像及び音声コンテンツの選択された第1の部分の同期を失わずに、別々に格納されている同期の映像及び音声コンテンツの選択された第1の部分の選択可能レート再生用の方法及び装置である。
Description
本発明は、概してテレビの分野に関するものである。特に、本発明は、番組の音声部分をひずませることのないテレビ番組の選択可能レート再生(selectable rate playback)用の装置及び方法に関するものである。
ビデオカセットレコーダ(VCR)のような多様な記憶媒体からの映像コンテンツの選択可能レート再生は既知である。再生コンテンツの音声部分は、音声部分のひずみを避けるため、選択可能レート再生の間に抑えられることがある。選択可能レート再生の間の再生コンテンツの音声部分のひずみのない提示に対する必要性が存在する。以下、再生コンテンツの音声部分の“ひずみ”とは、再生コンテンツの音声部分を格納したレートと比較して、再生コンテンツの音声部分の再生のレートの変化のため、受信時又は再生時に忠実度を欠くことを意味する。
本発明は、選択可能レートでの再生コンテンツの再生用の方法を提供し、
別々に格納されている映像及び音声再生コンテンツの第1の部分を選択し、その再生コンテンツは格納レートで格納されており、その映像及び音声は格納時に同期しており、その別々に格納されている同期の映像及び音声コンテンツは同期再生で取り出し可能であり、
再生コンテンツの再生のレートを選択可能レートから選択し、その選択された再生レートは格納レートと異なり、
再生コンテンツの選択された第1の部分で音声をタグ付けし、
タグ付けされた音声の少なくとも1つの語句を認識し、
その再生のレートで再生コンテンツのその第1の部分を再生し、その再生はタグ付けされた音声を同期して取り出し、そのレートが格納レートと異なっていても、そのレートでの再生は再生コンテンツの音声のひずみを生じず、その再生の間にその再生のレートで映像と音声が同期することを有する。
別々に格納されている映像及び音声再生コンテンツの第1の部分を選択し、その再生コンテンツは格納レートで格納されており、その映像及び音声は格納時に同期しており、その別々に格納されている同期の映像及び音声コンテンツは同期再生で取り出し可能であり、
再生コンテンツの再生のレートを選択可能レートから選択し、その選択された再生レートは格納レートと異なり、
再生コンテンツの選択された第1の部分で音声をタグ付けし、
タグ付けされた音声の少なくとも1つの語句を認識し、
その再生のレートで再生コンテンツのその第1の部分を再生し、その再生はタグ付けされた音声を同期して取り出し、そのレートが格納レートと異なっていても、そのレートでの再生は再生コンテンツの音声のひずみを生じず、その再生の間にその再生のレートで映像と音声が同期することを有する。
本発明の第2の実施例は、再生コンテンツの選択可能レート再生用の装置を開示し、
再生コンテンツが格納レートで格納されている、別々に格納されている映像及び音声再生コンテンツと、
映像及び音声コンテンツの選択された第1の部分が同期しており、音声コンテンツの音声部分がタグ付けされている、記憶媒体での別々に格納されている映像及び音声再生コンテンツのうち選択された第1の部分と、
音声コンテンツの音声部分をタグ付けする音声認識装置と、
有効な言葉が語句に連結されている、タグ付けされた音声から語句の有効な言葉を決定する語句認識装置と、
選択されたレートが格納レートと異なり、選択されたレートでの再生が音声コンテンツのタグ付けされた音声部分を同期して取り出し、選択されたレートが格納レートと異なっていても、選択されたレートでの再生は再生コンテンツの音声のひずみを生じず、その再生の間に選択されたレートで映像及び音声コンテンツが同期する、選択可能レートから選択されたレートでの再生コンテンツの選択された第1の部分の再生用の再生装置と
を有する。
再生コンテンツが格納レートで格納されている、別々に格納されている映像及び音声再生コンテンツと、
映像及び音声コンテンツの選択された第1の部分が同期しており、音声コンテンツの音声部分がタグ付けされている、記憶媒体での別々に格納されている映像及び音声再生コンテンツのうち選択された第1の部分と、
音声コンテンツの音声部分をタグ付けする音声認識装置と、
有効な言葉が語句に連結されている、タグ付けされた音声から語句の有効な言葉を決定する語句認識装置と、
選択されたレートが格納レートと異なり、選択されたレートでの再生が音声コンテンツのタグ付けされた音声部分を同期して取り出し、選択されたレートが格納レートと異なっていても、選択されたレートでの再生は再生コンテンツの音声のひずみを生じず、その再生の間に選択されたレートで映像及び音声コンテンツが同期する、選択可能レートから選択されたレートでの再生コンテンツの選択された第1の部分の再生用の再生装置と
を有する。
本発明は、選択可能レート再生の間に再生コンテンツの音声部分のひずみのない提示を有利に提供する。
本発明の特定の好ましい実施例について詳細に図示して説明するが、特許請求の範囲を逸脱することなく、多様な変更及び変形が行われ得ることがわかる。本発明の範囲は構成の構成要素の数、その物質、その形、その相対的配置等に決して限定されず、好ましい実施例の例として単に開示されている。本発明の特徴及び利点は、添付図面に詳細に示してあり、図面を通じて同様の参照数字は同様の要素を示す。図面は本発明を例示することを目的としており、必ずしも図面は縮尺通りに表されているとは限らない。
本発明は、概してテレビの分野に関するものである。特に、本発明は、再生コンテンツの選択可能レート再生が原因で音声をひずませることのない、選択された映像及び音声再生コンテンツの選択可能レート再生用の装置及び方法に関するものである。
図1は、本発明の実施例に従って、及び図5のフローチャート70で示してここで説明する再生コンテンツの選択可能レート再生用の方法に従って、再生コンテンツの選択可能レート再生用の装置10の機能及びロジック説明を示したフローチャートである。図1は、ユーザがステップ65で選択可能レート再生の“開始”、又は装置10と無関係の視聴のような通常の視聴61の視聴の継続を行わせ得ることを示している。再生コンテンツの選択可能レート再生の“開始”65は、3つの入力に依存する。選択可能レート再生の“停止”64の入力と、選択可能レート再生の“中断”67の入力と、“選択されたレート”49の入力である。ユーザは、適切なソフトウェアを備えたプログラマブルロジックコントローラ(PLC:programmable logic controller)又は代替として中央処理装置(CPU)から入力64、67、49を提供するように選択してもよい。
一実施例では、再生が中断されていないことを判定ステップ55が決定し、再生が停止されていないことを判定ステップ50が決定した場合に、ユーザは、“選択されたレート”49の入力を提供することにより、ステップ65で選択可能レート再生を開始してもよい。“選択可能レート”49の入力は、再生コンテンツを格納するために使用されたものより遅い再生のレートでもよく、速い再生のレートでもよい。一実施例では、“選択可能レート”49は再生コンテンツを格納するために又はその他の理由で使用されるレートの約50%〜約150%の範囲である。しかし、ユーザは、再生コンテンツの視聴者又は聴取者に明確又は理解可能なように、選択された別々に格納されている同期の映像及び音声再生コンテンツ1の再生を生じる如何なる適切な“選択可能レート”49を選択してもよい。以下、“選択可能速度”又は“選択可能レート”とは、図2に示して以下に説明するように、再生コンテンツの音声のひずみを生じずに、選択された別々に格納されている同期の映像及び音声再生コンテンツ1を格納する速度又はレートと比較して、選択された別々に格納されている同期の映像及び音声再生コンテンツ1の再生の速度又はレートを増加又は減少させることを意味する。再生は、判定ステップ55に“中断”の入力67を提供することにより、中断されてもよい。再生は、判定ステップ50に“停止”の入力を提供することにより、停止されてもよい。再生が例えばテレビのような音声及び映像装置で視聴され、再生が“x”分より大きい間に“中断”の入力67を提供することにより中断されている場合、又は再生が“停止”の入力64を提供することにより停止されている場合、音声及び映像装置での通常の視聴61が結果として生じてもよい。以下、通常の視聴61とは、例えばテレビの動作、又は本発明の選択可能レート再生装置若しくは方法に無関係の如何なる適切な音声及び映像視聴装置の動作を意味する。再生が“x”分より大きく中断されると、“中断”の入力67が判定ステップ53に提供され、通常の視聴61を生じる。代替として、再生が“x”分より大きく中断されていない場合、“中断”の入力67は判定ステップ55にループバックし、“中断”の入力67が除去されるまで判定ステップ53にループバックする。中断の入力67が除去されると、装置10は選択可能レート再生の“開始”のステップ65に進む。一実施例では、“x”は2分より小さい。代替として、“x”は5分より小さい時間間隔でもよい。“x”の値は、“中断”の入力67が装置10に提供された後に通常の視聴61のステップに自動に戻るまでユーザが待機しようとする分の数を表す如何なる正の実数でもよい。
一実施例では、通常の視聴61は、“停止”の入力64が提供されたか否かを判定ステップ50が決定することを生じてもよい。そうである場合、通常の視聴61を生じる。代替として、“停止”64の入力が判定ブロック50に渡されない場合には、装置10は、選択可能レート再生の“開始”のステップ65に移動する。
図2は、図5のフローチャート70で示して以下に説明する再生コンテンツの選択可能レート再生用の方法に従うことを含み、本発明の実施例に従って選択及びタグ付け部分9と、語句及びトークン認識部分2と、選択可能レート再生部分4とを追加した後の図1の装置10の拡張を示している。
選択及びタグ付け部分9は、選択エンジン13を有し、図5のフローチャート70のステップ75及び90並びに以下に記載のことを含む本発明の一実施例に従って図1の選択可能レート再生の“開始”65が選択エンジン13に提供される。“開始”65の入力を受信することに加えて、選択エンジン13は、別々に格納されている同期の映像及び音声コンテンツ1、再生リスト109及びグラフィカルユーザインタフェース16から入力を受信してもよい。
取り出し中に、選択エンジン13は、視覚コンテンツと同期した音声コンテンツを音声認識及びタグ付けシステム12に渡し、それにより、音声のコンテンツ1の部分及び雑音の部分がタグ付けされ、タグ付き音声7記憶装置及び雑音23記憶装置に提供される。音声認識及びタグ付けシステム12はまた、個々の言葉又はトークンをタグ付き音声7に入力する。以下、“トークン”は、区切り文字で先導する文字に現れる(又は文字の開始に現れる)区切りのない文字の何らかの連続的なグループであり、区切り文字は空白(例えば、言葉の間、又はコンマのような句読点の形式)でもよい。以下、視覚コンテンツと音声若しくは書き言葉又は語句との“同期”は、その視覚コンテンツが表示されるときに、対応する視覚コンテンツで話され又は書かれる言葉を意味する。同期の映像及び音声コンテンツ1が別々に格納されており、別々に格納されている同期の映像及び音声コンテンツ1は同期再生で取り出し可能であるため、視覚コンテンツと同期した音声コンテンツが利用可能になる。
図2を参照すると、装置10の語句及びトークン認識部分2は、語句の有効な言葉を決定する判定ステップ29を有し、その判定は有効性についてのテスト許容範囲の言葉21の入力と、語句データベース42の入力とに基づく。以下、“言葉”又は“音声”は、英語又はその他の言語の書き言葉又は話し言葉を意味する。その判定29は、言葉を語句に連結するステップ31に出力を提供する。有効性についてのテスト許容範囲の言葉21は、入力発音ルール39を受け取ってもよい。ここで、有効性についてのテスト許容範囲の言葉21は、有効な言葉が再生時に正確に発音されることを行わせるために、発音ルールを使用してもよい。以下、“正確に発音する”とは、アクセント又は誤った発音による発音誤りについて音声を訂正することを意味する。連続的な有効な言葉及び語句データベース42は、判定ステップ29に入力され、連続的な有効な言葉が語句の有効な言葉であるか否かの決定を生じる。そうである場合には、語句の連続的な有効な言葉は、言葉を語句に連結するステップ31に入力される。そうでない場合には、語句の連続的な有効な言葉は、語句に有効でない言葉として、格納再生コンテンツのバッファ37に入力される。判定ステップ29は、語句のデータベース42と連続的な有効な言葉との比較を有し得る処理を適用してもよい。語句として語句データベース42に存在する有効な言葉は、言葉を語句に連結するステップ31で連結されてもよい。辞書又は用語集等が語句データベース42の例である。語句のいくつかの例には、構成の言葉がしばしば一緒に生じる“good morning”のような語句が含まれる。語句の言葉は一緒に話される必要があるため、別々に格納されている同期の映像及び音声コンテンツ1の対応する視覚コンテンツが再生されるときに、語句の言葉は一緒に話される。ユーザはまた、有効性についてのテスト許容範囲の言葉21に更なる言葉又はルールを入力する選択肢を与えられてもよく、それにより、確立された言語の一部でない他の言葉もステップ31で語句に一緒に連結されてもよい。
図2を参照すると、選択可能レート再生部分4は、格納再生コンテンツのバッファ37と、選択可能レート再生エンジン67と、選択可能レート再生視聴73とを有する。語句は、言葉を語句に連結するステップ31から格納再生コンテンツのバッファ37に渡されてもよい。代替として、判定ステップ29により語句の有効な言葉でないと決定された場合には、有効な言葉は、格納再生コンテンツのバッファ37に提供されてもよい。代替として、雑音23が、格納再生コンテンツのバッファ37に渡されてもよい。一実施例では、選択可能レート再生エンジン67は、選択可能レート再生エンジン67に格納再生コンテンツのバッファ37を提供する。選択可能レート再生エンジン67は、選択された別々に格納されている同期の映像及び音声再生コンテンツ1の選択可能レート再生視聴73のため、選択可能レート再生視聴ステップ73に入力を提供する。選択可能レート再生視聴73の1つの目的は、話されたものが理解できないユーザ、又は映像番組の場面のコンテンツが明確でないことに関係する。話された言葉がユーザにより明確に理解できない例では、有効性についてのテスト許容範囲の言葉21は、発音ルール39を入力して言葉又は語句を正確に話す発音装置を使用してもよい。このように関係者により不正確に話された言葉は、発音器により正確に発音されてもよい。ユーザは、有効な言葉が言葉に対して発音器を使用するか否か、又は言葉が例えば映像番組で関係者により話された通りであるか否かについて選択肢を与えられてもよい。
図3は、再生リスト109からの再生コンテンツのリスト110の例を示している。再生リストは、“y”分の再生リストの項目120を有し、yは、別々に格納されている同期の映像及び音声コンテンツ1(図2参照)が格納されたときからの時間を表す。別々に格納されている同期の映像及び音声コンテンツ1が格納されたときからの時間は、図2に示してここに記載される格納再生コンテンツのバッファ37の記憶容量に依存する。格納再生コンテンツのバッファ37の記憶容量は、別々に格納されている同期の映像及び音声コンテンツ1を収容するために必要な如何なる容量でもよい。一実施例では、格納再生コンテンツのバッファ37の記憶容量は2分未満である。代替として、格納再生コンテンツのバッファ37の記憶容量は5分未満でもよい。代替として、格納再生コンテンツのバッファ37の記憶容量は、映画又は映像番組の別々に格納されている同期の映像及び音声コンテンツ1を格納するために必要な容量でもよく、その映像番組はテレビ番組でもよい。
再生リスト109は、別々に格納されている同期の映像及び音声コンテンツ1に含まれる番組又は映画を聞くこと又は視聴することをユーザが記憶するキーワード又は語句に基づいて、ユーザにより生成され得るキーワード又は語句リストの項目130を有する。
再生リスト109は、キーフレームリストの項目140を有し、キーフレームリストの項目140の各エントリーは、2つの連続的なフレームのそれぞれの強度“z”を減算することにより選択されてもよく、連続的なフレームの間の強度“z”の差“Δz”が閾値“t”より大きい場合、大きい方の強度を有するフレームがキーフレームとして選択される。ユーザは、手動で又は遠隔選択装置を介して、リストの項目120、130又は140を選択することができる。リストの項目120、130又は140の選択は、選択エンジン13に入力を提供する。
図4は、グラフィカルユーザインタフェース(GUI)16からの再生コンテンツのリストを示しており、そのリストは、図3に示して前述した対応するリストの項目120、130、140と同じように作られた“y”分の再生リストの項目160と、キーワード又は語句リストの項目170と、キーフレームリストの項目180とを有する。GUI16からの再生コンテンツのリストは、160、170又は180にスクロールするために使用可能なスクロールバー190を有する。ユーザは、手動で又は遠隔選択装置を介して、リストの項目160、170又は180を選択することができる。リストの項目160、170又は180の選択は、GUI16から選択エンジン13に入力を提供する(図2参照)。グラフィカルユーザインタフェース16は、キーフレーム抽出を使用したキー映像フレームのリストを備えてもよい。以下、“キーフレーム抽出”は、閾値の強度より高い強度を有するキーフレームがGUI16からの再生コンテンツのリストに選択されることを意味する。
図5は、再生コンテンツの選択可能レート再生の方法70を示しており、ステップ75、85、90、95、97を有する。一実施例では、テレビ番組又は代替として映画は、パーソナルビデオカセットレコーダ、DVD、又は光媒体若しくは光磁気媒体のような何らかの適切な記憶媒体に格納されてもよい。番組又は映画は、別々に格納されている同期の映像及び音声コンテンツ1(図2参照)でなければならず、映像及び音声コンテンツは格納されるときに同期しており、別々に格納されている同期の映像及び音声コンテンツ1は、同期再生で取り出し可能である。別々に格納されている同期の映像及び音声コンテンツ1の再生中に、映像部分が明確でないため、又は音声部分が理解できないため等で、ユーザは満足に理解できない番組の部分に直面することがある。まず、ユーザは再生を停止する。ステップ75において、ユーザは、再生の“選択されたレート”49について別々に格納されている同期の映像及び音声再生コンテンツ1の第1の部分44を選択し、その選択された第1の部分は、図3の再生リスト109からのリストの項目120、130若しくは140、又は図4のGUI16からのリストの項目160、170若しくは180に対応する。再生コンテンツ1は格納レートで格納されており、その格納レートは、商用パーソナルビデオカセットレコーダ、DVD、又は光媒体若しくは光磁気媒体のような何らかの適切な記憶媒体での如何なる記録レートでもよく、その格納レートは“選択されたレート”49と異なる。“選択されたレート”49は、再生コンテンツ1の音声コンテンツの音声部分のひずみを生じずに、再生コンテンツ1の格納レートより遅くてもよく、速くてもよい。
ステップ85において、再生リスト109又はグラフィカルユーザインタフェース16からの再生コンテンツからの選択されたリストの項目に対応し、別々に格納されている同期の映像及び音声再生コンテンツ1(図2参照)の選択された第1の部分44に含まれる音声は、音声認識及びタグ付けシステム12によりタグ付けされる。ステップ90において、許容範囲の言葉7が音声認識及びタグ付けシステム12により認識される(図2参照)。
ステップ95において、タグ付き音声7の少なくとも1つの語句が、装置10の語句及びトークン認識部分2(図2参照)により認識される。ステップ97において、映像及び音声コンテンツは同期して別々に格納されており、タグ付き音声7及び対応する映像は連続して提示されるため、別々に格納されている同期の映像及び音声コンテンツ1(図2参照)の選択された第1の部分44は、選択及びタグ付けエンジン65(図1参照)により同期再生のため取り出されてもよく、それにより、別々に格納されている同期の映像及び音声コンテンツ1(図2参照)の第1の部分44を再生用に選択することは、対応するタグ付き音声7を再生用に選択する。
図2に示してその関連の文で前述したように、音声は音声認識及びタグ付けシステム12によりタグ付けされてもよい。タグ付き音声7の少なくとも1つの語句は、図2に示してその関連の文で前述したように、例えば音声認識システム及びタグ付けシステム12を使用して認識されてもよい。音声認識及びタグ付けシステム12は、再生コンテンツ1からの英語の言葉から、形態的非屈折の末尾を取り除くために、ステミング(stemming)を使用してもよい。以下、“ステミング(stemming)”は、英語の言葉から共通の形態的非屈折の末尾を取り除く処理のポーターステミング装置(Porter stemming apparatus)(又は‘ポーターステマー(Porter stemmer)’)により実現されてもよい。その主な用法は、情報取り出しシステムを設定する際に通常行われる用語正規化処理の一部である。以下、英語の言葉の“形態的”末尾は、“s”や“es”や“ing”のような名詞若しくは動詞の末尾、又は形容詞の比較級及び最上級の形式の“er”や“ier”や“iest”のような末尾である。
再生リスト109又はグラフィカルユーザインタフェース16からの再生コンテンツからの選択されたリストの項目に対応し、別々に格納されている同期の映像及び音声再生コンテンツ1(図2参照)の選択された第1の部分44は、選択可能レートで再生されてもよく、その再生は、許容範囲の言葉のようなタグ付き音声7を同期して取り出す。再生リスト109又はグラフィカルユーザインタフェース16からの再生コンテンツからの選択されたリストの項目に対応する別々に格納されている同期の映像及び音声再生コンテンツ1の選択された第1の部分44を選択可能レートで再生することは、再生コンテンツ1(図2参照)の音声のひずみを生じない。本発明の実施例及び図5のフローチャート70に示して前述した方法に従って、映像及び音声は選択可能レートで同期する。
Claims (20)
- 選択可能レートでの再生コンテンツの再生用の方法であって、
別々に格納されている映像及び音声再生コンテンツの第1の部分を選択し、前記再生コンテンツは格納レートで格納されており、前記映像及び音声は格納時に同期しており、前記別々に格納されている同期の映像及び音声コンテンツは同期再生で取り出し可能であり、
前記再生コンテンツの再生のレートを前記選択可能レートから選択し、前記選択された再生レートは前記格納レートと異なり、
前記再生コンテンツの前記選択された第1の部分で音声をタグ付けし、
前記タグ付けされた音声の少なくとも1つの語句を認識し、
前記再生のレートで再生コンテンツの前記第1の部分を再生し、前記再生は前記タグ付けされた音声を同期して取り出し、前記レートが前記格納レートと異なっていても、前記レートでの再生は前記再生コンテンツの音声のひずみを生じず、前記再生の間に前記再生のレートで映像と音声が同期することを有する方法。 - 請求項1に記載の方法であって、
前記再生コンテンツの前記第1の部分は、再生について再生リストから選択される方法。 - 請求項1に記載の方法であって、
前記再生コンテンツの前記第1の部分は、再生についてグラフィカルユーザインタフェースから選択される方法。 - 請求項3に記載の方法であって、
前記グラフィカルユーザインタフェースは、キーフレーム抽出により提供されたキー映像フレームのリストを有する方法。 - 請求項1に記載の方法であって、
前記音声をタグ付けすることは、前記タグ付けされた音声の語句について複数の有効な言葉を認識することを更に有する方法。 - 請求項1に記載の方法であって、
前記再生のレートは、前記格納レートより小さい方法。 - 請求項1に記載の方法であって、
前記タグ付けされた音声の少なくとも1つの語句を認識することは、音声認識により実現される方法。 - 請求項1に記載の方法であって、
前記再生コンテンツからの英語の言葉から共通の形態的非屈折の末尾をステミングにより取り除くことを更に有する方法。 - 請求項9に記載の方法であって、
前記キー映像フレームのリストのキーフレームは、閾値の強度より高い強度を有する方法。 - 請求項1に記載の方法であって、
タグ付けされた音声及び対応する映像は、前記再生コンテンツを格納し、前記再生のレートで再生コンテンツの前記第1の部分を再生する間に連続して提示される方法。 - 請求項1に記載の方法であって、
前記再生のレートで再生コンテンツの前記第1の部分を再生することは、音声及び映像装置で再生することを更に有し、それにより、再生が停止入力により停止されると、前記音声及び映像装置の通常の視聴が生じる方法。 - 請求項1に記載の方法であって、
前記再生のレートで再生コンテンツの前記第1の部分を再生することは、音声及び映像装置で再生することを更に有し、それにより、再生が中断入力により中断され、再生がx分より長く中断され、xが如何なる正の実数である場合、前記音声及び映像装置の通常の視聴が生じる方法。 - 再生コンテンツの選択可能レート再生用の装置であって、
前記再生コンテンツが格納レートで格納されている、別々に格納されている映像及び音声再生コンテンツと、
映像及び音声コンテンツの選択された第1の部分が同期しており、前記音声コンテンツの音声部分がタグ付けされている、記憶媒体での前記別々に格納されている映像及び音声再生コンテンツのうち選択された第1の部分と、
前記音声コンテンツの前記音声部分をタグ付けする音声認識装置と、
有効な言葉が語句に連結されている、前記タグ付けされた音声から語句の有効な言葉を決定する語句認識装置と、
選択されたレートが前記格納レートと異なり、前記選択されたレートでの再生が前記音声コンテンツの前記タグ付けされた音声部分を同期して取り出し、前記選択されたレートが前記格納レートと異なっていても、前記選択されたレートでの再生は前記再生コンテンツの音声のひずみを生じず、前記再生の間に前記選択されたレートで前記映像及び音声コンテンツが同期する、前記選択可能レートから選択されたレートでの前記再生コンテンツの選択された第1の部分の再生用の再生装置と
を有する装置。 - 請求項13に記載の装置であって、
前記選択されたレートでの前記再生コンテンツの前記選択された第1の部分の再生用の前記再生装置は、別々に格納されている同期の映像及び音声再生コンテンツの前記選択された第1の部分の再生リストを更に有する装置。 - 請求項13に記載の装置であって、
前記選択されたレートでの前記再生コンテンツの前記選択された第1の部分の再生用の前記再生装置は、別々に格納されている同期の映像及び音声再生コンテンツの前記選択された第1の部分のグラフィカルユーザインタフェースを更に有する装置。 - 請求項15に記載の装置であって、
前記グラフィカルユーザインタフェースは、キーフレームリストの項目を有し、
前記キーフレームリストの項目の各フレームは、強度において閾値より大きく連続的なフレームの強度と異なる強度を有する装置。 - 請求項13に記載の装置であって、
前記タグ付けされた音声からの語句の有効な言葉を決定する前記語句認識装置は、言葉を語句に連結するステップを有する装置。 - 請求項13に記載の装置であって、
前記タグ付けされた音声からの語句の有効な言葉を決定する前記語句認識装置は、前記有効な言葉が再生時に正確に発音されることを行わせる発音ルール入力を有する装置。 - 請求項13に記載の装置であって、
前記映像コンテンツは映像フレーム内にある装置。 - 請求項13に記載の装置であって、
前記選択された再生のレートは、前記格納レートより遅く、前記選択されたレートが前記再生コンテンツの前記格納レートより遅くても、前記選択された再生のレートでの再生は、前記再生コンテンツの音声のひずみを生じない装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US43372202P | 2002-12-16 | 2002-12-16 | |
PCT/IB2003/005912 WO2004056086A2 (en) | 2002-12-16 | 2003-12-12 | Method and apparatus for selectable rate playback without speech distortion |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006510304A true JP2006510304A (ja) | 2006-03-23 |
Family
ID=32595227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004560092A Withdrawn JP2006510304A (ja) | 2002-12-16 | 2003-12-12 | 音声ひずみのない選択可能レート再生用の方法及び装置 |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP1576803A2 (ja) |
JP (1) | JP2006510304A (ja) |
KR (1) | KR20050090398A (ja) |
CN (1) | CN1726707A (ja) |
AU (1) | AU2003303005A1 (ja) |
WO (1) | WO2004056086A2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7660715B1 (en) | 2004-01-12 | 2010-02-09 | Avaya Inc. | Transparent monitoring and intervention to improve automatic adaptation of speech models |
US7653543B1 (en) | 2006-03-24 | 2010-01-26 | Avaya Inc. | Automatic signal adjustment based on intelligibility |
US7962342B1 (en) | 2006-08-22 | 2011-06-14 | Avaya Inc. | Dynamic user interface for the temporarily impaired based on automatic analysis for speech patterns |
US7925508B1 (en) | 2006-08-22 | 2011-04-12 | Avaya Inc. | Detection of extreme hypoglycemia or hyperglycemia based on automatic analysis of speech patterns |
US8041344B1 (en) | 2007-06-26 | 2011-10-18 | Avaya Inc. | Cooling off period prior to sending dependent on user's state |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2726233B2 (ja) * | 1993-02-16 | 1998-03-11 | エルジー電子株式会社 | Vcrのダイジェスト再生装置 |
US5583652A (en) * | 1994-04-28 | 1996-12-10 | International Business Machines Corporation | Synchronized, variable-speed playback of digitally recorded audio and video |
US6625387B1 (en) * | 2002-03-01 | 2003-09-23 | Thomson Licensing S.A. | Gated silence removal during video trick modes |
-
2003
- 2003-12-12 JP JP2004560092A patent/JP2006510304A/ja not_active Withdrawn
- 2003-12-12 KR KR1020057010993A patent/KR20050090398A/ko not_active Application Discontinuation
- 2003-12-12 CN CNA2003801061892A patent/CN1726707A/zh active Pending
- 2003-12-12 AU AU2003303005A patent/AU2003303005A1/en not_active Abandoned
- 2003-12-12 EP EP03813262A patent/EP1576803A2/en not_active Withdrawn
- 2003-12-12 WO PCT/IB2003/005912 patent/WO2004056086A2/en not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
AU2003303005A8 (en) | 2004-07-09 |
CN1726707A (zh) | 2006-01-25 |
WO2004056086A3 (en) | 2004-11-11 |
WO2004056086A2 (en) | 2004-07-01 |
EP1576803A2 (en) | 2005-09-21 |
KR20050090398A (ko) | 2005-09-13 |
AU2003303005A1 (en) | 2004-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20080195386A1 (en) | Method and a Device For Performing an Automatic Dubbing on a Multimedia Signal | |
US10002612B2 (en) | Systems, computer-implemented methods, and tangible computer-readable storage media for transcription alignment | |
CN108780643B (zh) | 自动配音方法和装置 | |
CN100488242C (zh) | 根据字幕反复播放视频部分的方法和装置 | |
JP4127668B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US5649060A (en) | Automatic indexing and aligning of audio and text using speech recognition | |
TWI332358B (en) | Media player apparatus and method thereof | |
US20050180462A1 (en) | Apparatus and method for reproducing ancillary data in synchronization with an audio signal | |
JP4113059B2 (ja) | 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム | |
JP2004343488A (ja) | 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム | |
US7697825B2 (en) | DVD player with language learning function | |
JP2006510304A (ja) | 音声ひずみのない選択可能レート再生用の方法及び装置 | |
Ebeling | Textual reduction in translated dialogue in film versus literary fiction | |
KR101709053B1 (ko) | 음원의 음성 정보와 자막을 음절 단위로 동기화하기 위한 자막 파일 구조 및 자막 재생 장치 | |
JP3838775B2 (ja) | マルチメディア処理装置、記録媒体 | |
JP2008124551A (ja) | ダイジェスト作成装置 | |
JP2008301340A (ja) | ダイジェスト作成装置 | |
JP2005352330A (ja) | 音声分割記録装置 | |
KR100316508B1 (ko) | 디지털 오디오 데이터 캡션 동기화 방법 | |
JP2003230094A (ja) | チャプター作成装置及びデータ再生装置及びその方法並びにプログラム | |
JP2004336606A (ja) | 字幕制作システム | |
Robert-Ribes | On the use of automatic speech recognition for TV captioning. | |
JP2005341138A (ja) | 映像要約方法及びプログラム及びそのプログラムを格納した記憶媒体 | |
JP2002197488A (ja) | リップシンクデータ生成装置並びに方法、情報記憶媒体、及び情報記憶媒体の製造方法 | |
JP2003018534A (ja) | 再生装置および方法、記録媒体、並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061211 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20080116 |