JP2009163643A - 映像検索装置、編集装置、映像検索方法およびプログラム - Google Patents

映像検索装置、編集装置、映像検索方法およびプログラム Download PDF

Info

Publication number
JP2009163643A
JP2009163643A JP2008002658A JP2008002658A JP2009163643A JP 2009163643 A JP2009163643 A JP 2009163643A JP 2008002658 A JP2008002658 A JP 2008002658A JP 2008002658 A JP2008002658 A JP 2008002658A JP 2009163643 A JP2009163643 A JP 2009163643A
Authority
JP
Japan
Prior art keywords
keyword
video
search
timeline
monitor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008002658A
Other languages
English (en)
Inventor
Junzo Tokunaka
潤三 徳中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2008002658A priority Critical patent/JP2009163643A/ja
Priority to EP08254055A priority patent/EP2079234A3/en
Priority to US12/319,354 priority patent/US20100003006A1/en
Priority to CNA2009100031761A priority patent/CN101482880A/zh
Publication of JP2009163643A publication Critical patent/JP2009163643A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/30Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on the same track as the main recording
    • G11B27/3027Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on the same track as the main recording used signal is digitally coded
    • G11B27/3036Time code signal
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/32Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier
    • G11B27/327Table of contents
    • G11B27/329Table of contents on a disc [VTOC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • H04N21/8405Generation or processing of descriptive data, e.g. content descriptors represented by keywords
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8455Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Television Signal Processing For Recording (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ユーザが所望の映像シーンを容易に検索可能とする。
【解決手段】ユーザがキーワードを入力して、検索釦を操作すると(ST2,ST3)。CPUは、キーワードをテキストコードに変換し、キーワードのテキストコードと、音声テキストのテキストコードとを、キーワード位置を1文字ずつ順次移動して比較していく(ST5〜ST7)。キーワードと音声テキストが一致する毎に、一致したテキストコードのin,outのタイムコードを読み、該当タイムコード、つまり、キーワード位置を、モニタの映像タイムライン上にインテンド表示する(ST8,ST9)。ユーザにより映像タイムライン上の所定のキーワード位置が選択されるとき、CPUはモニタに選択されたキーワード位置に対応した代表画像を表示し、また、ユーザによりさらに再生指示が行われるとき、CPUはモニタに所定のキーワード位置に対応した映像を表示する。
【選択図】図5

Description

この発明は、映像検索装置、編集装置、映像検索方法およびプログラムに関する。詳しくは、この発明は、音声テキストデータが関連付けされた映像データを取り扱うものにあって、入力されたキーワードが音声テキストデータから検索され、タイムライン上に検索されたキーワード位置が表示されることにより、ユーザが所望の映像シーンを容易に検索できるようにした映像検索装置等に係るものである。
人は本の何処にどのようなことを書いてあるかを探す際、本を斜めに読み、あるいは、ページをパラパラとめくることで、文字の検索が可能である。しかしながら、映像と音声を主な記録情報としてきた従来の動画映像の世界では1つの素材から、所望のシーンを検索する場合に、困難が伴う。
例えば、従来VTR(Video Tape Recorder)では、高速サーチで映像シーンを探す場合、概ねの動画像を認識することはできる、しかし、細かなフレーム単位の内容までは確認できない。また、このように高速サーチで映像シーンを探す場合、音声はミュートされるため聞くこともできないし、仮に聞いても早すぎて内容を理解できない。
音声について補足すると、例えば比較的低速な3〜4倍速での再生速度は、人の聴覚では音声を聞いてどのようなことを話しているのか、映像の内容を理解できる境目となっている。そのため、音声内容を高速に確認する手段はいままでなかった。
ノンリニア(Non-Linear)編集機(例えば、特許文献1参照)では、検索のための表示方法として、サムネール画像を複数表示し選択する手法が採られている。通常、ノンリニア編集機では連続した映像のサムネールを表示することはなく、飛び飛びのサムネールを表示するため、これから所望のシーンを探し出すのは困難を伴う。
また、サムネール画像の情報量は圧倒的に音声よりも多く、仮にモニタに全てのフレーム(29.94frame/sec)のサムネール画像を表示したとしても、人がサムネール画像を斜めに見ることにより所望の映像シーンを探すことは困難である。
また、仮に、所望の映像シーンの近傍にあるシーンを見つけても、最終的な編集点を決めるには更に困難を伴う。すなわち、ノンリニア編集機のモニタでは、通常、音声エンベロープ波形(縦:振幅、横:時間軸)をタイムラインに表示し、編集点の決定のために役立てている。
しかし、人が音声エンベロープ波形を見て、音の始まりや音声の強弱を認識できても、音声の意味/内容は理解できなかった。このため、編集オペレータは編集点付近で素材をリアルタイムでプレビュー(pre-view)し、音声の意味/内容を確認しながら、編集点を決めていた。
例えば、特許文献2には、動画を構成する各ブロックについてのタイトルもしくはその他のテキスト情報を時間順に一覧表示をすることが記載されている。このように各ブロックについてのテキスト情報を一覧表示するものにあっては、当該テキスト情報から所望の映像シーンの近傍にあるシーンを見つけても、最終的な編集点を決めるには、編集オペレータは編集点付近で素材をリアルタイムでプレビューすること等が必要となる。
WO96/32722号公報 特開2005−94709号公報
上述したように、従来のノンリニア編集機等では、映像と音声を主な記録情報とした動画映像素材の内容を確認し、編集点、を決め、制作意図に沿った編集を行う行為には多くの工数を必要としていた。
この発明の目的は、例えば編集点とすべき所望の映像シーンの検索を容易とすることにある。
この発明の概念は、
音声テキストデータが関連付けされている映像データを取り扱う映像検索装置であって、
ユーザがキーワードを入力するキーワード入力部と、
上記音声テキストデータから上記キーワード入力部に入力されたキーワードを検索するキーワード検索部と、
モニタに、タイムラインを表示し、該タイムライン上に上記キーワード検索部で検索されたキーワード位置を表示する情報表示制御部と
を備えることを特徴とする映像検索装置にある。
この発明においては、音声テキストデータが関連付けされた映像データを取り扱う。ここで、音声テキストデータとは、映像信号に対応した音声信号による音声の内容を示すテキストデータである。映像データおよび音声テキストデータは、例えば、HDD等のデータ保持部に保持されている。
キーワード入力部にキーワードが入力されることで、キーワード検索部により、音声テキストデータから当該キーワードが検索される。例えば、キーワード入力部は、モニタに表示されるグラフィカルユーザインタフェース画面を用いて、キーワードを入力する、構成とされている。このようにグラフィカルユーザインタフェース画面を用いてキーワードを入力する構成とすることで、ユーザは、キーワードの入力を、容易、かつ誤りなく行うことができる。
上述したようにキーワード検索が行われた後、情報表示制御部により、タイムライン上、例えば映像タイムライン上に、検索されたキーワード位置が表示される。このように、映像タイムライン上にユーザが入力したキーワード位置が表示されることで、ユーザは、所望の映像シーンの検索を容易に行うことができる。
この発明において、例えば、ユーザがモニタの映像タイムライン上に表示されたキーワード位置から所定のキーワード位置を選択する位置選択部と、データ保持部に保持されている映像データに基づいて、位置選択部で選択されたキーワード位置に対応した代表画像をモニタに表示する画像表示制御部とをさらに備える、ようにされてもよい。この場合、ユーザにより選択されたキーワード位置に対応した代表画像がモニタに表示されることで、ユーザは、各キーワード位置に対応した映像シーンを容易に確認できる。
また、この発明において、例えば、ユーザがモニタに表示された映像タイムライン上に表示されたキーワード位置から所定のキーワード位置を選択する位置選択部と、ユーザが再生を指示するための再生指示部と、位置選択部で所定のキーワード位置が選択された状態で、再生指示部で再生が指示されたとき、映像データに基づいて、所定のキーワード位置に対応した映像をモニタに表示する画像表示制御部とをさらに備える、ようにされてもよい。この場合、ユーザにより選択されたキーワード位置に対応した映像がモニタに表示されることで、ユーザは、各キーワード位置に対応した映像シーンを容易に確認できる。
この発明によれば、音声テキストデータが関連付けされた映像データを取り扱うものにあって、入力されたキーワードが音声テキストデータから検索され、タイムライン上に検索されたキーワード位置が表示されるものであり、ユーザは、所望の映像シーンを容易に探すことができる。
以下、図面を参照しながら、この発明の実施の形態について説明する。
「編集装置の構成」
図1は、実施の形態としてのノンリニア編集機100の構成例を示している。このノンリニア編集機100は、CPU(Central Processing Unit)111と、ROM(Read OnlyMemory)112と、RAM(Random Access Memory)113と、表示コントローラ114と、モニタ115と、HDDインタフェース116と、HDD117と、ドライブコントローラ118と、メディアドライブ119と、入力インタフェース120と、入力部121と、音声出力インタフェース122と、スピーカ123と、システムバス124とを有している。
CPU111、ROM112、RAM113は、システムバス124により相互に接続されている。システムバス124には、さらに、表示コントローラ114、HDDインタフェース116、ドライブコントローラ118、入力インタフェース120および音声出力インタフェース122が接続されている。
CPU111は、ノンリニア編集機100の各部の動作を制御する。このCPU111は、ROM112、あるいはHDD117に記憶されているプログラムを、RAM113にロードして実行することで、各部の動作を制御する。
モニタ115は、表示コントローラ114を介して、バス124に接続されている。モニタ115は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma DisplayPanel)等で構成されている。表示コントローラ114は、CPU111の制御のもと、モニタ115に表示される画像、およびGUI用の表示を制御する。
HDD117は、HDDインタフェース116を介して、システムバス124に接続されている。HDD117は、CPU111の制御のためのプログラム、編集素材としての映像データおよび音声データ等を格納する。
なお、この実施の形態においては、音声テキストデータが関連付けされた映像データが取り扱われる。音声テキストデータは、映像データに対応した音声データによる音声の内容を示すテキストデータである。従って、HDD117に保持される各動画映像コンテンツの映像データには、それに対応する音声データの他に、さらに音声テキストデータが付加されている。この場合、映像データと、音声データおよび音声テキストデータとの関連付けは、タイムコードを介して行われている。
メディアドライブ119は、ドライブコントローラ118を介して、システムバス124に接続されている。このメディアドライブ119は、各種記録メディアに対応するドライブ機能部であり、当該記録メディアに対する記録再生動作を行う。記録メディアとしては、例えば、CD、MD、CD−R、CD−RW、DVD、DVD−R、DVD−RW、Blu-ray Disc等の光ディスク、あるいはメモリカードがある。このメディアドライブ119は、例えば、編集素材としての映像データ等を入力し、また、編集後の映像データ等を出力するために使用される。
入力部121は、入力インタフェース120を介して、システムバス124に接続されている。この入力部121は、ユーザが、各種の操作入力のため、さらにはデータ入力のために、使用する。この入力部121は、キーボード、マウス、リモートコマンダ、その他の入力デバイスで構成されている。
スピーカ123は、音声出力インタフェース122を介して、システムバス124に接続されている。
「映像および音声テキストのインデックスファイル、データファイル」
次に、図1に示すノンリニア編集機100のHDD117に保持されている映像データ、音声テキストデータについて説明する。
図2(a)、(b)は、映像のインデックスファイル、データファイルの構造の一例を示している。インデックスファイルは、データファイルとは独立したファイルとして作成される場合と、データファイルに含まれる場合とがある。この例は、インデックスファイルがデータファイルとは独立して作成された場合の例である。
映像インデックスファイルは、HDD117のどのアドレスに何フレーム目のデータを記録してあるかを示す管理データである。この映像インデックスファイルには、インデックス総数、インデックス領域のサイズ、データファイルに含まれる全ての映像フレームデータのサイズと映像データファイル内のアドレスが含まれている。
映像データファイルには、全ての映像フレームデータがそのサイズと共に含まれている。また、この映像データファイルには、映像ファイルヘッダが含まれている。さらに、映像データは圧縮されている場合が多く、この映像データファイルには、圧縮された映像データの圧縮を解くための情報も含まれている。
なお、図示および説明は省略するが、音声データも同様に、タイムコード(TC)と同期して記録されている。この実施の形態において、タイムコードは全て連続に記録されたもので、映像フレーム(frame)番号と等価な情報である。
本来、タイムコードは、時、分、秒、フレームの情報であるが、カムコーダ等により記録メディアに記録された素材には複数のクリップ(clip)がある。ここで、クリップとは、記録スタート(REC START)から記録ポーズ(REC PAUSE)までの記録部分を意味する。このクリップとクリップとのタイムコードが不連続であったり、あるいは別の記録メディアの間ではタイムコードが重複したりする場合もある。
図1に示すノンリニア編集機100で、これらの素材をメディアドライブ119から入力してHDD117に記録する際、元のタイムコードとは別に、連続したフレーム番号を割り当てて記録する。この場合、0,1,2・・・とフレーム番号で管理してもよいし、連続したタイムコードを新たに割り当てて記録してもよい。
図2のインデックスファイルで「オフセット」と書いてあるのは、例えば、基準点のアドレスを0としたときの、そこからの距離を意味しており、いわゆるオフセットアドレスである。「オフセット」の値から各映像フレームの先頭アドレスが解り、「オフセット」と「映像サイズ(圧縮記録のため、フレーム毎にデータ量は異なる)」から各映像フレームの終わりのアドレスが解る。
図3(a),(b)は、音声テキストのインデックスファイル、音声テキストデータファイルの構造の一例を示している。インデックスファイルは、データファイルとは独立したファイルとして作成される場合と、データファイルに含まれる場合がある。この例は、インデックスファイルがデータファイルとは独立して作成される場合の例である。インデックスファイルには、インデックス総数、インデックス領域のサイズ、文単位またはフレーズ(区)単位の、in点およびout点のタイムコード、音声テキストデータのサイズが含まれている。
音声テキストデータファイルには、各文または各フレーズに含まれる文字のテキストデータが、当該ワードのin点およびout点のタイムコードと共に含まれている。また、この音声テキストデータファイルには、文またはフレーズ毎に、データヘッダおよびデータサイズが含まれている。また、この音声テキストデータファイルには、音声テキストファイルヘッダが含まれている。
検索システムとしてのCPU111は、音声テキストインデックスファイルからタイムコードに対応する音声テキストデータファイルのアドレスを知り、このアドレスにアクセスすることにより、音声テキストのデータファイルを読むことができる。また、検索システムとしてのCPU111は、読み込んだ音声テキストのデータをキーワードと比較することにより、音声テキストのキーワードとその位置(タイムコード)を検索することができる。
図4(a)は、映像記録装置におけるタイムコードに音声テキストデータを織りいれた構成概念を示している。ここで、タイムコードは連続した時間、フレーム番号となっている。ここでは、不連続なタイムコード、同じタイムコードを含まないと仮定してある。この図4(a)において、タイムコードは一例として625/50フォーマットにて記載してあり、25フレーム/secである。
「Plane Text」とは、コンピュータ上で文章を扱うための一般的なファイルフォーマット、または文字列の形式である。ここでは、説明の便宜上「文字」そのものを書いてある。実際には、テキストコード(漢字は2バイトデータ)で表されるが、ここでは、タイムコードとテキストデータの構成を説明するのが目的であるため、詳細なテキストコード、制御情報は省略している。
図4(a)では、「新聞を取って」という日本語の例を示している。図の上から下へ縦方向に時間軸が定義されており、人の音声は無音(灰色)、有音(文字情報)にて表されている。人の発声はある時間幅をもっているため、ある時間区間(00:00:00:01〜00:00:00:17)は新(しん)を発声している区間を表している。図中の「text制御情報」は文字として表示されないテキストの制御情報を表す。例えば、タブ、垂直タブ、改行、改ページ、ファイル終端マーク、Byte Order Mark等があるが、ここでは、詳細は省略する。
「文字in/out」は、文字のin点、out点を示し、タイムコード(time code)で結び付けられている。「フレーズ」は文字により構成されるフレーズまたは文を表し、「フレーズin/out」は、フレーズのin点、out点を示す。このように、文字単位、または、文単位のin/out点をタイムコードで定義することにより、さまざまな動画、音声の制御が可能となる。すなわち、あるテキスト文字に対応する映像サムネール画を表示したり、対応する音声を再生したり、該当テキスト文字を含む文章の先頭(フレーズin点)にキューアップ(cue up)して再生し、out点で再生を停止する、等が可能となる。また、あるテキスト文(例「新聞」)を検索し、素材の中から一致する複数の該当箇所を表示することが可能となる。さらに、複数の文章を塊として検索し、似た文章がある候補の場所を検索することも可能である。
図4(b)は、図4(a)から、エッセンス、つまり文字のin点、out点を抜き出したもので、この状態で音声テキストのデータファイルを構成する(図3(b)参照)。
「音声テキストを用いたキーワードによる動画検索」
次に、図1に示すノンリニア編集機100における動画検索について説明する。ノンリニア編集機100においては、取り込んだ動画素材を編集する際、編集点を決めるため、所望の映像シーンを、音声テキストを用いて検索できる。
<キーワード検索>
ユーザ(編集オペレータ)がキーワードとなる文字を入力して、素材の中から所望映像シーンを効率よく選択し、確認することにより、編集作業の前工程を行う。図5のフローチャートを用いて、CPU111のキーワード検索処理を説明する。
CPU111は、ステップST1において、キーワード検索処理を開始し、その後に、ステップST2の処理に移る。このステップST2において、ユーザの入力部121の操作によってキーワードが入力されると、CPU111は、ステップST3の処理に移る。
図6は、モニタ115に表示されているユーザインタフェース画面を示している。このユーザインタフェース画面には、上部側に画像を表示するための2つの画像表示位置(1),(2)が設けられている。また、このユーザインタフェース画面には、下部側にタイムライン(3)、映像タイムライン(4)、音声タイムライン(5),(7)、および音声テキストタイムライン(6),(8)が設けられている。映像タイムライン(4)におけるa,b,c,dはクリップを示している。音声タイムライン(5),(7)には、映像タイムライン(4)に表示された各クリップに対応した音声信号の波形が表示される。また、音声テキストタイムライン(6),(8)には、映像タイムライン(4)に表示された各クリップに対応した音声の内容が表示される。
また、このユーザインタフェース画面には、下部側に、キーワード検索時にキーワードを入力するためのキーワード枠(9)と共に、さらに、検索開始を指示する検索釦(10)、Previous釦(11)、再生釦(12)、Next釦(13)、および再生停止釦(14)が設けられている。
ユーザは、図6に示すようなユーザインタフェース画面におけるキーワード枠(9)へキーワード(この例では、「春一番」)を、入力部121のマウス、キーボードを使って入力する。このGUIプログラムでは、日本語が用意されており、キーワードが入力されると、図7に示すように、キーワード枠(9)にキーワードが表示される。
ステップST3において、ユーザの入力部121の操作によってユーザインタフェース画面上の検索釦(10)が押されると、CPU111は、ステップST4の処理に移る。このステップST4において、CPU111は、キーワードを、テキストコードに変換する。
次に、CPU111は、ステップST5において、キーワードのテキストコードと、図3の音声テキストデータファイルのテキストコードを、RAM113に取り込み、比較する。CPU111は、ステップST6において、一致したか否かを判断する。一致していないとき、CPU111は、ステップST7において順次比較のためキーワードを1文字移動し、その後に、ステップST5に戻って、上述したと同様の動作を繰り返す。
図3は、#1、#2、・・・#Nまでのフレーズまたは文のテキストデータである。キーワード検索をする場合、目的とする「テキストコード」と、「図3の#1の丸1,丸2,丸3,丸4,丸5,・・・,#Nの最後のテキストコード」と一致するデータを順次比較して検出する。この処理を、上述のステップST5〜ST7により行っている。図8は、キーワードを音声テキストと比較する様子を、横軸を時間軸として、模式的に示している。
ステップST6で一致したと判断したとき、CPU111は、ステップST8において、一致したテキストコードのin,outのタイムコードを読む。そして、CPU111は、ステップST9において、該当タイムコードをインテンド表示する。例えば、CPU111は、映像タイムライン上に、検索されたキーワード位置を、色、明暗で区別した線(棒線、丸、楕円等)によりインテンド表示する(図7の映像タイムライン(4)参照)。
ここで、1本の線の太さは、ユーザ(編集オペレータ)に目視可能な太さに自動的に設定される。すなわち、1本の線の太さは、タイムライン表示幅、時間刻み幅をパラメータとして自動設定される。この結果、タイムラインの縮尺に応じて一致した場所を表示する線の太さを変えることができる。例えば、映像タイムラインが1フレーム時間幅を目視可能な十分な拡大表示を行った場合は1フレームの時間幅と一致させるが、これは稀なケースである。
なお、この実施の形態においては、図7に示すように、映像タイムライン(4)上に検索されたキーワード位置が表示されているが、検索されたキーワード位置を例えばタイムライン(3)上にインテンド表示されるようにしてもよい。また、インテンド表示は、図7に示すように、複数の棒で頻度を表してもよいし、ヒストグラム(頻度を表す棒グラフ)で表してもよい。
次に、CPU111は、ステップST10において、最終テキストコードか否かを判断する。最終テキストコードでないとき、CPU111は、ステップST7において、順次比較のため、キーワードを1文字移動し、その後に、ステップST5の処理に戻る。一方、ステップST10で最終テキストコードであるとき、CPU111は、ステップST11において、キーワード検索を終了する。
キーワードとの一致の頻度が高いタイムライン部分(図7のクリップd参照)では一致したキーワードの各点のインテンド表示は繋がり、帯状の表示になる。また、キーワードの頻度が低いタイムラインの部分(図7のクリップa,b参照)では棒線で表示され、ユーザは一目しただけで所望のキーワードポイントの統計分布と近傍クリップとの関係を理解できる。
なお、キーワードが複数ある場合、CPU111は、それぞれ異なる色、輝度で識別可能なインテンド方法を自動的に選択し、表示を行う。また、図5のフローチャートは一例であって、これに限定されるものではない。例えば、予め同じ熟語(文字)がある場所(タイムコード)を検索して表にしておき、検索実行コマンドにより表から場所を読み出す方法もある。
<所望シーンの確認>
ユーザ(編集オペレータ)は、上述したように検索された各キーワード位置から、所望の映像シーンを検索し、編集点を決定できる。図9のフローチャートを用いて、CPU111の映像シーンの検索処理を説明する。
CPU111は、ステップST21において、映像シーンの検索処理を開始し、その後に、ステップST22の処理に移る。このステップST22において、CPU111は、カーソル位置の文またはフレーズのin点にキューアップ(cue up)し、対応するサムネールを表示する。
例えば、図7のユーザインタフェース画面において、カーソルCAは図示のように、映像タイムライン(4)等に直交した状態で表示される。このカーソルCAの位置は固定とされ、最初、検索されたキーワード位置のうち1番目のキーワード位置がカーソルCAと一致した状態で表示される。この場合、最初のキーワード位置が、図3(b)に示す音声テキストデータファイルの#1の文またはフレーズに対応する場合、in点(t1)にキューアップし、このin点(t1)のタイムコードに対応するサムネールを、例えばHDD117から読み出し、図7のユーザインタフェース画面の画像表示位置(1)に表示する。
次に、CPU111は、ステップST23において、ユーザの入力部121の操作によってユーザインタフェース画面上のNext釦(13)、または、Previous釦(11)が押されたか、さらには、再生釦(12)が押されたか、判断する。Next釦(13)、または、Previous釦(11)が押されたとき、CPU111は、ステップST22に戻る。
この場合、Next釦(13)が押されるときは、CPU111は、カーソルCAに次のキーワード位置が一致した状態となるようにユーザインタフェース画面を変更し、カーソル位置の文またはフレーズのin点にキューアップ(cue up)し、対応するサムネールを表示する。なお、カーソルCAが最後のキーワード位置にあるときには、Next釦(13)が押されても、同じ状態を維持する。
一方、Previous釦(11)が押されるときは、CPU111は、カーソルCAに前のキーワード位置が一致した状態となるようにユーザインタフェース画面を変更し、カーソル位置の文またはフレーズのin点にキューアップ(cue up)し、対応するサムネールを表示する。なお、カーソルCAが最初のキーワード位置にあるときには、Previous釦(11)が押されても、同じ状態を維持する。
また、ステップST23で再生釦(12)が押されるときは、CPU111は、ステップST24において、HDD117を制御し、in点からout点まで、映像、音声、音声テキストを再生する。この場合、再生映像は、図7のユーザインタフェース画面の画像表示位置(2)に表示される。また、再生映像に同期した音声出力が音声タイムライン(6)に拡大表示され、再生映像に同期した音声テキストがテキストタイムライン(8)に拡大表示される。これにより、ユーザ(編集オペレータ)は、カーソルCAが位置するキーワード位置に対応した映像、音声、音声テキストを確認できる。なお、音声タイムライン(6)には、音声波形が表示される。
例えば、キーワード位置が、図3(b)に示す音声テキストデータファイルの#1の文またはフレーズに対応する場合、当該#1の文またはフレーズのin点(t1)からout点(t2)までに対応した映像、音声、音声テキストをユーザは確認できる。なお、再生終了後は、図7のユーザインタフェース画面の画像表示位置(2)に、out点の静止画像が表示された状態におかれる。
次に、CPU111は、ステップST25において、ユーザの入力部121の操作によってユーザインタフェース画面上のNext釦(13)、または、Previous釦(11)が押されたか判断する。これらの釦が押されたとき、CPU111は、ステップST22の処理に戻り、上述したと同様の処理を繰り返す。一方、ステップST25でNext釦(13)、または、Previous釦(11)の操作がないとき、CPU111は、ステップST26において、映像シーンの検索処理を終了する。
ユーザ(編集オペレータ)は、上述の図9のフローチャートに基づく、映像シーンの検索を行うことで、編集点とすべき所望の映像シーンを検索できる。なお、ユーザ(編集オペレータ)は、図7の映像タイムライン(4)における、キーワード位置の頻度の高い帯状部分をマウスを用いてドラッグして所定区間をインテンド表示し、当該区間を連続的に再生して映像、音声内容を確認することもできる。
図10は、編集アプリケーションプログラムから見たキーワード検索の処理の流れを概念的に示したものである。なお、[n]は、図5のフローチャートのステップ番号に対応している。編集アプリケーションプログラムに含まれる「GUI」は入力操作を含め、GUI表示を行う。「検索機能」はGUI入力されたキーワードのテキスト文字をテキストコードに変換し、データファイルとテキストコードを比較し、一致したタイムコードを読み、GUI表示させる。「コマンド発行」はインデックスファイルを読み出し、データファイルの読むべきアドレスを知った上で、キューアップ(Cue up)再生、停止などのコマンドをストレージに対し発行する。
同様に、図11、図12は、編集アプリケーションプログラムから見た映像シーン検索の処理の流れを概念的に示したものである。なお、[n]は、図9のフローチャートのステップ番号に対応している。
以上説明したように、図1に示すノンリニア編集機100においては、音声テキストデータが関連付けされた映像データを取り扱うものであって、ユーザ(編集オペレータ)により入力されたキーワードが音声テキストデータから検索され、映像タイムライン上に検索されたキーワード位置が表示される(図7参照)。したがって、ユーザは、例えば編集点とすべき所望の映像シーンを容易に探すことができる。
また、図1に示すノンリニア編集機100においては、ユーザ(編集オペレータ)は、モニタ115に表示されるグラフィカルユーザインタフェース画面(図6、図7参照)を用いて、キーワードを入力するものであり、キーワードの入力を、容易、かつ誤りなく行うことができる。
また、図1に示すノンリニア編集機100においては、ユーザ(編集オペレータ)が、モニタ115の映像タイムライン上に表示されたキーワード位置から所定のキーワード位置を選択したとき、選択された代表画像(サムネール)がモニタ115の画像表示位置(1)にされるものであり、ユーザ(編集オペレータ)は、各キーワード位置に対応した映像シーンを容易に確認できる。
また、図1に示すノンリニア編集機100においては、ユーザ(編集オペレータ)が、モニタ115の映像タイムライン上に表示されたキーワード位置から所定のキーワード位置を選択し、再生を指示したとき、映像データに基づいて、所定のキーワード位置に対応した映像がモニタ115の画像表示位置(2)に表示されるものであり、ユーザ(編集オペレータ)は各キーワード位置に対応した映像シーンを容易に確認できる。
なお、上述実施の形態においては、1つの単語、例えば「春一番」を用いて行う単純なキーワード検索を示したが、キーワード検索は単数、複数の単語による条件式で可能である。例えば、「日米野球」or「イチロー」を条件式とする場合、音声テキストから「日米野球」と「イチロー」を検索し、別々の色、または同色でインテンド表示する。また、例えば、「天気」and 「女性」を条件式とする場合、女性の声で「天気」を検索し、インテンド表示する。この場合、音声は高速フーリエ変換により男女別に判定する。また、例えば、「春一番が吹き」を条件式として、フレーズで検索する。また、例えば、「weather forecast」を条件式として、英語で検索する。
また、上述したように検索された結果、すなわち「キーワード」、キーワード部分のタイムコード等を保存し、2次利用するようにしてもよい。
また、キーワード検索は、完全一致のテキスト部分を検索するだけでなく、一致率の高いテキスト部分を検索し、例えば一致率の高い順に色分けして表示するようにしてもよい。
また、上述実施の形態においては、この発明をノンリニア編集機に適用したものであるが、この発明は、音声テキストデータが関連づけされて記録されている映像データを取り扱う、その他の映像機器にも同様に適用できる。
この発明は、所望の映像シーンを容易に検索できるものであり、例えば、ノンリニア編集機等に適用できる。
この発明の実施の形態としてのノンリニア編集機の構成例を示すブロック図である。 映像のインデックスファイルおよびデータファイルの構造の一例を示す図である。 音声テキストのインデックスファイルおよびデータファイルの構造の一例を示す図である。 映像記録装置におけるタイムコードに音声テキストデータを織りいれた構成概念を示す図である。 CPUのキーワード検索処理の一例を示すフローチャートである。 モニタに表示されているユーザインタフェース画面の一例を示す図である。 モニタに表示されているユーザインタフェース画面の一例を示す図である。 キーワードを音声テキストと比較する様子を、横軸を時間軸として、模式的に示した図である。 CPUの映像シーンの検索処理の一例を示すフローチャートである。 編集アプリケーションプログラムから見たキーワード検索の処理の流れを概念的に示した図である。 編集アプリケーションプログラムから見た映像シーン検索の処理の流れを概念的に示した図である。 編集アプリケーションプログラムから見た映像シーン検索の処理の流れを概念的に示した図である。
符号の説明
100・・・ノンリニア編集機、111・・・CPU、112・・・ROM、113・・・RAM、114・・・表示コントローラ、115・・・モニタ、116・・・HDDインタフェース、117・・・HDD、118・・・ドライブコントローラ、119・・・メディアドライブ、120・・・入力インタフェース、121・・・入力部、122・・・音声入力インタフェース、123・・・スピーカ

Claims (7)

  1. 音声テキストデータが関連付けされた映像データを取り扱う映像検索装置であって、
    ユーザがキーワードを入力するためのキーワード入力部と、
    上記音声テキストデータから上記キーワード入力部により入力されたキーワードを検索するキーワード検索部と、
    モニタに、タイムラインを表示し、該タイムライン上に上記キーワード検索部で検索されたキーワード位置をインテンド表示する情報表示制御部と
    を備えることを特徴とする映像検索装置。
  2. 上記キーワード入力部は、
    上記モニタに表示されるグラフィカルユーザインタフェース画面を用いて、上記キーワードを入力する
    ことを特徴とする請求項1に記載の映像検索装置。
  3. ユーザが上記モニタに表示された上記タイムライン上に表示されたキーワード位置から所定のキーワード位置を選択する位置選択部と、
    上記映像データに基づいて、上記位置選択部で選択されたキーワード位置が存在する音声テキスト部分に対応した代表画像を上記モニタに表示する画像表示制御部とをさらに備える
    ことを特徴とする請求項1に記載の映像検索装置。
  4. ユーザが上記モニタに表示された上記タイムライン上に表示されたキーワード位置から所定のキーワード位置を選択する位置選択部と、
    ユーザが再生を指示するための再生指示部と、
    上記位置選択部で所定のキーワード位置が選択された状態で、上記再生指示部で再生が指示されたとき、上記映像データに基づいて、上記所定のキーワード位置に対応した映像を上記モニタに表示する画像表示制御部とをさらに備える
    ことを特徴とする請求項1に記載の映像検索装置。
  5. 音声テキストデータが関連付けされた映像データを取り扱う映像検索部を有する編集装置であって、
    上記映像検索部は、
    ユーザがキーワードを入力するキーワード入力部と、
    上記音声テキストデータから上記キーワード入力部に入力されたキーワードを検索するキーワード検索部と、
    モニタに、タイムラインを表示し、該タイムライン上に上記キーワード検索部で検索されたキーワード位置を表示する情報表示制御部とを備える
    ことを特徴とする編集装置。
  6. 音声テキストデータが関連付けされた映像データを取り扱う映像検索方法であって、
    ユーザがキーワードを入力するキーワード入力ステップと、
    上記音声テキストデータから上記キーワード入力ステップで入力されたキーワードを検索するキーワード検索ステップと、
    モニタに、タイムラインを表示し、該タイムライン上に上記キーワード検索ステップで検索されたキーワード位置をインテンド表示する情報表示制御ステップと
    を備えることを特徴とする映像検索方法。
  7. コンピュータを、
    映像データに関連付けされて記憶されている音声テキストデータから入力されたキーワードを検索するキーワード検索手段と、
    モニタに、上記映像データに対応したタイムラインを表示し、該タイムライン上に上記キーワード検索手段で検索されたキーワード位置を表示する情報表示制御手段と
    して機能させるためのプログラム。
JP2008002658A 2008-01-09 2008-01-09 映像検索装置、編集装置、映像検索方法およびプログラム Pending JP2009163643A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2008002658A JP2009163643A (ja) 2008-01-09 2008-01-09 映像検索装置、編集装置、映像検索方法およびプログラム
EP08254055A EP2079234A3 (en) 2008-01-09 2008-12-18 Video searching apparatus, editing apparatus, video searching method, and program
US12/319,354 US20100003006A1 (en) 2008-01-09 2009-01-06 Video searching apparatus, editing apparatus, video searching method, and program
CNA2009100031761A CN101482880A (zh) 2008-01-09 2009-01-08 视频搜索装置、编辑装置、视频搜索方法及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008002658A JP2009163643A (ja) 2008-01-09 2008-01-09 映像検索装置、編集装置、映像検索方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2009163643A true JP2009163643A (ja) 2009-07-23

Family

ID=40427650

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008002658A Pending JP2009163643A (ja) 2008-01-09 2008-01-09 映像検索装置、編集装置、映像検索方法およびプログラム

Country Status (4)

Country Link
US (1) US20100003006A1 (ja)
EP (1) EP2079234A3 (ja)
JP (1) JP2009163643A (ja)
CN (1) CN101482880A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11455990B2 (en) 2017-11-24 2022-09-27 Samsung Electronics Co., Ltd. Electronic device and control method therefor

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5765927B2 (ja) * 2010-12-14 2015-08-19 キヤノン株式会社 表示制御装置及び表示制御装置の制御方法
CN102075792B (zh) * 2010-12-23 2013-01-02 华为技术有限公司 视频文件播放方法及系统、用户端设备、服务器设备
KR101803970B1 (ko) * 2011-03-16 2017-12-28 삼성전자주식회사 컨텐트를 구성하는 장치 및 방법
US20130031589A1 (en) * 2011-07-27 2013-01-31 Xavier Casanova Multiple resolution scannable video
WO2013057708A1 (en) * 2011-10-20 2013-04-25 Koninklijke Philips Electronics N.V. Shape sensing devices for real-time mechanical function assessment of an internal organ
US9565476B2 (en) * 2011-12-02 2017-02-07 Netzyn, Inc. Video providing textual content system and method
US20130232412A1 (en) * 2012-03-02 2013-09-05 Nokia Corporation Method and apparatus for providing media event suggestions
CN103186663B (zh) * 2012-12-28 2016-07-06 中联竞成(北京)科技有限公司 一种基于视频的网络舆情监测方法及系统
CN103077227B (zh) * 2012-12-31 2016-12-07 浙江元亨通信技术股份有限公司 视频浓缩检索分析方法及其系统
KR102161230B1 (ko) * 2013-05-28 2020-09-29 삼성전자주식회사 멀티미디어 콘텐츠 검색을 위한 사용자 인터페이스 방법 및 장치
KR102108893B1 (ko) * 2013-07-11 2020-05-11 엘지전자 주식회사 이동 단말기
CN104424228A (zh) * 2013-08-26 2015-03-18 联想(北京)有限公司 一种在多媒体文件中查询多媒体数据的方法及电子设备
US9430509B2 (en) * 2013-09-16 2016-08-30 Axis Ab Event timeline generation
CN104023176B (zh) * 2014-06-03 2017-07-14 华为技术有限公司 处理音频和图像信息的方法、装置和终端设备
US9940746B2 (en) 2015-06-18 2018-04-10 Apple Inc. Image fetching for timeline scrubbing of digital media
US20160378863A1 (en) * 2015-06-24 2016-12-29 Google Inc. Selecting representative video frames for videos
CN105898362A (zh) * 2015-11-25 2016-08-24 乐视网信息技术(北京)股份有限公司 检索视频内容的方法和装置
CN105635849B (zh) * 2015-12-25 2018-06-05 网易传媒科技(北京)有限公司 多媒体文件播放时的文本显示方法和装置
CN106210840B (zh) * 2016-06-29 2018-12-11 网易传媒科技(北京)有限公司 一种文本显示方法和设备
US10478143B2 (en) 2016-08-02 2019-11-19 Covidien Lp System and method of generating and updatng a three dimensional model of a luminal network
CN109559764A (zh) * 2017-09-27 2019-04-02 北京国双科技有限公司 音频文件的处理方法和装置
CN107888988A (zh) * 2017-11-17 2018-04-06 广东小天才科技有限公司 一种视频剪辑方法及电子设备
US11282508B2 (en) * 2019-02-21 2022-03-22 Blue Planet Training, Inc. System and a method for speech analysis

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229996A (ja) * 2001-01-29 2002-08-16 Fuji Xerox Co Ltd 検索結果表示方法および装置並びにプログラム
US20070255565A1 (en) * 2006-04-10 2007-11-01 Microsoft Corporation Clickable snippets in audio/video search results

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0507743A3 (en) * 1991-04-04 1993-01-13 Stenograph Corporation Information storage and retrieval systems
US5930446A (en) * 1995-04-08 1999-07-27 Sony Corporation Edition system
US5794249A (en) * 1995-12-21 1998-08-11 Hewlett-Packard Company Audio/video retrieval system that uses keyword indexing of digital recordings to display a list of the recorded text files, keywords and time stamps associated with the system
WO1998034182A2 (en) * 1997-02-03 1998-08-06 Koninklijke Philips Electronics N.V. A method and device for navigating through video matter by means of displaying a plurality of key-frames in parallel
JPH11272688A (ja) * 1998-03-19 1999-10-08 Fujitsu Ltd インデックスインジケータ、インデックス表示方法並びにインデックスインジケータプログラムを記録した記録媒体
JP4296461B2 (ja) * 2000-09-07 2009-07-15 ソニー株式会社 記録再生システム、サーバ装置、端末装置、映像データ提供方法、再生方法及びコンピュータ読取可能な記録媒体
US20020133486A1 (en) * 2001-03-15 2002-09-19 Kddi Corporation Video retrieval and browsing apparatus, video retrieval, browsing and editing apparatus, and recording medium
US20020140820A1 (en) * 2001-03-29 2002-10-03 Borden George R. Calendar based photo browser
US7444285B2 (en) * 2002-12-06 2008-10-28 3M Innovative Properties Company Method and system for sequential insertion of speech recognition results to facilitate deferred transcription services
JP2005094709A (ja) 2003-09-19 2005-04-07 Fuji Xerox Co Ltd 動画検索システム及び動画検索方法、並びにコンピュータ・プログラム
US20060282776A1 (en) * 2005-06-10 2006-12-14 Farmer Larry C Multimedia and performance analysis tool
JP4580885B2 (ja) * 2006-03-27 2010-11-17 株式会社東芝 シーン情報抽出方法、シーン抽出方法および抽出装置
JP4870483B2 (ja) 2006-06-26 2012-02-08 鹿島建設株式会社 部材保持装置及び部材保持方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229996A (ja) * 2001-01-29 2002-08-16 Fuji Xerox Co Ltd 検索結果表示方法および装置並びにプログラム
US20070255565A1 (en) * 2006-04-10 2007-11-01 Microsoft Corporation Clickable snippets in audio/video search results

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11455990B2 (en) 2017-11-24 2022-09-27 Samsung Electronics Co., Ltd. Electronic device and control method therefor

Also Published As

Publication number Publication date
CN101482880A (zh) 2009-07-15
US20100003006A1 (en) 2010-01-07
EP2079234A2 (en) 2009-07-15
EP2079234A3 (en) 2010-12-01

Similar Documents

Publication Publication Date Title
JP2009163643A (ja) 映像検索装置、編集装置、映像検索方法およびプログラム
US7512886B1 (en) System and method of automatically aligning video scenes with an audio track
US9390169B2 (en) Annotation of movies
US8302010B2 (en) Transcript editor
US20200126583A1 (en) Discovering highlights in transcribed source material for rapid multimedia production
JP4297010B2 (ja) 情報処理装置および情報処理方法、並びに、プログラム
JP4596060B2 (ja) 電子機器、動画像データ区間変更方法及びプログラム
US20200126559A1 (en) Creating multi-media from transcript-aligned media recordings
US20060008258A1 (en) Device and method for reproducing compressed information
JP2008022103A (ja) テレビ番組動画像ハイライト抽出装置及び方法
JP4741406B2 (ja) ノンリニア編集装置およびそのプログラム
CN101668150B (zh) 信息处理装置
JP2009163644A (ja) 映像検索装置、編集装置、映像検索方法およびプログラム
JP2001184839A (ja) 書換え自在av記録媒体用メニュー装置
US8792818B1 (en) Audio book editing method and apparatus providing the integration of images into the text
JPH05290549A (ja) 映像編集支援装置
JPH0991928A (ja) 映像の編集方法
BE1023431B1 (nl) Automatische identificatie en verwerking van audiovisuele media
JP2010154131A (ja) オーサリング装置およびオーサリング方法
JP2005167822A (ja) 情報再生装置及び情報再生方法
JP3944830B2 (ja) スピーチ近似データによる字幕用データ作成・編集支援システム
JP2007124432A (ja) 映像情報処理装置、および映像情報処理方法
JP2006332765A (ja) コンテンツ検索・再生方法、コンテンツ検索・再生装置、並びにプログラムおよび記録媒体
JP3816901B2 (ja) ストリームデータの編集方法と編集システム及びプログラム
JP4386896B2 (ja) オーディオ再生方法及びオーディオ装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130108