JP2003230094A - チャプター作成装置及びデータ再生装置及びその方法並びにプログラム - Google Patents

チャプター作成装置及びデータ再生装置及びその方法並びにプログラム

Info

Publication number
JP2003230094A
JP2003230094A JP2002028901A JP2002028901A JP2003230094A JP 2003230094 A JP2003230094 A JP 2003230094A JP 2002028901 A JP2002028901 A JP 2002028901A JP 2002028901 A JP2002028901 A JP 2002028901A JP 2003230094 A JP2003230094 A JP 2003230094A
Authority
JP
Japan
Prior art keywords
delimiter
chapter
text
multimedia data
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002028901A
Other languages
English (en)
Inventor
Satoshi Nakazawa
聡 中澤
Kenji Sato
研治 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2002028901A priority Critical patent/JP2003230094A/ja
Publication of JP2003230094A publication Critical patent/JP2003230094A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

(57)【要約】 【課題】 入力されたマルチメディアデータに音声認識
をかけて得られたテキストを、言語的な知識を用いて区
分けし、そこから元のマルチメディアデータにリンクし
たチャプターを自動的に作ることで、マルチメディアデ
ータを様々な手法で検索・再生可能にするチャプター作
成装置を得る。 【解決手段】 チャプターを作成するマルチメディアデ
ータの入口となるマルチメディア入力装置1と、入力さ
れたマルチメディアデータに含まれるオーディオトラッ
クに対して音声認識を実行する音声認識装置2と、音声
認識テキストを適切なまとまり毎に区切るためのルール
が格納された区切り認定ルールデータベース3と、区切
り認定ルールに従い音声認識テキストを区切っていくテ
キスト区切り認定装置4と、得られたテキスト区切りの
時間情報をもとに入力されたマルチメディアデータのチ
ャプターを作成・出力するチャプター出力装置5とを有
する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はチャプター作成装置
及びデータ再生装置及びその方法並びにプログラムに関
し、特にビデオデータやオーディオデータのようなマル
チメディアデータを入力とし、検索・再生用のチャプタ
ーを作成するためチャプター作成方式に関するものであ
る。
【0002】
【従来の技術】映画やTV(テレビジョン)番組の映像
記録、大学の講義等の映像や音声記録、会議の映像記録
などのマルチメディアデータを視聴者が利用する際、そ
れらのマルチメディアデータに内容ごとに適切な区切り
で区分けられたチャプターが付与されていることが望ま
しい。実際、DVD(ディジタルビデオディスク)など
では映像がいくつかのチャプターやトラックに分けられ
ており、視聴者は必要に応じてチャプター番号を直接入
力するなどの操作で、途中から映像を見たり、必要な部
分まで適宜早送りしたり、あるいは特定のチャプターだ
け繰り返し再生したりできるようになっている。
【0003】従来、こうしたチャプターやトラックなど
の区切り情報(他にも、セクション、セグメントなどメ
ディアに応じていくつかの呼び方が存在するが、基本的
には同様のものなので、以後チャプターで統一する)を
作成するには、人手による手法が取られてきた。しか
し、内容に応じたチャプターを作成するには手間がかか
り、特に大まかなものだけでなく、細目までカバーする
チャプターを作成するには多くの労力を要する。
【0004】映像や音声信号の特徴をとらえて自動的に
区切りを判定する手法も存在する。ある会社のハードデ
ィスクレコーダーなどの製品では、映像トラックからシ
ーンの切り替わりと思われる箇所を判定し、インデック
スとする手法が用いられている(以下、従来例1とい
う)。また、オーディオトラックを調べて、空白区間す
なわち、信号レベルが一定値以下の区間が、ある定めら
れた時間だけ続くと、それを区切りと見なす手法が、M
D(ミニディスク)レコーダーやハードディスクレコー
ダーに広く用いられている(以下、従来例2という)。
【0005】さらに、特開2000−78530号公報
(以下、従来例3という)では、音声認識技術を用い
て、インデックス情報を自動的に作成する手法が開示さ
れている。映像/音声データに含まれているキーワード
を音声認識することにより、元の映像/音声データのど
のタイミングに、どのキーワードが発声されたか、とい
うインデックスが作成され、検索時に利用される。
【0006】
【発明が解決しようとする課題】前述のように、マルチ
メディアデータには、その内容に即したいわば目次のよ
うなチャプターが付与されていることが望ましい。そう
したチャプターがどの程度まで詳しく作られているかに
よって、そのマルチメディアデータの検索性・利便性は
大きく異なってくる。
【0007】例えば、大学のある講義を毎回記録した映
像データがあるとする。この映像データが、各講義が行
われた日時でのみ区切られていたとすると、視聴者はそ
の講義中で語られたある1つのトピックを視聴するため
に、そのトピックが話された日時の講義を選んだ後、頭
から早送り再生するなどして、目的の部分を探さなけれ
ばならない。もしこの映像データに、各講義の行われた
日時のインデックスだけでなく、トピックの区切りごと
にもチャプターが振られていたとすると、検索は容易に
なり、必要な部分だけ映像をコピーするといった編集作
業も容易となる。さらに講義中の発話の1文毎の区切り
も存在すれば、講師があまり発話していない個所は高速
でとばし、発話が多い部分はゆっくりにするといった、
発話の分量に応じて再生速度を調整する再生や、別途重
要と判断される発話内容の個所だけを抜粋して再生する
要約再生のような特殊再生も可能となる。
【0008】一般に販売されているDVDソフトなどで
は、細目までにはわたっていなくとも、少なくとも大ま
かな構成で区切ったチャプターが付与されている。しか
し、一般家庭でTV放送を録画した場合や、ホームビデ
オで新たに作成した映像などでは、一度に録画したまと
まり以外のチャプターは新たに作成する必要がある。人
手でこうしたチャプターを作成する際の問題点は、コス
トがかかることである。人間が内容に応じて適切な区切
りを振るため、その精度に問題はないが、細目にわたる
チャプターを作成するには、大きな労力を必要とする。
【0009】上述した従来例1や従来例2のような、映
像や音声信号の特徴をとらえて自動的に区切りを判定す
る手法の問題点は、精度が悪く、必ずしも適切な区切り
を検出できないことである。映像特徴からシーンチェン
ジ検出を自動抽出する手法では、光が点滅したり、1つ
の場面でカメラアングルが切り替わるときなど、内容的
には連続した場面であっても、チャプターを余計に区切
ってしまう。また、講義で1人の講師がずっと話してい
る場合など、同じカメラアングルで長時間類似した映像
が続くデータでは、ほとんどチャプターが区切られな
い。
【0010】オーディオトラック中の空白を自動検出す
る手法においても、内容的な区切りと空白時間は必ずし
も相関しないため、不要な区切りが作られたり、必要な
区切りが作成されない、といった問題が起こる。特に人
の会話などでは、文の区切りと空白時間が一致しないた
め、空白期間だけを基準にしてチャプターを作成する
と、文の途中で一拍おいて話した個所などに区切りが入
り、連続して話しているところには、区切りが入らな
い。
【0011】また、上記従来例3では、音声認識技術を
用いて、映像/音声データのどのタイミングに、どのキ
ーワードが発声されたか、分かるインデックスが作成さ
れる。これは特定のキーワードが、どのマルチメディア
データのどの瞬間に使用されたのか、検索する際にはと
ても有効である。一方、このインデックスが指し示す、
あるキーワードが使用された瞬間は、必ずしも内容的な
区切りとなるわけではないため、従来例3で作成される
インデックスだけを用いて、元のマルチメディアデータ
から、ある内容的なまとまりだけを再生したり、頭出し
したりする目的には使用できない。
【0012】本発明はこのような問題点を解消するため
になされたものであり、入力されたマルチメディアデー
タに音声認識をかけて得られたテキストを、言語的な知
識を用いて区分けし、そこから元のマルチメディアデー
タにリンクしたチャプターを自動的に作ることで、マル
チメディアデータを様々な手法で検索・再生可能にする
チャプター作成装置及びデータ再生装置及びその方法並
びにプログラムを提供することを目的としている。
【0013】
【課題を解決すべき手段】本発明によるチャプター作成
装置は、入力マルチメディアデータの音声認識処理を実
行する音声認識手段と、この音声認識手段により作成さ
れた音声認識テキストの区切りを認定するテキスト区切
り認定手段と、このテキスト区切り認定手段により得ら
れた区切りから前記マルチメディアデータのチャプター
を作成するチャプター出力手段とを含むことを特徴とす
る。
【0014】更に、前記マルチメディアデータの映像・
音声信号の特徴から区切りを認定する映像・音声信号区
切り認定手段と、この映像・音声信号区切り認定手段の
区切りと前記テキスト区切り認定手段の区切りとをまと
める区切り統合手段とを含むことを特徴とする。
【0015】本発明による他のチャプター作成装置は、
チャプターを作成するマルチメディアデータの入口とな
るマルチメディア入力手段と、入力されたマルチメディ
アデータに含まれるオーディオトラックに対して音声認
識を実行する音声認識手段と、この音声認識手段による
音声認識テキストを適切なまとまり毎に区切るためのル
ールが予め格納された区切り認定ルールデータベース
と、前記区切り認定ルールに従い前記音声認識テキスト
を区切っていくテキスト区切り認定手段と、このテキス
ト区切り認定手段により得られたテキスト区切りの時間
情報をもとに入力された前記マルチメディアデータのチ
ャプターを作成・出力するチャプター出力手段とを含む
ことを特徴とする。
【0016】本発明によるマルチメディアデータ再生装
置は、上記の各チャプター作成装置により作成されたチ
ャプターを利用して、前記マルチメディアデータの一部
または全部を特殊再生することを特徴とする。
【0017】本発明によるチャプター再生方法は、入力
マルチメディアデータの音声認識処理を実行する音声認
識ステップと、この音声認識ステップにより作成された
音声認識テキストの区切りを認定するテキスト区切り認
定ステップと、このテキスト区切り認定ステップにより
得られた区切りから前記マルチメディアデータのチャプ
ターを作成するチャプター出力ステップとを含むことを
特徴とする。
【0018】更に、前記マルチメディアデータの映像・
音声信号の特徴から区切りを認定する映像・音声信号区
切り認定ステップと、この映像・音声信号区切り認定ス
テップによる区切りと前記テキスト区切り認定ステップ
による区切りとをまとめる区切り統合ステップとを含む
ことを特徴とする。
【0019】本発明による他のチャプター再生方法は、
チャプターを作成するマルチメディアデータの入口とな
るマルチメディア入力ステップと、入力されたマルチメ
ディアデータに含まれるオーディオトラックに対して音
声認識を実行する音声認識ステップと、この音声認識ス
テップによる音声認識テキストを適切なまとまり毎に区
切るためのルールが予め格納された区切り認定ルールデ
ータベースに従い前記音声認識テキストを区切っていく
テキスト区切り認定ステップと、このテキスト区切り認
定ステップにより得られたテキスト区切りの時間情報を
もとに入力された前記マルチメディアデータのチャプタ
ーを作成・出力するチャプター出力ステップとを含むこ
とを特徴とする。
【0020】本発明によるマルチメディアデータ再生方
法は、上記の各チャプター作成方法により作成されたチ
ャプターを利用して、前記マルチメディアデータの一部
または全部を特殊再生することを特徴とする。
【0021】本発明によるプログラムは、マルチメディ
アデータのチャプターを作成するチャプター作成方法を
コンピュータに実行させるためのプログラムであって、
入力マルチメディアデータの音声認識処理を実行する音
声認識ステップと、この音声認識ステップにより作成さ
れた音声認識テキストの区切りを認定するテキスト区切
り認定ステップと、このテキスト区切り認定ステップに
より得られた区切りから前記マルチメディアデータのチ
ャプターを作成するチャプター出力ステップとを含むこ
とを特徴とする。
【0022】本発明による他のプログラムは、マルチメ
ディアデータのチャプターを作成するチャプター作成方
法をコンピュータに実行させるためのプログラムであっ
て、チャプターを作成するマルチメディアデータの入口
となるマルチメディア入力ステップと、入力されたマル
チメディアデータに含まれるオーディオトラックに対し
て音声認識を実行する音声認識ステップと、この音声認
識ステップによる音声認識テキストを適切なまとまり毎
に区切るためのルールが予め格納された区切り認定ルー
ルデータベースに従い前記音声認識テキストを区切って
いくテキスト区切り認定ステップと、このテキスト区切
り認定ステップにより得られたテキスト区切りの時間情
報をもとに入力された前記マルチメディアデータのチャ
プターを作成・出力するチャプター出力ステップとを含
むことを特徴とする。
【0023】
【発明の実施の形態】以下に図面を参照しつつ本発明の
実施の形態につき説明する。図1は本発明の第1の実施
の形態に係るチャプター作成装置の構成を示すブロック
図である。図1を参照すると、本発明の第1の実施の形
態は、ビデオテープや音楽テープ、あるいはデジタル情
報として記録されたMPEGファイル等のマルチメディ
アデータを受け付けるマルチメディアデータ入力装置1
と、入力されたマルチメディアデータのオーディオトラ
ックに対して音声認識を実行する音声認識装置2と、音
声認識テキストを適切なまとまり毎に区切るためのルー
ルが格納された区切り認定ルールデータベース3と、区
切り認定ルールに従い音声認識テキストを区切っていく
テキスト区切り認定装置4と、得られた区切りの時間情
報をもとに入力されたマルチメディアデータのチャプタ
ーを作成・出力するチャプター(インデックス)出力装
置5とからなる。
【0024】マルチメディアデータ入力装置1は、ビデ
オテープや音楽テープ、またはDVD、ハードディスク
等に記録されているデジタルデータ、あるいはネットワ
ークを通して配信されるデジタルデータなど、使用者が
選択した媒体・形式のマルチメディアデータを受け取
り、入力とする。次いで、必要ならば入力されたマルチ
メディアデータの各信号トラックごとに、以後の処理に
適したデータ形式に変換する。
【0025】音声認識装置2は、マルチメディアデータ
入力装置1が受理し、必要に応じてデータ形式変換を行
った、入力データから、音声が含まれているオーディオ
トラックを選択し、それに対して音声認識を実行する。
ステレオ録音などで、音声が含まれているオーディオト
ラックが複数存在する場合には、信号対雑音比が一番い
いトラックなどの基準で、そのどれかを選択し、それに
対して音声認識を実行する。あるいは、複数のオーディ
オトラックをマージして、それに対して音声認識を実行
する方法も考えられる。どの方法をとるかは、あらかじ
め入力の種類毎に判定規則を定めておくか、発明の利用
者に選択させる。
【0026】音声認識結果のテキストには、単語などの
任意の単位毎に、その文字列単位が音声認識された時間
情報も付与する。例えば、入力されたビデオの先頭から
数えて390秒目と391秒目の間に「今日は」という
単語が認識されたとき、「今日は」という単語と開始時
間390秒、終了時間391秒、という時間情報を組に
して取り扱う。
【0027】また、必要ならば、音声認識された単語に
品詞などの言語情報も付与する。付与された言語情報
は、テキスト区切り認定装置4で、音声認識テキスト中
の区切りを判定するために用いられる。さらに、音声認
識テキストとしては、音声認識の一位候補だけでなく、
ワードグラフのような複数の認識候補を持つ形式で出力
しても良い。ただし、音声認識テキストが複数候補を持
つ形式の場合は、区切り認定ルールデータベース3で格
納され、テキスト区切り認定装置4で適用される区切り
認定用のルールも、複数候補を取り扱えるものでなくて
はならない。
【0028】なお、ここでは音声認識テキストに時間情
報を付与すると書いているが、この時間情報の記述の仕
方は、必ずしももとのマルチメディアデータの先頭から
数えて何秒目といった、直接的な時間表現でなくて構わ
ない。もとのマルチメディアデータの何フレーム目、デ
ータストリームの何バイト目などのように、音声認識さ
れた単語と、もとのマルチメディアデータ中の位置が対
応付けできる情報であるのならば、それでよい。
【0029】区切り認定ルールデータベース3は、テキ
スト区切り認定装置4で、音声認識テキストの区切りを
認定するために用いられるルールを格納する。各ルール
は、ニュース番組用、会議用、映画用といった入力ソー
スの種類・目的に応じて分けられていても良い。また音
声認識テキストの文体に応じてそのルールを適用するか
どうか判断するものや、全ての音声認識テキストに対し
て適用するものであっても良い。
【0030】テキスト区切り認定装置4は、音声認識装
置2が出力する時間情報付き音声認識テキストを受け取
り、そのテキスト内容と、元のマルチメディアデータの
種類等に応じて、用いる区切り認定ルールを判定し、区
切り認定ルールデータベース3から読み込む。ついで、
音声認識テキストに対して、読み込んだ区切り認定ルー
ルを適用し、音声認識テキスト中のどこに区切りがある
かを判断する。音声認識テキストには時間情報も付与さ
れているため、得られた区切りも元のマルチメディアデ
ータのどのタイミングにあるものかが分かる。
【0031】また得られた区切りには、トピックなどの
大まかな区切りや、1文毎などの小さな区切り等、レベ
ルの異なる複数の種類があってよい。各区切りの種類
は、そこを区切りだと認定したルールによって決定され
る。
【0032】チャプター出力装置5は、得られた区切り
の時間情報、種類をもとに、入力されたマルチメディア
データのチャプターを作成し、出力する。区切りの種類
が複数ある場合には、それぞれ区切りの種類毎に、レベ
ルの異なるチャプターを作成しても良い。例えば、元の
マルチメディアデータの先頭から数えて、「812秒目
に章区切り、814秒目に文区切り、821秒目に文区
切り、…、940秒目に章区切り、946秒目に文区切
り、…」のような区切り情報が有った場合には、812
秒目と、940秒目に通常のチャプター、814秒目、
821秒目、…、946秒目に詳細チャプターを出力す
る、といったこともできる。
【0033】こうしたレベルの異なるチャプターを作成
することで、本発明の利用者が元のマルチメディアデー
タを視聴する際、高速に再生したい場合には、通常のチ
ャプターだけを順番に頭出しして一定時間再生してい
き、詳細に調べたい場合には、詳細チャプターを用い
る、のように使い分けすることも可能となる。実際のチ
ャプターの出力形式は本発明の使用目的による。
【0034】なお、本実施の形態では、マルチメディア
データ入力装置1、音声認識装置2、区切り認定ルール
データベース3、テキスト区切り認定装置4、チャプタ
ー出力装置5は、各部の機能を制御するプログラムとし
て、CD−ROMやフレキシブルディスクなどの機械読
み取り可能な記録媒体に格納して提供され、計算機(コ
ンピュータ)等に読み込まれて実行されるものとしても
良い。
【0035】次に、本発明の第1の実施の形態のチャプ
ター作成装置における動作について説明する。図2は本
発明の第1の実施の形態のチャプター作成方法全体を示
すフローチャートである。
【0036】本発明の第1の実施の形態のチャプター作
成動作では、まず、マルチメディアデータ入力装置1に
入力されたマルチメディアデータは、必要に応じてその
後の処理に都合の良いデータ形式に変換される。最初か
ら、その後の処理に適したデータ形式で入力された場合
には、データ形式変換は実行されない(ステップA
1)。次に、音声認識装置2では、あらかじめ定められ
た基準や発明の利用者が選択した基準に従って、音声認
識処理の対象とするオーディオトラックを選択する。最
初から音声が含まれているオーディオトラックが1つし
かない場合には、それを選択する(ステップA2)。
【0037】次いで、音声認識が実行され、時間情報
(あるいはそれに代わるもとのマルチメディアデータの
位置を特定できる情報)が付与された音声認識テキスト
が出力される(ステップA3)。テキスト区切り認定装
置4では、入力されたマルチメディアデータの種類等
と、得られた音声認識テキストから判断して、用いる区
切り認定ルールを選択し、区切り認定ルールデータベー
ス3から読み込む(ステップA4)。
【0038】次に、読み込んだ区切り認定ルールを音声
認識テキストに適用し、区切りとなる個所を認定する
(ステップA5)。最後に区切りと認定された音声認識
テキストの時間情報を利用して、元のマルチメディアデ
ータの各区切りの時点を指し示すチャプターを作成・出
力(ステップA6)することで、チャプター作成動作が
終了する。
【0039】以下では、本実施の形態におけるチャプタ
ー作成装置の動作について、具体的な例を用いて説明す
る。この具体例では、マルチメディアデータとして、様
々な講演や講義の様子を動画およびステレオ音声データ
として録画(録音)した、MPEG1,MPEG2形式
などのファイルが入力されるとする。これらのファイル
は光ディスクやネットワークなどを通して機械読み取り
可能な手段でマルチメディアデータ入力装置1に与えら
れる。また各データファイルには、あらかじめ「題
目」、「録画日時」などの情報が機械読み取り可能な形
で付与されており、1回の講演・講義ごとに別々のファ
イルとして録画されているとする。
【0040】よって、こうしたマルチメディアデータの
視聴者が、視聴したい講義の題目や日時などからファイ
ルを選択すれば、簡単にその先頭から視聴することはで
きる。しかし、それ以上の細かなチャプターは作られて
いないとする。
【0041】最初に、例えば「題目:特別講演 IT技
術の動向、録画:01年12月14日」といった映像フ
ァイルがMPEG1形式で、マルチメディアデータ入力
装置1に入力されると、マルチメディアデータ入力装置
1はそのデータ形式を判定し、必要ならば入力されたフ
ァイルのオーディオトラックのデータ形式を変換する。
【0042】音声認識装置2が、例えばサンプリング周
波数22KのWAVEファイルを入力とするのならば、
入力されたMPEG1ファイルのオーディオトラックだ
けを分離し、WAVE形式に変換した後で、サンプリン
グ周波数変換のフィルタをかける(ステップA1)。音
声認識装置2では、データ形式変換されたステレオのオ
ーディオトラックを受け取り、信号対雑音比を調べて、
その比が良い方のオーディオトラックを選択する(ステ
ップA2)。次いで、選択されたオーディオトラックに
対して、時間情報付きの音声認識を実行する(ステップ
A3)。
【0043】図3は今回の例で作成された音声認識テキ
ストの一部を示す。図3では、各認識単語の「開始時
間」は、その単語が音声認識された時間を、「終了時
間」はその単語の音声認識が終了した時間を表してい
る。単位は秒で、入力されたマルチメディアデータの先
頭を0秒とする。「品詞」は各認識単語の品詞である。
この例では認識された単語の中に「。」や「、」といっ
た句読点が含まれているが、これは直接オーディオトラ
ック中の発音から音声認識されたものではなく、言語知
識などによって音声認識エンジンが推論し、挿入したも
のである。
【0044】一般に、音声認識エンジンには、「〜しま
した」のような認識テキストの語尾などを見て、句読点
を自動的に挿入する機能がある。音声認識エンジンに関
する技術は本発明の対象とするところではないので、こ
れ以上の詳細な説明は行わない。
【0045】また、図4は、図3に示された音声認識テ
キストが、実際に元の入力ファイルではどのように話さ
れていたかを示す正解テキストである。ただし、図4の
テキストは説明のため挙げるものであり、本発明の実施
の形態が作成、あるいは必要とする情報ではない。図4
では、便宜上、入力されたマルチメディアデータ中の発
話を、1文とみなされる区切りで分けて表記している。
図4中の「開始時間」は各発話がなされた時間を、「終
了時間」は各発話が終了した時間を示している。単位は
秒で、入力されたマルチメディアデータの先頭を0秒と
する。
【0046】図4によると、図3に示された音声認識テ
キストは、実際には3つの文に区切られるべき発話であ
ったことが分かる。図3に示された音声認識テキストに
は、音声認識誤りのため、間違って句読点が挿入されて
おり、このままではどこが文の区切りか正しく判断でき
ない。
【0047】この具体例では、テキスト区切り認定装置
4は入力データの種類に応じた区切り認定ルールを、音
声認識テキストに1つ1つ適用していき、最終的に音声
認識テキスト中、区切り候補と見なされ、かつその区切
り判定得点が100点以上となった個所を、区切りと判
定するという手法をとるとする。
【0048】図5は、この具体例での区切り認定ルール
データベース3に格納されている区切り認定ルールの一
部を示している。図5で、「ルールID」は各区切り認
定ルールのIDであり、「ルールの種類」はその区切り
認定ルールが適用されるデータの種類を表している。
「ルール条件」は各区切り認定ルールが成立するための
条件であり、音声認識テキストのある個所に対して、そ
の条件が成立したとき、そこに「ルール成立時の効果」
を働かせる。「区切りの種類」はその区切り認定ルール
が対象とする区切りの種類である。
【0049】このように、文頭・文末に使われやすい特
徴的な表現を手がかりに、得点付けをしていく区切り認
定ルールを複数用意することで、図3のテキストのよう
な誤認識が比較的多いテキストに対しても、誤認識に影
響されず、正しい文区切りを推論できるようにしてい
る。ルールの種類が「一般」のルールは、そうした区切
りの手がかりとなる特徴的な表現の中でも、特に一般の
文章で有効なものを、区切り認定ルール化したものであ
る。
【0050】一方、ルールの種類が「講演・講義」とな
っているルールは、講演や講義で特に有効と考えられる
ものを区切り認定ルール化したものである。例えば、図
5のルールID32は、講義や講演では、講演者が自分
の考えをまとめる際に、動詞「思う」を文末にもってく
るというヒューリスティックを表現している。
【0051】テキスト区切り認定装置4は音声認識装置
2から音声認識テキストを受け取ると、まず、その音声
認識テキストに適用すべき区切り認定ルールを判断し
て、区切り認定ルールデータベース3から読み込む。こ
の具体例では、もとの入力データにつけられていた「題
目:特別講演 IT技術の動向」という情報から判断し
て、全ての入力データに対して適用される区切り認定ル
ール「一般」と、区切り認定ルール「講義・講演」の2
種類の区切り認定ルールが、読み込まれる(ステップA
4)。
【0052】次いで、テキスト区切り認定装置4は、読
み込んだ全てのルールをルールIDの小さいものから、
音声認識テキスト全体に渡って適用する。例えば、図5
のルールID1の結果、図3で「ポーズ長」が0.1秒
以上ある4つの個所が、区切り候補となる(候補
1:「、」と「円満」の間、候補2:「。」と「で」の
間、候補3:「。」と「と」の間、候補4:「。」と
「AI」の間の4個所)。
【0053】ルールID2の結果、候補2、候補3、候
補4の3個所の得点が100点となる。ルールID3の
結果、候補2、候補3の得点が30点となる。ルールI
D32の結果、候補1の得点が60点、候補4の得点が
160点となる。ルールID33の結果、候補1の得点
が110点となる。こうして、図3の例では、候補1と
候補4の2個所の得点が、100点以上となったため、
最終的に「文区切り」として認定される(ステップA
5)。
【0054】チャプター出力装置5は、テキスト区切り
認定装置4が認定した音声認識テキスト中の区切りを、
その種類毎に受け取る。さらに、受け取った各区切りの
直前の認識単語の終了時間、および、直後の単語の開始
時間を用いて、元の映像ファイル「題目:特別講演 I
T技術の動向」の再生時に直接区切りの前後に頭出しで
きるようなチャプターを作成する。
【0055】図3の例では、候補1と候補4の箇所で認
定された2つの文区切りから、2つのチャプターが作成
・出力される。1つは元の映像ファイル「題目:特別講
演IT技術の動向」の先頭から数えて、727.174
秒目、もう1つは734.895秒目の位置である(ス
テップA6)。このようにして音声認識テキストによる
チャプター作成動作は終了する。
【0056】この具体例では、元の映像ファイル「題
目:特別講演 IT技術の動向」に含まれている発話の
1文、1文に対して、詳細なチャプターが作成されるこ
とになる。こうしたチャプターを用いると、チャプター
がない場合には不可能な特殊な再生が可能になり、検索
・編集も容易となる。特殊な再生の例としては、順に各
発話の先頭チャプターを頭出ししていき、一定時間再生
した後、次のチャプターに移動する、という自動頭出し
再生がある。これにより、そのマルチメディアデータで
どのような内容の話が含まれているのか、大まかに各発
話文の出だしを聞きつつ、調べていくことができる。
【0057】また、通常のビデオ等での高速再生では、
3倍速、7倍速等、一定の速度が定まっていて、3フレ
ームに1フレームのみ再生、7フレームに1フレームの
み再生するなど、データをとばしつつ再生する手法が一
般的だが、この具体例のように発話の1文、1文に対し
てチャプターが付与されていれば、チャプターがたくさ
ん存在するところ、すなわち発話が多いところは、ゆっ
くりと再生し、風景映像など発話が少ないところは、自
動的に高速に再生するよう調整する、のような自動可変
速再生が可能となる。他にも、特定の文のみ繰り返し再
生したり、編集用にカットするということが、こうした
詳細チャプターにより容易になる。
【0058】また、別途、チャプター付けされた各文の
音声認識テキストを取り出し、各文に対して重要文のラ
ンキング付けをすることで、重要と判断された文を含む
部分だけを抜粋して、マルチメディアデータを再生する
といった、手法が可能になる。
【0059】次に、本発明の第2の実施形態について図
面を参照して詳細に説明する。図6は本発明の第2の実
施の形態に係るチャプター作成装置の構成を示すブロッ
ク図である。図6において、図1と同等部分は同一符号
にて示している。図6を参照すると、本発明の第2の実
施の形態は、本発明の第1の実施の形態に加えて、映像
・音声信号区切り認定装置6と区切り統合部7を有する
点で異なる。他の部分は、本発明の第1の実施の形態と
共通であるため、ここでは説明を省略し、追加の構成に
ついてのみ述べる。
【0060】映像・音声信号区切り認定装置6では、ま
ずマルチメディアデータ入力装置1に入力され、必要に
応じてデータ形式変換された映像信号や音声信号を受け
取って、あらかじめ定められた手法に従い、それらの信
号の特徴値を計算する。次いで、計算した特徴値から用
いた信号の区切りを判定する。映像信号のみ、音声信号
のみ単独で用いても良い。例えば、映像信号から各フレ
ームのカラーレイアウト(画面の色の大まかな分布情
報)を計算し、計算された各フレームのカラーレイアウ
トが前のフレームのカラーレイアウトより一定値以上異
なるとき、そこを区切りとする手法などが考えられる。
【0061】音声信号を用いる手法としては、信号対雑
音比を調べ、それが一定値以下の区間がある時間以上続
いたとき、そこを区切りとする手法などが考えられる。
映像信号や音声信号から区切りを判定する技術に関して
は、本発明の対象とするところではないため、これ以上
の詳細な説明は行わない。
【0062】区切り統合部7では、テキスト区切り認定
装置4で求められた音声認識テキストによる区切りと、
映像・音声信号区切り認定装置6で求められた区切り情
報をまとめて、取捨選択する。取捨選択は、あらかじめ
定められた規則を用いて、各区切りの時間情報と種類に
基づき行われる。また、時間的に重なった2種類の区切
りをまとめて、1つの区切りにする場合もある。
【0063】なお、本実施の形態では、マルチメディア
データ入力装置1、音声認識装置2、区切り認定ルール
データベース3、テキスト区切り認定装置4、映像・音
声信号区切り認定装置6、区切り統合部7、チャプター
出力装置5は、各部の機能を制御するプログラムとし
て、CD−ROMやフレキシブルディスクなどの機械読
み取り可能な記録媒体に格納して提供され、計算機(コ
ンピュータ)等に読み込まれて実行されるものとしても
良い。
【0064】次に、本発明の第2の実施の形態のチャプ
ター作成装置における動作について説明する。図7は、
本発明の第2の実施の形態のチャプター作成方法全体を
示すフローチャートである。ここで図7のステップA1
〜A5の動作は、図2におけるステップA1〜A5の動
作と同一である。よって、ステップB1〜B2、ステッ
プC1〜C2についてのみ説明する。
【0065】映像・音声信号区切り認定装置6では、マ
ルチメディアデータ入力装置1から受け取った入力デー
タの映像信号や音声信号をもとに、それらの特徴値を計
算する(ステップB1)。次に、計算した特徴値があら
かじめ定められた条件を満たす箇所を見つけて、もとの
マルチメディアデータの区切りとする(ステップB
2)。
【0066】区切り統合部7では、ステップA5におい
て、テキスト区切り認定装置4で求められた音声認識テ
キストによる区切りと、ステップB2において映像・音
声信号区切り認定装置6で求められた区切り情報を、あ
らかじめ定められた規則を用いてまとめる(ステップC
1)。最後に、まとめられた区切りの時間情報と、種類
に従って、入力されたマルチメディアデータのチャプタ
ーを作成・出力する(ステップC2)。
【0067】また、図7のフローチャートではステップ
A1〜A5の処理を行ったのち、ステップB1〜B2を
実行するよう表現したが、これらは独立の処理であり、
順序に依存性はない。よって、これら処理をステップB
1〜B2、ステップA1〜A5の順で実行してかまわな
いし、並列に実行してもかまわない。
【0068】以下では、本発明の第2の実施の形態にお
けるチャプター作成動作について、具体的な例を用いて
説明する。ただし、図7のステップA1〜A5の処理
は、本発明の第1の実施の形態と同様であるため、ステ
ップB1〜B2、ステップC1〜C2についてのみ具体
例を挙げる。第1の実施の形態での具体例と同じマルチ
メディアデータが入力され、ステップA1〜A5に従っ
て、音声認識テキストに基づく区切りが作成されたとす
る。
【0069】映像・音声信号区切り認定装置6は、マル
チメディアデータ入力装置1から映像信号を受け取り、
各フレームごとにカラーレイアウトを計算する(ステッ
プB1)。次いで、各フレーム間のカラーレイアウトの
差分が一定値以上の箇所を見つけて、「区切りの種類」
が「シーンチェンジ」の区切りを認定する(ステップB
2)。
【0070】区切り統合部7は、テキスト区切り認定装
置4と映像・音声信号区切り認定装置6で求められた区
切りをともに読み込む。図8は、こうして求められた区
切りの一部を示している。「区切り認定の経緯」が「音
声認識テキスト」となっている区切りが、テキスト区切
り認定装置4で求められたものであり、「区切り認定の
経緯」が「映像信号」となっている区切りが、音声信号
区切り認定装置6で求められたものである。
【0071】また「区切りの種類」が「文切り(文
頭)」「文切り(文末)」とあるのは、テキスト区切り
認定装置4で求められた区切りで発話が連続している場
合に文頭と文末を区別するためである。時間が同一であ
る「文切り(文頭)」「文切り(文末)」は1つの区切
り候補から作られる。この例では区切りをまとめるにあ
たって、「文区切りと2秒以内に隣接し、発話とタイミ
ングが重なっていないシーンチェンジは採用する」「発
話とタイミングが重なっているシーンチェンジは採用し
ない」といった規則を適用する。
【0072】これは、カラーレイアウトから求められた
区切り「シーンチェンジ」が本当に場面転換を示してい
るのか、それとも講義の説明中などに講師の画像から黒
板等にカメラが動いただけなのか、判断が難しいからで
ある。
【0073】図8の最初のシーンチェンジ(時間:71
8.91秒)は、文区切り(時間:720.243秒)
と2秒以内に隣接しており、発話とも重なっていない。
しかし、2番目のシーンチェンジ(時間:917.54
秒)は、文切り(文頭)と文切り(文末)の間に存在
し、発話に重なっていると考えられるため、捨てられ
る。このようにして採用される区切りが判定され、まと
められる(ステップC1)。
【0074】チャプター出力装置5は、区切り統合部7
がまとめた区切りを、その種類毎に受け取る。さらに、
受け取った各区切りの時間情報を利用して、もとの映像
ファイル「題目:特別講演 IT技術の動向」の再生時
に直接区切りの前後に頭出ししたり、区切りを早送りで
きるようなチャプターを作成する(ステップC2)。こ
の例では、採用されたシーンチェンジの区切りだけを次
々と頭出しし、一定時間ずつ再生することで高速な早送
り、すべての区切りを次々と頭出しし、一定時間ずつ再
生することで比較的低速な早送り、といったチャプター
のレベルを必要に応じて切り替えるような特殊再生が可
能になる。
【0075】
【発明の効果】本発明による第1の効果は、ビデオデー
タなどのマルチメディアデータに対して、発話内容の区
切りに応じたチャプターを自動的に作成できることであ
る。この結果、発話が少ない場所は大きくとばし、発話
が多い場所では低速にするといった可変速再生や、別途
重要な発話だけを判定して重要箇所を抜粋して再生する
といった特殊再生が可能になる。
【0076】また、本発明による第2の効果は、映像信
号や音声信号の特徴から判定した区切りと、音声認識テ
キストから求めた区切りとを組み合わせることで、レベ
ルの異なるインデックスを精度良く自動的に作成できる
ことである。入力データの大まかなインデックスは映像
信号や音声信号の特徴から判定した区切りから作成し、
より詳細なチャプターは音声認識テキストから求めた区
切りから作成して、利用者は適宜使い分けることが可能
となる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の構成を示すブロッ
ク図である。
【図2】本発明の第1の実施の形態のチャプター作成動
作を示すフローチャートである。
【図3】音声認識テキストの例を示す図である。
【図4】入力データに含まれる発話の例を示す図であ
る。
【図5】区切り認定ルールの例を示す図である。
【図6】本発明の第2の実施の形態の構成を示すブロッ
ク図である。
【図7】本発明の第2の実施の形態のチャプター作成動
作を示すフローチャートである。
【図8】区切り統合部でまとめられた区切り情報の例を
示す図である。
【符号の説明】
1 マルチメディアデータ入力装置 2 音声認識装置 3 区切り認定ルールデータベース 4 テキスト区切り認定装置 5 チャプター出力装置 6 映像・音声信号区切り認定装置 7 区切り統合部
フロントページの続き Fターム(参考) 5B075 ND12 ND14 NK02 NK32 NR05 NR20 5C053 FA14 FA21 GB11 GB37 HA29 JA01 JA16 JA22 JA23 LA04 5D015 AA05 KK02 LL11

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】 入力マルチメディアデータの音声認識処
    理を実行する音声認識手段と、この音声認識手段により
    作成された音声認識テキストの区切りを認定するテキス
    ト区切り認定手段と、このテキスト区切り認定手段によ
    り得られた区切りから前記マルチメディアデータのチャ
    プターを作成するチャプター出力手段とを含むことを特
    徴とするチャプター作成装置。
  2. 【請求項2】 前記マルチメディアデータの映像・音声
    信号の特徴から区切りを認定する映像・音声信号区切り
    認定手段と、この映像・音声信号区切り認定手段の区切
    りと前記テキスト区切り認定手段の区切りとをまとめる
    区切り統合手段とを、更に含むことを特徴とする請求項
    1記載のチャプター作成装置。
  3. 【請求項3】 前記チャプター出力手段が、前記マルチ
    メディアデータのチャプターを作成する際に、時間情報
    やマルチメディアデータの特定の位置を示す位置情報を
    利用することを特徴とする請求項1または2記載のチャ
    プター作成装置。
  4. 【請求項4】 チャプターを作成するマルチメディアデ
    ータの入口となるマルチメディア入力手段と、入力され
    たマルチメディアデータに含まれるオーディオトラック
    に対して音声認識を実行する音声認識手段と、この音声
    認識手段による音声認識テキストを適切なまとまり毎に
    区切るためのルールが予め格納された区切り認定ルール
    データベースと、前記区切り認定ルールに従い前記音声
    認識テキストを区切っていくテキスト区切り認定手段
    と、このテキスト区切り認定手段により得られたテキス
    ト区切りの時間情報をもとに入力された前記マルチメデ
    ィアデータのチャプターを作成・出力するチャプター出
    力手段とを含むことを特徴とするチャプター作成装置。
  5. 【請求項5】 入力された前記マルチメディアデータの
    映像信号や音声信号の特徴から、区切りを判定する映像
    ・音声信号区切り認定手段と、前記テキスト区切り認定
    手段で得られた区切りの情報と、前記映像・音声信号区
    切り認定手段で得られた区切りの情報とを統合してまと
    める区切り統合手段とを、更に含むことを特徴とする請
    求項4記載のチャプター作成装置。
  6. 【請求項6】 請求項1〜5いずれか記載のチャプター
    作成装置により作成されたチャプターを利用して、前記
    マルチメディアデータの一部または全部を特殊再生する
    ことを特徴とするマルチメディアデータ再生装置。
  7. 【請求項7】 入力マルチメディアデータの音声認識処
    理を実行する音声認識ステップと、この音声認識ステッ
    プにより作成された音声認識テキストの区切りを認定す
    るテキスト区切り認定ステップと、このテキスト区切り
    認定ステップにより得られた区切りから前記マルチメデ
    ィアデータのチャプターを作成するチャプター出力ステ
    ップとを含むことを特徴とするチャプター作成方法。
  8. 【請求項8】 前記マルチメディアデータの映像・音声
    信号の特徴から区切りを認定する映像・音声信号区切り
    認定ステップと、この映像・音声信号区切り認定ステッ
    プによる区切りと前記テキスト区切り認定ステップによ
    る区切りとをまとめる区切り統合ステップとを、更に含
    むことを特徴とする請求項7記載のチャプター作成方
    法。
  9. 【請求項9】 前記チャプター出力ステップが、前記マ
    ルチメディアデータのチャプターを作成する際に、時間
    情報やマルチメディアデータの特定の位置を示す位置情
    報を利用することを特徴とする請求項7または8記載の
    チャプター作成方法。
  10. 【請求項10】 チャプターを作成するマルチメディア
    データの入口となるマルチメディア入力ステップと、入
    力されたマルチメディアデータに含まれるオーディオト
    ラックに対して音声認識を実行する音声認識ステップ
    と、この音声認識ステップによる音声認識テキストを適
    切なまとまり毎に区切るためのルールが予め格納された
    区切り認定ルールデータベースに従い前記音声認識テキ
    ストを区切っていくテキスト区切り認定ステップと、こ
    のテキスト区切り認定ステップにより得られたテキスト
    区切りの時間情報をもとに入力された前記マルチメディ
    アデータのチャプターを作成・出力するチャプター出力
    ステップとを含むことを特徴とするチャプター作成方
    法。
  11. 【請求項11】 入力された前記マルチメディアデータ
    の映像信号や音声信号の特徴から、区切りを判定する映
    像・音声信号区切り認定ステップと、前記テキスト区切
    り認定ステップで得られた区切りの情報と、前記映像・
    音声信号区切り認定ステップで得られた区切りの情報と
    を統合してまとめる区切り統合ステップとを、更に含む
    ことを特徴とする請求項10記載のチャプター作成方
    法。
  12. 【請求項12】 請求項7〜11いずれか記載のチャプ
    ター作成方法により作成されたチャプターを利用して、
    前記マルチメディアデータの一部または全部を特殊再生
    することを特徴とするマルチメディアデータ再生方法。
  13. 【請求項13】 マルチメディアデータのチャプターを
    作成するチャプター作成方法をコンピュータに実行させ
    るためのプログラムであって、入力マルチメディアデー
    タの音声認識処理を実行する音声認識ステップと、この
    音声認識ステップにより作成された音声認識テキストの
    区切りを認定するテキスト区切り認定ステップと、この
    テキスト区切り認定ステップにより得られた区切りから
    前記マルチメディアデータのチャプターを作成するチャ
    プター出力ステップとを含むことを特徴とするプログラ
    ム。
  14. 【請求項14】 前記マルチメディアデータの映像・音
    声信号の特徴から区切りを認定する映像・音声信号区切
    り認定ステップと、この映像・音声信号区切り認定ステ
    ップによる区切りと前記テキスト区切り認定ステップに
    よる区切りとをまとめる区切り統合ステップとを、更に
    含むことを特徴とする請求項13記載のプログラム。
  15. 【請求項15】 前記チャプター出力ステップが、前記
    マルチメディアデータのチャプターを作成する際に、時
    間情報やマルチメディアデータの特定の位置を示す位置
    情報を利用することを特徴とする請求項13または14
    記載のプログラム。
  16. 【請求項16】 マルチメディアデータのチャプターを
    作成するチャプター作成方法をコンピュータに実行させ
    るためのプログラムであって、チャプターを作成するマ
    ルチメディアデータの入口となるマルチメディア入力ス
    テップと、入力されたマルチメディアデータに含まれる
    オーディオトラックに対して音声認識を実行する音声認
    識ステップと、この音声認識ステップによる音声認識テ
    キストを適切なまとまり毎に区切るためのルールが予め
    格納された区切り認定ルールデータベースに従い前記音
    声認識テキストを区切っていくテキスト区切り認定ステ
    ップと、このテキスト区切り認定ステップにより得られ
    たテキスト区切りの時間情報をもとに入力された前記マ
    ルチメディアデータのチャプターを作成・出力するチャ
    プター出力ステップとを含むことを特徴とするプログラ
    ム。
  17. 【請求項17】 入力された前記マルチメディアデータ
    の映像信号や音声信号の特徴から、区切りを判定する映
    像・音声信号区切り認定ステップと、前記テキスト区切
    り認定ステップで得られた区切りの情報と、前記映像・
    音声信号区切り認定ステップで得られた区切りの情報と
    を統合してまとめる区切り統合ステップとを、更に含む
    ことを特徴とする請求項16記載のプログラム。
JP2002028901A 2002-02-06 2002-02-06 チャプター作成装置及びデータ再生装置及びその方法並びにプログラム Pending JP2003230094A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002028901A JP2003230094A (ja) 2002-02-06 2002-02-06 チャプター作成装置及びデータ再生装置及びその方法並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002028901A JP2003230094A (ja) 2002-02-06 2002-02-06 チャプター作成装置及びデータ再生装置及びその方法並びにプログラム

Publications (1)

Publication Number Publication Date
JP2003230094A true JP2003230094A (ja) 2003-08-15

Family

ID=27749925

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002028901A Pending JP2003230094A (ja) 2002-02-06 2002-02-06 チャプター作成装置及びデータ再生装置及びその方法並びにプログラム

Country Status (1)

Country Link
JP (1) JP2003230094A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006049249A1 (ja) * 2004-11-08 2006-05-11 Matsushita Electric Industrial Co., Ltd. ディジタル映像再生装置
JP2007041302A (ja) * 2005-08-03 2007-02-15 Casio Comput Co Ltd 音声再生装置および音声再生処理プログラム
KR101026328B1 (ko) * 2008-03-12 2011-03-31 가부시키가이샤 히타치세이사쿠쇼 정보 기록 장치
JP2014022758A (ja) * 2012-07-12 2014-02-03 Sony Corp 情報処理装置、情報処理方法、表示制御装置および表示制御方法
JP2014235263A (ja) * 2013-05-31 2014-12-15 ヤマハ株式会社 音声認識装置およびプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006049249A1 (ja) * 2004-11-08 2006-05-11 Matsushita Electric Industrial Co., Ltd. ディジタル映像再生装置
US7953602B2 (en) 2004-11-08 2011-05-31 Panasonic Corporation Digital video reproducing apparatus for recognizing and reproducing a digital video content
JP2007041302A (ja) * 2005-08-03 2007-02-15 Casio Comput Co Ltd 音声再生装置および音声再生処理プログラム
JP4622728B2 (ja) * 2005-08-03 2011-02-02 カシオ計算機株式会社 音声再生装置および音声再生処理プログラム
KR101026328B1 (ko) * 2008-03-12 2011-03-31 가부시키가이샤 히타치세이사쿠쇼 정보 기록 장치
KR101057559B1 (ko) * 2008-03-12 2011-08-17 가부시키가이샤 히타치세이사쿠쇼 정보 기록 장치
JP2014022758A (ja) * 2012-07-12 2014-02-03 Sony Corp 情報処理装置、情報処理方法、表示制御装置および表示制御方法
JP2014235263A (ja) * 2013-05-31 2014-12-15 ヤマハ株式会社 音声認識装置およびプログラム

Similar Documents

Publication Publication Date Title
EP0798723B1 (en) Information recording medium apparatus for recording the same and apparatus for reproducing the same
US6253018B1 (en) Information record medium, apparatus for recording the same and apparatus for reproducing the same
JP2004533756A (ja) 自動コンテンツ分析及びマルチメデイア・プレゼンテーションの表示
US20040152054A1 (en) System for learning language through embedded content on a single medium
US20050010952A1 (en) System for learning language through embedded content on a single medium
US20100299131A1 (en) Transcript alignment
JP2007519987A (ja) 内部及び外部オーディオビジュアルデータの統合解析システム及び方法
JPH09251759A (ja) 情報記録媒体並びにその記録装置及び再生装置
JP2010161722A (ja) データ処理装置、データ処理方法、及び、プログラム
JP2006319980A (ja) イベントを利用した動画像要約装置、方法及びプログラム
JPH09251762A (ja) 情報記録媒体並びにその記録装置及び再生装置
JP2008205745A (ja) 映像再生装置および方法
JP3938096B2 (ja) インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム
JP2003230094A (ja) チャプター作成装置及びデータ再生装置及びその方法並びにプログラム
JP3685733B2 (ja) マルチメディアデータ検索装置、マルチメディアデータ検索方法およびマルチメディアデータ検索プログラム
US7756401B2 (en) Digital audio-video information reproducing apparatus and reproducing method for reproducing subtitle file and file-based audio-video file
JP3838775B2 (ja) マルチメディア処理装置、記録媒体
KR20070042000A (ko) 동영상 스트림의 챕터 별 제목 설정 방법 및 장치
JP2005352330A (ja) 音声分割記録装置
JP2002084505A (ja) 映像閲覧時間短縮装置及び方法
JP3816901B2 (ja) ストリームデータの編集方法と編集システム及びプログラム
JP2005167456A (ja) Avコンテンツ興趣特徴抽出方法及びavコンテンツ興趣特徴抽出装置
JP4086886B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP2007272975A (ja) オーサリング支援装置、オーサリング支援方法及びプログラム、並びにオーサリング情報共有システム
KR20050090398A (ko) 음성 왜곡 없이 선택가능한 속도로 재생하기 위한 방법 및장치

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060124

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060523