JP2003230094A

JP2003230094A - チャプター作成装置及びデータ再生装置及びその方法並びにプログラム

Info

Publication number: JP2003230094A
Application number: JP2002028901A
Authority: JP
Inventors: Satoshi Nakazawa; 聡中澤; Kenji Sato; 研治佐藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2002-02-06
Filing date: 2002-02-06
Publication date: 2003-08-15

Abstract

(57)【要約】【課題】入力されたマルチメディアデータに音声認識
をかけて得られたテキストを、言語的な知識を用いて区
分けし、そこから元のマルチメディアデータにリンクし
たチャプターを自動的に作ることで、マルチメディアデ
ータを様々な手法で検索・再生可能にするチャプター作
成装置を得る。【解決手段】チャプターを作成するマルチメディアデ
ータの入口となるマルチメディア入力装置１と、入力さ
れたマルチメディアデータに含まれるオーディオトラッ
クに対して音声認識を実行する音声認識装置２と、音声
認識テキストを適切なまとまり毎に区切るためのルール
が格納された区切り認定ルールデータベース３と、区切
り認定ルールに従い音声認識テキストを区切っていくテ
キスト区切り認定装置４と、得られたテキスト区切りの
時間情報をもとに入力されたマルチメディアデータのチ
ャプターを作成・出力するチャプター出力装置５とを有
する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はチャプター作成装置
及びデータ再生装置及びその方法並びにプログラムに関
し、特にビデオデータやオーディオデータのようなマル
チメディアデータを入力とし、検索・再生用のチャプタ
ーを作成するためチャプター作成方式に関するものであ
る。

【０００２】

【従来の技術】映画やＴＶ（テレビジョン）番組の映像
記録、大学の講義等の映像や音声記録、会議の映像記録
などのマルチメディアデータを視聴者が利用する際、そ
れらのマルチメディアデータに内容ごとに適切な区切り
で区分けられたチャプターが付与されていることが望ま
しい。実際、ＤＶＤ（ディジタルビデオディスク）など
では映像がいくつかのチャプターやトラックに分けられ
ており、視聴者は必要に応じてチャプター番号を直接入
力するなどの操作で、途中から映像を見たり、必要な部
分まで適宜早送りしたり、あるいは特定のチャプターだ
け繰り返し再生したりできるようになっている。

【０００３】従来、こうしたチャプターやトラックなど
の区切り情報（他にも、セクション、セグメントなどメ
ディアに応じていくつかの呼び方が存在するが、基本的
には同様のものなので、以後チャプターで統一する）を
作成するには、人手による手法が取られてきた。しか
し、内容に応じたチャプターを作成するには手間がかか
り、特に大まかなものだけでなく、細目までカバーする
チャプターを作成するには多くの労力を要する。

【０００４】映像や音声信号の特徴をとらえて自動的に
区切りを判定する手法も存在する。ある会社のハードデ
ィスクレコーダーなどの製品では、映像トラックからシ
ーンの切り替わりと思われる箇所を判定し、インデック
スとする手法が用いられている（以下、従来例１とい
う）。また、オーディオトラックを調べて、空白区間す
なわち、信号レベルが一定値以下の区間が、ある定めら
れた時間だけ続くと、それを区切りと見なす手法が、Ｍ
Ｄ（ミニディスク）レコーダーやハードディスクレコー
ダーに広く用いられている（以下、従来例２という）。

【０００５】さらに、特開２０００−７８５３０号公報
（以下、従来例３という）では、音声認識技術を用い
て、インデックス情報を自動的に作成する手法が開示さ
れている。映像／音声データに含まれているキーワード
を音声認識することにより、元の映像／音声データのど
のタイミングに、どのキーワードが発声されたか、とい
うインデックスが作成され、検索時に利用される。

【０００６】

【発明が解決しようとする課題】前述のように、マルチ
メディアデータには、その内容に即したいわば目次のよ
うなチャプターが付与されていることが望ましい。そう
したチャプターがどの程度まで詳しく作られているかに
よって、そのマルチメディアデータの検索性・利便性は
大きく異なってくる。

【０００７】例えば、大学のある講義を毎回記録した映
像データがあるとする。この映像データが、各講義が行
われた日時でのみ区切られていたとすると、視聴者はそ
の講義中で語られたある１つのトピックを視聴するため
に、そのトピックが話された日時の講義を選んだ後、頭
から早送り再生するなどして、目的の部分を探さなけれ
ばならない。もしこの映像データに、各講義の行われた
日時のインデックスだけでなく、トピックの区切りごと
にもチャプターが振られていたとすると、検索は容易に
なり、必要な部分だけ映像をコピーするといった編集作
業も容易となる。さらに講義中の発話の１文毎の区切り
も存在すれば、講師があまり発話していない個所は高速
でとばし、発話が多い部分はゆっくりにするといった、
発話の分量に応じて再生速度を調整する再生や、別途重
要と判断される発話内容の個所だけを抜粋して再生する
要約再生のような特殊再生も可能となる。

【０００８】一般に販売されているＤＶＤソフトなどで
は、細目までにはわたっていなくとも、少なくとも大ま
かな構成で区切ったチャプターが付与されている。しか
し、一般家庭でＴＶ放送を録画した場合や、ホームビデ
オで新たに作成した映像などでは、一度に録画したまと
まり以外のチャプターは新たに作成する必要がある。人
手でこうしたチャプターを作成する際の問題点は、コス
トがかかることである。人間が内容に応じて適切な区切
りを振るため、その精度に問題はないが、細目にわたる
チャプターを作成するには、大きな労力を必要とする。

【０００９】上述した従来例１や従来例２のような、映
像や音声信号の特徴をとらえて自動的に区切りを判定す
る手法の問題点は、精度が悪く、必ずしも適切な区切り
を検出できないことである。映像特徴からシーンチェン
ジ検出を自動抽出する手法では、光が点滅したり、１つ
の場面でカメラアングルが切り替わるときなど、内容的
には連続した場面であっても、チャプターを余計に区切
ってしまう。また、講義で１人の講師がずっと話してい
る場合など、同じカメラアングルで長時間類似した映像
が続くデータでは、ほとんどチャプターが区切られな
い。

【００１０】オーディオトラック中の空白を自動検出す
る手法においても、内容的な区切りと空白時間は必ずし
も相関しないため、不要な区切りが作られたり、必要な
区切りが作成されない、といった問題が起こる。特に人
の会話などでは、文の区切りと空白時間が一致しないた
め、空白期間だけを基準にしてチャプターを作成する
と、文の途中で一拍おいて話した個所などに区切りが入
り、連続して話しているところには、区切りが入らな
い。

【００１１】また、上記従来例３では、音声認識技術を
用いて、映像／音声データのどのタイミングに、どのキ
ーワードが発声されたか、分かるインデックスが作成さ
れる。これは特定のキーワードが、どのマルチメディア
データのどの瞬間に使用されたのか、検索する際にはと
ても有効である。一方、このインデックスが指し示す、
あるキーワードが使用された瞬間は、必ずしも内容的な
区切りとなるわけではないため、従来例３で作成される
インデックスだけを用いて、元のマルチメディアデータ
から、ある内容的なまとまりだけを再生したり、頭出し
したりする目的には使用できない。

【００１２】本発明はこのような問題点を解消するため
になされたものであり、入力されたマルチメディアデー
タに音声認識をかけて得られたテキストを、言語的な知
識を用いて区分けし、そこから元のマルチメディアデー
タにリンクしたチャプターを自動的に作ることで、マル
チメディアデータを様々な手法で検索・再生可能にする
チャプター作成装置及びデータ再生装置及びその方法並
びにプログラムを提供することを目的としている。

【００１３】

【課題を解決すべき手段】本発明によるチャプター作成
装置は、入力マルチメディアデータの音声認識処理を実
行する音声認識手段と、この音声認識手段により作成さ
れた音声認識テキストの区切りを認定するテキスト区切
り認定手段と、このテキスト区切り認定手段により得ら
れた区切りから前記マルチメディアデータのチャプター
を作成するチャプター出力手段とを含むことを特徴とす
る。

【００１４】更に、前記マルチメディアデータの映像・
音声信号の特徴から区切りを認定する映像・音声信号区
切り認定手段と、この映像・音声信号区切り認定手段の
区切りと前記テキスト区切り認定手段の区切りとをまと
める区切り統合手段とを含むことを特徴とする。

【００１５】本発明による他のチャプター作成装置は、
チャプターを作成するマルチメディアデータの入口とな
るマルチメディア入力手段と、入力されたマルチメディ
アデータに含まれるオーディオトラックに対して音声認
識を実行する音声認識手段と、この音声認識手段による
音声認識テキストを適切なまとまり毎に区切るためのル
ールが予め格納された区切り認定ルールデータベース
と、前記区切り認定ルールに従い前記音声認識テキスト
を区切っていくテキスト区切り認定手段と、このテキス
ト区切り認定手段により得られたテキスト区切りの時間
情報をもとに入力された前記マルチメディアデータのチ
ャプターを作成・出力するチャプター出力手段とを含む
ことを特徴とする。

【００１６】本発明によるマルチメディアデータ再生装
置は、上記の各チャプター作成装置により作成されたチ
ャプターを利用して、前記マルチメディアデータの一部
または全部を特殊再生することを特徴とする。

【００１７】本発明によるチャプター再生方法は、入力
マルチメディアデータの音声認識処理を実行する音声認
識ステップと、この音声認識ステップにより作成された
音声認識テキストの区切りを認定するテキスト区切り認
定ステップと、このテキスト区切り認定ステップにより
得られた区切りから前記マルチメディアデータのチャプ
ターを作成するチャプター出力ステップとを含むことを
特徴とする。

【００１８】更に、前記マルチメディアデータの映像・
音声信号の特徴から区切りを認定する映像・音声信号区
切り認定ステップと、この映像・音声信号区切り認定ス
テップによる区切りと前記テキスト区切り認定ステップ
による区切りとをまとめる区切り統合ステップとを含む
ことを特徴とする。

【００１９】本発明による他のチャプター再生方法は、
チャプターを作成するマルチメディアデータの入口とな
るマルチメディア入力ステップと、入力されたマルチメ
ディアデータに含まれるオーディオトラックに対して音
声認識を実行する音声認識ステップと、この音声認識ス
テップによる音声認識テキストを適切なまとまり毎に区
切るためのルールが予め格納された区切り認定ルールデ
ータベースに従い前記音声認識テキストを区切っていく
テキスト区切り認定ステップと、このテキスト区切り認
定ステップにより得られたテキスト区切りの時間情報を
もとに入力された前記マルチメディアデータのチャプタ
ーを作成・出力するチャプター出力ステップとを含むこ
とを特徴とする。

【００２０】本発明によるマルチメディアデータ再生方
法は、上記の各チャプター作成方法により作成されたチ
ャプターを利用して、前記マルチメディアデータの一部
または全部を特殊再生することを特徴とする。

【００２１】本発明によるプログラムは、マルチメディ
アデータのチャプターを作成するチャプター作成方法を
コンピュータに実行させるためのプログラムであって、
入力マルチメディアデータの音声認識処理を実行する音
声認識ステップと、この音声認識ステップにより作成さ
れた音声認識テキストの区切りを認定するテキスト区切
り認定ステップと、このテキスト区切り認定ステップに
より得られた区切りから前記マルチメディアデータのチ
ャプターを作成するチャプター出力ステップとを含むこ
とを特徴とする。

【００２２】本発明による他のプログラムは、マルチメ
ディアデータのチャプターを作成するチャプター作成方
法をコンピュータに実行させるためのプログラムであっ
て、チャプターを作成するマルチメディアデータの入口
となるマルチメディア入力ステップと、入力されたマル
チメディアデータに含まれるオーディオトラックに対し
て音声認識を実行する音声認識ステップと、この音声認
識ステップによる音声認識テキストを適切なまとまり毎
に区切るためのルールが予め格納された区切り認定ルー
ルデータベースに従い前記音声認識テキストを区切って
いくテキスト区切り認定ステップと、このテキスト区切
り認定ステップにより得られたテキスト区切りの時間情
報をもとに入力された前記マルチメディアデータのチャ
プターを作成・出力するチャプター出力ステップとを含
むことを特徴とする。

【００２３】

【発明の実施の形態】以下に図面を参照しつつ本発明の
実施の形態につき説明する。図１は本発明の第１の実施
の形態に係るチャプター作成装置の構成を示すブロック
図である。図１を参照すると、本発明の第１の実施の形
態は、ビデオテープや音楽テープ、あるいはデジタル情
報として記録されたＭＰＥＧファイル等のマルチメディ
アデータを受け付けるマルチメディアデータ入力装置１
と、入力されたマルチメディアデータのオーディオトラ
ックに対して音声認識を実行する音声認識装置２と、音
声認識テキストを適切なまとまり毎に区切るためのルー
ルが格納された区切り認定ルールデータベース３と、区
切り認定ルールに従い音声認識テキストを区切っていく
テキスト区切り認定装置４と、得られた区切りの時間情
報をもとに入力されたマルチメディアデータのチャプタ
ーを作成・出力するチャプター（インデックス）出力装
置５とからなる。

【００２４】マルチメディアデータ入力装置１は、ビデ
オテープや音楽テープ、またはＤＶＤ、ハードディスク
等に記録されているデジタルデータ、あるいはネットワ
ークを通して配信されるデジタルデータなど、使用者が
選択した媒体・形式のマルチメディアデータを受け取
り、入力とする。次いで、必要ならば入力されたマルチ
メディアデータの各信号トラックごとに、以後の処理に
適したデータ形式に変換する。

【００２５】音声認識装置２は、マルチメディアデータ
入力装置１が受理し、必要に応じてデータ形式変換を行
った、入力データから、音声が含まれているオーディオ
トラックを選択し、それに対して音声認識を実行する。
ステレオ録音などで、音声が含まれているオーディオト
ラックが複数存在する場合には、信号対雑音比が一番い
いトラックなどの基準で、そのどれかを選択し、それに
対して音声認識を実行する。あるいは、複数のオーディ
オトラックをマージして、それに対して音声認識を実行
する方法も考えられる。どの方法をとるかは、あらかじ
め入力の種類毎に判定規則を定めておくか、発明の利用
者に選択させる。

【００２６】音声認識結果のテキストには、単語などの
任意の単位毎に、その文字列単位が音声認識された時間
情報も付与する。例えば、入力されたビデオの先頭から
数えて３９０秒目と３９１秒目の間に「今日は」という
単語が認識されたとき、「今日は」という単語と開始時
間３９０秒、終了時間３９１秒、という時間情報を組に
して取り扱う。

【００２７】また、必要ならば、音声認識された単語に
品詞などの言語情報も付与する。付与された言語情報
は、テキスト区切り認定装置４で、音声認識テキスト中
の区切りを判定するために用いられる。さらに、音声認
識テキストとしては、音声認識の一位候補だけでなく、
ワードグラフのような複数の認識候補を持つ形式で出力
しても良い。ただし、音声認識テキストが複数候補を持
つ形式の場合は、区切り認定ルールデータベース３で格
納され、テキスト区切り認定装置４で適用される区切り
認定用のルールも、複数候補を取り扱えるものでなくて
はならない。

【００２８】なお、ここでは音声認識テキストに時間情
報を付与すると書いているが、この時間情報の記述の仕
方は、必ずしももとのマルチメディアデータの先頭から
数えて何秒目といった、直接的な時間表現でなくて構わ
ない。もとのマルチメディアデータの何フレーム目、デ
ータストリームの何バイト目などのように、音声認識さ
れた単語と、もとのマルチメディアデータ中の位置が対
応付けできる情報であるのならば、それでよい。

【００２９】区切り認定ルールデータベース３は、テキ
スト区切り認定装置４で、音声認識テキストの区切りを
認定するために用いられるルールを格納する。各ルール
は、ニュース番組用、会議用、映画用といった入力ソー
スの種類・目的に応じて分けられていても良い。また音
声認識テキストの文体に応じてそのルールを適用するか
どうか判断するものや、全ての音声認識テキストに対し
て適用するものであっても良い。

【００３０】テキスト区切り認定装置４は、音声認識装
置２が出力する時間情報付き音声認識テキストを受け取
り、そのテキスト内容と、元のマルチメディアデータの
種類等に応じて、用いる区切り認定ルールを判定し、区
切り認定ルールデータベース３から読み込む。ついで、
音声認識テキストに対して、読み込んだ区切り認定ルー
ルを適用し、音声認識テキスト中のどこに区切りがある
かを判断する。音声認識テキストには時間情報も付与さ
れているため、得られた区切りも元のマルチメディアデ
ータのどのタイミングにあるものかが分かる。

【００３１】また得られた区切りには、トピックなどの
大まかな区切りや、１文毎などの小さな区切り等、レベ
ルの異なる複数の種類があってよい。各区切りの種類
は、そこを区切りだと認定したルールによって決定され
る。

【００３２】チャプター出力装置５は、得られた区切り
の時間情報、種類をもとに、入力されたマルチメディア
データのチャプターを作成し、出力する。区切りの種類
が複数ある場合には、それぞれ区切りの種類毎に、レベ
ルの異なるチャプターを作成しても良い。例えば、元の
マルチメディアデータの先頭から数えて、「８１２秒目
に章区切り、８１４秒目に文区切り、８２１秒目に文区
切り、…、９４０秒目に章区切り、９４６秒目に文区切
り、…」のような区切り情報が有った場合には、８１２
秒目と、９４０秒目に通常のチャプター、８１４秒目、
８２１秒目、…、９４６秒目に詳細チャプターを出力す
る、といったこともできる。

【００３３】こうしたレベルの異なるチャプターを作成
することで、本発明の利用者が元のマルチメディアデー
タを視聴する際、高速に再生したい場合には、通常のチ
ャプターだけを順番に頭出しして一定時間再生してい
き、詳細に調べたい場合には、詳細チャプターを用い
る、のように使い分けすることも可能となる。実際のチ
ャプターの出力形式は本発明の使用目的による。

【００３４】なお、本実施の形態では、マルチメディア
データ入力装置１、音声認識装置２、区切り認定ルール
データベース３、テキスト区切り認定装置４、チャプタ
ー出力装置５は、各部の機能を制御するプログラムとし
て、ＣＤ−ＲＯＭやフレキシブルディスクなどの機械読
み取り可能な記録媒体に格納して提供され、計算機（コ
ンピュータ）等に読み込まれて実行されるものとしても
良い。

【００３５】次に、本発明の第１の実施の形態のチャプ
ター作成装置における動作について説明する。図２は本
発明の第１の実施の形態のチャプター作成方法全体を示
すフローチャートである。

【００３６】本発明の第１の実施の形態のチャプター作
成動作では、まず、マルチメディアデータ入力装置１に
入力されたマルチメディアデータは、必要に応じてその
後の処理に都合の良いデータ形式に変換される。最初か
ら、その後の処理に適したデータ形式で入力された場合
には、データ形式変換は実行されない（ステップＡ
１）。次に、音声認識装置２では、あらかじめ定められ
た基準や発明の利用者が選択した基準に従って、音声認
識処理の対象とするオーディオトラックを選択する。最
初から音声が含まれているオーディオトラックが１つし
かない場合には、それを選択する（ステップＡ２）。

【００３７】次いで、音声認識が実行され、時間情報
（あるいはそれに代わるもとのマルチメディアデータの
位置を特定できる情報）が付与された音声認識テキスト
が出力される（ステップＡ３）。テキスト区切り認定装
置４では、入力されたマルチメディアデータの種類等
と、得られた音声認識テキストから判断して、用いる区
切り認定ルールを選択し、区切り認定ルールデータベー
ス３から読み込む（ステップＡ４）。

【００３８】次に、読み込んだ区切り認定ルールを音声
認識テキストに適用し、区切りとなる個所を認定する
（ステップＡ５）。最後に区切りと認定された音声認識
テキストの時間情報を利用して、元のマルチメディアデ
ータの各区切りの時点を指し示すチャプターを作成・出
力（ステップＡ６）することで、チャプター作成動作が
終了する。

【００３９】以下では、本実施の形態におけるチャプタ
ー作成装置の動作について、具体的な例を用いて説明す
る。この具体例では、マルチメディアデータとして、様
々な講演や講義の様子を動画およびステレオ音声データ
として録画（録音）した、ＭＰＥＧ１，ＭＰＥＧ２形式
などのファイルが入力されるとする。これらのファイル
は光ディスクやネットワークなどを通して機械読み取り
可能な手段でマルチメディアデータ入力装置１に与えら
れる。また各データファイルには、あらかじめ「題
目」、「録画日時」などの情報が機械読み取り可能な形
で付与されており、１回の講演・講義ごとに別々のファ
イルとして録画されているとする。

【００４０】よって、こうしたマルチメディアデータの
視聴者が、視聴したい講義の題目や日時などからファイ
ルを選択すれば、簡単にその先頭から視聴することはで
きる。しかし、それ以上の細かなチャプターは作られて
いないとする。

【００４１】最初に、例えば「題目：特別講演ＩＴ技
術の動向、録画：０１年１２月１４日」といった映像フ
ァイルがＭＰＥＧ１形式で、マルチメディアデータ入力
装置１に入力されると、マルチメディアデータ入力装置
１はそのデータ形式を判定し、必要ならば入力されたフ
ァイルのオーディオトラックのデータ形式を変換する。

【００４２】音声認識装置２が、例えばサンプリング周
波数２２ＫのＷＡＶＥファイルを入力とするのならば、
入力されたＭＰＥＧ１ファイルのオーディオトラックだ
けを分離し、ＷＡＶＥ形式に変換した後で、サンプリン
グ周波数変換のフィルタをかける（ステップＡ１）。音
声認識装置２では、データ形式変換されたステレオのオ
ーディオトラックを受け取り、信号対雑音比を調べて、
その比が良い方のオーディオトラックを選択する（ステ
ップＡ２）。次いで、選択されたオーディオトラックに
対して、時間情報付きの音声認識を実行する（ステップ
Ａ３）。

【００４３】図３は今回の例で作成された音声認識テキ
ストの一部を示す。図３では、各認識単語の「開始時
間」は、その単語が音声認識された時間を、「終了時
間」はその単語の音声認識が終了した時間を表してい
る。単位は秒で、入力されたマルチメディアデータの先
頭を０秒とする。「品詞」は各認識単語の品詞である。
この例では認識された単語の中に「。」や「、」といっ
た句読点が含まれているが、これは直接オーディオトラ
ック中の発音から音声認識されたものではなく、言語知
識などによって音声認識エンジンが推論し、挿入したも
のである。

【００４４】一般に、音声認識エンジンには、「〜しま
した」のような認識テキストの語尾などを見て、句読点
を自動的に挿入する機能がある。音声認識エンジンに関
する技術は本発明の対象とするところではないので、こ
れ以上の詳細な説明は行わない。

【００４５】また、図４は、図３に示された音声認識テ
キストが、実際に元の入力ファイルではどのように話さ
れていたかを示す正解テキストである。ただし、図４の
テキストは説明のため挙げるものであり、本発明の実施
の形態が作成、あるいは必要とする情報ではない。図４
では、便宜上、入力されたマルチメディアデータ中の発
話を、１文とみなされる区切りで分けて表記している。
図４中の「開始時間」は各発話がなされた時間を、「終
了時間」は各発話が終了した時間を示している。単位は
秒で、入力されたマルチメディアデータの先頭を０秒と
する。

【００４６】図４によると、図３に示された音声認識テ
キストは、実際には３つの文に区切られるべき発話であ
ったことが分かる。図３に示された音声認識テキストに
は、音声認識誤りのため、間違って句読点が挿入されて
おり、このままではどこが文の区切りか正しく判断でき
ない。

【００４７】この具体例では、テキスト区切り認定装置
４は入力データの種類に応じた区切り認定ルールを、音
声認識テキストに１つ１つ適用していき、最終的に音声
認識テキスト中、区切り候補と見なされ、かつその区切
り判定得点が１００点以上となった個所を、区切りと判
定するという手法をとるとする。

【００４８】図５は、この具体例での区切り認定ルール
データベース３に格納されている区切り認定ルールの一
部を示している。図５で、「ルールＩＤ」は各区切り認
定ルールのＩＤであり、「ルールの種類」はその区切り
認定ルールが適用されるデータの種類を表している。
「ルール条件」は各区切り認定ルールが成立するための
条件であり、音声認識テキストのある個所に対して、そ
の条件が成立したとき、そこに「ルール成立時の効果」
を働かせる。「区切りの種類」はその区切り認定ルール
が対象とする区切りの種類である。

【００４９】このように、文頭・文末に使われやすい特
徴的な表現を手がかりに、得点付けをしていく区切り認
定ルールを複数用意することで、図３のテキストのよう
な誤認識が比較的多いテキストに対しても、誤認識に影
響されず、正しい文区切りを推論できるようにしてい
る。ルールの種類が「一般」のルールは、そうした区切
りの手がかりとなる特徴的な表現の中でも、特に一般の
文章で有効なものを、区切り認定ルール化したものであ
る。

【００５０】一方、ルールの種類が「講演・講義」とな
っているルールは、講演や講義で特に有効と考えられる
ものを区切り認定ルール化したものである。例えば、図
５のルールＩＤ３２は、講義や講演では、講演者が自分
の考えをまとめる際に、動詞「思う」を文末にもってく
るというヒューリスティックを表現している。

【００５１】テキスト区切り認定装置４は音声認識装置
２から音声認識テキストを受け取ると、まず、その音声
認識テキストに適用すべき区切り認定ルールを判断し
て、区切り認定ルールデータベース３から読み込む。こ
の具体例では、もとの入力データにつけられていた「題
目：特別講演ＩＴ技術の動向」という情報から判断し
て、全ての入力データに対して適用される区切り認定ル
ール「一般」と、区切り認定ルール「講義・講演」の２
種類の区切り認定ルールが、読み込まれる（ステップＡ
４）。

【００５２】次いで、テキスト区切り認定装置４は、読
み込んだ全てのルールをルールＩＤの小さいものから、
音声認識テキスト全体に渡って適用する。例えば、図５
のルールＩＤ１の結果、図３で「ポーズ長」が０．１秒
以上ある４つの個所が、区切り候補となる（候補
１：「、」と「円満」の間、候補２：「。」と「で」の
間、候補３：「。」と「と」の間、候補４：「。」と
「ＡＩ」の間の４個所）。

【００５３】ルールＩＤ２の結果、候補２、候補３、候
補４の３個所の得点が１００点となる。ルールＩＤ３の
結果、候補２、候補３の得点が３０点となる。ルールＩ
Ｄ３２の結果、候補１の得点が６０点、候補４の得点が
１６０点となる。ルールＩＤ３３の結果、候補１の得点
が１１０点となる。こうして、図３の例では、候補１と
候補４の２個所の得点が、１００点以上となったため、
最終的に「文区切り」として認定される（ステップＡ
５）。

【００５４】チャプター出力装置５は、テキスト区切り
認定装置４が認定した音声認識テキスト中の区切りを、
その種類毎に受け取る。さらに、受け取った各区切りの
直前の認識単語の終了時間、および、直後の単語の開始
時間を用いて、元の映像ファイル「題目：特別講演Ｉ
Ｔ技術の動向」の再生時に直接区切りの前後に頭出しで
きるようなチャプターを作成する。

【００５５】図３の例では、候補１と候補４の箇所で認
定された２つの文区切りから、２つのチャプターが作成
・出力される。１つは元の映像ファイル「題目：特別講
演ＩＴ技術の動向」の先頭から数えて、７２７．１７４
秒目、もう１つは７３４．８９５秒目の位置である（ス
テップＡ６）。このようにして音声認識テキストによる
チャプター作成動作は終了する。

【００５６】この具体例では、元の映像ファイル「題
目：特別講演ＩＴ技術の動向」に含まれている発話の
１文、１文に対して、詳細なチャプターが作成されるこ
とになる。こうしたチャプターを用いると、チャプター
がない場合には不可能な特殊な再生が可能になり、検索
・編集も容易となる。特殊な再生の例としては、順に各
発話の先頭チャプターを頭出ししていき、一定時間再生
した後、次のチャプターに移動する、という自動頭出し
再生がある。これにより、そのマルチメディアデータで
どのような内容の話が含まれているのか、大まかに各発
話文の出だしを聞きつつ、調べていくことができる。

【００５７】また、通常のビデオ等での高速再生では、
３倍速、７倍速等、一定の速度が定まっていて、３フレ
ームに１フレームのみ再生、７フレームに１フレームの
み再生するなど、データをとばしつつ再生する手法が一
般的だが、この具体例のように発話の１文、１文に対し
てチャプターが付与されていれば、チャプターがたくさ
ん存在するところ、すなわち発話が多いところは、ゆっ
くりと再生し、風景映像など発話が少ないところは、自
動的に高速に再生するよう調整する、のような自動可変
速再生が可能となる。他にも、特定の文のみ繰り返し再
生したり、編集用にカットするということが、こうした
詳細チャプターにより容易になる。

【００５８】また、別途、チャプター付けされた各文の
音声認識テキストを取り出し、各文に対して重要文のラ
ンキング付けをすることで、重要と判断された文を含む
部分だけを抜粋して、マルチメディアデータを再生する
といった、手法が可能になる。

【００５９】次に、本発明の第２の実施形態について図
面を参照して詳細に説明する。図６は本発明の第２の実
施の形態に係るチャプター作成装置の構成を示すブロッ
ク図である。図６において、図１と同等部分は同一符号
にて示している。図６を参照すると、本発明の第２の実
施の形態は、本発明の第１の実施の形態に加えて、映像
・音声信号区切り認定装置６と区切り統合部７を有する
点で異なる。他の部分は、本発明の第１の実施の形態と
共通であるため、ここでは説明を省略し、追加の構成に
ついてのみ述べる。

【００６０】映像・音声信号区切り認定装置６では、ま
ずマルチメディアデータ入力装置１に入力され、必要に
応じてデータ形式変換された映像信号や音声信号を受け
取って、あらかじめ定められた手法に従い、それらの信
号の特徴値を計算する。次いで、計算した特徴値から用
いた信号の区切りを判定する。映像信号のみ、音声信号
のみ単独で用いても良い。例えば、映像信号から各フレ
ームのカラーレイアウト（画面の色の大まかな分布情
報）を計算し、計算された各フレームのカラーレイアウ
トが前のフレームのカラーレイアウトより一定値以上異
なるとき、そこを区切りとする手法などが考えられる。

【００６１】音声信号を用いる手法としては、信号対雑
音比を調べ、それが一定値以下の区間がある時間以上続
いたとき、そこを区切りとする手法などが考えられる。
映像信号や音声信号から区切りを判定する技術に関して
は、本発明の対象とするところではないため、これ以上
の詳細な説明は行わない。

【００６２】区切り統合部７では、テキスト区切り認定
装置４で求められた音声認識テキストによる区切りと、
映像・音声信号区切り認定装置６で求められた区切り情
報をまとめて、取捨選択する。取捨選択は、あらかじめ
定められた規則を用いて、各区切りの時間情報と種類に
基づき行われる。また、時間的に重なった２種類の区切
りをまとめて、１つの区切りにする場合もある。

【００６３】なお、本実施の形態では、マルチメディア
データ入力装置１、音声認識装置２、区切り認定ルール
データベース３、テキスト区切り認定装置４、映像・音
声信号区切り認定装置６、区切り統合部７、チャプター
出力装置５は、各部の機能を制御するプログラムとし
て、ＣＤ−ＲＯＭやフレキシブルディスクなどの機械読
み取り可能な記録媒体に格納して提供され、計算機（コ
ンピュータ）等に読み込まれて実行されるものとしても
良い。

【００６４】次に、本発明の第２の実施の形態のチャプ
ター作成装置における動作について説明する。図７は、
本発明の第２の実施の形態のチャプター作成方法全体を
示すフローチャートである。ここで図７のステップＡ１
〜Ａ５の動作は、図２におけるステップＡ１〜Ａ５の動
作と同一である。よって、ステップＢ１〜Ｂ２、ステッ
プＣ１〜Ｃ２についてのみ説明する。

【００６５】映像・音声信号区切り認定装置６では、マ
ルチメディアデータ入力装置１から受け取った入力デー
タの映像信号や音声信号をもとに、それらの特徴値を計
算する（ステップＢ１）。次に、計算した特徴値があら
かじめ定められた条件を満たす箇所を見つけて、もとの
マルチメディアデータの区切りとする（ステップＢ
２）。

【００６６】区切り統合部７では、ステップＡ５におい
て、テキスト区切り認定装置４で求められた音声認識テ
キストによる区切りと、ステップＢ２において映像・音
声信号区切り認定装置６で求められた区切り情報を、あ
らかじめ定められた規則を用いてまとめる（ステップＣ
１）。最後に、まとめられた区切りの時間情報と、種類
に従って、入力されたマルチメディアデータのチャプタ
ーを作成・出力する（ステップＣ２）。

【００６７】また、図７のフローチャートではステップ
Ａ１〜Ａ５の処理を行ったのち、ステップＢ１〜Ｂ２を
実行するよう表現したが、これらは独立の処理であり、
順序に依存性はない。よって、これら処理をステップＢ
１〜Ｂ２、ステップＡ１〜Ａ５の順で実行してかまわな
いし、並列に実行してもかまわない。

【００６８】以下では、本発明の第２の実施の形態にお
けるチャプター作成動作について、具体的な例を用いて
説明する。ただし、図７のステップＡ１〜Ａ５の処理
は、本発明の第１の実施の形態と同様であるため、ステ
ップＢ１〜Ｂ２、ステップＣ１〜Ｃ２についてのみ具体
例を挙げる。第１の実施の形態での具体例と同じマルチ
メディアデータが入力され、ステップＡ１〜Ａ５に従っ
て、音声認識テキストに基づく区切りが作成されたとす
る。

【００６９】映像・音声信号区切り認定装置６は、マル
チメディアデータ入力装置１から映像信号を受け取り、
各フレームごとにカラーレイアウトを計算する（ステッ
プＢ１）。次いで、各フレーム間のカラーレイアウトの
差分が一定値以上の箇所を見つけて、「区切りの種類」
が「シーンチェンジ」の区切りを認定する（ステップＢ
２）。

【００７０】区切り統合部７は、テキスト区切り認定装
置４と映像・音声信号区切り認定装置６で求められた区
切りをともに読み込む。図８は、こうして求められた区
切りの一部を示している。「区切り認定の経緯」が「音
声認識テキスト」となっている区切りが、テキスト区切
り認定装置４で求められたものであり、「区切り認定の
経緯」が「映像信号」となっている区切りが、音声信号
区切り認定装置６で求められたものである。

【００７１】また「区切りの種類」が「文切り（文
頭）」「文切り（文末）」とあるのは、テキスト区切り
認定装置４で求められた区切りで発話が連続している場
合に文頭と文末を区別するためである。時間が同一であ
る「文切り（文頭）」「文切り（文末）」は１つの区切
り候補から作られる。この例では区切りをまとめるにあ
たって、「文区切りと２秒以内に隣接し、発話とタイミ
ングが重なっていないシーンチェンジは採用する」「発
話とタイミングが重なっているシーンチェンジは採用し
ない」といった規則を適用する。

【００７２】これは、カラーレイアウトから求められた
区切り「シーンチェンジ」が本当に場面転換を示してい
るのか、それとも講義の説明中などに講師の画像から黒
板等にカメラが動いただけなのか、判断が難しいからで
ある。

【００７３】図８の最初のシーンチェンジ（時間：７１
８．９１秒）は、文区切り（時間：７２０．２４３秒）
と２秒以内に隣接しており、発話とも重なっていない。
しかし、２番目のシーンチェンジ（時間：９１７．５４
秒）は、文切り（文頭）と文切り（文末）の間に存在
し、発話に重なっていると考えられるため、捨てられ
る。このようにして採用される区切りが判定され、まと
められる（ステップＣ１）。

【００７４】チャプター出力装置５は、区切り統合部７
がまとめた区切りを、その種類毎に受け取る。さらに、
受け取った各区切りの時間情報を利用して、もとの映像
ファイル「題目：特別講演ＩＴ技術の動向」の再生時
に直接区切りの前後に頭出ししたり、区切りを早送りで
きるようなチャプターを作成する（ステップＣ２）。こ
の例では、採用されたシーンチェンジの区切りだけを次
々と頭出しし、一定時間ずつ再生することで高速な早送
り、すべての区切りを次々と頭出しし、一定時間ずつ再
生することで比較的低速な早送り、といったチャプター
のレベルを必要に応じて切り替えるような特殊再生が可
能になる。

【００７５】

【発明の効果】本発明による第１の効果は、ビデオデー
タなどのマルチメディアデータに対して、発話内容の区
切りに応じたチャプターを自動的に作成できることであ
る。この結果、発話が少ない場所は大きくとばし、発話
が多い場所では低速にするといった可変速再生や、別途
重要な発話だけを判定して重要箇所を抜粋して再生する
といった特殊再生が可能になる。

【００７６】また、本発明による第２の効果は、映像信
号や音声信号の特徴から判定した区切りと、音声認識テ
キストから求めた区切りとを組み合わせることで、レベ
ルの異なるインデックスを精度良く自動的に作成できる
ことである。入力データの大まかなインデックスは映像
信号や音声信号の特徴から判定した区切りから作成し、
より詳細なチャプターは音声認識テキストから求めた区
切りから作成して、利用者は適宜使い分けることが可能
となる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態の構成を示すブロッ
ク図である。

【図２】本発明の第１の実施の形態のチャプター作成動
作を示すフローチャートである。

【図３】音声認識テキストの例を示す図である。

【図４】入力データに含まれる発話の例を示す図であ
る。

【図５】区切り認定ルールの例を示す図である。

【図６】本発明の第２の実施の形態の構成を示すブロッ
ク図である。

【図７】本発明の第２の実施の形態のチャプター作成動
作を示すフローチャートである。

【図８】区切り統合部でまとめられた区切り情報の例を
示す図である。

【符号の説明】

１マルチメディアデータ入力装置２音声認識装置３区切り認定ルールデータベース４テキスト区切り認定装置５チャプター出力装置６映像・音声信号区切り認定装置７区切り統合部

フロントページの続きＦターム(参考） 5B075 ND12 ND14 NK02 NK32 NR05 NR20 5C053 FA14 FA21 GB11 GB37 HA29 JA01 JA16 JA22 JA23 LA04 5D015 AA05 KK02 LL11

Claims

【特許請求の範囲】

【請求項１】入力マルチメディアデータの音声認識処
理を実行する音声認識手段と、この音声認識手段により
作成された音声認識テキストの区切りを認定するテキス
ト区切り認定手段と、このテキスト区切り認定手段によ
り得られた区切りから前記マルチメディアデータのチャ
プターを作成するチャプター出力手段とを含むことを特
徴とするチャプター作成装置。
【請求項２】前記マルチメディアデータの映像・音声
信号の特徴から区切りを認定する映像・音声信号区切り
認定手段と、この映像・音声信号区切り認定手段の区切
りと前記テキスト区切り認定手段の区切りとをまとめる
区切り統合手段とを、更に含むことを特徴とする請求項
１記載のチャプター作成装置。
【請求項３】前記チャプター出力手段が、前記マルチ
メディアデータのチャプターを作成する際に、時間情報
やマルチメディアデータの特定の位置を示す位置情報を
利用することを特徴とする請求項１または２記載のチャ
プター作成装置。
【請求項４】チャプターを作成するマルチメディアデ
ータの入口となるマルチメディア入力手段と、入力され
たマルチメディアデータに含まれるオーディオトラック
に対して音声認識を実行する音声認識手段と、この音声
認識手段による音声認識テキストを適切なまとまり毎に
区切るためのルールが予め格納された区切り認定ルール
データベースと、前記区切り認定ルールに従い前記音声
認識テキストを区切っていくテキスト区切り認定手段
と、このテキスト区切り認定手段により得られたテキス
ト区切りの時間情報をもとに入力された前記マルチメデ
ィアデータのチャプターを作成・出力するチャプター出
力手段とを含むことを特徴とするチャプター作成装置。
【請求項５】入力された前記マルチメディアデータの
映像信号や音声信号の特徴から、区切りを判定する映像
・音声信号区切り認定手段と、前記テキスト区切り認定
手段で得られた区切りの情報と、前記映像・音声信号区
切り認定手段で得られた区切りの情報とを統合してまと
める区切り統合手段とを、更に含むことを特徴とする請
求項４記載のチャプター作成装置。
【請求項６】請求項１〜５いずれか記載のチャプター
作成装置により作成されたチャプターを利用して、前記
マルチメディアデータの一部または全部を特殊再生する
ことを特徴とするマルチメディアデータ再生装置。
【請求項７】入力マルチメディアデータの音声認識処
理を実行する音声認識ステップと、この音声認識ステッ
プにより作成された音声認識テキストの区切りを認定す
るテキスト区切り認定ステップと、このテキスト区切り
認定ステップにより得られた区切りから前記マルチメデ
ィアデータのチャプターを作成するチャプター出力ステ
ップとを含むことを特徴とするチャプター作成方法。
【請求項８】前記マルチメディアデータの映像・音声
信号の特徴から区切りを認定する映像・音声信号区切り
認定ステップと、この映像・音声信号区切り認定ステッ
プによる区切りと前記テキスト区切り認定ステップによ
る区切りとをまとめる区切り統合ステップとを、更に含
むことを特徴とする請求項７記載のチャプター作成方
法。
【請求項９】前記チャプター出力ステップが、前記マ
ルチメディアデータのチャプターを作成する際に、時間
情報やマルチメディアデータの特定の位置を示す位置情
報を利用することを特徴とする請求項７または８記載の
チャプター作成方法。
【請求項１０】チャプターを作成するマルチメディア
データの入口となるマルチメディア入力ステップと、入
力されたマルチメディアデータに含まれるオーディオト
ラックに対して音声認識を実行する音声認識ステップ
と、この音声認識ステップによる音声認識テキストを適
切なまとまり毎に区切るためのルールが予め格納された
区切り認定ルールデータベースに従い前記音声認識テキ
ストを区切っていくテキスト区切り認定ステップと、こ
のテキスト区切り認定ステップにより得られたテキスト
区切りの時間情報をもとに入力された前記マルチメディ
アデータのチャプターを作成・出力するチャプター出力
ステップとを含むことを特徴とするチャプター作成方
法。
【請求項１１】入力された前記マルチメディアデータ
の映像信号や音声信号の特徴から、区切りを判定する映
像・音声信号区切り認定ステップと、前記テキスト区切
り認定ステップで得られた区切りの情報と、前記映像・
音声信号区切り認定ステップで得られた区切りの情報と
を統合してまとめる区切り統合ステップとを、更に含む
ことを特徴とする請求項１０記載のチャプター作成方
法。
【請求項１２】請求項７〜１１いずれか記載のチャプ
ター作成方法により作成されたチャプターを利用して、
前記マルチメディアデータの一部または全部を特殊再生
することを特徴とするマルチメディアデータ再生方法。
【請求項１３】マルチメディアデータのチャプターを
作成するチャプター作成方法をコンピュータに実行させ
るためのプログラムであって、入力マルチメディアデー
タの音声認識処理を実行する音声認識ステップと、この
音声認識ステップにより作成された音声認識テキストの
区切りを認定するテキスト区切り認定ステップと、この
テキスト区切り認定ステップにより得られた区切りから
前記マルチメディアデータのチャプターを作成するチャ
プター出力ステップとを含むことを特徴とするプログラ
ム。
【請求項１４】前記マルチメディアデータの映像・音
声信号の特徴から区切りを認定する映像・音声信号区切
り認定ステップと、この映像・音声信号区切り認定ステ
ップによる区切りと前記テキスト区切り認定ステップに
よる区切りとをまとめる区切り統合ステップとを、更に
含むことを特徴とする請求項１３記載のプログラム。
【請求項１５】前記チャプター出力ステップが、前記
マルチメディアデータのチャプターを作成する際に、時
間情報やマルチメディアデータの特定の位置を示す位置
情報を利用することを特徴とする請求項１３または１４
記載のプログラム。
【請求項１６】マルチメディアデータのチャプターを
作成するチャプター作成方法をコンピュータに実行させ
るためのプログラムであって、チャプターを作成するマ
ルチメディアデータの入口となるマルチメディア入力ス
テップと、入力されたマルチメディアデータに含まれる
オーディオトラックに対して音声認識を実行する音声認
識ステップと、この音声認識ステップによる音声認識テ
キストを適切なまとまり毎に区切るためのルールが予め
格納された区切り認定ルールデータベースに従い前記音
声認識テキストを区切っていくテキスト区切り認定ステ
ップと、このテキスト区切り認定ステップにより得られ
たテキスト区切りの時間情報をもとに入力された前記マ
ルチメディアデータのチャプターを作成・出力するチャ
プター出力ステップとを含むことを特徴とするプログラ
ム。
【請求項１７】入力された前記マルチメディアデータ
の映像信号や音声信号の特徴から、区切りを判定する映
像・音声信号区切り認定ステップと、前記テキスト区切
り認定ステップで得られた区切りの情報と、前記映像・
音声信号区切り認定ステップで得られた区切りの情報と
を統合してまとめる区切り統合ステップとを、更に含む
ことを特徴とする請求項１６記載のプログラム。