JP3938096B2 - インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム - Google Patents

インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム Download PDF

Info

Publication number
JP3938096B2
JP3938096B2 JP2003119738A JP2003119738A JP3938096B2 JP 3938096 B2 JP3938096 B2 JP 3938096B2 JP 2003119738 A JP2003119738 A JP 2003119738A JP 2003119738 A JP2003119738 A JP 2003119738A JP 3938096 B2 JP3938096 B2 JP 3938096B2
Authority
JP
Japan
Prior art keywords
matching
index
speech recognition
multimedia data
index creation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003119738A
Other languages
English (en)
Other versions
JP2004326404A (ja
Inventor
聡 中澤
研治 佐藤
直博 竹田
真琴 岩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2003119738A priority Critical patent/JP3938096B2/ja
Publication of JP2004326404A publication Critical patent/JP2004326404A/ja
Application granted granted Critical
Publication of JP3938096B2 publication Critical patent/JP3938096B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ビデオデータやオーディオデータのようなマルチメディアデータ、その関連資料を入力し、検索・再生用のインデックスを作成するインデックス作成装置、インデックス作成方法、および、インデックス作成プログラムに関し、特に、入力されたマルチメディアデータに音声認識をかけて得られた音声認識テキストと入力された関連資料とをそれぞれ構造解析してマッチングを取ることにより、インデックスを作成するインデックス作成装置、インデックス作成方法、および、インデックス作成プログラムに関する。
【0002】
【従来の技術】
映画やTV(テレビジョン)番組の映像記録、大学の講義等の映像や音声記録、会議の映像記録などのマルチメディアデータを視聴者が利用する際、それらのマルチメディアデータに発話内容などに即した詳細なインデックスが付与されていることが望ましい。詳細なインデックスが存在すれば、視聴者はそれを利用して内容検索や、頭出し、必要な箇所のみの再生といったことが可能になる。
【0003】
特許文献1では、このような詳細なインデックスを作成するため、ビデオや音声クリップに音声認識を行って、音声認識テキストを作成し、それと元のビデオや音声クリップの書き起こしとのマッチングを取るという手法が公開されている。音声認識テキストには、一般に認識誤りが含まれているが、元のマルチメディアデータの中で、認識された各単語がどの瞬間に発言されたかを示す時間情報は自動的に付与することができる。よって、時間情報付きの音声認識テキストと、別途作成された正確な書き起こしとのマッチングを取ることができれば、結果として時間情報付きの書き起こしが得られる。それはすなわち、書き起こし中の各発話や単語が元のマルチメディアデータ中のどこにあたるかを示すインデックスが自動的に作成できるということになる。
【0004】
【特許文献1】
特開平7−199379号公報
【0005】
【発明が解決しようとする課題】
前述のように、マルチメディアデータには、その内容に即したいわば詳細な目次のようなインデックスが付与されていることが望ましい。そうしたインデックスがどの程度まで詳しく作られているかによって、そのマルチメディアデータの検索性や、再生時の利便性は大きく異なってくる。
【0006】
一方、マルチメディアデータには、書き起こしや議事録、シナリオ、講演用原稿、プレゼンテーション資料、参考図書、関連ウェブページなどのような関連資料がしばしば存在する。これらには、元のマルチメディアデータの内容を示すテキストが含まれており、インデックスとして活用することができる。しかし、マルチメディアデータとこれらの関連資料は通常、個別に作成されるものであり、どの関連資料とどのマルチメディアデータが対応するかは記録されていても、関連資料中の各部分が、マルチメディアデータ中のどの部分に対応するかまでは分からないことが多い。よって例えば、キーワード検索によりある議事録中のある発言を検索して、特定の一本のビデオが目的のものだと分かったとしても、必要な発言の部分が、そのビデオ中のどこにあるのか見るためには、ビデオを先頭から順に調べていくなどの作業が必要になる。
【0007】
人手で、マルチメディアデータとその関連資料を内容に至るまで対応づけることはできる。一旦対応付けが完了すれば、それはマルチメディアデータの詳細なインデックスとして機能し、関連資料を介して、マルチメディアデータに対するキーワード検索や、指定した箇所のみの再生などが可能となる。しかし、人手で対応付けをとるには、大きな労力が必要となる。
【0008】
また、特許文献1では、ビデオや音声クリップの音声認識テキストと書き起こしとのマッチングを自動的に取ることができる。しかし、この技術には以下に挙げる3つの問題がある。
【0009】
第1の問題は、書き起こしが発話者の発話を正確に記録したものであり、余計なテキストが含まれていてはならない、ということである。一般に、シナリオや講演原稿などの書き起こしには、注釈やナレーションなどのような発話以外のテキストが含まれているが、特許文献1ではこのようなテキストが存在するとマッチング精度が悪化する。
【0010】
第2の問題は、対応をとるビデオや音声クリップ全体の書き起こしを作成しなければならない、という点である。たとえインデックスが必要になる部分が、ビデオや音声クリップの一部だけであっても、マッチングを取るためには全体の書き起こしを作成しなければならない。またプレゼンテーション資料のような、内容が共通してはいるが正確な書き起こしでないテキストともマッチングできない。
【0011】
第3の問題は、マッチングが音声認識結果にのみ依存しているという点である。マッチングを正確に取るためには、音声認識精度が良くなければならない。
【0012】
本発明の目的は、このような問題点を解消するためになされたものであり、入力されたマルチメディアデータに音声認識をかけて得られたテキストと、関連資料をそれぞれ別途に構造解析し、得られた構造情報を利用して音声認識テキストと関連資料とのマッチングをとり、元のマルチメディアデータのインデックスとするインデックス作成装置、方法、および、プログラムを提供することである。
【0013】
【課題を解決するための手段】
本発明の第1のインデックス作成装置は、マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識手段と、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析手段と、前記音声認識手段からの音声認識テキスト、および、前記関連資料構造解析手段からの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成手段と、を有することを特徴とする。
【0014】
本発明の第2のインデックス作成装置は、マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識手段と、前記音声認識手段からの音声認識テキストの構造解析を行い、音声認識テキスト構造情報を作成する音声認識テキスト構造解析手段と、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析手段と、前記音声認識テキスト構造解析手段からの音声認識テキスト構造情報、および、関連資料構造解析手段からの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成手段と、を有することを特徴とする。
【0015】
本発明の第3のインデックス作成装置は、前記第1、または、第2のインデックス作成装置であって、前記マルチメディアデータのインデックスを作成する際に、既存のインデックスを利用して繰り返しインデックスを作成する前記インデックス作成手段を有することを特徴とする。
【0016】
本発明の第4のインデックス作成装置は、前記第1、第2、または、第3のインデックス作成装置であって、前記インデックス出力手段からのインデックスを編集するインデックス編集手段を有することを特徴とする。
【0017】
本発明の第5のインデックス作成装置は、前記第4のインデックス作成装置であって、利用者により指定された箇所または内容を出力する前記インデックス編集手段と、前記インデックス編集手段からの利用者により指定された箇所または内容に基づいて再計算用のマッチングルールを設定するマッチング範囲・条件調整手段と、前記マッチング範囲・条件調整手段からの再計算用のマッチングルールに基づいて再度インデックスを作成し直す前記インデックス作成手段とを有することを特徴とする。
【0018】
本発明の第6のインデックス作成装置は、前記第5のインデックス作成装置であって、再度インデックスを作成し直す際に、前記関連資料構造解析手段からの関連資料構造情報を利用する前記インデックス作成手段を有することを特徴とする。
【0019】
本発明の第7のインデックス作成装置は、前記第1、第2、第3、第4、第5、または、第6のインデックス作成装置であって、前記インデックス作成手段が、前記マルチメディアデータのインデックスを作成する際に、時間情報、または、マルチメディアデータの特定の位置を示す位置情報を利用することを特徴とする。
【0020】
本発明の第1のインデックス作成方法は、マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識ステップと、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析ステップと、前記音声認識ステップからの音声認識テキスト、および、前記関連資料構造解析ステップからの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成ステップと、含むことを特徴とする。
【0021】
本発明の第2のインデックス作成方法は、マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識ステップと、前記音声認識ステップからの音声認識テキストの構造解析を行い、音声認識テキスト構造情報を作成する音声認識テキスト構造解析ステップと、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析ステップと、前記音声認識テキスト構造解析ステップからの音声認識テキスト構造情報、および、関連資料構造解析ステップからの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成ステップと、を含むことを特徴とする。
【0022】
本発明の第3のインデックス作成方法は、前記第1、または、第2のインデックス作成方法であって、前記マルチメディアデータのインデックスを作成する際に、既存のインデックスを利用して繰り返しインデックスを作成する前記インデックス作成ステップを含むことを特徴とする。
【0023】
本発明の第4のインデックス作成方法は、前記第1、第2、または、第3のインデックス作成方法であって、前記インデックス作成ステップからのインデックスを編集するインデックス編集ステップを含むことを特徴とする。
【0024】
本発明の第5のインデックス作成方法は、前記第4のインデックス作成方法であって、利用者により指定された箇所または内容を出力する前記インデックス編集ステップと、前記インデックス編集ステップからの利用者により指定された箇所または内容に基づいて再計算用のマッチングルールを設定するマッチング範囲・条件調整ステップと、前記マッチング範囲・条件調整ステップからの再計算用のマッチングルールに基づいて再度インデックスを作成し直す前記インデックス作成ステップとを含むことを特徴とする。
【0025】
本発明の第6のインデックス作成方法は、前記第5のインデックス作成方法であって、再度インデックスを作成し直す際に、前記関連資料構造解析手段からの関連資料構造情報を利用する前記インデックス作成ステップを含むことを特徴とする。
【0026】
本発明の第7のインデックス作成方法は、前記第1、第2、第3、第4、第5、または、第6のインデックス作成方法であって、前記インデックス作成ステップが、前記マルチメディアデータのインデックスを作成する際に、時間情報、または、マルチメディアデータの特定の位置を示す位置情報を利用することを特徴とする。
【0027】
本発明の第1のインデックス作成プログラムは、マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識ステップと、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析ステップと、前記音声認識ステップからの音声認識テキスト、および、前記関連資料構造解析ステップからの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成ステップと、をコンピュータに実行させることを特徴とする。
【0028】
本発明の第2のインデックス作成プログラムは、マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識ステップと、前記音声認識ステップからの音声認識テキストの構造解析を行い、音声認識テキスト構造情報を作成する音声認識テキスト構造解析ステップと、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析ステップと、前記音声認識テキスト構造解析ステップからの音声認識テキスト構造情報、および、関連資料構造解析ステップからの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成ステップと、をコンピュータに実行させることを特徴とする。
【0029】
本発明の第3のインデックス作成プログラムは、前記第1、または、第2のインデックス作成プログラムであって、前記マルチメディアデータのインデックスを作成する際に、既存のインデックスを利用して繰り返しインデックスを作成する前記インデックス作成ステップをコンピュータに実行させることを特徴とする。
【0030】
本発明の第4のインデックス作成プログラムは、前記第1、第2、または、第3のインデックス作成プログラムであって、前記インデックス作成ステップからのインデックスを編集するインデックス編集ステップをコンピュータに実行させることを特徴とする。
【0031】
本発明の第5のインデックス作成プログラムは、前記第4のインデックス作成プログラムであって、利用者により指定された箇所または内容を出力する前記インデックス編集ステップと、前記インデックス編集ステップからの利用者により指定された箇所または内容に基づいて再計算用のマッチングルールを設定するマッチング範囲・条件調整ステップと、前記マッチング範囲・条件調整ステップからの再計算用のマッチングルールに基づいて再度インデックスを作成し直す前記インデックス作成ステップとをコンピュータに実行させることを特徴とする。
【0032】
本発明の第6のインデックス作成プログラムは、前記第5のインデックス作成プログラムであって、再度インデックスを作成し直す際に、前記関連資料構造解析手段からの関連資料構造情報を利用する前記インデックス作成ステップをコンピュータに実行させることを特徴とする。
【0033】
本発明の第7のインデックス作成プログラムは、前記第1、第2、第3、第4、第5、または、第6のインデックス作成プログラムであって、前記マルチメディアデータのインデックスを作成する際に、時間情報、または、マルチメディアデータの特定の位置を示す位置情報を利用する前記インデックス作成ステップをコンピュータに実行させることを特徴とする。
【0034】
【発明の実施の形態】
本発明の第1の実施の形態について図面を参照して詳細に説明する。
【0035】
図1は、本発明の第1の実施の形態のインデックス作成装置の構成を示すブロック図である。
【0036】
図1を参照すると、本発明の第1の実施の形態は、ビデオテープや音楽テープ、あるいはデジタル情報として記録されたMPEGファイル等のマルチメディアデータを受け付けるマルチメディアデータ入力装置11と、入力されたマルチメディアデータのオーディオトラックに対して音声認識を実行する音声認識装置12と、音声認識テキストに対して構造解析を実行する音声認識テキスト構造解析部13と、マルチメディアデータの関連資料の入口となる関連資料入力装置14と、入力された関連資料の構造解析を行う関連資料構造解析部15と、構造解析を利用して音声認識テキストと関連資料とのマッチングを行うマッチング処理部16と、入力や構造解析状況に応じたマッチングの組合せや手順を規定する規則を格納するマッチングルールデータベース17と、マッチングの結果に従ってインデックスを作成するインデックス作成部18と、作成されたインデックスを出力するインデックス出力装置19とから構成される。
【0037】
マルチメディアデータ入力装置11は、ビデオテープや音楽テープ、または、DVD(デジタルビデオディスク)、ハードディスク等に記録されているデジタルデータ、あるいはネットワークを通して配信されるデジタルデータなど、本発明の利用者が選択した媒体・形式のマルチメディアデータを受け取り、入力とする。ついで、必要ならば入力されたマルチメディアデータの信号トラックごとに、以後の処理に適したデータ形式に変換する。
【0038】
音声認識装置12は、マルチメディアデータ入力装置11が受理し、必要に応じてデータ形式変換を行った、入力データから、音声が含まれているオーディオトラックを選択し、それに対して音声認識を実行する。ステレオ録音などで、音声が含まれているオーディオトラックが複数存在する場合には、信号対雑音比が一番いいトラックなどの基準で、そのどれかを選択し、それに対して音声認識を実行する。あるいは、複数のオーディオトラックをマージして、それに対して音声認識を実行する方法も考えられる。どの方法をとるかは、あらかじめ入力の種類毎に判定規則を定めておくか、発明の利用者に選択させる。音声認識結果のテキストには、単語などの任意の単位毎に、その文字列単位が音声認識された時間情報も付与する。例えば、入力されたビデオの先頭から数えて390秒目と391秒目の間に「今日は」という単語が認識されたとき、「今日は」という単語と開始時間390秒、終了時間391秒、という時間情報を組にして取り扱う。また必要ならば、音声認識された単語に品詞などの言語情報も付与する。オーディオトラックの音響的特徴から話者を判定する話者判定技術を用いて、どの発話からどの発話までが同じ話者なのかを示す話者情報を付与しても良い。付与された情報は、音声認識テキスト構造解析部13で、音声認識テキストの構造解析をするための手がかりの1つとして用いられる。さらに、音声認識テキストとしては、音声認識の一位候補だけでなく、ワードグラフのような複数の認識候補を持つ形式で出力しても良い。なお、ここでは音声認識テキストに時間情報を付与すると書いているが、この時間情報の記述の仕方は、必ずしももとのマルチメディアデータの先頭から数えて何秒目といった、直接的な時間表現でなくて構わない。もとのマルチメディアデータの何フレーム目、データストリームの何バイト目などのように、音声認識された単語と、もとのマルチメディアデータ中の位置が対応付けできる情報であるのならば、それでよい。
【0039】
音声認識テキスト構造解析部13は、音声認識装置12が作成した音声認識テキストの構造解析を行う。音声認識テキストは、そのままでは何の構造も持たない単なる単語列である。予め用意された言語知識や認定規則を利用することで、そこから文法的なまとまりや意味的なまとまり、それらの区切りとなる箇所などの構造を抽出することができる。
【0040】
図2は、抽出されうる構造とそれを判定するための手がかりとなる情報の例を示す説明図である。
【0041】
図2を参照すると、文は連続した発話中において、文法的あるいは意味的にまとまった最小の単位である。これを判定する基準としては、発話間のポーズ長や、単語間の連続出現頻度関係を表すバイグラムやトライグラムなどの統計的言語情報、さらに文末や文頭によく見られる特徴的な表現や、文法規則などがある。トピックは大きな話題のまとまりであり、ポーズ長や、使用される単語の出現傾向を表す単語頻度ベクトル、話題の切り替わりや終わりを示す特徴的な手がかり表現、談話構造等から判定される。サブトピックはトピックのように話題が切り替わるわけではないが、その発話部分を仮に書き言葉に直したとき、改行や、段落分け、箇条書き、注釈書き、などの手法によって表記上区分けされうるようなまとまりである。
【0042】
例えば「第1の問題点は〜」「第2の問題点は〜」のような発話から得られた認識単語列は、繰り返される特徴的な手がかり表現によって、サブトピックの箇条書き表現であると判定される。発話間に大きなポーズがあるところは、段落間の区切りであり得る。「ここでFTLと述べましたがこれはFaster Than Light すなわち超光速の意味ですが〜」のような発話は、特徴的なパターン表現「〜は〜すなわち〜の意味」を調べることで、注釈となりうる箇所であると判断される。音声認識テキストからは、こうした図2で挙げたような構造が、始点と終点がはっきりした区間として抽出される場合と、一方の端がはっきりしない区切り点として抽出される場合がある。
【0043】
また、音声認識装置12において、音声認識テキストにどの発話からどの発話までが同じ話者なのかを示す話者情報が付与されている場合には、この話者情報も構造情報の一種として取り扱う。図2に挙げられているのは、音声認識テキストから抽出される構造の例であり、本発明を実施する際の目的や用途、入力の種類によって、適宜変更して構わない。また、同じ音声認識単語列は構造の種類が異なれば、複数の構造に属して構わない。例えば、ある単語からある単語までの音声認識単語列は、文であると同時に、あるサブトピックの終端であり、さらにあるトピックの一部であってよい。ただし、同時に複数の文に属することはないし、同時に複数のトピックに属することもない。これは同じ種類の構造で、重なる部分があると、後にマッチング処理部16で対応をとるときに、1体1のマッチングがとれなくなるためである。
【0044】
音声認識テキストの構造解析の手順としては、まず単語間のポーズ長や、単語頻度ベクトルなど、構造解析に必要な情報を計算し、ついで得られた情報をもとに、予め用意された言語知識や認定規則に従って、構造解析を行う。
【0045】
関連資料入力装置14は、マルチメディアデータ入力装置11に入力されたマルチメディアデータの書き起こしや議事録、シナリオ、講演用原稿、プレゼンテーション資料、参考図書などのような関連資料を入力として受け取り、その種類やファイル形式を判定して、必要なら後の処理に都合のいい形式にデータ変換する。
【0046】
関連資料構造解析部15は、入力された関連資料からテキストデータを抽出し、その構造解析を行う。関連資料から解析できる構造情報は、抽出したテキスト本文を言語解析することで得られる情報と、テキストの書式情報、そして、関連資料のファイル中に各ファイル形式に応じたタグとして埋め込まれた情報とに、大きく分けられる。
【0047】
図3は、関連資料から抽出できる構造と、その手がかりとなる情報、対象となる関連資料の種類との例を示す説明図である。
【0048】
文やサブトピック、トピックは音声認識テキストの解析で得られる構造と同等のもので、テキスト本文の言語解析によって得られることから、関連資料の種類によらない。前半、後半や第1幕、第2幕などの区切り、話者、章・節などの章立ては、テキスト中に特定の形式で書かれた書式から判定できる。箇条書き、注釈といった情報は、テキストの書式から判定できる場合と、関連資料のファイル中にテキストとは別のタグ情報として記述されている場合とがある。スライド、図表なども関連資料のファイル中のタグ情報から読みとる。図表は、厳密にはテキストの構造情報ではないが、音声認識テキストとのマッチングを取る際に利用できることから、構造情報の1つとして含めても良い。図3に挙げられているのは、関連資料から抽出される構造の例であり、本発明を実施する際の目的や用途、関連資料の種類によって、適宜変更して構わない。また、関連資料から抽出したテキストは複数の構造に属して構わない。例えば、テキスト中のある箇所は、文であると同時に、箇条書きの1つであり、さらにあるトピックの一部であってよい。
【0049】
マッチング処理部16は、音声認識テキストとその構造情報、関連資料から抽出したテキストとその構造情報を読み込み、それらの構造情報を利用して音声認識テキストと関連資料から抽出したテキストのマッチングを取る。一般にマッチングでは、様々なマッチングの組合せに対して、それぞれ何らかの得点が計算できるような評価関数を定義し、その評価関数の出力値が(要する計算時間や計算機資源などの条件が合理的な範囲内で)最大となるような組合せを求める手法が用いられる。本発明では、マッチングを取る2種類のテキストそれぞれの構造情報を利用することで、4つの利点が得られる。1つ目の利点は、場合によってはマッチングが分割可能であるという点である。
【0050】
例えば、ある会議の音声認識テキストが大きく2つの話題に分けられており、会議の議事録も書式から前半、後半に分けられていることが解析されたときは、前半同士、後半同士のマッチングをそれぞれ独立に行い、最後にそれらの結果をまとめればよい。最適マッチングを求めるための評価関数の計算も、一度に全体のマッチングを取る場合に比べて、部分毎に分けて計算した方が一般には容易になる。2つ目の利点は、マッチングを段階的に取ることが可能であるという点である。最初に大まかな構造同士でマッチングを取り、その後でマッチングした各構造の中でそれぞれ詳細なマッチングを取るという手順を踏めば、やはり最適マッチングを求めるための得点計算が容易になり、また結果として作成されるインデックスも構造に応じた階層的なものが得られる。
【0051】
3つ目の利点は、構造情報無しにマッチングをとる場合に比べて、各構造の対応や境界に関する制約をもうけることが可能であるため、境界付近のマッチング精度が向上するという点である。例えば、音声認識テキスト中にサブトピックが一定数連続して存在し、関連資料テキストにも同じ数だけ箇条書きが存在すれば、それらがそれぞれ対応するマッチングの組合せに得点を与える、という規則が設定してあれば、双方のテキストに局所的に、対応関係を示す手がかりとなるような共通する単語が含まれていない場合であっても、対応がとれ、各個条書きの終端を、音声認識テキストの各サブトピックの終端に合わせることができる。4つ目の利点は、関連資料から抽出したテキストがもとのマルチメディアデータと内容的に完全に一致しなくても構わない、という点である。
【0052】
すなわち、関連資料に、もとのマルチメディアデータとは別の内容のテキストが一部含まれていても良いし、またマルチメディアデータだけに存在して関連資料には該当箇所がない場合も許容する。共通する単語などのマッチングの手がかりが一定以下の場合には、その構造をマッチング対象から除外するなどの規則により、これが可能となる。またドラマ映像と台本とのマッチングで、台本中のト書きなどは、映像中に話されることがないため、台本の構造解析後にマッチング対象から完全に除外する、といった場合もあり得る。
【0053】
マッチングルールデータベース17では、これらの利点を踏まえた上で、実際に本発明を実施する際の目的や用途、入力の種類などに応じて設定されたマッチングルールを、予め格納しておく。マッチングルールには、構造同士の可能な対応関係と、構造の境界に関する条件を定めたものと、可能なマッチングの組合せに対する評価関数の計算法を規定するもの、マッチングを部分的、段階的、あるいはその組合せで行う場合の計算順序を定めたものなどがある。また規則中のいくつかの条件や、得点計算法などは、入力等に応じてマッチングの得点や手順を変更するためのパラメータを持っていてもよい。
【0054】
マッチング処理部16は、入力に応じて使用するマッチングルールを判定し、マッチングルールデータベース17から読み込む。さらに、入力や予め利用者が規定した手順に従ってパラメータを調整する。あとは読み込んだマッチングルールに従って、評価関数の出力値が(要する計算時間や計算機資源などの条件が合理的な範囲内で)最大となるような、音声認識テキストと関連資料から抽出したテキストとの最適マッチングを求める。具体的なマッチングの手順も、読み込んだマッチングルールから決定するので、同時に使用されうるマッチングルールに曖昧性や矛盾が生じないよう、予めマッチングルールを作成しておかなければならない。必要ならマッチングルール間に優先順位を定めておいても良い。
【0055】
インデックス作成部18は、マッチング処理部16で求められた最適マッチングの結果を受け取り、それに基づいて、本発明を実施する際の目的や用途に応じたインデックスを作成する。マッチング結果には、関連資料構造解析部15において、関連資料から抽出されたテキストデータや構造情報が、入力されたマルチメディアデータのどの部分に対応するかを示す時間情報が含まれている。その全てをインデックスとしても良いし、必要のない箇所や細かな部分を省いても良い。インデックスのデータ構造としても、インデックスをマルチメディアデータのキーワード検索用に用いるのか、頭出しなどの特殊再生用に用いるのか、などで効率のよいデータ構造が異なってくる。実際に本発明を実施する際のインデックスの使用目的・用途に応じたデータ構造を用いればよい。
【0056】
インデックス出力装置19は、インデックス作成部18が作成したインデックスを出力する。出力先としては、マルチメディアデータを管理・蓄積するデータベースや、本発明で作成されたインデックスを利用してマルチメディアデータを再生する再生装置など、様々な相手が考えられる。本発明を実施する際の目的・用途に応じた形態で、インデックスを出力すればよい。
【0057】
なお、本実施の形態では、マルチメディアデータ入力装置11、音声認識装置12、音声認識テキスト構造解析部13、関連資料入力装置14、関連資料構造解析部15、マッチング処理部16、マッチングルールデータベース17、インデックス作成部18、インデックス出力装置19は、各部の機能を制御するプログラムとして、CD−ROMやフロッピーディスク(登録商標)などの機械読み取り可能な記録媒体に格納して提供され、計算機(コンピュータ)等に読み込まれて実行されるものとしても良い。
【0058】
次に、本発明の第1の実施の形態のインデックス作成装置における動作について説明する。
【0059】
図4は、本発明の第1の実施の形態の音声認識テキスト構造解析の動作を示すフローチャートである。
【0060】
図5は、本発明の第1の実施の形態の関連資料構造解析動作を示すフローチャートである。
【0061】
図6は、本発明の第1の実施の形態のマッチング動作を示すフローチャートである。
【0062】
音声認識テキスト構造解析動作と、関連資料構造解析動作は、どちらが先に実行されても良いし、この2つの動作が並列に実行されても良い。一方、マッチング動作は、音声認識テキスト構造解析動作と、関連資料構造解析動作がともに終了した後で、実行される。マッチング動作の終了を持って、本発明の第1の実施の形態のインデックス作成装置における動作全体の終了となる。
【0063】
以下、図4から図6のフローチャートに従って、各動作の詳細を説明する。
【0064】
本発明の第1の実施の形態の音声認識テキスト構造解析動作では、まず、マルチメディアデータ入力装置11に入力されたマルチメディアデータを、必要に応じてその後の処理に都合の良いデータ形式に変換する。最初から、その後の処理に適したデータ形式で入力された場合には、データ形式変換は実行されない(ステップA1)。次に、音声認識装置12では、あらかじめ定められた基準や発明の利用者が選択した基準に従って、音声認識処理の対象とするオーディオトラックを選択する。最初から音声が含まれているオーディオトラックが1つしかない場合には、それを選択する(ステップA2)。ついで音声認識が実行され、時間情報(あるいはそれに代わる、もとのマルチメディアデータの位置を特定できる情報)が付与された音声認識テキストが出力される(ステップA3)。
【0065】
音声認識テキスト構造解析部13では、時間情報付き音声認識テキストを受け取り、そこから、単語間のポーズ長や、単語頻度ベクトルなど、構造解析に必要な情報を計算する(ステップA4)。ついで得られた情報をもとに、予め用意された言語知識や認定規則に従って、音声認識テキストの構造解析を行う(ステップA5)。最後に時間情報付き音声認識テキストと、構造解析結果を組にして、マッチング処理部16に出力する(ステップA6)ことで、音声認識テキスト構造解析動作が終了する。
【0066】
本発明の第1の実施の形態の関連資料構造解析動作では、まず、関連資料入力装置14に入力された関連資料の種類やファイル形式を判定する(ステップB1)。ついで必要に応じてその後の処理に都合の良いデータ形式に変換する。最初から、その後の処理に適したデータ形式で入力された場合には、データ形式変換は実行されない(ステップB2)。次に、関連資料構造解析部15において、関連資料からテキストデータを抽出する。その際、関連資料のもとのファイル中にそのファイル形式に応じた形で記録されているタグ情報も構造情報の一種として、各テキストデータと組で抽出する(ステップB3)。
【0067】
例えばプレゼンテーション資料において、「2003年度研究計画」という文字列が4枚目のスライドの見出し語として、もとの関連資料ファイル中に記録されていた場合、「2003年度研究計画」という文字列と「スライド4枚目、見出し語」というタグ情報を組にして抽出する。ただし、マッチング処理部16における音声認識テキストとのマッチングに使用しないタグ情報は、もとの関連資料のファイル中に記録されていても抽出しなくて良い。ついで、もとの関連資料の種類やファイル形式に応じて、ステップB3で抽出されたテキストの書式を解析する(ステップB4)。テキスト中で使用されている単語の出現頻度ベクトルの変化や、特徴的な手がかり表現の有無を調べるなど、テキスト本文を言語解析することで得られる構造情報も取得する(ステップB5)。また必要に応じて、図表の有無や、数、大きさ、位置など、入力された関連資料のファイル中に含まれているテキスト以外のデータについても構造情報として抽出する(ステップB6)。図5ではステップB4からステップB6までの処理をこの順に記述しているが、これらの処理の順番は任意であり、全てを並列に行っても良い。最後に抽出した関連資料のテキストと、構造解析結果を全てまとめてマッチング処理部16に出力する(ステップB7)ことで、関連資料構造解析動作が終了する。
【0068】
本発明の第1の実施の形態のマッチング動作では、まず、音声認識テキスト構造解析動作によって出力された音声認識テキストとその構造情報、関連資料構造解析動作によって出力された関連資料テキストとその構造情報を、マッチング処理部16で受け取る(ステップC1)。次に、入力されたマルチメディアデータや関連資料の種類、抽出された構造情報の内容に応じて、使用するマッチングルールを判定し、マッチングルールデータベース17から読み込む。読み込んだマッチングルール中にパラメータが存在する場合には、入力等に応じて、その値を決定する(ステップC2)。ついで、読み込んだマッチングルールのうち、マッチングの対応関係と境界条件を規定するマッチングルールを考慮した上で、マッチング計算の順序や範囲を規定するルールに従って、マッチング計算の手順を決定する。マッチングを部分的、段階的、あるいはその組合せで行う場合には、次にマッチング対象となる範囲と段階をここで決める(ステップC3)。
【0069】
とりあえずマッチングをとる範囲と段階が定まると、その範囲・段階に対して、マッチングルールで規定される評価関数が(要する計算時間や計算機資源などの条件が合理的な範囲内で)最大となるようなマッチングの組み合わせを求める(ステップC4)。ステップC3で定められたマッチング計算の手順を調べて、まだ全てのマッチング計算が終了していない場合には、ステップC3に戻る。一度に全てのマッチング計算を行った場合や、必要回数だけステップC3からステップC5のループを繰り返して、全てのマッチング計算が終了した場合には次に進む(ステップC5)。マッチング計算が終了すると、インデックス作成部18は、マッチング処理部16で求められた最適マッチングの結果を受け取り、それに基づいて、本発明を実施する際の目的や用途に応じたインデックスを作成する(ステップC6)。最後に、作成されたインデックスを、本発明を実施する際の目的・用途に応じた形態で出力する(ステップC7)ことでマッチング動作が終了するとともに、本発明の第1の実施の形態のインデックス作成装置における動作全体の終了となる。
【0070】
以下では、本実施の形態におけるインデックス作成装置の動作について、具体的な例を用いて説明する。
【0071】
この具体例では、マルチメディアデータとして、様々な講演や講義の様子を動画およびステレオ音声データとして録画(録音)した、MPEG1、MPEG2形式などのファイルが、光ディスクやネットワークなどを通して機械読み取り可能な手段でマルチメディアデータ入力装置11に入力されるとする。また入力された講演や講義のスライドを記録したプレゼンテーション資料が、同じく機械読み取り可能な手段で関連資料入力装置14に入力されるとする。
【0072】
入力される各ファイルには、あらかじめ「題目」「講演日時」などの情報が機械読み取り可能な形で付与されており、1回の講演・講義ごとに別々のファイルとして記録されているとする。よって、こうしたマルチメディアデータの視聴者が、視聴したい講演の題目や日時などからファイルを選択すれば、簡単に講演映像の先頭から視聴することができ、また、そのプレゼンテーション資料も調べることができる。しかし、プレゼンテーション資料の内容に同期して、講演映像を視聴することにより、キーワード検索でプレゼンテーション資料中の特定のスライドを検索し、そのスライドに対応する講演映像の箇所のみ再生するなどの操作はできない。そこで、そうした頭出しなどの特殊再生やキーワード検索が可能となるよう、1枚1枚のスライドが映像ファイルのどこに対応するかを示すインデックスを作成する。
【0073】
最初に例えば「題目:特別講演 IT技術の動向、録画:01年12月14日、講演時間50分」といった映像ファイルがMPEG1形式で、マルチメディアデータ入力装置11に入力されると、マルチメディアデータ入力装置11はそのデータ形式を判定し、必要ならば入力されたファイルのオーディオトラックのデータ形式を変換する。音声認識装置12が、例えばサンプリング周波数22KのWAVEファイルを入力とするのならば、入力されたMPEG1ファイルのオーディオトラックだけを分離し、WAVE形式に変換した後で、サンプリング周波数変換のフィルタをかける(ステップA1)。
【0074】
音声認識装置12では、データ形式変換されたステレオのオーディオトラックを受け取り、信号対雑音比を調べて、その比が良い方のオーディオトラックを選択する(ステップA2)。ついで選択されたオーディオトラックに対して、時間情報付きの音声認識を実行する(ステップA3)。
【0075】
図7は、今回の例で作成された音声認識テキストの一部を示す説明図である。
【0076】
図7では、各認識単語の「開始時間」は、その単語が音声認識された時間を、「終了時間」はその単語の音声認識が終了した時間を表している。単位は秒で、入力されたマルチメディアデータの先頭を0秒とする。「品詞」は各認識単語の品詞である。この認識単語列の中には、認識誤りにより、本来の発話と異なる単語も含まれている。
【0077】
音声認識テキスト構造解析部13では、図7のような認識単語列に対して構造解析に必要な情報を計算する。たとえばこの例では、単語間のポーズ長(単語の終了時間と次の単語の開始時間との差)や、動詞とその語尾の形、一定範囲内の単語の出現傾向を表すベクトルの変化量などである(ステップA4)。次に連続した認識単語列から、図2に挙げた3つの構造(文、サブトピック、トピック)を抽出する。認識単語列を文に分けるには、あらかじめ本発明の目的や用途、入力にあわせて用意された言語知識や判定基準を使用する。たとえば「動詞の語尾が終止形で、その後のポーズ長が0.4秒以上あいているとき、そこで文を区切る。ただし、直前の文の区切りから4単語以内の場合はこのルールを適用しない」などの一連のルールを用いることで、図7の認識単語列からは「えー只今紹介をなりましたABC大学工学部の鈴木太郎でございます」が1つの文として抽出される。サブトピックはポーズ長とあるパターンに合致する特徴的な表現で抽出する。
【0078】
図8は、文単位でまとめられた認識単語列とそこから抽出されるサブトピックの例を示す説明図である。
【0079】
たとえば「第1の…、第2の…、第3の…のような繰り返し表現が、文の先頭から数えて5単語以内に存在し、それらの文の間が10秒以上離れていないとき、そこを箇条書き表現として抽出する」のような判定基準を用いることで、図8に示す認識単語列から、箇条書き表現のサブトピックを抽出できる。またこの例では、トピック判定用の基準として単語の出現頻度ベクトルの差が一定の閾値を超えるときというルールを用いたが、1つもトピックに分けることができなかった、とする。認識文字列には、認識誤りが含まれているため、必ずしも全ての構造が正しく抽出できるわけではない(ステップA5)。全ての構造解析が終わると、認識単語列の中で抽出された各文の位置、抽出された箇条書き表現などのサブトピックの位置、検出されたトピックの位置(今回の例では検出されず)などの構造情報を、もとの時間情報付き音声認識単語列とあわせてマッチング処理部16に出力する(ステップA6)。
【0080】
マルチメディアデータ入力装置11に入力された映像データ「題目:特別講演IT技術の動向、録画:01年12月14日、講演時間50分」に対応する、38枚のスライドからなるプレゼンテーション資料が機械読み取り可能なファイル形式で関連資料入力装置14に入力されると、まず、それがプレゼンテーション資料を表すファイル形式であることが判定される(ステップB1)。次に必要に応じてデータ形式の変換が行われるが、今回の例では、そのまま各スライドからテキスト情報が読みとれるため、変換不要であるとする(ステップB2)。
【0081】
図9はスライド毎に抽出されたテキストの例を示す説明図である。
【0082】
関連資料構造解析部15では、プレゼンテーション資料のファイルから、図9に示すように、スライド毎にそのスライドに書かれたテキストと、見出し語を抽出する(ステップB3)。
【0083】
図10は、スライド中の書式によって抽出される箇条書きの例を示す説明図である。
【0084】
さらに、抽出されたテキストの書式も解析する。その結果、図10に挙げるようなスライドからは3項目の箇条書きが検出される(ステップB4)。各スライドのテキスト中で使用されている単語の出現頻度ベクトルの変化や、特徴的な手がかり表現の有無など、テキスト本文の言語解析も行うが、プレゼンテーション資料で使用されるテキストの分量が少ないことから、この例では有意な構造が得られなかったとする(ステップB5)。
【0085】
また、プレゼンテーション資料のファイルから、各スライド中に図表が何枚使用されているかも調べる。図表の有無を調べるのは、後にマッチング処理部16で音声認識テキストとのマッチングを調べるのに、有効な手がかりとなるからである。例えば、図表がたくさん使用されているスライドは、テキストがたくさん含まれているスライドと同様に、多くの音声認識テキストの文と対応させる、というマッチングルールが考えられる。また図表を「この図は〜」「この表では〜」のような特定パターンの認識単語列と対応させる、といったマッチングルールもあり得る(ステップB6)。最後に得られた構造情報をスライド毎にまとめてマッチング処理部16に出力する(ステップB7)。
【0086】
マッチング処理部16では、講演映像の音声認識テキストとその構造情報、プレゼンテーション資料から抽出されたテキストとその構造情報とを受け取る(ステップC1)。ついで、入力された関連資料の種類がプレゼンテーション資料であること、音声認識テキストから抽出された構造情報が文と箇条書き表現であること、関連資料から抽出された構造情報が、スライド毎のテキストと見出し語、書式情報、図表の有無であることから、それらに関するマッチングルールをマッチングルールデータベース17から読み込み、パラメータを決定する。
【0087】
図11は、読み込んだマッチングルールの例を示す説明図である。
【0088】
図11を参照すると、関連資料の種類欄、対象欄が読み込むマッチングルールを決める基準となる。今回の例では、特に変更するパラメータがなかったとする(ステップC2)。
【0089】
使用するマッチングルールが定まると、それらのうち、マッチングの対応関係と、境界条件とを規定するマッチングルールに則って、どの構造とどの構造のマッチングを求めるのか、またその制約事項は何かを決定する。今回の例では、図11の上から1番目と2番目のルールによって、講演の最初から順に各スライドとそこで話された文との対応をとっていくことが分かる。また3番目のルールによって、図8で挙げた箇条書き表現のサブトピックと、図10に挙げたスライド中の箇条書きとがマッチング計算なしに対応づけられる。
【0090】
ここで3番目のルール中にある「双方のテキスト全体に対する出現位置のずれが一定割合以下」であるとは、図8の箇条書き表現が50分の講演全体の中での出現する位置が、(箇条書き表現の開始時間:1421秒)/(全体の時間:50分×60秒)=約0.47であるのに対して、図10の箇条書きの全プレゼンテーション中での出現位置が、(箇条書きを含むスライド:18枚目)/(全体の枚数:38枚)=約0.47と、非常に近いことを意味する。
【0091】
図12は、マッチングをとる構造、および、範囲を示す説明図である。
【0092】
さらにマッチングの計算順序と範囲を規定する図11の上から4番目のルールに従って、この例でのマッチング手順が図12のように2つの部分に分けられることが定まる。第1のマッチング計算範囲は、スライド1からスライド18の箇条書きの手前までである。第2のマッチング計算範囲は、スライド18の箇条書き表現の先頭から、最後のスライド38まで。音声認識テキストから抽出された箇条書き表現の始まりの境界が「第1の利点」という特徴表現によって、判定しやすいのに対して、終わりの境界がどこまでか判定しにくいため、対応づけられた箇条書き部分は、第2のマッチング計算範囲に含める(ステップC3)。
【0093】
マッチングをとる範囲と手順が定まると、まず第1のマッチングの計算範囲に対して、図11の上から5番目のルールに定義されている評価関数が最大となるようなマッチングの組合せを求める。評価関数の値が最大となるような組合せを効率よく求める手法に関しては、本発明の対象と異なるため詳しくは説明しない(ステップC4)。次にマッチング計算が全て終了しているか判定する。
【0094】
この例では、まだ第1のマッチング範囲の計算しか終えていないため、ステップC3に戻る(ステップC5)。再びマッチングを取る構造と範囲を調べて、図12の第2のマッチング計算範囲が残っていることが分かる(ステップC3)。そこで、第2のマッチング計算範囲に対しても同様に、図11の上から5番目のルールに定義されている評価関数が最大となるようなマッチングの組合せを求める(ステップC4)。第2のマッチング計算が終了すると、全体に対して最適なマッチングの組合せが求められたことになるので、マッチングを終了する(ステップC5)。
【0095】
インデックス作成部18では、全体のマッチング結果を受け取り、インデックスを作成する。今回の例では、1枚1枚のスライドが映像ファイルのどこに対応するかを示すインデックスを作成することが目的であるから、スライド毎に、それに対応する、最初の音声認識テキストの文の開始時間と、最後の音声認識テキストの文の終了時間とをもって、そのスライドの開始時間、終了時間とし、その情報をスライド毎のインデックスとする。キーワード検索などに用いる場合には、さらにプレゼンテーション資料から抽出したスライド毎のテキストや、必要ならスライドに対応する音声認識テキストも、インデックスに付与する(ステップC6)。
【0096】
インデックス出力装置19では、インデックス作成部18で作成されたインデックスを、テキスト形式や検索用のバイナリ形式など、本発明を実施する際の目的・用途に応じた形式に変換し、それを計算機のハードディスクやディスプレイ、ネットワークなど、本発明の目的・用途に応じた媒体を通して出力する(ステップC7)。
【0097】
このようにして本発明の第1の実施の形態のインデックス作成装置における動作全体が終了する。
この具体例では、プレゼンテーション資料の全38枚のスライドに対して、各スライドが元の映像ファイル「題目:特別講演 IT技術の動向」の何秒目から何秒目までに対応しているかを示すインデックスが作成されることになる。こうしたインデックスを用いると、インデックスがない場合には不可能な特殊な再生が可能になり、元の映像ファイルの検索・編集も容易となる。特殊な再生の例としては、講演映像に同期してプレゼンテーション資料も出力する、特定のキーワードに関する講演部分だけを順次再生する、などがある。また、講演映像の大まかな目次として、プレゼンテーション資料の各スライドの見出し語と、各スライドの先頭の時間をまとめて出力する、といった利用法も考えられる。
【0098】
またこの具体例では、1つの映像ファイルと1つのプレゼンテーション資料が対応している1対1の場合について説明したが、マルチメディアデータとその関連資料が、1対多、多対1、さらに多対多で対応する場合も、同様にインデックスを作成することができる。例えば大学の講義等で、1つの教科書(関連資料)と複数回に渡る講義(ビデオファイル)があるとき、それぞれの講義ビデオに対して音声認識テキスト構造解析動作を行う。教科書に対しては、関連資料構造解析動作によって、章や節などの構成毎に大まかに分ける。後はマッチング動作において、共通の単語の出現頻度などを手がかりにどのビデオファイルが、どの章や節に対応するか大まかに調べ、ついで各部分毎に細かな対応をとる(ステップC3〜ステップC5)。このように、入力が複数ある場合には、その数だけ、音声認識テキスト構造解析動作や関連資料構造解析動作を行う。そして得られた構造を利用して、入力の種類や発明の用途に応じて、段階的にマッチングを取っていけばよい。
【0099】
次に本発明の第2の実施形態について図面を参照して詳細に説明する。
【0100】
図13は本発明の第2の実施の形態のインデックス作成装置の構成を示すブロック図である。
【0101】
図13において、図1と同等部分は同一符号にて示している。図13を参照すると、本発明の第2の実施の形態は、本発明の第1の実施の形態に加えて、マッチング範囲・条件調整部20とインデックス編集インタフェース21とを有する点で異なる。他の部分は、本発明の第1の実施の形態と共通であるため、ここでは説明を省略し、追加の構成についてのみ述べる。
【0102】
マッチング範囲・条件調整部20は、少なくとも1度マッチングが終了した後で、再度マッチング計算を行うときに、マッチングの範囲や条件を調整する機構である。マッチングの再計算は、本発明の第2の実施の形態の目的や用途、入力の種類などに応じて予め規定されていた再計算条件が満たされたときに行われる場合と、インデックス編集インタフェース21を通して、利用者の要求に従って適宜行われる場合とがある。前者の場合、マッチング範囲・条件調整部20は、直前のマッチングが終わった後にインデックス作成部18が作成するインデックスと、そのもとになるマッチング結果を調べ、予め規定されていた再計算条件に合致すると、マッチング再計算の要求をマッチング処理部16に伝える。その際、新たなマッチングの範囲や条件も直前のマッチング結果に応じて決定し、追加のマッチングルールの形でマッチング処理部16にわたす。後者の、利用者の要求に従って行われる場合は、マッチングの再計算の仕方を決定するマッチングルールは、利用者の要求内容に応じて作成し、マッチング処理部16にわたす。
【0103】
インデックス編集インタフェース21は、インデックス出力装置19が出力するインデックスを本発明の第2の実施の形態の利用者が適宜編集するためのインタフェースである。利用者は、計算機上のキーボード入力やマウスの操作など、本発明の第2の実施の形態の用途・目的に都合のよい任意の手段を用いて、インデックスを編集できるものとする。またこの際、インデックスの内容が適切であるかどうか確認するために、もとのマルチメディアデータや関連資料を、その時点でのインデックスに応じて、検索・再生可能な出力機能を備えていても良い。
【0104】
インデックスの編集の仕方としては、2通りの手法が考えられる。1つ目は、利用者が直接インデックスの内容を手動で修正する手法である。2つ目は、インデックスのある箇所に対して、利用者が単にその箇所が間違っていると指摘したり、「もとのマルチメディアデータのより前方と対応するはずである」、「もとのマルチメディアデータのより後方と対応するはずである」、のように大まかな修正のヒント情報を与えたりすることにより、後は自動的に修正させる手法である。この場合、インデックス編集インタフェース21は、利用者が指摘した箇所や内容をマッチング範囲・条件調整部20に伝えて、マッチングの再計算を促す。インデックス編集インタフェース21は、本発明の実施の形態の用途・目的に応じて、この2つの編集手法のいずれか一方、あるいは両方を備える。
【0105】
なお、本発明の第2の実施の形態では、マルチメディアデータ入力装置11、音声認識装置12、音声認識テキスト構造解析部13、関連資料入力装置14、関連資料構造解析部15、マッチング処理部16、マッチングルールデータベース17、インデックス作成部18、インデックス出力装置19、マッチング範囲・条件調整部20、インデックス編集インタフェース21は、各部の機能を制御するプログラムとして、CD−ROMやフロッピーディスク(登録商標)などの機械読み取り可能な記録媒体に格納して提供され、計算機(コンピュータ)等に読み込まれて実行されるものとしても良い。
【0106】
次に、本発明の第2の実施の形態のインデックス作成装置における動作について説明する。
【0107】
図14は、本発明の第2の実施の形態のマッチング再計算およびインデックス編集動作を示すフローチャートである。
本発明の第2の実施の形態のインデックス作成方法は、図4のフローチャートで示される音声認識テキスト構造解析動作と、図5のフローチャートで示される関連資料構造解析動作と、図14のフローチャートで示されるマッチング再計算およびインデックス編集動作からなる。音声認識テキスト構造解析動作と、関連資料構造解析動作は、どちらが先に実行されても良いし、この2つの動作が並列に実行されても良い。一方、マッチング再計算およびインデックス編集動作は、音声認識テキスト構造解析動作と、関連資料構造解析動作がともに終了した後で、実行される。マッチング再計算およびインデックス編集動作の終了を持って、本発明の第2の実施の形態のインデックス作成装置における動作全体の終了となる。
【0108】
また本発明の第2の実施の形態における、音声認識テキスト構造解析動作と、関連資料構造解析動作は、本発明の第1の実施の形態での音声認識テキスト構造解析動作と、関連資料構造解析動作と同一である。よって、図14に従って、マッチング再計算およびインデックス編集動作のみ説明する。
【0109】
本発明の第2の実施の形態のマッチング再計算およびインデックス編集動作では、まず、音声認識テキスト構造解析動作によって出力された音声認識テキストとその構造情報、関連資料構造解析動作によって出力された関連資料テキストとその構造情報を、マッチング処理部16で受け取る(ステップD1)。次に、入力されたマルチメディアデータや関連資料の種類、抽出された構造情報の内容に応じて、最初のマッチングで使用するマッチングルールを判定し、マッチングルールデータベース17から読み込む。読み込んだマッチングルール中にパラメータが存在する場合には、入力等に応じて、その値を決定する(ステップD2)。
【0110】
ついで、与えられたマッチングルールに従って、マッチング計算の手順を求める。ここで、与えられたマッチングルールとは、ステップD2で最初にマッチングデータベース7から読み込まれたマッチングルールと、再計算用にマッチング範囲・条件調整部20で作成されたマッチングルールとがあり得る。もしそれらのマッチングルールの中に矛盾したものがあった場合には、優先度の高いマッチングルールや、再計算用のマッチングルールに従う。具体的なマッチング計算の手順は、それらのなかで、マッチングの対応関係と境界条件を規定したマッチングルールを考慮し、その上で、マッチング計算の順序や範囲を規定したルールに従って決定する。マッチングを部分的、段階的、あるいはその組合せで行う場合には、次にマッチング対象となる範囲と段階をここで決める(ステップD3)。
【0111】
とりあえずマッチングをとる範囲と段階が定まると、その範囲・段階に対して、マッチングルールで規定される評価関数が(要する計算時間や計算機資源などの条件が合理的な範囲内で)最大となるようなマッチングの組み合わせを求める(ステップD4)。ステップD3で定められたマッチング計算の手順を調べて、まだ全てのマッチング計算が終了していない場合には、ステップD3に戻る。一度に全てのマッチング計算を行った場合や、必要回数だけステップD3からステップD5のループを繰り返して、全てのマッチング計算が終了した場合には次に進む(ステップD5)。
【0112】
マッチング計算が終了すると、インデックス作成部18は、マッチング処理部16で求められた今回のマッチング結果を受け取り、それに基づいて、本発明を実施する際の目的や用途に応じたインデックスを作成する(ステップD6)。
【0113】
マッチング範囲・条件調整部20では、インデックス作成部18が作成するインデックスと、そのもとになるマッチング結果を調べ、本発明の実施の形態の目的や用途、入力の種類などに応じて予め規定されていた再計算条件が満たされているかどうか判定する。再計算条件に合致した場合、マッチング再計算用のマッチングルールやパラメータを、直前のマッチング結果に応じて作成し、マッチング処理部16にわたして、ステップD3に戻る。再計算条件に合致しない場合には、ステップD8に進む(ステップD7)。
【0114】
インデックス出力装置19では、インデックス作成部18で作成されたインデックスを、本発明を実施する際の目的・用途に応じた形態で出力する(ステップD8)。
【0115】
インデックス編集インタフェース21では、インデックス出力装置19が出力するインデックスに対して、利用者からの編集操作がないか、編集操作があったとき、それはマッチングの再計算を必要とするものかを調べる。インデックス中のある箇所に対する間違いの指摘や、「もとのマルチメディアデータのより前方と対応するはずである」、「もとのマルチメディアデータのより後方と対応するはずである」、のように修正の大まかな指示があった場合には、指示内容をマッチング範囲・条件調整部20にわたす。マッチング範囲・条件調整部20では、利用者の指示内容に応じて、マッチングルールデータベース17を使用して再計算用のマッチングルールを設定し、マッチング処理部16にマッチングの再計算を促して、ステップD3に戻る。インデックス編集インタフェース21において、マッチングの再計算を必要とする編集操作がない場合には、ステップD10に進む(ステップD9)。
【0116】
インデックス編集インタフェース21で、利用者が直接インデックスを編集・修正する操作要求があった場合には、その要求に従ってインデックスを直し、再度、インデックス出力装置19から編集後のインデックスを出力する。編集操作がなかった場合には、インデックスはそのまま保持する(ステップD10)。
【0117】
これによって、マッチング再計算およびインデックス編集動作が終了するとともに、本発明の第2の実施の形態のインデックス作成装置における動作全体の終了となる。ただし、インデックス編集インタフェース21では、一旦本発明の第2の実施の形態のインデックス作成動作が終了した後、任意の時点で、利用者からのインデックス編集要求を受け付けて良い。また図14では、ステップD9とステップD10をこの順番で1度ずつのみ行っているが、利用者からの編集操作によっては、この動作を必要なだけ繰り返して良い。たとえば、利用者が直接手動でインデックスのある箇所を修正した後で、さらに再計算を行うこともあり得る。
【0118】
以下では、本発明の第2の実施の形態におけるインデックス作成動作について、具体的な例を用いて説明する。
【0119】
この具体例では、本発明の第1の実施の形態の具体例と同じ入力が同じ条件で与えられ、音声認識テキスト構造解析動作と関連資料構造解析動作が既に終了しているとする。よって、マッチング再計算およびインデックス編集動作のみ説明する。
【0120】
入力と条件が同じであるから、最初のマッチング処理におけるステップD1〜ステップD6の動作も、本発明の第1の実施の形態の具体例におけるステップC1〜ステップC6の動作とまったく同様である。
【0121】
ついでマッチング範囲・条件調整部20で、最初のマッチング結果と、インデックス作成部18が作成するインデックスを調べ、予め用意された再計算条件が満たされるか判定する。今回の例では、「各スライド境界に対応する音声認識テキストの文に含まれる単語列で、スライド境界の文中での出現頻度が、音声認識テキスト全体での出現頻度より一定値以上大きくなるような単語列が存在したとき、その単語列をスライド境界を示す特徴的な表現と認定し、それを利用したマッチング再計算を行う、ただし同じ単語列は1度のみマッチング再計算に利用する」という再計算条件があるとする。
【0122】
これは、講演者がプレゼンテーション資料のスライドを切り替える際に、よく口にする特徴的な表現を見つけだして利用しようという目的から設定された、再計算条件である。今回の例では、「という状況を示しています」という単語列が、最初のマッチングの結果、スライドの終わりに対応する文には6回現れているが、他の文には2回しかあらわれていないとする。そこで、「『という状況を示しています』という単語列が含まれている文が、スライドの終わりに対応するような組合せに対して、評価関数の得点を一定値だけ加算する」という追加のマッチングルールを作成して、マッチング処理部16にわたし、マッチングの再計算を促す(ステップD7)。
【0123】
マッチング処理部16では、最初のマッチングのときに用いたマッチングルールと、新たに追加された1つのマッチングルールを用いて、最初のマッチングのときと同様に処理を進める。その結果、最初のマッチングでは、「という状況を示しています」という単語列を含んでいるが、スライドの内部に対応していた文が2つあったが、新たなマッチングの結果では、そのうちの1つが、さらにスライドの終わりに対応するようになったとする。残った1つの文は、もとのマッチングルールの影響によって、スライドの内部に対応したままである。インデックス作成部18は、このマッチング結果をもとの新たなインデックスを作成する(ステップD3〜ステップD6)。一般に、追加のマッチングルールによって、マッチング精度が向上することが期待されるが、一方、間違ってマッチング結果を悪化させることもあり得るため、本発明の実施の際には、想定される入力の内容・種類などに応じて、追加するマッチングルールやルール中のパラメータを設定しておかなければならない。
【0124】
再びマッチング範囲・条件調整部20で、マッチング結果と、インデックス作成部18が作成するインデックスを調べ、予め用意された再計算条件が満たされるか判定する。今回の例では、再計算条件を満たすような認識単語列は見つからなかったとする。先ほどの「という状況を示しています」は、マッチング再計算に既に利用されているため、再計算条件を満たさない(ステップD7)。
【0125】
インデックス出力装置19では、インデックス作成部18で作成されたインデックスを、本発明を実施する際の目的・用途に応じた形態で出力する。今回の例では、スライド境界に対応する音声認識テキストの文から得られた開始時間と終了時間、さらにスライド中のテキストがまとめられて、スライド毎のインデックスとして、インデックス編集インタフェース21に表示可能な形態で出力される(ステップD8)。
【0126】
インデックス編集インタフェース21では、インデックス出力装置19が出力するインデックスに対して、利用者からの編集操作がないか調べる。今回の例ではたとえば、利用者から「スライド20の終わりはマッチングがずれている。ここは講演映像のより前方と対応するはずである、修正せよ」という内容の編集操作が与えられる。インデックス編集インタフェース21は、この編集操作がインデックスを直接手動で修正する操作でないことから、マッチング再計算を要すると判断し、編集操作内容をマッチング範囲・条件調整部20にわたす。マッチング範囲・条件調整部20では、わたされた編集操作内容から例えば、「スライド1〜スライド18の間と、スライド23〜スライド38までの間は、既に対応づけられているとして固定」「スライド19〜スライド22までを、マッチング範囲とする」「スライド20が、それまで対応していた音声認識文より後の文と対応するような組合せを除外する」というマッチングルールを新たに追加して、マッチング処理部16にわたす(ステップD9)。ここで、マッチングの再計算範囲を、スライド19〜スライド22までに限定しているのは、図12で示したように、スライド18が箇条書き表現によって固定されているからである。スライド20の後方に、既に対応関係が固定されている箇所は存在していないが、マッチング再計算によって新たなマッチングのずれが増える影響範囲を絞るため、後方もスライド22までに限定している。このように構造情報や、これまでのマッチングの対応関係を利用することで、マッチングの再計算範囲を限定することができる。この範囲は、本発明の実施の形態の利用状況に応じて、適宜設定しておく必要がある。マッチング範囲・条件調整部20で、利用者の編集操作に応じたマッチングルールを作成するときに、最初は再計算範囲を大きくとり、再計算のたびに範囲を順に絞っていくような、追加マッチングルールの作成法を用いても良い。
【0127】
マッチング処理部16では、新たなマッチングルールによる条件と、既存のマッチングルールで規定されている評価関数を用いて、スライド19〜スライド22までの範囲のマッチングを再計算する。インデックス作成部18では、スライド1〜スライド18の間、スライド23〜スライド38の間の既存のマッチング結果と、再計算されたスライド19〜スライド22までのマッチング結果を用いて、インデックスを作成する(ステップD3〜ステップD6)。
【0128】
再再度、マッチング範囲・条件調整部20で、マッチング結果と、インデックス作成部18が作成するインデックスを調べ、予め用意された再計算条件が満たされるか判定する。今回の例でも、再計算条件を満たすような認識単語列は見つからなかったとする(ステップD7)。
【0129】
インデックス出力装置19では、インデックス作成部18で作成されたインデックスを、本発明を実施する際の目的・用途に応じた形態で出力する(ステップD8)。
【0130】
インデックス編集インタフェース21では、インデックス出力装置19が出力するインデックスに対して、利用者からの編集操作がないか調べる。今回の例では、利用者からマッチング再計算を必要とするような編集操作は与えられなかったとする(ステップD9)。
【0131】
また利用者は、インデックス編集インタフェース21でインデックス内容を確認の後、直接インデックスを編集する作業も行わなかったとする(ステップD10)。
【0132】
このようにして本発明の第2の実施の形態のインデックス作成装置における動作全体が終了する。
【0133】
この具体例では、プレゼンテーション資料の全38枚のスライドに対して、各スライドが元の映像ファイル「題目:特別講演 IT技術の動向」の何秒目から何秒目までに対応しているかを示すインデックスが作成される。またマッチングの誤りが、利用者のわずかな編集操作によって、修正されている。こうしたインデックスを用いると、元の映像ファイルの検索・再生が、より高精度に可能となる。
【0134】
【発明の効果】
本発明による第1の効果は、ビデオデータなどのマルチメディアデータに対して、その関連資料の構造に応じたインデックスが自動的に作成できることである。関連資料は、書き起こしのようにマルチメディアデータの最初から最後まで過不足なく対応づけられるもの、でなくてよい。この結果、関連資料を介したマルチメディアデータに対するキーワード検索が可能となり、また、マルチメディアデータと関連資料との対応箇所を同期して再生することや、関連資料の特定の箇所に対応するマルチメディアデータを頭出しするなどの特殊再生が可能となる。インデックス自体も、マルチメディアデータの内容を示す目次の一種として活用可能である。
【0135】
本発明による第2の効果は、ビデオデータなどのマルチメディアデータと、その関連資料とのマッチング計算を繰り返し行うことで、精度の良いインデックスを作成できることである。入力されるマルチメディアデータと関連資料の性質や構造が、マッチングの再計算に利用されることで、この効果が達成される。
【0136】
本発明による第3の効果は、ビデオデータなどのマルチメディアデータと、その関連資料の構造に応じたインデックスを、本発明の利用者が少ない操作で編集できることである。利用者の編集操作に応じたマッチング再計算をインタラクティブに行うことで、インデックスに必要な修正を利用者が全て手動で編集する必要がない。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の構成を示すブロック図である。
【図2】音声認識テキストから抽出される構造の例を示す説明図である。
【図3】関連資料から抽出される構造の例を示す説明図である。
【図4】本発明の第1の実施の形態の音声認識テキスト構造解析動作を示すフローチャートである。
【図5】本発明の第1の実施の形態の関連資料構造解析動作を示すフローチャートである。
【図6】本発明の第1の実施の形態のマッチング動作を示すフローチャートである。
【図7】音声認識テキストの例を示す説明図である。
【図8】認識単語列および抽出されるサブトピックの例を示す説明図である。
【図9】プレゼンテーション資料から抽出されるテキストの例を示す説明図である。
【図10】スライド中の書式によって抽出される箇条書きの例を示す説明図である。
【図11】マッチングルールの例を示す説明図である。
【図12】マッチングをとる構造、および、範囲の例を示す説明図である。
【図13】本発明の第2の実施の形態の構成を示すブロック図である。
【図14】本発明の第2の実施の形態のマッチング再計算およびインデックス編集動作を示すフローチャートである。
【符号の説明】
11 マルチメディアデータ入力装置
12 音声認識装置
13 音声認識テキスト構造解析部
14 関連資料入力装置
15 関連資料構造解析部
16 マッチング処理部
17 マッチングルールデータベース
18 インデックス作成部
19 インデックス出力装置
20 マッチング範囲・条件調整部
21 インデックス編集インタフェース

Claims (15)

  1. マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識手段と、
    前記音声認識テキストに対して言語知識または認定規則を用いて構造解析を行い、前記音声認識テキストの文法的なまとまり、意味的なまとまり、ないしはそれらの区切りとなる箇所を抽出する音声認識テキスト構造解析手段と、
    前記マルチメディアデータの関連資料に対して、前記関連資料に含まれているテキストデータの言語解析結果、または前記テキストデータの書式情報、または前記関連資料のファイル中に各ファイル形式に応じたタグとして埋め込まれた情報を用いて、前記関連資料の文法的なまとまり、意味的なまとまり、書式的なまとまり、ないしはそれらの区切りとなる箇所を抽出する関連資料構造解析手段と、
    前記音声認識テキスト構造解析手段によって抽出された音声認識テキストのまとまり、または区切りとなる箇所の全部ないし一部と、前記関連資料構造解析手段によって抽出された関連資料のまとまり、または区切りとなる箇所の全部ないし一部とのマッチングをとるマッチング手段と、
    前記マッチング手段でのマッチングの結果の全部ないし一部から、前記マルチメディアデータのインデックスを作成するインデックス作成手段と、
    を有することを特徴とするインデックス作成装置。
  2. 前記マルチメディアデータの既存のインデックスまたは、前記マルチメディアデータと前記関連資料との既存のマッチング結果を受け取り、受け取った前記インデックスまたは前記マッチング結果の全部ないし一部を、制約条件として用いて、新たに前記マッチング手段でマッチングを行う際に、前記制約条件を満たすよう、可能なマッチングの範囲を限定するマッチング範囲調整手段とをさらに有することを特徴とする請求項1記載のインデックス作成装置。
  3. 前記マッチング手段で使用するマッチングルールの全部ないし一部に、各ルールを使用するための前提条件または、前提条件とルールのパラメータの組が規定されているマッチングルールを格納するマッチングルールデータベースと、
    前記マルチメディアデータの既存のインデックスまたは、前記マルチメディアデータと前記関連資料との既存のマッチング結果を受け取り、新たに前記マッチング手段でマッチングを行う際に、前記マッチングルールデータベースに格納されているマッチングルールの中で、受け取った前記既存のインデックスまたは前記既存のマッチング結果の全部ないし一部によって、前記前提条件が満たされるマッチングルール、または前記前提条件が満たされるマッチングルールとパラメータの組、または、前提条件のないマッチングルールを、新たにマッチングに使用するルールとして選択するマッチング条件調整手段とをさらに有することを特徴とする請求項1記載のインデックス作成装置。
  4. 前記マルチメディアデータのインデックスを編集するインデックス編集手段を有することを特徴とする請求項1、2、または、3記載のインデックス作成装置。
  5. 前記インデックス編集手段を通して、利用者が入力したインデックスの編集結果を制約条件として受け取り、受け取った制約条件を満たすよう、可能なマッチングの範囲を限定するマッチング範囲調整手段とをさらに有することを特徴とする請求項4記載のインデックス作成装置。
  6. 音声認識手段、音声認識テキスト構造解析手段、関連資料構造解析手段、マッチング手段、および、インデックス作成手段を備えるインデックス作成装置におけるインデックス作成方法であって、
    前記音声認識手段が、マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する手順と、
    前記音声認識テキスト構造解析手段が、前記音声認識テキストに対して言語知識または認定規則を用いて構造解析を行い、前記音声認識テキストの文法的なまとまり、意味的なまとまり、ないしはそれらの区切りとなる箇所を抽出する手順と、
    前記関連資料構造解析手段が、前記マルチメディアデータの関連資料に対して、前記関連資料に含まれているテキストデータの言語解析結果、または前記テキストデータの書式情報、または前記関連資料のファイル中に各ファイル形式に応じたタグとして埋め込まれた情報を用いて、前記関連資料の文法的なまとまり、意味的なまとまり、書式的なまとまり、ないしはそれらの区切りとなる箇所を抽出する手順と、
    前記マッチング手段が、前記音声認識テキスト構造解析手段によって抽出された音声認識テキストのまとまり、または区切りとなる箇所の全部ないし一部と、前記関連資料構造解析手段によって抽出された関連資料のまとまり、または区切りとなる箇所の全部ないし一部とのマッチングをとる手順と、
    前記インデックス作成手段が、前記マッチング手段でのマッチングの結果の全部ないし一部から、前記マルチメディアデータのインデックスを作成する手順と、
    を含むことを特徴とするインデックス作成方法。
  7. マッチング範囲調整手段を備える前記インデックス作成装置におけるインデックス作成方法であって、
    前記マッチング範囲調整手段が、前記マルチメディアデータの既存のインデックスまたは、前記マルチメディアデータと前記関連資料との既存のマッチング結果を受け取り、受け取った前記インデックスまたは前記マッチング結果の全部ないし一部を、制約条件として用いて、新たに前記マッチング手段でマッチングを行う際に、前記制約条件を満たすよう、可能なマッチングの範囲を限定する手順を含むことを特徴とする請求項6記載のインデックス作成方法。
  8. 前記マッチング手段で使用するマッチングルールの全部ないし一部に、各ルールを使用するための前提条件または、前提条件とルールのパラメータの組が規定されているマッチングルールを格納するマッチングルールデータベース、および、マッチング条件調整手段を備える前記インデックス作成装置におけるインデックス作成方法であって、
    前記マッチング条件調整手段が、前記マルチメディアデータの既存のインデックスまたは、前記マルチメディアデータと前記関連資料との既存のマッチング結果を受け取り、新たに前記マッチング手段でマッチングを行う際に、前記マッチングルールデータベースに格納されているマッチングルールの中で、受け取った前記既存のインデックスまたは前記既存のマッチング結果の全部ないし一部によって、前記前提条件が満たされるマッチングルール、または前記前提条件が満たされるマッチングルールとパラメータの組、または、前提条件のないマッチングルールを、新たにマッチングに使用するルールとして選択する手順を含むことを特徴とする請求項6記載のインデックス作成方法。
  9. インデックス編集手段を備える前記インデックス作成装置におけるインデックス作成方法であって、
    前記インデックス編集手段が、前記マルチメディアデータのインデックスを編集する手順を含むことを特徴とする請求項6、7、または、8記載のインデックス作成方法。
  10. マッチング範囲調整手段を備える前記インデックス作成装置におけるインデックス作成方法であって、
    前記マッチング範囲調整手段が、前記インデックス編集手段を通して、利用者が入力したインデックスの編集結果を制約条件として受け取り、受け取った制約条件を満たすよう、可能なマッチングの範囲を限定する手順を含むことを特徴とする請求項9記載のインデックス作成方法。
  11. 音声認識手段、音声認識テキスト構造解析手段、関連資料構造解析手段、マッチング手段、および、インデックス作成手段を備えるインデックス作成装置におけるインデックス作成プログラムであって、
    前記音声認識手段に、マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する手順を実行させ、
    前記音声認識テキスト構造解析手段に、前記音声認識テキストに対して言語知識または認定規則を用いて構造解析を行い、前記音声認識テキストの文法的なまとまり、意味的なまとまり、ないしはそれらの区切りとなる箇所を抽出する手順を実行させ、
    前記関連資料構造解析手段に、前記マルチメディアデータの関連資料に対して、前記関連資料に含まれているテキストデータの言語解析結果、または前記テキストデータの書式情報、または前記関連資料のファイル中に各ファイル形式に応じたタグとして埋め込まれた情報を用いて、前記関連資料の文法的なまとまり、意味的なまとまり、書式的なまとまり、ないしはそれらの区切りとなる箇所を抽出する手順を実行させ、
    前記マッチング手段に、前記音声認識テキスト構造解析手段によって抽出された音声認識テキストのまとまり、または区切りとなる箇所の全部ないし一部と、前記関連資料構造解析手段によって抽出された関連資料のまとまり、または区切りとなる箇所の全部ないし一部とのマッチングをとる手順を実行させ、
    前記インデックス作成手段に、前記マッチング手段でのマッチングの結果の全部ないし一部から、前記マルチメディアデータのインデックスを作成する手順を実行させることを特徴とするインデックス作成プログラム。
  12. マッチング範囲調整手段を備える前記インデックス作成装置におけるインデックス作成プログラムであって、
    前記マルチメディアデータの既存のインデックスまたは、前記マルチメディアデータと前記関連資料との既存のマッチング結果を受け取り、受け取った前記インデックスまたは前記マッチング結果の全部ないし一部を、制約条件として用いて、新たに前記マッチング手段でマッチングを行う際に、前記制約条件を満たすよう、可能なマッチングの範囲を限定する手順を前記マッチング範囲調整手段に実行させることを特徴とする請求11記載のインデックス作成プログラム。
  13. 前記マッチング手段で使用するマッチングルールの全部ないし一部に、各ルールを使用するための前提条件または、前提条件とルールのパラメータの組が規定されているマッチングルールを格納するマッチングルールデータベース、および、マッチング条件調整手段を備える前記インデックス作成装置におけるインデックス作成プログラムであって、
    前記マッチング条件調整手段に、前記マルチメディアデータの既存のインデックスまたは、前記マルチメディアデータと前記関連資料との既存のマッチング結果を受け取り、新たに前記マッチング手段でマッチングを行う際に、前記マッチングルールデータベースに格納されているマッチングルールの中で、受け取った前記既存のインデックスまたは前記既存のマッチング結果の全部ないし一部によって、前記前提条件が満たされるマッチングルール、または前記前提条件が満たされるマッチングルールとパラメータの組、または、前提条件のないマッチングルールを、新たにマッチングに使用するルールとして選択する手順を実行させることを特徴とする請求項11記載のインデックス作成プログラム。
  14. インデックス編集手段を備える前記インデックス作成装置におけるインデックス作成プログラムであって、
    前記マルチメディアデータのインデックスを編集する手順を前記インデックス編集手段に 実行させることを特徴とする請求項11、12、または、13記載のインデックス作成プログラム。
  15. マッチング範囲調整手段を備える前記インデックス作成装置におけるインデックス作成プログラムであって、
    前記インデックス編集手段を通して、利用者が入力したインデックスの編集結果を制約条件として受け取り、受け取った制約条件を満たすよう、可能なマッチングの範囲を限定する手順を前記マッチング範囲調整手段に実行させることを特徴とする請求項14記載のインデックス作成プログラム。
JP2003119738A 2003-04-24 2003-04-24 インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム Expired - Fee Related JP3938096B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003119738A JP3938096B2 (ja) 2003-04-24 2003-04-24 インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003119738A JP3938096B2 (ja) 2003-04-24 2003-04-24 インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム

Publications (2)

Publication Number Publication Date
JP2004326404A JP2004326404A (ja) 2004-11-18
JP3938096B2 true JP3938096B2 (ja) 2007-06-27

Family

ID=33498887

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003119738A Expired - Fee Related JP3938096B2 (ja) 2003-04-24 2003-04-24 インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム

Country Status (1)

Country Link
JP (1) JP3938096B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4218758B2 (ja) * 2004-12-21 2009-02-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕生成装置、字幕生成方法、及びプログラム
JP4802689B2 (ja) * 2005-12-08 2011-10-26 株式会社日立製作所 情報認識装置及び情報認識プログラム
US8532800B2 (en) 2007-05-24 2013-09-10 Mavs Lab. Inc. Uniform program indexing method with simple and robust audio feature enhancing methods
KR101947503B1 (ko) 2017-03-20 2019-02-14 주식회사 티맥스데이터 트리 인덱스를 제공하는 컴퓨팅 장치
CN108416026B (zh) * 2018-03-09 2023-04-18 腾讯科技(深圳)有限公司 索引生成方法、内容搜索方法、装置及设备
KR20190134115A (ko) 2018-05-25 2019-12-04 주식회사 티맥스데이터 효율적인 인덱싱을 제공하기 위한 방법, 장치 및 컴퓨터-판독가능 매체에 포함된 컴퓨터 프로그램
KR102057055B1 (ko) 2018-06-27 2019-12-18 주식회사 티맥스데이터 인덱스 관리 방법
KR102195836B1 (ko) 2019-02-07 2020-12-28 주식회사 티맥스티베로 인덱스 관리 방법
CN111800671B (zh) * 2019-04-08 2022-08-12 百度时代网络技术(北京)有限公司 用于对齐段落和视频的方法和装置
KR102252522B1 (ko) * 2020-02-17 2021-05-13 제주대학교 산학협력단 내용 기반 동영상 목차 자동생성 방법 및 시스템
CN113381922B (zh) * 2020-03-09 2024-02-27 阿尔派株式会社 电子装置以及信息的再生控制方法
KR102127785B1 (ko) 2020-03-11 2020-06-29 주식회사 티맥스티베로 효율적인 인덱싱을 제공하기 위한 방법, 장치 및 컴퓨터-판독가능 매체에 포함된 컴퓨터 프로그램
KR20200136858A (ko) 2020-11-24 2020-12-08 주식회사 티맥스티베로 인덱스 관리 방법
WO2024070717A1 (ja) * 2022-09-27 2024-04-04 株式会社インタラクティブソリューションズ 会話支援方法

Also Published As

Publication number Publication date
JP2004326404A (ja) 2004-11-18

Similar Documents

Publication Publication Date Title
US7739116B2 (en) Subtitle generation and retrieval combining document with speech recognition
US7983915B2 (en) Audio content search engine
CN101382937B (zh) 基于语音识别的多媒体资源处理方法及其在线教学系统
US7117231B2 (en) Method and system for the automatic generation of multi-lingual synchronized sub-titles for audiovisual data
JP4600828B2 (ja) 文書対応付け装置、および文書対応付け方法
US20130124984A1 (en) Method and Apparatus for Providing Script Data
JP3938096B2 (ja) インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム
JP4873018B2 (ja) データ処理装置、データ処理方法、及び、プログラム
US20080270344A1 (en) Rich media content search engine
US20080270110A1 (en) Automatic speech recognition with textual content input
JP2004533756A (ja) 自動コンテンツ分析及びマルチメデイア・プレゼンテーションの表示
JP2008152605A (ja) プレゼンテーション解析装置およびプレゼンテーション視聴システム
US20130080384A1 (en) Systems and methods for extracting and processing intelligent structured data from media files
US20110010175A1 (en) Text data processing apparatus, text data processing method, and recording medium storing text data processing program
CN110740275A (zh) 一种非线性编辑系统
JP2010262413A (ja) 音声情報抽出装置
JP2001343994A (ja) 音声認識誤り検出装置および記憶媒体
Smaïli et al. Summarizing videos into a target language: Methodology, architectures and evaluation
González-Gallardo et al. Audio summarization with audio features and probability distribution divergence
JP2004233541A (ja) ハイライトシーン検出システム
Repp et al. Segmentation and annotation of audiovisual recordings based on automated speech recognition
JP2001155467A (ja) 編集処理装置、及び編集処理プログラムが記憶された記憶媒体
JP2002312370A (ja) マルチメディアデータ検索装置、マルチメディアデータ検索方法およびマルチメディアデータ検索プログラム
JPH0981590A (ja) マルチメディア情報検索装置
JP2003230094A (ja) チャプター作成装置及びデータ再生装置及びその方法並びにプログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061212

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20070115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070319

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110406

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120406

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120406

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130406

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130406

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140406

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees