JP3607228B2 - 映像検索データ生成装置および映像検索データ生成方法並びに映像検索装置および映像検索方法 - Google Patents

映像検索データ生成装置および映像検索データ生成方法並びに映像検索装置および映像検索方法 Download PDF

Info

Publication number
JP3607228B2
JP3607228B2 JP2001294792A JP2001294792A JP3607228B2 JP 3607228 B2 JP3607228 B2 JP 3607228B2 JP 2001294792 A JP2001294792 A JP 2001294792A JP 2001294792 A JP2001294792 A JP 2001294792A JP 3607228 B2 JP3607228 B2 JP 3607228B2
Authority
JP
Japan
Prior art keywords
video
index
signal
keyword
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001294792A
Other languages
English (en)
Other versions
JP2002175304A (ja
Inventor
浩志 古山
仁 八塩
郁夫 井上
充 遠藤
昌克 星見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2001294792A priority Critical patent/JP3607228B2/ja
Publication of JP2002175304A publication Critical patent/JP2002175304A/ja
Application granted granted Critical
Publication of JP3607228B2 publication Critical patent/JP3607228B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、キーワードを用いて所望のシーン(映像及び又は音声)を検索するためのデータを生成する映像検索データ生成装置および映像検索データ生成方法並びに生成した検索データを用いて所望のシーンを検索する映像検索装置および映像検索方法に関する。
【0002】
【従来の技術】
近年、テレビジョン放送の多チャンネル化やインターネットに代表されるコンピュータネットワークの急速な普及に伴い膨大な映像が家庭を含めた社会に流通している。一方、記録メディア容量の増大に伴い、家庭において大量の映像信号の蓄積が可能になっている。そこで、このような大量の映像信号の中からユーザが希望する映像シーンを簡単に且つ高い精度で取り出すための技術が必要になる。
【0003】
これまでは、映像信号の変化から映像信号の変わり目を検出してその部分の映像シーンを表示する方式や、画像認識技術を用いて特定のオブジェクトで構成される特定シーンを検出して表示する方式などの検索システムが考えられている。しかしながら、これらの検索システムは、検索された映像シーンが必ずしもユーザの検索意図をよく反映したシーンとは限らないといった問題がある。
【0004】
また、字幕情報や,米国のテレビジョン放送で採用されているクローズドキャプション情報を,映像中から文字認識によって読取り、特定シーンを検出する検索システムがある。しかし、この検索システムは、字幕情報やクローズドキャプションを良く反映したシーンでは検索意図を良く反映したシーンが得られるものの、こうした情報は、人手を介して付加されることから一部の放送番組に限られているために、広く一般の映像に適用することは困難である。
【0005】
ところで、映像に付随している音声情報をキーワードとして用いることができれば、検索意図を良く反映した検索システムの実現が期待される。特開平6−68168号公報には、音声キーワードを用いて所望のシーンを検索する映像検索システムが開示されている。
【0006】
図12に、上記特開平6−68168号公報に開示された検索システムの機能ブロックが示されている。音声信号及び映像信号が音声映像入力部1201にて受信され、受信された音声信号は音声信号記録部1202へ蓄積され、受信された映像信号は映像信号記録部1203に蓄積される。音声信号は音声分析部1204において分析され、音声の特徴を表わした特徴パラメータの時系列データが生成される。生成された特徴パラメータの時系列は音声特徴記憶部1205へ格納される。
【0007】
一方、ユーザが後からシーン検索に使用するためのキーワードが、音声の形式でキーワード特徴分析部1206に与えられる。キーワード特徴分析部1206は、キーワードとしての音声を分析して、音声キーワードの特徴を表わした特徴パラメータの時系列データを生成する。生成した特徴パラメータの時系列データはキーワード特徴パラメータ記憶部1207に格納される。
【0008】
キーワード区間抽出部1208は、記憶部1202に蓄積されている音声信号の特徴パラメータの時系列データと、キーワード音声の特徴パラメータの時系列データとを比較して、音声信号中のキーワード区間を抽出する。インデクス付与部1209は、抽出されたキーワード区間とその音声信号に対応する映像信号のフレーム番号とを対応付けるインデクス位置データ1210を作成する。
【0009】
検索時にインデクス位置データ1210を使用して検索すれば、音声信号からキーワードが出現する映像信号のフレーム番号を指定することが出来、映像音声出力部1211から該当する映像と音声を出力でき、ユーザが所望とする映像、音声を提示することができる。
【0010】
【発明が解決しようとする課題】
しかしながら、予め検索に使用すべき音声キーワードを登録しなければならず、それ以外のキーワードを使用して検索することができないといった問題がある。特に、ユーザが不確かなキーワードを入力した場合には、検索エラーとなってしまって検索意図を反映したシーンを検索できなかった。
【0011】
本発明は、以上のような実情に鑑みてなされたものであり、映像及び又は音声の検索においてユーザが希望するシーンを、あらかじめ辞書などに登録された単語やキーワード以外の未知語や、ユーザが入力した不確かなキーワードであっても、正確かつ高速に検索できる装置及び方法を提供することを目的とする。
【0012】
【課題を解決するための手段】
本発明は、検索データの生成と検索処理とに一連の音声認識処理手順を分割して適用することにより、ユーザが希望する映像・音声シーンを高速に検索でき、高速に再生できるシーン検索システムである。
【0017】
本発明は、映像信号に同期した音声信号から特徴パタンを抽出する抽出手段と、前記音声信号に対して処理対象となる音声区間を設定し、音素の標準音声パタンを複数音素分用意しておき、各音声区間において標準音声パタンと前記抽出特徴パタンとが類似した類似区間を各音素について検出し、検出した類似区間に関する時刻情報が含まれたインデクスを各音素について生成するインデクス生成手段と、映像信号、音声信号及びインデクスを多重化してデータストリーム形式で出力する多重化手段と、を具備した映像検索データ生成装置である。
【0018】
また本発明は、映像信号と当該映像信号に同期した音声信号と当該音声信号から音素単位で生成されたインデクスとが多重されたデータストリームであって、前記各インデクスは、前記音声信号に対して処理対象となる音声区間を設定し、各音声区間において音素の標準音声パタンと当該音声信号から抽出した特徴パタンとが類似した類似区間を各音素について検出し、検出した類似区間に関する時刻情報を含ませたものである、データストリームが記憶された記憶部と、前記記憶部から少なくともインデクスを分離して読み出す読出手段と、読み出したインデクスを時系列に並べた時系列データと入力キーワードの音素系列とを照合し、当該入力キーワードと類似する区間に属するインデクスに含まれた時間情報を使用して映像を検索する検索手段と、を具備した映像検索装置である。
【0019】
また本発明は、ビデオ録画時に映像信号に同期して入力する音声信号から特徴パタンを抽出する抽出手段と、前記音声信号に対して処理対象となる音声区間を設定し、音素の標準音声パタンを複数音素分用意しておき、各音声区間において標準音声パタンと前記抽出特徴パタンとが類似した類似区間を各音素について検出し、検出した類似区間に関する時刻情報が含まれたインデクスを各音素について生成するインデクス生成手段と、入力映像信号、入力音声信号及びインデクスを多重化してデータストリーム形式で出力する多重化手段と、この多重化手段から出力されるデータストリームが記録される映像記録媒体と、を具備したビデオ録画装置である。
【0020】
また本発明は、映像信号と当該映像信号に同期した音声信号と当該音声信号から音素単位で生成されたインデクスとが多重されたデータストリームであって、前記各インデクスは、各インデクスに対応した音素の標準音声パタンと類似した類似区間の前記音声信号内での位置を示す時刻情報が含まれている、データストリームが記録された映像記録媒体と、ビデオ再生時に前記映像記録媒体から映像信号と音声信号とを同期を保ちながら読み出し、映像検索指示が与えられると前記映像記録媒体に記録されたデータストリームからインデクスを分離して読み出す読出処理手段と、入力キーワードを音素単位の時系列データに変換するキーワード変換手段と、入力キーワードの時系列データと前記インデクスとを照合して両者が類似する区間の時刻情報を求めるキーワードパタン照合手段と、この求めた時刻情報で特定された位置を読み出し開始位置として映像信号及び音声信号を読み出すように前記読出処理手段に対して指示する制御手段と、を具備したビデオ再生装置である。
【0021】
【発明の実施の形態】
検索データ作成時には、映像信号に同期した音声信号から特徴パタンを抽出し、サブワードを単位とした標準音声パタンを用いて類似度を計算し、時間同期情報を含んだサブワード単位のインデクスを生成する一方、検索処理時には入力されるキーワードに対する時間情報を前記インデクスの組合せから導出し、所望とする映像を検索する。
これにより、単語辞書又は予め登録した検索キーワードとの照合が無くなるため、未登録の単語キーワードに対応できないいわゆる未知語の問題が解決される。また、ユーザが不確かなキーワードを入力しても最も確からしい映像・音声シーンを検索する事ができる。
また、検索インデクスであるサブワードのスコアの時系列データを、映像信号、音声信号と共にデータストリームに多重化するので、放送網やインターネットなどの通信網を介した検索インデクスの流通も可能になる。
サブワードとは、単語よりも小さい音響モデルの基本単位をいい、音素や子音−母音、母音−子音−母音等の音節、半音節( Demisyllable )などが挙げられる。各単語はサブワードの系列として表わされる。
本発明の第1の態様は、映像信号に同期した音声信号から特徴パタンを抽出する抽出手段と、映像信号に同期した音声信号から特徴パタンを抽出して映像検索のためのインデクスを生成する検索データ生成部と、検索者から入力されるキーワードと前記インデクスとを照合して所望とする映像を検索する検索処理部とを具備する映像検索装置である。
【0022】
このように、検索データの生成と検索処理とに一連の音声認識処理手順を分割して適用することにより、ユーザが希望する映像・音声シーンを高速に検索でき、高速に再生できる。
【0023】
本発明の第2の態様は、第1の態様の映像検索装置において、前記検索データ生成部は、入力された音声信号から音声特徴量を抽出する音声特徴パタン抽出部と、抽出された音声特徴量と予め登録された標準音声パタンとの間の類似度を算出する計算部と、計算された類似度及び対応する映像信号又は音声信号との時間同期情報を含んだインデクスを生成するインデクス生成部とを備える
【0024】
このように、音声特徴量と標準音声パタンとの間の類似度を計算して、計算された類似度及び対応する映像信号又は音声信号との時間同期情報を含んだインデクスを生成するので、後で入力されるキーワードを標準音声パタンに変換することにより、インデクスの中からキーワードに類似したインデクスを探す事ができる。
【0025】
本発明の第3の態様は、第2の態様の映像検索装置において、前記音声特徴パタン抽出部は、入力された音声信号からサブワードに相当する区間から前記音声特徴量を抽出し、前記計算部は、サブワードを単位とした標準音声パタンを用いて類似度を計算する
【0026】
これにより、後で入力されるキーワードをサブワードに変換することにより、インデクスの中からキーワードに類似したインデクスを探す事ができる。
【0027】
本発明の第4の態様は、第1の態様の映像検索装置において、前記検索処理部は、検索者から入力されるキーワードを音声特徴量の時系列パタンに変換するキーワード変換部と、変換されたキーワードを音声特徴量の時系列パタンと前記インデクスとを照合してキーワードと類似度の高い区間を検出するキーワードパタン照合部とを備える
【0028】
このように、入力されるキーワードを音声特徴量の時系列パタンに変換し、変換されたキーワードを音声特徴量の時系列パタンとインデクスとを照合してキーワードと類似度の高い区間を検出することにより、検索意図を反映したシーンを検索できる。
【0029】
本発明の第5の態様は、第4の態様の映像検索装置において、前記キーワードパタン照合部は、前記音声信号の検索対象期間に亘って作成されたインデクスで構成される音素類似度表の中から前記入力キーワードに含まれるサブワードに対応したインデクスだけを抽出し、抽出したインデクスを時系列データに変換してキーワードを復元し、復元されたキーワード毎に類似度を加算する
【0030】
このように、音素類似度表の中から入力キーワードに含まれるサブワードに対応したインデクスだけを抽出し、抽出したインデクスを時系列データに変換してキーワードを復元するので、あらかじめ辞書などに登録された単語やキーワード以外の未知語や、ユーザが入力した不確かなキーワードであっても、正確かつ高速に検索できる。
【0031】
本発明の第6の態様は、第1の態様の映像検索装置において、前記検索データ生成部から前記検索処理部に対して伝送媒体を介して前記映像信号、音声信号及びインデクスが伝達される
【0032】
これにより、検索データ生成部と検索処理部とを物理的に離れた場所に配置して運用する事ができる。
【0033】
本発明の第7の態様は、第6の態様の映像検索装置において、前記伝送媒体は、放送網、通信網又は記録媒体のいずれかである
【0034】
これにより、放送局や情報提供者等の情報発信元でインデクスを生成し、映像信号又は音声信号等の情報と共に送信できる。
【0035】
本発明の第8の態様は、第6の態様の映像検索装置において、前記検索データ生成部は、映像信号、音声信号及びインデクスを多重化してデータストリームの形式で出力する多重化部を備え、前記検索処理部は、多重化されたデータストリームを映像信号、音声信号及びインデクスに分離する多重分離部を備える
【0036】
これにより、映像信号、音声信号及びインデクスを多重化してデータストリームの形式で出力することができるので、既存のデータ形式で容易に配信する事ができる。また、多重化されたデータストリームを映像信号、音声信号及びインデクスに分離することができるので、検索者側に既存のデータ形式で配信された情報から容易に検索をかけることもできる。
【0037】
本発明の第9の態様は、第8の態様の映像検索装置において、前記多重化部は、前記インデクスをユニットに分割する単位を、対応する映像信号のGOP(Group of Pictures)単位と一致させる
【0038】
これにより、検索処理時には入力したキーワードに該当する検索インデクスと対応するGOPにアクセスすることにより、容易に所望の映像シーンを再生開始することができるものとなる。
【0039】
本発明の第10の態様は、第9の態様の映像検索装置において、映像信号及び音声信号とインデクスとの時間同期情報としてインデクスのユニット部に対応する映像信号のタイムコードを記録する
【0040】
これにより、インデクスのユニット部に記録された映像信号のタイムコードに基づいて映像信号を特定できるので、既存のデータ形式を使って高速に所望のシーンにアクセスできる。
【0041】
本発明の第11の態様は、第10の態様の映像検索装置において、前記インデクスのユニット部に記録するタイムコードは、そのユニット部に対応する映像信号の開始時刻及び継続時間である
【0042】
これにより、所望のシーンの高速再生が可能になる。
【0043】
本発明の第12の態様は、映像信号に同期した音声信号から特徴パタンを抽出して映像検索のためのインデクスを生成する検索データ生成部と、検索者から入力されるキーワードと前記インデクスとを照合して所望とする映像を検索する検索処理部とを具備し、前記検索処理部は、通信網を経由して接続された検索端末からキーワードを受信する受信部と、検索された映像信号を前記通信網を経由して前記検索端末へ送信する送信部とを有する、映像検索装置である
【0044】
このように、検索処理部が通信網を経由して接続された検索端末からキーワードを受信し、検索された映像信号を検索端末へ送信するので、ユーザ端末に検索エンジンを持つ必要がなくなり、ユーザの負担を軽減できる。
【0045】
本発明の第13の態様は、音声信号から特徴パタンを抽出して音声検索のためのインデクスを生成する検索データ生成部と、検索者から入力されるキーワードと前記インデクスとを照合して所望とする音声を検索する検索処理部とを具備する音声検索装置である
【0046】
これにより、上記第1の態様と同様にして音声のシーン検索が可能になる。
【0047】
本発明の第14の態様は、第13の態様の音声検索装置において、前記検索データ生成部は、入力された音声信号から音声特徴量を抽出する音声特徴パタン抽出部と、抽出された音声特徴量と予め登録された標準音声パタンとの間の類似度を算出する計算部と、計算された類似度及び対応する音声信号との時間同期情報を含んだインデクスを生成するインデクス生成部とを備える
【0048】
これにより、音声特徴量と標準音声パタンとの間の類似度を算出し、計算された類似度及び対応する音声信号との時間同期情報を含んだインデクスを生成するので、入力されたキーワードを標準音声パタンに対応した系列に変換すればインデクスから音声のシーンを検索できる。
【0049】
本発明の第15の態様は、映像信号に同期した音声信号から音声特徴量を抽出する音声特徴パタン抽出部と、抽出された音声特徴量と予め登録された標準音声パタンとの間の類似度を算出する計算部と、計算された類似度及び対応する映像信号又は音声信号との時間同期情報を含んだインデクスを生成するインデクス生成部とを備える映像検索インデクス生成装置である
【0050】
本発明の第16の態様は、第15の態様の映像検索インデクス生成装置において、前記音声特徴パタン抽出部は、入力された音声信号からサブワードに相当する区間から前記音声特徴量を抽出し、前記計算部は、サブワードを単位とした標準音声パタンを用いて類似度を計算する
【0051】
これにより、入力音声信号をサブワードの単位とした標準音声パタンとの類似度の形式で保存する事ができる。
【0052】
本発明の第17の態様は、映像信号とこの映像信号に同期した音声信号とこの音声信号から生成された音素類似度表とが蓄積された記録部と、検索者から入力されるキーワードを音声特徴量の時系列パタンに変換するキーワード変換部と、変換されたキーワードを音声特徴量の時系列パタンと前記音素類似度表のインデクスとを照合してキーワードと類似度の高い区間を検出するキーワードパタン照合部と、検出区間の先頭サブワードの始端時刻に基づいて前記記録部から該当する映像信号を取り出す制御部とを備える検索処理装置である
【0053】
本発明の第18の態様は、第17の態様の検索処理装置において、前記キーワードパタン照合部は、音素類似度表の中から前記入力キーワードに含まれるサブワードに対応したインデクスだけを抽出し、抽出したインデクスを時系列データに変換してキーワードを復元し、復元されたキーワード毎に類似度を加算する
【0054】
本発明の第19の態様は、記録媒体を有するビデオ録画装置において、ビデオ録画時に入力される音声信号から人物の発声帯域における発声特徴パタンを抽出する発声特徴パタン抽出部と、前記発声特徴パタンをビデオ信号への同期情報とともに前記記録媒体に映像検索インデクスとして記録するインデクス記録制御部とを備えるビデオ録画装置である
【0055】
本発明の第20の態様は、記録媒体を有するビデオ録画装置において、ビデオ録画時に入力される音声信号から人物の発声帯域における発声特徴パタンを抽出する発声特徴パタン抽出部と、抽出された発声特徴パタンデータと予め登録されている複数のサブワードの各発声特徴パタンとの類似度を算出して類似度及び時刻情報を持った映像検索インデクスを生成するインデクス生成部と、入力音声対して作成された映像検索インデクスで構成される音素類似度表とビデオ信号とを前記記録媒体に記録する記録制御部とを備えるビデオ録画装置である
【0056】
本発明の第21の態様は、第19の態様において、発声特徴パタン抽出部は、ビデオ録画時に入力される映像信号に対して予め登録されてある発声音ごとの口唇画像特徴パタンデータとの照合を行い、映像信号から人物発声時の視覚特徴パタンデータを抽出する
【0057】
これにより、音声に雑音などが入っていても精度よく所望のシーンを検索できる。
【0058】
本発明の第22の態様は、ビデオ信号の再生を行うビデオ再生装置において、入力音声に対して作成された映像検索インデクスとビデオ信号とが記録された記録媒体と、検索者から入力されたキーワードをパタン照合用データに変換するキーワードパタン変換部と、前記キーワードのパタン照合用データと既に前記記録媒体に記録されているビデオ番組の前記映像検索インデクス内のパタン照合用データとのパタン照合を行うキーワードパタン照合部とを備えるビデオ再生装置である
【0059】
本発明の第23の態様は、ビデオ信号の再生を行うビデオ再生装置において、入力音声に対して作成された映像検索インデクスから構成された音素類似度表とビデオ信号とが記録された記録媒体と、入力されたキーワードのサブワード系列と前記音素類似度表内のサブワードごとの類似度によってキーワード検出を行うキーワードパタン変換部とを備えたビデオ再生装置である
【0060】
本発明の第24の態様は、第22の態様のビデオ再生装置において、前記キーワードパタン変換部は、入力されるキーワードを視覚特徴パタンデータへの変換を行い、前記キーワードパタン照合部が、予め記録媒体に記録されている映像検索インデクスとして人物発声時の視覚特徴パタンデータを用いて、入力されたキーワードの視覚特徴パタンデータとの照合を行う
【0061】
本発明の第25の態様は、第22の態様のビデオ再生装置において、音声入力のためのマイクロフォンを備え、前記キーワードパタン変換部が前記マイクロフォンから入力されたキーワードの音声信号を発声特徴パタンデータへ変換する
【0062】
これにより、キーワードを音声にて入力できる。
【0063】
本発明の第26の態様は、第22の態様のビデオ再生装置において、マイクロフォンと動画像入力のためのカメラ装置とを備え、前記キーワードパタン変換部は、利用者のキーワード発声時にカメラ装置から入力される映像信号に対して予め登録されてある発声音ごとの口唇画像特徴パタンとの照合を行い、キーワード発声時の映像信号からキーワードの視覚特徴パタンデータへの変換を行う
【0064】
本発明の第27の態様は、映像信号に同期した音声信号から音声特徴量を抽出し、抽出された音声特徴量と予め登録された標準音声パタンとの間の類似度を算出し、計算された類似度及び対応する映像信号又は音声信号との時間同期情報を含んだインデクスを生成し、検索者から入力されるキーワードと前記インデクスとを照合して所望とする映像を検索する映像検索方法である。
【0065】
(第1の実施の形態)
図1に、第1の実施の形態にかかるシーン検索システムの機能ブロック図が示されている。本実施の形態のシーン検索システムは、蓄積されている映像の中から所望のシーンを検索するための映像検索インデクスを生成する検索データ生成部100と、入力された検索キーワードと映像検索インデクスとを照合して検索意図を良く反映したシーンを検索する検索処理部200とを有する。
【0066】
検索データ生成部100は、映像信号を受信する映像信号入力部101と、その映像信号に付随(同期)した音声信号を受信する音声信号入力部102とを有する。映像信号入力部101及び音声信号入力部102から入力された映像信号及び音声信号は、検索処理部200に設けられた記録部201に格納される。さらに、音声信号入力部102から入力された音声信号は、音声特徴パタン抽出部103へも入力される。音声特徴パタン抽出部103は、音声信号を分析して音声特徴パタンを抽出する。抽出された音声特徴パタンは映像検索インデクス生成部104へ与えられる。映像検索インデクス生成部104は、抽出された音声特徴パタンと標準音声特徴パタン格納部105に格納されている標準音声パタンとを比較して、最も良く一致するサブワードの{始端時刻、終端時刻、類似度を示すスコア}の組を映像検索インデクスとして出力する。この映像検索インデクスは検索処理部200にある記録部201に格納される。
【0067】
検索処理部200は、映像信号、音声信号及び映像検索インデクスが格納された記録部201を有する。記録部201には映像検索インデクスによる音素類似度表が形成されている。音素類似度表については後述する。制御部202は、記録部201に格納されている映像信号、音声信号の読出し位置を制御している。記録部201に格納されている映像の中から所望の映像シーンを検索するための検索キーワードはキーワード入力部203から入力される。入力されたキーワードはキーワード変換部204により入力キーワードを構成しているサブワードの時系列に変換される。キーワードパタン照合部205は、入力キーワードのサブワードと一致するサブワードの映像検索インデクスを記録部201から取り出す。記録部201から取り出された映像検索インデクスによって検索キーワードを復元し、復元された各キーワードのスコアを計算する。制御部202がスコアの高い復元キーワードの先頭サブワードの始端時刻に基づいて記録部201から該当する映像シーンを取り出す。記録部201から取り出される映像シーンを構成する映像信号は映像信号出力部206から外部へ出力され、その映像信号に付随した音声信号は音声信号出力部207から外部へ出力される。
【0068】
次に、検索データ生成部100において映像検索インデクスを生成する処理の詳細について説明する。音声特徴パタン抽出部103は、入力した音声信号を順次10msecの分析フレームに分割し、その各分析フレームを高速フーリエ変換して人物の発声周波数帯域の音響特性をあらわした音響特性データに変換する。さらに、発声周波数帯域の音響特性データを、音響特徴量から構成されるN個(Nは任意の自然数)の成分を持つベクトルデータに変換する。このベクトルデータが音声特徴パタンとなる。音声特徴パタンに変換される音響特徴量として、入力音声の発声周波数帯域における短時間スペクトル又はスペクトルの対数値、入力音声の一定時間内での対数エネルギーなどを用いるのが望ましい。
【0069】
このように、入力音声は10msec毎に音声特徴パタン(ベクトルデータ)に変換され、順次変換された音声特徴パタンが映像検索インデクス生成部104へ出力される。なお、分析フレームのフレーム長は10msecに限定されるものではない。
【0070】
標準音声特徴パタン格納部105に、サブワード(#V,#CV,#CjV、CV,CjV、VC,QC,VQ,VV,V#、但し、Cは子音、Vは母音、jは拗音、Qは促音、#は無音である)が標準音声パタンとして予め用意されている。予め複数の話者から収集した発声を分析して、サブワード単位で音声特徴パタンを抽出する。抽出された音声特徴パタンを統計的処理して標準音声パタンとして登録している。具体的には、個々のサブワードと、それらの標準音声パタン(抽出した音声特徴パタン)と、を対応させたテーブルが標準音声特徴パタン格納部105に格納されている。図2に標準音声パタンの具体例が示されている。標準音声パタンを500個程度用意している。標準音声特徴パタン格納部105に格納すべき標準音声パタンの個数は500個に限定されるものではなく、計算量と要求される検索精度との関係で適宜決められるべきである。
【0071】
映像検索インデクス生成部104は、標準音声特徴パタン格納部105から第1番目の標準音声パタンを取り出し、第1番目の標準音声パタンと入力音声の音声特徴パタンとの類似度を音声認識処理によって求める。音声認識処理には、DP照合法、HMMなどの音声認識手法を用いる事が望ましい。第1番目の標準音声パタンに対して最も高い類似度を示す区間をサブワード区間として検出し、検出したサブワード区間の始端時刻と終端時刻と類似度であるスコアとを求める。このようにして求めた第1番目の標準音声パタンの検出サブワード区間に関して{始端時刻、終端時刻、スコア}の組が1つの映像検索インデクスとして出力される。すなわち、1つの映像検索インデクスは音素記号、始端時刻、終端時刻、スコアで構成されている。
【0072】
第1番目の標準音声パタンに対する映像検索インデクスが求められたならば、第2番目の標準音声パタンが標準音声特徴パタン格納部105から取り出される。そして同一音声区間の音声特徴パタンと第2番目の標準音声パタンとを比較し、上記同様にして第2番目の標準音声パタンについてサブワード区間を検出し、検出サブワード区間に関する{始端時刻、終端時刻、スコア}の組を映像検索インデクスとして出力する。以下同様に、同一音声区間の音声特徴パタンに対して、標準音声パタンを切換えながら、残りの全ての標準音声パタンとの類似度をそれぞれ検出し、全ての標準音声パタンに関して{始端時刻、終端時刻、スコア}の組からなる映像検索インデクスを生成する。
【0073】
入力音声のある音声区間において全ての標準音声パタンに関して映像検索インデクスが生成されたならば、処理対象となる音声区間を隣接する次の音声区間に移して同様の処理を実行する。以下同様に、処理対象となる音声区間をシフトしていき、入力音声の全区間に亘り検索インデクを生成したところで処理を完了する。
【0074】
次に、検索処理部200においてキーワードを用いて映像シーンを検索する処理の詳細について説明する。
【0075】
図3に映像検索インデクスのラティス構造の一部が示されている。10msec単位で分割した入力音声の各音声区間の終端を、その音声区間に対して生成した各映像検索インデクスの終端とし、同一音声区間における映像検索インデクスを生成された順番に配置すると、入力音声の全体では映像検索インデクスがラティス状に配列される。このような映像検索インデクスのラティス構造を音素類似度表と呼ぶこととする。音素類似度表において、各映像検索インデクスは始端時刻に対応した長さとそのスコアの組で表わされている。図3には、映像検索インデクスの音素類似度表の中から「A」「KA」「SA」「TA」「NA」の5種類のサブワードだけを代表で示している。
【0076】
いま、キーワード入力部203が検索キーワードとして「空」を受信したものとする。キーワード変換部204は、検索キーワード「空」をサブワードの系列に変換する。「空」は「SO、OR、RA」に変換される。
【0077】
キーワードパタン照合部205は、音素類似度表の中から、検索キーワードを構成するサブワードだけをピックアップする。すなわち、各時刻のラティスから、検索キーワードを構成するサブワード「SO」「OR」「RA」だけを、ピックアップする。図4は検索キーワードのサブワード「SO」「OR」「RA」だけがピックアップされたラティスを示している。
【0078】
ピックアップされた複数のラティス上のサブワード「SO」「OR」「RA」を、検索キーワードを変換したサブワードの系列順に隙間なく接続する。ある時刻のラティスから最後のサブワード「RA」を取り出し、「RA」の始端時刻にあたるラティスからその前のサブワード「OR」を取り出し、さらに「OR」の始端時刻にあたるラティスからさらに前のサブワード「SO」を取り出し、最後のサブワード「RA」の終端を基準にして「SO」「OR」「RA」を連結する。
【0079】
このように「SO」「OR」「RA」を連結することにより復元されたキーワードについて、その復元キーワードのスコアを計算する。復元されたキーワードを構成するサブワード「SO」「OR」「RA」に付与されているスコアを加算する。この加算値が復元キーワードのスコアである。以下同様に、サブワード「RA」の終端時刻をずらした復元キーワードを全ての時刻について順次作成し、各復元キーワードについてそのスコアを計算する。図5にサブワード「RA」の終端時刻をずらした復元キーワードが示されている。
【0080】
キーワードパタン照合部205は、音声の伸縮特性を考慮して各復元キーワード(サブワードの時系列データ)に対してDP照合法などにより圧縮・伸張処理を加える。そして、全ての復元キーワードのスコアを計算する。これら復元キーワードのスコアを制御部202へ入力する。
【0081】
制御部202は、スコアが上位となる復元キーワードの先頭サブワードの始端時刻から対応する映像信号のタイムコードを算出し、記録部201に蓄積された映像・音声信号の該当部分を再生するための制御を行う。この結果、映像信号出力部206、音声信号出力部207から再生された映像信号及び音声信号が出力される。
【0082】
このように、検索対象の映像信号に付随した音声信号からスコアの付与されたサブワードの時系列データを作成して映像検索インデクスとしてそのまま記録部201に保存する一方、検索時にはキーワードをサブワードに変換して映像検索インデクスと照合するようにしたので、単語辞書又は検索キーワードを予め登録した格納部を排除する事ができ、未知語の問題も発生しないといった利点がある。
【0083】
しかも、予め登録した検索キーワードとの照合を行わないことから、ユーザが不確かなキーワードを入力した場合であっても最も確からしい映像シーンを検索することができるといった優れた効果を奏することができる。
【0084】
(第2の実施の形態)
本発明の第2の実施の形態にかかるシーン検索システムは、検索データ生成装置で生成した映像検索インデクスを、伝送媒体を介して検索装置へ伝送するようにしている。
【0085】
図6に第2の実施の形態にかかるシーン検索システムの構成が示されている。上述した第1の実施の形態と同一機能を有する部分には同一符号が使われている。このシーン検索システムは、映像信号に付属した音声信号から生成された映像検索インデクスをデータストリームに多重化する検索データ生成装置120と、検索キーワードのサブワードと映像検索インデクスとを照合して所望の映像シーンを検索する検索装置220と、検索データ生成装置120で映像検索インデクスの多重化されたデータストリームを、検索装置220へ伝送するための伝送媒体230とから構成されている。伝送媒体230には、放送網、通信網、記録メディア等が含まれる。放送網には地上波放送網又はケーブル放送網があり、通信網にはインターネットがある。音声シーンの検索であればラジオ放送網も含まれる。
【0086】
検索データ生成装置120は、映像信号入力部101、音声信号入力部102、音声特徴パタン抽出部103、映像検索インデクス生成部104、標準音声パタン格納部105を備えている。さらに、検索データ生成装置120は、映像検索インデクス生成部104で生成した映像検索インデクスと映像信号と音声信号とを多重化する多重化部121を有する。多重化部121は、映像検索インデクスと映像信号と音声信号とを、MPEGストリーム上に多重化することが望ましいが、それ以外のデータストリーム上に多重化する事も可能である。
【0087】
検索装置220は、記録部201、制御部202、キーワード入力部203、キーワード変換部204、キーワードパタン照合部205、映像信号出力部206、音声信号出力部207を備えている。さらに、検索装置220は、映像検索インデクスと映像信号と音声信号とが多重化されたデータストリームから、映像検索インデクス、映像信号及び音声信号をそれぞれ分離する多重分離部221を有する。
【0088】
検索データ生成装置120に設けられた映像検索インデクス生成部104において、上述した第1の実施の形態と同様にして入力音声から映像検索インデクスが作成される。作成された映像検索インデクスは多重化部121へ出力される。なお、映像信号入力部101で受信された映像信号及び音声信号入力部102で受信された音声信号が多重化部121へ出力されている。
【0089】
多重化部121は、映像信号、音声信号、映像検索インデクスを、それぞれ複数の映像ストリーム(映像ストリーム(1)〜映像ストリーム(n))と、音声ストリーム(音声ストリーム(1)〜音声ストリーム(n))と、ユーザデータを格納するためのプライベートストリーム(このストリームを映像検索インデクスの伝送に使うので、検索データストリームと呼ぶ:検索データストリーム(1)〜検索データストリーム(n))に変換する。
【0090】
図7(1)に、映像信号、音声信号及び映像検索インデクスが多重化されたMPEGストリームのフレーム構成が示されている。MPEGストリームの先頭にはストリームを識別するためのストリームヘッダ101が付加される。図7(2)に映像ストリームの構成が示されている。映像ストリームは、複数のGOP(Group of Pictures:GOP(1)〜GOP(n))で構成されている。図7(3)にGOPの構成が示されている。GOPは、フレーム内で符号化されるIピクチャ(I(1))、Iピクチャ又はPピクチャを参照して動き補償予測により符号化されるPピクチャ(P(2)〜P(m))、時間的に前後に位置するIピクチャ、Pピクチャを参照して双方からの動き補償予測により符号化されるBピクチャ(B(−1)〜B(m−1))の一連のグループにより構成される。図7(4)に検索データストリームの構成を示されている。GOPを構成している一連の映像フレームに対応して、映像検索インデクス(映像検索インデクス(1)〜映像検索インデクス(n))をユニット化する。
【0091】
多重化部121によって多重化されたMPEGストリームは、伝送媒体230を介して検索装置220へ伝送され、記録部201に記録される。検索装置220では、多重分離部221が多重化されたMPEGストリームから検索インデクスを分離してキーワードパタン照合部205へ与える。映像検索インデクスと検索キーワードとを照合し、第1の実施の形態と同様にして復元キーワードを作成する。制御部202が、スコアの高い復元キーワードの始端時刻から対応するGOPにアクセスして映像シーンを取り出す。なお、MPEGストリームから映像検索インデクスを分離する時に一緒に映像信号及び音声信号も分離して、記録部201に記録するようにしても良い。
【0092】
このように、入力音声のサブワードの単位で構成された映像検索インデクスを、映像信号及び音声信号とともにデータストリームに多重化したので、放送網や通信網を利用してユーザに映像と一緒に映像検索インデクスを渡す事ができる。
【0093】
また、MPEGの映像再生単位はGOPなので、検索インデクスのユニット単位を一致させておくと、検索処理時には入力したキーワードに該当する検索インデクスと対応するGOPにアクセスすることにより、容易に所望の映像シーンを再生開始することが可能になる。
【0094】
(第3の実施の形態)
第3の実施の形態は、ユーザ端末から検索キーワードを入力したら、そのユーザ端末に通信網を介して接続されたサーバシステムから該当するシーンが提供されるようにしたシーン検索システムである。
【0095】
図8に、第3の実施の形態にかかるシーン検索システムのシステム構成が示されている。図8において、上述した第1の実施の形態及び第2の実施の形態のシーン検索システムと同一機能を有する部分には同一符号を使用している。サーバシステムは、検索データ生成部100と、検索処理部230とで構成されている、ユーザが希望する映像シーンを検索してユーザ端末へ送信する。
【0096】
検索データ生成部100は、映像信号入力部101、音声信号入力部102、音声特徴パタン抽出部103及び映像検索インデクス生成部104で構成されている。
【0097】
検索処理部230は、記録部201、制御部202、キーワードパタン照合部205を備える。さらに、検索処理部230は、ユーザ端末300から伝送媒体230を経由して送られてくる検索キーワードのデータを受信するキーワード受信部231と、検索されたシーンの映像信号と音声信号とをデータストリーム上に多重化して伝送媒体230を経由してユーザ端末300へ送信する多重化部232とを有する。
【0098】
ユーザ端末300は、キーワード入力部203、キーワード変換部204、検索されたシーンの映像信号を出力する音声信号出力部207、検索されたシーンの音声信号を出力する音声信号出力部206を備える。さらに、ユーザ端末300は、伝送媒体230を介してキーワード変換部204によって変換された検索キーワードのサブワードを検索処理部230へ送信するキーワード送信部301と、検索処理部230から伝送媒体230を介して受信したデータストリームから映像信号及び音声信号を分離する多重分離部302とを有する。
【0099】
以上のように構成されたシーン検索システムでは、ユーザ端末300において検索キーワードが入力される。ユーザ端末300では、入力されたキーワードがキーワード変換部204により入力キーワードのサブワードに変換される。そして入力キーワードのサブワードがキーワード送信部301から伝送媒体230を介して送信される。本実施の形態における伝送媒体230はインターネットなどの通信網が望ましい。
【0100】
検索処理部230の記録部201には、上述した第1の実施の形態と同様にして映像信号、音声信号及びラティス構造の映像検索インデクスが記録されている。キーワード受信部231が受信したキーワードデータはキーワードパタン照合部205へ渡される。キーワードパタン照合部205は、上述したように映像検索インデクスのラティス構造からキーワードのサブワードと一致する音素記号を持つ映像検索インデクスをピックアップして、各時刻における復元キーワードを作成する。そして制御部202がスコアの高い復元キーワードの始端時刻に基づいて該当する映像信号及び音声信号を取り出す。このようにして検索されたシーンの映像信号及び音声信号は多重化部232でデータストリームの多重化された後、伝送媒体230を経由してユーザ端末300へ送られる。
【0101】
ユーザ端末300では、多重分離部302が検索キーワードに対して送られてきたデータストリームから映像信号及び音声信号を分離する。分離された映像信号及び音声信号は映像信号出力部206及び音声信号出力部207からそれぞれ再生される。
【0102】
このように、ユーザ端末300とサーバシステム(検索データ生成部100及び検索処理部230)とを通信網230を介して接続する事により、映像検索インデクスを生成する機能及び検索する機能を持たないユーザ端末300から所望のシーンを検索することができる。
【0103】
なお、上記した第3の実施の形態では、ユーザ端末300にキーワード変換部204を備えているが、キーワード変換部204を検索処理部230に配置するように構成しても良い。この構成によれば、既存のユーザ端末に新たなソフトウエアのインストールすることなく、上述検索を行う事ができる。
【0104】
(第4の実施の形態)
第4の実施の形態は、本発明のシーン検索システムをビデオ録画装置に適用した例である。本実施の形態にかかるビデオ録画装置は、ビデオ録画時に得られる音声信号から人物の発声音を検出して、発声音から得られる音響特性データを発声特徴パタンデータとして抽出する。さらに、発声特徴パタンデータは時刻情報を添付したインデクス構造に成形したのち、映像信号及び音声信号と共に記録媒体へ記録する。
【0105】
図9に本実施の形態にかかるビデオ録画装置の構成が示されている。外部から入力されるビデオ録画指示制御信号等は制御信号入力部1で受信される。ビデオ録画制御部2は、受信された制御信号の種別に応じて装置を構成する各ブロックへ録画開始指示信号や停止指示信号を発行する。
【0106】
一方、ビデオ録画開始とともに入力されるアナログ音声信号は音声信号入力部3でデジタル音声信号に変換され、さらにデジタル音声信号が音声信号エンコード部4でMPEG等の圧縮処理を施される。また、ビデオ録画開始とともに入力されるアナログ映像信号は映像信号入力部5でデジタル映像信号に変換され、さらにデジタル映像信号が映像信号エンコード部6でMPEG等の圧縮処理を施される。
【0107】
音声信号入力部3からデジタル音声信号が発声特徴パタン抽出部10へ分配入力される。発声特徴パタン抽出部10は、入力したデジタル音声信号から人物の発声音の音響特性データを検出して発声特徴パタンデータを取得する。映像検索インデクス生成部11は、発声特徴パタン抽出部10から供給される発声特徴パタンデータを映像信号と同期した時間周期でパケット化し、時刻情報を添付した映像検索用インデクス構造に成形する。
【0108】
圧縮された映像信号及び音声信号と映像検索インデクスは、ビデオ録画制御部2から指示を受けた複合データ記録処理部7によって重畳されてDVD等の記録フォーマットで映像記録媒体9に記録される。映像記録媒体9は光ディスクまたはHDD(磁気ディスク)またはメモリカードまたは磁気テープ等で構成される。複合データ記録処理部7からの制御指示により映像記録媒体9の記録位置のシーク等の物理的な制御を記録媒体動作制御部8が行う。以上のように構成されたビデオ録画装置はマイクロコンピュータ組み込み機器または専用LSI回路群等で構成することができる。このビデオ録画装置では、発声特徴パタン抽出手段は発声特徴パタン抽出部10から構成され、インデクス情報記録手段は映像検索インデクス生成部11と複合データ記録処理部7から構成される。
【0109】
次にこの装置の動作について説明する。
【0110】
制御信号入力部1は、外部のリモートコントロール装置またはキーボード等の入力装置からビデオ録画指示の制御信号を受け付けると、装置に適合した信号形式に変換した後にビデオ録画制御部2にビデオ録画指示信号を発行する。ビデオ録画指示信号を受けたビデオ録画制御部2は、装置を構成する各部にビデオ録画開始の指示を行い、装置状態をビデオ録画状態に遷移させる。
【0111】
ビデオ録画開始の指示を受けた音声信号入力部3は、外部のテレビジョン信号チューナー装置またはマイクロフォンまたはVTR装置等から入力される音声信号に対してA/D変換処理を施し量子化を行った後、音声信号エンコード部4及び発声特徴パタン抽出部10へ逐次音声信号を供給する。音声信号エンコード部4に供給された音声信号はMPEG等の音声信号帯域圧縮処理が施され、複合データ記録処理部7へと逐次転送される。
【0112】
音声信号入力部3から音声信号の分配供給を受けた発声特徴パタン抽出部10では、一定時間単位の音声信号に対してFFT(高速フーリエ変換)処理を行い、人物の発声周波数帯域の音響特性データを抽出し、さらに抽出した周波数帯域内での短時間スペクトルデータまたはスペクトルの対数値や、一定時間単位内の音声信号の対数エネルギー値等の音声認識処理で一般的に用いられる音響特徴量から構成されるN個(Nは任意の自然数)の成分を持つベクトルデータである発声特徴パタンデータを生成する。
【0113】
発声特徴パタン抽出部10で抽出生成された発声特徴パタンデータは逐次映像検索インデクス生成部11に出力される。映像検索インデクス生成部11は、逐次入力されてくる個々の発声特徴パタンデータを、その時系列を保持したまま映像信号及び音声信号間で同期可能な時間単位分にまとめてパケット化し、パケット毎に発声特徴パタンデータである事を示す識別と時刻情報を付与する。これにより、発声特徴パタンデータの位置から時刻情報を参照して映像信号または音声信号にアクセス可能なインデクス構造が生成される。生成したインデクス構造パケットを複合データ記録処理部7に逐次転送する。
【0114】
一方、同じくビデオ録画開始の指示を受けた映像信号入力部5は、外部のテレビジョン信号チューナー装置またはカメラまたはVTR装置等から入力される映像信号に対してA/D変換処理を施し量子化を行い所定のデジタル映像信号として、映像信号エンコード部6に供給する。映像信号エンコード部6に供給されたデジタル映像信号はMPEG等の映像信号帯域圧縮処理が施され、複合データ記録処理部7へと逐次転送される。
【0115】
ビデオ録画開始の指示を受けた複合データ記録処理部7は、データの記録開始に先立ち、記録媒体動作制御部8に制御信号を発行して、記録媒体9へのデータ記録開始位置の保持を行う。各々信号帯域圧縮処理を施された映像信号ならびに音声信号及び映像検索用インデクス生成部11にて生成されたインデクス構造パケットを受け取った複合データ記録処理部7は、MPEG等の所定のフォーマットで映像信号と音声信号及びインデクス構造パケットを多重化し、記録媒体動作制御部8への制御信号を発行して映像記録媒体9の所定の位置に多重化したデータをDVD等の記録フォーマットにしたがって記録する。
【0116】
こうした一連の動作は、ビデオ録画開始からビデオ録画時間終了または外部からの映像信号入力の終了または外部からの制御信号によるビデオ録画停止指示、及び装置内各部からのエラー通知をビデオ録画制御部2が検出するまで繰り返される。ビデオ録画制御部2はこれらを検出した際は装置を構成する各部にビデオ録画停止指示を行い、装置を初期状態に遷移させる事で動作を終了する。
【0117】
ここで、上記インデクス構造パケットは発声特徴パタンデータの時系列で構成されていたが、映像検索インデクス生成部11が発声特徴パタンデータの時系列に対して音素認識処理を施す事により、インデクス構造パケットをサブワード毎の時系列パタン照合結果である音素類似度表の時系列にする事ができる。
【0118】
すなわち、映像検索インデクス生成部11が、発声特徴パタン抽出部10より逐次入力される発声特徴パタンデータの時系列に対して、映像検索インデクス生成部11に予め登録内蔵されてある各サブワードごとの標準パタンとの類似度を算出し音素類似度表を作成する。
【0119】
この際、各サブワードの標準音声パタンは発声特徴パタンデータと同様に短時間スペクトルデータ等の音素時系列である。そして入力されてくる発声特徴パタンデータに関しても照合区間を一定の時間長に固定しておき、標準音声パタンの音素時系列と発声特徴パタンデータの音素時系列とをDP(ダイナミックプログラミング)照合法等を用いた時系列パタン照合を行う。
【0120】
時系列パタン照合では、すべてのサブワードごとに標準音声パタンに最も類似した発声特徴パタンデータの時系列内での照合区間を求め、照合結果を音素類似度表としてまとめる。尚、音素類似度表は各サブワードの識別(音素記号)とそのサブワードに最も類似した照合区間である発声区間(始端時刻、終端時刻)と類似度とから列を構成する。音素類似度表は標準音声パタンで保持するサブワード個数分の行で構成する。
【0121】
作成された音素類似度表から、類似度の高い順に上位M個(Mは任意の自然数)までを抜き出して前記類似度表を再構成し、時系列を保持したまま映像信号及び音声信号間で同期可能な時間単位分にまとめてパケット化し、パケット毎に音素類似度表データである事を示す識別と時刻情報を付与する事で音素類似度表データの位置から時刻情報を参照して映像信号または音声信号にアクセス可能なインデクス構造パケットを生成し、複合データ記録処理部7に逐次転送する。
【0122】
このようにして作成された音素類似度表データ時系列で構成されたインデクス構造パケットは、複合データ記録処理部7を経由して映像検索用インデクスとして、映像記録媒体9へ所定の記録フォーマットで記録される。
【0123】
このように、ビデオ録画時に音声信号から音素類似度表の時系列で構成された検索用インデクスを生成し、複合データ記録処理部7によりインデクスと映像信号と音声信号とを多重化して映像記録媒体9へ蓄積するようにしたので、後から映像検索インデクスを用いて用意に希望の映像信号及び音声信号にアクセスできる。本実施の形態で作成される検索用インデクスは上述した第1の実施の形態における映像検索インデクスと同じ構造であるので、第1の実施の形態と同様のキーワード検索も可能である。
【0124】
(第5の実施の形態)
第5の実施の形態にかかるビデオ録画装置は、映像信号から人物発声時の視覚特徴パタンデータを抽出し、視覚特徴パタンデータを映像検索用インデクスとして記録する。
【0125】
図10に本実施の形態にかかるビデオ録画装置の構成が示されている。外部から入力されるビデオ録画指示制御信号等は制御信号入力部1で受信される。ビデオ録画制御部2は、受信された制御信号の種別に応じて装置を構成する各ブロックへ録画開始指示信号や停止指示信号を発行する。
【0126】
一方、ビデオ録画開始とともに入力されるアナログ音声信号は音声信号入力部3でデジタル音声信号に変換され、さらにデジタル音声信号が音声信号エンコード部4でMPEG等の圧縮処理を施される。また、ビデオ録画開始とともに入力されるアナログ映像信号は映像信号入力部5でデジタル映像信号に変換され、さらにデジタル映像信号が映像信号エンコード部6でMPEG等の圧縮処理を施される。
【0127】
音声信号入力部3からデジタル音声信号が発声特徴パタン抽出部10へ分配入力される。発声特徴パタン抽出部10は、入力した音声信号から人物の発声音の音響特性データを検出して発声特徴パタンデータを取得する。また、映像信号入力部5からデジタル映像信号が視覚特徴パタン抽出部12へ分配入力される。視覚特徴パタン抽出部12は、入力した映像信号から人物の口唇領域画像を検出し視覚特徴パタンデータを抽出する。映像検索インデクス生成部11は、発声特徴パタン抽出部10から供給される発声特徴パタンデータと視覚特徴パタン抽出部12から供給される視覚特徴パタンデータを各々映像信号と同期した時間周期でパケット化し、時刻情報ならびにパタンデータ種別を添付した映像検索用インデクス構造に成形する。
【0128】
圧縮された映像信号及び音声信号と映像検索インデクスは、ビデオ録画制御部2から指示を受けた複合データ記録処理部7によって重畳されてDVD等の記録フォーマットで映像記録媒体9に記録される。映像記録媒体9は光ディスクまたはHDD(磁気ディスク)またはメモリカードまたは磁気テープ等で構成される。複合データ記録処理部7からの制御指示により映像記録媒体9の記録位置のシーク等の物理的な制御を記録媒体動作制御部8が行う。以上のように構成されたビデオ録画装置はマイクロコンピュータ組み込み機器または専用LSI回路群等で構成することができる。
【0129】
次に、この装置の動作について説明する。
【0130】
制御信号入力部1は、外部のリモートコントロール装置またはキーボード等の入力装置からビデオ録画指示の制御信号を受け付けると、装置内部の信号形式に変換した後にビデオ録画制御部2にビデオ録画指示信号を発行する。ビデオ録画指示信号を受けたビデオ録画制御部2は、装置を構成する各部にビデオ録画開始の指示を行い、装置状態をビデオ録画状態に遷移させる。
【0131】
ビデオ録画開始の指示を受けた音声信号入力部3は、外部のテレビジョン信号チューナー装置またはマイクロフォンまたはVTR装置等から入力される音声信号に対してA/D変換処理を施し量子化を行った後、音声信号エンコード部4及び発声特徴パタン抽出部10へ逐次音声信号の供給をおこなう。音声信号エンコード部4に供給された音声信号はMPEG等の音声信号帯域圧縮処理が施され、複合データ記録処理部7へと逐次転送される。
【0132】
音声信号入力部3から音声信号の分配供給を受けた発声特徴パタン抽出部10では、一定時間単位の音声信号に対してFFT(高速フーリエ変換)処理を行い、人物の発声周波数帯域の音響特性データを抽出し、さらに抽出した周波数帯域内での短時間スペクトルデータまたはスペクトルの対数値や、一定時間単位内の音声信号の対数エネルギー値等の音声認識処理で一般的に用いられる音響特徴量から構成されるN個(Nは任意の自然数)の成分を持つベクトルデータであり、本発明ではこれを発声特徴パタンデータとして用いる。
【0133】
発声特徴パタン抽出部10で抽出された発声特徴パタンデータは逐次映像検索インデクス生成部11に出力される。映像検索インデクス生成部11は、逐次入力されてくる個々の発声特徴パタンデータを、その時系列を保持したまま映像信号及び音声信号間で同期可能な時間単位分にまとめてパケット化し、パケット毎に時刻情報を付与する。これにより、発声特徴パタンデータの位置から時刻情報を参照して映像信号または音声信号にアクセス可能なインデクス構造を生成し、生成したインデクス構造パケットを複合データ記録処理部7に逐次転送する。
【0134】
一方、同じくビデオ録画開始の指示を受けた映像信号入力部は、外部のテレビジョン信号チューナー装置またはカメラまたはVTR装置等から入力される映像信号に対してA/D変換処理を施し量子化を行い所定のデジタル映像信号として、映像信号エンコード部6及び視覚特徴パタン抽出部12に供給する。映像信号エンコード部6に供給されたデジタル映像信号はMPEG等の映像信号帯域圧縮処理が施され、複合データ記録処理部7へと逐次転送される。
【0135】
映像信号入力部5から映像信号の分配供給を受けた視覚特徴パタン抽出部12では、入力される映像信号の画像フレーム毎に予め視覚特徴パタン抽出部12に登録・内蔵してある人物の口唇周辺画像から取り出した口唇特徴標準パタンを用いて、人物の口唇周辺部の検出及び口唇周辺画像の抽出処理を行う。口唇領域の検出と口唇領域画像の抽出には、画像特徴パタンデータとして口唇領域での色空間上の色分布ヒストグラムや、画像空間上の色分布として口唇領域画像をn×m個(n、mは任意の自然数でnはX軸上の分割数をmはY軸上の分割数)の画像ブロックに分割した各々のブロック内の色平均情報または輝度平均情報等の色情報を用い、入力される画像フレーム内の口唇領域の大きさがまちまちである事を考慮して口唇領域画像サイズを変数化して口唇領域の検出および口唇領域画像の抽出を行う。
【0136】
視覚特徴パタン抽出部12は、入力された画像フレームから口唇領域を検出及び抽出できた場合、抽出した口唇領域画像からさらに人物発声時の視覚特徴パタンデータの抽出を行う。
【0137】
視覚特徴パタンデータは口唇の形状を代表する情報を用いる。例えば前記口唇領域画像抽出時に用いた口唇領域画像空間を任意の個数に分割した画像ブロックのおのおのの色平均情報または輝度平均情報から構成される分割した画像ブロック数分成分からなるベクトルデータや、または視覚特徴抽出した口唇領域画像データに対してさらに色フィルター等を用いて口唇部分のみを抽出し、口唇部分の面積重心点から垂直方向の唇外接点2点(上下)と水平方向外接点2点(左右)につきそれぞれ前記重心点からの相対距離を算出した4個の数値成分からなるベクトルデータ等である。
【0138】
発声特徴パタン抽出部10で抽出された発声特徴パタンデータと視覚特徴パタン抽出部12で抽出された視覚特徴パタンデータは、逐次映像検索インデクス生成部11に出力される。映像検索インデクス部11は、各々逐次入力されてくる個々の発声特徴パタンデータと視覚特徴パタンデータについて時系列を保持したまま映像信号及び音声信号間で同期可能な時間単位分にまとめて特徴パタンデータの種別ごとにパケット化し、パケット毎に特徴パタンデータの種別を表わす識別と時刻情報を付与する事で、発声特徴パタンデータ及び視覚特徴パタンデータの位置から時刻情報を参照して映像信号または音声信号にアクセス可能なインデクス構造パケットを生成し複合データ記録処理部7に逐次転送する。
【0139】
ビデオ録画開始の指示を受けた複合データ記録処理部7は、データの記録開始に先立ち、記録媒体動作制御部8に制御信号を発行して、記録媒体9へのデータ記録開始位置の保持を行う。各々信号帯域圧縮処理を施された映像信号ならびに音声信号、及び映像検索用インデクス生成部11にて生成されたインデクス構造パケットデータを受け取った複合データ記録処理部7は、MPEG等の所定のフォーマットで映像信号と音声信号及びインデクス構造パケットデータを多重化処理し、記録媒体動作制御部8への制御信号を発行して映像記録媒体9の所定の位置に多重化したデータをDVD等の記録フォーマットにしたがって記録する。
【0140】
こうした一連の動作は、ビデオ録画開始からビデオ録画時間終了または外部からの映像信号入力の終了または外部からの制御信号によるビデオ録画停止指示、及び装置内各部からのエラー通知をビデオ録画制御部2が検出するまで繰り返され、ビデオ録画制御部2はこれらを検出した際は装置を構成する各部にビデオ録画停止指示を行い、装置を初期状態に遷移させる事で動作を終了する。
【0141】
このように、映像信号から人物発声時の視覚特徴パタンを抽出し、発生特徴パタンデータとともに映像検索用インデクスを作成したので、BGM(バックグラウンドミュージック)や環境ノイズなどにより音声認識精度が低下する場合に、認識精度を補完することができる。
【0142】
(第6の実施の形態)
第6の実施の形態にかかるビデオ再生装置は、第4、第5の実施の形態に記述した方式で記録された映像検索用インデクスを用いて、キーワードによる映像検索ならびに早見を行う。
【0143】
図11に第6の実施の形態にかかるビデオ再生装置の構成が示されている。外部から入力されるビデオ再生指示制御信号等は制御信号入力部1で受信される。ビデオ再生制御部13は、受信された制御信号の種別に応じて装置を構成する各ブロックに対して録画開始指示信号や停止指示信号を発行する。映像記録媒体9に、上述した第4、第5の実施の形態に記述した方式で生成された映像検索用インデクスを含む映像信号及び音声信号がDVD等の所定の記録フォーマットで記録されている。映像記録媒体9として光ディスクまたはHDD(磁気ディスク)またはメモリカードまたは磁気テープ等を用いる事ができる。複合データ読出処理部7は、ビデオ再生制御部13からの指示により映像記録媒体9での記録フォーマットに従いビデオ再生位置を示す時刻位置から映像信号と音声信号を読み出し、さらに映映像検索インデクスを読み出す。このとき、記録媒体動作制御部8は複合データ読出処理部7からの制御指示により読み出しデータが記録された位置へのシーク等の物理的な制御を行う。
【0144】
音声信号デコード部15は複合データ読出処理部14から供給されるMPEG等の信号帯域圧縮処理が施された音声信号の信号帯域を伸張し、音声信号出力部16は信号帯域伸張処理を施された音声信号をD/A変換して外部へ出力する。また、映像信号デコード部17は複合データ読出処理部14から供給されるMPEG等の信号帯域圧縮処理が施された映像信号の信号帯域を伸張し、映像信号出力部18は信号帯域伸張処理を施された映像信号をD/A変換して外部へ出力する。
【0145】
映像検索インデクス形成部21は、複合データ読出処理部14から供給される映像検索用インデクスデータから映像検索用インデクス表の形成を行う。形成されたインデクス表は記憶回路23に一時蓄積される。
【0146】
一方、外部から入力されたキーワードはキーワード入力部19で受け付けられる。キーワードパタン変換部20は入力されたキーワードを音素符号列に変換し、さらにパタン照合で使用するパタンデータに変換する。キーワードパタン照合部22は、キーワードの特徴パタンデータの時系列を、記憶回路23から読み出した映像検索用インデクス表内の特徴パタンデータの時系列とパタン照合する。以上のように構成されたビデオ再生装置はマイクロコンピュータ組み込み機器または専用LSI回路群等で構成される。
【0147】
次に、この装置の動作について説明する。
【0148】
制御信号入力部1は、外部のリモートコントロール装置またはキーボード等の入力装置からビデオ再生指示の制御信号を受け付けると、装置内部の信号形式に変換した後にビデオ再生制御部13にビデオ再生指示信号を発行する。ビデオ再生指示信号を受けたビデオ再生制御部13は、複合データ読出処理部14に対して例えばビデオ信号の先頭を示す時刻情報とともにビデオ再生開始の指示を行う。
【0149】
ビデオ再生開始の指示を受けた複合データ読出処理部14は、映像記録媒体9にDVD等の所定の記録フォーマットで記録されている予めMPEG等の信号帯域圧縮処理を施されている映像信号と音声信号の読み出し位置を指示された時刻情報により決定して、記録媒体動作制御部8に映像信号と音声信号の読み出し位置へのシーク等の制御信号を発行し、映像記録媒体9から映像信号と音声信号とを時間同期を保ちながら読み出す。
【0150】
複合データ読出処理部14により読み出された映像信号は、映像信号デコード部17に供給されMPEG等の信号帯域伸張処理を施され後、映像信号出力部18に供給されD/A変換処理によりNTSCアナログ信号等に変換されて、外部のテレビジョンモニター装置等へ出力される。
【0151】
同じく複合データ読出処理部14により読み出された音声信号は、音声信号デコード部15に供給されMPEG等の信号帯域伸張処理を施され後、音声信号出力部16に供給されD/A変換処理によりアナログ音声信号に変換されて、外部のスピーカ装置等へ出力される。
【0152】
制御信号入力部1が、外部のリモートコントロール装置またはキーボード等の入力装置からビデオ検索指示の制御信号を受け付けると、装置内部の信号形式に変換した後にビデオ再生制御部13にビデオ検索指示を発行する。
【0153】
ビデオ検索指示を受けたビデオ再生制御部13は、キーワード入力部19にキーワード入力を促す制御信号を発行する。
【0154】
キーワード入力部19は、外部のキーボード等の入力装置からキーワードが入力されたら、ビデオ再生制御部13へキーワード入力完了の通知を行い、入力されたキーワード情報をキーワードパタン変換部20へ転送する。
【0155】
キーワード入力完了通知を受けたビデオ再生制御部13は、ビデオ信号内のキーワード検出位置を示す時刻情報を管理用にビデオ再生制御部13内部に持つキーワード検出位置管理表を初期化した後、複合データ読出処理部14へ映像検索用インデクスデータ読み出し指示を発行し、キーワードパタン照合部22へパタン照合開始の指示を発行する。この際、映像記録媒体9がメモリカードやHDDまたは光ディスク等の高いアクセス性が保証される記録媒体を用いている場合は通常のビデオ再生は継続して行われており、映像記録媒体9が磁気テープ等の高いアクセス性が得られない記録媒体を用いている場合は一旦通常のビデオ再生は停止される。
【0156】
キーワード情報を受け取ったキーワードパタン変換部20は、キーワードを音素符号列に変換し、さらに予め内部に登録してある各サブワードの発声特徴パタンデータ時系列からなる標準音声パタンを参照してキーワードの音素符号列をキーワード構成サブワード分の発声特徴パタンデータ時系列に変換し、キーワードパタン照合部22へ転送する。
【0157】
ここで、標準音声パタン及び発声特徴パタンデータ時系列として用いるデータは、上記第4、第5の実施の形態で用いた発声特徴パタンデータと同様に人物の発声周波数帯域内での短時間スペクトルデータまたはスペクトルの対数値や、一定時間単位内の音声信号の対数エネルギー値等の音声認識処理で一般的に用いられる音響特徴量から構成されるN個(Nは任意の自然数)の成分を持つベクトルデータの時系列である。
【0158】
一方、ビデオ再生制御部13からの映像検索用インデクスデータ読み出し指示を受け付けた複合データ読出処理部14は、記録媒体動作制御部8に映像検索用インデクスデータの読み出し位置のシーク及び高速読み出し等の制御信号を発行し、映像記録媒体9に所定の記録フォーマットで記録されている映像検索用インデクスデータを高速に読み出し、読み出された映像検索用インデクスデータは逐次映像検索インデクス形成部21へ転送される。
【0159】
映像検索用インデクスデータは、第4,第5の実施の形態で記述した方式で一定時間単位にパケット化されており、パケット毎にインデクスデータの種別と映像信号及び音声信号に同期した時刻情報が添付された発声特徴パタンデータまたは視覚特徴パタンデータまたは各サブワードごとの時系列パタン照合結果である音素類似度表からなる時系列データである。
【0160】
映像検索インデクス形成部21では、複合データ読出処理部14から転送された映像検索用インデクスデータを前記パケット単位に再形成して形成されたインデクス構造パケットを、インデクスデータ種別ごとに時系列を保ってキーワードの照合対象となるに十分な時間長分のFIFO(ファストイン・ファストアウト)メモリ構造または循環メモリ構造を持つ記憶回路23に書き込む。その後キーワードパタン照合部22によって一時記憶回路23からのインデクス構造パケットが読み捨てらてると、その都度映像検索インデクス形成部21は記憶回路23上の空き記憶領域に新たに転送されて形成されるインデクス構造パケットの補充書き込みを行う。尚、映像検索インデクス形成部21はインデクスデータの最終部分を検出したらキーワードパタン照合部22へのインデクス読み出し終了通知を行う。
【0161】
一方、ビデオ再生制御部13からパタン照合開始指示をうけたキーワードパタン照合部22は、内部の処理及び記憶回路23を初期化した後、キーワードパタン変換部20より転送されてくるキーワードの発声特徴パタンデータ時系列を受け取って、映像検索インデクス形成部21によりパタン照合に十分な時間区間長をもって記憶回路23内に時刻順に並べられたインデクス構造パケット内の発声特徴パタンデータ時系列と、受け取ったキーワードの発声特徴パタンデータの時系列とのパタン照合を行う。
【0162】
このパタン照合では、記憶回路23に時刻順に並べられたインデクス構造パケット内の発声特徴パタンデータ時系列内での一定の時刻区間内で、DP照合法等を用いて照合区間を伸縮しながら、キーワードの発声特徴パタンデータの時系列として形成した場合の各発声特徴パタンデータ間の類似度の和によって一定の類似性が得られた照合区間をキーワードの検出区間とする事となる。
【0163】
パタン照合の際は、DP照合法等の時系列パタン照合を用いて、記憶回路23内の照合を終えたインデクス構造パケットを逐次読み捨て更新しながら照合を繰り返し、照合を繰り返す過程で一定の類似性を得られた場合は、発声特徴パタンデータ時系列の最初の発声特徴パタンデータが存在するインデクス構造パケットに添付された時刻情報を、キーワード検出位置としてその都度ビデオ再生制御部13へ通知する。尚、キーワードパタン照合部22は、映像検索インデクス形成部21からインデクス読み出し終了が通知された場合は、記憶回路23内の残りのインデクス構造パケットの発声特徴パタンデータの照合処理を終えてから、ビデオ再生制御部13へキーワード照合の終了を通知する。
【0164】
ビデオ再生制御部13は、キーワードパタン照合部22より1回目のキーワード検出位置を示す時刻情報を受け取ると一旦内部のキーワード検出位置管理表の先頭に受け取った時刻情報を記録して、受け取った時刻情報からのビデオ再生指示を複合データ読出処理部14に発行し、その後この装置は通常のビデオ再生と同様の処理を経て、キーワードを検出した時刻情報位置からの映像信号及び音声信号を装置外部に出力する。
【0165】
ビデオ再生制御部13は、キーワードパタン照合部22より2回目以降のキーワード検出位置を示す時刻情報を受け取ると、前記キーワード検出位置管理表の先頭から2番目に位置以降に受け取った時刻情報を順次記録して、外部からの次候補再生を示す指示が制御信号入力部1を経由して指示された場合のみ前記キーワード検出時刻管理表から順次時刻情報を取り出して、指定時刻位置からのビデオ再生指示を複合データ読出処理部14に発行し、その後この装置は通常のビデオ再生と同様の処理を経て、キーワードを検出した時刻情報位置からの映像信号及び音声信号を装置外部に出力する。
【0166】
ビデオ再生制御部13は、キーワードパタン照合部22からキーワード照合の終了を通知されても前記キーワード検出位置管理表の内容は維持されており、キーワードパタン照合動作が終了してからも外部からの次候補再生指示を受け取る度に、前記キーワード検出時刻管理表から順次時刻情報を取り出して、指定時刻位置からのビデオ再生指示を複合データ読出処理部14に発行可能であり、前記キーワード検出位置管理表は外部からの次のビデオ検索指示による新たなキーワードが外部から入力される事で初期化される。
【0167】
この装置は、こうした一連の動作を外部からのキーワードによるビデオ検索指示を受け付ける度に繰り返えす事で、ビデオ番組の発声情報へのキーワード照合で映像シーンの特定し、特定した位置からのビデオ再生による早見が可能である。
【0168】
以上の説明ではインデクス構造パケットデータが発声特徴パタンデータの時系列であった。さらに、キーワードパタン照合部22において、入力されたキーワードのサブワード列と前記音素類似度表内での各サブワードごとの類似度を用いたパタン照合を行う方式を採る事もできる。この場合、キーワードパタン変換部20は、キーワード入力部19から転送されてきたキーワードをその音素符号列に変換しキーワードパタン照合部22へ転送する。
【0169】
キーワードパタン照合部22は、ビデオ再生制御部13からパタン照合開始指示をうけると内部の処理及び記憶回路23を初期化した後、キーワードパタン変換部20より転送されてくるキーワードの音素符号列を受け取って、映像検索インデクス形成部21によりパタン照合に十分な時間区間長をもって記憶回路23内に時刻順に並べられたインデクス構造パケット内の音素類似度表データ時系列と、受け取ったキーワードの音素符号列との時系列パタン照合を行う。
【0170】
このパタン照合では、記憶回路23内に時刻順に並べられたインデクス構造パケット内の音素類似度表データ時系列内での一定の時刻区間内で、照合区間をDP照合法で用いられる時間伸縮の手法等によって伸縮しながらキーワードの音素系列として形成した場合のサブワードごとの類似度の和によって一定の類似性得られた照合区間をキーワードの検出区間とする。
【0171】
すなわち、記録映像と同じ時間幅を持っている音素類似度表からパタン照合に十分な区間長のインデクス構造パケット群を取り出し、取り出された各インデクス構造パケットの発声特徴パタンデータ(始端時刻、終端時刻、類似度を持つ)を時刻順に並べる。音素類似度表における1区間には全標準音声パタン(サブワード)に対応した数の発声特徴パタンデータが同一時間軸上に配列されている。そのような発声特徴パタンデータの列が、パタン照合に十分な区間長に存在する区間の数だけ連続して配列される。このような映像検索インデクスの発声特徴パタンデータの時系列と,キーワードを構成しているサブワードの発声特徴パタンデータの時系列とを、DP照合法を用いて照合区間を伸縮しながら照合し、両者の類似度が所定値以上となる照合期間をキーワードの検出区間とする。両者の類似度は、キーワードを構成しているサブワード系列の順に該当するインデクス構造パケットの発声特徴パタンデータを取り出す、その取り出された各発声特徴パタンデータが持つ類似度を加算した値である。
【0172】
キーワード検出区間の最初のサブワードの始端時刻を、キーワード検出位置としてその都度ビデオ再生制御部13へ通知する。
【0173】
こうしたパタン照合方式によれば、パタン照合処理の際に例えば発声特徴パタンデータ時系列のような音響特性成分からなるベクトルデータ間の照合処理を行う必要がない事から、照合処理時間を大幅に削減することが可能である。
【0174】
また、映像検索インデクスを,登録されたキーワードに対応させた固定的した形で持つのではなく,入力音声の音素類似度表といった中間状態の形で保存するので、検索キーワードを予め登録する必要がなく、ユーザが不確定なキーワードを入力した場合にも検索意図を最も良く反映した映像を検索する事ができる。
【0175】
また、キーワードパタン変換部が、入力されるキーワードを視覚特徴パタンデータへの変換を行い、前記キーワードパタン照合部が、予め記録媒体に記録されている映像検索用インデクスとして第5の実施の形態で記述した人物発声時の視覚特徴パタンデータを用い、入力されたキーワードの視覚特徴パタンデータとの照合を行うように構成する事が以下に可能である。
【0176】
この場合、キーワードパタン変換部20は、キーワード入力部19から転送されてきたキーワード情報を音素符号列に変換し、さらに予め内部に登録してある各サブワードの発声特徴パタンデータ時系列からなる音素標準パタン、及び各発声サブワードの視覚特徴パタンデータからなる視覚特徴標準パタンを参照してキーワードの音素符号列をキーワード構成サブワード分の発声特徴パタンデータ時系列と視覚特徴パタンデータ時系列に変換して、キーワードパタン照合部22へ転送する。
【0177】
ビデオ再生制御部13からパタン照合開始指示をうけたキーワードパタン照合部22は、内部の処理及び記憶回路23を初期化した後、キーワードパタン変換部20より転送されてくる前記キーワードの発声特徴パタンデータ時系列と視覚特徴パタンデータ時系列を受け取って、映像検索インデクス形成部21により記憶回路23内に発声特徴パタンデータで構成されるインデクス構造パケットと視覚特徴パタンデータで構成されるインデクス構造パケット別に時刻順に並べられたインデクス構造パケット内のデータ時系列とのパタン照合を、それぞれのデータ種別ごとに行う。
【0178】
各々のパタン照合では、記憶回路23内に時刻順に並べられたインデクス構造パケット内のそれぞれの特徴パタンデータ時系列内での一定の時刻区間内で、DP照合法等を用いて照合区間を伸縮しながらキーワードのそれぞれの特徴パタンデータ時系列とのパタン照合を行いデータ種別ごとに各サブワードの特徴パタンデータ間の類似度の和を求めキーワード類似度とする。
【0179】
このようにして求められた発声特徴パタンデータ時系列照合でのキーワード類似度と、視覚特徴パタンデータ時系列照合でのキーワード類似度の和から一定の類似性得られた照合区間をキーワードの検出区間とし、検出した区間の発声特徴パタンデータ時系列の最初の発声特徴パタンデータが存在するインデクス構造パケットに添付された時刻情報を、キーワード検出位置としてその都度ビデオ再生制御部13へ通知する。
【0180】
このように音声からの発声特徴パタンデータと、映像からの視覚特徴パタンデータを併用したパタン照合をする事により、例えば録画したビデオ番組等でBGM(バックグラウンドミュージック)や騒音などによってインデクス構造デパケット内発声特徴パタンデータを構成する音響特性データの精度が下がっている場合でも、視覚特徴パタンデータを利用する事でキーワードの検出精度の大幅な低下を防ぐ事が可能である。
【0181】
また、キーワード入力部が音声入力用マイクロフォンを備え、キーワードパタン変換部が入力されたキーワードの音声信号からキーワードの発声特徴パタンデータへの変換を行うように構成する事が以下に可能である。
【0182】
キーワード入力部19は、外部のマイクロフォン等の音声入力装置からキーワードが入力されたら、ビデオ再生制御部13へキーワード入力完了の通知を行い、入力されたキーワード音声信号にA/D変換処理を施してキーワードパタン変換部20へ供給する。
【0183】
キーワードパタン変換部20は、入力されたキーワード音声信号に対し、一定時間単位でFFT(高速フーリエ変換)処理を行い、人物の発声周波数帯域の音響特性データを抽出し、さらに抽出した周波数帯域内での短時間スペクトルデータまたはスペクトルの対数値や、一定時間単位内の音声信号の対数エネルギー値等の音声認識処理で一般的に用いられる音響特徴量から構成されるN個(Nは任意の自然数)の成分を持つベクトルデータからなる発声特徴パタンデータ時系列を生成し、キーワードパタン照合部22へ転送する。
【0184】
このように、マイクロフォン等を用いた音声によるキーワードの入力と、入力された音声信号からキーワード照合に必要なキーワードの発声特徴パタンデータ時系列を生成する事が可能となる。
【0185】
また、キーワード入力部がマイクロフォンと動画像入力用カメラ装置とを備え、前記キーワードパタン変換部が利用者のキーワード発声時に入力される映像信号に対して予め登録されてある発声音ごとの口唇画像特徴パタンとの照合を行い、キーワード発声時の映像信号からキーワードの視覚特徴パタンデータへの変換を行うように構成する事が以下に可能である。
【0186】
この場合、キーワード入力部19は、外部のマイクロフォン等の音声入力装置及びビデオカメラ装置とからキーワード情報が入力されたら、ビデオ再生制御部13へキーワード入力完了の通知を行い、入力されたキーワード音声信号及びキーワード発声時の人物の顔を捉えた映像信号にA/D変換処理を施してキーワードパタン変換部20へ供給する。
【0187】
キーワードパタン変換部20は、入力されたキーワード音声信号からは、音声認識処理で一般的に用いられる音響特徴量から構成されるN個(Nは任意の自然数)の成分を持つベクトルデータからなる発声特徴パタンデータ時系列を生成し、同じく入力されたキーワード映像信号の画像フレーム毎に予め登録してある人物の口唇周辺画像から取り出した口唇特徴標準パタンを用いて、人物の口唇周辺部の検出及び口唇周辺画像の抽出処理を行い、抽出した口唇領域画像からさらに口唇の形状を代表する情報からなる人物発声時の視覚特徴パタンデータを抽出し、キーワード発声時間分の視覚特徴パタンデータ時系列生成し、それぞれキーワードパタン照合部22へ転送する。
【0188】
視覚特徴パタンデータは、例えば前記口唇領域画像抽出時に用いた口唇領域画像空間を任意の個数に分割した画像ブロックのおのおのの色平均情報または輝度平均情報から構成される分割した画像ブロック数分の成分からなるベクトルデータや、または視覚特徴抽出した口唇領域画像データに対してさらに色フィルター等を用いて口唇部分のみを抽出し、口唇部分の面積重心点から垂直方向の唇外接点2点(上下)と水平方向外接点2点(左右)につきそれぞれ前記重心点からの相対距離を算出した4個の数値成分からなるベクトルデータ等である。
【0189】
このように、マイクロフォン及びビデオカメラ装置を用いた映像・音声によるキーワードの入力と、入力された音声信号からはキーワードの発声特徴パタンデータ時系列を、映像信号からはキーワードの視覚特徴パタンデータ時系列を生成する事が可能となる。
【0190】
また、本発明のシーン検索システムは音声だけのシーン検索に適用することができる。上述した方式にしたがって映像信号と音声信号と映像検索インデクス、又は音声信号と音声映像検索インデクスとを記録媒体に蓄積する。音声映像検索インデクスは上記映像検索インデクスと同じ構造のものを用いる事ができる。キーワード検出区間の先頭サブワードの始端時刻に対応する位置から音声信号の取り出しを開始すればよい。
【0191】
【発明の効果】
以上詳記したように本発明によれば、映像及び又は音声の検索においてユーザが希望するシーンを、あらかじめ辞書などに登録された単語やキーワード以外の未知語や、ユーザが入力した不確かなキーワードであっても、正確かつ高速に検索できる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態にかかるシーン検索システムの機能ブロック図
【図2】標準音声パタンのデータ構成図
【図3】音素類似度表を示す図
【図4】音素類似度表からキーワードの音素系列に相当するサブワードをピックアップした状態を示す図
【図5】ピックアップしたサブワードをキーワードの音素系列の順に配列した状態を示す図
【図6】本発明の第2の実施の形態にかかるシーン検索システムの機能ブロック図
【図7】(1) 映像信号、音声信号及び映像検索インデクスを多重化したMPEGストリームの構成図
(2) 映像ストリームの構成図
(3) GOPの構成図
(4) 検索データストリームの構成図
【図8】本発明の第3の実施の形態にかかるシーン検索システムの機能ブロック図
【図9】本発明の第4の実施の形態にかかるビデオ録画装置の機能ブロック図
【図10】本発明の第5の実施の形態にかかるビデオ録画装置の機能ブロック図
【図11】本発明の第6の実施の形態にかかるビデオ再生装置の機能ブロック図
【図12】既存の映像検索システムの機能ブロック図
【符号の説明】
1 制御信号入力部
2 ビデオ録画制御部
3 音声信号入力部
4 音声信号エンコード部
5 映像信号入力部
6 映像信号エンコード部
7 複合データ記録処理部
8 記録媒体動作制御部
9 映像記録媒体
10 発声特徴パタン抽出部
11 映像検索インデクス生成部
12 視覚特徴パタン抽出部
13 ビデオ再生制御部
14 複合データ読出処理部
15 音声信号デコード部
16 音声信号出力部
17 映像信号デコード部
18 映像信号出力部
19 キーワード入力部
20 キーワードパタン変換部
21 映像検索インデクス形成部
22 キーワードパタン照合部
23 記憶回路
100 検索データ生成部
103 音声特徴パタン抽出部
104 映像検索インデクス生成部
105 標準音声特徴パタン格納部
200 検索処理部
201 記録部
203 キーワード入力部
205 キーワードパタン照合部

Claims (22)

  1. 映像信号に同期した音声信号から特徴パタンを抽出する抽出手段と、前記音声信号に対して処理対象となる音声区間を設定し、音素の標準音声パタンを複数音素分用意しておき、各音声区間において標準音声パタンと前記抽出特徴パタンとが類似した類似区間を各音素について検出し、検出した類似区間に関する時刻情報が含まれたインデクスを各音素について生成するインデクス生成手段と、映像信号、音声信号及びインデクスを多重化してデータストリーム形式で出力する多重化手段と、を具備した映像検索データ生成装置。
  2. 前記多重化手段から出力されるデータストリームを、記録メディアに記録することを特徴とする請求項1記載の映像検索データ生成装置。
  3. 前記多重化手段は、映像信号、音声信号及びインデクスをMPEGフォーマットで多重化することを特徴とする請求項1又は請求項2に記載の映像検索データ生成装置。
  4. 前記インデクスは、音素の種類、検出類似区間の時刻情報及び標準音声パタンと特徴パタンとの類似度を示すスコアの組であることを特徴とする請求項1から請求項3のいずれかに記載の映像検索データ生成装置。
  5. 映像信号に同期した音声信号から特徴パタンを抽出する抽出工程と、前記音声信号に対して処理対象となる音声区間を設定し、音素の標準音声パタンを複数音素分用意しておき、各音声区間において標準音声パタンと前記抽出特徴パタンとが類似した類似区間を各音素について検出し、検出した類似区間に関する時刻情報が含まれたインデクスを各音素について生成するインデクス生成工程と、映像信号、音声信号及びインデクスを多重化してデータストリーム形式で出力する多重化工程と、を具備した映像検索データ生成方法。
  6. 前記多重化工程によって得られるデータストリームを、記録メディアに記録する工程を具備することを特徴とする請求項5記載の映像検索データ生成方法。
  7. 前記インデクスは、音素の種類、検出類似区間の時刻情報及び標準音声パタンと特徴パタンとの類似度を示すスコアの組であることを特徴とする請求項5又は請求項6に記載の映像検索データ生成方法。
  8. 映像信号と当該映像信号に同期した音声信号と当該音声信号から音素単位で生成されたインデクスとが多重されたデータストリームであって、前記各インデクスは、前記音声信号に対して処理対象となる音声区間を設定し、各音声区間において音素の標準音声パタンと当該音声信号から抽出した特徴パタンとが類似した類似区間を各音素について検出し、検出した類似区間に関する時刻情報を含ませたものである、データストリームが記憶された記憶部と、前記記憶部から少なくともインデクスを分離して読み出す読出手段と、読み出したインデクスを時系列に並べた時系列データと入力キーワードの音素系列とを照合し、当該入力キーワードと類似する区間に属するインデクスに含まれた時間情報を使用して映像を検索する検索手段と、を具備する映像検索装置。
  9. 前記検索手段は、分離されたインデクスの中から入力キーワードに対応したインデクスをピックアップし、当該インデクスの組合せから時間情報を求める照合手段と、この求めた時間情報を使用して前記入力キーワードに対応した映像を検索する制御手段と、を有することを特徴とする請求項8記載の映像検索装置。
  10. 前記照合手段は、入力キーワードを音素系列に変換し、音素系列の順序に従ってインデクスをピックアップし、音素毎の類似度を加算(累積)することで、入力キーワードに対する類似度を求め、求めた類似度の高い区間の時間情報を取得することを特徴とする請求項9記載の映像検索装置。
  11. 前記インデクスは、映像信号、音声信号と一緒にMPEGフォーマットで多重化していることを特徴とする請求項8から請求項10のいずれかに記載の映像検索装置。
  12. 映像信号と当該映像信号に同期した音声信号と当該音声信号から音素単位で生成されたインデクスとが多重されたデータストリームであって、前記インデク スは、前記音声信号に対して処理対象となる音声区間を設定し、各音声区間において音素の標準音声パタンと当該音声信号から抽出した特徴パタンとが類似した類似区間を各音素について検出し、検出した類似区間に関する時刻情報を含ませたものである、データストリームが記憶された記憶部から少なくともインデクスを分離して読み出す読出工程と、読み出したインデクスを時系列に並べた時系列データと入力キーワードの音素系列データとを照合し、当該入力キーワードと類似する区間に属するインデクスに含まれた時間情報を使用して映像を検索する検索工程と、を具備した映像検索方法。
  13. 前記検索工程は、分離して読み出されたインデクスの中から入力キーワードに対応したインデクスをピックアップし、当該インデクスの組合せから時間情報を求める照合工程と、この求めた時間情報を使用して前記入力キーワードに対応した映像を検索する工程と、を有することを特徴とする請求項12記載の映像検索方法。
  14. 前記照合工程は、入力キーワードを音素系列に変換し、音素系列の順序に従ってインデクスをピックアップし、音素毎の類似度を加算(累積)することで、入力キーワードに対する類似度を求め、求めた類似度の高い区間の時間情報を取得することを特徴とする請求項13記載の映像検索方法。
  15. ビデオ録画時に映像信号に同期して入力する音声信号から特徴パタンを抽出する抽出手段と、前記音声信号に対して処理対象となる音声区間を設定し、音素の標準音声パタンを複数音素分用意しておき、各音声区間において標準音声パタンと前記抽出特徴パタンとが類似した類似区間を各音素について検出し、検出した類似区間に関する時刻情報が含まれたインデクスを各音素について生成するインデクス生成手段と、入力映像信号、入力音声信号及びインデクスを多重化してデータストリーム形式で出力する多重化手段と、この多重化手段から出力されるデータストリームが記録される映像記録媒体と、を具備したビデオ録画装置。
  16. ビデオ録画時に映像信号に同期して入力する音声信号から特徴パタンを抽出する抽出手段と、音素の標準音声パタンを複数音素分用意しておき、前記抽出特徴パタンと前記各標準音声パタンとを照合し、その照合結果から標準音声パタンと類似した区間の時間情報を含んだ音素類似度表を生成し、生成した音素類似度表について時系列を維持したまま映像信号、音声信号間で同期可能な時間単位でパケット化したインデクスを生成するインデクス生成手段と、入力映像信号、入力音声信号及びインデクスを多重化してデータストリーム形式で出力する多重化手段と、この多重化手段から出力されるデータストリームが記録される映像記録媒体と、を具備したビデオ録画装置。
  17. 前記多重化手段は、入力映像信号、入力音声信号及びインデクスをMPEGフォームで多重化することを特徴とする請求項15又は請求項16記載のビデオ録画装置。
  18. 前記データストリームは前記映像記録媒体の記録フォーマットにしたがって当該映像記録媒体に記録されることを特徴とする請求項15から請求項17のいずれかに記載のビデオ録画装置。
  19. 映像信号と当該映像信号に同期した音声信号と当該音声信号から音素単位で生成されたインデクスとが多重されたデータストリームであって、前記各インデクスは、各インデクスに対応した音素の標準音声パタンと類似した類似区間の前記音声信号内での位置を示す時刻情報が含まれている、データストリームが記録された映像記録媒体と、ビデオ再生時に前記映像記録媒体から映像信号と音声信号とを同期を保ちながら読み出し、映像検索指示が与えられると前記映像記録媒体に記録されたデータストリームからインデクスを分離して読み出す読出処理手段と、入力キーワードを音素単位の時系列データに変換するキーワード変換手段と、入力キーワードの時系列データと前記インデクスとを照合して両者が類似する区間の時刻情報を求めるキーワードパタン照合手段と、この求めた時刻情報で特定された位置を読み出し開始位置として映像信号及び音声信号を読み出すように前記読出処理手段に対して指示する制御手段と、を具備したビデオ再生装置。
  20. 映像信号と当該映像信号に同期した音声信号と当該音声信号から生成されたインデクスとが多重されたデータストリームであって、前記各インデクスは、音 素の標準音声パタンを複数音素分用意しておき、前記音声信号から抽出された特徴パタンと前記各標準音声パタンとを照合し、その照合結果から標準音声パタンと類似した区間の時間情報を含んだ音素類似度表を生成し、生成した音素類似度表について時系列を維持したまま映像信号、音声信号間で同期可能な時間単位でパケット化したインデクスである、データストリームが記録された映像記録媒体と、ビデオ再生時に前記映像記録媒体から映像信号と音声信号とを同期を保ちながら読み出し、映像検索指示が与えられると前記映像記録媒体に記録されたデータストリームからインデクスを分離して読み出す読出処理手段と、入力キーワードを特徴パタンの時系列データに変換するキーワード変換手段と、入力キーワードの時系列データと前記インデクス内の音素類似度表から生成される標準音声パタンの時系列データとを照合し、入力キーワードと類似した区間の音素類似度表に含まれた時間情報から前記音声信号に同期した時刻情報を取得するキーワードパタン照合手段と、この求めた時刻情報で特定された位置を読み出し開始位置として映像信号及び音声信号を読み出すように前記読出処理手段に対して指示する制御手段と、を具備するビデオ再生装置。
  21. 映像信号と当該映像信号に同期した音声信号と当該音声信号から音素単位で生成されたインデクスとが多重されたデータストリームを映像記録媒体に記録しておき、前記各インデクスは、各インデクスに対応した音素の標準音声パタンと類似した特徴パタンの前記音声信号内での位置を示す時刻情報が含まれ、ビデオ再生時に前記映像記録媒体から映像信号と音声信号とを同期を保ちながら読み出し、映像検索指示が与えられると前記映像記録媒体に記録されたデータストリームからインデクスを分離して読み出し、入力キーワードを音素単位の時系列データに変換し、入力キーワードの時系列データと前記インデクスとを照合して両者が類似する類似区間の時刻情報を当該インデクス内の時刻情報から求め、この求めた時刻情報で特定された位置を読み出し開始位置として映像信号及び音声信号を読み出すことを特徴とするビデオ再生方法。
  22. 映像信号と当該映像信号に同期した音声信号と当該音声信号から生成されたインデクスとが多重されたデータストリームであって、前記各インデクスは、音素の標準音声パタンを複数音素分用意しておき、前記抽出特徴パタンと前記各標準音声パタンとを照合し、その照合結果から標準音声パタンと類似した区間の時間情報を含んだ音素類似度表を生成し、生成した音素類似度表について時系列を維持したまま映像信号、音声信号間で同期可能な時間単位でパケット化したインデクスである、データストリームを映像記録媒体に記録しておき、ビデオ再生時に前記映像記録媒体から映像信号と音声信号とを同期を保ちながら読み出し、映像検索指示が与えられると前記映像記録媒体に記録されたデータストリームからインデクスを分離して読み出し、入力キーワードを特徴パタンの時系列データに変換し、入力キーワードの時系列データと前記インデクス内の音素類似度表から生成される標準音声パタンの時系列データとを照合し、入力キーワードと類似した区間の音素類似度表に含まれた時間情報から前記音声信号に同期した時刻情報を取得し、この求めた時刻情報で特定された位置を読み出し開始位置として映像信号及び音声信号を読み出すことを特徴とするビデオ再生方法。
JP2001294792A 1998-12-17 2001-09-26 映像検索データ生成装置および映像検索データ生成方法並びに映像検索装置および映像検索方法 Expired - Lifetime JP3607228B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001294792A JP3607228B2 (ja) 1998-12-17 2001-09-26 映像検索データ生成装置および映像検索データ生成方法並びに映像検索装置および映像検索方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP10-359414 1998-12-17
JP35941498 1998-12-17
JP2001294792A JP3607228B2 (ja) 1998-12-17 2001-09-26 映像検索データ生成装置および映像検索データ生成方法並びに映像検索装置および映像検索方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP35281999A Division JP3252282B2 (ja) 1998-12-17 1999-12-13 シーンを検索する方法及びその装置

Publications (2)

Publication Number Publication Date
JP2002175304A JP2002175304A (ja) 2002-06-21
JP3607228B2 true JP3607228B2 (ja) 2005-01-05

Family

ID=26580963

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001294792A Expired - Lifetime JP3607228B2 (ja) 1998-12-17 2001-09-26 映像検索データ生成装置および映像検索データ生成方法並びに映像検索装置および映像検索方法

Country Status (1)

Country Link
JP (1) JP3607228B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007043679A1 (ja) * 2005-10-14 2007-04-19 Sharp Kabushiki Kaisha 情報処理装置およびプログラム
KR100721409B1 (ko) * 2005-12-20 2007-05-23 엔에이치엔(주) 동영상 장면 검색 방법 및 이를 이용한 장면 검색 시스템
KR101009973B1 (ko) * 2010-04-07 2011-01-21 김덕훈 미디어 컨텐츠 제공 방법, 그리고 그를 위한 장치
WO2020237480A1 (zh) * 2019-05-27 2020-12-03 西门子股份公司 基于图像识别的控制方法与装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0233200A (ja) * 1988-07-22 1990-02-02 Mitsubishi Electric Corp データベース検索方式
JPH05152986A (ja) * 1991-11-29 1993-06-18 Sony Corp 通信データ記録装置
JPH0668168A (ja) * 1992-08-17 1994-03-11 Nippon Telegr & Teleph Corp <Ntt> 音響キーワードによる映像検索方法および装置
JPH06110945A (ja) * 1992-09-29 1994-04-22 Fujitsu Ltd 音楽データベース作成装置及びその検索装置
JPH09247612A (ja) * 1996-03-12 1997-09-19 Hitachi Ltd 画像信号のハンドリング方法
JPH10173769A (ja) * 1996-12-13 1998-06-26 Matsushita Electric Ind Co Ltd 音声メッセージ検索装置

Also Published As

Publication number Publication date
JP2002175304A (ja) 2002-06-21

Similar Documents

Publication Publication Date Title
JP3252282B2 (ja) シーンを検索する方法及びその装置
JP4175390B2 (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP4491700B2 (ja) 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置
KR100782286B1 (ko) 정보의 검색 처리 방법, 검색 처리 장치, 저장 방법 및저장 장치
JP2002251197A (ja) オーディオビジュアルサマリ作成方法
JP2008166914A (ja) コンテンツのデータ・ストリームとメタデータを同期するための方法および装置。
JP4937218B2 (ja) メタデータ編集装置及びメタデータ生成方法
WO2004002144A1 (ja) メタデータ作成装置、その作成方法および検索装置
WO1999036863A2 (en) System and method for selective retrieval of a video sequence
JP2010161722A (ja) データ処理装置、データ処理方法、及び、プログラム
JP5296598B2 (ja) 音声情報抽出装置
JP5050445B2 (ja) 動画再生装置及び動画再生方法
WO2007132569A1 (ja) 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
JP4192703B2 (ja) コンテンツ処理装置、コンテンツ処理方法及びプログラム
WO2023040520A1 (zh) 视频配乐方法、装置、计算机设备和存储介质
JP3607228B2 (ja) 映像検索データ生成装置および映像検索データ生成方法並びに映像検索装置および映像検索方法
JP2868981B2 (ja) 圧縮信号生成装置及び方法及び再生装置及び方法
JP2822940B2 (ja) 動画像音声データ編集装置
JP4053251B2 (ja) 画像検索システムおよび画像蓄積方法
KR101709053B1 (ko) 음원의 음성 정보와 자막을 음절 단위로 동기화하기 위한 자막 파일 구조 및 자막 재생 장치
JPH05130557A (ja) マルチメデイアデータの編集方法
JP2000092435A (ja) 信号特徴抽出方法及びその装置、音声認識方法及びその装置、動画編集方法及びその装置
JP3985656B2 (ja) 映像索引付加方法及びプログラム及びコンピュータ読み取り可能な記録媒体
JP4662228B2 (ja) マルチメディア記録装置および発言録作成装置
JP2019149790A (ja) 記録装置、再生装置、変換装置、送信装置、記録方法、再生方法、変換方法、及び、ストリームデータのデータ構造

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041006

R150 Certificate of patent or registration of utility model

Ref document number: 3607228

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071015

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081015

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091015

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091015

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101015

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111015

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121015

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131015

Year of fee payment: 9

EXPY Cancellation because of completion of term