JP3252282B2

JP3252282B2 - シーンを検索する方法及びその装置

Info

Publication number: JP3252282B2
Application number: JP35281999A
Authority: JP
Inventors: 浩志古山; 仁八塩; 郁夫井上; 充遠藤; 昌克星見
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1998-12-17
Filing date: 1999-12-13
Publication date: 2002-02-04
Anticipated expiration: 2019-12-13
Also published as: US20030200091A1; EP1357542A2; DE69924765D1; EP1357542B1; US6728673B2; EP1058453B1; WO2000036833A1; EP1357542A3; DE69915455D1; DE69924765T2; EP1058453A1; US6611803B1; EP1058453A4; JP2000236494A; DE69915455T2

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、キーワードを用い
て所望のシーン（映像及び又は音声）を検索するこので
きる方法及びその装置に関する。

【０００２】

【従来の技術】近年、テレビジョン放送の多チャンネル
化やインターネットに代表されるコンピュータネットワ
ークの急速な普及に伴い膨大な映像が家庭を含めた社会
に流通している。一方、記録メディア容量の増大に伴
い、家庭において大量の映像信号の蓄積が可能になって
いる。そこで、このような大量の映像信号の中からユー
ザが希望する映像シーンを簡単に且つ高い精度で取り出
すための技術が必要になる。

【０００３】これまでは、映像信号の変化から映像信号
の変わり目を検出してその部分の映像シーンを表示する
方式や、画像認識技術を用いて特定のオブジェクトで構
成される特定シーンを検出して表示する方式などの検索
システムが考えられている。しかしながら、これらの検
索システムは、検索された映像シーンが必ずしもユーザ
の検索意図をよく反映したシーンとは限らないといった
問題がある。

【０００４】また、字幕情報や，米国のテレビジョン放
送で採用されているクローズドキャプション情報を，映
像中から文字認識によって読取り、特定シーンを検出す
る検索システムがある。しかし、この検索システムは、
字幕情報やクローズドキャプションを良く反映したシー
ンでは検索意図を良く反映したシーンが得られるもの
の、こうした情報は、人手を介して付加されることから
一部の放送番組に限られているために、広く一般の映像
に適用することは困難である。

【０００５】ところで、映像に付随している音声情報を
キーワードとして用いることができれば、検索意図を良
く反映した検索システムの実現が期待される。特開平６
−６８１６８号公報には、音声キーワードを用いて所望
のシーンを検索する映像検索システムが開示されてい
る。

【０００６】図１２に、上記特開平６−６８１６８号公
報に開示された検索システムの機能ブロックが示されて
いる。音声信号及び映像信号が音声映像入力部２０１に
て受信され、受信された音声信号は音声信号記録部２０
２へ蓄積され、受信された映像信号は映像信号記録部２
０３に蓄積される。音声信号は音声分析部２０４におい
て分析され、音声の特徴を表わした特徴パラメータの時
系列データが生成される。生成された特徴パラメータの
時系列は音声特徴記憶部２０５へ格納される。

【０００７】一方、ユーザが後からシーン検索に使用す
るためのキーワードが、音声の形式でキーワード特徴分
析部２０６に与えられる。キーワード特徴分析部２０６
は、キーワードとしての音声を分析して、音声キーワー
ドの特徴を表わした特徴パラメータの時系列データを生
成する。生成した特徴パラメータの時系列データはキー
ワード特徴パラメータ記憶部２０７に格納される。

【０００８】キーワード区間抽出部２０８は、記憶部２
０２に蓄積されている音声信号の特徴パラメータの時系
列データと、キーワード音声の特徴パラメータの時系列
データとを比較して、音声信号中のキーワード区間を抽
出する。インデックス付与部２０９は、抽出されたキー
ワード区間とその音声信号に対応する映像信号のフレー
ム番号とを対応付けるインデックス位置データ２１０を
作成する。

【０００９】検索時にインデックス位置データ２１０を
使用して検索すれば、音声信号からキーワードが出現す
る映像信号のフレーム番号を指定することが出来、映像
音声出力部２１１から該当する映像と音声を出力でき、
ユーザが所望とする映像、音声を提示することができ
る。

【００１０】

【発明が解決しようとする課題】しかしながら、予め検
索に使用すべき音声キーワードを登録しなければなら
ず、それ以外のキーワードを使用して検索することがで
きないといった問題がある。特に、ユーザが不確かなキ
ーワードを入力した場合には、検索エラーとなってしま
って検索意図を反映したシーンを検索できなかった。

【００１１】本発明は、以上のような実情に鑑みてなさ
れたものであり、映像及び又は音声の検索においてユー
ザが希望するシーンを、あらかじめ辞書などに登録され
た単語やキーワード以外の未知語や、ユーザが入力した
不確かなキーワードであっても、正確かつ高速に検索で
きる装置及び方法を提供することを目的とする。

【００１２】

【課題を解決するための手段】本発明は、検索データの
生成と検索処理とに一連の音声認識処理手順を分割して
適用することにより、ユーザが希望する映像・音声シー
ンを高速に検索でき、高速に再生できるシーン検索シス
テムである。

【００１３】また、検索データ作成時には、映像信号に
同期した音声信号から特徴パタンを抽出し、サブワード
を単位とした標準音声パタンを用いて類似度を計算し、
時間同期情報を含んだサブワード単位のインデックスを
生成する一方、検索処理時には入力されるキーワードに
対する時間情報を前記インデックスの組合せから導出
し、所望とする映像を検索するようにした。

【００１４】これにより、単語辞書又は予め登録した検
索キーワードとの照合が無くなるため、未登録の単語キ
ーワードに対応できないいわゆる未知語の問題が解決さ
れる。また、ユーザが不確かなキーワードを入力しても
最も確からしい映像・音声シーンを検索する事ができ
る。

【００１５】また、検索インデックスであるサブ゛ワー
ドのスコアの時系列データを、映像信号、音声信号と共
にデータストリームに多重化するので、放送網やインタ
ーネットなどの通信網を介した検索インデックスの流通
も可能になる。

【００１６】サブワードとは、単語よりも小さい音響モ
デルの基本単位をいい、音素や子音−母音、母音−子音
−母音等の音節、半音節（Demisyllable）などが挙げら
れる。各単語はサブワードの系列として表わされる。

【００１７】

【発明の実施の形態】本発明の第１の態様は、映像信号
に同期した音声信号から特徴パタンを抽出して映像検索
のためのインデックスを生成する検索データ生成部と、
検索者から入力されるキーワードと前記インデックスと
を照合して所望とする映像を検索する検索処理部とを具
備する映像検索装置である。

【００１８】このように、検索データの生成と検索処理
とに一連の音声認識処理手順を分割して適用することに
より、ユーザが希望する映像・音声シーンを高速に検索
でき、高速に再生できる。

【００１９】本発明の第２の態様は、第１の態様の映像
検索装置において、前記検索データ生成部は、入力され
た音声信号から音声特徴量を抽出する音声特徴パタン抽
出部と、抽出された音声特徴量と予め登録された標準音
声パタンとの間の類似度を算出する計算部と、計算され
た類似度及び対応する映像信号又は音声信号との時間同
期情報を含んだインデックスを生成するインデックス生
成部とを備える。

【００２０】このように、音声特徴量と標準音声パタン
との間の類似度を計算して、計算された類似度及び対応
する映像信号又は音声信号との時間同期情報を含んだイ
ンデックスを生成するので、後で入力されるキーワード
を標準音声パタンに変換することにより、インデックス
の中からキーワードに類似したインデックスを探す事が
できる。

【００２１】本発明の第３の態様は、第２の態様の映像
検索装置において、前記音声特徴パタン抽出部は、入力
された音声信号からサブワードに相当する区間から前記
音声特徴量を抽出し、前記計算部は、サブワードを単位
とした標準音声パタンを用いて類似度を計算する。

【００２２】これにより、後で入力されるキーワードを
サブワードに変換することにより、インデックスの中か
らキーワードに類似したインデックスを探す事ができ
る。

【００２３】本発明の第４の態様は、第１の態様の映像
検索装置において、前記検索処理部は、検索者から入力
されるキーワードを音声特徴量の時系列パタンに変換す
るキーワード変換部と、変換されたキーワードを音声特
徴量の時系列パタンと前記インデックスとを照合してキ
ーワードと類似度の高い区間を検出するキーワードパタ
ン照合部とを備える。

【００２４】このように、入力されるキーワードを音声
特徴量の時系列パタンに変換し、変換されたキーワード
を音声特徴量の時系列パタンとインデックスとを照合し
てキーワードと類似度の高い区間を検出することによ
り、検索意図を反映したシーンを検索できる。

【００２５】本発明の第５の態様は、第４の態様の映像
検索装置において、前記キーワードパタン照合部は、前
記音声信号の検索対象期間に亘って作成されたインデッ
クスで構成される音素類似度表の中から前記入力キーワ
ードに含まれるサブワードに対応したインデックスだけ
を抽出し、抽出したインデクスを時系列データに変換し
てキーワードを復元し、復元されたキーワード毎に類似
度を加算する。

【００２６】このように、音素類似度表の中から入力キ
ーワードに含まれるサブワードに対応したインデックス
だけを抽出し、抽出したインデクスを時系列データに変
換してキーワードを復元するので、あらかじめ辞書など
に登録された単語やキーワード以外の未知語や、ユーザ
が入力した不確かなキーワードであっても、正確かつ高
速に検索できる。

【００２７】本発明の第６の態様は、第１の態様の映像
検索装置において、前記検索データ生成部から前記検索
処理部に対して伝送媒体を介して前記映像信号、音声信
号及びインデックスが伝達される。

【００２８】これにより、検索データ生成部と検索処理
部とを物理的に離れた場所に配置して運用する事ができ
る。

【００２９】本発明の第７の態様は、第６の態様の映像
検索装置において、前記伝送媒体は、放送網、通信網又
は記録媒体のいずれかである。

【００３０】これにより、放送局や情報提供者等の情報
発信元でインデックスを生成し、映像信号又は音声信号
等の情報と共に送信できる。

【００３１】本発明の第８の態様は、第６の態様の映像
検索装置において、前記検索データ生成部は、映像信
号、音声信号及びインデックスを多重化してデータスト
リームの形式で出力する多重化部を備え、前記検索処理
部は、多重化されたデータストリームを映像信号、音声
信号及びインデックスに分離する多重分離部を備える。

【００３２】これにより、映像信号、音声信号及びイン
デックスを多重化してデータストリームの形式で出力す
ることができるので、既存のデータ形式で容易に配信す
る事ができる。また、多重化されたデータストリームを
映像信号、音声信号及びインデックスに分離することが
できるので、検索者側に既存のデータ形式で配信された
情報から容易に検索をかけることもできる。

【００３３】本発明の第９の態様は、第８の態様の映像
検索装置において、前記多重化部は、前記インデックス
をユニットに分割する単位を、対応する映像信号のＧＯ
Ｐ（Group of Pictures）単位と一致させる。

【００３４】これにより、検索処理時には入力したキー
ワードに該当する検索インデックスと対応するＧＯＰに
アクセスすることにより、容易に所望の映像シーンを再
生開始することができるものとなる。

【００３５】本発明の第１０の態様は、第９の態様の映
像検索装置において、映像信号及び音声信号とインデッ
クスとの時間同期情報としてインデックスのユニット部
に対応する映像信号のタイムコードを記録する。

【００３６】これにより、インデックスのユニット部に
記録された映像信号のタイムコードに基づいて映像信号
を特定できるので、既存のデータ形式を使って高速に所
望のシーンいアクセスできる。

【００３７】本発明の第１１の態様は、第１０の態様の
映像検索装置において、前記インデックスのユニット部
に記録するタイムコードは、そのユニット部に対応する
映像信号の開始時刻及び継続時間である。

【００３８】これにより、所望のシーンの高速再生が可
能になる。

【００３９】本発明の第１２の態様は、映像信号に同期
した音声信号から特徴パタンを抽出して映像検索のため
のインデックスを生成する検索データ生成部と、検索者
から入力されるキーワードと前記インデックスとを照合
して所望とする映像を検索する検索処理部とを具備し、
前記検索処理部は、通信網を経由して接続された検索端
末からキーワードを受信する受信部と、検索された映像
信号を前記通信網を経由して前記検索端末へ送信する送
信部とを有する、映像検索装置である。

【００４０】このように、検索処理部が通信網を経由し
て接続された検索端末からキーワードを受信し、検索さ
れた映像信号を検索端末へ送信するので、ユーザ端末に
検索エンジンを持つ必要がなくなり、ユーザの負担を軽
減できる。

【００４１】本発明の第１３の態様は、音声信号から特
徴パタンを抽出して音声検索のためのインデックスを生
成する検索データ生成部と、検索者から入力されるキー
ワードと前記インデックスとを照合して所望とする音声
を検索する検索処理部とを具備する音声検索装置であ
る。

【００４２】これにより、上記第１の態様と同様にして
音声のシーン検索が可能になる。

【００４３】本発明の第１４の態様は、第１３の音声検
索装置において、前記検索データ生成部は、入力された
音声信号から音声特徴量を抽出する音声特徴パタン抽出
部と、抽出された音声特徴量と予め登録された標準音声
パタンとの間の類似度を算出する計算部と、計算された
類似度及び対応する音声信号との時間同期情報を含んだ
インデックスを生成するインデックス生成部とを備え
る。

【００４４】これにより、音声特徴量と標準音声パタン
との間の類似度を算出し、計算された類似度及び対応す
る音声信号との時間同期情報を含んだインデックスを生
成するので、入力されたキーワードを標準音声パタンに
対応した系列に変換すればインデックスから音声のシー
ンを検索できる。

【００４５】本発明の第１５の態様は、映像信号に同期
した音声信号から音声特徴量を抽出する音声特徴パタン
抽出部と、抽出された音声特徴量と予め登録された標準
音声パタンとの間の類似度を算出する計算部と、計算さ
れた類似度及び対応する映像信号又は音声信号との時間
同期情報を含んだインデックスを生成するインデックス
生成部とを備える映像検索インデックス生成装置であ
る。

【００４６】本発明の第１６の態様は、第１５の態様の
映像検索インデックス生成装置において、前記音声特徴
パタン抽出部は、入力された音声信号からサブワードに
相当する区間から前記音声特徴量を抽出し、前記計算部
は、サブワードを単位とした標準音声パタンを用いて類
似度を計算する。

【００４７】これにより、入力音声信号をサブワードを
単位とした標準音声パタンとの類似度の形式で保存する
事ができる。

【００４８】本発明の第１７の態様は、映像信号とこの
映像信号に同期した音声信号とこの音声信号から生成さ
れた音素類似度表とが蓄積された記録部と、検索者から
入力されるキーワードを音声特徴量の時系列パタンに変
換するキーワード変換部と、変換されたキーワードを音
声特徴量の時系列パタンと前記音素類似度表のインデッ
クスとを照合してキーワードと類似度の高い区間を検出
するキーワードパタン照合部と、検出区間の先頭サブワ
ードの始端時刻に基づいて前記記録部から該当する映像
信号を取り出す制御部とを備える検索処理装置である。

【００４９】本発明の第１８の態様は、第１７の態様の
検索処理装置において、前記キーワードパタン照合部
は、音素類似度表の中から前記入力キーワードに含まれ
るサブワードに対応したインデックスだけを抽出し、抽
出したインデクスを時系列データに変換してキーワード
を復元し、復元されたキーワード毎に類似度を加算す
る。

【００５０】本発明の第１９の態様は、記録媒体を有す
るビデオ録画装置において、ビデオ録画時に入力される
音声信号から人物の発声帯域における発声特徴パタンを
抽出する発声特徴パタン抽出部と、前記発声特徴パタン
をビデオ信号への同期情報とともに前記記録媒体に映像
検索インデクスとして記録するインデクス記録制御部と
を備える事を特徴とするビデオ録画装置である。

【００５１】本発明の第２０の態様は、記録媒体を有す
るビデオ録画装置において、ビデオ録画時に入力される
音声信号から人物の発声帯域における発声特徴パタンを
抽出する発声特徴パタン抽出部と、抽出された発声特徴
パタンデータと予め登録されている複数のサブワードの
各発声特徴パタンとの類似度を算出して類似度及び時刻
情報を持った映像検索インデクスを生成するインデック
ス生成部と、入力音声対して作成された映像検索インデ
クスで構成される音素類似度表とビデオ信号とを前記記
録媒体に記録する記録制御部とを備えるビデオ録画装置
である。

【００５２】本発明の第２１の態様は、第１９の態様に
おいて、発声特徴パタン抽出部は、ビデオ録画時に入力
される映像信号に対して予め登録されてある発声音ごと
の口唇画像特徴パタンデータとの照合を行ない、映像信
号から人物発声時の視覚特徴パタンデータを抽出する。

【００５３】これにより、音声に雑音などが入っていて
も精度よく所望のシーンを検索できる。

【００５４】本発明の第２２の態様は、ビデオ信号の再
生を行うビデオ再生装置において、入力音声に対して作
成された映像検索インデクスとビデオ信号とが記録され
た記録媒体と、検索者から入力されたキーワードをパタ
ン照合用データに変換するキーワードパタン変換部と、
前記キーワードのパタン照合用データと既に前記記録媒
体に記録されているビデオ番組の前記映像検索インデク
ス内のパタン照合用データとのパタン照合を行うキーワ
ードパタン照合部とを備えるビデオ再生装置である。

【００５５】本発明の第２３の態様は、ビデオ信号の再
生を行うビデオ再生装置において、入力音声に対して作
成された映像検索インデクスから構成された音素類似度
表とビデオ信号とが記録された記録媒体と、入力された
キーワードのサブワード系列と前記音素類似度表内の各
サブワードごとの類似度によってキーワード検出を行う
キーワードパタン変換部とを備えたビデオ再生装置。

【００５６】本発明の第２４の態様は、第２２の態様の
ビデオ再生装置において、前記キーワードパタン変換部
は、入力されるキーワードを視覚特徴パタンデータへの
変換を行い、前記キーワードパタン照合部が、予め記録
媒体に記録されている映像検索インデックスとして人物
発声時の視覚特徴パタンデータを用いて、入力されたキ
ーワードの視覚特徴パタンデータとの照合を行う。

【００５７】本発明の第２５の態様は、第２２の態様の
ビデオ再生装置において、音声入力のためのマイクロフ
ォンを備え、前記キーワードパタン変換部が前記マイク
ロフォンから入力されたキーワードの音声信号を発声特
徴パタンデータへ変換する。

【００５８】これにより、キーワードを音声にて入力で
きる。

【００５９】本発明の第２６の態様は、第２２の態様の
ビデオ再生装置において、マイクロフォンと動画像入力
のためのカメラ装置とを備え、前記キーワードパタン変
換部は、利用者のキーワード発声時にカメラ装置から入
力される映像信号に対して予め登録されてある発声音ご
との口唇画像特徴パタンとの照合を行ない、キーワード
発声時の映像信号からキーワードの視覚特徴パタンデー
タへの変換を行う。

【００６０】本発明の第２７の態様は、映像信号に同期
した音声信号から音声特徴量を抽出し、抽出された音声
特徴量と予め登録された標準音声パタンとの間の類似度
を算出し、計算された類似度及び対応する映像信号又は
音声信号との時間同期情報を含んだインデックスを生成
し、検索者から入力されるキーワードと前記インデック
スとを照合して所望とする映像を検索する映像検索方法
である。

【００６１】（第１の実施の形態）図１に、第１の実施
の形態にかかるシーン検索システムの機能ブロック図が
示されている。本実施の形態のシーン検索システムは、
蓄積されている映像の中から所望のシーンを検索するた
めの映像検索インデックスを生成する検索データ生成部
１００と、入力された検索キーワードと映像検索インデ
ックスとを照合して検索意図を良く反映したシーンを検
索する検索処理部２００とを有する。

【００６２】検索データ生成部１００は、映像信号を受
信する映像信号入力部１０１と、その映像信号に付随
（同期）した音声信号を受信する音声信号入力部１０２
とを有する。映像信号入力部１０１及び音声信号入力部
１０２から入力された映像信号及び音声信号は、検索処
理部２００に設けられた記録部２０１に格納される。さ
らに、音声信号入力部１０２から入力された音声信号
は、音声特徴パタン抽出部１０３へも入力される。音声
特徴パタン抽出部１０３は、音声信号を分析して音声特
徴パタンを抽出する。抽出された音声特徴パタンは映像
検索インデクス生成部１０４へ与えられる。映像検索イ
ンデクス生成部１０４は、抽出された音声特徴パタンと
標準音声特徴パタン格納部１０５に格納されている標準
音声パタンとを比較して、最も良く一致するサブワード
の｛始端時刻、終端時刻、類似度を示すスコア｝の組を
映像検索インデックスとして出力する。この映像検索イ
ンデックスは検索処理部２００にある記録部２０１に格
納される。

【００６３】検索処理部２００は、映像信号、音声信号
及び映像検索インデックスが格納された記録部２０１を
有する。記録部２０１には映像検索インデックスによる
音素類似度表が形成されている。音素類似度表について
は後述する。制御部２０２は、記録部２０１に格納され
ている映像信号、音声信号の読出し位置を制御してい
る。記録部２０１に格納されている映像の中から所望の
映像シーンを検索するための検索キーワードはキーワー
ド入力部２０３から入力される。入力されたキーワード
はキーワード変換部２０４により入力キーワードを構成
しているサブワードの時系列に変換される。キーワード
パタン照合部２０５は、入力キーワードのサブワードと
一致するサブワードの映像検索インデックスを記録部２
０１から取り出す。記録部２０１から取り出された映像
検索インデックスによって検索キーワードを復元し、復
元された各キーワードのスコアを計算する。制御部２０
２がスコアの高い復元キーワードの先頭サブワードの始
端時刻に基づいて記録部２０１から該当する映像シーン
を取り出す。記録部２０１から取り出される映像シーン
を構成する映像信号は映像信号出力部２０６から外部へ
出力され、その映像信号に付随した音声信号は音声信号
出力部２０７から外部へ出力される。

【００６４】次に、検索データ生成部１００において映
像検索インデックスを生成する処理の詳細について説明
する。音声特徴パタン抽出部１０３は、入力した音声信
号を順次１０ｍｓｅｃの分析フレームに分割し、その各
分析フレームを高速フーリエ変換して人物の発声周波数
帯域の音響特性をあらわした音響特性データに変換す
る。さらに、発声周波数帯域の音響特性データを、音響
特徴量から構成されるＮ個（Ｎは任意の自然数）の成分
を持つベクトルデータに変換する。このベクトルデータ
が音声特徴パタンとなる。音声特徴パタンに変換される
音響特徴量として、入力音声の発声周波数帯域における
短時間スペクトル又はスペクトルの対数値、入力音声の
一定時間内での対数エネルギーなどを用いるのが望まし
い。

【００６５】このように、入力音声は１０ｍｓｅｃ毎に
音声特徴パタン（ベクトルデータ）に変換され、順次変
換された音声特徴パタンが映像検索インデクス生成部１
０４へ出力される。なお、分析フレームのフレーム長は
１０ｍｓｅｃに限定されるものではない。

【００６６】標準音声特徴パタン格納部１０５に、サブ
ワード（＃Ｖ，＃ＣＶ，＃ＣｊＶ、ＣＶ，ＣｊＶ、Ｖ
Ｃ，ＱＣ，ＶＱ，ＶＶ，Ｖ＃、但し、Ｃは子音、Ｖは母
音、ｊは拗音、Ｑは促音、＃は無音である）が標準音声
パタンとして予め用意されている。予め複数の話者から
収集した発声を分析して、サブワード単位で音声特徴パ
タンを抽出する。抽出された音声特徴パタンを統計的処
理して標準音声パタンとして登録している。具体的に
は、個々のサブワードと、それらの標準音声パタン（抽
出した音声特徴パタン）と、を対応させたテーブルが標
準音声特徴パタン格納部１０５に格納されている。図２
に標準音声パタンの具体例が示されている。標準音声パ
タンを５００個程度用意している。標準音声特徴パタン
格納部１０５に格納すべき標準音声パタンの個数は５０
０個に限定されるものではなく、計算量と要求される検
索精度との関係で適宜決められるべきである。

【００６７】映像検索インデクス生成部１０４は、標準
音声特徴パタン格納部１０５から第１番目の標準音声パ
タンを取り出し、第１番目の標準音声パタンと入力音声
の音声特徴パタンとの類似度を音声認識処理によって求
める。音声認識処理には、DP照合法、ＨＭＭなどの音声
認識手法を用いる事が望ましい。第１番目の標準音声パ
タンに対して最も高い類似度を示す区間をサブワード区
間として検出し、検出したサブワード区間の始端時刻と
終端時刻と類似度であるスコアとを求める。このように
して求めた第１番目の標準音声パタンの検出サブワード
区間に関して｛始端時刻、終端時刻、スコア｝の組が１
つの映像検索インデックスとして出力される。すなわ
ち、１つの映像検索インデックスは音素記号、始端時
刻、終端時刻、スコアで構成されている。

【００６８】第１番目の標準音声パタンに対する映像検
索インデックスが求められたならば、第２番目の標準音
声パタンが標準音声特徴パタン格納部１０５から取り出
される。そして同一音声区間の音声特徴パタンと第２番
目の標準音声パタンとを比較し、上記同様にして第２番
目の標準音声パタンについてサブワード区間を検出し、
検出サブワード区間に関する｛始端時刻、終端時刻、ス
コア｝の組を映像検索インデックスとして出力する。以
下同様に、同一音声区間の音声特徴パタンに対して、標
準音声パタンを切換えながら、残りの全ての標準音声パ
タンとの類似度をそれぞれ検出し、全ての標準音声パタ
ンに関して｛始端時刻、終端時刻、スコア｝の組からな
る映像検索インデックスを生成する。

【００６９】入力音声のある音声区間において全ての標
準音声パタンに関して映像検索インデックスが生成され
たならば、処理対象となる音声区間を隣接する次の音声
区間に移して同様の処理を実行する。以下同様に、処理
対象となる音声区間をシフトしていき、入力音声の全区
間に亘り検索インデクを生成したところで処理を完了す
る。

【００７０】次に、検索処理部２００においてキーワー
ドを用いて映像シーンを検索する処理の詳細について説
明する。

【００７１】図３に映像検索インデックスのラティス構
造の一部が示されている。１０ｍｓｅｃ単位で分割した
入力音声の各音声区間の終端を、その音声区間に対して
生成した各映像検索インデックスの終端とし、同一音声
区間における映像検索インデックスを生成された順番に
配置すると、入力音声の全体では映像検索インデックス
がラティス状に配列される。このような映像検索インデ
ックスのラティス構造を音素類似度表と呼ぶこととす
る。音素類似度表において、各映像検索インデックスは
始端時刻に対応した長さとそのスコアの組で表わされて
いる。図３には、映像検索インデックスの音素類似度表
の中から「Ａ」「ＫＡ」「ＳＡ」「ＴＡ」「ＮＡ」の５
種類のサブワードだけを代表で示している。

【００７２】いま、キーワード入力部２０３が検索キー
ワードとして「空」を受信したものとする。キーワード
変換部２０４は、検索キーワード「空」をサブワードの
系列に変換する。「空」は「ＳＯ、ＯＲ、ＲＡ」に変換
される。

【００７３】キーワードパタン照合部２０５は、音素類
似度表の中から、検索キーワードを構成するサブワード
だけをピックアップする。すなわち、各時刻のラティス
から、検索キーワードを構成するサブワード「ＳＯ」
「ＯＲ」「ＲＡ」だけを、ピックアップする。図４は検
索キーワードのサブワード「ＳＯ」「ＯＲ」「ＲＡ」だ
けがピックアップされたラティスを示している。

【００７４】ピックアップされた複数のラティス上のサ
ブワード「ＳＯ」「ＯＲ」「ＲＡ」を、検索キーワード
を変換したサブワードの系列順に隙間なく接続する。あ
る時刻のラティスから最後のサブワード「ＲＡ」を取り
出し、「ＲＡ」の始端時刻にあたるラティスからその前
のサブワード「ＯＲ」を取り出し、さらに「ＯＲ」の始
端時刻にあたるラティスからさらに前のサブワード「Ｓ
Ｏ」を取り出し、最後のサブワード「ＲＡ」の終端を基
準にして「ＳＯ」「ＯＲ」「ＲＡ」を連結する。

【００７５】このように「ＳＯ」「ＯＲ」「ＲＡ」を連
結することにより復元されたキーワードについて、その
復元キーワードのスコアを計算する。復元されたキーワ
ードを構成するサブワード「ＳＯ」「ＯＲ」「ＲＡ」に
付与されているスコアを加算する。この加算値が復元キ
ーワードのスコアである。以下同様に、サブワード「Ｒ
Ａ」の終端時刻をずらした復元キーワードを全ての時刻
について順次作成し、各復元キーワードについてそのス
コアを計算する。図５にサブワード「ＲＡ」の終端時刻
をずらした復元キーワードが示されている。

【００７６】キーワードパタン照合部２０５は、音声の
伸縮特性を考慮して各復元キーワード（サブワードの時
系列データ）に対してDP照合法などにより圧縮・伸張処
理を加える。そして、全ての復元キーワードのスコアを
計算する。これら復元キーワードのスコアを制御部２０
２へ入力する。

【００７７】制御部２０２は、スコアが上位となる復元
キーワードの先頭サブワードの始端時刻から対応する映
像信号のタイムコードを算出し、記録部２０１に蓄積さ
れた映像・音声信号の該当部分を再生するための制御を
行う。この結果、映像信号出力部２０６、音声信号出力
部２０７から再生された映像信号及び音声信号が出力さ
れる。

【００７８】このように、検索対象の映像信号に付随し
た音声信号からスコアの付与されたサブワードの時系列
データを作成して映像検索インデックスとしてそのまま
記録部２０１に保存する一方、検索時にはキーワードを
サブワードに変換して映像検索インデックスと照合する
ようにしたので、単語辞書又は検索キーワードを予め登
録した格納部を排除する事ができ、未知語の問題も発生
しないといった利点がある。

【００７９】しかも、予め登録した検索キーワードとの
照合を行わないことから、ユーザが不確かなキーワード
を入力した場合であっても最も確からしい映像シーンを
検索することができるといった優れた効果を奏すること
ができる。

【００８０】（第２の実施の形態）本発明の第２の実施
の形態にかかるシーン検索システムは、検索データ生成
装置で生成した映像検索インデックスを、伝送媒体を介
して検索装置へ伝送するようにしている。

【００８１】図６に第２の実施の形態にかかるシーン検
索システムの構成が示されている。上述した第１の実施
の形態と同一機能を有する部分には同一符号が使われて
いる。このシーン検索システムは、映像信号に付属した
音声信号から生成された映像検索インデックスをデータ
ストリームに多重化する検索データ生成装置１２０と、
検索キーワードのサブワードと映像検索インデックスと
を照合して所望の映像シーンを検索する検索装置２２０
と、検索データ生成装置１２０で映像検索インデックス
の多重化されたデータストリームを、検索装置２２０へ
伝送するための伝送媒体２３０とから構成されている。
伝送媒体２３０には、放送網、通信網、記録メディア等
が含まれる。放送網には地上波放送網又はケーブル放送
網があり、通信網にはインターネットがある。音声シー
ンの検索であればラジオ放送網も含まれる。

【００８２】検索データ生成装置１２０は、映像信号入
力部１０１、音声信号入力部１０２、音声特徴パタン抽
出部１０３、映像検索インデクス生成部１０４、標準音
声パタン格納部１０５を備えている。さらに、検索デー
タ生成装置１２０は、映像検索インデクス生成部１０４
で生成した映像検索インデックスと映像信号と音声信号
とを多重化する多重化部１２１を有する。多重化部１２
１は、映像検索インデックスと映像信号と音声信号と
を、ＭＰＥＧストリーム上に多重化することが望ましい
が、それ以外のデータストリーム上に多重化する事も可
能である。

【００８３】検索装置２２０は、記録部２０１、制御部
２０２、キーワード入力部２０３、キーワード変換部２
０４、キーワードパタン照合部２０５、映像信号出力部
２０６、音声信号出力部２０７を備えている。さらに、
検索装置２２０は、映像検索インデックスと映像信号と
音声信号とが多重化されたデータストリームから、映像
検索インデックス、映像信号及び音声信号をそれぞれ分
離する多重分離部２２１を有する。

【００８４】検索データ生成装置１２０に設けられた映
像検索インデクス生成部１０４において、上述した第１
の実施の形態と同様にして入力音声から映像検索インデ
ックスが作成される。作成された映像検索インデックス
は多重化部１２１へ出力される。なお、映像信号入力部
１０１で受信された映像信号及び音声信号入力部１０２
で受信された音声信号が多重化部１２１へ出力されてい
る。

【００８５】多重化部１２１は、映像信号、音声信号、
映像検索インデックスを、それぞれ複数の映像ストリー
ム（映像ストリーム（１）〜映像ストリーム（ｎ））
と、音声ストリーム（音声ストリーム（１）〜音声スト
リーム（ｎ））と、ユーザデータを格納するためのプラ
イベートストリーム（このストリームを映像検索インデ
ックスの伝送に使うので、検索データストリームと呼
ぶ：検索データストリーム（１）〜検索データストリー
ム（ｎ））に変換する。

【００８６】図７（１）に、映像信号、音声信号及び映
像検索インデックスが多重化されたＭＰＥＧストリーム
のフレーム構成が示されている。ＭＰＥＧストリームの
先頭にはストリームを識別するためのストリームヘッダ
１０１が付加される。図７（２）に映像ストリームの構
成が示されている。映像ストリームは、複数のＧＯＰ
（Group of Pictures：GOP（１）〜ＧＯＰ（ｎ））で
構成されている。図７（３）にＧＯＰの構成が示されて
いる。ＧＯＰは、フレーム内で符号化されるＩピクチャ
（Ｉ（１））、Ｉピクチャ又はＰピクチャを参照して動
き補償予測により符号化されるＰピクチャ（Ｐ（２）〜
Ｐ（ｍ））、時間的に前後に位置するＩピクチャ、Ｐピ
クチャを参照して双方からの動き補償予測により符号化
されるＢピクチャ（Ｂ（−１）〜Ｂ（ｍ−１））の一連
のグループにより構成される。図７（４）に検索データ
ストリームの構成を示されている。ＧＯＰを構成してい
る一連の映像フレームに対応して、映像検索インデック
ス（映像検索インデックス（１）〜映像検索インデック
ス（ｎ））をユニット化する。

【００８７】多重化部１２１によって多重化されたＭＰ
ＥＧストリームは、伝送媒体２３０を介して検索装置２
２０へ伝送され、記録部２０１に記録される。検索装置
２２０では、多重分離部２２１が多重化されたＭＰＥＧ
ストリームから検索インデクスを分離してキーワードパ
タン照合部２０５へ与える。映像検索インデックスと検
索キーワードとを照合し、第１の実施の形態と同様にし
て復元キーワードを作成する。制御部２０２が、スコア
の高い復元キーワードの始端時刻から対応するＧＯＰに
アクセスして映像シーンを取り出す。なお、ＭＰＥＧス
トリームから映像検索インデックスを分離する時に一緒
に映像信号及び音声信号も分離して、記録部２０１に記
録するようにしても良い。

【００８８】このように、入力音声のサブワードの単位
で構成された映像検索インデックスを、映像信号及び音
声信号とともにデータストリームに多重化したので、放
送網や通信網を利用してユーザに映像と一緒に映像検索
インデックスを渡す事ができる。

【００８９】また、MPEGの映像再生単位はGOPなので、
検索インデックスのユニット単位を一致させておくと、
検索処理時には入力したキーワードに該当する検索イン
デックスと対応するGOPにアクセスすることにより、容
易に所望の映像シーンを再生開始することが可能にな
る。

【００９０】（第３の実施の形態）第３の実施の形態
は、ユーザ端末から検索キーワードを入力したら、その
ユーザ端末に通信網を介して接続されたサーバシステム
から該当するシーンが提供されるようにしたシーン検索
システムである。

【００９１】図８に、第３の実施の形態にかかるシーン
検索システムのシステム構成が示されている。図８にお
いて、上述した第１の実施の形態及び第２の実施の形態
のシーン検索システムと同一機能を有する部分には同一
符号を使用している。サーバシステムは、検索データ生
成部１００と、検索処理部２３０とで構成されている、
ユーザが希望する映像シーンを検索してユーザ端末へ送
信する。

【００９２】検索データ生成部１００は、映像信号入力
部１０１、音声信号入力部１０２、音声特徴パタン抽出
部１０３及び映像検索インデクス生成部１０４で構成さ
れている。

【００９３】検索処理部２３０は、記録部２０１、制御
部２０２、キーワードパタン照合部２０５を備える。さ
らに、検索処理部２３０は、ユーザ端末３００から伝送
媒体２３０を経由して送られてくる検索キーワードのデ
ータを受信するキーワード受信部２３１と、検索された
シーンの映像信号と音声信号とをデータストリーム上に
多重化して伝送媒体２３０を経由してユーザ端末３００
へ送信する多重化部２３２とを有する。

【００９４】ユーザ端末３００は、キーワード入力部２
０３、キーワード変換部２０４、検索されたシーンの映
像信号を出力する音声信号出力部２０７、検索されたシ
ーンの音声信号を出力する音声信号出力部２０６を備え
る。さらに、ユーザ端末３００は、キーワード変換部２
０４によって変換された検索キーワードのサブワードを
伝送媒体２３０を介して検索処理部２３０へ送信するキ
ーワード送信部３０１と、検索処理部２３０から伝送媒
体２３０を介して受信したデータストリームから映像信
号及び音声信号を分離する多重分離部３０２とを有す
る。

【００９５】以上のように構成されたシーン検索システ
ムでは、ユーザ端末３００において検索キーワードが入
力される。ユーザ端末３００では、入力されたキーワー
ドがキーワード変換部２０４により入力キーワードのサ
ブワードに変換される。そして入力キーワードのサブワ
ードがキーワード送信部３０１から伝送媒体２３０を介
してへ送信される。本実施の形態における伝送媒体２３
０はインターネットなどの通信網が望ましい。

【００９６】検索処理部２３０の記録部２０１には、上
述した第１の実施の形態と同様にして映像信号、音声信
号及びラティス構造の映像検索インデックスが記録され
ている。キーワード受信部２３１が受信したキーワード
データはキーワードパタン照合部２０５へ渡される。キ
ーワードパタン照合部２０５は、上述したように映像検
索インデックスのラティス構造からキーワードのサブワ
ードと一致する音素記号を持つ映像検索インデックスを
ピックアップして、各時刻における復元キーワードを作
成する。そして制御部２０２がスコアの高い復元キーワ
ードの始端時刻に基づいて該当する映像信号及び音声信
号を取り出す。このようにして検索されたシーンの映像
信号及び音声信号は多重化部２３２でデータストリーム
の多重化された後、伝送媒体２３０を経由してユーザ端
末３００へ送られる。

【００９７】ユーザ端末３００では、多重分離部３０２
が検索キーワードに対して送られてきたデータストリー
ムから映像信号及び音声信号を分離する。分離された映
像信号及び音声信号は映像信号出力部２０６及び音声信
号出力部２０７からそれぞれ再生される。

【００９８】このように、ユーザ端末３００とサーバシ
ステム（検索データ生成部１００及び検索処理部２３
０）とを通信網２３０を介して接続する事により、映像
検索インデックスを生成する機能及び検索する機能を持
たないユーザ端末３００から所望のシーンを検索するこ
とができる。

【００９９】なお、上記した第３の実施の形態では、ユ
ーザ端末３００にキーワード変換部２０４を備えている
が、キーワード変換部２０４を検索処理部２３０に配置
するように構成しても良い。この構成によれば、既存の
ユーザ端末に新たなソフトウエアのインストールするこ
となく、上述検索を行う事ができる。

【０１００】（第４の実施の形態）第４の実施の形態
は、本発明のシーン検索システムをビデオ録画装置に適
用した例である。本実施の形態にかかるビデオ録画装置
は、ビデオ録画時に得られる音声信号から人物の発声音
を検出して、発声音から得られる音響特性データを発声
特徴パタンデータとして抽出する。さらに、発声特徴パ
タンデータを時刻情報を添付したインデックス構造に成
形したのち、映像信号及び音声信号と共に記録媒体へ記
録する。

【０１０１】図９に本実施の形態にかかるビデオ録画装
置の構成が示されている。外部から入力されるビデオ録
画指示制御信号等は制御信号入力部１で受信される。ビ
デオ録画制御部２は、受信された制御信号の種別に応じ
て装置を構成する各ブロックへ録画開始指示信号や停止
指示信号を発行する。

【０１０２】一方、ビデオ録画開始とともに入力される
アナログ音声信号は音声信号入力部３でデジタル音声信
号に変換され、さらにデジタル音声信号が音声信号エン
コード部４でＭＰＥＧ等の圧縮処理を施される。また、
ビデオ録画開始とともに入力されるアナログ映像信号は
映像信号入力部５でデジタル映像信号に変換され、さら
にデジタル映像信号が映像信号エンコード部６でＭＰＥ
Ｇ等の圧縮処理を施される。

【０１０３】音声信号入力部３からデジタル音声信号が
発声特徴パターン抽出部１０へ分配入力される。発声特
徴パターン抽出部１０は、入力したデジタル音声信号か
ら人物の発声音の音響特性データを検出して発声特徴パ
ターンデータを取得する。映像検索インデックス生成部
１１は、発声特徴パターン抽出部１０から供給される発
声特徴パターンデータを映像信号と同期した時間周期で
パケット化し、時刻情報を添付した映像検索用インデッ
クス構造に成形する。

【０１０４】圧縮された映像信号及び音声信号と映像検
索インデックスは、ビデオ録画制御部２から指示を受け
た複合データ記録処理部７によって重畳されてＤＶＤ等
の記録フォーマットで映像記録媒体９に記録される。映
像記録媒体９は光ディスクまたはＨＤＤ（磁気ディス
ク）またはメモリカードまたは磁気テープ等で構成され
る。複合データ記録処理部７からの制御指示により映像
記録媒体９の記録位置のシーク等の物理的な制御を記録
媒体動作制御部８が行う。以上のように構成されたビデ
オ録画装置はマイクロコンピュータ組み込み機器または
専用ＬＳＩ回路群等で構成することができる。このビデ
オ録画装置では、発声特徴パタン抽出手段は発声特徴パ
タン抽出部１０から構成され、インデックス情報記録手
段は映像検索インデックス生成部１１と複合データ記録
処理部７から構成される。

【０１０５】次にこの装置の動作について説明する。

【０１０６】制御信号入力部１は、外部のリモートコン
トロール装置またはキーボード等の入力装置からビデオ
録画指示の制御信号を受け付けると、装置に適合した信
号形式に変換した後にビデオ録画制御部２にビデオ録画
指示信号を発行する。ビデオ録画指示信号を受けたビデ
オ録画制御部２は、装置を構成する各部にビデオ録画開
始の指示を行い装置状態をビデオ録画状態に遷移させ
る。

【０１０７】ビデオ録画開始の指示を受けた音声信号入
力部３は、外部のテレビジョン信号チューナー装置また
はマイクロフォンまたはＶＴＲ装置等から入力される音
声信号に対してＡ／Ｄ変換処理を施し量子化を行った
後、音声信号エンコード部４及び発声特徴パタン抽出部
１０へ逐次音声信号を供給する。音声信号エンコード部
４に供給された音声信号はＭＰＥＧ等の音声信号帯域圧
縮処理が施され、複合データ記録処理部７へと逐次転送
される。

【０１０８】音声信号入力部３から音声信号の分配供給
を受けた発声特徴パタン抽出部１０では、一定時間単位
の音声信号信号に対してＦＦＴ（高速フーリエ変換）処
理を行い、人物の発声周波数帯域の音響特性データを抽
出し、さらに抽出した周波数帯域内での短時間スペクト
ルデータまたはスペクトルの対数値や、一定時間単位内
の音声信号の対数エネルギー値等の、音声認識処理で一
般的に用いられる音響特徴量から構成されるＮ個（Ｎは
任意の自然数）の成分を持つベクトルデータである発声
特徴パタンデータを生成する。

【０１０９】発声特徴パタン抽出部１０で抽出生成され
た発声特徴パタンデータは逐次映像検索インデクス生成
部１１に出力される。映像検索インデクス生成部１１
は、逐次入力されてくる個々の発声特徴パタンデータ
を、その時系列を保持したまま映像信号及び音声信号間
で同期可能な時間単位分にまとめてパケット化し、パケ
ット毎に発声特徴パタンデータである事を示す識別と時
刻情報を付与する。これにより、発声特徴パタンデータ
の位置から時刻情報を参照して映像信号または音声信号
にアクセス可能なインデクス構造が生成される。生成し
たインデクス構造パケットを複合データ記録処理部７に
逐次転送する。

【０１１０】一方、同じくビデオ録画開始の指示を受け
た映像信号入力部５は、外部のテレビジョン信号チュー
ナー装置またはカメラまたはＶＴＲ装置等から入力され
る映像信号に対してＡ／Ｄ変換処理を施し量子化を行い
所定のデジタル映像信号信号として、映像信号エンコー
ド部６に供給する。映像信号エンコード部６に供給され
たデジタル映像信号信号はＭＰＥＧ等の映像信号帯域圧
縮処理が施され、複合データ記録処理部７へと逐次転送
される。

【０１１１】ビデオ録画開始の指示を受けた複合データ
記録処理部７は、データの記録開始に先立ち、記録媒体
動作制御部８に制御信号を発行して、記録媒体９へのデ
ータ記録開始位置の保持を行う。各々信号帯域圧縮処理
を施された映像信号ならびに音声信号及び映像検索用イ
ンデクス生成部１１にて生成されたインデクス構造パケ
ットを受け取った複合データ記録処理部７は、ＭＰＥＧ
等の所定のフォーマットで映像信号と音声信号及びイン
デクス構造パケットを多重化し、記録媒体動作制御部８
への制御信号を発行して映像記録媒体９の所定の位置に
多重化したデータをＤＶＤ等の記録フォーマットにした
がって記録する。

【０１１２】こうした一連の動作は、ビデオ録画開始か
らビデオ録画時間終了または外部からの映像信号入力の
終了または外部からの制御信号によるビデオ録画停止指
示、及び装置内各部からのエラー通知をビデオ録画制御
部２が検出するまで繰り返される。ビデオ録画制御部２
はこれらを検出した際は装置を構成する各部にビデオ録
画停止指示を行い、装置を初期状態に遷移させる事で動
作を終了する。

【０１１３】ここで、上記インデクス構造パケットは発
声特徴パタンデータの時系列で構成されていたが、映像
検索インデックス生成部１１が発声特徴パタンデータの
時系列に対して音素認識処理を施す事により、インデッ
クス構造パケットをサブワード毎の時系列パタン照合結
果である音素類似度表の時系列にする事ができる。

【０１１４】すなわち、映像検索インデックス生成部１
１が、発声特徴パタン抽出部１０より逐次入力される発
声特徴パタンデータの時系列に対して、映像検索インデ
ックス生成部１１に予め登録内蔵されてある各サブワー
ドごとの標準パタンとの類似度を算出し音素類似度表を
作成する。

【０１１５】この際、各サブワードごとの標準音声パタ
ンは発声特徴パタンデータと同様に短時間スペクトルデ
ータ等の音素時系列である。そして入力されてくる発声
特徴パタンデータに関しても照合区間を一定の時間長に
固定しておき、標準音声パタンの音素時系列と発声特徴
パタンデータの音素時系列とをＤＰ（ダイナミックプロ
グラミング）照合法等を用いた時系列パタン照合を行な
う。

【０１１６】時系列パタン照合では、すべてのサブワー
ドごとに標準音声パタンに最も類似した発声特徴パタン
データの時系列内での照合区間を求め、照合結果を音素
類似度表としてまとめる。尚、音素類似度表は各サブワ
ードの識別（音素記号）とそのサブワードに最も類似し
た照合区間である発声区間（始端時刻、終端時刻）と類
似度とから列を構成する。音素類似度表は標準音声パタ
ンで保持するサブワード個数分の行で構成する。

【０１１７】作成された音素類似度表から、類似度の高
い順に上位Ｍ個（Ｍは任意の自然数）までを抜き出して
前記類似度表を再構成し、時系列を保持したまま映像信
号及び音声信号間で同期可能な時間単位分にまとめてパ
ケット化し、パケット毎に音素類似度表データである事
を示す識別と時刻情報を付与する事で音素類似度表デー
タの位置から時刻情報を参照して映像信号または音声信
号にアクセス可能なインデクス構造パケットを生成し、
複合データ記録処理部７に逐次転送する。

【０１１８】このようにして作成された音素類似度表デ
ータ時系列で構成されたインデクス構造パケットは、複
合データ記録処理部７を経由して映像検索用インデクス
として、映像記録媒体９へ所定の記録フォーマットで記
録される。

【０１１９】このように、ビデオ録画時に音声信号から
音素類似度表の時系列で構成された検索用インデクスを
生成し、複合データ記録処理部７によりインデクスと映
像信号と音声信号とを多重化して映像記録媒体９へ蓄積
するようにしたので、後から映像検索インデックスを用
いて用意に希望の映像信号及び音声信号にアクセスでき
る。本実施の形態で作成される検索用インデクスは上述
した第１の実施の形態における映像検索インデックスと
同じ構造であるので、第１の実施の形態と同様のキーワ
ード検索も可能である。

【０１２０】（第５の実施の形態）第５の実施の形態に
かかるビデオ録画装置は、映像信号から人物発声時の視
覚特徴パタンデータを抽出し、視覚特徴パタンデータを
映像検索用インデックスとして記録する。

【０１２１】図１０に本実施の形態にかかるビデオ録画
装置の構成が示されている。外部から入力されるビデオ
録画指示制御信号等は制御信号入力部１で受信される。
ビデオ録画制御部２は、受信された制御信号の種別に応
じて装置を構成する各ブロックへ録画開始指示信号や停
止指示信号を発行する。

【０１２２】一方、ビデオ録画開始とともに入力される
アナログ音声信号は音声信号入力部３でデジタル音声信
号に変換され、さらにデジタル音声信号が音声信号エン
コード部４でＭＰＥＧ等の圧縮処理を施される。また、
ビデオ録画開始とともに入力されるアナログ映像信号は
映像信号入力部５でデジタル映像信号に変換され、さら
にデジタル映像信号が映像信号エンコード部６でＭＰＥ
Ｇ等の圧縮処理を施される。

【０１２３】音声信号入力部３からデジタル音声信号が
発声特徴パターン抽出部１０へ分配入力される。発声特
徴パターン抽出部１０は、入力した音声信号から人物の
発声音の音響特性データを検出して発声特徴パターンデ
ータを取得する。また、映像信号入力部５からデジタル
映像信号が視覚特徴パタン抽出部１２へ分配入力され
る。視覚特徴パタン抽出部１２は、入力した映像信号か
ら人物の口唇領域画像を検出し視覚特徴パタンデータを
抽出する。映像検索インデックス生成部１１は、発声特
徴パタン抽出部１０から供給される発声特徴パタンデー
タと視覚特徴パタン抽出部１２から供給される視覚特徴
パタンデータを各々映像信号と同期した時間周期でパケ
ット化し、時刻情報ならびにパタンデータ種別を添付し
た映像検索用インデックス構造に成形する。

【０１２４】圧縮された映像信号及び音声信号と映像検
索インデックスは、ビデオ録画制御部２から指示を受け
た複合データ記録処理部７によって重畳されてＤＶＤ等
の記録フォーマットで映像記録媒体９に記録される。映
像記録媒体９は光ディスクまたはＨＤＤ（磁気ディス
ク）またはメモリカードまたは磁気テープ等で構成され
る。複合データ記録処理部７からの制御指示により映像
記録媒体９の記録位置のシーク等の物理的な制御を記録
媒体動作制御部８が行う。以上のように構成されたビデ
オ録画装置はマイクロコンピュータ組み込み機器または
専用ＬＳＩ回路群等で構成することができる。

【０１２５】次に、この装置の動作について説明する。

【０１２６】制御信号入力部１は、外部のリモートコン
トロール装置またはキーボード等の入力装置からビデオ
録画指示の制御信号を受け付けると、装置内部の信号形
式に変換した後にビデオ録画制御部２にビデオ録画指示
信号を発行する。ビデオ録画指示信号を受けたビデオ録
画制御部２は、装置を構成する各部にビデオ録画開始の
指示を行い装置状態をビデオ録画状態に遷移させる。

【０１２７】ビデオ録画開始の指示を受けた音声信号入
力部３は、外部のテレビジョン信号チューナー装置また
はマイクロフォンまたはＶＴＲ装置等から入力される音
声信号に対してＡ／Ｄ変換処理を施し量子化を行った
後、音声信号エンコード部４及び発声特徴パタン抽出部
１０へ逐次音声信号信号の供給をおこなう。音声信号エ
ンコード部４に供給された音声信号信号はＭＰＥＧ等の
音声信号帯域圧縮処理が施され、複合データ記録処理部
７へと逐次転送される。

【０１２８】音声信号入力部３から音声信号信号の分配
供給を受けた発声特徴パタン抽出部１０では、一定時間
単位の音声信号信号に対してＦＦＴ（高速フーリエ変
換）処理を行い、人物の発声周波数帯域の音響特性デー
タを抽出し、さらに抽出した周波数帯域内での短時間ス
ペクトルデータまたはスペクトルの対数値や、一定時間
単位内の音声信号の対数エネルギー値等の音声認識処理
で一般的に用いられる音響特徴量から構成されるＮ個
（Ｎは任意の自然数）の成分を持つベクトルデータであ
り、本発明ではこれを発声特徴パタンデータとして用い
る。

【０１２９】発声特徴パタン抽出部１０で抽出された発
声特徴パタンデータは逐次映像検索インデクス生成部１
１に出力される。映像検索インデクス生成部１１は、逐
次入力されてくる個々の発声特徴パタンデータを、その
時系列を保持したまま映像信号及び音声信号間で同期可
能な時間単位分にまとめてパケット化し、パケット毎に
時刻情報を付与する。これにより、発声特徴パタンデー
タの位置から時刻情報を参照して映像信号または音声信
号にアクセス可能なインデクス構造を生成し、生成した
インデクス構造パケットを複合データ記録処理部７に逐
次転送する。

【０１３０】一方、同じくビデオ録画開始の指示を受け
た映像信号入力部は、外部のテレビジョン信号チューナ
ー装置またはカメラまたはＶＴＲ装置等から入力される
映像信号に対してＡ／Ｄ変換処理を施し量子化を行い所
定のデジタル映像信号信号として、映像信号エンコード
部６及び視覚特徴パタン抽出部１２に供給する。映像信
号エンコード部６に供給されたデジタル映像信号信号は
ＭＰＥＧ等の映像信号帯域圧縮処理が施され、複合デー
タ記録処理部７へと逐次転送される。

【０１３１】映像信号入力部５から映像信号信号の分配
供給を受けた視覚特徴パタン抽出部１２では、入力され
る映像信号信号の画像フレーム毎に予め視覚特徴パタン
抽出部１２に登録・内蔵してある人物の口唇周辺画像か
ら取り出した口唇特徴標準パタンを用いて、人物の口唇
周辺部の検出及び口唇周辺画像の抽出処理を行う。口唇
領域の検出と口唇領域画像の抽出には、画像特徴パタン
データとして口唇領域での色空間上の色分布ヒストグラ
ムや、画像空間上の色分布として口唇領域画像をｎ×ｍ
個（ｎ、ｍは任意の自然数でｎはＸ軸上の分割数をｍは
Ｙ軸上の分割数）の画像ブロックに分割した各々のブロ
ック内の色平均情報または輝度平均情報等の色情報を用
い、入力される画像フレーム内の口唇領域の大きさがま
ちまちである事を考慮して口唇領域画像サイズを変数化
して口唇領域の検出および口唇領域画像の抽出を行う。

【０１３２】視覚特徴パタン抽出部１２は、入力された
画像フレームから口唇領域を検出及び抽出できた場合、
抽出した口唇領域画像からさらに人物発声時の視覚特徴
パタンデータの抽出を行う。

【０１３３】視覚特徴パタンデータは口唇の形状を代表
する情報を用いる。例えば前記口唇領域画像抽出時に用
いた口唇領域画像空間を任意の個数に分割した画像ブロ
ックのおのおのの色平均情報または輝度平均情報から構
成される分割した画像ブロック数分成分からなるベクト
ルデータや、または視覚特徴抽出した口唇領域画像デー
タに対してさらに色フィルター等を用いて口唇部分のみ
を抽出し、口唇部分の面積重心点から垂直方向の唇外接
点２点（上下）と水平方向外接点２点（左右）につきそ
れぞれ前記重心点からの相対距離を算出した４個の数値
成分からなるベクトルデータ等である。

【０１３４】発声特徴パタン抽出部１０で抽出された発
声特徴パタンデータと視覚特徴パタン抽出部１２で抽出
された視覚特徴パタンデータは、逐次映像検索インデク
ス生成部１１に出力される。映像検索インデクス部１１
は、各々逐次入力されてくる個々の発声特徴パタンデー
タと視覚特徴パタンデータを時系列を保持したまま映像
信号及び音声信号間で同期可能な時間単位分にまとめて
特徴パタンデータの種別ごとにパケット化し、パケット
毎に特徴パタンデータの種別を表わす識別と時刻情報を
付与する事で、発声特徴パタンデータ及び視覚特徴パタ
ンデータの位置から時刻情報を参照して映像信号または
音声信号にアクセス可能なインデクス構造パケットを生
成し複合データ記録処理部７に逐次転送する。

【０１３５】ビデオ録画開始の指示を受けた複合データ
記録処理部７は、データの記録開始に先立ち、記録媒体
動作制御部８に制御信号を発行して、記録媒体９へのデ
ータ記録開始位置の保持を行う。各々信号帯域圧縮処理
を施された映像信号ならびに音声信号、及び映像検索用
インデクス生成部１１にて生成されたインデクス構造パ
ケットデータを受け取った複合データ記録処理部７は、
ＭＰＥＧ等の所定のフォーマットで映像信号と音声信号
及びインデクス構造パケットデータを多重化処理し、記
録媒体動作制御部８への制御信号を発行して映像記録媒
体９の所定の位置に多重化したデータをＤＶＤ等の記録
フォーマットにしたがって記録する。

【０１３６】こうした一連の動作は、ビデオ録画開始か
らビデオ録画時間終了または外部からの映像信号入力の
終了または外部からの制御信号によるビデオ録画停止指
示、及び装置内各部からのエラー通知をビデオ録画制御
部２が検出するまで繰り返され、ビデオ録画制御部２は
これらを検出した際は装置を構成する各部にビデオ録画
停止指示を行い、装置を初期状態に遷移させる事で動作
を終了する。

【０１３７】このように、映像信号から人物発声時の視
覚特徴パタンを抽出し、発生特徴パタンデータとともに
映像検索用インデックスを作成したので、ＢＧＭ（バッ
クグラウンドミュージック）や環境ノイズなどにより音
声認識精度が低下する場合に、認識精度を補完すること
ができる。

【０１３８】（第６の実施の形態）第６の実施の形態に
かかるビデオ再生装置は、第４、第５の実施の形態に記
述した方式で記録された映像検索用インデクスを用い
て、キーワードによる映像検索ならびに早見を行う。

【０１３９】図１１に第６の実施の形態にかかるビデオ
再生装置の構成が示されている。外部から入力されるビ
デオ再生指示制御信号等は制御信号入力部１で受信され
る。ビデオ再生制御部１３は、受信された制御信号の種
別に応じて装置を構成する各ブロックに対して録画開始
指示信号や停止指示信号を発行する。映像記録媒体９
に、上述した第４、第５の実施の形態に記述した方式で
生成された映像検索用インデクスを含む映像信号及び音
声信号がＤＶＤ等の所定の記録フォーマットで記録され
ている。映像記録媒体９として光ディスクまたはＨＤＤ
（磁気ディスク）またはメモリカードまたは磁気テープ
等を用いる事ができる。複合データ読出処理部７は、ビ
デオ再生制御部１３からの指示により映像記録媒体９で
の記録フォーマットに従いビデオ再生位置を示す時刻位
置から映像信号と音声信号を読み出し、さらに映映像検
索インデックスを読み出す。このとき、記録媒体動作制
御部８は複合データ読出処理部７からの制御指示により
読み出しデータが記録された位置へのシーク等の物理的
な制御を行う。

【０１４０】音声信号デコード部１５は複合データ読出
処理部１４から供給されるＭＰＥＧ等の信号帯域圧縮処
理が施された音声信号の信号帯域を伸張し、音声信号出
力部１６は信号帯域伸張処理を施された音声信号をＤ／
Ａ変換して外部へ出力する。また、映像信号デコード部
１７は複合データ読出処理部１４から供給されるＭＰＥ
Ｇ等の信号帯域圧縮処理が施された映像信号の信号帯域
を伸張し、映像信号出力部１８は信号帯域伸張処理を施
された映像信号をＤ／Ａ変換して外部へ出力する。

【０１４１】映像検索インデクス形成部２１は、複合デ
ータ読出処理部１４から供給される映像検索用インデク
スデータから映像検索用インデクス表の形成を行う。形
成されたインデクス表は記憶回路２３に一時蓄積され
る。

【０１４２】一方、外部から入力されたキーワードはキ
ーワード入力部１９で受け付けられる。キーワードパタ
ン変換部２０は入力されたキーワードを音素符号列に変
換し、さらにパタン照合で使用するパタンデータに変換
する。キーワードパタン照合部２２は、キーワードの特
徴パタンデータの時系列を、記憶回路２３から読み出し
た映像検索用インデクス表内の特徴パタンデータの時系
列とパタン照合する。以上のように構成されたビデオ再
生装置はマイクロコンピュータ組み込み機器または専用
ＬＳＩ回路群等で構成される。

【０１４３】次に、この装置の動作について説明する。

【０１４４】制御信号入力部１は、外部のリモートコン
トロール装置またはキーボード等の入力装置からビデオ
再生指示の制御信号を受け付けると、装置内部の信号形
式に変換した後にビデオ再生制御部１３にビデオ録画指
示信号を発行する。ビデオ録画指示信号を受けたビデオ
再生制御部１３は、複合データ読出処理部１４に対して
例えばビデオ信号の先頭を示す時刻情報とともにビデオ
録画開始の指示を行う。

【０１４５】ビデオ再生開始の指示を受けた複合データ
読出処理部１４は、映像記録媒体９にＤＶＤ等の所定の
記録フォーマットで記録されている予めＭＰＥＧ等の信
号帯域圧縮処理を施されている映像信号と音声信号の読
み出し位置を指示された時刻情報により決定して、記録
媒体動作制御部８に映像信号と音声信号の読み出し位置
へのシーク等の制御信号を発行し、映像記録媒体９から
映像信号と音声信号とを時間同期を保ちながら読み出
す。

【０１４６】複合データ読出処理部１４により読み出さ
れた映像信号は、映像信号デコード部１７に供給されＭ
ＰＥＧ等の信号帯域伸張処理を施され後、映像信号出力
部１８に供給されＤ／Ａ変換処理によりＮＴＳＣアナロ
グ信号等に変換されて、外部のテレビジョンモニター装
置等へ出力される。

【０１４７】同じく複合データ読出処理部１４により読
み出された音声信号は、音声信号デコード部１５に供給
されＭＰＥＧ等の信号帯域伸張処理を施され後、音声信
号出力部１６に供給されＤ／Ａ変換処理によりアナログ
音声信号に変換されて、外部のスピーカ装置等へ出力さ
れる。

【０１４８】制御信号入力部１が、外部のリモートコン
トロール装置またはキーボード等の入力装置からビデオ
検索指示の制御信号を受け付けると、装置内部の信号形
式に変換した後にビデオ再生制御部１３にビデオ検索指
示を発行する。

【０１４９】ビデオ検索指示を受けたビデオ再生制御部
１３は、キーワード入力部１９にキーワード入力を促す
制御信号を発行する。

【０１５０】キーワード入力部１９は、外部のキーボー
ド等の入力装置からキーワードが入力されたら、ビデオ
再生制御部１３へキーワード入力完了の通知を行ない、
入力されたキーワード情報をキーワードパタン変換部２
０へ転送する。

【０１５１】キーワード入力完了通知を受けたビデオ再
生制御部１３は、ビデオ信号内のキーワード検出位置を
示す時刻情報を管理用にビデオ再生制御部１３内部に持
つキーワード検出位置管理表を初期化した後、複合デー
タ読出処理部１４へ映像検索用インデクスデータ読み出
し指示を発行し、キーワードパタン照合部２２へパタン
照合開始の指示を発行する。この際、映像記録媒体９が
メモリーカードやＨＤＤまたは光ディスク等の高いアク
セス性が保証される記録媒体を用いている場合は通常の
ビデオ再生は継続して行われており、映像記録媒体９が
磁気テープ等の高いアクセス性が得られない記録媒体を
用いている場合は一旦通常のビデオ再生は停止される。

【０１５２】キーワード情報を受け取ったキーワードパ
タン変換部２０は、キーワードを音素符号列に変換し、
さらに予め内部に登録してある各サブワードの発声特徴
パタンデータ時系列からなる標準音声パタンを参照して
キーワードの音素符号列をキーワード構成サブワード分
の発声特徴パタンデータ時系列に変換し、キーワードパ
タン照合部２２へ転送する。

【０１５３】ここで、標準音声パタン及び発声特徴パタ
ンデータ時系列として用いるデータは、上記第４、第５
の実施の形態で用いた発声特徴パタンデータと同様に人
物の発声周波数帯域内での短時間スペクトルデータまた
はスペクトルの対数値や、一定時間単位内の音声信号の
対数エネルギー値等の音声認識処理で一般的に用いられ
る音響特徴量から構成されるＮ個（Ｎは任意の自然数）
の成分を持つベクトルデータの時系列である。

【０１５４】一方、ビデオ再生制御部１３からの映像検
索用インデクスデータ読み出し指示を受け付けた複合デ
ータ読出処理部１４は、記録媒体動作制御部８に映像検
索用インデクスデータの読み出し位置のシーク及び高速
読み出し等の制御信号を発行し、映像記録媒体９に所定
の記録フォーマットで記録されている映像検索用インデ
クスデータを高速に読み出し、読み出された映像検索用
インデクスデータは逐次映像検索インデクス形成部２１
へ転送される。

【０１５５】映像検索用インデクスデータは、第４，第
５の実施の形態で記述した方式で一定時間単位でパケッ
ト化されており、パケット毎にインデクスデータの種別
と映像信号及び音声信号に同期した時刻情報が添付され
た発声特徴パタンデータまたは視覚特徴パタンデータま
たは各サブワードごとの時系列パタン照合結果である音
素類似度表からなる時系列データである。

【０１５６】映像検索インデクス形成部２１では、複合
データ読出処理部１４から転送された映像検索用インデ
クスデータを前記パケット単位に再形成して形成された
インデクス構造パケットを、インデクスデータ種別ごと
に時系列を保ってキーワードの照合対象となるに十分な
時間長分のＦＩＦＯ（ファストイン・ファストアウト）
メモリ構造または循環メモリ構造を持つ記憶回路２３に
書き込む。その後キーワードパタン照合部２２によって
一時記憶回路２３からのインデクス構造パケットが読み
捨てらてると、その都度映像検索インデクス形成部２１
は記憶回路２３上の空き記憶領域に新たに転送されて形
成されるインデクス構造パケットの補充書き込みを行
う。尚、映像検索インデクス形成部２１はインデクスデ
ータの最終部分を検出したらキーワードパタン照合部２
２へのインデクス読み出し終了通知を行う。

【０１５７】一方、ビデオ再生制御部１３からパタン照
合開始指示をうけたキーワードパタン照合部２２は、内
部の処理及び記憶回路２３を初期化した後、キーワード
パタン変換部２０より転送されてくるキーワードの発声
特徴パタンデータ時系列を受け取って、映像検索インデ
クス形成部２１によりパタン照合に十分な時間区間長を
もって記憶回路２３内に時刻順に並べられたインデクス
構造パケット内の発声特徴パタンデータ時系列と、受け
取ったキーワードの発声特徴パタンデータの時系列との
パタン照合を行う。

【０１５８】このパタン照合では、記憶回路２３に時刻
順に並べられたインデクス構造パケット内の発声特徴パ
タンデータ時系列内での一定の時刻区間内で、ＤＰ照合
法等を用いて照合区間を伸縮しながら、キーワードの発
声特徴パタンデータの時系列として形成した場合の各発
声特徴パタンデータ間の類似度の和によって一定の類似
性が得られた照合区間をキーワードの検出区間とする事
となる。

【０１５９】パタン照合の際は、ＤＰ照合法等の時系列
パタン照合を用いて、記憶回路２３内の照合を終えたイ
ンデクス構造パケットを逐次読み捨て更新しながら照合
を繰り返し、照合を繰り返す過程で一定の類似性を得ら
れた場合は、発声特徴パタンデータ時系列の最初の発声
特徴パタンデータが存在するインデクス構造パケットに
添付された時刻情報を、キーワード検出位置としてその
都度ビデオ再生制御部１３へ通知する。尚、キーワード
パタン照合部２２は、映像検索インデクス形成部２１か
らインデクス読み出し終了が通知された場合は、記憶回
路２３内の残りのインデクス構造パケットの発声特徴パ
タンデータの照合処理を終えてから、ビデオ再生制御部
１３へキーワード照合の終了を通知する。

【０１６０】ビデオ再生制御部１３は、キーワードパタ
ン照合部２２より１回目のキーワード検出位置を示す時
刻情報を受け取ると一旦内部のキーワード検出位置管理
表の先頭に受け取った時刻情報を記録して、受け取った
時刻情報からのビデオ再生指示を複合データ読出処理部
１４に発行し、その後この装置は通常のビデオ再生と同
様の処理を経て、キーワードを検出した時刻情報位置か
らの映像信号及び音声信号を装置外部に出力する。

【０１６１】ビデオ再生制御部１３は、キーワードパタ
ン照合部２２より２回目以降のキーワード検出位置を示
す時刻情報を受け取ると、前記キーワード検出位置管理
表の先頭から２番目に位置以降に受け取った時刻情報を
順次記録して、外部からの次候補再生を示す指示が制御
信号入力部１を経由して指示された場合のみ前記キーワ
ード検出時刻管理表から順次時刻情報を取り出して、指
定時刻位置からのビデオ再生指示を複合データ読出処理
部１４に発行し、その後この装置は通常のビデオ再生と
同様の処理を経て、キーワードを検出した時刻情報位置
からの映像信号及び音声信号を装置外部に出力する。

【０１６２】ビデオ再生制御部１３は、キーワードパタ
ン照合部２２からキーワード照合の終了を通知されても
前記キーワード検出位置管理表の内容は維持されてお
り、キーワードパタン照合動作が終了してからも外部か
らの次候補再生指示を受け取る度に、前記キーワード検
出時刻管理表から順次時刻情報を取り出して、指定時刻
位置からのビデオ再生指示を複合データ読出処理部１４
に発行可能であり、前記キーワード検出位置管理表は外
部からの次のビデオ検索指示による新たなキーワードが
外部から入力される事で初期化される。

【０１６３】この装置は、こうした一連の動作を外部か
らのキーワードによるビデオ検索指示を受け付ける度に
繰り返えす事で、ビデオ番組の発声情報へのキーワード
照合で映像シーンの特定し、特定した位置からのビデオ
再生による早見が可能である。

【０１６４】以上の説明ではインデクス構造パケットデ
ータが発声特徴パタンデータの時系列であった。さら
に、キーワードパタン照合部２２において、入力された
キーワードのサブワード列と前記音素類似度表内での各
サブワードごとの類似度を用いたパタン照合を行う方式
を採る事もできる。この場合、キーワードパタン変換部
２０は、キーワード入力部１９から転送されてきたキー
ワードをその音素符号列に変換しキーワードパタン照合
部２２へ転送する。

【０１６５】キーワードパタン照合部２２は、ビデオ再
生制御部１３からパタン照合開始指示をうけると内部の
処理及び記憶回路２３を初期化した後、キーワードパタ
ン変換部２０より転送されてくるキーワードの音素符号
列を受け取って、映像検索インデクス形成部２１により
パタン照合に十分な時間区間長をもって記憶回路２３内
に時刻順に並べられたインデクス構造パケット内の音素
類似度表データ時系列と、受け取ったキーワードの音素
符号列との時系列パタン照合を行う。

【０１６６】このパタン照合では、記憶回路２３内に時
刻順に並べられたインデクス構造パケット内の音素類似
度表データ時系列内での一定の時刻区間内で、照合区間
をＤＰ照合法で用いられる時間伸縮の手法等によって伸
縮しながらキーワードの音素系列として形成した場合の
サブワードごとの類似度の和によって一定の類似性得ら
れた照合区間をキーワードの検出区間とする。

【０１６７】すなわち、記録映像と同じ時間幅を持って
いる音素類似度表からパタン照合に十分な区間長のイン
デクス構造パケット群を取り出し、取り出された各イン
デクス構造パケットの発声特徴パタンデータ（始端時
刻、終端時刻、類似度を持つ）を時刻順に並べる。音素
類似度表における１区間には全標準音声パタン（サブワ
ード）に対応した数の発声特徴パタンデータが同一時間
軸上に配列されている。そのような発声特徴パタンデー
タの列が、パタン照合に十分な区間長に存在する区間の
数だけ連続して配列される。このような映像検索インデ
ックスの発声特徴パタンデータの時系列と，キーワード
を構成しているサブワードの発声特徴パタンデータの時
系列と，をＤＰ照合法を用いて照合区間を伸縮しながら
照合し、両者の類似度が所定値以上とな照合期間をキー
ワードの検出区間とする。両者の類似度は、キーワード
を構成しているサブワード系列の順に該当するインデク
ス構造パケットの発声特徴パタンデータを取り出す、そ
の取り出された各発声特徴パタンデータが持つ類似度を
加算した値をである。

【０１６８】キーワード検出区間の最初のサブワードの
始端時刻を、キーワード検出位置としてその都度ビデオ
再生制御部１３へ通知する。

【０１６９】こうしたパタン照合方式によれば、パタン
照合処理の際に例えば発声特徴パタンデータ時系列のよ
うな音響特性成分からなるベクトルデータ間の照合処理
を行う必要がない事から、照合処理時間を大幅に削減す
ることが可能である。

【０１７０】また、映像検索インデックスを，登録され
たキーワードに対応させた固定的した形で持つのではな
く，入力音声の音素類似度表といった中間状態の形で保
存するので、検索キーワードを予め登録する必要がな
く、ユーザが不確定なキーワードを入力した場合にも検
索意図を最も良く反映した映像を検索する事ができる。

【０１７１】また、キーワードパタン変換部が、入力さ
れるキーワードを視覚特徴パタンデータへの変換を行
い、前記キーワードパタン照合部が、予め記録媒体に記
録されている映像検索用インデクスとして第５の実施の
形態で記述した人物発声時の視覚特徴パタンデータを用
い、入力されたキーワードの視覚特徴パタンデータとの
照合を行うように構成する事が以下に可能である。

【０１７２】この場合、キーワードパタン変換部２０
は、キーワード入力部１９から転送されてきたキーワー
ド情報を音素符号列に変換し、さらに予め内部に登録し
てある各サブワードの発声特徴パタンデータ時系列から
なる音素標準パタン、及び各発声サブワードの視覚特徴
パタンデータからなる視覚特徴標準パタンを参照参照し
てキーワードの音素符号列をキーワード構成サブワード
分の発声特徴パタンデータ時系列と視覚特徴パタンデー
タ時系列に変換して、キーワードパタン照合部２２へ転
送する。

【０１７３】ビデオ再生制御部１３からパタン照合開始
指示をうけたキーワードパタン照合部２２は、内部の処
理及び記憶回路２３を初期化した後、キーワードパタン
変換部２０より転送されてくる前記キーワードの発声特
徴パタンデータ時系列と視覚特徴パタンデータ時系列を
受け取って、映像検索インデクス形成部２１により記憶
回路２３内に発声特徴パタンデータで構成されるインデ
クス構造パケットと視覚特徴パタンデータで構成される
インデクス構造パケット別に時刻順に並べられたインデ
クス構造パケット内のデータ時系列とのパタン照合を、
それぞれのデータ種別ごとに行う。

【０１７４】各々のパタン照合では、記憶回路２３内に
時刻順に並べられたインデクス構造パケット内のそれぞ
れの特徴パタンデータ時系列内での一定の時刻区間内
で、ＤＰ照合法等を用いて照合区間を伸縮しながらキー
ワードのそれぞれの特徴パタンデータ時系列とのパタン
照合を行いデータ種別ごとに各サブワードの特徴パタン
データ間の類似度の和を求めキーワード類似度とする。

【０１７５】このようにして求められた発声特徴パタン
データ時系列照合でのキーワード類似度と、視覚特徴パ
タンデータ時系列照合でのキーワード類似度の和から一
定の類似性得られた照合区間をキーワードの検出区間と
し、検出した区間の発声特徴パタンデータ時系列の最初
の発声特徴パタンデータが存在するインデクス構造パケ
ットに添付された時刻情報を、キーワード検出位置とし
てその都度ビデオ再生制御部１３へ通知する。

【０１７６】このように音声からの発声特徴パタンデー
タと、映像からの視覚特徴パタンデータを併用したパタ
ン照合をする事により、例えば録画したビデオ番組等で
ＢＧＭ（バックグラウンドミュージック）や騒音などに
よってインデクス構造デパケット内発声特徴パタンデー
タを構成する音響特性データの精度が下がっている場合
でも、視覚特徴パタンデータを利用する事でキーワード
の検出精度の大幅な低下を防ぐ事が可能である。

【０１７７】また、キーワード入力部が音声入力用マイ
クロフォンを備え、キーワードパタン変換部が入力され
たキーワードの音声信号からキーワードの発声特徴パタ
ンデータへの変換を行うように構成する事が以下に可能
である。

【０１７８】キーワード入力部１９は、外部のマイクロ
フォン等の音声入力装置からキーワードが入力された
ら、ビデオ再生制御部１３へキーワード入力完了の通知
を行ない、入力されたキーワード音声信号にＡ／Ｄ変換
処理を施してキーワードパタン変換部２０へ供給する。

【０１７９】キーワードパタン変換部２０は、入力され
たキーワード音声信号信号に対し、一定時間単位でＦＦ
Ｔ（高速フーリエ変換）処理を行い、人物の発声周波数
帯域の音響特性データを抽出し、さらに抽出した周波数
帯域内での短時間スペクトルデータまたはスペクトルの
対数値や、一定時間単位内の音声信号の対数エネルギー
値等の音声認識処理で一般的に用いられる音響特徴量か
ら構成されるＮ個（Ｎは任意の自然数）の成分を持つベ
クトルデータからなる発声特徴パタンデータ時系列を生
成し、キーワードパタン照合部２２へ転送する。

【０１８０】このように、マイクロフォン等を用いた音
声によるキーワードの入力と、入力された音声信号から
キーワード照合に必要なキーワードの発声特徴パタンデ
ータ時系列を生成する事が可能となる。

【０１８１】また、キーワード入力部がマイクロフォン
と動画像入力用カメラ装置とを備え、前記キーワードパ
タン変換部が利用者のキーワード発声時に入力される映
像信号に対して予め登録されてある発声音ごとの口唇画
像特徴パタンとの照合を行ない、キーワード発声時の映
像信号からキーワードの視覚特徴パタンデータへの変換
を行うように構成する事が以下に可能である。

【０１８２】この場合、キーワード入力部１９は、外部
のマイクロフォン等の音声入力装置及びビデオカメラ装
置とからキーワード情報が入力されたら、ビデオ再生制
御部１３へキーワード入力完了の通知を行ない、入力さ
れたキーワード音声信号及びキーワード発声時の人物の
顔を捉えた映像信号にＡ／Ｄ変換処理を施してキーワー
ドパタン変換部２０へ供給する。

【０１８３】キーワードパタン変換部２０は、入力され
たキーワード音声信号信号からは、音声認識処理で一般
的に用いられる音響特徴量から構成されるＮ個（Ｎは任
意の自然数）の成分を持つベクトルデータからなる発声
特徴パタンデータ時系列を生成し、同じく入力されたキ
ーワード映像信号信号の画像フレーム毎に予め登録して
ある人物の口唇周辺画像から取り出した口唇特徴標準パ
タンを用いて、人物の口唇周辺部の検出及び口唇周辺画
像の抽出処理を行い、抽出した口唇領域画像からさらに
口唇の形状を代表する情報からなる人物発声時の視覚特
徴パタンデータを抽出し、キーワード発声時間分の視覚
特徴パタンデータ時系列生成し、それぞれキーワードパ
タン照合部２２へ転送する。

【０１８４】視覚特徴パタンデータは、例えば前記口唇
領域画像抽出時に用いた口唇領域画像空間を任意の個数
に分割した画像ブロックのおのおのの色平均情報または
輝度平均情報から構成される分割した画像ブロック数分
成分がらなるベクトルデータや、または視覚特徴抽出し
た口唇領域画像データに対してさらに色フィルター等を
用いて口唇部分のみを抽出し、口唇部分の面積重心点か
ら垂直方向の唇外接点２点（上下）と水平方向外接点２
点（左右）につきそれぞれ前記重心点からの相対距離を
算出した４個の数値成分からなるベクトルデータ等であ
る。

【０１８５】このように、マイクロフォン及びビデオカ
メラ装置を用いた映像・音声によるキーワードの入力
と、入力された音声信号からはキーワードの発声特徴パ
タンデータ時系列を、映像信号からはキーワードの視覚
特徴パタンデータ時系列を生成する事が可能となる。

【０１８６】また、本発明のシーン検索システムは音声
だけのシーン検索に適用することができる。上述した方
式にしたがって映像信号と音声信号と映像検索インデッ
クス、又は音声信号と音声映像検索インデックスとを記
録媒体に蓄積する。音声映像検索インデックスは上記映
像検索インデックスと同じ構造のものを用いる事ができ
る。キーワード検出区間の先頭サブワードの始端時刻に
対応する位置から音声信号の取り出しを開始すればよ
い。

【０１８７】

【発明の効果】以上詳記したように本発明によれば、映
像及び又は音声の検索においてユーザが希望するシーン
を、あらかじめ辞書などに登録された単語やキーワード
以外の未知語や、ユーザが入力した不確かなキーワード
であっても、正確かつ高速に検索できる。

【０１８８】また、音声認識技術をビデオ録画時とビデ
オ再生時に分割して用いる事により、ビデオ再生時に任
意のキーワードを用いた高速な映像検索を行い、利用者
の検索意図にそった早見を実現できる。

【０１８９】また、映像検索用インデックスは、ビデオ
の録画と同時に自動的に生成されるため、従来マニュア
ルに頼っていた映像の整理や再利用を目的としたインデ
キシング作業の手間が大幅に削減されることが期待で
き、家庭内でのデジタルビデオカメラやデジタルビデオ
テープレコーダ等での特殊再生機能から大規模なデジタ
ル映像ライブラリシステム等での映像信号ベース構築や
映像検索・閲覧等に有用である。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態にかかるシーン検索
システムの機能ブロック図

【図２】標準音声パタンのデータ構成図

【図３】音素類似度表を示す図

【図４】音素類似度表からキーワードの音素系列に相当
するサブワードをピックアップした状態を示す図

【図５】ピックアップしたサブワードをキーワードの音
素系列の順に配列した状態を示す図

【図６】本発明の第２の実施の形態にかかるシーン検索
システムの機能ブロック図

【図７】（１）映像信号、音声信号及び映像検索イン
デクスを多重化したＭＰＥＧストリームの構成図（２）映像ストリームの構成図（３）ＧＯＰの構成図（４）検索データストリームの構成図

【図８】本発明の第３の実施の形態にかかるシーン検索
システムの機能ブロック図

【図９】本発明の第４の実施の形態にかかるビデオ録画
装置の機能ブロック図

【図１０】本発明の第５の実施の形態にかかるビデオ録
画装置の機能ブロック図

【図１１】本発明の第６の実施の形態にかかるビデオ再
生装置の機能ブロック図

【図１２】既存の映像検索システムの機能ブロック図

【符号の説明】

１制御信号入力部２ビデオ録画制御部３音声信号入力部４音声信号エンコード部５映像信号入力部６映像信号エンコード部７複合データ記録処理部８記録媒体動作制御部９映像記録媒体１０発声特徴パタン抽出部１１映像検索インデクス生成部１２視覚特徴パタン抽出部１３ビデオ再生制御部１４複合データ読出処理部１５音声信号デコード部１６音声信号出力部１７映像信号デコード部１８映像信号出力部１９キーワード入力部２０キーワードパタン変換部２１映像検索インデクス形成部２２キーワードパタン照合部２３記憶回路１００検索データ生成部１０３音声特徴パタン抽出部１０４映像検索インデクス生成部１０５標準音声特徴パタン格納部２００検索処理部２０１記録部２０３キーワード入力部２０５キーワードパタン照合部

───────────────────────────────────────────────────── フロントページの続き (72)発明者遠藤充神奈川県川崎市多摩区東三田３丁目10番１号松下技研株式会社内 (72)発明者星見昌克神奈川県川崎市多摩区東三田３丁目10番１号松下技研株式会社内 (56)参考文献特開平６−68168（ＪＰ，Ａ) 特開平10−173769（ＪＰ，Ａ) 特開平９−130736（ＪＰ，Ａ) 特開平11−161661（ＪＰ，Ａ) 特開2000−78530（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) H04N 5/76 - 5/956 G10L 15/00 - 15/28

Claims

(57)【特許請求の範囲】

【請求項１】映像信号に同期した音声信号から特徴パ
タンを抽出し、サブワードを単位とした標準音声パタン
を用いて類似度を計算し、時間同期情報を含んだサブワ
ード単位のインデックスを生成する検索データ生成部
と、入力されるキーワードに対する時間情報を前記イン
デックスの組合せから導出し、所望とする映像を検索す
る検索処理部とを具備する映像検索装置。
【請求項２】前記検索処理部は、入力されるキーワー
ドをサブワード系列に変換し、サブワード系列の順序に
従ってサブワード毎の類似度を加算（累積）すること
で、キーワードに対する類似度を求め、求めた類似度の
高い区間を所望の映像として検索することを特徴とする
請求項１記載の映像検索装置。
【請求項３】前記検索データ生成部から前記検索処理
部に対して伝送媒体を介して前記映像信号、音声信号及
びインデックスが伝達されることを特徴とする請求項１
または２記載の映像検索装置。
【請求項４】前記伝送媒体は、放送網、通信網又は記
録媒体のいずれかであることを特徴とする請求項３記載
の映像検索装置。
【請求項５】前記検索データ生成部は、映像信号、音
声信号及びインデックスを多重化してデータストリーム
の形式で出力する多重化部を備え、前記検索処理部は、
多重化されたデータストリームを映像信号、音声信号及
びインデックスに分離する多重分離部を備える請求項３
記載の映像検索装置。
【請求項６】前記多重化部は、前記インデックスをユ
ニットに分割する単位を、対応する映像信号のＧＯＰ
（Group of Pictures）単位と一致させることを特徴
とする請求項５記載の映像検索装置。
【請求項７】時間同期情報としてインデックスのユニ
ット部に対応する映像信号のタイムコードを記録するこ
とを特徴とする請求項６記載の映像検索装置。
【請求項８】前記インデックスのユニット部に記録す
るタイムコードは、そのユニット部に対応する映像信号
の開始時刻及び継続時間であることを特徴とする請求項
７記載の映像検索装置。
【請求項９】映像信号に同期した音声信号から特徴パ
タンを抽出し、サブワードを単位とした標準音声パタン
を用いて類似度を計算し、時間同期情報を含んだサブワ
ード単位のインデックスを生成する検索データ生成部
と、入力されるキーワードに対する時間情報を前記イン
デックスの組合せから導出し、所望とする映像を検索す
る検索処理部とを具備し、前記検索処理部は、通信網を経由して接続された検索端
末からキーワードを受信する受信部と、検索された映像
信号を前記通信網を経由して前記検索端末へ送信する送
信部とを有する、映像検索装置。
【請求項１０】音声信号から特徴パタンを抽出し、サ
ブワードを単位とした標準音声パタンを用いて類似度を
計算し、時間同期情報を含んだサブワード単位のインデ
ックスを生成する検索データ生成部と、入力されるキー
ワードに対する時間情報を前記インデックスの組合せか
ら導出し、所望とする音声を検索する検索処理部とを具
備する音声検索装置。
【請求項１１】映像信号に同期した音声信号から特徴
パタンを抽出する音声特徴パタン抽出部と、抽出された
特徴パタンについてサブワードを単位とした標準音声パ
タンを用いて類似度を算出する計算部と、計算された類
似度及び対応する映像信号又は音声信号との時間同期情
報を含んだインデックスを生成するインデックス生成部
とを備える映像検索インデックス生成装置。
【請求項１２】映像信号とこの映像信号に同期した音
声信号とこの音声信号から生成されたサブワード単位の
インデックスとが蓄積された記録部と、入力されるキー
ワードをサブワード系列に変換するキーワード変換部
と、変換されたキーワードのサブワードと前記サブワー
ド単位のインデックスとを照合してキーワードと類似度
の高い区間を検出するキーワード照合部と、検出区間の
先頭サブワードの始端時刻に基づいて前記記録部から該
当する映像信号を取り出す制御部とを備える検索処理装
置。
【請求項１３】前記キーワード照合部は、入力される
キーワードをサブワード系列に変換し、サブワード系列
の順序に従ってサブワード毎の類似度を加算すること
で、キーワードに対する類似度を求め、求めた類似度の
高い区間を所望の映像として検索することを特徴とする
請求項１２記載の検索処理装置。
【請求項１４】記録媒体を有するビデオ録画装置にお
いて、ビデオ録画時に入力される信号から人物の発声に
おける聴覚および、または視覚上の特徴パタンを抽出す
る発声特徴パタン抽出部と、抽出された特徴パタンにつ
いてサブワードを単位とした標準音声パタンを用いて類
似度を算出して類似度及び時刻情報を持ったサブワード
単位のインデクスを生成するインデックス生成部と、入
力信号に対して作成されたサブワード単位のインデクス
とビデオ信号とを前記記録媒体に記録する記録制御部と
を備えるビデオ録画装置。
【請求項１５】前記発声特徴パタン抽出部は、ビデオ
録画時に入力される映像信号に対して予め登録されてあ
る発声音ごとの口唇画像特徴パタンデータとの照合を行
い、映像信号から人物発声時の視覚特徴パタンデータを
抽出する事を特徴とする請求項１４記載のビデオ録画装
置。
【請求項１６】ビデオ信号の再生を行うビデオ再生装
置において、入力音声に対して作成されたサブワード単
位のインデクスとビデオ信号とが記録された記録媒体
と、入力されたキーワードをサブワード系列に変換する
キーワード変換部と、変換されたキーワードのサブワー
ド系列と前記サブワード単位のインデックス内の各サブ
ワードごとの類似度によってキーワード検出を行うキー
ワード照合部とを備えたビデオ再生装置。
【請求項１７】入力したキーワードをもとにビデオ信
号を検索、再生を行うビデオ再生装置において、入力さ
れる信号から人物の発声における聴覚および視覚の特徴
パタンを抽出して作成された発声特徴パタンとビデオ信
号とが記録された記録媒体と、マイクロフォンとカメラ
から入力されたキーワードを聴覚および視覚の特徴パタ
ン照合用データに変換するキーワードパタン変換部と、
前記キーワードのパタン照合用データと既に前記記録媒
体に記録されているビデオ番組の発声特徴パタンとのパ
タン照合を行うキーワードパタン照合部を備えることを
特徴とするビデオ再生装置。
【請求項１８】映像信号に同期した音声信号から特徴
パタンを抽出し、サブワードを単位とした標準音声パタ
ンを用いて類似度を計算し、時間同期情報を含んだサブ
ワード単位のインデックスを生成するインデックス作成
工程と、入力されるキーワードに対する時間情報を前記
インデックスの組合せから導出し、所望とする映像を検
索する検索工程とを具備する映像検索方法。