JPH07253986A - 音声及び動画の検索装置 - Google Patents
音声及び動画の検索装置Info
- Publication number
- JPH07253986A JPH07253986A JP6044080A JP4408094A JPH07253986A JP H07253986 A JPH07253986 A JP H07253986A JP 6044080 A JP6044080 A JP 6044080A JP 4408094 A JP4408094 A JP 4408094A JP H07253986 A JPH07253986 A JP H07253986A
- Authority
- JP
- Japan
- Prior art keywords
- label
- audio
- search
- frame
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7837—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
- G06F16/784—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/732—Query formulation
- G06F16/7343—Query language or query format
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
装置を提供する。 【構成】 コマンド等を入力する入力部101と、ラベ
ル情報を格納したラベル情報格納部103と、ラベル属
性を格納したラベル属性格納部104と、ラベルの上位
概念を格納した上位概念格納部105と、前記ラベル情
報格納部103からデータに関する情報を抽出する第1
の検索部102と、音声及び動画を格納したデータベー
ス107と、前記第1の検索部102により抽出された
情報を元にデータベース107からの所望のデータにア
クセスする制御部106と、前記データを出力する出力
部108とで構成される。
Description
タから所望の部分を検索する音声及び動画の検索装置に
関する。
し、記録に必要な場面にマークを作成し、再生時にこの
マークを手掛かりに必要な情報を検索し得る画像、音声
の記録、再生、編集装置が提案されている(特願平5−
2857)。
は、図16に示すように、画像、音声情報を入力するカ
メラ、マイクロフォン等からなる入力装置1と、入力装
置1から送られる画像、音声情報を記録する記録装置2
と、記録装置2に記録された画像、音声情報などを編集
する編集装置3と、記録された情報を高速再生して必要
な情報を見つけ出す検索装置4と、記録された情報を通
常の速度で再生する再生装置5と、画像、音声情報を出
力するテレビジョン、スピーカ等からなる出力装置6
と、これらの装置間での情報の処理及び受け渡しを制御
する制御装置7及び制御卓8により構成されている。
再生、編集装置の動作について説明する。入力装置1に
より会議の進行が画像及び音声により入力され、この画
像及び音声は記録装置2により記録される。記録された
画像、音声情報は再生装置5により再生され、出力装置
6に出力される。編集装置3により記録装置2に保存さ
れた画像、音声情報の任意の位置にマークが付けられ、
各マークに対して文字情報等が付加される。付加された
情報は記録装置2に保存される。検索装置4は早送りに
よる高速再生を行いながら編集装置3で作成された情報
がテロップとして画像情報に付加されて出力装置6に表
示される。高速再生での情報の不足する部分は通常の速
度で再生される。これにより記録内容の概要把握及び必
要な部分の詳細確認が行われる。
ディジタル化してコンピュータアクセス可能にしてお
き、その音声データの波形や周波数スペクトルをコンピ
ュータの画面上に表示し、予め決められた音素のラベル
を、音声データ上の開始位置と終了位置と共に記憶し、
必要に応じてラベルを手掛かりに音声データを検索する
検索方法がある。
た従来の画像、音声の記録、再生、編集装置及び検索方
法では、音声または動画の事象についての一方のみしか
検索できず、所望の場面を検索できず、例えば、ある人
が「はい」といってうなづいている場面を検索しようと
しても検索できないという問題点がある。
めになされたもので、所望の場面を検索し得る音声及び
動画の検索装置を提供することを目的としている。
目的は、前記音声及び動画のデータを最小の時間単位と
してのフレーム毎に格納するデータベースと、前記デー
タベースに格納された音声、動画のデータをフレーム毎
にラベル付けするためのラベルの属性情報を格納するラ
ベル属性格納手段と、前記ラベル属性格納手段に格納さ
れているラベルの属性情報に基づき、前記フレーム毎に
格納された音声及び動画のデータを複数の異なる事象に
対してラベル付けされたラベル情報を格納するラベル情
報格納手段と、前記ラベルをOR検索又はAND検索に
より検索するための上位概念を格納する上位概念格納手
段と、前記上位概念を指定するコマンドを入力する入力
手段と、前記指定されたコマンドに応答し上位概念格納
手段に格納された上位概念に基づいて、前記ラベル情報
格納手段からラベル情報を検索する検索手段と、前記検
索手段により検索されたラベル情報に対応した音声及び
動画のデータを前記データベースからアクセスする制御
手段と、前記データベースからアクセスされた音声及び
動画のデータを出力する出力手段とを備える音声及び動
画の検索装置によって達成される。
記音声及び動画のデータを最小の時間単位としてのフレ
ーム毎に入力する入力手段と、予めラベル付けされた各
音声及び動画のデータのそれぞれに対応する各特徴量を
格納する特徴量格納手段と、前記入力手段により入力さ
れた音声及び動画のデータと、特徴量格納手段に格納さ
れた特徴量とのマッチングを行い、予め設定されている
条件を満たしている場合にのみ前記マッチングされた前
記特徴量に対応するラベルの出力を行うマッチング手段
と、前記ラベルをOR検索又はAND検索により検索す
るための上位概念を格納する上位概念格納手段と、前記
マッチング手段より出力される前記ラベルを受容し、前
記上位概念格納手段より前記ラベルの上位概念を検索す
る検索手段と、前記検索手段により検索された前記上位
概念を出力する出力手段とを備える音声及び動画の検索
装置によって達成される。
ば、データベースにより音声及び動画のデータを最小の
時間単位としてのフレーム毎に格納され、ラベル情報格
納手段によりラベル情報が格納され、ラベル属性格納手
段によりラベル属性が格納され、上位概念格納手段によ
りラベルの上位概念が格納され、データベースにより音
声及び動画が格納される。データを検索する場合、入力
手段により上位概念を指定するコマンドが入力される
と、上位概念格納手段を参照しデータに関するラベル情
報が検索手段により抽出され、ラベル情報に対応する音
声及び動画データが制御手段によりデータベースからア
クセスされ、出力手段により音声及び動画データが出力
される。これにより、所望の場面を容易に検索し得る。
よれば、入力手段により前記音声及び動画のデータが最
小の時間単位としてのフレーム毎に入力され、特徴量格
納手段には、予めラベル付けされた各音声及び動画のデ
ータのそれぞれに対応する各特徴量を格納され、上位概
念格納手段には、ラベルをOR検索又はAND検索によ
り検索するための上位概念が格納されている。マッチン
グ手段は、前記入力手段により入力された音声及び動画
のデータと、特徴量格納手段に格納された特徴量とのマ
ッチングを行い、予め設定されている条件を満たしてい
る場合にのみ前記マッチングされた前記特徴量に対応す
るラベルの出力を行い、検索手段は、前記ラベルを受容
し前記上位概念格納手段より前記ラベルの上位概念を検
索し、検索された上位概念が出力手段により出力され
る。
置の実施例を図に基づいて説明する。
示すように、コマンド等を入力する入力手段としての入
力部101と、ラベル情報を格納したラベル情報格納手
段としてのラベル情報格納部103と、ラベル属性を格
納したラベル属性格納手段としてのラベル属性格納部1
04と、ラベルの上位概念を格納した上位概念格納手段
としての上位概念格納部105と、前記ラベル情報格納
部103からデータに関する情報を抽出する第1の検索
手段としての検索部102と、音声及び動画データを格
納したデータベース107と、前記検索部102により
抽出された情報を元にデータベース107からの所望の
データにアクセスする制御手段としての制御部106
と、前記データベース107からのデータを出力する出
力手段としての出力部108とを備えている。
像、音声の記録、再生、編集装置の実際のシステム構成
は、図2に示される。入力部101は、キーボード10
及びマウス11から構成されており、検索部102及び
制御部106はコンピュータ本体12内に内蔵されてい
る。コンピュータ本体12には、ラベル情報格納部10
3、ラベル属性格納部104及び上位概念格納部105
を兼ねる磁気ディスク13と、データベース107とし
ての光磁気ディスク14と、ディスプレイ15とが接続
されている。光磁気ディスク14には、出力部108と
してのモニタ16と、受付担当者110側に配置された
入出力装置17と、被検者111側に配置された入出力
装置18とが接続されている。入出力装置17は、カメ
ラ19、マイク20、モニタ21及びスピーカ22から
構成されている。
3が配置されており、受付担当者110は、ハーフミラ
ー23を見ることによりモニタ21に写し出される被検
者111とあたかも対面するようになっている。同様
に、入出力装置18は、カメラ24、マイク25、モニ
タ26及びスピーカ27から構成されている。
受付担当者110側のスピーカ22に出力され、被検者
111の姿はカメラ24により撮影されて受付担当者1
10側のモニタ21に出力される。同様に、受付担当者
110の音声はマイク20を通して被検者111側のス
ピーカ27に出力され、受付担当者110の姿はカメラ
19により撮影されて被検者111側のモニタ26に出
力される。受付担当者110がハーフミラー23を介し
てモニタ21に映る被検者を見ると、受付担当者110
の視線はハーフミラー23を通ってカメラ19に向いて
いるので、モニタ26に映っている受付担当者も被検者
111を見ているようになる。モニタ21の全面にハー
フミラー23を置くことにより、モニタ21と受付担当
者110の目線を結ぶ線上にあたかもカメラがあるかの
ようにして受付担当者110を撮影している。
の音声、カメラ24により撮影された被検者111の姿
の画像、マイク20によりとられた受付担当者110の
音声、及びカメラ19により撮影された受付担当者11
0の姿の画像は、光磁気ディスク14に記録される。光
磁気ディスク14はキーボード10、マウス11、コン
ピュータ本体12、磁気ディスク13及びディスプレイ
15からなるワークステーションによりコントロールさ
れ、書き込み及び再生が行われる。再生時の音声及び動
画はモニタ16に出力される。ラベル情報、ラベル属
性、上位概念等のデータは、磁気ディスク13に書き込
まれている。キーボード10及びマウス11によって、
コマンド等が入力できるようになっている。
#の後に続いて属性名があり、属性名は異なる事象を意
味している。なお、図3においてはi番目の属性につい
て説明している。
に着目しているかという意味である。各属性名の下に続
いてラベル名があり、属性の中で異なる動作をラベル付
けする。例えば、身体の動きの違いを表している。
の属性のtaskは、データのタスクを表し、このデー
タの中のラベルとしてuketsuke(受付のタス
ク)、janken(じゃんけんのタスク)がある。二
番目の属性のgestureは、人の身体動作を表し、
その中のラベルとしてbow(おじぎ)、nod(うな
ずき)、look(メモを見る)、pointing
(指さし)がある。三番目の属性のexpressio
nは、人の表情を表し、その中のラベルとしてsmil
e(微笑み)、angry(怒り)、laugh(笑
い)、confuse(困惑)がある。四番目の属性の
headは、人の頭がどの方向を向いてるかを表し、そ
の中のラベルとしてleft(左を向いている)、ri
ght(右を向いている)、up(上を向いている)、
down(下を向いている)、center(正面を向
いている)がある。五番目の属性のeyeは、人の視線
がどうなっているかを表し、その中のラベルとしてco
ntact(相手を見ている)、eclose(目を閉
じている)がある。六番目の属性のmouthは、人の
口がどうなっているかを表し、その中のラベルとしてm
open(開いている)、mclose(閉じている)
がある。七番目の属性のspeechは、人の発声した
内容を表し、その中のラベルとしてirasshai
(いらっしゃい)、hai(はい)、iie(いい
え)、arigatou(ありがとう)などがある。
名28に続く行にそれぞれラベルの開始フレーム29、
ラベルの終了フレーム30、ラベル名31の順で記述さ
れている。ラベル名はラベル属性で定義された名称が用
いられる。なお、ここでいう開始フレーム29及び終了
フレーム30は光磁気ディスク14に記録されているデ
ータのフレーム番号を表している。例えば、属性名ge
stureで、フレーム番号6943から6962まで
はnod(うなずき)をしたことを表している。
付け及び検索に係る画面構成を図6を用いて説明する。
はラベル属性が表示されている。図示例では、tas
k、gesture、expression、hea
d、eye、mouth、speechの7つのラベル
属性の情報が表示されている。再生フレームウィンドウ
33には現時点での光磁気ディスクの再生フレームが表
示されている。ラベル情報ウィンドウ34には各ラベル
属性のラベルがフレームに対応して表示されている。ラ
ベルは、各属性ごとに直線上に並べて表示されており、
ラベルの位置を示すラベルの開始フレームから終了フレ
ームまでの領域が矩形35で表されている。フレームウ
ィンドウ36には、ラベル情報ウィンドウ34が表示し
ているフレームが表示されている。フレームカーソル3
7は、表示されているバーを左右に動かすことによりラ
ベル情報ウィンドウ34の見えている時間を変更するこ
とができる。この場合、フレームウィンドウ36の目盛
りや数値も連動して動くようになっている。
トロールし、その機能は左端のボタンから、高速逆再
生、通常逆再生、スロー逆再生、逆コマ送り、停止、コ
マ送り、スロー再生、通常再生、高速再生となってい
る。高速逆再生ボタン、高速再生ボタン、逆コマ送りボ
タン及びコマ送りボタンはボタンを押している間だけそ
の制御ができ、その他のボタンは一度そのボタンが押さ
れると、他のボタンが押されるまでその制御が持続され
る。コマンドボタン39は、ラベル情報を追加(Ad
d)したり、修正(Modify)したり、消去(De
lete)したり、選択(Select)したりする場
合に用いられる。ラベル選択ボタン40は、ラベルにラ
ベル名を付与する場合や、ラベルを指定する場合に用い
られる。
図7を用いて詳細に説明する。
y方向とし、ラベル属性task、gesture、e
xpression、head、eye、mouth、
speechを表示するy座標をそれぞれY[1],Y
[2],Y[3],Y[4],Y[5],Y[6],Y
[7]、マウスカーソルの座標を(MX,MY)とし、
ラベルを表示する画面の最左端のx座標をLEFT、最
右端のx座標をRIGHT、フレームウィンドウ36に
表示している最左端のフレームをSTARTFRAM
E、最右端のフレームをEND FRAMEとする。い
ま表示しようとしているラベル情報が、i番目のラベル
属性で、開始フレーム、終了フレームが、それぞれs
t,edとすると、図8に示すように、ラベルの位置す
なわち最左端LX1、最右端LX2、最下端LY1、最
上端LY2は次式により求められる。
E)/(END FRAME−START FRAM
E)*(RIGHT−LEFT)+LEFT if(LX1<LEFT)thenLX1=LEFT LX2=(ed−START FRAME)/(END
FRAME−START FRAME)*(RIGH
T−LEFT)+LEFT if(LX2>RIGHT)thenLX2=RIGH
T LY1=Y[i]−A LY2=Y[i]+A なお、Aにより矩形の縦方向の幅が決められ、Aは表示
の大きさに依存する値であるが、ここではA=2とす
る。
る。
のを検知し、このラベルの開始フレームと終了フレーム
とが制御部106に送られ、データが再生される。例え
ば、図10(b)に示すように、ラベルをマウスでクリ
ックするだけでそのラベルを付与した音声及び動画のデ
ータを再生することができる。
ウ34内にある場合、常にマウスカーソル41の位置を
検出し、次式より得られるframeに相当するフレー
ムの音声及び画像が出力される。
GHT−LEFT)*(END FRAME−STAR
T FRAME)+START FRAME 次に、コマンドの実行の手順を図9aのフローチャート
に沿って説明する。
ウ39のAddボタン上にマウスカーソル41が移動さ
れ、マウスボタンが押される。この時、Addボタンは
選択されていることを示すために、通常の状態とは異な
る色で選択されていることが容易に分かる選択色に変わ
る。
ベル付けしたい所望のラベルの上にマウスカーソル41
が移動され、マウスボタンが押される(ステップS
1)。この時、選択されたラベルボタンは選択色に変わ
る。それから、開始フレームでマウスボタンが押され
(ステップS2)、マウスボタンを押したままマウスカ
ーソル41がドラッグされ、終了フレームでマウスボタ
ンが離される(ステップS3)。マウスをドラッグして
いる間は、開始フレームから現在、マウスカーソル41
が指しているフレームまで、選択されたラベル属性固有
のy座標の位置に矩形が表示され、同時にその時点での
画像が再生される。このように入力されたラベル名、開
始フレーム、終了フレームの情報は、ラベル情報格納部
103としての磁気ディスク13に格納される(ステッ
プS4、S5)。なお、ラベル選択ボタン40は、現在
選択されているボタン以外のボタンが選択されるまで、
選択が継続され、二つ以上のボタンが同時に選択される
ことはない。再度Addボタンが押されるか、他のコマ
ンドボタン39が押されると、作業は終了する(ステッ
プS6)。この時、Addボタンの色は、選択色から元
の色に戻される。
ラベル名、開始フレーム、終了フレームの何れか一つま
たは複数を変更する場合の動作を、図9bのフローチャ
ートに沿って説明する。
が押されると、Modifyボタンの色が選択色に変わ
る。ラベル名が変更される場合、変更したいラベル名の
ラベル選択ボタン40が押され(ステップS7)、ラベ
ル情報ウィンドウ34の変更したいラベルの矩形が押さ
れる(ステップS8)。これにより新しいラベル名に書
き変えられる(ステップS9)。ラベル選択ボタン40
により選択したラベル属性とラベル情報ウィンドウ34
で選択したラベルの属性が違った場合、ラベル名の書き
換えは起こらない。開始フレーム及び終了フレームを変
更したい場合、図10(a)に示すように、変更したい
ラベルの矩形の境界である開始フレームまたは終了フレ
ームがマウスカーソル41により押され(ステップS1
0)、そのまま変更したいフレームまでマウスカーソル
41がドラッグされてから離される(ステップS1
1)。このように修正されたラベル名、開始フレーム、
終了フレームの情報は、以前の情報に置き換えられて磁
気ディスク13に格納される(ステップS12)。この
際、表示画面の書き換えが行われる(ステップS1
3)。なお、ラベル選択ボタン40は、現在選択されて
いるボタン以外のボタンが選択されるまで、選択が継続
され、二つ以上のボタンが同時に選択されることはな
い。再度Modifyボタンが押されるか、他のコマン
ドボタン39が押されると、作業は終了される(ステッ
プS14)。Modifyボタンの色は選択色から元の
色に戻される。
消去する場合の動作を図9cのフローチャートに沿って
説明する。
が押されると、Deleteボタンの色が選択色に変わ
る。ラベル情報ウィンドウ34から消去したいラベルの
矩形の上にマウスカーソル41が移動され、マウスボタ
ンが押される(ステップS15)。すると、制御部10
6からディスプレイ15へラベル消去の確認信号が出力
され、そのラベルの消去がOKであると確認されると
(ステップS16)、そのラベルの情報はラベル情報格
納部103から消去される(ステップS17)。この
際、表示画面の書き換えが行われる(ステップS1
8)。再度Deleteボタンが押されるか、他のコマ
ンドボタン39が押されると、作業は終了される(ステ
ップS19)。Modifyボタンの色は選択色から元
の色に戻される。また、上述ステップS16において、
ラベルの消去がOKでない場合、消去の作業は終了す
る。
時に消去したり、順に再生したりする場合の動作を図9
dのフローチャートに沿って説明する。
が押されると、Selectボタンの色が選択色に変わ
る。複数のラベル情報を同時に消去したい場合、ラベル
情報ウィンドウ34から消去したい複数のラベルの矩形
の上に順次にマウスカーソル41が移動され、マウスボ
タンが押される(ステップS20、S21)。このとき
選択されたラベルは、図10(c)に示すように、選択
色に変わる。コマンドボタン39のDeleteボタン
が押されると(ステップS22)、制御部106からデ
ィスプレイ15へ複数のラベル消去の確認信号が出力さ
れ、複数のラベルの消去がOKであると確認されると
(ステップS23)、それらのラベルの情報はラベル情
報格納部103から消去される(ステップS24)。こ
の際、表示画面の書き換えが行われる(ステップS2
5)。再度Selectボタンが押されるか、他のコマ
ンドボタン39が押されると、作業は終了される(ステ
ップS26)。Selectボタンの色は選択色から元
の色に戻される。また、上述ステップS23において、
ラベルの消去がOKでない場合、消去の作業は終了され
る。
情報ウィンドウ34から再生したい複数のラベルの矩形
の上に順次にマウスカーソル41が移動され、マウスボ
タンが押される(ステップS20、S21)。このとき
選択されたラベルは、図10(c)に示すように、選択
色に変わる。コマンドボタン39のDeleteボタン
を押さずに(ステップS22)、操作ボタン38の再生
ボタンが押されると(ステップS27)、検索部102
はラベル情報を検索する(ステップS28)。選択され
たラベル情報が順に再生される(ステップS29)。再
度Selectボタンが押されるか、他のコマンドボタ
ン39が押されると、作業は終了される(ステップS2
6)。Selectボタンの色は選択色から元の色に戻
される。次に、複数の属性間でのラベル検索について図
11に基づき詳細に説明する。属性が異なる2つのラベ
ルL1、L2を考えると、縦方向には、属性のラベルが
ならんでいる。横方向は時間を表しており、単位はフレ
ームである。この二つのラベルの重なった部分をAND
検索すると、領域S1になる。このS1の部分が音声及
び画像の再生対象となる。同様に、二つのラベルのいず
れか一方でも含む部分をOR検索すると、領域S2にな
る。このS2の部分が音声及び画像の再生対象となる。
を「うなずき」のラベル、L2を「はい」のラベルとす
ると、領域S1は、「はい」と言い始め、「うなずき」
が終了する間を示しており、領域S2は、「うなずき」
始め、「はい」と言い終わる間を示している。
なずき」の最中で「はい」と言っている間を示してお
り、領域S2は、「うなずき」の全区間を示している。
とに時間的な重なりがなく、図中のTHがラベルL1
「うなずき」とラベルL2「はい」との関係から決まる
所定値より大きい場合を示している。これは、「うなず
き」とこれに続く「はい」には関連がないことを表して
いる。この時、AND検索で検索される領域S1はな
い。OR検索される領域S2は図のように二箇所が検索
される。ここでは「うなずき」が再生された後に「は
い」が再生される。
とに時間的な重なりがなく、図中のTHがラベルL1
「うなずき」とラベルL2「はい」との関係から決まる
所定値より小さい場合を示している。これは、「うなず
き」とこれに続く「はい」との間には関連があり、両者
を同時に検索する必要があることを表している。この
時、AND検索で検索される領域S1はない。OR検索
される領域S2は図のように両者を合わせた領域とな
る。ここでは「うなずき」が再生され、その後も再生が
続いて「はい」が再生される。
検索の手法であるAND検索かOR検索かの指定は、キ
ーボード10またはマウス11から入力する。
する。
のラベルの生起関係で表せられ、AND検索やOR検索
で抽出できる事象のことである。例えば、上位概念「同
意」は、ラベル属性speechのラベル名「はい」と
ラベル属性gestureのラベル名「うなずき」のO
R検索で抽出される領域のことである。これは、人は
「同意」するときに、「はい」と言う音声や「うなず
き」という身体動作のどちらか一方、またはその双方が
同時に現れていることに由来する。
装置の実施例を図に基づいて説明する。
び動画のデータを入力する入力手段としての入力部20
1と、予めラベル付けされたデータの特徴量を格納する
特徴量格納手段としての特徴量格納部203と、入力部
201より入力される音声及び動画のデータと特徴量格
納部203に格納されている特徴量とを比較してその類
似度が一番大きくかつ所定閾値より大きい場合に、その
特徴量に付属するラベル名を出力するマッチング手段と
してのマッチング部202と、ラベルの上位概念を格納
した上位概念格納手段としての上位概念格納部205
と、前記マッチング部202で得られた各ラベル属性の
ラベル名の時系列データから前記上位概念格納部205
に格納されている上位概念を検索する第2の検索手段と
しての検索部204と、検索部204により検索された
結果を出力する出力手段としての出力部206とから構
成されている。
索装置の実施例と同様に、本実施例においては、ラベル
毎の特徴量が抽出される。この抽出は、例えば図14に
示すように、全身領域50、頭領域51、顔領域52、
目領域53、口領域54で行われる。どの属性がどの領
域に関係しているかを図15に示す。
bow(おじぎ)、nod(うなずき)、look(メ
モを見る)、pointing(指さし)などの特徴
は、全身領域50から抽出される。
mile(微笑み)、angry(怒り)、laugh
(笑い)、confuse(困惑)などの特徴は、顔領
域52から抽出される。
向いている)、right(右を向いている)、up
(上を向いている)、down(下を向いている)、c
enter(正面を向いている)などの特徴は、頭領域
51から抽出される。
(相手を見ている)、eclose(目を閉じている)
などの特徴は、目領域53から抽出される。
(開いている)、mclose(閉じている)などの特
徴は、口領域54から抽出される。
hai(いらっしゃい)、hai(はい)、iie(い
いえ)、arigatou(ありがとう)などの特徴
は、口領域54から抽出される。ここで、ラベル属性s
peechについて、音声波形を周波数分析したものも
特徴量として保持されている。
タに記録されている人物の位置があまり移動しないとし
て、多くのデータから得られた平均的な座標で表せられ
ている。この座標の値は、最左端、最下端、最右端、最
上端の順で記載されている。
は、ラベル区間の時系列データとなり、このデータは特
徴量格納部203に予め格納される。入力部201より
音声及び動画が入力されると、特徴量格納部203に格
納されている全ての特徴量とのマッチングがマッチング
部202で行われる。このときダイナミック・プログラ
ミング等の手法が用いられ、ラベル属性毎に一番似てい
るラベルがそのマッチングしている区間のフレーム値と
共に得られる。このようにして得られたラベルの時系列
から、上述第一の実施例と同様に、上位概念格納部20
5に格納されている上位概念が指定の検索手段により検
索され、その結果は出力部206にて出力される。
声及び動画の検索装置によれば、データを検索する場
合、入力手段により所定のコマンドが入力されると、上
位概念格納手段を用い上位概念に対応したラベル情報格
納手段からデータに関するラベル情報が第1の検索手段
により抽出され、第1の検索手段により抽出されたラベ
ル情報を元にデータベースからの所望のデータが制御手
段によりアクセスされ、出力手段によりこのデータが出
力されるように構成したので、上位概念に対応する所定
のコマンドを入力するだけで、OR検索又はAND検索
により所望の場面を容易に検索することができる。
よれば、マッチング手段が、特徴量格納手段に格納され
ている予めラベル付けされた各音声及び動画データのそ
れぞれに対応する各特徴量と、入力手段により入力され
た前記音声及び動画データとのマッチングを行い、予め
設定されている条件を満たしている場合にのみマッチン
グした特徴量に対応するラベルの出力を行う。第2の検
索手段は、上位概念格納手段よりマッチング手段より出
力されたラベルの上位概念を検索し、出力手段が検索さ
れた上位概念を出力するため、入力した音声及び動画デ
ータの上位概念を容易に検索することができる。
構成を示すブロック図である。
用いられ画像、音声の記録、再生、編集装置を示す概略
構成図である。
である。
る。
る。
である。
る。
る。
る。
る。
る。
図である。
ある。
の構成を示すブロック図である。
る。
示すブロック図である。
Claims (3)
- 【請求項1】 音声や動画のデータを検索する音声及び
動画の検索装置であって、前記音声及び動画のデータを
最小の時間単位としてのフレーム毎に格納するデータベ
ースと、前記データベースに格納された音声、動画のデ
ータをフレーム毎にラベル付けするためのラベルの属性
情報を格納するラベル属性格納手段と、前記ラベル属性
格納手段に格納されているラベルの属性情報に基づき、
前記フレーム毎に格納された音声及び動画のデータを複
数の異なる事象に対してラベル付けしたラベル情報を格
納するラベル情報格納手段と、前記ラベルをOR検索又
はAND検索により検索するための上位概念を格納する
上位概念格納手段と、前記上位概念を指定するコマンド
を入力する入力手段と、前記指定されたコマンドに応答
し上位概念格納手段に格納された上位概念に基づいて前
記ラベル情報格納手段からラベル情報を検索する検索手
段と、前記検索手段により検索されたラベル情報に対応
した音声及び動画のデータを前記データベースからアク
セスする制御手段と、前記データベースからアクセスさ
れた音声及び動画のデータを出力する出力手段とを備え
る音声及び動画の検索装置。 - 【請求項2】 ラベル属性として複数の属性が設けられ
ている請求項1に記載の音声及び動画の検索装置。 - 【請求項3】 音声や動画のデータを検索する音声及び
動画の検索装置であって、前記音声及び動画のデータを
最小の時間単位としてのフレーム毎に入力する入力手段
と、予めラベル付けされた各音声及び動画のデータのそ
れぞれに対応する各特徴量を格納する特徴量格納手段
と、前記入力手段により入力された音声及び動画のデー
タと、特徴量格納手段に格納された特徴量とのマッチン
グを行い、予め設定されている条件を満たしている場合
にのみ前記マッチングされた前記特徴量に対応するラベ
ルの出力を行うマッチング手段と、前記ラベルをOR検
索又はAND検索により検索するための上位概念を格納
する上位概念格納手段と、前記マッチング手段より出力
される前記ラベルを受容し、前記上位概念格納手段より
前記ラベルの上位概念を検索する検索手段と、前記検索
手段により検索された前記上位概念を出力する出力手段
とを備える音声及び動画の検索装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04408094A JP3171744B2 (ja) | 1994-03-15 | 1994-03-15 | 音声及び動画の検索装置 |
US08/404,082 US5561796A (en) | 1994-03-15 | 1995-03-14 | Apparatus for searching for speech and moving images |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04408094A JP3171744B2 (ja) | 1994-03-15 | 1994-03-15 | 音声及び動画の検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07253986A true JPH07253986A (ja) | 1995-10-03 |
JP3171744B2 JP3171744B2 (ja) | 2001-06-04 |
Family
ID=12681648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP04408094A Expired - Lifetime JP3171744B2 (ja) | 1994-03-15 | 1994-03-15 | 音声及び動画の検索装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5561796A (ja) |
JP (1) | JP3171744B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6031484A (en) * | 1996-11-19 | 2000-02-29 | Daimlerchrysler Ag | Release device for passenger restraint systems in a motor vehicle |
JP2000315259A (ja) * | 1999-05-06 | 2000-11-14 | Sharp Corp | データベース作成装置及びデータベース作成プログラムを記録した記録媒体 |
US8165306B2 (en) | 1999-08-26 | 2012-04-24 | Sony Corporation | Information retrieving method, information retrieving device, information storing method and information storage device |
WO2022003836A1 (ja) * | 2020-06-30 | 2022-01-06 | 日本電信電話株式会社 | 処理システム及び処理方法 |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5903454A (en) | 1991-12-23 | 1999-05-11 | Hoffberg; Linda Irene | Human-factored interface corporating adaptive pattern recognition based controller apparatus |
US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
US10361802B1 (en) | 1999-02-01 | 2019-07-23 | Blanding Hovenweep, Llc | Adaptive pattern recognition based control system and method |
US6400996B1 (en) | 1999-02-01 | 2002-06-04 | Steven M. Hoffberg | Adaptive pattern recognition based control system and method |
US6418424B1 (en) | 1991-12-23 | 2002-07-09 | Steven M. Hoffberg | Ergonomic man-machine interface incorporating adaptive pattern recognition based control system |
US6850252B1 (en) | 1999-10-05 | 2005-02-01 | Steven M. Hoffberg | Intelligent electronic appliance system and method |
KR100194923B1 (ko) * | 1996-06-21 | 1999-06-15 | 윤종용 | 동영상 정보 검색장치 및 방법 |
US5828809A (en) * | 1996-10-01 | 1998-10-27 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for extracting indexing information from digital video data |
US6260044B1 (en) | 1998-02-04 | 2001-07-10 | Nugenesis Technologies Corporation | Information storage and retrieval system for storing and retrieving the visual form of information from an application in a database |
US6411922B1 (en) * | 1998-12-30 | 2002-06-25 | Objective Systems Integrators, Inc. | Problem modeling in resource optimization |
US7038715B1 (en) * | 1999-01-19 | 2006-05-02 | Texas Instruments Incorporated | Digital still camera with high-quality portrait mode |
US7904187B2 (en) | 1999-02-01 | 2011-03-08 | Hoffberg Steven M | Internet appliance system and method |
US7082436B1 (en) | 2000-01-05 | 2006-07-25 | Nugenesis Technologies Corporation | Storing and retrieving the visual form of data |
GB2365552B (en) * | 2000-03-30 | 2004-11-17 | Canon Kk | Machine interface |
US7043439B2 (en) * | 2000-03-29 | 2006-05-09 | Canon Kabushiki Kaisha | Machine interface |
JP2002132782A (ja) * | 2000-10-27 | 2002-05-10 | Toshiba Corp | マルチメディアデータ管理システム |
US7496591B2 (en) * | 2001-12-21 | 2009-02-24 | Honeywell International Inc. | Method and system for capturing, storing and retrieving events and activities |
US7027954B2 (en) * | 2001-12-21 | 2006-04-11 | Honeywell International Inc. | Method and apparatus for retrieving activity data related to an activity |
US7225193B2 (en) * | 2001-12-21 | 2007-05-29 | Honeywell International Inc. | Method and apparatus for retrieving event data related to an activity |
US7152068B2 (en) * | 2001-12-21 | 2006-12-19 | Honeywell International Inc. | Method and apparatus for retrieving time series data related to an activity |
JP2005184795A (ja) * | 2003-11-27 | 2005-07-07 | Fuji Photo Film Co Ltd | 画像編集装置および方法並びにプログラム |
JP2006287749A (ja) * | 2005-04-01 | 2006-10-19 | Canon Inc | 撮像装置、及びその制御方法 |
JP5028858B2 (ja) * | 2006-05-09 | 2012-09-19 | セイコーエプソン株式会社 | 画像管理装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4979050A (en) * | 1983-12-02 | 1990-12-18 | Lex Computer And Management Corporation | Video composition method for assembling video segments |
US5253361A (en) * | 1989-09-15 | 1993-10-12 | Emtek Health Care Systems, Inc. | System for accessing a row of time-dependent data by referring to a composite index table indicating page locations of linked row labels |
US5267351A (en) * | 1989-12-22 | 1993-11-30 | Avid Technology, Inc. | Media storage and retrieval system |
US5257185A (en) * | 1990-05-21 | 1993-10-26 | Ann W. Farley | Interactive, cross-referenced knowledge system |
US5404295A (en) * | 1990-08-16 | 1995-04-04 | Katz; Boris | Method and apparatus for utilizing annotations to facilitate computer retrieval of database material |
JPH04223567A (ja) * | 1990-12-26 | 1992-08-13 | Mitsubishi Electric Corp | 情報検索装置 |
JPH052857A (ja) * | 1991-02-20 | 1993-01-08 | Fuji Xerox Co Ltd | 画像・音声の記録・再生・編集装置 |
CA2066559A1 (en) * | 1991-07-29 | 1993-01-30 | Walter S. Rosenbaum | Non-text object storage and retrieval |
FR2683415B1 (fr) * | 1991-10-30 | 1996-08-09 | Telediffusion Fse | Systeme d'analyse video du montage d'un programme televise diffuse ou enregistre et son utilisation pour les techniques de post production, notamment multilingues. |
JPH0756652B2 (ja) * | 1992-03-24 | 1995-06-14 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 動画像のフレーム列の検索 |
-
1994
- 1994-03-15 JP JP04408094A patent/JP3171744B2/ja not_active Expired - Lifetime
-
1995
- 1995-03-14 US US08/404,082 patent/US5561796A/en not_active Expired - Lifetime
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6031484A (en) * | 1996-11-19 | 2000-02-29 | Daimlerchrysler Ag | Release device for passenger restraint systems in a motor vehicle |
JP2000315259A (ja) * | 1999-05-06 | 2000-11-14 | Sharp Corp | データベース作成装置及びデータベース作成プログラムを記録した記録媒体 |
US8165306B2 (en) | 1999-08-26 | 2012-04-24 | Sony Corporation | Information retrieving method, information retrieving device, information storing method and information storage device |
WO2022003836A1 (ja) * | 2020-06-30 | 2022-01-06 | 日本電信電話株式会社 | 処理システム及び処理方法 |
Also Published As
Publication number | Publication date |
---|---|
JP3171744B2 (ja) | 2001-06-04 |
US5561796A (en) | 1996-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3171744B2 (ja) | 音声及び動画の検索装置 | |
US5689618A (en) | Advanced tools for speech synchronized animation | |
JP3526067B2 (ja) | 再生装置及び再生方法 | |
US5692212A (en) | Interactive multimedia movies and techniques | |
US5819103A (en) | Information recording/reproducing apparatus and method | |
JP4364190B2 (ja) | マルチメディアデータストリームの非線形的再生制御方法及びその装置 | |
JP3230569B2 (ja) | 情報蓄積装置、情報蓄積方法および情報蓄積再生装置 | |
US5473744A (en) | Computer-assisted interactive method and apparatus for making a multi-media presentation | |
US6215505B1 (en) | Scheme for interactive video manipulation and display of moving object on background image | |
JP3185505B2 (ja) | 会議録作成支援装置 | |
US5111409A (en) | Authoring and use systems for sound synchronized animation | |
US5101364A (en) | Method and facility for dynamic video composition and viewing | |
US20050008343A1 (en) | Producing video and audio-photos from a static digital image | |
US20070165022A1 (en) | Method and system for the automatic computerized audio visual dubbing of movies | |
JPH07168855A (ja) | 情報記録再生装置 | |
JPH10214270A (ja) | 情報蓄積装置および情報蓄積再生装置 | |
US7109993B2 (en) | Method and system for the automatic computerized audio visual dubbing of movies | |
JPH1049515A (ja) | 情報表示装置および情報蓄積再生装置 | |
US5999172A (en) | Multimedia techniques | |
JP3775446B2 (ja) | 会議情報記録方法および会議情報記録装置並びに会議情報再生装置 | |
Aigrain et al. | Representation-based user interfaces for the audiovisual library of the year 2000 | |
JPH11259501A (ja) | 発言構造検出表示装置 | |
JP2765270B2 (ja) | 動画像提示方法 | |
JP5146258B2 (ja) | 情報処理装置、情報処理システム、およびプログラム | |
JPH0232473A (ja) | 動画像検索編集方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080323 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090323 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090323 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100323 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100323 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110323 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110323 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120323 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130323 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140323 Year of fee payment: 13 |
|
EXPY | Cancellation because of completion of term |