JPH07200616A - マルチメディア情報処理方法および装置 - Google Patents

マルチメディア情報処理方法および装置

Info

Publication number
JPH07200616A
JPH07200616A JP6000689A JP68994A JPH07200616A JP H07200616 A JPH07200616 A JP H07200616A JP 6000689 A JP6000689 A JP 6000689A JP 68994 A JP68994 A JP 68994A JP H07200616 A JPH07200616 A JP H07200616A
Authority
JP
Japan
Prior art keywords
change
information
time
video
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6000689A
Other languages
English (en)
Other versions
JP3373924B2 (ja
Inventor
Masakatsu Ookubo
雅且 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP00068994A priority Critical patent/JP3373924B2/ja
Publication of JPH07200616A publication Critical patent/JPH07200616A/ja
Application granted granted Critical
Publication of JP3373924B2 publication Critical patent/JP3373924B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

(57)【要約】 【目的】映像情報と音声情報とを有するマルチメディア
情報を処理するシステムにおいて,情報の意味的な構造
とうまく対応するようにマルチメディア情報の分解/構
造化を可能とすることを目的とする。 【構成】映像情報が視覚的に変化した時点とその変化の
種類および音声情報が聴覚的に変化した時点とその変化
の種類とに基づいて,各時点における変化の強さを計算
し,各時点における変化の強さをマルチメディア情報を
分解または構造化するための情報として用いる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は,マルチメディア情報を
処理する方式において,特に,映像や音声といった各知
覚メディア上の変化点の組み合わせによってマルチメデ
ィア情報としての構造を計算し,その情報の意味的な構
造とうまく対応できるような構造を生成するための,マ
ルチメディア情報処理方法および装置に関するものであ
る。
【0002】
【従来の技術】映像や音声からなるマルチメディア情報
をコンピュータ等によって扱うためには,内部的なデー
タとして構造化されている必要がある。
【0003】従来より映像処理技術として,カット点を
検出するための技術は提案されており,映像情報をカッ
トという観点から区切ることは可能であった(例えば,
文献「大辻ほかによる動画カット検出,電子情報通信学
会技術報告IE91−116,1991年」参照)。し
かし,各カットに区切られた映像をどのようにして意味
的なまとまりをもった単位に結合すべきかに関する技術
は開発されていなかった。このため意味的なまとまりを
持った構造を作り出すためには,人間による手作業が必
要であった。
【0004】一方,マルチメディア情報では,その意味
を伝えるという点で音声が重要な位置を占めている。し
かし,音声処理と映像処理との組み合せによってマルチ
メディア情報を意味的に構造化する技術は開発されてい
なかった。このため,音声情報は,それを単独で処理す
る以外にはほとんど利用されていなかった。
【0005】
【発明が解決しようとする課題】本発明の目的は,上記
問題点の解決を図り,マルチメディア情報の分解/構造
化にあたって,映像や音声といった各知覚メディア上の
変化点にそれぞれ重みを与え,それらの組み合せによっ
てマルチメディア情報としての構造を計算し,その結果
が情報の意味的な構造とうまく対応するようにするため
の手段を提供することにある。
【0006】
【課題を解決するための手段】上記課題を達成するた
め,請求項1記載のマルチメディア情報処理方法は,映
像情報と音声情報とを有するマルチメディア情報に対し
て,映像情報が視覚的に変化した時点とその変化の種
類,音声情報が聴覚的に変化した時点とその変化の種類
とに基づいて,各時点における変化の強さを計算するこ
とを最も大きな特徴とする。
【0007】また,請求項2記載のマルチメディア情報
処理方法は,請求項1記載の発明において,映像情報が
視覚的に変化した時点とその変化の種類,音声情報が聴
覚的に変化した時点とその変化の種類とから,その映像
の変化時点とその音声の変化時点の間の時間的な誤差を
調整し,各時点における変化の強さを,その時点で発生
した各知覚メディア上の変化の種類に応じて決定される
それぞれの重みに基づいて計算することを最も大きな特
徴とする。
【0008】また,請求項3記載のマルチメディア情報
処理装置は,映像情報と音声情報とを有するマルチメデ
ィア情報に対して,映像情報が視覚的に変化した時点と
その変化の種類,音声情報が聴覚的に変化した時点とそ
の変化の種類とから,映像の変化時点と音声の変化時点
の間の時間的な誤差を調整して各変化時点の再計算を行
う同期調整部と,各知覚メディア上の変化の種類に対す
る重みを蓄積しておく重み蓄積部と,各時点における変
化の強さを,その時点で発生した各知覚メディア上の変
化の種類に応じた重みによって計算する変化強度計算部
とを持つことを最も大きな特徴とする。
【0009】
【作用】請求項1記載の方法により,マルチメディア情
報を知覚情報から意味的な構造と対応するように構造化
するための情報が得られる。特に,請求項2記載の方法
によれば,映像と音声との時間的な誤差を吸収し,かつ
マルチメディア情報を構造化するための,より適切で有
効な情報が得られるようになる。また,請求項3記載の
装置により,マルチメディア情報を知覚情報から意味的
な構造と対応するように構造化するための情報を得る装
置を実現することができる。
【0010】分解/構造化の処理対象となるマルチメデ
ィア情報の映像情報と音声情報は,時間情報によって管
理されて蓄積されている。蓄積されている映像に対する
映像変化点については,事前にまたは本処理時にその変
化の種類と変化が発生した時間情報とが計算される。蓄
積されている音声に対する音声変化点については,その
変化の種類と変化が発生した時間情報とが事前にまたは
本処理時に計算される。一定の時間範囲内で生じた音声
変化と映像変化は,同一の時点で生じたと判定され,両
者の時間情報が調整される。各知覚メディア上の変化の
種類に対してその重みはあらかじめ定められている。各
時点における変化の強さは,その時点で発生した各知覚
メディア上の変化の種類に応じた重みによって計算され
る。このようにして,各知覚メディアの変化点の強さに
基づいてマルチメディア情報としての構造を計算するこ
とが可能となる。
【0011】
【実施例】以下,本発明の実施例を,図面を用いて具体
的に説明する。図1は,本発明の実施例に係るマルチメ
ディア情報処理装置のシステム構成を示す図である。図
1において,11は映像変化点検出部,12は音声変化
点検出部,13は同期調整部,14は変化強度計算部,
15は重み蓄積部,16はマルチメディア情報蓄積部で
ある。
【0012】図2は,本実施例におけるマルチメディア
情報処理方法を示すフローチャートである。以下の本実
施例の説明では,1990年8月30日に放送されたN
HKモーニングワイドの一部の映像と音声に対する処理
例を用いて説明する。
【0013】映像変化点検出部11は,マルチメディア
情報蓄積部16に蓄積されている映像情報から映像の変
化点を検出し,その変化の種類と変化の発生した時間情
報(以下,これをタイムコードと呼ぶ)とを生成する
(図2のステップ101)。
【0014】以下では,撮影カメラのスイッチのオン/
オフ,カメラの切り替わり,編集等によって生じた,映
像内容の時間的あるいは空間的な不連続点をカット点と
呼ぶ。また,カット点からカット点までの一連の映像を
ショットと呼ぶ。図3に,このカット点とショットの概
念を表す。図3では,1から始まる一連のフレーム画像
によって動画像が構成されており,フレーム番号3およ
びフレーム番号7の映像がカット点となる。また,フレ
ーム番号の1〜2,3〜6および7以降が,それぞれシ
ョットとなる。
【0015】本実施例では,カット点のタイムコードを
映像のフレーム番号(1フレーム=1/30秒)によっ
て出力するものとする。また変化点の種類としては,ア
ナウンサ(キャスタ)が現れているショットから別の映
像へ変わった場合とその逆の場合を0,それ以外の場合
には1という2種類を用いる。映像変化点検出部11に
より検出された映像変化の種類とカット変わりフレーム
番号の結果を,図4(A)に示す。
【0016】音声変化点検出部12は,マルチメディア
情報蓄積部16に蓄積されている音声情報から音声の変
化点を検出し,その変化の種類と変化の発生したタイム
コードとを生成する(図2のステップ102)。本実施
例では,有音区間の発生点のタイムコードを1/100
秒単位で出力するものとする。また,変化点の種類とし
ては,直前の有音区間の話者と同一話者の場合に0,異
なる話者の場合に1という2種類を用いる。音声変化点
検出部12により検出された音声変化の種類と有音開始
点の結果を,図4(B)に示す。
【0017】同期調整部13は,図2に示すステップ1
03において,映像変化点のタイムコードと音声変化点
のタイムコードの時間単位を調整し,さらに両者の誤差
を調整して同期点を発見する。ここでは,まず両者の時
間単位を1/100秒とすることにより両者の時間単位
系をそろえる。1フレーム=1/30秒とすることによ
り,図4(A)に示すカット点のフレーム番号は,図5
に示す時間へと変換される。次に,映像変化点と音声変
化点が,ある範囲内のずれをもって発生した場合には,
両者は同時に発生したとみなし,変化点の発生時間をず
らす。ここでは,以下の処理によって,有音開始点とカ
ット点の同期点を発見し,有音開始点の時間を調整す
る。
【0018】まず,図6(A)に示すように,カット点
p1においては無音であり,かつカット点p1以降はじ
めての有音開始点q1とp1との差が所定の閾値T1以
内の場合には,その有音開始点をp1とみなす。次に,
図6(B)に示すように,カット点p2においては有音
であり,かつカット点p2以前はじめての有音開始点q
2とp2との差が所定の閾値T2以内の場合には,その
有音開始点をp2とみなす。図5に示した映像変化点と
図4(B)に示した音声変化点に対して,閾値T1,T
2をそれぞれT1=2秒,T2=0.5秒として,上記
処理を行った結果を図7に示す。
【0019】重み蓄積部15では,各知覚情報の変化点
の種類とその重みを記憶している。ここでは,一例とし
て図8に示すように,それぞれの知覚メディアの変化の
種類に応じた重みが蓄積されているとする。ただし,有
音区間と無音区間,およびカット点以外の映像区間に対
応する重みはそれぞれ0である。
【0020】変化強度計算部14は,重み蓄積部15に
記憶されている図8に示すような重みに基づき,情報の
各時点における変化の強さを計算する(図2のステップ
104)。例えば図7に示す調整後の音声変化点の結果
では,17秒の時点で音声が開始しているので,17秒
の時点における変化の強さは20となる。また,23秒
03の時点で,映像がキャスタからそれ以外の映像へ変
化(カット点)しているので,この時点における映像の
変化の強さが30,さらにこの時点は音声区間の開始点
でもあるため音声の変化の強さが20,合計で50の強
さとなる。このようにして計算された結果を,図9に示
す。
【0021】本実施例で用いているマルチメディア情報
は「OPEC緊急会議」に関するもので,「実際の会議
の内容」と,「それに対する日本の対応」という2つの
部分に分かれる。前者はさらに,「概要」,「詳細」,
「現地からの記者レポート」に,また後者はさらに「概
要」と「詳細」に分けることができる。本手法によって
計算された変化の強さと,実際の情報内容とを比較する
と,図9に示すように,大きく分けられる2つの部分の
境界点で変化の強さは大きい値(80)となり,それぞ
れの小さな分割点では中程度の値(40〜60)とな
り,それ以外の点では20以下の小さな値となってい
る。したがって,図2に示すステップ105において,
計算された変化の強さに基づく適当なレベルでのマルチ
メディア情報の適切な分解/構造化が可能になる。
【0022】以上説明したように,本発明によれば,各
知覚メディアの変化点の種類とその発生した時点に基づ
いて,それぞれの時点での変化の強さを計算でき,かつ
その結果を情報の意味的内容と容易に対応させることが
可能となる。
【0023】図2におけるフローチャートでは映像変化
点を先に検出しているが,音声変化点を先に検出しても
かまわない。また,本実施例では,映像変化点とその変
化の種類の検出を行ったが,予め検出しておき,マルチ
メディア情報の一部としてマルチメディア情報蓄積部1
6に記憶しておいてもよい。この映像変化点とその変化
の種類は,カメラによる撮像時に検出することも可能で
ある。
【0024】本実施例では,カット点,およびアナウン
サ映像に着目して映像の変化点とその変化の種類を生成
したが,映像の視覚的な変化に基づく種類とそのタイム
コードであれば適用は任意である。例えば,文字スーパ
の表示された時点と消去された時点,表示された文字の
大きさによる種類分け,あるいは静止画と動画による種
類分けなどを用いることも可能である。
【0025】本実施例では,有音区間,および話者の同
一性に着目して音声の変化点とその変化の種類を生成し
たが,音声の聴覚的な変化に基づく種類とそのタイムコ
ードであれば適用は任意である。例えば,BGMの有無
による種類分け,直前の無音区間の長さによる種類分
け,有音区間の終了点のタイムコードなどを用いること
も可能である。
【0026】本実施例では,同期を調整する際,映像変
化点に合うように音声変化点を変更したが,音声変化点
に合うように映像変化点を変更してもよいし,両者の平
均をとった点を同期点としてもよい。
【0027】
【発明の効果】以上説明したように,本発明によれば,
映像や音声といった各知覚メディア上の変化点の組み合
せによってマルチメディア情報としての構造を計算する
ことができ,その結果は情報の意味的な構造とうまく対
応している。したがって,本発明による処理結果を用い
れば,マルチメディア情報を意味的にまとまった情報ご
とに切り出すことができるという利点を持つ。
【図面の簡単な説明】
【図1】本発明の一実施例としてのマルチメディア情報
処理装置のシステム構成を示す図である。
【図2】本発明の一実施例としてのマルチメディア情報
処理方法を表わすフローチャートである。
【図3】カット点とショットの概念を説明するための図
である。
【図4】実施例において映像変化点検出部と音声変化点
検出部の処理結果を示す図である。
【図5】実施例において映像変化点のタイムコードを1
/100秒単位に計算し直した結果を示す図である。
【図6】実施例において映像変化点と音声変化点の同期
調整の方法を表す図である。
【図7】実施例において音声変化点の時点を調整した結
果を表す図である。
【図8】実施例において重み蓄積部に記憶されている各
知覚情報の変化点の種類とその重みを表す図である。
【図9】実施例において変化強度計算部において計算さ
れた結果としての各時点における変化点の強さと,意味
的な情報の構造との対応関係を示す図である。
【符号の説明】
11 映像変化点検出部 12 音声変化点検出部 13 同期調整部 14 変化強度計算部 15 重み蓄積部 16 マルチメディア情報蓄積部 101〜105 ステップ

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 映像情報と音声情報とを有するマルチメ
    ディア情報を処理するマルチメディア情報処理方法にお
    いて,映像情報が視覚的に変化した時点とその変化の種
    類および音声情報が聴覚的に変化した時点とその変化の
    種類とに基づいて,各時点における変化の強さを計算す
    る過程を有し,その計算した各時点における変化の強さ
    を,映像情報と音声情報とを有するマルチメディア情報
    を分解または構造化するための情報として用いることを
    特徴とするマルチメディア情報処理方法。
  2. 【請求項2】 映像情報と音声情報とを有するマルチメ
    ディア情報を処理するマルチメディア情報処理方法にお
    いて,映像情報が視覚的に変化した時点とその変化の種
    類および音声情報が聴覚的に変化した時点とその変化の
    種類とから,映像の変化時点と音声の変化時点の間の時
    間的な誤差を調整し,各時点における変化の強さを,そ
    の時点で発生した各知覚メディア上の変化の種類に応じ
    て決定されるそれぞれの重みに基づいて計算する過程を
    有し,その計算した各時点における変化の強さを,映像
    情報と音声情報とを有するマルチメディア情報を分解ま
    たは構造化するための情報として用いることを特徴とす
    るマルチメディア情報処理方法。
  3. 【請求項3】 映像情報と音声情報とを有するマルチメ
    ディア情報を処理するマルチメディア情報処理装置にお
    いて,処理対象のマルチメディア情報から検出された映
    像の変化時点と音声の変化時点の間の時間的な誤差を調
    整して各変化時点の再計算を行う同期調整部と,各知覚
    メディア上の変化の種類に対する重みを蓄積しておく重
    み蓄積部と,前記同期調整部によって調整された各変化
    時点および処理対象のマルチメディア情報から検出され
    た映像の変化の種類と音声の変化の種類とに基づいて,
    各時点における変化の強さを,その時点で発生した各知
    覚メディア上の変化の種類に応じた重みによって計算す
    る変化強度計算部とを備え,各時点における変化の強さ
    に基づいて映像情報と音声情報とを有するマルチメディ
    ア情報を分解または構造化するようにしたことを特徴と
    するマルチメディア情報処理装置。
JP00068994A 1994-01-10 1994-01-10 マルチメディア情報処理方法および装置 Expired - Fee Related JP3373924B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP00068994A JP3373924B2 (ja) 1994-01-10 1994-01-10 マルチメディア情報処理方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP00068994A JP3373924B2 (ja) 1994-01-10 1994-01-10 マルチメディア情報処理方法および装置

Publications (2)

Publication Number Publication Date
JPH07200616A true JPH07200616A (ja) 1995-08-04
JP3373924B2 JP3373924B2 (ja) 2003-02-04

Family

ID=11480732

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00068994A Expired - Fee Related JP3373924B2 (ja) 1994-01-10 1994-01-10 マルチメディア情報処理方法および装置

Country Status (1)

Country Link
JP (1) JP3373924B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009157540A (ja) * 2007-12-25 2009-07-16 Fuji Xerox Co Ltd 画像記録装置、画像記録再生装置、画面記録再生システム、画像記録プログラム、および画像記録再生プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0256069A (ja) * 1988-08-22 1990-02-26 Hitachi Ltd 動画検索装置及び動画処理装置
JPH05290549A (ja) * 1992-04-06 1993-11-05 Nippon Telegr & Teleph Corp <Ntt> 映像編集支援装置
JPH05342263A (ja) * 1992-06-08 1993-12-24 Nippon Telegr & Teleph Corp <Ntt> ビデオデータ検索支援方法
JPH06243539A (ja) * 1993-02-22 1994-09-02 Nippon Telegr & Teleph Corp <Ntt> 映像構造化情報入手方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0256069A (ja) * 1988-08-22 1990-02-26 Hitachi Ltd 動画検索装置及び動画処理装置
JPH05290549A (ja) * 1992-04-06 1993-11-05 Nippon Telegr & Teleph Corp <Ntt> 映像編集支援装置
JPH05342263A (ja) * 1992-06-08 1993-12-24 Nippon Telegr & Teleph Corp <Ntt> ビデオデータ検索支援方法
JPH06243539A (ja) * 1993-02-22 1994-09-02 Nippon Telegr & Teleph Corp <Ntt> 映像構造化情報入手方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009157540A (ja) * 2007-12-25 2009-07-16 Fuji Xerox Co Ltd 画像記録装置、画像記録再生装置、画面記録再生システム、画像記録プログラム、および画像記録再生プログラム

Also Published As

Publication number Publication date
JP3373924B2 (ja) 2003-02-04

Similar Documents

Publication Publication Date Title
US20090279840A1 (en) Image Digesting Apparatus
KR100302370B1 (ko) 음성구간검출방법과시스템및그음성구간검출방법과시스템을이용한음성속도변환방법과시스템
JP2007189343A (ja) 映像要約装置、映像要約方法および映像要約プログラム
WO1997019552A3 (en) Method and apparatus for implementing playback features for compressed video data
WO2006134883A1 (ja) コンテンツタグ付け支援装置およびコンテンツタグ付け支援方法
JP2003087728A (ja) 映像情報要約装置、映像情報要約方法および映像情報要約処理プログラム
US7149365B2 (en) Image information summary apparatus, image information summary method and image information summary processing program
US7050110B1 (en) Method and system for generating annotations video
JPH07203351A (ja) 画像データ再生方法及びその装置
JP2001344905A (ja) データ再生装置、その方法及び記録媒体
US7143029B2 (en) Apparatus and method for changing the playback rate of recorded speech
JP2004343488A (ja) 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム
JP5096259B2 (ja) 要約コンテンツ生成装置および要約コンテンツ生成プログラム
JP2839192B2 (ja) 音声合成装置
US9214190B2 (en) Audio signal processing method
JPH10243351A (ja) 映像再生装置
JPH07200616A (ja) マルチメディア情報処理方法および装置
JP2003309814A5 (ja)
JP3642019B2 (ja) Avコンテンツ自動要約システム及びavコンテンツ自動要約方法
JP4272611B2 (ja) 映像処理方法、映像処理装置、映像処理用プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2006050045A (ja) 動画像データ編集装置及び動画像データ編集方法
JP2002084505A (ja) 映像閲覧時間短縮装置及び方法
JP4010598B2 (ja) 映像情報編集方法
JPH0879674A (ja) 動画像検索方式
JP2020129763A (ja) 動画再生装置、動画再生方法及びプログラム

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071122

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081122

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091122

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101122

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101122

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111122

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111122

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121122

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees