JP2001167557A - オーディオ情報の特徴記述方法 - Google Patents

オーディオ情報の特徴記述方法

Info

Publication number
JP2001167557A
JP2001167557A JP34914799A JP34914799A JP2001167557A JP 2001167557 A JP2001167557 A JP 2001167557A JP 34914799 A JP34914799 A JP 34914799A JP 34914799 A JP34914799 A JP 34914799A JP 2001167557 A JP2001167557 A JP 2001167557A
Authority
JP
Japan
Prior art keywords
audio
information
feature
key
audio information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP34914799A
Other languages
English (en)
Inventor
Masaru Sugano
勝 菅野
Yasuyuki Nakajima
康之 中島
Hiromasa Yanagihara
広昌 柳原
Akio Yoneyama
暁夫 米山
Haruhisa Kato
晴久 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP34914799A priority Critical patent/JP2001167557A/ja
Priority to US09/730,607 priority patent/US7212972B2/en
Publication of JP2001167557A publication Critical patent/JP2001167557A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

(57)【要約】 【課題】 オーディオ情報特有の要素、特徴を考慮する
ことによって、オーディオ情報を高速かつ効率的に検索
または概要把握できるようにするための特徴記述方法を
提供することにある。 【解決手段】 オーディオ情報の特徴を、オーディオプ
ログラムを最上階層とし、上の階層から順に下の階層へ
記述することにより階層的に表現する。この階層は、意
味的に連続した内容を有する単一または複数のオーディ
オプログラム、ならびにオーディオシーンとオーディオ
ショットの少なくとも一つを含む階層により表現する。
また、この階層は、少なくとも階層の名称、ならびにオ
ーディオ情報種別、特徴種別、及び該特徴種別に分類さ
れるオーディオ情報の区間で記述される特徴量で記述す
る。また、オーディオプログラムの特徴量を、単数また
は複数のオーディオ片、または画像として表すオーディ
オサムネールで表現する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、圧縮または非圧縮
オーディオ情報の特徴記述方法に関し、特に、オーディ
オデータに付加するオーディオの特徴情報を記述するた
めの方法であって、粗いレベルから詳細なレベルまで、
様々なレベルでオーディオ情報の高速かつ効率的な検索
や閲覧を可能とするオーディオ情報の特徴記述方法に関
する。
【0002】
【従来の技術】オーディオ情報の特徴記述は、圧縮また
は非圧縮ファイルとして存在するオーディオファイルに
対して、その時の空間的な特徴や、周波数的な特徴を記
述またはそれらを組み合わせることによって、少ない特
徴情報量でオーディオ情報全体の特徴を表現することが
できる。該特徴記述は、例えば、オーディオ情報の検索
時に、その概要を把握するための要素などとして用いる
ことができ、オーディオデータベースなどから所望のオ
ーディオ情報を検索し、その内容を高速にブラウジング
する場合などに有効である。
【0003】従来、ビデオ情報のみのサマリ(summary:
概要) 構成については数多くの検討がなされている。最
も一般的には、ビデオ情報をプログラム、シーン、ショ
ットの階層に分割し、該ショットからこれを代表するフ
レーム(キーフレーム)を抽出し、それぞれの階層の特
徴量を記述するとともに、該キーフレームの空間的な特
徴量などを記述することにより、ビデオ情報の効率的な
検索や概要把握を行うことができる。例えば、キーフレ
ームの特徴量を抽出したり、シーンやショットを代表す
るクリップ(キービデオクリップ)の特徴量を抽出した
りすることで、ビデオ情報の概要を効率的に把握するこ
とができる。
【0004】シーンやショットなど、ビデオ情報の時間
的構造を表す要素だけでなく、これらのキーフレームや
キービデオクリップについても特徴量を記述し、階層的
に構造化することもできる。従って、例えば粗いレベル
では提示するキーフレームやキービデオクリップの数を
少なくし、詳細なレベルではキーフレームやキービデオ
クリップの数を多くすることによって、ビデオ情報を様
々なレベルで検索、閲覧することができる。
【0005】
【発明が解決しようとする課題】従来は、主にビデオ情
報を対象とした特徴記述方法が検討されているが、オー
ディオ情報を対象とした特徴記述方法については、単に
特徴量をどう表現するかについてのみに関する検討が多
く、どのような特徴量をどのように組み合わせてオーデ
ィオ情報全体を記述するか、などについては未だ詳細に
規定、検討されていない。
【0006】本発明の目的は、前記した従来の事情に鑑
みてなされたものであり、オーディオ情報特有の要素、
特徴を考慮することによって、オーディオ情報を高速か
つ効率的に検索または概要把握できるようにするための
特徴記述方法を提供することにある。
【0007】
【課題を解決するための手段】前記した目的を達成する
ために、本発明は、圧縮または非圧縮のオーディオ情報
の特徴記述方法において、オーディオ情報の特徴を、オ
ーディオプログラムを最上階層とし、上の階層から順に
下の階層へ記述することにより階層的に表現するように
した点に第1の特徴がある。
【0008】また、オーディオプログラムの特徴量を、
単数または複数のオーディオ片、または画像として表す
オーディオサムネールで表現し、特徴種別としてオーデ
ィオサムネールを記述し、該オーディオサムネールがオ
ーディオ片の場合には単一または複数の該オーディオ片
の区間を記述し、該サムネールが画像の場合には単一ま
たは複数の該画像ファイル名を記述するようにした点に
第2の特徴がある。
【0009】また、オーディオシーン、オーディオショ
ットの少なくとも一つの特徴量を、それぞれ、該オーデ
ィオシーン、オーディオショット以下の任意の長さを有
する単一または複数のオーディオ片であるオーディオク
リップで表現するようにした点に第3の特徴がある。
【0010】また、オーディオシーン、オーディオショ
ットの少なくとも一つの特徴量を、それぞれ、該オーデ
ィオシーン、オーディオショット以下の任意の長さを有
する単一または複数のオーディオ片であるオーディオク
リップで表現し、該オーディオシーンまたはオーディオ
ショットの特徴を代表する単一または複数のオーディオ
クリップを、キーオーディオクリップとして表現するよ
うにした点に第4の特徴がある。
【0011】また、オーディオ情報が複数のチャネルま
たはトラックから構成される場合に、該オーディオ情報
の中で代表的なチャネルまたはトラックをキーストリー
ムとして表現し、特徴種別としてキーストリームを記述
し、さらに該キーストリームに相当するオーディオ区間
を記述するようにした点に第5の特徴がある。
【0012】また、オーディオ情報の中で代表的な事象
を表すオーディオ情報をキーイベントとして表現し、特
徴種別としてキーイベントを記述し、該キーイベントの
内容をテキスト情報で記述し、さらに該キーイベントに
相当する単一または複数のオーディオ区間を記述するよ
うにした点に第6の特徴がある。
【0013】また、オーディオ情報の中で代表的なオー
ディオ情報源からのオーディオ情報をキーオブジェクト
として表現し、特徴種別としてキーオブジェクトを記述
し、該キーオブジェクトの内容をテキスト情報で記述
し、さらに該キーオブジェクトに相当する単一または複
数のオーディオ区間を記述するようにした点に第7の特
徴がある。
【0014】また、オーディオプログラム、オーディオ
シーン、またはオーディオショットの先頭または代表オ
ーディオ片をオーディオ区間として表現またはオーディ
オファイルとして保存し、該オーディオ区間またはファ
イルの集合をオーディオスライドとして表現し、特徴種
別としてオーディオスライドを記述し、さらに該オーデ
ィオスライドを構成する該オーディオファイルのオーデ
ィオ区間またはファイル名を記述するようにした点に第
8の特徴がある。
【0015】さらに、特徴種別がショット、キーオーデ
ィオクリップ、キーワード、キーノート、キーサウンド
の場合に特徴種別のレベルを示す値を記述し、該レベル
値に従って複数の該特徴種別のオーディオ情報を階層的
に記述するようにした点に第9の特徴がある。
【0016】本発明の前記第1〜9の特徴によれば、圧
縮または非圧縮のオーディオ情報を新規な方法で階層的
に表現できるようになる。また、オーディオ情報を高速
かつ効率的に検索または閲覧することが可能となる、圧
縮または非圧縮のオーディオ情報の特徴記述を提供する
ことができる。
【0017】
【発明の実施の形態】以下に、図面を参照して、本発明
を詳細に説明する。まず、本発明で使用される用語の定
義を説明する。
【0018】「オーディオプログラム(または、オーデ
ィオファイル)」…一つのオーディオ番組を構成するオ
ーディオ情報全体。 「オーディオ区間」…オーディオプログラムにおける、
隣接したオーディオサンプルの集合。 「オーディオシーン」…時間的及び意味的に連続したオ
ーディオ区間。オーディオショットの集合。 「オーディオショット」…時間的及び意味的に連続して
いるが、隣接するオーディオ区間と異なる性質を持つオ
ーディオ区間。性質とは、オーディオ情報種別や、話者
種別などを示す。 「オーディオクリップ」…時間的に連続し、単一の意味
を持つ任意の長さのオーディオ区間。 「オーディオストリーム」…オーディオ情報が複数のチ
ャネルまたはトラックから構成される場合の、それぞれ
のチャネルまたはトラックのオーディオ情報。 「オーディオオブジェクト」…オーディオ情報源、及び
聴覚によるイベントの主体。オーディオストリームのオ
ーディオ情報源はオーディオオブジェクトである。 「オーディオイベント」…オーディオオブジェクトのあ
る時間帯における振る舞い。または聴覚による特定事象
または視覚による特定事象に付随するオーディオ情報。 「オーディオスライド」…複数のオーディオ片またはオ
ーディオプログラムから構成され、これらをある一定間
隔で再生することにより得られるオーディオ情報。
【0019】次に、本発明は、オーディオ情報が階層構
造で表せるという着想に基づくものであり、該階層構造
の一例を、図2を参照して説明する。
【0020】図示されているような、例えば「音楽番
組」である圧縮または非圧縮のオーディオプログラムま
たはオーディオファイルa(以下、オーディオプログラ
ムaと呼ぶ)(第1階層)は、例えば「インタビューシ
ーン1」と「歌唱シーン1」とからなるオーディオシー
ンb(第2階層)で表現でき、また該オーディオシーン
bの「インタビューシーン1」は、「司会者の話」、
「歌手の話」、…、「拍手」からなり、「歌唱シーン
1」は、「メロディ1」、…、「メロディ4」からなる
オーディオショットc(第3階層)で表現できる。ま
た、前記オーディオプログラムa、オーディオシーンb
またはオーディオショットcから特徴部分を抽出した
「話題1」、「話題2」、「前奏」等をオーディオクリ
ップd(第4階層)で表現できる。さらに、前記オーデ
ィオショットc中の例えば「メロディ2」が複数のチャ
ンネルやトラックの信号から構成されている場合には、
オーディオストリームで表現でき、各オーディオストリ
ームに対しては、例えば「声」、「ピアノ」、「ギタ
ー」等のオーディオオブジェクトで表現できる。
【0021】次に、本発明方法を実現する機能の一実施
形態を、図1、図2を参照して説明する。図1は、本発
明方法を実現する機能の一実施形態の概要を表すブロッ
ク図である。
【0022】本実施形態では、オーディオ情報の特徴記
述のうち、オーディオ情報の概要を高速かつ効率的に把
握するためのサマリ(概要)に関する特徴記述について
説明する。
【0023】まず、圧縮または非圧縮のオーディオプロ
グラムまたはオーディオファイルa(以下、オーディオ
プログラムaと呼ぶ)が図1の特徴記述部1に入力され
ると、図2に示されているように、オーディオプログラ
ムaは意味的に連続した内容を有する単一または複数の
オーディオシーンbへ、また該オーディオシーンbは単
一または複数のオーディオショットcへ構造化され、さ
らにこれらは単一の意味を有するオーディオクリップd
に構造化されて階層的に記述される。オーディオプログ
ラムa以下の階層は、必ずしも全部ある必要はなく、ま
た上記の順番でなくても良い。その後、特徴種別に従っ
て、オーディオプログラムa全体を記述した特徴記述フ
ァイル1aが生成される。
【0024】これらの階層は、少なくとも階層の名称及
び/又はその特徴量で記述され、該特徴量には特徴種
別、オーディオ情報種別、及び前記特徴種別に相当する
オーディオ情報の区間などが含まれる。オーディオ情報
の区間は、時間コードまたはオーディオ情報の開始フレ
ーム番号及び終了フレーム番号で記述される。このと
き、オーディオプログラムaの各階層への分割は手動及
び自動のいずれでもよい。
【0025】また、特徴記述部1は、オーディオプログ
ラムaをオーディオ片または画像として表現するための
サムネール(thumbnail) 1bを生成する。サムネール1
bは、サムネールであることを示す記述と、それらのオ
ーディオ片の区間またはファイル名、または画像のファ
イル名で構成される。
【0026】特徴情報抽出部2には、対象となるオーデ
ィオプログラムa、特徴記述ファイル1a及びサムネー
ル1bが入力され、該特徴情報抽出部2は、ユーザから
の検索指定情報2aにより特徴記述ファイルの該当部分
を検索し、特徴情報提示2bを行う。検索指定情報2a
の特徴種別がサムネール1bの場合にはサムネールを提
示し、特徴種別がそれ以外の場合には特徴記述ファイル
1aに記述されている区間をオーディオプログラムから
抽出して提示する。
【0027】図3は前記特徴記述部1の内部構成を示す
ブロック図である。まず、オーディオプログラムaが入
力されると、該オーディオプログラムaはオーディオ要
素抽出部11に渡される。オーディオ要素抽出部11の
内部構成は図4のようになっており、該オーディオ要素
抽出部11に入力されたオーディオプログラムaは、シ
ーン検出部111でシーンに分割され、さらにショット
検出部112でショットに分割される。シーン検出部1
11およびショット検出部112のそれぞれから出力さ
れるシーン情報、ショット情報には、シーン、ショット
の区別や、それぞれの個々の区間情報などが含まれる。
【0028】また、オーディオ情報が複数のチャネルま
たはトラックから構成される場合には、ストリーム抽出
部113において個々のトラックをストリームとして抽
出し、ストリーム情報を出力する。ストリーム情報に
は、ストリーム識別子や各ストリームの区間情報が含ま
れる。また、オブジェクト特定部114において各スト
リームからストリームのオーディオ情報源であるオブジ
ェクトを特定し、オブジェクト情報が出力される。オブ
ジェクトの例としては、“声”、“ピアノ”、“ギタ
ー”など(図2参照)がある。オブジェクト情報には、
ストリーム識別子やオブジェクトの内容、及びオブジェ
クトに相当するオーディオ情報の区間情報が含まれる。
【0029】イベント抽出部115では、オーディオプ
ログラムaからある事象を表すイベントを抽出し、イベ
ント情報としてイベントの内容やイベントに対応するオ
ーディオ情報の区間情報を出力する。
【0030】また、スライド抽出部116では、オーデ
ィオプログラム、オーディオシーン、またはオーディオ
ショットの先頭または代表となるオーディオ片を抽出
し、各オーディオ片に関する情報をスライド情報として
出力する。スライド情報は、オーディオ片がオーディオ
区間である場合には区間情報を、オーディオ片がファイ
ルである場合にはファイル名を含む。なお、図3、図4
におけるオーディオ要素抽出部11における各情報の抽
出は、手動で行うこともできる。
【0031】図4の各部から出力された情報は、図3の
各記述部に入力される。まず、シーン情報やショット情
報は、それぞれシーン記述部12とショット記述部13
に入力され、該シーン記述部12とショット記述部13
において、オーディオプログラムaに属するシーン及び
ショットの種別、オーディオ情報の種別、及びそれらの
区間が記述される。また、図3のクリップ抽出部14で
は、シーンまたはショットの中で、ある意味を持つオー
ディオ片をクリップとして抽出し、必要に応じて特徴種
別としてクリップである旨と、オーディオ情報の種別、
及びそれらの区間がクリップ記述部15において記述さ
れる。前記シーン記述部12、ショット記述部13およ
びクリップ記述部15における記述のフォーマット例
を、図5および図6に示す。図5は一般的に表したフォ
ーマット例、図6は図2に即して表したフォーマット例
である。
【0032】前記クリップについては、プログラム中で
特に重要であるクリップがキーオーディオクリップとみ
なされ、キークリップ記述部16において、特徴種別と
してキーオーディオクリップが記述され、更にオーディ
オ情報の種別、及びその区間が記述される。図7(a)
は、該キーオーディオクリップの記述のフォーマット例
である。
【0033】また、キーオーディオクリップのうち、特
徴的な音声、音楽、サウンドについてはそれぞれキーワ
ード、キーノート、キーサウンドとみなされ、特徴種別
としてキーオーディオクリップが記述され、更にオーデ
ィオ情報の種別、及びその区間が記述される。キーワー
ドについては、更にその内容がテキスト情報で記述され
る。図7(b) 、(c) 、および(d) は、それぞれ、キーワ
ード、キーノート、キーサウンドの記述のフォーマット
例を示す。キーワードとしては、例えば“2000
年”,“アカデミ賞”等の音声、キーノートとしては、
例えば音楽の“さび”の部分等、キーサウンドとして
は、例えば“拍手”等のサウンドを挙げることができ
る。
【0034】一方、ストリーム情報及びオブジェクト情
報は、それぞれ図3のストリーム記述部17及びオブジ
ェクト記述部19に入力され、これらのうち特に重要で
あるストリーム、オブジェクトがそれぞれキーストリー
ム、キーオブジェクトとみなされ、それぞれキーストリ
ーム記述部18とキーオブジェクト記述部20において
特徴種別と、オーディオ情報の種別、特徴量の内容、及
びそれらの区間が記述される。図7(e) 、(f) は、それ
ぞれキーストリーム、キーオブジェクトの記述のフォー
マット例を示す。また、図8(a) 、(b) は、図2に即し
て表したこれらの記述のフォーマット例である。キーオ
ブジェクトの内容はテキスト情報で記述される。
【0035】また、イベント情報はイベント記述部21
に入力され、特に代表的なイベントをキーイベントとみ
なし、キーイベント記述部22において特徴種別と、オ
ーディオ情報の種別、特徴量の内容及びそれらの区間が
記述される。図9(a) は、キーイベントの記述のフォー
マット例を示す。キーイベントの内容はをテキスト情報
で記述される。キーイベントとしては、例えば“爆発
音”,サッカーの試合の放送における“ゴール”等の言
葉を挙げることができる。
【0036】さらに、スライド情報がスライド構成部2
3に入力され、スライド情報に含まれる複数のオーディ
オ片からオーディオスライドを構成し、その内容をスラ
イド記述部24で記述する。スライド記述部24では、
特徴種別と、オーディオスライドを構成するオーディオ
区間またはファイル名が記述される。オーディオスライ
ドに関する記述内容も、特徴記述ファイルとして構成さ
れる。図9(b) 、(c)は、オーディオスライドの記述の
フォーマット例を示す。
【0037】また、プログラム階層化部と同じレベルに
属するサムネール生成部25では、オーディオプログラ
ムから、その内容を代表するサムネール1bを生成す
る。サムネール1bは、単数または複数のオーディオ片
でもよく、或いは画像として表現されてもよい。図9
(d) 、(e) は、該オーディオサムネールの記述のフォー
マット例を示す。
【0038】前記のようにして、図3の各記述部から出
力された記述内容は全て、特徴記述ファイル1aとして
構成される。
【0039】なお、オーディオ情報の特徴種別がショッ
トまたはキーオーディオクリップ(キーワード、キーノ
ート、キーサウンドを含む)の場合には、同一特徴種別
内で階層のレベルを示す値を付与することができ、この
レベル値に従って複数の同一特徴種別のオーディオ情報
を階層的に検索、閲覧することができる。記述例として
は、レベル0が粗いレベル、レベル1が詳細なレベルで
あるとし、それぞれのレベルの値に対して、対応する特
徴種別を持つオーディオ区間を指定することができる。
レベル情報は、例えば図12(a) 〜(d) に示すように、
オーディオ情報種別とオーディオ区間の間に規定するこ
とができる。また、レベル0に属するオーディオ区間が
レベル1にも属している場合には、その旨を表す記述を
特徴種別と同じレベルに記述することによって、オーデ
ィオ区間の重複を避けることができる。これにより、共
通の特徴種別、オーディオ種別で、複数のレベルを記述
することができると共に、レベルの値に応じて、オーデ
ィオ区間の特定が可能となる。
【0040】図10は、特徴情報抽出部2(図1参照)
の内部構成を示すブロック図である。特徴情報抽出部2
には、オーディオプログラムa、特徴記述部1からの出
力である特徴記述ファイル1a、サムネール1b、及び
ユーザからの入力情報としての検索指定情報2aが入力
される。まず、特徴記述ファイル1aが特徴記述ファイ
ル解釈部41に読み込まれ、特徴種別やオーディオ情報
種別、及びそれらの区間などが解釈される。
【0041】次に、特徴記述照合部42において、ユー
ザから入力された検索指定情報2aと、特徴記述ファイ
ル解釈部41からの情報を基に、ユーザが指定した特徴
情報に関する検索を行い、対応する特徴種別として記述
されたオーディオプログラムaの指定区間を出力する。
【0042】特徴情報抽出部43では、特徴記述照合部
42から得られた指定区間を基に、実際の特徴量に応じ
たオーディオ情報をオーディオプログラムaから抽出す
る。このとき、検索指定情報で指定された特徴種別がサ
ムネールである場合には、オーディオプログラムaから
の特徴量抽出は行われず、サムネールが特徴情報抽出部
43へ入力される。
【0043】特徴情報抽出部43で得られたオーディオ
プログラムaの指定区間に対応する特徴量またはサムネ
ールは、特徴情報提示部44へ送られ、ユーザから指定
された特徴量に応じたオーディオ情報を再生、表示す
る。
【0044】このように、本実施形態によれば、本発明
による特徴記述ファイル1aおよび/又はサムネール1
bを用いて、粗いレベルから詳細なレベルまで、様々な
レベルでオーディオ情報の検索や閲覧をすることができ
る。また、このため、高速かつ効率的な検索や閲覧が可
能となる。
【0045】図11は、本発明の変形例を示す。この変
形例は、クリップ記述部15、ストリーム記述部17、
オブジェクト記述部19、およびイベント記述部21の
記述内容も、特徴記述ファイル1aに加えるようにした
ものである。
【0046】
【発明の効果】以上の説明から明らかなように、本発明
のオーディオ情報の特徴記述方法によれば、オーディオ
情報の特徴を効率的に記述することが可能となる。ま
た、高速且つ効率的にオーディオ情報を検索、または閲
覧することができる圧縮または非圧縮のオーディオ情報
の特徴記述を提供することができるようになる。
【0047】また、前記特徴記述を用いることにより、
オーディオ情報を検索する際に、粗いレベルから詳細な
レベルまで、様々なレベルで高速且つ効率的にオーディ
オ情報を検索、または閲覧することができるようにな
る。
【図面の簡単な説明】
【図1】 本発明の一実施形態の機能を示すブロック図
である。
【図2】 オーディオ情報(音楽番組)の階層構造化例
を示す図である。
【図3】 図1の特徴記述部の内部構成の一例を示すブ
ロック図である。
【図4】 図3のオーディオ要素抽出部の内部構成の一
例を示すブロック図である。
【図5】 シーン記述部、ショット記述部およびクリッ
プ記述部における記述のフォーマット例を示す図であ
る。
【図6】 図5のフォーマット例を図2に即して表した
図である。
【図7】 キーオーディオクリップ、キーストリーム、
およびキーオブジェクトのフォーマット例を示す図であ
る。
【図8】 キーストリームおよびキーオブジェクトを図
2に即して表した図である。
【図9】 キーイベント、オーディオスライド、および
オーディオサムネールのフォーマット例を示す図であ
る。
【図10】 図1の特徴情報抽出部の内部構成を示すブ
ロック図である。
【図11】 本発明の変形例を示すブロック図である。
【図12】 レベル構造を付与されたキーオーディオク
リップのフォーマット例を示す図である。
【符号の説明】
1…特徴記述部、2…特徴情報抽出部、11…オーディ
オ要素抽出部、12…シーン記述部、13…ショット記
述部、14…クリップ抽出部、15…クリップ記述部、
16…キークリップ記述部、17…ストリーム記述部、
18…キーストリーム記述部、19…オブジェクト記述
部、20…キーオブジェクト記述部、21…イベント記
述部、22…キーイベント記述部、23…スライド構成
部、24…スライド記述部。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G11B 20/12 G06F 15/413 310A 9A001 27/10 G10L 3/00 S 9/18 H (72)発明者 柳原 広昌 埼玉県上福岡市大原2−1−15 株式会社 ケイディディ研究所内 (72)発明者 米山 暁夫 埼玉県上福岡市大原2−1−15 株式会社 ケイディディ研究所内 (72)発明者 加藤 晴久 埼玉県上福岡市大原2−1−15 株式会社 ケイディディ研究所内 Fターム(参考) 5B075 ND16 NK43 PP12 PQ02 PQ46 PQ48 5D044 AB05 DE12 DE22 DE49 DE57 DE59 EF05 FG18 GK12 5D045 AB30 DA20 DB10 5D077 EA08 EA12 EA33 EA34 GA04 HC12 HC17 5D110 CA06 CA43 CA47 DA02 DA03 DA20 DB09 FA08 9A001 BB03 EE02 FF03 HH15 KK43

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 圧縮または非圧縮のオーディオ情報の特
    徴記述方法において、 オーディオ情報の特徴を、オー
    ディオプログラムを最上階層とし、上の階層から順に下
    の階層へ記述することにより階層的に表現するようにし
    たことを特徴とするオーディオ情報の特徴記述方法。
  2. 【請求項2】 請求項1に記載のオーディオ情報の特徴
    記述方法において、該階層は、意味的に連続した内容を
    有する単一または複数のオーディオプログラム、ならび
    にオーディオシーンとオーディオショットの少なくとも
    一つを含む階層により表現することを特徴とするオーデ
    ィオ情報の特徴記述方法。
  3. 【請求項3】 請求項1又は2に記載のオーディオ情報
    の特徴記述方法において、 該階層は、少なくとも階層の名称、ならびにオーディオ
    情報種別、特徴種別、及び該特徴種別に分類されるオー
    ディオ情報の区間で記述される特徴量で記述されること
    を特徴とするオーディオ情報の特徴記述方法。
  4. 【請求項4】 請求項3に記載のオーディオ情報の特徴
    記述方法において、 該オーディオ情報の区間を、時間コード、または該オー
    ディオ情報の開始フレーム番号及び終了フレーム番号で
    記述することを特徴とするオーディオ情報の特徴記述方
    法。
  5. 【請求項5】 圧縮または非圧縮のオーディオ情報の特
    徴記述方法において、 オーディオプログラムの特徴量
    を、単数または複数のオーディオ片、または画像として
    表すオーディオサムネールで表現し、 特徴種別としてオーディオサムネールを記述し、 該オーディオサムネールがオーディオ片の場合には単一
    または複数の該オーディオ片の区間を記述し、 該サムネールが画像の場合には単一または複数の該画像
    ファイル名を記述することを特徴とするオーディオ情報
    の特徴記述方法。
  6. 【請求項6】 圧縮または非圧縮のオーディオ情報の特
    徴記述方法において、 オーディオシーン、オーディオ
    ショットの少なくとも一つの特徴量を、それぞれ、該オ
    ーディオシーン、オーディオショット以下の任意の長さ
    を有する単一または複数のオーディオ片であるオーディ
    オクリップで表現することを特徴とするオーディオ情報
    の特徴記述方法。
  7. 【請求項7】 圧縮または非圧縮のオーディオ情報の特
    徴記述方法において、 オーディオシーン、オーディオ
    ショットの少なくとも一つの特徴量を、それぞれ、該オ
    ーディオシーン、オーディオショット以下の任意の長さ
    を有する単一または複数のオーディオ片であるオーディ
    オクリップで表現し、該オーディオシーンまたはオーデ
    ィオショットの特徴を代表する単一または複数のオーデ
    ィオクリップを、キーオーディオクリップとして表現す
    ることを特徴とするオーディオ情報の特徴記述方法。
  8. 【請求項8】 請求項7に記載のオーディオ情報の特徴
    記述方法において、特徴種別としてキーオーディオクリ
    ップを記述し、 キーオーディオクリップのオーディオ情報種別が音声で
    ある場合に、該キーオーディオクリップの特徴を代表す
    る音声をキーワードとして表現し、該キーワードの内容
    をテキスト情報で記述し、 さらに該キーワードに相当する単一または複数のオーデ
    ィオ区間を記述することを特徴とするオーディオ情報の
    特徴記述方法。
  9. 【請求項9】 請求項7に記載のオーディオ情報の特徴
    記述方法において、特徴種別としてキーオーディオクリ
    ップを記述し、 キーオーディオクリップのオーディオ情報種別が音楽で
    ある場合に、該キーオーディオクリップの特徴を代表す
    る音楽をキーノートとして表現し、 さらに該キーノートに相当する単一または複数のオーデ
    ィオ区間を記述することを特徴とするオーディオ情報の
    特徴記述方法。
  10. 【請求項10】 請求項7に記載のオーディオ情報の特
    徴記述方法において、 特徴種別としてキーオーディオ
    クリップを記述し、 キーオーディオクリップのオーディオ情報種別がサウン
    ドである場合に、該キーオーディオクリップの特徴を代
    表するサウンドをキーサウンドとして表現し、 さらに該キーサウンドに相当する単一または複数のオー
    ディオ区間を記述することを特徴としたオーディオ情報
    の特徴記述方法。
  11. 【請求項11】 圧縮または非圧縮のオーディオ情報の
    特徴記述方法において、 オーディオ情報が複数のチャネルまたはトラックから構
    成される場合に、該オーディオ情報の中で代表的なチャ
    ネルまたはトラックをキーストリームとして表現し、 特徴種別としてキーストリームを記述し、 さらに該キーストリームに相当するオーディオ区間を記
    述することを特徴とするオーディオ情報の特徴記述方
    法。
  12. 【請求項12】 圧縮または非圧縮のオーディオ情報の
    特徴記述方法において、 オーディオ情報の中で代表的な事象を表すオーディオ情
    報をキーイベントとして表現し、 特徴種別としてキーイベントを記述し、 該キーイベントの内容をテキスト情報で記述し、 さらに該キーイベントに相当する単一または複数のオー
    ディオ区間を記述することを特徴とするオーディオ情報
    の特徴記述方法。
  13. 【請求項13】 圧縮または非圧縮のオーディオ情報の
    特徴記述方法において、 オーディオ情報の中で代表的なオーディオ情報源からの
    オーディオ情報をキーオブジェクトとして表現し、 特徴種別としてキーオブジェクトを記述し、 該キーオブジェクトの内容をテキスト情報で記述し、 さらに該キーオブジェクトに相当する単一または複数の
    オーディオ区間を記述することを特徴とするオーディオ
    情報の特徴記述方法。
  14. 【請求項14】 圧縮または非圧縮のオーディオ情報の
    特徴記述方法において、 オーディオプログラム、オーディオシーン、またはオー
    ディオショットの先頭または代表オーディオ片をオーデ
    ィオ区間として表現またはオーディオファイルとして保
    存し、 該オーディオ区間またはファイルの集合をオーディオス
    ライドとして表現し、特徴種別としてオーディオスライ
    ドを記述し、 さらに該オーディオスライドを構成する該オーディオフ
    ァイルのオーディオ区間またはファイル名を記述するこ
    とを特徴とするオーディオ情報の特徴記述方法。
  15. 【請求項15】 圧縮または非圧縮のオーディオ情報の
    特徴記述方法において、 特徴種別がショット、キーオーディオクリップ、キーワ
    ード、キーノート、キーサウンドの場合に特徴種別のレ
    ベルを示す値を記述し、 該レベル値に従って複数の該特徴種別のオーディオ情報
    を階層的に記述することを特徴とするオーディオ情報の
    特徴記述方法。
JP34914799A 1999-12-08 1999-12-08 オーディオ情報の特徴記述方法 Pending JP2001167557A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP34914799A JP2001167557A (ja) 1999-12-08 1999-12-08 オーディオ情報の特徴記述方法
US09/730,607 US7212972B2 (en) 1999-12-08 2000-12-07 Audio features description method and audio video features description collection construction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP34914799A JP2001167557A (ja) 1999-12-08 1999-12-08 オーディオ情報の特徴記述方法

Publications (1)

Publication Number Publication Date
JP2001167557A true JP2001167557A (ja) 2001-06-22

Family

ID=18401803

Family Applications (1)

Application Number Title Priority Date Filing Date
JP34914799A Pending JP2001167557A (ja) 1999-12-08 1999-12-08 オーディオ情報の特徴記述方法

Country Status (1)

Country Link
JP (1) JP2001167557A (ja)

Similar Documents

Publication Publication Date Title
JP4981026B2 (ja) 複合ニュース・ストーリーの合成
KR100994407B1 (ko) 디스플레이를 사용함이 없이 오디오 콘텐츠에 대한 메뉴를 생성하고 액세스하는 방법
US7546288B2 (en) Matching media file metadata to standardized metadata
US7522967B2 (en) Audio summary based audio processing
US6580437B1 (en) System for organizing videos based on closed-caption information
US7212972B2 (en) Audio features description method and audio video features description collection construction method
JP2001028722A (ja) 動画像管理装置及び動画像管理システム
Nam et al. Dynamic video summarization and visualization
JPH1152965A (ja) 通信カラオケシステムおよびカラオケ演奏端末
JP2000250944A (ja) 情報提供方法、情報提供装置、情報受信装置、並びに情報記述方法
JP3208116B2 (ja) 映像インデックス情報を記録した記録媒体、映像インデックス情報を用いた映像情報管理方法、音声インデックス情報を記録した記録媒体および音声インデックス情報を用いた音声情報管理方法
KR20200023013A (ko) 영상 컨텐츠 검색을 지원하는 영상 서비스 장치 및 영상 컨텐츠 검색 지원 방법
EP1531405B1 (en) Information search apparatus, information search method, and information recording medium on which information search program is recorded
Cai et al. Automated music video generation using web image resource
US8131773B2 (en) Search information managing for moving image contents
Slaughter et al. Open video: A framework for a test collection
JP2006139382A (ja) 情報処理装置及びその制御方法、プログラム
Barbieri et al. Video summarization: methods and landscape
JP2001167557A (ja) オーディオ情報の特徴記述方法
EP2273387A1 (en) Dynamic image content search information managing apparatus
KR100493635B1 (ko) 멀티미디어 데이터 검색 및 브라우징 시스템
Rice et al. Searching for sounds: A demonstration of findsounds. com and findsounds palette
van Houten et al. The MultimediaN concert-video browser
JP2006085379A (ja) 情報処理装置及びその制御方法、プログラム
Durak Semantik video modeling and retrieval with visual, auditory, textual sources

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050909

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051226

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20060118

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20060224