JP2001084743A - 画像・音響対応方法、音響対応方法、画像対応方法 - Google Patents

画像・音響対応方法、音響対応方法、画像対応方法

Info

Publication number
JP2001084743A
JP2001084743A JP25615399A JP25615399A JP2001084743A JP 2001084743 A JP2001084743 A JP 2001084743A JP 25615399 A JP25615399 A JP 25615399A JP 25615399 A JP25615399 A JP 25615399A JP 2001084743 A JP2001084743 A JP 2001084743A
Authority
JP
Japan
Prior art keywords
image
sound
data
additional information
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP25615399A
Other languages
English (en)
Inventor
Toshikazu Kaneko
俊和 金子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MegaChips Corp
Original Assignee
MegaChips Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MegaChips Corp filed Critical MegaChips Corp
Priority to JP25615399A priority Critical patent/JP2001084743A/ja
Publication of JP2001084743A publication Critical patent/JP2001084743A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 画像と音響との対応付けを行う手法について
提示することを目的とする。 【解決手段】 音響データベース103、画像データベ
ース203にはそれぞれ複数の音響データ13aと複数
の画像データ23aがデータベース化して設定されてい
る。音響データ13aには当該音響データ13aについ
ての言語的な音響付加情報13bが、画像データ23a
には当該画像データ23aについての言語的な画像付加
情報23bが、それぞれ関連付けて設定される。画像・
音響対応付け部300は音響付加情報13bと画像付加
情報23bとを比較し、比較された音響付加情報13b
と画像付加情報23bとが関連付けて対応可能であると
判断すれば、比較対象となった音響付加情報13bに関
連付けられた音響データ13aと画像付加情報23bに
関連付けられた画像データ23aを対応付ける。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は画像と音響とを、
あるいは音響同士、画像同士を互いに関連付けて対応さ
せる技術に関し、例えば音響データから画像データある
いは音響データを検索し、又は画像データから音響デー
タあるいは画像データを検索する技術に関する。
【0002】
【従来の技術】従来から画像と音響とは補強し合って人
間の感覚に訴えてきた。一例として商業用途の画像に対
し、これに適したバックグランドミュージックを付加し
て消費者に提示される場合が挙げられる。
【0003】
【発明が解決しようとする課題】しかし、ある画像に対
しこれに適した音響を設定することは、専ら人手によっ
て行われてきた。音響と画像とは互いに直接に比較する
対象が存在しないため、これらをデータの形で設定して
コンピューターに与えても、両者を関連付けるデータ処
理が困難だったためである。
【0004】またある画像に対して類似の画像を検索す
るシステムも存在したが、その検索の際に必要となるパ
ラメータも、専ら人手によって設定されていた。
【0005】本発明は上記の事情に鑑みてなされたもの
で、人手による労力を軽減しつつ、画像と音響との対応
付け、あるいは音響同士、画像同士の対応付けを行う手
法について提示することを目的とする。
【0006】
【課題を解決するための手段】この発明のうち請求項1
にかかるものは、音響データに関連付けられ、前記音響
データについての言語的な音響付加情報と、画像データ
に関連付けられ、前記画像データについての言語的な画
像付加情報とが設定され、前記音響付加情報と前記画像
付加情報の間の関連性を以て前記音響データと前記画像
データとを対応付ける、画像・音響対応方法である。
【0007】この発明のうち請求項2にかかるものは、
請求項1記載の画像・音響対応方法であって、前記音響
付加情報は、前記音響データが表す音響についての感覚
的言語の妥当性の度合いを示す変数を含み、前記画像付
加情報は、前記画像データが表す画像についての感覚的
言語の妥当性の度合いを示す変数を含む。
【0008】この発明のうち請求項3にかかるものは、
請求項1記載の画像・音響対応方法であって、前記音響
付加情報は、前記音響データについての言語として意味
ある文字列を含み、前記画像付加情報は、前記画像デー
タについての言語として意味ある文字列を含む。
【0009】この発明のうち請求項4にかかるものは、
請求項1記載の画像・音響対応方法であって、前記画像
データは複数の静止画から構成される動画についてのデ
ータであって、前記画像付加情報は前記動画を構成する
一の前記静止画について設定される。
【0010】この発明のうち請求項5にかかるものは、
請求項2乃至4のいずれか一つに記載の画像・音響対応
方法であって、前記画像付加情報は、前記画像データの
内容を簡易に示す画像サンプルデータを更に含む。
【0011】この発明のうち請求項6にかかるものは、
請求項2又は3記載の画像・音響対応方法であって、前
記音響付加情報は、前記音響データの内容を簡易に示す
音響サンプルデータを更に含む。
【0012】この発明のうち請求項7にかかるものは、
請求項1記載の画像・音響対応方法であって、前記画像
データは、複数の静止画から構成されるシーンの複数か
らなる動画についてのものであり、前記画像付加情報は
前記シーン毎に設定され、前記静止画の特徴から前記シ
ーン同士の境界を認識して音響制御命令を生成し、前記
画像付加情報及び前記音響付加情報に基づいて前記シー
ン毎に前記音響データを選択し、前記音響制御命令に基
づいて前記音響データの出力を制御する。
【0013】この発明のうち請求項8にかかるものは、
複数の音響データに対して、前記音響データに関連付け
られ、前記音響データについての言語的な音響付加情報
を設定し、前記音響付加情報同士の関連性を以て前記音
響データ同士を対応付ける音響対応方法である。
【0014】この発明のうち請求項9にかかるものは、
請求項8記載の音響対応方法であって、前記音響付加情
報は、前記音響データが表す音響についての感覚的言語
の妥当性の度合いを示す変数を含む。
【0015】この発明のうち請求項10にかかるもの
は、請求項8記載の音響対応方法であって、前記音響付
加情報は、前記音響データについての言語として意味あ
る文字列を含む。
【0016】この発明のうち請求項11にかかるもの
は、請求項9又は10記載の音響対応方法であって、前
記音響付加情報は、前記音響データの内容を簡易に示す
音響サンプルデータを更に含む。
【0017】この発明のうち請求項12にかかるもの
は、複数の画像データに対して、前記画像データに関連
付けられ、前記画像データについての言語的な画像付加
情報を設定し、前記画像付加情報同士の関連性を以て前
記画像データ同士を対応付ける画像対応方法である。
【0018】この発明のうち請求項13にかかるもの
は、請求項12記載の画像対応方法であって、前記画像
付加情報は、前記画像データが表す画像についての感覚
的言語の妥当性の度合いを示す変数を含む。
【0019】この発明のうち請求項14にかかるもの
は、請求項12記載の画像対応方法であって、前記画像
付加情報は、前記画像データについての言語として意味
ある文字列を含む。
【0020】この発明のうち請求項15にかかるもの
は、請求項12記載の画像対応方法であって、前記画像
データは複数の静止画から構成される動画についてのデ
ータであって、前記画像付加情報は前記動画を構成する
一の前記静止画について設定される。
【0021】この発明のうち請求項16にかかるもの
は、請求項13乃至15のいずれか一つに記載の画像対
応方法であって、前記画像付加情報は、前記画像データ
の内容を簡易に示す画像サンプルデータを更に含む。
【0022】
【発明の実施の形態】第1の実施の形態.図1は本発明
の第1の実施の形態にかかる画像・音響対応システムの
構成の概略を示すブロック図である。本システムは大き
く分けて3つのブロック、即ち音響コンテンツ作成部1
00、画像コンテンツ作成部200、画像・音響対応付
け部300で構成されている。
【0023】音響コンテンツ作成部100には音源11
が入力され、音源11に基づいて音響生データ12を作
成する音響データ作成部101が設けられている。音源
11としてはデジタル音源11a、アナログ音源11b
が採用できる。デジタル音源11aが採用された場合に
は音響生データ12はデジタル音源11aをそのまま採
用しても良いし、アナログ音源11bが採用された場合
には音響生データ12はA/D変換によってデジタル信
号として生成されても良い。もちろん、音響生データ1
2はアナログ信号であっても良い。
【0024】音響コンテンツ作成部100は、後述する
音響データ13a、音響付加情報13bを音響生データ
12から作成する音響付加情報作成部102と、音響デ
ータ13a、音響付加情報13bを蓄積する音響データ
ベース103も備えている。また、音響付加情報作成部
102、音響データベース103の動作を制御するため
の入力機器104、音響データ13aや音響付加情報1
3bを出力するための出力装置105も備えている。出
力装置105としては拡声器105a、表示器105b
が採用できる。
【0025】同様にして、画像コンテンツ作成部200
には画像源21が入力され、画像源21に基づいて画像
生データ22を作成する画像データ作成部201が設け
られている。画像源21としては画像データ源21a、
画像21bが採用できる。画像データ源21aが採用さ
れた場合には画像生データ22は画像データ源21aを
そのまま、あるいはA/D変換してデジタル信号として
も良いし、画像21bが採用された場合には画像データ
作成部201はスキャナとして機能し、画像生データ2
2がデジタル信号として生成されても良い。画像生デー
タ22も音響生データ12と同様にアナログ信号であっ
ても良い。
【0026】画像コンテンツ作成部200は、後述する
画像データ23a、画像付加情報23bを画像生データ
22から作成する画像付加情報作成部202と、画像デ
ータ23a、画像付加情報23bを蓄積する画像データ
ベース203も備えている。また、画像付加情報作成部
202、画像データベース203の動作を制御するため
の入力機器204、画像データ23aや画像付加情報2
3bを出力するための表示器205も備えている。表示
器205は表示器105bと、また入力機器204は入
力機器104と、それぞれ兼用することもできる。
【0027】画像・音響対応付け部300には音響デー
タ13a、音響付加情報13b、画像データ23a、画
像付加情報23b及び入力機器104,204からの制
御入力を受け、出力装置105に音響データ13aある
いは音響付加情報13bを、表示器205に画像データ
23aあるいは画像付加情報23bを、それぞれ出力す
る。
【0028】以上のようにして音響データベース10
3、画像データベース203にはそれぞれ複数の音響デ
ータ13aと複数の画像データ23aがデータベース化
して設定されている。そしてそれぞれの音響データ13
aには当該音響データ13aについての言語的な音響付
加情報13bが関連付けて設定され、それぞれの画像デ
ータ23aには当該画像データ23aについての言語的
な画像付加情報23bが関連付けて設定される。ここで
「設定」とは音響データベース103、画像データベー
ス203のような固定された記憶装置に集中して保存さ
れている場合のみならず、ネットワーク間で伝送可能と
なっている状態をも指す。従って、音響コンテンツ作成
部100、画像コンテンツ作成部200、画像・音響対
応付け部300がネットワークによって結合している場
合には、音響データベース103、画像データベース2
03は必ずしも必要ではない。
【0029】なお、音響データ13a、画像データ23
aには、それぞれ音響生データ12、画像生データ22
を採用することもできるが、音響生データ12、画像生
データ22に圧縮処理を施して生成することが、データ
量を減らす観点から望ましい。
【0030】図2は音響データ13aと画像データ23
aとの対応付けを行う画像・音響対応付け部300の構
成を示すブロック図である。画像・音響対応付け部30
0は比較部301、判断部302、出力部303を備え
ている。比較部301は音響付加情報13bと画像付加
情報23bとを比較し、比較結果33を判断部302に
与える。判断部302は比較結果33を所定の条件で判
断し、更に他の音響データ13aあるいは音響付加情報
13bを検索する場合にはそれぞれ音響データ読み出し
指令31、画像データ読み出し指令32を出力する。音
響データ読み出し指令31、画像データ読み出し指令3
2によって、音響データベース103、画像データベー
ス203から新たに音響データ対13や画像データ対2
3が読み出される。
【0031】ここで音響データ対13は音響データ13
aと音響付加情報13bとの対を指し、画像データ対2
3は画像データ23aと画像付加情報23bとの対を指
す。但し互いに関連付いた音響データ13aと音響付加
情報13bとは、両者相俟って単一のデータファイルの
形態を有する必要はなく、互いにリンクしたデータであ
っても良い。画像データ対23についても同様である。
【0032】比較結果33に基づいて、判断部302
が、比較部301で比較された音響付加情報13bと画
像付加情報23bとが関連付けて対応可能であると判断
すれば、採用指令34を出力部303に与え、出力部3
03には比較部301で比較対象となった音響付加情報
13bに関連付けられた音響データ13a、あるいは画
像付加情報23bに関連付けられた画像データ23aを
入力する。あるいはこのときに音響付加情報13b、画
像付加情報23bをも出力部303が入力しても良い。
対応付けられる対象として選択された音響付加情報13
b、あるいは画像付加情報23bを、音響サンプルデー
タ、画像サンプルデータとして出力装置105や表示器
205に与えれば、検索された音響もしくは画像が、検
索の基礎となった画像もしくは音響に対して適切か否か
を簡易に判断することができるからである。
【0033】判断部302における判断基準は、入力機
器104,204により外部から設定することができ
る。また音響サンプルデータや画像サンプルデータを認
識し、操作者の判断で、これらに対応する音響データ1
3aや画像データ23aを対応付けから破棄し、新たな
音響データ13aや画像データ23aを得るように判断
部302に指示することもできる。また音響サンプルデ
ータや、画像サンプルデータを出力装置105や表示器
205に出力させるのか、音響データ13aや画像デー
タ23aを出力させるのかの指示も、入力機器104,
204により行うことができる。
【0034】例えば音響付加情報13bや画像付加情報
23bとしてはキーワード(文字列)が設定される。そ
して音響データ13aに基づいて画像データ23aを対
応付ける場合には、当該音響データ13aに関連付けて
設定された音響付加情報13bが有するキーワードと関
連性あるキーワードを有する画像付加情報23bが検索
される。そして関連性あると判断されたキーワードを有
する画像付加情報23bと関連付けて設定された画像デ
ータ23aが選択される。逆に画像データ23aに基づ
いて音響データ13aを対応付ける場合にも同様であ
る。
【0035】例えば音響データ13aが歌曲の場合に
は、キーワードとして歌詞の一部が設定される。但し音
響付加情報13bと画像付加情報23bとの間で関連性
が判断されるため、キーワードとしては言語的に意味を
有するものであることが望ましい。例えば単語、文節単
位で設定される。もちろんキーワードは歌詞の一部から
連想される文字列であっても良い。例えば歌詞に「桜」
とあれば「春」をキーワードとするが如くである。ある
いは複数の文字列に関連性ある文字列をキーワードとし
て用いても良い。例えば歌詞に「桜」「宴」とあった場
合に「花見」をキーワードとするが如くである。その
他、歌手、作曲者、作曲年号、著作権などを採用しても
良い。これらの文字列は入力機器104から人手によっ
て入力することができる。
【0036】画像データ23aのキーワードとしては、
当該画像データ23aの表す画像の特徴から着目点を得
て、更にこの着目点に関連する文字列をキーワードとし
て用いることができる。例えば画像が男性を表している
場合には、その画像から男性という着目点を得ることが
でき、キーワードとして「ワイシャツ」を設定すること
ができる。また更に「ネクタイ」や「携帯電話」という
複数の着目点を得ることができた場合に、これらに関連
した一つのキーワード「ビジネスマン」を設定すること
ができる。
【0037】あるいは音響付加情報13aや画像付加情
報13bとして曖昧データが設定されても良い。本発明
にいう曖昧データとは、音響データ13aや画像データ
23aのそれぞれが表す音響や画像についての感覚的言
語の妥当性の度合いを示す変数をいう。例えば音響デー
タ13aが表す音響が歌曲であった場合に、長調であれ
ば明るく、短調であれば暗く感じられる。「明るい」
「暗い」は本来的には視覚上の感覚を示す言語である
が、音響に対しても比喩的に用いられる場合がある。同
様にして画像データ23aが表す画像自体が視覚的に明
るい場合であっても、その画像の意味するところが「暗
い」と感じられる場合もある。このような感覚的言語が
音響データ13aや画像データ23aによってそれぞれ
表される音響や画像に対して、どの程度妥当するかの度
合いを数値化したものが曖昧データである。従って曖昧
データは感覚的言語及びこれについての数値が対をなし
て設定される。この数値は入力機器104や入力機器2
04を用いて音響付加情報作成部102や画像付加情報
作成部202に対して人手で設定しても良いし、キーワ
ードに対応して自動的に設定されても良い。例えばキー
ワードとして「夏」「陽光」が設定されている場合には
感覚的言語である「明るい」に対して設定しうる最大の
数値を設定するが如くである。
【0038】比較部301においてキーワードが比較さ
れる場合には、判断部302における判断は例えば以下
のようにして行われる。第1の例としては、音響付加情
報13b、画像付加情報23bにおいて、互いに同じ文
字列が存在するか否かの判断である。この比較されるべ
き文字列は入力機器104,204を用いて外部から設
定しても良い。同じ文字列が存在すれば、その旨を比較
結果33として判断部302へと与えることができる。
第2の例としては音響付加情報13b、画像付加情報2
3bに、あるキーワードを合計して所定の個数以上存在
するか否かの判断である。この所定の個数は入力機器1
04,204を用いて設定することができる。第3の例
としては例えば「ネクタイ」と「ビジネスマン」のよう
に、異なる文字列であって互いに関連性、あるいは連想
性を有する複数種類の文字列が、所定の個数以上存在す
るかの判断である。異なる文字列が互いに関連性や連想
性を有するか否かを判断するために、それらの情報を有
した関連性データベース304が判断部302に接続さ
れて音響画像対応付け部300に設けられていることが
望ましい。第2、第3の例においては、キーワードの合
計数や、連想性を有する文字列の数を比較結果33とし
て採用することができる。
【0039】比較部301において曖昧データが比較さ
れる場合には、判断部302における判断は例えば以下
のようにして行われる。第1の例としては、音響付加情
報13b、画像付加情報23bにおいて互いに同じ感覚
的言語(例えば「明るい」)についての数値が等しいか
否かの判断である。この比較されるべき曖昧データは入
力機器104,204を用いて外部から設定しても良
い。第2の例としては音響付加情報13b、画像付加情
報23bの、ある曖昧データについての数値が合計して
所定の値以上であるか否かの判断である。この所定の値
は入力機器104,204を用いて設定することができ
る。第3の例としては例えば「明るい」と「爽やか」の
ように、異なる感覚的言語であって互いに関連性、ある
いは連想性を有する複数種類の感覚的言語についての数
値の合計が、所定の値以上であるか否かの判断である。
異なる感覚的言語が互いに関連性や連想性を有するか否
かを判断するために、それらの情報を有した関連性デー
タベース304が判断部302に接続されて音響画像対
応付け部300に設けられていることが望ましい。
【0040】また曖昧データが音響、あるいは画像のど
の部分に着目したものであるかを判断しても良い。例え
ば音響の場合には曲調が長調であって「明るい」の数値
が高くても、歌詞の内容については「暗い」の数値が高
い場合もある。また例えば夏の風景を描いた画像であっ
ても、着目点が「太陽」であるか「かき氷」であるかに
よって「熱い」「冷たい」の数値は異なる。このように
異なる対象についての曖昧データが存在する場合には、
対象毎に判断しても良いし、対象の異同を不問として判
断しても良い。
【0041】音響データ13aが歌曲の場合には、望ま
しくは更に音響サンプルデータとして機能するMIDI
(musical instrument digital interface)データが音
響付加情報13bに付加して設定され、画像サンプルデ
ータとして機能するベクトル画像、代理画像、低精細圧
縮画像、特殊変調画像が画像付加情報23bとして付加
して設定される。
【0042】図3は音響データ作成部101、音響付加
情報作成部102の構成を例示するブロック図である。
ここでは音源11として歌曲がアナログ音源11bとし
て得られ、音響生データ12がデジタル信号である場合
が例示されている。
【0043】音響データ作成部101はA/D変換部1
01aと、サンプリング部101bとを有しており、音
源11はこれらによってそれぞれA/D変換及びサンプ
リングが行われて音響生データ12となって音響付加情
報作成部102へと与えられる。
【0044】音響付加情報作成部102において音響生
データ12は、ピッチ抽出ブロック1021と、デジタ
ルフィルタ1022と、圧縮部1025とに与えられ
る。ピッチ抽出ブロック1021はエンベロープフォロ
ワ102aによって音響生データ12のエンベロープが
形成され、これはピーク検出部102bにおいて帯域毎
に分割されつつピークが検出される。その結果からピッ
チ抽出部102cにおいてピッチ121が抽出される。
ピーク検出部102bにおいて設定される帯域を人間の
肉声の帯域に設定することにより、歌曲のボーカルにつ
いてのピッチ121を抽出できる。
【0045】デジタルフィルタ1022はピッチ121
を入力し、その通過帯域はピッチ121に追従して変化
する。これにより、デジタルフィルタ1022に入力さ
れた音響生データ12は例えば肉声が効率よく透過し、
それ以外の帯域の音を減衰させることができる。音響デ
ータ12はデジタルフィルタ1022を通過して、上述
の例でいえば肉声についてのパワースペクトルが大きい
デジタル信号の肉声データ122を出力する。
【0046】図4及び図5はデジタルフィルタ1022
の構成例を示す回路図である。図4に示された構成で
は、加算器1022aは音響生データ12と係数乗算器
1022gの出力とを加算して係数乗算器1022bに
与える。加算器1022cは係数乗算器1022bの出
力と係数乗算器1022fの出力とを加算して肉声デー
タ122を生成する。遅延素子1022dによって遅延
された肉声データ122が係数乗算器1022fに入力
し、遅延素子1022dの出力を更に遅延素子1022
eによって遅延した肉声データ122が係数乗算器10
22gに入力する。遅延素子1022d,1022eの
遅延量は、z変換ではz-1として表される。以上のよう
に、図4に示された構成では、デジタルフィルタ102
2は2次の無限長応答インパルス応答回路を構成してお
り、しかも係数乗算器1022b、1022f、102
2gにおいて乗算される係数はピッチ121によって制
御可能である。従って、デジタルフィルタ1022の通
過帯域をピッチ121に追従して制御することができ
る。
【0047】図5に示された構成では、音響生データ1
2が係数乗算器1022hに入力し、係数乗算器102
2hの出力と係数乗算器1022kの出力とが加算器1
022iにおいて加算されて肉声データ122が生成さ
れる。遅延素子1022jによって遅延された肉声デー
タ122が係数乗算器1022kに入力する。遅延素子
1022jの遅延量は、z変換ではz-nとして表され、
n及び係数乗算器1022h、1022kにおいて乗算
される係数はピッチ121によって制御可能である。従
って、デジタルフィルタ1022の通過帯域をピッチ1
21に追従して制御することができる。このようなフィ
ルタは例えば櫛形フィルタで実現することができる。
【0048】なお、肉声データ122を得るためには上
記の手法の他、ステレオ録音された歌曲においてボーカ
ルの音像位置が中央にある場合には、左チャネルから右
チャネルを差し引いて一旦ボーカルを消去してモノラル
のいわゆるカラオケを作成し、これを左チャネルと右チ
ャネルとが合成された音から差し引いても良い。
【0049】図3に戻り、音響付加情報作成部102内
のデータ前処理ブロック1023には肉声データ122
が与えられ、ここでは音響付加情報作成部102に設け
られた音声認識ブロック1024のための前処理を行
う。データ前処理ブロック1023はエンベロープフォ
ロワ102dによって肉声データ122のエンベロープ
が形成され、これはレベル調整部102eによってピッ
チが平坦化されつつ、レベルが調整される。その結果は
音声認識ブロック1024に与えられ、まず変換部10
2fにおいてケプストラム変換や隠れマルコフ変換の処
理を受け、音素片抽出部102gによって文字列、例え
ば上述の例では歌詞が得られる。音素片抽出部102g
には辞書102hが接続され、辞書102hに基づいて
文字列が生成される。なお、歌詞中に繰り返されるフレ
ーズがあれば、繰り返しを示す制御データを歌詞の一部
として出力しても良い。あるいは歌詞の区切りを示す制
御データを歌詞の一部として出力しておけば、例えばそ
の区切り毎に表示器105bに纏めて出力を行うことも
できる。
【0050】歌詞はキーワード/曖昧データ作成部10
27へ与えられもする。キーワード/曖昧データ作成部
1027では、既述のキーワードや曖昧データを辞書1
028に基づいて作成する。
【0051】ピッチ121はMIDI作成部1026に
も与えられ、ここでピッチ121はMIDIデータへと
変換される。例えばMIDIデータの形式をGM(Gene
ralMIDI)とすることで、様々な音源やソフトシンセサ
イザーで再生可能となる。
【0052】一方、音響付加情報作成部102には圧縮
処理部1025も設けることができ、その場合には音響
データ13aを音響生データ12を圧縮したデータとし
て生成することができる。
【0053】図6は画像データ作成部201、画像付加
情報作成部202の構成を例示するブロック図である。
ここでは画像源21として、机に置かれたビールジョッ
キを左手に持ってシャツを着た男性の正面像、が画像2
1bとして得られ、画像生データ22がデジタル信号で
ある場合が例示されている。
【0054】画像データ作成部201は画像取り込み部
201aとA/D変換部201bとを有しており、画像
21bは画像取り込み部201aにおいてアナログ信号
に変換され、更にA/D変換部201bによってデジタ
ル信号たる画像生データ22へ変換される。
【0055】画像付加情報作成部202に入力された画
像生データ22は、オブジェクト特徴抽出部2021に
与えられ、ベクトル画像データ23cが得られる。ベク
トル画像データ23cは、輪郭線や特徴的な線を抽出
し、ベクトルとして表したデータであって、画像サンプ
ルデータとして機能する画像付加情報23bとして採用
できる。
【0056】またオブジェクト特徴抽出部2021は、
更に特徴データ23d、特徴画像23fを生成する。特
徴データ23dは例えば画像自体の明暗、色相、エッジ
の強さなどであり、特徴画像23fは例えば画像生デー
タ22の中からほぼ均一な部分、例えば背景色を除去し
て得られる。
【0057】特徴画像23fは画像認識部2024に与
えられ、特徴画像23fから着目点23gを抽出する。
例えばビールジョッキ、男性の顔、シャツ等に分離され
た画像データが着目点23gとして得られる。特徴デー
タ23dと着目点23gに基づき、代理画像検索部20
22は代理画像データベース2023から、画像21b
の代替となる代理画像を検索し、選択された代理画像を
代理画像データ23eとして出力する。代理画像データ
23eは、例えば人物を戯画化した線図であり、これも
画像サンプルデータとして機能する画像付加情報23b
として採用できる。
【0058】画像認識部2024は更に単純化画像23
iも生成し、これに基づいてキーワード検索部2025
はキーワードデータベース2026から適切なキーワー
ド23jを選択する。例えば画像認識部2024は特徴
画像23fからシャツを着た男性の顔を認識することに
より、例えば特徴画像23fからビールジョッキの画像
を取り除いて得られる画像についてのデータとして単純
化画像23iを得る。
【0059】曖昧検索部2027には単純化画像23i
や、キーワード23jが入力され、更に辞書2028に
基づいて曖昧データ23kが作成される。キーワード2
3jや曖昧データ23kについては画像サンプルデータ
としても比較部301において比較される対象としても
機能する画像付加情報23bとして採用できる。
【0060】また、画像生データ22は変成部2029
において圧縮され、あるいは変調され、あるいは動画か
らの静止画の抽出が行われる。例えば画像を構成する複
数の画素を縦横において間引いたり、JPEG方式、ウ
ェーブレット変換によって圧縮される。あるいは色数を
限定したり、フィルタリングによる変調を行う。あるい
は動画から特徴的な静止画を選択する。これらの操作に
よって得られる変成データ23sは、画像生データ22
に対して非常にデータが少ないが、視覚的な訴求力はベ
クトル画像データ23cや代理画像データ23eよりも
大きい場合があり、画像サンプルデータとして機能する
画像付加情報23bとして採用できる。
【0061】なお、動画を構成する複数の静止画から特
徴的な静止画を選択するに際し、手動で特定のフレーム
を選択する方法が簡単である。この際、着目点23gに
ついて、どの静止画が最も適切に表しているかを選択の
基準としても良い。その場合には手動ではなく、変成部
2029において自動的に静止画の選択を行わせること
ができる。
【0062】図7は動画を構成する複数の静止画から特
徴的な静止画を選択する機能を有する変成部2029の
構成を例示するブロック図である。変成部2029は複
数の静止画データ22i(i=1,2,3,…,m)か
らなる動画データたる画像生データ22と、画像認識部
2024から着目点23gとを入力する対象物選定部2
029aを有している。着目点23gの代わりにキーワ
ード23jを採用しても良い。対象物選定部2029a
は、着目点23g(あるいはキーワード23j)が特定
する対象物を静止画データ22iから抽出する。その結
果は変成部2029の有する評価関数設定部2029b
に与えられ、変成部2029の有する評価関数データベ
ース2029cによって評価関数が設定される。評価関
数として、対象物が人物の場合には正面を向いている
か、画面の1/4以上の面積に表示されているか等を基
準とした評価が例挙でき、あるいは車両の場合には画面
の1/6以上の面積に表示されているか、車両の前面と
側面の表示面積の比率が2:8〜3:7の範囲内にある
かが例挙できる。このように、着目点23g(あるいは
キーワード23j)についての評価関数を動画を構成す
る複数の静止画毎に設定し、その評価関数が所定の水準
を満たしている静止画データ22j(j i)を変成デ
ータ23sとして選択することができる。この際、評価
関数の設定については入力機器104(あるいは入力機
器204)によって人手で行うこともできる。
【0063】図6に戻り、画像生データ22は画像コン
テンツ作成部200内の画像圧縮部2030へ与えら
れ、ここで圧縮されて画像データ23aとして出力され
る。もちろん、画像データ23aとして変性データ23
sを採用しても良い。
【0064】図2に戻り、出力部303には互いに関連
付けられて対応する音響データ13a、画像データ23
aが入力されるので、これらをそれぞれ拡声器105
a、表示器205に与えることにより、例えばコマーシ
ャルフィルムに対して適切なバックグランドミュージッ
クを付加することができ、あるいは逆にある歌曲のカラ
オケ用音楽に対して当該歌曲に適した画像を付加するこ
ともできる。
【0065】もちろん、図2に示された構成において、
音響からキーワードや曖昧データを介して音響を検索し
たり、画像からキーワードや曖昧データを介して画像を
検索したりすることもできる。このような機能は使用し
たい音響や画像についての著作権が存在している場合
に、これと類似した概念の音響や画像であって著作権が
存在しないものを検索する場合に好適である。
【0066】また、入力機器104(あるいは入力機器
204)によって入力されたキーワードや曖昧データに
基づいて音響や画像を検索することもでき、逆に音響や
画像からキーワードや曖昧データを出力することもでき
る。
【0067】なお、例えば入力されたあるキーワードや
曖昧データに基づいて音響や画像を検索する際に、判断
部302における判断が、キーワードや曖昧データと関
連付けて対応可能であると判断されなかった音響データ
13aや画像データ23aについても、採用指令34を
出力部303に与え、出力部303からの出力を行うこ
とも可能である。この際、音響データ13aや画像デー
タ23aは入力されたあるキーワードや曖昧データと関
連付けて対応可能となるように、加工されることが望ま
しい。
【0068】図8は関連付けが判断される際の、音響デ
ータ13aや画像データ23aの加工についてのフロー
チャートである。ステップS901では、比較部301
へと音響付加情報13bや画像付加情報23bが取得さ
れ、キーワードや曖昧データも入力される。上述のよう
に、比較部301へのキーワードや曖昧データの入力は
入力機器104,204で行うことができる。あるいは
図2の比較結果33として音響付加情報13bや画像付
加情報23b自身を採用し、判断部302へと入力機器
104,204でキーワードや曖昧データを入力しても
良い。
【0069】次にステップS902では判断部302に
おいて関連条件、例えばキーワードと同じ文字列が所定
の個数以上存在するか、キーワードと連想性を有する文
字列が所定の個数以上存在するか等の条件を満足するか
否かが判断される。関連条件が満足されれば、ステップ
S902の判断については「YES」となって、ステッ
プS903へ進み、音響付加情報13bや画像付加情報
23b、あるいは音響データ13a、画像データ23a
の出力が行われる。
【0070】一方、ステップS902で関連条件が満足
されなければ、ステップS902の判断については「N
O」となって、ステップS904へ進む。ステップS9
04では関連条件が満足されていなくとも、データの出
力を行うために音響データ13a、画像データ23aの
加工を行うか否かが判断される。加工を行わずに、更に
他の音響データ13a、画像データ23aについての判
断を進めるのであれば「NO」と判断されてステップS
901へと戻り、新たなデータ取得が行われる。
【0071】しかし加工を行うのであれば「YES」と
判断されて、ステップS905においてデータの加工が
行われる。ここでデータの加工とは、例えば音響データ
13aについていえば、曖昧データ「明るい」について
の数値を上げるために、短調の歌曲を長調へと転調する
加工が例挙できる。加工されたデータはステップS90
3と同様にして出力される。
【0072】ステップS905においては加工の他、合
成を行っても良い。例えば画像データ23aについてい
えば、キーワード「メガネ」についての数値を上げるた
めに、人物画にメガネの図形を付加する合成が例挙でき
る。
【0073】あるいは出力すべきデータをステップS9
05において自動生成しても良い。例えば音響データ1
3aについていえば、曖昧データ「明るい」、キーワー
ド「舞踏会」についての関連性を得るために、長調のワ
ルツを自動作曲する場合を例挙できる。
【0074】第2の実施の形態.上記のような画像と音
響との対応付けは、動画とバックグランドミュージック
との対応付けにも適用できる。例えば動画を構成する静
止画の1枚1枚に対して図6で示されたような画像認識
を行い、これに対応する音響を検索する。
【0075】図9は、動画が複数のシーンで構成された
場合、各シーンに対応付けられたバックグランドミュー
ジックをリアルタイムで出力する態様を示す模式図であ
る。動画についてみれば、キーワード「小川」「せせら
ぎ」「爽やか」が付加された複数の静止画から構成され
るシーン1が、時刻t0〜時刻t1において出力部30
3に入力され、キーワード「ジャングル」「ざわめき」
が付加された複数の静止画から構成されるシーン2が、
時刻t1〜時刻t5において出力部303に入力され
る。但し、シーン2は、時刻t2〜時刻t3においてキ
ーワード「鳥」「鳴き声」が付加された複数の静止画か
らなるインサート画像によって中断され、時刻t4以降
においてはキーワード「先住民集落」が付加された複数
の静止画から構成されるシーン3によってクロスフェー
ドが掛けられている。
【0076】このような動画を示す画像データ23aに
対し、音響データ13aはシーン毎に選択される。即ち
あるシーン内における静止画像の概念同士は、異なるシ
ーンにおける静止画像の概念同士と比較すると、互いに
類似しており、各シーンの途中では選択される音響デー
タ13aは変動しない。そしてバックグランドミュージ
ックとして例えばシーン1にはBGM1(小川の流れ)
及びBGM2(組曲「ペールギュント」)が、シーン2
にはBGM3(原生林のざわめき)が、シーン3にはB
GM5(ドラム連打)が、インサート画像にはBGM4
(鳥の鳴き声)が、それぞれ選択される。
【0077】図10は出力部303の構造の一部を例示
するブロック図である。画像付加情報23bたるベクト
ル画像データ23cが入力されるシーン切り替え判断部
3031と、音響データ13aが入力される音響切り替
え部3032とが出力部303に備えられており、音響
切り替え部3032にはシーン切り替え判断部3031
から画像認識コマンド35も与えられている。
【0078】画像認識コマンド35は、静止画像毎に求
められるベクトル画像データ23cが、シーンの変わり
目で大きく変化することに基づいて生成される。図9に
示されるように、時刻t1,t2,t3において、それ
ぞれシーン1からシーン2へ、シーン2からインサート
画像へ、インサート画像からシーン2の続きへ、それぞ
れ変化し、この時点においてベクトル画像データ23c
に大きな変化が生じる。これに基づいて画像認識コマン
ド35は時刻t1,t2,t3において「チェンジ」を
指令する。
【0079】この指令「チェンジ」は、シーン毎に選択
されていた音響データ13aが拡声器105aに与えら
れるタイミングを決定する。音響切り替え部3032に
おいては、選択された音響データ13aが順次に音響切
り替え部3032に与えられるので、単一のトラックの
形態で音響データ13aが設けられている場合には必ず
しも必要ではない。しかし、複数のトラック、例えば2
つのトラックの形態で音響データ13aが設けられ、B
GM1とBGM2がそれぞれ1トラックずつ占有し、B
GM3がBGM1と同じトラックを占有する場合には、
BGM1からBGM3への切り替えのみならず、BGM
2の停止をも行うのに指令「チェンジ」に基づく動作制
御は便利である。
【0080】また、時刻t4〜t5へのクロスフェード
については、画像認識コマンド35は時刻t4,t5に
おいてそれぞれ「クロスフェード始点」「クロスフェー
ド終点」を指令する。例えばBGM3とBGM5がそれ
ぞれ1トラックずつ占有し、「クロスフェード始点」の
指令によって、音響切り替え部3032は、それまで出
力されていたBGM3のフェードアウトを介しすると同
時に、BGM5のフェードインを開始する。そして「ク
ロスフェード終点」の指令によって、BGM3は出力さ
れず、BGM5が出力される。なお、時刻t4において
キーワード「先住民集落」が得られるので、シーン3に
対応するBGM5のフェードインは可能となる。
【0081】以上のような音響出力の制御内容は、図9
の右から2列目に示している。ここで「プレイ」とは音
響データ13aの種類を問わず拡声器105aへ出力す
る制御である。但し画像認識コマンド35が設定される
ので、時刻t0〜t4まで常時「プレイ」としていても
出力される音響データ13aの切り替えは容易である。
時刻t4〜t5においては上述のようにクロスフェード
が行われる。
【0082】なお、「クロスフェード始点」の指令によ
って、スムーズにクロスフェードを開始することは容易
であるが、「クロスフェード終点」の指令によって、ス
ムーズにクロスフェードを終了することは容易ではな
い。クロスフェードの期間が予め予測できず、よってク
ロスフェードの変化量を設定することが容易ではないか
らである。
【0083】かかる事態に対応するためには、予め画像
生データ22にクロスフェードの始点とその期間の長さ
を示す「シーンチェンジ」の情報を埋め込んでおくこと
が望ましい。これによりクロスフェードの期間が予測さ
れ、予めクロスフェードの変化量を設定し、スムーズに
クロスフェードの開始・終了を行うことが容易となるか
らである。図9にはこれを埋め込みコマンド23uとし
て図示している。
【0084】図11は埋め込みコマンド23uの生成を
例示するブロック図であり、画像コンテンツ作成部20
0の構成の一部を示している。画像コンテンツ作成部2
00に電子透かし分離部2031を付加することによ
り、画像生データ22に電子透かしとして埋め込まれて
いた埋め込みコマンド23uを取り出すことができる。
もちろん、埋め込みコマンド23uは電子透かし以外に
も、画像生データ22とは別に設けて音響画像対応付け
部300へ与えても良い。
【0085】また、動画に対して、出力の切り替え、ク
ロスフェードを音響制御信号として一旦保管し、後にこ
れに基づいて動画とバックグランドミュージックとを同
期させて出力することもできる。
【0086】図12は音響制御信号13cの作成を説明
する概念図である。図9において用いられたシーン1〜
3及びインサート画像を用いて説明する。但し、シーン
1についてのキーワードは予め、例えば入力機器204
によって「小川」「せせらぎ」「爽やか」と設定されて
おり、他のシーン2,3及びインサート画像にはキーワ
ードは当初は設定されていなかった場合が例示されてい
る。
【0087】図6に示されるように、シーン2,3及び
インサート画像についてのキーワードは、画像コンテン
ツ作成部200において設定される。図12ではキーワ
ードの設定は図9に示されたキーワードと同一に設定さ
れた場合が、追加キーワードとして鉤括弧で括って例示
されている。
【0088】上述のように、シーンの切り替わりは、ク
ロスフェードをも含めてベクトル画像データ23cの解
析によって検出できる。よって例えば図10で示された
画像認識コマンド35を、追加キーワードと共に音響制
御信号13cとして保管することができる。図12では
画像認識コマンド35を単にコマンドとして引用符で括
って例示している。
【0089】図13は上記音響制御信号13cの生成を
行う場合の出力部303の一部の構成と、比較部301
及び判断部302との関係を例示するブロック図であ
る。シーン切り替え判断部3031はベクトル画像デー
タ23cの解析によって画像認識コマンド35を音声制
御信号生成部3033へ与える。音声制御信号生成部3
033には予め設定されていたものと、後に追加された
ものを含めたキーワードたる画像付加情報23bも入力
される。画像認識コマンド35とキーワードとは、時系
列に整理され、例えばリストの形態で音声制御信号13
cとして作成され、音響制御データベース3034に格
納される。この際、音声制御信号13cは画像認識コマ
ンド35の指令“クロスフェード終点”そのものより
も、これと“クロスフェード始点”とから求められるク
ロスフェードの期間を有している方が望ましい。図9で
示した埋め込みコマンド23uの機能を有するからであ
る。図14にリストの形態を採る音声制御信号13cを
例示する。
【0090】音声制御信号13cは比較部301に与え
られ、その中のキーワードと音響付加情報13bのキー
ワードとの比較を行う。上述のように判断部302は比
較結果33に基づいて採用指令34を生成する。出力部
303は画像・音響統合部3035を更に備えており、
音響データ13aと画像データ23aとが入力され、画
像データ23aが表示器205へ与えられる一方、採用
指令34に基づいて画像データ23aに関連付けられる
音響データ13aを拡声器105aへ出力する。この際
音響データ13aは、画像データ23aとの同期が採ら
れ、かつ音声制御信号13cのうちのコマンドに基づい
て、チェンジ、クロスフェードなどの制御がなされる。
図14に示されたリストの解釈は、例えば比較部301
によってそのキーワードが解釈され、画像・音響統合部
3035によってそのコマンドが解釈される。
【0091】なお、画像・音響統合部3035は音響デ
ータ13aと画像データ23aとをそれぞれ表示器20
5、拡声器105aへとリアルタイムで出力するのでは
なく、動画・音声が同期したコンテンツとして別途に保
存しても良い。このように保存されたコンテンツは、後
に容易に再生することができる。
【0092】
【発明の効果】この発明のうち請求項1にかかる画像・
音響対応方法によれば、互いに言語的である故に比較可
能な音響付加情報と画像付加情報との関連性を採用する
ので、互いに直接に比較する対象が存在しない音響デー
タと画像データとを関連付けて対応することができる。
【0093】この発明のうち請求項2にかかる画像・音
響対応方法によれば、音響データ及び画像データはいず
れも感覚的言語で表出され得るので、感覚的言語の妥当
性の度合いを数値化することにより、音響付加情報と画
像付加情報との比較が容易となる。
【0094】この発明のうち請求項3にかかる画像・音
響対応方法によれば、音響データ及び画像データの表す
音響や画像の内容等は言語として意味ある文字列で表出
しうる場合があるので、当該文字列を対象とすることに
より、音響付加情報と画像付加情報との比較が容易とな
る。
【0095】この発明のうち請求項4にかかる画像・音
響対応方法によれば、動画に対しても画像付加情報を設
定することができる。
【0096】この発明のうち請求項5にかかる画像・音
響対応方法によれば、音響データに基づきこれに対応す
る画像データを検索する際、検索された画像データの全
てを視認することなく、当該画像データに関連付けられ
て設定された画像サンプルデータを視聴することで、簡
易に当該画像データの採否を判断することができる。
【0097】この発明のうち請求項6にかかる画像・音
響対応方法によれば、画像データに基づきこれに対応す
る音響データを検索する際、検索された音響データの全
てを聴取することなく、当該音響データに関連付けられ
て設定された音響サンプルデータを視聴することで、簡
易に当該音響データの採否を判断することができる。
【0098】この発明のうち請求項7にかかる画像・音
響対応方法によれば、動画のシーンに対応してバックグ
ランドミュージックが選定され、かつシーンの変化に対
応してバックグランドミュージックの出力を制御するこ
とができる。
【0099】この発明のうち請求項8にかかる音響対応
方法によれば、使用したい音響についての著作権が存在
している場合に、これと類似した概念の音響であって著
作権が存在しないものを検索することに好適である。
【0100】この発明のうち請求項9にかかる音響対応
方法によれば、音響データは感覚的言語で表出され得る
ので、感覚的言語の妥当性の度合いを数値化することに
より、音響付加情報同士の比較が容易となる。
【0101】この発明のうち請求項10にかかる音響対
応方法によれば、音響データの表す音響の内容等は言語
として意味ある文字列で表出しうる場合があるので、当
該文字列を対象とすることにより、音響付加情報同士の
比較が容易となる。
【0102】この発明のうち請求項11にかかる音響対
応方法によれば、音響データに基づきこれに対応する他
の音響データを検索する際、検索された音響データの全
てを聴取することなく、当該他の音響データに関連付け
られて設定された音響サンプルデータを視聴すること
で、簡易に当該他の音響データの採否を判断することが
できる。
【0103】この発明のうち請求項12にかかる画像対
応方法によれば、使用したい画像についての著作権が存
在している場合に、これと類似した概念の画像であって
著作権が存在しないものを検索することに好適である。
【0104】この発明のうち請求項13にかかる画像対
応方法によれば、画像データは感覚的言語で表出され得
るので、感覚的言語の妥当性の度合いを数値化すること
により、画像付加情報同士の比較が容易となる。
【0105】この発明のうち請求項14にかかる画像対
応方法によれば、画像データの表す音響の内容等は言語
として意味ある文字列で表出しうる場合があるので、当
該文字列を対象とすることにより、画像付加情報同士の
比較が容易となる。
【0106】この発明のうち請求項15にかかる画像対
応方法によれば、動画に対しても画像付加情報を設定す
ることができる。
【0107】この発明のうち請求項16にかかる画像対
応方法によれば、画像データに基づきこれに対応する他
の画像データを検索する際、検索された画像データの全
てを聴取することなく、当該他の画像データに関連付け
られて設定された画像サンプルデータを視聴すること
で、簡易に当該他の画像データの採否を判断することが
できる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態にかかる画像・音響
対応システムの構成の概略を示すブロック図である。
【図2】画像・音響対応付け部300の構成を示すブロ
ック図である。
【図3】音響データ作成部101、音響付加情報作成部
102の構成を例示するブロック図である。
【図4】デジタルフィルタ1022の構成例を示す回路
図である。
【図5】デジタルフィルタ1022の構成例を示す回路
図である。
【図6】画像データ作成部201、画像付加情報作成部
202の構成を例示するブロック図である。
【図7】変成部2029の構成を例示するブロック図で
ある。
【図8】音響データ13aや画像データ23aの加工に
ついてのフローチャートである。
【図9】本発明の第2の実施の形態を示す模式図であ
る。
【図10】出力部303の構造の一部を例示するブロッ
ク図である。
【図11】埋め込みコマンド23uの生成を例示するブ
ロック図である。
【図12】音響制御信号13cの作成を説明する概念図
である。
【図13】比較部301、判断部302及び出力部30
3を例示するブロック図である。
【図14】リストの形態を採る音声制御信号13cを例
示する図である。
【符号の説明】
13a 音響データ 13b 音響付加情報 23a 画像データ 23b 画像付加情報 100 音響コンテンツ作成部 101 音響データ作成部 102 音響付加情報作成部 103 音響データベース 200 画像コンテンツ作成部 201 画像データ作成部 202 画像付加情報作成部 203 画像データベース 300 画像・音響対応付け部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 551G G11B 27/00 A Fターム(参考) 5B075 ND16 NK02 NK10 NK25 NR03 NR06 PP22 PQ02 PQ04 5D015 AA04 AA05 AA06 KK02 5D077 AA22 AA38 BA11 BB14 BB18 CA02 CA11 CB04 DC22 DC37 DC39 DF01 EA34 5D110 AA13 AA27 AA29 BB24 BB26 DA06 DA08 DA11 DA14 DB09 DB13 DC06 DE04 DE06

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 音響データに関連付けられ、前記音響デ
    ータについての言語的な音響付加情報と、 画像データに関連付けられ、前記画像データについての
    言語的な画像付加情報とが設定され、 前記音響付加情報と前記画像付加情報の間の関連性を以
    て前記音響データと前記画像データとを対応付ける、画
    像・音響対応方法。
  2. 【請求項2】 前記音響付加情報は、前記音響データが
    表す音響についての感覚的言語の妥当性の度合いを示す
    変数を含み、 前記画像付加情報は、前記画像データが表す画像につい
    ての感覚的言語の妥当性の度合いを示す変数を含む、請
    求項1記載の画像・音響対応方法。
  3. 【請求項3】 前記音響付加情報は、前記音響データに
    ついての言語として意味ある文字列を含み、 前記画像付加情報は、前記画像データについての言語と
    して意味ある文字列を含む、請求項1記載の画像・音響
    対応方法。
  4. 【請求項4】 前記画像データは複数の静止画から構成
    される動画についてのデータであって、 前記画像付加情報は前記動画を構成する一の前記静止画
    について設定される、請求項1記載の画像・音響対応方
    法。
  5. 【請求項5】 前記画像付加情報は、前記画像データの
    内容を簡易に示す画像サンプルデータを更に含む、請求
    項2乃至4のいずれか一つに記載の画像・音響対応方
    法。
  6. 【請求項6】 前記音響付加情報は、前記音響データの
    内容を簡易に示す音響サンプルデータを更に含む、請求
    項2又は3記載の画像・音響対応方法。
  7. 【請求項7】 前記画像データは、複数の静止画から構
    成されるシーンの複数からなる動画についてのものであ
    り、 前記画像付加情報は前記シーン毎に設定され、 前記静止画の特徴から前記シーン同士の境界を認識して
    音響制御命令を生成し、 前記画像付加情報及び前記音響付加情報に基づいて前記
    シーン毎に前記音響データを選択し、 前記音響制御命令に基づいて前記音響データの出力を制
    御する、請求項1記載の画像・音響対応方法。
  8. 【請求項8】 複数の音響データに対して、前記音響デ
    ータに関連付けられ、前記音響データについての言語的
    な音響付加情報を設定し、 前記音響付加情報同士の関連性を以て前記音響データ同
    士を対応付ける音響対応方法。
  9. 【請求項9】 前記音響付加情報は、前記音響データが
    表す音響についての感覚的言語の妥当性の度合いを示す
    変数を含む、請求項8記載の音響対応方法。
  10. 【請求項10】 前記音響付加情報は、前記音響データ
    についての言語として意味ある文字列を含む、請求項8
    記載の音響対応方法。
  11. 【請求項11】 前記音響付加情報は、前記音響データ
    の内容を簡易に示す音響サンプルデータを更に含む、請
    求項9又は10記載の音響対応方法。
  12. 【請求項12】 複数の画像データに対して、前記画像
    データに関連付けられ、前記画像データについての言語
    的な画像付加情報を設定し、 前記画像付加情報同士の関連性を以て前記画像データ同
    士を対応付ける画像対応方法。
  13. 【請求項13】 前記画像付加情報は、前記画像データ
    が表す画像についての感覚的言語の妥当性の度合いを示
    す変数を含む、請求項12記載の画像対応方法。
  14. 【請求項14】 前記画像付加情報は、前記画像データ
    についての言語として意味ある文字列を含む、請求項1
    2記載の画像対応方法。
  15. 【請求項15】 前記画像データは複数の静止画から構
    成される動画についてのデータであって、 前記画像付加情報は前記動画を構成する一の前記静止画
    について設定される、請求項12記載の画像対応方法。
  16. 【請求項16】 前記画像付加情報は、前記画像データ
    の内容を簡易に示す画像サンプルデータを更に含む、請
    求項13乃至15のいずれか一つに記載の画像対応方
    法。
JP25615399A 1999-09-09 1999-09-09 画像・音響対応方法、音響対応方法、画像対応方法 Pending JP2001084743A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25615399A JP2001084743A (ja) 1999-09-09 1999-09-09 画像・音響対応方法、音響対応方法、画像対応方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25615399A JP2001084743A (ja) 1999-09-09 1999-09-09 画像・音響対応方法、音響対応方法、画像対応方法

Publications (1)

Publication Number Publication Date
JP2001084743A true JP2001084743A (ja) 2001-03-30

Family

ID=17288654

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25615399A Pending JP2001084743A (ja) 1999-09-09 1999-09-09 画像・音響対応方法、音響対応方法、画像対応方法

Country Status (1)

Country Link
JP (1) JP2001084743A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011528879A (ja) * 2008-07-22 2011-11-24 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ テレビジョンシーケンスを提供するための装置および方法
CN106464971A (zh) * 2014-06-20 2017-02-22 谷歌公司 用于检测媒体内容在显示设备上呈现的方法、系统和介质
WO2024148304A1 (en) * 2023-01-05 2024-07-11 Audio Impressions, Inc. Method of using iir filters for the purpose of allowing one audio sound to adopt the same spectral characteristic of another audio sound

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011528879A (ja) * 2008-07-22 2011-11-24 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ テレビジョンシーケンスを提供するための装置および方法
US8566880B2 (en) 2008-07-22 2013-10-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Device and method for providing a television sequence using database and user inputs
CN106464971A (zh) * 2014-06-20 2017-02-22 谷歌公司 用于检测媒体内容在显示设备上呈现的方法、系统和介质
CN106464971B (zh) * 2014-06-20 2019-08-30 谷歌有限责任公司 用于检测媒体内容在显示设备上呈现的方法、系统和介质
US11763720B2 (en) 2014-06-20 2023-09-19 Google Llc Methods, systems, and media for detecting a presentation of media content on a display device
WO2024148304A1 (en) * 2023-01-05 2024-07-11 Audio Impressions, Inc. Method of using iir filters for the purpose of allowing one audio sound to adopt the same spectral characteristic of another audio sound

Similar Documents

Publication Publication Date Title
EP1020843B1 (en) Automatic musical composition method
JP2897659B2 (ja) カラオケ装置
JP4438144B2 (ja) 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
JP3778134B2 (ja) 楽曲再生装置
JP7424359B2 (ja) 情報処理装置、歌唱音声の出力方法、及びプログラム
RU2005123387A (ru) Способ и система для обогащения аудиосигнала
JP7059524B2 (ja) 歌唱合成方法、歌唱合成システム、及びプログラム
CN111813301B (zh) 内容播放方法、装置、电子设备及可读存储介质
CN113676772A (zh) 视频生成方法及装置
JP2001084743A (ja) 画像・音響対応方法、音響対応方法、画像対応方法
US20210225408A1 (en) Content Pushing Method for Display Device, Pushing Device and Display Device
JP2006526207A (ja) メディアオブジェクト検索方法
JP4491743B2 (ja) カラオケ装置
JPH08249343A (ja) 音声情報取得装置及び音声情報取得方法
JP2002123287A (ja) 音楽特徴量生成方法及び装置と音楽情報検索装置と音楽特徴量生成用プログラムの記録媒体
JP2000056785A (ja) 似顔絵出力装置およびカラオケ装置
KR100348901B1 (ko) 오디오/영상물의 음향적 장면분할방법
JP4225167B2 (ja) 音声合成装置、音声合成方法、及び音声合成プログラム
JP3021252B2 (ja) データ検索方法及びデータ検索装置
JP2000067085A (ja) 非コ―ド化情報のデ―タベ―ス化方式
JPH11296182A (ja) カラオケ装置
JP2002336545A (ja) ゲーム装置、作詞方法、作詞ゲームプログラム及びゲームシステム
JP2002304407A (ja) プログラム及び情報処理装置
JP4447540B2 (ja) カラオケ唱歌録音作品の鑑賞システム
WO2024075422A1 (ja) 楽曲生成方法、およびプログラム