JP4699954B2

JP4699954B2 - マルチメディアデータ管理方法とその装置

Info

Publication number: JP4699954B2
Application number: JP2006195626A
Authority: JP
Inventors: 宗憲呉; 育昇頼; 建霖黄; 家豪康
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2006-06-07
Filing date: 2006-07-18
Publication date: 2011-06-15
Anticipated expiration: 2026-07-18
Also published as: TWI312945B; US7739110B2; JP2007328311A; US20070288237A1; TW200745880A

Description

本発明はマルチメディアデータ（ｍｕｌｔｉｍｅｄｉａｄａｔａ）の音声注釈（ｓｐｅｅｃｈａｎｎｏｔａｔｉｏｎ）および検索（ｒｅｔｒｉｅｖａｌ）、特に一種のマルチメディアデータ管理方法とその装置により、音節変換画像（ｓｙｌｌａｂｌｅｔｒａｎｓｆｏｒｍｅｄｉｍａｇｅ）をマルチメディアデータの音声注釈および検索の利用に関わるものである。

インターネットの爆発的な成長に伴い、デジタル・ビデオカメラ（ｄｅｇｉｔａｌｖｉｄｅｏｃａｍｅｒａ）、デジタルカメラ（ｄｅｇｉｔａｌｃａｍｅｒａ）およびデジタルビデオレコーダー（ｄｉｇｉｔａｌｖｉｄｅｏｒｅｃｏｒｄｅｒ）などデジタル映像捕捉装置の普及により、利用者たちはマルチメディアデータの入手方法もますます多くなるほか、簡単に入手できる。当然ながら、利用者たちが所有するマルチメディアデータの増加も加速化している。一方、マルチメディアデータの管理は難しくなり、長時間に掛かる。

すでに、一部のマルチメディアデータ管理システムまたは方法が開発されているが、その多くは、テキスト（ｔｅｘｔ）または言語テキスト変換（ｌａｎｇｕａｇｅｔｏｔｅｘｔ）方式により、マルチメディアデータの記述、索引（i ｎｄｅｘ）および検索（ｒｅｔｒｉｅｖａｌ）を行う。今日のマルチメディアデータの注釈（ａｎｎｏｔａｔｉｏｎ）または検索技術は主に以下の四種類に分ける。テキストによる注釈および検索、言語テキスト変換（ｓｐｅｅｃｈｔｏｔｅｘｔ）による注釈および検索、図形による分析および検索、並びに音声テキスト変換（ｓｐｅｅｃｈｔｏｔｅｘｔ）および検索。

そのうち、テキスト注釈および検索方式は、特殊な装備は必要ない。ただし、テキスト入力が長いに関する悩み、および注釈検索はシステムより提供されたキーワードのみに制限される。文字注釈方式に関する文献は、特許文献１がある。該特許文献において、一種のデジタル映像捕捉装置に埋め込み式メタ情報エンジン（ｅｍｂｅｄｄｅｄｍｅｔａｄａｔａｅｎｇｉｎｅｓｉｎｄｉｇｉｔａｌｃａｐｔｕｒｅｄｅｖｉｃｅｓ）を埋め込む。デジタル映像捕捉装置に映像内容の分析機能を導入し、該映像の内容分析により、内容が関連する余分な情報を自動に生成し、原始の映像データと合せて保存する。この特許文献はデジタル映像に対し、動的注釈を生成できる。しかしながら、映像の検索におよばない。

音声テキスト変換の注釈および検索の方式は、音声認識器が必要である。この点は言語関連付けの制限となっている。音声テキスト変換による注釈および検索方式は、特許文献２で開示されている。この特許文献はマルチメディアデータの注釈および検索方法と装置（ｍｅｔｈｏｄａｎｄａｐｐａｒａｔｕｓｆｏｒｖｏｉｃｅａｎｎｏｔａｔｉｏｎａｎｄｒｅｔｒｉｅｖａｌｏｆｍｕｌｔｉｍｅｄｉａｄａｔａ）に関わるものである。それは、注釈するときに音声入力方式を使用し、音声認識技術を利用し、音声内容をテキストに変換した上、文字注釈により、逆方向索引テーブル（ｒｅｖｅｒｓｅｉｎｄｅｘｔａｂｌｅ）を生成する。検索のとき、音声入力方式を使用し、音声認識技術により、検索キーワードを生成した上、逆方向索引テーブルを介して、一致のマルチメディアデータを検索する。

さらに、特許文献３において、音声ベースの指令言語による映像の自動保存および表示（ａｕｔｏｍａｔｉｃａｌｌｙｓｔｏｒｉｎｇａｎｄｐｒｅｓｓｅｎｔｉｎｇｄｉｇｉｔａｌｉｍａｇｅｓｕｓｉｎｇａｓｐｅｅｃｈｂａｓｅｄｃｏｍｍａｎｄｌａｎｇｕａｇｅ）方法が開示されている。この特許文献は、注釈するときに音声テキスト変換の方法を使用し、検索のとき、文字で検索する。利用者は撮影するとき、その場でデジタルカメラにより、注釈情報を録音する。複数の指令（ｃｏｍｍａｎｄ）に記述（ｓｔａｔｅｍｅｎｔ）された音声入力により、映像に場所、時間などの内容を追加記述した上、利用者は、この映像と注釈情報をサーバーに導入し、サーバーより音声情報を認識し、音声をテキストに変換して保存する。テキスト注釈に基づいて、利用者はキーワードで命令し、様々なアルバムを動的に生成し、閲覧に備える。

なお、特許文献４において、一種のデジタルアルバムより関連の映像素材を検索するシステムとその方法（ｓｙｓｔｅｍａｎｄｍｅｔｈｏｄｆｏｒａｃｑｕｓｉｔｉｏｎｏｆｒｅｌａｔｅｄｇｒａｐｈｉｃａｌｍａｔｅｒｉａｌｉｎａｄｉｇｉｔａｌｇｒａｐｈｉｃｓａｌｂｕｍ）が開示されている。この特許において、テキストに対する注釈により、映像でもって映像を検索する目的を図る。利用者はインターネットより、指定映像に関連づけされた映像を見つけることができる。

映像分析による検索方式は、システムに映像分析能力を持たなければならない。利用者はすべての映像に注釈付ける必要ない。ただし、映像の検索に限られるほか、検索条件の映像をまず見つけなければならない。さらに、映像の内容を精密に分析することが難しい。映像分析に関する文献は、" Ａｎａｃｔｉｖｅｌｅａｎｉｎｇｆｒａｍｅｗｏｒｋｆｏｒｃｏｎｔｅｎｔｂａｓｅｄｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌ" ，Ｍｕｔｉｍｅｄｉａ，ＩＥＥＥＴｒａｎｓｓａｃｔｉｏｎＶｏｌ．４，Ｉｓｓｕｅ２，Ｊｕｌｙ２００２，ｐｐ２６０−２６８などがある。この論文はコンテンツをベースとした情報検索（ｃｏｎｔｅｎｔｂａｓｅｄｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌ）でもって、属性ツリー（ａｔｔｒｉｂｕｔｅｔｒｅｅ）を構築し、映像のマーカーとする。

また、音声検索の方法は、検索条件と注釈の原始音声データ、または音声信号を認識し、その認識結果をＮｇｒａｍの組合せにより、検索ベクトルを構築した上、言語検索を行うなど多くの種類が存在する。前者はデータの量が多く存在するとき、逐一の比較にかなりの時間を必要となる。後者は言語関連性の制限を受ける。

前記した四種類のマルチメディアデータに関わる注釈および検索技術を存在している。しかしながら、これらの技術は前記したそれぞれの問題点が発生するほか、言語依存型（ｌａｎｇｕａｇｅｄｅｐｅｎｄｅｎｔ）のことから、利用者は目的言語または音声を自由自在に使用することができない。

よって、利用者は単純な管理手順により、必要なマルチメディアデータを素早く検索し、音声を使用し言語非依存（ｌａｎｇｕａｇｅｉｎｄｅｐｅｎｄｅｎｔ）の方式による索引および検索を提供することは、本発明の主な動機である。

米国特許第６８３３８６５号明細書米国特許第６３９７１８１号明細書米国特許第６４９９０１６号明細書米国特許第６８１３６１８号明細書

本発明は前記し公知技術の欠点を解決するものであり、一種のマルチメディアデータ管理方法とその装置の提供を主な目的とする。

本発明は主に、音節変換画像（ｓｙｌｌａｂｌｅ−ｔｒａｎｓｆｏｒｍｅｄｐａｔｔｅｒｎ）および特徴映像分析（ｅｉｇｅｎｉｍａｇｅａｎａｌｙｓｙｓ）により、音声注釈の映像を検索する。音声注釈を含まれたデジタル映像（ｄｉｇｉｔａｌｐｈｏｔｏｗｉｔｈｓｐｅｅｃｈａｎｎｏｔａｔｉｏｎ）は、認識された音節候補列（ｒｅｃｏｇｎｉｚｅｄｓｙｌｌａｂｌｅｃａｎｄｉｄａｔｅ）より変換された模擬映像パターン（ｉｍａｇｅ−ｌｉｋｅｐａｔｔｅｒｎ）に対して、斬新な索引および検索技術を提供する。本発明の技術において、音声をコード変換するとき、根拠とする手段を提供し、言語非依存型の検索を提供する。

本発明によるマルチメディアデータ管理方法は、主に三つの手順を含まれる。捕捉および注釈された音声特徴は、自動音声認識器（ｓｐｅｅｃｈｒｅｃｏｇｎｉｚｅｒ）により、識別結果を生成し、模擬映像データに変換する。そして、映像特徴処理方法により、索引データベースを構築する。検索のとき、自然口調の音声で該マルチメディアデータの検索を行う。

本発明によるマルチメディアデータ管理装置は、マルチメディアデータ索引製作モジュールおよびマルチメディアデータ検索モジュールを設ける。マルチメディアデータ索引製作モジュールは、捕捉および注釈された音声特徴を模擬映像データに変換した上、該模擬映像データの特徴パラメータを抽出して、索引データベースの構築を完了する。マルチメディアデータ索引製作モジュールは、自然口調の音声により、該マルチメディアデータを検索する。

本発明を１０５５枚の音声注釈を備えたデジタル映像を従来の音節、キャラクター（ｃｈａｒａｃｔｅｒ）およびワード（ｗｏｒｄ）による索引方法と比較したところ、本発明による検索はより良い検索効率のほか、検索時間も短い。

請求項１の発明は、自動音声認識器により音声注釈特徴の認識結果を生成し、
該認識結果から該音声注釈特徴のｎベスト候補列を得て、そのうち該ｎは自然数であり、
該ｎベスト候補列に関する混合マトリックス（ｃｏｎｆｕｓｉｏｎｍａｔｒｉｘ）を構築し、該混合マトリックスは近似点数マトリックスを包含し、各近似点数は各音節候補列の該ｎベスト候補列の一つに対する近似性を測定し、
該混合マトリックスを一枚の映像に変換し、該映像の各画素は対応する近似点数により測定された近似度を代表する階調を有し、
該映像より特徴映像処理方法を用いて映像特徴を捕捉することにより索引データベースを構築し、
自然言語の入力により、マルチメディアデータの検索を行う、マルチメディアデータ管理方法としている。
請求項２の発明は、該索引データベースの構築において、該映像の一つ以上の特徴パラメータを抽出し、該特徴パラメータの数値化した上、該索引の構築を完成することを特徴とする請求項１記載のマルチメディアデータ管理方法としている。
請求項３の発明は、該自然口調の音声による該マルチメディアデータの検索は、音声により検索条件を入力し、該検索条件を索引データに変換し、
引き続き、索引データと索引データベースの索引情報との比較を行い、
該検索条件に対応するマルチメディアデータの検索を行うことを特徴とする請求項１記載のマルチメディアデータ管理方法としている。
請求項４の発明は、該パラメータの数値化および該索引データの構築はさらに、該特徴映像処理方法により捕捉された各特徴映像を数値化して多次元ベクトルとなし、および多次元ベクトルをクラスタリングして符号語行列となし、全ての符号語行列をコードブックに集合することを特徴とする請求項３記載のマルチメディアデータ管理方法としている。
請求項５の発明は、該自動音声認識器は、発音音節をベースとする音声認識器であることを特徴とする請求項１記載のマルチメディアデータ管理方法としている。
請求項６の発明は、該映像特徴処理方法は、該映像に対して成分分析することを特徴とする請求項１記載のマルチメディアデータ管理方法としている。
請求項７の発明は、マルチメディアデータ管理装置において、
マルチメディアデータ製作索引モジュールを包含し、
該マルチメディアデータ製作索引モジュールは、
自動音声認識器であって、
音声注釈特徴の認識結果を生成し、
該認識結果から該音声注釈特徴のｎベスト候補列を得て、そのうち該ｎは自然数である、該自動音声認識器と、
映像模擬モジュールであって、該ｎベスト候補列に関する混合マトリックス（ｃｏｎｆｕｓｉｏｎｍａｔｒｉｘ）を構築し、該混合マトリックスを一枚の映像に変換し、該混合マトリックスは近似点数マトリックスを包含し、各近似点数は各音節候補列の該ｎベスト候補列の一つに対する近似性を測定し、該映像の各画素は対応する近似点数により測定された近似度を代表する階調を有する、上記映像模擬モジュールと、
特徴捕捉および索引製作モジュールであって、該映像より特徴映像を捕捉し特徴映像処理方法を使用して索引データベースを構築する、該特徴捕捉および索引製作モジュールと、
マルチメディアデータモジュールであって、該索引データベースを使用して自然口調の入力音声により、該マルチメディアデータの検索を行う、該マルチメディアデータモジュールと、
を包含したことを特徴とする、マルチメディアデータ管理装置としている。
請求項８の発明は、該索引データベースに設けるすべての索引は、符号語行列より構築されることを特徴とする請求項７記載のマルチメディアデータ管理装置としている。
請求項９の発明は、該自動音声認識器は、発音音節をベースとした音声認識器であることを特徴とする請求項７記載のマルチメディアデータ管理装置としている。

本発明はマルチメディアデータ管理方法とその装置、音節変換画像および特徴映像分析により、音声注釈の映像を検索する。音声注釈を含まれたデジタル映像は、認識された音節候補列より変換された模擬映像パターン）に対して、斬新な索引および検索技術を提供する。本発明の技術において、音声をコード変換するとき、根拠とする手段を提供し、言語非依存型の検索を提供する。

本発明によるマルチメディアデータ管理方法とその装置は、本発明によるマルチメディアデータ管理装置の説明に当り、モジュール（ｍｏｄｕｌｅ）により、その主要素子を説明する。モジュールを設け、特にその機能性（ｆｕｎｃｔｉｏｎａｌｌｙ）は、ハードウエア（ｈａｒｄｗａｒｅ）、またはソフトウエア（ｓｏｆｔｗａｒｅ）、もしくはハードウエアとソフトウエア２種のモジュールを組み合わせて構成する。

図１Ａと図１Ｂに示すものは、本発明によるマルチメディアデータ管理装置およびその操作フローである。該マルチメディアデータ管理装置は、図１Ａのマルチメディアデータ索引製作モジュールおよび図１Ｂのマルチメディアデータ索引モジュールをそれぞれ設ける。図１Ａに示すとおり、該マルチメディアデータ索引製作モジュールは、捕捉および注釈付けた音声特徴１０１は自動音声認識器１０３により、音節マトリックス（ｓｙｌｌａｂｌｅｍａｔｒｉｘ）１１３などの認識結果を生成する。その後、該認識結果を模擬映像データ１０５に変換し、映像特徴処理方法により、索引データベースを構築する。図１Ｂに示すものは、検索のとき、該マルチメディアデータ検索モジュールは、自然口調の音声により、該マルチメディアデータの検索を行う。

図２に示すものは、マルチメディアデータの索引製作モジュールの詳細ブロック図である。該マルチメディアデータ索引製作モジュールは、自動音声認識器１０３、映像模擬モジュール２０１、および特徴捕捉および索引製作モジュール２０５を含まれる。自動音声認識器１０３により、捕捉および注釈付けた音声特徴１０１を認識した上、認識結果を生成する。映像模擬モジュール２０１は、認識結果の近似度点数を算出した後、この近似度点数をもとに、模擬映像データに変換する。特徴捕捉および索引製作モジュール２０５により、該模擬映像データ特徴のパラメータを捕捉し、この特徴パラメータを数値化処理し、索引データベースの構築を完了する。この索引データベースの構築により、膨大な模擬映像データを逐一に比較するために、長い時間が掛かる問題を解決できる。

図３は自然口調の音声によるマルチメディアデータ検索の手順フロー図である。図３に示すとおり、マルチメディアデータ検索モジュールは、音声により検索条件を入力した上、この検索条件を索引データに変換する。引き続き、索引データと索引データベースの索引情報との比較を行う。この検索条件に対応するマルチメディアデータを検索する。自動音声認識の主な目的は、自然口調の音声をコンピュータによって識別した上、コンピュータにその関連タスクを実行させる。音声信号をアナログからデジタルに変換して入力し、数値化してコンピュータに保存した後、音声認識器は入力したテスト音声サンプルとあらかじめに構築された音声認識パターンとの比較を行い、その音声サンプルにもっとも類似する認識結果を見つけ出す。これにより、入力された自然口調の音声が代表する意味を知ることができる。

自動音声認識を使用する前、確率と統計手法を捕捉された音声とテキストコーパスと合せて、言語パターンと音声学パターンを含めた、認識に必要な識別パターンを構築する。

図４に示すものは、自動音声認識方法の説明図である。自動音声認識器は音声信号を入手したとき、手順４０１に従い、この音声信号より、常用のメールケプストラム係数（Ｍｅｌ−ｆｒｅｑｕｅｎｃｙｃｓｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔｓ，ＭＦＣＣ）などによるパラメータ抽出を行う。引き続き、動的検索方法をあらかじめに構築された言語パターンと音声学パターンに合せて、手順４０３に示す自動音声認識を行い、認識結果を生成する。

この音声認識結果により、映像の音声注釈内容を知ることができる。しかしながら、時下の音声認識技術に音声認識エラー（ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｅｒｒｏｒ）が存在している。その誤差の発生は、統計手法の偏差により、識別パターンに混合を引き起こす。さらに、通常の人間発声に混合する音声がすでに存在する。たとえば、ＢＯとＰＯ、ＹＩとＣＨＩの発声の混合など。

よって、本発明は発音音節ベース音声認識器（ｓｙｌｌａｂｌｅ−ｂａｓｅｄｒｅｃｏｇｎｉｚｅｒ）により、すべての発音音節を効率よく定義し、索引データベースを構築する。さらに、音声認識器によって定義されたすべての発音音節に基づいて、混合マトリックス（ｃｏｎｆｕｓｉｏｎｍａｔｒｉｘ）を構築し、音節に対応する音節発音点数に変換し、それぞれの発音と他の発音の混合性を測定する。誤差の発生を避けるため、本発明は前からｎ名の最良認識結果を候補に選び、これをｎベスト候補列（ｎ−ｂｅｓｔｓｙｌｌａｂｌｅｃａｎｄｉｄａｔｅ）とし、ｎは自然数とする。

それぞれの音節を映像の一つの映像と見なしたとき、現れた結果は１枚の映像のように、色調に深さ、近似度の遠近関係として現れる。しかし、音節同士の距離は線形関係でないため、本発明は図５に示す通り、多次元尺度構成法（ｍｕｌｔｉｄｉｍｅｎｓｉｏｎａｌｓｃａｌｉｎｇ，ＭＤＳ）により、データ同士の距離マトリックスを構築した上、認識した音節結果を多次元空間従い、距離を記述する。マトリックス空間の座標転換により、線形の距離関係を形成し、近似度（距離関係）を映像の階調（ｇｒａｙｌｅｖｅｌ）で表示した上、模擬映像データに変換する。

図６に示すものは、一つの実例の概略図である。変換後の模擬映像の視覚プロパティ（ｖｉｔｕａｌｐｒｏｐｅｒｔｙ）を示す。図６において、音声注釈ファイル（ｓｐｅｅｃｈ−ａｎｎｏｔａｔｅｄｆｉｌｅ）において、音節ｇｅｎｇのうち、認識済みｎ−最良音節候補列の模擬映像は、音節ｇｅのうち、認識済みｎ−最良音節候補列の模擬映像に対して、より照合音節（ｑｕｅｒｙｓｙｌｌａｂｌｅ）ｇｅｎｇの認識済みｎベスト候補列の模擬映像に近似することが分かる。図６において、音節ｇｅｎｇは音声注釈ファイルに音声認識エラーを発生するが、本発明による音節を模擬映像変換による検索技術は、照合および音声注釈ファイルから、照合音節を正確に検索できる。つまり、本発明の検索技術を利用することにより、音声注釈ファイルの音節ｇｅｎｇは照合音節ｇｅｎｇへ正確に組合せることができる。

図７において、事例により本発明の認識結果（図７Ａの発音音節）より索引を構築する手順を説明する。図７Ｂに示すとおり、選択されたｎベスト候補列を模擬映像データに変換した後、一つの音節候補列を１枚の映像に対応し、図示のように映像をカットする。カットされた後の映像データは映像特徴（ｅｉｇｅｎ−ｉｍａｇｅ）の分析を行って、得られた音節を模擬映像特徴値は、図７Ｄに示す、多次元のベクトルデータ節模擬映像特徴値となる。最後に、図７Ｅ特徴値が近似する音節を模擬映像クラスター（Ｃｌｕｓｔｅｒ）と同じ符号語（ｃｏｄｅｗｏｒｄ）行列にする。すべての符号語行列は、コードブックに（ｃｏｄｅｂｏｏｋ）仕上げる。

音声注釈および音声入力の検索条件は、前記した手順により、符号語行列に変換される。本発明の情報検索方法により、語頻度及び反転語頻度（ｔｅｒｍｆｒｅｑｕｅｎｃｙａｎｄｄｏｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ，ｔｆｘｉｄｆ）を統計し、ベクトル式索引を構築する。このベクトル次元の索引は、各注釈内容の情報を意味する。利用者は音声入力条件により、同じ手順でベクトル次元（ｄｉｍｅｎｓｉｏｎ）に変換されたデータは、検索するとき、この音声ベクトルとデータベース索引のベクトルを、二つずつのベクトル内積比較の演算を行った後、検索条件に合致したマルチメディアデータを利用者に戻す。

映像特徴値分析は、映像データに対し、主成分解析（ｐｒｉｎｃｉｐａｌｃｏｍｐｏｎｅｎｔａｎａｌｙｓｙｓ，ＰＣＡ）を行う。その長所は、音節変換後の模擬映像データは、代表的特徴（ｅｘｔｒａｃｔｓｉｇｎｉｆｉｃａｎｔｆｅａｔｕｒｅ）を有するほか、ノイズ情報データによる干渉を軽減できる。なお、主成分分析の実現方法は他種類を存在している。一般性を失わない。以下の事例において、映像データを主成分分析の二つの主な手順は、共分散マトリックス見積（ｃｏｎｖａｒｉａｎｃｅｍａｔｒｉｘｅｓｔｉｍａｔｉｏｎ）と特異値分解分析（ｓｉｎｇｕｌａｒｖａｌｕｅｄｅｃｏｍｐｏｓｉｔｉｏｎ，ＳＶＤ）を説明する。

特異値分解分析の主な目的は、映像ベクトルに含まれたすべての次元を単一潜在性情報スペース（ｓｉｎｇｌｅｌａｔｅｎｔｉｎｆｏｒｍａｔｉｏｎｓｐａｃｅ）に投射（project ）するともに、データ次元を有意義に軽減（ｓｉｇｎｉｆｉｃａｎｔｌｙｒｅｄｕｃｅｄｄｉｍｅｎｓｉｏｎａｌｉｔｙ）する。

図８に示すとおり、共分散マトリックス見積の演算において、映像の基準化（ｉｍａｇｅｎｏｒｍａｌｉｚａｔｉｏｎ）、映像平均値（ｔａｋｉｎｇｉｍａｇｅｍｅａｎ）の取得、映像差平均値（ｂｏｔａｉｎｉｎｉｎｇｄｉｆｆｅｒｅｎｔｉａｌｉｍａｇｅ）の取得、映像マトリックス構築次元（ｄｉｍｅｎｓｉｏｎｂｙｉｍａｇｅｍａｔｒｉｘｃｏｎｓｔｒｕｃｔｉｏｎ）Ｗの構築、および共分散マトリックス構築（ｃｏｎｖａｒｉａｎｃｅｍａｔｒｉｘｃｏｎｓｔｒｕｃｔｉｏｎ）を行う。特異値分解分析の演算において、Ｗの自己相関マトリックス（ａｕｔｏｃｏｒｒｅｌａｔｉｏｎｍａｔｒｉｘｃｏｍｐｕｔａｉｏｎ）、次元とデータノイズ（ｒｅｄｕｃｉｎｇｄｉｍｅｎｓｉｏｎａｌｉｔｙａｎｄｄａｔａｎｏｉｃｅ）の軽減、特徴映像変換ベース（ｔｒａｎｓｆｏｒｍｂａｓｉｓｃｏｎｓｔｕｃｔｉｏｎｏｆｅｉｇｅｎ−ｉｍａｇｅ）Ｕの構築、ベースＵにより、特徴映像変換（ｅｉｇｅｎ−ｉｍａｇｅｔｒａｎsformatio ｎ）を行う。

実験の結果、本発明による保存は、より少ないデータ次元とより多くの検索速度が得られるほか、検索精度は１６. ２６％の向上が得られた。

前記した説明のとおり、本発明はマルチメディアデータに付加された音声注釈およびマルチメディアデータの音節変換画像特徴の分析処理と検索を含めた、一種のマルチメディアデータ管理方法とその装置を提供する。捕捉された音声データの特徴は、音声認識器により、音節マトリックスを認識した上、音節近似度の計算方法により、音節発音点数の見積を行い、認識結果の音節マトリックスは、音節発音点数の参照および模擬映像データに変換する。最後は映像特徴処理方法により索引を構築し、注釈と検索音声の索引により、目的のマルチメディアデータをより高い確率で検索できる。

マルチメディアデータの音声注釈の索引を構築するとき、注釈音声の特徴を捕捉した上、自動音声認識器により、ｎベスト候補列を生成する。そして、音節模擬映像データの変換により、このｎベスト候補列を模擬映像の画素データに変換する。さらに、映像特徴値分析を行い、映像に含まれた代表的特徴を捕捉した上、ノイズ干渉を除去する。
続いて、クラスタ分析により、音節の映像特徴値の種別を集合し、符号語（ｃｏｄｅｗｏｒｄ）およびコードブック（ｃｏｄｅｂｏｏｋ）を構築する。最後に、すべての入力音声信号は、前記した手順に従い、一連のコードに変換し、情報検索に良く使用されるｔｆｘｉｄｆ統計方式により、索引を構築する。

検索するとき、入力された音声照合は、同じ処理手順を経て、ベクトル索引を構築した後、データベースに構築された索引情報との近似度比較を行い、検索条件に合致した音声注釈ならびにその対応のマルチメディアデータ内容を検索する。

本発明によるマルチメディアデータ管理方法とその手順のフロー図である。マルチメディアデータの索引製作モジュールの詳細ブロック図である。図１Ｂの自然口調の音声によるマルチメディアデータ検索手順のフロー図である。自動音声認識方法の説明図である。音声認識器により定義された発音音節の事例である。本発明による多次元尺度構成法を用いて、音節データ二つずつの距離マトリックスは非線形関係のとき、線形分離可能な次元への投影図である。本発明による認識結果から索引の構築手順の事例図である。共分散マトリックス見積もりと特異値分解分析の演算の詳細説明図である。

１０１音声特徴
１０３自動音声認識器
１０５音節変換画像データ
１１３音節マトリックス
２０１映像模擬モジュール
２０５特徴の捕捉および索引構築モジュール
４０１パラメータの捕捉
４０３認識段階（言語学復号化）

Claims

自動音声認識器により音声注釈特徴の認識結果を生成し、
該認識結果から該音声注釈特徴のｎベスト候補列（ｎ−ｂｅｓｔｓｙｌｌａｂｌｅｃａｎｄｉｄａｔｅ）を得て、そのうち該ｎは自然数であり、
該ｎベスト候補列に関する混合マトリックス（ｃｏｎｆｕｓｉｏｎｍａｔｒｉｘ）を構築し、該混合マトリックスは近似点数マトリックスを包含し、各近似点数は各音節候補列の該ｎベスト候補列の一つに対する近似性を測定し、
該混合マトリックスを一枚の映像に変換し、該映像の各画素は対応する近似点数により測定された近似度を代表する階調を有し、
該映像より特徴映像処理方法を用いて映像特徴を捕捉することにより索引データベースを構築し、
自然言語の入力により、マルチメディアデータの検索を行う、マルチメディアデータ管理方法。
該索引データベースの構築において、該映像の一つ以上の特徴パラメータを抽出し、該特徴パラメータの数値化した上、該索引の構築を完成することを特徴とする請求項１記載のマルチメディアデータ管理方法。
該自然口調の音声による該マルチメディアデータの検索は、音声により検索条件を入力し、該検索条件を索引データに変換し、
引き続き、索引データと索引データベースの索引情報との比較を行い、
該検索条件に対応するマルチメディアデータの検索を行うことを特徴とする請求項１記載のマルチメディアデータ管理方法。
該パラメータの数値化および該索引データの構築はさらに、該特徴映像処理方法により捕捉された各特徴映像を数値化して多次元ベクトルとなし、および多次元ベクトルをクラスタリングして符号語行列となし、全ての符号語行列をコードブックに集合することを特徴とする請求項３記載のマルチメディアデータ管理方法。
該自動音声認識器は、発音音節をベースとする音声認識器であることを特徴とする請求項１記載のマルチメディアデータ管理方法。
該映像特徴処理方法は、該映像に対して成分分析することを特徴とする請求項１記載のマルチメディアデータ管理方法。
マルチメディアデータ管理装置において、
マルチメディアデータ製作索引モジュールを包含し、
該マルチメディアデータ製作索引モジュールは、
自動音声認識器であって、
音声注釈特徴の認識結果を生成し、
該認識結果から該音声注釈特徴のｎベスト候補列を得て、そのうち該ｎは自然数である、該自動音声認識器と、
映像模擬モジュールであって、該ｎベスト候補列に関する混合マトリックス（ｃｏｎｆｕｓｉｏｎｍａｔｒｉｘ）を構築し、該混合マトリックスを一枚の映像に変換し、該混合マトリックスは近似点数マトリックスを包含し、各近似点数は各音節候補列の該ｎベスト候補列の一つに対する近似性を測定し、該映像の各画素は対応する近似点数により測定された近似度を代表する階調を有する、上記映像模擬モジュールと、
特徴捕捉および索引製作モジュールであって、該映像より特徴映像を捕捉し特徴映像処理方法を使用して索引データベースを構築する、該特徴捕捉および索引製作モジュールと、
マルチメディアデータモジュールであって、該索引データベースを使用して自然口調の入力音声により、該マルチメディアデータの検索を行う、該マルチメディアデータモジュールと、
を包含したことを特徴とする、マルチメディアデータ管理装置。
該索引データベースに設けるすべての索引は、符号語行列より構築されることを特徴とする請求項７記載のマルチメディアデータ管理装置。
該自動音声認識器は、発音音節をベースとした音声認識器であることを特徴とする請求項７記載のマルチメディアデータ管理装置。