JP5488356B2

JP5488356B2 - 音響データの関連情報検索装置

Info

Publication number: JP5488356B2
Application number: JP2010199462A
Authority: JP
Inventors: 敏雄茂出木
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2010-09-07
Filing date: 2010-09-07
Publication date: 2014-05-14
Anticipated expiration: 2030-09-07
Also published as: JP2012058865A

Description

本発明は、楽曲等の音楽のデータを記録した音響データに関する関連情報を音響データベースから検索する装置に関する。

最近、流れている音楽のタイトル等を知ることができる楽曲属性情報の提供サービスとして、放送された音楽に対して日時と地域を放送局に照会したり、携帯電話で流れている音楽断片を録音してデータベースに登録されているメロディーと照合したりするサービスが実用化されている（例えば、特許文献１、２参照）。一方、出願人も、音響信号（マイクロフォンで録音したアナログ音響信号を含む。コンピュータ等で処理可能なデジタル化された信号については、以降、「音響データ」という表現にする。）の所定区間の特徴を所定バイト数の検索特徴ワードに変換し、この検索特徴ワードを複数個で１セットとし、１セット内の検索特徴ワード群と、データベースに登録されている登録特徴ワード群とを照合する処理を順次行って、合致度が高いレコードを抽出することにより、録音により取得したメロディーとデータベースに登録されているメロディーとの照合処理を高速に行う技術を提案している（特許文献３参照）。

特表２００４−５３６３４８号公報特表２００４−５３７７６０号公報特開２００７−２２６０７１号公報

しかしながら、上記従来の手法では、与えられた音響データ（検索音響データ）が、どのようなものであっても、データベースに登録された全てのレコードと総当りで照合処理を行うため、処理負荷が高いという問題がある。

そこで、本発明は、楽曲等の音響データを用いて、音響データベースに登録されている音響データに関連する関連情報を検索するにあたり、音響データの大まかな特徴を用いて、照合する対象レコードの絞り込みを行うことにより、処理負荷を抑えることが可能な音響データの関連情報検索装置を提供することを課題とする。

上記課題を解決するため、本発明第１の態様では、与えられた音響データである検索音響データの特徴と、音響データベースに登録された原音響データの特徴との照合を行って、前記検索音響データに関連する関連情報を音響データベースから検索する装置であって、各原音響データについて、その特徴パターンを表現した登録特徴ワードの集合である登録特徴ワード群と、当該登録特徴ワード群を用いて生成された代表登録特徴データと、当該原音響データに関連する関連情報を登録した音響データベースと、前記検索音響データに対して、所定の区間単位で、各区間における検索音響データの特徴パターンを表現した検索特徴ワードを位相ｈを変更しながらＨ通り生成し、当該検索特徴ワードの集合である特徴ワード群をＨ通り得る検索特徴ワード生成手段と、前記生成されたＨ通りの検索特徴ワード群を用いて代表検索特徴データを生成する代表検索特徴データ生成手段と、前記代表検索特徴データと前記音響データベースに登録された代表登録特徴データとの照合を行う代表特徴データ照合手段と、前記代表特徴データ照合手段による照合の結果、前記代表検索特徴データと前記代表登録特徴データの相違が所定の範囲内であると判断される場合に、前記検索特徴ワード群と、前記音響データベースに登録された登録特徴ワード群との照合を、前記位相ｈを変更しながら行い、照合の結果、前記登録特徴ワード群と前記検索特徴ワード群とが最も適合する位相ｈにおける最小の相違の程度である最小相違度Ｓｍｉｎが、所定の判定しきい値Ｍ２より小さい場合に、当該登録特徴ワード群に対応する原音響データを選出対象として特定する特徴ワード照合手段を有する音響データの関連情報検索装置を提供する。

本発明第１の態様によれば、各原音響データについて、その特徴パターンを表現した登録特徴ワードの集合である登録特徴ワード群と登録特徴ワード群を用いて生成された代表登録特徴データを音響データベースに登録しておき、検索音響データに対して、所定の区間単位で、各区間における検索音響データの特徴パターンを表現した検索特徴ワードを位相ｈを変更しながらＨ通り生成し、当該検索特徴ワードの集合である特徴ワード群をＨ通り得て、生成されたＨ通りの検索特徴ワード群を用いて代表検索特徴データを生成し、代表検索特徴データと代表登録特徴データとの照合を行い、照合の結果、代表検索特徴データと代表登録特徴データの相違が所定の範囲内であると判断される場合に、検索特徴ワード群と、登録特徴ワード群との照合を、位相ｈを変更しながら行い、照合の結果、登録特徴ワード群と検索特徴ワード群とが最も適合する位相ｈにおける最小の相違の程度である最小相違度Ｓｍｉｎが、所定の判定しきい値Ｍ２より小さい場合に、登録特徴ワード群に対応する原音響データを選出対象として特定するようにしたので、音響データベースに登録されている音響データに関連する関連情報を検索するにあたり、音響データの大まかな特徴を用いて、照合する対象レコードの絞り込みを行うことにより、処理負荷を抑えることが可能となる。

また、本発明第２の態様では、本発明第１の態様の音響データの関連情報検索装置において、前記特徴ワード照合手段は、前記検索特徴ワード群と、前記登録特徴ワード群との照合を、前記位相ｈを変更せずに行う処理を追加し、前記登録特徴ワード群と前記検索特徴ワード群との相違の程度である相違度Ｓが、判定しきい値Ｍ１より小さい場合に限り、前記検索特徴ワード群と前記登録特徴ワード群との照合を、前記位相ｈを変更しながら行う処理を実行するようにしたことを特徴とする。

本発明第２の態様によれば、検索特徴ワード群と、登録特徴ワード群との照合を、位相ｈを変更せずに行う処理を追加し、位相を変更しない場合の登録特徴ワード群と検索特徴ワード群との相違の程度である相違度Ｓが、判定しきい値Ｍ１より小さい場合に限り、検索特徴ワード群と登録特徴ワード群との照合を、位相ｈを変更しながら行う処理を実行するようにしたので、検索音響データと原音響データの特徴が大きく異なる場合に、処理負荷の高い位置ズレ対応処理を行うことなく、検索対象から除外することができ、全体として検索に掛かる処理負荷を軽減することが可能となる。

また、本発明第３の態様では、本発明第１または第２の態様の音響データの関連情報検索装置において、前記代表登録特徴データは、前記登録特徴ワードの特徴パターンＦ(ｙ)の各周波数帯ｎにおける値に基づいて音量データＶ(ｙ)の値を変化させて得られる登録特徴データ配列Ｚ(ｎ, ｙ)を、各周波数帯ｎごとに、全登録特徴ワードｙについて演算することにより得られる平均値Ｃｄ（ｎ，ｒ）、標準偏差Ｌｄ（ｎ，ｒ）で構成され、前記代表検索特徴データは、前記検索特徴ワードの特徴パターンＦ(ｈ, ｘ)の各周波数帯ｎにおける値に基づいて音量データＶ(ｈ, ｘ)の値を変化させて得られる検索特徴データ配列Ｚ(ｎ,ｈ,ｘ) を、各周波数帯ごとに、全検索特徴ワードｘ、全位相ｈについて演算することにより得られる平均値Ｃ（ｎ）、標準偏差Ｌ（ｎ）であり、前記代表特徴データ照合手段は、前記平均値Ｃｄ（ｎ，ｒ）、標準偏差Ｌｄ（ｎ，ｒ）、平均値Ｃ（ｎ）、標準偏差Ｌ（ｎ）を用いて算出される代表特徴データ距離Ｕ（ｒ）と所定のしきい値Ｍｕとの比較を行うことにより照合を行うものであることを特徴とする。

本発明第３の態様によれば、代表登録特徴データは、登録特徴ワードの特徴パターンＦ(ｙ)の各周波数帯ｎにおける値に基づいて音量データＶ(ｙ)の値を変化させて得られる登録特徴データ配列Ｚ(ｎ, ｙ)を、各周波数帯ｎごとに、全登録特徴ワードｙについて演算することにより得られる平均値Ｃｄ（ｎ，ｒ）、標準偏差Ｌｄ（ｎ，ｒ）で構成され、代表検索特徴データは、検索特徴ワードの特徴パターンＦ(ｈ,ｘ)の各周波数帯ｎにおける値に基づいて音量データＶ(ｈ, ｘ)の値を変化させて得られる検索特徴データ配列Ｚ(ｎ, ｈ, ｘ) を、各周波数帯ごとに、全検索特徴ワードｘ、全位相ｈについて演算することにより得られる平均値Ｃ（ｎ）、標準偏差Ｌ（ｎ）で構成され、平均値Ｃｄ（ｎ，ｒ）、標準偏差Ｌｄ（ｎ，ｒ）、平均値Ｃ（ｎ）、標準偏差Ｌ（ｎ）を用いて算出される代表特徴データ距離Ｕ（ｒ）と所定のしきい値Ｍｕとの比較を行うことにより照合を行うようにしたので、代表特徴データが音響データにおける特徴ワードの平均値、標準偏差を反映することとなり、この平均値、標準偏差に基づく両者の距離により類似しているかどうかを判断するため、代表特徴データが１つの音響データ全体の特徴を的確に反映し、照合する対象レコードの絞り込みを行うことが可能となる。

また、本発明第４の態様では、本発明第３の態様の音響データの関連情報検索装置において、前記代表特徴データ距離Ｕ（ｒ）は、前記平均値Ｃｄ（ｎ，ｒ）と前記平均値Ｃ（ｎ）の差分を前記標準偏差Ｌｄ（ｎ，ｒ）と前記標準偏差Ｌ（ｎ）の和で除したものを基礎とする全てのｎについての総和を第１項、前記平均値Ｃｄ（ｎ，ｒ）を前記標準偏差Ｌｄ（ｎ，ｒ）と前記標準偏差Ｌ（ｎ）の和で除したものを基礎とする全てのｎについての総和を第２項、前記平均値Ｃ（ｎ）を前記標準偏差Ｌｄ（ｎ，ｒ）と前記標準偏差Ｌ（ｎ）の和で除したものを基礎とする全てのｎについての総和を第３項とし、第１項のべき乗根を、第２項のべき乗根、第３項のべき乗根で除した値に基づくものであることを特徴とする。

本発明第４の態様によれば、代表特徴データ距離Ｕ（ｒ）は、平均値Ｃｄ（ｎ，ｒ）と平均値Ｃ（ｎ）の差分を標準偏差Ｌｄ（ｎ，ｒ）と標準偏差Ｌ（ｎ）の和で除したものを基礎とする全てのｎについての総和を第１項、平均値Ｃｄ（ｎ，ｒ）を標準偏差Ｌｄ（ｎ，ｒ）と標準偏差Ｌ（ｎ）の和で除したものを基礎とする全てのｎについての総和を第２項、平均値Ｃ（ｎ）を標準偏差Ｌｄ（ｎ，ｒ）と標準偏差Ｌ（ｎ）の和で除したものを基礎とする全てのｎについての総和を第３項とし、第１項のべき乗根を、第２項のべき乗根、第３項のべき乗根で除した値に基づくものとしたので、代表特徴データ距離Ｕ（ｒ）を的確に定めることができ、代表検索特徴データと代表登録特徴データの照合を的確に行うことが可能となる。

また、本発明第５の態様では、本発明第１から第４のいずれか１つの態様の音響データの関連情報検索装置において、前記特徴ワード照合手段は、位相ｈを変更しながらＷ個の特徴ワード同士で照合を行い、１特徴ワード同士のワード単位相違度Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）が、Ｗ回の照合で全て所定の判定しきい値Ｍｗ２より小さい場合に、Ｗ個のワード単位相違度Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）の総和である合算相違度Ｓ（ｒ，ｙ，ｈ，ｘ）と前記判定しきい値Ｍ２と比較することを特徴とする。

本発明第５の態様によれば、位相ｈを変更しながらＷ個の特徴ワード同士で照合を行い、１特徴ワード同士のワード単位相違度Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）が、Ｗ回の照合で全て所定の判定しきい値Ｍｗ２より小さい場合に、Ｗ個のワード単位相違度Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）の総和である合算相違度Ｓ（ｒ，ｙ，ｈ，ｘ）と判定しきい値Ｍ２と比較するようにしたので、個々の特徴ワードについて相違が大きい場合、特徴ワード群としての照合処理を省略するため、全体として処理負荷を軽減することが可能となる。

本発明によれば、楽曲等の音響データを用いて、音響データベースに登録されている音響データに関連する関連情報を検索するにあたり、与えられた音響データの状態に基づいて、照合する範囲を制限することにより、処理負荷を抑えることが可能となるという効果を有する。

本発明の基本概念を説明するための図である。関連情報登録装置のハードウェア構成図である。関連情報登録装置の機能ブロック図である。登録特徴ワードの生成処理を示すフローチャートである。特徴ワードの生成処理の概念図である。登録特徴ワードに基づく代表登録特徴データの算出処理を示すフローチャートである。Ｓ１９、Ｓ２０による登録特徴データ配列の平均値、標準偏差の算出処理の概念図である。本発明に係る音響データの関連情報検索装置のハードウェア構成図である。本発明に係る音響データの関連情報検索装置の機能ブロック図である。検索特徴ワードの生成処理を示すフローチャートである。検索特徴ワードに基づく代表検索特徴データの算出処理を示すフローチャートである。Ｓ２９、Ｓ３０による代表検索特徴データの平均値、標準偏差の算出処理の概念図である。照合範囲決定の概念を示す図である。代表特徴データの概念を示す図である。特徴ワード照合手段９０による検索特徴ワード群を用いた検索のフローチャートである。図１５のＳ２２０におけるレコードｒの照合処理の詳細を示すフローチャートである。図１６のＳ２２２における合算不一致ビット数Ｓ（ｒ，ｙ，ｈｏ，ｘ）の算出処理の詳細を示すフローチャートである。図１６のＳ２２４におけるレコード内照合処理の詳細を示すフローチャートである。図１８のＳ３２２における合算不一致ビット数Ｓ（ｒ，ｙ，ｈ，ｘ）の算出処理の詳細を示すフローチャートである。

以下、本発明の実施形態について図面を参照して詳細に説明する。
＜１．本発明の基本概念＞
まず、本発明の基本概念について説明する。図１は、本発明の基本概念を説明するための図である。図１に示すように、原音響データについては、その原音響データに対して特徴ワード生成処理を実行し、得られた複数個の特徴ワードを音響データベースに登録しておく。さらに、複数個の特徴ワードに対して代表特徴データ生成処理を実行し、原音響データごとに１つの代表特徴データを登録しておく。検索時には、検索音響データに対して特徴ワード生成処理を実行した後、特徴ワードに対して代表特徴データ生成処理を実行し、１つの代表特徴データを生成する。そして、検索音響データから得られた代表特徴データと音響データベース内の各代表特徴データの照合処理を行う。そして、照合の結果、条件を満たす原音響データに対してのみ、特徴ワード同士の照合を行う。

このように、まず、音響データごとに１つだけ生成され、音響データ全体の特徴を表現した代表特徴データを用いて絞込みを行うことにより、大きく相違している音響データを対象から除外する。そして、比較的類似している原音響データに対して、部分的特徴を表現した特徴ワードを用いて照合を行うことにより、的確な検索を行うことができる。

＜２．音響データの関連情報登録装置＞
以下、本発明の実施形態について図面を参照して詳細に説明する。まず、音響データの関連情報の登録について説明する。音響データの関連情報の登録は、音響データの関連情報の登録装置（以下「関連情報登録装置」という。）により行う。関連情報登録装置は、原音響データから登録特徴ワード、代表登録特徴データを作成し、当該音響データに関連する関連情報（一般にメタデータと呼ばれる）とともに、作成した登録特徴ワード、代表登録特徴データを、音響データを特定する情報（例えば、音響データＩＤ）と対応付け、音響データベースに登録する。１つの原音響データに関する音響データＩＤ、登録特徴ワード、代表登録特徴データ、関連情報は１レコードとして音響データベースに登録される。この音響データベースは、原音響データの関連情報を検索するために用いられるものであり、原音響データ自体は、登録されないのが通常である。これは、著作権上の問題であり、機能的には、原音響データを登録する構成とすることも当然可能である。

音響データとは、音楽や音声等をデジタル形式で記録したものであり、アナログ音響信号に対して、ＰＣＭ等の手法によりサンプリングして得られたものである。そして、原音響データとは、検索対象とされる楽曲等の音響素材の音響データである。著作権保護対策から、ＣＤ原盤の品質をもつＰＣＭ形式の音響データは一般にライセンス配布されないことが多いため、音響データベースに登録するデータとしては、あらかじめＭＰ３（MPEG-1/Layer3）などの各種非可逆圧縮処理が施された音響データファイルが与えられる場合が一般的である。しかし、入手できたデータがＭＰ３形式であったとしても、特徴ワードを作成するためには、ＭＰ３形式のデータを伸張し、サンプル列の音響データを生成する必要がある。

図２は、関連情報登録装置のハードウェア構成図である。関連情報登録装置は、汎用のコンピュータで実現することができ、図２に示すように、ＣＰＵ２ａ（CPU: Central Processing Unit）と、コンピュータのメインメモリであるＲＡＭ２ｂ（RAM: Random Access Memory）と、データを記憶するための大容量のデータ記憶装置２ｃ（例えば，ハードディスク）と、ＣＰＵが実行するプログラムを記憶するためのプログラム記憶装置２ｄ（例えば，ハードディスク）と、キーボード、マウス等のキー入力Ｉ／Ｆ２ｅと、外部デバイス（データ記憶媒体）とデータ通信するためのデータ入出力インターフェース２ｆと、表示デバイス（ディスプレイ）に情報を送出するための表示出力インターフェース２ｇと、を備え、互いにバスを介して接続されている。

関連情報登録装置のプログラム記憶装置２ｄには、ＣＰＵ２ａを動作させ、コンピュータを、関連情報登録装置として機能させるための専用のプログラムが実装されている。また、データ記憶装置２ｃは、処理結果として得られる登録特徴ワード、代表登録特徴データ等を関連情報と対応付けて記憶し、音響データベースとして機能するとともに、処理に必要な様々なデータを記憶する。

図３は、関連情報登録装置の機能ブロック図である。図３において、１０は登録特徴ワード生成手段、２０は代表登録特徴データ生成手段、３０は登録手段、４０は音響データベースである。上述のように、各手段は、ＣＰＵ２ａがプログラム記憶装置２ｄから読み込んだ専用のプログラムを実行することにより実現される。

登録特徴ワード生成手段１０は、音響データから所定数のサンプルを音響フレームとして順次読み込み、読み込んだ音響フレームを利用して、周波数解析を行い、その音響データの特徴を表現した特徴ワードを生成する機能を有している。この特徴ワードは、ある音響データの特徴を少ないデータ量で表現したものであり、スペクトルの特徴を表した特徴パターンと、音量データにより構成される（著作権法上、生成された特徴ワードより原音響データを再現できない、即ち複製行為ができないことが要求され、特徴ワードはその条件を満たすので音響データベースへの登録が認められている。）。音響データベース４０に登録される特徴ワードを特に「登録特徴ワード」と呼ぶ。また、この特徴ワードを作成する基になる音響データを特に「原音響データ」と呼ぶ。この「原音響データ」としては、著作権者等が有している「原本」となるデータそのものではなく、この「原本」に著作権保護のための改変が施されたものを用いるのが普通である。もちろん「原本」となるデータそのものを「原音響データ」として用いることも可能である。後述するように、本発明においては、部分特徴ワードや検索特徴ワード等の他の特徴ワードが出現するが、これらは、いずれも特徴ワードの基本的な構造としては同一であるが、部分特徴ワードと検索特徴ワードは登録特徴ワードと異なり、後述する検索処理において位相をずらした照合に対応させるため、位相をずらした複数（本実施形態では５種）の特徴ワード群のセットをもたせているという相違がある。また、本明細書では、４０ビット構成の最小単位を「特徴ワード」、照合に用いられる特徴ワードの集合を「特徴ワード群」と呼ぶ。

代表登録特徴データ生成手段２０は、登録特徴ワード生成手段１０により生成された登録特徴ワード群を用いて、１音響データにつき、１つの代表登録特徴データを生成する機能を有する。登録特徴ワードは、原音響データの部分的な特徴を表現するのに対して、代表登録特徴データは、１つの原音響データの全体的な特徴を表現する。

登録手段３０は、登録特徴ワード生成手段１０により生成された登録特徴ワード群と、代表登録特徴データ生成手段２０により生成された代表登録特徴データを、元の原音響データの制作や著作権に関連する関連情報（一般にメタデータと呼ばれる）、および原音響データを特定するために原音響データの著作権情報等を管理する事業者が個別に定義付けたＩＤと対応付けて音響データベース４０に登録する機能を有している。ここで、関連情報とは、楽曲名、ジャンル名など楽曲を特定するテキスト情報、作詞・作曲・編曲者名、アーチスト名、プロデューサ名など原音響データの制作に関わる著作権者・著作隣接権者名に関するテキスト情報を示すものである。ただし、原音響データそのものは著作権法上の制約から、音響データベース４０に通常登録することはない。また、原音響データの制作・マスタリングに使用した一連のバイナリ形式の素材データ（ミックスダウンする前の個別の録音データ、ＭＩＤＩ打ち込みデータ）等についても、著作権法上の制約により通常登録することはない。

＜２．２．関連情報登録装置の処理動作＞
次に、図３に示した関連情報登録装置の処理動作について説明する。まず、関連情報登録装置では、登録特徴ワード生成手段１０が、指定された原音響データから登録特徴ワードを生成する。図４は、登録特徴ワードの生成処理を示すフローチャートである。まず、登録特徴ワード生成手段１０が、原音響データを読み込む。関連情報登録装置では、登録特徴ワード生成手段１０が、指定された原音響データから、所定数のサンプルを１音響フレームとして読み込む。登録特徴ワード生成手段１０が読み込む１音響フレームのサンプル数は、適宜設定することができるが、サンプリング周波数が４４．１ｋＨｚの場合、４０９６サンプル程度とすることが望ましい。これは、約０．０９２秒に相当する。ただし、後述する周波数変換におけるハニング窓関数の利用により、隣接窓間の連続性を考慮して、音響フレームは、所定数分のサンプルを重複させて読み込むことにしている。本実施形態では、音響フレームの区間長のちょうど半分となる２０４８サンプルを重複させている。したがって、先頭の音響フレームはサンプル１〜４０９６、２番目の音響フレームはサンプル２０４９〜６１４４、３番目の音響フレームはサンプル４０９７〜８１９２というように、順次読み込まれていくことになる。

続いて、登録特徴ワード生成手段１０は、読み込んだ各音響フレームに対して、周波数変換を行って、その音響フレームのスペクトルであるフレームスペクトルを得る（Ｓ１１）。具体的には、登録特徴ワード生成手段１０が読み込んだ音響フレームについて、窓関数を利用して周波数変換を行う。周波数変換としては、フーリエ変換、ウェーブレット変換その他公知の種々の手法を用いることができる。本実施形態では、フーリエ変換を用いた場合を例にとって説明する。

ここで、本実施形態においてフーリエ変換に利用する窓関数について説明しておく。一般に、所定の信号に対してフーリエ変換を行う場合、信号を所定の長さに区切って行う必要があるが、この場合、所定の長さの信号に対してそのままフーリエ変換（正確には短時間フーリエ変換とよばれる）を行うと、高域部に擬似成分が発生する。そこで、一般にフーリエ変換を行う場合には、ハニング窓と呼ばれる窓関数を用いて、窓の境界部のコサイン波形状で重みを落とすように信号の値を変化させた後、変化後の値に対してフーリエ変換を実行する。

Ｓ１１においてフーリエ変換を行う場合、具体的には、サンプルｉにおける値Ｘ（ｉ）（ｉ＝０，…，Ｎ−１）に対して、０〜１の実数値をもち、Ｎサンプル区間に定義されるハニング窓関数Ｗ（ｉ）（＝０．５−０．５ｃｏｓ（２πｉ／Ｎ）を用いて、以下の〔数式１〕の第１式、第２式に従った処理を行い、各周波数における実部Ａ（ｊ）、虚部Ｂ（ｊ）を得る。

続いて、スペクトル成分の算出を行う（Ｓ１２）。具体的には、以下の〔数式１〕第３式に従った処理を行い、各周波数における強度値Ｅ（ｊ）を得る。

〔数式１〕
Ａ（ｊ）＝Σ_i=0,…,N-1Ｗ（ｉ）・Ｘ（ｉ）・ｃｏｓ（２πｉｊ／Ｎ）
Ｂ（ｊ）＝Σ_i=0,…,N-1Ｗ（ｉ）・Ｘ（ｉ）・ｓｉｎ（２πｉｊ／Ｎ）
Ｅ（ｊ）＝Ａ（ｊ）²＋Ｂ（ｊ）²

〔数式１〕において、ｉは、各音響フレーム内のＮ個のサンプルに付した通し番号であり、ｉ＝０，１，２，…，Ｎ−１の整数値をとる。また、ｊは周波数の値について、値の小さなものから順に付した通し番号であり、ｊ＝０，１，２，…，Ｎ／２−１の整数値をとる。サンプリング周波数が４４．１ｋＨｚ、Ｎ＝４０９６の場合、ｊの値が１つ異なると、周波数が１０．８Ｈｚ異なることになる。

続いて、スペクトル成分の統合処理を行う（Ｓ１３）。上記の周波数変換により、２２ｋＨｚ付近までのスペクトル成分が得られるが、本実施形態における特徴ワードの生成には、３４０Ｈｚ以上で４ｋＨｚ付近より低い範囲のスペクトル成分を用いる。これは、携帯電話の音声再生で使用される３ＧＰＰ規格等の音声圧縮形式に対応させるためである（ただし、本実施形態では常にデジタル音響データが与えられるため、携帯電話の音声録音信号を用いた照合には対応する必要はない。）。そのため、正確に、携帯電話の音声再生範囲に合わせる場合は、特徴ワードの生成の上限を３．４ｋＨｚ付近とするようにしても良い。本実施形態では、ｊ＝０〜２０４７の周波数成分のうち、４ｋＨｚ付近より高いｊ＝３８５〜２０４７については利用しない。また、３４０Ｈｚ以下であるｊ＝０〜３２の低周波成分についても利用しない。すなわち、本実施形態では、ｊ＝３３〜３８４の周波数成分を用いる。具体的には、以下の〔数式２〕に従った処理を実行し、１１周波数成分単位のＰｎに統合することになる。

〔数式２〕
Ｐ０＝（Ｅ₃₃＋Ｅ₃₄＋…＋Ｅ₄₃）^1/4
Ｐ１＝（Ｅ₄₄＋Ｅ₄₅＋…＋Ｅ₅₄）^1/4
：
：
Ｐ３１＝（Ｅ₃₇₄＋Ｅ₃₇₅＋…＋Ｅ₃₈₄）^1/4

上記〔数式２〕により、ｊ＝３３〜３８４の３５２個の周波数成分が、ｎ＝０〜３１の３２個の周波数成分に統合されることになる。上記処理は、各音響フレームについて行われ、各音響フレームについて、３２個の周波数成分が得られることになる。

次に、各音響フレームについて、直前の音響フレームのスペクトル成分との差分を算出する（Ｓ１４）。上記Ｓ１１〜Ｓ１３の処理は、各音響フレームに対して順次行われる。このＳ１４におけるフレーム間差分の算出処理は、各音響フレームについてＳ１３までの処理を行った結果得られたＰ０〜Ｐ３１を利用するものである。具体的には、以下の〔数式３〕に従った処理を行い、フレーム間差分Ｄｎ（ｔ）を得る。

〔数式３〕
Ｄｎ（ｔ）＝｜Ｐｎ（ｔ）−Ｐｎ（ｔ−１）｜、ｎ＝０，…，３１

上記〔数式３〕においてＰｎ（ｔ）は、ｔ番目の音響フレームにおける統合された周波数成分である。このように、隣接する音響フレーム間の差分を算出するのは、音響データの振幅レベルがわずかに変化するような箇所についても、振幅レベルの変化を強調させ、音響データの特徴を反映した特徴ワードを生成するためである。

フレーム間差分の算出処理を終えたら、所定フレーム数の処理が終了したかどうかを判断する（Ｓ１５）。具体的には、ｔ≧Ｔであるかどうかを判断する。その結果、ｔ＜Ｔである場合は、ｔをインクリメントしてＳ１１に戻る。Ｓ１５における判断の結果、ｔ≧Ｔである場合は、得られたＴ個の差分Ｄｎ（ｔ）の総和を求める（Ｓ１６）。すなわち、上記Ｓ１１〜Ｓ１４の処理を各音響フレームに対して順次行い、音響フレーム間の差分Ｄｎ（ｔ）がＴ個（本実施形態では１１個）得られたら、Ｔ個の差分Ｄｎ（ｔ）の総和算出を行うことになる。具体的には、以下の〔数式４〕に従った処理を行い、フレーム間差分の総和Ｓｎを得る。

〔数式４〕
Ｓｎ＝Σ_t=0,…,T-1Ｄｎ（ｔ）

上記〔数式４〕において、“Σ_t=0,…,T-1”は、ｔ＝０からＴ−１までｔを１ずつ増加させたときの総和を意味する。続いて、上記〔数式４〕により得られたＳｎの二値化処理を行う（Ｓ１７）。具体的には、まず、３２個のＳｎ配列をｎ≧１４とｎ≦１３の上下帯域で２分割し、ｎ≦１３の１４個のうち値の大きい７個に１を与え、値の小さい７個に０を与えるとともに、ｎ≧１４の１８個のうち値の大きい９個に１を与え、値の小さい９個に０を与える。ここで、単純に全３２個のＳｎのうち値の大きい１６個と、小さい１６個に１と０を与えるのではなくて、３２バンドを周波数が高い１８バンドのグループと、周波数が低い１４バンドのグループに分けて、それぞれそのグループ内で均等に１と０を与えるようにしたのは、各種データ圧縮処理に伴う周波数特性の影響を補正するためである。上下のバンドを１８バンドと１４バンドの位置で分けたのは、実験の結果、この位置で分けたとき、検索に使用する検索音響データに対してＭＰ３などの各種データ圧縮処理を施した結果、検索精度が最も高かったためである。Ｓ１７における処理により、各周波数帯ｎについてのフレーム間差分の総和Ｓｎが１ビットで表現可能となる。そして、ｎ＝０をＬＳＢ、ｎ＝３１をＭＳＢとして３２ビットの特徴パターンＦｄ（ｙ）を得る。ここで、ｙ（＝０，…，Ｙ−１）は、１つの原音響データから生成されるＹ個の特徴ワードにおいて、その順番を示す変数である。したがって、ｙは演奏開始からの時刻に比例する変数となる。

次に、音量データの算出を行う（Ｓ１８）。具体的には、まず、以下の〔数式５〕を用いて総和音量Volを算出する。

〔数式５〕
Vol＝Σ_t=0,…,T-1｛Σ_n=0,…,31Ｐｎ（ｔ）｝

上記〔数式５〕において、“Σ_t=0,…,T-1”は、ｔ＝０からＴ−１までｔを１ずつ増加させたときの総和を意味する。上記〔数式５〕に示すように、統合処理により得られた全ての成分Ｐｎ（ｔ）の値をＴ個の音響フレームについて加算する。これにより、Ｔ個の音響フレームについての音量の総和である総和音量Volが得られる。この総和音量Volの値に適宜設定した固定のスケーリング値を乗算して、０〜２５５の範囲に収まるように正規化して音量データＶｄ(ｙ)を得る。正規化により音量データＶｄ(ｙ)は８ビットで表現されることとなる。音量データＶｄ(ｙ)は、上記〔数式５〕に示されるように、Ｔ個の音響フレームに渡る総和音量Volを基礎としているため、各フレーム単位の音量ではなく、Ｔ個の音響フレームの総和音量を表現していることになる。

上記Ｓ１７、Ｓ１８の処理は、順序を入れ替えて行うことも可能である。Ｓ１７、Ｓ１８による処理の結果、３２ビットの特徴パターンと８ビットの音量データにより構成される４０ビットの特徴ワードが得られる。

以上の処理を各音響フレームに対して実行することにより、その音響データについての特徴ワードが多数生成されることになる。例えば、上記の例のように、サンプリング周波数４４．１ｋＨｚ、１音響フレームが４０９６サンプル、音響フレームを２０４８サンプルずつ重複させた場合、１特徴ワードは約０．５０６秒となり、５分間の音響データからは、約６００個の特徴ワードが生成されることになる。

ここで、上記特徴ワードの生成処理を、図５の概念図を用いて説明する。図５（ａ）は、特徴ワードの生成対象とする音響データの波形を示す図である。関連情報登録装置では、音響データを音響フレーム単位で読み取っていくが、図５（ｂ）に示すように、読取範囲を重複させて読み取らせる。そして、各音響フレームに対して、図５（ｃ）に示すように所定の周波数範囲における周波数成分を抽出し、３２バンドに統合する。これは、上記Ｓ１１〜Ｓ１３に相当する。次に、図５（ｄ）に示すように統合成分のバンドごとの隣接する音響フレーム間における差分処理、３２バンドの統合成分の総和処理を行う。統合成分の差分処理は上記Ｓ１４に相当し、統合成分の総和処理は上記Ｓ１８の各周波数成分（ｎ＝０〜３１）の総和処理に相当する。次に、図５（ｅ）に示すように３２バンド差分成分の総和処理、および音量の総和処理を行う。３２バンド差分成分の総和処理は、上記Ｓ１６に相当し、音量の総和処理は上記Ｓ１８の各音響フレーム（ｔ＝０〜Ｔ−１）の総和処理に相当する。次に、図５（ｆ）に示すように３２バンド総和成分の二値化処理、および音量の圧縮処理（上記〔数式５〕に基づき算出された値に所定のスケーリング値を乗算して２５６段階に音量レベルを圧縮する処理）を行う。３２バンド総和成分の二値化処理は上記Ｓ１７に相当し、音量の圧縮処理は上記Ｓ１８に相当する。図５に示すように、音響データから順次音響フレームを読み込み、Ｔ個の音響フレーム単位で１つの特徴ワードを生成していく処理が行われることになる。

指定された１つの原音響データ全体に対して、登録特徴ワード群（登録特徴ワードの集合）が得られたら、次に、代表登録特徴データ生成手段２０が、登録特徴ワード群を用いて代表登録特徴データを生成する。代表登録特徴データは、登録特徴ワードを基礎とする特徴成分の時間方向における平均値、標準偏差の組として構成される。図６は、登録特徴ワードを基礎とする特徴成分の時間方向における平均値、標準偏差の算出処理を示すフローチャートである。まず、代表登録特徴データ生成手段２０は、登録特徴ワードを多値化処理することにより登録特徴データ配列を生成する（Ｓ１９）。具体的には、以下の〔数式６〕に従った処理を実行することにより、登録特徴ワードを基礎とする特徴成分である登録特徴データ配列Ｚ(ｎ,ｙ)（ｎ＝０,…,３１；ｙ＝０, …,Ｙ−１)を生成する。

〔数式６〕
Ｆｄ(ｙ)の各ビットｎが１の場合、Ｚ(ｎ,ｙ)←Ｖｄ(ｙ)
Ｆｄ(ｙ)の各ビットｎが０の場合、Ｚ(ｎ,ｙ)←−Ｖｄ(ｙ)

次に、代表登録特徴データ生成手段２０は、登録特徴データ配列Ｚ(ｎ, ｙ)の時間方向ｙにおける平均値配列Ｃｄ（ｎ, ｒ）、標準偏差配列Ｌｄ（ｎ, ｒ）を算出する（Ｓ２０）。具体的には、以下の〔数式７〕に従った処理を実行することにより、平均値配列Ｃｄ（ｎ, ｒ）、標準偏差配列Ｌｄ（ｎ, ｒ）を算出する。

〔数式７〕
Ｃｄ（ｎ, ｒ）=[Σ_y=0,…,Y-1Ｚ(ｎ, ｙ)]／Ｙ
Ｌｄ（ｎ, ｒ）=[Σ_y=0,…,Y-1(Ｚ(ｎ, ｙ)−Ｃｄ(ｎ，ｒ))²／Ｙ]^1/2

図７は、Ｓ１９、Ｓ２０による登録特徴データ配列の平均値、標準偏差の算出処理の概念図である。図７に示すように、登録特徴ワードは各時刻ｙ（ｙ＝０,…,Ｙ−１）に対応して３２ビットの特徴パターンＦ(ｙ)と８ビットの音量データＶ(ｙ)を有している。図７においては、特徴パターンの３２個の各ビットをＢｉｔ０〜Ｂｉｔ３１で示している。

そして、上記〔数式６〕に示したようにビットｎ（Ｂｉｔ０〜Ｂｉｔ３１）の値が０であるか１であるかにより、Ｚ(ｎ,ｙ)の値を音量データの値そのままとするか、音量データの値に−１を乗じたものとするかを決定し、ビットｎに対応するＺ(ｎ,ｙ)の値を定める。このとき、８ビットの音量データを負の値とする場合が生じるため、Ｚ(ｎ,ｙ)は１６ビットで表現する。３２ビット特徴パターンでは、各バンドについて１ビットで表現されていたものが、１６ビット（２バイト）で表現されることになるので、各時刻ｙにおける登録特徴データは６４バイトとなる。

代表登録特徴データ生成手段２０により代表登録特徴データとして生成された平均値配列Ｃｄ（ｎ, ｒ）、標準偏差配列Ｌｄ（ｎ, ｒ）は、音響データＩＤ等の音響データを特定する情報（ｒと１対１で対応）と対応付けて音響データベース４０に登録される。

各原音響データについて、その原音響データについての関連情報、音響データＩＤ、登録特徴ワード群、代表登録特徴データを対応付けて音響データベース４０に登録する。関連情報としては、当該原音響データに関連する情報であれば、どのようなものでも良いが、例えば、当該原音響データが楽曲であれば、曲名や演奏者名、当該原音響データがＣＭ音声であれば、そのスポンサー企業の名前やＵＲＬ等を用いることができる。ただし、当該原音響データの制作・マスタリングに使用した一連のバイナリ形式の素材データ（ミックスダウンする前の個別の録音データ、ＭＩＤＩ打ち込みデータ）等は著作権法上の制約により通常対象外とする。

＜３．関連情報検索装置＞
次に、本発明に係る音響データの関連情報検索装置（以下「関連情報検索装置」という。）について説明する。図８は、関連情報検索装置のハードウェア構成図である。関連情報検索装置は、関連情報登録装置と同様、汎用のコンピュータで実現することができ、図８に示すように、ＣＰＵ３ａ（CPU: Central Processing Unit）と、コンピュータのメインメモリであるＲＡＭ３ｂ（RAM: Random Access Memory）と、データを記憶するための大容量のデータ記憶装置３ｃ（例えば，ハードディスク）と、ＣＰＵが実行するプログラムを記憶するためのプログラム記憶装置３ｄ（例えば，ハードディスク）と、キーボード、マウス等のキー入力Ｉ／Ｆ３ｅと、外部デバイス（データ記憶媒体）とデータ通信するためのデータ入出力インターフェース３ｆと、表示デバイス（ディスプレイ）に情報を送出するための表示出力インターフェース３ｇと、を備え、互いにバスを介して接続されている。

関連情報検索装置のプログラム記憶装置３ｄには、ＣＰＵ３ａを動作させ、コンピュータを、関連情報検索装置として機能させるための専用のプログラムが実装されている。また、データ記憶装置３ｃは、登録特徴ワード、代表登録特徴データ等を関連情報と対応付けて記憶されており、音響データベースとして機能するとともに、処理に必要な様々なデータを記憶する。図８では、単体のコンピュータで実現した例を示したが、音響データベースが稼動されているサーバーコンピュータとネットワークで接続されている高性能な演算処理機能を備えているパーソナルコンピュータが、専用のプログラムに従って各手段の内容を実行するようにしても良い。

図９は、本発明に係る関連情報検索装置の機能ブロック図である。図９において、４０は音響データベース、４５はモード設定手段、５０は検索特徴ワード生成手段、６０は代表検索特徴データ生成手段、７０は照合範囲決定手段、８０は代表特徴データ照合手段、９０は特徴ワード照合手段、１００は情報出力手段である。関連情報検索装置は、利用者が保有している検索音響データを用いて、音響データベースに登録されている原音響データに関する関連情報を検索音響データに関連する関連情報として検索するものである。検索音響データとは、検索に用いる音響データである。検索の際、検索音響データから生成した特徴ワードである検索特徴ワードと、あらかじめ音響データベース４０に登録されている登録特徴ワードの照合を行う必要がある。そのため、検索特徴ワードと登録特徴ワードは基本的に同一の構造である必要がある（なお、前者の検索特徴ワード群は位相を変化させた複数（Ｈ個）の特徴ワード群のセットが生成される）。検索特徴ワードと登録特徴ワードの基になる検索音響データと原音響データは種々の符号化形式で圧縮され、入手形態により互いに異なる符号化形式になるのが一般的であるため、同一の符号化形式になるように変換する必要がある。本実施形態では、検索音響データも原音響データも同じ仕様（サンプリング周波数:44.1kHz、量子化ビット数:16bits、チャンネル数:1・モノラルといったＰＣＭ形式のパラメータ）のＰＣＭ形式になるように変換し統一させるようにしている。

モード設定手段４５は、関連情報検索装置が備えている複数のモードの中からいずれのモードに従って処理を行うかを設定するものであり、キーボード、マウス等の入力機器およびキー入力Ｉ／Ｆ３ｅにより実現される。設定可能なモードとしては、検索音響データモードおよび音量判定モードが用意されている。検索音響データモードは、検索音響データの状態を示すものであり、イントロ検索、全尺検索の２つが選択可能になっている。イントロ検索とは、検索音響データが、音響素材（楽曲の場合、原曲を意味する。）の先頭を含む場合であり、全尺検索は、検索音響データが音響素材から一切切り出しを行われたものでなく、音響素材全てを用いた場合、すなわち、音響素材と同一の時間的長さをもつ場合に対応するものである。音量判定モードは、後述するワード単位相違度Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）に音量成分をどのように加味するかを設定するものであり、Ｏｆｆ、Ｗｅｉｇｈｔ、Ｍａｔｃｈ、Ｂｏｔｈの４つが選択可能になっている。

検索特徴ワード生成手段５０は、図３に示した登録特徴ワード生成手段１０と同様、読み込んだ音響フレームを利用して、周波数解析を行い、その検索音響データの特徴を表現した特徴ワードを生成する機能を有している。ただし、位相をずらした複数（Ｈ個）の特徴ワード群のセットを生成するようにしている。代表検索特徴データ生成手段６０は、図３に示した代表登録特徴データ生成手段２０と同様、検索特徴ワード生成手段５０により生成された検索特徴ワード群を用いて、１つの検索音響データにつき、１つの代表検索特徴データを生成する機能を有する。検索特徴ワードは、検索音響データの部分的な特徴を表現するのに対して、代表検索特徴データは、１つの検索音響データの全体的な特徴を表現する。

代表特徴データ照合手段８０は、生成した代表検索特徴データと、音響データベース４０に登録されている代表登録特徴データとの照合を行う機能を有している。特徴ワード照合手段９０は、生成した検索特徴ワードと、音響データベース４０に登録されている登録特徴ワードとの照合を行う機能を有している。情報出力手段１００は、特徴ワード照合手段９０による照合の結果、検索音響データの特徴に類似する原音響データについての関連情報を、音響データベース４０から抽出して出力する機能を有している。

＜３．２．関連情報検索装置の処理動作＞
続いて、図９に示した装置の処理動作について説明する。まず、検索オペレータが保有している検索音響データを検索したいと思った場合、関連情報検索装置に対して起動の指示を行い、起動後、検索対象とする検索音響データを指定する。これは、キー入力Ｉ／Ｆ３ｅを介して所定のコンピュータ画面上のボタンを操作し、関連情報検索装置のデータ記憶装置３ｃ内に保存されている検索音響データを指定することにより実行できる。現実には、検索音響データは、ＭＰ３等の圧縮形式であることが多いため、ＰＣＭ形式に変換した後、処理を行う。また、検索オペレータは、モード設定手段４５により、検索モード、音量判定モードの設定を行う。設定を行わない場合は、検索モードについては、“イントロ検索” “全尺検索”以外の通常検索が実行され、音量判定モードについては、“Ｏｆｆ”が設定される。設定された情報は、ＣＰＵ３ａにより、ＲＡＭ３ｂの所定の領域に書き込まれ、各手段が参照可能な状態となる。検索モードにおいて、“イントロ検索” “全尺検索”が選択された場合は、その検索音響データが音響素材の先頭から始まることが設定されることになる。

指示が入力されると、検索特徴ワード生成手段５０が、指定された検索音響データから、それぞれ所定数のサンプルを１音響フレームとして読み込む。この処理は、関連情報登録装置が行ったのと同様に行われる。すなわち、１音響フレームのサンプル数は、サンプリング周波数が４４．１ｋＨｚの場合、４０９６サンプルとする。また、音響フレームは、２０４８サンプルを重複させて読み込むことにしている。

ここから検索特徴ワードの生成までの処理は、図１０のフローチャートに従ったものとなる。図１０のフローチャートは、登録特徴ワード生成についての図４のフローチャートとほぼ同様のものとなっている。検索特徴ワード生成手段５０は、Ｓ１１と同様にして、読み込んだ各音響フレームに対して周波数変換を行って、その音響フレームのスペクトルであるフレームスペクトルを得る（Ｓ２１）。関連情報登録装置と同様、周波数変換としては、フーリエ変換、ウェーブレット変換その他公知の種々の手法を用いることができるが、関連情報登録装置の処理と合わせる必要があるため、本実施形態では、フーリエ変換を用いる。

続いて、スペクトル成分の算出を行う（Ｓ２２）。具体的には、Ｓ１２と同様、上記〔数式１〕第３式に従った処理を行い、各周波数における強度値Ｅ（ｊ）を得る。

続いて、スペクトル成分の間引き処理を行う（Ｓ２３）。具体的には、Ｓ１３と同様、上記〔数式２〕に従った処理を実行し、１１周波数成分単位のＰｎに間引くことになる。

上記〔数式２〕により、ｊ＝３３〜３８４の３５２の周波数成分が、ｎ＝０〜３１の３２の周波数成分に間引かれることになる。上記処理は、各音響フレームについて行われ、各音響フレームについて、３２個の周波数成分が得られることになる。

次に、各音響フレームについて、直前の音響フレームのスペクトル成分との差分を算出する（Ｓ２４）。上記Ｓ２１〜Ｓ２３の処理は、各音響フレームに対して順次行われる。このＳ２４におけるフレーム間差分の算出処理は、各音響フレームについてＳ２３までの処理を行った結果得られたＰ０〜Ｐ３１を利用するものである。具体的には、Ｓ１４と同様、上記〔数式３〕に従った処理を行い、フレーム間差分Ｄｎ（ｔ）を得る。

上記Ｓ２１〜Ｓ２４の処理を各音響フレームに対して順次行い、音響フレーム間の差分Ｄｎ（ｔ）がＴ個（本実施形態では１１個）得られたら、そのＴ個分の総和を求める（Ｓ２６）。すなわち、以下の〔数式８〕に従った処理を行い、フレーム間差分の総和Ｓｎ（ｈ）を得る。〔数式８〕のｈｓは位相をずらす最小単位の音響フレーム数であり、(Ｔ／Ｈで定義される。ただし、ｈｓは整数値でないと意味を持たないため、本実施形態では小数点以下を切り捨て、ｈｓ＝−２としている。

〔数式８〕
Ｓｎ（ｈ）＝Σ_t=0,…,T-1Ｄｎ（ｔ＋ｈ・ｈｓ）

上記〔数式８〕において、ｈは位相を特定する位相番号であり、０≦ｈ≦Ｈ−１のＨ通りの値をとる整数である。続いて、上記〔数式８〕により得られたＳｎ（ｈ）の二値化処理を行う（Ｓ２７）。具体的には、Ｓ１７と同様の処理をＳｎ（ｈ）配列に対して実行する。すなわち、Ｓｎ（ｈ）配列をｎ≧１４とｎ≦１３の上下帯域で２分割し、ｎ≦１３の１４個中値の大きい７個に１を与え、値の小さい７個に０を与えるとともに、ｎ≧１４の１８個中値の大きい９個に１を与え、値の小さい９個に０を与える。Ｓ２７における処理により、各ｎについてのＳｎ（ｈ）が１ビットで表現可能となる。そして、ｎ＝０をＬＳＢ、ｎ＝３１をＭＳＢとして３２ビットの特徴パターンＦ（ｈ,ｘ）を得る。ここで、ｘ（＝０，…，Ｘ）は、検索音響データから生成されるＸ個の特徴ワードにおいて、その順番を示す変数である。したがって、ｘは演奏開始からの時刻に比例する変数となる。

次に、音量データの算出を行う（Ｓ２８）。具体的には、まず、以下の〔数式９〕を用いて各位相番号ｈについて総和音量Vol（ｈ）を算出する。

〔数式９〕
Vol（ｈ）＝Σ_t=0,…,T-1｛Σ_n=0,…,31Ｐｎ（ｔ＋ｈ・ｈｓ）｝

上記〔数式５〕に示すように、間引き処理した全ての成分Ｐｎ（ｔ＋ｈ・ｈｓ）の値をＴ個の音響フレームについて加算する。これにより、各位相番号ｈについて、Ｔ個の音響フレームについての音量の総和である総和音量Vol（ｈ）が得られる。この総和音量Volの値に適宜設定した固定のスケーリング値を乗算して、０〜２５５の範囲に収まるように正規化して音量データＶ(ｈ,ｘ)を得る。正規化により音量データＶ(ｈ,ｘ)は８ビットで表現されることとなる。音量データＶ(ｈ,ｘ)は、上記〔数式９〕に示されるように、Ｔ個の音響フレームに渡る音量の総和を基礎としているため、各フレーム単位の音量ではなく、Ｔ個の音響フレームの総和音量を表現していることになる。

上記Ｓ２７、Ｓ２８の処理は、順序を入れ替えて行うことも可能である。Ｓ２７、Ｓ２８による処理の結果、３２ビットの特徴パターンと８ビットの音量データにより構成される４０ビットの特徴ワードが得られる。

以上の処理を各音響フレームに対して実行することにより、その音響データについての特徴ワードが多数（Ｘ個）生成されることになる。例えば、上記の例のように、サンプリング周波数４４．１ｋＨｚ、１音響フレームが４０９６サンプル、音響フレームを２０４８サンプルずつ重複させた場合、１特徴ワードは約０．５０６秒となり、３０秒間の音響データからは、約６０個（＝Ｘ個）の特徴ワードが生成されることになる。

上記のようにして、関連情報検索装置では、関連情報登録装置に比べて音響データの単位時間あたりＨ倍（本実施形態では、Ｈ＝５）の特徴ワードを生成する。（ただし、全体としては関連情報検索装置で生成される特徴ワードの方が、関連情報登録装置に比べて顕著に少なくなる。）関連情報登録装置に比べて検索対象とする検索音響データは、楽曲の一部が切り取られたものであることが多い。これは、利用者が演奏されている音楽の一部を録音することにより取得されることがあるためである。そのため、必ずしも、データベースに登録された原音響データとのタイミングが一致するものではなく、位置ズレが生じることがある。関連情報登録装置において生成した手法でも、１１個の音響フレームを平均化して生成しているため、比較的位置ズレには強い。しかし、リズム変化が激しい検索音響データの場合、特徴ワードの生成単位である１１音響フレームの、ほぼ半分である５音響フレーム程度ずれると、顕著に異なる特徴ワードが生成され、誤った情報が検索されてしまう。そのため、１解析単位である１１音響フレームの範囲内でｈｓ（＝２音響フレーム）ずつ遅らせて（位相を変更して）複数の検索特徴ワードを生成して、音響データベース４０内の登録特徴ワードと照合するようにする。

具体的には、関連情報登録装置では、フレーム１〜フレーム１１までで１つの特徴ワードを生成するが、関連情報検索装置では、フレーム１〜フレーム１１で特徴ワードを生成するとともに、２音響フレーム分、４音響フレーム分、６音響フレーム分、８音響フレーム分ずらした（位相を変更した）音響フレーム群からも特徴ワードを生成する。すなわち、フレーム３〜フレーム１３、フレーム５〜フレーム１５、フレーム７〜フレーム１７、フレーム９〜フレーム１９においても特徴ワードを生成する。結局、図１０のフローチャートに従った処理を各音響フレームに対して実行することにより、Ｘ個の検索特徴ワードを構成する配列として、［Ｆ(ｈ, ｘ), Ｖ(ｈ, ｘ)］（ｈ＝０, …,Ｈ−１；ｘ＝０, …,Ｘ−１)が得られることになる。

位相のズレを考慮してＨ個の検索特徴ワード群を生成したら、次に、代表検索特徴データ生成手段６０が、検索特徴ワード群を用いて代表検索特徴データを生成する。代表検索特徴データは、検索特徴ワードを基礎とする特徴成分の時間方向における平均値、標準偏差の組として構成される。図１１は、検索特徴ワードを基礎とする特徴成分の時間方向における平均値、標準偏差の算出処理を示すフローチャートである。まず、代表検索特徴データ生成手段６０は、検索特徴ワードを多値化処理することにより検索特徴データ配列を生成する（Ｓ２９）。具体的には、以下の〔数式１０〕に従った処理を実行することにより、検索特徴ワードを基礎とする特徴成分である検索特徴データ配列Ｚ(ｎ, ｈ, ｘ)（ｎ＝０,…,３１；ｈ＝０, …,Ｈ−１；ｘ＝０, …,Ｘ−１)を生成する。

〔数式１０〕
Ｆ(ｈ, ｘ)の各ビットｎが１の場合、Ｚ(ｎ, ｈ, ｘ)←Ｖ(ｈ, ｘ)
Ｆ(ｈ, ｘ)の各ビットｎが０の場合、Ｚ(ｎ, ｈ, ｘ)←−Ｖ(ｈ, ｘ)

次に、代表検索特徴データ生成手段６０は、検索特徴データ配列Ｚ(ｎ, ｈ, ｘ)を用いて平均値配列Ｃ（ｎ）、標準偏差配列Ｌ（ｎ）を算出する（Ｓ３０）。具体的には、以下の〔数式１１〕に従った処理を実行することにより、平均値配列Ｃ（ｎ）、標準偏差配列Ｌ（ｎ）を算出する。

〔数式１１〕
Ｃ(ｎ)=[Σ_{x=0, …,X-1}Σ_{h=0, …,H-1}Ｚ(ｎ, ｈ, ｘ)]／(５Ｘ)
Ｌ(ｎ)=[Σ_{x=0, …,X-1}Σ_{h=0, …,H-1}(Ｚ(ｎ, ｈ, ｘ)− Ｃ(ｎ))²／(５Ｘ)]^1/2

図１２は、Ｓ２９、Ｓ３０による代表検索特徴データの平均値、標準偏差の算出処理の概念図である。図１２は、ある特定の位相ｈに対する代表検索特徴データの平均値、標準偏差の算出処理を示している。図１２に示すように、検索特徴ワードは各時刻ｘ（ｘ＝０, …,Ｘ−１）に対応して３２ビットの特徴パターンと８ビットの音量データを有している。図１２においては、特徴パターンの３２個の各ビットをＢｉｔ０〜Ｂｉｔ３１で示している。

そして、上記〔数式１０〕に示したようにビットｎ（Ｂｉｔ０〜Ｂｉｔ３１）の値が０であるか１であるかにより、Ｚ(ｎ, ｈ, ｘ)の値を音量データの値そのままとするか、音量データの値に−１を乗じたものとするかを決定し、ビットｎに対応するＺ(ｎ, ｈ, ｘ)の値を定める。このとき、８ビットの音量データを負の値とする場合が生じるため、Ｚ(ｎ, ｈ, ｘ)は１６ビットで表現する。３２ビット特徴パターンでは、各バンドについて１ビットで表現されていたものが、１６ビット（２バイト）で表現されることになるので、各時刻ｘにおける検索特徴データは６４バイトとなる。

検索の目的とする検索音響データについて、検索特徴ワード群および代表検索特徴データが得られたら、実際に音響データベース４０を参照して照合処理を実行することになる。この際、まず、照合範囲決定手段７０が、登録特徴ワードの照合範囲を決定する処理を行う。検索音響データは、利用者が検索用に用いる音響データであるため、必ずしも楽曲全体を記録しているとは限らず、楽曲の一部だけを録音して音響データとして取得したような場合もある。そのため、照合範囲決定手段７０は、検索音響データが実際に元の楽曲のどの部分から取得されたものであるかがわからないことを前提として、効率的に照合を行うための照合範囲の決定を行う。照合範囲決定の概念図を図１３に示す。図１３における矩形の横幅は、特徴ワード群を構成する特徴ワード数を示している。

具体的には、まず、照合範囲決定手段７０は、検索特徴ワード群の検索特徴ワード数Ｘとあるレコードｒについての登録特徴ワード群の登録特徴ワード数Ｙ（ｒ）を比較する。ここでは、検索特徴ワード群の検索特徴ワード数は、再生時の長さに比例するものとして登録特徴ワード群の登録特徴ワード数との比較を行っている。したがって、検索特徴ワード数Ｘは位相を考慮しない場合のものとする。

そして、検索特徴ワード群の検索特徴ワード数Ｘと登録特徴ワード群の登録特徴ワード数Ｙ（ｒ）の比較の結果、ＸがＹ（ｒ）より大きい場合、すなわち、図１３（ａ）に示すような場合、照合範囲決定手段７０は、そのレコードを検索対象から除外し、次のレコードに移行する。ＸがＹ（ｒ）より大きい場合、検索音響データの一部が原音響データより長いことになる。原音響データは音響データ全体を記録しているため、この両者は異なる原音響データに基づくものであることが明らかとなる。そこで、この場合は、そのレコードを検索対象から除外するのである。

検索特徴ワード群の検索特徴ワード数Ｘと登録特徴ワード群の登録特徴ワード数Ｙ（ｒ）の比較の結果、ＸがＹ（ｒ）より小さい場合、照合範囲決定手段７０は、検索特徴ワード群に、原音響データの先頭部分から作成した特徴ワードが含まれているかどうかを判断する。具体的には、ＲＡＭ３ｂの所定の領域を参照し、モード設定手段４５によりイントロ検索または全尺検索が設定されているかどうかを確認する。これらの検索モードが設定されている場合、検索特徴ワード群に、原音響データの先頭部分から作成した特徴ワードが含まれていることが明らかであるため、検索音響データと原音響データが同一であるとすれば、先頭の検索特徴ワードと登録特徴ワードが一致するはずである。そこで、検索特徴ワード群に、原音響データの先頭部分から作成した特徴ワードが含まれている場合は、照合範囲決定手段７０は、先頭の検索特徴ワードと登録特徴ワードを照合対象として設定する処理を行う。しかし、先頭の１つの特徴ワード同士を比較しただけでは、他の楽曲にも同様な特徴ワードをもつ可能性もあるため、正しい照合結果が得られなくなる。そこで、照合範囲決定手段７０は、所定の時間の長さに対応するα個の特徴ワードを照合対象とする処理を行う。本実施形態では、１２秒程度に相当する特徴ワード群を照合対象とする処理を行っている。上述のように、本実施形態では、１特徴ワードは約０．５０６秒であるので、１２秒は、特徴ワード２４個分に相当する。すなわち、この場合、検索特徴ワード群の先頭からの特徴ワード２４個と、登録特徴ワード群の先頭からの特徴ワード２４個が照合対象とされる。このときの状態を示したものが図１３（ｂ）である。

検索特徴ワード群に、原音響データの先頭部分から作成した特徴ワードが含まれていない場合で、かつ検索特徴ワード群の先頭部分からα（＜Ｘ）個を照合対象とする場合、照合範囲決定手段７０は、登録特徴ワード群における検索特徴ワード群の先頭検索特徴ワード（ｘ＝０）との照合範囲を、先頭（ｙ＝０）から登録特徴ワード群の最後尾登録特徴ワード（ｙ＝Ｙ（ｒ）−１）より検索特徴ワード群の個数（Ｘ）だけ前方に位置する範囲までとする。すなわち、登録特徴ワード群における検索特徴ワード群の先頭検索特徴ワード（ｘ＝０）との照合範囲は、図１３（ｃ）に示すように、先頭（ｙ＝０）から（Ｙ（ｒ）−Ｘ−１）番目の登録特徴ワードまでとなる。

本実施形態では、標準設定として、検索特徴ワード群の先頭からの特徴ワードα個を照合対象としているが、検索特徴ワード群の最後尾からの特徴ワードα個、検索特徴ワード群の中央の特徴ワードα個を照合対象に設定しておくことも可能である。検索特徴ワード群の最後尾からの特徴ワードα個が照合対象として設定されている場合、登録特徴ワード群における検索特徴ワード群の先頭検索特徴ワード（ｘ＝０）との照合範囲は、図１３（ｄ）に示すように、（Ｘ−α）番目から（Ｙ（ｒ）−α）番目の登録特徴ワードまでとなる。

また、検索特徴ワード群の中央の特徴ワードα個が照合対象として設定されている場合、登録特徴ワード群における検索特徴ワード群の先頭検索特徴ワード（ｘ＝０）との照合範囲は、図１３（ｄ）に示すように、｛（Ｘ−α）／２｝番目から｛Ｙ（ｒ）−α−（Ｘ−α）／２｝番目の登録特徴ワードまでとなる。照合範囲決定手段７０は、以上のようにして決定した登録特徴ワードの照合範囲を、レコード別に特徴ワード照合手段９０に渡す。

登録特徴ワードの照合範囲が決定したら、次に、代表特徴データ照合手段８０が、代表検索特徴データを用いて、検索対象であるレコードの絞込みを行う。具体的には、代表検索特徴データと音響データベース４０に登録された代表登録特徴データとの比較を行い、所定の条件を満たすレコードのみを、特徴ワード照合手段９０として抽出する。そして、特徴ワード照合手段９０が、検索特徴ワード群を用いて、音響データベース４０に登録された原音響データの関連情報を検索する。具体的には、検索特徴ワード群と、音響データベース４０に登録された登録特徴ワード群との比較を行い、所定の条件を満たすレコードを抽出する。代表特徴データ照合手段８０による処理は、検索特徴ワード群を用いた比較処理の演算負荷が高いため、検索対象とするレコードを絞込むために行われる。

ここで、代表特徴データ照合手段８０により行われる代表特徴データの概念について説明しておく。図１４は、代表特徴データの概念を示す図である。代表特徴データは、図７、図１２に示したように、３２個の統合周波数帯に応じた値を持つ。したがって、各統合周波数帯を１次元とする３２次元構造をとることになる。代表特徴データを用いた絞込みでは、３２次元空間にプロットした検索音響データの代表検索特徴データと交わる代表登録特徴データを有する原音響データのみを絞り込み結果として抽出する。

図１４では、概念的に示すため、３２次元の代表特徴データのうち、ある２次元についてプロットしている。図１４において、黒丸は、音響データごとの平均値、黒丸を中心とした円は、黒丸から音響データごとの標準偏差を半径としている。そして、その円が検索音響データの円と交わらない原音響データを検索対象から除外し、その円が検索音響データの円と交わる原音響データのみを絞り込み結果として抽出する。そして、これを全３２次元について交わるものを抽出するか、所定数の次元で交わるものを抽出するかは、適宜設定することができる。本実施形態では、〔数式７〕〔数式１１〕に示したように、３２の周波数帯ごとに平均値と標準偏差で２次元化している。

続いて、代表特徴データ照合手段８０、特徴ワード照合手段９０による検索処理を、図１５〜図１９のフローチャートを用いて説明する。図１５〜図１９においては、各変数を以下のように定義する。

[登録特徴ワード]
Ｒ：レコード件数（音響データベース４０が管理する原音響データの数）
Ｙ（ｒ）：レコードｒ(ｒ＝０，…，Ｒ−１)の登録特徴ワード数
Ｆｄ（ｒ，ｙ）：レコードｒ(ｒ＝０，…，Ｒ−１)の特徴パターン配列（ｙ＝０，…，Ｙ−１）、３２ビット
Ｖｄ（ｒ，ｙ）：レコードｒ(ｒ＝０，…，Ｒ−１)の音量データ配列（ｙ＝０，…，Ｙ−１）、８ビット
Ｃｄ（ｎ，ｒ）：レコードｒ(ｒ＝０，…，Ｒ−１)における登録特徴データ配列の平均値
Ｌｄ（ｎ，ｒ）：レコードｒ(ｒ＝０，…，Ｒ−１)における登録特徴データ配列の標準偏差

[検索特徴ワード]
Ｘ（ｈ）：位相番号ｈ（ｈ＝０，…，Ｈ−１）における検索特徴ワード数
Ｆ（ｈ，ｘ）：特徴パターン配列（ｘ＝０，…，Ｘ（ｈ）−１）、３２ビット
Ｖ（ｈ，ｘ）：音量データ配列（ｘ＝０，…，Ｘ（ｈ）−１）、８ビット
Ｃ（ｎ）：検索特徴データ配列の平均値
Ｌ（ｎ）：検索特徴データ配列の標準偏差

[照合変数]
Ｗ：照合ワード数（ｗ＝０，…，Ｗ−１）、照合する登録特徴ワード、検索特徴ワードの数（例．Ｗ＝６）
Ｕ（ｒ）：代表特徴データ距離
Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）：特徴パターンのワード単位不一致ビット数（０以上３２以下）
Ｓ（ｒ，ｙ，ｈ，ｘ）：合算不一致ビット数、照合ワード数Ｗ個のワード単位不一致ビット数Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）を合算したもの（Σ_w=0,…,W-1Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ））

[判定しきい値（事前に設定）]
Ｍｕ：代表特徴データ距離Ｕ（ｒ）の判定しきい値
Ｍ１：合算不一致ビット数Ｓ（ｒ，ｙ，ｈｏ，ｘ）の判定しきい値
Ｍ２：合算不一致ビット数Ｓ（ｒ，ｙ，ｈ，ｘ）の判定しきい値
Ｍｗ１：ワード単位不一致ビット数Ｄ（ｒ，ｙ，ｈｏ，ｘ）の判定しきい値
Ｍｗ２：ワード単位不一致ビット数Ｄ（ｒ，ｙ，ｈ，ｘ）の判定しきい値

判定しきい値Ｍｕ、Ｍ１、Ｍ２、Ｍｗ１、Ｍｗ２については、以下のようにして、原音響データごとに求めることができる。Ｍｕは登録対象の原音響データに対して登録特徴ワードおよび代表登録特徴データを生成してレコードｒに登録する際に、原音響データより無作為に数箇所切り出した部分音響データを複数個作成し、各部分音響データに対して検索特徴ワードと代表検索特徴データを作成し、各々後述の数式１２に基づいて算出される代表特徴データ距離Ｕ（ｒ）を算出して、全てのレコードｒについて各々算出される複数の代表特徴データ距離Ｕ（ｒ）の最大値＋βをＭｕとして与える。（βは最大値より少し大きめに設定する言う意味で、例えばβ＝１）。これにより、少なくとも該当するレコードｒに対する代表特徴データ距離Ｕ（ｒ）はＭｕを超えることは無いため、代表特徴データ距離Ｕ（ｒ）がＭｕを超えれば該当しないレコードであると即判断できる。

Ｍ１とＭｗ１については、登録特徴ワードと複数の検索特徴ワードの各々と、ｈ＝ｈｏ固定にして、ワード単位不一致ビット数Ｄ（ｒ，ｙ，ｈｏ，ｘ）を後述する方法で所定のワード数だけ連続して算出し、それらの総和を基に合算不一致ビット数Ｓ（ｒ，ｙ，ｈｏ，ｘ）を算出し、この値が最も小さくなるときの最小合算不一致ビット数Ｓｍｉｎ（ｒ，ｙ，ｈｏ，ｘ）を算出するとともに、その時の総和の各要素Ｄ（ｒ，ｙ，ｈｏ，ｘ）の最大ワード単位不一致ビット数Ｄｍａｘ（ｒ，ｙ，ｈｏ，ｘ）を求め、複数の検索特徴ワードごとに求めたＳｍｉｎ（ｒ，ｙ，ｈｏ，ｘ）の最大値＋βをＭ１とし、Ｄｍａｘ（ｒ，ｙ，ｈｏ，ｘ）の最大値＋βをＭｗ１とする。

Ｍ２とＭｗ２については、登録特徴ワードと複数の検索特徴ワードの各々と、ｈを０からＨ−１の範囲で変化させながら、ワード単位不一致ビット数Ｄ（ｒ，ｙ，ｈ，ｘ）を後述する方法で所定のワード数だけ連続して算出し、それらの総和を基に合算不一致ビット数Ｓ（ｒ，ｙ，ｈ，ｘ）を算出し、この値が最も小さくなるときの最小合算不一致ビット数Ｓｍｉｎ（ｒ，ｙ，ｈ，ｘ）を算出するとともに、その時の総和の各要素Ｄ（ｒ，ｙ，ｈ，ｘ）の最大ワード単位不一致ビット数Ｄｍａｘ（ｒ，ｙ，ｈ，ｘ）を求め、複数の検索特徴ワードごとに求めたＳｍｉｎ（ｒ，ｙ，ｈ，ｘ）の最大値＋βをＭ２とし、Ｄｍａｘ（ｒ，ｙ，ｈ，ｘ）の最大値＋βをＭｗ１とする。

上記のような処理を、コンピュータに専用のプログラムを実行させることにより行い、レコードごとに異なる判定しきい値Ｍｕ、Ｍ１、Ｍ２、Ｍｗ１、Ｍｗ２を得ることができる。そして、全てのレコードに対して算出された各判定しきい値の最大値を、全てのレコードに共通な判定しきい値として設定する。本実施形態では、Ｍｕ＝３５０、Ｍ１＝７０、Ｍ２＝５４、Ｍｗ１＝２０、Ｍｗ２＝１３と与えている。例えば、レコード１がＭｕ＝３５０、Ｍ１＝６０、Ｍ２＝５４、Ｍｗ１＝１８、Ｍｗ２＝１３で、レコード２がＭｕ＝３００、Ｍ１＝７０、Ｍ２＝４４、Ｍｗ１＝２０、Ｍｗ２＝１２であれば、双方のレコードに共通な判定しきい値として、Ｍｕ＝３５０、Ｍ１＝７０、Ｍ２＝５４、Ｍｗ１＝２０、Ｍｗ２＝１３と与える。

図１５は、特徴ワード照合手段９０による検索特徴ワード群を用いた音響データ検索のフローチャートである。まず、初期設定を行う（Ｓ２１０）。具体的には、適合テーブルＳｍｉｎ（ｃ）＝初期値Ｂｉｇ２、適合テーブルＲｍｉｎ（ｃ）＝−１、適合件数ｃ＝０、レコード番号ｒ＝０に設定する。初期値Ｂｉｇ２は、最小不一致ビット数として取り得る値よりも十分に大きな値であれば良く、事前に設定されることになる。

次に、特徴ワード照合手段９０は、代表特徴データ距離Ｕ（ｒ）の算出を行う（Ｓ２１１）。具体的には、以下の〔数式１２〕に従った処理を実行し、レコードｒについての、代表登録特徴データと代表検索特徴データの距離である代表特徴データ距離Ｕ（ｒ）を算出する。

〔数式１２〕
Ｕ（ｒ）＝２５６×［Σ_n=0,…,31｛（Ｃｄ（ｎ，ｒ）−Ｃ（ｎ））／（Ｌｄ（ｎ，ｒ）＋Ｌ（ｎ））｝²］^1/2／［Σ_n=0,…,31｛Ｃｄ（ｎ，ｒ）／（Ｌｄ（ｎ，ｒ）＋Ｌ（ｎ））｝²］^1/4／［Σ_n=0,…,31｛（Ｃ（ｎ）／（Ｌｄ（ｎ，ｒ）＋Ｌ（ｎ））｝²］^1/4

上記〔数式１２〕では、[]で括った項が３つ存在するが、１番目の[]の平方根を、２番目の[]の４乗根、３番目の[]の４乗根で除したものに正規化のための係数“２５６”を乗じている。正規化のための係数は、正規化の範囲に合わせて適宜変更することが可能である。なお、上記〔数式１２〕において、“Σ_n=0,…,31”は、ｎ＝０から３１までｎを１ずつ増加させたときの３２個分の総和を意味する。［］で括った各項のべき乗根として、具体的に何乗にするかは適宜変更することができるが、本実施形態では、〔数式１２〕に示すように平方根、４乗根、４乗根としている。

上記〔数式１２〕は、代表検索特徴データと代表登録特徴データとの距離を示すが、双方の正規化相関係数を基に定義している。具体的には、代表検索特徴データの各要素ｎを検索特徴データ配列の平均値に対して検索特徴データ配列の標準偏差値と登録特徴データ配列の標準偏差値との和で３２個の各要素ごとに除して正規化した各値で定義し、（Ｃ（ｎ）／（Ｌｄ（ｎ，ｒ）＋Ｌ（ｎ））とする。同様に、代表登録特徴データの各要素を登録特徴データ配列の平均値に対して検索特徴データ配列の標準偏差値と登録特徴データ配列の標準偏差値との和で３２個の各要素ごとに除して正規化した各値で定義し、Ｃｄ（ｎ，ｒ）／（Ｌｄ（ｎ，ｒ）＋Ｌ（ｎ））とする。これら、３２個の要素どうしの正規化相関係数は、［Σ_n=0,…,31｛（Ｃｄ（ｎ，ｒ）−Ｃ（ｎ））／（Ｌｄ（ｎ，ｒ）＋Ｌ（ｎ））｝²］／［Σ_n=0,…,31｛Ｃｄ（ｎ，ｒ）／（Ｌｄ（ｎ，ｒ）＋Ｌ（ｎ））｝²］^1/2／［Σ_n=0,…,31｛（Ｃ（ｎ）／（Ｌｄ（ｎ，ｒ）＋Ｌ（ｎ））｝²］^1/2で与えられ、−１〜＋１の実数値をとる。上記〔数式１２〕では、この正規化相関係数値に所定の整数値２５６を乗算して整数表現にし、かつ整数値の変動範囲を拡大して該当レコードと非該当レコードとの格差をつけるため、平方根をとるようにした。このとき、正規化相関係数値をそのまま使用するか、平方根にするか、４乗根にするかは運用上の設計事項で適宜最適な方法を選択すれば良い。

代表特徴データ距離Ｕ（ｒ）は、図１４の検索音響データの円と、原音響データの円の距離に相当する。現実には、絞り込み結果として抽出する対象の決定を、図１４に示した円と円が交わった場合とするか円と円が所定の距離範囲内である場合とするか等適宜設定することができる。本実施形態では、〔数式１２〕により算出された代表特徴データ距離Ｕ（ｒ）と判定しきい値との比較により絞り込み対象を決定する。

次に、特徴ワード照合手段９０は、算出した代表特徴データ距離Ｕ（ｒ）と事前に設定されている判定しきい値Ｍｕの比較を行う（Ｓ２１２）。比較の結果、代表特徴データ距離Ｕ（ｒ）がしきい値Ｍｕ以上である場合は、Ｓ２５０に進み、ｒをインクリメントして、次のレコードｒ＋１についての処理を行う。代表特徴データ距離Ｕ（ｒ）が判定しきい値Ｍｕ以上である場合、そのレコードｒについての詳細な照合計算は行わないことになる。すなわち、本実施形態では、代表特徴データ距離Ｕ（ｒ）の値によって、検索対象の絞込みを行っていることになる。

Ｓ２１２における比較の結果、代表特徴データ距離Ｕ（ｒ）が判定しきい値Ｍｕより小さい場合は、レコードｒに対応付けて登録された登録特徴ワード群と、検索特徴ワード群との照合を行う（Ｓ２２０）。Ｓ２２０における照合の結果、所定の条件を満たすレコードについては、Ｒｍｉｎ（ｃ）にそのレコード番号ｒが与えられて出力される。このＳ２２０の処理については後述する。

Ｒｍｉｎ（ｃ）が得られたら、Ｒｍｉｎ（ｃ）が０以上かどうかを判断する（Ｓ２３０）。Ｒｍｉｎ（ｃ）が０以上の場合、レコードが適合したと判断して、適合件数ｃに１加算する処理を行う（Ｓ２４０）。Ｒｍｉｎ（ｃ）が０未満の場合、レコードが適合しなかったと判断して、適合件数ｃの加算は行わない。詳しくは後述するが、Ｓ２２０において、Ｒｍｉｎ（ｃ）に０未満の値を初期値として設定しておき、レコードが適合すると判断された場合に０以上の値であるレコード番号ｒをＲｍｉｎ（ｃ）に与える。このため、Ｓ２４０においては、Ｒｍｉｎ（ｃ）が０以上かどうかを判断することによりレコードの適合を判断するのである。

次に、レコードを特定する変数ｒをインクリメント、すなわち１だけ増加する（Ｓ２５０）。そして、レコードを特定する変数ｒが音響データベース４０内の総レコード数Ｒに達したかどうかを判断し（Ｓ２６０）、達していない場合は、Ｓ２２０に戻って、次のレコードｒについて照合処理を行う。各レコードｒについて処理を実行し、レコードｒが総レコード数Ｒに達したら、すなわちＲ個全ての総レコードに対する処理を終えたら、適合テーブルＲｍｉｎ（ｃ）を、適合テーブルＳｍｉｎ（ｃ）の値に基づいて昇順ソートし、適合件数ｃとともに一覧出力する（Ｓ２７０）。

次に、図１５のＳ２２０におけるレコードｒの照合処理の詳細について図１６のフローチャートを用いて説明する。まず、初期設定を行う（Ｓ２２１）。具体的には、適合テーブルＳｍｉｎ（ｃ）＝初期値Ｂｉｇ２、適合テーブルＲｍｉｎ（ｃ）＝−１、検索特徴ワードを特定する変数ｘ＝０、位相を特定する変数ｈ＝ｈｏ、登録特徴ワードを特定する変数ｙ＝０に設定する。ｈｏとしては、Ｈ＝５の場合、ｈｏ＝０，１，２，３，４のいずれかに設定することができるが、通常演算処理が最も少ないｈｏ＝０に設定する。続いて、合算不一致ビット数Ｓ（ｒ，ｙ，ｈｏ，ｘ）の算出を行う（Ｓ２２２）。合算不一致ビット数Ｓ（ｒ，ｙ，ｈｏ，ｘ）が得られたら、合算不一致ビット数Ｓ（ｒ，ｙ，ｈｏ，ｘ）が、判定しきい値Ｍ１以下であるかどうかを判断する（Ｓ２２３）。判定しきい値Ｍ１の値は、適宜設定することが可能であり、本実施形態では事前に設定されている。合算不一致ビット数Ｓ（ｒ，ｙ，ｈｏ，ｘ）が判定しきい値Ｍ１より大きい場合、Ｓ２２５に進み、ｘをインクリメントして、次の検索特徴ワードｘ＋１についての処理を行う。合算不一致ビット数Ｓ（ｒ，ｙ，ｈｏ，ｘ）が判定しきい値Ｍ１以下である場合、特定された（ｘ，ｙ）における登録特徴ワードｙと、検索特徴ワードｘとの照合を行う（Ｓ２２４）。

次に、変数ｘをインクリメントする（Ｓ２２５）。そして、ｘとＸ（ｈ）の比較を行う（Ｓ２２６）。比較の結果、ｘがＸ（ｈ）に達していない場合は、Ｓ２２２に戻って次の検索特徴ワードｘ＋１についての処理を行う。比較の結果、ｘがＸ（ｈ）に達している場合は、ｘ＝０としてｈをインクリメントして、Ｓ２２２〜Ｓ２２７の処理を繰り返し、Ｘ（ｈ）がＨになったら、ｘ＝０としてｙをインクリメントする（Ｓ２２７）。そして、ｙとＹ（ｒ）の比較を行う（Ｓ２２８）。比較の結果、ｙがＹ（ｒ）に達していない場合は、Ｓ２２２に戻って次の登録特徴ワードｙ＋１についての処理を行う。

比較の結果、ｙがＹ（ｒ）に達している場合は、Ｙ（ｒ）個全ての登録特徴ワードに対する処理を終えたことになるので、その時点における適合テーブルＲｍｉｎ（ｃ）、適合テーブルＳｍｉｎ（ｃ）を出力する。この適合テーブルＲｍｉｎ（ｃ）、適合テーブルＳｍｉｎ（ｃ）が図１５のＳ２２０において得られることになる。

次に、図１６のＳ２２２における合算不一致ビット数Ｓ（ｒ，ｙ，ｈｏ，ｘ）の算出処理の詳細について図１７のフローチャートを用いて説明する。まず、初期設定を行う（Ｓ２８１）。具体的には、合算不一致ビット数Ｓ（ｒ，ｙ，ｈｏ，ｘ）＝０、特徴ワードの照合個数を示す変数ｗ＝０に設定する。初期設定後、登録特徴ワードの音量データＶｄ（ｒ，ｙ＋ｗ）、検索特徴ワードの音量データＶ（ｈ，ｘ＋ｗ）がともに０より大きいという条件を満たすかどうかを判断する（Ｓ２８２）。登録特徴ワードの音量データＶｄ（ｒ，ｙ＋ｗ）、検索特徴ワードの音量データＶ（ｈ，ｘ＋ｗ）は、それぞれ原音響データ、検索音響データに対して〔数式５〕、〔数式９〕に従った処理を実行し、算出された“Vol”、“Vol(ｈ)”を正規化したものである。Ｓ２８２における判断の結果、登録特徴ワードの音量データＶｄ（ｒ，ｙ＋ｗ）、検索特徴ワードの音量データＶ（ｚ，ｈ，ｘ＋ｗ）がともに０より大きいという条件を満たす場合に限り、登録特徴ワード１つと検索特徴ワード１つを比較した場合の、不一致ビット数であるワード単位不一致ビット数Ｄ（ｒ，ｙ＋ｗ，ｈｏ，ｘ＋ｗ）を算出する（Ｓ２８３）。

次に、ワード単位不一致ビット数Ｄ（ｒ，ｙ＋ｗ，ｈｏ，ｘ＋ｗ）が判定しきい値Ｍｗ１以下であるかどうかを判断する（Ｓ２８４）。判定しきい値Ｍｗ１の値は、適宜設定することが可能であり、本実施形態では事前に設定されている。Ｓ２８４における判断の結果、ワード単位不一致ビット数Ｄ（ｒ，ｙ＋ｗ，ｈｏ，ｘ＋ｗ）が判定しきい値Ｍｗ１以下である場合に限り、ワード単位不一致ビット数Ｄ（ｒ，ｙ＋ｗ，ｈｏ，ｘ＋ｗ）を合算不一致ビット数Ｓ（ｒ，ｙ，ｈｏ，ｘ）に加算する処理を行う（Ｓ２８５）。

Ｓ２８５においては、特徴ワードの照合個数を示す変数ｗをインクリメントする処理も行う。そして、特徴ワードの照合個数を示す変数ｗが所定数Ｗに達したかどうかを判断し（Ｓ２８６）、達していない場合は、Ｓ２８２に戻って、次の特徴ワードについて処理を行う。各特徴ワードについて処理を実行し、変数ｗが所定数Ｗに達したら、その時点における合算不一致ビット数Ｓ（ｒ，ｙ，ｈｏ，ｘ）を、あるｘ，ｈ（＝０），ｙについての合算不一致ビット数Ｓ（ｒ，ｙ，ｈｏ，ｘ）として出力する。この合算不一致ビット数Ｓ（ｒ，ｙ，ｈｏ，ｘ）が図１６のＳ２２２において得られることになる。なお、Ｓ２８２、Ｓ２８４において条件を満たさないと判断された場合には、合算不一致ビット数の算出エラーが出力される。

次に、図１６のＳ２２４におけるレコード内照合処理の詳細について図１８のフローチャートを用いて説明する。まず、初期設定を行う（Ｓ３２１）。位相を特定する変数ｈ＝０に設定する。続いて、合算不一致ビット数Ｓ（ｒ，ｙ，ｈ，ｘ）の算出を行う（Ｓ３２２）。合算不一致ビット数Ｓ（ｒ，ｙ，ｈ，ｘ）が得られたら、合算不一致ビット数Ｓ（ｒ，ｙ，ｈ，ｘ）が、判定しきい値Ｍ２以下であるかどうかを判断する（Ｓ３２３）。判定しきい値Ｍ２の値は、適宜設定することが可能であり、本実施形態では事前に設定されている。合算不一致ビット数Ｓ（ｒ，ｙ，ｈ，ｘ）が判定しきい値Ｍ２以下である場合、合算不一致ビット数Ｓ（ｒ，ｙ，ｈ，ｘ）が、合算不一致ビット数最小値Ｓｍｉｎ（ｃ）より小さいかどうかを判断する（Ｓ３２４）。

合算不一致ビット数Ｓ（ｒ，ｙ，ｈ，ｘ）が合算不一致ビット数最小値Ｓｍｉｎ（ｃ）より小さい場合に限り、ｒの値を適合テーブルＲｍｉｎ（ｃ）にセットし、Ｓ（ｒ，ｙ，ｈ，ｘ）の値を適合テーブルＳｍｉｎ（ｃ）にセットする処理を行う（Ｓ３２５）。次に、変数ｈをインクリメントする（Ｓ３２６）。そして、ｈとＨの比較を行う（Ｓ３２７）。比較の結果、ｈがＨに達していない場合は、Ｓ３２２に戻って次の位相番号ｈ＋１についての処理を行う。

比較の結果、ｈがＨに達している場合は、Ｈ個全ての位相に対する処理を終えたことになるので、その時点における適合テーブルＲｍｉｎ（ｃ）、適合テーブルＳｍｉｎ（ｃ）を出力する。この適合テーブルＲｍｉｎ（ｃ）、適合テーブルＳｍｉｎ（ｃ）が図１６のＳ２２４において得られることになる。

次に、図１８のＳ３２２における合算不一致ビット数Ｓ（ｒ，ｙ，ｈ，ｘ）の算出処理の詳細について図１９のフローチャートを用いて説明する。まず、初期設定を行う（Ｓ３８１）。具体的には、合算不一致ビット数Ｓ（ｒ，ｙ，ｈ，ｘ）＝０、特徴ワードの照合個数を示す変数ｗ＝０に設定する。初期設定後、登録特徴ワードの音量データＶｄ（ｒ，ｙ＋ｗ）、検索特徴ワードの音量データＶ（ｈ，ｘ＋ｗ）がともに０より大きいという条件を満たすかどうかを判断する（Ｓ３８２）。Ｓ３８２における判断の結果、登録特徴ワードの音量データＶｄ（ｒ，ｙ＋ｗ）、検索特徴ワードの音量データＶ（ｚ，ｈ，ｘ＋ｗ）がともに０より大きいという条件を満たす場合に限り、登録特徴ワード１つと検索特徴ワード１つを比較した場合の、不一致ビット数であるワード単位不一致ビット数Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）を算出する（Ｓ３８３）。

次に、ワード単位不一致ビット数Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）が判定しきい値Ｍｗ２以下であるかどうかを判断する（Ｓ３８４）。判定しきい値Ｍｗ２の値は、適宜設定することが可能であり、本実施形態では事前に設定されている。Ｓ３８４における判断の結果、ワード単位不一致ビット数Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）が判定しきい値Ｍｗ２以下である場合に限り、ワード単位不一致ビット数Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）を合算不一致ビット数Ｓ（ｒ，ｙ，ｈ，ｘ）に加算する処理を行う（Ｓ３８５）。Ｓ３８５においては、特徴ワードの照合個数を示す変数ｗをインクリメントする処理も行う。そして、特徴ワードの照合個数を示す変数ｗが所定数Ｗに達したかどうかを判断し（Ｓ３８６）、達していない場合は、Ｓ３８２に戻って、次の特徴ワードについて処理を行う。各特徴ワードについて処理を実行し、変数ｗが所定数Ｗに達したら、その時点における合算不一致ビット数Ｓ（ｒ，ｙ，ｈ，ｘ）を、あるｘ，ｈ，ｙについての合算不一致ビット数Ｓ（ｒ，ｙ，ｈ，ｘ）として出力する。この合算不一致ビット数Ｓ（ｒ，ｙ，ｈ，ｘ）が図１８のＳ３２２において得られることになる。なお、Ｓ３８２、Ｓ３８４において条件を満たさないと判断された場合には、合算不一致ビット数の算出エラーが出力される。

＜３．３．ワード単位不一致ビット数の算出＞
図１７のＳ２８３、図１９のＳ３８３におけるワード単位不一致ビット数Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）の算出について説明する。ワード単位不一致ビット数Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）の算出については、利用者により設定される音量判定モードにより具体的な処理内容が異なる。音量判定モードとしては、Ｏｆｆ、Ｗｅｉｇｈｔ、Ｍａｔｃｈ、Ｂｏｔｈの４つが存在する。

＜３．３．１．音量判定モード“Ｏｆｆ”＞
音量判定モード“Ｏｆｆ”は重みを付加しないモードであり、音量判定モード“Ｏｆｆ”が設定されている場合、ワード単位不一致ビット数Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）は、そのままワード単位の相違の程度を示すワード単位相違度Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）となる。音量判定モード“Ｏｆｆ”の場合、ワード単位不一致ビット数Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）＝０として初期値を設定した後、Ｆｄ（ｒ，ｙ＋ｗ）とＦ（ｈ，ｘ＋ｗ）の３２ビットを対応するビット単位に順次比較し、ビットが異なるごとに、Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）に１加算していく。登録特徴ワード群、検索特徴ワード群のいずれにおいても、特徴ワードの特徴パターンは同様の規則で作成され、低周波成分をＬＳＢ、高周波成分をＭＳＢとした３２ビットの構成であるので、照合はこれらの各ビット値が一致するかどうかにより行うことができる。

＜３．３．２．音量判定モード“Ｗｅｉｇｈｔ”＞
音量判定モード“Ｗｅｉｇｈｔ”は重みを付加するモードであり、音量判定モード“Ｗｅｉｇｈｔ” が設定されている場合、ワード単位不一致ビット数Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）＝０として初期値を設定した後、Ｆｄ（ｒ，ｙ＋ｗ）とＦ（ｈ，ｘ＋ｗ）の３２ビットを対応するビット単位に順次比較する。比較の結果に基づき、以下の〔数式１３〕に従った処理を実行して、Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）の値を定める。この結果、Ｄ（ｙ＋ｗ，ｚ，ｈ，ｘ＋ｗ）はワード単位不一致ビット数ではなく、音量データを加味したワード単位の相違の程度を示すワード単位相違度となる。このモードは、登録特徴ワードと検索特徴ワードとの照合の際、検索特徴ワードの基礎となる検索音響データがアナログ変換などの信号処理を伴っていて、原音響データと音量の相対変化と音量の絶対値の双方が異なる場合に適切な照合結果を与える。

〔数式１３〕
Ｆｄ（ｒ，ｙ＋ｗ）側がビット１で、Ｆ（ｈ，ｘ＋ｗ）側がビット０の場合、
Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）←Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）＋Ｖｄ（ｒ，ｙ＋ｗ）・２／｛Ｖｄ（ｒ，ｙ＋ｗ）＋Ｖ（ｈ，ｘ＋ｗ）｝
Ｆｄ（ｒ，ｙ＋ｗ）側がビット０で、Ｆ（ｈ，ｘ＋ｗ）側がビット１の場合、
Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）←Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）＋Ｖ（ｈ，ｘ＋ｗ）・２／｛Ｖｄ（ｒ，ｙ＋ｗ）＋Ｖ（ｈ，ｘ＋ｗ）｝

＜３．３．３．音量判定モード“Ｍａｔｃｈ”＞
音量判定モード“Ｍａｔｃｈ”が設定されている場合、まず、音量判定モード“Ｏｆｆ”の場合の処理を行って、Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）を得る。そして、以下の〔数式１４〕に従った処理を実行することにより、重みを乗算してＤ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）の値を定める。この結果、Ｄ（ｙ＋ｗ，ｚ，ｈ，ｘ＋ｗ）はワード単位不一致ビット数ではなく、音量データの変動パターンの相違分を加味したワード単位の相違の程度を示すワード単位相違度となる。このモードは、登録特徴ワードと検索特徴ワードとの照合の際、検索特徴ワードの基礎となる検索音響データが各種データ圧縮などの信号処理を伴っていて、原音響データと音量の相対変化にはあまり相違がないが、絶対値が異なる場合に適切な照合結果を与える。本実施形態では本モードが最も推奨される。

〔数式１４〕
Ｖｄ（ｒ，ｙ＋ｗ）・Ｖｄ（ｒ，ｙ＋ｗ−１）＞Ｖ（ｈ，ｘ＋ｗ）・Ｖ（ｈ，ｘ＋ｗ−１）の場合、
Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）←Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）・Ｖｄ（ｒ，ｙ＋ｗ）・Ｖｄ（ｒ，ｙ＋ｗ−１）／｛Ｖ（ｈ，ｘ＋ｗ）・Ｖ（ｈ，ｘ＋ｗ−１）｝
Ｖｄ（ｒ，ｙ＋ｗ）・Ｖｄ（ｒ，ｙ＋ｗ−１）＜Ｖ（ｈ，ｘ＋ｗ）・Ｖ（ｈ，ｘ＋ｗ−１）の場合、
Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）←Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）・Ｖ（ｈ，ｘ＋ｗ）・Ｖ（ｈ，ｘ＋ｗ−１）／｛Ｖｄ（ｒ，ｙ＋ｗ）・Ｖｄ（ｒ，ｙ＋ｗ−１）｝

なお、ｗ＝０の場合、上記〔数式１４〕において、Ｖｄ（ｒ，ｙ＋ｗ−１）＝Ｖｄ（ｒ，ｙ＋ｗ）およびＶ（ｈ，ｘ＋ｗ−１）＝Ｖ（ｈ，ｘ＋ｗ）とする。

＜３．３．４．音量判定モード“Ｂｏｔｈ”＞
音量判定モード“Ｂｏｔｈ”が設定されている場合、まず、音量判定モード“Ｗｅｉｇｈｔ”の場合の処理を行って、Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）を得る。そして、以下の〔数式１５〕に従った処理を実行することにより、重みを乗算してＤ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）の値を定める。この結果、Ｄ（ｙ＋ｗ，ｚ，ｈ，ｘ＋ｗ）はワード単位不一致ビット数ではなく、音量データを加味したワード単位の相違の程度を示すワード単位相違度となる。このモードは、登録特徴ワードと検索特徴ワードとの照合の際、検索特徴ワードの基礎となる検索音響データが波形歪みを伴う高い圧縮率のデータ圧縮やアナログ変換などの信号処理を伴っていて、原音響データと音量の相対変化と音量の絶対値の双方が顕著に異なる場合に適切な照合結果を与える。

〔数式１５〕
Ｖｄ（ｒ，ｙ＋ｗ）・Ｖ（ｈ，ｘ＋ｗ−１）＞Ｖ（ｈ，ｘ＋ｗ）・Ｖｄ（ｒ，ｙ＋ｗ−１）の場合、
Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）←Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）・Ｖｄ（ｒ，ｙ＋ｗ）・Ｖ（ｈ，ｘ＋ｗ−１）／｛Ｖ（ｈ，ｘ＋ｗ）・Ｖｄ（ｒ，ｙ＋ｗ−１）｝
Ｖｄ（ｒ，ｙ＋ｗ）・Ｖ（ｈ，ｘ＋ｗ−１）＜Ｖ（ｈ，ｘ＋ｗ）・Ｖｄ（ｒ，ｙ＋ｗ−１）の場合、
Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）←Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）・Ｖ（ｈ，ｘ＋ｗ）・Ｖｄ（ｒ，ｙ＋ｗ−１）／｛Ｖｄ（ｒ，ｙ＋ｗ）・Ｖ（ｈ，ｘ＋ｗ−１）｝

なお、ｗ＝０の場合、上記〔数式１５〕において、Ｖｄ（ｒ，ｙ＋ｗ−１）＝Ｖｄ（ｒ，ｙ＋ｗ）およびＶ（ｈ，ｘ＋ｗ−１）＝Ｖ（ｈ，ｘ＋ｗ）とする。

音量判定モード“Ｏｆｆ”以外の場合、Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）はワード単位不一致ビット数ではなく、音量データを加味したワード単位の相違の程度を示すワード単位相違度となるため、図１６、図１７におけるＳ（ｒ，ｙ，ｈ，ｘ）は合算不一致ビット数ではなく、合算相違度を表すことになる。また、図１５、図１６におけるＳｍｉｎは最小不一致ビット数ではなく、最小相違度を表すことになる。

結局、図１５のＳ２７０において適合テーブルＲｍｉｎ（ｃ）が、適合テーブルＳｍｉｎ（ｃ）の値に基づいて昇順ソートされ、適合件数ｃとともに一覧出力されるので、これが検索音響データを用いて検索された検索結果となる。出力された一覧の中から１つが選択された場合には、情報出力手段１００は、そのレコードを音響データベース４０から抽出する。その際、原音響データの取得指示が行われると、情報出力手段１００は、レコードに記録されたファイル名から記憶装置内に格納されている当該原音響データに関連する関連情報や当該原音響データを特定するＩＤを出力する。

以上、本発明の好適な実施形態について説明したが、本発明は、上記実施形態に限定されず種々の変形が可能である。上記実施形態においては、様々な処理が組み合わされて、全体として処理負荷を抑えて、的確な検索を行うことを可能としているが、複数の処理の組み合わせのうち１以上の処理を省略することが可能である。この場合、処理負荷が若干増えたり、検索精度が若干低下したりすることになるが、本発明の効果は充分発揮することができる。例えば、上記実施形態では、照合範囲決定手段７０は、図１３（ａ）〜（ｅ）に示した全ての場合に対応して照合範囲を決定するようにしたが、図１３（ａ）〜（ｅ）のいずれか１つ以上に対応した処理を実行するようにしても良い。できれば、図１３（ａ）（ｂ）の２つの処理を含むようにするのが望ましい。

また、上記実施形態では、図１６、図１８に示したように、特徴ワード照合手段９０は、位相ｈを特定した状態で第１の照合を行い、第１の照合の結果、相違の程度である相違度が、所定の判定しきい値Ｍ１より小さい場合に、位相ｈを変更しながら行う第２の照合を実行するようにしたが、このような２段階の照合処理とせずに、位相を変化させる第２の照合のみを行うようにしても良い。第２の照合のみの場合は、処理負荷が増加することになるが、照合精度は変化しないため、代表特徴データ照合手段８０による照合対象の絞り込みにより、本発明の効果は得ることができる。

また、上記実施形態では、図１６、図１７に示したように、特徴ワード照合手段９０は、Ｗ個のワード単位不一致ビット数Ｄ（ｒ，ｙ＋ｗ，ｈｏ，ｘ＋ｗ）が全て判定しきい値Ｍｗ１より小さい場合に、合算不一致ビット数Ｓ（ｒ，ｙ，ｈｏ，ｘ）が、判定しきい値Ｍ１以下であるかどうかを判断し、図１８、図１９に示したように、特徴ワード照合手段９０は、Ｗ個のワード単位不一致ビット数Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）が全て判定しきい値Ｍｗ２より小さい場合に、合算不一致ビット数Ｓ（ｒ，ｙ，ｈ，ｘ）が、判定しきい値Ｍ２以下であるかどうかを判断するようにしたが、いずれの場合も、ワード単位不一致ビット数Ｄが、判定しきい値Ｍｗ１、Ｍｗ２以下であるかどうかの判定を省略しても良い。ワード単位不一致ビット数Ｄの判定を省略した場合、個々の特徴ワードの差が大きいものが含まれる可能性があるが、全体として相違度Ｍ１、Ｍ２以下であれば、両者が類似していることの許容範囲とすることもできるためである。また、Ｗ個のワード単位不一致ビット数Ｄ（ｒ，ｙ＋ｗ，ｈｏ，ｘ＋ｗ）が全て判定しきい値Ｍｗ１より小さいかどうかの判断、および合算不一致ビット数Ｓ（ｒ，ｙ，ｈｏ，ｘ）が、判定しきい値Ｍ１以下であるかどうかの判断を省略し、Ｗ個のワード単位不一致ビット数Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）が全て判定しきい値Ｍｗ２より小さく、合算不一致ビット数Ｓ（ｒ，ｙ，ｈ，ｘ）が、判定しきい値Ｍ２以下であるかどうかだけを判断するようにしても良い。

また、上記実施形態では、照合範囲決定手段７０により登録特徴ワードの照合範囲を決定する処理を行ったが、処理負荷を特に抑える必要がない場合は、この処理は必ずしも行う必要はない。

また、上記実施形態では、統合後の周波数バンドの数をｎ＝０〜３１までの３２バンドとしたが、状況に応じて適宜増減することが可能である。

また、上記実施形態では、音量判定モードとして４つのモードを選択可能としたが、上記４つのモードのうち、２つまたは３つのモードが選択可能に設定されていても良いし、１つのモードが固定的に設定されていても良い。

また、上記実施形態では、著作権上の問題から原音響データを音響データベースに登録しない場合について説明したが、原音響データそのものを関連情報の一部として音響データベースに登録しておき、検索の結果、抽出されたレコードに対応する原音響データを取得するようにしても良い。

本発明は、ＣＤ・ＤＶＤ等を用いた民生・業務用途における鑑賞用のパッケージ音楽分野、放送事業者等が商業目的で配信する放送・ネットワーク音楽配信分野における音楽著作権の保護（不正コピーの監視）および音楽属性情報の提供（楽曲タイトル検索サービス）等の産業に利用可能である。

２ａ、３ａ・・・ＣＰＵ
２ｂ、３ｂ・・・ＲＡＭ
２ｃ、３ｃ・・・データ記憶装置
２ｄ、３ｄ・・・プログラム記憶装置
２ｅ、３ｅ・・・キー入力Ｉ／Ｆ
２ｆ、３ｆ・・・データ入出力Ｉ／Ｆ
２ｇ、３ｇ・・・表示出力Ｉ／Ｆ
１０・・・登録特徴ワード生成手段
２０・・・代表登録特徴データ生成手段
３０・・・登録手段
４０・・・音響データベース
４５・・・モード設定手段
５０・・・検索特徴ワード生成手段
６０・・・代表検索特徴データ生成手段
７０・・・照合範囲決定手段
８０・・・代表特徴データ照合手段
９０・・・特徴ワード照合手段
１００・・・情報出力手段

Claims

与えられた音響データである検索音響データの特徴と、音響データベースに登録された原音響データの特徴との照合を行って、前記検索音響データに関連する関連情報を音響データベースから検索する装置であって、
各原音響データについて、その特徴パターンを表現した登録特徴ワードの集合である登録特徴ワード群と、当該登録特徴ワード群を用いて生成された代表登録特徴データと、当該原音響データに関連する関連情報を登録した音響データベースと、
前記検索音響データに対して、所定の区間単位で、各区間における検索音響データの特徴パターンを表現した検索特徴ワードを位相ｈを変更しながらＨ通り生成し、当該検索特徴ワードの集合である特徴ワード群をＨ通り得る検索特徴ワード生成手段と、
前記生成されたＨ通りの検索特徴ワード群を用いて代表検索特徴データを生成する代表検索特徴データ生成手段と、
前記代表検索特徴データと前記音響データベースに登録された代表登録特徴データとの照合を行う代表特徴データ照合手段と、
前記代表特徴データ照合手段による照合の結果、前記代表検索特徴データと前記代表登録特徴データの相違が所定の範囲内であると判断される場合に、前記検索特徴ワード群と、前記音響データベースに登録された登録特徴ワード群との照合を、前記位相ｈを変更しながら行い、照合の結果、前記登録特徴ワード群と前記検索特徴ワード群とが最も適合する位相ｈにおける最小の相違の程度である最小相違度Ｓｍｉｎが、所定の判定しきい値Ｍ２より小さい場合に、当該登録特徴ワード群に対応する原音響データを選出対象として特定する特徴ワード照合手段と、
を有することを特徴とする音響データの関連情報検索装置。
請求項１において、
前記特徴ワード照合手段は、前記検索特徴ワード群と、前記登録特徴ワード群との照合を、前記位相ｈを変更せずに行う処理を追加し、前記登録特徴ワード群と前記検索特徴ワード群との相違の程度である相違度Ｓが、判定しきい値Ｍ１より小さい場合に限り、前記検索特徴ワード群と前記登録特徴ワード群との照合を、前記位相ｈを変更しながら行う処理を実行するようにしたことを特徴とする音響データの関連情報検索装置。
請求項１または請求項２において、
前記代表登録特徴データは、前記登録特徴ワードの特徴パターンＦ(ｙ)の各周波数帯ｎにおける値に基づいて音量データＶ(ｙ)の値を変化させて得られる登録特徴データ配列Ｚ(ｎ, ｙ)を、各周波数帯ｎごとに、全登録特徴ワードｙについて演算することにより得られる平均値Ｃｄ（ｎ，ｒ）、標準偏差Ｌｄ（ｎ，ｒ）で構成され、
前記代表検索特徴データは、前記検索特徴ワードの特徴パターンＦ(ｈ, ｘ)の各周波数帯ｎにおける値に基づいて音量データＶ(ｈ, ｘ)の値を変化させて得られる検索特徴データ配列Ｚ(ｎ, ｈ, ｘ) を、各周波数帯ごとに、全検索特徴ワードｘ、全位相ｈについて演算することにより得られる平均値Ｃ（ｎ）、標準偏差Ｌ（ｎ）であり、
前記代表特徴データ照合手段は、前記平均値Ｃｄ（ｎ，ｒ）、標準偏差Ｌｄ（ｎ，ｒ）、平均値Ｃ（ｎ）、標準偏差Ｌ（ｎ）を用いて算出される代表特徴データ距離Ｕ（ｒ）と所定のしきい値Ｍｕとの比較を行うことにより照合を行うものであることを特徴とする音響データの関連情報検索装置。
請求項３において、
前記代表特徴データ距離Ｕ（ｒ）は、前記平均値Ｃｄ（ｎ，ｒ）と前記平均値Ｃ（ｎ）の差分を前記標準偏差Ｌｄ（ｎ，ｒ）と前記標準偏差Ｌ（ｎ）の和で除したものを基礎とする全てのｎについての総和を第１項、前記平均値Ｃｄ（ｎ，ｒ）を前記標準偏差Ｌｄ（ｎ，ｒ）と前記標準偏差Ｌ（ｎ）の和で除したものを基礎とする全てのｎについての総和を第２項、前記平均値Ｃ（ｎ）を前記標準偏差Ｌｄ（ｎ，ｒ）と前記標準偏差Ｌ（ｎ）の和で除したものを基礎とする全てのｎについての総和を第３項とし、第１項のべき乗根を、第２項のべき乗根、第３項のべき乗根で除した値に基づくものであることを特徴とする音響データの関連情報検索装置。
請求項１から請求項４のいずれか一項において、
前記特徴ワード照合手段は、位相ｈを変更しながらＷ個の特徴ワード同士で照合を行い、１特徴ワード同士のワード単位相違度Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）が、Ｗ回の照合で全て所定の判定しきい値Ｍｗ２より小さい場合に、Ｗ個のワード単位相違度Ｄ（ｒ，ｙ＋ｗ，ｈ，ｘ＋ｗ）の総和である合算相違度Ｓ（ｒ，ｙ，ｈ，ｘ）と前記判定しきい値Ｍ２と比較することを特徴とする音響データの関連情報検索装置。
請求項１から請求項５のいずれか一項に記載の音響データの関連情報検索装置として、コンピュータを機能させるためのプログラム。