JP5454161B2 - Acoustic data related information registration device and acoustic data related information search device - Google Patents

Acoustic data related information registration device and acoustic data related information search device Download PDF

Info

Publication number
JP5454161B2
JP5454161B2 JP2010009310A JP2010009310A JP5454161B2 JP 5454161 B2 JP5454161 B2 JP 5454161B2 JP 2010009310 A JP2010009310 A JP 2010009310A JP 2010009310 A JP2010009310 A JP 2010009310A JP 5454161 B2 JP5454161 B2 JP 5454161B2
Authority
JP
Japan
Prior art keywords
feature word
registered
acoustic
data
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010009310A
Other languages
Japanese (ja)
Other versions
JP2011150015A (en
Inventor
敏雄 茂出木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2010009310A priority Critical patent/JP5454161B2/en
Publication of JP2011150015A publication Critical patent/JP2011150015A/en
Application granted granted Critical
Publication of JP5454161B2 publication Critical patent/JP5454161B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、楽曲等の音楽のデータを記録した音響データに関する関連情報を音響データベースに登録する装置、および音響データベースから音響データに関する関連情報を検索する装置に関する。   The present invention relates to an apparatus that registers related information related to acoustic data in which music data such as music is recorded in an acoustic database, and an apparatus that searches related information related to acoustic data from the acoustic database.

最近、流れている音楽のタイトル等を知ることができる楽曲属性情報の提供サービスとして、放送された音楽に対して日時と地域を放送局に照会したり、携帯電話で流れている音楽断片を録音してデータベースに登録されているメロディーと照合したりするサービスが実用化されている(例えば、特許文献1、2参照)。一方、出願人も、音響信号(マイクロフォンで録音したアナログ音響信号を含む。コンピュータ等で処理可能なデジタル化された信号については、以降、「音響データ」という表現にする。)の所定区間の特徴を所定バイト数の特徴ワードに変換し、この特徴ワードを複数個で1セットとし、1セット内の特徴ワードと、データベースに登録されている登録特徴ワードとを照合する処理を順次行って、ビット合致度が高いレコードを抽出することにより、録音により取得したメロディーとデータベースに登録されているメロディーとの照合処理を高速に行う技術を提案している(特許文献3参照)。この際、照合処理において、一律なしきい値により合致度が高いかどうかの判定を行い、かつ合致度が最小である単一のレコードを抽出するようにしていた。   As a service to provide music attribute information that allows you to know the titles of music that has been played recently, you can query the broadcast station for the date and time of the broadcast music, and record music fragments that are being played on mobile phones. Services that collate with melodies registered in the database have been put into practical use (see, for example, Patent Documents 1 and 2). On the other hand, the applicant also has characteristics of a predetermined section of an acoustic signal (including an analog acoustic signal recorded with a microphone. A digitized signal that can be processed by a computer or the like is hereinafter referred to as “acoustic data”). Is converted into a feature word of a predetermined number of bytes, a plurality of feature words are made into one set, a process of sequentially comparing the feature words in one set and the registered feature words registered in the database, A technique has been proposed in which a record having a high degree of matching is extracted to perform a collation process between a melody obtained by recording and a melody registered in a database at high speed (see Patent Document 3). At this time, in the matching process, it is determined whether or not the matching degree is high based on a uniform threshold value, and a single record having the smallest matching degree is extracted.

特表2004−536348号公報JP-T-2004-536348 特表2004−537760号公報JP-T-2004-537760 特開2007−226071号公報JP 2007-226071 A

しかしながら、上記従来の手法では、検索キーとする音響信号(アナログ音響信号を含む)と、登録されている音響データの時間的な位置合わせを完璧に行うことは原理的に不可能なため若干の位置ズレの発生は避けられず、そのわずかな位置ズレにより、個々の楽曲に依存しない一律なしきい値で判定すると検索漏れが発生し、前記しきい値に適合する全ての複数の楽曲を検索しようとすると過剰検索が発生し、目的とする楽曲を的確に抽出できないという問題がある。   However, in the above conventional method, it is impossible in principle to perfectly align the acoustic signal (including the analog acoustic signal) used as a search key with the registered acoustic data, so there is a slight possibility. Occurrence of misalignment is inevitable, and due to the slight misregistration, search failure occurs when judgment is made with a uniform threshold value independent of individual songs, so let's search for all multiple songs that match the threshold value Then, excessive search occurs, and there is a problem that the target music cannot be extracted accurately.

そこで、本発明は、楽曲等の音響データを用いて、音響データベースに登録されている前記音響データに関連する関連情報を過不足なく検索することが可能な音響データの関連情報検索装置を提供することを課題とする。   Therefore, the present invention provides a related information search device for acoustic data, which can search for related information related to the acoustic data registered in the acoustic database using acoustic data such as music without excess or deficiency. This is the issue.

上記課題を解決するため、本発明第1の態様では、与えられた原音響データから、その特徴を表現した特徴ワードを作成し、特徴ワードとともに前記原音響データに関連する関連情報を音響データベースに登録する装置であって、前記原音響データに対して、所定の長さの単位区間を設定し、当該単位区間を解析した情報を基に、原音響データの特徴パターンを表現した特徴ワードの集合である特徴ワード群を登録特徴ワード群として生成する登録特徴ワード生成手段と、前記原音響データに対して、部分的に切り出して部分音響データを得て、当該部分音響データに対して、所定の長さの単位区間を設定し、当該単位区間を解析した情報を基に、部分音響データの特徴パターンを表現した特徴ワードの集合である特徴ワード群を部分特徴ワード群として生成する部分特徴ワード生成手段と、前記登録特徴ワード群と部分特徴ワード群との時間的な位置関係をずらしながら両者間で照合を行い、前記登録特徴ワード群と部分特徴ワード群とが最も適合する位置条件における最小の相違の程度である最小相違度に基づいて、最適判定しきい値を算出する判定しきい値算出手段と、前記登録特徴ワード群および最適判定しきい値を、前記原音響データを特定する情報に対応付けて前記音響データベースに登録する登録手段を有する音響データの関連情報登録装置を提供するとともに、与えられた音響データの特徴と、音響データベースに登録された原音響データの特徴との照合を行って、与えられた音響データに関連する関連情報を音響データベースから検索する装置であって、各原音響データについて、その特徴パターンを表現した登録特徴ワードの集合である登録特徴ワード群と、当該原音響データの最適判定しきい値および当該原音響データに関連する関連情報を登録した音響データベースと、前記与えられた音響データである検索音響データに対して、所定の区間単位で、当該区間単位における検索音響データの特徴パターンを表現した特徴ワードの集合である特徴ワード群を検索特徴ワード群として生成する検索特徴ワード生成手段と、前記検索特徴ワード群と、前記音響データベースに登録された登録特徴ワード群との時間的な位置関係をずらしながら両者間で照合を行い、前記登録特徴ワード群と前記検索特徴ワード群とが最も適合する位置条件における最小の相違の程度である最小相違度が、前記登録特徴ワード群ごとに登録された最適判定しきい値より小さい場合に、当該登録特徴ワード群に対応する原音響データの関連情報を前記検索音響データに対する関連情報の候補として選出する特徴ワード照合手段を有する音響データの関連情報検索装置を提供する。   In order to solve the above-described problem, in the first aspect of the present invention, a feature word expressing the feature is created from the given original sound data, and related information related to the original sound data is stored in the sound database together with the feature word. A set of feature words expressing a characteristic pattern of original sound data based on information obtained by setting a unit section of a predetermined length for the original sound data and analyzing the unit section. A registered feature word generation unit that generates a feature word group as a registered feature word group, and a partial cutout of the original sound data to obtain a partial sound data. A feature word group, which is a set of feature words representing feature patterns of partial acoustic data, is set based on information obtained by setting a unit section of length and analyzing the unit section. A partial feature word generating means for generating a group of words, collating between the registered feature word group and the partial feature word group while shifting the temporal positional relationship between the registered feature word group and the partial feature word group, Is based on a minimum difference that is the degree of the minimum difference in the position condition that best fits, a determination threshold value calculation means for calculating an optimum determination threshold value, the registered feature word group and the optimum determination threshold value, Provided is a related information registration device for acoustic data having registration means for registering in the acoustic database in association with information for specifying the original acoustic data, and features of the given acoustic data and the original data registered in the acoustic database. A device that performs matching with the characteristics of the acoustic data and retrieves related information related to the given acoustic data from the acoustic database. For the data, a registered feature word group that is a set of registered feature words representing the feature pattern, an acoustic database in which the optimum determination threshold of the original sound data and related information related to the original sound data are registered, and A feature word group, which is a set of feature words representing a feature pattern of the search sound data in the section unit, is generated as a search feature word group in a predetermined section unit for the search acoustic data that is given acoustic data. The search feature word generation means, the search feature word group, and the registered feature word group registered in the acoustic database are collated with each other while shifting the temporal positional relationship, and the registered feature word group and the search The minimum difference degree, which is the degree of the minimum difference in the position condition that best matches the feature word group, is the registered feature word. And a feature word collating unit that selects related information of the original sound data corresponding to the registered feature word group as a candidate of related information for the search sound data when the threshold value is smaller than the optimum determination threshold value registered for each group. Provided is a related information retrieval apparatus for acoustic data.

本発明第1の態様によれば、原音響データを単位区間ごとに解析した情報を基に、その特徴パターンを表現した登録特徴ワード群を生成するとともに、原音響データから部分的に切り出した部分音響データから、その特徴パターンを表現した部分特徴ワード群を生成し、登録特徴ワード群と部分特徴ワード群との時間的な位置関係をずらしながら両者間で照合を行い、両者が最も適合する位置条件における最小値を与える最小相違度に基づいて、最適判定しきい値を算出して原音響データと対応付けてデータベースに登録しておき、検索の際には、保有していて検索に用いることが可能な検索音響データからその特徴パターンを表現した検索特徴ワード群を生成し、この検索特徴ワード群と、データベースに登録された登録特徴ワード群との時間的な位置関係をずらしながら両者間で照合を行い、両者が最も適合する位置条件における最小値を与える最小相違度が、登録特徴ワードごとに登録された判定判定しきい値より小さい場合に、その登録特徴ワード群に対応する原音響データの関連情報を前記検索音響データの関連情報の候補として選出するようにしたので、楽曲等の検索音響データを用いて、音響データベースに登録されている原音響データに関連する関連情報を前記検索音響データの関連情報として過不足なく検索することが可能となる。   According to the first aspect of the present invention, on the basis of information obtained by analyzing original sound data for each unit section, a registered feature word group expressing the feature pattern is generated, and a part partially cut out from the original sound data A partial feature word group that expresses the feature pattern is generated from the acoustic data, and the matching is performed between the registered feature word group and the partial feature word group while shifting the temporal positional relationship between the two. Based on the minimum dissimilarity that gives the minimum value in the conditions, the optimum judgment threshold value is calculated and associated with the original sound data and registered in the database. A search feature word group expressing the feature pattern is generated from search acoustic data that can be stored, and the search feature word group and a registered feature word group registered in the database When the minimum dissimilarity that gives the minimum value in the position condition that best suits both is smaller than the judgment judgment threshold registered for each registered feature word Since the related information of the original sound data corresponding to the registered feature word group is selected as a candidate of the related information of the search sound data, the original information registered in the sound database using the search sound data such as music is used. The related information related to the sound data can be searched as the related information of the search sound data without excess or deficiency.

また、本発明第2の態様では、本発明第1の態様の音響データの関連情報登録装置において、前記部分特徴ワード群は互いに切り出し位置が異なる複数の部分音響データに基づいて複数群生成され、前記判定しきい値算出手段は、前記登録特徴ワード群と各部分特徴ワード群との時間的な位置関係をずらしながら両者間でビット単位で照合し、前記登録特徴ワード群と各部分特徴ワード群とが最も適合する位置条件における最小値を与える最小相違度として、最小不一致ビット数を各部分特徴ワード群ごとに求め、前記部分特徴ワード群ごとに算出された最小不一致ビット数の平均値に基づいて最適判定しきい値を算出することを特徴とし、本発明第1の態様の音響データの関連情報検索装置において、前記特徴ワード照合手段は、前記登録特徴ワード群と検索特徴ワード群との時間的な位置関係をずらしながら両者間でビット単位で照合し、前記登録特徴ワード群と検索特徴ワード群とが最も適合する位置条件における最小値を与える最小相違度として、最小不一致ビット数を求めることを特徴とする。   Further, in the second aspect of the present invention, in the related information registration device for acoustic data according to the first aspect of the present invention, the partial feature word group is generated based on a plurality of partial acoustic data whose cut positions are different from each other, The determination threshold value calculation unit collates the registered feature word group and each partial feature word group in bit units while shifting the temporal positional relationship between the registered feature word group and each partial feature word group. As the minimum dissimilarity that gives the minimum value in the position condition that best matches, the minimum number of mismatch bits is obtained for each partial feature word group, and based on the average value of the minimum mismatch bits calculated for each partial feature word group And calculating an optimum determination threshold value. In the related information search apparatus for acoustic data according to the first aspect of the present invention, the feature word collating means includes the registration The minimum which gives the minimum value in the position condition where the registered feature word group and the search feature word group are best matched by shifting the temporal positional relationship between the collected word group and the search feature word group in bit units between them. As the degree of difference, the minimum number of mismatch bits is obtained.

本発明第2の態様によれば、音響データの関連情報登録装置において、登録特徴ワード群と複数の部分特徴ワード群との時間的な位置関係をずらしながら両者間でビット単位で照合し、両者が最も適合する位置条件における最小値となる最小不一致ビット数を各部分特徴ワード群ごとに求め、各部分特徴ワード群ごとに求めた最小不一致ビット数の平均値に基づいて最適判定しきい値を決定するようにしたので、高精度に最適判定しきい値を求めることが可能となり、また、音響データの関連情報検索装置において、登録特徴ワード群と検索特徴ワード群との時間的な位置関係をずらしながら両者間でビット単位で照合し、両者が最も適合する位置条件における最小値となる最小不一致ビット数を求め、この最小不一致ビット数を用いて、データベースに登録された最適判定しきい値と比較するようにしたので、高精度に照合処理を行うことが可能となる。   According to the second aspect of the present invention, in the related information registration apparatus for acoustic data, both of the registered feature word group and the plurality of partial feature word groups are collated in bit units while shifting the temporal positional relationship between the two. Is determined for each partial feature word group, and the optimum judgment threshold is determined based on the average value of the minimum mismatch bit numbers obtained for each partial feature word group. As a result, it is possible to obtain an optimum determination threshold value with high accuracy, and in the related information search device for acoustic data, the temporal positional relationship between the registered feature word group and the search feature word group can be determined. The two are collated with each other while shifting, and the minimum number of unmatched bits that is the minimum value in the position condition where the two are most suitable is obtained. Since as compared with registered optimal determination threshold to database, it is possible to perform the matching process with high accuracy.

また、本発明第3の態様では、本発明第1の態様の音響データの関連情報登録装置において、前記特徴パターンは、所定の周波数範囲ごとの強度を示したものであり、前記特徴ワードは、前記特徴パターンに加え、音量データを有し、前記部分特徴ワード群は互いに切り出し方が異なる複数の部分音響データに基づいて複数群生成され、前記判定しきい値算出手段は、前記登録特徴ワードと各部分特徴ワードとの時間的な位置関係をずらしながら両者間で特徴パターンをビット単位で照合して不一致ビット数を求めた後、各特徴ワードの音量データに基づく重みを前記不一致ビット数に加算または乗算して重み付け不一致ビット数を算出し、両者が最も適合する位置条件における最小値となる最小重み付け不一致ビット数を各特徴ワード群ごとに前記最小相違度として与え、当該最小相違度の前記部分特徴ワード群ごとの平均値に基づいて最適判定しきい値を算出することを特徴とし、本発明第1の態様の音響データの関連情報検索装置において、前記特徴パターンは、所定の周波数範囲ごとの強度を示したものであり、前記特徴ワードは、前記特徴パターンに加え、音量データを有し、前記特徴ワード照合手段は、前記登録特徴ワード群と検索特徴ワード群との時間的な位置関係をずらしながら両者間で特徴パターンをビット単位で照合して不一致ビット数を求めた後、各特徴ワードの音量データに基づく重みを前記不一致ビット数に加算または乗算して重み付け不一致ビット数を算出し、両者が最も適合する位置条件における最小値となる最小重み付け不一致ビット数を前記最小相違度として求めることを特徴とする。
In the third aspect of the present invention, in the related information registration apparatus for acoustic data according to the first aspect of the present invention, the feature pattern indicates intensity for each predetermined frequency range, and the feature word is added before Kitoku symptom patterns have the volume data, the partial characteristic word group the way cut each other is generated plurality of groups based on a plurality of different partial sound data, the determination threshold calculation means, said registered feature After shifting the temporal positional relationship between the word and each partial feature word, the feature pattern between the two is collated in bit units to obtain the number of mismatch bits, and then the weight based on the volume data of each feature word is set to the number of mismatch bits Is added or multiplied to calculate the number of weighted mismatch bits, and the minimum weighted mismatch bit number that is the minimum value in the position condition where the two match best is determined for each feature word group. And the optimum determination threshold value is calculated based on an average value for each partial feature word group of the minimum difference degree, and the related information of the acoustic data according to the first aspect of the present invention in search device, the characteristic pattern, which shows the intensity for each predetermined frequency range, the characteristic word is added before Kitoku symptom patterns have the volume data, the feature word collating means, said After shifting the temporal positional relationship between the registered feature word group and the search feature word group, the feature pattern is collated in bit units between the two to obtain the number of mismatch bits, and the weight based on the volume data of each feature word is The number of weighted mismatch bits is calculated by adding or multiplying the number of mismatch bits, and the minimum weight mismatch bit number that is the minimum value in the position condition in which both are most suitable is calculated as the maximum number. And obtaining a degree of difference.

本発明第3の態様によれば、特徴ワードが音量データを有し、関連情報登録装置において、特徴パターンどうしで不一致ビット数を求めた後、音量データに基づく重みを不一致ビット数に加算または乗算して重み付け不一致ビット数を算出し、この最小値を最小相違度として求め、この最小相違度の部分特徴ワードごとの平均値を最適判定しきい値としたので、音量データの変動を加味した最適判定しきい値を求めることが可能となり、また、音響データの関連情報検索装置において、特徴パターンどうしで最小不一致ビット数を求めた後、音量データに基づく重みを不一致ビット数に加算または乗算して重み付け不一致ビット数を算出し、この最小値を最小相違度として求め、この最小相違度を用いて、音響データベースに登録された最適判定しきい値と比較するようにしたので、音量データの変動を加味した照合処理を行うことが可能となる。   According to the third aspect of the present invention, the feature word has volume data, and the related information registration apparatus obtains the mismatch bit number between the feature patterns, and then adds or multiplies the weight based on the volume data to the mismatch bit number. Thus, the number of weighted mismatch bits is calculated, the minimum value is obtained as the minimum dissimilarity, and the average value for each partial feature word of the minimum dissimilarity is used as the optimum determination threshold value. It is possible to obtain a determination threshold value, and in a related information retrieval apparatus for acoustic data, after obtaining a minimum mismatch bit number between feature patterns, a weight based on volume data is added to or multiplied by a mismatch bit number. The number of weighted mismatch bits is calculated, and the minimum value is obtained as the minimum dissimilarity. Using this minimum dissimilarity, the optimum registered in the acoustic database is obtained. Since as compared with constant threshold, it is possible to perform collation processing in consideration of variations in the volume data.

また、本発明第4の態様では、本発明第1から第3のいずれかの態様の音響データの関連情報登録装置において、前記音響データベースは互いに重複しない最適判定しきい値の範囲が設定された複数の分割音響データベースにより構成されており、前記登録手段は、前記判定しきい値算出手段により算出された最適判定しきい値に応じて、対応する分割音響データベースに、前記登録特徴ワード群、最適判定しきい値および前記原音響データに関連する関連情報を登録することを特徴とし、本発明第1から第3のいずれかの態様の音響データの関連情報検索装置において、前記音響データベースは、複数の分割音響データベースにより構成されており、前記特徴ワード照合手段は前記複数の分割音響データベースに対応して複数個で構成され、前記各分割音響データベースに対して並行して照合を行い、当該登録特徴ワード群に対応する原音響データの関連情報を前記検索音響データの関連情報の候補として選出することを特徴とする。   In the fourth aspect of the present invention, in the acoustic data related information registration apparatus according to any one of the first to third aspects of the present invention, the acoustic database has an optimum determination threshold range that does not overlap each other. The registration unit is configured by a plurality of divided acoustic databases, and the registration unit stores the registered feature word group, the optimum in the corresponding divided acoustic database according to the optimum determination threshold calculated by the determination threshold calculation unit. The determination threshold value and related information related to the original sound data are registered, and in the related information search device for sound data according to any one of the first to third aspects of the present invention, the sound database includes a plurality of sound databases. The feature word matching means is composed of a plurality of divided sound databases corresponding to the plurality of divided sound databases. When the comparison in parallel with respect to each of the divided acoustic database, characterized by selecting the relevant information of the original sound data corresponding to the registered feature word groups as a candidate of the relevant information of the search acoustic data.

本発明第4の態様によれば、最適判定しきい値の範囲に応じて複数の分割音響データベースが用意されており、音響データの関連情報登録装置において、最適判定しきい値を算出した後、算出した最適判定しきい値に応じて異なる分割音響データベースに登録し、音響データの関連情報検索装置において、各分割音響データベースに対して並行して照合を行い、登録特徴ワード群に対応する原音響データの関連情報を前記検索音響データの関連情報の候補として選出するようにしたので、異なるHDDに配置して異なるCPU・コンピュータで分散処理させることが可能となる。   According to the fourth aspect of the present invention, a plurality of divided acoustic databases are prepared according to the range of the optimum determination threshold, and after calculating the optimum determination threshold in the related information registration device for acoustic data, The original sound corresponding to the registered feature word group is registered in different divided acoustic databases according to the calculated optimum determination threshold, and collated against each divided acoustic database in parallel in the acoustic data related information search device. Since the related information of the data is selected as a candidate for the related information of the search sound data, it can be distributed on different CPUs and computers by being arranged in different HDDs.

また、本発明第5の態様では、本発明第4の態様の音響データの特徴ワード検索装置において、前記分割音響データベースが独立した記憶媒体に保存されており、前記特徴ワード照合手段は、前記各分割音響データベースに対応して独立したプロセッサで処理されるように複数の同一処理内容のプログラムで構成されていることを特徴とする。本発明第5の態様によれば、特徴ワード照合手段が分割音響データベースに対応して独立して設けられているので、コンピュータがマルチコア構成の場合、分割音響データベースと対応する特徴ワード照合手段を独立したスレッドに割り当てて、検索を実行させるようにすれば、OSが前記特徴ワード照合手段を複数の記憶装置とCPUに分散して実行させるので容易に高速化できる。   Further, according to a fifth aspect of the present invention, in the feature word search device for acoustic data according to the fourth aspect of the present invention, the divided acoustic database is stored in an independent storage medium, and the feature word collating means It is characterized by comprising a plurality of programs having the same processing contents so as to be processed by independent processors corresponding to the divided acoustic database. According to the fifth aspect of the present invention, since the feature word matching means is provided independently corresponding to the divided acoustic database, when the computer has a multi-core configuration, the feature word matching means corresponding to the divided acoustic database is independent. If the OS is assigned to the thread and the search is executed, the OS distributes the feature word collating means to a plurality of storage devices and CPUs, so that the speed can be easily increased.

また、本発明第6の態様では、本発明第1から第4のいずれかの態様の音響データの関連情報登録装置において、前記原音響データが複数個、1つのフォルダに収納されている場合、前記フォルダより1つずつ抽出して、各原音響データに対して、順次登録特徴ワード生成手段、部分特徴ワード生成手段、判定しきい値算出手段による処理を行い、前記登録手段は、各原音響データのファイル名を前記関連情報の1つとして登録することを特徴とする。本発明第6の態様によれば、原音響データが複数個、1つのフォルダに収納されている場合、そのフォルダ内の全ての原音響データに対して順次登録処理を実行するようにしたので、複数の原音響データの一括登録処理が可能となる。   Also, in the sixth aspect of the present invention, in the acoustic data related information registration apparatus according to any one of the first to fourth aspects of the present invention, when a plurality of the original sound data are stored in one folder, One by one is extracted from the folder, and each original sound data is sequentially processed by a registered feature word generating means, a partial feature word generating means, and a determination threshold value calculating means. A file name of data is registered as one of the related information. According to the sixth aspect of the present invention, when a plurality of original sound data are stored in one folder, the registration process is sequentially executed for all the original sound data in the folder. A batch registration process of a plurality of original sound data becomes possible.

また、本発明第7の態様では、本発明第1から第5のいずれかの態様の音響データの関連情報検索装置において、前記検索音響データが複数個、1つのフォルダに収納されている場合、前記フォルダより1つずつ抽出して、各検索音響データに対して、順次検索特徴ワード生成手段、特徴ワード照合手段による処理を行うものであり、前記特徴ワード照合手段により選出された各登録音響データの関連情報を各検索音響データの関連情報として抽出するとともに、前記抽出した関連情報を所定のログファイルに保存する情報出力手段をさらに有することを特徴とする。本発明第7の態様によれば、検索音響データが複数個、1つのフォルダに収納されている場合、そのフォルダ内の全ての検索音響データに対して順次検索処理を実行するようにしたので、複数の検索音響データの一括検索処理が可能となる。   Further, in the seventh aspect of the present invention, in the related information search device for acoustic data according to any one of the first to fifth aspects of the present invention, when a plurality of the search acoustic data are stored in one folder, Each of the registered sound data selected by the feature word collating means is extracted one by one from the folder and sequentially processed by the search feature word generating means and the feature word collating means for each searched sound data. And the information output means for storing the extracted related information in a predetermined log file. According to the seventh aspect of the present invention, when a plurality of search sound data are stored in one folder, the search process is sequentially executed for all the search sound data in the folder. Batch search processing of a plurality of search sound data becomes possible.

また、本発明第8の態様では、本発明第1から第4、第6のいずれかの態様の関連情報登録装置において、前記部分特徴ワード群と、前記音響データベースに登録された登録特徴ワード群との照合を行い、前記登録特徴ワード群ごとに登録された最適判定しきい値による条件を満たす場合に、当該登録特徴ワード群を有するレコードを抽出する特徴ワード照合手段をさらに有し、前記登録特徴ワード生成手段、前記判定しきい値算出手段および前記登録手段は、前記特徴ワード照合手段による照合の結果、該当するレコードが存在しない場合に限り、処理を行うことを特徴とする。本発明第8の態様によれば、前記部分特徴ワード群と、前記音響データベースに登録された登録特徴ワード群との照合を最初に行い、照合の結果、該当するレコードが存在しない場合に限り、前記登録特徴ワード生成手段、前記判定しきい値算出手段および前記登録処理を行うようにしたので、既に登録されている登録特徴ワードの基となった原音響データと同一とみなされる(既に登録されている音響データと符号化形式や圧縮方式が異なることに起因するデータ上の差異があっても、オリジナルの音響信号が同一とみなされる)音響データの登録特徴ワードおよび関連情報を重複して登録することを防ぐことが可能となる。   According to an eighth aspect of the present invention, in the related information registration device according to any one of the first to fourth and sixth aspects of the present invention, the partial feature word group and a registered feature word group registered in the acoustic database. And a feature word collating unit that extracts a record having the registered feature word group when the condition based on the optimum determination threshold registered for each registered feature word group is satisfied. The characteristic word generation unit, the determination threshold value calculation unit, and the registration unit perform processing only when there is no corresponding record as a result of the collation by the characteristic word collation unit. According to the eighth aspect of the present invention, the partial feature word group and the registered feature word group registered in the acoustic database are first collated, and as a result of the collation, only when there is no corresponding record, Since the registered feature word generation unit, the determination threshold value calculation unit, and the registration process are performed, it is regarded as the same as the original sound data that is the basis of the registered feature word that has already been registered (already registered) (Even if there is a difference in the data due to the difference in encoding format and compression method from that of the existing sound data, the original sound signal is considered to be the same). Can be prevented.

また、本発明第9の態様では、本発明第1から第5、第7のいずれかの態様の音響データの関連情報検索装置において、前記検索音響データに対して、所定の長さの単位区間を設定し、当該単位区間を解析した情報を基に、検索音響データの特徴パターンを表現した所定バイト数の特徴ワードの集合を登録特徴ワード群として生成する登録特徴ワード生成手段と、前記検索音響データに対して、部分的に切り出して部分音響データを得て、当該部分音響データに対して、所定の長さの単位区間を設定し、当該単位区間を解析した情報を基に、部分音響データの特徴パターンを表現した所定バイト数の特徴ワードの集合を部分特徴ワード群として生成する部分特徴ワード生成手段と、前記登録特徴ワード群と部分特徴ワード群との時間的な位置関係をずらしながら両者間でビット単位で照合を行い、両者が最も適合する位置条件における最小の相違の程度である最小相違度に基づいて、最適判定しきい値を算出する判定しきい値算出手段と、前記登録特徴ワード群および最適判定しきい値を、前記検索音響データを特定する情報に対応付けて音響データベースに登録する登録手段と、をさらに有し、前記登録特徴ワード生成手段、部分特徴ワード生成手段、前記判定しきい値算出手段、および前記登録手段は、前記特徴ワード照合手段による照合の結果、該当するレコードが存在しない場合に限り、処理を行うことを特徴とする。   Moreover, in the ninth aspect of the present invention, in the acoustic data related information search apparatus according to any one of the first to fifth and seventh aspects of the present invention, a unit section having a predetermined length with respect to the searched acoustic data. A registered feature word generating means for generating a set of feature words of a predetermined number of bytes expressing a feature pattern of the search acoustic data as a registered feature word group based on the information obtained by analyzing the unit section, and the search sound Partial sound data is obtained by partially cutting out the data, a unit section of a predetermined length is set for the partial sound data, and the partial sound data is based on information obtained by analyzing the unit section. A partial feature word generating means for generating a set of feature words of a predetermined number of bytes representing a feature pattern of the above as a partial feature word group, and temporal positions of the registered feature word group and the partial feature word group Judgment threshold value calculation means for performing bit-by-bit collation between the two while shifting the relationship, and calculating an optimum determination threshold value based on the minimum degree of difference that is the degree of the minimum difference in the position condition where the two are most suitable And registration means for registering the registered feature word group and the optimum determination threshold in an acoustic database in association with information for specifying the search acoustic data, the registered feature word generating means, and the partial feature The word generation unit, the determination threshold value calculation unit, and the registration unit perform processing only when a corresponding record does not exist as a result of collation by the feature word collation unit.

本発明第9の態様によれば、検索音響データを用いて検索を行った結果、該当する検索音響データの関連情報が存在しない場合に、その検索音響データを音響データベースに登録するようにしたので、未登録の検索音響データの登録特徴ワード群、最適判定しきい値、関連情報を自動的に追加することが可能となる。   According to the ninth aspect of the present invention, as a result of performing a search using the search sound data, when there is no relevant information of the corresponding search sound data, the search sound data is registered in the sound database. It is possible to automatically add a registered feature word group, optimum determination threshold value, and related information of unregistered search sound data.

本発明によれば、楽曲等の音響データを用いて、音響データベースに登録されている音響データに関連する関連情報を過不足なく検索することが可能となるという効果を奏する。   Advantageous Effects of Invention According to the present invention, there is an effect that it is possible to search related information related to acoustic data registered in an acoustic database without excess or deficiency using acoustic data such as music.

本発明に係る音響データの関連情報登録装置の構成図である。It is a block diagram of the related information registration apparatus of the acoustic data which concerns on this invention. 特徴ワードの生成処理を示すフローチャートである。It is a flowchart which shows the production | generation process of the characteristic word. 特徴ワードの生成処理の概念図である。It is a conceptual diagram of the generation process of the characteristic word. 最適判定しきい値算出処理を示すフローチャートである。It is a flowchart which shows the optimal determination threshold value calculation process. 図4のS120における部分区間zの照合処理の詳細を示すフローチャートである。It is a flowchart which shows the detail of the collation process of the partial area z in S120 of FIG. 図5のS122における合算不一致ビット数S(y,z,h,x)の算出処理の詳細を示すフローチャートである。It is a flowchart which shows the detail of the calculation process of sum total mismatch bit number S (y, z, h, x) in S122 of FIG. 本発明に係る音響データの関連情報検索装置の構成図である。It is a block diagram of the related information search apparatus of the acoustic data which concerns on this invention. 検索特徴ワードの生成処理を示すフローチャートである。It is a flowchart which shows the production | generation process of a search characteristic word. 特徴ワード照合手段70による検索特徴ワード群を用いた検索のフローチャートである。10 is a flowchart of a search using a search feature word group by a feature word collating unit 70. 図9のS220におけるレコードrの照合処理の詳細を示すフローチャートである。It is a flowchart which shows the detail of the collation process of the record r in S220 of FIG. 図10のS222における合算不一致ビット数S(r,y,h,x)の算出処理の詳細を示すフローチャートである。FIG. 11 is a flowchart showing details of a process of calculating a total mismatch bit number S (r, y, h, x) in S222 of FIG. 10. 本発明に係る音響データの関連情報登録装置の変形例を示す構成図である。It is a block diagram which shows the modification of the related information registration apparatus of the acoustic data which concerns on this invention. 本発明に係る音響データの関連情報検索装置の変形例を示す構成図である。It is a block diagram which shows the modification of the related information search apparatus of the acoustic data which concerns on this invention. 本発明に係る音響データの関連情報登録装置の他の変形例を示す構成図である。It is a block diagram which shows the other modification of the related information registration apparatus of the acoustic data which concerns on this invention. 本発明に係る音響データの関連情報検索装置の他の変形例を示す構成図である。It is a block diagram which shows the other modification of the related information search apparatus of the acoustic data which concerns on this invention.

以下、本発明の実施形態について図面を参照して詳細に説明する。
(1.音響データの関連情報登録装置)
まず、本発明に係る音響データの関連情報登録装置(以下「関連情報登録装置」という。)について説明する。本発明に係る関連情報登録装置は、音響データから登録特徴ワードを作成し、当該音響データに関連する関連情報(一般にメタデータと呼ばれる)とともに作成した登録特徴ワード、最適判定しきい値を、音響データを特定する情報(例えば、音響データID)と対応付けて音響データベースに登録する。この音響データベースは、音響データの関連情報を検索するために用いられるものであり、音響データ自体は、登録されない。音響データとは、音楽や音声等をデジタル形式で記録したものであり、アナログ音響信号に対して、PCM等の手法によりサンプリングして得られたもので、あらかじめMP3(MPEG-1/Layer3)などの各種非可逆圧縮処理が施された音響データファイルが与えられる場合が一般的である。(著作権保護対策から、CD原盤の品質をもつPCM形式の音響データは一般にライセンス配布されないことが多い。)図1は、関連情報登録装置の構成を示す機能ブロック図である。図1において、10は登録特徴ワード生成手段、20は部分特徴ワード生成手段、30は判定しきい値算出手段、40は登録手段、50は音響データベースである。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
(1. Related information registration device for acoustic data)
First, a related information registration apparatus (hereinafter referred to as “related information registration apparatus”) for acoustic data according to the present invention will be described. The related information registration apparatus according to the present invention creates a registered feature word from acoustic data, and uses the registered feature word and the optimum determination threshold value created together with related information related to the acoustic data (generally called metadata) The data is registered in the acoustic database in association with information specifying the data (for example, acoustic data ID). This acoustic database is used for searching related information of acoustic data, and the acoustic data itself is not registered. The acoustic data is recorded in a digital format, such as music and voice, and is obtained by sampling an analog acoustic signal by a technique such as PCM, such as MP3 (MPEG-1 / Layer3) in advance. In general, an acoustic data file subjected to various lossy compression processes is provided. (According to copyright protection measures, license data is often not distributed for PCM format audio data with CD master disc quality in general.) FIG. 1 is a functional block diagram showing a configuration of a related information registration apparatus. In FIG. 1, 10 is a registered feature word generating means, 20 is a partial feature word generating means, 30 is a determination threshold value calculating means, 40 is a registration means, and 50 is an acoustic database.

登録特徴ワード生成手段10は、音響データから所定数のサンプルを音響フレームとして順次読み込み、読み込んだ音響フレームを利用して、周波数解析を行い、その音響データの特徴を表現した特徴ワードを生成する機能を有している。この特徴ワードは、ある音響データの特徴を少ないデータ量で表現したものであり、スペクトルの特徴を表した特徴パターンと、音量データにより構成される(著作権法上、生成された特徴ワードより原音響データを再現できない、即ち複製行為ができないことが要求され、音響データベースへの登録が認められている。)。音響データベース50に登録される特徴ワードを特に「登録特徴ワード」と呼ぶ。また、この特徴ワードを作成する基になる音響データを特に「原音響データ」と呼ぶ。この「原音響データ」としては、著作権者等が有している「原本」となるデータそのものではなく、この「原本」に著作権保護のための改変が施されたものを用いるのが普通である。もちろん「原本」となるデータそのものを「原音響データ」として用いることも可能である。後述するように、本発明においては、部分特徴ワードや検索特徴ワード等の他の特徴ワードが出現するが、これらは、いずれも特徴ワードの基本的な構造としては同一であるが、部分特徴ワードと検索特徴ワードは登録特徴ワードと異なり、後述する検索処理において位相をずらした照合に対応させるため、位相をずらした複数(本願実施例では5種)の特徴ワード群のセットをもたせているという相違がある。また、本明細書では、40ビット構成の最小単位を「特徴ワード」、照合に用いられる特徴ワードの集合を「特徴ワード群」と呼ぶ。   The registered feature word generation unit 10 sequentially reads a predetermined number of samples as acoustic frames from the acoustic data, performs frequency analysis using the read acoustic frames, and generates a feature word expressing the features of the acoustic data have. This feature word expresses features of certain acoustic data with a small amount of data, and is composed of a feature pattern representing the features of the spectrum and volume data. It is required that the acoustic data cannot be reproduced, that is, cannot be copied, and registration in the acoustic database is permitted. A feature word registered in the acoustic database 50 is particularly referred to as a “registered feature word”. In addition, the sound data on which the feature word is created is particularly referred to as “original sound data”. As this "original sound data", it is normal to use the "original" that has been modified to protect the copyright, not the original data itself owned by the copyright holders. It is. Of course, the data itself that is the “original” can also be used as the “original sound data”. As will be described later, in the present invention, other feature words such as a partial feature word and a search feature word appear. These are the same as the basic structure of the feature word, but the partial feature word. Unlike the registered feature word, the search feature word has a set of a plurality of feature words groups (five types in the embodiment of the present application) whose phases are shifted in order to correspond to collation with shifted phases in the search processing described later. There is a difference. In this specification, the minimum unit of 40-bit configuration is called a “feature word”, and a set of feature words used for collation is called a “feature word group”.

部分特徴ワード生成手段20は、登録特徴ワード生成手段10と同様、部分音響データから所定数のサンプルを音響フレームとして順次読み込み、読み込んだ音響フレームを利用して、周波数解析を行い、その部分音響データの特徴を表現した特徴ワードを生成する機能を有している。登録特徴ワード生成手段10、部分特徴ワード生成手段20は、共に同一の原音響データから音響フレームを読み込み、特徴ワードを作成する点で同一であるが、登録特徴ワード生成手段10は、原音響データ全体(すなわち先頭から最後まで)に対して処理を行うのに対して、部分特徴ワード生成手段20は、原音響データより複数の短い部分区間(検索時に生成する検索特徴ワードと同程度の5〜15秒程度の区間)を盲目的に切り出して抽出し、更に各部分区間ごとに位相をずらした複数(本実施形態では5種)の部分音響データを生成する点で異なる。1つの原音響データより何個の部分区間を抽出するかについては、事前に設定しておくことになるが、例えば、5個を抽出する場合、原音響データ全体が5分間の長さで、部分区間の長さが15秒であったとすると、先頭(0分)〜15秒、1分0秒〜1分15秒、2分0秒〜2分15秒、3分0秒〜3分15秒、4分〜4分15秒の5個の部分区間を抽出し、5個の部分区間より生成される各部分音響データに対して処理を行う。   Similar to the registered feature word generation unit 10, the partial feature word generation unit 20 sequentially reads a predetermined number of samples from the partial sound data as sound frames, performs frequency analysis using the read sound frames, and generates the partial sound data. It has a function of generating a feature word expressing the features of Both the registered feature word generation means 10 and the partial feature word generation means 20 are the same in that they read an acoustic frame from the same original sound data and create a feature word. The partial feature word generation means 20 performs processing on the whole (that is, from the beginning to the end), while the partial feature word generation means 20 has a plurality of short partial sections (same as the search feature words generated at the time of search). This is different in that a plurality of (five types in the present embodiment) partial sound data are generated by blindly cutting out and extracting a section of about 15 seconds and shifting the phase for each partial section. The number of partial sections to be extracted from one original sound data will be set in advance. For example, when extracting five pieces, the entire original sound data is 5 minutes long, If the length of the partial section is 15 seconds, the head (0 minutes) to 15 seconds, 1 minute 0 seconds to 1 minute 15 seconds, 2 minutes 0 seconds to 2 minutes 15 seconds, 3 minutes 0 seconds to 3 minutes 15 Five partial sections of seconds, 4 minutes to 4 minutes 15 seconds are extracted, and processing is performed on each partial acoustic data generated from the five partial sections.

音響フレームについては、登録特徴ワード生成手段10、部分特徴ワード生成手段20も同じサンプル数で取得し、所定の処理を行って特徴ワードを生成する。音響フレームを構成するサンプル数、特徴ワードの生成手法については、登録特徴ワード生成手段10、部分特徴ワード生成手段20で同一である必要があるが、部分特徴ワードについては同一の部分区間の部分音響データをもとに位相をずらした複数のセットの部分特徴ワード群が生成されるようにしている点で相違がある。   For the acoustic frame, the registered feature word generation unit 10 and the partial feature word generation unit 20 also acquire the same number of samples and perform a predetermined process to generate a feature word. The number of samples constituting the sound frame and the feature word generation method need to be the same in the registered feature word generation means 10 and the partial feature word generation means 20, but the partial feature words are the partial sounds in the same partial section. There is a difference in that a plurality of sets of partial feature word groups whose phases are shifted based on data are generated.

また、上述のように、登録特徴ワード生成手段10、部分特徴ワード生成手段20は、同一サンプル数の音響フレームに対して、若干異なる処理を行って特徴ワードを生成するが、最小単位として生成される40ビットの特徴ワードの形式は同一である。ただし、上述のように、原音響データ全体を対象として登録特徴ワード生成手段10が作成する特徴ワードを「登録特徴ワード」、部分音響データを対象として部分特徴ワード生成手段20が作成する特徴ワードを「部分特徴ワード」と呼ぶ。   Further, as described above, the registered feature word generation unit 10 and the partial feature word generation unit 20 generate a feature word by performing slightly different processing on the same number of sampled sound frames, but are generated as a minimum unit. The format of the 40-bit feature word is the same. However, as described above, the feature word created by the registered feature word generation unit 10 for the entire original sound data is “registered feature word”, and the feature word created by the partial feature word generation unit 20 for partial acoustic data is the target word. This is called “partial feature word”.

判定しきい値算出手段30は、単一の登録特徴ワード群と複数の部分特徴ワード群との間での照合を行うが、前者の登録特徴ワード群に比べて後者の各部分特徴ワード群の特徴ワード数が顕著に少ないため、時間的な位置をずらしながら照合を行う。更に各部分特徴ワード群は位相が異なる複数種で1セットとして構成されているため、各群とも個別に照合を行う必要がある。例えば、登録特徴ワード群が5分の長さをもっており、5種の15秒間の部分区間に対応して5種の部分特徴ワード群があり、更に各部分特徴ワード群が位相を変化させて5通り作成されている場合、5×5種の15秒の部分特徴ワード群を用いて5分の長さの登録特徴ワード群と時間位置を15/2秒ずつオーバラップさせながら、ずらして照合を行う場合、5×5×300×2/15=1000通りの組み合わせで照合を行うことになる。これらの組み合わせで照合を行った結果、5種の各部分区間ごとに最小の相違を示す値を算出し、それらの平均値に基づいて、最適判定しきい値を算出する。   The determination threshold value calculation means 30 performs collation between a single registered feature word group and a plurality of partial feature word groups. Compared to the former registered feature word group, each of the latter partial feature word groups Since the number of feature words is remarkably small, collation is performed while shifting the temporal position. Furthermore, since each partial feature word group is configured as a set of a plurality of types having different phases, it is necessary to collate each group individually. For example, a registered feature word group has a length of 5 minutes, there are five types of partial feature word groups corresponding to five types of 15-second partial sections, and each partial feature word group changes its phase to 5 If it is created as follows, using 5 × 5 15-second partial feature word groups, the registered feature word group with a length of 5 minutes and the time position overlap each other for 15/2 seconds, and the matching is performed by shifting. When performing, collation is performed with 5 × 5 × 300 × 2/15 = 1000 combinations. As a result of collation using these combinations, a value indicating the minimum difference is calculated for each of the five types of partial sections, and an optimum determination threshold value is calculated based on the average value thereof.

登録手段40は、登録特徴ワード生成手段10により生成された登録特徴ワード群と、判定しきい値算出手段30により算出された最適判定しきい値を、元の原音響データの制作や著作権に関連する関連情報(一般にメタデータと呼ばれる)、および原音響データを特定するために原音響データの著作権情報等を管理する事業者が個別に定義付けたIDと対応付けて音響データベース50に登録する機能を有している。ここで、関連情報とは、楽曲名、ジャンル名など楽曲を特定するテキスト情報、作詞・作曲・編曲者名、アーチスト名、プロデューサ名など原音響データの制作に関わる著作権者・著作隣接権者名に関するテキスト情報を示すものである。ただし、原音響データそのものは著作権法上の制約から、音響データベース50に通常登録することはない。また、当該音響データの制作・マスタリングに使用した一連のバイナリ形式の素材データ(ミックスダウンする前の個別の録音データ、MIDI打ち込みデータ)等についても、著作権法上の制約により通常登録することはない。図1に示した各構成手段は、現実にはコンピュータおよびその周辺機器等のハードウェアに専用のプログラムを組み込むことにより実現される。すなわち、コンピュータが、専用のプログラムに従って各手段の内容を実行することになる。   The registration unit 40 uses the registered feature word group generated by the registered feature word generation unit 10 and the optimum determination threshold value calculated by the determination threshold value calculation unit 30 as the original original sound data production or copyright. Related related information (generally called metadata) and registered in the acoustic database 50 in association with an ID individually defined by a company that manages copyright information of the original acoustic data in order to identify the original acoustic data It has a function to do. Here, related information refers to text information that identifies the song, such as the song name and genre name, and the copyright owner and copyright owner who are involved in the production of the original acoustic data such as the lyrics, composer, arranger name, artist name, producer name, etc. Indicates text information about the name. However, the original sound data itself is not normally registered in the sound database 50 due to restrictions on the copyright law. Also, a series of binary-format material data (individual recording data before mixing down, MIDI input data) used for production and mastering of the acoustic data is normally registered due to copyright law restrictions. Absent. Each component shown in FIG. 1 is actually realized by incorporating a dedicated program into hardware such as a computer and its peripheral devices. That is, the computer executes the contents of each means according to a dedicated program.

(1.2.関連情報登録装置の処理動作)
次に、図1に示した関連情報登録装置の処理動作について説明する。まず、関連情報登録装置では、登録特徴ワード生成手段10が、指定された原音響データから登録特徴ワードを生成する。図2は、登録特徴ワードの生成処理を示すフローチャートである。まず、登録特徴ワード生成手段10が、原音響データを読み込む。関連情報登録装置では、登録特徴ワード生成手段10が、指定された原音響データから、所定数のサンプルを1音響フレームとして読み込む。登録特徴ワード生成手段10が読み込む1音響フレームのサンプル数は、適宜設定することができるが、サンプリング周波数が44.1kHzの場合、4096サンプル程度とすることが望ましい。これは、約0.092秒に相当する。ただし、後述する周波数変換におけるハニング窓関数の利用により、隣接窓間の連続性を考慮して、音響フレームは、所定数分のサンプルを重複させて読み込むことにしている。本実施形態では、音響フレームの区間長のちょうど半分となる2048サンプルを重複させている。したがって、先頭の音響フレームはサンプル1〜4096、2番目の音響フレームはサンプル2049〜6144、3番目の音響フレームはサンプル4097〜8192というように、順次読み込まれていくことになる。
(1.2. Processing operation of related information registration device)
Next, the processing operation of the related information registration apparatus shown in FIG. 1 will be described. First, in the related information registration device, the registered feature word generation means 10 generates a registered feature word from the designated original sound data. FIG. 2 is a flowchart showing a registration feature word generation process. First, the registered feature word generation means 10 reads the original sound data. In the related information registration device, the registered feature word generation means 10 reads a predetermined number of samples as one acoustic frame from the designated original acoustic data. The number of samples of one acoustic frame read by the registered feature word generation unit 10 can be set as appropriate, but is desirably about 4096 samples when the sampling frequency is 44.1 kHz. This corresponds to about 0.092 seconds. However, in consideration of the continuity between adjacent windows by using a Hanning window function in frequency conversion, which will be described later, the acoustic frame is read by overlapping a predetermined number of samples. In this embodiment, 2048 samples that are exactly half the section length of the acoustic frame are overlapped. Therefore, the first acoustic frame is sequentially read as samples 1 to 4096, the second acoustic frame is samples 2049 to 6144, and the third acoustic frame is samples 4097 to 8192.

続いて、登録特徴ワード生成手段10は、読み込んだ各音響フレームに対して、周波数変換を行って、その音響フレームのスペクトルであるフレームスペクトルを得る(S11)。具体的には、登録特徴ワード生成手段10が読み込んだ音響フレームについて、窓関数を利用して周波数変換を行う。周波数変換としては、フーリエ変換、ウェーブレット変換その他公知の種々の手法を用いることができる。本実施形態では、フーリエ変換を用いた場合を例にとって説明する。   Subsequently, the registered feature word generation unit 10 performs frequency conversion on each read sound frame to obtain a frame spectrum that is a spectrum of the sound frame (S11). Specifically, frequency conversion is performed on the acoustic frame read by the registered feature word generation means 10 using a window function. As frequency conversion, Fourier transform, wavelet transform, and other various known methods can be used. In the present embodiment, a case where Fourier transform is used will be described as an example.

ここで、本実施形態においてフーリエ変換に利用する窓関数について説明しておく。一般に、所定の信号に対してフーリエ変換を行う場合、信号を所定の長さに区切って行う必要があるが、この場合、所定の長さの信号に対してそのままフーリエ変換(正確には短時間フーリエ変換とよばれる)を行うと、高域部に擬似成分が発生する。そこで、一般にフーリエ変換を行う場合には、ハニング窓と呼ばれる窓関数を用いて、窓の境界部のコサイン波形状で重みを落とすように信号の値を変化させた後、変化後の値に対してフーリエ変換を実行する。   Here, a window function used for Fourier transform in the present embodiment will be described. In general, when Fourier transform is performed on a predetermined signal, it is necessary to divide the signal into predetermined lengths. In this case, the Fourier transform (precisely, for a short time) is performed on a signal having a predetermined length. When called (Fourier transform), a pseudo component is generated in the high frequency region. Therefore, in general, when performing Fourier transform, the signal value is changed so that the weight is dropped by the cosine wave shape at the boundary of the window using a window function called a Hanning window, and then the value after the change is changed. To perform the Fourier transform.

S11においてフーリエ変換を行う場合、具体的には、サンプルiにおける値X(i)(i=0,…,N−1)に対して、0〜1の実数値をもち、Nサンプル区間に定義されるハニング窓関数W(i)(=0.5−0.5cos(2πi/N)を用いて、以下の〔数式1〕の第1式、第2式に従った処理を行い、各周波数における実部A(j)、虚部B(j)を得る。   When the Fourier transform is performed in S11, specifically, the value X (i) (i = 0,..., N−1) in the sample i has a real value of 0 to 1 and is defined in the N sample section. Using the Hanning window function W (i) (= 0.5−0.5 cos (2πi / N)), the processing according to the first and second formulas of [Formula 1] Real part A (j) and imaginary part B (j) are obtained.

続いて、スペクトル成分の算出を行う(S12)。具体的には、以下の〔数式1〕第3式に従った処理を行い、各周波数における強度値E(j)を得る。   Subsequently, a spectral component is calculated (S12). Specifically, processing according to the following [Formula 1] third formula is performed to obtain an intensity value E (j) at each frequency.

〔数式1〕
A(j)=Σi=0,…,N-1W(i)・X(i)・cos(2πij/N)
B(j)=Σi=0,…,N-1W(i)・X(i)・sin(2πij/N)
E(j)=A(j)2+B(j)2
[Formula 1]
A (j) = Σ i = 0,..., N-1 W (i) · X (i) · cos (2πij / N)
B (j) = Σ i = 0,..., N-1 W (i) · X (i) · sin (2πij / N)
E (j) = A (j) 2 + B (j) 2

〔数式1〕において、iは、各音響フレーム内のN個のサンプルに付した通し番号であり、i=0,1,2,…N−1の整数値をとる。また、jは周波数の値について、値の小さなものから順に付した通し番号であり、j=0,1,2,…N/2−1の整数値をとる。サンプリング周波数が44.1kHz、N=4096の場合、jの値が1つ異なると、周波数が10.8Hz異なることになる。   In [Expression 1], i is a serial number assigned to N samples in each acoustic frame, and takes an integer value of i = 0, 1, 2,... N−1. Further, j is a serial number assigned in order from the smallest value of the frequency value, and takes an integer value of j = 0, 1, 2,... N / 2-1. When the sampling frequency is 44.1 kHz and N = 4096, if the value of j is different by one, the frequency will be different by 10.8 Hz.

続いて、スペクトル成分の間引き処理を行う(S13)。上記の周波数変換により、22kHz付近までのスペクトル成分が得られるが、本実施形態における特徴ワードの生成には、340Hz以上で4kHz付近より低い範囲のスペクトル成分を用いる。これは、携帯電話の音声再生で使用される3GPP規格等の音声圧縮形式に対応させるためである(ただし、本実施形態では常にデジタル音響データが与えられるため、携帯電話の音声録音信号を用いた照合には対応する必要はない。)。そのため、正確に、携帯電話の音声再生範囲に合わせる場合は、特徴ワードの生成の上限を3.4kHz付近とするようにしても良い。本実施形態では、j=0〜2047の周波数成分のうち、4kHz付近より高いj=385〜2047については利用しない。また、340Hz以下であるj=0〜32の低周波成分についても利用しない。すなわち、本実施形態では、j=33〜384の周波数成分を用いる。具体的には、以下の〔数式2〕に従った処理を実行し、11周波数成分単位のPnに間引くことになる。   Subsequently, thinning processing of spectral components is performed (S13). Although the spectral component up to about 22 kHz is obtained by the above frequency conversion, the spectral component in the range of 340 Hz or higher and lower than about 4 kHz is used for generation of the feature word in this embodiment. This is in order to correspond to a voice compression format such as 3GPP standard used for voice reproduction of a cellular phone (however, since digital acoustic data is always given in this embodiment, a voice recording signal of a cellular phone is used. There is no need to deal with matching.) For this reason, in order to accurately match the voice reproduction range of the mobile phone, the upper limit of the feature word generation may be set to around 3.4 kHz. In the present embodiment, j = 385 to 2047 higher than the vicinity of 4 kHz among the frequency components of j = 0 to 2047 is not used. Also, the low frequency component of j = 0 to 32 that is 340 Hz or less is not used. That is, in the present embodiment, j = 33 to 384 frequency components are used. Specifically, the processing according to the following [Equation 2] is executed and thinned out to Pn in units of 11 frequency components.

〔数式2〕
P0=(E33+E34+…+E431/4
P1=(E44+E45+…+E541/4


P31=(E374+E375+…+E3841/4
[Formula 2]
P0 = (E 33 + E 34 + ... + E 43) 1/4
P1 = (E 44 + E 45 + ... + E 54) 1/4
:
:
P31 = ( E374 + E375 + ... + E384 ) 1/4

上記〔数式2〕により、j=33〜384の352の周波数成分が、n=0〜31の32の周波数成分に間引かれることになる。上記処理は、各音響フレームについて行われ、各音響フレームについて、32個の周波数成分が得られることになる。   According to the above [Expression 2], 352 frequency components of j = 33 to 384 are thinned out to 32 frequency components of n = 0 to 31. The above process is performed for each acoustic frame, and 32 frequency components are obtained for each acoustic frame.

次に、各音響フレームについて、直前の音響フレームのスペクトル成分との差分を算出する(S14)。上記S11〜S13の処理は、各音響フレームに対して順次行われる。このS14におけるフレーム間の処理は、各音響フレームについてS13までの処理を行った結果得られたP0〜P31を利用するものである。具体的には、以下の〔数式3〕に従った処理を行い、差分Dn(t)を得る。   Next, for each acoustic frame, a difference from the spectral component of the immediately preceding acoustic frame is calculated (S14). The processes of S11 to S13 are sequentially performed on each acoustic frame. The process between frames in S14 uses P0 to P31 obtained as a result of performing the processes up to S13 for each acoustic frame. Specifically, the process according to the following [Equation 3] is performed to obtain the difference Dn (t).

〔数式3〕
Dn(t)=|Pn(t)−Pn(t−1)|、n=0,…,31
[Formula 3]
Dn (t) = | Pn (t) −Pn (t−1) |, n = 0,..., 31

このように、隣接する音響フレーム間の差分を算出するのは、音響データの振幅レベルがわずかに変化するような箇所についても、振幅レベルの変化を強調させ、音響データの特徴を反映した特徴ワードを生成するためである。   In this way, the difference between adjacent acoustic frames is calculated by emphasizing changes in the amplitude level and reflecting the characteristics of the acoustic data even in places where the amplitude level of the acoustic data slightly changes. It is for producing | generating.

上記S11〜S14の処理を各音響フレームに対して順次行い、音響フレーム間の差分Dn(t)がT個(本実施形態では11個)得られたら、そのT個分の総和を求める(S16)。すなわち、以下の〔数式4〕に従った処理を行い、差分の総和Snを得る。   When the processes of S11 to S14 are sequentially performed on each acoustic frame and T differences (n in this embodiment) Dn (t) between the acoustic frames are obtained, a total sum of T is obtained (S16). ). That is, processing according to the following [Equation 4] is performed to obtain the sum Sn of the differences.

〔数式4〕
Sn=Σt=0,…,T-1Dn(t)
[Formula 4]
Sn = Σ t = 0,..., T-1 Dn (t)

続いて、上記〔数式4〕により得られたSnの二値化処理を行う(S17)。具体的には、まず、Sn配列をn≧14とn≦13の上下帯域で2分割し、n≦13の14個中値の大きい7個に1を与え、値の小さい7個に0を与えるとともに、n≧14の18個中値の大きい9個に1を与え、値の小さい9個に0を与える。ここで、単純に全32個のSn中値の大きい16個と、小さい16個に1と0を与えるのではなくて、32バンドを周波数が高い18バンドのグループと、周波数が高い14バンドのグループに分けてそれぞれそのグループ内で均等に1と0を与えるようにしたのは、各種データ圧縮処理に伴う周波数特性の影響を補正するためである。上下のバンドを18バンドと14バンドの位置で分けたのは、実験の結果、この位置で分けたとき、検索に使用する検索音響データに対してMP3などの各種データ圧縮処理を施した結果、検索精度が最も高かったためである。S17における処理により、各nについてのSnが1ビットで表現可能となる。そして、n=0をLSB、n=31をMSBとして32ビットの特徴パターンを得る。   Subsequently, the binarization process of Sn obtained by the above [Equation 4] is performed (S17). Specifically, first, the Sn array is divided into two in the upper and lower bands of n ≧ 14 and n ≦ 13, and 1 is given to 7 of 14 large values of n ≦ 13, and 0 is given to 7 of the smaller values. In addition, 1 is given to 9 of 18 large values of n ≧ 14, and 0 is given to 9 of the small values. Here, instead of simply giving 1 and 0 to the 32 large Sn medium values of 16 and 16 small ones, the group of 18 bands having a high frequency and the band of 14 bands having a high frequency The reason why 1 and 0 are equally given to each group is to correct the influence of the frequency characteristics associated with various data compression processes. The reason why the upper and lower bands are divided at the positions of the 18 band and the 14 band is that, as a result of the experiment, when divided at this position, the search acoustic data used for the search is subjected to various data compression processes such as MP3, This is because the search accuracy was the highest. By the processing in S17, Sn for each n can be expressed by 1 bit. Then, a 32-bit feature pattern is obtained with n = 0 as LSB and n = 31 as MSB.

次に、音量データの算出を行う(S18)。具体的には、以下の〔数式5〕を用いて音量データVolを算出する。   Next, the volume data is calculated (S18). Specifically, the volume data Vol is calculated using the following [Formula 5].

〔数式5〕
Vol=Σt=0,…,T-1{Σn=0,…,31Pn(t)}
[Formula 5]
Vol = Σ t = 0, ..., T-1n = 0, ..., 31 Pn (t)}

上記〔数式5〕に示すように、間引き処理した全ての成分Pn(t)の値をT個の音響フレームについて加算する。これにより、T個の音響フレームについての総和音量である音量データVolが得られる。この音量データVolの値に適宜設定した固定のスケーリング値を乗算して、0〜255の範囲に収まるように正規化する。このため、音量データVolは8ビットで表現されることとなる。音量データVolは、上記〔数式5〕に示されるように、T個の音響フレームに渡る音量の総和であるため、各フレーム単位の音量ではなく、T個の音響フレームの総和音量を表現していることになる。   As shown in [Formula 5] above, the values of all the thinned components Pn (t) are added for T acoustic frames. As a result, volume data Vol that is the total volume of the T acoustic frames is obtained. The value of the volume data Vol is multiplied by a fixed scaling value set as appropriate, and normalized so that it falls within the range of 0 to 255. Therefore, the volume data Vol is represented by 8 bits. Since the volume data Vol is the sum of the volumes over the T acoustic frames as shown in [Formula 5], it represents the total volume of the T acoustic frames, not the volume of each frame. Will be.

上記S17、S18の処理は、順序を入れ替えて行うことも可能である。S17、S18による処理の結果、32ビットの特徴パターンと8ビットの音量データにより構成される40ビットの特徴ワードが得られる。   The processes of S17 and S18 can be performed by changing the order. As a result of the processing in S17 and S18, a 40-bit feature word composed of a 32-bit feature pattern and 8-bit volume data is obtained.

以上の処理を各音響フレームに対して実行することにより、その音響データについての特徴ワードが多数生成されることになる。例えば、上記の例のように、サンプリング周波数44.1kHz、1音響フレームが4096サンプル、音響フレームを2048サンプルづつ重複させた場合、1特徴ワードは約0.506秒となり、5分間の音響データからは、約600個の特徴ワードが生成されることになる。   By executing the above processing for each sound frame, a large number of feature words for the sound data are generated. For example, when the sampling frequency is 44.1 kHz, the sound frame is 4096 samples, and the sound frame is overlapped by 2048 samples as in the above example, one feature word is about 0.506 seconds, and the sound data from 5 minutes Will generate approximately 600 feature words.

ここで、上記特徴ワードの生成処理を、図3の概念図を用いて説明する。図3(a)は、特徴ワードの生成対象とする音響データの波形を示す図である。関連情報登録装置では、音響データを音響フレーム単位で読み取っていくが、図3(b)に示すように、読取範囲を重複させて読み取らせる。そして、各音響フレームに対して、図3(c)に示すように32バンドに分離する。これは、上記S11〜S13に相当する。次に、図3(d)に示すように分離成分のバンドごとの隣接する音響フレーム間における差分処理、32バンドの分離成分の総和処理を行う。分離成分の差分処理は上記S14に相当し、分離成分の総和処理は上記S18の各周波数成分(n=0〜31)の総和処理に相当する。次に、図3(e)に示すように32バンド差分成分の総和処理、および音量の総和処理を行う。32バンド差分成分の総和処理は、上記S16に相当し、音量の総和処理は上記S18の各音響フレーム(t=0〜T−1)の総和処理に相当する。次に、図3(f)に示すように32バンド総和成分の二値化処理、および音量の圧縮処理(上記〔数式5〕に基づき算出された値に所定のスケーリング値を乗算して256段階に音量レベルを圧縮する処理)を行う。32バンド総和成分の二値化処理は上記S17に相当し、音量の圧縮処理は上記S18に相当する。図3に示すように、音響データから順次音響フレームを読み込み、T個の音響フレーム単位で1つの特徴ワードを生成していく処理が行われることになる。   Here, the feature word generation processing will be described with reference to the conceptual diagram of FIG. FIG. 3A is a diagram illustrating a waveform of acoustic data that is a generation target of a feature word. In the related information registration apparatus, the acoustic data is read in units of acoustic frames. However, as shown in FIG. Then, each acoustic frame is divided into 32 bands as shown in FIG. This corresponds to S11 to S13. Next, as shown in FIG. 3D, difference processing between adjacent acoustic frames for each band of separated components and total processing of 32 band separated components are performed. The separation component difference process corresponds to S14, and the separation component summation process corresponds to the summation process of each frequency component (n = 0 to 31) in S18. Next, as shown in FIG. 3E, a summation process of 32-band difference components and a summation process of volume are performed. The summation process of the 32-band difference component corresponds to S16, and the volume summation process corresponds to the summation process of each acoustic frame (t = 0 to T-1) in S18. Next, as shown in FIG. 3 (f), the binarization process of the 32-band sum component and the compression process of the sound volume (256 levels obtained by multiplying the value calculated based on the above [Formula 5] by a predetermined scaling value). To the volume level). The binarization process for the 32-band sum component corresponds to S17, and the volume compression process corresponds to S18. As shown in FIG. 3, a process of sequentially reading sound frames from the sound data and generating one feature word in units of T sound frames is performed.

指定された1つの原音響データ全体に対して、登録特徴ワード群(特徴ワードの集合)が得られたら、次に、原音響データの先頭から所定の長さの区間を部分区間として順次抽出し、抽出した各部分音響データについて特徴ワード(部分特徴ワード)を生成する。部分区間の長さとしては、適宜設定することができる。部分区間は、検索時に使用する代表的な区間を想定して、与えられた原音響データ全体より盲目的(実際の実施例では均等間隔に)に抽出したもので、多少の漏れは発生しても良いが、重複がないように先頭から一定の間隔で設定され、1つの原音響データについてZ個の部分区間が得られる。部分特徴ワードの生成は、基本的には、原音響データ全体に対して行われた登録特徴ワードの生成の場合と同様に、図2、図3に示したような手順、概念で作成される。ただし、登録特徴ワードと異なり、位相をずらした複数の部分特徴ワードを追加生成する必要がある。   When a registered feature word group (a set of feature words) is obtained for the entire specified original sound data, next, sections of a predetermined length from the beginning of the original sound data are sequentially extracted as partial sections. A feature word (partial feature word) is generated for each extracted partial sound data. The length of the partial section can be set as appropriate. The partial section is extracted blindly (equally spaced in the actual embodiment) from the given original sound data, assuming a typical section to be used at the time of search, and some leakage has occurred. However, it is set at a constant interval from the beginning so that there is no overlap, and Z partial sections are obtained for one original sound data. The generation of the partial feature words is basically created by the procedure and concept as shown in FIGS. 2 and 3 as in the case of the registration feature words generated for the entire original sound data. . However, unlike the registered feature words, it is necessary to additionally generate a plurality of partial feature words with a phase shift.

部分音響データは、楽曲の一部が切り取られたものであるため、必ずしも、原音響データとのタイミングが一致するものではなく、位置ずれが生じることがある。特徴ワードの生成にあたっては、T個(本願実施例では、T=11)の音響フレームを平均化して生成しているため、比較的位置ずれには強い。しかし、リズム変化が激しい原音響データの場合、特徴ワードの生成単位である11音響フレームの、ほぼ半分である5音響フレーム程度ずれると、顕著に異なる特徴ワードが生成され、登録特徴ワードとの照合において顕著な相違が発生してしまう。そのため、1解析単位である11音響フレームの範囲内で数音響フレームずつ遅らせて(位相を変更して、本実施形態では2音響フレーム)複数の部分特徴ワードを生成して、音響データベース50内に登録予定の登録特徴ワードと照合するようにする。   Since the partial sound data is a piece of music cut out, the timing does not necessarily coincide with the original sound data, and a positional shift may occur. The feature word is generated by averaging T sound frames (T = 11 in the embodiment of the present invention), and is relatively resistant to displacement. However, in the case of original sound data with a sharp change in rhythm, a feature word that is remarkably different is generated when it is shifted by about 5 sound frames, which is almost half of 11 sound frames, which is a feature word generation unit, and is compared with a registered feature word. A significant difference will occur. Therefore, a plurality of partial feature words are generated within the acoustic database 50 by delaying several acoustic frames within a range of 11 acoustic frames, which is one analysis unit (two acoustic frames in this embodiment by changing the phase). Match with the registered feature word to be registered.

S16において、〔数式4〕に基づきSnを算出する代わりに、h=0,...,H−1としてH種類のSn(h)を以下〔数式4’〕に基づき算出する。hsは適当な正の整数で本願実施例ではhs=2である。続いて、S17において、H種類のSn(h)の各々に対して同様に二値化処理を行い、各々32ビットの特徴パターンに変換する。 In S16, instead of calculating Sn based on [Equation 4], h = 0,. . . , H−1, H types of Sn (h) are calculated based on [Formula 4 ′] below. hs is a suitable positive integer, and hs = 2 in this embodiment. Subsequently, in S17, the binarization process is similarly performed on each of the H types of Sn (h), and each of them is converted into a 32-bit feature pattern.

〔数式4’〕
Sn(h)=Σt=0,…,T-1Dn(t+h・hs)
[Formula 4 ']
Sn (h) = Σ t = 0,..., T-1 Dn (t + h · hs)

更に、S18において、〔数式5〕に基づきVolを算出する代わりに、同様にh=0,...,H−1としてH種類のVol(h)を以下〔数式5’〕に基づき算出する。hsは同様に適当な正の整数で本実施形態ではhs=2である。   Furthermore, in S18, instead of calculating Vol based on [Formula 5], h = 0,. . . , H−1, H types of Vol (h) are calculated based on [Formula 5 ′] below. Similarly, hs is a suitable positive integer, and hs = 2 in this embodiment.

〔数式5’〕
Vol(h)=Σt=0,…,T-1{Σn=0,…,31Pn(t+h・hs)}
[Formula 5 ']
Vol (h) = Σ t = 0,..., T-1n = 0,..., 31 Pn (t + h · hs)}

以上の処理から、Z個の部分区間の各々が15秒の長さをもつと仮定すると、部分特徴ワードは、各々30×H個(本実施形態ではH=5)生成されることになる。   From the above processing, assuming that each of the Z partial sections has a length of 15 seconds, 30 × H partial feature words (H = 5 in this embodiment) are generated.

ある原音響データについて、登録特徴ワード群と、各部分区間の部分特徴ワード群が得られたら、次に、登録特徴ワード群と、各部分区間の部分特徴ワード群を用いて、その原音響データについての最適判定しきい値を算出する。この最適判定しきい値算出処理を、図4〜図6のフローチャートを用いて説明する。   Once a registered feature word group and a partial feature word group for each partial section are obtained for a certain original acoustic data, the original acoustic data is then obtained using the registered feature word group and the partial feature word group for each partial section. An optimal determination threshold is calculated for. The optimum determination threshold value calculation process will be described with reference to the flowcharts of FIGS.

図4〜図6においては、各変数を以下のように定義する。
[登録特徴ワード]
Y:原音響データについて登録されている登録特徴ワード数
Fd(y):特徴パターン配列(y=0,・・・,Y−1)、32ビット
Vd(y):音量データ配列(y=0,・・・,Y−1)、8ビット
[部分特徴ワード]
Z:原音響データに設定される部分区間数
X(z、h):部分区間z(z=0,・・・,Z−1)およびずらし(位相)h(h=0,・・・,H−1)における部分特徴ワード数
F(z,h,x):特徴パターン配列(x=0,・・・,X(z、h)−1)、32ビット
V(z,h,x):音量データ配列(x=0,・・・,X(z、h)−1)、8ビット
[照合変数]
W:照合ワード数(w=0,・・・,W−1)、照合する登録特徴ワード、部分特徴ワードの数(例.W=6)
D(y+w,z,h,x+w):特徴パターンのワード単位不一致ビット数(0以上32以下)
S(y,z,h,x):合算不一致ビット数、照合ワード数W個のワード単位不一致ビット数D(y+w,z,h,x+w)を合算したもの(Σw=0,・・・W-1D(y+w,z,h,x+w))
4 to 6, each variable is defined as follows.
[Registration feature word]
Y: Number of registered feature words registered for original sound data Fd (y): Feature pattern array (y = 0,..., Y-1), 32 bits Vd (y): Volume data array (y = 0) , ..., Y-1), 8 bits
[Partial feature word]
Z: number of partial sections set in the original sound data X (z, h): partial section z (z = 0,..., Z-1) and shift (phase) h (h = 0,. Number of partial feature words in H-1) F (z, h, x): Feature pattern array (x = 0,..., X (z, h) -1), 32 bits V (z, h, x) : Volume data array (x = 0,..., X (z, h) -1), 8 bits
[Collation variable]
W: Number of collation words (w = 0,..., W−1), number of registered feature words and partial feature words to be collated (eg, W = 6)
D (y + w, z, h, x + w): Number of mismatch bits in word unit of feature pattern (0 to 32)
S (y, z, h, x): the sum of the number of mismatched bits, the number of matching word counts D (y + w, z, h, x + w) (Σw = 0, ... W-1 D (y + w, z, h, x + w))

図4は最適判定しきい値算出処理を示すフローチャートである。まず、初期設定を行う(S110)。具体的には、合算不一致ビット数の総和S=0、部分区間を特定する変数z=0に設定する。   FIG. 4 is a flowchart showing the optimum determination threshold value calculation process. First, initial setting is performed (S110). Specifically, the sum S of the total number of mismatch bits is set to S = 0, and the variable z = 0 for specifying the partial section is set.

続いて、部分区間zから生成された部分特徴ワード群と、登録特徴ワード群との照合を行う(S120)。S120における照合の結果、部分区間zについて、最小不一致ビット数Sminが得られる。このS120の処理については後述する。最小不一致ビット数Sminが得られたら、Sminが初期値Big1より大きいかどうかを判断する(S130)。この初期値Big1は、後述するS121において設定される値である。Sminが初期値Big1より小さい場合に限り、合算不一致ビット数の総和Sに加算する処理を行う(S140)。次に、部分区間を特定する変数zをインクリメント、すなわち1だけ増加する(S150)。そして、部分区間を特定する変数zが部分区間数Zに達したかどうかを判断し(S160)、達していない場合は、S120に戻って、次の部分区間zについて、照合処理を行う。各部分区間zについて処理を実行し、変数zが部分区間数Zに達したら、すなわちZ個全ての部分区間に対する処理を終えたら、合算不一致ビット数の総和Sを、部分区間数Zで除算した値S/Zを最適判定しきい値Mとして出力する(S170)。   Subsequently, the partial feature word group generated from the partial section z is collated with the registered feature word group (S120). As a result of the collation in S120, the minimum mismatch bit number Smin is obtained for the partial section z. The process of S120 will be described later. When the minimum mismatch bit number Smin is obtained, it is determined whether Smin is larger than the initial value Big1 (S130). The initial value Big1 is a value set in S121 described later. Only when Smin is smaller than the initial value Big1, a process of adding to the sum S of the total mismatch bits is performed (S140). Next, the variable z specifying the partial section is incremented, that is, increased by 1 (S150). Then, it is determined whether or not the variable z that specifies the partial section has reached the number of partial sections Z (S160). If not, the process returns to S120, and the next partial section z is collated. The processing is executed for each partial section z, and when the variable z reaches the number of partial sections Z, that is, when the processing for all Z partial sections is completed, the sum S of the total number of mismatch bits is divided by the number of partial sections Z. The value S / Z is output as the optimum determination threshold value M (S170).

次に、図4のS120における区間zの照合処理の詳細について図5のフローチャートを用いて説明する。まず、初期設定を行う(S121)。具体的には、最小不一致ビット数Smin=初期値Big1、部分特徴ワードを特定する変数x=0、位相を特定する変数h=0、登録特徴ワードを特定する変数y=0に設定する。初期値Big1は、最小不一致ビット数Sminが取り得る値よりも十分に大きな値であれば良く、事前に設定されることになる。続いて、合算不一致ビット数S(y,z,h,x)の算出を行う(S122)。合算不一致ビット数S(y,z,h,x)については後述するようにエラー値が出力される場合もあるため、合算不一致ビット数S(y,z,h,x)が正常値として得られたら、最小不一致ビット数Sminより小さいかどうかを判断する(S123)。S(y,z,h,x)がSminより小さい場合に限り、S(y,z,h,x)の値をSminにセットする処理を行う(S124)。そして、変数xをインクリメントして、S122〜S124の処理を繰り返し、さらに部分特徴ワードを特定する変数xが部分特徴ワード数X(z,h)に達したら、x=0として位相を特定する変数hをインクリメントして、S122〜S124の処理を繰り返し、hがHに達したら、h=x=0としてyをインクリメントして、S122〜S124の処理を繰り返す。すなわち、まず、位相hを固定して部分特徴ワードと登録特徴ワードの比較を行い、全ての部分特徴ワードに対して処理を終えたら、位相を変更し、次の位相について処理を行う。このようにして、全ての位相について処理を実行する。   Next, details of the collation processing of the section z in S120 of FIG. 4 will be described using the flowchart of FIG. First, initial setting is performed (S121). Specifically, the minimum mismatch bit number Smin = initial value Big1, the variable x = 0 specifying the partial feature word, the variable h = 0 specifying the phase, and the variable y = 0 specifying the registered feature word are set. The initial value Big1 may be a value that is sufficiently larger than the value that the minimum mismatch bit number Smin can take, and is set in advance. Subsequently, the sum mismatch bit number S (y, z, h, x) is calculated (S122). Since an error value may be output for the sum mismatch bit number S (y, z, h, x) as described later, the sum mismatch bit number S (y, z, h, x) is obtained as a normal value. If it is determined, it is determined whether or not it is smaller than the minimum mismatch bit number Smin (S123). Only when S (y, z, h, x) is smaller than Smin, a process of setting the value of S (y, z, h, x) to Smin is performed (S124). Then, the variable x is incremented, the processes of S122 to S124 are repeated, and when the variable x for specifying the partial feature word reaches the partial feature word number X (z, h), the variable for specifying the phase with x = 0. h is incremented, and the processing of S122 to S124 is repeated. When h reaches H, y is incremented with h = x = 0, and the processing of S122 to S124 is repeated. That is, first, the phase h is fixed and the partial feature word and the registered feature word are compared. When the processing is completed for all the partial feature words, the phase is changed and the next phase is processed. In this way, processing is executed for all phases.

そして、yが全登録特徴ワード数Yに達したかどうかを判断し(S125)、達していない場合は、S122に戻って、次の登録特徴ワードyについて、最小不一致ビット数Sminの算出処理を行う。各登録特徴ワードyについて処理を実行し、変数yが全登録特徴ワード数Yに達したら、すなわちY個全ての登録特徴ワードに対する処理を終えたら、その時点における合算不一致ビット数S(y,z,h,x)の最小値Sminを、部分区間zにおける最小不一致ビット数Sminとして出力する。この最小不一致ビット数Sminが図4のS120において得られることになる。   Then, it is determined whether or not y has reached the total number Y of registered feature words (S125). If not, the process returns to S122 to calculate the minimum mismatch bit number Smin for the next registered feature word y. Do. When processing is performed for each registered feature word y and the variable y reaches the total number Y of registered feature words, that is, when processing for all Y registered feature words is completed, the total number of mismatch bits S (y, z at that time) , H, x) is output as the minimum mismatch bit number Smin in the partial section z. This minimum mismatch bit number Smin is obtained in S120 of FIG.

次に、図5のS122における合算不一致ビット数S(y,z,h,x)の算出処理の詳細について図6のフローチャートを用いて説明する。本装置では、照合の際、照合ワード数であるW個の連続する特徴ワード同士の照合を行う。すなわち、連続するW個の登録特徴ワードと連続するW個の部分特徴ワードをそれぞれ先頭から順に照合していく。図6においては、まず、初期設定を行う(S181)。具体的には、合算不一致ビット数S(y,z,h,x)=0、特徴ワードの照合個数を示す変数w=0に設定する。初期設定後、登録特徴ワードの音量データVd(y+w)、部分特徴ワードの音量データV(z,h,x+w)がともに0より大きいという条件を満たすかどうかを判断する(S182)。登録特徴ワードの音量データVd(y+w)、部分特徴ワードの音量データV(z,h,x+w)は、それぞれ原音響データ全体、部分音響データに対して〔数式5〕および〔数式5’〕に従った処理を実行し、“Vol”および“Vol(h)”として算出されたものである。S182における判断の結果、登録特徴ワードの音量データVd(y+w)、部分特徴ワードの音量データV(z,h,x+w)がともに0より大きいという条件を満たす場合に限り、登録特徴ワード1つと部分特徴ワード1つを比較した場合の、不一致ビット数であるワード単位不一致ビット数D(y+w,z,h,x+w)を算出する(S183)。   Next, details of the process of calculating the total mismatch bit number S (y, z, h, x) in S122 of FIG. 5 will be described using the flowchart of FIG. In this apparatus, at the time of collation, collation of W consecutive feature words, which is the number of collation words, is performed. That is, the consecutive W registered feature words and the consecutive W partial feature words are collated in order from the top. In FIG. 6, first, initial setting is performed (S181). Specifically, the total mismatch bit number S (y, z, h, x) = 0 and the variable w = 0 indicating the number of feature word collations are set. After the initial setting, it is determined whether or not the condition that the volume data Vd (y + w) of the registered feature word and the volume data V (z, h, x + w) of the partial feature word are both greater than 0 is satisfied (S182). The volume data Vd (y + w) of the registered feature word and the volume data V (z, h, x + w) of the partial feature word are expressed by [Equation 5] and [Equation 5 ′] with respect to the whole original sound data and the partial sound data, respectively. The processing according to the above is executed, and “Vol” and “Vol (h)” are calculated. As a result of the determination in S182, only when one of the registered feature words and the partial feature word volume data Vd (y + w) and the partial feature word volume data V (z, h, x + w) satisfy the condition that both are greater than 0, The word unit mismatch bit number D (y + w, z, h, x + w), which is the number of mismatch bits when one feature word is compared, is calculated (S183).

次に、ワード単位不一致ビット数D(y+w,z,h,x+w)が所定値Mw以下であるかどうかを判断する(S184)。S184における判断の結果、ワード単位不一致ビット数D(y+w,z,h,x+w)が所定値Mw以下である場合に限り、ワード単位不一致ビット数D(y+w,z,h,x+w)を合算不一致ビット数S(y,z,h,x)に加算する処理を行う(S185)。S185においては、特徴ワードの照合個数を示す変数wをインクリメントし、照合する特徴ワードwを次の特徴ワードwに変更する処理も行う。そして、特徴ワードの照合個数を示す変数wが所定数Wに達したかどうかを判断し(S186)、達していない場合は、S182に戻って、次の特徴ワードについて処理を行う。各特徴ワードについて処理を実行し、変数wが所定数Wに達したら、その時点における合算不一致ビット数S(y,z,h,x)を、あるx,h,yについての合算不一致ビット数S(y,z,h,x)として出力する。この合算不一致ビット数S(y,z,h,x)が図5のS122において得られることになる。なお、S182、S184において条件を満たさないと判断された場合には、合算不一致ビット数の算出エラー値(負値)が出力される。   Next, it is determined whether or not the word unit mismatch bit number D (y + w, z, h, x + w) is equal to or less than a predetermined value Mw (S184). As a result of the determination in S184, the word unit mismatch bit number D (y + w, z, h, x + w) is not added only if the word unit mismatch bit number D (y + w, z, h, x + w) is equal to or less than the predetermined value Mw. A process of adding to the bit number S (y, z, h, x) is performed (S185). In S185, the variable w indicating the number of feature words to be collated is incremented and the feature word w to be collated is changed to the next feature word w. Then, it is determined whether or not the variable w indicating the number of collated feature words has reached a predetermined number W (S186). If not, the process returns to S182 and the next feature word is processed. When processing is performed for each feature word and the variable w reaches a predetermined number W, the total mismatch bit number S (y, z, h, x) at that time is calculated as the total mismatch bit number for a certain x, h, y. Output as S (y, z, h, x). This sum mismatch bit number S (y, z, h, x) is obtained in S122 of FIG. If it is determined that the condition is not satisfied in S182 and S184, a calculation error value (negative value) for the number of unmatched bits is output.

(1.2.ワード単位不一致ビット数の算出)
図6のS183におけるワード単位不一致ビット数D(y+w,z,h,x+w)の算出について説明する。ワード単位不一致ビット数D(y+w,z,h,x+w)の算出については、利用者により設定される音量判定モードにより具体的な処理内容が異なる。音量判定モードとしては、Off、Weight、Match、Bothの4つが存在する。
(1.2. Calculation of word unit mismatch bit number)
The calculation of the word unit mismatch bit number D (y + w, z, h, x + w) in S183 of FIG. 6 will be described. Regarding the calculation of the word unit mismatch bit number D (y + w, z, h, x + w), the specific processing contents differ depending on the sound volume determination mode set by the user. There are four volume determination modes: Off, Weight, Match, and Both.

(1.2.1.音量判定モード“Off”)
音量判定モード“Off”は重みを付加しないモードであり、音量判定モード“Off”が設定されている場合、ワード単位不一致ビット数D(y+w,z,h,x+w)は、そのままワード単位の相違の程度を示すワード単位相違度D(y+w,z,h,x+w)となる。音量判定モード“Off”の場合、ワード単位不一致ビット数D(y+w,z,h,x+w)=0として初期値を設定した後、Fd(y+w)とF(z,h,x+w)の32ビットを対応するビット単位に順次比較し、ビットが異なるごとに、D(y+w,z,h,x+w)に1加算していく。すなわち、Fd(y+w)とF(z,h,x+w)のワード単位に排他的論理和を演算し、得られた32ビットワード中の“1”であるビットの個数をカウントする。登録特徴ワード群、部分特徴ワード群のいずれにおいても、特徴ワードの特徴パターンは同様の規則で作成され、低周波成分をLSB、高周波成分をMSBとした32ビットの構成であるので、照合はこれらの各ビット値が一致するかどうかにより行うことができる。
(1.2.1. Volume judgment mode “Off”)
The sound volume determination mode “Off” is a mode in which no weight is added. When the sound volume determination mode “Off” is set, the word unit mismatch bit number D (y + w, z, h, x + w) is the difference in word units as it is. Is a word unit dissimilarity D (y + w, z, h, x + w) indicating the degree of. In the sound volume judgment mode “Off”, the initial value is set with the word unit mismatch bit number D (y + w, z, h, x + w) = 0, and then 32 bits of Fd (y + w) and F (z, h, x + w). Are sequentially compared in corresponding bit units, and 1 is added to D (y + w, z, h, x + w) every time the bits differ. That is, an exclusive OR is calculated in units of words of Fd (y + w) and F (z, h, x + w), and the number of “1” bits in the obtained 32-bit word is counted. In both the registered feature word group and the partial feature word group, the feature pattern of the feature word is created according to the same rule, and has a 32-bit configuration with the low frequency component as LSB and the high frequency component as MSB. This can be done depending on whether or not the bit values match.

(1.2.2.音量判定モード“Weight”)
音量判定モード“Weight”は重みを付加するモードであり、音量判定モード“Weight” が設定されている場合、ワード単位不一致ビット数D(y+w,z,h,x+w)=0として初期値を設定した後、Fd(y+w)とF(z,h,x+w)の32ビットを対応するビット単位に順次比較する。比較の結果に基づき、以下の〔数式6〕に従った処理を実行して、D(y+w,z,h,x+w)の値を定める。この結果、D(y+w,z,h,x+w)はワード単位不一致ビット数ではなく、音量データを加味したワード単位の相違の程度を示すワード単位相違度となる。このモードは、同一音響データから生成される登録特徴ワードと部分特徴ワードとの照合においては意味をもたないが、後述する登録特徴ワードと検索特徴ワードとの照合の際、後者の元となる検索音響データがアナログ変換などの信号処理を伴っていて、原音響データと音量の相対変化と音量の絶対値の双方が異なる場合に適切な照合結果を与える。
(1.2.2. Volume judgment mode “Weight”)
The volume determination mode “Weight” is a mode for adding a weight, and when the volume determination mode “Weight” is set, the initial value is set with the word unit mismatch bit number D (y + w, z, h, x + w) = 0. After that, 32 bits of Fd (y + w) and F (z, h, x + w) are sequentially compared in corresponding bit units. Based on the comparison result, the process according to the following [Formula 6] is executed to determine the value of D (y + w, z, h, x + w). As a result, D (y + w, z, h, x + w) is not a word unit mismatch bit number but a word unit dissimilarity indicating the degree of difference in word units taking into account volume data. This mode has no meaning in matching registered feature words and partial feature words generated from the same acoustic data, but becomes the latter source when matching registered feature words and search feature words, which will be described later. When the search sound data is accompanied by signal processing such as analog conversion, and the original sound data and the relative change of the sound volume and the absolute value of the sound volume are different, an appropriate matching result is given.

〔数式6〕
Fd(y+w)側がビット1で、F(z,h,x+w)側がビット0の場合、
D(y+w,z,h,x+w)←D(y+w,z,h,x+w)+Vd(y+w)・2/{Vd(y+w)+V(z,h,x+w)}
Fd(y+w)側がビット0で、F(z,h,x+w)側がビット1の場合、
D(y+w,z,h,x+w)←D(y+w,z,h,x+w)+V(z,h,x+w)・2/{Vd(y+w)+V(z,h,x+w)}
[Formula 6]
When the Fd (y + w) side is bit 1 and the F (z, h, x + w) side is bit 0,
D (y + w, z, h, x + w) ← D (y + w, z, h, x + w) + Vd (y + w) · 2 / {Vd (y + w) + V (z, h, x + w)}
When the Fd (y + w) side is bit 0 and the F (z, h, x + w) side is bit 1,
D (y + w, z, h, x + w) ← D (y + w, z, h, x + w) + V (z, h, x + w) · 2 / {Vd (y + w) + V (z, h, x + w)}

(1.2.3.音量判定モード“Match”)
音量判定モード“Match”が設定されている場合、まず、音量判定モード“Off”の場合の処理を行って、D(y+w,z,h,x+w)を得る。そして、以下の〔数式7〕に従った処理を実行することにより、重みを乗算してD(y+w,z,h,x+w)の値を定める。この結果、D(y+w,z,h,x+w)はワード単位不一致ビット数ではなく、音量データの変動パターンの相違分を加味したワード単位の相違の程度を示すワード単位相違度となる。このモードは、同一音響データから生成される登録特徴ワードと部分特徴ワードとの照合においては意味をもたないが、後述する登録特徴ワードと検索特徴ワードとの照合の際、後者の元となる検索音響データが各種データ圧縮などの信号処理を伴っていて、原音響データと音量の相対変化にはあまり相違がないが、絶対値が異なる場合に適切な照合結果を与える。本実施形態では本モードが最も推奨される。
(1.2.3. Volume judgment mode “Match”)
When the sound volume determination mode “Match” is set, first, processing in the sound volume determination mode “Off” is performed to obtain D (y + w, z, h, x + w). Then, by executing processing according to the following [Equation 7], the weight is multiplied to determine the value of D (y + w, z, h, x + w). As a result, D (y + w, z, h, x + w) is not a word unit mismatch bit number but a word unit dissimilarity indicating the degree of difference in word units taking into account the difference in the fluctuation pattern of the volume data. This mode has no meaning in matching registered feature words and partial feature words generated from the same acoustic data, but becomes the latter source when matching registered feature words and search feature words, which will be described later. The search acoustic data is accompanied by signal processing such as various types of data compression, and there is not much difference between the original acoustic data and the relative change in volume, but an appropriate collation result is given when the absolute values are different. In this embodiment, this mode is most recommended.

〔数式7〕
Vd(y+w)・Vd(y+w−1)>V(z,h,x+w)・V(z,h,x+w−1)の場合、
D(y+w,z,h,x+w)←D(y+w,z,h,x+w)・Vd(y+w)・Vd(y+w−1)/{V(z,h,x+w)・V(z,h,x+w−1)}
Vd(y+w)・Vd(y+w−1)<V(z,h,x+w)・V(z,h,x+w−1)の場合、
D(y+w,z,h,x+w)←D(y+w,z,h,x+w)・V(z,h,x+w)・V(z,h,x+w−1)/{Vd(y+w)・Vd(y+w−1)}
[Formula 7]
When Vd (y + w) · Vd (y + w−1)> V (z, h, x + w) · V (z, h, x + w−1),
D (y + w, z, h, x + w) ← D (y + w, z, h, x + w) .Vd (y + w) .Vd (y + w-1) / {V (z, h, x + w) .V (z, h, x + w-1)}
When Vd (y + w) · Vd (y + w−1) <V (z, h, x + w) · V (z, h, x + w−1),
D (y + w, z, h, x + w) ← D (y + w, z, h, x + w) · V (z, h, x + w) · V (z, h, x + w−1) / {Vd (y + w) · Vd ( y + w-1)}

なお、w=0の場合、上記〔数式7〕において、Vd(y+w−1)=Vd(y+w)およびV(z,h,x+w−1)=V(z,h,x+w)とする。   When w = 0, in the above [Expression 7], Vd (y + w-1) = Vd (y + w) and V (z, h, x + w-1) = V (z, h, x + w).

(1.2.4.音量判定モード“Both”)
音量判定モード“Both”が設定されている場合、まず、音量判定モード“Weight”の場合の処理を行って、D(y+w,z,h,x+w)を得る。そして、以下の〔数式8〕に従った処理を実行することにより、重みを乗算してD(y+w,z,h,x+w)の値を定める。この結果、D(y+w,z,h,x+w)はワード単位不一致ビット数ではなく、音量データを加味したワード単位の相違の程度を示すワード単位相違度となる。このモードは、同一音響データから生成される登録特徴ワードと部分特徴ワードとの照合においては意味をもたないが、後述する登録特徴ワードと検索特徴ワードとの照合の際、後者の元となる検索音響データが波形歪みを伴う高い圧縮率のデータ圧縮やアナログ変換などの信号処理を伴っていて、原音響データと音量の相対変化と音量の絶対値の双方が顕著に異なる場合に適切な照合結果を与える。
(1.2.4. Volume judgment mode “Both”)
When the sound volume determination mode “Both” is set, first, processing in the sound volume determination mode “Weight” is performed to obtain D (y + w, z, h, x + w). Then, by executing the processing according to the following [Equation 8], the value of D (y + w, z, h, x + w) is determined by multiplying the weight. As a result, D (y + w, z, h, x + w) is not a word unit mismatch bit number but a word unit dissimilarity indicating the degree of difference in word units taking into account volume data. This mode has no meaning in matching registered feature words and partial feature words generated from the same acoustic data, but becomes the latter source when matching registered feature words and search feature words, which will be described later. Appropriate verification when the search sound data is accompanied by signal processing such as high compression ratio data compression with waveform distortion and analog conversion, and both the relative change in volume and the absolute value of volume are significantly different from the original sound data Give the result.

〔数式8〕
Vd(y+w)・V(z,h,x+w−1)>V(z,h,x+w)・Vd(y+w−1)の場合、
D(y+w,z,h,x+w)←D(y+w,z,h,x+w)・Vd(y+w)・V(z,h,x+w−1)/{V(z,h,x+w)・Vd(y+w−1)}
Vd(y+w)・V(z,h,x+w−1)<V(z,h,x+w)・Vd(y+w−1)の場合、
D(y+w,z,h,x+w)←D(y+w,z,h,x+w)・V(z,h,x+w)・Vd(y+w−1)/{Vd(y+w)・V(z,h,x+w−1)}
[Formula 8]
When Vd (y + w) · V (z, h, x + w−1)> V (z, h, x + w) · Vd (y + w−1),
D (y + w, z, h, x + w) ← D (y + w, z, h, x + w) · Vd (y + w) · V (z, h, x + w−1) / {V (z, h, x + w) · Vd ( y + w-1)}
If Vd (y + w) · V (z, h, x + w−1) <V (z, h, x + w) · Vd (y + w−1),
D (y + w, z, h, x + w) ← D (y + w, z, h, x + w) · V (z, h, x + w) · Vd (y + w−1) / {Vd (y + w) · V (z, h, x + w-1)}

なお、w=0の場合、上記〔数式8〕において、Vd(y+w−1)=Vd(y+w)およびV(z,h,x+w−1)=V(z,h,x+w)とする。   When w = 0, in the above [Expression 8], Vd (y + w−1) = Vd (y + w) and V (z, h, x + w−1) = V (z, h, x + w).

音量判定モード“Off”以外の場合、D(y+w,z,h,x+w)はワード単位不一致ビット数ではなく、音量データを加味したワード単位の相違の程度を示すワード単位相違度となるため、図5、図6におけるS(y,z,h,x)は合算不一致ビット数ではなく、合算相違度を表すことになる。また、図4、図5におけるSminは最小不一致ビット数ではなく、最小相違度を表すことになる。   In the case other than the sound volume determination mode “Off”, D (y + w, z, h, x + w) is not the word unit mismatch bit number but the word unit dissimilarity indicating the degree of difference of the word unit considering the sound volume data. In FIG. 5 and FIG. 6, S (y, z, h, x) represents the total dissimilarity, not the total mismatch bit number. Further, Smin in FIGS. 4 and 5 represents not the minimum mismatch bit number but the minimum difference.

結局、図4のS170において最適判定しきい値M(=S/Z)が算出されるので、各原音響データについて、その原音響データについての関連情報、当該原音響データを一意に識別できるように定義されたID、登録特徴ワード、最適判定しきい値とを対応付けて音響データベース50に登録する。関連情報としては、当該原音響データに関連する情報であれば、どのようなものでも良いが、例えば、当該原音響データが楽曲であれば、曲名や演奏者名、当該原音響データがCM音声であれば、そのスポンサー企業の名前やURL等を用いることができる。ただし、当該原音響データの制作・マスタリングに使用した一連のバイナリ形式の素材データ(ミックスダウンする前の個別の録音データ、MIDI打ち込みデータ)等は著作権法上の制約により通常対象外とする。   Eventually, the optimum determination threshold value M (= S / Z) is calculated in S170 of FIG. 4, so that for each original sound data, the related information about the original sound data and the original sound data can be uniquely identified. Are registered in the acoustic database 50 in association with the ID, the registered feature word, and the optimum determination threshold value. The related information may be any information as long as it is related to the original sound data. For example, if the original sound data is a song, the name of the song, the name of the player, and the original sound data are CM audio. If so, the name or URL of the sponsoring company can be used. However, a series of binary-format material data (individual recording data before mixing down, MIDI input data) used for production / mastering of the original sound data is not normally subject to restrictions due to copyright laws.

(2.関連情報検索装置)
次に、本発明に係る音響データの関連情報検索装置(以下「関連情報検索装置」という。)について説明する。図7は、本発明に係る関連情報検索装置の構成図である。図7において、50は音響データベース、60は特徴ワード生成手段、70は特徴ワード照合手段、80は情報出力手段である。関連情報検索装置は、利用者が保有している検索音響データを用いて、音響データベースに登録されている原音響データに関する関連情報を検索音響データに関連する関連情報として検索するものである。検索音響データとは、検索に用いる音響データである。検索の際、検索音響データから生成した特徴ワードである検索特徴ワードと、あらかじめ音響データベース50に登録されている登録特徴ワードの照合を行う必要がある。そのため、検索特徴ワードと登録特徴ワードは基本的に同一の構造である必要があるが(なお、前者の検索特徴ワード群は前述の部分特徴ワード群と同様に位相を変化させた複数の特徴ワード群のセットが生成される)、その基になる検索音響データと原音響データは種々の符号化形式で圧縮され、入手形態により互いに異なる符号化形式になるのが一般的であるため、同一の符号化形式になるように変換する必要がある。本実施形態では、検索音響データも原音響データも同じ仕様(サンプリング周波数:44.1kHz、量子化ビット数:16bits、チャンネル数:1・モノラルといったPCM形式のパラメータ)のPCM形式になるように変換し統一させるようにしている。
(2. Related information retrieval device)
Next, a related information search device for acoustic data according to the present invention (hereinafter referred to as “related information search device”) will be described. FIG. 7 is a configuration diagram of a related information retrieval apparatus according to the present invention. In FIG. 7, 50 is an acoustic database, 60 is a feature word generating means, 70 is a feature word collating means, and 80 is an information output means. The related information search device searches for related information related to the original sound data registered in the sound database as related information related to the search sound data using the search sound data held by the user. The search sound data is sound data used for search. At the time of search, it is necessary to collate a search feature word, which is a feature word generated from the search acoustic data, with a registered feature word registered in the acoustic database 50 in advance. For this reason, the search feature word and the registered feature word must basically have the same structure (note that the former search feature word group includes a plurality of feature words whose phases are changed in the same manner as the partial feature word group described above. A set of groups is generated), the search sound data and the original sound data that are based on it are compressed in various encoding formats, and are generally different from each other depending on the form of acquisition. It is necessary to convert to an encoding format. In this embodiment, the search sound data and the original sound data are converted into the PCM format having the same specifications (sampling frequency: 44.1 kHz, quantization bit number: 16 bits, channel number: 1 / monophonic PCM format parameter). I try to unify.

検索特徴ワード生成手段60は、図1に示した登録特徴ワード生成手段10と同様、読み込んだ音響フレームを利用して、周波数解析を行い、その検索音響データの特徴を表現した特徴ワードを生成する機能を有している。ただし、前述した部分特徴ワードの生成と同様に、位相をずらした複数(H個)の特徴ワード群のセットを生成するようにしている。特徴ワード照合手段70は、生成した検索特徴ワードと、音響データベース50に登録されている登録特徴ワードとの照合を行う機能を有している。情報出力手段80は、特徴ワード照合手段70による照合の結果、検索音響データの特徴に類似する原音響データについての関連情報を、音響データベース50から抽出して出力する機能を有している。図7に示した各構成手段は、現実には演算処理装置を備えた機器に専用のプログラムを搭載することにより実現される。好ましい例としては、音響データベースが稼動されているサーバーコンピュータとネットワークで接続されている高性能な演算処理機能を備えているパーソナルコンピュータが、専用のプログラムに従って各手段の内容を実行する場合が挙げられる。   Similar to the registered feature word generation unit 10 shown in FIG. 1, the search feature word generation unit 60 performs frequency analysis using the read sound frame and generates a feature word expressing the features of the search sound data. It has a function. However, similarly to the generation of the partial feature words described above, a set of a plurality of (H) feature word groups whose phases are shifted is generated. The feature word collating unit 70 has a function of collating the generated search feature word with the registered feature word registered in the acoustic database 50. The information output means 80 has a function of extracting the relevant information about the original sound data similar to the feature of the searched sound data as a result of the matching by the feature word matching means 70 and outputting it. Each component shown in FIG. 7 is actually realized by mounting a dedicated program on a device including an arithmetic processing unit. As a preferred example, there is a case where a personal computer having a high-performance arithmetic processing function connected to a server computer on which an acoustic database is operated through a network executes the contents of each means according to a dedicated program. .

続いて、図7に示した装置の処理動作について説明する。まず、利用者が保有している検索音響データを検索したいと思った場合、関連情報検索装置に対して起動の指示を行い、起動後、検索対象とする検索音響データを指定する。これは、所定のコンピュータ画面上のボタンを操作し、関連情報検索装置の記憶領域内に保存されている検索音響データを指定することにより実行できる。現実には、検索音響データは、MP3等の圧縮形式であることが多いため、PCM形式に変換した後、処理を行う。指示が入力されると、特徴ワード生成手段60が、指定された検索音響データから、それぞれ所定数のサンプルを1音響フレームとして読み込む。この処理は、関連情報登録装置が行ったのと同様に行われる。すなわち、1音響フレームのサンプル数は、サンプリング周波数が44.1kHzの場合、4096サンプルとする。また、音響フレームは、2048サンプルを重複させて読み込むことにしている。   Subsequently, the processing operation of the apparatus shown in FIG. 7 will be described. First, when the user wants to search for the search sound data held by the user, the related information search device is instructed to start, and after the start, the search sound data to be searched is designated. This can be executed by operating a button on a predetermined computer screen and designating search acoustic data stored in the storage area of the related information search device. Actually, since the search sound data is often in a compression format such as MP3, it is processed after being converted into the PCM format. When an instruction is input, the feature word generation means 60 reads a predetermined number of samples as one acoustic frame from the designated search acoustic data. This process is performed in the same manner as that performed by the related information registration apparatus. That is, the number of samples in one acoustic frame is 4096 samples when the sampling frequency is 44.1 kHz. In addition, the sound frame is read by overlapping 2048 samples.

ここから検索特徴ワードの生成までの処理は、図8のフローチャートに従ったものとなる。図8のフローチャートは、登録特徴ワード生成についての図2のフローチャートとほぼ同様のものとなっている。検索特徴ワード生成手段60は、読み込んだ各音響フレームに対して、周波数変換を行って、その音響フレームのスペクトルであるフレームスペクトルを得る(S21)。関連情報登録装置と同様、周波数変換としては、フーリエ変換、ウェーブレット変換その他公知の種々の手法を用いることができるが、関連情報登録装置の処理と合わせる必要があるため、本実施形態では、フーリエ変換を用いる。   The processing from here to the generation of the search feature word follows the flowchart of FIG. The flowchart in FIG. 8 is almost the same as the flowchart in FIG. 2 for the registration feature word generation. The search feature word generation unit 60 performs frequency conversion on each read sound frame to obtain a frame spectrum that is a spectrum of the sound frame (S21). As with the related information registration apparatus, as the frequency conversion, Fourier transform, wavelet transform, and other various known methods can be used. However, since it is necessary to match the processing of the related information registration apparatus, in this embodiment, the Fourier transform Is used.

さらに、S22〜S28において、上記〔数式2〕〜上記〔数式4’〕に従った処理を行ってSn(h)を得た後、32ビットの特徴パターンを生成するとともに、上記〔数式5’〕に従った処理を行って8ビットの音量データVol(h)を生成して、40ビットの特徴ワードを得る。すなわち、関連情報検索装置では、関連情報登録装置に比べてH倍(本願実施例では、H=5)の特徴ワードを生成する。検索対象とする検索音響データは、楽曲の一部が切り取られたものであるため、必ずしも、データベースに登録された登録音響データとのタイミングが一致するものではなく、位置ずれが生じることがある。関連情報登録装置において生成した手法でも、11個の音響フレームを平均化して生成しているため、比較的位置ずれには強い。しかし、リズム変化が激しい検索音響データの場合、特徴ワードの生成単位である11音響フレームの、ほぼ半分である5音響フレーム程度ずれると、顕著に異なる特徴ワードが生成され、誤った情報が検索されてしまう。そのため、1解析単位である11音響フレームの範囲内で2音響フレームずつ遅らせて(位相を変更して)複数の検索特徴ワードを生成して、音響データベース50内の登録特徴ワードと照合するようにする。   Further, in S22 to S28, after performing processing according to the above [Formula 2] to [Formula 4 ′] to obtain Sn (h), a 32-bit feature pattern is generated, and the above [Formula 5 ′ ] To generate 8-bit volume data Vol (h) to obtain a 40-bit feature word. That is, the related information search device generates H times (H = 5 in this embodiment) feature words as compared to the related information registration device. Since the search acoustic data to be searched is a piece of music cut out, the timing does not necessarily coincide with the registered acoustic data registered in the database, and a positional shift may occur. Even in the method generated in the related information registration apparatus, since 11 acoustic frames are generated by averaging, they are relatively resistant to displacement. However, in the case of searched sound data with a sharp rhythm change, if the sound sound is shifted by about 5 sound frames, which is almost half of 11 sound frames, which is a feature word generation unit, significantly different feature words are generated, and erroneous information is searched. End up. Therefore, a plurality of search feature words are generated by delaying (changing the phase) two sound frames within a range of 11 sound frames as one analysis unit, and collated with registered feature words in the sound database 50. To do.

具体的には、関連情報登録装置では、フレーム1〜フレーム11までで1つの特徴ワードを生成するが、関連情報検索装置では、フレーム1〜フレーム11で特徴ワードを生成するとともに、2音響フレーム分、4音響フレーム分、6音響フレーム分、8音響フレーム分ずらした(位相を変更した)音響フレーム群からも特徴ワードを生成する。すなわち、フレーム3〜フレーム13、フレーム5〜フレーム15、フレーム7〜フレーム17、フレーム9〜フレーム19においても特徴ワードを生成する。   Specifically, the related information registration device generates one feature word from frame 1 to frame 11, whereas the related information search device generates a feature word from frame 1 to frame 11 and for two acoustic frames. A feature word is also generated from a group of acoustic frames shifted (by changing the phase) by four acoustic frames, six acoustic frames, and eight acoustic frames. That is, feature words are also generated in frames 3 to 13, frames 5 to 15, frames 7 to 17, and frames 9 to 19.

検索の目的とする検索音響データについて、検索特徴ワード群が得られたら、次に、特徴ワード照合手段70が、検索特徴ワード群を用いて、音響データベース50に登録された原音響データの関連情報を検索する。具体的には、検索特徴ワード群と、音響データベース50に登録された登録特徴ワード群との比較を行い、所定の条件を満たすレコードを抽出する。この検索処理を、図9〜図11のフローチャートを用いて説明する。   When the search feature word group is obtained for the search acoustic data to be searched, the feature word collating unit 70 then uses the search feature word group to relate the related information of the original acoustic data registered in the acoustic database 50. Search for. Specifically, the search feature word group and the registered feature word group registered in the acoustic database 50 are compared, and a record satisfying a predetermined condition is extracted. This search process will be described with reference to the flowcharts of FIGS.

図9〜図11においては、各変数を以下のように定義する。
[登録特徴ワード]
R:レコード件数(音響データベース50が管理する原音響データの数)
Y(r):レコードr(r=0,・・・,R−1)の登録特徴ワード数
Fd(r,y):レコードr(r=0,・・・,R−1)の特徴パターン配列(y=0,・・・,Y−1)、32ビット
Vd(r,y):レコードr(r=0,・・・,R−1)の音量データ配列(y=0,・・・,Y−1)、8ビット
[検索特徴ワード]
X(h):ずらし(位相)h(h=0,・・・,H−1)における検索特徴ワード数
F(h,x):特徴パターン配列(x=0,・・・,X(h)−1)、32ビット
V(h,x):音量データ配列(x=0,・・・,X(h)−1)、8ビット
[照合変数]
W:照合ワード数(w=0,・・・,W−1)、照合する登録特徴ワード、部分特徴ワードの数(例.W=6)
D(r,y+w,h,x+w):特徴パターンのワード単位不一致ビット数(0以上32以下)
S(r,y,h,x):合算不一致ビット数、照合ワード数W個のワード単位不一致ビット数D(r,y+w,h,x+w)を合算したもの(Σw=0,…,W-1D(r,y+w,h,x+w))
9 to 11, each variable is defined as follows.
[Registration feature word]
R: Number of records (number of original acoustic data managed by the acoustic database 50)
Y (r): Number of registered feature words of record r (r = 0,..., R-1) Fd (r, y): Feature pattern of record r (r = 0,..., R-1) Array (y = 0,..., Y-1), 32-bit Vd (r, y): Volume data array (y = 0,...) Of record r (r = 0,..., R-1) ., Y-1), 8 bits
[Search feature word]
X (h): Number of search feature words in shift (phase) h (h = 0,..., H−1) F (h, x): Feature pattern array (x = 0,..., X (h) ) -1), 32 bits V (h, x): Volume data array (x = 0,..., X (h) -1), 8 bits
[Collation variable]
W: Number of collation words (w = 0,..., W−1), number of registered feature words and partial feature words to be collated (eg, W = 6)
D (r, y + w, h, x + w): Number of mismatch bits in word unit of feature pattern (0 to 32)
S (r, y, h, x): the sum of the mismatched bit number, the word count mismatched bit number D (r, y + w, h, x + w) of the collation word number (Σw = 0,..., W -1 D (r, y + w, h, x + w))

図9は、特徴ワード照合手段70による検索特徴ワード群を用いた音響データ検索のフローチャートである。まず、初期設定を行う(S210)。具体的には、適合テーブルSmin(c)=初期値Big2、適合テーブルRmin(c)=−1、適合件数c=0、レコード番号r=0に設定する。初期値Big2は、最小不一致ビット数として取り得る値よりも十分に大きな値であれば良く、事前に設定されることになる。続いて、レコードrに対応付けて登録された登録特徴ワード群と、検索特徴ワード群との照合を行う(S220)。S220における照合の結果、所定の条件を満たすレコードについては、Rmin(c)にそのレコード番号rが与えられて出力される。このS220の処理については後述する。   FIG. 9 is a flowchart of the acoustic data search using the search feature word group by the feature word collating unit 70. First, initial setting is performed (S210). Specifically, the matching table Smin (c) = initial value Big2, the matching table Rmin (c) = − 1, the matching number c = 0, and the record number r = 0 are set. The initial value Big2 may be a value sufficiently larger than a value that can be taken as the minimum number of mismatch bits, and is set in advance. Subsequently, the registered feature word group registered in association with the record r is collated with the search feature word group (S220). As a result of the collation in S220, the record number r is given to Rmin (c) and outputted. The process of S220 will be described later.

Rmin(c)が得られたら、Rmin(c)が0以上かどうかを判断する特(S230)。Rmin(c)が0以上の場合、レコードが適合したと判断して、適合件数cに1加算する処理を行う(S240)。Rmin(c)が0未満の場合、レコードが適合しなかったと判断して、適合件数cの加算は行わない。詳しくは後述するが、S220において、Rmin(c)に0未満の値を初期値として設定しておき、レコードが適合すると判断された場合に0以上の値であるレコード番号rをRmin(c)に与える。このため、S240においては、Rmin(c)が0以上かどうかを判断することによりレコードの適合を判断するのである。   If Rmin (c) is obtained, it is determined whether Rmin (c) is 0 or more (S230). When Rmin (c) is 0 or more, it is determined that the record is matched, and a process of adding 1 to the number of matching cases c is performed (S240). If Rmin (c) is less than 0, it is determined that the record has not been matched, and the matching number c is not added. As will be described in detail later, in S220, a value less than 0 is set as an initial value in Rmin (c), and when it is determined that the record is suitable, a record number r that is 0 or more is set to Rmin (c). To give. For this reason, in S240, the suitability of the record is determined by determining whether Rmin (c) is 0 or more.

次に、レコードを特定する変数rをインクリメント、すなわち1だけ増加する(S250)。そして、レコードを特定する変数rが音響データベース内の総レコード数Rに達したかどうかを判断し(S260)、達していない場合は、S220に戻って、次のレコードrについて照合処理を行う。各レコードrについて処理を実行し、レコードrが総レコード数Rに達したら、すなわちR個全ての総レコードに対する処理を終えたら、適合テーブルRmin(c)を、適合テーブルSmin(c)の値に基づいて昇順ソートし、適合件数cとともに一覧出力する(S270)。   Next, the variable r specifying the record is incremented, that is, increased by 1 (S250). Then, it is determined whether or not the variable r for specifying the record has reached the total number R of records in the acoustic database (S260). If not, the process returns to S220 and the next record r is collated. When processing is performed for each record r and the record r reaches the total number of records R, that is, when processing for all R total records is completed, the matching table Rmin (c) is changed to the value of the matching table Smin (c). Based on the ascending order, the list is output together with the matching number c (S270).

次に、図9のS220におけるレコードrの照合処理の詳細について図10のフローチャートを用いて説明する。まず、初期設定を行う(S221)。具体的には、適合テーブルSmin(c)=初期値Big2、適合テーブルRmin(c)=−1、検索特徴ワードを特定する変数x=0、位相を特定する変数h=0、登録特徴ワードを特定する変数y=0に設定する。続いて、合算不一致ビット数S(r,y,h,x)の算出を行う(S222)。合算不一致ビット数S(r,y,h,x)が得られたら、レコードrに対応付けて登録された最適判定しきい値Mを音響データベース50から抽出して、合算不一致ビット数S(r,y,h,x)が、最適判定しきい値M以下であるかどうかを判断する(S223)。合算不一致ビット数S(r,y,h,x)が最適判定しきい値M以下である場合、合算不一致ビット数S(r,y,h,x)が、合算不一致ビット数最小値Sminより小さいかどうかを判断する(S224)。     Next, details of the record r matching processing in S220 of FIG. 9 will be described using the flowchart of FIG. First, initial setting is performed (S221). Specifically, the matching table Smin (c) = initial value Big2, the matching table Rmin (c) = − 1, the variable x = 0 for specifying the search feature word, the variable h = 0 for specifying the phase, and the registered feature word The variable y to be specified is set to 0. Subsequently, the sum mismatch bit number S (r, y, h, x) is calculated (S222). When the total mismatch bit number S (r, y, h, x) is obtained, the optimum determination threshold value M registered in association with the record r is extracted from the acoustic database 50, and the total mismatch bit number S (r , Y, h, x) is determined whether it is equal to or less than the optimum determination threshold value M (S223). When the total mismatch bit number S (r, y, h, x) is less than or equal to the optimum determination threshold value M, the total mismatch bit number S (r, y, h, x) is smaller than the total mismatch bit number minimum value Smin. It is determined whether it is small (S224).

合算不一致ビット数S(r,y,h,x)が合算不一致ビット数最小値Sminより小さい場合に限り、rの値を適合テーブルRmin(c)にセットし、S(r,y,h,x)の値を適合テーブルSmin(c)にセットする処理を行う(S225)。次に、変数xをインクリメントして、S222〜S225の処理を繰り返し、さらにxがX(h)になったら、x=0としてhをインクリメントして、S222〜S225の処理を繰り返し、X(h)がHになったら、h=x=0としてyをインクリメントして、S222〜S225の処理を繰り返す(S226)。   Only when the sum mismatch bit number S (r, y, h, x) is smaller than the sum mismatch bit number minimum value Smin, the value of r is set in the adaptation table Rmin (c), and S (r, y, h, A process of setting the value of x) in the matching table Smin (c) is performed (S225). Next, the variable x is incremented, and the processing of S222 to S225 is repeated. When x becomes X (h), x is incremented by x = 0, the processing of S222 to S225 is repeated, and X (h ) Becomes H, y is incremented with h = x = 0, and the processing of S222 to S225 is repeated (S226).

そして、yがレコードrの全登録特徴ワード数Y(r)に達したかどうかを判断し(S227)、達していない場合は、S222に戻って、次の登録特徴ワードyについて、合算不一致ビット数最小値Sminの算出処理を行う。各登録特徴ワードyについて処理を実行し、変数yがレコードrの全登録特徴ワード数Y(r)に達したら、すなわちY(r)個全ての登録特徴ワードに対する処理を終えたら、その時点における適合テーブルRmin(c)、適合テーブルSmin(c)を出力する。この適合テーブルRmin(c)、適合テーブルSmin(c)が図9のS220において得られることになる。   Then, it is determined whether or not y has reached the number of all registered feature words Y (r) of the record r (S227). If not, the process returns to S222 to add the sum mismatch bit for the next registered feature word y. The number minimum value Smin is calculated. Processing is performed for each registered feature word y, and when the variable y reaches the total number Y (r) of registered feature words in the record r, that is, when processing for all the registered feature words Y (r) is completed, The matching table Rmin (c) and the matching table Smin (c) are output. The matching table Rmin (c) and the matching table Smin (c) are obtained in S220 of FIG.

次に、図10のS222における合算不一致ビット数S(r,y,h,x)の算出処理の詳細について図11のフローチャートを用いて説明する。まず、初期設定を行う(S281)。具体的には、合算不一致ビット数S(r,y,h,x)=0、特徴ワードの照合個数を示す変数w=0に設定する。初期設定後、登録特徴ワードの音量データVd(r,y+w)、検索特徴ワードの音量データV(h,x+w)がともに0より大きいという条件を満たすかどうかを判断する(S282)。登録特徴ワードの音量データVd(r,y+w)、検索特徴ワードの音量データV(h,x+w)は、それぞれ原音響データ全体、検索音響データに対して〔数式5〕および〔数式5’〕に従った処理を実行し、“Vol”および“Vol(h)”として算出されたものである。S282における判断の結果、登録特徴ワードの音量データVd(r,y+w)、検索特徴ワードの音量データV(z,h,x+w)がともに0より大きいという条件を満たす場合に限り、登録特徴ワード1つと検索特徴ワード1つを比較した場合の、不一致ビット数であるワード単位不一致ビット数D(r,y+w,h,x+w)を算出する(S283)。   Next, details of the calculation processing of the total mismatch bit number S (r, y, h, x) in S222 of FIG. 10 will be described using the flowchart of FIG. First, initial setting is performed (S281). Specifically, the total mismatch bit number S (r, y, h, x) = 0 and the variable w = 0 indicating the number of feature word collations are set. After the initial setting, it is determined whether or not the condition that the volume data Vd (r, y + w) of the registered feature word and the volume data V (h, x + w) of the search feature word are both greater than 0 is satisfied (S282). The volume data Vd (r, y + w) of the registered feature word and the volume data V (h, x + w) of the search feature word are expressed in [Formula 5] and [Formula 5 ′] for the entire original sound data and the retrieved sound data, respectively. The processing according to the above is executed, and “Vol” and “Vol (h)” are calculated. As a result of the determination in S282, the registered feature word 1 only when the volume data Vd (r, y + w) of the registered feature word and the volume data V (z, h, x + w) of the search feature word are both greater than 0. The word unit mismatch bit number D (r, y + w, h, x + w), which is the number of mismatch bits when the search feature word is compared with one search feature word, is calculated (S283).

次に、ワード単位不一致ビット数D(r,y+w,h,x+w)が所定値Mw以下であるかどうかを判断する(S284)。S284における判断の結果、ワード単位不一致ビット数D(r,y+w,h,x+w)が所定値Mw以下である場合に限り、ワード単位不一致ビット数D(r,y+w,h,x+w)を合算不一致ビット数S(r,y,h,x)に加算する処理を行う(S285)。S285においては、特徴ワードの照合個数を示す変数wをインクリメントする処理も行う。そして、特徴ワードの照合個数を示す変数wが所定数Wに達したかどうかを判断し(S286)、達していない場合は、S282に戻って、次の特徴ワードについて処理を行う。各特徴ワードについて処理を実行し、変数wが所定数Wに達したら、その時点における合算不一致ビット数S(r,y,h,x)を、あるx,h,yについての合算不一致ビット数S(r,y,h,x)として出力する。この合算不一致ビット数S(r,y,h,x)が図10のS222において得られることになる。なお、S282、S284において条件を満たさないと判断された場合には、合算不一致ビット数の算出エラーが出力される。   Next, it is determined whether or not the word unit mismatch bit number D (r, y + w, h, x + w) is equal to or smaller than a predetermined value Mw (S284). As a result of the determination in S284, the word unit mismatch bit number D (r, y + w, h, x + w) is not integrated only when the word unit mismatch bit number D (r, y + w, h, x + w) is equal to or less than the predetermined value Mw. A process of adding to the bit number S (r, y, h, x) is performed (S285). In S285, a process of incrementing the variable w indicating the number of feature word collations is also performed. Then, it is determined whether or not the variable w indicating the number of collated feature words has reached a predetermined number W (S286). If not, the process returns to S282 and the next feature word is processed. When processing is performed for each feature word and the variable w reaches a predetermined number W, the total mismatch bit number S (r, y, h, x) at that time is calculated as the total mismatch bit number for a certain x, h, y. Output as S (r, y, h, x). This sum mismatch bit number S (r, y, h, x) is obtained in S222 of FIG. If it is determined that the condition is not satisfied in S282 and S284, a calculation error of the number of total mismatch bits is output.

(2.2.ワード単位不一致ビット数の算出)
図11のS283におけるワード単位不一致ビット数D(r,y+w,h,x+w)の算出について説明する。ワード単位不一致ビット数D(r,y+w,h,x+w)の算出については、利用者により設定される音量判定モードにより具体的な処理内容が異なる。音量判定モードとしては、Off、Weight、Match、Bothの4つが存在する。
(2.2. Calculation of word unit mismatch bit number)
The calculation of the word unit mismatch bit number D (r, y + w, h, x + w) in S283 in FIG. 11 will be described. Regarding the calculation of the word unit mismatch bit number D (r, y + w, h, x + w), the specific processing contents differ depending on the sound volume determination mode set by the user. There are four volume determination modes: Off, Weight, Match, and Both.

(2.2.1.音量判定モード“Off”)
音量判定モード“Off”は重みを付加しないモードであり、音量判定モード“Off”が設定されている場合、ワード単位不一致ビット数D(r,y+w,h,x+w)は、そのままワード単位の相違の程度を示すワード単位相違度D(r,y+w,h,x+w)となる。音量判定モード“Off”の場合、ワード単位不一致ビット数D(r,y+w,h,x+w)=0として初期値を設定した後、Fd(r,y+w)とF(h,x+w)の32ビットを対応するビット単位に順次比較し、ビットが異なるごとに、D(r,y+w,h,x+w)に1加算していく。登録特徴ワード群、検索特徴ワード群のいずれにおいても、特徴ワードの特徴パターンは同様の規則で作成され、低周波成分をLSB、高周波成分をMSBとした32ビットの構成であるので、照合はこれらの各ビット値が一致するかどうかにより行うことができる。
(2.2.1. Volume judgment mode “Off”)
The volume determination mode “Off” is a mode in which no weight is added, and when the volume determination mode “Off” is set, the word unit mismatch bit number D (r, y + w, h, x + w) is directly different in word units. This is a word unit dissimilarity D (r, y + w, h, x + w) indicating the degree of. In the sound volume determination mode “Off”, the initial value is set with the word unit mismatch bit number D (r, y + w, h, x + w) = 0, and then 32 bits of Fd (r, y + w) and F (h, x + w). Are sequentially compared in corresponding bit units, and 1 is added to D (r, y + w, h, x + w) every time the bits differ. In both the registered feature word group and the search feature word group, the feature pattern of the feature word is created according to the same rule, and has a 32-bit configuration in which the low frequency component is LSB and the high frequency component is MSB. This can be done depending on whether or not the bit values match.

(2.2.2.音量判定モード“Weight”)
音量判定モード“Weight”は重みを付加するモードであり、音量判定モード“Weight” が設定されている場合、ワード単位不一致ビット数D(r,y+w,h,x+w)=0として初期値を設定した後、Fd(r,y+w)とF(h,x+w)の32ビットを対応するビット単位に順次比較する。比較の結果に基づき、以下の〔数式9〕に従った処理を実行して、D(r,y+w,h,x+w)の値を定める。この結果、D(y+w,z,h,x+w)はワード単位不一致ビット数ではなく、音量データを加味したワード単位の相違の程度を示すワード単位相違度となる。このモードは、同一原音響データから生成される登録特徴ワードと部分特徴ワードとの照合においては意味をもたないが、登録特徴ワードと検索特徴ワードとの照合の際、後者の元となる検索音響データがアナログ変換などの信号処理を伴っていて、原音響データと音量の相対変化と音量の絶対値の双方が異なる場合に適切な照合結果を与える。
(2.2.2. Volume judgment mode “Weight”)
The sound volume determination mode “Weight” is a mode for adding a weight, and when the sound volume determination mode “Weight” is set, the initial value is set with the word unit mismatch bit number D (r, y + w, h, x + w) = 0. After that, the 32 bits of Fd (r, y + w) and F (h, x + w) are sequentially compared in corresponding bit units. Based on the result of the comparison, processing according to the following [Equation 9] is executed to determine the value of D (r, y + w, h, x + w). As a result, D (y + w, z, h, x + w) is not a word unit mismatch bit number but a word unit dissimilarity indicating the degree of difference in word units taking into account volume data. This mode has no meaning in matching registered feature words and partial feature words generated from the same original sound data, but the latter search is performed when matching registered feature words and search feature words. When the acoustic data is accompanied by signal processing such as analog conversion, and the original acoustic data, the relative change in volume and the absolute value of the volume are different, an appropriate matching result is given.

〔数式9〕
Fd(r,y+w)側がビット1で、F(h,x+w)側がビット0の場合、
D(r,y+w,h,x+w)←D(r,y+w,h,x+w)+Vd(r,y+w)・2/{Vd(r,y+w)+V(h,x+w)}
Fd(r,y+w)側がビット0で、F(h,x+w)側がビット1の場合、
D(r,y+w,h,x+w)←D(r,y+w,h,x+w)+V(h,x+w)・2/{Vd(r,y+w)+V(h,x+w)}
[Formula 9]
When the Fd (r, y + w) side is bit 1 and the F (h, x + w) side is bit 0,
D (r, y + w, h, x + w) ← D (r, y + w, h, x + w) + Vd (r, y + w) · 2 / {Vd (r, y + w) + V (h, x + w)}
When the Fd (r, y + w) side is bit 0 and the F (h, x + w) side is bit 1,
D (r, y + w, h, x + w) ← D (r, y + w, h, x + w) + V (h, x + w) · 2 / {Vd (r, y + w) + V (h, x + w)}

(2.2.3.音量判定モード“Match”)
音量判定モード“Match”が設定されている場合、まず、音量判定モード“Off”の場合の処理を行って、D(r,y+w,h,x+w)を得る。そして、以下の〔数式10〕に従った処理を実行することにより、重みを乗算してD(r,y+w,h,x+w)の値を定める。この結果、D(y+w,z,h,x+w)はワード単位不一致ビット数ではなく、音量データの変動パターンの相違分を加味したワード単位の相違の程度を示すワード単位相違度となる。このモードは、同一原音響データから生成される登録特徴ワードと部分特徴ワードとの照合においては意味をもたないが、登録特徴ワードと検索特徴ワードとの照合の際、後者の元となる検索音響データが各種データ圧縮などの信号処理を伴っていて、原音響データと音量の相対変化にはあまり相違がないが、絶対値が異なる場合に適切な照合結果を与える。本実施形態では本モードが最も推奨される。
(2.2.3. Volume judgment mode “Match”)
When the sound volume determination mode “Match” is set, first, processing in the sound volume determination mode “Off” is performed to obtain D (r, y + w, h, x + w). Then, by executing the processing according to the following [Equation 10], the value of D (r, y + w, h, x + w) is determined by multiplying the weight. As a result, D (y + w, z, h, x + w) is not a word unit mismatch bit number but a word unit dissimilarity indicating the degree of difference in word units taking into account the difference in the fluctuation pattern of the volume data. This mode has no meaning in matching registered feature words and partial feature words generated from the same original sound data, but the latter search is performed when matching registered feature words and search feature words. The acoustic data is accompanied by signal processing such as various data compression, and there is not much difference between the original acoustic data and the relative change in volume, but an appropriate collation result is given when the absolute values are different. In this embodiment, this mode is most recommended.

〔数式10〕
Vd(r,y+w)・Vd(r,y+w−1)>V(h,x+w)・V(h,x+w−1)の場合、
D(r,y+w,h,x+w)←D(r,y+w,h,x+w)・Vd(r,y+w)・Vd(r,y+w−1)/{V(h,x+w)・V(h,x+w−1)}
Vd(r,y+w)・Vd(r,y+w−1)<V(h,x+w)・V(h,x+w−1)の場合、
D(r,y+w,h,x+w)←D(r,y+w,h,x+w)・V(h,x+w)・V(h,x+w−1)/{Vd(r,y+w)・Vd(r,y+w−1)}
[Formula 10]
When Vd (r, y + w) · Vd (r, y + w−1)> V (h, x + w) · V (h, x + w−1),
D (r, y + w, h, x + w) ← D (r, y + w, h, x + w) · Vd (r, y + w) · Vd (r, y + w−1) / {V (h, x + w) · V (h, x + w-1)}
When Vd (r, y + w) · Vd (r, y + w−1) <V (h, x + w) · V (h, x + w−1),
D (r, y + w, h, x + w) ← D (r, y + w, h, x + w) · V (h, x + w) · V (h, x + w−1) / {Vd (r, y + w) · Vd (r, y + w-1)}

なお、w=0の場合、上記〔数式10〕において、Vd(r,y+w−1)=Vd(r,y+w)およびV(h,x+w−1)=V(h,x+w)とする。   When w = 0, in the above [Equation 10], Vd (r, y + w−1) = Vd (r, y + w) and V (h, x + w−1) = V (h, x + w).

(2.2.4.音量判定モード“Both”)
音量判定モード“Both”が設定されている場合、まず、音量判定モード“Weight”の場合の処理を行って、D(r,y+w,h,x+w)を得る。そして、以下の〔数式11〕に従った処理を実行することにより、重みを乗算してD(r,y+w,h,x+w)の値を定める。この結果、D(y+w,z,h,x+w)はワード単位不一致ビット数ではなく、音量データを加味したワード単位の相違の程度を示すワード単位相違度となる。このモードは、同一原音響データから生成される登録特徴ワードと部分特徴ワードとの照合においては意味をもたないが、登録特徴ワードと検索特徴ワードとの照合の際、後者の元となる検索音響データが波形歪みを伴う高い圧縮率のデータ圧縮やアナログ変換などの信号処理を伴っていて、原音響データと音量の相対変化と音量の絶対値の双方が顕著に異なる場合に適切な照合結果を与える。
(2.2.4. Volume judgment mode “Both”)
When the sound volume determination mode “Both” is set, first, processing in the sound volume determination mode “Weight” is performed to obtain D (r, y + w, h, x + w). Then, by executing processing according to the following [Equation 11], the value of D (r, y + w, h, x + w) is determined by multiplying the weight. As a result, D (y + w, z, h, x + w) is not a word unit mismatch bit number but a word unit dissimilarity indicating the degree of difference in word units taking into account volume data. This mode has no meaning in matching registered feature words and partial feature words generated from the same original sound data, but the latter search is performed when matching registered feature words and search feature words. Appropriate matching results when the acoustic data is accompanied by signal processing such as high compression ratio data compression and analog conversion with waveform distortion, and both the relative change in volume and the absolute value of volume are significantly different from the original sound data give.

〔数式11〕
Vd(r,y+w)・V(h,x+w−1)>V(h,x+w)・Vd(r,y+w−1)の場合、
D(r,y+w,h,x+w)←D(r,y+w,h,x+w)・Vd(r,y+w)・V(h,x+w−1)/{V(h,x+w)・Vd(r,y+w−1)}
Vd(r,y+w)・V(h,x+w−1)<V(h,x+w)・Vd(r,y+w−1)の場合、
D(r,y+w,h,x+w)←D(r,y+w,h,x+w)・V(h,x+w)・Vd(r,y+w−1)/{Vd(r,y+w)・V(h,x+w−1)}
[Formula 11]
When Vd (r, y + w) · V (h, x + w−1)> V (h, x + w) · Vd (r, y + w−1),
D (r, y + w, h, x + w) ← D (r, y + w, h, x + w) · Vd (r, y + w) · V (h, x + w−1) / {V (h, x + w) · Vd (r, y + w-1)}
When Vd (r, y + w) · V (h, x + w−1) <V (h, x + w) · Vd (r, y + w−1),
D (r, y + w, h, x + w) ← D (r, y + w, h, x + w) · V (h, x + w) · Vd (r, y + w−1) / {Vd (r, y + w) · V (h, x + w-1)}

なお、w=0の場合、上記〔数式11〕において、Vd(r,y+w−1)=Vd(r,y+w)およびV(h,x+w−1)=V(h,x+w)とする。   When w = 0, in the above [Equation 11], Vd (r, y + w-1) = Vd (r, y + w) and V (h, x + w-1) = V (h, x + w).

音量判定モード“Off”以外の場合、D(r,y+w,h,x+w)はワード単位不一致ビット数ではなく、音量データを加味したワード単位の相違の程度を示すワード単位相違度となるため、図10、図11におけるS(r,y,h,x)は合算不一致ビット数ではなく、合算相違度を表すことになる。また、図9、図10におけるSminは最小不一致ビット数ではなく、最小相違度を表すことになる。   In cases other than the sound volume determination mode “Off”, D (r, y + w, h, x + w) is not the number of word unit mismatch bits, but the word unit difference degree indicating the degree of difference in word units taking into account volume data. 10 and 11, S (r, y, h, x) represents the total dissimilarity, not the total mismatch bit number. Further, Smin in FIGS. 9 and 10 represents not the minimum mismatch bit number but the minimum dissimilarity.

結局、図9のS370において適合テーブルRmin(c)が、適合テーブルSmin(c)の値に基づいて昇順ソートされ、適合件数cとともに一覧出力されるので、これが検索音響データを用いて検索された検索結果となる。出力された一覧の中から1つが選択された場合には、情報出力手段80は、そのレコードを音響データベース50から抽出する。その際、原音響データの取得指示が行われると、情報出力手段80は、レコードに記録されたファイル名から記憶装置内に格納されている当該原音響データに関連する関連情報や当該原音響データを特定するIDを出力する。   Eventually, in S370 of FIG. 9, the matching table Rmin (c) is sorted in ascending order based on the value of the matching table Smin (c) and is listed together with the number of matching cases c. This is searched using the search acoustic data. It becomes a search result. When one is selected from the output list, the information output unit 80 extracts the record from the acoustic database 50. At that time, when an instruction to acquire the original sound data is given, the information output unit 80 uses the file name recorded in the record to obtain related information related to the original sound data stored in the storage device or the original sound data. An ID for specifying is output.

(3.変形例1:複数のデータベース)
次に、本発明に係る関連情報登録装置および関連情報検索装置の変形例について説明する。上記実施形態では、全ての原音響データに関連する情報を1つの音響データベースに登録し、登録された各原音響データごとに最適判定しきい値を算出し、検索時には、この最適判定しきい値を用いて該当・非該当の判断を行うようにした。以下では、複数の分割音響データベースを用意しておき、最適判定しきい値に応じて、各原音響データに関連する情報を複数の分割音響データベースのいずれかに分散させて登録し、検索時には、複数の分割音響データベースのうち、最適判定しきい値に対応した分割音響データベースにアクセスして、検索を行うようにした変形例について説明する。
(3. Modification 1: Multiple databases)
Next, modifications of the related information registration device and the related information search device according to the present invention will be described. In the above embodiment, information related to all the original sound data is registered in one sound database, and an optimum determination threshold value is calculated for each registered original sound data. To make the judgment of applicable / non-applicable. In the following, a plurality of divided sound databases are prepared, and information related to each original sound data is distributed and registered in any of the plurality of divided sound databases according to the optimum determination threshold. A modification in which a search is performed by accessing a divided acoustic database corresponding to the optimum determination threshold among a plurality of divided acoustic databases will be described.

図12は、複数の分割音響データベースに原音響データに関連する関連情報を登録する変形例における関連情報登録装置の構成を示す図である。図12において、11は登録特徴ワード生成手段、21は部分特徴ワード生成手段、31は判定しきい値算出手段、41は登録手段、51a、51b、51cは分割音響データベースである。   FIG. 12 is a diagram illustrating a configuration of a related information registration apparatus in a modification in which related information related to original sound data is registered in a plurality of divided sound databases. In FIG. 12, 11 is a registered feature word generating means, 21 is a partial feature word generating means, 31 is a determination threshold value calculating means, 41 is a registering means, and 51a, 51b and 51c are divided acoustic databases.

登録特徴ワード生成手段11、部分特徴ワード生成手段21、判定しきい値算出手段31は、図1に示した登録特徴ワード生成手段10、部分特徴ワード生成手段20、判定しきい値算出手段30と同一の機能を有する。登録手段41は、登録特徴ワードと最適判定しきい値を、元の原音響データに関連する関連情報、および原音響データを特定するためのIDと対応付けて音響データベースに登録する機能を有する点において、図1に示した登録手段40と同一であるが、最適判定しきい値に応じて登録する分割音響データベースを区別している点で異なる。分割音響データベース51a、51b、51cは、登録特徴ワードと、最適判定しきい値を原音響データに関連する関連情報、および原音響データを特定するためのIDと対応付けて記憶する点で図1に示した音響データベース50と同一であるが、登録されている最適判定しきい値の範囲(上限および下限)により区別されている点で異なる。最適判定しきい値の範囲については、適宜設定することができるが、登録済みの件数を参照し、できるだけ登録件数が均等になるように適宜変更することが可能である。   The registered feature word generation unit 11, the partial feature word generation unit 21, and the determination threshold value calculation unit 31 are the same as the registered feature word generation unit 10, the partial feature word generation unit 20, and the determination threshold value calculation unit 30 illustrated in FIG. Has the same function. The registration unit 41 has a function of registering the registered feature word and the optimum determination threshold in the acoustic database in association with the related information related to the original original sound data and the ID for specifying the original sound data. 1 is the same as the registration means 40 shown in FIG. 1 except that the divided acoustic database to be registered is distinguished according to the optimum determination threshold value. The divided acoustic databases 51a, 51b, and 51c are shown in FIG. 1 in that the registered feature word, the optimum determination threshold value are stored in association with the related information related to the original sound data, and the ID for specifying the original sound data. The acoustic database 50 is the same as the acoustic database 50 shown in FIG. 6 except that the difference is distinguished by the registered optimum determination threshold range (upper limit and lower limit). The range of the optimum determination threshold value can be set as appropriate, but can be changed as appropriate so that the number of registered cases is as uniform as possible by referring to the number of registered cases.

図12に示した関連情報登録装置の具体的な処理動作としては、まず、図1に示した関連情報登録装置と同様にして、登録特徴ワード生成手段11、部分特徴ワード生成手段21、判定しきい値算出手段31により最適判定しきい値を算出する。最適判定しきい値が算出されたら、登録手段41は、算出された最適判定しきい値を、各分割音響データベースごとに設定されている最適判定しきい値の上限および下限と比較し、該当する分割音響データベースに、最適判定しきい値、登録特徴ワード、関連情報を登録する。   As the specific processing operation of the related information registration apparatus shown in FIG. 12, first, the registered feature word generation means 11, the partial feature word generation means 21, and the determination are performed in the same manner as the related information registration apparatus shown in FIG. An optimum determination threshold value is calculated by the threshold value calculation means 31. When the optimum determination threshold value is calculated, the registration unit 41 compares the calculated optimum determination threshold value with the upper and lower limits of the optimum determination threshold value set for each of the divided acoustic databases. The optimum determination threshold value, registered feature word, and related information are registered in the divided acoustic database.

次に、本発明に係る関連情報検索装置の変形例について説明する。図13は、複数の音響データベースから検索音響データの関連情報を検索する変形例における関連情報検索装置の構成を示す図である。図13において、51a、51b、51cは分割音響データベース、61は検索特徴ワード生成手段、71a、71b、71cは分割音響データベース51a、51b、51cに対応する特徴ワード照合手段、81は情報出力手段である。   Next, a modified example of the related information search device according to the present invention will be described. FIG. 13 is a diagram illustrating a configuration of a related information search device in a modified example in which related information of search sound data is searched from a plurality of sound databases. In FIG. 13, 51a, 51b and 51c are divided acoustic databases, 61 is a search feature word generation means, 71a, 71b and 71c are feature word matching means corresponding to the divided acoustic databases 51a, 51b and 51c, and 81 is an information output means. is there.

検索特徴ワード生成手段61、情報出力手段81は、図7に示した検索特徴ワード生成手段60、情報出力手段80と同一の機能を有する。特徴ワード照合手段71a、71b、71cの各々は、生成された検索特徴ワードと、音響データベースに登録された登録特徴ワードの照合を行う点で特徴ワード照合手段70と同一であるが、複数ある分割音響データベースのそれぞれについて専用に並列して照合処理を行えるようにしている点で異なる。   The search feature word generation unit 61 and the information output unit 81 have the same functions as the search feature word generation unit 60 and the information output unit 80 shown in FIG. Each of the feature word collating means 71a, 71b, 71c is the same as the feature word collating means 70 in that the generated search feature word and the registered feature word registered in the acoustic database are collated. It is different in that the collation processing can be performed in parallel for each of the acoustic databases.

図13に示した関連情報検索装置の具体的な処理動作としては、まず、図7に示した関連情報検索装置と同様にして、検索特徴ワード生成手段61が検索音響データから検索特徴ワードを生成する。検索特徴ワードが生成されたら、特徴ワード照合手段71a〜71cの各々が対応する分割音響データベース51a〜51cに対し独立してアクセスして、同時に検索処理を行う。具体的には、検索特徴ワード群と、音響データベース51a〜51cに登録された登録特徴ワード群との比較を行い、所定の条件を満たすレコードを抽出する。各音響データベースに対する検索処理は、特徴ワード照合手段70と同様、図9〜図11に示したような手順で行われる。   As a specific processing operation of the related information search device shown in FIG. 13, first, the search feature word generation means 61 generates a search feature word from the search acoustic data in the same manner as the related information search device shown in FIG. To do. When the search feature word is generated, each of the feature word collating units 71a to 71c independently accesses the corresponding divided acoustic databases 51a to 51c, and simultaneously performs the search process. Specifically, the search feature word group is compared with the registered feature word group registered in the acoustic databases 51a to 51c, and a record satisfying a predetermined condition is extracted. Search processing for each acoustic database is performed in the procedure as shown in FIGS.

図13に示した処理はコンピュータによる並列処理に適した構成になっており、コンピュータプログラムで実現する場合は次のような並列処理で実現することが推奨される。構成音響データベース51a〜51cを独立したHDDや半導体メモリなどの記憶装置に実装し、特徴ワード照合手段71a〜71cについては同一のプログラムを複数の独立したCPUで並列実行できるようにマルチコアCPUまたはPCクラスター型のコンピュータに実装する。そうすると、データベースが分散される数に比例して検索処理を高速化できる。一方、登録時においては、分散された分割音響データベースの1つだけを更新すればよいため、登録処理の負荷も併せて軽減されるというメリットがある。   The processing shown in FIG. 13 has a configuration suitable for parallel processing by a computer, and when it is realized by a computer program, it is recommended that it be realized by the following parallel processing. A multi-core CPU or PC cluster is constructed so that the constituent acoustic databases 51a to 51c are mounted on a storage device such as an independent HDD or semiconductor memory, and the feature word collating means 71a to 71c can be executed in parallel by a plurality of independent CPUs. Implement on a type computer. Then, the search process can be speeded up in proportion to the number of distributed databases. On the other hand, at the time of registration, it is only necessary to update one of the distributed divided acoustic databases, so there is an advantage that the load of the registration process is also reduced.

各音響データベース51a〜51cから検索結果が得られたら、特徴ワード照合手段71a〜71cは個別に情報出力手段81に渡し、情報出力手段81は各特徴ワード照合手段71a〜71cから渡されたSmin(c)とRmin(c)の配列を1つに統合させ、統合させたSmin(c)の値に基づいて昇順ソートを行い、統合させた適合件数cと統合させた適合テーブルRmin(c)を一覧出力する。   When the search results are obtained from the respective acoustic databases 51a to 51c, the feature word collating means 71a to 71c are individually transferred to the information output means 81, and the information output means 81 receives the Smin (passed from each feature word collating means 71a to 71c. c) and the array of Rmin (c) are integrated into one, sorting is performed in ascending order based on the integrated value of Smin (c), and the matching table Rmin (c) integrated with the number of matching cases c is integrated. Output a list.

(4.変形例2:一括登録および一括検索)
本発明に係る関連情報登録装置では、1つの原音響データを登録するだけでなく、1つのフォルダに複数の原音響データが収納されている場合、指定されたフォルダに収納されている全ての原音響データについて、一括して登録する構成としても良い。このような構成とした場合、記憶装置内の1つのフォルダが指定されると、そのフォルダ内の原音響データが順次図1に示した登録特徴ワード生成手段10、部分特徴ワード生成手段20に読み込まれ、判定しきい値算出手段30、登録手段40により処理されて、音響データベース50に登録される。その際、各原音響データごとに登録される関連情報としてファイル名を使用することができ、また、ファイル名が楽曲を特定するIDで構成されていれば、それをもとに別途定義した関連情報データベースを自動的に検索し、関連情報を登録させるようにしてもよい。関連情報データベースとは、楽曲の曲名・アーチスト名などメタデータだけを楽曲ごとにユニークな識別番号を定義して保管しているもので、音響データや特徴ワードなどのバイナリデータは保管されていない。例えば、国内で代表的な関連情報データベースとしては、社団法人・日本音楽著作権協会が公開しているJASRAC-JWIDなどを使用することができる。図12に示した複数の分割音響データベースに登録する場合においても、同様に指定されたフォルダに収納されている全ての原音響データに対して順次処理が行われ、登録が行われる。
(4. Modification 2: Batch registration and batch search)
In the related information registration device according to the present invention, not only one original sound data is registered, but when a plurality of original sound data are stored in one folder, all the original sound data stored in the designated folder are stored. The acoustic data may be registered in a lump. In such a configuration, when one folder in the storage device is designated, the original sound data in the folder is sequentially read into the registered feature word generation unit 10 and the partial feature word generation unit 20 shown in FIG. Then, it is processed by the determination threshold value calculation means 30 and the registration means 40 and registered in the acoustic database 50. At that time, the file name can be used as the related information registered for each original sound data, and if the file name is composed of an ID for specifying the music, the related information defined separately based on the file name is used. It is also possible to automatically search the information database and register related information. The related information database stores only metadata such as the song title / artist name of a song by defining a unique identification number for each song, and does not store binary data such as acoustic data and feature words. For example, as a representative related information database in Japan, JASRAC-JWID published by the Japan Music Copyright Association can be used. Even in the case of registration in a plurality of divided sound databases shown in FIG. 12, the processing is sequentially performed on all the original sound data stored in the designated folder, and registration is performed.

本発明に係る関連情報検索装置では、1つの検索音響データについて検索するだけでなく、1つのフォルダに複数の検索音響データが収納されている場合、指定されたフォルダに収納されている全ての検索音響データを一括して検索する構成としても良い。このような構成とした場合、記憶装置内の1つのフォルダが指定されると、そのフォルダ内の検索音響データが順次図7に示した検索特徴ワード生成手段60に読み込まれ、特徴ワード照合手段70、情報出力手段80により処理されて、関連情報が検索結果として出力される。図13に示した複数の分割音響データベースに対して検索を行う場合においても、同様に指定されたフォルダに収納されている全ての検索音響データに対して順次処理が行われ、各検索音響データについての検索結果が出力される。図7、図13のいずれにおいても、情報出力手段は、検索結果をログファイルに記録する。   In the related information search device according to the present invention, not only search for one search sound data but also a plurality of search sound data stored in one folder, all searches stored in the designated folder It is good also as a structure which searches acoustic data collectively. In such a configuration, when one folder in the storage device is designated, the search acoustic data in the folder is sequentially read into the search feature word generation means 60 shown in FIG. The information output means 80 processes the related information as a search result. In the case of performing a search for a plurality of divided sound databases shown in FIG. 13, similarly, all the search sound data stored in the designated folder is sequentially processed. The search result of is output. In both FIG. 7 and FIG. 13, the information output means records the search result in the log file.

このように、一括登録、一括検索を行うことにより、大量の音響データに対して個別に実行指示を行う必要がなく、1つのフォルダに対して実行指示を行うだけで、全ての登録、検索を行うことが可能となる。   In this way, by performing batch registration and batch search, there is no need to individually execute execution instructions for a large amount of sound data, and all registrations and searches can be performed only by giving execution instructions to one folder. Can be done.

(5.変形例3:二重登録防止)
本発明に係る関連情報登録装置では、指定された原音響データについて、無条件に登録するのではなく、既に登録されている原音響データと同一であると判断される場合には、同一楽曲の二重登録を防止する構成としても良い。図14は、二重登録を防止する変形例における関連情報登録装置の構成を示す図である。図14の関連情報登録装置は、図1に示した関連情報登録装置に、特徴ワード照合手段72を付加した構成となっており、図1に示した関連情報登録装置と同一符号を付した構成要件は、図1に示したものと同一の機能を有する。
(5. Modification 3: Prevention of double registration)
In the related information registration device according to the present invention, the specified original sound data is not registered unconditionally, but when it is determined that the same is the same as the already registered original sound data, It is good also as a structure which prevents double registration. FIG. 14 is a diagram illustrating a configuration of a related information registration apparatus in a modified example for preventing double registration. The related information registration apparatus of FIG. 14 has a configuration in which a feature word collating unit 72 is added to the related information registration apparatus shown in FIG. 1, and the same reference numerals as those of the related information registration apparatus shown in FIG. The requirements have the same functions as those shown in FIG.

図14の関連情報登録装置では、部分特徴ワード生成手段20が部分特徴ワードを生成した後、その部分特徴ワードを用いて、特徴ワード照合手段72が音響データベース50の検索を行う。特徴ワード照合手段72による検索の具体的手順については、図7の特徴ワード照合手段70、図13の特徴ワード照合手段71と同一である。検索の結果、該当するレコードが存在した場合には、関連情報登録装置は、登録処理を中止し、後段の登録特徴ワード生成手段10、判定しきい値算出手段30および登録手段40に対して処理中止の制御を行う。   In the related information registration apparatus of FIG. 14, after the partial feature word generation unit 20 generates a partial feature word, the feature word collating unit 72 searches the acoustic database 50 using the partial feature word. The specific procedure of the search by the feature word collating unit 72 is the same as that of the feature word collating unit 70 in FIG. 7 and the feature word collating unit 71 in FIG. If the corresponding record exists as a result of the search, the related information registration device stops the registration process and processes the registration feature word generation unit 10, the determination threshold value calculation unit 30, and the registration unit 40 in the subsequent stage. Control stop.

このように、原音響データから部分特徴ワードを生成した後、実際に最適判定しきい値を算出して登録処理を行う前に、生成した部分特徴ワードを用いて音響データベースを検索するようにしたので、二重登録を防止することが可能となる。   As described above, after generating the partial feature word from the original sound data, the acoustic database is searched using the generated partial feature word before calculating the optimum determination threshold and performing the registration process. Therefore, it becomes possible to prevent double registration.

(6.変形例4:検索時に該当がない場合の追加登録)
本発明に係る関連情報検索装置は、検索の結果、該当がなかった場合に、検索に用いた音響データを登録する構成としても良い。図15は、このような追加登録を行う変形例における関連情報検索装置の構成を示す図である。図15の関連情報検索装置は、図7に示した関連情報検索装置に、登録特徴ワード生成手段10、部分特徴ワード生成手段20、判定しきい値算出手段30、登録手段40を付加した構成となっており、基本的には、図7の関連情報検索装置と、図1の関連情報登録装置を統合したものとなっている。
(6. Modification 4: Additional registration when there is no match at the time of search)
The related information search device according to the present invention may be configured to register the acoustic data used for the search when there is no match as a result of the search. FIG. 15 is a diagram illustrating a configuration of a related information search apparatus in a modification in which such additional registration is performed. The related information search apparatus of FIG. 15 has a configuration in which the registered feature word generation means 10, the partial feature word generation means 20, the determination threshold value calculation means 30, and the registration means 40 are added to the related information search apparatus shown in FIG. Basically, the related information search device of FIG. 7 and the related information registration device of FIG. 1 are integrated.

図15の関連情報検索装置では、図7の関連情報検索装置と同様に、検索特徴ワード生成手段60が検索特徴ワードを作成した後、特徴ワード照合手段70が、生成された検索特徴ワードと、音響データベース50に登録されている登録特徴ワードとの照合を行う。この結果、該当するレコードが1つも無かった場合に、情報出力手段80が、該当するレコードが存在せず、追加登録を実行する旨を出力する。登録特徴ワード生成手段10、部分特徴ワード生成手段20、判定しきい値算出手段30、登録手段40を起動し、登録特徴ワード生成手段10が、検索対象とした原音響データから登録特徴ワードを生成するとともに、部分特徴ワード生成手段20が部分特徴ワードを生成する。そして、図1に示した関連情報登録装置と同様に、判定しきい値算出手段30が最適判定しきい値を算出して、登録手段40が、検索対象とした音響データに関連する関連情報、IDと、最適判定しきい値、登録特徴ワードを対応付けて音響データベース50に登録する。なお、特徴ワード照合手段70による照合の結果、1件でも該当するレコードがあった場合には、図7の関連情報検索装置と同様に、情報出力手段80が、ヒットしたレコードの情報を出力し、登録特徴ワード生成手段10、部分特徴ワード生成手段20、判定しきい値算出手段30、登録手段40に対してはアクションを起こさない。   In the related information search device of FIG. 15, similar to the related information search device of FIG. 7, after the search feature word generating unit 60 creates the search feature word, the feature word collating unit 70 includes the generated search feature word, The registered feature word registered in the acoustic database 50 is collated. As a result, when there is no corresponding record, the information output means 80 outputs that the corresponding record does not exist and additional registration is executed. The registered feature word generation unit 10, the partial feature word generation unit 20, the determination threshold value calculation unit 30, and the registration unit 40 are activated, and the registration feature word generation unit 10 generates a registration feature word from the original acoustic data to be searched. At the same time, the partial feature word generation means 20 generates a partial feature word. Then, similarly to the related information registration device shown in FIG. 1, the determination threshold value calculation unit 30 calculates the optimum determination threshold value, and the registration unit 40 acquires related information related to the acoustic data to be searched, The ID, the optimum determination threshold value, and the registered feature word are associated with each other and registered in the acoustic database 50. As a result of the collation by the feature word collating unit 70, if there is even one record, the information output unit 80 outputs the information of the hit record as in the related information search device of FIG. No action is performed on the registered feature word generation unit 10, the partial feature word generation unit 20, the determination threshold value calculation unit 30, and the registration unit 40.

以上、本発明の好適な実施形態について説明したが、本発明は、上記実施形態に限定されず種々の変形が可能である。例えば、上記実施形態では、関連情報登録装置において、複数の部分区間から複数の部分音響データを抽出し、各部分音響データから部分特徴ワード群を生成するようにしたが、部分区間を1つだけ設定し、部分音響データを1つだけ抽出し、1つの部分特徴ワード群を生成するようにしても良い。   The preferred embodiments of the present invention have been described above, but the present invention is not limited to the above embodiments, and various modifications can be made. For example, in the above-described embodiment, in the related information registration device, a plurality of partial sound data is extracted from a plurality of partial sections and a partial feature word group is generated from each partial sound data. However, only one partial section is generated. It is also possible to extract only one partial sound data and generate one partial feature word group.

また、上記実施形態では、音量判定モードとして4つのモードを選択可能としたが、上記4つのモードのうち、2つまたは3つのモードが選択可能に設定されていても良いし、1つのモードが固定的に設定されていても良い。   In the above embodiment, four modes can be selected as the sound volume determination mode. However, two or three of the four modes may be set to be selectable, and one mode may be selected. It may be fixedly set.

本発明は、CD・DVD等を用いた民生・業務用途における鑑賞用のパッケージ音楽分野、放送事業者等が商業目的で配信する放送・ネットワーク音楽配信分野における音楽著作権の保護(不正コピーの監視)および音楽属性情報の提供(楽曲タイトル検索サービス)等の産業に利用可能である。   The present invention relates to the protection of music copyright (monitoring illegal copying) in the field of package music for viewing for consumer and business use using CDs and DVDs, and the field of broadcasting and network music distribution distributed for commercial purposes by broadcasters and the like. ) And provision of music attribute information (music title search service).

10、11・・・登録特徴ワード生成手段
20、21・・・部分特徴ワード生成手段
30、31・・・判定しきい値算出手段
40、41・・・登録手段
50・・・音響データベース
51a〜51c・・・分割音響データベース
60、61・・・検索特徴ワード生成手段
70、71a〜71c、72・・・特徴ワード照合手段
80、81・・・情報出力手段
10, 11 ... registered feature word generation means 20, 21 ... partial feature word generation means 30, 31 ... determination threshold value calculation means 40, 41 ... registration means 50 ... acoustic database 51a- 51c ... Divided acoustic database 60, 61 ... Search feature word generation means 70, 71a-71c, 72 ... Feature word collation means 80, 81 ... Information output means

Claims (13)

与えられた原音響データから、その特徴を表現した特徴ワードを生成し、特徴ワードとともに前記原音響データに関連する関連情報を音響データベースに登録する装置であって、
前記原音響データに対して、所定の長さの単位区間を設定し、当該単位区間を解析した情報を基に、原音響データの特徴パターンを表現した特徴ワードの集合である特徴ワード群を登録特徴ワード群として生成する登録特徴ワード生成手段と、
前記原音響データに対して、部分的に切り出して部分音響データを得て、当該部分音響データに対して、所定の長さの単位区間を設定し、当該単位区間を解析した情報を基に、部分音響データの特徴パターンを表現した特徴ワードの集合である特徴ワード群を部分特徴ワード群として生成する部分特徴ワード生成手段と、
前記登録特徴ワード群と部分特徴ワード群との時間的な位置関係をずらしながら両者間で照合を行い、前記登録特徴ワード群と部分特徴ワード群とが最も適合する位置条件における最小の相違の程度である最小相違度に基づいて、最適判定しきい値を算出する判定しきい値算出手段と、
前記登録特徴ワード群、最適判定しきい値および前記原音響データに関連する関連情報を、前記原音響データを特定する情報と対応付けて前記音響データベースに登録する登録手段と、
を有することを特徴とする音響データの関連情報登録装置。
A device that generates a feature word expressing the feature from given original sound data, and registers related information related to the original sound data together with the feature word in an acoustic database,
A unit section of a predetermined length is set for the original sound data, and a feature word group that is a set of feature words expressing a feature pattern of the original sound data is registered based on information obtained by analyzing the unit section. Registered feature word generation means for generating as a feature word group;
Based on information obtained by partially cutting out the original sound data, obtaining partial sound data, setting a unit section of a predetermined length for the partial sound data, and analyzing the unit section, Partial feature word generation means for generating a feature word group that is a set of feature words expressing a feature pattern of partial acoustic data as a partial feature word group;
The degree of the minimum difference in the position condition where the registered feature word group and the partial feature word group are best matched by collating between the registered feature word group and the partial feature word group while shifting the temporal positional relationship between them. A determination threshold value calculating means for calculating an optimum determination threshold value based on the minimum dissimilarity,
Registration means for registering the related feature information related to the original acoustic data in the acoustic database in association with the information specifying the original acoustic data, the registered feature word group, the optimum determination threshold value, and the original acoustic data;
An apparatus for registering related information of acoustic data, comprising:
請求項1において、
前記部分特徴ワード群は互いに切り出し位置が異なる複数の部分音響データに基づいて複数群生成され、前記判定しきい値算出手段は、前記登録特徴ワード群と各部分特徴ワード群との時間的な位置関係をずらしながら両者間でビット単位で照合し、前記登録特徴ワード群と各部分特徴ワード群とが最も適合する位置条件における最小値を与える最小相違度として、最小不一致ビット数を各部分特徴ワード群ごとに求め、前記部分特徴ワード群ごとに算出された最小不一致ビット数の平均値に基づいて最適判定しきい値を算出することを特徴とする音響データの関連情報登録装置。
In claim 1,
The partial feature word group is generated in a plurality of groups based on a plurality of partial sound data having different cut-out positions, and the determination threshold value calculation unit is configured to determine a temporal position between the registered feature word group and each partial feature word group. The minimum number of inconsistent bits is used as the minimum dissimilarity value for the minimum difference in the position condition where the registered feature word group and each partial feature word group are best matched by collating each other while shifting the relationship. An acoustic data-related information registration apparatus characterized in that an optimum determination threshold value is calculated based on an average value of minimum mismatch bit numbers calculated for each partial feature word group.
請求項1において、
前記特徴パターンは、所定の周波数範囲ごとの強度を示したものであり、
前記特徴ワードは、前記特徴パターンに加え、音量データを有し、前記部分特徴ワード群は互いに切り出し方が異なる複数の部分音響データに基づいて複数群生成され、
前記判定しきい値算出手段は、前記登録特徴ワードと各部分特徴ワードとの時間的な位置関係をずらしながら両者間で特徴パターンをビット単位で照合して不一致ビット数を求めた後、各特徴ワードの音量データに基づく重みを前記不一致ビット数に加算または乗算して重み付け不一致ビット数を算出し、両者が最も適合する位置条件における最小値となる最小重み付け不一致ビット数を各特徴ワード群ごとに前記最小相違度として与え、当該最小相違度の前記部分特徴ワード群ごとの平均値に基づいて最適判定しきい値を算出することを特徴とする音響データの関連情報登録装置。
In claim 1,
The feature pattern indicates the intensity for each predetermined frequency range,
The feature word, added before Kitoku symptom patterns have the volume data, the partial characteristic word group the way cut each other is generated plurality of groups based on a plurality of different partial sound data,
The determination threshold value calculating means obtains the number of mismatch bits by collating the feature pattern bit by bit while shifting the temporal positional relationship between the registered feature word and each partial feature word, A weighting mismatch bit number is calculated by adding or multiplying the weight based on the volume data of the word to the mismatch bit number, and a minimum weight mismatch bit number that is the minimum value in the position condition in which both are the best match for each feature word group An acoustic data related information registration apparatus, characterized in that an optimum determination threshold value is calculated based on an average value for each partial feature word group of the minimum difference degree given as the minimum difference degree.
請求項1から請求項3のいずれかにおいて、
前記音響データベースは互いに重複しない最適判定しきい値の範囲が設定された複数の分割音響データベースにより構成されており、
前記登録手段は、前記判定しきい値算出手段により算出された最適判定しきい値に応じて、対応する分割音響データベースに、前記登録特徴ワード群、最適判定しきい値および前記原音響データに関連する関連情報を登録することを特徴とする音響データの関連情報登録装置。
In any one of Claims 1-3,
The acoustic database is composed of a plurality of divided acoustic databases in which ranges of optimum determination thresholds that do not overlap each other are set,
In accordance with the optimum determination threshold value calculated by the determination threshold value calculation means, the registration means is associated with the registered feature word group, the optimum determination threshold value, and the original sound data in a corresponding divided acoustic database. A related information registration device for acoustic data, wherein the related information is registered.
請求項1から請求項4のいずれかにおいて、
前記原音響データが複数個、1つのフォルダに収納されている場合、前記フォルダより1つずつ抽出して、各原音響データに対して、順次登録特徴ワード生成手段、部分特徴ワード生成手段、判定しきい値算出手段による処理を行い、
前記登録手段は、各原音響データのファイル名を前記関連情報の1つとして登録することを特徴とする音響データの関連情報登録装置。
In any one of Claims 1-4,
When a plurality of the original sound data are stored in one folder, the original sound data is extracted one by one from the folder and sequentially registered feature word generation means, partial feature word generation means, and determination for each original sound data Process by threshold calculation means,
The said registration means registers the file name of each original acoustic data as one of the said relevant information, The related information registration apparatus of the acoustic data characterized by the above-mentioned.
請求項1から請求項5のいずれかにおいて、
前記部分特徴ワード群と、前記音響データベースに登録された登録特徴ワード群との照合を行い、前記登録特徴ワード群ごとに登録された最適判定しきい値による条件を満たす場合に、当該登録特徴ワード群を有するレコードを抽出する特徴ワード照合手段をさらに有し、
前記登録特徴ワード生成手段、前記判定しきい値算出手段および前記登録手段は、前記特徴ワード照合手段による照合の結果、該当するレコードが存在しない場合に限り、処理を行うことを特徴とする音響データの関連情報登録装置。
In any one of Claims 1-5,
When the partial feature word group and the registered feature word group registered in the acoustic database are collated and the condition based on the optimum determination threshold registered for each registered feature word group is satisfied, the registered feature word A feature word matching means for extracting records having groups;
The registered feature word generation means, the determination threshold value calculation means, and the registration means perform processing only when there is no corresponding record as a result of matching by the feature word matching means. Related information registration device.
与えられた音響データである検索音響データの特徴と、音響データベースに登録された原音響データの特徴との照合を行って、前記検索音響データに関連する関連情報を音響データベースから検索する装置であって、
各原音響データについて、その特徴パターンを表現した登録特徴ワードの集合である登録特徴ワード群と、当該原音響データの最適判定しきい値および当該原音響データに関連する関連情報を登録した音響データベースと、
前記検索音響データに対して、所定の区間単位で、当該区間単位における検索音響データの特徴パターンを表現した特徴ワードの集合である特徴ワード群を検索特徴ワード群として生成する検索特徴ワード生成手段と、
前記検索特徴ワード群と、前記音響データベースに登録された登録特徴ワード群との時間的な位置関係をずらしながら両者間で照合を行い、前記登録特徴ワード群と前記検索特徴ワード群とが最も適合する位置条件における最小の相違の程度である最小相違度が、前記登録特徴ワード群ごとに登録された最適判定しきい値より小さい場合に、当該登録特徴ワード群に対応する原音響データの関連情報を前記検索音響データの関連情報の候補として選出する特徴ワード照合手段と、
を有することを特徴とする音響データの関連情報検索装置。
A device that searches the related information related to the searched sound data from the sound database by collating the characteristics of the retrieved sound data, which is given sound data, with the features of the original sound data registered in the sound database. And
For each original sound data, an acoustic database in which a registered feature word group that is a set of registered feature words expressing the feature pattern, an optimum determination threshold for the original sound data, and related information related to the original sound data are registered When,
Search feature word generation means for generating, as a search feature word group, a feature word group that is a set of feature words expressing a feature pattern of the search acoustic data in the section unit for the search acoustic data in a predetermined section unit; ,
The search feature word group and the registered feature word group registered in the acoustic database are collated with each other while shifting the temporal positional relationship, and the registered feature word group and the search feature word group are most suitable. Related information of the original acoustic data corresponding to the registered feature word group when the minimum difference degree, which is the degree of the minimum difference in the position condition, is smaller than the optimum determination threshold value registered for each registered feature word group Characteristic word collating means for selecting as a candidate of related information of the search acoustic data,
An apparatus for retrieving related information of acoustic data, comprising:
請求項7において、
前記特徴ワード照合手段は、前記登録特徴ワード群と検索特徴ワード群との時間的な位置関係をずらしながら両者間でビット単位で照合し、前記登録特徴ワード群と検索特徴ワード群とが最も適合する位置条件における最小値を与える最小相違度として、最小不一致ビット数を求めることを特徴とする音響データの関連情報検索装置。
In claim 7,
The feature word collating means collates the registered feature word group and the search feature word group in bit units while shifting the temporal positional relationship between the registered feature word group and the search feature word group, and the registered feature word group and the search feature word group are most suitable. An apparatus for retrieving related information of acoustic data, wherein a minimum mismatch bit number is obtained as a minimum dissimilarity that gives a minimum value in a position condition.
請求項7において、
前記特徴パターンは、所定の周波数範囲ごとの強度を示したものであり、
前記特徴ワードは、前記特徴パターンに加え、音量データを有し、
前記特徴ワード照合手段は、前記登録特徴ワード群と検索特徴ワード群との時間的な位置関係をずらしながら両者間で特徴パターンをビット単位で照合して不一致ビット数を求めた後、各特徴ワードの音量データに基づく重みを前記不一致ビット数に加算または乗算して重み付け不一致ビット数を算出し、両者が最も適合する位置条件における最小値となる最小重み付け不一致ビット数を前記最小相違度として求めることを特徴とする音響データの関連情報検索装置。
In claim 7,
The feature pattern indicates the intensity for each predetermined frequency range,
The feature word, added before Kitoku symptom patterns have the volume data,
The feature word collating means obtains the number of inconsistent bits after collating the feature pattern in bit units between the registered feature word group and the search feature word group while shifting the temporal positional relationship between the two. The weight based on the volume data is added to or multiplied by the mismatch bit number to calculate the weight mismatch bit number, and the minimum weight mismatch bit number that is the minimum value in the position condition where the two match best is obtained as the minimum dissimilarity An apparatus for retrieving related information of acoustic data characterized by
請求項7から請求項9のいずれかにおいて、
前記音響データベースは、複数の分割音響データベースにより構成されており、
前記特徴ワード照合手段は前記複数の分割音響データベースに対応して複数個で構成され、前記各分割音響データベースに対して並行して照合を行い、当該登録特徴ワード群に対応する原音響データの関連情報を前記検索音響データに関する関連情報の候補として選出することを特徴とする音響データの関連情報検索装置。
In any one of Claims 7 to 9,
The acoustic database is composed of a plurality of divided acoustic databases,
The feature word collating means includes a plurality of divided acoustic databases corresponding to the plurality of divided acoustic databases, performs collation in parallel with each of the divided acoustic databases, and relates the original acoustic data corresponding to the registered feature word group. A related information search device for acoustic data, wherein information is selected as a candidate for related information related to the searched acoustic data.
請求項10において、
前記分割音響データベースが独立した記憶媒体に保存されており、
前記特徴ワード照合手段は、前記各分割音響データベースに対応して独立したプロセッサで処理されるように複数の同一処理内容のプログラムで構成されていることを特徴とする音響データの関連情報検索装置。
In claim 10,
The divided acoustic database is stored in an independent storage medium;
The characteristic word collating means is composed of a plurality of programs having the same processing content so as to be processed by an independent processor corresponding to each of the divided acoustic databases.
請求項7から請求項11のいずれかにおいて、
前記検索音響データが複数個、1つのフォルダに収納されている場合、前記フォルダより1つずつ抽出して、各検索音響データに対して、順次検索特徴ワード生成手段、特徴ワード照合手段による処理を行うものであり、
前記特徴ワード照合手段により選出された各原音響データの関連情報を各検索音響データの関連情報として抽出するとともに、前記抽出した関連情報を所定のログファイルに保存する情報出力手段をさらに有することを特徴とする音響データの関連情報検索装置。
In any one of Claims 7-11,
When a plurality of the search sound data are stored in one folder, the search sound data is extracted one by one from the folder, and each search sound data is sequentially processed by the search feature word generation means and the feature word collation means. What to do,
The system further includes information output means for extracting the related information of each original sound data selected by the feature word collating means as the related information of each search sound data, and storing the extracted related information in a predetermined log file. A related information retrieval device for characteristic acoustic data.
請求項7から請求項12のいずれかにおいて、
前記検索音響データに対して、所定の長さの単位区間を設定し、当該単位区間を解析した情報を基に、前記検索音響データの特徴パターンを表現した所定バイト数の特徴ワードの集合を登録特徴ワード群として生成する登録特徴ワード生成手段と、
前記検索音響データに対して、部分的に切り出して部分音響データを得て、当該部分音響データに対して、所定の長さの単位区間を設定し、当該単位区間を解析した情報を基に、部分音響データの特徴パターンを表現した所定バイト数の特徴ワードの集合を部分特徴ワード群として生成する部分特徴ワード生成手段と、
前記登録特徴ワード群と部分特徴ワード群のビット単位との時間的な位置関係をずらしながら両者間で照合を行い、両者が最も適合する位置条件における最小の相違の程度である最小相違度に基づいて、最適判定しきい値を算出する判定しきい値算出手段と、
前記登録特徴ワード群および最適判定しきい値を、前記検索音響データを特定する情報に対応付けて音響データベースに登録する登録手段と、
をさらに有し、
前記登録特徴ワード生成手段、部分特徴ワード生成手段、前記判定しきい値算出手段、および前記登録手段は、前記特徴ワード照合手段による照合の結果、該当するレコードが存在しない場合に限り、処理を行うことを特徴とする音響データの関連情報検索装置。
In any one of Claims 7-12,
A unit section of a predetermined length is set for the search acoustic data, and a set of feature words having a predetermined number of bytes representing the feature pattern of the search acoustic data is registered based on information obtained by analyzing the unit section. Registered feature word generation means for generating as a feature word group;
Based on information obtained by partially cutting out the search sound data to obtain partial sound data, setting a unit section of a predetermined length for the partial sound data, and analyzing the unit section, Partial feature word generation means for generating a set of feature words of a predetermined number of bytes representing a feature pattern of partial acoustic data as a partial feature word group;
While comparing the temporal positional relationship between the registered feature word group and the bit unit of the partial feature word group, they are collated with each other, and based on the minimum difference that is the degree of the minimum difference in the position condition in which both match best Determination threshold value calculating means for calculating an optimum determination threshold value;
Registration means for registering the registered feature word group and the optimum determination threshold in an acoustic database in association with information for specifying the search acoustic data;
Further comprising
The registered feature word generation unit, the partial feature word generation unit, the determination threshold value calculation unit, and the registration unit perform processing only when a corresponding record does not exist as a result of collation by the feature word collation unit. A related information retrieval apparatus for acoustic data.
JP2010009310A 2010-01-19 2010-01-19 Acoustic data related information registration device and acoustic data related information search device Expired - Fee Related JP5454161B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010009310A JP5454161B2 (en) 2010-01-19 2010-01-19 Acoustic data related information registration device and acoustic data related information search device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010009310A JP5454161B2 (en) 2010-01-19 2010-01-19 Acoustic data related information registration device and acoustic data related information search device

Publications (2)

Publication Number Publication Date
JP2011150015A JP2011150015A (en) 2011-08-04
JP5454161B2 true JP5454161B2 (en) 2014-03-26

Family

ID=44537081

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010009310A Expired - Fee Related JP5454161B2 (en) 2010-01-19 2010-01-19 Acoustic data related information registration device and acoustic data related information search device

Country Status (1)

Country Link
JP (1) JP5454161B2 (en)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000187671A (en) * 1998-12-21 2000-07-04 Tomoya Sonoda Music retrieval system with singing voice using network and singing voice input terminal equipment to be used at the time of retrieval
WO2007080764A1 (en) * 2006-01-12 2007-07-19 Matsushita Electric Industrial Co., Ltd. Object sound analysis device, object sound analysis method, and object sound analysis program
JP2007292827A (en) * 2006-04-21 2007-11-08 Dainippon Printing Co Ltd Acoustic signal retrieving apparatus
JP4710978B2 (en) * 2009-01-09 2011-06-29 ソニー株式会社 Object detection apparatus, imaging apparatus, object detection method, and program

Also Published As

Publication number Publication date
JP2011150015A (en) 2011-08-04

Similar Documents

Publication Publication Date Title
US7080253B2 (en) Audio fingerprinting
US10043500B2 (en) Method and apparatus for making music selection based on acoustic features
Salamon et al. Tonal representations for music retrieval: from version identification to query-by-humming
US8073854B2 (en) Determining the similarity of music using cultural and acoustic information
US6604072B2 (en) Feature-based audio content identification
US7031921B2 (en) System for monitoring audio content available over a network
US6748360B2 (en) System for selling a product utilizing audio content identification
US6574594B2 (en) System for monitoring broadcast audio content
US10225328B2 (en) Music selection and organization using audio fingerprints
US20070162497A1 (en) Searching in a melody database
EP1579419B1 (en) Audio signal analysing method and apparatus
JP2011180610A (en) Device for changing segmentation of audio work
EP1497935A1 (en) Feature-based audio content identification
JP2007292827A (en) Acoustic signal retrieving apparatus
JP5454161B2 (en) Acoustic data related information registration device and acoustic data related information search device
JP5082257B2 (en) Acoustic signal retrieval device
JP5516274B2 (en) Relevant information retrieval device for acoustic data
JP5699316B2 (en) Relevant information retrieval device for acoustic data
Six et al. Duplicate detection for for digital audio archive management: Two case studies
Kuznetsov et al. Searching for music: from melodies in mind to the resources on the web
JP5561041B2 (en) Relevant information retrieval device for acoustic data
Ziemer et al. Acoustic features from the recording studio for Music Information Retrieval Tasks
Serrano et al. Accuracy comparisons of fingerprint based song recognition approaches using very high granularity
KR101051803B1 (en) Method and system for searching audio source based humming or sing
Schoder et al. MusicDress: A Heterogeneous Dataset for Comparing Music Recommender Systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121109

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20130823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130917

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131223

R150 Certificate of patent or registration of utility model

Ref document number: 5454161

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees