JP2020525856A

JP2020525856A - 音声検索・認識方法及び装置

Info

Publication number: JP2020525856A
Application number: JP2019572761A
Authority: JP
Inventors: 根李; 磊李; ▲軼▼ 何
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2018-03-29
Filing date: 2018-12-29
Publication date: 2020-08-27
Anticipated expiration: 2038-12-29
Also published as: CN110322897B; WO2019184518A1; SG11202008548VA; US11182426B2; JP6906641B2; US20210165827A1; CN110322897A

Abstract

本発明は音声検索・認識方法及び装置を開示する。前記方法は、認識対象の音声の音声フィンガープリントを取得し、ただし、前記音声フィンガープリントは前記認識対象の音声の内容特徴を示すための第１の部分と前記第１の部分の信頼度を示すための第２の部分とを含むことと、前記音声フィンガープリントに基づき前記認識対象の音声に対して認識を行って、認識結果を得ることとを含む。

Description

「関連出願の相互参照」
本願は、出願番号が２０１８１０２７３６９９．７で、出願日が２０１８年３月２９日の中国特許出願の優先権を主張し、当該文献の全体内容は参照により本願に援用される。

本発明は、音声処理技術の分野に関し、特に、音声検索・認識方法及び装置に関する。

今の「マルチメディア情報社会」において、音声フィンガープリント（音声特徴ともいう）及び音声フィンガープリント検索は幅広く利用されている。音声フィンガープリント検索は最初に、音声による楽曲特定のために利用された。すなわち、音声セグメントを入力して、当該音声のフィンガープリント特徴を抽出又は比較して、対応する楽曲を認識することである。また、音声フィンガープリント検索は例えば、音声の重複除去、検索に基づく音声広告監視、音声著作権などのコンテンツ監視のためにも利用できる。

しかしながら、従来の音声検索・認識方法には正確性が不足し、スピードが遅いという問題があるため、いずれも大量の演算資源や記憶資源を消費している。

本発明は、新規な音声検索・認識方法及び装置を提供することを目的とする。

本開示は、以下の技術によってその目的を実現する。
認識対象の音声の音声フィンガープリントを取得し、ただし、前記音声フィンガープリントは前記認識対象の音声の内容特徴を示すための第１の部分と前記第１の部分の信頼度を示すための第２の部分とを含むことと、
前記音声フィンガープリントに基づき前記認識対象の音声に対して認識を行って、認識結果を得ることとを含む、本開示に係る音声検索・認識方法。

本開示は、さらに以下の技術によってその目的をさらに実現する。
認識対象の音声の音声フィンガープリントを取得することは、
前記認識対象の音声をスペクトログラムに変換することと、
前記スペクトログラムにおける特徴点を決定することと、
前記スペクトログラムにおいて、前記特徴点に１つ又は複数のマスクを決定し、各前記マスクは複数のスペクトログラム領域を含むことと、
各前記スペクトログラム領域のエネルギー平均値を決定することと、
前記マスクにおける前記複数のスペクトログラム領域のエネルギー平均値に基づき音声フィンガープリントビットを決定することと、
前記音声フィンガープリントビットの信頼度を判断して強弱重みビットを決定することと、
前記音声フィンガープリントビット及び前記強弱重みビットに基づき前記認識対象の音声の音声フィンガープリントを決定することとを含む、前述した音声検索・認識方法。

前記認識対象の音声をスペクトログラムに変換することは、高速フーリエ変換により前記認識対象の音声を時間−周波数の二次元スペクトログラムに変換することを含み、前記スペクトログラムにおける各点の取得値は前記認識対象の音声のエネルギーを示す、前述した音声検索・認識方法。

前記認識対象の音声をスペクトログラムに変換することは、前記スペクトログラムに対してメル変換を行うことをさらに含む、前述した音声検索・認識方法。

前記特徴点は前記スペクトログラムにおける固定点である、前述した音声検索・認識方法。

前記特徴点は周波数値が予め設定された複数の周波数設定値に等しい点である、前述した音声検索・認識方法。

前記特徴点は前記スペクトログラムにおけるエネルギー極大値点であるか、又は、前記特徴点は前記スペクトログラムにおけるエネルギー極小値点である、前述した音声検索・認識方法。

前記マスクに含まれた複数の前記スペクトログラム領域は対称に分布する、前述した音声検索・認識方法。

前記マスクに含まれた複数の前記スペクトログラム領域は同一の周波数範囲を有する、且つ／又は、同一の時間範囲を有する、且つ／又は、前記特徴点を中心として点対称に分布する、前述した音声検索・認識方法。

前記スペクトログラム領域のエネルギー平均値は前記スペクトログラム領域に含まれた全ての点のエネルギー値の平均値である、前述した音声検索・認識方法。

前記マスクにおける前記複数のスペクトログラム領域のエネルギー平均値に基づき音声フィンガープリントビットを決定することは、
１つの前記マスクに含まれた複数の前記スペクトログラム領域のエネルギー平均値の差値に基づき１つの音声フィンガープリントビットを決定することを含む、前述した音声検索・認識方法。

前記音声フィンガープリントビットの信頼度を判断して強弱重みビットを決定することは、
前記差値の絶対値が予め設定された強弱ビット閾値に達する又は超えるか否かを判断し、前記強弱ビット閾値に達している又は超えている場合、前記音声フィンガープリントビットを強ビットとして決定し、そうでない場合、前記音声フィンガープリントビットを弱ビットとして決定することと、前記音声フィンガープリントビットが強ビットか弱ビットであるかに基づき前記強弱重みビットを決定することとを含む、前述した音声検索・認識方法。

認識対象の音声を時間順に複数のサブ音声セグメントに分割することと、
各前記サブ音声セグメントの前記音声フィンガープリントを抽出することと、
抽出して得た各前記サブ音声の前記音声フィンガープリントを組み合わせて、前記認識対象の音声の音声フィンガープリントを得ることとをさらに含む、前述した音声検索・認識方法。

前記認識対象の音声の音声フィンガープリントを第１の音声フィンガープリントとして定義し、前記第１の音声フィンガープリントは複数の第１の音声フィンガープリント単体及びそれぞれの前記第１の音声フィンガープリント単体に対応する第１の強弱重み単体を含み、前記第１の音声フィンガープリント単体は前記認識対象の音声の複数の前記音声フィンガープリントビットを含み、前記第１の強弱重み単体は前記複数の音声フィンガープリントビットに対応する複数の前記強弱重みビットを含む、前述した音声検索・認識方法。

前記音声フィンガープリントに基づき前記認識対象の音声に対して認識を行うことは、
各単独の前記第１の音声フィンガープリント単体に基づき複数の既存の音声に対して第１の順位付けを行い、前記第１の順位付けの結果に基づき、第１の候補音声集合として上位ｋ個の前記既存の音声を取り出し、ただしｋは正の整数であることと、
順に配列された複数の前記第１の音声フィンガープリント単体に基づき前記第１の候補音声集合に対して第２の順位付けを行い、前記第２の順位付けの結果に基づき、認識結果として上位ｎ個の前記第１の候補音声を取り出し、ただしｎは正の整数であることとを含む、前述した音声検索・認識方法。

第２の音声フィンガープリントとして前記既存の音声の音声フィンガープリントを予め取得しておき、前記第２の音声フィンガープリントは複数の第２の音声フィンガープリント単体及び前記第２の音声フィンガープリント単体に対応する第２の強弱重み単体を含むことと、
前記第２の音声フィンガープリントに対してインデクシングを行って、前記既存の音声のフィンガープリントインデックスを得ておくこととをさらに含む、前述した音声検索・認識方法。

前記第１の順位付けを行う且つ／又は前記第２の順位付けを行うプロセスにおいて、前記第１の強弱重み単体及び／又は第２の強弱重み単体に基づき、前記第１の音声フィンガープリント単体及び／又は前記第２の音声フィンガープリント単体に対して重み付けを行う、前述した音声検索・認識方法。

各単独の前記第１の音声フィンガープリント単体に基づき複数の既存の音声に対して第１の順位付けを行うことは、各単独の前記第１の音声フィンガープリント単体に基づき複数の既存の音声に対して語出現頻度−逆文書頻度（ＴＦ−ＩＤＦ）順位付けを行うことを含む、前述した音声検索・認識方法。

各単独の前記第１の音声フィンガープリント単体に基づき複数の既存の音声に対して語出現頻度−逆文書頻度（ＴＦ−ＩＤＦ）方式の第１の順位付けを行うことは、
前記既存の音声的フィンガープリントインデックスと前記第１の音声フィンガープリント単体とのマッチングを行って、前記既存の音声に対して前記ＴＦ−ＩＤＦ順位付けを行うことを含む、前述した音声検索・認識方法。

前記既存の音声のフィンガープリントインデックスを得ておくことは、
前記第２の強弱重み単体に基づき、前記既存の音声の普通フィンガープリントインデックス及び／又は転置フィンガープリントインデックスを得ておくことを含む、前述した音声検索・認識方法。

前記既存の音声のフィンガープリントインデックスと前記第１の音声フィンガープリント単体とのマッチングを行うことは、
前記第１の強弱重み単体に基づき、前記音声のフィンガープリントインデックスと前記第１の音声フィンガープリント単体との正確マッチングを行うことを含む、前述した音声検索・認識方法。

順に配列された複数の前記第１の音声フィンガープリント単体に基づき前記第１の候補音声集合に対して第２の順位付けを行うことは、
前記既存の音声のフィンガープリントインデックス及び前記第１の音声フィンガープリントに基づき前記第１の候補音声集合における音声の類似度行列を得て、前記類似度行列に基づき前記第１の候補音声集合における音声に対して順位付けを行うことを含む、前述した音声検索・認識方法。

前記既存の音声のフィンガープリントインデックス及び前記第１の音声フィンガープリントに基づき前記第１の候補音声集合における音声の類似度行列を得て、前記類似度行列に基づき前記第１の候補音声集合における音声に対して順位付けを行うことは、
前記第１の強弱重み単体及び／又は前記第２の強弱重み単体を利用して重み付けを行って、重み付けされた前記類似度行列を得て、前記重み付けの類似度行列に基づき前記第１の候補音声集合における音声に対して順位付けを行うことを含む、前述した音声検索・認識方法。

前記類似度行列に基づき前記第１の候補音声集合における音声に対して順位付けを行うことは、
前記類似度行列における直線に基づき前記第１の候補音声集合における音声に対して順位付けを行うことを含む、前述した音声検索・認識方法。

認識対象の音声の音声フィンガープリントを取得することは、前記認識対象の音声の複数のタイプの第１の音声フィンガープリントを取得することと、
第２の音声フィンガープリントとして、前記既存の音声の音声フィンガープリントを取得しておくことは、前記第１の候補音声集合における音声の複数のタイプの第２の音声フィンガープリントを取得することを含み、
前記既存の音声のフィンガープリントインデックス及び前記第１の音声フィンガープリントに基づき前記第１の候補音声集合における音声の類似度行列を得ることは、前記複数のタイプの第１の音声フィンガープリント及び前記複数のタイプの第２の音声フィンガープリントに基づき前記類似度行列を決定することを含む、前述した音声検索・認識方法。

各タイプの前記第１の音声フィンガープリントは複数の第１の音声フィンガープリント単体を含み、各タイプの前記第２の音声フィンガープリントは複数の第２の音声フィンガープリント単体を含み、
前記複数のタイプの第１の音声フィンガープリント及び前記複数のタイプの第２の音声フィンガープリントに基づき前記類似度行列を決定することは、
同一タイプの前記第２の音声フィンガープリント単体と前記第１の音声フィンガープリント単体との単体類似度をそれぞれ決定して、複数種の前記単体類似度を得ることと、前記複数種の単体類似度の平均値又は最小値に基づき前記類似度行列を決定することとを含む、前述した音声検索・認識方法。

予め設定された時間長さで認識対象の音声及び既存の音声をスライスしておき、複数の認識対象のサブ音声セグメント及び複数の既存のサブ音声セグメントを得て、前記複数の認識対象のサブ音声セグメント及び前記複数の既存のサブ音声セグメントに対してそれぞれ音声フィンガープリントを抽出して、長さが等しい複数の第１のサブ音声フィンガープリント及び複数の第２のサブ音声フィンガープリントを得ることをさらに含む、前述した音声検索・認識方法。

前記第１の順位付けを行う前に、得られた認識対象の音声の前記第１の音声フィンガープリント及び既存の音声の前記第２の音声フィンガープリントに対して予め設定された長さでスライスして、長さが等しい複数の第１のサブ音声フィンガープリント及び複数の第２のサブ音声フィンガープリントを得ることをさらに含む、前述した音声検索・認識方法。

前記複数の第１の音声フィンガープリント単体は前記第１の音声フィンガープリントにおいて時間順に配列され、前記複数の第２の音声フィンガープリント単体は前記第２の音声フィンガープリントにおいて時間順に配列される、前述した記載の音声検索・認識方法。

前記類似度行列に基づき、前記認識対象の音声と前記認識結果における音声とで重複するセグメントを決定することをさらに含む、前述した記載の音声検索・認識方法。

本開示は、さらに以下の技術によって、その目的をさらに実現する。
認識対象の音声の音声フィンガープリントを取得するために用いられ、ただし、前記音声フィンガープリントは前記認識対象の音声の内容特徴を示すための第１の部分と前記第１の部分の信頼度を示すための第２の部分とを含む音声フィンガープリント取得システムと、
前記音声フィンガープリントに基づき、前記認識対象の音声に対して認識を行って、認識結果を得るための検索・認識システムとを含む、本開示に係る音声検索・認識装置。

前述したいずれかの音声検索・認識方法ステップを実行するモジュールをさらに含む、前述した音声検索・認識装置。

本開示は、さらに以下の技術によって、その目的を実現する。
非一時的なコンピュータ可読コマンドを記憶するためのメモリと、
前記コンピュータ可読コマンドを実行することで、前記コンピュータ可読コマンドが前記プロセッサによって実行されると前述したいずれかの音声検索・認識方法が実現されるプロセッサとを含む、本開示に係る音声検索・認識ハードウェア装置。

本開示は、さらに以下の技術によって、その目的を実現する。
非一時的なコンピュータ可読コマンドを記憶するために用いられ、前記非一時的なコンピュータ可読コマンドがコンピュータによって実行されると、前記コンピュータは前述したいずれかの音声検索・認識方法を実行する、本開示に係るコンピュータ可読記憶媒体。

本開示は、さらに以下の技術によって、その目的を実現する。
前述したいずれかの音声検索・認識装置を含む、本開示に係る端末機器。

上述した説明は、本発明に係る技術的解決手段の概要に過ぎない。本発明に係る技術的解決手段の理解をより明確にして、明細書の内容に基づく実施を可能にし、本発明の上記目的と他の目的、特徴及び利点をより理解しやすくするために、次に、好適な実施例を挙げ図面を参照して、詳細に説明する。

本発明の一つの実施例による音声検索・認識方法のプロセスを示すブロック図である。本発明の一つの実施例によって提供される音声フィンガープリント取得のプロセスを示すブロック図である。本発明の一つの実施例によって提供される音声に対する検索・認識のプロセスを示すブロック図である。本発明の一つの実施例によって提供される第１の順位付けのプロセスを示すブロック図である。本発明の一つの実施例によって提供される第２の順位付けのプロセスを示すブロック図である。本発明の一つの実施例によって提供される動的計画法を用いた配列類似度得点決定のプロセスを示すブロック図である。本発明の一つの実施例によって提供される等速音声を用いた配列類似度得点決定のプロセスを示すブロック図である。本発明の一つの実施例によって提供される複数タイプの第１の音声フィンガープリント、第２の音声フィンガープリントに基づく類似度行列決定のプロセスを示すブロック図である。本発明の一つの実施例による音声検索・認識装置の構造を示すブロック図である。本発明の一つの実施例によって提供される音声フィンガープリント取得システムの構造を示すブロック図である。本発明の一つの実施例によって提供される検索・認識システムの構造を示すブロック図である。本発明の一つの実施例によって提供される第１の順位付けモジュールの構造を示すブロック図である。本発明の一つの実施例によって提供される第２の順位付けモジュールの構造を示すブロック図である。本発明の一つの実施例による複数タイプの第１の音声フィンガープリント及び第２の音声フィンガープリントに基づき類似度行列を決定する音声検索・認識装置の構造を示すブロック図である。本発明の一つの実施例による音声検索・認識ハードウェア装置のハードウェア構成を示すブロック図である。本発明の一つの実施例によるコンピュータ可読記憶媒体を概略的に示す図である。本発明の一つの実施例による端末機器の構造を示すブロック図である。

本発明において所定の発明目的を達成すべく採用している技術的解決手段及びその効果をさらに説明するために、次に、図面及び好適な実施例を用いて、本発明によって提供される音声検索・認識方法及び装置に係る具体的な実施形態、構造、特徴及びその効果を詳細に説明する。

図１は、本発明に係る音声検索・認識方法の一つの実施例のプロセスを概略的に示すブロック図である。図１が参照されるように、本発明に係る音声検索・認識方法の例は、主に、ステップＳ１０と、Ｓ２０とを含む。
ステップＳ１０において、認識対象の音声（Ｑｕｅｒｙ音声）の音声フィンガープリントを取得する。ただし、当該音声フィンガープリントは認識対象の音声の内容特徴を示すための第１の部分と当該第１の部分の信頼度を示すための第２の部分とを含む。次に、ステップＳ２０の処理に進む。

ステップＳ２０において、認識対象の音声の当該音声フィンガープリントに基づき認識対象の音声に対して認識を行って、認識結果を得る。

本発明に係る音声検索・認識方法の例は、音声対象の、音声の内容特徴を示すための第１の部分と第１の部分の信頼度を示すための第２の部分とを含む音声フィンガープリント特徴を取得しこれを利用して音声検索・認識を行うことにより、音声検索・認識における正確性、ロバスト性及び効率を向上できる。

次に、上述した各ステップをそれぞれ詳細に説明する。

１．ステップＳ１０について：
図２は、本発明の一つの実施例によって提供される音声フィンガープリント取得のプロセスを概略的に示すブロック図である。任意の音声に対して、いずれも図２に示す方法で音声フィンガープリントを取得できるため、本実施例の説明において認識対象の音声であるか否かを区別しない。図２が参照されるように、本発明の一つの実施例において、上記ステップＳ１０における音声フィンガープリント取得のプロセスは具体的に、ステップＳ１１〜Ｓ１７を含む。
ステップＳ１１において、音声をスペクトログラム（Ｓｐｅｃｔｒｏｇｒａｍ）に変換する。具体的に、高速フーリエ変換（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍａｔｉｏｎ）により音声信号を時間−周波数スペクトログラムに変換する。なお、スペクトログラムは一般的に使用される音声信号の二次元スペクトログラムであり、横軸は時間ｔ、縦軸は周波数ｆである。図中の各点（ｔ，ｆ）の具体的な取得値Ｅ（ｔ，ｆ）は、信号のエネルギーを示す。なお、音声信号の具体的なタイプを限定せず、静的ファイル（ｓｔａｔｉｃｆｉｌｅ）か、ストリーミング音声（ｓｔｒｅａｍｉｎｇａｕｄｉｏ）であってもよい。次に、ステップＳ１２の処理に進む。

本発明の実施例において、メル（ＭＥＬ）変換を利用してスペクトログラムに対して前処理を行ってもよい。メル変換を利用して周波数スペクトルを複数の周波数区間（周波数ｂｉｎ）に分割することができ、分割して得た周波数区間の数量は設定可能である。また、スペクトログラムに対して人間聴覚系フィルタリング（ＨｕｍａｎＡｕｄｉｔｏｒｙＳｙｓｔｅｍｆｉｌｔｅｒｉｎｇ）を行ってもよい。人間聴覚系フィルタリングなどの非線形変換を利用して、スペクトログラムにおける周波数スペクトルの分布を人間の聴覚により検知されやすいようにすることができる。

なお、高速フーリエ変換におけるそれぞれのハイパーパラメータを調整して様々な実際の状況に適合させることができる。本発明の実施例において、ステップＳ１１でそれぞれのハイパーパラメータを以下のとおりに設定してもよい。高速フーリエ変換において、時間窓を１００ｍｓ、間隔を５０ｍｓに設定し、メル変換において、周波数区間の数量を３２〜１２８に設定する。

ステップＳ１２において、スペクトログラムにおける特徴点を決定する。

具体的に、複数ある基準のいずれか一種を利用して特徴点を決定する。例えば、スペクトログラムにおけるエネルギー極大値点を特徴点として選択するか、又は、エネルギー極小値点を選択してもよい。ただし、スペクトログラムにおける１つの点（ｔ，ｆ）のエネルギーＥ（ｔ，ｆ）は、Ｅ（ｔ，ｆ）＞Ｅ（ｔ＋１，ｆ）、Ｅ（ｔ，ｆ）＞Ｅ（ｔ−１，ｆ）、Ｅ（ｔ，ｆ）＞Ｅ（ｔ，ｆ＋１）、且つ、Ｅ（ｔ，ｆ）＞Ｅ（ｔ，ｆ−１）を同時に満たす場合、当該点（ｔ，ｆ）はスペクトログラムにおけるエネルギー極大値点である。同様のように、１つの点（ｔ，ｆ）のエネルギーＥ（ｔ，ｆ）は、Ｅ（ｔ，ｆ）＜Ｅ（ｔ＋１，ｆ）、Ｅ（ｔ，ｆ）＜Ｅ（ｔ−１，ｆ）、Ｅ（ｔ，ｆ）＜Ｅ（ｔ，ｆ＋１）、且つ、Ｅ（ｔ，ｆ）＜Ｅ（ｔ，ｆ−１）を同時に満たす場合、当該点（ｔ，ｆ）はスペクトログラムにおけるエネルギー極小値点である。次に、ステップＳ１２の処理に進む。

本発明の実施例において、エネルギー極値点を特徴点として選択することには、エネルギー極値点がノイズに影響されやすいこと、１つのスペクトログラムに極値点がなく、別のスペクトログラムに複数の極値点があるように、極値点の数量を制御しやすく、特徴点が不均一であること、エネルギー極値点のスペクトログラムにおける位置を記録するために追加のタイムスタンプを記憶する必要があるなどの問題があるため、エネルギー極値点を特徴点として選択する代わりに、固定点を特徴点として選択してもよい。例えば、周波数値が予め設定された周波数設定値に等しい点（周波数が一定の点）を選択してもよい。さらに、周波数の大小に応じて低周波数、中間周波数、高周波数の複数の周波数設定値を予め設定してもよい（低周波数、中間周波数、高周波数の具体値は設定可能である）。周波数が低周波数、中間周波数、高周波数の複数の固定点を特徴点として選択することで、選択された特徴点はより均一になる。なお、他の基準に従って固定点を選択してもよい。例えば、１つ又は複数の予め設定されたエネルギー値に等しい点を選択する。

なお、選択された特徴点の数量を調整することで様々な実際の状況に適合させることができる。本発明の実施例において、ステップＳ１２でハイパーパラメータの設定として、特徴点の密度を１秒当たり２０〜８０個に設定してもよい。

ステップＳ１３において、スペクトログラムで、特徴点の付近に、特徴点に１つ又は複数のマスク（ｍａｓｋ）を決定し、各マスクは、スペクトログラムにおける複数の領域（スペクトログラム領域と称する）を含む（カバーするともいう）。次に、ステップＳ１４の処理に進む。

具体的に、スペクトログラムにおいて、各マスクに含まれた複数のスペクトログラム領域は対称に分布してもよい。
時間軸に対して対称に分布する（即ち、複数のスペクトログラム領域は同一の周波数範囲を有する）。例えば、一つのメル−スペクトログラムにおいて、特徴点にＲ１１及びＲ１２の２つのスペクトログラム領域を含むマスクを決定してもよく、Ｒ１１、Ｒ１２はいずれも特徴点の左側に位置し、且つ、Ｒ１１はＲ１２の左側に位置し、Ｒ１１及びＲ１２は同一の周波数区間をカバーする。
又は、周波数軸に対して対称に分布する（即ち、複数のスペクトログラム領域は同一の時間範囲を有する）。例えば、一つのメル−スペクトログラムにおいて、特徴点にＲ１３及びＲ１４の２つのスペクトログラム領域を含むマスクを決定してもよく、Ｒ１３は特徴点の上側に位置し、Ｒ１４は特徴点の下側に位置し、且つ、Ｒ１３及びＲ１４は同一の時間範囲を有する。
又は、特徴点を中心として点対称に分布する。例えば、一つのメル−スペクトログラムにおいて、特徴点にＲ１５及びＲ１６の２つのスペクトログラム領域を含むマスクを決定してもよく、Ｒ１５は特徴点の左上側に位置し、Ｒ１６は特徴点の右下側に位置し、且つ、Ｒ１５及びＲ１６は特徴点を中心として対称に分布する。

当然ながら、１つのマスクに含まれた複数のスペクトログラム領域は、複数種の対称分布を同時に満たす場合をも含む。例えば、特徴点にＲ２１、Ｒ２２、Ｒ２３及びＲ２４の４つのスペクトログラム領域を含むマスクを決定してもよく、Ｒ２１、Ｒ２２、Ｒ２３、Ｒ２４はそれぞれ特徴点の左上、右上、左下、右下に位置し、且つ、Ｒ２１及びＲ２２は同一の周波数範囲を有し、Ｒ２３及びＲ２４は同一の周波数範囲を有し、Ｒ２１及びＲ２３は同一の時間範囲を有し、Ｒ２２及びＲ２４は同一の時間範囲を有し、且つ、これら４つのスペクトログラム領域は特徴点を中心として点対称に分布する。なお、１つのマスクの４つのスペクトログラム領域は必ずしも特徴点を中心として点対称に分布するとは限らない。例えば、いずれも特徴点の左側に位置し、且つ、周波数軸において特徴点の両側に分布する。

なお、同一のマスクに属する複数のスペクトログラム領域同士は互いに重畳してもよい。また、異なるマスク同士は互いに重畳してもよい。好ましくは、各マスクは偶数のスペクトログラム領域を含んでもよい。

なお、マスクは予め設定された一定の基準に従って決定されてもよい、即ち各マスクのスペクトログラムにおける位置及びカバーしている領域は予め設定されている。又は、マスクの位置及び範囲を予め設定せずに、大量のマスクから共分散が最小で、差異が最も顕著なマスクを選択するように、データ駆動の方式を利用してマスク領域を自動的に決定してもよい。

ステップＳ１４において、各スペクトログラム領域のエネルギー平均値を決定する。具体的に、スペクトログラム領域が１つの点だけを含む場合、当該スペクトログラム領域のエネルギー平均値は当該点のエネルギー値である。スペクトログラム領域が複数の点からなる場合、当該スペクトログラム領域のエネルギー平均値をこれらの複数の点のエネルギー値の平均値に設定してもよい。次に、ステップＳ１５の処理に進む。

ステップＳ１５において、マスクにおける複数のスペクトログラム領域のエネルギー平均値に基づき、音声フィンガープリントビット（ｂｉｔ）を決定する。なお、当該音声フィンガープリントビットは即ち上記音声フィンガープリントにおける音声の内容特徴を示すための第１の部分である。次に、ステップＳ１６の処理に進む。

本発明の実施例でステップＳ１５において、１つのマスクに含まれた複数のスペクトログラム領域のエネルギー平均値の差値に基づき、１つの音声フィンガープリントビットを決定してもよい。

具体的に、１つのマスクが２つのスペクトログラム領域を含む場合、例えば、上記Ｒ１１及びＲ１２の２つのスペクトログラム領域を含む例の場合、次の式１に従ってＲ１１、Ｒ１２のエネルギー平均値の差値Ｄ１を算出してもよい。
Ｄ１＝Ｅ（Ｒ１１）−Ｅ（Ｒ１２）…（式１）
次に、差値Ｄ１の正負を判断する。差値Ｄ１が正の値である場合、取得値が１の音声フィンガープリントビットを得る、差値Ｄ１が負の値である場合、取得値が０の音声フィンガープリントビットを得る。

１つのマスクが４つのスペクトログラム領域を含む場合、例えば、上記Ｒ２１、Ｒ２２、Ｒ２３、Ｒ２４の４つのスペクトログラム領域を含む例の場合、次の式２に従ってＲ２１、Ｒ２２、Ｒ２３、Ｒ２４のエネルギー平均値の差値Ｄ２を算出してもよい。
Ｄ２＝（Ｅ（Ｒ２１）＋Ｅ（Ｒ２２））−（Ｅ（Ｒ２３）＋Ｅ（Ｒ２４））…（式２）
次に、差値Ｄ２の正負を判断する。差値Ｄ２が正の値である場合、取得値が１の音声フィンガープリントビットを得る、差値Ｄ２が負の値である場合、取得値が０の音声フィンガープリントビットを得る。なお、必ずしも差値Ｄ２で４つのスペクトログラム領域を含むマスクの音声フィンガープリントビットを決定するとは限らず、他の形式の差値を利用して音声フィンガープリントビットを決定してもよい。例えば、これら４つのスペクトログラム領域のエネルギー平均値の二次差値Ｄ３を算出してもよい。
Ｄ３＝（Ｅ（Ｒ２３）−Ｅ（Ｒ２４））−（Ｅ（Ｒ２１）−Ｅ（Ｒ２２））…（式３）
次に、差値Ｄ１の正負を判断して音声フィンガープリントビットを決定する。

なお、特徴点に複数のマスクを決定した場合、複数の音声フィンガープリントビットを得ることができる。

ステップＳ１６において、音声フィンガープリントビットの対応する強弱重みビットを決定し、当該強弱重みビットは当該音声フィンガープリントビットの信頼度を示すためのものである。なお、当該強弱重みビットは即ち上記音声フィンガープリントにおける第１の部分の信頼度を示すための第２の部分である。具体的に、信頼度が高い音声フィンガープリントビットを強ビットとして定義し、信頼度が低い音声フィンガープリントビットを弱ビットとして定義する。１つの音声フィンガープリントビットの信頼度を判断し、当該音声フィンガープリントビットが強ビットか弱ビットであるかにより強弱重みビットの取得値を決定する。次に、ステップＳ１７の処理に進む。

本発明の実施例において、音声フィンガープリントビットが１つのマスクに含まれた複数のスペクトログラム領域のエネルギー平均値の差値により決定される場合、ステップＳ１６は具体的に以下のことを含む。当該音声フィンガープリントビットを生成するために使用される当該差値の絶対値は予め設定された強弱ビット閾値に達する（又は超える）か否かを判断する。強弱ビット閾値に達している場合、当該音声フィンガープリントビットを強ビットとして決定し、当該音声フィンガープリントビットに対応する取得値が１の強弱重みビットを得る。強弱ビット閾値に達していない場合、当該音声フィンガープリントビットを弱ビットとして決定し、当該音声フィンガープリントビットに対応する取得値が０の強弱重みビットを得る。

一つの具体例として、音声フィンガープリントビットが上記式２に記載の４つのスペクトログラム領域のエネルギー平均値の差値Ｄ２の正負を判断して決定される場合、ステップＳ１６は以下のことを含む。当該差値Ｄ２の絶対値と予め設定された強弱ビット閾値Ｔとの大小関係を判断し、｜Ｄ２｜≧Ｔである場合、当該音声フィンガープリントビットを強ビットとし、当該音声フィンガープリントビットに対応する強弱重みビットの取得値を１に設定する。｜Ｄ２｜＜Ｔである場合、当該音声フィンガープリントビットを弱ビットとし、当該音声フィンガープリントビットに対応する強弱重みビットの取得値を０に設定する。なお、当該強弱ビット閾値は複数のタイプの閾値であってもよい。当該強弱ビット閾値は予め設定された固定値であってもよい。例えば、固定値の１とする。又は、当該強弱ビット閾値はエネルギー平均値の差値から得た数値であってもよい。例えば、当該強弱ビット閾値を複数のマスク（又は複数の特徴点）に対応する複数の差値の平均値に設定し（ただし平均値に限定されず、最大の差値と最小の差値との間の任意数値であってもよい）、差値が当該平均値に達している音声フィンガープリントビットを強ビットとして決定し、差値が当該平均値に達していない音声フィンガープリントビットを弱ビットとして決定する。又は、当該強弱ビット閾値は比値であってもよい。例えば、当該強弱ビット閾値を６０％に設定し、複数のマスク（又は複数の特徴点）に対応する複数の差値のうち、差値の絶対値が全ての差値の上位６０％にあれば、当該音声フィンガープリントビットを強ビットとして決定し、そうでければ、当該音声フィンガープリントビットを弱ビットとして決定する。

ステップＳ１７において、当該音声フィンガープリントビット及び当該強弱重みビットに基づき当該音声の音声フィンガープリントを決定する。具体的に、音声フィンガープリントは１つ又は複数の特徴点に対応するそれぞれの音声フィンガープリントビット（これらによって音声フィンガープリントの第１の部分を生成する）及びそれぞれの強弱重みビット（これらによって音声フィンガープリントの第２の部分を生成する）を含んでさえいればよく、音声フィンガープリントを組み合わせた方式、音声フィンガープリントの長さを限定しない。本発明のいくつかの実施例において、当該音声フィンガープリントは複数の音声フィンガープリント単体及びそれぞれの当該音声フィンガープリント単体に対応する強弱重み単体を含み、当該音声フィンガープリント単体は音声の複数の当該音声フィンガープリントビットを含み、当該強弱重み単体は当該複数の音声フィンガープリントビットに対応する複数の当該強弱重みビットを含む。例えば、１つの特徴点の全てのマスクに対応する音声フィンガープリントビットを組み合わせて音声フィンガープリント単体としての音声フィンガープリントビット配列を得て、対応する強弱重みビットを組み合わせて強弱重み単体としての当該音声フィンガープリントビット配列の長さに等しい強弱重みビット配列を得て、複数の特徴点に対応する音声フィンガープリント単体、強弱重み単体を特徴点の時間順に配列して音声フィンガープリントを形成してもよい。なお、得られた音声フィンガープリント単体の長さは３２ビットであってもよい。

本発明において音声フィンガープリントビットを抽出すると同時に、当該音声フィンガープリントビットに対応する強弱重みビットを抽出することにより、１つの音声セグメントに正確性が高く、ロバスト性に優れた音声フィンガープリントを生成できる。

好ましくは、本発明においてステップＳ１０はさらに以下のことを含む。音声の開始位置と当該特徴点との時間差を示すフィールドとして、音声フィンガープリントにタイムスタンプフィールドを追加し、当該フィールドはハッシュ値であってもよい。特徴点を固定点として設定した場合、当該ステップを含まなくてもよく、即ち当該タイムスタンプを記録する必要がない。

好ましくは、本発明においてステップＳ１０はさらに以下のことを含む。当該音声フィンガープリントに対応する音声のＩＤ標識情報を記録するために、音声フィンガープリントに音声標識フィールドを追加し、当該フィールドはハッシュ値であってもよい。

好ましくは、本発明においてステップＳ１０はさらに以下のことを含む。オリジナルの音声を時間順に複数のサブ音声セグメントに分割する。上記方法のステップに従って、各サブ音声セグメントから音声フィンガープリントを抽出して、複数の音声フィンガープリントを得る。抽出されたサブ音声セグメントのそれぞれの音声フィンガープリントを組み合わせて、当該音声全体の音声フィンガープリントを得る。

２．ステップＳ２０について：
説明と理解の便宜上、認識対象の音声の音声フィンガープリントを第１の音声フィンガープリント、第１の音声フィンガープリントに含まれた音声フィンガープリント単体を第１の音声フィンガープリント単体、第１の音声フィンガープリント単体に対応する強弱重み単体を第１の強弱重み単体と称する。

図３は、本発明の一つの実施例によって提供される音声フィンガープリントに基づき音声に対して検索・認識を行うプロセスを概略的に示すブロック図である。図３が参照されるように、本発明の一つの実施例において、上記ステップＳ２０で認識対象の音声に対して検索・認識を行うプロセスは具体的にステップＳ２１と、Ｓ２２とを含む。
ステップＳ２１において、当該第１の音声フィンガープリントに基づき、複数の既存の音声に対して第１の順位付けを行い、当該第１の順位付けの結果に基づき、第１の候補音声集合として上位ｋ個の既存の音声を取り出す。ただしｋは正の整数であり、ｋの具体的な取得値は設定可能である。具体的に、当該第１の順位付けは各単独の第１の音声フィンガープリント単体の既存の音声とマッチングした状態に基づいて行われる順位付けである。さらに、当該第１の順位付けはそれぞれの第１の音声フィンガープリント単体に基づき既存の音声に対して行われる語出現頻度−逆文書頻度順位付け（ｔｅｒｍｆｒｅｑｕｅｎｃｙ−ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙｒａｎｋｉｎｇ、略称ＴＦ−ＩＤＦ順位付け）であってもよい。次に、ステップＳ２２の処理に進む。

ステップＳ２２において、当該第１の音声フィンガープリントに基づき、当該第１の候補音声集合に対して第２の順位付けを行い、当該第２の順位付けの結果に基づき、認識結果として第１の候補音声集合における上位ｎ個の第１の候補音声を取り出す。ただしｎは正の整数であり、ｎの具体的な取得値は設定可能である。具体的に、当該第２の順位付けは順に配列された複数の第１の音声フィンガープリント単体に基づき、当該第１の候補音声集合における音声に対して行われる順位付けである。例えば、当該順に配列された複数の第１の音声フィンガープリント単体は第１の音声フィンガープリントにおける連続した部分、当該第１の音声フィンガープリント全体を含む、且つ／又は、当該順に配列された複数の第１の音声フィンガープリント単体は第１の音声フィンガープリントにおける同一間隔の通し番号を有する複数の第１の音声フィンガープリント単体を含み、例えば、通し番号が１、３、５、７…の複数の第１の音声フィンガープリント単体を含む。

これによって当該認識結果に基づきＭｅｔａデータベースにおいて検索を行えば、当該認識結果の音声情報、例えば、認識された音声の名称、作者、出典などを得ることができる。認識結果が複数の音声を含む場合、認識された音声の複数の情報を同時に提供できる。

本実施例において、ステップＳ２１で第１の順位付け及び／又はステップＳ２２で第２の順位付けがわれるプロセスで、音声フィンガープリントを利用する場合、音声フィンガープリントにおける強弱重み単体に基づき音声フィンガープリント単体に対して重み付けを行ってもよい。重み付けがされない第１の順位付け、第２の順位付けのプロセスは順位付けを行うとき、各音声フィンガープリント単体に同一の重みを付与することに相当するため、次に強弱重みを利用して音声フィンガープリントに対して重み付けを行う第１の順位付け及び第２の順位付けのプロセスについて具体的に説明する。

本発明によって提供されるメディア検索方法は、第１の順位付け及び第２の順位付けを行って検索結果を得るため、メディア検索における正確性及び効率を大幅に向上できる。

上記ステップＳ２１について：
上記既存の音声は音声データベースにおける音声であってもよい。当該音声データベースに既存の音声の音声フィンガープリントが記憶され、記憶されている既存の音声の音声フィンガープリントに第１の音声フィンガープリントの場合と同じ抽出方法を利用して得た第１の音声フィンガープリントと同一タイプの音声フィンガープリントが含まれるため、既存の音声の音声フィンガープリントにも音声の内容特徴を示すための第１の部分と当該第１の部分の信頼度を示すための第２の部分とが含まれる。

本発明のいくつかの実施例において、本発明に係る音声検索・認識方法はさらに以下のことを含む。複数の既存の音声の音声フィンガープリントを予め取得する。説明と理解の便宜上、既存の音声の音声フィンガープリントを第２の音声フィンガープリント、第２の音声フィンガープリントに含まれた音声フィンガープリント単体を第２の音声フィンガープリント単体、第２の音声フィンガープリントに含まれた強弱重み単体を第２の強弱重み単体と称する。当該第２の音声フィンガープリントに対してインデクシングを行って、既存の音声のフィンガープリントインデックスを取得しておく。当該フィンガープリントインデックスと認識対象の音声の第１の音声フィンガープリント単体とのマッチングを行って、複数の既存の音声に対してＴＦ−ＩＤＦ順位付けを行う。

具体的に、既存の音声のフィンガープリントインデックスを取得しておくことはさらに以下のことを含む。音声フィンガープリントの検索及び比較を行うために、既存の音声の音声フィンガープリントの普通フィンガープリントインデックス（ｆｏｒｗａｒｄｉｎｄｅｘ）及び転置フィンガープリントインデックス（ｉｎｖｅｒｔｅｄｉｎｄｅｘ）を取得しておく。当該普通フィンガープリントインデックス及び転置フィンガープリントインデックスは音声データベースに予め記憶されてもよい。ただし、普通フィンガープリントインデックスはそれぞれの既存の音声の音声フィンガープリントを記録する、即ちそれぞれの既存の音声が記録された音声フィンガープリントは具体的にどれらの音声フィンガープリント単体を含むか及びこれらの音声フィンガープリント単体の順位を記録するために用いられる。転置フィンガープリントインデックスはそれぞれの音声フィンガープリント単体がどの又はどれらの既存の音声の音声フィンガープリントに出現しているかを記録するために用いられる。具体的に、キー値対（ｋｅｙ−ｖａｌｕｅ対）の形式で当該普通フィンガープリントインデックス及び転置フィンガープリントインデックスを記憶してもよい。普通フィンガープリントインデックスにおいて、１つのキー（ｋｅｙ）で１つの音声の番号（音声ＩＤともいう）を示し、当該キーに対応する値（ｖａｌｕｅ）で当該音声がどれらの音声フィンガープリント単体を含むか及びこれらの音声フィンガープリント単体の順位を記録し、普通フィンガープリントインデックスにおけるキー、値をそれぞれ普通インデックスキー、普通インデックス値と称する。転置フィンガープリントインデックスにおいて、１つのキー（ｋｅｙ）で１つの音声フィンガープリント単体を示し、当該キーに対応する値（ｖａｌｕｅ）で当該音声フィンガープリント単体が含まれた音声の番号を記録し、転置フィンガープリントインデックスにおけるキー、値をそれぞれ転置インデックスキー、転置インデックス値と称する。

なお、ロバスト性を向上させるために、強弱重みに基づき第２の音声フィンガープリントに対してインデクシングを行ってもよい。具体的に、普通フィンガープリントインデックスを決定するプロセスにおいて、普通フィンガープリントインデックスに既存の音声のそれぞれの音声フィンガープリント単体に対応する強弱重み単体を記録してもよい。転置フィンガープリントインデックスを決定するプロセスにおいて、あるインデクシング対象の音声フィンガープリント単体がある既存の音声に出現しているか否かを決定する際、当該インデクシング対象の音声フィンガープリント単体における弱ビットを無視して、当該インデクシング対象の音声フィンガープリント単体における全ての強ビットが当該既存の音声における特定の音声フィンガープリント単体に対応するビットに一致するか否かを判断すればよい。例えば、インデクシング対象の音声フィンガープリント単体における第１の、第３の音声フィンガープリントビットが強ビットで、残りの音声フィンガープリントビットが弱ビットである場合、当該インデクシング対象の音声フィンガープリント単体の転置フィンガープリントインデックスには、インデクシング対象の音声フィンガープリント単体と同一の第１の、第３の音声フィンガープリントビットを有する音声フィンガープリント単体を含む既存の音声番号が記録されている。

なお、ＴＦ−ＩＤＦ順位付けは情報に対して語出現頻度及び逆文書頻度重み付けを行って、情報の重要度を判断することにより、順位付けを行う技術である。ただし、語出現頻度とは、ある単語（情報ともいう）の特定の文章（ファイルともいう）における出現頻度を指す。語出現頻度が高ければ高いほど、当該単語が当該文章に対してより重要であることを示す。ファイル頻度とは、ある単語が文章ライブラリにおけるいくつの文章に出現しているかを指す。逆文書頻度は、ファイル頻度の逆数である（実際に演算するにあたり、逆文書頻度の対数をとるか、又は逆文書頻度をファイル頻度の逆数の対数として定義してもよい）。逆文書頻度が高ければ高いほど、当該単語の差異がより大きいことを示す。従って、ＴＦ−ＩＤＦ順位付けにおいて、語出現頻度と逆文書頻度との乗積の大さで順位付けを行う。なお、１つの音声の音声フィンガープリントを１つの文章とし、各音声フィンガープリント単体を１つの単語とすれば、ＴＦ−ＩＤＦ方式を利用して既存の音声に対して順位付けを行うことができる。

また、音声データベースにおける全ての既存の音声に対して第１の順位付けを行うと、検索・認識の効率に影響を与える恐れがあるため、第１の順位付けを行う前に、音声データベースにおける既存の音声に対して正確マッチング（ｅｘａｃｔｍａｔｃｈ）を行ってもよい。ただし正確マッチングは、第２の候補音声集合として、予め設定された数量又は予め設定された割合以上の数量の第１の音声フィンガープリント単体を含む既存の音声を選出するために用いられる。次に当該第２の候補音声集合に対して第１の順位付けを行って、第１の候補音声集合を選出する。

図４は、本発明の一つの実施例によって提供される第１の順位付けのプロセスを概略的に示すブロック図である。図４が参照されるように、本発明の一つの実施例において、第１の順位付けは具体的にステップＳ３１〜Ｓ３５を含む。
ステップＳ３１において、転置フィンガープリントインデックスに基づき、それぞれの第１の音声フィンガープリント単体がどれらの既存の音声の第２の音声フィンガープリントに出現しているかを集計して、音声データベースにおいてマッチングを行って、第２の候補音声集合として予め設定された数量以上の第１の音声フィンガープリント単体を含む既存の音声を得る。なお、マッチングのプロセスにおいて、ロバスト性を向上させるために、第１の音声フィンガープリント単体に対応する強弱重み単体に基づき、当該第１の音声フィンガープリント単体における弱ビットのマッチングされた状態を無視して、当該第１の音声フィンガープリント単体における強ビットの既存の音声の第２の音声フィンガープリントにおけるマッチングされた状態を判断するだけでよい。次に、ステップＳ３２の処理に進む。

なお、「予め設定された数量以上の第１の音声フィンガープリント単体」における「数量」とは、第１の音声フィンガープリント単体の種類を指す。具体的に、当該予め設定された数量は１つであってもよく、これによってマッチングして得た第２の候補音声集合は第２の音声フィンガープリントに少なくともいずれか１種の第１の音声フィンガープリント単体が出現している既存の音声である。当該予め設定された数量は複数であり、例えばｐ個（ｐは正の整数）であってもよく、これによってマッチングして得た第２の候補音声集合は第２の音声フィンガープリントに少なくともｐ種類の第１の音声フィンガープリント単体が出現している既存の音声である。

ステップＳ３２において、普通フィンガープリントインデックスに基づき、１つの第１の音声フィンガープリント単体の１つの第２の候補音声の第２の音声フィンガープリントにおける語出現頻度を決定する。当該語出現頻度は、ある第１の音声フィンガープリント単体の、ある第２の音声フィンガープリントに含まれた全ての音声フィンガープリント単体に占める割合である。なお、当該普通フィンガープリントインデックスは上述したように強弱重みに基づいて得たフィンガープリントインデックスであってもよい。次に、ステップＳ３３の処理に進む。

ステップＳ３３において、転置フィンガープリントインデックスに基づき、１つの第１の音声フィンガープリント単体のファイル頻度を決定する。当該ファイル頻度は、複数の既存の音声のうち（例えば、音声データベースにおける全ての既存の音声）、第２の音声フィンガープリントのうち当該第１の音声フィンガープリント単体が含まれた既存の音声の数量の、既存の音声総数に占める割合である。なお、当該転置フィンガープリントインデックスは上述したように強弱重みに基づいて得たフィンガープリントインデックスであってもよい。次に、ステップＳ３４の処理に進む。

ステップＳ３４において、それぞれの第１の音声フィンガープリント単体の１つの第２の候補音声の第２の音声フィンガープリントにおける語出現頻度及びそれぞれの第１の音声フィンガープリント単体のファイル頻度に基づき、当該第２の候補音声の語出現頻度−逆文書頻度得点を決定する。次に、ステップＳ３５の処理に進む。

ステップＳ３５において、得られたそれぞれの第２の候補音声の語出現頻度−逆文書頻度得点に基づき、第２の候補音声集合に対して順位付けを行って、第１の順位付けの結果を得て、当該第１の順位付けの結果から第１の候補音声集合として上位ｋ個の第２の候補音声を取り出す。また、後続の第２の順位付けにおいて当該第２の音声フィンガープリントに基づき第１の候補音声集合に対して更なる処理を行うために、それぞれの第１の候補音声の第２の音声フィンガープリント（普通フィンガープリントインデックス）を返してもよい。

本実施例において、インデクシングサーバーを利用して、認識対象の音声の第１の音声フィンガープリント単体の集合をインデクシング要求として、上記普通フィンガープリントインデックス及び転置フィンガープリントインデックスに基づき、正確マッチング及びＴＦ−ＩＤＦ順位付けを行って、第１の候補音声集合を取り戻すと同時に、得られたそれぞれの第１の候補音声の普通フィンガープリントインデックスを返してもよい。具体的に、オープンソースの検索エンジンＥｌａｓｔｉｃｓｅａｒｃｈを利用して上記それぞれのステップを行って、高速検索の効果を得ることができる。

なお、正確マッチング及び第１の順位付けにおいて、それぞれの第１の音声フィンガープリント単体がどれらの既存の音声に出現しているか、及び第１の音声フィンガープリント単体自体の検索状況を重視しているが、それぞれの第１の音声フィンガープリント単体の第１の音声フィンガープリントにおける順位の検索に対する影響が考慮されていない、すなわち、音声フィンガープリント全体又は連続した複数の音声フィンガープリント単体の検索状況が考慮されていない。

本発明によって提供される音声検索・認識方法は、強弱重みを含む音声フィンガープリントに基づき、正確マッチング及びＴＦ−ＩＤＦ方式に基づく第１の順位付けを行うことにより、音声検索・認識における正確性及び効率を大幅に向上できる。

上記ステップＳ２２について：
本発明のいくつかの実施例において、当該第２の順位付けは順に配列された複数の第１の音声フィンガープリント単体からなる前後順序を有する配列の第１の候補音声の音声フィンガープリントにおける出現の状況に基づき、当該第１の候補音声集合における音声に対して行われる順位付けである。具体的に、当該第２の順位付けは、既存の音声のフィンガープリントインデックス及び第１の音声フィンガープリントに基づき当該第１の候補音声集合における音声の類似度行列を得て、当該類似度行列に基づき当該第１の候補音声集合における音声に対して順位付けを行うことを含む。なお、類似度行列を決定するプロセスにおいて、ロバスト性を向上させるために、第１の音声フィンガープリントに対応する強弱重み及び／又は既存の音声のフィンガープリントインデックスにおける強弱重みに基づき重み付けを行い、重み付けされた類似度行列を利用して第１の候補音声集合における音声に対して順位付けを行ってもよい。

図５は、本発明の一つの実施例によって提供される第２の順位付けのプロセスを概略的に示すブロック図である。図５が参照されるように、本発明の一つの実施例において、当該第２の順位付けは具体的にステップＳ４１〜Ｓ４５を含む。
ステップＳ４１において、第１の候補音声集合における１つの第１の候補音声（ただし各第１の候補音声はいずれも既存の音声）の第２の音声フィンガープリントを取得する。具体的に、既存の音声的フィンガープリントインデックス（例えば、普通フィンガープリントインデックス）に基づき、当該第２の音声フィンガープリントを取得してもよい。認識対象の音声の第１の音声フィンガープリントがＭ_１個の第１の音声フィンガープリント単体を含み、当該第１の候補音声の第２の音声フィンガープリントがＭ_２個の第２の音声フィンガープリント単体を含み、ただしＭ_１及びＭ_２は正の整数であると仮定する。本発明のいくつかの例において、第１の音声フィンガープリントはそれぞれの第１の音声フィンガープリント単体に対応する強弱重み単体（第１の強弱重み単体と称する）を含む、且つ／又は、第２の音声フィンガープリントはそれぞれの第２の音声フィンガープリント単体に対応する強弱重み単体（第２の強弱重み単体と称する）を含む。次に、ステップＳ４２の処理に進む。

ステップＳ４２において、当該第１の候補音声の第２の音声フィンガープリントに含まれたそれぞれの第２の音声フィンガープリント単体とそれぞれの第１の音声フィンガープリント単体との間の単体類似度を決定して、Ｍ_１×Ｍ_２個の単体類似度を得る。各単体類似度は１つの第１の音声フィンガープリント単体と１つの第２の音声フィンガープリント単体との類似度を示すものであり、具体的に、単体類似度が大きければ大きいほどより類似する。なお、当該単体類似度を決定するプロセスにおいて、第１の強弱重み単体及び／又は第２の強弱重み単体に基づき、それぞれの第１の音声フィンガープリント単体、第２の音声フィンガープリント単体に対して重み付けを行い、次に重み付けされた第１の、第２の音声フィンガープリント単体に基づき当該単体類似度を決定してもよい。本発明に係る一つの例において、音声データベースにおけるデータ情報の正確性がより高いため、第２の強弱重み単体を利用して第１の音声フィンガープリント単体、第２の音声フィンガープリント単体に対してそれぞれ重み付けを行ってもよい。次に、ステップＳ４３の処理に進む。

本発明の実施例において、音声フィンガープリントのタイプに基づき、２つの音声フィンガープリント単体の類似度の判断に利用可能な距離又はメトリックを当該単体類似度として選択してもよい。具体的に、第１の音声フィンガープリント単体、第２の音声フィンガープリント単体はいずれも上記実施例におけるステップＳ１１〜ステップＳ１７に示す方法により得た二値フィンガープリントである場合、第１の音声フィンガープリント単体と第２の音声フィンガープリント単体との間のハミング距離（Ｈａｍｍｉｎｇ距離）を算出し、音声フィンガープリント単体の長さ（ビット数）と当該ハミング距離との差値を算出し、当該差値と当該音声フィンガープリント単体長さとの比値を、２つの二値フィンガープリントにおける同一ビットの占める割合を示す単体類似度として決定してもよい。ただし、ハミング距離は情報理論分野で一般的に利用されるメトリックであり、２つの等長文字列の間のハミング距離は２つの文字列の対応する位置における異なる文字の数量である。実際にハミング距離を算出するに当たり、２つの文字列に対して排他的論理和演算を行い、結果が１の数量を集計して、この数量をハミング距離としてもよい。なお、同じ方法を利用して抽出することにより得た音声フィンガープリント単体は同一の長さを有する。本発明に係る強弱重みを利用して当該ハミング距離のタイプの単体類似度に対して重み付けを行う方法は具体的に、まず強弱重み単体における強弱重みビットを利用して音声フィンガープリント単体における対応する音声フィンガープリントビットに対して重み付けを行い、第１の音声フィンガープリント単体、第２の音声フィンガープリント単体に対して排他的論理和演算を行うことにより、強弱重みで重み付けされた単体類似度を得る。なお、ハミング距離で当該単体類似度を示すことに限定されず、２つの音声フィンガープリント単体の類似度の判断に利用可能な任意の距離又はメトリックを利用してもよい。

ステップＳ４３において、それぞれの単体類似度に基づき、当該第１の候補音声と認識対象の音声との類似度行列（ｓｉｍｉｌａｒｉｔｙｍａｔｒｉｘ）を決定する。

具体的に、当該類似度行列における各点は１つの単体類似度に対応するため、当該類似度行列には１つの第１の候補音声のそれぞれの第２の音声フィンガープリント単体とそれぞれの第１の音声フィンガープリント単体との単体類似度が記録される。さらに、当該類似度行列のそれぞれの点は、横方向に認識対象の音声のそれぞれの第１の音声フィンガープリント単体の、第１の音声フィンガープリントにおける前後順位に従って配列され、縦方向に第１の候補音声のそれぞれの第２の音声フィンガープリント単体の、第２の音声フィンガープリントにおける前後順位に従って配列される。これにより、ｉ行目ｊ列目に位置する点は認識対象の音声のｉ番目の第１の音声フィンガープリント単体と、第１の候補音声のｊ番目の第２の音声フィンガープリント単体との単体類似度を示すことになり、当該類似度行列はＭ_１×Ｍ_２の行列になる。次に、ステップＳ４４の処理に進む。

なお、実施するにあたり、必ずしもステップＳ４２を行ってそれぞれの単体類似度を算出してから、ステップＳ４３を行って類似度行列を決定するとは限らず、類似度行列を直接決定して、当該類似度行列のそれぞれの点を決定するプロセスで対応する単体類似度を算出してもよい。

ステップＳ４４において、各第１の候補音声の類似度行列に基づき、当該第１の候補音声の配列類似度得点を決定する。当該配列類似度得点は当該第１の候補音声と認識対象の音声との類似度を示すために用いられる。当該配列類似度得点は０から１の分数であってもよく、数値が大きければ大きいほど２つの音声セグメントはより類似する。次に、ステップＳ４５の処理に進む。

具体的に、類似度行列における直線に基づき当該の配列類似度得点を決定する。

なお、音声フィンガープリントは一般に有限数量の複数の音声フィンガープリント単体を含むため、類似度行列は有限行列である。従って、いわゆる「直線」とは類似度行列における複数の点からなる有限の長さの線分である。当該直線は斜率を有し、当該斜率は直線が含む複数の点を結ぶ線の斜率である。また、当該直線の始点及び終点は、必ずしも端部に位置する点ではなく、類似度行列における任意の点であってもよい。

本発明で使用される用語「直線」は類似度行列における対角線、当該対角線に平行の各線分など類似度行列の左上から右下へ延伸する斜率が１の直線を含み、さらに斜率が１でない直線も含む。例えば、斜率が１に近い直線であってもよく、これにより音声検索・認識におけるロバスト性を向上できる。斜率が２、３…１／２、１／３…などの直線であってもよく、これによりスピード調整後の音声の検索・認識に対応可能である。あるいは、斜率が負値の直線（類似度行列の左下から右上へ延伸する直線）であってもよく、これにより逆再生処理後の音声の検索・認識に対応可能である。ここで対角線は（１，１）、（２，２）、（３，３）…の点からなる線分である（すなわち左上隅の点を始点とした斜率が１の直線である）。

なお、類似度行列における各直線はいずれも順に配列された複数の単体類似度からなるため、各直線は順に配列された複数の音声フィンガープリント単体対の類似の程度を示す。これにより認識対象の音声における１つの音声セグメントと既存の音声における１つの音声セグメントとの類似度を示すことができる。ただし各音声フィンガープリント単体対は１つの第１の音声フィンガープリント単体及び１つの第２の音声フィンガープリント単体を含む（すなわち、各直線は順に配列された複数の第１の音声フィンガープリント単体と順に配列された複数の第２の音声フィンガープリント単体との類似度を示す）。直線の斜率、始点及び終点は２つの音声セグメントの長さ、位置を示す。例えば、（１，１）、（２，３）、（３，５）、（４，７）で構成された直線は、通し番号が１の第１の音声フィンガープリント単体と通し番号が１の第２の音声フィンガープリント単体との類似の程度、通し番号が２の第１の音声フィンガープリント単体と通し番号が３の第２の音声フィンガープリント単体との類似の程度…を示しているため、当該直線は通し番号が１、２、３、４の第１の音声フィンガープリント単体に対応する認識対象の音声セグメントと通し番号が１、３、５、７の第２の音声フィンガープリント単体に対応する既存の音声セグメントとの類似の程度を示すことができる。

従って、類似度行列における直線に基づき、１つの第１の候補音声と認識対象の音声との類似の程度を決定することができる。１つの直線に含まれたそれぞれの単体類似度の平均状態（又は全体的な状態）を当該直線の直線類似度として定義してもよく、当該直線類似度は対応する複数の第１の音声フィンガープリント単体と複数の第２の音声フィンガープリント単体との類似の程度を反反映できる。類似度行列において直線類似度が最大の直線を決定して、マッチング直線と称する。マッチング直線の直線類似度を第１の候補音声の配列類似度得点として決定する。

なお、マッチング直線を決定するプロセスにおいて、予め設定された複数の直線のうち直線類似度が最高の直線を決定してもよい。例えば、当該予め設定された複数の直線は全ての斜率が予め設定された斜率の設定値（例えば、斜率が１）である直線であるか、又は、単体類似度の大小順位付けの上位にできる複数の点を類似度行列から選択して、これらの点で直線を当てはめすることにより、直線類似度が相対的に最高の直線を生成してもよい。

ステップＳ４５において、それぞれの第１の候補音声の当該配列類似度得点に基づき第１の候補音声集合に対して順位付けを行って、第２の順位付けの結果を得て、当該第２の順位付けの結果から認識結果として上位ｎ個の第１の候補音声を取り出す。

本発明によって提供される音声検索・認識方法は、強弱重みを含む音声フィンガープリントに基づき、そして類似度行列に基づき第２の順位付けを行うことにより、音声検索・認識における正確性及び効率を大幅に向上できる。

本発明の一つの具体的な実施例において、動的計画法来を利用して類似度行列に基づき配列類似度得点を決定してもよい。図６は、本発明の一つの実施例によって提供される動的計画法を利用して音声検索・認識を行うプロセスを概略的に示すブロック図である。図６が参照されるように、一つの実施例において、ステップＳ４４は具体的にステップＳ４４−１ａと、Ｓ４４−１ｂと、Ｓ４４−１ｃとを含む。
ステップＳ４４−１ａにおいて、類似度行列における斜率が予め設定された斜率設定値の複数の直線を候補直線として定義し、各候補直線に含まれたそれぞれの単体類似度に基づき当該候補直線の直線類似度を決定する。具体的に、１つの直線の直線類似度は当該直線に含まれたそれぞれの単体類似度の平均値として設定するか、又は当該直線に含まれたそれぞれの単体類似度の和の値として設定してもよい。一つの具体例において、斜率設定値を１にすると、上記候補直線は、類似度行列における対角線及び当該対角線に平行の直線である。次に、ステップＳ４４−１ｂの処理に進む。

なお、本発明の一つの実施例において、ステップＳ４４−１ａはさらに以下のことを含む。候補直線から、予め設定された直線長さ設定値より数量が少ない単体類似度を含む直線を除去して、ステップＳ４４−１ｂに進む。すなわち本実施例において、候補直線は、予め設定された直線長さ設定値に達する数量の単体類似度を含むことを満たす必要がある。単体類似度が不足する直線を除去すると、直線に含まれた単体類似度が不足するため最終的に得た配列類似度得点の正確性に影響を与えるという問題を解消できる。

ステップＳ４４−１ｂにおいて、当該複数の候補直線から、当該直線類似度を最大にする候補直線を決定し、これを第１のマッチング直線として定義する。次に、ステップＳ４４−１ｃの処理に進む。

ステップＳ４４−１ｃにおいて、当該第１のマッチング直線の直線類似度を配列類似度得点として決定する。

なお、本発明のいくつかの実施例において、ステップＳ４４−１ａで予め設定された斜率設定値は複数であってもよい、即ち候補直線は斜率が複数の斜率設定値のいずれかに等しい直線である。例えば、候補直線は斜率が１、−１、２、１／２などの直線であってもよく、ステップＳ４４−１ｂにおいて、斜率が複数の斜率設定値のいずれかである複数の候補直線から第１のマッチング直線を決定する。

本発明によって提供される音声検索・認識方法は、動的計画法を利用して配列類似度得点を決定することにより、音声検索・認識における正確性及び効率を向上できる。

本発明の別の具体的な実施例において、線形メディア法（Ｌｉｎｅａｒｍｅｄｉａｍｅｍｔｈｏｄ、等速メディア法とも言う）を利用して類似度行列に基づき配列類似度得点を決定する。図７は、本発明の一つの実施例によって提供される線形メディア法を利用して音声検索・認識を行うプロセスを概略的に示すブロック図である。図７が参照されるように、一つの実施例において、ステップＳ３４は具体的にステップＳ４４−２ａと、Ｓ４４−２ｂと、Ｓ４４−２ｃとを含む。
ステップＳ４４−２ａにおいて、類似度行列から類似度極値点として単体類似度が最大の複数の点を選択する。選択された類似度極値点の数量は予め設定されてもよい。次に、ステップＳ４４−２ｂの処理に進む。

ステップＳ４４−２ｂにおいて、当該複数の類似度極値点に基づき、当該類似度行列において第２のマッチング直線としての直線を当てはめする。いくつかの具体例において、当該複数の類似度極値点に基づき、第２のマッチング直線として、予め設定された斜率設定値を有する又は予め設定された斜率設定値に近い直線を当てはめする。例えば、斜率が１に近い直線を当てはめする。具体的に、ランダムサンプルコンセンサス法（ＲａｎｄｏｍＳａｍｐｌｅＣｏｎｓｅｎｓｕｓ法、略称ＲＡＮＳＡＣ法）を利用して当該類似度行列において斜率が斜率設定値に近い直線を当てはめしてもよい。なお、ＲＡＮＳＡＣ法は、異常データを含むいくつかのサンプルデータ集に基づき、データの数学モデルのパラメータを算出して、有効なサンプルデータを得るという一般的に利用される方法である。次に、ステップＳ４４−２ｃの処理に進む。

ステップＳ４４−２ｃにおいて、当該第２のマッチング直線に含まれた複数の単体類似度に基づき配列類似度得点を決定する。具体的に、当該第２のマッチング直線におけるそれぞれの単体類似度の平均値を当該配列類似度得点として決定してもよい。

本発明によって提供される音声検索・認識方法は、線形メディア法を用いて配列類似度得点を決定することにより、音声検索・認識における正確性及び効率を向上できる。

さらに、ここで類似度行列は複数種の音声類似度を総合的に考慮して得るものであってもよい。具体的に、本発明に係る音声検索・認識はさらに以下のことを含む。認識対象の音声の複数のタイプの第１の音声フィンガープリントを取得し、第１の候補音声集合における音声の複数のタイプの第２の音声フィンガープリントを取得して、複数のタイプの第２の音声フィンガープリントに基づいて得たフィンガープリントインデックス及び複数のタイプの第１の音声フィンガープリントに基づき類似度行列を決定する。

図８は、本発明の一つの実施例による複数のタイプの第１の音声フィンガープリント及び第２の音声フィンガープリントに基づき類似度行列を決定して音声検索を行うプロセスを概略的に示すブロック図である。図８が参照されるように、本発明の一つの実施例において、本発明に係る音声検索・認識方法はステップＳ５１〜Ｓ５４を含む。
ステップＳ５１において、複数種の音声フィンガープリント抽出方法を利用して、認識対象の音声の複数のタイプの第１の音声フィンガープリントを取得し、各タイプの第１の音声フィンガープリントは音声の内容特徴を示すための複数の第１の部分を含み、これらを第１の音声フィンガープリント単体と称する。好ましくは、少なくともいくつかのタイプの第１の音声フィンガープリントは第１の部分の信頼度を示すための第２の部分を含む。例えば、認識対象の音声の、上記実施例のステップＳ１１からステップＳ１７に示す方法で得た音声フィンガープリント、及び他のタイプの音声フィンガープリントを同時に取得する。次に、ステップＳ５２の処理に進む。

ステップＳ５２において、１つの既存の音声（具体的に、上記第１の候補音声集合における音声であってもよい）の複数のタイプの第２の音声フィンガープリントを取得し、各タイプの第２の音声フィンガープリントは音声の内容特徴を示すための複数の第１の部分を含み、これらを第２の音声フィンガープリント単体と称する。好ましくは、少なくともいくつかのタイプの第２の音声フィンガープリントは第１の部分の信頼度を示すための第２の部分を含む。例えば、既存の音声の、上記実施例のステップＳ１１からステップＳ１７に示す方法で得た音声フィンガープリント、及び他のタイプの音声フィンガープリントを同時に取得する。次に、ステップＳ５３の処理に進む。

ステップＳ５３において、上記実施例のステップＳ４２と類似する方法を利用して、同一タイプの当該第２の音声フィンガープリント単体と当該第１の音声フィンガープリント単体との単体類似度をそれぞれ決定する。これにより複数のタイプの音声フィンガープリントに対応して、１つの既存の音声の複数種の単体類似度を得ることができる。次に、ステップＳ５４の処理に進む。

ステップＳ５４において、複数種の単体類似度の平均値又は最小値を決定し、複数種の単体類似度の当該平均値又は当該最小値に基づき、上記実施例のステップＳ４３と類似する方法を利用して当該既存の音声の類似度行列を決定する。

次に、上記例のステップＳ４４の処理に進み、ステップＳ４４において当該複数種の単体類似度の平均値又は最小値から得た類似度行列に基づき、配列類似度得点を決定し第２の順位付けの結果を決定するなどのステップを行う。

複数種の類似度の平均値又は最小値を利用して類似度行列を決定することにより以下の効果を得ることができる。単一種類の音声フィンガープリントから得た類似度を利用して音声検索・認識を行うと、誤マッチングが発生する恐れがあるが、複数種の音声フィンガープリントの類似度の平均値又は最小値を取ると、当該誤マッチングの問題を緩和又は解消することができ、音声検索・認識における正確性を向上できる。

なお、複数種の単体類似度の平均値又は最小値をとる前に、各種の単体類似度の取得値の範囲が一致するように確保する必要がある。例えば、全てのタイプの単体類似度の取得値の範囲をいずれも０から１に設定しておく。なお、上記ハミング距離に基づき決定された単体類似度の例では、単体類似度の取得値の範囲は既に０から１に設定されている。

本発明のいくつかの実施例において、当該音声検索・認識方法はさらに以下のことを含む。第１の順位付けを行う前に、取得された認識対象の音声の第１の音声フィンガープリント及び既存の音声の第２の音声フィンガープリントを、予め設定された一定の長さでスライスして、長さが等しい（同一数量の音声フィンガープリント単体を含む）複数の第１のサブ音声フィンガープリント及び第２のサブ音声フィンガープリントを得る（例えば、第２の音声フィンガープリントに対してインデクシングを行うステップを含む実施例において、インデクシング前にスライスを行う）、且つ／又は、音声フィンガープリントを取得する前に、予め設定された一定の時間長さで認識対象の音声及び既存の音声をスライスして、複数の時間長さが等しい認識対象の音声セグメント及び既存の音声セグメントを得て、次にそれぞれの認識対象の音声セグメント及び既存の音声セグメントの音声フィンガープリントをそれぞれ取得して、それぞれの認識対象の音声セグメントの第１のサブ音声フィンガープリント、それぞれの既存の音声セグメントの第２のサブ音声フィンガープリントを得る。続いて、それぞれの第１のサブ音声フィンガープリント、第２のサブ音声フィンガープリントに基づき上記第１の順位付け及び第２の順位付けのステップを行って、それぞれのサブ音声フィンガープリントの認識結果を得て、それぞれのサブ音声フィンガープリントの認識結果に基づきオリジナルの認識対象の音声の認識結果を決定する。

音声又は音声フィンガープリントを一定の長さでスライスすることにより以下の効果を得ることができる。１．ＴＦ−ＩＤＦ順位付けはより統一された基準で行われる。２．得られた単体類似度、配列類似度得点はより正確である。３．長さを統一させると音声フィンガープリント及びフィンガープリントインデックスをより記憶しやすくなる。

本発明のいくつかの実施例において、第１の音声フィンガープリントにおける第１の音声フィンガープリント単体及び第２の音声フィンガープリントにおける第２の音声フィンガープリント単体は時間特性を備えて配列される。例えば、時間の前後順に従って配列される。これにより、本発明に係る音声検索・認識方法はさらに以下のことを含む。上記類似度行列に基づき認識対象の音声と既存の音声（具体的には、上記認識結果における音声であってもよい）とで重複するセグメントを決定する。具体的には、類似度行列における直線の始点及び終点に基づき２つの音声における重複するセグメントの開始時間及び終了時間を得ることができる。

ここで、類似度行列における直線（例えば、マッチング直線）に基づき重複するセグメントを決定することの具体的な方法は以下のとおりであってもよい。直線の始点に対応する第１の音声フィンガープリント単体の通し番号（すなわち、類似度行列における横座標）に基づき認識対象の音声における重複するセグメントの開始時間を決定して、当該始点に対応する第２の音声フィンガープリント単体の通し番号（すなわち、類似度行列における縦座標）に基づき第１の候補音声における重複するセグメントの開始時間を決定する。同様のように、直線の終点の横座標に基づき認識対象の音声における重複するセグメントの終了時間を決定し、当該終点の縦座標に基づき第１の候補音声における重複するセグメントの終了時間を決定する。

本発明のいくつかの実施例（例えば、上記図６及び図７に示す実施例）において、ステップＳ４４はさらに以下のことを含む。得られた第１のマッチング直線又は第２のマッチング直線の冒頭部分及び末尾部分を検出して、当該第１のマッチング直線／第２のマッチング直線の冒頭部分及び末尾部分の点（単体類似度）は予め設定された単体類似度設定値に達するか否かを判断し、第１のマッチング直線／第２のマッチング直線の冒頭及び末尾における当該単体類似度設定値に達していない（即ち単体類似度が不足する）部分を除去し、直線の中間の部分を保持して第３のマッチング直線として定義する。当該第３のマッチング直線の直線類似度に基づき配列類似度得点を決定する、且つ／又は、当該第３のマッチング直線の始点及び終点に基づき既存の音声と認識対象の音声とで重複するセグメントの開始時間及び終了時間を決定する。マッチング直線の冒頭及び末尾における類似度が不足する部分を除去し、類似度が高い中間の部分を保持して、既存の音声と認識対象の音声との類似の程度を決定することにより、音声検索・認識の正確性を向上させ、より正確な重複するセグメントを得ることができる。

ここで、マッチング直線の冒頭／末尾における当該単体類似度設定値に達していない部分を除去することの具体的な方法は以下のとおりであってもよい。マッチング直線の始点／終点から中間の方へ順にチェックして、当該単体類似度設定値に達するか否かを判断して、当該単体類似度設定値に達している１つ目の点を見つけたら、当該点と始点／終点との間の複数の点を除去する。

なお、当該単体類似度設定値は単体類似度の一つの具体的な数値であってもよく、チェックする際、１つの点が当該数値に達するか否かを判断する。又は一つの比値であってもよく、チェックする際、１つの点が第１のマッチング直線／第２のマッチング直線に含まれた全ての点の平均値又は最大値と比べ、当該比値に達するか否かを判断する。

図９は、本発明に係る音声検索・認識装置１０００の一つの実施例の構造を概略的に示すブロック図である。図９が参照されるように、本発明に係る音声検索・認識装置１０００の例は主に音声フィンガープリント取得システム１１００と、検索・認識システム１２００とを含む。
音声フィンガープリント取得システム１１００は、認識対象の音声（Ｑｕｅｒｙ音声）の音声フィンガープリントを取得するために用いられる。ただし、当該音声フィンガープリントは認識対象の音声の内容特徴を示すための第１の部分と当該第１の部分の信頼度を示すための第２の部分とを含む。

検索・認識システム１２００は、認識対象の音声の当該音声フィンガープリントに基づき認識対象の音声に対して認識を行って、認識結果を得るために用いられる。

図１０は、本発明の一つの実施例によって提供される音声フィンガープリント取得システム１１００の構造を概略的に示すブロック図である。図１０が参照されるように、本発明に係る音声フィンガープリント取得システム１１００の例は主に、スペクトログラム変換モジュール１１０１と、特徴点決定モジュール１１０２と、マスク決定モジュール１１０３と、エネルギー平均値決定モジュール１１０４と、音声フィンガープリントビット決定モジュール１１０５と、強弱重みビット決定モジュール１１０６と、音声フィンガープリント決定モジュール１１０７とを含む。

ただし、当該スペクトログラム変換モジュール１１０１は、音声をスペクトログラム（Ｓｐｅｃｔｒｏｇｒａｍ）に変換するために用いられる。具体的に、スペクトログラム変換モジュール１１０１は高速フーリエ変換（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍａｔｉｏｎ）により音声信号を時間−周波数スペクトログラムに変換できる。

本発明の実施例において、スペクトログラム変換モジュール１１０１は、メル（ＭＥＬ）変換を利用してスペクトログラムに対して前処理を行うためのメル変換サブモジュールを含んでもよく、メル変換を利用して周波数スペクトルを複数の周波数区間（周波数ｂｉｎ）に分割することができ、分割して得た周波数区間の数量は設定可能である。また、スペクトログラム変換モジュール１１０１は、スペクトログラムに対して人間聴覚系フィルタリング（ＨｕｍａｎＡｕｄｉｔｏｒｙＳｙｓｔｅｍｆｉｌｔｅｒｉｎｇ）を行うための人間聴覚系フィルタリングサブモジュールをさらに含んでもよく、人間聴覚系フィルタリングなどの非線形変換を利用して、スペクトログラムにおける周波数スペクトルの分布を人間の聴覚により検知されやすいようにすることができる。

当該特徴点決定モジュール１１０２は、スペクトログラムにおける特徴点を決定するために用いられる。

具体的に、当該特徴点決定モジュール１１０２は、複数種の基準のいずれかを用いて特徴点を決定するために用いられてもよい。例えば、スペクトログラムにおけるエネルギー極大値点を特徴点として選択するか、又は、エネルギー極小値点を選択してもよい。

本発明の実施例において、当該特徴点決定モジュール１１０２は、エネルギー極値点を特徴点として選択せず、固定点を特徴点として選択するために用いられてもよい。例えば、周波数値が予め設定された周波数設定値に等しい点（周波数が一定の点）を選択してもよい。さらに、当該特徴点決定モジュール１１０２は、周波数の大小に基づき低周波数、中間周波数、高周波数の複数の周波数設定値を予め設定するために用いられてもよい。

当該マスク決定モジュール１１０３は、スペクトログラムで、特徴点の付近に、特徴点に１つ又は複数のマスク（ｍａｓｋ）を決定するために用いられ、各マスクは複数のスペクトログラム領域を含む。具体的に、スペクトログラムにおいて、各マスクに含まれた複数のスペクトログラム領域は対称に分布してもよい。

当該エネルギー平均値決定モジュール１１０４は、各スペクトログラム領域のエネルギー平均値を決定するために用いられる。

当該音声フィンガープリントビット決定モジュール１１０５は、マスクにおける複数のスペクトログラム領域のエネルギー平均値に基づき、音声フィンガープリントビット（ｂｉｔ）を決定するために用いられる。なお、当該音声フィンガープリントビットは、即ち上記音声フィンガープリントにおける音声の内容特徴を示すための第１の部分である。

本発明の実施例において、当該音声フィンガープリントビット決定モジュール１１０５は具体的に、一つのマスクに含まれた複数のスペクトログラム領域のエネルギー平均値の差値に基づき一つの音声フィンガープリントビットを決定するために用いられてもよい。

当該強弱重みビット決定モジュール１１０６は、音声フィンガープリントビットの信頼度を判断して、各音声フィンガープリントビットに対応する強弱重みビットを決定するために用いられる。なお、当該強弱重みビットは即ち上記音声フィンガープリントにおける第１の部分の信頼度を示すための第２の部分である。

本発明の実施例において、音声フィンガープリントビットが一つのマスクに含まれた複数のスペクトログラム領域のエネルギー平均値の差値に基づいて決定される場合、当該強弱重みビット決定モジュール１１０６は具体的に以下のことに用いられる。当該音声フィンガープリントビットを生成するために使用される当該差値の絶対値は予め設定された強弱ビット閾値に達する（又は超える）か否かを判断する。強弱ビット閾値に達している場合、当該音声フィンガープリントビットを強ビットとして決定し、当該音声フィンガープリントビットに対応する取得値が１の強弱重みビットを得る。強弱ビット閾値に達していない場合、当該音声フィンガープリントビットを弱ビットとして決定し、当該音声フィンガープリントビットに対応する取得値が０の強弱重みビットを得る。

当該音声フィンガープリント決定モジュール１１０７は、当該音声フィンガープリントビット及び当該強弱重みビットに基づき音声の音声フィンガープリントを決定するために用いられる。

好ましくは、本発明に係る音声フィンガープリント取得システム１１００は、タイムスタンプ追加モジュール（図示せず）をさらに含む。当該モジュールは、音声フィンガープリントにタイムスタンプフィールドを追加するために用いられ、当該フィールドは、音声の開始位置と当該特徴点との時間差を示すフィールドであり、一つのハッシュ値であってもよい。特徴点を固定点として設定する場合、当該モジュールを含まなくてもよい、即ち当該タイムスタンプを記録する必要がない。

好ましくは、本発明に係る音声フィンガープリント取得システム１１００は、音声標識追加モジュール（図示せず）をさらに含む。当該モジュールは音声フィンガープリントに音声標識フィールドを追加するために用いられ、当該フィールドは、当該音声フィンガープリントに対応する音声信号のＩＤ標識情報を記録するためのものであり、一つのハッシュ値であってもよい。

好ましくは、本発明に係る音声フィンガープリント取得システム１１００は音声分割モジュール（図示せず）及び音声フィンガープリント組み合わせモジュール（図示せず）をさらに含む。当該音声分割モジュールはオリジナルの音声を時間順に複数のセグメントのサブ音声に分割するために用いられる。当該モジュールは、上記音声フィンガープリント取得システム１１００に含まれたモジュールを利用して、各サブ音声セグメントから音声フィンガープリントを抽出して、複数の音声フィンガープリントを得る。音声フィンガープリント組み合わせモジュールは、抽出された各サブ音声セグメントの音声フィンガープリントを組み合わせて、当該音声全体の音声フィンガープリントを得るために用いられる。

説明と理解の便宜上、認識対象の音声の音声フィンガープリントを第１の音声フィンガープリント、第１の音声フィンガープリントに含まれた音声フィンガープリント単体を第１の音声フィンガープリント単体、第１の音声フィンガープリント単体に対応する強弱重み単体を第１の強弱重み単体と称する。

図１１は、本発明の一つの実施例によって提供される検索・認識システム１２００の構造を概略的に示すブロック図である。図１１が参照されるように、本発明に係る検索・認識システム１２００の例は主に第１の順位付けモジュール１２１０と、第２の順位付けモジュール１２２０とを含む。
第１の順位付けモジュール１２１０は、当該第１の音声フィンガープリントに基づき、複数の既存の音声に対して第１の順位付けを行い、当該第１の順位付けの結果に基づき、第１の候補音声集合として上位ｋ個の既存の音声を取り出すために用いられる。ただしｋは正の整数であり、ｋの具体的な取得値は設定可能である。具体的に、当該第１の順位付けモジュール１２１０は、各単独の第１の音声フィンガープリント単体の、既存の音声とマッチングした状態に基づき順位付けを行うために用いられる。さらに、当該第１の順位付けモジュール１２１０は、それぞれの第１の音声フィンガープリント単体に基づき既存の音声に対して語出現頻度−逆文書頻度（ＴＦ−ＩＤＦ）順位付けを行うためにも用いられる。

第２の順位付けモジュール１２２０は、当該第１の音声フィンガープリントに基づき、当該第１の候補音声集合に対して第２の順位付けを行い、当該第２の順位付けの結果に基づき、認識結果として第１の候補音声集合における上位ｎ個の第１の候補音声を取り出すために用いられる。ただしｎは正の整数であり、ｎの具体的な取得値は設定可能である。具体的に、当該第２の順位付けモジュール１２２０は、順に配列された複数の第１の音声フィンガープリント単体に基づき、当該第１の候補音声集合における音声に対して順位付けを行うために用いられる。

また、検索・認識システム１２００は、当該認識結果に基づきＭｅｔａデータベースにおいて検索を行うためにも用いられ、これによって当該認識結果の音声情報、例えば、認識された音声の名称、作者、出典などを得ることができる。認識結果が複数の音声を含む場合、認識された音声の複数の情報を同時に提供できる。

本実施例において、第１の順位付けモジュール１２１０が第１の順位付けを行う、且つ／又は、第２の順位付けモジュール１２２０が第２の順位付けを行うプロセスで、音声フィンガープリントを利用する場合、音声フィンガープリントにおける強弱重み単体に基づき音声フィンガープリント単体に対して重み付けを行ってもよい。

上記既存の音声は音声データベースにおける音声であってもよい。当該音声データベースに既存の音声の音声フィンガープリントが記憶され、記憶されている既存の音声の音声フィンガープリントに第１の音声フィンガープリントの場合と同じ抽出方法を利用して得た第１の音声フィンガープリントと同一タイプの音声フィンガープリントが含まれるため、既存の音声の音声フィンガープリントにも音声の内容特徴を示すための第１の部分と当該第１の部分の信頼度を示すための第２の部分とが含まれる。

本発明のいくつかの実施例において、本発明に係る音声検索・認識装置１０００は、フィンガープリントインデックス取得モジュール（図示せず）をさらに含む。当該モジュールは複数の既存の音声の音声フィンガープリントを取得するために用いられる。説明と理解の便宜上、既存の音声の音声フィンガープリントを第２の音声フィンガープリント、第２の音声フィンガープリントに含まれた音声フィンガープリント単体を第２の音声フィンガープリント単体、第２の音声フィンガープリントに含まれた強弱重み単体を第２の強弱重み単体と称する。当該第２の音声フィンガープリントに対してインデクシングを行って、既存の音声のフィンガープリントインデックスを取得しておく。第１の順位付けモジュール１２１０は具体的に、当該フィンガープリントインデックスと認識対象の音声の第１の音声フィンガープリント単体とのマッチングを行って、複数の既存の音声に対してＴＦ−ＩＤＦ順位付けを行うために用いられる。

さらに、当該フィンガープリントインデックス取得モジュールは、既存の音声の音声フィンガープリントの普通フィンガープリントインデックス（ｆｏｒｗａｒｄｉｎｄｅｘ）及び転置フィンガープリントインデックス（ｉｎｖｅｒｔｅｄｉｎｄｅｘ）を取得するために用いられてもよい。

なお、当該フィンガープリントインデックス取得モジュールは、ロバスト性を向上させるために、強弱重みに基づき第２の音声フィンガープリントに対してインデクシングを行うために用いられてもよい。

また、音声データベースにおける全ての既存の音声に対して第１の順位付けを行うと、検索・認識の効率に影響を与える恐れがあるため、本発明において第１の順位付けモジュール１２１０は正確マッチングサブモジュール１２１１を含んでもよい。当該モジュールは、第１の順位付けを行う前に、音声データベースにおける既存の音声に対して正確マッチング（ｅｘａｃｔｍａｔｃｈ）を行うために用いられる。

図１２は、本発明の一つの実施例によって提供される第１の順位付けモジュール１２１０の構造を概略的に示す図である。図１２が参照されるように、本発明の一つの実施例において、当該第１の順位付けモジュール１２１０は具体的に正確マッチングサブモジュール１２１１〜第１の順位付けサブモジュール１２１５を含む。
正確マッチングサブモジュール１２１１は、転置フィンガープリントインデックスに基づき、それぞれの第１の音声フィンガープリント単体がどれらの既存の音声の第２の音声フィンガープリントに出現しているかを集計して、音声データベースにおいてマッチングを行って、第２の候補音声集合として予め設定された数量以上の第１の音声フィンガープリント単体を含む既存の音声を得るために用いられる。なお、当該正確マッチングサブモジュール１２１１は具体的に、ロバスト性を向上させるために、１つの第１の音声フィンガープリント単体に対応する強弱重み単体に基づき、当該第１の音声フィンガープリント単体における弱ビットのマッチングされた状態を無視して、当該第１の音声フィンガープリント単体における強ビットの既存の音声の第２の音声フィンガープリントにおけるマッチングされた状態だけを判断するために用いられてもよい。

語出現頻度決定サブモジュール１２１２は、普通フィンガープリントインデックスに基づき、１つの第１の音声フィンガープリント単体の１つの第２の候補音声の第２の音声フィンガープリントにおける語出現頻度を決定するために用いられる。なお、当該普通フィンガープリントインデックスは上述したように強弱重みに基づいて得たフィンガープリントインデックスであってもよい。

ファイル頻度決定サブモジュール１２１３は、転置フィンガープリントインデックスに基づき、１つの第１の音声フィンガープリント単体のファイル頻度を決定するために用いられる。なお、当該転置フィンガープリントインデックスは上述したように強弱重みに基づいて得たフィンガープリントインデックスであってもよい。

語出現頻度−逆文書頻度得点サブモジュール１２１４は、それぞれの第１の音声フィンガープリント単体の１つの第２の候補音声の第２の音声フィンガープリントにおける語出現頻度及びそれぞれの第１の音声フィンガープリント単体のファイル頻度に基づき、当該第２の候補音声の語出現頻度−逆文書頻度得点を決定するために用いられる。

第１の順位付けサブモジュール１２１５は、得られたそれぞれの第２の候補音声の語出現頻度−逆文書頻度得点に基づき、第２の候補音声集合に対して順位付けを行って、第１の順位付けの結果を得て、当該第１の順位付けの結果から第１の候補音声集合として上位ｋ個の第２の候補音声を取り出すために用いられる。当該第１の順位付けサブモジュール１２１５は、後続の更なる処理に備え、それぞれの第１の候補音声の第２の音声フィンガープリント（普通フィンガープリントインデックス）を第２の順位付けモジュール１２２０に返すためにも用いられる。

本発明のいくつかの実施例において、当該第２の順位付けは順に配列された複数の第１の音声フィンガープリント単体からなる前後順序を有する配列の第１の候補音声の音声フィンガープリントにおける出現の状況に基づき、当該第１の候補音声集合における音声に対して行われる順位付けである。具体的に、当該第２の順位付けモジュール１２２０は、既存の音声のフィンガープリントインデックス及び第１の音声フィンガープリントに基づき当該第１の候補音声集合における音声の類似度行列を得て、当該類似度行列に基づき当該第１の候補音声集合における音声に対して順位付けを行うために用いられる。なお、当該第２の順位付けモジュール１２２０は具体的に、類似度行列を決定するプロセスにおいて、ロバスト性を向上させるために、第１の音声フィンガープリントに対応する強弱重み及び／又は既存の音声のフィンガープリントインデックスにおける強弱重みに基づき重み付けを行い、重み付けされた類似度行列を利用して第１の候補音声集合における音声に対して順位付けを行うために用いられてもよい。

図１３は、本発明の一つの実施例によって提供される第２の順位付けモジュール１２２０の構造を概略的に示す図である。図１３が参照されるように、本発明の一つの実施例において、当該第２の順位付けモジュール１２２０は具体的に、第２の音声フィンガープリント取得サブモジュール１２２１〜第２の順位付けサブモジュール１２２５を含む。
第２の音声フィンガープリント取得サブモジュール１２２１は、第１の候補音声集合における１つの第１の候補音声（ただし各第１の候補音声はいずれも既存の音声）の第２の音声フィンガープリントを取得するために用いられる。具体的に、既存の音声的フィンガープリントインデックス（例えば、普通フィンガープリントインデックス）に基づき当該第２の音声フィンガープリントを取得してもよい。本発明のいくつかの例において、第１の音声フィンガープリントはそれぞれの第１の音声フィンガープリント単体に対応する強弱重み単体（第１の強弱重み単体と称する）を含む、且つ／又は、第２の音声フィンガープリントはそれぞれの第２の音声フィンガープリント単体に対応する強弱重み単体（第２の強弱重み単体と称する）を含む。

単体類似度第１決定サブモジュール１２２２は、当該第１の候補音声の第２の音声フィンガープリントに含まれたそれぞれの第２の音声フィンガープリント単体とそれぞれの第１の音声フィンガープリント単体との単体類似度を決定するために用いられる。なお、単体類似度第１決定サブモジュール１２２２は具体的に、当該単体類似度を決定するプロセスにおいて、第１の強弱重み単体及び／又は第２の強弱重み単体に基づき、それぞれの第１の音声フィンガープリント単体、第２の音声フィンガープリント単体に対して重み付けを行い、次に重み付けされた第１の、第２の音声フィンガープリント単体に基づき当該単体類似度を決定するために用いられてもよい。本発明に係る一つの例において、音声データベースにおけるデータ情報の正確性がより高いため、第２の強弱重み単体を利用して第１の音声フィンガープリント単体、第２の音声フィンガープリント単体に対してそれぞれ重み付けを行ってもよい。

類似度行列第１決定サブモジュール１２２３は、それぞれの単体類似度に基づき、当該第１の候補音声と認識対象の音声との類似度行列を決定するために用いられる。

配列類似度得点決定サブモジュール１２２４は、１つの第１の候補音声の類似度行列に基づき、当該第１の候補音声の配列類似度得点を決定するために用いられる。具体的に、当該配列類似度得点決定サブモジュール１２２４は具体的に、類似度行列における直線に基づき当該配列類似度得点を決定するために用いられる。

第２の順位付けサブモジュール１２２５は、それぞれの第１の候補音声の当該配列類似度得点に基づき第１の候補音声集合に対して順位付けを行って、第２の順位付けの結果を得て、当該第２の順位付けの結果から認識結果として上位ｎ個の第１の候補音声を取り出すために用いられる。

本発明の一つの実施例において、当該配列類似度得点決定サブモジュール１２２４は具体的に、上記等速音声を用いた方法における各具体的なステップを利用して当該配列類似度得点を決定するために用いられる。

本発明の一つの実施例において、当該配列類似度得点決定サブモジュール１２２４は具体的に、上記動的計画法における各具体的なステップを利用して当該配列類似度得点を決定するために用いられる。

さらに、ここで類似度行列は複数種の音声類似度を総合的に考慮して得るものであってもよい。図１４は、本発明の一つの実施例による複数のタイプの第１の音声フィンガープリント及び第２の音声フィンガープリントに基づき類似度行列を決定する音声検索・認識装置１０００の構造を概略的に示すブロック図である。図１４が参照されるように、本発明の一つの実施例において、本発明に係る音声検索・認識装置１０００は、マルチタイプの第１の音声フィンガープリント取得モジュール１３００〜第２の順位付けサブモジュール１２２５を含む。
マルチタイプの第１の音声フィンガープリント取得モジュール１３００は、複数種の音声フィンガープリント取得方法を利用して、認識対象の音声の複数のタイプの第１の音声フィンガープリントを取得するために用いられ、各タイプの第１の音声フィンガープリントは音声の内容特徴を示すための複数の第１の部分を含み、これらを第１の音声フィンガープリント単体と称する。好ましくは、少なくともいくつかのタイプの第１の音声フィンガープリントは第１の部分の信頼度を示すための第２の部分を含む。

マルチタイプの第２の音声フィンガープリント取得モジュール１４００は、１つの既存の音声（具体的に、上記第１の候補音声集合における音声であってもよい）の複数のタイプの第２の音声フィンガープリントを取得するために用いられ、各タイプの第２の音声フィンガープリントは音声の内容特徴を示すための複数の第１の部分を含み、これらを第２の音声フィンガープリント単体と称する。好ましくは、少なくともいくつかのタイプの第２の音声フィンガープリントは第１の部分の信頼度を示すための第２の部分を含む。

単体類似度第２決定サブモジュール１５００は、同一タイプの当該第２の音声フィンガープリント単体と当該第１の音声フィンガープリント単体との単体類似度をそれぞれ決定するために用いられる。これにより複数のタイプの音声フィンガープリントに対応して、１つの既存の音声の複数種の単体類似度を得ることができる。

類似度行列第２決定サブモジュール１６００は、複数種の単体類似度の平均値又は最小値を決定し、複数種の単体類似度の当該平均値又は当該最小値に基づき当該既存の音声の類似度行列を決定するために用いられる。

また、上記配列類似度得点決定サブモジュール１２２４は、複数種の単体類似度の平均値又は最小値から得た当該類似度行列に基づき配列類似度得点を決定するために用いられる。

本発明のいくつかの実施例において、当該音声検索・認識装置１０００は音声スライスモジュール（図示せず）をさらに含む。当該音声スライスモジュールは第１の順位付けを行う前に、取得された認識対象の音声の第１の音声フィンガープリント及び既存の音声の第２の音声フィンガープリントを、予め設定された一定の長さでスライスして、長さが等しい（同一数量の音声フィンガープリント単体を含む）複数の第１のサブ音声フィンガープリント及び第２のサブ音声フィンガープリントを得るために用いられる、且つ／又は、当該音声スライスモジュールは音声フィンガープリントを取得する前に、予め設定された一定の時間長さで認識対象の音声及び既存の音声をスライスして、複数の時間長さが等しい認識対象の音声セグメント及び既存の音声セグメントを得て、次にそれぞれの認識対象の音声セグメント及び既存の音声セグメントの音声フィンガープリントをそれぞれ取得して、それぞれの認識対象の音声セグメントの第１のサブ音声フィンガープリント、それぞれの既存の音声セグメントの第２のサブ音声フィンガープリントを得るために用いられる。上記第１の順位付けモジュール１２１０及び第２の順位付けモジュール１２２０は、各第１のサブ音声フィンガープリント、第２のサブ音声フィンガープリントに基づき上記第１の順位付け及び第２の順位付けのステップを行って、それぞれのサブ音声フィンガープリントの認識結果を得て、それぞれのサブ音声フィンガープリントの認識結果に基づきオリジナルの認識対象の音声の認識結果を決定するために用いられる。

本発明のいくつかの実施例において、第１の音声フィンガープリントにおける第１の音声フィンガープリント単体及び第２の音声フィンガープリントにおける第２の音声フィンガープリント単体は時間特性を備えて配列される。これにより、本発明に係る音声検索・認識装置１０００は重複音声セグメント決定モジュール（図示せず）をさらに含み、当該モジュールは上記類似度行列に基づき認識対象の音声と既存の音声とで重複するセグメントを決定するために用いられる。具体的に、当該重複メディアセグメント決定モジュールは具体的に、類似度行列における直線の始点及び終点に基づき２つの音声における重複するセグメントの開始時間及び終了時間を得るために用いられる。

図１５は、本発明の実施例に係る音声検索・認識ハードウェア装置のハードウェア構成を示すブロック図である。図１５に示すように、本発明の実施例に係る音声検索・認識ハードウェア装置２０００はメモリ２００１と、プロセッサ２００２とを含む。音声検索・認識ハードウェア装置２０００における各コンポーネントはバスシステム及び／又は他の形式の接続機構（図示せず）によって互いに接続される。

当該メモリ２００１は非一時的なコンピュータ可読コマンドを記憶するために用いられる。具体的に、メモリ２００１は１つ又は複数のコンピュータプログラム製品を含んでもよく、当該コンピュータプログラム製品は例えば、揮発性メモリ及び／又は非揮発性メモリなど、様々な形式のコンピュータ可読記憶媒体を含んでもよい。当該揮発性メモリは例えば、ランダムアクセスメモリ（ＲＡＭ）及び／又はキャッシュ（ｃａｃｈｅ）などを含んでもよい。当該非揮発性メモリは例えば、リードオンリーメモリ（ＲＯＭ）、ハードディスク、フラッシュメモリなどを含んでもよい。

当該プロセッサ２００２は中央処理装置（ＣＰＵ）、又はデータ処理能力及び／又はコマンド実行能力を有する他の形式の処理ユニットであってもよく、音声検索・認識ハードウェア装置２０００の他のコンポーネントを制御して所望の機能を実行できる。本発明の一つの実施例において、当該プロセッサ２００２は当該メモリ２００１に記憶されている当該コンピュータ可読コマンドを実行して、当該音声検索・認識ハードウェア装置２０００に本発明の各上記実施例に係る音声検索・認識方法の全て又は一部のステップを実行させるために用いられる。

図１６は、本発明の実施例に係るコンピュータ可読記憶媒体を概略的に示す図である。図１６に示すように、本発明の実施例に係るコンピュータ可読記憶媒体３０００には、非一時的なコンピュータ可読コマンド３００１が記憶される。当該非一時的なコンピュータ可読コマンド３００１がプロセッサによって実行されると、本発明の各上記実施例に係る音声検索・認識方法の全て又は一部のステップが実行される。

図１７は、本発明の実施例に係る端末機器のハードウェア構成を概略的に示す図である。端末機器は様々な形式で実施されてもよいが、本発明において端末機器は例えば携帯電話、スマートフォン、ノートパソコン、デジタル放送受信機、ＰＤＡ（携帯情報端末）、ＰＡＤ（タブレットパソコン）、ＰＭＰ（ポータブルマルチメディアプレイヤー）、ナビゲーション装置、車載端末機器、車載表示端末、車載電子バックミラーなどの移動端末機器、及びデジタルＴＶ、デスクトップパソコンなどの固定端末機器を含むが、これらに限定されない。

図１７に示すように、端末機器４１００は無線通信ユニット４１１０と、Ａ／Ｖ（音声／映像）入力ユニット４１２０と、ユーザー入力ユニット４１３０と、センシングユニット４１４０と、出力ユニット４１５０と、メモリ４１６０と、インタフェースユニット４１７０と、コントローラ４１８０と、電源ユニット４１９０などを含んでもよい。図１７には各種のコンポーネントを有する端末機器が示されるが、示された全てのコンポーネントでの実施であるとは限らず、より多い又は少ないコンポーネントで実施されてもよい。

ただし、無線通信ユニット４１１０において、端末機器４１００と無線通信システム又はネットワークとの間にラジオ通信を行うことができる。Ａ／Ｖ入力ユニット４１２０は音声又は映像信号を受信するために用いられる。ユーザー入力ユニット４１３０はユーザーが入力したコマンドに基づきキー入力データを生成して端末機器の各種動作を制御できる。センシングユニット４１４０は端末機器４１００の現時点の状態、端末機器４１００の位置、端末機器４１００に対するユーザーのタッチ入力の有無、端末機器４１００の配向、端末機器４１００の加速又は減速移動及び方向などを検出し、端末機器４１００の動作を制御するためのコマンド又は信号を生成する。インタフェースユニット４１７０は少なくとも１つの外部装置が端末機器４１００と接続するためのインタフェースとして用いられる。出力ユニット４１５０は視覚的、音声的及び／又は触覚的な方式で出力信号を提供するように構成される。メモリ４１６０にはコントローラ４１８０によって実行される処理及び動作制御用のソフトウェアプログラムなどが記憶されるか、又は出力されたもしくは出力されようとするデータを一時的に記憶することができる。メモリ４１６０は少なくとも１つのタイプの記憶媒体を含んでもよい。また、端末機器４１００はネットワークによって接続された、メモリ４１６０の記憶機能を実行するネットワーク記憶装置と協働できる。コントローラ４１８０は一般に端末機器全体の動作を制御する。また、コントローラ４１８０はマルチメディアデータを表示又は再生するためのマルチメディアモジュールを含んでもよい。コントローラ４１８０はモード認識処理を実行して、タッチパネルに実行された手書き入力又は画像描画入力を文字又は画像として認識できる。電源ユニット４１９０はコントローラ４１８０の制御を受けて外部電力又は内部電力を受け取って各素子及びコンポーネントを操作するために必要な電力を提供する。

本発明によって提供される音声検索・認識方法の様々な実施形態は、例えば、コンピュータソフトウェア、ハードウェア又はこれらの任意の組み合わせであるコンピュータ可読媒体を用いて実施することができる。ハードウェアで実施する場合、本発明によって提供される音声検索・認識方法の様々な実施形態は特定用途向け集積回路（ＡＳＩＣ）、デジタルシグナルプロセッサ（ＤＳＰ）、デジタルシグナルプロセッサデバイス（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサを使用して、ここに記載の機能を実行する電子ユニットの少なくとも１種として設計して実施してもよい。場合によっては、本発明によって提供される音声検索・認識方法に係る様々な実施形態はコントローラ４１８０において実施されてもよい。ソフトウェアで実施する場合、本発明によって提供される音声検索・認識方法の様々な実施形態は少なくとも１種の機能又は動作を実行する単独のソフトウェアモジュールと組み合わせて実施してもよい。ソフトウェアコードは任意の適切なプログラミング言語で作成されたソフトウェアアプリケーションプログラム（又はプログラム）として実施されてもよく、ソフトウェアコードはメモリ４１６０に記憶されてコントローラ４１８０によって実行されてもよい。

上述したように、本発明の実施例に係る音声検索・認識方法、装置、ハードウェア装置、コンピュータ可読記憶媒体及び端末機器によれば、音声対象の、音声の内容特徴を示すための第１の部分と第１の部分の信頼度を示すための第２の部分とを含む音声フィンガープリント特徴を取得しこれを利用して音声検索・認識を行うことにより、音声検索・認識における正確性、ロバスト性及び効率を大幅に向上できる。

上述した内容は、具体的な実施例を踏まえて本発明の基本原理を説明しているが、本発明に提及されている利点、優位性、効果などは示例的なものに過ぎず制限を加えるものではないため、これらの利点、優位性、効果などは本発明の各実施例が必ず備えるものと理解すべきではない。また、上述した内容で開示されている詳細な部分は理解しやすいように列挙された例示的なものに過ぎず制限を加えるものではなく、上述した詳細な内容は本発明が対応する内容によって実現されるように限定するためのものではない。

本発明に係る素子、装置、機器、システムのブロック図は、例示の目的で挙げられる例に過ぎず、ブロック図に示す方式に従って接続、配置又は設定されなければならないように指示又は示唆するものではない。当業者が理解できるように、これらの素子、装置、機器、システムを任意の方式で接続、配置、設定することができる。例えば「含む」、「有する」などの用語は非限定的な用語であり、「〜を含むがこれらに限定されない」ことを指すものであり、これと入れ替えて使用できる。ここで使用されている用語「又は」及び「及び・且つ」とは用語「及び・且つ／又は」を指すものであり、これと入れ替えて使用できるが、文脈の中でこれとは別の意味を示す場合は除外される。ここで使用されている用語「例えば」とは、「例えば、〜、ただしこれらに限定されない」という表現に相当するものであり、これと入れ替えて使用できる。

また、ここで使用されている「少なくとも一つ」を含む事項における列挙で使用される「又は」とは、別々の要素として列挙されるものである。これにより例えば、「Ａ、Ｂ又はＣの少なくとも一つ」を用いた列挙の場合、ＡもしくはＢもしくはＣ、又はＡＢもしくはＡＣもしくはＢＣ、又はＡＢＣ（即ちＡ及びＢ及びＣ）を意味する。また、用語「例示的」は挙げられた例が好適であるか又は他の例よりも優れるという意味ではない。

なお、本発明に係るシステム及び方法において、各部品又は各ステップは分離させるか、且つ／又は組み合わせてもよい。このような分離及び／又は組み合わせは本発明と同等なものと見なされるべきである。

添付の特許請求の範囲において定義された技術の範囲を逸脱することなくここに記載の技術に対して様々な変更、差し替え及び補正を行うことができる。また、本発明に係る特許請求の範囲は、上述した処理、機械、製造、事項の構成、手段、方法及び動作の具体的な内容に限定されない。ここに記載の対応する形態にて実質的に同一の機能を実行する又は実質的に同一の結果を実現する既存の又はこれらか開発される処理、機械、製造、事項の構成、手段、方法又は動作を利用してもよい。従って、添付の特許請求の範囲は当該範囲に含まれているこのような処理、機械、製造、事項の構成、手段、方法又は動作を含む。

本明細書に開示されている各形態に関する上記説明により、当業者は本発明を実現又は使用できる。これらの形態に関する様々な補正は当業者にとって自明なもので、ここに定義された一般原理は本発明の範囲を逸脱することなく他の態様にも利用できる。従って、本発明はここに示す形態に限定されることを意図せず、ここに記載の原理及び新規な特徴に適合する最も広い範囲に準拠すべきである。

例示及び説明の目的で上述した説明がなされているが、これにより本発明に係る実施例をここに記載の形態に限定することが意図されない。上述したように複数の例示的な形態及び実施例を検討しているが、当業者はこれらに対する変更、補正、差し替え、追加や組み合わせにも想到できる。

１０００音声検索・認識装置
１１００音声フィンガープリント取得システム
１２００検索・認識システム

Claims

認識対象の音声の音声フィンガープリントを取得し、ただし、前記音声フィンガープリントは前記認識対象の音声の内容特徴を示すための第１の部分と前記第１の部分の信頼度を示すための第２の部分とを含むことと、
前記音声フィンガープリントに基づき前記認識対象の音声に対して認識を行って、認識結果を得ることとを含む、音声検索・認識方法。
認識対象の音声の音声フィンガープリントを取得することは、
前記認識対象の音声をスペクトログラムに変換することと、
前記スペクトログラムにおける特徴点を決定することと、
前記スペクトログラムにおいて、前記特徴点に１つ又は複数のマスクを決定し、各前記マスクは複数のスペクトログラム領域を含むことと、
各前記スペクトログラム領域のエネルギー平均値を決定することと、
前記マスクにおける前記複数のスペクトログラム領域のエネルギー平均値に基づき音声フィンガープリントビットを決定することと、
前記音声フィンガープリントビットの信頼度を判断して強弱重みビットを決定することと、
前記音声フィンガープリントビット及び前記強弱重みビットに基づき前記認識対象の音声の音声フィンガープリントを決定することとを含む、請求項１に記載の音声検索・認識方法。
前記認識対象の音声をスペクトログラムに変換することは、高速フーリエ変換により前記認識対象の音声を時間−周波数の二次元スペクトログラムに変換することを含み、前記スペクトログラムにおける各点の取得値は前記認識対象の音声のエネルギーを示す、請求項２に記載の音声検索・認識方法。
前記認識対象の音声をスペクトログラムに変換することは、前記スペクトログラムに対してメル変換を行うことをさらに含む、請求項３に記載の音声検索・認識方法。
前記特徴点は前記スペクトログラムにおける固定点である、請求項３に記載の音声検索・認識方法。
前記特徴点は周波数値が予め設定された複数の周波数設定値に等しい点である、請求項５に記載の音声検索・認識方法。
前記特徴点は前記スペクトログラムにおけるエネルギー極大値点であるか、又は、前記特徴点は前記スペクトログラムにおけるエネルギー極小値点である、請求項３に記載の音声検索・認識方法。
前記マスクに含まれた複数の前記スペクトログラム領域は対称に分布する、請求項２に記載の音声検索・認識方法。
前記マスクに含まれた複数の前記スペクトログラム領域は同一の周波数範囲を有する、且つ／又は、同一の時間範囲を有する、且つ／又は、前記特徴点を中心として点対称に分布する、請求項８に記載の音声検索・認識方法。
前記スペクトログラム領域のエネルギー平均値は前記スペクトログラム領域に含まれた全ての点のエネルギー値の平均値である、請求項２に記載の音声検索・認識方法。
前記マスクにおける前記複数のスペクトログラム領域のエネルギー平均値に基づき音声フィンガープリントビットを決定することは、
１つの前記マスクに含まれた複数の前記スペクトログラム領域のエネルギー平均値の差値に基づき１つの音声フィンガープリントビットを決定することを含む、請求項２に記載の音声検索・認識方法。
前記音声フィンガープリントビットの信頼度を判断して強弱重みビットを決定することは、
前記差値の絶対値が予め設定された強弱ビット閾値に達する又は超えるか否かを判断し、前記強弱ビット閾値に達している又は超えている場合、前記音声フィンガープリントビットを強ビットとして決定し、そうでない場合、前記音声フィンガープリントビットを弱ビットとして決定することと、前記音声フィンガープリントビットが強ビットか弱ビットであるかに基づき前記強弱重みビットを決定することとを含む、請求項１１に記載の音声検索・認識方法。
認識対象の音声を時間順に複数のサブ音声セグメントに分割することと、
各前記サブ音声セグメントの前記音声フィンガープリントを抽出することと、
抽出して得た各前記サブ音声の前記音声フィンガープリントを組み合わせて、前記認識対象の音声の音声フィンガープリントを得ることとをさらに含む、請求項２に記載の音声検索・認識方法。
前記認識対象の音声の音声フィンガープリントを第１の音声フィンガープリントとして定義し、前記第１の音声フィンガープリントは複数の第１の音声フィンガープリント単体及びそれぞれの前記第１の音声フィンガープリント単体に対応する第１の強弱重み単体を含み、前記第１の音声フィンガープリント単体は前記認識対象の音声の複数の前記音声フィンガープリントビットを含み、前記第１の強弱重み単体は前記複数の音声フィンガープリントビットに対応する複数の前記強弱重みビットを含む、請求項２に記載の音声検索・認識方法。
前記音声フィンガープリントに基づき前記認識対象の音声に対して認識を行うことは、
各単独の前記第１の音声フィンガープリント単体に基づき複数の既存の音声に対して第１の順位付けを行い、前記第１の順位付けの結果に基づき、第１の候補音声集合として上位ｋ個の前記既存の音声を取り出し、ただしｋは正の整数であることと、
順に配列された複数の前記第１の音声フィンガープリント単体に基づき前記第１の候補音声集合に対して第２の順位付けを行い、前記第２の順位付けの結果に基づき、認識結果として上位ｎ個の前記第１の候補音声を取り出し、ただしｎは正の整数であることとを含む、請求項１４に記載の音声検索・認識方法。
第２の音声フィンガープリントとして前記既存の音声の音声フィンガープリントを予め取得しておき、前記第２の音声フィンガープリントは複数の第２の音声フィンガープリント単体及び前記第２の音声フィンガープリント単体に対応する第２の強弱重み単体を含むことと、
前記第２の音声フィンガープリントに対してインデクシングを行って、前記既存の音声のフィンガープリントインデックスを得ておくこととをさらに含む、請求項１５に記載の音声検索・認識方法。
前記第１の順位付けを行う且つ／又は前記第２の順位付けを行うプロセスにおいて、前記第１の強弱重み単体及び／又は第２の強弱重み単体に基づき、前記第１の音声フィンガープリント単体及び／又は前記第２の音声フィンガープリント単体に対して重み付けを行う、請求項１６に記載の音声検索・認識方法。
各単独の前記第１の音声フィンガープリント単体に基づき複数の既存の音声に対して第１の順位付けを行うことは、各単独の前記第１の音声フィンガープリント単体に基づき複数の既存の音声に対して語出現頻度−逆文書頻度（ＴＦ−ＩＤＦ）順位付けを行うことを含む、請求項１６に記載の音声検索・認識方法。
各単独の前記第１の音声フィンガープリント単体に基づき複数の既存の音声に対して語出現頻度−逆文書頻度（ＴＦ−ＩＤＦ）方式の第１の順位付けを行うことは、
前記既存の音声的フィンガープリントインデックスと前記第１の音声フィンガープリント単体とのマッチングを行って、前記既存の音声に対して前記ＴＦ−ＩＤＦ順位付けを行うことを含む、請求項１７に記載の音声検索・認識方法。
前記既存の音声のフィンガープリントインデックスを得ておくことは、
前記第２の強弱重み単体に基づき、前記既存の音声の普通フィンガープリントインデックス及び／又は転置フィンガープリントインデックスを得ておくことを含む、請求項１９に記載の音声検索・認識方法。
前記既存の音声のフィンガープリントインデックスと前記第１の音声フィンガープリント単体とのマッチングを行うことは、
前記第１の強弱重み単体に基づき、前記音声のフィンガープリントインデックスと前記第１の音声フィンガープリント単体との正確マッチングを行うことを含む、請求項１９に記載の音声検索・認識方法。
順に配列された複数の前記第１の音声フィンガープリント単体に基づき前記第１の候補音声集合に対して第２の順位付けを行うことは、
前記既存の音声のフィンガープリントインデックス及び前記第１の音声フィンガープリントに基づき前記第１の候補音声集合における音声の類似度行列を得て、前記類似度行列に基づき前記第１の候補音声集合における音声に対して順位付けを行うことを含む、請求項１６に記載の音声検索・認識方法。
前記既存の音声のフィンガープリントインデックス及び前記第１の音声フィンガープリントに基づき前記第１の候補音声集合における音声の類似度行列を得て、前記類似度行列に基づき前記第１の候補音声集合における音声に対して順位付けを行うことは、
前記第１の強弱重み単体及び／又は前記第２の強弱重み単体を利用して重み付けを行って、重み付けされた前記類似度行列を得て、前記重み付けの類似度行列に基づき前記第１の候補音声集合における音声に対して順位付けを行うことを含む、請求項２２に記載の音声検索・認識方法。
前記類似度行列に基づき前記第１の候補音声集合における音声に対して順位付けを行うことは、
前記類似度行列における直線に基づき前記第１の候補音声集合における音声に対して順位付けを行うことを含む、請求項２２に記載の音声検索・認識方法。
認識対象の音声の音声フィンガープリントを取得することは、前記認識対象の音声の複数のタイプの第１の音声フィンガープリントを取得することと、
第２の音声フィンガープリントとして、前記既存の音声の音声フィンガープリントを取得しておくことは、前記第１の候補音声集合における音声の複数のタイプの第２の音声フィンガープリントを取得することを含み、
前記既存の音声のフィンガープリントインデックス及び前記第１の音声フィンガープリントに基づき前記第１の候補音声集合における音声の類似度行列を得ることは、前記複数のタイプの第１の音声フィンガープリント及び前記複数のタイプの第２の音声フィンガープリントに基づき前記類似度行列を決定することを含む、請求項２２に記載の音声検索・認識方法。
各タイプの前記第１の音声フィンガープリントは複数の第１の音声フィンガープリント単体を含み、各タイプの前記第２の音声フィンガープリントは複数の第２の音声フィンガープリント単体を含み、
前記複数のタイプの第１の音声フィンガープリント及び前記複数のタイプの第２の音声フィンガープリントに基づき前記類似度行列を決定することは、
同一タイプの前記第２の音声フィンガープリント単体と前記第１の音声フィンガープリント単体との単体類似度をそれぞれ決定して、複数種の前記単体類似度を得ることと、前記複数種の単体類似度の平均値又は最小値に基づき前記類似度行列を決定することとを含む、請求項２５に記載の音声検索・認識方法。
予め設定された時間長さで認識対象の音声及び既存の音声をスライスしておき、複数の認識対象のサブ音声セグメント及び複数の既存のサブ音声セグメントを得て、前記複数の認識対象のサブ音声セグメント及び前記複数の既存のサブ音声セグメントに対してそれぞれ音声フィンガープリントを抽出して、長さが等しい複数の第１のサブ音声フィンガープリント及び複数の第２のサブ音声フィンガープリントを得ることをさらに含む、請求項１６に記載の音声検索・認識方法。
前記第１の順位付けを行う前に、得られた認識対象の音声の前記第１の音声フィンガープリント及び既存の音声の前記第２の音声フィンガープリントに対して予め設定された長さでスライスして、長さが等しい複数の第１のサブ音声フィンガープリント及び複数の第２のサブ音声フィンガープリントを得ることをさらに含む、請求項１６に記載の音声検索・認識方法。
前記複数の第１の音声フィンガープリント単体は前記第１の音声フィンガープリントにおいて時間順に配列され、前記複数の第２の音声フィンガープリント単体は前記第２の音声フィンガープリントにおいて時間順に配列される、請求項２２に記載の音声検索・認識方法。
前記類似度行列に基づき、前記認識対象の音声と前記認識結果における音声とで重複するセグメントを決定することをさらに含む、請求項２９に記載の音声検索・認識方法。
認識対象の音声の音声フィンガープリントを取得するために用いられ、ただし、前記音声フィンガープリントは前記認識対象の音声の内容特徴を示すための第１の部分と前記第１の部分の信頼度を示すための第２の部分とを含む音声フィンガープリント取得システムと、
前記音声フィンガープリントに基づき、前記認識対象の音声に対して認識を行って、認識結果を得るための検索・認識システムとを含む、音声検索・認識装置。
請求項２から請求項３０のいずれか１項に記載のステップを実行するモジュールをさらに含む、請求項３１に記載の音声検索・認識装置。
非一時的なコンピュータ可読コマンドを記憶するためのメモリと、
前記コンピュータ可読コマンドを実行することで、前記コンピュータ可読コマンドがプロセッサによって実行されると請求項１から請求項３０のいずれか１項に記載の音声検索・認識方法が実現されるプロセッサとを含む、音声検索・認識ハードウェア装置。
非一時的なコンピュータ可読コマンドを記憶するために用いられ、前記非一時的なコンピュータ可読コマンドがコンピュータによって実行されると、前記コンピュータは請求項１から請求項３０のいずれか１項に記載の音声検索・認識方法を実行する、コンピュータ可読記憶媒体。
請求項３１又は請求項３２に記載の音声検索・認識装置を含む、端末機器。