JP2020527255A

JP2020527255A - オーディオ指紋抽出方法及び装置

Info

Publication number: JP2020527255A
Application number: JP2020502951A
Authority: JP
Inventors: 根李; 磊李; ▲軼▼ 何
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2018-03-29
Filing date: 2018-12-29
Publication date: 2020-09-03
Anticipated expiration: 2038-12-29
Also published as: US10950255B2; CN110322886A; WO2019184517A1; JP6908774B2; SG11202008533VA; US20200273483A1

Abstract

本開示は、オーディオ指紋抽出方法及び装置に関し、この方法は、オーディオ信号をスペクトログラムに変換すること、スペクトログラムにおける特徴点を決定すること、前記スペクトログラムにおいて、前記特徴点のために１つ又は複数のマスクを決定し、各前記マスクが複数のスペクトル領域を含むこと、各スペクトル領域の平均エネルギーを決定すること、前記マスクにおける前記複数のスペクトル領域の平均エネルギーに基づいて、オーディオ指紋ビットを決定すること、強いと弱い重みビットを決定するように、前記オーディオ指紋ビットの信頼性を判断すること、及び前記オーディオ指紋ビットと前記強いと弱い重みビットを組み合わせて、オーディオ指紋を取得すること、を含む。

Description

関連出願の相互引用
本出願は、出願番号が２０１８１０２７３６６９．６で、出願日が２０１８年３月２９日である中国特許出願の優先権を主張し、この文献の全内容は引用によって本明細書に組み込まれた。

本開示は、オーディオ処理技術分野に関し、特にオーディオ指紋抽出方法及び装置に関する。

オーディオ指紋（又はオーディオ特徴）及びオーディオ指紋検索は、今日の「マルチメディア情報社会」で幅広く適用されている。オーディオ指紋検索は、最初に歌を聴いて歌を認識することに適用され、即ち、オーディオの一部を入力し、この部分のオーディオの指紋特徴を抽出及び比較することによって、対応した歌を認識することができる。また、オーディオ指紋検索は、オーディオ重複排除、検索に基づく音声広告監視、オーディオ版権などのコンテンツ監視に適用することもできる。

従来のオーディオ指紋検索方法には、精度が悪い問題があり、ある程度でこれは抽出されたオーディオ指紋の精度が悪いためである。従来のオーディオ指紋抽出方法には、ノイズに対するロバスト性が悪く、処理が複雑であるなどの問題がある。

本開示は、新しいオーディオ指紋抽出方法及び装置を提供することを目的とする。

本開示は、以下の技術によってその目的を実現する。

オーディオ指紋抽出方法であって、前記方法は、
オーディオ信号をスペクトログラムに変換すること、
スペクトログラムにおける特徴点を決定すること、
前記スペクトログラムにおいて、前記特徴点のために１つ又は複数のマスクを決定し、各前記マスクが複数のスペクトル領域を含むこと、
各スペクトル領域の平均エネルギーを決定すること、
前記マスクにおける前記複数のスペクトル領域の平均エネルギーに基づいて、オーディオ指紋ビットを決定すること、
強いと弱い重みビットを決定するように、前記オーディオ指紋ビットの信頼性を判断すること、及び
前記オーディオ指紋ビットと前記強いと弱い重みビットを組み合わせて、オーディオ指紋を取得することを含むオーディオ指紋抽出方法。

本開示は、以下の技術によってその目的を実現する。

前記の前記オーディオ信号をスペクトログラムに変換することは、高速フーリエ変換によって前記オーディオ信号を時間−周波数の二次元スペクトログラムに変換することを含み、前記スペクトログラムにおける各点の値は前記オーディオ信号のエネルギーを表す前述したオーディオ指紋抽出方法。

前記のオーディオ信号をスペクトログラムに変換することは、前記スペクトログラムに対してメル変化を行うことをさらに含む前述したオーディオ指紋抽出方法。

前記のオーディオ信号をスペクトログラムに変換することは、前記スペクトログラムに対して人間の聴覚システムのフィルタリングを行うことをさらに含む前述したオーディオ指紋抽出方法。

前記特徴点は前記スペクトログラムにおける固定点である前述したオーディオ指紋抽出方法。

前記特徴点は周波数値が予め設定された複数の周波数設定値に等しい点である前述したオーディオ指紋抽出方法。

前記特徴点は前記スペクトログラムにおけるエネルギーの最大値点であり、又は、前記特徴点は前記スペクトログラムにおけるエネルギーの最小値点である前述したオーディオ指紋抽出方法。

前記マスクに含まれる複数の前記スペクトル領域は対称的に分布する前述したオーディオ指紋抽出方法。

前記マスクに含まれる複数の前記スペクトル領域は、同じ周波数範囲を有し、及び／又は同じ時間範囲を有し、及び／又は前記特徴点を中心として中心に対称的に分布する前述したオーディオ指紋抽出方法。

前記スペクトル領域の平均エネルギーは前記スペクトル領域に含まれるすべての点のエネルギー値の平均値である前述したオーディオ指紋抽出方法。

前記の前記マスクにおける複数のスペクトル領域の平均エネルギーに基づいて、オーディオ指紋ビットを決定することは、
１つの前記マスクに含まれる複数の前記スペクトル領域の平均エネルギーの差に基づいて１つのオーディオ指紋ビットを決定することを含む前述したオーディオ指紋抽出方法。

前記の強いと弱い重みビットを決定するように、前記オーディオ指紋ビットの信頼性を判断することは、
前記差の絶対値が予め設定された弱いビット強いと弱いビット閾値弱いビットに達する又は超えるかどうかを判断し、前記弱いビット強いと弱いビット閾値に達した又は超えた場合、前記オーディオ指紋ビットを強いビットとして決定し、そうでなければ、前記オーディオ指紋ビットを弱いビットとして決定し、前記オーディオ指紋ビットが強いビットであるか弱いビットであるかに基づいて前記強いと弱い重みビットを決定することを含む前述したオーディオ指紋抽出方法。

前記弱いビット強いと弱いビット閾値は、固定値、又は前記差に基づく値、又は比例値である前述したオーディオ指紋抽出方法。

前記方法は、
オーディオ信号を時間で複数のオーディオサブ信号に分割すること、
前記オーディオサブ信号の前記オーディオ指紋を抽出すること、及び
抽出して取得した各前記オーディオサブ信号の前記オーディオ指紋を組み合わせて、前記オーディオ信号のオーディオ指紋を取得すること、
をさらに含む前述したオーディオ指紋抽出方法。

本開示は、さらに以下の技術によって、その目的を実現する。

オーディオ指紋データベース構築方法であって、前記方法は、
前述したいずれかのオーディオ指紋抽出方法に基づいてオーディオ信号のオーディオ指紋を抽出すること、及び
前記オーディオ指紋をオーディオ指紋データベースに記憶すること、
を含む本開示に係るオーディオ指紋データベース構築方法。

オーディオ指紋抽出装置であって、前記装置は、
オーディオ信号をスペクトログラムに変換するためのスペクトログラム変換モジュールと、
スペクトログラムにおける特徴点を決定するための特徴点決定モジュールと、
前記スペクトログラムにおいて、前記特徴点のために１つ又は複数のマスクを決定するために用いられ、各前記マスクが複数のスペクトル領域を含むマスク決定モジュールと、
各前記スペクトル領域の平均エネルギーを決定するための平均エネルギー決定モジュールと、
前記マスクにおける前記複数のスペクトル領域の平均エネルギーに基づいて、オーディオ指紋ビットを決定するためのオーディオ指紋ビット決定モジュールと、
強いと弱い重みビットを決定するように、前記オーディオ指紋ビットの信頼性を判断するための強いと弱い重みビット決定モジュールと、
前記オーディオ指紋ビットと前記強いと弱い重みビットを組み合わせて、オーディオ指紋を取得するためのオーディオ指紋決定モジュールと、を備える本開示に係るオーディオ指紋抽出装置。

本開示は、さらに以下の技術によって、その目的をさらに実現する。

前記装置は、前述したいずれかのステップを行うモジュールをさらに備える前述したオーディオ指紋抽出装置。

オーディオ指紋データベース構築装置であって、前記装置は、
前述したいずれかのオーディオ指紋抽出方法に基づいてオーディオ信号のオーディオ指紋を抽出するためのオーディオ指紋抽出モジュールと、
前記オーディオ指紋をオーディオ指紋データベースに記憶するためのオーディオ指紋記憶モジュールと、
前記オーディオ指紋を記憶するためのオーディオ指紋データベースと、を備える本開示に係るオーディオ指紋データベース構築装置。

オーディオ指紋抽出ハードウェア装置であって、
非一時的なコンピュータ可読命令を記憶するためのメモリと、
実行時に前記いずれかのオーディオ指紋抽出方法を実現するように、前記コンピュータ可読命令を実行するためのプロセッサと、を備える本開示に係るオーディオ指紋抽出ハードウェア装置。

非一時的なコンピュータ可読命令を記憶するためのコンピュータ読み取り可能な記憶媒体であって、前記非一時的なコンピュータ可読命令がコンピュータにより実行される場合、前記コンピュータは前記したいずれかのオーディオ指紋抽出方法を実行するようにする本開示に係るコンピュータ読み取り可能な記憶媒体。

端末機器であって、前記したいずれかのオーディオ指紋抽出装置を備える本開示に係る端末機器。

上記の説明は、本開示の技術案の概要に過ぎず、本開示の技術的手段をより明確に理解するために、明細書の内容にしたがって実施することができ、且つ本開示の上記、他の目的、特徴、及び利点をより明らかにするために、以下、特に好適な実施例を挙げて、図面を参照しながら以下のように詳細に説明する。

本開示の一実施例によるオーディオ指紋抽出方法の概略フローチャートである。本開示の一実施例によるオーディオ指紋データベース構築方法の概略フローチャートである。本開示の一実施例によるオーディオ指紋抽出装置の構造ブロック図である。本開示の一実施例によるオーディオ指紋データベース構築装置の構造ブロック図である。本開示の一実施例によるオーディオ指紋抽出ハードウェア装置のハードウェアブロック図である。本開示の一実施例によるコンピュータ読み取り可能な記憶媒体の模式図である。本開示の一実施例による端末機器の構造ブロック図である。

本開示が所期の発明の目的を達成するために採用された技術的手段及び効果をさらに説明するために、本開示にしたがって提案したオーディオ指紋抽出方法及び装置の具体的な実施形態、構造、特徴及びその効果を詳細に後述する。

図１は、本開示のオーディオ指紋抽出方法の１つの実施例の概略フローチャートである。図１を参照し、本開示の例のオーディオ指紋抽出方法は、主に以下のステップを含む。

ステップＳ１１、オーディオ信号をスペクトログラム（Ｓｐｅｃｔｒｏｇｒａｍ）に変換する。具体的には、高速フーリエ変換（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍａｔｉｏｎ）によってオーディオ信号を時間−周波数スペクトログラムに変換する。スペクトログラムは、一般的に使用されるオーディオ信号の二次元スペクトルマップであり、横軸は時間ｔで、縦軸は周波数ｆであり、図の各点（ｔ，ｆ）の具体的な値Ｅ（ｔ，ｆ）は、信号のエネルギーを示す。なお、オーディオ信号の具体的なタイプは限定されず、静的ファイル（ｓｔａｔｉｃｆｉｌｅ）であってもよいし、ストリーミングオーディオ（ｓｔｒｅａｍｉｎｇａｕｄｉｏ）であってもよい。次に、処理はステップＳ１２に進む。

本開示の実施例において、メル（ＭＥＬ）変換を利用してスペクトログラムを前処理することができ、メル変換を利用することによってスペクトルを複数の周波数ビン（周波数ｂｉｎ）に分割することができ、分割された周波数ビンの数は設定可能である。また、スペクトログラムに対して人間の聴覚システムのフィルタリング（ＨｕｍａｎＡｕｄｉｔｏｒｙＳｙｓｔｅｍｆｉｌｔｅｒｉｎｇ）を行うこともでき、人間の聴覚システムのフィルタリングなどの非線形変換を利用することによって、スペクトログラムにおけるスペクトル分布を人間の耳の知覚により適したものにすることができる。

なお、高速フーリエ変換における各ハイパーパラメータを調整することによって異なる実際の状況に適応することができる。本開示の実施例において、ステップＳ１１における各ハイパーパラメータは、高速フーリエ変換において、時間ウィンドウを１００ｍｓとし、間隔を５０ｍｓとし、メル変換において、周波数ビンの数を３２〜１２８とするように設定されてもよい。

ステップＳ１２、スペクトログラムにおける特徴点を決定する。

具体的には、複数の標準の１つを採用して特徴点を決定し、例えば、特徴点を、スペクトログラムにおけるエネルギーの最大値点として選択してもよいし、エネルギーの最小値点として選択してもよい。スペクトログラムにおける１つの点（ｔ，ｆ）のエネルギーＥ（ｔ，ｆ）が、Ｅ（ｔ，ｆ）＞Ｅ（ｔ＋１，ｆ）、Ｅ（ｔ，ｆ）＞Ｅ（ｔ−１，ｆ）、Ｅ（ｔ，ｆ）＞Ｅ（ｔ，ｆ＋１）且つＥ（ｔ，ｆ）＞Ｅ（ｔ，ｆ−１）を同時に満たすことができる場合、この（ｔ，ｆ）点は、スペクトログラムにおけるエネルギーの最大値点である。同様に、１つの点（ｔ，ｆ）のエネルギーＥ（ｔ，ｆ）が、Ｅ（ｔ，ｆ）＜Ｅ（ｔ＋１，ｆ）、Ｅ（ｔ，ｆ）＜Ｅ（ｔ−１，ｆ）、Ｅ（ｔ，ｆ）＜Ｅ（ｔ，ｆ＋１）且つＥ（ｔ，ｆ）＜Ｅ（ｔ，ｆ−１）を同時に満たすことができる場合、この（ｔ，ｆ）点は、スペクトログラムにおけるエネルギーの最小値点である。次に、処理は、ステップＳ１２に進む。

本開示の実施例において、エネルギーの極値点を特徴点として選択するため、エネルギーの極値点がノイズの影響を受けやすく、極値点の数を制御しにくく、１つのスペクトログラムにおいて極値点がなく、別のスペクトログラムにおいて複数の極値点があり、特徴点が不均一になる場合があり、スペクトログラムにおけるエネルギーの極値点の位置を記録するように、追加のタイムスタンプを記憶する必要があるなどの問題が存在する。そのため、エネルギーの極値点を特徴点として選択せず、固定点を特徴点として選択してもよく、例えば、周波数値が予め設定された周波数設定値に等しい点（周波数固定点）を選択することができる。さらには、周波数の大きさにしたがって低周波数、中間周波数、高周波数の複数の周波数設定値（低周波数、中間周波数、高周波数の具体的な値は設定可能である）を予め設定することができる。周波数が低周波数、中間周波数、高周波数である複数の固定点を特徴点として選択することによって、選択された特徴点をより均一にすることができる。なお、他の標準に準拠して固定点を選択してもよく、例えば、１つ又は複数の予め設定されたエネルギー値が同様である点を選択する。

なお、選択された特徴点の数を調整することによって異なる実際の状況に適応することができる。本開示の実施例において、ステップＳ１２におけるハイパーパラメータは、特徴点の密度を２０〜８０個／秒とするように設定されてもよい。

ステップＳ１３、スペクトログラムにおいて、特徴点の付近で、特徴点のために１つ又は複数のマスク（ｍａｓｋ）を決定し、各マスクは、複数のスペクトログラム上の領域（スペクトル領域と呼ばれても構わない）を含む（又は、覆う）。次に、処理は、ステップＳ１４に進む。

具体的には、スペクトログラムにおいて、各マスクに含まれた複数のスペクトル領域は対称的に分布してもよく、
時間軸で対称であり（即ち、複数のスペクトル領域は同じ周波数範囲を有する）、例えば、１つのメル−スペクトログラムにおいて、特徴点のためにＲ１１及びＲ１２という２つのスペクトル領域を含む１つのマスクを決定することができ、Ｒ１１、Ｒ１２はいずれも特徴点の左側に位置し、Ｒ１１がＲ１２の左側に位置し、且つＲ１１とＲ１２が同じ周波数ビンを覆い、
又は周波数軸で対称である（即ち、複数のスペクトル領域は同じ時間範囲を有する）。例えば、１つのメル−スペクトログラムにおいて、特徴点のためにＲ１３及びＲ１４という２つのスペクトル領域を含む１つのマスクを決定することができ、Ｒ１３は特徴点の上側に位置し、Ｒ１４は特徴点の下側に位置し、且つＲ１３とＲ１４が同じ時間範囲を有し、
又は特徴点を中心として中心対称的に分布し、例えば、１つのメル−スペクトログラムにおいて、特徴点のためにＲ１５及びＲ１６という２つのスペクトル領域を含む１つのマスクを決定することができ、Ｒ１５は特徴点の左上側に位置し、Ｒ１６は特徴点の右下側に位置し、且つＲ１５とＲ１６が特徴点を中心として互いに対称である。

当然ながら、１つのマスクに含まれた複数のスペクトル領域は、様々な対称分布状況を同時に満たすこともできる。例えば、特徴点のためにＲ２１、Ｒ２２、Ｒ２３、及びＲ２４という４つのスペクトル領域を含むマスクを決定してもよく、Ｒ２１、Ｒ２２、Ｒ２３、Ｒ２４は、それぞれ特徴点の左上、右上、左下、右下に位置し、且つＲ２１とＲ２２が同じ周波数範囲を有し、Ｒ２３とＲ２４が同じ周波数範囲を有し、Ｒ２１とＲ２３が同じ時間範囲を有し、Ｒ２２とＲ２４が同じ時間範囲を有し、且つこの４つのスペクトル領域はまた特徴点を中心として中心対称である。なお、１つのマスクの４つのスペクトル領域は、必ずしも特徴点を中心として、中心対称的に分布せず、例えば、いずれも特徴点の左側に位置し、且つ周波数軸に特徴点の両側に分布してもよい。

なお、同じマスクに属する複数のスペクトル領域間は互いに重複してもよい。また、異なるマスク間は互いに重複してもよい。選択可能に、各マスクは偶数個のスペクトル領域を含むことができる。

なお、マスクは固定の予め設定された標準に準拠して決定されてもよく、即ちスペクトログラムにおける各マスクの位置及び覆われる領域は予め設定された。又は、マスクの位置及び範囲を予め固定せず、データ駆動の方式でマスク領域を自動的に決定してもよく、多数のマスクから、共分散が最小で、最も差別的なマスクを選択する。

ステップＳ１４、各スペクトル領域の平均エネルギーを決定する。具体的には、１つの点だけを含むスペクトル領域に対して、このスペクトル領域の平均エネルギーはこの点のエネルギー値であり、スペクトル領域が複数の点からなる場合、このスペクトル領域の平均エネルギーをこの複数の点のエネルギー値の平均値に設定することができる。次に、処理は、ステップＳ１５に進む。

ステップＳ１５、マスクにおける複数のスペクトル領域の平均エネルギーに基づいて、オーディオ指紋ビット（ｂｉｔ）を決定する。次に、処理は、ステップＳ１６に進む。

本開示の実施例のステップＳ１５において、１つのマスクに含まれたる複数のスペクトル領域の平均エネルギーの差に基づいて１つのオーディオ指紋ビットを決定してもよい。

具体的には、１つのマスクが２つのスペクトル領域を含む場合、例えばＲ１１及びＲ１２という２つのスペクトル領域を含む前述の例は、式１、Ｄ１＝Ｅ（Ｒ１１）−Ｅ（Ｒ１２）（式１）に従ってＲ１１、Ｒ１２の平均エネルギーの差Ｄ１を計算することができ、
次に差Ｄ１の正負を判断し、差Ｄ１が正値である場合、値が１の１つのオーディオ指紋ビットを取得し、差Ｄ１が負値である場合、値が０の１つのオーディオ指紋ビットを取得する。

１つのマスクが４つのスペクトル領域を含む場合、例えばＲ２１、Ｒ２２、Ｒ２３、Ｒ２４という４つのスペクトル領域を含む前述の例は、式２、Ｄ２＝（Ｅ（Ｒ２１）＋Ｅ（Ｒ２２））−（Ｅ（Ｒ２３）＋Ｅ（Ｒ２４））（式２）に従ってＲ２１、Ｒ２２、Ｒ２３、Ｒ２４の平均エネルギーの差Ｄ２を計算し、
次に差Ｄ２の正負を判断し、差Ｄ２が正値である場合、値が１の１つのオーディオ指紋ビットを取得し、差Ｄ２が負値である場合、値が０の１つのオーディオ指紋ビットを取得する。なお、必ずしも差Ｄ２によって４つのスペクトル領域を含む１つのマスクのオーディオ指紋ビットを決定せず、他の形式の差を利用してオーディオ指紋ビットを決定してもよい。例えば、この４つのスペクトル領域の平均エネルギーの二次差Ｄ３
Ｄ３＝（Ｅ（Ｒ２３）−Ｅ（Ｒ２４））−（Ｅ（Ｒ２１）−Ｅ（Ｒ２２））、（式３）を計算してもよく、
次に差Ｄ１の正負を判断することによってオーディオ指紋ビットを決定する。

なお、特徴点のために複数のマスクを決定した場合、複数のオーディオ指紋ビットを対応的に取得することができる。

ステップＳ１６、オーディオ指紋ビットに対応する強いと弱い重みビットを決定し、この強いと弱い強いと弱い重みビットは、このオーディオ指紋ビットの信頼性を示すために用いられる。具体的には、信頼性の高いオーディオ指紋ビットを強いビットとして定義し、信頼性の低いオーディオ指紋ビットを弱いビットとして定義することができる。１つのオーディオ指紋ビットの信頼性を判断し、このオーディオ指紋ビットが強いビットであるか弱いビットであるかに基づいて強いと弱い重みビットの値を決定する。次に、処理は、ステップＳ１７に進む。

本開示の実施例において、オーディオ指紋ビットが１つのマスクに含まれた複数のスペクトル領域の平均エネルギーの差によって決定される場合、ステップＳ１６は、具体的には、このオーディオ指紋ビットの生成に使用されるこの差の絶対値が予め設定された弱いビット強いと弱いビット閾値に達する（又は超える）かどうかを判断し、弱いビット強いと弱いビット閾値に達した場合、このオーディオ指紋ビットを強いビットとして決定し、このオーディオ指紋ビットに対応する値が１の１つの強いと弱い重みビットを取得し、弱いビット強いと弱いビット閾値に達しなかった場合、このオーディオ指紋ビットを弱いビットとして決定し、このオーディオ指紋ビットに対応した、値が０である１つの強いと弱い重みビットを取得することを含む。

１つの具体的な例として、１つのオーディオ指紋ビットが、前述の公式二の４つのスペクトル領域の平均エネルギーの差Ｄ２の正負を判断することによって決定された場合、ステップＳ１６は、この差Ｄ２の絶対値と予め設定された弱いビット強いと弱いビット閾値Ｔとの大きさ関係を判断し、｜Ｄ２｜≧Ｔである場合、このオーディオ指紋ビットが強いビットであり、このオーディオ指紋ビットに対応する強いと弱い重みビット値を１に設定し、｜Ｄ２｜＜Ｔである場合、このオーディオ指紋ビットが弱いビットであり、このオーディオ指紋ビットに対応する強いと弱い重みビット値を０に設定することを含む。なお、この弱いビット強いと弱いビット閾値は、様々なタイプの閾値であってもよく、この弱いビット強いと弱いビット閾値は、予め設定された固定値であってもよく、例えば１に固定でき、又は、この弱いビット強いと弱いビット閾値は、平均エネルギーの差に基づいて取得された数値であってもよく、例えばこの弱いビット強いと弱いビット閾値を、複数のマスク（又は複数の特徴点）に対応する複数の差の平均数（実際には、平均数に限定されず、最大の差と最小の差との間の任意の数値であってもよい）に設定し、且つ差がこの平均数に達するオーディオ指紋ビットを強いビットとして決定し、差がこの平均数に達しないオーディオ指紋ビットを弱いビットとして決定することができ、又は、この弱いビット強いと弱いビット閾値は、比例値であってもよく、例えばこの弱いビット強いと弱いビット閾値を６０％に設定することができ、複数のマスク（又は複数の特徴点）に対応する複数の差において、１つの差の絶対値がすべての差における前の６０％に位置する場合、このオーディオ指紋ビットを強いビットとして決定し、そうでなければ、このオーディオ指紋ビットを弱いビットとして決定する。

ステップＳ１７、取得した複数のオーディオ指紋ビット及び複数の強いと弱い重みビットを組み合わせ、オーディオ指紋を取得する。具体的には、オーディオ指紋の組み合わせ方式、オーディオ指紋の長さを制限しない。例えば、１つのオーディオ指紋は、２つの部分を含むことができ、一部は、１つの特徴点のすべてのマスクに対応するオーディオ指紋ビットを組み合わせて取得したオーディオ指紋ビットシーケンスであり、次に複数の特徴点に対応する複数のオーディオ指紋ビットシーケンスを特徴点の時系列で配列してオーディオ指紋の第１部分を取得し、別の部分は、対応する強いと弱い重みビットを組み合わせて得られた、オーディオ指紋ビットシーケンスの長さに等しい強いと弱い重みビットシーケンスであり、次に複数の特徴点に対応する複数の強いと弱い重みビットシーケンスを特徴点の時系列で配列してオーディオ指紋の第２部分を取得する。選択可能に、取得したオーディオ指紋ビットシーケンスの長さは３２ｂｉｔｓであってもよい。

本開示は、オーディオ指紋ビットを抽出すると共に、この指紋ビットに対応する強いと弱い重みビットを抽出することによって、一部のオーディオのために、精度が高く、ロバスト性に優れた１つのオーディオ指紋を生成することができる。

選択可能に、このオーディオ指紋抽出方法は、オーディオ指紋のために、オーディオ開始位置とこの特徴点との時間差を示すための１つのタイムスタンプフィールドを追加することをさらに含み、このフィールドは１つのｈａｓｈ値であってもよい。特徴点を固定点として設定する場合、このステップを含む必要がなく、即ちこのタイムスタンプを記録する必要がない。

選択可能に、このオーディオ指紋抽出方法は、このオーディオ指紋に対応するオーディオ信号のＩＤ認識情報を記録するように、オーディオ指紋のために、１つのオーディオ信号認識フィールドを追加することをさらに含み、このフィールドは１つのｈａｓｈ値であってもよい。

選択可能に、このオーディオ指紋抽出方法は、オーディオ信号を時間で複数のオーディオサブ信号に分割すること、前述の方法のステップに基づいて、各部分のオーディオサブ信号に対してオーディオ指紋を抽出し、複数のオーディオ指紋を取得すること、及び抽出した各部分のオーディオサブ信号の各特徴点のオーディオ指紋を組み合わせて、このオーディオ信号全体のオーディオ指紋を取得することをさらに含む。

１つの選択可能な例として、本開示が抽出したオーディオ指紋を利用してオーディオ検索、オーディオ認識を行う過程において、２つのオーディオ指紋間の距離（例えばハミング距離）を計算する時に、各オーディオ指紋ビットに対して、対応する強いと弱い重みビットを利用して重み付け、強いビットの重みが高く、弱いビットの重みが低く（弱いビットの重みをゼロに設定してもよい）、それにより、弱いビットが占める重みを弱めたり削除したりして、オーディオ検索はノイズに対してよりロバストであり、ノイズのビット誤り率の問題を効果的に解決する。

その中のハミング距離は、情報理論分野で一般的に使用される尺度であり、２つの等距離文字列間のハミング距離は２つの文字列に対応する位置の異なる文字の数である。実際にハミング距離を計算する時に、２つの文字列に対して排他的論理和演算を行うことができ、結果が１である数を統計し、この数はハミング距離である。

図２は、本開示のオーディオ指紋データベース構築方法の１つの実施例の概略フローチャートである。図２を参照し、本開示の例のオーディオ指紋データベース構築方法は、主に以下のステップを含む。

ステップＳ２１、前述の本開示の例のオーディオ指紋抽出方法のステップに基づいてオーディオ信号のオーディオ指紋を抽出する。次に、処理は、ステップＳ２２に進む。

ステップＳ２２、取得したオーディオ信号のオーディオ指紋をオーディオ指紋データベースに記憶する。

なお、上記のオーディオ信号の数が多いほど、このオーディオ指紋データベースに記憶される情報が豊富になる。また、時間が経つにつれて、オーディオ指紋データベースをいつでも更新することができる。

図３は、本開示のオーディオ指紋抽出装置の１つの実施例の概略構造図である。図３を参照し、本開示の例のオーディオ指紋抽出装置１００は、主に、スペクトログラム変換モジュール１０１、特徴点決定モジュール１０２、マスク決定モジュール１０３、平均エネルギー決定モジュール１０４、オーディオ指紋ビット決定モジュール１０５、強いと弱い重みビット決定モジュール１０６、及びオーディオ指紋決定モジュール１０７を備える。

このスペクトログラム変換モジュール１０１は、オーディオ信号をスペクトログラム（Ｓｐｅｃｔｒｏｇｒａｍ）に変換するために用いられる。具体的には、スペクトログラム変換モジュール１０１は、高速フーリエ変換（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍａｔｉｏｎ）によってオーディオ信号を時間−周波数スペクトログラムに変換することに使用できる。

本開示の実施例において、スペクトログラム変換モジュール１０１は、メル（ＭＥＬ）変換を利用してスペクトログラムを前処理するためのメル変換サブモジュールを含んでもよく、メル変換を利用することによってスペクトルを複数の周波数ビン（ｂｉｎ）に分割することができ、分割された周波数ビンの数は設定可能である。また、スペクトログラム変換モジュール１０１は、スペクトログラムに対して人間の聴覚システムのフィルタリング（ＨｕｍａｎＡｕｄｉｔｏｒｙＳｙｓｔｅｍｆｉｌｔｅｒｉｎｇ）を行うための人間の聴覚システムのフィルタリングサブモジュールを含んでもよく、人間の聴覚システムのフィルタリングなどの非線形変換を利用することによって、スペクトログラムにおけるスペクトル分布を人間の耳の感知により適したものにすることができる。

この特徴点決定モジュール１０２は、スペクトログラムにおける特徴点を決定するために用いられる。

具体的には、この特徴点決定モジュール１０２は、複数の標準の１つを採用して特徴点を決定することに使用でき、例えば、特徴点をスペクトログラムにおけるエネルギーの最大値点として選択してもよいし、又はエネルギーの最小値点として選択してもよい。

本開示の実施例において、この特徴点決定モジュール１０２は、エネルギーの極値点を特徴点として選択せず、固定点を特徴点として選択するために用いられ、例えば、周波数値が予め設定された周波数設定値に等しい点（周波数固定点）を選択することができる。さらには、この特徴点決定モジュール１０２は、周波数の大きさに基づいてそれぞれ低周波数、中間周波数、高周波数の複数の周波数設定値（低周波数、中間周波数、高周波数の具体的な値は設定可能である）を選択することに使用できる。

このマスク決定モジュール１０３は、スペクトログラムにおいて、特徴点の付近で、特徴点のために１つ又は複数のマスク（ｍａｓｋ）を決定するために用いられ、各マスクは、複数のスペクトル領域を含む。具体的には、スペクトログラムにおいて、各マスクに含まれる複数のスペクトル領域は対称的に分布してもよい。

この平均エネルギー決定モジュール１０４は、各スペクトル領域の平均エネルギーをそれぞれ決定するために用いられる。

このオーディオ指紋ビット決定モジュール１０５は、１つのマスクにおける複数のスペクトル領域の平均エネルギーに基づいて、１つのオーディオ指紋ビットを決定するために用いられる。

本開示の実施例において、このオーディオ指紋ビット決定モジュール１０５は、具体的には、１つのマスクに含まれた複数のスペクトル領域の平均エネルギーの差に基づいて１つのオーディオ指紋ビットを決定することに使用できる。

この強いと弱い重みビット決定モジュール１０６は、各オーディオ指紋ビットに対応する強いと弱い重みビットを決定するように、オーディオ指紋ビットの信頼性を判断するために用いられる。

本開示の実施例において、オーディオ指紋ビットが１つのマスクに含まれた複数のスペクトル領域の平均エネルギーの差によって決定される場合、この強いと弱い重みビット決定モジュール１０６は、具体的には、このオーディオ指紋ビットの生成に使用されるこの差の絶対値が予め設定された弱いビット強いと弱いビット閾値に達する（又は超える）かどうかを判断し、弱いビット強いと弱いビット閾値に達した場合、このオーディオ指紋ビットを強いビットとして決定し、値が１の１つの強いと弱い重みビットを取得し、弱いビット強いと弱いビット閾値に達しなかった場合、このオーディオ指紋ビットを弱いビットとして決定し、値が０の１つの強いと弱い重みビットを取得するために用いられる。

このオーディオ指紋決定モジュール１０７は、取得した複数のオーディオ指紋ビット及び複数の強いと弱い重みビットを組み合わせ、オーディオ指紋を取得するために用いられる。

あるいは、このオーディオ指紋抽出装置１００は、オーディオ指紋のために、オーディオ開始位置とこの特徴点との時間差を示すための１つのタイムスタンプフィールドを追加するためのタイムスタンプ追加モジュール（図示せず）をさらに備え、このフィールドは１つのｈａｓｈ値であってもよい。特徴点を固定点として設定する場合、このタイムスタンプ追加モジュールを備える必要がない。

あるいは、このオーディオ指紋抽出装置１００は、このオーディオ指紋に対応するオーディオ信号のＩＤ認識情報を記録するように、オーディオ指紋のために、１つのオーディオ信号認識フィールドを追加するためのオーディオ信号認識追加モジュール（図示せず）をさらに備える。

あるいは、このオーディオ指紋抽出装置１００は、オーディオ分割モジュール（図示せず）及びオーディオ指紋組み合わせモジュール（図示せず）をさらに備える。このオーディオ分割モジュールは、オーディオ信号を時間で複数のオーディオサブ信号に分割するために用いられる。複数のオーディオ指紋を取得するように、オーディオ指紋抽出装置に含まれるモジュールを利用し、各部分のオーディオサブ信号に対してオーディオ指紋を抽出する。オーディオ指紋組み合わせモジュールは、抽出した各部分のオーディオサブ信号の各特徴点のオーディオ指紋を組み合わせて、このオーディオ信号全体のオーディオ指紋を取得するために用いられる。

図４は、本開示のオーディオ指紋データベース構築装置の１つの実施例の概略構造図である。図４を参照し、本開示の例のオーディオ指紋データベース構築装置２００は、主に、
前述の本開示の例のオーディオ指紋抽出装置１００のスペクトログラム変換モジュール１０１、特徴点決定モジュール１０２、マスク決定モジュール１０３、平均エネルギー決定モジュール１０４、オーディオ指紋ビット決定モジュール１０５、強いと弱い重みビット決定モジュール１０６、及びオーディオ指紋決定モジュール１０７を含み、前述の本開示の例のオーディオ指紋抽出方法のステップに基づいてオーディオ信号のオーディオ指紋を抽出するためのオーディオ指紋抽出モジュール２０１と、
オーディオ指紋抽出モジュール２０１により取得されたオーディオ信号のオーディオ指紋をオーディオ指紋データベース２０３に記憶するためのオーディオ指紋記憶モジュール２０２と、
各オーディオ信号のオーディオ指紋を記憶するためのオーディオ指紋データベース２０３と、を備える。

図５は、本開示の実施例によるオーディオ指紋抽出ハードウェア装置を示すハードウェアブロック図である。図５に示すように、本開示の実施例によるオーディオ指紋抽出ハードウェア装置３００は、メモリ３０１及びプロセッサ３０２を備える。オーディオ指紋抽出ハードウェア装置３００における各コンポーネントは、バスシステム及び／又は他の形式の接続機構（図示せず）によって互いに接続される。

このメモリ３０１は、非一時的なコンピュータ可読命令を記憶するために用いられる。具体的には、メモリ３０１は、１つ又は複数のコンピュータプログラム製品を含んでもよく、このコンピュータプログラム製品は、様々な形式のコンピュータ読み取り可能な記憶媒体、例えば揮発性メモリ及び／又は不揮発性メモリを含んでもよい。この揮発性メモリは、例えば、ランダムアクセスメモリ（ＲＡＭ）及び／又はキャッシュメモリ（ｃａｃｈｅ）などを含んでもよい。この不揮発性メモリは、例えば、読み出し専用メモリ（ＲＯＭ）、ハードディスク、フラッシュメモリなどを含んでもよい。

このプロセッサ３０２は、中央処理ユニット（ＣＰＵ）又はデータ処理能力及び／又は命令実行能力を有する他の形式の処理ユニットであってもよく、且つ所望の機能を実行するように、オーディオ指紋抽出ハードウェア装置３００におけるその他のコンポーネントを制御することができる。本開示の１つの実施例において、このプロセッサ３０２は、このメモリ３０１に記憶されたこのコンピュータ可読命令を実行するために用いられ、このオーディオ指紋抽出ハードウェア装置３００は前述の本開示の各実施例のオーディオ指紋抽出方法のステップの全部又は一部を実行するようにする。

図６は、本開示の実施例によるコンピュータ読み取り可能な記憶媒体を示す模式図である。図６に示すように、本開示の実施例によるコンピュータ読み取り可能な記憶媒体４００は、非一時的なコンピュータ可読命令４０１が記憶される。この非一時的なコンピュータ可読命令４０１がプロセッサにより実行された場合、前述の本開示の各実施例のオーディオ指紋抽出方法のステップの全部又は一部を実行する。

図７は、本開示の実施例による端末機器のハードウェア構造を示す模式図である。端末機器は様々な形で実施されてもよく、本開示における端末機器は、携帯電話、スマートフォン、ノートパソコン、デジタル放送受信機、ＰＤＡ（パーソナルデジタルアシスタント）、ＰＡＤ（タブレットパソコン）、ＰＭＰ（ポータブルマルチメディアプレーヤー）、ナビゲーション装置、車載端末機器、車載表示端末、車載電子バックミラーなどの移動端末機器、及びデジタルＴＶ、デスクトップパソコンなどの固定端末機器を含むことができるが、これらに限定されるものではない。

図７に示すように、端末機器１１００は、無線通信ユニット１１１０、Ａ／Ｖ（オーディオ／ビデオ）入力ユニット１１２０、ユーザ入力ユニット１１３０、検知ユニット１１４０、出力ユニット１１５０、メモリ１１６０、インターフェースユニット１１７０、コントローラ１１８０、及び電源ユニット１１９０などを含んでもよい。図７は、様々なコンポーネントを有する端末機器を示したが、示されたすべてのコンポーネントを実施する必要がないことを理解すべきである。より多く又はより少ないコンポーネントを代替的に実施してもよい。

無線通信ユニット１１１０は、端末機器１１００と無線通信システム又はネットワークとの間の無線通信を許可する。Ａ／Ｖ入力ユニット１１２０は、オーディオ又はビデオ信号を受信するために用いられる。ユーザ入力ユニット１１３０は、端末機器の様々な操作を制御するように、ユーザが入力した命令に基づいてキー入力データを生成することができる。検知ユニット１１４０は、端末機器１１００の現在の状態、端末機器１１００の位置、端末機器１１００へのユーザのタッチ入力があるかどうか、端末機器１１００の向き、端末機器１１００の加速又は減速移動及び方向などを検出し、且つ端末機器１１００の操作を制御するための命令又は信号を生成する。インターフェースユニット１１７０は、少なくとも１つの外部装置が端末機器１１００に接続される時に通過できるインターフェースとして機能する。出力ユニット１１５０は、視覚、オーディオ及び／又は触覚方式で出力信号を提供するように構成される。メモリ１１６０は、コントローラ１１８０により実行された、操作を処理及び制御するソフトウェアプログラムなどを記憶してもよく、又は既に出力した又は出力しようとするデータを一時的に記憶してもよい。メモリ１１６０は、少なくとも１つのタイプの記憶媒体を含んでもよい。且つ、端末機器１１００は、ネットワーク接続を介してメモリ１１６０の記憶機能を実行するネットワーク記憶装置と協働することができる。コントローラ１１８０は、一般的に端末機器の全体的な操作を制御する。また、コントローラ１１８０は、マルチメディアデータを再現又は再生するためのマルチメディアモジュールを含んでよい。コントローラ１１８０は、タッチパネル上で実行された手書き入力又は絵描き入力を文字又は画像に認識するように、パターン認識処理を実行することができる。電源ユニット１１９０は、コントローラ１１８０の制御によって外部電力又は内部電力を受け取り、各素子及びコンポーネントの操作に必要な適切な電力を提供する。

本開示が提案したオーディオ指紋抽出方法の様々な実施形態は、例えばコンピュータソフトウェア、ハードウェア又はそれらの任意の組み合わせを使用するコンピュータ可読媒体で実施され得る。ハードウェア実装の場合、本開示が提案したオーディオ指紋抽出方法の様々な実施形態は、特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理装置（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、ここで記載された機能を実行するように設計される電子ユニットのうちの少なくとも１つを使用することによって実施されてもよく、いくつかの場合で、本開示が提案したオーディオ指紋抽出方法の様々な実施形態は、コントローラ１１８０において実施することができる。ソフトウェア実装の場合、本開示が提案したオーディオ指紋抽出方法の様々な実施形態は、少なくとも１つの機能又は操作の実行を許可する単独のソフトウェアモジュールで実施することができる。ソフトウェアコードは、任意の適切なプログラミング言語でプログラミングしたソフトウェアアプリケーション（又はプログラム）により実施することができ、ソフトウェアコードは、メモリ１１６０に記憶され且つコントローラ１１８０により実行することができる。

以上、本開示の実施例によるオーディオ指紋抽出方法、装置、ハードウェア装置、コンピュータ読み取り可能な記憶媒体、及び端末機器は、マスクを利用してオーディオ指紋ビットを抽出し、且つ対応する強いと弱い重みビットを抽出し、オーディオ指紋抽出の精度及び抽出の効率を大幅に向上させることができ、オーディオ信号のために品質が高く、ロバスト性に優れたオーディオ指紋を生成し、さらに本開示のオーディオ指紋抽出方法によって取得されたオーディオ指紋に基づいて行われたオーディオ比較、オーディオ検索、オーディオ重複排除及びオーディオコンテンツ監視はより高い正確率、より高い効率、及びより優れたロバスト性を有するようにする。

以上、具体的な実施例を参照しながら本開示の基本原理を説明し、しかし、本開示で言及された利点、優勢、効果などは制限ではなく、単なる例であり、これらの利点、優勢、効果などは本開示の各実施例に必要であると考えられていないことに留意すべきである。また、上記開示の具体的な詳細は制限ではなく、例示と理解のためのものであり、上記詳細は、本開示が上記具体的な詳細によって実現しなければならないことを制限しない。

本開示で言及されたデバイス、装置、設備、システムのブロック図は、例示的な例に過ぎず、且つブロック図に示された方法に従って接続、レイアウト、配置しなければならないことを意図するものではない。当業者が理解されるように、任意の方法でこれらのデバイス、装置、設備、システムを接続、レイアウト、配置してもよい。「備える」、「含む」、「有する」などの用語は、オープン言葉であり、「を含むが、これらに制限されない」を意味し、且つ交換可能に使用できる。本明細書で使用された言葉「又は」と「及び」とは、言葉「及び／又は」を意味し、且つ文脈からそうでないことが明確に示されていない限り、交換可能に使用できる。本明細書で使用された言葉「例えば」とはフレーズ「例えば、であるが、これらに制限されない」を意味し、且つ交換可能に使用できる。

また、本明細書で使用される場合、「のうちの少なくとも１つ」が前置される項目リスト内で使用される「又は」は、例えば、「Ａ、Ｂ、又はＣのうちの少なくとも１つ」のリストが、Ａ又はＢ又はＣ、又はＡＢ又はＡＣ又はＢＣ、又はＡＢＣ（即ち、Ａ及びＢ及びＣ）を意味するような離接的リストを示す。さらに、「例示的な」という用語は、説明される例が好ましい又は他の例よりも好ましいことを意味しない。

また、本開示のシステム及び方法において、各部材又は各ステップが分解及び／又は再結合され得ることに留意されたい。これらの分解及び／又は再結合は本開示の等価手段と見なされるべきである。

本明細書に記載の技術への様々な変化、置換、及び変更を、添付の特許請求の範囲によって規定される教示の技術から逸脱せずに行うことができる。さらに、本開示の特許請求の範囲の範囲は、上述される処理、機器、製造、イベントの構成、手段、方法、及び動作の特定の態様に限定されない。本明細書に記載の対応する態様とほぼ同じ機能を実行するか、又はほぼ同じ結果を達成する、現在に存在するか、又は後に開発される処理、機器、製造、イベントの構成、手段、方法又は動作を利用することができる。従って、添付の特許請求は、その範囲内でのそのような処理、機器、製造、イベントの構成、手段、方法又は動作を含む。

開示された態様の以上の記載は、当業者の誰でも本開示を作製するか、又は使用することを可能にするために提供される。これらの態様への様々な変更は、当業者にとって非常に明らかであり、且つ本明細書に定義される一般的な原理は、本開示の範囲を逸脱することなくその他の態様にも適用され得る。よって、本開示は、本明細書に記載される態様に限定されるものではなく、本明細書に開示される原理及び新規の特徴と一貫した最も幅広い範囲に従う。

例示及び説明のために、以上の説明を示した。さらに、この説明は、本開示の実施例を本明細書で開示された形態に限定することを意図するものではない。複数の例示的な態様及び実施例が以上で検討されたが、当業者は、ある変形、修正、変更、追加、及びサブコンビネーションを認識する。

100 オーディオ指紋抽出装置
101 スペクトログラム変換モジュール
102 特徴点決定モジュール
103 マスク決定モジュール
104 平均エネルギー決定モジュール
105 オーディオ指紋ビット決定モジュール
106 強いと弱い重みビット決定モジュール
107 オーディオ指紋決定モジュール
200 オーディオ指紋データベース構築装置
201 オーディオ指紋抽出モジュール
202 オーディオ指紋記憶モジュール
203 オーディオ指紋データベース
300 オーディオ指紋抽出ハードウェア装置
301 メモリ
302 プロセッサ
400 コンピュータ読み取り可能な記憶媒体
401 非一時的なコンピュータ可読命令
1110 無線通信ユニット
1120 Ａ／Ｖ入力ユニット
1130 ユーザ入力ユニット
1140 検知ユニット
1150 出力ユニット
1160 メモリ
1170 インターフェースユニット
1180 コントローラ
1190 電源ユニット

Claims

オーディオ指紋抽出方法であって、前記方法は、
オーディオ信号をスペクトログラムに変換すること、
スペクトログラムにおける特徴点を決定すること、
前記スペクトログラムにおいて、前記特徴点のために１つ又は複数のマスクを決定し、各前記マスクが複数のスペクトル領域を含むこと、
各スペクトル領域の平均エネルギーを決定すること、
前記マスクにおける前記複数のスペクトル領域の平均エネルギーに基づいて、オーディオ指紋ビットを決定すること、
強いと弱い重みビットを決定するように、前記オーディオ指紋ビットの信頼性を判断すること、及び
前記オーディオ指紋ビットと前記強いと弱い重みビットを組み合わせて、オーディオ指紋を取得することを含むオーディオ指紋抽出方法。
前記の前記オーディオ信号をスペクトログラムに変換することは、高速フーリエ変換によって前記オーディオ信号を時間−周波数の二次元スペクトログラムに変換することを含み、前記スペクトログラムにおける各点の値は前記オーディオ信号のエネルギーを表す請求項１に記載のオーディオ指紋抽出方法。
前記のオーディオ信号をスペクトログラムに変換することは、前記スペクトログラムに対してメル変化を行うことをさらに含む請求項２に記載のオーディオ指紋抽出方法。
前記のオーディオ信号をスペクトログラムに変換することは、前記スペクトログラムに対して人間の聴覚システムのフィルタリングを行うことをさらに含む請求項２に記載のオーディオ指紋抽出方法。
前記特徴点は前記スペクトログラムにおける固定点である請求項２に記載のオーディオ指紋抽出方法。
前記特徴点は周波数値が予め設定された複数の周波数設定値に等しい点である請求項５に記載のオーディオ指紋抽出方法。
前記特徴点は前記スペクトログラムにおけるエネルギーの最大値点であり、又は、前記特徴点は前記スペクトログラムにおけるエネルギーの最小値点である請求項２に記載のオーディオ指紋抽出方法。
前記マスクに含まれる複数の前記スペクトル領域は対称的に分布する請求項１に記載のオーディオ指紋抽出方法。
前記マスクに含まれる複数の前記スペクトル領域は、同じ周波数範囲を有し、及び／又は同じ時間範囲を有し、及び／又は前記特徴点を中心として中心に対称的に分布する請求項８に記載のオーディオ指紋抽出方法。
前記スペクトル領域の平均エネルギーは前記スペクトル領域に含まれるすべての点のエネルギー値の平均値である請求項１に記載のオーディオ指紋抽出方法。
前記の前記マスクにおける複数のスペクトル領域の平均エネルギーに基づいて、オーディオ指紋ビットを決定することは、
１つの前記マスクに含まれる複数の前記スペクトル領域の平均エネルギーの差に基づいて１つのオーディオ指紋ビットを決定することを含む請求項１に記載のオーディオ指紋抽出方法。
前記の強いと弱い重みビットを決定するように、前記オーディオ指紋ビットの信頼性を判断することは、
前記差の絶対値が予め設定された弱いビット強いと弱いビット閾値弱いビットに達する又は超えるかどうかを判断し、前記弱いビット強いと弱いビット閾値に達した又は超えた場合、前記オーディオ指紋ビットを強いビットとして決定し、そうでなければ、前記オーディオ指紋ビットを弱いビットとして決定し、前記オーディオ指紋ビットが強いビットであるか弱いビットであるかに基づいて前記強いと弱い重みビットを決定することを含む請求項１１に記載のオーディオ指紋抽出方法。
前記弱いビット強いと弱いビット閾値は、固定値、又は前記差に基づく値、又は比例値である請求項１２に記載のオーディオ指紋抽出方法。
前記方法は、
オーディオ信号を時間で複数のオーディオサブ信号に分割すること、
前記オーディオサブ信号の前記オーディオ指紋を抽出すること、及び
抽出して取得した各前記オーディオサブ信号の前記オーディオ指紋を組み合わせて、前記オーディオ信号のオーディオ指紋を取得すること、
をさらに含む請求項１に記載のオーディオ指紋抽出方法。
オーディオ指紋データベース構築方法であって、前記方法は、
請求項１〜１４のいずれか１項に記載のオーディオ指紋抽出方法に基づいてオーディオ信号のオーディオ指紋を抽出すること、及び
前記オーディオ指紋をオーディオ指紋データベースに記憶すること、
を含むオーディオ指紋データベース構築方法。
オーディオ指紋抽出装置であって、前記装置は、
オーディオ信号をスペクトログラムに変換するためのスペクトログラム変換モジュールと、
スペクトログラムにおける特徴点を決定するための特徴点決定モジュールと、
前記スペクトログラムにおいて、前記特徴点のために１つ又は複数のマスクを決定するために用いられ、各前記マスクが複数のスペクトル領域を含むマスク決定モジュールと、
各前記スペクトル領域の平均エネルギーを決定するための平均エネルギー決定モジュールと、
前記マスクにおける前記複数のスペクトル領域の平均エネルギーに基づいて、オーディオ指紋ビットを決定するためのオーディオ指紋ビット決定モジュールと、
強いと弱い重みビットを決定するように、前記オーディオ指紋ビットの信頼性を判断するための強いと弱い重みビット決定モジュールと、
前記オーディオ指紋ビットと前記強いと弱い重みビットを組み合わせて、オーディオ指紋を取得するためのオーディオ指紋決定モジュールと、を備えるオーディオ指紋抽出装置。
前記装置は、請求項２〜１４のいずれか１項に記載のステップを行うモジュールをさらに備える請求項１６に記載のオーディオ指紋抽出装置。
オーディオ指紋データベース構築装置であって、前記装置は、
請求項１〜１４のいずれか１項に記載のオーディオ指紋抽出方法に基づいてオーディオ信号のオーディオ指紋を抽出するためのオーディオ指紋抽出モジュールと、
前記オーディオ指紋をオーディオ指紋データベースに記憶するためのオーディオ指紋記憶モジュールと、
前記オーディオ指紋を記憶するためのオーディオ指紋データベースと、を備えるオーディオ指紋データベース構築装置。
オーディオ指紋抽出ハードウェア装置であって、
非一時的なコンピュータ可読命令を記憶するためのメモリと、
実行時に請求項１〜１４のいずれか１項に記載のオーディオ指紋抽出方法を実現するように、前記コンピュータ可読命令を実行するためのプロセッサと、を備えるオーディオ指紋抽出ハードウェア装置。
非一時的なコンピュータ可読命令を記憶するためのコンピュータ読み取り可能な記憶媒体であって、前記非一時的なコンピュータ可読命令がコンピュータにより実行される場合、前記コンピュータは請求項１〜１４のいずれか１項に記載のオーディオ指紋抽出方法を実行するようにするコンピュータ読み取り可能な記憶媒体。
端末機器であって、請求項１６又は１７に記載のオーディオ指紋抽出装置を備える端末機器。