JP2020527255A - オーディオ指紋抽出方法及び装置 - Google Patents

オーディオ指紋抽出方法及び装置 Download PDF

Info

Publication number
JP2020527255A
JP2020527255A JP2020502951A JP2020502951A JP2020527255A JP 2020527255 A JP2020527255 A JP 2020527255A JP 2020502951 A JP2020502951 A JP 2020502951A JP 2020502951 A JP2020502951 A JP 2020502951A JP 2020527255 A JP2020527255 A JP 2020527255A
Authority
JP
Japan
Prior art keywords
audio fingerprint
audio
bit
spectrogram
weak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020502951A
Other languages
English (en)
Other versions
JP6908774B2 (ja
Inventor
根 李
根 李
磊 李
磊 李
▲軼▼ 何
▲軼▼ 何
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Publication of JP2020527255A publication Critical patent/JP2020527255A/ja
Application granted granted Critical
Publication of JP6908774B2 publication Critical patent/JP6908774B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Abstract

本開示は、オーディオ指紋抽出方法及び装置に関し、この方法は、オーディオ信号をスペクトログラムに変換すること、スペクトログラムにおける特徴点を決定すること、前記スペクトログラムにおいて、前記特徴点のために1つ又は複数のマスクを決定し、各前記マスクが複数のスペクトル領域を含むこと、各スペクトル領域の平均エネルギーを決定すること、前記マスクにおける前記複数のスペクトル領域の平均エネルギーに基づいて、オーディオ指紋ビットを決定すること、強いと弱い重みビットを決定するように、前記オーディオ指紋ビットの信頼性を判断すること、及び前記オーディオ指紋ビットと前記強いと弱い重みビットを組み合わせて、オーディオ指紋を取得すること、を含む。

Description

関連出願の相互引用
本出願は、出願番号が201810273669.6で、出願日が2018年3月29日である中国特許出願の優先権を主張し、この文献の全内容は引用によって本明細書に組み込まれた。
本開示は、オーディオ処理技術分野に関し、特にオーディオ指紋抽出方法及び装置に関する。
オーディオ指紋(又はオーディオ特徴)及びオーディオ指紋検索は、今日の「マルチメディア情報社会」で幅広く適用されている。オーディオ指紋検索は、最初に歌を聴いて歌を認識することに適用され、即ち、オーディオの一部を入力し、この部分のオーディオの指紋特徴を抽出及び比較することによって、対応した歌を認識することができる。また、オーディオ指紋検索は、オーディオ重複排除、検索に基づく音声広告監視、オーディオ版権などのコンテンツ監視に適用することもできる。
従来のオーディオ指紋検索方法には、精度が悪い問題があり、ある程度でこれは抽出されたオーディオ指紋の精度が悪いためである。従来のオーディオ指紋抽出方法には、ノイズに対するロバスト性が悪く、処理が複雑であるなどの問題がある。
本開示は、新しいオーディオ指紋抽出方法及び装置を提供することを目的とする。
本開示は、以下の技術によってその目的を実現する。
オーディオ指紋抽出方法であって、前記方法は、
オーディオ信号をスペクトログラムに変換すること、
スペクトログラムにおける特徴点を決定すること、
前記スペクトログラムにおいて、前記特徴点のために1つ又は複数のマスクを決定し、各前記マスクが複数のスペクトル領域を含むこと、
各スペクトル領域の平均エネルギーを決定すること、
前記マスクにおける前記複数のスペクトル領域の平均エネルギーに基づいて、オーディオ指紋ビットを決定すること、
強いと弱い重みビットを決定するように、前記オーディオ指紋ビットの信頼性を判断すること、及び
前記オーディオ指紋ビットと前記強いと弱い重みビットを組み合わせて、オーディオ指紋を取得することを含むオーディオ指紋抽出方法。
本開示は、以下の技術によってその目的を実現する。
前記の前記オーディオ信号をスペクトログラムに変換することは、高速フーリエ変換によって前記オーディオ信号を時間−周波数の二次元スペクトログラムに変換することを含み、前記スペクトログラムにおける各点の値は前記オーディオ信号のエネルギーを表す前述したオーディオ指紋抽出方法。
前記のオーディオ信号をスペクトログラムに変換することは、前記スペクトログラムに対してメル変化を行うことをさらに含む前述したオーディオ指紋抽出方法。
前記のオーディオ信号をスペクトログラムに変換することは、前記スペクトログラムに対して人間の聴覚システムのフィルタリングを行うことをさらに含む前述したオーディオ指紋抽出方法。
前記特徴点は前記スペクトログラムにおける固定点である前述したオーディオ指紋抽出方法。
前記特徴点は周波数値が予め設定された複数の周波数設定値に等しい点である前述したオーディオ指紋抽出方法。
前記特徴点は前記スペクトログラムにおけるエネルギーの最大値点であり、又は、前記特徴点は前記スペクトログラムにおけるエネルギーの最小値点である前述したオーディオ指紋抽出方法。
前記マスクに含まれる複数の前記スペクトル領域は対称的に分布する前述したオーディオ指紋抽出方法。
前記マスクに含まれる複数の前記スペクトル領域は、同じ周波数範囲を有し、及び/又は同じ時間範囲を有し、及び/又は前記特徴点を中心として中心に対称的に分布する前述したオーディオ指紋抽出方法。
前記スペクトル領域の平均エネルギーは前記スペクトル領域に含まれるすべての点のエネルギー値の平均値である前述したオーディオ指紋抽出方法。
前記の前記マスクにおける複数のスペクトル領域の平均エネルギーに基づいて、オーディオ指紋ビットを決定することは、
1つの前記マスクに含まれる複数の前記スペクトル領域の平均エネルギーの差に基づいて1つのオーディオ指紋ビットを決定することを含む前述したオーディオ指紋抽出方法。
前記の強いと弱い重みビットを決定するように、前記オーディオ指紋ビットの信頼性を判断することは、
前記差の絶対値が予め設定された弱いビット強いと弱いビット閾値弱いビットに達する又は超えるかどうかを判断し、前記弱いビット強いと弱いビット閾値に達した又は超えた場合、前記オーディオ指紋ビットを強いビットとして決定し、そうでなければ、前記オーディオ指紋ビットを弱いビットとして決定し、前記オーディオ指紋ビットが強いビットであるか弱いビットであるかに基づいて前記強いと弱い重みビットを決定することを含む前述したオーディオ指紋抽出方法。
前記弱いビット強いと弱いビット閾値は、固定値、又は前記差に基づく値、又は比例値である前述したオーディオ指紋抽出方法。
前記方法は、
オーディオ信号を時間で複数のオーディオサブ信号に分割すること、
前記オーディオサブ信号の前記オーディオ指紋を抽出すること、及び
抽出して取得した各前記オーディオサブ信号の前記オーディオ指紋を組み合わせて、前記オーディオ信号のオーディオ指紋を取得すること、
をさらに含む前述したオーディオ指紋抽出方法。
本開示は、さらに以下の技術によって、その目的を実現する。
オーディオ指紋データベース構築方法であって、前記方法は、
前述したいずれかのオーディオ指紋抽出方法に基づいてオーディオ信号のオーディオ指紋を抽出すること、及び
前記オーディオ指紋をオーディオ指紋データベースに記憶すること、
を含む本開示に係るオーディオ指紋データベース構築方法。
本開示は、さらに以下の技術によって、その目的を実現する。
オーディオ指紋抽出装置であって、前記装置は、
オーディオ信号をスペクトログラムに変換するためのスペクトログラム変換モジュールと、
スペクトログラムにおける特徴点を決定するための特徴点決定モジュールと、
前記スペクトログラムにおいて、前記特徴点のために1つ又は複数のマスクを決定するために用いられ、各前記マスクが複数のスペクトル領域を含むマスク決定モジュールと、
各前記スペクトル領域の平均エネルギーを決定するための平均エネルギー決定モジュールと、
前記マスクにおける前記複数のスペクトル領域の平均エネルギーに基づいて、オーディオ指紋ビットを決定するためのオーディオ指紋ビット決定モジュールと、
強いと弱い重みビットを決定するように、前記オーディオ指紋ビットの信頼性を判断するための強いと弱い重みビット決定モジュールと、
前記オーディオ指紋ビットと前記強いと弱い重みビットを組み合わせて、オーディオ指紋を取得するためのオーディオ指紋決定モジュールと、を備える本開示に係るオーディオ指紋抽出装置。
本開示は、さらに以下の技術によって、その目的をさらに実現する。
前記装置は、前述したいずれかのステップを行うモジュールをさらに備える前述したオーディオ指紋抽出装置。
本開示は、さらに以下の技術によって、その目的を実現する。
オーディオ指紋データベース構築装置であって、前記装置は、
前述したいずれかのオーディオ指紋抽出方法に基づいてオーディオ信号のオーディオ指紋を抽出するためのオーディオ指紋抽出モジュールと、
前記オーディオ指紋をオーディオ指紋データベースに記憶するためのオーディオ指紋記憶モジュールと、
前記オーディオ指紋を記憶するためのオーディオ指紋データベースと、を備える本開示に係るオーディオ指紋データベース構築装置。
本開示は、さらに以下の技術によって、その目的を実現する。
オーディオ指紋抽出ハードウェア装置であって、
非一時的なコンピュータ可読命令を記憶するためのメモリと、
実行時に前記いずれかのオーディオ指紋抽出方法を実現するように、前記コンピュータ可読命令を実行するためのプロセッサと、を備える本開示に係るオーディオ指紋抽出ハードウェア装置。
本開示は、さらに以下の技術によって、その目的を実現する。
非一時的なコンピュータ可読命令を記憶するためのコンピュータ読み取り可能な記憶媒体であって、前記非一時的なコンピュータ可読命令がコンピュータにより実行される場合、前記コンピュータは前記したいずれかのオーディオ指紋抽出方法を実行するようにする本開示に係るコンピュータ読み取り可能な記憶媒体。
本開示は、さらに以下の技術によって、その目的を実現する。
端末機器であって、前記したいずれかのオーディオ指紋抽出装置を備える本開示に係る端末機器。
上記の説明は、本開示の技術案の概要に過ぎず、本開示の技術的手段をより明確に理解するために、明細書の内容にしたがって実施することができ、且つ本開示の上記、他の目的、特徴、及び利点をより明らかにするために、以下、特に好適な実施例を挙げて、図面を参照しながら以下のように詳細に説明する。
本開示の一実施例によるオーディオ指紋抽出方法の概略フローチャートである。 本開示の一実施例によるオーディオ指紋データベース構築方法の概略フローチャートである。 本開示の一実施例によるオーディオ指紋抽出装置の構造ブロック図である。 本開示の一実施例によるオーディオ指紋データベース構築装置の構造ブロック図である。 本開示の一実施例によるオーディオ指紋抽出ハードウェア装置のハードウェアブロック図である。 本開示の一実施例によるコンピュータ読み取り可能な記憶媒体の模式図である。 本開示の一実施例による端末機器の構造ブロック図である。
本開示が所期の発明の目的を達成するために採用された技術的手段及び効果をさらに説明するために、本開示にしたがって提案したオーディオ指紋抽出方法及び装置の具体的な実施形態、構造、特徴及びその効果を詳細に後述する。
図1は、本開示のオーディオ指紋抽出方法の1つの実施例の概略フローチャートである。図1を参照し、本開示の例のオーディオ指紋抽出方法は、主に以下のステップを含む。
ステップS11、オーディオ信号をスペクトログラム(Spectrogram)に変換する。具体的には、高速フーリエ変換(Fast Fourier Transformation)によってオーディオ信号を時間−周波数スペクトログラムに変換する。スペクトログラムは、一般的に使用されるオーディオ信号の二次元スペクトルマップであり、横軸は時間tで、縦軸は周波数fであり、図の各点(t,f)の具体的な値E(t,f)は、信号のエネルギーを示す。なお、オーディオ信号の具体的なタイプは限定されず、静的ファイル(static file)であってもよいし、ストリーミングオーディオ(streaming audio)であってもよい。次に、処理はステップS12に進む。
本開示の実施例において、メル(MEL)変換を利用してスペクトログラムを前処理することができ、メル変換を利用することによってスペクトルを複数の周波数ビン(周波数bin)に分割することができ、分割された周波数ビンの数は設定可能である。また、スペクトログラムに対して人間の聴覚システムのフィルタリング(Human Auditory System filtering)を行うこともでき、人間の聴覚システムのフィルタリングなどの非線形変換を利用することによって、スペクトログラムにおけるスペクトル分布を人間の耳の知覚により適したものにすることができる。
なお、高速フーリエ変換における各ハイパーパラメータを調整することによって異なる実際の状況に適応することができる。本開示の実施例において、ステップS11における各ハイパーパラメータは、高速フーリエ変換において、時間ウィンドウを100msとし、間隔を50msとし、メル変換において、周波数ビンの数を32〜128とするように設定されてもよい。
ステップS12、スペクトログラムにおける特徴点を決定する。
具体的には、複数の標準の1つを採用して特徴点を決定し、例えば、特徴点を、スペクトログラムにおけるエネルギーの最大値点として選択してもよいし、エネルギーの最小値点として選択してもよい。スペクトログラムにおける1つの点(t,f)のエネルギーE(t,f)が、E(t,f)>E(t+1,f)、E(t,f)>E(t−1,f)、E(t,f)>E(t,f+1) 且つ E(t,f)>E(t,f−1)を同時に満たすことができる場合、この(t,f)点は、スペクトログラムにおけるエネルギーの最大値点である。同様に、1つの点(t,f)のエネルギーE(t,f)が、E(t,f)<E(t+1,f)、E(t,f)<E(t−1,f)、E(t,f)<E(t,f+1) 且つ E(t,f)<E(t,f−1)を同時に満たすことができる場合、この(t,f)点は、スペクトログラムにおけるエネルギーの最小値点である。次に、処理は、ステップS12に進む。
本開示の実施例において、エネルギーの極値点を特徴点として選択するため、エネルギーの極値点がノイズの影響を受けやすく、極値点の数を制御しにくく、1つのスペクトログラムにおいて極値点がなく、別のスペクトログラムにおいて複数の極値点があり、特徴点が不均一になる場合があり、スペクトログラムにおけるエネルギーの極値点の位置を記録するように、追加のタイムスタンプを記憶する必要があるなどの問題が存在する。そのため、エネルギーの極値点を特徴点として選択せず、固定点を特徴点として選択してもよく、例えば、周波数値が予め設定された周波数設定値に等しい点(周波数固定点)を選択することができる。さらには、周波数の大きさにしたがって低周波数、中間周波数、高周波数の複数の周波数設定値(低周波数、中間周波数、高周波数の具体的な値は設定可能である)を予め設定することができる。周波数が低周波数、中間周波数、高周波数である複数の固定点を特徴点として選択することによって、選択された特徴点をより均一にすることができる。なお、他の標準に準拠して固定点を選択してもよく、例えば、1つ又は複数の予め設定されたエネルギー値が同様である点を選択する。
なお、選択された特徴点の数を調整することによって異なる実際の状況に適応することができる。本開示の実施例において、ステップS12におけるハイパーパラメータは、特徴点の密度を20〜80個/秒とするように設定されてもよい。
ステップS13、スペクトログラムにおいて、特徴点の付近で、特徴点のために1つ又は複数のマスク(mask)を決定し、各マスクは、複数のスペクトログラム上の領域(スペクトル領域と呼ばれても構わない)を含む(又は、覆う)。次に、処理は、ステップS14に進む。
具体的には、スペクトログラムにおいて、各マスクに含まれた複数のスペクトル領域は対称的に分布してもよく、
時間軸で対称であり(即ち、複数のスペクトル領域は同じ周波数範囲を有する)、例えば、1つのメル−スペクトログラムにおいて、特徴点のためにR11及びR12という2つのスペクトル領域を含む1つのマスクを決定することができ、R11、R12はいずれも特徴点の左側に位置し、R11がR12の左側に位置し、且つR11とR12が同じ周波数ビンを覆い、
又は周波数軸で対称である(即ち、複数のスペクトル領域は同じ時間範囲を有する)。例えば、1つのメル−スペクトログラムにおいて、特徴点のためにR13及びR14という2つのスペクトル領域を含む1つのマスクを決定することができ、R13は特徴点の上側に位置し、R14は特徴点の下側に位置し、且つR13とR14が同じ時間範囲を有し、
又は特徴点を中心として中心対称的に分布し、例えば、1つのメル−スペクトログラムにおいて、特徴点のためにR15及びR16という2つのスペクトル領域を含む1つのマスクを決定することができ、R15は特徴点の左上側に位置し、R16は特徴点の右下側に位置し、且つR15とR16が特徴点を中心として互いに対称である。
当然ながら、1つのマスクに含まれた複数のスペクトル領域は、様々な対称分布状況を同時に満たすこともできる。例えば、特徴点のためにR21、R22、R23、及びR24という4つのスペクトル領域を含むマスクを決定してもよく、R21、R22、R23、R24は、それぞれ特徴点の左上、右上、左下、右下に位置し、且つR21とR22が同じ周波数範囲を有し、R23とR24が同じ周波数範囲を有し、R21とR23が同じ時間範囲を有し、R22とR24が同じ時間範囲を有し、且つこの4つのスペクトル領域はまた特徴点を中心として中心対称である。なお、1つのマスクの4つのスペクトル領域は、必ずしも特徴点を中心として、中心対称的に分布せず、例えば、いずれも特徴点の左側に位置し、且つ周波数軸に特徴点の両側に分布してもよい。
なお、同じマスクに属する複数のスペクトル領域間は互いに重複してもよい。また、異なるマスク間は互いに重複してもよい。選択可能に、各マスクは偶数個のスペクトル領域を含むことができる。
なお、マスクは固定の予め設定された標準に準拠して決定されてもよく、即ちスペクトログラムにおける各マスクの位置及び覆われる領域は予め設定された。又は、マスクの位置及び範囲を予め固定せず、データ駆動の方式でマスク領域を自動的に決定してもよく、多数のマスクから、共分散が最小で、最も差別的なマスクを選択する。
ステップS14、各スペクトル領域の平均エネルギーを決定する。具体的には、1つの点だけを含むスペクトル領域に対して、このスペクトル領域の平均エネルギーはこの点のエネルギー値であり、スペクトル領域が複数の点からなる場合、このスペクトル領域の平均エネルギーをこの複数の点のエネルギー値の平均値に設定することができる。次に、処理は、ステップS15に進む。
ステップS15、マスクにおける複数のスペクトル領域の平均エネルギーに基づいて、オーディオ指紋ビット(bit)を決定する。次に、処理は、ステップS16に進む。
本開示の実施例のステップS15において、1つのマスクに含まれたる複数のスペクトル領域の平均エネルギーの差に基づいて1つのオーディオ指紋ビットを決定してもよい。
具体的には、1つのマスクが2つのスペクトル領域を含む場合、例えばR11及びR12という2つのスペクトル領域を含む前述の例は、式1、D1=E(R11)−E(R12)(式1)に従ってR11、R12の平均エネルギーの差D1を計算することができ、
次に差D1の正負を判断し、差D1が正値である場合、値が1の1つのオーディオ指紋ビットを取得し、差D1が負値である場合、値が0の1つのオーディオ指紋ビットを取得する。
1つのマスクが4つのスペクトル領域を含む場合、例えばR21、R22、R23、R24という4つのスペクトル領域を含む前述の例は、式2、D2=(E(R21)+E(R22))−(E(R23)+E(R24))(式2)に従ってR21、R22、R23、R24の平均エネルギーの差D2を計算し、
次に差D2の正負を判断し、差D2が正値である場合、値が1の1つのオーディオ指紋ビットを取得し、差D2が負値である場合、値が0の1つのオーディオ指紋ビットを取得する。なお、必ずしも差D2によって4つのスペクトル領域を含む1つのマスクのオーディオ指紋ビットを決定せず、他の形式の差を利用してオーディオ指紋ビットを決定してもよい。例えば、この4つのスペクトル領域の平均エネルギーの二次差D3
D3=(E(R23)−E(R24))−(E(R21)−E(R22))、(式3)を計算してもよく、
次に差D1の正負を判断することによってオーディオ指紋ビットを決定する。
なお、特徴点のために複数のマスクを決定した場合、複数のオーディオ指紋ビットを対応的に取得することができる。
ステップS16、オーディオ指紋ビットに対応する強いと弱い重みビットを決定し、この強いと弱い強いと弱い重みビットは、このオーディオ指紋ビットの信頼性を示すために用いられる。具体的には、信頼性の高いオーディオ指紋ビットを強いビットとして定義し、信頼性の低いオーディオ指紋ビットを弱いビットとして定義することができる。1つのオーディオ指紋ビットの信頼性を判断し、このオーディオ指紋ビットが強いビットであるか弱いビットであるかに基づいて強いと弱い重みビットの値を決定する。次に、処理は、ステップS17に進む。
本開示の実施例において、オーディオ指紋ビットが1つのマスクに含まれた複数のスペクトル領域の平均エネルギーの差によって決定される場合、ステップS16は、具体的には、このオーディオ指紋ビットの生成に使用されるこの差の絶対値が予め設定された弱いビット強いと弱いビット閾値に達する(又は超える)かどうかを判断し、弱いビット強いと弱いビット閾値に達した場合、このオーディオ指紋ビットを強いビットとして決定し、このオーディオ指紋ビットに対応する値が1の1つの強いと弱い重みビットを取得し、弱いビット強いと弱いビット閾値に達しなかった場合、このオーディオ指紋ビットを弱いビットとして決定し、このオーディオ指紋ビットに対応した、値が0である1つの強いと弱い重みビットを取得することを含む。
1つの具体的な例として、1つのオーディオ指紋ビットが、前述の公式二の4つのスペクトル領域の平均エネルギーの差D2の正負を判断することによって決定された場合、ステップS16は、この差D2の絶対値と予め設定された弱いビット強いと弱いビット閾値Tとの大きさ関係を判断し、|D2|≧Tである場合、このオーディオ指紋ビットが強いビットであり、このオーディオ指紋ビットに対応する強いと弱い重みビット値を1に設定し、|D2|<Tである場合、このオーディオ指紋ビットが弱いビットであり、このオーディオ指紋ビットに対応する強いと弱い重みビット値を0に設定することを含む。なお、この弱いビット強いと弱いビット閾値は、様々なタイプの閾値であってもよく、この弱いビット強いと弱いビット閾値は、予め設定された固定値であってもよく、例えば1に固定でき、又は、この弱いビット強いと弱いビット閾値は、平均エネルギーの差に基づいて取得された数値であってもよく、例えばこの弱いビット強いと弱いビット閾値を、複数のマスク(又は複数の特徴点)に対応する複数の差の平均数(実際には、平均数に限定されず、最大の差と最小の差との間の任意の数値であってもよい)に設定し、且つ差がこの平均数に達するオーディオ指紋ビットを強いビットとして決定し、差がこの平均数に達しないオーディオ指紋ビットを弱いビットとして決定することができ、又は、この弱いビット強いと弱いビット閾値は、比例値であってもよく、例えばこの弱いビット強いと弱いビット閾値を60%に設定することができ、複数のマスク(又は複数の特徴点)に対応する複数の差において、1つの差の絶対値がすべての差における前の60%に位置する場合、このオーディオ指紋ビットを強いビットとして決定し、そうでなければ、このオーディオ指紋ビットを弱いビットとして決定する。
ステップS17、取得した複数のオーディオ指紋ビット及び複数の強いと弱い重みビットを組み合わせ、オーディオ指紋を取得する。具体的には、オーディオ指紋の組み合わせ方式、オーディオ指紋の長さを制限しない。例えば、1つのオーディオ指紋は、2つの部分を含むことができ、一部は、1つの特徴点のすべてのマスクに対応するオーディオ指紋ビットを組み合わせて取得したオーディオ指紋ビットシーケンスであり、次に複数の特徴点に対応する複数のオーディオ指紋ビットシーケンスを特徴点の時系列で配列してオーディオ指紋の第1部分を取得し、別の部分は、対応する強いと弱い重みビットを組み合わせて得られた、オーディオ指紋ビットシーケンスの長さに等しい強いと弱い重みビットシーケンスであり、次に複数の特徴点に対応する複数の強いと弱い重みビットシーケンスを特徴点の時系列で配列してオーディオ指紋の第2部分を取得する。選択可能に、取得したオーディオ指紋ビットシーケンスの長さは32bitsであってもよい。
本開示は、オーディオ指紋ビットを抽出すると共に、この指紋ビットに対応する強いと弱い重みビットを抽出することによって、一部のオーディオのために、精度が高く、ロバスト性に優れた1つのオーディオ指紋を生成することができる。
選択可能に、このオーディオ指紋抽出方法は、オーディオ指紋のために、オーディオ開始位置とこの特徴点との時間差を示すための1つのタイムスタンプフィールドを追加することをさらに含み、このフィールドは1つのhash値であってもよい。特徴点を固定点として設定する場合、このステップを含む必要がなく、即ちこのタイムスタンプを記録する必要がない。
選択可能に、このオーディオ指紋抽出方法は、このオーディオ指紋に対応するオーディオ信号のID認識情報を記録するように、オーディオ指紋のために、1つのオーディオ信号認識フィールドを追加することをさらに含み、このフィールドは1つのhash値であってもよい。
選択可能に、このオーディオ指紋抽出方法は、オーディオ信号を時間で複数のオーディオサブ信号に分割すること、前述の方法のステップに基づいて、各部分のオーディオサブ信号に対してオーディオ指紋を抽出し、複数のオーディオ指紋を取得すること、及び抽出した各部分のオーディオサブ信号の各特徴点のオーディオ指紋を組み合わせて、このオーディオ信号全体のオーディオ指紋を取得することをさらに含む。
1つの選択可能な例として、本開示が抽出したオーディオ指紋を利用してオーディオ検索、オーディオ認識を行う過程において、2つのオーディオ指紋間の距離(例えばハミング距離)を計算する時に、各オーディオ指紋ビットに対して、対応する強いと弱い重みビットを利用して重み付け、強いビットの重みが高く、弱いビットの重みが低く(弱いビットの重みをゼロに設定してもよい)、それにより、弱いビットが占める重みを弱めたり削除したりして、オーディオ検索はノイズに対してよりロバストであり、ノイズのビット誤り率の問題を効果的に解決する。
その中のハミング距離は、情報理論分野で一般的に使用される尺度であり、2つの等距離文字列間のハミング距離は2つの文字列に対応する位置の異なる文字の数である。実際にハミング距離を計算する時に、2つの文字列に対して排他的論理和演算を行うことができ、結果が1である数を統計し、この数はハミング距離である。
図2は、本開示のオーディオ指紋データベース構築方法の1つの実施例の概略フローチャートである。図2を参照し、本開示の例のオーディオ指紋データベース構築方法は、主に以下のステップを含む。
ステップS21、前述の本開示の例のオーディオ指紋抽出方法のステップに基づいてオーディオ信号のオーディオ指紋を抽出する。次に、処理は、ステップS22に進む。
ステップS22、取得したオーディオ信号のオーディオ指紋をオーディオ指紋データベースに記憶する。
なお、上記のオーディオ信号の数が多いほど、このオーディオ指紋データベースに記憶される情報が豊富になる。また、時間が経つにつれて、オーディオ指紋データベースをいつでも更新することができる。
図3は、本開示のオーディオ指紋抽出装置の1つの実施例の概略構造図である。図3を参照し、本開示の例のオーディオ指紋抽出装置100は、主に、スペクトログラム変換モジュール101、特徴点決定モジュール102、マスク決定モジュール103、平均エネルギー決定モジュール104、オーディオ指紋ビット決定モジュール105、強いと弱い重みビット決定モジュール106、及びオーディオ指紋決定モジュール107を備える。
このスペクトログラム変換モジュール101は、オーディオ信号をスペクトログラム(Spectrogram)に変換するために用いられる。具体的には、スペクトログラム変換モジュール101は、高速フーリエ変換(Fast Fourier Transformation)によってオーディオ信号を時間−周波数スペクトログラムに変換することに使用できる。
本開示の実施例において、スペクトログラム変換モジュール101は、メル(MEL)変換を利用してスペクトログラムを前処理するためのメル変換サブモジュールを含んでもよく、メル変換を利用することによってスペクトルを複数の周波数ビン(bin)に分割することができ、分割された周波数ビンの数は設定可能である。また、スペクトログラム変換モジュール101は、スペクトログラムに対して人間の聴覚システムのフィルタリング(Human Auditory System filtering)を行うための人間の聴覚システムのフィルタリングサブモジュールを含んでもよく、人間の聴覚システムのフィルタリングなどの非線形変換を利用することによって、スペクトログラムにおけるスペクトル分布を人間の耳の感知により適したものにすることができる。
この特徴点決定モジュール102は、スペクトログラムにおける特徴点を決定するために用いられる。
具体的には、この特徴点決定モジュール102は、複数の標準の1つを採用して特徴点を決定することに使用でき、例えば、特徴点をスペクトログラムにおけるエネルギーの最大値点として選択してもよいし、又はエネルギーの最小値点として選択してもよい。
本開示の実施例において、この特徴点決定モジュール102は、エネルギーの極値点を特徴点として選択せず、固定点を特徴点として選択するために用いられ、例えば、周波数値が予め設定された周波数設定値に等しい点(周波数固定点)を選択することができる。さらには、この特徴点決定モジュール102は、周波数の大きさに基づいてそれぞれ低周波数、中間周波数、高周波数の複数の周波数設定値(低周波数、中間周波数、高周波数の具体的な値は設定可能である)を選択することに使用できる。
このマスク決定モジュール103は、スペクトログラムにおいて、特徴点の付近で、特徴点のために1つ又は複数のマスク(mask)を決定するために用いられ、各マスクは、複数のスペクトル領域を含む。具体的には、スペクトログラムにおいて、各マスクに含まれる複数のスペクトル領域は対称的に分布してもよい。
この平均エネルギー決定モジュール104は、各スペクトル領域の平均エネルギーをそれぞれ決定するために用いられる。
このオーディオ指紋ビット決定モジュール105は、1つのマスクにおける複数のスペクトル領域の平均エネルギーに基づいて、1つのオーディオ指紋ビットを決定するために用いられる。
本開示の実施例において、このオーディオ指紋ビット決定モジュール105は、具体的には、1つのマスクに含まれた複数のスペクトル領域の平均エネルギーの差に基づいて1つのオーディオ指紋ビットを決定することに使用できる。
この強いと弱い重みビット決定モジュール106は、各オーディオ指紋ビットに対応する強いと弱い重みビットを決定するように、オーディオ指紋ビットの信頼性を判断するために用いられる。
本開示の実施例において、オーディオ指紋ビットが1つのマスクに含まれた複数のスペクトル領域の平均エネルギーの差によって決定される場合、この強いと弱い重みビット決定モジュール106は、具体的には、このオーディオ指紋ビットの生成に使用されるこの差の絶対値が予め設定された弱いビット強いと弱いビット閾値に達する(又は超える)かどうかを判断し、弱いビット強いと弱いビット閾値に達した場合、このオーディオ指紋ビットを強いビットとして決定し、値が1の1つの強いと弱い重みビットを取得し、弱いビット強いと弱いビット閾値に達しなかった場合、このオーディオ指紋ビットを弱いビットとして決定し、値が0の1つの強いと弱い重みビットを取得するために用いられる。
このオーディオ指紋決定モジュール107は、取得した複数のオーディオ指紋ビット及び複数の強いと弱い重みビットを組み合わせ、オーディオ指紋を取得するために用いられる。
あるいは、このオーディオ指紋抽出装置100は、オーディオ指紋のために、オーディオ開始位置とこの特徴点との時間差を示すための1つのタイムスタンプフィールドを追加するためのタイムスタンプ追加モジュール(図示せず)をさらに備え、このフィールドは1つのhash値であってもよい。特徴点を固定点として設定する場合、このタイムスタンプ追加モジュールを備える必要がない。
あるいは、このオーディオ指紋抽出装置100は、このオーディオ指紋に対応するオーディオ信号のID認識情報を記録するように、オーディオ指紋のために、1つのオーディオ信号認識フィールドを追加するためのオーディオ信号認識追加モジュール(図示せず)をさらに備える。
あるいは、このオーディオ指紋抽出装置100は、オーディオ分割モジュール(図示せず)及びオーディオ指紋組み合わせモジュール(図示せず)をさらに備える。このオーディオ分割モジュールは、オーディオ信号を時間で複数のオーディオサブ信号に分割するために用いられる。複数のオーディオ指紋を取得するように、オーディオ指紋抽出装置に含まれるモジュールを利用し、各部分のオーディオサブ信号に対してオーディオ指紋を抽出する。オーディオ指紋組み合わせモジュールは、抽出した各部分のオーディオサブ信号の各特徴点のオーディオ指紋を組み合わせて、このオーディオ信号全体のオーディオ指紋を取得するために用いられる。
図4は、本開示のオーディオ指紋データベース構築装置の1つの実施例の概略構造図である。図4を参照し、本開示の例のオーディオ指紋データベース構築装置200は、主に、
前述の本開示の例のオーディオ指紋抽出装置100のスペクトログラム変換モジュール101、特徴点決定モジュール102、マスク決定モジュール103、平均エネルギー決定モジュール104、オーディオ指紋ビット決定モジュール105、強いと弱い重みビット決定モジュール106、及びオーディオ指紋決定モジュール107を含み、前述の本開示の例のオーディオ指紋抽出方法のステップに基づいてオーディオ信号のオーディオ指紋を抽出するためのオーディオ指紋抽出モジュール201と、
オーディオ指紋抽出モジュール201により取得されたオーディオ信号のオーディオ指紋をオーディオ指紋データベース203に記憶するためのオーディオ指紋記憶モジュール202と、
各オーディオ信号のオーディオ指紋を記憶するためのオーディオ指紋データベース203と、を備える。
図5は、本開示の実施例によるオーディオ指紋抽出ハードウェア装置を示すハードウェアブロック図である。図5に示すように、本開示の実施例によるオーディオ指紋抽出ハードウェア装置300は、メモリ301及びプロセッサ302を備える。オーディオ指紋抽出ハードウェア装置300における各コンポーネントは、バスシステム及び/又は他の形式の接続機構(図示せず)によって互いに接続される。
このメモリ301は、非一時的なコンピュータ可読命令を記憶するために用いられる。具体的には、メモリ301は、1つ又は複数のコンピュータプログラム製品を含んでもよく、このコンピュータプログラム製品は、様々な形式のコンピュータ読み取り可能な記憶媒体、例えば揮発性メモリ及び/又は不揮発性メモリを含んでもよい。この揮発性メモリは、例えば、ランダムアクセスメモリ(RAM)及び/又はキャッシュメモリ(cache)などを含んでもよい。この不揮発性メモリは、例えば、読み出し専用メモリ(ROM)、ハードディスク、フラッシュメモリなどを含んでもよい。
このプロセッサ302は、中央処理ユニット(CPU)又はデータ処理能力及び/又は命令実行能力を有する他の形式の処理ユニットであってもよく、且つ所望の機能を実行するように、オーディオ指紋抽出ハードウェア装置300におけるその他のコンポーネントを制御することができる。本開示の1つの実施例において、このプロセッサ302は、このメモリ301に記憶されたこのコンピュータ可読命令を実行するために用いられ、このオーディオ指紋抽出ハードウェア装置300は前述の本開示の各実施例のオーディオ指紋抽出方法のステップの全部又は一部を実行するようにする。
図6は、本開示の実施例によるコンピュータ読み取り可能な記憶媒体を示す模式図である。図6に示すように、本開示の実施例によるコンピュータ読み取り可能な記憶媒体400は、非一時的なコンピュータ可読命令401が記憶される。この非一時的なコンピュータ可読命令401がプロセッサにより実行された場合、前述の本開示の各実施例のオーディオ指紋抽出方法のステップの全部又は一部を実行する。
図7は、本開示の実施例による端末機器のハードウェア構造を示す模式図である。端末機器は様々な形で実施されてもよく、本開示における端末機器は、携帯電話、スマートフォン、ノートパソコン、デジタル放送受信機、PDA(パーソナルデジタルアシスタント)、PAD(タブレットパソコン)、PMP(ポータブルマルチメディアプレーヤー)、ナビゲーション装置、車載端末機器、車載表示端末、車載電子バックミラーなどの移動端末機器、及びデジタルTV、デスクトップパソコンなどの固定端末機器を含むことができるが、これらに限定されるものではない。
図7に示すように、端末機器1100は、無線通信ユニット1110、A/V(オーディオ/ビデオ)入力ユニット1120、ユーザ入力ユニット1130、検知ユニット1140、出力ユニット1150、メモリ1160、インターフェースユニット1170、コントローラ1180、及び電源ユニット1190などを含んでもよい。図7は、様々なコンポーネントを有する端末機器を示したが、示されたすべてのコンポーネントを実施する必要がないことを理解すべきである。より多く又はより少ないコンポーネントを代替的に実施してもよい。
無線通信ユニット1110は、端末機器1100と無線通信システム又はネットワークとの間の無線通信を許可する。A/V入力ユニット1120は、オーディオ又はビデオ信号を受信するために用いられる。ユーザ入力ユニット1130は、端末機器の様々な操作を制御するように、ユーザが入力した命令に基づいてキー入力データを生成することができる。検知ユニット1140は、端末機器1100の現在の状態、端末機器1100の位置、端末機器1100へのユーザのタッチ入力があるかどうか、端末機器1100の向き、端末機器1100の加速又は減速移動及び方向などを検出し、且つ端末機器1100の操作を制御するための命令又は信号を生成する。インターフェースユニット1170は、少なくとも1つの外部装置が端末機器1100に接続される時に通過できるインターフェースとして機能する。出力ユニット1150は、視覚、オーディオ及び/又は触覚方式で出力信号を提供するように構成される。メモリ1160は、コントローラ1180により実行された、操作を処理及び制御するソフトウェアプログラムなどを記憶してもよく、又は既に出力した又は出力しようとするデータを一時的に記憶してもよい。メモリ1160は、少なくとも1つのタイプの記憶媒体を含んでもよい。且つ、端末機器1100は、ネットワーク接続を介してメモリ1160の記憶機能を実行するネットワーク記憶装置と協働することができる。コントローラ1180は、一般的に端末機器の全体的な操作を制御する。また、コントローラ1180は、マルチメディアデータを再現又は再生するためのマルチメディアモジュールを含んでよい。コントローラ1180は、タッチパネル上で実行された手書き入力又は絵描き入力を文字又は画像に認識するように、パターン認識処理を実行することができる。電源ユニット1190は、コントローラ1180の制御によって外部電力又は内部電力を受け取り、各素子及びコンポーネントの操作に必要な適切な電力を提供する。
本開示が提案したオーディオ指紋抽出方法の様々な実施形態は、例えばコンピュータソフトウェア、ハードウェア又はそれらの任意の組み合わせを使用するコンピュータ可読媒体で実施され得る。ハードウェア実装の場合、本開示が提案したオーディオ指紋抽出方法の様々な実施形態は、特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、ここで記載された機能を実行するように設計される電子ユニットのうちの少なくとも1つを使用することによって実施されてもよく、いくつかの場合で、本開示が提案したオーディオ指紋抽出方法の様々な実施形態は、コントローラ1180において実施することができる。ソフトウェア実装の場合、本開示が提案したオーディオ指紋抽出方法の様々な実施形態は、少なくとも1つの機能又は操作の実行を許可する単独のソフトウェアモジュールで実施することができる。ソフトウェアコードは、任意の適切なプログラミング言語でプログラミングしたソフトウェアアプリケーション(又はプログラム)により実施することができ、ソフトウェアコードは、メモリ1160に記憶され且つコントローラ1180により実行することができる。
以上、本開示の実施例によるオーディオ指紋抽出方法、装置、ハードウェア装置、コンピュータ読み取り可能な記憶媒体、及び端末機器は、マスクを利用してオーディオ指紋ビットを抽出し、且つ対応する強いと弱い重みビットを抽出し、オーディオ指紋抽出の精度及び抽出の効率を大幅に向上させることができ、オーディオ信号のために品質が高く、ロバスト性に優れたオーディオ指紋を生成し、さらに本開示のオーディオ指紋抽出方法によって取得されたオーディオ指紋に基づいて行われたオーディオ比較、オーディオ検索、オーディオ重複排除及びオーディオコンテンツ監視はより高い正確率、より高い効率、及びより優れたロバスト性を有するようにする。
以上、具体的な実施例を参照しながら本開示の基本原理を説明し、しかし、本開示で言及された利点、優勢、効果などは制限ではなく、単なる例であり、これらの利点、優勢、効果などは本開示の各実施例に必要であると考えられていないことに留意すべきである。また、上記開示の具体的な詳細は制限ではなく、例示と理解のためのものであり、上記詳細は、本開示が上記具体的な詳細によって実現しなければならないことを制限しない。
本開示で言及されたデバイス、装置、設備、システムのブロック図は、例示的な例に過ぎず、且つブロック図に示された方法に従って接続、レイアウト、配置しなければならないことを意図するものではない。当業者が理解されるように、任意の方法でこれらのデバイス、装置、設備、システムを接続、レイアウト、配置してもよい。「備える」、「含む」、「有する」などの用語は、オープン言葉であり、「を含むが、これらに制限されない」を意味し、且つ交換可能に使用できる。本明細書で使用された言葉「又は」と「及び」とは、言葉「及び/又は」を意味し、且つ文脈からそうでないことが明確に示されていない限り、交換可能に使用できる。本明細書で使用された言葉「例えば」とはフレーズ「例えば、であるが、これらに制限されない」を意味し、且つ交換可能に使用できる。
また、本明細書で使用される場合、「のうちの少なくとも1つ」が前置される項目リスト内で使用される「又は」は、例えば、「A、B、又はCのうちの少なくとも1つ」のリストが、A又はB又はC、又はAB又はAC又はBC、又はABC(即ち、A及びB及びC)を意味するような離接的リストを示す。さらに、「例示的な」という用語は、説明される例が好ましい又は他の例よりも好ましいことを意味しない。
また、本開示のシステム及び方法において、各部材又は各ステップが分解及び/又は再結合され得ることに留意されたい。これらの分解及び/又は再結合は本開示の等価手段と見なされるべきである。
本明細書に記載の技術への様々な変化、置換、及び変更を、添付の特許請求の範囲によって規定される教示の技術から逸脱せずに行うことができる。さらに、本開示の特許請求の範囲の範囲は、上述される処理、機器、製造、イベントの構成、手段、方法、及び動作の特定の態様に限定されない。本明細書に記載の対応する態様とほぼ同じ機能を実行するか、又はほぼ同じ結果を達成する、現在に存在するか、又は後に開発される処理、機器、製造、イベントの構成、手段、方法又は動作を利用することができる。従って、添付の特許請求は、その範囲内でのそのような処理、機器、製造、イベントの構成、手段、方法又は動作を含む。
開示された態様の以上の記載は、当業者の誰でも本開示を作製するか、又は使用することを可能にするために提供される。これらの態様への様々な変更は、当業者にとって非常に明らかであり、且つ本明細書に定義される一般的な原理は、本開示の範囲を逸脱することなくその他の態様にも適用され得る。よって、本開示は、本明細書に記載される態様に限定されるものではなく、本明細書に開示される原理及び新規の特徴と一貫した最も幅広い範囲に従う。
例示及び説明のために、以上の説明を示した。さらに、この説明は、本開示の実施例を本明細書で開示された形態に限定することを意図するものではない。複数の例示的な態様及び実施例が以上で検討されたが、当業者は、ある変形、修正、変更、追加、及びサブコンビネーションを認識する。
100 オーディオ指紋抽出装置
101 スペクトログラム変換モジュール
102 特徴点決定モジュール
103 マスク決定モジュール
104 平均エネルギー決定モジュール
105 オーディオ指紋ビット決定モジュール
106 強いと弱い重みビット決定モジュール
107 オーディオ指紋決定モジュール
200 オーディオ指紋データベース構築装置
201 オーディオ指紋抽出モジュール
202 オーディオ指紋記憶モジュール
203 オーディオ指紋データベース
300 オーディオ指紋抽出ハードウェア装置
301 メモリ
302 プロセッサ
400 コンピュータ読み取り可能な記憶媒体
401 非一時的なコンピュータ可読命令
1110 無線通信ユニット
1120 A/V入力ユニット
1130 ユーザ入力ユニット
1140 検知ユニット
1150 出力ユニット
1160 メモリ
1170 インターフェースユニット
1180 コントローラ
1190 電源ユニット

Claims (21)

  1. オーディオ指紋抽出方法であって、前記方法は、
    オーディオ信号をスペクトログラムに変換すること、
    スペクトログラムにおける特徴点を決定すること、
    前記スペクトログラムにおいて、前記特徴点のために1つ又は複数のマスクを決定し、各前記マスクが複数のスペクトル領域を含むこと、
    各スペクトル領域の平均エネルギーを決定すること、
    前記マスクにおける前記複数のスペクトル領域の平均エネルギーに基づいて、オーディオ指紋ビットを決定すること、
    強いと弱い重みビットを決定するように、前記オーディオ指紋ビットの信頼性を判断すること、及び
    前記オーディオ指紋ビットと前記強いと弱い重みビットを組み合わせて、オーディオ指紋を取得することを含むオーディオ指紋抽出方法。
  2. 前記の前記オーディオ信号をスペクトログラムに変換することは、高速フーリエ変換によって前記オーディオ信号を時間−周波数の二次元スペクトログラムに変換することを含み、前記スペクトログラムにおける各点の値は前記オーディオ信号のエネルギーを表す請求項1に記載のオーディオ指紋抽出方法。
  3. 前記のオーディオ信号をスペクトログラムに変換することは、前記スペクトログラムに対してメル変化を行うことをさらに含む請求項2に記載のオーディオ指紋抽出方法。
  4. 前記のオーディオ信号をスペクトログラムに変換することは、前記スペクトログラムに対して人間の聴覚システムのフィルタリングを行うことをさらに含む請求項2に記載のオーディオ指紋抽出方法。
  5. 前記特徴点は前記スペクトログラムにおける固定点である請求項2に記載のオーディオ指紋抽出方法。
  6. 前記特徴点は周波数値が予め設定された複数の周波数設定値に等しい点である請求項5に記載のオーディオ指紋抽出方法。
  7. 前記特徴点は前記スペクトログラムにおけるエネルギーの最大値点であり、又は、前記特徴点は前記スペクトログラムにおけるエネルギーの最小値点である請求項2に記載のオーディオ指紋抽出方法。
  8. 前記マスクに含まれる複数の前記スペクトル領域は対称的に分布する請求項1に記載のオーディオ指紋抽出方法。
  9. 前記マスクに含まれる複数の前記スペクトル領域は、同じ周波数範囲を有し、及び/又は同じ時間範囲を有し、及び/又は前記特徴点を中心として中心に対称的に分布する請求項8に記載のオーディオ指紋抽出方法。
  10. 前記スペクトル領域の平均エネルギーは前記スペクトル領域に含まれるすべての点のエネルギー値の平均値である請求項1に記載のオーディオ指紋抽出方法。
  11. 前記の前記マスクにおける複数のスペクトル領域の平均エネルギーに基づいて、オーディオ指紋ビットを決定することは、
    1つの前記マスクに含まれる複数の前記スペクトル領域の平均エネルギーの差に基づいて1つのオーディオ指紋ビットを決定することを含む請求項1に記載のオーディオ指紋抽出方法。
  12. 前記の強いと弱い重みビットを決定するように、前記オーディオ指紋ビットの信頼性を判断することは、
    前記差の絶対値が予め設定された弱いビット強いと弱いビット閾値弱いビットに達する又は超えるかどうかを判断し、前記弱いビット強いと弱いビット閾値に達した又は超えた場合、前記オーディオ指紋ビットを強いビットとして決定し、そうでなければ、前記オーディオ指紋ビットを弱いビットとして決定し、前記オーディオ指紋ビットが強いビットであるか弱いビットであるかに基づいて前記強いと弱い重みビットを決定することを含む請求項11に記載のオーディオ指紋抽出方法。
  13. 前記弱いビット強いと弱いビット閾値は、固定値、又は前記差に基づく値、又は比例値である請求項12に記載のオーディオ指紋抽出方法。
  14. 前記方法は、
    オーディオ信号を時間で複数のオーディオサブ信号に分割すること、
    前記オーディオサブ信号の前記オーディオ指紋を抽出すること、及び
    抽出して取得した各前記オーディオサブ信号の前記オーディオ指紋を組み合わせて、前記オーディオ信号のオーディオ指紋を取得すること、
    をさらに含む請求項1に記載のオーディオ指紋抽出方法。
  15. オーディオ指紋データベース構築方法であって、前記方法は、
    請求項1〜14のいずれか1項に記載のオーディオ指紋抽出方法に基づいてオーディオ信号のオーディオ指紋を抽出すること、及び
    前記オーディオ指紋をオーディオ指紋データベースに記憶すること、
    を含むオーディオ指紋データベース構築方法。
  16. オーディオ指紋抽出装置であって、前記装置は、
    オーディオ信号をスペクトログラムに変換するためのスペクトログラム変換モジュールと、
    スペクトログラムにおける特徴点を決定するための特徴点決定モジュールと、
    前記スペクトログラムにおいて、前記特徴点のために1つ又は複数のマスクを決定するために用いられ、各前記マスクが複数のスペクトル領域を含むマスク決定モジュールと、
    各前記スペクトル領域の平均エネルギーを決定するための平均エネルギー決定モジュールと、
    前記マスクにおける前記複数のスペクトル領域の平均エネルギーに基づいて、オーディオ指紋ビットを決定するためのオーディオ指紋ビット決定モジュールと、
    強いと弱い重みビットを決定するように、前記オーディオ指紋ビットの信頼性を判断するための強いと弱い重みビット決定モジュールと、
    前記オーディオ指紋ビットと前記強いと弱い重みビットを組み合わせて、オーディオ指紋を取得するためのオーディオ指紋決定モジュールと、を備えるオーディオ指紋抽出装置。
  17. 前記装置は、請求項2〜14のいずれか1項に記載のステップを行うモジュールをさらに備える請求項16に記載のオーディオ指紋抽出装置。
  18. オーディオ指紋データベース構築装置であって、前記装置は、
    請求項1〜14のいずれか1項に記載のオーディオ指紋抽出方法に基づいてオーディオ信号のオーディオ指紋を抽出するためのオーディオ指紋抽出モジュールと、
    前記オーディオ指紋をオーディオ指紋データベースに記憶するためのオーディオ指紋記憶モジュールと、
    前記オーディオ指紋を記憶するためのオーディオ指紋データベースと、を備えるオーディオ指紋データベース構築装置。
  19. オーディオ指紋抽出ハードウェア装置であって、
    非一時的なコンピュータ可読命令を記憶するためのメモリと、
    実行時に請求項1〜14のいずれか1項に記載のオーディオ指紋抽出方法を実現するように、前記コンピュータ可読命令を実行するためのプロセッサと、を備えるオーディオ指紋抽出ハードウェア装置。
  20. 非一時的なコンピュータ可読命令を記憶するためのコンピュータ読み取り可能な記憶媒体であって、前記非一時的なコンピュータ可読命令がコンピュータにより実行される場合、前記コンピュータは請求項1〜14のいずれか1項に記載のオーディオ指紋抽出方法を実行するようにするコンピュータ読み取り可能な記憶媒体。
  21. 端末機器であって、請求項16又は17に記載のオーディオ指紋抽出装置を備える端末機器。
JP2020502951A 2018-03-29 2018-12-29 オーディオ指紋抽出方法及び装置 Active JP6908774B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810273669.6 2018-03-29
CN201810273669.6A CN110322886A (zh) 2018-03-29 2018-03-29 一种音频指纹提取方法及装置
PCT/CN2018/125491 WO2019184517A1 (zh) 2018-03-29 2018-12-29 一种音频指纹提取方法及装置

Publications (2)

Publication Number Publication Date
JP2020527255A true JP2020527255A (ja) 2020-09-03
JP6908774B2 JP6908774B2 (ja) 2021-07-28

Family

ID=68062543

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020502951A Active JP6908774B2 (ja) 2018-03-29 2018-12-29 オーディオ指紋抽出方法及び装置

Country Status (5)

Country Link
US (1) US10950255B2 (ja)
JP (1) JP6908774B2 (ja)
CN (1) CN110322886A (ja)
SG (1) SG11202008533VA (ja)
WO (1) WO2019184517A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220284917A1 (en) * 2021-03-04 2022-09-08 Gracenote Inc. Methods and apparatus to fingerprint an audio signal

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11138471B2 (en) * 2018-05-18 2021-10-05 Google Llc Augmentation of audiographic images for improved machine learning
CN111581430B (zh) * 2020-04-30 2022-05-17 厦门快商通科技股份有限公司 一种音频指纹的生成方法和装置以及设备
CN111862989B (zh) * 2020-06-01 2024-03-08 北京捷通华声科技股份有限公司 一种声学特征处理方法和装置
CN112104892B (zh) * 2020-09-11 2021-12-10 腾讯科技(深圳)有限公司 一种多媒体信息处理方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005534098A (ja) * 2002-07-24 2005-11-10 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ファイル共有規制方法及び装置
JP2012185195A (ja) * 2011-03-03 2012-09-27 Jvc Kenwood Corp オーディオデータ特徴抽出方法、オーディオデータ照合方法、オーディオデータ特徴抽出プログラム、オーディオデータ照合プログラム、オーディオデータ特徴抽出装置、オーディオデータ照合装置及びオーディオデータ照合システム
WO2013008956A1 (ja) * 2011-07-14 2013-01-17 日本電気株式会社 音響処理方法と音響処理システム、ビデオ処理方法とビデオ処理システム、音響処理装置およびその制御方法と制御プログラム
JP2015515646A (ja) * 2012-03-28 2015-05-28 インタラクティブ・インテリジェンス・インコーポレイテ データセットをフィンガープリントするためのシステムおよび方法
JP2016133600A (ja) * 2015-01-19 2016-07-25 日本電信電話株式会社 顕著度推定方法、顕著度推定装置、プログラム

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US20060041753A1 (en) * 2002-09-30 2006-02-23 Koninklijke Philips Electronics N.V. Fingerprint extraction
US20050249080A1 (en) * 2004-05-07 2005-11-10 Fuji Xerox Co., Ltd. Method and system for harvesting a media stream
US7516074B2 (en) * 2005-09-01 2009-04-07 Auditude, Inc. Extraction and matching of characteristic fingerprints from audio signals
KR100862616B1 (ko) 2007-04-17 2008-10-09 한국전자통신연구원 인덱스 정보를 이용한 오디오 핑거프린트 검색 시스템 및방법
US9299364B1 (en) * 2008-06-18 2016-03-29 Gracenote, Inc. Audio content fingerprinting based on two-dimensional constant Q-factor transform representation and robust audio identification for time-aligned applications
US20130152767A1 (en) * 2010-04-22 2013-06-20 Jamrt Ltd Generating pitched musical events corresponding to musical content
WO2011140269A1 (en) * 2010-05-04 2011-11-10 Shazam Entertainment Ltd. Methods and systems for processing a sample of a media stream
US8584197B2 (en) * 2010-11-12 2013-11-12 Google Inc. Media rights management using melody identification
US9093120B2 (en) * 2011-02-10 2015-07-28 Yahoo! Inc. Audio fingerprint extraction by scaling in time and resampling
ES2459391T3 (es) * 2011-06-06 2014-05-09 Bridge Mediatech, S.L. Método y sistema para conseguir hashing de audio invariante al canal
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
US9384272B2 (en) * 2011-10-05 2016-07-05 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for identifying similar songs using jumpcodes
EP2791935B1 (en) * 2011-12-12 2016-03-09 Dolby Laboratories Licensing Corporation Low complexity repetition detection in media data
US8949872B2 (en) * 2011-12-20 2015-02-03 Yahoo! Inc. Audio fingerprint for content identification
US11140439B2 (en) * 2012-02-21 2021-10-05 Roku, Inc. Media content identification on mobile devices
CN102820033B (zh) * 2012-08-17 2013-12-04 南京大学 一种声纹识别方法
US9305559B2 (en) * 2012-10-15 2016-04-05 Digimarc Corporation Audio watermark encoding with reversing polarity and pairwise embedding
US9183849B2 (en) * 2012-12-21 2015-11-10 The Nielsen Company (Us), Llc Audio matching with semantic audio recognition and report generation
US9451048B2 (en) * 2013-03-12 2016-09-20 Shazam Investments Ltd. Methods and systems for identifying information of a broadcast station and information of broadcasted content
CN104050259A (zh) * 2014-06-16 2014-09-17 上海大学 一种基于som算法的音频指纹提取方法
US9971928B2 (en) * 2015-02-27 2018-05-15 Qualcomm Incorporated Fingerprint verification system
CN104865313B (zh) * 2015-05-12 2017-11-17 福建星网锐捷通讯股份有限公司 一种基于声谱条纹检测玻璃破碎的检测方法及装置
US20170097992A1 (en) * 2015-10-02 2017-04-06 Evergig Music S.A.S.U. Systems and methods for searching, comparing and/or matching digital audio files
US10318813B1 (en) * 2016-03-11 2019-06-11 Gracenote, Inc. Digital video fingerprinting using motion segmentation
CN106296890B (zh) * 2016-07-22 2019-06-04 北京小米移动软件有限公司 移动终端的解锁方法、装置和移动终端
CN106250742A (zh) * 2016-07-22 2016-12-21 北京小米移动软件有限公司 移动终端的解锁方法、装置和移动终端
US10236006B1 (en) * 2016-08-05 2019-03-19 Digimarc Corporation Digital watermarks adapted to compensate for time scaling, pitch shifting and mixing
CN106782568A (zh) * 2016-11-22 2017-05-31 合肥星服信息科技有限责任公司 一种频率极值和均值结合的声纹过滤方法
CN107610708B (zh) * 2017-06-09 2018-06-19 平安科技(深圳)有限公司 识别声纹的方法及设备
CN107622773B (zh) 2017-09-08 2021-04-06 科大讯飞股份有限公司 一种音频特征提取方法与装置、电子设备
WO2019086118A1 (en) * 2017-11-02 2019-05-09 Huawei Technologies Co., Ltd. Segmentation-based feature extraction for acoustic scene classification

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005534098A (ja) * 2002-07-24 2005-11-10 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ファイル共有規制方法及び装置
JP2012185195A (ja) * 2011-03-03 2012-09-27 Jvc Kenwood Corp オーディオデータ特徴抽出方法、オーディオデータ照合方法、オーディオデータ特徴抽出プログラム、オーディオデータ照合プログラム、オーディオデータ特徴抽出装置、オーディオデータ照合装置及びオーディオデータ照合システム
WO2013008956A1 (ja) * 2011-07-14 2013-01-17 日本電気株式会社 音響処理方法と音響処理システム、ビデオ処理方法とビデオ処理システム、音響処理装置およびその制御方法と制御プログラム
JP2015515646A (ja) * 2012-03-28 2015-05-28 インタラクティブ・インテリジェンス・インコーポレイテ データセットをフィンガープリントするためのシステムおよび方法
JP2016133600A (ja) * 2015-01-19 2016-07-25 日本電信電話株式会社 顕著度推定方法、顕著度推定装置、プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220284917A1 (en) * 2021-03-04 2022-09-08 Gracenote Inc. Methods and apparatus to fingerprint an audio signal
US11798577B2 (en) * 2021-03-04 2023-10-24 Gracenote, Inc. Methods and apparatus to fingerprint an audio signal

Also Published As

Publication number Publication date
US10950255B2 (en) 2021-03-16
CN110322886A (zh) 2019-10-11
WO2019184517A1 (zh) 2019-10-03
JP6908774B2 (ja) 2021-07-28
SG11202008533VA (en) 2020-10-29
US20200273483A1 (en) 2020-08-27

Similar Documents

Publication Publication Date Title
JP6908774B2 (ja) オーディオ指紋抽出方法及び装置
US9390711B2 (en) Information recognition method and apparatus
US10832685B2 (en) Speech processing device, speech processing method, and computer program product
JP6906641B2 (ja) 音声検索・認識方法及び装置
US9697819B2 (en) Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis
US20220366880A1 (en) Method and electronic device for recognizing song, and storage medium
JP5755823B1 (ja) 類似度算出システム、類似度算出方法およびプログラム
US9437208B2 (en) General sound decomposition models
Silva et al. Spoken digit recognition in portuguese using line spectral frequencies
CN110111811A (zh) 音频信号检测方法、装置和存储介质
KR20090089674A (ko) 휴대 단말기의 소리 인식 방법 및 장치
CN110334242B (zh) 一种语音指令建议信息的生成方法、装置及电子设备
US10997966B2 (en) Voice recognition method, device and computer storage medium
CN106910494B (zh) 一种音频识别方法和装置
CN110955789B (zh) 一种多媒体数据处理方法以及设备
WO2019144906A1 (zh) 信息转换方法和装置、存储介质及电子装置
Silva et al. A comparative study between MFCC and LSF coefficients in automatic recognition of isolated digits pronounced in Portuguese and English
CN112992167A (zh) 音频信号的处理方法、装置及电子设备
US20150347570A1 (en) Consolidating vocabulary for automated text processing
TWI409802B (zh) 音頻特徵處理方法及其裝置
KR20150074644A (ko) 음악분류를 위한 저차의 오디오 특징 추출 장치 및 방법
CN110895929B (zh) 语音识别方法及装置
CN117112734B (zh) 基于语义的知识产权文本表示与分类方法及终端设备
CN109977630B (zh) 音频指纹生成方法及装置
JP2004341930A (ja) パタン認識方法および装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210701

R150 Certificate of patent or registration of utility model

Ref document number: 6908774

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150