JP2020527255A - オーディオ指紋抽出方法及び装置 - Google Patents
オーディオ指紋抽出方法及び装置 Download PDFInfo
- Publication number
- JP2020527255A JP2020527255A JP2020502951A JP2020502951A JP2020527255A JP 2020527255 A JP2020527255 A JP 2020527255A JP 2020502951 A JP2020502951 A JP 2020502951A JP 2020502951 A JP2020502951 A JP 2020502951A JP 2020527255 A JP2020527255 A JP 2020527255A
- Authority
- JP
- Japan
- Prior art keywords
- audio fingerprint
- audio
- bit
- spectrogram
- weak
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Abstract
Description
本出願は、出願番号が201810273669.6で、出願日が2018年3月29日である中国特許出願の優先権を主張し、この文献の全内容は引用によって本明細書に組み込まれた。
オーディオ信号をスペクトログラムに変換すること、
スペクトログラムにおける特徴点を決定すること、
前記スペクトログラムにおいて、前記特徴点のために1つ又は複数のマスクを決定し、各前記マスクが複数のスペクトル領域を含むこと、
各スペクトル領域の平均エネルギーを決定すること、
前記マスクにおける前記複数のスペクトル領域の平均エネルギーに基づいて、オーディオ指紋ビットを決定すること、
強いと弱い重みビットを決定するように、前記オーディオ指紋ビットの信頼性を判断すること、及び
前記オーディオ指紋ビットと前記強いと弱い重みビットを組み合わせて、オーディオ指紋を取得することを含むオーディオ指紋抽出方法。
1つの前記マスクに含まれる複数の前記スペクトル領域の平均エネルギーの差に基づいて1つのオーディオ指紋ビットを決定することを含む前述したオーディオ指紋抽出方法。
前記差の絶対値が予め設定された弱いビット強いと弱いビット閾値弱いビットに達する又は超えるかどうかを判断し、前記弱いビット強いと弱いビット閾値に達した又は超えた場合、前記オーディオ指紋ビットを強いビットとして決定し、そうでなければ、前記オーディオ指紋ビットを弱いビットとして決定し、前記オーディオ指紋ビットが強いビットであるか弱いビットであるかに基づいて前記強いと弱い重みビットを決定することを含む前述したオーディオ指紋抽出方法。
オーディオ信号を時間で複数のオーディオサブ信号に分割すること、
前記オーディオサブ信号の前記オーディオ指紋を抽出すること、及び
抽出して取得した各前記オーディオサブ信号の前記オーディオ指紋を組み合わせて、前記オーディオ信号のオーディオ指紋を取得すること、
をさらに含む前述したオーディオ指紋抽出方法。
前述したいずれかのオーディオ指紋抽出方法に基づいてオーディオ信号のオーディオ指紋を抽出すること、及び
前記オーディオ指紋をオーディオ指紋データベースに記憶すること、
を含む本開示に係るオーディオ指紋データベース構築方法。
オーディオ信号をスペクトログラムに変換するためのスペクトログラム変換モジュールと、
スペクトログラムにおける特徴点を決定するための特徴点決定モジュールと、
前記スペクトログラムにおいて、前記特徴点のために1つ又は複数のマスクを決定するために用いられ、各前記マスクが複数のスペクトル領域を含むマスク決定モジュールと、
各前記スペクトル領域の平均エネルギーを決定するための平均エネルギー決定モジュールと、
前記マスクにおける前記複数のスペクトル領域の平均エネルギーに基づいて、オーディオ指紋ビットを決定するためのオーディオ指紋ビット決定モジュールと、
強いと弱い重みビットを決定するように、前記オーディオ指紋ビットの信頼性を判断するための強いと弱い重みビット決定モジュールと、
前記オーディオ指紋ビットと前記強いと弱い重みビットを組み合わせて、オーディオ指紋を取得するためのオーディオ指紋決定モジュールと、を備える本開示に係るオーディオ指紋抽出装置。
前述したいずれかのオーディオ指紋抽出方法に基づいてオーディオ信号のオーディオ指紋を抽出するためのオーディオ指紋抽出モジュールと、
前記オーディオ指紋をオーディオ指紋データベースに記憶するためのオーディオ指紋記憶モジュールと、
前記オーディオ指紋を記憶するためのオーディオ指紋データベースと、を備える本開示に係るオーディオ指紋データベース構築装置。
非一時的なコンピュータ可読命令を記憶するためのメモリと、
実行時に前記いずれかのオーディオ指紋抽出方法を実現するように、前記コンピュータ可読命令を実行するためのプロセッサと、を備える本開示に係るオーディオ指紋抽出ハードウェア装置。
時間軸で対称であり(即ち、複数のスペクトル領域は同じ周波数範囲を有する)、例えば、1つのメル−スペクトログラムにおいて、特徴点のためにR11及びR12という2つのスペクトル領域を含む1つのマスクを決定することができ、R11、R12はいずれも特徴点の左側に位置し、R11がR12の左側に位置し、且つR11とR12が同じ周波数ビンを覆い、
又は周波数軸で対称である(即ち、複数のスペクトル領域は同じ時間範囲を有する)。例えば、1つのメル−スペクトログラムにおいて、特徴点のためにR13及びR14という2つのスペクトル領域を含む1つのマスクを決定することができ、R13は特徴点の上側に位置し、R14は特徴点の下側に位置し、且つR13とR14が同じ時間範囲を有し、
又は特徴点を中心として中心対称的に分布し、例えば、1つのメル−スペクトログラムにおいて、特徴点のためにR15及びR16という2つのスペクトル領域を含む1つのマスクを決定することができ、R15は特徴点の左上側に位置し、R16は特徴点の右下側に位置し、且つR15とR16が特徴点を中心として互いに対称である。
次に差D1の正負を判断し、差D1が正値である場合、値が1の1つのオーディオ指紋ビットを取得し、差D1が負値である場合、値が0の1つのオーディオ指紋ビットを取得する。
次に差D2の正負を判断し、差D2が正値である場合、値が1の1つのオーディオ指紋ビットを取得し、差D2が負値である場合、値が0の1つのオーディオ指紋ビットを取得する。なお、必ずしも差D2によって4つのスペクトル領域を含む1つのマスクのオーディオ指紋ビットを決定せず、他の形式の差を利用してオーディオ指紋ビットを決定してもよい。例えば、この4つのスペクトル領域の平均エネルギーの二次差D3
D3=(E(R23)−E(R24))−(E(R21)−E(R22))、(式3)を計算してもよく、
次に差D1の正負を判断することによってオーディオ指紋ビットを決定する。
前述の本開示の例のオーディオ指紋抽出装置100のスペクトログラム変換モジュール101、特徴点決定モジュール102、マスク決定モジュール103、平均エネルギー決定モジュール104、オーディオ指紋ビット決定モジュール105、強いと弱い重みビット決定モジュール106、及びオーディオ指紋決定モジュール107を含み、前述の本開示の例のオーディオ指紋抽出方法のステップに基づいてオーディオ信号のオーディオ指紋を抽出するためのオーディオ指紋抽出モジュール201と、
オーディオ指紋抽出モジュール201により取得されたオーディオ信号のオーディオ指紋をオーディオ指紋データベース203に記憶するためのオーディオ指紋記憶モジュール202と、
各オーディオ信号のオーディオ指紋を記憶するためのオーディオ指紋データベース203と、を備える。
101 スペクトログラム変換モジュール
102 特徴点決定モジュール
103 マスク決定モジュール
104 平均エネルギー決定モジュール
105 オーディオ指紋ビット決定モジュール
106 強いと弱い重みビット決定モジュール
107 オーディオ指紋決定モジュール
200 オーディオ指紋データベース構築装置
201 オーディオ指紋抽出モジュール
202 オーディオ指紋記憶モジュール
203 オーディオ指紋データベース
300 オーディオ指紋抽出ハードウェア装置
301 メモリ
302 プロセッサ
400 コンピュータ読み取り可能な記憶媒体
401 非一時的なコンピュータ可読命令
1110 無線通信ユニット
1120 A/V入力ユニット
1130 ユーザ入力ユニット
1140 検知ユニット
1150 出力ユニット
1160 メモリ
1170 インターフェースユニット
1180 コントローラ
1190 電源ユニット
Claims (21)
- オーディオ指紋抽出方法であって、前記方法は、
オーディオ信号をスペクトログラムに変換すること、
スペクトログラムにおける特徴点を決定すること、
前記スペクトログラムにおいて、前記特徴点のために1つ又は複数のマスクを決定し、各前記マスクが複数のスペクトル領域を含むこと、
各スペクトル領域の平均エネルギーを決定すること、
前記マスクにおける前記複数のスペクトル領域の平均エネルギーに基づいて、オーディオ指紋ビットを決定すること、
強いと弱い重みビットを決定するように、前記オーディオ指紋ビットの信頼性を判断すること、及び
前記オーディオ指紋ビットと前記強いと弱い重みビットを組み合わせて、オーディオ指紋を取得することを含むオーディオ指紋抽出方法。 - 前記の前記オーディオ信号をスペクトログラムに変換することは、高速フーリエ変換によって前記オーディオ信号を時間−周波数の二次元スペクトログラムに変換することを含み、前記スペクトログラムにおける各点の値は前記オーディオ信号のエネルギーを表す請求項1に記載のオーディオ指紋抽出方法。
- 前記のオーディオ信号をスペクトログラムに変換することは、前記スペクトログラムに対してメル変化を行うことをさらに含む請求項2に記載のオーディオ指紋抽出方法。
- 前記のオーディオ信号をスペクトログラムに変換することは、前記スペクトログラムに対して人間の聴覚システムのフィルタリングを行うことをさらに含む請求項2に記載のオーディオ指紋抽出方法。
- 前記特徴点は前記スペクトログラムにおける固定点である請求項2に記載のオーディオ指紋抽出方法。
- 前記特徴点は周波数値が予め設定された複数の周波数設定値に等しい点である請求項5に記載のオーディオ指紋抽出方法。
- 前記特徴点は前記スペクトログラムにおけるエネルギーの最大値点であり、又は、前記特徴点は前記スペクトログラムにおけるエネルギーの最小値点である請求項2に記載のオーディオ指紋抽出方法。
- 前記マスクに含まれる複数の前記スペクトル領域は対称的に分布する請求項1に記載のオーディオ指紋抽出方法。
- 前記マスクに含まれる複数の前記スペクトル領域は、同じ周波数範囲を有し、及び/又は同じ時間範囲を有し、及び/又は前記特徴点を中心として中心に対称的に分布する請求項8に記載のオーディオ指紋抽出方法。
- 前記スペクトル領域の平均エネルギーは前記スペクトル領域に含まれるすべての点のエネルギー値の平均値である請求項1に記載のオーディオ指紋抽出方法。
- 前記の前記マスクにおける複数のスペクトル領域の平均エネルギーに基づいて、オーディオ指紋ビットを決定することは、
1つの前記マスクに含まれる複数の前記スペクトル領域の平均エネルギーの差に基づいて1つのオーディオ指紋ビットを決定することを含む請求項1に記載のオーディオ指紋抽出方法。 - 前記の強いと弱い重みビットを決定するように、前記オーディオ指紋ビットの信頼性を判断することは、
前記差の絶対値が予め設定された弱いビット強いと弱いビット閾値弱いビットに達する又は超えるかどうかを判断し、前記弱いビット強いと弱いビット閾値に達した又は超えた場合、前記オーディオ指紋ビットを強いビットとして決定し、そうでなければ、前記オーディオ指紋ビットを弱いビットとして決定し、前記オーディオ指紋ビットが強いビットであるか弱いビットであるかに基づいて前記強いと弱い重みビットを決定することを含む請求項11に記載のオーディオ指紋抽出方法。 - 前記弱いビット強いと弱いビット閾値は、固定値、又は前記差に基づく値、又は比例値である請求項12に記載のオーディオ指紋抽出方法。
- 前記方法は、
オーディオ信号を時間で複数のオーディオサブ信号に分割すること、
前記オーディオサブ信号の前記オーディオ指紋を抽出すること、及び
抽出して取得した各前記オーディオサブ信号の前記オーディオ指紋を組み合わせて、前記オーディオ信号のオーディオ指紋を取得すること、
をさらに含む請求項1に記載のオーディオ指紋抽出方法。 - オーディオ指紋データベース構築方法であって、前記方法は、
請求項1〜14のいずれか1項に記載のオーディオ指紋抽出方法に基づいてオーディオ信号のオーディオ指紋を抽出すること、及び
前記オーディオ指紋をオーディオ指紋データベースに記憶すること、
を含むオーディオ指紋データベース構築方法。 - オーディオ指紋抽出装置であって、前記装置は、
オーディオ信号をスペクトログラムに変換するためのスペクトログラム変換モジュールと、
スペクトログラムにおける特徴点を決定するための特徴点決定モジュールと、
前記スペクトログラムにおいて、前記特徴点のために1つ又は複数のマスクを決定するために用いられ、各前記マスクが複数のスペクトル領域を含むマスク決定モジュールと、
各前記スペクトル領域の平均エネルギーを決定するための平均エネルギー決定モジュールと、
前記マスクにおける前記複数のスペクトル領域の平均エネルギーに基づいて、オーディオ指紋ビットを決定するためのオーディオ指紋ビット決定モジュールと、
強いと弱い重みビットを決定するように、前記オーディオ指紋ビットの信頼性を判断するための強いと弱い重みビット決定モジュールと、
前記オーディオ指紋ビットと前記強いと弱い重みビットを組み合わせて、オーディオ指紋を取得するためのオーディオ指紋決定モジュールと、を備えるオーディオ指紋抽出装置。 - 前記装置は、請求項2〜14のいずれか1項に記載のステップを行うモジュールをさらに備える請求項16に記載のオーディオ指紋抽出装置。
- オーディオ指紋データベース構築装置であって、前記装置は、
請求項1〜14のいずれか1項に記載のオーディオ指紋抽出方法に基づいてオーディオ信号のオーディオ指紋を抽出するためのオーディオ指紋抽出モジュールと、
前記オーディオ指紋をオーディオ指紋データベースに記憶するためのオーディオ指紋記憶モジュールと、
前記オーディオ指紋を記憶するためのオーディオ指紋データベースと、を備えるオーディオ指紋データベース構築装置。 - オーディオ指紋抽出ハードウェア装置であって、
非一時的なコンピュータ可読命令を記憶するためのメモリと、
実行時に請求項1〜14のいずれか1項に記載のオーディオ指紋抽出方法を実現するように、前記コンピュータ可読命令を実行するためのプロセッサと、を備えるオーディオ指紋抽出ハードウェア装置。 - 非一時的なコンピュータ可読命令を記憶するためのコンピュータ読み取り可能な記憶媒体であって、前記非一時的なコンピュータ可読命令がコンピュータにより実行される場合、前記コンピュータは請求項1〜14のいずれか1項に記載のオーディオ指紋抽出方法を実行するようにするコンピュータ読み取り可能な記憶媒体。
- 端末機器であって、請求項16又は17に記載のオーディオ指紋抽出装置を備える端末機器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810273669.6 | 2018-03-29 | ||
CN201810273669.6A CN110322886A (zh) | 2018-03-29 | 2018-03-29 | 一种音频指纹提取方法及装置 |
PCT/CN2018/125491 WO2019184517A1 (zh) | 2018-03-29 | 2018-12-29 | 一种音频指纹提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020527255A true JP2020527255A (ja) | 2020-09-03 |
JP6908774B2 JP6908774B2 (ja) | 2021-07-28 |
Family
ID=68062543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020502951A Active JP6908774B2 (ja) | 2018-03-29 | 2018-12-29 | オーディオ指紋抽出方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10950255B2 (ja) |
JP (1) | JP6908774B2 (ja) |
CN (1) | CN110322886A (ja) |
SG (1) | SG11202008533VA (ja) |
WO (1) | WO2019184517A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220284917A1 (en) * | 2021-03-04 | 2022-09-08 | Gracenote Inc. | Methods and apparatus to fingerprint an audio signal |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11138471B2 (en) * | 2018-05-18 | 2021-10-05 | Google Llc | Augmentation of audiographic images for improved machine learning |
CN111581430B (zh) * | 2020-04-30 | 2022-05-17 | 厦门快商通科技股份有限公司 | 一种音频指纹的生成方法和装置以及设备 |
CN111862989B (zh) * | 2020-06-01 | 2024-03-08 | 北京捷通华声科技股份有限公司 | 一种声学特征处理方法和装置 |
CN112104892B (zh) * | 2020-09-11 | 2021-12-10 | 腾讯科技(深圳)有限公司 | 一种多媒体信息处理方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005534098A (ja) * | 2002-07-24 | 2005-11-10 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | ファイル共有規制方法及び装置 |
JP2012185195A (ja) * | 2011-03-03 | 2012-09-27 | Jvc Kenwood Corp | オーディオデータ特徴抽出方法、オーディオデータ照合方法、オーディオデータ特徴抽出プログラム、オーディオデータ照合プログラム、オーディオデータ特徴抽出装置、オーディオデータ照合装置及びオーディオデータ照合システム |
WO2013008956A1 (ja) * | 2011-07-14 | 2013-01-17 | 日本電気株式会社 | 音響処理方法と音響処理システム、ビデオ処理方法とビデオ処理システム、音響処理装置およびその制御方法と制御プログラム |
JP2015515646A (ja) * | 2012-03-28 | 2015-05-28 | インタラクティブ・インテリジェンス・インコーポレイテ | データセットをフィンガープリントするためのシステムおよび方法 |
JP2016133600A (ja) * | 2015-01-19 | 2016-07-25 | 日本電信電話株式会社 | 顕著度推定方法、顕著度推定装置、プログラム |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6990453B2 (en) * | 2000-07-31 | 2006-01-24 | Landmark Digital Services Llc | System and methods for recognizing sound and music signals in high noise and distortion |
US20060041753A1 (en) * | 2002-09-30 | 2006-02-23 | Koninklijke Philips Electronics N.V. | Fingerprint extraction |
US20050249080A1 (en) * | 2004-05-07 | 2005-11-10 | Fuji Xerox Co., Ltd. | Method and system for harvesting a media stream |
US7516074B2 (en) * | 2005-09-01 | 2009-04-07 | Auditude, Inc. | Extraction and matching of characteristic fingerprints from audio signals |
KR100862616B1 (ko) | 2007-04-17 | 2008-10-09 | 한국전자통신연구원 | 인덱스 정보를 이용한 오디오 핑거프린트 검색 시스템 및방법 |
US9299364B1 (en) * | 2008-06-18 | 2016-03-29 | Gracenote, Inc. | Audio content fingerprinting based on two-dimensional constant Q-factor transform representation and robust audio identification for time-aligned applications |
US20130152767A1 (en) * | 2010-04-22 | 2013-06-20 | Jamrt Ltd | Generating pitched musical events corresponding to musical content |
WO2011140269A1 (en) * | 2010-05-04 | 2011-11-10 | Shazam Entertainment Ltd. | Methods and systems for processing a sample of a media stream |
US8584197B2 (en) * | 2010-11-12 | 2013-11-12 | Google Inc. | Media rights management using melody identification |
US9093120B2 (en) * | 2011-02-10 | 2015-07-28 | Yahoo! Inc. | Audio fingerprint extraction by scaling in time and resampling |
ES2459391T3 (es) * | 2011-06-06 | 2014-05-09 | Bridge Mediatech, S.L. | Método y sistema para conseguir hashing de audio invariante al canal |
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
US9384272B2 (en) * | 2011-10-05 | 2016-07-05 | The Trustees Of Columbia University In The City Of New York | Methods, systems, and media for identifying similar songs using jumpcodes |
EP2791935B1 (en) * | 2011-12-12 | 2016-03-09 | Dolby Laboratories Licensing Corporation | Low complexity repetition detection in media data |
US8949872B2 (en) * | 2011-12-20 | 2015-02-03 | Yahoo! Inc. | Audio fingerprint for content identification |
US11140439B2 (en) * | 2012-02-21 | 2021-10-05 | Roku, Inc. | Media content identification on mobile devices |
CN102820033B (zh) * | 2012-08-17 | 2013-12-04 | 南京大学 | 一种声纹识别方法 |
US9305559B2 (en) * | 2012-10-15 | 2016-04-05 | Digimarc Corporation | Audio watermark encoding with reversing polarity and pairwise embedding |
US9183849B2 (en) * | 2012-12-21 | 2015-11-10 | The Nielsen Company (Us), Llc | Audio matching with semantic audio recognition and report generation |
US9451048B2 (en) * | 2013-03-12 | 2016-09-20 | Shazam Investments Ltd. | Methods and systems for identifying information of a broadcast station and information of broadcasted content |
CN104050259A (zh) * | 2014-06-16 | 2014-09-17 | 上海大学 | 一种基于som算法的音频指纹提取方法 |
US9971928B2 (en) * | 2015-02-27 | 2018-05-15 | Qualcomm Incorporated | Fingerprint verification system |
CN104865313B (zh) * | 2015-05-12 | 2017-11-17 | 福建星网锐捷通讯股份有限公司 | 一种基于声谱条纹检测玻璃破碎的检测方法及装置 |
US20170097992A1 (en) * | 2015-10-02 | 2017-04-06 | Evergig Music S.A.S.U. | Systems and methods for searching, comparing and/or matching digital audio files |
US10318813B1 (en) * | 2016-03-11 | 2019-06-11 | Gracenote, Inc. | Digital video fingerprinting using motion segmentation |
CN106296890B (zh) * | 2016-07-22 | 2019-06-04 | 北京小米移动软件有限公司 | 移动终端的解锁方法、装置和移动终端 |
CN106250742A (zh) * | 2016-07-22 | 2016-12-21 | 北京小米移动软件有限公司 | 移动终端的解锁方法、装置和移动终端 |
US10236006B1 (en) * | 2016-08-05 | 2019-03-19 | Digimarc Corporation | Digital watermarks adapted to compensate for time scaling, pitch shifting and mixing |
CN106782568A (zh) * | 2016-11-22 | 2017-05-31 | 合肥星服信息科技有限责任公司 | 一种频率极值和均值结合的声纹过滤方法 |
CN107610708B (zh) * | 2017-06-09 | 2018-06-19 | 平安科技(深圳)有限公司 | 识别声纹的方法及设备 |
CN107622773B (zh) | 2017-09-08 | 2021-04-06 | 科大讯飞股份有限公司 | 一种音频特征提取方法与装置、电子设备 |
WO2019086118A1 (en) * | 2017-11-02 | 2019-05-09 | Huawei Technologies Co., Ltd. | Segmentation-based feature extraction for acoustic scene classification |
-
2018
- 2018-03-29 CN CN201810273669.6A patent/CN110322886A/zh active Pending
- 2018-12-29 US US16/652,028 patent/US10950255B2/en active Active
- 2018-12-29 JP JP2020502951A patent/JP6908774B2/ja active Active
- 2018-12-29 SG SG11202008533VA patent/SG11202008533VA/en unknown
- 2018-12-29 WO PCT/CN2018/125491 patent/WO2019184517A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005534098A (ja) * | 2002-07-24 | 2005-11-10 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | ファイル共有規制方法及び装置 |
JP2012185195A (ja) * | 2011-03-03 | 2012-09-27 | Jvc Kenwood Corp | オーディオデータ特徴抽出方法、オーディオデータ照合方法、オーディオデータ特徴抽出プログラム、オーディオデータ照合プログラム、オーディオデータ特徴抽出装置、オーディオデータ照合装置及びオーディオデータ照合システム |
WO2013008956A1 (ja) * | 2011-07-14 | 2013-01-17 | 日本電気株式会社 | 音響処理方法と音響処理システム、ビデオ処理方法とビデオ処理システム、音響処理装置およびその制御方法と制御プログラム |
JP2015515646A (ja) * | 2012-03-28 | 2015-05-28 | インタラクティブ・インテリジェンス・インコーポレイテ | データセットをフィンガープリントするためのシステムおよび方法 |
JP2016133600A (ja) * | 2015-01-19 | 2016-07-25 | 日本電信電話株式会社 | 顕著度推定方法、顕著度推定装置、プログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220284917A1 (en) * | 2021-03-04 | 2022-09-08 | Gracenote Inc. | Methods and apparatus to fingerprint an audio signal |
US11798577B2 (en) * | 2021-03-04 | 2023-10-24 | Gracenote, Inc. | Methods and apparatus to fingerprint an audio signal |
Also Published As
Publication number | Publication date |
---|---|
US10950255B2 (en) | 2021-03-16 |
CN110322886A (zh) | 2019-10-11 |
WO2019184517A1 (zh) | 2019-10-03 |
JP6908774B2 (ja) | 2021-07-28 |
SG11202008533VA (en) | 2020-10-29 |
US20200273483A1 (en) | 2020-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6908774B2 (ja) | オーディオ指紋抽出方法及び装置 | |
US9390711B2 (en) | Information recognition method and apparatus | |
US10832685B2 (en) | Speech processing device, speech processing method, and computer program product | |
JP6906641B2 (ja) | 音声検索・認識方法及び装置 | |
US9697819B2 (en) | Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis | |
US20220366880A1 (en) | Method and electronic device for recognizing song, and storage medium | |
JP5755823B1 (ja) | 類似度算出システム、類似度算出方法およびプログラム | |
US9437208B2 (en) | General sound decomposition models | |
Silva et al. | Spoken digit recognition in portuguese using line spectral frequencies | |
CN110111811A (zh) | 音频信号检测方法、装置和存储介质 | |
KR20090089674A (ko) | 휴대 단말기의 소리 인식 방법 및 장치 | |
CN110334242B (zh) | 一种语音指令建议信息的生成方法、装置及电子设备 | |
US10997966B2 (en) | Voice recognition method, device and computer storage medium | |
CN106910494B (zh) | 一种音频识别方法和装置 | |
CN110955789B (zh) | 一种多媒体数据处理方法以及设备 | |
WO2019144906A1 (zh) | 信息转换方法和装置、存储介质及电子装置 | |
Silva et al. | A comparative study between MFCC and LSF coefficients in automatic recognition of isolated digits pronounced in Portuguese and English | |
CN112992167A (zh) | 音频信号的处理方法、装置及电子设备 | |
US20150347570A1 (en) | Consolidating vocabulary for automated text processing | |
TWI409802B (zh) | 音頻特徵處理方法及其裝置 | |
KR20150074644A (ko) | 음악분류를 위한 저차의 오디오 특징 추출 장치 및 방법 | |
CN110895929B (zh) | 语音识别方法及装置 | |
CN117112734B (zh) | 基于语义的知识产权文本表示与分类方法及终端设备 | |
CN109977630B (zh) | 音频指纹生成方法及装置 | |
JP2004341930A (ja) | パタン認識方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200120 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210323 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210607 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210701 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6908774 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |