JP2016512610A - オーディオ認識のための方法およびデバイス - Google Patents
オーディオ認識のための方法およびデバイス Download PDFInfo
- Publication number
- JP2016512610A JP2016512610A JP2015555549A JP2015555549A JP2016512610A JP 2016512610 A JP2016512610 A JP 2016512610A JP 2015555549 A JP2015555549 A JP 2015555549A JP 2015555549 A JP2015555549 A JP 2015555549A JP 2016512610 A JP2016512610 A JP 2016512610A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- feature information
- document
- peak value
- audio document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000004364 calculation method Methods 0.000 claims abstract description 56
- 230000008569 process Effects 0.000 claims description 40
- 230000006835 compression Effects 0.000 claims description 17
- 238000007906 compression Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 5
- 230000000977 initiatory effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 36
- 238000012545 processing Methods 0.000 description 27
- 230000005236 sound signal Effects 0.000 description 20
- 238000004891 communication Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 19
- 238000001228 spectrum Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000009432 framing Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 239000007787 solid Substances 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000006837 decompression Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H5/00—Instruments in which the tones are generated by means of electronic generators
- G10H5/005—Voice controlled instruments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Library & Information Science (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Auxiliary Devices For Music (AREA)
- Stereophonic System (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
Abstract
Description
構造は、以下のように示される。
ガープリントの系列は、上述した第1のオーディオ文書の第1の特徴情報をともに構成する。次に、サーバは、事前確立されたデータベースから第1の特徴情報に一致する少なくとも1つの第2の特徴情報を検索および取得する。次に、サーバは、上述した少なくとも1つの第2の特徴情報で第2の特徴情報の各々に対応する第2のオーディオ文書の属性データを取得する。次に、サーバは、クライアントデバイスに送信する前述した第1のオーディオ文書の認識結果として、上述した第2のオーディオ文書の属性データを取る。
に示されている。
102M 計算モジュール
103M 認識モジュール
104M 取得モジュール
105M 結果出力モジュール
300a クライアントデバイス
300b サーバ
302a プロセッサ
304a メモリ
306a I/Oインターフェース
306a 入力/出力インターフェース
308a ネットワーク通信インターフェース
310a 通信バス
312a オペレーティングシステム
312b オペレーティングシステム
314a I/Oモジュール
314b I/Oモジュール
316a 通信モジュール
316b 通信モジュール
318a 動作制御モジュール
318b 動作制御モジュール
320 収集モジュール
322 T-F分析モジュール
322 時間周波数分析モジュール
324 特徴抽出モジュール
326 圧縮モジュール
328 送信モジュール
330 受信モジュール
332 結果提示モジュール
334 受信モジュール
336 伸張モジュール
338 データベース確立モジュール
340 ペアリングモジュール
342 ハッシュ計算モジュール
344 認識モジュール
346 取得モジュール
348 結果出力モジュール
350 データベース
1201M 時間周波数分析ユニット
1202M 特徴抽出モジュール
1203M ペアリング処理ユニット
1204M 計算ユニット
1211M フレーミング処理サブユニット
1212M 変換サブユニット
1213M 振幅抽出サブユニット
1214M 描写サブユニット
1215M 分離サブユニット
1301M 特徴比較ユニット
1302M 重み付け処理ユニット
1303M 候補リスト生成ユニット
1304M 依存関係計算ユニット
1305M 一致ユニット
Claims (20)
オーディオ認識要求に応じて認識される第1のオーディオ文書を収集するステップと、
前記第1のオーディオ文書に対して第1の事前設定された数の位相チャネルを生成するために、前記第1のオーディオ文書に対する時間周波数分析を行うステップと、
前記第1の事前設定された数の位相チャネルの各位相チャネルから少なくとも1つのピーク値特徴点を抽出するステップであって、各位相チャネルの少なくとも1つのピーク値特徴点は、前記各位相チャネルのピーク値特徴点の系列を構成するステップと、
を含む前記第1のオーディオ文書の第1の特徴情報の計算を開始するステップと、
前記第1のオーディオ文書に対する認識結果を取得するステップであって、前記認識結果は、1つまたは複数の事前設定された基準により、前記第1の特徴情報に一致する第2の特徴情報を持つ少なくとも1つの第2のオーディオ文書を含み、前記第1の特徴情報は、前記事前設定された数の位相チャネルのそれぞれのピーク値特徴点の系列に基づいて計算されるステップと
を含むオーディオ認識を実行する方法。
をさらに含む請求項1に記載の方法。
をさらに含む請求項2に記載の方法。
前記複数の既知のオーディオ文書の各々に対してそれぞれの特徴情報を計算するステップであって、前記複数の既知のオーディオ文書の各々に対するそれぞれの特徴情報は、前記各既知のオーディオ文書に対するオーディオフィンガープリントの系列のそれぞれの集合を含み、前記各既知のオーディオ文書に対するオーディオフィンガープリントの系列のそれぞれの集合の各々は、それぞれのハッシュコードを持つステップと、
それぞれのハッシュコードにより、ハッシュテーブルに前記複数の既知のオーディオ文書に対するオーディオフィンガープリントの系列のそれぞれの集合を格納するステップと
をさらに含むステップ
をさらに含む請求項1に記載の方法。
前記第1のオーディオ文書に対して前記各位相チャネルのピーク値特性点のペアの系列を形成するために、前記第1のオーディオ文書の前記事前設定された数の位相チャネルの各々のピーク値特性点の系列において各ピーク値特性点に対してペアリング処理を実行するステップと、
前記第1のオーディオ文書の前記事前設定された数の位相チャネルの各々に対応するそれぞれのオーディオフィンガープリントの系列を取得するために、前記第1のオーディオ文書の各位相チャネルにおいて、前記ピーク値特性点のペアの系列の各々に対してハッシュ計算を実施するステップであって、前記第1の事前設定された数の位相チャネルに対応するオーディオフィンガープリントの系列は、前記第1のオーディオ文書の第1の特徴情報をともに構成するステップと
を含むステップ
をさらに含む請求項4に記載の方法。
前記それぞれの比較結果により、前記事前確立されたデータベースの各既知のオーディオ文書のそれぞれのトラック識別子に対して重み付け処理を実施するステップと、
前記それぞれのトラック識別子に対する重みスコアを低下させる命令により、文書候補リストを構成するために、前記事前確立されたデータベースから第2の事前設定された数の既知のオーディオ文書のそれぞれの特徴情報を選択するステップと、
をさらに含む請求項5に記載の方法。
前記文書候補リストから前記第1の特徴情報に一致する前記少なくとも1つの第2の特徴情報を選択するステップであって、前記第2の特徴情報と前記第1の特徴情報との間のそれぞれの時間依存性は、事前設定されたしきい値を超えるステップと
をさらに含む請求項6に記載の方法。
命令が格納されたメモリであって、前記命令は、1つまたは複数のプロセッサによって実行されたときに、前記プロセッサが
オーディオ認識要求に応じて認識される第1のオーディオ文書を収集するステップと、
前記第1のオーディオ文書に対して第1の事前設定された数の位相チャネルを生成するために、前記第1のオーディオ文書に対する時間周波数分析を行うステップと、
前記第1の事前設定された数の位相チャネルの各位相チャネルから少なくとも1つのピーク値特徴点を抽出するステップであって、各位相チャネルの少なくとも1つのピーク値特徴点は、前記各位相チャネルのピーク値特徴点の系列を構成するステップと、
を含む前記第1のオーディオ文書の第1の特徴情報の計算を開始するステップと、
前記第1のオーディオ文書に対する認識結果を取得するステップであって、前記認識結果は、1つまたは複数の事前設定された基準により、前記第1の特徴情報に一致する第2の特徴情報を持つ少なくとも1つの第2のオーディオ文書を含み、前記第1の特徴情報は、前記事前設定された数の位相チャネルのそれぞれのピーク値特徴点の系列に基づいて計算されるステップと
を含む動作を実行することを生じさせるメモリと
を含むオーディオ認識を実行するためのシステム。
前記事前設定された数の位相チャネルのそれぞれのピーク値特徴点の系列をサーバに送信するステップであって、前記サーバは、前記事前設定された数の位相チャネルのそれぞれのピーク値特徴点の系列に基づいて、前記第1の特徴情報の計算を完了するステップ
をさらに含む請求項8に記載のシステム。
前記送信するステップの前に、前記それぞれのピーク値特徴点の系列に対するそれぞれの時間値で第1のタイプの圧縮および前記それぞれのピーク値特徴点の系列に対するそれぞれの周波数値で第2のタイプの圧縮を実行するステップ
をさらに含む請求項9に記載のシステム。
複数の既知のオーディオ文書のデータベースを事前確立するステップであって、各既知のオーディオ文書は、それぞれの一意のトラック識別子を持ち、前記事前確立するステップは、
前記複数の既知のオーディオ文書の各々に対してそれぞれの特徴情報を計算するステップであって、前記複数の既知のオーディオ文書の各々に対するそれぞれの特徴情報は、前記各既知のオーディオ文書に対するオーディオフィンガープリントの系列のそれぞれの集合を含み、前記各既知のオーディオ文書に対するオーディオフィンガープリントの系列のそれぞれの集合の各々は、それぞれのハッシュコードを持つステップと、
それぞれのハッシュコードにより、ハッシュテーブルに前記複数の既知のオーディオ文書に対するオーディオフィンガープリントの系列のそれぞれの集合を格納するステップと
をさらに含むステップ
をさらに含む請求項8に記載のシステム。
前記第1のオーディオ文書の第1の特徴情報の計算を継続するステップであって、
前記第1のオーディオ文書に対して前記各位相チャネルのピーク値特性点のペアの系列を形成するために、前記第1のオーディオ文書の前記事前設定された数の位相チャネルの各々のピーク値特性点の系列において各ピーク値特性点に対してペアリング処理を実行するステップと、
前記第1のオーディオ文書の前記事前設定された数の位相チャネルの各々に対応するそれぞれのオーディオフィンガープリントの系列を取得するために、前記第1のオーディオ文書の各位相チャネルにおいて、前記ピーク値特性点のペアの系列の各々に対してハッシュ計算を実施するステップであって、前記第1の事前設定された数の位相チャネルに対応するオーディオフィンガープリントの系列は、前記第1のオーディオ文書の第1の特徴情報をともに構成するステップと
を含むステップ
をさらに含む請求項11に記載のシステム。
それぞれの比較結果を取得するために、前記第1の特徴情報を前記事前確立されたデータベースに格納されている各既知のオーディオ文書のそれぞれの特徴情報と比較するステップと、
前記それぞれの比較結果により、前記事前確立されたデータベースの各既知のオーディオ文書のそれぞれのトラック識別子に対して重み付け処理を実施するステップと、
前記それぞれのトラック識別子に対する重みスコアを低下させる命令により、文書候補リストを構成するために、前記事前確立されたデータベースから第2の事前設定された数の既知のオーディオ文書のそれぞれの特徴情報を選択するステップと、
をさらに含む請求項12に記載のシステム。
前記第1の特徴情報と、前記文書候補リストの各既知のオーディオ文書のそれぞれの特徴情報との間のそれぞれの時間依存性を計算するステップと、
前記文書候補リストから前記第1の特徴情報に一致する前記少なくとも1つの第2の特徴情報を選択するステップであって、前記第2の特徴情報と前記第1の特徴情報との間のそれぞれの時間依存性は、事前設定されたしきい値を超えるステップと
をさらに含む請求項13に記載のシステム。
オーディオ認識要求に応じて認識される第1のオーディオ文書を収集するステップと、
前記第1のオーディオ文書に対して第1の事前設定された数の位相チャネルを生成するために、前記第1のオーディオ文書に対する時間周波数分析を行うステップと、
前記第1の事前設定された数の位相チャネルの各位相チャネルから少なくとも1つのピーク値特徴点を抽出するステップであって、各位相チャネルの少なくとも1つのピーク値特徴点は、前記各位相チャネルのピーク値特徴点の系列を構成するステップと、
を含む前記第1のオーディオ文書の第1の特徴情報の計算を開始するステップと、
前記第1のオーディオ文書に対する認識結果を取得するステップであって、前記認識結果は、1つまたは複数の事前設定された基準により、前記第1の特徴情報に一致する第2の特徴情報を持つ少なくとも1つの第2のオーディオ文書を含み、前記第1の特徴情報は、前記事前設定された数の位相チャネルのそれぞれのピーク値特徴点の系列に基づいて計算されるステップと
を含む動作を実行することを生じさせる
非一時的コンピュータ可読媒体。
前記事前設定された数の位相チャネルのそれぞれのピーク値特徴点の系列をサーバに送信するステップであって、前記サーバは、前記事前設定された数の位相チャネルのそれぞれのピーク値特徴点の系列に基づいて、前記第1の特徴情報の計算を完了するステップ
をさらに含む請求項15に記載のコンピュータ可読媒体。
前記送信するステップの前に、前記それぞれのピーク値特徴点の系列に対するそれぞれの時間値で第1のタイプの圧縮および前記それぞれのピーク値特徴点の系列に対するそれぞれの周波数値で第2のタイプの圧縮を実行するステップ
をさらに含む請求項16に記載のコンピュータ可読媒体。
複数の既知のオーディオ文書のデータベースを事前確立するステップであって、各既知のオーディオ文書は、それぞれの一意のトラック識別子を持ち、前記事前確立するステップは、
前記複数の既知のオーディオ文書の各々に対してそれぞれの特徴情報を計算するステップであって、前記複数の既知のオーディオ文書の各々に対するそれぞれの特徴情報は、前記各既知のオーディオ文書に対するオーディオフィンガープリントの系列のそれぞれの集合を含み、前記各既知のオーディオ文書に対するオーディオフィンガープリントの系列のそれぞれの集合の各々は、それぞれのハッシュコードを持つステップと
それぞれのハッシュコードにより、ハッシュテーブルに前記複数の既知のオーディオ文書に対するオーディオフィンガープリントの系列のそれぞれの集合を格納するステップと
をさらに含むステップ
をさらに含む請求項15に記載のコンピュータ可読媒体。
前記第1のオーディオ文書の第1の特徴情報の計算を継続するステップであって、
前記第1のオーディオ文書に対して前記各位相チャネルのピーク値特性点のペアの系列を形成するために、前記第1のオーディオ文書の事前設定された数の位相チャネルの各々のピーク値特性点の系列において各ピーク値特性点に対してペアリング処理を実行するステップと、
前記第1のオーディオ文書の事前設定された数の位相チャネルの各々に対応するそれぞれのオーディオフィンガープリントの系列を取得するために、前記第1のオーディオ文書の各位相チャネルにおいて、前記ピーク値特性点のペアの系列の各々に対してハッシュ計算を実施するステップであって、前記第1の事前設定された数の位相チャネルに対応するオーディオフィンガープリントの系列は、前記第1のオーディオ文書の第1の特徴情報をともに構成するステップと
を含むステップ
をさらに含む請求項18に記載のコンピュータ可読媒体。
それぞれの比較結果を取得するために、前記第1の特徴情報を前記事前確立されたデータベースに格納されている各既知のオーディオ文書のそれぞれの特徴情報と比較するステップと、
前記それぞれの比較結果により、前記事前確立されたデータベースの各既知のオーディオ文書のそれぞれのトラック識別子に対して重み付け処理を実施するステップと、
前記それぞれのトラック識別子に対する重みスコアを低下させる命令により、文書候補リストを構成するために、前記事前確立されたデータベースから第2の事前設定された数の既知のオーディオ文書のそれぞれの特徴情報を選択するステップと、
前記第1の特徴情報と、前記文書候補リストの各既知のオーディオ文書のそれぞれの特徴情報との間のそれぞれの時間依存性を計算するステップと、
前記文書候補リストから前記第1の特徴情報に一致する前記少なくとも1つの第2の特徴情報を選択するステップであって、前記第2の特徴情報と前記第1の特徴情報との間のそれぞれの時間依存性は、事前設定されたしきい値を超えるステップと
をさらに含む請求項19に記載のコンピュータ可読媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310042408.0 | 2013-02-04 | ||
CN201310042408.0A CN103971689B (zh) | 2013-02-04 | 2013-02-04 | 一种音频识别方法及装置 |
PCT/CN2013/085309 WO2014117542A1 (en) | 2013-02-04 | 2013-10-16 | Method and device for audio recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016512610A true JP2016512610A (ja) | 2016-04-28 |
JP6090881B2 JP6090881B2 (ja) | 2017-03-08 |
Family
ID=51241107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015555549A Active JP6090881B2 (ja) | 2013-02-04 | 2013-10-16 | オーディオ認識のための方法およびデバイス |
Country Status (7)
Country | Link |
---|---|
JP (1) | JP6090881B2 (ja) |
KR (1) | KR101625944B1 (ja) |
CN (1) | CN103971689B (ja) |
BR (1) | BR112015018597A2 (ja) |
CA (1) | CA2899657C (ja) |
TW (1) | TWI494917B (ja) |
WO (1) | WO2014117542A1 (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9324330B2 (en) * | 2012-03-29 | 2016-04-26 | Smule, Inc. | Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm |
US9837068B2 (en) * | 2014-10-22 | 2017-12-05 | Qualcomm Incorporated | Sound sample verification for generating sound detection model |
CN107851442B (zh) * | 2015-04-13 | 2021-07-20 | 日本电信电话株式会社 | 匹配装置、判定装置、它们的方法、程序及记录介质 |
EP3304251B1 (en) * | 2015-06-03 | 2023-10-11 | Razer (Asia-Pacific) Pte. Ltd. | Haptics devices and methods for controlling a haptics device |
CN105139866B (zh) * | 2015-08-10 | 2018-10-16 | 泉州师范学院 | 南音的识别方法及装置 |
CN106558318B (zh) * | 2015-09-24 | 2020-04-28 | 阿里巴巴集团控股有限公司 | 音频识别方法和系统 |
CN105632513A (zh) * | 2015-12-18 | 2016-06-01 | 合肥寰景信息技术有限公司 | 一种网络社区的语音过滤方法 |
CN105575400A (zh) * | 2015-12-24 | 2016-05-11 | 广东欧珀移动通信有限公司 | 一种获取歌曲信息的方法、终端、服务器和系统 |
CN105589970A (zh) * | 2015-12-25 | 2016-05-18 | 小米科技有限责任公司 | 音乐搜索方法和装置 |
EP3208800A1 (en) | 2016-02-17 | 2017-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for stereo filing in multichannel coding |
CN105868397B (zh) | 2016-04-19 | 2020-12-01 | 腾讯科技(深圳)有限公司 | 一种歌曲确定方法和装置 |
CN105825850B (zh) * | 2016-04-29 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 一种音频处理方法及装置 |
CN106708465A (zh) * | 2016-12-16 | 2017-05-24 | 北京小米移动软件有限公司 | 智能鞋的控制方法及装置 |
CN108205546B (zh) * | 2016-12-16 | 2021-01-12 | 北京酷我科技有限公司 | 一种歌曲信息的匹配系统及方法 |
CN110322897B (zh) | 2018-03-29 | 2021-09-03 | 北京字节跳动网络技术有限公司 | 一种音频检索识别方法及装置 |
CN110209872B (zh) * | 2019-05-29 | 2021-06-22 | 天翼爱音乐文化科技有限公司 | 片段音频歌词生成方法、装置、计算机设备和存储介质 |
CN110289013B (zh) * | 2019-07-24 | 2023-12-19 | 腾讯科技(深圳)有限公司 | 多音频采集源检测方法、装置、存储介质和计算机设备 |
CN111161758B (zh) * | 2019-12-04 | 2023-03-31 | 厦门快商通科技股份有限公司 | 一种基于音频指纹的听歌识曲方法、系统及音频设备 |
CN112037815B (zh) * | 2020-08-28 | 2024-09-06 | 中移(杭州)信息技术有限公司 | 音频指纹提取方法、服务器、存储介质 |
CN112784098B (zh) * | 2021-01-28 | 2024-08-09 | 百果园技术(新加坡)有限公司 | 一种音频搜索方法、装置、计算机设备和存储介质 |
CN113268630B (zh) * | 2021-06-08 | 2023-03-10 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频检索方法、设备及介质 |
CN113836346B (zh) * | 2021-09-08 | 2023-08-08 | 网易(杭州)网络有限公司 | 为音频文件生成摘要的方法、装置、计算设备及存储介质 |
WO2024077452A1 (zh) * | 2022-10-10 | 2024-04-18 | 广州酷狗计算机科技有限公司 | 音频处理方法、装置、设备及存储介质 |
CN115910042B (zh) * | 2023-01-09 | 2023-05-05 | 百融至信(北京)科技有限公司 | 识别格式化音频文件的信息种类的方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62159195A (ja) * | 1986-01-06 | 1987-07-15 | 沖電気工業株式会社 | 音声パタン作成方法 |
WO2001004870A1 (en) * | 1999-07-08 | 2001-01-18 | Constantin Papaodysseus | Method of automatic recognition of musical compositions and sound signals |
JP2004505328A (ja) * | 2000-07-31 | 2004-02-19 | シャザム エンターテインメント リミテッド | 高い雑音、歪み環境下でサウンド・楽音信号を認識するシステムおよび方法 |
JP2005524108A (ja) * | 2002-04-25 | 2005-08-11 | シャザム・エンタテインメント・リミテッド | ロバストかつインバリアントな音声パターンマッチング |
JP2006106535A (ja) * | 2004-10-08 | 2006-04-20 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号蓄積検索装置、及び音響信号蓄積検索プログラム |
US20110307085A1 (en) * | 2010-06-09 | 2011-12-15 | Selby Alexander Paul | System and Method for Media Recognition |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7277766B1 (en) * | 2000-10-24 | 2007-10-02 | Moodlogic, Inc. | Method and system for analyzing digital audio files |
SG120121A1 (en) * | 2003-09-26 | 2006-03-28 | St Microelectronics Asia | Pitch detection of speech signals |
US7672838B1 (en) * | 2003-12-01 | 2010-03-02 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals |
US20070195963A1 (en) * | 2006-02-21 | 2007-08-23 | Nokia Corporation | Measuring ear biometrics for sound optimization |
US7921116B2 (en) * | 2006-06-16 | 2011-04-05 | Microsoft Corporation | Highly meaningful multimedia metadata creation and associations |
CN101465122A (zh) * | 2007-12-20 | 2009-06-24 | 株式会社东芝 | 语音的频谱波峰的检测以及语音识别方法和系统 |
CN102053998A (zh) * | 2009-11-04 | 2011-05-11 | 周明全 | 一种利用声音方式检索歌曲的方法及系统装置 |
US8886531B2 (en) * | 2010-01-13 | 2014-11-11 | Rovi Technologies Corporation | Apparatus and method for generating an audio fingerprint and using a two-stage query |
TWI426501B (zh) * | 2010-11-29 | 2014-02-11 | Inst Information Industry | 旋律辨識方法與其裝置 |
US8818806B2 (en) * | 2010-11-30 | 2014-08-26 | JVC Kenwood Corporation | Speech processing apparatus and speech processing method |
CN102063904B (zh) * | 2010-11-30 | 2012-06-27 | 广州酷狗计算机科技有限公司 | 一种音频文件的旋律提取方法及旋律识别系统 |
US20120296458A1 (en) * | 2011-05-18 | 2012-11-22 | Microsoft Corporation | Background Audio Listening for Content Recognition |
CN102332262B (zh) * | 2011-09-23 | 2012-12-19 | 哈尔滨工业大学深圳研究生院 | 基于音频特征的歌曲智能识别方法 |
-
2013
- 2013-02-04 CN CN201310042408.0A patent/CN103971689B/zh active Active
- 2013-08-29 TW TW102131132A patent/TWI494917B/zh active
- 2013-10-16 KR KR1020157024093A patent/KR101625944B1/ko active IP Right Grant
- 2013-10-16 JP JP2015555549A patent/JP6090881B2/ja active Active
- 2013-10-16 WO PCT/CN2013/085309 patent/WO2014117542A1/en active Application Filing
- 2013-10-16 CA CA2899657A patent/CA2899657C/en active Active
- 2013-10-16 BR BR112015018597A patent/BR112015018597A2/pt not_active Application Discontinuation
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62159195A (ja) * | 1986-01-06 | 1987-07-15 | 沖電気工業株式会社 | 音声パタン作成方法 |
WO2001004870A1 (en) * | 1999-07-08 | 2001-01-18 | Constantin Papaodysseus | Method of automatic recognition of musical compositions and sound signals |
JP2004505328A (ja) * | 2000-07-31 | 2004-02-19 | シャザム エンターテインメント リミテッド | 高い雑音、歪み環境下でサウンド・楽音信号を認識するシステムおよび方法 |
JP2005524108A (ja) * | 2002-04-25 | 2005-08-11 | シャザム・エンタテインメント・リミテッド | ロバストかつインバリアントな音声パターンマッチング |
JP2006106535A (ja) * | 2004-10-08 | 2006-04-20 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号蓄積検索装置、及び音響信号蓄積検索プログラム |
US20110307085A1 (en) * | 2010-06-09 | 2011-12-15 | Selby Alexander Paul | System and Method for Media Recognition |
Also Published As
Publication number | Publication date |
---|---|
WO2014117542A1 (en) | 2014-08-07 |
CA2899657C (en) | 2017-08-01 |
KR20150108936A (ko) | 2015-09-30 |
TWI494917B (zh) | 2015-08-01 |
CN103971689B (zh) | 2016-01-27 |
CN103971689A (zh) | 2014-08-06 |
CA2899657A1 (en) | 2014-08-07 |
BR112015018597A2 (pt) | 2017-07-18 |
KR101625944B1 (ko) | 2016-05-31 |
TW201432674A (zh) | 2014-08-16 |
JP6090881B2 (ja) | 2017-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6090881B2 (ja) | オーディオ認識のための方法およびデバイス | |
US9373336B2 (en) | Method and device for audio recognition | |
US20210149939A1 (en) | Responding to remote media classification queries using classifier models and context parameters | |
US10261965B2 (en) | Audio generation method, server, and storage medium | |
US11482242B2 (en) | Audio recognition method, device and server | |
RU2647696C2 (ru) | Мобильный видеопоиск | |
WO2022052630A1 (zh) | 一种多媒体信息处理方法、装置、电子设备及存储介质 | |
KR101578279B1 (ko) | 데이터 스트림 내 콘텐트를 식별하는 방법 및 시스템 | |
US20140161263A1 (en) | Facilitating recognition of real-time content | |
KR102614021B1 (ko) | 오디오 컨텐츠 인식 방법 및 장치 | |
CN111161758B (zh) | 一种基于音频指纹的听歌识曲方法、系统及音频设备 | |
CN104768049B (zh) | 一种用于同步音频数据和视频数据的方法、系统及计算机可读存储介质 | |
US20160350415A1 (en) | Method of and a system for matching audio tracks using chromaprints with a fast candidate selection routine | |
KR20220062420A (ko) | 네트워크 시스템의 분산 식별 | |
Kim et al. | Robust audio fingerprinting using peak-pair-based hash of non-repeating foreground audio in a real environment | |
WO2019101099A1 (zh) | 视频节目识别方法、设备、终端、系统和存储介质 | |
US9881083B2 (en) | Method of and a system for indexing audio tracks using chromaprints | |
KR20080107143A (ko) | 오디오 신호처리 기반의 음악 및 동영상 추천 시스템 및방법 | |
US11640426B1 (en) | Background audio identification for query disambiguation | |
CN113196384B (zh) | 在请求时间将补充音频内容动态插入到音频记录中的方法和系统 | |
US20190304483A1 (en) | Using selected groups of users for audio enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160413 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160712 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161011 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170202 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6090881 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |