JP2020525856A - 音声検索・認識方法及び装置 - Google Patents
音声検索・認識方法及び装置 Download PDFInfo
- Publication number
- JP2020525856A JP2020525856A JP2019572761A JP2019572761A JP2020525856A JP 2020525856 A JP2020525856 A JP 2020525856A JP 2019572761 A JP2019572761 A JP 2019572761A JP 2019572761 A JP2019572761 A JP 2019572761A JP 2020525856 A JP2020525856 A JP 2020525856A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- fingerprint
- speech
- search
- fingerprints
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 188
- 239000011159 matrix material Substances 0.000 claims description 89
- 230000008569 process Effects 0.000 claims description 62
- 238000003860 storage Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 36
- 239000000126 substance Substances 0.000 description 13
- 238000012545 processing Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000007792 addition Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004549 pulsed laser deposition Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/635—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/638—Presentation of query results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本願は、出願番号が201810273699.7で、出願日が2018年3月29日の中国特許出願の優先権を主張し、当該文献の全体内容は参照により本願に援用される。
認識対象の音声の音声フィンガープリントを取得し、ただし、前記音声フィンガープリントは前記認識対象の音声の内容特徴を示すための第1の部分と前記第1の部分の信頼度を示すための第2の部分とを含むことと、
前記音声フィンガープリントに基づき前記認識対象の音声に対して認識を行って、認識結果を得ることとを含む、本開示に係る音声検索・認識方法。
認識対象の音声の音声フィンガープリントを取得することは、
前記認識対象の音声をスペクトログラムに変換することと、
前記スペクトログラムにおける特徴点を決定することと、
前記スペクトログラムにおいて、前記特徴点に1つ又は複数のマスクを決定し、各前記マスクは複数のスペクトログラム領域を含むことと、
各前記スペクトログラム領域のエネルギー平均値を決定することと、
前記マスクにおける前記複数のスペクトログラム領域のエネルギー平均値に基づき音声フィンガープリントビットを決定することと、
前記音声フィンガープリントビットの信頼度を判断して強弱重みビットを決定することと、
前記音声フィンガープリントビット及び前記強弱重みビットに基づき前記認識対象の音声の音声フィンガープリントを決定することとを含む、前述した音声検索・認識方法。
1つの前記マスクに含まれた複数の前記スペクトログラム領域のエネルギー平均値の差値に基づき1つの音声フィンガープリントビットを決定することを含む、前述した音声検索・認識方法。
前記差値の絶対値が予め設定された強弱ビット閾値に達する又は超えるか否かを判断し、前記強弱ビット閾値に達している又は超えている場合、前記音声フィンガープリントビットを強ビットとして決定し、そうでない場合、前記音声フィンガープリントビットを弱ビットとして決定することと、前記音声フィンガープリントビットが強ビットか弱ビットであるかに基づき前記強弱重みビットを決定することとを含む、前述した音声検索・認識方法。
各前記サブ音声セグメントの前記音声フィンガープリントを抽出することと、
抽出して得た各前記サブ音声の前記音声フィンガープリントを組み合わせて、前記認識対象の音声の音声フィンガープリントを得ることとをさらに含む、前述した音声検索・認識方法。
各単独の前記第1の音声フィンガープリント単体に基づき複数の既存の音声に対して第1の順位付けを行い、前記第1の順位付けの結果に基づき、第1の候補音声集合として上位k個の前記既存の音声を取り出し、ただしkは正の整数であることと、
順に配列された複数の前記第1の音声フィンガープリント単体に基づき前記第1の候補音声集合に対して第2の順位付けを行い、前記第2の順位付けの結果に基づき、認識結果として上位n個の前記第1の候補音声を取り出し、ただしnは正の整数であることとを含む、前述した音声検索・認識方法。
前記第2の音声フィンガープリントに対してインデクシングを行って、前記既存の音声のフィンガープリントインデックスを得ておくこととをさらに含む、前述した音声検索・認識方法。
前記既存の音声的フィンガープリントインデックスと前記第1の音声フィンガープリント単体とのマッチングを行って、前記既存の音声に対して前記TF−IDF順位付けを行うことを含む、前述した音声検索・認識方法。
前記第2の強弱重み単体に基づき、前記既存の音声の普通フィンガープリントインデックス及び/又は転置フィンガープリントインデックスを得ておくことを含む、前述した音声検索・認識方法。
前記第1の強弱重み単体に基づき、前記音声のフィンガープリントインデックスと前記第1の音声フィンガープリント単体との正確マッチングを行うことを含む、前述した音声検索・認識方法。
前記既存の音声のフィンガープリントインデックス及び前記第1の音声フィンガープリントに基づき前記第1の候補音声集合における音声の類似度行列を得て、前記類似度行列に基づき前記第1の候補音声集合における音声に対して順位付けを行うことを含む、前述した音声検索・認識方法。
前記第1の強弱重み単体及び/又は前記第2の強弱重み単体を利用して重み付けを行って、重み付けされた前記類似度行列を得て、前記重み付けの類似度行列に基づき前記第1の候補音声集合における音声に対して順位付けを行うことを含む、前述した音声検索・認識方法。
前記類似度行列における直線に基づき前記第1の候補音声集合における音声に対して順位付けを行うことを含む、前述した音声検索・認識方法。
第2の音声フィンガープリントとして、前記既存の音声の音声フィンガープリントを取得しておくことは、前記第1の候補音声集合における音声の複数のタイプの第2の音声フィンガープリントを取得することを含み、
前記既存の音声のフィンガープリントインデックス及び前記第1の音声フィンガープリントに基づき前記第1の候補音声集合における音声の類似度行列を得ることは、前記複数のタイプの第1の音声フィンガープリント及び前記複数のタイプの第2の音声フィンガープリントに基づき前記類似度行列を決定することを含む、前述した音声検索・認識方法。
前記複数のタイプの第1の音声フィンガープリント及び前記複数のタイプの第2の音声フィンガープリントに基づき前記類似度行列を決定することは、
同一タイプの前記第2の音声フィンガープリント単体と前記第1の音声フィンガープリント単体との単体類似度をそれぞれ決定して、複数種の前記単体類似度を得ることと、前記複数種の単体類似度の平均値又は最小値に基づき前記類似度行列を決定することとを含む、前述した音声検索・認識方法。
認識対象の音声の音声フィンガープリントを取得するために用いられ、ただし、前記音声フィンガープリントは前記認識対象の音声の内容特徴を示すための第1の部分と前記第1の部分の信頼度を示すための第2の部分とを含む音声フィンガープリント取得システムと、
前記音声フィンガープリントに基づき、前記認識対象の音声に対して認識を行って、認識結果を得るための検索・認識システムとを含む、本開示に係る音声検索・認識装置。
非一時的なコンピュータ可読コマンドを記憶するためのメモリと、
前記コンピュータ可読コマンドを実行することで、前記コンピュータ可読コマンドが前記プロセッサによって実行されると前述したいずれかの音声検索・認識方法が実現されるプロセッサとを含む、本開示に係る音声検索・認識ハードウェア装置。
非一時的なコンピュータ可読コマンドを記憶するために用いられ、前記非一時的なコンピュータ可読コマンドがコンピュータによって実行されると、前記コンピュータは前述したいずれかの音声検索・認識方法を実行する、本開示に係るコンピュータ可読記憶媒体。
前述したいずれかの音声検索・認識装置を含む、本開示に係る端末機器。
ステップS10において、認識対象の音声(Query音声)の音声フィンガープリントを取得する。ただし、当該音声フィンガープリントは認識対象の音声の内容特徴を示すための第1の部分と当該第1の部分の信頼度を示すための第2の部分とを含む。次に、ステップS20の処理に進む。
図2は、本発明の一つの実施例によって提供される音声フィンガープリント取得のプロセスを概略的に示すブロック図である。任意の音声に対して、いずれも図2に示す方法で音声フィンガープリントを取得できるため、本実施例の説明において認識対象の音声であるか否かを区別しない。図2が参照されるように、本発明の一つの実施例において、上記ステップS10における音声フィンガープリント取得のプロセスは具体的に、ステップS11〜S17を含む。
ステップS11において、音声をスペクトログラム(Spectrogram)に変換する。具体的に、高速フーリエ変換(Fast Fourier Transformation)により音声信号を時間−周波数スペクトログラムに変換する。なお、スペクトログラムは一般的に使用される音声信号の二次元スペクトログラムであり、横軸は時間t、縦軸は周波数fである。図中の各点(t,f)の具体的な取得値E(t,f)は、信号のエネルギーを示す。なお、音声信号の具体的なタイプを限定せず、静的ファイル(static file)か、ストリーミング音声(streaming audio)であってもよい。次に、ステップS12の処理に進む。
時間軸に対して対称に分布する(即ち、複数のスペクトログラム領域は同一の周波数範囲を有する)。例えば、一つのメル−スペクトログラムにおいて、特徴点にR11及びR12の2つのスペクトログラム領域を含むマスクを決定してもよく、R11、R12はいずれも特徴点の左側に位置し、且つ、R11はR12の左側に位置し、R11及びR12は同一の周波数区間をカバーする。
又は、周波数軸に対して対称に分布する(即ち、複数のスペクトログラム領域は同一の時間範囲を有する)。例えば、一つのメル−スペクトログラムにおいて、特徴点にR13及びR14の2つのスペクトログラム領域を含むマスクを決定してもよく、R13は特徴点の上側に位置し、R14は特徴点の下側に位置し、且つ、R13及びR14は同一の時間範囲を有する。
又は、特徴点を中心として点対称に分布する。例えば、一つのメル−スペクトログラムにおいて、特徴点にR15及びR16の2つのスペクトログラム領域を含むマスクを決定してもよく、R15は特徴点の左上側に位置し、R16は特徴点の右下側に位置し、且つ、R15及びR16は特徴点を中心として対称に分布する。
D1=E(R11)−E(R12)…(式1)
次に、差値D1の正負を判断する。差値D1が正の値である場合、取得値が1の音声フィンガープリントビットを得る、差値D1が負の値である場合、取得値が0の音声フィンガープリントビットを得る。
D2=(E(R21)+E(R22))−(E(R23)+E(R24))…(式2)
次に、差値D2の正負を判断する。差値D2が正の値である場合、取得値が1の音声フィンガープリントビットを得る、差値D2が負の値である場合、取得値が0の音声フィンガープリントビットを得る。なお、必ずしも差値D2で4つのスペクトログラム領域を含むマスクの音声フィンガープリントビットを決定するとは限らず、他の形式の差値を利用して音声フィンガープリントビットを決定してもよい。例えば、これら4つのスペクトログラム領域のエネルギー平均値の二次差値D3を算出してもよい。
D3=(E(R23)−E(R24))−(E(R21)−E(R22))…(式3)
次に、差値D1の正負を判断して音声フィンガープリントビットを決定する。
説明と理解の便宜上、認識対象の音声の音声フィンガープリントを第1の音声フィンガープリント、第1の音声フィンガープリントに含まれた音声フィンガープリント単体を第1の音声フィンガープリント単体、第1の音声フィンガープリント単体に対応する強弱重み単体を第1の強弱重み単体と称する。
ステップS21において、当該第1の音声フィンガープリントに基づき、複数の既存の音声に対して第1の順位付けを行い、当該第1の順位付けの結果に基づき、第1の候補音声集合として上位k個の既存の音声を取り出す。ただしkは正の整数であり、kの具体的な取得値は設定可能である。具体的に、当該第1の順位付けは各単独の第1の音声フィンガープリント単体の既存の音声とマッチングした状態に基づいて行われる順位付けである。さらに、当該第1の順位付けはそれぞれの第1の音声フィンガープリント単体に基づき既存の音声に対して行われる語出現頻度−逆文書頻度順位付け(term frequency−inverse document frequency ranking、略称TF−IDF順位付け)であってもよい。次に、ステップS22の処理に進む。
上記既存の音声は音声データベースにおける音声であってもよい。当該音声データベースに既存の音声の音声フィンガープリントが記憶され、記憶されている既存の音声の音声フィンガープリントに第1の音声フィンガープリントの場合と同じ抽出方法を利用して得た第1の音声フィンガープリントと同一タイプの音声フィンガープリントが含まれるため、既存の音声の音声フィンガープリントにも音声の内容特徴を示すための第1の部分と当該第1の部分の信頼度を示すための第2の部分とが含まれる。
ステップS31において、転置フィンガープリントインデックスに基づき、それぞれの第1の音声フィンガープリント単体がどれらの既存の音声の第2の音声フィンガープリントに出現しているかを集計して、音声データベースにおいてマッチングを行って、第2の候補音声集合として予め設定された数量以上の第1の音声フィンガープリント単体を含む既存の音声を得る。なお、マッチングのプロセスにおいて、ロバスト性を向上させるために、第1の音声フィンガープリント単体に対応する強弱重み単体に基づき、当該第1の音声フィンガープリント単体における弱ビットのマッチングされた状態を無視して、当該第1の音声フィンガープリント単体における強ビットの既存の音声の第2の音声フィンガープリントにおけるマッチングされた状態を判断するだけでよい。次に、ステップS32の処理に進む。
本発明のいくつかの実施例において、当該第2の順位付けは順に配列された複数の第1の音声フィンガープリント単体からなる前後順序を有する配列の第1の候補音声の音声フィンガープリントにおける出現の状況に基づき、当該第1の候補音声集合における音声に対して行われる順位付けである。具体的に、当該第2の順位付けは、既存の音声のフィンガープリントインデックス及び第1の音声フィンガープリントに基づき当該第1の候補音声集合における音声の類似度行列を得て、当該類似度行列に基づき当該第1の候補音声集合における音声に対して順位付けを行うことを含む。なお、類似度行列を決定するプロセスにおいて、ロバスト性を向上させるために、第1の音声フィンガープリントに対応する強弱重み及び/又は既存の音声のフィンガープリントインデックスにおける強弱重みに基づき重み付けを行い、重み付けされた類似度行列を利用して第1の候補音声集合における音声に対して順位付けを行ってもよい。
ステップS41において、第1の候補音声集合における1つの第1の候補音声(ただし各第1の候補音声はいずれも既存の音声)の第2の音声フィンガープリントを取得する。具体的に、既存の音声的フィンガープリントインデックス(例えば、普通フィンガープリントインデックス)に基づき、当該第2の音声フィンガープリントを取得してもよい。認識対象の音声の第1の音声フィンガープリントがM1個の第1の音声フィンガープリント単体を含み、当該第1の候補音声の第2の音声フィンガープリントがM2個の第2の音声フィンガープリント単体を含み、ただしM1及びM2は正の整数であると仮定する。本発明のいくつかの例において、第1の音声フィンガープリントはそれぞれの第1の音声フィンガープリント単体に対応する強弱重み単体(第1の強弱重み単体と称する)を含む、且つ/又は、第2の音声フィンガープリントはそれぞれの第2の音声フィンガープリント単体に対応する強弱重み単体(第2の強弱重み単体と称する)を含む。次に、ステップS42の処理に進む。
ステップS44−1aにおいて、類似度行列における斜率が予め設定された斜率設定値の複数の直線を候補直線として定義し、各候補直線に含まれたそれぞれの単体類似度に基づき当該候補直線の直線類似度を決定する。具体的に、1つの直線の直線類似度は当該直線に含まれたそれぞれの単体類似度の平均値として設定するか、又は当該直線に含まれたそれぞれの単体類似度の和の値として設定してもよい。一つの具体例において、斜率設定値を1にすると、上記候補直線は、類似度行列における対角線及び当該対角線に平行の直線である。次に、ステップS44−1bの処理に進む。
ステップS44−2aにおいて、類似度行列から類似度極値点として単体類似度が最大の複数の点を選択する。選択された類似度極値点の数量は予め設定されてもよい。次に、ステップS44−2bの処理に進む。
ステップS51において、複数種の音声フィンガープリント抽出方法を利用して、認識対象の音声の複数のタイプの第1の音声フィンガープリントを取得し、各タイプの第1の音声フィンガープリントは音声の内容特徴を示すための複数の第1の部分を含み、これらを第1の音声フィンガープリント単体と称する。好ましくは、少なくともいくつかのタイプの第1の音声フィンガープリントは第1の部分の信頼度を示すための第2の部分を含む。例えば、認識対象の音声の、上記実施例のステップS11からステップS17に示す方法で得た音声フィンガープリント、及び他のタイプの音声フィンガープリントを同時に取得する。次に、ステップS52の処理に進む。
音声フィンガープリント取得システム1100は、認識対象の音声(Query音声)の音声フィンガープリントを取得するために用いられる。ただし、当該音声フィンガープリントは認識対象の音声の内容特徴を示すための第1の部分と当該第1の部分の信頼度を示すための第2の部分とを含む。
第1の順位付けモジュール1210は、当該第1の音声フィンガープリントに基づき、複数の既存の音声に対して第1の順位付けを行い、当該第1の順位付けの結果に基づき、第1の候補音声集合として上位k個の既存の音声を取り出すために用いられる。ただしkは正の整数であり、kの具体的な取得値は設定可能である。具体的に、当該第1の順位付けモジュール1210は、各単独の第1の音声フィンガープリント単体の、既存の音声とマッチングした状態に基づき順位付けを行うために用いられる。さらに、当該第1の順位付けモジュール1210は、それぞれの第1の音声フィンガープリント単体に基づき既存の音声に対して語出現頻度−逆文書頻度(TF−IDF)順位付けを行うためにも用いられる。
正確マッチングサブモジュール1211は、転置フィンガープリントインデックスに基づき、それぞれの第1の音声フィンガープリント単体がどれらの既存の音声の第2の音声フィンガープリントに出現しているかを集計して、音声データベースにおいてマッチングを行って、第2の候補音声集合として予め設定された数量以上の第1の音声フィンガープリント単体を含む既存の音声を得るために用いられる。なお、当該正確マッチングサブモジュール1211は具体的に、ロバスト性を向上させるために、1つの第1の音声フィンガープリント単体に対応する強弱重み単体に基づき、当該第1の音声フィンガープリント単体における弱ビットのマッチングされた状態を無視して、当該第1の音声フィンガープリント単体における強ビットの既存の音声の第2の音声フィンガープリントにおけるマッチングされた状態だけを判断するために用いられてもよい。
第2の音声フィンガープリント取得サブモジュール1221は、第1の候補音声集合における1つの第1の候補音声(ただし各第1の候補音声はいずれも既存の音声)の第2の音声フィンガープリントを取得するために用いられる。具体的に、既存の音声的フィンガープリントインデックス(例えば、普通フィンガープリントインデックス)に基づき当該第2の音声フィンガープリントを取得してもよい。本発明のいくつかの例において、第1の音声フィンガープリントはそれぞれの第1の音声フィンガープリント単体に対応する強弱重み単体(第1の強弱重み単体と称する)を含む、且つ/又は、第2の音声フィンガープリントはそれぞれの第2の音声フィンガープリント単体に対応する強弱重み単体(第2の強弱重み単体と称する)を含む。
マルチタイプの第1の音声フィンガープリント取得モジュール1300は、複数種の音声フィンガープリント取得方法を利用して、認識対象の音声の複数のタイプの第1の音声フィンガープリントを取得するために用いられ、各タイプの第1の音声フィンガープリントは音声の内容特徴を示すための複数の第1の部分を含み、これらを第1の音声フィンガープリント単体と称する。好ましくは、少なくともいくつかのタイプの第1の音声フィンガープリントは第1の部分の信頼度を示すための第2の部分を含む。
1100 音声フィンガープリント取得システム
1200 検索・認識システム
Claims (35)
- 認識対象の音声の音声フィンガープリントを取得し、ただし、前記音声フィンガープリントは前記認識対象の音声の内容特徴を示すための第1の部分と前記第1の部分の信頼度を示すための第2の部分とを含むことと、
前記音声フィンガープリントに基づき前記認識対象の音声に対して認識を行って、認識結果を得ることとを含む、音声検索・認識方法。 - 認識対象の音声の音声フィンガープリントを取得することは、
前記認識対象の音声をスペクトログラムに変換することと、
前記スペクトログラムにおける特徴点を決定することと、
前記スペクトログラムにおいて、前記特徴点に1つ又は複数のマスクを決定し、各前記マスクは複数のスペクトログラム領域を含むことと、
各前記スペクトログラム領域のエネルギー平均値を決定することと、
前記マスクにおける前記複数のスペクトログラム領域のエネルギー平均値に基づき音声フィンガープリントビットを決定することと、
前記音声フィンガープリントビットの信頼度を判断して強弱重みビットを決定することと、
前記音声フィンガープリントビット及び前記強弱重みビットに基づき前記認識対象の音声の音声フィンガープリントを決定することとを含む、請求項1に記載の音声検索・認識方法。 - 前記認識対象の音声をスペクトログラムに変換することは、高速フーリエ変換により前記認識対象の音声を時間−周波数の二次元スペクトログラムに変換することを含み、前記スペクトログラムにおける各点の取得値は前記認識対象の音声のエネルギーを示す、請求項2に記載の音声検索・認識方法。
- 前記認識対象の音声をスペクトログラムに変換することは、前記スペクトログラムに対してメル変換を行うことをさらに含む、請求項3に記載の音声検索・認識方法。
- 前記特徴点は前記スペクトログラムにおける固定点である、請求項3に記載の音声検索・認識方法。
- 前記特徴点は周波数値が予め設定された複数の周波数設定値に等しい点である、請求項5に記載の音声検索・認識方法。
- 前記特徴点は前記スペクトログラムにおけるエネルギー極大値点であるか、又は、前記特徴点は前記スペクトログラムにおけるエネルギー極小値点である、請求項3に記載の音声検索・認識方法。
- 前記マスクに含まれた複数の前記スペクトログラム領域は対称に分布する、請求項2に記載の音声検索・認識方法。
- 前記マスクに含まれた複数の前記スペクトログラム領域は同一の周波数範囲を有する、且つ/又は、同一の時間範囲を有する、且つ/又は、前記特徴点を中心として点対称に分布する、請求項8に記載の音声検索・認識方法。
- 前記スペクトログラム領域のエネルギー平均値は前記スペクトログラム領域に含まれた全ての点のエネルギー値の平均値である、請求項2に記載の音声検索・認識方法。
- 前記マスクにおける前記複数のスペクトログラム領域のエネルギー平均値に基づき音声フィンガープリントビットを決定することは、
1つの前記マスクに含まれた複数の前記スペクトログラム領域のエネルギー平均値の差値に基づき1つの音声フィンガープリントビットを決定することを含む、請求項2に記載の音声検索・認識方法。 - 前記音声フィンガープリントビットの信頼度を判断して強弱重みビットを決定することは、
前記差値の絶対値が予め設定された強弱ビット閾値に達する又は超えるか否かを判断し、前記強弱ビット閾値に達している又は超えている場合、前記音声フィンガープリントビットを強ビットとして決定し、そうでない場合、前記音声フィンガープリントビットを弱ビットとして決定することと、前記音声フィンガープリントビットが強ビットか弱ビットであるかに基づき前記強弱重みビットを決定することとを含む、請求項11に記載の音声検索・認識方法。 - 認識対象の音声を時間順に複数のサブ音声セグメントに分割することと、
各前記サブ音声セグメントの前記音声フィンガープリントを抽出することと、
抽出して得た各前記サブ音声の前記音声フィンガープリントを組み合わせて、前記認識対象の音声の音声フィンガープリントを得ることとをさらに含む、請求項2に記載の音声検索・認識方法。 - 前記認識対象の音声の音声フィンガープリントを第1の音声フィンガープリントとして定義し、前記第1の音声フィンガープリントは複数の第1の音声フィンガープリント単体及びそれぞれの前記第1の音声フィンガープリント単体に対応する第1の強弱重み単体を含み、前記第1の音声フィンガープリント単体は前記認識対象の音声の複数の前記音声フィンガープリントビットを含み、前記第1の強弱重み単体は前記複数の音声フィンガープリントビットに対応する複数の前記強弱重みビットを含む、請求項2に記載の音声検索・認識方法。
- 前記音声フィンガープリントに基づき前記認識対象の音声に対して認識を行うことは、
各単独の前記第1の音声フィンガープリント単体に基づき複数の既存の音声に対して第1の順位付けを行い、前記第1の順位付けの結果に基づき、第1の候補音声集合として上位k個の前記既存の音声を取り出し、ただしkは正の整数であることと、
順に配列された複数の前記第1の音声フィンガープリント単体に基づき前記第1の候補音声集合に対して第2の順位付けを行い、前記第2の順位付けの結果に基づき、認識結果として上位n個の前記第1の候補音声を取り出し、ただしnは正の整数であることとを含む、請求項14に記載の音声検索・認識方法。 - 第2の音声フィンガープリントとして前記既存の音声の音声フィンガープリントを予め取得しておき、前記第2の音声フィンガープリントは複数の第2の音声フィンガープリント単体及び前記第2の音声フィンガープリント単体に対応する第2の強弱重み単体を含むことと、
前記第2の音声フィンガープリントに対してインデクシングを行って、前記既存の音声のフィンガープリントインデックスを得ておくこととをさらに含む、請求項15に記載の音声検索・認識方法。 - 前記第1の順位付けを行う且つ/又は前記第2の順位付けを行うプロセスにおいて、前記第1の強弱重み単体及び/又は第2の強弱重み単体に基づき、前記第1の音声フィンガープリント単体及び/又は前記第2の音声フィンガープリント単体に対して重み付けを行う、請求項16に記載の音声検索・認識方法。
- 各単独の前記第1の音声フィンガープリント単体に基づき複数の既存の音声に対して第1の順位付けを行うことは、各単独の前記第1の音声フィンガープリント単体に基づき複数の既存の音声に対して語出現頻度−逆文書頻度(TF−IDF)順位付けを行うことを含む、請求項16に記載の音声検索・認識方法。
- 各単独の前記第1の音声フィンガープリント単体に基づき複数の既存の音声に対して語出現頻度−逆文書頻度(TF−IDF)方式の第1の順位付けを行うことは、
前記既存の音声的フィンガープリントインデックスと前記第1の音声フィンガープリント単体とのマッチングを行って、前記既存の音声に対して前記TF−IDF順位付けを行うことを含む、請求項17に記載の音声検索・認識方法。 - 前記既存の音声のフィンガープリントインデックスを得ておくことは、
前記第2の強弱重み単体に基づき、前記既存の音声の普通フィンガープリントインデックス及び/又は転置フィンガープリントインデックスを得ておくことを含む、請求項19に記載の音声検索・認識方法。 - 前記既存の音声のフィンガープリントインデックスと前記第1の音声フィンガープリント単体とのマッチングを行うことは、
前記第1の強弱重み単体に基づき、前記音声のフィンガープリントインデックスと前記第1の音声フィンガープリント単体との正確マッチングを行うことを含む、請求項19に記載の音声検索・認識方法。 - 順に配列された複数の前記第1の音声フィンガープリント単体に基づき前記第1の候補音声集合に対して第2の順位付けを行うことは、
前記既存の音声のフィンガープリントインデックス及び前記第1の音声フィンガープリントに基づき前記第1の候補音声集合における音声の類似度行列を得て、前記類似度行列に基づき前記第1の候補音声集合における音声に対して順位付けを行うことを含む、請求項16に記載の音声検索・認識方法。 - 前記既存の音声のフィンガープリントインデックス及び前記第1の音声フィンガープリントに基づき前記第1の候補音声集合における音声の類似度行列を得て、前記類似度行列に基づき前記第1の候補音声集合における音声に対して順位付けを行うことは、
前記第1の強弱重み単体及び/又は前記第2の強弱重み単体を利用して重み付けを行って、重み付けされた前記類似度行列を得て、前記重み付けの類似度行列に基づき前記第1の候補音声集合における音声に対して順位付けを行うことを含む、請求項22に記載の音声検索・認識方法。 - 前記類似度行列に基づき前記第1の候補音声集合における音声に対して順位付けを行うことは、
前記類似度行列における直線に基づき前記第1の候補音声集合における音声に対して順位付けを行うことを含む、請求項22に記載の音声検索・認識方法。 - 認識対象の音声の音声フィンガープリントを取得することは、前記認識対象の音声の複数のタイプの第1の音声フィンガープリントを取得することと、
第2の音声フィンガープリントとして、前記既存の音声の音声フィンガープリントを取得しておくことは、前記第1の候補音声集合における音声の複数のタイプの第2の音声フィンガープリントを取得することを含み、
前記既存の音声のフィンガープリントインデックス及び前記第1の音声フィンガープリントに基づき前記第1の候補音声集合における音声の類似度行列を得ることは、前記複数のタイプの第1の音声フィンガープリント及び前記複数のタイプの第2の音声フィンガープリントに基づき前記類似度行列を決定することを含む、請求項22に記載の音声検索・認識方法。 - 各タイプの前記第1の音声フィンガープリントは複数の第1の音声フィンガープリント単体を含み、各タイプの前記第2の音声フィンガープリントは複数の第2の音声フィンガープリント単体を含み、
前記複数のタイプの第1の音声フィンガープリント及び前記複数のタイプの第2の音声フィンガープリントに基づき前記類似度行列を決定することは、
同一タイプの前記第2の音声フィンガープリント単体と前記第1の音声フィンガープリント単体との単体類似度をそれぞれ決定して、複数種の前記単体類似度を得ることと、前記複数種の単体類似度の平均値又は最小値に基づき前記類似度行列を決定することとを含む、請求項25に記載の音声検索・認識方法。 - 予め設定された時間長さで認識対象の音声及び既存の音声をスライスしておき、複数の認識対象のサブ音声セグメント及び複数の既存のサブ音声セグメントを得て、前記複数の認識対象のサブ音声セグメント及び前記複数の既存のサブ音声セグメントに対してそれぞれ音声フィンガープリントを抽出して、長さが等しい複数の第1のサブ音声フィンガープリント及び複数の第2のサブ音声フィンガープリントを得ることをさらに含む、請求項16に記載の音声検索・認識方法。
- 前記第1の順位付けを行う前に、得られた認識対象の音声の前記第1の音声フィンガープリント及び既存の音声の前記第2の音声フィンガープリントに対して予め設定された長さでスライスして、長さが等しい複数の第1のサブ音声フィンガープリント及び複数の第2のサブ音声フィンガープリントを得ることをさらに含む、請求項16に記載の音声検索・認識方法。
- 前記複数の第1の音声フィンガープリント単体は前記第1の音声フィンガープリントにおいて時間順に配列され、前記複数の第2の音声フィンガープリント単体は前記第2の音声フィンガープリントにおいて時間順に配列される、請求項22に記載の音声検索・認識方法。
- 前記類似度行列に基づき、前記認識対象の音声と前記認識結果における音声とで重複するセグメントを決定することをさらに含む、請求項29に記載の音声検索・認識方法。
- 認識対象の音声の音声フィンガープリントを取得するために用いられ、ただし、前記音声フィンガープリントは前記認識対象の音声の内容特徴を示すための第1の部分と前記第1の部分の信頼度を示すための第2の部分とを含む音声フィンガープリント取得システムと、
前記音声フィンガープリントに基づき、前記認識対象の音声に対して認識を行って、認識結果を得るための検索・認識システムとを含む、音声検索・認識装置。 - 請求項2から請求項30のいずれか1項に記載のステップを実行するモジュールをさらに含む、請求項31に記載の音声検索・認識装置。
- 非一時的なコンピュータ可読コマンドを記憶するためのメモリと、
前記コンピュータ可読コマンドを実行することで、前記コンピュータ可読コマンドがプロセッサによって実行されると請求項1から請求項30のいずれか1項に記載の音声検索・認識方法が実現されるプロセッサとを含む、音声検索・認識ハードウェア装置。 - 非一時的なコンピュータ可読コマンドを記憶するために用いられ、前記非一時的なコンピュータ可読コマンドがコンピュータによって実行されると、前記コンピュータは請求項1から請求項30のいずれか1項に記載の音声検索・認識方法を実行する、コンピュータ可読記憶媒体。
- 請求項31又は請求項32に記載の音声検索・認識装置を含む、端末機器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810273699.7 | 2018-03-29 | ||
CN201810273699.7A CN110322897B (zh) | 2018-03-29 | 2018-03-29 | 一种音频检索识别方法及装置 |
PCT/CN2018/125493 WO2019184518A1 (zh) | 2018-03-29 | 2018-12-29 | 一种音频检索识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020525856A true JP2020525856A (ja) | 2020-08-27 |
JP6906641B2 JP6906641B2 (ja) | 2021-07-21 |
Family
ID=68062454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019572761A Active JP6906641B2 (ja) | 2018-03-29 | 2018-12-29 | 音声検索・認識方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11182426B2 (ja) |
JP (1) | JP6906641B2 (ja) |
CN (1) | CN110322897B (ja) |
SG (1) | SG11202008548VA (ja) |
WO (1) | WO2019184518A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022048130A (ja) * | 2020-09-14 | 2022-03-25 | ネイバー コーポレーション | 音源を検出するための電子装置およびその作動方法 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569373B (zh) * | 2018-03-29 | 2022-05-13 | 北京字节跳动网络技术有限公司 | 一种媒体特征的比对方法及装置 |
CN111986698B (zh) * | 2019-05-24 | 2023-06-30 | 腾讯科技(深圳)有限公司 | 音频片段的匹配方法、装置、计算机可读介质及电子设备 |
KR20210009596A (ko) * | 2019-07-17 | 2021-01-27 | 엘지전자 주식회사 | 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스 |
CA3098349C (en) | 2019-11-29 | 2023-04-04 | Alipay (Hangzhou) Information Technology Co., Ltd. | Methods and devices for storing and managing audio data on blockchain |
CN111489757B (zh) * | 2020-03-26 | 2023-08-18 | 北京达佳互联信息技术有限公司 | 音频处理方法、装置、电子设备及可读存储介质 |
CN111460215B (zh) * | 2020-03-30 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、计算机设备以及存储介质 |
CN114020958B (zh) * | 2021-09-26 | 2022-12-06 | 天翼爱音乐文化科技有限公司 | 一种音乐分享方法、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004505328A (ja) * | 2000-07-31 | 2004-02-19 | シャザム エンターテインメント リミテッド | 高い雑音、歪み環境下でサウンド・楽音信号を認識するシステムおよび方法 |
JP2004519015A (ja) * | 2001-02-12 | 2004-06-24 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | マルチメディア・コンテンツのハッシュの生成および突合せ |
US20140310006A1 (en) * | 2011-08-29 | 2014-10-16 | Telefonica, S.A. | Method to generate audio fingerprints |
CN106663102A (zh) * | 2014-04-04 | 2017-05-10 | Teletrax有限公司 | 用于生成信息信号的指纹的方法和装置 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010022303A1 (en) * | 2008-08-22 | 2010-02-25 | Dolby Laboratories Licensing Corporation | Content identification and quality monitoring |
US20150254342A1 (en) * | 2011-05-30 | 2015-09-10 | Lei Yu | Video dna (vdna) method and system for multi-dimensional content matching |
US9009149B2 (en) * | 2011-12-06 | 2015-04-14 | The Trustees Of Columbia University In The City Of New York | Systems and methods for mobile search using Bag of Hash Bits and boundary reranking |
US8681950B2 (en) * | 2012-03-28 | 2014-03-25 | Interactive Intelligence, Inc. | System and method for fingerprinting datasets |
CN103971689B (zh) * | 2013-02-04 | 2016-01-27 | 腾讯科技(深圳)有限公司 | 一种音频识别方法及装置 |
US11289077B2 (en) * | 2014-07-15 | 2022-03-29 | Avaya Inc. | Systems and methods for speech analytics and phrase spotting using phoneme sequences |
CN104142984B (zh) * | 2014-07-18 | 2017-04-05 | 电子科技大学 | 一种基于粗细粒度的视频指纹检索方法 |
US9837101B2 (en) * | 2014-11-25 | 2017-12-05 | Facebook, Inc. | Indexing based on time-variant transforms of an audio signal's spectrogram |
US9740775B2 (en) * | 2015-03-13 | 2017-08-22 | TCL Research America Inc. | Video retrieval based on optimized selected fingerprints |
CN104778276A (zh) * | 2015-04-29 | 2015-07-15 | 北京航空航天大学 | 一种基于改进tf-idf的多索引合并排序算法 |
US20170097992A1 (en) * | 2015-10-02 | 2017-04-06 | Evergig Music S.A.S.U. | Systems and methods for searching, comparing and/or matching digital audio files |
CN107293307B (zh) * | 2016-03-31 | 2021-07-16 | 阿里巴巴集团控股有限公司 | 音频检测方法及装置 |
US20170309298A1 (en) * | 2016-04-20 | 2017-10-26 | Gracenote, Inc. | Digital fingerprint indexing |
CN106940996A (zh) | 2017-04-24 | 2017-07-11 | 维沃移动通信有限公司 | 一种视频中背景音乐的识别方法和移动终端 |
US10236005B2 (en) * | 2017-06-08 | 2019-03-19 | The Nielsen Company (Us), Llc | Methods and apparatus for audio signature generation and matching |
CN107402965B (zh) * | 2017-06-22 | 2020-04-28 | 中国农业大学 | 一种音频检索方法 |
CN107577773A (zh) | 2017-09-08 | 2018-01-12 | 科大讯飞股份有限公司 | 一种音频匹配方法与装置、电子设备 |
CN107622773B (zh) * | 2017-09-08 | 2021-04-06 | 科大讯飞股份有限公司 | 一种音频特征提取方法与装置、电子设备 |
CN107633078B (zh) * | 2017-09-25 | 2019-02-22 | 北京达佳互联信息技术有限公司 | 音频指纹提取方法、音视频检测方法、装置及终端 |
-
2018
- 2018-03-29 CN CN201810273699.7A patent/CN110322897B/zh active Active
- 2018-12-29 WO PCT/CN2018/125493 patent/WO2019184518A1/zh active Application Filing
- 2018-12-29 SG SG11202008548VA patent/SG11202008548VA/en unknown
- 2018-12-29 JP JP2019572761A patent/JP6906641B2/ja active Active
- 2018-12-29 US US16/636,579 patent/US11182426B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004505328A (ja) * | 2000-07-31 | 2004-02-19 | シャザム エンターテインメント リミテッド | 高い雑音、歪み環境下でサウンド・楽音信号を認識するシステムおよび方法 |
JP2004519015A (ja) * | 2001-02-12 | 2004-06-24 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | マルチメディア・コンテンツのハッシュの生成および突合せ |
US20140310006A1 (en) * | 2011-08-29 | 2014-10-16 | Telefonica, S.A. | Method to generate audio fingerprints |
CN106663102A (zh) * | 2014-04-04 | 2017-05-10 | Teletrax有限公司 | 用于生成信息信号的指纹的方法和装置 |
Non-Patent Citations (1)
Title |
---|
"MASK: Robust Local Features for Audio Fingerprinting", 2012 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO, JPN6020049992, 9 July 2012 (2012-07-09), pages 455 - 460, ISSN: 0004415792 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022048130A (ja) * | 2020-09-14 | 2022-03-25 | ネイバー コーポレーション | 音源を検出するための電子装置およびその作動方法 |
JP7314221B2 (ja) | 2020-09-14 | 2023-07-25 | ネイバー コーポレーション | 音源を検出するための電子装置およびその作動方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110322897B (zh) | 2021-09-03 |
WO2019184518A1 (zh) | 2019-10-03 |
SG11202008548VA (en) | 2020-10-29 |
US11182426B2 (en) | 2021-11-23 |
JP6906641B2 (ja) | 2021-07-21 |
US20210165827A1 (en) | 2021-06-03 |
CN110322897A (zh) | 2019-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6906641B2 (ja) | 音声検索・認識方法及び装置 | |
US10346257B2 (en) | Method and device for deduplicating web page | |
CN109657213B (zh) | 文本相似度检测方法、装置和电子设备 | |
US9280595B2 (en) | Application query conversion | |
US8275177B2 (en) | System and method for media fingerprint indexing | |
US7772478B2 (en) | Understanding music | |
US20140280304A1 (en) | Matching versions of a known song to an unknown song | |
US20220366880A1 (en) | Method and electronic device for recognizing song, and storage medium | |
WO2020114100A1 (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN108170650B (zh) | 文本比较方法以及文本比较装置 | |
JP6908774B2 (ja) | オーディオ指紋抽出方法及び装置 | |
Kiktova-Vozarikova et al. | Feature selection for acoustic events detection | |
AU2017216520A1 (en) | Common data repository for improving transactional efficiencies of user interactions with a computing device | |
US9053087B2 (en) | Automatic semantic evaluation of speech recognition results | |
Wang et al. | A histogram density modeling approach to music emotion recognition | |
CN108345679B (zh) | 一种音视频检索方法、装置、设备及可读存储介质 | |
CN111104572A (zh) | 用于模型训练的特征选择方法、装置及电子设备 | |
US11874869B2 (en) | Media retrieval method and apparatus | |
US10776420B2 (en) | Fingerprint clustering for content-based audio recognition | |
CN103870476A (zh) | 检索方法及设备 | |
Aryafar et al. | Multimodal music and lyrics fusion classifier for artist identification | |
CN112800314B (zh) | 搜索引擎询问自动补全的方法、系统、存储介质及设备 | |
JP5868262B2 (ja) | 画像検索装置、画像検索方法 | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
CN111552864B (zh) | 一种资讯去重的方法、系统、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191227 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210323 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210531 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210629 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6906641 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |