JP2020525856A - 音声検索・認識方法及び装置 - Google Patents

音声検索・認識方法及び装置 Download PDF

Info

Publication number
JP2020525856A
JP2020525856A JP2019572761A JP2019572761A JP2020525856A JP 2020525856 A JP2020525856 A JP 2020525856A JP 2019572761 A JP2019572761 A JP 2019572761A JP 2019572761 A JP2019572761 A JP 2019572761A JP 2020525856 A JP2020525856 A JP 2020525856A
Authority
JP
Japan
Prior art keywords
voice
fingerprint
speech
search
fingerprints
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019572761A
Other languages
English (en)
Other versions
JP6906641B2 (ja
Inventor
根 李
根 李
磊 李
磊 李
▲軼▼ 何
▲軼▼ 何
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Publication of JP2020525856A publication Critical patent/JP2020525856A/ja
Application granted granted Critical
Publication of JP6906641B2 publication Critical patent/JP6906641B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/638Presentation of query results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は音声検索・認識方法及び装置を開示する。前記方法は、認識対象の音声の音声フィンガープリントを取得し、ただし、前記音声フィンガープリントは前記認識対象の音声の内容特徴を示すための第1の部分と前記第1の部分の信頼度を示すための第2の部分とを含むことと、前記音声フィンガープリントに基づき前記認識対象の音声に対して認識を行って、認識結果を得ることとを含む。

Description

「関連出願の相互参照」
本願は、出願番号が201810273699.7で、出願日が2018年3月29日の中国特許出願の優先権を主張し、当該文献の全体内容は参照により本願に援用される。
本発明は、音声処理技術の分野に関し、特に、音声検索・認識方法及び装置に関する。
今の「マルチメディア情報社会」において、音声フィンガープリント(音声特徴ともいう)及び音声フィンガープリント検索は幅広く利用されている。音声フィンガープリント検索は最初に、音声による楽曲特定のために利用された。すなわち、音声セグメントを入力して、当該音声のフィンガープリント特徴を抽出又は比較して、対応する楽曲を認識することである。また、音声フィンガープリント検索は例えば、音声の重複除去、検索に基づく音声広告監視、音声著作権などのコンテンツ監視のためにも利用できる。
しかしながら、従来の音声検索・認識方法には正確性が不足し、スピードが遅いという問題があるため、いずれも大量の演算資源や記憶資源を消費している。
本発明は、新規な音声検索・認識方法及び装置を提供することを目的とする。
本開示は、以下の技術によってその目的を実現する。
認識対象の音声の音声フィンガープリントを取得し、ただし、前記音声フィンガープリントは前記認識対象の音声の内容特徴を示すための第1の部分と前記第1の部分の信頼度を示すための第2の部分とを含むことと、
前記音声フィンガープリントに基づき前記認識対象の音声に対して認識を行って、認識結果を得ることとを含む、本開示に係る音声検索・認識方法。
本開示は、さらに以下の技術によってその目的をさらに実現する。
認識対象の音声の音声フィンガープリントを取得することは、
前記認識対象の音声をスペクトログラムに変換することと、
前記スペクトログラムにおける特徴点を決定することと、
前記スペクトログラムにおいて、前記特徴点に1つ又は複数のマスクを決定し、各前記マスクは複数のスペクトログラム領域を含むことと、
各前記スペクトログラム領域のエネルギー平均値を決定することと、
前記マスクにおける前記複数のスペクトログラム領域のエネルギー平均値に基づき音声フィンガープリントビットを決定することと、
前記音声フィンガープリントビットの信頼度を判断して強弱重みビットを決定することと、
前記音声フィンガープリントビット及び前記強弱重みビットに基づき前記認識対象の音声の音声フィンガープリントを決定することとを含む、前述した音声検索・認識方法。
前記認識対象の音声をスペクトログラムに変換することは、高速フーリエ変換により前記認識対象の音声を時間−周波数の二次元スペクトログラムに変換することを含み、前記スペクトログラムにおける各点の取得値は前記認識対象の音声のエネルギーを示す、前述した音声検索・認識方法。
前記認識対象の音声をスペクトログラムに変換することは、前記スペクトログラムに対してメル変換を行うことをさらに含む、前述した音声検索・認識方法。
前記特徴点は前記スペクトログラムにおける固定点である、前述した音声検索・認識方法。
前記特徴点は周波数値が予め設定された複数の周波数設定値に等しい点である、前述した音声検索・認識方法。
前記特徴点は前記スペクトログラムにおけるエネルギー極大値点であるか、又は、前記特徴点は前記スペクトログラムにおけるエネルギー極小値点である、前述した音声検索・認識方法。
前記マスクに含まれた複数の前記スペクトログラム領域は対称に分布する、前述した音声検索・認識方法。
前記マスクに含まれた複数の前記スペクトログラム領域は同一の周波数範囲を有する、且つ/又は、同一の時間範囲を有する、且つ/又は、前記特徴点を中心として点対称に分布する、前述した音声検索・認識方法。
前記スペクトログラム領域のエネルギー平均値は前記スペクトログラム領域に含まれた全ての点のエネルギー値の平均値である、前述した音声検索・認識方法。
前記マスクにおける前記複数のスペクトログラム領域のエネルギー平均値に基づき音声フィンガープリントビットを決定することは、
1つの前記マスクに含まれた複数の前記スペクトログラム領域のエネルギー平均値の差値に基づき1つの音声フィンガープリントビットを決定することを含む、前述した音声検索・認識方法。
前記音声フィンガープリントビットの信頼度を判断して強弱重みビットを決定することは、
前記差値の絶対値が予め設定された強弱ビット閾値に達する又は超えるか否かを判断し、前記強弱ビット閾値に達している又は超えている場合、前記音声フィンガープリントビットを強ビットとして決定し、そうでない場合、前記音声フィンガープリントビットを弱ビットとして決定することと、前記音声フィンガープリントビットが強ビットか弱ビットであるかに基づき前記強弱重みビットを決定することとを含む、前述した音声検索・認識方法。
認識対象の音声を時間順に複数のサブ音声セグメントに分割することと、
各前記サブ音声セグメントの前記音声フィンガープリントを抽出することと、
抽出して得た各前記サブ音声の前記音声フィンガープリントを組み合わせて、前記認識対象の音声の音声フィンガープリントを得ることとをさらに含む、前述した音声検索・認識方法。
前記認識対象の音声の音声フィンガープリントを第1の音声フィンガープリントとして定義し、前記第1の音声フィンガープリントは複数の第1の音声フィンガープリント単体及びそれぞれの前記第1の音声フィンガープリント単体に対応する第1の強弱重み単体を含み、前記第1の音声フィンガープリント単体は前記認識対象の音声の複数の前記音声フィンガープリントビットを含み、前記第1の強弱重み単体は前記複数の音声フィンガープリントビットに対応する複数の前記強弱重みビットを含む、前述した音声検索・認識方法。
前記音声フィンガープリントに基づき前記認識対象の音声に対して認識を行うことは、
各単独の前記第1の音声フィンガープリント単体に基づき複数の既存の音声に対して第1の順位付けを行い、前記第1の順位付けの結果に基づき、第1の候補音声集合として上位k個の前記既存の音声を取り出し、ただしkは正の整数であることと、
順に配列された複数の前記第1の音声フィンガープリント単体に基づき前記第1の候補音声集合に対して第2の順位付けを行い、前記第2の順位付けの結果に基づき、認識結果として上位n個の前記第1の候補音声を取り出し、ただしnは正の整数であることとを含む、前述した音声検索・認識方法。
第2の音声フィンガープリントとして前記既存の音声の音声フィンガープリントを予め取得しておき、前記第2の音声フィンガープリントは複数の第2の音声フィンガープリント単体及び前記第2の音声フィンガープリント単体に対応する第2の強弱重み単体を含むことと、
前記第2の音声フィンガープリントに対してインデクシングを行って、前記既存の音声のフィンガープリントインデックスを得ておくこととをさらに含む、前述した音声検索・認識方法。
前記第1の順位付けを行う且つ/又は前記第2の順位付けを行うプロセスにおいて、前記第1の強弱重み単体及び/又は第2の強弱重み単体に基づき、前記第1の音声フィンガープリント単体及び/又は前記第2の音声フィンガープリント単体に対して重み付けを行う、前述した音声検索・認識方法。
各単独の前記第1の音声フィンガープリント単体に基づき複数の既存の音声に対して第1の順位付けを行うことは、各単独の前記第1の音声フィンガープリント単体に基づき複数の既存の音声に対して語出現頻度−逆文書頻度(TF−IDF)順位付けを行うことを含む、前述した音声検索・認識方法。
各単独の前記第1の音声フィンガープリント単体に基づき複数の既存の音声に対して語出現頻度−逆文書頻度(TF−IDF)方式の第1の順位付けを行うことは、
前記既存の音声的フィンガープリントインデックスと前記第1の音声フィンガープリント単体とのマッチングを行って、前記既存の音声に対して前記TF−IDF順位付けを行うことを含む、前述した音声検索・認識方法。
前記既存の音声のフィンガープリントインデックスを得ておくことは、
前記第2の強弱重み単体に基づき、前記既存の音声の普通フィンガープリントインデックス及び/又は転置フィンガープリントインデックスを得ておくことを含む、前述した音声検索・認識方法。
前記既存の音声のフィンガープリントインデックスと前記第1の音声フィンガープリント単体とのマッチングを行うことは、
前記第1の強弱重み単体に基づき、前記音声のフィンガープリントインデックスと前記第1の音声フィンガープリント単体との正確マッチングを行うことを含む、前述した音声検索・認識方法。
順に配列された複数の前記第1の音声フィンガープリント単体に基づき前記第1の候補音声集合に対して第2の順位付けを行うことは、
前記既存の音声のフィンガープリントインデックス及び前記第1の音声フィンガープリントに基づき前記第1の候補音声集合における音声の類似度行列を得て、前記類似度行列に基づき前記第1の候補音声集合における音声に対して順位付けを行うことを含む、前述した音声検索・認識方法。
前記既存の音声のフィンガープリントインデックス及び前記第1の音声フィンガープリントに基づき前記第1の候補音声集合における音声の類似度行列を得て、前記類似度行列に基づき前記第1の候補音声集合における音声に対して順位付けを行うことは、
前記第1の強弱重み単体及び/又は前記第2の強弱重み単体を利用して重み付けを行って、重み付けされた前記類似度行列を得て、前記重み付けの類似度行列に基づき前記第1の候補音声集合における音声に対して順位付けを行うことを含む、前述した音声検索・認識方法。
前記類似度行列に基づき前記第1の候補音声集合における音声に対して順位付けを行うことは、
前記類似度行列における直線に基づき前記第1の候補音声集合における音声に対して順位付けを行うことを含む、前述した音声検索・認識方法。
認識対象の音声の音声フィンガープリントを取得することは、前記認識対象の音声の複数のタイプの第1の音声フィンガープリントを取得することと、
第2の音声フィンガープリントとして、前記既存の音声の音声フィンガープリントを取得しておくことは、前記第1の候補音声集合における音声の複数のタイプの第2の音声フィンガープリントを取得することを含み、
前記既存の音声のフィンガープリントインデックス及び前記第1の音声フィンガープリントに基づき前記第1の候補音声集合における音声の類似度行列を得ることは、前記複数のタイプの第1の音声フィンガープリント及び前記複数のタイプの第2の音声フィンガープリントに基づき前記類似度行列を決定することを含む、前述した音声検索・認識方法。
各タイプの前記第1の音声フィンガープリントは複数の第1の音声フィンガープリント単体を含み、各タイプの前記第2の音声フィンガープリントは複数の第2の音声フィンガープリント単体を含み、
前記複数のタイプの第1の音声フィンガープリント及び前記複数のタイプの第2の音声フィンガープリントに基づき前記類似度行列を決定することは、
同一タイプの前記第2の音声フィンガープリント単体と前記第1の音声フィンガープリント単体との単体類似度をそれぞれ決定して、複数種の前記単体類似度を得ることと、前記複数種の単体類似度の平均値又は最小値に基づき前記類似度行列を決定することとを含む、前述した音声検索・認識方法。
予め設定された時間長さで認識対象の音声及び既存の音声をスライスしておき、複数の認識対象のサブ音声セグメント及び複数の既存のサブ音声セグメントを得て、前記複数の認識対象のサブ音声セグメント及び前記複数の既存のサブ音声セグメントに対してそれぞれ音声フィンガープリントを抽出して、長さが等しい複数の第1のサブ音声フィンガープリント及び複数の第2のサブ音声フィンガープリントを得ることをさらに含む、前述した音声検索・認識方法。
前記第1の順位付けを行う前に、得られた認識対象の音声の前記第1の音声フィンガープリント及び既存の音声の前記第2の音声フィンガープリントに対して予め設定された長さでスライスして、長さが等しい複数の第1のサブ音声フィンガープリント及び複数の第2のサブ音声フィンガープリントを得ることをさらに含む、前述した音声検索・認識方法。
前記複数の第1の音声フィンガープリント単体は前記第1の音声フィンガープリントにおいて時間順に配列され、前記複数の第2の音声フィンガープリント単体は前記第2の音声フィンガープリントにおいて時間順に配列される、前述した記載の音声検索・認識方法。
前記類似度行列に基づき、前記認識対象の音声と前記認識結果における音声とで重複するセグメントを決定することをさらに含む、前述した記載の音声検索・認識方法。
本開示は、さらに以下の技術によって、その目的をさらに実現する。
認識対象の音声の音声フィンガープリントを取得するために用いられ、ただし、前記音声フィンガープリントは前記認識対象の音声の内容特徴を示すための第1の部分と前記第1の部分の信頼度を示すための第2の部分とを含む音声フィンガープリント取得システムと、
前記音声フィンガープリントに基づき、前記認識対象の音声に対して認識を行って、認識結果を得るための検索・認識システムとを含む、本開示に係る音声検索・認識装置。
前述したいずれかの音声検索・認識方法ステップを実行するモジュールをさらに含む、前述した音声検索・認識装置。
本開示は、さらに以下の技術によって、その目的を実現する。
非一時的なコンピュータ可読コマンドを記憶するためのメモリと、
前記コンピュータ可読コマンドを実行することで、前記コンピュータ可読コマンドが前記プロセッサによって実行されると前述したいずれかの音声検索・認識方法が実現されるプロセッサとを含む、本開示に係る音声検索・認識ハードウェア装置。
本開示は、さらに以下の技術によって、その目的を実現する。
非一時的なコンピュータ可読コマンドを記憶するために用いられ、前記非一時的なコンピュータ可読コマンドがコンピュータによって実行されると、前記コンピュータは前述したいずれかの音声検索・認識方法を実行する、本開示に係るコンピュータ可読記憶媒体。
本開示は、さらに以下の技術によって、その目的を実現する。
前述したいずれかの音声検索・認識装置を含む、本開示に係る端末機器。
上述した説明は、本発明に係る技術的解決手段の概要に過ぎない。本発明に係る技術的解決手段の理解をより明確にして、明細書の内容に基づく実施を可能にし、本発明の上記目的と他の目的、特徴及び利点をより理解しやすくするために、次に、好適な実施例を挙げ図面を参照して、詳細に説明する。
本発明の一つの実施例による音声検索・認識方法のプロセスを示すブロック図である。 本発明の一つの実施例によって提供される音声フィンガープリント取得のプロセスを示すブロック図である。 本発明の一つの実施例によって提供される音声に対する検索・認識のプロセスを示すブロック図である。 本発明の一つの実施例によって提供される第1の順位付けのプロセスを示すブロック図である。 本発明の一つの実施例によって提供される第2の順位付けのプロセスを示すブロック図である。 本発明の一つの実施例によって提供される動的計画法を用いた配列類似度得点決定のプロセスを示すブロック図である。 本発明の一つの実施例によって提供される等速音声を用いた配列類似度得点決定のプロセスを示すブロック図である。 本発明の一つの実施例によって提供される複数タイプの第1の音声フィンガープリント、第2の音声フィンガープリントに基づく類似度行列決定のプロセスを示すブロック図である。 本発明の一つの実施例による音声検索・認識装置の構造を示すブロック図である。 本発明の一つの実施例によって提供される音声フィンガープリント取得システムの構造を示すブロック図である。 本発明の一つの実施例によって提供される検索・認識システムの構造を示すブロック図である。 本発明の一つの実施例によって提供される第1の順位付けモジュールの構造を示すブロック図である。 本発明の一つの実施例によって提供される第2の順位付けモジュールの構造を示すブロック図である。 本発明の一つの実施例による複数タイプの第1の音声フィンガープリント及び第2の音声フィンガープリントに基づき類似度行列を決定する音声検索・認識装置の構造を示すブロック図である。 本発明の一つの実施例による音声検索・認識ハードウェア装置のハードウェア構成を示すブロック図である。 本発明の一つの実施例によるコンピュータ可読記憶媒体を概略的に示す図である。 本発明の一つの実施例による端末機器の構造を示すブロック図である。
本発明において所定の発明目的を達成すべく採用している技術的解決手段及びその効果をさらに説明するために、次に、図面及び好適な実施例を用いて、本発明によって提供される音声検索・認識方法及び装置に係る具体的な実施形態、構造、特徴及びその効果を詳細に説明する。
図1は、本発明に係る音声検索・認識方法の一つの実施例のプロセスを概略的に示すブロック図である。図1が参照されるように、本発明に係る音声検索・認識方法の例は、主に、ステップS10と、S20とを含む。
ステップS10において、認識対象の音声(Query音声)の音声フィンガープリントを取得する。ただし、当該音声フィンガープリントは認識対象の音声の内容特徴を示すための第1の部分と当該第1の部分の信頼度を示すための第2の部分とを含む。次に、ステップS20の処理に進む。
ステップS20において、認識対象の音声の当該音声フィンガープリントに基づき認識対象の音声に対して認識を行って、認識結果を得る。
本発明に係る音声検索・認識方法の例は、音声対象の、音声の内容特徴を示すための第1の部分と第1の部分の信頼度を示すための第2の部分とを含む音声フィンガープリント特徴を取得しこれを利用して音声検索・認識を行うことにより、音声検索・認識における正確性、ロバスト性及び効率を向上できる。
次に、上述した各ステップをそれぞれ詳細に説明する。
1.ステップS10について:
図2は、本発明の一つの実施例によって提供される音声フィンガープリント取得のプロセスを概略的に示すブロック図である。任意の音声に対して、いずれも図2に示す方法で音声フィンガープリントを取得できるため、本実施例の説明において認識対象の音声であるか否かを区別しない。図2が参照されるように、本発明の一つの実施例において、上記ステップS10における音声フィンガープリント取得のプロセスは具体的に、ステップS11〜S17を含む。
ステップS11において、音声をスペクトログラム(Spectrogram)に変換する。具体的に、高速フーリエ変換(Fast Fourier Transformation)により音声信号を時間−周波数スペクトログラムに変換する。なお、スペクトログラムは一般的に使用される音声信号の二次元スペクトログラムであり、横軸は時間t、縦軸は周波数fである。図中の各点(t,f)の具体的な取得値E(t,f)は、信号のエネルギーを示す。なお、音声信号の具体的なタイプを限定せず、静的ファイル(static file)か、ストリーミング音声(streaming audio)であってもよい。次に、ステップS12の処理に進む。
本発明の実施例において、メル(MEL)変換を利用してスペクトログラムに対して前処理を行ってもよい。メル変換を利用して周波数スペクトルを複数の周波数区間(周波数bin)に分割することができ、分割して得た周波数区間の数量は設定可能である。また、スペクトログラムに対して人間聴覚系フィルタリング(Human Auditory System filtering)を行ってもよい。人間聴覚系フィルタリングなどの非線形変換を利用して、スペクトログラムにおける周波数スペクトルの分布を人間の聴覚により検知されやすいようにすることができる。
なお、高速フーリエ変換におけるそれぞれのハイパーパラメータを調整して様々な実際の状況に適合させることができる。本発明の実施例において、ステップS11でそれぞれのハイパーパラメータを以下のとおりに設定してもよい。高速フーリエ変換において、時間窓を100ms、間隔を50msに設定し、メル変換において、周波数区間の数量を32〜128に設定する。
ステップS12において、スペクトログラムにおける特徴点を決定する。
具体的に、複数ある基準のいずれか一種を利用して特徴点を決定する。例えば、スペクトログラムにおけるエネルギー極大値点を特徴点として選択するか、又は、エネルギー極小値点を選択してもよい。ただし、スペクトログラムにおける1つの点(t,f)のエネルギーE(t,f)は、E(t,f)>E(t+1,f)、E(t,f)>E(t−1,f)、E(t,f)>E(t,f+1)、且つ、E(t,f)>E(t,f−1)を同時に満たす場合、当該点(t,f)はスペクトログラムにおけるエネルギー極大値点である。同様のように、1つの点(t,f)のエネルギーE(t,f)は、E(t,f)<E(t+1,f)、E(t,f)<E(t−1,f)、E(t,f)<E(t,f+1)、且つ、E(t,f)<E(t,f−1)を同時に満たす場合、当該点(t,f)はスペクトログラムにおけるエネルギー極小値点である。次に、ステップS12の処理に進む。
本発明の実施例において、エネルギー極値点を特徴点として選択することには、エネルギー極値点がノイズに影響されやすいこと、1つのスペクトログラムに極値点がなく、別のスペクトログラムに複数の極値点があるように、極値点の数量を制御しやすく、特徴点が不均一であること、エネルギー極値点のスペクトログラムにおける位置を記録するために追加のタイムスタンプを記憶する必要があるなどの問題があるため、エネルギー極値点を特徴点として選択する代わりに、固定点を特徴点として選択してもよい。例えば、周波数値が予め設定された周波数設定値に等しい点(周波数が一定の点)を選択してもよい。さらに、周波数の大小に応じて低周波数、中間周波数、高周波数の複数の周波数設定値を予め設定してもよい(低周波数、中間周波数、高周波数の具体値は設定可能である)。周波数が低周波数、中間周波数、高周波数の複数の固定点を特徴点として選択することで、選択された特徴点はより均一になる。なお、他の基準に従って固定点を選択してもよい。例えば、1つ又は複数の予め設定されたエネルギー値に等しい点を選択する。
なお、選択された特徴点の数量を調整することで様々な実際の状況に適合させることができる。本発明の実施例において、ステップS12でハイパーパラメータの設定として、特徴点の密度を1秒当たり20〜80個に設定してもよい。
ステップS13において、スペクトログラムで、特徴点の付近に、特徴点に1つ又は複数のマスク(mask)を決定し、各マスクは、スペクトログラムにおける複数の領域(スペクトログラム領域と称する)を含む(カバーするともいう)。次に、ステップS14の処理に進む。
具体的に、スペクトログラムにおいて、各マスクに含まれた複数のスペクトログラム領域は対称に分布してもよい。
時間軸に対して対称に分布する(即ち、複数のスペクトログラム領域は同一の周波数範囲を有する)。例えば、一つのメル−スペクトログラムにおいて、特徴点にR11及びR12の2つのスペクトログラム領域を含むマスクを決定してもよく、R11、R12はいずれも特徴点の左側に位置し、且つ、R11はR12の左側に位置し、R11及びR12は同一の周波数区間をカバーする。
又は、周波数軸に対して対称に分布する(即ち、複数のスペクトログラム領域は同一の時間範囲を有する)。例えば、一つのメル−スペクトログラムにおいて、特徴点にR13及びR14の2つのスペクトログラム領域を含むマスクを決定してもよく、R13は特徴点の上側に位置し、R14は特徴点の下側に位置し、且つ、R13及びR14は同一の時間範囲を有する。
又は、特徴点を中心として点対称に分布する。例えば、一つのメル−スペクトログラムにおいて、特徴点にR15及びR16の2つのスペクトログラム領域を含むマスクを決定してもよく、R15は特徴点の左上側に位置し、R16は特徴点の右下側に位置し、且つ、R15及びR16は特徴点を中心として対称に分布する。
当然ながら、1つのマスクに含まれた複数のスペクトログラム領域は、複数種の対称分布を同時に満たす場合をも含む。例えば、特徴点にR21、R22、R23及びR24の4つのスペクトログラム領域を含むマスクを決定してもよく、R21、R22、R23、R24はそれぞれ特徴点の左上、右上、左下、右下に位置し、且つ、R21及びR22は同一の周波数範囲を有し、R23及びR24は同一の周波数範囲を有し、R21及びR23は同一の時間範囲を有し、R22及びR24は同一の時間範囲を有し、且つ、これら4つのスペクトログラム領域は特徴点を中心として点対称に分布する。なお、1つのマスクの4つのスペクトログラム領域は必ずしも特徴点を中心として点対称に分布するとは限らない。例えば、いずれも特徴点の左側に位置し、且つ、周波数軸において特徴点の両側に分布する。
なお、同一のマスクに属する複数のスペクトログラム領域同士は互いに重畳してもよい。また、異なるマスク同士は互いに重畳してもよい。好ましくは、各マスクは偶数のスペクトログラム領域を含んでもよい。
なお、マスクは予め設定された一定の基準に従って決定されてもよい、即ち各マスクのスペクトログラムにおける位置及びカバーしている領域は予め設定されている。又は、マスクの位置及び範囲を予め設定せずに、大量のマスクから共分散が最小で、差異が最も顕著なマスクを選択するように、データ駆動の方式を利用してマスク領域を自動的に決定してもよい。
ステップS14において、各スペクトログラム領域のエネルギー平均値を決定する。具体的に、スペクトログラム領域が1つの点だけを含む場合、当該スペクトログラム領域のエネルギー平均値は当該点のエネルギー値である。スペクトログラム領域が複数の点からなる場合、当該スペクトログラム領域のエネルギー平均値をこれらの複数の点のエネルギー値の平均値に設定してもよい。次に、ステップS15の処理に進む。
ステップS15において、マスクにおける複数のスペクトログラム領域のエネルギー平均値に基づき、音声フィンガープリントビット(bit)を決定する。なお、当該音声フィンガープリントビットは即ち上記音声フィンガープリントにおける音声の内容特徴を示すための第1の部分である。次に、ステップS16の処理に進む。
本発明の実施例でステップS15において、1つのマスクに含まれた複数のスペクトログラム領域のエネルギー平均値の差値に基づき、1つの音声フィンガープリントビットを決定してもよい。
具体的に、1つのマスクが2つのスペクトログラム領域を含む場合、例えば、上記R11及びR12の2つのスペクトログラム領域を含む例の場合、次の式1に従ってR11、R12のエネルギー平均値の差値D1を算出してもよい。
D1=E(R11)−E(R12)…(式1)
次に、差値D1の正負を判断する。差値D1が正の値である場合、取得値が1の音声フィンガープリントビットを得る、差値D1が負の値である場合、取得値が0の音声フィンガープリントビットを得る。
1つのマスクが4つのスペクトログラム領域を含む場合、例えば、上記R21、R22、R23、R24の4つのスペクトログラム領域を含む例の場合、次の式2に従ってR21、R22、R23、R24のエネルギー平均値の差値D2を算出してもよい。
D2=(E(R21)+E(R22))−(E(R23)+E(R24))…(式2)
次に、差値D2の正負を判断する。差値D2が正の値である場合、取得値が1の音声フィンガープリントビットを得る、差値D2が負の値である場合、取得値が0の音声フィンガープリントビットを得る。なお、必ずしも差値D2で4つのスペクトログラム領域を含むマスクの音声フィンガープリントビットを決定するとは限らず、他の形式の差値を利用して音声フィンガープリントビットを決定してもよい。例えば、これら4つのスペクトログラム領域のエネルギー平均値の二次差値D3を算出してもよい。
D3=(E(R23)−E(R24))−(E(R21)−E(R22))…(式3)
次に、差値D1の正負を判断して音声フィンガープリントビットを決定する。
なお、特徴点に複数のマスクを決定した場合、複数の音声フィンガープリントビットを得ることができる。
ステップS16において、音声フィンガープリントビットの対応する強弱重みビットを決定し、当該強弱重みビットは当該音声フィンガープリントビットの信頼度を示すためのものである。なお、当該強弱重みビットは即ち上記音声フィンガープリントにおける第1の部分の信頼度を示すための第2の部分である。具体的に、信頼度が高い音声フィンガープリントビットを強ビットとして定義し、信頼度が低い音声フィンガープリントビットを弱ビットとして定義する。1つの音声フィンガープリントビットの信頼度を判断し、当該音声フィンガープリントビットが強ビットか弱ビットであるかにより強弱重みビットの取得値を決定する。次に、ステップS17の処理に進む。
本発明の実施例において、音声フィンガープリントビットが1つのマスクに含まれた複数のスペクトログラム領域のエネルギー平均値の差値により決定される場合、ステップS16は具体的に以下のことを含む。当該音声フィンガープリントビットを生成するために使用される当該差値の絶対値は予め設定された強弱ビット閾値に達する(又は超える)か否かを判断する。強弱ビット閾値に達している場合、当該音声フィンガープリントビットを強ビットとして決定し、当該音声フィンガープリントビットに対応する取得値が1の強弱重みビットを得る。強弱ビット閾値に達していない場合、当該音声フィンガープリントビットを弱ビットとして決定し、当該音声フィンガープリントビットに対応する取得値が0の強弱重みビットを得る。
一つの具体例として、音声フィンガープリントビットが上記式2に記載の4つのスペクトログラム領域のエネルギー平均値の差値D2の正負を判断して決定される場合、ステップS16は以下のことを含む。当該差値D2の絶対値と予め設定された強弱ビット閾値Tとの大小関係を判断し、|D2|≧Tである場合、当該音声フィンガープリントビットを強ビットとし、当該音声フィンガープリントビットに対応する強弱重みビットの取得値を1に設定する。|D2|<Tである場合、当該音声フィンガープリントビットを弱ビットとし、当該音声フィンガープリントビットに対応する強弱重みビットの取得値を0に設定する。なお、当該強弱ビット閾値は複数のタイプの閾値であってもよい。当該強弱ビット閾値は予め設定された固定値であってもよい。例えば、固定値の1とする。又は、当該強弱ビット閾値はエネルギー平均値の差値から得た数値であってもよい。例えば、当該強弱ビット閾値を複数のマスク(又は複数の特徴点)に対応する複数の差値の平均値に設定し(ただし平均値に限定されず、最大の差値と最小の差値との間の任意数値であってもよい)、差値が当該平均値に達している音声フィンガープリントビットを強ビットとして決定し、差値が当該平均値に達していない音声フィンガープリントビットを弱ビットとして決定する。又は、当該強弱ビット閾値は比値であってもよい。例えば、当該強弱ビット閾値を60%に設定し、複数のマスク(又は複数の特徴点)に対応する複数の差値のうち、差値の絶対値が全ての差値の上位60%にあれば、当該音声フィンガープリントビットを強ビットとして決定し、そうでければ、当該音声フィンガープリントビットを弱ビットとして決定する。
ステップS17において、当該音声フィンガープリントビット及び当該強弱重みビットに基づき当該音声の音声フィンガープリントを決定する。具体的に、音声フィンガープリントは1つ又は複数の特徴点に対応するそれぞれの音声フィンガープリントビット(これらによって音声フィンガープリントの第1の部分を生成する)及びそれぞれの強弱重みビット(これらによって音声フィンガープリントの第2の部分を生成する)を含んでさえいればよく、音声フィンガープリントを組み合わせた方式、音声フィンガープリントの長さを限定しない。本発明のいくつかの実施例において、当該音声フィンガープリントは複数の音声フィンガープリント単体及びそれぞれの当該音声フィンガープリント単体に対応する強弱重み単体を含み、当該音声フィンガープリント単体は音声の複数の当該音声フィンガープリントビットを含み、当該強弱重み単体は当該複数の音声フィンガープリントビットに対応する複数の当該強弱重みビットを含む。例えば、1つの特徴点の全てのマスクに対応する音声フィンガープリントビットを組み合わせて音声フィンガープリント単体としての音声フィンガープリントビット配列を得て、対応する強弱重みビットを組み合わせて強弱重み単体としての当該音声フィンガープリントビット配列の長さに等しい強弱重みビット配列を得て、複数の特徴点に対応する音声フィンガープリント単体、強弱重み単体を特徴点の時間順に配列して音声フィンガープリントを形成してもよい。なお、得られた音声フィンガープリント単体の長さは32ビットであってもよい。
本発明において音声フィンガープリントビットを抽出すると同時に、当該音声フィンガープリントビットに対応する強弱重みビットを抽出することにより、1つの音声セグメントに正確性が高く、ロバスト性に優れた音声フィンガープリントを生成できる。
好ましくは、本発明においてステップS10はさらに以下のことを含む。音声の開始位置と当該特徴点との時間差を示すフィールドとして、音声フィンガープリントにタイムスタンプフィールドを追加し、当該フィールドはハッシュ値であってもよい。特徴点を固定点として設定した場合、当該ステップを含まなくてもよく、即ち当該タイムスタンプを記録する必要がない。
好ましくは、本発明においてステップS10はさらに以下のことを含む。当該音声フィンガープリントに対応する音声のID標識情報を記録するために、音声フィンガープリントに音声標識フィールドを追加し、当該フィールドはハッシュ値であってもよい。
好ましくは、本発明においてステップS10はさらに以下のことを含む。オリジナルの音声を時間順に複数のサブ音声セグメントに分割する。上記方法のステップに従って、各サブ音声セグメントから音声フィンガープリントを抽出して、複数の音声フィンガープリントを得る。抽出されたサブ音声セグメントのそれぞれの音声フィンガープリントを組み合わせて、当該音声全体の音声フィンガープリントを得る。
2.ステップS20について:
説明と理解の便宜上、認識対象の音声の音声フィンガープリントを第1の音声フィンガープリント、第1の音声フィンガープリントに含まれた音声フィンガープリント単体を第1の音声フィンガープリント単体、第1の音声フィンガープリント単体に対応する強弱重み単体を第1の強弱重み単体と称する。
図3は、本発明の一つの実施例によって提供される音声フィンガープリントに基づき音声に対して検索・認識を行うプロセスを概略的に示すブロック図である。図3が参照されるように、本発明の一つの実施例において、上記ステップS20で認識対象の音声に対して検索・認識を行うプロセスは具体的にステップS21と、S22とを含む。
ステップS21において、当該第1の音声フィンガープリントに基づき、複数の既存の音声に対して第1の順位付けを行い、当該第1の順位付けの結果に基づき、第1の候補音声集合として上位k個の既存の音声を取り出す。ただしkは正の整数であり、kの具体的な取得値は設定可能である。具体的に、当該第1の順位付けは各単独の第1の音声フィンガープリント単体の既存の音声とマッチングした状態に基づいて行われる順位付けである。さらに、当該第1の順位付けはそれぞれの第1の音声フィンガープリント単体に基づき既存の音声に対して行われる語出現頻度−逆文書頻度順位付け(term frequency−inverse document frequency ranking、略称TF−IDF順位付け)であってもよい。次に、ステップS22の処理に進む。
ステップS22において、当該第1の音声フィンガープリントに基づき、当該第1の候補音声集合に対して第2の順位付けを行い、当該第2の順位付けの結果に基づき、認識結果として第1の候補音声集合における上位n個の第1の候補音声を取り出す。ただしnは正の整数であり、nの具体的な取得値は設定可能である。具体的に、当該第2の順位付けは順に配列された複数の第1の音声フィンガープリント単体に基づき、当該第1の候補音声集合における音声に対して行われる順位付けである。例えば、当該順に配列された複数の第1の音声フィンガープリント単体は第1の音声フィンガープリントにおける連続した部分、当該第1の音声フィンガープリント全体を含む、且つ/又は、当該順に配列された複数の第1の音声フィンガープリント単体は第1の音声フィンガープリントにおける同一間隔の通し番号を有する複数の第1の音声フィンガープリント単体を含み、例えば、通し番号が1、3、5、7…の複数の第1の音声フィンガープリント単体を含む。
これによって当該認識結果に基づきMetaデータベースにおいて検索を行えば、当該認識結果の音声情報、例えば、認識された音声の名称、作者、出典などを得ることができる。認識結果が複数の音声を含む場合、認識された音声の複数の情報を同時に提供できる。
本実施例において、ステップS21で第1の順位付け及び/又はステップS22で第2の順位付けがわれるプロセスで、音声フィンガープリントを利用する場合、音声フィンガープリントにおける強弱重み単体に基づき音声フィンガープリント単体に対して重み付けを行ってもよい。重み付けがされない第1の順位付け、第2の順位付けのプロセスは順位付けを行うとき、各音声フィンガープリント単体に同一の重みを付与することに相当するため、次に強弱重みを利用して音声フィンガープリントに対して重み付けを行う第1の順位付け及び第2の順位付けのプロセスについて具体的に説明する。
本発明によって提供されるメディア検索方法は、第1の順位付け及び第2の順位付けを行って検索結果を得るため、メディア検索における正確性及び効率を大幅に向上できる。
上記ステップS21について:
上記既存の音声は音声データベースにおける音声であってもよい。当該音声データベースに既存の音声の音声フィンガープリントが記憶され、記憶されている既存の音声の音声フィンガープリントに第1の音声フィンガープリントの場合と同じ抽出方法を利用して得た第1の音声フィンガープリントと同一タイプの音声フィンガープリントが含まれるため、既存の音声の音声フィンガープリントにも音声の内容特徴を示すための第1の部分と当該第1の部分の信頼度を示すための第2の部分とが含まれる。
本発明のいくつかの実施例において、本発明に係る音声検索・認識方法はさらに以下のことを含む。複数の既存の音声の音声フィンガープリントを予め取得する。説明と理解の便宜上、既存の音声の音声フィンガープリントを第2の音声フィンガープリント、第2の音声フィンガープリントに含まれた音声フィンガープリント単体を第2の音声フィンガープリント単体、第2の音声フィンガープリントに含まれた強弱重み単体を第2の強弱重み単体と称する。当該第2の音声フィンガープリントに対してインデクシングを行って、既存の音声のフィンガープリントインデックスを取得しておく。当該フィンガープリントインデックスと認識対象の音声の第1の音声フィンガープリント単体とのマッチングを行って、複数の既存の音声に対してTF−IDF順位付けを行う。
具体的に、既存の音声のフィンガープリントインデックスを取得しておくことはさらに以下のことを含む。音声フィンガープリントの検索及び比較を行うために、既存の音声の音声フィンガープリントの普通フィンガープリントインデックス(forward index)及び転置フィンガープリントインデックス(inverted index)を取得しておく。当該普通フィンガープリントインデックス及び転置フィンガープリントインデックスは音声データベースに予め記憶されてもよい。ただし、普通フィンガープリントインデックスはそれぞれの既存の音声の音声フィンガープリントを記録する、即ちそれぞれの既存の音声が記録された音声フィンガープリントは具体的にどれらの音声フィンガープリント単体を含むか及びこれらの音声フィンガープリント単体の順位を記録するために用いられる。転置フィンガープリントインデックスはそれぞれの音声フィンガープリント単体がどの又はどれらの既存の音声の音声フィンガープリントに出現しているかを記録するために用いられる。具体的に、キー値対(key−value対)の形式で当該普通フィンガープリントインデックス及び転置フィンガープリントインデックスを記憶してもよい。普通フィンガープリントインデックスにおいて、1つのキー(key)で1つの音声の番号(音声IDともいう)を示し、当該キーに対応する値(value)で当該音声がどれらの音声フィンガープリント単体を含むか及びこれらの音声フィンガープリント単体の順位を記録し、普通フィンガープリントインデックスにおけるキー、値をそれぞれ普通インデックスキー、普通インデックス値と称する。転置フィンガープリントインデックスにおいて、1つのキー(key)で1つの音声フィンガープリント単体を示し、当該キーに対応する値(value)で当該音声フィンガープリント単体が含まれた音声の番号を記録し、転置フィンガープリントインデックスにおけるキー、値をそれぞれ転置インデックスキー、転置インデックス値と称する。
なお、ロバスト性を向上させるために、強弱重みに基づき第2の音声フィンガープリントに対してインデクシングを行ってもよい。具体的に、普通フィンガープリントインデックスを決定するプロセスにおいて、普通フィンガープリントインデックスに既存の音声のそれぞれの音声フィンガープリント単体に対応する強弱重み単体を記録してもよい。転置フィンガープリントインデックスを決定するプロセスにおいて、あるインデクシング対象の音声フィンガープリント単体がある既存の音声に出現しているか否かを決定する際、当該インデクシング対象の音声フィンガープリント単体における弱ビットを無視して、当該インデクシング対象の音声フィンガープリント単体における全ての強ビットが当該既存の音声における特定の音声フィンガープリント単体に対応するビットに一致するか否かを判断すればよい。例えば、インデクシング対象の音声フィンガープリント単体における第1の、第3の音声フィンガープリントビットが強ビットで、残りの音声フィンガープリントビットが弱ビットである場合、当該インデクシング対象の音声フィンガープリント単体の転置フィンガープリントインデックスには、インデクシング対象の音声フィンガープリント単体と同一の第1の、第3の音声フィンガープリントビットを有する音声フィンガープリント単体を含む既存の音声番号が記録されている。
なお、TF−IDF順位付けは情報に対して語出現頻度及び逆文書頻度重み付けを行って、情報の重要度を判断することにより、順位付けを行う技術である。ただし、語出現頻度とは、ある単語(情報ともいう)の特定の文章(ファイルともいう)における出現頻度を指す。語出現頻度が高ければ高いほど、当該単語が当該文章に対してより重要であることを示す。ファイル頻度とは、ある単語が文章ライブラリにおけるいくつの文章に出現しているかを指す。逆文書頻度は、ファイル頻度の逆数である(実際に演算するにあたり、逆文書頻度の対数をとるか、又は逆文書頻度をファイル頻度の逆数の対数として定義してもよい)。逆文書頻度が高ければ高いほど、当該単語の差異がより大きいことを示す。従って、TF−IDF順位付けにおいて、語出現頻度と逆文書頻度との乗積の大さで順位付けを行う。なお、1つの音声の音声フィンガープリントを1つの文章とし、各音声フィンガープリント単体を1つの単語とすれば、TF−IDF方式を利用して既存の音声に対して順位付けを行うことができる。
また、音声データベースにおける全ての既存の音声に対して第1の順位付けを行うと、検索・認識の効率に影響を与える恐れがあるため、第1の順位付けを行う前に、音声データベースにおける既存の音声に対して正確マッチング(exact match)を行ってもよい。ただし正確マッチングは、第2の候補音声集合として、予め設定された数量又は予め設定された割合以上の数量の第1の音声フィンガープリント単体を含む既存の音声を選出するために用いられる。次に当該第2の候補音声集合に対して第1の順位付けを行って、第1の候補音声集合を選出する。
図4は、本発明の一つの実施例によって提供される第1の順位付けのプロセスを概略的に示すブロック図である。図4が参照されるように、本発明の一つの実施例において、第1の順位付けは具体的にステップS31〜S35を含む。
ステップS31において、転置フィンガープリントインデックスに基づき、それぞれの第1の音声フィンガープリント単体がどれらの既存の音声の第2の音声フィンガープリントに出現しているかを集計して、音声データベースにおいてマッチングを行って、第2の候補音声集合として予め設定された数量以上の第1の音声フィンガープリント単体を含む既存の音声を得る。なお、マッチングのプロセスにおいて、ロバスト性を向上させるために、第1の音声フィンガープリント単体に対応する強弱重み単体に基づき、当該第1の音声フィンガープリント単体における弱ビットのマッチングされた状態を無視して、当該第1の音声フィンガープリント単体における強ビットの既存の音声の第2の音声フィンガープリントにおけるマッチングされた状態を判断するだけでよい。次に、ステップS32の処理に進む。
なお、「予め設定された数量以上の第1の音声フィンガープリント単体」における「数量」とは、第1の音声フィンガープリント単体の種類を指す。具体的に、当該予め設定された数量は1つであってもよく、これによってマッチングして得た第2の候補音声集合は第2の音声フィンガープリントに少なくともいずれか1種の第1の音声フィンガープリント単体が出現している既存の音声である。当該予め設定された数量は複数であり、例えばp個(pは正の整数)であってもよく、これによってマッチングして得た第2の候補音声集合は第2の音声フィンガープリントに少なくともp種類の第1の音声フィンガープリント単体が出現している既存の音声である。
ステップS32において、普通フィンガープリントインデックスに基づき、1つの第1の音声フィンガープリント単体の1つの第2の候補音声の第2の音声フィンガープリントにおける語出現頻度を決定する。当該語出現頻度は、ある第1の音声フィンガープリント単体の、ある第2の音声フィンガープリントに含まれた全ての音声フィンガープリント単体に占める割合である。なお、当該普通フィンガープリントインデックスは上述したように強弱重みに基づいて得たフィンガープリントインデックスであってもよい。次に、ステップS33の処理に進む。
ステップS33において、転置フィンガープリントインデックスに基づき、1つの第1の音声フィンガープリント単体のファイル頻度を決定する。当該ファイル頻度は、複数の既存の音声のうち(例えば、音声データベースにおける全ての既存の音声)、第2の音声フィンガープリントのうち当該第1の音声フィンガープリント単体が含まれた既存の音声の数量の、既存の音声総数に占める割合である。なお、当該転置フィンガープリントインデックスは上述したように強弱重みに基づいて得たフィンガープリントインデックスであってもよい。次に、ステップS34の処理に進む。
ステップS34において、それぞれの第1の音声フィンガープリント単体の1つの第2の候補音声の第2の音声フィンガープリントにおける語出現頻度及びそれぞれの第1の音声フィンガープリント単体のファイル頻度に基づき、当該第2の候補音声の語出現頻度−逆文書頻度得点を決定する。次に、ステップS35の処理に進む。
ステップS35において、得られたそれぞれの第2の候補音声の語出現頻度−逆文書頻度得点に基づき、第2の候補音声集合に対して順位付けを行って、第1の順位付けの結果を得て、当該第1の順位付けの結果から第1の候補音声集合として上位k個の第2の候補音声を取り出す。また、後続の第2の順位付けにおいて当該第2の音声フィンガープリントに基づき第1の候補音声集合に対して更なる処理を行うために、それぞれの第1の候補音声の第2の音声フィンガープリント(普通フィンガープリントインデックス)を返してもよい。
本実施例において、インデクシングサーバーを利用して、認識対象の音声の第1の音声フィンガープリント単体の集合をインデクシング要求として、上記普通フィンガープリントインデックス及び転置フィンガープリントインデックスに基づき、正確マッチング及びTF−IDF順位付けを行って、第1の候補音声集合を取り戻すと同時に、得られたそれぞれの第1の候補音声の普通フィンガープリントインデックスを返してもよい。具体的に、オープンソースの検索エンジンElasticsearchを利用して上記それぞれのステップを行って、高速検索の効果を得ることができる。
なお、正確マッチング及び第1の順位付けにおいて、それぞれの第1の音声フィンガープリント単体がどれらの既存の音声に出現しているか、及び第1の音声フィンガープリント単体自体の検索状況を重視しているが、それぞれの第1の音声フィンガープリント単体の第1の音声フィンガープリントにおける順位の検索に対する影響が考慮されていない、すなわち、音声フィンガープリント全体又は連続した複数の音声フィンガープリント単体の検索状況が考慮されていない。
本発明によって提供される音声検索・認識方法は、強弱重みを含む音声フィンガープリントに基づき、正確マッチング及びTF−IDF方式に基づく第1の順位付けを行うことにより、音声検索・認識における正確性及び効率を大幅に向上できる。
上記ステップS22について:
本発明のいくつかの実施例において、当該第2の順位付けは順に配列された複数の第1の音声フィンガープリント単体からなる前後順序を有する配列の第1の候補音声の音声フィンガープリントにおける出現の状況に基づき、当該第1の候補音声集合における音声に対して行われる順位付けである。具体的に、当該第2の順位付けは、既存の音声のフィンガープリントインデックス及び第1の音声フィンガープリントに基づき当該第1の候補音声集合における音声の類似度行列を得て、当該類似度行列に基づき当該第1の候補音声集合における音声に対して順位付けを行うことを含む。なお、類似度行列を決定するプロセスにおいて、ロバスト性を向上させるために、第1の音声フィンガープリントに対応する強弱重み及び/又は既存の音声のフィンガープリントインデックスにおける強弱重みに基づき重み付けを行い、重み付けされた類似度行列を利用して第1の候補音声集合における音声に対して順位付けを行ってもよい。
図5は、本発明の一つの実施例によって提供される第2の順位付けのプロセスを概略的に示すブロック図である。図5が参照されるように、本発明の一つの実施例において、当該第2の順位付けは具体的にステップS41〜S45を含む。
ステップS41において、第1の候補音声集合における1つの第1の候補音声(ただし各第1の候補音声はいずれも既存の音声)の第2の音声フィンガープリントを取得する。具体的に、既存の音声的フィンガープリントインデックス(例えば、普通フィンガープリントインデックス)に基づき、当該第2の音声フィンガープリントを取得してもよい。認識対象の音声の第1の音声フィンガープリントがM個の第1の音声フィンガープリント単体を含み、当該第1の候補音声の第2の音声フィンガープリントがM個の第2の音声フィンガープリント単体を含み、ただしM及びMは正の整数であると仮定する。本発明のいくつかの例において、第1の音声フィンガープリントはそれぞれの第1の音声フィンガープリント単体に対応する強弱重み単体(第1の強弱重み単体と称する)を含む、且つ/又は、第2の音声フィンガープリントはそれぞれの第2の音声フィンガープリント単体に対応する強弱重み単体(第2の強弱重み単体と称する)を含む。次に、ステップS42の処理に進む。
ステップS42において、当該第1の候補音声の第2の音声フィンガープリントに含まれたそれぞれの第2の音声フィンガープリント単体とそれぞれの第1の音声フィンガープリント単体との間の単体類似度を決定して、M×M個の単体類似度を得る。各単体類似度は1つの第1の音声フィンガープリント単体と1つの第2の音声フィンガープリント単体との類似度を示すものであり、具体的に、単体類似度が大きければ大きいほどより類似する。なお、当該単体類似度を決定するプロセスにおいて、第1の強弱重み単体及び/又は第2の強弱重み単体に基づき、それぞれの第1の音声フィンガープリント単体、第2の音声フィンガープリント単体に対して重み付けを行い、次に重み付けされた第1の、第2の音声フィンガープリント単体に基づき当該単体類似度を決定してもよい。本発明に係る一つの例において、音声データベースにおけるデータ情報の正確性がより高いため、第2の強弱重み単体を利用して第1の音声フィンガープリント単体、第2の音声フィンガープリント単体に対してそれぞれ重み付けを行ってもよい。次に、ステップS43の処理に進む。
本発明の実施例において、音声フィンガープリントのタイプに基づき、2つの音声フィンガープリント単体の類似度の判断に利用可能な距離又はメトリックを当該単体類似度として選択してもよい。具体的に、第1の音声フィンガープリント単体、第2の音声フィンガープリント単体はいずれも上記実施例におけるステップS11〜ステップS17に示す方法により得た二値フィンガープリントである場合、第1の音声フィンガープリント単体と第2の音声フィンガープリント単体との間のハミング距離(Hamming距離)を算出し、音声フィンガープリント単体の長さ(ビット数)と当該ハミング距離との差値を算出し、当該差値と当該音声フィンガープリント単体長さとの比値を、2つの二値フィンガープリントにおける同一ビットの占める割合を示す単体類似度として決定してもよい。ただし、ハミング距離は情報理論分野で一般的に利用されるメトリックであり、2つの等長文字列の間のハミング距離は2つの文字列の対応する位置における異なる文字の数量である。実際にハミング距離を算出するに当たり、2つの文字列に対して排他的論理和演算を行い、結果が1の数量を集計して、この数量をハミング距離としてもよい。なお、同じ方法を利用して抽出することにより得た音声フィンガープリント単体は同一の長さを有する。本発明に係る強弱重みを利用して当該ハミング距離のタイプの単体類似度に対して重み付けを行う方法は具体的に、まず強弱重み単体における強弱重みビットを利用して音声フィンガープリント単体における対応する音声フィンガープリントビットに対して重み付けを行い、第1の音声フィンガープリント単体、第2の音声フィンガープリント単体に対して排他的論理和演算を行うことにより、強弱重みで重み付けされた単体類似度を得る。なお、ハミング距離で当該単体類似度を示すことに限定されず、2つの音声フィンガープリント単体の類似度の判断に利用可能な任意の距離又はメトリックを利用してもよい。
ステップS43において、それぞれの単体類似度に基づき、当該第1の候補音声と認識対象の音声との類似度行列(similarity matrix)を決定する。
具体的に、当該類似度行列における各点は1つの単体類似度に対応するため、当該類似度行列には1つの第1の候補音声のそれぞれの第2の音声フィンガープリント単体とそれぞれの第1の音声フィンガープリント単体との単体類似度が記録される。さらに、当該類似度行列のそれぞれの点は、横方向に認識対象の音声のそれぞれの第1の音声フィンガープリント単体の、第1の音声フィンガープリントにおける前後順位に従って配列され、縦方向に第1の候補音声のそれぞれの第2の音声フィンガープリント単体の、第2の音声フィンガープリントにおける前後順位に従って配列される。これにより、i行目j列目に位置する点は認識対象の音声のi番目の第1の音声フィンガープリント単体と、第1の候補音声のj番目の第2の音声フィンガープリント単体との単体類似度を示すことになり、当該類似度行列はM×Mの行列になる。次に、ステップS44の処理に進む。
なお、実施するにあたり、必ずしもステップS42を行ってそれぞれの単体類似度を算出してから、ステップS43を行って類似度行列を決定するとは限らず、類似度行列を直接決定して、当該類似度行列のそれぞれの点を決定するプロセスで対応する単体類似度を算出してもよい。
ステップS44において、各第1の候補音声の類似度行列に基づき、当該第1の候補音声の配列類似度得点を決定する。当該配列類似度得点は当該第1の候補音声と認識対象の音声との類似度を示すために用いられる。当該配列類似度得点は0から1の分数であってもよく、数値が大きければ大きいほど2つの音声セグメントはより類似する。次に、ステップS45の処理に進む。
具体的に、類似度行列における直線に基づき当該の配列類似度得点を決定する。
なお、音声フィンガープリントは一般に有限数量の複数の音声フィンガープリント単体を含むため、類似度行列は有限行列である。従って、いわゆる「直線」とは類似度行列における複数の点からなる有限の長さの線分である。当該直線は斜率を有し、当該斜率は直線が含む複数の点を結ぶ線の斜率である。また、当該直線の始点及び終点は、必ずしも端部に位置する点ではなく、類似度行列における任意の点であってもよい。
本発明で使用される用語「直線」は類似度行列における対角線、当該対角線に平行の各線分など類似度行列の左上から右下へ延伸する斜率が1の直線を含み、さらに斜率が1でない直線も含む。例えば、斜率が1に近い直線であってもよく、これにより音声検索・認識におけるロバスト性を向上できる。斜率が2、3…1/2、1/3…などの直線であってもよく、これによりスピード調整後の音声の検索・認識に対応可能である。あるいは、斜率が負値の直線(類似度行列の左下から右上へ延伸する直線)であってもよく、これにより逆再生処理後の音声の検索・認識に対応可能である。ここで対角線は(1,1)、(2,2)、(3,3)…の点からなる線分である(すなわち左上隅の点を始点とした斜率が1の直線である)。
なお、類似度行列における各直線はいずれも順に配列された複数の単体類似度からなるため、各直線は順に配列された複数の音声フィンガープリント単体対の類似の程度を示す。これにより認識対象の音声における1つの音声セグメントと既存の音声における1つの音声セグメントとの類似度を示すことができる。ただし各音声フィンガープリント単体対は1つの第1の音声フィンガープリント単体及び1つの第2の音声フィンガープリント単体を含む(すなわち、各直線は順に配列された複数の第1の音声フィンガープリント単体と順に配列された複数の第2の音声フィンガープリント単体との類似度を示す)。直線の斜率、始点及び終点は2つの音声セグメントの長さ、位置を示す。例えば、(1,1)、(2,3)、(3,5)、(4,7)で構成された直線は、通し番号が1の第1の音声フィンガープリント単体と通し番号が1の第2の音声フィンガープリント単体との類似の程度、通し番号が2の第1の音声フィンガープリント単体と通し番号が3の第2の音声フィンガープリント単体との類似の程度…を示しているため、当該直線は通し番号が1、2、3、4の第1の音声フィンガープリント単体に対応する認識対象の音声セグメントと通し番号が1、3、5、7の第2の音声フィンガープリント単体に対応する既存の音声セグメントとの類似の程度を示すことができる。
従って、類似度行列における直線に基づき、1つの第1の候補音声と認識対象の音声との類似の程度を決定することができる。1つの直線に含まれたそれぞれの単体類似度の平均状態(又は全体的な状態)を当該直線の直線類似度として定義してもよく、当該直線類似度は対応する複数の第1の音声フィンガープリント単体と複数の第2の音声フィンガープリント単体との類似の程度を反反映できる。類似度行列において直線類似度が最大の直線を決定して、マッチング直線と称する。マッチング直線の直線類似度を第1の候補音声の配列類似度得点として決定する。
なお、マッチング直線を決定するプロセスにおいて、予め設定された複数の直線のうち直線類似度が最高の直線を決定してもよい。例えば、当該予め設定された複数の直線は全ての斜率が予め設定された斜率の設定値(例えば、斜率が1)である直線であるか、又は、単体類似度の大小順位付けの上位にできる複数の点を類似度行列から選択して、これらの点で直線を当てはめすることにより、直線類似度が相対的に最高の直線を生成してもよい。
ステップS45において、それぞれの第1の候補音声の当該配列類似度得点に基づき第1の候補音声集合に対して順位付けを行って、第2の順位付けの結果を得て、当該第2の順位付けの結果から認識結果として上位n個の第1の候補音声を取り出す。
本発明によって提供される音声検索・認識方法は、強弱重みを含む音声フィンガープリントに基づき、そして類似度行列に基づき第2の順位付けを行うことにより、音声検索・認識における正確性及び効率を大幅に向上できる。
本発明の一つの具体的な実施例において、動的計画法来を利用して類似度行列に基づき配列類似度得点を決定してもよい。図6は、本発明の一つの実施例によって提供される動的計画法を利用して音声検索・認識を行うプロセスを概略的に示すブロック図である。図6が参照されるように、一つの実施例において、ステップS44は具体的にステップS44−1aと、S44−1bと、S44−1cとを含む。
ステップS44−1aにおいて、類似度行列における斜率が予め設定された斜率設定値の複数の直線を候補直線として定義し、各候補直線に含まれたそれぞれの単体類似度に基づき当該候補直線の直線類似度を決定する。具体的に、1つの直線の直線類似度は当該直線に含まれたそれぞれの単体類似度の平均値として設定するか、又は当該直線に含まれたそれぞれの単体類似度の和の値として設定してもよい。一つの具体例において、斜率設定値を1にすると、上記候補直線は、類似度行列における対角線及び当該対角線に平行の直線である。次に、ステップS44−1bの処理に進む。
なお、本発明の一つの実施例において、ステップS44−1aはさらに以下のことを含む。候補直線から、予め設定された直線長さ設定値より数量が少ない単体類似度を含む直線を除去して、ステップS44−1bに進む。すなわち本実施例において、候補直線は、予め設定された直線長さ設定値に達する数量の単体類似度を含むことを満たす必要がある。単体類似度が不足する直線を除去すると、直線に含まれた単体類似度が不足するため最終的に得た配列類似度得点の正確性に影響を与えるという問題を解消できる。
ステップS44−1bにおいて、当該複数の候補直線から、当該直線類似度を最大にする候補直線を決定し、これを第1のマッチング直線として定義する。次に、ステップS44−1cの処理に進む。
ステップS44−1cにおいて、当該第1のマッチング直線の直線類似度を配列類似度得点として決定する。
なお、本発明のいくつかの実施例において、ステップS44−1aで予め設定された斜率設定値は複数であってもよい、即ち候補直線は斜率が複数の斜率設定値のいずれかに等しい直線である。例えば、候補直線は斜率が1、−1、2、1/2などの直線であってもよく、ステップS44−1bにおいて、斜率が複数の斜率設定値のいずれかである複数の候補直線から第1のマッチング直線を決定する。
本発明によって提供される音声検索・認識方法は、動的計画法を利用して配列類似度得点を決定することにより、音声検索・認識における正確性及び効率を向上できる。
本発明の別の具体的な実施例において、線形メディア法(Linear media memthod、等速メディア法とも言う)を利用して類似度行列に基づき配列類似度得点を決定する。図7は、本発明の一つの実施例によって提供される線形メディア法を利用して音声検索・認識を行うプロセスを概略的に示すブロック図である。図7が参照されるように、一つの実施例において、ステップS34は具体的にステップS44−2aと、S44−2bと、S44−2cとを含む。
ステップS44−2aにおいて、類似度行列から類似度極値点として単体類似度が最大の複数の点を選択する。選択された類似度極値点の数量は予め設定されてもよい。次に、ステップS44−2bの処理に進む。
ステップS44−2bにおいて、当該複数の類似度極値点に基づき、当該類似度行列において第2のマッチング直線としての直線を当てはめする。いくつかの具体例において、当該複数の類似度極値点に基づき、第2のマッチング直線として、予め設定された斜率設定値を有する又は予め設定された斜率設定値に近い直線を当てはめする。例えば、斜率が1に近い直線を当てはめする。具体的に、ランダムサンプルコンセンサス法(Random Sample Consensus法、略称RANSAC法)を利用して当該類似度行列において斜率が斜率設定値に近い直線を当てはめしてもよい。なお、RANSAC法は、異常データを含むいくつかのサンプルデータ集に基づき、データの数学モデルのパラメータを算出して、有効なサンプルデータを得るという一般的に利用される方法である。次に、ステップS44−2cの処理に進む。
ステップS44−2cにおいて、当該第2のマッチング直線に含まれた複数の単体類似度に基づき配列類似度得点を決定する。具体的に、当該第2のマッチング直線におけるそれぞれの単体類似度の平均値を当該配列類似度得点として決定してもよい。
本発明によって提供される音声検索・認識方法は、線形メディア法を用いて配列類似度得点を決定することにより、音声検索・認識における正確性及び効率を向上できる。
さらに、ここで類似度行列は複数種の音声類似度を総合的に考慮して得るものであってもよい。具体的に、本発明に係る音声検索・認識はさらに以下のことを含む。認識対象の音声の複数のタイプの第1の音声フィンガープリントを取得し、第1の候補音声集合における音声の複数のタイプの第2の音声フィンガープリントを取得して、複数のタイプの第2の音声フィンガープリントに基づいて得たフィンガープリントインデックス及び複数のタイプの第1の音声フィンガープリントに基づき類似度行列を決定する。
図8は、本発明の一つの実施例による複数のタイプの第1の音声フィンガープリント及び第2の音声フィンガープリントに基づき類似度行列を決定して音声検索を行うプロセスを概略的に示すブロック図である。図8が参照されるように、本発明の一つの実施例において、本発明に係る音声検索・認識方法はステップS51〜S54を含む。
ステップS51において、複数種の音声フィンガープリント抽出方法を利用して、認識対象の音声の複数のタイプの第1の音声フィンガープリントを取得し、各タイプの第1の音声フィンガープリントは音声の内容特徴を示すための複数の第1の部分を含み、これらを第1の音声フィンガープリント単体と称する。好ましくは、少なくともいくつかのタイプの第1の音声フィンガープリントは第1の部分の信頼度を示すための第2の部分を含む。例えば、認識対象の音声の、上記実施例のステップS11からステップS17に示す方法で得た音声フィンガープリント、及び他のタイプの音声フィンガープリントを同時に取得する。次に、ステップS52の処理に進む。
ステップS52において、1つの既存の音声(具体的に、上記第1の候補音声集合における音声であってもよい)の複数のタイプの第2の音声フィンガープリントを取得し、各タイプの第2の音声フィンガープリントは音声の内容特徴を示すための複数の第1の部分を含み、これらを第2の音声フィンガープリント単体と称する。好ましくは、少なくともいくつかのタイプの第2の音声フィンガープリントは第1の部分の信頼度を示すための第2の部分を含む。例えば、既存の音声の、上記実施例のステップS11からステップS17に示す方法で得た音声フィンガープリント、及び他のタイプの音声フィンガープリントを同時に取得する。次に、ステップS53の処理に進む。
ステップS53において、上記実施例のステップS42と類似する方法を利用して、同一タイプの当該第2の音声フィンガープリント単体と当該第1の音声フィンガープリント単体との単体類似度をそれぞれ決定する。これにより複数のタイプの音声フィンガープリントに対応して、1つの既存の音声の複数種の単体類似度を得ることができる。次に、ステップS54の処理に進む。
ステップS54において、複数種の単体類似度の平均値又は最小値を決定し、複数種の単体類似度の当該平均値又は当該最小値に基づき、上記実施例のステップS43と類似する方法を利用して当該既存の音声の類似度行列を決定する。
次に、上記例のステップS44の処理に進み、ステップS44において当該複数種の単体類似度の平均値又は最小値から得た類似度行列に基づき、配列類似度得点を決定し第2の順位付けの結果を決定するなどのステップを行う。
複数種の類似度の平均値又は最小値を利用して類似度行列を決定することにより以下の効果を得ることができる。単一種類の音声フィンガープリントから得た類似度を利用して音声検索・認識を行うと、誤マッチングが発生する恐れがあるが、複数種の音声フィンガープリントの類似度の平均値又は最小値を取ると、当該誤マッチングの問題を緩和又は解消することができ、音声検索・認識における正確性を向上できる。
なお、複数種の単体類似度の平均値又は最小値をとる前に、各種の単体類似度の取得値の範囲が一致するように確保する必要がある。例えば、全てのタイプの単体類似度の取得値の範囲をいずれも0から1に設定しておく。なお、上記ハミング距離に基づき決定された単体類似度の例では、単体類似度の取得値の範囲は既に0から1に設定されている。
本発明のいくつかの実施例において、当該音声検索・認識方法はさらに以下のことを含む。第1の順位付けを行う前に、取得された認識対象の音声の第1の音声フィンガープリント及び既存の音声の第2の音声フィンガープリントを、予め設定された一定の長さでスライスして、長さが等しい(同一数量の音声フィンガープリント単体を含む)複数の第1のサブ音声フィンガープリント及び第2のサブ音声フィンガープリントを得る(例えば、第2の音声フィンガープリントに対してインデクシングを行うステップを含む実施例において、インデクシング前にスライスを行う)、且つ/又は、音声フィンガープリントを取得する前に、予め設定された一定の時間長さで認識対象の音声及び既存の音声をスライスして、複数の時間長さが等しい認識対象の音声セグメント及び既存の音声セグメントを得て、次にそれぞれの認識対象の音声セグメント及び既存の音声セグメントの音声フィンガープリントをそれぞれ取得して、それぞれの認識対象の音声セグメントの第1のサブ音声フィンガープリント、それぞれの既存の音声セグメントの第2のサブ音声フィンガープリントを得る。続いて、それぞれの第1のサブ音声フィンガープリント、第2のサブ音声フィンガープリントに基づき上記第1の順位付け及び第2の順位付けのステップを行って、それぞれのサブ音声フィンガープリントの認識結果を得て、それぞれのサブ音声フィンガープリントの認識結果に基づきオリジナルの認識対象の音声の認識結果を決定する。
音声又は音声フィンガープリントを一定の長さでスライスすることにより以下の効果を得ることができる。1.TF−IDF順位付けはより統一された基準で行われる。2.得られた単体類似度、配列類似度得点はより正確である。3.長さを統一させると音声フィンガープリント及びフィンガープリントインデックスをより記憶しやすくなる。
本発明のいくつかの実施例において、第1の音声フィンガープリントにおける第1の音声フィンガープリント単体及び第2の音声フィンガープリントにおける第2の音声フィンガープリント単体は時間特性を備えて配列される。例えば、時間の前後順に従って配列される。これにより、本発明に係る音声検索・認識方法はさらに以下のことを含む。上記類似度行列に基づき認識対象の音声と既存の音声(具体的には、上記認識結果における音声であってもよい)とで重複するセグメントを決定する。具体的には、類似度行列における直線の始点及び終点に基づき2つの音声における重複するセグメントの開始時間及び終了時間を得ることができる。
ここで、類似度行列における直線(例えば、マッチング直線)に基づき重複するセグメントを決定することの具体的な方法は以下のとおりであってもよい。直線の始点に対応する第1の音声フィンガープリント単体の通し番号(すなわち、類似度行列における横座標)に基づき認識対象の音声における重複するセグメントの開始時間を決定して、当該始点に対応する第2の音声フィンガープリント単体の通し番号(すなわち、類似度行列における縦座標)に基づき第1の候補音声における重複するセグメントの開始時間を決定する。同様のように、直線の終点の横座標に基づき認識対象の音声における重複するセグメントの終了時間を決定し、当該終点の縦座標に基づき第1の候補音声における重複するセグメントの終了時間を決定する。
本発明のいくつかの実施例(例えば、上記図6及び図7に示す実施例)において、ステップS44はさらに以下のことを含む。得られた第1のマッチング直線又は第2のマッチング直線の冒頭部分及び末尾部分を検出して、当該第1のマッチング直線/第2のマッチング直線の冒頭部分及び末尾部分の点(単体類似度)は予め設定された単体類似度設定値に達するか否かを判断し、第1のマッチング直線/第2のマッチング直線の冒頭及び末尾における当該単体類似度設定値に達していない(即ち単体類似度が不足する)部分を除去し、直線の中間の部分を保持して第3のマッチング直線として定義する。当該第3のマッチング直線の直線類似度に基づき配列類似度得点を決定する、且つ/又は、当該第3のマッチング直線の始点及び終点に基づき既存の音声と認識対象の音声とで重複するセグメントの開始時間及び終了時間を決定する。マッチング直線の冒頭及び末尾における類似度が不足する部分を除去し、類似度が高い中間の部分を保持して、既存の音声と認識対象の音声との類似の程度を決定することにより、音声検索・認識の正確性を向上させ、より正確な重複するセグメントを得ることができる。
ここで、マッチング直線の冒頭/末尾における当該単体類似度設定値に達していない部分を除去することの具体的な方法は以下のとおりであってもよい。マッチング直線の始点/終点から中間の方へ順にチェックして、当該単体類似度設定値に達するか否かを判断して、当該単体類似度設定値に達している1つ目の点を見つけたら、当該点と始点/終点との間の複数の点を除去する。
なお、当該単体類似度設定値は単体類似度の一つの具体的な数値であってもよく、チェックする際、1つの点が当該数値に達するか否かを判断する。又は一つの比値であってもよく、チェックする際、1つの点が第1のマッチング直線/第2のマッチング直線に含まれた全ての点の平均値又は最大値と比べ、当該比値に達するか否かを判断する。
図9は、本発明に係る音声検索・認識装置1000の一つの実施例の構造を概略的に示すブロック図である。図9が参照されるように、本発明に係る音声検索・認識装置1000の例は主に音声フィンガープリント取得システム1100と、検索・認識システム1200とを含む。
音声フィンガープリント取得システム1100は、認識対象の音声(Query音声)の音声フィンガープリントを取得するために用いられる。ただし、当該音声フィンガープリントは認識対象の音声の内容特徴を示すための第1の部分と当該第1の部分の信頼度を示すための第2の部分とを含む。
検索・認識システム1200は、認識対象の音声の当該音声フィンガープリントに基づき認識対象の音声に対して認識を行って、認識結果を得るために用いられる。
図10は、本発明の一つの実施例によって提供される音声フィンガープリント取得システム1100の構造を概略的に示すブロック図である。図10が参照されるように、本発明に係る音声フィンガープリント取得システム1100の例は主に、スペクトログラム変換モジュール1101と、特徴点決定モジュール1102と、マスク決定モジュール1103と、エネルギー平均値決定モジュール1104と、音声フィンガープリントビット決定モジュール1105と、強弱重みビット決定モジュール1106と、音声フィンガープリント決定モジュール1107とを含む。
ただし、当該スペクトログラム変換モジュール1101は、音声をスペクトログラム(Spectrogram)に変換するために用いられる。具体的に、スペクトログラム変換モジュール1101は高速フーリエ変換(Fast Fourier Transformation)により音声信号を時間−周波数スペクトログラムに変換できる。
本発明の実施例において、スペクトログラム変換モジュール1101は、メル(MEL)変換を利用してスペクトログラムに対して前処理を行うためのメル変換サブモジュールを含んでもよく、メル変換を利用して周波数スペクトルを複数の周波数区間(周波数bin)に分割することができ、分割して得た周波数区間の数量は設定可能である。また、スペクトログラム変換モジュール1101は、スペクトログラムに対して人間聴覚系フィルタリング(Human Auditory System filtering)を行うための人間聴覚系フィルタリングサブモジュールをさらに含んでもよく、人間聴覚系フィルタリングなどの非線形変換を利用して、スペクトログラムにおける周波数スペクトルの分布を人間の聴覚により検知されやすいようにすることができる。
当該特徴点決定モジュール1102は、スペクトログラムにおける特徴点を決定するために用いられる。
具体的に、当該特徴点決定モジュール1102は、複数種の基準のいずれかを用いて特徴点を決定するために用いられてもよい。例えば、スペクトログラムにおけるエネルギー極大値点を特徴点として選択するか、又は、エネルギー極小値点を選択してもよい。
本発明の実施例において、当該特徴点決定モジュール1102は、エネルギー極値点を特徴点として選択せず、固定点を特徴点として選択するために用いられてもよい。例えば、周波数値が予め設定された周波数設定値に等しい点(周波数が一定の点)を選択してもよい。さらに、当該特徴点決定モジュール1102は、周波数の大小に基づき低周波数、中間周波数、高周波数の複数の周波数設定値を予め設定するために用いられてもよい。
当該マスク決定モジュール1103は、スペクトログラムで、特徴点の付近に、特徴点に1つ又は複数のマスク(mask)を決定するために用いられ、各マスクは複数のスペクトログラム領域を含む。具体的に、スペクトログラムにおいて、各マスクに含まれた複数のスペクトログラム領域は対称に分布してもよい。
当該エネルギー平均値決定モジュール1104は、各スペクトログラム領域のエネルギー平均値を決定するために用いられる。
当該音声フィンガープリントビット決定モジュール1105は、マスクにおける複数のスペクトログラム領域のエネルギー平均値に基づき、音声フィンガープリントビット(bit)を決定するために用いられる。なお、当該音声フィンガープリントビットは、即ち上記音声フィンガープリントにおける音声の内容特徴を示すための第1の部分である。
本発明の実施例において、当該音声フィンガープリントビット決定モジュール1105は具体的に、一つのマスクに含まれた複数のスペクトログラム領域のエネルギー平均値の差値に基づき一つの音声フィンガープリントビットを決定するために用いられてもよい。
当該強弱重みビット決定モジュール1106は、音声フィンガープリントビットの信頼度を判断して、各音声フィンガープリントビットに対応する強弱重みビットを決定するために用いられる。なお、当該強弱重みビットは即ち上記音声フィンガープリントにおける第1の部分の信頼度を示すための第2の部分である。
本発明の実施例において、音声フィンガープリントビットが一つのマスクに含まれた複数のスペクトログラム領域のエネルギー平均値の差値に基づいて決定される場合、当該強弱重みビット決定モジュール1106は具体的に以下のことに用いられる。当該音声フィンガープリントビットを生成するために使用される当該差値の絶対値は予め設定された強弱ビット閾値に達する(又は超える)か否かを判断する。強弱ビット閾値に達している場合、当該音声フィンガープリントビットを強ビットとして決定し、当該音声フィンガープリントビットに対応する取得値が1の強弱重みビットを得る。強弱ビット閾値に達していない場合、当該音声フィンガープリントビットを弱ビットとして決定し、当該音声フィンガープリントビットに対応する取得値が0の強弱重みビットを得る。
当該音声フィンガープリント決定モジュール1107は、当該音声フィンガープリントビット及び当該強弱重みビットに基づき音声の音声フィンガープリントを決定するために用いられる。
本発明において音声フィンガープリントビットを抽出すると同時に、当該音声フィンガープリントビットに対応する強弱重みビットを抽出することにより、1つの音声セグメントに正確性が高く、ロバスト性に優れた音声フィンガープリントを生成できる。
好ましくは、本発明に係る音声フィンガープリント取得システム1100は、タイムスタンプ追加モジュール(図示せず)をさらに含む。当該モジュールは、音声フィンガープリントにタイムスタンプフィールドを追加するために用いられ、当該フィールドは、音声の開始位置と当該特徴点との時間差を示すフィールドであり、一つのハッシュ値であってもよい。特徴点を固定点として設定する場合、当該モジュールを含まなくてもよい、即ち当該タイムスタンプを記録する必要がない。
好ましくは、本発明に係る音声フィンガープリント取得システム1100は、音声標識追加モジュール(図示せず)をさらに含む。当該モジュールは音声フィンガープリントに音声標識フィールドを追加するために用いられ、当該フィールドは、当該音声フィンガープリントに対応する音声信号のID標識情報を記録するためのものであり、一つのハッシュ値であってもよい。
好ましくは、本発明に係る音声フィンガープリント取得システム1100は音声分割モジュール(図示せず)及び音声フィンガープリント組み合わせモジュール(図示せず)をさらに含む。当該音声分割モジュールはオリジナルの音声を時間順に複数のセグメントのサブ音声に分割するために用いられる。当該モジュールは、上記音声フィンガープリント取得システム1100に含まれたモジュールを利用して、各サブ音声セグメントから音声フィンガープリントを抽出して、複数の音声フィンガープリントを得る。音声フィンガープリント組み合わせモジュールは、抽出された各サブ音声セグメントの音声フィンガープリントを組み合わせて、当該音声全体の音声フィンガープリントを得るために用いられる。
説明と理解の便宜上、認識対象の音声の音声フィンガープリントを第1の音声フィンガープリント、第1の音声フィンガープリントに含まれた音声フィンガープリント単体を第1の音声フィンガープリント単体、第1の音声フィンガープリント単体に対応する強弱重み単体を第1の強弱重み単体と称する。
図11は、本発明の一つの実施例によって提供される検索・認識システム1200の構造を概略的に示すブロック図である。図11が参照されるように、本発明に係る検索・認識システム1200の例は主に第1の順位付けモジュール1210と、第2の順位付けモジュール1220とを含む。
第1の順位付けモジュール1210は、当該第1の音声フィンガープリントに基づき、複数の既存の音声に対して第1の順位付けを行い、当該第1の順位付けの結果に基づき、第1の候補音声集合として上位k個の既存の音声を取り出すために用いられる。ただしkは正の整数であり、kの具体的な取得値は設定可能である。具体的に、当該第1の順位付けモジュール1210は、各単独の第1の音声フィンガープリント単体の、既存の音声とマッチングした状態に基づき順位付けを行うために用いられる。さらに、当該第1の順位付けモジュール1210は、それぞれの第1の音声フィンガープリント単体に基づき既存の音声に対して語出現頻度−逆文書頻度(TF−IDF)順位付けを行うためにも用いられる。
第2の順位付けモジュール1220は、当該第1の音声フィンガープリントに基づき、当該第1の候補音声集合に対して第2の順位付けを行い、当該第2の順位付けの結果に基づき、認識結果として第1の候補音声集合における上位n個の第1の候補音声を取り出すために用いられる。ただしnは正の整数であり、nの具体的な取得値は設定可能である。具体的に、当該第2の順位付けモジュール1220は、順に配列された複数の第1の音声フィンガープリント単体に基づき、当該第1の候補音声集合における音声に対して順位付けを行うために用いられる。
また、検索・認識システム1200は、当該認識結果に基づきMetaデータベースにおいて検索を行うためにも用いられ、これによって当該認識結果の音声情報、例えば、認識された音声の名称、作者、出典などを得ることができる。認識結果が複数の音声を含む場合、認識された音声の複数の情報を同時に提供できる。
本実施例において、第1の順位付けモジュール1210が第1の順位付けを行う、且つ/又は、第2の順位付けモジュール1220が第2の順位付けを行うプロセスで、音声フィンガープリントを利用する場合、音声フィンガープリントにおける強弱重み単体に基づき音声フィンガープリント単体に対して重み付けを行ってもよい。
上記既存の音声は音声データベースにおける音声であってもよい。当該音声データベースに既存の音声の音声フィンガープリントが記憶され、記憶されている既存の音声の音声フィンガープリントに第1の音声フィンガープリントの場合と同じ抽出方法を利用して得た第1の音声フィンガープリントと同一タイプの音声フィンガープリントが含まれるため、既存の音声の音声フィンガープリントにも音声の内容特徴を示すための第1の部分と当該第1の部分の信頼度を示すための第2の部分とが含まれる。
本発明のいくつかの実施例において、本発明に係る音声検索・認識装置1000は、フィンガープリントインデックス取得モジュール(図示せず)をさらに含む。当該モジュールは複数の既存の音声の音声フィンガープリントを取得するために用いられる。説明と理解の便宜上、既存の音声の音声フィンガープリントを第2の音声フィンガープリント、第2の音声フィンガープリントに含まれた音声フィンガープリント単体を第2の音声フィンガープリント単体、第2の音声フィンガープリントに含まれた強弱重み単体を第2の強弱重み単体と称する。当該第2の音声フィンガープリントに対してインデクシングを行って、既存の音声のフィンガープリントインデックスを取得しておく。第1の順位付けモジュール1210は具体的に、当該フィンガープリントインデックスと認識対象の音声の第1の音声フィンガープリント単体とのマッチングを行って、複数の既存の音声に対してTF−IDF順位付けを行うために用いられる。
さらに、当該フィンガープリントインデックス取得モジュールは、既存の音声の音声フィンガープリントの普通フィンガープリントインデックス(forward index)及び転置フィンガープリントインデックス(inverted index)を取得するために用いられてもよい。
なお、当該フィンガープリントインデックス取得モジュールは、ロバスト性を向上させるために、強弱重みに基づき第2の音声フィンガープリントに対してインデクシングを行うために用いられてもよい。
また、音声データベースにおける全ての既存の音声に対して第1の順位付けを行うと、検索・認識の効率に影響を与える恐れがあるため、本発明において第1の順位付けモジュール1210は正確マッチングサブモジュール1211を含んでもよい。当該モジュールは、第1の順位付けを行う前に、音声データベースにおける既存の音声に対して正確マッチング(exact match)を行うために用いられる。
図12は、本発明の一つの実施例によって提供される第1の順位付けモジュール1210の構造を概略的に示す図である。図12が参照されるように、本発明の一つの実施例において、当該第1の順位付けモジュール1210は具体的に正確マッチングサブモジュール1211〜第1の順位付けサブモジュール1215を含む。
正確マッチングサブモジュール1211は、転置フィンガープリントインデックスに基づき、それぞれの第1の音声フィンガープリント単体がどれらの既存の音声の第2の音声フィンガープリントに出現しているかを集計して、音声データベースにおいてマッチングを行って、第2の候補音声集合として予め設定された数量以上の第1の音声フィンガープリント単体を含む既存の音声を得るために用いられる。なお、当該正確マッチングサブモジュール1211は具体的に、ロバスト性を向上させるために、1つの第1の音声フィンガープリント単体に対応する強弱重み単体に基づき、当該第1の音声フィンガープリント単体における弱ビットのマッチングされた状態を無視して、当該第1の音声フィンガープリント単体における強ビットの既存の音声の第2の音声フィンガープリントにおけるマッチングされた状態だけを判断するために用いられてもよい。
語出現頻度決定サブモジュール1212は、普通フィンガープリントインデックスに基づき、1つの第1の音声フィンガープリント単体の1つの第2の候補音声の第2の音声フィンガープリントにおける語出現頻度を決定するために用いられる。なお、当該普通フィンガープリントインデックスは上述したように強弱重みに基づいて得たフィンガープリントインデックスであってもよい。
ファイル頻度決定サブモジュール1213は、転置フィンガープリントインデックスに基づき、1つの第1の音声フィンガープリント単体のファイル頻度を決定するために用いられる。なお、当該転置フィンガープリントインデックスは上述したように強弱重みに基づいて得たフィンガープリントインデックスであってもよい。
語出現頻度−逆文書頻度得点サブモジュール1214は、それぞれの第1の音声フィンガープリント単体の1つの第2の候補音声の第2の音声フィンガープリントにおける語出現頻度及びそれぞれの第1の音声フィンガープリント単体のファイル頻度に基づき、当該第2の候補音声の語出現頻度−逆文書頻度得点を決定するために用いられる。
第1の順位付けサブモジュール1215は、得られたそれぞれの第2の候補音声の語出現頻度−逆文書頻度得点に基づき、第2の候補音声集合に対して順位付けを行って、第1の順位付けの結果を得て、当該第1の順位付けの結果から第1の候補音声集合として上位k個の第2の候補音声を取り出すために用いられる。当該第1の順位付けサブモジュール1215は、後続の更なる処理に備え、それぞれの第1の候補音声の第2の音声フィンガープリント(普通フィンガープリントインデックス)を第2の順位付けモジュール1220に返すためにも用いられる。
本発明のいくつかの実施例において、当該第2の順位付けは順に配列された複数の第1の音声フィンガープリント単体からなる前後順序を有する配列の第1の候補音声の音声フィンガープリントにおける出現の状況に基づき、当該第1の候補音声集合における音声に対して行われる順位付けである。具体的に、当該第2の順位付けモジュール1220は、既存の音声のフィンガープリントインデックス及び第1の音声フィンガープリントに基づき当該第1の候補音声集合における音声の類似度行列を得て、当該類似度行列に基づき当該第1の候補音声集合における音声に対して順位付けを行うために用いられる。なお、当該第2の順位付けモジュール1220は具体的に、類似度行列を決定するプロセスにおいて、ロバスト性を向上させるために、第1の音声フィンガープリントに対応する強弱重み及び/又は既存の音声のフィンガープリントインデックスにおける強弱重みに基づき重み付けを行い、重み付けされた類似度行列を利用して第1の候補音声集合における音声に対して順位付けを行うために用いられてもよい。
図13は、本発明の一つの実施例によって提供される第2の順位付けモジュール1220の構造を概略的に示す図である。図13が参照されるように、本発明の一つの実施例において、当該第2の順位付けモジュール1220は具体的に、第2の音声フィンガープリント取得サブモジュール1221〜第2の順位付けサブモジュール1225を含む。
第2の音声フィンガープリント取得サブモジュール1221は、第1の候補音声集合における1つの第1の候補音声(ただし各第1の候補音声はいずれも既存の音声)の第2の音声フィンガープリントを取得するために用いられる。具体的に、既存の音声的フィンガープリントインデックス(例えば、普通フィンガープリントインデックス)に基づき当該第2の音声フィンガープリントを取得してもよい。本発明のいくつかの例において、第1の音声フィンガープリントはそれぞれの第1の音声フィンガープリント単体に対応する強弱重み単体(第1の強弱重み単体と称する)を含む、且つ/又は、第2の音声フィンガープリントはそれぞれの第2の音声フィンガープリント単体に対応する強弱重み単体(第2の強弱重み単体と称する)を含む。
単体類似度第1決定サブモジュール1222は、当該第1の候補音声の第2の音声フィンガープリントに含まれたそれぞれの第2の音声フィンガープリント単体とそれぞれの第1の音声フィンガープリント単体との単体類似度を決定するために用いられる。なお、単体類似度第1決定サブモジュール1222は具体的に、当該単体類似度を決定するプロセスにおいて、第1の強弱重み単体及び/又は第2の強弱重み単体に基づき、それぞれの第1の音声フィンガープリント単体、第2の音声フィンガープリント単体に対して重み付けを行い、次に重み付けされた第1の、第2の音声フィンガープリント単体に基づき当該単体類似度を決定するために用いられてもよい。本発明に係る一つの例において、音声データベースにおけるデータ情報の正確性がより高いため、第2の強弱重み単体を利用して第1の音声フィンガープリント単体、第2の音声フィンガープリント単体に対してそれぞれ重み付けを行ってもよい。
類似度行列第1決定サブモジュール1223は、それぞれの単体類似度に基づき、当該第1の候補音声と認識対象の音声との類似度行列を決定するために用いられる。
配列類似度得点決定サブモジュール1224は、1つの第1の候補音声の類似度行列に基づき、当該第1の候補音声の配列類似度得点を決定するために用いられる。具体的に、当該配列類似度得点決定サブモジュール1224は具体的に、類似度行列における直線に基づき当該配列類似度得点を決定するために用いられる。
第2の順位付けサブモジュール1225は、それぞれの第1の候補音声の当該配列類似度得点に基づき第1の候補音声集合に対して順位付けを行って、第2の順位付けの結果を得て、当該第2の順位付けの結果から認識結果として上位n個の第1の候補音声を取り出すために用いられる。
本発明の一つの実施例において、当該配列類似度得点決定サブモジュール1224は具体的に、上記等速音声を用いた方法における各具体的なステップを利用して当該配列類似度得点を決定するために用いられる。
本発明の一つの実施例において、当該配列類似度得点決定サブモジュール1224は具体的に、上記動的計画法における各具体的なステップを利用して当該配列類似度得点を決定するために用いられる。
さらに、ここで類似度行列は複数種の音声類似度を総合的に考慮して得るものであってもよい。図14は、本発明の一つの実施例による複数のタイプの第1の音声フィンガープリント及び第2の音声フィンガープリントに基づき類似度行列を決定する音声検索・認識装置1000の構造を概略的に示すブロック図である。図14が参照されるように、本発明の一つの実施例において、本発明に係る音声検索・認識装置1000は、マルチタイプの第1の音声フィンガープリント取得モジュール1300〜第2の順位付けサブモジュール1225を含む。
マルチタイプの第1の音声フィンガープリント取得モジュール1300は、複数種の音声フィンガープリント取得方法を利用して、認識対象の音声の複数のタイプの第1の音声フィンガープリントを取得するために用いられ、各タイプの第1の音声フィンガープリントは音声の内容特徴を示すための複数の第1の部分を含み、これらを第1の音声フィンガープリント単体と称する。好ましくは、少なくともいくつかのタイプの第1の音声フィンガープリントは第1の部分の信頼度を示すための第2の部分を含む。
マルチタイプの第2の音声フィンガープリント取得モジュール1400は、1つの既存の音声(具体的に、上記第1の候補音声集合における音声であってもよい)の複数のタイプの第2の音声フィンガープリントを取得するために用いられ、各タイプの第2の音声フィンガープリントは音声の内容特徴を示すための複数の第1の部分を含み、これらを第2の音声フィンガープリント単体と称する。好ましくは、少なくともいくつかのタイプの第2の音声フィンガープリントは第1の部分の信頼度を示すための第2の部分を含む。
単体類似度第2決定サブモジュール1500は、同一タイプの当該第2の音声フィンガープリント単体と当該第1の音声フィンガープリント単体との単体類似度をそれぞれ決定するために用いられる。これにより複数のタイプの音声フィンガープリントに対応して、1つの既存の音声の複数種の単体類似度を得ることができる。
類似度行列第2決定サブモジュール1600は、複数種の単体類似度の平均値又は最小値を決定し、複数種の単体類似度の当該平均値又は当該最小値に基づき当該既存の音声の類似度行列を決定するために用いられる。
また、上記配列類似度得点決定サブモジュール1224は、複数種の単体類似度の平均値又は最小値から得た当該類似度行列に基づき配列類似度得点を決定するために用いられる。
本発明のいくつかの実施例において、当該音声検索・認識装置1000は音声スライスモジュール(図示せず)をさらに含む。当該音声スライスモジュールは第1の順位付けを行う前に、取得された認識対象の音声の第1の音声フィンガープリント及び既存の音声の第2の音声フィンガープリントを、予め設定された一定の長さでスライスして、長さが等しい(同一数量の音声フィンガープリント単体を含む)複数の第1のサブ音声フィンガープリント及び第2のサブ音声フィンガープリントを得るために用いられる、且つ/又は、当該音声スライスモジュールは音声フィンガープリントを取得する前に、予め設定された一定の時間長さで認識対象の音声及び既存の音声をスライスして、複数の時間長さが等しい認識対象の音声セグメント及び既存の音声セグメントを得て、次にそれぞれの認識対象の音声セグメント及び既存の音声セグメントの音声フィンガープリントをそれぞれ取得して、それぞれの認識対象の音声セグメントの第1のサブ音声フィンガープリント、それぞれの既存の音声セグメントの第2のサブ音声フィンガープリントを得るために用いられる。上記第1の順位付けモジュール1210及び第2の順位付けモジュール1220は、各第1のサブ音声フィンガープリント、第2のサブ音声フィンガープリントに基づき上記第1の順位付け及び第2の順位付けのステップを行って、それぞれのサブ音声フィンガープリントの認識結果を得て、それぞれのサブ音声フィンガープリントの認識結果に基づきオリジナルの認識対象の音声の認識結果を決定するために用いられる。
本発明のいくつかの実施例において、第1の音声フィンガープリントにおける第1の音声フィンガープリント単体及び第2の音声フィンガープリントにおける第2の音声フィンガープリント単体は時間特性を備えて配列される。これにより、本発明に係る音声検索・認識装置1000は重複音声セグメント決定モジュール(図示せず)をさらに含み、当該モジュールは上記類似度行列に基づき認識対象の音声と既存の音声とで重複するセグメントを決定するために用いられる。具体的に、当該重複メディアセグメント決定モジュールは具体的に、類似度行列における直線の始点及び終点に基づき2つの音声における重複するセグメントの開始時間及び終了時間を得るために用いられる。
図15は、本発明の実施例に係る音声検索・認識ハードウェア装置のハードウェア構成を示すブロック図である。図15に示すように、本発明の実施例に係る音声検索・認識ハードウェア装置2000はメモリ2001と、プロセッサ2002とを含む。音声検索・認識ハードウェア装置2000における各コンポーネントはバスシステム及び/又は他の形式の接続機構(図示せず)によって互いに接続される。
当該メモリ2001は非一時的なコンピュータ可読コマンドを記憶するために用いられる。具体的に、メモリ2001は1つ又は複数のコンピュータプログラム製品を含んでもよく、当該コンピュータプログラム製品は例えば、揮発性メモリ及び/又は非揮発性メモリなど、様々な形式のコンピュータ可読記憶媒体を含んでもよい。当該揮発性メモリは例えば、ランダムアクセスメモリ(RAM)及び/又はキャッシュ(cache)などを含んでもよい。当該非揮発性メモリは例えば、リードオンリーメモリ(ROM)、ハードディスク、フラッシュメモリなどを含んでもよい。
当該プロセッサ2002は中央処理装置(CPU)、又はデータ処理能力及び/又はコマンド実行能力を有する他の形式の処理ユニットであってもよく、音声検索・認識ハードウェア装置2000の他のコンポーネントを制御して所望の機能を実行できる。本発明の一つの実施例において、当該プロセッサ2002は当該メモリ2001に記憶されている当該コンピュータ可読コマンドを実行して、当該音声検索・認識ハードウェア装置2000に本発明の各上記実施例に係る音声検索・認識方法の全て又は一部のステップを実行させるために用いられる。
図16は、本発明の実施例に係るコンピュータ可読記憶媒体を概略的に示す図である。図16に示すように、本発明の実施例に係るコンピュータ可読記憶媒体3000には、非一時的なコンピュータ可読コマンド3001が記憶される。当該非一時的なコンピュータ可読コマンド3001がプロセッサによって実行されると、本発明の各上記実施例に係る音声検索・認識方法の全て又は一部のステップが実行される。
図17は、本発明の実施例に係る端末機器のハードウェア構成を概略的に示す図である。端末機器は様々な形式で実施されてもよいが、本発明において端末機器は例えば携帯電話、スマートフォン、ノートパソコン、デジタル放送受信機、PDA(携帯情報端末)、PAD(タブレットパソコン)、PMP(ポータブルマルチメディアプレイヤー)、ナビゲーション装置、車載端末機器、車載表示端末、車載電子バックミラーなどの移動端末機器、及びデジタルTV、デスクトップパソコン などの固定端末機器を含むが、これらに限定されない。
図17に示すように、端末機器4100は無線通信ユニット4110と、A/V(音声/映像)入力ユニット4120と、ユーザー入力ユニット4130と、センシングユニット4140と、出力ユニット4150と、メモリ4160と、インタフェースユニット4170と、コントローラ4180と、電源ユニット4190などを含んでもよい。図17には各種のコンポーネントを有する端末機器が示されるが、示された全てのコンポーネントでの実施であるとは限らず、より多い又は少ないコンポーネントで実施されてもよい。
ただし、無線通信ユニット4110において、端末機器4100と無線通信システム又はネットワークとの間にラジオ通信を行うことができる。A/V入力ユニット4120は音声又は映像信号を受信するために用いられる。ユーザー入力ユニット4130はユーザーが入力したコマンドに基づきキー入力データを生成して端末機器の各種動作を制御できる。センシングユニット4140は端末機器4100の現時点の状態、端末機器4100の位置、端末機器4100に対するユーザーのタッチ入力の有無、端末機器4100の配向、端末機器4100の加速又は減速移動及び方向などを検出し、端末機器4100の動作を制御するためのコマンド又は信号を生成する。インタフェースユニット4170は少なくとも1つの外部装置が端末機器4100と接続するためのインタフェースとして用いられる。出力ユニット4150は視覚的、音声的及び/又は触覚的な方式で出力信号を提供するように構成される。メモリ4160にはコントローラ4180によって実行される処理及び動作制御用のソフトウェアプログラムなどが記憶されるか、又は出力されたもしくは出力されようとするデータを一時的に記憶することができる。メモリ4160は少なくとも1つのタイプの記憶媒体を含んでもよい。また、端末機器4100はネットワークによって接続された、メモリ4160の記憶機能を実行するネットワーク記憶装置と協働できる。コントローラ4180は一般に端末機器全体の動作を制御する。また、コントローラ4180はマルチメディアデータを表示又は再生するためのマルチメディアモジュールを含んでもよい。コントローラ4180はモード認識処理を実行して、タッチパネルに実行された手書き入力又は画像描画入力を文字又は画像として認識できる。電源ユニット4190はコントローラ4180の制御を受けて外部電力又は内部電力を受け取って各素子及びコンポーネントを操作するために必要な電力を提供する。
本発明によって提供される音声検索・認識方法の様々な実施形態は、例えば、コンピュータソフトウェア、ハードウェア又はこれらの任意の組み合わせであるコンピュータ可読媒体を用いて実施することができる。ハードウェアで実施する場合、本発明によって提供される音声検索・認識方法の様々な実施形態は特定用途向け集積回路(ASIC)、デジタルシグナルプロセッサ(DSP)、デジタルシグナルプロセッサデバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサを使用して、ここに記載の機能を実行する電子ユニットの少なくとも1種として設計して実施してもよい。場合によっては、本発明によって提供される音声検索・認識方法に係る様々な実施形態はコントローラ4180において実施されてもよい。ソフトウェアで実施する場合、本発明によって提供される音声検索・認識方法の様々な実施形態は少なくとも1種の機能又は動作を実行する単独のソフトウェアモジュールと組み合わせて実施してもよい。ソフトウェアコードは任意の適切なプログラミング言語で作成されたソフトウェアアプリケーションプログラム(又はプログラム)として実施されてもよく、ソフトウェアコードはメモリ4160に記憶されてコントローラ4180によって実行されてもよい。
上述したように、本発明の実施例に係る音声検索・認識方法、装置、ハードウェア装置、コンピュータ可読記憶媒体及び端末機器によれば、音声対象の、音声の内容特徴を示すための第1の部分と第1の部分の信頼度を示すための第2の部分とを含む音声フィンガープリント特徴を取得しこれを利用して音声検索・認識を行うことにより、音声検索・認識における正確性、ロバスト性及び効率を大幅に向上できる。
上述した内容は、具体的な実施例を踏まえて本発明の基本原理を説明しているが、本発明に提及されている利点、優位性、効果などは示例的なものに過ぎず制限を加えるものではないため、これらの利点、優位性、効果などは本発明の各実施例が必ず備えるものと理解すべきではない。また、上述した内容で開示されている詳細な部分は理解しやすいように列挙された例示的なものに過ぎず制限を加えるものではなく、上述した詳細な内容は本発明が対応する内容によって実現されるように限定するためのものではない。
本発明に係る素子、装置、機器、システムのブロック図は、例示の目的で挙げられる例に過ぎず、ブロック図に示す方式に従って接続、配置又は設定されなければならないように指示又は示唆するものではない。当業者が理解できるように、これらの素子、装置、機器、システムを任意の方式で接続、配置、設定することができる。例えば「含む」、「有する」などの用語は非限定的な用語であり、「〜を含むがこれらに限定されない」ことを指すものであり、これと入れ替えて使用できる。ここで使用されている用語「又は」及び「及び・且つ」とは用語「及び・且つ/又は」を指すものであり、これと入れ替えて使用できるが、文脈の中でこれとは別の意味を示す場合は除外される。ここで使用されている用語「例えば」とは、「例えば、〜、ただしこれらに限定されない」という表現に相当するものであり、これと入れ替えて使用できる。
また、ここで使用されている「少なくとも一つ」を含む事項における列挙で使用される「又は」とは、別々の要素として列挙されるものである。これにより例えば、「A、B又はCの少なくとも一つ」を用いた列挙の場合、AもしくはBもしくはC、又はABもしくはACもしくはBC、又はABC(即ちA及びB及びC)を意味する。また、用語「例示的」は挙げられた例が好適であるか又は他の例よりも優れるという意味ではない。
なお、本発明に係るシステム及び方法において、各部品又は各ステップは分離させるか、且つ/又は組み合わせてもよい。このような分離及び/又は組み合わせは本発明と同等なものと見なされるべきである。
添付の特許請求の範囲において定義された技術の範囲を逸脱することなくここに記載の技術に対して様々な変更、差し替え及び補正を行うことができる。また、本発明に係る特許請求の範囲は、上述した処理、機械、製造、事項の構成、手段、方法及び動作の具体的な内容に限定されない。ここに記載の対応する形態にて実質的に同一の機能を実行する又は実質的に同一の結果を実現する既存の又はこれらか開発される処理、機械、製造、事項の構成、手段、方法又は動作を利用してもよい。従って、添付の特許請求の範囲は当該範囲に含まれているこのような処理、機械、製造、事項の構成、手段、方法又は動作を含む。
本明細書に開示されている各形態に関する上記説明により、当業者は本発明を実現又は使用できる。これらの形態に関する様々な補正は当業者にとって自明なもので、ここに定義された一般原理は本発明の範囲を逸脱することなく他の態様にも利用できる。従って、本発明はここに示す形態に限定されることを意図せず、ここに記載の原理及び新規な特徴に適合する最も広い範囲に準拠すべきである。
例示及び説明の目的で上述した説明がなされているが、これにより本発明に係る実施例をここに記載の形態に限定することが意図されない。上述したように複数の例示的な形態及び実施例を検討しているが、当業者はこれらに対する変更、補正、差し替え、追加や組み合わせにも想到できる。
1000 音声検索・認識装置
1100 音声フィンガープリント取得システム
1200 検索・認識システム

Claims (35)

  1. 認識対象の音声の音声フィンガープリントを取得し、ただし、前記音声フィンガープリントは前記認識対象の音声の内容特徴を示すための第1の部分と前記第1の部分の信頼度を示すための第2の部分とを含むことと、
    前記音声フィンガープリントに基づき前記認識対象の音声に対して認識を行って、認識結果を得ることとを含む、音声検索・認識方法。
  2. 認識対象の音声の音声フィンガープリントを取得することは、
    前記認識対象の音声をスペクトログラムに変換することと、
    前記スペクトログラムにおける特徴点を決定することと、
    前記スペクトログラムにおいて、前記特徴点に1つ又は複数のマスクを決定し、各前記マスクは複数のスペクトログラム領域を含むことと、
    各前記スペクトログラム領域のエネルギー平均値を決定することと、
    前記マスクにおける前記複数のスペクトログラム領域のエネルギー平均値に基づき音声フィンガープリントビットを決定することと、
    前記音声フィンガープリントビットの信頼度を判断して強弱重みビットを決定することと、
    前記音声フィンガープリントビット及び前記強弱重みビットに基づき前記認識対象の音声の音声フィンガープリントを決定することとを含む、請求項1に記載の音声検索・認識方法。
  3. 前記認識対象の音声をスペクトログラムに変換することは、高速フーリエ変換により前記認識対象の音声を時間−周波数の二次元スペクトログラムに変換することを含み、前記スペクトログラムにおける各点の取得値は前記認識対象の音声のエネルギーを示す、請求項2に記載の音声検索・認識方法。
  4. 前記認識対象の音声をスペクトログラムに変換することは、前記スペクトログラムに対してメル変換を行うことをさらに含む、請求項3に記載の音声検索・認識方法。
  5. 前記特徴点は前記スペクトログラムにおける固定点である、請求項3に記載の音声検索・認識方法。
  6. 前記特徴点は周波数値が予め設定された複数の周波数設定値に等しい点である、請求項5に記載の音声検索・認識方法。
  7. 前記特徴点は前記スペクトログラムにおけるエネルギー極大値点であるか、又は、前記特徴点は前記スペクトログラムにおけるエネルギー極小値点である、請求項3に記載の音声検索・認識方法。
  8. 前記マスクに含まれた複数の前記スペクトログラム領域は対称に分布する、請求項2に記載の音声検索・認識方法。
  9. 前記マスクに含まれた複数の前記スペクトログラム領域は同一の周波数範囲を有する、且つ/又は、同一の時間範囲を有する、且つ/又は、前記特徴点を中心として点対称に分布する、請求項8に記載の音声検索・認識方法。
  10. 前記スペクトログラム領域のエネルギー平均値は前記スペクトログラム領域に含まれた全ての点のエネルギー値の平均値である、請求項2に記載の音声検索・認識方法。
  11. 前記マスクにおける前記複数のスペクトログラム領域のエネルギー平均値に基づき音声フィンガープリントビットを決定することは、
    1つの前記マスクに含まれた複数の前記スペクトログラム領域のエネルギー平均値の差値に基づき1つの音声フィンガープリントビットを決定することを含む、請求項2に記載の音声検索・認識方法。
  12. 前記音声フィンガープリントビットの信頼度を判断して強弱重みビットを決定することは、
    前記差値の絶対値が予め設定された強弱ビット閾値に達する又は超えるか否かを判断し、前記強弱ビット閾値に達している又は超えている場合、前記音声フィンガープリントビットを強ビットとして決定し、そうでない場合、前記音声フィンガープリントビットを弱ビットとして決定することと、前記音声フィンガープリントビットが強ビットか弱ビットであるかに基づき前記強弱重みビットを決定することとを含む、請求項11に記載の音声検索・認識方法。
  13. 認識対象の音声を時間順に複数のサブ音声セグメントに分割することと、
    各前記サブ音声セグメントの前記音声フィンガープリントを抽出することと、
    抽出して得た各前記サブ音声の前記音声フィンガープリントを組み合わせて、前記認識対象の音声の音声フィンガープリントを得ることとをさらに含む、請求項2に記載の音声検索・認識方法。
  14. 前記認識対象の音声の音声フィンガープリントを第1の音声フィンガープリントとして定義し、前記第1の音声フィンガープリントは複数の第1の音声フィンガープリント単体及びそれぞれの前記第1の音声フィンガープリント単体に対応する第1の強弱重み単体を含み、前記第1の音声フィンガープリント単体は前記認識対象の音声の複数の前記音声フィンガープリントビットを含み、前記第1の強弱重み単体は前記複数の音声フィンガープリントビットに対応する複数の前記強弱重みビットを含む、請求項2に記載の音声検索・認識方法。
  15. 前記音声フィンガープリントに基づき前記認識対象の音声に対して認識を行うことは、
    各単独の前記第1の音声フィンガープリント単体に基づき複数の既存の音声に対して第1の順位付けを行い、前記第1の順位付けの結果に基づき、第1の候補音声集合として上位k個の前記既存の音声を取り出し、ただしkは正の整数であることと、
    順に配列された複数の前記第1の音声フィンガープリント単体に基づき前記第1の候補音声集合に対して第2の順位付けを行い、前記第2の順位付けの結果に基づき、認識結果として上位n個の前記第1の候補音声を取り出し、ただしnは正の整数であることとを含む、請求項14に記載の音声検索・認識方法。
  16. 第2の音声フィンガープリントとして前記既存の音声の音声フィンガープリントを予め取得しておき、前記第2の音声フィンガープリントは複数の第2の音声フィンガープリント単体及び前記第2の音声フィンガープリント単体に対応する第2の強弱重み単体を含むことと、
    前記第2の音声フィンガープリントに対してインデクシングを行って、前記既存の音声のフィンガープリントインデックスを得ておくこととをさらに含む、請求項15に記載の音声検索・認識方法。
  17. 前記第1の順位付けを行う且つ/又は前記第2の順位付けを行うプロセスにおいて、前記第1の強弱重み単体及び/又は第2の強弱重み単体に基づき、前記第1の音声フィンガープリント単体及び/又は前記第2の音声フィンガープリント単体に対して重み付けを行う、請求項16に記載の音声検索・認識方法。
  18. 各単独の前記第1の音声フィンガープリント単体に基づき複数の既存の音声に対して第1の順位付けを行うことは、各単独の前記第1の音声フィンガープリント単体に基づき複数の既存の音声に対して語出現頻度−逆文書頻度(TF−IDF)順位付けを行うことを含む、請求項16に記載の音声検索・認識方法。
  19. 各単独の前記第1の音声フィンガープリント単体に基づき複数の既存の音声に対して語出現頻度−逆文書頻度(TF−IDF)方式の第1の順位付けを行うことは、
    前記既存の音声的フィンガープリントインデックスと前記第1の音声フィンガープリント単体とのマッチングを行って、前記既存の音声に対して前記TF−IDF順位付けを行うことを含む、請求項17に記載の音声検索・認識方法。
  20. 前記既存の音声のフィンガープリントインデックスを得ておくことは、
    前記第2の強弱重み単体に基づき、前記既存の音声の普通フィンガープリントインデックス及び/又は転置フィンガープリントインデックスを得ておくことを含む、請求項19に記載の音声検索・認識方法。
  21. 前記既存の音声のフィンガープリントインデックスと前記第1の音声フィンガープリント単体とのマッチングを行うことは、
    前記第1の強弱重み単体に基づき、前記音声のフィンガープリントインデックスと前記第1の音声フィンガープリント単体との正確マッチングを行うことを含む、請求項19に記載の音声検索・認識方法。
  22. 順に配列された複数の前記第1の音声フィンガープリント単体に基づき前記第1の候補音声集合に対して第2の順位付けを行うことは、
    前記既存の音声のフィンガープリントインデックス及び前記第1の音声フィンガープリントに基づき前記第1の候補音声集合における音声の類似度行列を得て、前記類似度行列に基づき前記第1の候補音声集合における音声に対して順位付けを行うことを含む、請求項16に記載の音声検索・認識方法。
  23. 前記既存の音声のフィンガープリントインデックス及び前記第1の音声フィンガープリントに基づき前記第1の候補音声集合における音声の類似度行列を得て、前記類似度行列に基づき前記第1の候補音声集合における音声に対して順位付けを行うことは、
    前記第1の強弱重み単体及び/又は前記第2の強弱重み単体を利用して重み付けを行って、重み付けされた前記類似度行列を得て、前記重み付けの類似度行列に基づき前記第1の候補音声集合における音声に対して順位付けを行うことを含む、請求項22に記載の音声検索・認識方法。
  24. 前記類似度行列に基づき前記第1の候補音声集合における音声に対して順位付けを行うことは、
    前記類似度行列における直線に基づき前記第1の候補音声集合における音声に対して順位付けを行うことを含む、請求項22に記載の音声検索・認識方法。
  25. 認識対象の音声の音声フィンガープリントを取得することは、前記認識対象の音声の複数のタイプの第1の音声フィンガープリントを取得することと、
    第2の音声フィンガープリントとして、前記既存の音声の音声フィンガープリントを取得しておくことは、前記第1の候補音声集合における音声の複数のタイプの第2の音声フィンガープリントを取得することを含み、
    前記既存の音声のフィンガープリントインデックス及び前記第1の音声フィンガープリントに基づき前記第1の候補音声集合における音声の類似度行列を得ることは、前記複数のタイプの第1の音声フィンガープリント及び前記複数のタイプの第2の音声フィンガープリントに基づき前記類似度行列を決定することを含む、請求項22に記載の音声検索・認識方法。
  26. 各タイプの前記第1の音声フィンガープリントは複数の第1の音声フィンガープリント単体を含み、各タイプの前記第2の音声フィンガープリントは複数の第2の音声フィンガープリント単体を含み、
    前記複数のタイプの第1の音声フィンガープリント及び前記複数のタイプの第2の音声フィンガープリントに基づき前記類似度行列を決定することは、
    同一タイプの前記第2の音声フィンガープリント単体と前記第1の音声フィンガープリント単体との単体類似度をそれぞれ決定して、複数種の前記単体類似度を得ることと、前記複数種の単体類似度の平均値又は最小値に基づき前記類似度行列を決定することとを含む、請求項25に記載の音声検索・認識方法。
  27. 予め設定された時間長さで認識対象の音声及び既存の音声をスライスしておき、複数の認識対象のサブ音声セグメント及び複数の既存のサブ音声セグメントを得て、前記複数の認識対象のサブ音声セグメント及び前記複数の既存のサブ音声セグメントに対してそれぞれ音声フィンガープリントを抽出して、長さが等しい複数の第1のサブ音声フィンガープリント及び複数の第2のサブ音声フィンガープリントを得ることをさらに含む、請求項16に記載の音声検索・認識方法。
  28. 前記第1の順位付けを行う前に、得られた認識対象の音声の前記第1の音声フィンガープリント及び既存の音声の前記第2の音声フィンガープリントに対して予め設定された長さでスライスして、長さが等しい複数の第1のサブ音声フィンガープリント及び複数の第2のサブ音声フィンガープリントを得ることをさらに含む、請求項16に記載の音声検索・認識方法。
  29. 前記複数の第1の音声フィンガープリント単体は前記第1の音声フィンガープリントにおいて時間順に配列され、前記複数の第2の音声フィンガープリント単体は前記第2の音声フィンガープリントにおいて時間順に配列される、請求項22に記載の音声検索・認識方法。
  30. 前記類似度行列に基づき、前記認識対象の音声と前記認識結果における音声とで重複するセグメントを決定することをさらに含む、請求項29に記載の音声検索・認識方法。
  31. 認識対象の音声の音声フィンガープリントを取得するために用いられ、ただし、前記音声フィンガープリントは前記認識対象の音声の内容特徴を示すための第1の部分と前記第1の部分の信頼度を示すための第2の部分とを含む音声フィンガープリント取得システムと、
    前記音声フィンガープリントに基づき、前記認識対象の音声に対して認識を行って、認識結果を得るための検索・認識システムとを含む、音声検索・認識装置。
  32. 請求項2から請求項30のいずれか1項に記載のステップを実行するモジュールをさらに含む、請求項31に記載の音声検索・認識装置。
  33. 非一時的なコンピュータ可読コマンドを記憶するためのメモリと、
    前記コンピュータ可読コマンドを実行することで、前記コンピュータ可読コマンドがプロセッサによって実行されると請求項1から請求項30のいずれか1項に記載の音声検索・認識方法が実現されるプロセッサとを含む、音声検索・認識ハードウェア装置。
  34. 非一時的なコンピュータ可読コマンドを記憶するために用いられ、前記非一時的なコンピュータ可読コマンドがコンピュータによって実行されると、前記コンピュータは請求項1から請求項30のいずれか1項に記載の音声検索・認識方法を実行する、コンピュータ可読記憶媒体。
  35. 請求項31又は請求項32に記載の音声検索・認識装置を含む、端末機器。
JP2019572761A 2018-03-29 2018-12-29 音声検索・認識方法及び装置 Active JP6906641B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810273699.7 2018-03-29
CN201810273699.7A CN110322897B (zh) 2018-03-29 2018-03-29 一种音频检索识别方法及装置
PCT/CN2018/125493 WO2019184518A1 (zh) 2018-03-29 2018-12-29 一种音频检索识别方法及装置

Publications (2)

Publication Number Publication Date
JP2020525856A true JP2020525856A (ja) 2020-08-27
JP6906641B2 JP6906641B2 (ja) 2021-07-21

Family

ID=68062454

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019572761A Active JP6906641B2 (ja) 2018-03-29 2018-12-29 音声検索・認識方法及び装置

Country Status (5)

Country Link
US (1) US11182426B2 (ja)
JP (1) JP6906641B2 (ja)
CN (1) CN110322897B (ja)
SG (1) SG11202008548VA (ja)
WO (1) WO2019184518A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022048130A (ja) * 2020-09-14 2022-03-25 ネイバー コーポレーション 音源を検出するための電子装置およびその作動方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569373B (zh) * 2018-03-29 2022-05-13 北京字节跳动网络技术有限公司 一种媒体特征的比对方法及装置
CN111986698B (zh) * 2019-05-24 2023-06-30 腾讯科技(深圳)有限公司 音频片段的匹配方法、装置、计算机可读介质及电子设备
KR20210009596A (ko) * 2019-07-17 2021-01-27 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스
CA3098349C (en) 2019-11-29 2023-04-04 Alipay (Hangzhou) Information Technology Co., Ltd. Methods and devices for storing and managing audio data on blockchain
CN111489757B (zh) * 2020-03-26 2023-08-18 北京达佳互联信息技术有限公司 音频处理方法、装置、电子设备及可读存储介质
CN111460215B (zh) * 2020-03-30 2021-08-24 腾讯科技(深圳)有限公司 音频数据处理方法、装置、计算机设备以及存储介质
CN114020958B (zh) * 2021-09-26 2022-12-06 天翼爱音乐文化科技有限公司 一种音乐分享方法、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004505328A (ja) * 2000-07-31 2004-02-19 シャザム エンターテインメント リミテッド 高い雑音、歪み環境下でサウンド・楽音信号を認識するシステムおよび方法
JP2004519015A (ja) * 2001-02-12 2004-06-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチメディア・コンテンツのハッシュの生成および突合せ
US20140310006A1 (en) * 2011-08-29 2014-10-16 Telefonica, S.A. Method to generate audio fingerprints
CN106663102A (zh) * 2014-04-04 2017-05-10 Teletrax有限公司 用于生成信息信号的指纹的方法和装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010022303A1 (en) * 2008-08-22 2010-02-25 Dolby Laboratories Licensing Corporation Content identification and quality monitoring
US20150254342A1 (en) * 2011-05-30 2015-09-10 Lei Yu Video dna (vdna) method and system for multi-dimensional content matching
US9009149B2 (en) * 2011-12-06 2015-04-14 The Trustees Of Columbia University In The City Of New York Systems and methods for mobile search using Bag of Hash Bits and boundary reranking
US8681950B2 (en) * 2012-03-28 2014-03-25 Interactive Intelligence, Inc. System and method for fingerprinting datasets
CN103971689B (zh) * 2013-02-04 2016-01-27 腾讯科技(深圳)有限公司 一种音频识别方法及装置
US11289077B2 (en) * 2014-07-15 2022-03-29 Avaya Inc. Systems and methods for speech analytics and phrase spotting using phoneme sequences
CN104142984B (zh) * 2014-07-18 2017-04-05 电子科技大学 一种基于粗细粒度的视频指纹检索方法
US9837101B2 (en) * 2014-11-25 2017-12-05 Facebook, Inc. Indexing based on time-variant transforms of an audio signal's spectrogram
US9740775B2 (en) * 2015-03-13 2017-08-22 TCL Research America Inc. Video retrieval based on optimized selected fingerprints
CN104778276A (zh) * 2015-04-29 2015-07-15 北京航空航天大学 一种基于改进tf-idf的多索引合并排序算法
US20170097992A1 (en) * 2015-10-02 2017-04-06 Evergig Music S.A.S.U. Systems and methods for searching, comparing and/or matching digital audio files
CN107293307B (zh) * 2016-03-31 2021-07-16 阿里巴巴集团控股有限公司 音频检测方法及装置
US20170309298A1 (en) * 2016-04-20 2017-10-26 Gracenote, Inc. Digital fingerprint indexing
CN106940996A (zh) 2017-04-24 2017-07-11 维沃移动通信有限公司 一种视频中背景音乐的识别方法和移动终端
US10236005B2 (en) * 2017-06-08 2019-03-19 The Nielsen Company (Us), Llc Methods and apparatus for audio signature generation and matching
CN107402965B (zh) * 2017-06-22 2020-04-28 中国农业大学 一种音频检索方法
CN107577773A (zh) 2017-09-08 2018-01-12 科大讯飞股份有限公司 一种音频匹配方法与装置、电子设备
CN107622773B (zh) * 2017-09-08 2021-04-06 科大讯飞股份有限公司 一种音频特征提取方法与装置、电子设备
CN107633078B (zh) * 2017-09-25 2019-02-22 北京达佳互联信息技术有限公司 音频指纹提取方法、音视频检测方法、装置及终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004505328A (ja) * 2000-07-31 2004-02-19 シャザム エンターテインメント リミテッド 高い雑音、歪み環境下でサウンド・楽音信号を認識するシステムおよび方法
JP2004519015A (ja) * 2001-02-12 2004-06-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチメディア・コンテンツのハッシュの生成および突合せ
US20140310006A1 (en) * 2011-08-29 2014-10-16 Telefonica, S.A. Method to generate audio fingerprints
CN106663102A (zh) * 2014-04-04 2017-05-10 Teletrax有限公司 用于生成信息信号的指纹的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"MASK: Robust Local Features for Audio Fingerprinting", 2012 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO, JPN6020049992, 9 July 2012 (2012-07-09), pages 455 - 460, ISSN: 0004415792 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022048130A (ja) * 2020-09-14 2022-03-25 ネイバー コーポレーション 音源を検出するための電子装置およびその作動方法
JP7314221B2 (ja) 2020-09-14 2023-07-25 ネイバー コーポレーション 音源を検出するための電子装置およびその作動方法

Also Published As

Publication number Publication date
CN110322897B (zh) 2021-09-03
WO2019184518A1 (zh) 2019-10-03
SG11202008548VA (en) 2020-10-29
US11182426B2 (en) 2021-11-23
JP6906641B2 (ja) 2021-07-21
US20210165827A1 (en) 2021-06-03
CN110322897A (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
JP6906641B2 (ja) 音声検索・認識方法及び装置
US10346257B2 (en) Method and device for deduplicating web page
CN109657213B (zh) 文本相似度检测方法、装置和电子设备
US9280595B2 (en) Application query conversion
US8275177B2 (en) System and method for media fingerprint indexing
US7772478B2 (en) Understanding music
US20140280304A1 (en) Matching versions of a known song to an unknown song
US20220366880A1 (en) Method and electronic device for recognizing song, and storage medium
WO2020114100A1 (zh) 一种信息处理方法、装置和计算机存储介质
CN108170650B (zh) 文本比较方法以及文本比较装置
JP6908774B2 (ja) オーディオ指紋抽出方法及び装置
Kiktova-Vozarikova et al. Feature selection for acoustic events detection
AU2017216520A1 (en) Common data repository for improving transactional efficiencies of user interactions with a computing device
US9053087B2 (en) Automatic semantic evaluation of speech recognition results
Wang et al. A histogram density modeling approach to music emotion recognition
CN108345679B (zh) 一种音视频检索方法、装置、设备及可读存储介质
CN111104572A (zh) 用于模型训练的特征选择方法、装置及电子设备
US11874869B2 (en) Media retrieval method and apparatus
US10776420B2 (en) Fingerprint clustering for content-based audio recognition
CN103870476A (zh) 检索方法及设备
Aryafar et al. Multimodal music and lyrics fusion classifier for artist identification
CN112800314B (zh) 搜索引擎询问自动补全的方法、系统、存储介质及设备
JP5868262B2 (ja) 画像検索装置、画像検索方法
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
CN111552864B (zh) 一种资讯去重的方法、系统、存储介质及电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191227

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210629

R150 Certificate of patent or registration of utility model

Ref document number: 6906641

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250