JP2018534609A - オーディオ認識方法及びシステム - Google Patents

オーディオ認識方法及びシステム Download PDF

Info

Publication number
JP2018534609A
JP2018534609A JP2018515493A JP2018515493A JP2018534609A JP 2018534609 A JP2018534609 A JP 2018534609A JP 2018515493 A JP2018515493 A JP 2018515493A JP 2018515493 A JP2018515493 A JP 2018515493A JP 2018534609 A JP2018534609 A JP 2018534609A
Authority
JP
Japan
Prior art keywords
feature point
spectrogram
audio file
feature
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018515493A
Other languages
English (en)
Other versions
JP6585835B2 (ja
Inventor
チーチュン トゥー
チーチュン トゥー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2018534609A publication Critical patent/JP2018534609A/ja
Application granted granted Critical
Publication of JP6585835B2 publication Critical patent/JP6585835B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

オーディオ認識方法及びシステムが開示されている。オーディオ認識方法は、特徴点マップを取得するべく、認識対象のオーディオファイルのスペクトログラム内の複数の第一特徴点に対して拡散処理を実行するステップ(S110)と、特徴点マップ内の拡散した第一特徴点にそれぞれが対応する第二特徴点が存在しているかどうかを判定するべく、ターゲットオーディオファイルのスペクトログラム内においてサーチするステップ(S120)と、判定結果が肯定的である場合に、認識対象のオーディオファイルのスペクトログラムがターゲットオーディオファイルの一部分であると判定するステップ(S130)と、を具備する。該方法は、オーディオ認識における特徴点のマッチング成功率を改善することができる。

Description

本発明は、インターネット技術の分野に関し、且つ、更に詳しくは、オーディオ認識方法及びシステムに関する。
インターネット技術の継続的な発展に伴い、インターネットは、日々の生活における不可欠なツールとなっている。用途の新しい傾向は、インターネット装置を使用することによって未知のオーディオの認識を実現すると共にオーディオ認識に基づいたやり取りを実行するというものである。
オーディオ認識に基づいたやり取りには、多くのタイプの用途が存在している。例えば、一つの用途は、ユーザが、歌を聴取したが、その歌のタイトルを知らないというものである。この歌のオーディオのセグメントを記録することが可能であり、且つ、次いで、オーディオ認識技術を使用することにより、この歌のタイトル、歌手、及びその他の情報を認識することができる。
従来技術によれば、認識は、通常、認識対象のオーディオの特徴点を抽出及び使用することにより、実行されている。図1に示されているように、x軸は、時間を表し、且つ、y軸は、周波数を表している。抽出された特徴点は、図中の「X」である。二つの特徴点が特徴点ペアを構成し、且つ、ターゲット領域内には、八つの特徴点ペアが存在している。認識は、特徴点ペアに基づいて、データベース内において実行され、且つ、データベースは、歌の特徴点と、歌のタイトル、歌手、及びこれらに類似したものなどの歌の情報と、を保存している。同一の特徴点ペアが、データベース内において同一のターゲット領域内においてマッチングし得る場合には、マッチングに成功しており、且つ、その結果、対応する歌情報を取得することができる。但し、オーディオ記録の際のノイズの不可避な影響下においては、抽出される特徴点が、必ずしも正常な位置において発生しない場合がある。この結果、特徴点ペアのマッチングの成功確率は、相対的に小さい。
要すれば、既存の技術は、オーディオ認識における特徴点に基づいたマッチング成功率が小さいという欠陥を有する。
本出願の実施形態の目的は、特徴点のマッチング成功率がオーディオ認識において小さいという従来技術の問題点を解決するためのオーディオ認識方法及びシステムを提供するというものである。
上述の技術的問題点を解決するべく、本出願の一実施形態によるオーディオ認識方法は、特徴点マップを取得するべく、認識対象のオーディオファイルのスペクトログラム(spectrogram)内の複数の第一特徴点に対して拡散処理を実行するステップと、特徴点マップ内の拡散した第一特徴点にそれぞれが対応する第二特徴点が存在しているかどうかを判定するべく、ターゲットオーディオファイルのスペクトログラム内においてサーチするステップと、判定結果が肯定的である場合に、認識対象のオーディオファイルがターゲットオーディオファイルの一部分であると判定するステップと、を具備する。
本出願の一実施形態によるオーディオ認識システムは、特徴点マップを取得するべく、認識対象のオーディオファイルのスペクトログラム内の複数の第一特徴点に対して拡散処理を実行するように構成された拡散ユニットと、特徴点マップ内の拡散した第一特徴点にそれぞれが対応する第二特徴点が存在しているかどうかを判定するべく、ターゲットオーディオファイルのスペクトログラム内においてサーチするように構成されたサーチユニットと、特徴点マップ内の拡散した第一特徴点にそれぞれが対応する第二特徴点がターゲットオーディオファイルのスペクトログラム内において見出される際に、認識対象のオーディオファイルがターゲットオーディオファイルの一部分であると判定するように構成されたを判定ユニットと、を具備する。
本出願の実施形態による技術的解決策から、本出願の実施形態によるオーディオ認識方法及びシステムは、認識対象のオーディオファイルのスペクトログラム内の第一特徴点の拡散を通じて、ノイズによって生成される第一特徴点の逸脱誤りを低減することが可能であり、その結果、拡散処理の後に、ターゲットオーディオファイルとの間における第一特徴点のマッチング率が改善される、即ち、特徴点のマッチング成功率が改善されることがわかる。
本出願の実施形態における技術的解決策又は従来技術について更に明瞭に説明するべく、以下、実施形態又は従来技術の説明において使用されている添付図面について簡潔に説明する。以下の説明における添付図面は、本出願において記録されているいくつかの実施形態を例示するものに過ぎないことが明らかとなろう。当業者は、発明的な努力を伴うことなしに、これらの図面に従って、その他の図面を更に取得することができよう。
図1は、従来技術による特徴点ペアを伴う認識を実行するステップの概略図である。 図2は、本出願の一実施形態によるオーディオ認識方法のフローチャートである。 図3は、認識対象のオーディオファイルのスペクトログラムの概略図である。 図4aは、拡散処理前の第一特徴点の概略図である。 図4bは、拡散処理後の第一特徴点の概略図である。 図5は、図2のS120のステップの方法フローチャートである。 図6は、特徴点マップ内の拡散した第一特徴点にそれぞれが対応する第二特徴点についてターゲットオーディオファイルのスペクトログラム内においてサーチするステップの概略図である。 図7は、本出願の一実施形態によるオーディオ認識方法のフローチャートである。 図8aは、スペクトログラム内において判定された第一特徴点の概略図である。 図8bは、図8aの拡大部分図である。 図9は、本出願の一実施形態によるオーディオ認識システムのモジュールの概略図である。
当業者が本出願における技術的解決策について更に十分に理解できるようにするべく、以下、本出願の実施形態における添付図面を参照し、本出願の実施形態における技術的解決策について明瞭且つ十分に説明することとする。記述されている実施形態が、本出願の実施形態の、すべてのものではなく、いくつかのものであるに過ぎないことは明らかである。本出願の実施形態に基づいて、且つ、発明的な努力を伴うことなしに、当業者が取得し得るすべてのその他の実施形態は、本出願の範囲に含まれる。
図2は、本出願の一実施形態によるオーディオ認識方法のフローチャートである。本実施形態においては、オーディオ認識方法は、以下のステップを具備する。
S110:特徴点マップを取得するべく、認識対象のオーディオファイルのスペクトログラム内の複数の第一特徴点に対して拡散処理を実行する。
スペクトログラムは、オーディオスペクトログラムとも呼称され、これは、通常、受け取った時間信号を処理することにより、取得される。通常、スペクトログラムのx軸は、時間を表すべく使用され、y軸は、周波数を表すべく使用され、且つ、座標点の値は、オーディオデータエネルギーを表している。通常、3次元情報を表現するべく、2次元プレーンを使用することができる。従って、座標点の値によって表されるオーディオデータのエネルギー値の大きさを表すべく、色を使用することができる。例えば、色のスペクトルを使用することができる。色が相対的に暗くなった際には、それは、座標点のオーディオエネルギーが相対的に強力であることを通知しており、逆に、相対的に明るい色を有する座標点は、座標点のオーディオエネルギーが相対的に弱いことを通知し得る。更には、グレースケールを使用することもできる。座標点が、白色に相対的に近い色を有する際には、それは、座標点のオーディオエネルギーが相対的に強力であることを通知し、逆に、黒色に相対的に近い色を有する座標点は、座標点のオーディオエネルギーが相対的に弱いことを通知し得る。
従って、スペクトログラムは、時間に伴って変化するオーディオ信号のスペクトル特徴を直感的に表すことができる。対応する点のグレースケール又はトーンの程度により、所与の瞬間における任意の特定の周波数成分の強度を表すことができる。
例えば、スペクトログラムは、以下のステップを通じて取得することができる。
A1:予め設定された時間に従って認識対象のオーディオファイルを複数のフレームに分割する。
予め設定された時間は、過去の経験に従ってユーザが取得した経験的な値であってもよい。本実施形態においては、予め設定された時間は、32msを含む。即ち、それぞれのフレームと16msのフレームとがオーバーラップするように、32msのオーディオセグメントを取得するべく、32msに従って認識対象のオーディオファイルを複数のフレームに分割することができる。
A2:スペクトログラムを取得するべく、フレーム分割処理後にオーディオセグメントに対して短時間のスペクトル分析を実行する。
短時間のスペクトル分析は、高速フーリエ変換(FFT:Fast Fourier Transformation)を含む。FFTは、離散フーリエ変換の高速アルゴリズムであり、且つ、FFTは、オーディオ信号を時間ドメイン及び周波数ドメイン内における結合分布情報を記録したスペクトログラムに変換するべく、使用することができる。
フレームは、32msにおいて分割され、且つ、32msは、8000hzのサンプリングに対応していることから、FFT計算の後に、256個の周波数点を取得することができる。
図3に示されているように、x軸は、いくつかのフレームを表すことが可能であり、即ち、フレーム分割処理後のオーディオファイルのいくつかのフレームを表すことが可能であって、これは、スペクトログラムの幅に対応しており、y軸は、周波数を表すことが可能であり、且つ、合計で256個の周波数点が存在しており、これは、スペクトログラムの高さに対応しており、且つ、座標点の値は、第一特徴点のエネルギーを表している。
好ましくは、フレーム分割処理後のオーディオセグメントに対して短時間のスペクトル分析を実行した後に、方法は、以下のステップを更に具備することができる。
A3:短時間のスペクトル分析後に、300〜2khzの周波数セグメントを抽出する。
通常の歌は、300〜2k hzの周波数セグメント内においてクラスタ化された主周波数を有していることから、本実施形態は、300〜2k hzの周波数セグメントを抽出することにより、周波数セグメントに対するその他の周波数セグメントからのノイズの悪影響を除去することができる。
本出願の別の実施形態においては、ステップS110の前に、方法は、認識対象のオーディオファイルのスペクトログラム内の第一特徴点のエネルギー値を第一特徴点のグレースケール値に対して正規化するステップを更に具備することができる。
本実施形態においては、FFT後の第一特徴点のエネルギー値の範囲は、相対的に広くなっており、これは、0〜28 に、或いは、場合によっては、0〜216 に、到達し得る(エネルギー値の範囲は、オーディオファイルの信号強度に比例している)。この結果、この場合に、エネルギー値は、0が黒色を表すと共に255が白色を表す状態で、0〜255がグレースケール値に対応し得るように、0〜255の範囲内に正規化される。
通常の正規化方法は、最大値及び最小値を取得するべく、以下のように、スペクトログラム全体内の第一特徴点のエネルギー値を精査するステップを具備する。
第一特徴点を以下のように正規化する。
ここで、Vは第一特徴点のエネルギー値であり、Vmin は最小値であり、且つ、Vmax は最大値である。
本出願の実施形態は、上述の通常の正規化方法を採用することができる。但し、このような正規化方法によって得られるVmin は、いくつかの弱い音響が存在する際には、過剰に小さくなり得るであろう。例えば、正規化式が
となるように、Vmin が0に接近することが可能である。従って、式は、Vmin から独立している。従って、Vmin は、典型的なものではなく、且つ、全体的な正規化結果に対して影響を及ぼすことになる。
本出願の実施形態は、ウィンドウとして、第一事前設定長さにより、フレームごとに、スペクトログラムを精査するステップと、ウィンドウ内の第一特徴点のエネルギー値のうちから、局所的最大値及び局所的最小値を取得するステップと、局所的最大値及び局所的極小値に従って、第一特徴点のエネルギー値を第一特徴点のグレースケール値に対して正規化するステップと、を具備し得る新しい正規化方法を提供する。
式(2)において示されている式が使用され、この場合に、Vは第一特徴点のエネルギー値であり、Vmin は局所的極小値であり、且つ、Vmax は局所的最大値である。
本実施形態は、フレーム分割処理後に発生するものについて記述しており、且つ、第一事前設定長さは、現時点のフレームに先行するT個のフレームと、現時点のフレームに後続するT個のフレームと、を具備することができる。即ち、第一事前設定長さは、2T個のフレームであり、且つ、2T+1個のフレームは、1s超である。
本実施形態において提供されている正規化方法によれば、いくつかの弱い音響は、それらが配置されている第一事前設定長さ内においてのみ、正規化結果に対して影響を及ぼし得るが、第一事前設定長さを超えては、正規化結果に対して影響を及ぼすことができない。従って、この正規化方法は、全体的な正規化結果に対する弱い音響の影響を低減することができる。
拡散処理は、ガウス関数拡散処理を具備することができる。即ち、ガウス関数が第一特徴点に対する拡散処理のために使用される。拡散処理は、増幅処理を更に具備することもできる。即ち、第一特徴点が、数倍だけ増幅され、例えば、10倍だけ、増幅される。
ガウス関数拡散処理は、一例として、以下のように表現され、これは、以下の式を使用している。
ここで、a、b、及びcは定数であり、a>0である。
即ち、式(1)は、第一特徴点の半径又は直径に対してガウス関数拡散処理を実行するべく、使用される。
第一特徴点の増幅処理は、一例として、以下のように使用され、この場合には、第一特徴点の半径又は直径が増幅され、例えば、半径又は直径が、10倍だけ、増幅される。いくつかの実施形態においては、確かに、第一特徴点は、数倍だけ、増幅されてもよく、且つ、その結果、円、菱形、矩形などのうちの少なくとも一つになってもよい。
図4aに示されているように、白色ドット(認識対象のオーディオファイルの第一特徴点)と黒色ドット(ターゲットオーディオファイルの特徴点)とは、拡散処理の前には、同一の場所には存在しておらず、且つ、その結果、マッチングを通じて最終的に得られる第二特徴点は、多くない。図4bに示されているように、白色ドットは、拡散処理後に、個々のドットエリアから領域に拡散されており、且つ、すべての領域が、黒色ドットとオーバーラップしている。
拡散処理は、第一特徴点をドットから領域に拡散させることが可能であり、且つ、その結果、ノイズによる干渉に対するある程度の抵抗力を有することができる。例えば、ノイズによる干渉に起因し、記録されたオーディオの第一特徴点は、オリジナルオーディオの第一特徴点の位置とわずかに異なり得る。このような相違が、拡散処理においては、無視可能となり、従って、マッチングを通じて得られる第二特徴点の数が増大する。
S120:特徴点マップ内の拡散した第一特徴点にそれぞれが対応する第二特徴点が存在しているかどうかを判定するべく、ターゲットオーディオファイルのスペクトログラム内においてサーチする。
図5に示されているように、ステップS120は、以下のステップを具備することができる。
S121:ウィンドウとして、特徴点マップにより、フレームごとに、ターゲットオーディオファイルのスペクトログラムを精査する。
S122:それぞれの精査プロセスにおいて、拡散処理後のウィンドウ内の第一特徴点の座標の範囲内の座標を有するウィンドウ内のターゲットオーディオファイルのスペクトログラム内の特徴点を第二特徴点として判定する。
S123:拡散した第一特徴点にそれぞれが対応する第二特徴点が存在しているかどうかを判定するべく、ウィンドウ内のターゲットオーディオファイルのスペクトログラム内においてサーチする。
図6は、特徴点マップ内の拡散した第一特徴点にそれぞれが対応する第二特徴点についてターゲットオーディオファイルのスペクトログラム内においてサーチするステップの概略図である。特徴点マップのフレームの数は、Nであり、ターゲットオーディオファイルのスペクトログラムのフレーム数は、Lであり、且つ、Lは、N以上であると仮定する。まず、ターゲットオーディオファイルのスペクトログラム内の[0,N]であるフレームの数を有する領域がサーチされ、その後に、[1,N+1]の領域がサーチされ、このようなフレームごとのサーチが、[L−N,L]の領域が精査される時点まで、実行される。それぞれの精査プロセスにおいて、それぞれのフレームの[t,t+N]のウィンドウ内のtは、フレームの数であり、且つ、拡散処理後の第一特徴点の座標の範囲内の座標を有するターゲットオーディオファイルのスペクトログラム内の特徴点が、第二特徴点として判定される。サーチは、拡散した第一特徴点にそれぞれが対応する第二特徴点について、ターゲットオーディオファイル内において実行される。
その他の実施形態においては、データベース内のすべてのオーディオファイルを精査することができる。その結果、認識対象のオーディオファイルのオーディオ情報を相対的に正確に認識することができる。
S130:判定結果が肯定的である場合に、認識対象のオーディオファイルのスペクトログラムがターゲットオーディオファイルの一部分であると判定する。
拡散した第一特徴点にそれぞれが対応する第二特徴点が認識対象のオーディオファイルのスペクトログラム内において見出された場合には、認識対象のオーディオファイルがターゲットオーディオファイルの一部分であると判定することができる。
本実施形態において認識対象のオーディオファイルのスペクトログラム内の第一特徴点に対して拡散処理を実行することにより、ノイズによって生成される第一特徴点の逸脱を低減することが可能であり、その結果、拡散処理の後に、ターゲットオーディオファイルとの間における第一特徴点のマッチング率が改善される、即ち、特徴点のマッチング成功率が改善される。
本出願の一実施形態においては、ステップS122は、第一特徴点と、拡散処理後のウィンドウ内の第一特徴点の座標の範囲内の座標を有するウィンドウ内のターゲットオーディオファイルのスペクトログラム内の特徴点と、の間のマッチングの程度を判定するステップと、第一閾値超のマッチングの程度を有する特徴点を第二特徴点として判定するステップと、を具備することができる。
マッチングの程度は、第一特徴点の数、或いは、拡散した第一特徴点の座標の範囲内のウィンドウ内のスペクトログラム内の特徴点に対応する第一特徴点のエネルギー値又はグレースケール値の合計に対する、拡散した第一特徴点の座標の範囲内のウィンドウ内のスペクトログラム内の特徴点の数の比率を具備する。第一閾値は、広範な関連する要因に応じたユーザによる統計的結果であってもよい。
一例として、第一特徴点の数に対する拡散した第一特徴点の座標の範囲内のウィンドウ内のスペクトログラム内の特徴点の数の比率によれば、拡散した第一特徴点の数が100であり、且つ、特徴点の数が60である場合には、第一特徴点と特徴点との間のマッチングの程度は、60%である。第一閾値が80%である場合には、これらの特徴点が第二特徴点であると判定される。
一例として、拡散した第一特徴点の座標の範囲内のウィンドウ内のスペクトログラム内の特徴点に対応する第一特徴点のエネルギー値の合計によれば、特徴点の数が10である場合には、エネルギー値の合計を取得するべく、これらの10個の特徴点に対応する10個の第一特徴点のエネルギー値が加算される。エネルギー値の合計が第一閾値超である場合には、これらの特徴点が第二特徴点であるものと判定される。
一例として、拡散した第一特徴点の座標の範囲内のウィンドウ内のスペクトログラム内の特徴点に対応する第一特徴点のグレースケール値の合計によれば、特徴点の数が10である場合には、グレースケール値の合計を取得するべく、これらの10個の特徴点に対応する10個の第一特徴点のグレースケール値が加算される。グレースケール値の合計が第一閾値超である場合には、これらの特徴点が第二特徴点であるものと判定される。
本出願の一実施形態においては、ステップS110の前に、方法は、図7に示されているように、S101及びS102を更に具備することができる。
S101:第二閾値超のエネルギー値又はグレースケール値を有する認識対象のオーディオファイルのスペクトログラム内に含まれる特徴点をキーポイントとして使用する。
第二閾値は、広範な関連する要因に応じたユーザによる統計的結果であってもよい。第二閾値が小さいほど、抽出され得るキーポイントが多くなり、これは、結果的に、相対的に長い後続のマッチング時間に結び付き得る。第二閾値が大きいほど、抽出され得るキーポイントが少なくなり、これは、結果的に、過度に小さな後続のマッチング成功確率に結び付き得る。
S102:キーポイントのエネルギー値又はグレースケール値が予め設定された領域内において最大値である場合には、キーポイントを第一特徴点して判定する。
予め設定された領域は、中心としてキーポイントを有すると共に、予め設定された半径に従って判定された、円形領域であってもよく、或いは、キーポイントを中心として有すると共に、予め設定された長さ及び幅に従って判定された、矩形領域であってもよい。
予め設定された領域は、広範な関連する要因に応じたユーザによる統計的結果であってもよい。予め設定された領域が小さいほど、判定され得る第一特徴点が多くなり、これは、その結果、相対的に長い後続のマッチング時間に結び付き得る。予め設定された領域が大きいほど、判定され得る第一特徴点が少なくなり、これは、その結果、過度に小さな後続のマッチング成功確率に結び付き得る。
図8aは、スペクトログラム内において判定された第一特徴点の概略図である。図中の白色ドットが第一特徴点である。例えば、第二閾値が30であり、且つ、予め設定された領域が15×15である(中心としてキーポイントを有しており、15個のフレームがx軸上において取得され、且つ、15の長さがy軸上において取得されている)ものと仮定されており、且つ、図8bは、図8aの拡大部分図である。図中の白色ドットのエネルギー値又はグレースケール値が、30という第二閾値を上回っており、且つ、依然として、15×15という予め設定された領域内において最大値である際には、このようなドットが第一特徴点として抽出される。
本出願の本実施形態は、スペクトログラム内の大きなエネルギー値又はグレースケール値を有する特徴点が第一特徴点して抽出されるという点において以前の実施形態と異なっており、この結果、後続のマッチングに対する低エネルギーを有する特徴点による干渉を除去することが可能であり、且つ、拡散処理用のデータ量を大幅に低減すること可能であり、これにより、システム性能が改善される。
本出願の一実施形態においては、ターゲットオーディオファイルは、オーディオ情報を含むことができる。本出願が歌認識シナリオにおいて適用された際には、オーディオ情報は、歌名称を含むことができる。ユーザは、未知の歌名称と共に認識対象のオーディオファイルを記録するか、或いは、未知の歌名称を有する歌である認識対象のオーディオファイルを記録する。認識対象のオーディオファイルがターゲットオーディオファイルの一部分であると判定された際に、認識対象のオーディオファイルの歌名称を認識することができる。
図9は、本出願の一実施形態によるオーディオ認識システムのモジュールの概略図である。本実施形態においては、オーディオ認識システムは、複数の第一特徴点が存在している特徴点マップを取得するべく、認識対象のオーディオファイルのスペクトログラム内の第一特徴点を拡散させるように構成された拡散ユニット210と、特徴点マップ内の拡散した第一特徴点にそれぞれが対応する第二特徴点が存在しているかどうかを判定するべく、ターゲットオーディオファイルのスペクトログラム内においてサーチするように構成されたサーチユニット220と、第二特徴点が特徴点マップ内の拡散した第一特徴点にそれぞれ対応している領域がターゲットオーディオファイルのスペクトログラム内において見出された際に、認識対象のオーディオファイルがターゲットオーディオファイルの一部分であると判定するように構成された判定ユニット230と、を具備する。
好ましくは、拡散ユニット210の前に、オーディオ認識システムは、認識対象のオーディオファイルのスペクトログラム内の第一特徴点のエネルギー値を第一特徴点のグレースケール値に対して正規化するように構成された正規化ユニットを更に具備することができる。
好ましくは、拡散処理は、ガウス関数拡散処理又は増幅処理のうちの少なくとも一つを具備する。
好ましくは、正規化ユニットは、ウィンドウとして、第一事前設定長さにより、フレームごとに、スペクトログラムを精査するように構成された第一正規化サブユニットと、ウィンドウ内の第一特徴点のエネルギー値のうちから、局所的極大値及び局所的極小値を取得するように構成された第二正規化サブユニットと、局所的最大値及び局所的最小値に従って、第一特徴点のエネルギー値を第一特徴点のグレースケール値に対して正規化するように構成された第三正規化サブユニットと、を具備することができる。
好ましくは、サーチユニット220は、ウィンドウとして、特徴点マップにより、フレームごとに、ターゲットオーディオファイルのスペクトログラムを精査するように構成された第一サーチサブユニットと、それぞれの精査プロセスにおいて、拡散処理後のウィンドウ内の第一特徴点の座標の範囲内の座標を有するウィンドウ内のターゲットオーディオファイルのスペクトログラム内の特徴点を第二特徴点として判定するように構成された第二サーチサブユニットと、拡散した第一特徴点にそれぞれが対応する第二特徴点が存在しているかどうかを判定するべく、ウィンドウ内のターゲットオーディオファイルのスペクトログラム内においてサーチするように構成された第三サーチサブユニットと、を具備することができる。
好ましくは、第二サーチサブユニットは、第一特徴点と、拡散処理後のウィンドウ内の第一特徴点の座標の範囲内の座標を有するウィンドウ内のターゲットオーディオファイルのスペクトログラム内の特徴点と、の間のマッチングの程度を判定するように構成された第四サーチサブユニットと、第一閾値超のマッチングの程度を有する特徴点を第二特徴点として判定するように構成された第五サーチサブユニットと、を具備することができる。
好ましくは、マッチングの程度は、第一特徴点の第一特徴点の数、或いは、拡散した第一特徴点の座標の範囲内のウィンドウ内のスペクトログラム内の特徴点に対応する第一特徴点のエネルギー値又はグレースケール値の合計に対する、拡散した第一特徴点の座標の範囲内のウィンドウ内のスペクトログラム内の特徴点の数の比率を具備する。
好ましくは、拡散処理の前に、オーディオ認識システムは、第二閾値超のエネルギー値又はグレースケール値を有する認識対象のオーディオファイルのスペクトログラム内に含まれる特徴点をキーポイントとして使用するように構成された第一処理ユニットと、キーポイントのエネルギー値又はグレースケール値が予め設定された領域内において最大値である場合に、キーポイントを第一特徴点として判定するように構成された第二処理ユニットと、を更に具備することができる。
好ましくは、ターゲットオーディオファイルは、オーディオ情報を含み、且つ、オーディオ情報は、歌名称を含む。
1990年代においては、技術に対する改善は、ハードウェア改善(例えば、ダイオード、トランジスタ、スイッチ、及びこれらに類似したものなどの回路構造に対する改善)又はソフトウェア改善(方法のフローに対する改善)に明確に弁別可能であった。但し、技術の進歩に伴って、方法フローに対する多くの現時点の改善は、ハードウェア回路構成に対する直接的な改善として見なすことができる。設計者は、通常、改善された方法フローをハードウェア回路内にプログラムすることにより、対応するハードウェア回路構造を取得している。従って、方法フローに対する改善は、ハードウェアモジュールを実装することにより、実現することができる。例えば、プログラム可能な論理装置(PLD:Programmable Logic Device)(例えば、フィールドプログラム可能なゲートアレイ(FPGA:Field Programmable Gate Array))は、その論理関数が、装置をプログラムすることを通じて、ユーザによって決定される集積回路である。設計者は、専用のICチップを設計及び製造するようにチップ製造者に対して要求することなしに、デジタルシステムを一つのPLD片上に集積するべく、プログラムすることができる。更には、現時点においては、このタイプのプログラミングは、その大部分が、ICチップを手作業で製造するのではなく、「ロジックコンパイラ」を通じて実装されている。ロジックコンパイラソフトウェアは、プログラム開発及び作成に使用されるソフトウェアコンパイラと類似しており、特定のプログラミング言語が、コンパイリングの前にソースコードを作成するべく使用されており、これは、ハードウェア記述言語(HDL:Hardware Description Language)と呼称される。一つだけではなく、ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)、及びこれらに類似したものなどの、多くのタイプのHDLが存在している。最も一般的に使用されているHDLは、現時点においては、VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)及び Verilog を含む。当業者は、上述のHDLを使用することによって論理方法フローを実装し、方法フローに関するなんらかの論理的プログラミングを実行すると共にこれをIC内にプログラムするべく、ハードウェア回路を入手することについて認知しているであろう。
任意の適切な方式により、コントローラが実装されてもよい。例えば、コントローラは、マイクロプロセッサ又はプロセッサのみならず、(マイクロ)プロセッサ、ロジックゲート、スイッチ、用途固有の集積回路(ASIC:Application Specific Integrated Circuit)、プログラム可能なロジックコントローラ、及び埋め込み型のマイクロコントローラによって実行可能であるコンピュータ可読プログラムコード(例えば、ソフトウェア又はファームウェア)を保存するコンピュータ可読媒体の形態であってもよい。コントローラの例は、限定を伴うことなしに、ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20、及び Silicone Labs C8051F320 というマイクロコントローラを含む。メモリの制御ロジックの一部分として、メモリコントローラが更に実装されてもよい。又、当業者は、コントローラが純粋なコンピュータ可読プログラムコードの方式によって実装されることに加えて、コントローラが、ロジックゲート、スイッチ、ASIC、プログラム可能な論理コントローラ、及び埋め込み型のマイクロプロセッサの形態において同一の機能を実装できるようにするべく、方法のステップに関する論理プログラミングを実行することも、十分に実現可能であることに気付くであろう。従って、このようなコントローラは、ハードウェア部分として見なすことが可能であり、その内部に含まれた、且つ、様々な機能を実行するように構成された、装置も、ハードウェア部分の内部の構造として見なすことができる。或いは、この代わりに、様々な機能を実行するように構成された装置は、場合によっては、方法を実装するためのソフトウェアモジュールとハードウェア部分内部の構造との両方として見なすこともできる。
上述の実施形態において記述されているシステム、装置、モジュール、又はユニットは、コンピュータチップ又はエンティティによって実装されてもよく、或いは、機能を有する製品によって実装されてもよい。
説明の利便を目的として、上述の装置は、別個の説明のために、機能に従って様々なユニットに分割されている。確かに、ユニットの機能は、本出願を実装する際に、一つ以上のソフトウェア及び/又はハードウェア片として実装されてもよい。
当業者は、本発明の実施形態は、方法、システム、又はコンピュータプログラムプロダクトとして提供され得ることを理解するであろう。従って、本発明は、完全なハードウェア実施形態、完全なソフトウェア実施形態、又はソフトウェア及びハードウェアを組み合わせた実施形態として実装されてもよい。更には、本発明は、その内部においてコンピュータ使用可能プログラムコードを具備する一つ以上のコンピュータ使用可能ストレージ媒体(限定を伴うことなしに、磁気ディスクメモリ、CD−ROM、光メモリ、及びこれらに類似したものを含む)上において実装されたコンピュータプログラムの形態において実装されてもよい。
本発明は、本発明の実施形態による方法、装置(システム)、及びコンピュータプログラムプロダクトのフローチャート及び/又はブロックダイアグラムを参照して説明されている。コンピュータプログラム命令は、フローチャート及び/又はブロックダイアグラム内のそれぞれのプロセス及び/又はブロック、並びに、フローチャート及び/又はブロックダイアグラムのプロセス及び/又はブロックの組合せを実装するべく使用され得るを理解されたい。これらのコンピュータプログラム命令は、コンピュータ又はその他のプログラム可能なデータ処理装置のプロセッサによって実行された命令が、フローチャート内の且つ/又はブロックダイアグラムの一つ以上のブロック内の一つ以上のプロセス内の規定された機能を実装するための装置を生成するように、機械を生成するべく、汎用コンピュータ、特殊目的コンピュータ、埋め込み型プロセッサ、又はその他のプログラム可能なデータ処理装置のプロセッサ用として、提供されてもよい。
又、これらのコンピュータプログラム命令は、コンピュータ可読メモリ内において保存されている命令が、命令装置を含む製造物品を生成するように、特定の方式によって稼働するべく、コンピュータ又はその他のプログラム可能なデータ処理装置に対して命令し得るコンピュータ可読メモリ内において保存されてもよい。命令装置は、フローチャート内の且つ/又はブロックダイアグラムの一つ以上のブロック内の一つ以上のプロセス内の規定された機能を実装する。
又、これらのコンピュータプログラム命令は、一連の動作ステップが、コンピュータ又はその他のプログラム可能な装置上において実行され、これにより、コンピュータ実装された処理が生成されるように、コンピュータ又はその他のプログラム可能なデータ処理装置上に読み込まれてもよい。従って、コンピュータ又はその他のプログラム可能な装置上において稼働する命令は、フローチャート内の且つ/又はブロックダイアグラムの一つ以上のブロック内の一つ以上のプロセス内の規定された機能を実装するステップを提供する。
通常の構成においては、演算装置は、一つ以上の中央処理装置(CPU:Central Processing Unit)、入出力インタフェース、ネットワークインタフェース、及びメモリを含む。
メモリは、揮発性メモリ、ランダムアクセスメモリ(RAM:Random Access Memory)、並びに/或いは、例えば、読み出し専用メモリ(ROM:Read-Only Memory)又はフラッシュメモリなどの不揮発性メモリなどの、コンピュータ可読媒体を含むことができる。
コンピュータ可読媒体は、任意の方法又は技術を通じて情報保存を実装し得る、永久的な、揮発性の、可動型の、且つ、静止型の、媒体を含む。情報は、コンピュータ可読命令、データ構造、プログラムモジュール、又はその他のデータであってもよい。コンピュータのストレージ媒体の例は、限定を伴うことなしに、演算装置からアクセス可能な情報を保存するべく使用され得る、相変化RAM(PRAM:Phase-change RAM)、スタティックRAM(SRAM:Static RAM)、ダイナミックRAM(DRAM:Dynamic RAM)、その他のタイプのランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、電気的に消去可能なプログラム可能な読み出し専用メモリ(EEPROM:Electricaly Erasable Programmable Read-Only Memory)、フラッシュメモリ、又はその他のメモリ技術、コンパクトディスク読み出し専用メモリ(CD−ROM:Compact Disk Read-Only Memory)、デジタルバーサタイルディスク(DVD:Digital Versatile Disc)、又はその他の光メモリ、カセット、カセット及びディスクメモリ、又はその他の磁気メモリ装置、或いは、任意のその他の非伝送媒体を含む。本明細書における定義によれば、コンピュータ可読媒体は、変調データ信号及び搬送波などの一時的な媒体を含んではいない。
「含む、包含する(including)」や「備える、有する、具備する(comprising)」という用語、又はこれらの任意のその他の変形は、一連の要素を具備するプロセス、方法、コモディティ、又は装置が、これらの要素を具備するのみならず、列挙されてはいないその他の要素をも具備するように、或いは、プロセス、方法、コモディティ、又は装置に固有の要素を更に具備するように、非排他的包含を含むべく意図されていることに更に留意されたい。更なる制限が存在しない際には、「一つの〜を具備する(comprising one...)」という記述によって定義された要素は、定義されている要素を具備するプロセス、方法、コモディティ、又は装置内の更なる類似の要素を排除するものではない。
当業者は、本出願の実施形態は、方法、システム、又はコンピュータプログラムプロダクトとして提供され得ることを理解するであろう。従って、本出願は、完全なハードウェア実施形態、完全なソフトウェア実施形態、又はソフトウェアとハードウェアとを組み合わせた実施形態として、実装されてもよい。更には、本出願は、その内部においてコンピュータ使用可能なプログラムコードを具備する一つ以上のコンピュータ使用可能ストレージ媒体(限定を伴うことなしに、磁気ディスクメモリ、CD−ROM、光メモリ、及びこれらに類似したものを含む)上において実装されたコンピュータプログラムプロダクトの形態を有することもできる。
本出願は、プログラムモジュールなどの、コンピュータによって実行されるコンピュータ実行可能命令の通常の文脈において記述することができる。一般に、プログラムモジュールは、特定のタスクを実行するべく、或いは、特定の抽象的データタイプを実装するべく、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造、及びこれらに類似したものを具備する。又、本出願は、分散演算環境内において実施されてもよい。これらの分散演算環境においては、通信ネットワークを介して接続されたリモート処理装置がタスクを実行している。分散演算環境においては、プログラムモジュールは、ストレージ装置を含むローカル及びリモートコンピュータストレージ媒体内において配置することができる。
本説明における実施形態は、それぞれの実施形態がその他の実施形態との相違点に合焦する状態において、漸進的な方式により、記述されており、且つ、実施形態は、その同一又は類似の部分について、相互に参照することができる。特に、システム実施形態の場合には、方法実施形態に実質的に類似していることから、その説明が相対的に簡潔である。その関係する部分について、方法実施形態の説明を参照することができる。
本出願の実施形態は、例示を目的としてのみ、上述されており、且つ、本出願を限定するべく、使用されてはならない。当業者は、本出願を様々な方法によって変更又は変形することができる。本出願の精神及び原理において実施されるすべての変更、均等な置換、又は改善は、本出願の請求項の範囲に含まれる。

Claims (18)

  1. オーディオ認識方法であって、
    特徴点マップを取得するべく、認識対象のオーディオファイルのスペクトログラム内の複数の第一特徴点に対して拡散処理を実行するステップと、
    前記特徴点マップ内の前記拡散した第一特徴点にそれぞれが対応する第二特徴点が存在しているかどうかを判定するべく、ターゲットオーディオファイルのスペクトログラム内においてサーチするステップと、
    前記判定結果が肯定的である際に、前記認識対象のオーディオファイルが前記ターゲットオーディオファイルの一部分であると判定するステップと、
    を具備する方法。
  2. 前記認識対象のオーディオファイルのスペクトログラム内の第一特徴点に対して拡散処理を実行するステップの前に、前記方法は、
    前記認識対象のオーディオファイルの前記スペクトログラム内の前記第一特徴点のエネルギー値を前記第一特徴点のグレースケール値に対して正規化するステップ、
    を更に具備する、請求項1に記載の方法。
  3. 前記拡散処理は、ガウス関数拡散処理又は増幅処理のうちの少なくとも一つを具備する、請求項1又は請求項2に記載の方法。
  4. 前記認識対象のオーディオファイルの前記スペクトログラム内の前記第一特徴点のエネルギー値を前記第一特徴点のグレースケール値に対して正規化する前記ステップは、
    ウィンドウとして、第一事前設定長さにより、フレームごとに、前記スペクトログラムを精査するステップと、
    前記ウィンドウ内の前記第一特徴点の前記エネルギー値のうちから、局所的最大値及び局所的最小値を取得するステップと、
    前記局所的最大値及び前記局所的最小値に従って、前記第一特徴点の前記エネルギー値を前記第一特徴点のグレースケール値に対して正規化するステップと、
    を具備する、請求項2に記載の方法。
  5. 前記特徴点マップ内の前記拡散した第一特徴点にそれぞれが対応する第二特徴点が存在しているどうかを判定するべく、ターゲットオーディオファイルのスペクトログラム内においてサーチする前記ステップは、
    ウィンドウとして、前記特徴点マップにより、フレームごとに、前記ターゲットオーディオファイルの前記スペクトログラムを精査するステップと、
    前記それぞれの精査プロセスにおいて、前記拡散処理後の前記ウィンドウ内の前記第一特徴点の座標の範囲内の座標を有する前記ウィンドウ内の前記ターゲットオーディオファイルの前記スペクトログラム内の特徴点を前記第二特徴点として判定するステップと、
    前記拡散した第一特徴点にそれぞれが対応する前記第二特徴点が存在しているかどうかを判定するべく、前記ウィンドウ内の前記ターゲットオーディオファイルの前記スペクトログラム内においてサーチするステップと、
    を具備する、請求項1又は請求項2に記載の方法。
  6. 前記拡散処理後の前記ウィンドウ内の前記第一特徴点の座標の範囲内の座標を有する前記ウィンドウ内の前記ターゲットオーディオファイルの前記スペクトログラム内の特徴点を前記第二特徴点として判定する前記ステップは、
    前記第一特徴点と、前記拡散処理後の前記ウィンドウ内の前記第一特徴点の前記座標の範囲内の座標を有する前記ウィンドウ内の前記ターゲットオーディオファイルの前記スペクトログラム内の前記特徴点と、の間のマッチングの程度を判定するステップと、
    第一閾値超の前記マッチングの程度を有する特徴点を前記第二特徴点して判定するステップと、
    を具備する、請求項5に記載の方法。
  7. 前記マッチングの程度は、前記第一特徴点の数、或いは、前記拡散した第一特徴点の座標の範囲内の前記ウィンドウ内の前記スペクトログラム内の前記特徴点に対応する前記第一特徴点のエネルギー値又はグレースケール値の合計に対する、前記拡散した第一特徴点の座標の範囲内の前記ウィンドウ内の前記スペクトログラム内の特徴点の数の比率を具備する、請求項6に記載の方法。
  8. 前記認識対象のオーディオファイルのスペクトログラム内の第一特徴点を拡散させるステップの前に、前記方法は、
    第二閾値超のエネルギー値又はグレースケール値を有する認識対象のオーディオファイルの前記スペクトログラム内に含まれる特徴点をキーポイントとして使用するステップと、
    前記キーポイントのエネルギー値又はグレースケール値が予め設定された領域内において最大値である場合に、前記キーポイントを前記第一特徴点として判定するステップと、
    を更に具備する、請求項1又は請求項2に記載の方法。
  9. 前記ターゲットオーディオファイルはオーディオ情報を含み、且つ、前記オーディオ情報は歌名称を含む、請求項1に記載の方法。
  10. オーディオ認識システムであって、
    特徴点マップを取得するべく、認識対象のオーディオファイルのスペクトログラム内の複数の特徴点に対して拡散処理を実行するように構成された拡散ユニットと
    前記特徴点マップ内の前記拡散した第一特徴点にそれぞれが対応する第二特徴点が存在しているかどうかを判定するべく、ターゲットオーディオファイルのスペクトログラム内においてサーチするように構成されたサーチユニットと、
    前記特徴点マップ内の前記拡散した第一特徴点にそれぞれが対応する前記第二特徴点が前記ターゲットオーディオファイルの前記スペクトログラム内において見出された際に、前記認識対象のオーディオファイルが前記ターゲットオーディオファイルの一部分であると判定するように構成された判定ユニットと、
    を具備するシステム。
  11. 前記拡散ユニットの前に、前記システムは、
    前記認識対象のオーディオファイルの前記スペクトログラム内の前記第一特徴点のエネルギー値を前記第一特徴点のグレースケール値に対して正規化するように構成された正規化ユニット、
    を更に具備する、請求項10に記載のシステム。
  12. 前記拡散処理は、ガウス関数拡散処理又は増幅処理のうちの少なくとも一つを具備する、請求項10又は請求項11に記載のシステム。
  13. 前記正規化ユニットは、
    ウィンドウとして、第一事前設定長さにより、フレームごとに、スペクトログラムを精査するように構成された第一正規化サブユニットと、
    前記ウィンドウ内の前記第一特徴点の前記エネルギー値のうちから、局所的最大値及び局所的最小値を取得するように構成された第二正規化サブユニットと、
    前記局所的最大値及び前記局所的最小値に従って、前記第一特徴点の前記エネルギー値を前記第一特徴点のグレースケール値に対して正規化するように構成された第三正規化サブユニットと、
    を具備する、請求項11に記載のシステム。
  14. 前記サーチユニットは、
    ウィンドウとして、前記特徴点マップにより、フレームごとに、前記ターゲットオーディオファイルの前記スペクトログラムを精査するように構成された第一サーチサブユニットと、
    前記それぞれの精査プロセスにおいて、前記拡散処理後の前記ウィンドウ内の前記第一特徴点の座標の範囲内の座標を有する前記ウィンドウ内の前記ターゲットオーディオファイルの前記スペクトログラム内の特徴点を前記第二特徴点として判定するように構成された第二サーチサブユニットと、
    前記拡散した第一特徴点にそれぞれが対応する前記第二特徴点が存在しているかどうかを判定するべく、前記ウィンドウ内の前記ターゲットオーディオファイルの前記スペクトログラム内においてサーチするように構成された第三サーチサブユニットと、
    を具備する、請求項10又は請求項11に記載のシステム。
  15. 前記第二サーチサブユニットは、
    前記第一特徴点と、前記拡散処理後の前記ウィンドウ内の前記第一特徴点の前記座標の範囲内の座標を有する前記ウィンドウ内の前記ターゲットオーディオファイルの前記スペクトログラム内の前記特徴点と、の間のマッチングの程度を判定するように構成された第四サーチサブユニットと、
    第一閾値超の前記マッチングの程度を有する特徴点を前記第二特徴点として判定するように構成された第五サーチサブユニットと、
    を具備する、請求項14に記載のシステム。
  16. 前記マッチングの程度は、前記第一特徴点の数、或いは、前記拡散した第一特徴点の座標の範囲内の前記ウィンドウ内の前記スペクトログラム内の前記特徴点に対応する前記第一特徴点のエネルギー値又はグレースケール値の合計に対する、前記拡散した第一特徴点の座標の範囲内の前記ウィンドウ内の前記スペクトログラムの特徴点の数の比率を具備する、請求項15に記載のシステム。
  17. 前記拡散処理の前に、前記システムは、
    第二閾値超のエネルギー値又はグレースケール値を有する認識対象のオーディオファイルの前記スペクトログラム内に含まれる特徴点をキーポイントとして使用するように構成された第一処理ユニットと、
    前記キーポイントの前記エネルギー値又はグレースケール値が予め設定された領域内において最大値である場合に、前記キーポイントを前記第一特徴点として判定するように構成された第二処理ユニットと、
    を更に具備する、請求項10又は請求項11に記載のシステム。
  18. 前記ターゲットオーディオファイルはオーディオ情報を含み、且つ、前記オーディオ情報は歌名称を含む、請求項10に記載のシステム。
JP2018515493A 2015-09-24 2016-09-14 オーディオ認識方法及びシステム Active JP6585835B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510618550.4A CN106558318B (zh) 2015-09-24 2015-09-24 音频识别方法和系统
CN201510618550.4 2015-09-24
PCT/CN2016/099053 WO2017050175A1 (zh) 2015-09-24 2016-09-14 音频识别方法和系统

Publications (2)

Publication Number Publication Date
JP2018534609A true JP2018534609A (ja) 2018-11-22
JP6585835B2 JP6585835B2 (ja) 2019-10-02

Family

ID=58385690

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018515493A Active JP6585835B2 (ja) 2015-09-24 2016-09-14 オーディオ認識方法及びシステム

Country Status (7)

Country Link
US (1) US10679647B2 (ja)
EP (1) EP3355302B1 (ja)
JP (1) JP6585835B2 (ja)
KR (1) KR102077411B1 (ja)
CN (1) CN106558318B (ja)
SG (1) SG11201801808RA (ja)
WO (1) WO2017050175A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10397663B2 (en) * 2016-04-08 2019-08-27 Source Digital, Inc. Synchronizing ancillary data to content including audio
CN108364661B (zh) * 2017-12-15 2020-11-24 海尔优家智能科技(北京)有限公司 可视化语音性能评估方法、装置、计算机设备及存储介质
CN108615006B (zh) * 2018-04-23 2020-04-17 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN109035419A (zh) * 2018-08-06 2018-12-18 深圳市果壳文化科技有限公司 一种基于ar技术的社交方法和系统
CN112771608A (zh) * 2018-11-20 2021-05-07 深圳市欢太科技有限公司 语音信息的处理方法、装置、存储介质及电子设备
KR20210037229A (ko) 2019-09-27 2021-04-06 주식회사 케이티 다중 채널을 통해 멀티미디어 데이터를 전송하는 사용자 단말, 서버 및 방법
CN111444384B (zh) * 2020-03-31 2023-10-13 北京字节跳动网络技术有限公司 一种音频关键点确定方法、装置、设备及存储介质
CN111640421B (zh) * 2020-05-13 2023-06-16 广州国音智能科技有限公司 语音对比方法、装置、设备及计算机可读存储介质
CN112101301B (zh) * 2020-11-03 2021-02-26 武汉工程大学 一种螺杆水冷机组的好音稳定预警方法、装置及存储介质
US11929078B2 (en) * 2021-02-23 2024-03-12 Intuit, Inc. Method and system for user voice identification using ensembled deep learning algorithms
CN114255741B (zh) * 2022-02-28 2022-06-10 腾讯科技(深圳)有限公司 重复音频检测方法、设备、存储介质
CN115294947B (zh) * 2022-07-29 2024-06-11 腾讯科技(深圳)有限公司 音频数据处理方法、装置、电子设备及介质
CN117789706B (zh) * 2024-02-27 2024-05-03 富迪科技(南京)有限公司 一种音频信息内容识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012098360A (ja) * 2010-10-29 2012-05-24 Sony Corp 信号処理装置および方法、並びにプログラム
JP2015103088A (ja) * 2013-11-26 2015-06-04 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2969862B2 (ja) 1989-10-04 1999-11-02 松下電器産業株式会社 音声認識装置
US6990453B2 (en) 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
DE60323086D1 (de) 2002-04-25 2008-10-02 Landmark Digital Services Llc Robuster und invarianter audiomustervergleich
US20070195963A1 (en) 2006-02-21 2007-08-23 Nokia Corporation Measuring ear biometrics for sound optimization
KR20090083098A (ko) 2008-01-29 2009-08-03 삼성전자주식회사 하모닉 특징을 이용한 음악 인식 방법 및 음악 인식을이용한 이동 로봇의 동작 생성 방법
US8706276B2 (en) * 2009-10-09 2014-04-22 The Trustees Of Columbia University In The City Of New York Systems, methods, and media for identifying matching audio
CN101720048B (zh) * 2009-12-04 2011-06-01 山东大学 基于音频特征的收视率调查系统的收视信息检索方法
US8886531B2 (en) 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
US20120296458A1 (en) 2011-05-18 2012-11-22 Microsoft Corporation Background Audio Listening for Content Recognition
US9461759B2 (en) 2011-08-30 2016-10-04 Iheartmedia Management Services, Inc. Identification of changed broadcast media items
US8586847B2 (en) 2011-12-02 2013-11-19 The Echo Nest Corporation Musical fingerprinting based on onset intervals
US8949872B2 (en) 2011-12-20 2015-02-03 Yahoo! Inc. Audio fingerprint for content identification
US9292894B2 (en) 2012-03-14 2016-03-22 Digimarc Corporation Content recognition and synchronization using local caching
US9113203B2 (en) 2012-06-28 2015-08-18 Google Inc. Generating a sequence of audio fingerprints at a set top box
US9661361B2 (en) 2012-09-19 2017-05-23 Google Inc. Systems and methods for live media content matching
CN103729368B (zh) * 2012-10-13 2016-12-21 复旦大学 一种基于局部频谱图像描述子的鲁棒音频识别方法
US8867028B2 (en) * 2012-10-19 2014-10-21 Interfiber Analysis, LLC System and/or method for measuring waveguide modes
US9373336B2 (en) 2013-02-04 2016-06-21 Tencent Technology (Shenzhen) Company Limited Method and device for audio recognition
CN103971689B (zh) * 2013-02-04 2016-01-27 腾讯科技(深圳)有限公司 一种音频识别方法及装置
WO2014169238A1 (en) * 2013-04-11 2014-10-16 Digimarc Corporation Methods for object recognition and related arrangements
CN104125509B (zh) 2013-04-28 2015-09-30 腾讯科技(深圳)有限公司 节目识别方法、装置及服务器
GB2518663A (en) * 2013-09-27 2015-04-01 Nokia Corp Audio analysis apparatus
US10321842B2 (en) * 2014-04-22 2019-06-18 Interaxon Inc. System and method for associating music with brain-state data
CN103971676B (zh) * 2014-04-23 2017-07-14 上海师范大学 一种快速语音孤立词识别算法及其用途、语音识别系统
US9894413B2 (en) 2014-06-12 2018-02-13 Google Llc Systems and methods for locally detecting consumed video content
US9838759B2 (en) 2014-06-20 2017-12-05 Google Inc. Displaying information related to content playing on a device
US9946769B2 (en) 2014-06-20 2018-04-17 Google Llc Displaying information related to spoken dialogue in content playing on a device
US9805125B2 (en) 2014-06-20 2017-10-31 Google Inc. Displaying a summary of media content items
US9905233B1 (en) 2014-08-07 2018-02-27 Digimarc Corporation Methods and apparatus for facilitating ambient content recognition using digital watermarks, and related arrangements
JP6464650B2 (ja) 2014-10-03 2019-02-06 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム
US10750236B2 (en) 2015-04-23 2020-08-18 The Nielsen Company (Us), Llc Automatic content recognition with local matching
US9743138B2 (en) 2015-07-31 2017-08-22 Mutr Llc Method for sound recognition task trigger
US9913056B2 (en) 2015-08-06 2018-03-06 Dolby Laboratories Licensing Corporation System and method to enhance speakers connected to devices with microphones

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012098360A (ja) * 2010-10-29 2012-05-24 Sony Corp 信号処理装置および方法、並びにプログラム
JP2015103088A (ja) * 2013-11-26 2015-06-04 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黒住 隆行: "幾何変換パラメータを特定する縮退生成探索法", 電子情報通信学会技術研究報告, vol. Vol.106 No.429, JPN6019009825, December 2006 (2006-12-01), JP *

Also Published As

Publication number Publication date
CN106558318A (zh) 2017-04-05
KR102077411B1 (ko) 2020-02-13
SG11201801808RA (en) 2018-04-27
KR20180044957A (ko) 2018-05-03
WO2017050175A1 (zh) 2017-03-30
US20180174599A1 (en) 2018-06-21
JP6585835B2 (ja) 2019-10-02
CN106558318B (zh) 2020-04-28
US10679647B2 (en) 2020-06-09
EP3355302A4 (en) 2019-06-05
EP3355302A1 (en) 2018-08-01
EP3355302B1 (en) 2022-02-09

Similar Documents

Publication Publication Date Title
JP6585835B2 (ja) オーディオ認識方法及びシステム
US20200251117A1 (en) Method of defending against inaudible attacks on voice assistant based on machine learning
US11024288B2 (en) Methods and apparatus to segment audio and determine audio segment similarities
US9984706B2 (en) Voice activity detection using a soft decision mechanism
CN108986822A (zh) 语音识别方法、装置、电子设备及非暂态计算机存储介质
CN109065044A (zh) 唤醒词识别方法、装置、电子设备及计算机可读存储介质
US11282514B2 (en) Method and apparatus for recognizing voice
KR20180133703A (ko) 끝점 검출 장치, 그를 포함한 시스템 및 그 방법
CN111292733A (zh) 一种语音交互方法和装置
US20210125628A1 (en) Method and device for audio recognition
CN104091601A (zh) 音乐品质检测方法和装置
KR101140896B1 (ko) 음성 세그먼트화를 위한 방법 및 장치
US11798564B2 (en) Spoofing detection apparatus, spoofing detection method, and computer-readable storage medium
EP3940588A1 (en) Fingerprint image processing methods and apparatuses
US8725508B2 (en) Method and apparatus for element identification in a signal
WO2019174392A1 (zh) 针对rpc信息的向量处理
TW201828285A (zh) 音頻識別方法和系統
JP6666725B2 (ja) ノイズ低減装置およびノイズ低減方法
KR20180119446A (ko) 음향 신호 강조 방법
US11790931B2 (en) Voice activity detection using zero crossing detection
US20220130405A1 (en) Low Complexity Voice Activity Detection Algorithm
CN111768771B (zh) 用于唤醒电子设备的方法和装置
KR102395472B1 (ko) 가변 윈도우 사이즈 기반의 음원 분리 방법 및 장치
Veesa et al. Implicit processing of linear prediction residual for replay attack detection
JP2023002421A (ja) 構音異常検出方法、構音異常検出装置、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190806

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190905

R150 Certificate of patent or registration of utility model

Ref document number: 6585835

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250