JP2018534609A

JP2018534609A - オーディオ認識方法及びシステム

Info

Publication number: JP2018534609A
Application number: JP2018515493A
Authority: JP
Inventors: チーチュントゥー
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2015-09-24
Filing date: 2016-09-14
Publication date: 2018-11-22
Anticipated expiration: 2036-09-14
Also published as: CN106558318A; KR102077411B1; SG11201801808RA; KR20180044957A; WO2017050175A1; US20180174599A1; JP6585835B2; CN106558318B; US10679647B2; EP3355302A4; EP3355302A1; EP3355302B1

Abstract

オーディオ認識方法及びシステムが開示されている。オーディオ認識方法は、特徴点マップを取得するべく、認識対象のオーディオファイルのスペクトログラム内の複数の第一特徴点に対して拡散処理を実行するステップ（Ｓ１１０）と、特徴点マップ内の拡散した第一特徴点にそれぞれが対応する第二特徴点が存在しているかどうかを判定するべく、ターゲットオーディオファイルのスペクトログラム内においてサーチするステップ（Ｓ１２０）と、判定結果が肯定的である場合に、認識対象のオーディオファイルのスペクトログラムがターゲットオーディオファイルの一部分であると判定するステップ（Ｓ１３０）と、を具備する。該方法は、オーディオ認識における特徴点のマッチング成功率を改善することができる。

Description

本発明は、インターネット技術の分野に関し、且つ、更に詳しくは、オーディオ認識方法及びシステムに関する。

インターネット技術の継続的な発展に伴い、インターネットは、日々の生活における不可欠なツールとなっている。用途の新しい傾向は、インターネット装置を使用することによって未知のオーディオの認識を実現すると共にオーディオ認識に基づいたやり取りを実行するというものである。

オーディオ認識に基づいたやり取りには、多くのタイプの用途が存在している。例えば、一つの用途は、ユーザが、歌を聴取したが、その歌のタイトルを知らないというものである。この歌のオーディオのセグメントを記録することが可能であり、且つ、次いで、オーディオ認識技術を使用することにより、この歌のタイトル、歌手、及びその他の情報を認識することができる。

従来技術によれば、認識は、通常、認識対象のオーディオの特徴点を抽出及び使用することにより、実行されている。図１に示されているように、ｘ軸は、時間を表し、且つ、ｙ軸は、周波数を表している。抽出された特徴点は、図中の「Ｘ」である。二つの特徴点が特徴点ペアを構成し、且つ、ターゲット領域内には、八つの特徴点ペアが存在している。認識は、特徴点ペアに基づいて、データベース内において実行され、且つ、データベースは、歌の特徴点と、歌のタイトル、歌手、及びこれらに類似したものなどの歌の情報と、を保存している。同一の特徴点ペアが、データベース内において同一のターゲット領域内においてマッチングし得る場合には、マッチングに成功しており、且つ、その結果、対応する歌情報を取得することができる。但し、オーディオ記録の際のノイズの不可避な影響下においては、抽出される特徴点が、必ずしも正常な位置において発生しない場合がある。この結果、特徴点ペアのマッチングの成功確率は、相対的に小さい。

要すれば、既存の技術は、オーディオ認識における特徴点に基づいたマッチング成功率が小さいという欠陥を有する。

本出願の実施形態の目的は、特徴点のマッチング成功率がオーディオ認識において小さいという従来技術の問題点を解決するためのオーディオ認識方法及びシステムを提供するというものである。

上述の技術的問題点を解決するべく、本出願の一実施形態によるオーディオ認識方法は、特徴点マップを取得するべく、認識対象のオーディオファイルのスペクトログラム（spectrogram）内の複数の第一特徴点に対して拡散処理を実行するステップと、特徴点マップ内の拡散した第一特徴点にそれぞれが対応する第二特徴点が存在しているかどうかを判定するべく、ターゲットオーディオファイルのスペクトログラム内においてサーチするステップと、判定結果が肯定的である場合に、認識対象のオーディオファイルがターゲットオーディオファイルの一部分であると判定するステップと、を具備する。

本出願の一実施形態によるオーディオ認識システムは、特徴点マップを取得するべく、認識対象のオーディオファイルのスペクトログラム内の複数の第一特徴点に対して拡散処理を実行するように構成された拡散ユニットと、特徴点マップ内の拡散した第一特徴点にそれぞれが対応する第二特徴点が存在しているかどうかを判定するべく、ターゲットオーディオファイルのスペクトログラム内においてサーチするように構成されたサーチユニットと、特徴点マップ内の拡散した第一特徴点にそれぞれが対応する第二特徴点がターゲットオーディオファイルのスペクトログラム内において見出される際に、認識対象のオーディオファイルがターゲットオーディオファイルの一部分であると判定するように構成されたを判定ユニットと、を具備する。

本出願の実施形態による技術的解決策から、本出願の実施形態によるオーディオ認識方法及びシステムは、認識対象のオーディオファイルのスペクトログラム内の第一特徴点の拡散を通じて、ノイズによって生成される第一特徴点の逸脱誤りを低減することが可能であり、その結果、拡散処理の後に、ターゲットオーディオファイルとの間における第一特徴点のマッチング率が改善される、即ち、特徴点のマッチング成功率が改善されることがわかる。

本出願の実施形態における技術的解決策又は従来技術について更に明瞭に説明するべく、以下、実施形態又は従来技術の説明において使用されている添付図面について簡潔に説明する。以下の説明における添付図面は、本出願において記録されているいくつかの実施形態を例示するものに過ぎないことが明らかとなろう。当業者は、発明的な努力を伴うことなしに、これらの図面に従って、その他の図面を更に取得することができよう。

図１は、従来技術による特徴点ペアを伴う認識を実行するステップの概略図である。図２は、本出願の一実施形態によるオーディオ認識方法のフローチャートである。図３は、認識対象のオーディオファイルのスペクトログラムの概略図である。図４ａは、拡散処理前の第一特徴点の概略図である。図４ｂは、拡散処理後の第一特徴点の概略図である。図５は、図２のＳ１２０のステップの方法フローチャートである。図６は、特徴点マップ内の拡散した第一特徴点にそれぞれが対応する第二特徴点についてターゲットオーディオファイルのスペクトログラム内においてサーチするステップの概略図である。図７は、本出願の一実施形態によるオーディオ認識方法のフローチャートである。図８ａは、スペクトログラム内において判定された第一特徴点の概略図である。図８ｂは、図８ａの拡大部分図である。図９は、本出願の一実施形態によるオーディオ認識システムのモジュールの概略図である。

当業者が本出願における技術的解決策について更に十分に理解できるようにするべく、以下、本出願の実施形態における添付図面を参照し、本出願の実施形態における技術的解決策について明瞭且つ十分に説明することとする。記述されている実施形態が、本出願の実施形態の、すべてのものではなく、いくつかのものであるに過ぎないことは明らかである。本出願の実施形態に基づいて、且つ、発明的な努力を伴うことなしに、当業者が取得し得るすべてのその他の実施形態は、本出願の範囲に含まれる。

図２は、本出願の一実施形態によるオーディオ認識方法のフローチャートである。本実施形態においては、オーディオ認識方法は、以下のステップを具備する。

Ｓ１１０：特徴点マップを取得するべく、認識対象のオーディオファイルのスペクトログラム内の複数の第一特徴点に対して拡散処理を実行する。

スペクトログラムは、オーディオスペクトログラムとも呼称され、これは、通常、受け取った時間信号を処理することにより、取得される。通常、スペクトログラムのｘ軸は、時間を表すべく使用され、ｙ軸は、周波数を表すべく使用され、且つ、座標点の値は、オーディオデータエネルギーを表している。通常、３次元情報を表現するべく、２次元プレーンを使用することができる。従って、座標点の値によって表されるオーディオデータのエネルギー値の大きさを表すべく、色を使用することができる。例えば、色のスペクトルを使用することができる。色が相対的に暗くなった際には、それは、座標点のオーディオエネルギーが相対的に強力であることを通知しており、逆に、相対的に明るい色を有する座標点は、座標点のオーディオエネルギーが相対的に弱いことを通知し得る。更には、グレースケールを使用することもできる。座標点が、白色に相対的に近い色を有する際には、それは、座標点のオーディオエネルギーが相対的に強力であることを通知し、逆に、黒色に相対的に近い色を有する座標点は、座標点のオーディオエネルギーが相対的に弱いことを通知し得る。

従って、スペクトログラムは、時間に伴って変化するオーディオ信号のスペクトル特徴を直感的に表すことができる。対応する点のグレースケール又はトーンの程度により、所与の瞬間における任意の特定の周波数成分の強度を表すことができる。

例えば、スペクトログラムは、以下のステップを通じて取得することができる。

Ａ１：予め設定された時間に従って認識対象のオーディオファイルを複数のフレームに分割する。

予め設定された時間は、過去の経験に従ってユーザが取得した経験的な値であってもよい。本実施形態においては、予め設定された時間は、３２ｍｓを含む。即ち、それぞれのフレームと１６ｍｓのフレームとがオーバーラップするように、３２ｍｓのオーディオセグメントを取得するべく、３２ｍｓに従って認識対象のオーディオファイルを複数のフレームに分割することができる。

Ａ２：スペクトログラムを取得するべく、フレーム分割処理後にオーディオセグメントに対して短時間のスペクトル分析を実行する。

短時間のスペクトル分析は、高速フーリエ変換（ＦＦＴ：Fast Fourier Transformation）を含む。ＦＦＴは、離散フーリエ変換の高速アルゴリズムであり、且つ、ＦＦＴは、オーディオ信号を時間ドメイン及び周波数ドメイン内における結合分布情報を記録したスペクトログラムに変換するべく、使用することができる。

フレームは、３２ｍｓにおいて分割され、且つ、３２ｍｓは、８０００ｈｚのサンプリングに対応していることから、ＦＦＴ計算の後に、２５６個の周波数点を取得することができる。

図３に示されているように、ｘ軸は、いくつかのフレームを表すことが可能であり、即ち、フレーム分割処理後のオーディオファイルのいくつかのフレームを表すことが可能であって、これは、スペクトログラムの幅に対応しており、ｙ軸は、周波数を表すことが可能であり、且つ、合計で２５６個の周波数点が存在しており、これは、スペクトログラムの高さに対応しており、且つ、座標点の値は、第一特徴点のエネルギーを表している。

好ましくは、フレーム分割処理後のオーディオセグメントに対して短時間のスペクトル分析を実行した後に、方法は、以下のステップを更に具備することができる。

Ａ３：短時間のスペクトル分析後に、３００〜２ｋｈｚの周波数セグメントを抽出する。

通常の歌は、３００〜２ｋｈｚの周波数セグメント内においてクラスタ化された主周波数を有していることから、本実施形態は、３００〜２ｋｈｚの周波数セグメントを抽出することにより、周波数セグメントに対するその他の周波数セグメントからのノイズの悪影響を除去することができる。

本出願の別の実施形態においては、ステップＳ１１０の前に、方法は、認識対象のオーディオファイルのスペクトログラム内の第一特徴点のエネルギー値を第一特徴点のグレースケール値に対して正規化するステップを更に具備することができる。

本実施形態においては、ＦＦＴ後の第一特徴点のエネルギー値の範囲は、相対的に広くなっており、これは、０〜２⁸ に、或いは、場合によっては、０〜２¹⁶ に、到達し得る（エネルギー値の範囲は、オーディオファイルの信号強度に比例している）。この結果、この場合に、エネルギー値は、０が黒色を表すと共に２５５が白色を表す状態で、０〜２５５がグレースケール値に対応し得るように、０〜２５５の範囲内に正規化される。

通常の正規化方法は、最大値及び最小値を取得するべく、以下のように、スペクトログラム全体内の第一特徴点のエネルギー値を精査するステップを具備する。

第一特徴点を以下のように正規化する。

ここで、Ｖは第一特徴点のエネルギー値であり、Ｖ_min は最小値であり、且つ、Ｖ_max は最大値である。

本出願の実施形態は、上述の通常の正規化方法を採用することができる。但し、このような正規化方法によって得られるＶ_min は、いくつかの弱い音響が存在する際には、過剰に小さくなり得るであろう。例えば、正規化式が
となるように、Ｖ_min が０に接近することが可能である。従って、式は、Ｖ_min から独立している。従って、Ｖ_min は、典型的なものではなく、且つ、全体的な正規化結果に対して影響を及ぼすことになる。

本出願の実施形態は、ウィンドウとして、第一事前設定長さにより、フレームごとに、スペクトログラムを精査するステップと、ウィンドウ内の第一特徴点のエネルギー値のうちから、局所的最大値及び局所的最小値を取得するステップと、局所的最大値及び局所的極小値に従って、第一特徴点のエネルギー値を第一特徴点のグレースケール値に対して正規化するステップと、を具備し得る新しい正規化方法を提供する。

式（２）において示されている式が使用され、この場合に、Ｖは第一特徴点のエネルギー値であり、Ｖ_min は局所的極小値であり、且つ、Ｖ_max は局所的最大値である。

本実施形態は、フレーム分割処理後に発生するものについて記述しており、且つ、第一事前設定長さは、現時点のフレームに先行するＴ個のフレームと、現時点のフレームに後続するＴ個のフレームと、を具備することができる。即ち、第一事前設定長さは、２Ｔ個のフレームであり、且つ、２Ｔ＋１個のフレームは、１ｓ超である。

本実施形態において提供されている正規化方法によれば、いくつかの弱い音響は、それらが配置されている第一事前設定長さ内においてのみ、正規化結果に対して影響を及ぼし得るが、第一事前設定長さを超えては、正規化結果に対して影響を及ぼすことができない。従って、この正規化方法は、全体的な正規化結果に対する弱い音響の影響を低減することができる。

拡散処理は、ガウス関数拡散処理を具備することができる。即ち、ガウス関数が第一特徴点に対する拡散処理のために使用される。拡散処理は、増幅処理を更に具備することもできる。即ち、第一特徴点が、数倍だけ増幅され、例えば、１０倍だけ、増幅される。

ガウス関数拡散処理は、一例として、以下のように表現され、これは、以下の式を使用している。

ここで、ａ、ｂ、及びｃは定数であり、ａ＞０である。

即ち、式（１）は、第一特徴点の半径又は直径に対してガウス関数拡散処理を実行するべく、使用される。

第一特徴点の増幅処理は、一例として、以下のように使用され、この場合には、第一特徴点の半径又は直径が増幅され、例えば、半径又は直径が、１０倍だけ、増幅される。いくつかの実施形態においては、確かに、第一特徴点は、数倍だけ、増幅されてもよく、且つ、その結果、円、菱形、矩形などのうちの少なくとも一つになってもよい。

図４ａに示されているように、白色ドット（認識対象のオーディオファイルの第一特徴点）と黒色ドット（ターゲットオーディオファイルの特徴点）とは、拡散処理の前には、同一の場所には存在しておらず、且つ、その結果、マッチングを通じて最終的に得られる第二特徴点は、多くない。図４ｂに示されているように、白色ドットは、拡散処理後に、個々のドットエリアから領域に拡散されており、且つ、すべての領域が、黒色ドットとオーバーラップしている。

拡散処理は、第一特徴点をドットから領域に拡散させることが可能であり、且つ、その結果、ノイズによる干渉に対するある程度の抵抗力を有することができる。例えば、ノイズによる干渉に起因し、記録されたオーディオの第一特徴点は、オリジナルオーディオの第一特徴点の位置とわずかに異なり得る。このような相違が、拡散処理においては、無視可能となり、従って、マッチングを通じて得られる第二特徴点の数が増大する。

Ｓ１２０：特徴点マップ内の拡散した第一特徴点にそれぞれが対応する第二特徴点が存在しているかどうかを判定するべく、ターゲットオーディオファイルのスペクトログラム内においてサーチする。

図５に示されているように、ステップＳ１２０は、以下のステップを具備することができる。

Ｓ１２１：ウィンドウとして、特徴点マップにより、フレームごとに、ターゲットオーディオファイルのスペクトログラムを精査する。

Ｓ１２２：それぞれの精査プロセスにおいて、拡散処理後のウィンドウ内の第一特徴点の座標の範囲内の座標を有するウィンドウ内のターゲットオーディオファイルのスペクトログラム内の特徴点を第二特徴点として判定する。

Ｓ１２３：拡散した第一特徴点にそれぞれが対応する第二特徴点が存在しているかどうかを判定するべく、ウィンドウ内のターゲットオーディオファイルのスペクトログラム内においてサーチする。

図６は、特徴点マップ内の拡散した第一特徴点にそれぞれが対応する第二特徴点についてターゲットオーディオファイルのスペクトログラム内においてサーチするステップの概略図である。特徴点マップのフレームの数は、Ｎであり、ターゲットオーディオファイルのスペクトログラムのフレーム数は、Ｌであり、且つ、Ｌは、Ｎ以上であると仮定する。まず、ターゲットオーディオファイルのスペクトログラム内の［０，Ｎ］であるフレームの数を有する領域がサーチされ、その後に、［１，Ｎ＋１］の領域がサーチされ、このようなフレームごとのサーチが、［Ｌ−Ｎ，Ｌ］の領域が精査される時点まで、実行される。それぞれの精査プロセスにおいて、それぞれのフレームの［ｔ，ｔ＋Ｎ］のウィンドウ内のｔは、フレームの数であり、且つ、拡散処理後の第一特徴点の座標の範囲内の座標を有するターゲットオーディオファイルのスペクトログラム内の特徴点が、第二特徴点として判定される。サーチは、拡散した第一特徴点にそれぞれが対応する第二特徴点について、ターゲットオーディオファイル内において実行される。

その他の実施形態においては、データベース内のすべてのオーディオファイルを精査することができる。その結果、認識対象のオーディオファイルのオーディオ情報を相対的に正確に認識することができる。

Ｓ１３０：判定結果が肯定的である場合に、認識対象のオーディオファイルのスペクトログラムがターゲットオーディオファイルの一部分であると判定する。

拡散した第一特徴点にそれぞれが対応する第二特徴点が認識対象のオーディオファイルのスペクトログラム内において見出された場合には、認識対象のオーディオファイルがターゲットオーディオファイルの一部分であると判定することができる。

本実施形態において認識対象のオーディオファイルのスペクトログラム内の第一特徴点に対して拡散処理を実行することにより、ノイズによって生成される第一特徴点の逸脱を低減することが可能であり、その結果、拡散処理の後に、ターゲットオーディオファイルとの間における第一特徴点のマッチング率が改善される、即ち、特徴点のマッチング成功率が改善される。

本出願の一実施形態においては、ステップＳ１２２は、第一特徴点と、拡散処理後のウィンドウ内の第一特徴点の座標の範囲内の座標を有するウィンドウ内のターゲットオーディオファイルのスペクトログラム内の特徴点と、の間のマッチングの程度を判定するステップと、第一閾値超のマッチングの程度を有する特徴点を第二特徴点として判定するステップと、を具備することができる。

マッチングの程度は、第一特徴点の数、或いは、拡散した第一特徴点の座標の範囲内のウィンドウ内のスペクトログラム内の特徴点に対応する第一特徴点のエネルギー値又はグレースケール値の合計に対する、拡散した第一特徴点の座標の範囲内のウィンドウ内のスペクトログラム内の特徴点の数の比率を具備する。第一閾値は、広範な関連する要因に応じたユーザによる統計的結果であってもよい。

一例として、第一特徴点の数に対する拡散した第一特徴点の座標の範囲内のウィンドウ内のスペクトログラム内の特徴点の数の比率によれば、拡散した第一特徴点の数が１００であり、且つ、特徴点の数が６０である場合には、第一特徴点と特徴点との間のマッチングの程度は、６０％である。第一閾値が８０％である場合には、これらの特徴点が第二特徴点であると判定される。

一例として、拡散した第一特徴点の座標の範囲内のウィンドウ内のスペクトログラム内の特徴点に対応する第一特徴点のエネルギー値の合計によれば、特徴点の数が１０である場合には、エネルギー値の合計を取得するべく、これらの１０個の特徴点に対応する１０個の第一特徴点のエネルギー値が加算される。エネルギー値の合計が第一閾値超である場合には、これらの特徴点が第二特徴点であるものと判定される。

一例として、拡散した第一特徴点の座標の範囲内のウィンドウ内のスペクトログラム内の特徴点に対応する第一特徴点のグレースケール値の合計によれば、特徴点の数が１０である場合には、グレースケール値の合計を取得するべく、これらの１０個の特徴点に対応する１０個の第一特徴点のグレースケール値が加算される。グレースケール値の合計が第一閾値超である場合には、これらの特徴点が第二特徴点であるものと判定される。

本出願の一実施形態においては、ステップＳ１１０の前に、方法は、図７に示されているように、Ｓ１０１及びＳ１０２を更に具備することができる。

Ｓ１０１：第二閾値超のエネルギー値又はグレースケール値を有する認識対象のオーディオファイルのスペクトログラム内に含まれる特徴点をキーポイントとして使用する。

第二閾値は、広範な関連する要因に応じたユーザによる統計的結果であってもよい。第二閾値が小さいほど、抽出され得るキーポイントが多くなり、これは、結果的に、相対的に長い後続のマッチング時間に結び付き得る。第二閾値が大きいほど、抽出され得るキーポイントが少なくなり、これは、結果的に、過度に小さな後続のマッチング成功確率に結び付き得る。

Ｓ１０２：キーポイントのエネルギー値又はグレースケール値が予め設定された領域内において最大値である場合には、キーポイントを第一特徴点して判定する。

予め設定された領域は、中心としてキーポイントを有すると共に、予め設定された半径に従って判定された、円形領域であってもよく、或いは、キーポイントを中心として有すると共に、予め設定された長さ及び幅に従って判定された、矩形領域であってもよい。

予め設定された領域は、広範な関連する要因に応じたユーザによる統計的結果であってもよい。予め設定された領域が小さいほど、判定され得る第一特徴点が多くなり、これは、その結果、相対的に長い後続のマッチング時間に結び付き得る。予め設定された領域が大きいほど、判定され得る第一特徴点が少なくなり、これは、その結果、過度に小さな後続のマッチング成功確率に結び付き得る。

図８ａは、スペクトログラム内において判定された第一特徴点の概略図である。図中の白色ドットが第一特徴点である。例えば、第二閾値が３０であり、且つ、予め設定された領域が１５×１５である（中心としてキーポイントを有しており、１５個のフレームがｘ軸上において取得され、且つ、１５の長さがｙ軸上において取得されている）ものと仮定されており、且つ、図８ｂは、図８ａの拡大部分図である。図中の白色ドットのエネルギー値又はグレースケール値が、３０という第二閾値を上回っており、且つ、依然として、１５×１５という予め設定された領域内において最大値である際には、このようなドットが第一特徴点として抽出される。

本出願の本実施形態は、スペクトログラム内の大きなエネルギー値又はグレースケール値を有する特徴点が第一特徴点して抽出されるという点において以前の実施形態と異なっており、この結果、後続のマッチングに対する低エネルギーを有する特徴点による干渉を除去することが可能であり、且つ、拡散処理用のデータ量を大幅に低減すること可能であり、これにより、システム性能が改善される。

本出願の一実施形態においては、ターゲットオーディオファイルは、オーディオ情報を含むことができる。本出願が歌認識シナリオにおいて適用された際には、オーディオ情報は、歌名称を含むことができる。ユーザは、未知の歌名称と共に認識対象のオーディオファイルを記録するか、或いは、未知の歌名称を有する歌である認識対象のオーディオファイルを記録する。認識対象のオーディオファイルがターゲットオーディオファイルの一部分であると判定された際に、認識対象のオーディオファイルの歌名称を認識することができる。

図９は、本出願の一実施形態によるオーディオ認識システムのモジュールの概略図である。本実施形態においては、オーディオ認識システムは、複数の第一特徴点が存在している特徴点マップを取得するべく、認識対象のオーディオファイルのスペクトログラム内の第一特徴点を拡散させるように構成された拡散ユニット２１０と、特徴点マップ内の拡散した第一特徴点にそれぞれが対応する第二特徴点が存在しているかどうかを判定するべく、ターゲットオーディオファイルのスペクトログラム内においてサーチするように構成されたサーチユニット２２０と、第二特徴点が特徴点マップ内の拡散した第一特徴点にそれぞれ対応している領域がターゲットオーディオファイルのスペクトログラム内において見出された際に、認識対象のオーディオファイルがターゲットオーディオファイルの一部分であると判定するように構成された判定ユニット２３０と、を具備する。

好ましくは、拡散ユニット２１０の前に、オーディオ認識システムは、認識対象のオーディオファイルのスペクトログラム内の第一特徴点のエネルギー値を第一特徴点のグレースケール値に対して正規化するように構成された正規化ユニットを更に具備することができる。

好ましくは、拡散処理は、ガウス関数拡散処理又は増幅処理のうちの少なくとも一つを具備する。

好ましくは、正規化ユニットは、ウィンドウとして、第一事前設定長さにより、フレームごとに、スペクトログラムを精査するように構成された第一正規化サブユニットと、ウィンドウ内の第一特徴点のエネルギー値のうちから、局所的極大値及び局所的極小値を取得するように構成された第二正規化サブユニットと、局所的最大値及び局所的最小値に従って、第一特徴点のエネルギー値を第一特徴点のグレースケール値に対して正規化するように構成された第三正規化サブユニットと、を具備することができる。

好ましくは、サーチユニット２２０は、ウィンドウとして、特徴点マップにより、フレームごとに、ターゲットオーディオファイルのスペクトログラムを精査するように構成された第一サーチサブユニットと、それぞれの精査プロセスにおいて、拡散処理後のウィンドウ内の第一特徴点の座標の範囲内の座標を有するウィンドウ内のターゲットオーディオファイルのスペクトログラム内の特徴点を第二特徴点として判定するように構成された第二サーチサブユニットと、拡散した第一特徴点にそれぞれが対応する第二特徴点が存在しているかどうかを判定するべく、ウィンドウ内のターゲットオーディオファイルのスペクトログラム内においてサーチするように構成された第三サーチサブユニットと、を具備することができる。

好ましくは、第二サーチサブユニットは、第一特徴点と、拡散処理後のウィンドウ内の第一特徴点の座標の範囲内の座標を有するウィンドウ内のターゲットオーディオファイルのスペクトログラム内の特徴点と、の間のマッチングの程度を判定するように構成された第四サーチサブユニットと、第一閾値超のマッチングの程度を有する特徴点を第二特徴点として判定するように構成された第五サーチサブユニットと、を具備することができる。

好ましくは、マッチングの程度は、第一特徴点の第一特徴点の数、或いは、拡散した第一特徴点の座標の範囲内のウィンドウ内のスペクトログラム内の特徴点に対応する第一特徴点のエネルギー値又はグレースケール値の合計に対する、拡散した第一特徴点の座標の範囲内のウィンドウ内のスペクトログラム内の特徴点の数の比率を具備する。

好ましくは、拡散処理の前に、オーディオ認識システムは、第二閾値超のエネルギー値又はグレースケール値を有する認識対象のオーディオファイルのスペクトログラム内に含まれる特徴点をキーポイントとして使用するように構成された第一処理ユニットと、キーポイントのエネルギー値又はグレースケール値が予め設定された領域内において最大値である場合に、キーポイントを第一特徴点として判定するように構成された第二処理ユニットと、を更に具備することができる。

好ましくは、ターゲットオーディオファイルは、オーディオ情報を含み、且つ、オーディオ情報は、歌名称を含む。

１９９０年代においては、技術に対する改善は、ハードウェア改善（例えば、ダイオード、トランジスタ、スイッチ、及びこれらに類似したものなどの回路構造に対する改善）又はソフトウェア改善（方法のフローに対する改善）に明確に弁別可能であった。但し、技術の進歩に伴って、方法フローに対する多くの現時点の改善は、ハードウェア回路構成に対する直接的な改善として見なすことができる。設計者は、通常、改善された方法フローをハードウェア回路内にプログラムすることにより、対応するハードウェア回路構造を取得している。従って、方法フローに対する改善は、ハードウェアモジュールを実装することにより、実現することができる。例えば、プログラム可能な論理装置（ＰＬＤ：Programmable Logic Device）（例えば、フィールドプログラム可能なゲートアレイ（ＦＰＧＡ：Field Programmable Gate Array））は、その論理関数が、装置をプログラムすることを通じて、ユーザによって決定される集積回路である。設計者は、専用のＩＣチップを設計及び製造するようにチップ製造者に対して要求することなしに、デジタルシステムを一つのＰＬＤ片上に集積するべく、プログラムすることができる。更には、現時点においては、このタイプのプログラミングは、その大部分が、ＩＣチップを手作業で製造するのではなく、「ロジックコンパイラ」を通じて実装されている。ロジックコンパイラソフトウェアは、プログラム開発及び作成に使用されるソフトウェアコンパイラと類似しており、特定のプログラミング言語が、コンパイリングの前にソースコードを作成するべく使用されており、これは、ハードウェア記述言語（ＨＤＬ：Hardware Description Language）と呼称される。一つだけではなく、ＡＢＥＬ（Advanced Boolean Expression Language）、ＡＨＤＬ（Altera Hardware Description Language）、Confluence、ＣＵＰＬ（Cornell University Programming Language）、ＨＤＣａｌ、ＪＨＤＬ（Java Hardware Description Language）、Ｌａｖａ、Ｌｏｌａ、ＭｙＨＤＬ、ＰＡＬＡＳＭ、ＲＨＤＬ（Ruby Hardware Description Language）、及びこれらに類似したものなどの、多くのタイプのＨＤＬが存在している。最も一般的に使用されているＨＤＬは、現時点においては、ＶＨＤＬ（Very-High-Speed Integrated Circuit Hardware Description Language）及び Verilog を含む。当業者は、上述のＨＤＬを使用することによって論理方法フローを実装し、方法フローに関するなんらかの論理的プログラミングを実行すると共にこれをＩＣ内にプログラムするべく、ハードウェア回路を入手することについて認知しているであろう。

任意の適切な方式により、コントローラが実装されてもよい。例えば、コントローラは、マイクロプロセッサ又はプロセッサのみならず、（マイクロ）プロセッサ、ロジックゲート、スイッチ、用途固有の集積回路（ＡＳＩＣ：Application Specific Integrated Circuit）、プログラム可能なロジックコントローラ、及び埋め込み型のマイクロコントローラによって実行可能であるコンピュータ可読プログラムコード（例えば、ソフトウェア又はファームウェア）を保存するコンピュータ可読媒体の形態であってもよい。コントローラの例は、限定を伴うことなしに、ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20、及び Silicone Labs C8051F320 というマイクロコントローラを含む。メモリの制御ロジックの一部分として、メモリコントローラが更に実装されてもよい。又、当業者は、コントローラが純粋なコンピュータ可読プログラムコードの方式によって実装されることに加えて、コントローラが、ロジックゲート、スイッチ、ＡＳＩＣ、プログラム可能な論理コントローラ、及び埋め込み型のマイクロプロセッサの形態において同一の機能を実装できるようにするべく、方法のステップに関する論理プログラミングを実行することも、十分に実現可能であることに気付くであろう。従って、このようなコントローラは、ハードウェア部分として見なすことが可能であり、その内部に含まれた、且つ、様々な機能を実行するように構成された、装置も、ハードウェア部分の内部の構造として見なすことができる。或いは、この代わりに、様々な機能を実行するように構成された装置は、場合によっては、方法を実装するためのソフトウェアモジュールとハードウェア部分内部の構造との両方として見なすこともできる。

上述の実施形態において記述されているシステム、装置、モジュール、又はユニットは、コンピュータチップ又はエンティティによって実装されてもよく、或いは、機能を有する製品によって実装されてもよい。

説明の利便を目的として、上述の装置は、別個の説明のために、機能に従って様々なユニットに分割されている。確かに、ユニットの機能は、本出願を実装する際に、一つ以上のソフトウェア及び／又はハードウェア片として実装されてもよい。

当業者は、本発明の実施形態は、方法、システム、又はコンピュータプログラムプロダクトとして提供され得ることを理解するであろう。従って、本発明は、完全なハードウェア実施形態、完全なソフトウェア実施形態、又はソフトウェア及びハードウェアを組み合わせた実施形態として実装されてもよい。更には、本発明は、その内部においてコンピュータ使用可能プログラムコードを具備する一つ以上のコンピュータ使用可能ストレージ媒体（限定を伴うことなしに、磁気ディスクメモリ、ＣＤ−ＲＯＭ、光メモリ、及びこれらに類似したものを含む）上において実装されたコンピュータプログラムの形態において実装されてもよい。

本発明は、本発明の実施形態による方法、装置（システム）、及びコンピュータプログラムプロダクトのフローチャート及び／又はブロックダイアグラムを参照して説明されている。コンピュータプログラム命令は、フローチャート及び／又はブロックダイアグラム内のそれぞれのプロセス及び／又はブロック、並びに、フローチャート及び／又はブロックダイアグラムのプロセス及び／又はブロックの組合せを実装するべく使用され得るを理解されたい。これらのコンピュータプログラム命令は、コンピュータ又はその他のプログラム可能なデータ処理装置のプロセッサによって実行された命令が、フローチャート内の且つ／又はブロックダイアグラムの一つ以上のブロック内の一つ以上のプロセス内の規定された機能を実装するための装置を生成するように、機械を生成するべく、汎用コンピュータ、特殊目的コンピュータ、埋め込み型プロセッサ、又はその他のプログラム可能なデータ処理装置のプロセッサ用として、提供されてもよい。

又、これらのコンピュータプログラム命令は、コンピュータ可読メモリ内において保存されている命令が、命令装置を含む製造物品を生成するように、特定の方式によって稼働するべく、コンピュータ又はその他のプログラム可能なデータ処理装置に対して命令し得るコンピュータ可読メモリ内において保存されてもよい。命令装置は、フローチャート内の且つ／又はブロックダイアグラムの一つ以上のブロック内の一つ以上のプロセス内の規定された機能を実装する。

又、これらのコンピュータプログラム命令は、一連の動作ステップが、コンピュータ又はその他のプログラム可能な装置上において実行され、これにより、コンピュータ実装された処理が生成されるように、コンピュータ又はその他のプログラム可能なデータ処理装置上に読み込まれてもよい。従って、コンピュータ又はその他のプログラム可能な装置上において稼働する命令は、フローチャート内の且つ／又はブロックダイアグラムの一つ以上のブロック内の一つ以上のプロセス内の規定された機能を実装するステップを提供する。

通常の構成においては、演算装置は、一つ以上の中央処理装置（ＣＰＵ：Central Processing Unit）、入出力インタフェース、ネットワークインタフェース、及びメモリを含む。

メモリは、揮発性メモリ、ランダムアクセスメモリ（ＲＡＭ：Random Access Memory）、並びに／或いは、例えば、読み出し専用メモリ（ＲＯＭ：Read-Only Memory）又はフラッシュメモリなどの不揮発性メモリなどの、コンピュータ可読媒体を含むことができる。

コンピュータ可読媒体は、任意の方法又は技術を通じて情報保存を実装し得る、永久的な、揮発性の、可動型の、且つ、静止型の、媒体を含む。情報は、コンピュータ可読命令、データ構造、プログラムモジュール、又はその他のデータであってもよい。コンピュータのストレージ媒体の例は、限定を伴うことなしに、演算装置からアクセス可能な情報を保存するべく使用され得る、相変化ＲＡＭ（ＰＲＡＭ：Phase-change RAM）、スタティックＲＡＭ（ＳＲＡＭ：Static RAM）、ダイナミックＲＡＭ（ＤＲＡＭ：Dynamic RAM）、その他のタイプのランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、電気的に消去可能なプログラム可能な読み出し専用メモリ（ＥＥＰＲＯＭ：Electricaly Erasable Programmable Read-Only Memory）、フラッシュメモリ、又はその他のメモリ技術、コンパクトディスク読み出し専用メモリ（ＣＤ−ＲＯＭ：Compact Disk Read-Only Memory）、デジタルバーサタイルディスク（ＤＶＤ：Digital Versatile Disc）、又はその他の光メモリ、カセット、カセット及びディスクメモリ、又はその他の磁気メモリ装置、或いは、任意のその他の非伝送媒体を含む。本明細書における定義によれば、コンピュータ可読媒体は、変調データ信号及び搬送波などの一時的な媒体を含んではいない。

「含む、包含する（including）」や「備える、有する、具備する（comprising）」という用語、又はこれらの任意のその他の変形は、一連の要素を具備するプロセス、方法、コモディティ、又は装置が、これらの要素を具備するのみならず、列挙されてはいないその他の要素をも具備するように、或いは、プロセス、方法、コモディティ、又は装置に固有の要素を更に具備するように、非排他的包含を含むべく意図されていることに更に留意されたい。更なる制限が存在しない際には、「一つの〜を具備する（comprising one...）」という記述によって定義された要素は、定義されている要素を具備するプロセス、方法、コモディティ、又は装置内の更なる類似の要素を排除するものではない。

当業者は、本出願の実施形態は、方法、システム、又はコンピュータプログラムプロダクトとして提供され得ることを理解するであろう。従って、本出願は、完全なハードウェア実施形態、完全なソフトウェア実施形態、又はソフトウェアとハードウェアとを組み合わせた実施形態として、実装されてもよい。更には、本出願は、その内部においてコンピュータ使用可能なプログラムコードを具備する一つ以上のコンピュータ使用可能ストレージ媒体（限定を伴うことなしに、磁気ディスクメモリ、ＣＤ−ＲＯＭ、光メモリ、及びこれらに類似したものを含む）上において実装されたコンピュータプログラムプロダクトの形態を有することもできる。

本出願は、プログラムモジュールなどの、コンピュータによって実行されるコンピュータ実行可能命令の通常の文脈において記述することができる。一般に、プログラムモジュールは、特定のタスクを実行するべく、或いは、特定の抽象的データタイプを実装するべく、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造、及びこれらに類似したものを具備する。又、本出願は、分散演算環境内において実施されてもよい。これらの分散演算環境においては、通信ネットワークを介して接続されたリモート処理装置がタスクを実行している。分散演算環境においては、プログラムモジュールは、ストレージ装置を含むローカル及びリモートコンピュータストレージ媒体内において配置することができる。

本説明における実施形態は、それぞれの実施形態がその他の実施形態との相違点に合焦する状態において、漸進的な方式により、記述されており、且つ、実施形態は、その同一又は類似の部分について、相互に参照することができる。特に、システム実施形態の場合には、方法実施形態に実質的に類似していることから、その説明が相対的に簡潔である。その関係する部分について、方法実施形態の説明を参照することができる。

本出願の実施形態は、例示を目的としてのみ、上述されており、且つ、本出願を限定するべく、使用されてはならない。当業者は、本出願を様々な方法によって変更又は変形することができる。本出願の精神及び原理において実施されるすべての変更、均等な置換、又は改善は、本出願の請求項の範囲に含まれる。

Claims

オーディオ認識方法であって、
特徴点マップを取得するべく、認識対象のオーディオファイルのスペクトログラム内の複数の第一特徴点に対して拡散処理を実行するステップと、
前記特徴点マップ内の前記拡散した第一特徴点にそれぞれが対応する第二特徴点が存在しているかどうかを判定するべく、ターゲットオーディオファイルのスペクトログラム内においてサーチするステップと、
前記判定結果が肯定的である際に、前記認識対象のオーディオファイルが前記ターゲットオーディオファイルの一部分であると判定するステップと、
を具備する方法。
前記認識対象のオーディオファイルのスペクトログラム内の第一特徴点に対して拡散処理を実行するステップの前に、前記方法は、
前記認識対象のオーディオファイルの前記スペクトログラム内の前記第一特徴点のエネルギー値を前記第一特徴点のグレースケール値に対して正規化するステップ、
を更に具備する、請求項１に記載の方法。
前記拡散処理は、ガウス関数拡散処理又は増幅処理のうちの少なくとも一つを具備する、請求項１又は請求項２に記載の方法。
前記認識対象のオーディオファイルの前記スペクトログラム内の前記第一特徴点のエネルギー値を前記第一特徴点のグレースケール値に対して正規化する前記ステップは、
ウィンドウとして、第一事前設定長さにより、フレームごとに、前記スペクトログラムを精査するステップと、
前記ウィンドウ内の前記第一特徴点の前記エネルギー値のうちから、局所的最大値及び局所的最小値を取得するステップと、
前記局所的最大値及び前記局所的最小値に従って、前記第一特徴点の前記エネルギー値を前記第一特徴点のグレースケール値に対して正規化するステップと、
を具備する、請求項２に記載の方法。
前記特徴点マップ内の前記拡散した第一特徴点にそれぞれが対応する第二特徴点が存在しているどうかを判定するべく、ターゲットオーディオファイルのスペクトログラム内においてサーチする前記ステップは、
ウィンドウとして、前記特徴点マップにより、フレームごとに、前記ターゲットオーディオファイルの前記スペクトログラムを精査するステップと、
前記それぞれの精査プロセスにおいて、前記拡散処理後の前記ウィンドウ内の前記第一特徴点の座標の範囲内の座標を有する前記ウィンドウ内の前記ターゲットオーディオファイルの前記スペクトログラム内の特徴点を前記第二特徴点として判定するステップと、
前記拡散した第一特徴点にそれぞれが対応する前記第二特徴点が存在しているかどうかを判定するべく、前記ウィンドウ内の前記ターゲットオーディオファイルの前記スペクトログラム内においてサーチするステップと、
を具備する、請求項１又は請求項２に記載の方法。
前記拡散処理後の前記ウィンドウ内の前記第一特徴点の座標の範囲内の座標を有する前記ウィンドウ内の前記ターゲットオーディオファイルの前記スペクトログラム内の特徴点を前記第二特徴点として判定する前記ステップは、
前記第一特徴点と、前記拡散処理後の前記ウィンドウ内の前記第一特徴点の前記座標の範囲内の座標を有する前記ウィンドウ内の前記ターゲットオーディオファイルの前記スペクトログラム内の前記特徴点と、の間のマッチングの程度を判定するステップと、
第一閾値超の前記マッチングの程度を有する特徴点を前記第二特徴点して判定するステップと、
を具備する、請求項５に記載の方法。
前記マッチングの程度は、前記第一特徴点の数、或いは、前記拡散した第一特徴点の座標の範囲内の前記ウィンドウ内の前記スペクトログラム内の前記特徴点に対応する前記第一特徴点のエネルギー値又はグレースケール値の合計に対する、前記拡散した第一特徴点の座標の範囲内の前記ウィンドウ内の前記スペクトログラム内の特徴点の数の比率を具備する、請求項６に記載の方法。
前記認識対象のオーディオファイルのスペクトログラム内の第一特徴点を拡散させるステップの前に、前記方法は、
第二閾値超のエネルギー値又はグレースケール値を有する認識対象のオーディオファイルの前記スペクトログラム内に含まれる特徴点をキーポイントとして使用するステップと、
前記キーポイントのエネルギー値又はグレースケール値が予め設定された領域内において最大値である場合に、前記キーポイントを前記第一特徴点として判定するステップと、
を更に具備する、請求項１又は請求項２に記載の方法。
前記ターゲットオーディオファイルはオーディオ情報を含み、且つ、前記オーディオ情報は歌名称を含む、請求項１に記載の方法。
オーディオ認識システムであって、
特徴点マップを取得するべく、認識対象のオーディオファイルのスペクトログラム内の複数の特徴点に対して拡散処理を実行するように構成された拡散ユニットと
前記特徴点マップ内の前記拡散した第一特徴点にそれぞれが対応する第二特徴点が存在しているかどうかを判定するべく、ターゲットオーディオファイルのスペクトログラム内においてサーチするように構成されたサーチユニットと、
前記特徴点マップ内の前記拡散した第一特徴点にそれぞれが対応する前記第二特徴点が前記ターゲットオーディオファイルの前記スペクトログラム内において見出された際に、前記認識対象のオーディオファイルが前記ターゲットオーディオファイルの一部分であると判定するように構成された判定ユニットと、
を具備するシステム。
前記拡散ユニットの前に、前記システムは、
前記認識対象のオーディオファイルの前記スペクトログラム内の前記第一特徴点のエネルギー値を前記第一特徴点のグレースケール値に対して正規化するように構成された正規化ユニット、
を更に具備する、請求項１０に記載のシステム。
前記拡散処理は、ガウス関数拡散処理又は増幅処理のうちの少なくとも一つを具備する、請求項１０又は請求項１１に記載のシステム。
前記正規化ユニットは、
ウィンドウとして、第一事前設定長さにより、フレームごとに、スペクトログラムを精査するように構成された第一正規化サブユニットと、
前記ウィンドウ内の前記第一特徴点の前記エネルギー値のうちから、局所的最大値及び局所的最小値を取得するように構成された第二正規化サブユニットと、
前記局所的最大値及び前記局所的最小値に従って、前記第一特徴点の前記エネルギー値を前記第一特徴点のグレースケール値に対して正規化するように構成された第三正規化サブユニットと、
を具備する、請求項１１に記載のシステム。
前記サーチユニットは、
ウィンドウとして、前記特徴点マップにより、フレームごとに、前記ターゲットオーディオファイルの前記スペクトログラムを精査するように構成された第一サーチサブユニットと、
前記それぞれの精査プロセスにおいて、前記拡散処理後の前記ウィンドウ内の前記第一特徴点の座標の範囲内の座標を有する前記ウィンドウ内の前記ターゲットオーディオファイルの前記スペクトログラム内の特徴点を前記第二特徴点として判定するように構成された第二サーチサブユニットと、
前記拡散した第一特徴点にそれぞれが対応する前記第二特徴点が存在しているかどうかを判定するべく、前記ウィンドウ内の前記ターゲットオーディオファイルの前記スペクトログラム内においてサーチするように構成された第三サーチサブユニットと、
を具備する、請求項１０又は請求項１１に記載のシステム。
前記第二サーチサブユニットは、
前記第一特徴点と、前記拡散処理後の前記ウィンドウ内の前記第一特徴点の前記座標の範囲内の座標を有する前記ウィンドウ内の前記ターゲットオーディオファイルの前記スペクトログラム内の前記特徴点と、の間のマッチングの程度を判定するように構成された第四サーチサブユニットと、
第一閾値超の前記マッチングの程度を有する特徴点を前記第二特徴点として判定するように構成された第五サーチサブユニットと、
を具備する、請求項１４に記載のシステム。
前記マッチングの程度は、前記第一特徴点の数、或いは、前記拡散した第一特徴点の座標の範囲内の前記ウィンドウ内の前記スペクトログラム内の前記特徴点に対応する前記第一特徴点のエネルギー値又はグレースケール値の合計に対する、前記拡散した第一特徴点の座標の範囲内の前記ウィンドウ内の前記スペクトログラムの特徴点の数の比率を具備する、請求項１５に記載のシステム。
前記拡散処理の前に、前記システムは、
第二閾値超のエネルギー値又はグレースケール値を有する認識対象のオーディオファイルの前記スペクトログラム内に含まれる特徴点をキーポイントとして使用するように構成された第一処理ユニットと、
前記キーポイントの前記エネルギー値又はグレースケール値が予め設定された領域内において最大値である場合に、前記キーポイントを前記第一特徴点として判定するように構成された第二処理ユニットと、
を更に具備する、請求項１０又は請求項１１に記載のシステム。
前記ターゲットオーディオファイルはオーディオ情報を含み、且つ、前記オーディオ情報は歌名称を含む、請求項１０に記載のシステム。