JP6090881B2

JP6090881B2 - オーディオ認識のための方法およびデバイス

Info

Publication number: JP6090881B2
Application number: JP2015555549A
Authority: JP
Inventors: ハイロン・リュウ; ダドン・シエ; ジエ・ホウ; ビン・シャオ; シャオ・リウ; ボ・チェン
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2013-02-04
Filing date: 2013-10-16
Publication date: 2017-03-08
Anticipated expiration: 2033-10-16
Also published as: BR112015018597A2; WO2014117542A1; CA2899657C; CA2899657A1; CN103971689A; TW201432674A; CN103971689B; KR101625944B1; JP2016512610A; KR20150108936A; TWI494917B

Description

本出願は、参照によりその全体が本明細書に組み込まれている、2013年2月4日に出願した中国特許出願第CN201310042408.0号「Method and Device for Audio Recognition」の優先権を主張するものである。

本発明は、計算の技術分野に関し、特にオーディオ認識のための方法およびデバイスに関する。

インターネットの発展により、インターネットは、人々の生活において不可欠の情報取得ツールとなった。未知のオーディオの認識を実現するためにインターネットデバイスを使用することは、新しい用途の傾向になりつつある。従来のオーディオ認識方法は、主として以下のステップを含む:第1に、ユーザは、たとえば、未知のオーディオ文書に含まれている歌詞、未知のオーディオ文書の名前、未知のオーディオ文書の歌手などを入力することによって、未知のオーディオ文書のなんらかの基本的な情報を手作業で入力する。第2に、入力された基本的な情報に基づいて、未知のオーディオ文書の全体的な情報がインターネットデバイス(インターネット上の端末またはサーバなど)によって検索される。したがって、従来のオーディオ認識方法では、基本的な情報を手作業で入力することが必要である。しかしながら、ほとんどの状況において、ユーザは、未知のオーディオ文書の基本的な情報を認識していない場合があるか、またはユーザによって保有されている未知のオーディオ文書の基本的な情報は不正確であるため、情報は効率よく提供され得ない。たとえば、ユーザは、周囲環境で音楽のごく一部を聞いたかもしれないが、音楽の他の情報を知らないため、効果的な入力は実行され得ない。または、ユーザは、特定の音楽のリズムのごく一部を口ずさむことができるが、音楽の他の情報を知らないため、効果的な入力は実行され得ない。上述した状況では、未知のオーディオ文書は、従来のオーディオ認識方法では認識され得ず、このためにインターネットデバイスのインテリジェントな機能が低下する。

「A highly robust audio fingerprinting system」、International Conference on Music Information Retrieval(ISMIR)の議事録、パリ、フランス、2002年、J. HaitsmaおよびT. Kalker著

一態様では、オーディオ認識を実行する方法は、1つまたは複数のプロセッサおよびメモリを持つデバイスで、オーディオ認識要求に応じて認識される第1のオーディオ文書を収集するステップと、第1のオーディオ文書に対して第1の事前設定された数の位相チャネルを生成するために、第1のオーディオ文書に対する時間周波数分析を行うステップと、第1の事前設定された数の位相チャネルの各位相チャネルから少なくとも1つのピーク値特徴点を抽出するステップであって、各位相チャネルの少なくとも1つのピーク値特徴点は、前述の各位相チャネルのピーク値特徴点の系列を構成するステップと、を含む第1のオーディオ文書の第1の特徴情報の計算を開始するステップと、第1のオーディオ文書に対する認識結果を取得するステップであって、認識結果は、1つまたは複数の事前設定された基準により、第1の特徴情報に一致する第2の特徴情報を持つ少なくとも1つの第2のオーディオ文書を含み、第1の特徴情報は、事前設定された数の位相チャネルのそれぞれのピーク値特徴点の系列に基づいて計算されるステップとを含む。

一部の実施形態では、前記方法は、クライアントデバイスで実行され、事前設定された数の位相チャネルのそれぞれのピーク値特徴点の系列をサーバに送信するステップであって、サーバは、事前設定された数の位相チャネルのそれぞれのピーク値特徴点の系列に基づいて、第1の特徴情報の計算を完了するステップをさらに含む。一部の実施形態では、前記方法は、送信するステップの前に、それぞれのピーク値特徴点の系列に対するそれぞれの時間値で第1のタイプの圧縮およびそれぞれのピーク値特徴点の系列に対するそれぞれの周波数値で第2のタイプの圧縮を実行するステップをさらに含む。

一部の実施形態では、前記方法は、サーバデバイスで実行され、複数の既知のオーディオ文書のデータベースを事前確立するステップであって、各既知のオーディオ文書は、それぞれの一意のトラック識別子を持ち、事前確立するステップは、複数の既知のオーディオ文書の各々に対してそれぞれの特徴情報を計算するステップであって、複数の既知のオーディオ文書の各々に対するそれぞれの特徴情報は、前述の各既知のオーディオ文書に対するオーディオフィンガープリントの系列のそれぞれの集合を含み、前述の各既知のオーディオ文書に対するオーディオフィンガープリントの系列のそれぞれの集合の各々は、それぞれのハッシュコードを持つステップと、それぞれのハッシュコードにより、ハッシュテーブルに複数の既知のオーディオ文書に対するオーディオフィンガープリントの系列のそれぞれの集合を格納するステップとをさらに含むステップと、をさらに含む。

一部の実施形態では、第1のオーディオ文書に対する認識処理は、第1のオーディオ文書の第1の特徴情報の計算を継続するステップであって、第1のオーディオ文書に対して前述の各位相チャネルのピーク値特性点のペアリング系列を形成するために、第1のオーディオ文書の事前設定された数の位相チャネルの各々のピーク値特性点の系列において各ピーク値特性点に対してペアリング処理を実行するステップと、第1のオーディオ文書の事前設定された数の位相チャネルの各々に対応するそれぞれのオーディオフィンガープリントの系列を取得するために、第1のオーディオ文書の各位相チャネルにおいて、ピーク値特性点のペアの系列の各々に対してハッシュ計算を実施するステップであって、第1の事前設定された数の位相チャネルに対応するオーディオフィンガープリントの系列は、第1のオーディオ文書の第1の特徴情報をともに構成するステップとを含むステップと、それぞれの比較結果を取得するために、第1の特徴情報を事前確立されたデータベースに格納されている各既知のオーディオ文書のそれぞれの特徴情報と比較するステップと、それぞれの比較結果により、事前確立されたデータベースの各既知のオーディオ文書のそれぞれのトラック識別子に対して重み付け処理を実施するステップと、それぞれのトラック識別子に対する重みスコアを低下させる順序により、文書候補リストを構成するために、事前確立されたデータベースから第2の事前設定された数の既知のオーディオ文書のそれぞれの特徴情報を選択するステップと、第1の特徴情報と、文書候補リストの各既知のオーディオ文書のそれぞれの特徴情報との間のそれぞれの時間依存性を計算するステップと、文書候補リストから第1の特徴情報に一致する少なくとも1つの第2の特徴情報を選択するステップであって、第2の特徴情報と第1の特徴情報との間のそれぞれの時間依存性は、事前設定されたしきい値を超えるステップとをさらに含む。

一態様では、1つまたは複数のプロセッサおよびメモリを含む1つまたは複数のデバイスは、上記の方法を実行するように構成される。

本発明の実施形態について説明するために、以下の図は、本発明の様々な態様を示すために使用される。

一部の実施形態によるオーディオ認識方法を示す流れ図である。一部の実施形態による図1Aに示されたステップS102を示す流れ図である。一部の実施形態による図1Bに示されたステップs1201を示す流れ図である。一部の実施形態による図1Aに示されたステップS103を示す流れ図である。一部の実施形態によるクライアントデバイスで実行される代表的なプロセスを示す流れ図である。一部の実施形態によるサーバデバイスで実行される代表的なプロセスを示す流れ図である。一部の実施形態によるオーディオ認識デバイスを示す構造的な概略図である。一部の実施形態による図2Aに示された計算モジュールを示す構造的な概略図である。一部の実施形態による図2Bに示された時間周波数分析ユニットを示す構造的な概略図である。一部の実施形態による図2Aに示された認識モジュールを示す構造的な概略図である。一部の実施形態によるクライアントデバイスを示すブロック図である。一部の実施形態によるサーバデバイスを示すブロック図である。

複数の図面を通じて、同様の参照番号は、対応する部分を示している。

本明細書に記述したように、一部の実施形態では、オーディオ文書の特徴情報は、オーディオ文書のオーディオフィンガープリントである。すなわち、第1のオーディオ文書の第1の特徴情報は、第1のオーディオ文書のオーディオフィンガープリントであり、第2のオーディオ文書の第2の特徴情報は、第2のオーディオ文書のオーディオフィンガープリントである。

一部の実施形態では、オーディオ文書のオーディオフィンガープリントは、オーディオ文書の重要な音響の特徴を表し、オーディオ文書の内容に基づくコンパクトなデジタル署名を表している。オーディオ文書のオーディオフィンガープリントは、知覚または内容の類似性を必要とし、識別可能性、頑強性、粒度、および他の基本的な特徴などの特質を持つ。一部の実施形態では、識別可能性は、異なるオーディオ文書のオーディオフィンガープリントは、大きな違いを持つべきである一方、オリジナルレコードと、オリジナルオーディオ文書の低い忠実度のコピーのオーディオフィンガープリントは、小さな違いを持つべきであるという特質を表している。頑強性は、オーディオ文書は、多くの種類のオーディオフォーマット変換、チャネルノイズ干渉などを受けた後にも認識され得るという特質を表している。粒度は、非常に短い(すなわち、オーディオ文書の長さは、たとえば5秒から10秒より短い)オーディオ文書に対してでも認識を達成できるという特質を表している。さらに、異なる用途のオーディオ文書のオーディオフィンガープリントは、より多くの特徴を持つことができる。たとえば、クライアント側の用途では、オーディオ文書のオーディオフィンガープリントには、計算の容易さが必要とされるため、制限された計算リソースを持つクライアントデバイスでは、迅速かつリアルタイムのオーディオフィンガープリント計算が実現され得る。他の例では、ワイヤレスネットワークの用途では、オーディオ文書のオーディオフィンガープリントには、データの緻密性が必要とされる。すなわち、ワイヤレスネットワークの送信に適合させるために、データサイズは小さくなければならない。

以下に、添付した図1A〜図1Fと組み合わせて、一部の実施形態によるオーディオ認識方法について詳細に説明する。

図1Aで、一部の実施形態によるオーディオ認識方法の流れ図を参照されたい。方法は以下のステップS101からS105を含むことができる。

S101、オーディオ認識要求を受信するときに認識される第1のオーディオ文書を収集する。たとえば、オーディオ認識要求は、適宜、クライアントデバイス(たとえばスマートフォン)のユーザによって生成される。オーディオ認識要求を受信するときに、クライアントデバイスは、周囲環境の音を取り込むために、適宜、記録デバイス(たとえば内蔵マイクおよびレコーダ)を開始する。一部の実施形態では、クライアントデバイスは、適宜、ユーザの指示で第1のオーディオ文書としてインターネットからオーディオクリップをダウンロードする。一部の実施形態では、クライアントデバイスは、適宜、ユーザの指示で第1のオーディオ文書としてオーディオクリップのコピーをローカルに格納させる。一部の実施形態では、クライアントデバイスは、適宜、ユーザの指示で第1のオーディオ文書として指定された信号線(たとえばオーディオ入力回線、またはオーディオ入力チャネル)にオーディオ信号を格納する。一部の実施形態では、オーディオ認識を開始するための事前設定されたトリガが満たされた場合、クライアントデバイスは、第1のオーディオ文書の収集を自動的に開始する。たとえば、事前設定されたトリガは、クライアントデバイスが、周囲環境から、かつ/または特定の時間の長さを超えるか、または特定の音量を上回る特定のオーディオチャネルからオーディオ信号を取り込んだ場合、オーディオ認識要求がトリガされる。

一部の実施形態では、第1のオーディオ文書は、映画のオーディオセグメント、テレビドラマのオーディオセグメント、テレビプログラムのオーディオセグメント、音楽ラジオ放送局によってブロードキャストされたオーディオデータ、人間によって伝達されたオーディオデータ(口ずさまれた音楽または歌のセグメント)などの1つである。ユーザが、歌の名前、歌手、アルバムの名前、およびオーディオ文書の歌詞など、未知のオーディオ文書の情報を知りたい場合、彼または彼女は、オーディオクエリ要求を開始することができる。このステップでは、ユーザによって送信されたオーディオ認識要求を受信すると、デバイスは、認識されるべき第1のオーディオ文書を収集する。一部の実施形態では、このステップの収集プロセスは、適宜、以下に示す2つの実装モードを含むことができる。

第1の実装モードでは、ユーザによって送信されたオーディオクエリ要求を受信するときに、このステップは、リアルタイムにユーザによって認識されることが要求される第1のオーディオ文書を記録するために記録機能を開始することができる。

第2の実装モードでは、ユーザによって送信されたオーディオクエリ要求を受信するときに、このステップは、ユーザによって認識およびアップロードされることが要求される第1のオーディオ文書を受信することができる。

一部の実施形態では、第1のオーディオ文書は、8KHzのサンプリング周波数、16ビット量子化を用いるPCM(パルス符号変調)タイプを用いるデジタルオーディオ文書である。

S102、第1のオーディオ文書の第1の特徴情報を計算する。

一部の実施形態では、第1のオーディオ文書の第1の特徴情報は、第1のオーディオ文書のオーディオフィンガープリントである。一部の実施形態では、第1のオーディオ文書のオーディオフィンガープリントは、第1のオーディオ文書の重要な音響の特徴を表す小型のデジタル署名を表し、第1のオーディオ文書の内容に基づいている。このステップでは、第1のオーディオ文書の第1の特徴情報を取得するために、収集された第1のオーディオ文書のデジタル版が計算に使用される。

一部の実施形態では、このステップは、同じデバイスで実行される(たとえばクライアントデバイスまたはサーバ)。一部の実施形態では、このステップは、協働して機能するクライアントデバイスおよびサーバデバイスによって実行される。このステップのより詳細については、以下に記述している。

S103、事前確立されたデータベースから第1の特徴情報に一致する少なくとも1つの第2の特徴情報を検索および取得する。

一部の実施形態では、事前確立されたデータベースは、少なくとも1つのオーディオ文書のそれぞれの識別子と、少なくとも1つのオーディオ文書のそれぞれの特徴情報と、少なくとも1つのオーディオ文書のそれぞれの属性データとを格納する。一部の実施形態では、事前確立されたデータベースに格納されたオーディオ文書は、映画のオーディオセグメント、テレビドラマのオーディオセグメント、テレビプログラムのオーディオセグメント、歌、音楽などを含む。一部の実施形態では、オーディオ文書のそれぞれの識別子は、TrackIDによって表される。たとえば、オーディオ文書1のそれぞれの識別子は、TrackID-1として表され得て、オーディオ文書2のそれぞれの識別子は、TrackID-2として表され得て、各TrackIDは、1つのそれぞれのオーディオ文書に対する一意の識別子としてのみ使用され得る。

一部の実施形態では、オーディオ文書の特徴情報は、オーディオ文書のオーディオフィンガープリントである。たとえば、オーディオ文書1の特徴情報は、オーディオ文書1のオーディオフィンガープリントであり、オーディオ文書2の特徴情報は、オーディオ文書2のオーディオフィンガープリントである。一部の実施形態では、オーディオ文書の属性データは、限定しないが、オーディオ文書の名前、オーディオ文書のアルバム情報、オーディオ文書のURLアドレス、およびオーディオ文書の歌詞というデータの少なくとも1つを含む。このステップでは、一部の実施形態では、第1の特徴情報に一致する第2の特徴情報は、第2の特徴情報が第1の特徴情報と同一であることを意味する。一部の実施形態では、第1の特徴情報に一致する第2の特徴情報は、第2の特徴情報と第1の特徴情報との間の類似性の程度が、事前設定された類似性の程度に到達することを意味する。たとえば、事前設定された類似性の程度が90%である場合、および第2の特徴情報と第1の特徴情報との間の類似性の程度が、90%に到達するか、または90%を超える場合、第2の特徴情報は、たとえば認識デバイスによって、第1の特徴情報に一致すると考えられる。

一部の実施形態では、このステップは、クライアントデバイスからオーディオ認識要求および第1のオーディオ文書に関する少なくとも一部の情報(たとえば、第1の特徴情報または第1の特徴情報が計算され得る他の情報)を受信するサーバデバイスで実行される。一部の実施形態では、このステップは、オーディオ認識要求を受信したのと同じデバイスで実行される。

S104、上述した少なくとも1つの第2の特徴情報で第2の特徴情報の各々に対応する第2のオーディオ文書の属性データを取得する。

上述したステップS103は、事前確立されたデータベースから第1の特徴情報に一致する少なくとも1つの第2の特徴情報を探し出す。一部の実施形態では、上述した少なくとも1つの第2の特徴情報の各特徴情報は、それぞれの第2のオーディオ文書に対応する。上述したステップS103によって、第1のオーディオ文書に一致する少なくとも1つの第2のオーディオ文書が認識され、これは、この第1のオーディオ文書が、認識された1つまたは複数の第2のオーディオ文書の1つの場合があるか、またはこの第1のオーディオ文書が、認識された第2のオーディオ文書の少なくとも1つのオーディオセグメントの場合があることを示している。このステップでは、第1のオーディオ文書に一致する認識された少なくとも1つの第2のオーディオ文書の属性データが取得される。

一部の実施形態では、このステップはサーバで実行される。

S105、出力する上述した第1のオーディオ文書の認識結果として、上述した第2のオーディオ文書の属性データを取る。たとえば、一部の実施形態では、サーバは、オーディオ認識要求の結果として、クライアントデバイスに上述した第2のオーディオ文書の属性データを提供する。

一部の実施形態では、このステップは、第1のオーディオ文書の認識結果として、ステップS104で取得された少なくとも1つの第2のオーディオ文書のすべてのオーディオ文書の属性データを使用し、ユーザにそれらをすべて出力することができる。一部の実施形態では、このステップは、また、ステップS104で取得された少なくとも1つのオーディオ文書からオーディオ文書の一部のみ選択し、上述した第1のオーディオ文書の認識結果として、選択されたオーディオ文書の属性データを出力することができる。上述した認識結果により、ユーザは、クエリ要求の対象である第1のオーディオ文書の属性データを知ることができる。たとえば、ユーザは、歌の名前、その歌手、そのアルバムの名前、その歌詞など、第1のオーディオ文書の属性データを知ることができる。

一部の実施形態では、オーディオ認識の方法は、オーディオ認識要求を受信するときに、認識される第1のオーディオ文書が、自動的に収集され得ることを含む。ユーザは、認識される第1のオーディオ文書の基本的な情報を手作業で入力する必要がなく、これによりオーディオ認識のインテリジェントな機能が進歩する。さらに、オーディオ認識の方法は、上述した第1のオーディオ文書の第1の特徴情報を計算するステップと、事前確立されたデータベースで上述した第1の特徴情報に一致する少なくとも1つの第2の特徴情報を検索および取得するステップと、第1の特徴情報に基づいて、事前設定されたデータベースから一致した第2のオーディオ文書の属性データを取得するステップと、出力する上述した第1のオーディオ文書の認識結果として、上述した第2のオーディオ文書の属性データを取るステップとを含む。本発明の実施形態は、オーディオ認識のための特徴情報に基づき、オーディオ文書が決定されるときに、そのオーディオ文書の特徴情報も決定される。決定された特徴情報に基づいてオーディオ認識を実行することで、オーディオ認識の正確性が高まり、オーディオ認識のインテリジェントな機能も進歩する。

以下に、図1Aに示されたオーディオ認識方法の各ステップについて、より詳細に説明する。

図1Bを参照すると、これは一部の実施形態による図1Aに示されたステップS102の流れ図である。ステップS102は、一部の実施形態により以下のステップs1201〜s1204を含むことができる。

S1201、上述した第1のオーディオ文書に対する第1の事前設定された数の位相チャネルを生成するために、前述した第1のオーディオ文書に対する時間周波数分析を実施する。

一部の実施形態では、第1の事前設定された数の値は、実際の現在の条件により設定される。一部の実施形態では、事前設定された数の値を設定するための特定のプロセスは、第1のオーディオ文書によって影響を受ける様々な要因を考慮に入れる。たとえば、第1の事前設定された数の値は、第1のオーディオ文書の信号対雑音比などにより設定され得る。

一部の実施形態では、第1の事前設定された数は、Mとして表され、Mは正の整数である。このステップでは、時間周波数分析は、第1のオーディオ文書のデジタル版の時間領域信号でSTFT(短時間フーリエ変換)を実行することに基づくことができ、これにより、第1のオーディオ文書の2次元の時間周波数グラフを作成することができる。一部の実施形態では、第1のオーディオ文書の2次元の時間周波数グラフは、M個の時間周波数サブグラフへと分割され、各時間周波数サブグラフは、第1のオーディオ文書のM個の位相チャネルのそれぞれ1つに対応する。たとえば、M個の位相チャネルのM個の時間周波数サブグラフでは、位相チャネル1は、時間周波数サブグラフ1に対応し、位相チャネル2は、時間周波数サブグラフ2に対応し、同様に、位相チャネルMは、時間周波数サブグラフMに対応する。

S1202、事前設定された数の位相チャネルの各位相チャネルから少なくとも1つのピーク値特性点を抽出し、前述の各位相チャネルの少なくとも1つのピーク値特性点は、前述の各位相チャネルのピーク値特性点の系列を形成する。

上記のように、M個の位相チャネルでは、各位相チャネルは、それぞれの時間周波数サブグラフに対応する。このステップでは、一部の実施形態では、各位相チャネルのピーク値特性点を抽出するためのプロセスは、以下を含む:1)前述の各位相チャネルに対応するそれぞれの時間周波数サブグラフで、各特性点のエネルギ値を分析する。2)各特性点のエネルギ値により、ピーク値特性点として所与の矩形の近傍内で最大エネルギ値を持つ特性点を選択する。上述したステップ1)および2)により、少なくとも1つのピーク値特性点は、各位相チャネルに対して抽出され得る。

一部の実施形態では、矩形の近傍のサイズパラメータは、実際の必要性により設定される。たとえば、一部の実施形態では、矩形の近傍のサイズを設定するためのプロセスは、時間周波数サブグラフの特性点の総数、時間周波数サブグラフの特性点の分布状態などを含む要因の1つまたは複数を考慮に入れる。一部の実施形態では、M個の位相チャネルでは、少なくとも1つのピーク値特性点が各位相チャネルに対して抽出される。各位相チャネルの少なくとも1つのピーク値特性点は、前述の各位相チャネルに対してそれぞれのピーク値特性点の系列を構成するために分類される。具体的には、一部の実施形態では、各位相チャネルの少なくとも1つのピーク値特性点は、第1から最後のピーク値特性点への時系列により分類される。同じ時点に現れたピーク値特性点について、一部の実施形態では、ピーク値特性点は、最高周波数から最低周波数への周波数により、適宜、分類される。

一部の実施形態では、このステップは、M個の位相チャネルに対するM個のピーク値特性点の系列をそれぞれ抽出することができる。たとえば、M個の位相チャネルでは、位相チャネル1は、ピーク値特性点の系列1に対応し、位相チャネル2は、ピーク値特性点の系列2に対応し、同様に、位相チャネルMは、ピーク値特性点の系列Mに対応する。

「A highly robust audio fingerprinting system」、International Conference on Music Information Retrieval(ISMIR)の議事録、パリ、フランス、2002年、J. HaitsmaおよびT. Kalker著に記述されているものなど、周波数領域においてオーディオフィンガープリントを計算する従来のオーディオ認識技術では、オーディオデータベースのサンプルと試験サンプルとの間の位相の不一致に対する解決策は、オーディオ信号の隣接フレーム間に大きな重複を提供することによって取り組まれている。たとえば、上記の参考文献では、フレームの重複は、フレームサイズの31/32である。しかしながら、単にフレームの重複サイズを増加させると、FFT計算の時間および計算の強度が増す場合があり、またフィンガープリントデータの大きさが増す場合がある。本発明の一部の実施形態によると、従来の手法の上述した課題を回避するために、フレームの重複サイズは比較的小さく維持され得る。代わりに、オーディオ信号の2D時間周波数図は、異なる位相平面に分割され、フィンガープリント情報は、複数の位相平面の各々から抽出される。所与のフィンガープリントのサイズについて、本発明の再現率(recall rate)は、従来の技術の再現率を超えて改善され得る。複数の位相平面のフィンガープリントの抽出および使用の詳細については、以下に提供する。

一部の実施形態では、異なる位相チャネルに対するそれぞれのピーク値特性点の抽出と、異なる位相チャネルに対するそれぞれのピーク値特性点の系列へとそれぞれのピーク値特性点を分類するステップは、クライアントデバイスで実行される。一部の実施形態では、クライアントデバイスは、さらに処理するためにサーバにそれぞれのピーク値特性点の系列を送信する。一部の実施形態では、クライアントデバイス、サーバに送信する前に、異なる位相チャネルに対するそれぞれのピーク値特性点の系列を暗号化および/または圧縮する。

s1203、前述の各位相チャネルのピーク値特性点のペアリング系列(言い換えると、ピーク値特性点のペアから成る系列)を形成するために、前述した位相チャネルの各々のピーク値特性点の系列において各ピーク値特性点に対してペアリング処理を実行する。

一部の実施形態では、Sⁿ(t_k,f_k)は、任意の位相チャネルnのピーク値特性点の系列において任意のピーク値特性点kを示すために使用され、nは、それぞれの位相チャネルのシリアル番号またはそれぞれの時間周波数サブグラフのシリアル番号を表し、0<n≦Mであり、kは、ピーク値特性点の系列においてそれぞれのピーク値特性点のシリアル番号を表し、kは正の整数であり、t_kは、ピーク値特性点kが、時間周波数サブグラフnに現れるときに対する時間値を表し、f_kは、時間周波数サブグラフnにおいてピーク値特性点kの周波数値を表している。

このステップでは、一部の実施形態では、各位相チャネルのピーク値特性点の系列において各ピーク値特性点のペアリング処理のプロセスは、以下を含む:(1)各位相チャネルに対応する時間周波数サブグラフで、矩形のターゲット領域を選択するために、アンカポイントとして前述の各位相チャネルのピーク値特性点の系列で各ピーク値特性点を取ること。任意の時間周波数サブグラフの任意のピーク値特性点に対して、上述した矩形の領域は以下の条件を満たす。

t_start≦t_k≦t_endおよびf_start≦f_k≦f_end

一部の実施形態では、t_startは、アンカポイントとしてピーク値特性点Sⁿ(t_k、f_k)を取ることによって選択された矩形のターゲット領域の開始時間を表し、t_endは、アンカポイントとしてピーク値特性点Sⁿ(t_k、f_k)を取ることによって選択された矩形のターゲット領域の終了する時間を表し、f_startは、アンカポイントとしてピーク値特性点Sⁿ(t_k、f_k)を取ることによって選択された矩形のターゲット領域の最小の周波数を表し、f_endは、アンカポイントとしてピーク値特性点Sⁿ(t_k、f_k)を取ることによって選択された矩形のターゲット領域の最大周波数を表している。

(2)アンカポイントとペアリングするために、矩形のターゲット領域でアンカポイント以外にピーク値特性点を選択すること。アンカポイント、およびアンカポイントとペアリングするために選択されたピーク値特性点は、ピーク値特性点のペアを構成する。一部の実施形態では、アンカポイントとペアリングするためにピーク値特性点を選択するための原理は、その起点(epoch)が、アンカポイントとペアリングするためのアンカポイントの起点と最小の時間差を持つピーク値特性点を選択すること、または矩形のターゲット領域内に、アンカポイント以外に、最大のエネルギ値を持つピーク値特性点を選択することを含む。

上述した処理ステップ(1)および(2)を通じて、各ピーク値特性点Sⁿ(t_k,f_k)には、ペアで一致するピーク値特性点Sⁿ(t_b,f_b)が提供される。一部の実施形態では、nは、位相チャネルのシリアル番号または時間周波数サブグラフのシリアル番号を表し、0<n≦Mであり、bは、ピーク値特性点の系列nの一致するピーク値特性点のシリアル番号を表し、bは、正の整数であり、t_bは、一致するピーク値特性点が時間周波数サブグラフnに現れる時間を表し、f_bは、一致するピーク値特性点の周波数を表している。一部の実施形態では、クオドラプル(t_k、f_k、Δf_k、Δt_k)_nは、所定の位相チャネルnのピーク値特性点のペアの系列においてピーク値特性点kの所定のペアを表すために使用され、nは、位相チャネルのシリアル番号または時間周波数サブグラフのシリアル番号を表し、Δt_kは、ピーク値特性点のペアの2つのピーク値特性点間の時間差を表し、Δt_k=t_b-t_k、Δf_kは、ピーク値特性点のペアの2つのピーク値特性点間の周波数差を表す、Δf_k=f_b-f_k。

このステップは、M個のピーク値特性点のペアの系列を形成するために、M個のピーク値特性点の系列において各ピーク値特性点の一致が実施されることを可能にする。たとえば、M個の位相チャネルでは、位相チャネル1は、ピーク値特性点のペアの系列1に対応し、位相チャネル2は、ピーク値特性点のペアの系列2に対応し、同様に、位相チャネルMは、ピーク値特性点のペアの系列Mに対応する。

s1204、上述した位相チャネルの各々に対応するそれぞれのオーディオフィンガープリントの系列を取得するために、各位相チャネルにおいて上述したピーク値特性点のペアの系列の各々に対してハッシュ計算を実施し、第1の事前設定された数の位相チャネルに対応するオーディオフィンガープリントの系列の集合は、上述した第1のオーディオ文書の第1の特徴情報をともに構成する。

上記のように、クオドラプル(t_k、f_k、Δf_k、Δt_k)_nは、所定の位相チャネルnのピーク値特性点のペアの系列において所定のピーク値特性点のペアkを表すために使用される。クオドラプルのパラメータは、以下のように理解され得る。(f_k、Δf_k、Δt_k)は、ピーク値特性点のペアの特徴部分を表し、t_kは、特徴部分(f_k、Δf_k、Δt_k)が発生する時間を表している。このステップでは、特徴部分(t_k、Δf_k、Δt_k)に対するハッシュ計算が実施され、特徴部分(f_k、Δf_k、Δt_k)は、したがって、固定数のビットを用いてhashcodeによって表される。具体的には、hashcode_k=H(f_k、Δf_k、Δt_k)である。このステップの計算を通じて、任意の位相チャネルのピーク値特性点のペアの系列におけるピーク値特性点のペアの任意のペアは、(t_k、hashcode_k)_nとして表すことができ、nは、位相チャネルのそれぞれのシリアル番号または時間周波数サブグラフのそれぞれのシリアル番号を表し、t_kは、hashcode_kが現れる時間を表し、(t_k,hashcode_k)_nは、オーディオフィンガープリントアイテムとして機能し、それぞれのピーク値特性点のペアを表す。

このステップを通じて、M個のピーク値特性点のペアの系列で、各ピーク値特性点のペアの系列の各ピーク値特性点のペアは、それぞれのオーディオフィンガープリントアイテムによって表され得て、各ピーク値特性点のペアの系列は、オーディオフィンガープリントの系列に対応し、M個のピーク値特性点のペアの系列は、M個のオーディオフィンガープリントの系列に対応する。たとえば、ピーク値特性点のペアの系列1は、オーディオフィンガープリントの系列1に対応し、ピーク値特性点のペアの系列2は、オーディオフィンガープリントの系列2に対応し、同様に、ピーク値特性点のペアの系列Mは、オーディオフィンガープリントの系列Mに対応する。M個のオーディオフィンガープリントの系列の集合は、上述した第1のオーディオ文書の第1の特徴情報をともに構成する。すなわち、第1のオーディオ文書の第1の特徴情報は、M個のオーディオフィンガープリントの系列の集合として表され得る。

一部の実施形態では、ピーク値特性点のペアリング、およびピーク値特性点のペアに対するhashcodeの計算は、サーバで実行される。

図1Cを参照すると、これは、図1Bに示されているステップs1201の流れ図である。ステップs1201は、一部の実施形態により、以下のステップs1211〜s1215を含むことができる。

s1211、オーディオ信号の複数のフレームを形成するために、上述した第1のオーディオ文書に対する時間領域フレーム分割処理を実施する。

このステップは、フレーム分割のパラメータとして窓関数を取り、オーディオ信号の複数のフレームを形成するために、収集された第1のオーディオ文書に対して時間領域フレーム分割処理を実施する。一部の実施形態では、窓関数は、ハミング窓関数、ハニング窓関数、ガウス窓関数、または他の一般的な窓関数である。

s1212で、オーディオ信号の前述の各フレームのそれぞれの周波数スペクトルを取得するために、オーディオ信号の各フレームに対してSTFT変換を実施する。

s1213で、オーディオ信号の上述したフレームの各々のそれぞれの周波数スペクトルに対応する振幅スペクトルを抽出する。

s1214で、時間に基づいて上述した第1のオーディオ文書の時間周波数グラフ、周波数スペクトル、およびオーディオ信号の上述したフレームの各1つの振幅スペクトルを描写する。このステップでは、オーディオ信号の各フレームの時系列により、オーディオ信号の各フレームの周波数スペクトルおよび振幅スペクトルが順に描かれて、第1のオーディオ文書の2次元の時間周波数グラフを形成する。

s1215、事前設定された数の時間周波数サブグラフを生成するために、時間のモジュロを取ることによって、上述した第1のオーディオ文書の時間周波数グラフを分割し、現在の数の時間周波数サブグラフの各々は、上述した第1のオーディオ文書のそれぞれの位相チャネルに対応する。

一部の実施形態では、第1の事前設定された数は、Mとして表され、Mは、正の整数である。このステップでは、第1のオーディオ文書の時間周波数グラフは、Mを法とする時間tにより分割され、M個の時間周波数サブグラフを生成する。一部の実施形態では、特定の分割プロセスは以下のとおりである。(1)2次元の時間周波数グラフで各時間t=0、M、2M…xMに対応するそれぞれの特性点をそれぞれ選択し、選択された特性点は、時間周波数サブグラフ1を構成する。2次元の時間周波数グラフで各時間t=1、1+M、1+2M…xMに対応するそれぞれの特性点をそれぞれ選択し、選択された特性点は、時間周波数サブグラフ2を構成する。同様に、2次元の時間周波数グラフで各時間t=M-1、(M-1)+M…(M-1)+xMに対応するそれぞれの特性点をそれぞれ選択し、選択された特性点は、時間周波数サブグラフMを構成する。一部の実施形態では、xは、正の整数であり、0<(M-1)+xM≦t_maxであり、t_maxは、2次元の時間周波数グラフの最大の時間点である。一部の実施形態では、各時間周波数サブグラフは、第1のオーディオ文書のそれぞれの位相チャネルに対応し、M個の時間周波数サブグラフは、第1のオーディオ文書のM個の位相チャネルに対応する。たとえば、時間周波数サブグラフ1は、位相チャネル1に対応し、時間周波数サブグラフ2は、位相チャネル2に対応し、同様に、時間周波数サブグラフMは、位相チャネルMに対応する。

図1Dを参照すると、これは図1Aに示されているステップS103の流れ図である。一部の実施形態では、ステップS103は、以下のステップs1301〜ステップs1305を含むことができる。

s1301、上述した第1の特徴情報を上述した事前確立されたデータベースに格納されている各それぞれの特徴情報と比較する。

一部の実施形態では、事前確立されたデータベースは、少なくとも1つのオーディオ文書のそれぞれの識別子と、少なくとも1つのオーディオ文書のそれぞれの特徴情報と、少なくとも1つのオーディオ文書のそれぞれの属性データとを格納する。一部の実施形態では、各オーディオ文書の属性データは、オーディオ文書の名前と、オーディオ文書のアルバム情報と、オーディオ文書のURLアドレスと、オーディオ文書の歌詞とのデータの少なくとも1つを含む。一部の実施形態では、各オーディオ文書のそれぞれの識別子は、それぞれのTrackIDによって表され得る。たとえば、オーディオ文書1のそれぞれの識別子は、TrackID-1として表され得て、オーディオ文書2のそれぞれの識別子は、TrackID-2として表され得る。一部の実施形態では、各一意のTrackIDは、1つのオーディオ文書に対する一意のそれぞれの識別子としてのみ使用される。一部の実施形態では、オーディオ文書の特徴情報は、オーディオ文書のオーディオフィンガープリントである。たとえば、オーディオ文書1の特徴情報は、オーディオ文書1のオーディオフィンガープリントであり、オーディオ文書2の特徴情報は、オーディオ文書2のオーディオフィンガープリントである。図1Cに示されている実施形態に記述したオーディオフィンガープリントを参照すると、事前確立されたデータベースに格納されている各オーディオ文書の特徴情報は、オーディオフィンガープリントの系列のそれぞれの集合である。したがって、TrackID-dによって識別されたオーディオ文書の1つのオーディオフィンガープリントアイテムは、(TimeOffest_i,hashcode_i)_pとして表すことができ、pは、フィンガープリントの系列の集合のフィンガープリントの系列のそれぞれのシリアル番号として機能し、iは、フィンガープリントの系列のフィンガープリントアイテムのそれぞれのシリアル番号として機能し、TimeOffest_iは、hashcode_iのそれぞれの時間オフセットとして機能し、フィンガープリントアイテムに現れる。一部の実施形態では、事前確立されたデータベースのクエリ効率を改善するために、ハッシュテーブルは、上述した事前確立されたデータベースの内容を逆に格納(reverse store)するために使用され得て、ハッシュテーブルの
構造は、以下のように示される。

Table I(表I)で、キー値は、フィンガープリントアイテムのhashcodeの値であり、値は、オーディオ文書の識別子(TrackID)、およびhashcode値の出現に関連付けられたTimeOffsetである。

このステップでは、上述した第1の特徴情報は、上述した事前確立されたデータベースの各特徴情報と比較され、実際に、第1の特徴情報の各フィンガープリントアイテムのhashcode値は、たとえば、上述したTable I(表I)に示されているハッシュテーブルなど、ハッシュテーブルの各キー値と比較される。

s1302、比較結果により、事前確立されたデータベースの各それぞれの特徴情報に対応するオーディオ文書のそれぞれの識別子に対して重み付け処理を実施する。

上述したステップs1301では、第1の特徴情報の各フィンガープリントアイテムのハッシュコード値をハッシュテーブルのキー値と比較する。たとえば、第1の特徴情報のフィンガープリントアイテムのハッシュコード値が0x0002であると仮定すると、ステップs1301で行われた比較を通じて、ハッシュテーブルでキー値0x0002の行を見つけられ得る。このステップでは、重み付け処理は、キー値0x0002を持つTrackIDのすべてに対して実施される。一部の実施形態では、このステップの重み付け処理は、行0x0002の各識別されたTrackIDに対して、TF(出現頻度:Term Frequency)-IDF(逆文書出現頻度:Inverse Document Frequency)に基づく重み付けを使用して実施され得る。このステップの後に、事前確立されたデータベースの各TrackIDには、対応する重みスコアが与えられ、最小の重みスコアは0である。一部の実施形態では、他の重み付け方法も使用され得る。

s1303、データベースのTrackIDに対して重みスコアを低下させる命令により、文書候補リストを構成するために事前確立されたデータベースから第2の事前設定された数のオーディオ文書のそれぞれの特徴情報を選択する。一部の実施形態では、TrackIDの重みスコアを低下させる命令により、重みスコアのすべての中で最高のR重みスコアを持つTrackIDによって識別されたオーディオ文書を選択し、文書候補からリストを構築するために、選択されたRオーディオ文書の特徴情報を使用する。一部の実施形態では、Rは、正の整数である。

s1304で、上述した第1の特徴情報と、上述した候補リストの各オーディオ文書のそれぞれの特徴情報との間の時間依存性を計算する。

上に説明したように、上述した第1の特徴情報は、M個のフィンガープリントの系列の集合であり、M個のフィンガープリントの系列の集合の所定のフィンガープリントアイテムは、(t_k,hashcode_k)_nとして表され得る。上述した候補リストには、R個の特徴情報が含まれており、R個の特徴情報の各特徴情報は、フィンガープリントの系列のそれぞれの集合として機能する。たとえば、上述した候補リストの特徴情報Aは、p個のフィンガープリントの系列から成る集合Aである。集合Aの所定のフィンガープリントアイテムは、(TimeOffest_i,hashchde1)_pとして表され得る。このステップでは、時間依存性を計算するプロセスは、以下を含むことができる:(1)式Δt=t_k-TimeOffest_iを使用することによって、第1の特徴情報に含まれているフィンガープリントアイテムと、上述した候補リストの各特徴情報に含まれているそれぞれのフィンガープリントアイテムとの間の時間差を順に計算すること。(2)候補リストに含まれている各特徴情報に対して、前述の各特徴情報に対して同じ時間差が発生する回数を計算すること。たとえば、上述した候補リストの特徴情報Aについて、ステップ(1)の計算結果に基づいて、計算は、Δt=20が20回発生し、Δt=30が40回発生し、Δt=35が50回発生することを示している。(3)上述した候補リストに含まれている各特徴情報について、上述した候補リストの前述の各特徴情報と、第1の特徴情報との間のそれぞれの時間依存性を表すために、ステップ(2)で取得された異なる数の中の最大数を選択すること。前述の実例により、候補リストの特徴情報Aと第1の特徴情報との間の時間依存性のメトリック値は、L=50である(つまり、20、40、および50の中で最大数)。

上記のステップ(1)〜(3)によると、候補リストのR特徴情報の各特徴情報と第1の特徴情報との間の時間依存性Lのメトリック値は、計算によって取得され得る。

s1305、上述した候補リストから上述した第1の特徴情報に一致する少なくとも1つの第2の特徴情報を選択し、上述した第2の特徴情報と上述した第1の特徴情報との間の時間依存性は、事前設定されたしきい値を超える。

一部の実施形態では、上述した候補リストは、時間依存性値を低下させることから命令により分類され、次いで、上述した第1の特徴情報に一致する少なくとも1つの第2の特徴情報は、上述した候補リストから選択され、上述した第2の特徴情報と上述した第1の特徴情報との間のそれぞれの時間依存性は、事前設定されたしきい値を超える。一部の実施形態では、事前設定されたしきい値は、現在の状況により設定される。候補リストの分類の後に、第1の特徴情報と候補リストのすべての特徴情報との間のそれぞれの時間依存性のいずれも、事前設定されたしきい値を超えない場合、上述した事前確立されたデータベースの第1の特徴情報に一致する特徴情報はなく、第1のオーディオ文書は認識され得ないと結論されることに注意するべきである。

一部の実施形態では、オーディオ認識の方法は、オーディオ認識要求を受信したときに、認識される第1のオーディオ文書は、自動的に収集され得ることを含む。認識される第1のオーディオ文書の基本的な情報を手作業で入力することは必要ではないため、これによりオーディオ認識のインテリジェントな機能が進歩する。さらに、方法は、上述した第1のオーディオ文書の第1の特徴情報を計算するステップと、第1の特徴情報に基づいて、事前確立されたデータベースから一致した第2のオーディオ文書の属性データを検索するステップと、ユーザに出力する上述した第1のオーディオ文書の認識結果として、上述した第2のオーディオ文書の属性データを取るステップとを含む。本発明の実施形態は、オーディオ認識のために特徴情報を使用する。オーディオ文書が識別されるときに、そのオーディオ文書の特徴情報も決定される。決定された特徴情報に基づいてオーディオ認識を実行することで、オーディオ認識の正確性が高まり、オーディオ認識のインテリジェントな機能も進歩する。

本発明の実施形態は、一種のオーディオ認識方式を提供し、これは、図1A〜図1Dに示された前述した実装例においてオーディオ認識方法のプロセスを実行するために使用される。上述したオーディオ認識方法には、様々な実現可能な実装モードがある。たとえば、第1の実現可能な実装モードでは、上述したオーディオ認識方式は、図1A〜図1Dに示された実施形態のプロセスのすべてを実行するために使用され得る、独立した統合されたデバイスによって実行され得る。オーディオ認識処理を実現するために、一部の実施形態では、上述したオーディオ認識デバイスは、クライアント端末またはサーバデバイスの場合がある。

第2の実現可能な実装モードでは、上述したオーディオ認識方法は、第1の分散されたデバイスおよび第2の分散されたデバイスによってともに実行され得る。第1の分散されたデバイスおよび第2の分散されたデバイスは、オーディオ認識処理を実現するために、図1A〜図1Dに示された実施形態のプロセスのすべてを実行するように協働する。一部の実施形態では、上述した第1の分散されたデバイスは、クライアント端末の場合があり、上述した第2の分散されたデバイスは、サーバの場合がある。当業者は理解されるであろうように、第1の分散されたデバイスおよび第2の分散されたデバイスを含む上述したオーディオ認識方式が使用される場合、第1の分散されたデバイスおよび第2の分散されたデバイスは、協働的な動作の効率および速度を改善するために、協働プロセスの間に転送されたデータサイズを低減するために、たとえばデータに対する圧縮処理を実施するなど、協働プロセスの間に、何らかの技術的な処理の処置を利用することができる。

図1Eに図示したように、クライアントデバイスは、一部の実施形態により、適宜、オーディオ認識の間に、ステップ120〜134の1つまたは複数を持つプロセスを実行する。図1Eのステップの詳細については、図1A〜図1Dおよびそれに伴う記述に関して上に提供されている。

一部の実施形態では、クライアントデバイス(120)は、オーディオ認識要求に応じて認識される第1のオーディオ文書を収集する。次に、クライアントデバイスは、前述した第1のオーディオ文書に対する第1の事前設定された数の位相チャネルを生成するために、上述した第1のオーディオ文書に対する時間周波数分析を実施するステップ(124)と、第1の事前設定された数の位相チャネルの各位相チャネルから少なくとも1つのピーク値特徴点を抽出するステップであって(126)、各位相チャネルの少なくとも1つのピーク値特徴点は、前述の各位相チャネルのピーク値特徴点の系列を構成するステップとを含む、第1のオーディオ文書の第1の特徴情報の計算を開始する(122)。次に、クライアントデバイスは、第1の事前設定された数の位相チャネルのそれぞれのピーク値特徴点の系列をサーバに送信する(128)。一部の実施形態では、クライアントデバイスは、送信するステップの前に、それぞれのピーク値特徴点の系列に対するそれぞれの時間値で第1のタイプの圧縮およびそれぞれのピーク値特徴点の系列に対するそれぞれの周波数値で第2のタイプの圧縮を実行する(130)。一部の実施形態では、第1のタイプの圧縮は、シンプル圧縮であり、および第2のタイプの圧縮は、固定されたビットの圧縮である。クライアントデバイスは、サーバから認識結果を受信し、サーバは、第1の事前設定された数の位相チャネルの受信されたそれぞれのピーク値特徴点の系列に基づいて、第1の特徴情報の計算を完了し、計算された第1の特徴情報に基づいて認識を実行する。クライアントデバイスは、サーバから認識結果を受信し(132)、ユーザに結果を提示する(134)。

図1Fに図示したように、サーバは、一部の実施形態により、適宜、既知のオーディオ文書の事前確立されたデータベースの準備、およびオーディオ認識の実行の間に、ステップ140〜152の1つまたは複数を持つプロセスを実行する。図1Fのステップの詳細については、図1A〜図1Dおよびそれに伴う記述に関して上に提供されている。

図1Fに図示したように、一部の実施形態では、サーバは、複数の既知のオーディオ文書のデータベースを事前確立し(140)、各既知のオーディオ文書は、それぞれの一意のトラック識別子(たとえばTrackID)を持っている。一部の実施形態では、データベースを事前確立するために、サーバは、複数の既知のオーディオ文書の各々に対するそれぞれの特徴情報を計算する(142)。一部の実施形態では、複数の既知のオーディオ文書の各々に対するそれぞれの特徴情報を計算する方法は、第1のオーディオ文書の第1の特徴情報の計算に関して上に記述したものと同じである。一部の実施形態では、各既知のオーディオ文書のそれぞれの特徴情報は、前述の各既知のオーディオ文書に対するオーディオフィンガープリントの系列のそれぞれの集合を含み、前述の各既知のオーディオ文書に対するオーディオフィンガープリントの系列のそれぞれの集合の各々は、それぞれのハッシュコードを持っている。サーバは、それぞれのハッシュコードにより、ハッシュテーブルに複数の既知のオーディオ文書に対するオーディオフィンガープリントの系列のそれぞれの集合を格納する(144)。次のオーディオ認識の間に、サーバは、クライアントデバイスから認識される第1のオーディオ文書に対する第1の事前設定された数の位相チャネルのそれぞれのピーク値特徴点の系列を受信する(146)。一部の実施形態では、サーバは、それぞれのピーク値特徴点の系列に対するそれぞれの時間値での第1のタイプの伸張およびクライアントデバイスから受信されたそれぞれのピーク値特徴点の系列に対するそれぞれの周波数値での第2のタイプの伸張を実行する(148)。次に、サーバは、第1のオーディオ文書に対して前述の各位相チャネルのピーク値特性点のペアの系列を形成するために、第1のオーディオ文書の上述した位相チャネルの各々のピーク値特性点の系列において各ピーク値特性点に対してペアリング処理を実行する(150)。次に、サーバは、第1のオーディオ文書の上述した位相チャネルの各々に対応するそれぞれのオーディオフィンガープリントの系列を取得するために、第1のオーディオ文書の各位相チャネルにおいて上述したピーク値特性点のペアの系列の各々に対するハッシュ計算を実施し(152)、第1の事前設定された数の位相チャネルに対応するオーディオフィン
ガープリントの系列は、上述した第1のオーディオ文書の第1の特徴情報をともに構成する。次に、サーバは、事前確立されたデータベースから第1の特徴情報に一致する少なくとも1つの第2の特徴情報を検索および取得する。次に、サーバは、上述した少なくとも1つの第2の特徴情報で第2の特徴情報の各々に対応する第2のオーディオ文書の属性データを取得する。次に、サーバは、クライアントデバイスに送信する前述した第1のオーディオ文書の認識結果として、上述した第2のオーディオ文書の属性データを取る。

以下に、図2A〜図2Dに基づいて、一部の実施形態によるオーディオ認識デバイスについて詳細に説明する。以下のオーディオ認識デバイスは、上記のオーディオ認識方法で適用され得る。

図2Aを参照すると、それは一部の実施形態によるオーディオ認識デバイスの構造的な概略図であり、このデバイスは、収集モジュール101Mと、計算モジュール102Mと、認識モジュール103Mと、取得モジュール104Mと、結果出力モジュール105Mとを含むことができる。

オーディオ認識要求を受信するときに認識される第1のオーディオ文書を収集するように構成された収集モジュール101M。

一部の実施形態では、第1のオーディオ文書は、映画のオーディオセグメント、テレビドラマのオーディオセグメント、テレビプログラムのオーディオセグメント、音楽ラジオ放送局によってブロードキャストされたオーディオデータ、人間によって伝達されたオーディオデータ(口ずさまれた音楽または歌のセグメント)などの1つである。ユーザが、歌の名前、歌手、アルバムの名前、およびオーディオ文書の歌詞など、未知のオーディオ文書の情報を知りたい場合、彼または彼女は、オーディオクエリ要求を開始することができる。ユーザによって送信されたオーディオ認識要求を受信するときに、収集モジュール101Mは、認識される第1のオーディオ文書を収集する。一部の実施形態では、収集モジュール101Mは、適宜、以下の2つの実装モードを含むことができる。

第1の実装モードでは、ユーザによって送信されたオーディオクエリ要求を受信するときに、収集モジュール101Mは、リアルタイムにユーザによって認識されることが要求される第1のオーディオ文書を記録するために記録機能を開始することができる。

第2の実装モードでは、ユーザによって送信されたオーディオクエリ要求を受信するときに、収集モジュール101Mは、ユーザによって認識およびアップロードされることが要求される第1のオーディオ文書を受信することができる。

第1のオーディオ文書の第1の特徴情報を計算するように構成された計算モジュール102M。

一部の実施形態では、第1のオーディオ文書の第1の特徴情報は、第1のオーディオ文書のオーディオフィンガープリントである。一部の実施形態では、第1のオーディオ文書のオーディオフィンガープリントは、第1のオーディオ文書の重要な音響の特性を表し、第1のオーディオ文書の内容に基づく、コンパクトなデジタル署名を表している。第1のオーディオ文書の第1の特徴情報を取得するために、収集された第1のオーディオ文書のデジタル版が計算において計算モジュール102Mによって使用される。

事前確立されたデータベースから第1の特徴情報に一致する少なくとも1つの第2の特徴情報を検索および取得するように構成された認識モジュール103M。

一部の実施形態では、オーディオ文書の特徴情報は、オーディオ文書のオーディオフィンガープリントである。たとえば、オーディオ文書1の特徴情報は、オーディオ文書1のオーディオフィンガープリントであり、オーディオ文書2の特徴情報は、オーディオ文書2のオーディオフィンガープリントである。一部の実施形態では、オーディオ文書の属性データは、限定しないが、オーディオ文書の名前と、オーディオ文書のアルバム情報と、オーディオ文書のURLアドレスと、オーディオ文書の歌詞とのデータの少なくとも1つを含む。一部の実施形態では、第1の特徴情報に一致する第2の特徴情報は、第2の特徴情報が第1の特徴情報と同一であることを意味する。一部の実施形態では、第1の特徴情報に一致する第2の特徴情報は、第2の特徴情報と第1の特徴情報との間の類似性の程度は、事前設定された類似性の程度に到達することを意味する。たとえば、事前設定された類似性の程度が90%である場合、および第2の特徴情報と第1の特徴情報との間の類似性の程度が、90%到達するか、または90%を超える場合、第2の特徴情報は、たとえば認識モジュール103Mによって、第1の特徴情報に一致すると考えられる。

上述した少なくとも1つの第2の特徴情報で第2の特徴情報の各々に対応する第2のオーディオ文書の属性データを取得するように構成された取得モジュール104M。

上述した認識モジュール103Mは、事前確立されたデータベースから第1の特徴情報に一致する少なくとも1つの第2の特徴情報を探し出す。一部の実施形態では、上述した少なくとも1つの第2の特徴情報の各特徴情報は、それぞれの第2のオーディオ文書に対応する。上述した認識モジュール103Mによって、第1のオーディオ文書に一致する少なくとも1つの第2のオーディオ文書が認識され、これは、この第1のオーディオ文書が、認識された1つまたは複数の第2のオーディオ文書の1つの場合があるか、またはこの第1のオーディオ文書は、認識された第2のオーディオ文書の少なくとも1つのオーディオセグメントの場合があることを示している。取得モジュール104Mによって第1のオーディオ文書に一致する認識された少なくとも1つの第2のオーディオ文書の属性データが取得される。

出力する前述した第1のオーディオ文書の認識結果として、上述した第2のオーディオ文書の属性データを取るように構成された結果出力モジュール105M。たとえば、一部の実施形態では、サーバは、オーディオ認識要求の結果として、クライアントデバイスに上述した第2のオーディオ文書の属性データを提供する。

一部の実施形態では、結果出力モジュール105Mは、第1のオーディオ文書の認識結果として、取得モジュール104Mによって取得された少なくとも1つの第2のオーディオ文書のすべてのオーディオ文書の属性データを使用し、ユーザにそれらをすべて出力することができる。一部の実施形態では、結果出力モジュール105Mは、また、取得モジュール104Mによって取得された少なくとも1つのオーディオ文書からオーディオ文書の一部のみ選択し、上述した第1のオーディオ文書の認識結果として、選択されたオーディオ文書の属性データを出力することができる。上述した認識結果により、ユーザは、クエリ要求の対象である第1のオーディオ文書の属性データを知ることができる。たとえば、ユーザは、歌の名前、その歌手、そのアルバムの名前、その歌詞など、第1のオーディオ文書の属性データを知ることができる。

一部の実施形態では、オーディオ認識の方法は、オーディオ認識要求を受信するときに、認識される第1のオーディオ文書は、自動的に収集され得ることを含む。ユーザは、認識される第1のオーディオ文書の基本的な情報を手作業で入力する必要がなく、これによりオーディオ認識のインテリジェントな機能が進歩する。さらに、オーディオ認識の方法は、上述した第1のオーディオ文書の第1の特徴情報を計算するステップと、事前確立されたデータベースで上述した第1の特徴情報に一致する少なくとも1つの第2の特徴情報を検索および取得するステップと、第1の特徴情報に基づいて、事前設定されたデータベースから一致した第2のオーディオ文書の属性データを取得するステップと、出力する上述した第1のオーディオ文書の認識結果として、上述した第2のオーディオ文書の属性データを取るステップとを含む。本発明の実施形態は、オーディオ認識のための特徴情報に基づき、オーディオ文書が決定されるときに、そのオーディオ文書の特徴情報も決定される。決定された特徴情報に基づいてオーディオ認識を実行することで、オーディオ認識の正確性が高まり、オーディオ認識のインテリジェントな機能も進歩する。

以下に、図2Aに示されたオーディオ認識デバイスの各モジュールについて、より詳細に説明する。

図2Bを参照すると、それは図2Aに示された計算モジュールの構造的な概略図である。一部の実施形態では、この計算モジュール102Mは、時間周波数分析ユニット1201Mと、特徴抽出ユニット1202Mと、ペアリング処理ユニット1203Mと、計算ユニット1204Mとを含むことができる。

上述した第1のオーディオ文書に対する第1の事前設定された数の位相チャネルを生成するために、記述した第1のオーディオ文書に対する時間周波数分析を実施するように構成された時間周波数分析ユニット1201M。

事前設定された数の位相チャネルの各位相チャネルから少なくとも1つのピーク値特性点を抽出するように構成された特徴抽出ユニット1202Mであって、前述の各位相チャネルの少なくとも1つのピーク値特性点は、前述の各位相チャネルのピーク値特性点の系列を形成する。

上記のように、M個の位相チャネルでは、各位相チャネルは、それぞれの時間周波数サブグラフに対応する。このステップでは、一部の実施形態では、各位相チャネルのピーク値特性点を抽出するためのプロセスは、以下を含む:1)前述の各位相チャネルに対応するそれぞれの時間周波数サブグラフで、各特性点のエネルギ値を分析する。2)各特性点のエネルギ値により、ピーク値特性点として所与の矩形の近傍内で最大のエネルギ値を持つ特性点を選択する。上述したステップ1)および2)により、少なくとも1つのピーク値特性点は、各位相チャネルに対して抽出され得る。

一部の実施形態では、矩形の近傍のサイズパラメータは、実際の必要性により設定される。たとえば、一部の実施形態では、矩形の近傍のサイズを設定するためのプロセスは、時間周波数サブグラフの特性点の総数、時間周波数サブグラフの特性点の分布状態などを含む要因の1つまたは複数を考慮に入れる。一部の実施形態では、M個の位相チャネルでは、少なくとも1点のピーク値特性点が各位相チャネルに対して抽出される。各位相チャネルの少なくとも1つのピーク値特性点は、前述の各位相チャネルに対してそれぞれのピーク値特性点の系列を構成するために分類される。具体的には、一部の実施形態では、各位相チャネルの少なくとも1つのピーク値特性点は、第1から最後のピーク値特性点への時系列により分類される。同じ時点に現れたピーク値特性点について、一部の実施形態では、ピーク値特性点は、最高周波数から最低周波数への周波数により、適宜、分類される。

前述の各位相チャネルのピーク値特性点のペアリング系列(言い換えると、ピーク値特性点のペアから成る系列)を形成するために、上述した位相チャネルの各々のピーク値特性点の系列において各ピーク値特性点に対してペアリング処理を実行するように構成されたペアリング処理ユニット1203M。

一部の実施形態では、Sⁿ(t_k、f_k)は、任意の位相チャネルnのピーク値特性点の系列において任意のピーク値特性点kを示すために使用され、nは、それぞれの位相チャネルのシリアル番号またはそれぞれの時間周波数サブグラフのシリアル番号を表し、0<n≦Mであり、kは、ピーク値特性点の系列においてそれぞれのピーク値特性点のシリアル番号を表し、kは正の整数であり、t_kは、ピーク値特性点kが、時間周波数サブグラフnに現れるときに対する時間値を表し、f_kは、時間周波数サブグラフnにおいてピーク値特性点kの周波数値を表している。

一部の実施形態では、各位相チャネルのピーク値特性点の系列において各ピーク値特性点のペアリング処理のプロセスは、以下を含む:(1)各位相チャネルに対応する時間周波数サブグラフでは、矩形のターゲット領域を選択するために、アンカポイントとして前述の各位相チャネルのピーク値特性点の系列で各ピーク値特性点を取ること。任意の時間周波数サブグラフの任意のピーク値特性点Sⁿ(t_k、f_k)に対して、上述の矩形の領域は下記の条件を満たす。

t_start≦t_k≦t_endおよびf_start≦f_k≦f_end

(2)アンカポイントとペアリングするために、矩形のターゲット領域でアンカポイント以外にピーク値特性点を選択すること。アンカポイント、およびアンカポイントとペアリングするために選択されたピーク値特性点は、ピーク値特性点のペアを構成する。一部の実施形態では、アンカポイントとペアリングするためにピーク値特性点を選択するための原理は、その起点が、アンカポイントとペアリングするためのアンカポイントの起点の最小の時間差を持つピーク値特性点を選択すること、または矩形のターゲット領域内に、アンカポイント以外に、最大のエネルギ値を持つピーク値特性点を選択することを含む。

上述した処理ステップ(1)および(2)を通じて、各ピーク値特性点Sⁿ(t_k,f_k)には、ペアで一致するピーク値特性点Sⁿ(t_b,f_b)が提供される。一部の実施形態では、nは、位相チャネルのシリアル番号または時間周波数サブグラフのシリアル番号を表しており、0<n≦Mであり、bは、ピーク値特性点の系列nの一致するピーク値特性点のシリアル番号を表し、bは、正の整数であり、t_bは、一致するピーク値特性点が時間周波数サブグラフnに現れる時間を表し、f_bは、一致するピーク値特性点の周波数を表している。一部の実施形態では、クオドラプル(t_k、f_k、Δf_k、Δt_k)_nは、所定の位相チャネルnのピーク値特性点のペアの系列においてピーク値特性点kの所定のペアを表すために使用され、nは、位相チャネルのシリアル番号または時間周波数サブグラフのシリアル番号を表し、Δt_kは、ピーク値特性点のペアの2つのピーク値特性点間の異なる時間を表し、Δt_k=t_b-t_k、Δf_kは、ピーク値特性点のペアの2つのピーク値特性点間の周波数差を表す、Δf_k=f_b-f_k。

ペアリング処理モジュール1203Mは、M個のピーク値特性点のペアの系列を形成するために、M個のピーク値特性点の系列において各ピーク値特性点の一致が実施されることを可能にする。たとえば、M個の位相チャネルでは、位相チャネル1は、ピーク値特性点のペアの系列1に対応し、位相チャネル2は、ピーク値特性点のペアの系列2に対応し、同様に、位相チャネルMは、ピーク値特性点のペアの系列Mに対応する。

上述した位相チャネルの各々に対応するそれぞれのオーディオフィンガープリントの系列を取得するために、各位相チャネルにおいて上述したピーク値特性点のペアの系列の各々に対してハッシュ計算を実施するように構成された計算ユニット1204Mであって、第1の事前設定された数の位相チャネルに対応するオーディオフィンガープリントの系列の集合は、上述した第1のオーディオ文書の第1の特徴情報を構成する。

上記のように、クオドラプル(t_k、f_k、Δf_k、Δt_k)_nは、所定の位相チャネルnのピーク値特性点のペアの系列において所定のピーク値特性点のペアkを表すために使用される。クオドラプルのパラメータは、以下のように理解され得る:(f_k、Δf_k、Δt_k)は、ピーク値特性点のペアの特徴部分を表し、t_kは、特徴部分(f_k、Δf_k、Δt_k)が発生する時間を表している。このステップでは、特徴部分(f_k、Δf_k、Δt_k)に対するハッシュ計算が実施され、特徴部分(f_k、Δf_k、Δt_k)は、したがって、固定数のビットを用いてhashcodeによって表される。具体的には、hashcode_k=H(f_k,Δf_k,Δt_k)である。計算モジュール1204Mの計算を通じて、任意の位相チャネルのピーク値特性点のペアの系列におけるピーク値特性点のペアの任意のペアは、(t_k、hashcode_k)_nとして表すことができ、nは、位相チャネルのそれぞれのシリアル番号または時間周波数サブグラフのそれぞれのシリアル番号を表し、t_kは、hashcode_kが現れる時間を表し、(t_k,hashcode_k)_nは、オーディオフィンガープリントアイテムとして機能し、それぞれのピーク値特性点のペアを表す。

計算モジュール1204Mの計算を通じて、M個のピーク値特性点のペアの系列で、各ピーク値特性点のペアの系列の各ピーク値特性点のペアは、それぞれのオーディオフィンガープリントアイテムによって表され得て、各ピーク値特性点のペアの系列は、オーディオフィンガープリントの系列に対応し、M個のピーク値特性点のペアの系列は、M個のオーディオフィンガープリントの系列に対応する。たとえば、ピーク値特性点のペアの系列1は、オーディオフィンガープリントの系列1に対応し、ピーク値特性点のペアの系列2は、オーディオフィンガープリントの系列2に対応し、同様に、ピーク値特性点のペアの系列Mは、オーディオフィンガープリントの系列Mに対応する。M個のオーディオフィンガープリントの系列の集合は、上述した第1のオーディオ文書の第1の特徴情報をともに構成する。すなわち、第1のオーディオ文書の第1の特徴情報は、M個のオーディオフィンガープリントの系列の集合として表され得る。

図2Cを参照すると、これは図2Bに示された時間周波数分析ユニットの構造的な概略図である。この時間周波数分析ユニット1201Mは、フレーミング処理サブユニット1211Mと、変換サブユニット1212Mと、振幅抽出サブユニット1213Mと、描画サブユニット1214Mと、分離サブユニット1215Mとを含むことができる。

オーディオ信号の複数のフレームを形成するために、上述した第1のオーディオ文書に対する時間領域フレーム分割処理を実施するように構成されたフレーミング処理サブユニット1211M。

フレーミング処理サブユニット1211Mは、フレーム分割のパラメータとして窓関数を取り、オーディオ信号の複数のフレームを形成するために、収集された第1のオーディオ文書に対して時間領域フレーム分割処理を実施する。一部の実施形態では、窓関数は、ハミング窓関数、ハニング窓関数、ガウス窓関数、または他の一般的な窓関数である。

オーディオ信号の前述の各フレームのそれぞれの周波数スペクトルを取得するために、オーディオ信号の各フレームに対してSTFT変換を実施するように構成された変換サブユニット1212M。

オーディオ信号の上述したフレームの各々のそれぞれの周波数スペクトルに対応する振幅スペクトルを抽出するように構成された振幅抽出サブユニット1213M。

時間、周波数スペクトル、およびオーディオ信号の上述したフレームの各1つの振幅スペクトルに基づいて、上述した第1のオーディオ文書の時間周波数グラフを描写するように構成された描写サブユニット1214M。このステップでは、オーディオ信号の各フレームの時系列により、オーディオ信号の各フレームの周波数スペクトルおよび振幅スペクトルが順に描かれて、第1のオーディオ文書の2次元の時間周波数グラフを形成する。

事前設定された数の時間周波数サブグラフを生成するために、時間のモジュロを取ることによって、上述した第1のオーディオ文書の時間周波数グラフを分割するように構成された分離サブユニット1215Mであって、現在の数の時間周波数サブグラフの各々は、上述した第1のオーディオ文書のそれぞれの位相チャネルに対応する。

一部の実施形態では、第1の事前設定された数は、Mとして表され、Mは、正の整数である。分離サブユニット1215Mは、Mを法とする時間tにより第1のオーディオ文書の時間周波数グラフ分割し、M個の時間周波数サブグラフを生成する。一部の実施形態では、特定の分割プロセスは以下のとおりである:(1)2次元の時間周波数グラフで各時間t=0、M、2M…xMに対応するそれぞれの特性点をそれぞれ選択し、選択された特性点は、時間周波数サブグラフ1を構成する。2次元の時間周波数グラフで各時間t=1、1+M、1+2M…1+xMに対応するそれぞれの特性点をそれぞれ選択し、選択された特性点は、時間周波数サブグラフ2を構成する。同様に、2次元の時間周波数グラフで各時間t=M-1、(M-1)+M…(M-1)+xMに対応するそれぞれの特性点をそれぞれ選択し、選択された特性点は、時間周波数サブグラフMを構成する。一部の実施形態では、xは、正の整数であり、0<(M-1)+xM≦t_maxであり、t_maxは、2次元の時間周波数グラフの最大の時間点である。一部の実施形態では、各時間周波数サブグラフは、第1のオーディオ文書のそれぞれの位相チャネルに対応し、M個の時間周波数サブグラフは、第1のオーディオ文書のM位相チャネルに対応する。たとえば、時間周波数サブグラフ1は、位相チャネル1に対応し、時間周波数サブグラフ2は、位相チャネル2に対応し、同様に、時間周波数サブグラフMは、位相チャネルMに対応する。

図2Dを参照すると、これは図2Aに示された認識モジュールの構造的な概略図である。この認識モジュール103Mは、一部の実施形態により、特徴比較ユニット1301Mと、重み付け処理ユニット1302Mと、候補リスト生成ユニット1303Mと、依存関係計算ユニット1304Mと、一致ユニット1305Mとを含むことができる。

上述した第1の特徴情報を上述した事前確立されたデータベースに格納された各特徴情報と比較するように構成された特徴比較ユニット1301M。

一部の実施形態では、事前確立されたデータベースは、少なくとも1つのオーディオ文書のそれぞれの識別子と、少なくとも1つのオーディオ文書のそれぞれの特徴情報と、少なくとも1つのオーディオ文書のそれぞれの属性データとを格納する。一部の実施形態では、各オーディオ文書の属性データは、オーディオ文書の名前と、オーディオ文書のアルバム情報と、オーディオ文書のURLアドレスと、オーディオ文書の歌詞とのデータの少なくとも1つを含む。一部の実施形態では、各オーディオ文書のそれぞれの識別子は、それぞれのTrackIDによって表され得る。たとえば、オーディオ文書1のそれぞれの識別子は、TrackID-1として表され得て、オーディオ文書2のそれぞれの識別子は、TrackID-2として表され得る。一部の実施形態では、各一意のTrackIDは、1つのオーディオ文書に対する一意のそれぞれの識別子としてのみ使用される。一部の実施形態では、オーディオ文書の特徴情報は、オーディオ文書のオーディオフィンガープリントである。たとえば、オーディオ文書1の特徴情報は、オーディオ文書1のオーディオフィンガープリントであり、オーディオ文書2の特徴情報は、オーディオ文書2のオーディオフィンガープリントである。図1Cに示されている実施形態に記述したオーディオフィンガープリントを参照すると、事前確立されたデータベースに格納された各オーディオ文書の特徴情報は、オーディオフィンガープリントの系列のそれぞれの集合である。したがって、TrackID-dによって識別されたオーディオ文書の1つのオーディオフィンガープリントアイテムは、(TimeOffest_i,hashcode_i)_pとして表すことができ、pは、フィンガープリントの系列の集合のフィンガープリントの系列のそれぞれのシリアル番号として機能し、iは、フィンガープリントの系列のフィンガープリントアイテムのそれぞれのシリアル番号として機能し、TimeOffest_iは、hashcode_iのそれぞれの時間オフセットとして機能し、フィンガープリントアイテムに現れる。一部の実施形態では、事前確立されたデータベースのクエリ効率を改善するために、ハッシュテーブルは、上述した事前確立されたデータベースの内容を逆に格納するために使用され得て、ハッシュテーブルの構造は上記のTable I(表I)
に示されている。

特徴比較ユニット1301Mは、上述した第1の特徴情報を上述した事前確立されたデータベースの各特徴情報と比較する。実際、それは第1の特徴情報の各フィンガープリントアイテムのhashcode値を、たとえば、上述したTable I(表I)に示されているハッシュテーブルなど、ハッシュテーブルの各キー値と比較する。

比較結果により、事前確立されたデータベースの各特徴情報に対応するオーディオ文書のそれぞれの識別子に対して重み付け処理を実施するように構成された重み付け処理ユニット1302M。

上述した特徴比較ユニット1301Mは、第1の特徴情報の各フィンガープリントアイテムのハッシュコード値をハッシュテーブルのキー値と比較する。たとえば、第1の特徴情報のフィンガープリントアイテムのハッシュコード値が0x0002であると仮定すると、特徴比較ユニット1301Mで行われた比較を通じて、ハッシュテーブルでキー値0x0002の行を見つけられ得る。重み付け処理は、0x0002のキー値を持つTrackIDのすべてに対して重み付け処理ユニット1302Mによって実施される。一部の実施形態では、重み付け処理ユニット1302Mによる重み付け処理は、行0x0002の各識別されたTrackIDに対して、TF(出現頻度)-IDF(逆文書出現頻度)に基づく重み付けを使用して実施され得る。重み付け処理の後に、事前確立されたデータベースの各TrackIDには、対応する重みスコアが与えられ、最低の重みスコアは0である。一部の実施形態では、他の重み付け方法も使用され得る。

TrackIDに対する重みスコアを低下させる命令により、文書候補リストを構成するために事前確立されたデータベースから第2の事前設定された数オーディオ文書のそれぞれの特徴情報を選択するように構成された候補リスト生成ユニット1303M。一部の実施形態では、TrackIDの重みスコアを低下させる命令により、候補リスト生成ユニット1303Mは、重みスコアのすべての中で最高のR重みスコアを持つTrackIDによって識別されたオーディオ文書を選択し、文書候補からリストを構築するために、選択されたRオーディオ文書の特徴情報を使用する。一部の実施形態では、Rは、正の整数である。

上述した第1の特徴情報と、上述した候補リストの各オーディオ文書のそれぞれの特徴情報との間の時間依存性を計算するように構成された依存関係計算ユニット1304M。

上に説明したように、上述した第1の特徴情報は、M個のフィンガープリントの系列の集合であり、M個のフィンガープリントの系列の集合の所定のフィンガープリントアイテムを(t_k,hashcode_k)_nとして表され得る。上述した候補リストには、R個の特徴情報が含まれており、R個の特徴情報の各特徴情報は、フィンガープリントの系列のそれぞれの集合として機能する。たとえば、上述した候補リストの特徴情報Aは、p個のフィンガープリントの系列から成る集合Aである。集合Aの所定のフィンガープリントアイテムは、(TimeOffest_i,hashcode_i)_pとして表され得る。時間依存性を計算するプロセスは、以下を含むことができる:(1)式Δt=t_k-TimeOffest_iを使用することによって、第1の特徴情報に含まれているフィンガープリントアイテムと、上述した候補リストの各特徴情報に含まれているそれぞれのフィンガープリントアイテムとの間の時間差を順に計算すること。(2)候補リストに含まれている各特徴情報に対して、前述の各特徴情報に対して同じ時間差が発生する回数を計算すること。たとえば、上述した候補リストの特徴情報Aについて、ステップ(1)の計算結果に基づいて、計算は、Δt=20が20回発生し、Δt=30が40回発生し、Δt=35が50回発生することを示している。(3)上述した候補リストに含まれている各特徴情報について、上述した候補リストの前述の各特徴情報と、第1の特徴情報との間のそれぞれの時間依存性を表すために、ステップ(2)で取得された異なる数の中の最大数を選択すること。前述の実例により、候補リストの特徴情報Aと第1の特徴情報との間の時間依存性のメトリック値は、L=50である(つまり、20、40、および50の中で最大数)。

上述した候補リストからの上述の第1の特徴情報に一致する少なくとも1つの第2の特徴情報を選択するように構成された一致ユニット1305Mであって、上述した第2の特徴情報と上述した第1の特徴情報との間の時間依存性は、事前設定されたしきい値を超える。

一部の実施形態では、上述した候補リストは、時間依存性値を低下させることから命令により分類され、次いで、上述した第1の特徴情報に一致する少なくとも1つの第2の特徴情報は、上述した候補リストから選択され、上述した第2の特徴情報と上述した第1の特徴情報との間のそれぞれの時間依存性は、事前設定されたしきい値を超える。一部の実施形態では、事前設定されたしきい値は、現在の状況により設定される。候補リストの分類の後に、第1の特徴情報と候補リストのすべての特徴情報との間のそれぞれの時間依存性のいずれも、事前設定されたしきい値を超えない場合、上述した事前確立されたデータベースに第1の特徴情報に一致する特徴情報はなく、第1のオーディオ文書は認識され得ないと結論されることに注意するべきである。

図2A〜図2Dに示された実施形態では、前述したオーディオ認識デバイスの第1の実現可能な実装モードでは、前述した収集モジュール101Mと、前述した計算モジュール102Mと、前述した認識モジュール103Mと、前述した取得モジュール104Mと、前述した結果出力モジュール105Mとは、前述したオーディオ認識デバイスを構成するために同じデバイスに統合され得る。

前述したオーディオ認識デバイスの第2の実現可能な実装モードでは、前述した収集モジュール101Mは、第1の分散されたデバイスに位置され得て、前述した計算モジュール102Mと、前述した認識モジュール103Mと、前述した取得モジュール104Mと、前述した結果出力モジュール105Mとは、第2の分散されたデバイスに位置され得て、第1の分布デバイスおよび第2の分布デバイスは、前述したオーディオ認識デバイスを共通して構成するか、または前述した収集モジュール101M、前述した計算モジュール102Mは、第1の分散されたデバイスに位置され得て、前述した認識モジュール103Mと、前述した取得モジュール104Mと、前述した結果出力モジュール105Mとは、第2の分散されたデバイスに位置され得て、第1の分散されたデバイスおよび第2の分散されたデバイスは、前述したオーディオ認識デバイスを共通して構成するか、または前述した収集モジュール101Mと、時間周波数分析ユニット1201Mと、前述した計算モジュール102Mの特徴抽出ユニット1202Mとは、第1の分散されたデバイスに位置され得て、前述した計算モジュール102Mのペアリング処理ユニット1203Mおよび計算ユニット1204Mと、前述した認識モジュール103Mと、前述した取得モジュール104Mと、前述した結果出力モジュール105Mとは、第2の分散されたデバイスに位置され得て、第1の分散されたデバイスおよび第2の分散されたデバイスは、オーディオ認識デバイスを共通して構成する。

図3Aは、一部の実施形態により上に記述しオーディオ認識処理に関与する代表的なクライアントデバイス300aを示すブロック図である。一部の実施形態では、クライアントデバイス300aは、1つまたは複数のプロセッサ302aと、1つまたは複数のプロセッサ302aによって実行するためにプログラムおよび命令を格納するためのメモリ304aと、入力/出力インターフェース306aおよびネットワークインターフェース308aなど1つまたは複数の通信用インターフェースと、これらの構成要素を相互に連結させるための1つまたは複数の通信バス310aとを含む。

一部の実施形態では、入力/出力インターフェース306aは、ディスプレイ、およびキーボード、マウス、またはトラックパッドなどの入力デバイスを含む。一部の実施形態では、通信バス310aは、システム構成要素間の通信を相互に連結させて制御する回路(チップセットとも呼ぶ)を含む。一部の実施形態では、メモリ304aは、DRAM、SRAM、DDR RAM（登録商標）、または他のランダムアクセスソリッドステートメモリデバイスなど、高速ランダムアクセスメモリを含み、適宜、1つまたは複数の磁気ディスク記憶デバイス、光学ディスク記憶デバイス、フラッシュメモリデバイス、または他の不揮発性のソリッドステート記憶デバイスなどの不揮発性メモリを含む。一部の実施形態では、メモリ304aは、1つまたは複数のプロセッサ302aからリモートに位置する1つまたは複数の記憶デバイスを含む。一部の実施形態では、メモリ304a、あるいはメモリ304a内の不揮発性メモリデバイスは、非一時的コンピュータ可読記憶媒体を含む。

一部の実施形態では、メモリ304a、あるいはメモリ304aの非一時的コンピュータ可読記憶媒体は、以下のプログラム、モジュールおよびデータ構造、命令、またはそのサブセットを格納する:様々な基本的なシステムサービスを処理するため、およびハードウェア依存タスクを実行するための手順を含むオペレーティングシステム312a、1つまたは複数の入出力デバイスを通じて様々な基本的な入力および出力機能を処理するための手順を含むI/Oモジュール314a、インターネット、他のワイドエリアネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなど、1つまたは複数のネットワーク通信インターフェース308a(有線または無線)および1つまたは複数の通信ネットワークを介して、他のマシン(たとえばサーバ300b)と通信するために使用される通信モジュール316a、およびオーディオ認識の様々な機能を制御するための動作制御モジュール318a。

一部の実施形態では、動作制御モジュール318aは、以下のサブモジュール、またはそのサブセットもしくはスーパーセットをさらに含む:収集モジュール320、時間周波数分析モジュール322、特徴抽出モジュール324、圧縮モジュール326、送信モジュール328、受信モジュール330、結果提示モジュール332。一部の実施形態では、動作制御モジュール318aは、適宜、本明細書に記述した他の関係する機能を提供するために、1つまたは複数の他のモジュールを含む。動作制御モジュール318aのサブモジュールおよびデータ構造の構造、機能、および対話の詳細については、図1A〜図2Dおよびそれに伴う記述に関して上に提供されている。

図3Bは、一部の実施形態による上に記述しオーディオ認識処理に関与する代表的なサーバデバイス300bを示すブロック図である。一部の実施形態では、クライアントデバイス300bは、1つまたは複数のプロセッサ302b、1つまたは複数のプロセッサ302bによって実行するためのプログラムおよび命令を格納するためのメモリ304bと、入力/出力インターフェース306bおよびネットワークインターフェース308bなど1つまたは複数の通信インターフェースと、これらの構成要素を相互に連結させるための1つまたは複数の通信バス310bとを含む。

一部の実施形態では、入力/出力インターフェース306bは、ディスプレイ、およびキーボード、マウス、またはトラックパッドなどの入力デバイスを含む。一部の実施形態では、通信バス310bは、システム構成要素間の通信を相互に連結させて制御する回路(チップセットとも呼ぶ)を含む。一部の実施形態では、メモリ304bは、DRAM、SRAM、DDR RAM、または他のランダムアクセスソリッドステートメモリデバイスなど、高速ランダムアクセスメモリを含み、適宜、1つまたは複数の磁気ディスク記憶デバイス、光学ディスク記憶デバイス、フラッシュメモリデバイス、または他の不揮発性のソリッドステート記憶デバイスなど不揮発性メモリを含む。一部の実施形態では、メモリ304bは、1つまたは複数のプロセッサ302bからリモートに位置する1つまたは複数の記憶デバイスを含む。一部の実施形態では、メモリ304b、あるいはメモリ304b内の不揮発性メモリデバイスは、非一時的コンピュータ可読記憶媒体を含む。

一部の実施形態では、メモリ304bあるいはメモリ304bの非一時的コンピュータ可読記憶媒体は、以下のプログラム、モジュールおよびデータ構造、命令、またはそのサブセットを格納する:様々な基本的なシステムサービスを処理するため、およびハードウェア依存タスクを実行するための手順を含むオペレーティングシステム312b、1つまたは複数の入出力デバイスを通じて様々な基本的な入力および出力機能を処理するための手順を含むI/Oモジュール314b、インターネット、他のワイドエリアネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなど、1つまたは複数のネットワーク通信インターフェース308b(有線または無線)および1つまたは複数の通信ネットワークを介して、他のマシン(たとえばクライアントデバイス300a)と通信するために使用される通信モジュール316b、およびオーディオ認識の様々な機能を制御するための動作制御モジュール318b。

一部の実施形態では、動作制御モジュール318bは、以下のサブモジュール、またはそのサブセットもしくはスーパーセットをさらに含む:受信モジュール334、伸張モジュール336、データベース確立モジュール338、ペアリングモジュール340、ハッシュ計算モジュール342、認識モジュール344、取得モジュール346、および結果出力モジュール348。一部の実施形態では、動作制御モジュール318bは、本明細書に記述した他の関係する機能を提供するために、事前確立されたデータベース350および1つまたは複数の他のモジュールをさらに含む。動作制御モジュール318bのサブモジュールおよびデータ構造の構造、機能、および対話の詳細については、図1A〜図2Dおよびそれに伴う記述に関して提供されている。

図7Aおよび図7Bは、クライアントデバイスおよびオーディオ認識を実行するサーバの構造の実例にすぎない。クライアントデバイスおよびサーバの特定の実施形態は、図示したよりも多いまたは少ない構成要素を含むことができることを当業者は認識されるであろう。1つまたは複数のモジュールは、サブモジュールに分割され得るか、かつ/または1つまたは複数の機能は、図示しているものとは異なるモジュールによって提供され得る。

前述の記述は、特定の実施形態に関して提供されたものである。しかしながら、上記の説明的な記述は、すべてを網羅することや、または開示された正確な形態に限定することを意図するものではない。上記の教示を考慮して、多数の修正および変形形態が可能である。実施形態は、それによって、熟考された特定の使用に適するように、他者が様々な修正を用いて本開示および様々な実施形態を最適に利用することを可能にするために、開示された原理およびそれらの実際的な用途について最適に説明するために選択および記述されたものである。

101M 収集モジュール
102M 計算モジュール
103M 認識モジュール
104M 取得モジュール
105M 結果出力モジュール
300a クライアントデバイス
300b サーバ
302a プロセッサ
304a メモリ
306a I/Oインターフェース
306a 入力/出力インターフェース
308a ネットワーク通信インターフェース
310a 通信バス
312a オペレーティングシステム
312b オペレーティングシステム
314a I/Oモジュール
314b I/Oモジュール
316a 通信モジュール
316b 通信モジュール
318a 動作制御モジュール
318b 動作制御モジュール
320 収集モジュール
322 T-F分析モジュール
322 時間周波数分析モジュール
324 特徴抽出モジュール
326 圧縮モジュール
328 送信モジュール
330 受信モジュール
332 結果提示モジュール
334 受信モジュール
336 伸張モジュール
338 データベース確立モジュール
340 ペアリングモジュール
342 ハッシュ計算モジュール
344 認識モジュール
346 取得モジュール
348 結果出力モジュール
350 データベース
1201M 時間周波数分析ユニット
1202M 特徴抽出モジュール
1203M ペアリング処理ユニット
1204M 計算ユニット
1211M フレーミング処理サブユニット
1212M 変換サブユニット
1213M 振幅抽出サブユニット
1214M 描写サブユニット
1215M 分離サブユニット
1301M 特徴比較ユニット
1302M 重み付け処理ユニット
1303M 候補リスト生成ユニット
1304M 依存関係計算ユニット
1305M 一致ユニット

Claims

1つまたは複数のプロセッサおよびメモリを持つデバイスで、
オーディオ認識要求に応じて認識される第1のオーディオ文書を収集するステップと、
前記第1のオーディオ文書に対して第1の事前設定された数の位相チャネルを生成するために、前記第1のオーディオ文書に対する時間周波数分析を行うステップであって、各位相チャネルは、前記第1のオーディオ文書の１つの時間周波数グラフから分割された１つの時間周波数サブグラフに対応する、ステップと、
前記第1の事前設定された数の位相チャネルの各位相チャネルから少なくとも1つのピーク値特徴点を抽出するステップであって、各位相チャネルの少なくとも1つのピーク値特徴点は、前記各位相チャネルのピーク値特徴点の系列を構成するステップと、
を含む前記第1のオーディオ文書の第1の特徴情報の計算を開始するステップと、
前記第1のオーディオ文書に対する認識結果を取得するステップであって、前記認識結果は、1つまたは複数の事前設定された基準により、前記第1の特徴情報に一致する第2の特徴情報を持つ少なくとも1つの第2のオーディオ文書を含み、前記第1の特徴情報は、前記第1の事前設定された数の位相チャネルのそれぞれのピーク値特徴点の系列に基づいて計算されるステップと
を含み、
複数の既知のオーディオ文書のデータベースを事前確立するステップであって、各既知のオーディオ文書は、それぞれの一意のトラック識別子を持ち、前記事前確立するステップは、
前記複数の既知のオーディオ文書の各々に対してそれぞれの特徴情報を計算するステップであって、前記複数の既知のオーディオ文書の各々に対するそれぞれの特徴情報は、前記各既知のオーディオ文書に対するオーディオフィンガープリントの系列のそれぞれの集合を含み、前記各既知のオーディオ文書に対するオーディオフィンガープリントの系列のそれぞれの集合の各々は、それぞれのハッシュコードを持つステップと、
それぞれのハッシュコードにより、ハッシュテーブルに前記複数の既知のオーディオ文書に対するオーディオフィンガープリントの系列のそれぞれの集合を格納するステップと
をさらに含むステップ
をさらに含み、
前記第1のオーディオ文書の第1の特徴情報の計算を継続するステップであって、
前記第1のオーディオ文書に対して前記各位相チャネルのピーク値特性点のペアの系列を形成するために、前記第1のオーディオ文書の前記事前設定された数の位相チャネルの各々のピーク値特性点の系列において各ピーク値特性点に対してペアリング処理を実行するステップと、
前記第1のオーディオ文書の前記事前設定された数の位相チャネルの各々に対応するそれぞれのオーディオフィンガープリントの系列を取得するために、前記第1のオーディオ文書の各位相チャネルにおいて、前記ピーク値特性点のペアの系列の各々に対してハッシュ計算を実施するステップであって、前記第1の事前設定された数の位相チャネルに対応するオーディオフィンガープリントの系列は、前記第1のオーディオ文書の第1の特徴情報をともに構成するステップと
を含むステップ
をさらに含み、
それぞれの比較結果を取得するために、前記第1の特徴情報を前記事前確立されたデータベースに格納されている各既知のオーディオ文書のそれぞれの特徴情報と比較するステップと、
出現頻度(TF)-逆文書出現頻度(IDF)を使用して、前記それぞれの比較結果により、前記事前確立されたデータベースの各既知のオーディオ文書のそれぞれのトラック識別子に対して重み付け処理を実施するステップと、
前記それぞれのトラック識別子に対する重みスコアを低下させる命令により、文書候補リストを構成するために、前記事前確立されたデータベースから第2の事前設定された数の既知のオーディオ文書のそれぞれの特徴情報を選択するステップであって、前記第2の事前設定された数の既知のオーディオ文書は、前記重みスコアのすべての中で最高の第2の事前設定された数の重みスコアを持つトラック識別子によって識別されるステップと、
をさらに含む、オーディオ認識を実行する方法。

前記第1の事前設定された数の位相チャネルのそれぞれのピーク値特徴点の系列をサーバに送信するステップであって、前記サーバは、前記第1の事前設定された数の位相チャネルのそれぞれのピーク値特徴点の系列に基づいて、前記第1の特徴情報の計算を完了するステップ
をさらに含む請求項1に記載の方法。

前記送信するステップの前に、前記それぞれのピーク値特徴点の系列に対するそれぞれの時間値で第1のタイプの圧縮および前記それぞれのピーク値特徴点の系列に対するそれぞれの周波数値で第2のタイプの圧縮を実行するステップ
をさらに含む請求項2に記載の方法。

前記第1の特徴情報と、前記文書候補リストの各既知のオーディオ文書のそれぞれの特徴情報との間のそれぞれの時間依存性を計算するステップと、
前記文書候補リストから前記第1の特徴情報に一致する前記少なくとも1つの第2の特徴情報を選択するステップであって、前記第2の特徴情報と前記第1の特徴情報との間のそれぞれの時間依存性は、事前設定されたしきい値を超えるステップと
をさらに含む請求項1に記載の方法。

1つまたは複数のプロセッサと、
命令が格納されたメモリであって、前記命令は、1つまたは複数のプロセッサによって実行されたときに、前記プロセッサが
オーディオ認識要求に応じて認識される第1のオーディオ文書を収集するステップと、
前記第1のオーディオ文書に対して第1の事前設定された数の位相チャネルを生成するために、前記第1のオーディオ文書に対する時間周波数分析を行うステップであって、各位相チャネルは、前記第1のオーディオ文書の１つの時間周波数グラフから分割された１つの時間周波数サブグラフに対応する、ステップと、
前記第1の事前設定された数の位相チャネルの各位相チャネルから少なくとも1つのピーク値特徴点を抽出するステップであって、各位相チャネルの少なくとも1つのピーク値特徴点は、前記各位相チャネルのピーク値特徴点の系列を構成するステップと、
を含む前記第1のオーディオ文書の第1の特徴情報の計算を開始するステップと、
前記第1のオーディオ文書に対する認識結果を取得するステップであって、前記認識結果は、1つまたは複数の事前設定された基準により、前記第1の特徴情報に一致する第2の特徴情報を持つ少なくとも1つの第2のオーディオ文書を含み、前記第1の特徴情報は、前記第1の事前設定された数の位相チャネルのそれぞれのピーク値特徴点の系列に基づいて計算されるステップと
を含む動作を実行することを生じさせるメモリと
を含み、
前記動作は、
複数の既知のオーディオ文書のデータベースを事前確立するステップであって、各既知のオーディオ文書は、それぞれの一意のトラック識別子を持ち、前記事前確立するステップは、
前記複数の既知のオーディオ文書の各々に対してそれぞれの特徴情報を計算するステップであって、前記複数の既知のオーディオ文書の各々に対するそれぞれの特徴情報は、前記各既知のオーディオ文書に対するオーディオフィンガープリントの系列のそれぞれの集合を含み、前記各既知のオーディオ文書に対するオーディオフィンガープリントの系列のそれぞれの集合の各々は、それぞれのハッシュコードを持つステップと、
それぞれのハッシュコードにより、ハッシュテーブルに前記複数の既知のオーディオ文書に対するオーディオフィンガープリントの系列のそれぞれの集合を格納するステップと
をさらに含むステップ
をさらに含み、
前記動作は、
前記第1のオーディオ文書の第1の特徴情報の計算を継続するステップであって、
前記第1のオーディオ文書に対して前記各位相チャネルのピーク値特性点のペアの系列を形成するために、前記第1のオーディオ文書の前記第1の事前設定された数の位相チャネルの各々のピーク値特性点の系列において各ピーク値特性点に対してペアリング処理を実行するステップと、
前記第1のオーディオ文書の前記第1の事前設定された数の位相チャネルの各々に対応するそれぞれのオーディオフィンガープリントの系列を取得するために、前記第1のオーディオ文書の各位相チャネルにおいて、前記ピーク値特性点のペアの系列の各々に対してハッシュ計算を実施するステップであって、前記第1の事前設定された数の位相チャネルに対応するオーディオフィンガープリントの系列は、前記第1のオーディオ文書の第1の特徴情報をともに構成するステップと
を含むステップ
をさらに含み、
前記動作は、
それぞれの比較結果を取得するために、前記第1の特徴情報を前記事前確立されたデータベースに格納されている各既知のオーディオ文書のそれぞれの特徴情報と比較するステップと、
出現頻度(TF)-逆文書出現頻度(IDF)を使用して、前記それぞれの比較結果により、前記事前確立されたデータベースの各既知のオーディオ文書のそれぞれのトラック識別子に対して重み付け処理を実施するステップと、
前記それぞれのトラック識別子に対する重みスコアを低下させる命令により、文書候補リストを構成するために、前記事前確立されたデータベースから第2の事前設定された数の既知のオーディオ文書のそれぞれの特徴情報を選択するステップであって、前記第2の事前設定された数の既知のオーディオ文書は、前記重みスコアのすべての中で最高の第2の事前設定された数の重みスコアを持つトラック識別子によって識別されるステップと、
をさらに含む、オーディオ認識を実行するためのシステム。

前記動作は、
前記第1の事前設定された数の位相チャネルのそれぞれのピーク値特徴点の系列をサーバに送信するステップであって、前記サーバは、前記第1の事前設定された数の位相チャネルのそれぞれのピーク値特徴点の系列に基づいて、前記第1の特徴情報の計算を完了するステップ
をさらに含む請求項5に記載のシステム。

前記動作は、
前記送信するステップの前に、前記それぞれのピーク値特徴点の系列に対するそれぞれの時間値で第1のタイプの圧縮および前記それぞれのピーク値特徴点の系列に対するそれぞれの周波数値で第2のタイプの圧縮を実行するステップ
をさらに含む請求項6に記載のシステム。

前記動作は、
前記第1の特徴情報と、前記文書候補リストの各既知のオーディオ文書のそれぞれの特徴情報との間のそれぞれの時間依存性を計算するステップと、
前記文書候補リストから前記第1の特徴情報に一致する前記少なくとも1つの第2の特徴情報を選択するステップであって、前記第2の特徴情報と前記第1の特徴情報との間のそれぞれの時間依存性は、事前設定されたしきい値を超えるステップと
をさらに含む請求項5に記載のシステム。