JP6178840B2 - オーディオセグメントを識別するための方法 - Google Patents

オーディオセグメントを識別するための方法 Download PDF

Info

Publication number
JP6178840B2
JP6178840B2 JP2015503224A JP2015503224A JP6178840B2 JP 6178840 B2 JP6178840 B2 JP 6178840B2 JP 2015503224 A JP2015503224 A JP 2015503224A JP 2015503224 A JP2015503224 A JP 2015503224A JP 6178840 B2 JP6178840 B2 JP 6178840B2
Authority
JP
Japan
Prior art keywords
binary
bitmap
candidate
fingerprint
fingerprint bitmap
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015503224A
Other languages
English (en)
Other versions
JP2015515646A (ja
Inventor
ブラック,ケビン
ワイス,フェリックス,イマニュエル
Original Assignee
インタラクティブ・インテリジェンス・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インタラクティブ・インテリジェンス・インコーポレイテッド filed Critical インタラクティブ・インテリジェンス・インコーポレイテッド
Publication of JP2015515646A publication Critical patent/JP2015515646A/ja
Application granted granted Critical
Publication of JP6178840B2 publication Critical patent/JP6178840B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3059Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3066Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction by means of a mask or a bit-map
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3082Vector coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/20Aspects of automatic or semi-automatic exchanges related to features of supplementary services
    • H04M2203/2027Live party detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5158Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing in combination with automated outdialling systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、概して、オーディオ信号のような既知のデータセットを識別することに関し、より詳細には、データセットをフィンガープリントするためのシステムおよび方法に関する。
本開示および本明細書に開示されている例示的な実施形態の背景を、発信電話呼の間に、たとえば、コンタクトセンターから行われる通話呼の間に受ける既知の録音を識別するコンテキストにおいて説明する。しかしながら、本発明は、オーディオまたは画像(本明細書において使用される場合、「画像」という用語は、静止画像および動画の両方を包含するように意図されている)のタイプまたはソースにかかわらず、また、オーディオまたは画像を受ける状況にかかわらず、オーディオまたは画像の任意のセグメントの識別に対する適用可能性を有する。さらに、本発明は、たとえば、任意のタイプのセンサから取得されるデータのような、データの任意の断片の識別に対する適用可能性も有する。それゆえ、本明細書において使用される場合、「データセット」という用語は、オーディオ、画像、または他のタイプのデータを含むか否かにかかわらず、任意のタイプのデータの集合を包含するものとする。
従来のコンタクトセンターのシナリオにおいて、発信呼は、自動的に(「自動ダイヤル装置」または「オートダイヤラ」として既知のクラスのデバイスによって)または手動でのいずれかで行われる。着呼側の生身の人間に届くことが決定された通話呼につながるために、数人の人間の「代理人」が控えている。このように、着呼側に代理人が話すことができる生身の人間がいると判定されるまで、代理人に通話呼に関与させないことによって、効率が得られる。発信呼の間に電話回線をモニタリングするために自動機器を使用することは、コールプログレス分析(CPA)と称される。CPAは、呼設定の間のオーディオおよびネットワークシグナリングに対して動作する一クラスのアルゴリズムである。CPAの目的は、発呼者の性質、または外部ネットワーク(従来の公衆交換電話網またはボイスオーバーインターネットプロトコル(VIP))に対する呼設定の結果を判定することである。具体的には、通話呼またはセッションが確立されようとしているとき、発呼者または開始者は、生身の発話者が応答したか否か、話し中かなどを判定しなければならない。自動ダイヤル装置またはメッセージブロードキャスティングシステムのような発呼者が自動アプリケーションであるとき、CPAアルゴリズムは、自動的に分類を実行するのに使用される。CPAは、電話網によって発呼側エンティティに送達される、折り返しおよび話し中のような、いわゆるコールプログレストーンを解釈するのに使用される。従来のCPAは、帯域内信号音を定量化するために、経時的なエネルギー測定とともに、ローおよびハイパス周波数弁別器を使用して実行される。
発信呼におけるオーディオを分類するための別の方法は、音声区間検出(VAD)として既知であり、これは、オーディオストリームの中でどこに発話が存在するかを識別する一クラスのオーディオ処理アルゴリズムである。検出される発話は、生身の発話者または録音されたメッセージを含む、任意のソースに由来し得る。現行のVADアルゴリズムは、主な発話者の発生を背景雑音から区別するために、スペクトル分析を使用する。
VADを使用して発話パターンを抽出し、パターンが生身の発話者または録音メッセージに由来するかを判定する一サブクラスのCPAアルゴリズムは、留守番電話検出(AMD)として既知である。生身の発話者につながっていない通話呼を識別することによって、正確なAMDアルゴリズムは自動ダイヤル装置のスループットを大幅に増大させることができる。しかしながら、AMDからの誤検出は、無言電話または放棄呼につながり、コンタクトセンターにとっての収益の損失、および公衆の間での悪印象を引き起こす。AMDアルゴリズムの品質は、正確度および応答時間の関数である、世界の一部地域(特に米国および英国)は、その両方に厳密な法的要求事項を課している。
AMDは正確な科学技術ではなく、最適な手法は未解決の問題である。許容可能な正確度、速度、および柔軟性を達成するために、AMDアルゴリズムは、発話を生または録音として分類するためのニューラルネットワークのような発見的教授法および統計モデルの組合せを使用する。市販されている多くの商用AMDシステムがマーケティング文献において高い正解率(たとえば、95%以上)を報告しているが、これらの数字に対する独立監査人はなく、継続的な広まっている不満を反映すると、実地での実際の正解率は一般的にはるかに低い(たとえば、80%以下)。一部の消費者擁護団体によって全面禁止が提案されており、一部のコンタクトセンターはその制約のために単純にAMDを使用することができない。
オーディオ識別の相対的に新規の科学技術が、音響指紋法として既知であり、システムが、候補オーディオストリームの「指紋」を生成し、それを、科学捜査において使用される人間の指紋法と同様に、既知の指紋のデータベースと比較する。このコンテキストにおいて、「指紋」とは、他のオーディオストリームとの知覚的同等性を迅速に確立することができる、オーディオストリームの凝縮された要約である。既知の指紋のデータベースは、既知の指紋を「タイトル」、「アーティスト」などのようなメタデータを関連付けることができる。過去十年間において、オーディオおよび画像に関するフィンガープリンティング技術における科学的および産業的関心は急速に高まった。用途は、歌曲および広告の識別、メディアライブラリの管理、および著作権順守を含む。
様々な音響フィンガープリンティングアルゴリズムクラスが提案されており、今日最も普及しているものが、「ランドマーク」または「ビットマップ」に基づくものである。ランドマークベースのアルゴリズムは、オーディオストリームから、スペクトルピーク、トーン、音高、音量の突然の変化などのような、「ランドマーク」と呼ばれる明確な特徴を抽出する。ランドマークの最適な選択は、ほとんど発見的教授法によって誘導される未解決の問題である。音響指紋は、各ランドマークを記述する一連のデータ構造体として記憶される。実行時、候補オーディオストリームから抽出されたランドマークは、距離メトリックに基づいて指紋のデータベースと比較される。
ビットマップベースのアルゴリズムは、オーディオストリームを一連のフレームとして分析し、フィルタバンクを使用して各フレームをサイズNのビットベクトルに量子化し、ここで、Nは一般的に、簡便にするために、C型整数におけるビット数N∈{8,16,32,または64}として選択される。有名でよく研究された例が、「Haitsma−Kalkerアルゴリズム」として既知であり、これは、時間および周波数の両方において短期間の差を比較するフィルタを使用して2値ビットマップを計算する。Haitsma−Kalkerアルゴリズムは文献においてよく研究されている。その発明者であるJaap HaitsmaおよびTon Kalkerは、Haitsma−Kalkerアルゴリズムの使用、および、数百万の歌曲のデータベースからの歌曲の3秒録音を識別するための2値音響指紋ビットマップの比較のレポートを刊行した(Haitsma and Kalker著「A Highly Robust Audio Fingerprinting System」(Journal of New Music Research,Vol.32,No.2(2003),pp.211−221))。完全な音響指紋は、一連のビットベクトル、またはビットマップとして記憶される。図1A〜図1Cに示されているように、「この番号は回線から切断されています(This number has been disconnected)」と言っている電話網からのメッセージを含む、オーディオストリームの3つの画像が図示されている。図1Aは、元のオーディオ波信号を示し、8000KHzにおいて1.5秒間のオーディオがサンプリングされている。図1Bは、元のオーディオ入力信号のスペクトログラムを示し、暗領域は特定の周波数においてエネルギーが高いことを示している。図1CはHaitsma−Kalkerアルゴリズムを使用して作成される2値音響指紋ビットマップを示し、高さはN=16である。この高さは、各フレームにおいて計算されるビット数によって決定され、幅は、オーディオストリーム内のフレーム数によって決定される。実行時、候補オーディオストリームから計算されたビットマップが、ハミング距離としても既知である、一致しないビットの数に基づいてビットマップのデータベースと比較される。
ビットマップマッチングおよび音響指紋の使用は、オーディオ認識の科学技術において強力な新しいツールであるが、これは計算集約的であり、多くの場合において一致を作るために数秒間のオーディオをサンプリングする必要がある。この遅延によって、これはコールプログレス分析に使用するにはよく適しているとは言えないものになる。したがって、一般的な場合および発信呼試行中の両方において、オーディオを識別するためのより速くより正確なシステムおよび方法が依然として必要とされている。
Haitsma and Kalker著「A Highly Robust Audio Fingerprinting System」(Journal of New Music Research,Vol.32,No.2(2003),pp.211−221)
入力オーディオセグメントのようなデータセットをデータベース内の既知のデータセットとマッチングするためのシステムおよび方法が開示される。例示的な実施形態において、発信電話呼の間に受ける既知のネットワークメッセージ記録の認識とともに、本明細書において開示されるシステムおよび方法を使用することが説明される。本方法は、比較プロセスをより効率的にするために、3値指紋ビットマップを作成することを含む。より大きなデータセット集合から既知のデータセットのデータベースを作成する自動化された方法も開示される。
一実施形態において、発信電話呼から候補オーディオセグメントを識別するための方法が開示され、方法は、a)候補オーディオセグメントのスペクトログラムを作成するステップと、b)スペクトログラムの候補2値音響指紋ビットマップを作成するステップと、c)候補2値音響指紋ビットマップを、既知のネットワークメッセージの少なくとも1つの既知の2値音響指紋ビットマップと比較するステップと、d)候補2値音響指紋ビットマップが所定閾値内で上記少なくとも1つの既知の2値音響指紋ビットマップのうちの1つに一致する場合、一致を宣言するステップと、e)候補2値音響指紋ビットマップが所定閾値内で上記少なくとも1つの既知の2値音響指紋ビットマップのうちの1つに一致しない場合、候補オーディオセグメントを分析するために留守番電話検出アルゴリズムを使用するステップとを含む。
別の実施形態において、発信電話呼から候補オーディオセグメントを識別するための方法が開示され、方法は、a)候補オーディオセグメントのスペクトログラムを作成するステップと、b)スペクトログラムの候補2値指紋ビットマップを作成するステップと、c)候補2値指紋ビットマップを、既知の記録の少なくとも1つの既知の2値指紋ビットマップと比較するステップと、d)候補2値指紋ビットマップが所定閾値内で上記少なくとも1つの既知の2値指紋ビットマップのうちの1つに一致する場合、一致を宣言するステップと、e)候補2値指紋ビットマップが所定閾値内で上記少なくとも1つの既知の2値指紋ビットマップのうちの1つに一致しない場合、候補オーディオセグメントを分析するために代替のプロセスを使用するステップとを含む。
さらなる実施形態において、データセットの3値ビットマップを作成するための方法が開示され、方法は、a)データセットの2値指紋ビットマップを計算するステップと、b)データセットから第1の数のサンプルを消去するステップと、c)ステップ(b)の後、データセットの別の2値指紋ビットマップを計算するステップと、d)複数の2値指紋ビットマップを作成するために、ステップ(b)および(c)を複数回繰り返すステップと、e)複数の2値指紋ビットマップを組み合わせて3値ビットマップにするステップであって、3値ビットマップ内の各ビットは、e.1)複数の2値ビットマップのうちの第1の所定数においてビットが0である場合、3値ビットマップ内のそのビットを0に設定し、e.2)複数の2値ビットマップのうちの第2の所定数においてビットが1である場合、3値ビットマップ内のそのビットを1に設定し、e.3)それ以外の場合、3値ビットマップ内のそのビットを*(「Don’t Care(適用除外)」)に設定するように決定される、組み合わせるステップとを含む。
また別の実施形態において、候補データセットを識別するための方法が開示され、方法は、a)既知のデータセットデータベース内の既知のデータセットの2値指紋ビットマップを計算するステップと、b)既知のデータセットから第1の数のサンプルを消去するステップと、c)ステップ(b)の後、既知のデータセットの別の2値指紋ビットマップを計算するステップと、d)複数の2値指紋ビットマップを作成するために、ステップ(b)および(c)を複数回繰り返すステップと、e)複数の2値指紋ビットマップを組み合わせて3値ビットマップにするステップであって、3値ビットマップ内の各ビットは、e.1)複数の2値ビットマップのうちの第1の所定数においてビットが0である場合、3値ビットマップ内のそのビットを0に設定し、e.2)複数の2値ビットマップのうちの第2の所定数においてビットが1である場合、3値ビットマップ内のそのビットを1に設定し、e.3)それ以外の場合、3値ビットマップ内のそのビットを*(「Don’t Care」)に設定するように決定される、組み合わせるステップと、f)3値ビットマップを3値ビットマップデータベース内に保存するステップと、g)既知のデータセットデータベース内のすべての既知のデータセットについてステップ(a)〜(f)を繰り返すステップと、h)候補データセットから候補データセット2値指紋ビットマップを作成するステップと、i)候補データセット2値指紋ビットマップを3値ビットマップデータベース内の各3値ビットマップと比較するステップであって、上記比較はDon’t Careビットを無視する、比較するステップとを含む。
さらなる実施形態において、オーディオセグメントの3値ビットマップを作成するための方法が開示され、方法は、a)オーディオセグメントの2値音響指紋ビットマップを計算するステップと、b)オーディオセグメントから第1の数のサンプルを消去するステップと、c)ステップ(b)の後、オーディオセグメントの別の2値音響指紋ビットマップを計算するステップと、d)複数の2値音響指紋ビットマップを作成するために、ステップ(b)および(c)を複数回繰り返すステップと、e)複数の2値音響指紋ビットマップを組み合わせて3値ビットマップにするステップであって、3値ビットマップ内の各ビットは、e.1)複数の2値ビットマップのうちの第1の所定数においてビットが0である場合、3値ビットマップ内のそのビットを0に設定し、e.2)複数の2値ビットマップのうちの第2の所定数においてビットが1である場合、3値ビットマップ内のそのビットを1に設定し、e.3)それ以外の場合、3値ビットマップ内のそのビットを*(「Don’t Care」)に設定するように決定される、組み合わせるステップとを含む。
また別の実施形態において、候補オーディオセグメントを識別するための方法が開示され、方法は、a)既知のオーディオセグメントデータベース内の既知のオーディオセグメントの2値音響指紋ビットマップを計算するステップと、b)既知のオーディオセグメントから第1の数のサンプルを消去するステップと、c)ステップ(b)の後、既知のオーディオセグメントの別の2値音響指紋ビットマップを計算するステップと、d)複数の2値音響指紋ビットマップを作成するために、ステップ(b)および(c)を複数回繰り返すステップと、e)複数の2値音響指紋ビットマップを組み合わせて3値ビットマップにするステップであって、3値ビットマップ内の各ビットは、e.1)複数の2値ビットマップのうちの第1の所定数においてビットが0である場合、3値ビットマップ内のそのビットを0に設定し、e.2)複数の2値ビットマップのうちの第2の所定数においてビットが1である場合、3値ビットマップ内のそのビットを1に設定し、e.3)それ以外の場合、3値ビットマップ内のそのビットを*(「Don’t Care」)に設定するように決定される、組み合わせるステップと、f)3値ビットマップを3値ビットマップデータベース内に保存するステップと、g)既知のオーディオセグメントデータベース内のすべての既知のオーディオセグメントについてステップ(a)〜(f)を繰り返すステップと、h)候補オーディオセグメントから候補オーディオセグメント2値音響指紋ビットマップを作成するステップと、i)候補オーディオセグメント2値音響指紋ビットマップを3値ビットマップデータベース内の各3値ビットマップと比較するステップであって、上記比較はDon’t Careビットを無視する、比較するステップとを含む。
また別の実施形態において、データセットの加重圧縮表現を作成するための方法が開示され、方法は、a)データセットの圧縮表現を計算するステップと、b)データセットに変換を適用するステップと、c)ステップ(b)の後、データセットの別の圧縮表現を計算するステップと、d)複数の圧縮表現を作成するために、ステップ(b)および(c)を複数回繰り返すステップと、e)複数の圧縮表現を組み合わせて加重圧縮表現にするステップであって、加重圧縮表現における各重みは、複数の圧縮表現内の要素の関数として計算される、組み合わせるステップとを含む。
他の実施形態も開示される。
オーディオ波の図である。 スペクトログラムの図である。 2値音響指紋ビットマップの図である。 音響指紋を構築するための方法の一実施形態の概略流れ図である。 一実施形態による変換に使用される例示的なスライディングウィンドウのセットについての振幅対時間のグラフである。 オーディオサンプルのスペクトログラムの図である。 メル尺度の概略表現の図である。 Haitsma−Kalkerアルゴリズムのグラフィック表現の図である。 一実施形態による3値ビットマップを作成するための方法を示す概略流れ図である。 一実施形態による2値ビットマップからの3値ビットマップの作成の概略グラフィック表現の図である。 一実施形態による3値ビットマップからのハッシュキーの作成の概略流れ図である。 図7のプロセスのグラフィック表現の図である。 一実施形態によるハッシュキーを使用したマッチング手順の概略流れ図である。 一実施形態による大きいオーディオデータセットから共通の録音に対する諮問を抽出するための方法の概略流れ図である。
本発明の原理の理解を促進する目的で、ここで、図面に示されている実施形態を参照し、特定の文言がこれを説明するために使用される。それにもかかわらず、本発明の範囲の限定は意図されていないことが理解されよう。示されているシステムおよび方法における変更および修正、ならびにそこに示されている本発明の原理のさらなる応用は、本発明が関連する技術分野における当業者に一般的に想起されるように、企図され、保護されることが所望される。そのような代替的な実施形態は、当業者には明らかであるように、本明細書において説明される実施形態に対する一定の適合を必要とする。
本明細書に開示されている様々な実施形態は、発信電話呼の間に、たとえば、コンタクトセンターから行われている通話呼の間に受ける既知の録音を識別するコンテキストにおいて説明されることになるが、本発明は、オーディオ、画像、または他のタイプのデータのタイプまたはソースにかかわらず、また、どのような状況でオーディオ、画像、または他のタイプのデータを受けるかにかかわらず、オーディオ、画像、または他のタイプのデータの任意のセグメントの識別に適用可能性を有する。加えて、本発明は、2つ以上の次元を有する任意のタイプのデータセットの認識に適用可能性を有する。本明細書において主に録音の認識に依拠しているのは、単純に説明を簡便にするためである。
コールプログレス分析システムにおける音響指紋の使用
コールプログレス分析は、限定ではないが以下を含む対象の特定のコールプログレス事象を識別するために、音響指紋システムによって、従来のAMDを強化するシステムを使用することによって改善され得る。
a.電話網メッセージ(たとえば、「申し訳ございません(We’re sorry)」、「あなたがおかけになった番号またはコードには誤りがあります(The number or code you have dialed is incorrect)」
b.複数の加入者によって共有されるボイスメールグリーティング(たとえば、「ハロー、あなたのお友達から着信です(Hello,the party you have dialed)」)
c.メロディ音、ジングル音、チャイム
d.音楽または発話を含む呼び出し音(たとえば、「電話がつながるまでそのままお待ちください(Please hold while your call is completed)」)
e.コールスクリーナ
f.プライバシーマネージャ(「あなたがおかけになった番号には、勧誘は認められておりません(You have reached a number that does not accept solicitations)」)
g.双方向音声応答(IVR)プロンプト
これらは、本明細書においてまとめて「ネットワークメッセージ」と称される。すべてのそのようなネットワークメッセージは、複数の着呼者に行われる通話呼に関する特定の状況においてネットワークによって同じオーディオが使用されるという共通の特質を共有する。それゆえ、ダイヤルプログラムは将来においてこれらのネットワークメッセージを受けると予測すべきであり、それらをそのようなものとして識別することは、コールプログレス分析ソフトウェアが、生身の発話者に電話がつながっていないと判定する助けとなる。コールプログレス分析ソフトウェアが以下の特性を呈することが所望される。
1.効率的である(CPUおよびメモリの使用量が低い)
2.高速である(待ち時間および遅延が短い)
3.ロバストである(検出漏れの割合が低い)
4.正確である(誤検出の割合が低い)
5.スケーラブルである(探索コストが低い)
6.反復可能である(学習曲線が低い)
一実施形態において、発信呼がリアルタイムで進行している間、CPAシステムは、従来のAMDアルゴリズムおよび音響指紋システムの両方を使用してオーディオストリームを処理する。オーディオが進行しているとき、音響指紋システムは、既知のネットワークメッセージの音響指紋のデータベース内に一致の可能性があるか否かを識別する。そうである場合、AMDアルゴリズムからの任意の出力が阻止され、代わりに、CPAシステムが一致した音響指紋に基づいて特定のコールプログレス事象を報告する。音響指紋システムがデータベース内に一致を発見しない一般的な事例について、従来のAMDアルゴリズムが、グリーティングを検出し、生身の発話者または留守番電話のいずれかの事象を報告するのに使用される。すべての事象は、通話呼を進行または終了するか、代理人に転送するか、自動ダイヤル装置のプランを調整するかなどのような、適切な応答を選択するためにCPAシステムのユーザによって解釈される。他の実施形態において、音響指紋システムは、CPAメカニズムを追加することなく使用される。
図2は、音響指紋を構築するための方法の一実施形態を概略的に示す。既知のオーディオセグメント、または現在の電話呼からの候補オーディオセグメントのいずれかの音響指紋を構築するために、信号の時変スペクトル表現(本明細書においては「スペクトログラム」と称される)が、4つの非限定例のみを挙げると、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、ウェーブレット変換、またはさらにはフィルタバンクのセットのみのような、任意の所望の変換を使用して(ステップ100において示すように)作成される。各フレームにおいて、周波数空間におけるパワースペクトルが計算される。たとえば、図3Aは、以下のパラメータを使用した、オーディオサンプルの高速フーリエ変換(FFT、離散フーリエ変換を実施するための特に効率的なアルゴリズム)において使用されるスライディングウィンドウの、振幅対時間を示す。
サンプルレート:8kHz
フレーム持続時間:30ミリ秒
刻み幅:20ミリ秒
重なり:1/3
FFTサイズ:256
この技法を使用したオーディオサンプルのサンプルスペクトログラムが、図3Bに示されている。
次のステップは、ステップ102において示すように、2値音響指紋ビットマップを作成することである。パワースペクトログラムはそのまま使用され得るか、または、データを凝縮するために変換されてもよい。データを凝縮する任意の変換技法が使用され得る。1つだけ非限定例を与えると、Haitsma−Kalkerアルゴリズムが使用され得、ここで、一連のフレームが作成され、音響指紋ビットマップを構築するために組み合わされる。各フレームをサイズNのビットベクトルに量子化するためにフィルタバンクが使用され得、ここで、Nは、簡便にするために、C型整数におけるビット数(8、16、32、または64)として選択され得る。一実施形態において、ステップ104において示すように、パワースペクトルデータを(N+1)個の帯域を有するメル空間に変換するために、メル尺度フィルタバンクが使用される。メル尺度は、図4に示すような、聞く者によって互いからの距離が等しくなるように判断される音高の知覚的尺度である。
メル空間における(N+1)帯域スペクトルのシーケンスから、連続したフレームにわたるバンドエネルギー差に基づく一連のNビット2値指紋フレーム値がステップ106において計算される。一実施形態において、これは、以下のようにHaitsma−Kalkerアルゴリズムを使用して行われる。
Figure 0006178840
式中、E(n,m)は、フレームnの周波数帯域mのエネルギーであり、
F(n,m)は、指紋フレームnの第mのビットである。
これは、図5に概略的に示されている。したがって、フレームあたり1つの整数のNビット整数のベクトルとして、音響指紋が構築される。図1Cは、例示的な16ビット2値音響指紋ビットマップを示す。
コールプログレス分析の間に使用するために、既知のネットワークメッセージについての2値音響指紋ビットマップを含むデータベースが維持される。一実施形態において、発信呼がリアルタイムで進行している間、CPAシステムは、従来のAMDアルゴリズムおよび音響指紋システムの両方を使用してオーディオストリームを処理する。オーディオが進行しているとき、音響指紋システムは、入来するオーディオの2値音響指紋ビットマップを作成し、それらのビットマップを、データベースに記憶されている既知のネットワークメッセージビットマップと比較する(ステップ108)。CPAシステムは、2値ビットマップのデータベース内に一致があるか否かを識別し(ステップ110)、一致は、発信呼の結果として、生身の発話者ではなく既知のネットワークメッセージが受けていることを示す(ステップ112)。そうである場合、AMDアルゴリズムからの任意の出力が阻止され、代わりに、CPAシステムが一致した音響指紋に基づいて特定のコールプログレス事象を報告する。音響指紋システムがデータベース内に一致を発見しない一般的な事例について、従来のAMDアルゴリズムが、グリーティングを検出し、生身の発話者または留守番電話のいずれかの事象を報告するのに使用される(ステップ114)。すべての事象は、通話呼を進行または終了するか、代理人に転送するか、自動ダイヤル装置のプランを調整するかなどのような、適切な応答を選択するためにCPAシステムのユーザによって解釈される。他の実施形態において、2値音響指紋ビットマップマッチングシステムは、CPAメカニズムを追加することなく使用される。
Haitsma−Kalkerアルゴリズムは文献においてよく研究されている。Jaap HaitsmaおよびTon Kalkerの刊行された、Haitsma−Kalkerアルゴリズムの使用、および、数百万の歌曲のデータベースからの歌曲の3秒録音を識別するための2値音響指紋ビットマップの比較のレポート(Haitsma and Kalker著「A Highly Robust Audio Fingerprinting System」(Journal of New Music Research,Vol.32,No.2(2003),pp.211−221))。Jaap HaitsmaおよびTon Kalkerのシステムは、良好な結果を得るために、大きいフレームサイズ、大きい重なり/小さい刻み幅、および大きい指紋を筆意用とした。Jaap HaitsmaおよびTon Kalkerが使用したパラメータは以下の通りである。
サンプルレート:5kHz
フレーム持続時間:370ミリ秒
刻み幅:10ミリ秒
重なり:31/32
FFTサイズ:2048
Haitsma−Kalkerアルゴリズムは、2値音響指紋ビットマップを相対的に低い信号対雑音比で計算するが、ビットは雑音およびウィンドウイングアーティファクトの影響をかなり受けやすい。許容可能に高い正確度および低い誤検出率を有する音響フィンガープリンティングシステムを達成するには、一般的に、フレームサイズが大きく(370ms)、フレーム間の重なりが大きい(31/32、または約97%)、相対的に長いオーディオのセグメント(約3秒)が必要になる。
そのようなシステムは計算集約的であり、信頼可能な比較を行うために相対的に大きいオーディオサンプルを必要とし、その両方が多くのオーディオマッチングシナリオにおいて望ましくない。本発明者らは、特に信号のエネルギーが相対的に小さい場合、2値音響指紋ビットマップ内の多くのビットが、雑音、および、スペクトル表現への変換(ウィンドウィング)から生じるアーティファクトの影響を受けやすいことを観測した。提案する解決策は、雑音およびウィンドウイングアーティファクトに起因する値の小さいビットをマスクアウトし、マスク内にあるビット(すなわち、マスクアウトされていないビット)のみを使用してビットマップ比較の誤り率を計算することである。
高い信号対雑音比(SNR)を得るためのマスクビットを使用した3値ビットマップ音響指紋
正確度を犠牲にすることなくビットマップマッチング速度を改善するために、本発明の一実施形態は、2値ビットマップを生成する任意の音響フィンガープリンティングアルゴリズムに以下の修正を行う。既知のネットワークメッセージビットマップが作成されるトレーニング段階において、図6の方法が実施され得る。ステップ200において、図2に関連して上記で説明した同じプロセスを使用して、オーディオセグメントの2値音響指紋ビットマップが作成される。ステップ202において、示されている実施形態において、第1のサンプルがオーディオセグメントから消去され(ただし、下記に説明するように、他のセグメント修正方式が採用されてもよい)、ステップ204において、図2に関連して上記で説明した同じプロセスを使用して、修正オーディオセグメントの別の2値音響指紋ビットマップが作成される。ステップ204〜202がX回繰り返され(ステップ206)、Xは、図2の音響フィンガープリンティングプロセスによって使用される、各フレーム内のサンプルの数である。このプロセスが、オーディオセグメントのX個の2値音響指紋ビットマップを生成する。
X個の2値音響指紋ビットマップは、ステップ208において以下のように組み合わされて、3値ビットマップになる。
・X個すべての2値ビットマップにおいてビットが0である場合、3値ビットマップ内のそのビットを0に設定する
・X個すべての2値ビットマップにおいてビットが1である場合、3値ビットマップ内のそのビットを1に設定する
・それ以外の場合、3値ビットマップのそのビットを*(「Don’t Care」)に設定する。
「Don’t Care」ビットは、フレーミング、雑音、比較、および信号歪みをもたらす他の効果の影響を受けやすいため、連続する2値音響指紋ビットマップ内で変化する。上記の説明から、「Don’t Care」ビットは、ビットマップにわたって変化する所定の割合のビット値のように、他の方法で定義されてもよいことは明らかであろう。3値ビットマップがビットマップ比較に使用され(ステップ210)、かつ「Don’t Care」ビットが比較プロセスの間に無視される場合、元の2値音響指紋ビットマップの周波数および時間において、信号歪みをもたらすこれらの領域をマスクアウトする。図7は、2値ビットマップと、その関連付けられる3値ビットマップとの間の例示的な比較を示す。上記の説明から、音響指紋およびマスクをより影響を受けやすくするために、通信チャネルによって一般的にもたらされる雑音または他のアーティファクトを加えることによって、音響指紋を計算する前に、入力信号が人工的に劣化され得ることも明らかであろう。
実行時、これらの「Don’t Care」ビットは、候補オーディオストリームと既知の指紋のデータベースとの間の評価される「マスクハミング距離」から除外される。3値ビットマップマスクを使用することによって、入力候補オーディオストリームとデータベース内の録音との間のフレーミング位置不整合に起因する検出漏れがなくなる。ウィンドウィングおよび雑音の影響を最も受けやすいビットを除外することによって、3値指紋システムは、それに対応する2値指紋システムよりもロバストになり、はるかに少ないビットで同等の正確度および誤検出率を達成する。分析ウィンドウがフレームサイズの分数だけシフトされることによって、上記のステップは同じ信号の多くの指紋を作成し、それらの指紋はその後、指紋のいずれの部分が変化するかを識別するのに使用されることが明らかであろう。それゆえ、ステップ202において、分析ウィンドウは、示されている単一サンプルシフトではなく、フレームサイズの任意の分数だけシフトされ得る。加えて、音響指紋および3値ビットマップ(マスク)は、各要素が0または1の値を有するビットであるベクトルのベクトルとして以外の方法で、代わりに、より一般的に各要素が数値スコアおよび重みを含み、複数ビット表現に量子化されるベクトルのベクトルとして表現されてもよいことが明らかであろう)。
たとえば、データセットの加重圧縮表現を作成するための方法は、a)データセットの圧縮表現を計算するステップと、b)修正データセットを作成するためにデータセットから第1の数の要素を消去するステップと、c)修正データセットの別の圧縮表現を計算するステップと、d)複数の圧縮表現を作成するために、ステップ(b)および(c)を複数回繰り返すステップと、e)複数の圧縮表現を組み合わせて加重圧縮表現にするステップであって、加重圧縮表現における各重みは、複数の圧縮表現内の要素の関数として計算される、組み合わせるステップとを含む。
いくつかの実施形態において、圧縮表現は、第1の数の2次元ベクトルである。いくつかの実施形態において、第1の数は、各々、第1のビット数によって表され、第1のビット数は、いくつかの実施形態においては1ビットであってもよく、他の実施形態においては2ビット以上であってもよい。他の実施形態において、加重圧縮表現は、第2の数の2次元ベクトルである。いくつかの実施形態において、第2の数は、各々、第2のビット数によって表される。いくつかの実施形態において、関数が、複数の圧縮表現内の要素の相関係数として各上記重みを計算する。いくつかの実施形態において、相関係数は以下のように計算される。
1)要素が、複数の圧縮表現の第1の所定数内の第1の所定閾値を下回る場合、相関係数を第1の値に設定する。
2)要素が、複数の圧縮表現の第2の所定数内の第2の所定閾値を上回る場合、相関係数を第2の値に設定する。
3)それ以外の場合、相関係数を第3の値に設定する。
たとえば、一実施形態において、第1の値は+1であり、第2の値は−1であり、第3の値は0である。当業者は本開示から、相関係数は−1〜+1(または任意の他の所望の数値範囲)の任意の値とすることができることを認識しよう。本実施形態において、これらの値は本明細書において説明されている3値ビットマップに対応し、設定されているビットが+1であり、クリアされているビットが−1であり、Don’t Careビットが0である。閾値は、任意の所望のレベルに設定することができる。たとえば、一実施形態において、第1の所定閾値1であってもよく、第2の所定閾値は0であってもよい。一実施形態において相関係数を計算するとき、第1の所定数は複数の圧縮表現のすべてを含み、第2の所定数は複数の圧縮表現のすべてを含む。
図6の方法は、2値音響指紋ビットマップを相対的に低い信号対雑音比で計算するが、ビットは雑音およびウィンドウイングアーティファクトの影響をかなり受けやすい、図2のHaitsma−Kalkerアルゴリズム2値音響指紋ビットマップ比較手法と比較され得る。この手法を使用して許容可能に高い正確度および低い誤検出率を有するフィンガープリンティングシステムを達成するには、一般的に、フレームサイズが大きく(370ms)、フレーム間の重なりが大きい(31/32、または約97%)、相対的に長いオーディオのセグメント(約3秒)が必要になる。比較すると、図6に示すもののような、本明細書に開示する3値音響指紋ビットマップ方法は、30msの小さいフレームサイズおよび33%の小さいのフレーム重なりを使用する低帯域幅オーディオの短いセグメント(8kHzで約0.25秒)で、はるかにより効率的に同等のマッチング正確度および精度を得ることができる。これは、約1/12の時間量でマッチングを達成するだけでなく、計算集約度がより低く、品質の低いオーディオサンプルで良好に機能する。
しらみつぶし探索を使用した最小遅延でのデータベース内の音響指紋のリアルタイムマッチング
ほとんどの既存の音響フィンガープリンティングシステムは、有効な一致を達成するためにソースオーディオストリームの大きいセグメントを必要とするため、リアルタイム用途には良好に適合しているとは言えない。この要件は、マッチングされるセグメントの始まりから一致する指紋が確認され得るまでに数秒の時間遅延を課す。しかしながら、従来のAMDのような他の信号処理アルゴリズムと協働してリアルタイムでフィンガープリンティングを使用するために、フィンガープリンティングシステムは、一致が数分の1秒以内に起こる可能性があるか否かを確認しなければならない。最小遅延を達成するために、本発明者らは、数千指紋単位でデータベースに対してリアルタイムでオーディオストリームをマッチングするために最適化されたしらみつぶし探索を使用する手法を提案する。
図8および図9に示すように、前処理の間、フレームあたりN個の3進値で、各オーディオ検出対象につき1つの、3値音響指紋ビットマップの集合が生成される(ステップ300)。各指紋について、3値ビットマップが細分化されて複数の均等なセグメントになる(ステップ302)。一実施形態において、3値ビットマップは、図9に示すように細分化されて4つの均等なセグメントになる。各セグメントから、ハッシュキーが、128/Nフレームの細分化指紋から3進値を抽出することによって得られ(ステップ304)、各ハッシュキーにおいて3進値は合計128個になる(すなわち、128ビット3値ハッシュキー)。ハッシュキーはより少ないまたはより多い数の値を有してもよいことが明らかであろう。3値音響指紋ビットマップからこのようにして得られたハッシュキーのすべてが、その後、凝集されて単一のルックアップテーブルになる(ステップ306)。音響指紋の様々なセグメントからハッシュキーを選択することによって、たとえ候補オーディオストリームが断続的な録音であり、録音の始まりが受信されていない場合であっても、マッチングが行われることが可能になる。たとえば、音楽のサンプルを識別するためにこの方法を使用する場合、ある歌曲を識別することを望む者は、その歌曲の再生が開始したいくらか後まで、識別されるべき歌曲のサンプルの録音を開始しない場合がある(そして概ね、そうしない)。音響指紋の異なるセグメントからのハッシュキーを使用することによって、候補オーディオストリームとデータベース内の音響指紋との間でさらにマッチングを行うことが可能になる。
図10は、ハッシュキーのルックアップテーブルが組み立てられた後で実行時に使用され得るマッチング手順の一実施形態を示す。入力オーディオストリームの新たな各フレームについて、長さNの新たなビットベクトルを生成するために、2値ビットマップ音響フィンガープリンティングアルゴリズムが使用される(ステップ400)。先行する128/Nフレームの入力オーディオストリームからのビットベクトルが組み合わされて、検索のための128ビット2値ハッシュキーになる(ステップ402)。入力オーディオストリームの現在の128ビットハッシュキーが、マスクハミング距離を計算することによって、ルックアップテーブル内の3値ハッシュキーのすべてに対して比較される(ステップ404)。現代のマイクロプロセッサでは、この計算は、単一命令複数データ命令(Intelx86マイクロプロセッサアーキテクチャに対するSSEまたはAVX SIMD命令セット拡張など)および/または「ポピュレーションカウント」命令によって容易に並列化および最適化することができる。ルックアップテーブル内の任意のハッシュキーが十分に短いマスクハミング距離で一致する場合(ステップ406)、ハッシュキーに対応するオーディオ指紋は「候補」として識別される(ステップ408)。候補を確立するための閾値ビット誤り率(BER)は、相対的に低い値のσcandidate(たとえば、3つの標準偏差、ただし、他の閾値が使用されてもよい)に基づいてもよい。候補の全体的なBERが相対的に大きい値のσnotify(たとえば、9個の標準偏差、ただし、他の閾値が使用されてもよい)を超える場合(ステップ410)、この候補は一致であると決定される(ステップ412)。一致が判定されなかった場合、プロセスはステップ400に戻り、長さNの新たなビットベクトルを生成するために次のフレームが使用される。後続のフレームを分析し続けることによって、プロセスは、マスクハミング距離が閾値に収まるかに基づいて、すべての候補を一致または不一致として解決することが可能である。
大きいオーディオ集合からの一般的な録音について指紋を抽出するための方法
上記の説明から明らかになるように、オーディオサンプルを、既知の録音のデータベースとマッチングするためのシステムおよび方法が提供される。上記で説明されたシステムおよび方法は、計算効率的であり、データベース内の音響指紋との一致を識別することが可能であるが、データベース内の音響指紋によって表されることになる録音を効率的に識別する方法において、問題が残っている。そうするために以下において説明される方法は、電話コンタクトセンターのコンテキストにおいて説明されるが、当業者は、本開示から、本方法が、任意のタイプのソースオーディオ、画像、または他のタイプのデータに関係する指紋データベースのコンパイルに適用され得ることを認識しよう。
コンタクトセンターからの相当に大きいキャンペーンによって、毎日数千の発信呼のデジタル録音が生成され得る。この録音の集合から、将来の通話呼キャンペーンにおいてCPAを補助するために、対象のコールプログレス事象を含むすべてのオーディオセグメントを抽出することが目標となる。たとえば、キャンペーンにおける多くの通話呼が、同じネットワークまたはサブネットワーク上の複数の番号にダイヤルされ、これによって、各加入者に同一の録音されたグリーティングが再生される。自動化データ駆動技法がなければ、いずれの音響指紋から候補セグメントが抽出され得るかを識別sルウために、大量のデータが人間の被験者によって聞かれなければならない。本発明者らは、大きい録音集合内の共通の録音を自動的に識別するためのオフラインプロセスを提案し、それによって、CPAの正確度を改善するために将来の通話呼キャンペーンにおいて録音が検出され得る。本発明において指紋の自動識別に使用されるプロセスが、図11に概略的に示されている。
ステップ500において、AMDおよび音響フィンガープリンティングと組み合わされた(データベースがすでに何らかの既知の録音についての音響指紋を含む場合)CPAシステムが、そこで検出される事象に基づいて、集合内のすべての録音を分類するのに使用される。従来のAMDを使用して生身の発話者または留守番電話として分類されたすべての録音について、ステップ502において、無言、背景雑音、または純音を含まないオーディオセグメントの終了点が識別される。たとえば、発話パターン、音楽、非発話信号などを含むオーディオセグメントが、ステップ502において識別される。ステップ504において、上記で説明された方法を使用してすべての識別されたセグメントについて3値音響指紋ビットマップが生成される(3値ビットマップの代わりに2値音響指紋ビットマップを使用することができることは明らかであろう)。ステップ506において、これらの新たな音響指紋が音響指紋データベースに加えられる。その後、ステップ508において、新たに増補された3値音響指紋データベースを使用して、集合内の録音のすべてがCPA/AMDシステムによって再処理される。ステップ510において、システムは、固有でなく複数回検出された、増補された指紋(すなわち、増補された音響指紋のうち、複数のものと一致したとして処理されている、集合内の録音、これは、これらがその集合において複数回受けた録音の音響指紋であることを示す)を識別する。複数回発見された任意の音響指紋は、対象のコールプログレス事象の候補である可能性が高く、それゆえ、ステップ512において、将来のCPAタスクにおいて使用するために、音響指紋データベース内に残される。ステップ514において、他の増補された指紋のすべて(すなわち、複数回検出されなかった新たな音響指紋)は、音声発話の固有のオーディオセグメントを表し、それゆえ、録音されたネットワークメッセージであると判定することができないため、データベースから消去される。このように、大きい録音(または画像もしくは他のデータの)集合を調べ、そこから複数回受けた録音の指紋を抽出するために自動化システムが使用され得る。この方法は、音響指紋データベースが自動的に構築され、様々な電話会社において回線内に持ち込まれ得る新たなネットワークメッセージを計上するために継続的に更新されることを可能にする。
上記の説明から分かるように、様々な実施形態が、入力オーディオセグメントの、データベース内の既知のオーディオセグメントとのマッチングを可能にする。オーディオセグメントは任意のソースに由来し、発話、発信音、音楽のような任意のタイプのオーディオ、または、認識されることが所望される任意の他のオーディオを含み得る。例示的な実施形態において、発信電話呼の間に受ける既知のネットワークメッセージ記録の認識とともに、本明細書において開示されるシステムおよび方法を使用することが説明された。しかしながら、当業者は、開示されるシステムおよび方法が、任意の形態のオーディオ、画像、または他のタイプのデータのような、任意のタイプの2次元以上のデータセットの認識に用途を見出すことになることを認識しよう。
ステップ、ソフトウェアブロック、データおよびデータ構造体の編成は明瞭に線引きされているものとして示されているが、当業者には、ステップ、ブロックおよびデータ間の線引きはいくらか任意裁量によることは明らかであろう。ステップ、ソフトウェアブロックおよびデータの多数の他の構成が可能である。
最後に、本発明は、本発明を実行するためのいくつかの実施形態の例示にすぎず、形態、部分の構成、ステップ、詳細および動作の順序の修正を受け入れる余地がある、本明細書に記載されている実施形態には限定されないことは理解されよう。そうではなく、本発明は、特許請求の範囲の範囲によって規定されるような、その精神および範囲内で、すべてのそのような修正を包含するように意図されている。

Claims (13)

  1. 発信電話呼から候補オーディオセグメントを識別するための方法であって、
    a)前記候補オーディオセグメントのスペクトログラムを作成するステップと、
    b)前記スペクトログラムの候補2値音響指紋ビットマップを作成するステップと、
    c)前記候補2値音響指紋ビットマップを、既知のネットワークメッセージの少なくとも1つの既知の2値音響指紋ビットマップと比較するステップと、
    d)前記候補2値音響指紋ビットマップが所定閾値内で前記少なくとも1つの既知の2値音響指紋ビットマップのうちの1つに一致する場合、一致を宣言するステップと、
    e)前記候補2値音響指紋ビットマップが前記所定閾値内で前記少なくとも1つの既知の2値音響指紋ビットマップのうちの1つに一致しない場合、前記候補オーディオセグメントを分析するために留守番電話検出アルゴリズムを使用するステップと
    を含む、方法。
  2. ステップ(a)は、離散フーリエ変換、離散コサイン変換、ウェーブレット変換、およびフィルタバンクから成る群から選択される変換を使用して前記候補オーディオセグメントを変換するステップを含む、請求項1に記載の方法。
  3. ステップ(b)は、
    b.1)前記スペクトログラムデータを、N+1フレームを有するメル空間に変換するステップであって、Nは整数である、変換するステップと、
    b.2)以下の式に従って、連続したフレームにわたるバンドエネルギー差に基づいてNビット2値指紋フレーム値を計算するステップであって、
    Figure 0006178840
    式中、E(n,m)は、フレームnの周波数帯域mのエネルギーであり、
    F(n,m)は、指紋フレームnの第mのビットである、計算するステップと
    を含む、請求項1に記載の方法。
  4. ステップ(c)は、前記候補2値音響指紋ビットマップと前記少なくとも1つの既知の2値音響指紋ビットマップとの間のハミング距離を計算するステップを含む、請求項1に記載の方法。
  5. 前記所定閾値はビット誤り率である、請求項1に記載の方法。
  6. 発信電話呼から候補オーディオセグメントを識別するための方法であって、
    a)前記候補オーディオセグメントのスペクトログラムを作成するステップと、
    b)前記スペクトログラムの候補2値指紋ビットマップを作成するステップと、
    c)前記候補2値指紋ビットマップを、既知の記録の少なくとも1つの既知の2値指紋ビットマップと比較するステップと、
    d)前記候補2値指紋ビットマップが所定閾値内で前記少なくとも1つの既知の2値指紋ビットマップのうちの1つに一致する場合、一致を宣言するステップと、
    e)前記候補2値指紋ビットマップが前記所定閾値内で前記少なくとも1つの既知の2値指紋ビットマップのうちの1つに一致しない場合、前記候補オーディオセグメントを分析するために代替のプロセスを使用するステップと
    を含む、方法。
  7. 前記候補2値指紋ビットマップおよび前記既知の2値指紋ビットマップは各々、音響指紋ビットマップを含む、請求項6に記載の方法。
  8. 前記記録はネットワークメッセージを含む、請求項6に記載の方法。
  9. 前記代替のプロセスは、留守番電話検出アルゴリズム、音声区間検出アルゴリズム、および呼進行分析アルゴリズムから成る群から選択されるプロセスを含む、請求項6に記載の方法。
  10. ステップ(a)は、離散フーリエ変換、離散コサイン変換、ウェーブレット変換、およびフィルタバンクから成る群から選択される変換を使用して前記候補オーディオセグメントを変換するステップを含む、請求項6に記載の方法。
  11. ステップ(b)は、
    b.1)前記スペクトログラムデータを、N+1フレームを有するメル空間に変換するステップであって、Nは整数である、変換するステップと、
    b.2)以下の式に従って、連続したフレームにわたるバンドエネルギー差に基づいてNビット2値指紋フレーム値を計算するステップであって、
    Figure 0006178840
    式中、E(n,m)は、フレームnの周波数帯域mのエネルギーであり、
    F(n,m)は、指紋フレームnの第mのビットである、計算するステップと
    を含む、請求項7に記載の方法。
  12. ステップ(c)は、前記候補2値指紋ビットマップと前記少なくとも1つの既知の2値指紋ビットマップとの間のハミング距離を計算するステップを含む、請求項6に記載の方法。
  13. 前記所定閾値はビット誤り率である、請求項6に記載の方法。
JP2015503224A 2012-03-28 2013-03-04 オーディオセグメントを識別するための方法 Active JP6178840B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/432,838 US8681950B2 (en) 2012-03-28 2012-03-28 System and method for fingerprinting datasets
US13/432,838 2012-03-28
PCT/US2013/028788 WO2013148069A1 (en) 2012-03-28 2013-03-04 System and method for fingerprinting datasets

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017138010A Division JP6535706B2 (ja) 2012-03-28 2017-07-14 データセットの3値ビットマップを作成するための方法

Publications (2)

Publication Number Publication Date
JP2015515646A JP2015515646A (ja) 2015-05-28
JP6178840B2 true JP6178840B2 (ja) 2017-08-09

Family

ID=49235038

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2015503224A Active JP6178840B2 (ja) 2012-03-28 2013-03-04 オーディオセグメントを識別するための方法
JP2017138010A Active JP6535706B2 (ja) 2012-03-28 2017-07-14 データセットの3値ビットマップを作成するための方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2017138010A Active JP6535706B2 (ja) 2012-03-28 2017-07-14 データセットの3値ビットマップを作成するための方法

Country Status (11)

Country Link
US (4) US8681950B2 (ja)
EP (3) EP3076554B1 (ja)
JP (2) JP6178840B2 (ja)
AU (3) AU2013240453B2 (ja)
BR (1) BR112014023865B1 (ja)
CA (1) CA2866347C (ja)
CL (3) CL2014002551A1 (ja)
HK (1) HK1202734A1 (ja)
NZ (2) NZ629522A (ja)
WO (1) WO2013148069A1 (ja)
ZA (1) ZA201406474B (ja)

Families Citing this family (201)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7516074B2 (en) * 2005-09-01 2009-04-07 Auditude, Inc. Extraction and matching of characteristic fingerprints from audio signals
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20120136701A1 (en) * 2010-11-26 2012-05-31 Rohan Relan Method and system for faciliating interactive commercials in real time
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8886635B2 (en) * 2012-05-23 2014-11-11 Enswers Co., Ltd. Apparatus and method for recognizing content using audio signal
WO2013184520A1 (en) * 2012-06-04 2013-12-12 Stone Troy Christopher Methods and systems for identifying content types
US9235867B2 (en) * 2012-06-04 2016-01-12 Microsoft Technology Licensing, Llc Concurrent media delivery
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US20140064107A1 (en) * 2012-08-28 2014-03-06 Palo Alto Research Center Incorporated Method and system for feature-based addressing
EP2891146B1 (en) 2012-08-30 2019-03-06 Interactive Intelligence, INC. Method and system for learning call analysis
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9263059B2 (en) 2012-09-28 2016-02-16 International Business Machines Corporation Deep tagging background noises
CN103856600B (zh) * 2012-12-04 2016-09-28 中兴通讯股份有限公司 一种内置搜索语音短信功能的移动终端及其搜索方法
US10971191B2 (en) * 2012-12-12 2021-04-06 Smule, Inc. Coordinated audiovisual montage from selected crowd-sourced content with alignment to audio baseline
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9571994B2 (en) * 2013-12-17 2017-02-14 Matthew Stephen Yagey Alert systems and methodologies
US9767266B2 (en) * 2013-12-20 2017-09-19 The Mitre Corporation Methods and systems for biometric-based user authentication by voice
US10303800B2 (en) 2014-03-04 2019-05-28 Interactive Intelligence Group, Inc. System and method for optimization of audio fingerprint search
US10074374B2 (en) * 2014-04-07 2018-09-11 Barco N.V. Ad hoc one-time pairing of remote devices using online audio fingerprinting
US10348724B2 (en) * 2014-04-07 2019-07-09 Barco N.V. Ad hoc one-time pairing of remote devices using online audio fingerprinting
US20150316666A1 (en) * 2014-05-05 2015-11-05 The Board Of Trustees Of The Leland Stanford Junior University Efficient Similarity Search of Seismic Waveforms
US9620105B2 (en) * 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9881083B2 (en) 2014-08-14 2018-01-30 Yandex Europe Ag Method of and a system for indexing audio tracks using chromaprints
WO2016024172A1 (en) * 2014-08-14 2016-02-18 Yandex Europe Ag Method of and a system for matching audio tracks using chromaprints with a fast candidate selection routine
US10447848B2 (en) * 2014-09-09 2019-10-15 Cyara Solutions Pty Ltd System and method for reliable call recording testing and proprietary customer information retrieval
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9704507B2 (en) * 2014-10-31 2017-07-11 Ensequence, Inc. Methods and systems for decreasing latency of content recognition
KR20160102815A (ko) * 2015-02-23 2016-08-31 한국전자통신연구원 잡음에 강인한 오디오 신호 처리 장치 및 방법
US10142471B2 (en) 2015-03-02 2018-11-27 Genesys Telecommunications Laboratories, Inc. System and method for call progress detection
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9653094B2 (en) 2015-04-24 2017-05-16 Cyber Resonance Corporation Methods and systems for performing signal analysis to identify content types
CN106294331B (zh) * 2015-05-11 2020-01-21 阿里巴巴集团控股有限公司 音频信息检索方法及装置
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9818414B2 (en) 2015-06-04 2017-11-14 Intel Corporation Dialogue system with audio watermark
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
KR20170101500A (ko) * 2016-02-29 2017-09-06 한국전자통신연구원 노이즈 제거를 통한 오디오 신호 식별 방법 및 장치
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9786298B1 (en) * 2016-04-08 2017-10-10 Source Digital, Inc. Audio fingerprinting based on audio energy characteristics
US10397663B2 (en) 2016-04-08 2019-08-27 Source Digital, Inc. Synchronizing ancillary data to content including audio
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
GB2556023B (en) * 2016-08-15 2022-02-09 Intrasonics Sarl Audio matching
RU2633159C1 (ru) * 2016-08-26 2017-10-11 Общество с ограниченной ответственностью "Лаборатория ИнфоВотч" Способ автоматизированного анализа растровых изображений
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10761802B2 (en) * 2017-10-03 2020-09-01 Google Llc Identifying music as a particular song
EP3477643B1 (en) * 2017-10-31 2019-10-16 Spotify AB Audio fingerprint extraction and audio recognition using said fingerprints
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
AU2019207800A1 (en) * 2018-01-10 2020-08-06 Qrs Music Technologies, Inc. Musical activity system
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10339974B1 (en) * 2018-03-01 2019-07-02 Motorola Solutions, Inc. Audio controller device and method of operation thereof
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
CN110322886A (zh) * 2018-03-29 2019-10-11 北京字节跳动网络技术有限公司 一种音频指纹提取方法及装置
CN110322897B (zh) 2018-03-29 2021-09-03 北京字节跳动网络技术有限公司 一种音频检索识别方法及装置
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
GB201810202D0 (en) 2018-06-21 2018-08-08 Magus Communications Ltd Answer machine detection method & apparatus
US10713544B2 (en) 2018-09-14 2020-07-14 International Business Machines Corporation Identification and/or verification by a consensus network using sparse parametric representations of biometric images
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10761841B2 (en) 2018-10-17 2020-09-01 Denso International America, Inc. Systems and methods for identifying source code from binaries using machine learning
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11120820B2 (en) 2018-12-05 2021-09-14 International Business Machines Corporation Detection of signal tone in audio signal
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11693860B2 (en) * 2019-01-31 2023-07-04 Optumsoft, Inc. Approximate matching
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN110047515B (zh) * 2019-04-04 2021-04-20 腾讯音乐娱乐科技(深圳)有限公司 一种音频识别方法、装置、设备及存储介质
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
KR20200142787A (ko) 2019-06-13 2020-12-23 네이버 주식회사 멀티미디어 신호 인식을 위한 전자 장치 및 그의 동작 방법
US11245959B2 (en) 2019-06-20 2022-02-08 Source Digital, Inc. Continuous dual authentication to access media content
US11990239B2 (en) 2019-07-12 2024-05-21 GE Precision Healthcare LLC System and method for analyzing noise in electrophysiology studies
US11276418B2 (en) 2019-09-12 2022-03-15 International Business Machines Corporation Acoustic signature generation by embedding user sentiments
US10897534B1 (en) * 2019-09-13 2021-01-19 International Business Machines Corporation Optimization for a call that waits in queue
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN111444376A (zh) * 2020-04-15 2020-07-24 厦门快商通科技股份有限公司 一种音频指纹的识别方法和装置以及设备
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11146686B1 (en) 2020-06-09 2021-10-12 Capital One Services, Llc Systems for identifying the answering party of an automated voice call
CA3184152A1 (en) * 2020-06-30 2022-01-06 Rivarol VERGIN Cumulative average spectral entropy analysis for tone and speech classification
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN111597379B (zh) * 2020-07-22 2020-11-03 深圳市声扬科技有限公司 音频搜索方法、装置、计算机设备和计算机可读存储介质
CN112511698B (zh) * 2020-12-03 2022-04-01 普强时代(珠海横琴)信息技术有限公司 一种基于通用边界检测的实时通话分析方法
CN112420072B (zh) * 2021-01-25 2021-04-27 北京远鉴信息技术有限公司 一种语谱图的生成方法、装置、电子设备及存储介质
EP4120099A1 (en) * 2021-07-14 2023-01-18 Utopia Music AG Apparatus for processing fingerprint hashes of audio stream
US11778094B2 (en) 2021-12-06 2023-10-03 Intrado Corporation Time tolerant prompt detection
US11825025B2 (en) * 2021-12-06 2023-11-21 Intrado Corporation Prompt detection by dividing waveform snippets into smaller snipplet portions
US12015737B2 (en) 2022-05-30 2024-06-18 Ribbon Communications Operating Company, Inc. Methods, systems and apparatus for generating and/or using communications training data

Family Cites Families (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4697209A (en) * 1984-04-26 1987-09-29 A. C. Nielsen Company Methods and apparatus for automatically identifying programs viewed or recorded
US4941168A (en) 1988-09-21 1990-07-10 U.S. Telecom International Inc. System for the recognition of automated telephone answering devices and delivery of prerecorded messages to such devices
US5007000A (en) 1989-06-28 1991-04-09 International Telesystems Corp. Classification of audio signals on a telephone line
US5581602A (en) 1992-06-19 1996-12-03 Inventions, Inc. Non-offensive termination of a call detection of an answering machine
US5404400A (en) 1993-03-01 1995-04-04 Dialogic Corporation Outcalling apparatus
US5621852A (en) * 1993-12-14 1997-04-15 Interdigital Technology Corporation Efficient codebook structure for code excited linear prediction coding
DE19536212B4 (de) 1994-09-28 2004-12-23 Rockwell International Corp., Downers Grove Anordnung zum Erkennen eines Anrufbeantworters
US5832115A (en) * 1997-01-02 1998-11-03 Lucent Technologies Inc. Ternary image templates for improved semantic compression
US7949104B1 (en) 1998-03-26 2011-05-24 The Broadcast Team, Inc. Message delivery system with echo-cancellation
US6208970B1 (en) 1998-12-21 2001-03-27 Nortel Networks Limited Method and system for estimation of a source of a voice signal
US6963975B1 (en) 2000-08-11 2005-11-08 Microsoft Corporation System and method for audio fingerprinting
US6990453B2 (en) 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US7359889B2 (en) 2001-03-02 2008-04-15 Landmark Digital Services Llc Method and apparatus for automatically creating database for use in automated media recognition system
US7406418B2 (en) 2001-07-03 2008-07-29 Apptera, Inc. Method and apparatus for reducing data traffic in a voice XML application distribution system through cache optimization
US20050234727A1 (en) 2001-07-03 2005-10-20 Leo Chiu Method and apparatus for adapting a voice extensible markup language-enabled voice system for natural speech recognition and system response
US20090144131A1 (en) 2001-07-03 2009-06-04 Leo Chiu Advertising method and apparatus
US7711570B2 (en) 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US7127058B2 (en) 2002-03-27 2006-10-24 Nortel Networks Limited Managing communications in a call center
US7117158B2 (en) 2002-04-25 2006-10-03 Bilcare, Inc. Systems, methods and computer program products for designing, deploying and managing interactive voice response (IVR) systems
US7190768B2 (en) 2002-08-20 2007-03-13 Avaya Technology Corp. Method and apparatus for human-assisted adaptive outbound telephone call classification based on pattern recognition
CN1708758A (zh) 2002-11-01 2005-12-14 皇家飞利浦电子股份有限公司 改进的音频数据指纹搜索
US7386101B2 (en) 2003-04-08 2008-06-10 Intervoice Limited Partnership System and method for call answer determination for automated calling systems
EP1704454A2 (en) 2003-08-25 2006-09-27 Relatable LLC A method and system for generating acoustic fingerprints
US7457396B2 (en) 2003-09-05 2008-11-25 Emc Corporation Automated call management
US7734032B1 (en) 2004-03-31 2010-06-08 Avaya Inc. Contact center and method for tracking and acting on one and done customer contacts
US7184521B2 (en) 2004-06-10 2007-02-27 Par3 Communications, Inc. Method and system for identifying a party answering a telephone call based on simultaneous activity
US7555114B1 (en) 2004-09-16 2009-06-30 Prairie Systems, Inc. System and method for analyzing outbound calling campaigns
US20060104433A1 (en) * 2004-11-18 2006-05-18 Simpson Jason D Call center campaign system
US7567899B2 (en) * 2004-12-30 2009-07-28 All Media Guide, Llc Methods and apparatus for audio recognition
US8090579B2 (en) 2005-02-08 2012-01-03 Landmark Digital Services Automatic identification of repeated material in audio signals
US8036374B2 (en) 2005-05-16 2011-10-11 Noble Systems Corporation Systems and methods for detecting call blocking devices or services
JP2006345181A (ja) * 2005-06-08 2006-12-21 Ntt Comware Corp アウトバンドキャンペーンシステム
JP2007004709A (ja) * 2005-06-27 2007-01-11 Toshiba Corp 対象パターン検出方法及びその装置
US7516074B2 (en) * 2005-09-01 2009-04-07 Auditude, Inc. Extraction and matching of characteristic fingerprints from audio signals
JP2007206603A (ja) 2006-02-06 2007-08-16 Nissan Motor Co Ltd 音響モデルの作成方法
US8145656B2 (en) 2006-02-07 2012-03-27 Mobixell Networks Ltd. Matching of modified visual and audio media
KR100774585B1 (ko) 2006-02-10 2007-11-09 삼성전자주식회사 변조 스펙트럼을 이용한 음악 정보 검색 방법 및 그 장치
US20080086311A1 (en) 2006-04-11 2008-04-10 Conwell William Y Speech Recognition, and Related Systems
US20080066098A1 (en) 2006-08-25 2008-03-13 Skyclix, Inc. Phone-based targeted advertisement delivery
US8023654B2 (en) * 2006-12-18 2011-09-20 Palo Alto Research Center Incorporated Securing multimedia network communication
EP2168061A1 (en) 2007-06-06 2010-03-31 Dolby Laboratories Licensing Corporation Improving audio/video fingerprint search accuracy using multiple search combining
US8243889B2 (en) * 2007-08-23 2012-08-14 Voxeo Corporation System and method for dynamic call-progress analysis and call processing
JP4596066B2 (ja) * 2007-12-06 2010-12-08 三菱電機株式会社 画像処理装置、画像処理方法および画像表示装置
JP4477678B2 (ja) * 2008-01-21 2010-06-09 富士通株式会社 電子署名方式、電子署名プログラムおよび電子署名装置
GB2457694B (en) * 2008-02-21 2012-09-26 Snell Ltd Method of Deriving an Audio-Visual Signature
US20100023328A1 (en) * 2008-07-28 2010-01-28 Griffin Jr Paul P Audio Recognition System
US8428301B2 (en) * 2008-08-22 2013-04-23 Dolby Laboratories Licensing Corporation Content identification and quality monitoring
JP5271669B2 (ja) * 2008-10-31 2013-08-21 株式会社日立製作所 生体認証方法およびシステム
US8300783B2 (en) 2009-02-09 2012-10-30 Applied Minds, Llc Method and apparatus for establishing data link based on audio connection
WO2010135687A1 (en) 2009-05-21 2010-11-25 Digimarc Corporation Combined watermarking and fingerprinting
US8484439B1 (en) * 2009-10-27 2013-07-09 Juniper Networks, Inc. Scalable hash tables
US20110173185A1 (en) * 2010-01-13 2011-07-14 Rovi Technologies Corporation Multi-stage lookup for rolling audio recognition
US8599836B2 (en) 2010-01-27 2013-12-03 Neobitspeak LLC Web-based, hosted, self-service outbound contact center utilizing speaker-independent interactive voice response and including enhanced IP telephony
US9275141B2 (en) * 2010-05-04 2016-03-01 Shazam Entertainment Ltd. Methods and systems for processing a sample of a media stream
US9047371B2 (en) * 2010-07-29 2015-06-02 Soundhound, Inc. System and method for matching a query against a broadcast stream
GB2487734B (en) * 2011-02-01 2017-02-08 Dxi Ltd Answer machine detection system
US9165124B1 (en) * 2012-02-01 2015-10-20 Convertro, Inc. Systems and methods for identifying a returning web client

Also Published As

Publication number Publication date
BR112014023865A2 (pt) 2017-06-20
EP2832080A4 (en) 2016-03-02
BR112014023865A8 (pt) 2021-06-15
CA2866347C (en) 2020-06-09
US20180144040A1 (en) 2018-05-24
NZ629522A (en) 2016-04-29
AU2016202320A1 (en) 2016-05-05
JP6535706B2 (ja) 2019-06-26
US8681950B2 (en) 2014-03-25
EP2832080B1 (en) 2017-05-03
HK1202734A1 (en) 2015-10-02
CL2016001146A1 (es) 2016-12-02
AU2013240453B2 (en) 2016-05-26
ZA201406474B (en) 2020-05-27
CL2016001145A1 (es) 2016-12-02
AU2016202340B2 (en) 2017-10-19
EP3076391B1 (en) 2018-07-04
WO2013148069A1 (en) 2013-10-03
BR112014023865B1 (pt) 2022-12-27
NZ713997A (en) 2017-05-26
JP2017207770A (ja) 2017-11-24
JP2015515646A (ja) 2015-05-28
EP2832080A1 (en) 2015-02-04
EP3076554B1 (en) 2017-11-22
EP3076554A1 (en) 2016-10-05
AU2013240453A1 (en) 2014-09-18
US10552457B2 (en) 2020-02-04
US9934305B2 (en) 2018-04-03
US9679042B2 (en) 2017-06-13
US20130259211A1 (en) 2013-10-03
US20140195501A1 (en) 2014-07-10
US20140149120A1 (en) 2014-05-29
EP3076391A1 (en) 2016-10-05
AU2016202340A1 (en) 2016-05-05
AU2016202320B2 (en) 2017-08-24
CA2866347A1 (en) 2013-10-03
CL2014002551A1 (es) 2015-05-08

Similar Documents

Publication Publication Date Title
JP6535706B2 (ja) データセットの3値ビットマップを作成するための方法
CN109285538B (zh) 一种基于常q变换域的加性噪声环境下手机来源识别方法
JP2023511104A (ja) ディープ残差ニューラルネットワークを用いたロバストなスプーフィング検出システム
Xu et al. Listening to sounds of silence for speech denoising
Ideli et al. Visually assisted time-domain speech enhancement
Ayoub et al. Gammatone frequency cepstral coefficients for speaker identification over VoIP networks
CN111508527B (zh) 一种电话应答状态检测方法、装置及服务器
Elminshawi et al. New insights on target speaker extraction
US20230116052A1 (en) Array geometry agnostic multi-channel personalized speech enhancement
Yadav et al. PS3DT: Synthetic Speech Detection Using Patched Spectrogram Transformer
Luo et al. Multi-Stream Gated and Pyramidal Temporal Convolutional Neural Networks for Audio-Visual Speech Separation in Multi-Talker Environments.
Yadav et al. Compression Robust Synthetic Speech Detection Using Patched Spectrogram Transformer
CN110782901B (zh) 一种识别网络电话语音的方法、存储介质及装置
Borrelli et al. Automatic reliability estimation for speech audio surveillance recordings
Jahanirad et al. Blind source computer device identification from recorded VoIP calls for forensic investigation
Pedersen et al. Data-Driven Non-Intrusive Speech Intelligibility Prediction Using Speech Presence Probability
Sokol et al. Automatic Speaker Verification on Compressed Audio
CN116129901A (zh) 语音识别方法、装置、电子设备及可读存储介质
Palivela et al. Voice Authentication System
Bharti et al. Speech Enhancement And Noise Reduction In Forensic Applications
CN114864026A (zh) 一种认知预警方法、装置、存储介质及设备
CN115831123A (zh) 一种号码状态检测方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151014

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161206

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170714

R150 Certificate of patent or registration of utility model

Ref document number: 6178840

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250