JP6916352B2 - 分類器モデル及びコンテキストパラメータを使用した遠隔メディア分類クエリに対する応答 - Google Patents
分類器モデル及びコンテキストパラメータを使用した遠隔メディア分類クエリに対する応答 Download PDFInfo
- Publication number
- JP6916352B2 JP6916352B2 JP2020114761A JP2020114761A JP6916352B2 JP 6916352 B2 JP6916352 B2 JP 6916352B2 JP 2020114761 A JP2020114761 A JP 2020114761A JP 2020114761 A JP2020114761 A JP 2020114761A JP 6916352 B2 JP6916352 B2 JP 6916352B2
- Authority
- JP
- Japan
- Prior art keywords
- media
- classification model
- query
- classification
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004044 response Effects 0.000 title description 15
- 238000013145 classification model Methods 0.000 claims description 201
- 238000000034 method Methods 0.000 claims description 95
- 238000012549 training Methods 0.000 claims description 46
- 238000013528 artificial neural network Methods 0.000 claims description 30
- 238000010183 spectrum analysis Methods 0.000 claims description 6
- 238000010835 comparative analysis Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 70
- 230000003595 spectral effect Effects 0.000 description 42
- 230000009471 action Effects 0.000 description 35
- 238000013527 convolutional neural network Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 26
- 230000008569 process Effects 0.000 description 24
- 238000012545 processing Methods 0.000 description 18
- 230000006399 behavior Effects 0.000 description 16
- 230000008859 change Effects 0.000 description 15
- 230000005236 sound signal Effects 0.000 description 15
- 230000005540 biological transmission Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000005070 sampling Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 206010011469 Crying Diseases 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241000473391 Archosargus rhomboidalis Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/41—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/61—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
方法は、
一つ又は複数のプロセッサ回路を使用して、特定されるべきメディアクエリを表すデジタルメディアデータにアクセスするステップであって、デジタルメディアデータが、第1の遠隔デバイスによって与えられる、アクセスするステップと、
一つ又は複数のプロセッサ回路を使用して、特定されるべきメディアクエリに対応する第1のコンテキストパラメータにアクセスするステップであって、第1のコンテキストパラメータが、同じ第1の遠隔デバイスによって与えられる、アクセスするステップと、
一つ又は複数のプロセッサ回路を使用して、デジタルメディアデータに対応するスペクトル特徴を決定するステップと、
一つ又は複数のプロセッサ回路を使用して、データベースに記憶された第1の分類モデルを選択するステップであって、第1の分類モデルが、データベースに記憶された複数の異なる分類モデルのうちの一つであり、選択が、第1のコンテキストパラメータに基づく、選択するステップと
を含む。
実施例1は、一つ又は複数のプロセッサ回路を使用して、デジタルメディアデータに対応する決定されたスペクトル特徴及び第1の分類モデルを使用してメディアクエリのメディアタイプ確率指数を決定するステップであって、決定されたメディアタイプ確率指数は、メディアクエリが複数の異なるメディア特性のうちの少なくとも一つのメディア特性に対応する尤度を示す、決定するステップを含むことができる。
実施例1は、第1の遠隔デバイスにおいて、メディアタイプ確率指数及び少なくとも一つのメディア特性のうちの一方又は両方を受信するステップをさらに含むことができる。
一つ又は複数のプロセッサ回路を使用して、デジタルメディアデータの変化又は第1のコンテキストパラメータの変化を特定し、応答して、複数の異なる分類モデルの間から異なる第2の分類モデルを選択するステップと、
一つ又は複数のプロセッサ回路を使用して、異なる第2の分類モデルを使用して更新済みメディアタイプ確率指数を決定するステップと
をさらに含むために、実施例1の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
複数の異なる分類モデルの間から第1の分類モデルを選択するステップが、
決定されたスペクトル特徴のうちの一つ又は複数を選択することと、
ニューラルネットワークの第1の部分とともに、選択された一つ又は複数の特徴に関する情報を使用することと
を含むことと、
メディアタイプ確率指数を決定するステップが、ニューラルネットワークの出力を使用することを含むこと
をさらに含むために、実施例1又は2の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
メディアタイプ確率指数を決定するステップが、デジタルメディアデータが指定のオーディオイベント又は指定の視覚的イベントに対応する尤度の指示を与える、選択された第1の分類モデルとともにニューラルネットワークを使用することを含むことと、
ニューラルネットワークが、指定のオーディオイベント又は指定の視覚的イベントに関する事前の情報を使用して事前に訓練されていることと
をさらに含むために、実施例1〜3のうちの少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
第1のコンテキストパラメータにアクセスするステップが、デジタルメディアデータが携帯デバイスのマイクロフォンによって受信されるオーディオデータを含むことを示すコンテキストパラメータにアクセスすることを含むことと、
第1の分類モデルを選択するステップが、携帯デバイスの発話/音楽分類モデルを選択することを含むことと、
メディアタイプ確率指数を決定するステップが、
携帯デバイスの選択された発話/音楽分類モデルを使用することと、
携帯デバイスのマイクロフォンによって受信されたオーディオデータを含むデジタルメディアデータに対応する決定されたスペクトル特徴を使用することと
を含むことと
をさらに含むために、実施例1〜4の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
第1のコンテキストパラメータにアクセスするステップが、デジタルメディアデータがテレビ放送から受信されるオーディオデータを含むことを示すコンテキストパラメータにアクセスすることを含むことと、
第1の分類モデルを選択するステップが、テレビ放送の発話/音楽分類モデルを選択することを含むことと、
オーディオタイプ確率指数を決定するステップが、テレビ放送の選択された発話/音楽分類モデルを使用することと、テレビ放送から受信されたオーディオデータを含むデジタルメディアデータに対応する決定されたスペクトル特徴を使用することとを含むことと
をさらに含むために、実施例1〜5の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
第1のコンテキストパラメータにアクセスするステップが、デジタルメディアデータのソースタイプの指示にアクセスすることを含むことと、
ソースタイプが、携帯デバイス、放送ビデオストリーム若しくは放送オーディオストリーム、局所信号源、又はマイクロフォン信号源のうちの一つ又は複数を含むことと
をさらに含むために、実施例1〜6の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
一つ又は複数のプロセッサ回路を使用して、特定されるべきメディアクエリに対応する第2のコンテキストパラメータにアクセスすることであって、第2のコンテキストパラメータが、同じ第1の遠隔デバイス又は異なるデバイスによって与えられる、アクセスするステップと、
一つ又は複数のプロセッサ回路を使用して、第1のコンテキストパラメータ及び第2のコンテキストパラメータの各々とそれぞれ関連付けられる探索範囲特性を決定するステップと、
データベースから、一つ又は複数のプロセッサ回路を使用して、より狭い探索範囲と関連付けられる第1のコンテキストパラメータ及び第2のコンテキストパラメータのうちの一方を選択するステップであって、第1の分類モデルを選択するステップが、より狭い探索範囲と関連付けられる、第1のコンテキストパラメータ及び第2のコンテキストパラメータのうちの選択された一方を使用することを含む、選択するステップと
をさらに含むために、実施例1〜7の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
一つ又は複数のプロセッサ回路を使用して、特定されるべきメディアクエリに対応する第2のコンテキストパラメータにアクセスするステップと、
一つ又は複数のプロセッサ回路を使用して、第1のコンテキストパラメータ及び第2のコンテキストパラメータの各々とそれぞれ関連付けられる信号品質特性を決定するステップと、
一つ又は複数のプロセッサ回路を使用して、決定されたそれぞれの信号品質特性に基づいて、第1のコンテキストパラメータ及び第2のコンテキストパラメータのうちの一方を選択するステップであって、第1の分類モデルを選択するステップが、第1のコンテキストパラメータ及び第2のコンテキストパラメータのうちの選択された一方を使用することを含む、選択するステップと
をさらに含むために、実施例1〜8の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
メディアクエリに対応する第1のコンテキストパラメータにアクセスするステップが、特定されるべきメディアクエリと時間的に一致するコンテキスト情報にアクセスすることを含むこと
をさらに含むために、実施例1〜9の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
第1のコンテキストパラメータにアクセスするステップが、デジタルメディアデータ自体のサンプリングされた部分の決定された特性を使用して第1のコンテキストパラメータを決定することを含むこと
をさらに含むために、実施例1〜10の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
メディアデータ自体を使用して第1のコンテキストパラメータを決定するステップが、以前に記録されている音楽、生音楽、発話、テレビオーディオ、映画オーディオ、ゲームオーディオ、又は他のオーディオのうちの一つ又は複数をメディアデータが含むかを決定することを含むこと
を含むか又は使用するために、実施例11の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
第1のコンテキストパラメータにアクセスするステップが、第1の遠隔デバイスと関連付けられるセンサデバイスからコンテキスト情報を受信することを含み、
センサデバイスが、GPS若しくは位置センサ、加速度計、マイクロフォン、クロック若しくはタイマ回路、又はユーザ入力のうちの一つ又は複数を含むこと
をさらに含むために、実施例1〜12の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
先行するデジタルメディアデータがアクセスされてからメディアクエリに閾値変化が発生したか否かを決定するためにデジタルメディアデータに対応する決定されたスペクトル特徴を分析するステップと、
閾値変化が発生しなかった場合、メディアタイプ確率指数を決定することを抑制するステップと
をさらに含むために、実施例1〜13の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
デジタルメディアデータにアクセスするステップが、連続的なクエリ音声源からオーディオデータを周期的に又は断続的にサンプリングすることを含むことと、
メディアタイプ確率指数を決定するステップが、それぞれの周期的に又は断続的にサンプリングされたオーディオデータの各々についてオーディオタイプ確率指数を決定することを含むことと
をさらに含むために、実施例1〜14の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
探索深度パラメータを決定するステップと、
メディアタイプ確率指数を決定するステップが、探索深度パラメータを使用して、メディアタイプ確率指数の決定に消費するプロセッサ回路資源量を決定することを含むことと
をさらに含むために、実施例1〜15の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
デジタルメディアデータにアクセスするステップが、
メディアデータの信号品質を分析することと、
信号品質が不十分である場合、メディアクエリの異なる部分に対応するデジタルメディアデータを再サンプリングすることと
を含むことをさらに含むために、実施例1〜16の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
第1の分類モデルを選択するステップが、指定のユーザと事前に関連付けられている複数の分類モデルの間からモデルを選択することを含むこと
をさらに含むために、実施例1〜17の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
メディアクエリと関連付けられるメディアタイプ確率指数を決定するステップが、スペクトル特徴を、メディアタイプ確率指数及び/又は少なくとも一つのメディア特性を与える畳み込みニューラルネットワークに対する入力として使用することを含むこと
をさらに含むために、実施例1〜18の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
命令を含む有形非一時的機械可読記憶媒体であって、命令は、機械の少なくとも一つのプロセッサによって実行されると、機械に、動作を実施させる、有形非一時的機械可読記憶媒体を含むか又は使用することができるなど、主題(装置、方法、動作を実施するための手段、又は、命令を含む機械可読メモリであって、命令は、機械によって実施されると、機械に動作を実施させるように機械を構成することができる機械可読メモリなど)を含むか又は使用することができ、
動作が、
遠隔デバイスから、特定されるべきメディアクエリを表すデジタルメディアデータを受信する動作と、
遠隔デバイスから、特定されるべきメディアクエリに対応する第1のコンテキストパラメータを受信する動作と、
データベースから第1の分類モデルを選択する動作であって、第1の分類モデルが、データベースに記憶された複数の異なる分類モデルのうちの一つであり、選択が、第1のコンテキストパラメータに基づく、選択する動作と、
選択された第1の分類モデルを適用するニューラルネットワークを使用して、メディアクエリのメディアタイプ確率指数を決定する動作と、
決定されたメディアタイプ確率指数を使用して、メディアクエリの少なくとも一つのメディア特性を決定する動作と、
遠隔デバイスに、メディアクエリの少なくとも一つのメディア特性を与える動作と
を含む。
動作が、
同じ又は異なる遠隔デバイスから、特定されるべき同じ又は異なるメディアクエリに対応する後続の第2のコンテキストパラメータを受信する動作と、
データベースから第2の分類モデルを選択する動作であって、選択は、第2のコンテキストパラメータに基づく、選択する動作と、
選択された第2の分類モデルを適用するニューラルネットワークを使用して、特定されるべき同じ又は異なるメディアクエリの更新済みメディアタイプ確率指数を決定する動作と
をさらに含むことを含むために、実施例20の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
動作が、
遠隔デバイスの状態の変化の指示を受信する動作と、
指示の受信に応答して、
特定されるべき同じ又は異なるメディアクエリに対応する後続の第2のコンテキストパラメータにアクセスする動作と、
データベースから第2の分類モデルを選択する動作であって、選択は、第2のコンテキストパラメータに基づく、選択する動作と、
選択された第2の分類モデルを適用するニューラルネットワークを使用して、特定されるべき同じ又は異なるメディアクエリの更新済みメディアタイプ確率指数を決定する動作と
をさらに含むことをさらに含むために、実施例20及び21の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
遠隔デバイスの状態の変化の指示を受信する動作が、デバイスに対応する環境特性の変化に関する検知された情報を受信することを含むこと
を含む又は使用するために、実施例22の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
動作が、
メディアクエリと関連付けられるノイズ特性を決定する動作と、
決定されたノイズ特性が、指定の閾値ノイズレベルを超えるメディアクエリと関連付けられるノイズレベルを示すとき、第1のコンテキストパラメータにアクセスする動作、データベースから第1の分類モデルを選択する動作、又は、メディアタイプ確率指数を決定する動作のうちの一つ又は複数を抑制する動作と
をさらに含むことをさらに含むために、実施例20〜23の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
動作が、
メディアクエリと関連付けられるスペクトル特性を決定する動作と、
決定されたスペクトル特性に基づいて、第1のコンテキストパラメータにアクセスする動作、データベースから第1の分類モデルを選択する動作、又は、メディアタイプ確率指数を決定する動作のうちの一つ又は複数を選択的に抑制する動作と
をさらに含むことをさらに含むために、実施例20〜24の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
第1のプロセッサ回路、
特定されるべきメディアクエリを表すデジタルメディアデータを受信するように構成されている第1のセンサ、及び、
携帯デバイスに関する第1のコンテキスト情報を検知するように構成されている第2のセンサを
含む携帯デバイスを備えるシステムを含むか又は使用することができるなど、主題(装置、方法、動作を実施するための手段、又は、機械によって実施されると、動作を実施するように機械を構成することができる命令を含む機械可読メモリなど)を含むか又は使用することができ、第1のプロセッサ回路が、デジタルメディアデータ及び第1のコンテキスト情報を遠隔メディア分類器に送信するように構成されている。
実施例26において、システムは、
遠隔メディア分類器と関連付けられる第2のプロセッサ回路をさらに備えることができ、第2のプロセッサ回路が、携帯デバイスからデジタルメディアデータ及び第1のコンテキスト情報を受信するように構成されており、第2のプロセッサ回路が、第2のプロセッサ回路に動作を実施させる命令を実行するように構成されており、
動作が、
複数の異なる分類モデルを含むデータベースから第1の分類モデルを選択する動作であって、選択が、受信されたデジタルメディアデータ及び第1のコンテキスト情報に基づく、選択する動作と、
選択された第1の分類モデル及びデジタルメディアデータを使用して、特定されるべきメディアのメディア特性を決定する動作と、
決定されたメディア特性を携帯デバイスに提供する動作と
を含む。
第1のプロセッサ回路が、指定の間隔をおいて遠隔メディア分類器に対する一連のデータ送信を整理するように構成されていることと、
データ送信が、第1のセンサを使用してサンプリングされたデジタルメディアデータのそれぞれのサンプルと、第2のセンサを使用して検知されたコンテキスト情報の対応するサンプルとを含むことと、
第2のプロセッサ回路が、第2のプロセッサ回路に、動作を実施させる命令を実行するように構成されていることであって、
動作が、
データベースから異なる第2の分類モデルを選択する動作であり、選択が、サンプリングされたデジタルメディアデータ及び対応するサンプリングされたコンテキスト情報の対応する対に基づく、選択する動作、及び、
選択された異なる第2の分類モデルを使用してメディア特性を決定する動作
を含む、構成されていることと
を含み又は使用するために、実施例26の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
携帯デバイスが、携帯デバイスに関する異なる第2のコンテキスト情報を検知するように構成されている第3のセンサをさらに備えることと、
第1のプロセッサ回路及び第2のプロセッサ回路のうちの一方が、データベースからの第1の分類モデルの選択に使用するための、第1のコンテキスト情報及び異なる第2のコンテキスト情報のうちの一方を選択するように構成されていることと
をさらに含むために、実施例26及び27の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
携帯デバイスが、デジタルメディアデータ及び第1のコンテキスト情報のうちの一方又は両方のノイズ特性を特定するように構成されているスペクトル分析回路をさらに備えることと、
第1のプロセッサ回路が、特定されたノイズ特性が、指定の閾値ノイズレベルよりも低いノイズレベルを示すときに、デジタルメディアデータ及び第1のコンテキスト情報を遠隔メディア分類器に送信するように構成されていることと
をさらに含むために、実施例26〜28の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
携帯デバイスが、デジタルメディアデータの周波数特性を特定するように構成されているスペクトル分析回路をさらに備えることと、
第1のプロセッサ回路が、特定された周波数特性が、指定の周波数特性条件を満たすときに、デジタルメディアデータ及び第1のコンテキスト情報を遠隔メディア分類器に送信するように構成されていることと
をさらに含むために、実施例26〜29の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
第2のセンサが、デジタルメディアデータと関連付けられる周囲のノイズ特性を検知するように構成されているマイクロフォンを含むことと、
第2のプロセッサ回路が、デジタルメディアデータと関連付けられる、検知された周囲のノイズ特性を使用して、データベースからの第1の分類モデルの選択を実施するように構成されていることと
をさらに含むために、実施例26〜30の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
第2のセンサが、携帯デバイスのロケーションに関する情報を検知するように構成されている位置センサを含むことと、
第2のプロセッサ回路が、携帯デバイスのロケーションに関する検知された情報を使用して、データベースからの第1の分類モデルの選択を実施するように構成されていることと
をさらに含むために、実施例26〜31の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
方法が、
第1のデバイスと関連付けられる一つ又は複数のプロセッサ回路を使用して、特定されるべきメディアクエリを表すデジタルメディアデータにアクセスするステップと、
第1のデバイスと関連付けられる一つ又は複数のプロセッサ回路を使用して、デジタルメディアデータに対応するノイズ特性を決定するステップと、
決定されたノイズ特性が、デジタルメディアデータに対応するノイズが指定の閾値量未満であることを示す場合には、デジタルメディアデータを、デジタルメディアデータのソース特性を特定するように構成されている遠隔メディア分類回路に送信するステップ、ノイズが指定の閾値量未満であることを前記ノイズ特性が示さない場合には、デジタルメディアデータを遠隔メディア分類回路に送信するのを抑制するステップと
を含む。
デジタルメディアデータにアクセスするステップが、携帯デバイスのマイクロフォンを使用してオーディオ信号を受信することを含むことと、
ノイズ特性を決定するステップが、一つ又は複数のプロセッサ回路を使用して、受信されたオーディオ信号のノイズ特性を決定することを含むことと
をさらに含むために、実施例33の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
第1のデバイスと関連付けられる一つ又は複数のプロセッサ回路を使用して、特定されるべきメディアクエリに対応する第1のコンテキストパラメータにアクセスするステップと、
第1のデバイスと関連付けられる一つ又は複数のプロセッサ回路を使用して、第1のコンテキストパラメータに対応する信号品質特性を決定するステップと
をさらに含むために、実施例33又は34の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
実施例35において、第1のコンテキストパラメータに対応する、決定された信号品質特性が指定の閾値信号品質未満である場合、実施例は、遠隔メディア分類回路にデジタルメディアデータを送信するのを抑制するステップを含むことができる。
閾値ノイズ特性のデータベースから指定閾値量のノイズを取り出すステップであって、データベースが、ニューラルネットワークに基づく分類器システムによる、同じ又は類似のメディアクエリの事前の訓練によって確立され、データベースが、第1のデバイス又は遠隔メディア分類回路に記憶された、取り出すステップ
をさらに含むために、実施例33〜35の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
デジタルメディアデータをメディア分類回路に送信するステップが、デジタルメディアデータを、畳み込みニューラルネットワーク分類システムの入力に提供することを含むこと
をさらに含むために、実施例33〜36の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
決定されたノイズ特性が第1の指定のノイズ閾値範囲に対応する場合、メディア分類回路を使用して第1の探索深度を有する第1のメディア分類プロセスを開始するステップと、
決定されたノイズ特性が第2のより大きいノイズ閾値範囲に対応する場合、メディア分類回路を使用して異なる第2の探索深度を有する第2のメディア分類プロセスを開始するステップと
をさらに含むために、実施例33〜37の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
デジタルメディアデータに対応する、決定されたノイズ特性に基づいてメディア分類探索深度を選択するステップであって、選択されたメディア分類探索深度は、デジタルメディアデータのソース特性を特定するために経過する最大処理時間又はメディア分類回路によって費やされる最大処理労力を示す、選択するステップ
をさらに含むために、実施例33〜38の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
遠隔メディア分類回路を使用して、デジタルメディアデータに対応する、決定されたノイズ特性を、分類に成功している他のメディアデータに対応するノイズ特性及び分類に成功していない他のメディアデータに対応するノイズ特性と比較するステップと、
決定されたノイズ特性が、分類に成功していない他のメディアデータに対応するノイズ特性よりも、分類に成功している他のメディアデータに対応するノイズ特性に近密に対応する場合、デジタルメディアデータをメディア分類回路に送信するステップと
をさらに含むために、実施例33〜39の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
デジタルメディアデータのメディア分類回路への送信を抑制するステップが、
特定されるべき異なるメディアクエリを表す後続のデジタルメディアデータにアクセスすることと、
後続のデジタルメディアデータに対応する更新済みノイズ特性を決定することと、更新済みノイズ特性が指定の閾値量未満のノイズを示すか否かを決定することと
を含むことをさらに含むために、実施例33〜40の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
デジタルメディアデータにアクセスするステップが、第1のデバイスを使用して、メディアクエリに対応するオーディオサンプルにアクセスすることをさらに含むことと、
ノイズ特性を決定するステップが、オーディオサンプルのノイズ特性を決定することを含むことと、
デジタルメディアデータを送信するステップが、オーディオサンプルの全部又は一部分をメディア分類回路に送信することを含むことと
をさらに含むために、実施例33〜41の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
デジタルメディアデータにアクセスするステップが、メディアクエリに対応するビデオ信号サンプルにアクセスすることを含むことと、
ノイズ特性を決定するステップが、ビデオ信号サンプルの視覚的特性を決定することを含むことと、
デジタルメディアデータを送信するステップが、ビデオ信号サンプルの全部又は一部分をメディア分類回路に送信することを含むことと
をさらに含むために、実施例33〜42の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
第1のデバイスにおいて、メディア分類回路から、デジタルメディアデータのソース特性の指示を受信するステップと、
デジタルメディアデータのソース特性の指示を、携帯デバイスのユーザに表示するステップと
をさらに含むために、実施例33〜43の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
動作が、
一つ又は複数のプロセッサ回路を使用して、特定されるべきメディアクエリを表すデジタルメディアデータにアクセスする動作と、
一つ又は複数のプロセッサ回路を使用して、デジタルメディアデータのスペクトル特性に基づくニューラルネットワーク分類器によってメディアクエリの特定に成功することができる尤度を決定する動作と、
決定された尤度が指定の閾値尤度よりも高い場合には、
デジタルメディアデータをニューラルネットワーク分類器の第1の入力に提供する動作と、
デジタルメディアデータに応答して、メディアクエリのメディアタイプ確率指数をニューラルネットワーク分類器から受信する動作と、
メディアタイプの指示を遠隔デバイスのユーザに提供するために遠隔デバイスにメディアタイプ確率指数に関する情報を提供する動作と
を含む。
デジタルメディアデータに対応する信号ノイズ特性を決定することを含む動作と、
ニューラルネットワーク分類器によってメディアクエリの特定に成功することができる尤度を決定する動作が、決定された信号ノイズ特性に基づいて尤度を決定することを含むことと
をさらに含むために、実施例45の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
デジタルメディアデータに対応する周波数内容特性を決定することを含む動作と、
ニューラルネットワーク分類器によってメディアクエリの特定に成功することができる尤度を決定する動作が、決定された周波数内容特性に基づいて尤度を決定することと
をさらに含むように、実施例45又は46の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
メディアクエリと関連付けられるコンテキストパラメータにアクセスすることを含む動作であって、コンテキストパラメータ及びデジタルメディアデータは遠隔デバイスからアクセスされる、動作と、
尤度を決定する動作が、ネットワークノード重み付けモデルに基づいて構成されているニューラルネットワーク分類器によってメディアクエリの特定に成功することができる尤度を決定する動作を含むことと、
重み付けモデルがアクセスされているコンテキストパラメータに基づいて選択されることと
をさらに含むために、実施例45〜47の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
特定されるべきメディアクエリを表すデジタルメディアデータを受信するように構成されている第1のセンサ、及び、
デジタルメディアデータを遠隔メディア分類器回路に送信するように構成されている第1のプロセッサ回路
を備える携帯デバイスを備えるシステムを含むか又は使用することができるなど、主題(装置、方法、動作を実施するための手段、又は、機械によって実施されると、動作を実施するように機械を構成することができる命令を含む機械可読メモリなど)を含むか又は使用することができる。
実施例49において、システムが、遠隔メディア分類回路と関連付けられる第2のプロセッサ回路をさらに含むことができ、第2のプロセッサ回路は、携帯デバイスからデジタルメディアデータを受信するように構成されており、第2のプロセッサ回路が、第2のプロセッサ回路に動作を実施させる命令を実行するように構成されており、
動作が、
デジタルメディアデータに対応するスペクトル特性を決定する動作と、
デジタルメディアデータに対応する、決定されたスペクトル特性に基づいて、少なくとも部分的に、第2のプロセッサ回路によって、デジタルメディアデータを入力として使用して実行される畳み込みニューラルネットワークに基づくメディア分類器を有効化又は抑制する動作であって、畳み込みニューラルネットワークに基づくメディア分類器が、デジタルメディアデータが指定のメディアクラスに対応する尤度の指示を携帯デバイスに通信するように構成されている、有効化又は抑制する動作と
を含む。
携帯デバイスが、特定されるべきメディアクエリに対応する第1のコンテキスト情報を検知するように構成されている第2のセンサをさらに含むことと、
第1のプロセッサ回路が、デジタルメディアデータ及び第1のコンテキスト情報を遠隔メディア分類器回路に送信するように構成されていることと
をさらに含むために、実施例49の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
実施例50において、第2のプロセッサ回路が、畳み込みニューラルネットワークに基づくメディア分類プロセスを有効化するとき、第2のプロセッサ回路の動作が、
複数の異なる分類モデルを含むデータベースから畳み込みニューラルネットワークによって使用するための第1の分類モデルを選択する動作であって、選択が、受信されたデジタルメディアデータ及び携帯デバイスに関する第1のコンテキスト情報に基づく、選択する動作
をさらに含む。
第2のプロセッサ回路が、第2のプロセッサ回路に動作を実施させる命令を実行するように構成されており、
動作が、
複数のノード重み付けモデルを含むデータベースからニューラルネットワークノード重み付けモデルを選択する動作であって、選択されたモデルは、デジタルメディアデータが指定のメディアクラスに対応する尤度の指示を与える畳み込みニューラルネットワークに基づくメディア分類器によって使用するためのものであり、モデルの選択は、デジタルメディアデータに対応する決定されたスペクトル特性を使用し、選択されたモデルは、畳み込みニューラルネットワークに基づくメディア分類器内の一つ又は複数のノードの重み付け特性を規定する、選択する動作を含むこと
をさらに含むために、実施例49又は50の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
携帯デバイスの第1のプロセッサ回路が、デジタルメディアデータの信号ノイズ特性を特定し、特定された信号ノイズ特性が、デジタルメディアデータのノイズが指定の閾値量未満であることを示すときにのみ、デジタルメディアデータを遠隔メディア分類器回路に送信するようにさらに構成されていること
をさらに含むために、実施例49〜51の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[発明の項目]
[項目1]
システムであって、
携帯デバイスであり、
第1のプロセッサ回路、
特定されるべきメディアクエリを表すデジタルメディアデータを受信するように構成されている第1のセンサ、及び
前記携帯デバイスに関する第1のコンテキスト情報を検知するように構成されている第2のセンサを含み、
前記第1のプロセッサ回路が、前記デジタルメディアデータ及び前記第1のコンテキスト情報を遠隔メディア分類器に送信するように構成されている、携帯デバイスと、
前記遠隔メディア分類器と関連付けられる第2のプロセッサ回路であり、前記第2のプロセッサ回路は、前記携帯デバイスから前記デジタルメディアデータ及び前記第1のコンテキスト情報を受信するように構成されており、前記第2のプロセッサ回路が、前記第2のプロセッサ回路に動作を実施させる命令を実行するように構成されており、
前記動作が、
複数の異なる分類モデルを含むデータベースから第1の分類モデルを選択する動作であって、前記選択が、前記デジタルメディアデータ及び前記第1のコンテキスト情報に基づく、選択する動作と、
前記第1の分類モデル及び前記デジタルメディアデータを使用して、特定されるべき前記メディアのメディア特性を決定する動作と、
前記メディア特性を前記携帯デバイスに提供する動作と、
を含む、第2のプロセッサ回路と、
を含む、システム。
[項目2]
前記第1のプロセッサ回路が、指定の間隔をおいて前記遠隔メディア分類器に対する一連のデータ送信を整理するように構成されており、
前記一連のデータ送信が、前記第1のセンサを使用してサンプリングされたデジタルメディアデータのそれぞれのサンプルと、前記第2のセンサを使用して検知されたコンテキスト情報の対応するサンプルと、を含み、
前記第2のプロセッサ回路が、前記第2のプロセッサ回路に、動作を実施させる命令を実行するように構成されており、
前記動作が、
前記データベースから第2の分類モデルを選択する動作であり、前記選択が、前記デジタルメディアデータのサンプル及び前記コンテキスト情報の前記対応するサンプルの対応する対に基づく、選択する動作、及び
前記第2の分類モデルを使用して前記メディア特性を決定する動作、
を含む、項目1に記載のシステム。
[項目3]
前記携帯デバイスが、前記携帯デバイスに関する第2のコンテキスト情報を検知するように構成されている第3のセンサをさらに含み、
前記第1のプロセッサ回路及び前記第2のプロセッサ回路のうちの一方が、前記データベースからの前記第1の分類モデルを選択するために、前記第1のコンテキスト情報又は前記第2のコンテキスト情報のうちの一方を選択するように構成されている、項目1に記載のシステム。
[項目4]
前記携帯デバイスが、前記デジタルメディアデータ及び前記第1のコンテキスト情報のうちの一方又は両方のノイズ特性を特定するように構成されているスペクトル分析回路をさらに含み、
前記第1のプロセッサ回路は、前記ノイズ特性が、指定の閾値ノイズレベルよりも低いノイズレベルを示すときに、前記デジタルメディアデータ及び前記第1のコンテキスト情報を前記遠隔メディア分類器に送信するように構成されている、項目1に記載のシステム。
[項目5]
前記携帯デバイスが、前記デジタルメディアデータの周波数特性を特定するように構成されているスペクトル分析回路をさらに含み、
前記第1のプロセッサ回路は、前記周波数特性が、指定の周波数特性条件を満たすときに、前記デジタルメディアデータ及び前記第1のコンテキスト情報を前記遠隔メディア分類器に送信するように構成されている、項目1に記載のシステム。
[項目6]
前記第2のセンサが、前記デジタルメディアデータと関連付けられる周囲のノイズ特性を検知するように構成されているマイクロフォンを含み、
前記第2のプロセッサ回路が、前記デジタルメディアデータと関連付けられる前記周囲のノイズ特性を使用して、前記データベースからの前記第1の分類モデルの前記選択を実施するように構成されている、項目1に記載のシステム。
[項目7]
前記第2のセンサが、前記携帯デバイスのロケーションに関する情報を検知するように構成されている位置センサを含み、
前記第2のプロセッサ回路が、前記携帯デバイスのロケーションに関する前記情報を使用して、前記データベースからの前記第1の分類モデルの前記選択を実施するように構成されている、項目1に記載のシステム。
[項目8]
方法であって、前記方法は、
一つ又は複数のプロセッサ回路を使用して、特定されるべきメディアクエリを表すデジタルメディアデータにアクセスするステップであって、前記デジタルメディアデータが、第1の遠隔デバイスによって与えられる、アクセスするステップと、
前記一つ又は複数のプロセッサ回路を使用して、特定されるべき前記メディアクエリに対応する第1のコンテキストパラメータにアクセスするステップであって、前記第1のコンテキストパラメータが、前記第1の遠隔デバイスによって与えられる、アクセスするステップと、
前記一つ又は複数のプロセッサ回路を使用して、前記デジタルメディアデータに対応する特徴を決定するステップと、
前記一つ又は複数のプロセッサ回路を使用して、データベースに記憶された第1の分類モデルを選択するステップであって、前記第1の分類モデルが、前記データベースに記憶された複数の異なる分類モデルのうちの一つであり、前記選択が、前記第1のコンテキストパラメータに基づく、選択するステップと、
前記一つ又は複数のプロセッサ回路を使用して、前記デジタルメディアデータに対応する前記特徴及び前記第1の分類モデルを使用して前記メディアクエリのメディアタイプ確率指数を決定するステップであって、前記メディアタイプ確率指数は、前記メディアクエリが複数の異なるメディア特性のうちの少なくとも一つのメディア特性に対応する尤度を示す、決定するステップと、
前記第1の遠隔デバイスにおいて、前記メディアタイプ確率指数及び前記少なくとも一つのメディア特性のうちの一方又は両方を受信するステップと、
を含む、方法。
[項目9]
複数の異なる分類モデルの間から前記第1の分類モデルを選択する前記ステップが、前記特徴のうちの一つ又は複数を選択することと、ニューラルネットワークの第1の部分とともに、前記特徴のうちの前記一つ又は複数に関する情報を使用することとを含み、
前記メディアタイプ確率指数を決定する前記ステップが、前記ニューラルネットワークの出力を使用することを含む、項目8に記載の方法。
[項目10]
前記第1のコンテキストパラメータにアクセスする前記ステップが、前記デジタルメディアデータが携帯デバイスのマイクロフォンによって受信されるオーディオデータを含むことを示すコンテキストパラメータにアクセスすることを含み、
前記第1の分類モデルを選択する前記ステップが、前記携帯デバイスの発話/音楽分類モデルを選択することを含み、
前記メディアタイプ確率指数を決定する前記ステップが、前記携帯デバイスの前記発話/音楽分類モデルを使用することと、前記携帯デバイスの前記マイクロフォンによって受信された前記オーディオデータを含むデジタルメディアデータに対応する前記特徴を使用することとを含む、項目8に記載の方法。
[項目11]
前記第1のコンテキストパラメータにアクセスする前記ステップが、前記デジタルメディアデータのソースタイプの指示にアクセスすることを含み、前記ソースタイプが、携帯デバイス、放送ビデオストリーム若しくは放送オーディオストリーム、局所信号源、又はマイクロフォン信号源のうちの一つ又は複数を含む、項目8に記載の方法。
[項目12]
前記方法が、
前記一つ又は複数のプロセッサ回路を使用して、特定されるべき前記メディアクエリに対応する第2のコンテキストパラメータにアクセスするステップであって、前記第2のコンテキストパラメータが、前記第1の遠隔デバイス又は異なるデバイスによって与えられる、アクセスするステップと、
前記一つ又は複数のプロセッサ回路を使用して、前記第1のコンテキストパラメータ及び前記第2のコンテキストパラメータの各々とそれぞれ関連付けられる探索範囲特性を決定するステップと、
前記データベースから、前記一つ又は複数のプロセッサ回路を使用して、より狭い探索範囲と関連付けられる前記第1のコンテキストパラメータ及び前記第2のコンテキストパラメータのうちの一方を選択するステップと、
をさらに含み、
前記第1の分類モデルを選択する前記ステップが、前記より狭い探索範囲と関連付けられる、前記第1のコンテキストパラメータ及び前記第2のコンテキストパラメータのうちの一方を使用することを含む、項目8に記載の方法。
[項目13]
前記方法が、探索深度パラメータを決定するステップをさらに含み、
前記メディアタイプ確率指数を決定する前記ステップが、前記メディアタイプ確率指数の決定に消費するプロセッサ回路資源量を決定するために前記探索深度パラメータを使用することを含む、項目8に記載の方法。
[項目14]
前記第1の分類モデルを選択する前記ステップが、指定のユーザと事前に関連付けられている複数の分類モデルの間から前記第1の分類モデルを選択することを含む、項目8に記載の方法。
[項目15]
コンピュータに、項目8〜14のいずれか一項に記載の方法を実施させる、プログラム。
[項目16]
システムであって、
携帯デバイスであり、
第1のプロセッサ回路、
特定されるべきメディアクエリを表すデジタルメディアデータを受信するように構成されている第1のセンサ、及び
前記携帯デバイスに関する第1のコンテキスト情報を検知するように構成されている第2のセンサであり、該第2のセンサが、前記デジタルメディアデータと関連付けられる周囲のノイズ特性を検知するように構成されているマイクロフォンを含む、第2のセンサを含み、
前記第1のプロセッサ回路が、前記デジタルメディアデータ及び前記第1のコンテキスト情報を遠隔メディア分類器に送信するように構成されている、携帯デバイスと、
前記遠隔メディア分類器と関連付けられる第2のプロセッサ回路であり、前記第2のプロセッサ回路は、前記携帯デバイスから前記デジタルメディアデータ及び前記第1のコンテキスト情報を受信するように構成されており、前記第2のプロセッサ回路が、前記第2のプロセッサ回路に動作を実施させる命令を実行するように構成されており、
前記動作が、
複数の異なる分類モデルを含むデータベースから第1の分類モデルを選択する動作であって、前記選択が、前記デジタルメディアデータ、前記第1のコンテキスト情報、及び前記デジタルメディアデータと関連付けられる前記周囲のノイズ特性に基づく、選択する動作と、
前記第1の分類モデル及び前記デジタルメディアデータを使用して、特定されるべき前記メディアのメディア特性を決定する動作と、
前記メディア特性を前記携帯デバイスに提供する動作と、
を含む、第2のプロセッサ回路と、
を含む、システム。
Claims (15)
- 装置であって、
特定されるべきメディアクエリを表すデジタルメディアデータと、携帯デバイスに関する第1のコンテキスト情報とを受信するクエリ受信器と、
前記デジタルメディアデータ及び前記第1のコンテキスト情報に基づき、異なる分類モデルを含むデータベースから第1の分類モデルを選択する分類モデル選択器であり、前記異なる分類モデルのモデルが、訓練データに基づき訓練され、特定のコンテキスト情報との使用のために調整され、前記第1の分類モデルが前記メディアクエリを既知のメディアとして特定する、分類モデル選択器と、
メディアタイプ確率指数生成器であり、
前記第1の分類モデル及び前記デジタルメディアデータを介して、特定されるべき前記メディアクエリのメディア特性を決定し、
前記メディア特性を前記携帯デバイスに提供する、
メディアタイプ確率指数生成器と、
を含む、装置。 - 前記分類モデル選択器が、
前記デジタルメディアデータのサンプル及び前記コンテキスト情報の対応するサンプルの対に基づき、前記データベースから第2の分類モデルを選択し、
前記第2の分類モデルを介して前記メディア特性を決定する
請求項1に記載の装置。 - 前記分類モデル選択器が、前記データベースからの前記第1の分類モデルを選択するために、前記第1のコンテキスト情報又は前記携帯デバイスに関する第2のコンテキスト情報のうちの一方を選択する、請求項1に記載の装置。
- 前記デジタルメディアデータ及び前記第1のコンテキスト情報のうちの一方又は両方のノイズ特性が指定の閾値ノイズレベルを満たすときにメディアの分類が進み、前記ノイズ特性がスペクトル分析回路により特定され、前記ノイズ特性がノイズレベルを示す、請求項1に記載の装置。
- 前記デジタルメディアデータの周波数特性が指定の周波数特性条件を満たすときにメディアの分類が進み、前記周波数特性がスペクトル分析回路により特定される、請求項1に記載の装置。
- 前記第1のコンテキスト情報が、前記デジタルメディアデータと関連付けられる周囲のノイズ特性を含み、前記分類モデル選択器が、前記デジタルメディアデータと関連付けられる前記周囲のノイズ特性に基づき、前記データベースからの前記第1の分類モデルを選択するように構成されている、請求項1に記載の装置。
- 前記第1のコンテキスト情報が、前記携帯デバイスのロケーションに関する情報を含み、
前記分類モデル選択器が、前記携帯デバイスのロケーションに関する前記情報に基づき、前記データベースからの前記第1の分類モデルを選択する、請求項1に記載の装置。 - 方法であって、前記方法は、
特定されるべきメディアクエリを表すデジタルメディアデータと、特定されるべき前記メディアクエリに対応する第1のコンテキスト情報とを受信するステップであり、前記第1のコンテキスト情報が、遠隔デバイスによって与えられる、受信するステップと、
前記デジタルメディアデータ及び前記第1のコンテキスト情報に基づき、異なる分類モデルを含むデータベースから第1の分類モデルを選択するステップであり、前記異なる分類モデルのモデルが、訓練データに基づき訓練され、特定のコンテキスト情報との使用のために調整され、前記第1の分類モデルが前記メディアクエリを既知のメディアとして特定する、選択するステップと、
前記デジタルメディアデータ及び前記第1の分類モデルを介して、特定されるべき前記メディアクエリのメディアタイプ確率指数を決定するステップであり、前記メディアタイプ確率指数は、前記メディアクエリが異なるメディア特性のうちの少なくとも一つのメディア特性に対応する尤度を示す、決定するステップと、
前記遠隔デバイスに、前記メディアタイプ確率指数及び前記少なくとも一つのメディア特性のうちの一方又は両方を提供するステップと、
を含む、方法。 - 前記第1の分類モデルがニューラルネットワークを含み、前記ニューラルネットワークの出力が前記メディアタイプ確率指数に対応し、前記方法は、
前記デジタルメディアデータに対応する特徴を決定するステップと、
前記特徴のうち一つ又は複数を選択するステップと、
前記ニューラルネットワークを介して、前記メディアタイプ確率指数を特定するために前記1つ又は複数の特徴の比較分析を実行するステップと、
をさらに含む、請求項8に記載の方法。 - 前記第1のコンテキスト情報が、前記デジタルメディアデータが携帯デバイスのマイクロフォンによって受信されるオーディオデータを含むことを示し、前記第1の分類モデルが、前記携帯デバイスの発話/音楽分類モデルに対応し、前記方法が、
前記携帯デバイスの前記発話/音楽分類モデルを介して、前記携帯デバイスの前記マイクロフォンによって受信された前記オーディオデータを含むデジタルメディアデータに対応する特徴に基づき前記メディアタイプ確率指数を決定するステップ
をさらに含む、請求項8に記載の方法。 - 前記第1のコンテキスト情報が、前記デジタルメディアデータのソースタイプの指示を含み、前記ソースタイプが、携帯デバイス、放送ビデオストリーム、放送オーディオストリーム、局所信号源、又はマイクロフォン信号源のうちの一つ又は複数を含む、請求項8に記載の方法。
- 前記方法が、
前記第1のコンテキスト情報及び第2のコンテキスト情報の各々とそれぞれ関連付けられる探索範囲特性を決定するステップであり、前記第2のコンテキスト情報が特定されるべき前記メディアクエリに対応する、決定するステップと、
前記データベースから、より狭い探索範囲と関連付けられる前記第1のコンテキスト情報及び前記第2のコンテキスト情報のうちの一方を選択するステップと、
前記より狭い探索範囲と関連付けられる、前記第1のコンテキスト情報及び前記第2のコンテキスト情報のうちの一方に基づき前記第1の分類モデルを選択するステップと、
をさらに含む、請求項8に記載の方法。 - 前記方法が、
探索深度パラメータを決定するステップと、
前記探索深度パラメータに基づき、前記メディアタイプ確率指数の決定に消費するプロセッサ回路資源量を決定するステップと、
をさらに含む、請求項8に記載の方法。 - 前記方法が、指定のユーザと事前に関連付けられている複数の分類モデルの間から前記第1の分類モデルを選択するステップをさらに含む、請求項8に記載の方法。
- コンピュータに、請求項8〜14のいずれか一項に記載の方法を実施させる、プログラム。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662274362P | 2016-01-03 | 2016-01-03 | |
US62/274,362 | 2016-01-03 | ||
US15/185,616 US10902043B2 (en) | 2016-01-03 | 2016-06-17 | Responding to remote media classification queries using classifier models and context parameters |
US15/185,654 | 2016-06-17 | ||
US15/185,616 | 2016-06-17 | ||
US15/185,654 US10678828B2 (en) | 2016-01-03 | 2016-06-17 | Model-based media classification service using sensed media noise characteristics |
JP2018534631A JP6730435B2 (ja) | 2016-01-03 | 2016-12-28 | システム、方法及びプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018534631A Division JP6730435B2 (ja) | 2016-01-03 | 2016-12-28 | システム、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020184085A JP2020184085A (ja) | 2020-11-12 |
JP6916352B2 true JP6916352B2 (ja) | 2021-08-11 |
Family
ID=59226362
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018534631A Active JP6730435B2 (ja) | 2016-01-03 | 2016-12-28 | システム、方法及びプログラム |
JP2020114761A Active JP6916352B2 (ja) | 2016-01-03 | 2020-07-02 | 分類器モデル及びコンテキストパラメータを使用した遠隔メディア分類クエリに対する応答 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018534631A Active JP6730435B2 (ja) | 2016-01-03 | 2016-12-28 | システム、方法及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (3) | US10902043B2 (ja) |
EP (2) | EP4024233A1 (ja) |
JP (2) | JP6730435B2 (ja) |
KR (3) | KR102132888B1 (ja) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10372757B2 (en) | 2015-05-19 | 2019-08-06 | Spotify Ab | Search media content based upon tempo |
US10902043B2 (en) | 2016-01-03 | 2021-01-26 | Gracenote, Inc. | Responding to remote media classification queries using classifier models and context parameters |
WO2017214411A1 (en) | 2016-06-09 | 2017-12-14 | Tristan Jehan | Search media content based upon tempo |
WO2017214408A1 (en) * | 2016-06-09 | 2017-12-14 | Tristan Jehan | Identifying media content |
KR102497299B1 (ko) * | 2016-06-29 | 2023-02-08 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US9972320B2 (en) * | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
US10032256B1 (en) * | 2016-11-18 | 2018-07-24 | The Florida State University Research Foundation, Inc. | System and method for image processing using automatically estimated tuning parameters |
US10460727B2 (en) * | 2017-03-03 | 2019-10-29 | Microsoft Technology Licensing, Llc | Multi-talker speech recognizer |
US11134279B1 (en) * | 2017-07-27 | 2021-09-28 | Amazon Technologies, Inc. | Validation of media using fingerprinting |
US10761802B2 (en) * | 2017-10-03 | 2020-09-01 | Google Llc | Identifying music as a particular song |
CN108038122B (zh) * | 2017-11-03 | 2021-12-14 | 福建师范大学 | 一种商标图像检索的方法 |
WO2019135621A1 (ko) * | 2018-01-04 | 2019-07-11 | 삼성전자 주식회사 | 영상 재생 장치 및 그의 제어 방법 |
US11500904B2 (en) | 2018-06-05 | 2022-11-15 | Amazon Technologies, Inc. | Local data classification based on a remote service interface |
US11443058B2 (en) * | 2018-06-05 | 2022-09-13 | Amazon Technologies, Inc. | Processing requests at a remote service to implement local data classification |
US10991379B2 (en) * | 2018-06-22 | 2021-04-27 | Babblelabs Llc | Data driven audio enhancement |
JP7326667B2 (ja) * | 2018-07-31 | 2023-08-16 | マーベル アジア ピーティーイー、リミテッド | ストレージエッジにおけるメタデータ生成 |
WO2020028583A1 (en) * | 2018-07-31 | 2020-02-06 | Marvell World Trade Ltd. | Systems and methods for generating metadata describing unstructured data objects at the storage edge |
US10846588B2 (en) * | 2018-09-27 | 2020-11-24 | Deepmind Technologies Limited | Scalable and compressive neural network data storage system |
CN109473120A (zh) * | 2018-11-14 | 2019-03-15 | 辽宁工程技术大学 | 一种基于卷积神经网络的异常声音信号识别方法 |
US11609942B2 (en) * | 2018-11-15 | 2023-03-21 | Microsoft Technology Licensing, Llc | Expanding search engine capabilities using AI model recommendations |
KR102691543B1 (ko) | 2018-11-16 | 2024-08-02 | 삼성전자주식회사 | 오디오 장면을 인식하는 전자 장치 및 그 방법 |
CN111276159A (zh) * | 2018-12-05 | 2020-06-12 | 阿里健康信息技术有限公司 | 一种婴儿发音分析方法及服务器 |
US20200293860A1 (en) * | 2019-03-11 | 2020-09-17 | Infineon Technologies Ag | Classifying information using spiking neural network |
CN111488400B (zh) * | 2019-04-28 | 2021-03-30 | 北京京东尚科信息技术有限公司 | 数据分类方法、装置和计算机可读存储介质 |
CN110377786A (zh) * | 2019-07-24 | 2019-10-25 | 中国传媒大学 | 音乐情感分类方法 |
US11954610B2 (en) | 2019-08-09 | 2024-04-09 | GE Precision Healthcare LLC | Active surveillance and learning for machine learning model authoring and deployment |
CN112447187B (zh) | 2019-09-02 | 2024-09-06 | 富士通株式会社 | 声音事件的识别装置和方法 |
CN111061909B (zh) * | 2019-11-22 | 2023-11-28 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种伴奏分类方法和装置 |
US11356167B1 (en) * | 2020-04-14 | 2022-06-07 | Anokiwave, Inc. | Selective calibration of signal processing integrated circuits in a phased array system |
CN111583907B (zh) * | 2020-04-15 | 2023-08-15 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
CN111428273B (zh) * | 2020-04-23 | 2023-08-25 | 北京中安星云软件技术有限公司 | 基于机器学习的动态脱敏方法及装置 |
US11550904B2 (en) * | 2020-08-25 | 2023-01-10 | Robert Bosch Gmbh | System and method for improving measurements of an intrusion detection system by transforming one dimensional measurements into multi-dimensional images |
US11595720B2 (en) * | 2020-09-22 | 2023-02-28 | Thomas Michael Gallagher | Systems and methods for displaying a context image for a multimedia asset |
US11948598B2 (en) * | 2020-10-22 | 2024-04-02 | Gracenote, Inc. | Methods and apparatus to determine audio quality |
US11410677B2 (en) * | 2020-11-24 | 2022-08-09 | Qualcomm Incorporated | Adaptive sound event classification |
KR102470637B1 (ko) * | 2020-11-26 | 2022-11-25 | (주)심플랫폼 | 클라우드 기반 디바이스 인공지능 설정 시스템 및 방법 |
JPWO2022259589A1 (ja) * | 2021-06-08 | 2022-12-15 | ||
US11974012B1 (en) | 2023-11-03 | 2024-04-30 | AVTech Select LLC | Modifying audio and video content based on user input |
Family Cites Families (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5285498A (en) | 1992-03-02 | 1994-02-08 | At&T Bell Laboratories | Method and apparatus for coding audio signals based on perceptual model |
CA2135415A1 (en) | 1993-12-15 | 1995-06-16 | Sean Matthew Dorward | Device and method for efficient utilization of allocated transmission medium bandwidth |
US5404377A (en) | 1994-04-08 | 1995-04-04 | Moses; Donald W. | Simultaneous transmission of data and audio signals by means of perceptual coding |
SE515674C2 (sv) | 1997-12-05 | 2001-09-24 | Ericsson Telefon Ab L M | Apparat och metod för brusreducering |
US7966078B2 (en) * | 1999-02-01 | 2011-06-21 | Steven Hoffberg | Network media appliance system and method |
US7068723B2 (en) | 2002-02-28 | 2006-06-27 | Fuji Xerox Co., Ltd. | Method for automatically producing optimal summaries of linear media |
JP4352790B2 (ja) | 2002-10-31 | 2009-10-28 | セイコーエプソン株式会社 | 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 |
EP1542206A1 (en) | 2003-12-11 | 2005-06-15 | Sony International (Europe) GmbH | Apparatus and method for automatic classification of audio signals |
DE602005008041D1 (de) | 2004-04-29 | 2008-08-21 | Koninkl Philips Electronics Nv | Verfahren und system zur klassifizierung eines audiosignals |
DE102004036154B3 (de) | 2004-07-26 | 2005-12-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm |
AR052601A1 (es) | 2005-03-10 | 2007-03-21 | Qualcomm Inc | Clasificacion de contenido para procesamiento de multimedia |
US8005675B2 (en) | 2005-03-17 | 2011-08-23 | Nice Systems, Ltd. | Apparatus and method for audio analysis |
WO2006132596A1 (en) | 2005-06-07 | 2006-12-14 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for audio clip classification |
JP2007058532A (ja) | 2005-08-24 | 2007-03-08 | Sony Corp | 情報処理システム、情報処理装置および方法、プログラム、並びに、記録媒体 |
US20070083365A1 (en) | 2005-10-06 | 2007-04-12 | Dts, Inc. | Neural network classifier for separating audio sources from a monophonic audio signal |
US9123350B2 (en) | 2005-12-14 | 2015-09-01 | Panasonic Intellectual Property Management Co., Ltd. | Method and system for extracting audio features from an encoded bitstream for audio classification |
US8364467B1 (en) * | 2006-03-31 | 2013-01-29 | Google Inc. | Content-based classification |
JP2008227579A (ja) | 2007-03-08 | 2008-09-25 | Advanced Telecommunication Research Institute International | 無線装置およびそれを備えた無線通信ネットワーク |
JP2008243104A (ja) | 2007-03-29 | 2008-10-09 | Clarion Co Ltd | 楽曲分類装置、および楽曲分類方法 |
US20080300702A1 (en) | 2007-05-29 | 2008-12-04 | Universitat Pompeu Fabra | Music similarity systems and methods using descriptors |
CN102077275B (zh) * | 2008-06-27 | 2012-08-29 | 皇家飞利浦电子股份有限公司 | 用于从声学数据生成词条的方法和设备 |
WO2010001393A1 (en) | 2008-06-30 | 2010-01-07 | Waves Audio Ltd. | Apparatus and method for classification and segmentation of audio content, based on the audio signal |
EP2159720A1 (en) * | 2008-08-28 | 2010-03-03 | Bach Technology AS | Apparatus and method for generating a collection profile and for communicating based on the collection profile |
JP5482655B2 (ja) * | 2008-09-01 | 2014-05-07 | 日本電気株式会社 | 画像同一性尺度算出システム |
US8560313B2 (en) | 2010-05-13 | 2013-10-15 | General Motors Llc | Transient noise rejection for speech recognition |
WO2010151183A1 (en) | 2009-06-23 | 2010-12-29 | Telefonaktiebolaget L M Ericsson (Publ) | Method and an arrangement for a mobile telecommunications network |
DE112009005215T8 (de) | 2009-08-04 | 2013-01-03 | Nokia Corp. | Verfahren und Vorrichtung zur Audiosignalklassifizierung |
CN102498515B (zh) | 2009-09-17 | 2014-06-18 | 延世大学工业学术合作社 | 处理音频信号的方法和设备 |
US9031243B2 (en) | 2009-09-28 | 2015-05-12 | iZotope, Inc. | Automatic labeling and control of audio algorithms by audio recognition |
CN102044244B (zh) | 2009-10-15 | 2011-11-16 | 华为技术有限公司 | 信号分类方法和装置 |
CN102714034B (zh) | 2009-10-15 | 2014-06-04 | 华为技术有限公司 | 信号处理的方法、装置和系统 |
US9197736B2 (en) * | 2009-12-31 | 2015-11-24 | Digimarc Corporation | Intuitive computing methods and systems |
US9112989B2 (en) | 2010-04-08 | 2015-08-18 | Qualcomm Incorporated | System and method of smart audio logging for mobile devices |
CN103038765B (zh) * | 2010-07-01 | 2017-09-15 | 诺基亚技术有限公司 | 用于适配情境模型的方法和装置 |
US8762144B2 (en) * | 2010-07-21 | 2014-06-24 | Samsung Electronics Co., Ltd. | Method and apparatus for voice activity detection |
WO2012147256A1 (ja) | 2011-04-25 | 2012-11-01 | パナソニック株式会社 | 画像処理装置 |
CN102982804B (zh) | 2011-09-02 | 2017-05-03 | 杜比实验室特许公司 | 音频分类方法和系统 |
CN103918247B (zh) * | 2011-09-23 | 2016-08-24 | 数字标记公司 | 基于背景环境的智能手机传感器逻辑 |
US9916538B2 (en) * | 2012-09-15 | 2018-03-13 | Z Advanced Computing, Inc. | Method and system for feature detection |
US11074495B2 (en) * | 2013-02-28 | 2021-07-27 | Z Advanced Computing, Inc. (Zac) | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
US9098576B1 (en) * | 2011-10-17 | 2015-08-04 | Google Inc. | Ensemble interest point detection for audio matching |
JP5836095B2 (ja) | 2011-12-05 | 2015-12-24 | キヤノン株式会社 | 画像処理装置、画像処理方法 |
US11321772B2 (en) * | 2012-01-12 | 2022-05-03 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
US9111531B2 (en) | 2012-01-13 | 2015-08-18 | Qualcomm Incorporated | Multiple coding mode signal classification |
KR101343768B1 (ko) | 2012-04-19 | 2014-01-16 | 충북대학교 산학협력단 | 스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류방법 |
US9218543B2 (en) * | 2012-04-30 | 2015-12-22 | Hewlett-Packard Development Company, L.P. | Selecting classifier engines |
US20140019390A1 (en) * | 2012-07-13 | 2014-01-16 | Umami, Co. | Apparatus and method for audio fingerprinting |
US8831957B2 (en) * | 2012-08-01 | 2014-09-09 | Google Inc. | Speech recognition models based on location indicia |
US9311931B2 (en) | 2012-08-09 | 2016-04-12 | Plantronics, Inc. | Context assisted adaptive noise reduction |
US9305559B2 (en) | 2012-10-15 | 2016-04-05 | Digimarc Corporation | Audio watermark encoding with reversing polarity and pairwise embedding |
US10423973B2 (en) * | 2013-01-04 | 2019-09-24 | PlaceIQ, Inc. | Analyzing consumer behavior based on location visitation |
IN2013DE00589A (ja) | 2013-02-28 | 2015-06-26 | Samsung India Electronics Pvt Ltd | |
CN104347067B (zh) | 2013-08-06 | 2017-04-12 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
US10127224B2 (en) | 2013-08-30 | 2018-11-13 | Intel Corporation | Extensible context-aware natural language interactions for virtual personal assistants |
KR101758869B1 (ko) * | 2014-01-10 | 2017-07-18 | 한국전자통신연구원 | 멀티미디어 콘텐츠 분류장치 및 이를 이용한 분류방법 |
US9620105B2 (en) * | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US20150340024A1 (en) * | 2014-05-23 | 2015-11-26 | Google Inc. | Language Modeling Using Entities |
US9437189B2 (en) * | 2014-05-29 | 2016-09-06 | Google Inc. | Generating language models |
US9465994B1 (en) | 2015-02-23 | 2016-10-11 | Amazon Technologies, Inc. | Predicting performance and success of large-scale vision algorithms |
US20160284349A1 (en) * | 2015-03-26 | 2016-09-29 | Binuraj Ravindran | Method and system of environment sensitive automatic speech recognition |
US9697825B2 (en) * | 2015-04-07 | 2017-07-04 | Nexidia Inc. | Audio recording triage system |
US9443517B1 (en) | 2015-05-12 | 2016-09-13 | Google Inc. | Generating sounds for detectability by neural networks |
US20170017576A1 (en) * | 2015-07-16 | 2017-01-19 | Qualcomm Incorporated | Self-adaptive Cache Architecture Based on Run-time Hardware Counters and Offline Profiling of Applications |
US20170032247A1 (en) | 2015-07-31 | 2017-02-02 | Qualcomm Incorporated | Media classification |
US10417579B2 (en) * | 2015-09-25 | 2019-09-17 | Mcafee, Inc. | Multi-label classification for overlapping classes |
US10902043B2 (en) | 2016-01-03 | 2021-01-26 | Gracenote, Inc. | Responding to remote media classification queries using classifier models and context parameters |
-
2016
- 2016-06-17 US US15/185,616 patent/US10902043B2/en active Active
- 2016-06-17 US US15/185,654 patent/US10678828B2/en active Active
- 2016-12-28 EP EP22158366.9A patent/EP4024233A1/en active Pending
- 2016-12-28 KR KR1020187022348A patent/KR102132888B1/ko active IP Right Grant
- 2016-12-28 JP JP2018534631A patent/JP6730435B2/ja active Active
- 2016-12-28 KR KR1020207019482A patent/KR102450993B1/ko active IP Right Grant
- 2016-12-28 EP EP16882570.1A patent/EP3398048B1/en active Active
- 2016-12-28 KR KR1020227033841A patent/KR102571011B1/ko active IP Right Grant
-
2020
- 2020-07-02 JP JP2020114761A patent/JP6916352B2/ja active Active
-
2021
- 2021-01-25 US US17/157,796 patent/US20210149939A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
KR102132888B1 (ko) | 2020-07-20 |
JP6730435B2 (ja) | 2020-07-29 |
US20170193097A1 (en) | 2017-07-06 |
KR20180120146A (ko) | 2018-11-05 |
EP4024233A1 (en) | 2022-07-06 |
JP2020184085A (ja) | 2020-11-12 |
EP3398048A4 (en) | 2019-06-05 |
US10678828B2 (en) | 2020-06-09 |
KR102571011B1 (ko) | 2023-08-25 |
KR20220137794A (ko) | 2022-10-12 |
US20170193362A1 (en) | 2017-07-06 |
KR102450993B1 (ko) | 2022-10-06 |
EP3398048A1 (en) | 2018-11-07 |
KR20200100677A (ko) | 2020-08-26 |
US20210149939A1 (en) | 2021-05-20 |
JP2019508787A (ja) | 2019-03-28 |
EP3398048B1 (en) | 2023-07-26 |
US10902043B2 (en) | 2021-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6916352B2 (ja) | 分類器モデル及びコンテキストパラメータを使用した遠隔メディア分類クエリに対する応答 | |
US10819811B2 (en) | Accumulation of real-time crowd sourced data for inferring metadata about entities | |
CN107928673B (zh) | 音频信号处理方法、装置、存储介质和计算机设备 | |
CN112074900B (zh) | 用于自然语言处理的音频分析 | |
Lu et al. | Soundsense: scalable sound sensing for people-centric applications on mobile phones | |
CN110622155A (zh) | 将音乐识别为特定歌曲 | |
US9299350B1 (en) | Systems and methods for identifying users of devices and customizing devices to users | |
US10643620B2 (en) | Speech recognition method and apparatus using device information | |
US20150228274A1 (en) | Multi-Device Speech Recognition | |
US11152016B2 (en) | Autonomous intelligent radio | |
JP2017509009A (ja) | オーディオストリームの中の音楽の追跡 | |
CN112530408A (zh) | 用于识别语音的方法、装置、电子设备和介质 | |
US9224385B1 (en) | Unified recognition of speech and music | |
KR20130117844A (ko) | 환경 사운드 인식용 시스템 및 방법 | |
US20140379346A1 (en) | Video analysis based language model adaptation | |
US20200342853A1 (en) | Selective activation of smaller resource footprint automatic speech recognition engines by predicting a domain topic based on a time since a previous communication | |
WO2017117234A1 (en) | Responding to remote media classification queries using classifier models and context parameters | |
JP6731802B2 (ja) | 検出装置、検出方法及び検出プログラム | |
US20200193981A1 (en) | Personalized phrase spotting during automatic speech recognition | |
Pisanò et al. | Audio-aware applications at the edge using in-browser WebAssembly and fingerprinting | |
CN115440231A (zh) | 说话人识别方法、装置、存储介质、客户端和服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200702 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210528 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210615 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210715 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6916352 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |