JP2020184085A - 分類器モデル及びコンテキストパラメータを使用した遠隔メディア分類クエリに対する応答 - Google Patents

分類器モデル及びコンテキストパラメータを使用した遠隔メディア分類クエリに対する応答 Download PDF

Info

Publication number
JP2020184085A
JP2020184085A JP2020114761A JP2020114761A JP2020184085A JP 2020184085 A JP2020184085 A JP 2020184085A JP 2020114761 A JP2020114761 A JP 2020114761A JP 2020114761 A JP2020114761 A JP 2020114761A JP 2020184085 A JP2020184085 A JP 2020184085A
Authority
JP
Japan
Prior art keywords
media
classification model
query
classification
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020114761A
Other languages
English (en)
Other versions
JP6916352B2 (ja
Inventor
マルクス ケイ. クレマー,
K Cremer Markus
マルクス ケイ. クレマー,
フィリップ ポップ,
Popp Phillip
フィリップ ポップ,
キャメロン オーブリー サマーズ,
Aubrey summers Cameron
キャメロン オーブリー サマーズ,
ジェイソン クレイマー,
Cramer Jason
ジェイソン クレイマー,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gracenote Inc
Original Assignee
Gracenote Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gracenote Inc filed Critical Gracenote Inc
Publication of JP2020184085A publication Critical patent/JP2020184085A/ja
Application granted granted Critical
Publication of JP6916352B2 publication Critical patent/JP6916352B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】様々なモデルを選択及び適用して、メディア分類を容易にすることができる分類器システムを提供する。【解決手段】ニューラルネットワークに基づく分類器システムによる方法は、メディア信号を含むクエリを受信し、応答して、特定の受信されたクエリが既知のメディアタイプ又はメディアクラスに対応することの指示を与える。メディアクエリを分類することは、第1のデバイスからのデジタルメディアデータ及びコンテキストパラメータにアクセスすることを含む。分類器システムとともに使用するためのモデルは、コンテキストパラメータに基づいて選択する。分類器システムは、選択されたモデル及びデジタルメディアデータに対応するスペクトル特徴を使用して、デジタルメディアデータのメディアタイプ確率指数を与える。【選択図】図2

Description

優先権の主張
[0001]本願は、以下の米国特許出願文献、すなわち、2016年1月3日に出願された「SYSTEMS AND METHODS FOR MEDIA CLASSIFICATION」と題する米国仮特許出願第62/274,362号、2016年6月17日に出願された「RESPONDING TO REMOTE MEDIA CLASSIFICATION QUERIES USING CLASSIFIER MODELS AND CONTEXT PARAMETERS」と題する米国特許出願第15/185,616号、及び、2016年6月17日に出願された「MODEL−BASED MEDIA CLASSIFICATION SERVICE USING SENSED MEDIA NOISE CHARACTERISTICS」と題する米国特許出願第15/185,654の優先権の利益を主張する。上記で特定した米国仮特許出願及び非仮特許出願の各々の内容全体が、本明細書によって参照により本明細書に組み込まれる。
背景
[0002]エンターテインメント、ニュース、及び他の通信ソースによって提供されるメディアコンテンツは、今日の現代社会においては普遍的なものである。たとえ個人自身がはたらきかけなくとも、個人は、公共空間内の広告、又は、飲食店及び待合所のような空間内の周囲のオーディオ若しくはビデオエンターテインメントに常にさらされている。場合によっては、個人は、特定のラジオ若しくはテレビ放送にチャンネルを合わせること、又は、ソーシャルメディア若しくは他のソースからインターネットを介してストリーミング配信されるメディアを受信することなどによって、様々なソースから個人自身のメディアコンテンツを受け取る。
[0003]携帯電話、テレビ、又はタブレットコンピュータなどを含む、可搬又は固定の電子デバイスは、メディアコンテンツを直接的又は間接的に受信することができる。例えば、テレビは、メディアを求めるユーザ要求に応答して、インターネットを介してストリーミングオーディオ及び/又はビデオコンテンツを受信することができる。一例において、スマートフォンは、内蔵マイクロフォン又はカメラを使用して周囲のメディアに関する情報を受信するように構成することができる。いくつかの例において、スマートフォンには、ユーザによって、識別サービスを提供する第三者と通信するためのアプリを使用することなどによって、周囲のメディアのサンプルのソース又は他の特性を特定するように指示することができる。
[0004]添付の図面の図において、限定ではなく例として、いくつかの実施形態が示されている。
[0005]図1は、メディア情報を受信及び分析するように構成されているシステムの例示的な実施形態を全般的に示す図である。
[0006]図2は、メディア分類を提供することを含むことができる方法の流れ図を全般的に示す図である。
[0007]図3は、携帯デバイスのいくつかの構成要素のブロック図を全般的に示す図である。
[0008]図4は、クエリ音声波形及びコンテキストセンサ信号を含む例示的な実施形態を全般的に示す図である。
[0009]図5は、メディアプロセッサ回路のブロック図を全般的に示す図である。
[0010]図6は、分類モデルを記憶するためのデータベースのブロック図を全般的に示す図である。
[0011]図7は、メディアコンテンツを特定するために分類ネットワークを使用することの例示的な実施形態を全般的に示す図である。
[0012]図8は、オーディオタイプ確率指数を決定することを含む例示的な実施形態を全般的に示す図である。
[0013]図9は、コンテキストパラメータに基づいて分類モデルを選択することを含む例示的な実施形態を全般的に示す図である。
[0014]図10は、更新済み分類モデルを選択することを含む例示的な実施形態を全般的に示す図である。
[0015]図11は、更新済み分類モデルをいつ適用すべきかを決定することを含む例示的な実施形態を全般的に示す図である。
[0016]図12は、メディアクエリ識別システムを訓練することを含む例示的な実施形態を全般的に示す図である。
[0017]図13は、メディアクエリを分類すべきか否かを決定することを含む例示的な実施形態を全般的に示す図である。
[0018]図14は、機械可読媒体から命令を読み出し、本明細書において論じられている方法のうちのいずれか一つ又は複数を実施することができる、いくつかの例による機械の構成要素を示すブロック図である。
詳細な説明
[0019]例示的な実施形態において、機械は、オーディオ又はビデオコンテンツを特定するために、一つ又は複数のユーザ又はユーザデバイスと対話するように構成することができる。一つの手法は、例えば、一致を特定する試みにおいて、オーディオ信号サンプルのクエリ指紋を、様々な基準オーディオサンプル指紋と比較することによって、音声指紋法又は分類を実施するように、機械を構成することである。大規模なデータベースを使用してクエリが実施されるとき、そのような音声指紋法は、計算コストが高く、時間がかかる可能性がある。本明細書において記載されている様々なシステム及び技法を使用して、特定の環境、メディアタイプ、又は他のシナリオに対して調整される分類モデルを使用することなどによって、分類サービスを実施するコスト及び費用を低減することができる。例示的な実施形態において、メディアクエリに関するコンテキスト情報を使用して、複数の異なる利用可能な分類モデルからの分類モデルの選択を補助することができる。例示的な実施形態において、畳み込みニューラルネットワークに基づくメディア分類器のような、分類器システムによって適用されるいくつかの分類モデルは、他のモデルよりも効率的に、メディア分類結果をもたらすことができる。
[0020]図1は、メディア情報を受信及び分析するように構成されているシステムの例示的な実施形態を全般的に示す。図1は、いくつかの実施形態による、メディア分類に適したネットワーク環境100を示すネットワーク図を含む。ネットワーク環境100は、ネットワーク190を介して互いに通信可能に結合することができるような、メディアプロセッサ回路110と、データベース115と、第1の携帯デバイス130及び第2の携帯デバイス150とを含む。メディアプロセッサ回路110は、データベース115とともに、又は、データベース115を伴わずに、クラウド118(例えば、メディア処理サービスを提供するためのサーバとして独立して又は集合的に機能するように構成されている、複数の地理的に分散した機械などを含む、オーディオ処理クラウド)の一部分を形成することができる。クラウド118は、例えば、第1の携帯デバイス130及び第2の携帯デバイス150にネットワークに基づくオーディオ処理サービスを提供するように構成されているクラウドに基づくサーバシステムとして、ネットワークに基づくメディア分類器105を含むシステムの全部又は一部分を形成することができる。メディアプロセッサ回路110並びに第1の携帯デバイス130及び第2の携帯デバイス150は各々、本明細書においてさらに記載されているように、全体的に又は部分的に、専用(例えば、特殊化した)コンピュータシステムに実装することができる。
[0021]例示的な実施形態において、ネットワーク環境100は、オーディオ又はビデオデータに対して分類サービスを実施するように構成されている。すなわち、第1の携帯デバイス130及び第2の携帯デバイス150のうちの一方からのオーディオ又はビデオ情報のサンプルのような、何らかの入力メディアに応答して、クラウド118の様々な構成要素を使用して、入力メディアのクラス又は分類の指示を提供することができる。分類は、メディアと関連付けられる何らかの特性を含むことができる。入力メディアがオーディオ信号を含む例示的な実施形態において、分類は、著者若しくはアーティスト、アルバム名、ソース、テンポ、雰囲気、又は、オーディオ信号に対応する他の定量的若しくは定性的特徴の指示を含むことができる。例示的な実施形態において、入力メディアは、曲の少なくとも一部分であり、ネットワークに基づくメディア分類器105は、その曲の題名、アーティスト、その曲と関連付けられる様々な記録及び/若しくはアルバムの名称、又は、その曲に関する若しくは関連付けられる他の情報の指示を提供することができる。
[0022]図1の例示的な実施形態において、ネットワークに基づくメディア分類器105並びに/又は第1の携帯デバイス130及び第2の携帯デバイス150のうちの一方は、イントラネット又はインターネットを介してなど、他のソースから入力メディアクエリにアクセスするように構成されている。例示的な実施形態において、ネットワークに基づくメディア分類器105は、テレビ、ラジオ、又は他の信号のような放送信号を受信するように構成されている送受信器又は受信器から分類されていないメディアデータを受信する。
[0023]プロセッサ回路は、クエリに対応するコンテキストパラメータにアクセス又は特定するために、入力メディアクエリを分析するように構成されている。プロセッサ回路は、クラウド118にあるメディアプロセッサ回路110を含んでもよく、又は、プロセッサ回路は、第1の携帯デバイス130及び第2の携帯デバイス150のうちの一方に実装されてもよい。例示的な実施形態において、プロセッサ回路は、ネットワークに基づくメディア分類器105の別の部分、又は、ネットワークに基づくメディア分類器105並びに/若しくは第1の携帯デバイス130及び第2の携帯デバイス150と通信可能に結合されている別のロケーションに設けられてもよい。例示的な実施形態において、コンテキストパラメータを特定するように構成されているプロセッサ回路は、オーディオ分類サービスを実施するのに使用されるものと同じ又は異なるプロセッサ回路であってもよい。
[0024]コンテキストパラメータは、付加的に又は代替的に、入力メディアクエリ以外のどこかからアクセスすることができる。例えば、コンテキストパラメータは、クエリと(例えば、時間的に)対応する知覚又は環境情報のような、入力メディアクエリに関する情報を含むことができる。例示的な実施形態において、コンテキストパラメータは、クエリが(例えば、第1の携帯デバイス130によって)サンプリングされたロケーションに対応するロケーション情報を含む。例示的な実施形態において、コンテキストパラメータは、クエリを取得又は準備するデバイス又はユーザに対応するデバイス識別情報又はユーザ識別情報を含む。本明細書においてさらに論じられているように、他のコンテキストパラメータが、付加的に又は代替的に使用されてもよい。
[0025]例示的な実施形態において、プロセッサ回路は、メディアクエリのスペクトル特徴を決定するように構成することができる。スペクトル特徴は、クエリと関連付けられる指紋の全部又は一部分を形成することができる。コンテキストパラメータに基づいて又はコンテキストパラメータを使用して、プロセッサ回路は、クエリに対応するメディアタイプの指示を提供するためにスペクトル特徴の処理に使用するための分類モデルを選択するように構成することができる。例示的な実施形態において、プロセッサ回路(例えば、メディアプロセッサ回路110)は、選択された分類モデル及び決定されたスペクトル特徴を使用して、クエリのメディアタイプ確率指数を決定する。例示的な実施形態において、確率指数は、メディアデータが、特定の曲、アーティスト、又はアルバムのような、特定の既知のメディアに対応する尤度の指示を含む。例示的な実施形態において、確率指数が何らかの指定の閾値尤度を超える場合、プロセッサ回路は、確率指数なしにメディアタイプ指示を返すことができる。
[0026]図1の例示的な実施形態に戻ると、第1のユーザ132及び第2のユーザ152が示されている。第1のユーザ132及び第2のユーザ152の一方又は両方は、人間のユーザ(例えば、人類)、機械のユーザ(例えば、ソフトウェアプログラムによって、第1の携帯デバイス130又は第2の携帯デバイス150と対話するように構成されているコンピュータ)、又はそれらの任意の適切な組み合わせ(例えば、機械によって支援される人間又は人間によって監督される機械)であってもよい。第1のユーザ132は、第1の携帯デバイス130と関連付けられ、第1の携帯デバイス130のユーザであり得る。例えば、第1の携帯デバイス130は、第1のユーザ132と関連付けられるユーザプロファイルデータに属するか、ユーザプロファイルデータを有するコンピュータ、車両コンピュータ、タブレットコンピュータ、ナビゲーションデバイス、可搬メディアデバイス、スマートフォン、又は装着可能デバイス(例えば、スマートウォッチ、スマートグラス、スマート衣類、又はスマートジュエリ)であってもよい。同様に、第2のユーザ152は、第2の携帯デバイス150と関連付けられ、第2の携帯デバイス150のユーザであり得る。例示的な実施形態において、第1のユーザ132及び第2のユーザ152並びに/又は第1の携帯デバイス130及び第2の携帯デバイス150の各々は、ネットワークに基づくメディア分類器105によって使用するための様々な異なる分類モデルと関連付けることができる。
[0027]例示的な実施形態において、第1の携帯デバイス130及び第2の携帯デバイス150の一方又は両方は、マイクロフォン又は他のメディアセンサ入力を使用して、分類されていないメディアを受信するように構成することができる。例示的な実施形態において、分類されていないメディアは、デバイスのネイティブソース(例えば、第1の携帯デバイス130又は第2の携帯デバイス150のサウンドカード又は他のネイティブ構成要素)から、又は、第1の携帯デバイス130若しくは第2の携帯デバイス150のデバイス出力端子(例えば、映像出力端子、ライン出力端子、ヘッドフォン差し込み口など)から、又は、何らかの他のデバイスからサンプリングすることができる。分類されていないメディアは、(例えば、第1の携帯デバイス130又は第2の携帯デバイス150が内蔵する回路によって)サンプリングして、メディア識別サービスを求める要求とともに、ネットワークに基づくメディア分類器105に通信することができる。
[0028]図1に示されているか、又は、図1に関連して記載されているシステム、機械、デバイス、又は関連するデータベースのいずれかは、そのシステム又は機械について本明細書において記載されている機能のうちの一つ又は複数を実施するように修正されている(例えば、アプリケーション、オペレーティングシステム、ファームウェア、ミドルウェア、又は他のプログラムの一つ又は複数のソフトウェアモジュールのような、ソフトウェアによって構成又はプログラムされている)専用(例えば、特殊化した又は他の様態で一般的でない)コンピュータを含むことができ、又は、他の様態で当該コンピュータを使用して実装することができる。本明細書において記載されている方法論のうちの一つ又は複数を実施するように構成されている専用コンピュータシステムの例示的な実施形態が、下記で図12において論じられている。そのような専用コンピュータの技術分野内で、本明細書において論じられている機能を実施するように、本明細書において論じられている構造によって修正されている専用コンピュータは、本明細書において論じられている構造を欠くか、又は、他の様態で本明細書において論じられている機能を実施することが不可能な他の専用コンピュータと比較して技術的に改善されている。したがって、本明細書において論じられているシステム及び方法に従って構成されている専用機械は、同様の専用機械の技術に対する改善を提供する。
[0029]少なくとも図6において下記にさらに論じられているデータベース115は、例えば、テキストファイル、表、スプレッドシート、関係データベース(例えば、オブジェクト関係データベース)、トリプルストア、階層型データストア、又はそれらの任意の適切な組み合わせなど、様々な方法でデータを記憶するように構成することができるデータ記憶リソースを含むことができる。ネットワーク190は、システム、機械、データベース、及びデバイスの間での(例えば、メディアプロセッサ回路110と第1の携帯デバイス130との間での)通信を可能にする任意のネットワークであってもよい。ネットワーク190は、有線ネットワーク、無線ネットワーク(例えば、モバイル又はセルラネットワーク)、又はそれらの組み合わせであってもよい。ネットワーク190は、私的ネットワーク、公衆ネットワーク(例えば、インターネット)、又はそれらの組み合わせを構成する一つ又は複数の部分を含むことができる。
[0030]ネットワーク190は、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、インターネット、携帯電話ネットワーク(例えば、セルラネットワーク)、有線電話網(例えば、一般電話システム(POTS)ネットワーク)、無線データネットワーク(例えば、WiFiネットワーク又はWiMaxネットワーク)、又はそれらの組み合わせを組み込んでいる一つ又は複数の部分を含むことができる。ネットワーク190のいずれか一つ又は複数の部分は、伝送媒体を介して情報を通信することができる。本明細書において使用される場合、「伝送媒体」は、機械によって(例えば、そのような機械の一つ又は複数のプロセッサによって)実行するための命令を通信(例えば、送信)することが可能である任意の無形(例えば、一時的)媒体を指し、デジタル若しくはアナログ通信信号、又は、そのようなソフトウェアの通信を促進するための他の無形媒体を含む。
[0031]図2は、メディア分類を提供することを含むことができる方法の流れ図を全般的に示す。図2の例示的な実施形態は、例えば、ネットワーク環境100を使用してメディアデータ201のメディア分類を決定するための方法200の流れ図を全般的に示す。メディアデータ201は、第1の携帯デバイス130及び第2の携帯デバイス150のうちの一方から、又は、別のソースから受信されるメディアクエリであってもよい。方法200は、動作202において、メディア訓練データを取得することと、動作204において、取得されているメディア訓練データを分析することとを含む。方法200は、動作206において、様々な訓練データを使用してメディアデータ201(例えば、オーディオ及び/又はビデオ情報を含むメディアクエリ)を分類することをさらに含む。動作210において、方法200は、メディア分類の指示を提供すること、又は、メディアデータ201が何らかの指定されるメディアに対応する尤度の指示を提供することを含む。
[0032]例示的な実施形態において、方法200は、動作206において、コンテキストパラメータ203を使用することを含む。動作206において、メディアデータ201及びコンテキストパラメータ203は、様々な訓練データを使用してメディアデータを分類するためにともに使用することができる。
[0033]方法200において、様々なデジタル信号処理(DSP)方法を使用して、メディアデータ(例えば、訓練データ又はクエリデータ)から特徴を抽出することができる。例えば、他の抽出可能な特徴の中でも、メル周波数ケプストラム係数(MFCC)、スペクトル平坦性、平均値、ゼロ交差、スペクトル重心、コードクラス、又は衝撃性を使用することができる。当該技術分野において知られている様々なデジタル信号処理特徴抽出方法及び規格(例えば、MPEG−7)を使用することができる。抽出された特徴は、例えば、ステップ206において訓練されている分類器を使用して、メディアデータの比較分析を実施するために使用することができる。例示的な実施形態において、訓練データは、特定された基準に対する参照基準又はモデルを確立するために使用され、それらのモデルはその後、メディアデータ201を評価するために使用することができる。
[0034]図2の例示的な実施形態において、ステップ202において取得されるメディアデータの訓練セットは、一つ又は複数のオーディオ信号サンプル(例えば、楽曲の記録)と、一つ又は複数のオーディオ信号サンプルの各々に対応する一つ又は複数の編集によって形成される特性とを含む。例示的な実施形態において、いくつかの特性は、ともに、メディアデータの訓練セットに対応するメディアプロファイル又は指紋であると考えることができる。例示的な実施形態において、訓練データの特性は、(例えば、コンパクトディスクデータベースCDDB又は他の同様のリソースを使用して)メディアデータを、他の既存のメディア情報と関連付けることによって自動的に規定される。例示的な実施形態において、訓練データの特性は、1人又は複数の人によって規定されるか、又は、データベース115に含めるためにメディアを評価する多くの人から集約される。例示的な実施形態において、訓練データの特性は、集約されたエンドユーザ及び/又は編集によって生成されているタグ又はコンテンツと関連付けられる散文の様々な分析を使用して生成され、又は、他のデータマイニング方法を、起源が訓練プロセスから独立し得るデータセットに適用することができる。
[0035]動作204において、訓練データからのメディアを分析することは、メディアデータの訓練セットから様々なスペクトル特徴を抽出することを含むことができる。例示的な実施形態において、抽出された特徴は、編集によって割り当てられるカテゴリに対して評価され、及び、当該カテゴリと相関されて、「n」個のカテゴリの各々について少なくとも一つのモデルを含むなど、「n」個の分類モデルが作成される。したがって、この例において、各分類モデルは、そのカテゴリに一般的に抽出された特徴との、カテゴリの相関セットであり得る。そのような分類モデルは、(例えば、メディアプロセッサ回路110によって実装される)分類器と共有することができ、動作206において適用することができる。動作206において、一つ又は複数の分類モデルは、メディアデータ201を分類するための比較又は参照基準の基礎としての役割を果たすことができる。
[0036]動作206において、訓練データを使用してメディアデータ201を分類することは、クエリメディアデータ201から様々なスペクトル特徴を抽出することを含むことができる。抽出された特徴はその後、204からの分類モデルと比較することができ、又は、当該分類モデルを使用して処理することができる。動作206においてメディアを分類することは、動作216において、メディアデータ201を変換すること、又は、動作226において、一つ又は複数の分類モデルを適用することを含むことができる。例示的な実施形態において、メディアデータ201を分類することは、以前に分析された訓練データに関して訓練されている畳み込みニューラルネットワークを使用することを含むことができる。畳み込みニューラルネットワークは、一つ又は複数の時間窓(例えば、数ミリ秒〜数秒)にわたってサンプリングされるメディアデータ201からのメディア信号特徴を使用する、プロセッサによって実装される分類器であってもよい。分類器は、信号イベント又はスペクトル特徴がメディアデータ201に存在するか否かを検出するように構成することができる。畳み込みニューラルネットワークは、概して、特定のメディアイベント(例えば、口笛、犬の鳴き声、音楽の存在)及び状況(例えば、特定の記録デバイス/マイクロフォン、環境雑音)に対して調整することができる数千〜数百万のパラメータを含む。
[0037]動作216において、様々な機能をメディアデータ201に適用することができる。例えば、メディアデータ201からのデータ系列を周波数領域に変換するために、Constant Q変換を適用することができる。異なるメディアタイプを区別するために、様々なスペクトル特徴をメディアデータ201内で特定することができる。局所コントラスト正規化を実施することができ、その後、結果もたらされたデータを、畳み込みニューラルネットワークに適用することができる。メディアデータ201がオーディオ信号を含むとき、局所コントラスト正規化プロセスは、オーディオ信号における音量変化全体に対して分類を不変にし、外部からの音又は大きな音による妨害に対してある程度まで分類を不変にするのを補助することができる。
[0038]動作226において、変換されたメディアデータを畳み込みニューラルネットワークに対する入力として使用して、分類モデルを適用することができる。畳み込みニューラルネットワークは、何らかの指定の特徴又はイベントが存在するか否かを特定するよう試みるために、(例えば、数秒の時間窓にわたる)変換されたメディアデータ201の様々な特徴を分析することができる。そのような畳み込みニューラルネットワークは、特定のメディアイベント(例えば、口笛雑音、犬の鳴き声、音楽の存在など)に対して調整(例えば、重み付け)することができ、又は、特定の状況(例えば、環境雑音を被る、携帯デバイスによって取得されるメディアなど)に対して調整することができる数千〜数百万のパラメータを含むことができる。異なる分類モデルが、調整されるパラメータの固有の組み合わせと関連付けられ得る。
[0039]例示的な実施形態において、動作226において分類モデルを適用することは、クエリ内の様々なイベント又は特性を検出することを含む。例えば、メディアプロセッサ回路110は、メディアデータ201の抽出された特徴と、「n」個の分類モデルの特徴との間の類似性に基づいて、各特徴又はカテゴリの値を割り当てることを含め、所与のクエリについて、「n」個のカテゴリにわたってプロファイルをデータ投入するように構成することができる。例示的な実施形態において、動作226において分類モデルを適用することは、クエリが聴覚イベント(例えば、口笛、犬の鳴き声、音楽の存在など)のような、指定のイベントを含む(又は含む可能性がある)か否かを検出することを含む。分類器は、任意選択的に、個別のオーディオサンプルを分類するために使用することができ、又は、分類器は、例えば、一連のサンプルを連続して又は指定の間隔をおいて処理することによって一連の受信オーディオを実質的に連続的に分類するために使用することができる。
[0040]例示的な実施形態において、コンテキストパラメータ203は、分類プロセスをトリガするために使用することができる。付加的に又は代替的に、分類モデルは、コンテキストパラメータ203に基づいて使用するために選択されてもよい。例示的な実施形態において、コンテキストパラメータ203は、周波数内容、振幅、又は、メディアデータ201信号の何らかの他の特性の変化を特定することなどによって、メディアデータ201自体から導出することができる。例示的な実施形態において、コンテキストパラメータ203は、メディアデータ201と関連付けられる別のソース又はセンサからの信号に基づくことができる。例えば、コンテキストパラメータ203は、加速度計、ユーザ入力、位置センサ、時計若しくはタイマ回路、又は、メディアデータ201と対応する他のコンテキストを提供する指示からの信号に基づくことができる。
[0041]例示的な実施形態において、メディアプロセッサ回路110(又は、ネットワークに基づくメディア分類器105への入力デバイスと関連付けられるなど、他のプロセッサ回路)は、指定のイベントについてメディアデータ201を監視するように構成することができる。メディアデータ201は、連続的に又は断続的にサンプリングされるオーディオストリームのような、メディアストリームを表すことができる。この例において、メディアプロセッサ回路110は、メディア分類を、例えば、動作206において様々な間隔をおいて実施することができるか、又は、メディアデータ201の指定の閾値変化若しくはコンテキストパラメータ203の指定の閾値変化を超えるトリガイベントのような、何らかのトリガイベントに応答して実施することができる「常時オン」モードにおいて動作するように構成することができる。
[0042]例示的な実施形態において、メディアプロセッサ回路110(又は、ネットワークに基づくメディア分類器105への入力デバイスと関連付けられるなど、他のプロセッサ回路)は、サンプルが音楽、発話、又は何らかの他のメディアタイプを含むか否かを決定するなどのために、一つ又は複数のサンプル特性を特定するために、固定オーディオセグメント又はサンプルを走査するように構成することができる。指定のイベントが検出された場合、メディア分類要求を、動作206において開始することができる。例えば、メディアプロセッサ回路110は、ベビーモニタのオーディオチャネルを監視するように構成することができる。分類器がオーディオチャネル内の信号の周波数内容の変化を特定すると、動作206において、信号が赤ん坊の泣き声を(例えば、話し声又は葉擦れのような他の雑音から区別されるものとして)含むか、又は含む可能性があるか否かを決定するために、信号を分類することができる。赤ん坊の泣き声が積極的に示される場合、例えば、動作210において、世話をする人に通知することができる。
[0043]動作206において、メディアデータ201を分類することは、メディアデータ201のメディアタイプ確率指数を提供することを含むことができる。メディアタイプ確率指数は、メディアデータ201が指定のメディアタイプに対応することの指示又は尤度を含む。例えば、ネットワークに基づくメディア分類器105は、メディアデータ201又はクエリを受信し、その後、受信されたクエリを指定の周波数又はスペクトル空間に変換するように構成することができる。メディアプロセッサ回路110は、その後、クエリが特定のメディアタイプに対応する確率又は尤度の指示を生成するために、畳み込みニューラルネットワークを適用することができる。例示的な実施形態において、結果は、オーディオサンプルが発話、音楽、又はそれらの何らかの組み合わせに対応する相対尤度の指示を含む。ニューラルネットワークからの他の結果に基づいて、結果は、オーディオサンプルが、指定の曲のような、何らかの指定のオーディオ特性又は分類に対応する尤度を示すことができる。ニューラルネットワークの出力は、オーディオイベント確率、又は、特定のクエリが指定の又は指示されているオーディオタイプに対応する可能性がどれくらいであるかの指示を含むことができる。
[0044]例示的な実施形態において、動作206において、メディアを分類することは、特定のサンプル又はユーザの利用可能な又は可能性のある分類の範囲を狭めるために、分類モデルを使用することを含む。例えば、分類モデルは、畳み込みニューラルネットワークにおいて利用可能な経路を制約するための様々な重み又は他の手段を含むことができる。例示的な実施形態において、第1のユーザ132及び第2のユーザ132若しくは152並びに/又はユーザのそれぞれのデバイス130若しくは150は、異なる分類モデルと関連付けることができ、メディアをより効率的に分類するために、メディアプロセッサ回路110によってモデルを適用することができる。例示的な実施形態において、分類モデルは、ソースデバイス又はユーザ履歴の何らかの事前の知識に基づいて選択することができる。例えば、複数の異なる利用可能な分類モデルからの特定の分類モデルを、クエリが携帯電話のマイクロフォンからサンプリングされるオーディオ信号を含むときに使用するために選択することができる。
[0045]例示的な実施形態において、第1のクエリは、クラシック音楽を含むメディアデータ201を含み、第1のクエリは、クエリがクラシック音楽を含むことを示す第1のパラメータに対応する。第1のクエリは、第1の分類モデルによって構成されるニューラルネットワークを使用して処理することができ、第1の分類モデルは、クラシック音楽の異なる特性の間で区別するために選択又は構築される様々な重み、フィルタ、又はネットワークの他の構成要素に起因してクラシック音楽をより効率的に特定するために、ネットワークを「調整」することができる。ポップ音楽を認識するために調整されるなどの、第2の分類モデルは、第1のクエリを首尾よく又は効率的に特定することができない。同様に、話し言葉の内容を含む第2のクエリは、クラシック音楽向けに調整された第1の分類モデル又はポップ音楽向けに調整された第2の分類モデルのいずれかを使用すると、首尾よく又は効率的に分類することができない。
[0046]デバイスにローカルに記憶されたモデルをロードすることによって、又は、ネットワークに基づくメディア分類器105を介してモデルを受信することによって、動作210においてメディア分類を提供するために、様々な分類モデルを適用することができる。任意選択的に、複数のモデルを連続して使用又は適用することができる。例示的な実施形態において、モデルは、特に、入力デバイスの指定のクラス(例えば、クエリ又はメディアデータ201を受信又は提供するために使用されるデバイス)に対するものとすることができる。例えば、第1のモデルは、携帯電話マイクロフォンから受信されるときは、発話及び音楽を分類するように構成することができる。第2のモデルは、携帯電話のネイティブサウンドボードから受信されるときは、発話及び音楽を分類するように構成することができる。第3のモデルは、クエリデータが発話及び音楽の一方又は両方を含むか否かを特定するように構成することができる。第4のモデルは、テレビ放送源からオーディオを分類するように構成することができる。一つ又は複数のコンテキストパラメータに基づいてなど、検出される状況又はコンテキストに応じて、一つ又は複数の分類モデルを、方法200に使用するために選択することができる。いくつかの例示的な実施形態において、モデルは、他の基準の中でも、ソースデバイスを検出することによって、又は、競合するモデルの品質を比較することによって、又は、分析されるべきクエリの何らかの分析によって、自動的に選択される。
[0047]図3は、携帯デバイスのいくつかの構成要素のブロック図を全般的に示す。例示的な実施形態において、図3は、第1の携帯デバイス130の様々な構成要素に対応するブロック図を示す。第2の携帯デバイス150は、任意選択的に、同じ又は類似の構成要素を含むことができる。図3の例示的な実施形態において、第1の携帯デバイス130は、第1のプロセッサ回路310と、送受信器回路320と、加速度計330と、オーディオ再生回路340とを含む。例示的な実施形態は、マイクロフォン350と、位置センサ360と、信号特徴生成器370と、クラスアーカイブ380とを含む。第1の携帯デバイス130の様々な構成要素は、(例えば、バス、共有メモリ、又はスイッチを介して)互いに通信するように構成することができる。
[0048]送受信器回路320は、例えば、有線又は無線通信プロトコルを使用した第1の携帯デバイス130とネットワーク190との間の通信を可能にするように構成することができる。例示的な実施形態において、送受信器回路320は、ネットワーク190とのWiFi又はセルラネットワーク通信向けに構成される。例示的な実施形態において、送受信器回路320は、テレビ信号、ラジオ信号、又は、デジタル若しくはアナログメディア信号情報を含む他の信号のような放送信号を受信するように構成されている。
[0049]例示的な実施形態において、オーディオ再生回路340、マイクロフォン350、位置センサ360、信号特徴生成器370、及びクラスアーカイブ380は、携帯ハードウェアデバイス又は一つ若しくは複数の他のデバイス上で実行又はインスタンス化されるように構成されているソフトウェアアプリケーションを含むことができるなど、アプリ390の全部又は一部分を形成することができる。一例において、アプリ390は、第1の携帯デバイス130に記憶(例えば、インストール)され、第1のプロセッサ回路310のような一つ又は複数のプロセッサ回路によって、第1の携帯デバイス130によって実行可能である。例示的な実施形態において、アプリ390は、少なくとも部分的にクラウド118に記憶され、アプリ390は、第1の携帯デバイス130の構成要素のうちの一つ又は複数とインターフェースする。例示的な実施形態において、第1の携帯デバイス130内の一つ又は複数のプロセッサ回路は、アプリ390、送受信器回路320、加速度計330、又はそれらの任意の適切な組み合わせの中に(例えば、一時的に又は永続的に)含まれ得る。例示的な実施形態において、第1の携帯デバイス130は、第1の携帯デバイス130に存在するメディア(例えば、第1の携帯デバイス130によって再生されるメディア)、又は、第1の携帯デバイス130付近のメディア(例えば、第1の携帯デバイス130によって受信又は検知されることが可能なメディア)を分類するために、アプリ390を介してネットワークに基づくメディア分類器105と対話するように構成されている。
[0050]図3の例示的な実施形態において、第1の携帯デバイス130は、メディア情報をサンプリング又は受信するように構成されている様々な入力を含む。例えば、オーディオ信号情報は、オーディオ再生回路340からサンプリングすることができ、又は、オーディオ信号情報は、マイクロフォン350を使用して受信することができる。例示的な実施形態において、第1の携帯デバイス130は、対応する一つ又は複数のコンテキストパラメータを特定又は提供するために使用することができる一つ又は複数のセンサ又は入力をさらに含む。例えば、位置センサ360は、GPSセンサ、WiFi送受信器、又は、第1の携帯デバイス130のロケーションに関する情報を決定又は提供するように構成することができる他のセンサを含むことができる。例示的な実施形態において、第1の携帯デバイス130は、プログラミング又はユーザ入力によって、一つ又は複数のコンテキストパラメータと関連付けられる。
[0051]信号特徴生成器370は、第1の携帯デバイス130、ネットワークに基づくメディア分類器105、又は、第1の携帯デバイス130若しくはネットワークに基づくメディア分類器105と通信可能に結合されている何らかの他のロケーション若しくはデバイスに含むことができる。信号特徴生成器370は、第1の携帯デバイス130によって提供されるメディア信号から、スペクトル特徴、時間的特徴、又は他の特徴のような、様々なメディアデータの特徴を特定又は抽出するように構成することができる。例えば、信号特徴生成器370は、オーディオ再生回路340又はマイクロフォン350からオーディオサンプルを受信し、その後、デジタル信号処理(DSP)方法を使用して、オーディオサンプルから様々な特徴を抽出することができる。例示的な実施形態において、他の特徴の中でも、メル周波数ケプストラム係数(MFCC)、スペクトル平坦性、平均値、ゼロ交差、スペクトル重心、コードクラス、又は衝撃性を、メディアサンプルに基づいて信号特徴生成器370によって決定又は提供することができる。信号特徴生成器370を使用して抽出又は特定される様々な特徴は、特定又は分類されるべき信号に一意に対応する指紋であると考えることができる。
[0052]クラスアーカイブ380は、分類、分類モデル、又は、クエリメディアを分類するためにアプリ390によって(例えば、ネットワークに基づくメディア分類器105の他の構成要素と協調して)適用することができる他の情報の一つ又は複数の指示を含むことができる。分類、分類モデル、又は他の情報は、第1のユーザ132及び/又は第1の携帯デバイス130と関連付けることができ、メディアサンプルを特定又は分類するために畳み込みニューラルネットワークにおける探索を狭めるために適用することができる。例示的な実施形態において、クラスアーカイブ380は、データベース115から、第1のユーザ132及び/又は第1の携帯デバイス130と関連付けられる一つ又は複数の分類モデルを取り出すためにネットワークに基づくメディア分類器105によって適用されるユーザ識別コードを含む。例示的な実施形態において、クラスアーカイブ380は、第1の携帯デバイス130によって提供されるメディアを分類するために、アプリ390及び/又はネットワークに基づくメディア分類器105によって適用することができる様々な分類モデルを含む。
[0053]図4は、クエリ音声波形及びコンテキストセンサ信号を含む例を全般的に示す。クエリ音声波形は、特定又は分類されるものとして示されているメディアデータ201の全部又は一部分を含むことができる。例示的な実施形態において、クエリ音声波形410は、第1の携帯デバイス130のオーディオ再生回路340又はマイクロフォン350を使用して受信することができる。
[0054]図4は、第1の携帯デバイス130から受信することができる、又は、第1の携帯デバイス130及び/又はユーザに関する情報を使用して決定することができるような、コンテキストセンサ信号420を含む。例えば、コンテキストセンサ信号420は、第1の携帯デバイス130のロケーションを示す、位置センサ360からの情報を含むことができる。例示的な実施形態において、オーディオサンプル412は、クエリ音声波形410のセグメントを含むことができる。オーディオサンプル412は、例えば、方法200による分類のためのメディアデータ201として使用することができる。
[0055]コンテキストセンサ信号420は、クエリ音声波形410に対応するコンテキスト情報を表すことができる。例えば、コンテキストセンサ信号420は、クエリ音声波形410と同時に受信することができる。図4の例示的な実施形態において、コンテキストセンサ信号420は、第1の携帯デバイス130の加速度計330を使用して決定することができるような、位置情報を含む。コンテキストセンサ信号420は、例えば、第1の携帯デバイス130が静止している(信号ロー)か又は動いている(信号ハイ)かの2進法指示を含む。コンテキスト情報は、様々な間隔をおいてコンテキストセンサ信号420からサンプリングすることができ、又は、コンテキスト情報は、コンテキストセンサ信号420の変化が特定されるときにサンプリングすることができる。例えば、第1のコンテキストデータ421は、コンテキストセンサ信号420の第1の状態変化に対応することができる。第2のコンテキストデータ422及び第3のコンテキストデータ423は、例えば、何らかの閾値コンテキストイベントが特定された後の、コンテキストセンサ信号420の周期的サンプルに対応することができる。本明細書においてさらに論じられているように、他のコンテキスト情報が、付加的に又は代替的に使用されてもよい。
[0056]図5は、メディアプロセッサ回路110のようなメディアプロセッサ回路のブロック図を全般的に示す。メディアプロセッサ回路110は、第1の携帯デバイス130の構成要素(例えば、図3参照)と協働するか、又は、当該構成要素から独立して動作することができる様々な構成要素を含むことができる。図5の例示的な実施形態において、メディアプロセッサ回路110は、クエリ受信器510と、分類モデル選択器520と、メディアタイプ確率指数生成器530とを含む。例示的な実施形態において、メディアプロセッサ回路110は、信号特徴生成器570をさらに含む。
[0057]例示的な実施形態において、クエリ受信器510、分類モデル選択器520、及びメディアタイプ確率指数生成器530は、ネットワークに基づくメディア分類器105に記憶(例えば、インストール)され、メディア分類サービスを実施するためにメディアプロセッサ回路110によって又は一つ若しくは複数の他のプロセッサ回路によって実行可能である。例示的な実施形態において、アプリ590は、少なくとも部分的にクラウド118に記憶され、アプリ590は、第1の携帯デバイス130及び第2の携帯デバイス150の構成要素のうちの一つ又は複数とインターフェースする。
[0058]クエリ受信器510は、分類のために示される、メディアデータ201のようなクエリデータを受信するように構成することができる。例示的な実施形態において、クエリ受信器510は、第1の携帯デバイス130及び第2の携帯デバイス150のうちの一方からメディアデータ201を受信する。クエリ受信器510は、任意選択的に、メディアデータ201が、メディアプロセッサ回路110によって処理することができるクエリ形式又はクエリ信号内容品質を含むことを検証することなどによって、メディアプロセッサ回路110の他の構成要素に対するゲートとして作用する。例示的な実施形態において、クエリ受信器510は、メディアデータ201と関連付けられる一つ又は複数のコンテキストパラメータを受信するように構成されている。
[0059]メディアプロセッサ回路110は、信号特徴生成器570を含むことができる。信号特徴生成器570は、第1の携帯デバイス130の信号特徴生成器370から独立することができ、又は、信号特徴生成器370と協働するように構成することができる。信号特徴生成器570は、オーディオ信号サンプル又はビデオ信号サンプル(例えば、クエリメディアサンプル)に対応するスペクトログラム又は他のスペクトル内容情報を生成するように構成されているコード又は処理モジュールを含むことができる。信号特徴生成器570は、クエリ受信器510によって受信されるメディアデータ201から様々な特徴を特定又は抽出するように構成することができる。例えば、信号特徴生成器570は、クエリ受信器510からオーディオ信号サンプルを受信し、その後、デジタル信号処理(DSP)方法を使用して、オーディオサンプルから様々な特徴を抽出することができる。他の特徴の中でも、メル周波数ケプストラム係数(MFCC)、スペクトル平坦性、平均値、ゼロ交差、スペクトル重心、コードクラス、又は衝撃性を、信号特徴生成器370によって決定することができる。
[0060]分類モデル選択器520は、メディアサンプルの分類に使用するための分類モデルを選択するために少なくとも一つのコンテキストパラメータ(例えば、クエリ受信器510を使用して受信されるコンテキストパラメータ)に関する情報を使用するように構成されているソフトウェアコード又は処理モジュール若しくは回路を含むことができる。少なくとも一つのコンテキストパラメータは、任意選択的に、例えば、クエリメディアが音楽、発話、又は音楽と発話との組み合わせを含むか否かを決定するために特定されるべきクエリメディアを分析することなどによって、分類モデル選択器520又は別のモジュールによって導出することができる。
[0061]例示的な実施形態において、分類モデル選択器520は、データベース115から一つ又は複数の分類モデルを取り出すために、データベース115と通信する。データベース115の一例が、図6において下記に論じられる。分類モデル選択器520及び/又はデータベース115は、例えば、特定されるべきクエリと関連付けられるコンテキストパラメータ(複数可)及び/又はスペクトル特徴(例えば、信号特徴生成器370又は570によって特定される)に基づいて、使用するための様々な分類モデルに関する推奨を提供することができる。
[0062]メディアタイプ確率指数生成器530は、クエリが指定のメディアタイプに対応する確率指数又は尤度を生成するために、信号特徴生成器370及び/又は570からのスペクトル特徴情報を分類器ネットワークに適用するように構成されている。例示的な実施形態において、メディアタイプは、メディアカテゴリ(例えば、話し言葉、音楽、クラシック音楽、ニュース放送など)を含むことができ、又は、メディアタイプは、曲、TV番組(例えば、特定の放映分の指示を含む)、若しくは演奏者のような、指定のソース又は指定の作品の指示を含むことができる。すなわち、例示的な実施形態において、メディアタイプ確率指数生成器530は、クエリが指定のアーティストによる指定の曲の指定の記録に対応する尤度の指示を提供することができる。別の例示的な実施形態において、メディアタイプ確率指数生成器530は、クエリが指定のアーティストに対応する尤度の指示を提供することができる。
[0063]図6は、分類モデルを記憶するためのデータベースのブロック図を全般的に示す。図6のブロック図は、データベース115に対応することができる。データベース115は、中でも、メディアを分類するための様々な分類モデル及びニューラルネットワークデータ621を提供するために、メディアプロセッサ回路110及び/又はネットワーク190と通信可能に結合することができる。ニューラルネットワークデータ621は、畳み込みニューラルネットワーク、又は、モデルに基づく分類サービスを提供することができる何らかの他の類似のツールに使用するための様々な構造的情報、フィルタ情報、又は重み付け情報を含むことができる。
[0064]例示的な実施形態において、図6のデータベース115は、複数の分類モデル601、602、及び603を含む分類器610を含む。第1の分類モデル601は、複数のパラメータ(PARAM[1]、PARAM[2]、...、PARAM[n])の関数である。すなわち、限定ではないがコンテキストパラメータを含むようなパラメータのセットを所与として、分類器610は、メディアプロセッサ回路110によって使用するための対応する分類モデルを返すことができる。パラメータは、コンテキストパラメータ、スペクトル特徴、又は、クエリ、デバイス、ユーザ、若しくは他の入力のうちの一つ若しくは複数と関連付けられる他の情報に対応することができる。第2の分類モデル602は、同じ又は異なる複数のパラメータの関数であってもよい。分類器610は、パラメータの異なる組み合わせに対応するn個の分類モデルを含むことができる。例示的な実施形態において、パラメータの指定の組み合わせが、複数の異なる分類モデルを返すことができる。例示的な実施形態において、パラメータの指定の組み合わせが、複数の異なる分類モデルが選択されており、連続して適用され得ることを示すことができる。
[0065]例示的な実施形態において、データベース115には、メディアプロセッサ回路110によって、少なくとも一つのパラメータが変化するときはいつでも問い合わせることができる。例えば、第1の携帯デバイス130から受信されるコンテキストパラメータの変化に応答して、メディアプロセッサ回路110は、更新済み分類モデルが変化したコンテキストパラメータによって示されているか否かを決定するために、データベース115に問い合わせることができる。更新済み分類モデルが示されない場合、メディアプロセッサ回路110は、以前に受信されたモデルを使用して、当該メディアプロセッサ回路のメディア分類サービスを実施することができる。更新済み分類モデルが示される場合、分類器610は、現在の又は後続の分類動作に使用するために、新たな分類モデルに関する情報をメディアプロセッサ回路110に送信することができる。
[0066]図7は、メディアコンテンツを特定するために分類ネットワークの使用の実施例を全般的に示す。図7は、メディアを分類するための、特定のメディアタイプ向けに調整された畳み込みニューラルネットワークのような、分類ネットワークの使用の実施例700を含む。例示的な実施形態において、第1のユーザ132及び第1の携帯デバイス130は、第1のロケーション701(例えば、音楽会場)と第2のロケーション702(例えば、音楽会場の外部の通り)との間で移動しているものとして示されている。図7の例示的な実施形態において、第1の携帯デバイス130は、第1のオーディオデータ711をサンプリングするように構成することができる。例示的な実施形態において、第1のオーディオデータ711は、第1のロケーション701において演奏されている生音楽を表す。
[0067]第1の携帯デバイス130は、第1のコンテキストデータ712を特定するようにさらに構成することができる。例示的な実施形態において、第1のコンテキストデータ712は、第1のロケーション701を特定するGPS位置情報、第1のユーザ132に関するユーザ情報(例えば、カレンダー入力情報、所有音楽ライブラリ情報、プレイリスト又は鑑賞履歴など)、又は、第1のロケーション701及び第1のユーザ132のうちの一つ若しくは複数を特定するために使用することができる他の情報のうちの一つ又は複数を含む。
[0068]例示的な実施形態において、第1のロケーション701においてオーディオ内容を特定するために、第1の携帯デバイス130によってメディア識別クエリを生成することができる。メディア識別クエリは、指定のスケジュール若しくは第1のロケーション701の周囲の音声内容の検出される変化などに基づいて、第1の携帯デバイス130によって自動的に生成することができ、又は、クエリは、第1の携帯デバイス130におけるユーザ入力(例えば、第1のユーザ132から受信される)に応答して生成することができる。
[0069]第1の携帯デバイス130は、アプリ390等を使用して、第1のオーディオデータ711をネットワークに基づくメディア分類器105に提供するように構成することができる。例示的な実施形態において、第1の携帯デバイス130は付加的に、第1のコンテキストデータ712をネットワークに基づくメディア分類器105に提供する。ネットワークに基づくメディア分類器105において、データベース115から第1の分類モデル715を取り出し、その後、第1のオーディオデータ711に対応するメディアタイプ確率指数を提供するために、メディアプロセッサ回路110を使用して適用することができる。第1のコンテキストデータ712は、n個の利用可能な分類モデルのうちのいずれの一つ又は複数が第1のオーディオデータ711とともに使用するために選択されるかに影響を与えることができる。例示的な実施形態において、メディアプロセッサ回路110は、第1のオーディオデータ711内で、第1のロケーション701において再生されている曲に対応するなどの、メディア内容718の第1の指示を特定するために、畳み込みニューラルネットワーク内で第1の分類モデル715を適用する。例示的な実施形態において、第1の分類モデル715を適用することは、第1のオーディオデータ711を処理及び識別するためにメディアプロセッサ回路110を使用するなど、畳み込みニューラルネットワークにおいて様々な重み又は他のパラメータを適用することを含む。
[0070]図7の例示的な実施形態において、第1のユーザ132は、第1のロケーション701から第2のロケーション702へと遷移又は移転する。第1のコンテキストデータ712から第2のコンテキストデータ722への変化によって示されるような、ロケーションの検出される変化に応答して、第1の携帯デバイス130は、新たな環境を表す、すなわち、第2のロケーション702を表す第2のオーディオデータ721をサンプリングすることができる。オーディオデータのサンプリング及び再サンプリングは、様々な方法でトリガすることができる。例示的な実施形態において、サンプリングは、第1のユーザ132のロケーション又はコンテキストの検出される変化に応答して自動的に実施することができる。例示的な実施形態において、サンプリングは、第1の携帯デバイス130におけるユーザ入力に応答して実施することができる。例示的な実施形態において、サンプリングは、周期的に又は何らかの指定の間隔をおいて実施することができる。サンプリングは、第1のユーザ132及び/又は第1の携帯デバイス130と関連付けられる他の検出される変化に応答してトリガすることができる。
[0071]第2のオーディオデータ721は、第2のコンテキストデータ722などとともに、ネットワークに基づくメディア分類器105に提供することができる。ネットワークに基づくメディア分類器105は、任意選択的に、畳み込みニューラルネットワークを使用して、第2のオーディオデータ721のメディアタイプの指示を生成するために適用するために、第2の分類モデル725のような異なる分類モデルを特定することができる。例示的な実施形態において、メディアプロセッサ回路110は、第2のオーディオデータ721内で、第2のロケーション702において再生されている異なる第2の曲に対応するなどの、メディア内容728の第2の指示を特定するために、分類ネットワーク730内で第2の分類モデル725を適用する。図7の例示的な実施形態において、異なる第2の曲が、近傍の飲食店の屋外スピーカシステムによって再生され得る。
[0072]図8〜図11は、中でも、メディアタイプ確率の決定、分類ネットワーク(例えば、様々なメディアを特定するように訓練されている畳み込みニューラルネットワーク)において使用するための異なる分類モデルの選択、及び、コンテキストパラメータの使用の実施例を全般的に示す。図12及び図13は、ニューラルネットワークの訓練、特定されるべきメディアクエリの一つ又は複数の特性に基づいた、畳み込みニューラルネットワークを使用するなど、メディア分類サービスを提供するために計算資源をいつ消費すべきか又は消費すべきか否かの決定の実施例を全般的に示す。本方法の各々は、本明細書において記載されているシステム、方法、又はデバイスを使用して実行することができるコードを使用して実施することができる。
[0073]図8は、オーディオタイプ確率指数を決定することを含む例示的な実施形態を全般的に示す。例示的な実施形態は、複数の異なるステップ又は動作を含む第1のプロセス800を含むことができる。動作810において、例示的な実施形態は、特定されるべきクエリ音声を表すオーディオデータ又はオーディオ信号にアクセスすることを含む。オーディオデータにアクセスすることは、中でも、他のデバイスの中でも携帯電話、テレビ、又はタブレットコンピュータなどを含む、様々な可搬又は固定電子デバイスを使用してオーディオサンプルを受信又は特定することを含むことができる。例示的な実施形態において、オーディオデータにアクセスすることは、オーディオ再生回路340を監視すること、又は、第1の携帯デバイス130のマイクロフォン350を使用して周囲のオーディオ情報をサンプリングすることを含む。
[0074]動作820において、例示的な実施形態は、第1のコンテキストパラメータにアクセスすることを含む。第1のコンテキストパラメータは、810からのクエリ音声に対応することができ、及び/又は、コンテキストパラメータは、デバイス、ユーザに対応することができ、若しくは、他の様態で動作810においてアクセスされるクエリ音声と関連付けることができる。クエリ音声に対応するコンテキストパラメータは、クエリ音声と実質的に同時に、又は直前若しくは直後に受信される、時間的に変化するコンテキスト信号情報を含むことができる。このように、コンテキストパラメータは、クエリ音声がアクセスされるロケーション又は時点において又はその付近で何が発生している又は発生している可能性があるかに関する情報を提供することができる。例示的な実施形態において、クエリ音声に対応するコンテキストパラメータは、中でも、ユーザ識別又はデバイスタイプに関する情報を含むことができるなど、実質的に時間的に不変とすることができる。
[0075]例示的な実施形態において、動作820において第1のコンテキストパラメータにアクセスすることは、第1の携帯デバイス130の位置センサから360からロケーション情報を受信することを含む。例えば、第1のコンテキストパラメータは、位置センサ360を使用して決定されるロケーション情報(例えば、GPS又は他の座標)を含むことができる。ロケーション情報は、ロケーションが決定されたときに記録又はサンプリングされた特定のクエリ音声と関連付けることができる。
[0076]動作830において、例示的な実施形態は、オーディオデータの、例えば、動作810においてアクセスされるオーディオデータのスペクトル特徴を決定することを含む。スペクトル特徴を決定することは、中でも、メル周波数ケプストラム係数(MFCC)、スペクトル平坦性、平均値、ゼロ交差、スペクトル重心、又は抽出可能な特徴を特定するためにデジタル信号処理(DSP)方法を使用することを含むことができる。様々なデジタル信号処理特徴抽出方法及び規格(例えば、MPEG−7)を使用することができる。動作830においてスペクトル特徴を決定することは、第1の携帯デバイス130の第1のプロセッサ回路310、ネットワークに基づくメディア分類器105のメディアプロセッサ回路110、又は、分類されるべきデジタルオーディオサンプルを受信及び分析するための何らかの他のプロセッサ若しくは回路のうちの一つ又は複数を使用することを含むことができる。
[0077]動作835において、例示的な実施形態は、クエリ音声特性に基づいて又はコンテキストパラメータ特性に基づいてクエリ音声が積極的に分類され得る尤度を決定することを含むことができる。クエリ音声及び/又はコンテキストパラメータは任意選択的に、クエリが分類され得る尤度の指示を提供するために使用することができるか、又は、指定の閾値特性若しくは閾値特徴と比較することができる特性又は特徴を特定するために(例えば、第1の携帯デバイス130の第1のプロセッサ回路310、ネットワークに基づくメディア分類器105のメディアプロセッサ回路110、又は、分類されるべきデジタルオーディオサンプルを受信及び分析するための何らかの他のプロセッサ若しくは回路のうちの一つ又は複数を使用して)分析することができる。例示的な実施形態において、動作835は、クエリ音声が積極的に分類され得る尤度を決定するために、動作830において決定されるスペクトル特徴(複数可)を使用することを含むことができる。
[0078]動作835は動作820及び830に後続するものとして示されているが、動作835における決定は、実質的にクエリ音声の取得の直後に(例えば、動作810に後続して)実施されてもよく、又は、コンテキストパラメータについて、実質的にコンテキストパラメータの取得の直後に(例えば、動作820に後続して)実施されてもよい。動作835の結果に基づいて、プロセス800は、動作840において継続することができる。例えば、動作835において決定される尤度が、クエリ音声が識別され得ることの指定の閾値尤度を上回る場合、プロセス800は、動作840において、クエリ音声の分類に使用するための分類モデルを選択することによって継続することができる。動作835において決定される尤度が指定の閾値尤度を下回る場合、プロセス800は終了することができ、又は、メディア分類プロセスに使用するためのより良好な品質の信号を取得する試みなどのために、クエリ音声及び/又はコンテキストパラメータのうちの一つ又は複数を再サンプリングすることができる。メディアクエリの特性などに基づいて、分類を進めるか否かを決定することを含む例示的な実施形態が、本明細書において、図13の論述に含まれている。
[0079]動作840において、例示的な実施形態は、例えば、オーディオデータを特定又は分類するために使用されるために、オーディオデータとともに使用するための分類モデルを選択することを含む。例示的な実施形態において、動作840において分類モデルを選択することは、少なくとも一つのコンテキストパラメータを使用することを含む。少なくとも一つのコンテキストパラメータは、分類モデル(例えば、図6の例示的な実施形態における分類モデル601〜603を参照されたい)を選択又は特定するために使用される複数のパラメータのうちの一つであってもよい。例示的な実施形態において、メディアプロセッサ回路110は、ネットワークに基づくメディア分類器105内のデータベース115から分類モデルを取り出すように構成されている。取り出される分類モデルは、オーディオデータに基づいてクエリ音声を特定又は分類するために(例えば、取り出されるモデルによって)調整することができるニューラルネットワークとともに使用するためのパラメータを含むことができる。
[0080]動作850において、例示的な実施形態は、第1の分類モデルを使用してクエリ音声のオーディオタイプ確率指数を決定することを含む。例示的な実施形態において、オーディオタイプ確率指数を決定することは、オーディオタイプ、又は、オーディオデータが指定のオーディオタイプ若しくはオーディオ内容に対応する可能性があることを示す確率指数を特定するために、ニューラルネットワーク内の一つ又は複数のノードにおいて様々なスペクトル特徴(例えば、動作830において決定される)の比較分析を実施することを含む。例示的な実施形態において、オーディオタイプ確率指数を決定することは、オーディオデータ、第1の分類モデル、及び訓練されている分類器ネットワークを使用することを含む。例示的な実施形態において、オーディオタイプ確率指数を決定することは、題名、アーティスト、ソースによってクエリ音声を分類若しくは特定すること、又は、他の様態で、クエリ音声と特定の特性との間の相関を積極的に特定することを含む。
[0081]動作860において、例示的な実施形態は、動作850において決定されるようなオーディオタイプ確率指数が、クエリ音声の分類に成功した又は失敗したことを示すか否か、すなわち、クエリが適切に特定されたか、誤って特定されたか、又は特定されなかったかに関する情報を記憶することを含むことができる。動作860は、任意選択的に、通常のシステム使用の間に、又は、訓練プロセスの間に実施されてもよい。訓練プロセスの一例が、図12において下記に論じられる。
[0082]動作860において、クエリ音声、コンテキストパラメータ、及び/又はオーディオタイプ確率指数の一つ又は複数の特性が指定の閾値特性を超えることを特定することなどによって(すなわち、客観的尺度を使用することによって)、分類動作が成功しているか否かを自動的に決定することができる。例示的な実施形態において、分類動作が成功しているか否かは、ユーザが分類器の結果を許容するか又は拒絶するかに関する質問に対するユーザの応答によって示すことができる。
[0083]クエリ音声は、多数の理由から分類に失敗するか、又は、誤って特定される可能性がある。例えば、不満足な品質の若しくはノイズの多いメディア信号は、分析することが困難である可能性があるか、又は、ノイズ若しくは他の信号異常による遮蔽などに起因して、基礎となるメディア信号内容に正確に対応しないスペクトル特徴若しくは信号指紋をもたらす可能性がある。ノイズは、マイクロフォンのような環境センサを使用してメディア信号が検知されるときにメディア信号に導入される可能性があるか、又は、電気的雑音若しくは電磁的雑音によって、若しくは他の手段を介して導入される可能性がある。不満足な品質の又はノイズの多いコンテキストパラメータは、同様に、ノイズが多いか、又は、誤った解釈をもたらす異常を含む場合に、分析することが困難である可能性がある。クエリ音声及び/又はコンテキストパラメータのうちの一つ又は複数が、ノイズが多いか又は不正確である場合、動作840において選択される分類モデルは不適切である可能性があり、結果として、決定されるオーディオタイプ確率指数は不満足なものである可能性がある。
[0084]例示的な実施形態において、動作860において記憶される情報は、クエリ音声の分類又は特性の成功(又は失敗)に関する相対的又は絶対的な情報を含み、任意選択的に、成功と、使用されているクエリ音声、コンテキストパラメータ、又は分類モデル(複数可)の一つ又は複数の特性との間の対応に関する情報を含む。記憶された情報は、新たなクエリ音声の分類が成功する尤度の特定に使用するなどのために、後に取り出して、新たなクエリ音声、コンテキストパラメータ、又はモデルと比較することができる。成功する尤度が低すぎる場合、計算資源又は能力を他の課業のために節約するために、分類プロセスを保留することができる。
[0085]図9は、コンテキストパラメータに基づいて分類モデルを選択することを含む例示的な実施形態900を全般的に示す。例示的な実施形態は、分類ネットワークにおいて使用するために利用可能である複数の異なる分類モデルの間で選択することを含むことができる。
[0086]動作910において、例示的な実施形態は、クエリ音声に対応する第1のコンテキストパラメータ及び第2のコンテキストパラメータにアクセスすることを含む。第1のコンテキストパラメータ及び第2のコンテキストパラメータは、同じタイプ若しくは形式のものであってもよく(例えば、両方とも、ロケーション情報又は座標、タイムスタンプ情報、ユーザプロファイル情報などを含んでもよい)、又は、コンテキストパラメータは異なってもよい。第1のコンテキストパラメータ及び第2のコンテキストパラメータの一方又は両方は、特定されるべきオーディオサンプル若しくはクエリ音声を使用して決定することができ、又は、当該オーディオサンプル若しくはクエリ音声から導出することができる。コンテキストパラメータの一方又は両方は、センサ情報、ユーザ情報、又は、オーディオサンプルの特性を示すことができるか、若しくは、オーディオサンプルと関連付けられるユーザ若しくはデバイスの特性を示すことができる他の情報に基づいて決定することができる。例示的な実施形態において、メディアプロセッサ回路110及び/又は第1のプロセッサ回路310は、動作910において第1のコンテキストパラメータ及び第2のコンテキストパラメータにアクセスすることができる。
[0087]動作920において、例示的な実施形態は、第1のコンテキストパラメータ及び第2のコンテキストパラメータの各々と関連付けられる探索範囲特性を決定することを含む。例えば、第1の探索範囲は、第1のコンテキストパラメータと関連付けることができ、異なる第2の探索範囲は、第2のコンテキストパラメータと関連付けることができる。例示的な実施形態において、第1のコンテキストパラメータは、第1の携帯デバイス130のGPS座標を含む。GPS座標と関連付けられる第1の探索範囲は、例えば、GPS座標が第1のロケーション701に対応すると決定することができる場合、相対的に狭くすることができる。この場合、探索範囲特性は、任意選択的に、(例えば、第1のロケーション701と関連付けられるイベントのカレンダー、又は、第1のロケーション701に関する他の以前の若しくはプログラムされている情報によって決定することができるように)第1のロケーション701と関連付けられることが分かっているメディアコンテキストのみを含むように狭めることができる。
[0088]例示的な実施形態において、第2のコンテキストパラメータは、クエリデータを取得するために使用されたデバイスタイプの指示を含む。この例において、第2のコンテキストパラメータは、対象のオーディオデータ又はクエリ音声が第1の携帯デバイス130を使用して取得されたことを示す情報を含むことができる。例えば、クエリ音声のソースに関する情報を使用して、携帯デバイスによって受信される可能性が最も高いメディアを特定するために、探索範囲特性を狭めるか又は調整することができる。付加的に又は代替的に、一つ又は複数の前処理フィルタが、携帯デバイスからサンプリングされるスペクトル情報を最適化するように調整されてもよい。
[0089]動作930において、例示的な実施形態は、第1のコンテキストパラメータ及び第2のコンテキストパラメータのうちの一方を選択することを含む。選択されたコンテキストパラメータは、動作940において分類モデルを選択するために使用することができる(例えば、図8の動作840を参照されたい)。すなわち、動作940における特定の分類モデルの選択は、選択されたコンテキストパラメータに基づくことができるか、又は、当該コンテキストパラメータによって少なくとも部分的に通知することができる。
[0090]例示的な実施形態において、使用するために選択されるコンテキストパラメータは、相対的により狭い探索範囲に対応するコンテキストパラメータとすることができる。探索範囲がより狭いとき、メディア分類の実施はより焦点を絞り込むことができ、したがって、消費される処理資源がより少なくなる。したがって、上記の例示的な実施形態において、携帯デバイスによってサンプリングされ得るか、又は、サンプリングされる可能性がある任意の又はすべてのメディアに対応し得る第2のコンテキストパラメータとの比較などにおいて、GPS座標が可能性のあるメディア分類のより小さい又はより狭いセットに対応するときの、第1のコンテキストパラメータを選択することができる。
[0091]動作940において分類モデルを選択することは、第1のコンテキストパラメータ及び第2のコンテキストパラメータのうちの選択される一方を使用することを含む。いくつかの例において、異なるコンテキストパラメータに異なる重みを関連付けることができ、分類モデルを選択するために複数のコンテキストパラメータを使用することができる(例えば、分類器610において複数の分類モデルを含み、各異なるモデルが複数の異なるパラメータの関数であり得る図6を参照されたい)。動作940において分類モデルを選択することは、選択された分類モデルを取り出し、メディアタイプの指示を提供するように構成されているニューラルネットワークのコンテキストに、選択された分類モデルを適用するために、メディアプロセッサ回路110を使用することを含むことができる。
[0092]図10は、更新済み分類モデルを選択することを含む例示的な実施形態1000を全般的に示す。例示的な実施形態は、更新済みコンテキストパラメータ情報を受信及び解析することを含むことができる。図10のいくつかの部分は、概して、図7に示す例示的な実施形態に対応する。
[0093]動作1010において、例示的な実施形態は、分類モデル更新トリガを特定することを含むことができる。更新トリガを特定することは、中でも、クエリ音声特性が変化したことを決定すること(例えば、音程、振幅、音色、衝撃性、又は他の品質のうちの一つ又は複数が先行するクエリ音声又はサンプルと異なることを決定すること)、更新間隔が経過したことを決定すること、又は、クエリ音声と関連付けられるコンテキストパラメータが指定の閾値量よりも多く変化したことを決定することを含むことができる。再び図4における例を参照すると、更新トリガは、例えば、コンテキストセンサ信号420の状態の変化と関連付けることができるなど、第1のコンテキストデータ421に基づいて提供することができる。例示的な実施形態において、分類モデル更新トリガは、ソースデバイスによって(例えば、第1の携帯デバイス130又は第2の携帯デバイス150によって)、メディアプロセッサ回路110によって、ソースデバイス及び/若しくはネットワークに基づくメディア分類器105に対するユーザ入力によって、又は、他の手段によって特定することができる。
[0094]図10の動作1020において、例示的な実施形態は、少なくとも一つの更新済みコンテキストパラメータを受信することを含む。例えば、分類モデル更新トリガの特定に応答して、メディアプロセッサ回路110又は他の構成要素は、分類モデル更新が要求又は所望されるか否かを評価するなどのために、更新済みコンテキストパラメータを要求することができる。動作1020において、例示的な実施形態は、連続的な又は断続的なクエリストリームの変化に基づいて更新済みコンテキストパラメータを受信すること、又は、デバイス状態の検出された変化(例えば、ロケーションの変化又はユーザの変化)に基づいて更新済みコンテキストパラメータを受信することを含むことができる。図7の文脈において、例えば、更新済みコンテキストパラメータを受信することは、第1のコンテキストデータ712及び異なる第2のコンテキストデータ722を受信及び認識するために、第1の携帯デバイス130(又は他のデバイス若しくはプロセス)を使用することを含むことができる。
[0095]2つ以上のコンテキストパラメータ更新が特定される場合、動作1030において、例示的な実施形態は、分類モデルの選択に使用するために、更新済みコンテキストパラメータのうちの少なくとも一つを選択することを含む。例示的な実施形態において、メディアのより狭い分類に対応するコンテキストパラメータが、ネットワークに基づくメディア分類器105によって実施される探索の範囲を狭めるなどのために、動作1030において選択される。動作1040において、例示的な実施形態は、更新済みコンテキストパラメータ(複数可)に基づいて分類モデルを選択することを含む。選択された分類モデルは、更新済みコンテキストパラメータ(複数可)と関連付けられるクエリメディアを分類するために、上述したように適用することができる。
[0096]図11は、更新済み分類モデルをいつ適用すべきかを決定することを含む例示的な実施形態1100を全般的に示す。例えば、コンテキストパラメータの更新、又は、更新済み分類モデルの取り出し若しくは適用において資源を消費すべきか否か、又は、いつ消費すべきかを決定するために、様々な考慮事項を評価することができる。
[0097]動作1110において、メディアプロセッサ回路110のようなプロセッサ回路は、以前のクエリが分類されてから指定の継続時間が経過したか否かを決定することができる。指定の継続時間は、クエリ間の最小の「再試行」又は「再分類」間隔を表すことができる。動作1105において、指定の継続時間が経過していない場合、システムは、指定の更新間隔にわたって一時停止することができる。更新間隔が経過すると、クエリを進めることができる。
[0098]動作1120において、メディアプロセッサ回路110、第1のプロセッサ回路310、又は他のプロセッサを、品質についてクエリを分析するために使用することができる。クエリが、分類ネットワークにおいて使用するにはノイズが多すぎるか、又は、静かすぎる(すなわち、クエリが十分な信号内容を有しない)と考えられるオーディオ信号情報を含む場合、方法は、1105に戻ることができる。指定の間隔にわたって一時停止した後、ノイズ又は振幅レベルが変化したか否かを見るなどのために、クエリを再サンプリングすることができる。いくつかの例において、いくつかのネットワーク又は分類モデルは、ノイズ耐性がより高い可能性がある。他の例において、ネットワークに強制的にノイズの多い信号を処理させるために、優先度指示又はユーザオーバーライドを提供することができる。
[0099]クエリが十分な最小限の信号品質を有すると決定される場合、動作1130において、例示的な実施形態は、品質自体が何らかの指定の閾値量よりも多く変化したか否かを決定することを含むことができる。クエリ自体が以前のクエリから(例えば、周波数内容、音程、衝撃性、又は他の定量的若しくは定性的尺度において)合理的に変化していない場合、システムは、以前のクエリが依然として、特定されるべき現在のクエリ内容を表すと仮定することができ、再分類を回避又は遅延することができる。例示的な実施形態は、一時停止するために1105に戻ることを含むことができ、指定の間隔後に、又は、トリガイベントの指示の後に、新たなクエリを生成することができる。
[0100]クエリが先行するクエリから十分に異なる場合、動作1140において、例示的な実施形態は、クエリと関連付けられるコンテキストパラメータが指定の閾値量よりも多く変化したか否かを決定することを含むことができる。コンテキストパラメータが変化していない場合、又は、新たなコンテキストパラメータが利用可能でない場合、例示的な実施形態は、動作1145において、以前の分類モデルを選択すること、又は、クエリに適用することによって、継続することができる。コンテキストパラメータが指定の閾値量よりも多く変化したと決定される場合、又は、新たなコンテキストパラメータが利用可能である場合、例示的な実施形態は、動作1150において、変化した又は新たなコンテキストパラメータ自体が何らかの指定の最小限の信号品質を満たすか否かを判定することによって、継続することができる。例えば、コンテキストパラメータがノイズを含むか、又は、未知のコンテキストを表す場合、(例えば、動作1145において)以前の分類モデルを使用することができる。一方、コンテキストパラメータが品質閾値を満たす場合、例示的な実施形態は、動作1160において、クエリを分類するために、新たなコンテキストパラメータに基づいて、新たな分類モデルを選択及び適用することによって、継続することができる。
[0101]図12は、メディアクエリ識別システムを訓練することを含む例示的な実施形態1200を全般的に示す。例示的な実施形態は、一つ又は複数の入力信号特性の変化の許容誤差を特定するプロセスを含むことができる。例えば、プロセスは、メディアクエリ信号においてどれだけ多くのノイズを許容することができるかを決定するために使用することができる。ノイズの量又は純粋な若しくは予測されるメディアクエリ及び/若しくはコンテキストパラメータからの変動が、許容誤差として参照され得る。入力信号に存在するノイズが多すぎる場合、ノイズレベルが指定の許容誤差閾値を超え、ノイズの多い入力信号に基づくメディアタイプ分類が正確になる可能性が高い。クエリを特定又は分類する試行が行われる前など、ノイズの多い信号を先行して特定することができる場合、システムは、メディア分類サービスを抑制することによって、計算資源及び/又は能力を節約することができる。メディアクエリに存在するノイズ(又は他の信号特性異常)が指定の閾値量未満である場合、システムは、成功する合理的な尤度をもって、メディア分類プロセスを実行することができる。すなわち、入力信号が有するノイズが指定のノイズ許容誤差閾値未満である場合、システムは、入力信号のメディア分類を進めることができる。
[0102]動作1210において、例示的な実施形態は、訓練のためにメディアクエリにアクセスすることを含む。動作1220において、例示的な実施形態は、訓練のためにコンテキストパラメータにアクセスすることを含む。例示的な実施形態において、アクセスされるメディアクエリ及び/又はコンテキストパラメータは、メディア分類システムの訓練を課された個人又は機械などによって、予め選択することができる。動作1212において、メディア訓練パラメータを導入することができる。メディア訓練パラメータを導入することは、中でも、ノイズ特性、周波数プロファイル、周波数フィルタ、又は、元々のメディアクエリの他の特性を追加又は変更することを含むことができる。すなわち、動作1212においてメディア訓練パラメータを導入することは、動作1214において更新済みメディアクエリを提供するために、元々のメディアクエリの内容又は一つ若しくは複数の特性を意図的に修正することを含むことができる。例示的な実施形態において、メディア訓練パラメータは、指定の許容誤差閾値に対応し、又は、メディア訓練パラメータは、分類システムによって一つ又は複数の新たな条件を試験又は訓練するなどのために、以前の許容誤差閾値を超えるように選択することができる。
[0103]動作1222において、動作1220においてアクセスされるコンテキストパラメータに、コンテキスト訓練パラメータを同様に導入することができる。コンテキスト訓練パラメータを導入することは、動作1224において更新済みコンテキストパラメータを提供するために、元々のコンテキストパラメータの内容又は一つ若しくは複数の特性を意図的に修正することを含むことができる。いくつかの例示的な実施形態において、メディア訓練パラメータ及びコンテキスト訓練パラメータのうちの少なくとも一方は使用されず、動作1214において提供される更新済みメディアクエリは、動作1210においてアクセスされる元々のメディアクエリと同じであり、又は、1224において提供される更新済みコンテキストパラメータは、動作1220においてアクセスされる元々のコンテキストパラメータと同じである。
[0104]動作1230において、第1の分類モデルを選択することができる。第1の分類モデルは、メディアクエリ、更新済みメディアクエリ、コンテキストパラメータ、又は更新されたコンテキストパラメータのうちの一つ又は複数に基づいて選択することができる。例示的な実施形態において、分類モデルは、システムを訓練することを課されているユーザによって選択することができ、又は、機械によって自動的に選択することができる。動作1240において、例示的な実施形態は、更新済みメディアクエリを分類するよう試みるために、第1の分類モデルを使用することができる。動作1240は、メディアクエリに対応するメディアタイプの指示(例えば、メディアソース、起源、又は他の特定する特徴の指示を含む)を提供することのうちの一つ又は複数を含むことができ、又は、動作は、メディアクエリが指定のメディアタイプに対応する尤度を提供することを含むことができる。
[0105]動作1250において、例示的な実施形態は、1210においてアクセスされた元々のメディアクエリに関する事前の情報などに基づいて、メディアクエリの特定に成功したか否かを決定することを含むことができる。メディアクエリの特定に成功した場合、例示的な実施形態は、動作1260において、許容誤差閾値を更新することによって継続することができる。例えば、動作1260において、許容誤差閾値が、他のメディアクエリに関する後の分類課業などに使用するために、動作1212において導入されるメディア訓練パラメータに対応するように更新することができる。例示的な実施形態において、動作1212において導入されるメディア訓練パラメータは、第1のノイズプロファイルを含み、動作1250において、第1のノイズプロファイルを有するメディアクエリの分類に成功した場合、第1のノイズプロファイルに対応する許容誤差閾値を、同じ又は他のメディアクエリに対する後の分類課業に使用するために選択することができる。
[0106]動作1250において、メディアクエリの特定に成功しなかった場合、例示的な実施形態は、動作1270において、メディア訓練パラメータ及びコンテキスト訓練パラメータのうちの一方又は両方を更新することによって継続することができる。例示的な実施形態において、動作1270において訓練パラメータを更新することは、以前に使用されたものとは異なる許容誤差閾値に対応する訓練パラメータを、さらなる分析のために選択することを含む。例示的な実施形態において、動作1270において、許容誤差閾値を、他のメディアクエリに関する後の分類課業などに使用するために、分類の成功をもたらすことがすでに分かっているメディア訓練パラメータに対応するように更新することができる。例示的な実施形態において、動作1212において導入されるメディア訓練パラメータは、第1のノイズプロファイルを含み、動作1250において、第1のノイズプロファイルを有するメディアクエリの分類に成功しなかった場合、異なる第2のノイズプロファイルに対応する許容誤差閾値を、同じ又は他のメディアクエリに対する後の分類課業に使用するために選択することができる。
[0107]図13は、メディアクエリを分類すべきか否かを決定することを含む例示的な実施形態1300を全般的に示す。例示的な実施形態において、メディアクエリは、前もって取得若しくはアクセスすることができるか、又は、メディアクエリは、周期的に若しくは断続的に受信することができる。動作1310において、実施例は、以前の分類イベントからの指定の時間のような、指定の最小継続時間又は更新間隔にわたって一時停止することを含むことができる。一実施例において、更新間隔が経過した後、又は、メディア分類を求めるユーザ要求に応答して、動作1320において、メディアクエリのノイズ特性を特定することができる。例示的な実施形態において、ノイズ特性は、メディアプロセッサ回路110を使用して、又は、ネットワークに基づくメディア分類器105に対する入力デバイスと関連付けることができるような、何らかの他のプロセッサ回路を使用して、特定することができる。例えば、第1の携帯デバイス130の第1のプロセッサ回路310は、第1の携帯デバイス130によって受信又は準備されるメディアクエリのノイズ特性を特定するために使用することができる。動作1320において特定されるノイズ特性に基づいて、メディア分類システムに、メディア分類プロセスを開始又は抑制させることができる。例えば、他の課業のために一つ又は複数のプロセッサ回路の処理容量を節約するために、メディア分類プロセスが進行するのを抑制又は阻害することが有利であり得る。
[0108]動作1330において、例示的な実施形態は、動作1320において特定されるノイズ特性を、指定のノイズ許容誤差閾値と比較することを含む。ノイズ許容誤差閾値は、ユーザ、プログラマによって指定することができ、又は、ノイズ許容誤差閾値は、様々なネットワーク訓練動作を利用するシステムによって学習することができる(例えば、図12の例示的な実施形態を参照されたい)。動作1332において、特定されたノイズ特性が、(例えば、メディアプロセッサ回路110、第1のプロセッサ回路310、又は、ネットワーク環境100内のデバイスと関連付けられる別のプロセッサ回路によって)指定のノイズ許容誤差閾値を超えると決定される場合、クエリは、ノイズが多すぎて分類することができないと考えることができ、実施例は、更新間隔にわたって一時停止するために動作1310に戻ることができる。更新間隔が経過した後、実施例は、例えば、異なるノイズ特性を有する後続のクエリをサンプリング又は取得することによって継続することができ、実施例は、後続のクエリの異なるノイズ特性が分類により適しているか否かを決定するために、後続のクエリを分析することを含むことができる。動作1332において、特定されたノイズ特性が指定のノイズ許容誤差閾値を超えない場合、実施例は、動作1350において、クエリを分類することによって継続することができる。例えば、実施形態は、図8の実施例の動作840において、クエリとともに使用するための分類モデルを選択することによって継続することができる。
[0109]動作1340において、例示的な実施形態は、動作1320において特定されたノイズ特性を、同じ又は類似のノイズ特性を有するクエリに対するものである以前の分類試行の結果と比較することを含む。以前の分類試行が、同じ又は類似のノイズ特性を有するクエリを特定又は分類するのに成功しなかった場合、クエリ分類を回避することができ、例示的な実施形態は、動作1310に戻ることができる。動作1342において、以前の分類試行が、同じ又は類似のノイズ特性を有するクエリを特定又は分類するのに成功した場合、図8の実施例の動作840のように、クエリ分類プロセスを開始又は継続することができる。
[0110]図13の例示的な実施形態は、クエリのノイズ特性を参照するが、他の特性が同様に分析されてもよい。例えば、ノイズ特性の代わりに、周波数内容特性を特定して、クエリを分類すべきか否かを決定するために使用することができる。例示的な実施形態において、色内容特性のような視覚的特性を特定して、視覚的メディア又はビデオ情報を含むクエリを分類すべきか否かを決定するために使用することができる。同様に、他のメディア特性を分析して、メディア分類プロセスを開始又は抑制するためのゲートとして使用することができる。
[0111]図14は、機械可読媒体から命令を読み出し、本明細書において開示されている方法のうちのいずれか一つ又は複数を実施することができる、いくつかの例による機械の構成要素を示すブロック図である。図14の例示的な実施形態において、機械1400は、いくつかの例示的な実施形態に従って、機械可読媒体1422(例えば、非一時的機械可読媒体、機械可読記憶媒体、コンピュータ可読記憶媒体、又はそれらの任意の適切な組み合わせ)から命令1424を読み出し、全体的に又は部分的に、本明細書において論じられている方法のいずれか一つ又は複数を実施することが可能である。図14は、例示的な形態のコンピュータシステム内の機械1400(例えば、コンピュータ)を示し、当該機械の中で、本明細書において論じられている方法論のいずれか一つ又は複数を機械1400に実施させるための命令1424(例えば、ソフトウェア、プログラム、アプリケーション、アプレット、アプリ、又は他の実行可能コード)を全体的に又は部分的に実行することができる。
[0112]例示的な実施形態において、機械1400は、独立型デバイスとして動作し、又は、他の機械に通信可能に結合(例えば、ネットワーク接続)されてもよい。ネットワーク化された配備において、機械1400は、サーバ−クライアントネットワーク環境におけるサーバ機械若しくはクライアント機械の容量内で、又は分散型(例えば、ピアツーピア)ネットワーク環境におけるピア機械として動作することができる。機械1400は、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ(PC)、タブレットコンピュータ、ラップトップコンピュータ、ネットブック、携帯電話、スマートフォン、セットトップボックス(STB)、個人情報端末(PDA)、ウェブ機器、ネットワークルータ、ネットワークスイッチ、ネットワークブリッジ、又は、その機械によって取られるべき措置を指定する命令1424を連続的に若しくは他の様態で実行することが可能な他の機械であってもよい。さらに、単一の機械のみが示されているが、「機械」という用語は、本明細書において論じられている方法のいずれか一つ又は複数の全部又は一部分を実施するために個々に又は共同して命令1424を実行する機械の任意の集合を含むものとして理解されるべきである。例示的な実施形態において、機械1400は、ネットワークに基づくメディア分類器105に対する入力として使用することができるデバイスを含むか、又は、機械1400は、ネットワーク100の全部又は一部分を含むことができる。
[0113]図14の例示的な実施形態において、機械1400は、バス1408を介して互いに通信するように構成されている、プロセッサ回路1402(例えば、一つ又は複数の中央処理装置(CPU)、一つ又は複数のGPU、一つ又は複数のデジタル信号プロセッサ(DSP)、一つ又は複数の特定用途向け集積回路(ASIC)、一つ又は複数の無線周波数集積回路(RFIC)、又はそれらの任意の適切な組み合わせ)と、メインメモリ1404と、スタティックメモリ1406とを含む。プロセッサ回路1402は、プロセッサ回路1402が本明細書において論じられている方法論のいずれか一つ又は複数を全体的に又は部分的に実施するように構成可能であるように、命令1424の一部又は全部によって一時的に又は永続的に構成可能である、ソリッドステートデジタルマイクロ回路(例えば、電子、光学、又は両方)を含む。
[0114]機械1400は、グラフィックス又はビデオを表示することが可能なグラフィックスディスプレイ1410を含むことができ、機械1400は、英数字入力デバイス1412(例えば、キーボード又はキーパッド)、ポインタ入力デバイス1414、データ記憶装置1416、オーディオ生成デバイス1418(例えば、サウンドカード、増幅器、スピーカ、ヘッドフォン差し込み口、又はそれらの任意の適切な組み合わせ)、又はネットワークインターフェースデバイス1420を含むことができる。
[0115]例示的な実施形態において、データ記憶装置1416(例えば、データ記憶デバイス)は、本明細書において記載されている方法論又は機能のうちのいずれか一つ又は複数を具現化する命令1424が記憶される機械可読媒体1422(例えば、有形非一時的機械可読記憶媒体)を含む。命令1424はまた、機械1400によって命令が実行される前又はされている間に、全体的に又は少なくとも部分的に、メインメモリ1404内、スタティックメモリ1406内、プロセッサ回路1402内(例えば、プロセッサのキャッシュメモリ内)、又はそれらの任意の適切な組み合わせに存在してもよい。したがって、メインメモリ1404、スタティックメモリ1406、及びプロセッサ回路1402は、機械可読媒体(例えば、有形非一時的機械可読媒体)と考えることができる。命令1424は、ネットワークインターフェースデバイス1420を介してネットワーク190にわたって送信又は受信することができる。例えば、ネットワークインターフェースデバイス1420は、任意の一つ又は複数の転送プロトコル(例えば、ハイパーテキスト転送プロトコル(HTTP))を使用して命令1424を通信することができる。
[0116]例示的な実施形態において、機械1400は、可搬コンピューティングデバイス(例えば、スマートフォン、タブレットコンピュータ、又は装着可能デバイス)であり、本明細書において論じられているような、一つ又は複数の追加の入力構成要素1430(例えば、センサ又は測定機器)を有することができる。そのような入力構成要素1430の例は、画像入力構成要素(例えば、一つ又は複数のカメラ)、オーディオ入力構成要素(例えば、一つ又は複数のマイクロフォン)、方向入力構成要素(例えば、方位磁石)、ロケーション入力構成要素(例えば、全地球測位システム(GPS)受信器)、方向構成要素(例えば、ジャイロスコープ)、運動検出構成要素(例えば一つ又は複数の加速度計)、高度検出構成要素(例えば、高度計)、バイオメトリック入力構成要素(例えば、心拍検出器又は血圧検出器)、及び気体検出構成要素(例えば、気体センサ)を含む。上記の入力構成要素のいずれか一つ又は複数によって収集される入力データは、本明細書において記載されている構成要素のいずれかによって使用するためにアクセス可能及び利用可能であり得る。
[0117]本明細書において使用される場合、「メモリ」という用語は、データを一時的又は永続的に記憶することが可能な機械可読媒体を指し、限定ではないが、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、バッファメモリ、フラッシュメモリ、及びキャッシュメモリを含むものとして解釈することができる。機械可読媒体1422は、例示的な実施形態において、単一の媒体であるように示されているが、「機械可読媒体」という用語は、命令を記憶することが可能な、単一の媒体又は複数の媒体(例えば、集中型若しくは分散型データベース、又は、関連付けられるキャッシュ及びサーバ)を含むように解釈されるべきである。「機械可読媒体」という用語はまた、命令1424が、機械1400の一つ又は複数のプロセッサ(例えば、プロセッサ回路1402)によって実行されると、機械1400に、本明細書において記載されている方法論のうちのいずれか一つ又は複数を全体的に又は部分的に実施させるように、機械1400によって実行するための命令1424を記憶することが可能である任意の媒体、又は、複数の媒体の組み合わせを含むようにも解釈されるべきである。したがって、「機械可読媒体」は、単一の記憶装置又はデバイス、及び、複数の記憶装置又はデバイスを含むクラウドに基づく記憶システム又は記憶ネットワークを指す。したがって、「機械可読媒体」と言う用語は、限定ではないが、例示的な実施形態においてはソリッドステートメモリチップ、光ディスク、磁気ディスク、又はそれらの任意の適切な組み合わせの形態の一つ又は複数の有形非一時的データリポジトリを含むように解釈されるべきである。「非一時的」機械可読媒体は、本明細書において使用されるものとしては、特に、例として伝播信号は含まない。いくつかの例示的な実施形態において、機械1400によって実行するための命令1424は、キャリア媒体によって通信することができる。そのようなキャリア媒体の例は、記憶媒体(例えば、一つの場所から別の場所へ物理的に動かされる、ソリッドステートメモリのような、非一時的機械可読記憶媒体)及び過渡媒体(例えば、命令1424を通信する伝播信号)を含む。
[0118]いくつかの実施例は、本明細書においてはモジュールを含むものとして記載されている。モジュールは、ソフトウェアモジュール(例えば、機械可読媒体又は伝送媒体に記憶又は他の様態で具現化されるコード)、ハードウェアモジュール、又はそれらの任意の適切な組み合わせを構成することができる。「ハードウェアモジュール」は、特定の動作を実施することが可能な有形(例えば、非一時的)物理構成要素(例えば、一つ又は複数のプロセッサから成るセット)であり、特定の物理的様式に構成又は配置することができる。様々な例示的な実施形態において、一つ若しくは複数のコンピュータシステム又は当該コンピュータシステムの一つ若しくは複数のハードウェアモジュールは、ソフトウェア(例えば、アプリケーション又はその一部分)によってそのモジュールについて本明細書において記載されている動作を実施するように動作するハードウェアモジュールとして構成することができる。
[0119]本明細書において論じられているプロセッサ回路のうちの一つ又は複数は、「クラウドコンピューティング」環境において、又は、サービスとして(例えば、「サービス型ソフトウェア」(SaaS)実施態様内で)動作を実施することができる。例えば、本明細書において論じられている方法のうちのいずれか一つ又は複数内の少なくともいくつかの動作は、コンピュータの(例えば、例としてプロセッサを含む機械の)グループによって実施することができ、これらの動作は、ネットワーク(例えば、インターネット)及び一つ又は複数の適切なインターフェース(例えば、アプリケーションプログラムインターフェース(API))を介してアクセス可能である。特定の動作の実施は、単一の機械内にのみ存在するか、又は、例えば図1のネットワーク100内の複数の機械にわたって配備されるかにかかわらず、一つ又は複数のプロセッサの間で分散させることができる。いくつかの例示的な実施形態において、一つ又は複数のプロセッサ又はハードウェアモジュール(例えば、プロセッサによって実施されるモジュール)は、単一の地理的ロケーション(例えば、家庭環境、オフィス環境、又はサーバファーム内)に位置することができる。他の例示的な実施形態において、一つ又は複数のプロセッサ又はハードウェアモジュールは、複数の地理的ロケーションにわたって分散させることができる。
[0120]いくつかの追加の実施例を以下に述べる。実施例1は、メディアを分類するための方法を含むか又は使用することができるなど、主題(装置、方法、動作を実施するための手段、又は、機械によって実施されると、動作を実施するように機械を構成することができる命令を含む機械可読メモリなど)を含むか又は使用することができ、
方法は、
一つ又は複数のプロセッサ回路を使用して、特定されるべきメディアクエリを表すデジタルメディアデータにアクセスするステップであって、デジタルメディアデータが、第1の遠隔デバイスによって与えられる、アクセスするステップと、
一つ又は複数のプロセッサ回路を使用して、特定されるべきメディアクエリに対応する第1のコンテキストパラメータにアクセスするステップであって、第1のコンテキストパラメータが、同じ第1の遠隔デバイスによって与えられる、アクセスするステップと、
一つ又は複数のプロセッサ回路を使用して、デジタルメディアデータに対応するスペクトル特徴を決定するステップと、
一つ又は複数のプロセッサ回路を使用して、データベースに記憶された第1の分類モデルを選択するステップであって、第1の分類モデルが、データベースに記憶された複数の異なる分類モデルのうちの一つであり、選択が、第1のコンテキストパラメータに基づく、選択するステップと
を含む。
実施例1は、一つ又は複数のプロセッサ回路を使用して、デジタルメディアデータに対応する決定されたスペクトル特徴及び第1の分類モデルを使用してメディアクエリのメディアタイプ確率指数を決定するステップであって、決定されたメディアタイプ確率指数は、メディアクエリが複数の異なるメディア特性のうちの少なくとも一つのメディア特性に対応する尤度を示す、決定するステップを含むことができる。
実施例1は、第1の遠隔デバイスにおいて、メディアタイプ確率指数及び少なくとも一つのメディア特性のうちの一方又は両方を受信するステップをさらに含むことができる。
[0121]実施例2は、
一つ又は複数のプロセッサ回路を使用して、デジタルメディアデータの変化又は第1のコンテキストパラメータの変化を特定し、応答して、複数の異なる分類モデルの間から異なる第2の分類モデルを選択するステップと、
一つ又は複数のプロセッサ回路を使用して、異なる第2の分類モデルを使用して更新済みメディアタイプ確率指数を決定するステップと
をさらに含むために、実施例1の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0122]実施例3は、
複数の異なる分類モデルの間から第1の分類モデルを選択するステップが、
決定されたスペクトル特徴のうちの一つ又は複数を選択することと、
ニューラルネットワークの第1の部分とともに、選択された一つ又は複数の特徴に関する情報を使用することと
を含むことと、
メディアタイプ確率指数を決定するステップが、ニューラルネットワークの出力を使用することを含むこと
をさらに含むために、実施例1又は2の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0123]実施例4は、
メディアタイプ確率指数を決定するステップが、デジタルメディアデータが指定のオーディオイベント又は指定の視覚的イベントに対応する尤度の指示を与える、選択された第1の分類モデルとともにニューラルネットワークを使用することを含むことと、
ニューラルネットワークが、指定のオーディオイベント又は指定の視覚的イベントに関する事前の情報を使用して事前に訓練されていることと
をさらに含むために、実施例1〜3のうちの少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0124]実施例5は、
第1のコンテキストパラメータにアクセスするステップが、デジタルメディアデータが携帯デバイスのマイクロフォンによって受信されるオーディオデータを含むことを示すコンテキストパラメータにアクセスすることを含むことと、
第1の分類モデルを選択するステップが、携帯デバイスの発話/音楽分類モデルを選択することを含むことと、
メディアタイプ確率指数を決定するステップが、
携帯デバイスの選択された発話/音楽分類モデルを使用することと、
携帯デバイスのマイクロフォンによって受信されたオーディオデータを含むデジタルメディアデータに対応する決定されたスペクトル特徴を使用することと
を含むことと
をさらに含むために、実施例1〜4の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0125]実施例6は、
第1のコンテキストパラメータにアクセスするステップが、デジタルメディアデータがテレビ放送から受信されるオーディオデータを含むことを示すコンテキストパラメータにアクセスすることを含むことと、
第1の分類モデルを選択するステップが、テレビ放送の発話/音楽分類モデルを選択することを含むことと、
オーディオタイプ確率指数を決定するステップが、テレビ放送の選択された発話/音楽分類モデルを使用することと、テレビ放送から受信されたオーディオデータを含むデジタルメディアデータに対応する決定されたスペクトル特徴を使用することとを含むことと
をさらに含むために、実施例1〜5の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0126]実施例7は、
第1のコンテキストパラメータにアクセスするステップが、デジタルメディアデータのソースタイプの指示にアクセスすることを含むことと、
ソースタイプが、携帯デバイス、放送ビデオストリーム若しくは放送オーディオストリーム、局所信号源、又はマイクロフォン信号源のうちの一つ又は複数を含むことと
をさらに含むために、実施例1〜6の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0127]実施例8は、
一つ又は複数のプロセッサ回路を使用して、特定されるべきメディアクエリに対応する第2のコンテキストパラメータにアクセスすることであって、第2のコンテキストパラメータが、同じ第1の遠隔デバイス又は異なるデバイスによって与えられる、アクセスするステップと、
一つ又は複数のプロセッサ回路を使用して、第1のコンテキストパラメータ及び第2のコンテキストパラメータの各々とそれぞれ関連付けられる探索範囲特性を決定するステップと、
データベースから、一つ又は複数のプロセッサ回路を使用して、より狭い探索範囲と関連付けられる第1のコンテキストパラメータ及び第2のコンテキストパラメータのうちの一方を選択するステップであって、第1の分類モデルを選択するステップが、より狭い探索範囲と関連付けられる、第1のコンテキストパラメータ及び第2のコンテキストパラメータのうちの選択された一方を使用することを含む、選択するステップと
をさらに含むために、実施例1〜7の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0128]実施例9は、
一つ又は複数のプロセッサ回路を使用して、特定されるべきメディアクエリに対応する第2のコンテキストパラメータにアクセスするステップと、
一つ又は複数のプロセッサ回路を使用して、第1のコンテキストパラメータ及び第2のコンテキストパラメータの各々とそれぞれ関連付けられる信号品質特性を決定するステップと、
一つ又は複数のプロセッサ回路を使用して、決定されたそれぞれの信号品質特性に基づいて、第1のコンテキストパラメータ及び第2のコンテキストパラメータのうちの一方を選択するステップであって、第1の分類モデルを選択するステップが、第1のコンテキストパラメータ及び第2のコンテキストパラメータのうちの選択された一方を使用することを含む、選択するステップと
をさらに含むために、実施例1〜8の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0129]実施例10は、
メディアクエリに対応する第1のコンテキストパラメータにアクセスするステップが、特定されるべきメディアクエリと時間的に一致するコンテキスト情報にアクセスすることを含むこと
をさらに含むために、実施例1〜9の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0130]実施例11は、
第1のコンテキストパラメータにアクセスするステップが、デジタルメディアデータ自体のサンプリングされた部分の決定された特性を使用して第1のコンテキストパラメータを決定することを含むこと
をさらに含むために、実施例1〜10の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0131]実施例12は、
メディアデータ自体を使用して第1のコンテキストパラメータを決定するステップが、以前に記録されている音楽、生音楽、発話、テレビオーディオ、映画オーディオ、ゲームオーディオ、又は他のオーディオのうちの一つ又は複数をメディアデータが含むかを決定することを含むこと
を含むか又は使用するために、実施例11の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0132]実施例13は、
第1のコンテキストパラメータにアクセスするステップが、第1の遠隔デバイスと関連付けられるセンサデバイスからコンテキスト情報を受信することを含み、
センサデバイスが、GPS若しくは位置センサ、加速度計、マイクロフォン、クロック若しくはタイマ回路、又はユーザ入力のうちの一つ又は複数を含むこと
をさらに含むために、実施例1〜12の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0133]実施例14は、
先行するデジタルメディアデータがアクセスされてからメディアクエリに閾値変化が発生したか否かを決定するためにデジタルメディアデータに対応する決定されたスペクトル特徴を分析するステップと、
閾値変化が発生しなかった場合、メディアタイプ確率指数を決定することを抑制するステップと
をさらに含むために、実施例1〜13の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0134]実施例15は、
デジタルメディアデータにアクセスするステップが、連続的なクエリ音声源からオーディオデータを周期的に又は断続的にサンプリングすることを含むことと、
メディアタイプ確率指数を決定するステップが、それぞれの周期的に又は断続的にサンプリングされたオーディオデータの各々についてオーディオタイプ確率指数を決定することを含むことと
をさらに含むために、実施例1〜14の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0135]実施例16は、
探索深度パラメータを決定するステップと、
メディアタイプ確率指数を決定するステップが、探索深度パラメータを使用して、メディアタイプ確率指数の決定に消費するプロセッサ回路資源量を決定することを含むことと
をさらに含むために、実施例1〜15の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0136]実施例17は、
デジタルメディアデータにアクセスするステップが、
メディアデータの信号品質を分析することと、
信号品質が不十分である場合、メディアクエリの異なる部分に対応するデジタルメディアデータを再サンプリングすることと
を含むことをさらに含むために、実施例1〜16の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0137]実施例18は、
第1の分類モデルを選択するステップが、指定のユーザと事前に関連付けられている複数の分類モデルの間からモデルを選択することを含むこと
をさらに含むために、実施例1〜17の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0138]実施例19は、
メディアクエリと関連付けられるメディアタイプ確率指数を決定するステップが、スペクトル特徴を、メディアタイプ確率指数及び/又は少なくとも一つのメディア特性を与える畳み込みニューラルネットワークに対する入力として使用することを含むこと
をさらに含むために、実施例1〜18の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0139]実施例20は、
命令を含む有形非一時的機械可読記憶媒体であって、命令は、機械の少なくとも一つのプロセッサによって実行されると、機械に、動作を実施させる、有形非一時的機械可読記憶媒体を含むか又は使用することができるなど、主題(装置、方法、動作を実施するための手段、又は、命令を含む機械可読メモリであって、命令は、機械によって実施されると、機械に動作を実施させるように機械を構成することができる機械可読メモリなど)を含むか又は使用することができ、
動作が、
遠隔デバイスから、特定されるべきメディアクエリを表すデジタルメディアデータを受信する動作と、
遠隔デバイスから、特定されるべきメディアクエリに対応する第1のコンテキストパラメータを受信する動作と、
データベースから第1の分類モデルを選択する動作であって、第1の分類モデルが、データベースに記憶された複数の異なる分類モデルのうちの一つであり、選択が、第1のコンテキストパラメータに基づく、選択する動作と、
選択された第1の分類モデルを適用するニューラルネットワークを使用して、メディアクエリのメディアタイプ確率指数を決定する動作と、
決定されたメディアタイプ確率指数を使用して、メディアクエリの少なくとも一つのメディア特性を決定する動作と、
遠隔デバイスに、メディアクエリの少なくとも一つのメディア特性を与える動作と
を含む。
[0140]実施例21は、
動作が、
同じ又は異なる遠隔デバイスから、特定されるべき同じ又は異なるメディアクエリに対応する後続の第2のコンテキストパラメータを受信する動作と、
データベースから第2の分類モデルを選択する動作であって、選択は、第2のコンテキストパラメータに基づく、選択する動作と、
選択された第2の分類モデルを適用するニューラルネットワークを使用して、特定されるべき同じ又は異なるメディアクエリの更新済みメディアタイプ確率指数を決定する動作と
をさらに含むことを含むために、実施例20の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0141]実施例22は、
動作が、
遠隔デバイスの状態の変化の指示を受信する動作と、
指示の受信に応答して、
特定されるべき同じ又は異なるメディアクエリに対応する後続の第2のコンテキストパラメータにアクセスする動作と、
データベースから第2の分類モデルを選択する動作であって、選択は、第2のコンテキストパラメータに基づく、選択する動作と、
選択された第2の分類モデルを適用するニューラルネットワークを使用して、特定されるべき同じ又は異なるメディアクエリの更新済みメディアタイプ確率指数を決定する動作と
をさらに含むことをさらに含むために、実施例20及び21の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0142]実施例23は、
遠隔デバイスの状態の変化の指示を受信する動作が、デバイスに対応する環境特性の変化に関する検知された情報を受信することを含むこと
を含む又は使用するために、実施例22の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0143]実施例24は、
動作が、
メディアクエリと関連付けられるノイズ特性を決定する動作と、
決定されたノイズ特性が、指定の閾値ノイズレベルを超えるメディアクエリと関連付けられるノイズレベルを示すとき、第1のコンテキストパラメータにアクセスする動作、データベースから第1の分類モデルを選択する動作、又は、メディアタイプ確率指数を決定する動作のうちの一つ又は複数を抑制する動作と
をさらに含むことをさらに含むために、実施例20〜23の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0144]実施例25は、
動作が、
メディアクエリと関連付けられるスペクトル特性を決定する動作と、
決定されたスペクトル特性に基づいて、第1のコンテキストパラメータにアクセスする動作、データベースから第1の分類モデルを選択する動作、又は、メディアタイプ確率指数を決定する動作のうちの一つ又は複数を選択的に抑制する動作と
をさらに含むことをさらに含むために、実施例20〜24の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0145]実施例26は、
第1のプロセッサ回路、
特定されるべきメディアクエリを表すデジタルメディアデータを受信するように構成されている第1のセンサ、及び、
携帯デバイスに関する第1のコンテキスト情報を検知するように構成されている第2のセンサを
含む携帯デバイスを備えるシステムを含むか又は使用することができるなど、主題(装置、方法、動作を実施するための手段、又は、機械によって実施されると、動作を実施するように機械を構成することができる命令を含む機械可読メモリなど)を含むか又は使用することができ、第1のプロセッサ回路が、デジタルメディアデータ及び第1のコンテキスト情報を遠隔メディア分類器に送信するように構成されている。
実施例26において、システムは、
遠隔メディア分類器と関連付けられる第2のプロセッサ回路をさらに備えることができ、第2のプロセッサ回路が、携帯デバイスからデジタルメディアデータ及び第1のコンテキスト情報を受信するように構成されており、第2のプロセッサ回路が、第2のプロセッサ回路に動作を実施させる命令を実行するように構成されており、
動作が、
複数の異なる分類モデルを含むデータベースから第1の分類モデルを選択する動作であって、選択が、受信されたデジタルメディアデータ及び第1のコンテキスト情報に基づく、選択する動作と、
選択された第1の分類モデル及びデジタルメディアデータを使用して、特定されるべきメディアのメディア特性を決定する動作と、
決定されたメディア特性を携帯デバイスに提供する動作と
を含む。
[0146]実施例27は、
第1のプロセッサ回路が、指定の間隔をおいて遠隔メディア分類器に対する一連のデータ送信を整理するように構成されていることと、
データ送信が、第1のセンサを使用してサンプリングされたデジタルメディアデータのそれぞれのサンプルと、第2のセンサを使用して検知されたコンテキスト情報の対応するサンプルとを含むことと、
第2のプロセッサ回路が、第2のプロセッサ回路に、動作を実施させる命令を実行するように構成されていることであって、
動作が、
データベースから異なる第2の分類モデルを選択する動作であり、選択が、サンプリングされたデジタルメディアデータ及び対応するサンプリングされたコンテキスト情報の対応する対に基づく、選択する動作、及び、
選択された異なる第2の分類モデルを使用してメディア特性を決定する動作
を含む、構成されていることと
を含み又は使用するために、実施例26の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0147]実施例28は、
携帯デバイスが、携帯デバイスに関する異なる第2のコンテキスト情報を検知するように構成されている第3のセンサをさらに備えることと、
第1のプロセッサ回路及び第2のプロセッサ回路のうちの一方が、データベースからの第1の分類モデルの選択に使用するための、第1のコンテキスト情報及び異なる第2のコンテキスト情報のうちの一方を選択するように構成されていることと
をさらに含むために、実施例26及び27の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0148]実施例29は、
携帯デバイスが、デジタルメディアデータ及び第1のコンテキスト情報のうちの一方又は両方のノイズ特性を特定するように構成されているスペクトル分析回路をさらに備えることと、
第1のプロセッサ回路が、特定されたノイズ特性が、指定の閾値ノイズレベルよりも低いノイズレベルを示すときに、デジタルメディアデータ及び第1のコンテキスト情報を遠隔メディア分類器に送信するように構成されていることと
をさらに含むために、実施例26〜28の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0149]実施例30は、
携帯デバイスが、デジタルメディアデータの周波数特性を特定するように構成されているスペクトル分析回路をさらに備えることと、
第1のプロセッサ回路が、特定された周波数特性が、指定の周波数特性条件を満たすときに、デジタルメディアデータ及び第1のコンテキスト情報を遠隔メディア分類器に送信するように構成されていることと
をさらに含むために、実施例26〜29の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0150]実施例31は、
第2のセンサが、デジタルメディアデータと関連付けられる周囲のノイズ特性を検知するように構成されているマイクロフォンを含むことと、
第2のプロセッサ回路が、デジタルメディアデータと関連付けられる、検知された周囲のノイズ特性を使用して、データベースからの第1の分類モデルの選択を実施するように構成されていることと
をさらに含むために、実施例26〜30の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0151]実施例32は、
第2のセンサが、携帯デバイスのロケーションに関する情報を検知するように構成されている位置センサを含むことと、
第2のプロセッサ回路が、携帯デバイスのロケーションに関する検知された情報を使用して、データベースからの第1の分類モデルの選択を実施するように構成されていることと
をさらに含むために、実施例26〜31の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0152]実施例33は、メディアを分類するための方法を含むか又は使用することができるなど、主題(装置、方法、動作を実施するための手段、又は、機械によって実施されると、動作を実施するように機械を構成することができる命令を含む機械可読メモリなど)を含むか又は使用することができ、
方法が、
第1のデバイスと関連付けられる一つ又は複数のプロセッサ回路を使用して、特定されるべきメディアクエリを表すデジタルメディアデータにアクセスするステップと、
第1のデバイスと関連付けられる一つ又は複数のプロセッサ回路を使用して、デジタルメディアデータに対応するノイズ特性を決定するステップと、
決定されたノイズ特性が、デジタルメディアデータに対応するノイズが指定の閾値量未満であることを示す場合には、デジタルメディアデータを、デジタルメディアデータのソース特性を特定するように構成されている遠隔メディア分類回路に送信するステップ、ノイズが指定の閾値量未満であることを前記ノイズ特性が示さない場合には、デジタルメディアデータを遠隔メディア分類回路に送信するのを抑制するステップと
を含む。
[0153]実施例34は、
デジタルメディアデータにアクセスするステップが、携帯デバイスのマイクロフォンを使用してオーディオ信号を受信することを含むことと、
ノイズ特性を決定するステップが、一つ又は複数のプロセッサ回路を使用して、受信されたオーディオ信号のノイズ特性を決定することを含むことと
をさらに含むために、実施例33の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0154]実施例35は、
第1のデバイスと関連付けられる一つ又は複数のプロセッサ回路を使用して、特定されるべきメディアクエリに対応する第1のコンテキストパラメータにアクセスするステップと、
第1のデバイスと関連付けられる一つ又は複数のプロセッサ回路を使用して、第1のコンテキストパラメータに対応する信号品質特性を決定するステップと
をさらに含むために、実施例33又は34の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
実施例35において、第1のコンテキストパラメータに対応する、決定された信号品質特性が指定の閾値信号品質未満である場合、実施例は、遠隔メディア分類回路にデジタルメディアデータを送信するのを抑制するステップを含むことができる。
[0155]実施例36は、
閾値ノイズ特性のデータベースから指定閾値量のノイズを取り出すステップであって、データベースが、ニューラルネットワークに基づく分類器システムによる、同じ又は類似のメディアクエリの事前の訓練によって確立され、データベースが、第1のデバイス又は遠隔メディア分類回路に記憶された、取り出すステップ
をさらに含むために、実施例33〜35の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0156]実施例37は、
デジタルメディアデータをメディア分類回路に送信するステップが、デジタルメディアデータを、畳み込みニューラルネットワーク分類システムの入力に提供することを含むこと
をさらに含むために、実施例33〜36の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0157]実施例38は、
決定されたノイズ特性が第1の指定のノイズ閾値範囲に対応する場合、メディア分類回路を使用して第1の探索深度を有する第1のメディア分類プロセスを開始するステップと、
決定されたノイズ特性が第2のより大きいノイズ閾値範囲に対応する場合、メディア分類回路を使用して異なる第2の探索深度を有する第2のメディア分類プロセスを開始するステップと
をさらに含むために、実施例33〜37の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0158]実施例39は、
デジタルメディアデータに対応する、決定されたノイズ特性に基づいてメディア分類探索深度を選択するステップであって、選択されたメディア分類探索深度は、デジタルメディアデータのソース特性を特定するために経過する最大処理時間又はメディア分類回路によって費やされる最大処理労力を示す、選択するステップ
をさらに含むために、実施例33〜38の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0159]実施例40は、
遠隔メディア分類回路を使用して、デジタルメディアデータに対応する、決定されたノイズ特性を、分類に成功している他のメディアデータに対応するノイズ特性及び分類に成功していない他のメディアデータに対応するノイズ特性と比較するステップと、
決定されたノイズ特性が、分類に成功していない他のメディアデータに対応するノイズ特性よりも、分類に成功している他のメディアデータに対応するノイズ特性に近密に対応する場合、デジタルメディアデータをメディア分類回路に送信するステップと
をさらに含むために、実施例33〜39の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0160]実施例41は、
デジタルメディアデータのメディア分類回路への送信を抑制するステップが、
特定されるべき異なるメディアクエリを表す後続のデジタルメディアデータにアクセスすることと、
後続のデジタルメディアデータに対応する更新済みノイズ特性を決定することと、更新済みノイズ特性が指定の閾値量未満のノイズを示すか否かを決定することと
を含むことをさらに含むために、実施例33〜40の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0161]実施例42は、
デジタルメディアデータにアクセスするステップが、第1のデバイスを使用して、メディアクエリに対応するオーディオサンプルにアクセスすることをさらに含むことと、
ノイズ特性を決定するステップが、オーディオサンプルのノイズ特性を決定することを含むことと、
デジタルメディアデータを送信するステップが、オーディオサンプルの全部又は一部分をメディア分類回路に送信することを含むことと
をさらに含むために、実施例33〜41の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0162]実施例43は、
デジタルメディアデータにアクセスするステップが、メディアクエリに対応するビデオ信号サンプルにアクセスすることを含むことと、
ノイズ特性を決定するステップが、ビデオ信号サンプルの視覚的特性を決定することを含むことと、
デジタルメディアデータを送信するステップが、ビデオ信号サンプルの全部又は一部分をメディア分類回路に送信することを含むことと
をさらに含むために、実施例33〜42の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0163]実施例44は、
第1のデバイスにおいて、メディア分類回路から、デジタルメディアデータのソース特性の指示を受信するステップと、
デジタルメディアデータのソース特性の指示を、携帯デバイスのユーザに表示するステップと
をさらに含むために、実施例33〜43の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0164]実施例45は、命令を含む有形非一時的機械可読記憶媒体であって、命令が機械の少なくとも一つのプロセッサによって実行されると、機械に、動作を実施させる有形非一時的機械可読記憶媒体を含むか又は使用することができるなど、主題(装置、方法、動作を実施するための手段、又は、機械によって実施されると、動作を実施するように機械を構成することができる命令を含む機械可読メモリなど)を含むか又は使用することができ、
動作が、
一つ又は複数のプロセッサ回路を使用して、特定されるべきメディアクエリを表すデジタルメディアデータにアクセスする動作と、
一つ又は複数のプロセッサ回路を使用して、デジタルメディアデータのスペクトル特性に基づくニューラルネットワーク分類器によってメディアクエリの特定に成功することができる尤度を決定する動作と、
決定された尤度が指定の閾値尤度よりも高い場合には、
デジタルメディアデータをニューラルネットワーク分類器の第1の入力に提供する動作と、
デジタルメディアデータに応答して、メディアクエリのメディアタイプ確率指数をニューラルネットワーク分類器から受信する動作と、
メディアタイプの指示を遠隔デバイスのユーザに提供するために遠隔デバイスにメディアタイプ確率指数に関する情報を提供する動作と
を含む。
[0165]実施例46は、
デジタルメディアデータに対応する信号ノイズ特性を決定することを含む動作と、
ニューラルネットワーク分類器によってメディアクエリの特定に成功することができる尤度を決定する動作が、決定された信号ノイズ特性に基づいて尤度を決定することを含むことと
をさらに含むために、実施例45の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0166]実施例47は、
デジタルメディアデータに対応する周波数内容特性を決定することを含む動作と、
ニューラルネットワーク分類器によってメディアクエリの特定に成功することができる尤度を決定する動作が、決定された周波数内容特性に基づいて尤度を決定することと
をさらに含むように、実施例45又は46の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0167]実施例48は、
メディアクエリと関連付けられるコンテキストパラメータにアクセスすることを含む動作であって、コンテキストパラメータ及びデジタルメディアデータは遠隔デバイスからアクセスされる、動作と、
尤度を決定する動作が、ネットワークノード重み付けモデルに基づいて構成されているニューラルネットワーク分類器によってメディアクエリの特定に成功することができる尤度を決定する動作を含むことと、
重み付けモデルがアクセスされているコンテキストパラメータに基づいて選択されることと
をさらに含むために、実施例45〜47の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0168]実施例49は、
特定されるべきメディアクエリを表すデジタルメディアデータを受信するように構成されている第1のセンサ、及び、
デジタルメディアデータを遠隔メディア分類器回路に送信するように構成されている第1のプロセッサ回路
を備える携帯デバイスを備えるシステムを含むか又は使用することができるなど、主題(装置、方法、動作を実施するための手段、又は、機械によって実施されると、動作を実施するように機械を構成することができる命令を含む機械可読メモリなど)を含むか又は使用することができる。
実施例49において、システムが、遠隔メディア分類回路と関連付けられる第2のプロセッサ回路をさらに含むことができ、第2のプロセッサ回路は、携帯デバイスからデジタルメディアデータを受信するように構成されており、第2のプロセッサ回路が、第2のプロセッサ回路に動作を実施させる命令を実行するように構成されており、
動作が、
デジタルメディアデータに対応するスペクトル特性を決定する動作と、
デジタルメディアデータに対応する、決定されたスペクトル特性に基づいて、少なくとも部分的に、第2のプロセッサ回路によって、デジタルメディアデータを入力として使用して実行される畳み込みニューラルネットワークに基づくメディア分類器を有効化又は抑制する動作であって、畳み込みニューラルネットワークに基づくメディア分類器が、デジタルメディアデータが指定のメディアクラスに対応する尤度の指示を携帯デバイスに通信するように構成されている、有効化又は抑制する動作と
を含む。
[0169]実施例50は、
携帯デバイスが、特定されるべきメディアクエリに対応する第1のコンテキスト情報を検知するように構成されている第2のセンサをさらに含むことと、
第1のプロセッサ回路が、デジタルメディアデータ及び第1のコンテキスト情報を遠隔メディア分類器回路に送信するように構成されていることと
をさらに含むために、実施例49の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
実施例50において、第2のプロセッサ回路が、畳み込みニューラルネットワークに基づくメディア分類プロセスを有効化するとき、第2のプロセッサ回路の動作が、
複数の異なる分類モデルを含むデータベースから畳み込みニューラルネットワークによって使用するための第1の分類モデルを選択する動作であって、選択が、受信されたデジタルメディアデータ及び携帯デバイスに関する第1のコンテキスト情報に基づく、選択する動作
をさらに含む。
[0170]実施例51は、
第2のプロセッサ回路が、第2のプロセッサ回路に動作を実施させる命令を実行するように構成されており、
動作が、
複数のノード重み付けモデルを含むデータベースからニューラルネットワークノード重み付けモデルを選択する動作であって、選択されたモデルは、デジタルメディアデータが指定のメディアクラスに対応する尤度の指示を与える畳み込みニューラルネットワークに基づくメディア分類器によって使用するためのものであり、モデルの選択は、デジタルメディアデータに対応する決定されたスペクトル特性を使用し、選択されたモデルは、畳み込みニューラルネットワークに基づくメディア分類器内の一つ又は複数のノードの重み付け特性を規定する、選択する動作を含むこと
をさらに含むために、実施例49又は50の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0171]実施例52は、
携帯デバイスの第1のプロセッサ回路が、デジタルメディアデータの信号ノイズ特性を特定し、特定された信号ノイズ特性が、デジタルメディアデータのノイズが指定の閾値量未満であることを示すときにのみ、デジタルメディアデータを遠隔メディア分類器回路に送信するようにさらに構成されていること
をさらに含むために、実施例49〜51の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
[0172]この詳細な説明は、詳細な説明の一部を形成する添付の図面への参照を含む。図面は、例として、本発明を実践することができる特定の実施形態を示す。これらの実施形態は、本明細書において「実施例」としても参照される。そのような実施例は、図示又は記載されているものに加えた要素を含む可能性がある。しかしながら、本発明者らはまた、図示又は記載されている要素のみが用意される実施例も企図している。本発明者らは、特定の実施例(又はその一つ若しくは複数の態様)、又は、本明細書において図示若しくは記載されている他の実施例(又はその一つ若しくは複数の態様)のいずれかに関連して、図示又は記載されている要素(又はその一つ若しくは複数の態様)の任意の組み合わせ又は置換を使用した実施例を企図している。
[0173]本明細書において、「a」又は「an」という用語は、特許文書において一般的であるように、「少なくとも一つの」又は「一つ又は複数の」の任意の他の事例又は使用とは独立して、一つ又は2つ以上を含むように使用される。本明細書において、「又は」という用語は、別途指示されない限り、非排他的であることを参照し、すなわち、「A又はB」は、「AであるがBではない」、「BであるがAではない」、及び「A且つBである」を含むようになる。本明細書において、「含んでいる(including)」及び「in which」という用語は、「備えている(comprising)」及び「wherein」のそれぞれの用語の分かりやすい英語の同義語として使用される。
[0174]様々な一般的な実施形態及び特定的な実施形態が本明細書において記載されているが、本開示のより広い範囲から逸脱することなく、様々な修正及び変更をこれらの実施形態に行うことができることは明らかであろう。したがって、本明細書及び図面は、限定的な意味ではなく、例示的な意味において考慮されるべきである。本明細書の一部分を形成する添付の図面は、限定ではなく例として、本主題を実践することができる特定の実施形態を示す。示されている実施形態は、当業者が本明細書において開示されている教示を実践することを可能にするのに十分詳細に記載されている。当該実施形態から他の実施形態を使用又は導出することができ、それによって、本開示の範囲から逸脱することなく、構造的置換及び変更並びに論理的置換及び変更を行うことができる。それゆえ、この詳細な説明は限定的な意味に解釈されるべきではなく、様々な実施形態の範囲は、添付の特許請求の範囲のみによって、このような特許請求の範囲が権利付与される均等物の全範囲とともに、画定される。特定の実施形態又は実施例が本明細書において記載されているが、同じ目的を達成するように計算されている任意の構成を、示されている特定の実施形態に置き換えることができることは諒解されたい。本開示は、様々な実施形態のあらゆる適合又は変形を包含するように意図されている。上記の実施形態、及び、本明細書において具体的に記載されていない他の実施形態の組み合わせが、上記の説明を検討している当業者には明らかであろう。
[発明の項目]
[項目1]
システムであって、
携帯デバイスであり、
第1のプロセッサ回路、
特定されるべきメディアクエリを表すデジタルメディアデータを受信するように構成されている第1のセンサ、及び
前記携帯デバイスに関する第1のコンテキスト情報を検知するように構成されている第2のセンサを含み、
前記第1のプロセッサ回路が、前記デジタルメディアデータ及び前記第1のコンテキスト情報を遠隔メディア分類器に送信するように構成されている、携帯デバイスと、
前記遠隔メディア分類器と関連付けられる第2のプロセッサ回路であり、前記第2のプロセッサ回路は、前記携帯デバイスから前記デジタルメディアデータ及び前記第1のコンテキスト情報を受信するように構成されており、前記第2のプロセッサ回路が、前記第2のプロセッサ回路に動作を実施させる命令を実行するように構成されており、
前記動作が、
複数の異なる分類モデルを含むデータベースから第1の分類モデルを選択する動作であって、前記選択が、前記デジタルメディアデータ及び前記第1のコンテキスト情報に基づく、選択する動作と、
前記第1の分類モデル及び前記デジタルメディアデータを使用して、特定されるべき前記メディアのメディア特性を決定する動作と、
前記メディア特性を前記携帯デバイスに提供する動作と、
を含む、第2のプロセッサ回路と、
を含む、システム。
[項目2]
前記第1のプロセッサ回路が、指定の間隔をおいて前記遠隔メディア分類器に対する一連のデータ送信を整理するように構成されており、
前記一連のデータ送信が、前記第1のセンサを使用してサンプリングされたデジタルメディアデータのそれぞれのサンプルと、前記第2のセンサを使用して検知されたコンテキスト情報の対応するサンプルと、を含み、
前記第2のプロセッサ回路が、前記第2のプロセッサ回路に、動作を実施させる命令を実行するように構成されており、
前記動作が、
前記データベースから第2の分類モデルを選択する動作であり、前記選択が、前記デジタルメディアデータのサンプル及び前記コンテキスト情報の前記対応するサンプルの対応する対に基づく、選択する動作、及び
前記第2の分類モデルを使用して前記メディア特性を決定する動作、
を含む、項目1に記載のシステム。
[項目3]
前記携帯デバイスが、前記携帯デバイスに関する第2のコンテキスト情報を検知するように構成されている第3のセンサをさらに含み、
前記第1のプロセッサ回路及び前記第2のプロセッサ回路のうちの一方が、前記データベースからの前記第1の分類モデルを選択するために、前記第1のコンテキスト情報又は前記第2のコンテキスト情報のうちの一方を選択するように構成されている、項目1に記載のシステム。
[項目4]
前記携帯デバイスが、前記デジタルメディアデータ及び前記第1のコンテキスト情報のうちの一方又は両方のノイズ特性を特定するように構成されているスペクトル分析回路をさらに含み、
前記第1のプロセッサ回路は、前記ノイズ特性が、指定の閾値ノイズレベルよりも低いノイズレベルを示すときに、前記デジタルメディアデータ及び前記第1のコンテキスト情報を前記遠隔メディア分類器に送信するように構成されている、項目1に記載のシステム。
[項目5]
前記携帯デバイスが、前記デジタルメディアデータの周波数特性を特定するように構成されているスペクトル分析回路をさらに含み、
前記第1のプロセッサ回路は、前記周波数特性が、指定の周波数特性条件を満たすときに、前記デジタルメディアデータ及び前記第1のコンテキスト情報を前記遠隔メディア分類器に送信するように構成されている、項目1に記載のシステム。
[項目6]
前記第2のセンサが、前記デジタルメディアデータと関連付けられる周囲のノイズ特性を検知するように構成されているマイクロフォンを含み、
前記第2のプロセッサ回路が、前記デジタルメディアデータと関連付けられる前記周囲のノイズ特性を使用して、前記データベースからの前記第1の分類モデルの前記選択を実施するように構成されている、項目1に記載のシステム。
[項目7]
前記第2のセンサが、前記携帯デバイスのロケーションに関する情報を検知するように構成されている位置センサを含み、
前記第2のプロセッサ回路が、前記携帯デバイスのロケーションに関する前記情報を使用して、前記データベースからの前記第1の分類モデルの前記選択を実施するように構成されている、項目1に記載のシステム。
[項目8]
方法であって、前記方法は、
一つ又は複数のプロセッサ回路を使用して、特定されるべきメディアクエリを表すデジタルメディアデータにアクセスするステップであって、前記デジタルメディアデータが、第1の遠隔デバイスによって与えられる、アクセスするステップと、
前記一つ又は複数のプロセッサ回路を使用して、特定されるべき前記メディアクエリに対応する第1のコンテキストパラメータにアクセスするステップであって、前記第1のコンテキストパラメータが、前記第1の遠隔デバイスによって与えられる、アクセスするステップと、
前記一つ又は複数のプロセッサ回路を使用して、前記デジタルメディアデータに対応する特徴を決定するステップと、
前記一つ又は複数のプロセッサ回路を使用して、データベースに記憶された第1の分類モデルを選択するステップであって、前記第1の分類モデルが、前記データベースに記憶された複数の異なる分類モデルのうちの一つであり、前記選択が、前記第1のコンテキストパラメータに基づく、選択するステップと、
前記一つ又は複数のプロセッサ回路を使用して、前記デジタルメディアデータに対応する前記特徴及び前記第1の分類モデルを使用して前記メディアクエリのメディアタイプ確率指数を決定するステップであって、前記メディアタイプ確率指数は、前記メディアクエリが複数の異なるメディア特性のうちの少なくとも一つのメディア特性に対応する尤度を示す、決定するステップと、
前記第1の遠隔デバイスにおいて、前記メディアタイプ確率指数及び前記少なくとも一つのメディア特性のうちの一方又は両方を受信するステップと、
を含む、方法。
[項目9]
複数の異なる分類モデルの間から前記第1の分類モデルを選択する前記ステップが、前記特徴のうちの一つ又は複数を選択することと、ニューラルネットワークの第1の部分とともに、前記特徴のうちの前記一つ又は複数に関する情報を使用することとを含み、
前記メディアタイプ確率指数を決定する前記ステップが、前記ニューラルネットワークの出力を使用することを含む、項目8に記載の方法。
[項目10]
前記第1のコンテキストパラメータにアクセスする前記ステップが、前記デジタルメディアデータが携帯デバイスのマイクロフォンによって受信されるオーディオデータを含むことを示すコンテキストパラメータにアクセスすることを含み、
前記第1の分類モデルを選択する前記ステップが、前記携帯デバイスの発話/音楽分類モデルを選択することを含み、
前記メディアタイプ確率指数を決定する前記ステップが、前記携帯デバイスの前記発話/音楽分類モデルを使用することと、前記携帯デバイスの前記マイクロフォンによって受信された前記オーディオデータを含むデジタルメディアデータに対応する前記特徴を使用することとを含む、項目8に記載の方法。
[項目11]
前記第1のコンテキストパラメータにアクセスする前記ステップが、前記デジタルメディアデータのソースタイプの指示にアクセスすることを含み、前記ソースタイプが、携帯デバイス、放送ビデオストリーム若しくは放送オーディオストリーム、局所信号源、又はマイクロフォン信号源のうちの一つ又は複数を含む、項目8に記載の方法。
[項目12]
前記方法が、
前記一つ又は複数のプロセッサ回路を使用して、特定されるべき前記メディアクエリに対応する第2のコンテキストパラメータにアクセスするステップであって、前記第2のコンテキストパラメータが、前記第1の遠隔デバイス又は異なるデバイスによって与えられる、アクセスするステップと、
前記一つ又は複数のプロセッサ回路を使用して、前記第1のコンテキストパラメータ及び前記第2のコンテキストパラメータの各々とそれぞれ関連付けられる探索範囲特性を決定するステップと、
前記データベースから、前記一つ又は複数のプロセッサ回路を使用して、より狭い探索範囲と関連付けられる前記第1のコンテキストパラメータ及び前記第2のコンテキストパラメータのうちの一方を選択するステップと、
をさらに含み、
前記第1の分類モデルを選択する前記ステップが、前記より狭い探索範囲と関連付けられる、前記第1のコンテキストパラメータ及び前記第2のコンテキストパラメータのうちの一方を使用することを含む、項目8に記載の方法。
[項目13]
前記方法が、探索深度パラメータを決定するステップをさらに含み、
前記メディアタイプ確率指数を決定する前記ステップが、前記メディアタイプ確率指数の決定に消費するプロセッサ回路資源量を決定するために前記探索深度パラメータを使用することを含む、項目8に記載の方法。
[項目14]
前記第1の分類モデルを選択する前記ステップが、指定のユーザと事前に関連付けられている複数の分類モデルの間から前記第1の分類モデルを選択することを含む、項目8に記載の方法。
[項目15]
コンピュータに、項目8〜14のいずれか一項に記載の方法を実施させる、プログラム。
[項目16]
システムであって、
携帯デバイスであり、
第1のプロセッサ回路、
特定されるべきメディアクエリを表すデジタルメディアデータを受信するように構成されている第1のセンサ、及び
前記携帯デバイスに関する第1のコンテキスト情報を検知するように構成されている第2のセンサであり、該第2のセンサが、前記デジタルメディアデータと関連付けられる周囲のノイズ特性を検知するように構成されているマイクロフォンを含む、第2のセンサを含み、
前記第1のプロセッサ回路が、前記デジタルメディアデータ及び前記第1のコンテキスト情報を遠隔メディア分類器に送信するように構成されている、携帯デバイスと、
前記遠隔メディア分類器と関連付けられる第2のプロセッサ回路であり、前記第2のプロセッサ回路は、前記携帯デバイスから前記デジタルメディアデータ及び前記第1のコンテキスト情報を受信するように構成されており、前記第2のプロセッサ回路が、前記第2のプロセッサ回路に動作を実施させる命令を実行するように構成されており、
前記動作が、
複数の異なる分類モデルを含むデータベースから第1の分類モデルを選択する動作であって、前記選択が、前記デジタルメディアデータ、前記第1のコンテキスト情報、及び前記デジタルメディアデータと関連付けられる前記周囲のノイズ特性に基づく、選択する動作と、
前記第1の分類モデル及び前記デジタルメディアデータを使用して、特定されるべき前記メディアのメディア特性を決定する動作と、
前記メディア特性を前記携帯デバイスに提供する動作と、
を含む、第2のプロセッサ回路と、
を含む、システム。

Claims (15)

  1. 装置であって、
    特定されるべきメディアクエリを表すデジタルメディアデータと、携帯デバイスに関する第1のコンテキスト情報とを受信するクエリ受信器と、
    前記デジタルメディアデータ及び前記第1のコンテキスト情報に基づき、異なる分類モデルを含むデータベースから第1の分類モデルを選択する分類モデル選択器であり、前記異なる分類モデルのモデルが、訓練データに基づき訓練され、特定のコンテキスト情報との使用のために調整され、前記第1の分類モデルが前記メディアクエリを既知のメディアとして特定する、分類モデル選択器と、
    メディアタイプ確率指数生成器であり、
    前記第1の分類モデル及び前記デジタルメディアデータを介して、特定されるべき前記メディアクエリのメディア特性を決定し、
    前記メディア特性を前記携帯デバイスに提供する、
    メディアタイプ確率指数生成器と、
    を含む、装置。
  2. 前記分類モデル選択器が、
    前記デジタルメディアデータのサンプル及び前記コンテキスト情報の対応するサンプルの対に基づき、前記データベースから第2の分類モデルを選択し、
    前記第2の分類モデルを介して前記メディア特性を決定する
    請求項1に記載の装置。
  3. 前記分類モデル選択器が、前記データベースからの前記第1の分類モデルを選択するために、前記第1のコンテキスト情報又は前記携帯デバイスに関する第2のコンテキスト情報のうちの一方を選択する、請求項1に記載の装置。
  4. 前記デジタルメディアデータ及び前記第1のコンテキスト情報のうちの一方又は両方のノイズ特性が指定の閾値ノイズレベルを満たすときにメディアの分類が進み、前記ノイズ特性がスペクトル分析回路により特定され、前記ノイズ特性がノイズレベルを示す、請求項1に記載の装置。
  5. 前記デジタルメディアデータの周波数特性が指定の周波数特性条件を満たすときにメディアの分類が進み、前記周波数特性がスペクトル分析回路により特定される、請求項1に記載の装置。
  6. 前記第1のコンテキスト情報が、前記デジタルメディアデータと関連付けられる周囲のノイズ特性を含み、前記分類モデル選択器が、前記デジタルメディアデータと関連付けられる前記周囲のノイズ特性に基づき、前記データベースからの前記第1の分類モデルを選択するように構成されている、請求項1に記載の装置。
  7. 前記第1のコンテキスト情報が、前記携帯デバイスのロケーションに関する情報を含み、
    前記分類モデル選択器が、前記携帯デバイスのロケーションに関する前記情報に基づき、前記データベースからの前記第1の分類モデルを選択する、請求項1に記載の装置。
  8. 方法であって、前記方法は、
    特定されるべきメディアクエリを表すデジタルメディアデータと、特定されるべき前記メディアクエリに対応する第1のコンテキスト情報とを受信するステップであり、前記第1のコンテキスト情報が、遠隔デバイスによって与えられる、受信するステップと、
    前記デジタルメディアデータ及び前記第1のコンテキスト情報に基づき、異なる分類モデルを含むデータベースから第1の分類モデルを選択するステップであり、前記異なる分類モデルのモデルが、訓練データに基づき訓練され、特定のコンテキスト情報との使用のために調整され、前記第1の分類モデルが前記メディアクエリを既知のメディアとして特定する、選択するステップと、
    前記デジタルメディアデータ及び前記第1の分類モデルを介して、特定されるべき前記メディアクエリのメディアタイプ確率指数を決定するステップであり、前記メディアタイプ確率指数は、前記メディアクエリが異なるメディア特性のうちの少なくとも一つのメディア特性に対応する尤度を示す、決定するステップと、
    前記遠隔デバイスに、前記メディアタイプ確率指数及び前記少なくとも一つのメディア特性のうちの一方又は両方を提供するステップと、
    を含む、方法。
  9. 前記第1の分類モデルがニューラルネットワークを含み、前記ニューラルネットワークの出力が前記メディアタイプ確率指数に対応し、前記方法は、
    前記デジタルメディアデータに対応する特徴を決定するステップと、
    前記特徴のうち一つ又は複数を選択するステップと、
    前記ニューラルネットワークを介して、前記メディアタイプ確率指数を特定するために前記1つ又は複数の特徴の比較分析を実行するステップと、
    をさらに含む、請求項8に記載の方法。
  10. 前記第1のコンテキスト情報が、前記デジタルメディアデータが携帯デバイスのマイクロフォンによって受信されるオーディオデータを含むことを示し、前記第1の分類モデルが、前記携帯デバイスの発話/音楽分類モデルに対応し、前記方法が、
    前記携帯デバイスの前記発話/音楽分類モデルを介して、前記携帯デバイスの前記マイクロフォンによって受信された前記オーディオデータを含むデジタルメディアデータに対応する特徴に基づき前記メディアタイプ確率指数を決定するステップ
    をさらに含む、請求項8に記載の方法。
  11. 前記第1のコンテキスト情報が、前記デジタルメディアデータのソースタイプの指示を含み、前記ソースタイプが、携帯デバイス、放送ビデオストリーム、放送オーディオストリーム、局所信号源、又はマイクロフォン信号源のうちの一つ又は複数を含む、請求項8に記載の方法。
  12. 前記方法が、
    前記第1のコンテキスト情報及び第2のコンテキスト情報の各々とそれぞれ関連付けられる探索範囲特性を決定するステップであり、前記第2のコンテキスト情報が特定されるべき前記メディアクエリに対応する、決定するステップと、
    前記データベースから、より狭い探索範囲と関連付けられる前記第1のコンテキスト情報及び前記第2のコンテキスト情報のうちの一方を選択するステップと、
    前記より狭い探索範囲と関連付けられる、前記第1のコンテキスト情報及び前記第2のコンテキスト情報のうちの一方に基づき前記第1の分類モデルを選択するステップと、
    をさらに含む、請求項8に記載の方法。
  13. 前記方法が、
    探索深度パラメータを決定するステップと、
    前記探索深度パラメータに基づき、前記メディアタイプ確率指数の決定に消費するプロセッサ回路資源量を決定するステップと、
    をさらに含む、請求項8に記載の方法。
  14. 前記方法が、指定のユーザと事前に関連付けられている複数の分類モデルの間から前記第1の分類モデルを選択するステップをさらに含む、請求項8に記載の方法。
  15. コンピュータに、請求項8〜14のいずれか一項に記載の方法を実施させる、プログラム。
JP2020114761A 2016-01-03 2020-07-02 分類器モデル及びコンテキストパラメータを使用した遠隔メディア分類クエリに対する応答 Active JP6916352B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201662274362P 2016-01-03 2016-01-03
US62/274,362 2016-01-03
US15/185,654 2016-06-17
US15/185,654 US10678828B2 (en) 2016-01-03 2016-06-17 Model-based media classification service using sensed media noise characteristics
US15/185,616 2016-06-17
US15/185,616 US10902043B2 (en) 2016-01-03 2016-06-17 Responding to remote media classification queries using classifier models and context parameters
JP2018534631A JP6730435B2 (ja) 2016-01-03 2016-12-28 システム、方法及びプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2018534631A Division JP6730435B2 (ja) 2016-01-03 2016-12-28 システム、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2020184085A true JP2020184085A (ja) 2020-11-12
JP6916352B2 JP6916352B2 (ja) 2021-08-11

Family

ID=59226362

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018534631A Active JP6730435B2 (ja) 2016-01-03 2016-12-28 システム、方法及びプログラム
JP2020114761A Active JP6916352B2 (ja) 2016-01-03 2020-07-02 分類器モデル及びコンテキストパラメータを使用した遠隔メディア分類クエリに対する応答

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2018534631A Active JP6730435B2 (ja) 2016-01-03 2016-12-28 システム、方法及びプログラム

Country Status (4)

Country Link
US (3) US10902043B2 (ja)
EP (2) EP3398048B1 (ja)
JP (2) JP6730435B2 (ja)
KR (3) KR102132888B1 (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10372757B2 (en) 2015-05-19 2019-08-06 Spotify Ab Search media content based upon tempo
US10902043B2 (en) 2016-01-03 2021-01-26 Gracenote, Inc. Responding to remote media classification queries using classifier models and context parameters
US11113346B2 (en) 2016-06-09 2021-09-07 Spotify Ab Search media content based upon tempo
US10984035B2 (en) * 2016-06-09 2021-04-20 Spotify Ab Identifying media content
KR102497299B1 (ko) * 2016-06-29 2023-02-08 삼성전자주식회사 전자 장치 및 이의 제어 방법
US9972320B2 (en) * 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
US10032256B1 (en) * 2016-11-18 2018-07-24 The Florida State University Research Foundation, Inc. System and method for image processing using automatically estimated tuning parameters
US10460727B2 (en) * 2017-03-03 2019-10-29 Microsoft Technology Licensing, Llc Multi-talker speech recognizer
US11134279B1 (en) * 2017-07-27 2021-09-28 Amazon Technologies, Inc. Validation of media using fingerprinting
CN110622155A (zh) 2017-10-03 2019-12-27 谷歌有限责任公司 将音乐识别为特定歌曲
CN108038122B (zh) * 2017-11-03 2021-12-14 福建师范大学 一种商标图像检索的方法
EP4283528A3 (en) * 2018-01-04 2024-02-14 Samsung Electronics Co., Ltd. Video playback device and control method thereof
US11443058B2 (en) * 2018-06-05 2022-09-13 Amazon Technologies, Inc. Processing requests at a remote service to implement local data classification
US11500904B2 (en) 2018-06-05 2022-11-15 Amazon Technologies, Inc. Local data classification based on a remote service interface
US10991379B2 (en) * 2018-06-22 2021-04-27 Babblelabs Llc Data driven audio enhancement
WO2020026036A1 (en) * 2018-07-31 2020-02-06 Marvell World Trade Ltd. Metadata generation at the storage edge
WO2020028583A1 (en) * 2018-07-31 2020-02-06 Marvell World Trade Ltd. Systems and methods for generating metadata describing unstructured data objects at the storage edge
US10846588B2 (en) 2018-09-27 2020-11-24 Deepmind Technologies Limited Scalable and compressive neural network data storage system
CN109473120A (zh) * 2018-11-14 2019-03-15 辽宁工程技术大学 一种基于卷积神经网络的异常声音信号识别方法
US11609942B2 (en) * 2018-11-15 2023-03-21 Microsoft Technology Licensing, Llc Expanding search engine capabilities using AI model recommendations
KR20200063290A (ko) * 2018-11-16 2020-06-05 삼성전자주식회사 오디오 장면을 인식하는 전자 장치 및 그 방법
CN111276159A (zh) * 2018-12-05 2020-06-12 阿里健康信息技术有限公司 一种婴儿发音分析方法及服务器
US20200293860A1 (en) * 2019-03-11 2020-09-17 Infineon Technologies Ag Classifying information using spiking neural network
CN111488400B (zh) * 2019-04-28 2021-03-30 北京京东尚科信息技术有限公司 数据分类方法、装置和计算机可读存储介质
CN110377786A (zh) * 2019-07-24 2019-10-25 中国传媒大学 音乐情感分类方法
US11954610B2 (en) 2019-08-09 2024-04-09 GE Precision Healthcare LLC Active surveillance and learning for machine learning model authoring and deployment
CN111061909B (zh) * 2019-11-22 2023-11-28 腾讯音乐娱乐科技(深圳)有限公司 一种伴奏分类方法和装置
US11356167B1 (en) * 2020-04-14 2022-06-07 Anokiwave, Inc. Selective calibration of signal processing integrated circuits in a phased array system
CN111583907B (zh) * 2020-04-15 2023-08-15 北京小米松果电子有限公司 信息处理方法、装置及存储介质
CN111428273B (zh) * 2020-04-23 2023-08-25 北京中安星云软件技术有限公司 基于机器学习的动态脱敏方法及装置
US11550904B2 (en) * 2020-08-25 2023-01-10 Robert Bosch Gmbh System and method for improving measurements of an intrusion detection system by transforming one dimensional measurements into multi-dimensional images
US11595720B2 (en) * 2020-09-22 2023-02-28 Thomas Michael Gallagher Systems and methods for displaying a context image for a multimedia asset
US11948598B2 (en) * 2020-10-22 2024-04-02 Gracenote, Inc. Methods and apparatus to determine audio quality
US11410677B2 (en) * 2020-11-24 2022-08-09 Qualcomm Incorporated Adaptive sound event classification
KR102470637B1 (ko) * 2020-11-26 2022-11-25 (주)심플랫폼 클라우드 기반 디바이스 인공지능 설정 시스템 및 방법
US11974012B1 (en) 2023-11-03 2024-04-30 AVTech Select LLC Modifying audio and video content based on user input

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5285498A (en) 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
CA2135415A1 (en) 1993-12-15 1995-06-16 Sean Matthew Dorward Device and method for efficient utilization of allocated transmission medium bandwidth
US5404377A (en) 1994-04-08 1995-04-04 Moses; Donald W. Simultaneous transmission of data and audio signals by means of perceptual coding
SE515674C2 (sv) 1997-12-05 2001-09-24 Ericsson Telefon Ab L M Apparat och metod för brusreducering
US7904187B2 (en) * 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
US7068723B2 (en) 2002-02-28 2006-06-27 Fuji Xerox Co., Ltd. Method for automatically producing optimal summaries of linear media
JP4352790B2 (ja) 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
EP1542206A1 (en) 2003-12-11 2005-06-15 Sony International (Europe) GmbH Apparatus and method for automatic classification of audio signals
KR20070004891A (ko) 2004-04-29 2007-01-09 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호의 분류를 위한 방법 빛 시스템
DE102004036154B3 (de) 2004-07-26 2005-12-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm
TW200704200A (en) 2005-03-10 2007-01-16 Qualcomm Inc Content classification for multimedia processing
US8005675B2 (en) 2005-03-17 2011-08-23 Nice Systems, Ltd. Apparatus and method for audio analysis
WO2006132596A1 (en) 2005-06-07 2006-12-14 Matsushita Electric Industrial Co., Ltd. Method and apparatus for audio clip classification
JP2007058532A (ja) 2005-08-24 2007-03-08 Sony Corp 情報処理システム、情報処理装置および方法、プログラム、並びに、記録媒体
US20070083365A1 (en) 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
WO2007070007A1 (en) 2005-12-14 2007-06-21 Matsushita Electric Industrial Co., Ltd. A method and system for extracting audio features from an encoded bitstream for audio classification
US8364467B1 (en) * 2006-03-31 2013-01-29 Google Inc. Content-based classification
JP2008227579A (ja) 2007-03-08 2008-09-25 Advanced Telecommunication Research Institute International 無線装置およびそれを備えた無線通信ネットワーク
JP2008243104A (ja) 2007-03-29 2008-10-09 Clarion Co Ltd 楽曲分類装置、および楽曲分類方法
US20080300702A1 (en) 2007-05-29 2008-12-04 Universitat Pompeu Fabra Music similarity systems and methods using descriptors
WO2009156903A2 (en) * 2008-06-27 2009-12-30 Koninklijke Philips Electronics N.V. Method and device for generating vocabulary entry from acoustic data
US8428949B2 (en) 2008-06-30 2013-04-23 Waves Audio Ltd. Apparatus and method for classification and segmentation of audio content, based on the audio signal
EP2159720A1 (en) * 2008-08-28 2010-03-03 Bach Technology AS Apparatus and method for generating a collection profile and for communicating based on the collection profile
WO2010023808A1 (ja) * 2008-09-01 2010-03-04 日本電気株式会社 画像同一性尺度算出システム
US8560313B2 (en) 2010-05-13 2013-10-15 General Motors Llc Transient noise rejection for speech recognition
CN102460190A (zh) 2009-06-23 2012-05-16 瑞典爱立信有限公司 用于移动通信网络的方法和装置
WO2011015237A1 (en) 2009-08-04 2011-02-10 Nokia Corporation Method and apparatus for audio signal classification
KR101379261B1 (ko) 2009-09-17 2014-04-02 연세대학교 산학협력단 오디오 신호 처리 방법 및 장치
US9031243B2 (en) 2009-09-28 2015-05-12 iZotope, Inc. Automatic labeling and control of audio algorithms by audio recognition
CN102044244B (zh) 2009-10-15 2011-11-16 华为技术有限公司 信号分类方法和装置
EP2490214A4 (en) 2009-10-15 2012-10-24 Huawei Tech Co Ltd METHOD, DEVICE AND SYSTEM FOR SIGNAL PROCESSING
US9197736B2 (en) * 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US9112989B2 (en) 2010-04-08 2015-08-18 Qualcomm Incorporated System and method of smart audio logging for mobile devices
WO2012001216A1 (en) 2010-07-01 2012-01-05 Nokia Corporation Method and apparatus for adapting a context model
US8762144B2 (en) * 2010-07-21 2014-06-24 Samsung Electronics Co., Ltd. Method and apparatus for voice activity detection
CN102959551B (zh) 2011-04-25 2017-02-08 松下电器(美国)知识产权公司 图像处理装置
CN102982804B (zh) 2011-09-02 2017-05-03 杜比实验室特许公司 音频分类方法和系统
CN103918247B (zh) * 2011-09-23 2016-08-24 数字标记公司 基于背景环境的智能手机传感器逻辑
US11074495B2 (en) * 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
US9098576B1 (en) * 2011-10-17 2015-08-04 Google Inc. Ensemble interest point detection for audio matching
JP5836095B2 (ja) 2011-12-05 2015-12-24 キヤノン株式会社 画像処理装置、画像処理方法
US11321772B2 (en) * 2012-01-12 2022-05-03 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9111531B2 (en) 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
KR101343768B1 (ko) 2012-04-19 2014-01-16 충북대학교 산학협력단 스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류방법
WO2013165336A1 (en) * 2012-04-30 2013-11-07 Hewlett-Packard Development Company, L.P. Selecting classifier engines
US20140019390A1 (en) * 2012-07-13 2014-01-16 Umami, Co. Apparatus and method for audio fingerprinting
US9311931B2 (en) 2012-08-09 2016-04-12 Plantronics, Inc. Context assisted adaptive noise reduction
US9305559B2 (en) 2012-10-15 2016-04-05 Digimarc Corporation Audio watermark encoding with reversing polarity and pairwise embedding
US10423973B2 (en) * 2013-01-04 2019-09-24 PlaceIQ, Inc. Analyzing consumer behavior based on location visitation
IN2013DE00589A (ja) 2013-02-28 2015-06-26 Samsung India Electronics Pvt Ltd
CN106409313B (zh) 2013-08-06 2021-04-20 华为技术有限公司 一种音频信号分类方法和装置
CN112989840A (zh) 2013-08-30 2021-06-18 英特尔公司 用于虚拟个人助理的可扩展上下文感知的自然语言交互
KR101758869B1 (ko) * 2014-01-10 2017-07-18 한국전자통신연구원 멀티미디어 콘텐츠 분류장치 및 이를 이용한 분류방법
US9620105B2 (en) * 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US9437189B2 (en) * 2014-05-29 2016-09-06 Google Inc. Generating language models
US9465994B1 (en) 2015-02-23 2016-10-11 Amazon Technologies, Inc. Predicting performance and success of large-scale vision algorithms
US9697825B2 (en) * 2015-04-07 2017-07-04 Nexidia Inc. Audio recording triage system
US9443517B1 (en) 2015-05-12 2016-09-13 Google Inc. Generating sounds for detectability by neural networks
US20170017576A1 (en) * 2015-07-16 2017-01-19 Qualcomm Incorporated Self-adaptive Cache Architecture Based on Run-time Hardware Counters and Offline Profiling of Applications
US20170032247A1 (en) 2015-07-31 2017-02-02 Qualcomm Incorporated Media classification
US10417579B2 (en) * 2015-09-25 2019-09-17 Mcafee, Inc. Multi-label classification for overlapping classes
US10902043B2 (en) 2016-01-03 2021-01-26 Gracenote, Inc. Responding to remote media classification queries using classifier models and context parameters

Also Published As

Publication number Publication date
US20210149939A1 (en) 2021-05-20
JP6916352B2 (ja) 2021-08-11
US20170193362A1 (en) 2017-07-06
EP3398048B1 (en) 2023-07-26
KR20180120146A (ko) 2018-11-05
KR20200100677A (ko) 2020-08-26
KR102132888B1 (ko) 2020-07-20
KR102571011B1 (ko) 2023-08-25
JP6730435B2 (ja) 2020-07-29
EP3398048A1 (en) 2018-11-07
JP2019508787A (ja) 2019-03-28
US10902043B2 (en) 2021-01-26
EP3398048A4 (en) 2019-06-05
KR20220137794A (ko) 2022-10-12
US10678828B2 (en) 2020-06-09
US20170193097A1 (en) 2017-07-06
KR102450993B1 (ko) 2022-10-06
EP4024233A1 (en) 2022-07-06

Similar Documents

Publication Publication Date Title
JP6916352B2 (ja) 分類器モデル及びコンテキストパラメータを使用した遠隔メディア分類クエリに対する応答
US10819811B2 (en) Accumulation of real-time crowd sourced data for inferring metadata about entities
US9230547B2 (en) Metadata extraction of non-transcribed video and audio streams
CN112074900B (zh) 用于自然语言处理的音频分析
US9299350B1 (en) Systems and methods for identifying users of devices and customizing devices to users
CN110622155A (zh) 将音乐识别为特定歌曲
JP2017509009A (ja) オーディオストリームの中の音楽の追跡
CN110557589A (zh) 用于整合记录的内容的系统和方法
US9224385B1 (en) Unified recognition of speech and music
CN112530408A (zh) 用于识别语音的方法、装置、电子设备和介质
US11030994B2 (en) Selective activation of smaller resource footprint automatic speech recognition engines by predicting a domain topic based on a time since a previous communication
CN108322770B (zh) 视频节目识别方法、相关装置、设备和系统
WO2017117234A1 (en) Responding to remote media classification queries using classifier models and context parameters
JP6731802B2 (ja) 検出装置、検出方法及び検出プログラム
CN111816170A (zh) 一种音频分类模型的训练和垃圾音频识别方法和装置
CN110689896A (zh) 追溯性声音识别系统
US10839802B2 (en) Personalized phrase spotting during automatic speech recognition
Pisanò et al. Audio-aware applications at the edge using in-browser WebAssembly and fingerprinting
CN115440231A (zh) 说话人识别方法、装置、存储介质、客户端和服务器

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200702

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210615

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210715

R150 Certificate of patent or registration of utility model

Ref document number: 6916352

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150