JP6730435B2

JP6730435B2 - システム、方法及びプログラム

Info

Publication number: JP6730435B2
Application number: JP2018534631A
Authority: JP
Inventors: マルクスケイ．クレマー，; フィリップポップ，; キャメロンオーブリーサマーズ，; ジェイソンクレイマー，
Original assignee: グレースノートインコーポレイテッド
Priority date: 2016-01-03
Filing date: 2016-12-28
Publication date: 2020-07-29
Anticipated expiration: 2036-12-28
Also published as: KR102132888B1; US20170193097A1; KR20180120146A; EP4024233A1; JP2020184085A; EP3398048A4; JP6916352B2; US10678828B2; KR102571011B1; KR20220137794A; US20170193362A1; KR102450993B1; EP3398048A1; KR20200100677A; US20210149939A1; JP2019508787A; EP3398048B1; US10902043B2

Description

優先権の主張

[0001]本願は、分類器モデル及びコンテキストパラメータを使用した遠隔メディア分類クエリに対する応答に関し、以下の米国特許出願文献、すなわち、２０１６年１月３日に出願された「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＭＥＤＩＡＣＬＡＳＳＩＦＩＣＡＴＩＯＮ」と題する米国仮特許出願第６２／２７４，３６２号、２０１６年６月１７日に出願された「ＲＥＳＰＯＮＤＩＮＧＴＯＲＥＭＯＴＥＭＥＤＩＡＣＬＡＳＳＩＦＩＣＡＴＩＯＮＱＵＥＲＩＥＳＵＳＩＮＧＣＬＡＳＳＩＦＩＥＲＭＯＤＥＬＳＡＮＤＣＯＮＴＥＸＴＰＡＲＡＭＥＴＥＲＳ」と題する米国特許出願第１５／１８５，６１６号、及び、２０１６年６月１７日に出願された「ＭＯＤＥＬ−ＢＡＳＥＤＭＥＤＩＡＣＬＡＳＳＩＦＩＣＡＴＩＯＮＳＥＲＶＩＣＥＵＳＩＮＧＳＥＮＳＥＤＭＥＤＩＡＮＯＩＳＥＣＨＡＲＡＣＴＥＲＩＳＴＩＣＳ」と題する米国特許出願第１５／１８５，６５４の優先権の利益を主張する。上記で特定した米国仮特許出願及び非仮特許出願の各々の内容全体が、本明細書によって参照により本明細書に組み込まれる。

背景

[0002]エンターテインメント、ニュース、及び他の通信ソースによって提供されるメディアコンテンツは、今日の現代社会においては普遍的なものである。たとえ個人自身がはたらきかけなくとも、個人は、公共空間内の広告、又は、飲食店及び待合所のような空間内の周囲のオーディオ若しくはビデオエンターテインメントに常にさらされている。場合によっては、個人は、特定のラジオ若しくはテレビ放送にチャンネルを合わせること、又は、ソーシャルメディア若しくは他のソースからインターネットを介してストリーミング配信されるメディアを受信することなどによって、様々なソースから個人自身のメディアコンテンツを受け取る。

[0003]携帯電話、テレビ、又はタブレットコンピュータなどを含む、可搬又は固定の電子デバイスは、メディアコンテンツを直接的又は間接的に受信することができる。例えば、テレビは、メディアを求めるユーザ要求に応答して、インターネットを介してストリーミングオーディオ及び／又はビデオコンテンツを受信することができる。一例において、スマートフォンは、内蔵マイクロフォン又はカメラを使用して周囲のメディアに関する情報を受信するように構成することができる。いくつかの例において、スマートフォンには、ユーザによって、識別サービスを提供する第三者と通信するためのアプリを使用することなどによって、周囲のメディアのサンプルのソース又は他の特性を特定するように指示することができる。

[0004]添付の図面の図において、限定ではなく例として、いくつかの実施形態が示されている。

[0005]図１は、メディア情報を受信及び分析するように構成されているシステムの例示的な実施形態を全般的に示す図である。

[0006]図２は、メディア分類を提供することを含むことができる方法の流れ図を全般的に示す図である。

[0007]図３は、携帯デバイスのいくつかの構成要素のブロック図を全般的に示す図である。

[0008]図４は、クエリ音声波形及びコンテキストセンサ信号を含む例示的な実施形態を全般的に示す図である。

[0009]図５は、メディアプロセッサ回路のブロック図を全般的に示す図である。

[0010]図６は、分類モデルを記憶するためのデータベースのブロック図を全般的に示す図である。

[0011]図７は、メディアコンテンツを特定するために分類ネットワークを使用することの例示的な実施形態を全般的に示す図である。

[0012]図８は、オーディオタイプ確率指数を決定することを含む例示的な実施形態を全般的に示す図である。

[0013]図９は、コンテキストパラメータに基づいて分類モデルを選択することを含む例示的な実施形態を全般的に示す図である。

[0014]図１０は、更新済み分類モデルを選択することを含む例示的な実施形態を全般的に示す図である。

[0015]図１１は、更新済み分類モデルをいつ適用すべきかを決定することを含む例示的な実施形態を全般的に示す図である。

[0016]図１２は、メディアクエリ識別システムを訓練することを含む例示的な実施形態を全般的に示す図である。

[0017]図１３は、メディアクエリを分類すべきか否かを決定することを含む例示的な実施形態を全般的に示す図である。

[0018]図１４は、機械可読媒体から命令を読み出し、本明細書において論じられている方法のうちのいずれか一つ又は複数を実施することができる、いくつかの例による機械の構成要素を示すブロック図である。

詳細な説明

[0019]例示的な実施形態において、機械は、オーディオ又はビデオコンテンツを特定するために、一つ又は複数のユーザ又はユーザデバイスと対話するように構成することができる。一つの手法は、例えば、一致を特定する試みにおいて、オーディオ信号サンプルのクエリ指紋を、様々な基準オーディオサンプル指紋と比較することによって、音声指紋法又は分類を実施するように、機械を構成することである。大規模なデータベースを使用してクエリが実施されるとき、そのような音声指紋法は、計算コストが高く、時間がかかる可能性がある。本明細書において記載されている様々なシステム及び技法を使用して、特定の環境、メディアタイプ、又は他のシナリオに対して調整される分類モデルを使用することなどによって、分類サービスを実施するコスト及び費用を低減することができる。例示的な実施形態において、メディアクエリに関するコンテキスト情報を使用して、複数の異なる利用可能な分類モデルからの分類モデルの選択を補助することができる。例示的な実施形態において、畳み込みニューラルネットワークに基づくメディア分類器のような、分類器システムによって適用されるいくつかの分類モデルは、他のモデルよりも効率的に、メディア分類結果をもたらすことができる。

[0020]図１は、メディア情報を受信及び分析するように構成されているシステムの例示的な実施形態を全般的に示す。図１は、いくつかの実施形態による、メディア分類に適したネットワーク環境１００を示すネットワーク図を含む。ネットワーク環境１００は、ネットワーク１９０を介して互いに通信可能に結合することができるような、メディアプロセッサ回路１１０と、データベース１１５と、第１の携帯デバイス１３０及び第２の携帯デバイス１５０とを含む。メディアプロセッサ回路１１０は、データベース１１５とともに、又は、データベース１１５を伴わずに、クラウド１１８（例えば、メディア処理サービスを提供するためのサーバとして独立して又は集合的に機能するように構成されている、複数の地理的に分散した機械などを含む、オーディオ処理クラウド）の一部分を形成することができる。クラウド１１８は、例えば、第１の携帯デバイス１３０及び第２の携帯デバイス１５０にネットワークに基づくオーディオ処理サービスを提供するように構成されているクラウドに基づくサーバシステムとして、ネットワークに基づくメディア分類器１０５を含むシステムの全部又は一部分を形成することができる。メディアプロセッサ回路１１０並びに第１の携帯デバイス１３０及び第２の携帯デバイス１５０は各々、本明細書においてさらに記載されているように、全体的に又は部分的に、専用（例えば、特殊化した）コンピュータシステムに実装することができる。

[0021]例示的な実施形態において、ネットワーク環境１００は、オーディオ又はビデオデータに対して分類サービスを実施するように構成されている。すなわち、第１の携帯デバイス１３０及び第２の携帯デバイス１５０のうちの一方からのオーディオ又はビデオ情報のサンプルのような、何らかの入力メディアに応答して、クラウド１１８の様々な構成要素を使用して、入力メディアのクラス又は分類の指示を提供することができる。分類は、メディアと関連付けられる何らかの特性を含むことができる。入力メディアがオーディオ信号を含む例示的な実施形態において、分類は、著者若しくはアーティスト、アルバム名、ソース、テンポ、雰囲気、又は、オーディオ信号に対応する他の定量的若しくは定性的特徴の指示を含むことができる。例示的な実施形態において、入力メディアは、曲の少なくとも一部分であり、ネットワークに基づくメディア分類器１０５は、その曲の題名、アーティスト、その曲と関連付けられる様々な記録及び／若しくはアルバムの名称、又は、その曲に関する若しくは関連付けられる他の情報の指示を提供することができる。

[0022]図１の例示的な実施形態において、ネットワークに基づくメディア分類器１０５並びに／又は第１の携帯デバイス１３０及び第２の携帯デバイス１５０のうちの一方は、イントラネット又はインターネットを介してなど、他のソースから入力メディアクエリにアクセスするように構成されている。例示的な実施形態において、ネットワークに基づくメディア分類器１０５は、テレビ、ラジオ、又は他の信号のような放送信号を受信するように構成されている送受信器又は受信器から分類されていないメディアデータを受信する。

[0023]プロセッサ回路は、クエリに対応するコンテキストパラメータにアクセス又は特定するために、入力メディアクエリを分析するように構成されている。プロセッサ回路は、クラウド１１８にあるメディアプロセッサ回路１１０を含んでもよく、又は、プロセッサ回路は、第１の携帯デバイス１３０及び第２の携帯デバイス１５０のうちの一方に実装されてもよい。例示的な実施形態において、プロセッサ回路は、ネットワークに基づくメディア分類器１０５の別の部分、又は、ネットワークに基づくメディア分類器１０５並びに／若しくは第１の携帯デバイス１３０及び第２の携帯デバイス１５０と通信可能に結合されている別のロケーションに設けられてもよい。例示的な実施形態において、コンテキストパラメータを特定するように構成されているプロセッサ回路は、オーディオ分類サービスを実施するのに使用されるものと同じ又は異なるプロセッサ回路であってもよい。

[0024]コンテキストパラメータは、付加的に又は代替的に、入力メディアクエリ以外のどこかからアクセスすることができる。例えば、コンテキストパラメータは、クエリと（例えば、時間的に）対応する知覚又は環境情報のような、入力メディアクエリに関する情報を含むことができる。例示的な実施形態において、コンテキストパラメータは、クエリが（例えば、第１の携帯デバイス１３０によって）サンプリングされたロケーションに対応するロケーション情報を含む。例示的な実施形態において、コンテキストパラメータは、クエリを取得又は準備するデバイス又はユーザに対応するデバイス識別情報又はユーザ識別情報を含む。本明細書においてさらに論じられているように、他のコンテキストパラメータが、付加的に又は代替的に使用されてもよい。

[0025]例示的な実施形態において、プロセッサ回路は、メディアクエリのスペクトル特徴を決定するように構成することができる。スペクトル特徴は、クエリと関連付けられる指紋の全部又は一部分を形成することができる。コンテキストパラメータに基づいて又はコンテキストパラメータを使用して、プロセッサ回路は、クエリに対応するメディアタイプの指示を提供するためにスペクトル特徴の処理に使用するための分類モデルを選択するように構成することができる。例示的な実施形態において、プロセッサ回路（例えば、メディアプロセッサ回路１１０）は、選択された分類モデル及び決定されたスペクトル特徴を使用して、クエリのメディアタイプ確率指数を決定する。例示的な実施形態において、確率指数は、メディアデータが、特定の曲、アーティスト、又はアルバムのような、特定の既知のメディアに対応する尤度の指示を含む。例示的な実施形態において、確率指数が何らかの指定の閾値尤度を超える場合、プロセッサ回路は、確率指数なしにメディアタイプ指示を返すことができる。

[0026]図１の例示的な実施形態に戻ると、第１のユーザ１３２及び第２のユーザ１５２が示されている。第１のユーザ１３２及び第２のユーザ１５２の一方又は両方は、人間のユーザ（例えば、人類）、機械のユーザ（例えば、ソフトウェアプログラムによって、第１の携帯デバイス１３０又は第２の携帯デバイス１５０と対話するように構成されているコンピュータ）、又はそれらの任意の適切な組み合わせ（例えば、機械によって支援される人間又は人間によって監督される機械）であってもよい。第１のユーザ１３２は、第１の携帯デバイス１３０と関連付けられ、第１の携帯デバイス１３０のユーザであり得る。例えば、第１の携帯デバイス１３０は、第１のユーザ１３２と関連付けられるユーザプロファイルデータに属するか、ユーザプロファイルデータを有するコンピュータ、車両コンピュータ、タブレットコンピュータ、ナビゲーションデバイス、可搬メディアデバイス、スマートフォン、又は装着可能デバイス（例えば、スマートウォッチ、スマートグラス、スマート衣類、又はスマートジュエリ）であってもよい。同様に、第２のユーザ１５２は、第２の携帯デバイス１５０と関連付けられ、第２の携帯デバイス１５０のユーザであり得る。例示的な実施形態において、第１のユーザ１３２及び第２のユーザ１５２並びに／又は第１の携帯デバイス１３０及び第２の携帯デバイス１５０の各々は、ネットワークに基づくメディア分類器１０５によって使用するための様々な異なる分類モデルと関連付けることができる。

[0027]例示的な実施形態において、第１の携帯デバイス１３０及び第２の携帯デバイス１５０の一方又は両方は、マイクロフォン又は他のメディアセンサ入力を使用して、分類されていないメディアを受信するように構成することができる。例示的な実施形態において、分類されていないメディアは、デバイスのネイティブソース（例えば、第１の携帯デバイス１３０又は第２の携帯デバイス１５０のサウンドカード又は他のネイティブ構成要素）から、又は、第１の携帯デバイス１３０若しくは第２の携帯デバイス１５０のデバイス出力端子（例えば、映像出力端子、ライン出力端子、ヘッドフォン差し込み口など）から、又は、何らかの他のデバイスからサンプリングすることができる。分類されていないメディアは、（例えば、第１の携帯デバイス１３０又は第２の携帯デバイス１５０が内蔵する回路によって）サンプリングして、メディア識別サービスを求める要求とともに、ネットワークに基づくメディア分類器１０５に通信することができる。

[0028]図１に示されているか、又は、図１に関連して記載されているシステム、機械、デバイス、又は関連するデータベースのいずれかは、そのシステム又は機械について本明細書において記載されている機能のうちの一つ又は複数を実施するように修正されている（例えば、アプリケーション、オペレーティングシステム、ファームウェア、ミドルウェア、又は他のプログラムの一つ又は複数のソフトウェアモジュールのような、ソフトウェアによって構成又はプログラムされている）専用（例えば、特殊化した又は他の様態で一般的でない）コンピュータを含むことができ、又は、他の様態で当該コンピュータを使用して実装することができる。本明細書において記載されている方法論のうちの一つ又は複数を実施するように構成されている専用コンピュータシステムの例示的な実施形態が、下記で図１２において論じられている。そのような専用コンピュータの技術分野内で、本明細書において論じられている機能を実施するように、本明細書において論じられている構造によって修正されている専用コンピュータは、本明細書において論じられている構造を欠くか、又は、他の様態で本明細書において論じられている機能を実施することが不可能な他の専用コンピュータと比較して技術的に改善されている。したがって、本明細書において論じられているシステム及び方法に従って構成されている専用機械は、同様の専用機械の技術に対する改善を提供する。

[0029]少なくとも図６において下記にさらに論じられているデータベース１１５は、例えば、テキストファイル、表、スプレッドシート、関係データベース（例えば、オブジェクト関係データベース）、トリプルストア、階層型データストア、又はそれらの任意の適切な組み合わせなど、様々な方法でデータを記憶するように構成することができるデータ記憶リソースを含むことができる。ネットワーク１９０は、システム、機械、データベース、及びデバイスの間での（例えば、メディアプロセッサ回路１１０と第１の携帯デバイス１３０との間での）通信を可能にする任意のネットワークであってもよい。ネットワーク１９０は、有線ネットワーク、無線ネットワーク（例えば、モバイル又はセルラネットワーク）、又はそれらの組み合わせであってもよい。ネットワーク１９０は、私的ネットワーク、公衆ネットワーク（例えば、インターネット）、又はそれらの組み合わせを構成する一つ又は複数の部分を含むことができる。

[0030]ネットワーク１９０は、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、インターネット、携帯電話ネットワーク（例えば、セルラネットワーク）、有線電話網（例えば、一般電話システム（ＰＯＴＳ）ネットワーク）、無線データネットワーク（例えば、ＷｉＦｉネットワーク又はＷｉＭａｘネットワーク）、又はそれらの組み合わせを組み込んでいる一つ又は複数の部分を含むことができる。ネットワーク１９０のいずれか一つ又は複数の部分は、伝送媒体を介して情報を通信することができる。本明細書において使用される場合、「伝送媒体」は、機械によって（例えば、そのような機械の一つ又は複数のプロセッサによって）実行するための命令を通信（例えば、送信）することが可能である任意の無形（例えば、一時的）媒体を指し、デジタル若しくはアナログ通信信号、又は、そのようなソフトウェアの通信を促進するための他の無形媒体を含む。

[0031]図２は、メディア分類を提供することを含むことができる方法の流れ図を全般的に示す。図２の例示的な実施形態は、例えば、ネットワーク環境１００を使用してメディアデータ２０１のメディア分類を決定するための方法２００の流れ図を全般的に示す。メディアデータ２０１は、第１の携帯デバイス１３０及び第２の携帯デバイス１５０のうちの一方から、又は、別のソースから受信されるメディアクエリであってもよい。方法２００は、動作２０２において、メディア訓練データを取得することと、動作２０４において、取得されているメディア訓練データを分析することとを含む。方法２００は、動作２０６において、様々な訓練データを使用してメディアデータ２０１（例えば、オーディオ及び／又はビデオ情報を含むメディアクエリ）を分類することをさらに含む。動作２１０において、方法２００は、メディア分類の指示を提供すること、又は、メディアデータ２０１が何らかの指定されるメディアに対応する尤度の指示を提供することを含む。

[0032]例示的な実施形態において、方法２００は、動作２０６において、コンテキストパラメータ２０３を使用することを含む。動作２０６において、メディアデータ２０１及びコンテキストパラメータ２０３は、様々な訓練データを使用してメディアデータを分類するためにともに使用することができる。

[0033]方法２００において、様々なデジタル信号処理（ＤＳＰ）方法を使用して、メディアデータ（例えば、訓練データ又はクエリデータ）から特徴を抽出することができる。例えば、他の抽出可能な特徴の中でも、メル周波数ケプストラム係数（ＭＦＣＣ）、スペクトル平坦性、平均値、ゼロ交差、スペクトル重心、コードクラス、又は衝撃性を使用することができる。当該技術分野において知られている様々なデジタル信号処理特徴抽出方法及び規格（例えば、ＭＰＥＧ−７）を使用することができる。抽出された特徴は、例えば、ステップ２０６において訓練されている分類器を使用して、メディアデータの比較分析を実施するために使用することができる。例示的な実施形態において、訓練データは、特定された基準に対する参照基準又はモデルを確立するために使用され、それらのモデルはその後、メディアデータ２０１を評価するために使用することができる。

[0034]図２の例示的な実施形態において、ステップ２０２において取得されるメディアデータの訓練セットは、一つ又は複数のオーディオ信号サンプル（例えば、楽曲の記録）と、一つ又は複数のオーディオ信号サンプルの各々に対応する一つ又は複数の編集によって形成される特性とを含む。例示的な実施形態において、いくつかの特性は、ともに、メディアデータの訓練セットに対応するメディアプロファイル又は指紋であると考えることができる。例示的な実施形態において、訓練データの特性は、（例えば、コンパクトディスクデータベースＣＤＤＢ又は他の同様のリソースを使用して）メディアデータを、他の既存のメディア情報と関連付けることによって自動的に規定される。例示的な実施形態において、訓練データの特性は、１人又は複数の人によって規定されるか、又は、データベース１１５に含めるためにメディアを評価する多くの人から集約される。例示的な実施形態において、訓練データの特性は、集約されたエンドユーザ及び／又は編集によって生成されているタグ又はコンテンツと関連付けられる散文の様々な分析を使用して生成され、又は、他のデータマイニング方法を、起源が訓練プロセスから独立し得るデータセットに適用することができる。

[0035]動作２０４において、訓練データからのメディアを分析することは、メディアデータの訓練セットから様々なスペクトル特徴を抽出することを含むことができる。例示的な実施形態において、抽出された特徴は、編集によって割り当てられるカテゴリに対して評価され、及び、当該カテゴリと相関されて、「ｎ」個のカテゴリの各々について少なくとも一つのモデルを含むなど、「ｎ」個の分類モデルが作成される。したがって、この例において、各分類モデルは、そのカテゴリに一般的に抽出された特徴との、カテゴリの相関セットであり得る。そのような分類モデルは、（例えば、メディアプロセッサ回路１１０によって実装される）分類器と共有することができ、動作２０６において適用することができる。動作２０６において、一つ又は複数の分類モデルは、メディアデータ２０１を分類するための比較又は参照基準の基礎としての役割を果たすことができる。

[0036]動作２０６において、訓練データを使用してメディアデータ２０１を分類することは、クエリメディアデータ２０１から様々なスペクトル特徴を抽出することを含むことができる。抽出された特徴はその後、２０４からの分類モデルと比較することができ、又は、当該分類モデルを使用して処理することができる。動作２０６においてメディアを分類することは、動作２１６において、メディアデータ２０１を変換すること、又は、動作２２６において、一つ又は複数の分類モデルを適用することを含むことができる。例示的な実施形態において、メディアデータ２０１を分類することは、以前に分析された訓練データに関して訓練されている畳み込みニューラルネットワークを使用することを含むことができる。畳み込みニューラルネットワークは、一つ又は複数の時間窓（例えば、数ミリ秒〜数秒）にわたってサンプリングされるメディアデータ２０１からのメディア信号特徴を使用する、プロセッサによって実装される分類器であってもよい。分類器は、信号イベント又はスペクトル特徴がメディアデータ２０１に存在するか否かを検出するように構成することができる。畳み込みニューラルネットワークは、概して、特定のメディアイベント（例えば、口笛、犬の鳴き声、音楽の存在）及び状況（例えば、特定の記録デバイス／マイクロフォン、環境雑音）に対して調整することができる数千〜数百万のパラメータを含む。

[0037]動作２１６において、様々な機能をメディアデータ２０１に適用することができる。例えば、メディアデータ２０１からのデータ系列を周波数領域に変換するために、ＣｏｎｓｔａｎｔＱ変換を適用することができる。異なるメディアタイプを区別するために、様々なスペクトル特徴をメディアデータ２０１内で特定することができる。局所コントラスト正規化を実施することができ、その後、結果もたらされたデータを、畳み込みニューラルネットワークに適用することができる。メディアデータ２０１がオーディオ信号を含むとき、局所コントラスト正規化プロセスは、オーディオ信号における音量変化全体に対して分類を不変にし、外部からの音又は大きな音による妨害に対してある程度まで分類を不変にするのを補助することができる。

[0038]動作２２６において、変換されたメディアデータを畳み込みニューラルネットワークに対する入力として使用して、分類モデルを適用することができる。畳み込みニューラルネットワークは、何らかの指定の特徴又はイベントが存在するか否かを特定するよう試みるために、（例えば、数秒の時間窓にわたる）変換されたメディアデータ２０１の様々な特徴を分析することができる。そのような畳み込みニューラルネットワークは、特定のメディアイベント（例えば、口笛雑音、犬の鳴き声、音楽の存在など）に対して調整（例えば、重み付け）することができ、又は、特定の状況（例えば、環境雑音を被る、携帯デバイスによって取得されるメディアなど）に対して調整することができる数千〜数百万のパラメータを含むことができる。異なる分類モデルが、調整されるパラメータの固有の組み合わせと関連付けられ得る。

[0039]例示的な実施形態において、動作２２６において分類モデルを適用することは、クエリ内の様々なイベント又は特性を検出することを含む。例えば、メディアプロセッサ回路１１０は、メディアデータ２０１の抽出された特徴と、「ｎ」個の分類モデルの特徴との間の類似性に基づいて、各特徴又はカテゴリの値を割り当てることを含め、所与のクエリについて、「ｎ」個のカテゴリにわたってプロファイルをデータ投入するように構成することができる。例示的な実施形態において、動作２２６において分類モデルを適用することは、クエリが聴覚イベント（例えば、口笛、犬の鳴き声、音楽の存在など）のような、指定のイベントを含む（又は含む可能性がある）か否かを検出することを含む。分類器は、任意選択的に、個別のオーディオサンプルを分類するために使用することができ、又は、分類器は、例えば、一連のサンプルを連続して又は指定の間隔をおいて処理することによって一連の受信オーディオを実質的に連続的に分類するために使用することができる。

[0040]例示的な実施形態において、コンテキストパラメータ２０３は、分類プロセスをトリガするために使用することができる。付加的に又は代替的に、分類モデルは、コンテキストパラメータ２０３に基づいて使用するために選択されてもよい。例示的な実施形態において、コンテキストパラメータ２０３は、周波数内容、振幅、又は、メディアデータ２０１信号の何らかの他の特性の変化を特定することなどによって、メディアデータ２０１自体から導出することができる。例示的な実施形態において、コンテキストパラメータ２０３は、メディアデータ２０１と関連付けられる別のソース又はセンサからの信号に基づくことができる。例えば、コンテキストパラメータ２０３は、加速度計、ユーザ入力、位置センサ、時計若しくはタイマ回路、又は、メディアデータ２０１と対応する他のコンテキストを提供する指示からの信号に基づくことができる。

[0041]例示的な実施形態において、メディアプロセッサ回路１１０（又は、ネットワークに基づくメディア分類器１０５への入力デバイスと関連付けられるなど、他のプロセッサ回路）は、指定のイベントについてメディアデータ２０１を監視するように構成することができる。メディアデータ２０１は、連続的に又は断続的にサンプリングされるオーディオストリームのような、メディアストリームを表すことができる。この例において、メディアプロセッサ回路１１０は、メディア分類を、例えば、動作２０６において様々な間隔をおいて実施することができるか、又は、メディアデータ２０１の指定の閾値変化若しくはコンテキストパラメータ２０３の指定の閾値変化を超えるトリガイベントのような、何らかのトリガイベントに応答して実施することができる「常時オン」モードにおいて動作するように構成することができる。

[0042]例示的な実施形態において、メディアプロセッサ回路１１０（又は、ネットワークに基づくメディア分類器１０５への入力デバイスと関連付けられるなど、他のプロセッサ回路）は、サンプルが音楽、発話、又は何らかの他のメディアタイプを含むか否かを決定するなどのために、一つ又は複数のサンプル特性を特定するために、固定オーディオセグメント又はサンプルを走査するように構成することができる。指定のイベントが検出された場合、メディア分類要求を、動作２０６において開始することができる。例えば、メディアプロセッサ回路１１０は、ベビーモニタのオーディオチャネルを監視するように構成することができる。分類器がオーディオチャネル内の信号の周波数内容の変化を特定すると、動作２０６において、信号が赤ん坊の泣き声を（例えば、話し声又は葉擦れのような他の雑音から区別されるものとして）含むか、又は含む可能性があるか否かを決定するために、信号を分類することができる。赤ん坊の泣き声が積極的に示される場合、例えば、動作２１０において、世話をする人に通知することができる。

[0043]動作２０６において、メディアデータ２０１を分類することは、メディアデータ２０１のメディアタイプ確率指数を提供することを含むことができる。メディアタイプ確率指数は、メディアデータ２０１が指定のメディアタイプに対応することの指示又は尤度を含む。例えば、ネットワークに基づくメディア分類器１０５は、メディアデータ２０１又はクエリを受信し、その後、受信されたクエリを指定の周波数又はスペクトル空間に変換するように構成することができる。メディアプロセッサ回路１１０は、その後、クエリが特定のメディアタイプに対応する確率又は尤度の指示を生成するために、畳み込みニューラルネットワークを適用することができる。例示的な実施形態において、結果は、オーディオサンプルが発話、音楽、又はそれらの何らかの組み合わせに対応する相対尤度の指示を含む。ニューラルネットワークからの他の結果に基づいて、結果は、オーディオサンプルが、指定の曲のような、何らかの指定のオーディオ特性又は分類に対応する尤度を示すことができる。ニューラルネットワークの出力は、オーディオイベント確率、又は、特定のクエリが指定の又は指示されているオーディオタイプに対応する可能性がどれくらいであるかの指示を含むことができる。

[0044]例示的な実施形態において、動作２０６において、メディアを分類することは、特定のサンプル又はユーザの利用可能な又は可能性のある分類の範囲を狭めるために、分類モデルを使用することを含む。例えば、分類モデルは、畳み込みニューラルネットワークにおいて利用可能な経路を制約するための様々な重み又は他の手段を含むことができる。例示的な実施形態において、第１のユーザ１３２及び第２のユーザ１３２若しくは１５２並びに／又はユーザのそれぞれのデバイス１３０若しくは１５０は、異なる分類モデルと関連付けることができ、メディアをより効率的に分類するために、メディアプロセッサ回路１１０によってモデルを適用することができる。例示的な実施形態において、分類モデルは、ソースデバイス又はユーザ履歴の何らかの事前の知識に基づいて選択することができる。例えば、複数の異なる利用可能な分類モデルからの特定の分類モデルを、クエリが携帯電話のマイクロフォンからサンプリングされるオーディオ信号を含むときに使用するために選択することができる。

[0045]例示的な実施形態において、第１のクエリは、クラシック音楽を含むメディアデータ２０１を含み、第１のクエリは、クエリがクラシック音楽を含むことを示す第１のパラメータに対応する。第１のクエリは、第１の分類モデルによって構成されるニューラルネットワークを使用して処理することができ、第１の分類モデルは、クラシック音楽の異なる特性の間で区別するために選択又は構築される様々な重み、フィルタ、又はネットワークの他の構成要素に起因してクラシック音楽をより効率的に特定するために、ネットワークを「調整」することができる。ポップ音楽を認識するために調整されるなどの、第２の分類モデルは、第１のクエリを首尾よく又は効率的に特定することができない。同様に、話し言葉の内容を含む第２のクエリは、クラシック音楽向けに調整された第１の分類モデル又はポップ音楽向けに調整された第２の分類モデルのいずれかを使用すると、首尾よく又は効率的に分類することができない。

[0046]デバイスにローカルに記憶されたモデルをロードすることによって、又は、ネットワークに基づくメディア分類器１０５を介してモデルを受信することによって、動作２１０においてメディア分類を提供するために、様々な分類モデルを適用することができる。任意選択的に、複数のモデルを連続して使用又は適用することができる。例示的な実施形態において、モデルは、特に、入力デバイスの指定のクラス（例えば、クエリ又はメディアデータ２０１を受信又は提供するために使用されるデバイス）に対するものとすることができる。例えば、第１のモデルは、携帯電話マイクロフォンから受信されるときは、発話及び音楽を分類するように構成することができる。第２のモデルは、携帯電話のネイティブサウンドボードから受信されるときは、発話及び音楽を分類するように構成することができる。第３のモデルは、クエリデータが発話及び音楽の一方又は両方を含むか否かを特定するように構成することができる。第４のモデルは、テレビ放送源からオーディオを分類するように構成することができる。一つ又は複数のコンテキストパラメータに基づいてなど、検出される状況又はコンテキストに応じて、一つ又は複数の分類モデルを、方法２００に使用するために選択することができる。いくつかの例示的な実施形態において、モデルは、他の基準の中でも、ソースデバイスを検出することによって、又は、競合するモデルの品質を比較することによって、又は、分析されるべきクエリの何らかの分析によって、自動的に選択される。

[0047]図３は、携帯デバイスのいくつかの構成要素のブロック図を全般的に示す。例示的な実施形態において、図３は、第１の携帯デバイス１３０の様々な構成要素に対応するブロック図を示す。第２の携帯デバイス１５０は、任意選択的に、同じ又は類似の構成要素を含むことができる。図３の例示的な実施形態において、第１の携帯デバイス１３０は、第１のプロセッサ回路３１０と、送受信器回路３２０と、加速度計３３０と、オーディオ再生回路３４０とを含む。例示的な実施形態は、マイクロフォン３５０と、位置センサ３６０と、信号特徴生成器３７０と、クラスアーカイブ３８０とを含む。第１の携帯デバイス１３０の様々な構成要素は、（例えば、バス、共有メモリ、又はスイッチを介して）互いに通信するように構成することができる。

[0048]送受信器回路３２０は、例えば、有線又は無線通信プロトコルを使用した第１の携帯デバイス１３０とネットワーク１９０との間の通信を可能にするように構成することができる。例示的な実施形態において、送受信器回路３２０は、ネットワーク１９０とのＷｉＦｉ又はセルラネットワーク通信向けに構成される。例示的な実施形態において、送受信器回路３２０は、テレビ信号、ラジオ信号、又は、デジタル若しくはアナログメディア信号情報を含む他の信号のような放送信号を受信するように構成されている。

[0049]例示的な実施形態において、オーディオ再生回路３４０、マイクロフォン３５０、位置センサ３６０、信号特徴生成器３７０、及びクラスアーカイブ３８０は、携帯ハードウェアデバイス又は一つ若しくは複数の他のデバイス上で実行又はインスタンス化されるように構成されているソフトウェアアプリケーションを含むことができるなど、アプリ３９０の全部又は一部分を形成することができる。一例において、アプリ３９０は、第１の携帯デバイス１３０に記憶（例えば、インストール）され、第１のプロセッサ回路３１０のような一つ又は複数のプロセッサ回路によって、第１の携帯デバイス１３０によって実行可能である。例示的な実施形態において、アプリ３９０は、少なくとも部分的にクラウド１１８に記憶され、アプリ３９０は、第１の携帯デバイス１３０の構成要素のうちの一つ又は複数とインターフェースする。例示的な実施形態において、第１の携帯デバイス１３０内の一つ又は複数のプロセッサ回路は、アプリ３９０、送受信器回路３２０、加速度計３３０、又はそれらの任意の適切な組み合わせの中に（例えば、一時的に又は永続的に）含まれ得る。例示的な実施形態において、第１の携帯デバイス１３０は、第１の携帯デバイス１３０に存在するメディア（例えば、第１の携帯デバイス１３０によって再生されるメディア）、又は、第１の携帯デバイス１３０付近のメディア（例えば、第１の携帯デバイス１３０によって受信又は検知されることが可能なメディア）を分類するために、アプリ３９０を介してネットワークに基づくメディア分類器１０５と対話するように構成されている。

[0050]図３の例示的な実施形態において、第１の携帯デバイス１３０は、メディア情報をサンプリング又は受信するように構成されている様々な入力を含む。例えば、オーディオ信号情報は、オーディオ再生回路３４０からサンプリングすることができ、又は、オーディオ信号情報は、マイクロフォン３５０を使用して受信することができる。例示的な実施形態において、第１の携帯デバイス１３０は、対応する一つ又は複数のコンテキストパラメータを特定又は提供するために使用することができる一つ又は複数のセンサ又は入力をさらに含む。例えば、位置センサ３６０は、ＧＰＳセンサ、ＷｉＦｉ送受信器、又は、第１の携帯デバイス１３０のロケーションに関する情報を決定又は提供するように構成することができる他のセンサを含むことができる。例示的な実施形態において、第１の携帯デバイス１３０は、プログラミング又はユーザ入力によって、一つ又は複数のコンテキストパラメータと関連付けられる。

[0051]信号特徴生成器３７０は、第１の携帯デバイス１３０、ネットワークに基づくメディア分類器１０５、又は、第１の携帯デバイス１３０若しくはネットワークに基づくメディア分類器１０５と通信可能に結合されている何らかの他のロケーション若しくはデバイスに含むことができる。信号特徴生成器３７０は、第１の携帯デバイス１３０によって提供されるメディア信号から、スペクトル特徴、時間的特徴、又は他の特徴のような、様々なメディアデータの特徴を特定又は抽出するように構成することができる。例えば、信号特徴生成器３７０は、オーディオ再生回路３４０又はマイクロフォン３５０からオーディオサンプルを受信し、その後、デジタル信号処理（ＤＳＰ）方法を使用して、オーディオサンプルから様々な特徴を抽出することができる。例示的な実施形態において、他の特徴の中でも、メル周波数ケプストラム係数（ＭＦＣＣ）、スペクトル平坦性、平均値、ゼロ交差、スペクトル重心、コードクラス、又は衝撃性を、メディアサンプルに基づいて信号特徴生成器３７０によって決定又は提供することができる。信号特徴生成器３７０を使用して抽出又は特定される様々な特徴は、特定又は分類されるべき信号に一意に対応する指紋であると考えることができる。

[0052]クラスアーカイブ３８０は、分類、分類モデル、又は、クエリメディアを分類するためにアプリ３９０によって（例えば、ネットワークに基づくメディア分類器１０５の他の構成要素と協調して）適用することができる他の情報の一つ又は複数の指示を含むことができる。分類、分類モデル、又は他の情報は、第１のユーザ１３２及び／又は第１の携帯デバイス１３０と関連付けることができ、メディアサンプルを特定又は分類するために畳み込みニューラルネットワークにおける探索を狭めるために適用することができる。例示的な実施形態において、クラスアーカイブ３８０は、データベース１１５から、第１のユーザ１３２及び／又は第１の携帯デバイス１３０と関連付けられる一つ又は複数の分類モデルを取り出すためにネットワークに基づくメディア分類器１０５によって適用されるユーザ識別コードを含む。例示的な実施形態において、クラスアーカイブ３８０は、第１の携帯デバイス１３０によって提供されるメディアを分類するために、アプリ３９０及び／又はネットワークに基づくメディア分類器１０５によって適用することができる様々な分類モデルを含む。

[0053]図４は、クエリ音声波形及びコンテキストセンサ信号を含む例を全般的に示す。クエリ音声波形は、特定又は分類されるものとして示されているメディアデータ２０１の全部又は一部分を含むことができる。例示的な実施形態において、クエリ音声波形４１０は、第１の携帯デバイス１３０のオーディオ再生回路３４０又はマイクロフォン３５０を使用して受信することができる。

[0054]図４は、第１の携帯デバイス１３０から受信することができる、又は、第１の携帯デバイス１３０及び／又はユーザに関する情報を使用して決定することができるような、コンテキストセンサ信号４２０を含む。例えば、コンテキストセンサ信号４２０は、第１の携帯デバイス１３０のロケーションを示す、位置センサ３６０からの情報を含むことができる。例示的な実施形態において、オーディオサンプル４１２は、クエリ音声波形４１０のセグメントを含むことができる。オーディオサンプル４１２は、例えば、方法２００による分類のためのメディアデータ２０１として使用することができる。

[0055]コンテキストセンサ信号４２０は、クエリ音声波形４１０に対応するコンテキスト情報を表すことができる。例えば、コンテキストセンサ信号４２０は、クエリ音声波形４１０と同時に受信することができる。図４の例示的な実施形態において、コンテキストセンサ信号４２０は、第１の携帯デバイス１３０の加速度計３３０を使用して決定することができるような、位置情報を含む。コンテキストセンサ信号４２０は、例えば、第１の携帯デバイス１３０が静止している（信号ロー）か又は動いている（信号ハイ）かの２進法指示を含む。コンテキスト情報は、様々な間隔をおいてコンテキストセンサ信号４２０からサンプリングすることができ、又は、コンテキスト情報は、コンテキストセンサ信号４２０の変化が特定されるときにサンプリングすることができる。例えば、第１のコンテキストデータ４２１は、コンテキストセンサ信号４２０の第１の状態変化に対応することができる。第２のコンテキストデータ４２２及び第３のコンテキストデータ４２３は、例えば、何らかの閾値コンテキストイベントが特定された後の、コンテキストセンサ信号４２０の周期的サンプルに対応することができる。本明細書においてさらに論じられているように、他のコンテキスト情報が、付加的に又は代替的に使用されてもよい。

[0056]図５は、メディアプロセッサ回路１１０のようなメディアプロセッサ回路のブロック図を全般的に示す。メディアプロセッサ回路１１０は、第１の携帯デバイス１３０の構成要素（例えば、図３参照）と協働するか、又は、当該構成要素から独立して動作することができる様々な構成要素を含むことができる。図５の例示的な実施形態において、メディアプロセッサ回路１１０は、クエリ受信器５１０と、分類モデル選択器５２０と、メディアタイプ確率指数生成器５３０とを含む。例示的な実施形態において、メディアプロセッサ回路１１０は、信号特徴生成器５７０をさらに含む。

[0057]例示的な実施形態において、クエリ受信器５１０、分類モデル選択器５２０、及びメディアタイプ確率指数生成器５３０は、ネットワークに基づくメディア分類器１０５に記憶（例えば、インストール）され、メディア分類サービスを実施するためにメディアプロセッサ回路１１０によって又は一つ若しくは複数の他のプロセッサ回路によって実行可能である。例示的な実施形態において、アプリ５９０は、少なくとも部分的にクラウド１１８に記憶され、アプリ５９０は、第１の携帯デバイス１３０及び第２の携帯デバイス１５０の構成要素のうちの一つ又は複数とインターフェースする。

[0058]クエリ受信器５１０は、分類のために示される、メディアデータ２０１のようなクエリデータを受信するように構成することができる。例示的な実施形態において、クエリ受信器５１０は、第１の携帯デバイス１３０及び第２の携帯デバイス１５０のうちの一方からメディアデータ２０１を受信する。クエリ受信器５１０は、任意選択的に、メディアデータ２０１が、メディアプロセッサ回路１１０によって処理することができるクエリ形式又はクエリ信号内容品質を含むことを検証することなどによって、メディアプロセッサ回路１１０の他の構成要素に対するゲートとして作用する。例示的な実施形態において、クエリ受信器５１０は、メディアデータ２０１と関連付けられる一つ又は複数のコンテキストパラメータを受信するように構成されている。

[0059]メディアプロセッサ回路１１０は、信号特徴生成器５７０を含むことができる。信号特徴生成器５７０は、第１の携帯デバイス１３０の信号特徴生成器３７０から独立することができ、又は、信号特徴生成器３７０と協働するように構成することができる。信号特徴生成器５７０は、オーディオ信号サンプル又はビデオ信号サンプル（例えば、クエリメディアサンプル）に対応するスペクトログラム又は他のスペクトル内容情報を生成するように構成されているコード又は処理モジュールを含むことができる。信号特徴生成器５７０は、クエリ受信器５１０によって受信されるメディアデータ２０１から様々な特徴を特定又は抽出するように構成することができる。例えば、信号特徴生成器５７０は、クエリ受信器５１０からオーディオ信号サンプルを受信し、その後、デジタル信号処理（ＤＳＰ）方法を使用して、オーディオサンプルから様々な特徴を抽出することができる。他の特徴の中でも、メル周波数ケプストラム係数（ＭＦＣＣ）、スペクトル平坦性、平均値、ゼロ交差、スペクトル重心、コードクラス、又は衝撃性を、信号特徴生成器３７０によって決定することができる。

[0060]分類モデル選択器５２０は、メディアサンプルの分類に使用するための分類モデルを選択するために少なくとも一つのコンテキストパラメータ（例えば、クエリ受信器５１０を使用して受信されるコンテキストパラメータ）に関する情報を使用するように構成されているソフトウェアコード又は処理モジュール若しくは回路を含むことができる。少なくとも一つのコンテキストパラメータは、任意選択的に、例えば、クエリメディアが音楽、発話、又は音楽と発話との組み合わせを含むか否かを決定するために特定されるべきクエリメディアを分析することなどによって、分類モデル選択器５２０又は別のモジュールによって導出することができる。

[0061]例示的な実施形態において、分類モデル選択器５２０は、データベース１１５から一つ又は複数の分類モデルを取り出すために、データベース１１５と通信する。データベース１１５の一例が、図６において下記に論じられる。分類モデル選択器５２０及び／又はデータベース１１５は、例えば、特定されるべきクエリと関連付けられるコンテキストパラメータ（複数可）及び／又はスペクトル特徴（例えば、信号特徴生成器３７０又は５７０によって特定される）に基づいて、使用するための様々な分類モデルに関する推奨を提供することができる。

[0062]メディアタイプ確率指数生成器５３０は、クエリが指定のメディアタイプに対応する確率指数又は尤度を生成するために、信号特徴生成器３７０及び／又は５７０からのスペクトル特徴情報を分類器ネットワークに適用するように構成されている。例示的な実施形態において、メディアタイプは、メディアカテゴリ（例えば、話し言葉、音楽、クラシック音楽、ニュース放送など）を含むことができ、又は、メディアタイプは、曲、ＴＶ番組（例えば、特定の放映分の指示を含む）、若しくは演奏者のような、指定のソース又は指定の作品の指示を含むことができる。すなわち、例示的な実施形態において、メディアタイプ確率指数生成器５３０は、クエリが指定のアーティストによる指定の曲の指定の記録に対応する尤度の指示を提供することができる。別の例示的な実施形態において、メディアタイプ確率指数生成器５３０は、クエリが指定のアーティストに対応する尤度の指示を提供することができる。

[0063]図６は、分類モデルを記憶するためのデータベースのブロック図を全般的に示す。図６のブロック図は、データベース１１５に対応することができる。データベース１１５は、中でも、メディアを分類するための様々な分類モデル及びニューラルネットワークデータ６２１を提供するために、メディアプロセッサ回路１１０及び／又はネットワーク１９０と通信可能に結合することができる。ニューラルネットワークデータ６２１は、畳み込みニューラルネットワーク、又は、モデルに基づく分類サービスを提供することができる何らかの他の類似のツールに使用するための様々な構造的情報、フィルタ情報、又は重み付け情報を含むことができる。

[0064]例示的な実施形態において、図６のデータベース１１５は、複数の分類モデル６０１、６０２、及び６０３を含む分類器６１０を含む。第１の分類モデル６０１は、複数のパラメータ（ＰＡＲＡＭ［１］、ＰＡＲＡＭ［２］、．．．、ＰＡＲＡＭ［ｎ］）の関数である。すなわち、限定ではないがコンテキストパラメータを含むようなパラメータのセットを所与として、分類器６１０は、メディアプロセッサ回路１１０によって使用するための対応する分類モデルを返すことができる。パラメータは、コンテキストパラメータ、スペクトル特徴、又は、クエリ、デバイス、ユーザ、若しくは他の入力のうちの一つ若しくは複数と関連付けられる他の情報に対応することができる。第２の分類モデル６０２は、同じ又は異なる複数のパラメータの関数であってもよい。分類器６１０は、パラメータの異なる組み合わせに対応するｎ個の分類モデルを含むことができる。例示的な実施形態において、パラメータの指定の組み合わせが、複数の異なる分類モデルを返すことができる。例示的な実施形態において、パラメータの指定の組み合わせが、複数の異なる分類モデルが選択されており、連続して適用され得ることを示すことができる。

[0065]例示的な実施形態において、データベース１１５には、メディアプロセッサ回路１１０によって、少なくとも一つのパラメータが変化するときはいつでも問い合わせることができる。例えば、第１の携帯デバイス１３０から受信されるコンテキストパラメータの変化に応答して、メディアプロセッサ回路１１０は、更新済み分類モデルが変化したコンテキストパラメータによって示されているか否かを決定するために、データベース１１５に問い合わせることができる。更新済み分類モデルが示されない場合、メディアプロセッサ回路１１０は、以前に受信されたモデルを使用して、当該メディアプロセッサ回路のメディア分類サービスを実施することができる。更新済み分類モデルが示される場合、分類器６１０は、現在の又は後続の分類動作に使用するために、新たな分類モデルに関する情報をメディアプロセッサ回路１１０に送信することができる。

[0066]図７は、メディアコンテンツを特定するために分類ネットワークの使用の実施例を全般的に示す。図７は、メディアを分類するための、特定のメディアタイプ向けに調整された畳み込みニューラルネットワークのような、分類ネットワークの使用の実施例７００を含む。例示的な実施形態において、第１のユーザ１３２及び第１の携帯デバイス１３０は、第１のロケーション７０１（例えば、音楽会場）と第２のロケーション７０２（例えば、音楽会場の外部の通り）との間で移動しているものとして示されている。図７の例示的な実施形態において、第１の携帯デバイス１３０は、第１のオーディオデータ７１１をサンプリングするように構成することができる。例示的な実施形態において、第１のオーディオデータ７１１は、第１のロケーション７０１において演奏されている生音楽を表す。

[0067]第１の携帯デバイス１３０は、第１のコンテキストデータ７１２を特定するようにさらに構成することができる。例示的な実施形態において、第１のコンテキストデータ７１２は、第１のロケーション７０１を特定するＧＰＳ位置情報、第１のユーザ１３２に関するユーザ情報（例えば、カレンダー入力情報、所有音楽ライブラリ情報、プレイリスト又は鑑賞履歴など）、又は、第１のロケーション７０１及び第１のユーザ１３２のうちの一つ若しくは複数を特定するために使用することができる他の情報のうちの一つ又は複数を含む。

[0068]例示的な実施形態において、第１のロケーション７０１においてオーディオ内容を特定するために、第１の携帯デバイス１３０によってメディア識別クエリを生成することができる。メディア識別クエリは、指定のスケジュール若しくは第１のロケーション７０１の周囲の音声内容の検出される変化などに基づいて、第１の携帯デバイス１３０によって自動的に生成することができ、又は、クエリは、第１の携帯デバイス１３０におけるユーザ入力（例えば、第１のユーザ１３２から受信される）に応答して生成することができる。

[0069]第１の携帯デバイス１３０は、アプリ３９０等を使用して、第１のオーディオデータ７１１をネットワークに基づくメディア分類器１０５に提供するように構成することができる。例示的な実施形態において、第１の携帯デバイス１３０は付加的に、第１のコンテキストデータ７１２をネットワークに基づくメディア分類器１０５に提供する。ネットワークに基づくメディア分類器１０５において、データベース１１５から第１の分類モデル７１５を取り出し、その後、第１のオーディオデータ７１１に対応するメディアタイプ確率指数を提供するために、メディアプロセッサ回路１１０を使用して適用することができる。第１のコンテキストデータ７１２は、ｎ個の利用可能な分類モデルのうちのいずれの一つ又は複数が第１のオーディオデータ７１１とともに使用するために選択されるかに影響を与えることができる。例示的な実施形態において、メディアプロセッサ回路１１０は、第１のオーディオデータ７１１内で、第１のロケーション７０１において再生されている曲に対応するなどの、メディア内容７１８の第１の指示を特定するために、畳み込みニューラルネットワーク内で第１の分類モデル７１５を適用する。例示的な実施形態において、第１の分類モデル７１５を適用することは、第１のオーディオデータ７１１を処理及び識別するためにメディアプロセッサ回路１１０を使用するなど、畳み込みニューラルネットワークにおいて様々な重み又は他のパラメータを適用することを含む。

[0070]図７の例示的な実施形態において、第１のユーザ１３２は、第１のロケーション７０１から第２のロケーション７０２へと遷移又は移転する。第１のコンテキストデータ７１２から第２のコンテキストデータ７２２への変化によって示されるような、ロケーションの検出される変化に応答して、第１の携帯デバイス１３０は、新たな環境を表す、すなわち、第２のロケーション７０２を表す第２のオーディオデータ７２１をサンプリングすることができる。オーディオデータのサンプリング及び再サンプリングは、様々な方法でトリガすることができる。例示的な実施形態において、サンプリングは、第１のユーザ１３２のロケーション又はコンテキストの検出される変化に応答して自動的に実施することができる。例示的な実施形態において、サンプリングは、第１の携帯デバイス１３０におけるユーザ入力に応答して実施することができる。例示的な実施形態において、サンプリングは、周期的に又は何らかの指定の間隔をおいて実施することができる。サンプリングは、第１のユーザ１３２及び／又は第１の携帯デバイス１３０と関連付けられる他の検出される変化に応答してトリガすることができる。

[0071]第２のオーディオデータ７２１は、第２のコンテキストデータ７２２などとともに、ネットワークに基づくメディア分類器１０５に提供することができる。ネットワークに基づくメディア分類器１０５は、任意選択的に、畳み込みニューラルネットワークを使用して、第２のオーディオデータ７２１のメディアタイプの指示を生成するために適用するために、第２の分類モデル７２５のような異なる分類モデルを特定することができる。例示的な実施形態において、メディアプロセッサ回路１１０は、第２のオーディオデータ７２１内で、第２のロケーション７０２において再生されている異なる第２の曲に対応するなどの、メディア内容７２８の第２の指示を特定するために、分類ネットワーク７３０内で第２の分類モデル７２５を適用する。図７の例示的な実施形態において、異なる第２の曲が、近傍の飲食店の屋外スピーカシステムによって再生され得る。

[0072]図８〜図１１は、中でも、メディアタイプ確率の決定、分類ネットワーク（例えば、様々なメディアを特定するように訓練されている畳み込みニューラルネットワーク）において使用するための異なる分類モデルの選択、及び、コンテキストパラメータの使用の実施例を全般的に示す。図１２及び図１３は、ニューラルネットワークの訓練、特定されるべきメディアクエリの一つ又は複数の特性に基づいた、畳み込みニューラルネットワークを使用するなど、メディア分類サービスを提供するために計算資源をいつ消費すべきか又は消費すべきか否かの決定の実施例を全般的に示す。本方法の各々は、本明細書において記載されているシステム、方法、又はデバイスを使用して実行することができるコードを使用して実施することができる。

[0073]図８は、オーディオタイプ確率指数を決定することを含む例示的な実施形態を全般的に示す。例示的な実施形態は、複数の異なるステップ又は動作を含む第１のプロセス８００を含むことができる。動作８１０において、例示的な実施形態は、特定されるべきクエリ音声を表すオーディオデータ又はオーディオ信号にアクセスすることを含む。オーディオデータにアクセスすることは、中でも、他のデバイスの中でも携帯電話、テレビ、又はタブレットコンピュータなどを含む、様々な可搬又は固定電子デバイスを使用してオーディオサンプルを受信又は特定することを含むことができる。例示的な実施形態において、オーディオデータにアクセスすることは、オーディオ再生回路３４０を監視すること、又は、第１の携帯デバイス１３０のマイクロフォン３５０を使用して周囲のオーディオ情報をサンプリングすることを含む。

[0074]動作８２０において、例示的な実施形態は、第１のコンテキストパラメータにアクセスすることを含む。第１のコンテキストパラメータは、８１０からのクエリ音声に対応することができ、及び／又は、コンテキストパラメータは、デバイス、ユーザに対応することができ、若しくは、他の様態で動作８１０においてアクセスされるクエリ音声と関連付けることができる。クエリ音声に対応するコンテキストパラメータは、クエリ音声と実質的に同時に、又は直前若しくは直後に受信される、時間的に変化するコンテキスト信号情報を含むことができる。このように、コンテキストパラメータは、クエリ音声がアクセスされるロケーション又は時点において又はその付近で何が発生している又は発生している可能性があるかに関する情報を提供することができる。例示的な実施形態において、クエリ音声に対応するコンテキストパラメータは、中でも、ユーザ識別又はデバイスタイプに関する情報を含むことができるなど、実質的に時間的に不変とすることができる。

[0075]例示的な実施形態において、動作８２０において第１のコンテキストパラメータにアクセスすることは、第１の携帯デバイス１３０の位置センサから３６０からロケーション情報を受信することを含む。例えば、第１のコンテキストパラメータは、位置センサ３６０を使用して決定されるロケーション情報（例えば、ＧＰＳ又は他の座標）を含むことができる。ロケーション情報は、ロケーションが決定されたときに記録又はサンプリングされた特定のクエリ音声と関連付けることができる。

[0076]動作８３０において、例示的な実施形態は、オーディオデータの、例えば、動作８１０においてアクセスされるオーディオデータのスペクトル特徴を決定することを含む。スペクトル特徴を決定することは、中でも、メル周波数ケプストラム係数（ＭＦＣＣ）、スペクトル平坦性、平均値、ゼロ交差、スペクトル重心、又は抽出可能な特徴を特定するためにデジタル信号処理（ＤＳＰ）方法を使用することを含むことができる。様々なデジタル信号処理特徴抽出方法及び規格（例えば、ＭＰＥＧ−７）を使用することができる。動作８３０においてスペクトル特徴を決定することは、第１の携帯デバイス１３０の第１のプロセッサ回路３１０、ネットワークに基づくメディア分類器１０５のメディアプロセッサ回路１１０、又は、分類されるべきデジタルオーディオサンプルを受信及び分析するための何らかの他のプロセッサ若しくは回路のうちの一つ又は複数を使用することを含むことができる。

[0077]動作８３５において、例示的な実施形態は、クエリ音声特性に基づいて又はコンテキストパラメータ特性に基づいてクエリ音声が積極的に分類され得る尤度を決定することを含むことができる。クエリ音声及び／又はコンテキストパラメータは任意選択的に、クエリが分類され得る尤度の指示を提供するために使用することができるか、又は、指定の閾値特性若しくは閾値特徴と比較することができる特性又は特徴を特定するために（例えば、第１の携帯デバイス１３０の第１のプロセッサ回路３１０、ネットワークに基づくメディア分類器１０５のメディアプロセッサ回路１１０、又は、分類されるべきデジタルオーディオサンプルを受信及び分析するための何らかの他のプロセッサ若しくは回路のうちの一つ又は複数を使用して）分析することができる。例示的な実施形態において、動作８３５は、クエリ音声が積極的に分類され得る尤度を決定するために、動作８３０において決定されるスペクトル特徴（複数可）を使用することを含むことができる。

[0078]動作８３５は動作８２０及び８３０に後続するものとして示されているが、動作８３５における決定は、実質的にクエリ音声の取得の直後に（例えば、動作８１０に後続して）実施されてもよく、又は、コンテキストパラメータについて、実質的にコンテキストパラメータの取得の直後に（例えば、動作８２０に後続して）実施されてもよい。動作８３５の結果に基づいて、プロセス８００は、動作８４０において継続することができる。例えば、動作８３５において決定される尤度が、クエリ音声が識別され得ることの指定の閾値尤度を上回る場合、プロセス８００は、動作８４０において、クエリ音声の分類に使用するための分類モデルを選択することによって継続することができる。動作８３５において決定される尤度が指定の閾値尤度を下回る場合、プロセス８００は終了することができ、又は、メディア分類プロセスに使用するためのより良好な品質の信号を取得する試みなどのために、クエリ音声及び／又はコンテキストパラメータのうちの一つ又は複数を再サンプリングすることができる。メディアクエリの特性などに基づいて、分類を進めるか否かを決定することを含む例示的な実施形態が、本明細書において、図１３の論述に含まれている。

[0079]動作８４０において、例示的な実施形態は、例えば、オーディオデータを特定又は分類するために使用されるために、オーディオデータとともに使用するための分類モデルを選択することを含む。例示的な実施形態において、動作８４０において分類モデルを選択することは、少なくとも一つのコンテキストパラメータを使用することを含む。少なくとも一つのコンテキストパラメータは、分類モデル（例えば、図６の例示的な実施形態における分類モデル６０１〜６０３を参照されたい）を選択又は特定するために使用される複数のパラメータのうちの一つであってもよい。例示的な実施形態において、メディアプロセッサ回路１１０は、ネットワークに基づくメディア分類器１０５内のデータベース１１５から分類モデルを取り出すように構成されている。取り出される分類モデルは、オーディオデータに基づいてクエリ音声を特定又は分類するために（例えば、取り出されるモデルによって）調整することができるニューラルネットワークとともに使用するためのパラメータを含むことができる。

[0080]動作８５０において、例示的な実施形態は、第１の分類モデルを使用してクエリ音声のオーディオタイプ確率指数を決定することを含む。例示的な実施形態において、オーディオタイプ確率指数を決定することは、オーディオタイプ、又は、オーディオデータが指定のオーディオタイプ若しくはオーディオ内容に対応する可能性があることを示す確率指数を特定するために、ニューラルネットワーク内の一つ又は複数のノードにおいて様々なスペクトル特徴（例えば、動作８３０において決定される）の比較分析を実施することを含む。例示的な実施形態において、オーディオタイプ確率指数を決定することは、オーディオデータ、第１の分類モデル、及び訓練されている分類器ネットワークを使用することを含む。例示的な実施形態において、オーディオタイプ確率指数を決定することは、題名、アーティスト、ソースによってクエリ音声を分類若しくは特定すること、又は、他の様態で、クエリ音声と特定の特性との間の相関を積極的に特定することを含む。

[0081]動作８６０において、例示的な実施形態は、動作８５０において決定されるようなオーディオタイプ確率指数が、クエリ音声の分類に成功した又は失敗したことを示すか否か、すなわち、クエリが適切に特定されたか、誤って特定されたか、又は特定されなかったかに関する情報を記憶することを含むことができる。動作８６０は、任意選択的に、通常のシステム使用の間に、又は、訓練プロセスの間に実施されてもよい。訓練プロセスの一例が、図１２において下記に論じられる。

[0082]動作８６０において、クエリ音声、コンテキストパラメータ、及び／又はオーディオタイプ確率指数の一つ又は複数の特性が指定の閾値特性を超えることを特定することなどによって（すなわち、客観的尺度を使用することによって）、分類動作が成功しているか否かを自動的に決定することができる。例示的な実施形態において、分類動作が成功しているか否かは、ユーザが分類器の結果を許容するか又は拒絶するかに関する質問に対するユーザの応答によって示すことができる。

[0083]クエリ音声は、多数の理由から分類に失敗するか、又は、誤って特定される可能性がある。例えば、不満足な品質の若しくはノイズの多いメディア信号は、分析することが困難である可能性があるか、又は、ノイズ若しくは他の信号異常による遮蔽などに起因して、基礎となるメディア信号内容に正確に対応しないスペクトル特徴若しくは信号指紋をもたらす可能性がある。ノイズは、マイクロフォンのような環境センサを使用してメディア信号が検知されるときにメディア信号に導入される可能性があるか、又は、電気的雑音若しくは電磁的雑音によって、若しくは他の手段を介して導入される可能性がある。不満足な品質の又はノイズの多いコンテキストパラメータは、同様に、ノイズが多いか、又は、誤った解釈をもたらす異常を含む場合に、分析することが困難である可能性がある。クエリ音声及び／又はコンテキストパラメータのうちの一つ又は複数が、ノイズが多いか又は不正確である場合、動作８４０において選択される分類モデルは不適切である可能性があり、結果として、決定されるオーディオタイプ確率指数は不満足なものである可能性がある。

[0084]例示的な実施形態において、動作８６０において記憶される情報は、クエリ音声の分類又は特性の成功（又は失敗）に関する相対的又は絶対的な情報を含み、任意選択的に、成功と、使用されているクエリ音声、コンテキストパラメータ、又は分類モデル（複数可）の一つ又は複数の特性との間の対応に関する情報を含む。記憶された情報は、新たなクエリ音声の分類が成功する尤度の特定に使用するなどのために、後に取り出して、新たなクエリ音声、コンテキストパラメータ、又はモデルと比較することができる。成功する尤度が低すぎる場合、計算資源又は能力を他の課業のために節約するために、分類プロセスを保留することができる。

[0085]図９は、コンテキストパラメータに基づいて分類モデルを選択することを含む例示的な実施形態９００を全般的に示す。例示的な実施形態は、分類ネットワークにおいて使用するために利用可能である複数の異なる分類モデルの間で選択することを含むことができる。

[0086]動作９１０において、例示的な実施形態は、クエリ音声に対応する第１のコンテキストパラメータ及び第２のコンテキストパラメータにアクセスすることを含む。第１のコンテキストパラメータ及び第２のコンテキストパラメータは、同じタイプ若しくは形式のものであってもよく（例えば、両方とも、ロケーション情報又は座標、タイムスタンプ情報、ユーザプロファイル情報などを含んでもよい）、又は、コンテキストパラメータは異なってもよい。第１のコンテキストパラメータ及び第２のコンテキストパラメータの一方又は両方は、特定されるべきオーディオサンプル若しくはクエリ音声を使用して決定することができ、又は、当該オーディオサンプル若しくはクエリ音声から導出することができる。コンテキストパラメータの一方又は両方は、センサ情報、ユーザ情報、又は、オーディオサンプルの特性を示すことができるか、若しくは、オーディオサンプルと関連付けられるユーザ若しくはデバイスの特性を示すことができる他の情報に基づいて決定することができる。例示的な実施形態において、メディアプロセッサ回路１１０及び／又は第１のプロセッサ回路３１０は、動作９１０において第１のコンテキストパラメータ及び第２のコンテキストパラメータにアクセスすることができる。

[0087]動作９２０において、例示的な実施形態は、第１のコンテキストパラメータ及び第２のコンテキストパラメータの各々と関連付けられる探索範囲特性を決定することを含む。例えば、第１の探索範囲は、第１のコンテキストパラメータと関連付けることができ、異なる第２の探索範囲は、第２のコンテキストパラメータと関連付けることができる。例示的な実施形態において、第１のコンテキストパラメータは、第１の携帯デバイス１３０のＧＰＳ座標を含む。ＧＰＳ座標と関連付けられる第１の探索範囲は、例えば、ＧＰＳ座標が第１のロケーション７０１に対応すると決定することができる場合、相対的に狭くすることができる。この場合、探索範囲特性は、任意選択的に、（例えば、第１のロケーション７０１と関連付けられるイベントのカレンダー、又は、第１のロケーション７０１に関する他の以前の若しくはプログラムされている情報によって決定することができるように）第１のロケーション７０１と関連付けられることが分かっているメディアコンテキストのみを含むように狭めることができる。

[0088]例示的な実施形態において、第２のコンテキストパラメータは、クエリデータを取得するために使用されたデバイスタイプの指示を含む。この例において、第２のコンテキストパラメータは、対象のオーディオデータ又はクエリ音声が第１の携帯デバイス１３０を使用して取得されたことを示す情報を含むことができる。例えば、クエリ音声のソースに関する情報を使用して、携帯デバイスによって受信される可能性が最も高いメディアを特定するために、探索範囲特性を狭めるか又は調整することができる。付加的に又は代替的に、一つ又は複数の前処理フィルタが、携帯デバイスからサンプリングされるスペクトル情報を最適化するように調整されてもよい。

[0089]動作９３０において、例示的な実施形態は、第１のコンテキストパラメータ及び第２のコンテキストパラメータのうちの一方を選択することを含む。選択されたコンテキストパラメータは、動作９４０において分類モデルを選択するために使用することができる（例えば、図８の動作８４０を参照されたい）。すなわち、動作９４０における特定の分類モデルの選択は、選択されたコンテキストパラメータに基づくことができるか、又は、当該コンテキストパラメータによって少なくとも部分的に通知することができる。

[0090]例示的な実施形態において、使用するために選択されるコンテキストパラメータは、相対的により狭い探索範囲に対応するコンテキストパラメータとすることができる。探索範囲がより狭いとき、メディア分類の実施はより焦点を絞り込むことができ、したがって、消費される処理資源がより少なくなる。したがって、上記の例示的な実施形態において、携帯デバイスによってサンプリングされ得るか、又は、サンプリングされる可能性がある任意の又はすべてのメディアに対応し得る第２のコンテキストパラメータとの比較などにおいて、ＧＰＳ座標が可能性のあるメディア分類のより小さい又はより狭いセットに対応するときの、第１のコンテキストパラメータを選択することができる。

[0091]動作９４０において分類モデルを選択することは、第１のコンテキストパラメータ及び第２のコンテキストパラメータのうちの選択される一方を使用することを含む。いくつかの例において、異なるコンテキストパラメータに異なる重みを関連付けることができ、分類モデルを選択するために複数のコンテキストパラメータを使用することができる（例えば、分類器６１０において複数の分類モデルを含み、各異なるモデルが複数の異なるパラメータの関数であり得る図６を参照されたい）。動作９４０において分類モデルを選択することは、選択された分類モデルを取り出し、メディアタイプの指示を提供するように構成されているニューラルネットワークのコンテキストに、選択された分類モデルを適用するために、メディアプロセッサ回路１１０を使用することを含むことができる。

[0092]図１０は、更新済み分類モデルを選択することを含む例示的な実施形態１０００を全般的に示す。例示的な実施形態は、更新済みコンテキストパラメータ情報を受信及び解析することを含むことができる。図１０のいくつかの部分は、概して、図７に示す例示的な実施形態に対応する。

[0093]動作１０１０において、例示的な実施形態は、分類モデル更新トリガを特定することを含むことができる。更新トリガを特定することは、中でも、クエリ音声特性が変化したことを決定すること（例えば、音程、振幅、音色、衝撃性、又は他の品質のうちの一つ又は複数が先行するクエリ音声又はサンプルと異なることを決定すること）、更新間隔が経過したことを決定すること、又は、クエリ音声と関連付けられるコンテキストパラメータが指定の閾値量よりも多く変化したことを決定することを含むことができる。再び図４における例を参照すると、更新トリガは、例えば、コンテキストセンサ信号４２０の状態の変化と関連付けることができるなど、第１のコンテキストデータ４２１に基づいて提供することができる。例示的な実施形態において、分類モデル更新トリガは、ソースデバイスによって（例えば、第１の携帯デバイス１３０又は第２の携帯デバイス１５０によって）、メディアプロセッサ回路１１０によって、ソースデバイス及び／若しくはネットワークに基づくメディア分類器１０５に対するユーザ入力によって、又は、他の手段によって特定することができる。

[0094]図１０の動作１０２０において、例示的な実施形態は、少なくとも一つの更新済みコンテキストパラメータを受信することを含む。例えば、分類モデル更新トリガの特定に応答して、メディアプロセッサ回路１１０又は他の構成要素は、分類モデル更新が要求又は所望されるか否かを評価するなどのために、更新済みコンテキストパラメータを要求することができる。動作１０２０において、例示的な実施形態は、連続的な又は断続的なクエリストリームの変化に基づいて更新済みコンテキストパラメータを受信すること、又は、デバイス状態の検出された変化（例えば、ロケーションの変化又はユーザの変化）に基づいて更新済みコンテキストパラメータを受信することを含むことができる。図７の文脈において、例えば、更新済みコンテキストパラメータを受信することは、第１のコンテキストデータ７１２及び異なる第２のコンテキストデータ７２２を受信及び認識するために、第１の携帯デバイス１３０（又は他のデバイス若しくはプロセス）を使用することを含むことができる。

[0095]２つ以上のコンテキストパラメータ更新が特定される場合、動作１０３０において、例示的な実施形態は、分類モデルの選択に使用するために、更新済みコンテキストパラメータのうちの少なくとも一つを選択することを含む。例示的な実施形態において、メディアのより狭い分類に対応するコンテキストパラメータが、ネットワークに基づくメディア分類器１０５によって実施される探索の範囲を狭めるなどのために、動作１０３０において選択される。動作１０４０において、例示的な実施形態は、更新済みコンテキストパラメータ（複数可）に基づいて分類モデルを選択することを含む。選択された分類モデルは、更新済みコンテキストパラメータ（複数可）と関連付けられるクエリメディアを分類するために、上述したように適用することができる。

[0096]図１１は、更新済み分類モデルをいつ適用すべきかを決定することを含む例示的な実施形態１１００を全般的に示す。例えば、コンテキストパラメータの更新、又は、更新済み分類モデルの取り出し若しくは適用において資源を消費すべきか否か、又は、いつ消費すべきかを決定するために、様々な考慮事項を評価することができる。

[0097]動作１１１０において、メディアプロセッサ回路１１０のようなプロセッサ回路は、以前のクエリが分類されてから指定の継続時間が経過したか否かを決定することができる。指定の継続時間は、クエリ間の最小の「再試行」又は「再分類」間隔を表すことができる。動作１１０５において、指定の継続時間が経過していない場合、システムは、指定の更新間隔にわたって一時停止することができる。更新間隔が経過すると、クエリを進めることができる。

[0098]動作１１２０において、メディアプロセッサ回路１１０、第１のプロセッサ回路３１０、又は他のプロセッサを、品質についてクエリを分析するために使用することができる。クエリが、分類ネットワークにおいて使用するにはノイズが多すぎるか、又は、静かすぎる（すなわち、クエリが十分な信号内容を有しない）と考えられるオーディオ信号情報を含む場合、方法は、１１０５に戻ることができる。指定の間隔にわたって一時停止した後、ノイズ又は振幅レベルが変化したか否かを見るなどのために、クエリを再サンプリングすることができる。いくつかの例において、いくつかのネットワーク又は分類モデルは、ノイズ耐性がより高い可能性がある。他の例において、ネットワークに強制的にノイズの多い信号を処理させるために、優先度指示又はユーザオーバーライドを提供することができる。

[0099]クエリが十分な最小限の信号品質を有すると決定される場合、動作１１３０において、例示的な実施形態は、品質自体が何らかの指定の閾値量よりも多く変化したか否かを決定することを含むことができる。クエリ自体が以前のクエリから（例えば、周波数内容、音程、衝撃性、又は他の定量的若しくは定性的尺度において）合理的に変化していない場合、システムは、以前のクエリが依然として、特定されるべき現在のクエリ内容を表すと仮定することができ、再分類を回避又は遅延することができる。例示的な実施形態は、一時停止するために１１０５に戻ることを含むことができ、指定の間隔後に、又は、トリガイベントの指示の後に、新たなクエリを生成することができる。

[0100]クエリが先行するクエリから十分に異なる場合、動作１１４０において、例示的な実施形態は、クエリと関連付けられるコンテキストパラメータが指定の閾値量よりも多く変化したか否かを決定することを含むことができる。コンテキストパラメータが変化していない場合、又は、新たなコンテキストパラメータが利用可能でない場合、例示的な実施形態は、動作１１４５において、以前の分類モデルを選択すること、又は、クエリに適用することによって、継続することができる。コンテキストパラメータが指定の閾値量よりも多く変化したと決定される場合、又は、新たなコンテキストパラメータが利用可能である場合、例示的な実施形態は、動作１１５０において、変化した又は新たなコンテキストパラメータ自体が何らかの指定の最小限の信号品質を満たすか否かを判定することによって、継続することができる。例えば、コンテキストパラメータがノイズを含むか、又は、未知のコンテキストを表す場合、（例えば、動作１１４５において）以前の分類モデルを使用することができる。一方、コンテキストパラメータが品質閾値を満たす場合、例示的な実施形態は、動作１１６０において、クエリを分類するために、新たなコンテキストパラメータに基づいて、新たな分類モデルを選択及び適用することによって、継続することができる。

[0101]図１２は、メディアクエリ識別システムを訓練することを含む例示的な実施形態１２００を全般的に示す。例示的な実施形態は、一つ又は複数の入力信号特性の変化の許容誤差を特定するプロセスを含むことができる。例えば、プロセスは、メディアクエリ信号においてどれだけ多くのノイズを許容することができるかを決定するために使用することができる。ノイズの量又は純粋な若しくは予測されるメディアクエリ及び／若しくはコンテキストパラメータからの変動が、許容誤差として参照され得る。入力信号に存在するノイズが多すぎる場合、ノイズレベルが指定の許容誤差閾値を超え、ノイズの多い入力信号に基づくメディアタイプ分類が正確になる可能性が高い。クエリを特定又は分類する試行が行われる前など、ノイズの多い信号を先行して特定することができる場合、システムは、メディア分類サービスを抑制することによって、計算資源及び／又は能力を節約することができる。メディアクエリに存在するノイズ（又は他の信号特性異常）が指定の閾値量未満である場合、システムは、成功する合理的な尤度をもって、メディア分類プロセスを実行することができる。すなわち、入力信号が有するノイズが指定のノイズ許容誤差閾値未満である場合、システムは、入力信号のメディア分類を進めることができる。

[0102]動作１２１０において、例示的な実施形態は、訓練のためにメディアクエリにアクセスすることを含む。動作１２２０において、例示的な実施形態は、訓練のためにコンテキストパラメータにアクセスすることを含む。例示的な実施形態において、アクセスされるメディアクエリ及び／又はコンテキストパラメータは、メディア分類システムの訓練を課された個人又は機械などによって、予め選択することができる。動作１２１２において、メディア訓練パラメータを導入することができる。メディア訓練パラメータを導入することは、中でも、ノイズ特性、周波数プロファイル、周波数フィルタ、又は、元々のメディアクエリの他の特性を追加又は変更することを含むことができる。すなわち、動作１２１２においてメディア訓練パラメータを導入することは、動作１２１４において更新済みメディアクエリを提供するために、元々のメディアクエリの内容又は一つ若しくは複数の特性を意図的に修正することを含むことができる。例示的な実施形態において、メディア訓練パラメータは、指定の許容誤差閾値に対応し、又は、メディア訓練パラメータは、分類システムによって一つ又は複数の新たな条件を試験又は訓練するなどのために、以前の許容誤差閾値を超えるように選択することができる。

[0103]動作１２２２において、動作１２２０においてアクセスされるコンテキストパラメータに、コンテキスト訓練パラメータを同様に導入することができる。コンテキスト訓練パラメータを導入することは、動作１２２４において更新済みコンテキストパラメータを提供するために、元々のコンテキストパラメータの内容又は一つ若しくは複数の特性を意図的に修正することを含むことができる。いくつかの例示的な実施形態において、メディア訓練パラメータ及びコンテキスト訓練パラメータのうちの少なくとも一方は使用されず、動作１２１４において提供される更新済みメディアクエリは、動作１２１０においてアクセスされる元々のメディアクエリと同じであり、又は、１２２４において提供される更新済みコンテキストパラメータは、動作１２２０においてアクセスされる元々のコンテキストパラメータと同じである。

[0104]動作１２３０において、第１の分類モデルを選択することができる。第１の分類モデルは、メディアクエリ、更新済みメディアクエリ、コンテキストパラメータ、又は更新されたコンテキストパラメータのうちの一つ又は複数に基づいて選択することができる。例示的な実施形態において、分類モデルは、システムを訓練することを課されているユーザによって選択することができ、又は、機械によって自動的に選択することができる。動作１２４０において、例示的な実施形態は、更新済みメディアクエリを分類するよう試みるために、第１の分類モデルを使用することができる。動作１２４０は、メディアクエリに対応するメディアタイプの指示（例えば、メディアソース、起源、又は他の特定する特徴の指示を含む）を提供することのうちの一つ又は複数を含むことができ、又は、動作は、メディアクエリが指定のメディアタイプに対応する尤度を提供することを含むことができる。

[0105]動作１２５０において、例示的な実施形態は、１２１０においてアクセスされた元々のメディアクエリに関する事前の情報などに基づいて、メディアクエリの特定に成功したか否かを決定することを含むことができる。メディアクエリの特定に成功した場合、例示的な実施形態は、動作１２６０において、許容誤差閾値を更新することによって継続することができる。例えば、動作１２６０において、許容誤差閾値が、他のメディアクエリに関する後の分類課業などに使用するために、動作１２１２において導入されるメディア訓練パラメータに対応するように更新することができる。例示的な実施形態において、動作１２１２において導入されるメディア訓練パラメータは、第１のノイズプロファイルを含み、動作１２５０において、第１のノイズプロファイルを有するメディアクエリの分類に成功した場合、第１のノイズプロファイルに対応する許容誤差閾値を、同じ又は他のメディアクエリに対する後の分類課業に使用するために選択することができる。

[0106]動作１２５０において、メディアクエリの特定に成功しなかった場合、例示的な実施形態は、動作１２７０において、メディア訓練パラメータ及びコンテキスト訓練パラメータのうちの一方又は両方を更新することによって継続することができる。例示的な実施形態において、動作１２７０において訓練パラメータを更新することは、以前に使用されたものとは異なる許容誤差閾値に対応する訓練パラメータを、さらなる分析のために選択することを含む。例示的な実施形態において、動作１２７０において、許容誤差閾値を、他のメディアクエリに関する後の分類課業などに使用するために、分類の成功をもたらすことがすでに分かっているメディア訓練パラメータに対応するように更新することができる。例示的な実施形態において、動作１２１２において導入されるメディア訓練パラメータは、第１のノイズプロファイルを含み、動作１２５０において、第１のノイズプロファイルを有するメディアクエリの分類に成功しなかった場合、異なる第２のノイズプロファイルに対応する許容誤差閾値を、同じ又は他のメディアクエリに対する後の分類課業に使用するために選択することができる。

[0107]図１３は、メディアクエリを分類すべきか否かを決定することを含む例示的な実施形態１３００を全般的に示す。例示的な実施形態において、メディアクエリは、前もって取得若しくはアクセスすることができるか、又は、メディアクエリは、周期的に若しくは断続的に受信することができる。動作１３１０において、実施例は、以前の分類イベントからの指定の時間のような、指定の最小継続時間又は更新間隔にわたって一時停止することを含むことができる。一実施例において、更新間隔が経過した後、又は、メディア分類を求めるユーザ要求に応答して、動作１３２０において、メディアクエリのノイズ特性を特定することができる。例示的な実施形態において、ノイズ特性は、メディアプロセッサ回路１１０を使用して、又は、ネットワークに基づくメディア分類器１０５に対する入力デバイスと関連付けることができるような、何らかの他のプロセッサ回路を使用して、特定することができる。例えば、第１の携帯デバイス１３０の第１のプロセッサ回路３１０は、第１の携帯デバイス１３０によって受信又は準備されるメディアクエリのノイズ特性を特定するために使用することができる。動作１３２０において特定されるノイズ特性に基づいて、メディア分類システムに、メディア分類プロセスを開始又は抑制させることができる。例えば、他の課業のために一つ又は複数のプロセッサ回路の処理容量を節約するために、メディア分類プロセスが進行するのを抑制又は阻害することが有利であり得る。

[0108]動作１３３０において、例示的な実施形態は、動作１３２０において特定されるノイズ特性を、指定のノイズ許容誤差閾値と比較することを含む。ノイズ許容誤差閾値は、ユーザ、プログラマによって指定することができ、又は、ノイズ許容誤差閾値は、様々なネットワーク訓練動作を利用するシステムによって学習することができる（例えば、図１２の例示的な実施形態を参照されたい）。動作１３３２において、特定されたノイズ特性が、（例えば、メディアプロセッサ回路１１０、第１のプロセッサ回路３１０、又は、ネットワーク環境１００内のデバイスと関連付けられる別のプロセッサ回路によって）指定のノイズ許容誤差閾値を超えると決定される場合、クエリは、ノイズが多すぎて分類することができないと考えることができ、実施例は、更新間隔にわたって一時停止するために動作１３１０に戻ることができる。更新間隔が経過した後、実施例は、例えば、異なるノイズ特性を有する後続のクエリをサンプリング又は取得することによって継続することができ、実施例は、後続のクエリの異なるノイズ特性が分類により適しているか否かを決定するために、後続のクエリを分析することを含むことができる。動作１３３２において、特定されたノイズ特性が指定のノイズ許容誤差閾値を超えない場合、実施例は、動作１３５０において、クエリを分類することによって継続することができる。例えば、実施形態は、図８の実施例の動作８４０において、クエリとともに使用するための分類モデルを選択することによって継続することができる。

[0109]動作１３４０において、例示的な実施形態は、動作１３２０において特定されたノイズ特性を、同じ又は類似のノイズ特性を有するクエリに対するものである以前の分類試行の結果と比較することを含む。以前の分類試行が、同じ又は類似のノイズ特性を有するクエリを特定又は分類するのに成功しなかった場合、クエリ分類を回避することができ、例示的な実施形態は、動作１３１０に戻ることができる。動作１３４２において、以前の分類試行が、同じ又は類似のノイズ特性を有するクエリを特定又は分類するのに成功した場合、図８の実施例の動作８４０のように、クエリ分類プロセスを開始又は継続することができる。

[0110]図１３の例示的な実施形態は、クエリのノイズ特性を参照するが、他の特性が同様に分析されてもよい。例えば、ノイズ特性の代わりに、周波数内容特性を特定して、クエリを分類すべきか否かを決定するために使用することができる。例示的な実施形態において、色内容特性のような視覚的特性を特定して、視覚的メディア又はビデオ情報を含むクエリを分類すべきか否かを決定するために使用することができる。同様に、他のメディア特性を分析して、メディア分類プロセスを開始又は抑制するためのゲートとして使用することができる。

[0111]図１４は、機械可読媒体から命令を読み出し、本明細書において開示されている方法のうちのいずれか一つ又は複数を実施することができる、いくつかの例による機械の構成要素を示すブロック図である。図１４の例示的な実施形態において、機械１４００は、いくつかの例示的な実施形態に従って、機械可読媒体１４２２（例えば、非一時的機械可読媒体、機械可読記憶媒体、コンピュータ可読記憶媒体、又はそれらの任意の適切な組み合わせ）から命令１４２４を読み出し、全体的に又は部分的に、本明細書において論じられている方法のいずれか一つ又は複数を実施することが可能である。図１４は、例示的な形態のコンピュータシステム内の機械１４００（例えば、コンピュータ）を示し、当該機械の中で、本明細書において論じられている方法論のいずれか一つ又は複数を機械１４００に実施させるための命令１４２４（例えば、ソフトウェア、プログラム、アプリケーション、アプレット、アプリ、又は他の実行可能コード）を全体的に又は部分的に実行することができる。

[0112]例示的な実施形態において、機械１４００は、独立型デバイスとして動作し、又は、他の機械に通信可能に結合（例えば、ネットワーク接続）されてもよい。ネットワーク化された配備において、機械１４００は、サーバ−クライアントネットワーク環境におけるサーバ機械若しくはクライアント機械の容量内で、又は分散型（例えば、ピアツーピア）ネットワーク環境におけるピア機械として動作することができる。機械１４００は、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ（ＰＣ）、タブレットコンピュータ、ラップトップコンピュータ、ネットブック、携帯電話、スマートフォン、セットトップボックス（ＳＴＢ）、個人情報端末（ＰＤＡ）、ウェブ機器、ネットワークルータ、ネットワークスイッチ、ネットワークブリッジ、又は、その機械によって取られるべき措置を指定する命令１４２４を連続的に若しくは他の様態で実行することが可能な他の機械であってもよい。さらに、単一の機械のみが示されているが、「機械」という用語は、本明細書において論じられている方法のいずれか一つ又は複数の全部又は一部分を実施するために個々に又は共同して命令１４２４を実行する機械の任意の集合を含むものとして理解されるべきである。例示的な実施形態において、機械１４００は、ネットワークに基づくメディア分類器１０５に対する入力として使用することができるデバイスを含むか、又は、機械１４００は、ネットワーク１００の全部又は一部分を含むことができる。

[0113]図１４の例示的な実施形態において、機械１４００は、バス１４０８を介して互いに通信するように構成されている、プロセッサ回路１４０２（例えば、一つ又は複数の中央処理装置（ＣＰＵ）、一つ又は複数のＧＰＵ、一つ又は複数のデジタル信号プロセッサ（ＤＳＰ）、一つ又は複数の特定用途向け集積回路（ＡＳＩＣ）、一つ又は複数の無線周波数集積回路（ＲＦＩＣ）、又はそれらの任意の適切な組み合わせ）と、メインメモリ１４０４と、スタティックメモリ１４０６とを含む。プロセッサ回路１４０２は、プロセッサ回路１４０２が本明細書において論じられている方法論のいずれか一つ又は複数を全体的に又は部分的に実施するように構成可能であるように、命令１４２４の一部又は全部によって一時的に又は永続的に構成可能である、ソリッドステートデジタルマイクロ回路（例えば、電子、光学、又は両方）を含む。

[0114]機械１４００は、グラフィックス又はビデオを表示することが可能なグラフィックスディスプレイ１４１０を含むことができ、機械１４００は、英数字入力デバイス１４１２（例えば、キーボード又はキーパッド）、ポインタ入力デバイス１４１４、データ記憶装置１４１６、オーディオ生成デバイス１４１８（例えば、サウンドカード、増幅器、スピーカ、ヘッドフォン差し込み口、又はそれらの任意の適切な組み合わせ）、又はネットワークインターフェースデバイス１４２０を含むことができる。

[0115]例示的な実施形態において、データ記憶装置１４１６（例えば、データ記憶デバイス）は、本明細書において記載されている方法論又は機能のうちのいずれか一つ又は複数を具現化する命令１４２４が記憶される機械可読媒体１４２２（例えば、有形非一時的機械可読記憶媒体）を含む。命令１４２４はまた、機械１４００によって命令が実行される前又はされている間に、全体的に又は少なくとも部分的に、メインメモリ１４０４内、スタティックメモリ１４０６内、プロセッサ回路１４０２内（例えば、プロセッサのキャッシュメモリ内）、又はそれらの任意の適切な組み合わせに存在してもよい。したがって、メインメモリ１４０４、スタティックメモリ１４０６、及びプロセッサ回路１４０２は、機械可読媒体（例えば、有形非一時的機械可読媒体）と考えることができる。命令１４２４は、ネットワークインターフェースデバイス１４２０を介してネットワーク１９０にわたって送信又は受信することができる。例えば、ネットワークインターフェースデバイス１４２０は、任意の一つ又は複数の転送プロトコル（例えば、ハイパーテキスト転送プロトコル（ＨＴＴＰ））を使用して命令１４２４を通信することができる。

[0116]例示的な実施形態において、機械１４００は、可搬コンピューティングデバイス（例えば、スマートフォン、タブレットコンピュータ、又は装着可能デバイス）であり、本明細書において論じられているような、一つ又は複数の追加の入力構成要素１４３０（例えば、センサ又は測定機器）を有することができる。そのような入力構成要素１４３０の例は、画像入力構成要素（例えば、一つ又は複数のカメラ）、オーディオ入力構成要素（例えば、一つ又は複数のマイクロフォン）、方向入力構成要素（例えば、方位磁石）、ロケーション入力構成要素（例えば、全地球測位システム（ＧＰＳ）受信器）、方向構成要素（例えば、ジャイロスコープ）、運動検出構成要素（例えば一つ又は複数の加速度計）、高度検出構成要素（例えば、高度計）、バイオメトリック入力構成要素（例えば、心拍検出器又は血圧検出器）、及び気体検出構成要素（例えば、気体センサ）を含む。上記の入力構成要素のいずれか一つ又は複数によって収集される入力データは、本明細書において記載されている構成要素のいずれかによって使用するためにアクセス可能及び利用可能であり得る。

[0117]本明細書において使用される場合、「メモリ」という用語は、データを一時的又は永続的に記憶することが可能な機械可読媒体を指し、限定ではないが、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、バッファメモリ、フラッシュメモリ、及びキャッシュメモリを含むものとして解釈することができる。機械可読媒体１４２２は、例示的な実施形態において、単一の媒体であるように示されているが、「機械可読媒体」という用語は、命令を記憶することが可能な、単一の媒体又は複数の媒体（例えば、集中型若しくは分散型データベース、又は、関連付けられるキャッシュ及びサーバ）を含むように解釈されるべきである。「機械可読媒体」という用語はまた、命令１４２４が、機械１４００の一つ又は複数のプロセッサ（例えば、プロセッサ回路１４０２）によって実行されると、機械１４００に、本明細書において記載されている方法論のうちのいずれか一つ又は複数を全体的に又は部分的に実施させるように、機械１４００によって実行するための命令１４２４を記憶することが可能である任意の媒体、又は、複数の媒体の組み合わせを含むようにも解釈されるべきである。したがって、「機械可読媒体」は、単一の記憶装置又はデバイス、及び、複数の記憶装置又はデバイスを含むクラウドに基づく記憶システム又は記憶ネットワークを指す。したがって、「機械可読媒体」と言う用語は、限定ではないが、例示的な実施形態においてはソリッドステートメモリチップ、光ディスク、磁気ディスク、又はそれらの任意の適切な組み合わせの形態の一つ又は複数の有形非一時的データリポジトリを含むように解釈されるべきである。「非一時的」機械可読媒体は、本明細書において使用されるものとしては、特に、例として伝播信号は含まない。いくつかの例示的な実施形態において、機械１４００によって実行するための命令１４２４は、キャリア媒体によって通信することができる。そのようなキャリア媒体の例は、記憶媒体（例えば、一つの場所から別の場所へ物理的に動かされる、ソリッドステートメモリのような、非一時的機械可読記憶媒体）及び過渡媒体（例えば、命令１４２４を通信する伝播信号）を含む。

[0118]いくつかの実施例は、本明細書においてはモジュールを含むものとして記載されている。モジュールは、ソフトウェアモジュール（例えば、機械可読媒体又は伝送媒体に記憶又は他の様態で具現化されるコード）、ハードウェアモジュール、又はそれらの任意の適切な組み合わせを構成することができる。「ハードウェアモジュール」は、特定の動作を実施することが可能な有形（例えば、非一時的）物理構成要素（例えば、一つ又は複数のプロセッサから成るセット）であり、特定の物理的様式に構成又は配置することができる。様々な例示的な実施形態において、一つ若しくは複数のコンピュータシステム又は当該コンピュータシステムの一つ若しくは複数のハードウェアモジュールは、ソフトウェア（例えば、アプリケーション又はその一部分）によってそのモジュールについて本明細書において記載されている動作を実施するように動作するハードウェアモジュールとして構成することができる。

[0119]本明細書において論じられているプロセッサ回路のうちの一つ又は複数は、「クラウドコンピューティング」環境において、又は、サービスとして（例えば、「サービス型ソフトウェア」（ＳａａＳ）実施態様内で）動作を実施することができる。例えば、本明細書において論じられている方法のうちのいずれか一つ又は複数内の少なくともいくつかの動作は、コンピュータの（例えば、例としてプロセッサを含む機械の）グループによって実施することができ、これらの動作は、ネットワーク（例えば、インターネット）及び一つ又は複数の適切なインターフェース（例えば、アプリケーションプログラムインターフェース（ＡＰＩ））を介してアクセス可能である。特定の動作の実施は、単一の機械内にのみ存在するか、又は、例えば図１のネットワーク１００内の複数の機械にわたって配備されるかにかかわらず、一つ又は複数のプロセッサの間で分散させることができる。いくつかの例示的な実施形態において、一つ又は複数のプロセッサ又はハードウェアモジュール（例えば、プロセッサによって実施されるモジュール）は、単一の地理的ロケーション（例えば、家庭環境、オフィス環境、又はサーバファーム内）に位置することができる。他の例示的な実施形態において、一つ又は複数のプロセッサ又はハードウェアモジュールは、複数の地理的ロケーションにわたって分散させることができる。

[0120]いくつかの追加の実施例を以下に述べる。実施例１は、メディアを分類するための方法を含むか又は使用することができるなど、主題（装置、方法、動作を実施するための手段、又は、機械によって実施されると、動作を実施するように機械を構成することができる命令を含む機械可読メモリなど）を含むか又は使用することができ、
方法は、
一つ又は複数のプロセッサ回路を使用して、特定されるべきメディアクエリを表すデジタルメディアデータにアクセスするステップであって、デジタルメディアデータが、第１の遠隔デバイスによって与えられる、アクセスするステップと、
一つ又は複数のプロセッサ回路を使用して、特定されるべきメディアクエリに対応する第１のコンテキストパラメータにアクセスするステップであって、第１のコンテキストパラメータが、同じ第１の遠隔デバイスによって与えられる、アクセスするステップと、
一つ又は複数のプロセッサ回路を使用して、デジタルメディアデータに対応するスペクトル特徴を決定するステップと、
一つ又は複数のプロセッサ回路を使用して、データベースに記憶された第１の分類モデルを選択するステップであって、第１の分類モデルが、データベースに記憶された複数の異なる分類モデルのうちの一つであり、選択が、第１のコンテキストパラメータに基づく、選択するステップと
を含む。
実施例１は、一つ又は複数のプロセッサ回路を使用して、デジタルメディアデータに対応する決定されたスペクトル特徴及び第１の分類モデルを使用してメディアクエリのメディアタイプ確率指数を決定するステップであって、決定されたメディアタイプ確率指数は、メディアクエリが複数の異なるメディア特性のうちの少なくとも一つのメディア特性に対応する尤度を示す、決定するステップを含むことができる。
実施例１は、第１の遠隔デバイスにおいて、メディアタイプ確率指数及び少なくとも一つのメディア特性のうちの一方又は両方を受信するステップをさらに含むことができる。

[0121]実施例２は、
一つ又は複数のプロセッサ回路を使用して、デジタルメディアデータの変化又は第１のコンテキストパラメータの変化を特定し、応答して、複数の異なる分類モデルの間から異なる第２の分類モデルを選択するステップと、
一つ又は複数のプロセッサ回路を使用して、異なる第２の分類モデルを使用して更新済みメディアタイプ確率指数を決定するステップと
をさらに含むために、実施例１の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0122]実施例３は、
複数の異なる分類モデルの間から第１の分類モデルを選択するステップが、
決定されたスペクトル特徴のうちの一つ又は複数を選択することと、
ニューラルネットワークの第１の部分とともに、選択された一つ又は複数の特徴に関する情報を使用することと
を含むことと、
メディアタイプ確率指数を決定するステップが、ニューラルネットワークの出力を使用することを含むこと
をさらに含むために、実施例１又は２の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0123]実施例４は、
メディアタイプ確率指数を決定するステップが、デジタルメディアデータが指定のオーディオイベント又は指定の視覚的イベントに対応する尤度の指示を与える、選択された第１の分類モデルとともにニューラルネットワークを使用することを含むことと、
ニューラルネットワークが、指定のオーディオイベント又は指定の視覚的イベントに関する事前の情報を使用して事前に訓練されていることと
をさらに含むために、実施例１〜３のうちの少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0124]実施例５は、
第１のコンテキストパラメータにアクセスするステップが、デジタルメディアデータが携帯デバイスのマイクロフォンによって受信されるオーディオデータを含むことを示すコンテキストパラメータにアクセスすることを含むことと、
第１の分類モデルを選択するステップが、携帯デバイスの発話／音楽分類モデルを選択することを含むことと、
メディアタイプ確率指数を決定するステップが、
携帯デバイスの選択された発話／音楽分類モデルを使用することと、
携帯デバイスのマイクロフォンによって受信されたオーディオデータを含むデジタルメディアデータに対応する決定されたスペクトル特徴を使用することと
を含むことと
をさらに含むために、実施例１〜４の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0125]実施例６は、
第１のコンテキストパラメータにアクセスするステップが、デジタルメディアデータがテレビ放送から受信されるオーディオデータを含むことを示すコンテキストパラメータにアクセスすることを含むことと、
第１の分類モデルを選択するステップが、テレビ放送の発話／音楽分類モデルを選択することを含むことと、
オーディオタイプ確率指数を決定するステップが、テレビ放送の選択された発話／音楽分類モデルを使用することと、テレビ放送から受信されたオーディオデータを含むデジタルメディアデータに対応する決定されたスペクトル特徴を使用することとを含むことと
をさらに含むために、実施例１〜５の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0126]実施例７は、
第１のコンテキストパラメータにアクセスするステップが、デジタルメディアデータのソースタイプの指示にアクセスすることを含むことと、
ソースタイプが、携帯デバイス、放送ビデオストリーム若しくは放送オーディオストリーム、局所信号源、又はマイクロフォン信号源のうちの一つ又は複数を含むことと
をさらに含むために、実施例１〜６の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0127]実施例８は、
一つ又は複数のプロセッサ回路を使用して、特定されるべきメディアクエリに対応する第２のコンテキストパラメータにアクセスすることであって、第２のコンテキストパラメータが、同じ第１の遠隔デバイス又は異なるデバイスによって与えられる、アクセスするステップと、
一つ又は複数のプロセッサ回路を使用して、第１のコンテキストパラメータ及び第２のコンテキストパラメータの各々とそれぞれ関連付けられる探索範囲特性を決定するステップと、
データベースから、一つ又は複数のプロセッサ回路を使用して、より狭い探索範囲と関連付けられる第１のコンテキストパラメータ及び第２のコンテキストパラメータのうちの一方を選択するステップであって、第１の分類モデルを選択するステップが、より狭い探索範囲と関連付けられる、第１のコンテキストパラメータ及び第２のコンテキストパラメータのうちの選択された一方を使用することを含む、選択するステップと
をさらに含むために、実施例１〜７の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0128]実施例９は、
一つ又は複数のプロセッサ回路を使用して、特定されるべきメディアクエリに対応する第２のコンテキストパラメータにアクセスするステップと、
一つ又は複数のプロセッサ回路を使用して、第１のコンテキストパラメータ及び第２のコンテキストパラメータの各々とそれぞれ関連付けられる信号品質特性を決定するステップと、
一つ又は複数のプロセッサ回路を使用して、決定されたそれぞれの信号品質特性に基づいて、第１のコンテキストパラメータ及び第２のコンテキストパラメータのうちの一方を選択するステップであって、第１の分類モデルを選択するステップが、第１のコンテキストパラメータ及び第２のコンテキストパラメータのうちの選択された一方を使用することを含む、選択するステップと
をさらに含むために、実施例１〜８の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0129]実施例１０は、
メディアクエリに対応する第１のコンテキストパラメータにアクセスするステップが、特定されるべきメディアクエリと時間的に一致するコンテキスト情報にアクセスすることを含むこと
をさらに含むために、実施例１〜９の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0130]実施例１１は、
第１のコンテキストパラメータにアクセスするステップが、デジタルメディアデータ自体のサンプリングされた部分の決定された特性を使用して第１のコンテキストパラメータを決定することを含むこと
をさらに含むために、実施例１〜１０の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0131]実施例１２は、
メディアデータ自体を使用して第１のコンテキストパラメータを決定するステップが、以前に記録されている音楽、生音楽、発話、テレビオーディオ、映画オーディオ、ゲームオーディオ、又は他のオーディオのうちの一つ又は複数をメディアデータが含むかを決定することを含むこと
を含むか又は使用するために、実施例１１の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0132]実施例１３は、
第１のコンテキストパラメータにアクセスするステップが、第１の遠隔デバイスと関連付けられるセンサデバイスからコンテキスト情報を受信することを含み、
センサデバイスが、ＧＰＳ若しくは位置センサ、加速度計、マイクロフォン、クロック若しくはタイマ回路、又はユーザ入力のうちの一つ又は複数を含むこと
をさらに含むために、実施例１〜１２の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0133]実施例１４は、
先行するデジタルメディアデータがアクセスされてからメディアクエリに閾値変化が発生したか否かを決定するためにデジタルメディアデータに対応する決定されたスペクトル特徴を分析するステップと、
閾値変化が発生しなかった場合、メディアタイプ確率指数を決定することを抑制するステップと
をさらに含むために、実施例１〜１３の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0134]実施例１５は、
デジタルメディアデータにアクセスするステップが、連続的なクエリ音声源からオーディオデータを周期的に又は断続的にサンプリングすることを含むことと、
メディアタイプ確率指数を決定するステップが、それぞれの周期的に又は断続的にサンプリングされたオーディオデータの各々についてオーディオタイプ確率指数を決定することを含むことと
をさらに含むために、実施例１〜１４の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0135]実施例１６は、
探索深度パラメータを決定するステップと、
メディアタイプ確率指数を決定するステップが、探索深度パラメータを使用して、メディアタイプ確率指数の決定に消費するプロセッサ回路資源量を決定することを含むことと
をさらに含むために、実施例１〜１５の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0136]実施例１７は、
デジタルメディアデータにアクセスするステップが、
メディアデータの信号品質を分析することと、
信号品質が不十分である場合、メディアクエリの異なる部分に対応するデジタルメディアデータを再サンプリングすることと
を含むことをさらに含むために、実施例１〜１６の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0137]実施例１８は、
第１の分類モデルを選択するステップが、指定のユーザと事前に関連付けられている複数の分類モデルの間からモデルを選択することを含むこと
をさらに含むために、実施例１〜１７の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0138]実施例１９は、
メディアクエリと関連付けられるメディアタイプ確率指数を決定するステップが、スペクトル特徴を、メディアタイプ確率指数及び／又は少なくとも一つのメディア特性を与える畳み込みニューラルネットワークに対する入力として使用することを含むこと
をさらに含むために、実施例１〜１８の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0139]実施例２０は、
命令を含む有形非一時的機械可読記憶媒体であって、命令は、機械の少なくとも一つのプロセッサによって実行されると、機械に、動作を実施させる、有形非一時的機械可読記憶媒体を含むか又は使用することができるなど、主題（装置、方法、動作を実施するための手段、又は、命令を含む機械可読メモリであって、命令は、機械によって実施されると、機械に動作を実施させるように機械を構成することができる機械可読メモリなど）を含むか又は使用することができ、
動作が、
遠隔デバイスから、特定されるべきメディアクエリを表すデジタルメディアデータを受信する動作と、
遠隔デバイスから、特定されるべきメディアクエリに対応する第１のコンテキストパラメータを受信する動作と、
データベースから第１の分類モデルを選択する動作であって、第１の分類モデルが、データベースに記憶された複数の異なる分類モデルのうちの一つであり、選択が、第１のコンテキストパラメータに基づく、選択する動作と、
選択された第１の分類モデルを適用するニューラルネットワークを使用して、メディアクエリのメディアタイプ確率指数を決定する動作と、
決定されたメディアタイプ確率指数を使用して、メディアクエリの少なくとも一つのメディア特性を決定する動作と、
遠隔デバイスに、メディアクエリの少なくとも一つのメディア特性を与える動作と
を含む。

[0140]実施例２１は、
動作が、
同じ又は異なる遠隔デバイスから、特定されるべき同じ又は異なるメディアクエリに対応する後続の第２のコンテキストパラメータを受信する動作と、
データベースから第２の分類モデルを選択する動作であって、選択は、第２のコンテキストパラメータに基づく、選択する動作と、
選択された第２の分類モデルを適用するニューラルネットワークを使用して、特定されるべき同じ又は異なるメディアクエリの更新済みメディアタイプ確率指数を決定する動作と
をさらに含むことを含むために、実施例２０の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0141]実施例２２は、
動作が、
遠隔デバイスの状態の変化の指示を受信する動作と、
指示の受信に応答して、
特定されるべき同じ又は異なるメディアクエリに対応する後続の第２のコンテキストパラメータにアクセスする動作と、
データベースから第２の分類モデルを選択する動作であって、選択は、第２のコンテキストパラメータに基づく、選択する動作と、
選択された第２の分類モデルを適用するニューラルネットワークを使用して、特定されるべき同じ又は異なるメディアクエリの更新済みメディアタイプ確率指数を決定する動作と
をさらに含むことをさらに含むために、実施例２０及び２１の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0142]実施例２３は、
遠隔デバイスの状態の変化の指示を受信する動作が、デバイスに対応する環境特性の変化に関する検知された情報を受信することを含むこと
を含む又は使用するために、実施例２２の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0143]実施例２４は、
動作が、
メディアクエリと関連付けられるノイズ特性を決定する動作と、
決定されたノイズ特性が、指定の閾値ノイズレベルを超えるメディアクエリと関連付けられるノイズレベルを示すとき、第１のコンテキストパラメータにアクセスする動作、データベースから第１の分類モデルを選択する動作、又は、メディアタイプ確率指数を決定する動作のうちの一つ又は複数を抑制する動作と
をさらに含むことをさらに含むために、実施例２０〜２３の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0144]実施例２５は、
動作が、
メディアクエリと関連付けられるスペクトル特性を決定する動作と、
決定されたスペクトル特性に基づいて、第１のコンテキストパラメータにアクセスする動作、データベースから第１の分類モデルを選択する動作、又は、メディアタイプ確率指数を決定する動作のうちの一つ又は複数を選択的に抑制する動作と
をさらに含むことをさらに含むために、実施例２０〜２４の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0145]実施例２６は、
第１のプロセッサ回路、
特定されるべきメディアクエリを表すデジタルメディアデータを受信するように構成されている第１のセンサ、及び、
携帯デバイスに関する第１のコンテキスト情報を検知するように構成されている第２のセンサを
含む携帯デバイスを備えるシステムを含むか又は使用することができるなど、主題（装置、方法、動作を実施するための手段、又は、機械によって実施されると、動作を実施するように機械を構成することができる命令を含む機械可読メモリなど）を含むか又は使用することができ、第１のプロセッサ回路が、デジタルメディアデータ及び第１のコンテキスト情報を遠隔メディア分類器に送信するように構成されている。
実施例２６において、システムは、
遠隔メディア分類器と関連付けられる第２のプロセッサ回路をさらに備えることができ、第２のプロセッサ回路が、携帯デバイスからデジタルメディアデータ及び第１のコンテキスト情報を受信するように構成されており、第２のプロセッサ回路が、第２のプロセッサ回路に動作を実施させる命令を実行するように構成されており、
動作が、
複数の異なる分類モデルを含むデータベースから第１の分類モデルを選択する動作であって、選択が、受信されたデジタルメディアデータ及び第１のコンテキスト情報に基づく、選択する動作と、
選択された第１の分類モデル及びデジタルメディアデータを使用して、特定されるべきメディアのメディア特性を決定する動作と、
決定されたメディア特性を携帯デバイスに提供する動作と
を含む。

[0146]実施例２７は、
第１のプロセッサ回路が、指定の間隔をおいて遠隔メディア分類器に対する一連のデータ送信を整理するように構成されていることと、
データ送信が、第１のセンサを使用してサンプリングされたデジタルメディアデータのそれぞれのサンプルと、第２のセンサを使用して検知されたコンテキスト情報の対応するサンプルとを含むことと、
第２のプロセッサ回路が、第２のプロセッサ回路に、動作を実施させる命令を実行するように構成されていることであって、
動作が、
データベースから異なる第２の分類モデルを選択する動作であり、選択が、サンプリングされたデジタルメディアデータ及び対応するサンプリングされたコンテキスト情報の対応する対に基づく、選択する動作、及び、
選択された異なる第２の分類モデルを使用してメディア特性を決定する動作
を含む、構成されていることと
を含み又は使用するために、実施例２６の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0147]実施例２８は、
携帯デバイスが、携帯デバイスに関する異なる第２のコンテキスト情報を検知するように構成されている第３のセンサをさらに備えることと、
第１のプロセッサ回路及び第２のプロセッサ回路のうちの一方が、データベースからの第１の分類モデルの選択に使用するための、第１のコンテキスト情報及び異なる第２のコンテキスト情報のうちの一方を選択するように構成されていることと
をさらに含むために、実施例２６及び２７の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0148]実施例２９は、
携帯デバイスが、デジタルメディアデータ及び第１のコンテキスト情報のうちの一方又は両方のノイズ特性を特定するように構成されているスペクトル分析回路をさらに備えることと、
第１のプロセッサ回路が、特定されたノイズ特性が、指定の閾値ノイズレベルよりも低いノイズレベルを示すときに、デジタルメディアデータ及び第１のコンテキスト情報を遠隔メディア分類器に送信するように構成されていることと
をさらに含むために、実施例２６〜２８の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0149]実施例３０は、
携帯デバイスが、デジタルメディアデータの周波数特性を特定するように構成されているスペクトル分析回路をさらに備えることと、
第１のプロセッサ回路が、特定された周波数特性が、指定の周波数特性条件を満たすときに、デジタルメディアデータ及び第１のコンテキスト情報を遠隔メディア分類器に送信するように構成されていることと
をさらに含むために、実施例２６〜２９の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0150]実施例３１は、
第２のセンサが、デジタルメディアデータと関連付けられる周囲のノイズ特性を検知するように構成されているマイクロフォンを含むことと、
第２のプロセッサ回路が、デジタルメディアデータと関連付けられる、検知された周囲のノイズ特性を使用して、データベースからの第１の分類モデルの選択を実施するように構成されていることと
をさらに含むために、実施例２６〜３０の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0151]実施例３２は、
第２のセンサが、携帯デバイスのロケーションに関する情報を検知するように構成されている位置センサを含むことと、
第２のプロセッサ回路が、携帯デバイスのロケーションに関する検知された情報を使用して、データベースからの第１の分類モデルの選択を実施するように構成されていることと
をさらに含むために、実施例２６〜３１の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0152]実施例３３は、メディアを分類するための方法を含むか又は使用することができるなど、主題（装置、方法、動作を実施するための手段、又は、機械によって実施されると、動作を実施するように機械を構成することができる命令を含む機械可読メモリなど）を含むか又は使用することができ、
方法が、
第１のデバイスと関連付けられる一つ又は複数のプロセッサ回路を使用して、特定されるべきメディアクエリを表すデジタルメディアデータにアクセスするステップと、
第１のデバイスと関連付けられる一つ又は複数のプロセッサ回路を使用して、デジタルメディアデータに対応するノイズ特性を決定するステップと、
決定されたノイズ特性が、デジタルメディアデータに対応するノイズが指定の閾値量未満であることを示す場合には、デジタルメディアデータを、デジタルメディアデータのソース特性を特定するように構成されている遠隔メディア分類回路に送信するステップ、ノイズが指定の閾値量未満であることを前記ノイズ特性が示さない場合には、デジタルメディアデータを遠隔メディア分類回路に送信するのを抑制するステップと
を含む。

[0153]実施例３４は、
デジタルメディアデータにアクセスするステップが、携帯デバイスのマイクロフォンを使用してオーディオ信号を受信することを含むことと、
ノイズ特性を決定するステップが、一つ又は複数のプロセッサ回路を使用して、受信されたオーディオ信号のノイズ特性を決定することを含むことと
をさらに含むために、実施例３３の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0154]実施例３５は、
第１のデバイスと関連付けられる一つ又は複数のプロセッサ回路を使用して、特定されるべきメディアクエリに対応する第１のコンテキストパラメータにアクセスするステップと、
第１のデバイスと関連付けられる一つ又は複数のプロセッサ回路を使用して、第１のコンテキストパラメータに対応する信号品質特性を決定するステップと
をさらに含むために、実施例３３又は３４の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
実施例３５において、第１のコンテキストパラメータに対応する、決定された信号品質特性が指定の閾値信号品質未満である場合、実施例は、遠隔メディア分類回路にデジタルメディアデータを送信するのを抑制するステップを含むことができる。

[0155]実施例３６は、
閾値ノイズ特性のデータベースから指定閾値量のノイズを取り出すステップであって、データベースが、ニューラルネットワークに基づく分類器システムによる、同じ又は類似のメディアクエリの事前の訓練によって確立され、データベースが、第１のデバイス又は遠隔メディア分類回路に記憶された、取り出すステップ
をさらに含むために、実施例３３〜３５の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0156]実施例３７は、
デジタルメディアデータをメディア分類回路に送信するステップが、デジタルメディアデータを、畳み込みニューラルネットワーク分類システムの入力に提供することを含むこと
をさらに含むために、実施例３３〜３６の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0157]実施例３８は、
決定されたノイズ特性が第１の指定のノイズ閾値範囲に対応する場合、メディア分類回路を使用して第１の探索深度を有する第１のメディア分類プロセスを開始するステップと、
決定されたノイズ特性が第２のより大きいノイズ閾値範囲に対応する場合、メディア分類回路を使用して異なる第２の探索深度を有する第２のメディア分類プロセスを開始するステップと
をさらに含むために、実施例３３〜３７の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0158]実施例３９は、
デジタルメディアデータに対応する、決定されたノイズ特性に基づいてメディア分類探索深度を選択するステップであって、選択されたメディア分類探索深度は、デジタルメディアデータのソース特性を特定するために経過する最大処理時間又はメディア分類回路によって費やされる最大処理労力を示す、選択するステップ
をさらに含むために、実施例３３〜３８の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0159]実施例４０は、
遠隔メディア分類回路を使用して、デジタルメディアデータに対応する、決定されたノイズ特性を、分類に成功している他のメディアデータに対応するノイズ特性及び分類に成功していない他のメディアデータに対応するノイズ特性と比較するステップと、
決定されたノイズ特性が、分類に成功していない他のメディアデータに対応するノイズ特性よりも、分類に成功している他のメディアデータに対応するノイズ特性に近密に対応する場合、デジタルメディアデータをメディア分類回路に送信するステップと
をさらに含むために、実施例３３〜３９の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0160]実施例４１は、
デジタルメディアデータのメディア分類回路への送信を抑制するステップが、
特定されるべき異なるメディアクエリを表す後続のデジタルメディアデータにアクセスすることと、
後続のデジタルメディアデータに対応する更新済みノイズ特性を決定することと、更新済みノイズ特性が指定の閾値量未満のノイズを示すか否かを決定することと
を含むことをさらに含むために、実施例３３〜４０の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0161]実施例４２は、
デジタルメディアデータにアクセスするステップが、第１のデバイスを使用して、メディアクエリに対応するオーディオサンプルにアクセスすることをさらに含むことと、
ノイズ特性を決定するステップが、オーディオサンプルのノイズ特性を決定することを含むことと、
デジタルメディアデータを送信するステップが、オーディオサンプルの全部又は一部分をメディア分類回路に送信することを含むことと
をさらに含むために、実施例３３〜４１の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0162]実施例４３は、
デジタルメディアデータにアクセスするステップが、メディアクエリに対応するビデオ信号サンプルにアクセスすることを含むことと、
ノイズ特性を決定するステップが、ビデオ信号サンプルの視覚的特性を決定することを含むことと、
デジタルメディアデータを送信するステップが、ビデオ信号サンプルの全部又は一部分をメディア分類回路に送信することを含むことと
をさらに含むために、実施例３３〜４２の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0163]実施例４４は、
第１のデバイスにおいて、メディア分類回路から、デジタルメディアデータのソース特性の指示を受信するステップと、
デジタルメディアデータのソース特性の指示を、携帯デバイスのユーザに表示するステップと
をさらに含むために、実施例３３〜４３の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0164]実施例４５は、命令を含む有形非一時的機械可読記憶媒体であって、命令が機械の少なくとも一つのプロセッサによって実行されると、機械に、動作を実施させる有形非一時的機械可読記憶媒体を含むか又は使用することができるなど、主題（装置、方法、動作を実施するための手段、又は、機械によって実施されると、動作を実施するように機械を構成することができる命令を含む機械可読メモリなど）を含むか又は使用することができ、
動作が、
一つ又は複数のプロセッサ回路を使用して、特定されるべきメディアクエリを表すデジタルメディアデータにアクセスする動作と、
一つ又は複数のプロセッサ回路を使用して、デジタルメディアデータのスペクトル特性に基づくニューラルネットワーク分類器によってメディアクエリの特定に成功することができる尤度を決定する動作と、
決定された尤度が指定の閾値尤度よりも高い場合には、
デジタルメディアデータをニューラルネットワーク分類器の第１の入力に提供する動作と、
デジタルメディアデータに応答して、メディアクエリのメディアタイプ確率指数をニューラルネットワーク分類器から受信する動作と、
メディアタイプの指示を遠隔デバイスのユーザに提供するために遠隔デバイスにメディアタイプ確率指数に関する情報を提供する動作と
を含む。

[0165]実施例４６は、
デジタルメディアデータに対応する信号ノイズ特性を決定することを含む動作と、
ニューラルネットワーク分類器によってメディアクエリの特定に成功することができる尤度を決定する動作が、決定された信号ノイズ特性に基づいて尤度を決定することを含むことと
をさらに含むために、実施例４５の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0166]実施例４７は、
デジタルメディアデータに対応する周波数内容特性を決定することを含む動作と、
ニューラルネットワーク分類器によってメディアクエリの特定に成功することができる尤度を決定する動作が、決定された周波数内容特性に基づいて尤度を決定することと
をさらに含むように、実施例４５又は４６の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0167]実施例４８は、
メディアクエリと関連付けられるコンテキストパラメータにアクセスすることを含む動作であって、コンテキストパラメータ及びデジタルメディアデータは遠隔デバイスからアクセスされる、動作と、
尤度を決定する動作が、ネットワークノード重み付けモデルに基づいて構成されているニューラルネットワーク分類器によってメディアクエリの特定に成功することができる尤度を決定する動作を含むことと、
重み付けモデルがアクセスされているコンテキストパラメータに基づいて選択されることと
をさらに含むために、実施例４５〜４７の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0168]実施例４９は、
特定されるべきメディアクエリを表すデジタルメディアデータを受信するように構成されている第１のセンサ、及び、
デジタルメディアデータを遠隔メディア分類器回路に送信するように構成されている第１のプロセッサ回路
を備える携帯デバイスを備えるシステムを含むか又は使用することができるなど、主題（装置、方法、動作を実施するための手段、又は、機械によって実施されると、動作を実施するように機械を構成することができる命令を含む機械可読メモリなど）を含むか又は使用することができる。
実施例４９において、システムが、遠隔メディア分類回路と関連付けられる第２のプロセッサ回路をさらに含むことができ、第２のプロセッサ回路は、携帯デバイスからデジタルメディアデータを受信するように構成されており、第２のプロセッサ回路が、第２のプロセッサ回路に動作を実施させる命令を実行するように構成されており、
動作が、
デジタルメディアデータに対応するスペクトル特性を決定する動作と、
デジタルメディアデータに対応する、決定されたスペクトル特性に基づいて、少なくとも部分的に、第２のプロセッサ回路によって、デジタルメディアデータを入力として使用して実行される畳み込みニューラルネットワークに基づくメディア分類器を有効化又は抑制する動作であって、畳み込みニューラルネットワークに基づくメディア分類器が、デジタルメディアデータが指定のメディアクラスに対応する尤度の指示を携帯デバイスに通信するように構成されている、有効化又は抑制する動作と
を含む。

[0169]実施例５０は、
携帯デバイスが、特定されるべきメディアクエリに対応する第１のコンテキスト情報を検知するように構成されている第２のセンサをさらに含むことと、
第１のプロセッサ回路が、デジタルメディアデータ及び第１のコンテキスト情報を遠隔メディア分類器回路に送信するように構成されていることと
をさらに含むために、実施例４９の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。
実施例５０において、第２のプロセッサ回路が、畳み込みニューラルネットワークに基づくメディア分類プロセスを有効化するとき、第２のプロセッサ回路の動作が、
複数の異なる分類モデルを含むデータベースから畳み込みニューラルネットワークによって使用するための第１の分類モデルを選択する動作であって、選択が、受信されたデジタルメディアデータ及び携帯デバイスに関する第１のコンテキスト情報に基づく、選択する動作
をさらに含む。

[0170]実施例５１は、
第２のプロセッサ回路が、第２のプロセッサ回路に動作を実施させる命令を実行するように構成されており、
動作が、
複数のノード重み付けモデルを含むデータベースからニューラルネットワークノード重み付けモデルを選択する動作であって、選択されたモデルは、デジタルメディアデータが指定のメディアクラスに対応する尤度の指示を与える畳み込みニューラルネットワークに基づくメディア分類器によって使用するためのものであり、モデルの選択は、デジタルメディアデータに対応する決定されたスペクトル特性を使用し、選択されたモデルは、畳み込みニューラルネットワークに基づくメディア分類器内の一つ又は複数のノードの重み付け特性を規定する、選択する動作を含むこと
をさらに含むために、実施例４９又は５０の主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0171]実施例５２は、
携帯デバイスの第１のプロセッサ回路が、デジタルメディアデータの信号ノイズ特性を特定し、特定された信号ノイズ特性が、デジタルメディアデータのノイズが指定の閾値量未満であることを示すときにのみ、デジタルメディアデータを遠隔メディア分類器回路に送信するようにさらに構成されていること
をさらに含むために、実施例４９〜５１の少なくとも一つの主題を含むか若しくは使用し、又は、任意選択的に当該主題と組み合わせることができる。

[0172]この詳細な説明は、詳細な説明の一部を形成する添付の図面への参照を含む。図面は、例として、本発明を実践することができる特定の実施形態を示す。これらの実施形態は、本明細書において「実施例」としても参照される。そのような実施例は、図示又は記載されているものに加えた要素を含む可能性がある。しかしながら、本発明者らはまた、図示又は記載されている要素のみが用意される実施例も企図している。本発明者らは、特定の実施例（又はその一つ若しくは複数の態様）、又は、本明細書において図示若しくは記載されている他の実施例（又はその一つ若しくは複数の態様）のいずれかに関連して、図示又は記載されている要素（又はその一つ若しくは複数の態様）の任意の組み合わせ又は置換を使用した実施例を企図している。

[0173]本明細書において、「ａ」又は「ａｎ」という用語は、特許文書において一般的であるように、「少なくとも一つの」又は「一つ又は複数の」の任意の他の事例又は使用とは独立して、一つ又は２つ以上を含むように使用される。本明細書において、「又は」という用語は、別途指示されない限り、非排他的であることを参照し、すなわち、「Ａ又はＢ」は、「ＡであるがＢではない」、「ＢであるがＡではない」、及び「Ａ且つＢである」を含むようになる。本明細書において、「含んでいる（ｉｎｃｌｕｄｉｎｇ）」及び「ｉｎｗｈｉｃｈ」という用語は、「備えている（ｃｏｍｐｒｉｓｉｎｇ）」及び「ｗｈｅｒｅｉｎ」のそれぞれの用語の分かりやすい英語の同義語として使用される。

[0174]様々な一般的な実施形態及び特定的な実施形態が本明細書において記載されているが、本開示のより広い範囲から逸脱することなく、様々な修正及び変更をこれらの実施形態に行うことができることは明らかであろう。したがって、本明細書及び図面は、限定的な意味ではなく、例示的な意味において考慮されるべきである。本明細書の一部分を形成する添付の図面は、限定ではなく例として、本主題を実践することができる特定の実施形態を示す。示されている実施形態は、当業者が本明細書において開示されている教示を実践することを可能にするのに十分詳細に記載されている。当該実施形態から他の実施形態を使用又は導出することができ、それによって、本開示の範囲から逸脱することなく、構造的置換及び変更並びに論理的置換及び変更を行うことができる。それゆえ、この詳細な説明は限定的な意味に解釈されるべきではなく、様々な実施形態の範囲は、添付の特許請求の範囲のみによって、このような特許請求の範囲が権利付与される均等物の全範囲とともに、画定される。特定の実施形態又は実施例が本明細書において記載されているが、同じ目的を達成するように計算されている任意の構成を、示されている特定の実施形態に置き換えることができることは諒解されたい。本開示は、様々な実施形態のあらゆる適合又は変形を包含するように意図されている。上記の実施形態、及び、本明細書において具体的に記載されていない他の実施形態の組み合わせが、上記の説明を検討している当業者には明らかであろう。

Claims

システムであって、
携帯デバイスであり、
第１のプロセッサ回路、
特定されるべきメディアクエリを表すデジタルメディアデータを受信するように構成されている第１のセンサ、及び
前記携帯デバイスに関する第１のコンテキスト情報を検知するように構成されている第２のセンサを含み、
前記第１のプロセッサ回路が、前記デジタルメディアデータ及び前記第１のコンテキスト情報を遠隔メディア分類器に送信するように構成されている、携帯デバイスと、
前記遠隔メディア分類器と関連付けられる第２のプロセッサ回路であり、前記第２のプロセッサ回路は、前記携帯デバイスから前記デジタルメディアデータ及び前記第１のコンテキスト情報を受信するように構成されており、前記第２のプロセッサ回路が、前記第２のプロセッサ回路に動作を実施させる命令を実行するように構成されており、
前記動作が、
複数の異なる分類モデルを含むデータベースから第１の分類モデルを選択する動作であって、前記選択が、前記デジタルメディアデータ及び前記第１のコンテキスト情報に基づく、選択する動作と、
前記第１の分類モデル及び前記デジタルメディアデータを使用して、特定されるべき前記メディアのメディア特性を決定する動作と、
前記メディア特性を前記携帯デバイスに提供する動作と、
を含む、第２のプロセッサ回路と、
を含む、システム。
前記第１のプロセッサ回路が、指定の間隔をおいて前記遠隔メディア分類器に対する一連のデータ送信を整理するように構成されており、
前記一連のデータ送信が、前記第１のセンサを使用してサンプリングされたデジタルメディアデータのそれぞれのサンプルと、前記第２のセンサを使用して検知されたコンテキスト情報の対応するサンプルと、を含み、
前記第２のプロセッサ回路が、前記第２のプロセッサ回路に、動作を実施させる命令を実行するように構成されており、
前記動作が、
前記データベースから第２の分類モデルを選択する動作であり、前記選択が、前記デジタルメディアデータのサンプル及び前記コンテキスト情報の前記対応するサンプルの対応する対に基づく、選択する動作、及び
前記第２の分類モデルを使用して前記メディア特性を決定する動作、
を含む、請求項１に記載のシステム。
前記携帯デバイスが、前記携帯デバイスに関する第２のコンテキスト情報を検知するように構成されている第３のセンサをさらに含み、
前記第１のプロセッサ回路及び前記第２のプロセッサ回路のうちの一方が、前記データベースからの前記第１の分類モデルを選択するために、前記第１のコンテキスト情報又は前記第２のコンテキスト情報のうちの一方を選択するように構成されている、請求項１に記載のシステム。
前記携帯デバイスが、前記デジタルメディアデータ及び前記第１のコンテキスト情報のうちの一方又は両方のノイズ特性を特定するように構成されているスペクトル分析回路をさらに含み、
前記第１のプロセッサ回路は、前記ノイズ特性が、指定の閾値ノイズレベルよりも低いノイズレベルを示すときに、前記デジタルメディアデータ及び前記第１のコンテキスト情報を前記遠隔メディア分類器に送信するように構成されている、請求項１に記載のシステム。
前記携帯デバイスが、前記デジタルメディアデータの周波数特性を特定するように構成されているスペクトル分析回路をさらに含み、
前記第１のプロセッサ回路は、前記周波数特性が、指定の周波数特性条件を満たすときに、前記デジタルメディアデータ及び前記第１のコンテキスト情報を前記遠隔メディア分類器に送信するように構成されている、請求項１に記載のシステム。
前記第２のセンサが、前記デジタルメディアデータと関連付けられる周囲のノイズ特性を検知するように構成されているマイクロフォンを含み、
前記第２のプロセッサ回路が、前記デジタルメディアデータと関連付けられる前記周囲のノイズ特性を使用して、前記データベースからの前記第１の分類モデルの前記選択を実施するように構成されている、請求項１に記載のシステム。
前記第２のセンサが、前記携帯デバイスのロケーションに関する情報を検知するように構成されている位置センサを含み、
前記第２のプロセッサ回路が、前記携帯デバイスのロケーションに関する前記情報を使用して、前記データベースからの前記第１の分類モデルの前記選択を実施するように構成されている、請求項１に記載のシステム。
方法であって、前記方法は、
一つ又は複数のプロセッサ回路を使用して、特定されるべきメディアクエリを表すデジタルメディアデータにアクセスするステップであって、前記デジタルメディアデータが、第１の遠隔デバイスによって与えられる、アクセスするステップと、
前記一つ又は複数のプロセッサ回路を使用して、特定されるべき前記メディアクエリに対応する第１のコンテキストパラメータにアクセスするステップであって、前記第１のコンテキストパラメータが、前記第１の遠隔デバイスによって与えられる、アクセスするステップと、
前記一つ又は複数のプロセッサ回路を使用して、前記デジタルメディアデータに対応する特徴を決定するステップと、
前記一つ又は複数のプロセッサ回路を使用して、データベースに記憶された第１の分類モデルを選択するステップであって、前記第１の分類モデルが、前記データベースに記憶された複数の異なる分類モデルのうちの一つであり、前記選択が、前記第１のコンテキストパラメータに基づく、選択するステップと、
前記一つ又は複数のプロセッサ回路を使用して、前記デジタルメディアデータに対応する前記特徴及び前記第１の分類モデルを使用して前記メディアクエリのメディアタイプ確率指数を決定するステップであって、前記メディアタイプ確率指数は、前記メディアクエリが複数の異なるメディア特性のうちの少なくとも一つのメディア特性に対応する尤度を示す、決定するステップと、
前記第１の遠隔デバイスにおいて、前記メディアタイプ確率指数及び前記少なくとも一つのメディア特性のうちの一方又は両方を受信するステップと、
を含む、方法。
複数の異なる分類モデルの間から前記第１の分類モデルを選択する前記ステップが、前記特徴のうちの一つ又は複数を選択することと、ニューラルネットワークの第１の部分とともに、前記特徴のうちの前記一つ又は複数に関する情報を使用することとを含み、
前記メディアタイプ確率指数を決定する前記ステップが、前記ニューラルネットワークの出力を使用することを含む、請求項８に記載の方法。
前記第１のコンテキストパラメータにアクセスする前記ステップが、前記デジタルメディアデータが携帯デバイスのマイクロフォンによって受信されるオーディオデータを含むことを示すコンテキストパラメータにアクセスすることを含み、
前記第１の分類モデルを選択する前記ステップが、前記携帯デバイスの発話／音楽分類モデルを選択することを含み、
前記メディアタイプ確率指数を決定する前記ステップが、前記携帯デバイスの前記発話／音楽分類モデルを使用することと、前記携帯デバイスの前記マイクロフォンによって受信された前記オーディオデータを含むデジタルメディアデータに対応する前記特徴を使用することとを含む、請求項８に記載の方法。
前記第１のコンテキストパラメータにアクセスする前記ステップが、前記デジタルメディアデータのソースタイプの指示にアクセスすることを含み、前記ソースタイプが、携帯デバイス、放送ビデオストリーム若しくは放送オーディオストリーム、局所信号源、又はマイクロフォン信号源のうちの一つ又は複数を含む、請求項８に記載の方法。
前記方法が、
前記一つ又は複数のプロセッサ回路を使用して、特定されるべき前記メディアクエリに対応する第２のコンテキストパラメータにアクセスするステップであって、前記第２のコンテキストパラメータが、前記第１の遠隔デバイス又は異なるデバイスによって与えられる、アクセスするステップと、
前記一つ又は複数のプロセッサ回路を使用して、前記第１のコンテキストパラメータ及び前記第２のコンテキストパラメータの各々とそれぞれ関連付けられる探索範囲特性を決定するステップと、
前記データベースから、前記一つ又は複数のプロセッサ回路を使用して、より狭い探索範囲と関連付けられる前記第１のコンテキストパラメータ及び前記第２のコンテキストパラメータのうちの一方を選択するステップと、
をさらに含み、
前記第１の分類モデルを選択する前記ステップが、前記より狭い探索範囲と関連付けられる、前記第１のコンテキストパラメータ及び前記第２のコンテキストパラメータのうちの一方を使用することを含む、請求項８に記載の方法。
前記方法が、探索深度パラメータを決定するステップをさらに含み、
前記メディアタイプ確率指数を決定する前記ステップが、前記メディアタイプ確率指数の決定に消費するプロセッサ回路資源量を決定するために前記探索深度パラメータを使用することを含む、請求項８に記載の方法。
前記第１の分類モデルを選択する前記ステップが、指定のユーザと事前に関連付けられている複数の分類モデルの間から前記第１の分類モデルを選択することを含む、請求項８に記載の方法。
コンピュータに、請求項８〜１４のいずれか一項に記載の方法を実施させる、プログラム。
システムであって、
携帯デバイスであり、
第１のプロセッサ回路、
特定されるべきメディアクエリを表すデジタルメディアデータを受信するように構成されている第１のセンサ、及び
前記携帯デバイスに関する第１のコンテキスト情報を検知するように構成されている第２のセンサであり、該第２のセンサが、前記デジタルメディアデータと関連付けられる周囲のノイズ特性を検知するように構成されているマイクロフォンを含む、第２のセンサを含み、
前記第１のプロセッサ回路が、前記デジタルメディアデータ及び前記第１のコンテキスト情報を遠隔メディア分類器に送信するように構成されている、携帯デバイスと、
前記遠隔メディア分類器と関連付けられる第２のプロセッサ回路であり、前記第２のプロセッサ回路は、前記携帯デバイスから前記デジタルメディアデータ及び前記第１のコンテキスト情報を受信するように構成されており、前記第２のプロセッサ回路が、前記第２のプロセッサ回路に動作を実施させる命令を実行するように構成されており、
前記動作が、
複数の異なる分類モデルを含むデータベースから第１の分類モデルを選択する動作であって、前記選択が、前記デジタルメディアデータ、前記第１のコンテキスト情報、及び前記デジタルメディアデータと関連付けられる前記周囲のノイズ特性に基づく、選択する動作と、
前記第１の分類モデル及び前記デジタルメディアデータを使用して、特定されるべき前記メディアのメディア特性を決定する動作と、
前記メディア特性を前記携帯デバイスに提供する動作と、
を含む、第２のプロセッサ回路と、
を含む、システム。