JP2015508205A - 音識別に基づくモバイルデバイスの制御 - Google Patents

音識別に基づくモバイルデバイスの制御 Download PDF

Info

Publication number
JP2015508205A
JP2015508205A JP2014556569A JP2014556569A JP2015508205A JP 2015508205 A JP2015508205 A JP 2015508205A JP 2014556569 A JP2014556569 A JP 2014556569A JP 2014556569 A JP2014556569 A JP 2014556569A JP 2015508205 A JP2015508205 A JP 2015508205A
Authority
JP
Japan
Prior art keywords
sound
mobile device
function
media
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014556569A
Other languages
English (en)
Other versions
JP2015508205A5 (ja
Inventor
キム、テス
ホワン、キュ・ウォン
ジン、ミンホ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2015508205A publication Critical patent/JP2015508205A/ja
Publication of JP2015508205A5 publication Critical patent/JP2015508205A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08CTRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
    • G08C23/00Non-electrical signal transmission systems, e.g. optical systems
    • G08C23/02Non-electrical signal transmission systems, e.g. optical systems using infrasonic, sonic or ultrasonic waves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/34User authentication involving the use of external additional devices, e.g. dongles or smart cards
    • G06F21/35User authentication involving the use of external additional devices, e.g. dongles or smart cards communicating wirelessly
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/70Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
    • G06F21/82Protecting input, output or interconnection devices
    • G06F21/83Protecting input, output or interconnection devices input devices, e.g. keyboards, mice or controllers thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2101Auditing as a secondary aspect
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Human Computer Interaction (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

モバイルデバイスにおいて機能を実行するための方法および装置が開示される。モバイルデバイスの外部の音出力デバイスからのメディア音をキャプチャし、キャプチャされたメディア音から音特徴を抽出する。抽出された音特徴に基づいて基準音特徴のセット中の少なくとも1つの基準音特徴を識別することによって、モバイルデバイスにおいて実行されるべき機能を決定し、基準音特徴のセット中の各基準音特徴は、複数のメディア音のうちの少なくとも1つと、複数の機能のうちの少なくとも1つとに関連する。さらに、モバイルデバイスにおいて、決定された機能を実行する。

Description

優先権の主張
本特許出願は、各々が本出願の譲受人(出願人)に譲渡され、参照により本明細書に明確に組み込まれる、2012年2月8日に出願された米国仮出願第61/596,576号および2013年1月28日に出願された米国非仮出願第13/752,080号の優先権を主張する。
本開示は、一般に、ポータブルコンピューティングデバイス上の機能を制御することに関する。より詳細には、本開示は、音識別に基づいてモバイルデバイスを制御することに関する。
[0003]近年、スマートフォンおよびタブレットコンピュータなど、モバイルデバイスの使用が普及してきた。これらのデバイスは、一般に、ワイヤレスネットワークを介して音声およびデータ通信機能を与える。さらに、そのようなモバイルデバイスは、ユーザが、インターネットをブラウズすること、写真またはビデオを撮ること、電話呼またはビデオ呼を行うことなど、様々な機能を実行することを可能にする。したがって、たいていのユーザは、便利な機能のために、そのようなモバイルデバイスを常に携帯している。
[0004]しかしながら、モバイルデバイスは、しばしば、望ましくない状況で動作させられる。たとえば、モバイルフォンのユーザは、しばしば、映画館などのいくつかの状況ではモバイルフォンの電源を切ることを期待される。最善の意図にもかかわらず、何人かのユーザは、電話の電源を切るのを忘れることがあり、近くの観客を迷惑がられる。
[0005]さらに、モバイルデバイスユーザは、日常生活において様々な情報を受ける。ユーザが、興味の対象に関するより多くの情報を見つけ出すことを望むとき、ユーザは、一般に、自分のモバイルデバイス上でクエリを手動で入力することによって情報の検索を実行する。運転中のユーザにとって、これはあまり便利な作業でないことがある。
[0006]したがって、ユーザによる手入力なしにモバイルデバイスにおいて機能を自動的に実行することができる方法および装置が必要である。
[0007]本開示は、音識別に基づいてモバイルデバイス上で機能を制御するための方法、システムおよびデバイスを提供する。
[0008]本開示の一態様によれば、モバイルデバイスを制御するための方法が開示される。本方法では、モバイルデバイスの外部の音出力デバイスからのメディア音がキャプチャされ、キャプチャされたメディア音から音特徴が抽出される。抽出された音特徴に基づいて基準音特徴のセット中の少なくとも1つの基準音特徴を識別することによって、モバイルデバイスによって実行されるべき機能が決定され、基準音特徴のセット中の各基準音特徴は、複数のメディア音のうちの少なくとも1つと、複数の機能のうちの少なくとも1つとに関連する。当該決定された機能は、モバイルデバイスにおいて実行される。さらに、本方法は、音特徴を生成するために少なくとも1つの基礎フィルタ(basis filter)を適用することを含み得る。本開示は、本方法に関係するデバイス、システム、サーバ、手段の組合せ、およびコンピュータ可読媒体についても説明する。
[0009]本開示の別の態様によれば、モバイルデバイスにおいて機能を実行するための方法が開示される。本方法では、少なくとも1つのメディア音を含む合成音(composite sound)は、複数の音センサーによってキャプチャされる。少なくとも1つのメディア音は、合成音から分離される。また、少なくとも1つの抽出された音特徴に基づいて基準音特徴のセット中の少なくとも1つの基準音特徴を識別することによって、モバイルデバイスにおいて実行されるべき機能が決定される。基準音特徴のセット中の各基準音特徴は、複数のメディア音のうちの少なくとも1つと、複数の機能のうちの少なくとも1つとに関連する。決定された機能はモバイルデバイスにおいて実行される。本開示では、本方法に関係するデバイス、システム、サーバ、手段の組合せ、およびコンピュータ可読媒体についても説明する。
[0010]本開示のさらに別の態様によれば、サーバは、受信機と、識別ユニットと、機能決定ユニットとを含む。受信機は音特徴を受信するように構成され、音特徴は、モバイルデバイスによってキャプチャされたメディア音から抽出される。識別ユニットは、音特徴に基づいて基準音特徴のセット中の少なくとも1つの基準音特徴を識別するように構成され、基準音特徴のセット中の各基準音特徴は、複数のメディア音のうちの少なくとも1つと、複数の機能のうちの少なくとも1つとに関連する。機能決定ユニットは、少なくとも1つの識別された基準音特徴に基づいてモバイルデバイスによって実行されるべき機能を決定するように構成される。
[0011]本開示のまた別の態様によれば、モバイルデバイスは、音センサーと、音特徴抽出器と、識別ユニットと、機能決定ユニットと、制御ユニットとを含む。音センサーは、モバイルデバイスの外部の音出力デバイスからのメディア音をキャプチャするように構成される。音特徴抽出器は、キャプチャされたメディア音から音特徴を抽出するように構成される。識別ユニットは、音特徴に基づいて基準音特徴のセット中の少なくとも1つの基準音特徴を識別するように構成され、基準音特徴のセット中の各基準音特徴は、複数のメディア音のうちの少なくとも1つと、複数の機能のうちの少なくとも1つとに関連する。機能決定ユニットは、少なくとも1つの識別された基準音特徴に基づいてモバイルデバイスにおいて実行されるべき機能を決定するように構成される。制御ユニットは、モバイルデバイスにおいて、決定された機能を実行するように構成される。
[0012]本開示の発明的態様の実施形態は、以下の発明を実施するための形態を参照し、添付の図面とともに読めば理解されよう。
いくつかの実施形態に従って、モバイルデバイスが、機能を実行するためにメディア音をキャプチャするように構成された、映画館を示す図。 いくつかの実施形態に従って、テレビジョンからキャプチャされたメディア音に基づいて機能を実行するように構成されたモバイルデバイスを装備した視聴者を示す図。 いくつかの実施形態に従って、それぞれ、テレビジョンからのメディア音に基づいてチャット機能を起動するように構成されたモバイルデバイスを装備した視聴者を示す図。 いくつかの実施形態に従って、車中のカーオーディオからのメディア音に応答して機能を実行するように構成され得るモバイルデバイスを装備した運転者を示す図。 いくつかの実施形態に従って、バス中のスピーカーからのメディア音に応答して機能を実行するように構成され得るモバイルデバイスを装備した、バスの乗客を示す図。 いくつかの実施形態に従って、メディア音から抽出された音特徴に基づいてモバイルデバイスにおいて実行されるべき機能を決定するように構成されたシステムを示すブロック図。 いくつかの実施形態に従って、サーバが、モバイルデバイスから受信したメディア音に基づいてモバイルデバイスにおいて実行されるべき機能を決定するように構成された、システムを示すブロック図。 いくつかの実施形態に従って、実行されるべき機能を決定するための音特徴データベースを含むモバイルデバイスのブロック図。 一実施形態に従って、音特徴データベースのデータ構造を示すブロック図。 いくつかの実施形態に従って、サーバにおいて実行されるべき機能を決定することによって、メディア音から抽出された音特徴に基づいてモバイルデバイスによって機能を実行するための方法のフローチャート。 いくつかの実施形態に従って、メディア音の音特徴に基づいてモバイルデバイスにおいて実行されるべき機能を決定するための、サーバによって実行される方法のフローチャート。 いくつかの実施形態に従って、メディア音に基づいて機能を決定し、実行するための、モバイルデバイスによって実行される方法のフローチャート。 いくつかの実施形態に従って、基礎フィルタに基づいてメディア音から音特徴を抽出するための、モバイルデバイスによって実行される方法のフローチャート。 いくつかの実施形態に従って、音特徴を抽出する際に使用する複数の基礎フィルタから少なくとも1つの基礎フィルタを選択するための方法のフローチャート。 いくつかの実施形態に従って、複数のメディア音のうちの少なくとも1つをキャプチャすることに応答して少なくとも1つの機能を実行するように構成された、複数の音センサーを有するモバイルデバイスを示す図。 いくつかの実施形態に従って、複数の音から選択されたメディア音に応答して機能を実行するためのモバイルデバイスにおける方法のフローチャート。 いくつかの他の実施形態に従って、複数のメディア音に応答して少なくとも1つの機能を実行するためのモバイルデバイスにおける方法のフローチャート。 いくつかの実施形態に従って、音識別に基づいて機能を制御するための方法および装置が実装され得る例示的なモバイルデバイスのブロック図。 いくつかの実施形態に従って、音識別に基づいて機能を制御するための方法および装置が実装され得るサーバシステムのブロック図。
[0032]次に、添付の図面にそれの例が示されている、様々な実施形態を詳細に参照する。以下の発明を実施するための形態では、本主題の完全な理解を与えるために多数の具体的な詳細を記載する。ただし、本主題はこれらの具体的な詳細なしに実施され得ることが当業者には明らかであろう。他の事例では、様々な実施形態の態様を不必要に不明瞭にしないように、よく知られている方法、プロシージャ、システム、および構成要素については詳細に説明していない。
[0033]図1に、いくつかの実施形態による、モバイルデバイス130が、機能を実行するためにメディア音をキャプチャするように構成された、映画館100を示す。映画館100にいる視聴者120(たとえば、映画ファン)はモバイルデバイス130を有し得る。モバイルデバイス130は、たとえば、マイクロフォンなどの音キャプチャ機能、ならびに/あるいはデータおよび/または通信ネットワークを通した通信機能を装備した、セルラーフォン、スマートフォン、ラップトップコンピュータまたはタブレットパーソナルコンピュータなど、任意の好適なデバイスであり得る。視聴者120は、映画館100においてモバイルデバイス130の電源を切るのを忘れることがある。
[0034]視聴者120のモバイルデバイス130は環境音をキャプチャするように動作可能である。映画が始まる前に、映画館100は、1つまたは複数のスピーカー140を通して「電話の電源を切ってください」などのメディア音を再生し得、映画スクリーン110上に、対応する視覚メッセージを表示することもある。モバイルデバイス130は、メディア音をキャプチャし、キャプチャされたメディア音から音特徴を抽出する。
[0035]スピーカー140を通して再生されるメディア音は、再生のためにキャプチャされ、録音された音である。本明細書で使用するメディア音(たとえば、ソース音またはデータベース中に登録された音)は、再生のために記憶媒体(たとえば、光媒体、磁気媒体、またはデジタル媒体)上に記録され得る、音声、音楽、または任意のタイプの音であり得る。メディア音は、音を一意に記述するかまたは表す音特徴によって特徴づけられ、オーディオフィンガープリント、音シグネチャ(sound signature)、または任意の他の音識別子を含み得る。メディア音を特徴づける音特徴は、メディア音に応答してモバイルデバイスの電源を切ることなど、モバイルデバイスによって実行されるべき機能に関連し得る。「機能」(または代替的に「アクション」と呼ばれる)という用語は、モバイルデバイスにおいて実行または履行され得る、任意の動作またはその動作のための命令を指す。
[0036]キャプチャされたメディア音から音特徴を抽出した後、モバイルデバイス130は、抽出された音特徴に関連する機能を決定し得る。図示の例では、「電話の電源を切ってください」というアナウンスは、映画館100における再生のために声優によってあらかじめ録音され得る。機能が決定されると、モバイルデバイス130は機能を実行する。たとえば、モバイルデバイス130は、視覚、オーディオ、または触覚通知を与えることによって、視聴者120にモバイルデバイス130の電源を切るように促す機能を実行し得る。いくつかの実施形態では、モバイルデバイス130は、視聴者120による介入を必要とすることなしに、モバイルデバイス130の電源を自動的に切るように構成され得る。
[0037]図2に、いくつかの実施形態による、テレビジョン210からキャプチャされたメディア音に基づいて機能を実行するように構成されたモバイルデバイス130を装備した視聴者120を示す。図示の実施形態では、テレビジョン210からブロードキャストされるいくつかの音はメディア音であり得、メディア音の各々は、モバイルデバイス機能に関連する音特徴によって特徴づけられる。テレビジョン210がメディア音をブロードキャストしたとき、モバイルデバイス130は、メディア音をキャプチャし、メディア音から音特徴を抽出する。
[0038]一実施形態では、テレビジョン210は、スクリーン上にコマーシャルを表示し、同時に、テレビジョン210の1つまたは複数のスピーカー240を通してそのコマーシャルに関連するメディア音を再生し得る。たとえば、テレビジョン210は、人気がある缶飲料の広告を再生し得、あらかじめ録音されている、缶飲料に関係する音クリップ(たとえば、缶飲料を飲んでいる人)がモバイルデバイス130によってキャプチャされる。キャプチャされると、メディア音は、キャプチャされた音クリップのための一意の音特徴を抽出するためにデジタル的に処理される。音特徴は、モバイルデバイス130が、情報の検索、たとえば、インターネット検索を自動的に実行し得るように、モバイルデバイス130によって実行されるべき機能に関連し得る。缶飲料コマーシャルの例では、モバイルデバイス130は、製品詳細、クーポン、または缶飲料に関係する検索結果を表示するために、たとえば、検索エンジンを介して検索を自動的に実行し得る。別の例では、モバイルデバイス130によって実行されるべき機能は、視聴者120がテレビジョン210でフットボールの試合を見ている間、フットボールプレーヤーに関する最新の統計の検索を実行することであり得る。また別の例では、モバイルデバイス130は、視聴者120が見ているテレビ番組、たとえばニュース番組または朝番組のウェブサイトの検索を実行し得る。
[0039]図3に、いくつかの実施形態による、それぞれテレビジョン312Aおよび312Bからのメディア音に基づいてチャット機能を起動するように構成された、それぞれモバイルデバイス130Aおよび130Bを装備した視聴者120Aおよび120Bを示す。図示の実施形態では、視聴者120Aは第1のロケーション310Aにおいてテレビジョン312Aを見ているが、視聴者120Bは第2のロケーション310Bにおいてテレビジョン312Bを見ている。視聴者120Aおよび120Bが同じテレビ番組(たとえば、ショー、コマーシャル、スポーツイベントなど)を見ているとき、モバイルデバイス130Aおよび130Bは、それぞれテレビジョン312Aおよび312Bからブロードキャストされたメディア音をキャプチャし、キャプチャされたメディア音から音特徴を抽出するように構成される。たとえば、テレビ番組中の俳優330の音声などのメディア音がテレビジョン312Aのスピーカー320Aを通して再生されたとき、モバイルデバイス130Aは俳優330の音声のメディア音をキャプチャし得る。同様に、モバイルデバイス130Bは、視聴者120Aおよび120Bが同じテレビ番組を見ているので、スピーカー320Bを通して俳優330の音声の同じメディア音をキャプチャし得る。
[0040]モバイルデバイス130Aおよび130Bが俳優330の音声のメディア音をキャプチャすると、モバイルデバイス130Aおよび130Bは、キャプチャされたメディア音から音特徴を抽出し、ネットワーク350を通して、抽出された音特徴をサーバ340に送信し得る。ネットワーク350は、任意のタイプのネットワーク、ならびに、限定はしないが、セルラーネットワーク、回線交換ネットワーク、公衆交換ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、ワイヤレスネットワーク、および/またはパケット交換ネットワークなどを含む、ネットワークの任意の組合せであり得る。サーバ340は、俳優330の音声のメディア音から抽出された基準音特徴を記憶し得る。サーバ340は、モバイルデバイス130Aおよび130Bからの受信した音特徴は、両方の音特徴が基準音特徴と同じであると決定された場合に、同じメディア音を表すと決定する。
[0041]サーバ340は、次いで、モバイルデバイス130Aおよび130Bによって実行されるべきである、基準音特徴に関連する機能を決定する。たとえば、機能は、音声またはビデオチャットセッション、ソーシャルネットワーキングサービス、テキストおよび/またはピクチャ交換サービスなどを開始することなど、モバイルデバイス130Aとモバイルデバイス130Bの両方の上で同様の動作をアクティブにする機能であり得る。サーバ340は、モバイルデバイスによって実行されるべき機能を識別する情報(たとえば、データまたは命令)をモバイルデバイス130Aおよび130Bに送信する。モバイルデバイス130Aおよび130Bは、実行されるべき機能を識別する情報を受信し、その機能を実行し得る。一実施形態では、モバイルデバイス130Aおよび130Bは、それぞれモバイルデバイス130Aの視聴者120Aとモバイルデバイス130Bの視聴者120Bとの間で通信セッション(たとえば、音声またはビデオチャットセッション)を開始するために、識別された機能を実行する。
[0042]一実施形態では、サーバ340は、モバイルデバイス130Aおよび130Bによるキャプチャされた音が、サーバ340においてデータベース中に登録されたメディア音のうちの1つであるかどうかを決定することによって、音出力デバイスから出力される音(すなわち、メディア音)と音出力デバイス以外のソースから出力されるライブ音(すなわち、メディア音でない音)とを区別することが可能であり得る。たとえば、俳優330が、第2のロケーション310Bに物理的に存在し、テレビジョン312Bがオンになることなしに視聴者120Bに向かって話している場合、モバイルデバイス130Bは、俳優330のライブ音声(すなわち、メディア音でない音)をキャプチャし、キャプチャされた音声から音特徴を抽出し得る。一方、モバイルデバイス130Aは、テレビジョン312Aからの俳優330の音(すなわち、メディア音)をキャプチャして、音特徴を抽出する。モバイルデバイス130Aおよび130Bは、次いで、抽出された音特徴を、モバイルデバイス130Aおよび130Bからの抽出された音特徴が同じ基準音特徴に関連するかどうかを決定するように構成されたサーバ340に送信する。第2のロケーション310Bにおいてキャプチャされた俳優のライブ音声のための音特徴の場合、サーバ340におけるデータベースは、一致する基準音特徴を有さず、したがって、モバイルデバイス130Aによってキャプチャされた音が、モバイルデバイス130Bによってキャプチャされた俳優のライブ音声とは異なると決定する。その結果、サーバ340は、モバイルデバイス130Aおよび130Bによって実行されるべき機能を識別する情報を与えない。
[0043]図4に、いくつかの実施形態による、車410中のカーオーディオ430からのメディア音に応答して機能を実行するように構成され得るモバイルデバイス130を装備した運転者420を示す。図示の実施形態では、カーオーディオ430は、あらかじめ録音されている広告、音楽、ニュース、または天気予報など、ある音をブロードキャストし得る。たとえば、製品に関係する広告の音クリップが、メディア音としてモバイルデバイス130によってキャプチャされ得る。キャプチャされたメディア音から、モバイルデバイス130は、音特徴を抽出し、抽出された音特徴を図3のサーバ340などのサーバに送信し得る。いくつかの実施形態では、モバイルデバイス130はまた、全地球測位システム(GPS)など、モバイルデバイス130のロケーション追跡機能を使用することによって、抽出された音特徴とともにモバイルデバイス130のロケーション情報をサーバ340に送信し得る。
[0044]モバイルデバイス130から音特徴を受信した後、サーバ340は、音特徴が、サーバ340に記憶された基準音特徴と同じであるかどうかを決定し得る。モバイルデバイス130から受信した音特徴が基準音特徴と同じであるとサーバ340が決定した場合、サーバ340は、モバイルデバイス130によって実行されるべき機能を決定し、機能を識別する情報をモバイルデバイス130に送信し得る。たとえば、機能は、メディア音を通して広告されている製品が購入され得るロケーションのリストを与えることであり得る。モバイルデバイス130は、サーバ340から、機能を識別する情報を受信し、マップ中にロケーションのリストを表示すること、または会社の名前、ロケーション情報および電話番号など、詳細な情報を与えることによって機能を実行する。
[0045]別の実施形態では、サーバ340は、モバイルデバイス130の広告された製品および/またはロケーションに基づいて販売促進情報(たとえば、割引券、無料サービスクーポンなど)を与えるために機能を決定し得る。他の機能は、カーオーディオ430上でブロードキャストされ得る任意のメディア音に基づいて、モバイルデバイス130上で可能であり、広告に限定される必要がないことを諒解されよう。
[0046]図5に、いくつかの実施形態による、バス510中のスピーカー540からのメディア音に応答して機能を実行するように構成され得るモバイルデバイス130を装備した、バス510の乗客520を示す。乗客520がバス510中にいる間、乗客に次の停留所について通知するために、バス510中のスピーカー540を通してアナウンスなどのメディア音が生じ得る。乗客520のモバイルデバイス130は、そのようなアナウンスをキャプチャし、前に説明したように、モバイルデバイス130上で機能を実行するために処理され得る音特徴を抽出するために、キャプチャされた音を処理するように構成され得る。
[0047]次の停留所のアナウンスが行われたとき、乗客520が、イヤフォンを用いてモバイルデバイス130で音楽を聞いている場合、乗客520はアナウンスが聞こえないことがある。したがって、モバイルデバイス130は、アナウンスをキャプチャし、アナウンスの抽出された音特徴に基づいて、オーディオおよび/またはビジュアルメッセージ、触覚通知、またはそれらの任意の組合せを出力することなど、乗客520に次の停留所について通知する機能を実行し得る。たとえば、モバイルデバイス130は、乗客520に対して再生されている音楽を停止し、および/または振動通知を生成するように構成され得る。さらに、モバイルデバイス130は、モバイルデバイス130のスクリーン上にポップアップメッセージ(たとえば、「次の停留所が目的地です」)を表示し得る。いくつかの実施形態では、乗客520は、目的地の停留所がアナウンスされたときに通知を受信するために、目的地情報を用いてモバイルデバイス130を事前構成し得る。
[0048]モバイルデバイス130は、メディア音に基づいて他の機能を実行するように構成され得る。たとえば、モバイルデバイス130は、目的地の停留所のあらかじめ録音されたアナウンスに基づく地図または公共交通ルートなど、ロケーション情報を表示するように構成され得る。別の例では、モバイルデバイス130は、バス510のスピーカー540を介してアナウンスされるあらかじめ録音された広告をキャプチャし、乗客520に、広告された製品に関連する製品情報および/またはロケーション情報を通知し得る。
[0049]いくつかの実施形態では、モバイルデバイス130は、メディア音(たとえば、ラジオまたはテレビ番組、コマーシャル音クリップ、スピーカーアナウンスなどから)を、再生中いつでもキャプチャし得ることを諒解されよう。いくつかの実施形態では、メディア音は、一定の時間間隔においてモバイルデバイス130によってキャプチャされ得る。たとえば、図3に示したようにテレビ番組を見る場合、視聴者120Bが視聴者120Aよりも後で同じテレビ番組に同調した場合、モバイルデバイス130Aおよび130Bは、次に、テレビジョン312B上で、関連する音特徴を有するメディア音が再生されたときにチャットサービスを開始する。
[0050]図6Aは、いくつかの実施形態による、メディア音から抽出された音特徴に基づいてモバイルデバイス130Aにおいて実行されるべき機能を決定するように構成されたシステム600Aを示すブロック図である。システム600Aは、ネットワーク350を介して接続された、モバイルデバイス130Aとサーバ340Aと含み得る。モバイルデバイス130Aは、音センサー612と、音特徴抽出器614と、送信機616と、受信機618と、制御ユニット620と、出力ユニット622とを含み得る。音センサー612は、電話の電源を切ること、通知を送ること、またはインターネット上で検索を行い、検索結果を与えることなど、メディア音に関連する機能を識別するために使用され得る少なくとも1つの一意の音特徴を有するメディア音をキャプチャするように構成される。たとえば、音センサー612は、1つまたは複数のマイクロフォン、または周囲の周囲音を検出、感知、および/またはキャプチャするために使用される他のタイプの音センサーを含み得る。音センサー612は、通話のためにまたはビデオを録音するためにモバイルデバイス130Aに組み込まれたマイクロフォン、または周囲音を受信するための専用のマイクロフォンであり得る。音特徴抽出器614は、音声およびオーディオコーディング、圧縮、認識ならびに分析方法を含む、好適な信号処理方法を使用することによって、音センサー612からメディア音を受信し、メディア音から一意の音特徴(たとえば、オーディオフィンガープリントまたは音シグネチャ)を抽出する。たとえば、そのような方法には、オーディオフィンガープリンティング、音声認識または音声およびオーディオコーディングのための周知の方法である、スペクトル分析、MFCC(メル周波数ケプストラム係数(Mel-frequency cepstral coefficient))、LPC(線形予測コーディング(linear predictive coding))、および/またはLSP(線スペクトル対(line spectral pair))技法がある。また、以下でより詳細に説明するように、一意の音特徴は、キャプチャされたメディア音に基礎フィルタを適用することによって抽出され得る。
[0051]モバイルデバイス130Aの送信機616は、ネットワーク350を介して、抽出された音特徴をサーバ340Aに送信するように構成される。サーバ340Aは、以下でより詳細に説明するように、モバイルデバイス130Aによって実行されるべき機能を決定するためにモバイルデバイス130Aから受信した音特徴を処理し、ネットワーク350を介してモバイルデバイス130Aに機能を識別する情報を与える。モバイルデバイス130Aの受信機618は、音特徴に基づいて決定された機能を識別する情報を受信し、機能を識別する情報を、モバイルデバイス130Aにおいて機能を実行するように構成された制御ユニット620に送信するように構成される。たとえば、制御ユニット620は、モバイルデバイス130Aの電源を切ることまたは出力ユニット622を通して通知メッセージを表示することによって機能を実行し得る。
[0052]サーバ340Aは、モバイルデバイス130Aから受信した音特徴に基づいてモバイルデバイス130A上で実行されるべき機能を決定するように構成される。サーバ340Aは、受信機642と、機能決定ユニット644と、音特徴データベース646と、基礎フィルタ生成器650と、送信機648と、サンプル音データベース652とを含み得る。受信機642は、モバイルデバイス130Aから音特徴を受信するように構成され、モバイルデバイス130Aによって実行されるべき機能を決定するために音特徴を機能決定ユニット644に与える。
[0053]機能決定ユニット644は、受信した音特徴との最も大きい類似度を有する基準音特徴を識別するために、音特徴データベース646にアクセスするように構成される。音特徴データベース646は複数の基準音特徴を含み、基準音特徴の各々は、メディア音から抽出され、モバイルデバイスによって実行されるべき機能に関連する。一実施形態では、抽出された音特徴または基準音特徴は、メディア音を一意に記述するかまたは表す値の任意の好適なセットによって表され得る。たとえば、値のセットは、周波数領域スペクトル、電力領域スペクトルなどに対応し得る。メディア音は、音を一意に記述するかまたは表す音特徴によって特徴づけられ、オーディオフィンガープリント、音シグネチャ、または任意の他の音識別子を含み得る。したがって、音特徴データベース646は、複数の抽出された音特徴または基準音特徴から構成され得、それらの音特徴の各々は、関連する機能を有する。本明細書で説明するように、音特徴がメディア音から抽出され、関連する機能とともに音特徴データベース646中に含まれているとき、メディア音は、音特徴データベース646中に登録されていると見なされ得る。したがって、入力メディア音が音特徴データベース646中に登録されているとき、音特徴データベース646から、モバイルデバイスによって実行されるべき対応する機能が識別され得る。
[0054]以下の表1に示すように、音特徴データベース646は複数の基準音特徴1〜Nを含み得、基準音特徴の各々は、実行されるべき機能に関連する。たとえば、基準音特徴1は、「電話の電源を切る」という機能に関連するが、基準音特徴2は、インターネット上で製品検索を行い、検索結果を与える機能に関連し得る。
Figure 2015508205
[0055]サーバ340A中の基礎フィルタ生成器650は、サンプル音データベース652のサンプル音を使用することによって、抽出された音特徴に適用され得る1つまたは複数の基礎フィルタを生成するように構成される。さらに、基礎フィルタは、音特徴データベース646の精度を改善するために、音特徴データベース646を更新するために使用され得る。基礎フィルタ生成器650の具体的な動作を以下でより詳細に与える。
[0056]受信した音特徴に基づいて、機能決定ユニット644は、音特徴データベース646にアクセスし、受信した音特徴との最も大きい類似度を有する基準音特徴を決定する。基準音特徴が音特徴データベース646から識別されると、機能決定ユニット644は、音特徴データベース646からの識別された基準音特徴に関連する機能を決定する。サーバ340Aは、送信機648を介してネットワーク350を通して、機能を識別する情報をモバイルデバイス130Aに送信する。モバイルデバイス130Aの制御ユニット620は、受信機618を介してサーバ340Aから、機能を識別する情報を受信し、たとえば、モバイルデバイス130Aの電源を切ることまたは出力ユニット622を通して通知メッセージを表示することによって、モバイルデバイス130Aにおいて機能を実行する。
[0057]一実施形態では、モバイルデバイス130Aまたは130Bは、ユーザ介入を必要とすることなしに、音処理機能を自動的に実行するように構成され得る。言い換えれば、ユーザは、モバイルデバイス130Aまたは130B上での機能の実行を手動で開始する必要がない。この場合、モバイルデバイス130Aまたは130Bの音センサー612は、モバイルデバイス130Aまたは130B上で実行されるべき機能を決定するために、たとえば、連続的に環境音をキャプチャして、登録されたメディア音を認識し得る。しかしながら、モバイルデバイス130Aまたは130Bが連続的に環境音をキャプチャし、処理するように動作している間、電力は、概して、一般に容量が制限されるバッテリから消費される。したがって、バッテリを節約するために、以下のいくつかの実施形態で説明するように、低電力モードで動作することによって、モバイルデバイス130Aまたは130Bの電力消費が低減され得る。
[0058]いくつかの実施形態では、モバイルデバイス130Aは、電力消費を低減するために、所定の時間間隔において環境音をキャプチャし得る。この場合、環境音をキャプチャまたは処理するために使用されるモバイルデバイス130A中の構成要素が、所定の時間間隔(たとえば、100msの間隔において10msの持続時間をもつ音)においてアクティブにされ得る。たとえば、そのような構成要素は、10msでは「アクティブ状態」に(すなわち、高電力状態に)あり、次の90msでは「アイドル状態」に(すなわち、低電力状態またはオフ状態に)あるように構成され得る。アクティブ状態の間に、モバイルデバイス130Aは、環境音をキャプチャし、キャプチャされた音が所定のしきい値音レベル(たとえば、電力レベル)を超えるかどうかを決定する。キャプチャされた音の音レベルがしきい値音レベルを超えた場合、モバイルデバイス130Aは、キャプチャされた音を処理して、モバイルデバイス130A上で実行されるべき機能を決定し得る。アイドル状態では、環境音をキャプチャまたは処理するために使用される構成要素は、デューティサイクルの90%について非アクティブである。したがって、そのような場合、モバイルデバイス130Aは、連続的に環境音をキャプチャし、処理する場合よりも、音処理における電力の90%をも節約し得る。
[0059]モバイルデバイス130Aはまた、キャプチャされた音が、音声または音楽など、メディア音であるかどうかを決定するように構成され得る。一実施形態では、音センサー612は、雑音などの非メディア音と区別するために、キャプチャされた音がメディア音であるかどうかを決定するためのデジタル信号プロセッサ(「DSP」)を含み得る。たとえば、キャプチャされた音の音レベルがしきい値音レベルを超えると決定されたとき、DSPは、MFCC(メル周波数ケプストラム係数)をもつガウス混合モデル(Gaussian Mixture Model)など、好適な信号処理方法を使用することによって、キャプチャされた音がメディア音であるか否かを決定するためにアクティブにされ得る。キャプチャされた音が、音声または音楽など、メディア音であるとDSPが決定した場合、キャプチャされた音は、上記で説明したように、さらなる処理のために音特徴抽出器614に与えられる。一方、キャプチャされた音がメディア音でないとDSPが決定した場合、キャプチャされた音はそれ以上処理されない。音処理のフロントエンドにおいて非メディア音を識別し、破棄することによって、モバイルデバイス130Aは、すべてのキャプチャされた音を処理する場合よりもかなりの電力を節約し得る。
[0060]図6Bは、別の実施形態による、サーバ340Bが、モバイルデバイス130Bから受信したメディア音に基づいてモバイルデバイス130Bにおいて実行されるべき機能を決定するように構成された、システム600Bを示すブロック図ある。図示のように、システム600Bは、ネットワーク350を介して接続された、モバイルデバイス130Bとサーバ340Bとを含む。この実施形態では、音特徴抽出器643は、図6Aのシステム600Aとは対照的に、モバイルデバイス130Bではなくサーバ340B中に含まれる。モバイルデバイス130Bの音センサー612がメディア音をキャプチャした後、モバイルデバイス130Bは、送信機616を通してメディア音をサーバ340Bに直接送信する。
[0061]サーバ340Bでは、受信機642は、モバイルデバイス130Bから送信されたメディア音を受信し、受信したメディア音を音特徴抽出器643に与える。音特徴抽出器643は、メディア音から一意の音特徴を抽出するように構成される。サーバ340Bは、次いで、モバイルデバイス130Bによって実行されるべき機能を決定し、ネットワーク350を介してモバイルデバイス130Bに機能を識別する情報を与えるために、図6Aに関して上記で説明したのと同じ方法で、抽出された音特徴を処理し得る。
[0062]図7に、いくつかの実施形態による、実行されるべき機能を決定するための音特徴データベース740を含むモバイルデバイス700のブロック図を示す。モバイルデバイス700は、少なくとも1つの一意の音特徴を有するメディア音をキャプチャするように構成された音センサー710と、音センサー710からメディア音を受信し、キャプチャされたメディア音から音特徴(たとえば、オーディオフィンガープリント)を抽出するように構成された音特徴抽出器720とを含む。モバイルデバイス700は、抽出された音特徴を音特徴データベース740に記憶された複数の基準音特徴と比較するように構成された機能決定ユニット730をさらに含む。
[0063]機能決定ユニット730は、受信した音特徴に対し最大類似度を有する基準音特徴を識別するために、音特徴データベース740にアクセスするように構成される。上記で説明したように、音特徴データベース740は複数の基準音特徴を含み、基準音特徴の各々は、メディア音から抽出され、モバイルデバイスによって実行されるべき機能に関連する。音特徴データベース740の複数の基準音特徴は、モバイルデバイス700においてローカルで更新されるか、またはサーバと通信してリモートで更新され得る。たとえば、メディア音をキャプチャし、関連する機能をモバイルデバイス700に入力するために、ユーザがモバイルデバイス700を操作し得る。モバイルデバイス700は、次いで、キャプチャされたメディア音から基準音特徴を抽出し、当該関連する機能とともに当該抽出された基準音特徴を音特徴データベース740に記憶し得る。代替として、音特徴データベース740は、リモートサーバから、関連する機能をもつ基準音特徴をダウンロードし得る。音特徴データベース740から、機能決定ユニット730は、識別された基準音特徴に関連する機能を決定する。機能決定ユニット730からの決定された機能に基づいて、制御ユニット760はモバイルデバイス700において機能を実行する。
[0064]図8は、一実施形態による、音特徴データベース646のデータ構造800を示すブロック図である。図6Aおよび図6Bの音特徴データベース646はデータ構造800によって記述され得るが、図7の音特徴データベース740もデータ構造800を使用し得る。データ構造800は、複数のメタデータ810A〜810Nを含み、それらは、それぞれ、基準音特徴812A〜812N、機能814A〜814N、およびコンテキスト情報816A〜816Nを含む。コンテキスト情報816A〜816Nは、基準音特徴812A〜812Nに追加の情報またはパラメータをそれぞれ与え得る。したがって、メタデータ810A〜810Nの各々は、対応する基準音特徴の特性を記述する。たとえば、「電話の電源を切ってください」というメディア音は、メディア音から抽出された基準音特徴812Aと、モバイルデバイス上で実行されるべき機能814A(たとえば、モバイルデバイスの電源を切ることまたはモバイルデバイスの構成をサイレントモードに調整すること)と、メディア音がキャプチャされ得る環境コンテキスト(たとえば、映画館)を識別するコンテキスト情報816Aとを含む、メタデータ810Aによって表され得る。
[0065]メタデータ810A〜810Nは、サーバ340または別のリモートサーバにおいてローカルに事前生成され、音特徴データベース646に記憶され得る。たとえば、メタデータ810Aは、ターゲットメディア音から基準音特徴812Aを抽出し、当該基準音特徴812Aに関連する機能814Aとして望ましい機能を与えることによって生成され得る。基準音特徴812Aを記述するかまたは特徴づけ得る追加の情報またはパラメータは、コンテキスト情報816Aとして与えられ得る。上記の方法で生成されたメタデータ810A〜810Nは、サーバ340にアップロードされ、音特徴データベース646に記憶され得る。
[0066]図9は、いくつかの実施形態による、サーバ340において実行されるべき機能を決定することによって、メディア音から抽出された音特徴に基づいてモバイルデバイス130によって機能を実行するための方法900のフローチャートである。初めに、モバイルデバイス130は、910において、音出力デバイス(たとえば、図1に示したように映画館100におけるスピーカー140)を介して再生されるメディア音をキャプチャする。モバイルデバイス130は、920において、キャプチャされた音を処理して、キャプチャされたメディア音から音特徴を抽出する。930において、モバイルデバイス130は、抽出された音特徴をサーバ340に送信し、サーバ340は、モバイルデバイス130によって実行されるべき機能を決定し、ネットワークを介して、機能を識別する情報をモバイルデバイス130に送信する。モバイルデバイス130は、940において、サーバ340から、機能を識別する情報を受信し、950において機能を実行する。
[0067]図10は、いくつかの実施形態による、メディア音の音特徴に基づいてモバイルデバイス130において実行されるべき機能を決定するための、サーバ340において実行される方法1000のフローチャートである。1010において、サーバ340は、モバイルデバイス130からの抽出された音特徴を受信する。次いで、1020において、サーバ340は、モバイルデバイス130からの抽出された音特徴と音特徴データベース646からの基準音特徴の各々との間の類似度値を決定する。類似度値を決定した後、サーバ340は、1030において、最も大きい類似度値を決定し、最も大きい類似度値に関連する音特徴データベース646における基準音特徴を識別する。一実施形態では、最も大きい類似度値が所定のしきい値よりも小さい場合、基準音特徴は識別されず、したがって、サーバ340は、送信された音特徴について識別された機能がないことを示す応答をモバイルデバイス130に送信し得る。最も大きい類似度値を有する基準音特徴が決定されると、サーバ340は、1040において、音特徴データベース646から、識別された基準音特徴に関連する機能を決定する。次いで、1050において、サーバ340は、ネットワークを通して、決定された機能を識別する情報をモバイルデバイス130に送信する。
[0068]図11は、いくつかの実施形態による、メディア音に基づいて機能を決定し、実行するための、モバイルデバイス130によって実行される方法1100のフローチャートである。モバイルデバイス130は、初めに、1110においてメディア音をキャプチャする。モバイルデバイス130は、1120において、キャプチャされた音を処理して、キャプチャされたメディア音から音特徴を抽出する。次いで、1130において、モバイルデバイス130は、抽出された音特徴とモバイルデバイス130中の音特徴データベースからの基準音特徴の各々との間の類似度値を決定する。類似度値を決定した後、モバイルデバイス130は、1140において、最も大きい類似度値を決定し、音特徴データベース中の最も大きい類似度値に関連する基準音特徴を識別する。最も大きい類似度値を有する基準音特徴が決定されると、モバイルデバイス130は、1150において、音特徴データベースから、識別された基準音特徴に関連する機能を決定する。次いで、1160において、モバイルデバイス130は、決定された機能を実行する。
[0069]図12に、いくつかの実施形態に従って、基礎フィルタに基づいてメディア音から音特徴を抽出するための、モバイルデバイス130によって実行される方法1200のフローチャートを示す。モバイルデバイス130の音センサー612は、初めに、1210においてメディア音をキャプチャする。1220において、モバイルデバイス130の音特徴抽出器614は、音センサー612からのキャプチャされたメディア音を受信し、メディア音を所定の時間期間を有する複数のフレームにセグメント化する(「ウィンドウ処理」と呼ばれることもある)。一実施形態では、隣接するフレームは、そのフレームの一部分がそれらのフレームに共通であるようにオーバーラップするようにセグメント化される。そのような場合、オーバーラップする部分の時間期間があらかじめ決定され得る。フレームおよびオーバーラップする部分の時間期間は、音一意性(sound uniqueness)における所望のレベルの精度を達成するように調整され得る。たとえば、音一意性を高めることによって、フレームおよび/またはオーバーラップする部分のためのより小さい時間期間が、より高い精度をもたらし得る。
[0070]メディア音を複数のフレームにセグメント化した後、たとえば、高速フーリエ変換(FFT:Fast Fourier Transform)を使用することによって、1230において、各フレームを周波数領域スペクトルに変換する。代替的に、いくつかの他の変換プロセス(たとえば、限定はしないが、離散コサイン変換、ハール変換(Haar Transform)またはウォルシュアダマール変換(Walsh-Hadamard Transform)を含む)が、フレームを変換するために使用され得る。一実施形態では、周波数領域スペクトルにおける変換されたフレームは、抽出された音特徴、または抽出された音特徴を生成するための中間音特徴として使用され得る。
[0071]フレームに対応する各周波数領域スペクトルについて、音特徴抽出器614は、1240において電力スペクトルを計算する。このプロセスでは、各フレームについての周波数領域スペクトルは周波数帯域にセグメント化され得、各帯域におけるエネルギー値(すなわち、電力値)がそれぞれの周波数帯域の電力レベルとして計算される。したがって、周波数帯域の計算されたエネルギー値は、フレームを一意に識別する中間音特徴として使用され得るフレームの電力スペクトルを表す。
[0072]各フレーム(すなわち、各フレームの中間音特徴)についてスペクトルが取得されると、音特徴抽出器614は、1250において、各電力スペクトルに基礎フィルタを適用することによって音特徴(すなわち、抽出された音特徴)を生成する。本明細書で使用する「基礎フィルタ」は、中間音特徴よりも雑音およびひずみに対してよりロバストである抽出された音特徴を生成するために中間音特徴(たとえば、メディア音から抽出された電力スペクトル)に適用され得る、値のセット、ベクトル、または行列を指す。基礎フィルタを適用することによって中間音特徴から抽出された音特徴は、中間特徴よりも高いレベルの特徴を表し得る。たとえば、抽出された音特徴は、キャプチャされた音の周波数成分の変化または組合せを表すが、中間特徴は、キャプチャされた音の周波数成分を表すにすぎない。別の例では、抽出された音特徴は、キャプチャされた音のオンセットまたはオフセットを表し得る。
[0073]上記で生成された、抽出された音特徴は、キャプチャされた音を表す一連の値からなり得る。次いで、1260において、任意の好適な2値化アルゴリズムを採用することによって、抽出された音特徴の値を2進形式(たとえば、「0」または「1」)に変換する。一実施形態では、抽出された音特徴の各値は、抽出された音特徴の2値化された形態を生成するためにしきい値と比較され得る。たとえば、抽出された音特徴の値がしきい値に等しいかまたはそれよりも大きい場合、ビット「1」が値に割り当てられるが、値がしきい値よりも小さい場合、ビット「0」が値に割り当てられる。別の実施形態では、一連の値のうちの所定の数の値が選択され、「1」の値を割り当てられ得るが、残りの値は「0」の値を割り当てられる。たとえば、一連の値のうちのN個の最大値が選択され、「1」の値を割り当てられ得るが、残りの値は「0」の値を割り当てられる。2値化の後、1270において、抽出された音特徴として、2値化された音特徴を出力する。
[0074]いくつかの実施形態では、基準音と基準音のひずみ音との間の差を最小限に抑えるために値または行列を計算することによって、基礎フィルタが生成され得る。本明細書で使用する、「基準音セット」と総称され得る、「基準音」(または「サンプル音」)および基準音のひずみ音は、雑音のない元の音(すなわち、無ひずみ基準音)と、雑音のある元の音(すなわち、ひずみ基準音)とのセットを指す。たとえば、基準音セットは、音楽またはアナウンスなど、雑音のない元の音(すなわち、無ひずみ基準音)と、雑音のある同じ元の音(すなわち、ひずみ基準音)とから抽出され得る。
[0075]一実施形態によれば、無ひずみ基準音とそれの対応するひずみ基準音との間の誤差Eを最小限に抑えるために、基礎フィルタMが生成され得、
Figure 2015508205
のように行列形式で表され得る。
上式で、xiは、i番目の無ひずみ基準音の中間音特徴を示すベクトルであり、
i k は、i番目の無ひずみ基準音のk番目のひずみ音の中間音特徴を示すベクトルである。上式では、誤差Eは、基礎フィルタMのための係数を調整または最適化することによって減少され得る。いくつかの実施形態では、基礎フィルタMは、限定はしないが、PCA(主成分分析(Principal Components Analysis))、OPCA(指向性主成分分析(Oriented Principal Components Analysis))、ICA(独立成分分析(Independent Component Analysis))、スパースコーディング、および他の同様のアルゴリズムを含む、任意の好適な技法を採用することによって生成され得る。
[0076]上記の基礎フィルタMに基づいて、基礎フィルタMをメディア音から抽出された中間音特徴に適用することにより、中間音特徴よりも雑音およびひずみに対してよりロバストである音特徴を生成する。基礎フィルタMは、サーバ340の基礎フィルタ生成器650によって生成され、音特徴を抽出する際に使用するために、送信機648を介してモバイルデバイス130に与えられ得る。代替として、モバイルデバイス130はサーバ340に中間音特徴を送信し得、サーバ340は、音特徴を抽出する際に基礎フィルタMを使用し得る。別の実施形態では、モバイルデバイス130はサーバ340にメディア音を送信し得、サーバ340は、メディア音から中間音特徴を抽出し、音特徴を抽出する際に基礎フィルタMを使用し得る。上記のように生成された基礎フィルタMは、音特徴データベース646において基準音特徴を生成し、更新するために使用され得る。

[0077]いくつかの実施形態では、基礎フィルタがOPCA法によって生成されたとき、基礎フィルタは、基礎フィルタの4つの行を有する行列によって特徴づけられ得、以下の式に従って音特徴Cが生成され得る。
Figure 2015508205
上式で、行[a12 ・・・ an]、[b12 ・・・ bn]、[c12 ・・・ cn]、および[d2 ・・・ dn]は、それぞれ第1の基礎フィルタ、第2の基礎フィルタ、第3の基礎フィルタ、および第4の基礎フィルタを示すが、列[f12 ・・・ fn]は、メディア音から抽出された中間音特徴(たとえば、電力スペクトル)を示す。基礎フィルタ行列は、4つの基礎フィルタを使用して示されるが、基礎フィルタ行列は、中間音特徴の対応するエントリをもつ任意の好適な数の基礎フィルタを含み得る。
[0078]上記で説明したように、基礎フィルタ(たとえば、基礎フィルタ行列)は、無ひずみ基準音とひずみ基準音とを比較することによって生成され、メディア音から雑音ロバストな音特徴を抽出する際に使用され得る。複数の基礎フィルタの場合、いくつかの基礎フィルタは、他の基礎フィルタよりも雑音を低減する際に良好な結果を与え得、したがって、音特徴を抽出する際に使用するために選択され得る。上記の基礎フィルタ行列では、たとえば、類似する音特徴が、無ひずみ基準音とひずみ基準音とに基づいて第1の基礎フィルタおよび第3の基礎フィルタから生成され得る。一方、無ひずみ基準音とひずみ基準音とに基づいて、第1および第3の基礎フィルタと比べて、より類似しない音特徴が第2の基礎フィルタおよび第4の基礎フィルタから生成され得る。したがって、第1の基礎フィルタおよび第3の基礎フィルタは、以下で説明するように、メディア音から音特徴Cを生成するように選択され得る(基礎フィルタを「更新する」と呼ばれることもある)。
Figure 2015508205
[0079]図13に、いくつかの実施形態による、音特徴を抽出する際に使用する複数の基礎フィルタから少なくとも1つの基礎フィルタを選択するための方法1300のフローチャートを示す。基礎フィルタを選択するための方法1300は、図6Aおよび図6Bのサーバ340中の基礎フィルタ生成器650またはモバイルデバイス130中の基礎フィルタ生成器によって実行され得る。さらに、基礎フィルタを選択するための方法1300は、モバイルデバイス130においてメディア音を受信する前に実行され得、選択された基礎フィルタは、メディア音を受信した後にメディア音から音特徴を抽出するために使用され得る。方法1300について、説明の目的で第1〜第3のサンプル音を参照しながら説明する。
[0080]図示の方法1300では、基礎フィルタ生成器650は、1302、1304、および1306において、サンプル音データベース652から、それぞれ第1のサンプル音、第2のサンプル音、および第3のサンプル音を受信する。第1のサンプル音は、雑音のない無ひずみ音である。第2のサンプル音は、雑音を加えた第1のサンプル音のひずみ音であり、したがって、音コンテンツにおいて第1のサンプル音に類似する。第3のサンプル音は、雑音のない別の無ひずみ音であり、したがって、音コンテンツにおいて第1のサンプル音と異なる。たとえば、スピーカー(たとえば、最小雑音およびひずみをもつ高忠実度(high fidelity)スピーカー)を通して再生された音楽からキャプチャされた音は、コンテンツにおいて別のスピーカー(たとえば、低忠実度(low fidelity)スピーカー)を通して再生された同じ音楽に類似すると見なされ得る。一方、高忠実度スピーカーを通して再生されたアナウンス(たとえば、「電話の電源を切ってください」)は、コンテンツにおいて同じ高忠実度スピーカーを通して再生された音楽に類似しないと見なされ得る。
[0081]サンプル音データベース652からサンプル音を受信した後、基礎フィルタ生成器650は、初めに、1308において複数の基礎フィルタから1つの基礎フィルタを選択する。第1〜第3のサンプル音の各々から、基礎フィルタ生成器650は、1310において、上記で説明した電力スペクトルなど、中間音特徴を抽出する。中間音特徴の各々について、基礎フィルタ生成器650は、1312において、中間音特徴よりも雑音およびひずみに対してよりロバストである音特徴を生成するために、選択された基礎フィルタを各中間音特徴に適用する。
[0082]サンプル音の音特徴が生成されると、選択された基礎フィルタを適用することによってサンプル音のペアから抽出された音特徴間の類似度の程度を示す1つまたは複数の信頼性値が、ペアワイズブースティング(PB:pairwise boosting)アルゴリズムなどの任意の好適なアルゴリズムを採用することによって計算され得る。選択された基礎フィルタがサンプル音のペアの中間音特徴に適用されたとき、信頼性値は雑音低減の程度をも示し得る。一実施形態では、基礎フィルタ生成器650は、類似するサンプル音の抽出された音特徴間の差の信頼性値と、類似しないサンプル音の抽出された音特徴間の差の別の信頼性値とを計算し得る。
具体的には、1314において、第1のサンプル音の抽出された音特徴と第2のサンプル音の抽出された音特徴との間の差を計算することによって、基礎フィルタの第1の信頼性値を決定する。たとえば、第1および第2のサンプル音が、類似する音であると仮定すれば、選択された基礎フィルタを第1および第2のサンプル音の中間音特徴に適用することによって抽出された音特徴間の差が低い場合、基礎フィルタの信頼性値は高い。さらに、1316において、第1のサンプル音の抽出された音特徴と第3のサンプル音の抽出された音特徴との間の差を計算することによって、基礎フィルタの第2の信頼性値を決定する。この場合、第1および第3のサンプル音が、類似しない音であると仮定すれば、選択された基礎フィルタを第1および第3のサンプル音に適用することによって抽出された音特徴間の差が高い場合、基礎フィルタの信頼性値は高い。
[0083]1318において、基礎フィルタ生成器650は、第1および第2の信頼性値に基づいて、選択された基礎フィルタのための総合信頼性値を決定する。一実施形態では、総合信頼性値は、第1および第2の信頼性値を加算することによって計算され得る。代替として、総合信頼性値は、重み付けされた第1および第2の信頼性値を加算することによって計算され得る。
[0084]選択された基礎フィルタの総合信頼性値を生成した後、基礎フィルタ生成器650は、1320において、選択され得る別の基礎フィルタがあるかどうかを決定する。別の基礎フィルタがある場合、方法1300は、1308に戻り、総合信頼性値を決定するために次の基礎フィルタを選択する。総合信頼性値がすべての基礎フィルタについて計算されると、基礎フィルタ生成器650は、1322において、総合信頼性値に基づいて複数の基礎フィルタから少なくとも1つの基礎フィルタを選択する。一実施形態では、最も高い総合信頼性値を有する基礎フィルタが選択され得る。代替として、所定のしきい値を超える総合信頼性値を有するすべての基礎フィルタが選択され得る。
[0085]図14に、いくつかの実施形態による、複数のメディア音のうちの少なくとも1つをキャプチャすることに応答して少なくとも1つの機能を実行するように構成された、複数の音センサー1440および1450を有するモバイルデバイス1430を示す。モバイルデバイス1430において、2つの音センサー1440および1450は、たとえば、2つのマイクロフォンであり得る。各音センサー1440および1450は、周辺環境から、複数の音を含む合成音をキャプチャ(たとえば、TV1410からのメディア音と時計1420からのアラーム音とを同時にキャプチャ)し得る。一実施形態では、音センサー1440および1450の各々からキャプチャされた合成音は、たとえば、モバイルデバイス1430の異なるロケーションにおいて音をキャプチャする音センサー1440および1450により、互いに区別され得る。音センサー1440および音センサー1450から受信した異なる合成音に基づいて、モバイルデバイス1430は合成音を音の各々に分離し得る。図示の実施形態では、モバイルデバイス1430は、TV1410からのメディア音および時計1420からのアラーム音と混合された合成音をキャプチャし得る。モバイルデバイス1430は、合成音を、それぞれTV1410からのメディア音と時計1420の音とに分離し得る。
[0086]ソース(たとえば、TVまたはアラーム)に従って合成音を分離した後、モバイルデバイス1430は、分離された音の各々から音特徴を抽出し、抽出された音特徴のうちのいずれか1つが、モバイルデバイス1430上で実行されるべき機能に関連するかどうかを決定し得る。モバイルデバイス1430は、分離された音のうちの1つから、抽出された音特徴に関連する機能を実行し得る。音センサー1440および1450によってキャプチャされた複数のメディア音から複数の機能が決定され得ることを諒解されよう。
[0087]図15に、いくつかの実施形態による、複数の音から選択された1つのメディア音に応答して機能を実行するためのモバイルデバイス1430における方法1500のフローチャートを示す。この方法1500では、モバイルデバイス1430は、1510において、音センサー(たとえば、マイクロフォン)を通して、少なくとも1つのメディア音を含む音(すなわち、合成音)をキャプチャする。次いで、モバイルデバイス1430は、1520において、キャプチャされた合成音から少なくとも1つのメディア音を分離する。この実施形態では、キャプチャされた音は、独立成分分析(ICA:independent component analysis)またはブラインド音源分離(BSS:blind source separation)を採用することによって分離され得るが、それに限定されない。それらの音を分離した後、モバイルデバイス1430は、それらの音のうちの少なくとも1つがメディア音であるか、またはおそらくメディア音であるという識別に基づいて、1530において、複数の分離された音のうち1つのメディア音を選択する。一実施形態では、モバイルデバイス1430が、映画館に位置し、シアター音響システムから「電話の電源を切ってください」というアナウンスなどの音を受信したとき、他の音(たとえば、モバイルデバイスの呼出し音)は雑音と見なされ得る。この場合、モバイルデバイス1430は、キャプチャされた音を分離した後、シアター音響システムからの音を選択し、モバイルフォンからの他の音を無視し得る。1540において、モバイルデバイス1430は、選択されたメディア音から音特徴を抽出する。1550において、抽出された特徴をサーバに送信する。モバイルデバイス1430からの音特徴に基づいて、サーバは、1560において、モバイルデバイス1430において実行されるべき機能を決定し、機能を識別する情報をモバイルデバイス1430に送る。サーバから、機能を識別する情報を受信した後、モバイルデバイス1430は、1570において機能を実行する。
[0088]図16に、いくつかの他の実施形態による、複数のメディア音に応答して少なくとも1つの機能を実行するためのモバイルデバイス1430における方法1600のフローチャートを示す。この方法1600では、モバイルデバイス1430は、1610において、音センサーを通して、複数のメディア音を含む合成音をキャプチャする。次いで、モバイルデバイス1430は、1620において、キャプチャされた合成音から複数のメディア音を分離する。合成音を分離した後、モバイルデバイス1430は、1630において、特にいずれか1つの音を選択することなしに、分離されたメディア音の各々から音特徴を抽出する。モバイルデバイス1430は、1640において、抽出された音特徴をサーバに送信する。映画館の例では、モバイルデバイス1430は、シアター音響システムの音から音特徴を抽出し、モバイルデバイスの呼出し音から音特徴を抽出し、両方の音特徴をサーバに送り得る。次いで、サーバは、受信した音特徴を音特徴データベースに記憶された基準音特徴と比較し、抽出された音特徴に関連する少なくとも1つの基準音特徴を識別する。基準音特徴との一致を識別した後、サーバは、1650において、識別された少なくとも1つの基準音特徴に関連する少なくとも1つの機能を識別する情報をモバイルデバイス1430に送る。1660において、モバイルデバイス1430は当該少なくとも1つの機能を実行する。
[0089]図17に、いくつかの実施形態による、音識別に基づいて機能を制御するための本開示の方法および装置が実装され得る、ワイヤレス通信システムにおけるモバイルデバイス1700のブロック図を示す。モバイルデバイス1700は、セルラーフォン、端末、ハンドセット、携帯情報端末(PDA)、ワイヤレスモデム、コードレスフォン、タブレットなどであり得る。ワイヤレス通信システムは、符号分割多元接続(CDMA)システム、モバイル通信用グローバルシステム(GSM(登録商標):Global System for Mobile Communications)システム、広帯域CDMA(W−CDMA)(登録商標)システム、ロングタームエボリューション(LTE:Long Tern Evolution)システム、LTE Advancedシステムなどであり得る。
[0090]モバイルデバイス1700は、受信経路および送信経路を介して双方向通信を行うことが可能であり得る。受信経路上では、基地局によって送信された信号は、アンテナ1712によって受信され、受信機(RCVR)1714に与えられる。受信機1714は、受信信号を調整し、デジタル化し、さらなる処理のために調整およびデジタル化された信号をデジタルセクション1720に与える。送信経路上では、送信機(TMTR)は、デジタルセクション1720から送信されるべきデータを受信し、データを処理し、調整し、被変調信号を生成し、被変調信号はアンテナ1712を介して基地局に送信される。受信機1714および送信機1716は、CDMA、GSM、W−CDMA、LTE、LTE Advancedなどをサポートするトランシーバの一部である。
[0091]デジタルセクション1720は、たとえば、モデムプロセッサ1722、縮小命令セットコンピュータ/デジタル信号プロセッサ(RISC/DSP)1724、コントローラ/プロセッサ1726、内部メモリ1728、一般化オーディオエンコーダ1732、一般化オーディオデコーダ1734、グラフィックス/ディスプレイプロセッサ1736、および/または外部バスインターフェース(EBI)1738など、様々な処理、インターフェース、およびメモリユニットを含む。モデムプロセッサ1722は、データ送信および受信のための処理、たとえば、符号化、変調、復調、および復号を実行する。RISC/DSP1724は、モバイルデバイス1700のための一般的専用処理を実行する。コントローラ/プロセッサ1726は、デジタルセクション1720内の様々な処理およびインターフェースユニットの演算を制御する。内部メモリ1728は、デジタルセクション1720内の様々なユニットのためのデータおよび/または命令を記憶する。
[0092]一般化オーディオエンコーダ1732は、オーディオソース1742、マイクロフォン1743などからの入力信号に対して符号化を実行する。一般化オーディオデコーダ1734は、コード化オーディオデータに対して復号を実行し、出力信号をスピーカー/ヘッドセット1744に与える。一般化オーディオエンコーダ1732および一般化オーディオデコーダ1734は、必ずしも、オーディオソース、マイクロフォン1743およびスピーカー/ヘッドセット1744とのインターフェースのために必要とされるとは限らず、したがって、モバイルデバイス1700に示されていないことに留意されたい。グラフィックス/ディスプレイプロセッサ1736は、ディスプレイユニット1746に提示されるグラフィックス、ビデオ、画像、およびテキストのための処理を実行する。外部バスインターフェース(EBI)1738は、デジタルセクション1720とメインメモリ1748との間のデータの転送を可能にする。
[0093]デジタルセクション1720は、1つまたは複数のプロセッサ、DSP、マイクロプロセッサ、RISCなどを用いて実装される。デジタルセクション1720はまた、1つまたは複数の特定用途向け集積回路(ASIC)および/または何らかの他のタイプの集積回路(IC)上に作製される。
[0094]概して、本明細書で説明したいかなるデバイスも、ワイヤレスフォン、セルラーフォン、ラップトップコンピュータ、ワイヤレスマルチメディアデバイス、ワイヤレス通信パーソナルコンピュータ(PC)カード、PDA、外部または内部モデム、ワイヤレスチャネルを介して通信するデバイスなど、様々なタイプのデバイスを示す。デバイスは、アクセス端末(AT)、アクセスユニット、加入者ユニット、移動局、クライアントデバイス、モバイルユニット、モバイルフォン、モバイル、リモート局、リモート端末、リモートユニット、ユーザデバイス、ユーザ機器、ハンドヘルドデバイスなど、様々な名前を有し得る。本明細書で説明したいかなるデバイスも、命令およびデータ、ならびにハードウェア、ソフトウェア、ファームウェア、またはそれらの組合せを記憶するためのメモリを有し得る。
[0095]図18は、いくつかの実施形態に従って実装される音識別に基づいて機能を制御するための、前に説明したサーバのうちのいずれか1つであり得るサーバシステム1800を示すブロック図である。サーバシステム1800は、1つまたは複数の処理ユニット(CPU)1802と、1つまたは複数のネットワークまたは他の通信インターフェース1810と、メモリ1812と、これらの構成要素を相互接続するための1つまたは複数の通信バス1814とを含み得る。サーバシステム1800はまた、ディスプレイデバイスとキーボードとを有するユーザインターフェース(図示せず)を含み得る。
[0096]メモリ1812は、高速ランダムアクセスメモリ(たとえば、DRAM、SRAM、DDR RAMまたは他のランダムアクセス固体メモリデバイス)など、任意の好適なメモリであり得る。メモリ1812は、不揮発性メモリ(たとえば、1つまたは複数の磁気ディスクストレージデバイス、光ディスクストレージデバイス、フラッシュメモリデバイス、または他の不揮発性固体ストレージデバイス)を含み得るか、または代替的に不揮発性メモリであり得る。いくつかの実施形態では、メモリ1812は、(1つまたは複数の)CPU1802から遠隔に位置する、および/または複数のサイト中に遠隔に位置する1つまたは複数のストレージデバイスを含み得る。
[0097]メモリ1812によって表される上記のメモリデバイスのうちのいずれか1つが、前に説明したプロセス、動作、および方法のいずれかを実行および/または履行するための命令のセットに対応する、任意の数のモジュールまたはプログラムを記憶し得る。たとえば、メモリ1812は、様々な基本システムサービスを処理するためのプロシージャと、ハードウェア依存タスクを実行するためのプロシージャとを含む命令を記憶するように構成されたオペレーティングシステム1816を含み得る。メモリ1812のネットワーク通信モジュール1818は、1つまたは複数の通信ネットワークインターフェース1810(ワイヤードまたはワイヤレス)と、インターネット、他のワイドエリアネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなど、1つまたは複数の通信ネットワークとを介して、サーバシステム1800を他のコンピュータに接続するために使用され得る。メモリ1812はまた、機能が関連するメディア音の基準音特徴から機能を決定するように構成された機能決定エンジン1844と、音特徴を抽出するための基礎フィルタを生成し、更新するように構成された基礎フィルタ生成器1850とを含み得る。機能決定エンジン1844および基礎フィルタ生成器1850は、基準音特徴データ、基礎フィルタデータ、および/またはサンプル音データを記憶するように構成されたデータベース1848にアクセスし得る。
[0098]上記の識別されたモジュールまたはプログラム(すなわち、命令のセット)は、別個のソフトウェアプログラム、プロシージャまたはモジュールとして実装される必要がなく、したがって、これらのモジュールの様々なサブセットは、様々な実施形態において組み合わせられるか、あるいは並べ替えられ得ることを諒解されよう。さらに、メモリ1812は、上記で説明していない追加のモジュールおよびデータ構造を記憶し得る。
[0099]図17および図18は、本明細書で説明する実施形態の構造概略図というよりむしろ、クライアントシステムおよびサーバシステムの様々な特徴の機能説明として意図されている。実際には、当業者によって認識されるように、別々に示されたアイテムが組み合わせられ得、いくつかのアイテムが分離され得る。たとえば、図18で別々に示されたいくつかのアイテムは、単一のサーバ上で実装され得、単一のアイテムは、1つまたは複数のサーバによって実装され得る。さらに、データベース1848は、サーバの異なるセット上で実装されるか、またはサーバシステム1800の他の構成要素において実装され得る。サーバシステム1800を実装するために使用されるサーバの実際の数、およびそれらの間の特徴の割振りは、実装ごとに異なり得る。
[00100]本明細書で説明した技法は様々な方法によって実装される。たとえば、これらの技法は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの組合せで実装される。さらに、本明細書の開示に関連して説明した様々な例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、または両方の組合せが可能であるように実装され得ることを諒解されよう。ハードウェアとソフトウェアのこの互換性を明確に示すために、様々な例示的な構成要素、ブロック、モジュール、回路、およびステップについて、上記では概してそれらの機能に関して説明した。そのような機能をハードウェアとして実装するか、ソフトウェアとして実装するかは、特定の適用例および全体的なシステムに課された設計制約に依存する。説明した機能は、特定の適用例ごとに様々な方法で実装され得るが、そのような実装の決定は、本開示の範囲からの逸脱を生じるものと解釈すべきではない。
[00101]ハードウェア実装の場合、本技法を実行するために使用される処理ユニットは、1つまたは複数のASIC、DSP、デジタル信号処理デバイス(DSPD)、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細書で説明した機能を実行するように設計された他の電子ユニット、コンピュータ、またはそれらの組合せ内で実装され得る。
[00102]ソフトウェアで実装した場合、前に説明した方法、動作、およびプロセスは、1つまたは複数の命令またはコードとしてコンピュータ可読媒体上に記憶され得るか、あるいはコンピュータ可読媒体を介して送信され得る。コンピュータ可読媒体は、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む、コンピュータ記憶媒体とコンピュータ通信媒体の両方を含む。記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。限定ではなく例として、そのようなコンピュータ可読媒体は、RAM、ROM、EEPROM(登録商標)、CD−ROM、あるいは他の光ディスクストレージ、磁気ディスクストレージまたは他の磁気記憶デバイス、もしくは命令またはデータ構造の形態の所望のプログラムコードを搬送または記憶するために使用でき、コンピュータによってアクセスできる任意の他の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用するディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)およびblu−ray(登録商標)ディスク(disc)を含み、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)は、データをレーザーで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。
[00103]本開示についての以上の説明は、当業者が本開示を作成または使用することができるように与えたものである。本開示への様々な修正は当業者には容易に明らかとなり、本明細書で定義した一般原理は、本開示の趣旨または範囲から逸脱することなく他の変形形態に適用される。したがって、本開示は、本明細書で説明した例に限定されるものではなく、本明細書で開示した原理および新規の特徴に合致する最も広い範囲を与えられるべきである。
[00104]主題について構造的機能および/または方法論的行為に特有の言語で説明したが、添付の特許請求の範囲において定義される主題は、必ずしも上記で説明した特定の特徴または行為に限定されるとは限らないことを理解されたい。むしろ、上記の特定の特徴および行為は、特許請求の範囲を実施することの例示的な形態として開示される。
[00104]主題について構造的機能および/または方法論的行為に特有の言語で説明したが、添付の特許請求の範囲において定義される主題は、必ずしも上記で説明した特定の特徴または行為に限定されるとは限らないことを理解されたい。むしろ、上記の特定の特徴および行為は、特許請求の範囲を実施することの例示的な形態として開示される。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1] モバイルデバイスにおいて機能を実行するための方法であって、
前記モバイルデバイスの外部の音出力デバイスからのメディア音をキャプチャすることと、
前記キャプチャされたメディア音から音特徴を抽出することと、
前記抽出された音特徴に基づいて、基準音特徴のセット中の少なくとも1つの基準音特徴を識別することによって、前記モバイルデバイスにおいて実行されるべき前記機能を決定することと、基準音特徴の前記セット中の各基準音特徴は、複数のメディア音のうちの少なくとも1つと、複数の機能のうちの少なくとも1つとに関連し、
前記モバイルデバイスにおいて前記決定された機能を実行することと、
を備える、方法。
[2] 前記少なくとも1つの基準音特徴は広告に関連し、前記決定された機能を実行することは、前記モバイルデバイス上に前記広告を表示することを含む、[1]に記載の方法。
[3] 前記少なくとも1つの基準音特徴は、検索エンジンによって検索されるべきキーワードに関連し、前記決定された機能を実行することは、
前記キーワードを前記検索エンジンに送信することと、
前記検索エンジンから検索結果を受信することと、
前記モバイルデバイス上に前記検索結果を出力することと、
を含む、[1]に記載の方法。
[4] 前記決定された機能を実行することは、前記モバイルデバイスの構成を調整することを含む、[1]に記載の方法。
[5] 前記決定された機能を実行することは、
実行されるべき前記機能の通知を出力することと、
前記機能を実行するための入力を受信することと、
前記受信された入力に応答して前記機能を実行することと、
を含む、[1]に記載の方法。
[6] 前記キャプチャされたメディア音の音レベルが所定の音レベルよりも大きい場合、前記キャプチャされたメディア音から前記音特徴を抽出することと、前記モバイルデバイスによって実行されるべき前記機能を決定することとが実行される、[1]に記載の方法。
[7] 前記キャプチャされたメディア音から前記音特徴を抽出することは、
前記キャプチャされたメディア音から中間音特徴を抽出することと、
前記音特徴を生成するために、前記中間音特徴に少なくとも1つの基礎フィルタを適用することと、
を含む、[1]に記載の方法。
[8] 前記少なくとも1つの基礎フィルタは、複数の基礎フィルタから、前記複数の基礎フィルタの各々によって1ペアのサンプル音から抽出された音特徴間の類似度の程度に基づいて、選択される、[7]に記載の方法。
[9] 前記少なくとも1つの基準音特徴は、前記モバイルデバイス上で実行されるべき前記機能とコンテキスト情報とを含むメタデータに関連する、[1]に記載の方法。
[10] モバイルデバイスにおいて機能を実行するための方法であって、
複数の音センサーによって、少なくとも1つのメディア音を含む合成音をキャプチャすることと、
前記合成音から前記少なくとも1つのメディア音を分離することと、
前記少なくとも1つの分離されたメディア音から少なくとも1つの音特徴を抽出することと、
前記少なくとも1つの抽出された音特徴に基づいて、基準音特徴のセット中の少なくとも1つの基準音特徴を識別することによって、前記モバイルデバイスにおいて実行されるべき前記機能を決定することと、基準音特徴の前記セット中の各基準音特徴は、複数のメディア音のうちの少なくとも1つと、複数の機能のうちの少なくとも1つとに関連し、
前記モバイルデバイスにおいて前記決定された機能を実行することと、
を備える、方法。
[11] 前記少なくとも1つの基準音特徴は広告に関連し、前記決定された機能を実行することは、前記モバイルデバイス上に前記広告を表示することを含む、[10]に記載の方法。
[12] 前記少なくとも1つの基準音特徴は、検索エンジンによって検索されるべきキーワードに関連し、前記決定された機能を実行することは、
前記キーワードを前記検索エンジンに送信することと、
前記検索エンジンから検索結果を受信することと、
前記モバイルデバイス上に前記検索結果を出力することと、
を含む、[10]に記載の方法。
[13] 前記決定された機能を実行することは、前記モバイルデバイスの構成を調整することを含む、[10]に記載の方法。
[14] 前記決定された機能を実行することは、
実行されるべき前記機能の通知を出力することと、
前記機能を実行するための入力を受信することと、
前記受信された入力に応答して前記機能を実行することと、
を含む、[10]に記載の方法。
[15] 前記少なくとも1つの分離されたメディア音から前記少なくとも1つの音特徴を抽出することは、
前記少なくとも1つの分離されたメディア音から1つのメディア音を選択することと、
前記選択されたメディア音から音特徴を抽出することと、
を含む、[10]に記載の方法。
[16] 前記少なくとも1つの分離されたメディア音から前記少なくとも1つの音特徴を抽出することは、すべての分離されたメディア音から音特徴を抽出することを含む、[10]に記載の方法。
[17] モバイルデバイスによって実行されるべき機能を決定するためのサーバであって、
音特徴を受信するように構成された受信機と、前記音特徴は、前記モバイルデバイスによってキャプチャされたメディア音から抽出され、
前記音特徴に基づいて、基準音特徴のセット中の少なくとも1つの基準音特徴を識別するように構成された識別ユニットと、基準音特徴の前記セット中の各基準音特徴は、複数のメディア音のうちの少なくとも1つと、複数の機能のうちの少なくとも1つとに関連し、
前記少なくとも1つの識別された基準音特徴に基づいて前記モバイルデバイスによって実行されるべき前記機能を決定するように構成された機能決定ユニットと、
を備える、サーバ。
[18] 前記少なくとも1つの基準音特徴は広告に関連し、前記機能決定ユニットは、前記モバイルデバイス上に前記広告を表示するような前記機能を決定するように構成された、[17]に記載のサーバ。
[19] 前記少なくとも1つの基準音特徴は、検索エンジンによって検索されるべきキーワードに関連し、前記機能決定ユニットは、
前記キーワードを前記検索エンジンに送信し、
前記検索エンジンから検索結果を受信し、
前記モバイルデバイス上に前記検索結果を出力するような
前記機能を決定するように構成された、[17]に記載のサーバ。
[20] 前記機能決定ユニットは、前記モバイルデバイスの構成を調整するような前記機能を決定するように構成された、[17]に記載のサーバ。
[21] 前記機能決定ユニットは、
実行されるべき前記機能の通知を出力し、
前記機能を実行するための入力を受信し、
前記受信された入力に応答して前記機能を実行するような
前記機能を決定するように構成された、[17]に記載のサーバ。
[22] 前記音特徴は、前記キャプチャされたメディア音の音レベルが所定の音レベルよりも大きい場合、前記キャプチャされたメディア音から抽出される、[17]に記載のサーバ。
[23] 前記音特徴は、前記キャプチャされたメディア音から中間音特徴を抽出することと、前記音特徴を生成するために前記中間音特徴に少なくとも1つの基礎フィルタを適用することとによって、前記キャプチャされたメディア音から抽出される、[17]に記載のサーバ。
[24] 複数の基礎フィルタから、前記複数の基礎フィルタの各々によって1ペアのサンプル音から抽出された音特徴間の類似度の程度に基づいて、前記少なくとも1つの基礎フィルタを選択するように構成された基礎フィルタ生成器をさらに備える、[23]に記載のサーバ。
[25] 前記少なくとも1つの基準音特徴は、前記モバイルデバイスによって実行されるべき前記機能とコンテキスト情報とを含むメタデータに関連する、[17]に記載のサーバ。
[26] モバイルデバイスであって、
前記モバイルデバイスの外部の音出力デバイスからのメディア音をキャプチャするように構成された音センサーと、
前記キャプチャされたメディア音から音特徴を抽出するように構成された音特徴抽出器と、
前記音特徴に基づいて基準音特徴のセット中の少なくとも1つの基準音特徴を識別するように構成された識別ユニットと、基準音特徴の前記セット中の各基準音特徴は、複数のメディア音のうちの少なくとも1つと、複数の機能のうちの少なくとも1つとに関連し、
前記少なくとも1つの識別された基準音特徴に基づいて前記モバイルデバイスによって実行されるべき機能を決定するように構成された機能決定ユニットと、
前記モバイルデバイスにおいて前記決定された機能を実行するように構成された制御ユニットと、
を備える、モバイルデバイス。
[27] 前記少なくとも1つの基準音特徴は広告に関連し、前記制御ユニットは、前記モバイルデバイス上に前記広告を表示するように構成された、[26]に記載のモバイルデバイス。
[28] 前記少なくとも1つの基準音特徴は、検索エンジンによって検索されるべきキーワードに関連し、前記制御ユニットは、
前記キーワードを前記検索エンジンに送信することと、
前記検索エンジンから検索結果を受信することと、
前記モバイルデバイス上に前記検索結果を出力することと、
を行うように構成された、[26]に記載のモバイルデバイス。
[29] 前記制御ユニットは、前記モバイルデバイスの構成を調整するように構成された、[26]に記載のモバイルデバイス。
[30] 前記制御ユニットは、
実行されるべき前記機能の通知を出力することと、
前記機能を実行するための入力を受信することと、
前記受信された入力に応答して前記機能を実行することと、
を行うように構成された、[26]に記載のモバイルデバイス。
[31] 前記音センサーは、所定の時間間隔で環境音を受信することと、前記受信された環境音が前記メディア音であるかどうかを決定することとによって、前記メディア音をキャプチャするようにさらに構成された、[26]に記載のモバイルデバイス。
[32] モバイルデバイスにおいて機能を実行するための命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記命令は、
前記モバイルデバイスの外部の音出力デバイスからのメディア音をキャプチャすることと、
前記キャプチャされたメディア音から音特徴を抽出することと、
前記抽出された音特徴に基づいて基準音特徴のセット中の少なくとも1つの基準音特徴を識別することによって、前記モバイルデバイスにおいて実行されるべき前記機能を決定することと、基準音特徴の前記セット中の各基準音特徴は、複数のメディア音のうちの少なくとも1つと、複数の機能のうちの少なくとも1つとに関連し、
前記モバイルデバイスにおいて前記決定された機能を実行することと、
の動作をプロセッサに実行させる、非一時的コンピュータ可読記憶媒体。
[33] 前記少なくとも1つの基準音特徴は広告に関連し、前記決定された機能を実行することは、前記モバイルデバイス上に前記広告を表示することを含む、[32]に記載の媒体。
[34] 前記少なくとも1つの基準音特徴は、検索エンジンによって検索されるべきキーワードに関連し、前記決定された機能を実行することは、
前記キーワードを前記検索エンジンに送信することと、
前記検索エンジンから検索結果を受信することと、
前記モバイルデバイス上に前記検索結果を出力することと、
を含む、[32]に記載の媒体。
[35] 前記決定された機能を実行することは、前記モバイルデバイスの構成を調整することを含む、[32]に記載の媒体。
[36] 前記決定された機能を実行することは、
実行されるべき前記機能の通知を出力することと、
前記機能を実行するための入力を受信することと、
前記受信された入力に応答して前記機能を実行することと、
を含む、[32]に記載の媒体。
[37] 前記キャプチャされたメディア音の音レベルが所定の音レベルよりも大きい場合、前記キャプチャされたメディア音から前記音特徴を抽出することと、前記モバイルデバイスによって実行されるべき前記機能を決定することとが実行される、[32]に記載の媒体。
[38] 前記キャプチャされたメディア音から前記音特徴を抽出することは、
前記キャプチャされたメディア音から中間音特徴を抽出することと、
前記音特徴を生成するために前記中間音特徴に少なくとも1つの基礎フィルタを適用することと、
を含む、[32]に記載の媒体。
[39] 前記少なくとも1つの基礎フィルタは、複数の基礎フィルタから、前記複数の基礎フィルタの各々によって1ペアのサンプル音から抽出された音特徴間の類似度の程度に基づいて、選択される、[38]に記載の媒体。
[40] 前記少なくとも1つの基準音特徴は、前記モバイルデバイスにおいて実行されるべき前記機能とコンテキスト情報とを含むメタデータに関連する、[32]に記載の媒体。
[41] モバイルデバイスによって実行されるべき機能を決定するためのサーバであって、
音特徴を受信する手段と、前記音特徴は、前記モバイルデバイスによってキャプチャされたメディア音から抽出され、
前記音特徴に基づいて、基準音特徴のセット中の少なくとも1つの基準音特徴を識別する手段と、基準音特徴の前記セット中の各基準音特徴は、複数のメディア音のうちの少なくとも1つと、複数の機能のうちの少なくとも1つとに関連し、
前記少なくとも1つの識別された基準音特徴に基づいて前記モバイルデバイスによって実行されるべき前記機能を決定する手段と、
を備える、サーバ。
[42] 前記少なくとも1つの基準音特徴は広告に関連し、前記決定する手段は、前記モバイルデバイス上に前記広告を表示するような前記機能を決定するように構成された、[41]に記載のサーバ。
[43] 前記少なくとも1つの基準音特徴は、検索エンジンによって検索されるべきキーワードに関連し、前記決定する手段は、
前記キーワードを前記検索エンジンに送信し、
前記検索エンジンから検索結果を受信し、
前記モバイルデバイス上に前記検索結果を出力するような
前記機能を決定するように構成された、[41]に記載のサーバ。
[44] 前記決定する手段は、前記モバイルデバイスの構成を調整するような前記機能を決定するように構成された、[41]に記載のサーバ。
[45] 前記決定する手段は、
実行されるべき前記機能の通知を出力し、
前記機能を実行するための入力を受信し、
前記受信された入力に応答して前記機能を実行するような
前記機能を決定するように構成された、[41]に記載のサーバ。
[46] 前記音特徴は、前記キャプチャされたメディア音の音レベルが所定の音レベルよりも大きい場合、前記キャプチャされたメディア音から抽出される、[41]に記載のサーバ。
[47] 前記音特徴は、前記キャプチャされたメディア音から中間音特徴を抽出することと、前記音特徴を生成するために前記中間音特徴に少なくとも1つの基礎フィルタを適用することとによって、前記キャプチャされたメディア音から抽出される、[41]に記載のサーバ。
[48] 複数の基礎フィルタから、前記複数の基礎フィルタの各々によって1ペアのサンプル音から抽出された音特徴間の類似度の程度に基づいて、前記少なくとも1つの基礎フィルタを選択する手段をさらに備える、[47]に記載のサーバ。
[49] 前記少なくとも1つの基準音特徴は、前記モバイルデバイスによって実行されるべき前記機能とコンテキスト情報とを含むメタデータに関連する、[41]に記載のサーバ。
[50] モバイルデバイスであって、
前記モバイルデバイスの外部の音出力デバイスからのメディア音をキャプチャする手段と、
前記キャプチャされたメディア音から音特徴を抽出する手段と、
前記音特徴に基づいて、基準音特徴のセット中の少なくとも1つの基準音特徴を識別する手段と、基準音特徴の前記セット中の各基準音特徴は、複数のメディア音のうちの少なくとも1つと、複数の機能のうちの少なくとも1つとに関連し、
前記少なくとも1つの識別された基準音特徴に基づいて前記モバイルデバイスによって実行されるべき機能を決定する手段と、
前記モバイルデバイスにおいて前記決定された機能を実行する手段と、
を備える、モバイルデバイス。
[51] 前記少なくとも1つの基準音特徴は広告に関連し、前記実行する手段は、前記モバイルデバイス上に前記広告を表示するように構成された、[50]に記載のモバイルデバイス。
[52] 前記少なくとも1つの基準音特徴は、検索エンジンによって検索されるべきキーワードに関連し、前記実行する手段は、
前記キーワードを前記検索エンジンに送信することと、
前記検索エンジンから検索結果を受信することと、
前記モバイルデバイス上に前記検索結果を出力することと
を行うように構成された、[50]に記載のモバイルデバイス。
[53] 前記実行する手段は、前記モバイルデバイスの構成を調整するように構成された、[50]に記載のモバイルデバイス。
[54] 前記実行する手段は、
実行されるべき前記機能の通知を出力することと、
前記機能を実行するための入力を受信することと、
前記受信された入力に応答して前記機能を実行することと、
を行うように構成された、[50]に記載のモバイルデバイス。

Claims (54)

  1. モバイルデバイスにおいて機能を実行するための方法であって、
    前記モバイルデバイスの外部の音出力デバイスからのメディア音をキャプチャすることと、
    前記キャプチャされたメディア音から音特徴を抽出することと、
    前記抽出された音特徴に基づいて、基準音特徴のセット中の少なくとも1つの基準音特徴を識別することによって、前記モバイルデバイスにおいて実行されるべき前記機能を決定することと、基準音特徴の前記セット中の各基準音特徴は、複数のメディア音のうちの少なくとも1つと、複数の機能のうちの少なくとも1つとに関連し、
    前記モバイルデバイスにおいて前記決定された機能を実行することと、
    を備える、方法。
  2. 前記少なくとも1つの基準音特徴は広告に関連し、前記決定された機能を実行することは、前記モバイルデバイス上に前記広告を表示することを含む、請求項1に記載の方法。
  3. 前記少なくとも1つの基準音特徴は、検索エンジンによって検索されるべきキーワードに関連し、前記決定された機能を実行することは、
    前記キーワードを前記検索エンジンに送信することと、
    前記検索エンジンから検索結果を受信することと、
    前記モバイルデバイス上に前記検索結果を出力することと、
    を含む、請求項1に記載の方法。
  4. 前記決定された機能を実行することは、前記モバイルデバイスの構成を調整することを含む、請求項1に記載の方法。
  5. 前記決定された機能を実行することは、
    実行されるべき前記機能の通知を出力することと、
    前記機能を実行するための入力を受信することと、
    前記受信された入力に応答して前記機能を実行することと、
    を含む、請求項1に記載の方法。
  6. 前記キャプチャされたメディア音の音レベルが所定の音レベルよりも大きい場合、前記キャプチャされたメディア音から前記音特徴を抽出することと、前記モバイルデバイスによって実行されるべき前記機能を決定することとが実行される、請求項1に記載の方法。
  7. 前記キャプチャされたメディア音から前記音特徴を抽出することは、
    前記キャプチャされたメディア音から中間音特徴を抽出することと、
    前記音特徴を生成するために、前記中間音特徴に少なくとも1つの基礎フィルタを適用することと、
    を含む、請求項1に記載の方法。
  8. 前記少なくとも1つの基礎フィルタは、複数の基礎フィルタから、前記複数の基礎フィルタの各々によって1ペアのサンプル音から抽出された音特徴間の類似度の程度に基づいて、選択される、請求項7に記載の方法。
  9. 前記少なくとも1つの基準音特徴は、前記モバイルデバイス上で実行されるべき前記機能とコンテキスト情報とを含むメタデータに関連する、請求項1に記載の方法。
  10. モバイルデバイスにおいて機能を実行するための方法であって、
    複数の音センサーによって、少なくとも1つのメディア音を含む合成音をキャプチャすることと、
    前記合成音から前記少なくとも1つのメディア音を分離することと、
    前記少なくとも1つの分離されたメディア音から少なくとも1つの音特徴を抽出することと、
    前記少なくとも1つの抽出された音特徴に基づいて、基準音特徴のセット中の少なくとも1つの基準音特徴を識別することによって、前記モバイルデバイスにおいて実行されるべき前記機能を決定することと、基準音特徴の前記セット中の各基準音特徴は、複数のメディア音のうちの少なくとも1つと、複数の機能のうちの少なくとも1つとに関連し、
    前記モバイルデバイスにおいて前記決定された機能を実行することと、
    を備える、方法。
  11. 前記少なくとも1つの基準音特徴は広告に関連し、前記決定された機能を実行することは、前記モバイルデバイス上に前記広告を表示することを含む、請求項10に記載の方法。
  12. 前記少なくとも1つの基準音特徴は、検索エンジンによって検索されるべきキーワードに関連し、前記決定された機能を実行することは、
    前記キーワードを前記検索エンジンに送信することと、
    前記検索エンジンから検索結果を受信することと、
    前記モバイルデバイス上に前記検索結果を出力することと、
    を含む、請求項10に記載の方法。
  13. 前記決定された機能を実行することは、前記モバイルデバイスの構成を調整することを含む、請求項10に記載の方法。
  14. 前記決定された機能を実行することは、
    実行されるべき前記機能の通知を出力することと、
    前記機能を実行するための入力を受信することと、
    前記受信された入力に応答して前記機能を実行することと、
    を含む、請求項10に記載の方法。
  15. 前記少なくとも1つの分離されたメディア音から前記少なくとも1つの音特徴を抽出することは、
    前記少なくとも1つの分離されたメディア音から1つのメディア音を選択することと、
    前記選択されたメディア音から音特徴を抽出することと、
    を含む、請求項10に記載の方法。
  16. 前記少なくとも1つの分離されたメディア音から前記少なくとも1つの音特徴を抽出することは、すべての分離されたメディア音から音特徴を抽出することを含む、請求項10に記載の方法。
  17. モバイルデバイスによって実行されるべき機能を決定するためのサーバであって、
    音特徴を受信するように構成された受信機と、前記音特徴は、前記モバイルデバイスによってキャプチャされたメディア音から抽出され、
    前記音特徴に基づいて、基準音特徴のセット中の少なくとも1つの基準音特徴を識別するように構成された識別ユニットと、基準音特徴の前記セット中の各基準音特徴は、複数のメディア音のうちの少なくとも1つと、複数の機能のうちの少なくとも1つとに関連し、
    前記少なくとも1つの識別された基準音特徴に基づいて前記モバイルデバイスによって実行されるべき前記機能を決定するように構成された機能決定ユニットと、
    を備える、サーバ。
  18. 前記少なくとも1つの基準音特徴は広告に関連し、前記機能決定ユニットは、前記モバイルデバイス上に前記広告を表示するような前記機能を決定するように構成された、請求項17に記載のサーバ。
  19. 前記少なくとも1つの基準音特徴は、検索エンジンによって検索されるべきキーワードに関連し、前記機能決定ユニットは、
    前記キーワードを前記検索エンジンに送信し、
    前記検索エンジンから検索結果を受信し、
    前記モバイルデバイス上に前記検索結果を出力するような
    前記機能を決定するように構成された、請求項17に記載のサーバ。
  20. 前記機能決定ユニットは、前記モバイルデバイスの構成を調整するような前記機能を決定するように構成された、請求項17に記載のサーバ。
  21. 前記機能決定ユニットは、
    実行されるべき前記機能の通知を出力し、
    前記機能を実行するための入力を受信し、
    前記受信された入力に応答して前記機能を実行するような
    前記機能を決定するように構成された、請求項17に記載のサーバ。
  22. 前記音特徴は、前記キャプチャされたメディア音の音レベルが所定の音レベルよりも大きい場合、前記キャプチャされたメディア音から抽出される、請求項17に記載のサーバ。
  23. 前記音特徴は、前記キャプチャされたメディア音から中間音特徴を抽出することと、前記音特徴を生成するために前記中間音特徴に少なくとも1つの基礎フィルタを適用することとによって、前記キャプチャされたメディア音から抽出される、請求項17に記載のサーバ。
  24. 複数の基礎フィルタから、前記複数の基礎フィルタの各々によって1ペアのサンプル音から抽出された音特徴間の類似度の程度に基づいて、前記少なくとも1つの基礎フィルタを選択するように構成された基礎フィルタ生成器をさらに備える、請求項23に記載のサーバ。
  25. 前記少なくとも1つの基準音特徴は、前記モバイルデバイスによって実行されるべき前記機能とコンテキスト情報とを含むメタデータに関連する、請求項17に記載のサーバ。
  26. モバイルデバイスであって、
    前記モバイルデバイスの外部の音出力デバイスからのメディア音をキャプチャするように構成された音センサーと、
    前記キャプチャされたメディア音から音特徴を抽出するように構成された音特徴抽出器と、
    前記音特徴に基づいて基準音特徴のセット中の少なくとも1つの基準音特徴を識別するように構成された識別ユニットと、基準音特徴の前記セット中の各基準音特徴は、複数のメディア音のうちの少なくとも1つと、複数の機能のうちの少なくとも1つとに関連し、
    前記少なくとも1つの識別された基準音特徴に基づいて前記モバイルデバイスによって実行されるべき機能を決定するように構成された機能決定ユニットと、
    前記モバイルデバイスにおいて前記決定された機能を実行するように構成された制御ユニットと、
    を備える、モバイルデバイス。
  27. 前記少なくとも1つの基準音特徴は広告に関連し、前記制御ユニットは、前記モバイルデバイス上に前記広告を表示するように構成された、請求項26に記載のモバイルデバイス。
  28. 前記少なくとも1つの基準音特徴は、検索エンジンによって検索されるべきキーワードに関連し、前記制御ユニットは、
    前記キーワードを前記検索エンジンに送信することと、
    前記検索エンジンから検索結果を受信することと、
    前記モバイルデバイス上に前記検索結果を出力することと、
    を行うように構成された、請求項26に記載のモバイルデバイス。
  29. 前記制御ユニットは、前記モバイルデバイスの構成を調整するように構成された、請求項26に記載のモバイルデバイス。
  30. 前記制御ユニットは、
    実行されるべき前記機能の通知を出力することと、
    前記機能を実行するための入力を受信することと、
    前記受信された入力に応答して前記機能を実行することと、
    を行うように構成された、請求項26に記載のモバイルデバイス。
  31. 前記音センサーは、所定の時間間隔で環境音を受信することと、前記受信された環境音が前記メディア音であるかどうかを決定することとによって、前記メディア音をキャプチャするようにさらに構成された、請求項26に記載のモバイルデバイス。
  32. モバイルデバイスにおいて機能を実行するための命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記命令は、
    前記モバイルデバイスの外部の音出力デバイスからのメディア音をキャプチャすることと、
    前記キャプチャされたメディア音から音特徴を抽出することと、
    前記抽出された音特徴に基づいて基準音特徴のセット中の少なくとも1つの基準音特徴を識別することによって、前記モバイルデバイスにおいて実行されるべき前記機能を決定することと、基準音特徴の前記セット中の各基準音特徴は、複数のメディア音のうちの少なくとも1つと、複数の機能のうちの少なくとも1つとに関連し、
    前記モバイルデバイスにおいて前記決定された機能を実行することと、
    の動作をプロセッサに実行させる、非一時的コンピュータ可読記憶媒体。
  33. 前記少なくとも1つの基準音特徴は広告に関連し、前記決定された機能を実行することは、前記モバイルデバイス上に前記広告を表示することを含む、請求項32に記載の媒体。
  34. 前記少なくとも1つの基準音特徴は、検索エンジンによって検索されるべきキーワードに関連し、前記決定された機能を実行することは、
    前記キーワードを前記検索エンジンに送信することと、
    前記検索エンジンから検索結果を受信することと、
    前記モバイルデバイス上に前記検索結果を出力することと、
    を含む、請求項32に記載の媒体。
  35. 前記決定された機能を実行することは、前記モバイルデバイスの構成を調整することを含む、請求項32に記載の媒体。
  36. 前記決定された機能を実行することは、
    実行されるべき前記機能の通知を出力することと、
    前記機能を実行するための入力を受信することと、
    前記受信された入力に応答して前記機能を実行することと、
    を含む、請求項32に記載の媒体。
  37. 前記キャプチャされたメディア音の音レベルが所定の音レベルよりも大きい場合、前記キャプチャされたメディア音から前記音特徴を抽出することと、前記モバイルデバイスによって実行されるべき前記機能を決定することとが実行される、請求項32に記載の媒体。
  38. 前記キャプチャされたメディア音から前記音特徴を抽出することは、
    前記キャプチャされたメディア音から中間音特徴を抽出することと、
    前記音特徴を生成するために前記中間音特徴に少なくとも1つの基礎フィルタを適用することと、
    を含む、請求項32に記載の媒体。
  39. 前記少なくとも1つの基礎フィルタは、複数の基礎フィルタから、前記複数の基礎フィルタの各々によって1ペアのサンプル音から抽出された音特徴間の類似度の程度に基づいて、選択される、請求項38に記載の媒体。
  40. 前記少なくとも1つの基準音特徴は、前記モバイルデバイスにおいて実行されるべき前記機能とコンテキスト情報とを含むメタデータに関連する、請求項32に記載の媒体。
  41. モバイルデバイスによって実行されるべき機能を決定するためのサーバであって、
    音特徴を受信する手段と、前記音特徴は、前記モバイルデバイスによってキャプチャされたメディア音から抽出され、
    前記音特徴に基づいて、基準音特徴のセット中の少なくとも1つの基準音特徴を識別する手段と、基準音特徴の前記セット中の各基準音特徴は、複数のメディア音のうちの少なくとも1つと、複数の機能のうちの少なくとも1つとに関連し、
    前記少なくとも1つの識別された基準音特徴に基づいて前記モバイルデバイスによって実行されるべき前記機能を決定する手段と、
    を備える、サーバ。
  42. 前記少なくとも1つの基準音特徴は広告に関連し、前記決定する手段は、前記モバイルデバイス上に前記広告を表示するような前記機能を決定するように構成された、請求項41に記載のサーバ。
  43. 前記少なくとも1つの基準音特徴は、検索エンジンによって検索されるべきキーワードに関連し、前記決定する手段は、
    前記キーワードを前記検索エンジンに送信し、
    前記検索エンジンから検索結果を受信し、
    前記モバイルデバイス上に前記検索結果を出力するような
    前記機能を決定するように構成された、請求項41に記載のサーバ。
  44. 前記決定する手段は、前記モバイルデバイスの構成を調整するような前記機能を決定するように構成された、請求項41に記載のサーバ。
  45. 前記決定する手段は、
    実行されるべき前記機能の通知を出力し、
    前記機能を実行するための入力を受信し、
    前記受信された入力に応答して前記機能を実行するような
    前記機能を決定するように構成された、請求項41に記載のサーバ。
  46. 前記音特徴は、前記キャプチャされたメディア音の音レベルが所定の音レベルよりも大きい場合、前記キャプチャされたメディア音から抽出される、請求項41に記載のサーバ。
  47. 前記音特徴は、前記キャプチャされたメディア音から中間音特徴を抽出することと、前記音特徴を生成するために前記中間音特徴に少なくとも1つの基礎フィルタを適用することとによって、前記キャプチャされたメディア音から抽出される、請求項41に記載のサーバ。
  48. 複数の基礎フィルタから、前記複数の基礎フィルタの各々によって1ペアのサンプル音から抽出された音特徴間の類似度の程度に基づいて、前記少なくとも1つの基礎フィルタを選択する手段をさらに備える、請求項47に記載のサーバ。
  49. 前記少なくとも1つの基準音特徴は、前記モバイルデバイスによって実行されるべき前記機能とコンテキスト情報とを含むメタデータに関連する、請求項41に記載のサーバ。
  50. モバイルデバイスであって、
    前記モバイルデバイスの外部の音出力デバイスからのメディア音をキャプチャする手段と、
    前記キャプチャされたメディア音から音特徴を抽出する手段と、
    前記音特徴に基づいて、基準音特徴のセット中の少なくとも1つの基準音特徴を識別する手段と、基準音特徴の前記セット中の各基準音特徴は、複数のメディア音のうちの少なくとも1つと、複数の機能のうちの少なくとも1つとに関連し、
    前記少なくとも1つの識別された基準音特徴に基づいて前記モバイルデバイスによって実行されるべき機能を決定する手段と、
    前記モバイルデバイスにおいて前記決定された機能を実行する手段と、
    を備える、モバイルデバイス。
  51. 前記少なくとも1つの基準音特徴は広告に関連し、前記実行する手段は、前記モバイルデバイス上に前記広告を表示するように構成された、請求項50に記載のモバイルデバイス。
  52. 前記少なくとも1つの基準音特徴は、検索エンジンによって検索されるべきキーワードに関連し、前記実行する手段は、
    前記キーワードを前記検索エンジンに送信することと、
    前記検索エンジンから検索結果を受信することと、
    前記モバイルデバイス上に前記検索結果を出力することと
    を行うように構成された、請求項50に記載のモバイルデバイス。
  53. 前記実行する手段は、前記モバイルデバイスの構成を調整するように構成された、請求項50に記載のモバイルデバイス。
  54. 前記実行する手段は、
    実行されるべき前記機能の通知を出力することと、
    前記機能を実行するための入力を受信することと、
    前記受信された入力に応答して前記機能を実行することと、
    を行うように構成された、請求項50に記載のモバイルデバイス。
JP2014556569A 2012-02-08 2013-01-29 音識別に基づくモバイルデバイスの制御 Pending JP2015508205A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261596576P 2012-02-08 2012-02-08
US61/596,576 2012-02-08
US13/752,080 2013-01-28
US13/752,080 US9524638B2 (en) 2012-02-08 2013-01-28 Controlling mobile device based on sound identification
PCT/US2013/023607 WO2013119418A1 (en) 2012-02-08 2013-01-29 Controlling mobile device based on sound identification

Publications (2)

Publication Number Publication Date
JP2015508205A true JP2015508205A (ja) 2015-03-16
JP2015508205A5 JP2015508205A5 (ja) 2016-03-03

Family

ID=48902784

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014556569A Pending JP2015508205A (ja) 2012-02-08 2013-01-29 音識別に基づくモバイルデバイスの制御

Country Status (6)

Country Link
US (1) US9524638B2 (ja)
EP (1) EP2813061A1 (ja)
JP (1) JP2015508205A (ja)
KR (1) KR20140133501A (ja)
CN (1) CN104094580A (ja)
WO (1) WO2013119418A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140372210A1 (en) * 2013-06-18 2014-12-18 Yahoo! Inc. Method and system for serving advertisements related to segments of a media program
CN103414830A (zh) * 2013-08-28 2013-11-27 上海斐讯数据通信技术有限公司 基于语音实现快速关机的方法及系统
EP3201730A1 (en) * 2014-10-03 2017-08-09 Seiko Epson Corporation Head mounted display device adapted to the environment
MX2018012484A (es) 2016-04-15 2019-03-01 Walmart Apollo Llc Sistemas y metodos para facilitar la adquisicion en una instalacion minorista fisica.
CA3021014A1 (en) * 2016-04-15 2017-10-19 Walmart Apollo, Llc Systems and methods for providing content-based product recommendations
US9928025B2 (en) * 2016-06-01 2018-03-27 Ford Global Technologies, Llc Dynamically equalizing receiver
US10225730B2 (en) 2016-06-24 2019-03-05 The Nielsen Company (Us), Llc Methods and apparatus to perform audio sensor selection in an audience measurement device
US11172293B2 (en) * 2018-07-11 2021-11-09 Ambiq Micro, Inc. Power efficient context-based audio processing
WO2020012145A1 (en) * 2018-07-12 2020-01-16 Source to Site Accessories Limited System for identifying electrical devices
CN111061156A (zh) * 2018-10-17 2020-04-24 上海摩软通讯技术有限公司 智能家居系统的提醒控制方法及智能家居系统
KR102532424B1 (ko) 2018-12-03 2023-05-12 한국전기연구원 탄소나노소재-나노금속 복합체 및 이의 제조방법
US11934915B2 (en) 2019-11-20 2024-03-19 Farzad Salimi Jazi Synthetic standardized wave identifiers for representing and classifying entities
WO2021102342A1 (en) 2019-11-20 2021-05-27 Salimi Jazi Farzad Synthetic standardized wave identifiers for representing and classifying entities

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11120468A (ja) * 1997-10-16 1999-04-30 Nec Shizuoka Ltd 聴覚障害者用生活支援装置
JP2007028391A (ja) * 2005-07-20 2007-02-01 Sanyo Electric Co Ltd マイクロホンアレー装置
JP2007215198A (ja) * 2007-02-22 2007-08-23 Sony Corp 情報処理装置、検索サーバ、記録媒体
US20080167867A1 (en) * 2007-01-05 2008-07-10 Fein Gene S System and Method for Altering Settings on Electronic Devices Based upon Sensing Stimuli
JP2011243204A (ja) * 2010-05-19 2011-12-01 Google Inc 番組コンテキストに基づくモバイルコンテンツの提示

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI942753A (fi) * 1994-06-10 1995-12-11 Nokia Mobile Phones Ltd Menetelmä jänniteregulaattorin sisältävän elektronisen laitteen tehonkulutuksen pienentämiseksi
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
DE19816933A1 (de) * 1998-04-16 1999-10-21 Nokia Mobile Phones Ltd Verfahren zum Steuern einer elektronischen Einrichtung, insbesondere einer Mobilstation eines Mobilfunknetzes
US6766295B1 (en) * 1999-05-10 2004-07-20 Nuance Communications Adaptation of a speech recognition system across multiple remote sessions with a speaker
JP2002041276A (ja) 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体
WO2003096562A1 (en) * 2002-05-08 2003-11-20 Neomtel Co., Ltd. Method for playing interactive contents for standby mode in a mobile communication terminal, and a mobile communication terminal of the same
US7106103B2 (en) 2003-12-10 2006-09-12 Hewlett-Packard Development Company, L.P. Selectable integrated circuit interface
EP1581026B1 (en) 2004-03-17 2015-11-11 Nuance Communications, Inc. Method for detecting and reducing noise from a microphone array
US7308516B2 (en) 2004-04-26 2007-12-11 Atmel Corporation Bi-directional serial interface for communication control
US20060031618A1 (en) 2004-05-20 2006-02-09 Hansquine David W Single wire and three wire bus interoperability
JP2006154926A (ja) 2004-11-25 2006-06-15 Denso Corp キャラクタ表示を利用した電子機器操作システム及び電子機器
KR100703703B1 (ko) * 2005-08-12 2007-04-06 삼성전자주식회사 음향 입출력 확장 방법 및 장치
US8185680B2 (en) 2006-02-06 2012-05-22 Standard Microsystems Corporation Method for changing ownership of a bus between master/slave devices
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8121299B2 (en) * 2007-08-30 2012-02-21 Texas Instruments Incorporated Method and system for music detection
DE102008039330A1 (de) * 2008-01-31 2009-08-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Berechnen von Filterkoeffizienten zur Echounterdrückung
US8077022B2 (en) * 2008-06-11 2011-12-13 Flextronics Automotive Inc. System and method for activating vehicular electromechanical systems using RF communications and voice commands received from a user positioned locally external to a vehicle
US20110069937A1 (en) * 2009-09-18 2011-03-24 Laura Toerner Apparatus, system and method for identifying advertisements from a broadcast source and providing functionality relating to the same
CN201601759U (zh) 2010-03-18 2010-10-06 青岛海信电器股份有限公司 电视机语音控制系统及采用该语音系统的电视机
KR20120034378A (ko) * 2010-10-01 2012-04-12 엔에이치엔(주) 사운드 인식을 통한 광고 정보 제공 시스템 및 방법
CN102065260A (zh) 2010-11-15 2011-05-18 冠捷显示科技(厦门)有限公司 基于背景环境变化自动调节音量的电视
US9224388B2 (en) * 2011-03-04 2015-12-29 Qualcomm Incorporated Sound recognition method and system
US8595015B2 (en) * 2011-08-08 2013-11-26 Verizon New Jersey Inc. Audio communication assessment

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11120468A (ja) * 1997-10-16 1999-04-30 Nec Shizuoka Ltd 聴覚障害者用生活支援装置
JP2007028391A (ja) * 2005-07-20 2007-02-01 Sanyo Electric Co Ltd マイクロホンアレー装置
US20080167867A1 (en) * 2007-01-05 2008-07-10 Fein Gene S System and Method for Altering Settings on Electronic Devices Based upon Sensing Stimuli
JP2007215198A (ja) * 2007-02-22 2007-08-23 Sony Corp 情報処理装置、検索サーバ、記録媒体
JP2011243204A (ja) * 2010-05-19 2011-12-01 Google Inc 番組コンテキストに基づくモバイルコンテンツの提示

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KE, YAN ET AL.: "Computer Vision for Music Identification", IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION [ONLINE], JPN6016036370, 25 July 2005 (2005-07-25), ISSN: 0003402534 *

Also Published As

Publication number Publication date
US20130201800A1 (en) 2013-08-08
CN104094580A (zh) 2014-10-08
EP2813061A1 (en) 2014-12-17
WO2013119418A1 (en) 2013-08-15
KR20140133501A (ko) 2014-11-19
US9524638B2 (en) 2016-12-20

Similar Documents

Publication Publication Date Title
US9524638B2 (en) Controlling mobile device based on sound identification
EP2681895B1 (en) Method and apparatus for grouping client devices based on context similarity
US10083687B2 (en) Method and apparatus for identifying acoustic background environments based on time and speed to enhance automatic speech recognition
CN104954555B (zh) 一种音量调节方法及系统
US9685156B2 (en) Low-power voice command detector
JP5819435B2 (ja) モバイルデバイスのロケーションを決定するための方法および装置
US9143571B2 (en) Method and apparatus for identifying mobile devices in similar sound environment
US9167520B2 (en) Controlling applications in a mobile device based on environmental context
JP2013013092A (ja) 双方向ストリーミングコンテンツ処理方法、装置、及びシステム
JP2016522910A (ja) キーワード検出のための適応的オーディオフレーム処理
US20150066925A1 (en) Method and Apparatus for Classifying Data Items Based on Sound Tags
US9794620B2 (en) System and method for providing related content at low power, and computer readable recording medium having program recorded therein
JP2017509009A (ja) オーディオストリームの中の音楽の追跡
US20170371615A1 (en) Alerting a user to a change in an audio stream
US9514129B2 (en) Technologies for providing textual information and systems and methods using the same
US20150370892A1 (en) System and method for audio identification

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160920

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161209

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170124