JP5538415B2 - 多感覚応用音声検出 - Google Patents

多感覚応用音声検出 Download PDF

Info

Publication number
JP5538415B2
JP5538415B2 JP2011535763A JP2011535763A JP5538415B2 JP 5538415 B2 JP5538415 B2 JP 5538415B2 JP 2011535763 A JP2011535763 A JP 2011535763A JP 2011535763 A JP2011535763 A JP 2011535763A JP 5538415 B2 JP5538415 B2 JP 5538415B2
Authority
JP
Japan
Prior art keywords
mobile device
user
posture
voice
orientation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011535763A
Other languages
English (en)
Other versions
JP2012508530A (ja
Inventor
デイヴ・バーク
マイケル・ジェイ・ルボー
コンラッド・ジャンノ
トラウスティ・クリスティアンソン
ジョン・ニコラス・ジトコフ
アンドリュー・ダブリュー・シニア
Original Assignee
グーグル・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by グーグル・インコーポレーテッド filed Critical グーグル・インコーポレーテッド
Publication of JP2012508530A publication Critical patent/JP2012508530A/ja
Application granted granted Critical
Publication of JP5538415B2 publication Critical patent/JP5538415B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/025Services making use of location information using location based information parameters
    • H04W4/026Services making use of location information using location based information parameters using orientation information, e.g. compass
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/12Details of telephonic subscriber devices including a sensor for measuring a physical value, e.g. temperature or motion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Environmental & Geological Engineering (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

関連出願の相互参照
本出願は、参照により本明細書に組み込まれている、2008年11月10日に出願した米国仮出願第61/113,061号、名称「Multisensory Speech Detection」の優先権を主張するものである。
本明細書は、音声検出に関するものである。
コンピュータのプロセッサのサイズが縮小され、コストが低減されるとともに、モバイルコンピューティングデバイスの普及がますます拡大してきている。携帯できるように設計されている多くのモバイルコンピューティングデバイスは、軽量であり、着用したり、ポケットまたはハンドバッグに入れて運べるほどに小さい。しかし、現代的なモバイルコンピューティングデバイスの携帯性は高く付く、つまり、今日のモバイルコンピューティングデバイスは、多くの場合、デバイスのサイズを縮小し、重量を減らすために小さな入力デバイスを組み込んでいるということである。例えば、多くの現行のモバイルデバイスは、多くの人々(特にあまり器用でない人々)にとって使いにくい小型キーボードを採用している。
モバイルコンピューティングデバイスによっては、ユーザーが音声を使用してデバイスをインタラクティブに操作できるようにすることによってこのような問題に対処しているものもある。例えば、ユーザーは、自分の連絡先リストに載っている誰かに電話するのに、音声コマンド(例えば、「call」)とその人の名前を電話口に単純に発声するだけでよい。しかし、音声は、環境によっては背景雑音から区別しにくく、ユーザーにとって自然な形でユーザー音声をキャプチャすることが難しい場合がある。それに加えて、音声の記録を正しいタイミングで開始することも難題である。例えば、ユーザーが発声した後に記録が開始する場合、その結果として行われる記録に、ユーザーの音声コマンドが完全には含まれない可能性がある。さらに、ユーザーは、発声した後に発声したコマンドがデバイスによって認識されなかったという通知を受けることもあり、これは、ユーザーを苛立たせると思われる。
一般に、本明細書では、音声を検出するためのシステムおよび技術を説明する。いくつかの実装において、モバイルコンピューティングデバイスは、デバイスの向き(つまり、ユーザーからの距離もしくはユーザーとの近さ、および/または角度)の変化に基づいてユーザーがデバイスに向かって発声している(または発声しようとしている)かどうかを判定することができる。例えば、デバイスは、1つまたは複数のセンサーを使用して、ユーザーがデバイスを自分の顔の前からユーザーの耳のところのデバイスによる通常の通話位置に持ってくるなどデバイスを使った特定のジェスチャーをしたかどうかを判定することができる。ジェスチャーが検出された場合、デバイスは音を発して、ユーザーが発声を開始し、録音が開始できることを示すことができる。デバイスをユーザーの耳から遠ざける第2のジェスチャーを、録音を停止するトリガーとして使用することができる。
それに加えて、デバイスは、デバイスをインタラクティブに操作するモードに対応する指定された「姿勢」であるかどうかを判定することができる。デバイスが、事前定義済みの姿勢に置かれると、デバイスは、録音を開始することができる。デバイスがその姿勢から外れると、録音は停止するものとしてよい。場合によっては、聴覚、触覚、または視覚のフィードバック(もしくはこれら3つの組み合わせ)を与えることで、デバイスが録音を開始したか、または停止したかを示すことができる。
一実装において、多感覚応用音声検出(multisensory speech detection)をコンピュータで実施する方法が開示される。この方法は、モバイルデバイスの向きを判定するステップと、モバイルデバイスの向きに基づいてモバイルデバイス動作モードを決定するステップとを含む。この方法は、検出された動作モードに基づいて音声検出を開始するまたは終了した時を指定する音声検出パラメータを識別するステップと、それらの音声検出パラメータに基づいてモバイルデバイスのユーザーからの音声を検出するステップとをさらに含む。
いくつかの態様において、モバイルデバイスの向きを検出するステップは、モバイルデバイスの角度を検出するステップをさらに含む。さらに他の態様では、モバイルデバイスの向きを検出するステップは、モバイルデバイスからモバイルデバイスのユーザーへの近接度を検出するステップをさらに含む。また、モバイルデバイスの動作モードを決定するステップは、ベイジアンネットワークを使用してモバイルデバイスの移動を識別するステップを含む。
他の実装において、多感覚応用音声検出のためのシステムが開示される。システムは、モバイルデバイスのユーザーに関係するモバイルデバイスの向きを検出する少なくとも1つのセンサーを有する1つまたは複数のコンピュータを備えることができる。システムは、モバイルデバイスの検出された向きに基づいてモバイルデバイスの姿勢を識別する姿勢識別器をさらに備えることができる。それに加えて、システムは、音声検出が開始または終了した時を指定する選択された音声検出パラメータを識別するスピーチエンドポインタ(speech endpointer)を備えることができる。
いくつかの態様において、システムは、加速度計を備えることができる。このシステムは、近接センサーを備えることもできる。それに加えて、システムは、モバイルデバイスの移動を分類するジェスチャー分類器(gesture classifier)も備えることができる。
本明細書で説明されているシステムおよび技術は、以下の利点のうちの1つまたは複数を備えることができる。第1に、システムを使用することで、ユーザーは自然な形でモバイルデバイスをインタラクティブに操作することができる。第2に、録音された音声は、より高い信号対雑音比を有することができる。第3に、システムは、音声を途切れさせることなく録音することができる。第4に、システムは、ユーザーが発声を開始する前にオーディオ信号品質に関するフィードバックを供給することができる。多感覚応用音声検出機能の1つまたは複数の実施形態の詳細は、添付図面および以下の説明で述べられる。多感覚応用音声検出機能の他の特徴および利点は、説明および図面、さらに請求項から明白になるであろう。
多感覚応用音声検出の一例を示す概念図である。 例示的な多感覚応用音声検出システムを示すブロック図である。 多感覚応用音声検出の例示的なプロセスを示す図である。 多感覚応用音声検出の例示的な代替的プロセスを示す図である。 ジェスチャー認識のための座標系を示す図である。 ジェスチャー認識のための座標系を示す図である。 ジェスチャー認識のための例示的な状態機械を示す図である。 ジェスチャー認識のための状態機械の他の実装を示す図である。 姿勢および音声検出のためのベイジアンネットワークを示す図である。 姿勢および音声検出のためのベイジアンネットワークを示す図である。 エンドポインタ状態機械を示す図である。 姿勢および音声検出のための動的ベイジアンネットワークを示す図である。 オーディオ信号品質に関するフィードバックを返すための例示的なグラフィカルユーザーインターフェイスのスクリーンショットである。 オーディオ信号品質に関するフィードバックを返すための例示的なグラフィカルユーザーインターフェイスのスクリーンショットである。 背景雑音ベースのモード選択に対する例示的なプロセスを示す図である。 背景雑音レベル推定の例示的な方法を示す図である。 本明細書で説明されている多感覚応用音声検出方法の実施形態を実装する例示的なモバイルデバイスの概略表現図である。 図15のデバイスの内部アーキテクチャを例示するブロック図である。 図15のデバイスによって使用されるオペレーティングシステムの例示的なコンポーネントを例示するブロック図である。 図17のオペレーティングシステムカーネルによって実装される例示的なプロセスを示すブロック図である。 本明細書で説明されている技術を実装するために使用されうるコンピュータデバイスおよびモバイルコンピュータデバイスの一例を示す図である。
さまざまな図面内の類似の参照記号は、類似の要素を示す。
本明細書では、音声を検出するためのシステムおよび技術を説明する。いくつかの実装において、モバイルデバイスは、ユーザーからモバイルデバイスまで距離、さらにはユーザーとモバイルデバイスとがなす角度を判定することができる。この情報に基づいて、デバイスは、録音の開始または停止を行うことができる。図解例において、ユーザーは、デバイスを所定の位置に、例えば、耳の隣に置くことができる。デバイスは、この位置に入ったことを検出して、録音を開始することができる。ユーザーがデバイスを移動してこの位置から外すと、デバイスはユーザー入力の記録を停止することができる。録音された音声は、デバイス上で実行されているアプリケーションもしくは外部デバイス上で実行されているアプリケーションへの入力として使用することができる。
図1は、多感覚応用音声検出を示す概念図100である。図100は、モバイルデバイス110を手に持っているユーザー105を示している。モバイルデバイス110は、携帯電話、PDA、ラップトップコンピュータ、または他の適切なポータブルコンピューティングデバイスであってもよい。図1に示されている図解例において、ユーザー105は、モバイルデバイス110上で実行されているアプリケーションをインタラクティブに操作することを望んでいる場合がある。例えば、ユーザーは、GOOGLE MAPSなどのウェブベースのアプリケーションを使用して会社の住所を検索したい場合がある。典型的には、ユーザー105は、モバイルデバイス110を使用して、会社の名称を適切なウェブサイト上の検索ボックスに入力し、検索を実行する。しかし、ユーザー105は、デバイス110を使用して必要な情報をウェブサイトの検索ボックスに入力したくないか、または入力することができないことがある。
図1に示されている多感覚応用音声検出の図解例において、ユーザー105は、検索を実行するのに、モバイルデバイス110をただ単に自然な操作位置に置き、検索語を言うだけでよい。例えば、いくつかの実装において、デバイス110は、デバイス110の向きを識別することによって、録音を開始もしくは終了することができる。録音された音声(または録音された音声に対応するテキスト)を、選択された検索アプリケーションに入力として供給することができる。
図1の文字「A」、「B」、および「C」は、多感覚応用音声検出の図解例における異なる状態を表している。状態Aでは、ユーザー105は、デバイス110を非動作位置に保持している、つまり、所定の角度を外れる位置、またはユーザー105から離れすぎている位置、または場合によっては、その両方の位置に保持している。例えば、使用している間、ユーザー105は、デバイス110を図1に示されているように自分のそばに保持するか、またはデバイスをポケットもしくはバッグの中に入れておくことができる。デバイス110が、そのような向きである場合、デバイス110は、使用中でないと思われ、ユーザー105がモバイルデバイス110に向かって発声していることはありえない。そのようなものとして、デバイス110は、非録音モードに置かれるものとしてよい。
ユーザー105が、デバイス110を使用したい場合、ユーザー105は、デバイス110を動作モード/位置にすることができる。図100に示されている図解例において、デバイス110は、姿勢と称される、選択された動作位置に置かれる時を判定することができる。状態Bは、モバイルデバイス110がいくつかの例示的な姿勢にあることを示している。例えば、状態Bの一番左の図は、「電話姿勢」115を示している。電話姿勢は、いくつかの実装において、ユーザー105がモバイルデバイス110を電話口に発声するために一般に使用される位置に保持していることに対応しうる。例えば、図1に示されているように、デバイス110をユーザー105の頭部の横に保持し、デバイス110のスピーカーをユーザー105の耳の近くに保持するものとしてよい。デバイス110をこのように保持することで、ユーザー105がデバイス110から発せられる音声を聞き取り、デバイス110に接続されているマイクロホンに発声することがしやすくなるものとしてよい。
状態Bに示されている真ん中の図は、ユーザー105がデバイス110を「PDA姿勢」120に保持していることを表している。例えば、図1に示されているように、PDA姿勢120は、ユーザー105がモバイルデバイス110をほぼ腕の長さ分のところに保持し、ユーザー105がモバイルデバイス110を見て、インタラクティブに操作できる位置に保持していることに対応しているものとしてよい。例えば、この位置では、ユーザー105は、デバイス110のキーパッド上のボタン、またはデバイス110の画面上に表示される仮想キーボード上のボタンを押すことができる。場合によっては、ユーザー105は、この位置で音声コマンドをデバイス110に入力することもできる。
最後に、状態Bの一番右の図は、「トランシーバー姿勢」125を示している。場合によっては、トランシーバー姿勢125は、ユーザー105がモバイルデバイス110を自分の顔の前に持ってきて、デバイス110のマイクロホンをユーザー105の口に近づける状態を含むものとしてよい。この位置では、ユーザー105はデバイス110のマイクロホンに直接発声しつつ、デバイス110に結合されているスピーカーホンから発せられる音を聞くこともできる。
図1は3つの姿勢を示しているけれども、他の姿勢も使用することができる。例えば、代替的実装において、モバイルデバイスが開かれているのか、それとも閉じられているのかを考慮するできる姿勢であってもよい。例えば、図1に示されているモバイルデバイス110は、「折り畳み式携帯電話」、つまり、ヒンジを使用して折り畳んだり、拡げたりできる2つまたはそれ以上の部分(典型的には蓋と基部)を備えるフォームファクタを有する電話機とすることができる。これらのデバイスのうちのいくつかについて、姿勢に、電話機の向きに加えて(または代わりに)、電話機が開いているか、または閉じているかの状態を含めることができる。例えば、モバイルデバイス110が折り畳み式携帯電話である場合、図1に示されている電話姿勢115は、デバイスが開いているという状態を含むことができる。ここで取りあげている例は、折り畳み式携帯電話について説明しているけれども、他のタイプもしくはフォームファクタ(例えば、旋回する、もしくはスライドさせて開く電話機)を使用することもできる。
デバイス110が、所定の姿勢にあると識別された場合、デバイス110は、ユーザー115からの音声などの聴覚情報の記録を開始することができる。例えば、状態Cは、デバイス110が電話姿勢にある間にユーザーがデバイス110に向かって発声している状態を示している。いくつかの実装では、デバイス110は、デバイス110が電話姿勢115で検出されたときに聴覚情報の記録を開始することができるため、デバイス110は、ユーザー105が発声を開始する直前に(または開始したとたんに)録音を開始することができる。そのようなものとして、デバイス110は、ユーザーの発声の開始をキャプチャすることができる。
デバイス110が姿勢から外れると、デバイス110は録音を停止することができる。例えば、図1に示されている例では、ユーザー105がデバイス110への発声を終了した後、ユーザー105は、例えば、デバイス110を状態Aに示されているように自分の横に置くことによってデバイス110を非動作位置に戻すことができる。デバイス110が姿勢(この例では電話姿勢115)から外れると、デバイス110は録音を停止することができる。例えば、デバイス110が、選択された一組の角度の範囲外にあり、および/またはユーザー105から離れすぎた場合に、デバイス110は、その録音動作を停止することができる。場合によっては、この時点までにデバイス110によって記録された情報は、そのデバイス上で、またはリモートデバイス上で実行されているアプリケーションに供給することができる。例えば、上記のように、聴覚情報をテキストに変換し、デバイス110によって実行されている検索アプリケーションに供給することができる。
図2は、例示的な多感覚応用音声検出システムを示すブロック図200である。ブロック図200は、例示的なモバイルデバイス205を示している。デバイス205は、場合によってはユーザーへの出力の表示とユーザー入力の受け入れの両方を行うために使用できる画面207を備える。例えば、画面207は、英数字を入力するために使用できるキーパッドを表示することができるタッチスクリーンであってもよい。デバイス205は、情報をデバイスに入力するために使用することもできる物理的キーパッド209を備えていてもよい。場合によっては、デバイス205は、デバイス205上で実行されている音声アプリケーションの起動および停止を行うボタン(図示せず)を、電話機のキーパッド209または他の部分(例えば、電話機の片面にある)に備えることができる。最後に、デバイス205は、場合によっては、とりわけ、デバイス205のグラフィカルユーザーインターフェイス上に表示されるポインティング要素を操作するために使用できるトラックボール211を組み込むことができる。
デバイス205は、とりわけ発声の滑らかさを検出するために使用できる1つまたは複数のセンサーを備えることができる。例えば、デバイス205は、加速度計213を備えることができる。加速度計213は、デバイスの角度を測定するために使用することができる。例えば、加速度計213は、デバイス205の角度を測定し、この情報を他のデバイス205のコンポーネントに供給することができる。
加速度計213に加えて、デバイス205は、近接センサー215を備えることもできる。場合によっては、近接センサー215は、デバイス205がユーザーからどれだけ離れているかを判定するために使用することができる。例えば、近接センサー215は、赤外線を放射し、反射した信号を使用して、物体までの距離を計算する赤外線センサーを備えることができる。代替的実装において、他のタイプのセンサーを使用することもできる。例えば、センサーは、さまざまな種類のセンサーがあるが、特に、容量センサー、光電子センサー、または誘導センサーであるものとしてよい。
デバイスは、カメラ219を備えることもできる。カメラ219からの信号を処理して、デバイス205の姿勢に関する補足情報を導出することができる。例えば、カメラ219が、ユーザーの方を向いている場合、カメラ219は、ユーザーの近接度(proximity)を測定することができる。場合によっては、カメラ219は、水平線、車両、歩行者などの知られている角度を持つ特徴を使用してユーザーの角度を判定することができる。例えば、カメラ219が、ユーザーが含まれない一般的なシーンに焦点を合わせている場合、カメラ219は、絶対座標系においてシーン内の向きを決定することができる。しかし、カメラ219が、ユーザーの方を向いている場合、カメラ219は、ユーザーに関する向きを判定することができる。カメラ219が、一般的なシーンとユーザーの両方に向いている場合、カメラ219は、ユーザーとそのシーンに関する両方の向きを判定することができ、それに加えて、ユーザーがシーン内のどこにいるかを判定することができる。
デバイスは、メモリ231に格納されている命令を実行する中央演算処理装置233を備えることもできる。プロセッサ233は、I/Oインターフェイス235を介して他のデバイスコンポーネントとの間の双方向のやり取りと通信とを調整する役割を持つ複数のプロセッサを備えることもできる。デバイス205は、インターネット240を通じてリモートコンピューティングデバイス245と通信することができる。ジェスチャー分類器225、姿勢識別器227、音声検出器221、話者識別器223、およびスピーチエンドポインタ229によって実行される処理の一部または全部を、リモートコンピューティングデバイス245によって実行することができる。
マイクロホン217は、聴覚入力をキャプチャし、その入力を音声検出器221および話者識別器223の両方に供給することができる。いくつかの実装において、音声検出器221は、ユーザーがデバイス205に向かって発声しているかどうかを判定することができる。例えば、音声検出器221は、マイクロホン217によってキャプチャされた聴覚入力が閾値を超えているかどうかを判定することができる。その入力が閾値を超えている場合、音声検出器221は、音声が検出されたことを示す値を別のデバイス205のコンポーネントに渡すことができる。場合によっては、デバイス205は、将来使用するためにこの値をメモリ231(たとえは、RAMもしくはハードドライブ)に格納することができる。
場合によっては、音声検出器221は、ユーザーがいつ発声しているかを判定することができる。例えば、音声検出器221は、キャプチャされたオーディオ信号が音声を含むか、または背景雑音のみからなるかどうかを判定することができる。場合によっては、音声検出器221は、最初に検出された音声が雑音であると想定してもよい。最初に検出されたオーディオ信号より高い指定された大きさ(例えば、6dB)のオーディオ信号は、音声であると考えてよい。
デバイスが、カメラ219を備えている場合、カメラ219は、ユーザーが発声しているかどうかを判定するために使用されうる視覚信号を音声検出器221に供給することもできる。例えば、ユーザーの唇が、カメラに写っている場合、唇の動きは発声活動を示すと考えられ、唇の動きと音響信号との相関を示すものとしてよい。ユーザーの唇に動きがないことは、場合によっては、検出された音響エネルギーが別の話者または音源に由来するものであったことを示す証拠であるとすることもできる。
話者識別器223は、場合によっては、デバイス205に向かって発声している人の識別を決定することができることもある。例えば、デバイス205は、1人または複数のユーザーの聴覚プロフィール(例えば、音声信号)を格納することができる。マイクロホン217によって供給される聴覚情報がこれらのプロフィールと比較され、一致していれば、関連するユーザーがデバイス205に向かって発声しているものとしてよい。この一致を示すデータは、他のデバイス205コンポーネントに供給するか、メモリに格納するか、またはその両方とすることができる。いくつかの実装において、話者の識別は、音声が背景雑音でないことを確認するために使用できるが、記録されることが意図されている。
話者識別器223は、カメラ219によって取得されたバイオメトリック情報を使用して話者を識別することもできる。例えば、カメラによってキャプチャされたバイオメトリック情報は、顔の外見、唇の動き、耳の形状、または手形を(限定はしないが)含むことができる。カメラは、この情報を話者識別器223に供給することができる。話者識別器223は、カメラ219によって供給される情報のいずれか、またはすべてを音響情報と組み合わせて(または音響情報なしで)使用し、話者の素性を推論することができる。
デバイス205は、ジェスチャー分類器225を備えることもできる。ジェスチャー分類器225を使用して、デバイス205の移動を分類することができる。場合によっては、加速度計213は、移動情報をジェスチャー分類器225に供給し、ジェスチャー分類器225は、この移動情報を異なる分類項目に分けることができる。例えば、ジェスチャー分類器225は、電話の移動を「シェイク」および「フリップ」などのグループに分類することができる。それに加えて、ジェスチャー分類器225は、ジェスチャーに関連する動きを「口へ」、「口から」、「ユーザーの方を向いて」、「耳へ」、および「耳から」などに分類することができる。
デバイス205に備えられている姿勢識別器227は、デバイス205の異なる姿勢を推論/検出することができる。姿勢識別器227は、近接センサー215およびジェスチャー分類器225によって供給されるデータを使用して、姿勢を識別することができる。例えば、姿勢識別器227は、近接センサー215によって供給される情報を使用してデバイス205が物体(例えば、人)からどれだけ離れているかを測定することができる。姿勢識別器227は、この情報を、ジェスチャー分類器225によって供給されるジェスチャー分類結果と組み合わせて使用し、デバイス205がどの姿勢(もしあれば)をとっているかを判定することができる。一例において、ジェスチャー分類器225が、「耳へ」分類を姿勢識別器227に伝送し、近接センサー215が、そのデバイスがユーザーの近くに保持されていることを示した場合、姿勢識別器227は、デバイス205が電話姿勢をとっていると判定しうる。カメラ219は、移動に関する証拠を提供するために使用することもできる。例えば、カメラ219によって検出されるオプティカルフローは、移動の証拠となりうる。
デバイスは、スピーチエンドポインタ229を備えることもできる。スピーチエンドポインタ229は、いくつかの実装において、姿勢識別器227、話者識別器223、および音声検出器221からの出力を組み合わせて、とりわけ、ユーザーがデバイスに向かって発声しているか、デバイスに向かって発声し始めているか、またはデバイスに向かってすでに発声しているかを判定することができる。例えば、姿勢識別器227は、デバイスが動作位置にないことを示す情報をエンドポインタ229に伝送することができる。音声検出器221および話者識別器223からの入力は、ユーザーが現在発声していないことを示しうる。これらの入力の組み合わせは、ユーザーが発声を停止したことをエンドポインタ229に示すものとなりうる。
図3および4は、それぞれ、多感覚応用音声検出のための例示的なプロセス300および400の流れ図である。プロセス300および400は、例えば、図2に示されているシステムなどのシステムによって実行することができるが、わかりやすくするため、この後の説明では、そのシステムをプロセスを説明するための例の基礎として使用する。しかし、他のシステム、またはシステムを組み合わせを使用して、プロセス300および400を実行することもできる。
図3が、多感覚応用音声検出の例示的なプロセス300を示す図である。プロセス300はステップ305から始まり、そこで録音ボタンが押されたかどうかが判定される。例えば、上記のように、モバイルデバイス205は、ユーザーがボタンを押すことによって録音の開始または終了を行うことを可能にするボタンを備えることができる。ステップ305でボタン押下が検出された場合、プロセス300は、録音を開始し、ステップ315で録音が開始したという入力の開始(SOI)確認を表示することができる。例えば、デバイス205は、ボタンが押されたときにメモリ内に格納されている録音プログラムを実行することができる。それに加えて、デバイス205は、録音が開始したことを示すメッセージを画面に表示することができる。いくつかの実装において、デバイス205は、オンスクリーン確認を表示することに加えて、またはその代わりに、振動したり、または音を鳴らすことができる。
しかし、録音ボタン押下がステップ305で検出されない場合、プロセス300はステップ310に進むことができ、そこで、録音ジェスチャーが検出されたかどうかが判定される。例えば、ユーザーは、デバイス205をPDA姿勢に保持することができる。ユーザーがデバイス205を自分の口のところに持ってきたときに、ジェスチャー分類器225は、この動きを「口へ」ジェスチャーとして分類し、デバイス205に録音アプリケーションを実行させることができる。いくつかの実装において、電話をシェイクする、またはフリップするなどの他のジェスチャーは、録音ジェスチャーとすることができる。それに対する応答として、プロセス300はステップ315に進み、そこで、録音プロセスが開始され、録音確認が上述のように表示される。そうでない場合、プロセス300はステップ305に戻ることができ、そこで録音ボタンが押されたかどうかを判定する。
プロセス300は、ステップ320で設定をエンドポインタにロードすることができる。場合によっては、デバイス205は、音声を検出するために使用できる音声エネルギー閾値などの姿勢特有の音声検出パラメータをロードすることができる。例えば、場合によっては、姿勢に対する音声エネルギー閾値を、検出された聴覚情報と比較することができる。聴覚情報が、音声エネルギー閾値より大きい場合、これは、ユーザーがデバイスに向かって発声していることを示すものとしてよい。いくつかの実装において、姿勢は、デバイス205が指定された姿勢にあるときにデバイス205とユーザーとの間の距離に基づく関連付けられている音声エネルギー閾値を有することができる。例えば、デバイス205は、PDA姿勢のときに比べて電話姿勢のときの方がユーザーに近いものとしてよい。したがって、音声エネルギー閾値は、電話姿勢のときに比べてPDA姿勢のときの方が低い場合があるが、それは、ユーザーの口がPDA姿勢にあるデバイス205から遠いためである。
ステップ325で、エンドポインタを実行できる。例えば、デバイス205は、エンドポインタ229を実行することができる。それに対する応答として、エンドポインタ229は、ステップ320でロードされたパラメータを使用して、ユーザーがデバイスに向かって発声しているかどうかを判定し、発声の開始および終了などの関係イベントを判定することができる。例えば、エンドポインタ229は、音声エネルギー閾値を、姿勢識別器227、音声検出器221、および話者識別器223からの入力とともに使用して、ユーザーが発声しているかどうか、もしそうならば、発声が開始もしくは終了しつつあるのかを判定することができる。
ステップ330で、音声入力の終了を検出することができる。上述のように、エンドポインタ229は、他のデバイスコンポーネントからの入力および音声エネルギー閾値を使用して音声が終了しているかどうかを判定することができる。音声入力の終了が検出された場合、録音は停止し、録音が終了したことを示す入力終了(EOI)表示がステップ335において行われうる。例えば、デバイス205の画面上にメッセージを表示するか、または音を鳴らすことができる。場合によっては、触覚フィードバック(例えば、振動)を返すこともできる。
図4は、多感覚応用音声検出の例示的な代替的プロセス400を示す図である。このプロセスはステップ405で開始し、そこで、姿勢検出器から姿勢が読み取られる。例えば、姿勢識別器227は、デバイスの現在の姿勢をもたらすことができるか、または現在の姿勢の指示をメモリ231から読み出すことができる。
ステップ410で、デバイス205が電話姿勢にあるかどうかが判定される。例えば、姿勢識別器227は、近接センサー215およびジェスチャー分類器225からの入力を使用して、デバイスが電話姿勢にあるかどうかを判定することができる。場合によっては、デバイスの姿勢は、デバイスがユーザーからどれだけ離れているか、またデバイスが一組の所定の角度の範囲内にあるかどうかを判定することによって識別されうる。デバイス205が電話姿勢にある場合、ステップ415で、録音が開始したことを確認する音を鳴らすことができる。いくつかの実装において、他の種類のフィードバック(例えば、振動またはメッセージの表示)を、音響確認とともに、またはその代わり返すことができる。
ステップ420で、電話姿勢設定をエンドポインタにロードすることができる。例えば、電話姿勢に関連付けられている音声エネルギー閾値をメモリ231から読み出してエンドポインタ229に入れることができる。
同様に、ステップ425で、デバイスがトランシーバー姿勢にあるかどうかが判定される。上記のように、姿勢識別器227は、ジェスチャー分類器225および近接センサー215からの入力を使用して、デバイスの姿勢を判定することができる。デバイスがトランシーバー姿勢にある場合、録音の開始の確認が、ステップ430で、画面に表示され(場合によっては、確認は触覚的もしくは聴覚的なものであってもよい)、ステップ435で、トランシーバー姿勢設定がエンドポインタにロードされうる。
ステップ440で、デバイスがPDA姿勢にあるかどうかが判定される。場合によっては、デバイスの姿勢は、上のステップ410および425に関して説明されているように決定することもできる。デバイスがPDA姿勢にない場合、この方法はステップ405に戻ることができる。デバイスがPDA姿勢にある場合、ステップ445で、録音ボタンが押されたかどうかを判定することができる。録音ボタンが押されていない場合、この方法はステップ450に進み、そこで録音ジェスチャーが検出されたかどうかが判定される。例えば、上の図3のステップ310に関して説明されているように、デバイス205は、ユーザーの口に向かってデバイス205を移動したことを検出することができる。場合によっては、デバイス205は、この動きを録音ジェスチャーとして解釈することができる。
ステップ445で録音ボタンが押されたか、またはステップ450で録音ジェスチャーが検出された場合、ステップ455で、録音が開始したことを確認するメッセージをデバイス205の画面に表示することができる。場合によっては、デバイス205は振動するか、または音を鳴らして、録音が開始していることを示すことができる。その後、ステップ460で、PDA姿勢に関連付けられている設定をエンドポインタにロードすることができる。例えば、音声エネルギー閾値をエンドポインタ229にロードすることができる。
上述の姿勢のそれぞれについて、適切な姿勢設定がエンドポインタに読み込まれた後、ステップ465で、エンドポインタを実行することができる。例えば、デバイス205に関連付けられているプロセッサ233は、エンドポインタ229に対応する、メモリ内に格納されている命令を実行することができる。エンドポインタ229は、実行を開始した後、ステップ470で音声入力の終了が検出されたかどうかを判定することができる。例えば、エンドポインタ229は、姿勢識別器227、音声検出器221、話者識別器223、およびエンドポインタ229にロードされた姿勢に関連付けられているパラメータからの出力を使用して音声入力の終了が検出されているかどうかを判定することができる。例えば、エンドポインタ229は、前述の出力源からの出力を使用してデバイス205が指定されている姿勢のうちの1つの姿勢にもはやない場合にそのことを判定することができる。ステップ475で、プロセスは、録音が停止したことの確認を再生するか、または表示することができる。例えば、録音終了メッセージをデバイス205の画面に表示するか、または音を鳴らすことができる。場合によっては、デバイス205は振動するものとしてもよい。
図5Aおよび4Bは、ジェスチャー認識のための例示的な座標系500および505を示している。図5Aは、モバイルデバイスに対する例示的な直交座標系500を示している。例示的な座標系500は、図5Aに示されているようにX軸、Y軸、およびZ軸を持つ三次元座標系とすることができる。場合によっては、加速度計(図2に示されている加速度計213など)を使用して、図5Aに示されている座標系内のモバイルデバイスの角度を測定することができる。次いで、測定された角度を使用して、デバイスの姿勢を判定することができる。
例えば、加速度計213によって供給される加速度データは、例えば、デジタルフィルタ(例えば、無限インパルス応答フィルタ)を使用することによって平滑化することができる。場合によっては、加速度計は、10Hzのサンプル周波数を有することができる。それに加えて、無限インパルス応答フィルタは、0.6のフィルタ係数を有することができる。瞬間加速度の大きさは、フィルタの残差から計算することができる。その結果得られる重力ベクトルを、座標系のXY平面およびYZ平面上に射影し、成分の逆正接を使用して、射影された成分がなす角度を計算することができる。その結果得られる2つの角度を図5Bに示されているような新しい平面上に射影し、臨界角境界ボックス510と515をユーザーの耳に対する電話の左手および右手の位置の周りに定義することができる。以下でさらに詳しく説明するように、これらの境界ボックスは、とりわけ、ジェスチャーを検出するために使用できる。
図6は、ジェスチャー認識のための例示的な状態機械600を示す図である。状態機械600は、上述の臨界角境界ボックスを、近接度情報とともに使用して、ジェスチャーを分類することができる。例示的な状態機械は、指定された近接度が検出される、デバイス205が一組の臨界角の範囲内にある、または時間切れになっているといったいくつかのイベントによるクロック動作をすることができる。例えば、例示的な状態機械は、所定の近接度が状態605において検出されるのを待つことができる。場合によっては、状態機械600は、デバイスの瞬間加速度が閾値より高いか、またはデバイス205が一組の臨界角で置かれているときに近接センサー215をアクティブ化することができる。場合によっては、これらの臨界角は、図5Bに示されている境界ボックス内に収まる角度であってもよい。例えば、一番左の境界ボックス510は、XY平面内で-80度から-20度までの範囲、YZ平面内で-40度から30度までの範囲内の角度を含むものとしてよい。同様に、境界ボックス515は、XY平面内で20度から80度までの範囲、YZ平面内で-40度から30度までの範囲内の角度を含むものとしてよい。
近接センサーが、デバイス205のプリセットされた距離の範囲内で物体を検出した場合、状態機械600は状態610に遷移し、そこで、ある角度に達するのを待つ。場合によっては、近接センサー215が所定の距離の範囲内にいるユーザーを検出し、デバイス205が臨界角をなしているとすでに判定されていた場合(例えば、デバイス205が臨界角をなしたため状態機械がアクティブ化された場合)、状態機械600は次の状態615に遷移する。デバイス205が、すでに臨界角をなしていなかった場合、デバイス205は、臨界角をなすデバイスのプリセットされた期間の間待つことができ、このプリセットされた期間は、加速騒音が安定する猶予期間となりうる。場合によっては、プリセットされた期間は1秒としてよい。デバイスが所定の期間内に臨界角をなしていない場合、状態機械600は、状態605に遷移して戻るものとしてよい。しかし、デバイス205が所定の閾値範囲内に臨界角をなしていると検出された場合、状態機械は状態615に遷移し、そこでジェスチャーが検出される。場合によっては、ジェスチャー分類器225は、検出されたジェスチャーを分類することができる。例えば、ジェスチャーは、「口へ」、「口から」、「ユーザーの方を向いて」、「耳へ」、および「耳から」のカテゴリに分類することができる。いくつかの実装において、他のカテゴリも定義することができる。デバイス205がもはや臨界角をなしていないと判定される場合、状態機械600は状態620に遷移することができ、そこでジェスチャーが時間切れになる。いくつかの実装において、最小の跳ね返り抑制期間により、この遷移が角度の跳ね返りのため生じるのを防ぐことができる。例えば、最小の跳ね返り抑制期間は、1.7秒とすることができる。
図7は、ジェスチャー認識のための状態機械700の他の実装を示す図である。図7は、ジェスチャーの変化に対応する例示的な状態機械700を示しており、それらのジェスチャーは検出された加速度に応じて変化する(例えば、遅い、中程度、および速いジェスチャー)。例示的な状態機械700は、デバイス205がすでに表面に近いときに近接センサー215がアクティブ化される場合に近い状態を検出しない近接センサー215をデバイス205が備えるか、または近接検出器のアクティブ化が画面をオフにするなどの他のアクションのトリガーとなりうる実装において有用である場合がある。場合によっては、この問題に対処するために、瞬間加速度が閾値を超えた場合に近接センサー215をアクティブ化するとよい。場合によっては、近接センサー215を、センサー215がすべての軸について瞬間加速度を横切る場合にアクティブ化するとよい。
状態機械700は、初期状態705から始まる。閾値を超える加速度が検出された場合、状態機械700は状態710に遷移し、そこで、加速度検出の後に近接検出を待つ。いくつかの実装において、加速度閾値は、0.6gとすることができる。場合によっては、この待ち時間は0.5秒とすることができる。デバイス205がユーザーなどの物体に近い場合、状態機械700は状態715に遷移し、そこで、デバイスが臨界角をなすまで所定の時間の間待つ。場合によっては、この待ち時間は1秒とすることができる。デバイスが指定された時間内に臨界角をなさない場合、状態機械700は、初期状態705に戻る。しかし、デバイスが臨界角をなしている場合、状態機械700は状態720に遷移し、そこで上述の方法でジェスチャーが検出される。デバイスがもはや臨界角の範囲内にない場合、状態機械700は状態725に遷移し、そこでジェスチャーが時間切れになる。これらの遷移は速いジェスチャーに対応するものとしてよい。
場合によっては、加速度が検出された後、デバイス205は臨界角をなし、そのようなものとして、状態機械700は状態730に進み、そこで、近接検出を待つことができる。プリセットされた時間内に近接検出がなされない場合、状態機械700は状態735に遷移することができ、そこで、近接待ちの時間切れになり、その後、初期状態705に戻る。場合によっては、プリセットされた時間は1秒とすることができる。しかし、近接検出が、プリセット時間の時間切れ前になされた場合、状態機械700は上述のように状態720および725に遷移することができる。場合によっては、この一連の遷移は、中速のジェスチャーに対応するものとしてよい。
状態機械700が初期状態705にあり、デバイス205がそれらの臨界角をなしている場合、状態機械700は状態730に遷移することができ、そこで、状態機械700は近接検出を待つ。タイムアウト期間前に近接検出がなされる場合、状態機械700は状態720に進み、そこでジェスチャーが検出される。デバイス205が臨界角から移動した場合、状態機械700は状態725に遷移し、そこでジェスチャーが時間切れになっている。この一連の遷移は、比較的遅いペースで行われるジェスチャーに対応するものとしてよい。
図8Aおよび8Bは、姿勢および音声検出のためのベイジアンネットワークを示している。場合によっては、ジェスチャーを認識するためにベイジアンネットワーク800を使用することができる。図8Aに示されているように、近接センサー215、加速度計213、および音声検出器221からの出力を1つのベイジアンネットワークに組み合わせることができる。図8Aに示されているベイジアンネットワークは、分布
(1) p(x_aud, x accel, x_prox | EPP) p (EPP)
を表すことができる。
式(1)において、x_audは音響特徴ベクトルを表し、x_accelは加速度特徴ベクトルを表し、x_proxは近接特徴ベクトルを表すものとしてよい。隠れ状態変数EPPは、エンドポインタ音声EPと姿勢状態変数Poseとの外積を表すものとしてよい。EPおよびPose変数は、離散確率変数とすることができる。
図8Bは、EPベクトルとPose状態変数への隠れ状態の因数分解850を示している。この因数分解は、学習データの利用を改善し、推論を高速化することができる。この分布は、
(2) p(x_aud | EP, Pose) p(x accel | EP, Pose)p(x_prox | Pose)p(EP)p(Pose)
のように分解できる。
場合によっては、分布p(x_aud, x_accel | EP, Pose)およびp(x_aud, x_accel | EP, Pose)およびp (x_prox | Pose)はガウス混合モデルとすることができる。
いくつかの実装において、EPの事後確率を、エンドポインタ状態機械への入力として使用することができる。例えば、図9は、エンドポインタ状態機械900を示している。図9に示されている例示的な実装において、EP事後確率は閾値化され、タイムフレームは雑音または音声のいずれかを含むと判定されうる。この例では、雑音は値0によって表され、音声は値1によって表されうる。閾値の環状バッファを格納することができる。バッファ内の値1は、図9に示されているエンドポインタ状態機械を駆動するために使用することができる。例えば、初期状態905が音声発声前であり、環状バッファ内の値1の個数が閾値を超える場合、この状態機械は状態910「予想されるオンセット」に移動する。値1の個数が閾値より小さい場合、状態機械は「音声発声前」状態905に戻る。状態機械900は、同様にして、「音声存在」915、「予想されるオフセット」920、および「音声発声後」925状態の間を遷移して行き来する。
図10は、姿勢および音声検出のための動的ベイジアンネットワークを示している。図10は、隠れマルコフモデル1000において連鎖しているEPP状態の集合を示している。例示的な実装において、状態EPPは、EP状態とPose状態との外積とすることができ、状態間の遷移は、遷移行列によって定義することができる。図10の例示的なジェスチャー認識器の学習は、期待値最大化アルゴリズムを使用することによって行うことができる。音声/雑音状態を判定する推論は、ビタビアルゴリズムまたは前向き後ろ向きアルゴリズムによって実行されうる。場合によっては、より複雑な状態を使用することもできる。例えば、ユーザーの環境(例えば、通りにいる、自宅にいる、走行中の自動車の中にいる、レストランにいる、など)またはデバイスの環境を、センサーからの信号に基づいて推論し、これを姿勢およびエンドポインタ状態の判定に使用することができる。
図11〜12は、オーディオ信号品質に関するフィードバックを返すための例示的なグラフィカルユーザーインターフェイスのスクリーンショットを示している。いくつかの実装において、例示的なグラフィカルユーザーインターフェイスは、ユーザーがモバイルコンピューティングデバイスに向かってコマンドを発声する前、発声している間、および発声した後に、オーディオ信号品質に関するフィードバックを返すことができる。例えば、ユーザーが発声する前に、グラフィカルユーザーインターフェイスが、音声がデバイスによって正確にキャプチャされるかどうかを示しうる視覚または音響フィードバックを返すことができる。場合によっては、このフィードバックは、ユーザーが特定の方法でデバイスを使用すべきである(例えば、デバイスを特定の姿勢にすべきである)ことを指示するか、または背景雑音が音声の検出およびより正確な録音を損なう可能性のあることをユーザーに警告することができる。いくつかの実装において、このフィードバックは、ユーザーに利用可能な操作のモードを制限したり、または声のキャプチャに成功する確率を高めることができる動作モードを提案するために使用することができる。
場合によっては、ユーザーが発声しているときに、グラフィカルユーザーインターフェイスはデバイスがキャプチャした音響の品質に関するフィードバックを返すことができる。例えば、ユーザーの発声中に、録音された音響の振幅を視覚的に表したものを画面に表示することができる。これにより、ユーザーは、背景雑音が録音に干渉しているかどうか、またはユーザーのコマンドが適切に記録されているかどうかを知ることができる。ユーザーが発声を終了した後、グラフィカルユーザーインターフェイスは、キャプチャした音声コマンドの表現をユーザーに対して表示することができる。
図11は、オーディオ信号品質に関するフィードバックを返すための例示的なグラフィカルユーザーインターフェイス1100を示している。例示的なグラフィカルユーザーインターフェイス1100は、場合によっては、メッセージ領域1105を備えることもできる。テキストおよび波形などの視覚的インジケータを、メッセージ領域1105内に表示し、例えば、デバイスの操作のモードまたは録音の表現を示すことができる。例えば、図11に示されているように、デバイスが録音モードである場合、「今発声」メッセージをメッセージ領域1110に表示することができる。現在の雑音状態が音声録音に干渉する可能性があることを示すメッセージをメッセージ領域1105内に表示することができる。状況によっては、メッセージ領域1105は、ユーザーが録音操作を続行すること、またはキャンセルすることを許可するメッセージを表示することもできる。前の例は、例示的なものであり、他の種類のデータをメッセージ領域1105に表示することもできる。
例示的なグラフィカルユーザーインターフェイス1100は、視覚的音響レベルインジケータ1110を備えることもできる。例示的な一実装において、視覚的オーディオレベルインジケータ1110は、モバイルデバイスによってキャプチャされた音響の振幅を示すことができる。例えば、ユーザーが発声しているときに、インジケータ1110は検出された音声の振幅に関係する量だけ高くなるものとしてよい。状況によっては、インジケータ1110を使用することで、ユーザーは、背景雑音が音声録音に干渉しているかどうかを判定することができる。例えば、ユーザーが発声を開始する前に、インジケータ1110が高くなる場合、背景雑音が音声録音に干渉している可能性がある。インジケータ1110が、ユーザーが発声している間も高くならない場合、このことは、ユーザーの音声コマンドが適切に記録されていないことを示しているものとしてよい。
場合によっては、音響レベルインジケータ1110は、音響サンプルのフレームの二乗平均平方根(RMS)レベルの対数の表現を表示することができる。音響サンプルのフレームの対数RMSレベルは、背景雑音レベルを表すものとしてよい。場合によっては、RMSは
Figure 0005538415
に等しいものとしてよい。場合によっては、音響サンプルのフレームの対数RMSレベルは、式
(3) AL = 20 * log10(RMS)
によって決定することができる。
ここで、xtは、時刻tにおける音響サンプル値とすることができる。
場合によっては、音響レベルインジケータ1110は、信号対雑音比の表現、つまり、背景雑音に関する音声信号の強度を表示することができる。例えば、信号対雑音比は、式
Figure 0005538415
を使用して計算することができる。
式(3)のように、xtは、時刻tにおける音響サンプル値とすることができ、NLは、雑音レベルの推定値とすることができる。
代替的一実装において、音響レベルインジケータ1110は、音響サンプルのフレームの対数RMSレベルと信号対雑音比の組み合わせの表現を表示することができる。例えば、この組み合わせは、
(5) L=α(AL)+β(ALSNR)
として決定することができる。
この式において、αおよびβは、背景雑音と信号対雑音比をスケーリングできる変数であるものとしてよい。例えば、αは、デシベル値を表すように音響サンプルのフレームのRMSレベルをスケーリングすることができる(例えば、100dbが音響のフレームのフルスケールRMSレベルに等しくなるように)。βも、同様に、信号対雑音比をスケーリングするために使用することができる。
いくつかの実装では、背景雑音レベル、信号対雑音比、またはこれら2つの組み合わせのうちの1つまたは複数をグラフィカルユーザーインターフェイス1100に表示することができる。例えば、これらの尺度のうちの1つまたは複数を、色分けして画面上に、または画面の異なる領域に表示することができる。場合によっては、これらの尺度のうちの1つを他の尺度のうちの1つに重ね合わせることもできる。例えば、信号対雑音比を表すデータを、背景雑音レベルを表すデータ上に重ね合わせることができる。
図11は、視覚的波形インジケータ1150を含む例示的なグラフィカルユーザーインターフェイスも示している。例示的な視覚的波形インジケータ1150は、キャプチャされたオーディオ信号をユーザーに示すことができる。波形は、場合によっては、音声波形のエンベロープを表すキャプチャされた音響の定型化された表現とすることができる。他の場合には、波形は、アナログ音響波形のサンプリングバージョンを表すものとしてもよい。
この例示的な波形を使用すると、ユーザーはデバイスが録音に失敗したときにそのことを認識することができる。例えば、ユーザーが音声コマンドを発声した後に、アプリケーションがキャプチャされた音声を表す波形を示すことができる。波形が1本の平坦な線である場合、これは、録音されていなかったことを示しうる。
図12は、例示的なグラフィカルユーザーインターフェイスを異なる動作状態において示している。場合によっては、背景雑音のレベルに基づいてモバイルデバイスをインタラクティブに操作するためのオプションを調整するために有用であると思われる。例えば、ユーザーは、音声コマンドをモバイルデバイスに入力したい場合がある。背景雑音レベルによっては、デバイスに音声コマンドが認識されるように、ユーザーは自分の口をデバイスに近づける必要がある。しかし、静かな状況では、ユーザーは、腕を伸ばしてデバイスを持ち、音声コマンドを入力することができる。例示的なグラフィカルユーザーインターフェイスは、背景雑音が検出されるレベルである場合にデバイスが音声コマンドを正しく認識できる確率に基づいてインタラクティブ操作オプションをユーザーに対し提示することができる。例えば、図12に示されているように、静かな状態では、グラフィカルユーザーインターフェイスは、グラフィカル音声検索ボタン1205によって表される、音声検索オプションを提示することができる。背景雑音レベルが高い状況では、音声検索ボタン1205は取り除かれ、モバイルデバイスをユーザーの口に近づけるように指示するメッセージが、グラフィカルユーザーインターフェイス1210の一番右の画像によって示されているように、表示されうる。ユーザーがデバイスを自分に近づけて持つ(例えば、デバイスを電話姿勢に保持する)ことによって、音声パワーを15〜20デシベルほど高めることができ、これにより、正しい音声認識が行われる確率を高められる。
図13および14は、背景雑音ベースのモード選択のための例示的なプロセス1300および1400の流れ図である。プロセス1300および1400は、例えば、図2に示されているシステムなどのシステムによって実行することができるが、わかりやすくするため、この後の説明では、そのシステムをプロセスを説明するための例の基礎として使用する。しかし、他のシステム、またはシステムを組み合わせを使用して、プロセス1300および1400を実行することもできる。
図13は、背景雑音ベースのモード選択に対する例示的なプロセス1300を示している。例示的なプロセス1300はステップ1305から始まり、そこで、環境雑音および/または信号対雑音比が推定される。例えば、環境雑音および信号対雑音比は、上記の式(3)および(4)を使用して計算することができる。ステップ1310において、その環境(つまり、背景)雑音および/または信号対雑音比が背景雑音レベル閾値より高いかどうかが判定される。例えば、一実装において、デバイス205は、音響信号、さらには雑音および音声レベル推定値ならびに他の環境に関係するパラメータをサーバーに送信することができる。サーバーは、推定された雑音および音声レベル推定値が背景雑音レベル閾値を超えているかどうかを判定することができる。背景雑音レベル閾値は、サーバーに送信された事前の雑音および音声レベルの推定値、環境に関係するパラメータ、および音響レベル信号に基づくものとしてよい。
場合によっては、デバイス205は、特定の雑音レベルまたは種類の環境音と認識精度との相関を求めることができる。例えば、40dBのファン騒音の雑音レベル(NL)は、20%のワード誤り率(WER)に対応するものとしてよく、WERは、雑音が70dBのときには50%となる可能性がある(ユーザーが平均80dBで発声すると仮定する)。これらの値を統計量を収集することができるサーバー(例えば、リモートデバイス245)に伝送して、NLからWERへの換算表を作成することができる。
一方の種類の雑音が他の種類の雑音より悪いという場合もある。例えば、50dBのカフェテリアの雑音は、70dBのファン騒音と同じWERを持つ可能性がある。デバイス205は、モード決定のためその音響をサーバー(リモートデバイス245など)に送信することによってこの種類の環境特徴付けを実行することができる。
背景雑音および/または信号対雑音比が、背景レベル閾値を超える場合、プロセスはステップ1315に進み、そこで、図12に示されているように、音声検索ボタンが表示される。超えない場合、ステップ1320で、デバイス205を電話位置で使用するようユーザーにアドバイスするダイアログボックスもしくはメッセージが表示される。それと無関係に、この方法は、ステップ1315またはステップ1320の後に1305に戻る。
図14は、背景雑音レベル推定の例示的な方法1400を示している。方法1400はステップ1405から始まり、そこで、音響サンプルのRMSレベルが判定される。例えば、モバイルデバイス205の周辺の環境からオーディオ信号のフレーム(例えば、20ミリ秒の音響)をキャプチャするためにマイクロホン217を使用することができる。このフレームのRMSレベルは、上記の式(3)に従って決定することができる。
適宜、ステップ1410において、雑音および音声レベルを初期化することができる。例えば、雑音および音声レベルがすでに設定されている場合(方法1400が初めて実行される場合のように)、音響サンプルのRMSレベルを使用して雑音をおよび音声レベルを初期化することができる。図解例において、雑音および音声レベルは、式
(6) NL=(α*NL)+((1-α)*RMS)
(7) SL=(α*NL)+((1-α)*2RMS)
を使用して設定することができる。
式(6)および(7)において、RMSは、音響サンプルのRMSレベルとすることができ、αは、雑音または音声の前の推定値と現在の推定値との比である。この比は、最初に0に設定し、
Figure 0005538415
まで大きくすることができるが、ただし、式中、kは、初期適応期間における時間ステップの数である。
ステップ1415で、雑音レベルを更新することができる。例えば、雑音レベルを音響サンプルのRMSレベルと比較し、式
(8) NL=(UpdateRateNL*NL)+(UpdateRateRMS*RMS)
に従って雑音レベルを調整することができる。
式(7)と同様に、RMSは、音響サンプルのRMSレベルとすることができる。場合によっては、UpdateRateNLとUpdateRateRMSとの和は1に等しいものとすることができる。雑音レベルが音響サンプルのRMSレベルより小さい場合、UpdateRateNLは0.995、UpdateRateRMSは0.005であってもよい。雑音レベルが音響サンプルのRMSレベルより大きい場合、式(8)を使用して雑音レベルを調整することができるが、UpdateRateNLは0.95、UpdateRateRMSは0.05であってもよい。
ステップ1430で、音声レベルを更新することができる。例えば、音声レベルを音響サンプルのRMSレベルと比較し、式
(9) SL=(UpdateRateSL*SL)+(UpdateRateRMS*RMS)
に従って音声レベルを調整することができる。
音声レベルが音響サンプルのRMSレベルより大きい場合、UpdateRateSLは0.995、UpdateRateRMSは0.005であってもよい。音声レベルが音響サンプルのRMSレベルより小さい場合、UpdateRateSLは0.995、UpdateRateRMSは0.005とすることができる。音声レベルが更新された後、方法1400はステップ1405に戻ることができる。
いくつかの実装において、他の背景雑音レベル推定方法を使用することができる。例えば、参照により本明細書に組み込まれている以下の論文において開示されている方法を使用することができる。
「Assessing Local Noise Level Estimation Methods: Application to Noise Robust ASR」、Christophe Ris、Stephane Dupont. Speech Communication、34 (2001年) 141〜158頁、「DySANA: Dynamic Speech and Noise Adaptation for Voice Activity Detection」、Ron J. Weiss、Trausti Kristjansson、ICASSP 2008年、
「Noise estimation techniques for robust speech recognition」、H.G. Hirsch、C Ehrlicher、Proc. IEEE Internat. Conf. Audio、Speech Signal Process、v12 i1、59〜67頁、および「Assessing Local Noise Level Estimation Methods」、Stephane Dupont、Christophe Ris、Workshop on Robust Methods For Speech Recognition in Adverse Conditions (Nokia、COST249、IEEE)、115〜118頁、Tampere、Finland、1999年5月。
次に図15を参照すると、上で説明されている多感覚応用音声検出方法を実装する例示的なデバイス1500の外観が示されている。さらに詳しく述べると、デバイス1500のハードウェア環境は、テキスト、画像、およびビデオをユーザーに対し表示するためのディスプレイ1501、テキストデータおよびユーザーコマンドをデバイス1500に入力するためのキーボード1502、ディスプレイ1501上に表示されているオブジェクトをポイントし、選択し、調節するためのポインティングデバイス1504、アンテナ1505、ネットワーク接続1506、カメラ1507、マイクロホン1509、およびスピーカー1510を備える。デバイス1500では、外部アンテナ1505が示されているけれども、デバイス1500は、ユーザーからは見えない、内部アンテナを備えることができる。
ディスプレイ1501は、デバイス1500により使用されるソフトウェアアプリケーション、およびデバイス1500を操作するために使用されるオペレーティングシステムプログラムのためのユーザーインターフェイスを構成するビデオ、グラフィックス、画像、およびテキストを表示することができる。ディスプレイ1501上に表示することができる可能な要素として、新着メッセージが存在することをユーザーに通報する新着メールインジケータ1511、電話呼び出し中であること、電話をかけていること、または通話中であることを示すアクティブ呼インジケータ1512、データを送受信するためにデバイス1500によって現在使用されているデータ規格を示すデータ規格インジケータ1514、信号強度バーなどを使用してアンテナ1505を介して受信された信号の強度の測定結果を示す信号強度インジケータ1515、電池残量の測定結果を示す電池残量インジケータ1516、または現在時刻を出力するクロック1517がある。
ディスプレイ1501は、ウェブブラウザアプリケーションアイコン1519、電話アプリケーションアイコン1520、検索アプリケーションアイコン1521、連絡先アプリケーションアイコン1522、地図表示アプリケーションアイコン1524、電子メールアプリケーションアイコン1525、または他のアプリケーションアイコンなどの、ユーザーから利用可能なさまざまなアプリケーションを表すアプリケーションアイコンを表示することもできる。例示的な一実装では、ディスプレイ1501は、16ビット以上のカラー表示をすることができるクォータービデオグラフィックスアレイ(QVGA)薄膜トランジスタ(TFT)液晶ディスプレイ(LCD)である。
ユーザーは、キーボード(または「キーパッド」)1502を使用して、多感覚応用音声検出機能を提供するオペレーティングシステムおよびアプリケーションを操作し、制御するためのコマンドおよびデータを入力する。キーボード1502は、単独で選択されたときに英数字「Q」および「W」に関連付けられるか、またはキー1529と組み合わせて押されたときに文字「*」および「1」に関連付けられるキー1526および1527などの英数字に関連付けられている標準のキーボードボタンまたはキーを備える。単一のキーを、オペレーティングシステムの状態に基づいて、またはオペレーティングシステムによって呼び出されるアプリケーションに基づいて、ラベルなし機能を含む、特殊文字または機能に関連付けることもできる。例えば、アプリケーションが数字の入力を必要とする場合、キー1527だけを選択すると、「1」が入力されうる。
英数字キーパッドに従来関連付けられていたキーに加えて、キーボード1502は、受け取った呼に応答するか、または新しく発呼する呼確立キー1530、アクティブ呼を終了させる呼終了キー1531、ディスプレイ1501内にメニューを表示させるドロップダウンメニューキー1532、すでにアクセスされているネットワークアドレスへの再アクセスを行わせるバックワードナビゲーションキー1534、アクティブウェブページをお気に入りサイトのブックマークフォルダに入れさせるか、またはブックマークフォルダを表示させるお気に入りキー1535、デバイス1500上で呼び出されたアプリケーションを所定のネットワークアドレスへナビゲートするホームページキー1536、または多方向ナビゲーション、アプリケーション選択、ならびに電力および音量調節を行う他のキーなどの、他の特殊機能キーも備える。
ユーザーは、デバイス1500およびデバイス1500上で呼び出されるアプリケーションのインタラクティブな操作および制御の一部として、ポインティングデバイス1504を使用して、ディスプレイ1501上に表示されるグラフィックスおよびテキストオブジェクトを選択し、調節する。ポインティングデバイス1504は、任意の適切なタイプのポインティングデバイスであり、ジョイスティック、トラックボール、タッチパッド、カメラ、音声入力デバイス、ディスプレイ1501と組み合わせて実装されるタッチスクリーンデバイス、または他の入力デバイスとすることができる。
外部アンテナもしくは内部アンテナとすることができるアンテナ1505は、2地点間無線通信、無線ローカルエリアネットワーク(LAN)通信、または測位を実装する高周波(RF)信号の送受信に使用される指向性または無指向性アンテナである。アンテナ1505を使用すると、特殊化移動体無線(SMR)、セルラー、またはパーソナル通信サービス(PCS)周波数帯を使用する2地点間無線通信が利用しやすくなり、またいくつものデータ標準を使用してデータの送信を実装することができる。例えば、アンテナ1505を使用することで、Wireless Broadband(WiBro)、Worldwide Interoperability for Microwave ACCess(WiMAX)、10GPP Long Term Evolution (LTE)、Ultra Mobile Broadband (UMB)、High Performance Radio Metropolitan Network (HIPERMAN)、iBurst or High Capacity Spatial Division Multiple Access (HC-SDMA)、High Speed OFDM Packet Access (HSOPA)、High-Speed Packet Access (HSPA)、HSPA Evolution、HSPA+、High Speed Upload Packet Access (HSUPA)、High Speed Downlink Packet Access (HSDPA)、Generic Access Network (GAN)、時分割同期符号分割多元接続(TD-SCDMA)、Evolution-Data Optimized (またはEvolution-Data Only)(EVDO)、時分割符号分割多元接続(TD-CDMA)、Freedom Of Mobile Multimedia Access (FOMA)、ユニバーサルモバイルテレコミュニケーションシステム(UMTS)、広帯域符号分割多元接続(W-CDMA)、Enhanced Data rates for GSM Evolution (EDGE)、Enhanced GPRS (EGPRS)、符号分割多元接続2000 (CDMA2000)、Wideband Integrated Dispatch Enhanced Network (WiDEN)、高速回線交換データシステム(HSCSD)、ジェネラルパケットラジオサービス(GPRS)、簡易型携帯電話(PHS)、回線交換データ(CSD)、パーソナルデジタルセルラー(PDC)、CDMAone、Digital Advanced Mobile Phone System (D-AMPS)、Integrated Digital Enhanced Network (IDEN)、モバイル通信用グローバルシステム(GSM)、DataTAC、Mobitex、Cellular Digital Packet Data (CDPD)、Hicap、高度携帯電話システム(AMPS)、Nordic Mobile Phone (NMP)、Autoradiopuhelin (ARP)、AutotelもしくはPublic Automated Land Mobile (PALM)、Mobiltelefonisystem D (MTD)、Offentlig Landmobil Telefoni (OLT)、Advanced Mobile Telephone System (AMTS)、Improved Mobile Telephone Service (IMTS)、移動体電話システム(MIS)、プッシュトゥトーク(PTT)、または他の技術などのデバイス1500と基地局との間でデータを送信することができる。WCDMA、HSUPA、GSM、GPRS、およびEDGEネットワークを介した通信は、例えば、QUALCOMM MSM7200AチップセットをQUALCOMM RTR6285(商標)トランシーバーおよびPM7540(商標)パワーマネージメント回路と一緒に使用することで行うことができる。
無線または有線コンピュータネットワーク接続1506は、モデム接続、Ethernet(登録商標)を含むローカルエリアネットワーク(LAN)接続、またはデジタル加入者回線(DSL)、ケーブル高速インターネット接続、ダイヤルアップ接続、T-1回線、T-10回線、光ファイバ接続、または衛星接続などのブロードバンドワイドエリアネットワーク(WAN)接続であってよい。ネットワーク接続1506は、LANネットワーク、企業または政府WANネットワーク、インターネット、電話網、または他のネットワークに接続することができる。ネットワーク接続1506は、有線または無線コネクタを使用する。例示的な無線接続としては、例えば、IrDA(赤外線通信協会)無線コネクタ、Wi-Fi無線コネクタ、光無線コネクタ、IEEE(電気電子技術者協会)標準802.11無線コネクタ、BLUETOOTH無線コネクタ(BLUETOOTH(登録商標)バージョン1.2または10.0コネクタなど)、近接場通信(NFC)コネクタ、直交周波数分割多重(OFDM)超広帯域(UWB)無線コネクタ、時間変調超広帯域(TM-UWB)無線コネクタ、または他の無線コネクタが挙げられる。例示的な有線コネクタとしては、例えば、IEEE-1394 FIREWIREコネクタ、ユニバーサルシリアルバス(USB)コネクタ(mini-B USBインターフェイスコネクタを含む)、シリアルポートコネクタ、パラレルポートコネクタ、または他の有線コネクタが挙げられる。他の実施形態では、ネットワーク接続1506およびアンテナ1505の機能は、単一コンポーネントに集積化される。
カメラ1507は、デバイス1500がデジタル画像をキャプチャすることを可能にするが、これは、スキャナ、デジタルスチルカメラ、デジタルビデオカメラ、他のデジタル入力デバイスとすることもできる。例示的な一実装において、カメラ1507は、相補型金属酸化膜半導体(CMOS)を利用する10メガピクセル(MP)カメラである。
マイクロホン1509は、デバイス1500が音声をキャプチャすることを可能にし、これは、無指向性マイクロホン、単一指向性マイクロホン、両指向性マイクロホン、ショットガンタイプのマイクロホン、または音声を電気信号に変換する他のタイプの装置とすることができる。マイクロホン1509は、例えば、ユーザーがデバイス1500で通話中に別のユーザーと話しているときに、ユーザーが発する音声をキャプチャするために使用することができる。逆に、スピーカー1510は、デバイスが、電気信号を電話アプリケーションプログラムによって生成される他のユーザーの声、または着信音アプリケーションプログラムから発せられる着信音などの音に変換することを可能にする。さらに、デバイス1500は、図10にハンドヘルドデバイスとして例示されているけれども、他の実装では、デバイス1500は、ラップトップコンピュータ、ワークステーション、ミッドレンジコンピュータ、メインフレーム、埋め込み型システム、電話機、デスクトップPC、タブレット型コンピュータ、PDA、または他のタイプのコンピューティングデバイスであってもよい。
図16は、デバイス1500の内部アーキテクチャ1600を例示するブロック図である。このアーキテクチャは、オペレーティングシステムまたはアプリケーションを含むコンピュータ命令が処理される中央演算処理装置(CPU)1601と、ディスプレイ1501上にビデオ、グラフィックス、画像、およびテキストをレンダリングするための通信インターフェイスおよび処理機能を備え、一組のビルトインコントロール(ボタン、テキスト、およびリストなど)を備え、多様な画面サイズをサポートする、ディスプレイインターフェイス1602と、キーボード1502との通信インターフェイスを備えるキーボードインターフェイス1604と、ポインティングデバイス1504との通信インターフェイスを備えるポインティングデバイスインターフェイス1605と、アンテナ1505との通信インターフェイスを備えるアンテナインターフェイス1606と、コンピュータネットワーク接続1506上でネットワークとの通信インターフェイスを備えるネットワーク接続インターフェイス1607と、カメラ1507からデジタル画像をキャプチャするための通信インターフェイスおよび処理機能を備えるカメラインターフェイス1608と、マイクロホン1509を使用して音声を電気信号に変換し、スピーカー1510を使用して電気信号を音声に変換するための通信インターフェイスを備えるサウンドインターフェイス1609と、CPU 1601による処理のためコンピュータ命令およびデータが揮発性メモリデバイスに格納される、ランダムアクセスメモリ(RAM)1610と、基本入出力(I/O)、起動、またはキーボード1502からのキーストロークを受け取ることなどの基本システム機能の不変な低レベルシステムコードまたはデータが不揮発性メモリデバイス内に格納される、読み取り専用メモリ(ROM)1611と、オペレーティングシステム1614、アプリケーションプログラム1615(必要に応じて、例えば、ウェブブラウザアプリケーション、ウィジェットまたはガジェットエンジンアプリケーション、および/または他のアプリケーションを含む)、およびデータファイル1616を含むファイルが格納される、記憶媒体1612または他の好適なタイプのメモリ(例えば、RAM、ROM、プログラム可能読み取り専用メモリ(PROM)、消去可能プログラム可能読み取り専用メモリ(EPROM)、電気的消去可能プログラム可能読み取り専用メモリ(EEPROM)、磁気ディスク、光ディスク、フロッピー(登録商標)ディスク、ハードディスク、取り外し可能カートリッジ、フラッシュドライブなど)と、デバイス1500の現実世界もしくは相対的な位置または地理的な位置を供給するナビゲーションモジュール1617と、パワーコンポーネントに適切な交流(AC)または直流(DC)を供給する電源1619と、デバイス1500が電話網を介して音声を送受信することを可能にする電話サブシステム1620とを備える。構成要素であるデバイスとCPU 1601は、バス1621上で互いに通信する。
CPU 1601は、多数のコンピュータプロセッサのうちの1つとすることができる。一配置構成において、コンピュータCPU 1601は、複数の処理演算装置である。RAM 1610は、オペレーティングシステムのアプリケーションプログラムおよびデバイスドライバなどのソフトウェアプログラムの実行時にCPU 1601によるRAMへの格納を高速化するようにコンピュータバス1621とインターフェイスする。より具体的には、CPU 1601は、ソフトウェアプログラムを実行するために、コンピュータ実行可能プロセスステップを記憶媒体1612または他の媒体からRAM 1610のフィールド内にロードする。データは、RAM 1610に格納され、そこで、実行時にコンピュータCPU 1601によってデータがアクセスされる。例示的な一構成では、デバイス1500は、少なくとも128MBのRAMおよび256MBのフラッシュメモリを備える。
記憶媒体1612それ自体は、RAID(Redundant Array of Independent Disks)、フロッピー(登録商標)ディスクドライブ、フラッシュメモリ、USBフラッシュドライブ、外付けハードディスクドライブ、サムドライブ、ペンドライブ、キードライブ、高密度デジタル多用途ディスク(HD-DVD)光ディスクドライブ、内蔵ハードディスクドライブ、Blu-Ray光ディスクドライブ、またはホログラフィックデジタルデータストレージ(HDDS)光ディスクドライブ、外付けミニデュアルインラインメモリモジュール(DIMM)同期型ダイナミックランダムアクセスメモリ(SDRAM)、または外付けマイクロDIMM SDRAMなどの多数の物理的ドライブユニットを含みうる。このようなコンピュータ可読記憶媒体を使用することで、デバイス1500は、取り外し可能および取り外し不可能な記憶媒体に格納されているコンピュータ実行可能プロセスステップ、アプリケーションプログラムなどにアクセスし、デバイス1500のデータ負荷を軽減したり、またはデバイス1500上にデータをアップロードすることができる。
コンピュータプログラム製品は、記憶媒体1612、つまり機械可読記憶媒体で明確に具現化される。コンピュータプログラム製品は、機械によって読み込まれたときに、データ処理装置にモバイルデバイスへの画像データの格納を行わせるように動作する命令を含む。いくつかの実施形態では、このコンピュータプログラム製品は、多感覚応用音声検出を実行する命令を備える。
オペレーティングシステム1614は、GOOGLEモバイルデバイスプラットフォームなどのLINUXベースのオペレーティングシステム、APPLE MAC OS X、MICROSOFT WINDOWS(登録商標) NT/WINDOWS(登録商標) 2000/WINDOWS(登録商標) XP/WINDOWS(登録商標) MOBILE、さまざまなUNIX(登録商標)系オペレーティングシステム、またはコンピュータもしくは組み込みシステム向けの専用オペレーティングシステムとすることができる。オペレーティングシステム1614用のアプリケーション開発プラットフォームまたはフレームワークは、BINARY RUNTIME ENVIRONMENT FOR WIRELESS (BREW)、SUN MICROSYSTEMS JAVA(登録商標)SCRIPTプログラミング言語を使用するJAVA(登録商標) Platform, Micro Edition (JAVA(登録商標) ME)またはJAVA(登録商標) 2 Platform, Micro Edition (J2ME)、PYTHON(商標)、FLASH LITE、またはMICROSOFT .NET Compact、または他の適切な環境とすることができる。
デバイスは、オペレーティングシステム1614用のコンピュータ実行可能コード、および電子メール、インスタントメッセージング、ビデオサービスアプリケーション、地図表示アプリケーション、文書処理、表計算、プレゼンテーション、ゲーム、地図表示、Web閲覧、JAVA(登録商標)SCRIPTエンジン、または他のアプリケーションなどのアプリケーションプログラム1615を格納する。例えば、一実装は、ユーザーがGOOGLE GMAIL電子メールアプリケーション、GOOGLE TALKインスタントメッセージングアプリケーション、YOUTUBE動画サービスアプリケーション、GOOGLE MAPSまたはGOOGLE EARTH地図作製アプリケーション、またはGOOGLE PICASA画像編集およびプレゼンテーションアプリケーションにアクセスすることを可能にする。アプリケーションプログラム1615は、TAFRI(商標)ウィジェットエンジンなどのウィジェットまたはガジェットエンジン、WINDOWS(登録商標) SIDEBARガジェットエンジンまたはKAPSULES(商標)ガジェットエンジンなどのMICROSOFTガジェットエンジン、KONFABULTOR(商標)ウィジェットエンジンなどのYAHOO!ウィジェットエンジン、APPLE DASHBOARDウィジェットエンジン、GOOGLEガジェットエンジン、KLIPFOLIOウィジェットエンジン、OPERA(商標)ウィジェットエンジン、WIDSETS(商標)ウィジェットエンジン、専用ウィジェットまたはガジェットエンジン、またはデスクトップ上に物理的にインスパイアされたアプレットに対するホストシステムソフトウェアを提供する他のウィジェットまたはガジェットエンジンも含む。
上述の実装を使用して多感覚応用音声検出機能を提供することも可能であるけれども、本開示による機能をダイナミックリンクライブラリ(DLL)として、またはFOXFIREウェブブラウザ、APPLE SAFARIウェブブラウザ、またはMICROSOFT INTERNET EXPLORERウェブブラウザといったインターネットウェブブラウザなどの他のアプリケーションプログラムのプラグインとして実装することも可能である。
ナビゲーションモジュール1617は、全地球測位システム(GPS)信号、GLObal NAvigation Satellite System(GLONASS)、ガリレオ測位システム、Beidou Satellite Navigation and Positioning System、慣性航法システム、自立航法システムなどを使用して、またはアドレス、インターネットアドレス(IP)アドレス、またはデータベース内の位置情報を使用して、デバイスの絶対位置または相対位置を判定することができる。ナビゲーションモジュール1617は、1つまたは複数の加速度計などを使用することによって、デバイス1500の角度変位、向き、または速度を測定するために使用することもできる。
図17は、オペレーティングシステム1614がGOOGLEモバイルデバイスプラットフォームである場合のデバイス1500によって使用されるオペレーティングシステム1614の例示的なコンポーネントを例示するブロック図である。オペレーティングシステム1614は、関連する電話アプリケーションが応答すること、および気まぐれなアプリケーションがオペレーティングシステムのフォルト(または「クラッシュ」)を引き起こさないことを確実にしつつ、複数のプロセスを呼び出す。オペレーティングシステム1614では、タスク切り替えを使用することで、それぞれの関連するアプリケーションの状態を失うことなく、電話中にアプリケーションを切り替えることができる。オペレーティングシステム1614は、アプリケーションフレームワークを使用してコンポーネントの再利用を推進し、ポインティングデバイス入力とキーボード入力とを組み合わせ、旋回動作を行えるようにすることによって、スケーラブルなユーザーエクスペリエンスを実現する。そのため、オペレーティングシステム1614は、高度な標準ベースのウェブブラウザを使用しつつ、高機能なグラフィックスシステムおよびメディアエクスペリエンスをもたらすことができる。
オペレーティングシステム1614は、一般に、カーネル1700、ライブラリ1701、オペレーティングシステムランタイム1702、アプリケーションライブラリ1704、システムサービス1705、およびアプリケーション1706の6つのコンポーネントにまとめることができる。カーネル1700は、オペレーティングシステム1614およびアプリケーションプログラム1715などのソフトウェアによるディスプレイインターフェイス1602を介したディスプレイ1501のインタラクティブな操作を可能にするディスプレイドライバ1707と、ソフトウェアによるカメラ1507のインタラクティブな操作を可能にするカメラドライバ1709と、BLUETOOTH(登録商標)ドライバ1710と、M-Systemsドライバ1711と、バインダ(IPC)ドライバ1712と、USBドライバ1714と、キーボードインターフェイス1604を介したソフトウェアによるキーボード1502のインタラクティブな操作を可能にするキーパッドドライバ1715と、WiFiドライバ1716と、サウンドインターフェイス1609を介したソフトウェアによるマイクロホン1509およびスピーカー1510のインタラクティブな操作を可能にするオーディオドライバ1717と、ソフトウェアによる電源1619のインタラクティブな操作および電源1619の管理を可能にするパワーマネージメントコンポーネント1719とを備える。
一実装において、LINUX系オペレーティングシステム用のBlueZ BLUETOOTH(登録商標)スタックに基づく、BLUETOOTH(登録商標)ドライバは、ヘッドセットおよびハンズフリーデバイス、ダイヤルアップネットワーキング、パーソナルエリアネットワーキング(PAN)、またはオーディオストリーミング(A2DP(Advance Audio Distribution Profile)またはAVRCP(Audio/Video Remote Control Profile)など)に対するプロファイルをサポートする。BLUETOOTH(登録商標)ドライバは、スキャニング、ペアリング、およびペアリング解除のためのJAVA(登録商標)バインディング、ならびにサービスクエリを提供する。
ライブラリ1701は、効率的なJAVA(登録商標)アプリケーションプログラミングインターフェイス(API)レイヤ、サーフェスマネージャ1721、二次元アプリケーションドローイング用のSGL(Simple Graphics Library)1722、ゲームおよび三次元レンダリング用のOpenGL ES(Open Graphics Library for Embedded Systems)1724、C標準ライブラリ(LIBC)1725、LIBWEBCOREライブラリ1726、FreeTypeライブラリ1727、SSL 1729、SQLiteライブラリ1730を使用する、標準のビデオ、オーディオ、および静止フレームフォーマット(MPEG(Moving Picture Experts Group)-11、H.264、MP3(MPEG-1 Audio Layer-10)、AAC(Advanced Audio Coding)、AMR(Adaptive Multi-Rate)、JPEG(Joint Photographic Experts Group)、および他のフォーマットなど)をサポートするメディアフレームワーク1720を含む。
オペレーティングシステムランタイム1702は、コアJAVA(登録商標)ライブラリ1731およびDalvik仮想マシン1732を含む。Dalvik仮想マシン1732は、カスタマイズされたファイルフォーマット(.DEX)が走るカスタム仮想マシンである。
オペレーティングシステム1614は、図17に示されているようなMIDP JSR(JAVA(登録商標) Specification Request)コンポーネント、MIDPランタイム、およびMIDPアプリケーションなどのMIDP(Mobile Information Device Profile)コンポーネントも備えることができる。MIDPコンポーネントは、デバイス1500上で実行するMIDPアプリケーションをサポートすることができる。
グラフィックスレンダリングに関しては、システム規模のコンポーザが、サーフェスおよびフレームバッファを管理し、作成にOpenGL ES 1724および二次元ハードウェアアクセラレータを使用して、ウィンドウ遷移を取り扱う。
Dlavik仮想マシン1732は、ランタイムメモリを非常に効率よく使用し、CPU最適化されたバイトコードインタプリタを実装し、デバイス1つにつき複数の仮想マシンプロセスをサポートするので、埋め込み型環境とともに使用することができる。カスタムファイルフォーマット(DEX)は、ランタイム効率を念頭において設計されたもので、共有定数プールを使用してメモリを削減し、読み取り専用構造を使用してクロスプロセス共有を改善し、固定幅命令を使用して構文解析時間を短縮しており、それにより、インストールアプリケーションをビルド時にカスタムファイルフォーマットに変換することができる。関連付けられているバイトコードは、スタックベースの命令ではなくレジスタベースの命令を使用してメモリおよびディスパッチオーバーヘッドを低減し、固定幅命令を使用して構文解析を簡素化し、16ビットコードユニットを使用して読み込みを最小限に抑えることで、直ちに解釈できるように設計されている。
アプリケーションライブラリ1704は、ビューシステム1734、リソースマネージャ1735、およびコンテンツプロバイダ1737を含む。システムサービス1705は、ステータスバー1739、アプリケーションランチャー1740、すべてのインストール済みアプリケーションに対する情報を保持するパッケージマネージャ1741、アプリケーションレベルのJAVA(登録商標)インターフェイスを電話サブシステム1620に提供する電話マネージャ1742、すべてのアプリケーションによるステータスバーおよび画面上通知へのアクセスを可能にする通知マネージャ1744、複数のウィンドウを備える複数のアプリケーションがディスプレイ1501を共有することを可能にするウィンドウマネージャ1745、および別のプロセスでそれぞれのアプリケーションを実行し、アプリケーションライフサイクルを管理し、クロスアプリケーション履歴を維持する活動マネージャ1746を含む。
アプリケーション1706は、ホームアプリケーション1747、ダイアラーアプリケーション1749、連絡先アプリケーション1750、ブラウザアプリケーション1751、および多重音声検出アプリケーション1752を含む。
電話マネージャ1742は、イベント通知(電話状態、ネットワーク状態、加入者識別モジュール(SIM)ステータス、または音声メールステータス)を発し、状態情報(ネットワーク情報、SIM情報、または音声メールの有無)へのアクセスを許可し、呼を開始し、クエリを実行し、呼状態を制御する。ブラウザアプリケーション1751は、ウェブページを、ナビゲーション機能を含む、完全なデスクトップに似たマネージャにする。さらに、ブラウザアプリケーション1751では、単一カラムの小さな画面をレンダリングすることができ、他のアプリケーションにHTMLビューを埋め込むことができる。
図18は、オペレーティングシステムカーネル1800によって実装される例示的なプロセスを示すブロック図である。一般に、アプリケーションおよびシステムサービスは、別々のプロセスで実行され、活動マネージャ1746はそれぞれのアプリケーションを別のプロセスで実行し、アプリケーションライフサイクルを管理する。アプリケーションはそれ専用のプロセスで実行されるが、多くの活動またはサービスも同じプロセスで実行されうる。プロセスは、アプリケーションのコンポーネントを実行するために必要に応じて、起動と停止を行い、またプロセスは、リソースを回収するために終了させることができる。それぞれのアプリケーションは、それ専用のプロセスを割り当てられ、その名前はアプリケーションのパッケージ名であり、アプリケーションの個別の部分には、別のプロセス名を割り当てることができる。
いくつかのプロセスは、永続的なプロセスとすることができる。例えば、サーフェスマネージャ1816、ウィンドウマネージャ1814、または活動マネージャ1810などのコアシステムコンポーネントに関連するプロセスは、デバイス1500に電源が投入されている間、連続的に実行されうる。それに加えて、いくつかのアプリケーション特有のプロセスも永続的なプロセスとすることができる。例えば、ダイアラーアプリケーション1821に関連するプロセスも、永続的であるものとしてよい。
オペレーティングシステムカーネル1800によって実装されるプロセスは、一般に、システムサービスプロセス1801、ダイアラープロセス1802、ブラウザプロセス1804、および地図プロセス1805として分類されうる。システムサービスプロセス1801は、ステータスバー1739に関連付けられているステータスバープロセス1806、アプリケーションランチャー1740に関連付けられているアプリケーションランチャープロセス1807、パッケージマネージャ1741に関連付けられているパッケージマネージャプロセス1809、活動マネージャ1746に関連付けられている活動マネージャプロセス1810、グラフィックス、ローカライズされた文字列、およびXMLレイアウト記述にアクセスできるようにするリソースマネージャ1735に関連付けられているリソースマネージャプロセス1811、通知マネージャ1744に関連付けられている通知マネージャプロセス1812、ウィンドウマネージャ1845に関連付けられているウィンドウマネージャプロセス1814、コアJAVA(登録商標)ライブラリ1731に関連付けられているコアJAVA(登録商標)ライブラリプロセス1815、サーフェスマネージャ1721に関連付けられているサーフェスマネージャプロセス1816、Dalvik仮想マシン1732に関連付けられているDalvik仮想マシンプロセス1817、LIBCライブラリ1725に関連付けられているLIBCプロセス1819、多重音声検出アプリケーション1752に関連付けられている多重音声検出プロセス1820を含む。
ダイアラープロセス1802は、ダイアラーアプリケーション1749に関連付けられているダイアラーアプリケーションプロセス1821、電話マネージャ1742に関連付けられている電話マネージャプロセス1822、コアJAVA(登録商標)ライブラリ1731に関連付けられているコアJAVA(登録商標)ライブラリプロセス1824、Dalvik仮想マシン1732に関連付けられているDalvik仮想マシンプロセス1825、およびLIBCライブラリ1725に関連付けられているLIBCプロセス1826を含む。ブラウザプロセス1804は、ブラウザアプリケーション1751に関連付けられているブラウザアプリケーションプロセス1827、コアJAVA(登録商標)ライブラリ1731に関連付けられているコアJAVA(登録商標)ライブラリプロセス1829、Dalvik仮想マシン1732に関連付けられているDalvik仮想マシンプロセス1830、LIBWEBCOREライブラリ1726に関連付けられているLIBWEBCOREプロセス1831、およびLIBCライブラリ1725に関連付けられているLIBCプロセス1832を含む。
地図プロセス1805は、地図アプリケーションプロセス1834、コアJAVA(登録商標)ライブラリプロセス1835、Dalvik仮想マシンプロセス1836、およびLIBCプロセス1837を含む。明らかに、Dalvik仮想マシンプロセスなどのいくつかのプロセスは、システムサービスプロセス1801、ダイアラープロセス1802、ブラウザプロセス1804、および地図プロセス1805のうちの1つまたは複数の中に存在しうる。
図19は、本明細書で説明されている技術とともに使用されうる一般的なコンピュータデバイス1900および一般的なモバイルコンピュータデバイス1950の一例を示している。コンピューティングデバイス1900は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバー、ブレードサーバー、メインフレーム、および他の適切なコンピュータなどのさまざまな形態のデジタルコンピュータを表すことが意図されている。コンピューティングデバイス1950は、パーソナルデジタルアシスタント、携帯電話、スマートフォン、および他の類似のコンピューティングデバイスなどのさまざまな形態のモバイルデバイスを表すことが意図されている。ここに示されているコンポーネント、それらの接続および関係、ならびにそれらの機能は、例示することのみを意図されており、本明細書において説明され、および/または請求されている実装を制限することを意図されていない。
コンピューティングデバイス1900は、プロセッサ1902、メモリ1904、ストレージデバイス1906、メモリ1904および高速拡張ポート1910に接続する高速インターフェイス1908、ならびに低速バス1914およびストレージデバイス1906に接続する低速インターフェイス1912を備える。コンポーネント1902、1904、1906、1908、1910、および1912のそれぞれは、さまざまなバスを使用して相互接続され、共通マザーボード上に取り付けられるか、または適宜他の仕方で取り付けられうる。プロセッサ1902は、高速インターフェイス1908に結合されているディスプレイ1916などの、外部入力/出力デバイス上にGUIのグラフィック情報を表示するためメモリ1904内に、またはストレージデバイス1906上に、格納されている命令を含む、コンピューティングデバイス1900内で実行する命令を処理することができる。他の実装では、複数のプロセッサおよび/または複数のバスを、適宜、複数のメモリおよび複数のタイプのメモリとともに使用することができる。また、複数のコンピューティングデバイス1900を、必要なオペレーションの一部を行うそれぞれのデバイスと接続することができる(例えば、サーバーバンク、ブレードサーバーのグループ、またはマルチプロセッサシステムとして)。
メモリ1904は、コンピューティングデバイス1900内の情報を格納する。一実装では、メモリ1904は、1つまたは複数の揮発性メモリユニットである。他の実装では、メモリ1904は、1つまたは複数の不揮発性メモリユニットである。メモリ1904は、磁気ディスクまたは光ディスクなどのコンピュータ可読媒体の他の形態のものとすることもできる。
ストレージデバイス1906は、コンピューティングデバイス1900用のマスストレージを構成することもできる。一実装では、ストレージデバイス1906は、ストレージエリアネットワークまたは他の構成のデバイスを含む、フロッピー(登録商標)ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリもしくは他の類似のソリッドステートメモリデバイス、またはデバイスアレイなどのコンピュータ可読媒体であるか、またはコンピュータ可読媒体を含むことができる。コンピュータプログラム製品は、情報担体において明確に具現化されうる。コンピュータプログラム製品は、実行されると上述のような1つまたは複数の方法を実行する命令も格納することができる。情報担体は、メモリ1904、ストレージデバイス1906、プロセッサ1902上のメモリ、または伝搬信号などのコンピュータもしくは機械可読媒体である。
高速コントローラ1908は、コンピューティングデバイス1900に対する帯域幅を集中的に使用するオペレーションを管理するが、低速コントローラ1912は、帯域幅を集中的に使用する程度の低いオペレーションを管理する。機能のこのような割り振りは例示的なものにすぎない。一実装では、高速コントローラ1908は、メモリ1904、ディスプレイ1916(例えば、グラフィックスプロセッサまたはアクセラレータを通じて)、およびさまざまな拡張カード(図示せず)を受け入れることができる高速拡張ポート1910に結合される。この実装では、低速コントローラ1912は、ストレージデバイス1906および低速拡張ポート1914に結合される。さまざまな通信ポート(例えば、USB、Bluetooth(登録商標)、Ethernet(登録商標)、無線Ethernet(登録商標))を含みうる、低速拡張ポートは、キーボード、ポインティングデバイス、スキャナ、または例えば、ネットワークアダプタを通じて、スイッチまたはルーターなどネットワーキングデバイスなどの1つまたは複数の入力/出力デバイスに結合することができる。
コンピューティングデバイス1900は、図に示されているように、数多くの異なる形態で実装されうる。例えば、標準サーバー1920として、またはそのようなサーバーのグループとして何倍もの数で実装されうる。これは、ラックサーバーシステム1924の一部としても実装することができる。それに加えて、ラップトップコンピュータ1922などのパーソナルコンピュータで実装することもできる。あるいは、コンピューティングデバイス1900からのコンポーネントをデバイス1950などのモバイルデバイス(図示せず)内の他のコンポーネントと組み合わせることができる。このようなデバイスのそれぞれは、コンピューティングデバイス1900、1950のうちの1つまたは複数を含むことができ、システム全体が、互いに通信する複数のコンピューティングデバイス1900、1950で構成されうる。
コンピューティングデバイス1950は、数ある中でもとりわけ、プロセッサ1952、メモリ1964、ディスプレイ1954などの入力/出力デバイス、通信インターフェイス1966、およびトランシーバー1968を備える。デバイス1950は、追加のストレージを構成するためにマイクロドライブまたは他のデバイスなどのストレージデバイスを備えることもできる。コンポーネント1950、1952、1964、1954、1966、および1968のそれぞれは、さまざまなバスを使用して相互接続され、これらのコンポーネントのうちのいくつかは、共通マザーボード上に取り付けられるか、または適宜他の仕方で取り付けられうる。
プロセッサ1952は、メモリ1964内に格納されている命令を含む、コンピューティングデバイス1950内の命令を実行することができる。プロセッサは、個別の、および複数の、アナログおよびデジタルプロセッサを備えるチップのチップセットとして実装することができる。プロセッサは、例えば、ユーザーインターフェイスの制御、デバイス1950によるアプリケーション実行、デバイス1950による無線通信などの、デバイス1950の他のコンポーネントの調整を行うことができる。
プロセッサ1952は、制御インターフェイス1958およびディスプレイ1954に結合されているディスプレイインターフェイス1956を通じてユーザーと通信することができる。ディスプレイ1954は、例えば、TFT LCD(薄膜トランジスタ液晶ディスプレイ)またはOLED(有機発光ダイオード)ディスプレイまたは他の適切なディスプレイ技術とすることができる。ディスプレイインターフェイス1956は、グラフィックおよび他の情報をユーザーに提示するようにディスプレイ1954を駆動するための適切な回路を備えることができる。制御インターフェイス1958は、ユーザーからコマンドを受け取り、それらをプロセッサ1952に送るために変換することができる。それに加えて、外部インターフェイス1962は、プロセッサ1952と通信するように構成され、デバイス1950と他のデバイスとの近距離通信を行うことを可能にする。外部インターフェイス1962は、例えば、いくつかの実装における有線通信、または他の実装における無線通信を行うことができ、複数のインターフェイスも使用できる。
メモリ1964は、コンピューティングデバイス1950内の情報を格納する。メモリ1964は、1つまたは複数のコンピュータ可読媒体、1つまたは複数の揮発性メモリユニット、または1つまたは複数の不揮発性メモリユニットのうちの1つまたは複数として実装することができる。拡張メモリ1974も、例えば、SIMM(シングルインラインメモリモジュール)カードインターフェイスを含むものとしてよい、拡張インターフェイス1972を通じて構成され、デバイス1950に接続されうる。このような拡張メモリ1974は、デバイス1950に対する付加的な記憶領域を設けることができるか、またはデバイス1950用のアプリケーションまたは他の情報を格納することもできる。特に、拡張メモリ1974は、上述のプロセスを実行するか、または補助する命令を格納することができ、またセキュア情報も格納することができる。したがって、例えば、拡張メモリ1974は、デバイス1950に対するセキュリティモジュールとして構成することができ、デバイス1950の安全な使用を可能にする命令でプログラムすることができる。それに加えて、安全なアプリケーションは、SIMMカードを介して、ハッキングできない形でSIMMカード上に識別情報を配置するなど、付加情報とともに提供することもできる。
メモリとしては、例えば、後述のように、フラッシュメモリおよび/またはNVRAMが挙げられる。一実装では、コンピュータプログラム製品は、情報担体で明確に具現化される。コンピュータプログラム製品は、実行されると上述のような1つまたは複数の方法を実行する命令を格納する。情報担体は、メモリ1964、拡張メモリ1974、プロセッサ1952上のメモリ、または例えば、トランシーバー1968もしくは外部インターフェイス1962上で受信されうる伝搬信号などのコンピュータもしくは機械可読媒体である。
デバイス1950は、必要ならば、デジタル信号処理回路を備えることができる、通信インターフェイス1966を通じて無線で通信することができる。通信インターフェイス1966は、とりわけ、GSM音声電話、SMS、EMS、またはMMSメッセージング、CDMA、TDMA、PDC、WCDMA、CDMA2000、またはGPRSなどの、さまざまなモードもしくはプロトコルの下で通信を行うことができる。このような通信は、例えば、無線周波トランシーバー1968を通じて行うことができる。それに加えて、Bluetooth(登録商標)、WiFi、または他のトランシーバー(図示せず)などを使用して、短距離通信を実行することができる。それに加えて、GPS(全地球測位システム)受信機モジュール1970は、追加のナビゲーションおよび位置関係無線データをデバイス1950に送ることができ、これはデバイス1950上で実行するアプリケーションによって適宜使用されうる。
デバイス1950は、オーディオコーデック1960を使用して音声で通信することもでき、ユーザーから発話情報を受け取り、それを使用可能なデジタル情報に変換することができる。オーディオコーデック1960は、例えば、デバイス1950のハンドセットのスピーカーなどを通じて、ユーザー向けに可聴音を発生することができる。このような音は、音声電話からの音を含み、録音された音を含み(例えば、音声メッセージ、音楽ファイルなど)、またデバイス1950上で動作するアプリケーションによって生成される音を含むこともできる。
コンピューティングデバイス1950は、図に示されているように、数多くの異なる形態で実装されうる。例えば、携帯電話1980として実装することができる。また、スマートフォン1982、パーソナルデジタルアシスタント、または他の類似のモバイルデバイスの一部として実装することもできる。
本明細書で説明されているシステムおよび技術のさまざまな実装は、デジタル電子回路、集積回路、専用設計ASIC(特定用途向け集積回路)、コンピュータのハードウェア、ファームウェア、ソフトウェア、および/またはこれらの組み合わせで実現することが可能である。さまざまな実装は、ストレージシステム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受け取り、ストレージシステム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスにデータおよび命令を送るように結合された、専用または汎用のものとしてよい、少なくとも1つのプログラム可能なプロセッサを備えるプログラム可能なシステム上で実行可能であり、および/または解釈可能である1つまたは複数のコンピュータプログラムによる実装を含むことができる。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラム可能なプロセッサ用の機械語命令を含み、高水準手続き型および/またはオブジェクト指向プログラミング言語で、および/またはアセンブリ/機械語で実装されうる。本明細書で使用されているように、「機械可読媒体」、「コンピュータ可読媒体」という用語は、機械可読信号として機械語命令を受け取る機械可読媒体を含む、機械語命令および/またはデータをプログラム可能なプロセッサに供給するために使用されるコンピュータプログラム製品、装置、および/またはデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラム可能論理デバイス(PLD))を指す。「機械可読信号」という用語は、機械語命令および/またはデータをプログラム可能なプロセッサに供給するために使用される信号を指す。
ユーザーと情報のやり取りを行うために、本明細書で説明されているシステムおよび技術は、ユーザーに情報を表示するための表示デバイス(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)およびキーボードおよびユーザーがコンピュータに入力を送るために使用できるポインティングデバイス(例えば、マウスもしくはトラックボール)を有するコンピュータ上で実装することができる。他の種類のデバイスも、ユーザーと情報をやり取りするために使用することができ、例えば、ユーザーに返されるフィードバックは、任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)とすることができ、ユーザーからの入力は、音響、話し声、または触覚入力を含む、任意の形態で受け取ることができる。
本明細書で説明されているシステムおよび技術は、バックエンドコンポーネントを含む(例えば、データサーバーとして)、またはミドルウェアコンポーネントを含む(例えば、アプリケーションサーバーとして)、またはフロントエンドコンポーネントを含む(例えば、ユーザーと本明細書で説明されているシステムおよび技術の実装との情報のやり取りに使用されるグラフィカルユーザーインターフェイスまたはウェブブラウザを有するクライアントコンピュータ)コンピューティングシステム、またはそのようなバックエンド、ミドルウェア、またはフロントエンドコンポーネントの任意の組み合わせで実装することができる。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体(例えば、通信ネットワーク)によって相互接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(「LAN」)、ワイドエリアネットワーク(「WAN」)、およびインターネットが挙げられる。
コンピューティングシステムは、クライアントおよびサーバーを備えることができる。クライアントおよびサーバーは、一般に、互いに隔てられており、典型的には、通信ネットワークを通じて情報のやり取りを行う。クライアントとサーバーとの関係は、コンピュータプログラムが各コンピュータ上で実行され、互いとの間にクライアント-サーバー関係を有することによって発生する。
それに加えて、図に示されている論理の流れは、所望の結果を得るために、図示されている特定の順序、またはシーケンシャルな順序を必要としない。それに加えて、他のステップを与えるか、または説明されている流れからステップを取り除くこともでき、また他のコンポーネントを説明されているシステムに追加するか、または説明されているシステムから取り除くことができる。したがって、他の実装は、請求項の範囲内に収まる。
100 概念図
105 ユーザー
110 モバイルデバイス
115 電話姿勢
120 PDA姿勢
125 トランシーバー姿勢
200 ブロック図
205 モバイルデバイス
207 画面
209 物理的キーパッド
211 トラックボール
213 加速度計
215 近接センサー
217 マイクロホン
219 カメラ
221 音声検出器
223 話者識別器
225 ジェスチャー分類器
227 姿勢識別器
229 スピーチエンドポインタ
231 メモリ
233 中央演算処理装置、プロセッサ
235 I/Oインターフェイス
240 インターネット
245 リモートコンピューティングデバイス
1511 新着メールインジケータ
1512 アクティブ呼インジケータ
1514 データ規格インジケータ
1515 信号強度インジケータ
1516 電池残量インジケータ
1517 クロック
1519 ウェブブラウザアプリケーションアイコン
1520 電話アプリケーションアイコン
1521 検索アプリケーションアイコン
1522 連絡先アプリケーションアイコン
1524 地図表示アプリケーションアイコン
1525 電子メールアプリケーションアイコン
1526、1527、1529 キー
1530 呼確立キー
1531 呼終了キー
1532 ドロップダウンメニューキー
1534 バックワードナビゲーションキー
1535 お気に入りキー
1536 ホームページキー
1900 コンピュータデバイス
1950 モバイルコンピュータデバイス
1902 プロセッサ
1904 メモリ
1906 ストレージデバイス
1908 高速インターフェイス
1910 高速拡張ポート
1912 低速インターフェイス
1914 低速バス
1916 ディスプレイ
1920 標準サーバー
1922 ラップトップコンピュータ
1924 ラックサーバーシステム
1950 デバイス
1952 プロセッサ
1954 ディスプレイ
1956 ディスプレイインターフェイス
1958 制御インターフェイス
1960 オーディオコーデック
1962 外部インターフェイス
1964 メモリ
1966 通信インターフェイス
1968 トランシーバー
1970 GPS(全地球測位システム)受信機モジュール
1972 拡張インターフェイス
1974 拡張メモリ
1980 携帯電話
1982 スマートフォン

Claims (19)

  1. コンピュータで実施される方法であって、
    プロセッサを使用して、モバイルデバイスの向きを判定するステップと、
    前記プロセッサを使用して、前記モバイルデバイスの前記判定された向きに基づいて前記モバイルデバイスの動作モードを決定するステップと、
    前記モバイルデバイスの前記決定された動作モードに基づ音声検出パラメータを識別するステップと、を含み、前記識別された音声検出パラメータは、音声検出が終了する時を指定するための1つまたは複数の音声エネルギー閾値を定義し、
    前記方法は、
    検出された聴覚情報と、前記モバイルデバイスの決定された前記動作モードに基づいて識別された前記音声検出パラメータとの比較に基づいて前記モバイルデバイスのユーザーからの音声の終了を検出するステップを含む、方法。
  2. 前記モバイルデバイスの前記向きを判定するステップは、前記モバイルデバイスの角度を検出するステップを含む、請求項1に記載の方法。
  3. 前記モバイルデバイスの前記向きを判定するステップは、前記モバイルデバイスの前記ユーザーへの前記モバイルデバイスの近接度を検出するステップを含む、請求項1に記載の方法。
  4. 前記モバイルデバイスの前記決定された動作モードは、パーソナルデジタルアシスタント動作モード、電話動作モード、またはトランシーバー動作モードのうちの1つで構成される、請求項1に記載の方法。
  5. 前記モバイルデバイスの前記動作モードを決定するステップは、前記モバイルデバイスの移動を識別するように、ベイジアンネットワークを使用するステップを含む、請求項1に記載の方法。
  6. 前記モバイルデバイスの前記動作モードを決定するステップは、前記モバイルデバイスの移動を識別するように、隠れマルコフモデルを使用するステップを含む、請求項1に記載の方法。
  7. 前記モバイルデバイスの前記ユーザーに対して音声検出が開始または終了したことを示すステップをさらに含む、請求項1に記載の方法。
  8. 前記モバイルデバイスの前記ユーザーに音声検出が開始または終了したことを示すステップは、視覚的もしくは聴覚的通知を含む、請求項7に記載の方法。
  9. 1つまたは複数のコンピュータを備えたシステムであって、
    前記コンピュータは、
    モバイルデバイスの向きを検出する少なくとも1つのセンサーと、
    前記モバイルデバイスの前記検出された向きに基づいて前記モバイルデバイスの姿勢を識別する姿勢識別器と、
    前記モバイルデバイスの識別された姿勢に基づく、選択された音声検出パラメータを識別するスピーチエンドポインタとを有し、前記選択された音声検出パラメータは、音声検出が終了する時を指定するための1つまたは複数の音声エネルギー閾値を定義する、システム。
  10. 前記少なくとも1つのセンサーは、加速度計を備える、請求項9に記載のシステム。
  11. 前記少なくとも1つのセンサーは、近接センサーを備える、請求項9に記載のシステム。
  12. 前記モバイルデバイスの移動を分類するジェスチャー分類器をさらに備える、請求項9に記載のシステム。
  13. 前記識別される姿勢は、パーソナルデジタルアシスタント姿勢、電話姿勢、またはトランシーバー姿勢のうちの1つで構成される、請求項9に記載のシステム。
  14. 1つまたは複数のコンピュータを備えたシステムであって、
    前記コンピュータは、
    モバイルデバイスの向きを検出する少なくとも1つのセンサーと、
    前記モバイルデバイスの前記検出された向きに基づいて前記モバイルデバイスの姿勢を識別する姿勢識別器と、
    前記モバイルデバイスの識別された姿勢に基づく、選択された音声検出パラメータを識別する手段とを有し、前記音声検出パラメータは、前記モバイルデバイスのユーザーが前記モバイルデバイスに対する発声を終了したかどうかを判定するための1つまたは複数の音声エネルギー閾値を定義する、システム。
  15. 前記少なくとも1つのセンサーは、近接センサーを備える、請求項14に記載のシステム。
  16. 前記識別される姿勢は、パーソナルデジタルアシスタント姿勢、電話姿勢、またはトランシーバー姿勢のうちの1つで構成される、請求項14に記載のシステム。
  17. 前記モバイルデバイスの移動を分類するジェスチャー分類器をさらに備える、請求項14に記載のシステム。
  18. 前記少なくとも1つのセンサーは、カメラを備える、請求項14に記載のシステム。
  19. 前記少なくとも1つのセンサーは、加速度計を備える、請求項14に記載のシステム。
JP2011535763A 2008-11-10 2009-11-10 多感覚応用音声検出 Active JP5538415B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11306108P 2008-11-10 2008-11-10
US61/113,061 2008-11-10
PCT/US2009/063874 WO2010054373A2 (en) 2008-11-10 2009-11-10 Multisensory speech detection

Publications (2)

Publication Number Publication Date
JP2012508530A JP2012508530A (ja) 2012-04-05
JP5538415B2 true JP5538415B2 (ja) 2014-07-02

Family

ID=41531538

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011535763A Active JP5538415B2 (ja) 2008-11-10 2009-11-10 多感覚応用音声検出

Country Status (5)

Country Link
US (9) US9009053B2 (ja)
EP (3) EP3258468B1 (ja)
JP (1) JP5538415B2 (ja)
KR (6) KR101829865B1 (ja)
WO (1) WO2010054373A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10579327B2 (en) 2017-03-21 2020-03-03 Kabushiki Kaisha Toshiba Speech recognition device, speech recognition method and storage medium using recognition results to adjust volume level threshold

Families Citing this family (372)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8254591B2 (en) 2007-02-01 2012-08-28 Personics Holdings Inc. Method and device for audio recording
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9954996B2 (en) 2007-06-28 2018-04-24 Apple Inc. Portable electronic device with conversation management for incoming instant messages
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
KR101829865B1 (ko) * 2008-11-10 2018-02-20 구글 엘엘씨 멀티센서 음성 검출
US8099134B2 (en) 2008-12-19 2012-01-17 Verizon Patent And Licensing Inc. Visual manipulation of audio
US8731533B2 (en) * 2009-03-03 2014-05-20 Peter Roach Methods and apparatuses for reconnecting calls with quality problems or reconnecting dropped calls
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US8995625B2 (en) 2009-09-30 2015-03-31 T-Mobile Usa, Inc. Unified interface and routing module for handling audio input
US9111538B2 (en) 2009-09-30 2015-08-18 T-Mobile Usa, Inc. Genius button secondary commands
KR101613171B1 (ko) * 2009-10-29 2016-04-18 삼성전자주식회사 휴대용 단말기에서 통화 품질을 개선하기 위한 장치 및 방법
US8922485B1 (en) 2009-12-18 2014-12-30 Google Inc. Behavioral recognition on mobile devices
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8428759B2 (en) * 2010-03-26 2013-04-23 Google Inc. Predictive pre-recording of audio for voice input
US9112989B2 (en) * 2010-04-08 2015-08-18 Qualcomm Incorporated System and method of smart audio logging for mobile devices
JP5625506B2 (ja) 2010-06-04 2014-11-19 ソニー株式会社 操作端末装置、電子機器、および電子機器システム
US9552299B2 (en) * 2010-06-11 2017-01-24 California Institute Of Technology Systems and methods for rapid processing and storage of data
JP5017441B2 (ja) * 2010-10-28 2012-09-05 株式会社東芝 携帯型電子機器
US8253684B1 (en) 2010-11-02 2012-08-28 Google Inc. Position and orientation determination for a mobile computing device
US20120226498A1 (en) * 2011-03-02 2012-09-06 Microsoft Corporation Motion-based voice activity detection
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9366749B2 (en) 2011-04-15 2016-06-14 Qualcomm Incorporated Device position estimates from motion and ambient light classifiers
US8700406B2 (en) * 2011-05-23 2014-04-15 Qualcomm Incorporated Preserving audio data collection privacy in mobile devices
US8971924B2 (en) 2011-05-23 2015-03-03 Apple Inc. Identifying and locating users on a mobile network
US10715380B2 (en) 2011-05-23 2020-07-14 Apple Inc. Setting a reminder that is triggered by a target user device
US9195309B2 (en) * 2011-05-27 2015-11-24 Qualcomm Incorporated Method and apparatus for classifying multiple device states
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US20130033418A1 (en) * 2011-08-05 2013-02-07 Qualcomm Incorporated Gesture detection using proximity or light sensors
WO2013022135A1 (en) * 2011-08-11 2013-02-14 Lg Electronics Inc. Electronic device and method of controlling the same
US20130083151A1 (en) * 2011-09-30 2013-04-04 Lg Electronics Inc. Electronic device and method for controlling electronic device
KR101780508B1 (ko) * 2011-10-14 2017-09-22 삼성전자주식회사 통화 시의 귀를 구별하기 위한 이동 단말 및 그 방법
US9293151B2 (en) 2011-10-17 2016-03-22 Nuance Communications, Inc. Speech signal enhancement using visual information
US9526127B1 (en) 2011-11-18 2016-12-20 Google Inc. Affecting the behavior of a user device based on a user's gaze
US10223710B2 (en) 2013-01-04 2019-03-05 Visa International Service Association Wearable intelligent vision device apparatuses, methods and systems
US20150012426A1 (en) * 2013-01-04 2015-01-08 Visa International Service Association Multi disparate gesture actions and transactions apparatuses, methods and systems
CN102609091A (zh) * 2012-02-10 2012-07-25 北京百纳信息技术有限公司 一种移动终端以及启动移动终端语音操作的方法
US9842589B2 (en) * 2012-02-27 2017-12-12 Nec Corporation Voice input device, voice input method and program
CN110164437B (zh) * 2012-03-02 2021-04-16 腾讯科技(深圳)有限公司 一种即时通信的语音识别方法和终端
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US20130257753A1 (en) * 2012-04-03 2013-10-03 Anirudh Sharma Modeling Actions Based on Speech and Touch Inputs
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9392421B2 (en) 2012-05-23 2016-07-12 Qualcomm Incorporated Systems and methods for group communication using a mobile device with mode depending on user proximity or device position
US9204263B2 (en) 2012-05-23 2015-12-01 Mark A. Lindner Systems and methods for establishing a group communication based on motion of a mobile device
US9674694B2 (en) 2012-05-23 2017-06-06 Qualcomm Incorporated Systems and methods for group communication using a mobile device with mode transition based on motion
US9560099B2 (en) 2012-05-23 2017-01-31 Qualcomm Incorporated Systems and methods for group communication using a mobile device using motion and voice activate controls
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
CN104428832B (zh) * 2012-07-09 2018-06-26 Lg电子株式会社 语音识别装置及其方法
JP6100263B2 (ja) * 2012-08-10 2017-03-22 株式会社ホンダアクセス 音声認識方法及び音声認識装置
US9323985B2 (en) * 2012-08-16 2016-04-26 Microchip Technology Incorporated Automatic gesture recognition for a sensor system
US9619812B2 (en) * 2012-08-28 2017-04-11 Nuance Communications, Inc. Systems and methods for engaging an audience in a conversational advertisement
CN102857612A (zh) * 2012-08-30 2013-01-02 广东欧珀移动通信有限公司 一种通话时自动录音的方法及手机
WO2014039106A1 (en) * 2012-09-10 2014-03-13 Google Inc. Answering questions using environmental context
US9436382B2 (en) * 2012-09-18 2016-09-06 Adobe Systems Incorporated Natural language image editing
US9588964B2 (en) 2012-09-18 2017-03-07 Adobe Systems Incorporated Natural language vocabulary generation and usage
US9412366B2 (en) 2012-09-18 2016-08-09 Adobe Systems Incorporated Natural language image spatial and tonal localization
US9141335B2 (en) 2012-09-18 2015-09-22 Adobe Systems Incorporated Natural language image tags
US10656808B2 (en) 2012-09-18 2020-05-19 Adobe Inc. Natural language and user interface controls
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
JP5929698B2 (ja) 2012-10-17 2016-06-08 ソニー株式会社 通信システムおよびプログラム
KR101470900B1 (ko) * 2012-11-14 2014-12-09 최웅식 모바일 단말기에서의 음성/텍스트 변환방법 및 그 기록매체
CN102938808B (zh) * 2012-11-23 2016-03-23 小米科技有限责任公司 移动终端中的信息录制方法及装置
US9851787B2 (en) * 2012-11-29 2017-12-26 Microsoft Technology Licensing, Llc Display resource management
US9070366B1 (en) * 2012-12-19 2015-06-30 Amazon Technologies, Inc. Architecture for multi-domain utterance processing
US20140184495A1 (en) * 2012-12-31 2014-07-03 Joseph Patrick Quin Portable Device Input by Configurable Patterns of Motion
US8989773B2 (en) 2013-01-29 2015-03-24 Apple Inc. Sharing location information among devices
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9123340B2 (en) 2013-03-01 2015-09-01 Google Inc. Detecting the end of a user question
WO2014141951A1 (ja) * 2013-03-11 2014-09-18 ソニー株式会社 端末装置、端末装置の制御方法およびプログラム
US11393461B2 (en) 2013-03-12 2022-07-19 Cerence Operating Company Methods and apparatus for detecting a voice command
US9112984B2 (en) 2013-03-12 2015-08-18 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) * 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
KR20140113832A (ko) * 2013-03-15 2014-09-25 현대자동차주식회사 자동차의 음성 전달 시동장치 및 시동방법
WO2014178491A1 (ko) * 2013-04-30 2014-11-06 포항공과대학교 산학협력단 발화 인식 방법 및 장치
TWI553470B (zh) * 2013-05-31 2016-10-11 陳泰然 一種顯示裝置及其運作方法
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9432954B2 (en) * 2013-06-07 2016-08-30 Apple Inc. Determination of device body location
US10716073B2 (en) 2013-06-07 2020-07-14 Apple Inc. Determination of device placement using pose angle
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US9589565B2 (en) * 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US20140379351A1 (en) * 2013-06-24 2014-12-25 Sundeep Raniwala Speech detection based upon facial movements
CN104252330B (zh) * 2013-06-28 2019-12-24 联想(北京)有限公司 一种信息处理方法及电子设备
US9418651B2 (en) 2013-07-31 2016-08-16 Google Technology Holdings LLC Method and apparatus for mitigating false accepts of trigger phrases
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
DE102013013695B4 (de) * 2013-08-16 2019-05-23 Audi Ag Kraftfahrzeug mit Spracherkennung
US9892745B2 (en) * 2013-08-23 2018-02-13 At&T Intellectual Property I, L.P. Augmented multi-tier classifier for multi-modal voice activity detection
KR20150031896A (ko) 2013-09-17 2015-03-25 한국전자통신연구원 음성인식장치 및 그 동작방법
JP6329833B2 (ja) * 2013-10-04 2018-05-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America ウェアラブル端末及びウェアラブル端末の制御方法
US9329695B2 (en) 2013-10-04 2016-05-03 Panasonic Intellectual Property Corporation Of America Wearable terminal and method for controlling the same
TWI502487B (zh) * 2013-10-24 2015-10-01 Hooloop Corp 語音管理方法,及其相關裝置與電腦程式產品
CN104639722B (zh) * 2013-11-07 2018-06-26 华为终端(东莞)有限公司 语音通话的建立方法和装置
CN103558916A (zh) * 2013-11-07 2014-02-05 百度在线网络技术(北京)有限公司 人机交互系统、方法及其装置
US9188579B2 (en) * 2013-11-21 2015-11-17 Qualcomm Incorporated Sniffing smartphone
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620116B2 (en) * 2013-12-24 2017-04-11 Intel Corporation Performing automated voice operations based on sensor data reflecting sound vibration conditions and motion conditions
US20150229752A1 (en) * 2014-02-13 2015-08-13 Roderick Andrew Coles Mobile security application
TWI514258B (zh) * 2014-02-17 2015-12-21 Hooloop Corp 語音管理方法及系統,及其電腦程式產品
US9516165B1 (en) * 2014-03-26 2016-12-06 West Corporation IVR engagements and upfront background noise
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9185062B1 (en) 2014-05-31 2015-11-10 Apple Inc. Message user interfaces for capture and transmittal of media and location content
US10382378B2 (en) 2014-05-31 2019-08-13 Apple Inc. Live location sharing
US10318016B2 (en) * 2014-06-03 2019-06-11 Harman International Industries, Incorporated Hands free device with directional interface
US9355640B2 (en) * 2014-06-04 2016-05-31 Google Inc. Invoking action responsive to co-presence determination
CN105321515A (zh) * 2014-06-17 2016-02-10 中兴通讯股份有限公司 一种移动终端的车载应用控制方法、装置及终端
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP6591217B2 (ja) * 2014-07-16 2019-10-16 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識テキスト化システムの制御方法
US9620106B2 (en) * 2014-07-30 2017-04-11 At&T Intellectual Property I, L.P. System and method for personalization in speech recogniton
CN114115460A (zh) 2014-08-06 2022-03-01 苹果公司 用于电池管理的减小尺寸的用户界面
USD762663S1 (en) * 2014-09-02 2016-08-02 Samsung Electronics Co., Ltd. Display screen or portion thereof with graphical user interface
EP4050467A1 (en) 2014-09-02 2022-08-31 Apple Inc. Phone user interface
EP3373122B1 (en) 2014-09-02 2022-04-06 Apple Inc. Reduced-size interfaces for managing alerts
USD766267S1 (en) * 2014-09-02 2016-09-13 Samsung Electronics Co., Ltd. Display screen or portion thereof with graphical user interface
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US20160163331A1 (en) * 2014-12-04 2016-06-09 Kabushiki Kaisha Toshiba Electronic device and method for visualizing audio data
KR20160071732A (ko) * 2014-12-12 2016-06-22 삼성전자주식회사 음성 입력을 처리하는 방법 및 장치
US10002478B2 (en) 2014-12-12 2018-06-19 Qualcomm Incorporated Identification and authentication in a shared acoustic space
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) * 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
JP6459684B2 (ja) * 2015-03-23 2019-01-30 カシオ計算機株式会社 情報出力装置、情報出力方法及びプログラム
US9596429B2 (en) * 2015-05-08 2017-03-14 Echostar Technologies L.L.C. Apparatus, systems and methods for providing content when loud background noise is present
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10504509B2 (en) * 2015-05-27 2019-12-10 Google Llc Providing suggested voice-based action queries
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10003938B2 (en) 2015-08-14 2018-06-19 Apple Inc. Easy location sharing
USD777784S1 (en) 2015-08-26 2017-01-31 Google Inc. Display screen with icon
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US11126525B2 (en) * 2015-09-09 2021-09-21 Arris Enterprises Llc In-home legacy device onboarding and privacy enhanced monitoring
US10186276B2 (en) 2015-09-25 2019-01-22 Qualcomm Incorporated Adaptive noise suppression for super wideband music
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US9804681B2 (en) * 2015-11-10 2017-10-31 Motorola Mobility Llc Method and system for audible delivery of notifications partially presented on an always-on display
KR101698369B1 (ko) * 2015-11-24 2017-01-20 주식회사 인텔로이드 사용자 음성 신호를 이용하는 정보 제공 장치 및 정보 제공 방법
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
USD852839S1 (en) * 2015-12-23 2019-07-02 Beijing Xinmei Hutong Technology Co., Ltd Display screen with a graphical user interface
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
EP3414759B1 (en) 2016-02-10 2020-07-01 Cerence Operating Company Techniques for spatially selective wake-up word recognition and related systems and methods
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10142754B2 (en) 2016-02-22 2018-11-27 Sonos, Inc. Sensor on moving component of transducer
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
KR20170100309A (ko) 2016-02-25 2017-09-04 삼성전자주식회사 음성 인식 제어를 제공하는 전자 장치 및 그 동작 방법
US9997173B2 (en) * 2016-03-14 2018-06-12 Apple Inc. System and method for performing automatic gain control using an accelerometer in a headset
EP3236211A1 (en) * 2016-04-21 2017-10-25 Thomson Licensing Method and apparatus for estimating a pose of a rendering device
CN106020460A (zh) * 2016-05-13 2016-10-12 上海龙旗科技股份有限公司 一种基于俯仰角信息提示用户的方法与设备
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US11600269B2 (en) 2016-06-15 2023-03-07 Cerence Operating Company Techniques for wake-up word recognition and related systems and methods
US20170365249A1 (en) * 2016-06-21 2017-12-21 Apple Inc. System and method of performing automatic speech recognition using end-pointing markers generated using accelerometer-based voice activity detector
KR20180006133A (ko) * 2016-07-08 2018-01-17 삼성전자주식회사 전자 장치 및 그의 동작 방법
CN106205619A (zh) * 2016-07-08 2016-12-07 北京光年无限科技有限公司 基于智能机器人系统的语音识别方法及识别系统
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US9693164B1 (en) 2016-08-05 2017-06-27 Sonos, Inc. Determining direction of networked microphone device relative to audio playback device
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
WO2018034059A1 (ja) * 2016-08-17 2018-02-22 パナソニックIpマネジメント株式会社 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
JP6677614B2 (ja) * 2016-09-16 2020-04-08 株式会社東芝 会議支援システム、会議支援方法及びプログラム
US9794720B1 (en) 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10531227B2 (en) * 2016-10-19 2020-01-07 Google Llc Time-delimited action suggestion system
US10455313B2 (en) * 2016-10-31 2019-10-22 Bragi GmbH Wireless earpiece with force feedback
US11545146B2 (en) 2016-11-10 2023-01-03 Cerence Operating Company Techniques for language independent wake-up word detection
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
JP6897693B2 (ja) * 2017-01-18 2021-07-07 日本電気株式会社 携帯情報端末、携帯情報端末制御方法、プログラム
US20180342264A1 (en) * 2017-01-19 2018-11-29 AnchorFM, Inc. Method of automatically recording audio content, and system therefor
KR101893768B1 (ko) * 2017-02-27 2018-09-04 주식회사 브이터치 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
FR3064794B1 (fr) * 2017-03-28 2019-11-01 Continental Automotive France Systeme et procede de transmission d’un message oral dans un vehicule
US10992795B2 (en) 2017-05-16 2021-04-27 Apple Inc. Methods and interfaces for home media control
US11431836B2 (en) 2017-05-02 2022-08-30 Apple Inc. Methods and interfaces for initiating media playback
US10313782B2 (en) 2017-05-04 2019-06-04 Apple Inc. Automatic speech recognition triggering system
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
CN111343060B (zh) 2017-05-16 2022-02-11 苹果公司 用于家庭媒体控制的方法和界面
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20220279063A1 (en) 2017-05-16 2022-09-01 Apple Inc. Methods and interfaces for home media control
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
KR102441063B1 (ko) * 2017-06-07 2022-09-06 현대자동차주식회사 끝점 검출 장치, 그를 포함한 시스템 및 그 방법
US10930276B2 (en) * 2017-07-12 2021-02-23 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device
US11489691B2 (en) 2017-07-12 2022-11-01 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
EP3447768A1 (en) * 2017-08-21 2019-02-27 Vestel Elektronik Sanayi ve Ticaret A.S. Method of transferring a call, user device and a computer program
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10372298B2 (en) 2017-09-29 2019-08-06 Apple Inc. User interface for multi-user communication session
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
WO2019089001A1 (en) * 2017-10-31 2019-05-09 Hewlett-Packard Development Company, L.P. Actuation module to control when a sensing module is responsive to events
KR102429498B1 (ko) * 2017-11-01 2022-08-05 현대자동차주식회사 차량의 음성인식 장치 및 방법
CN110710191B (zh) * 2017-11-23 2022-03-11 华为技术有限公司 一种拍照方法及终端
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US10923101B2 (en) * 2017-12-26 2021-02-16 International Business Machines Corporation Pausing synthesized speech output from a voice-controlled device
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
DE112018006597B4 (de) * 2018-03-13 2022-10-06 Mitsubishi Electric Corporation Sprachverarbeitungsvorrichtung und Sprachverarbeitungsverfahren
TWI672690B (zh) * 2018-03-21 2019-09-21 塞席爾商元鼎音訊股份有限公司 人工智慧語音互動之方法、電腦程式產品及其近端電子裝置
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
WO2019191537A1 (en) * 2018-03-30 2019-10-03 Dina Katabi Pose estimation using radio frequency signals
USD877770S1 (en) * 2018-05-04 2020-03-10 Google Llc Display screen with transitional graphical user interface
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
DK201870364A1 (en) 2018-05-07 2019-12-03 Apple Inc. MULTI-PARTICIPANT LIVE COMMUNICATION USER INTERFACE
WO2019216996A1 (en) * 2018-05-07 2019-11-14 Apple Inc. Raise to speak
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US11169668B2 (en) * 2018-05-16 2021-11-09 Google Llc Selecting an input mode for a virtual assistant
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
KR102592907B1 (ko) * 2018-06-22 2023-10-23 삼성전자주식회사 텍스트 입력 디바이스 및 그 방법
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11500610B2 (en) * 2018-07-12 2022-11-15 Dolby Laboratories Licensing Corporation Transmission control for audio device using auxiliary signals
US11250847B2 (en) 2018-07-17 2022-02-15 Appareo Systems, Llc Wireless communications system and method
US11018754B2 (en) * 2018-08-07 2021-05-25 Appareo Systems, Llc RF communications system and method
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
CN110931027A (zh) * 2018-09-18 2020-03-27 北京三星通信技术研究有限公司 音频处理方法、装置、电子设备及计算机可读存储介质
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11128792B2 (en) 2018-09-28 2021-09-21 Apple Inc. Capturing and displaying images with multiple focal planes
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN109448746B (zh) * 2018-09-28 2020-03-24 百度在线网络技术(北京)有限公司 语音降噪方法及装置
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11157169B2 (en) 2018-10-08 2021-10-26 Google Llc Operating modes that designate an interface modality for interacting with an automated assistant
WO2020076288A1 (en) * 2018-10-08 2020-04-16 Google Llc Operating modes that designate an interface modality for interacting with an automated assistant
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
CN109618059A (zh) * 2019-01-03 2019-04-12 北京百度网讯科技有限公司 移动终端中语音识别功能的唤醒方法和装置
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
EP3709194A1 (en) 2019-03-15 2020-09-16 Spotify AB Ensemble-based data comparison
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11277692B2 (en) * 2019-03-27 2022-03-15 Panasonic Corporation Speech input method, recording medium, and speech input device
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11620103B2 (en) 2019-05-31 2023-04-04 Apple Inc. User interfaces for audio media control
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11363071B2 (en) 2019-05-31 2022-06-14 Apple Inc. User interfaces for managing a local network
US10904029B2 (en) 2019-05-31 2021-01-26 Apple Inc. User interfaces for managing controllable external devices
DK201970533A1 (en) 2019-05-31 2021-02-15 Apple Inc Methods and user interfaces for sharing audio
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11010121B2 (en) 2019-05-31 2021-05-18 Apple Inc. User interfaces for audio media control
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
WO2019172735A2 (ko) * 2019-07-02 2019-09-12 엘지전자 주식회사 커뮤니케이션 로봇 및 그의 구동 방법
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11094319B2 (en) 2019-08-30 2021-08-17 Spotify Ab Systems and methods for generating a cleaned version of ambient sound
US10827028B1 (en) 2019-09-05 2020-11-03 Spotify Ab Systems and methods for playing media content on a target device
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US10901520B1 (en) 2019-11-05 2021-01-26 Microsoft Technology Licensing, Llc Content capture experiences driven by multi-modal user inputs
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11328722B2 (en) 2020-02-11 2022-05-10 Spotify Ab Systems and methods for generating a singular voice audio stream
US11308959B2 (en) 2020-02-11 2022-04-19 Spotify Ab Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices
CN111432303B (zh) * 2020-03-19 2023-01-10 交互未来(北京)科技有限公司 单耳耳机、智能电子设备、方法和计算机可读介质
US11079913B1 (en) 2020-05-11 2021-08-03 Apple Inc. User interface for status indicators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11620999B2 (en) 2020-09-18 2023-04-04 Apple Inc. Reducing device processing of unintended audio
US11392291B2 (en) 2020-09-25 2022-07-19 Apple Inc. Methods and interfaces for media control with dynamic feedback
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
US11431891B2 (en) 2021-01-31 2022-08-30 Apple Inc. User interfaces for wide angle video conference
US20220368548A1 (en) 2021-05-15 2022-11-17 Apple Inc. Shared-content session user interfaces
US11893214B2 (en) 2021-05-15 2024-02-06 Apple Inc. Real-time communication user interface
US11907605B2 (en) 2021-05-15 2024-02-20 Apple Inc. Shared-content session user interfaces
CN113407907B (zh) * 2021-06-04 2022-04-12 电子科技大学 一种融合不完整监测序列的层次系统结构函数学习方法
CN113380236A (zh) * 2021-06-07 2021-09-10 斑马网络技术有限公司 基于唇部的语音端点检测方法及装置、车载终端、存储介质
US11848019B2 (en) * 2021-06-16 2023-12-19 Hewlett-Packard Development Company, L.P. Private speech filterings
US12021806B1 (en) 2021-09-21 2024-06-25 Apple Inc. Intelligent message delivery
US11770600B2 (en) 2021-09-24 2023-09-26 Apple Inc. Wide angle video conference

Family Cites Families (100)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6400996B1 (en) 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
US5875108A (en) * 1991-12-23 1999-02-23 Hoffberg; Steven M. Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
US7242988B1 (en) * 1991-12-23 2007-07-10 Linda Irene Hoffberg Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US5903454A (en) 1991-12-23 1999-05-11 Hoffberg; Linda Irene Human-factored interface corporating adaptive pattern recognition based controller apparatus
JPH0675588A (ja) * 1992-08-27 1994-03-18 Fujitsu Ltd 音声認識装置
US5657422A (en) 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
US5537536A (en) * 1994-06-21 1996-07-16 Intel Corporation Apparatus and method for debugging electronic components through an in-circuit emulator
US6006175A (en) 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US6453281B1 (en) 1996-07-30 2002-09-17 Vxi Corporation Portable audio database device with icon-based graphical user-interface
US20060025206A1 (en) 1997-03-21 2006-02-02 Walker Jay S Gaming device operable to faciliate audio output via a headset and methods related thereto
KR100520654B1 (ko) * 1998-05-27 2005-11-25 삼성전자주식회사 휴대 전화 단말 장치의 주변 소음 크기에 따른다이얼링 모드자동 전환 방법
JP3327326B2 (ja) * 1999-01-08 2002-09-24 日本電気株式会社 携帯電話の誤動作防止方式及び誤動作防止回路
JP3571254B2 (ja) * 1999-04-27 2004-09-29 シャープ株式会社 通話装置
JP3654045B2 (ja) * 1999-05-13 2005-06-02 株式会社デンソー 音声認識装置
JP2000338987A (ja) * 1999-05-28 2000-12-08 Mitsubishi Electric Corp 発話開始監視装置、話者同定装置、音声入力システム、および話者同定システム、並びに通信システム
US6549792B1 (en) 1999-06-25 2003-04-15 Agere Systems Inc. Accelerometer influenced communication device
US20030182113A1 (en) 1999-11-22 2003-09-25 Xuedong Huang Distributed speech recognition for mobile communication devices
JP3854047B2 (ja) 2000-01-31 2006-12-06 セイコーインスツル株式会社 携帯型高度計および高度演算方法
US7321774B1 (en) 2002-04-24 2008-01-22 Ipventure, Inc. Inexpensive position sensing device
US6615170B1 (en) 2000-03-07 2003-09-02 International Business Machines Corporation Model-based voice activity detection system and method using a log-likelihood ratio and pitch
US6754373B1 (en) * 2000-07-14 2004-06-22 International Business Machines Corporation System and method for microphone activation using visual speech cues
US7302280B2 (en) * 2000-07-17 2007-11-27 Microsoft Corporation Mobile phone operation based upon context sensing
US7688306B2 (en) 2000-10-02 2010-03-30 Apple Inc. Methods and apparatuses for operating a portable device based on an accelerometer
US6721706B1 (en) 2000-10-30 2004-04-13 Koninklijke Philips Electronics N.V. Environment-responsive user interface/entertainment device that simulates personal interaction
US20020077826A1 (en) 2000-11-25 2002-06-20 Hinde Stephen John Voice communication concerning a local entity
US7136630B2 (en) * 2000-12-22 2006-11-14 Broadcom Corporation Methods of recording voice signals in a mobile set
US6563911B2 (en) 2001-01-23 2003-05-13 Ivoice, Inc. Speech enabled, automatic telephone dialer using names, including seamless interface with computer-based address book programs
EP1256875A1 (en) 2001-05-10 2002-11-13 Nokia Corporation Method and device for context dependent user input prediction
US6774796B2 (en) 2001-08-01 2004-08-10 Motorola, Inc. Master authenticator
US6813491B1 (en) * 2001-08-31 2004-11-02 Openwave Systems Inc. Method and apparatus for adapting settings of wireless communication devices in accordance with user proximity
EP1292090A1 (en) 2001-09-05 2003-03-12 Motorola, Inc. Conference calling with speaker identification
JP2003131785A (ja) * 2001-10-22 2003-05-09 Toshiba Corp インタフェース装置および操作制御方法およびプログラム製品
US7159194B2 (en) * 2001-11-30 2007-01-02 Palm, Inc. Orientation dependent functionality of an electronic device
US6826515B2 (en) 2002-02-01 2004-11-30 Plantronics, Inc. Headset noise exposure dosimeter
US20030171926A1 (en) 2002-03-07 2003-09-11 Narasimha Suresh System for information storage, retrieval and voice based content search and methods thereof
JP3838159B2 (ja) * 2002-05-31 2006-10-25 日本電気株式会社 音声認識対話装置およびプログラム
US7203368B2 (en) * 2003-01-06 2007-04-10 Intel Corporation Embedded bayesian network for pattern recognition
DE112004000782T5 (de) * 2003-05-08 2008-03-06 Voice Signal Technologies Inc., Woburn Signal-zu-Rausch-Verhältnis vermittelter Spracherkennungs-Algorithmus
US20040243416A1 (en) * 2003-06-02 2004-12-02 Gardos Thomas R. Speech recognition
JP4521673B2 (ja) * 2003-06-19 2010-08-11 株式会社国際電気通信基礎技術研究所 発話区間検出装置、コンピュータプログラム及びコンピュータ
US20050033571A1 (en) * 2003-08-07 2005-02-10 Microsoft Corporation Head mounted multi-sensory audio input system
KR100567828B1 (ko) * 2003-08-06 2006-04-05 삼성전자주식회사 향상된 음성인식 장치 및 방법
US7305078B2 (en) 2003-12-18 2007-12-04 Electronic Data Systems Corporation Speaker identification during telephone conferencing
US7690395B2 (en) 2004-01-12 2010-04-06 Masco Corporation Of Indiana Multi-mode hands free automatic faucet
US7783729B1 (en) 2004-03-19 2010-08-24 Single Touch Interactive, Inc. Transmitting mobile device data
US8036895B2 (en) 2004-04-02 2011-10-11 K-Nfb Reading Technology, Inc. Cooperative processing for portable reading machine
US8095081B2 (en) * 2004-04-29 2012-01-10 Sony Ericsson Mobile Communications Ab Device and method for hands-free push-to-talk functionality
KR100660293B1 (ko) * 2004-06-02 2006-12-20 에스케이 텔레콤주식회사 단말 음성메뉴 이동 시스템
US7519223B2 (en) 2004-06-28 2009-04-14 Microsoft Corporation Recognizing gestures and using gestures for interacting with software applications
US20060052109A1 (en) * 2004-09-07 2006-03-09 Ashman William C Jr Motion-based user input for a wireless communication device
US7283850B2 (en) 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US7245940B2 (en) * 2004-10-19 2007-07-17 Kyocera Wireless Corp. Push to talk voice buffering systems and methods in wireless communication calls
GB2419433A (en) 2004-10-20 2006-04-26 Glasgow School Of Art Automated Gesture Recognition
KR100631608B1 (ko) 2004-11-25 2006-10-09 엘지전자 주식회사 음성 판별 방법
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
US20060229108A1 (en) * 2005-02-04 2006-10-12 Cehelnik Thomas G Mobile phone extension and data interface via an audio headset connection
JP4792823B2 (ja) * 2005-06-09 2011-10-12 ソニー株式会社 ネットワーク・システム、移動体装置及びその制御方法、並びにコンピュータ・プログラム
US7519537B2 (en) * 2005-07-19 2009-04-14 Outland Research, Llc Method and apparatus for a verbo-manual gesture interface
US20070061335A1 (en) 2005-09-14 2007-03-15 Jorey Ramer Multimodal search query processing
JP4992218B2 (ja) * 2005-09-29 2012-08-08 ソニー株式会社 情報処理装置および方法、並びにプログラム
US9775093B2 (en) 2005-10-12 2017-09-26 At&T Mobility Ii Llc Architecture that manages access between a mobile communications device and an IP network
US7996228B2 (en) 2005-12-22 2011-08-09 Microsoft Corporation Voice initiated network operations
US7496693B2 (en) 2006-03-17 2009-02-24 Microsoft Corporation Wireless enabled speech recognition (SR) portable device including a programmable user trained SR profile for transmission to external SR enabled PC
JP2007280219A (ja) * 2006-04-10 2007-10-25 Nippon Telegr & Teleph Corp <Ntt> 動きパターン認識装置、動きパターン認識方法及び動きパターン認識プログラム
US8594742B2 (en) * 2006-06-21 2013-11-26 Symbol Technologies, Inc. System and method for monitoring a mobile device
US8571862B2 (en) 2006-11-30 2013-10-29 Ashwin P. Rao Multimodal interface for input of text
US7653508B1 (en) 2006-12-22 2010-01-26 Dp Technologies, Inc. Human activity monitoring device
US20080154870A1 (en) 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Collection and use of side information in voice-mediated mobile search
KR100929531B1 (ko) 2006-12-28 2009-12-03 에스케이마케팅앤컴퍼니 주식회사 음성 인식을 이용한 무선 환경에서의 정보 제공 시스템 및그 방법
US20090262074A1 (en) 2007-01-05 2009-10-22 Invensense Inc. Controlling and accessing content using motion processing on mobile devices
US8952832B2 (en) * 2008-01-18 2015-02-10 Invensense, Inc. Interfacing application programs and motion sensors of a device
US8326636B2 (en) 2008-01-16 2012-12-04 Canyon Ip Holdings Llc Using a physical phenomenon detector to control operation of a speech recognition engine
US8385824B2 (en) 2007-05-03 2013-02-26 MindTree Limited Procedure for headset and device authentication
US20090016501A1 (en) * 2007-07-13 2009-01-15 Recordant, Inc. Off-hook detection system, method, and computer program product
US7874681B2 (en) 2007-10-05 2011-01-25 Huebner Kenneth J Interactive projector system and method
CA2704923C (en) 2007-11-09 2016-04-05 Google, Inc. Activating applications based on accelerometer data
WO2009063874A1 (ja) 2007-11-13 2009-05-22 Mitsumi Electric Co., Ltd. バックライト装置及びこれを用いた液晶表示装置
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8112281B2 (en) 2007-12-19 2012-02-07 Enbiomedic Accelerometer-based control of wearable audio recorders
US8315876B2 (en) 2008-05-09 2012-11-20 Plantronics, Inc. Headset wearer identity authentication with voice print or speech recognition
TWI364691B (en) 2008-06-04 2012-05-21 Wistron Corp Handheld type electronic product and control method for automatically switching between operating modes
KR100988397B1 (ko) 2008-06-09 2010-10-19 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
US8315366B2 (en) 2008-07-22 2012-11-20 Shoretel, Inc. Speaker identification and representation for a phone
US8112037B2 (en) 2008-09-02 2012-02-07 Nissaf Ketari Bluetooth assistant
US8121586B2 (en) 2008-09-16 2012-02-21 Yellowpages.Com Llc Systems and methods for voice based search
US8330474B2 (en) 2008-10-15 2012-12-11 Synaptics Incorporated Sensor device and method with at surface object sensing and away from surface object sensing
KR101545582B1 (ko) 2008-10-29 2015-08-19 엘지전자 주식회사 단말기 및 그 제어 방법
KR101829865B1 (ko) 2008-11-10 2018-02-20 구글 엘엘씨 멀티센서 음성 검출
US8441441B2 (en) 2009-01-06 2013-05-14 Qualcomm Incorporated User interface for mobile devices
US8339367B2 (en) 2009-02-27 2012-12-25 Research In Motion Limited System and method for analyzing movements of an electronic device using rotational movement data
US8261212B2 (en) 2009-10-20 2012-09-04 Microsoft Corporation Displaying GUI elements on natural user interfaces
US20110099507A1 (en) 2009-10-28 2011-04-28 Google Inc. Displaying a collection of interactive elements that trigger actions directed to an item
US8922485B1 (en) 2009-12-18 2014-12-30 Google Inc. Behavioral recognition on mobile devices
US20110199292A1 (en) 2010-02-18 2011-08-18 Kilbride Paul E Wrist-Mounted Gesture Device
US20110216153A1 (en) 2010-03-03 2011-09-08 Michael Edric Tasker Digital conferencing for mobile devices
US8428759B2 (en) 2010-03-26 2013-04-23 Google Inc. Predictive pre-recording of audio for voice input
US8228292B1 (en) 2010-04-02 2012-07-24 Google Inc. Flipping for motion-based input
US8473289B2 (en) 2010-08-06 2013-06-25 Google Inc. Disambiguating input based on context
US9167991B2 (en) 2010-09-30 2015-10-27 Fitbit, Inc. Portable monitoring devices and methods of operating same
US8253684B1 (en) * 2010-11-02 2012-08-28 Google Inc. Position and orientation determination for a mobile computing device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10579327B2 (en) 2017-03-21 2020-03-03 Kabushiki Kaisha Toshiba Speech recognition device, speech recognition method and storage medium using recognition results to adjust volume level threshold

Also Published As

Publication number Publication date
US10026419B2 (en) 2018-07-17
US10714120B2 (en) 2020-07-14
KR20210152028A (ko) 2021-12-14
KR101829865B1 (ko) 2018-02-20
WO2010054373A3 (en) 2010-08-26
US20150287423A1 (en) 2015-10-08
EP3576388A1 (en) 2019-12-04
US20120278074A1 (en) 2012-11-01
EP3258468B1 (en) 2019-08-21
EP2351021A2 (en) 2011-08-03
KR102339297B1 (ko) 2021-12-14
KR20200078698A (ko) 2020-07-01
EP3258468A1 (en) 2017-12-20
US10720176B2 (en) 2020-07-21
US20180308510A1 (en) 2018-10-25
KR102128562B1 (ko) 2020-06-30
US10020009B1 (en) 2018-07-10
KR20170052700A (ko) 2017-05-12
US9009053B2 (en) 2015-04-14
US20150302870A1 (en) 2015-10-22
KR20190028572A (ko) 2019-03-18
US20130013315A1 (en) 2013-01-10
KR20180019752A (ko) 2018-02-26
US20100121636A1 (en) 2010-05-13
US20180358035A1 (en) 2018-12-13
US8862474B2 (en) 2014-10-14
US20130013316A1 (en) 2013-01-10
US9570094B2 (en) 2017-02-14
WO2010054373A2 (en) 2010-05-14
JP2012508530A (ja) 2012-04-05
KR101734450B1 (ko) 2017-05-11
KR20110100620A (ko) 2011-09-14
EP2351021B1 (en) 2017-09-06

Similar Documents

Publication Publication Date Title
JP5538415B2 (ja) 多感覚応用音声検出
US8922485B1 (en) Behavioral recognition on mobile devices
US9201841B2 (en) Activating applications based on accelerometer data
CN108702410A (zh) 一种情景模式控制方法及移动终端

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130529

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130910

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130918

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140331

R150 Certificate of patent or registration of utility model

Ref document number: 5538415

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140428

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250