JP2009543396A - 音声による遠隔制御 - Google Patents

音声による遠隔制御 Download PDF

Info

Publication number
JP2009543396A
JP2009543396A JP2009517461A JP2009517461A JP2009543396A JP 2009543396 A JP2009543396 A JP 2009543396A JP 2009517461 A JP2009517461 A JP 2009517461A JP 2009517461 A JP2009517461 A JP 2009517461A JP 2009543396 A JP2009543396 A JP 2009543396A
Authority
JP
Japan
Prior art keywords
control
user
word
input
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009517461A
Other languages
English (en)
Other versions
JP4975813B2 (ja
Inventor
マッツ グスタフソン,
ジュリアン ホープ,
Original Assignee
ソニー エリクソン モバイル コミュニケーションズ, エービー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー エリクソン モバイル コミュニケーションズ, エービー filed Critical ソニー エリクソン モバイル コミュニケーションズ, エービー
Publication of JP2009543396A publication Critical patent/JP2009543396A/ja
Application granted granted Critical
Publication of JP4975813B2 publication Critical patent/JP4975813B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/16Transforming into a non-visible representation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Otolaryngology (AREA)
  • Acoustics & Sound (AREA)
  • Studio Devices (AREA)
  • Telephone Function (AREA)
  • Selective Calling Equipment (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Magnetically Actuated Valves (AREA)

Abstract

装置は撮像デバイス及びロジックを含むことができる。ロジックはユーザから音声入力を受信し、音声入力を識別するように構成されることができる。ロジックはさらに、前記識別された音声入力に基づいて、撮像デバイスに関する制御動作を実行するように構成されることができる。

Description

本発明は全体として制御動作の実行に関し、特には、音声認識を用いた、撮像に関する制御動作の実行に関する。
携帯電話機のような通信機器は、ますます多機能になってきている。例えば、今日の多くの携帯電話機には、テキストメッセージの送信/受信、音楽再生、ビデオゲームの実行など、ユーザが電話の発信や受信以外のことを行えるようなアプリケーションが含まれている。また、カメラを有する携帯電話機も多く、ユーザはカメラによって写真撮影やビデオクリップの記録が可能である。結果として、携帯電話機はますます日常生活に係わるようになってきている。
1つの見地によれば、少なくとも1つの撮像デバイスおよびロジックを有する装置が提供される。前記ロジックは、ユーザから音声入力を受信し、前記音声入力を識別し、前記識別した音声入力に基づいて前記少なくとも1つの撮像デバイスに関する制御動作を実行するように構成される。
加えて、前記少なくとも1つの撮像デバイスはカメラを有することができ、前記制御動作は前記カメラを用いた写真撮影を含む。
さらに、前記少なくとも1つの撮像デバイスはビデオ録画デバイスを有することができ、前記制御動作は前記ビデオ録画デバイスに関するビデオ記録モードの始動を含む。
さらに、前記制御動作は、オートフォーカス機能の制御、ズームレンズの制御、又は解像度モードの制御を含むことができる。
さらに、前記音声入力を識別する際、前記ロジックは音声認識ソフトウェアを用いて前記音声入力を識別するように構成される。
さらに、装置は、ユーザ入力に応答して、複数の制御動作及び、前記複数の制御動作の各々に関連付けられた複数の制御動作を表示するように構成されたディスプレイを有することができる。
さらに、装置はメモリを有することができ、前記ロジックはさらに、複数の制御動作の各々に対応する少なくとも1つの単語をユーザが与えることを可能にするように構成されてもよい。前記ロジックはさらに、前記複数の制御動作の各々に対応する前記少なくとも1つの単語を前記メモリに保存するように構成されてもよい。
加えて、前記ロジックはさらに、前記複数の制御動作の1つである第1の制御動作に関連付けられた第1の単語又は語句を識別するための音声認識を実行し、前記識別された第1の単語又は語句が正しいかユーザに確認し、前記識別された第1の単語又は語句が正しいと確認された場合、前記確認された第1の単語又は語句を、前記第1の制御動作に対応するものとして前記メモリに保存するように構成されてもよい。
さらに、装置はメモリを有することができ、前記ロジックはさらに、ユーザが前記装置に、前記少なくとも1つの撮像デバイスに関する第1の制御動作に対応する少なくとも1つの単語又は語句を特定するテキストを入力できるように構成されたユーザインタフェースを提供するとともに、前記テキストを前記第1の制御動作に対応するものとして前記メモリに保存するように構成されてもよい。
さらに、前記装置は携帯電話機を有してもよい。
別の見地によれば、少なくとも1つの撮像デバイスを含んだ移動端末において方法が実行される。前記方法は、ユーザから音声入力を受信する工程と、前記音声入力を識別する工程と、前記識別された音声入力に基づいて、前記少なくとも1つの撮像デバイスに関する制御動作を実行する工程とを含む。
さらに、前記制御動作は、写真撮影、ビデオ記録モードの開始、解像度モードの設定、フラッシュの起動、ズームレンズの制御、又はオートフォーカス機能の制御の少なくとも1つを含むことができる。
さらに、前記音声入力を識別する工程は、音声認識ソフトウェアを用いて前記音声入力を識別する工程を有する。
さらに、音声認識ソフトウェアを用いて前記音声入力を識別する工程は、前記音声入力と、保存されている、ユーザによって与えられた複数の音声信号とを比較する工程と、前記音声入力が前記保存されている音声信号の1つと合致するか判定する工程とを有する。
さらに、前記方法は、複数の制御動作の各々に関連付けられた音声入力を提供するようユーザに指示する工程と、前記指示する工程に応答して、前記ユーザから、前記複数の制御動作の各々に関連付けられた少なくとも1つの単語を受信する工程と、前記複数の制御動作の各々に関連付けられた前記少なくとも1つの単語を保存する工程とをさらに有してもよい。
さらに、前記方法は、前記複数の制御動作の1つである第1の制御動作に関連付けされた少なくとも第1の単語を識別するための音声認識を実行する工程と、前記第1の制御動作に関連付けられた前記識別された第1の単語が正しいかユーザに確認し、前記識別された第1の単語が正しいと確認された場合、前記第1の制御動作に関連付けられた前記第1の単語を保存する工程とをさらに有してもよい。
さらに別の見地によれば、装置が提供される。装置は、写真又はビデオの少なくとも一方を撮影する手段と、ユーザから音声入力を受信する手段と、前記音声入力に基づいて、前記写真又はビデオの少なくとも一方を撮影する手段に関連付けられた制御動作を実行する手段とを有する。
さらに、前記装置は、複数の制御動作と、前記複数の制御動作に対応する複数の音声コマンドとを表示する手段をさらに有してもよい。
さらに別の見地によれば、複数の命令が記録されたコンピュータ読み取り可能な媒体が提供される。前記命令は、少なくとも1つのプロセッサが実行した際、前記少なくとも1つのプロセッサに、ユーザから音声入力を受信させ、前記音声入力を識別させ、そして、前記識別された音声入力に基づいて、撮像に関する制御機能を実行させる。
さらに、前記撮像に関する制御動作は、カメラを用いた写真撮影、ビデオ録画デバイスに関連付けられたビデオ記録モードの開始、解像度モードの設定、フラッシュの起動、ズームレンズの制御、又はオートフォーカス機能の制御の少なくとも1つを含むことができる。
さらに、前記命令は、前記プロセッサに、ユーザ入力に応答して、撮像に関する複数の制御動作と前記撮像に関する複数の制御動作の各々に対応する音声コマンドとを表示させる。
さらに、前記命令は、前記プロセッサに、撮像に関する複数の制御動作の各々に対応する単語又は語句をユーザが選択可能とさせる。
以下の詳細な説明から、本発明の他の特徴及び利点は本技術分野の当業者に明らかになるであろう。ここで示され、また、説明される実施形態は、本発明の実施を考慮したベストモードの実例を提供する。本発明はその範囲内で、様々な明らかな観点から変更することが可能である。従って、図面は実際には例示的なものであって、限定的なものと見なされるべきものではない。
本発明に従った方法及びシステムを実施できるであろう例示的な移動端末の図である。 本発明に従った実施に係る、図1A及び図1Bの移動端末の例示的なブロック図である。 本発明に従った実施に係る図2の移動端末において実施される構成要素の例示的な機能ブロック図である。 本発明に係る図2の移動端末の構成に関する例示的な処理を示すフローチャートである。 図2の移動端末に格納され及び/またはユーザに表示されてよい例示的なテーブルを示す図である。 本発明に係る例示的な処理を示すフローチャートである。
添付図面を通じて、同様の参照番号の指定は同様の要素を表している。
以下、添付図面を参照して本発明を詳細に説明する。異なる図面における同一の参照符号は、同一又は類似の要素を示している。また、以下の詳細な説明は、本発明を限定しない。代わりに、本発明の範囲は、添付の請求項とその等価物によって規定される。図1A及び図1Bは、本発明に従った方法及びシステムを実施できるであろう例示的な移動端末の正面図及び背面図を示している。ここでは、本発明を移動端末に関して説明する。また、本明細書において、”移動端末”とは、セルラ無線電話機(複数行ディスプレイの有無を問わず)、セルラ無線電話機にデータ処理機能、ファクシミリ機能及びデータ通信機能とを組み合わせたものであってよいパーソナル通信システム(PCS)端末、無線電話、ポケットベル、インターネット/イントラネットアクセス、ウェブブラウザ、スケジュール帳(organizer)、カレンダ及び/又はGPS受信機を含みうる携帯情報端末(PDA)、及び、従前のラップトップ及び/又はパームトップ受信機、又は無線電話送受信器を含む他の装置を含みうる。移動端末はまた、”広範囲(pervasive)コンピューティング”装置とも呼ばれうる。
なお、本発明は、通話の発信および着信に関する通信機能を持たない他の機器においても実施可能であることを理解すべきである。例えば、本発明はいかなる撮像装置においても実施されうる。本明細書において、”撮像装置”とは、カメラ及び/又はビデオ録画機器のような、静止画及び/又は動画を撮影する任意の機器を含みうるものとして用いる。
図1Aにおいて、移動端末100は、筐体110、レンズ120、及びシャッターボタン130を含むことができる。筐体110は移動端末100の構成要素を風雨などから保護することができる。レンズ120は光の焦点を合わせることができ、また複数のレンズ要素を含んでよい。レンズカバー(図示せず)は、ユーザに撮影を許すためにレンズ120を露出させ、カメラが使用されていない際にはレンズを保護するように制御されてよい。シャッターボタン130は撮影時にユーザに押下されてよい。
図1Bは、端末100の背面を示す。図1Bにおいて、移動端末100は表示画面140及びユーザ制御エリア150を含んでいる。表示画面140は、画像液晶ディスプレイ(LCD)又は他のタイプの表示画面であってよく、ユーザが写真撮影及び/又はビデオクリップの記録を行う際に、撮影される画像を確認することを可能にする。一部の実施形態において、レンズ120は移動端末100の表示画面140と同じ側に位置していてもよい。移動端末100はまた、写真撮影及び/又はビデオクリップの記録に関する他の要素/部品(図示せず)を含んでいてもよい。例えば、移動端末100はズームレンズ、フラッシュ、及び、写真及び/又はビデオ撮影を助ける他の要素を含むことができる。ユーザ制御エリア150は、移動端末100を用いた通話に関する複数のコントロールを含んでよい。
例えば、ユーザ制御エリア150はダイヤルボタン、通話切断ボタンなどを含むことができる。ユーザ制御エリア150はさらに、以下に詳細を説明するような、ユーザが機能(例えば、移動端末100についての音声作動式リモート制御機能)の選択に関するメニューを見ることを可能にするメニューボタンを含むことができる。
図2は、本発明に従った例示的な実施形態に係る移動端末100の図である。移動端末100は、バス210、処理ロジック220、メモリ230、入力デバイス240、出力デバイス250、撮像デバイス260、及び通信インタフェース270を含んでよい。バス210は移動端末100の構成要素間の通信を可能にする。本技術分野の当業者は、移動端末100が様々な方法で構成可能であり、他の、あるいは異なる要素を含みうることを理解するであろう。例えば、移動端末100は1つ又は複数の電源(図示せず)を含んでよい。移動端末100はさらに、データを処理するための変調器、復調器、符号化器、復号化器、等を含みうる。
処理ロジック220はプロセッサ、マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、等を含むことができる。処理ロジック220は、移動端末100の動作を制御するため、ソフトウェア命令/プログラム、又はデータ構造を実行することができる。
メモリ230は、処理ロジック220が実行するための情報及び命令を格納するランダムアクセスメモリ(RAM)又は他の形式の動的ストレージデバイス;処理ロジック220によって用いるための静的な情報及び命令を格納する読み出し専用メモリ(ROM)又は他の形式の静的ストレージデバイス;情報及び命令を格納するためのフラッシュメモリ(例えば、電気的消去可能プログラマブルメモリ(EEPROM))デバイス;及び/又は、他の形式の磁気又は光学記録媒体と、媒体に対応するドライブとを含むことができる。メモリ230はさらに、処理ロジック220が命令を実行中に一時変数又は他の中間情報を格納するためにも利用されうる。処理ロジック220によって用いられる命令はさらに、又は代わりに、処理ロジック220からアクセス可能な他の形式のコンピュータ読み取り可能媒体に格納されてもよい。
入力デバイス240は、マイク、キーボード、キーパッド、マウス、ペン、音声認識、及び/又は生体を利用する機構など、操作者が移動端末100に情報を入力することを可能にする任意の機構を含むことができる。入力デバイス240はさらに、ユーザが出力デバイス250を介してオプションのメニューを受信することを可能にする、(ユーザ制御エリア150におけるボタンのような)1つ又は複数のボタンを含むことができる。このメニューは、移動端末100が実行するアプリケーションに関する様々な機能又はモードの選択をユーザに許すものであってよい。あるいは、入力デバイス240は、ユーザが移動端末100の、(カメラ260に関する、音声作動型リモート制御機能に関するモードのような)特定のモードを起動することを可能にする1つ又は複数のボタンを制御エリア150に含んでもよい。
出力デバイス250はディスプレイ、プリンタ、1つ又は複数のスピーカ等の、ユーザに情報を出力する1つ又は複数の一般的な機構を含んでよい。出力デバイス250はさらに、入来呼を受信した際に移動端末100を振動させる振動機構を含むことができる。
撮像デバイス260は、レンズ120、シャッターボタン130及び他の構成要素といった、移動端末100での写真撮影を可能にするための一般的なカメラ部品を含むことができる。撮像デバイス260はさらに、撮像デバイス260がビデオクリップのような動画を記録することを可能にするための構成要素を含むことができる。撮像デバイス260は写真/ビデオクリップを、例えばメモリ230又は他のメモリに保存することができる。上述の通り、撮像デバイス260はズームレンズ、フラッシュ等、他の要素をさらに含むことができる。撮像デバイス260はさらに、2つのモードのうちの1つで動作することができる。第1のモードにおいて、移動端末100のユーザは、シャッターボタン130を押下することによって撮影し、手動でズームレンズを操作し、及び/又は移動端末100上の1つ又は複数のボタンを押下することによりビデオモードへの切替を行うことができる。第2のモードにおいて、移動端末100のユーザは、以下に詳細を説明するように、音声コマンドを用いて、撮像デバイス260による写真/ビデオを撮影することができる。図2において、撮像デバイス260は1つのデバイスとして示されている。一部の実施形態において、撮像デバイス260は、静止画撮影用の独立したカメラ関連要素/部品、及び動画(例えばビデオ)を撮影、記録するためのビデオ記録に関連する独立した要素/部品を含むことができる。
通信インタフェース270は、移動端末100が他の装置及び/又はシステムと通信することを可能にする、任意の送受信器様の機構を含むことができる。例えば、通信インタフェース270はモデム又はLANへのイーサネットインタフェースを含むことができる。
通信インタフェース270は、無線ネットワークのようなネットワークを介して通信するための他の手段をさらに有することができる。例えば、通信インタフェース270は無線周波数(RF)データを伝送するため、1つ又は複数のRF送信器及び受信器、及び/又は送受信器を含んでもよい。通信インタフェース270は、RFデータのようなデータを送信/受信するための1つ又は複数のアンテナをさらに含むことができる。
本発明に係る移動端末100は、撮像ロジック260のような、移動端末100上の様々な要素の制御に関する処理を実行することができる。移動端末100はそれらの動作を、メモリ230のようなコンピュータ読み取り可能な媒体に格納されている、命令シーケンスを処理ロジック220が実行することに応答して実行することができる。そのような命令は、他のコンピュータ読み取り可能な媒体から、例えば通信インタフェース270を介してメモリ230に読み込まれてもよい。コンピュータ読み取り可能な媒体は、1つ又は複数のメモリデバイス及び/又は搬送波を含みうる。代替実施形態においては、本発明に従った処理を実行するため、ソフトウェア命令に代えて、もしくはソフトウェア命令と組み合わせて、ハードウェア回路を用いることができる。従って、本発明に従った実施形態は、ハードウェア回路及びソフトウェアの特定の組み合わせには限定されない。
図3は、本発明に従った実施形態に係る図2の移動端末100において(例えばメモリ230において)、実施される構成要素の例示的な機能ブロック図である。図3に示すように、メモリ230は音声認識プログラム310及び制御コマンド生成器320とを含むことができる。音声認識プログラム310は、様々な単語及び/又は語句を識別し、認識した単語/語句に基づいて情報を出力する音声認識を実行可能な任意のタイプの音声認識ソフトウェア及び/又はハードウェアを含むことができる。音声認識プログラム310はさらに、様々な動作に関連付けされる単語/語句を与えるよう移動端末100のユーザに指示するユーザインタフェースを含むことができる(詳細は以下で説明する)。音声認識プログラム310はさらに、音声認識の実行に係る複数の規則又は文法を保存するルールデータベースを含んでもよい。これら規則/文法は、音声認識プログラム310が認識するように構成されている特定の単語/語句に基づくことができる。
例えば、音声認識プログラム310は、”チーズ”、”クリック”、”撮影”、”ズームイン”、”広角”、”フォーカス”、”オートフォーカス通常”、”オートフォーカスマクロ”、”オートフォーカスオフ”、”バースト4”、”ビデオスタート”、”ビデオストップ”、”フラッシュ”、”高解像度”、”低解像度”、”マイクオン”、”マイクオフ”、といった様々な単語、及び、撮像デバイス260を用いた写真及び/又はビデオの撮影に関する他の単語/語句を認識するように構成されうる。以下に説明するように、これらの単語/語句は移動端末100のユーザによって与えられ、様々な制御動作に関連付けられて、移動端末100に保存されてよい。音声認識プログラム310は、精度の良い音声認識の一助としてこれら保存された複数の単語/語句を用いることができる。
音声認識プログラム310はさらに、移動端末100のユーザが入力した単語/語句のような、様々な制御動作に関連付けることをユーザが希望する音声サンプルを保存してもよい。音声認識プログラム310は、音声認識処理の一助としてこれら保存された複数の音声サンプルを用いることができる。例えば、音声認識プログラム310は、ユーザが入力した単語又は語句を、保存されている音声サンプルと比較してもよい。受け付けた単語又は語句が保存されている音声サンプルの1つと一致した場合、音声認識プログラム310は保存されている音声サンプルに関連付けられている単語/語句が、ユーザが発生した単語/語句であると識別する。保存されている音声サンプルの使用は、音声認識処理の精度向上の一助となるであろう。
いずれの場合も音声認識プログラム310は、音声入力を受信し、音声入力が音声認識プログラム310に保存されているいずれか1つの単語/語句に対応するかどうか判定することができる。そして、音声認識プログラム310は発声された単語/語句を特定する情報を、制御コマンド発生器320のような、移動端末100内の他のデバイス/アプリケーションへ転送することができる。
制御コマンド発生器320は、音声認識プログラム310から情報を受信し、移動端末100が実行するアプリケーションを制御するためのコマンドを生成することができる。例えば、一実施形態において、制御コマンド発生器320は、撮像デバイス260及び/又は、ズームレンズやフラッシュのような撮像デバイス260に付随する周辺機器によって写真及び/又はビデオを撮影することに関連付けられた動作を制御するように構成されてよい。
上述の通り、一部の実施形態において、音声認識プログラム310は、様々な制御コマンドに関連付けされる様々な単語/語句をユーザが与えることを可能にするユーザインタフェースを含むことができる。例えば、図4は、音声認識プログラム310及び/又は制御コマンド発生器320が様々な制御動作を実行するために用いられる、カスタマイズされた音声コマンドの提供に関する例示的な処理を示している。処理は、(例えば移動端末100の出力デバイス250を介して)提供されるメニューにユーザがアクセスすることによって開始されてよい。このメニューは、音声認識プログラム310によって認識されることになる様々な音声コマンドの入力をユーザに許可するオプションを含むことができる。ユーザがこのオプションを選択したとする。
音声認識プログラム310は、移動端末100のユーザに、ユーザインタフェースを提供することができる(動作410)。例示的な一実施形態において、ユーザインタフェースは、表示画面140を通じ、撮影、ズームイン、ズームアウト、オートフォーカス、撮影時フラッシュ点灯、ビデオモードへの移行、高解像度モードの使用、低解像度モードの使用、カメラのオン、カメラのオフ、マイクのオン、マイクのオフ等、複数のコマンドをユーザに表示することができる。
ユーザが、撮影コマンドを選択したとする。この場合、ユーザインタフェースは、撮像デバイス260を用いた撮影のためのコマンドにユーザが対応付けたい単語又は語句を発声するよう、ユーザに指示することができる。音声認識プログラム310が与える指示は、出力デバイス250(例えばスピーカ)を介した音声指示出力、及び/又は、表示画面140を介したテキスト指示出力であってよい。
ここでは、ユーザが単語、”チーズ”を撮影のための音声コマンドに対応付けたいものとする。この場合、ユーザは単語、”チーズ”を発声することができる。音声認識プログラム310は、例えば入力デバイス240(例えばマイク)を通じて、この音声入力を受信することができる(動作420)。音声認識プログラム310は、音声認識プログラム310が正しく単語を識別したことを確実にするため、単語”チーズ”をユーザに対して発声し返してもよい。
例えば、音声認識プログラム310は、「あなたは単語”チーズ”を撮影のためのコマンドとして選択しました。間違いありませんか?」といった音声出力を行ってもよい。音声認識プログラム310が単語/語句(この例では”チーズ”)を正しく識別している場合、ユーザは、イエスと応答することなどにより、音声認識プログラム310が識別した単語/語句を確認することができる。
あるいは、音声認識プログラム310によって与えられる指示が、入力デバイス240(例えば英数字キーパッド)を用いて行うようなテキスト入力によって単語/語句を入力するようユーザに指示してもよい。
いずれの場合も、音声認識プログラム310はユーザによって与えられた単語/語句を保存し、その単語/語句を撮影のためのコマンドに関連付ける(動作440)。複数の他のコマンド/動作について、同様の処理を継続してもよい。すなわち、ユーザは、所定量ズームイン、最大量ズームイン、所定量ズームアウト、最大量ズームアウト、オートフォーカス機能の使用、高速連写、撮影時フラッシュ点灯、ビデオ撮影モードの開始、ビデオ撮影モードの停止、写真撮影/保存に関する高解像度モードの起動、写真撮影/保存に関する低解像度モードの起動、カメラのオン、カメラのオフ、マイクのオン、マイクのオフ、等に対する単語/語句を与えることができる。いずれの場合も、ユーザは所望の動作を実行するための好みの単語又は語句を選択することができる。
例えば、上述の通り、単語/語句は、写真撮影についての”チーズ”や、撮像デバイス260をビデオ記録モードで動作させるための”ビデオ”のように、1語であってよい。あるいは、ズームレンズを用いて被写体をズームインするための”最大ズーム(max zoom)”、カメラ260を用いて実現可能な最大メガピクセル数を用いてデジタル写真を撮影及び保存するよう撮像デバイス260に指示する”高解像度(high resolution)”、4枚の写真を高速連写するよう撮像デバイス260に指示する”バースト4(burst 4)”のように、単語/語句は複数の単語であってよい。このようにして、ユーザの好む音声コマンドを移動端末100に保存し、所望の制御動作に関連付けることができる。
最初のコマンドがユーザから与えられた後で、ユーザは、移動端末100が保存している単語/語句及び対応するコマンドのリストを見ることができる。例えば、移動端末100はユーザが移動端末100に保存されている音声コマンドを閲覧することを可能にするメニューを含むことができる。ユーザは、例えばユーザ制御エリア150(図1B)のボタンを押下して、コマンドを閲覧することができる。ユーザのこの選択に応答して、移動端末100はコマンド及び対応する音声入力のリストを表示画面140を介して出力することができる。
例えば、図5は、移動端末100に保存され、及び/又は表示画面140を介してユーザに表示される例示的なテーブルを示している。図5において、テーブル500はフィールド510に制御動作のリストを、対応する音声コマンドのリストをフィールド520に含むことができる。例えば、最初のエントリに図示されるように、カメラをオンするための音声コマンドは、”カメラオン”によるものであってよい。音声コマンドを変更したい場合、ユーザはキーパッドコントロールデバイスのような入力デバイスを用いて特定のコマンドを選択し、新しいコマンドを与えることができる。例えば、ユーザが撮影用のコマンドを”チーズ”から”クリック”に変えたいとすると、ユーザはフィールド510の動作”撮影”又はフィールド520の音声コマンド”チーズ”を選択し、”チーズ”を置き換えるための新たな単語/語句を与えることができる。この例では、ユーザは”クリック”と発声(もしくは英数字キーパッドを用いて”クリック”と入力)し、音声認識プログラム310は”チーズ”を”クリック”に置き換え、”クリック”を撮影用のコマンドとして認識するであろう。このようにして、ユーザは特定の制御動作に対する特定の音声コマンドをいつでも変更することができる。
一部の実施形態において、音声認識プログラム310は、個々の制御動作に用いることのできる選択肢(例えば単語/語句)のメニューを保存することができる。この場合、音声認識プログラム310は特定の制御動作に対する選択肢を表示することができ、ユーザはその特定の制御動作に対して使用したい1つの選択肢を選択することができる。そして、ユーザは選択した単語/語句を所望の制御動作を実行するための音声コマンドとして使用することができる。
さらに、一部の実施形態においては、デフォルトの音声コマンドが音声認識プログラム310によって予め保存されてもよい。つまり、音声認識プログラム310は、ユーザが特定の単語/語句を入力する前に、特定の制御動作に対する様々な音声コマンドを保存してもよい。この場合、ユーザは音声コマンドを閲覧し、予め保存されている単語/語句を用いるか、音声コマンドに対応する予め保存されている単語/語句に対して1つ又は複数の変更を行うかを決定することができる。いずれの場合も、音声認識プログラム310は、ユーザが様々な制御動作を実行するための好みの単語/語句を選択することを可能にする。そして、以下に詳細に説明するように、移動端末100は、音声入力に応答して、求められる制御動作を実行することができる。
図6は、撮像デバイス260に関する制御動作の実行に関する例示的な処理を説明するフローチャートである。ここで、、移動端末100の電源はオンされており、移動端末100のユーザが撮像デバイス260を用いた写真撮影を希望しているものとする。例えば、移動端末100のユーザが、撮像デバイス260を用いて友人たちと一緒に自分のの写真を撮影したいとする。この場合、移動端末100のユーザは移動端末100をテーブルのようなどこかの面に置き、レンズ120の前で自分の周りに友人たちを並べ、単語”チーズ”と発声することができる。
音声認識プログラム310は音声入力を受信し、ユーザが発声した特定の単語/語句を識別するために音声認識を実行することができる(動作610)。ここでは、音声認識プログラムが単語”チーズ”を識別したものとする。そして、音声認識プログラム310は、発声された単語/語句(本例では”チーズ”)に対応するコマンドを特定することができる(動作620)。例えば、音声認識プログラム310はテーブル500にアクセスし、単語”チーズ”が撮像のための制御動作510に対応することを特定することができる。
音声認識プログラム310は特定したコマンドを制御コマンド生成器320に転送することができる。制御コマンド生成器320は音声認識プログラム310から情報を受け取り、撮像デバイス260に写真撮影を行わせるための適切なコマンド又は命令を生成する(動作630)。例えば、制御コマンド生成器320は、撮像デバイス260に写真撮影を行うように命令することができる。この命令は、シャッターボタン130が押下された際に受信される従前の信号に代わることができる。そして、撮像デバイス260は写真を撮影することができる(動作640)。このようにして、移動端末100のユーザは撮影のためのコマンドを発声するだけで、移動端末100は写真撮影に必要な制御動作を実行する。これによりユーザは、所望の動作を実行させるためにシャッターボタン130を押下したり、他の1つ又は複数のボタンを押下したりすること無しに、撮像デバイス260に関する様々な制御動作を実行させることが可能になる。このような方法で音声認識プログラム310を用いることにより、タイマ機器を設定してから走ったりすることなく、ユーザが自分を含めた写真を撮影することを可能にすることができる。さらに、音声認識プログラム310を用いることで、シャッターボタン130を押下した際に移動端末100を不適切に動かしてしまうことを回避可能にすることができ、写真がピンぼけになったり、中心がずれたりすることを回避可能とすることができる。
上述したように、制御コマンド生成器320は、ズームレンズ、オートフォーカス機能、フラッシュなどの、撮像デバイス260に付随する他の構成要素を制御するコマンド又は命令も生成することができる。いずれの場合も、制御コマンド生成器320は、求められる制御機能を実行するために撮像デバイス260に付随する様々な構成要素によって認識されるコマンド、コード、及び/又は命令を保存するように構成されてよい。
別の例として、移動端末100に関連付けられたユーザがビデオ記録モードへの切替を希望しているとすると、ユーザは”ビデオ開始”と発声するだけで、撮像デバイス260はビデオクリップ(例えば動画像)を記録することができるビデオ記録モードに切り替わるであろう。このような方法で音声認識プログラム310を用いることにより、ユーザが特定の被写体に集中していて忙しい場合の付加価値を提供することができる。例えば、ユーザがスポーツイベントでの活動を追っている場合、ユーザは移動端末100上の1つ又は複数のボタンを見て押下する必要なく、単にビデオモードへ切り替えるためのコマンドを発声すればよい。
さらに別の例として、移動端末100のユーザが、撮像デバイス260を用いて実現できる最高解像度を用いた写真撮影を希望しているとする。この場合、ユーザは”最大解像度”と発声することができ、撮像デバイス260は自身を用いて実現可能な最大メガピクセルを用いて写真撮影を行うであろう。ここでも、このような方法で音声認識プログラム310を用いることで、撮像デバイス260に関する写真解像度モードを変更するために1つ又は複数のボタンを押下する必要がなく、ユーザは写真撮影したい被写体に集中することが可能になる。
さらに別の状況において、移動端末100のユーザは複数の写真(例えば4枚の写真)を高速で連写することを希望するかもしれない。この場合、ユーザは”バースト4”と発声することができ、撮像デバイス260は4枚の写真を高速連写することができる。このコマンドは、ユーザが、シャッターボタン130を押下するよりも素速く複数の画像を撮影することを都合よく実現する。
上述の通り、移動端末100は音声認識を用いて、撮像デバイス260に関する様々な制御動作を実行することができる。一部の実施形態において、移動端末100は、撮像デバイス260及び撮像デバイス260に付随する他の構成要素が音声コマンドによって制御されることを可能にするモード指定手段を含むことができる。例えば、移動端末100は、従前の手動起動モードでの使用と対となるものとして、撮像デバイス260の音声駆動制御モードでの使用を移動端末100のユーザが指定することを可能にするメニューを含むことができる。ユーザは、例えばユーザ制御エリア150(図1B)のボタンを押下して、そのメニューを受け取ることができる。あるいは、入力デバイス240が、撮像デバイス260を音声コマンドに関するモードと、従前のカメラ/ビデオ記録モードとのいずれとするかをユーザが選択することを可能にする、ユーザ制御エリア150に配置されるカメラ/ビデオボタンを含んでもよい。さらに別の代替実施形態においては、撮像デバイス260に関して音声駆動モードを設定する必要が無くてもよい。つまり、撮像デバイス260は、何らかの特定のモードを設定しなくても音声駆動モードで動作することができる。例えば、一実施形態において、移動端末100のユーザは、入力デバイス240に含まれていてよいマイクを起動するために、単に”マイクオン”と発声すればよい。マイクが起動すると、音声認識プログラム310はユーザからの音声コマンドを受信することができる。いずれの場合も、移動端末100は、撮像デバイス260に関する1つ又は複数の動作につながる音声コマンドをユーザが与えることを可能にする。
結び
本発明に係る実施形態は、音声認識を用いることにより、撮像機能に関する制御動作を効率的な方法でユーザが実行することを可能にする。特に、音声認識を利用することで、カメラ及び/又はビデオ録画デバイスに関する様々な制御動作を、簡単でユーザフレンドリな方法によってユーザが実行することを可能にする。これにより、様々な撮影関連機能の利用についてのユーザ満足度を向上させることができ、それら機能の全般的な利用を簡単にすることができる。
本発明の実施形態の記述は、例証及び説明を与えるものであるが、それが本発明の全てを余すところ無く開示しているという意図もなければ、本発明を開示されたそのものに限定するという意図もない。上述の教示を踏まえて変更物又は派生物を実現することも可能であるし、本発明の実践からも変更物又は派生物を得ることができる。
例えば、本発明を主に、カメラ及び/又はビデオレコーダのような撮像デバイスを含んだ移動端末に関して説明してきた。しかし、本発明は、独立したカメラ、独立したビデオ録画デバイス、カメラ/ビデオ録画デバイスの組み合わせなどといった撮像機器を含んだ他の機器においても本発明を利用可能である。
さらに、一部の実施形態において、移動端末100は、音声コマンドが特定された後で、移動端末100のユーザに対して音声及び/又はテキストのようなフィードバックを提供してもよい。例えば、ビデオモードへ切り替えるためのコマンドをユーザが発声した後、移動端末100は”ビデオモードが起動されました”と述べる音声を出力してもよい。このようにして、ユーザは、実行された特定の制御動作を示すフィードバックを受け取ることができる。
図4及び図6に関し、一連の動作を説明したが、本発明に係る他の実施形態に実施形態において、それら動作の順序は変更されうる。さらに、依存関係にない動作は並行に実行されてもよい。
上述した本発明の複数の見地が、セルラ通信機器/システム、方法、及び/又はコンピュータプログラム製品において実施可能であることは、本技術分野に属する当業者にとって自明であろう。従って、本発明はハードウェア及び/又はソフトウェア(ファームウェア、常駐ソフトウェア、マイクロコード等を含む)で実施可能である。さらに、本発明に係る見地は、コンピュータが利用可能な、又はコンピュータが読み取り可能な記憶媒体であって、コンピュータが利用可能な、又はコンピュータが読み取り可能なプログラムコードが当該記憶媒体内に実現されている記録媒体の状態のコンピュータプログラム製品の形態を取りうる。本発明は、本発明の原理に準拠した見地の実施に用いられる実際のソフトウェアコード又は専用の制御ハードウェアによって限定されない。従って、それら見地の動作及び振る舞いが、特定のソフトウェアコードに言及することなく説明されていれば、それは、本技術分野に属する当業者が、本明細書の記載に基づいてそれら見地を実施するためのソフトウェア及び制御ハードウェアを設計可能であるものと理解されるべきである。
さらに、本発明の所定の部分は、1つ又は複数の機能を実行する「ロジック」として実現されうる。このロジックは、プロセッサ、マイクロプロセッサ、特定用途向け集積回路又はフィールドプログラマブルゲートアレイ、ソフトウェア、又はハードウェアとソフトウェアの組み合わせを含むことができる。
なお、本明細書において「含む/有する」という語が用いられる場合、説明された機能、整数、ステップ又は構成部品の存在を特定するものとして解釈されるが、他の機能、整数、ステップ、構成部品の1つ又は複数、又はそれらグループ存在や付加を排除するものではないことを強調しておく。
本願の説明に用いられているいかなる要素、動作、又は命令も、それが重要又は必須であると明記されていない限り、本発明にとって重要又は必須なものと解釈されるべきではない。また、複数と明記されていないものは、1つ又は複数の場合を含むことが意図されている。1つであることが意図されている場合には、「1つの」または類似の記載が用いられている。さらに、「〜に基づく」という表現は、異なる意味が明記されていない限り、「少なくとも一部が〜に基づく」という意味が意図されている。
本発明の範囲は、添付の請求項とその等価物によって規定される。
携帯電話機のような通信機器は、ますます多機能になってきている。例えば、今日の多くの携帯電話機には、テキストメッセージの送信/受信、音楽再生、ビデオゲームの実行など、ユーザが電話の発信や受信以外のことを行えるようなアプリケーションが含まれている。また、カメラを有する携帯電話機も多く、ユーザはカメラによって写真撮影やビデオクリップの記録が可能である。結果として、携帯電話機はますます日常生活に係わるようになってきている。
US2005118990は携帯電話機と、オーディオ又は音声制御を通じて制御可能なデジタルカメラの組み合わせに関する。携帯電話機は可聴入力を検出するための少なくとも1つのマイクを含む。検出された可聴入力は電気信号に変換され、プロセッサに送信される。プロセッサは、検出された可聴入力をプロセッサに処理させるソフトウェアを格納する記憶媒体へアクセス可能である。プロセッサは検出された可聴入力をカメラコマンドのデータベースと比較し、検出された可聴入力がデータベース中のカメラコマンドの1つと合致するか判定する。合致した場合、プロセッサは、求められた機能を実行するため、そのカメラコマンドに関連付けられた命令群を実行する。
US 5027249には、音声認識動作によって写真を撮影するカメラが記載されている。カメラはマイクを有し、操作者が発声したコマンド語はマイクを通じてデジタルデータの形式でコンピュータに登録される。コンピュータは、登録されているデータに従って同一の発声されたコマンド語を特定し、カメラの意図された機能を操作する。カメラは、操作者が自分がカメラに行った操作を確認できるよう、発声されたコマンド語の登録及び認識に表示装置を用いるコンピュータの機能を示している。
音声コマンドシステムを選択的に学習及び稼働モードの一方にするスイッチを含む音声コマンドを有するカメラが、US 4389109に記載されている。学習モードの間、様々なコマンド音声がマイクに発声され、それぞれがカメラ内の指定されたセクションに登録される。稼働モードの間、発声されたコマンド音声は登録されたコマンド音声の各々と比較され、特定されたセクションに応じて制御信号を生成するため、相関の最も大きなコマンド音声と認識される。

Claims (22)

  1. 少なくとも1つの撮像デバイスと、
    ロジックであって、
    ユーザから音声入力を受信し、
    前記音声入力を識別し、
    前記識別された音声入力に基づいて、前記少なくとも1つの撮像デバイスに関する制御動作を実行する、
    ように構成されたロジックとを有することを特徴とする装置。
  2. 前記少なくとも1つの撮像デバイスがカメラを有し、前記制御動作が前記カメラを用いた写真撮影を含むことを特徴とする請求項1記載の装置。
  3. 前記少なくとも1つの撮像デバイスがビデオ録画デバイスを有し、前記制御動作は前記ビデオ録画デバイスに関するビデオ記録モードの起動を含むことを特徴とする請求項1記載の装置。
  4. 前記制御動作が、オートフォーカス機能の制御、ズームレンズの制御、又は解像度モードの制御を含むことを特徴とする請求項1記載の装置。
  5. 前記音声入力を識別する際、前記ロジックが、
    音声認識ソフトウェアを用いて前記音声入力を識別するように構成されることを特徴とする請求項1記載の装置。
  6. ユーザ入力に応答して、複数の制御動作及び、前記複数の制御動作の各々に関連付けられた複数の制御動作を表示するように構成されたディスプレイをさらに有することを特徴とする請求項1記載の装置。
  7. メモリをさらに有し、
    前記ロジックがさらに、
    複数の制御動作の各々に対応する少なくとも1つの単語をユーザが提供することを可能にし、
    前記複数の制御動作の各々に対応する前記少なくとも1つの単語を前記メモリに保存するように構成されることを特徴とする請求項1記載の装置。
  8. 前記ロジックがさらに、
    前記複数の制御動作の1つである第1の制御動作に関連付けられた第1の単語又は語句を識別する音声認識を実行し、
    前記識別された第1の単語又は語句が正しいかをユーザに確認し、
    前記識別された第1の単語又は語句が正しいと確認された場合、前記識別された第1の単語又は語句を前記第1の制御動作に対応するものとして前記メモリに保存するように構成されることを特徴とする請求項7記載の装置。
  9. メモリをさらに有し、
    前記ロジックがさらに、
    前記少なくとも1つの撮像デバイスに関する第1の制御動作に対応する少なくとも1つの単語又は語句を特定するテキストを、前記ユーザが前記装置に入力できるように構成されたユーザインタフェースを提供し、
    前記テキストを前記第1の制御動作に対応するものとして前記メモリに保存するように構成されることを特徴とする請求項1記載の装置。
  10. セルラ電話機を有することを特徴とする請求項1記載の装置。
  11. 少なくとも1つの撮像デバイスを含んだ移動端末における方法であって、
    ユーザから音声入力を受信する工程と、
    前記音声入力を識別する工程と、
    前記識別された音声入力に基づいて、前記少なくとも1つの撮像デバイスに関する制御動作を実行する工程とを有することを特徴とする方法。
  12. 前記制御動作が、写真撮影、ビデオ記録モードの開始、解像度モードの設定、フラッシュの起動、ズームレンズの制御、又はオートフォーカス機能の制御の少なくとも1つを含むことを特徴とする請求項11記載の方法。
  13. 前記音声入力を識別する工程が、
    音声認識ソフトウェアを用いて前記音声入力を識別する工程を有することを特徴とする請求項11記載の方法。
  14. さらに、前記音声認識ソフトウェアを用いて前記音声入力を識別する工程が、
    前記音声入力を、保存されている、前記ユーザによって与えられた複数の音声信号と比較する工程と、
    前記音声入力が前記保存されている音声信号の1つと合致するか判定する工程とを有することを特徴とする請求項13記載の方法。
  15. 複数の制御動作の各々に関連付けられた音声入力を提供するようユーザに指示する工程と、
    前記指示する工程に応答して、前記ユーザから、前記複数の制御動作の各々に関連付けられた少なくとも1つの単語を受信する工程と、
    前記複数の制御動作の各々に関連付けられた前記少なくとも1つの単語を保存する工程とをさらに有することを特徴とする請求項11記載の方法。
  16. 前記複数の制御動作の1つである第1の制御動作に関連付けされた少なくとも第1の単語を識別するための音声認識を実行する工程と、
    前記第1の制御動作に関連付けられた前記識別された第1の単語が正しいかユーザに確認する工程と、
    前記識別された第1の単語が正しいと確認された場合、前記第1の制御動作に関連付けられた前記第1の単語を保存する工程とをさらに有することを特徴とする請求項15記載の方法。
  17. 写真又はビデオの少なくとも一方を撮影する手段と、
    ユーザから音声入力を受信する手段と、
    前記音声入力に基づいて、前記写真又はビデオの少なくとも一方を撮影する手段に関連付けられた制御動作を実行する手段とを有することを特徴とする装置。
  18. 複数の制御動作と、前記複数の制御動作に対応する複数の音声コマンドとを表示する手段をさらに有することを特徴とする請求項17記載の装置。
  19. 複数の命令が記録されたコンピュータ読み取り可能な媒体であって、前記命令は、少なくとも1つのプロセッサが実行した際、前記少なくとも1つのプロセッサに、
    ユーザから音声入力を受信させ、
    前記音声入力を識別させ、
    前記識別された音声入力に基づいて、撮像に関する制御機能を実行させることを特徴とするコンピュータ読み取り可能な媒体。
  20. 前記撮像に関する制御動作が、カメラを用いた写真撮影、ビデオ録画デバイスに関連付けられたビデオ記録モードの開始、解像度モードの設定、フラッシュの起動、ズームレンズの制御、又はオートフォーカス機能の制御の少なくとも1つを含むことを特徴とする請求項19記載のコンピュータ読み取り可能な媒体。
  21. 前記命令がさらに前記プロセッサに、
    ユーザ入力に応答して、撮像に関する複数の制御動作と前記撮像に関する複数の制御動作の各々に対応する音声コマンドとを表示させることを特徴とする請求項19記載のコンピュータ読み取り可能な媒体。
  22. 前記命令がさらに前記プロセッサに、
    撮像に関する複数の制御動作の各々に対応する単語又は語句をユーザに選択可能とさせることを特徴とする請求項19記載のコンピュータ読み取り可能な媒体。
JP2009517461A 2006-06-30 2006-12-27 音声による遠隔制御 Active JP4975813B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/427,807 2006-06-30
US11/427,807 US8207936B2 (en) 2006-06-30 2006-06-30 Voice remote control
PCT/IB2006/055039 WO2008004037A1 (en) 2006-06-30 2006-12-27 Voice remote control

Publications (2)

Publication Number Publication Date
JP2009543396A true JP2009543396A (ja) 2009-12-03
JP4975813B2 JP4975813B2 (ja) 2012-07-11

Family

ID=37903620

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009517461A Active JP4975813B2 (ja) 2006-06-30 2006-12-27 音声による遠隔制御

Country Status (8)

Country Link
US (3) US8207936B2 (ja)
EP (1) EP2041957B1 (ja)
JP (1) JP4975813B2 (ja)
KR (1) KR101163273B1 (ja)
CN (1) CN101480039B (ja)
AT (1) ATE489807T1 (ja)
DE (1) DE602006018539D1 (ja)
WO (1) WO2008004037A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015027085A (ja) * 2013-07-26 2015-02-05 エルジー エレクトロニクス インコーポレイティド 移動端末機及びその制御方法
JPWO2013128508A1 (ja) * 2012-02-27 2015-07-30 Necカシオモバイルコミュニケーションズ株式会社 音声入力装置、音声入力方法及びプログラム
US10015308B2 (en) 2013-07-26 2018-07-03 Lg Electronics Inc. Mobile terminal and method of controlling the same
JP2020087376A (ja) * 2018-11-30 2020-06-04 株式会社リコー 情報処理装置、情報処理システム、および方法
JP2022525176A (ja) * 2019-04-29 2022-05-11 ソニーグループ株式会社 音声コマンドを使用してカメラインタフェースを制御するための技術

Families Citing this family (119)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040006473A1 (en) * 2002-07-02 2004-01-08 Sbc Technology Resources, Inc. Method and system for automated categorization of statements
US8207936B2 (en) 2006-06-30 2012-06-26 Sony Ericsson Mobile Communications Ab Voice remote control
US7801569B1 (en) * 2007-03-22 2010-09-21 At&T Intellectual Property I, L.P. Mobile communications device with distinctive vibration modes
CN101465960B (zh) * 2007-12-19 2011-07-27 深圳富泰宏精密工业有限公司 具有语音控制功能的摄像装置及其使用方法
JP4919993B2 (ja) * 2008-03-12 2012-04-18 株式会社日立製作所 情報記録装置
JP5053950B2 (ja) * 2008-07-29 2012-10-24 キヤノン株式会社 情報処理方法、情報処理装置、プログラムおよび記憶媒体
US8154644B2 (en) * 2008-10-08 2012-04-10 Sony Ericsson Mobile Communications Ab System and method for manipulation of a digital image
KR20110040590A (ko) * 2009-10-14 2011-04-20 삼성전자주식회사 휴대단말의 데이터 통신 방법 및 시스템
US9197736B2 (en) * 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
CN102782733B (zh) 2009-12-31 2015-11-25 数字标记公司 采用配备有传感器的智能电话的方法和配置方案
JP5499796B2 (ja) * 2010-03-15 2014-05-21 株式会社ニコン 電子機器
CN101937676A (zh) * 2010-08-17 2011-01-05 深圳市同洲电子股份有限公司 通过音频识别实现远程控制设备的方法和移动终端
CN102413276A (zh) * 2010-09-21 2012-04-11 天津三星光电子有限公司 具有声控聚焦功能的数码摄像机
US9368107B2 (en) * 2011-04-20 2016-06-14 Nuance Communications, Inc. Permitting automated speech command discovery via manual event to command mapping
US9992745B2 (en) 2011-11-01 2018-06-05 Qualcomm Incorporated Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate
US9031847B2 (en) * 2011-11-15 2015-05-12 Microsoft Technology Licensing, Llc Voice-controlled camera operations
US20130120106A1 (en) 2011-11-16 2013-05-16 Motorola Mobility, Inc. Display device, corresponding systems, and methods therefor
WO2013085507A1 (en) 2011-12-07 2013-06-13 Hewlett-Packard Development Company, L.P. Low power integrated circuit to analyze a digitized audio stream
US20130250139A1 (en) * 2012-03-22 2013-09-26 Trung Tri Doan Method And System For Tagging And Organizing Images Generated By Mobile Communications Devices
US8913142B2 (en) * 2012-04-18 2014-12-16 Sony Corporation Context aware input system for focus control
CN102664009B (zh) * 2012-05-07 2015-01-14 乐视致新电子科技(天津)有限公司 一种通过移动通信终端对视频播放装置进行语音控制的系统及方法
CN102693726B (zh) * 2012-05-25 2014-06-04 福建英特莱信息技术咨询有限公司 具有语音识别功能的北斗卫星通信设备
KR101880636B1 (ko) * 2012-07-25 2018-07-20 삼성전자주식회사 디지털 촬영 장치 및 그의 제어 방법
KR101981316B1 (ko) * 2012-09-12 2019-05-22 엘지전자 주식회사 이동 단말기 및 이동 단말기의 제어 방법
USD769847S1 (en) * 2012-09-29 2016-10-25 Michael McClurkan Remote control
KR101971967B1 (ko) * 2012-10-23 2019-04-24 엘지전자 주식회사 이동 단말기 및 이의 제어 방법
KR101990037B1 (ko) * 2012-11-13 2019-06-18 엘지전자 주식회사 이동 단말기 및 그것의 제어 방법
KR20140075997A (ko) * 2012-12-12 2014-06-20 엘지전자 주식회사 이동 단말기 및 이동 단말기의 제어 방법
KR20140077821A (ko) * 2012-12-14 2014-06-24 삼성전자주식회사 홈 네트워크 시스템에서 컨텐츠 백업 장치 및 방법
US9978260B2 (en) 2012-12-18 2018-05-22 Samsung Electronics Co., Ltd. Method and apparatus for controlling a home device remotely in a home network system
US9622365B2 (en) 2013-02-25 2017-04-11 Google Technology Holdings LLC Apparatus and methods for accommodating a display in an electronic device
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
US20140247368A1 (en) * 2013-03-04 2014-09-04 Colby Labs, Llc Ready click camera control
CN103108235A (zh) * 2013-03-05 2013-05-15 北京车音网科技有限公司 电视控制方法、装置及系统
US9674922B2 (en) 2013-03-14 2017-06-06 Google Technology Holdings LLC Display side edge assembly and mobile device including same
US9747899B2 (en) 2013-06-27 2017-08-29 Amazon Technologies, Inc. Detecting self-generated wake expressions
JP6102588B2 (ja) * 2013-07-10 2017-03-29 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
KR102047703B1 (ko) * 2013-08-09 2019-11-22 엘지전자 주식회사 이동 단말기 및 이의 제어 방법
USD743944S1 (en) * 2013-11-15 2015-11-24 Sony Mobile Communications Ab Remote control
US9484001B2 (en) 2013-12-23 2016-11-01 Google Technology Holdings LLC Portable electronic device controlling diffuse light source to emit light approximating color of object of user interest
KR20150102489A (ko) * 2014-02-28 2015-09-07 삼성전자주식회사 디스플레이 장치
US20150279373A1 (en) * 2014-03-31 2015-10-01 Nec Corporation Voice response apparatus, method for voice processing, and recording medium having program stored thereon
JP2015233188A (ja) * 2014-06-09 2015-12-24 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
KR102147329B1 (ko) * 2014-06-17 2020-08-24 엘지전자 주식회사 영상 표시 기기 및 그의 동작 방법
US10245521B2 (en) * 2014-08-08 2019-04-02 Hung-Wang Hsu Speech remote control device
CN104580515A (zh) * 2015-01-28 2015-04-29 朱文通 基于微信的早教终端通信控制方法、早教终端及服务器
USD805502S1 (en) * 2015-03-27 2017-12-19 Koninklijke Philips N.V. Remote control
CN105611167B (zh) * 2015-12-30 2020-01-31 联想(北京)有限公司 一种对焦平面调整方法及电子设备
CN105578060A (zh) * 2016-02-18 2016-05-11 温岭市太平高级职业中学 基于asr mo8-a与tc35的语音远程控制数码相机
US10743101B2 (en) 2016-02-22 2020-08-11 Sonos, Inc. Content mixing
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10178293B2 (en) 2016-06-22 2019-01-08 International Business Machines Corporation Controlling a camera using a voice command and image recognition
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
CN106231196A (zh) * 2016-08-16 2016-12-14 北京金山安全软件有限公司 一种视频拍摄控制方法、装置及电子设备
CN106231197A (zh) * 2016-08-16 2016-12-14 北京金山安全软件有限公司 一种视频拍摄控制方法、装置及电子设备
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
CN106412312A (zh) * 2016-10-19 2017-02-15 北京奇虎科技有限公司 自动唤醒智能终端摄像功能的方法、系统及智能终端
US10212338B2 (en) * 2016-11-22 2019-02-19 Google Llc Camera operable using natural language commands
US20180270343A1 (en) * 2017-03-20 2018-09-20 Motorola Mobility Llc Enabling event-driven voice trigger phrase on an electronic device
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US11024305B2 (en) 2017-08-07 2021-06-01 Dolbey & Company, Inc. Systems and methods for using image searching with voice recognition commands
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
JP7202853B2 (ja) * 2018-11-08 2023-01-12 シャープ株式会社 冷蔵庫
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11134188B2 (en) * 2019-08-19 2021-09-28 Motorola Mobility Llc Electronic device with image capturing device that records based on external inputs
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11385526B2 (en) * 2019-11-15 2022-07-12 Samsung Electronics Co., Ltd. Method of processing image based on artificial intelligence and image processing device performing the same
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
US11995297B2 (en) * 2021-03-08 2024-05-28 Samsung Electronics Co., Ltd. Enhanced user interface (UI) button control for mobile applications
CN114049878A (zh) * 2021-11-11 2022-02-15 惠州Tcl移动通信有限公司 一种基于语音识别的自动对焦方法、系统及移动终端
US20230402068A1 (en) * 2022-06-10 2023-12-14 Lemon Inc. Voice-controlled content creation

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000083186A (ja) * 1998-09-03 2000-03-21 Canon Inc 映像機器
JP2001216059A (ja) * 2000-02-04 2001-08-10 Sony Corp 情報処理装置および方法、並びにプログラム格納媒体
JP2002312386A (ja) * 2001-04-12 2002-10-25 Kobelco Systems Corp 音声検索サービスシステム
JP2004180055A (ja) * 2002-11-28 2004-06-24 Fuji Photo Film Co Ltd 映像装置
JP2005027002A (ja) * 2003-07-02 2005-01-27 Fuji Photo Film Co Ltd 通信機能付カメラ

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5697337A (en) * 1979-12-31 1981-08-06 Minolta Camera Co Ltd Voice control camera
US5027149A (en) * 1988-01-28 1991-06-25 Konica Corporation Voice-recognition camera
JPH06313838A (ja) * 1993-04-28 1994-11-08 Nikon Corp 音声入力カメラ
US5893902A (en) * 1996-02-15 1999-04-13 Intelidata Technologies Corp. Voice recognition bill payment system with speaker verification and confirmation
JPH11109498A (ja) 1997-10-07 1999-04-23 Canon Inc 音声入力機能付き装置及びカメラ
US6289140B1 (en) * 1998-02-19 2001-09-11 Hewlett-Packard Company Voice control input for portable capture devices
US6295391B1 (en) * 1998-02-19 2001-09-25 Hewlett-Packard Company Automatic data routing via voice command annotation
US7302279B2 (en) * 2002-12-18 2007-11-27 Nokia Corporation Mobile terminal, a method of operating the terminal, and information items for use therein
US20050118990A1 (en) * 2003-12-02 2005-06-02 Sony Ericsson Mobile Communications Ab Method for audible control of a camera
KR100621593B1 (ko) * 2004-09-24 2006-09-19 삼성전자주식회사 다중양식의 입력을 이용하는 통합 원격 제어 장치 및 방법
KR101081126B1 (ko) 2004-12-21 2011-11-07 주식회사 팬택 이동 통신 단말기의 키패드 설정 방법 및 시스템
US8207936B2 (en) * 2006-06-30 2012-06-26 Sony Ericsson Mobile Communications Ab Voice remote control

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000083186A (ja) * 1998-09-03 2000-03-21 Canon Inc 映像機器
JP2001216059A (ja) * 2000-02-04 2001-08-10 Sony Corp 情報処理装置および方法、並びにプログラム格納媒体
JP2002312386A (ja) * 2001-04-12 2002-10-25 Kobelco Systems Corp 音声検索サービスシステム
JP2004180055A (ja) * 2002-11-28 2004-06-24 Fuji Photo Film Co Ltd 映像装置
JP2005027002A (ja) * 2003-07-02 2005-01-27 Fuji Photo Film Co Ltd 通信機能付カメラ

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2013128508A1 (ja) * 2012-02-27 2015-07-30 Necカシオモバイルコミュニケーションズ株式会社 音声入力装置、音声入力方法及びプログラム
JP2015027085A (ja) * 2013-07-26 2015-02-05 エルジー エレクトロニクス インコーポレイティド 移動端末機及びその制御方法
US10015308B2 (en) 2013-07-26 2018-07-03 Lg Electronics Inc. Mobile terminal and method of controlling the same
JP2020087376A (ja) * 2018-11-30 2020-06-04 株式会社リコー 情報処理装置、情報処理システム、および方法
JP7215118B2 (ja) 2018-11-30 2023-01-31 株式会社リコー 情報処理装置、情報処理システム、プログラムおよび方法
JP2022525176A (ja) * 2019-04-29 2022-05-11 ソニーグループ株式会社 音声コマンドを使用してカメラインタフェースを制御するための技術

Also Published As

Publication number Publication date
US20120265538A1 (en) 2012-10-18
ATE489807T1 (de) 2010-12-15
US9401159B2 (en) 2016-07-26
DE602006018539D1 (de) 2011-01-05
US8674939B2 (en) 2014-03-18
WO2008004037A1 (en) 2008-01-10
CN101480039A (zh) 2009-07-08
EP2041957B1 (en) 2010-11-24
US20080036869A1 (en) 2008-02-14
US8207936B2 (en) 2012-06-26
CN101480039B (zh) 2012-12-12
KR101163273B1 (ko) 2012-07-05
KR20090025362A (ko) 2009-03-10
US20140195250A1 (en) 2014-07-10
EP2041957A1 (en) 2009-04-01
JP4975813B2 (ja) 2012-07-11

Similar Documents

Publication Publication Date Title
JP4975813B2 (ja) 音声による遠隔制御
EP3125530B1 (en) Video recording method and device
US20160373646A1 (en) Imaging device for capturing self-portrait images
KR20100008936A (ko) 듀얼 카메라를 구비하는 휴대 단말기 및 이를 이용한 촬영방법
JP2010219692A (ja) 撮像装置及びカメラ
CN105704766B (zh) 双卡移动终端的控制方法及装置
JP2009539326A (ja) 適応する機能を提供する無線通信装置
JP6137965B2 (ja) 電子機器、電子機器の制御方法、及び電子機器の制御プログラム
JP2007513568A (ja) 携帯電話機に関連するカメラの可聴制御のシステム及び方法
JP2006221270A (ja) 音声認識機能を備えた携帯端末装置のマルチタスクシステム及び方法
JP2000217015A (ja) 通信機能付きカメラ
KR100678201B1 (ko) 휴대단말기에서 메인언어를 설정하는 방법
US7889987B2 (en) Camera auto UV filter mode
CN105323383B (zh) 手机铃声音量的调整方法和装置
CN108600625A (zh) 图像获取方法及装置
WO2015074257A1 (zh) 一种数码放大镜的实现方法及手机设备
JP2017200179A (ja) 映像記録装置および映像記録方法
KR20050042852A (ko) 터치 스크린을 이용한 휴대용 단말기의 디스플레이방법
JP2005024792A (ja) カメラ付き携帯通信端末
CN112511686A (zh) 一种录音方法和耳机设备
CN112637416A (zh) 音量的调节方法、装置和存储介质
KR20050000143A (ko) 음성인식을 이용한 이동통신 단말기의 카메라 동작방법
JP4473083B2 (ja) 撮影装置及びその着信音出力方法
KR100835377B1 (ko) 카메라 기능을 구비한 휴대 단말기의 연속 촬영 방법 및 장치
CN112637403A (zh) 一种录音方法和耳机设备

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110819

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120316

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120411

R150 Certificate of patent or registration of utility model

Ref document number: 4975813

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150420

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250