JP7055722B2 - 音声認識機能を有する電子機器、その電子機器の制御方法およびプログラム - Google Patents

音声認識機能を有する電子機器、その電子機器の制御方法およびプログラム Download PDF

Info

Publication number
JP7055722B2
JP7055722B2 JP2018158309A JP2018158309A JP7055722B2 JP 7055722 B2 JP7055722 B2 JP 7055722B2 JP 2018158309 A JP2018158309 A JP 2018158309A JP 2018158309 A JP2018158309 A JP 2018158309A JP 7055722 B2 JP7055722 B2 JP 7055722B2
Authority
JP
Japan
Prior art keywords
electronic device
voice
voice command
state
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018158309A
Other languages
English (en)
Other versions
JP2020034988A (ja
Inventor
茂輝 田辺
泰弘 上野
英樹 森田
功 益池
浩太郎 山内
学 佐久間
健史 島田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Corp
Original Assignee
Kyocera Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Corp filed Critical Kyocera Corp
Priority to JP2018158309A priority Critical patent/JP7055722B2/ja
Priority to US16/551,342 priority patent/US11227595B2/en
Publication of JP2020034988A publication Critical patent/JP2020034988A/ja
Application granted granted Critical
Publication of JP7055722B2 publication Critical patent/JP7055722B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本開示は、音声認識機能を有する電子機器に関し、特に、音声出力機能および表示機能を有する電子機器に関する。
従来、電子機器に入力音声を認識させる技術が知られている。例えば特許文献1には、携帯端末装置の機能の呼び出し機能の実行を定義した音声コマンドを登録する音声コマンド登録部126Aと、押下中にマイクロフォンからの音声を音声コマンドとして入力するための音声コマンド入力ボタン121と、音声コマンド入力ボタンの押下中にマイクロフォンに入力した音声を音声認識処理し認識結果を音声コマンドとして音声コマンド登録部に登録させる音声コマンド登録処理部141Cと、音声コマンド入力ボタンの押下中にマイクロフォンから音声コマンドを入力し音声コマンド入力ボタンの押下解除後に入力した音声コマンドを音声認識処理し認識結果が登録されている音声コマンドと一致し受理された場合には受理した音声コマンドに対応する機能を呼び出し機能の操作を実行する音声コマンド処理部141Bとを備えた携帯端末装置が開示されている。
特開2006-221270号公報
音声認識技術の利便性の向上が望まれている。
1つの態様に係る電子機器は、音声を入力するマイクと、前記マイクに入力された前記音声を認識するプロセッサとを備える。前記プロセッサは、前記マイクに入力された前記音声に基づき音声コマンドを認識したときに、前記電子機器が所定状態であるか否かを判定する。前記プロセッサは、前記電子機器が前記所定状態であると判定した場合、前記音声コマンドに応じた第1処理を実行する。前記プロセッサは、前記電子機器が前記所定状態でないと判定した場合、前記音声コマンドに応じた第2処理を実行する。
1つの態様に係る制御方法は、音声を入力するマイクを備える電子機器の制御方法であって、前記マイクに入力された前記音声に基づき音声コマンドを認識したときに、前記電子機器が所定状態であるか否かを判定し、前記電子機器が前記所定状態であると判定した場合、前記音声コマンドに応じた第1処理を実行し、前記電子機器が前記所定状態でないと判定した場合、前記音声コマンドに応じた第2処理を実行する。
1つの態様に係る制御プログラムは、音声を入力するマイクを備える電子機器で用いられるプログラムであって、前記マイクに入力された前記音声に基づき音声コマンドが認識されたときに、前記電子機器が所定状態であるか否かを判定させ、前記電子機器が前記所定状態であると判定された場合、前記音声コマンドに応じた第1処理を実行させ、前記電子機器が前記所定状態でないと判定された場合、前記音声コマンドに応じた第2処理を実行させる。
本開示の一実施形態に電子機器によれば、音声認識技術の利便性が向上する。
一実施形態に係る電子機器の外観図である。 一実施形態に係る電子機器のブロック図である。 一実施形態に係る電子機器の動作の一例を示す図である。 一実施形態に係る電子機器の動作の一例を示す図である。 一実施形態に係る電子機器の動作の一例を示す図である。 一実施形態に係る電子機器の動作の一例を示す図である。 一実施形態に係る電子機器の動作の一例を示す図である。 一実施形態に係る電子機器の動作の一例を示す図である。 一実施形態に係る電子機器が行う制御の一例を示すフローチャートである。 一実施形態に係る電子機器が行う制御の一例を示すフローチャートである。 一実施形態に係る電子機器が行う制御の一例を示すフローチャートである。
以下、本開示の実施形態について、図面を参照して説明する。以下の説明において、同様の構成要素について同一の符号を付すことがある。さらに、重複する説明は省略することがある。
ただし、図面は模式的なものであり、各寸法の比率などは現実のものとは異なる場合があることに留意すべきである。したがって、具体的な寸法などは以下の説明を参酌して判断すべきである。また、図面相互間においても互いの寸法の関係又は比率が異なる部分が含まれている場合があることは勿論である。
本開示において、例えば構成A、構成Bについて「AまたはB」という表現が使用される場合、当該表現は、「AおよびBの少なくとも一方」の意味を有し得ることに注意されたい。また、本開示において使用される「~得る」「~できる」「~てもよい」「~でもよい」「~てよい」「~でよい」という表現は、強制的な意味(「有していなくてはならない」など)ではなく、許容的な意味(「有している可能性がある」など)を有することに注意されたい。また、本開示において使用される「~を含む」という表現は、「~を含むが、これ(またはこれら)に限定されない」という意味を有することに注意されたい。また、本開示において使用される「~を含んでもよい」「~を含んでよい」という表現は、「~を含んでもよいが、含まなくてもよい」という意味を有することに注意されたい。また、本開示において、物理的な構成について、「構成する」「構成される」といった表現が使用される場合、当該表現は、「~を含む」に近似する意味を有することに注意されたい。また、本開示において、機能部、回路または電子機器1自体などに関し、特定の機能の実行について「構成する」「構成される」といった表現が使用される場合、当該表現は、「特定の機能を実行できるが、当該特定の機能が実行されるかどうかは条件に左右され、当該特定の機能を実行しない場合もあり得る」といった広範な意味を有することに注意されたい。
図1を参照して、一実施形態に係る電子機器1の外観について説明する。図1は、一実施形態に係る電子機器1の外観図である。
電子機器1は、いわゆるスマートフォンのような機器を含む。しかしながら、本開示の実施形態に係る電子機器1はスマートフォンに限定されない。電子機器1は、少なくとも音声出力機能を備える各種機器を含む。電子機器1は、例えばフィーチャーフォン、タブレット、ノートパソコン、スマートスピーカ、スマートディスプレイ、およびカーナビゲーションシステムなどを含む。電子機器1は、その他の携帯可能な各種端末を含む。
電子機器1は、マイク11と、スピーカ12と、タッチパネル13とを含む。タッチパネル13は、ディスプレイ13aと、タッチセンサ13bとを含む。図1において、電子機器1の長手方向を上下方向と定義し、電子機器1の短手方向を左右方向と定義する。
マイク11は、周囲の音声を集音する。マイク11は、電子機器1の表面に露出してもよい。マイク11は、電子機器1の表面に露出しなくてもよい。マイク11は電子機器1に複数設けられてもよい。
スピーカ12は、音声を出力する。スピーカ12は、電子機器1の表面に露出してもよい。スピーカ12は、電子機器1の表面に露出しなくてもよい。スピーカ12は電子機器1に複数設けられてもよい。
タッチパネル13は、ディスプレイ13aおよびタッチセンサ13bを含む。タッチセンサ13bはディスプレイ13aと一体であってもよい。タッチセンサ13bはディスプレイ13aと別体であってもよい。タッチセンサ13bとディスプレイ13aとが一体となっているタッチパネル13は、例えば、インセル型のタッチパネル、およびオンセル型のタッチパネルを含む。
ディスプレイ13aは、文字、写真、記号、図形等の画像を表示する。ディスプレイ13aは、液晶ディスプレイ(LCD:Liquid Crystal Display)、有機ELディスプレイOELD:Organic Electro-Luminescence Display)、および無機ELディスプレイ(IELD:Inorganic Electro-Luminescence Display)などを含む。
タッチセンサ13bは、ユーザの指、またはスタイラスなどの接触または近接を検出する。タッチセンサ13bは、電子機器1への入力を受け付ける入力手段のうちの1つとして利用される。接触または近接を検出する方式は、静電容量方式、抵抗膜方式、表面弾性波方式、赤外線方式、または荷重検出方式などの任意の方式でよい。タッチセンサ13bは、入射した光の少なくとも一部を透過させる。
タッチセンサ13bは、平面視において少なくとも一部がディスプレイ13aと重なるように位置する。他の実施形態において、タッチセンサ13bは、ディスプレイ13aと並んで位置してもよいし、離れて位置してもよい。
図2を参照して、一実施形態に係る電子機器1の機能について説明する。図2は、一実施形態に係る電子機器1のブロック図である。
電子機器1は、マイク11と、スピーカ12と、ディスプレイ13aと、タッチセンサ13bと、測位センサ16と、状態センサ15と、通信インタフェース14と、ストレージ17と、プロセッサ18とを含む。
マイク11は、周囲の音声を集音する。マイク11は、電気信号をA/D変換し、変換後のデジタルの音声信号をプロセッサ18へ電子機器1に出力させてもよい。マイク11は、入力を受け付けた音声に対応する電気信号をプロセッサ18に入力する。マイク11は、外部のマイクと有線または無線で通信可能な音声入力インタフェースを含む。外部のマイクは、例えばイヤホン、およびスマートスピーカなどに備えられていてもよい。
スピーカ12は、プロセッサ18から入力された信号に基づいて、音声を出力する。音声出力部は、プロセッサ18からのデジタルの音声信号をデコード処理およびD/A変換し、変換後の電気信号に基づいて音声を電子機器1に出力させてもよい。スピーカ12は、各種プログラムの情報等を音声で出力できる。スピーカ12は、外部のマイクと有線または無線で通信可能な音声出力インタフェースを含む。外部のスピーカは、例えばイヤホン、およびスマートスピーカ12などに備えられていてもよい。スピーカ12には、電話の音声を出力するレシーバが含まれてもよい。
ディスプレイ13aは、プロセッサ18から入力された信号に基づいて、文字、写真、記号、図形等の画像を表示する。
タッチセンサ13bは、指などの接触または近接を検出する。タッチセンサ13bは、検出した接触または近接に対応する信号をプロセッサ18に入力する。
通信インタフェース14は、外部装置と通信する。通信インタフェース14は、例えば物理コネクタ、無線通信インタフェースを含む。物理コネクタは、電気信号による伝送に対応した電気コネクタ、光信号による伝送に対応した光コネクタ、および電磁波による伝送に対応した電磁コネクタを含む。電気コネクタは、USB(Universal Serial Bus)、HDMI(登録商標)(High-Definition Multimedia Interface)、MHL(Mobile High-difinition Link)、ライトピーク(Light Peak)、サンダーボルト(登録商標)(Thunderbolt)、およびLANコネクタ(LocalArea Network connector)などの汎用的な端子を含む。無線通信インタフェースは、種々の規格に準拠する無線通信インタフェースを含む。無線通信インタフェースによってサポートされる無線通信規格は、例えば、2G、3G、4G等のセルラーフォンの通信規格、および近距離無線の通信規格などを含む。セルラーフォンの通信規格は、例えば、LTE(Long Term Evolution)、W-CDMA(Wideband Code Division Multiple Access)、およびWiMAX(Worldwide Interoperability for Microwave Access)などを含む。近距離無線の通信規格は、例えば、IEEE802.11、Bluetooth(登録商標)、IrDA(Infrared Data Association)、およびNFC(Near Field Communication)、WPAN(Wireless Personal Area Network)などを含む。WPANの通信規格は、例えば、ZigBee(登録商標)を含む。
状態センサ15は、電子機器1の状態を検出し、検出結果をプロセッサ18に入力する。状態センサ15は、加速度センサを含む。状態センサ15は、さらにジャイロセンサ、方位センサ等を含んでいてもよい。加速度センサは、電子機器1に働く加速度の方向および大きさを検出する。ジャイロセンサは、電子機器1の角度および角速度を検出する。方位センサは、地磁気の向きを検出する。状態センサは、さらに照度センサを含んでもよい。照度センサは、電子機器1に照射される光量を検出する。
測位センサ16は、電子機器1の現在地を示す位置情報を取得し、取得した結果をプロセッサ18に入力する。測位センサ16は、電子機器1の位置を、例えばGPS(Global Positioning System)受信機、または通信インタフェース14が無線ネットワークを確立している基地局に基づいて取得する。
ストレージ17は、プログラム17aおよびデータ17bを記憶する。ストレージ17は、半導体記憶媒体、磁気記憶媒体などの任意の非一過的(non-transitory)な記憶媒体を含む。ストレージ17は、複数の種類の記憶媒体を含んでもよい。ストレージ17は、メモリカード、光ディスク、または光磁気ディスク等の可搬の記憶媒体と、記憶媒体の読み取り装置との組み合わせであってもよい。ストレージ17は、RAM(Random Access Memory)などの、プロセッサ18の処理結果を一時的に記憶する作業領域としても利用される記憶媒体を含んでもよい。ストレージ17に記憶されるプログラム17aは、フォアグランドまたはバックグランドで実行されるアプリケーション、およびアプリケーションの動作を支援する制御プログラムなどを含む。ストレージ17に記憶されるデータ17bは、タッチセンサ13bの検出結果、および音声入力部111が受け付けた入力結果などを含む。
データ17bは、音声認識辞書データを含んでもよい。音声認識辞書データは、音声の特徴パターン(特徴量)と文字列とが対応付けられたデータである。ただし、音声認識辞書データは、ストレージ17に記憶されていなくてもよい。音声認識データは、電子機器1が通信インタフェース14を介してアクセス可能なネットワーク上に記憶されていてもよい。
プロセッサ18は、ディスプレイ13a、タッチセンサ13b、マイク11、スピーカ12、通信インタフェース14、状態センサ15、測位センサ16、およびストレージ17と電気的に接続される。プロセッサ18は、電子機器1全体の動作を制御する。プロセッサ18は、CPU(Central Processing Unit)、およびMCU(Micro Control Unit)を含む。プロセッサ18は、FPGA(Field-Programmable Gate Array)などのプログラマブルロジックデバイス(PLD;Programmable Logic Device)であってもよい。プロセッサ18は、特定の処理に特化した専用のプロセッサ、および特定のプログラムを読み込むことによって特定の機能を実行する汎用のプロセッサであってもよい。専用のプロセッサは、DSP(Digital Signal Processor)および特定用途向けIC(ASIC;Application Specific Integrated Circuit)を含む。プロセッサ18は、1つまたは複数のプロセッサが協働するSoC(System-on-a-Chip)、およびSiP(System In a Package)のいずれかであってもよい。
プロセッサ18は、ストレージ17に記憶されているデータ17bを必要に応じて参照し、ストレージ17に記憶されているプログラム17aに含まれる命令を実行できる。そして、プロセッサ18は、データ17bおよび命令に応じて機能部を制御し、それによって各種機能を実現できる。また、プロセッサ18は、検出部の検出結果に応じて制御を変更できる。機能部は、例えばスピーカ12、ディスプレイ13a、および通信インタフェース14などを含む。検出部は、例えばマイク11、タッチセンサ13b、状態センサ15、および測位センサ16などを含む。
プロセッサ18は、タッチセンサ13bにより検出された接触または近接、検出位置、検出位置の変化、接触または近接が継続した時間、接触または近接が検出された間隔、および接触が検出された回数の少なくとも1つに基づいて、ジェスチャの種別を判別する。ジェスチャは、指を用いて、タッチセンサ13bに対して行われる操作である。タッチセンサ13bに対して行われる操作は、タッチセンサ13bを有するタッチパネル13に対して行われてもよい。プロセッサ18が判別するジェスチャには、例えば、タッチ、ロングタッチ、リリース、スワイプ、タップ、ダブルタップ、ロングタップ、ドラッグ、フリック、ピンチイン、およびピンチアウトが含まれるが、これらに限定されない。
プロセッサ18は、状態センサ15(例えば加速度センサ)が検出した検出結果(例えば加速度パターン)に基づいて、電子機器1の移動状態を判定できる。言い換えると、電子機器1は、状態センサ15が検出した検出結果に基づいて電子機器1を携帯しているユーザの移動状態を判定できる。判定可能な移動状態には、ユーザが電車に乗っている状態、歩行している状態、走行している状態、自動車に乗っている状態を含むが、これらに限定されない。
プロセッサ18は、状態センサ15(例えば加速度センサおよび照度センサ)が検出した検出結果(例えば加速度パターンおよび光量)に基づいて、電子機器1の携行状態を判定できる。言い換えると、電子機器1は、状態センサ15が検出した検出結果に基づいてユーザがどのように電子機器1を携帯しているかを判定できる。判定可能な移動状態には、ユーザが電子機器1を鞄またはリュックに収納して携行している状態、着用されたパンツのポケットに収納して携行している状態、着用されたシャツの胸ポケットに収納して携行している状態を含むが、これらに限定されない。プロセッサ18は、電子機器1が閉空間に位置すると判定した場合に、ユーザが電子機器1を鞄またはリュックに入れて携行している状態であると判定し得る。また、プロセッサ18は、電子機器1の片側に照射される光量が反対側に照射される光量よりも少ないと判定した場合に、ユーザが電子機器1をシャツの胸ポケットに入れて携行している状態であると判定し得る。また、プロセッサ18は、状態センサ15が検出した検出した検出結果、ならびに、電子機器1における状態センサ15(例えば照度センサ)の位置およびマイク11の位置に基づき、マイク11がポケットの上側に近い状態および下側に近い状態のどちらで電子機器1がシャツの胸ポケットに入れているかを判定してもよい。
プロセッサ18は、マイク11に入力された音声を認識(音声認識)できる。プロセッサ18は、音声認識処理として、入力された音声の特徴パターンに基づいて、ストレージ17または通信インタフェース14を介してアクセス可能なネットワーク上に記憶された音声認識辞書データから文字列を読み出す。文字列を読み出す際に、プロセッサ18は、音声認識辞書データと入力された音声の特徴パターンとを照合し、その類似度を判断する。
プロセッサ18は、マイク11に入力された音声を認識した場合に、認識した音声に応じて処理を実行できる。認識した音声に応じて実行される処理は、例えば音声の出力、電子機器1が有する機能の実行、電子機器1の設定の変更、インターネット検索の実行、電子機器1に記憶されたアプリケーションの起動、および電子機器1に記憶されたアプリケーションが有する機能の実行を含む。なお、所定の処理を実行させる音声は、音声コマンドともいう。そして、所定の処理を実行させる音声コマンドに対して、音声コマンドの入力を受け付ける契機となる音声は、音声トリガーと呼ばれる。プロセッサ18は、音声トリガーがマイク11に入力された場合に音声コマンドの入力を受付けることができる。
一実施形態において、プロセッサ18は、音声コマンドを認識した場合に、電子機器1の状態に応じて異なる処理を実行してもよい。例えば、プロセッサ18は、音声コマンドを認識したときに、電子機器1の設定に応じて異なる処理を実行してもよい。設定は、ユーザによって変更可能な設定であってもよい。設定は、音声の出力先を変更する設定を含まなくてもよい。音声の出力先を変更することとは、例えば、音声の出力先を、電子機器1のスピーカ12から外部のスピーカに変更することである。また例えば、プロセッサ18は、音声コマンドを認識したときに、電子機器1が実行している処理に応じて異なる処理を実行してもよい。このとき、電子機器1が実行している処理とは、プロセッサ18がマイク11に入力された音声を認識する前から後にかけて継続的に実行されている処理であってもよい。また例えば、プロセッサ18は、音声コマンドを認識したときに、音声コマンドを認識したタイミングから所定時間前までの間にユーザによって電子機器1になされた操作に応じて異なる処理を実行してもよい。また例えば、プロセッサ18は、音声コマンドを認識したときに、状態センサ15が取得した取得結果に応じて異なる処理を実行してもよい。また例えば、プロセッサ18は、音声コマンドを認識したときに、測位センサ16が取得した取得結果に応じて異なる処理を実行してもよい。
なお、プロセッサ18は、認識した音声が、所定の音声コマンドである場合、電子機器1の状態に関わらず同一の処理を実行してもよい。
他の実施形態において、プロセッサ18は、電子機器1の状態に応じて、音声入力を待ち受けない第1モードと、音声入力を待ち受ける第2モードとを切り替えてもよい。例えば、プロセッサ18は、電子機器1の設定、または電子機器1が実行している処理に応じて、電子機器1を、音声入力を待ち受けない第1モードに設定してもよい。このとき、プロセッセは、状態センサ15が取得した取得結果、または測位センサ16が取得した取得結果に応じて、電子機器1を、音声入力を待ち受ける第2モードに変更してもよい。
他の実施形態において、プロセッサ18は、電子機器1が所定条件を満たしたと判定すると、ユーザに音声入力を促す情報を電子機器1に出力させてもよい。例えば、プロセッサ18は、電子機器1の設定に応じてユーザに音声入力を促す情報を電子機器1に出力させてもよい。また例えば、プロセッサ18は、電子機器1が実行している処理に応じてユーザに音声入力を促す情報を電子機器1に出力させてもよい。また例えば、プロセッサ18は、一定時間内にユーザによって電子機器1になされた操作に応じてユーザに音声入力を促す情報を電子機器1に出力させてもよい。また例えば、プロセッサ18は、状態センサ15が取得した取得結果に応じてユーザに音声入力を促す情報を電子機器1に出力させてもよい。また例えば、プロセッサ18は、測位センサ16が取得した取得結果に応じてユーザに音声入力を促す情報を電子機器1に出力させてもよい。
図3Aおよび図3Bを参照して、一実施形態に係る電子機器1の動作について説明する。図3Aおよび図3Bは、音声入力に応じて実行される電子機器1の動作の一例を示す図である。
上述したように、プロセッサ18は、マイク11に入力された音声に基づき音声コマンドを認識した場合に、電子機器1の状態に応じて異なる処理を実行できる。より具体的には、プロセッサ18は、マイク11に入力された音声に基づき音声コマンドを認識したときに、電子機器1が所定状態であるか否かを判定し、電子機器1が所定状態であると判定した場合、認識した音声コマンドに応じた第1処理を実行してもよい。また、プロセッサ18は、電子機器1が所定状態でないと判定した場合、認識した音声コマンドに応じた第2処理を実行してもよい。
図3Aに示すように、ステップS31において、電子機器1のディスプレイ13aには、「マナーモードに設定されています」という文字列が表示される。この表示は、電子機器1はマナーモードに設定されていることを示す。
ステップS32において、ユーザは、「明日の天気は?」という音声を発する。ユーザが、「明日の天気は?」という音声を発すると、当該音声がマイク11に入力される。
ステップS33において、電子機器1は、マイク11に入力された音声に基づき「明日の天気は?」という音声コマンドを認識する。これにより、電子機器1のディスプレイ13aには、明日の天気に関する文字列およびオブジェクトを含む画像が表示される。具体的には、ディスプレイ13aには、「明日(2018/○/×)の天気予報」および「晴れ」という文字列、並びに太陽を模した晴れを示すオブジェクトが表示される。
図3Bに示すように、ステップS41において、電子機器1のディスプレイ13aには、「マナーモードに設定されていません」という文字列が表示される。この表示は、電子機器1はマナーモードに設定されていないことを示す。
ステップS42において、ユーザは、「明日の天気は?」という音声を発する。ユーザが、「明日の天気は?」という音声を発すると、当該音声がマイク11に入力される。
ステップS34において、電子機器1は、マイク11に入力された音声に基づき「明日の天気は?」という音声コマンドを認識する。これにより、電子機器1のスピーカ12からは、「明日の天気は晴れです」という音声が出力される。
このように、電子機器1は、マナーモードに設定されている場合、マイク11に入力された音声に基づき音声コマンドを認識したときに、認識した音声コマンドの内容に応じてディスプレイ13aに画像を表示させることができる。マナーモードに設定されている状態は、所定状態の一例である。ディスプレイ13aに画像を表示させる処理は、第1処理の一例である。なおこのとき、電子機器1は、ディスプレイ13aに画像を表示させるのみで、スピーカ12に音声を出力させなくてもよい。一方、電子機器1は、電子機器1がマナーモードに設定されていない場合、マイク11に入力された音声に基づき音声コマンドを認識したときに、認識した音声コマンドの内容に応じてスピーカ12に音声を出力させることができる。スピーカ12に音声を出力させる処理は、第2処理の一例である。なおこのとき、電子機器1は、スピーカ12に音声を出力させるとともに、ディスプレイ13aに画像を表示させてもよい。
所定状態の例はマナーモードに設定されている状態に限られない。ここで、電子機器1は、状態センサ15が検出した検出結果に基づいてユーザの移動状態が第1移動状態であると判定した場合、マイク11に入力された音声に基づき音声コマンドを認識したときに、認識した音声コマンドの内容に応じてディスプレイ13aに画像を表示させてもよい。一方、電子機器1は、ユーザの移動状態が第1移動状態でないと判定した場合、または、ユーザの移動状態が第2移動状態であると判定した場合、マイク11に入力された音声に基づき音声コマンドを認識したときに、認識した音声コマンドの内容に応じてスピーカ12に音声を出力させてもよい。第1移動状態はユーザが電車に乗っている状態を含む。第2移動状態はユーザが歩行している状態、走行している状態、自動車に乗っている状態を含む。第1移動状態は、所定状態の一例である。
なお、電子機器1は、マナーモードに設定されていても、ユーザの移動状態が第2移動状態であると判定した場合、マイク11に入力された音声に基づき音声コマンドを認識したとき、認識した音声コマンドの内容に応じてスピーカ12に音声を出力させてもよい。
他の実施形態において、電子機器1は、マナーモードに設定されていても、測位センサ16が取得した位置情報が登録された位置情報(例えば、ユーザの自宅)であると判定した場合、マイク11に入力された音声に基づき音声コマンドを認識したとき、認識した音声コマンドの内容に応じてスピーカ12に音声を出力させてもよい。
他の実施形態において、電子機器1は、マナーモードに設定されていても、無線通信インタフェースを介して所定の外部機器と接続した場合、マイク11に入力された音声に基づき音声コマンドを認識したとき、認識した音声コマンドの内容に応じてスピーカ12に音声を出力させてもよい。所定の外部機器は、無線LAN装置を含む。無線LAN装置は、ユーザの自宅に設置される装置であってもよい。所定の外部装置は、Bluetooth(登録商標)装置を含む。Bluetooth(登録商標)装置は、釣り向けの装置(例えば、魚群探知機または当たりセンサなど)であってもよい。
他の実施形態において、電子機器1は、マナーモードに設定されていても、状態センサ15の検出結果に基づいて、マイク11がポケットの上側に近い状態で電子機器1がユーザの着用するシャツの胸ポケットに収納されていると判定した場合に、認識した音声コマンドの内容に応じてスピーカ12に音声を出力させてもよい。すなわち、電子機器1は、音声コマンドに対して第1処理を実行させる所定の設定がなされていても、状態センサ15の検出結果に応じて、認識した音声コマンドに対して第2処理を実行してもよい。また他の実施形態において、電子機器1は、マナーモードに設定されていても、ユーザの移動状態が第2状態であり、かつマイク11がポケットの上側に近い状態で電子機器1がユーザの着用するシャツの胸ポケットに収納されていると判定した場合に、認識した音声コマンドの内容に応じてスピーカ12に音声を出力させてもよい。
図4を参照して、一実施形態に係る電子機器1の動作について説明する。図4は、音声入力に応じて実行される動作の他の例を示す図である。
上述したように、プロセッサ18は、認識した音声が所定の音声コマンドである場合、電子機器1の状態に関わらず同一の処理を実行できる。より具体的には、プロセッサ18は、認識した音声が第1音声コマンドである場合、電子機器1の状態に関わらず第2処理を実行してもよい。
図4に示すように、電子機器1のユーザは、「スマホはどこ?」という音声を発する。電子機器1のユーザが、「スマホはどこ?」という音声を発すると、マイク11に、当該音声が入力される。電子機器1は、マイク11に入力された音声に基づき、「スマホはどこ?」という音声コマンドを認識する。これにより、電子機器1のスピーカ12からは、電子機器1の状態に関わらず音声が出力される。音声は言語で出力されてもよいし、機械音で出力されてもよい。
このように、電子機器1は、認識した音声が、電子機器1の位置を問う音声である場合、電子機器1の状態に関わらずスピーカ12に音声を出力させることができる。電子機器1の位置を問う音声は、第1音声コマンドの一例である。スピーカ12に音声を出力させる処理は、第2処理の一例である。
図5を参照して、一実施形態に係る電子機器1の動作について説明する。図5は、電子機器1の状態に応じて実行される処理の動作の他の例を示す図である。
上述したように、プロセッサ18は、電子機器1の状態に応じて、音声入力を待ち受けない第1モードと、音声入力を待ち受ける第2モードとを切り替えることができる。より具体的には、プロセッサ18は、電子機器1が第1状態であるか否かを判定し、電子機器1が第1状態であると判定した場合、電子機器1を、音声入力を待ち受けない第1モードに設定してもよい。その後、プロセッサ18は、電子機器1が第2状態であるか否かを判定し、電子機器1が第2状態であると判定した場合、電子機器1を、音声入力を待ち受ける第2モードに設定してもよい。
ステップS61において、電子機器1は通話処理を実行している。通話処理が実行されている場合、電子機器1は、音声入力を待ち受けない第1モードに設定される。ここで、ユーザは、「もしもし」という音声を発する。ユーザが、「もしもし」という音声を発すると、当該音声がマイク11に入力される。このとき、「もしもし」という音声は音声コマンドとしては認識されず、通話音声として認識される。なお、「ばいばい」などの特定の音声のみ、通話音声として認識されると同時に、通話処理を終了するための音声コマンドとして認識されてもよい。
ステップS62において、ユーザは、電子機器1を自身の耳から遠ざけている。このとき、電子機器1は、状態センサ15の検出結果に基づいて、電気機器に物体が近接した状態から、近接していない状態になったと判定する。電子機器1に物体が近接していないと判定された場合、通話処理が継続していても、電子機器1は、音声入力を待ち受ける第2モードに設定される。ここで、ユーザは、「明日のスケジュールを教えて」という音声を発する。ユーザが、「明日のスケジュールを教えて」という音声を発すると、当該音声がマイク11に入力される。
ステップS63において、電子機器1は、マイク11に入力された音声に基づき、「明日のスケジュールを教えて」という音声コマンドを認識する。これにより、電子機器1のディスプレイ13aには、ユーザ入力などによって電子機器1またはユーザのアカウントなどに設定された明日のスケジュールが表示される。
このように、電子機器1は、通話処理を実行している場合、音声入力を待ち受けない第1モードに設定される。また、電子機器1に物体が近接していないと判定された場合、通話処理が継続していても、電子機器1は、音声入力を待ち受ける第2モードに設定される。電子機器1が通話処理を実行している状態は、第1状態の一例である。通話中に電子機器1に物体が近接していない状態は、第2状態の一例である。なお、電子機器1は、電子機器1に物体が近接していないと判定され、かつ通話処理がスピーカモードで行われていないと判定された場合にのみ、通話処理が継続していても、音声入力を待ち受ける第2モードに設定されてもよい。
図6および図7を参照して、一実施形態に係る電子機器1の動作について説明する。図6および図7は、電子機器1の状態に応じて実行される処理の動作の他の例を示す図である。
上述したように、プロセッサ18は、電子機器1が所定条件を満たしたと判定すると、ユーザに音声入力を促す情報を電子機器1に出力させることができる。
図6に示すように、ステップS71において、ユーザは歩行している。このときユーザは、電子機器1を携帯している。電子機器1は、状態センサ15の検出結果に基づいて、ユーザが歩行している状態であると判定する。
ステップS72において、ユーザは転倒している。このとき、電子機器1は、状態センサ15の検出結果に基づいて、ユーザが転倒したと判定する。
ステップS73において、電子機器1のスピーカ12からは、「転倒しましたか?119番に電話して救助を要請しますか?」という音声が出力される。
このように、電子機器1は、状態センサ15が取得した取得結果に基づいて電子機器1のユーザが転倒したと判定した場合に、ユーザに音声入力を促す情報をスピーカ12に出力させることができる。ユーザが転倒することは所定条件を満たすことの一例である。ユーザに音声入力を促す情報は、例えば、所定処理を実行するか否かを問う質問を含む。所定処理は、所定の電話番号に発信する処理を含む。電子機器1は、質問を前記出力部に出力させた後、質問に対する応答の音声入力を受け付けてもよい。電子機器1は、質問に対して、所定処理を実行する旨の応答がマイク11に入力されると、所定処理を実行する。所定処理を実行する旨の応答は、音声コマンドの1つである。なお、プロセッサ18は、所定条件が満たされたと判定した場合、前記音声トリガーが入力されたか否かに関わらず音声コマンドの入力を受け付けてもよい。
図7に示すように、ステップS81において、電子機器1のディスプレイ13aには連絡先リストが表示されている。連絡先リストは、所定のアプリケーションが実行されることなどにより、ディスプレイ13aに表示され得る。ユーザは、連絡先リストが表示されている画面に対してスワイプ操作を行うことで、ディスプレイ13aの表示画面をスクロールさせている。
ステップS81において、電子機器1のディスプレイ13aには、「名前を音声入力してください。連絡先を検索できます。」という文字が表示される。
このように、電子機器1は、所定のアプリケーションを実行中、一定時間内に表示画面が所定距離または所定回数スクロールされた場合に、ユーザに音声入力を促す情報を電子機器1に出力させてもよい。または、電子機器1は、所定のユーザ操作が一定時間内に所定回数以上行われたと判定した場合に、ユーザに音声入力を促す情報を電子機器1に出力させてもよい。所定のユーザ操作とは、例えばスワイプ操作である。所定のアプリケーションを実行中において、一定時間内に表示画面が所定距離スクロールされること、一定時間内に表示画面が所定回数スクロールされること、および、一定時間内にタッチパネル13に対して所定のユーザ操作が所定回数以上行われることは、所定条件を満たすことの一例である。なお、ユーザに音声入力を促す情報は、例えば、音声入力が可能であることを示唆する内容、認識可能な音声コマンド、認識可能な音声コマンドの内容を示唆する内容、または当該音声コマンドによって実行される所定処理の内容などを含む。なお、プロセッサ18は、所定条件が満たされたと判定した場合、前記音声トリガーが入力されたか否かに関わらず音声コマンドの入力を受け付けてもよい。ここで、前記音声トリガーが入力されたか否かに関わらず入力を受け付ける音声コマンドとは、スピーカ12に出力されたか、またはディスプレイ13aに表示された音声コマンドであってもよい。プロセッサ18は、音声コマンドがマイク11に入力されると、音声コマンドによって実行される所定処理を実行する。所定処理は、所定のリストから1の要素を選択する処理を含む。
所定条件を満たすことの例は、電子機器1のユーザが転倒したと判定されたこと、および所定のユーザ操作が一定時間内に所定回数以上行われたと判定されたことに限られない。例えば、電子機器1は、電話着信があった場合に、ユーザに音声入力を促す情報を電子機器1に出力させてもよい。このとき、ユーザに音声入力を促す情報は、例えば「Aさんから着信です。電話を受けますか?」という音声である。また例えば、電子機器1は、メールを受信した場合に、ユーザに音声入力を促す情報を電子機器1に出力させてもよい。このとき、ユーザに音声入力を促す情報は、例えば「メールを受信しました。内容を読み上げますか?」という音声である。
また例えば、電子機器1は、運転中に利用することが想定されたナビゲーションアプリ、または料理中に使用することが想定されたレシピ閲覧用アプリなどの所定のアプリケーションが起動した、もしくは起動している場合に、ユーザに音声入力を促す情報を出力してもよい。このとき、ユーザに音声入力を促す情報は、例えば「目的地を音声入力してください」または「レシピ閲覧中は音声トリガー無しで音声入力可能です」などという音声である。
図8を参照して、一実施形態に係る電子機器1の制御について説明する。図8は、電子機器1の状態に応じて実行される制御の一例を示すフローチャートである。
ステップS101:プロセッサ18は、マイク11に音声が入力されたか否かを判定する。マイク11に音声が入力されたと判定された場合(ステップS101でYes)、プロセッサ18は処理をステップS102に進める。マイク11に音声が入力されていないと判定された場合、(ステップS101でNo)、プロセッサ18はステップS101の処理を繰り返す。
ステップS102:プロセッサ18は、マイク11に入力された音声を認識する。
ステップS103:プロセッサ18は、認識した音声が第1音声コマンドか否かを判定する。認識した音声が第1音声コマンドであると判定された場合(ステップS103でYes)、プロセッサ18は処理をステップS106に進める。認識した音声が第1音声コマンドでないと判定された場合(ステップS103でNo)、プロセッサ18は処理をステップS104に進める。
ステップS104:プロセッサ18は、電子機器1が所定状態か否かを判定する。電子機器1が所定状態であると判定されると(ステップS104でYes)、プロセッサ18は処理をステップS105に進める。電子機器1が所定状態でないと判定されると(ステップS104でNo)、プロセッサ18は処理をステップS107に進める。
ステップS105:プロセッサ18は、電子機器1に第1処理を実行し、処理を終了する。
ステップS106:プロセッサ18は、電子機器1に第2処理を実行し、処理を終了する。
ステップS107:プロセッサ18は、認識した音声が第2音声コマンドか否かを判定する。認識した音声が第2音声コマンドであると判定された場合(ステップS107でYes)、プロセッサ18は処理をステップS105に進める。認識した音声が第2音声コマンドでないと判定された場合(ステップS103でNo)、プロセッサ18は処理をステップS106に進める。
上述したように、所定状態は、電子機器1がマナーモードに設定されている状態、および電子機器1の移動状態が電車である状態を含む。第1音声コマンドは、電子機器1の位置を問う音声を含む。第1処理は、ディスプレイ13aに画像を表示させる処理を含む。第2処理は、スピーカ12に音声を出力させる処理を含む。
なお、図8に示すように、一実施形態において、プロセッサ18は、電子機器1が所定状態でないと判定した場合でも、認識した音声が第2音声コマンドである場合は、第1処理を実行してもよい。また、プロセッサ18は、電子機器1が所定状態でないと判定し、かつ前記認識した音声が第2音声コマンドでない場合には、第2処理を実行してもよい。第2音声コマンドは、例えばアプリを起動させるコマンド、または電話を発信させるコマンドなど、実行される処理が音声出力を必要としないものを含む。言い換えると、第2音声コマンドは、文字列の出力を要求しないものを含む。なお、電子機器1の設定において音声コマンドに応じた処理の出力方法が設定されている場合はこの限りではない。例えば電子機器1は、音声コマンドに応じた処理を画面表示のみに設定することができる。この場合、プロセッサ18が、電子機器1が所定状態ではないと判定し、かつ認識した音声コマンドが第1音声コマンドとも第2音声コマンドとも異なる音声コマンドであったとしても、第1処理を実行してもよい。なお、図3Aおよび図3Bで例示した「明日の天気は?」という音声コマンドは、機器が所定状態でない場合にスピーカ12に音声を出力させる音声コマンド、すなわち第2音声コマンドとは異なる音声コマンドであるとして説明した。しかしながら、当該音声コマンドは第2音声コマンドにもなり得ることに留意されたい。
上述した実施形態にかかる電子機器1によれば、状況に応じて、音声コマンドに対して画像表示と音声出力が適切に実行されるため、ユーザは、周囲の状況に留意することなく音声認識機能を利用できる。また、特定の音声コマンドをついては、対応する処理が固定されるため、ユーザの意図と異なる処理が実行される可能性を軽減できる。ひいては、音声認識技術の利便性が向上する。
図9を参照して、一実施形態に係る電子機器1の制御について説明する。図9は、電子機器1の状態に応じて実行される制御の一例を示すフローチャートである。
ステップS201:プロセッサ18は、電子機器1が第1状態か否かを判定する。電子機器1が第1状態であると判定されると(ステップS201でYes)、プロセッサ18は処理をステップS202に進める。電子機器1が第21状態でないと判定されると(ステップS201でNo)、プロセッサ18は、ステップS201の処理を繰り返す。
ステップS202:プロセッサ18は、電子機器1に、音声入力を待ち受けない第1モードを実行させる。
ステップS203:プロセッサ18は、電子機器1が第2状態か否かを判定する。電子機器1が第2状態であると判定されると(ステップS203でYes)、プロセッサ18は処理をステップS204に進める。電子機器1が第2状態でないと判定されると(ステップS203でNo)、プロセッサ18は、ステップS201の処理を繰り返す。
ステップS204:プロセッサ18は、電子機器1に、音声入力を待ち受ける第2モードを実行させる。
上述したように、第1状態は、通話状態を含む。第2状態は、通話中に電子機器1が物体(例えばユーザの顔)から離れている状態を含む。
上述した実施形態にかかる電子機器1によれば、通常音声コマンドの入力が制限される場合においても、ユーザの意図に応じて音声コマンドの入力が可能になる。ひいては、音声認識技術の利便性が向上する。
図10を参照して、一実施形態に係る電子機器1の制御について説明する。図10は、電子機器1の状態に応じて実行される制御の他の例を示すフローチャートである。
ステップS301:プロセッサ18は、電子機器1が所定条件を満たすか否かを判定する。電子機器1が所定条件を満たすと判定されると(ステップS301でYes)、プロセッサ18は処理をステップS302に進める。電子機器1が所定条件を満たさないと判定されると(ステップS301でNo)、ステップS301の処理を繰り返す。
ステップS302:プロセッサ18は、電子機器1にユーザに音声入力を促す情報を出力させる。
ステップS303:プロセッサ18は、電子機器1がユーザに音声入力を促す情報を出力してから一定時間の間に、マイク11に音声コマンドが入力されたか否かを判定する。マイク11に音声コマンドが入力されたと判定されると(ステップS303でYes)、プロセッサ18は、処理をステップS304に進める。マイク11に音声コマンドが入力されていないと判定すると(ステップS303でNo)、処理を終了する。なおステップS303において、プロセッサ18は、音声トリガーの入力を要求しなくてもよい。
ステップS304:プロセッサ18は、マイク11に入力された音声コマンドに応じた処理を実行する。
上述したように、所定条件を満たすことは、ユーザが転倒したと判定されること、および所定のアプリケーションを実行中、一定時間内に表示画面が所定距離または所定回数スクロールされること(または、スワイプ操作が所定回数以上行われたと判定されること)、電話着信があったこと、メールを受信したことを、所定のアプリケーションが起動した、もしくは起動していることを含む。ユーザに音声入力を促す情報は、音声入力が可能であることを示唆する内容、認識可能な音声コマンド、認識可能な音声コマンドの内容を示唆する内容、または当該音声コマンドによって実行される所定処理の内容などを含む。
なお、ユーザに音声入力を促す情報が出力されるタイミングは、所定条件を満たすと判定されてから一定時間内でもよいが、これに限られない。例えば、プロセッサは、所定条件が満たされたと判定すると、電子機器1のモードを着信時に音声で受話を開始できるモード(第3モード)に変更し、実際に着信があった場合に、音声で受話を開始できることを示唆する内容の情報を電子機器1に出力させてもよい。このとき、所定条件を満たすこととは、状態センサ15の検出結果に基づきユーザが自動車を運転している状態であると判定すること、測位センサ16が取得した位置情報に基づいてユーザが自宅にいると判定すること、状態センサ15の検出結果に基づき、マイク11がポケットの上側に近い状態で電子機器1がユーザの着用するシャツの胸ポケットに収納されていると判定することなどを含む。加えて、第3モードにおいては、着信時の着信音やバイブレータの振動パターンを変更してもよい。着信音または振動パターンを変更することとは、例えば、着信中に着信音または振動が停止する時間を長くすることである。かかる構成によれば、通常、着信音の鳴動中またはバイブレータの振動中は音声コマンドが認識されにくいところ、音声コマンドが認識される可能性を高めることができる。また、第3モードにおいては、通話をスピーカモードで開始するようにしてもよい。
上述した実施形態にかかる電子機器1によれば、ユーザは、音声認識機能を利用できる場面を容易に認知することができる。また、ユーザは、通常よりも容易に音声コマンドを入力することができる。ひいては、音声認識技術の利便性が向上する。
他の実施形態において、プロセッサ18は、電子機器1が所定条件を満たすと判定した場合、電子機器1にユーザに音声入力を促す情報を出力させるとともに、マイク11の感度を上げてもよい。
他の実施形態において、プロセッサ18は、電子機器1が所定の条件を満たすと判定した場合、ディスプレイ13aに表示させる情報の量を一時的に制限したり、使用可能なアプリケーションの数を制限したりしてもよい。
他の実施形態において、電子機器1は、ディスプレイに表示される画像が電子機器1の短手方向(左右方向)を上下方向として表示(すなわち、横画面モード)されており、かつ所定のアプリケーションが起動した、もしくは起動している場合に、ユーザに音声入力を促す情報を出力してもよい。
電子機器1は折りたたみ式の機器であってもよい。折りたたみ式の機器は、フィーチャーフォンを含む。プロセッサ18は、電子機器1が閉状態および開状態のどちらかを判定できる。ここでプロセッサ18は、電子機器1が閉状態であり、かつ所定条件が満たされたと判定した場合に、電子機器1にユーザに音声入力を促す情報を出力させてもよい。
実施形態では特に触れていないが、電子機器1が行う各処理をコンピュータに実行させるプログラムが提供されてもよい。また、プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにプログラムをインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROMやDVD-ROM等の記録媒体であってもよい。
あるいは、電子機器1が行う各処理を実行するためのプログラムを記憶するメモリおよびメモリに記憶されたプログラムを実行するプロセッサによって構成されるチップが提供されてもよい。
以上、本発明を図面や実施形態に基づき説明してきたが、本発明は図面や上位実施形態に限定されるべきではないことに注意されたい。当業者であれば本開示に基づき種々の変形や修正を行うことが容易であり、したがって、これらの変形や修正は本発明の範囲に含まれる。例えば、各手段、各ステップ、またそれらに含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段、ステップ、または機能等を1つに組み合わせたり、分割したりすることができる。
1 電子機器
11 マイク
12 スピーカ
13 タッチパネル
13a ディスプレイ
13b タッチセンサ
14 通信インタフェース
15 状態センサ
16 測位センサ
17 ストレージ
17a プログラム
17b データ
18 プロセッサ

Claims (13)

  1. 音声を入力するマイクと、前記マイクに入力された前記音声を認識するプロセッサとを備えた電子機器であって
    前記プロセッサは、
    通話処理を実行中でないことを条件に、前記マイクに入力された前記音声に基づき音声コマンドを認識したときに、前記電子機器が所定状態であるか否かを判定し、
    前記電子機器が前記所定状態であると判定した場合、前記音声コマンドに応じて前記スピーカに音声を出力させずに前記ディスプレイに画像を表示させる処理を含む第1処理を実行し、
    前記電子機器が前記所定状態でないと判定した場合、前記音声コマンドに応じて前記スピーカに音声を出力させる処理を含む第2処理を実行し、
    通話処理を実行中であっても物体の近接が検知されない場合に前記音声コマンドを認識すると、前記第1処理を実行する
    電子機器。
  2. 請求項1に記載の電子機器であって、
    前記音声コマンドは第1音声コマンドを含み、
    前記プロセッサは、前記認識した音声コマンドが前記第1音声コマンドである場合、前記電子機器の状態にかかわらず、前記第2処理を実行する
    電子機器。
  3. 請求項2に記載の電子機器であって、
    前記音声コマンドはさらに第2音声コマンドを含み、
    前記プロセッサは、前記電子機器が前記所定状態でないと判定した場合でも、前記認識した音声が前記第2音声コマンドである場合は、前記第1処理を実行する
    電子機器。
  4. 請求項3に記載の電子機器であって、
    前記プロセッサは、前記電子機器が前記所定状態でないと判定し、かつ前記音声が前記第2音声コマンドでない場合に、前記第2処理を実行する
    電子機器。
  5. 請求項に記載の電子機器であって、
    前記第1処理は、前記ディスプレイに画像を表示させかつ前記スピーカに音声を出力させない処理を含む
    電子機器。
  6. 請求項1からのいずれか一項に記載の電子機器であって、
    前記所定状態は、前記電子機器がマナーモードである状態を含む
    電子機器。
  7. 請求項からのいずれか一項に記載の電子機器であって、
    前記第1音声コマンドは、前記電子機器の位置を問う音声を含む
    電子機器。
  8. 請求項3又は4に記載の電子機器であって、
    前記第2音声コマンドは、前記電子機器に文字列の出力を要求しない
    電子機器。
  9. 請求項に記載の電子機器であって、
    前記電子機器の動きを検出する状態センサをさらに備え、
    前記プロセッサは、
    前記状態センサの検出結果に基づいて前記電子機器を携帯しているユーザの移動状態を判定し、
    前記電子機器がマナーモードであると判定しても、ユーザの移動状態が所定の条件を満たすと判定した場合、前記音声コマンドを認識したときに、前記音声コマンドに応じた前記第2処理を実行する
    電子機器。
  10. 請求項に記載の電子機器であって、
    前記電子機器の位置情報を取得する測位センサをさらに備え、
    前記プロセッサは、
    前記電子機器がマナーモードであると判定しても、前記測位センサの取得結果に基づき、前記電子機器の位置が所定の条件を満たすと判定した場合、前記音声コマンドを認識したときに、前記音声コマンドに応じた前記第2処理を実行する
    電子機器。
  11. 請求項1から10のいずれか一項に記載の電子機器であって、
    前記所定状態は、音声出力先の設定に関する前記電子機器の状態を含まない
    電子機器。
  12. 音声を入力するマイクを備える電子機器の制御方法であって、
    通話処理を実行中でないことを条件に、前記マイクに入力された前記音声に基づき音声コマンドを認識したときに、前記電子機器が所定状態であるか否かを判定し、
    前記電子機器が前記所定状態であると判定した場合、前記音声コマンドに応じて前記スピーカに音声を出力させずに前記ディスプレイに画像を表示させる処理を含む第1処理を実行し、
    前記電子機器が前記所定状態でないと判定した場合、前記音声コマンドに応じて前記スピーカに音声を出力させる処理を含む第2処理を実行し、
    通話処理を実行中であっても物体の近接が検知されない場合に前記音声コマンドを認識すると、前記第1処理を実行する
    制御方法。
  13. 音声を入力するマイクを備える電子機器で用いられるプログラムであって、
    通話処理を実行中でないことを条件に、前記マイクに入力された前記音声に基づき音声コマンドが認識されたときに、前記電子機器が所定状態であるか否かを判定させ、
    前記電子機器が前記所定状態であると判定された場合、前記音声コマンドに応じて前記スピーカに音声を出力させずに前記ディスプレイに画像を表示させる処理を含む第1処理を実行させ、
    前記電子機器が前記所定状態でないと判定された場合、前記音声コマンドに応じて前記スピーカに音声を出力させる処理を含む第2処理を実行させ
    通話処理を実行中であっても物体の近接が検知されない場合に前記音声コマンドを認識すると、前記第1処理を実行させる
    プログラム。
JP2018158309A 2018-08-27 2018-08-27 音声認識機能を有する電子機器、その電子機器の制御方法およびプログラム Active JP7055722B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018158309A JP7055722B2 (ja) 2018-08-27 2018-08-27 音声認識機能を有する電子機器、その電子機器の制御方法およびプログラム
US16/551,342 US11227595B2 (en) 2018-08-27 2019-08-26 Electronic device with speech recognition function, control method of electronic device with speech recognition function, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018158309A JP7055722B2 (ja) 2018-08-27 2018-08-27 音声認識機能を有する電子機器、その電子機器の制御方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2020034988A JP2020034988A (ja) 2020-03-05
JP7055722B2 true JP7055722B2 (ja) 2022-04-18

Family

ID=69583592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018158309A Active JP7055722B2 (ja) 2018-08-27 2018-08-27 音声認識機能を有する電子機器、その電子機器の制御方法およびプログラム

Country Status (2)

Country Link
US (1) US11227595B2 (ja)
JP (1) JP7055722B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019163503A1 (ja) * 2018-02-22 2019-08-29 京セラ株式会社 電子機器、制御方法およびプログラム
CN115171678A (zh) * 2022-06-01 2022-10-11 合众新能源汽车有限公司 语音识别方法、装置、电子设备、存储介质及产品
CN117707404A (zh) * 2023-05-31 2024-03-15 荣耀终端有限公司 场景处理方法、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003244314A (ja) 2002-02-19 2003-08-29 Ricoh Co Ltd 携帯移動電話装置
WO2011083571A1 (ja) 2010-01-06 2011-07-14 株式会社東芝 情報検索装置、情報検索方法、および情報検索プログラム
US20160011768A1 (en) 2014-07-09 2016-01-14 Lg Electronics Inc. Mobile terminal and method of controlling the same
WO2016157658A1 (ja) 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
US20170161319A1 (en) 2015-12-08 2017-06-08 Rovi Guides, Inc. Systems and methods for generating smart responses for natural language queries
WO2017095560A1 (en) 2015-12-01 2017-06-08 Qualcomm Incorporated Electronic device generating notification based on context data in response to speech phrase from user
JP2018093461A (ja) 2016-11-25 2018-06-14 京セラ株式会社 電子機器、制御装置、制御プログラム及び電子機器の動作方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006221270A (ja) 2005-02-08 2006-08-24 Nec Saitama Ltd 音声認識機能を備えた携帯端末装置のマルチタスクシステム及び方法
GB2533400A (en) * 2014-12-19 2016-06-22 Ibm Mobile phone call handling
KR20170086814A (ko) * 2016-01-19 2017-07-27 삼성전자주식회사 음성 인식 기능을 제공하는 전자 장치 및 그 동작 방법
KR102434104B1 (ko) * 2016-05-03 2022-08-19 엘지전자 주식회사 전자 장치 및 그 제어 방법
JP2018037819A (ja) * 2016-08-31 2018-03-08 京セラ株式会社 電子機器、制御方法及びプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003244314A (ja) 2002-02-19 2003-08-29 Ricoh Co Ltd 携帯移動電話装置
WO2011083571A1 (ja) 2010-01-06 2011-07-14 株式会社東芝 情報検索装置、情報検索方法、および情報検索プログラム
US20160011768A1 (en) 2014-07-09 2016-01-14 Lg Electronics Inc. Mobile terminal and method of controlling the same
WO2016157658A1 (ja) 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
WO2017095560A1 (en) 2015-12-01 2017-06-08 Qualcomm Incorporated Electronic device generating notification based on context data in response to speech phrase from user
US20170161319A1 (en) 2015-12-08 2017-06-08 Rovi Guides, Inc. Systems and methods for generating smart responses for natural language queries
JP2018093461A (ja) 2016-11-25 2018-06-14 京セラ株式会社 電子機器、制御装置、制御プログラム及び電子機器の動作方法

Also Published As

Publication number Publication date
US20200066272A1 (en) 2020-02-27
US11227595B2 (en) 2022-01-18
JP2020034988A (ja) 2020-03-05

Similar Documents

Publication Publication Date Title
JP7055721B2 (ja) 音声認識機能を有する電子機器、その電子機器の制御方法およびプログラム
JP6393021B2 (ja) 電子機器、制御方法、及び制御プログラム
US10379809B2 (en) Method for providing a voice-speech service and mobile terminal implementing the same
US9596340B2 (en) Mobile electronic device, control method, and computer program product
JP2018074366A (ja) 電子機器、制御方法およびプログラム
KR101718026B1 (ko) 사용자 인터페이스 제공 방법 및 이를 이용하는 이동 단말기
JP7055722B2 (ja) 音声認識機能を有する電子機器、その電子機器の制御方法およびプログラム
AU2013204564A1 (en) Method and apparatus for processing multiple inputs
US8620392B2 (en) Electronic device capable of continuing a telephone call when charging
CN111147660B (zh) 一种控件的操作方法及电子设备
KR101954774B1 (ko) 문자 데이터를 이용한 음성 통화를 제공하기 위한 전자 장치 및 방법
US10241601B2 (en) Mobile electronic device, control method, and non-transitory storage medium that stores control program
JP4056518B2 (ja) 携帯情報端末、その表示制御方法およびプログラム
KR20130111749A (ko) 더미 장치와의 연동 방법 및 그 전자 장치
US11086595B2 (en) Electronic device having character input function, and method of control thereof
JP6016134B2 (ja) 音声入力装置、音声入力方法及びプログラム
US20130222268A1 (en) Method and Apparatus Pertaining to Processing Incoming Calls
WO2015114898A1 (ja) 携帯電子機器、表示制御方法及び記憶媒体
US20160150355A1 (en) Method of controlling operation mode and electronic device therefor
CN110944056A (zh) 交互方法、移动终端及可读存储介质
JP6235175B1 (ja) 電子機器、プログラムおよび制御方法
JP2014103536A (ja) 携帯端末装置
JP2013156768A (ja) 入力インターフェース装置、電子機器、携帯端末機器、プログラムおよび記録媒体
JP2018110370A (ja) 電子機器、プログラムおよび制御方法
US20240078079A1 (en) Devices, Methods, and User Interfaces for Controlling Operation of Wireless Electronic Accessories

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20190204

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201012

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220406

R150 Certificate of patent or registration of utility model

Ref document number: 7055722

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150