JP2019066702A - 対話型電子装置制御システム、対話型電子装置、対話型電子装置制御方法 - Google Patents

対話型電子装置制御システム、対話型電子装置、対話型電子装置制御方法 Download PDF

Info

Publication number
JP2019066702A
JP2019066702A JP2017193057A JP2017193057A JP2019066702A JP 2019066702 A JP2019066702 A JP 2019066702A JP 2017193057 A JP2017193057 A JP 2017193057A JP 2017193057 A JP2017193057 A JP 2017193057A JP 2019066702 A JP2019066702 A JP 2019066702A
Authority
JP
Japan
Prior art keywords
electronic device
interactive electronic
portable terminal
voice
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017193057A
Other languages
English (en)
Inventor
玲子 嘉和知
Reiko Kawachi
玲子 嘉和知
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Visual Solutions Corp
Original Assignee
Toshiba Visual Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Visual Solutions Corp filed Critical Toshiba Visual Solutions Corp
Priority to JP2017193057A priority Critical patent/JP2019066702A/ja
Priority to US15/891,234 priority patent/US10748545B2/en
Priority to CN201811075845.1A priority patent/CN109599100B/zh
Publication of JP2019066702A publication Critical patent/JP2019066702A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2816Controlling appliance services of a home automation network by calling their functionalities
    • H04L12/282Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/06Authentication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/80Services using short range communication, e.g. near-field communication [NFC], radio-frequency identification [RFID] or low energy communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W76/00Connection management
    • H04W76/10Connection setup
    • H04W76/14Direct-mode setup
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L2012/284Home automation networks characterised by the type of medium used
    • H04L2012/2841Wireless

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Automation & Control Theory (AREA)
  • Computer Hardware Design (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephonic Communication Services (AREA)
  • Selective Calling Equipment (AREA)

Abstract

【課題】ユーザが直接装置と対話し、対話の内容に基づき動作する対話型電子装置を提供する。【解決手段】対話型電子装置制御システムは、入力された音声データを、音声認識サービスサーバ102に送信し、前記音声データを音声認識サービスサーバで音声認識した結果に基づき生成した応答を受信する対話型電子装置110と、ネットワークを介して接続する携帯端末140が正当な利用者であることを認証する認証管理部103とを備える。対話型電子装置は、外部から入力された第1の音声データを音声認識するために音声認識サービスサーバに送信すると共に、認証管理部で正当な利用者であることが認証された携帯端末からネットワーク106を介して入力された第2の音声データを音声認識するために音声認識サービスサーバに送信する。【選択図】図1A

Description

本実施形態は、対話型電子装置制御システム、対話型電子装置、対話型電子装置制御方法に関するものである。
ユーザが発した音声を例えばマイクで収集し、収集した音声を音声認識処理により解析して受信した内容を判別する対話型電子装置がある。この装置は、判別した内容をもとに、例えばユーザが所望する音楽を提供できるようにオーディオ再生機器を制御したり、例えばユーザが所望する映像コンテンツを提供できるように映像再生機器を制御したりすることができる。
特表2016−519805号公報
対話型電子装置は、ユーザが直接対面して該対話型電子装置と対話をすることで、その対話の内容をもとに動作することができる。
例えばホテルの受付に配置される対話型電子装置は、来客を受け付けて、来客が予約している部屋の番号やホテルのサービス等を音声によりガイドすることもある。
また家庭内に設定されている対話型電子装置は、各種の家庭内電子装置(エアコンディショナー、照明など)の制御(オンオフ、設定調整等)や自走式掃除機の制御などに対する要望が高まりつつある。今後は工業分野や一般の人の日常社会の分野においても、対話型電子装置を利用したシステムの普及が大いに期待できる。
そこで本実施形態では、音声認識処理技術を利用する対話型電子装置に、携帯端末を関連つけることができ、利用範囲及び利便性を大きく拡大できる対話型電子装置制御システム、対話型電子装置、対話型電子装置制御方法を提供することを目的とする。
本実施形態の対話型電子装置制御システムは、
入力された音声データを、音声認識サービスサーバに送信し、前記音声データを前記音声認識サービスサーバで音声認識した結果に基づき生成した応答を受信する対話型電子装置と、ネットワークを介して接続する携帯端末が正当な利用者であることを認証する認証管理部とを備える対話型電子装置制御システムであって、前記対話型電子装置は、外部から入力された第1の音声データを音声認識するために前記音声認識サービスサーバに送信すると共に、前記認証管理部で正当な利用者であることが認証された前記携帯端末からネットワークを介して入力された第2の音声データを音声認識するために前記音声認識サービスサーバに送信することが可能な、対話型電子装置制御システムである。
図1Aは、本実施形態が適用された対話型電子装置制御システムの概要を示す図である。 図1Bは、本実施形態が適用された対話型電子装置制御システムの対話型電子装置の制御部が管理する保存エリアの一例を示す図である。 図2Aは、本実施形態が適用された対話型電子装置制御システムにアクセスする携帯端末を登録する場合の、対話型電子装置の初期設定を行う携帯端末Aの、画面遷移を示す図である。 図2Bは、本実施形態が適用された対話型電子装置制御システムにアクセスする携帯端末を登録する場合の、対話型電子装置制御システムにアクセスする携帯端末の画面遷移を示す図である。 図3Aは、携帯端末のユーザが、携帯端末のマイクに発話して、マイクが収集した音声データを対話型電子装置制御システムで処理する場合の処理フローである。 図3Bは、携帯端末のユーザが、携帯端末のマイクに発話して、マイクが収集した音声データを対話型電子装置制御システムで処理する場合の処理フローである。 図3Cは、図3Aおよび図3Bに対して、音声認識処理部が生成する応答の種類が、コマンドによる応答の場合の処理フローである。 図3Dは、図3Aおよび図3Bに対して、音声認識処理部が生成する応答の種類が、コマンドによる応答の場合の処理フローである。 図3Eは、携帯端末と対話型電子装置が、近距離無線通信システムで直接接続されている場合に、携帯端末のユーザが、携帯端末のマイクに発話して、マイクが収集した音声データを対話型電子装置制御システムで処理する場合の処理フローである。 図3Fは、携帯端末と対話型電子装置が、近距離無線通信システムで直接接続されている場合に、携帯端末のユーザが、携帯端末のマイクに発話して、マイクが収集した音声データを対話型電子装置制御システムで処理する場合の処理フローである。 図3Gは、ユーザが対話型電子装置に対して直接発話して、対話型電子装置のマイクが収集した音声データを対話型電子装置制御システムで処理する場合の処理フローである。 図4Aは、対話型電子装置制御システムに接続された携帯端末Aをおよび携帯端末Bの各々の所有者であるユーザAおよびユーザBが、任意のタイミングで各々が所有する携帯端末Aおよび携帯端末Bのマイクに発話して、各々のマイクで収集した音声データを本システムで処理する場合の処理フローである。 図4Bは、対話型電子装置制御システムに接続された2台の携帯端末のユーザが、任意のタイミングで各々携帯端末のマイクに発話して、各々のマイクが収集した音声データを対話型電子装置制御システムで処理する場合の処理フローである。 図4Cは、対話型電子装置制御システムに接続された2台の携帯端末のユーザが、任意のタイミングで各々携帯端末のマイクに発話して、各々のマイクが収集した音声データを対話型電子装置制御システムで処理する場合の処理フローである。 図5Aは、携帯端末から入力された音声データに応じて制御することができるデバイスを、アカウントごとに対応付けた一覧である。 図5Bは、携帯端末から入力された音声データに応じて、同じデバイスにおいて制御することができる機能を、アカウントごとに対応付けた一覧である。 図5Cは、携帯端末から入力された音声データに対する応答の出力先を、アカウントごとに対応付けた一覧である。 図6Aは、携帯端末から入力された音声データに応じて制御することができるデバイスを、権限ごとに対応付けた一覧である。 図6Bは、携帯端末から入力された音声データに応じて、同じデバイスにおいて制御することができる機能を、権限ごと対応付けた一覧である。 図7Aは、対話型電子装置制御システムにアクセスする携帯端末が使用するアカウントごとに、携帯端末の表示画面に表示する、制御可能なデバイスの表示の例である。 図7Bは、対話型電子装置制御システムにアクセスする携帯端末が使用するアカウントごとに、携帯端末の表示画面に表示する、制御可能なデバイスの表示の他の例である。 図7Cは、対話型電子装置制御システムにアクセスする携帯端末が使用するアカウントごとに、携帯端末の表示画面に表示する、制御可能なデバイスの表示の他の例である。
以下、本発明の実施の形態について図面を参照して説明する。
(第1の実施形態)
第1の実施形態の対話型電子装置制御システムは、ユーザが対話型電子装置制御システムに音声を入力する際に、対話型電子装置110の音声入力部(例えばマイク)を用いるだけでなく、対話型電子装置制御システムに接続された携帯端末の音声入力部(例えばマイク)を用いることができる対話型電子装置制御システムである。
図1Aは、本実施形態が適用された対話型電子装置制御システムの概要を示す図である。本システムは、クラウドにおかれたサービスサーバ102と、サービスサーバ102にインターネット/イントラネット等のネットワーク106を介して接続する対話型電子装置110と、対話型電子装置110の初期設定を行う携帯端末A140およびネットワーク106を介して接続するスマートフォンやタブレット等の携帯端末101からなる。
対話型電子装置110は、屋内105に配置されている場合が多いが、これに限らず例えば屋外に配置されてもよい。
対話型電子装置110は、制御部111を有する。制御部111は、音声出力部112、映像制御部114、照明制御部116、音声取得部118、Wi−Fi送受信器120、Bluetooth(登録商標)送受信器121、センサ122と接続されており、これらを制御することができる。
対話型電子装置110は、表示画面を有していない対話型電子装置の例である。したがって対話型電子装置110の初期設定は、近距離無線通信システムを介して接続される携帯端末A140を用いて行う。携帯端末A140については、後で説明する。
制御部111は、音声出力部112を制御して音声データを出力することができ、出力された音声データは音声出力部112でDA変換され、音量などの制御がなされ、スピーカー113に供給される。なお、音声出力部112とスピーカー113は、USB等で接続された外付けのものであってもよい。
また制御部111は、映像制御部114を制御することで、カメラ115により映像を撮影することができる。カメラ115で撮像された映像の映像信号は、映像制御部114にてデジタル化、符号化され制御部111に入力される。
また制御部111は、照明制御部116を制御することで、照明器117を点灯したり消灯したりすることができる。照明器117は、カメラ121による撮影が行われるとき、周囲が暗い場合に撮影領域を照明するために利用される。
また制御部111は、音声取得部118を制御することで、マイク119の周辺の音声を取得することができる。なお、音声取得部11とマイク119は、USB等で接続された外付けのものであってもよい。
また制御部111は、Wi−Fi送受信器120を介して、近距離にある携帯端末や通話デバイスとWi−Fiによる通信を行うことができる。
また制御部111は、Bluetooth送受信器121を介して、近距離にある携帯端末や通話デバイスとBluetoothによる通信を行うことができる。
さらに制御部111は、各種センサ122からの検知信号を受信することが可能であり、また各種センサ122の動作を制御(例えばオンオフ、特性の切換えなど)することが可能である。なお、スピーカー113、カメラ115、マイク119は、ユーザの操作により、それぞれをオン又はオフすることも可能である。
さらにまた制御部111は、サービスサーバ102の中のアカウント管理部103と連携して、携帯端末101が対話型電子装置制御システムに新たにアクセスすることを許可する機能も持つ。制御部111のこの機能により、携帯端末101を本システムに登録する手順については、図2を用いて説明する。
また制御部111は、サービスサーバ102の中の音声認識処理部104が対話型電子装置110に送信してくる応答のうち、後述するようにコマンドによる応答により制御したデバイスの制御履歴を保存する機能も持つ。また、制御部111は、対話型電子装置制御システムにアクセス可能な携帯端末101のアカウントごとに権限を付与し権限ごとに動作を制御する機能も持つ。権限の付与については、図6を用いて説明する。
また制御部111は、制御部111が管理する情報を保存する保存エリア111−1を持つ。この保存エリア11−1は、保存する情報によりさらに細かいエリアに分かれている。さらに細かいエリアは、例えばコマンドによる応答により制御したデバイスの制御履歴を保存するエリアであるデバイス制御履歴エリア111−11であり、アカウントごとの権限を保存するエリアであるアカウント管理エリア111−12である。
図1Bは、保存エリア111−1の例である。
対話型電子装置110は、例えばWi−Fi送受信器120やBluetooth送受信器121等の近距離無線通信システムを介してルータに接続し、ネットワーク106と接続することができる。これにより対話型電子装置110は、携帯端末101や音声認識処理部104等とデータのやり取りをすることが可能となる。
また対話型電子装置110は、例えばカメラ付きのPC(パーソナルコンピュータ)、等であってもよい。また対話型電子装置110は、近距離無線通信システムとしてWi−Fi、Bluetooth以外に、例えばZigBee(登録商標)、Z−Wave(登録商標)、等の近距離無線通信システムを搭載していてもよい。
照明130、エアコン131、映像記録再生機器132、その他オーディオ機器(図示せず)は、制御部111が送信するコマンドによって制御が可能な、屋内105に設置(屋外に設定することも可能)された周辺電子機器(周辺デバイス)である。これら周辺電子機器は、近距離無線通信システムである例えばWi−FiやBluetooth等を介して対話型電子装置110と接続されている。なお図1の例では、対話型電子装置110と周辺電子機器は近距離無線通信システムを介して接続されているが、有線による通信を介して接続されていてもよい。
サービスサーバ102は、少なくとも2つの機能を含む。1つはアカウント管理部103であり、1つは音声認識処理部104である。図1Aの例では、アカウント管理部103と音声認識処理部104は、同じサーバ(サービスサーバ102)に含まれているが、別のサーバに属していてもよい。
音声認識処理部104は、対話型電子装置110から送られてきた音声データを認識し、それに対応する応答を生成する処理部である。
対話型電子装置110は、マイク119から収集したユーザの発した発話の音声データを、ネットワーク106を介してサービスサーバ102の音声認識処理部104に送る。対話型電子装置110から送られてきた音声データを受信した音声認識処理部104は、受信した音声データを解析し、その解析した内容に応じた応答を生成する。音声認識処理部104は、応答を生成すると、その生成した応答をネットワーク106を介して対話型電子装置110に送信する。
音声認識処理部104が生成する応答は、対話型電子装置110から入力される音声にデータに応じて少なくとも2つの種類を含んでいる。1つ目は音声データによる応答、2つ目は対話型電子装置110がもつ電子機器(デバイス)例えばカメラ115を制御するコマンド、あるいは対話型電子装置110に近距離無線通信システム等を介して接続している周辺電子機器(周辺デバイス)例えばエアコン131を制御する、コマンドによる応答である。音声認識処理部104が生成する応答は、ユーザが対話型電子装置110に対して発話した内容に応じて、これら2つの種類の応答を任意に組み合わせて生成することができる。
音声データによる応答の応答内容は、ユーザが対話型電子装置110に対して発話した例えば「おはよう」に対する「おはようございます。今日は元気ですか?」のようにユーザが発話した内容に対応した返事であったり、例えば「今から新幹線に乗って大阪に行くと何時に着くかな?」という質問に対する「今から30分後に出発すれば、夜の8時までに大阪駅に到着します」のようにユーザの問い掛けに対応した回答であったりする。あるいはユーザの発話の内容とは無関係に「昨日の発表会、すごく楽しかったですよね」というつぶやきであってもよい。
音声認識処理部104から応答を受け取った対話型電子装置110は、その応答が音声データによる応答の場合は、その応答の内容を、例えば制御部111の制御によりスピーカー113より音声として出力することができる。これによりユーザは、自らの発話に対する対話型電子装置制御システムの応答を聞くことができる。
なお、応答が音声データによる応答の場合、その応答の内容をどのスピーカーに出力するかは、都度制御可能である。ただし、基本的にはユーザの発話を収集したマイクを有するデバイスが管理するスピーカーに出力する。具体的には、ユーザが対話型電子装置110に対して発話した場合は、応答の内容を出力するのは対話型電子装置110が管理するスピーカーである。また対話型電子装置制御システムにアクセス可能な携帯端末101のユーザが、携帯端末101のマイクに対して発話した場合は、応答の内容を出力するのは携帯端末101が管理するスピーカーである。
音声認識処理部104は、生成する応答として音声データの代わり、例えばテキストデータ等の音声に変換できるデータを生成して応答してもよい。この場合対話型電子装置110は、音声認識処理部104から受信した音声に変換できるデータを、制御部111の制御により音声出力部112で音声データに変換し、スピーカー113より音声として出力してもよい。
またコマンドによる応答の応答内容は、ユーザが対話型電子装置110に対して発話した例えば「エアコンつけて」に対する「デバイス=エアコン131、操作=ON、モード=冷房、設定=温度26度、風量最大」の内容のコマンドであったり、「ちょっと電気つけて」に対する「デバイス=照明117、操作=ON」の内容のコマンドであったりする。
音声認識処理部104から応答を受け取った対話型電子装置110は、その応答がコマンドによる応答の場合は、コマンドに含まれている制御対象のデバイスの制御を、制御部111により行う。例えばコマンドの内容が「デバイス=エアコン131、操作=ON、モード=冷房、設定=温度26度、風量最大」の場合、対話型電子装置110は、制御部111の制御により、エアコン131を温度26度、風量最大の設定で起動するようにWi-Fi送受信器120やBluetooth送受信器121等の近距離無線通信システムを介して制御する。
なお対話型電子装置110は、音声認識処理部104から受け取ったコマンドによるデバイスの制御の履歴を記憶することが可能であり、デバイス制御履歴としてデバイス制御履歴エリア111−11に保存することができる。
アカウント管理部103は、携帯端末101がネットワーク106を介して対話型電子装置110にアクセスするための管理部である。アカウント管理部103は、携帯端末101が対話型電子装置110の正当なユーザであるかどうかの認証を行う。認証に成功するとアカウント管理部103は、携帯端末101と対話型電子装置110との間でデータをやり取りするパスを開設する。これにより携帯端末101のユーザは、対話型電子装置110のマイク119に向けて発話し、マイク119で収集された音声データを音声認識処理部104で処理させるのと同じように、携帯端末101のマイクに向けて発話し、マイクが収集した音声データを、ネットワーク106を介して音声認識処理部104で処理させることができる。
アカウント管理部103による認証を受けるために、携帯端末101のユーザは、予め携帯端末101にインストールしている対話型電子装置制御システムにアクセスするためのアプリケーション(以降アクセスアプリケーションと呼ぶ)を起動し、対話型電子装置制御システムにアクセスするためのアカウントとパスワードの入力画面を表示させる。携帯端末101のユーザが、予めアカウント管理部103に登録済みのアカウントとパスワードを入力画面において入力すると、入力されたアカウントとパスワードがネットワーク106を介してサービスサーバ102のアカウント管理部103に送られる。
アカウント管理部103は、携帯端末101から送られてきたアカウントとパスワードにより、携帯端末101が対話型電子装置制御システムの正当なユーザであるかどうかの認証を行う。
なお携帯端末101は、認証に際してアカウント管理部103に送信する情報として、アカウントとパスワード以外に、携帯端末101の固有識別情報を加えても良い。あるいは、携帯端末101の固有識別情報とパスワードだけをアカウント管理部103に送信してもよい。またアカウント管理部103は、携帯端末101が音声認識処理部104の正当なユーザであるかどうかの認証を行うのに、送られてきたアカウント、携帯端末101の固有識別情報、パスワードの3つの情報を用いてもよい。あるいは携帯端末101の固有識別情報とパスワードの2つの情報のみを用いて認証を行っても良い。アカウントおよびパスワードは、ユーザが任意に設定できるものとする。またアカウントは、個体識別情報も含めて、アカウントとしてもよい。
以上のように対話型電子装置制御システムは、(1)対話型電子装置110に対面するユーザが発した発話の音声データを、対話型電子装置110のマイク113から入力することができる。これに加えて、(2)アカウント認証による正当性の確認を受けた携帯端末101を持つユーザが発した発話の音声データを、携帯端末101のマイクから入力することができる。携帯端末101のマイクから入力された音声データは、ネットワーク106を介して対話型電子装置110に送られる。送られてきた音声データは、対話型電子装置110からサービスサーバ102の音声認識処理部104に送られ、音声認識処理部104で音声認識処理され、認識した内容にもとづき先に説明した少なくとも2種類の応答が生成される。生成された応答は、応答の内容に応じて音声認識端末110あるいは携帯端末101から音声として出力されたり、音声認識端末110がデバイスを制御するのに用いられる。
次に、携帯端末101から対話型電子装置制御システムにアクセスをするための、携帯端末101を対話型電子装置制御システムに登録する手順の一例を説明する。
図1Aに示した対話型電子装置110は、表示画面を有していない対話型電子装置の例である。したがって対話型電子装置110の初期設定は、近距離無線通信システムを介して接続される携帯端末A140を用いて行う。対話型電子装置110の初期設定を行う携帯端末Aを決定するために、対話型電子装置110の初期設定において、携帯端末Aを対話型電子装置1100に登録する必要がある。携帯端末A140は、対話型電子装置110と近距離無線通信システム、例えばBluetoothや、Wi−Fi Directを用いてペアリングすることで、対話型電子装置110の初期設定を行う端末として登録することができる。対話型電子装置110は、ペアリングにより携帯端末A140を特定すると、携帯端末A140140の固有識別情報を吸い上げて、ネットワーク1−6を介してアカウント管理部103に送信する。アカウント管理部103は、対話型電子装置110から送られてきた携帯端末A140の固有識別情報を含む情報をもとに、携帯端末A140が対話型電子装置100の初期設定を行うための設定キーを作成する。アカウント管理部103は、作成した設定キーをネットワーク106を介して対話型電子装置110に送信する。設定キーを受信した対話型電子装置110は、設定キーを携帯端末A140に送信することで、携帯端末A140は、対話型電子装置110の初期設定を行う端末として登録される。以降携帯端末A140は、設定キーにより、対話型電子装置110の初期設定を行うことができる正当な携帯端末として、対話型電子装置110に認識される。
以降の説明において、対話型電子装置制御システムにアクセスしたい携帯端末101を登録する手順は、対話型電子装置110が表示画面を有していなく、携帯端末A140を用いて初期設定を行うものとして説明する。なお、対話型電子装置110が表示画面を有している場合は、以下に説明する携帯端末A140の表示画面を用いて行う操作を、対話型電子装置110の表示画面を用いて行えばよい。表示画面を用いて行う操作は、例えばタッチ操作でも、例えばカーソルの移動させる操作でもよい。
図2Aは、本実施形態が適用された対話型電子装置制御システムにアクセスする携帯端末101を登録する場合の、対話型電子装置110の初期設定を行う携帯端末A140の、画面遷移を示している。
画面201は、携帯端末A140のホーム画面である。ホーム画面201の左上のマークは、機能設定(Setting)にジャンプするためのアイコン211である。
ユーザがアイコン211をタップすると、携帯端末A140の表示画面は、機能設定(Setting)画面202に遷移する。
次にユーザが任意のアカウント(Account)212をタップすると、携帯端末A140の表示画面は、アカウント(Accout)画面203に遷移する。
次にユーザがユーザ追加(Add User)213をタップすると、携帯端末A140の表示画面は、メールアドレス入力画面204に遷移する。ユーザは、メールアドレス入力フィールド214に、自らが認識するメールアドレスAを入力し、画面右上にある送信ボタン(Done)をタップする。これによりユーザがメールアドレス入力フィールド214に入力したメールアドレスA宛てに、携帯端末A140から招待コード(InvitaitonCode)が記載されたメールが送信される。対話型電子装置制御システムにアクセスしたい携帯端末101のユーザは、メールで送られてきた招待コード(InvitaitonCode)を使って、対話型電子装置制御システムにアクセスする携帯端末101の登録処理を続ける。
図2Bは、本実施形態が適用された対話型電子装置制御システムにアクセスする携帯端末101を登録する場合の、図2Aの操作に継続して行われる、携帯端末101の画面遷移を示している。
画面205は、携帯端末101に予めインストールされているアクセスアプリケーションの起動画面である。
ユーザが、ユーザ追加(AddUser)アイコン221をタップすると、携帯端末101の表示画面は、招待コード(InvitationCode)入力画面206に遷移する。ユーザは、図2Aを用いて説明した携帯端末A140からメールで送られてきた招待コード(InvitationCode)を、招待コード(InvitationCode)入力フィールド223に入力し、送信(Done)ボタン222をタップする。これにより招待コードがサービスサーバ102のアカウント管理部103に送られ、これにより招待コードを送付したアカウントを持つ携帯端末101が、本システムの正当なユーザとして登録される。このように、対話型電子装置制御システムにアクセスしたい携帯端末101は、携帯端末A140から招待されたあと、送られてきた招待コードを使って対話型電子装置制御システムにアクセスすることで、本システムの正当なユーザとして登録される。
次に携帯端末101のユーザが、携帯端末101のマイクに対して発話し、マイクが収集した音声データを対話型電子装置制御システムで処理する処理フローについて説明する。
図3Aおよび図3Bは、携帯端末302のユーザ301が、携帯端末302のマイクに発話して、マイクが収集した音声データを対話型電子装置制御システムで処理する場合の処理フローである。
携帯端末302のユーザ301は、対話型電子装置制御システムの正当な利用者であることを認証してもらうために、携帯端末302の表示画面に表示されているアクセスアプリケーションのアカウントおよびパスワードの入力画面において、アカウントとパスワードを入力する(S310)。入力されたアカウントおよびパスワードは、携帯端末302からネットワーク106を介してアカウント管理部303に送られる(S311)。アカウントおよびパスワードを受信したアカウント管理部303は、受信したアカウントおよびパスワードを用いて認証を行う(S312)。
認証の結果、認証NG(S313のNoの場合)であればその結果を、ネットワーク106を介して携帯端末302に送信する(S314)。認証NGの結果を受信した携帯端末302は、認証の結果がNGであることがユーザ301に分かるように、例えば表示画面に認証NGの旨を表示したり、LEDを赤色で点滅させたりする(S315)。
認証の結果、認証OK(S313のYesの場合)であればその結果を、ネットワーク106を介して携帯端末302に送信する(S316)。認証OKの結果を受信した携帯端末302は、認証の結果がOKであることがユーザ301に分かるように、例えば表示画面に認証OKの旨を表示したり、LEDを青色で点灯させたりする(S317)。
認証の結果がOKであることを認識したユーザ301は、対話型電子装置制御システムを用いて発話による音声認識処理を行うために、音声認識処理の開始を要求するアイコン(以降音声認識アイコンと呼ぶ)をタップする(S320)。音声認識アイコンがタップされたことを認識した携帯端末302は、ネットワーク106を介してアカウント管理部303を経由して対話型電子装置304に対して音声データを通すための通話確立要求を送信する(S321)。通話確立要求を受信した対話型電子装置304は、以降携帯端末302との間でインターネット106を介してアカウント管理部303を経由して通話確立のための接続処理を行う(S322)。接続処理が終了すると、対話型電子装置304から携帯端末302に、接続応答が通知される(S323)。携帯端末302は、接続応答を受信すると、そのステータスを確認する。
ステータスを確認した結果、接続が失敗していることが判明した場合(S324のNo)、携帯端末302は、通話確立で失敗したことにより音声認識処理を行うことができな旨をユーザ301に分かるように、例えば表示画面に接続失敗の旨を表示したり、LEDを赤色で点滅させたりする(S325)。
ステータスを確認した結果、接続が成功していることが判明した場合(S324のYes)、携帯端末302は、音声認識開始トリガをネットワーク106を介してアカウント管理部303を経由して対話型電子装置304に送信する(S326)。なお、音声認識開始トリガは、携帯端末302と対話型電子装置304の間で通話確立された後に、ユーザ301が発話した内容を音声認識できるようにするために、対話型電子装置304および音声認識処理部305に準備を促す通知である。この通知は、図3Gのトリガボイス(S326−4)に相当する。
音声認識開始トリガを受信した対話型電子装置304は、音声認識処理部305との間で、携帯端末302から入力された音声データに対して音声認識を行うための音声認識サービスの準備を行う(S327)。音声認識サービスの準備が終了すると、対話型電子装置304は、準備が終了した時のステータスを確認する(S328)。
ステータスを確認の結果、準備に失敗していることが判明した場合(S328のNo)、対話型電子装置304は、音声認識サービスの準備が失敗したことを携帯端末302に通知する(S329)。音声認識サービスの準備が失敗した通知を受け取った携帯端末302は、音声認識サービスの準備が失敗したことにより音声認識を行うことができな旨をユーザ301に分かるように、例えば表示画面に接続失敗の旨を表示したり、LEDを赤色で点滅させたりする(S330)。
ステータスを確認の結果、準備に成功していることが判明した場合(S328のYes)、対話型電子装置304は、音声認識サービスの準備が成功したことを携帯端末302に通知する(S331)。音声認識サービスの準備が成功した通知を受け取った携帯端末302は、音声認識サービスの準備が成功し、音声認識させたい内容を発話してよい状態になったことをユーザ301に分かるように、例えば表示画面に発話許可の旨を表示したり、LEDを青色で点灯させたりする(S332)。
S332の発話許可の旨を確認した携帯端末302のユーザ301は、携帯端末302のマイクに向かって、対話型電子装置制御システムに音声認識させたい内容の発話を行う(S340)。携帯端末302のユーザ301が発話した内容は、携帯端末302のマイクで収集され、音声データとして対話型電子装置304に送信される。以降携帯端末302と対話型電子装置304の間で発話処理が行われる(S341)。
携帯端末302より送られてきた音声データを受信した対話型電子装置304は、音声認識処理部305との間でデータのやり取りを行い(S342)、携帯端末302のユーザ301が発話した内容に対する音声認識処理を行う(S343)。音声認識処理部305は、音声認識処理を行う(S343)過程で、処理中であることを示す処理中通知を対話型電子装置304に送信する(S344)。処理中通知を受信した対話型電子装置304は、受信した処理中通知の内容を携帯端末302に送信する(S345)。処理中通知を受信した携帯端末302は、発話(S340)に対する音声認識処理が行われていることがユーザ301に分かるように、例えば表示画面に音声認識処理中の旨を表示したり、LEDを緑色で点滅させたりする(S347)。
音声認識処理部305は、音声認識処理(S343)を完了すると、認識した内容をもとに応答を生成する(S346)。図3Bの例の応答は、先に説明した2種類の応答のうち、音声データによる応答である。音声認識処理部305は、応答の生成を完了するとその応答を対話型電子装置304に送信する(S348)。応答を受信した対話型電子装置304は、受信した応答の内容を携帯端末302に送信する(S349)。応答を受信した携帯端末302は、スピーカーを通じてその応答の内容を音声として出力する。これにより携帯端末302のユーザ301は、発話(S340)に対する応答を聞くことができる。また携帯端末302は、この応答の内容を音声として出力中である旨を、ユーザ301に分かるように、例えば表示画面に音声認識処理中の旨を表示したり、LEDを緑色で点滅させたりする(S350)。
なお携帯端末302は、S315、S317、S325、S330、S332の各ステップでユーザ301に分かるように、例えば表示画面に各状態を示す映像を表示したり、LEDを特性の色やパターンで制御することができる。これによりユーザ301は、各ステップにおける処理が成功したのか失敗したのか都度分かるため、処理がどうなったのか不安に思うことがなくなる。
先に説明したように、音声認識処理部104が生成する応答は、コマンドによる応答であってもよい。
図3Cおよび図3Dは、図3Aおよび図3Bに対して、音声認識処理部305が生成する応答の種類が、コマンドによる応答の場合の処理フローである。図3Cおよび図3Dの処理のうちS347の処理までは、図3Aおよび図3Bと同一番号の処理は同一である。S370で囲まれたS346−2以降の一連の処理が、図3Aおよび図3Bの処理と異なり、コマンドによる応答の生成、およびそのコマンドによる応答にもとづいてデバイスの制御を行う処理の処理フローである。
図3Dの発話340において、携帯端末302のユーザ301が例えば、「Play Music」と発話したとする。この場合、図3Dの発話340に対する音声認識処理343において「Play Music」と認識すると音声認識処理部305は、対話型電子装置304の周辺電子機器である映像記録再生機器132(図1A参照)に対して音楽データの送信を要求するコマンド生成する(S346−2)。コマンドの生成が完了すると、音声認識処理部305は、生成したコマンドをデバイス制御要求として対話型電子装置304に送信する(S348−2)。デバイス制御要求を受信(S351)した対話型電子装置304は、デバイス制御要求を受け付けた旨の通知であるデバイス制御要求受付を音声認識処理部305に送信する(S353)とともに、受信したデバイス制御要求の内容に従って周辺電子機器である映像記録再生機器132に対して音楽データの送信を要求するコマンドを送信する(S355)。同時に対話型電子装置304は、映像記録再生機器132を制御している旨を携帯端末302に通知する(S352)。通知を受信した携帯端末302は、映像記録再生機器132が正しく制御されていることがユーザ301に分かるように、例えば携帯端末302の表示画面に映像記録再生機器132の制御の様子を表示したり、LEDを緑色で点灯させたりする(S354)。
図3Cのシーケンスの例では制御対象のデバイスが、映像記録再生機器132である。この例では、S355で送信した音楽データの送信を要求するコマンドに対応して、映像記録再生機器132は、該当する音楽データを対話型電子装置304に送信する(S356)。該当する音楽データを受信した対話型電子装置304は、受信した音楽データをデコードし(S357)、そのデコードした結果をネットワーク106を介して、携帯端末302に送信する(S358)。デコードされた音楽データを受信した携帯端末302は、携帯端末302のスピーカーから受信した音楽データを出力する。これにより携帯端末302のユーザは、発話(S340)に対する音楽を視聴することを可能となる。
なお携帯端末302は、S315、S317、S325、S330、S332の各ステップでユーザ301に分かるように、例えば表示画面に各状態を示す映像を表示したり、LEDを特性の色やパターンで制御することができる。これによりユーザ301は、各ステップにおける処理が成功したのか失敗したのか都度分かるため、処理がどうなったのか不安に思うことがなくなる。
図3Aから図3Dの例は、ネットワーク106を介してサービスサーバ102を経由して携帯端末302と対話型電子装置304がデータのやり取りをする場合である。しかし、携帯端末302と対話型電子装置304が、例えば近距離無線通信システムであるBluetoothやWi−Fi Directを介して、直接接続されていてもよい。この場合アカウント管理部303は、対話型電子装置304の中に存在していてもよい。
図3Eおよび図3Fは、携帯端末302と対話型電子装置304が、近距離無線通信システムで直接接続されている場合に、携帯端末302のユーザが、携帯端末302のマイクに向かって発話して、マイクが収集した音声データを本システムで処理する場合の処理フローである。
図3Eの場合、アカウント管理部に相当する機能は、対話型電子装置304の中に含まれている。したがって図3EのS310からS317の処理は、図3Aの処理と比較して、携帯端末302と対話型電子装置304(アカウント管理機能を含む)の間で認証処理を行う点が相違点である。認証が成功し、ユーザ301が音声認識アイコンをタップ(S320)した以降は、携帯端末302と対話型電子装置304との間のやり取りは、アカウント管理部303を経由しないだけで、図3Aおよび図3Bの処理と基本的には同じである。以降、図3Eおよび図3Fの処理フローを詳細に説明する。
図3Eの携帯端末302のユーザ301は、対話型電子装置制御システムの正当な利用者であることを認証してもらうために、携帯端末302の表示画面に表示されているアクセスアプリケーションのアカウントおよびパスワードの入力画面において、アカウントとパスワードを入力する(S310)。入力されたアカウントおよびパスワードは、近距離無線通信システムを介して携帯端末302から対話型電子装置304のアカウント管理機能に送られる(S311−3)。アカウントおよびパスワードを受信した対話型電子装置304のアカウント管理機能は、受信したアカウントおよびパスワードを用いて認証を行う(S312)。
認証の結果、認証NG(S313−3のNoの場合)であればその結果を、近距離無線通信システムを介して携帯端末302に送信する(S314−3)。認証NGの結果を受信した携帯端末302は、認証した結果がNGであることがユーザ301に分かるように、例えば表示画面に認証NGの旨を表示したり、LEDを赤色で点滅させたりする(S315)。
認証の結果、認証OK(S313−3のYesの場合)であればその結果を、携帯端末302に送信する(S316−3)。認証OKの結果を受信した携帯端末302は、認証の結果がOKであることがユーザ301に分かるように、例えば表示画面に認証OKの旨を表示したり、LEDを青色で点灯させたりする(S317)。
認証がOKであることを認識したユーザ301は、対話型電子装置制御システムを用いて発話による音声認識処理を行うために、音声認識アイコンをタップする(S320)。音声認識アイコンがタップされたことを認識した携帯端末302は、近距離無線通信システムを介して対話型電子装置304に対して音声データを通すための通話確立要求を送信する(S321−3)。通話確立要求を受信した対話型電子装置304は、以降携帯端末302との間で近距離無線通信システムを介して通話確立のための接続処理を行う(S322−3)。接続処理が終了すると、対話型電子装置304から携帯端末302に、接続応答が通知される(S323−3)。携帯端末302は、接続応答を受信するとそのステータスを確認する。
ステータスを確認した結果、接続が失敗していることが判明した場合(S324−3のNo)、携帯端末302は、通話確立で失敗したことにより音声認識を行うことができな旨をユーザ301に分かるように、例えば表示画面に接続失敗の旨を表示したり、LEDを赤色で点滅させたりする(S325)。
ステータスを確認した結果、接続が成功していることが判明した場合(S324−3のYes)、携帯端末302は、音声認識開始トリガを近距離無線通信システムを介して対話型電子装置304に送信する(S326−3)。
音声認識開始トリガを受信した対話型電子装置304は、音声認識処理部305との間で、携帯端末302から入力された音声データに対して音声認識処理を行う音声認識サービスの準備を行う(S327)。音声認識サービスの準備が終了すると、対話型電子装置304は、準備が終了した時のステータスを確認する(S328−3)。
ステータスを確認の結果、準備に失敗していることが判明した場合(S328−3のNo)、対話型電子装置304は、音声認識サービスの準備が失敗したことを携帯端末302に通知する(S329−3)。音声認識サービスの準備が失敗した通知を受け取った携帯端末302は、音声認識サービスの準備が失敗したことにより音声認識を行うことができな旨をユーザに分かるように、例えば表示画面に接続失敗の旨を表示したり、LEDを赤色で点滅させたりする(S330)。
ステータスを確認の結果、準備に成功していることが判明した場合(S328−3のYes)、対話型電子装置304は、音声認識サービスの準備が成功したことを携帯端末302に通知する(S331−3)。音声認識サービスの準備が成功した通知を受け取った携帯端末302は、音声認識サービスの準備が成功し、音声認識させたい内容を発話してよい状態になったことをユーザ301に分かるように、例えば表示画面に発話許可の旨を表示したり、LEDを青色で点灯させたりする(S332)。
S332の発話許可の旨を確認した携帯端末302のユーザ301は、携帯端末302のマイクに向かって、対話型電子装置制御システムに音声認識させたい内容の発話を行う(S340)。携帯端末302のユーザ301が発話した内容は、携帯端末302のマイクで収集され、音声データとして対話型電子装置304に送信される。以降携帯端末302と対話型電子装置304の間で発話処理が行われる(S341−3)。
携帯端末302より送られてきた音声データを受信した対話型電子装置304は、音声認識処理部305との間でデータのやり取りを行い(S342)、携帯端末302のユーザ301が発話した内容に対する音声認識処理を行う(S343)。音声認識処理部305は、音声認識処理を行う(S343)過程で、処理中であることを示す処理中通知を対話型電子装置304に送信する(S344)。処理中通知を受信した対話型電子装置304は、受信した処理中通知の内容を携帯端末302に送信する(S345−3)。処理中通知を受信した携帯端末302は、発話(S340)に対する音声認識処理が行われていることがユーザ301に分かるように、例えば表示画面に音声認識処理中の旨を表示したり、LEDを緑色で点滅させたりする(S347)。
音声認識処理部305は、音声認識処理(S343)を完了すると、認識した内容をもとに応答を生成する(S346)。図3Fの例の応答は、先に説明した2種類の応答のうち、音声データによる応答である。音声認識処理部305は、応答の生成を完了するとその応答を対話型電子装置304に送信する(S348)。応答を受信した対話型電子装置304は、受信した応答の内容を携帯端末302に送信する(S349−3)。応答を受信した携帯端末302は、スピーカーを通じてその応答の内容を音声として出力する。これにより携帯端末302のユーザ301は、発話(S340)に対する応答を聞くことができる。また携帯端末302は、この応答の内容を音声として出力中である旨を、ユーザ301に分かるように、例えば表示画面に音声認識処理中の旨を表示したり、LEDを緑色で点滅させたりする(S350)。
なお携帯端末302は、S315、S317、S325、S330、S332の各ステップでユーザ301に分かるように、例えば表示画面に各状態を示す映像を表示したり、LEDを特性の色やパターンで制御することができる。これによりユーザ301は、各ステップにおける処理が成功したのか失敗したのか都度分かるため、処理がどうなったのか不安に思うことがなくなる。
図3Gは、ユーザC301−4が対話型電子装置304に対して直接発話して、対話型電子装置304のマイクが収集した音声データを対話型電子装置制御システムで処理する場合の処理フローである。
ユーザC301−4が対話型電子装置304に対して直接発話して音声認識処理を要求する場合、ユーザC301−4は対話型電子装置304に対してトリガボイスと呼ばれるある決められたキーワードを発する必要がある。(326−4)。これは図3Aの音声認識開始要求(S320)に相当する。
トリガボイスを受信した対話型電子装置304は、音声認識処理部305との間で、対話型電子装置304から入力された音声データに対して音声認識を行うための音声認識サービスの準備を行う(S327)。音声認識サービスの準備が終了すると、対話型電子装置304は、準備が終了した時のステータスを確認する(S328−4)。
ステータスを確認の結果、準備が失敗していることが判明した場合(S328−4のNo)、対話型電子装置304は、音声認識サービスの準備が失敗したことにより音声認識を行うことができな旨をユーザC301−4に分かるように、例えばLEDを赤色で点滅させたりする(S329−4)。
ステータスを確認の結果、準備が成功していることが判明した場合(S328−4)のYes)、対話型電子装置304は、音声認識サービスの準備が成功し、音声認識させたい内容を発話してよい状態になったことをユーザC301−4に分かるように、例えばLEDを青色で点灯させたりする(S331−4)。
S331−4の発話許可の旨を確認した対話型電子装置304のユーザC301−4は、対話型電子装置304のマイクに向かって、対話型電子装置制御システムに音声認識させたい内容の発話を行う(S340)。ユーザC301−4が発話した内容は、対話型電子装置304のマイクで収集される。
発話した内容をマイクで収集した対話型電子装置304は、音声認識処理部305との間で、収集した発話した内容に対する音声認識処理を行う(S343)。音声認識処理部305は、音声認識処理を行う(S343)過程で、処理中であることを示す処理中通知を対話型電子装置304に送信する(S344)。処理中通知を受信した対話型電子装置304は、発話に対する音声認識処理が行われていることがユーザC301−4に分かるように、例えばLEDを緑色で点滅させたりする(347−4)。
音声認識処理部305は、音声認識処理(S343)を完了すると、認識した内容をもとに応答を生成する(S346)。図3Gの例の応答は、先に説明した2種類の応答のうち、音声データによる応答である。音声認識処理部305は、応答の生成を完了するとその応答を対話型電子装置304に送信する(S348)。応答を受信した対話型電子装置304は、スピーカーを通じてその応答の内容を音声として出力する。これにより対話型電子装置304のユーザC301−4は、発話(S340)に対する応答を聞くことができる。
なお、図3Aから図3Fで示した携帯端末301のマイクから入力された音声に対する音声認識処理と、図3Gで示した対話型電子装置304のマイクから入力された音声に対する音声認識処理は、音声認識処理部305においてそれぞれ独立に行われる。従って、対話型電子装置304に対面して発話するユーザ301−4、携帯端末301のマイクに発話するユーザ301は、それぞれ任意のタイミングで発話することが可能である。これに対話型電子装置304に対面して発話するユーザC301−4および携帯端末301のマイクに発話するユーザ301等は、お互い発話のタイミングを気にすることがないため使い勝手がよい。
なお携帯端末302は、S315、S317、S325、S330、S332の各ステップでユーザ301に分かるように、例えば表示画面に各状態を示す映像を表示したり、LEDを特性の色やパターンで制御することができる。これによりユーザ301は、各ステップにおける処理が成功したのか失敗したのか都度分かるため、処理がどうなったのか不安に思うことがなくなる。
以上のように対話型電子装置制御システムは、対話型電子装置110に対面するユーザが発した発話の音声データを、マイク113から入手することができることに加えて、認証による正当な対話型電子装置制御システムの利用者であるの確認を受けた携帯端末101を持つユーザが発した発話の音声データを、携帯端末101にマイクから入手することが可能となる。また対話型電子装置110のマイクに直接入力された音声の音声認識処理と、携帯端末101のマイクから入力された音声の音声認識処理は、それぞれ独立して処理されることから、対話型電子装置304に対面して発話するユーザ、携帯端末101のマイクに発話するユーザは、それぞれ任意のタイミングで発話することが可能である。また、携帯端末101のマイクに発話するユーザは、対話型電子装置110からの距離を意識する必要がなくなる。これにより、対話型電子装置制御システムの利便性が格段に向上する。
また携帯端末301のユーザは、対話型電子装置304の近傍にいても遠距離にいても、本システムの音声認識処理を使用することができる。携帯端末301のユーザが対話型電子装置304の近傍にいて、直接対話型電子装置304のマイクに発話できる状態にある場合もある。しかし対話型電子装置304の近傍には他のユーザも居て雑然としている場合、携帯端末301のユーザは、あえて携帯端末のマイクに発話して、携帯端末のマイクに発話した内容を収集させることで、確実に対話型電子装置制御システムに音声認識処理をさせることも可能である。
(第2の実施形態)
第2の実施形態の対話型電子装置制御システムは、複数のユーザの複数の携帯端末から対話型電子装置制御システムに、各携帯端末の音声入力部(例えばマイク)を用いて音声を入力する場合、互いに任意のタイミングで音声を入力することができる対話型電子装置制御システムである。
図4A、図4Bおよび図4Cは、対話型電子装置制御システムに接続された携帯端末A402および携帯端末B402−2の各々の所有者であるユーザA401およびユーザB401−2が、任意のタイミングで各々が所有する携帯端末A402および携帯端末B402−2のマイクに発話して、各々のマイクで収集した音声データを本システムで処理する場合の処理フローである。なお、複数のユーザの複数の携帯端末から対話型電子装置制御システムにアクセスする場合も、図3AのS310からS317に示した対話型電子装置制御システムの正当な利用者であることを認証する処理は、同様に各々の携帯端末において行うが、図4Aの処理フローの記載は省略してある。
携帯端末A402の所有者であるユーザA401が、音声認識処理の開始を要求する音声認識アイコンをタップ(S420)した以降、携帯端末A402に関連する処理はS420からS450である。この処理は、対話型電子装置制御システムに1台しか接続されていない場合の処理フローである図3Aと同一である。
一方携帯端末B402−2のユーザB401−2が、音声認識処理の開始を要求する音声認識アイコンをタップ(S420−2)した以降、携帯端末B402−2に関連する処理はS420−2からS450−2である。
図4A、図4Bおよび図4Cのシーケンスの例では、携帯端末A402に関連する処理であるS420からS450の処理と、携帯端末B402−2に関連する処理であるS420−2からS450−2の処理は、時間的に近接して先行で行われているため、音声認識サービスの準備の処理(S427)に対応して、ユーザB401−2の発話に対する音声認識サービスの準備の処理を再度行う必要が無い。このユーザB401−2の発話に対する音声認識サービスの準備の処理を省略している点以外は、携帯端末A402に関連する処理であるS420からS450の処理と携帯端末B402−2に関連する処理であるS420−2からS450−2の処理は、同一の処理である。つまり、例えば携帯端末Aに関連する通話確立要求S421と携帯端末Bに関連する通話確立要求S421−2は、同一の処理である。なお、携帯端末A402に関連する処理であるS420からS450の処理と、携帯端末B402−2に関連する処理であるS420−2からS450−2の処理が時間的に離れている場合は、例えば、ユーザB401−2の発話に対する音声認識サービスの準備の処理を再度行っても良い。
図4Bに示すように、携帯端末A402のユーザA401の発話(S440)と携帯端末B401−2のユーザB402−2の発話(S440−2)は、それぞれ発話された順に独立に音声認識処理(S443、S443−2)および応答の生成(S446、S446−2)が行われる。
このように複数の携帯端末が対話型電子装置制御システムに接続されている場合、各々の携帯端末(携帯端末A402、携帯端末B402−2)から任意のタイミングで入力された音声データ(S441、S441−2)は、音声認識処理部505でそれぞれ独立に音声認識処理(S443、S443−2)される。音声認識処理部405は、入力された各々の音声データを音声認識処理した内容をもとに各々の応答を生成する(S446、S446−2)。生成された各々の応答は、対話型電子装置404から、音声データが入力された各々の携帯端末(402、402−2)に送信される(S449、S449−2)。
以上のように複数の携帯端末の各々所有者が発話する場合、他の携帯端末の所有者の発話のタイミングも意識する必要がなく任意のタイミングで発話することが可能で、どの場所からも任意のタイミングで発話することが可能である。これにより携帯端末の各ユーザが対話型電子装置制御システムにアクセスする場合の利便性が、格段に向上する。
図4A、図4Bおよび図4Cの例は、複数の携帯端末から入力された各々の音声データに対し音声認識処理により生成した各々の応答を、音声データが入力された携帯端末に送信する例であるが、これに限らない。例えば、音声認識アイコンをタップして音声認識処理を複数の携帯端末が要求しているとする。この場合は、各々の携帯端末から入力された音声データに対し、音声認識処理により生成した各々の応答を、音声認識処理を要求しているすべての携帯端末に送信してもよい。図4A、図4Bおよび図4Cの例では、携帯端末A402が音声認識処理の要求を開始(S420)した以降のすぐのタイミングで、携帯端末B402−2が音声認識処理の要求の開始(S420−2)を行った場合である。この場合は、携帯端末A402への応答を、携帯端末A402に送信する(S449)だけでなく、携帯端末B402−2にも送信しても良い。同様に携帯端末B402−2への応答を、携帯端末B402−2に送信する(S449−2)だけでなく、携帯端末A402にも送信しても良い。
複数の携帯端末から入力された各々の音声データに対し音声認識処理により生成した各々の応答の種類は、それその携帯端末から入力された音声データの内容に応じて、音声データによる応答、コマンドによる応答のいずれであってもよい。
(第3の実施形態)
第3の実施形態の対話型電子装置制御システムは、対話型電子装置制御システムにアクセスする携帯端末が使用するアカウントごとに、携帯端末から入力された音声データに応じて制御するデバイスの種類および同じデバイスを制御する場合でも制御内容を変えることが可能な対話型電子装置制御システムである。
アカウントごとに制御することが可能なデバイスに関する情報は、対話型電子装置110で管理されアカウント管理エリア111−12に保存される。対話型電子装置110は、アクセスしてきた携帯端末101が用いたアカウントにより制御可能なデバイスを切り換える。また、アカウントごとに制御することが可能なデバイスに関する情報は、対話型電子装置110を操作することで見ることも可能である。
図5Aは、携帯端末101から入力された音声データに応じて制御することができるデバイスを、アカウントごとに対応付けた一覧である。この一覧の情報は、アカウント管理エリア111−12に保存され、対話型電子装置111を操作することで見ることが可能である。
図5Aは、例えばアカウントa_aaa@xmail.comを用いて対話型電子装置制御システムにアクセスしてきた携帯端末101は、そのユーザが発話して制御できるデバイスはTV(録画予約)、エアコン、玄関開閉、給湯(風呂)であることを表している。同様に、アカウントb_aaa@xmail.comを用いて対話型電子装置制御システムにアクセスしてきた携帯端末は、そのユーザが発話して制御できるデバイスはTV(録画予約)、エアコンであることを表している。またアカウントd_aaa@xmail.comを用いて対話型電子装置制御システムにアクセスしてきた携帯端末は、そのユーザが発話して制御できるデバイスは存在しないことを表している。
図5Bは、携帯端末101から入力された音声データに応じて、同じデバイスにおいて制御できる機能を、アカウントごとに対応付けた一覧である。この一覧の情報は、アカウント管理エリア111−12に保存され、対話型電子装置111を操作することで見ることが可能である。
図5Bは、例えばアカウントa_aaa@xmail.comを用いて対話型電子装置制御システムにアクセスしてきた携帯端末101は、そのユーザが発話して映像記録再生機器132のTV(録画予約)の機能を制御して、全ての番組の予約が可能(予約済みの番組の再予約(書換え)も可能)であることを示している。またアカウントd_aaa@xmail.comを用いて対話型電子装置制御システムにアクセスしてきた携帯端末は、そのユーザが発話して映像記録再生機器132のTV(録画予約)をすることができないことを示している。
図5Cは、携帯端末から入力された音声データに対する応答の出力先を、アカウントごとに対応付けた一覧である。この一覧の情報は、アカウント管理エリア111−12に保存され、対話型電子装置111を操作することで見ることが可能である。
先に説明したように、応答が音声データによる応答の場合、基本的にはユーザの発話を収集したマイクを有する携帯端末101が管理するスピーカーに出力するが、出力先のスピーカーを変えることが可能である。
図5Cは、例えばアカウントa_aaa@xmail.comを用いて対話型電子装置制御システムにアクセスしてきた携帯端末101は、ユーザの発話を収集したマイクを有する携帯端末101が管理するスピーカーにだけ応答を出力することを示している。またアカウントd_aaa@xmail.comを用いて対話型電子装置制御システムにアクセスしてきた携帯端末101は、ユーザの発話を収集したマイクを有する携帯端末101が管理するスピーカーに、応答を出力することに加えて対話型電子装置110が管理するスピーカーにも応答を出力することを示している。
またアカウントb_aaa@xmail.comを用いて対話型電子装置制御システムにアクセスしてきた携帯端末101は、ユーザの発話を収集したマイクを有する携帯端末101が管理するスピーカーに出力するが、さらにコマンドによる応答の場合は、コマンドによる応答の内容を音声による読み上げて出力することを示している。例えば高齢者にとって、コマンドによる応答の内容を、音声により読み上げることは非常に利便性がある。
以上のように第3の実施形態の対話型電子装置制御システムは、アクセスしてきた携帯端末が用いたアカウントにより、制御できるデバイスを変えたり、同じデバイスでも制御できる内容を変えたり、出力先を変えたりすることができる。
(第4の実施形態)
第4の実施形態の対話型電子装置制御システムは、対話型電子装置制御システムにアクセスする携帯端末が使用するアカウントごとに、権限を設定することができる対話型電子装置制御システムである。また設定した権限に応じて、制御できるデバイスを変えたり、同じデバイスでも制御できる内容を変えたりすることができる対話型電子装置制御システムである。
図2に示した手順で登録された携帯端末は、さらに権限を設定することができる。権限は、例えばAdministrator(Admini)、Native1、Native2、Guest、というように複数の種類があってもよい。権限は、例えばコマンドによる応答で制御可能なデバイスの種類を決めるのに用いても良い。また、同じデバイスでも制御できる内容を変えるのに用いても良い。
例えば、Administratorは、デバイスを一番広く制御することができる権限である。Nativeは、家屋105に居住する家族が所有するアカウントに与えられる権限である。Administratorに準じてデバイスを制御することが可能な権限である。Guestは、家屋105に居住する家族以外が所有するアカウントに与えられる権限である。Nativeは、Native1とNative2に分かれていてもよく、デバイスを制御できる範囲が異なっていても良い。Native2は、例えば、普段は下宿先に居て、子供や週末だけ実家に帰ってくる家族に与えてもよい。
設定された権限は、対話型電子装置110で管理され、対話型電子装置110が権限により制御可能なデバイスを切り換える。
アカウントごとの権限により、制御が可能なデバイスに関する情報は、対話型電子装置110で管理されアカウント管理エリア111−12に保存される。また、アカウントごとの権限により、制御が可能なデバイスに関する情報は、対話型電子装置111を操作することで見ることも可能である。
図6Aは、携帯端末から入力された音声データに応じて制御することができるデバイスを、権限ごとに対応付けた一覧である。この一覧の情報は、アカウント管理エリア111−12に保存され、対話型電子装置111を操作することで見ることが可能である。
例えばアカウントa_aaa@xmail.comを用いて対話型電子装置制御システムにアクセスしてきた携帯端末101は、Adminiの権限が与えられており、そのユーザが発話して制御できるデバイスはTV(録画予約)、エアコン、玄関開閉、給湯(風呂)であることを表している。同様に、アカウントb_aaa@xmail.comを用いて対話型電子装置制御システムにアクセスしてきた携帯端末101は、Native1の権限が与えられており、そのユーザが発話して制御できるデバイスはTV(録画予約)、エアコンであることを表している。またアカウントd_aaa@xmail.comを用いて対話型電子装置制御システムにアクセスしてきた携帯端末101は、Gusetの権限が与えられており、そのユーザが発話して制御できるデバイスは存在しないことを表している。
図6Bは、携帯端末から入力された音声データに応じて、同じデバイスにおいて制御することができる機能を、権限ごとに対応付けた一覧である。この一覧の情報は、アカウント管理エリア111−12に保存され、対話型電子装置111を操作することで見ることが可能である。
例えばアカウントa_aaa@xmail.comを用いて対話型電子装置制御システムにアクセスしてきた携帯端末101は、Adminiの権限が与えられており、そのユーザが発話して映像記録再生機器132のTV(録画予約)の機能を制御することで、全ての番組の予約が可能(予約済みの番組の再予約(書換え)も可能)であることを示している。またアカウントd_aaa@xmail.comを用いて対話型電子装置制御システムにアクセスしてきた携帯端末101は、Gusetの権限が与えられており、そのユーザが発話して映像記録再生機器132のTV(録画予約)の機能を制御することができないことを示している。
以上のように第4の実施形態の対話型電子装置制御システムは、登録する携帯端末に権限を与えることにより、権限毎に対話型電子装置110が制御できるデバイスを変えたり、同じデバイスでも制御できる内容を変えたりすることができる。また、権限を管理することで、対話型電子装置制御システムにアクセスしてくる携帯端末ごとに、デバイスの制御の設定をする必要がなくなり、携帯端末ごとのデバイス制御の設定が容易になる。例えば、家に来た友人が所有する携帯端末を対話型電子装置制御システムにアクセスできるように設定した場合、権限を例えばGuestに設定すれば、Guestの権限で制御できるデバイスが既に設定されているため、デバイス制御の設定の煩わしさから解放される。
(第5の実施形態)
第5の実施形態の対話型電子装置制御システムは、対話型電子装置制御システムにアクセスする携帯端末が制御可能なデバイスの状態を表示画面に表示するのに、アカウントごとに、表示できる内容が異なる対話型電子装置制御システムである。
対話型電子装置制御システムが制御することが可能でデバイスは、例えばLiving、Kitchen、Bed Roomの各部屋に備え付けられているデバイスとする。
対話型電子装置制御システムが制御することが可能でデバイスに対して、アカウントa_aaa@xmail.comを使用して対話型電子装置制御システムにアクセスしてきた携帯端末101は、Living、Kitchen、Bed Roomの各部屋に備え付けられているデバイスを制御できるものとする。また、アカウントb_aaa@xmail.comを使用して対話型電子装置制御システムにアクセスしてきた携帯端末101は、Livingに備え付けられているデバイスの一部を制御できるもとし、他の部屋のデバイスは制御できないものとする。
図7Aは、対話型電子装置制御システムにアクセスする携帯端末が使用するアカウントごとに、携帯端末の表示画面に表示する、制御可能なデバイスの表示の例である。図7Aは、アカウントa_aaa@xmail.comのアカウントを使用する携帯端末101の表示画面に表示される、制御可能なデバイスの表示の例である。
図7A(a)がLivingに備え付けられているデバイスの状態をアカウントa_aaa@xmail.comのアカウントを使用する携帯端末101の表示画面に表示した例である。また図7A(b)がKitchenに備え付けられているデバイスの状態を携帯端末101の表示画面に表示した例である。また図7A(c)がBed Roomに備え付けられているデバイスの状態を携帯端末101の表示画面に表示した例である。
表示画面には、制御可能な各デバイスの制御画面にリンクが貼られたアイコンが表示されている。例えばOverheadアイコン701は、Overheadデバイスの制御画面にリンクが貼られている。またFloorLampアイコン702は、FloorLampデバイスの制御画面にリンクが貼られている。またHumidityアイコン704は、Humidityデバイスの制御画面にリンクが貼られている。またBrightnessアイコン705は、Brightnessデバイスの制御画面にリンクが貼られている。またCeilingFansアイコン708は、CeilingFansデバイスの制御画面にリンクが貼られている。またDoorLockアイコン709は、DoorLockデバイスの制御画面にリンクが貼られている。これらのアイコンを携帯端末101のユーザがタップすると、各々のデバイスの制御画面に遷移する。
図7A(a)、図7A(b)、図7(c)の各表示画面の表示の内容は、例えば携帯端末101の表示画面エリアを横方向にスワイプすることで、切り換えることが可能である。
一方図7Bは、アカウントb_aaa@xmail.comを使用して対話型電子装置制御システムにアクセスしてきた携帯端末101の表示画面に表示されているLivingに備え付けられているデバイスの状態を示した図である。アカウントb_aaa@xmail.comを使用して対話型電子装置制御システムにアクセスしてきた携帯端末101の表示画面には、Livingに備え付けられているデバイスの状態しか表示されない。従って、例えば携帯端末101の表示画面は、表示画面エリアを横方向にスワイプしても、KitchenやBed Roomに備え付けられているデバイスの状態の表示画面の表示に切り換わることはない。
さらに、アカウントb_aaa@xmail.comを使用して対話型電子装置制御システムにアクセスしてきた携帯端末101は、動作を制御可能なデバイスが、例えばOverheadアイコン711のデバイス、FloorLampアイコン712のデバイス、Humidityアイコン714のデバイス、Brightnessアイコン715のデバイス、CeilingFansアイコン718のデバイス、DoorLockアイコン719のデバイスであるとする。Temperatureアイコン713のデバイス、Motionアイコン716のデバイス、Thermostatアイコン717のデバイスは、携帯端末101が動作を制御することはできないが、各デバイスの動作状態を確認することはできるものとする。
この場合、携帯端末101の表示画面に表示させる各デバイスのアイコンのうち、例えば制御可能なデバイスのアイコンであるOverheadアイコン711のデバイス、FloorLampアイコン712のデバイス、Humidityアイコン714、Brightnessアイコン715、CeilingFansアイコン718、DoorLockアイコン719は、アイコンの輪郭を際立たせて制御可能であることをユーザに示しても良い。また例えば、制御することは不可能であるが動作状態を確認することは可能であるデバイスのアイコン、Temperatureアイコン713、Motionアイコン716、Thermostatアイコン717は、各アイコンの輪郭をぼかして制御することが不可能であるが動作状態を確認することは可能であることをユーザに示しても良い。
図7Cは、アカウントb_aaa@xmail.comを使用して対話型電子装置制御システムにアクセスしてきた携帯端末101の表示画面に表示されているLivingに備え付けられているデバイスの状態を示した別の例である。
アカウントb_aaa@xmail.comを使用して対話型電子装置制御システムにアクセスしてきた携帯端末101の表示画面には、制御可能なデバイスのアイコンであるOverheadアイコン711のデバイス、FloorLampアイコン712のデバイス、Humidityアイコン714、Brightnessアイコン715、CeilingFansアイコン718、DoorLockアイコン719だけを表示してもよい。
図7A、図7Bおよび図7Cの例は、対話型電子装置制御システムにアクセスする携帯端末が制御可能なデバイスの状態を表示画面に表示させるのに、アカウントごとに表示内容を変える例であるが、それ以外に、権限ごとに、携帯端末の表示画面に表示させる表示内容を変えても良い。
図5Aから図5Cの例で示したように、アカウントごとで制御可能なデバイスに関する情報は、対話型電子装置110で管理されている。したがって、各携帯端末は、各アカウントにおける制御可能なデバイスに関する情報を対話型電子装置110から取得することで、例えば図7Aから図7Cに示すような表示画面に表示する制御可能なデバイスの表示内容を、制御することが可能となる。
このように対話型電子装置制御システムにアクセスする携帯端末は、使用するアカウントごとに、制御することができるデバイスに関する表示の表示内容を変えることが可能なため、ユーザは自分の携帯端末で制御可能なデバイスを簡単に確認することができる。これにより携帯端末のユーザは、携帯端末から対話型電子装置制御システムにアクセスする場合の利便性が向上する。
本発明のいくつかの実施形態を説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。さらにまた、請求項の各構成要素において、構成要素を分割して表現した場合、或いは複数を合わせて表現した場合、或いはこれらを組み合わせて表現した場合であっても本発明の範疇である。また、複数の実施形態を組み合わせてもよく、この組み合わせで構成される実施例も発明の範疇である。
また、図面は、説明をより明確にするため、実際の態様に比べて、各部の幅、厚さ、形状等について模式的に表される場合があるが、あくまで一例であって、本発明の解釈を限定するものではない。また、本明細書と各図において、既出の図に関して前述したものと同一又は類似した機能を発揮する構成要素には同一の参照符号を付し、重複する詳細な説明を適宜省略することがある。また請求項を制御ロジックとして表現した場合、コンピュータを実行させるインストラクションを含むプログラムとして表現した場合、及び前記インストラクションを記載したコンピュータ読み取り可能な記録媒体として表現した場合でも本発明の装置を適用したものである。また、使用している名称や用語についても限定されるものではなく、他の表現であっても実質的に同一内容、同趣旨であれば、本発明に含まれるものである。
101・・・携帯端末、102・・・サービスサーバ、103・・・アカウント管理部、104・・・音声認識処理部、106・・・ネットワーク、110・・・対話型電子装置、112・・・音声出力部、113・・・スピーカー、118・・・音声取得部、119・・・マイク、120・・・Wi−Fi送受信器、121・・・Bluetooth送受信器、131・・・エアコン、132・・・映像記録再生機器

Claims (11)

  1. 入力された音声データを、音声認識サービスサーバに送信し、前記音声データを前記音声認識サービスサーバで音声認識した結果に基づき生成した応答を受信する対話型電子装置と、
    ネットワークを介して接続する携帯端末が正当な利用者であることを認証する認証管理部と
    を備える対話型電子装置制御システムであって、
    前記対話型電子装置は、
    外部から入力された第1の音声データを音声認識するために前記音声認識サービスサーバに送信すると共に、前記認証管理部で正当な利用者であることが認証された前記携帯端末からネットワークを介して入力された第2の音声データを音声認識するために前記音声認識サービスサーバに送信することが可能な、
    対話型電子装置制御システム。
  2. 前記音声認識サービスサーバは、前記対話型電子装置から送られてくる、任意のタイミングで外部から前記対話型電子装置に入力された前記第1の音声データと、任意のタイミングで前記携帯端末から前記ネットワークを介して前記対話型電子装置に入力された前記第2の音声データとを、各々独立に音声認識することが可能な、請求項1に記載の対話型電子装置制御システム。
  3. 前記音声認識サービスサーバは、前記対話型電子装置から送られてくる、任意のタイミングで外部から前記対話型電子装置に入力された前記第1の音声データと、任意のタイミングで前記携帯端末から前記ネットワークを介して前記対話型電子装置に入力された前記第2の音声データとを、各々独立に音声認識した結果にもとづき、各々独立に前記第1の音声データに対する第1の応答および前記第2の音声データに対する第2の応答を作成することが可能な、請求項2に記載の対話型電子装置制御システム。
  4. 前記第1の応答および前記第2の応答は、音声データからなる応答、前記対話型電子装置が制御するデバイスを動作させるコマンドからなる応答、の少なくともいずれか一方を含む、請求項3に記載の対話型電子装置制御システム。
  5. 前記認証管理部は、前記ネットワークを介して前記第2の音声データを送るために接続する複数の前記携帯端末に対して、正当な利用者であることを認証することが可能な、請求項1に記載の対話型電子装置制御システム。
  6. 前記対話型電子装置は、前記ネットワークを介して前記第2の音声データを送るために接続する前記携帯端末の、前記接続の際に使用するアカウントにより、前記携帯端末が制御できるデバイスの種類およびまたは制御の内容をかえることが可能な、請求項1に記載の対話型電子装置制御システム。
  7. 前記対話型電子装置は、前記ネットワークを介して前記第2の音声データを送るために接続する前記携帯端末の、接続の際に使用するアカウントに付与される権限により、前記携帯端末が制御できるデバイスの種類およびまたは制御の内容をかえることが可能な、請求項1に記載の対話型電子装置制御システム。
  8. マイクより入力された音声の第1の音声データを受信する第1の受信部と、
    ネットワークを介して送られてきた第2の音声データを受信する第2の受信部と、
    前記第1の受信部および前記第2の受信部を制御する制御部と、
    を有し、
    前記制御部は、前記第1の受信部で受信した前記第1の音声データと前記第2の受信部で受信した前記第2の音声データとを、それぞれ個別に音声認識サービスサーバに送信し、
    前記音声認識サービスサーバから送られてくる前記第1の音声データに対する第1の応答と前記第2の音声データに対する第2の応答とを、それどれ独立に処理する
    対話型電子装置。
  9. 前記第2の音声データは、正当な利用者である認証を受けた携帯端末のマイクにより収集された音声の音声データである、請求項8に記載の対話型電子装置。
  10. 前記第1の応答および前記第2の応答は、音声データからなる応答、デバイスを制御するコマンドからなる応答、の少なくともいずれか一方を含む、請求項9に記載の対話型電子装置。
  11. 入力された音声データを、音声認識サービスサーバに送信し、前記音声データを前記音声認識サービスサーバで音声認識した結果に基づき生成された応答を受信する対話型電子装置制御方法であって、
    前記音声認識サービスサーバにおいて、
    前記対話型電子装置に外部から入力された第1の音声データの音声認識処理を行うと共に、ネットワークを介して接続する、正当な利用者であることが認証された携帯端末から入力された第2の音声データの音声認識処理を行うことが可能な、
    対話型電子装置制御方法。
JP2017193057A 2017-10-02 2017-10-02 対話型電子装置制御システム、対話型電子装置、対話型電子装置制御方法 Pending JP2019066702A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017193057A JP2019066702A (ja) 2017-10-02 2017-10-02 対話型電子装置制御システム、対話型電子装置、対話型電子装置制御方法
US15/891,234 US10748545B2 (en) 2017-10-02 2018-02-07 Interactive electronic device control system, interactive electronic device, and interactive electronic device controlling method
CN201811075845.1A CN109599100B (zh) 2017-10-02 2018-09-14 交互式电子设备控制系统、交互式电子设备及其控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017193057A JP2019066702A (ja) 2017-10-02 2017-10-02 対話型電子装置制御システム、対話型電子装置、対話型電子装置制御方法

Publications (1)

Publication Number Publication Date
JP2019066702A true JP2019066702A (ja) 2019-04-25

Family

ID=65896216

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017193057A Pending JP2019066702A (ja) 2017-10-02 2017-10-02 対話型電子装置制御システム、対話型電子装置、対話型電子装置制御方法

Country Status (3)

Country Link
US (1) US10748545B2 (ja)
JP (1) JP2019066702A (ja)
CN (1) CN109599100B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148410A (zh) * 2019-06-21 2019-08-20 四川长虹电器股份有限公司 基于语音交互控制设备的系统及方法
CN111274596A (zh) * 2020-01-23 2020-06-12 百度在线网络技术(北京)有限公司 设备交互方法、权限管理方法、交互设备及用户端

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111540350B (zh) * 2020-03-31 2024-03-01 北京小米移动软件有限公司 一种智能语音控制设备的控制方法、装置及存储介质
CN114842848A (zh) * 2021-02-02 2022-08-02 华为技术有限公司 语音控制系统、方法、装置、设备以及介质、程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041276A (ja) * 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体
JP2002132292A (ja) * 2000-10-26 2002-05-09 Daisuke Murakami 音声によるホームオートメーションシステム
JP2005065156A (ja) * 2003-08-20 2005-03-10 Victor Co Of Japan Ltd 音声認識処理システム及びそれに用いる映像信号記録再生装置
JP2013257818A (ja) * 2012-06-14 2013-12-26 Ricoh Co Ltd 装置制御システム、装置制御プログラム、装置制御方法
JP2014194654A (ja) * 2013-03-28 2014-10-09 Nec Corp 作業管理システム、作業管理装置、及び、作業管理方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6963759B1 (en) 1999-10-05 2005-11-08 Fastmobile, Inc. Speech recognition technique based on local interrupt detection
JP2003114694A (ja) 2001-10-05 2003-04-18 Yamaha Corp 携帯型リモートコントロール装置
US8225380B2 (en) * 2006-05-25 2012-07-17 Celltrust Corporation Methods to authenticate access and alarm as to proximity to location
US9572033B2 (en) * 2006-05-25 2017-02-14 Celltrust Corporation Systems and methods for encrypted mobile voice communications
US20120149343A1 (en) * 2010-12-14 2012-06-14 Symbol Technologies, Inc. System and method for staging a mobile device through a voice staging server
EP2676497B1 (en) * 2011-02-15 2018-04-18 BlackBerry Limited System and method for identity management for mobile devices
JP6059253B2 (ja) 2012-12-28 2017-01-11 株式会社レイトロン 音声認識デバイス
KR20140089863A (ko) * 2013-01-07 2014-07-16 삼성전자주식회사 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
US10133546B2 (en) 2013-03-14 2018-11-20 Amazon Technologies, Inc. Providing content on multiple devices
US10031721B2 (en) * 2014-05-15 2018-07-24 Tyco Safety Products Canada Ltd. System and method for processing control commands in a voice interactive system
CN104392353A (zh) * 2014-10-08 2015-03-04 无锡指网生物识别科技有限公司 语音识别终端的支付方法及系统
US10438593B2 (en) 2015-07-22 2019-10-08 Google Llc Individualized hotword detection models
CN106531154A (zh) * 2016-11-15 2017-03-22 传世未来(北京)信息科技有限公司 认证方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041276A (ja) * 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体
JP2002132292A (ja) * 2000-10-26 2002-05-09 Daisuke Murakami 音声によるホームオートメーションシステム
JP2005065156A (ja) * 2003-08-20 2005-03-10 Victor Co Of Japan Ltd 音声認識処理システム及びそれに用いる映像信号記録再生装置
JP2013257818A (ja) * 2012-06-14 2013-12-26 Ricoh Co Ltd 装置制御システム、装置制御プログラム、装置制御方法
JP2014194654A (ja) * 2013-03-28 2014-10-09 Nec Corp 作業管理システム、作業管理装置、及び、作業管理方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148410A (zh) * 2019-06-21 2019-08-20 四川长虹电器股份有限公司 基于语音交互控制设备的系统及方法
CN111274596A (zh) * 2020-01-23 2020-06-12 百度在线网络技术(北京)有限公司 设备交互方法、权限管理方法、交互设备及用户端
JP2021117972A (ja) * 2020-01-23 2021-08-10 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド デバイス対話方法、権限管理方法、対話型デバイスおよびクライアント
JP7143378B2 (ja) 2020-01-23 2022-09-28 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド デバイス対話方法、権限管理方法、対話型デバイスおよびクライアント
CN111274596B (zh) * 2020-01-23 2023-03-14 百度在线网络技术(北京)有限公司 设备交互方法、权限管理方法、交互设备及用户端

Also Published As

Publication number Publication date
CN109599100A (zh) 2019-04-09
US10748545B2 (en) 2020-08-18
CN109599100B (zh) 2023-08-01
US20190103116A1 (en) 2019-04-04

Similar Documents

Publication Publication Date Title
CN107910007B (zh) 语音接口设备上的多用户个性化
US11670297B2 (en) Device leadership negotiation among voice interface devices
US11869527B2 (en) Noise mitigation for a voice interface device
CN108022590B (zh) 语音接口设备处的聚焦会话
CN109599100B (zh) 交互式电子设备控制系统、交互式电子设备及其控制方法
WO2018067528A1 (en) Device leadership negotiation among voice interface devices
KR20190072620A (ko) 결합된 어쿠스틱 도파관 및 방열판을 갖는 콤팩트 홈 어시스턴트에 대한 설계
US20140244267A1 (en) Integration of user orientation into a voice command system
US20200280763A1 (en) Video integration with home assistant
JP7079650B2 (ja) カラオケシステム
JP2023023451A (ja) 補聴器調整システム、通信端末、及びコンピュータプログラム
JP2021150728A (ja) インターホンシステム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20180423

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191025

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200728

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210302