JP6731894B2 - デバイス制御方法及び電子機器 - Google Patents

デバイス制御方法及び電子機器 Download PDF

Info

Publication number
JP6731894B2
JP6731894B2 JP2017157389A JP2017157389A JP6731894B2 JP 6731894 B2 JP6731894 B2 JP 6731894B2 JP 2017157389 A JP2017157389 A JP 2017157389A JP 2017157389 A JP2017157389 A JP 2017157389A JP 6731894 B2 JP6731894 B2 JP 6731894B2
Authority
JP
Japan
Prior art keywords
voice input
voice
position information
electronic device
command word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017157389A
Other languages
English (en)
Other versions
JP2018194810A (ja
Inventor
ウンジョン チェー
ウンジョン チェー
ジヒ パク
ジヒ パク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2018194810A publication Critical patent/JP2018194810A/ja
Application granted granted Critical
Publication of JP6731894B2 publication Critical patent/JP6731894B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Description

以下の説明は、ユーザの発話位置によるデバイス制御に関する技術であって、より詳細には、音声入力に該当する命令語からユーザの発話位置を追加的で判断してデバイス動作やコンテンツ提供を制御するデバイス制御方法およびシステム、コンピュータと結合してデバイス制御方法をコンピュータに実行させるためにコンピュータで読み取り可能な記録媒体に格納されたコンピュータプログラムとその記録媒体等に関する。
ホームネットワークサービスの人工知能スピーカのように音声を基盤として動作するインタフェースは、マイク(microphone)を通じてユーザの音声入力を受信し、受信した音声入力に基づいてデバイス動作やコンテンツ提供を制御することができる。
例えば、特許文献1(公開日2011年12月30日)は、ホームメディアデバイスおよびこれを利用したホームネットワークシステムと方法に関する技術であって、ホームネットワークサービスにおいて移動通信網の他にWi−Fi(ワイファイ)のような第2通信網を利用してホームネットワークサービスを提供することが可能であり、ホーム内の複数のマルチメディア機器をユーザのボタン操作がなくても音声命令にしたがって多重制御することができる技術を開示している。
このような従来技術では、制御対象デバイスが複数ある場合、予め登録されたデバイス名称を用いた発話によってデバイス制御が可能となる。しかし、同じ役割をするデバイスが複数ある場合には、それぞれのデバイス名称を区分して登録し、更に、登録されたものをユーザがすべて記憶しなければならないという困難がある。主に音声を基盤として動作し、視覚情報は使用しないため、複数のオプションからの選択が必要な場合には、具体的な要求事項や命令形態などを言葉で構造化して表現しなければならないという問題がある。
韓国公開特許第10−2011−0139797号公報
口語体形態で容易に表現可能な発話形態(例えば、くだけた会話口調)を把握し、ユーザの意図に合ったデバイスを制御することができるデバイス制御方法およびシステム、コンピュータと結合してデバイス制御方法をコンピュータに実行させるためにコンピュータで読み取り可能な記録媒体に格納されたコンピュータプログラムとその記録媒体を提供する。
会話の脈を把握し、ユーザの意図に合ったデバイスを制御することができるデバイス制御方法およびシステム、コンピュータと結合してデバイス制御方法をコンピュータに実行させるためにコンピュータで読み取り可能な記録媒体に格納されたコンピュータプログラムとその記録媒体を提供する。
デバイス使用パターンおよび履歴に基づき、ユーザ意図に合ったデバイスを制御することができるデバイス制御方法およびシステム、コンピュータと結合してデバイス制御方法をコンピュータに実行させるためにコンピュータで読み取り可能な記録媒体に格納されたコンピュータプログラムとその記録媒体を提供する。
音声基盤インタフェースを含む電子機器のデバイス制御方法であって、前記音声基盤インタフェースを通じてユーザの音声入力による命令語を受信する段階、前記命令語の分析の結果、位置情報が必要な場合、前記音声入力と関連する位置情報を取得する段階、および前記位置情報を利用して、前記電子機器が制御することが可能なデバイスのうちから制御対象デバイスを特定し、前記命令語に対応する動作を制御対象デバイスに実行させる段階を含む、デバイス制御方法を提供する。
コンピュータと結合して前記デバイス制御方法をコンピュータに実行させるためにコンピュータで読み取り可能な記録媒体に格納された、コンピュータプログラムを提供する。
前記デバイス制御方法をコンピュータに実行させるためのプログラムが記録されている、コンピュータで読み取り可能な記録媒体を提供する。
電子機器であって、音声基盤インタフェース、およびコンピュータで読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、前記音声基盤インタフェースを通じてユーザの音声入力による命令語を受信し、前記命令語の分析の結果、位置情報が必要な場合、前記音声入力と関連する位置情報を取得し、前記位置情報を利用して、前記電子機器が制御することが可能なデバイスのうちから制御対象デバイスを特定し、前記命令語に対応する動作を制御対象デバイスに実行させる、電子機器を提供する。
音声入力に該当する命令語にしたがってユーザの発話位置を追加的に判断し、命令語に適合するデバイスを選択することができる。
命令語に指示代名詞などが含まれる場合、ユーザの位置に基づき、ユーザの意図に合ったデバイスを推定することができる。
会話脈からユーザの位置を推定し、ユーザの意図に合ったデバイスを推定することができる。
デバイス使用パターンおよび履歴に基づき、ユーザの意図に合ったデバイスを推定することができる。
本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の例を示した図である。 本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の他の例を示した図である。 本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。 本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。 本発明の一実施形態における、デバイス制御方法の例を示したフローチャートである。 本発明の一実施形態における、指示代名詞が含まれた音声入力にしたがって制御対象デバイスを決定する例を示した図である。 本発明の一実施形態における、指示代名詞が含まれた音声入力にしたがって制御対象デバイスを決定する例を示した図である。 本発明の一実施形態における、位置や指示対象が省略された音声入力にしたがって制御対象デバイスを決定する例を示した図である。 本発明の一実施形態における、位置や指示対象が省略された音声入力にしたがって制御対象デバイスを決定する例を示した図である。 本発明の一実施形態における、ユーザ行動パターン学習に基づいて制御対象デバイスを決定する例を示した図である。
以下、実施形態について、添付の図面を参照しながら詳しく説明する。
本発明の実施形態に係るデバイス制御システムは、音声を基盤として動作するインタフェースを提供する電子機器によって実現されてよい。電子機器は、発話者の音声入力による命令語から発話者の位置を追加的に判断してデバイス動作やコンテンツ提供を制御してよい。ここで、電子機器は、命令語に指示代名詞が含まれるか、命令語が不完全な文章で構成される場合、ユーザの位置に基づいてユーザの意図に合ったデバイスを推定してよい。さらに、電子機器は、発話者の音声入力による会話脈を把握するか、デバイス使用パターンやデバイス制御履歴を把握することで、ユーザ意図に合ったデバイスを推定してよい。
本発明の実施形態に係るデバイス制御方法は、上述した電子機器で実行されてよい。ここで、電子機器には、本発明の一実施形態に係るコンピュータプログラムがインストールおよび駆動されてよく、電子機器は、駆動するコンピュータプログラムの制御にしたがって本発明の一実施形態に係るデバイス制御方法を実行してよい。上述したコンピュータプログラムは、コンピュータによって実現される電子機器と結合してデバイス制御方法をコンピュータに実行させるためにコンピュータで読み取り可能な記録媒体に格納されてよい。
図1は、本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の例を示した図である。図1の実施形態では、スマートホーム(smart home)やホームネットワークサービスのように宅内のデバイスを連結して制御する技術において、音声を基盤として動作するインタフェースを提供する電子機器100がユーザ110の発話「電気を消して」という音声入力を受信して認識および分析し、宅内で電子機器100と内部ネットワークを介して連携する宅内照明機器120のライト電源を制御する例を示している。
例えば、宅内のデバイスは、上述した宅内照明機器120の他にも、テレビ、PC(Personal Computer)、周辺機器、エアコン、冷蔵庫、ロボット掃除機などのような家電製品はもちろん、水道、電気、冷暖房機器などのようなエネルギー消費装置、ドアロックや監視カメラなどのような保安機器など、オンライン上で連結して制御されることができる多様なデバイスを含んでよい。また、内部ネットワークは、イーサネット(登録商標(Ethernet))、HomePNA、IEEE 1394のような有線ネットワーク技術や、ブルートゥース(登録商標(Bluetooth))、UWB(Ultra Wide Band)、ジグビー(ZigBee)、Wireless 1394、Home RFのような無線ネットワーク技術などが活用されてよい。
電子機器100は、宅内のデバイスのうちの1つであってよい。例えば、電子機器100は、宅内に備えらえた人工知能スピーカやロボット清掃機などのようなデバイスの1つであってよい。また、電子機器100は、スマートフォン(smart phone)、携帯電話、ノート型パンコン、デジタル放送用端末、PDA(Personal Digital Assistants)、PMP(Portable Multimedia Player)、タブレットなどのようなユーザ110のモバイル機器であってもよい。このように、電子機器100は、ユーザ110の音声入力を受信して宅内のデバイスを制御するために宅内のデバイスと連結可能な機能を含む機器であれば、特に制限されることはない。また、実施形態によっては、上述したユーザ110のモバイル機器が宅内のデバイスとして含まれてもよい。
図2は、本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の他の例を示した図である。図2は、音声を基盤として動作するインタフェースを提供する電子機器100がユーザ110の発話「今日の天気」という音声入力を受信して認識および分析し、外部ネットワークを介して外部サーバ210から今日の天気に関する情報を取得し、取得した情報を「今日の天気は・・・」のように音声で出力する例を示している。
例えば、外部ネットワークは、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークうちの1つ以上の任意のネットワークを含んでよい。
図2の実施形態でも、電子機器100は、宅内のデバイスの1つであるか、ユーザ110のモバイル機器の1つであってよく、ユーザ110の音声入力を受信して処理するための機能と、外部ネットワークを介して外部サーバ210に接続して外部サーバ210が提供するサービスやコンテンツをユーザ110に提供するための機能を含む機器であれば、特に制限されることはない。
このように、本発明の実施形態に係る電子機器100は、音声基盤インタフェースを通じてユーザ110の発話によって受信する音声入力を少なくとも含むユーザ命令を処理することができる機器であれば、特に制限されることはない。例えば、電子機器100は、ユーザの音声入力を直接に認識および分析して音声入力に適した動作を実行することによってユーザ命令を処理してもよいが、実施形態によっては、ユーザの音声入力に対する認識や認識された音声入力の分析、ユーザに提供される音声の合成などの処理を、電子機器100と連係する外部のプラットフォームで実行することも可能である。
図3は、本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。図3は、電子機器310、クラウド人工知能プラットフォーム320、およびコンテンツ・サービス330を示している。
一例として、電子機器310は、宅内に備えられるデバイスを意味してよく、少なくとも上述した電子機器100を含んでよい。このような電子機器310や電子機器310にインストールおよび駆動されるアプリケーション(以下、アプリ)は、インタフェースコネクト340を通じてクラウド人工知能プラットフォーム320と連係してよい。ここで、インタフェースコネクト340は、電子機器310や電子機器310にインストールおよび駆動されるアプリの開発のためのSDK(Software Development Kit)および/または開発文書を開発者に提供してよい。また、インタフェースコネクト340は、電子機器310や電子機器310にインストールおよび駆動されるアプリがクラウド人工知能プラットフォーム320の提供する機能を活用することができるAPI(Application Program Interface)を提供してよい。具体的な例として、開発者は、インタフェースコネクト340が提供するSDK(Software Development Kit)および/または開発文書を利用して開発した機器やアプリは、インタフェースコネクト340が提供するAPIを利用してクラウド人工知能プラットフォーム320が提供する機能を活用できるようになる。
ここで、クラウド人工知能プラットフォーム320は、音声基盤のサービスを提供するための機能を提供してよい。例えば、クラウド人工知能プラットフォーム320は、受信した音声を認識し、出力する音声を合成するための音声処理モジュール321、受信した映像や動画を分析して処理するためのビジョン処理モジュール322、受信した音声にしたがって適合する音声を出力するために適切な会話を決定するための会話処理モジュール323、受信した音声に適した機能を勧めるための推薦モジュール324、人工知能がデータ学習に基づいて文章単位で言語を翻訳するように支援する人工神経網基盤機械翻訳(Neural Machine Translation:NMT)325などのように、音声基盤サービスを提供するための多様なモジュールを含んでよい。
例えば、図1および図2の実施形態において、電子機器100は、ユーザ110の音声入力を、インタフェースコネクト340から提供されるAPIを利用してクラウド人工知能プラットフォーム320に送信してよい。この場合、クラウド人工知能プラットフォーム320は、受信した音声入力を上述したモジュール321〜325を活用して認識および分析してよく、受信した音声入力にしたがって適切な返答音声を合成して提供したり、適切な動作を勧めたりしてよい。
また、拡張キット350は、第三者のコンテンツ開発者または会社がクラウド人工知能プラットフォーム320を基盤として新たな音声基盤機能を実現することができる開発キットを提供してよい。例えば、図2の実施形態において、電子機器100は、受信したユーザ110の音声入力を外部サーバ210に送信してよく、外部サーバ210は、拡張キット350から提供されるAPIを通じてクラウド人工知能プラットフォーム320に音声入力を送信してよい。この場合、上述した説明と同じように、クラウド人工知能プラットフォーム320は、受信した音声入力を認識および分析して適切な返答音声を合成して提供したり、音声入力にしたがって処理されるべき機能に関する推薦情報を外部サーバ210に提供したりしてよい。一例として、図2において、外部サーバ210は、音声入力「今日の天気」をクラウド人工知能プラットフォーム320に送信してよく、クラウド人工知能プラットフォーム320から、音声入力「今日の天気」の認識によって抽出されるキーワード「今日の」および「天気」を受信してよい。この場合、外部サーバ210は、キーワード「今日の」および「天気」に基づいて「今日の天気は・・・」のようなテキスト情報を生成し、再びクラウド人工知能プラットフォーム320に生成されたテキスト情報を送信してよい。ここで、クラウド人工知能プラットフォーム320は、テキスト情報を音声で合成して外部サーバ210に提供してよい。外部サーバ210は、合成された音声を電子機器100に送信してよく、電子機器100は、合成された音声「今日の天気は・・・」をスピーカから出力することにより、ユーザ110から受信した音声入力「今日の天気」が処理されてよい。
このとき、電子機器100は、音声入力に対応するデバイス動作やコンテンツ提供のために、本発明の実施形態に係るデバイス制御方法を実行してよい。
図4は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。図4の電子機器410は、上述した電子機器100に対応してよく、サーバ420は、上述した外部サーバ210やクラウド人工知能プラットフォーム320を実現する1つのコンピュータ装置に対応してよい。
電子機器410とサーバ420は、メモリ411、421、プロセッサ412、422、通信モジュール413、423、および入力/出力インタフェース414、424を含んでよい。メモリ411、421は、コンピュータで読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永久大容量記憶装置(permanent mass storage device)を含んでよい。ここで、ROMとディスクドライブのような永久大容量記憶装置は、メモリ411、421とは区分される別の永久格納装置として電子機器410やサーバ420に含まれてもよい。また、メモリ411、421には、オペレーティングシステム(OS)と、少なくとも1つのプログラムコード(一例として、電気機器410にインストールされて特定のサービスの提供のために電子機器410で駆動するアプリケーションなどのためのコード)が格納されてよい。このようなソフトウェア構成要素は、メモリ411、421とは別のコンピュータで読み取り可能な記録媒体からロードされてよい。このような別のコンピュータで読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD−ROMドライブ、メモリカードなどのコンピュータで読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータで読み取り可能な記録媒体ではない通信モジュール413、423を通じてメモリ411、421にロードされてもよい。例えば、少なくとも1つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システムがネットワーク430を介して提供するファイルによってインストールされるプログラム(一例として、上述したアプリケーション)に基づいて電子機器410のメモリ411にロードされてよい。
プロセッサ412、422は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ411、421または通信モジュール413、423によって、プロセッサ412、422に提供されてよい。例えば、プロセッサ412、422は、メモリ411、421のような記録装置に格納されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
通信モジュール413、423は、ネットワーク430を介して電子機器410とサーバ420が互いに通信するための機能を提供してもよく、電子機器410および/またはサーバ420が他の電子機器または他のサーバと通信するための機能を提供してもよい。一例として、電子機器410のプロセッサ412がメモリ411のような記録装置に格納されたプログラムコードにしたがって生成した要求が、通信モジュール213の制御にしたがってネットワーク430を介してサーバ420に伝達されてよい。これとは逆に、サーバ420のプロセッサ422の制御にしたがって提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール223とネットワーク430を経て電子機器410の通信モジュール213を通じて電子機器410に受信されてもよい。例えば、通信モジュール213を通じて受信したサーバ420の制御信号や命令、コンテンツ、ファイルなどは、プロセッサ412やメモリ411に伝達されてよく、コンテンツやファイルなどは、電子機器410がさらに含むことのできる格納媒体(上述した永久格納装置)に格納されてよい。
入力/出力インタフェース414は、入力/出力装置415とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、またはマウスなどの装置を、出力装置は、ディスプレイやスピーカのような装置を含んでよい。他の例として、入力/出力インタフェース414は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置415は、電子機器410と1つの装置で構成されてもよい。また、サーバ420の入力/出力インタフェース424は、サーバ420と連結するかサーバ420が含むことのできる入力または出力のための装置(図示せず)とのインタフェースのための手段であってよい。
また、他の実施形態において、電子機器410およびサーバ420は、図4の構成要素よりも多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、電子機器410は、上述した入力/出力装置415のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、GPS(Global Positioning System)モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、電子機器410がスマートフォンである場合、一般的にスマートフォンが含んでいる加速度センサやジャイロセンサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力/出力ポート、振動のための振動器などの多様な構成要素が電子機器410にさらに含まれるように実現されてよい。
本実施形態において、電子機器410は、ユーザの音声入力を受信するためのマイクを入力/出力装置415として基本的に含んでよく、ユーザの音声入力に対応する返答音声やオーディオコンテンツのような音を出力するためのスピーカを入力/出力装置415としてさらに含んでよい。
図5は、本発明の一実施形態における、デバイス制御方法の例を示したフローチャートである。本発明の実施形態に係るデバイス制御方法は、上述した電子機器410のようなコンピュータ装置によって実行されてよい。このとき、電子機器410のプロセッサ412は、メモリ411が含むオペレーティングシステムのコードや少なくとも1つのプログラムのコードによる制御命令(instruction)を実行するように実現されてよい。ここで、プロセッサ412は、電子機器410に格納されたコードが提供する制御命令にしたがい、電子機器410が図5のデバイス制御方法に含まれる段階510〜540を実行するように電子機器410を制御してよい。
段階510で、電子機器410は、音声基盤インタフェースを通じて発話者から音声入力による命令語を受信してよい。例えば、電子機器410は、電子機器410が含むマイクまたは電子機器410と連動するマイクのような音声入力装置を通じてユーザの発話による音声入力を受信してよい。発話者の音声入力を受信する技術は、音声認識に関する周知の技術から当業者が容易に理解できるであろう。
段階520で、電子機器410は、発話者の音声入力によって受信した命令語の分析結果、位置判断が必要な場合、音声入力と関連する発話者の位置情報を取得してよい。一例として、電子機器410は、命令語に指示代名詞(例えば、ここ、そこ、あそこ、こちら、そちら、あちら、こっち、そっち、あっち、その場所など)が含まれる場合あるいは命令語が場所や指示対象などが省略された不完全文章で構成される場合、位置判断のための追加的な処理が行われてもよい。したがって、電子機器410は、音声入力による命令語だけでは制御対象位置や制御対象デバイスの特定が難しい場合には、命令語に基づいて発話者の位置情報を追加的に取得してよい。電子機器410は、位置判断に対する推定が必要な場合に音声入力と関連する発話者の位置情報を取得するが、このとき、音声入力と関連する発話者の位置情報は、音声入力の受信と関連する時点または期間に測定される電子機器410に対する発話者の相対的な位置や方向、相対的な位置や方向の変化の有無、および相対的な位置や方向の変化方向のうちの少なくとも1つを含んでよい。
例えば、電子機器410は、音声基盤インタフェースが含む複数のマイクに入力される音声入力の位相偏移(phase shift)に基づいて音声入力と関連する位置情報を取得してよい。複数のマイクに入力される同じ音信号の位相偏移を利用して音信号の発生位置を測定する技術は、ビームフォーミング(beam forming)技術のように周知の技術から当業者が簡単に理解できるであろう。この場合、位置情報が発話者の音声入力によって測定されるため、発話者が特定の方向を向いている必要がなく、発話者の発話の認識が可能な距離以内であれば発話者の位置が制限されることもない。また、音声基盤インタフェース以外の別の装置が電子機器410に追加される必要はなく、発話者の位置情報を取得することが可能となる。
実施形態によっては、発話者の位置情報を取得するために、電子機器410がカメラやセンサのような追加装備を含む場合も考慮できるが、音声基盤インタフェースを通じて測定される発話者の位置情報とカメラやセンサのような追加装備を利用して測定される発話者の位置情報が活用されてもよい。カメラおよび/またはセンサを活用する場合、電子機器410は、音声入力が受信する場合のカメラおよび/またはセンサの出力値に基づいて音声入力と関連する位置情報を取得してよい。
一例として、電子機器410は、発話者の位置を視覚的に特定するために光学デバイスをポーリングしてよい。カメラのような光学デバイスは、ユーザを識別するための認識ソフトウェア(例えば、顔認識、特徴認識など)を利用してよい。ここで、ポーリングは、光学デバイスで光学情報を取得することに対し、情報を要求するか又は要求せずに情報を受信することを含んでよい。光学デバイスの他にも、発話者の位置を視覚的に特定するために音声デバイスをポーリングすることも可能である。音声ツールは、事前に記録された音声プロファイルに基づいて音声入力による発話者を識別するために使用されてよい。
さらに、電子機器410は、発話者の音声入力による会話脈やデバイス制御履歴に基づいて音声入力と関連する発話者の位置情報を取得してよい。言い換えれば、電子機器410は、発話者の以前会話の脈やデバイス制御履歴を把握して発話者の相対的な位置や方向、相対的な位置や方向の変化の有無、および相対的な位置や方向の変化方向のうちの少なくとも1つを含む位置情報を取得してよい。例えば、ここ最近、音声を基盤として動作するインタフェースを通じて料理のレシピに関する質問や料理のためのタイマー設定などの動作履歴があれば、該当の動作を指示した音声入力の会話脈やデバイス制御履歴に基づき、発話者の現在位置あるいは最近の位置が「台所」であることを推定してよい。
段階530で、電子機器410は、発話者の音声入力によって受信した命令語に対し、発話者の位置情報に基づいて制御対象デバイスを特定してよい。電子機器410は、音声入力による命令語だけでは制御対象位置や制御対象デバイスの特定が難しい場合には、音声入力と関連する発話者の位置情報を基準として発話者の音声入力に適したデバイスを特定してよい。
一例として、電子機器410は、発話者の音声入力によって受信した命令語に指示代名詞が含まれる場合、発話者の位置情報に基づいて制御対象デバイスを特定してよい。例えば、電子機器410は、発話者の音声入力に対応する動作が可能なデバイスのうち、発話者から最も近い位置にあるデバイス、あるいは発話者から最も遠い位置にあるデバイス、あるいは発話者の方向に位置するデバイス、あるいは発話者の方向とは反対の場所に位置するデバイスなどを制御対象デバイスとして特定してよい。一例として、発話者の音声入力によって受信した命令語に「ここ」、「こちら」、「こっち」などのような意味の指示代名詞が含まれる場合には、発話者から最も近い位置にあるデバイスまたは発話者の方向に位置するデバイスを制御対象デバイスとして特定してよい。他の例として、発話者の音声入力によって受信した命令語に「あそこ」、「あちら」、「あっち」などのような意味の指示代名詞が含まれる場合には、発話者から最も遠い位置にあるデバイスまたは発話者の方向とは反対の場所に位置するデバイスを制御対象デバイスとして特定してよい。さらに他の例として、発話者の音声入力によって受信した命令語に「そこ」、「その場所」などのような意味の指示代名詞が含まれる場合には、発話者が最近までいた以前の位置にあるデバイスを制御対象デバイスとして特定してよい。
他の例として、電子機器410は、発話者の音声入力によって受信した命令語が、場所や指示対象などが省略された不完全文章で構成される場合、発話者の位置情報に基づいて制御対象デバイスを特定してよい。すなわち、電子機器410は、会話脈から省略された指示対象に対する部分を発話者の位置情報に基づいて推定してよい。このとき、電子機器410は、発話者の音声入力による以前会話の脈やデバイス制御履歴から推定された発話者の位置情報に基づいて制御対象デバイスを特定してよい。例えば、音声入力「動画をつけて」のように場所や指示対象が省略された命令語の場合には、発話者の音声入力に対応する動作が可能なデバイスのうちから発話者が最近までいた位置にあるデバイスを制御対象デバイスとして特定してよい。
電子機器410は、発話者の音声入力によって受信した命令語に対応する1つの制御動作に対する制御対象デバイスとして2つ以上のデバイスが特定された場合、デバイス使用パターンやデバイス制御履歴に基づいて発話者の意図に合ったデバイスを選択してよい。電子機器410は、音声入力による命令語だけでは制御対象位置や制御対象デバイスの特定が難しい場合(対象候補が複数存在する場合)、音声入力と関連する発話者の位置情報に基づいて制御対象デバイスを特定する。このとき、複数の制御対象デバイスが特定された場合には、特定されたデバイスのうちからユーザ行動パターン学習に基づいてより適したデバイスを選択してよい。例えば、音声入力「アニメーションキャラクタAの動画をつけて」のような命令語を受信した場合、該当のコンテンツが主に再生されていることを示すデバイス履歴を把握し、履歴が最も多いデバイスを制御対象デバイスとして選定してよい。
したがって、電子機器410は、音声入力による命令語だけでは制御対象デバイスの特定が難しい場合には、音声入力と関連する発話者の位置情報に基づいて発話者の意図に合ったデバイスを推定することができる。さらに、電子機器410は、発話者の音声入力による会話脈を把握するか、デバイス使用パターンまたはデバイス制御履歴を把握することにより、より適した制御対象デバイスを選択することができる。
段階540で、電子機器410は、発話者の音声入力によって受信した命令語に対応する動作を制御するために、段階530で特定された制御対象デバイスに該当の命令語を伝達してよい。電子機器410は、発話者の意図に合った動作が制御対象デバイスで行われるように、発話者の音声入力による命令語を該当のデバイスに伝達してよい。電子機器410は、発話者の音声入力による命令語を制御対象デバイスに伝達するに先立ち、制御対象の位置や制御対象デバイスの確認、推薦のための情報を音声で出力してよい。例えば、電子機器410は、音声入力「電気を消して」を認識および分析し、位置や対象を特定の情報、例えば「リビングの電気を消しましょうか?」のような確認または推薦音声をスピーカから出力してよく、これにより、音声入力「うん」が受信されることにより、リビングにある照明機器の電源を消すように該当のデバイスに命令を伝達してよい。
したがって、電子機器410は、位置や指示対象などが特定されない音声入力に対して発話者の位置を追加的に判断することにより、発話者の意図に合ったデバイス動作やコンテンツ提供を制御することができる。これにより、指示代名詞を利用した発話形態や、位置や指示対象などが省略された発話形態であっても、発話者の位置に基づき、多数のディスプレイや照明、多数のスピーカ、部屋別の温度制御装置など、宅内に存在する同じ機能の複数デバイスに対する選択的な制御が可能となる。
図6〜図7は、本発明の一実施形態における、指示代名詞が含まれた音声入力にしたがって制御対象デバイスを決定する例を示した図である。
図6は、音声基盤インタフェースを含む電子機器410がユーザ110の発話「ここのTVをつけて」を認識および分析し、電子機器410と内部ネットワークを介して連動する宅内TV610の電源を制御する(すなわち、電源をONにする)例を示している。ユーザ110の音声入力「ここのTVをつけて」に指示代名詞「ここ」が含まれているため、位置判断に対する推定が必要となり、これにより、ユーザ110の位置情報を追加的に取得し、これに基づいてユーザ110が意図する制御対象デバイスを選定してよい。
指示代名詞によって発話者とデバイス間の位置関係が事前に定められてもよく、例えば、「ここ」、「こちら」、「こっち」などのような意味の指示代名詞が含まれる場合には、発話者から最も近い位置にあるデバイスまたは発話者の方向に位置するデバイスを、「あそこ」、「あちら」、「あっち」などのような意味の指示代名詞が含まれる場合には、発話者から最も遠い位置にあるデバイスまたは発話者の方向とは反対の場所に位置するデバイスを、「そこ」、「その場所」などのような意味の指示代名詞が含まれる場合には、発話者が最近までいた以前位置にあるデバイスを、制御対象デバイスとして特定してよい。
電子機器410は、電子機器410と連動する複数の互いに異なるデバイスの位置を管理してよい。ここで、宅内のデバイスの位置は、多様な方式に設定されてよい。例えば、このような位置は、ユーザ110や管理者によって電子機器410に入力および設定されてもよいし、電子機器410が他の電子機器と通信するために送受信する信号の強度などのように周知の位置測位技術を活用して測定されてもよい。モバイル機器の場合には、位置測位技術を活用してその位置が動的に測定されてよい。このとき、電子機器410は、ユーザ110の位置と複数の他のデバイスの位置に基づいて測定されるユーザ110と複数の他の電子機器間の距離をさらに利用して制御対象デバイスを決定してよい。ここで、ユーザ110の位置がユーザ110の発話を基盤として測定されることは、上述したとおりである。
例えば、図6に示すように、ユーザ110がリビングに立って「ここのTVをつけて」を発話した場合、音声入力に指示代名詞「ここ」が含まれることによってユーザ110の位置を推定し、宅内の複数のTVのうちからユーザ110の位置と最も近いリビングにあるTV610を制御対象デバイスとして選択してよい。
他の例として、図7は、音声基盤インタフェースを含む電子機器410がユーザ110の発話「あっちの部屋のエアコンをつけて」を認識および分析し、電子機器410と内部ネットワークを介して連動する宅内温度制御装置710の電源を制御する例を示している。ユーザ110がリビングに立って「あっちの部屋のエアコンをつけて」を発話した場合、音声入力に指示代名詞「あっち」が含まれることによってユーザ110の位置を推定し、宅内温度制御装置のうちからユーザ110の位置と最も遠い部屋にある温度制御装置710を制御対象デバイスとして選択してよい。
図8〜図9は、本発明の一実施形態における、位置や指示対象が省略された音声入力にしたがって制御対象デバイスを決定する例を示した図である。
図8は、音声基盤インタフェースを含む電子機器410がユーザ110の発話「動画をつけて」を認識および分析し、電子機器410と内部ネットワークを介して連動する宅内ディスプレイ810を制御する(ONにする、或いは、動画を再生する)例を示している。例えば、ユーザ110が音声基盤インタフェースを通じてレシピに関する質問または料理のためのタイマー設定などの動作をした後、所定の時間以内に「動画をつけて」を発話した場合、以前の音声入力の会話脈やデバイス制御履歴からユーザ110が台所に位置することを推定し、台所付近に設置されたディスプレイ(例えば、TVや冷蔵庫ディスプレイなど)810に該当のコンテンツを伝達してよい。あるいは、ユーザ110の発話「プルコギのレシピ動画をつけて」に対して発話内容自体の会話脈を分析し、ユーザ110の位置が台所付近であることを推定することも可能である。
図9を参照すると、ユーザ110が音声基盤インタフェースを通じて台所で料理に関する要求をした後、リビングに戻ってきて「そこの電気を消して」を発話した場合、音声入力に指示代名詞「そこ」が含まれることによってユーザ110の位置を推定し、宅内照明のうちからユーザ110が最近までいた以前位置の照明910を制御対象デバイスとして選択してよい。
図10は、本発明の一実施形態における、ユーザ行動パターン学習に基づいて制御対象デバイスを決定する例を示した図である。
図10は、音声基盤インタフェースを含む電子機器410がユーザ110の発話「アニメーションキャラクタAの動画をつけて」を認識および分析し、電子機器410と内部ネットワークを介して連動する宅内ディスプレイ1010を制御する例を示している。電子機器410は、ユーザ110の発話「アニメーションキャラクタAの動画をつけて」には位置や指示対象などが省略されているため、ユーザ110の位置を追加的に判断してよく、ユーザ110の位置を基準として制御対象デバイスを選択してよい。例えば、ユーザ110が位置するリビングに動画再生が可能なデバイスとしてTV610とタブレット1010が存在する場合、該当のコンテンツが主に再生されたデバイス履歴を把握し、TV610とタブレット1010のうちから該当の履歴が最も多いデバイスを選定してコンテンツ再生を制御してよい。これと同様に、ユーザ110の発話「ヒップホップをかけて」に対し、ユーザ110の周辺に音声コンテンツ出力が可能なデバイスが複数存在する場合には、該当の音楽ジャンルが主に再生されたデバイス履歴を把握し、該当の履歴が最も多いデバイスを制御対象デバイスとして選定してコンテンツ再生を制御してよい。
以上のように、本発明の実施形態によると、発話者の音声入力による命令語にしたがって発話者の位置を追加的に判断した後、命令語に適したデバイスを選定してデバイス動作やコンテンツ提供を制御することができる。特に、命令語に指示代名詞が含まれるか、命令語から位置や指示対象が省略された不完全文章で構成される場合、ユーザの位置を基盤としてユーザ意図に適したデバイスを推定することができると同時に、発話者の音声入力による会話脈を把握するか、デバイス使用パターンやデバイス制御履歴を把握することにより、ユーザの意図に合ったデバイスを推定することができる。
上述したシステムまたは装置は、ハードウェア構成要素、ソフトウェア構成要素、またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)および前記OS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ格納媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータで読み取り可能な記録媒体に格納されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータで読み取り可能な媒体に記録されてよい。前記コンピュータで読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでよい。媒体は、コンピュータによって実行可能なプログラムを継続して格納するものであってもよいし、実行またはダウンロードのために臨時格納するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよいが、いずれかのコンピュータシステムに直接接続される媒体に限定されることはなく、ネットワーク上に分散存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD−ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含んでプログラム命令語が格納されるように構成されたものであってよい。また、他の媒体の例として、アプリケーションを流通するアプリストアや、その他にも多様なソフトウェアを供給あるいは流通するサイト、サーバなどで管理する記録媒体あるいは格納媒体も挙げられる。プログラム命令の例には、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。
以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
310:電子機器
320:クラウド人工知能プラットフォーム
330:コンテンツ・サービス
340:インタフェースコネクト
350:拡張キット

Claims (16)

  1. 音声基盤インタフェースを含む電子機器が実行するデバイス制御方法であって、
    前記音声基盤インタフェースを通じてユーザの音声入力による命令語を受信する段階、
    前記命令語の分析の結果、位置情報が必要な場合、前記音声基盤インタフェースが含む複数のマイクに入力された前記音声入力の位相偏移に基づいて、前記音声入力と関連する位置情報を取得する段階、および
    前記位置情報を利用して、前記電子機器による制御が可能なデバイスのうち制御対象デバイスを特定し、前記命令語に対応する動作を前記制御対象デバイスに実行させる段階
    を含み、前記位置情報を取得する段階において、前記命令語に指示代名詞が含まれる場合に、前記命令語に含まれた前記指示代名詞によって前記ユーザと前記制御対象デバイスとの間の位置関係が決まり、
    前記制御対象デバイスを特定することは、前記位置情報を基準として前記指示代名詞によって決まる位置関係にあるデバイスを前記制御対象デバイスとして特定することを含む、デバイス制御方法。
  2. 前記取得する段階は、
    前記命令語が場所や指示対象が省略された不完全文章で構成される場合、前記音声入力と関連する位置情報を取得する、
    請求項1に記載のデバイス制御方法。
  3. 前記音声入力と関連する位置情報は、
    前記音声入力の受信と関連する時点または期間に測定される前記電子機器に対する前記ユーザの相対的な位置や方向、前記相対的な位置や方向の変化の有無、および前記相対的な位置や方向の変化方向のうちの少なくとも1つを含む、
    請求項1に記載のデバイス制御方法。
  4. 音声基盤インタフェースを含む電子機器が実行するデバイス制御方法であって、
    前記音声基盤インタフェースを通じてユーザの音声入力による命令語を受信する段階、
    前記命令語の分析の結果、位置情報が必要な場合、前記音声入力と関連する位置情報を取得する段階、および
    前記位置情報を利用して、前記電子機器による制御が可能なデバイスのうち制御対象デバイスを特定し、前記命令語に対応する動作を前記制御対象デバイスに実行させる段階
    を含み、前記取得する段階は、
    前記命令語に指示代名詞が含まれているかを判定し、前記命令語が指示代名詞を含むと判定される場合に、位置判定のための追加ロジックにより前記音声入力と関連する位置情報を取得し、
    前記命令語に含まれた前記指示代名詞によって前記ユーザと前記制御対象デバイスとの間の位置関係が決まり、
    前記制御対象デバイスを特定することは、前記位置情報を基準として前記指示代名詞によって決まる位置関係にあるデバイスを前記制御対象デバイスとして特定することを含む、デバイス制御方法。
  5. 前記電子機器は、カメラおよびセンサのうちの少なくとも1つを含み、
    前記取得する段階は、
    前記音声入力が受信された場合の前記カメラおよびセンサのうちの少なくとも1つの出力値に基づいて前記音声入力と関連する位置情報を取得する、
    請求項1に記載のデバイス制御方法。
  6. 前記取得する段階は、
    前記音声入力に該当する会話脈絡と前記音声基盤インタフェースによる前記ユーザのデバイス制御履歴のうちの少なくとも1つを把握して前記音声入力と関連する位置情報を取得する、
    請求項1に記載のデバイス制御方法。
  7. 前記特定する段階は、
    前記音声入力と関連する位置情報と共に、前記音声基盤インタフェースによる前記ユーザのデバイス使用パターンを利用して前記制御対象デバイスを特定する、
    請求項1に記載のデバイス制御方法。
  8. 前記特定する段階は、
    前記命令語に対応する動作を実行することが可能なデバイスが複数存在する場合、前記音声基盤インタフェースによる前記ユーザのデバイス使用パターンを利用して複数のデバイスのうちから使用頻度が相対的に多いデバイスを前記制御対象デバイスとして特定する、
    請求項1に記載のデバイス制御方法。
  9. 請求項1〜のうちのいずれか一項に記載のデバイス制御方法をコンピュータに実行させるコンピュータプログラム。
  10. 請求項1〜のうちのいずれか一項に記載のデバイス制御方法をコンピュータに実行させるためのプログラムが記録されているコンピュータで読み取り可能な記録媒体。
  11. 電子機器であって、
    音声基盤インタフェース、および
    コンピュータで読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
    を含み、
    前記少なくとも1つのプロセッサは、
    前記音声基盤インタフェースを通じてユーザの音声入力による命令語を受信し、
    前記命令語の分析の結果、位置情報が必要な場合、前記音声基盤インタフェースが含む複数のマイクに入力された前記音声入力の位相偏移に基づいて、前記音声入力と関連する位置情報を取得し、
    前記位置情報を利用して、前記電子機器による制御が可能なデバイスのうちから制御対象デバイスを特定し、前記命令語に対応する動作を前記制御対象デバイスに実行させ、前記位置情報を取得する場合において、前記命令語に指示代名詞が含まれる場合に、前記命令語に含まれた前記指示代名詞によって前記ユーザと前記制御対象デバイスとの間の位置関係が決まり、
    前記制御対象デバイスを特定することは、前記位置情報を基準として前記指示代名詞によって決まる位置関係にあるデバイスを前記制御対象デバイスとして特定することを含む、電子機器。
  12. 前記音声入力と関連する位置情報は、
    前記音声入力の受信と関連する時点または期間に測定される前記電子機器に対する前記ユーザの相対的な位置や方向、前記相対的な位置や方向の変化の有無、および前記相対的な位置や方向の変化方向のうちの少なくとも1つを含む、
    請求項11に記載の電子機器。
  13. 電子機器であって、
    音声基盤インタフェース、および
    コンピュータで読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
    を含み、前記少なくとも1つのプロセッサは、
    音声基盤インタフェースを含む電子機器が実行するデバイス制御方法であって、
    前記音声基盤インタフェースを通じてユーザの音声入力による命令語を受信する段階、
    前記命令語の分析の結果、位置情報が必要な場合、前記音声入力と関連する位置情報を取得する段階、および
    前記位置情報を利用して、前記電子機器による制御が可能なデバイスのうち制御対象デバイスを特定し、前記命令語に対応する動作を前記制御対象デバイスに実行させる段階
    を実行し、前記取得する段階は、
    前記命令語に指示代名詞が含まれているかを判定し、前記命令語が指示代名詞を含むと判定される場合に、位置判定のための追加ロジックにより前記音声入力と関連する位置情報を取得し、
    前記命令語に含まれた前記指示代名詞によって前記ユーザと前記制御対象デバイスとの間の位置関係が決まり、
    前記制御対象デバイスを特定することは、前記位置情報を基準として前記指示代名詞によって決まる位置関係にあるデバイスを前記制御対象デバイスとして特定することを含む、電子機器。
  14. 前記電子機器は、カメラおよびセンサのうちの少なくとも1つを含み、
    前記少なくとも1つのプロセッサは、前記音声入力と関連する位置情報を取得するために、
    前記音声入力が受信された場合の前記カメラおよびセンサのうちの少なくとも1つの出力値に基づいて前記音声入力と関連する位置情報を取得する、
    請求項11に記載の電子機器。
  15. 前記少なくとも1つのプロセッサは、前記音声入力と関連する位置情報を取得するために、
    前記音声入力に該当する会話脈絡と前記音声基盤インタフェースによる前記ユーザのデバイス制御履歴のうちの少なくとも1つを把握して前記音声入力と関連する位置情報を取得する、
    請求項11に記載の電子機器。
  16. 前記少なくとも1つのプロセッサは、前記制御対象デバイスを特定するために、
    前記音声入力と関連する位置情報と共に、前記音声基盤インタフェースによる前記ユーザのデバイス使用パターンを利用して前記制御対象デバイスを特定する、
    請求項11に記載の電子機器。
JP2017157389A 2017-05-15 2017-08-17 デバイス制御方法及び電子機器 Active JP6731894B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170059846A KR102025391B1 (ko) 2017-05-15 2017-05-15 사용자의 발화 위치에 따른 디바이스 제어
KR10-2017-0059846 2017-05-15

Publications (2)

Publication Number Publication Date
JP2018194810A JP2018194810A (ja) 2018-12-06
JP6731894B2 true JP6731894B2 (ja) 2020-07-29

Family

ID=64565377

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017157389A Active JP6731894B2 (ja) 2017-05-15 2017-08-17 デバイス制御方法及び電子機器

Country Status (2)

Country Link
JP (1) JP6731894B2 (ja)
KR (1) KR102025391B1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020094790A (ja) * 2018-12-14 2020-06-18 株式会社ノーリツ 給湯装置
JP6851565B2 (ja) * 2019-02-12 2021-03-31 三菱電機株式会社 機器制御装置、機器制御システム、機器制御方法、及び機器制御プログラム
KR102624327B1 (ko) * 2019-03-15 2024-01-15 삼성전자주식회사 IoT 기기의 위치 추론 방법, 이를 지원하는 서버 및 전자 장치
CN111833862B (zh) * 2019-04-19 2023-10-20 佛山市顺德区美的电热电器制造有限公司 一种设备的控制方法、控制设备及存储介质
JP7335979B2 (ja) * 2019-05-24 2023-08-30 エルジー エレクトロニクス インコーポレイティド 音声認識を用いて装置を制御する方法、及びこれを具現する装置
WO2020240789A1 (ja) * 2019-05-30 2020-12-03 三菱電機株式会社 音声対話制御装置及び音声対話制御方法
WO2020246640A1 (ko) 2019-06-05 2020-12-10 엘지전자 주식회사 사용자의 위치를 결정하는 인공 지능 장치 및 그 방법
KR102228549B1 (ko) * 2019-06-11 2021-03-16 엘지전자 주식회사 음성 인에이블 디바이스 선택 방법, 음성 인에이블 디바이스 선택 장치 및 이를 제어하는 지능형 컴퓨팅 디바이스
CN110708220A (zh) * 2019-09-27 2020-01-17 恒大智慧科技有限公司 一种智能家居控制方法及系统、计算机可读存储介质
CN110928764B (zh) * 2019-10-10 2023-08-11 中国人民解放军陆军工程大学 移动应用众包测试报告自动化评估方法及计算机存储介质
CN112786032A (zh) * 2019-11-01 2021-05-11 富泰华工业(深圳)有限公司 显示内容控制方法、装置、计算机装置及可读存储介质
JP7373386B2 (ja) * 2019-12-19 2023-11-02 東芝ライフスタイル株式会社 制御装置
KR20210117488A (ko) * 2020-03-19 2021-09-29 삼성전자주식회사 사용자 입력을 처리하는 전자 장치 및 방법
KR20220064768A (ko) * 2020-11-12 2022-05-19 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11915691B2 (en) 2021-01-19 2024-02-27 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
KR20230138656A (ko) * 2022-03-24 2023-10-05 주식회사 브이터치 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4624577B2 (ja) * 2001-02-23 2011-02-02 富士通株式会社 複数のセンサによるヒューマンインタフェースシステム
JP2002251235A (ja) * 2001-02-23 2002-09-06 Fujitsu Ltd 利用者インタフェースシステム
JP2004354721A (ja) * 2003-05-29 2004-12-16 Shimizu Corp 音声制御装置、音声制御方法および音声制御プログラム
JP2007088803A (ja) * 2005-09-22 2007-04-05 Hitachi Ltd 情報処理装置
JP2007121576A (ja) * 2005-10-26 2007-05-17 Matsushita Electric Works Ltd 音声操作装置
JP2007235613A (ja) * 2006-03-01 2007-09-13 Murata Mach Ltd 遠隔制御装置
KR100920267B1 (ko) * 2007-09-17 2009-10-05 한국전자통신연구원 음성 대화 분석 시스템 및 그 방법
JP2009087074A (ja) * 2007-09-28 2009-04-23 Panasonic Electric Works Co Ltd 機器制御システム
JP4982807B2 (ja) * 2008-03-06 2012-07-25 独立行政法人産業技術総合研究所 操作方法およびそのための操作装置、プログラム
JP2009223170A (ja) * 2008-03-18 2009-10-01 Advanced Telecommunication Research Institute International 音声認識システム
JP4734446B2 (ja) * 2009-09-28 2011-07-27 株式会社東芝 テレビジョン受像装置及びテレビジョン受像方法
JP2014153663A (ja) * 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
JP6482911B2 (ja) * 2014-07-01 2019-03-13 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器制御方法および電気機器
CN104951077A (zh) * 2015-06-24 2015-09-30 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法、装置和终端设备

Also Published As

Publication number Publication date
KR20180125241A (ko) 2018-11-23
KR102025391B1 (ko) 2019-09-25
JP2018194810A (ja) 2018-12-06

Similar Documents

Publication Publication Date Title
JP6731894B2 (ja) デバイス制御方法及び電子機器
KR101949497B1 (ko) 사용자 발화의 표현법을 파악하여 기기의 동작이나 컨텐츠 제공 범위를 조정하여 제공하는 사용자 명령 처리 방법 및 시스템
JP6752870B2 (ja) 複数のウェイクワードを利用して人工知能機器を制御する方法およびシステム
JP6567727B2 (ja) 受信した音声入力の入力音量に基づいて出力される音の出力音量を調節するユーザ命令処理方法およびシステム
JP6607999B2 (ja) 音声要請に対応する情報提供のためのメディア選択
KR102209092B1 (ko) 복수의 호출 용어를 이용하여 인공지능 기기를 제어하는 방법 및 시스템
US11341966B2 (en) Output for improving information delivery corresponding to voice request
US11004452B2 (en) Method and system for multimodal interaction with sound device connected to network
JP6728319B2 (ja) 人工知能機器で複数のウェイクワードを利用したサービス提供方法およびそのシステム
JP6920398B2 (ja) 人工知能機器における連続会話機能
JP6681940B2 (ja) ユーザの位置及び空間に適した情報を能動的に提供する方法及び装置
JP2019012506A (ja) 機械の自動活性のための方法及びシステム
KR20210116897A (ko) 외부 장치의 음성 기반 제어를 위한 방법 및 그 전자 장치
JP2019091037A (ja) 人工知能機器の自動不良検出のための方法およびシステム
KR102255844B1 (ko) 사용자의 위치 및 공간에 알맞은 정보를 능동적으로 제공하는 방법 및 장치
KR102309509B1 (ko) 인공지능 기기 상호간의 호출을 활용한 IoT 디바이스를 제어하는 방법 및 시스템
KR102152334B1 (ko) 음원 필터링을 위한 방법 및 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181101

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190618

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20191126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200323

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20200331

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200609

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200707

R150 Certificate of patent or registration of utility model

Ref document number: 6731894

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350