JP2019109510A - 複数のウェイクワードを利用して人工知能機器を制御する方法およびシステム - Google Patents

複数のウェイクワードを利用して人工知能機器を制御する方法およびシステム Download PDF

Info

Publication number
JP2019109510A
JP2019109510A JP2018233017A JP2018233017A JP2019109510A JP 2019109510 A JP2019109510 A JP 2019109510A JP 2018233017 A JP2018233017 A JP 2018233017A JP 2018233017 A JP2018233017 A JP 2018233017A JP 2019109510 A JP2019109510 A JP 2019109510A
Authority
JP
Japan
Prior art keywords
artificial intelligence
electronic device
wakeword
wake word
wake
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018233017A
Other languages
English (en)
Other versions
JP6752870B2 (ja
Inventor
ウンシル イ
Eunsil Lee
ウンシル イ
ジョンイル カン
Jeong Il Kang
ジョンイル カン
ジュンヒョン パク
Junhyon Paku
ジュンヒョン パク
スンウォン チェー
Soonwon Choi
スンウォン チェー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Z Intermediate Global Corp
Naver Corp
Original Assignee
Line Corp
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020180039494A external-priority patent/KR102209092B1/ko
Application filed by Line Corp, Naver Corp filed Critical Line Corp
Publication of JP2019109510A publication Critical patent/JP2019109510A/ja
Application granted granted Critical
Publication of JP6752870B2 publication Critical patent/JP6752870B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】 複数のウェイクワードを利用して人工知能機器を制御する方法およびシステムを提供する。【解決手段】 コンピュータによって実現される電子機器で実行される方法は、電子機器の音声インタフェースによって、予め設定された複数のウェイクワードのうちのいずれか1つのウェイクワードが認識されると、対話機能を活性化させる段階、および対話機能が活性化した状態で入力された音声命令に対し、認識されたウェイクワードに応じて異なる動作を実行するように制御する段階を含む。【選択図】 図6

Description

以下の説明は、人工知能対話システムに関する。
一般的に、個人秘書システム、人工知能(AI)スピーカ、チャットボットプラットフォーム(chatbot platform)などで使用される人工知能対話システムは、人間が発した命令語の意図を理解し、それに対応する返答文を提供する方式を採用している。
主に、人工知能対話システムは、人間から機能的な要求が伝達されると、このような人間の要求に対する解答を機械が提供する方式をとっており、マイク(microphone)でユーザの音声入力を受信し、受信した音声入力に基づいてデバイスの動作やコンテンツの提供を制御するようになる。
例えば、特許文献1(公開日2011年12月30日)には、ホームネットワークサービスにおいて、移動通信網の他にWi−Fiのような第2通信網を利用してホームネットワークサービスを提供することができ、ホーム内の複数のマルチメディア機器を、ユーザがボタン操作をしなくても音声命令によってマルチコントロールすることができる技術が開示されている。
一般的な人工知能対話システムは、事前に定められたウェイクワード(例えば、機器の名称など)を、機器を活性化(wake−up)させるための対話活性トリガとして使用している。これにより、人工知能機器は、ウェイクワードを基盤として音声認識機能を実行するようになる。例えば、機器は、ユーザが機械名を発すると活性化され、これに続くユーザの音声命令(質問)を受信するための待機モードに突入するようになる。
韓国公開特許第10−2011−0139797号公報
音声基盤インタフェースを提供する人工知能機器のウェイクワードを2つ以上に区分し、各ウェイクワードに応じて人工知能機器の動作を異なるように制御することができる方法およびシステムを提供する。
コンピュータによって実現される電子機器で実行される人工知能対話方法であって、前記電子機器の音声インタフェースによって、予め設定された複数のウェイクワードのうちのいずれか1つのウェイクワードが認識されると、対話機能を活性化させる段階、および前記対話機能が活性化した状態で入力された音声命令に対し、前記認識されたウェイクワードに応じて異なる動作を実行するように制御する段階を含む、人工知能対話方法を提供する。
一側面によると、前記電子機器で実行可能な動作ごとに、該当の動作を特定するためのウェイクワードを設定する段階をさらに含んでよい。
他の側面によると、前記ウェイクワードと各ウェイクワードの動作は、前記電子機器のユーザに個人化されてよい。
また他の側面によると、前記電子機器のようなネットワークに連結する他のデバイスとペアリングする段階をさらに含み、前記ウェイクワードは、基本ウェイクワードと追加ウェイクワードを含み、前記制御する段階は、前記対話機能が前記基本ウェイクワードによって活性化された場合には前記音声命令に対応する動作を前記電子機器で実行し、前記対話機能が前記追加ウェイクワードによって活性化された場合には前記音声命令に対応する動作が前記他のデバイスで実行されるように、前記音声命令を前記他のデバイスに伝達してよい。
また他の側面によると、前記ペアリングする段階は、前記ネットワークに連結する他のデバイスを検索し、検索信号に応答したデバイスとペアリングしてよい。
また他の側面によると、前記電子機器とペアリングした他のデバイスが複数である場合、デバイスごとに前記追加ウェイクワードを異なるように設定する段階をさらに含んでよい。
また他の側面によると、前記制御する段階は、前記認識されたウェイクワードに応じて異なるエンジンを呼び出し、該当のエンジンから前記音声命令に対応する返答情報を出力してよい。
さらに他の側面によると、前記活性化する段階は、前記認識されたウェイクワードに応じて活性化状態を区別して表示する段階を含んでよい。
コンピュータと結合して前記人工知能対話方法をコンピュータに実行させるためにコンピュータ読取可能な記録媒体に格納された、コンピュータプログラムを提供する。
前記人工知能対話方法をコンピュータに実行させるためのプログラムが記録されていることを特徴とする、コンピュータ読取可能な記録媒体を提供する。
コンピュータによって実現される電子機器の人工知能対話システムであって、コンピュータ読取可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、前記電子機器の対話機能を活性化するための対話活性トリガとして使用される2つ以上のウェイクワードを設定する設定部、前記電子機器の音声インタフェースによって前記ウェイクワードのうちのいずれか1つのウェイクワードが認識されると、前記対話機能を活性化させる活性化部、および前記対話機能が活性化した状態で入力された音声命令に対し、前記認識されたウェイクワードに応じて異なる動作を実行するように制御する動作実行部を備える、人工知能対話システムを提供する。
本発明の実施形態によると、音声基盤インタフェースを提供する人工知能機器のウェイクワードを2つ以上に区分し、各ウェイクワードに応じて人工知能機器の動作を異なるように制御することができる。
本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の例を示した図である。 本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の他の例を示した図である。 本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。 本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。 本発明の一実施形態における、電子機器のプロセッサが含むことができる構成要素の例を示したブロック図である。 本発明の一実施形態における、電子機器が実行することができる人工知能対話方法の例を示したフローチャートである。 本発明の一実施形態における、複数のウェイクワードと各ウェイクワードの機器動作の例を示した図である。 本発明の一実施形態における、複数のウェイクワードを利用した制御環境の例を示した図である。 本発明の一実施形態における、複数のウェイクワードを利用して電子機器の動作を制御する過程の例を示したフローチャートである。
以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。
本発明の実施形態に係る人工知能対話システムは、ユーザとの対話を基盤として動作するインタフェースを提供する電子機器によって実現されてよい。このとき、人工知能対話システムは、機器を活性化(wake−up)させるために2つ以上のウェイクワードを利用し、各ウェイクワードに応じて機器の動作を区分してよい。
本発明の実施形態に係る人工知能対話方法は、上述した電子機器によって実行されてよい。このとき、電子機器には、本発明の一実施形態に係るコンピュータプログラムがインストールおよび駆動されてよく、電子機器は、駆動するコンピュータプログラムの制御に従って本発明の一実施形態に係る人工知能対話方法を実行してよい。上述したコンピュータプログラムは、コンピュータで実現される電子機器と結合して人工知能対話方法をコンピュータに実行させるために、コンピュータ読取可能な記録媒体に格納されてよい。
図1は、本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の例を示した図である。図1の実施形態では、スマートホーム(smart home)やホームネットワークサービスのように宅内のデバイスを連結して制御する技術において、音声を基盤として動作するインタフェースを提供する電子機器100が、ユーザ110の発話によって受信した音声入力「電気を消して」を認識および分析し、宅内で電子機器100と内部ネットワークを介して繋がっている宅内照明機器120の電源を制御する例について示している。
例えば、宅内のデバイスは、上述した宅内照明機器120の他にも、テレビ、PC(Personal Computer)、周辺機器、エアコン、冷蔵庫、ロボット清掃機などのような家電製品はもちろん、水道、電気、冷暖房機器などのようなエネルギー消費装置、ドアロックや監視カメラなどのような保安機器など、オンライン上で連結して制御される多様なデバイスを含んでよい。また、内部ネットワークには、イーサネット(Ethernet)(登録商標)、HomePNA、IEEE 1394のような有線ネットワーク技術や、ブルートゥース(Bluetooth)(登録商標)、UWB(ultra Wide Band)、ジグビー(ZigBee)(登録商標)、Wireless 1394、Home RFのような無線ネットワーク技術などが活用されてよい。
電子機器100は、宅内のデバイスのうちの1つであってよい。例えば、電子機器100は、宅内に備えられた人工知能スピーカやロボット清掃機などのようなデバイスのうちの1つであってよい。また、電子機器100は、スマートフォン(smart phone)、携帯電話、ナビゲーション、ノート型パンコン、デジタル放送用端末、PDA(Personal Digital Assistants)、PMP(Portable Multimedia Player)、タブレット、ゲームコンソール、ウェアラブルデバイス、IoT(internet of things)デバイス、VR(virtual reality)デバイス、AR(augmented reality)デバイスなどのようなユーザ110のモバイル機器であってもよい。このように、電子機器100は、ユーザ110の音声入力を受信して宅内のデバイスを制御するために宅内のデバイスと連結可能な機能を含む機器であれば、特に制限されることはない。また、実施形態によっては、上述したユーザ110のモバイル機器が宅内のデバイスとして含まれてもよい。
図2は、本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の他の例を示した図である。図2は、音声を基盤として動作するインタフェースを提供する電子機器100が、ユーザ110の発話によって受信した音声入力「今日の天気」を認識および分析し、外部ネットワークを介して外部サーバ210から今日の天気に関する情報を取得し、取得した情報を「今日の天気は・・・」のように音声で出力する例について示している。
例えば、外部ネットワークは、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。
図2の実施形態でも、電子機器100は、宅内のデバイスのうちの1つであるか、ユーザ110のモバイル機器のうちの1つであってよく、ユーザ110の音声入力を受信して処理するための機能と、外部ネットワークを介して外部サーバ210に接続して外部サーバ210が提供するサービスやコンテンツをユーザ110に提供するための機能を含む機器であれば、特に制限されることはない。
このように、本発明の実施形態に係る電子機器100は、音声基盤インタフェースでユーザ110の発話によって受信される音声入力を含むユーザ命令を処理することのできる機器であれば、特に制限されなくてよい。例えば、電子機器100は、ユーザの音声入力を直接に認識および分析して音声入力に適した動作を実行することによってユーザ命令を処理してよいが、実施形態によっては、ユーザの音声入力に対する認識や認識された音声入力の分析、ユーザに提供される音声の合成などの処理を、電子機器100と連係する外部のプラットフォームで実行してもよい。
図3は、本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。図3は、電子機器310とクラウド人工知能プラットフォーム320、およびコンテンツ・サービス330を示している。
一例として、電子機器310は、宅内に備えられるデバイスを意味してよく、少なくとも上述した電子機器100を含んでよい。このような電子機器310や電子機器310にインストールおよび駆動されるアプリケーション(以下、「アプリ」とする。)は、インタフェースコネクト340を介してクラウド人工知能プラットフォーム320と連係することができる。ここで、インタフェースコネクト340は、電子機器310や電子機器310にインストールおよび駆動されるアプリの開発のためのSDK(Software Development Kit)および/または開発文書を開発者に提供してよい。また、インタフェースコネクト340は、電子機器310や電子機器310にインストールおよび駆動されるアプリが、クラウド人工知能プラットフォーム320が提供する機能を活用することを可能にする、API(Application Program Interface)を提供してよい。具体的な例として、開発者は、インタフェースコネクト340により提供されるSDKおよび/または開発文書を利用して開発した機器やアプリが、インタフェースコネクト340が提供するAPIを利用してクラウド人工知能プラットフォーム320により提供される機能を活用できるようにする。
ここで、クラウド人工知能プラットフォーム320は、音声基盤のサービスを提供するための機能を提供してよい。例えば、クラウド人工知能プラットフォーム320は、受信した音声を認識し、出力する音声を合成するための音声処理モジュール321、受信した映像や動画を分析して処理するためのビジョン処理モジュール322、受信した音声に適した音声を出力するために適切な対話を決定するための対話処理モジュール323、受信した音声に適した機能を薦めるための推薦モジュール324、人工知能がデータ学習に基づいて文章単位で言語を翻訳するように支援するニューラル機械翻訳(Neural Machine Translation:NMT)325などのように、音声基盤サービスを提供するための多様なモジュールを含んでよい。
例えば、図1および図2の実施形態において、電子機器100は、ユーザ110の音声入力をインタフェースコネクト340が提供するAPIを利用してクラウド人工知能プラットフォーム320に送信してよい。この場合、クラウド人工知能プラットフォーム320は、受信した音声入力を上述したモジュール321〜325を活用して認識および分析してよく、受信した音声入力に応じて適切な返答音声を合成して提供したり、適切な動作を推薦したりしてよい。
また、拡張キット350は、第三者コンテンツ開発者または会社がクラウド人工知能プラットフォーム320を基盤とした新たな音声基盤機能を実現することのできる開発キットを提供してよい。例えば、図2の実施形態において、電子機器100は、ユーザ110の音声入力を外部サーバ210に送信してよく、外部サーバ210は、拡張キット350により提供されるAPIを利用してクラウド人工知能プラットフォーム320に音声入力を送信してよい。この場合、上述と同じように、クラウド人工知能プラットフォーム320は、受信した音声入力を認識および分析して適切な返答音声を合成して提供したり、音声入力に応じて処理すべき機能に対する推薦情報を外部サーバ210に提供したりしてよい。一例として、図2において、外部サーバ210は、音声入力「今日の天気」をクラウド人工知能プラットフォーム320に送信し、クラウド人工知能プラットフォーム320から音声入力「今日の天気」の認識によって抽出されるキーワード「今日の」および「天気」を受信したとする。この場合、外部サーバ210は、キーワード「今日の」および「天気」に基づいて「今日の天気は・・・」のようなテキスト情報を生成し、生成されたテキスト情報をクラウド人工知能プラットフォーム320に再送してよい。このとき、クラウド人工知能プラットフォーム320は、テキスト情報を音声で合成して外部サーバ210に提供してよい。外部サーバ210は、合成された音声を電子機器100に送信してよく、電子機器100は、合成された音声「今日の天気は・・・」をスピーカから出力することにより、ユーザ110から受信した音声入力「今日の天気」を処理することができる。このとき、電子機器100は、ユーザとの対話を基盤としてデバイス動作やコンテンツ提供を実施するためのものである。
図4は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。図4の電子機器410は、上述した電子機器100に対応してよく、サーバ420は、上述した外部サーバ210またはクラウド人工知能プラットフォーム320を実現する1つのコンピュータ装置に対応してよい。
電子機器410とサーバ420は、それぞれメモリ411、421、プロセッサ412、422、通信モジュール413、423、および入力/出力インタフェース414、424を含んでよい。メモリ411、421は、コンピュータ読取可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、ディスクドライブ、SSD(solid state drive)、フラッシュメモリ(flash memory)などのような永久大容量記憶装置(permanent mass storage device)を含んでよい。ここで、ROM、SSD、フラッシュメモリ、ディスクドライブなどのような永久大容量記憶装置は、メモリ411、421とは区分される別の永久記憶装置として電子機器410やサーバ420に含まれてもよい。また、メモリ411、421には、オペレーティングシステムと、少なくとも1つのプログラムコード(一例として、電子機器410にインストールされ、特定のサービスの提供のために電子機器410で駆動するアプリケーションなどのためのコード)が格納されてよい。このようなソフトウェア構成要素は、メモリ411、421とは別のコンピュータ読取可能な記録媒体からロードされてよい。このような別のコンピュータ読取可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD−ROMドライブ、メモリカードなどのコンピュータ読取可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読取可能な記録媒体ではない通信モジュール413、423を通じてメモリ411、421にロードされてもよい。例えば、少なくとも1つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システムがネットワーク430を介して提供するファイルによってインストールされるコンピュータプログラム(一例として、上述したアプリケーション)に基づいて電子機器410のメモリ411にロードされてよい。
プロセッサ412、422は、基本的な算術、ロジック、および入力/出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ411、421または通信モジュール413、423によって、プロセッサ412、422に提供されてよい。例えば、プロセッサ412、422は、メモリ411、421のような記憶装置に格納されたプログラムコードに従って受信される命令を実行するように構成されてよい。
通信モジュール413、423は、ネットワーク430を介して電子機器410とサーバ420とが互いに通信するための機能を提供してもよく、電子機器410および/またはサーバ420が他の電子機器または他のサーバと通信するための機能を提供してもよい。一例として、電子機器410のプロセッサ412がメモリ411のような記憶装置に格納されたプログラムコードに従って生成した要求が、通信モジュール413の制御に従ってネットワーク430を介してサーバ420に伝達されてよい。これとは逆に、サーバ420のプロセッサ422の制御に従って提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール423およびネットワーク430を経て電子機器410の通信モジュール413を通じて電子機器410で受信されてもよい。例えば、通信モジュール413を通じて受信したサーバ420の制御信号や命令、コンテンツ、ファイルなどは、プロセッサ412やメモリ411に伝達されてよく、コンテンツやファイルなどは、電子機器410がさらに含むことができる記録媒体(上述した永久記憶装置)に格納されてよい。
入力/出力インタフェース414は、入力/出力装置415とのインタフェースのための手段であってよい。例えば、入力装置は、キーボード、マウス、マイクロフォン、カメラなどの装置を含んでよく、出力装置は、ディスプレイ、スピーカ、ハプティックフィードバックデバイス(haptic feedback device)などのような装置を含んでよい。他の例として、入力/出力インタフェース414は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置415は、電子機器410と1つの装置で構成されてもよい。また、サーバ420の入力/出力インタフェース424は、サーバ420と連結されるかサーバ420が含むことができる、入力または出力のための装置(図示せず)とのインタフェースのための手段であってもよい。より具体的な例として、電子機器410のプロセッサ412がメモリ411にロードされたコンピュータプログラムの命令を処理するにあたり、サーバ420や他の電子機器が提供するデータを利用して構成されるサービス画面やコンテンツが、入力/出力インタフェース414を経てディスプレイに表示されてよい。
また、他の実施形態において、電子機器410およびサーバ420は、図4の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、電子機器410は、上述した入力/出力装置415のうちの少なくとも一部を含むように実現されてもよく、トランシーバ、GPS(Global Positioning System)モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、電子機器410がスマートフォンである場合、一般的にスマートフォンに含まれている加速度センサやジャイロセンサ、動作センサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力/出力ポート、振動のための振動器などのような多様な構成要素が、電子機器410にさらに含まれるように実現されてよい。
本実施形態において、電子機器410は、ユーザの音声入力を受信するためのマイクを入力/出力装置415として基本的に含んでよく、ユーザの音声入力に対応する返答音声やオーディオコンテンツのような音を出力するためのスピーカを入力/出力装置415としてさらに含んでよい。
図5は、本発明の一実施形態における、電子機器のプロセッサが含むことができる構成要素の例を示したブロック図であり、図6は、本発明の一実施形態における、電子機器が実行することができる人工知能対話方法の例を示したフローチャートである。
本実施形態に係る電子機器410内に、人工知能対話システムを構成することができる。人工知能対話システムは、PC基盤のプログラムまたはモバイル端末専用のアプリケーションで構成されてよい。本実施形態における人工知能対話システムは、独立的に動作するプログラム形態で実現されるか、あるいは特定のアプリケーションのイン−アプリ(in−app)形態で構成されて当該特定のアプリケーション上で動作可能であるように実現されてよい。
例えば、電子機器410にインストールされたアプリケーションが提供する命令に基づき、電子機器410に実現された人工知能対話システムは、人工知能対話方法を実行してよい。図6に係る人工知能対話方法を実行するために、電子機器410のプロセッサ412は、構成要素として、図5に示すように、設定部510、活性化部520、および動作実行部を備えることができる。実施形態によっては、プロセッサ412の構成要素は、選択的にプロセッサ412に含まれても除外されてもよい。また、実施形態によっては、プロセッサ412の構成要素は、プロセッサ412の機能の表現のために分離されても併合されてもよい。
このようなプロセッサ412およびプロセッサ412の構成要素は、図6の人工知能対話方法に含まれる段階610〜段階640を実行するように電子機器410を制御することができる。例えば、プロセッサ412およびプロセッサ412の構成要素は、メモリ411に含まれるオペレーティングシステムのコードと少なくとも1つのプログラムのコードによる命令(instruction)を実行するように実現されてよい。
ここで、プロセッサ412の構成要素は、電子機器410に格納されたプログラムコードが提供する命令(一例として、電子機器410で駆動するアプリケーションが提供する命令)に従ってプロセッサ412によって実行される、プロセッサ412の互いに異なる機能(different functions)の表現であってよい。例えば、電子機器410が各設定過程を実行するように上述した命令に従って電子機器410を制御するプロセッサ412の機能的表現として、設定部510が利用されてよい。
段階610において、プロセッサ412は、電子機器410の制御と関連する命令がロードされたメモリ411から必要な命令を読み取ることができる。この場合、読み取った命令には、プロセッサ412が以下で説明する段階620〜段階640を実行するように制御するための命令が含まれてよい。
段階620において、設定部510は、電子機器410の対話機能を活性化させるための対話活性トリガとして利用される2つ以上のウェイクワードを設定することができる。本発明において、ウェイクワードは、電子機器410の対話機能を活性化させるための対話活性トリガとして利用されると同時に、電子機器410の動作を特定するための用途に利用されてよい。このとき、ウェイクワードは、電子機器410で実行可能な動作ごとに事前に定義されて設定されてよく、あるいはユーザによって任意に設定されてもよい。一例として、電子機器410の動作は、音声命令に対応する動作を電子機器410で直接実行するメインデバイスの役割と、音声命令に対応する動作が電子機器410とペアリングしている他のデバイスで実行されるように該当の音声命令を伝達するリレーの役割とに分けられてよい。例えば、図7(A)に示すように、メインデバイスの動作に対するウェイクワードとして「クローバ」が定義され、リレー動作に対するウェイクワードとして「フレンド」が定義されているとする。このとき、電子機器410に複数のデバイスがペアリングされている場合、デバイスごとにウェイクワードが異なるように指定し、それぞれ異なるウェイクワードに応じてリレー対象を特定してよい。他の例として、電子機器410の動作は、音声命令に対応する返答情報を出力する音声エンジンの種類によって分けられてよい。例えば、図7(B)に示すように、女性キャラクタの音声エンジンによる動作には「シリ」が、男性キャラクタの音声エンジンによる動作には「ブラウン」が、それぞれウェイクワードとして定義されてよい。この他にも、ウェイクワードはもちろん、各ウェイクワードに対応する電子機器410の動作も、ユーザが任意に指定することによって個別化することも可能である。上述した動作は例示的なものに過ぎず、電子機器410によって実現可能な動作であればすべて適用可能である。
再び図6を参照すると、段階630において、活性化部520は、2つ以上のウェイクワードのうちのいずれか1つのウェイクワードが認識されると、電子機器410の対話機能を活性化させることができる。活性化部520は、電子機器410の対話機能が非活性化の状態で音声インタフェース(例えば、スピーカ)によって受信した音声が、複数のウェイクワードのうちのいずれか1つのウェイクワードに該当する場合、対話機能を活性化させることができる。このとき、活性化部520は、音声インタフェースで受信した音声の雑音除去などの前処理過程を行った後、前処理された音声が事前に定められたウェイクワードに該当するかどうかを識別してよい。
段階640において、動作実行部530は、電子機器410の対話機能が活性化した状態で音声インタフェースによって受信した音声入力に対し、電子機器410が対話機能を活性化するときに利用されたウェイクワードに対応する動作を実行するように制御することができる。動作実行部530は、対話機能を活性化するのに利用されたウェイクワードに応じて異なる動作を実行することができる。図7(A)を参照すると、電子機器410に2つのウェイクワード「クローバ」と「フレンド」が搭載されている場合、動作実行部530は、ウェイクワード「クローバ」によって対話機能が活性化されたときには、メインデバイス動作として、音声命令に対応する動作を電子機器410で直接実行し、一方、ウェイクワード「フレンド」によって対話機能が活性化されたときには、リレー動作として、音声命令に対応する動作が電子機器410とペアリングされている他のデバイスで実行されるように、該当のデバイスに音声命令を伝達することができる。言い換えれば、電子機器410に異なる種類のウェイクワードを搭載しておき、そのうちの1つは電子機器410に入力された命令を他のデバイスに伝達するために利用されるようになるが、このとき、電子機器410は、マイクと同時にリレーの役割を行うようになる。他の例として、動作実行部530は、電子機器410で、音声命令に対応する返答情報を、各ウェイクワードに応じて異なるエンジンから出力してよい。図7(B)を参照すると、電子機器410にウェイクワード「シリ」と「ブラウン」が搭載されている場合、動作実行部530は、ウェイクワード「シリ」によって対話機能が活性化されたときには、音声命令に対応する返答情報を女性キャラクタエンジンから出力し、ウェイクワード「ブラウン」によって対話機能が活性化されたときには、音声命令に対応する返答情報を男性キャラクタエンジンから出力することができる。言い換えれば、電子機器410に異なる種類のウェイクワードを搭載しておくことで、1つの機器内で、ウェイクワードに応じて異なる音声エンジンを呼び出す機能を実現することができる。
したがって、本発明では、電子機器410の対話機能を活性化させるためのウェイクワードを2つ以上に区分し、各ウェイクワードに応じて電子機器410の動作を異なるように制御することができる。
以下では、人工知能対話システムの具体的なシナリオについて例示的に説明する。
図8は、本発明の一実施形態における、複数のウェイクワードを利用した制御環境の例を示した図である。図8において、410は、音声インタフェースを提供する電子機器の例であって、人工知能スピーカを示しており、人工知能スピーカ410がIPTVのセットトップボックス(STB)800とペアリングする様子を示している。
人工知能スピーカ410は、該人工知能スピーカ410のような内部ネットワーク(図示せず)に連結しているセットトップボックス800とペアリングが可能である。例えば、人工知能スピーカ410とセットトップボックス800は、Wi−Fiルータ(図示せず)を利用して同じWi−Fiネットワークに接続しており、相互間でデータ通信が可能である。内部ネットワークの機器の相互間のペアリングおよびデータ通信のためには、オールジョイン(Alljoyn)方式などが使用されてよいが、これに限定されることはない。
人工知能スピーカ410には、メインデバイス動作のための基本ウェイクワード(例えば、「クローバ」)の他に、セットトップボックス800に命令を伝達するリレー動作のための追加ウェイクワード(例えば、「TVフレンド」)が搭載されてよい。ユーザが発する命令語は、人工知能スピーカ410での動作を希望する場合には基本ウェイクワードを利用し、IPTVでの動作を希望する場合には追加ウェイクワードを利用する。人工知能スピーカ410のウェイクワード、すなわち「クローバ」が発話されると、ユーザの音声命令は人工知能スピーカ410で直接処理がなされて人工知能スピーカ410で該当の動作が実行されるようになるが、セットトップボックス800のウェイクワード、すなわち「TVフレンド」が発話されると、ユーザの音声命令は人工知能スピーカ410からセットトップボックス800に伝達され、セットトップボックス800で該当の動作が実行される。具体的な例として、人工知能スピーカ410は、機器が活性化された場合、先ずは機器を活性化させたウェイクワードが何であるかを確認し、確認されたウェイクワードに応じ、ユーザが発話した命令語が含まれる音声PCM(pulse code modulation)を対象機器に伝達して処理されるようにする。
したがって、人工知能スピーカ410に基本ウェイクワードと追加ウェイクワードを搭載しておき、追加ウェイクワードはセットトップボックス800に命令するためのウェイクワードとして利用されるが、このとき、人工知能スピーカ410は、セットトップボックス800のマイクの役割を担うようになる。追加ウェイクワードは、セットトップボックス800の状態に応じてイネーブル(enable)またはディスエーブル(disable)となってよい。イネーブル(enable)される状態というのは、デバイス設定過程の中でセットトップボックス800がネットワークに正常に連結されている場合(このとき、人工知能スピーカ410とセットトップボックス800が連結されているネットワークは同じであるべきである)に該当することができる。ディスエーブル(disable)される状態というのは、デバイス設定過程の中でセットトップボックス800がネットワークに連結されていない場合、人工知能スピーカ410とセットトップボックス800が連結されているネットワークが同じでない場合、ユーザが連結を取り消した場合などが該当することができる。
図9は、本発明の一実施形態における、複数のウェイクワードを利用して人工知能スピーカ410の動作を制御する過程の例を示したフローチャートである。
図9を参照すると、人工知能スピーカ410は、初期設定過程でネットワーク設定が完了した後、連結可能なセットトップボックス800を検索してよい(Discovery Mode)(S901)。
人工知能スピーカ410がDiscovery Modeになると、オールジョイン方式により、一定の時間(例えば、30秒間)の間、オールジョイン信号に応答するセットトップボックス800を待機する(S902)。
人工知能スピーカ410は、オールジョイン信号に一定の時間内に応答したセットトップボックス800と連結することができる(ペアリング)(S903)。
このとき、人工知能スピーカ410が連結している内部ネットワークにセットトップボックスが1つだけ存在する場合には、人工知能スピーカ410とセットトップボックス800とは直ぐにペアリングをする。IPTV画面には、「AIスピーカと連結しました。」のようなメッセージを含むポップアップ画面が表示される。
一方、人工知能スピーカ410が連結している内部ネットワークにセットトップボックスが2つ以上存在する場合には、連結可能なすべてのIPTV画面に「AIスピーカと連結しますか?連結ボタンを押してください。」のようなポップアップが表示され、最も先に連結ボタンを押したセットトップボックス800とペアリングをする。どのセットトップボックスと連結可能であるかを、IPTV画面に表示されるポップアップメッセージからユーザが確認できるようにし、進行過程では音声案内を行うことによってユーザの混乱を最小化することができる。
人工知能スピーカ410が連結している内部ネットワークにセットトップボックスが存在しない場合には、連結可能なIPTVは見つからなかったという案内音声と同時に、Discovery Modeは終了する。
セットトップボックス800がアクティブモード(Active Mode)であるときだけでなく、スリープモード(Sleep Mode)であるときでも、人工知能スピーカ410とのペアリングは常に可能でなければならない。さらに、人工知能スピーカ410は、セットトップボックス800とのペアリング完了後に起動を実行するが、セットトップボックス800とのペアリング設定に失敗しても人工知能スピーカ410の起動は実行させることで、人工知能スピーカ410の利用を可能にしなければならない。
機器間のペアリングはもちろん、ウェイクワードなどに対する設定は、別の機器(例えば、ユーザのスマートフォン)で実行される、人工知能スピーカ410のネットワーク連結および各設定のためのアプリ(すなわち、マネジネントアプリ)で行われてもよい。マネジネントアプリは、同じ内部ネットワーク上に連結している人工知能スピーカ410と1つ以上の他のデバイス、例えば、セットトップボックス800を検索し、該当の情報を受信して設定を行うことができる。
人工知能スピーカ410は、セットトップボックス800とのペアリングが完了するかタイムアウト(Timeout)した場合、該当の情報をサーバ420に伝達してよい。このとき、サーバ420にセットトップボックスの登録が受信されると、マネジネントアプリでは設定画面に「セットトップボックスと連結しました。」あるいは「セットトップボックスとの連結に失敗しました。」のようなトーストポップアップを表示した後、メイン画面に移動するようになる。マネジネントアプリの設定画面にはセットトップボックスの登録状況が示されるが、このとき、登録されていれば、セットトップモデル(マックアドレス)形態でユーザに表示される。
また、人工知能スピーカ410は、必要な設定が完了するまでは、ユーザがウェイクワードを発話したとしても、「連結中です。しばらくお待ちください。」のようなローカルアナウンスを発話し、活性化は行わない。
人工知能スピーカ410でプロビジョニングをする際に、セットトップボックス800とのペアリング履歴が存在すれば、上述したような初期設定過程をスキップし、ここ最近にペアリングした履歴のあるセットトップボックス800と自動で再連結してよい。
マネジネントアプリを利用して内部ネットワークを再設定するとき、ネットワーク設定後にはペアリング過程をもう一度行わなければならない。このとき、人工知能スピーカ410に格納されていたペアリング設定履歴は、ネットワークの再設定後には削除される。
人工知能スピーカ410は、セットトップボックス800とのペアリング設定が終わり、基本ウェイクワード「クローバ」が発話されると、メインデバイス動作のために対話機能を活性化させることができる(S904)。
一方、人工知能スピーカ410は、セットトップボックス800とのペアリング設定が終わり、追加ウェイクワード「TVフレンド」が発話されると、リレー動作のために対話機能を活性化させることができる(S906)。
人工知能スピーカ410は、ウェイクワードによって対話機能を活性化した場合、LEDのような表示手段を利用して活性化状態を表示してよい。このとき、基本ウェイクワードによる活性化状態と追加ウェイクワードによる活性化状態を区別して表示してよい。例えば、基本ウェイクワードによって活性化した場合には「オレンジ色」のLEDが、追加ウェイクワードによって活性化した場合には「紫色」のLEDが点灯してよい。
人工知能スピーカ410が基本ウェイクワード「クローバ」によって活性化された場合には、ユーザの音声命令に対応する動作を電子機器410で直接実行するようになるが、一例として、音声命令に対応する返答情報をサーバ420から取得し、人工知能スピーカ410の音声インタフェースから出力することができる(S905)。
人工知能スピーカ410が追加ウェイクワード「TVフレンド」によって活性化された場合には、ユーザの音声命令に対応する動作がセットトップボックス800で実行されるように、該当の音声命令をセットトップボックス800に伝達する(S907)。これにより、セットトップボックス800は、人工知能スピーカ410からユーザの音声命令を受信し、該当の音声命令に対応する動作をセットトップボックス800で実行するようになるが、一例として、音声命令に対応する返答情報をサーバ420から取得し、セットトップボックス800のインタフェースから出力することができる(S908)。
人工知能スピーカ410がセットトップボックス800とペアリングしている状態で追加ウェイクワードによって活性化されるようになれば、ユーザから入力された音声命令をセットトップボックス800に伝達する。このとき、人工知能スピーカ410は、セットトップボックス800との通信に基づいて、ユーザが、IPTVでサポートされていない機能を発話した場合には、「サポートされていない機能です。」のような案内アナウンスを出力することができる。この他にも、人工知能スピーカ410は、セットトップボックス800の電源状態や連結状態などをモニタリングし、ユーザの発話時にセットトップボックス800の状態に対応する案内アナウンスを出力してもよい。
言い換えれば、人工知能スピーカ410に対するウェイクワードのうち、基本ウェイクワードが発話されたときには、ユーザの音声命令が人工知能スピーカ410に伝達され、人工知能スピーカ410で該当の動作が実行されるが、追加ウェイクワードが発話されたときには、ユーザの音声命令が人工知能スピーカ410を経てセットトップボックス800に伝達され、セットトップボックス800で該当の動作が実行されるようになる。例えば、ユーザが「クローバ、今日の天気は?」のような発話をした場合、人工知能スピーカ410はサーバ420から今日の天気に関する情報を取得し、取得した情報を「今日の天気は・・・」のようにスピーカ音声によって出力する。一方、ユーザが「TVフレンド、今日の天気は?」のような発話をした場合には、該当の音声命令が人工知能スピーカ410を経てセットトップボックス800に伝達され、セットトップボックス800はサーバ420から今日の天気に関する情報を取得し、取得した情報を「今日の天気は・・・」のようにTV音声で出力したり、天気に関する情報を画面に出力したりする。
図8と図9では、人工知能スピーカ410が1つのセットトップボックス800とペアリングしていることについて説明しているが、これに限定されることはなく、複数のセットトップボックスあるいは互いに異なる複数のデバイスと連動することも可能である。人工知能スピーカ410と複数のデバイスとがペアリングする場合も、デバイスごとにウェイクワードを異なるように指定してよく、例えば、人工知能スピーカ410とペアリングするセットトップボックスが2つであるときにはウェイクワードを3つ、すなわち、基本ウェイクワード、セットトップボックス1のウェイクワード、セットトップボックス2のウェイクワードを指定して搭載してよい。
基本ウェイクワードと追加ウェイクワードは、事前に定義されたウェイクワードが適用されてよいが、ユーザが直接指定することも可能である。例えば、宅内に2つのセットトップボックスが存在する場合、人工知能スピーカ410に2つのセットトップボックスを連結させ、セットトップボックス1のウェイクワードとセットトップボックス2のウェイクワードはユーザが直接指定してよい。
したがって、基本ウェイクワードの他に追加ウェイクワードが搭載され、追加ウェイクワードを利用して人工知能スピーカ410を活性化させた場合、人工知能スピーカ410は、ユーザの音声命令を追加ウェイクワードに対応するデバイスに伝達する役割をする。
この他にも、上述したように、複数のウェイクワードを利用することにより、1つの人工知能スピーカ410内で各ウェイクワードに応じて動作を異ならせることができ、あるいは異なるエンジンを呼び出す機能をサポートすることが可能となる。
このように、本発明の実施形態によると、音声基盤インタフェースを提供する人工知能機器のウェイクワードを2つ以上に区分し、各ウェイクワードに応じて人工知能機器の動作を異なるように制御することができる。
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことを理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサと1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、所望のとおりに動作するように処理装置を構成してもよく、独立的または集合的に処理装置に命令してもよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読取可能な記録媒体に格納されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読取可能な媒体に記録されてよい。このとき、媒体は、コンピュータ実行可能なプログラムを継続して格納するものであってもよく、実行またはダウンロードのために一時的に格納するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接に接続する媒体に限定されてはならず、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD−ROM、DVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が格納されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを流通するアプリストアやその他の多様なソフトウェアを供給あるいは流通するサイト、サーバなどで管理する記録媒体あるいは格納媒体が挙げられてもよい。
以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって代替されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
412:プロセッサ
510:設定部
520:活性化部
530:動作実行部

Claims (18)

  1. コンピュータによって実現される電子機器で実行される人工知能対話方法であって、
    前記電子機器の音声インタフェースによって、予め設定された複数のウェイクワードのうちのいずれか1つのウェイクワードが認識されると、対話機能を活性化させる段階、および
    前記対話機能が活性化した状態で入力された音声命令に対し、前記認識されたウェイクワードに応じて異なる動作を実行するように制御する段階
    を含む、人工知能対話方法。
  2. 前記電子機器で実行可能な動作ごとに、該当の動作を特定するためのウェイクワードを設定する段階
    をさらに含む、請求項1に記載の人工知能対話方法。
  3. 前記ウェイクワードと各ウェイクワードの動作は、前記電子機器のユーザに個人化されること
    を特徴とする、請求項1に記載の人工知能対話方法。
  4. 前記電子機器のようなネットワークに連結する他のデバイスとペアリングする段階
    をさらに含み、
    前記ウェイクワードは、基本ウェイクワードと追加ウェイクワードを含み、
    前記制御する段階は、
    前記対話機能が前記基本ウェイクワードによって活性化された場合には前記音声命令に対応する動作を前記電子機器で実行し、
    前記対話機能が前記追加ウェイクワードによって活性化された場合には前記音声命令に対応する動作が前記他のデバイスで実行されるように、前記音声命令を前記他のデバイスに伝達すること
    を特徴とする、請求項1に記載の人工知能対話方法。
  5. 前記ペアリングする段階は、
    前記ネットワークに連結する他のデバイスを検索し、検索信号に応答したデバイスとペアリングすること
    を特徴とする、請求項4に記載の人工知能対話方法。
  6. 前記電子機器とペアリングする他のデバイスが複数である場合、デバイスごとに前記追加ウェイクワードを異なるように設定する段階
    をさらに含む、請求項4に記載の人工知能対話方法。
  7. 前記制御する段階は、
    前記認識されたウェイクワードに応じて異なるエンジンを呼び出し、該当のエンジンから前記音声命令に対応する返答情報を出力すること
    を特徴とする、請求項1に記載の人工知能対話方法。
  8. 前記活性化する段階は、
    前記認識されたウェイクワードに応じて活性化状態を区別して表示する段階
    を含む、請求項1に記載の人工知能対話方法。
  9. コンピュータと結合して請求項1乃至8のうちのいずれか一項に記載の人工知能対話方法をコンピュータに実行させる、コンピュータプログラム。
  10. 請求項1乃至8のうちのいずれか一項に記載の人工知能対話方法をコンピュータに実行させるためのプログラムが記録されていることを特徴とする、コンピュータ読取可能な記録媒体。
  11. コンピュータによって実現される電子機器の人工知能対話システムであって、
    コンピュータ読取可能な命令を実行するように実現される少なくとも1つのプロセッサ
    を含み、
    前記少なくとも1つのプロセッサは、
    前記電子機器の対話機能を活性化させるための対話活性トリガとして使用される2つ以上のウェイクワードを設定する設定部、
    前記電子機器の音声インタフェースによって前記ウェイクワードのうちのいずれか1つのウェイクワードが認識されると、前記対話機能を活性化させる活性化部、および
    前記対話機能が活性化した状態で入力された音声命令に対し、前記認識されたウェイクワードに応じて異なる動作を実行するように制御する動作実行部
    を備える、人工知能対話システム。
  12. 前記設定部は、
    前記電子機器で実行可能な動作ごとに、該当の動作を特定するためのウェイクワードを設定すること
    を特徴とする、請求項11に記載の人工知能対話システム。
  13. 前記ウェイクワードと各ウェイクワードの動作は、前記電子機器のユーザに個人化されること
    を特徴とする、請求項11に記載の人工知能対話システム。
  14. 前記設定部は、
    前記電子機器のようなネットワークに連結する他のデバイスとペアリングし、
    前記ウェイクワードは、基本ウェイクワードと追加ウェイクワードを含み、
    前記動作実行部は、
    前記対話機能が前記基本ウェイクワードによって活性化された場合には前記音声命令に対応する動作を前記電子機器で実行し、
    前記対話機能が前記追加ウェイクワードによって活性化された場合には前記音声命令に対応する動作が前記他のデバイスで実行されるように、前記音声命令を前記他のデバイスに伝達すること
    を特徴とする、請求項11に記載の人工知能対話システム。
  15. 前記設定部は、
    前記ネットワークに連結する他のデバイスを検索し、検索信号に応答したデバイスとペアリングすること
    を特徴とする、請求項14に記載の人工知能対話システム。
  16. 前記設定部は、
    前記電子機器とペアリングする他のデバイスが複数である場合、デバイスごとに前記追加ウェイクワードを異なるように設定すること
    を特徴とする、請求項14に記載の人工知能対話システム。
  17. 前記動作実行部は、
    前記認識されたウェイクワードに応じて異なるエンジンを呼び出し、該当のエンジンから前記音声命令に対応する返答情報を出力すること
    を特徴とする、請求項11に記載の人工知能対話システム。
  18. 前記活性化部は、
    前記認識されたウェイクワードに応じて活性化状態を区別して表示すること
    を特徴とする、請求項11に記載の人工知能対話システム。
JP2018233017A 2017-12-18 2018-12-13 複数のウェイクワードを利用して人工知能機器を制御する方法およびシステム Active JP6752870B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2017-0174460 2017-12-18
KR20170174460 2017-12-18
KR1020180039494A KR102209092B1 (ko) 2017-12-18 2018-04-05 복수의 호출 용어를 이용하여 인공지능 기기를 제어하는 방법 및 시스템
KR10-2018-0039494 2018-04-05

Publications (2)

Publication Number Publication Date
JP2019109510A true JP2019109510A (ja) 2019-07-04
JP6752870B2 JP6752870B2 (ja) 2020-09-09

Family

ID=67179793

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018233017A Active JP6752870B2 (ja) 2017-12-18 2018-12-13 複数のウェイクワードを利用して人工知能機器を制御する方法およびシステム

Country Status (1)

Country Link
JP (1) JP6752870B2 (ja)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111096680A (zh) * 2019-12-31 2020-05-05 广东美的厨房电器制造有限公司 烹饪设备、电子设备、语音服务器、语音控制方法和装置
WO2023056026A1 (en) * 2021-09-30 2023-04-06 Sonos, Inc. Enabling and disabling microphones and voice assistants
US11817083B2 (en) 2018-12-13 2023-11-14 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US11816393B2 (en) 2017-09-08 2023-11-14 Sonos, Inc. Dynamic computation of system response volume
US11817076B2 (en) 2017-09-28 2023-11-14 Sonos, Inc. Multi-channel acoustic echo cancellation
US11881223B2 (en) 2018-12-07 2024-01-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11881222B2 (en) 2020-05-20 2024-01-23 Sonos, Inc Command keywords with input detection windowing
US11887598B2 (en) 2020-01-07 2024-01-30 Sonos, Inc. Voice verification for media playback
US11934742B2 (en) 2016-08-05 2024-03-19 Sonos, Inc. Playback device supporting concurrent voice assistants
US11947870B2 (en) 2016-02-22 2024-04-02 Sonos, Inc. Audio response playback
CN117894321A (zh) * 2024-03-15 2024-04-16 富迪科技(南京)有限公司 一种语音交互方法、语音交互提示系统、装置
US11961519B2 (en) 2020-02-07 2024-04-16 Sonos, Inc. Localized wakeword verification
US11973893B2 (en) 2018-08-28 2024-04-30 Sonos, Inc. Do not disturb feature for audio notifications
EP4301092A4 (en) * 2021-02-25 2024-05-01 Panasonic Ip Man Co Ltd CONTROL DEVICE AND HEATING COOKING APPLIANCE PROVIDED WITH SAID CONTROL DEVICE
US11979960B2 (en) 2016-07-15 2024-05-07 Sonos, Inc. Contextualization of voice inputs
CN117894321B (zh) * 2024-03-15 2024-05-17 富迪科技(南京)有限公司 一种语音交互方法、语音交互提示系统、装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014150431A (ja) * 2013-02-01 2014-08-21 Alpine Electronics Inc 車載装置
JP2016095383A (ja) * 2014-11-14 2016-05-26 株式会社ATR−Trek 音声認識クライアント装置及びサーバ型音声認識装置
JP2016151608A (ja) * 2015-02-16 2016-08-22 アルパイン株式会社 電子装置、情報端末システム、音声認識機能の起動プログラムおよび音声認識機能の起動方法
JP2016532146A (ja) * 2013-07-08 2016-10-13 クゥアルコム・インコーポレイテッドQualcomm Incorporated 音声動作式機能にキーワードモデルを割り当てるための方法および装置
KR20170093629A (ko) * 2016-02-05 2017-08-16 삼성전자주식회사 음성인식 장치 및 방법, 음성인식시스템
JP2019086903A (ja) * 2017-11-02 2019-06-06 東芝映像ソリューション株式会社 音声対話端末、および音声対話端末制御方法
JP2019086535A (ja) * 2017-11-01 2019-06-06 ソフトバンク株式会社 送信制御装置及びプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014150431A (ja) * 2013-02-01 2014-08-21 Alpine Electronics Inc 車載装置
JP2016532146A (ja) * 2013-07-08 2016-10-13 クゥアルコム・インコーポレイテッドQualcomm Incorporated 音声動作式機能にキーワードモデルを割り当てるための方法および装置
JP2016095383A (ja) * 2014-11-14 2016-05-26 株式会社ATR−Trek 音声認識クライアント装置及びサーバ型音声認識装置
JP2016151608A (ja) * 2015-02-16 2016-08-22 アルパイン株式会社 電子装置、情報端末システム、音声認識機能の起動プログラムおよび音声認識機能の起動方法
KR20170093629A (ko) * 2016-02-05 2017-08-16 삼성전자주식회사 음성인식 장치 및 방법, 음성인식시스템
JP2019086535A (ja) * 2017-11-01 2019-06-06 ソフトバンク株式会社 送信制御装置及びプログラム
JP2019086903A (ja) * 2017-11-02 2019-06-06 東芝映像ソリューション株式会社 音声対話端末、および音声対話端末制御方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11947870B2 (en) 2016-02-22 2024-04-02 Sonos, Inc. Audio response playback
US11979960B2 (en) 2016-07-15 2024-05-07 Sonos, Inc. Contextualization of voice inputs
US11934742B2 (en) 2016-08-05 2024-03-19 Sonos, Inc. Playback device supporting concurrent voice assistants
US11816393B2 (en) 2017-09-08 2023-11-14 Sonos, Inc. Dynamic computation of system response volume
US11817076B2 (en) 2017-09-28 2023-11-14 Sonos, Inc. Multi-channel acoustic echo cancellation
US11973893B2 (en) 2018-08-28 2024-04-30 Sonos, Inc. Do not disturb feature for audio notifications
US11881223B2 (en) 2018-12-07 2024-01-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11817083B2 (en) 2018-12-13 2023-11-14 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
CN111096680A (zh) * 2019-12-31 2020-05-05 广东美的厨房电器制造有限公司 烹饪设备、电子设备、语音服务器、语音控制方法和装置
US11887598B2 (en) 2020-01-07 2024-01-30 Sonos, Inc. Voice verification for media playback
US11961519B2 (en) 2020-02-07 2024-04-16 Sonos, Inc. Localized wakeword verification
US11881222B2 (en) 2020-05-20 2024-01-23 Sonos, Inc Command keywords with input detection windowing
EP4301092A4 (en) * 2021-02-25 2024-05-01 Panasonic Ip Man Co Ltd CONTROL DEVICE AND HEATING COOKING APPLIANCE PROVIDED WITH SAID CONTROL DEVICE
WO2023056026A1 (en) * 2021-09-30 2023-04-06 Sonos, Inc. Enabling and disabling microphones and voice assistants
CN117894321A (zh) * 2024-03-15 2024-04-16 富迪科技(南京)有限公司 一种语音交互方法、语音交互提示系统、装置
CN117894321B (zh) * 2024-03-15 2024-05-17 富迪科技(南京)有限公司 一种语音交互方法、语音交互提示系统、装置

Also Published As

Publication number Publication date
JP6752870B2 (ja) 2020-09-09

Similar Documents

Publication Publication Date Title
JP6752870B2 (ja) 複数のウェイクワードを利用して人工知能機器を制御する方法およびシステム
JP6731894B2 (ja) デバイス制御方法及び電子機器
KR102209092B1 (ko) 복수의 호출 용어를 이용하여 인공지능 기기를 제어하는 방법 및 시스템
KR101949497B1 (ko) 사용자 발화의 표현법을 파악하여 기기의 동작이나 컨텐츠 제공 범위를 조정하여 제공하는 사용자 명령 처리 방법 및 시스템
JP6567727B2 (ja) 受信した音声入力の入力音量に基づいて出力される音の出力音量を調節するユーザ命令処理方法およびシステム
JP6728319B2 (ja) 人工知能機器で複数のウェイクワードを利用したサービス提供方法およびそのシステム
KR101968725B1 (ko) 음성요청에 대응하는 정보 제공을 위한 미디어 선택
JP6947687B2 (ja) 情報提供方法、電子機器、コンピュータプログラム及び記録媒体
JP6920398B2 (ja) 人工知能機器における連続会話機能
JP6573696B2 (ja) ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム
US20210295835A1 (en) Method for controlling external device based on voice and electronic device thereof
JP6681940B2 (ja) ユーザの位置及び空間に適した情報を能動的に提供する方法及び装置
JP2019012506A (ja) 機械の自動活性のための方法及びシステム
JP2019091037A (ja) 人工知能機器の自動不良検出のための方法およびシステム
KR20220078866A (ko) 외부 장치의 음성 기반 제어를 위한 방법 및 그 전자 장치
KR102255844B1 (ko) 사용자의 위치 및 공간에 알맞은 정보를 능동적으로 제공하는 방법 및 장치
KR102241792B1 (ko) 인공지능 기기에서의 연속 대화 기능
US20220180870A1 (en) Method for controlling external device based on voice and electronic device thereof
Malagi Voice control personal assistant using Raspberry PI
KR20230059307A (ko) 발화 기반 목적 장치의 식별 방법 및 이를 위한 전자 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200430

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200721

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200819

R150 Certificate of patent or registration of utility model

Ref document number: 6752870

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350