JP2019040602A - 人工知能機器における連続会話機能 - Google Patents

人工知能機器における連続会話機能 Download PDF

Info

Publication number
JP2019040602A
JP2019040602A JP2018152310A JP2018152310A JP2019040602A JP 2019040602 A JP2019040602 A JP 2019040602A JP 2018152310 A JP2018152310 A JP 2018152310A JP 2018152310 A JP2018152310 A JP 2018152310A JP 2019040602 A JP2019040602 A JP 2019040602A
Authority
JP
Japan
Prior art keywords
voice command
conversation
work
artificial intelligence
continuous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018152310A
Other languages
English (en)
Other versions
JP6619488B2 (ja
Inventor
ジウン イ
Jieun Lee
ジウン イ
ドンヨル イ
Dong Yeoul Lee
ドンヨル イ
ジンウク ホン
Jinook Hong
ジンウク ホン
ギョンヨン キム
Kyungyeon Kim
ギョンヨン キム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Z Intermediate Global Corp
Naver Corp
Original Assignee
Line Corp
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Line Corp, Naver Corp filed Critical Line Corp
Publication of JP2019040602A publication Critical patent/JP2019040602A/ja
Priority to JP2019206132A priority Critical patent/JP6920398B2/ja
Application granted granted Critical
Publication of JP6619488B2 publication Critical patent/JP6619488B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】 人工知能機器で連続会話機能を提供する技術を提供する。【解決手段】 人工知能連続会話方法は、会話機能が非アクティブな状態で会話アクティブ化トリガーが認識されると、前記会話機能をアクティブ化させて音声命令待機状態に入る段階、前記音声命令待機状態で音声命令が受信されると、前記音声命令に対応する作業を実行する段階、および前記作業の類型に基づいて次の音声命令待機状態に直ぐに入ることによって連続会話機能を提供する段階を含む。【選択図】 図5

Description

以下の説明は、人工知能会話システムに関する。
一般的に、個人秘書システム、チャットボットプラットフォーム(chatbot platform)、人工知能(AI)スピーカなどで使用される人工知能会話システムは、人間の命令語に対する意図を理解し、これに対応する返答を提供する方式を採用している。
主に人工知能会話システムは、人間が機能的な要求を伝達すると、マシンが人間の要求に対する返答を提供する方式で実行されるが、マイクでユーザの音声入力を受信し、受信した音声入力に基づいてデバイス動作やコンテンツ提供を制御することができる。
例えば、特許文献1は、ホームネットワークサービスにおいて、移動通信ネットワーク(第1通信ネットワーク)の他にWi−Fi(登録商標)のような第2通信ネットワークを利用してホームネットワークサービスを提供することが可能であり、宅内の複数のマルチメディア機器を、ユーザがボタン操作をしなくても音声命令によってマルチコントロールすることができる技術を開示している。
一般的に、人工知能会話システムは、事前に定められたキーワード(すなわち、ウェイクアップワード(wake up word))(例えば、機器名など)を、機器をアクティブ化するための会話アクティブ化トリガーとして使用している。
人工知能機器は、キーワード呼び出しを基盤として音声認識機能を実行するようになるが、例えば、ユーザが機器名を呼ぶと機器がアクティブ化し、ユーザの音声命令を収集するための待機モードになる。
キーワードの呼び出しがなければ機器が自らアクティブ化することはなく、短い時間の間に音声命令を再試行しようとする場合は、そのたびに先ずはキーワードの呼び出しが要求されるため、使用のたびに疲労を感じざるを得なかった。
韓国公開特許第10−2011−0139797号公報
機器をアクティブ化するためのキーワード(ウェイクアップワード)の呼び出しがなくても音声命令を再要求することができる、人工知能連続会話方法およびシステムを提供する。
以前の音声命令に対応する作業によっては、キーワードの呼び出しがなくても自動で音声命令待機状態に切り換えることができる、人工知能連続会話方法およびシステムを提供する。
コンピュータによって実現される人工知能連続会話方法であって、会話機能が非アクティブな状態で会話アクティブ化トリガーが認識されると、前記会話機能をアクティブ化させて音声命令待機状態に入る段階、前記音声命令待機状態で音声命令が受信されると、前記音声命令に対応する作業を実行する段階、および前記作業の類型に基づいて次の音声命令待機状態に直ぐに入ることによって連続会話機能を提供する段階を含む、人工知能連続会話方法を提供する。
一側面によると、ウェイクアップワードに指定されたキーワードが前記会話アクティブ化トリガーとして利用され、前記連続会話機能を提供する段階は、前記音声命令に対応する作業によっては、前記キーワードの呼び出しがなくても前記会話機能のアクティブな状態を維持して前記次の音声命令待機状態に自動で切り換えることを含んでよい。
他の側面によると、前記連続会話機能を提供する段階は、前記音声命令に対応する作業が持続的な動作を必要とする作業でない場合、前記会話機能のアクティブな状態を維持して前記次の音声命令待機状態に自動で切り換えることを含んでよい。
また他の側面によると、前記連続会話機能を提供する段階は、終了命令が入力されるまで持続される第1作業と終了命令がなくても所定の時点で終了する第2作業とのうち、前記音声命令に対応する作業が前記第2作業に該当する場合、前記会話機能のアクティブな状態を維持して前記次の音声命令待機状態に自動で切り換えることを含んでよい。
また他の側面によると、前記連続会話機能を提供する段階は、前記音声命令に対応する作業がユーザの返答を要求する会話形式の動作を含む場合、前記会話機能のアクティブな状態を維持して前記次の音声命令待機状態に自動で切り換えることを含んでよい。
また他の側面によると、前記連続会話機能を提供する段階は、作業別に実行パターンを学習した結果に基づき、前記音声命令に対応する作業が追加の音声命令が予測される作業に該当する場合、前記会話機能のアクティブな状態を維持して前記次の音声命令待機状態に自動で切り換えることを含んでよい。
また他の側面によると、前記音声命令に対応する作業が持続的な動作を必要とする作業の場合には、前記会話機能を非アクティブな状態に切り換えて前記音声命令待機状態を終了させる段階をさらに含んでよい。
さらに他の側面によると、前記音声命令待機状態を終了する段階は、前記音声命令に対応する作業が前記持続的な動作を必要とする作業と関連のある作業の場合、前記会話機能を非アクティブな状態に切り換えて前記音声命令待機状態を終了させることを含んでよい。
前記人工知能連続会話方法をコンピュータに実行させるためのコンピュータプログラムを提供する。
前記コンピュータプログラムを記録しているコンピュータ読み取り可能な記録媒体を提供する。
コンピュータによって実現される人工知能連続会話システムであって、コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、会話機能が非アクティブな状態で会話アクティブ化トリガーが認識されると、前記会話機能をアクティブ化させて音声命令待機状態に入る過程、前記音声命令待機状態で音声命令が受信されると、前記音声命令に対応する作業を実行する過程、および前記作業の類型に基づいて次の音声命令待機状態に直ぐに入ることによって連続会話機能を提供する過程を処理する、人工知能連続会話システムを提供する。
本発明の実施形態によると、以前の音声命令がなされた後、以前の音声命令に対応する作業によっては、機器のアクティブな状態を維持して次の音声命令待機状態に自動で切り換えることにより、短時間内に音声命令が再試行された場合でも、機器アクティブ化のためのキーワードを呼び出す必要がなく、直ぐに作動できることから、ユーザ便宜と使用疲労度を改善することができる。
本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の例を示した図である。 本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の他の例を示した図である。 本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。 本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。 本発明の一実施形態における、人工知能連続会話方法を示したフローチャートである。 本発明の一実施形態における、キーワードの呼び出しがなくても直ぐに音声命令を再要求することのできる作業リストを説明するための例示図である。 本発明の一実施形態における、キーワードの呼び出しがなくても直ぐに音声命令を再要求することのできる作業リストを説明するための例示図である。 本発明の一実施形態における、キーワードの呼び出しがなくても直ぐに音声命令を再要求することのできる作業リストを説明するための例示図である。
以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。
本発明の実施形態に係る人工知能連続会話システムは、ユーザとの会話を基盤として動作するインタフェースを提供する電子機器によって実現されてよい。このとき、人工知能連続会話システムは、機器のアクティブ化のためのキーワード(ウェイクアップワード)を呼び出す必要なく、直ぐに音声命令を再要求することができる連続会話機能を提供する。
本発明の実施形態に係る人工知能連続会話方法は、上述した電子機器によって実行されてよい。このとき、電子機器において、本発明の一実施形態に係るコンピュータプログラムがインストールおよび実行されてよく、電子機器は、実行されるコンピュータプログラムの制御にしたがって本発明の一実施形態に係る人工知能連続会話方法を実行してよい。上述したコンピュータプログラムは、コンピュータによって実現される電子機器に人工知能連続会話方法を実行させるために、コンピュータ読み取り可能な記録媒体に記録されてよい。
図1は、本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の例を示した図である。図1の実施形態では、スマートホーム(smart home)やホームネットワークサービスのように宅内のデバイスを接続して制御する技術において、音声を基盤として動作するインタフェースを提供する電子機器100が、ユーザ110の発話によって受信された音声入力「電気を消して」を認識および分析し、宅内で内部ネットワークを介して電子機器100と連係する宅内照明機器120のライト電源を制御する例を示している。
例えば、宅内のデバイスは、上述した宅内照明機器120の他にも、テレビ、PC(Personal Computer)、周辺機器、エアコン、冷蔵庫、ロボット清掃機などのような家電製品はもちろん、水道、電気、冷/暖房機器などのようなエネルギー消費装置、ドアロックや監視カメラなどのような保安機器など、オンライン上で接続して制御可能な多様なデバイスを含んでよい。また、内部ネットワークとして、イーサネット(登録商標)、HomePNA、IEEE 1394のような有線ネットワーク技術や、ブルートゥース(登録商標)、UWB(ultra Wide Band)、ジグビー(登録商標)、Wireless 1394、Home RFのような無線ネットワーク技術などが活用されてよい。
電子機器100は、宅内のデバイスのうちの1つであってよい。例えば、電子機器100は、宅内に備えられた人工知能スピーカやロボット清掃機などのようなデバイスのうちの1つであってよい。また、電子機器100は、スマートフォン、携帯電話機、ノート型PC、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)、タブレットなどのような、ユーザ110のモバイル機器であってもよい。このように、電子機器100は、ユーザ110の音声入力を受信して宅内のデバイスを制御するために宅内のデバイスと接続可能な機能を含む機器であれば、特に制限されることはない。また、実施形態によっては、上述したユーザ110のモバイル機器が宅内のデバイスとして含まれてもよい。
図2は、本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の他の例を示した図である。図2は、音声を基盤として動作するインタフェースを提供する電子機器100が、ユーザ110の発話によって受信された音声入力「今日の天気」を認識および分析し、外部ネットワークを介して外部サーバ210から今日の天気に関する情報を取得し、取得した情報を「今日の天気は・・・」のように音声で出力する例を示している。
例えば、外部ネットワークは、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。
図2の実施形態でも、電子機器100は、宅内のデバイスのうちの1つであっても、ユーザ110のモバイル機器のうちの1つであってもよく、ユーザ110の音声入力を受信して処理するための機能と、外部ネットワークを介して外部サーバ210に接続して外部サーバ210が提供するサービスやコンテンツをユーザ110に提供するための機能とを含む機器であれば、特に制限されることはない。
このように、本発明の実施形態に係る電子機器100は、音声基盤インタフェースにより、ユーザ110の発話によって受信された音声入力を少なくとも含むユーザ命令を処理することのできる機器であれば、特に制限されることはない。例えば、電子機器100は、ユーザの音声入力を直接的に認識および分析して音声入力に適した動作を実行することでユーザ命令を処理してもよいが、実施形態によっては、ユーザの音声入力に対する認識や認識された音声入力の分析、ユーザに提供される音声の合成などの処理を、電子機器100と連係する外部のプラットフォームで実行してもよい。
図3は、本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。図3は、電子機器310、クラウド人工知能プラットフォーム320、およびコンテンツ・サービス330を示している。
一例として、電子機器310は、宅内に備えられるデバイスを意味してよく、少なくとも上述した電子機器100を含んでよい。このような電子機器310や電子機器310においてインストールおよび実行されるアプリケーション(以下、アプリとも呼ばれる)は、インタフェースコネクト340を介してクラウド人工知能プラットフォーム320と連係してよい。ここで、インタフェースコネクト340は、電子機器310や電子機器310においてインストールおよび実行されるアプリの開発のためのSDK(Software Development Kit)および/または開発文書を開発者に提供してよい。また、インタフェースコネクト340は、電子機器310や電子機器310においてインストールおよび実行されるアプリが、クラウド人工知能プラットフォーム320が提供する機能を活用することのできるAPI(Application Program Interface)を提供してよい。具体的な例として、開発者がインタフェースコネクト340の提供するSDKおよび/または開発文書を利用して開発した機器やアプリは、インタフェースコネクト340が提供するAPIを利用することで、クラウド人工知能プラットフォーム320が提供する機能を活用することが可能となる。
ここで、クラウド人工知能プラットフォーム320は、音声基盤サービスを提供するための機能を提供してよい。例えば、クラウド人工知能プラットフォーム320は、受信した音声を認識し、出力する音声を合成するための音声処理モジュール321、受信した映像や動画を分析して処理するためのビジョン処理モジュール322、受信した音声にしたがって適切な音声を出力するために適した会話を決定するための会話処理モジュール323、受信した音声に適した機能を勧めるための推薦モジュール324、人工知能がデータ学習に基づいて文章単位で言語を翻訳するように支援するニューラル機械翻訳(NMT:Neural Machine Translation)325などのように、音声基盤サービスを提供するための多様なモジュールを含んでよい。
例えば、図1および図2の実施形態において、電子機器100が、ユーザ110の音声入力を、インタフェースコネクト340で提供するAPIを利用してクラウド人工知能プラットフォーム320に送信したとする。この場合、クラウド人工知能プラットフォーム320は、上述したモジュール321〜325を活用して、受信した音声入力を認識および分析してよく、受信した音声入力にしたがって適した返答音声を合成して提供したり、適した動作を勧めたりしてよい。
また、拡張キット350は、サードパーティコンテンツ開発者または会社がクラウド人工知能プラットフォーム320を基盤として新たな音声基盤機能を実現することのできる開発キットを提供してよい。例えば、図2の実施形態において、電子機器100がユーザ110の音声入力を外部サーバ210に送信し、外部サーバ210が拡張キット350を通じて提供されるAPIを利用してクラウド人工知能プラットフォーム320に音声入力を送信したとする。この場合、上述したものと同じように、クラウド人工知能プラットフォーム320は、受信した音声入力を認識および分析して適切な返答音声を合成して提供したり、音声入力にしたがって処理されなければならない機能に対する推薦情報を外部サーバ210に提供したりしてよい。一例として、図2において、外部サーバ210が音声入力「今日の天気」をクラウド人工知能プラットフォーム320に送信し、クラウド人工知能プラットフォーム320から音声入力「今日の天気」の認識によって抽出されたキーワード「今日の」および「天気」を受信したとする。この場合、外部サーバ210は、キーワード「今日の」および「天気」に基づいて「今日の天気は・・・」のようなテキスト情報を生成した後、クラウド人工知能プラットフォーム320に生成されたテキスト情報を送信してよい。このとき、クラウド人工知能プラットフォーム320は、テキスト情報を音声で合成して外部サーバ210に提供してよい。外部サーバ210は、合成された音声を電子機器100に送信してよく、電子機器100は、合成された音声「今日の天気は・・・」をスピーカから出力することにより、ユーザ110から受信した音声入力「今日の天気」が処理されるようになる。
このとき、電子機器100は、ユーザとの会話を基盤としてデバイス動作やコンテンツ提供を実施するために、本発明の実施形態に係る人工知能連続会話方法を実行してよい。
図4は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。図4の電子機器410は、上述した電子機器100に対応してよく、サーバ420は、上述した外部サーバ210またはクラウド人工知能プラットフォーム320を実現する1つのコンピュータ装置に対応してよい。
電子機器410およびサーバ420は、メモリ411、421、プロセッサ412、422、通信モジュール413、423、および入力/出力インタフェース414、424を含んでよい。メモリ411、421は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ROMやディスクドライブのような永続的大容量記録装置は、メモリ411、421とは区別される別の永続的記録装置として電子機器410やサーバ420に含まれてもよい。また、メモリ411、421には、オペレーティングシステムと、少なくとも1つのプログラムコード(一例として、電子機器410にインストールされ、特定のサービスを提供するために電子機器410で実行されるアプリケーションなどのためのコード)が記録されてよい。このようなソフトウェア構成要素は、メモリ411、421とは別のコンピュータ読み取り可能な記録媒体からロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD−ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信モジュール413、423を通じてメモリ411、421にロードされてもよい。例えば、少なくとも1つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システムがネットワーク430を介して提供するファイルによってインストールされるプログラム(一例として、上述したアプリケーション)に基づいて電子機器410のメモリ411にロードされてよい。
プロセッサ412、422は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ411、421または通信モジュール413、423によって、プロセッサ412、422に提供されてよい。例えば、プロセッサ412、422は、メモリ411、421のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
通信モジュール413、423は、ネットワーク430を介して電子機器410とサーバ420とが互いに通信するための機能を提供してもよいし、電子機器410および/またはサーバ420が他の電子機器または他のサーバと通信するための機能を提供してもよい。一例として、電子機器410のプロセッサ412がメモリ411のような記録装置に記録されたプログラムコードにしたがって生成した要求が、通信モジュール413の制御にしたがってネットワーク430を介してサーバ420に伝達されてよい。これとは逆に、サーバ420のプロセッサ422の制御にしたがって提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール423とネットワーク430を経て電子機器410の通信モジュール413を通じて電子機器410に受信されてもよい。例えば、通信モジュール413を通じて受信したサーバ420の制御信号や命令などは、プロセッサ412やメモリ411に伝達されてよく、コンテンツやファイルなどは、電子機器410がさらに含むことのできる記録媒体(上述した永続的記録装置)に記録されてよい。
入力/出力インタフェース414は、入力/出力装置415とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、またはマウスなどの装置を含んでよく、出力装置は、ディスプレイやスピーカのような装置を含んでよい。他の例として、入力/出力インタフェース414は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置415は、電子機器410と1つの装置で構成されてもよい。また、サーバ420の入力/出力インタフェース424は、サーバ420と接続するかまたはサーバ420が含むことのできる入力または出力のための装置(図示せず)とのインタフェースのための手段であってよい。
また、他の実施形態において、電子機器410およびサーバ420は、図4の構成要素よりも少ないまたは多い構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、電子機器410は、上述した入力/出力装置415のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、GPS(Global Positioning System)モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、電子機器410がスマートフォンである場合、一般的にスマートフォンが含んでいる加速度センサやジャイロセンサ、動作センサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力/出力ポート、振動のための振動器などのように、多様な構成要素が電子機器410にさらに含まれるように実現されてよい。
本実施形態において、電子機器410は、ユーザの音声入力を受信するためのマイクを入力/出力装置415として基本的に含んでよく、ユーザの音声入力に対応する返答音声やオーディオコンテンツのような音を出力するためのスピーカを入力/出力装置415としてさらに含んでよい。
本発明の実施形態に係る人工知能連続会話方法は、上述した電子機器410のようなコンピュータ装置によって実行されてよい。このとき、電子機器410のプロセッサ412は、メモリ411が含むオペレーティングシステムのコードや少なくとも1つのプログラムのコードによる制御命令を実行するように実現されてよい。ここで、プロセッサ412は、電子機器410に記録されたコードが提供する制御命令にしたがって電子機器410が後述する人工知能連続会話方法に含まれる段階を実行するように電子機器410を制御してよい。
図5は、本発明の一実施形態における、人工知能連続会話方法の例を示したフローチャートである。
段階510で、電子機器410は、非アクティブな状態(50)で会話基盤インタフェースを通じてユーザの発話から事前に定められたキーワード(51)が認識されると、会話機能をアクティブ化させてよい(キーワード呼び出し機能)。例えば、電子機器410は、会話基盤インタフェースとして、電子機器410に含まれるマイクまたは電子機器410と連動するマイクのような音声入力装置を通じてユーザの発話による音声入力を受信してよい。言い換えれば、電子機器410は、何らの作業も実行されていないアイドル状態などの非アクティブな状態(50)でユーザがウェイクアップワードに指定されたキーワード51を発話した場合、該当のキーワード51を認識して会話機能をアクティブ化させてよい。このとき、電子機器410は、会話アクティブ化時に、電子機器410に含まれるかまたは電子機器410と連動可能な出力装置(例えば、PUI(physical user interface))を通じてユーザに会話アクティブ状態を認知させるようにするための情報、例えば、ディスプレイを点灯したり効果音を出力したりしてよい。上述したキーワード呼び出し機能は、電子機器410が無作業の状態ではもちろん、音楽再生のような作業が実行されている状態でも実行可能である。
本実施形態では、会話アクティブ化トリガーとして特定のキーワードが利用されると説明しているが、これに限定されることはなく、特定のアクションや音、信号などのように多様な形態の会話アクティブ化トリガーが利用されてもよい。
段階520で、電子機器410は、キーワード(51)の呼び出しによって会話機能がアクティブ化されたことにしたがい、ユーザの音声命令を待機してよい(音声命令待機状態)。アクティブ化された電子機器410は、一定の時間(例えば、7秒間)、ユーザの音声命令を待機する待機状態を自動的に維持する。ユーザは、例えばPUIによって電子機器410の会話アクティブ状態を認知した後、電子機器410が待機状態を維持している一定の時間内に音声命令を入力してよい。
段階530で、電子機器410は、音声命令待機状態に対して指定された時間をカウントして音声命令待機状態に入った後、一定の時間が経過したかを判定してよい。電子機器410は、指定された一定の時間内にユーザからの音声命令が確認されなかった場合には、音声命令待機状態に対してタイムアウト処理して非アクティブな状態(50)に戻る。
段階540で、電子機器410は、音声命令待機状態において一定の時間内にユーザから音声命令が受信された場合、受信した音声命令を分析してよい(音声分析機能)。電子機器410は、音声命令待機状態で会話基盤インタフェースを通じてユーザの音声入力を受信してよい。例えば、電子機器410は、会話基盤インタフェースとして、電子機器410に含まれるマイクまたは電子機器410と連動するマイクのような音声入力装置を通じてユーザの発話による音声入力を受信してよく、受信した音声命令の意味を分析する自然言語理解(NLU:natural language understanding)作業を実行してよい。
本実施形態では、電子機器410で音声分析機能を実行すると説明しているが、これに限定されることはない。例えば、電子機器410は、音声命令待機状態でユーザの音声命令を受信した後、受信した音声命令をサーバ420に伝達し、サーバ420でユーザの音声命令を分析するプロセスも可能である。
段階550で、電子機器410は、音声分析機能による意味分析結果に基づく作業を実行してよい(作業実行機能)。電子機器410は、ユーザの音声命令に対応する情報を出力するものであって、必要に応じて、動作案内のためのTTS(text to speech)と共に意味分析結果に基づく作業を実行してよい。ユーザの音声命令に対応する情報には、会話基盤インタフェースで出力可能な情報として、音声情報、映像情報、動作情報のうちの少なくとも1つが含まれてよい。一例として、電子機器410は、電子機器410に含まれるスピーカまたは電子機器410と連動するスピーカのような音声出力装置から、ユーザの音声命令に対応する音声情報を出力してよい。また、電子機器410は、電子機器410に含まれるディスプレイまたは電子機器410と連動するディスプレイのような映像出力装置から、ユーザの音声命令に対応する映像情報を出力してよい。さらに、電子機器410は、電子機器410に含まれるモータ制御動作装置または電子機器410と連動するモータ制御動作装置から、ユーザの音声命令に対応する動作情報を出力してよい。例えば、電子機器410が会話ロボットである場合、ユーザの音声命令に対応する情報にしたがって関連動作を実現してよい。
本実施形態では、電子機器410で作業実行機能を実行すると説明しているが、これに限定されることはない。例えば、電子機器410は、サーバ420からユーザの音声命令に対応する情報を受信し、受信した情報を会話基盤インタフェースで出力するプロセスも可能である。
段階560で、電子機器410は、ユーザの音声命令に対応する作業にしたがい、連続会話機能が必要であるかを判定してよい。一例として、電子機器410は、ユーザから終了命令がなされるまで持続される作業(以下、「第1作業」と称する)と、終了命令がなされなくても所定の時点で終了する作業(以下、「第2作業」と称する)(すなわち、持続的な動作が必要でない作業)とを区分し、第2作業を連続会話機能が必要な作業であると判定してよい。このとき、ユーザから終了命令が下されるまで持続される作業と関連のある作業(例えば、再生中の音楽のボリュームを上げる動作など)も、第1作業として区分してよい。他の例として、電子機器410は、ユーザの音声命令に対応する作業が、ユーザに質問して返答を要求するなどのような会話形式の動作を含む場合、連続会話機能が必要な作業であると判定してよい。また他の例として、電子機器410は、作業別に該当の作業の実行パターンを学習し、学習結果に基づいて短時間(例えば、7秒間)内に追加の音声命令に繋がると予測される作業の場合、連続会話機能が必要な作業であると判定してよい。
特に、電子機器410は、ユーザの音声命令に対応する作業が連続会話機能を必要とする作業であると判定された場合、機器のアクティブな状態を維持し、次の音声命令待機状態に自動で切り換えてよい。このとき、電子機器410は、ユーザの音声命令が入力された後に機器を非アクティブな状態に切り換えるのではなく、機器のアクティブな状態をそのまま維持させながら次の音声命令待機状態に自動で切り換えることで、機器をウェイクアップさせるためのキーワードの呼び出しがなくても、ユーザに直ぐに音声命令を再要求することが可能となる。次の音声命令待機状態でも、以前の音声命令待機状態と同じように一定の時間が待機時間として指定されているため、ユーザが追加命令を拒否して音声命令が入力されなかった場合には、待機時間が経過した直後にタイムアウト処理される。
段階570で、電子機器410は、ユーザの音声命令に対応する作業が連続会話機能を必要とする作業に該当しない場合は、機器を非アクティブな状態(50)に切り換えて音声命令待機過程を終了させる。言い換えれば、電子機器410は、連続会話機能を必要としない作業の場合には、音声命令待機過程を終了させた後、キーワードが呼び出されるまで機器の非アクティブな状態(50)を維持し、キーワードが呼び出されたときに機器を再びアクティブ化させてよい。
キーワードの呼び出しがなされた直後の最初の音声命令待機過程において音声命令分析に失敗した場合には、所定の内容(例えば、「よく分かりません。」)のTTS返答を提供した後に音声命令待機過程を終了させ、キーワードの呼び出しがなされずに連続会話機能として提供される音声命令待機過程において音声命令分析に失敗した場合には、TTS返答をせずに音声命令待機過程を終了させてよい。
電子機器410は、例えば、音楽、ニュース、童話、ラジオなどのようなコンテンツを再生する作業のように、ユーザから終了命令が下されるまで機器の持続的な作業を必要とする場合は、音声命令待機過程を終了させ、実行要求した作業を持続させてよい。これに対し、以前の音声命令待機過程で認識された音声命令による作業が、簡単な情報要求や機器とのチャットのように終了命令がなくても情報伝達後に終了する作業であったり、ユーザとの連続する会話形式の作業に該当したりする場合には、キーワードの呼び出しがなくても機器のアクティブな状態を維持し、次の音声命令待機状態に直ぐに入ってよい。
図6は、メディアコンテンツに属する作業リストの例を示している。
電子機器410は、ユーザの音声命令に対応する作業の一例として、メディアコンテンツを提供してよい。このとき、メディアコンテンツの一例として、音声情報で構成されたオーディオコンテンツ600を含んでよく、図6を参照すると、オーディオコンテンツ600は、音楽、ニュース、童話、ラジオなどに分類されてよい。
電子機器410は、ユーザから受信した音声命令の意味を分析し、意味分析結果に基づく作業を実行するようになるが、ユーザの音声命令として「ニュースをつけて」が受信された場合、オーディオコンテンツ600のうちからニュースに分類されたコンテンツを再生してよい。
このように、オーディオコンテンツ600は、ユーザから終了命令が下されるまで持続して実行される作業に該当することから、このような作業に対しては、音声命令待機過程を直ぐに終了させて機器を非アクティブ化させる。
図7は、TTS返答に属する作業リストの例を示している。
電子機器410は、ユーザの音声命令に対応する作業の一例として、TTS形態の返答情報700を提供してよい。例えば、ユーザの音声命令として「今日のスケジュールを教えて」が受信された場合、ユーザのスケジュール情報のうちから今日の日付に該当するスケジュール情報をTTSとして出力してよい。
情報検索のようなTTS返答700は、終了命令が下されなくても情報伝達後には作業が終了し、このような作業は、短時間内にユーザから追加の情報要求がある可能性が高いという点を考慮した上で、機器のアクティブな状態を維持して次の音声命令待機状態に直ぐに入ることによって連続会話機能を提供する。
図6および図7を参照しながら説明したように、命令種類別、すなわちユーザの音声命令に対応する作業類型に応じて、次の音声命令待機状態に切り換えるか否かが決定されてよい。
図8を参照すると、音楽のようなオーディオコンテンツを再生する作業、オーディオコンテンツの再生と関連のあるコントロール作業(例えば、ボリュームの調節、再生コンテンツの変更など)などでは、音声命令待機過程を直ぐに終了させて次の音声命令待機状態に切り換えない。これに対し、短答型のTTS返答を提供する作業やユーザと会話をやり取りする簡単なチャット作業などでは、機器のアクティブな状態を維持して次の音声命令待機状態に直ぐに切り換える。
したがって、電子機器410は、基本的にはキーワードの呼び出しが必須であり、これが先行することによって音声命令待機状態に入るようになるが、一部の類型作業の場合、すなわち、短時間内に音声命令が再試行される可能性の高い作業である場合には、キーワードの呼び出しがなくても音声命令待機状態に直ぐに入ることができるようにする。
このように、本発明の実施形態によると、以前の音声命令がなされた後、以前の音声命令に対応する作業によっては、機器のアクティブな状態を維持して次の音声命令待機状態に自動で切り換えることにより、短時間内に音声命令が再試行された場合でも、機器アクティブ化のためのキーワードを呼び出す必要がなく、直ぐに作動できることから、ユーザ便宜と使用疲労度を改善することができる。
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。このとき、媒体は、コンピュータによって実行可能なプログラムを継続して記録してもよいし、実行またはダウンロードのために一時的に記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよいが、あるコンピュータシステムに直接接続する媒体に限定されるものではなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD−ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、他の媒体の例としては、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体も含まれる。
以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
100:電子機器
110:ユーザ
210:外部サーバ

Claims (18)

  1. コンピュータによって実現される人工知能連続会話方法であって、
    会話機能が非アクティブな状態で会話アクティブ化トリガーが認識されると、前記会話機能をアクティブ化させて音声命令待機状態に入る段階、
    前記音声命令待機状態で音声命令が受信されると、前記音声命令に対応する作業を実行する段階、および
    前記作業の類型に基づいて次の音声命令待機状態に直ぐに入ることによって連続会話機能を提供する段階
    を含む、人工知能連続会話方法。
  2. ウェイクアップワードに指定されたキーワードが前記会話アクティブ化トリガーとして利用され、
    前記連続会話機能を提供する段階は、
    前記音声命令に対応する作業によっては、前記キーワードの呼び出しがなくても前記会話機能のアクティブな状態を維持して前記次の音声命令待機状態に自動で切り換えること
    を含む、請求項1に記載の人工知能連続会話方法。
  3. 前記連続会話機能を提供する段階は、
    前記音声命令に対応する作業が持続的な動作を必要とする作業でない場合、前記会話機能のアクティブな状態を維持して前記次の音声命令待機状態に自動で切り換えること
    を含む、請求項1に記載の人工知能連続会話方法。
  4. 前記連続会話機能を提供する段階は、
    終了命令が入力されるまで持続される第1作業と終了命令がなくても所定の時点で終了する第2作業とのうち、前記音声命令に対応する作業が前記第2作業に該当する場合、前記会話機能のアクティブな状態を維持して前記次の音声命令待機状態に自動で切り換えること
    を含む、請求項1に記載の人工知能連続会話方法。
  5. 前記連続会話機能を提供する段階は、
    前記音声命令に対応する作業がユーザの返答を要求する会話形式の動作を含む場合、前記会話機能のアクティブな状態を維持して前記次の音声命令待機状態に自動で切り換えること
    を含む、請求項1に記載の人工知能連続会話方法。
  6. 前記連続会話機能を提供する段階は、
    作業別に実行パターンを学習した結果に基づき、前記音声命令に対応する作業が追加の音声命令が予測される作業に該当する場合、前記会話機能のアクティブな状態を維持して前記次の音声命令待機状態に自動で切り換えること
    を含む、請求項1に記載の人工知能連続会話方法。
  7. 前記音声命令に対応する作業が持続的な動作を必要とする作業の場合には、前記会話機能を非アクティブな状態に切り換えて前記音声命令待機状態を終了させる段階
    をさらに含む、請求項1に記載の人工知能連続会話方法。
  8. 前記音声命令待機状態を終了させる段階は、
    前記音声命令に対応する作業が前記持続的な動作を必要とする作業と関連のある作業である場合、前記会話機能を非アクティブな状態に切り換えて前記音声命令待機状態を終了させること
    を含む、請求項7に記載の人工知能連続会話方法。
  9. 請求項1〜8のうちのいずれか一項に記載の人工知能連続会話方法をコンピュータに実行させるためのコンピュータプログラム。
  10. 請求項9に記載のコンピュータプログラムを記録しているコンピュータ読み取り可能な記録媒体。
  11. コンピュータによって実現される人工知能連続会話システムであって、
    コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
    を含み、
    前記少なくとも1つのプロセッサは、
    会話機能が非アクティブな状態で会話アクティブ化トリガーが認識されると、前記会話機能をアクティブ化させて音声命令待機状態に入る過程、
    前記音声命令待機状態で音声命令が受信されると、前記音声命令に対応する作業を実行する過程、および
    前記作業の類型に基づいて次の音声命令待機状態に直ぐに入ることによって連続会話機能を提供する過程
    を処理する、人工知能連続会話システム。
  12. ウェイクアップワードに指定されたキーワードが前記会話アクティブ化トリガーとして利用され、
    前記連続会話機能を提供する過程は、
    前記音声命令に対応する作業によっては、前記キーワードの呼び出しがなくても前記会話機能のアクティブな状態を維持して前記次の音声命令待機状態に自動で切り換えること
    を含む、請求項11に記載の人工知能連続会話システム。
  13. 前記連続会話機能を提供する過程は、
    前記音声命令に対応する作業が持続的な動作を必要とする作業でない場合、前記会話機能のアクティブな状態を維持して前記次の音声命令待機状態に自動で切り換えること
    を含む、請求項11に記載の人工知能連続会話システム。
  14. 前記連続会話機能を提供する過程は、
    終了命令が入力されるまで持続される第1作業と終了命令がなくても所定の時点で終了する第2作業とのうち、前記音声命令に対応する作業が前記第2作業に該当する場合、前記会話機能のアクティブな状態を維持して前記次の音声命令待機状態に自動で切り換えること
    を含む、請求項11に記載の人工知能連続会話システム。
  15. 前記連続会話機能を提供する過程は、
    前記音声命令に対応する作業がユーザの返答を要求する会話形式の動作を含む場合、前記会話機能のアクティブな状態を維持して前記次の音声命令待機状態に自動で切り換えること
    を含む、請求項11に記載の人工知能連続会話システム。
  16. 前記連続会話機能を提供する過程は、
    作業別に実行パターンを学習した結果に基づき、前記音声命令に対応する作業が追加の音声命令が予測される作業に該当する場合、前記会話機能のアクティブな状態を維持して前記次の音声命令待機状態に自動で切り換えること
    を含む、請求項11に記載の人工知能連続会話システム。
  17. 前記少なくとも1つのプロセッサは、
    前記音声命令に対応する作業が持続的な動作を必要とする作業の場合には、前記会話機能を非アクティブな状態に切り換えて前記音声命令待機状態を終了させる過程
    をさらに処理する、請求項11に記載の人工知能連続会話システム。
  18. 前記音声命令待機状態を終了させる過程は、
    前記音声命令に対応する作業が前記持続的な動作を必要とする作業と関連のある作業の場合、前記会話機能を非アクティブな状態に切り換えて前記音声命令待機状態を終了させること
    を含む、請求項17に記載の人工知能連続会話システム。
JP2018152310A 2017-08-22 2018-08-13 人工知能機器における連続会話機能 Active JP6619488B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019206132A JP6920398B2 (ja) 2017-08-22 2019-11-14 人工知能機器における連続会話機能

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170106057A KR102098633B1 (ko) 2017-08-22 2017-08-22 인공지능 기기에서의 연속 대화 기능
KR10-2017-0106057 2017-08-22

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019206132A Division JP6920398B2 (ja) 2017-08-22 2019-11-14 人工知能機器における連続会話機能

Publications (2)

Publication Number Publication Date
JP2019040602A true JP2019040602A (ja) 2019-03-14
JP6619488B2 JP6619488B2 (ja) 2019-12-11

Family

ID=65727568

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018152310A Active JP6619488B2 (ja) 2017-08-22 2018-08-13 人工知能機器における連続会話機能
JP2019206132A Active JP6920398B2 (ja) 2017-08-22 2019-11-14 人工知能機器における連続会話機能

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2019206132A Active JP6920398B2 (ja) 2017-08-22 2019-11-14 人工知能機器における連続会話機能

Country Status (2)

Country Link
JP (2) JP6619488B2 (ja)
KR (1) KR102098633B1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020160387A (ja) * 2019-03-28 2020-10-01 Necパーソナルコンピュータ株式会社 電子機器、制御方法およびプログラム
CN112017650A (zh) * 2019-05-31 2020-12-01 百度在线网络技术(北京)有限公司 电子设备的语音控制方法、装置、计算机设备和存储介质
JP2022519344A (ja) * 2019-04-01 2022-03-23 グーグル エルエルシー 充電式デバイスにおけるキャスティング要求および/またはユーザ入力の適応的な管理
JP7482640B2 (ja) 2020-02-05 2024-05-14 キヤノン株式会社 音声入力装置およびその制御方法ならびにプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102412643B1 (ko) * 2020-09-21 2022-06-24 그루브웍스 주식회사 개인 맞춤형 인공지능 키오스크 장치 및 이를 이용한 서비스 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016004270A (ja) * 2014-05-30 2016-01-12 アップル インコーポレイテッド 手動始点/終点指定及びトリガフレーズの必要性の低減
JP2016508007A (ja) * 2013-02-07 2016-03-10 アップル インコーポレイテッド デジタルアシスタントのためのボイストリガ
WO2016039992A1 (en) * 2014-09-12 2016-03-17 Apple Inc. Dynamic thresholds for always listening speech trigger
US20160365101A1 (en) * 2015-06-15 2016-12-15 Motorola Mobility Llc Enabling Event Driven Voice Interaction with a Device
US20170169817A1 (en) * 2015-12-09 2017-06-15 Lenovo (Singapore) Pte. Ltd. Extending the period of voice recognition
CN106971718A (zh) * 2017-04-06 2017-07-21 绵阳美菱软件技术有限公司 一种空调及空调的控制方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100032140A (ko) * 2008-09-17 2010-03-25 주식회사 현대오토넷 대화형 음성인식방법 및 음성인식장치
US9548053B1 (en) * 2014-09-19 2017-01-17 Amazon Technologies, Inc. Audible command filtering
KR102346302B1 (ko) * 2015-02-16 2022-01-03 삼성전자 주식회사 전자 장치 및 음성 인식 기능 운용 방법
KR102585228B1 (ko) * 2015-03-13 2023-10-05 삼성전자주식회사 음성 인식 시스템 및 방법
KR20170086814A (ko) * 2016-01-19 2017-07-27 삼성전자주식회사 음성 인식 기능을 제공하는 전자 장치 및 그 동작 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016508007A (ja) * 2013-02-07 2016-03-10 アップル インコーポレイテッド デジタルアシスタントのためのボイストリガ
JP2016004270A (ja) * 2014-05-30 2016-01-12 アップル インコーポレイテッド 手動始点/終点指定及びトリガフレーズの必要性の低減
WO2016039992A1 (en) * 2014-09-12 2016-03-17 Apple Inc. Dynamic thresholds for always listening speech trigger
US20160365101A1 (en) * 2015-06-15 2016-12-15 Motorola Mobility Llc Enabling Event Driven Voice Interaction with a Device
US20170169817A1 (en) * 2015-12-09 2017-06-15 Lenovo (Singapore) Pte. Ltd. Extending the period of voice recognition
CN106971718A (zh) * 2017-04-06 2017-07-21 绵阳美菱软件技术有限公司 一种空调及空调的控制方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020160387A (ja) * 2019-03-28 2020-10-01 Necパーソナルコンピュータ株式会社 電子機器、制御方法およびプログラム
JP2022519344A (ja) * 2019-04-01 2022-03-23 グーグル エルエルシー 充電式デバイスにおけるキャスティング要求および/またはユーザ入力の適応的な管理
JP7081054B2 (ja) 2019-04-01 2022-06-06 グーグル エルエルシー 充電式デバイスにおけるキャスティング要求および/またはユーザ入力の適応的な管理
US11935544B2 (en) 2019-04-01 2024-03-19 Google Llc Adaptive management of casting requests and/or user inputs at a rechargeable device
CN112017650A (zh) * 2019-05-31 2020-12-01 百度在线网络技术(北京)有限公司 电子设备的语音控制方法、装置、计算机设备和存储介质
CN112017650B (zh) * 2019-05-31 2024-05-24 百度在线网络技术(北京)有限公司 电子设备的语音控制方法、装置、计算机设备和存储介质
JP7482640B2 (ja) 2020-02-05 2024-05-14 キヤノン株式会社 音声入力装置およびその制御方法ならびにプログラム

Also Published As

Publication number Publication date
KR102098633B1 (ko) 2020-04-08
KR20190021012A (ko) 2019-03-05
JP6920398B2 (ja) 2021-08-18
JP2020038709A (ja) 2020-03-12
JP6619488B2 (ja) 2019-12-11

Similar Documents

Publication Publication Date Title
JP6619488B2 (ja) 人工知能機器における連続会話機能
US12008990B1 (en) Providing content on multiple devices
KR102543693B1 (ko) 전자 장치 및 그의 동작 방법
JP6752870B2 (ja) 複数のウェイクワードを利用して人工知能機器を制御する方法およびシステム
US11922925B1 (en) Managing dialogs on a speech recognition platform
JP6125088B2 (ja) 複数のデバイス上でコンテンツを提供すること
US20190304448A1 (en) Audio playback device and voice control method thereof
JP6731894B2 (ja) デバイス制御方法及び電子機器
JP2018190413A (ja) ユーザ発話の表現法を把握して機器の動作やコンテンツ提供範囲を調整し提供するユーザ命令処理方法およびシステム
JP6567727B2 (ja) 受信した音声入力の入力音量に基づいて出力される音の出力音量を調節するユーザ命令処理方法およびシステム
US10854199B2 (en) Communications with trigger phrases
KR102209092B1 (ko) 복수의 호출 용어를 이용하여 인공지능 기기를 제어하는 방법 및 시스템
KR102629796B1 (ko) 음성 인식의 향상을 지원하는 전자 장치
US10062386B1 (en) Signaling voice-controlled devices
KR20210116897A (ko) 외부 장치의 음성 기반 제어를 위한 방법 및 그 전자 장치
KR20210001082A (ko) 사용자 발화를 처리하는 전자 장치와 그 동작 방법
KR20230118164A (ko) 디바이스 또는 어시스턴트-특정 핫워드들의 단일 발언으로의결합
KR102396147B1 (ko) 음성 명령을 이용한 동작을 수행하는 전자 장치 및 전자 장치의 동작 방법
CN114639384B (zh) 语音控制方法、装置、计算机设备及计算机存储介质
CN111161734A (zh) 基于指定场景的语音交互方法及装置
Shazhaev et al. Personal voice assistant: from inception to everyday application
US11127400B2 (en) Electronic device and method of executing function of electronic device
KR102241792B1 (ko) 인공지능 기기에서의 연속 대화 기능
KR20230059307A (ko) 발화 기반 목적 장치의 식별 방법 및 이를 위한 전자 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180813

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191015

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191114

R150 Certificate of patent or registration of utility model

Ref document number: 6619488

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350