JP6728319B2 - 人工知能機器で複数のウェイクワードを利用したサービス提供方法およびそのシステム - Google Patents

人工知能機器で複数のウェイクワードを利用したサービス提供方法およびそのシステム Download PDF

Info

Publication number
JP6728319B2
JP6728319B2 JP2018233018A JP2018233018A JP6728319B2 JP 6728319 B2 JP6728319 B2 JP 6728319B2 JP 2018233018 A JP2018233018 A JP 2018233018A JP 2018233018 A JP2018233018 A JP 2018233018A JP 6728319 B2 JP6728319 B2 JP 6728319B2
Authority
JP
Japan
Prior art keywords
voice
wake word
electronic device
wake
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018233018A
Other languages
English (en)
Other versions
JP2019120935A (ja
Inventor
ヨンジェ キム
ヨンジェ キム
ミンヒ イ
ミンヒ イ
ミンヨン チョン
ミンヨン チョン
スマン パク
スマン パク
ジュンホ シン
ジュンホ シン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2019120935A publication Critical patent/JP2019120935A/ja
Application granted granted Critical
Publication of JP6728319B2 publication Critical patent/JP6728319B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

以下の説明は、人工知能対話システムに関する。
一般的に、個人秘書システム、人工知能(AI)スピーカ、チャットボットプラットフォーム(chatbot platform)などで使用される人工知能対話システムは、人間が発した命令語の意図を理解し、それに対応する返答文を提供する方式を採用している。
主に、人工知能対話システムは、人間から機能的な要求が伝達されると、このような人間の要求に対する解答を装置が提供する方式をとっており、マイク(microphone)でユーザの音声入力を受信し、受信した音声入力に基づいてデバイスの動作やコンテンツの提供を制御するようになる。
例えば、特許文献1(公開日2011年12月30日)には、ホームネットワークサービスにおいて、ホーム内の複数のマルチメディア機器をユーザの音声命令によってマルチコントロールすることができる技術が開示されている。
一般的な人工知能対話システムは、事前に定められたウェイクワード(例えば、機器の名称など)を、機器を活性化させるための対話活性トリガとして使用している。これにより、人工知能機器は、ウェイクワードに基づいて音声認識機能を実行するようになる。例えば、ユーザが機器名を発すると機器は活性化され、これに続くユーザの音声クエリを受信するための待機モードに入るようになる。
韓国公開特許第10−2011−0139797号公報
音声基盤インタフェースを提供する人工知能機器の2つ以上のウェイクワードを区分し、各ウェイクワードに応じてサービス対象を区分することができる方法およびシステムを提供する。
コンピュータによって実現される電子機器で実行される音声基盤サービス提供方法であって、前記電子機器の対話機能を活性化させるための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定する段階、前記電子機器の音声インタフェースで前記複数のウェイクワードのうちのいずれか1つの特定のウェイクワードが認識されると、前記対話機能を活性化させる段階、および前記対話機能が活性化した状態で入力された音声クエリに対し、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を提供する段階を含む、音声基盤サービス提供方法を提供する。
一側面によると、前記複数のウェイクワードと各ウェイクワードの希望返答情報範囲は、前記電子機器のユーザによって直接設定されてよい。
他の側面によると、前記提供する段階は、前記音声インタフェースに受信された音声入力に対し、前記希望返答情報範囲を含むクエリを構成してサーバに伝達する段階、および前記クエリに対する応答として、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を、前記サーバから受信して前記音声インタフェースで出力する段階を含んでよい。
また他の側面によると、前記提供する段階は、前記音声インタフェースに受信された音声入力を、前記特定のウェイクワードに関する情報と共にサービス要請のためのクエリとしてサーバに伝達する段階、および前記クエリに対する応答として、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を、前記サーバから受信して前記音声インタフェースで出力する段階を含んでよい。
また他の側面によると、前記返答情報は、前記希望返答情報範囲に該当する検索結果を、前記希望返答情報範囲に該当しない検索結果よりも高い優先順位で含んでよい。
また他の側面によると、前記返答情報は、前記希望返答情報範囲に該当する検索結果に限定されてよい。
また他の側面によると、前記返答情報は、前記電子機器のユーザの過去の利用内訳を考慮した個人化情報に基づいて構成されてよい。
また他の側面によると、前記複数のウェイクワードに対し、各ウェイクワードに年齢層が設定されてよい。
さらに他の側面によると、前記提供する段階は、前記特定のウェイクワードの年齢層に対応する検索情報を前記返答情報として提供するか、或いは前記特定のウェイクワードの年齢層に対応する出力形態で前記返答情報を提供してよい。
コンピュータによって実現されるサーバで実行される音声基盤サービス提供方法であって、電子機器の対話機能を活性化させるための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定する段階、前記複数のウェイクワードのうち、前記対話機能の活性化に利用された特定のウェイクワードに関する情報を含むクエリを前記電子機器から受信する段階、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を構成する段階、および前記受信したクエリに対する応答として、前記構成した返答情報を前記電子機器に提供する段階を含む、音声基盤サービス提供方法を提供する。
コンピュータと結合して前記音声基盤サービス提供方法をコンピュータに実行させるためにコンピュータで読み取り可能な記録媒体に格納された、コンピュータプログラムを提供する。
前記音声基盤サービス提供方法をコンピュータに実行させるためのプログラムが記録されていることを特徴とする、コンピュータで読み取り可能な記録媒体を提供する。
コンピュータによって実現される電子機器の音声基盤サービス提供システムであって、コンピュータで読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、前記電子機器の対話機能を活性化させるための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定するウェイクワード設定部、前記電子機器の音声インタフェースで前記複数のウェイクワードのうちのいずれか1つの特定のウェイクワードが認識されると、前記対話機能を活性化させる音声処理部、および前記対話機能が活性化した状態で入力された音声クエリに対し、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を提供する応答処理部を備える、音声基盤サービス提供システムを提供する。
本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の例を示した図である。 本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の他の例を示した図である。 本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。 本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。 本発明の一実施形態における、電子機器のプロセッサが含むことのできる構成要素の例を示した図である。 本発明の一実施形態における、電子機器が実行することのできる方法の例を示したフローチャートである。 本発明の一実施形態における、サービス対象が特定されたウェイクワードを説明するための例示図である。 本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示した図である。 本発明の一実施形態における、サーバが実行することのできる方法の例を示したフローチャートである。
以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。
本発明の実施形態に係る音声基盤サービス提供システムは、ユーザとの対話に基づいて動作するインタフェースを提供する電子機器によって実現されてよい。このとき、音声基盤サービス提供システムは、機器を活性化させるために2つ以上のウェイクワードを利用し、各ウェイクワードに応じて機器の動作を区分してよい。
本発明の実施形態に係る音声基盤サービス提供方法は、上述した電子機器によって実行されてよい。このとき、電子機器には、本発明の一実施形態に係るコンピュータプログラムがインストールおよび駆動されてよく、電子機器は、駆動するコンピュータプログラムの制御にしたがって本発明の一実施形態に係る音声基盤サービス提供方法を実行してよい。上述したコンピュータプログラムは、コンピュータで実現される電子機器と結合して音声基盤サービス提供方法をコンピュータに実行させるために、コンピュータで読み取り可能な記録媒体に格納されてよい。
図1は、本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の例を示した図である。図1の実施形態では、スマートホーム(smart home)やホームネットワークサービスのように宅内のデバイスを連結して制御する技術において、音声に基づいて動作するインタフェースを提供する電子機器100が、ユーザ110の発話によって受信した音声入力「電気を消して」を認識および分析し、宅内で電子機器100と内部ネットワークを介して繋がっている宅内照明機器120の電源を制御する例について示している。
例えば、宅内のデバイスは、上述した宅内照明機器120の他にも、テレビ、PC(Personal Computer)、周辺機器、エアコン、冷蔵庫、ロボット清掃機などのような家電製品はもちろん、水道、電気、冷暖房機器などのようなエネルギー消費装置、ドアロックや監視カメラなどのような保安機器など、オンライン上で連結して制御される多様なデバイスを含んでよい。また、内部ネットワークは、イーサネット(登録商標(Ethernet))、HomePNA、IEEE 1394のような有線ネットワーク技術や、ブルートゥース(登録商標(Bluetooth))、UWB(ultra Wide Band)、ジグビー(ZigBee)、Wireless 1394、Home RFのような無線ネットワーク技術などが活用されてよい。
電子機器100は、宅内のデバイスのうちの1つであってよい。例えば、電子機器100は、宅内に備えられた人工知能スピーカやロボット清掃機などのようなデバイスのうちの1つであってよい。また、電子機器100は、スマートフォン(smart phone)、携帯電話、ナビゲーション、ノート型パンコン、デジタル放送用端末、PDA(Personal Digital Assistants)、PMP(Portable Multimedia Player)、タブレット、ゲームコンソール、ウェアラブルデバイス、IoT(internet of things)デバイス、VR(virtual reality)デバイス、AR(augmented reality)デバイスなどのようなユーザ110のモバイル機器であってもよい。このように、電子機器100は、ユーザ110の音声入力を受信して宅内のデバイスを制御するために宅内のデバイスと連結可能な機能を含む機器であれば、特に制限されることはない。また、実施形態によっては、上述したユーザ110のモバイル機器が宅内のデバイスとして含まれてもよい。
図2は、本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の他の例を示した図である。図2は、音声に基づいて動作するインタフェースを提供する電子機器100が、ユーザ110の発話によって受信した音声入力「今日の天気」を認識および分析し、外部ネットワークを介して外部サーバ210から今日の天気に関する情報を取得し、取得した情報を「今日の天気は・・・」のように音声で出力する例について示している。
例えば、外部ネットワークは、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。
図2の実施形態でも、電子機器100は、宅内のデバイスのうちの1つであるか、ユーザ110のモバイル機器のうちの1つであってよく、ユーザ110の音声入力を受信して処理するための機能と、外部ネットワークを介して外部サーバ210に接続して外部サーバ210が提供するサービスやコンテンツをユーザ110に提供するための機能を含む機器であれば、特に制限されることはない。
このように、本発明の実施形態に係る電子機器100は、音声基盤インタフェースでユーザ110の発話によって受信される音声入力を含むユーザ命令を処理することのできる機器であれば、特に制限されなくてよい。例えば、電子機器100は、ユーザの音声入力を直接に認識および分析して音声入力に適した動作を実行することによってユーザ命令を処理してよいが、実施形態によっては、ユーザの音声入力に対する認識や認識された音声入力の分析、ユーザに提供される音声の合成などの処理を、電子機器100と連係する外部のプラットフォームで実行してもよい。
図3は、本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。図3は、電子機器310とクラウド人工知能プラットフォーム320(ブレイン(Brain))、およびコンテンツ・サービス330を示している。
一例として、電子機器310は、宅内に備えられるデバイスを意味してよく、少なくとも上述した電子機器100を含んでよい。このような電子機器310や電子機器310にインストールおよび駆動されるアプリケーション(以下、アプリとする)は、インタフェースコネクト340を介してクラウド人工知能プラットフォーム320と連係してよい。ここで、インタフェースコネクト340は、電子機器310や電子機器310にインストールおよび駆動されるアプリの開発のためのSDK(Software Development Kit)および/または開発文書を開発者に提供してよい。また、インタフェースコネクト340は、電子機器310や電子機器310にインストールおよび駆動されるアプリが、クラウド人工知能プラットフォーム320が提供する機能を活用することのできるAPI(Application Program Interface)を提供してよい。具体的な例として、開発者は、インタフェースコネクト340が提供するSDK(Software Development Kit)および/または開発文書を利用して開発した機器やアプリは、インタフェースコネクト340が提供するAPIを利用してクラウド人工知能プラットフォーム320が提供する機能を活用できるようになる。
ここで、クラウド人工知能プラットフォーム320は、音声基盤のサービスを提供するための機能を提供してよい。例えば、クラウド人工知能プラットフォーム320は、受信した音声を認識し、出力する音声を合成するための音声処理モジュール321、受信した映像や動画を分析して処理するためのビジョン処理モジュール322、受信した音声に適した音声を出力するために適切な対話を決定するための対話処理モジュール323、受信した音声に適した機能を勧めるための推薦モジュール324、人工知能がデータ学習に基づいて文章単位で言語を翻訳するように支援するニューラル機械翻訳(Neural Machine Translation:NMT)325などのように、音声基盤サービスを提供するための多様なモジュールを含んでよい。
例えば、図1および図2の実施形態において、電子機器100は、ユーザ110の音声入力をインタフェースコネクト340で提供するAPIを利用してクラウド人工知能プラットフォーム320に送信してよい。この場合、クラウド人工知能プラットフォーム320は、受信した音声入力を上述したモジュール321〜325を活用して認識および分析してよく、受信した音声入力に応じて適切な返答音声を合成して提供したり、適切な動作を推薦したりしてよい。
また、拡張キット350は、第三者コンテンツ開発者または会社がクラウド人工知能プラットフォーム320を基盤とした新たな音声基盤機能を実現することのできる開発キットを提供してよい。例えば、図2の実施形態において、電子機器100は、ユーザ110の音声入力を外部サーバ210に送信してよく、外部サーバ210は、拡張キット350で提供されるAPIを利用してクラウド人工知能プラットフォーム320に音声入力を送信してよい。この場合、上述と同じように、クラウド人工知能プラットフォーム320は、受信した音声入力を認識および分析して適切な返答音声を合成して提供したり、音声入力によって処理されなければならない機能に対する推薦情報を外部サーバ210に提供したりしてよい。一例として、図2において、外部サーバ210は、音声入力「今日の天気」をクラウド人工知能プラットフォーム320に送信してよく、クラウド人工知能プラットフォーム320から音声入力「今日の天気」の認識によって抽出されるキーワード「今日の」および「天気」を受信したとする。この場合、外部サーバ210は、キーワード「今日の」および「天気」に基づいて「今日の天気は・・・」のようなテキスト情報を生成し、クラウド人工知能プラットフォーム320に生成されたテキスト情報を再送してよい。このとき、クラウド人工知能プラットフォーム320は、テキスト情報を音声で合成して外部サーバ210に提供してよい。外部サーバ210は、合成された音声を電子機器100に送信してよく、電子機器100は、合成された音声「今日の天気は・・・」をスピーカから出力することにより、ユーザ110から受信した音声入力「今日の天気」が処理されてよい。このとき、電子機器100は、ユーザとの対話に基づいてデバイス動作やコンテンツ提供を実施するためのものである。
図4は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。図4の電子機器410は、上述した電子機器100に対応してよく、サーバ420は、上述した外部サーバ210またはクラウド人工知能プラットフォーム320を実現する1つのコンピュータ装置に対応してよい。
電子機器410とサーバ420は、メモリ411、421、プロセッサ412、422、通信モジュール413、423、および入力/出力インタフェース414、424を含んでよい。メモリ411、421は、コンピュータで読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、ディスクドライブ、SSD(solid state drive)、フラッシュメモリ(flash memory)などのような永久大容量記憶装置(permanent mass storage device)を含んでよい。ここで、ROM、SSD、フラッシュメモリ、ディスドライブなどのような永久大容量記憶装置は、メモリ411、421とは区分される別の永久格納装置として電子機器410やサーバ420に含まれてもよい。また、メモリ411、421には、オペレーティングシステムと、少なくとも1つのプログラムコード(一例として、電気機器410にインストールされ、特定のサービスの提供のために電子機器410で駆動するアプリケーションなどのためのコード)が格納されてよい。このようなソフトウェア構成要素は、メモリ411、421とは別のコンピュータで読み取り可能な記録媒体からロードされてよい。このような別のコンピュータで読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD−ROMドライブ、メモリカードなどのコンピュータで読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータで読み取り可能な記録媒体ではない通信モジュール413、423を通じてメモリ411、421にロードされてもよい。例えば、少なくとも1つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システムがネットワーク430を介して提供するファイルによってインストールされるコンピュータプログラム(一例として、上述したアプリケーション)に基づいて電子機器410のメモリ411にロードされてよい。
プロセッサ412、422は、基本的な算術演算、論理演算、および入力/出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ411、421または通信モジュール413、423によって、プロセッサ412、422に提供されてよい。例えば、プロセッサ412、422は、メモリ411、421のような記録装置に格納されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
通信モジュール413、423は、ネットワーク430を介して電子機器410とサーバ420とが互いに通信するための機能を提供してもよいし、電子機器410および/またはサーバ420が他の電子機器または他のサーバと通信するための機能を提供してもよい。一例として、電子機器410のプロセッサ412がメモリ411のような記録装置に格納されたプログラムコードにしたがって生成した要求が、通信モジュール413の制御にしたがってネットワーク430を介してサーバ420に伝達されてよい。これとは逆に、サーバ420のプロセッサ422の制御にしたがって提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール423とネットワーク430を経て電子機器410の通信モジュール413を通じて電子機器410に受信されてもよい。例えば、通信モジュール413を通じて受信したサーバ420の制御信号や命令、コンテンツ、ファイルなどは、プロセッサ412やメモリ411に伝達されてよく、コンテンツやファイルなどは、電子機器410がさらに含むことのできる格納媒体(上述した永久格納装置)に格納されてよい。
入力/出力インタフェース414は、入力/出力装置415とのインタフェースのための手段であってよい。例えば、入力装置は、キーボード、マウス、マイクロフォン、カメラなどの装置を含んでよく、出力装置は、ディスプレイ、スピーカ、ハプティックフィードバックデバイス(haptic feedback device)などのような装置を含んでよい。他の例として、入力/出力インタフェース414は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置415は、電子機器410と1つの装置で構成されてもよい。また、サーバ420の入力/出力インタフェース424は、サーバ420と連結するかサーバ420が含むことのできる入力または出力のための装置(図示せず)とのインタフェースのための手段であってもよい。より具体的な例として、電子機器410のプロセッサ412がメモリ411にロードされたコンピュータプログラムの命令を処理するにあたり、サーバ420や他の電子機器が提供するデータを利用して構成されるサービス画面やコンテンツが、入力/出力インタフェース414を経てディスプレイに表示されてよい。
また、他の実施形態において、電子機器410およびサーバ420は、図4に示される構成要素よりも少ない又は多い構成要素を含んでもよい。大部分の従来技術による構成要素は本願では詳細には説明されない。電子機器410は、例えば、上述した入力/出力装置415のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、GPS(Global Positioning System)モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、電子機器410がスマートフォンである場合、一般的にスマートフォンが含んでいる加速度センサやジャイロセンサ、動作センサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力/出力ポート、振動のための振動器などのような多様な構成要素3、電子機器410にさらに含まれるように実現されてよい。
本実施形態において、電子機器410は、ユーザの音声入力を受信するためのマイクを入力/出力装置415として基本的に含んでよく、ユーザの音声入力に対応する返答音声やオーディオコンテンツのような音を出力するためのスピーカを入力/出力装置415としてさらに含んでよい。
このような音声インタフェースを提供する電子機器410は、ウェイクワードによって活性化し、活性化状態でユーザが発話する音声入力をクエリとして受信するようになる。活性化はアクティベート又はイネーブル等と言及されてもよく、非活性化はデアクティベート又はディセーブル等と言及されてよい。電子機器410の活性化状態で入力された音声クエリはサーバ420に伝達され、音声クエリに適合するようにサーバ420がデータを検索して返答情報を構成し、最終的には返答情報が電子機器410で出力される。
音声インタフェースの場合、音声クエリに対応する結果を音声出力によって提供するため、出力することのできる情報が極めて限定的であり、より選別された情報を提供する必要がある。通常の選別過程は、例えば、検索されたデータの上位結果のうちの極一部だけを提供する形態であることから、ユーザのクエリに適合する情報を判別する負担が大きく、その結果も個人の好みによって大きく左右される。
これを解決するために、ボイス認証(voice ID)を機械学習に基づいてデータ化する方法、ユーザの関心事を事前に設定する方法、過去の記録(例えば、利用記録又は利用履歴)に基づいてユーザの趣向を把握する方法などによって個人化(即ち、個別的なカスタマイズ)を達成してよい。しかし、このような個人化方法は、学習過程や設定過程が別途必要であったり、長期間の利用記録が必要であるという問題を抱えており、さらには個人化された情報の流出によってプライバシーに関する問題が懸念されることもある。
本発明では、別途の個人化過程を経なくても、機器の活性化のためのウェイクワードを、ユーザの関心分野のサービスに限定するための用途として利用することができる。本発明に係る電子機器410は、サービス対象のカテゴリを特定することのできる複数のウェイクワードが設定された状態で、ユーザが機器活性化のために発話したウェイクワードに基づき、該当のウェイクワードに対応するカテゴリのサービスを提供することができる。
図5は、本発明の一実施形態における、電子機器のプロセッサが含むことのできる構成要素の例を示したブロック図であり、図6は、本発明の一実施形態における、電子機器が実行することのできる方法の例を示したフローチャートである。
本実施形態に係る電子機器410には、音声基盤サービス提供システムが構成されてよい。音声基盤サービス提供システムは、PC基盤のプログラムまたはモバイル端末専用のアプリケーションで構成されてよい。本実施形態における音声基盤サービス提供システムは、独立的に動作するプログラム形態で実現されるか、あるいは特定のアプリケーションのイン−アプリ(in−app)形態で構成されて前記特定アプリケーション上で動作可能なように実現されてよい。
例えば、電子機器410にインストールされたアプリケーションが提供する命令に基づき、電子機器410に実現された音声基盤サービス提供システムは、音声基盤サービス提供方法を実行してよい。図6に係る音声基盤サービス提供方法を実行するために、電子機器410のプロセッサ412は、構成要素として、図5に示すように、ウェイクワード設定部510、音声処理部520、クエリ伝達部、および応答処理部を備えてよい。実施形態によっては、プロセッサ412の構成要素は、選択的にプロセッサ412に含まれても除外されてもよい。また、実施形態によっては、プロセッサ412の構成要素は、プロセッサ412の機能の表現のために分離されても併合されてもよい。
このようなプロセッサ412およびプロセッサ412の構成要素は、図6の音声基盤サービス提供方法が含む段階610〜650を実行するように電子機器410を制御してよい。例えば、プロセッサ412およびプロセッサ412の構成要素は、メモリ411が含むオペレーティングシステムのコードと、少なくとも1つのプログラムのコードによる命令(instruction)を実行するように実現されてよい。
ここで、プロセッサ412の構成要素は、電子機器410に格納されたプログラムコードが提供する命令(一例として、電子機器410で駆動するアプリケーションが提供する命令)にしたがってプロセッサ412によって実行される、プロセッサ412の互いに異なる機能(different functions)の表現であってよい。例えば、電子機器410がユーザ発話による音声入力を処理するように上述した命令にしたがって電子機器410を制御するプロセッサ412の機能的表現として、音声処理部520が利用されてよい。
段階610で、プロセッサ412は、電子機器410の制御と関連する命令がロードされたメモリ411から必要な命令を読み取ってよい。この場合、前記読み取った命令には、プロセッサ412が以下で説明される段階620〜650を実行するように制御するための命令が含まれてよい。
段階620で、ウェイクワード設定部510は、電子機器410の対話機能を活性化させるための対話活性トリガとして使用されるウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定してよい。本発明において、ウェイクワードは、電子機器410の対話機能を活性化させるための対話活性トリガとして使用されると同時に、ユーザが希望するサービス対象である希望返答情報範囲を特定するための用途として使用される。ウェイクワードは、ユーザを対象に提供可能なサービス対象に対し、各カテゴリ別に定義されて設定されてよく、ユーザによって任意で設定されてもよい。希望返答情報範囲とは、サービス対象、すなわち、情報を検索するための範囲を特定するものであり、本明細書ではサービス対象を区分するカテゴリを代表的な例として説明する。
図7を参照すると、複数のウェイクワード701が定義されており、各ウェイクワード701には、サービス対象のカテゴリ702、言語703、追加検索語704が特定されている。ウェイクワード設定部510(図5)は、ユーザによる定義によって図7に示されるようなウェイクワード701、カテゴリ702、言語703、追加検索語704を設定してよく、以後に追加、修正、削除などが可能な編集機能を提供してよい。例えば、図7に示すように、カテゴリを特定せずにサービス全体を対象とする基本ウェイクワードは「シリ」として設定され(この場合、カテゴリは「All」として設定される)、「野球」というカテゴリを対象とするウェイクワードは「野球博士」として設定され、「料理」というカテゴリを対象として検索語に追加検索語(「料理法」または「レシピ」)を追加するウェイクワードは「シェフ」として設定され、英語コンテンツだけに限定するウェイクワードは「コニー」として設定されてもよい。、このように多様なウェイクワード701により、情報サービスの分野を示すカテゴリ702、提供される情報の言語を示す言語703、情報検索時に追加で使用される検索語を示す追加検索語704が特定されてよい。ウェイクワード701は、サービスを利用するすべてのユーザに同じように適用される公用語であってよいが、他の例としては、ユーザが頻繁に利用したり関心を持っているサービス対象には任意の用語が直接的に指定されることも可能である。ユーザがサービスを受けたい情報のカテゴリ(例えば、育児情報は「ジェーンママ」)または言語(例えば、中国語コンテンツを望む場合は「ニーハオ」)に対して、任意のウェイクワード701が設定されてもよい。図に示されてはいないが、所望するコンテンツの種類(イメージ、動画、地図など)、コンテンツソース(グループ、ブログ、特定のウェブサイトなど)、検索日(ここ最近1週間以内、2002年6月など)などを限定することも可能である。さらに、ウェイクワードを2つ以上に区分することで、サービス利用者や年齢層を区分することも可能である。例えば、「ジェームス」は大人の利用者を対象とし、「ブラウン」は子供の利用者を対象としてよい。すなわち、各ウェイクワードにより、サービス対象だけではなく、サービスの利用者層を特定することも可能である。共通で事前に定義されるかユーザによって直接設定されたウェイクワード701および各ウェイクワード701のサービス対象カテゴリ702は、電子機器410とサーバ420上に格納され、相互連動によってサービス対象を区分するために利用されてよい。ウェイクワード701は、電子機器410とサーバ420上に音声形態や文字値などで搭載されてよい。
再び図6において、段階630で、音声処理部520は、サービス対象のカテゴリを特定することのできる複数のウェイクワードのうちのいずれか1つの特定のウェイクワードが認識されると、電子機器410の対話機能を活性化させてよい。音声処理部520は、電子機器410の対話機能が非活性化の状態で、音声インタフェース(例えば、スピーカ)に受信された音声入力が複数のウェイクワードのうちのいずれか1つのウェイクワードに該当する場合、対話機能を自動で活性化させてよい。このとき、音声活性化部520は、音声インタフェースに受信された音声入力に対して雑音除去などの前処理過程を行った後、前処理された音声がウェイクワードに該当するかを識別してよい。
段階640で、クエリ伝達部530は、電子機器410の対話機能が活性化した状態で音声インタフェースに受信された音声入力に対し、対話機能の活性化に利用された特定のウェイクワードに対応する希望返答情報範囲を含むクエリを構成してサーバ420に伝達してよい。言い換えれば、クエリ伝達部530は、音声インタフェースに受信された音声入力に対し、サービス対象が対話機能の活性化に利用された特定のウェイクワードに対応するカテゴリに特定されたクエリを構成してサーバ420に伝達してよい。一例として、クエリ伝達部530は、対話機能が活性化した状態で受信された音声入力を、特定のウェイクワードに関する情報と共にサービス要請のためのクエリとして伝達してよい。このとき、クエリ伝達部530は、音声インタフェースに受信された特定のウェイクワードと特定のウェイクワードに続いて受信された音声入力を、音声信号形態をそのままクエリとして構成してもよいし、あるいは音声インタフェースに受信された音声信号を音声認識技術によってテキスト化した文字値をクエリとして構成してもよい。クエリ伝達部530は、特定のウェイクワードとウェイクワード後の音声入力をサーバ420に同時に伝達してよく、あるいは順に伝達することも可能である。サービス要請のためのクエリは、ユーザが要請しようとするサービス対象が限定されてよく、これは、ユーザが利用したウェイクワードに対応するカテゴリに特定されてよい。電子機器410からサーバ420に伝達されるクエリには、ユーザが利用したウェイクワード自体や識別コードが含まれるか、あるいはユーザが利用したウェイクワードに対応するカテゴリ情報などが含まれてよい。例えば図7のウェイクワードの例の場合において、ユーザがウェイクワード「シリ」を利用しながら「シリ、今日のプロ野球の結果は?」のように発話した場合には、サービス対象が限定されていないクエリがサーバ420に伝達される一方、「野球博士、今日のプロ野球の結果は?」のように発話した場合には、サービス対象のカテゴリが「野球」に特定されたクエリがサーバ420に伝達されてよい。
段階650で、応答処理部540は、サーバ420からクエリに対する応答として、ユーザが利用したウェイクワードに対応する希望返答情報範囲に基づいた返答情報、すなわち、対話機能の活性化に利用された特定のウェイクワードに対応するカテゴリのサービス情報を含む返答情報を受信して出力してよい。サーバ420は、電子機器410のユーザが機器の活性化に利用したウェイクワードの特徴に符号するサービス情報を、他のサービスよりも高い優先順位で、検索した結果を返答情報として提供してよく、応答処理部540は、サーバ420から提供された返答情報を音声インタフェースで出力してよい。言い換えれば、本発明では、サービスを特定するための複雑な個人化過程を経なくても、機器の活性化に利用されたウェイクワードだけでサービス対象を特定することができ、ウェイクワードによって特定されたサービスをより高い優先順位として、検索した返答情報を提供することができる。このとき、ウェイクワードによってサービスの利用者層が特定されていた場合、サーバ420が利用者層に対応する返答情報を提供してもよいし、あるいは応答処理部540が利用者層に適した出力形態によって返答情報を出力してもよい。例えば、子供の利用者には、大人の利用者とは異なるトーンの声で返答情報を出力してよく、音声インタフェースから発話される返答文章の形式も子供の水準に合うように生成されてよい。したがって、電子機器410の活性化に利用されたウェイクワードによってサービス対象が特定されることにより、同じクエリ(即ち、ウェイクワード以降の質問内容が同じ)であったとしても、提供される情報がウェイクワードごとに異なるようになり、これによってユーザが別途の設定過程を経なくても、個人の関心事や年齢層に合った情報を得ることができるようになる。また、応答処理部540は、クエリに対する応答として受信した返答情報を音声インタフェースから音声で出力する他にも、映像やその他の形態で出力することも可能であり、このような返答情報には、視覚的、聴覚的、触覚的出力などが可能な互いに異なる情報が含まれてよい。
図8は、本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示した図であり、図9は、本発明の一実施形態における、サーバが実行することのできる方法の例を示したフローチャートである。
本実施形態に係るサーバ420には、音声基盤サービス提供システムが構成されてよい。サーバ420はクライアントである電子機器410を対象に音声基盤のサービスを提供するものであり、電子機器410から受信したサービス要請に対する返答情報を提供してよい。
図9に係る音声基盤サービス提供方法を実行するために、サーバ420のプロセッサ422は、構成要素として、図8に示すように、情報構成部810および情報提供部820を備えてよい。実施形態によっては、プロセッサ422の構成要素は、選択的にプロセッサ422に含まれても除外されてもよい。また、実施形態によっては、プロセッサ422の構成要素は、プロセッサ422の機能の表現のために分離されても併合されてもよい。
このようなプロセッサ422およびプロセッサ422の構成要素は、図9の音声基盤サービス提供方法が含む段階910〜930を実行するように電子機器410を制御してよい。例えば、プロセッサ422およびプロセッサ422の構成要素は、メモリ421が含むオペレーティングシステムのコードと少なくとも1つのプログラムのコードによる命令を実行するように実現されてよい。
ここで、プロセッサ422の構成要素は、サーバ420に格納されたプログラムコードが提供する命令にしたがってプロセッサ422によって実行される、プロセッサ422の互いに異なる機能の表現であってよい。例えば、サーバ420が返答情報を構成するように上述した命令にしたがってサーバ420を制御するプロセッサ422の機能的表現として、情報構成部810が利用されてよい。
段階910で、プロセッサ422は、サーバ420の制御と関連する命令がロードされたメモリ421から必要な命令を読み取ってよい。この場合、前記読み取った命令には、プロセッサ422が以下で説明される段階920および930を実行するように制御するための命令が含まれてよい。
段階920で、情報構成部810は、電子機器410から受信したクエリに対し、クエリ内の特定のウェイクワードに対応するカテゴリのサービス情報を含む返答情報を構成してよい。先ず、情報構成部810は、電子機器410から受信したクエリを自然語処理して該当のクエリの意図と目標などを抽出してよい。電子機器410から受信したクエリには、ユーザが機器の活性化に利用した特定のウェイクワードに関する情報が含まれているかもしれない。サーバ420には、電子機器410のユーザに対し、ウェイクワードに対するユーザ定義(図7を参照しながら説明したウェイクワード701、カテゴリ702、言語703、追加検索語704を含む)が搭載(又は記憶)されている。このユーザ定義に基づき、情報構成部810は、クエリに含まれる特定のウェイクワードからユーザが望むサービス対象を把握してよい。一例として、情報構成部810は、電子機器410のユーザが機器の活性化に利用したウェイクワードに対応するカテゴリのサービス情報を他のサービスよりも高い優先順位として、検索した結果を、クエリに対する返答情報として構成してよい。他の例として、情報構成部810は、クエリに対するサービス対象を電子機器410のユーザが機器の活性化に利用したウェイクワードに対応するカテゴリに限定し、限定されたサービスの情報によって返答情報を構成してよい。したがって、情報構成部810は、ユーザが機器の活性化に利用したウェイクワードを、返答情報を構成するための情報選別基準として活用することができる。
情報構成部810は、クエリに含まれた特定のウェイクワードからユーザが望むサービスを把握することにより、応答する情報の量と質を調節してよい。また、情報構成部810は、電子機器410から受信したクエリに対し、電子機器410のユーザと関連する過去の利用内訳を考慮した個人化情報を追加して返答情報を構成してよい。過去の利用内訳は、ユーザ別にサーバ420上に格納されてよく、クエリと返答情報に対する記録を含んでよい。例えば、「野球博士、今日のプロ野球チームXの試合はどうだった?」というクエリから、ユーザが「プロ野球チームX」に関心があることが分かり、ユーザの関心事が例えばデータベースに記録される。以後に「野球博士、今日の試合はどうだった?」というクエリが発話された場合には、ユーザの以前のクエリによる個人化情報に基づき、「プロ野球チームX」の野球情報を返答情報として構成してよい。これにより、ユーザがクエリを発話するたびに同じような形式の質問をする必要がなくなり、より簡略な質問によってユーザが望む情報を得ることができるようになる。音声返答は、ユーザが最後まですべて聞かなければならない時間消耗的な情報伝達方法であることから、重要な情報をできるだけ簡略な返答で構成することが、ユーザ経験において重要となる。最終的には、過去の利用内訳に基づいて返答をできるだけ短く、核心内容に着目して構成することが、個人化の役割であると言える。また他の例として、同じ質問に対し、過去の利用内訳との比較により、「プロ野球チームXがプロ野球チームYに3:5で負けました」と短く返答したときに「敗因はなに?」や「S選手は登板したの?」などのように追加の質問を続けたユーザである場合には、次回同じことを質問された場合により豊富な返答情報を構成することも可能である。例えば、「野球博士、今日のプロ野球チームXの試合はどうだった?」のような後日の同じ質問に対し、過去の利用内訳に基づいてここ最近の返答などと比較しながら、「今日は先日の試合とは異なり、プロ野球チームXがプロ野球チームYに3:5で負けました。MVP選手であるS選手は、今日は登板しませんでした。」のような返答情報が構成されてもよい。または、ここ最近の一連の質問リストに基づき「今日のプロ野球チームYとの試合でプロ野球チームXは8:1で勝ちました。勝利の決め手はS選手の8回裏の2ランホームランです。ハイライトは4回表と8回裏です。」のように、より質の高い豊富な情報によって返答情報を構成することが可能になる。
段階930で、情報提供部820は、電子機器410から受信したクエリに対する応答として、段階920で構成された返答情報を電子機器410に提供してよい。返答情報には、ユーザが機器の活性化に利用したウェイクワードの特徴に符合するサービス情報が優先的に含まれてよく、音声出力はもちろん、映像や他の形態による出力が可能な情報が含まれてよい。
したがって、サーバ420は、ユーザが機器の活性化に利用したウェイクワードによってユーザの関心事を直ぐに把握することができるため、ユーザクエリに対する返答情報を効果的に選別して構成することができる。ユーザは、関心のある分野について検索しようとするとき、該当の分野に特定されたウェイクワードを利用することにより、所望の結果を受けることができる。言い換えれば、複数のウェイクワードに対し、各ウェイクワードに応じて提供される情報が異なるようにし、これにより、ユーザが個人化過程を経なくても、特定の使用層や個人の関心事、または知識水準などに合った情報を受けることができる。
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)および前記OS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ格納媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータで読み取り可能な記録媒体に格納されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータで読み取り可能な媒体に記録されてよい。このとき、媒体は、コンピュータで実行可能なプログラムを継続して格納するものであっても、実行またはダウンロードのために臨時格納するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接に接続する媒体に限定されてはならず、ネットワーク上に分散存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD−ROM、DVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が格納されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを流通するアプリストアやその他の多様なソフトウェアを供給あるいは流通するサイト、サーバなどで管理する記録媒体あるいは格納媒体が挙げられてもよい。
以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
412:プロセッサ
510:ウェイクワード設定部
520:音声処理部
530:クエリ伝達部
540:応答処理部

Claims (17)

  1. コンピュータによって実現される電子機器で実行される音声基盤サービス提供方法であって、
    前記電子機器の対話機能を活性化させるための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定する段階、
    前記電子機器の音声インタフェースで前記複数のウェイクワードのうちのいずれか1つの特定のウェイクワードが認識されると、前記対話機能を活性化させる段階、および
    前記対話機能が活性化した状態で入力された音声入力に対し、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を提供する段階
    を含み、前記提供する段階は、
    前記音声インタフェースに受信された前記音声入力に対し、前記希望返答情報範囲を含むクエリを構成してサーバに伝達する段階、および
    前記クエリに対する応答として、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を、前記サーバから受信して前記音声インタフェースで出力する段階
    を含む、音声基盤サービス提供方法。
  2. 前記複数のウェイクワードと各ウェイクワードの希望返答情報範囲は、前記電子機器のユーザによって直接設定される、請求項1に記載の音声基盤サービス提供方法。
  3. コンピュータによって実現される電子機器で実行される音声基盤サービス提供方法であって、
    前記電子機器の対話機能を活性化させるための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定する段階、
    前記電子機器の音声インタフェースで前記複数のウェイクワードのうちのいずれか1つの特定のウェイクワードが認識されると、前記対話機能を活性化させる段階、および
    前記対話機能が活性化した状態で入力された音声入力に対し、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を提供する段階
    を含み、前記提供する段階は、
    前記音声インタフェースに受信された前記音声入力を、前記特定のウェイクワードに関する情報と共にサービス要請のためのクエリとしてサーバに伝達する段階、および
    前記クエリに対する応答として、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を、前記サーバから受信して前記音声インタフェースで出力する段階
    を含む、音声基盤サービス提供方法。
  4. コンピュータによって実現される電子機器で実行される音声基盤サービス提供方法であって、
    前記電子機器の対話機能を活性化させるための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定する段階、
    前記電子機器の音声インタフェースで前記複数のウェイクワードのうちのいずれか1つの特定のウェイクワードが認識されると、前記対話機能を活性化させる段階、および
    前記対話機能が活性化した状態で入力された音声入力に対し、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を提供する段階
    を含み、前記返答情報は、前記希望返答情報範囲に該当する検索結果を、前記希望返答情報範囲に該当しない検索結果よりも高い優先順位で含む、音声基盤サービス提供方法。
  5. 前記返答情報は、前記希望返答情報範囲に該当する検索結果に限定される、請求項1に記載の音声基盤サービス提供方法。
  6. 前記返答情報は、前記電子機器のユーザの過去の利用内訳を考慮した個人化情報に基づいて構成される、請求項1に記載の音声基盤サービス提供方法。
  7. コンピュータによって実現される電子機器で実行される音声基盤サービス提供方法であって、
    前記電子機器の対話機能を活性化させるための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定する段階、
    前記電子機器の音声インタフェースで前記複数のウェイクワードのうちのいずれか1つの特定のウェイクワードが認識されると、前記対話機能を活性化させる段階、および
    前記対話機能が活性化した状態で入力された音声入力に対し、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を提供する段階
    を含み、前記複数のウェイクワードに対し、各ウェイクワードに年齢層が設定される、音声基盤サービス提供方法。
  8. 前記提供する段階は、
    前記特定のウェイクワードの年齢層に対応する検索情報を前記返答情報として提供するか、或いは前記特定のウェイクワードの年齢層に対応する出力形態で前記返答情報を提供する、請求項に記載の音声基盤サービス提供方法。
  9. 請求項1〜のうちのいずれか一項に記載の音声基盤サービス提供方法をコンピュータに実行させる、コンピュータプログラム。
  10. 請求項1〜のうちのいずれか一項に記載の音声基盤サービス提供方法をコンピュータに実行させるためのプログラムが記録されていることを特徴とする、コンピュータで読み取り可能な記録媒体。
  11. コンピュータによって実現される電子機器の音声基盤サービス提供システムであって、
    コンピュータで読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
    を含み、
    前記少なくとも1つのプロセッサは、
    前記電子機器の対話機能を活性化するための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定するウェイクワード設定部、
    前記電子機器の音声インタフェースで前記複数のウェイクワードのうちのいずれか1つの特定のウェイクワードが認識されると、前記対話機能を活性化させる音声処理部、および
    前記対話機能が活性化した状態で入力された音声入力に対し、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を提供する応答処理部
    を備え、前記少なくとも1つのプロセッサは、
    前記音声インタフェースで受信された前記音声入力に対し、サービス対象が前記希望返答情報範囲を含むクエリを構成してサーバに伝達するクエリ伝達部
    をさらに備え、前記応答処理部は、
    前記クエリに対する応答として、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を、前記サーバから受信して前記音声インタフェースで出力する、音声基盤サービス提供システム。
  12. 前記複数のウェイクワードと各ウェイクワードの希望返答情報範囲は、前記電子機器のユーザによって直接設定される、請求項11に記載の音声基盤サービス提供システム。
  13. コンピュータによって実現される電子機器の音声基盤サービス提供システムであって、
    コンピュータで読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
    を含み、前記少なくとも1つのプロセッサは、
    前記電子機器の対話機能を活性化するための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定するウェイクワード設定部、
    前記電子機器の音声インタフェースで前記複数のウェイクワードのうちのいずれか1つの特定のウェイクワードが認識されると、前記対話機能を活性化させる音声処理部、および
    前記対話機能が活性化した状態で入力された音声入力に対し、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を提供する応答処理部
    を備え、前記少なくとも1つのプロセッサは、
    前記音声インタフェースに受信された前記音声入力を、前記特定のウェイクワードに関する情報と共にサービス要請のためのクエリとしてサーバに伝達するクエリ伝達部
    をさらに備え、前記応答処理部は、
    前記クエリに対する応答として、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を、前記サーバから受信して前記音声インタフェースで出力する、音声基盤サービス提供システム。
  14. コンピュータによって実現される電子機器の音声基盤サービス提供システムであって、
    コンピュータで読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
    を含み、前記少なくとも1つのプロセッサは、
    前記電子機器の対話機能を活性化するための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定するウェイクワード設定部、
    前記電子機器の音声インタフェースで前記複数のウェイクワードのうちのいずれか1つの特定のウェイクワードが認識されると、前記対話機能を活性化させる音声処理部、および
    前記対話機能が活性化した状態で入力された音声入力に対し、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を提供する応答処理部
    を備え、前記返答情報は、前記希望返答情報範囲に該当する検索結果を、前記希望返答情報範囲に該当しない検索結果よりも高い優先順位で含む、音声基盤サービス提供システム。
  15. 前記返答情報は、前記希望返答情報範囲に該当する検索結果に限定される、請求項11に記載の音声基盤サービス提供システム。
  16. 前記返答情報は、前記電子機器のユーザの過去の利用内訳を考慮した個人化情報に基づいて構成される、請求項11に記載の音声基盤サービス提供システム。
  17. コンピュータによって実現される電子機器の音声基盤サービス提供システムであって、
    コンピュータで読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
    を含み、前記少なくとも1つのプロセッサは、
    前記電子機器の対話機能を活性化するための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定するウェイクワード設定部、
    前記電子機器の音声インタフェースで前記複数のウェイクワードのうちのいずれか1つの特定のウェイクワードが認識されると、前記対話機能を活性化させる音声処理部、および
    前記対話機能が活性化した状態で入力された音声入力に対し、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を提供する応答処理部
    を備え、前記複数のウェイクワードに対し、各ウェイクワードに年齢層が設定され、
    前記応答処理部は、
    前記特定のウェイクワードの年齢層に対応する検索情報を前記返答情報として提供するか、或いは前記特定のウェイクワードの年齢層に対応する出力形態で前記返答情報を提供する、音声基盤サービス提供システム。
JP2018233018A 2017-12-28 2018-12-13 人工知能機器で複数のウェイクワードを利用したサービス提供方法およびそのシステム Active JP6728319B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170181758A KR102079979B1 (ko) 2017-12-28 2017-12-28 인공지능 기기에서의 복수의 호출 용어를 이용한 서비스 제공 방법 및 그 시스템
KR10-2017-0181758 2017-12-28

Publications (2)

Publication Number Publication Date
JP2019120935A JP2019120935A (ja) 2019-07-22
JP6728319B2 true JP6728319B2 (ja) 2020-07-22

Family

ID=67255946

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018233018A Active JP6728319B2 (ja) 2017-12-28 2018-12-13 人工知能機器で複数のウェイクワードを利用したサービス提供方法およびそのシステム

Country Status (2)

Country Link
JP (1) JP6728319B2 (ja)
KR (1) KR102079979B1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200085143A (ko) 2019-01-04 2020-07-14 삼성전자주식회사 외부 장치를 등록하는 대화형 제어 시스템 및 방법
JP2021021860A (ja) * 2019-07-29 2021-02-18 三菱自動車工業株式会社 音声アシスタントシステム及び車両
JP7335115B2 (ja) * 2019-08-26 2023-08-29 株式会社第一興商 カラオケ用入力装置
KR102256182B1 (ko) * 2020-07-15 2021-05-25 건국대학교 산학협력단 동영상 원격 강의용 자동 질의응답 챗봇 서비스 제공 방법 및 장치
CN112927698A (zh) * 2021-02-27 2021-06-08 北京基智科技有限公司 一种基于深度学习的智能电话语音系统
CN113284502A (zh) * 2021-05-08 2021-08-20 埃顿能源科技(四川)有限公司 一种智能客服语音交互方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060070605A (ko) * 2004-12-21 2006-06-26 한국전자통신연구원 영역별 언어모델과 대화모델을 이용한 지능형 로봇 음성인식 서비스 장치 및 방법
JP5616390B2 (ja) * 2012-03-27 2014-10-29 ヤフー株式会社 応答生成装置、応答生成方法および応答生成プログラム
JP2014109889A (ja) * 2012-11-30 2014-06-12 Toshiba Corp コンテンツ検索装置、コンテンツ検索方法及び制御プログラム
KR20140123369A (ko) * 2013-04-12 2014-10-22 얄리주식회사 음성인식 질의응답 시스템 및 그것의 운용방법
US9786296B2 (en) * 2013-07-08 2017-10-10 Qualcomm Incorporated Method and apparatus for assigning keyword model to voice operated function
JP6223744B2 (ja) * 2013-08-19 2017-11-01 株式会社東芝 方法、電子機器およびプログラム
JP2016095383A (ja) * 2014-11-14 2016-05-26 株式会社ATR−Trek 音声認識クライアント装置及びサーバ型音声認識装置
US9940929B2 (en) * 2015-12-09 2018-04-10 Lenovo (Singapore) Pte. Ltd. Extending the period of voice recognition

Also Published As

Publication number Publication date
KR20190079791A (ko) 2019-07-08
KR102079979B1 (ko) 2020-02-21
JP2019120935A (ja) 2019-07-22

Similar Documents

Publication Publication Date Title
JP6728319B2 (ja) 人工知能機器で複数のウェイクワードを利用したサービス提供方法およびそのシステム
JP6752870B2 (ja) 複数のウェイクワードを利用して人工知能機器を制御する方法およびシステム
JP6902683B2 (ja) 仮想ロボットのインタラクション方法、装置、記憶媒体及び電子機器
US10657963B2 (en) Method and system for processing user command to provide and adjust operation of electronic device by analyzing presentation of user speech
US11302337B2 (en) Voiceprint recognition method and apparatus
CN109243432B (zh) 话音处理方法以及支持该话音处理方法的电子设备
KR102309540B1 (ko) 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법
US20200349940A1 (en) Server for determining target device based on speech input of user and controlling target device, and operation method of the server
KR102204979B1 (ko) 딥러닝 생성모델과 다중모달 분포를 이용하여 멀티턴 대화 응답을 생성하는 방법 및 시스템
JP6607999B2 (ja) 音声要請に対応する情報提供のためのメディア選択
US10860289B2 (en) Flexible voice-based information retrieval system for virtual assistant
US20200125967A1 (en) Electronic device and method for controlling the electronic device
JP6678632B2 (ja) 人間−機械間の感情会話のための方法及びシステム
KR102209092B1 (ko) 복수의 호출 용어를 이용하여 인공지능 기기를 제어하는 방법 및 시스템
US11721333B2 (en) Electronic apparatus and control method thereof
JP6920398B2 (ja) 人工知能機器における連続会話機能
CN109923515A (zh) 使用网络可寻址设备创建电影化的讲故事体验
US20220020358A1 (en) Electronic device for processing user utterance and operation method therefor
JP2019012506A (ja) 機械の自動活性のための方法及びシステム
TW202301080A (zh) 輔助系統的多裝置調解
KR20200080389A (ko) 전자 장치 및 그 제어 방법
CN112398952A (zh) 电子资源推送方法、系统、设备及存储介质
US10803870B2 (en) Electronic device performing operation using voice command and method of operating electronic device
KR20220165993A (ko) 인공지능 캐릭터 생성 방법 및 그 시스템
JP6713032B2 (ja) 雰囲気コントロールが可能な音源ミキシング方法およびシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200701

R150 Certificate of patent or registration of utility model

Ref document number: 6728319

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350