JP6728319B2

JP6728319B2 - 人工知能機器で複数のウェイクワードを利用したサービス提供方法およびそのシステム

Info

Publication number: JP6728319B2
Application number: JP2018233018A
Authority: JP
Inventors: ヨンジェキム; ミンヒイ; ミンヨンチョン; スマンパク; ジュンホシン
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2017-12-28
Filing date: 2018-12-13
Publication date: 2020-07-22
Anticipated expiration: 2038-12-13
Also published as: KR20190079791A; KR102079979B1; JP2019120935A

Description

以下の説明は、人工知能対話システムに関する。

一般的に、個人秘書システム、人工知能（ＡＩ）スピーカ、チャットボットプラットフォーム（ｃｈａｔｂｏｔｐｌａｔｆｏｒｍ）などで使用される人工知能対話システムは、人間が発した命令語の意図を理解し、それに対応する返答文を提供する方式を採用している。

主に、人工知能対話システムは、人間から機能的な要求が伝達されると、このような人間の要求に対する解答を装置が提供する方式をとっており、マイク（ｍｉｃｒｏｐｈｏｎｅ）でユーザの音声入力を受信し、受信した音声入力に基づいてデバイスの動作やコンテンツの提供を制御するようになる。

例えば、特許文献１（公開日２０１１年１２月３０日）には、ホームネットワークサービスにおいて、ホーム内の複数のマルチメディア機器をユーザの音声命令によってマルチコントロールすることができる技術が開示されている。

一般的な人工知能対話システムは、事前に定められたウェイクワード（例えば、機器の名称など）を、機器を活性化させるための対話活性トリガとして使用している。これにより、人工知能機器は、ウェイクワードに基づいて音声認識機能を実行するようになる。例えば、ユーザが機器名を発すると機器は活性化され、これに続くユーザの音声クエリを受信するための待機モードに入るようになる。

韓国公開特許第１０−２０１１−０１３９７９７号公報

音声基盤インタフェースを提供する人工知能機器の２つ以上のウェイクワードを区分し、各ウェイクワードに応じてサービス対象を区分することができる方法およびシステムを提供する。

コンピュータによって実現される電子機器で実行される音声基盤サービス提供方法であって、前記電子機器の対話機能を活性化させるための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定する段階、前記電子機器の音声インタフェースで前記複数のウェイクワードのうちのいずれか１つの特定のウェイクワードが認識されると、前記対話機能を活性化させる段階、および前記対話機能が活性化した状態で入力された音声クエリに対し、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を提供する段階を含む、音声基盤サービス提供方法を提供する。

一側面によると、前記複数のウェイクワードと各ウェイクワードの希望返答情報範囲は、前記電子機器のユーザによって直接設定されてよい。

他の側面によると、前記提供する段階は、前記音声インタフェースに受信された音声入力に対し、前記希望返答情報範囲を含むクエリを構成してサーバに伝達する段階、および前記クエリに対する応答として、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を、前記サーバから受信して前記音声インタフェースで出力する段階を含んでよい。

また他の側面によると、前記提供する段階は、前記音声インタフェースに受信された音声入力を、前記特定のウェイクワードに関する情報と共にサービス要請のためのクエリとしてサーバに伝達する段階、および前記クエリに対する応答として、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を、前記サーバから受信して前記音声インタフェースで出力する段階を含んでよい。

また他の側面によると、前記返答情報は、前記希望返答情報範囲に該当する検索結果を、前記希望返答情報範囲に該当しない検索結果よりも高い優先順位で含んでよい。

また他の側面によると、前記返答情報は、前記希望返答情報範囲に該当する検索結果に限定されてよい。

また他の側面によると、前記返答情報は、前記電子機器のユーザの過去の利用内訳を考慮した個人化情報に基づいて構成されてよい。

また他の側面によると、前記複数のウェイクワードに対し、各ウェイクワードに年齢層が設定されてよい。

さらに他の側面によると、前記提供する段階は、前記特定のウェイクワードの年齢層に対応する検索情報を前記返答情報として提供するか、或いは前記特定のウェイクワードの年齢層に対応する出力形態で前記返答情報を提供してよい。

コンピュータによって実現されるサーバで実行される音声基盤サービス提供方法であって、電子機器の対話機能を活性化させるための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定する段階、前記複数のウェイクワードのうち、前記対話機能の活性化に利用された特定のウェイクワードに関する情報を含むクエリを前記電子機器から受信する段階、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を構成する段階、および前記受信したクエリに対する応答として、前記構成した返答情報を前記電子機器に提供する段階を含む、音声基盤サービス提供方法を提供する。

コンピュータと結合して前記音声基盤サービス提供方法をコンピュータに実行させるためにコンピュータで読み取り可能な記録媒体に格納された、コンピュータプログラムを提供する。

前記音声基盤サービス提供方法をコンピュータに実行させるためのプログラムが記録されていることを特徴とする、コンピュータで読み取り可能な記録媒体を提供する。

コンピュータによって実現される電子機器の音声基盤サービス提供システムであって、コンピュータで読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、前記電子機器の対話機能を活性化させるための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定するウェイクワード設定部、前記電子機器の音声インタフェースで前記複数のウェイクワードのうちのいずれか１つの特定のウェイクワードが認識されると、前記対話機能を活性化させる音声処理部、および前記対話機能が活性化した状態で入力された音声クエリに対し、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を提供する応答処理部を備える、音声基盤サービス提供システムを提供する。

本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の例を示した図である。本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の他の例を示した図である。本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。本発明の一実施形態における、電子機器のプロセッサが含むことのできる構成要素の例を示した図である。本発明の一実施形態における、電子機器が実行することのできる方法の例を示したフローチャートである。本発明の一実施形態における、サービス対象が特定されたウェイクワードを説明するための例示図である。本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示した図である。本発明の一実施形態における、サーバが実行することのできる方法の例を示したフローチャートである。

以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。

本発明の実施形態に係る音声基盤サービス提供システムは、ユーザとの対話に基づいて動作するインタフェースを提供する電子機器によって実現されてよい。このとき、音声基盤サービス提供システムは、機器を活性化させるために２つ以上のウェイクワードを利用し、各ウェイクワードに応じて機器の動作を区分してよい。

本発明の実施形態に係る音声基盤サービス提供方法は、上述した電子機器によって実行されてよい。このとき、電子機器には、本発明の一実施形態に係るコンピュータプログラムがインストールおよび駆動されてよく、電子機器は、駆動するコンピュータプログラムの制御にしたがって本発明の一実施形態に係る音声基盤サービス提供方法を実行してよい。上述したコンピュータプログラムは、コンピュータで実現される電子機器と結合して音声基盤サービス提供方法をコンピュータに実行させるために、コンピュータで読み取り可能な記録媒体に格納されてよい。

図１は、本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の例を示した図である。図１の実施形態では、スマートホーム（ｓｍａｒｔｈｏｍｅ）やホームネットワークサービスのように宅内のデバイスを連結して制御する技術において、音声に基づいて動作するインタフェースを提供する電子機器１００が、ユーザ１１０の発話によって受信した音声入力「電気を消して」を認識および分析し、宅内で電子機器１００と内部ネットワークを介して繋がっている宅内照明機器１２０の電源を制御する例について示している。

例えば、宅内のデバイスは、上述した宅内照明機器１２０の他にも、テレビ、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、周辺機器、エアコン、冷蔵庫、ロボット清掃機などのような家電製品はもちろん、水道、電気、冷暖房機器などのようなエネルギー消費装置、ドアロックや監視カメラなどのような保安機器など、オンライン上で連結して制御される多様なデバイスを含んでよい。また、内部ネットワークは、イーサネット（登録商標（Ｅｔｈｅｒｎｅｔ））、ＨｏｍｅＰＮＡ、ＩＥＥＥ１３９４のような有線ネットワーク技術や、ブルートゥース（登録商標（Ｂｌｕｅｔｏｏｔｈ））、ＵＷＢ（ｕｌｔｒａＷｉｄｅＢａｎｄ）、ジグビー（ＺｉｇＢｅｅ）、Ｗｉｒｅｌｅｓｓ１３９４、ＨｏｍｅＲＦのような無線ネットワーク技術などが活用されてよい。

電子機器１００は、宅内のデバイスのうちの１つであってよい。例えば、電子機器１００は、宅内に備えられた人工知能スピーカやロボット清掃機などのようなデバイスのうちの１つであってよい。また、電子機器１００は、スマートフォン（ｓｍａｒｔｐｈｏｎｅ）、携帯電話、ナビゲーション、ノート型パンコン、デジタル放送用端末、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔｓ）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、タブレット、ゲームコンソール、ウェアラブルデバイス、ＩｏＴ（ｉｎｔｅｒｎｅｔｏｆｔｈｉｎｇｓ）デバイス、ＶＲ（ｖｉｒｔｕａｌｒｅａｌｉｔｙ）デバイス、ＡＲ（ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ）デバイスなどのようなユーザ１１０のモバイル機器であってもよい。このように、電子機器１００は、ユーザ１１０の音声入力を受信して宅内のデバイスを制御するために宅内のデバイスと連結可能な機能を含む機器であれば、特に制限されることはない。また、実施形態によっては、上述したユーザ１１０のモバイル機器が宅内のデバイスとして含まれてもよい。

図２は、本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の他の例を示した図である。図２は、音声に基づいて動作するインタフェースを提供する電子機器１００が、ユーザ１１０の発話によって受信した音声入力「今日の天気」を認識および分析し、外部ネットワークを介して外部サーバ２１０から今日の天気に関する情報を取得し、取得した情報を「今日の天気は・・・」のように音声で出力する例について示している。

例えば、外部ネットワークは、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでよい。

図２の実施形態でも、電子機器１００は、宅内のデバイスのうちの１つであるか、ユーザ１１０のモバイル機器のうちの１つであってよく、ユーザ１１０の音声入力を受信して処理するための機能と、外部ネットワークを介して外部サーバ２１０に接続して外部サーバ２１０が提供するサービスやコンテンツをユーザ１１０に提供するための機能を含む機器であれば、特に制限されることはない。

このように、本発明の実施形態に係る電子機器１００は、音声基盤インタフェースでユーザ１１０の発話によって受信される音声入力を含むユーザ命令を処理することのできる機器であれば、特に制限されなくてよい。例えば、電子機器１００は、ユーザの音声入力を直接に認識および分析して音声入力に適した動作を実行することによってユーザ命令を処理してよいが、実施形態によっては、ユーザの音声入力に対する認識や認識された音声入力の分析、ユーザに提供される音声の合成などの処理を、電子機器１００と連係する外部のプラットフォームで実行してもよい。

図３は、本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。図３は、電子機器３１０とクラウド人工知能プラットフォーム３２０（ブレイン（Ｂｒａｉｎ））、およびコンテンツ・サービス３３０を示している。

一例として、電子機器３１０は、宅内に備えられるデバイスを意味してよく、少なくとも上述した電子機器１００を含んでよい。このような電子機器３１０や電子機器３１０にインストールおよび駆動されるアプリケーション（以下、アプリとする）は、インタフェースコネクト３４０を介してクラウド人工知能プラットフォーム３２０と連係してよい。ここで、インタフェースコネクト３４０は、電子機器３１０や電子機器３１０にインストールおよび駆動されるアプリの開発のためのＳＤＫ（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ）および／または開発文書を開発者に提供してよい。また、インタフェースコネクト３４０は、電子機器３１０や電子機器３１０にインストールおよび駆動されるアプリが、クラウド人工知能プラットフォーム３２０が提供する機能を活用することのできるＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍＩｎｔｅｒｆａｃｅ）を提供してよい。具体的な例として、開発者は、インタフェースコネクト３４０が提供するＳＤＫ（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ）および／または開発文書を利用して開発した機器やアプリは、インタフェースコネクト３４０が提供するＡＰＩを利用してクラウド人工知能プラットフォーム３２０が提供する機能を活用できるようになる。

ここで、クラウド人工知能プラットフォーム３２０は、音声基盤のサービスを提供するための機能を提供してよい。例えば、クラウド人工知能プラットフォーム３２０は、受信した音声を認識し、出力する音声を合成するための音声処理モジュール３２１、受信した映像や動画を分析して処理するためのビジョン処理モジュール３２２、受信した音声に適した音声を出力するために適切な対話を決定するための対話処理モジュール３２３、受信した音声に適した機能を勧めるための推薦モジュール３２４、人工知能がデータ学習に基づいて文章単位で言語を翻訳するように支援するニューラル機械翻訳（ＮｅｕｒａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ：ＮＭＴ）３２５などのように、音声基盤サービスを提供するための多様なモジュールを含んでよい。

例えば、図１および図２の実施形態において、電子機器１００は、ユーザ１１０の音声入力をインタフェースコネクト３４０で提供するＡＰＩを利用してクラウド人工知能プラットフォーム３２０に送信してよい。この場合、クラウド人工知能プラットフォーム３２０は、受信した音声入力を上述したモジュール３２１〜３２５を活用して認識および分析してよく、受信した音声入力に応じて適切な返答音声を合成して提供したり、適切な動作を推薦したりしてよい。

また、拡張キット３５０は、第三者コンテンツ開発者または会社がクラウド人工知能プラットフォーム３２０を基盤とした新たな音声基盤機能を実現することのできる開発キットを提供してよい。例えば、図２の実施形態において、電子機器１００は、ユーザ１１０の音声入力を外部サーバ２１０に送信してよく、外部サーバ２１０は、拡張キット３５０で提供されるＡＰＩを利用してクラウド人工知能プラットフォーム３２０に音声入力を送信してよい。この場合、上述と同じように、クラウド人工知能プラットフォーム３２０は、受信した音声入力を認識および分析して適切な返答音声を合成して提供したり、音声入力によって処理されなければならない機能に対する推薦情報を外部サーバ２１０に提供したりしてよい。一例として、図２において、外部サーバ２１０は、音声入力「今日の天気」をクラウド人工知能プラットフォーム３２０に送信してよく、クラウド人工知能プラットフォーム３２０から音声入力「今日の天気」の認識によって抽出されるキーワード「今日の」および「天気」を受信したとする。この場合、外部サーバ２１０は、キーワード「今日の」および「天気」に基づいて「今日の天気は・・・」のようなテキスト情報を生成し、クラウド人工知能プラットフォーム３２０に生成されたテキスト情報を再送してよい。このとき、クラウド人工知能プラットフォーム３２０は、テキスト情報を音声で合成して外部サーバ２１０に提供してよい。外部サーバ２１０は、合成された音声を電子機器１００に送信してよく、電子機器１００は、合成された音声「今日の天気は・・・」をスピーカから出力することにより、ユーザ１１０から受信した音声入力「今日の天気」が処理されてよい。このとき、電子機器１００は、ユーザとの対話に基づいてデバイス動作やコンテンツ提供を実施するためのものである。

図４は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。図４の電子機器４１０は、上述した電子機器１００に対応してよく、サーバ４２０は、上述した外部サーバ２１０またはクラウド人工知能プラットフォーム３２０を実現する１つのコンピュータ装置に対応してよい。

電子機器４１０とサーバ４２０は、メモリ４１１、４２１、プロセッサ４１２、４２２、通信モジュール４１３、４２３、および入力／出力インタフェース４１４、４２４を含んでよい。メモリ４１１、４２１は、コンピュータで読み取り可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、ディスクドライブ、ＳＳＤ（ｓｏｌｉｄｓｔａｔｅｄｒｉｖｅ）、フラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）などのような永久大容量記憶装置（ｐｅｒｍａｎｅｎｔｍａｓｓｓｔｏｒａｇｅｄｅｖｉｃｅ）を含んでよい。ここで、ＲＯＭ、ＳＳＤ、フラッシュメモリ、ディスドライブなどのような永久大容量記憶装置は、メモリ４１１、４２１とは区分される別の永久格納装置として電子機器４１０やサーバ４２０に含まれてもよい。また、メモリ４１１、４２１には、オペレーティングシステムと、少なくとも１つのプログラムコード（一例として、電気機器４１０にインストールされ、特定のサービスの提供のために電子機器４１０で駆動するアプリケーションなどのためのコード）が格納されてよい。このようなソフトウェア構成要素は、メモリ４１１、４２１とは別のコンピュータで読み取り可能な記録媒体からロードされてよい。このような別のコンピュータで読み取り可能な記録媒体は、フロッピー（登録商標）ドライブ、ディスク、テープ、ＤＶＤ／ＣＤ−ＲＯＭドライブ、メモリカードなどのコンピュータで読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータで読み取り可能な記録媒体ではない通信モジュール４１３、４２３を通じてメモリ４１１、４２１にロードされてもよい。例えば、少なくとも１つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システムがネットワーク４３０を介して提供するファイルによってインストールされるコンピュータプログラム（一例として、上述したアプリケーション）に基づいて電子機器４１０のメモリ４１１にロードされてよい。

プロセッサ４１２、４２２は、基本的な算術演算、論理演算、および入力／出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ４１１、４２１または通信モジュール４１３、４２３によって、プロセッサ４１２、４２２に提供されてよい。例えば、プロセッサ４１２、４２２は、メモリ４１１、４２１のような記録装置に格納されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。

通信モジュール４１３、４２３は、ネットワーク４３０を介して電子機器４１０とサーバ４２０とが互いに通信するための機能を提供してもよいし、電子機器４１０および／またはサーバ４２０が他の電子機器または他のサーバと通信するための機能を提供してもよい。一例として、電子機器４１０のプロセッサ４１２がメモリ４１１のような記録装置に格納されたプログラムコードにしたがって生成した要求が、通信モジュール４１３の制御にしたがってネットワーク４３０を介してサーバ４２０に伝達されてよい。これとは逆に、サーバ４２０のプロセッサ４２２の制御にしたがって提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール４２３とネットワーク４３０を経て電子機器４１０の通信モジュール４１３を通じて電子機器４１０に受信されてもよい。例えば、通信モジュール４１３を通じて受信したサーバ４２０の制御信号や命令、コンテンツ、ファイルなどは、プロセッサ４１２やメモリ４１１に伝達されてよく、コンテンツやファイルなどは、電子機器４１０がさらに含むことのできる格納媒体（上述した永久格納装置）に格納されてよい。

入力／出力インタフェース４１４は、入力／出力装置４１５とのインタフェースのための手段であってよい。例えば、入力装置は、キーボード、マウス、マイクロフォン、カメラなどの装置を含んでよく、出力装置は、ディスプレイ、スピーカ、ハプティックフィードバックデバイス（ｈａｐｔｉｃｆｅｅｄｂａｃｋｄｅｖｉｃｅ）などのような装置を含んでよい。他の例として、入力／出力インタフェース４１４は、タッチスクリーンのように入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。入力／出力装置４１５は、電子機器４１０と１つの装置で構成されてもよい。また、サーバ４２０の入力／出力インタフェース４２４は、サーバ４２０と連結するかサーバ４２０が含むことのできる入力または出力のための装置（図示せず）とのインタフェースのための手段であってもよい。より具体的な例として、電子機器４１０のプロセッサ４１２がメモリ４１１にロードされたコンピュータプログラムの命令を処理するにあたり、サーバ４２０や他の電子機器が提供するデータを利用して構成されるサービス画面やコンテンツが、入力／出力インタフェース４１４を経てディスプレイに表示されてよい。

また、他の実施形態において、電子機器４１０およびサーバ４２０は、図４に示される構成要素よりも少ない又は多い構成要素を含んでもよい。大部分の従来技術による構成要素は本願では詳細には説明されない。電子機器４１０は、例えば、上述した入力／出力装置４１５のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、電子機器４１０がスマートフォンである場合、一般的にスマートフォンが含んでいる加速度センサやジャイロセンサ、動作センサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力／出力ポート、振動のための振動器などのような多様な構成要素３、電子機器４１０にさらに含まれるように実現されてよい。

本実施形態において、電子機器４１０は、ユーザの音声入力を受信するためのマイクを入力／出力装置４１５として基本的に含んでよく、ユーザの音声入力に対応する返答音声やオーディオコンテンツのような音を出力するためのスピーカを入力／出力装置４１５としてさらに含んでよい。

このような音声インタフェースを提供する電子機器４１０は、ウェイクワードによって活性化し、活性化状態でユーザが発話する音声入力をクエリとして受信するようになる。活性化はアクティベート又はイネーブル等と言及されてもよく、非活性化はデアクティベート又はディセーブル等と言及されてよい。電子機器４１０の活性化状態で入力された音声クエリはサーバ４２０に伝達され、音声クエリに適合するようにサーバ４２０がデータを検索して返答情報を構成し、最終的には返答情報が電子機器４１０で出力される。

音声インタフェースの場合、音声クエリに対応する結果を音声出力によって提供するため、出力することのできる情報が極めて限定的であり、より選別された情報を提供する必要がある。通常の選別過程は、例えば、検索されたデータの上位結果のうちの極一部だけを提供する形態であることから、ユーザのクエリに適合する情報を判別する負担が大きく、その結果も個人の好みによって大きく左右される。

これを解決するために、ボイス認証（ｖｏｉｃｅＩＤ）を機械学習に基づいてデータ化する方法、ユーザの関心事を事前に設定する方法、過去の記録（例えば、利用記録又は利用履歴）に基づいてユーザの趣向を把握する方法などによって個人化（即ち、個別的なカスタマイズ）を達成してよい。しかし、このような個人化方法は、学習過程や設定過程が別途必要であったり、長期間の利用記録が必要であるという問題を抱えており、さらには個人化された情報の流出によってプライバシーに関する問題が懸念されることもある。

本発明では、別途の個人化過程を経なくても、機器の活性化のためのウェイクワードを、ユーザの関心分野のサービスに限定するための用途として利用することができる。本発明に係る電子機器４１０は、サービス対象のカテゴリを特定することのできる複数のウェイクワードが設定された状態で、ユーザが機器活性化のために発話したウェイクワードに基づき、該当のウェイクワードに対応するカテゴリのサービスを提供することができる。

図５は、本発明の一実施形態における、電子機器のプロセッサが含むことのできる構成要素の例を示したブロック図であり、図６は、本発明の一実施形態における、電子機器が実行することのできる方法の例を示したフローチャートである。

本実施形態に係る電子機器４１０には、音声基盤サービス提供システムが構成されてよい。音声基盤サービス提供システムは、ＰＣ基盤のプログラムまたはモバイル端末専用のアプリケーションで構成されてよい。本実施形態における音声基盤サービス提供システムは、独立的に動作するプログラム形態で実現されるか、あるいは特定のアプリケーションのイン−アプリ（ｉｎ−ａｐｐ）形態で構成されて前記特定アプリケーション上で動作可能なように実現されてよい。

例えば、電子機器４１０にインストールされたアプリケーションが提供する命令に基づき、電子機器４１０に実現された音声基盤サービス提供システムは、音声基盤サービス提供方法を実行してよい。図６に係る音声基盤サービス提供方法を実行するために、電子機器４１０のプロセッサ４１２は、構成要素として、図５に示すように、ウェイクワード設定部５１０、音声処理部５２０、クエリ伝達部、および応答処理部を備えてよい。実施形態によっては、プロセッサ４１２の構成要素は、選択的にプロセッサ４１２に含まれても除外されてもよい。また、実施形態によっては、プロセッサ４１２の構成要素は、プロセッサ４１２の機能の表現のために分離されても併合されてもよい。

このようなプロセッサ４１２およびプロセッサ４１２の構成要素は、図６の音声基盤サービス提供方法が含む段階６１０〜６５０を実行するように電子機器４１０を制御してよい。例えば、プロセッサ４１２およびプロセッサ４１２の構成要素は、メモリ４１１が含むオペレーティングシステムのコードと、少なくとも１つのプログラムのコードによる命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行するように実現されてよい。

ここで、プロセッサ４１２の構成要素は、電子機器４１０に格納されたプログラムコードが提供する命令（一例として、電子機器４１０で駆動するアプリケーションが提供する命令）にしたがってプロセッサ４１２によって実行される、プロセッサ４１２の互いに異なる機能（ｄｉｆｆｅｒｅｎｔｆｕｎｃｔｉｏｎｓ）の表現であってよい。例えば、電子機器４１０がユーザ発話による音声入力を処理するように上述した命令にしたがって電子機器４１０を制御するプロセッサ４１２の機能的表現として、音声処理部５２０が利用されてよい。

段階６１０で、プロセッサ４１２は、電子機器４１０の制御と関連する命令がロードされたメモリ４１１から必要な命令を読み取ってよい。この場合、前記読み取った命令には、プロセッサ４１２が以下で説明される段階６２０〜６５０を実行するように制御するための命令が含まれてよい。

段階６２０で、ウェイクワード設定部５１０は、電子機器４１０の対話機能を活性化させるための対話活性トリガとして使用されるウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定してよい。本発明において、ウェイクワードは、電子機器４１０の対話機能を活性化させるための対話活性トリガとして使用されると同時に、ユーザが希望するサービス対象である希望返答情報範囲を特定するための用途として使用される。ウェイクワードは、ユーザを対象に提供可能なサービス対象に対し、各カテゴリ別に定義されて設定されてよく、ユーザによって任意で設定されてもよい。希望返答情報範囲とは、サービス対象、すなわち、情報を検索するための範囲を特定するものであり、本明細書ではサービス対象を区分するカテゴリを代表的な例として説明する。

図７を参照すると、複数のウェイクワード７０１が定義されており、各ウェイクワード７０１には、サービス対象のカテゴリ７０２、言語７０３、追加検索語７０４が特定されている。ウェイクワード設定部５１０（図５）は、ユーザによる定義によって図７に示されるようなウェイクワード７０１、カテゴリ７０２、言語７０３、追加検索語７０４を設定してよく、以後に追加、修正、削除などが可能な編集機能を提供してよい。例えば、図７に示すように、カテゴリを特定せずにサービス全体を対象とする基本ウェイクワードは「シリ」として設定され（この場合、カテゴリは「All」として設定される）、「野球」というカテゴリを対象とするウェイクワードは「野球博士」として設定され、「料理」というカテゴリを対象として検索語に追加検索語（「料理法」または「レシピ」）を追加するウェイクワードは「シェフ」として設定され、英語コンテンツだけに限定するウェイクワードは「コニー」として設定されてもよい。、このように多様なウェイクワード７０１により、情報サービスの分野を示すカテゴリ７０２、提供される情報の言語を示す言語７０３、情報検索時に追加で使用される検索語を示す追加検索語７０４が特定されてよい。ウェイクワード７０１は、サービスを利用するすべてのユーザに同じように適用される公用語であってよいが、他の例としては、ユーザが頻繁に利用したり関心を持っているサービス対象には任意の用語が直接的に指定されることも可能である。ユーザがサービスを受けたい情報のカテゴリ（例えば、育児情報は「ジェーンママ」）または言語（例えば、中国語コンテンツを望む場合は「ニーハオ」）に対して、任意のウェイクワード７０１が設定されてもよい。図に示されてはいないが、所望するコンテンツの種類（イメージ、動画、地図など）、コンテンツソース（グループ、ブログ、特定のウェブサイトなど）、検索日（ここ最近１週間以内、２００２年６月など）などを限定することも可能である。さらに、ウェイクワードを２つ以上に区分することで、サービス利用者や年齢層を区分することも可能である。例えば、「ジェームス」は大人の利用者を対象とし、「ブラウン」は子供の利用者を対象としてよい。すなわち、各ウェイクワードにより、サービス対象だけではなく、サービスの利用者層を特定することも可能である。共通で事前に定義されるかユーザによって直接設定されたウェイクワード７０１および各ウェイクワード７０１のサービス対象カテゴリ７０２は、電子機器４１０とサーバ４２０上に格納され、相互連動によってサービス対象を区分するために利用されてよい。ウェイクワード７０１は、電子機器４１０とサーバ４２０上に音声形態や文字値などで搭載されてよい。

再び図６において、段階６３０で、音声処理部５２０は、サービス対象のカテゴリを特定することのできる複数のウェイクワードのうちのいずれか１つの特定のウェイクワードが認識されると、電子機器４１０の対話機能を活性化させてよい。音声処理部５２０は、電子機器４１０の対話機能が非活性化の状態で、音声インタフェース（例えば、スピーカ）に受信された音声入力が複数のウェイクワードのうちのいずれか１つのウェイクワードに該当する場合、対話機能を自動で活性化させてよい。このとき、音声活性化部５２０は、音声インタフェースに受信された音声入力に対して雑音除去などの前処理過程を行った後、前処理された音声がウェイクワードに該当するかを識別してよい。

段階６４０で、クエリ伝達部５３０は、電子機器４１０の対話機能が活性化した状態で音声インタフェースに受信された音声入力に対し、対話機能の活性化に利用された特定のウェイクワードに対応する希望返答情報範囲を含むクエリを構成してサーバ４２０に伝達してよい。言い換えれば、クエリ伝達部５３０は、音声インタフェースに受信された音声入力に対し、サービス対象が対話機能の活性化に利用された特定のウェイクワードに対応するカテゴリに特定されたクエリを構成してサーバ４２０に伝達してよい。一例として、クエリ伝達部５３０は、対話機能が活性化した状態で受信された音声入力を、特定のウェイクワードに関する情報と共にサービス要請のためのクエリとして伝達してよい。このとき、クエリ伝達部５３０は、音声インタフェースに受信された特定のウェイクワードと特定のウェイクワードに続いて受信された音声入力を、音声信号形態をそのままクエリとして構成してもよいし、あるいは音声インタフェースに受信された音声信号を音声認識技術によってテキスト化した文字値をクエリとして構成してもよい。クエリ伝達部５３０は、特定のウェイクワードとウェイクワード後の音声入力をサーバ４２０に同時に伝達してよく、あるいは順に伝達することも可能である。サービス要請のためのクエリは、ユーザが要請しようとするサービス対象が限定されてよく、これは、ユーザが利用したウェイクワードに対応するカテゴリに特定されてよい。電子機器４１０からサーバ４２０に伝達されるクエリには、ユーザが利用したウェイクワード自体や識別コードが含まれるか、あるいはユーザが利用したウェイクワードに対応するカテゴリ情報などが含まれてよい。例えば図７のウェイクワードの例の場合において、ユーザがウェイクワード「シリ」を利用しながら「シリ、今日のプロ野球の結果は？」のように発話した場合には、サービス対象が限定されていないクエリがサーバ４２０に伝達される一方、「野球博士、今日のプロ野球の結果は？」のように発話した場合には、サービス対象のカテゴリが「野球」に特定されたクエリがサーバ４２０に伝達されてよい。

段階６５０で、応答処理部５４０は、サーバ４２０からクエリに対する応答として、ユーザが利用したウェイクワードに対応する希望返答情報範囲に基づいた返答情報、すなわち、対話機能の活性化に利用された特定のウェイクワードに対応するカテゴリのサービス情報を含む返答情報を受信して出力してよい。サーバ４２０は、電子機器４１０のユーザが機器の活性化に利用したウェイクワードの特徴に符号するサービス情報を、他のサービスよりも高い優先順位で、検索した結果を返答情報として提供してよく、応答処理部５４０は、サーバ４２０から提供された返答情報を音声インタフェースで出力してよい。言い換えれば、本発明では、サービスを特定するための複雑な個人化過程を経なくても、機器の活性化に利用されたウェイクワードだけでサービス対象を特定することができ、ウェイクワードによって特定されたサービスをより高い優先順位として、検索した返答情報を提供することができる。このとき、ウェイクワードによってサービスの利用者層が特定されていた場合、サーバ４２０が利用者層に対応する返答情報を提供してもよいし、あるいは応答処理部５４０が利用者層に適した出力形態によって返答情報を出力してもよい。例えば、子供の利用者には、大人の利用者とは異なるトーンの声で返答情報を出力してよく、音声インタフェースから発話される返答文章の形式も子供の水準に合うように生成されてよい。したがって、電子機器４１０の活性化に利用されたウェイクワードによってサービス対象が特定されることにより、同じクエリ（即ち、ウェイクワード以降の質問内容が同じ）であったとしても、提供される情報がウェイクワードごとに異なるようになり、これによってユーザが別途の設定過程を経なくても、個人の関心事や年齢層に合った情報を得ることができるようになる。また、応答処理部５４０は、クエリに対する応答として受信した返答情報を音声インタフェースから音声で出力する他にも、映像やその他の形態で出力することも可能であり、このような返答情報には、視覚的、聴覚的、触覚的出力などが可能な互いに異なる情報が含まれてよい。

図８は、本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示した図であり、図９は、本発明の一実施形態における、サーバが実行することのできる方法の例を示したフローチャートである。

本実施形態に係るサーバ４２０には、音声基盤サービス提供システムが構成されてよい。サーバ４２０はクライアントである電子機器４１０を対象に音声基盤のサービスを提供するものであり、電子機器４１０から受信したサービス要請に対する返答情報を提供してよい。

図９に係る音声基盤サービス提供方法を実行するために、サーバ４２０のプロセッサ４２２は、構成要素として、図８に示すように、情報構成部８１０および情報提供部８２０を備えてよい。実施形態によっては、プロセッサ４２２の構成要素は、選択的にプロセッサ４２２に含まれても除外されてもよい。また、実施形態によっては、プロセッサ４２２の構成要素は、プロセッサ４２２の機能の表現のために分離されても併合されてもよい。

このようなプロセッサ４２２およびプロセッサ４２２の構成要素は、図９の音声基盤サービス提供方法が含む段階９１０〜９３０を実行するように電子機器４１０を制御してよい。例えば、プロセッサ４２２およびプロセッサ４２２の構成要素は、メモリ４２１が含むオペレーティングシステムのコードと少なくとも１つのプログラムのコードによる命令を実行するように実現されてよい。

ここで、プロセッサ４２２の構成要素は、サーバ４２０に格納されたプログラムコードが提供する命令にしたがってプロセッサ４２２によって実行される、プロセッサ４２２の互いに異なる機能の表現であってよい。例えば、サーバ４２０が返答情報を構成するように上述した命令にしたがってサーバ４２０を制御するプロセッサ４２２の機能的表現として、情報構成部８１０が利用されてよい。

段階９１０で、プロセッサ４２２は、サーバ４２０の制御と関連する命令がロードされたメモリ４２１から必要な命令を読み取ってよい。この場合、前記読み取った命令には、プロセッサ４２２が以下で説明される段階９２０および９３０を実行するように制御するための命令が含まれてよい。

段階９２０で、情報構成部８１０は、電子機器４１０から受信したクエリに対し、クエリ内の特定のウェイクワードに対応するカテゴリのサービス情報を含む返答情報を構成してよい。先ず、情報構成部８１０は、電子機器４１０から受信したクエリを自然語処理して該当のクエリの意図と目標などを抽出してよい。電子機器４１０から受信したクエリには、ユーザが機器の活性化に利用した特定のウェイクワードに関する情報が含まれているかもしれない。サーバ４２０には、電子機器４１０のユーザに対し、ウェイクワードに対するユーザ定義（図７を参照しながら説明したウェイクワード７０１、カテゴリ７０２、言語７０３、追加検索語７０４を含む）が搭載（又は記憶）されている。このユーザ定義に基づき、情報構成部８１０は、クエリに含まれる特定のウェイクワードからユーザが望むサービス対象を把握してよい。一例として、情報構成部８１０は、電子機器４１０のユーザが機器の活性化に利用したウェイクワードに対応するカテゴリのサービス情報を他のサービスよりも高い優先順位として、検索した結果を、クエリに対する返答情報として構成してよい。他の例として、情報構成部８１０は、クエリに対するサービス対象を電子機器４１０のユーザが機器の活性化に利用したウェイクワードに対応するカテゴリに限定し、限定されたサービスの情報によって返答情報を構成してよい。したがって、情報構成部８１０は、ユーザが機器の活性化に利用したウェイクワードを、返答情報を構成するための情報選別基準として活用することができる。

情報構成部８１０は、クエリに含まれた特定のウェイクワードからユーザが望むサービスを把握することにより、応答する情報の量と質を調節してよい。また、情報構成部８１０は、電子機器４１０から受信したクエリに対し、電子機器４１０のユーザと関連する過去の利用内訳を考慮した個人化情報を追加して返答情報を構成してよい。過去の利用内訳は、ユーザ別にサーバ４２０上に格納されてよく、クエリと返答情報に対する記録を含んでよい。例えば、「野球博士、今日のプロ野球チームＸの試合はどうだった？」というクエリから、ユーザが「プロ野球チームＸ」に関心があることが分かり、ユーザの関心事が例えばデータベースに記録される。以後に「野球博士、今日の試合はどうだった？」というクエリが発話された場合には、ユーザの以前のクエリによる個人化情報に基づき、「プロ野球チームＸ」の野球情報を返答情報として構成してよい。これにより、ユーザがクエリを発話するたびに同じような形式の質問をする必要がなくなり、より簡略な質問によってユーザが望む情報を得ることができるようになる。音声返答は、ユーザが最後まですべて聞かなければならない時間消耗的な情報伝達方法であることから、重要な情報をできるだけ簡略な返答で構成することが、ユーザ経験において重要となる。最終的には、過去の利用内訳に基づいて返答をできるだけ短く、核心内容に着目して構成することが、個人化の役割であると言える。また他の例として、同じ質問に対し、過去の利用内訳との比較により、「プロ野球チームＸがプロ野球チームＹに３：５で負けました」と短く返答したときに「敗因はなに？」や「Ｓ選手は登板したの？」などのように追加の質問を続けたユーザである場合には、次回同じことを質問された場合により豊富な返答情報を構成することも可能である。例えば、「野球博士、今日のプロ野球チームＸの試合はどうだった？」のような後日の同じ質問に対し、過去の利用内訳に基づいてここ最近の返答などと比較しながら、「今日は先日の試合とは異なり、プロ野球チームＸがプロ野球チームＹに３：５で負けました。ＭＶＰ選手であるＳ選手は、今日は登板しませんでした。」のような返答情報が構成されてもよい。または、ここ最近の一連の質問リストに基づき「今日のプロ野球チームＹとの試合でプロ野球チームＸは８：１で勝ちました。勝利の決め手はＳ選手の８回裏の２ランホームランです。ハイライトは４回表と８回裏です。」のように、より質の高い豊富な情報によって返答情報を構成することが可能になる。

段階９３０で、情報提供部８２０は、電子機器４１０から受信したクエリに対する応答として、段階９２０で構成された返答情報を電子機器４１０に提供してよい。返答情報には、ユーザが機器の活性化に利用したウェイクワードの特徴に符合するサービス情報が優先的に含まれてよく、音声出力はもちろん、映像や他の形態による出力が可能な情報が含まれてよい。

したがって、サーバ４２０は、ユーザが機器の活性化に利用したウェイクワードによってユーザの関心事を直ぐに把握することができるため、ユーザクエリに対する返答情報を効果的に選別して構成することができる。ユーザは、関心のある分野について検索しようとするとき、該当の分野に特定されたウェイクワードを利用することにより、所望の結果を受けることができる。言い換えれば、複数のウェイクワードに対し、各ウェイクワードに応じて提供される情報が異なるようにし、これにより、ユーザが個人化過程を経なくても、特定の使用層や個人の関心事、または知識水準などに合った情報を受けることができる。

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）および前記ＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ格納媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータで読み取り可能な記録媒体に格納されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータで読み取り可能な媒体に記録されてよい。このとき、媒体は、コンピュータで実行可能なプログラムを継続して格納するものであっても、実行またはダウンロードのために臨時格納するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接に接続する媒体に限定されてはならず、ネットワーク上に分散存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が格納されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを流通するアプリストアやその他の多様なソフトウェアを供給あるいは流通するサイト、サーバなどで管理する記録媒体あるいは格納媒体が挙げられてもよい。

以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

４１２：プロセッサ
５１０：ウェイクワード設定部
５２０：音声処理部
５３０：クエリ伝達部
５４０：応答処理部

Claims

コンピュータによって実現される電子機器で実行される音声基盤サービス提供方法であって、
前記電子機器の対話機能を活性化させるための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定する段階、
前記電子機器の音声インタフェースで前記複数のウェイクワードのうちのいずれか１つの特定のウェイクワードが認識されると、前記対話機能を活性化させる段階、および
前記対話機能が活性化した状態で入力された音声入力に対し、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を提供する段階
を含み、前記提供する段階は、
前記音声インタフェースに受信された前記音声入力に対し、前記希望返答情報範囲を含むクエリを構成してサーバに伝達する段階、および
前記クエリに対する応答として、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を、前記サーバから受信して前記音声インタフェースで出力する段階
を含む、音声基盤サービス提供方法。
前記複数のウェイクワードと各ウェイクワードの希望返答情報範囲は、前記電子機器のユーザによって直接設定される、請求項１に記載の音声基盤サービス提供方法。
コンピュータによって実現される電子機器で実行される音声基盤サービス提供方法であって、
前記電子機器の対話機能を活性化させるための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定する段階、
前記電子機器の音声インタフェースで前記複数のウェイクワードのうちのいずれか１つの特定のウェイクワードが認識されると、前記対話機能を活性化させる段階、および
前記対話機能が活性化した状態で入力された音声入力に対し、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を提供する段階
を含み、前記提供する段階は、
前記音声インタフェースに受信された前記音声入力を、前記特定のウェイクワードに関する情報と共にサービス要請のためのクエリとしてサーバに伝達する段階、および
前記クエリに対する応答として、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を、前記サーバから受信して前記音声インタフェースで出力する段階
を含む、音声基盤サービス提供方法。
コンピュータによって実現される電子機器で実行される音声基盤サービス提供方法であって、
前記電子機器の対話機能を活性化させるための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定する段階、
前記電子機器の音声インタフェースで前記複数のウェイクワードのうちのいずれか１つの特定のウェイクワードが認識されると、前記対話機能を活性化させる段階、および
前記対話機能が活性化した状態で入力された音声入力に対し、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を提供する段階
を含み、前記返答情報は、前記希望返答情報範囲に該当する検索結果を、前記希望返答情報範囲に該当しない検索結果よりも高い優先順位で含む、音声基盤サービス提供方法。
前記返答情報は、前記希望返答情報範囲に該当する検索結果に限定される、請求項１に記載の音声基盤サービス提供方法。
前記返答情報は、前記電子機器のユーザの過去の利用内訳を考慮した個人化情報に基づいて構成される、請求項１に記載の音声基盤サービス提供方法。
コンピュータによって実現される電子機器で実行される音声基盤サービス提供方法であって、
前記電子機器の対話機能を活性化させるための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定する段階、
前記電子機器の音声インタフェースで前記複数のウェイクワードのうちのいずれか１つの特定のウェイクワードが認識されると、前記対話機能を活性化させる段階、および
前記対話機能が活性化した状態で入力された音声入力に対し、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を提供する段階
を含み、前記複数のウェイクワードに対し、各ウェイクワードに年齢層が設定される、音声基盤サービス提供方法。
前記提供する段階は、
前記特定のウェイクワードの年齢層に対応する検索情報を前記返答情報として提供するか、或いは前記特定のウェイクワードの年齢層に対応する出力形態で前記返答情報を提供する、請求項７に記載の音声基盤サービス提供方法。
請求項１〜８のうちのいずれか一項に記載の音声基盤サービス提供方法をコンピュータに実行させる、コンピュータプログラム。
請求項１〜８のうちのいずれか一項に記載の音声基盤サービス提供方法をコンピュータに実行させるためのプログラムが記録されていることを特徴とする、コンピュータで読み取り可能な記録媒体。
コンピュータによって実現される電子機器の音声基盤サービス提供システムであって、
コンピュータで読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
前記電子機器の対話機能を活性化するための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定するウェイクワード設定部、
前記電子機器の音声インタフェースで前記複数のウェイクワードのうちのいずれか１つの特定のウェイクワードが認識されると、前記対話機能を活性化させる音声処理部、および
前記対話機能が活性化した状態で入力された音声入力に対し、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を提供する応答処理部
を備え、前記少なくとも１つのプロセッサは、
前記音声インタフェースで受信された前記音声入力に対し、サービス対象が前記希望返答情報範囲を含むクエリを構成してサーバに伝達するクエリ伝達部
をさらに備え、前記応答処理部は、
前記クエリに対する応答として、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を、前記サーバから受信して前記音声インタフェースで出力する、音声基盤サービス提供システム。
前記複数のウェイクワードと各ウェイクワードの希望返答情報範囲は、前記電子機器のユーザによって直接設定される、請求項１１に記載の音声基盤サービス提供システム。
コンピュータによって実現される電子機器の音声基盤サービス提供システムであって、
コンピュータで読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサ
を含み、前記少なくとも１つのプロセッサは、
前記電子機器の対話機能を活性化するための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定するウェイクワード設定部、
前記電子機器の音声インタフェースで前記複数のウェイクワードのうちのいずれか１つの特定のウェイクワードが認識されると、前記対話機能を活性化させる音声処理部、および
前記対話機能が活性化した状態で入力された音声入力に対し、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を提供する応答処理部
を備え、前記少なくとも１つのプロセッサは、
前記音声インタフェースに受信された前記音声入力を、前記特定のウェイクワードに関する情報と共にサービス要請のためのクエリとしてサーバに伝達するクエリ伝達部
をさらに備え、前記応答処理部は、
前記クエリに対する応答として、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を、前記サーバから受信して前記音声インタフェースで出力する、音声基盤サービス提供システム。
コンピュータによって実現される電子機器の音声基盤サービス提供システムであって、
コンピュータで読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサ
を含み、前記少なくとも１つのプロセッサは、
前記電子機器の対話機能を活性化するための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定するウェイクワード設定部、
前記電子機器の音声インタフェースで前記複数のウェイクワードのうちのいずれか１つの特定のウェイクワードが認識されると、前記対話機能を活性化させる音声処理部、および
前記対話機能が活性化した状態で入力された音声入力に対し、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を提供する応答処理部
を備え、前記返答情報は、前記希望返答情報範囲に該当する検索結果を、前記希望返答情報範囲に該当しない検索結果よりも高い優先順位で含む、音声基盤サービス提供システム。
前記返答情報は、前記希望返答情報範囲に該当する検索結果に限定される、請求項１１に記載の音声基盤サービス提供システム。
前記返答情報は、前記電子機器のユーザの過去の利用内訳を考慮した個人化情報に基づいて構成される、請求項１１に記載の音声基盤サービス提供システム。
コンピュータによって実現される電子機器の音声基盤サービス提供システムであって、
コンピュータで読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサ
を含み、前記少なくとも１つのプロセッサは、
前記電子機器の対話機能を活性化するための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定するウェイクワード設定部、
前記電子機器の音声インタフェースで前記複数のウェイクワードのうちのいずれか１つの特定のウェイクワードが認識されると、前記対話機能を活性化させる音声処理部、および
前記対話機能が活性化した状態で入力された音声入力に対し、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を提供する応答処理部
を備え、前記複数のウェイクワードに対し、各ウェイクワードに年齢層が設定され、
前記応答処理部は、
前記特定のウェイクワードの年齢層に対応する検索情報を前記返答情報として提供するか、或いは前記特定のウェイクワードの年齢層に対応する出力形態で前記返答情報を提供する、音声基盤サービス提供システム。