JP6803333B2

JP6803333B2 - 対話型ダイアログシステムのための感情タイプの分類

Info

Publication number: JP6803333B2
Application number: JP2017528786A
Authority: JP
Inventors: ウン，エドワード; レオン，マックス
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2014-12-04
Filing date: 2015-12-02
Publication date: 2020-12-23
Anticipated expiration: 2035-12-02
Also published as: KR20220147150A; BR112017010047A2; RU2017119007A3; KR20170092603A; CA2967976C; US10515655B2; KR102632775B1; US20180005646A1; AU2020239704B2; CN107003997A; BR112017010047B1; RU2017119007A; CA2967976A1; WO2016089929A1; US20160163332A1; MX2017007317A; AU2015355097B2; AU2015355097A1; RU2705465C2; AU2020239704A1

Description

[0001] 人為的対話型ダイアログシステムは、最先端の家庭用電子デバイスにおいてますます普及している機能である。たとえば、現在のワイヤレススマートフォンは、ユーザとリアルタイムの対話型会話を行うために、音声認識、対話型ダイアログ、および音声合成ソフトウェアを組み込み、こうしたサービスを情報およびニュース、リモートデバイスの構成およびプログラミング、会話の親密な関係などとして送達する。

[0002] ユーザがダイアログシステムとより自然でシームレスな会話を体験できるようにするために、意味論的コンテンツに加えて感情的コンテンツを有する音声または他の出力を生成することが望ましい。たとえば、ニュースを送達する、タスクをスケジューリングする、またはその他の方法でユーザと対話する場合、ユーザをより効果的に会話を行わせるために、合成された音声および／または他の出力に感情的特徴を付与することが望ましくなる。

[0003] したがって、対話型ダイアログシステムによって送達される意味論的コンテンツに付与するのに好適な感情を決定するため、および、このように決定された感情を複数の所定の感情タイプのうちの１つに従って分類するための、技法を提供することが望ましい。

[0004] 本課題を解決するための手段は、下記の発明を実施するための形態でさらに説明する概念の選択を簡略化された形で紹介するために提供される。本課題を解決するための手段は、請求する主題の主な機能または重要な機能を識別することを意図しておらず、請求する主題の範囲を限定するために使用されることも意図していない。

[0005] 簡単に言えば、本明細書で説明する主題の様々な態様は、対話型ダイアログシステム用の装置を提供するための技法を対象としている。ある態様において、モバイル通信デバイスが利用可能な事実またはプロファイル入力を以前または現在のユーザ入力と組み合わせて、対話型ダイアログシステムによって生成される出力ステートメントと関連付けるために適切な感情タイプコードを選択することができる。たとえば、事実またはプロファイル入力を、ユーザオンラインアクティビティ、ユーザ通信、カレンダおよびスケジューリング機能などの、デバイス使用のある態様から導出することができる。感情タイプコードを選択するためのアルゴリズムは、規則ベースとするか、または機械学習技法を使用して事前に構成することができる。感情タイプコードを出力ステートメントと組み合わせて、改善されたユーザ体験のための感情的特徴を有する合成音声を生成することができる。

[0006] 他の利点は、以下の詳細な説明および図面から明らかとなろう。

[0007]本開示の技法が適用可能なモバイル通信デバイスを採用するシナリオを示す図である。 [0008]デバイスのプロセッサおよび他の要素によって実行可能な処理の、例示的実施形態を示す図である。 [0009]ダイアログエンジンによって実行される処理の例示的実施形態を示す図である。 [0010]本開示に従った感情タイプ分類ブロックの例示的実施形態を示す図である。 [0011]ハイブリッド感情タイプ分類アルゴリズムの例示的実施形態を示す図である。 [0012]規則ベースアルゴリズムの例示的実施形態を示す図である。 [0013]規則ベースアルゴリズムの代替の例示的実施形態を示す図である。 [0014]感情タイプを選択するためにトレーニングされたアルゴリズムを導出するための、トレーニング方式の例示的実施形態を示す図である。 [0015]本開示に従った方法の例示的実施形態を示す図である。 [0016]前述の方法およびプロセスのうちの１つまたは複数を実行可能な、非限定的コンピューティングシステムを概略的に示す図である。 [0017]本開示に従った装置の例示的実施形態を示す図である。 [0018]表示テキストに、可聴音声ではなくまたは可聴音声に加えて感情的コンテンツが付与されるダイアログシステムに、本開示の技法が組み込まれる、例示的実施形態を示す図である。

[0019] 本明細書で説明する技術の様々な態様は、一般に、電子的対話型ダイアログシステム内の出力ステートメントに関連付けられた感情タイプコードを選択するための技術を対象としている。添付の図面に関して下記に示される詳細な説明は、本発明の例示的態様の説明として意図され、本発明が実施可能な単なる例示的態様を表すものとは意図されていない。本説明全体を通じて使用される「例示的」という用語は、「例、インスタンス、または図例として働くこと」を意味し、必ずしも他の例示的態様よりも好ましいかまたは有利であるものと解釈されるべきではない。詳細な説明は、本発明の例示的態様を完全に理解するための特定の細部が含まれる。当業者であれば、本発明の例示的態様がこれらの特定の細部なしで実施可能であることが明らかとなろう。いくつかのインスタンスにおいて、周知の構造およびデバイスは、本明細書に提示される例示的態様の新規性を曖昧にするのを避けるためにブロック図の形で示される。

[0020] 図１は、本開示の技法が適用可能なモバイル通信デバイス１２０を採用するシナリオを示す。図１は単なる例示の目的で示されており、本開示の範囲を、本開示をモバイル通信デバイスに適用することのみに限定することは意味していないことに留意されたい。たとえば、本明細書で説明する技法は、他のデバイスおよびシステムにおいて、たとえば、ノートブックおよびデスクトップのコンピュータのヒューマンインターフェースシステム、自動車ナビゲーションシステムなどにおいて、容易に適用可能である。こうした代替の適用例は、本開示の範囲内にあるものと企図される。

[0021] 図１において、ユーザ１１０は、モバイル通信デバイス１２０、たとえばハンドヘルドスマートフォンと通信する。スマートフォンは、音声通話、および、計算タスクの多様なアレイを実装するための比較的高度なマイクロプロセッサを用いたインターネットアクセスなどの、通信機能を統合した任意のモバイルデバイスを含むことが理解できよう。ユーザ１１０は、デバイス１２０上のマイクロフォン１２４に音声入力１２２を提供することができる。デバイス１２０内の１つまたは複数のプロセッサ１２５、および／またはネットワークを介して利用可能な（たとえば、クラウドコンピューティング方式を実装する）プロセッサ（図示せず）は、たとえば下記で図２を参照しながらさらに説明するような機能を実行する、マイクロフォン１２４によって受信された音声信号を処理することができる。プロセッサ１２５は、本明細書で単なる例示のために説明するような任意の特定の形、形状、または機能分割を有する必要がないこと、およびこうしたプロセッサは、一般に、当分野で既知の様々な技法を使用して実装可能であることに留意されたい。

[0022] プロセッサ１２５によって実行される処理に基づいて、デバイス１２０は、オーディオスピーカ１２８を使用して、音声入力１２２に応答する音声出力１２６を生成することができる。あるシナリオにおいて、デバイス１２０は、音声入力１２２とは無関係に音声出力１２６を生成することも可能であり、たとえばデバイス１２０は、自立的に警告を提供すること、または他のユーザ（図示せず）からのメッセージを音声出力１２６の形でユーザ１１０にリレーすることができる。例示的実施形態において、音声入力１２２に応答する出力は、たとえば、テキスト、グラフィックス、アニメーションなどとして、デバイス１２０のディスプレイ１２９上に表示することもできる。

[0023] 図２は、デバイス１２０のプロセッサ１２５および他の要素によって実行可能な対話型ダイアログシステム２００の、例示的実施形態を示す図である。図２に示される処理は、単なる例示のためのものであり、本開示の範囲を図２に示される動作の任意の特定のシーケンスまたはセットに制限するものではないことに留意されたい。たとえば、代替の例示的実施形態において、感情タイプコードを選択するための本明細書で開示されるある技法は、図２に示される処理に関係なく適用可能である。さらに、図２に示される１つまたは複数のブロックは、システムにおける特定の機能分割に応じて組み合わせるかまたは省略することが可能であるため、図２は、図示されるブロックのいかなる機能的な依存性または独立性をも示唆するものではない。こうした代替の例示的実施形態は、本開示の範囲内であるものと企図される。

[0024] 図２において、ブロック２１０で音声入力が受信される。音声入力２１０は、たとえばデバイス１２０上のマイクロフォン１２４から導出される音響信号を表す波形に対応し得る。音声入力２１０の出力２１０ａは、音声コンテンツを含む音響波形のデジタル化バージョンに対応し得る。

[0025] ブロック２２０で、出力２１０ａに対して音声認識が実行される。例示的実施形態において、音声認識２２０は、出力２１０ａ内に存在するような音声をテキストに変換する。音声認識２２０の出力２２０ａは、それに応じて、デジタル化された音響波形出力２１０ａ内に存在する音声のテキスト表現に対応し得る。たとえば、マイクロフォン１２４によって拾われるような出力２１０ａが、「明日の天気はどうですか」などの人間の発話のオーディオ波形表現を含む場合、音声認識２２０は、その音声認識機能に基づいて、「明日の天気はどうですか」というテキストに対応するＡＳＣＩＩテキスト（または他のテキスト表現）を出力することができる。ブロック２２０によって実行されるような音声認識は、たとえば、隠れマルコフモデル（HMM）、ニューラルネットワークなどを含む、音響モデリング技法および言語モデリング技法を使用して実行可能である。

[0026] ブロック２３０で、出力２１０ａの予測される自然言語の知識に基づいて、音声認識２２０の出力２２０ａに対して言語理解が実行される。例示的実施形態において、構文解析および文法的解析などの自然言語理解技法は、出力２２０ａにおけるテキストの意図された意味を導出するために、たとえば形態および構文の知識を使用して実行可能である。言語理解２３０の出力２３０ａは、出力２２０ａ内に存在する音声の意味論的および／または感情的コンテンツの形式的表現を含むことができる。

[0027] ブロック２４０で、ダイアログエンジンは、出力２３０ａから決定されたように音声に対して好適な応答を生成する。たとえば、ユーザ音声入力が特定の地理の天気に関するクエリに対応することを、言語理解２３０が決定した場合、ダイアログエンジン２４０は、たとえば天気予報サービスまたはデータベースなどのソースから、必要な天気情報を取得およびアセンブルすることができる。たとえば、取り出された天気情報は、天気予報に関する時刻／日付コード、「晴れ」の天気に対応する天気タイプコード、および７２度（摂氏２２．２度）の平均気温を示す温度フィールドに対応することができる。

[0028] 例示的実施形態において、ダイアログエンジン２４０は、ユーザによる迅速な理解のために提示できるように、取り出された情報をさらに「パッケージング」することができる。したがって、ダイアログエンジン２４０の意味論的コンテンツ出力２４０ａは、「今日の天気は晴れ、気温７２度」などの、意味論的コンテンツの表現に対応することができる。

[0029] 意味論的コンテンツ２４０ａに加えて、ダイアログエンジン２４０は、意味論的コンテンツ２４０ａに関連付けられた感情タイプコード２４０ｂをさらに生成することができる。感情タイプコード２４０ｂは、出力音声としてユーザに送達される時に意味論的コンテンツ２４０ａに付与するための、特定タイプの意味論的コンテンツを示すことができる。たとえば、ユーザがある日のピクニックを計画している場合、感情的に陽気な調子の声で晴れの天気予報を同時に伝えることができる。この場合、感情タイプコード２４０ｂは、「中程度の幸せ」に対応する感情コンテンツタイプと言い表すことができる。対話型ダイアログシステム２００が利用可能なデータ、事実、および入力に基づいて、感情タイプコード２４０ｂを生成するための技法について、たとえば図３を参照しながら下記でさらに説明する。

[0030] ブロック２５０で、ダイアログエンジン２４０の出力２４０ａ、２４０ｂに対して言語生成が実行される。言語生成は、人間のユーザによる迅速な理解のために、ダイアログエンジン２４０の出力を、たとえば語彙および文法規則に従ったターゲット言語でのセンテンスなど、自然言語形式で提示する。たとえば、意味論的コンテンツ２４０ａに基づいて、言語生成２５０は、「今日の天気は晴れ、７２度になるでしょう」というステートメントを生成することができる。

[0031] 例示的実施形態において、ブロック２５０は、システムパーソナリティブロック２５５から入力２５５ａをさらに受け入れることができる。システムパーソナリティブロック２５５は、対話型ダイアログシステムに関して事前に選択された「パーソナリティ」に従って、ダイアログエンジンについてデフォルトパラメータ２５５ａを指定することができる。たとえば、システムパーソナリティが「男性」または「女性」、あるいは「明朗」または「思慮深い」ものと選択された場合、ブロック２５５は、システムパーソナリティに対応するパラメータを基準入力２５５ａとして指定することができる。ある例示的実施形態において、ブロック２５５を省略するか、またはその機能を他のブロック、たとえばダイアログエンジン２４０または言語生成ブロック２５０に組み込むことが可能であり、こうした代替の例示的実施形態は、本開示の範囲内にあるものと企図されることに留意されたい。

[0032] 例示的実施形態において、言語生成ブロック２５０は、意味論的コンテンツ２４０ａ、感情タイプコード２４０ｂ、およびデフォルトの感情パラメータ２５５ａを組み合わせて、出力ステートメント２５０ａを合成することができる。たとえば、「中程度の幸せ」に対応する感情タイプコード２４０ｂは、ブロックに、「素晴らしいニュース、今日の天気は晴れ、７２度になるでしょう！」などの、自然言語（たとえば英語）のセンテンスを生成させることができる。出力ステートメント２５０ａに対応するオーディオ音声を生成するために、後続のテキスト−音声ブロック２６０に言語生成ブロック２５０の出力ステートメント２５０ａが提供される。

[0033] ある例示的実施形態において、上記で説明した言語生成ブロック２５０のいくつかの機能が省略できることに留意されたい。たとえば、言語生成ブロック２５０は、必ずしも出力ステートメント２５０ａを生成する際に感情タイプコード２４０ｂを反映するとは限らず、代わりに、合成された音声出力の完全な感情コンテンツを提供するために、テキスト−音声ブロック２６０（感情タイプコード２４０ｂにもアクセスできる）に依拠することができる。さらに、ダイアログエンジンによって取り出された情報がすでに自然言語形式である、あるインスタンスにおいて、言語生成ブロック２５０を効果的にバイパスすることができる。たとえば、ダイアログエンジン２４０によってアクセスされるインターネット天気サービスは、天気更新を英語などの自然言語で直接提供することができるため、言語生成２５０は、必ずしも意味論的コンテンツ２４０ａ上でいかなる実質的な事後処理をも実行する必要がない場合がある。こうした代替の例示的実施形態は、本開示の範囲内にあるものと企図される。

[0034] ブロック２６０で、言語生成２５０の出力２５０ａに対してテキスト−音声変換が実行される。例示的実施形態において、２５０ａに対応するテキストコンテンツおよび感情タイプコード２４０ｂに対応する感情コンテンツを有する音声を合成するために、感情タイプコード２４０ｂはＴＴＳブロック２６０にも提供される。テキスト−音声変換２６０の出力はオーディオ波形とすることができる。

[0035] ブロック２７０で、テキスト−音声変換２６０の出力から音響出力が生成される。デバイス１２０のスピーカ１２８によって、リスナー、たとえば図１のユーザ１１０に、音声出力を提供することができる。

[0036] 対話型ダイアログシステムがますます高度になるにつれて、こうしたシステムによって生成される音声に好適な感情タイプコードおよび他のタイプの出力を効果的に選択するための技法を提供することが望ましくなる。たとえば、意味論的コンテンツ２４０ａと共に感情タイプコード２４０ｂを提供することによって提案されるように、ある適用例では、音声出力２７０が感情的に中立なテキスト表現として生成されるだけでなく、リスナーに送達される時に事前に指定された感情コンテンツを組み込むことも望ましい。したがって、適切な感情コンテンツが音声出力２７０内に存在するものとユーザ１１０が知覚するように、出力ステートメント２５０ａを好適な感情タイプコード２４０ｂに関連付けることができる。

[0037] たとえば、ある野球チームがワールドシリーズで勝ったという情報に意味論的コンテンツ２４０ａが対応し、さらにユーザ１１０がその野球チームのファンであるように、ダイアログエンジン２４０が指定する場合、ユーザの感情状態に合致させるために「興奮」（たとえば、中立または不幸せ、の反対として）を表すように感情タイプコード２４０ｂを選択することで、結果としてユーザ１１０の対話体験をより満足のいくものにする可能性がある。

[0038] 図３は、適切な意味論的コンテンツならびに関連付けられた感情タイプコードを生成するために、ダイアログエンジン２４０によって実行される処理の例示的実施形態２４０．１を示す。図３は単なる例示のために示されており、本開示の範囲を本明細書で説明する技法の任意の特定の適用例に限定するものではないことに留意されたい。

[0039] 図３において、ダイアログエンジン２４０．１は、意味論的コンテンツ生成ブロック３１０と、本明細書では「分類ブロック」とも呼ばれる感情タイプ分類ブロック３２０とを含む。ブロック３１０および３２０のどちらにもユーザダイアログ入力２３０ａが提供され、これは、現在または任意の以前のダイアログセッションにおいて、ユーザ１１０によって１つまたは複数のステートメントまたはクエリ上で実行される言語理解２３０の出力を含むことができる。特に、意味論的コンテンツ生成ブロック３１０は、ユーザに送達されることになる情報に対応する意味論的コンテンツ２４０．１ａを生成する一方で、感情タイプ分類ブロック３２０は、意味論的コンテンツ２４０．１ａに付与されることになる、感情タイプコード２４０．１ｂによって表される適切な感情タイプを生成する。ユーザダイアログ入力２３０ａは、たとえばローカルデバイスメモリ上の履歴ファイル内などに記憶されるような、現在または以前のダイアログセッションからのユーザ入力のうちのいずれかまたはすべてを含むものと理解できることに留意されたい。

[0040] ユーザダイアログ入力２３０ａに加えて、ブロック３２０にはさらに「事実またはプロファイル」入力３０１が提供され、これは、その上にダイアログエンジン２４０．１が実装されるデバイスの使用から導出されるパラメータを含むことができる。感情タイプ分類ブロック３２０は、たとえば、下記でさらに開示される機械学習技法に従ってオフラインでトレーニングされたパラメータを備える、１つまたは複数のアルゴリズムに従った事実またはプロファイル入力３０１およびユーザダイアログ入力２３０ａの組み合わせに基づいて、適切な感情タイプコード２４０．１ｂを生成することができる。例示的実施形態において、感情タイプコード２４０．１ｂは、感情（たとえば、「幸せ」など）、ならびに（たとえば、１〜５の数字のうち、「非常に幸せ」を示す５を用いて）その感情が表される程度を示す程度インジケータを、含むことができる。例示的実施形態において、感情タイプコード２４０．１ｂは、出力音声に付与することが可能な複数の所定の感情タイプのうちの１つを指定するために、感情マークアップ言語（EmotionML）で指定されるような形式で表すことができる。

[0041] スマートフォンなどの現在の消費者デバイスについて、現在の傾向は、多様な機能セットを、ユーザによって頻繁に、またしばしば継続的に持ち運ばれる単一のモバイルデバイスに統合した、不可欠なパーソナルアシスタントの役割を担うためのものになりつつあることに留意されたい。多種多様な目的（たとえば、音声通信、インターネットアクセス、スケジュールプランニング、レクリエーションなど）のための単一のユーザによるこうしたデバイスの反復使用により、対話型ダイアログシステム２００による、感情タイプコード２４０．１ｂを選択するための膨大な関連データへの潜在的なアクセスが可能となる。たとえば、スマートフォン用の位置サービスが実行可能な場合、ある期間にわたるユーザの地理的位置に関するデータを使用して、たとえば、地元のスポーツチームのファンである、または、ある地域内の新しいレストランに行ってみる傾向があるなど、ユーザの地理的プリファレンスを推測することができる。関連データを生成するシナリオの使用の他の例には、トピックまたはキーワード検索を実行するためにスマートフォンを使用してインターネットにアクセスすること、カレンダの日付またはアポイントメントをスケジューリングすること、デバイスの初期設定時にユーザプロファイルをセットアップすることなどが含まれるが、これらに限定されない。こうしたデータは、ユーザ１１０との対話型ダイアログセッション中に、意味論的コンテンツ２４０．１ａに付与するのに適切な感情タイプコード２４０．１ｂを評価するために、ダイアログシステムによって集合的に利用可能である。こうした使用シナリオに鑑み、対話型ダイアログシステムを実装するモバイル通信デバイスの使用から、少なくとも１つあるいは複数の事実またはプロファイル入力３０１を導出することが、特に有利である。

[0042] 図４は、本開示に従った感情タイプ分類ブロックの例示的実施形態３２０．１を示す。図４において、デバイス１２０によって取得可能な例示的な事実またはプロファイル入力３０１．１は、感情タイプ分類のタスクに関連するようにシステム設計者によって選択された複数の事実またはプロファイルパラメータ４０２〜４２２を含む。例示的な事実またはプロファイル入力３０１．１は、単なる例示のために与えられていることに留意されたい。代替の例示的実施形態において、事実またはプロファイル入力３０１．１の個々のパラメータのうちのいずれかを省略すること、および／または、図４に示されていない他のパラメータを追加することが可能である。パラメータ４０２〜４２２は、必ずしもパラメータの互いに素なクラスを記述するものではなく、すなわち、感情タイプ分類ブロック３２０．１によって使用される単一タイプの入力が、入力４０２〜４２２の２つまたはそれ以上のカテゴリに同時に入る可能性がある。こうした代替の例示的実施形態は、本開示の範囲内にあるものと企図される。

[0043] ユーザ構成４０２は、感情タイプ分類に役立つデバイス１２０にユーザ１１０によって直接入力される情報を含む。例示的実施形態において、デバイス１２０のセットアップ中、または一般にデバイス１２０の動作中、ユーザ１１０は一連のプロファイル問題に答えるように求められる可能性がある。たとえばユーザ１１０は、年齢および性別、趣味、関心、好きな映画、スポーツ、性格特性などに関して問われる可能性がある。いくつかのインスタンスにおいて、ユーザの性格特性（たとえば、外向性または内向性、支配的または従順など）に関する情報は、パーソナリティプロファイルのアンケートからの質問を問うことによって推測可能である。ユーザ構成４０２からの情報は、感情タイプコード２４０．１ｂを選択するために、感情タイプ分類ブロック３２０．１によって後で使用するために記憶することができる。

[0044] ユーザオンラインアクティビティ４０４は、インターネットまたは他のネットワークとの間でデバイス１２０を介して伝送される、インターネット使用統計および／またはデータのコンテンツを含む。例示的実施形態において、オンラインアクティビティ４０４は、たとえばデバイス１２０を介してウェブ検索エンジンにサブミットされるような、ユーザ検索クエリを含むことができる。ユーザ検索クエリのコンテンツは留意され、同様のクエリの頻度および／またはタイミングなどの他の統計とすることができる。例示的実施形態において、オンラインアクティビティ４０４は、頻繁にアクセスされるウェブサイトの識別、電子メールメッセージのコンテンツ、ソーシャルメディアウェブサイトへの投稿を、さらに含むことができる。

[0045] ユーザ通信４０６は、デバイス１２０を使用して実行されるテキストまたは音声の通信を含む。こうした通信は、たとえば、ショートメッセージングサービス（SMS）を介して送信されるテキストメッセージ、ワイヤレスネットワークを介する音声通話などを含むことができる。ユーザ通信４０６は、ネイティブまたは第三者のソーシャルメディアネットワーク、たとえば、デバイス１２０を使用してユーザ１１０によってアクセスされるインターネットウェブサイト上でのメッセージング、あるいは、インスタントメッセージングまたはチャットアプリケーションなどを含むこともできる。

[0046] ユーザ位置４０８は、たとえば、１つまたは複数のセルラー基地局、または、インターネットベースの位置サービスが実行可能な場合はこうしたサービスとの、ワイヤレス通信を介して、デバイス１２０が利用可能なユーザ位置の記録を含むことができる。ユーザ位置４０８はさらに、たとえばユーザが家または職場、車内、混雑した環境、会議室にいる場合など、ユーザの位置コンテキストを指定することができる。

[0047] カレンダ／スケジューリング機能／現地の日付および時刻４１０は、ユーザのアクティビティのスケジュールに基づく感情分類に関連するような時刻情報を含むことができる。たとえば、こうした情報は、パーソナルスケジューリングオーガナイザとしてのユーザ１１０によるデバイス１２０の使用を前提とすることができる。例示的実施形態において、ユーザのカレンダ上の時間セグメントが利用可能であるかまたは利用不可であるかは、感情タイプの分類に関連するものであり得る。さらに、今後のアポイントメントの性質、たとえばスケジュールされた休暇または重要な商談も、関連するものであり得る。

[0048] カレンダ／スケジューリング機能／現地の日付および時刻４１０は、ある時間がユーザの勤務時間と重複するかどうか、または現在の日付が週末に対応するかどうかなどの情報を、さらに組み込むことができる。

[0049] ユーザ感情状態４１２は、ユーザのリアルタイムの感情状態の決定に関するデータを含む。こうしたデータは、ダイアログシステムに対するユーザの発話のコンテンツ、ならびに音声パラメータ、生理的信号などを含むことができる。感情認識技術は、デバイス１２０上の様々なセンサ（たとえば、物理センサ入力４２０）によって感知されるような、たとえば、ユーザの会話、顔の表情、デバイス１２０との間で通信される最近のテキストメッセージ、体温および心拍数を含む生理的兆候などを感知することによって、ユーザの感情を推測する際に、さらに利用することができる。

[0050] デバイス使用統計４１４は、ユーザ１１０がどの程度頻繁にデバイス１２０を使用するか、ユーザがどの程度の期間、何の目的でデバイス１２０を使用したかなどに関する、情報を含むことができる。例示的実施形態において、一日を通じたユーザのデバイス１２０との対話の時間および頻度、ならびにそれらの対話中に、使用されたアプリケーション、または閲覧されたウェブサイトを、記録することが可能である。

[0051] オンライン情報リソース４１６は、オンライン情報源から取得されるような、ユーザの関心に関するニュースまたはイベントを含むことができる。たとえば、ユーザ１１０がスポーツチームのファンであるという決定に基づいて、オンライン情報リソース４１６は、そのスポーツチームが最近試合に勝ったというニュースを含むことができる。代替として、たとえば、ユーザ１１０があるタイプの料理を好むことが決定された場合、オンライン情報リソース４１６は、ユーザの家の近くにそのタイプの新しいレストランが開店したばかりであるというニュースを含むことができる。

[0052] デジタルアシスタント（DA）パーソナリティ４１８は、ダイアログシステムに関するパーソナリティプロファイルを指定することができるため、ユーザによるダイアログシステムとの対話は、人間のアシスタントとの対話をより厳密に模倣することになる。ＤＡパーソナリティプロファイルは、たとえば、ＤＡが外向性であるか内向性であるか、支配的であるか従順であるか、またはＤＡの性別を指定することができる。たとえば、ＤＡパーソナリティ４１８は、デジタルアシスタントに対して女性の明朗なパーソナリティに対応するプロファイルを指定することができる。この機能は、図２を参照しながら上記で説明したようなシステムパーソナリティブロック２５５の代替として、またはこれに関連して提供することができることに留意されたい。

[0053] 物理センサ入力４２０は、デバイス１２０の物理パラメータを感知するためのデバイス１２０上のセンサから導出される信号を含むことができる。たとえば、物理センサ入力４２０は、たとえばユーザ１１０が現在歩いているかまたは車中にいるかを決定するために、デバイス１２０内の加速度計および／またはジャイロスコープからのセンサ信号を含むことができる。ユーザの現在の移動状況の知識は、適切な感情応答の生成に役立つ感情タイプ分類ブロック３２０．１に情報を提供することができる。物理センサ入力４２０は、たとえば、背景雑音に基づいて環境の特徴を推測するためなどに、デバイス１２０上のマイクロフォンまたは他の音響録音デバイスからのセンサ信号も含むことができる。

[0054] 会話履歴４２２は、ユーザとデジタルアシスタントとの間での現在および過去の会話の任意の録音を含むことができる。

[0055] 事実またはプロファイル入力３０１．１ならびにユーザダイアログ入力２３０ａは、感情タイプ分類ブロック３２０．１の感情タイプ分類アルゴリズム４５０への入力として提供することができる。感情タイプ分類アルゴリズム４５０は、特定の事実またはプロファイル入力３０１．１およびユーザダイアログ入力２３０ａによって指定された多次元ベクトルを、たとえば適切な感情タイプおよび対応するその感情の程度を指定する、感情タイプコード２４０．１ｂの特定の出力決定にマッピングすることができる。

[0056] 図５は、ハイブリッド感情タイプ分類アルゴリズムの例示的実施形態４５０．１を示す。図５は、単なる例示のために示されており、本開示の範囲を図示された任意の特定タイプのアルゴリズムに限定するものではないことに留意されたい。

[0057] 図５において、感情タイプ分類アルゴリズム４５０．１は、感情タイプを選択するために使用されることになる少なくとも１つのアルゴリズムを選択するための、アルゴリズム選択ブロック５１０を含む。例示的実施形態において、少なくとも１つのアルゴリズムは、規則ベースアルゴリズム５１２およびトレーニング済みアルゴリズム５１４を含む。規則ベースアルゴリズム５１２は、ダイアログシステムの設計者によって指定されたアルゴリズムに対応可能であり、一般に、所与の感情タイプを特定のシナリオ、事実、プロファイル、および／またはユーザダイアログ入力に割り当てるために、設計者によって見分けられるような基本的原理に基づくものとすることができる。他方で、トレーニング済みアルゴリズム５１４は、そのパラメータおよび機能的マッピングが、たとえばオフラインで大規模セットのトレーニングデータから導出される、アルゴリズムに対応可能である。トレーニング済みアルゴリズム５１４内の入力と出力との間の相互関係は、規則ベースアルゴリズム５１２内よりもシステム設計者に対してトランスペアレントでない可能性があり、トレーニング済みアルゴリズム５１４は一般に、アルゴリズムトレーニングから決定されるような変数間のより複雑な相互依存性を捕らえ得ることを理解されよう。

[0058] 図５に見られるように、規則ベースアルゴリズム５１２およびトレーニング済みアルゴリズム５１４はどちらも、入力として事実またはプロファイル入力３０１．１およびユーザダイアログ入力２３０ａを受け入れることができる。アルゴリズム選択ブロック５１０は、任意のインスタンスにおいて感情タイプコード２４０．１ｂを選択するために使用するように、アルゴリズム５１２または５１４のうちの適切な１つを選択することができる。たとえば、値の所定のセットに対応する事実またはプロファイル入力３０１．１および／またはユーザダイアログ入力２３０ａに応答して、選択ブロック５１０は、トレーニング済みアルゴリズム５１４の代わりに特定の規則ベースアルゴリズム５１２を実装することを選択するか、またはその逆を選択することができる。例示的実施形態において、たとえば、基本的原理に基づくそれらの設計が結果としてあるインスタンスにおいて、感情タイプのより正確な分類を生じさせる場合に、規則ベースアルゴリズム５１２が、あるケースではトレーニング済みアルゴリズム５１４よりも好ましい可能性がある。規則ベースアルゴリズム５１２は、たとえば、あるタイプのトレーニング済みアルゴリズム５１４を設計するために十分なトレーニングデータが利用できないというあるシナリオにおいても、好ましい可能性がある。例示的実施形態において、特定の入力セットに基づいて予測される応答を導出することが設計者にとって相対的に容易である場合、規則ベースアルゴリズム５１２を選択することができる。

[0059] 図６は、規則ベースアルゴリズムの例示的実施形態６００を示す。図６は単なる例示のために示されており、本開示の範囲を、規則ベースアルゴリズム、規則ベースアルゴリズムの任意の特定の実装、あるいは、事実またはプロファイル入力３０１．１または感情タイプ２４０ｂについての任意の特定の形式またはコンテンツに、限定するものではないことに留意されたい。

[0060] 図６において、意思決定ブロック６１０で、ユーザ感情状態４１２が「幸せ」であるかどうかが決定される。幸せでない場合、アルゴリズムはブロック６１２に進み、感情タイプコード２４０ｂを「中立」に設定する。幸せである場合、アルゴリズムは意思決定ブロック６２０に進む。

[0061] 意思決定ブロック６２０で、ユーザ構成４０２のパーソナリティパラメータ４０２．１が「外向性」であるかどうかがさらに決定される。外向性でない場合、アルゴリズムはブロック６２２に進み、感情タイプコード２４０ｂを、感情タイプ「興味あり」の程度が１であることを示す「興味あり（１）」に設定する。外向性である場合、アルゴリズムはブロック６３０に進み、感情タイプコード２４０ｂを「幸せ（３）」に設定する。

[0062] 規則ベースアルゴリズム６００は、外向性のユーザは、より陽気または「より幸せ」な感情タイプを表すダイアログシステムに関心を持ちやすいという想定の下で、ユーザのパーソナリティに基づいて、選択的に感情タイプコード２４０ｂを設定することを理解されよう。さらに規則ベースアルゴリズム６００は、現在幸せなユーザは、同じく幸せな感情タイプを有するシステムにより積極的に応答するという想定のもので、現在のユーザ感情状態に基づいて感情タイプコード２４０ｂを設定する。代替の実施形態において、感情タイプコード２４０ｂを事実またはプロファイル入力３０１．１の他のパラメータおよび値に関連付けるように、本明細書で明示的に説明していない他の規則ベースアルゴリズムを容易に設計することができる。

[0063] アルゴリズム６００によって示されるように、感情タイプコード２４０ｂの決定は、必ずしも常に、事実またはプロファイル入力３０１．１およびユーザダイアログ入力２３０ａにおけるすべての利用可能パラメータを利用するわけではない。特にアルゴリズム６００は、ユーザ感情状態４１２およびユーザ構成４０２のみを利用する。利用可能パラメータの任意のサブセットを利用するアルゴリズムのこうした例示的実施形態、ならびに、本明細書で明示的に説明していないパラメータを利用するアルゴリズムの代替の例示的実施形態は、本開示の範囲内にあるものと企図される。

[0064] 図７は、規則ベースアルゴリズムの代替の例示的実施形態７００を示す。図７において、意思決定ブロック７１０で、ユーザダイアログ入力２３０ａが更新されたニュースに関するユーザによるクエリに対応するかどうかが決定される。対応する場合、アルゴリズムは意思決定ブロック７２０に進む。

[0065] 意思決定ブロック７２０で、ユーザ感情状態４１２が「幸せ」であるかどうか、またさらに、オンライン情報リソース４１６が、ユーザのお気に入りのスポーツチームが試合に勝ったばかりであることを示すかどうかが、決定される。例示的実施形態において、ユーザのお気に入りのスポーツチームは、事実またはプロファイル入力３０１．１の他のパラメータから、たとえば、ユーザ構成４０２、ユーザオンラインアクティビティ４０４、カレンダ／スケジューリング機能４１０などから、それ自体を導出することができる。意思決定ブロック７２０の出力が肯定の場合、アルゴリズムはブロック７３０に進み、感情タイプコード２４０ｂは「興奮（３）」に設定される。

[0066] 感情タイプコード２４０ｂを選択するための規則ベースアルゴリズムに加えて、感情タイプ分類アルゴリズム４５０．１は、代替としてまたは関連して、トレーニング済みアルゴリズムを利用することができる。図８は、感情タイプを選択するためにトレーニング済みアルゴリズムを導出するためのトレーニング方式の例示的実施形態８００を示す。図８は単なる例示のために示されており、本開示の範囲を、感情タイプを選択するためのトレーニングアルゴリズムに関するいずれの特定の技法にも限定するものではないことに留意されたい。

[0067] 図８において、トレーニング段階８０１中、アルゴリズムトレーニングブロック８１０に、一連または複数の基準事実またはプロファイル入力３０１．１^＊、対応する一連の基準の前ユーザ入力２３０ａ^＊、および対応する一連の基準感情タイプコード２４０．１ｂ^＊を含む、入力が提供される。本明細書において、括弧で囲まれたパラメータｘ｛ｘ｝は、複数または一連のオブジェクトｘを示すことに留意されたい。特に、各基準事実またはプロファイル入力３０１．１^＊は、事実またはプロファイル入力３０１．１の設定の特定の組み合わせに対応する。

[0068] たとえば、１つの例示的な基準事実またはプロファイル入力３０１．１^＊は、ユーザ構成４０２を「外向性」パーソナリティタイプを含むように、ユーザオンラインアクティビティ４０４を語句「シーホークス」に関するオンライン検索の複数のインスタンスを含むように、ユーザ位置４０８を居住市として「シアトル」に対応するように、指定することができる。この基準事実またはプロファイル入力３０１．１^＊に対応して、基準ユーザダイアログ入力２３０ａ^＊は、最新のスポーツニュースに関するユーザクエリを含むことができる。代替のインスタンスにおいて、この基準事実またはプロファイル入力３０１．１^＊に対応する基準ユーザダイアログ入力２３０ａ^＊は、前ユーザ入力を全く示さないＮＵＬＬ文字列とすることができる。基準事実またはプロファイル入力３０１．１^＊および対応する基準ユーザダイアログ入力２３０ａ^＊のこの例示的組み合わせに基づいて、トレーニング段階８０１中、アルゴリズムトレーニングブロック８１０に基準感情タイプコード２４０．１ｂ^＊を指定することができる。

[0069] 例示的実施形態において、基準事実またはプロファイル入力３０１．１^＊およびユーザダイアログ入力２３０ａ^＊の特定の設定に適切な基準感情タイプコード２４０．１ｂ^＊を、人間の注釈者または判定者によって供給することができる。これらの人間の注釈者には、トレーニング段階８０１中に、基準事実またはプロファイル入力および基準ユーザ入力の個別の組み合わせを提示することが可能であり、この状況に応答して、各組み合わせに好適な感情タイプの注釈を付けることができる。このプロセスは、多くの人間の注釈者ならびに、基準事実またはプロファイル入力および前ユーザ入力の多くの組み合わせを使用して反復することができるため、大量のトレーニングデータをアルゴリズムトレーニングブロック８１０に利用することができる。トレーニングデータおよび基準の感情タイプ注釈に基づいて、基準入力の所与の組み合わせを基準出力に最も正確にマッピングするトレーニング済みアルゴリズムのために、トレーニング済みアルゴリズムパラメータ８１０ａの最適なセットを導出することができる。

[0070] 例示的実施形態において、人間の注釈者は、デジタルアシスタントのパーソナリティの対応する特徴と同様または同一の、ある特徴を有することができる。たとえば人間の注釈者は、たとえば、システムパーソナリティ２５５および／またはデジタルアシスタントパーソナリティ４１８によって指定されるような、デジタルアシスタントの構成済み特徴と同じ性別またはパーソナリティタイプを有することができる。

[0071] アルゴリズムトレーニングブロック８１０は、基準事実またはプロファイル入力３０１．１^＊、ユーザダイアログ入力２３０ａ^＊、および基準感情タイプコード２４０．１ｂ^＊の複数の供給されたインスタンスに応答して、入力の各組み合わせを供給された基準感情タイプに最適にマッピングする、アルゴリズムパラメータのセット、たとえば重み、構造、係数などを、導出するように構成される。例示的実施形態において、入力を出力にマッピングするための一般規則を最適に導出する、機械学習、たとえば管理学習からの技法を利用することができる。これに応じてアルゴリズムトレーニングブロック８１０は、図５に示されるようなトレーニング済みアルゴリズムブロック５１４の例示的実施形態５１４．１に提供される、トレーニング済みアルゴリズムパラメータ８１０ａの最適なセットを生成する。特に、ブロック５１４．１は、トレーニング済みアルゴリズムパラメータ８１０ａに従って、リアルタイム動作８０２中に感情タイプ２４０．１ｂを選択する。

[0072] さらに下記で、本開示の技法の例示的適用例を説明する。この例は単なる例示のために与えられるものであり、本開示の範囲を、事実またはプロファイル入力、システム応答、またはシナリオのいずれの特定のセットまたはタイプにも限定するものではないことに留意されたい。

[0073] マークはフットボールファンである。彼は常に、ナショナルフットボールリーグ（NFL）に関するニュースに注意を払っている。シアトル在住の彼のお気に入りのチームは、シアトルシーホークスである。毎週日曜日、マークは自分のスマートフォンを使ってフットボールゲームをオンラインで視聴し、自分の友人たちとオンラインチャットアプリケーションを介してプレーヤおよびチームについて意見を交わす。彼は自分のアクティビティや興味もソーシャルメディアアプリケーションで共有する。数か月前、シーホークスが４９ｅｒｓを延長戦で打ち負かした時、彼は非常に興奮して、その勝利について自分のソーシャルメディアのプロフィールページで大々的に論じた。

[0074] ある月曜日、シーホークスはサンフランシスコのマンデーナイトフットボールで、４９ｅｒｓと試合をしていた。残念ながら、マークはクライアントと夕食を取っており、試合を見過ごした。その夕食はマークにとって重要な商談であり、彼は商取引をまとめられそうであった。結果的に商談は非常にうまく進行し、マークの提案はクライアントに承認された。夕食後、マークは帰宅する車中で、リアルタイムの音声会話をするために自分のスマートフォンで対話型ダイアログシステム（またはデジタルアシスタントDA）を起動した。

[0075] マーク：「やあ、素晴らしい夕食だったよ！契約を結んだ。ダン（マークの上司）はきっと喜ぶよ。」

[0076] デジタルアシスタント（陽気な調子の声で）：「やった！良かったね。」（DA応答１）

[0077] マーク：「ところでシーホークスはどうだった、教えてよ！」

[0078] デジタルアシスタント（興奮した調子の声で）：「当ててみて。君のシーホークスは勝ったよ！４９ｅｒｓを３０対２５で打ち負かしたんだ。ラッセルウィルソンが第４クォータで２本のタッチダウンパスを決めたよ。」（DA応答２）

[0079] マーク：「わぁ、それはすごい。試合を見られなくて残念だ。今年もプレイオフに進むね！」

[0080] デジタルアシスタント（引き続き興奮した声で、やや抑え気味に）：「うん！プレイオフの間、君のカレンダをブロックしておかなくちゃ。見逃したくないだろ！」（DA応答３）

[0081] 上記の例は、本開示の技法のいくつかの態様を示している。特に、対話型ダイアログシステムはマークがフットボールファンであること、およびシーホークスファンであることも知っている。システムはこの情報を、たとえば、マークがフットボールニュースの追跡を希望していること、ならびに彼のお気に入りのチームがシーホークスであることを示す、マークが自分のデジタルアシスタント上で構成した明示的設定から取得する。ＤＡはオンライン情報源から、シーホークスがその夜ライバルチームのサンフランシスコ４９ｅｒｓと試合をしたこと、およびシーホークスが逆転勝ちしたことも知っている。これによってＤＡはシーホークスの勝利のニュースをマークに報告する時に、興奮した調子の声（DA応答２）に対応する感情タイプを選択することができる。さらにＤＡは、マークの好みについての知識および彼の事前入力に基づいて、マークのカレンダをブロックする時間を提案する時に、興奮した調子の声（DA応答３）を選択する。

[0082] さらにダイアログシステムは、たとえば、マークのスマートフォンの使用パターン（たとえば、使用頻度、使用時間など）、自分のスマートフォンのセットアップ時にマークによって示された個人的な興味および趣味、ならびに自分のソーシャルメディアネットワークに対するステータス更新から導出される、マークのパーソナリティに関する情報を有する。この例において、ダイアログシステムは、マークのパーソナリティを推測するために彼の電話の使用パターンによって生成された大量の統計を取り扱うように設計された機械学習アルゴリズムに基づいて、マークが外向性の誠実な人間であることが決定できる。

[0083] マークがＤＡシステムを２か月前に起動したこと、および彼がそれ以来ＤＡを定期的かつますます頻繁に使用しているという事実から、さらなる情報が導出される。先週、マークはＤＡと平均一日５回対話した。例示的実施形態において、ある感情タイプ分類アルゴリズムは、こうした対話の頻度に起因して、マークとＤＡとの間の親密さが深くなっていることを推測できる。

[0084] さらにＤＡは、マークの現在の感情状態が幸せであることを彼の声から決定する。彼のデバイス上のカレンダ／スケジューリング機能を使用することで、ＤＡは勤務時間後であること、およびマークがクライアントとの商談を終えたばかりであることを知る。対話中、ＤＡは、たとえば車の電子機器とのワイヤレスブルートゥース（登録商標）接続の確立、加速度計によって決定される歩行期間に続く静止期間、車内の低レベルの背景雑音、測定された移動速度などから、マークが車中にいることを識別する。さらに、時刻統計に合致する位置データ履歴などの過去のデータから、マークが夕食後に車で帰宅していることが推量される。したがって、図４のブロック４５０．１を参照しながら説明したような分類アルゴリズムにより、ＤＡは陽気な調子の声（DA応答１）に対応する感情タイプを選択する。

[0085] 図９は、本開示に従った方法９００の例示的実施形態を示す。図９は単なる例示のために示されたものであり、本開示の範囲を図示された任意の特定の方法に限定するものではないことに留意されたい。

[0086] 図９において、ブロック９１０で、方法は、少なくとも１つの事実またはプロファイル入力に基づいて、出力ステートメントに関連付けられた感情タイプコードを選択することを含み、感情タイプコードは複数の所定の感情タイプのうちの１つを指定する。

[0087] ブロック９２０で、方法は、出力ステートメントに対応する音声を生成することを含み、生成された音声は感情タイプコードによって指定された所定の感情を有する。例示的実施形態において、少なくとも１つの事実またはプロファイル入力は、対話型ダイアログシステムを実装するモバイル通信デバイスの使用から導出される。

[0088] 図１０は、前述の方法およびプロセスのうちの１つまたは複数を実行することが可能な非限定的コンピューティングシステム１０００を概略的に示す。コンピューティングシステム１０００は簡略形式で示される。仮想的に、任意のコンピュータアーキテクチャを本開示の範囲を逸脱することなく使用できることが理解されよう。異なる実施形態において、コンピューティングシステム１０００は、メインフレームコンピュータ、サーバコンピュータ、クラウドコンピューティングシステム、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ホームエンターテイメントコンピュータ、ネットワークコンピューティングデバイス、モバイルコンピューティングデバイス、モバイル通信デバイス、スマートフォン、ゲーミングデバイスなどの形を取ることができる。

[0089] コンピューティングシステム１０００は、プロセッサ１０１０およびメモリ１０２０を含む。コンピューティングシステム１０００は、任意選択により、ディスプレイサブシステム、通信サブシステム、センササブシステム、カメラサブシステム、および／または図１０に示されていない他のコンポーネントを含むことができる。コンピューティングシステム１０００は、任意選択により、たとえばキーボード、マウス、ゲームコントローラ、カメラ、マイクロフォン、および／またはタッチスクリーンなどの、ユーザ入力デバイスを含むこともできる。

[0090] プロセッサ１０１０は、１つまたは複数の命令を実行するように構成された１つまたは複数の物理デバイスを含むことができる。たとえばプロセッサは、１つまたは複数のアプリケーション、サービス、プログラム、ルーチン、ライブラリ、オブジェクト、コンポーネント、データ構造、または他の論理構成の一部である、１つまたは複数の命令を実行するように構成可能である。こうした命令は、タスクの実行、データタイプの実装、１つまたは複数のデバイスの状態の変換、または場合によっては所望の結果の達成のために実装可能である。

[0091] プロセッサは、ソフトウェア命令を実行するように構成された１つまたは複数のプロセッサを含むことができる。追加または代替として、プロセッサは、ハードウェアまたはファームウェア命令を実行するように構成された、１つまたは複数のハードウェアまたはファームウェア論理機械を含むことができる。プロセッサのプロセッサは、シングルコアまたはマルチコアであってよく、その上で実行されるプログラムは並列または分散処理用に構成可能である。プロセッサは、任意選択により、リモートに配置され、および／または調整処理用に構成することが可能な、２つまたはそれ以上のデバイス全体に分散される個々のコンポーネントを含むことができる。プロセッサの１つまたは複数の態様は、クラウドコンピューティング構成で構成されたリモートにアクセス可能なネットワーク化コンピューティングデバイスによって仮想化および実行することができる。

[0092] メモリ１０２０は、本明細書で説明する方法およびプロセスを実装するために、プロセッサによって実行可能なデータおよび／または命令を保持するように構成された、１つまたは複数の物理デバイスを含むことができる。こうした方法およびプロセスが実装される時、メモリ１０２０の状態は（たとえば異なるデータを保持するように）変換可能である。

[0093] メモリ１０２０は、取り外し可能媒体および／または組み込みデバイスを含むことができる。メモリ１０２０は、とりわけ、光学メモリデバイス（たとえば、CD、DVD、HD-DVD、Blu-Rayディスクなど）、半導体メモリデバイス（たとえば、RAM、EPROM、EEPROMなど）、および／または磁気メモリデバイス（たとえば、ハードディスクドライブ、フロッピィディスクドライブ、テープドライブ、MRAMなど）を含むことができる。メモリ１０２０は、揮発性、不揮発性、動的、静的、読み取り／書き込み、読み取り専用、ランダムアクセス、順次アクセス、位置アドレス指定可能、ファイルアドレス指定可能、およびコンテンツアドレス指定可能の特徴のうちの、１つまたは複数を備えるデバイスを含むことができる。いくつかの実施形態において、プロセッサ１０１０およびメモリ１０２０は、特定用途向け集積回路またはシステムオンチップなどの、１つまたは複数の共通デバイスに組み込むことができる。

[0094] メモリ１０２０は、本明細書で説明する方法およびプロセスを実装するために実行可能なデータおよび／または命令の記憶および／または転送に使用可能な、取り外し可能コンピュータ可読記憶媒体の形を取ることもできる。メモリ１０２０は、とりわけ、ＣＤ、ＤＶＤ、ＨＤ−ＤＶＤ、Ｂｌｕ−Ｒａｙディスク、ＥＥＰＲＯＭ、および／またはフロッピィディスクの形を取ることができる。

[0095] メモリ１０２０は、情報を記憶する１つまたは複数の物理デバイスを含むことを理解されよう。「モジュール」、「プログラム」、および「エンジン」という用語は、１つまたは複数の特定の機能を実行するために実装されたコンピューティングシステム１０００の態様を記述するために使用可能である。いくつかのケースにおいて、こうしたモジュール、プログラム、またはエンジンは、メモリ１０２０によって保持される命令を実行するプロセッサ１０１０を介してインスタンス化可能である。異なるモジュール、プログラム、および／またはエンジンを、同じアプリケーション、サービス、コードブロック、オブジェクト、ライブラリ、ルーチン、ＡＰＩ、関数などからインスタンス化できることを理解されよう。同様に、同じモジュール、プログラム、および／またはエンジンを、異なるアプリケーション、サービス、コードブロック、オブジェクト、ライブラリ、ルーチン、ＡＰＩ、関数などからインスタンス化できる。「モジュール」、「プログラム」、および「エンジン」という用語は、実行可能ファイル、データファイル、ライブラリ、ドライバ、スクリプト、データベースレコードなどの個々またはグループを包含することを意味する。

[0096] 態様において、コンピューティングシステム１０００は、少なくとも１つの事実またはプロファイル入力に基づいて、出力ステートメントに関連付けられた感情タイプコードを選択するために、プロセッサ１０１０によって実行可能な命令を保持するメモリ１０２０を含む、コンピューティングデバイスに対応することが可能であり、感情タイプコードは複数の所定の感情タイプのうちの１つを指定する。命令は、出力ステートメントに対応する音声を生成するために、プロセッサ１０１０によってさらに実行可能であり、生成された音声は、感情タイプコードによって指定された所定の感情タイプを有するものである。例示的実施形態において、少なくとも１つの事実またはプロファイル入力は、対話型ダイアログシステムを実装するモバイル通信デバイスの使用から導出される。こうしたコンピューティングデバイスは、プロセス、機械、製造、または組成物に対応することを理解されたい。

[0097] 図１１は、本開示に従った装置１１００の例示的実施形態を示す。装置１１００は単なる例示のために示されており、本開示の範囲を図示された任意の特定の装置に限定するものではないことに留意されたい。

[0098] 図１１において、分類ブロック１１２０は、少なくとも１つの事実またはプロファイル入力１１２０ｂに基づいて、出力ステートメント１１１０ａに関連付けられた感情タイプコード１１２０ａを選択するように構成される。感情タイプコード１１２０ａは、複数の所定の感情タイプのうちの１つを指定する。テキスト−音声ブロック１１３０は、出力ステートメント１１１０ａと感情タイプコード１１２０ａによって指定された所定の感情タイプとに対応する、音声１１３０ａを生成するように構成される。例示的実施形態において、少なくとも１つの事実またはプロファイル入力１１２０ｂは、対話型ダイアログシステムを実装するモバイル通信デバイスの使用から導出される。

[0099] 本開示の技法は、必ずしもモバイル通信デバイスを組み込んだ実施形態に限定されるものでないことに留意されたい。代替の例示的実施形態において、本技法は、たとえばデスクトップコンピュータ、ホームゲーミングシステムなどの、非モバイルデバイスに組み込むこともできる。さらに、本技法を組み込むモバイル通信デバイスは、必ずしもスマートフォンに限定されるものではなく、コンピュータ化された腕時計、眼鏡などのウェアラブルデバイスを含むこともできる。こうした代替の例示的実施形態は、本開示の範囲内にあるものと企図される。

[00100] 図１２は、本開示の技法が、可聴音声ではなくまたは可聴音声に加えて表示されるテキストに付与される感情コンテンツを伴うダイアログシステムに組み込まれる、例示的実施形態１２００を示す。図１２に示されるブロックは図２で同様にラベル付けされたブロックに対応しており、図２に示されるあるブロックは説明しやすいように図１２から省略されていることに留意されたい。

[00101] 図１２において、言語生成ブロック２５０の出力２５０ａは、ダイアログエンジン２４０によって生成される感情タイプコード２４０ｂと組み合わされ、テキスト−音声および／または表示用テキストブロック１２６０に入力される。テキスト−音声態様において、ブロック１２６０は、意味論的コンテンツ２４０ａおよび感情タイプコード２４０ｂを用いて音声を生成する。表示用テキスト態様において、ブロック１２６０は、代替としてまたはさらに、意味論的コンテンツ２４０ａおよび感情タイプコード２４０ｂを用いて表示用テキストを生成する。感情タイプコード２４０ｂは、たとえば、表示されるテキスト文字のサイズまたはフォントを調整すること、感情タイプコード２４０ｂに対応する顔文字（たとえば、笑顔または他のピクチャ）を提供することなどのような技法を使用して、表示されるテキストに感情を付与することができることを理解されよう。例示的実施形態において、ブロック１２６０は、代替としてまたはさらに、ディスプレイ上のＤＡまたはユーザを表す１つまたは複数のアバターに対して、感情ベースのアニメーションまたはグラフィカル修正を生成する。たとえば、感情タイプコード２４０ｂが「悲しみ」に対応している場合、事前に選択されたＤＡを表すアバターは、事前に構成された「悲しい」表情を用いて生成するか、または場合によっては、たとえば「泣いている動作」などの動きを介して悲しみを表現するようにアニメーション化することができる。こうした代替の例示的実施形態は、本開示の範囲内にあるものと企図される。

[00102] 本明細書および特許請求の範囲において、要素が別の要素に「接続」または「結合」されていると言い表される場合、これは他の要素に直接接続または結合可能であるか、あるいは介在要素が存在可能であることが理解されよう。これに対して、要素が別の要素に「直接接続」または「直接結合」されていると言い表される場合、介在要素は一切存在しない。さらに、要素が別の要素に「電気的に結合」されていると言い表される場合、これはこうした要素間に低抵抗の経路が存在することを示し、要素が別の要素に単に「結合」されていると言い表される場合、こうした要素間には低抵抗の経路が存在するかまたは存在しない場合がある。

[00103] 本明細書で説明する機能は、少なくとも部分的に、１つまたは複数のハードウェアおよび／またはソフトウェア論理コンポーネントによって実行可能である。たとえば、制限なしに、使用可能な例示タイプのハードウェア論理コンポーネントは、フィールドプログラマブルゲートアレイ（FPGA）、特定プログラム向け集積回路（ASIC）、特定プログラム向け標準製品（ASSP）、システムオンチップシステム（SOC）、結合プログラマブル論理デバイス（CPLD）などを含む。

[00104] 本発明は様々な修正および代替の構成が可能であるが、図面内にはそのうちのある例示的な実施形態が示されており、上記で詳細に説明している。しかしながら、本発明を開示された特定の形に限定する意図はなく、むしろ、本発明の趣旨および範囲内に入るすべての修正、代替構成、および等価物をカバーするものと意図されることを理解されたい。

Claims

対話型ダイアログシステムのための装置であって、
ユーザダイアログ入力に情報的に応じて出力ステートメントを生成するように構成された意味論的コンテンツ生成ブロックと、
少なくとも１つの事実またはプロファイル入力に基づいて、前記出力ステートメントに関連付けられた感情タイプコードを選択するように構成された分類ブロックであって、前記感情タイプコードは複数の所定の感情タイプのうちの１つを指定する、分類ブロックと、
前記出力ステートメントに対応する音声を生成するように構成されたテキスト−音声ブロックであって、前記生成された音声は前記感情タイプコードによって指定された前記所定の感情タイプを有するものである、テキスト−音声ブロックと、
を備え、
前記少なくとも１つの事実またはプロファイル入力は、音声通話およびインターネットアクセスサービスを提供するように構成されたモバイル通信デバイスの使用統計から導出されるパラメータを備え、前記少なくとも１つの事実またはプロファイル入力は、デジタルアシスタントパーソナリティをさらに備え、
前記装置は、前記デジタルアシスタントパーソナリティに基づいて前記出力ステートメントを自然言語で生成するように構成された言語生成ブロックであって、前記出力ステートメントは、所定の意味論的コンテンツおよび前記感情タイプコードに関連付けられた指定された所定の感情タイプを有する、言語生成ブロックをさらに備える、
装置。
モバイル通信デバイスは、音声通話およびインターネットアクセスサービスを提供するように構成される、請求項１に記載の装置。
前記少なくとも１つの事実またはプロファイル入力は、ユーザによって前記モバイル通信デバイスに直接入力される少なくとも１つのユーザ構成パラメータを備える、請求項１に記載の装置。
前記少なくとも１つのユーザ構成パラメータは、趣味、関心、性格特性、好きな映画、好きなスポーツ、および好きな料理のタイプのうちの少なくとも１つを備える、請求項３に記載の装置。
前記少なくとも１つの事実またはプロファイル入力は、前記装置を使用してユーザオンラインアクティビティから導出される少なくとも１つのパラメータをさらに備える、請求項３に記載の装置。
ユーザオンラインアクティビティから導出される前記少なくとも１つのパラメータは、インターネット検索クエリ、アクセスされるインターネットウェブサイト、電子メールメッセージのコンテンツ、およびオンラインソーシャルメディアウェブサイトへの投稿のうちの、少なくとも１つを備える、請求項５に記載の装置。
前記少なくとも１つの事実またはプロファイル入力は、前記モバイル通信デバイスの位置システムにより定められるユーザ位置、前記モバイル通信デバイスを用いて行われるユーザのテキストまたは音声通信のコンテンツ、および、前記モバイル通信デバイスのカレンダスケジューリング機能を使用して前記ユーザによってスケジューリングされた少なくとも１つのイベントのうちの、少なくとも１つをさらに備える、請求項３に記載の装置。
前記少なくとも１つの事実またはプロファイル入力は、現在のユーザ感情状態、およびオンライン情報リソースのうちの、少なくとも１つをさらに備える、請求項３に記載の装置。
前記分類ブロックは、前記対話型ダイアログシステムに入力されるユーザダイアログに基づいて前記感情タイプコードを選択するようにさらに構成され、前記対話型ダイアログシステムは、前記モバイル通信デバイスの少なくとも１つのプロセッサにより実行される、請求項２に記載の装置。
前記自然言語による前記出力ステートメントに対応するテキストを生成する表示ブロックのためのテキストをさらに備える、請求項２に記載の装置。
前記自然言語は英語である、請求項１０に記載の装置。
アルゴリズムを使用して前記感情タイプコードを選択するように構成された前記分類ブロックは、少なくとも１つの事実またはプロファイル入力と対応する複数の基準感情タイプとの間の少なくとも１つの機能的マッピングを備え、前記少なくとも１つの機能的マッピングは機械学習技法から導出され、前記アルゴリズムは、前記少なくとも１つの事実またはプロファイル入力を、前記デジタルアシスタントパーソナリティによる前記出力ステートメントの提供に関連した感情タイプに対応する感情タイプにマッピングする、請求項１に記載の装置。
プロセッサと、前記プロセッサによって実行可能な命令を保持するメモリとを含む、コンピューティングデバイスであって、前記命令は、
ユーザダイアログ入力に情報的に応じて出力ステートメントを生成すること、
少なくとも１つの事実またはプロファイル入力に基づいて、前記出力ステートメントに関連付けられた感情タイプコードを選択することであって、前記感情タイプコードは複数の所定の感情タイプのうちの１つを指定する、選択すること、および、
前記出力ステートメントに対応する音声を生成することであって、前記生成された音声は前記感情タイプコードによって指定された前記所定の感情タイプを有するものである、生成すること、
を行うように前記プロセッサによって実行可能であり、
前記少なくとも１つの事実またはプロファイル入力は、対話型ダイアログシステムを実装するモバイル通信デバイスの使用統計から導出され、前記少なくとも１つの事実またはプロファイル入力は、デジタルアシスタントパーソナリティをさらに備え、
前記命令は、前記デジタルアシスタントパーソナリティに基づいて前記出力ステートメントを自然言語で生成することであって、前記出力ステートメントは、所定の意味論的コンテンツおよび前記感情タイプコードに関連付けられた指定された所定の感情タイプを有すること、を前記プロセッサによって実行可能である、
コンピューティングデバイス。
音声通話およびインターネットアクセスサービスを提供するように構成されたスマートフォンを備える、請求項１３に記載のコンピューティングデバイス。
前記少なくとも１つの事実またはプロファイル入力は、前記スマートフォンを使用するユーザオンラインアクティビティ、ユーザ位置、ユーザのテキストまたは音声通信のコンテンツ、および、前記スマートフォンのカレンダスケジューリング機能を使用して前記ユーザによってスケジューリングされた少なくとも１つのイベントのうちの、少なくとも１つをさらに備える、請求項１４に記載のコンピューティングデバイス。
前記少なくとも１つの事実またはプロファイル入力は、現在のユーザ感情状態、およびオンライン情報リソースのうちの、少なくとも１つをさらに備える、請求項１４に記載のコンピューティングデバイス。
コンピューティングデバイスによって実行される方法であって、
ユーザダイアログ入力に情報的に応じて出力ステートメントを生成すること、
少なくとも１つの事実またはプロファイル入力に基づいて、前記出力ステートメントに関連付けられた感情タイプコードを選択することであって、前記感情タイプコードは複数の所定の感情タイプのうちの１つを指定する、選択すること、および、
前記出力ステートメントに対応する音声を生成することであって、前記生成された音声は前記感情タイプコードによって指定された前記所定の感情タイプを有するものである、生成すること、
を含む、方法であって、
前記少なくとも１つの事実またはプロファイル入力は、対話型ダイアログシステムを実装するモバイル通信デバイスの使用統計から導出され、前記少なくとも１つの事実またはプロファイル入力は、デジタルアシスタントパーソナリティをさらに備え、
前記方法は、前記デジタルアシスタントパーソナリティに基づいて前記出力ステートメントを自然言語で生成することであって、前記出力ステートメントは、所定の意味論的コンテンツおよび前記感情タイプコードに関連付けられた指定された所定の感情タイプを有すること、をさらに含む、
方法。
前記少なくとも１つの事実またはプロファイル入力は、ユーザ位置を備える、請求項１７に記載の方法。
前記少なくとも１つの事実またはプロファイル入力は、前記ユーザによって構成されるユーザ構成パラメータ、ユーザオンラインアクティビティ、ユーザ位置、ユーザのテキストまたは音声通信のコンテンツ、および、カレンダスケジューリング機能を使用して前記ユーザによってスケジューリングされた少なくとも１つのイベントのうちの、少なくとも１つを備える、請求項１８に記載の方法。
前記少なくとも１つの事実またはプロファイル入力は、現在のユーザ感情状態、およびオンライン情報リソースのうちの、少なくとも１つをさらに備える、請求項１８に記載の方法。