JP2022531994A - 人工知能ベースの会話システムの生成および動作 - Google Patents
人工知能ベースの会話システムの生成および動作 Download PDFInfo
- Publication number
- JP2022531994A JP2022531994A JP2022512710A JP2022512710A JP2022531994A JP 2022531994 A JP2022531994 A JP 2022531994A JP 2022512710 A JP2022512710 A JP 2022512710A JP 2022512710 A JP2022512710 A JP 2022512710A JP 2022531994 A JP2022531994 A JP 2022531994A
- Authority
- JP
- Japan
- Prior art keywords
- conversation
- user
- stage
- domain
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013473 artificial intelligence Methods 0.000 title description 3
- 238000000034 method Methods 0.000 claims abstract description 58
- 230000009471 action Effects 0.000 claims description 20
- 238000013439 planning Methods 0.000 claims description 7
- 238000007418 data mining Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 22
- 238000012360 testing method Methods 0.000 abstract description 15
- 230000008921 facial expression Effects 0.000 abstract description 9
- 230000008451 emotion Effects 0.000 abstract description 6
- 230000000007 visual effect Effects 0.000 abstract description 3
- 230000003278 mimic effect Effects 0.000 abstract 1
- 230000004044 response Effects 0.000 description 49
- 230000001815 facial effect Effects 0.000 description 17
- 238000004891 communication Methods 0.000 description 16
- 230000002996 emotional effect Effects 0.000 description 12
- 230000002452 interceptive effect Effects 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000000193 eyeblink Effects 0.000 description 4
- 238000006467 substitution reaction Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000004397 blinking Effects 0.000 description 3
- 210000000887 face Anatomy 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 239000013589 supplement Substances 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 239000011295 pitch Substances 0.000 description 2
- 230000004043 responsiveness Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 201000009482 yaws Diseases 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 208000003556 Dry Eye Syndromes Diseases 0.000 description 1
- 206010013774 Dry eye Diseases 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000002207 retinal effect Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012559 user support system Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- User Interface Of Digital Computer (AREA)
- Stored Programmes (AREA)
- Debugging And Monitoring (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
コンピュータプロセスは、ユーザが会話プログラムを用いて、ユーザのデバイスの1または複数においてタスクを遂行するのに後で呼び出すことができる情報およびプロセスで、自動アシスタントを動的にプログラムすることを提供する。会話プログラムは、テキストまたはグラフィックソースから、自動アシスタントを生成してもよい。会話プログラムは、複数の自動アシスタントにアクセスし、ユーザの要求をアドレスするために使用するのにどれが最も適切であるかを決定する。ユーザは、視覚的文脈で表示することができる、人間の感情、顔の表情、および身振りに匹敵する、会話プログラムのためのアバターを生成することができる。結果として得られる自動アシスタントは、ソフトウェアシステム試験に使用することができる。
Description
本開示は、全体として、人工知能会話システムを作成する方法、システム、およびプログラムに関する。
関連出願の相互参照
関連出願の相互参照
本出願は、2019年5月2日付けの米国仮特許出願第62/842,423号の利益を主張し、全ての目的のため参照により本明細書に組み込む。
人工知能(「AI」)会話プログラムは、情報検索、技術支援(例えば、カスタマーサポート)、デバイスの制御、媒体制御、ゲームプレイ、ストーリーテリング、および人間との一般的な会話を提供するのに使用されることがある。いくつかのAI会話プログラムは、「チャットボット」、「自動アシスタント」、「デジタルアシスタント」、「対話型パーソナルアシスタント」、「インテリジェントパーソナルアシスタント」、「パーソナル音声アシスタント」、「会話エージェント」などと呼ばれることがある。かかるシステムは、オーディオ、テキスト、機械的またはセンサ入力を受け入れ、同じように応答し、ならびに/あるいは記録をデータベースに格納するなど、対話の記録または説明をメモリに格納してもよい。
異なる会話システムが、異なる目的のため、または異なる入力言語に対して作成されてもよい。ユーザが、ユーザの目的または言語に適合しない会話システムと対話している場合、結果は不満足なものであることがある。
会話プログラムが利用する、人間のような音声またはテキスト応答を手動でオーサリングするプロセスは、時間がかかり高価である。例えば、ユーザ要求を聞き、適切に応答する自動対話システムは、プログラマのチームに、可能性がある全てのユーザ要求および適切な応答を入力させることによって、作成されることがある。これは、ユーザが日にちおよび都市を提示し、その日のその都市における予想天気を自動対話システムに応答させることができる、自動対話システムなど、レパートリーが限定されたシステムの場合に実現可能なことがある。しかし、可能性がある対話がはるかに広範囲である場合、かかる自動対話システムをオーサリングするのは非常に時間がかかる場合がある。
自動対話システムのオーサリングは時間がかかるため、オフラインで行われる場合が多く、予期されないユーザ入力に対する新しい応答は生成することができない。準備された応答の大きなコーパスが作成されてもよいが、コーパスは必然的に、予測されるユーザ対話に対する応答のみを提供することになり、その有用性が限定される。限定された予測可能な入力を取るシステムは、一般に「チャットボット」と呼ばれる。システムの可能な応答が限定され、誤った応答を送達することがあるので、システムは人間のユーザを苛立たせる場合がある。いくつかのシステムは、可能性がある回答に関してウェブページおよび他のソースからデータを抽出しようと試みることがあるが、これらのシステムは役に立たない結果を提供する場合がある。統計的な機械学習アプローチを使用する現在のシステムは、通常の会話パターンでユーザに応答できないことがある。自動対話システムを構築する際のダイアログおよび応答作成に対する、自動化されたリアルタイムアプローチが必要とされている。
加えて、ユーザは複数のデバイスと毎日対話し、各デバイスは、対話の嗜好およびモードの自身のセットを有する。これには、ユーザが各デバイスを別個に構成または訓練する必要がある。これらのデバイスそれぞれをどのように使用するかを学習するのにかかる時間は、ユーザにとって苛立たしいものであり得る。
コンピュータ実装方法では、自動対話システムのオーサリングシステムは、自動対話システムの動作を駆動するのに使用される構造化データを生成し、その構造化データは、自然言語入力からの構造化システムによって形成される。自動対話システムとの対話は、自然言語入力、構造化入力などの形態であることができる。
自動対話システムは、発話認識モジュールを使用して入力を取得することがある。自動対話システムは、提供される出力が受信された入力に対する適切および/または有用な応答であろうということを、自動対話システムがどの程度確信しているかを決定する計算を表す、出力に対する信頼値とともに、入力を取り込み、出力を与えることがある。
いくつかの実施形態では、自動対話システムは、企業体などの特定のエンティティによる使用のため、エンティティの顧客またはユーザが自動対話システムに入力を与え、応答出力が返されるであろうとの予想によって、オーサリングされる。具体的な例では、ユーザは顧客であり、テキスト、音声などで自動対話システムに質問し、自動対話システムは、自動対話システムが質問に対する応答とみなすテキスト、音声などを出力する。
自動対話システムは会話システムであってもよい。
自動対話システムは、信頼値をそれぞれ有する複数の可能な応答を計算し、最も高い信頼値に対応する出力を出力してもよい。
自動対話システムは、ユーザ音声入力など、ユーザからの入力を複数の自動発話認識装置で処理して、かかる処理に対して対応する信頼値を決定し、そのユーザとの将来の対話のため、対応する最も高い信頼値に基づいて、複数の自動発話認識装置のうち1つの自動発話認識装置を使用してもよい。
本開示による様々な実施形態について図面を参照して記載する。
以下の詳細な記載は添付図面とともに、本発明の性質および利点のより良い理解を提供する。
本明細書に記載するシステムを使用して、会話型システムであってもよい改善された自動対話システムは、オンデマンドの情報および娯楽を提供し、電話システムでメニューの選択肢を与え、デバイスの基本制御を提供し、身体障害があるユーザに代替のコンピュータインタフェースを提供し、ならびに/あるいはユーザが話している言語を自動的に検出し、適宜反応することができる。他の入力は、ユーザの感情状態を示すデータを含んでもよく、かかるデータは、かかる状態を決定する心情分析または他の技術を使用して生成されてもよく、それを次に、自動対話システムの出力を調節するのに使用することができる。
図1は、本発明の一実施形態による、ユーザを別のユーザとの会話チャンネルに加入させるために実装されるプロセスのブロック図を示している。プロセスは会話管理サーバで実施される。プロセス11において、サーバは、ユーザの制御下で、ユーザデバイスが、管理された会話セッションをサポートするように構成されたプロセスを実行していることを示す、探索要求を、第1のネットワークを通じてデバイスから受信する。本明細書に記載されるように管理された会話セッションをサポートするように構成されたプロセスをユーザデバイスが実行していることを示す、ユーザデバイスから発する信号などの探索信号は、ユーザが対話しようとするリモートユーザに関する基準を特徴付けるデータを含むことができる。いくつかの例では、そのリモートユーザは、本明細書に記載するようにオーサリングされた自動対話システムである。
会話セッションには、コンピュータインタフェースと対話する参加者が関与し、入力および出力の1または複数のサイクルで、参加者が何らかの入力を提供し、何らかの出力が返される。対話は、ネットワーク接続を通じてのものであってもよく、入力および/または出力は、テキスト、映像、オーディオ、および/またはデータの形態であってもよい。いくつかの会話セッションでは、2つの参加者が存在し、またいくつかの会話セッションでは、少なくとも1つの参加者が人間であり、少なくとも1つの参加者がコンピュータプロセスである。会話セッションは、会話セッションと関連付けられた論理的または物理的会話チャンネルを有してもよく、参加者は会話サーバに登録されてもよい。いくつかの実施形態では、会話サーバは、誰が会話セッションの参加者であるかに関するデータを維持する。一般的な例では、参加者に対してインタフェースを提供するハードウェア/ソフトウェアは、会話のノードに対応する「シート」とみなされてもよい。
いくつかの例では、会話チャンネルは、特定の企業または組織(会話チャンネルの受益者)によってそのために操作され、会話チャンネルが利用可能であって、会話チャンネルと関連付けられた会話チャンネルの受益者に対してオープンであるか否かを表す「利用可能性ステータス」など、その状態と関連付けられたデータを有する。他の状態データは、会話チャンネルの利用可能性の格付け、会話チャンネルの受益者の応答性の格付け、および会話チャンネルの受益者と関連付けられたルールセットを含んでもよい。特定の実施形態では、利用可能性ステータスは、「離席中」、「不在」、「取込み中」、「オンライン」、および「メッセージは受信できるが直ぐに会話には応答不能」を含む、ステータスのセットから選択されてもよい。会話の関係者は、会話チャンネルをそれらの関係者に対してオープンにするために、必ずしも同時にオンラインである必要はない。
ユーザによっては、会話セッション管理システムにアカウントを有する登録ユーザであってもよく、またユーザによっては、関連付けられた会話チャンネルを有する、要求される企業を有する企業ユーザの被雇用者など、特定の会話チャンネルの受益者と関連付けられてもよい。
会話チャンネルは、コンピュータシステムによって、ユーザと、会話に関与するユーザによって選択された企業のシートとの間の通信路とみなされてもよい。要求される企業は、少なくとも1つ会話チャンネルを有してもよく、また要求される企業は、複数の会話チャンネルを定義してもよく、各会話チャンネルを企業との通信のカテゴリに割り当てることができる。各チャンネルは、ユーザに見えるラベルを備えることができるので、ユーザは、要求される企業の所望のチャンネルを選択し、それを通じて会話に関与することができる。
会話セッションのシートは、個人、コンピュータプロセス、またはインストールされたアプリケーションなどのシートオペレータが配属される会話ノードに対応してもよく、シートオペレータは、会話セッションにおける所与の企業の代表であり、またはそれに対するインタフェースである。ユーザが複数のシートを有する企業と会話しようとする場合、会話管理サーバが、そのユーザを加入させて、ユーザとの会話に現在関与していない(または会話に関与するのに十分な容量を現在有する)企業のシートと会話させてもよい(当然ながら、会話中の企業を表す個人がシートを使っているものと仮定する)。
シートは、シートと関連付けられた多数の同時会話セッションが予め指定された閾値に達した場合、ビジー状態を有してもよい。
会話ホストは、会話をホストする個人アカウントが確立されており、少なくとも1つのシートが割り当てられている、個人またはグループであってもよい。
コンピュータプロセスは、ソフトウェアもしくはファームウェア、またはそれらのいずれかの組み合わせの制御下で動作しているか、あるいは上記のいずれかの制御外で動作していてもよい、コンピュータハードウェア(プロセッサ、フィールドプログラマブルゲートアレイ、もしくは他の電子組み合わせ論理、または類似のデバイス)を使用して、記載される機能をコンピュータで実行してもよい。記載される機能の全てまたは一部は、トランジスタもしくは抵抗器など、能動または受動電子構成要素によって実行されてもよい。コンピュータプロセスは、スケジュール可能なエンティティ、またはコンピュータプログラムもしくはその一部の動作を必ずしも示唆しないが、いくつかの実施形態では、コンピュータプロセスは、かかるスケジュール可能なエンティティ、またはコンピュータプログラムもしくはその一部の動作によって実装されてもよい。プロセスは、1つを超えるプロセッサまたは1つを超える(シングルもしくはマルチプロセッサ)コンピュータを使用して実行されてもよい。
ユーザデバイスは、ユーザによって使用され、デスクトップユニット、ラップトップユニット、タブレット、スマートフォンとして、またはネットワークへのアクセスを有する他の任意のコンピュータとして実装される、コンピュータであってもよい。
以下の記載で、様々な実施形態について記載する。説明目的で、実施形態の徹底的な理解を提供するために、具体的な構成および詳細について説明する。しかしながら、実施形態は具体的な詳細なしで実施されてもよいことも、当業者には明白となるであろう。更に、記載する実施形態が曖昧にならないようにするため、良く知られている特徴は省略または単純化されることがある。
例示のシステムの様々な構成要素は、ユーザがコンピュータ化された対話型システムと対話してもよい、コンピュータ化された対話型システムを形成するため、単独でまたは他の要素との組み合わせで使用されてもよく、コンピュータ化された対話型システムは、そのユーザからの入力を取り込み、何らかの処理および/またはデータルックアップを実行し、次にそのシステム出力をオーディオおよび/または映像の形態で、場合によっては他の出力とともに出力し、それによってユーザは、ユーザに適切に応答できる何らかの知能を有するものとして、コンピュータ化された対話型システムを知覚してもよい。これを遂行するために、コンピュータ化された対話型システムは、いくつかの訓練モードならびに動作モードを有してもよい。例えば、コンピュータ化された対話型システムは、最初に、音声フレーズを出力することができるように、また次に動作モードでそれらの音声フレーズを使用して、訓練されてもよい。
本明細書に記載する技術は、ユーザが会話プログラムを用いて、ユーザのデバイスの1または複数においてタスクを遂行するのに後で呼び出すことができる情報およびプロセスで、自動アシスタントを動的にプログラムすることを可能にすることに関する。別の実装では、会話プログラムは、ウィキペディアなどのテキストまたはグラフィックソースから、自動アシスタントを生成するであろう。更に、会話プログラムは、複数の自動アシスタントにアクセスし、ユーザの要求をアドレスするために使用するのにどれが最も適切であったかを決定することができるであろう。別の実装は、ユーザが、会話プログラムのため、多量の視覚的文脈で表示することができる人間の感情、顔の表情、および身振りに匹敵する、アバターを生成するのを可能にするであろう。結果として得られる自動アシスタントはまた、ソフトウェアシステム試験に使用することができる。
1.信頼値に基づいた自動発話認識エンジンの選択
1.信頼値に基づいた自動発話認識エンジンの選択
いくつかの自動会話システムでは、複数のAI会話システムが利用可能であってもよい。ユーザを支援するのに最適なAI会話システムを選ぶことで、改善されたユーザ体験を作成することができる。
一実施形態では、会話システムは、例えば、異なる言語、同じ言語内の異なるアクセント、および同じ言語の方言に関して、複数の自動発話認識エンジン(「ASR」)へのアクセスを有してもよい。例えば、システムは、ポルトガル語、スペイン語、アメリカ英語、スコットランド英語、およびスペイン語圏の国出身の非ネイティブ話者が話す英語それぞれに対して、異なる自動発話認識システムを有してもよい。会話システムはまた、子ども用のASR、発語障害を持つ人向けのASRなどを有してもよい。
各ASRエンジンは、音声入力を受信し、それを出力テキストに翻訳する。ASRはまた、出力テキストに、例えば0~1の範囲であってもよいが他の範囲が想到される、信頼値をラベリングする。音声入力が会話システムによって受信されると、ASRのサブセットまたは全てが、それをテキストに翻訳するのに使用されて、各ASRに対するテキスト出力および信頼値がもたらされてもよい。最上位のASRからの出力が出力として選択されてもよい。ユーザが更に音声入力を入力した場合、前に選ばれたASRにより大きい重みが与えられてもよい。別の実施形態では、各音声入力は個別に扱われてもよい。ASRはまた、査定されてもよく、ASRが範囲内の信頼値を有する場合、別のASRの信頼区間が閾値の値分、その信頼値を超えるまで、前に選ばれたASRが使用されてもよい。
一実施形態では、ASRは、リモートデータセンタ(「クラウド」)に格納されてもよく、アクティブなASRのみがローカル使用のためにダウンロードされてもよいが、他の利用可能なASRの信頼区間を監視するのに、音声入力がリモートデータセンタに送信されてもよく、異なるASRがアクティブなASRの信頼区間を(恐らくは閾値分)超えた場合、異なるASRがダウンロードされ、アクティブなASRに取って代わるかまたはそれとともに稼働してもよい。ローカルシステムは、1つのASRが、複数の音声入力にわたって、一連の高信頼区間を達成するかまたは統計的に顕著な高信頼区間を有するまでの期間、2つ以上のASRを使用してもよい。
別の実施形態では、会話システムが高帯域幅接続を利用可能である場合、複数のASRがクラウド内で利用可能であってもよい。クラウドシステムは、どのASRが最も高い信頼値を有するかを追跡し、高帯域幅接続が利用可能な場合、そのASRをローカル会話システムにダウンロードしてもよい。高帯域幅接続が利用可能でない場合、ローカルASRが使用され、音声入力がキャッシュされてもよい。高帯域幅接続が再度利用可能になると、コールキャッシュされた対話がクラウドに送信されて評価されてもよく、異なるASRが前のASRよりも高い信頼値を有する場合、新しいASRシステムがローカル会話システムにダウンロードされてもよい。
2.参照コーパスおよびSMEから会話システムを作成するためのAIインタビュー
2.参照コーパスおよびSMEから会話システムを作成するためのAIインタビュー
一実施形態は、変換に使用可能なコーパスを生成するAI駆動のインタビューシステムである。この実施形態では、ユーザは、テキストまたは発話のどちらかを介して、オーサリングシステムと対話する。オーサリングシステムは、例えば、新しい会話システムをどのように名付けるか、アバターをどのような見た目にするか、音声はどのような音にするべきか、対話の口語スタイルはどのようなものにするか、および新しい会話システムがどのような専門分野を有するかを含む、一連の質問を尋ねてもよい。可能なアバターは、ユーザがそこから選択してもよい可能なアバターおよびアバターの特徴のアバターデータベースに提供されてもよい。
いくつかの実施形態では、自然言語オーサリング入力は、一部には、動作を自動対話システムに通知してもよい概念、ルール、パターン、および/またはアルゴリズムに対応する、構造化データを生成することによって、自動対話システムをオーサリングするのに使用される。オーサリング入力は、作者に、入力を発声によって生成させ、文、設計ルールを出力させる、特定の命令であってもよく、集計システムを使用して入力を提案してもよい。
システムは、ユーザが異なる音声を選択し聞くことを可能にする、異なる音声特性によってインデックスを付けられた音声のデータベースを有してもよい。オーサリングシステムは、「くだけた」,「学術的」、および「簡潔な」など、利用可能な異なる会話スタイルを有してもよい。オーサリングシステムは、新しい会話システムがどの知識を提供するかをユーザがそこから選択する、既知の知識ベースのメニューを有してもよい。オーサリングシステムは、ユーザの応答をデータベースに格納してもよい。
ユーザが新しい会話システムの性質を定義すると、標準的なグラフィックベースのユーザインタフェースと対話することによって、または音声によって、オーサリングシステムは、例えば情報を入力するようにユーザに求めることによって、更なる情報を知識ベースに追加するようにユーザに促してもよい。この情報は、知識ベースシステムに提供されてもよく、該システムが次に、オンラインソース、例えばウィキペディアから、更なる情報を抽出してもよい。知識ベースシステムは、他の会話システムのための知識ベースシステムと情報を交換してもよい。いくつかの実施形態では、知識ベースシステムは、書籍または技術文献に対するアクセスを有してもよく、知識ベースシステムはそれを使用して、入力情報を拡張し確認してもよい。競合するデータが見つかった場合、ユーザに競合が提示され、どの情報が優先するかを尋ねてもよい。知識ベースシステムはまた、映像ソース、ライダーソースなどから、新しい会話システムの話題に関連するテキストを抽出してもよい。
3.音声オーサリングの構成要素
3.音声オーサリングの構成要素
一実施形態では、オーサリングシステムによる会話システムの作成の一部として、オーサリングシステムは、内容領域専門家(「SME」)にインタビューし、応答を記録するように構成された、自身のAI会話インタビューシステムを有してもよい。インタビューシステムは、SME応答に基づいて、尋ねるべき関連質問を発見する。
インタビューシステムは、対話型音声システムで有用であろう有声フレーズを含む可能性がより高い、SMEからの応答を促す質問を生成するように構成される。例えば、インタビューシステムは、取得する必要がある有声フレーズの「買い物リスト」を有してもよく、SMEは、質問に対する回答として話される、それらの有声フレーズに対応する尋ねるべき質問を決定する。
フレーズは、テキスト音声変換データベースに格納し、ならびに知識ベースに追加することができる。オーサリングシステムがSMEにインタビューしている際、出力が知識ベースに格納されてもよく、同時に他の知識ベースと内容を比較して、例えば類似のデータがエントリされているかを検出し、その類似データを使用して、SMEインタビュー中に焦点を絞った質問を生成してもよい。これらの焦点を絞った質問は、共通のエンドユーザの質問など、以前に作成された会話AIシステムとの過去のユーザ対話に基づいてもよい。
一例のシステムでは、知識ベースは、自動車ユーザに対する命令を生成するのに、発話システムによって使用されてもよい。発話システムは、いくつかの有声フレーズを既に有していることがあるが、知識システムの他の部分に次に必要ないくつかの有声フレーズは有さない。例えば、ユーザが車のシート調節とどのように対話するかを説明するデータベースが既に存在する場合、そのデータは、インタビュー質問において焦点を絞った質問を生成するのに使用されてもよい。
4.マルチモード会話の構成要素
4.マルチモード会話の構成要素
マルチモード会話システムは、デバイスに依存しないユーザ音声インタフェースの個人化をコンパイルし、格納し、調査するのに使用されてもよい。
この実施形態では、ユーザの嗜好が、複数のデバイスからアクセス可能なデータストア、例えばブロックチェーン台帳に格納されてもよい。別の実施形態では、ユーザの嗜好は暗号化形式で、例えば対称鍵暗号または公開/秘密鍵暗号で格納されてもよい。セキュリティを向上するため、256ビットの暗号鍵が使用されてもよい。
一実施形態では、ユーザの誕生日、余暇活動、または好きな色などの嗜好情報が格納される。嗜好はデバイスまたはユーザ固有であってもよい。ユーザは、その日のうちに要求するための、AI会話システムの要求、例えばリマインダを行ってもよい。AI会話システムは、要求を受信し、それに時間タグをタグ付けして、情報を中央データベースに格納する。指定の時間に、ユーザが、ユーザが要求を行った元のAI会話システムの近くにいないということが起こり得る。システムは、これを認識し、応答のため、要求をユーザの近くのAI会話システムにルーティングする。
別の実施形態では、ユーザはAI会話システムに、例えば自身の好きな色が青であると伝える。色の嗜好は中央データベースに格納される。後で、ユーザが異なるAI会話システムと対話しているとき、ユーザは、ユーザの好きな色に関連する要求(例えば、「会話システム、私のUIに合った良い色のテーマを選んで」)を行ってもよい。この第2の会話システムは、中央データベースをポーリングして情報を見つけ、ユーザの好きな色である青に基づいてテーマを選んだというコメントを用いて、システムのためのUIを選んでもよい。
5.ユーザの意図の決定、およびユーザの意図に基づいたAIバリアントの選択
5.ユーザの意図の決定、およびユーザの意図に基づいたAIバリアントの選択
会話システムは、ユーザの意図を決定し、ユーザの意図に基づいてAIバリアントを選択する、プリプロセッサを含んでもよい。異なるAI会話システムが、他のシステムよりも、特定のタイプのユーザ対話に良く適合していることがある。プリプロセッサは、ユーザの意図を決定し、次にユーザの意図を分類してもよい。分類から、プリプロセッサは複数のAI会話システムの中から選択してもよい。ルールベースの前処理システムは、会話の一般的説明を生成してもよい。例えば、説明は、ユーザが技術的質問を尋ねていることを示し、技術文献から回答を抽出するように設計されたシステムを呼び出してもよい。技術的質問に回答するように設計されたシステムの一例は、技術文献に基づいて技術サポートの質問に回答する、スタンフォード大学で開発されたオープンソースの機械学習システムである。多くの異なるタイプのAIツールが存在するので、所与のユーザタスクに対して最良のAIツールを選択することで、向上したユーザ体験を提供してもよい。ユーザの意図(例えば、技術的質問に対する回答を見つける)の決定は、求められた情報をユーザに提供することに関して、選ばれたAI会話システムの成功を決定することができる。
一実施形態では、プリプロセッサシステムは、いくつかの特化型AI会話システムから選択して、複数のAI会話システムを備えるメタAI会話システムを作成するであろう。プリプロセッサは以下の段階を行ってもよい。ユーザが、メタAI会話システムに質問する。プリプロセッサが、ユーザの質問の意図を分析し、それをタイプによって分類する。プリプロセッサシステムは、意図タイプを、所与の意図タイプに対する応答精度によってランク付けされた、オンボードまたはオンラインAI会話システムのリストと比較する。
自動対話システムは更には、入力を処理し、複数の「考え方」のうち1または複数と一致する出力を提供してもよく、それにより、出力が特定の考え方と少なくともある程度一致する。
精度は、広範囲の値を取り、一致の信頼度に対応する値を有することができる、可変値であってもよい。この値は、会話システムがユーザの質問に最初に十分一致しているかを決定する、一致の質の推定値として使用することができる。このリストから、プリプロセッサは、質問に回答するのに最良の会話システムを選択する。別の実施形態では、プリプロセッサは複数の会話システムを選択してもよい。質問は、選ばれた特化型会話システムに送信されて処理される。特化型会話システムが回答を生成すると、回答はメタ会話システムのダイアログジェネレータによって話される。複数の会話システムが使用される場合、応答がユーザの質問に一致しているとシステムがどのぐらい確信しているかで、応答を(例えば、整数または浮動小数点のスコアを使用して)採点することができる。このスコアに基づいて、アクティブな会話システムを、前に選ばれた会話システムからより高い信頼スコアを有する会話システムへと変更してもよい。
6.映像に基づいた拡張現実(「AR」)または仮想現実(「VR」)のための動的キャラクタの生成
6.映像に基づいた拡張現実(「AR」)または仮想現実(「VR」)のための動的キャラクタの生成
ARおよびVRは両方とも3D技術であるが、ARでは、背景はライブ映像フィードであり、VRでは、背景は、単一のパノラマ画像または予め記録されたビデオ画像であることができる。どちらの場合も、コンピュータ生成されたキャラクタが映像内に存在する。それらのキャラクタは、ストーリーもしくはゲーム内のガイド、アシスタント、またはキャラクタとして行動してもよい、AI駆動の会話キャラクタであることができる。他の表示デバイスは、コンピュータ画面、投影映像、網膜ディスプレイ、および混合現実(「XR」)を含んでもよい。
キャラクタ生成システムは、実世界キャラクタ(ライブキャプチャまたは予め記録されたもののどちらか)をAR/VRフィードに追加してもよい。キャラクタ生成システムは、3Dレンダリングされた顔を、映像内の実世界キャラクタの上に重畳し、重畳された顔のアニメーションをAIシステムで駆動してもよい。
キャラクタ生成システムは、後の映像合成で使用することができるキャラクタを生成するため、マシンビジョンを使用して以下の段階を実行してもよい。最初に、キャラクタ生成システムは、映像シーン内の既存の顔を探してもよい。次に、キャラクタ生成システムは、顔色を分析して色パレット調節層を生成してもよい。次に、顔のシェーディングおよびシャドーイングを分析して、シェーディング調節層を生成してもよい。次に、映像シーン内の各顔の3Dモデルを表す既存の3Dメッシュを修正して、映像の顔(「標的の顔」)における重要な顔の特徴と位置合わせしてもよい。
これらの段階が実行された後、映像合成システムは次に、映像の顔を、それらのセントロイド、ピッチ、ロール、およびヨーに関して校正してもよい。次に、それらの映像の顔に対するオクルージョンを計算してもよい。次に、エッジぼかしに役立つアルファチャンネルを含む、オクルージョンを説明するアニメーション化した「マスク層」を生成してもよい。映像合成システムは次に、操作されたジェネリック3D顔モデルを構築してもよく、それを次に、モーフまたは他の標的化アプローチを使用して、標的顔モデルに適合させてもよい。3D顔モデルを次に、AI会話システムからの出力によって生成されるアニメーションキューに基づいて、リアルタイムでアニメーション化してもよい。
映像合成システムは、映像の顔の、それらのセントロイド、ピッチ、ロール、およびヨーに関する校正から、ジェネリック顔モデルに対する位置データを受信してもよい。映像合成システムは、顔色の分析から、色情報に基づいたテクスチャマップを受信し、テクスチャマップをジェネリック顔モデルに適用してもよい。映像合成システムはまた、シェーディング情報およびシャドーイング情報の分析からシェーディング情報を受信し、シェーディング情報をテクスチャマップに適用してもよい。映像合成システムはまた、オクルージョンがあればそれを適用してもよい。映像合成システムは、自然言語理解(「NLU」)エンジンを使用して顔をアニメーション化して、発話および顔の感情を表示してもよい。映像合成システムは次に、ジェネリック顔モデルをレンダリングし、アルファブレンディングを使用してそれを背景映像の上に合成して、映像のピクセルとブレンドしてもよい。映像合成システムは、準備された(つまり「予め用意された」)応答とは対照的に、レンダリングされたキャラクタが、AI会話システムの出力と一致する、それ自体の音声でダイアログを話しているように、付随する顔のアニメーションとともに見せてもよい。映像合成システムは、AIによって駆動される完全に動的なキャラクタを提供する。
7.データソースから会話出力を生成するオーサリングの構成要素
7.データソースから会話出力を生成するオーサリングの構成要素
オーサリングシステムは、車のマニュアルなどの技術文書を、機械学習を使用してデータベースに変換する方法を含んでもよい。AI会話システムは、データベースから情報を検索し、それを、ユーザによって尋ねられる音声質問に応答して音声オーディオとして出力することができてもよい。会話システムは、ユーザ質問を、データベースに格納されたものからの、既知の人間の応答アプローチのセットと比較することによって始まる、方法を使用するであろう。会話システムは次に、ユーザの名前を追加する、または人間の会話をシミュレートするようにフォーマット化するなど、個人化を追加するであろう。システムは次に、数字または他の特定のデータを挿入して、既知の人間の応答における変数を記入するであろう。特定のデータは、機械学習によって作成されたデータベースによって供給されてもよい。会話システムは次に、応答が文法的に正しいことを検証してもよい。
機械学習プラットフォームは、回答データの位置を識別することによって、技術的テキストから質問に回答することに焦点が絞られたものであってもよい。会話システムは次に、これを会話としてフォーマット化する。例えば、「V8はシリンダをいくつ有する?」という質問を尋ねられると、機械学習システムは回答が8であると識別してもよい。会話システムは次に、ユーザの名前を含めて、「V8はV字形に配列された8つのシリンダを有する」という返答を公式化してもよい。システムはまた、より徹底した回答を組み立てるため、相互参照を実行してもよい。
自動車部品組立ての分解組立図などの製図は、分類、セグメント化、およびラベリング技術を使用して分析されてもよい。一例の用途として、車のマニュアルをデータベースに読み込んで、ユーザサポートが提供されてもよい。別の用途は、自動車用の部品カタログであり得る。
オーサリングシステムによって実行される方法は、OCR技術を使用して既存のマニュアルをスキャンすることを含んでもよい。マニュアルは、テキスト、グラフィック、およびグラフィックを説明文に相関させるラベルを有してもよい。グラフィックと関連付けられたキャプションテキストまたは他の説明文が、識別され格納されてもよい。オーサリングシステムは、グラフィックをスキャンして、この説明文を見つけ、データベースに格納してもよい。矢印などの識別用マーカーが識別されてもよく、識別マーカーによって示される位置(例えば、矢印の先端)の(x,y)座標が保存されてもよい。オーサリングシステムは次に、保存されたOCRテキストをグラフィックに対応する説明文と比較して、グラフィックの説明文に対する一般的なOCRテキストへの相関があるかを決定してもよい。相関がある場合、その相関はデータベースに保存される。一実施形態では、相関はタグとして格納される。別の実施形態では、相関は、インデックスキーまたは他の相関デバイスを使用して保存されてもよい。オーサリングシステムは次に、作成されたデータベースに基づいて、質問および回答を作成してもよい。別の実施形態では、ユーザが、オーサリングシステムによって作成されたデータベースへのアクセスを有するAI会話システムと対話すると、AI会話システムは、識別されたユーザ質問に対する回答を作成してもよい。いずれの場合も、ユーザが、データベース自体またはユーザ質問への応答のどちらかに対するアクセスを有するAI会話システムと対話すると、リンク(グラフィックタグもしくはインデックス)を有する言葉または応答が識別された場合、会話システムが返答の音声ダイアログを生成すると、対応するグラフィックが表示されてもよい。グラフィックが大きい場合、識別(タグ付け)された識別用マークの(x,y)座標が拡大されるか、強調されるか、囲まれるか、または別の方法で示されて、ユーザが関連するマーカーを見つけるのを助けてもよい。これはまた、画像分析および領域セグメント化で使用されてもよい。
8.可変の詳細度を有するAI会話の構成要素
8.可変の詳細度を有するAI会話の構成要素
心情のキューは、応答の長さを変動させるなど、AI会話システムの態様を変更するのに使用されてもよい。心情はユーザの応答で変化してもよく、会話システムは、ユーザの心情を周期的に測定し、ユーザの更新された心情にしたがって応答の詳細度を変動させてもよい。会話システムは、言葉ベースの方法から、音声波形分析から、または顔の分析を実行するマシンビジョンから、心情を決定してもよい。
一実施形態では、会話システムは、高、中、および低の詳細度に対する設定を有してもよい。「高」の設定は、システムに「くだけた」応答を作成させてもよく、「中」の設定は、簡潔な直接の応答をさせてもよく、「低」の設定はビープ音またはアイコンの点滅のみで、ユーザの声が聞き取られており、アクションが実行されたことを知らせてもよい。より高度な実装は、動的な可変性またはスライドするスケールを使用して、応答の長さの変動におけるより高い粒度を作成してもよい。
一実施形態では、会話システムは以下の段階を行ってもよい。
1.ユーザの発話を分析して、言葉の使用に基づいてユーザの感情状態を決定する。
2.ユーザの感情状態を採点し、データベースに記録する。
3.ユーザの発話を分析して、分毎に話された言葉、音量、または韻律に基づいてユーザの感情状態を決定する。他の波形または映像分析も採点に使用されてもよい。
4.分毎に話された言葉を、言葉の頻度と相関させた既知の感情状態のデータベースと比較する。
5.ユーザの感情状態を採点し、同じデータベースに記録する。
6.ユーザの発話を分析して、会話システムとの対話によるユーザの満足レベルを示す直接コメントを探す。例えば、会話システムに対して「静かにして」と言うユーザは、会話システムからより低い詳細度を望んでいるサインと取られる場合がある。
7.これを採点し、満足感の変化を記録する。
8.データベースに格納された全てのユーザデータを集約して、複合スコアを達成する。システムはこのスコアを周期的に更新するであろう。
9.スコアがユーザの満足感または特定の心の状態を示す場合、会話システムの応答の詳細度レベルに変化は生じないことがあるが、他の場合は生じることがある。スコアが上下した場合、会話システムはその詳細度を適宜調節するであろう。
9.顔分析の調節を伴うアバターインタフェースの構成要素
9.顔分析の調節を伴うアバターインタフェースの構成要素
この構成要素を使用して、会話システムは、マシンビジョンが導出したユーザの顔の状態の分析に基づいて、アバターの顔の状態を変動させることができる。会話システムは、自然言語理解ソフトウェアを使用して、顔のジェスチャー認識に対するサポートを追加し、自分のアバターにおいて人間のような顔のジェスチャーを生成することによって、アバターの会話能力を向上させてもよい。
人間は、話をする際、話し手の感情状態を伝達する顔のジェスチャーおよび微表情で話し言葉を補足する。例えば、目の瞬きは話し手が話し終わったことを合図することができる。更に、聞き手の顔の表情は、話し手の顔の表情を反映し、それと対話する場合が多い。会話システムは、ユーザの映像をキャプチャし、ユーザの顔の表情を分析し、顔の表情を認識し、それらの顔の表情に対して反応することによって、そのアバターの性能を改善してもよい。
一実施形態では、会話システムは、ビデオカメラおよびマシンビジョンソフトウェアを使用して、ユーザが話す際の顔のパターンをキャプチャし分析してもよい。システムは次に、これらのパターンを既知の感情状態および表情にマッピングしてもよい。これらのパターンの分析は、発声によって表現されたユーザの意図についてのシステムのモデルを高め、それが次いで、人間のようなパターンでアバターの顔をアニメーション化するのに使用されてもよい。
別の実施形態では、会話システムは、当該システムが話し終わったときにアバターの目の瞬きを生成して、会話システムが話し終わったことをユーザに合図してもよい。
別の実施形態では、会話システムは、マシンビジョンを使用して、姿勢、体の位置、および手振りを含むユーザのボディランゲージを分析してもよい。会話システムは次に、これらのパターンを既知の感情状態および表情にマッピングしてもよい。このボディランゲージ情報は、発声によって表現された意図についてのシステムの理解を拡張し、システムによって使用して、アバターの顔および体を人間のようなパターンでアニメーション化することができる。ボディランゲージ情報は、人間のような応答を、アバターの発話応答ならびに顔および体のアニメーションと一致させるのに使用されてもよい。一実施形態では、アバター応答は、それらの「パーソナリティ」を構成する設計因子によって更に調整されるであろう。
会話システムは、アバターの顔の視覚的状態に基づいて、会話システムの出力に句読点を付ける方法を使用してもよい。
一実施形態では、システムは以下の段階を実行してもよい。
1.ビデオカメラおよびマシンビジョンソフトウェアを使用して、ユーザの目の瞬きを検出し分析する。
2.記録された瞬きを、ユーザの発話の文字起こしを含むタイムラインと相互参照する。
3.ソフトウェアを使用して、瞬きを発声概念およびパターンの自然言語理解分析と比較して、句読点が生じる可能性が高い場所を決定することによって、句読点に関連しない目の瞬きを拒絶する。
4.ユーザの目の瞬きをキャプチャし、これらの目の瞬きを分析し分類して、どの瞬きが(ドライアイの瞬きなどとは対照的に)句読点として意図されたかを決定する。
5.句読点としての瞬きの候補を可能性が高い句読点の音声分析と比較して、偽陽性を見つける。
6.文の終わりに相関する目の瞬きを、会話システムが最後のユーザ発話に応答するのをトリガする、会話のハンドオーバ点として分類する。
別の実施形態では、会話システムは、以下の段階で、顔認識と、会話型システムのアバターにおける顔のアニメーションの形態である、ユーザの発話におけるアバターの反応とに焦点を絞ってもよい。
1.ビデオカメラおよびマシンビジョンソフトウェアを使用して、ユーザの顔のジェスチャーを検出し分析する。
2.記録された顔のジェスチャーを、ユーザの発話の文字起こしを含むタイムラインと相互参照する。
3.認識された顔のジェスチャーを、既知の感情状態のデータベースと比較する。
4.この導出された感情状態情報を使用して、信頼、幸福、悲しみなどの変数に基づいて、採点システムに追加投入する。
5.導出されたスコアを、人間の会話で一般的に使用される既知の顔の応答のデータベースと比較する。
これらの顔の応答を使用して、会話システムのアバターの顔を形作るプリセットされたアニメーションをトリガすることができる。
別の実施形態は、顔のアニメーションに手振りを補足するかまたはそれと置き換えてもよい。
別の実施形態は、顔のアニメーションに体の位置付けを補足するかまたはそれと置き換えてもよい。
10.処理されたユーザ音声ファイルをキャッシュする構成要素
10.処理されたユーザ音声ファイルをキャッシュする構成要素
この構成要素を使用して、会話システムは、対話型会話システムの処理されたユーザ音声ファイルを、キャッシュミスに関する低解像度音声ファイルを使用してキャッシュする。高品質の発話を生成するには、低品質の発話を生成するよりもはるかに多くの計算を行うが、場合によっては、例えばリアルタイムシステムでは、高品質の発話を生成するのに十分な時間がない。会話システムは、どの応答であるべきかを決定すると、そのオーディオ応答のバージョンが存在するかを確かめるため、ローカルレポジトリをチェックする。エントリがキャッシュに存在しない場合、システムは、低品質バージョンを生成し、それを再生し、低品質プロセスをキューアップして、ローカルレポジトリに、またはサーバ上に格納される高品質バージョンを生成する。
会話システムは、特定のユーザに同じ応答を繰返し用いて応答してもよいので、より高品質の音声ファイルを生成することで見かけの品質が改善される。しかし、他のユーザは一般の応答の異なるセットを有することがある。会話システムは、集中的な計算要件を有する可能性が高いので、低品質タスクは、システムの応答性に悪影響を及ぼすことなくその計算を行うのに、多くの時間を有するはずである。
一実施形態では、システムは、話される言葉が言葉のSHAハッシュをファイル名に有するWAVファイルとして格納される、レポジトリとしてのファイルシステムを使用してもよい。システムは、応答をハッシュし、次にファイル名としてハッシュを有するファイルが存在するかを確かめるのに目を向けるであろう。
更なる改良は、レポジトリが一杯になったときに、どのエントリを破棄するかを決める最適化された手法であろう。システムが、ファイルが使用されるたびに修正日を変更した場合、ファイルを日にちで仕分け、最も古いものを選ぶことで、「最も長い間使用されていない」エントリを識別することによってそれを破棄できる、単純な手法が提供される。あるいは、選択は使用頻度または使用予測に基づいてもよい。
11.回帰試験の構成要素
11.回帰試験の構成要素
この構成要素を使用して、会話AIエンジンは、試験入力の可変性を扱うことができる。ソフトウェアは、回帰試験と呼ばれるプロセスで試験されてもよい。回帰試験では、既知の入力がデータベースに格納され、不具合を探すのに、試験システムの一部としてのソフトウェアプログラムによって逐次的に使用される。会話システムは、ユーザの書込みまたは音声入力を取り、この入力を処理してユーザの意図を決定し、応答を送達する。会話システムを有効に試験するため、ユーザの意図のできるだけ多くの可能な音声またはテキスト表現を試験することが望ましい。
自然言語理解ソフトウェアエンジンを使用して、言葉および概念を変動させることによって試験入力に可変性を追加することで、会話システムをより堅牢に試験することができる可変入力が作成される。一実施形態では、試験システムは、回帰試験からの入力を取り、新しい試験の形態で可変性および深度を追加する置換を生成する。これらの置換は予め規定された概念定義から生成されるであろう。一例として、「アレックスは釣りが好き?」というユーザ発話は、次の~male_namesの概念(アレックス、ボブ、チャーリー、デイブ、アーニー、フランク)および~sportsの概念(釣り、凧揚げ、ハイキング)によって置換することができる。結果として得られる置換は、よって、「ボブはハイキングが好き?」であってもよい。置換は回帰試験データベースに追加されて、深度および可変性が試験に追加されるであろう。いくつかの実施形態では、システムは、音声入力の韻律、アクセント、または方言を変動させることがある。
例示のハードウェア
例示のハードウェア
上述のシステムは、1または複数のコンピューティングシステム上に実装されてもよい。
一実施形態によれば、本明細書に記載する技術は、ファームウェア、メモリ、他の記憶装置、または組み合わせにおけるプログラム命令に従った技術を実行するようにプログラムされた、1または複数の一般化されたコンピューティングシステムによって実装される。デスクトップコンピュータシステム、ポータブルコンピュータシステム、携帯用デバイス、ネットワーキングデバイス、あるいは技術を実装するハードワイヤードおよび/またはプログラム論理を組み込んだ他の任意のデバイスなど、専用コンピューティングデバイスが使用されてもよい。
例えば、図1は、本発明の一実施形態がその上に実装されてもよい、コンピュータシステム100を示すブロック図である。コンピュータシステム100は、情報を通信するバス102または他の通信メカニズムと、情報を処理する、バス102と結合されたプロセッサ104とを含む。プロセッサ104は、例えば、汎用マイクロプロセッサであってもよい。
コンピュータシステム100はまた、情報およびプロセッサ104によって実行される命令を格納する、バス102に結合された、ランダムアクセスメモリ(RAM)または他の動的記憶デバイスなどのメインメモリ106を含む。メインメモリ106はまた、プロセッサ104によって実行される命令の実行中、一時変数または他の中間情報を格納するのに使用されてもよい。かかる命令は、プロセッサ104にアクセス可能な非一時的記憶媒体に格納されると、コンピュータシステム100を、命令で指定された動作を実行するようにカスタマイズされた専用機械にする。
コンピュータシステム100は更に、プロセッサ104のための静的情報および命令を格納する、バス102に結合された、読出し専用メモリ(ROM)108または他の静的記憶デバイスを含む。磁気ディスクまたは光学ディスクなどの記憶デバイス110が提供され、情報および命令を格納するため、バス102に結合される。
コンピュータシステム100は、バス102を介して、コンピュータユーザに対して情報を表示する、コンピュータモニタなどのディスプレイ112に結合されてもよい。英数字キーおよび他のキーを含む入力デバイス114は、情報およびコマンド選択をプロセッサ104に通信するため、バス102に結合される。別のタイプのユーザ入力デバイスは、方向情報およびコマンド選択をプロセッサ104に通信するため、ならびにディスプレイ112上のカーソル移動を制御するための、マウス、トラックボール、またはカーソル方向キーなどのカーソル制御116である。この入力デバイスは、一般的に、デバイスが面内の位置を指定するのを可能にする、第1の軸(例えば、x)および第2の軸(例えば、y)の2つの軸で、2つの自由度を有する。
コンピュータシステム100は、コンピュータシステムとの組み合わせでコンピュータシステム100を専用機械にさせるかまたはそのようにプログラムする、カスタマイズされたハードワイヤード論理、1もしくは複数のASICまたはFPGA、ファームウェアおよび/またはプログラム論理を使用して、本明細書に記載する技術を実装してもよい。一実施形態によれば、本明細書の技術は、プロセッサ104が、メインメモリ106に収容された1または複数の命令の1もしくは複数のシーケンスを実行するのに応答して、コンピュータシステム100によって実行されてもよい。かかる命令は、記憶デバイス110などの別の記憶媒体から、メインメモリ106に読み込まれてもよい。メインメモリ106に収容された命令のシーケンスを実行することによって、プロセッサ104に、本明細書に記載するプロセス段階を実行させる。代替実施形態では、ソフトウェア命令の代わりに、またはそれとの組み合わせで、ハードワイヤード回路が使用されてもよい。
「記憶媒体」という用語は、本明細書で使用するとき、機械を特定の形式で動作させるデータおよび/または命令を格納する、任意の非一時的媒体を指す。かかる記憶媒体は、不揮発性媒体および/または揮発性媒体を備えてもよい。不揮発性媒体は、例えば、記憶デバイス110など、光学または磁気ディスクを含む。揮発性媒体は、メインメモリ106などの動的メモリを含む。記憶媒体の一般形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、ソリッドステートドライブ、磁気テープ、または他の任意の磁気データ記憶媒体、CD-ROM、他の任意の光学データ記憶媒体、穴のパターンを有する任意の物理的媒体、RAM、PROM、EPROM、FLASH(登録商標)-EPROM、NVRAM、他の任意のメモリチップもしくはカートリッジを含む。
記憶媒体は、伝送媒体とは異なるが、それと併せて使用されてもよい。伝送媒体は記憶媒体間での情報の転送に関与する。例えば、伝送媒体は、バス102を備えるワイヤを含む、同軸ケーブル、銅ワイヤ、および光ファイバーを含む。伝送媒体はまた、高周波および赤外データ通信の間に生成されるものなど、音波または光波の形態を取ることができる。
様々な形態の媒体が、1または複数の命令の1もしくは複数のシーケンスをプロセッサ104に搬送して実行するのに関与してもよい。例えば、命令は最初に、リモートコンピュータの磁気ディスクまたはソリッドステートドライブ上で搬送されてもよい。リモートコンピュータは、命令をその動的メモリにロードし、ネットワーク接続を通じて命令を送信することができる。コンピュータシステム100に対してローカルのモデムまたはネットワークインタフェースが、データを受信することができる。バス102は、データをメインメモリ106に搬送し、そこからプロセッサ104は、命令を検索し実行する。メインメモリ106によって受信された命令は、任意に、プロセッサ104による実行の前または後のどちらかで、記憶デバイス110に格納されてもよい。
コンピュータシステム100はまた、バス102に結合された通信インタフェース118を含む。通信インタフェース118は、ローカルネットワーク122に接続されたネットワークリンク120に結合する、二方向データ通信を提供する。例えば、通信インタフェース118は、ケーブルモデム、衛星モデム、または対応するタイプの電話線に対するデータ通信接続を提供するモデムであってもよい。無線リンクも実装されてもよい。任意のかかる実装では、通信インタフェース118は、様々なタイプの情報を表すデジタルデータストリームを搬送する、電気、電磁、または光学信号を送信および受信する。
ネットワークリンク120は、一般的に、1または複数のネットワークを通して、他のデータデバイスにデータ通信を提供する。例えば、ネットワークリンク120は、ローカルネットワーク122を通して、ホストコンピュータ124に対する、またはインターネットサービスプロバイダ(ISP)126によって操作されるデータ機器に対する、接続を提供してもよい。ISP 126は次いで、現在は一般に「インターネット」128と呼ばれる、ワールドワイドパケットデータ通信ネットワークを通して、データ通信サービスを提供する。ローカルネットワーク122およびインターネット128は両方とも、デジタルデータストリームを搬送する、電気、電磁、または光学信号を使用する。様々なネットワークを通る信号、およびネットワークリンク120上の、通信インタフェース118を通る信号は、デジタルデータをコンピュータシステム100に、またそこから搬送するものであり、伝送媒体の例示の形態である。
コンピュータシステム100は、ネットワーク、ネットワークリンク120、および通信インタフェース118を通して、メッセージを送信し、プログラムコードを含むデータを受信することができる。インターネットの例では、サーバ130は、インターネット128、ISP 126、ローカルネットワーク122、および通信インタフェース118を通して、アプリケーションプログラムに対して要求されたコードを伝送してもよい。受信したコードは、受信されたままプロセッサ104によって実行され、および/または記憶デバイス110に、もしくは後の実行のために他の不揮発性記憶装置に格納されてもよい。
本明細書に記載するプロセスの動作は、本明細書における別段の指示、または文脈による明確な矛盾がない限り、任意の好適な順序で実行することができる。本明細書に記載するプロセス(あるいはその変形および/または組み合わせ)は、実行可能命令を用いて構成された、1または複数のコンピュータシステムの制御下で実行されてもよく、ハードウェアもしくはその組み合わせによって、1もしくは複数のプロセッサ上で集合的に実行する、コード(例えば、実行可能命令、1もしくは複数のコンピュータプログラム、または1もしくは複数のアプリケーション)として実装されてもよい。コードは、例えば、1または複数のプロセッサによって実行可能な複数の命令を備えるコンピュータプログラムの形態で、コンピュータ可読記憶媒体に格納されてもよい。コンピュータ可読記憶媒体は非一時的であってもよい。
図2~図14は、実施形態の他の態様について記載している。
図15は、自動対話システムによって使用可能なデータを構造化システムが生成する、システムを示している。図示されるように、作者は、自然言語の作者入力を、概念の記録、ルールセット、パターンの説明、およびユーザ入力(音声、テキスト、データなどであってもよい)を取り込み、応答出力を提供する、自動会話システムなどの自動対話システムの動作を形成する実行可能コードなどの、データ構造を構築することができる、オーサリングシステムなどの構造化システムに提供することができる。構造化システムは、作者の側で詳細なプログラミングを要することなく構築することができる、自動対話システムの実装を可能にする。特定の例では、自然言語処理を、特定のドメインまたは使用のための質問・回答システムを構築している、オーサリングシステムで使用することができる。オーサリングシステムは、質問を尋ね、作者の応答を得ること、それらの応答を自然言語の作者入力として処理することなどによって、作者と対話し、それらを構造化形式データとして格納し、その構造化形式データから、自動対話型システムを形成するであろう概念、パターン、ルール、実行可能コード、またはルーチンなどを計算してもよい。ユーザは次に、その自動対話型システムを使用して対話することができる。
本開示の実施形態は、以下の節を考慮して記載することができる。
1.実行可能命令で構成された1または複数のコンピュータシステムの制御下で、
1または複数の知識ドメインのセットから選択された知識ドメインを選択するように、オーサリングユーザに促す段階と、
オーサリングユーザの、選択された知識ドメインの選択を受信する段階と、
オーサリングユーザからオーサリングユーザ入力を受信する段階と、
オーサリングユーザ入力を、オーサリングされた自動統合システムによって使用可能な、構造化された形態の複数のテキスト出力へと変換する段階と
を備える、会話システムを生成するコンピュータ実装方法。
2.オーサリングユーザ入力を複数のテキスト出力へと変換する段階であって、第1のテキスト出力が第1の認識システムの第1の出力であり、第2のテキスト出力が第2の認識システムの第2の出力である、段階と、
選択された知識ドメインのドメイン仕様に基づいて、ドメイン固有の計画を作成する段階と、
ランタイム仕様を取得する段階であって、ランタイム仕様が、選択された知識ドメインに対する、ドメイン固有の計画に基づいて構成された計画タスクフローを有する、段階と、
計画タスクフローを実行する段階と、
ユーザ入力から入力値を生成する段階と、
入力値に基づいて会話システムを改善する段階と、
会話システムの説明をコンピュータ可読メモリに格納する段階と
を更に備える、節1の方法。
3.オーサリングユーザからの入力が音声入力またはテキスト入力を有する、節1または2の方法。
4.第1の認識システムおよび第2の認識システムが、自動発話認識システムまたは画像認識システムの1もしくは複数である、節1~3のいずれかの方法。
5.推論モジュールを使用し、会話システムと対話する対話中のユーザからの入力に基づいて、計画タスクフローを動的に訂正する段階を更に備える、節1~4のいずれかの方法。
6.オーサリングユーザから、1または複数の第1の選択肢の第1のセットの中からの、選択された選択肢の第1のオーサリングユーザ選択を取得する段階と、
第1のオーサリングユーザ選択に基づいて、計画タスクフローを調節する段階と、
データマイニングモジュールを使用して、格納されたドメイン知識レポジトリを作成する段階と
を更に備える、節1~5のいずれかの方法。
7.データマイニングモジュールが、構造化テキスト、非構造化テキスト、および/またはグラフィックのうち1もしくは複数を使用し、データマイニングモジュールの計算が会話システムの出力を変更する、節6の方法。
8.クラウドソーシングによる知識ソースランキングシステムを用いて、自動ドメイン知識ソースモジュールを使用してドメイン固有の計画が生成され、方法が更に、
複数の知識ソースそれぞれに対する採点値を導出する段階と、
自動ドメイン知識ソースモジュールを使用して、採点値に基づいて、複数のソースの中から使用する選択されたソースを動的に決定する段階と、
選択されたソースを会話システムの出力値にマッピングする段階と
を備える、節1~7のいずれかの方法。
9.ユーザ入力に基づいて会話プログラムを動的に改善するシステムであって、
1または複数のプロセッサと、
実行されると1または複数のプロセッサに、
a)ユーザ入力に基づいて意図を形成させ、
b)意図に基づいて計画を作成させ、計画が、意図と関連付けられた第1の概念オブジェクトを第2の概念オブジェクトへと変換する第1のアクションオブジェクトを有し、第2の概念オブジェクトを意図の目標と関連付けられた第3の概念オブジェクトへと変換する第2のアクションオブジェクトを有し、第1のアクションオブジェクトおよび第2のアクションオブジェクトが複数のアクションオブジェクトから選択され、第1のアクションオブジェクトが第1の第三者デベロッパによって提供され、第2のアクションオブジェクトが第2の第三者デベロッパによって提供され、
c)計画を実行させ、
d)第3の概念オブジェクトと関連付けられた値を出力させる、
複数の命令を格納する、非一時的コンピュータ可読媒体と
を備える、システム。
10.第1の概念オブジェクトが第3の第三者デベロッパによって提供され、第2の概念オブジェクトが第4の第三者デベロッパによって提供され、第3の概念オブジェクトが第5の第三者デベロッパによって提供される、節9のシステム。
11.第1の概念オブジェクトが、第1の概念オブジェクトのインスタンス化を提供する第1のデータを含み、第2の概念オブジェクトが、第2の概念オブジェクトのインスタンス化を提供する第2のデータを含み、第3の概念オブジェクトが、第3の概念オブジェクトのインスタンス化を提供する第3のデータを含む、節9または10のシステム。
12.第1のアクションオブジェクトの入力パラメータがウェブサービスパラメータにマッピングされ、ウェブサービス結果が第1のアクションオブジェクトの出力値にマッピングされる、節9~11のいずれかのシステム。
1.実行可能命令で構成された1または複数のコンピュータシステムの制御下で、
1または複数の知識ドメインのセットから選択された知識ドメインを選択するように、オーサリングユーザに促す段階と、
オーサリングユーザの、選択された知識ドメインの選択を受信する段階と、
オーサリングユーザからオーサリングユーザ入力を受信する段階と、
オーサリングユーザ入力を、オーサリングされた自動統合システムによって使用可能な、構造化された形態の複数のテキスト出力へと変換する段階と
を備える、会話システムを生成するコンピュータ実装方法。
2.オーサリングユーザ入力を複数のテキスト出力へと変換する段階であって、第1のテキスト出力が第1の認識システムの第1の出力であり、第2のテキスト出力が第2の認識システムの第2の出力である、段階と、
選択された知識ドメインのドメイン仕様に基づいて、ドメイン固有の計画を作成する段階と、
ランタイム仕様を取得する段階であって、ランタイム仕様が、選択された知識ドメインに対する、ドメイン固有の計画に基づいて構成された計画タスクフローを有する、段階と、
計画タスクフローを実行する段階と、
ユーザ入力から入力値を生成する段階と、
入力値に基づいて会話システムを改善する段階と、
会話システムの説明をコンピュータ可読メモリに格納する段階と
を更に備える、節1の方法。
3.オーサリングユーザからの入力が音声入力またはテキスト入力を有する、節1または2の方法。
4.第1の認識システムおよび第2の認識システムが、自動発話認識システムまたは画像認識システムの1もしくは複数である、節1~3のいずれかの方法。
5.推論モジュールを使用し、会話システムと対話する対話中のユーザからの入力に基づいて、計画タスクフローを動的に訂正する段階を更に備える、節1~4のいずれかの方法。
6.オーサリングユーザから、1または複数の第1の選択肢の第1のセットの中からの、選択された選択肢の第1のオーサリングユーザ選択を取得する段階と、
第1のオーサリングユーザ選択に基づいて、計画タスクフローを調節する段階と、
データマイニングモジュールを使用して、格納されたドメイン知識レポジトリを作成する段階と
を更に備える、節1~5のいずれかの方法。
7.データマイニングモジュールが、構造化テキスト、非構造化テキスト、および/またはグラフィックのうち1もしくは複数を使用し、データマイニングモジュールの計算が会話システムの出力を変更する、節6の方法。
8.クラウドソーシングによる知識ソースランキングシステムを用いて、自動ドメイン知識ソースモジュールを使用してドメイン固有の計画が生成され、方法が更に、
複数の知識ソースそれぞれに対する採点値を導出する段階と、
自動ドメイン知識ソースモジュールを使用して、採点値に基づいて、複数のソースの中から使用する選択されたソースを動的に決定する段階と、
選択されたソースを会話システムの出力値にマッピングする段階と
を備える、節1~7のいずれかの方法。
9.ユーザ入力に基づいて会話プログラムを動的に改善するシステムであって、
1または複数のプロセッサと、
実行されると1または複数のプロセッサに、
a)ユーザ入力に基づいて意図を形成させ、
b)意図に基づいて計画を作成させ、計画が、意図と関連付けられた第1の概念オブジェクトを第2の概念オブジェクトへと変換する第1のアクションオブジェクトを有し、第2の概念オブジェクトを意図の目標と関連付けられた第3の概念オブジェクトへと変換する第2のアクションオブジェクトを有し、第1のアクションオブジェクトおよび第2のアクションオブジェクトが複数のアクションオブジェクトから選択され、第1のアクションオブジェクトが第1の第三者デベロッパによって提供され、第2のアクションオブジェクトが第2の第三者デベロッパによって提供され、
c)計画を実行させ、
d)第3の概念オブジェクトと関連付けられた値を出力させる、
複数の命令を格納する、非一時的コンピュータ可読媒体と
を備える、システム。
10.第1の概念オブジェクトが第3の第三者デベロッパによって提供され、第2の概念オブジェクトが第4の第三者デベロッパによって提供され、第3の概念オブジェクトが第5の第三者デベロッパによって提供される、節9のシステム。
11.第1の概念オブジェクトが、第1の概念オブジェクトのインスタンス化を提供する第1のデータを含み、第2の概念オブジェクトが、第2の概念オブジェクトのインスタンス化を提供する第2のデータを含み、第3の概念オブジェクトが、第3の概念オブジェクトのインスタンス化を提供する第3のデータを含む、節9または10のシステム。
12.第1のアクションオブジェクトの入力パラメータがウェブサービスパラメータにマッピングされ、ウェブサービス結果が第1のアクションオブジェクトの出力値にマッピングされる、節9~11のいずれかのシステム。
「A、B、およびCの少なくとも1つ」、または「A、BおよびCの少なくとも1つ」の形態の語句など、接続的な文言は、別段の具体的な提示、または文脈による別段の明確な矛盾がない限り、その他の点では、項目、用語などが、AもしくはBもしくはCのいずれか、またはAおよびBおよびCのセットの任意の空でないサブセットのいずれであってもよいことを提示するのに一般に使用されるような文脈で理解される。例えば、3つの部材を有するセットの具体例では、接続的な語句「A、B、およびCの少なくとも1つ」ならびに「A、BおよびCの少なくとも1つ」は、以下のセット{A}、{B}、{C}、{A,B}、{A,C}、{B,C}、{A,B,C}のいずれかを指す。したがって、かかる接続的な文言は、一般に、特定の実施形態が、Aの少なくとも1つ、Bの少なくとも1つ、およびCの少なくとも1つがそれぞれ存在するのを要することを示唆しないものとする。
あらゆる例の使用、または本明細書で提供される例示的な文言(例えば、「など」)は単に、本発明の実施形態をより良好に明らかにしようとするものであり、別段の特許請求がされない限り、本発明の範囲に対する限定を課すものではない。本明細書における文言は、いずれかの特許請求されない要素を本発明の実践に必須であるとして示すものとして解釈すべきではない。
上述の明細書では、実装ごとに変動してもよい多数の特定の詳細を参照して、本発明の実施形態について記載してきた。したがって、明細書および図面は、限定的ではなく例示的意味で解釈されるべきである。本発明の範囲の唯一かつ排他的な指標、および本発明の範囲であることが本出願人らによって意図されるものは、本出願に由来する特許請求の範囲のセットの、あらゆる後の補正を含むかかる請求項が由来する特定の形態の、逐語的な等価の範囲である。
更なる実施形態を、本開示を読んだ後に当業者が想起することができる。他の実施形態では、上述の発明の組み合わせまたは下位組み合わせを有利に行うことができる。構成要素の例示の配置は例示の目的で示されており、組み合わせ、追加、再配置などが本発明の代替実施形態で想到されることが理解されるべきである。したがって、例示的実施形態に関して本発明について記載してきたが、当業者であれば、多数の修正が可能であることを認識するであろう。
例えば、本明細書に記載するプロセスは、ハードウェア構成要素、ソフトウェア構成要素、および/またはそれらの任意の組み合わせを使用して実装されてもよい。したがって、明細書および図面は、限定的ではなく例示的意味で解釈されるべきである。しかしながら、それらに対して、特許請求の範囲で説明するような本発明のより広範な趣旨および範囲から逸脱することなく、様々な修正および変更が行われてもよいこと、また本発明は、以下の特許請求の範囲の範囲内の全ての修正および等価物を網羅しようとするものであることが、明白となるであろう。
本明細書に列挙する、出版物、特許出願、および特許を含む全ての参照文献は、各参照文献が参照により組み込まれるものと個別かつ具体的に示され、その全体が本明細書で説明された場合と同じ範囲で、参照によりここに組み込まれる。
Claims (12)
- コンピュータ実装方法であって、
実行可能命令で構成された1または複数のコンピュータシステムの制御下で、
1または複数の知識ドメインのセットから選択された知識ドメインを選択するように、オーサリングユーザに促す段階と、
前記オーサリングユーザの、前記選択された知識ドメインの選択を受信する段階と、
前記オーサリングユーザからオーサリングユーザ入力を受信する段階と、
前記オーサリングユーザ入力を、オーサリングされた自動統合システムによって使用可能な、構造化された形態の複数のテキスト出力へと変換する段階と
を備える、会話システムを生成する方法。 - 前記オーサリングユーザ入力を複数のテキスト出力へと変換する段階であって、第1のテキスト出力が第1の認識システムの第1の出力であり、第2のテキスト出力が第2の認識システムの第2の出力である、段階と、
前記選択された知識ドメインのドメイン仕様に基づいて、ドメイン固有の計画を作成する段階と、
ランタイム仕様を取得する段階であって、前記ランタイム仕様が、前記選択された知識ドメインに対する、前記ドメイン固有の計画に基づいて構成された計画タスクフローを有する、段階と、
前記計画タスクフローを実行する段階と、
前記オーサリングユーザ入力から入力値を生成する段階と、
前記入力値に基づいて前記会話システムを改善する段階と、
前記会話システムの説明をコンピュータ可読メモリに格納する段階と
を更に備える、請求項1に記載の方法。 - 前記オーサリングユーザからの前記オーサリングユーザ入力が音声入力またはテキスト入力を有する、請求項1または2に記載の方法。
- 第1の認識システムおよび第2の認識システムが、自動発話認識システムまたは画像認識システムの1もしくは複数である、請求項1から3のいずれか一項に記載の方法。
- 推論モジュールを使用し、前記会話システムと対話する対話中のユーザからの入力に基づいて、計画タスクフローを動的に訂正する段階を更に備える、請求項1から4のいずれか一項に記載の方法。
- 前記オーサリングユーザから、1または複数の第1の選択肢の第1のセットの中からの、選択された選択肢の第1のオーサリングユーザ選択を取得する段階と、
前記第1のオーサリングユーザ選択に基づいて、計画タスクフローを調節する段階と、
データマイニングモジュールを使用して、格納されたドメイン知識レポジトリを作成する段階と
を更に備える、請求項1から5のいずれか一項に記載の方法。 - 前記データマイニングモジュールが、構造化テキスト、非構造化テキスト、および/またはグラフィックのうち1もしくは複数を使用し、前記データマイニングモジュールの計算が前記会話システムの出力を変更する、請求項6に記載の方法。
- クラウドソーシングによる知識ソースランキングシステムを用いて、自動ドメイン知識ソースモジュールを使用してドメイン固有の計画が生成され、前記方法が更に、
複数の知識ソースそれぞれに対する採点値を導出する段階と、
前記自動ドメイン知識ソースモジュールを使用して、前記採点値に基づいて、複数のソースの中から使用する選択されたソースを動的に決定する段階と、
前記選択されたソースを前記会話システムの出力値にマッピングする段階と
を備える、請求項1から7のいずれか一項に記載の方法。 - ユーザ入力に基づいて会話プログラムを動的に改善するシステムであって、
1または複数のプロセッサと、
実行されると前記1または複数のプロセッサに、
a)ユーザ入力に基づいて意図を形成させ、
b)前記意図に基づいて計画を作成させ、前記計画が、前記意図と関連付けられた第1の概念オブジェクトを第2の概念オブジェクトへと変換する第1のアクションオブジェクトを有し、前記第2の概念オブジェクトを前記意図の目標と関連付けられた第3の概念オブジェクトへと変換する第2のアクションオブジェクトを有し、前記第1のアクションオブジェクトおよび前記第2のアクションオブジェクトが複数のアクションオブジェクトから選択され、前記第1のアクションオブジェクトが第1の第三者デベロッパによって提供され、前記第2のアクションオブジェクトが第2の第三者デベロッパによって提供され、
c)前記計画を実行させ、
d)前記第3の概念オブジェクトと関連付けられた値を出力させる、
複数の命令を格納する、非一時的コンピュータ可読媒体と
を備える、システム。 - 前記第1の概念オブジェクトが第3の第三者デベロッパによって提供され、前記第2の概念オブジェクトが第4の第三者デベロッパによって提供され、前記第3の概念オブジェクトが第5の第三者デベロッパによって提供される、請求項9に記載のシステム。
- 前記第1の概念オブジェクトが、前記第1の概念オブジェクトのインスタンス化を提供する第1のデータを含み、前記第2の概念オブジェクトが、前記第2の概念オブジェクトのインスタンス化を提供する第2のデータを含み、前記第3の概念オブジェクトが、前記第3の概念オブジェクトのインスタンス化を提供する第3のデータを含む、請求項9または10に記載のシステム。
- 前記第1のアクションオブジェクトの入力パラメータがウェブサービスパラメータにマッピングされ、ウェブサービス結果が前記第1のアクションオブジェクトの出力値にマッピングされる、請求項9から11のいずれか一項に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962842423P | 2019-05-02 | 2019-05-02 | |
PCT/US2020/040375 WO2020223742A2 (en) | 2019-05-02 | 2020-06-30 | Generation and operation of artificial intelligence based conversation systems |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022531994A true JP2022531994A (ja) | 2022-07-12 |
Family
ID=73029426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022512710A Pending JP2022531994A (ja) | 2019-05-02 | 2020-06-30 | 人工知能ベースの会話システムの生成および動作 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210407504A1 (ja) |
JP (1) | JP2022531994A (ja) |
WO (1) | WO2020223742A2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11336605B1 (en) * | 2021-01-04 | 2022-05-17 | Servicenow, Inc. | Sending actionable notifications to users |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8630961B2 (en) * | 2009-01-08 | 2014-01-14 | Mycybertwin Group Pty Ltd | Chatbots |
US9092802B1 (en) * | 2011-08-15 | 2015-07-28 | Ramakrishna Akella | Statistical machine learning and business process models systems and methods |
US11599729B2 (en) * | 2017-06-15 | 2023-03-07 | Microsoft Technology Licensing, Llc | Method and apparatus for intelligent automated chatting |
US11082369B1 (en) * | 2018-08-24 | 2021-08-03 | Figure Eight Technologies, Inc. | Domain-specific chatbot utterance collection |
CN112154465A (zh) * | 2018-09-19 | 2020-12-29 | 华为技术有限公司 | 一种意图识别模型的学习方法、装置及设备 |
US11657797B2 (en) * | 2019-04-26 | 2023-05-23 | Oracle International Corporation | Routing for chatbots |
CN110503954B (zh) * | 2019-08-29 | 2021-12-21 | 百度在线网络技术(北京)有限公司 | 语音技能启动方法、装置、设备及存储介质 |
-
2020
- 2020-06-30 WO PCT/US2020/040375 patent/WO2020223742A2/en active Application Filing
- 2020-06-30 JP JP2022512710A patent/JP2022531994A/ja active Pending
- 2020-11-17 US US17/099,952 patent/US20210407504A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20210407504A1 (en) | 2021-12-30 |
WO2020223742A2 (en) | 2020-11-05 |
WO2020223742A3 (en) | 2020-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11397888B2 (en) | Virtual agent with a dialogue management system and method of training a dialogue management system | |
US11308284B2 (en) | Smart cameras enabled by assistant systems | |
US11755296B2 (en) | Computer device and method for facilitating an interactive conversational session with a digital conversational character | |
US11430439B2 (en) | System and method for providing assistance in a live conversation | |
US9053096B2 (en) | Language translation based on speaker-related information | |
US20190143527A1 (en) | Multiple interactive personalities robot | |
US20200082928A1 (en) | Assisting psychological cure in automated chatting | |
Smith et al. | Interaction strategies for an affective conversational agent | |
US20230118412A1 (en) | Stylizing Text-to-Speech (TTS) Voice Response for Assistant Systems | |
US20130144619A1 (en) | Enhanced voice conferencing | |
CN107391521A (zh) | 基于消息分类自动扩增消息交换话题 | |
CN111201566A (zh) | 用于处理数据和输出用户反馈的口语通信设备和计算体系架构以及相关方法 | |
WO2022125938A1 (en) | Voice-based auto-completions and auto-responses for assistant systems | |
CN111201567A (zh) | 用于与数字媒体内容交互的口语、面部和姿势通信设备和计算体系架构 | |
US11860925B2 (en) | Human centered computing based digital persona generation | |
Wilks et al. | A prototype for a conversational companion for reminiscing about images | |
WO2022229834A1 (en) | Artificial intelligence (ai) based automated conversation assistance system and method thereof | |
CN116049360A (zh) | 基于客户画像的智能语音对话场景话术干预方法及系统 | |
CN115062627A (zh) | 用于基于人工智能的计算机辅助说服系统的方法和装置 | |
WO2020070923A1 (ja) | 対話装置、その方法、およびプログラム | |
US20210407504A1 (en) | Generation and operation of artificial intelligence based conversation systems | |
Schmitt et al. | The role of AI-based artifacts’ voice capabilities for agency attribution | |
CN111415662A (zh) | 用于生成视频的方法、装置、设备和介质 | |
Dahl | Practical spoken dialog systems | |
Karpouzis et al. | Induction, recording and recognition of natural emotions from facial expressions and speech prosody |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20220304 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20220304 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230616 |