JP2023008913A - コンピュータ実装方法、システムおよびコンピュータプログラム(対話システムのための解誘導応答生成) - Google Patents
コンピュータ実装方法、システムおよびコンピュータプログラム(対話システムのための解誘導応答生成) Download PDFInfo
- Publication number
- JP2023008913A JP2023008913A JP2022104203A JP2022104203A JP2023008913A JP 2023008913 A JP2023008913 A JP 2023008913A JP 2022104203 A JP2022104203 A JP 2022104203A JP 2022104203 A JP2022104203 A JP 2022104203A JP 2023008913 A JP2023008913 A JP 2023008913A
- Authority
- JP
- Japan
- Prior art keywords
- solution
- audio data
- topic
- user
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004044 response Effects 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims description 45
- 238000004590 computer program Methods 0.000 title claims description 10
- 230000015654 memory Effects 0.000 claims description 23
- 238000013145 classification model Methods 0.000 claims description 11
- 238000010801 machine learning Methods 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 10
- 238000013473 artificial intelligence Methods 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 6
- 239000003795 chemical substances by application Substances 0.000 description 27
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 2
- 101000779415 Homo sapiens Alanine aminotransferase 2 Proteins 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 239000012925 reference material Substances 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】コストがかからず、大きな労働力が不要で、モデル化がより容易なデータ駆動型対話システムの解が必要である。【解決手段】プロセッサは、誘導対話システムでの会話における第1のユーザ発話に関連付けられた第1の音声データを受信し得る。プロセッサは、第1の音声データから、第1のユーザ発話に関連付けられた一連のトピックの第1のトピックを識別し得る。プロセッサは、第1のトピックに関連付けられた第1の解を識別し得、第1の解は、トピックに関連するタスクを実行するための1つまたは複数の解セグメントを有する。プロセッサは、第1の解の第1の解セグメントおよび第1の音声データに基づいて、第2のユーザのための第1の応答を生成し得る。【選択図】図2
Description
本開示は、一般に、対話システムの分野に関し、より詳細には、対話システムのための応答の解誘導生成に関する。
対話システムは、言語を理解し、ユーザと書面または口頭で会話を行うことができるインテリジェントなマシンである。会話システムを作成する2つの一般的な方法は、内容領域専門家(「SME」)が、ドメイン知識およびデータ駆動型モデリングを使用してダイアログフローを手動で作成するというものである。データ駆動型モデリングには、問題解決がチャットログおよび外部知識の両方から暗黙的に学習されるチャットログからの学習が含まれ、これにより、応答を生成するためのより多くの基礎が提供される。
SMEベースのモデリングは、多大な時間を必要とし、費用がかかり、人力を要する。さらに、モデルはビジネスロジックだけでなく言語も学習する必要があるため、チャットログからの学習は困難である。いずれの場合も、必要な外部情報を識別し、それを表現することは困難である。したがって、コストがかからず、大きな労働力が不要で、モデル化がより容易なデータ駆動型対話システムの解が必要である。
本開示の実施形態は、対話システムのための応答の解誘導生成のための方法、コンピュータプログラム製品、およびシステムを含む。
いくつかの実施形態では、プロセッサは、誘導対話システムでの会話における第1のユーザ発話に関連付けられた第1の音声データを受信し得る。プロセッサは、第1の音声データから、第1のユーザ発話に関連付けられた一連のトピックの第1のトピックを識別し得る。プロセッサは、第1のトピックに関連付けられた第1の解を識別し得、第1の解は、トピックに関連するタスクを実行するための1つまたは複数の解セグメントを有する。プロセッサは、第1の解の第1の解セグメントおよび第1の音声データに基づいて、第2のユーザのための第1の応答を生成し得る。
いくつかの実施形態では、プロセッサは、誘導対話システムでの会話における第1のユーザ発話に関連付けられた第1の音声データを受信し得る。プロセッサは、第1の音声データから、第1のユーザ発話に関連付けられた一連のトピックの第1のトピックを識別し得る。プロセッサは、第1のトピックに関連付けられた第1の解を識別し得、第1の解は、トピックに関連するタスクを実行するための1つまたは複数の解セグメントを有する。プロセッサは、第1のトピックに関連付けられたエンティティからのドキュメントコーパスを使用して第1の解を生成し得る。プロセッサは、第1の解の第1の解セグメントおよび第1の音声データに基づいて、第2のユーザのための第1の応答を生成し得る。
いくつかの実施形態では、プロセッサは、誘導対話システムでの会話における第1のユーザ発話に関連付けられた第1の音声データを受信し得る。プロセッサは、第1の音声データから、第1のユーザ発話に関連付けられた一連のトピックの第1のトピックを識別し得る。プロセッサは、第1のトピックに関連付けられた第1の解を識別し得、第1の解は、トピックに関連するタスクを実行するための1つまたは複数の解セグメントを有する。プロセッサは、サンプル会話から解を生成するテキスト生成人工知能モデルを使用して、第1の解を生成し得る。プロセッサは、第1の解の第1の解セグメントおよび第1の音声データに基づいて、第2のユーザのための第1の応答を生成し得る。
いくつかの実施形態では、第1の応答は、シーケンスツーシーケンス機械学習モデルを使用して生成され得る。
いくつかの実施形態では、第1のトピックは、テキスト分類モデルを使用して識別され得る。
いくつかの実施形態では、プロセッサは、誘導対話システムでの会話における第2のユーザ発話に関連付けられた第2の音声データを受信し得る。プロセッサは、第2のユーザ発話が一連のトピックの別のトピックに関連付けられていないことを確認し得る。プロセッサは、第1の音声データ、第2のユーザの第1の応答、第2の音声データ、および第1の解の第2の解セグメントに基づいて、第2のユーザのための第2の応答を生成し得る。
いくつかの実施形態では、プロセッサは、誘導対話システムでの会話における第3のユーザ発話に関連付けられた第3の音声データを受信し得る。プロセッサは、第3のユーザ発話に関連付けられた第2のトピックを識別し得る。プロセッサは、第2のトピックに関連付けられた第2の解を識別し得る。プロセッサは、第1の音声データ、第2のユーザの第1の応答、第2の音声データ、第2のユーザの第2の応答、第3の音声データ、および第2の解の解セグメントに基づいて、第2のユーザのための第3の応答を生成し得る。
上記の概要は、本開示の各例示された実施形態またはすべての実装を説明することを意図するものではない。
本開示に含まれる図面は、本明細書に組み込まれ、本明細書の一部を形成する。それらは、本開示の実施形態を例示し、説明とともに、本開示の原理を説明するのに役立つ。図面は、特定の実施形態を例示するだけであり、本開示を限定するものではない。
本明細書に記載の実施形態は、様々な修正形態および代替形態を受け入れることができるが、その具体例が例として図面に示されており、詳細に説明される。しかし、記載された特定の実施形態は、限定的な意味で解釈されるべきではないことを理解されたい。それどころか、その意図は、本開示の趣旨および範囲内にあるすべての改変物、等価物、および代替物を網羅することである。
本開示の態様は、一般に、対話システムの分野に関し、より詳細には、対話システムのための応答の解誘導生成に関する。本開示は必ずしもそのような用途に限定されないが、本開示の様々な態様は、この文脈を使用する様々な例の議論を通じて理解され得る。
いくつかの実施形態では、プロセッサは、誘導対話システムでの会話における第1のユーザ発話に関連付けられた第1の音声データを受信し得る。いくつかの実施形態では、プロセッサは、第1の音声データから、第1のユーザ発話に関連付けられた一連のトピックの第1のトピックを識別し得る。いくつかの実施形態では、第1のトピックは、テキスト分類モデルを使用して識別され得る。
いくつかの実施形態では、ユーザ発話は、誘導対話システムでの会話を通じて対処、分解、解決、または実行するための要求、課題、懸念事項、または問題に関連し得る。いくつかの実施形態では、会話は、発話者(例えば、第1のユーザ)とエージェント(例えば、第2のユーザ)との間のコミュニケーションであり得、発話者およびエージェントは、交互に話したり、相手に返答したりする。いくつかの実施形態では、第1の音声データは、会話内で話しをする第1のユーザの順番の間の第1のユーザによって話された会話の少なくとも一部のテキストトランスクリプトを含み得る。いくつかの実施形態では、誘導対話システムは、ユーザが多種多様なタスクを実行するのを助けるために仮想アシスタントによって利用され得、それらのタスクを実行するためのエージェントとユーザとの間の会話を含み得る。
いくつかの実施形態では、テキスト分類モデルは、第1のユーザによって話されたテキストを解析し、テキストの文脈に基づいて、一連の事前定義されたタグまたはカテゴリ(例えば、第1のトピック)をテキストに割り当て得る。いくつかの実施形態では、テキスト分類モデルは、感情分析、トピック検出、意図検出、エンティティ識別、および言語検出のために自然言語処理を利用し得る。いくつかの実施形態では、識別されるトピックは、限定されないが、兆候、トピック、アクション、意図、要求、課題、懸念事項、もしくは問題の1つまたは組み合わせ、または、対話システムが動作するサービスまたはシステムに関連してユーザが支援を希望するタスク、要求、課題、懸念事項、または問題に関連付けられた任意の他の識別子を含み得る。
例えば、誘導対話システムは、公共料金の支払いのために期日データを延長するように口頭で要求する発話者によって開始され得る。発話者は、「電気料金の支払いの延長を希望します。」と話すことによって、システムに最初の要求を行い得る。ユーザ発話全体が文字化され、音声データからユーザ発話のトピックを識別する自然言語処理機能を備えた人工知能モデルに提供され得る。ユーザ発話のトピックは、ユーザが問い合わせているトピック、ユーザが支援を希望している問題、発話者が対処を希望している課題または懸念事項、ユーザが実行を希望しているアクションなどに関連し得る。「電気料金の支払いの延長を希望します。」というユーザ発話から、「支払い延長」のトピックが識別され得る。
いくつかの実施形態では、プロセッサは、第1のトピックに関連付けられた第1の解を識別し得る。いくつかの実施形態では、第1の解は、トピックに関連するタスクを実行するための1つまたは複数の解セグメントを有し得る。いくつかの実施形態では、プロセッサは、第1のトピックの識別に基づいて第1の解を識別し得る。いくつかの実施形態では、1つまたは複数の解セグメントは、トピックに関連するタスクを実行し得る一連のステップ、アクション、またはコミュニケーションであり得る。例えば、トピック「支払い延長」の場合、プロセッサは、エージェントが発話者の支払い延長を取得するタスクを実行し得る一連のステップを含む解を識別し得る。発話者の支払い延長を取得するために、解セグメントには、発話者の電話番号を確認する段階と、発話者にPIN番号を送信し、発話者にPIN番号をエージェントに提供するように要求する段階と、発話者に支払いの決済を希望する日付を尋ねる段階(例えば、いつまで延長するかを入手する)と、新しい支払い協定に準拠することが重要であり、準拠しない場合は延滞料が発生し得ることを発話者に注意する段階と、支払い延長をデータベースに記録する段階と、支払い延長が実施されたことを発話者に通知する段階と、発話者に参照番号を提供する段階とが含まれ得る。
いくつかの実施形態では、1つまたは複数の解セグメントには、ユーザから様々なタイプの情報を取得することと、アクションを実行した場合の様々な結果を発話者に通知することと、発話者からの関連する背景情報を確認することと(例えば、ユーザのIDまたはアカウント情報を確認すること)、実行する必要のあるタスクに関連する情報を取得することと(例えば、ユーザが期日の延長をいつまで希望しているか)を含む、実行する必要のあるサブタスクが含まれ得る。いくつかの実施形態では、サブタスクまたは解セグメントには、コミュニケーション交換、問い合わせ、提供される指示、尋ねられる質問、提供される回答、取得される情報、受信されるユーザ応答などが含まれ得る。いくつかの実施形態では、解および解セグメントは、誘導対話システムを介したユーザとのコミュニケーション交換を通じてタスクを実行する方法についてのロードマップまたは指示であり得る。
いくつかの実施形態では、解は、選択された解を音声データから識別されたトピックに関連付ける人工知能(「AI」)モデルによって選択され得る。いくつかの実施形態では、AIモデルは、自然言語処理を利用するテキスト分類モデルであり得る。いくつかの実施形態では、解選択モデルは、解およびトピックを2人のユーザ(例えば、発話者およびエージェント)間の会話からのテキストに関連付けるデータセットを使用してトレーニングされ得る。
いくつかの実施形態では、プロセッサは、第1の解の第1の解セグメントおよび第1の音声データに基づいて、第2のユーザのための第1の応答を生成し得る。例えば、第1の音声データ「電気料金の支払いの延長を希望します。」および、第1の解の第1の解セグメント「発話者の電話番号を確認する」に基づいて、エージェント(例えば、第2のユーザ)のための第1の応答は、「延長をお受けすることは可能ですが、最初にお客様のIDを確認する必要があります。お客様のアカウントに関連付けられている電話番号を教えていただけますか?」とし得る。いくつかの実施形態では、エージェント(例えば、第2のユーザ)は、応答をユーザ/発話者に中継する自動化されたエージェントである。
いくつかの実施形態では、第1の応答は、シーケンスツーシーケンス機械学習モデルを使用して生成され得る。いくつかの実施形態では、シーケンスツーシーケンスモデルは、テキストを生成する深層学習モデルであり得る。いくつかの実施形態では、シーケンスツーシーケンスモデルは、リカレントニューラルネットワーク(RNN)、長短期記憶(LSTM)、またはゲート付き回帰型ユニット(GRU)アーキテクチャを使用することによってテキストを生成する深層学習モデルであり得る。いくつかの実施形態では、各項目の文脈は、前のステップからの出力である。いくつかの実施形態では、シーケンスツーシーケンスモデルの主要な構成要素は、エンコーダおよびデコーダネットワークである。いくつかの実施形態では、エンコーダは、各項目を、項目およびその文脈を含む対応する隠れベクトルに変換する。いくつかの実施形態では、デコーダは、前の出力を入力文脈として使用して、ベクトルを出力項目に変えて、プロセスを逆にする。いくつかの実施形態では、シーケンスツーシーケンスモデルは、BART、生成型事前トレーニング済みトランスフォーマ2(「GPT2」)、生成型事前トレーニング済みトランスフォーマ3(「GPT3」)などを含み得る。いくつかの実施形態では、シーケンスツーシーケンスモデルは、会話文脈(例えば、エージェントによるユーザ発話および応答)および識別された解(または解セグメント)の両方を入力として取得するようにトレーニングし得、第2のユーザに出力された生成済み応答をもたらし得る。
いくつかの実施形態では、プロセッサは、誘導対話システムでの会話における第2のユーザ発話に関連付けられた第2の音声データを受信し得る。いくつかの実施形態では、プロセッサは、第2のユーザ発話が一連のトピックの別のトピックに関連付けられていないことを確認し得る。いくつかの実施形態では、プロセッサは、第1の音声データ、第2のユーザの第1の応答、第2の音声データ、および第1の解の第2の解セグメントに基づいて、第2のユーザのための第2の応答を生成し得る。
前の例を続けると、第2の音声データは「私の電話番号は123 345 6443です。」であり得る。プロセッサは、情報が第2のトピックに関連していないことを判定するために、ユーザによって提供されたテキストを解析し得る。次いで、プロセッサは、これまでの会話および第1の解の第2の解セグメントに基づいて第2の応答を生成し得る。プロセッサは、機械学習モデルに、以下のエージェントの第1および第2の音声データおよび第1の応答を入力し得る。
第1のユーザ:「電気料金の支払いの延長を希望します。」
エージェント:「延長をお受けすることは可能ですが、最初にお客様のIDを確認する必要があります。お客様のアカウントに関連付けられている電話番号を教えていただけますか?」
第1のユーザ:「私の電話番号は123 345 6443です。」
プロセッサはまた、機械学習モデルに第1の解の第2の解セグメント「発話者にPIN番号を送信し、発話者にPIN番号をエージェントに提供するように要求する」を入力し、第2の応答「弊社のシステムは、テキストメッセージでPIN番号をお客様の携帯電話に送信します。送られてきた4桁の番号をご連絡ください。」を生成し得る。
いくつかの実施形態では、プロセッサは、誘導対話システムでの会話における第3のユーザ発話に関連付けられた第3の音声データを受信し得る。いくつかの実施形態では、プロセッサは、第3のユーザ発話に関連付けられた第2のトピックを識別し得る。いくつかの実施形態では、プロセッサは、第2のトピックに関連付けられた第2の解を識別し得る。いくつかの実施形態では、プロセッサは、第1の音声データ、第2のユーザの第1の応答、第2の音声データ、第2のユーザの第2の応答、第3の音声データ、および第2の解の解セグメントに基づいて、第2のユーザのための第3の応答を生成し得る。
前の例を続けると、第3のユーザ発話は、「ご連絡いただいたPIN番号は3476です。弊社で、このアカウントに関連付けられているアドレスを更新させていただきます。」とし得る。プロセッサは、第3のユーザ発話において第2のトピック「アカウント情報の更新」を識別し得る。プロセッサは、アカウント情報を更新するための一連のステップを提供する第2の解を識別し得る。次いで、プロセッサは、会話履歴全体(例えば、第1、第2、第3のユーザ発話、および第2のユーザ/エージェントの第1および第2の応答)およびアカウント情報の更新のための解の解セグメントに基づいて、エージェントのための第3の応答を生成し得る。アカウント情報解を更新するための解セグメントは、「更新するアカウント情報のタイプを確認する」とし得る。エージェントに対して生成される第3の応答は、「お客様のアカウントプロファイルのアドレスを更新させていただきます。このアカウントでよろしいでしょうか?」とし得る。第3の応答は、会話履歴およびアカウント情報の更新に関連付けられた解の解セグメントに基づいて生成され得る。
いくつかの実施形態では、第1、第2、および第3の応答のそれぞれは、機械学習モデルによって検出されたパターンに基づいて予測的に生成され得る。
いくつかの実施形態では、解(例えば、第1の解または第2の解)は、内容領域専門家によって識別および準備され得る。いくつかの実施形態では、解に含まれる1つまたは複数のステップ(例えば、解セグメント)は、内容領域専門家によって手動で作成、生成、導出、または準備され得る。いくつかの実施形態では、内容領域専門家は、タスクを実行するために実行され得るプロセス、ステップ、またはアクションに関する内容領域専門家の知識に基づくトピックに関連するタスクを実行するために必要な一連の解セグメントを識別でき得る。
いくつかの実施形態では、内容領域専門家は、ユーザとエージェントとの間のサンプル交換を確認し、ユーザとエージェントとの間のコミュニケーションに基づいて、トピックに関連するタスクを実行するために必要なステップまたはプロセスを識別し得る。いくつかの実施形態では、内容領域専門家は、タスク(例えば、内容領域専門家が実行する必要のあるステップを決定、識別、または分類するのに役立つ情報)を実行する方法に関する情報を提供する他の関連する参考資料(例えば、マニュアル、ウェブサイトへのアクセス方法、手順報告)を確認し得る。使用される内容領域専門家の実施形態に関係なく、内容領域専門家によって提供される情報は、注釈でタグ付けされ、会話中に記憶する、およびその後の使用のために、開示されるシステムに提示される。さらに、内容領域専門家によって提供された情報は、自然言語処理システムによって解析され、トピック/サブトピックごとに記憶/タグ付けされ得る。
いくつかの実施形態では、解(例えば、第1の解または第2の解)は、サンプル会話から解を生成するテキスト生成人工知能モデルを使用して生成され得る。いくつかの実施形態では、テキスト生成人工知能モデルは、利用可能な会話文脈に基づいたトークンによって必要な解トークンを生成し得る。いくつかの実施形態では、テキスト生成人工知能モデルは、BART、GPT2、およびGPT3を含み得る。
いくつかの実施形態では、テキスト生成モデルは、内容領域専門家によって注釈が付けられた、発話者とエージェントとの間の会話のトランスクリプトを使用してトレーニングされ得る。いくつかの実施形態では、サンプルトランスクリプトは、解構成要素に関連する会話の部分を識別するために注釈を付けられ得る。いくつかの実施形態では、テキスト生成人工知能モデルは、会話の部分(例えば、発話者またはエージェントによって話される言語)を解構成要素と関連付けるようにトレーニングされ得る。
いくつかの実施形態では、テキスト生成モデルがトレーニングされると、テキスト生成モデルを利用して、テキスト生成モデルを会話のコーパスに適用することによって解を生成し得る。いくつかの実施形態では、入力として提供されるサンプル会話に基づいて、テキスト生成モデルは、会話コーパス内のサンプル会話から追加の解(例えば、一連の解セグメントで作られる解)を出力でき得る。
いくつかの実施形態では、解(例えば、第1の解または第2の解)は、トピック(例えば、それぞれ第1のトピックまたは第2のトピック)に関連するエンティティからのドキュメントコーパスを使用して生成され得る。いくつかの実施形態では、トピックに関連するエンティティは、トピック、トピックに関連付けられた解、もしくはトピックに関連するタスクを実行するための1つまたは複数の解セグメント、またはその組み合わせに関連する情報へのアクセスを有するか、または提供し得る個人、個人のグループ、組織、データベース、ライブラリなどであり得る。
いくつかの実施形態では、解は、ルールベースの方法を使用してドキュメントコーパスを使用して生成され得る。いくつかの実施形態では、ルールベースの方法は、トピック、解、または解セグメントに関連するドキュメントコーパス内のドキュメントの部分を識別し得る。いくつかの実施形態では、ルールは、トピック、解、または解セグメント、およびそれらが関連付けられている(例えば、ユーザ発話からの)会話テキストを識別する方法を説明し得る。
例えば、解は、指定された一連のウェブページ(例えば、組織から購入した製品で頻繁に発生する問題を解決するためのステップバイステップの手順を提供する組織のウェブページ)のドキュメントオブジェクトモデル(「DOM」)要素に関連するルールを使用して生成され得る。いくつかの実施形態では、(例えば、ウェブページのDOM要素に関連する)ルールを使用して生成される解は、内容領域専門家(例えば、ウェブページの作成者)によって確認され得る。いくつかの実施形態では、解に関する内容領域専門家からのフィードバックを使用して、解を生成するルールに基づいてルールを更新し得る。
いくつかの実施形態では、内容領域専門家は、ドキュメントコーパスから特定のドキュメント(例えば、会社の製品用のユーザマニュアル)を確認し、一節から解を生成または下書きし得る。例えば、内容領域専門家は、一節のどの部分が解のどのサブ構成要素に結び付いているかを識別する注釈を提供し得る。いくつかの実施形態では、注釈を使用してテキスト生成モデルをトレーニングし、同様のドキュメントから他の解を生成し得る。いくつかの実施形態では、テキスト生成モデルは、ユーザマニュアルの一節を解セグメントに関連付ける方法を学習し得る。いくつかの実施形態では、次いで、テキスト生成モデルは、入力として受信したユーザマニュアルから新しい解を生成し得る。
ここで図1を参照すると、応答の解誘導生成のためのシステム100のブロック図が示されている。システム100は、ユーザデバイス102およびシステムデバイス104を含む。システムデバイス104は、会話文脈データベース106、解セレクタ108、解110、応答ジェネレータ112、および応答プロバイダ114を含む。ユーザデバイス102およびシステムデバイス104は、互いに通信するように構成される。ユーザデバイス102およびシステムデバイス104は、本開示に記載の機能またはステップの1つまたは複数を実行するように構成されるプロセッサを含む任意のデバイスであり得る。
いくつかの実施形態では、システムデバイス104は、会話における第1のユーザ発話に関連付けられた第1の音声データをユーザデバイス102から受信する。第1の音声データは、会話文脈データベース106に格納される。システムデバイス104の解セレクタ108は、第1の音声データから、第1のユーザ発話に関連付けられた一連のトピックのうちの第1のトピックを識別し、第1のトピックに関連付けられた第1の解110を識別する。第1の解110は、トピックに関連するタスクを実行するための1つまたは複数の解セグメントを有する。システムデバイス104の応答ジェネレータ112は、第1の解の第1の解セグメントおよび第1の音声データに基づいて、第2のユーザ(例えば、誘導対話システムのエージェント)のための第1の応答を生成する。いくつかの実施形態では、応答ジェネレータは、シーケンスツーシーケンス機械学習モデルを使用して応答を生成する。第1の応答は、応答プロバイダ114を介して第1のユーザ(例えば、ユーザデバイス102)に伝達される。
いくつかの実施形態では、第1の応答は、会話文脈データベース106に格納され、エージェントのための第2の応答を生成するために使用される。いくつかの実施形態では、システムデバイス104は、会話における第2のユーザ発話に関連付けられた第2の音声データを受信する。いくつかの実施形態では、解セレクタ108は、第2のユーザ発話が一連のトピックのうちの別のトピックに関連付けられていないことを確認する。いくつかの実施形態では、解セレクタは、テキスト分類モデル116を使用して、第2のユーザ発話が一連のトピックのうちの別のトピックに関連付けられていないことを確認し得る。いくつかの実施形態では、応答ジェネレータ112は、第1の音声データ、エージェントの第1の応答、第2の音声データ、および第1の解の第2の解セグメントに基づいて、エージェントのための第2の応答を生成する。
いくつかの実施形態では、第1および第2の音声データならびに第1および第2の応答は、会話文脈データベース106に格納され、エージェントのための第3の応答を生成するために使用される。いくつかの実施形態では、システムデバイス104は、会話における第3のユーザ発話に関連付けられた第3の音声データを受信する。いくつかの実施形態では、解セレクタ108は、第3のユーザ発話に関連付けられた第2のトピックを識別する。いくつかの実施形態では、解セレクタ108は、第2のトピックに関連付けられた第2の解を識別し得る。いくつかの実施形態では、応答ジェネレータ112は、第1の音声データ、エージェントの第1の応答、第2の音声データ、エージェントの第2の応答、第3の音声データ、および第2の解の解セグメントに基づいて、エージェントのための第3の応答を生成する。
ここで図2を参照すると、本開示の実施形態による、応答の解誘導生成のための例示的な方法200のフローチャートが示されている。いくつかの実施形態では、システムのプロセッサは、方法200の動作を実行し得る。いくつかの実施形態では、方法200は、動作202で始まる。動作202において、プロセッサは、誘導対話システムでの会話における第1のユーザ発話に関連付けられた第1の音声データを受信する。いくつかの実施形態では、方法200は、動作204に進み、プロセッサは、第1の音声データから、第1のユーザ発話に関連付けられた一連のトピックの第1のトピックを識別する。いくつかの実施形態では、方法200は動作206に進む。動作206において、プロセッサは、第1のトピックに関連付けられた第1の解を識別し、第1の解は、トピックに関連するタスクを実行するための1つまたは複数の解セグメントを有する。いくつかの実施形態では、方法200は、動作208に進む。動作208において、プロセッサは、第1の解の第1の解セグメントおよび第1の音声データに基づいて、第2のユーザのための第1の応答を生成する。
本明細書でより詳細に論じられるように、方法200の動作の一部または全部は、代替的な順序で実行され得るか、または全く実行され得ないことが企図され、さらに、複数の動作が同時に、またはより大きなプロセスの内部部分として発生し得る。
本開示はクラウドコンピューティングに関する詳細な説明を含むが、本明細書に記載される教示の実施はクラウドコンピューティング環境に限定されないことを理解されたい。むしろ、本開示の実施形態は、現在知られている、または後に開発される任意の他のタイプのコンピューティング環境と組み合わせて実装できる。
クラウドコンピューティングは、最小限の管理労力またはサービスのプロバイダとの対話で迅速にプロビジョニングおよびリリースできる、構成可能なコンピューティングリソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、サービス)の共有プールへの便利なオンデマンドネットワークアクセスを可能にするサービス提供のモデルである。このクラウドモデルは、少なくとも5つの特徴、少なくとも3つのサービスモデル、および少なくとも4つの展開モデルを含み得る。
特徴は次の通りである。
オンデマンドセルフサービス:クラウド消費者は、サービスプロバイダとの人間の対話を必要とせずに、必要に応じて一方的にサーバタイムおよびネットワークストレージなどのコンピューティング能力を自動的にプロビジョニングできる。
幅広いネットワークアクセス:能力は、ネットワーク経由で利用可能であり、異種のシンクライアントプラットフォームまたはシッククライアントプラットフォーム(例えば、携帯電話、ラップトップ、PDA)による使用を促進する標準機構を介してアクセスされる。
リソースプーリング:プロバイダのコンピューティングリソースは、マルチテナントモデルを使用して複数の消費者にサービスを提供するためにプールされ、様々な物理リソースおよび仮想リソースが需要に応じて動的に割り当てられ、再割り当てされる。消費者は、一般に、提供されたリソースの正確な部分に関する制御または知識はないが、より高い抽象化のレベル(例えば、国、州、データセンタ)で部分を特定でき得るという点で、部分独立の感覚がある。
迅速な弾力性:能力は、迅速かつ弾力的にプロビジョニングでき、場合によっては、自動的に、速やかにスケールアウトされ、迅速にリリースされて速やかにスケールインされる。消費者には、プロビジョニングに使用できる能力は無制限に見えることが多く、いつでも任意の数量で購入できる。
測定されたサービス:クラウドシステムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅、アクティブなユーザアカウント)に適したある程度の抽象化のレベルで計量能力を活用することにより、リソースの使用を自動的に制御および最適化する。リソースの使用状況を監視、制御、および報告して、利用するサービスの、プロバイダと消費者の両方に透明性を提供できる。
サービスモデルは次の通りである。
サービスとしてのソフトウェア(SaaS):消費者に提供される能力は、クラウドインフラストラクチャで実行されているプロバイダのアプリケーションを使用することである。アプリケーションには、ウェブブラウザ(例えば、ウェブベースの電子メール)などのシンクライアントインターフェースを介して、様々なクライアントデバイスからアクセスできる。消費者は、限定的なユーザ固有のアプリケーション構成設定を除き得て、ネットワーク、サーバ、オペレーティングシステム、ストレージ、さらには個別のアプリケーション機能を含む基盤となるクラウドインフラストラクチャを管理または制御しない。
サービスとしてのプラットフォーム(PaaS):消費者に提供される能力は、プロバイダがサポートするプログラミング言語およびツールを使用して作成された、消費者が作成または取得したアプリケーションをクラウドインフラストラクチャ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、ストレージを含む基盤となるクラウドインフラストラクチャを管理または制御しないが、展開されたアプリケーションおよび、場合によっては、アプリケーションホスティング環境の構成を制御する。
サービスとしてのインフラストラクチャ(IaaS):消費者に提供される能力は、処理、ストレージ、ネットワーク、および消費者が、オペレーティングシステムおよびアプリケーションを含み得る、任意のソフトウェアを展開および実行できるその他の基本的なコンピューティングリソースをプロビジョニングすることである。消費者は、基盤となるクラウドインフラストラクチャを管理または制御しないが、オペレーティングシステム、ストレージ、展開されたアプリケーションを制御し、場合によっては、選択したネットワーク構成要素(例えば、ホストファイアウォール)の制御を制限する。
展開モデルは次の通りである。
プライベートクラウド:クラウドインフラストラクチャは、組織のためだけに運用される。組織または第三者によって管理され得、オンプレミスまたはオフプレミスに存在し得る。
コミュニティクラウド:クラウドインフラストラクチャは複数の組織によって共有されており、共有された懸念事項(例えば、ミッション、セキュリティ要件、ポリシ、コンプライアンスの考慮事項)を有する特定のコミュニティをサポートしている。組織または第三者によって管理され得、オンプレミスまたはオフプレミスに存在し得る。
パブリッククラウド:クラウドインフラストラクチャは、一般の人々または大規模な業界団体が利用できるようにしたもので、クラウドサービスを販売する組織が所有している。
ハイブリッドクラウド:クラウドインフラストラクチャは、一意のエンティティのままであるが、データおよびアプリケーションの移植性を可能にする標準化された技術または独自の技術(例えば、クラウド間の負荷分散のためのクラウドバースト)によって結合された2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)の構成である。
クラウドコンピューティング環境は、ステートレス性、低結合、モジュール性、および意味的相互運用性に重点を置いたサービス指向型である。クラウドコンピューティングの中心は、相互接続されたノードのネットワークを含むインフラストラクチャである。
図3Aには、クラウドコンピューティング環境310が例示的に示されている。示しているように、クラウドコンピューティング環境310は、例えば、パーソナルデジタルアシスタント(PDA)または携帯電話300A、デスクトップコンピュータ300B、ラップトップコンピュータ300C、もしくは自動車コンピュータシステム300N、またはその組み合わせなどのクラウド消費者によって使用されるローカルコンピューティングデバイスが通信し得る1つまたは複数のクラウドコンピューティングノード300を含む。ノード300は、互いに通信し得る。それらは、物理的または仮想的に、前述のプライベートクラウド、コミュニティクラウド、パブリッククラウド、またはハイブリッドクラウド、またはそれらの組み合わせなどの1つまたは複数のネットワークにグループ化(図示せず)され得る。
これにより、クラウドコンピューティング環境310は、クラウド消費者がローカルコンピューティングデバイス上でリソースを維持する必要がないサービスとして、インフラストラクチャ、プラットフォーム、もしくはソフトウェア、またはその組み合わせを提供できる。図3Aに示すコンピューティングデバイス300A~Nのタイプは、例示のみを意図しており、コンピューティングノード300およびクラウドコンピューティング環境310は、任意のタイプのネットワークもしくは(例えば、ウェブブラウザを使用する)ネットワークアドレス可能な接続、またはその組み合わせを介して任意のタイプのコンピュータ化されたデバイスと通信できることが理解されるよう。
示されている図3Bは、クラウドコンピューティング環境310(図3A)によって提供される機能抽象化層のセットを示す。図3Bに示す構成要素、層、および機能は、例示のみを目的としており、本開示の実施形態はそれに限定されないことを事前に理解されたい。以下に示しているように、以下の層および対応する機能が提供される。
ハードウェアおよびソフトウェア層315は、ハードウェアおよびソフトウェア構成要素を含む。ハードウェア構成要素の例は、メインフレーム302、RISC(縮小命令セットコンピュータ)アーキテクチャベースのサーバ304、サーバ306、ブレードサーバ308、ストレージデバイス311、およびネットワークおよびネットワーク構成要素312を含む。いくつかの実施形態では、ソフトウェア構成要素は、ネットワークアプリケーションサーバソフトウェア314およびデータベースソフトウェア316を含む。
仮想化層320は、仮想エンティティの次の例、すなわち、仮想サーバ322、仮想ストレージ324、仮想プライベートネットワークを含む仮想ネットワーク326、仮想アプリケーションおよびオペレーティングシステム328、および仮想クライアント330が提供され得る抽象化層を提供する。
一例では、管理層340は、以下に説明する機能を提供し得る。リソースプロビジョニング342は、クラウドコンピューティング環境内でタスクを実行するために利用されるコンピューティングリソースおよび他のリソースの動的な調達を提供する。計量および価格設定344は、リソースがクラウドコンピューティング環境内で利用されるときのコスト追跡、およびこれらのリソースの消費に対する課金または請求を提供する。一例では、これらのリソースは、アプリケーションソフトウェアライセンスを含み得る。セキュリティは、クラウド消費者およびタスクに対する識別検証、ならびにデータおよびその他のリソースに対する保護を提供する。ユーザポータル346は、消費者およびシステム管理者にクラウドコンピューティング環境へのアクセスを提供する。サービスレベル管理348は、必要なサービスレベルが満たされるように、クラウドコンピューティングリソースの割り当ておよび管理を提供する。サービスレベルアグリーメント(SLA)の計画および履行350は、SLAに従って将来の要件が予想されるクラウドコンピューティングリソースの事前準備および調達を提供する。
ワークロード層360は、クラウドコンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション362、ソフトウェア開発およびライフサイクル管理364、仮想教室教育配信366、データ分析処理368、トランザクション処理370、および対話システム372のための応答の解誘導生成を含む。
図4は、本開示の実施形態による、(例えば、コンピュータの1つまたは複数のプロセッサ回路またはコンピュータプロセッサを使用する)本明細書に記載の方法、ツールおよびモジュールの1つまたは複数、ならびに任意の関連する機能を実装する際に使用され得る例示的なコンピュータシステム401の高レベルのブロック図を示す。いくつかの実施形態では、コンピュータシステム401の主要な構成要素は、1つまたは複数のCPU402、メモリサブシステム404、端末インターフェース412、ストレージインターフェース416、I/O(入力/出力)デバイスインターフェース414、およびネットワークインターフェース418を有し得、これらすべてが、メモリバス403、I/Oバス408、およびI/Oバスインターフェースユニット410を介した構成要素間通信のために、直接的または間接的に通信可能に結合され得る。
コンピュータシステム401は、本明細書では一般にCPU402と呼ばれる、1つまたは複数の汎用プログラマブル中央処理装置(CPU)402A、402B、402C、および402Dを含み得る。いくつかの実施形態では、コンピュータシステム401は、比較的大規模なシステムに典型的な複数のプロセッサを備え得るが、他の実施形態では、コンピュータシステム401は、代替的に、単一のCPUシステムであり得る。各CPU402は、メモリサブシステム404に記憶された命令を実行し得て、1つまたは複数のレベルのオンボードキャッシュを含み得る。
システムメモリ404は、ランダムアクセスメモリ(RAM)422またはキャッシュメモリ424などの揮発性メモリの形態のコンピュータシステム可読媒体を含み得る。コンピュータシステム401は、他の取り外し可能/取り外し不可能、揮発性/不揮発性コンピュータシステム記憶媒体をさらに含み得る。単なる例として、ストレージシステム426は、「ハードドライブ」などの取り外し不可能な不揮発性磁気媒体との間の読み取りおよび書き込みのために提供できる。図示されていないが、取り外し可能な不揮発性磁気ディスク(例えば、「フロッピディスク」)との間の読み取りおよび書き込み用の磁気ディスクドライブ、またはCD-ROM、DVD-ROMまたは他の光媒体などの取り外し可能な不揮発性光ディスクとの間の読み取りまたは書き込み用の光ディスクドライブが提供可能である。さらに、メモリ404は、フラッシュメモリ、例えば、フラッシュメモリスティックドライブまたはフラッシュドライブを含み得る。メモリデバイスは、1つまたは複数のデータメディアインターフェースによってメモリバス403に接続できる。メモリ404は、様々な実施形態の機能を実行するように構成されるプログラムモジュール(例えば、少なくとも1つ)のセットを有する少なくとも1つのプログラム製品を含み得る。
プログラムモジュール430の少なくとも1つのセットをそれぞれが有する1つまたは複数のプログラム/ユーティリティ428は、メモリ404に格納され得る。プログラム/ユーティリティ428は、ハイパーバイザ(仮想マシンモニタとも呼ばれる)、1つまたは複数のオペレーティングシステム、1つまたは複数のアプリケーションプログラム、他のプログラムモジュール、およびプログラムデータを含み得る。オペレーティングシステム、1つまたは複数のアプリケーションプログラム、他のプログラムモジュールのそれぞれ、およびプログラムデータまたはそれらのいくつかの組み合わせは、ネットワーキング環境の実装を含み得る。プログラム428もしくはプログラムモジュール430、またはその両方は、一般に、様々な実施形態の機能または方法論を実行する。
メモリバス403は、CPU402、メモリサブシステム404、およびI/Oバスインターフェース410の間の直接通信パスを提供する単一のバス構造として図4に示されているが、メモリバス403は、いくつかの実施形態では、階層構成、スター構成、またはウェブ構成のポイントツーポイントリンク、複数の階層バス、並列および冗長パス、または任意のその他の適切なタイプの構成など、様々な形態のいずれかに配置され得る、複数の異なるバスまたは通信パスを含み得る。さらに、I/Oバスインターフェース410およびI/Oバス408は、単一のそれぞれのユニットとして示されているが、コンピュータシステム401は、いくつかの実施形態では、複数のI/Oバスインターフェースユニット410、複数のI/Oバス408、またはその両方を含み得る。さらに、I/Oバス408を様々なI/Oデバイスに向かう様々な通信経路から分離する複数のI/Oインターフェースユニットが示されているが、他の実施形態では、I/Oデバイスの一部または全部が、1つまたは複数のシステムI/Oバスに直接接続され得る。
いくつかの実施形態では、コンピュータシステム401は、マルチユーザメインフレームコンピュータシステム、シングルユーザシステム、または直接ユーザインターフェースをほとんどまたは全く有していないが、他のコンピュータシステム(クライアント)からの要求を受信するサーバコンピュータまたは同様のデバイスであり得る。さらに、いくつかの実施形態では、コンピュータシステム401は、デスクトップコンピュータ、ポータブルコンピュータ、ラップトップまたはノートブックコンピュータ、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、ネットワークスイッチもしくはルータ、または任意の他の適切なタイプの電子デバイスとして実装され得る。
図4は、例示的なコンピュータシステム401の代表的な主要構成要素を示すことを意図していることに留意されたい。しかし、いくつかの実施形態では、個々の構成要素は、図4に示すよりも多かれ少なかれ複雑になり得たり、図4に示すもの以外の構成要素またはその構成要素に加えて構成要素が存在し得たり、そのような構成要素の数、タイプ、および構成が変化し得たりする。
本明細書でより詳細に論じられるように、本明細書に記載の方法の実施形態のいくつかの動作の一部または全部は、代替的な順序で実行され得るか、または全く実行され得ないことが企図され、さらに、複数の動作が同時に、またはより大きなプロセスの内部部分として発生し得る。
本開示は、任意の可能な技術的詳細レベルの統合におけるシステム、方法、もしくはコンピュータプログラム製品、またはその組み合わせであり得る。コンピュータプログラム製品は、プロセッサに本開示の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体(または複数の媒体)を含み得る。
コンピュータ可読記憶媒体は、命令実行デバイスが使用するための命令を保持および記憶できる有形のデバイスであり得る。コンピュータ可読記憶媒体は、例えば、限定されないが、電子ストレージデバイス、磁気ストレージデバイス、光ストレージデバイス、電磁ストレージデバイス、半導体ストレージデバイス、または前述の任意の適切な組み合わせであり得る。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピディスク、その上に命令が記録されたパンチカードまたは溝に浮き彫りされた構造などの機械的にエンコードされたデバイス、および前述の任意の適切な組み合わせが含まれる。本明細書で使用されるコンピュータ可読記憶媒体は、電波または他の自由に伝播する電磁波、導波管または他の伝送媒体を通って伝播する電磁波(例えば、光ファイバーケーブルを通過する光パルス)、または電線を通じて伝送される電気信号など、それ自体が一時的な信号であると解釈されるべきではない。
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、またはネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、もしくはワイヤレスネットワーク、またはその組み合わせを介して外部コンピュータまたは外部ストレージデバイスにダウンロードできる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、もしくはエッジサーバ、またはその組み合わせを有し得る。各コンピューティング/処理デバイス内のネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。
本開示の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、または、Smalltalk(登録商標)、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語または同様のプログラミング言語などの手続型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組み合わせで記述されたソースコードまたはオブジェクトコードのいずれかであり得る。コンピュータ可読プログラム命令は、全部がユーザのコンピュータ上で、一部がユーザのコンピュータ上で、スタンドアロンのソフトウェアパッケージとして、一部がユーザのコンピュータ上で一部がリモートコンピュータ上で、または全部がリモートコンピュータ上でもしくはサーバ上で実行され得る。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続され得るか、または、(例えば、インターネットサービスプロバイダを使用してインターネットを介して)外部コンピュータに接続され得る。いくつかの実施形態では、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)、またはプログラマブルロジックアレイ(PLA)を含む電子回路は、本開示の態様を実行するために、電子回路をパーソナライズするためのコンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行し得る。
本開示の態様は、本開示の実施形態による方法、装置(システム)、およびコンピュータプログラム製品のフローチャート図もしくはブロック図またはその両方を参照して本明細書に記載されている。フローチャート図もしくはブロック図またはその両方の各ブロック、およびフローチャート図もしくはブロック図またはその両方のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されよう。
これらのコンピュータ可読プログラム命令は、コンピュータのプロセッサ、または他のプログラマブルデータ処理装置に提供され、マシンを生成し得て、その結果、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャートもしくはブロック図またはその両方の1つまたは複数のブロックで指定された機能/動作を実施するための手段を作成する。これらのコンピュータ可読プログラム命令はまた、コンピュータ、プログラマブルデータ処理装置もしくは他のデバイスまたはその両方に特定の方法で機能するように指示できるコンピュータ可読記憶媒体内に記憶され得て、その結果、その中に記憶された命令を有するコンピュータ可読記憶媒体は、フローチャートもしくはブロック図またはその両方の1つまたは複数のブロックで指定された機能/動作の態様を実施する命令を含む製品を備える。
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブルデータ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させて、コンピュータ実装プロセスを生成し得て、その結果、コンピュータ、他のプログラマブル装置、または他のデバイス上で実行される命令が、フローチャートもしくはブロック図またはその両方の1つまたは複数のブロックで指定された機能/動作を実装する。
図中のフローチャートおよびブロック図は、本開示の様々な実施形態によるシステム、方法、およびコンピュータプログラム製品の可能な実装のアーキテクチャ、機能、および動作を示す。これに関して、フローチャートまたはブロック図内の各ブロックは、指定された論理機能を実装するための1つまたは複数の実行可能命令を有する、モジュール、セグメント、または命令の一部を表し得る。いくつかの代替的な実装では、ブロックに示される機能は、図に示される順序を外れて生じ得る。例えば、連続して示される2つのブロックは、実際には、1つのステップとして実行され、部分的または全体的に時間的に重複する方法で、同時に、または実質的に同時に実行され得るか、または、関連する機能に応じてブロックが、時に逆の順序で実行され得る。また、ブロック図もしくはフローチャート図、またはその両方の各ブロック、ならびにブロック図もしくはフローチャート図、またはその両方のブロックの組み合わせは、指定された機能または動作を実行する、または特別な目的のハードウェアとコンピュータ命令との組み合わせを実行する特別な目的のハードウェアベースのシステムによって実装できることにも留意されたい。
本開示の様々な実施形態の説明は、例示の目的で提示されているが、網羅的であること、または開示された実施形態に限定することを意図するものではない。多くの修正および変形は、記載する実施形態の範囲および趣旨から逸脱することなく、当業者に明らかになるであろう。本明細書で使用される用語は、実施形態の原理、実際の適用、または市場で見られる技術を超える技術的改善を最適に説明するため、または他の当業者が本明細書に開示される実施形態を理解できるようにするために選択されたものである。
本開示は特定の実施形態に関して説明されてきたが、その変更および修正は当業者に明らかになることが予想される。したがって、以下の特許請求の範囲は、本開示の真の趣旨および範囲内に含まれるすべてのそのような変更および修正を網羅するものとして解釈されることが意図されている。
Claims (25)
- コンピュータ実装方法であって、
プロセッサによって、誘導対話システムでの会話における第1のユーザ発話に関連付けられた第1の音声データを受信する段階と、
前記第1の音声データから、前記第1のユーザ発話に関連付けられた一連のトピックの第1のトピックを識別する段階と、
前記第1のトピックに関連付けられた第1の解を識別する段階であって、前記第1の解が、前記トピックに関連するタスクを実行するための1つまたは複数の解セグメントを有する、識別する段階と、
前記第1の解の第1の解セグメントおよび前記第1の音声データに基づいて、第2のユーザのための第1の応答を生成する段階と
を備える、方法。 - 前記第1の応答が、シーケンスツーシーケンス機械学習モデルを使用して生成される、請求項1に記載の方法。
- 前記第1のトピックが、テキスト分類モデルを使用して識別される、請求項1または2に記載の方法。
- 前記誘導対話システムでの前記会話における第2のユーザ発話に関連付けられた第2の音声データを受信する段階と、
前記第2のユーザ発話が、前記一連のトピックの別のトピックに関連付けられていないことを確認する段階と、
前記第1の音声データ、前記第2のユーザの前記第1の応答、前記第2の音声データ、および前記第1の解の第2の解セグメントに基づいて、前記第2のユーザのための第2の応答を生成する段階と
をさらに備える、請求項1または2に記載の方法。 - 前記誘導対話システムでの前記会話における第3のユーザ発話に関連付けられた第3の音声データを受信する段階と、
前記第3のユーザ発話に関連付けられた第2のトピックを識別する段階と、
前記第2のトピックに関連付けられた第2の解を識別する段階と、
前記第1の音声データ、前記第2のユーザの前記第1の応答、前記第2の音声データ、前記第2のユーザの前記第2の応答、前記第3の音声データ、および前記第2の解の解セグメントに基づいて、前記第2のユーザのための第3の応答を生成する段階と
をさらに備える、請求項4に記載の方法。 - コンピュータ実装方法であって、
プロセッサによって、誘導対話システムでの会話における第1のユーザ発話に関連付けられた第1の音声データを受信する段階と、
前記第1の音声データから、前記第1のユーザ発話に関連付けられた一連のトピックの第1のトピックを識別する段階と、
前記第1のトピックに関連付けられた第1の解を識別する段階であって、前記第1の解が、前記トピックに関連するタスクを実行するための1つまたは複数の解セグメントを有し、前記第1の解が、サンプル会話から解を生成するテキスト生成人工知能モデルを使用して生成される、識別する段階と、
前記第1の解の第1の解セグメントおよび前記第1の音声データに基づいて、第2のユーザのための第1の応答を生成する段階と
を備える、方法。 - 前記第1の応答が、シーケンスツーシーケンス機械学習モデルを使用して生成される、請求項6に記載の方法。
- 前記第1のトピックが、テキスト分類モデルを使用して識別される、請求項6または7に記載の方法。
- 前記誘導対話システムでの前記会話における第2のユーザ発話に関連付けられた第2の音声データを受信する段階と、
前記第2のユーザ発話が、前記一連のトピックの別のトピックに関連付けられていないことを確認する段階と、
前記第1の音声データ、前記第2のユーザの前記第1の応答、前記第2の音声データ、および前記第1の解の第2の解セグメントに基づいて、前記第2のユーザのための第2の応答を生成する段階と
をさらに備える、請求項6または7に記載の方法。 - 前記誘導対話システムでの前記会話における第3のユーザ発話に関連付けられた第3の音声データを受信する段階と、
前記第3のユーザ発話に関連付けられた第2のトピックを識別する段階と、
前記第2のトピックに関連付けられた第2の解を識別する段階と、
前記第1の音声データ、前記第2のユーザの前記第1の応答、前記第2の音声データ、前記第2のユーザの前記第2の応答、前記第3の音声データ、および前記第2の解の解セグメントに基づいて、前記第2のユーザのための第3の応答を生成する段階と
をさらに備える、請求項9に記載の方法。 - コンピュータ実装方法であって、
プロセッサによって、誘導対話システムでの会話における第1のユーザ発話に関連付けられた第1の音声データを受信する段階と、
前記第1の音声データから、前記第1のユーザ発話に関連付けられた一連のトピックの第1のトピックを識別する段階と、
前記第1のトピックに関連付けられた第1の解を識別する段階であって、前記第1の解が、前記トピックに関連するタスクを実行するための1つまたは複数の解セグメントを有し、前記第1の解が、前記第1のトピックに関連するエンティティからのドキュメントコーパスを使用して生成される、識別する段階と、
前記第1の解の第1の解セグメントおよび前記第1の音声データに基づいて、第2のユーザのための第1の応答を生成する段階と
を備える、方法。 - 前記第1の応答が、シーケンスツーシーケンス機械学習モデルを使用して生成される、請求項11に記載の方法。
- 前記第1のトピックが、テキスト分類モデルを使用して識別される、請求項11または12に記載の方法。
- 前記誘導対話システムでの前記会話における第2のユーザ発話に関連付けられた第2の音声データを受信する段階と、
前記第2のユーザ発話が、前記一連のトピックの別のトピックに関連付けられていないことを確認する段階と、
前記第1の音声データ、前記第2のユーザの前記第1の応答、前記第2の音声データ、および前記第1の解の第2の解セグメントに基づいて、前記第2のユーザのための第2の応答を生成する段階と
をさらに備える、請求項11または12に記載の方法。 - 前記誘導対話システムでの前記会話における第3のユーザ発話に関連付けられた第3の音声データを受信する段階と、
前記第3のユーザ発話に関連付けられた第2のトピックを識別する段階と、
前記第2のトピックに関連付けられた第2の解を識別する段階と、
前記第1の音声データ、前記第2のユーザの前記第1の応答、前記第2の音声データ、前記第2のユーザの前記第2の応答、前記第3の音声データ、および前記第2の解の解セグメントに基づいて、前記第2のユーザのための第3の応答を生成する段階と
をさらに備える、請求項14に記載の方法。 - システムであって、
メモリと、
前記メモリと通信しているプロセッサであって、前記プロセッサが、
誘導対話システムでの会話における第1のユーザ発話に関連付けられた第1の音声データを受信する手順と、
前記第1の音声データから、前記第1のユーザ発話に関連付けられた一連のトピックの第1のトピックを識別する手順と、
前記第1のトピックに関連付けられた第1の解を識別する手順であって、前記第1の解が、前記トピックに関連するタスクを実行するための1つまたは複数の解セグメントを有する、識別する手順と、
前記第1の解の第1の解セグメントおよび前記第1の音声データに基づいて、第2のユーザのための第1の応答を生成する手順とを有する、動作を実行するように構成されている、プロセッサと
を備える、システム。 - 前記第1の応答が、シーケンスツーシーケンス機械学習モデルを使用して生成される、請求項16に記載のシステム。
- 前記第1のトピックが、テキスト分類モデルを使用して識別される、請求項16または17に記載のシステム。
- 前記プロセッサが、
前記誘導対話システムでの前記会話における第2のユーザ発話に関連付けられた第2の音声データを受信する手順と、
前記第2のユーザ発話が、前記一連のトピックの別のトピックに関連付けられていないことを確認する手順と、
前記第1の音声データ、前記第2のユーザの前記第1の応答、前記第2の音声データ、および前記第1の解の第2の解セグメントに基づいて、前記第2のユーザのための第2の応答を生成する手順とを有する、動作を実行するようにさらに構成されている、請求項16または17に記載のシステム。 - 前記プロセッサが、
前記誘導対話システムでの前記会話における第3のユーザ発話に関連付けられた第3の音声データを受信する手順と、
前記第3のユーザ発話に関連付けられた第2のトピックを識別する手順と、
前記第2のトピックに関連付けられた第2の解を識別する手順と、
前記第1の音声データ、前記第2のユーザの前記第1の応答、前記第2の音声データ、前記第2のユーザの前記第2の応答、前記第3の音声データ、および前記第2の解の解セグメントに基づいて、前記第2のユーザのための第3の応答を生成する手順とを有する、動作を実行するようにさらに構成されている、請求項19に記載のシステム。 - プロセッサに、
誘導対話システムでの会話における第1のユーザ発話に関連付けられた第1の音声データを受信する手順と、
前記第1の音声データから、前記第1のユーザ発話に関連付けられた一連のトピックの第1のトピックを識別する手順と、
前記第1のトピックに関連付けられた第1の解を識別する手順であって、前記第1の解が、前記トピックに関連するタスクを実行するための1つまたは複数の解セグメントを有する、識別する手順と、
前記第1の解の第1の解セグメントおよび前記第1の音声データに基づいて、第2のユーザのための第1の応答を生成する手順と
を実行させるためのコンピュータプログラム。 - 前記第1の応答が、シーケンスツーシーケンス機械学習モデルを使用して生成される、請求項21に記載のコンピュータプログラム。
- 前記第1のトピックが、テキスト分類モデルを使用して識別される、請求項21または22に記載のコンピュータプログラム。
- 前記プロセッサに、
前記誘導対話システムでの前記会話における第2のユーザ発話に関連付けられた第2の音声データを受信する手順と、
前記第2のユーザ発話が、前記一連のトピックの別のトピックに関連付けられていないことを確認する手順と、
前記第1の音声データ、前記第2のユーザの前記第1の応答、前記第2の音声データ、および前記第1の解の第2の解セグメントに基づいて、前記第2のユーザのための第2の応答を生成する手順と実行させる、請求項21または22に記載のコンピュータプログラム。 - 前記プロセッサに、
前記誘導対話システムでの前記会話における第3のユーザ発話に関連付けられた第3の音声データを受信する手順と、
前記第3のユーザ発話に関連付けられた第2のトピックを識別する手順と、
前記第2のトピックに関連付けられた第2の解を識別する手順と、
前記第1の音声データ、前記第2のユーザの前記第1の応答、前記第2の音声データ、前記第2のユーザの前記第2の応答、前記第3の音声データ、および前記第2の解の解セグメントに基づいて、前記第2のユーザのための第3の応答を生成する手順とをさらに実行させる、請求項24に記載のコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/363,063 | 2021-06-30 | ||
US17/363,063 US11881217B2 (en) | 2021-06-30 | 2021-06-30 | Solution guided response generation for dialog systems |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023008913A true JP2023008913A (ja) | 2023-01-19 |
Family
ID=84736890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022104203A Pending JP2023008913A (ja) | 2021-06-30 | 2022-06-29 | コンピュータ実装方法、システムおよびコンピュータプログラム(対話システムのための解誘導応答生成) |
Country Status (3)
Country | Link |
---|---|
US (1) | US11881217B2 (ja) |
JP (1) | JP2023008913A (ja) |
CN (1) | CN115565530A (ja) |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5274801A (en) | 1988-04-29 | 1993-12-28 | International Business Machines Corp. | Artifical intelligence delivery system |
US6510411B1 (en) | 1999-10-29 | 2003-01-21 | Unisys Corporation | Task oriented dialog model and manager |
US8990126B1 (en) | 2006-08-03 | 2015-03-24 | At&T Intellectual Property Ii, L.P. | Copying human interactions through learning and discovery |
US20150179170A1 (en) | 2013-12-20 | 2015-06-25 | Microsoft Corporation | Discriminative Policy Training for Dialog Systems |
KR102447513B1 (ko) | 2016-01-22 | 2022-09-27 | 한국전자통신연구원 | 점증적 대화지식 자가학습 기반 대화장치 및 그 방법 |
US20180053119A1 (en) | 2016-08-16 | 2018-02-22 | Rulai, Inc. | Method and system for semi-supervised learning in generating knowledge for intelligent virtual agents |
WO2018081020A1 (en) | 2016-10-24 | 2018-05-03 | Carlabs Inc. | Computerized domain expert |
US10540967B2 (en) | 2016-11-14 | 2020-01-21 | Xerox Corporation | Machine reading method for dialog state tracking |
US10387463B2 (en) | 2017-07-06 | 2019-08-20 | International Business Machines Corporation | Dialog agent for conducting task-oriented computer-based communications |
US11132499B2 (en) | 2017-08-28 | 2021-09-28 | Microsoft Technology Licensing, Llc | Robust expandable dialogue system |
US10936663B2 (en) | 2017-12-21 | 2021-03-02 | Robert Bosch Gmbh | Generating sensitive dialogue through lightweight simulation |
EP3528242B1 (en) * | 2018-02-16 | 2020-06-17 | ABB Schweiz AG | Computer system and method for controlling user-machine dialogues |
US10706086B1 (en) * | 2018-03-12 | 2020-07-07 | Amazon Technologies, Inc. | Collaborative-filtering based user simulation for dialog systems |
US11076039B2 (en) * | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US10762902B2 (en) * | 2018-06-08 | 2020-09-01 | Cisco Technology, Inc. | Method and apparatus for synthesizing adaptive data visualizations |
US10997222B2 (en) | 2018-06-29 | 2021-05-04 | International Business Machines Corporation | Conversational agent dialog flow user interface |
DK201970511A1 (en) * | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
CA3172725A1 (en) * | 2020-03-23 | 2021-09-30 | Sorcero, Inc. | Feature engineering with question generation |
US11394799B2 (en) * | 2020-05-07 | 2022-07-19 | Freeman Augustus Jackson | Methods, systems, apparatuses, and devices for facilitating for generation of an interactive story based on non-interactive data |
US20220199079A1 (en) * | 2020-12-22 | 2022-06-23 | Meta Platforms, Inc. | Systems and Methods for Providing User Experiences on Smart Assistant Systems |
-
2021
- 2021-06-30 US US17/363,063 patent/US11881217B2/en active Active
-
2022
- 2022-06-09 CN CN202210648646.5A patent/CN115565530A/zh active Pending
- 2022-06-29 JP JP2022104203A patent/JP2023008913A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230005475A1 (en) | 2023-01-05 |
US11881217B2 (en) | 2024-01-23 |
CN115565530A (zh) | 2023-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11461788B2 (en) | Matching a customer and customer representative dynamically based on a customer representative's past performance | |
US11157533B2 (en) | Designing conversational systems driven by a semantic network with a library of templated query operators | |
US10185753B1 (en) | Mining procedure dialogs from source content | |
US11227250B2 (en) | Rating customer representatives based on past chat transcripts | |
US10825446B2 (en) | Training artificial intelligence to respond to user utterances | |
US11210677B2 (en) | Measuring the effectiveness of individual customer representative responses in historical chat transcripts | |
US11954138B2 (en) | Summary generation guided by pre-defined queries | |
WO2021070135A1 (en) | Updating and implementing document from audio proceeding | |
JP2022170726A (ja) | コンピュータ実装方法、コンピュータシステム、及びコンピュータプログラム(共有された画面上のコンテクスチャルリアルタイムコンテンツハイライト) | |
US11741296B2 (en) | Automatically modifying responses from generative models using artificial intelligence techniques | |
US20190138646A1 (en) | Systematic Browsing of Automated Conversation Exchange Program Knowledge Bases | |
US11288293B2 (en) | Methods and systems for ensuring quality of unstructured user input content | |
US20210142180A1 (en) | Feedback discriminator | |
WO2023100050A1 (en) | Conversational agent counterfactual simulation | |
US20220269868A1 (en) | Structure self-aware model for discourse parsing on multi-party dialogues | |
JP7441583B2 (ja) | 認知的対話における会話フロー適応方法、システム、プログラム | |
US11544478B2 (en) | Generating dialog system workspaces | |
US11250215B2 (en) | Form-based transactional conversation system design | |
JP2023008913A (ja) | コンピュータ実装方法、システムおよびコンピュータプログラム(対話システムのための解誘導応答生成) | |
US20230306203A1 (en) | Generating semantic vector representation of natural language data | |
US20230004823A1 (en) | Discovering new question and answer knowledge from conversation | |
US11947536B2 (en) | Identifying and processing poly-process natural language queries | |
US11853712B2 (en) | Conversational AI with multi-lingual human chatlogs | |
US11829400B2 (en) | Text standardization and redundancy removal | |
US20240028913A1 (en) | Heuristic-based inter-training with few-shot fine-tuning of machine learning networks |