JP2022071170A - 対話状態の生成方法、装置、電子機器及び記憶媒体 - Google Patents
対話状態の生成方法、装置、電子機器及び記憶媒体 Download PDFInfo
- Publication number
- JP2022071170A JP2022071170A JP2022035290A JP2022035290A JP2022071170A JP 2022071170 A JP2022071170 A JP 2022071170A JP 2022035290 A JP2022035290 A JP 2022035290A JP 2022035290 A JP2022035290 A JP 2022035290A JP 2022071170 A JP2022071170 A JP 2022071170A
- Authority
- JP
- Japan
- Prior art keywords
- dialogue state
- dialogue
- current round
- state
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000004590 computer program Methods 0.000 claims description 13
- 230000002452 interceptive effect Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 5
- 235000012054 meals Nutrition 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】追跡の効果が向上する対話状態の生成方法、装置、電子機器及び記憶媒体を提供する。【解決手段】方法は、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを取得し、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成し、現在のラウンドの初期対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成する。【効果】2つの段階の対話状態シーケンスの生成を行うことで、第2の段階が第1の段階で生成された対話状態を修飾及び修正し、第1の段階で習得しなかった情報を学習することができ、初めて生成されたミス対話状態を訂正することができ、最終的な対話状態追跡の効果が向上する。【選択図】図1
Description
本開示は、人工知能技術の分野における自然言語処理、深層学習技術の分野に関し、特に対話状態の生成方法、装置、電子機器及び記憶媒体に関する。
対話状態追跡(Dialogue State Tracking、DST)は、タスク向けの対話システムの重要な構成部分である。対話状態追跡は、対話の各ラウンドからユーザのターゲットスロット(slot)を抽出し、ひいては後続のプロセスを通じてユーザの要求を実行し、スマートカスタマーサービス、スマートトラベル、スマートオフィスなどの分野で多く用いられている。
関連技術では、対話状態追跡の効果が劣る。
対話状態の生成方法、装置、電子機器及び記憶媒体を提供する。
第1の態様によれば、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを取得するステップと、前記前のラウンドのターゲット対話状態と前記現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成するステップと、前記現在のラウンドの初期対話状態と前記現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成するステップと、を含む対話状態の生成方法を提供する。
第2の態様によれば、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを取得する取得モジュールと、前記前のラウンドのターゲット対話状態と前記現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成する第1の生成モジュールと、前記現在のラウンドの初期対話状態と前記現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成する第2の生成モジュールと、を備える対話状態の生成装置を提供する。
第3の態様によれば、電子機器を提供し、前記電子機器は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行される命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが本開示の第1の態様に記載の対話状態の生成方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに本開示の第1の態様に記載の対話状態の生成方法を実行させる。
第5の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、本開示の第1の態様に記載の対話状態の生成方法が実現される。
なお、ここで記載されている内容は、本開示の実施例の肝心な又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していない。本出願の他の特徴は、下記の明細書の記載を通して理解しやすくなる。
図面は、本出願をより良く理解するためのものであり、本出願を限定するものではない。
本開示の第1の実施例に係る対話状態の生成方法の概略フローチャートである。
本開示の第2の実施例に係る対話状態の生成方法の概略フローチャートである。
本開示の第3の実施例に係る対話状態の生成方法の概略フローチャートである。
本開示の実施例の対話状態の生成方法の原理の概略図1である。
本開示の実施例の対話状態の生成方法の原理の概略図2である。
根据本開示の第1の実施例に係る対話状態の生成装置のブロック図である。
根据本開示の第2の実施例に係る対話状態の生成装置のブロック図である。
本開示の実施例に係る対話状態の生成方法を実現するための電子機器のブロック図である。
以下、図面と組み合わせて本開示の例示的な実施例について説明し、を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれており、これらは単なる例示的なものであると理解すべきである。したがって、当業者は、本開示の範囲及び趣旨から逸脱することなく、ここで説明した実施例に対して、様々な変更や修正を行うことを認識すべきである。同様に、明確及び簡明のために、以下の説明において公知の機能及び構成に対する説明を省略している。
人工知能(Artificial Intelligence、AIと略称)は、人間の知能をシミュレーション、延長及び拡張するための理論、方法、技術、及び応用システムを研究、開発する新たな技術科学である。現在、AI技術は、高度な自動化、高精度、低コストというメリットがあり、広く利用されている。
自然言語処理(Natural Language Processing、NLP)は、自然言語通信を効果的に実現するコンピュータシステム、特にその中のソフトウェアシステムを研究する科学であり、コンピュータサイエンスの分野および人工知能の分野における重要な方向である。
深層学習(Deep Learning、DLと略称)は、機械学習(Machine Learning、MLと略称)の分野における新しい研究方向であり、サンプルデータの内的法則及び表現レベルを学習するものであり、これらの学習過程において取得された情報は、文字、画像及び音声などのデータの解釈に大きく寄与する。深層学習の最終的な目標は、機械が人間のように解析と学習能力を持つことができ、文字、画像及び音声などのデータを認識できるようにすることである。具体的な研究内容としては、主に畳み込み演算に基づくニューラルネットワークシステム、すなわち畳み込みニューラルネットワークと、多層ニューロンに基づく自己エンコーディングニューラルネットワークと、多層自己エンコーディングニューラルネットワーク方式で事前トレーニングを行い、識別情報と組み合わせてニューラルネットワークの重みをさらに最適化するディープビリーフネットワークと、を含む。深層学習は、検索技術、データマイニング、機械学習、機械翻訳、自然言語処理、マルチメディアラーニング、音声、推奨およびパーソナライズテクノロジー、およびその他の関連分野で多くの成果をあげている。深層学習は、機械に視聴や思考などの人間の活動を模倣させ、多くの複雑なパターン認識の課題を解決し、人工知能関連技術を大きく進歩させた。
図面と組み合わせて、本開示の実施例に係る対話状態の生成方法、装置、電子機器及び記憶媒体を説明する。
図1は、本開示の第1の実施例に係る対話状態の生成方法の概略フローチャートである。
図1に示すように、本開示の実施例に係る対話状態の生成方法は、具体的には、以下のステップを含む。
S101では、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを取得する。
具体的には、本開示の実施例に係る対話状態の生成方法の実行主体は、本開示の実施例によって提供される対話状態の生成装置であってもよく、この対話状態の生成装置は、データ情報処理機能を備えたハードウェアデバイス及び/又はこのハードウェアデバイスを動作させるために必要なソフトウェアであってもよい。選択的に、実行主体は、ワークステーション、サーバ、コンピュータ、ユーザ端末及び他のデバイスを含んでもよい。ここで、ユーザ端末は、携帯電話、コンピュータ、スマート音声対話型デバイス、スマート家電、車載端末などを含むが、これらに限定されない。
本開示の実施例では、認識対象の対話における前のラウンドの対話情報に対応する最終的な対話状態、即ち前のラウンドのターゲット対話状態を取得し、認識対象の対話における現在のラウンドの対話情報を取得する。前のラウンドのターゲット対話状態は、スロットと値とのスプライシングシーケンスとして表すことができ、前のラウンドのターゲット対話状態は、本開示の実施例の方法によって得られた最終的な対話状態であってもよい。
ここで、認識対象の対話は、録音、ネットワーク伝送などの方式を通じて取得することができる。例えば、認識対象の対話が録音によって取得される場合、デバイスは対話収集装置を有し、対話収集装置は、マイクロフォン(Microphone)、マイクロフォンアレイ(Microphone
Array)などであっても良い。又は、認識対象の対話がネットワーク伝送によって取得される場合、デバイスはネットワークデバイスを有し、ネットワークデバイスを介して他のデバイスまたはサーバとネットワーク伝送することができる。なお、認識対象の対話は、オーディオ、テキストなどの形態であってもよく、ここではあまり限定しない。
Array)などであっても良い。又は、認識対象の対話がネットワーク伝送によって取得される場合、デバイスはネットワークデバイスを有し、ネットワークデバイスを介して他のデバイスまたはサーバとネットワーク伝送することができる。なお、認識対象の対話は、オーディオ、テキストなどの形態であってもよく、ここではあまり限定しない。
S102では、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成する。
具体的に、ステップS101で得られた前のラウンドのターゲット対話状態と現在のラウンドの対話情報とをさらにスプライシングし、スプライシングされたシーケンスに基づいて、現在のラウンドの対話情報に対応する大まかな対話状態、即ち現在のラウンドの初期対話状態を生成する。
S103では、現在のラウンドの初期対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成する。
具体的に、ステップS102で生成された現在のラウンドの初期対話状態と現在のラウンドの対話情報をスプライシングし、スプライシングされたシーケンスに基づいて、現在のラウンドの対話情報に対応する最終的な対話状態、即ち現在のラウンドのターゲット対話状態を生成する。
以上、本開示の実施例に係る対話状態の生成方法は、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを取得し、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成し、現在のラウンドの初期対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成する。本開示の対話状態の生成方法は、2つの段階の対話状態シーケンスの生成を行うことで、第2の段階が第1の段階で生成された対話状態を修飾及び修正し、第1の段階で習得しなかった情報を学習することができ、初めて生成されたミス対話状態を訂正することができ、最終的な対話状態追跡の効果が向上する。
図2は、本開示の第2の実施例に係る対話状態の生成方法の概略フローチャートである。
図2に示すように、図1に示す実施例を基に、本開示の実施例に係る対話状態の生成方法は、具体的には以下のステップを含む。
S201では、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを取得する。
具体的に、本実施例のステップS201は、上記の実施例のステップS101と同じであるため、ここでは説明を省略する。
上記の実施例の「前のラウンドのターゲット対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成する」ステップS102は、具体的には以下のステップS202~S203を含むことができる。
S202では、第1の対話状態生成モデルを取得する。
具体的に、第1の対話状態生成モデルは、具体的には、Transformerコーデック事前トレーニングモデルなどのコーデック(encoder-decoder)事前トレーニングモデルであってもよく、本開示の実施例では、あまり限定しない。
S203では、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを第1の対話状態生成モデルに入力して、現在のラウンドの初期対話状態を取得する。
具体的に、ステップS201で得られた前のラウンドのターゲット対話状態は、スロットと値とのスプライシングシーケンスとして表すことができ、それを現在のラウンドの対話情報とさらにスプライシングし、スプライシングされたシーケンスをステップS202で得られた第1の対話状態生成モデルに入力し、第1の対話状態生成モデルのエンコーダが、入力された情報を双方向にエンコードし、デコーダーが現在のラウンドの初期対話状態を生成する。
S204では、現在のラウンドの初期対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成する。
具体的に、本実施例のステップS204は、上記の実施例のステップS103と同じであるため、ここでは説明を省略する。
さらに、図3に示すように、図2に示す実施例を基に、上記の「現在のラウンドの初期対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成する」ステップS103は、具体的には以下のステップを含むことができる。
S301では、第2の対話状態生成モデルを取得する。
具体的に、第2の対話状態生成モデルは、第1の対話状態生成モデルと同じモデル構造であってもよく、即ち、第2の対話状態生成モデルは、具体的には、前序コーデック事前トレーニングモデルなどのコーデック事前トレーニングモデルであってもよく、本開示の実施例は、あまり限定しない。さらに、第1の対話状態生成モデルと第2の対話状態生成モデルとのモデルパラメータは同じであってもよく、2つの段階が互に利得でき、ひいては最終的なモデル能力を向上させる。
S302では、現在のラウンドの初期対話状態と現在のラウンドの対話情報とを第2の対話状態生成モデルに入力して、現在のラウンドのターゲット対話状態を取得する。
具体的に、ステップS203で生成された現在のラウンドの初期対話状態と現在のラウンドの対話情報とをスプライシングし、スプライシングされたシーケンスをステップS301で得られた第2の状態生成モデルに入力し、第2の状態生成モデルのエンコーダが、入力された情報を双方向にエンコードし、デコーダーが現在のラウンドのターゲット対話状態を生成する。
以上、本開示の実施例に係る対話状態の生成方法は、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを取得し、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成し、現在のラウンドの初期対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成する。本開示の対話状態の生成方法は、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを第1の対話状態生成モデルに入力して、現在のラウンドの初期対話状態を取得し、現在のラウンドの初期対話状態と現在のラウンドの対話情報とを第2の対話状態生成モデルに入力して、現在のラウンドのターゲット対話状態を取得し、2つの段階の対話状態シーケンスの生成を行うことで、第2の段階が第1の段階で生成された対話状態を修飾及び修正し、第1の段階で習得しなかった情報を学習することができ、初めて生成されたミス対話状態を訂正することができ、最終的な対話状態追跡の効果を向上させ、2つの段階がモデルパラメータを共有するため、2つの段階が互に利得でき、最終的なモデル能力を向上させる。
本開示の実施例に係る対話状態の生成方法を明確に説明するために、以下、図4~図5と組み合わせて詳細に説明する。
図4は、本開示の実施例に係る対話状態の生成方法の原理の概略図1である。図4に示すように、第1の段階では、前のラウンドのターゲット対話状態を取得して、それをスロットと値とのスプライシングシーケンスとして表し、例えばスロットは、食事人数であり、対応する値は2である。現在のラウンドの対話情報を取得し、例えば、システムが「オーケー、何時に予約しますか?」と尋ね、ユーザが「土曜日の11時45分に予約したいのですが、予定が変わっていますので、一人で食べます」と応答し、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成し、それをスロットと値とのスプライシングシーケンスとして表し、例えば、スロットは、食事人数であり、対応する値は2である。第2の段階では、現在のラウンドの初期対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成し、それをスロットと値とのスプライシングシーケンスとして表し、例えばスロットは、食事人数であり、対応する値は1である。これから分かるように、2つの段階の対話状態シーケンスの生成により、ミス対話状態「食事人数が2である」ことを、「食事人数が1である」ことに訂正し、最終的な対話状態追跡の効果を向上させる。
図5は、本開示の実施例に係る対話状態の生成方法の原理の概略図2である、図5に示すように、現在のラウンドの対話情報Dtと前のラウンドのターゲット対話状態
を第1の対話状態生成モデルに入力し、L個のTransformerブロックによって双方向のコーデックを実行し、現在のラウンドの初期対話状態
を生成し、現在のラウンドの初期対話状態
と現在のラウンドの対話情報Dtとを第2の対話状態生成モデルに入力し、L個のTransformerブロックによって双方向のコーデックを実行し、現在のラウンドのターゲット対話状態
を生成する。
図6は、本開示の第1の実施例に係る対話状態の生成装置のブロック図である。
図6に示すように、本開示の実施例に係る対話状態の生成装置600は、取得モジュール601、第1の生成モジュール602、および第2の生成モジュール603を備える。
取得モジュール601は、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを取得する。
第1の生成モジュール602は、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成する。
第2の生成モジュール603は、現在のラウンドの初期対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成する。
なお、上記の対話状態の生成方法の実施例の説明は、本開示の実施例に係る対話状態の生成装置にも適用可能であり、具体的な過程については、ここでは説明を省略する。
以上、本開示の実施例に係る対話状態の生成装置は、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを取得し、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成し、現在のラウンドの初期対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成する。本開示の対話状態の生成装置は、2つの段階の対話状態シーケンスの生成を行うことで、第2の段階が第1の段階で生成された対話状態を修飾及び修正し、第1の段階で習得しなかった情報を学習することができ、初めて生成されたミス対話状態を訂正することができ、最終的な対話状態追跡の効果が向上する。
図7は、本開示の第2の実施例に係る対話状態の生成装置のブロック図である。
図7に示すように、本開示の実施例に係る対話状態の生成装置700は、取得モジュール701、第1の生成モジュール702、および第2の生成モジュール703を備える。
ここで、取得モジュール701は、上記実施例の取得モジュール601と同じ構造および機能を有し、第1の生成モジュール702は、上記実施例の第1の生成モジュール602と同じ構造および機能を有し、第2の生成モジュール703は、上記実施例の第2の生成モジュール603と同じ構造および機能を有する。
さらに、第1の生成モジュール702は、具体的に、第1の対話状態生成モデルを取得する第1の取得ユニット7021と、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを第1の対話状態生成モデルに入力して、現在のラウンドの初期対話状態を取得する第1の入力ユニット7022と、を備える。
さらに、第2の生成モジュール703は、具体的に、第2の対話状態生成モデルを取得する第2の取得ユニット7031と、現在のラウンドの初期対話状態と現在のラウンドの対話情報とを第2の対話状態生成モデルに入力して、現在のラウンドのターゲット対話状態を取得する第2の入力ユニット7032と、を備える。
ここで、第1の対話状態生成モデルと第2の対話状態生成モデルは、コーデック事前トレーニングモデルである。
ここで、第1の対話状態生成モデルと第2の対話状態生成モデルは、Transformerコーデック事前トレーニングモデルである。
ここで、第1の対話状態生成モデルと第2の対話状態生成モデルとのモデルパラメータが同じである。
以上、本開示の実施例に係る対話状態の生成装置は、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを取得し、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成し、現在のラウンドの初期対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成する。本開示の対話状態の生成装置は、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを第1の対話状態生成モデルに入力して、現在のラウンドの初期対話状態を取得し、現在のラウンドの初期対話状態と現在のラウンドの対話情報とを第2の対話状態生成モデルに入力して、現在のラウンドのターゲット対話状態を取得し、2つの段階の対話状態シーケンスの生成を行うことで、第2の段階が第1の段階で生成された対話状態を修飾及び修正し、第1の段階で習得しなかった情報を学習することができ、初めて生成されたミス対話状態を訂正することができ、最終的な対話状態追跡の効果を向上させ、2つの段階がモデルパラメータを共有するため、2つの段階が互に利得でき、最終的なモデル能力を向上させる。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体およびコンピュータプログラムをさらに提供する。
図8は、本開示の実施例を実施するための例示的な電子機器800の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は求められる本開示の実現を制限するものではない。
図8に示すように、電子機器800は、読み取り専用メモリ(ROM)802に記憶されているコンピュータプログラム又は記憶ユニット808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラムにしたがって、様々な適切な動作及び処理を実行することができる計算ユニット801を備える。RAM803には、電子機器800の操作に必要な様々なプログラム及びデータを記憶することもできる。計算ユニット801、ROM802及びRAM
803は、バス804を介して互いに接続されている。入力/出力(I/O)インターフェース805もバス804に接続されている。
803は、バス804を介して互いに接続されている。入力/出力(I/O)インターフェース805もバス804に接続されている。
キーボード、マウスなどの入力ユニット806と、様々なタイプのディスプレイ、スピーカーなどの出力ユニット807と、磁気ディスク、光ディスクなどの記憶ユニット808と、ネットワークカード、モデム、ワイヤレス通信トランシーバーなどの通信ユニット809とを備える電子機器800の複数のコンポーネントは、I/Oインターフェース805に接続されている。通信ユニット809は、電子機器800が、インターネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークなどを介して他のデバイスと情報/データを交換することを可能にする。
計算ユニット801は、処理及びコンピューティング能力を有する様々な汎用及び/又は特定用途向け処理コンポーネントであり得る。計算ユニット801のいくつかの例は、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な特定用途向けの人工知能(AI)コンピューティングチップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタルシグナルプロセッサ(DSP)、及びいずれの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット801は、上に説明した各方法及び処理、例えば図1~5に示す対話状態の生成方法を実行する。例えば、いくつかの実施例では、対話状態の生成方法は、記憶ユニット808などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ROM802及び/又は通信ユニット809を介して電子機器800にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM803にロードされ、計算ユニット801によって実行される場合、上に説明した対話状態の生成方法の1つ又は複数のステップを実行することができる。選択的に、他の実施例では、計算ユニット801は、対話状態の生成方法を実行するように他のいずれの適切な方式(例えば、ファームウェアを介して)によって構成されてもよい。
本明細書に説明したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複合プログラマブルロジックデバイス(CPLD)、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにより実装され得る。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含み、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを備えるプログラマブルシステム上で実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組合せを用いて書くことができる。これらのプログラムコードは、プログラムコードがプロセッサ又はコントローラによって実行された際に、フローチャート及び/又はブロック図において定義された機能/操作が実施されるように、汎用コンピュータ、特定用途向けコンピュータ或いは他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行され、部分的にマシン上で実行され、独立型ソフトウェアパッケージとして、一部がマシン上で実行されるとともに、一部がリモートマシン上で実行されるか、又は完全にリモートマシン或いはサーバ上で実行されてもよい。
本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置或いはデバイスによって使用されるために、又は命令実行システム、装置或いはデバイスと結合して使用されるためのプログラムを含むか、又は記憶することができる有形媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体システム、装置或いはデバイス、又は上記内容の任意の適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のさらなる具体的な例は、1つ又は複数のワイヤに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光ストレージデバイス、磁気ストレージデバイス、又は上記内容のいずれの適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、本明細書に説明したシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウスやトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって、コンピュータに入力を提供することが可能になる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、そして、任意の形態(音響入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信することができる。
本明細書に説明したシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はWEBブラウザーを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインターフェース又は当該WEBブラウザーを介して本明細書に説明したシステム及び技術の実施形態とインタラクションすることができる)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントを備える任意の組み合わせコンピューティングシステム中で実施できる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介してシステムのコンポーネントを互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及びインターネットを含む。
コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント-サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバは、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれるクラウドサーバであってもよく、従来の物理ホスト及びVPSサービス(「Virtual Private Server」、「VPS」と略称)は、管理が難しく、サービス拡張性が弱いという欠点を解決するための、クラウドコンピューティングサービスシステムにおけるホスト製品の1つである。サーバは、分散システムのサーバであっても、ブロックチェーンと組み合わせたサーバであってもよい。
本開示の実施例によれば、本開示は、コンピュータプログラムをさらに提供し、コンピュータプログラムがプロセッサによって実行される場合、本開示の上記の実施例に示す対話状態の生成方法が実現される。
なお、上記の様々な形態のフローを使用して、ステップを並べ替えたり、追加したり、削除したりすることができる。例えば、本願に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよく、いが、本開示で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施形態は、本願の特許保護範囲に対する制限を構成するものではない。当業者にとって明らかなように、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び代替を行うことができる。本願の精神と原則の範囲内で行われる修正、同等の置換、及び改良などは、本願の保護範囲に含まれるべきである。
Claims (15)
- 前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを取得するステップと、
前記前のラウンドのターゲット対話状態と前記現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成するステップと、
前記現在のラウンドの初期対話状態と前記現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成するステップと、
を含む、対話状態の生成方法。 - 前記前のラウンドのターゲット対話状態と前記現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成するステップが、
第1の対話状態生成モデルを取得するステップと、
前記前のラウンドのターゲット対話状態と前記現在のラウンドの対話情報とを前記第1の対話状態生成モデルに入力して、前記現在のラウンドの初期対話状態を取得するステップと、
を含む請求項1に記載の生成方法。 - 前記現在のラウンドの初期対話状態と前記現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成するステップが、
第2の対話状態生成モデルを取得するステップと、
前記現在のラウンドの初期対話状態と前記現在のラウンドの対話情報とを前記第2の対話状態生成モデルに入力して、前記現在のラウンドのターゲット対話状態を取得するステップと、
を含む請求項2に記載の生成方法。 - 前記第1の対話状態生成モデルと前記第2の対話状態生成モデルが、コーデック事前トレーニングモデルである請求項3に記載の生成方法。
- 前記第1の対話状態生成モデルと前記第2の対話状態生成モデルが、Transformerコーデック事前トレーニングモデルである請求項4に記載の生成方法。
- 前記第1の対話状態生成モデルと前記第2の対話状態生成モデルとのモデルパラメータが同じである請求項3から5のいずれか一項に記載の生成方法。
- 前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを取得する取得モジュールと、
前記前のラウンドのターゲット対話状態と前記現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成する第1の生成モジュールと、
前記現在のラウンドの初期対話状態と前記現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成する第2の生成モジュールと、
を含む、対話状態の生成装置。 - 前記第1の生成モジュールが、
第1の対話状態生成モデルを取得する第1の取得ユニットと、
前記前のラウンドのターゲット対話状態と前記現在のラウンドの対話情報とを前記第1の対話状態生成モデルに入力して、前記現在のラウンドの初期対話状態を取得する第1の入力ユニットと、
を含む請求項7に記載の生成装置。 - 前記第2の生成モジュールが、
第2の対話状態生成モデルを取得する第2の取得ユニットと、
前記現在のラウンドの初期対話状態と前記現在のラウンドの対話情報とを前記第2の対話状態生成モデルに入力して、前記現在のラウンドのターゲット対話状態を取得する第2の入力ユニットと、
を含む請求項8に記載の生成装置。 - 前記第1の対話状態生成モデルと前記第2の対話状態生成モデルが、コーデック事前トレーニングモデルである請求項9に記載の生成装置。
- 前記第1の対話状態生成モデルと前記第2の対話状態生成モデルが、Transformerコーデック事前トレーニングモデルである請求項10に記載の生成装置。
- 前記第1の対話状態生成モデルと前記第2の対話状態生成モデルとのモデルパラメータが同じである請求項9から11のいずれか一項に記載の生成装置。
- 少なくとも1つのプロセッサと、
該少なくとも1つのプロセッサと通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも1つのプロセッサによって実行される命令が記憶されており、前記命令が、前記少なくとも1つのプロセッサが請求項1から6のいずれか一項に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される電子機器。 - コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令が、コンピュータに請求項1から6のいずれか一項に記載の方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。 - プロセッサによって実行される場合に、請求項1から6のいずれか一項に記載の方法を実現するコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110738781.4A CN113553413A (zh) | 2021-06-30 | 2021-06-30 | 对话状态的生成方法、装置、电子设备和存储介质 |
CN202110738781.4 | 2021-06-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022071170A true JP2022071170A (ja) | 2022-05-13 |
Family
ID=78102617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022035290A Pending JP2022071170A (ja) | 2021-06-30 | 2022-03-08 | 対話状態の生成方法、装置、電子機器及び記憶媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220300717A1 (ja) |
JP (1) | JP2022071170A (ja) |
CN (1) | CN113553413A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115860077B (zh) * | 2022-12-20 | 2023-08-15 | 北京百度网讯科技有限公司 | 状态数据的处理方法、装置、设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609618A (zh) * | 2019-08-26 | 2019-12-24 | 杭州城市大数据运营有限公司 | 一种人机对话方法、装置、计算机设备及存储介质 |
CN112579758A (zh) * | 2020-12-25 | 2021-03-30 | 北京百度网讯科技有限公司 | 模型训练方法、装置、设备、存储介质和程序产品 |
CN112632254A (zh) * | 2020-12-28 | 2021-04-09 | 平安科技(深圳)有限公司 | 对话状态确定方法、终端设备及存储介质 |
CN112990292A (zh) * | 2021-03-10 | 2021-06-18 | 平安科技(深圳)有限公司 | 基于神经网络的对话状态的生成方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016143131A1 (ja) * | 2015-03-12 | 2016-09-15 | 株式会社 東芝 | 対話支援装置、方法およびプログラム、および端末 |
CN109582767B (zh) * | 2018-11-21 | 2024-05-17 | 北京京东尚科信息技术有限公司 | 对话系统处理方法、装置、设备及可读存储介质 |
CN112650844A (zh) * | 2020-12-24 | 2021-04-13 | 北京百度网讯科技有限公司 | 对话状态的追踪方法、装置、电子设备和存储介质 |
-
2021
- 2021-06-30 CN CN202110738781.4A patent/CN113553413A/zh active Pending
-
2022
- 2022-03-08 JP JP2022035290A patent/JP2022071170A/ja active Pending
- 2022-06-09 US US17/806,086 patent/US20220300717A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609618A (zh) * | 2019-08-26 | 2019-12-24 | 杭州城市大数据运营有限公司 | 一种人机对话方法、装置、计算机设备及存储介质 |
CN112579758A (zh) * | 2020-12-25 | 2021-03-30 | 北京百度网讯科技有限公司 | 模型训练方法、装置、设备、存储介质和程序产品 |
CN112632254A (zh) * | 2020-12-28 | 2021-04-09 | 平安科技(深圳)有限公司 | 对话状态确定方法、终端设备及存储介质 |
CN112990292A (zh) * | 2021-03-10 | 2021-06-18 | 平安科技(深圳)有限公司 | 基于神经网络的对话状态的生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113553413A (zh) | 2021-10-26 |
US20220300717A1 (en) | 2022-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10559300B2 (en) | Generating target sequences from input sequences using partial conditioning | |
US10635977B2 (en) | Multi-task learning using knowledge distillation | |
JP2022177220A (ja) | テキスト認識モデルの訓練方法、テキスト認識方法及び装置 | |
JP2019102063A (ja) | ページ制御方法および装置 | |
US11355097B2 (en) | Sample-efficient adaptive text-to-speech | |
US20230089268A1 (en) | Semantic understanding method, electronic device, and storage medium | |
CN115309877B (zh) | 对话生成方法、对话模型训练方法及装置 | |
US11947920B2 (en) | Man-machine dialogue method and system, computer device and medium | |
CN113407850B (zh) | 一种虚拟形象的确定和获取方法、装置以及电子设备 | |
JP2022006173A (ja) | 知識事前訓練モデルの訓練方法、装置及び電子機器 | |
CN113590776A (zh) | 基于知识图谱的文本处理方法、装置、电子设备及介质 | |
KR20220147545A (ko) | 이미지 편집 모델의 트레이닝 방법 및 이미지 편집 방법 | |
CN113468857B (zh) | 风格转换模型的训练方法、装置、电子设备以及存储介质 | |
JP2022071170A (ja) | 対話状態の生成方法、装置、電子機器及び記憶媒体 | |
JP2022031854A (ja) | 返信内容の生成方法、装置、機器及び記憶媒体 | |
US20230153550A1 (en) | Machine Translation Method and Apparatus, Device and Storage Medium | |
JP7372402B2 (ja) | 音声合成方法、装置、電子機器及び記憶媒体 | |
JP7349523B2 (ja) | 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム | |
US20230306203A1 (en) | Generating semantic vector representation of natural language data | |
JP7371159B2 (ja) | リマインドオーディオの生成方法、装置、電子機器及び記憶媒体 | |
CN116822632B (zh) | 一种文本数据的推理方法、装置、存储介质和电子设备 | |
EP4116865A2 (en) | Method and apparatus for training non-autoregressive translation model | |
CN115510203A (zh) | 问题答案确定方法、装置、设备、存储介质及程序产品 | |
JP2022088494A (ja) | テキスト生成方法、装置、電子機器及び記憶媒体 | |
CN113971948A (zh) | 表示方法、语音识别方法、装置、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220308 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230110 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230808 |