JP2022071170A

JP2022071170A - 対話状態の生成方法、装置、電子機器及び記憶媒体

Info

Publication number: JP2022071170A
Application number: JP2022035290A
Authority: JP
Inventors: シンティアン，; Xin Tian; リャンカイファン，; Liankai Huang; インツァンリン，; Yingzhan Lin; シキバオ，; Siqi Bao; ファンヘ，; Huang He; ファンワン，; Fan Wang; シュキスン，; Shuqi Sun; シウェイファン，; Shiwei Huang
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-30
Filing date: 2022-03-08
Publication date: 2022-05-13
Also published as: CN113553413A; US20220300717A1

Abstract

【課題】追跡の効果が向上する対話状態の生成方法、装置、電子機器及び記憶媒体を提供する。【解決手段】方法は、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを取得し、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成し、現在のラウンドの初期対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成する。【効果】２つの段階の対話状態シーケンスの生成を行うことで、第２の段階が第１の段階で生成された対話状態を修飾及び修正し、第１の段階で習得しなかった情報を学習することができ、初めて生成されたミス対話状態を訂正することができ、最終的な対話状態追跡の効果が向上する。【選択図】図１

Description

本開示は、人工知能技術の分野における自然言語処理、深層学習技術の分野に関し、特に対話状態の生成方法、装置、電子機器及び記憶媒体に関する。

対話状態追跡（ＤｉａｌｏｇｕｅＳｔａｔｅＴｒａｃｋｉｎｇ、ＤＳＴ）は、タスク向けの対話システムの重要な構成部分である。対話状態追跡は、対話の各ラウンドからユーザのターゲットスロット（ｓｌｏｔ）を抽出し、ひいては後続のプロセスを通じてユーザの要求を実行し、スマートカスタマーサービス、スマートトラベル、スマートオフィスなどの分野で多く用いられている。

関連技術では、対話状態追跡の効果が劣る。

対話状態の生成方法、装置、電子機器及び記憶媒体を提供する。

第１の態様によれば、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを取得するステップと、前記前のラウンドのターゲット対話状態と前記現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成するステップと、前記現在のラウンドの初期対話状態と前記現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成するステップと、を含む対話状態の生成方法を提供する。

第２の態様によれば、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを取得する取得モジュールと、前記前のラウンドのターゲット対話状態と前記現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成する第１の生成モジュールと、前記現在のラウンドの初期対話状態と前記現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成する第２の生成モジュールと、を備える対話状態の生成装置を提供する。

第３の態様によれば、電子機器を提供し、前記電子機器は、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも１つのプロセッサによって実行される命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが本開示の第１の態様に記載の対話状態の生成方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

第４の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに本開示の第１の態様に記載の対話状態の生成方法を実行させる。

第５の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、本開示の第１の態様に記載の対話状態の生成方法が実現される。

なお、ここで記載されている内容は、本開示の実施例の肝心な又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していない。本出願の他の特徴は、下記の明細書の記載を通して理解しやすくなる。

図面は、本出願をより良く理解するためのものであり、本出願を限定するものではない。
本開示の第１の実施例に係る対話状態の生成方法の概略フローチャートである。本開示の第２の実施例に係る対話状態の生成方法の概略フローチャートである。本開示の第３の実施例に係る対話状態の生成方法の概略フローチャートである。本開示の実施例の対話状態の生成方法の原理の概略図１である。本開示の実施例の対話状態の生成方法の原理の概略図２である。根据本開示の第１の実施例に係る対話状態の生成装置のブロック図である。根据本開示の第２の実施例に係る対話状態の生成装置のブロック図である。本開示の実施例に係る対話状態の生成方法を実現するための電子機器のブロック図である。

以下、図面と組み合わせて本開示の例示的な実施例について説明し、を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれており、これらは単なる例示的なものであると理解すべきである。したがって、当業者は、本開示の範囲及び趣旨から逸脱することなく、ここで説明した実施例に対して、様々な変更や修正を行うことを認識すべきである。同様に、明確及び簡明のために、以下の説明において公知の機能及び構成に対する説明を省略している。

人工知能(ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩと略称)は、人間の知能をシミュレーション、延長及び拡張するための理論、方法、技術、及び応用システムを研究、開発する新たな技術科学である。現在、ＡＩ技術は、高度な自動化、高精度、低コストというメリットがあり、広く利用されている。

自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ、ＮＬＰ）は、自然言語通信を効果的に実現するコンピュータシステム、特にその中のソフトウェアシステムを研究する科学であり、コンピュータサイエンスの分野および人工知能の分野における重要な方向である。

深層学習（ＤｅｅｐＬｅａｒｎｉｎｇ、ＤＬと略称）は、機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ、ＭＬと略称）の分野における新しい研究方向であり、サンプルデータの内的法則及び表現レベルを学習するものであり、これらの学習過程において取得された情報は、文字、画像及び音声などのデータの解釈に大きく寄与する。深層学習の最終的な目標は、機械が人間のように解析と学習能力を持つことができ、文字、画像及び音声などのデータを認識できるようにすることである。具体的な研究内容としては、主に畳み込み演算に基づくニューラルネットワークシステム、すなわち畳み込みニューラルネットワークと、多層ニューロンに基づく自己エンコーディングニューラルネットワークと、多層自己エンコーディングニューラルネットワーク方式で事前トレーニングを行い、識別情報と組み合わせてニューラルネットワークの重みをさらに最適化するディープビリーフネットワークと、を含む。深層学習は、検索技術、データマイニング、機械学習、機械翻訳、自然言語処理、マルチメディアラーニング、音声、推奨およびパーソナライズテクノロジー、およびその他の関連分野で多くの成果をあげている。深層学習は、機械に視聴や思考などの人間の活動を模倣させ、多くの複雑なパターン認識の課題を解決し、人工知能関連技術を大きく進歩させた。

図面と組み合わせて、本開示の実施例に係る対話状態の生成方法、装置、電子機器及び記憶媒体を説明する。

図１は、本開示の第１の実施例に係る対話状態の生成方法の概略フローチャートである。

図１に示すように、本開示の実施例に係る対話状態の生成方法は、具体的には、以下のステップを含む。

Ｓ１０１では、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを取得する。

具体的には、本開示の実施例に係る対話状態の生成方法の実行主体は、本開示の実施例によって提供される対話状態の生成装置であってもよく、この対話状態の生成装置は、データ情報処理機能を備えたハードウェアデバイス及び/又はこのハードウェアデバイスを動作させるために必要なソフトウェアであってもよい。選択的に、実行主体は、ワークステーション、サーバ、コンピュータ、ユーザ端末及び他のデバイスを含んでもよい。ここで、ユーザ端末は、携帯電話、コンピュータ、スマート音声対話型デバイス、スマート家電、車載端末などを含むが、これらに限定されない。

本開示の実施例では、認識対象の対話における前のラウンドの対話情報に対応する最終的な対話状態、即ち前のラウンドのターゲット対話状態を取得し、認識対象の対話における現在のラウンドの対話情報を取得する。前のラウンドのターゲット対話状態は、スロットと値とのスプライシングシーケンスとして表すことができ、前のラウンドのターゲット対話状態は、本開示の実施例の方法によって得られた最終的な対話状態であってもよい。

ここで、認識対象の対話は、録音、ネットワーク伝送などの方式を通じて取得することができる。例えば、認識対象の対話が録音によって取得される場合、デバイスは対話収集装置を有し、対話収集装置は、マイクロフォン（Ｍｉｃｒｏｐｈｏｎｅ）、マイクロフォンアレイ（Ｍｉｃｒｏｐｈｏｎｅ
Ａｒｒａｙ）などであっても良い。又は、認識対象の対話がネットワーク伝送によって取得される場合、デバイスはネットワークデバイスを有し、ネットワークデバイスを介して他のデバイスまたはサーバとネットワーク伝送することができる。なお、認識対象の対話は、オーディオ、テキストなどの形態であってもよく、ここではあまり限定しない。

Ｓ１０２では、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成する。

具体的に、ステップＳ１０１で得られた前のラウンドのターゲット対話状態と現在のラウンドの対話情報とをさらにスプライシングし、スプライシングされたシーケンスに基づいて、現在のラウンドの対話情報に対応する大まかな対話状態、即ち現在のラウンドの初期対話状態を生成する。

Ｓ１０３では、現在のラウンドの初期対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成する。

具体的に、ステップＳ１０２で生成された現在のラウンドの初期対話状態と現在のラウンドの対話情報をスプライシングし、スプライシングされたシーケンスに基づいて、現在のラウンドの対話情報に対応する最終的な対話状態、即ち現在のラウンドのターゲット対話状態を生成する。

以上、本開示の実施例に係る対話状態の生成方法は、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを取得し、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成し、現在のラウンドの初期対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成する。本開示の対話状態の生成方法は、２つの段階の対話状態シーケンスの生成を行うことで、第２の段階が第１の段階で生成された対話状態を修飾及び修正し、第１の段階で習得しなかった情報を学習することができ、初めて生成されたミス対話状態を訂正することができ、最終的な対話状態追跡の効果が向上する。

図２は、本開示の第２の実施例に係る対話状態の生成方法の概略フローチャートである。

図２に示すように、図１に示す実施例を基に、本開示の実施例に係る対話状態の生成方法は、具体的には以下のステップを含む。

Ｓ２０１では、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを取得する。

具体的に、本実施例のステップＳ２０１は、上記の実施例のステップＳ１０１と同じであるため、ここでは説明を省略する。

上記の実施例の「前のラウンドのターゲット対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成する」ステップＳ１０２は、具体的には以下のステップＳ２０２～Ｓ２０３を含むことができる。

Ｓ２０２では、第１の対話状態生成モデルを取得する。

具体的に、第１の対話状態生成モデルは、具体的には、Ｔｒａｎｓｆｏｒｍｅｒコーデック事前トレーニングモデルなどのコーデック（ｅｎｃｏｄｅｒ－ｄｅｃｏｄｅｒ）事前トレーニングモデルであってもよく、本開示の実施例では、あまり限定しない。

Ｓ２０３では、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを第１の対話状態生成モデルに入力して、現在のラウンドの初期対話状態を取得する。

具体的に、ステップＳ２０１で得られた前のラウンドのターゲット対話状態は、スロットと値とのスプライシングシーケンスとして表すことができ、それを現在のラウンドの対話情報とさらにスプライシングし、スプライシングされたシーケンスをステップＳ２０２で得られた第１の対話状態生成モデルに入力し、第１の対話状態生成モデルのエンコーダが、入力された情報を双方向にエンコードし、デコーダーが現在のラウンドの初期対話状態を生成する。

Ｓ２０４では、現在のラウンドの初期対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成する。

具体的に、本実施例のステップＳ２０４は、上記の実施例のステップＳ１０３と同じであるため、ここでは説明を省略する。

さらに、図３に示すように、図２に示す実施例を基に、上記の「現在のラウンドの初期対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成する」ステップＳ１０３は、具体的には以下のステップを含むことができる。

Ｓ３０１では、第２の対話状態生成モデルを取得する。

具体的に、第２の対話状態生成モデルは、第１の対話状態生成モデルと同じモデル構造であってもよく、即ち、第２の対話状態生成モデルは、具体的には、前序コーデック事前トレーニングモデルなどのコーデック事前トレーニングモデルであってもよく、本開示の実施例は、あまり限定しない。さらに、第１の対話状態生成モデルと第２の対話状態生成モデルとのモデルパラメータは同じであってもよく、２つの段階が互に利得でき、ひいては最終的なモデル能力を向上させる。

Ｓ３０２では、現在のラウンドの初期対話状態と現在のラウンドの対話情報とを第２の対話状態生成モデルに入力して、現在のラウンドのターゲット対話状態を取得する。

具体的に、ステップＳ２０３で生成された現在のラウンドの初期対話状態と現在のラウンドの対話情報とをスプライシングし、スプライシングされたシーケンスをステップＳ３０１で得られた第２の状態生成モデルに入力し、第２の状態生成モデルのエンコーダが、入力された情報を双方向にエンコードし、デコーダーが現在のラウンドのターゲット対話状態を生成する。

以上、本開示の実施例に係る対話状態の生成方法は、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを取得し、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成し、現在のラウンドの初期対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成する。本開示の対話状態の生成方法は、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを第１の対話状態生成モデルに入力して、現在のラウンドの初期対話状態を取得し、現在のラウンドの初期対話状態と現在のラウンドの対話情報とを第２の対話状態生成モデルに入力して、現在のラウンドのターゲット対話状態を取得し、２つの段階の対話状態シーケンスの生成を行うことで、第２の段階が第１の段階で生成された対話状態を修飾及び修正し、第１の段階で習得しなかった情報を学習することができ、初めて生成されたミス対話状態を訂正することができ、最終的な対話状態追跡の効果を向上させ、２つの段階がモデルパラメータを共有するため、２つの段階が互に利得でき、最終的なモデル能力を向上させる。

本開示の実施例に係る対話状態の生成方法を明確に説明するために、以下、図４～図５と組み合わせて詳細に説明する。

図４は、本開示の実施例に係る対話状態の生成方法の原理の概略図１である。図４に示すように、第１の段階では、前のラウンドのターゲット対話状態を取得して、それをスロットと値とのスプライシングシーケンスとして表し、例えばスロットは、食事人数であり、対応する値は２である。現在のラウンドの対話情報を取得し、例えば、システムが「オーケー、何時に予約しますか？」と尋ね、ユーザが「土曜日の１１時４５分に予約したいのですが、予定が変わっていますので、一人で食べます」と応答し、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成し、それをスロットと値とのスプライシングシーケンスとして表し、例えば、スロットは、食事人数であり、対応する値は２である。第２の段階では、現在のラウンドの初期対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成し、それをスロットと値とのスプライシングシーケンスとして表し、例えばスロットは、食事人数であり、対応する値は１である。これから分かるように、２つの段階の対話状態シーケンスの生成により、ミス対話状態「食事人数が２である」ことを、「食事人数が１である」ことに訂正し、最終的な対話状態追跡の効果を向上させる。

図５は、本開示の実施例に係る対話状態の生成方法の原理の概略図２である、図５に示すように、現在のラウンドの対話情報Ｄ_ｔと前のラウンドのターゲット対話状態

を第１の対話状態生成モデルに入力し、Ｌ個のＴｒａｎｓｆｏｒｍｅｒブロックによって双方向のコーデックを実行し、現在のラウンドの初期対話状態

を生成し、現在のラウンドの初期対話状態

と現在のラウンドの対話情報Ｄ_ｔとを第２の対話状態生成モデルに入力し、Ｌ個のＴｒａｎｓｆｏｒｍｅｒブロックによって双方向のコーデックを実行し、現在のラウンドのターゲット対話状態

を生成する。

図６は、本開示の第１の実施例に係る対話状態の生成装置のブロック図である。

図６に示すように、本開示の実施例に係る対話状態の生成装置６００は、取得モジュール６０１、第１の生成モジュール６０２、および第２の生成モジュール６０３を備える。

取得モジュール６０１は、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを取得する。

第１の生成モジュール６０２は、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成する。

第２の生成モジュール６０３は、現在のラウンドの初期対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成する。

なお、上記の対話状態の生成方法の実施例の説明は、本開示の実施例に係る対話状態の生成装置にも適用可能であり、具体的な過程については、ここでは説明を省略する。

以上、本開示の実施例に係る対話状態の生成装置は、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを取得し、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成し、現在のラウンドの初期対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成する。本開示の対話状態の生成装置は、２つの段階の対話状態シーケンスの生成を行うことで、第２の段階が第１の段階で生成された対話状態を修飾及び修正し、第１の段階で習得しなかった情報を学習することができ、初めて生成されたミス対話状態を訂正することができ、最終的な対話状態追跡の効果が向上する。

図７は、本開示の第２の実施例に係る対話状態の生成装置のブロック図である。

図７に示すように、本開示の実施例に係る対話状態の生成装置７００は、取得モジュール７０１、第１の生成モジュール７０２、および第２の生成モジュール７０３を備える。

ここで、取得モジュール７０１は、上記実施例の取得モジュール６０１と同じ構造および機能を有し、第１の生成モジュール７０２は、上記実施例の第１の生成モジュール６０２と同じ構造および機能を有し、第２の生成モジュール７０３は、上記実施例の第２の生成モジュール６０３と同じ構造および機能を有する。

さらに、第１の生成モジュール７０２は、具体的に、第１の対話状態生成モデルを取得する第１の取得ユニット７０２１と、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを第１の対話状態生成モデルに入力して、現在のラウンドの初期対話状態を取得する第１の入力ユニット７０２２と、を備える。

さらに、第２の生成モジュール７０３は、具体的に、第２の対話状態生成モデルを取得する第２の取得ユニット７０３１と、現在のラウンドの初期対話状態と現在のラウンドの対話情報とを第２の対話状態生成モデルに入力して、現在のラウンドのターゲット対話状態を取得する第２の入力ユニット７０３２と、を備える。

ここで、第１の対話状態生成モデルと第２の対話状態生成モデルは、コーデック事前トレーニングモデルである。

ここで、第１の対話状態生成モデルと第２の対話状態生成モデルは、Ｔｒａｎｓｆｏｒｍｅｒコーデック事前トレーニングモデルである。

ここで、第１の対話状態生成モデルと第２の対話状態生成モデルとのモデルパラメータが同じである。

以上、本開示の実施例に係る対話状態の生成装置は、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを取得し、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成し、現在のラウンドの初期対話状態と現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成する。本開示の対話状態の生成装置は、前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを第１の対話状態生成モデルに入力して、現在のラウンドの初期対話状態を取得し、現在のラウンドの初期対話状態と現在のラウンドの対話情報とを第２の対話状態生成モデルに入力して、現在のラウンドのターゲット対話状態を取得し、２つの段階の対話状態シーケンスの生成を行うことで、第２の段階が第１の段階で生成された対話状態を修飾及び修正し、第１の段階で習得しなかった情報を学習することができ、初めて生成されたミス対話状態を訂正することができ、最終的な対話状態追跡の効果を向上させ、２つの段階がモデルパラメータを共有するため、２つの段階が互に利得でき、最終的なモデル能力を向上させる。

本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体およびコンピュータプログラムをさらに提供する。

図８は、本開示の実施例を実施するための例示的な電子機器８００の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は求められる本開示の実現を制限するものではない。

図８に示すように、電子機器８００は、読み取り専用メモリ(ＲＯＭ)８０２に記憶されているコンピュータプログラム又は記憶ユニット８０８からランダムアクセスメモリ(ＲＡＭ)８０３にロードされたコンピュータプログラムにしたがって、様々な適切な動作及び処理を実行することができる計算ユニット８０１を備える。ＲＡＭ８０３には、電子機器８００の操作に必要な様々なプログラム及びデータを記憶することもできる。計算ユニット８０１、ＲＯＭ８０２及びＲＡＭ
８０３は、バス８０４を介して互いに接続されている。入力/出力(Ｉ/Ｏ)インターフェース８０５もバス８０４に接続されている。

キーボード、マウスなどの入力ユニット８０６と、様々なタイプのディスプレイ、スピーカーなどの出力ユニット８０７と、磁気ディスク、光ディスクなどの記憶ユニット８０８と、ネットワークカード、モデム、ワイヤレス通信トランシーバーなどの通信ユニット８０９とを備える電子機器８００の複数のコンポーネントは、Ｉ/Ｏインターフェース８０５に接続されている。通信ユニット８０９は、電子機器８００が、インターネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークなどを介して他のデバイスと情報/データを交換することを可能にする。

計算ユニット８０１は、処理及びコンピューティング能力を有する様々な汎用及び/又は特定用途向け処理コンポーネントであり得る。計算ユニット８０１のいくつかの例は、中央処理ユニット(ＣＰＵ)、グラフィックス処理ユニット(ＧＰＵ)、様々な特定用途向けの人工知能(ＡＩ)コンピューティングチップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタルシグナルプロセッサ(ＤＳＰ)、及びいずれの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット８０１は、上に説明した各方法及び処理、例えば図１～５に示す対話状態の生成方法を実行する。例えば、いくつかの実施例では、対話状態の生成方法は、記憶ユニット８０８などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ＲＯＭ８０２及び/又は通信ユニット８０９を介して電子機器８００にロード及び/又はインストールされてもよい。コンピュータプログラムがＲＡＭ８０３にロードされ、計算ユニット８０１によって実行される場合、上に説明した対話状態の生成方法の１つ又は複数のステップを実行することができる。選択的に、他の実施例では、計算ユニット８０１は、対話状態の生成方法を実行するように他のいずれの適切な方式(例えば、ファームウェアを介して)によって構成されてもよい。

本明細書に説明したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(ＦＰＧＡ)、特定用途向け集積回路(ＡＳＩＣ)、特定用途向け標準製品(ＡＳＳＰ)、システムオンチップ(ＳＯＣ)、複合プログラマブルロジックデバイス(ＣＰＬＤ)、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにより実装され得る。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含み、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを備えるプログラマブルシステム上で実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組合せを用いて書くことができる。これらのプログラムコードは、プログラムコードがプロセッサ又はコントローラによって実行された際に、フローチャート及び/又はブロック図において定義された機能/操作が実施されるように、汎用コンピュータ、特定用途向けコンピュータ或いは他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行され、部分的にマシン上で実行され、独立型ソフトウェアパッケージとして、一部がマシン上で実行されるとともに、一部がリモートマシン上で実行されるか、又は完全にリモートマシン或いはサーバ上で実行されてもよい。

本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置或いはデバイスによって使用されるために、又は命令実行システム、装置或いはデバイスと結合して使用されるためのプログラムを含むか、又は記憶することができる有形媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体システム、装置或いはデバイス、又は上記内容の任意の適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のさらなる具体的な例は、１つ又は複数のワイヤに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(ＲＡＭ)、読み取り専用メモリ(ＲＯＭ)、消去可能なログラマブル読み取り専用メモリ(ＥＰＲＯＭ又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(ＣＤ-ＲＯＭ)、光ストレージデバイス、磁気ストレージデバイス、又は上記内容のいずれの適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、本明細書に説明したシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、ＣＲＴ(陰極線管)又はＬＣＤ(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウスやトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって、コンピュータに入力を提供することが可能になる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、そして、任意の形態(音響入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信することができる。

本明細書に説明したシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はＷＥＢブラウザーを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインターフェース又は当該ＷＥＢブラウザーを介して本明細書に説明したシステム及び技術の実施形態とインタラクションすることができる)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントを備える任意の組み合わせコンピューティングシステム中で実施できる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介してシステムのコンポーネントを互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(ＬＡＮ)、ワイドエリアネットワーク(ＷＡＮ)、及びインターネットを含む。

コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント-サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバは、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれるクラウドサーバであってもよく、従来の物理ホスト及びＶＰＳサービス(「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、「ＶＰＳ」と略称)は、管理が難しく、サービス拡張性が弱いという欠点を解決するための、クラウドコンピューティングサービスシステムにおけるホスト製品の１つである。サーバは、分散システムのサーバであっても、ブロックチェーンと組み合わせたサーバであってもよい。

本開示の実施例によれば、本開示は、コンピュータプログラムをさらに提供し、コンピュータプログラムがプロセッサによって実行される場合、本開示の上記の実施例に示す対話状態の生成方法が実現される。

なお、上記の様々な形態のフローを使用して、ステップを並べ替えたり、追加したり、削除したりすることができる。例えば、本願に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよく、いが、本開示で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。

上記の具体的な実施形態は、本願の特許保護範囲に対する制限を構成するものではない。当業者にとって明らかなように、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び代替を行うことができる。本願の精神と原則の範囲内で行われる修正、同等の置換、及び改良などは、本願の保護範囲に含まれるべきである。

Claims

前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを取得するステップと、
前記前のラウンドのターゲット対話状態と前記現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成するステップと、
前記現在のラウンドの初期対話状態と前記現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成するステップと、
を含む、対話状態の生成方法。
前記前のラウンドのターゲット対話状態と前記現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成するステップが、
第１の対話状態生成モデルを取得するステップと、
前記前のラウンドのターゲット対話状態と前記現在のラウンドの対話情報とを前記第１の対話状態生成モデルに入力して、前記現在のラウンドの初期対話状態を取得するステップと、
を含む請求項１に記載の生成方法。
前記現在のラウンドの初期対話状態と前記現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成するステップが、
第２の対話状態生成モデルを取得するステップと、
前記現在のラウンドの初期対話状態と前記現在のラウンドの対話情報とを前記第２の対話状態生成モデルに入力して、前記現在のラウンドのターゲット対話状態を取得するステップと、
を含む請求項２に記載の生成方法。
前記第１の対話状態生成モデルと前記第２の対話状態生成モデルが、コーデック事前トレーニングモデルである請求項３に記載の生成方法。
前記第１の対話状態生成モデルと前記第２の対話状態生成モデルが、Ｔｒａｎｓｆｏｒｍｅｒコーデック事前トレーニングモデルである請求項４に記載の生成方法。
前記第１の対話状態生成モデルと前記第２の対話状態生成モデルとのモデルパラメータが同じである請求項３から５のいずれか一項に記載の生成方法。
前のラウンドのターゲット対話状態と現在のラウンドの対話情報とを取得する取得モジュールと、
前記前のラウンドのターゲット対話状態と前記現在のラウンドの対話情報とに基づいて、現在のラウンドの初期対話状態を生成する第１の生成モジュールと、
前記現在のラウンドの初期対話状態と前記現在のラウンドの対話情報とに基づいて、現在のラウンドのターゲット対話状態を生成する第２の生成モジュールと、
を含む、対話状態の生成装置。
前記第１の生成モジュールが、
第１の対話状態生成モデルを取得する第１の取得ユニットと、
前記前のラウンドのターゲット対話状態と前記現在のラウンドの対話情報とを前記第１の対話状態生成モデルに入力して、前記現在のラウンドの初期対話状態を取得する第１の入力ユニットと、
を含む請求項７に記載の生成装置。
前記第２の生成モジュールが、
第２の対話状態生成モデルを取得する第２の取得ユニットと、
前記現在のラウンドの初期対話状態と前記現在のラウンドの対話情報とを前記第２の対話状態生成モデルに入力して、前記現在のラウンドのターゲット対話状態を取得する第２の入力ユニットと、
を含む請求項８に記載の生成装置。
前記第１の対話状態生成モデルと前記第２の対話状態生成モデルが、コーデック事前トレーニングモデルである請求項９に記載の生成装置。
前記第１の対話状態生成モデルと前記第２の対話状態生成モデルが、Ｔｒａｎｓｆｏｒｍｅｒコーデック事前トレーニングモデルである請求項１０に記載の生成装置。
前記第１の対話状態生成モデルと前記第２の対話状態生成モデルとのモデルパラメータが同じである請求項９から１１のいずれか一項に記載の生成装置。
少なくとも１つのプロセッサと、
該少なくとも１つのプロセッサと通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも１つのプロセッサによって実行される命令が記憶されており、前記命令が、前記少なくとも１つのプロセッサが請求項１から６のいずれか一項に記載の方法を実行できるように、前記少なくとも１つのプロセッサによって実行される電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令が、コンピュータに請求項１から６のいずれか一項に記載の方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
プロセッサによって実行される場合に、請求項１から６のいずれか一項に記載の方法を実現するコンピュータプログラム。