JP2021106016A - 対話生成方法、装置、電子機器及び媒体 - Google Patents

対話生成方法、装置、電子機器及び媒体 Download PDF

Info

Publication number
JP2021106016A
JP2021106016A JP2021049009A JP2021049009A JP2021106016A JP 2021106016 A JP2021106016 A JP 2021106016A JP 2021049009 A JP2021049009 A JP 2021049009A JP 2021049009 A JP2021049009 A JP 2021049009A JP 2021106016 A JP2021106016 A JP 2021106016A
Authority
JP
Japan
Prior art keywords
feature
question
learning model
dialogue
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021049009A
Other languages
English (en)
Other versions
JP7204802B2 (ja
Inventor
ジェンユー ジャオ
Zhenyu Jiao
ジェンユー ジャオ
レイ ハン
Lei Huang
レイ ハン
ホンジェ グォ
Hongjie Guo
ホンジェ グォ
スチー スン
Shuqi Sun
スチー スン
ティンティン リ
Tingting Li
ティンティン リ
クァ スン
Ke Sun
クァ スン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021106016A publication Critical patent/JP2021106016A/ja
Application granted granted Critical
Publication of JP7204802B2 publication Critical patent/JP7204802B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】サンプル量により質問理解の精度が低下することを防ぐことが可能な対話生成方法、装置、電子機器及び媒体を提供する。【解決手段】方法は、取得した質問をそれぞれ少数ショット学習モデルと深層学習モデルに入力して第1特徴と第2特徴を生成し、第1特徴と第2特徴を組み合わせて特徴シーケンスを生成し、特徴シーケンスを融合モデルに入力して質問情報に対応する対話情報を生成することを含む。【効果】少数ショット学習モデル、深層学習モデル及び融合モデルを連携して質問に対応する対話情報を生成することで、モデルはサンプルが少ない場合とサンプルが多い場合の両方でより良い効果を取得し、閾値を設けて少数ショット学習モデルと深層学習モデルを選択する必要がなく、サンプル量の増加に伴って質問理解の精度が低下しにくく、モデルの安定性が向上する。【選択図】図1

Description

本出願の実施例は、一般的に、コンピュータ技術分野に関し、より具体的に自然言語処理技術分野に関する。
対話理解技術は、タスク型対話ロボットの重要な技術であり、ユーザが入力した質問の意図を理解するために用いられる。対話ロボットによる質問の理解は、対話配置プラットフォームに配置された対応するシーンに含まれる、ユーザの入力可能な意図及び対応するサンプルに依存する。
現在、対話理解質問に対しては、通常、深層学習モデルや少数ショット学習モデルを採用して、ユーザが入力した質問に対応する結果を予測する。サンプル量が少ない場合は、主に少数ショット学習モデルに基づいて対話理解を実現し、サンプル量が多い場合は、主に深層学習モデルに基づいて対話理解を実現する。少数ショット学習モデルと深層学習モデルの選択は、主にトレーニングサンプル量に基づく閾値を設定することで実現される。
しかしながら、閾値を人為的に設定して少数ショット学習モデルや深層学習モデルを選択すると、サンプル量が増加するにつれて逆に質問理解の精度が低下するという問題が起こりやすく、モデルの効果がよくない。
本出願は、対話生成方法、装置、電子機器及び媒体を提供する。
第1の態様によれば、対話生成方法を提供し、
質問情報を取得するステップと、
前記質問情報を少数ショット学習モデルに入力して第1特徴を生成するステップと、
前記質問情報を深層学習モデルに入力して第2特徴を生成するステップと、
前記第1特徴と前記第2特徴を組み合わせて特徴シーケンスを生成するステップと、
前記特徴シーケンスを融合モデルに入力して前記質問情報に対応する対話情報を生成するステップと、を含む。
第2の態様によれば、対話生成装置を提供し、
質問情報を取得するための取得モジュールと、
前記質問情報の第1特徴を生成するための少数ショット学習モデルと、
前記質問情報の第2特徴を生成するための深層学習モデルと、
前記質問情報に対応する対話情報を生成するための融合モデルと、
前記質問情報を少数ショット学習モデルに入力して第1特徴を生成するための第1の入力モジュールと、
前記質問情報を深層学習モデルに入力して第2特徴を生成するための第2の入力モジュールと、
前記第1特徴と前記第2特徴を組み合わせて特徴シーケンスを生成するための組み合わせモジュールと、
前記特徴シーケンスを融合モデルに入力して前記質問情報に対応する対話情報を生成するための生成モジュールと、を含む。
第3の態様によれば、電子機器を提供し、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが第1の態様に記載の対話生成方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに第1の態様に記載の対話生成方法を実行させる。
第5の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに第1の態様に記載の対話生成方法を実行させる。
本出願により提供される対話生成方法、装置、電子機器及び媒体は、以下のような有益な効果がある。
取得された質問をそれぞれ少数ショット学習モデルと深層学習モデルに入力して第1特徴と第2特徴を生成し、第1特徴と第2特徴を組み合わせて特徴シーケンスを生成し、特徴シーケンスを融合モデルに入力して質問情報に対応する対話情報を生成し、これにより、少数ショット学習モデル、深層学習モデル、及び融合モデルを連携して質問に対応する対話情報を生成することで、モデルはサンプルが少ない場合とサンプルが多い場合の両方でより良い効果を取得し、閾値を設けて少数ショット学習モデルと深層学習モデルを選択する必要がなく、サンプル量の増加に伴って質問理解の精度が低下するという問題が起こりにくく、モデルの安定性が向上する。
なお、この部分に記載されている内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。
図面は、本技術案をよりよく理解するために使用されており、本出願を限定するものではない。
本出願の第1の実施例に係る対話生成方法のフローチャートである。 本出願の第2の実施例に係る対話生成方法のフローチャートである。 本出願の実施例により提供される少数ショット学習モデルの概略構成図である。 本出願の第3の実施例に係る対話生成方法のフローチャートである。 本出願の実施例の深層学習モデルの概略構成図である。 本出願の第4の実施例に係る対話生成方法のフローチャートである。 少数ショット学習モデル、深層学習モデル、及び融合モデルの連携トレーニングのプロセスの概略図である。 本出願の第5の実施例に係る対話生成装置の概略構成図である。 本出願の実施例の対話生成方法を実現するための電子機器のブロック図である。
以下、図面を組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項を含んでおり、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
以下、図面を参照して本出願の対話生成方法、装置、電子機器及び媒体を説明する。
対話理解技術は、タスク型対話ロボットの重要な技術であり、ユーザで入力された質問の意図を理解するために用いられる。対話ロボットによる質問の理解は、対話配置プラットフォームに配置された対応するシーンに含まれる、ユーザの入力可能な意図及び対応するサンプルに依存する(例示)。例えば、ホテルのシーンでは、部屋の予約、チェックアウト、掃除の要求などの意図がある場合があり、開発者は、対話理解モデルがユーザによって入力されたすべての質問を正しく理解できるように、意図ごとにいくつかの例示表現、つまりサンプルを配置してモデルをトレーニングする必要がある。ここで、開発者とは、対話配置プラットフォーム上で意図やサンプルなどのデータを配置することで、プラットフォームに対話スキルを取得させて、さらには対話スキルを利用させてその顧客にサービスを提供させる人のことを指す。
現在、対話理解質問に対しては、通常、対話管理プラットフォームにテンプレートを配置し、及び大量のサンプルを配置することで、深層学習モデルをトレーニングして、入力された質問を分類する方法が採用される。また、少数の対話管理プラットフォームは、少数ショット学習技術を用いて対話理解演算子を構築しており、ユーザの1つの質問が対話管理プラットフォームに入力される場合、異なる対話理解演算子がそれぞれ対応する理解結果を生み出し、異なる対話理解演算子の得点及びそのときのトレーニングデータのサンプル量などの情況に基づいて、特定の規則に頼ってその質問の意図を得る。
しかしながら、テンプレートの配置は開発者に高い要求をし、開発者がシーンを深く理解し、一定の帰納能力を備えなければならず、かつ、人工的に配置されたテンプレートのカバレッジが限られている。
なお、深層学習モデルの効果は多くのサンプルに依存し、開発者はより多くのサンプルをマークしてモデルに良い効果をもたらす必要がある。少数ショット学習モデルは、サンプル量が少ない場合に良い効果を取得できるが、サンプル数が多くなる場合、その効果は深層学習モデルに対して劣る。したがって、一般的に、トレーニングサンプル量に基づく閾値を設定することにより、少数ショット学習モデルと深層学習モデルの選択の優先順位を決定し、サンプル量が閾値より小さい場合、主に少数ショット学習モデルに基づいて対話理解を実現し、サンプル量が閾値より高い場合、主に深層学習モデルに基づいて対話理解を実現する。
しかしながら、閾値を人為的に設定することで深層学習モデルまたは少数ショット学習モデルを選択すると、最適な結果を取得できず、またサンプル量の増加によりモデルが切り替わるため、サンプル量の向上に伴い、もともとサンプルが少ない場合で正しく理解できる質問が逆に正しく回答できないことが生じやすく、モデルの効果及び安定性が悪い。
上記問題に対して、本出願は、対話生成方法を開示し、取得された質問をそれぞれ少数ショット学習モデルと深層学習モデルに入力して第1特徴と第2特徴を生成し、第1特徴と第2特徴を組み合わせて特徴シーケンスを生成し、特徴シーケンスを融合モデルに入力して質問情報に対応する対話情報を生成し、これにより、少数ショット学習モデル、深層学習モデル、及び融合モデルを連携して質問に対応する対話情報を生成することで、モデルはサンプルが少ない場合とサンプルが多い場合の両方でより良い効果を取得し、閾値を設けて少数ショット学習モデルと深層学習モデルを選択する必要がなく、サンプル量の増加に伴って質問理解の精度が低下するという問題が起こりにくく、モデルの安定性が向上する。
図1は本出願の第1の実施例に係る対話生成方法のフローチャートであり、当該方法は、本出願により提供される対話生成装置によって実行することができ、本出願により提供される電子機器によって実行することもでき、ここで、電子機器は、サーバであってもよいし、スマートロボット、デスクトップパソコン、ノートパソコン、スマートフォン、ウェアラブル機器等の機器であってもよい。以下、本出願により提供される対話生成装置によって本出願により提供される対話生成方法を実行することを例として本出願について説明する。
図1に示すように、当該対話生成方法は、以下のステップを含むことができる。
ステップ101:質問情報を取得する。
本実施例では、質問情報はどのような質問であってもよく、例えば、質問情報はユーザが要求する質問であってもよく、例えば、ユーザが「西二旗へはどう行けばいいですか」という質問要求を出すと、「西二旗へはどう行けばいいですか」は取得された質問情報である。また、質問情報は、トレーニングが完了したモデルをテストする際に、モデルの性能をテストするための質問であってもよい。
ステップ102:質問情報を少数ショット学習モデルに入力して第1特徴を生成する。
本実施例では、質問情報を取得した後、取得された質問情報を少数ショット学習モデルに入力して、第1特徴を生成することができる。ここで、少数ショット学習モデルは、予めトレーニングされたモデルであり、質問情報を少数ショット学習モデルに入力した後、少数ショット学習モデルは、入力された質問情報に基づいて、質問情報に対応する第1特徴を生成及び出力することができ、第1特徴は、例えば、質問情報に対応する質問特徴、及び質問情報とマッチングする意図の特徴などを含むことができる。
メタ学習段階は、少数ショット学習理解技術を提案する基礎段階である。メタ学習は、学習を学ぶこととも呼ばれ、モデルに対して異なるタスクのトレーニングを複数回行うことで、モデルが異なるタスクに迅速に適応する学習能力を取得し、モデルが新しいタスクに遭遇する場合に、迅速に適応でき、少量のデータに依存するだけで良い学習効果を得ることができる。メタ学習によって生成されたモデルはメタモデルと呼ばれ、メタ学習のターゲットはメタモデルを異なるタスク間で共通の特徴に集中させ、特定のタスクの固有の特徴への依存を低減させることである。本出願の実施例の少数ショット学習モデルはメタ学習に基づいて構築され、トレーニングされたものである。
本出願の少数ショット学習モデルは、入力された質問情報とトレーニングサンプルにおける質問をマッチングし、トレーニングサンプルに類似する質問が属する意図カテゴリに基づいて、入力された質問情報に対応する意図カテゴリを付与し、入力された質問情報に対応する質問特徴、意図特徴などを出力し、サンプル量が少ない場合により良い予測効果を取得することを実現することができる。
対話管理プラットフォームは、大量のユーザにサービスを提供すると同時に、質問、意図、スロット、ログなどの大量のユーザ設定データを蓄積する。本出願の実施例では、対話管理プラットフォームに蓄積された大量のユーザ設定データのスキルデータを用いて、大量のシーン下で複数の意図分類の学習タスクを構築することができ、各意図は複数の関連する質問を含むことができ、メタ学習トレーニングを行って少数ショット学習モデルを取得することに用いられ、それによって少数ショット学習モデルが実際の各シーンでの意図分類タスクに適応できるようになり、トレーニング時に様々なタスクを継続的に採用することで、モデルが様々なタイプのタスクに良い効果をもたらすことができる。且つ、対話管理プラットフォームに蓄積されたデータを用いて少数ショット学習モデルをトレーニングし、テンプレートのマーク量を効果的に減らし、開発者の作業量を低減することができ、モデルが少ないユーザマークデータに依存するだけで良い効果を得ることができ、モデルがユーザマークサンプルの品質の影響を受けにくく、モデルの安定性を向上させることに有利である。
ステップ103:質問情報を深層学習モデルに入力して第2特徴を生成する。
本実施例では、質問情報を取得した後、質問情報を深層学習モデルに入力して第2特徴を生成することができる。ここで、深層学習モデルは、予めトレーニングされたモデルであり、質問情報を深層学習モデルに入力した後、深層学習モデルは、入力された質問情報に基づいて、質問情報に対応する第2特徴を生成及び出力することができ、第2特徴は、例えば、質問情報に対して語埋め込み処理を行って生成した特徴ベクトルや、特徴ベクトルを融合処理して得られた高次特徴などである。
本実施例では、取得された質問情報を深層学習モデル入力した後、深層学習モデルが質問情報に対して特徴抽出、埋め込み、融合操作を行った後、第2特徴を生成及び出力することができ、第2特徴を具体的に生成するプロセスは後の実施形態で与えられており、重複を避けるためにここでは詳細に説明しない。
なお、ステップ102とステップ103の実行順序は順不同であり、本出願の実施例はステップ103がステップ102の後に実行されることを例として本出願を説明するものであり、本出願を限定するものではない。
ステップ104:第1特徴と第2特徴を組み合わせて特徴シーケンスを生成する。
本実施例では、少数ショット学習モデルから質問情報の第1特徴を取得し、及び深層学習モデルから質問情報の第2特徴を取得した後、第1特徴と第2特徴を組み合わせて、特徴シーケンスを取得することができる。ここで、単一の組み合わせ方式を採用して第1特徴と第2特徴を組み合わせてもよいし、様々な異なる方式を採用して第1特徴と第2特徴を組み合わせてもよいし、本出願ではこれに限定されない。
1つの例示として、第1特徴と第2特徴を組み合わせる方式はスプライシングであってもよい、第1特徴と第2特徴をスプライシング処理し、スプライシング後の特徴シーケンスを取得する。第1特徴および/または第2特徴は複数の特徴を含む時に、含まれる各特徴を別の特徴とスプライシングして、複数の特徴シーケンスを生成することができる。例えば、第1特徴には2つの特徴が含まれ、第2特徴には1つの特徴が含まれる場合、第1特徴における各特徴を第2特徴とスプライシングして、2つの特徴シーケンスを取得する。
1つの例示として、スプライシング、内積などの複数の異なる方式を採用して第1特徴と第2特徴を組み合わせて、特徴シーケンスの多様性を保証するために複数の特徴シーケンスを取得することができる。
ステップ105:特徴シーケンスを融合モデルに入力して質問情報に対応する対話情報を生成する。
本実施例では、特徴シーケンスを取得した後、質問情報に対応する対話情報を生成するように、特徴シーケンスを融合モデルに入力することができる。ここで、会話情報は、質問情報に合致する意図、質問情報に答えることができる答えなどの情報であってもよい。
例えば、質問情報が「西二旗へはどう行けばいいですか」である場合、前述ステップの処理を経た後、融合モデルによって当該質問情報に対応する対話情報をルートナビゲーションとして生成することができ、本出願により提供される対話生成方法がナビゲーションソフトウェアを有する電子機器に適用される場合、決定された対話情報をナビゲーションソフトウェアにフィードバックし、ナビゲーションソフトウェアは、対話情報に基づいてユーザがいる位置から西二旗までのルート推奨情報をユーザに提供することもできる。
本出願の実施例では、融合モデルは予めトレーニングされたネットワークモデルであり、融合モデルをトレーニングする際に、クロスエントロピー損失関数を採用して融合モデルを最適化することができる。融合モデルは多層完全接続ネットワークを採用して実現され、softmax関数を用いて最終結果を出力することができ、softmax関数で出力されたものは質問情報が意図カテゴリごとに属する確率であり、各確率の大きさに基づいて、質問情報に対応する意図カテゴリを決定して、対話情報を取得することができる。
本実施例の対話生成方法は、質問情報を取得し、質問情報を少数ショット学習モデルに入力して第1特徴を生成し、及び質問情報を深層学習モデルに入力して第2特徴を生成し、さらに第1特徴と第2特徴を組み合わせて特徴シーケンスを生成し、特徴シーケンスを融合モデルに入力して質問情報に対応する対話情報を生成し、これにより、少数ショット学習モデル、深層学習モデル、及び融合モデルを連携して質問に対応する対話情報を生成することで、モデルはサンプルが少ない場合とサンプルが多い場合の両方でより良い効果を取得し、閾値を設けて少数ショット学習モデルと深層学習モデルを選択する必要がなく、サンプル量の増加に伴って質問理解の精度が低下するという問題が起こりにくく、モデルの安定性が向上する。
本出願の実施例の1つの可能な実現形態では、質問情報を少数ショット学習モデルに入力し、少数ショット学習モデルで生成及び出力された第1特徴は質問特徴とサポートセット特徴とを含む。以下、図2を組み合わせて、本出願の実施例では、少数ショット学習モデルが質問特徴とサポートセット特徴を生成する具体的な実現プロセスを詳細に説明する。
図2は本出願の第2の実施例に係る対話生成方法のフローチャートであり、図2に示すように、図1に示す実施例に基づいて、ステップ102は以下のステップを含むことができる。
ステップ201:少数ショット学習モデルが質問情報に対して特徴抽出を行って、質問特徴を生成する。
本実施例では、少数ショット学習モデルが入力された質問情報を受信した後、質問情報に対して特徴抽出を行って、質問特徴を生成する。ここで、質問特徴は質問情報に対応するものであり、質問情報に対して特徴抽出を行って取得された特徴は質問特徴である。
質問情報に対して特徴抽出を行い、すなわち質問情報を特徴符号化し、質問情報を特定の長さのベクトルに符号化し、この固定長のベクトルが質問情報に対応する質問特徴であり、質問情報を識別することに用いられる。
1つの例示として、質問情報に対して特徴抽出を行うには、双方向長短期記憶ネットワーク(Long short−Term memory、LSTM)と自己注意機構を結合する方式を採用して質問特徴を抽出してもよいし、または、他の特徴抽出ネットワークを採用して質問特徴を抽出してもよい、本出願はこれに限定されない。
ステップ202:少数ショット学習モデルが質問特徴に基づいて、質問情報に対応するサポートセットを取得し、質問情報に対応するサポートセットのサポートセット特徴を取得する。
本実施例では、少数ショット学習モデルが質問情報の質問特徴を抽出した後、質問特徴に基づいて質問情報に対応するサポートセットをさらに取得することができる。
ここで、サポートセットは、少数ショット学習に特有の概念で、開発者がアップロードしたトレーニングデータとして理解できる。例えば、開発者は図書館シーンのスキルを配置し、このスキルには2つの意図が含まれ、1つは本を借りることであり、1つは本を返すことであり、開発者は、本を借りることに「本を借りたい」、「三国演義を借りたい」、「明日は高等数学を借りる」という3つのトレーニングサンプルを配置し、本を返すことに「本を返したい」、「明後日本を返したい」という2つのトレーニングサンプルを配置し、この2つの意図、合計5つのトレーニングサンプルは図書館シーンのサポートセットを構成する。本実施例では、すべてのサポートセットから質問情報に対応するサポートセットを選択し、例えば、入力された質問情報が「本を借りたい」である場合、質問情報から抽出された質問特徴に基づいて、質問情報に対応するサポートセットが、本を借りる意図に含まれる3つのトレーニングサンプルであることを得ることができ、すなわち本を借りる意図に対応するトレーニングサンプルの「本を借りたい」、「三国演義を借りたい」及び「明日は高等数学を借る」が質問情報に対応するサポートセットを構成する。
本出願の実施例の1つの可能な実現形態では、少数ショット学習モデルが質問特徴に基づいて質問情報に対応するサポートセットを取得する時に、まず複数の候補サポートセットを取得し、各候補サポートセットの意図特徴を取得することができる。ここで、候補サポートセットは質問情報に対応するシーンに基づいて決定でき、例えば、質問情報が属するアプリケーションシーンが図書館シーンである場合、本を借りる意図に対応するサポートセットと本を返す意図に対応するサポートセットを候補サポートセットとして取得することができる。また、質問情報が属するアプリケーションシーンがホテルシーンである場合、部屋を予約する意図に対応するサポートセット、チェックアウトする意図に対応するサポートセット、掃除を頼む意図に対応するサポートセットなどを候補サポートセットとして取得することができる。
次いで、複数の候補サポートセットを取得した後、各候補サポートセットの意図特徴をさらに取得することができる。
1つの可能な実現形態として、各候補サポートセットに対応する意図をベクトル表現し、意図のベクトル表現結果をこの候補サポートセットの意図特徴とすることができる。
1つの可能な実現形態として、候補サポートセットには複数の質問が含まれ、まず候補サポートセットにおける複数の質問の質問特徴を取得し、そして複数の質問の質問特徴に基づいて候補サポートセットの意図特徴を生成することができる。
ここで、候補サポートセットにおける各質問に対しては、各質問を特徴符号化することができ、例えば、双方向LSTMと自己注意機構を結合する方式を採用して各質問を符号化し、各質問に対応する質問特徴を取得する。
複数の質問の質問特徴に基づいて意図特徴を生成する場合、各候補サポートセットに対しては、質問情報に対応する質問特徴によって、その候補サポートセットにおける各質問の質問特徴に注意機構を生成し、その候補サポートセットにおける異なる質問ベクトルに基づいて重み付けされた意図プロトタイプベクトルを取得し、これにより、その候補サポートセットの意図特徴を取得する。
例えば、aは入力された質問情報の質問特徴を表し、x_iはi番目の意図(つまりi番目の候補サポートセット)を表し、nはi番目の候補サポートセット下でのサンプル量を表し、x_ijはi番目の候補サポートセットのj番目の質問に対応する質問特徴(j=1,2、…、n)を表し、x_i_classはi番目の候補サポートセットに対応する意図特徴を表すと仮定すると、i番目の候補サポートセットに対応する意図特徴は、
x_i_class=(cos(a、x_i1)*x_i1+cos(a、x_i2)*x_i1+…+cos(a、x_in)*x_in)/n
として表すことができ、
さらに、サンプル量が多い場合、入力された質問情報との類似度が高いサンプルが意図特徴に与える影響が大きいことを保証するために、類似度が最も大きいk個のサンプルの質問特徴を選択して意図特徴を表すことができ、すなわち、
x_i_class=(t_1*cos(a、x_i1)*x_i1+…+t_n*cos(a、x_in)*x_in)/k、
ここで、t_1〜t_nのうち、cos値に対応する最大のk個が1、残りが0であり、これにより、質問情報の質問特徴との類似度が最も高い質問サンプルは意図特徴に与える影響が大きい。
本実施例では、候補サポートセットにおける複数の質問の質問特徴を取得し、複数の質問の質問特徴に基づいて候補サポートセットの意図特徴を生成し、これにより、候補サポートセット対応する意図に対する特長表現を実現し、意図特徴は候補サポートセットにおける異なる質問特徴の重み付けに基づいて得られたものであり、少数ショット学習モデルが入力された異なる質問情報に対して、異なる意図特徴を取得することができる。
上記に記載の候補サポートセットの意図特徴を取得する実現プロセスに基づいて、各候補サポートセットの意図特徴を取得することができ、さらに少数ショット学習モデルが質問情報に対応する質問特徴及び各候補サポートセットの意図特徴に基づいて、複数の候補サポートセットに対する質問情報に対応する質問特徴の直接得点を生成し、複数の候補サポートセットに対する質問情報に対応する質問特徴の直接得点に基づいて複数の候補サポートセットから質問情報に対応するサポートセットを選択する。
1つの例示として、複数の候補サポートセットに対する質問情報に対応する質問特徴の直接得点を生成する場合、質問情報に対応する質問特徴をそれぞれ各候補サポートセットに対応する意図特徴をスプライシングし、2つの完全接続層で処理し、sigmoid関数によって、0〜1の間の得点を出力し、当該得点が直接得点である。各候補サポートセットに対応する意図特徴はすべて上記処理プロセスを経て、入力された質問情報が異なる候補サポートセットに属する直接得点を得て、直接得点は得点の表意性を表すことに用いられ、分類に対する正しい信頼度を表し、質問情報に対応する質問特徴の複数の候補サポートセットに対する直接得点に基づいて、複数の候補サポートセットから質問情報に対応するサポートセットを選択することができる。例えば、直接得点が最も高い候補サポートセットを質問情報に対応するサポートセットとして選択することができる。
本実施例では、複数の候補サポートセットを取得し、各候補サポートセットの意図特徴を取得し、さらに質問情報に対応する質問特徴及び各候補サポートセットの意図特徴に基づいて、複数の候補サポートセットに対する質問特徴の直接得点を生成し、最後に直接得点に基づいて質問情報に対応するサポートセットを選択することにより、複数の候補サポートセットから質問情報に最も合致するサポートセットを選択し、サポートセットを選択する正確率を向上させ、後に質問情報を正確に理解するための条件を提供する。
さらに、本出願の実施例の1つの可能な実現形態では、少数ショット学習モデルは、各候補サポートセットの意図特徴に基づいて複数の候補サポートセット間のコンテキスト特徴を生成し、さらに質問情報に対応する質問特徴、各候補サポートセットの意図特徴及びコンテキスト特徴に基づいて比較得点を生成し、直接得点と比較得点に基づいて複数の候補サポートセットから質問情報に対応するサポートセットを選択することもできる。
異なる候補サポートセットに対応する意図が異なり、本実施例では、各候補サポートセットの意図特徴が他の候補サポートセットの意図特徴を取得できるように、各候補サポートセットの意図特徴に基づいて複数の候補意図特徴間のコンテキスト特徴を生成することができ、それによって異なる意図の区別性を向上させることに役立つ。具体的に実現する場合、双方向LSTMを採用して、各候補サポートセットの意図特徴をシーケンスの中の1つの要素と見なして、セットツーセット(set to set)フレームワークを採用して、コンテキストをモデリングして、このシーケンスを双方向LSTMに入力して、双方向LSTMの出力からコンテキストを含むコンテキスト特徴を取得することができる。
次いで、質問情報に対応する質問特徴、各候補サポートセットの意図特徴及びコンテキスト特徴に基づいて、比較得点を生成することができる。
1つの例示として、各候補サポートセットに対して、質問情報に対応する質問特徴、当該候補サポートセットの意図特徴及びコンテキスト特徴をスプライシングした後、完全接続層を介して1つの得点を出力し、質問情報の本当の意図に対応する得点及び当該得点に基づいて、sigmoid関数とクロスエントロピー損失関数によって、比較得点を求める。
例えば、入力された質問情報aの本当の意図が意図3であり、すなわち質問情報aに対応するサポートセットが意図3に対応するサポートセットであると仮定すると、aの質問特徴とサポートセット1(意図1に対応する)の意図特徴とコンテキスト特徴をスプライシングした後、2つの完全接続層を介して、得点を出力してs1と記し、同じように、意図2、意図3など各候補サポートセットの意図に対して1つの得点を取得することもでき、s2、s3等と記す。s3>s1の確率をsigmoid(s3−s1)で表し、同じように、s3>s2の確率、s3>s4の確率等を計算して取得することができ、クロスエントロピー損失関数によって損失を求めて、比較得点を取得する。
比較得点は、質問情報が候補サポートセットAに属するものが候補サポートセットBに属するものより大きい得点を指し、分類の正確性を保証し、直接得点は、分類の正確な信頼性を表すことに用いられ、これにより、本実施例では、比較得点と直接得点に基づいて、複数の候補サポートセットから質問情報に対応するサポートセットを選択することができる。
本実施例では、各候補サポートセットの意図特徴に基づいて複数の候補サポートセット間のコンテキスト特徴を生成することにより、各候補サポートセットの意図特徴が他の候補サポートセットの意図特徴の情報を取得できるようにし、したがって異なる意図の区別性を向上させることに役立つ。質問特徴、各候補サポートセットの意図特徴及びコンテキスト特徴に基づいて比較得点を生成し、直接得点と比較得点に基づいて質問情報に対応するサポートセットを選択することにより、サポートセットの選択の正確率を保証する。
次いで、質問情報に対応するサポートセットを取得した後、質問情報に対応するサポートセットのサポートセット特徴をさらに取得することができる。例えば、上記意図特徴をサポートセット特徴とすることができ、つまり、サポートセットのサポートセット特徴は、サポートセットにおける各質問の質問特徴に注意機構を生成して取得することができる。
本実施例の対話生成方法は、質問情報に対して特徴抽出を行って質問特徴を生成し、質問特徴に基づいて質問情報に対応するサポートセットを取得し、さらに質問情報に対応するサポートセットのサポートセット特徴を取得し、これにより、少数ショット学習モデルによって質問情報に対して特徴抽出を行うことを実現し、後に抽出された特徴に基づいて質問理解を行うための条件を提供する。
図3は本出願の実施例により提供される少数ショット学習モデルの概略構成図である。図3に示すように、当該少数ショット学習モデルは主に、特徴抽出(すなわち符号化)部分、プロトタイプ抽出部分、コンテキストモデリング部分、及び関係計算部分という4つの部分を含む。ここで、特徴抽出部分の主な機能は、サポートセットにおける各意図の各質問及び要求された質問情報を特徴符号化し、各質問情報を特定の長さのベクトルに符号化し、固定長のベクトルで対応する質問を識別することである。具体的に採用された方式は、双方向LSTM+自己注意機構であってもよいし、transformer構造などの他の特徴抽出構造であってもよい。プロトタイプ抽出部分では、サポートセットにおける各意図をベクトル表現し、各意図に対応する意図ベクトルを取得する。具体的には要求された質問情報によって意図中の各質問に注意機構を生成し、この意図における異なる質問の質問特徴に基づく意図特徴を取得し、これにより、それぞれの異なる要求質問に対して、異なる意図特徴を取得することもでき、この意図ベクトルは、要求質問にうまく対応するために、隠れ空間意図プロトタイプの側面シルエットと考えることができる。なお、サンプル量がより多い場合、注意機構は注意力をサポートセット中の一部の質問に集中し、生成された各意図の意図特徴をより代表的にする。サポートセットには複数の異なる意図が含まれるため、それぞれの意図の意図特徴が文章のコンテキストに似た他の意図の情報を取得できることが望まれ、異なる意図の区別性を向上させることに役立つ。コンテキストモデリング部分では、各意図特徴をシーケンスの中の1つの要素と見なし、このシーケンスを双方向LSTMに入力して、双方向LSTMの出力から他の意図特徴が含まれる各意図のコンテキスト特徴を取得することができる。関係計算部では、要求質問が候補意図のどの意図に属するか(または属していないか)を計算し、この部分には、マルチタスク学習スキームが含まれ、直接的な質問がある意図に属する直接得点と、質問がA意図に属することがB意図に属することより大きい比較得点が含まれ、比較得点が分類の正確率を保証し、直接得点が得点の表意性を保証し、直接得点がモデルの分類に対する正しい信頼度を表していることから、直接得点と比較得点に基づいて、要求質問が属する意図を決定することができる。
実際の対話シーンでは、開発者で配置された異なるスキルは異なる意図を含み、同じスキルで異なる意図間のサンプル数も異なる。対話管理プラットフォームによって、大量の実際のユーザスキル、及びスキル下のユーザで配置された実際のデータを取得することができ、これらのデータも、異なるシーン意図数とサンプル数が大きく変化していることをリアルに反映している。これらのデータを十分に使用することにより、本出願の実施例の少数ショット学習モデルは、複雑で多様なシーンに対して同一のメタ学習モデルを用いて解決することを実現し、複数の異なるシーン間での効果の安定性を保証する。ユーザが具体的なスキルを配置した後、メタ学習モデルを簡単に微調整することで、微調整しなくてもより良い効果を取得することができる。対話管理プラットフォームのデータ蓄積のメリットを十分に発揮することで、サンプルが少ない場合でも、新しい質問と既知のトレーニングサンプルの類似度から新しい質問の意図を推定し、モデルの可用性を向上させることができる。
本出願の実施例の1つの可能な実現形態では、質問情報を深層学習モデルに入力し、深層学習モデルで生成及び出力された第2特徴は、低次特徴と高次特徴を含む。以下、図4を組み合わせて、本出願の実施例では、深層学習モデルが質問情報に基づいて低次特徴と高次特徴を生成する具体的な実現プロセスを詳細に説明する。
図4は本出願の第3の実施例に係る対話生成方法のフローチャートであり、図4に示すように、図1に示す実施例に基づいて、ステップ103は以下のステップを含むことができる。
ステップ301:深層学習モデルが質問情報に対して特徴抽出を行って、質問情報の特徴情報を生成する。
本実施例では、深層学習モデルが質問情報に対して特徴抽出を行い、抽出されたものは質問情報の単語分割の結果、品詞結果、及び含まれる命名エンティティなどであってもよい。
1つの例示として、深層学習モデルは語法分析ツールを埋め込むことができ、入力された質問情報に対して特徴抽出を行って、質問情報の単語分割の結果、品詞結果、及び含まれる命名エンティティなどの特徴情報を取得する。
ここで、語法分析ツールは、対話管理プラットフォームに蓄積された大量のデータ及び他のビッグデータプラットフォームに蓄積されたデータによってトレーニングして取得されることができ、大量のデータを十分にトレーニングすることにより、語法分析ツールに優れた特徴抽出能力を持たせ、深さ学習モデルがユーザで配置されたサンプルが少ない場合や偏りがある場合でもより良い効果を得ることができるようにする。
ステップ302:深層学習モデルが特徴情報に対して特徴埋め込み処理を行って、質問情報の低次特徴を生成する。
本実施例では、抽出された特徴情報に対して、さらに特徴埋め込み処理によってニューラルネットワークで処理できる形式に変換し、埋め込み後の特徴を形成することができ、この特徴がディープニューラルネットワークの入力層に近いため、低次特徴とも呼ばれ、低次元特徴とも呼ばれる。
ここで、特徴埋め込み処理の方式は、各特徴情報を辞書でベクトルにマッピングし、質問情報の低次特徴を得るなど、現在比較的成熟した埋め込みモデルを用いて実現できる。本出願は特徴埋め込み処理の具体的な実現形態を限定しない。
ステップ303:深層学習モデルが低次特徴を特徴融合して、高次特徴を生成する。
本実施例では、質問情報の低次特徴を取得した後、低次特徴を特徴融合して、質問情報の高次特徴を取得することができる。ここで、高次特徴は、最終出力層に近い特徴を指し、例えば、完全接続層で出力された特徴を高次特徴として取得する。
1つの例示として、質問情報の低次特徴を取得した後、取得された各低次特徴をスプライシングして、1つの長い特徴ベクトルを取得しこの長い特徴ベクトルを双方向LSTMし、さらに最大プーリングし、質問情報に対応する高次特徴を取得することができる。
本実施例の対話生成方法は、深層学習モデルが質問情報に対して特徴抽出を行って、質問情報の特徴情報を生成し、特徴情報に対して特徴埋め込み処理を行って、質問情報の低次特徴を生成し、低次特徴を特徴融合して、高次特徴を生成し、これにより、深層学習モデルから質問情報の特徴を抽出することを実現し、後に抽出された特徴に基づいて質問理解を行うための条件を提供する。
さらに、本出願の実施例の1つの可能な実現形態では、深層学習モデルが質問情報の外部特徴ベクトルも受信し、ここで、外部特徴ベクトルは予め設定されたベクトル表現モデルによって生成され、予め設定されたベクトル表現モデルは、例えば、知識拡張語意表現モデル(Enhanced Representation from kNowledge IntEgration、ERNIE)であってもよいし、他のワードベクトル事前トレーニングモデルであってもよい、本出願はこれに限定されない。取得された質問情報をERNIEなどのワードベクトル事前トレーニングモデルに入力して、対応するベクトル表現を取得することができ、このベクトル表現を質問情報の外部特徴ベクトルと記す。さらに、深層学習モデルが低次特徴と外部特徴ベクトルを特徴融合して、高次特徴を生成する。ここで、低次特徴と外部特徴ベクトルをスプライシングした後、スプライシングされたベクトルを双方向LSTMし、さらに最大プーリングし、高次特徴を取得することができる。
これにより、質問情報の外部特徴ベクトルを受信し、低次特徴と外部特徴ベクトルを特徴融合して、高次特徴を生成することにより、深層学習モデルが質問情報の高次特徴を生成する時に、質問情報自体の特徴情報を考慮するだけでなく、他のモデルによって生成された質問情報の外部特徴ベクトルも考慮し、高次特徴の抽出の正確性を向上させることを役立ち、抽出された高次特徴が質問情報を正確に識別できるようにする。
本出願の実施例の1つの可能な実現形態では、深層学習モデルは、質問情報の外部知識ベクトルも受信し、ここで、外部知識ベクトルは予め設定されたトレーニングサンプルにおける質問情報とマッチングするターゲットトレーニングサンプルに対応するベクトル表現である。例えば、トレーニングデータ中のサンプルとスロットとの関係を統計し、テスト時に入力された質問に含まれるワードスロットが対応する条件を満たす場合、当該サンプルの可能な意図分布も入力としてモデルに追加する。外部知識ベクトルの抽出プロセスを理解しやすいように、以下に外部知識ベクトルの抽出について詳しく紹介し、例を挙げて説明する。
トレーニングサンプルから必要なワードスロット、マイナーワードスロット及び最小ワードスロットの3種類の情報を抽出し、ここで、必要なスロットは、意図の対話サンプルに必ず現れるスロットと定義され、マイナースロットは、意図の対話サンプルに現れたことがあるが、必ずしも現れるわけではないスロットと定義され、最小スロットのカバー占有率は意図のサンプルのうちスロット部分の長さがサンプル全体の長さに占める最小の割合として定義される。
トレーニングサンプルから意図ごとに上記3種類の情報を抽出した後、予測時に新たに対話サンプルが現れた場合、情報に基づいて意図を満たすかどうかを判断する。まず、トレーニングセット辞書マッチングとエンティティ認識結果を用いて、新しいサンプルに含まれる可能性のあるすべてのスロットビットをチェックし、新しいサンプルに意図の必要なスロットが含まれるかどうかをチェックし、必要なスロットが含まれていれば、他のすべての可能なマイナーワードスロットをサンプルにマークし、最後にスロットのカバー占有率が意図の最小スロットのカバー占有率以上であるかどうかをチェックし、意図の最小スロットのカバー占有率以上であれば、意図を満たし、そうでなければ意図を満たさない。満たされたすべての意図は、取得されたこの新サンプルの意図候補知識である。知識とモデルを結合するために、意図候補知識を、次元と分類意図の数が等しい、取りうる値が1と0であるベクトルに変換し、ベクトルの各次元が1つの意図に対応し、ベクトルの各次元の取りうる値が0または1である。意図が意図候補知識に現れた場合、対応する次元は1であり、そうでなければ0であり、そのベクトルが外部知識ベクトルである。
以下、例を挙げて上記プロセスを説明する。
以下の4つのマークトレーニングサンプルがあると仮定すると、ここで、1つ目は対話サンプルであり、2つ目は意図であり、後はスロットであり、ROUTEはルートを照会する意図であり、TRAFFICは道路状況を問い合わせる意図であり、user_naviはナビゲーションスロットであり、kw_goは「行く」スロットを示し、user_route_arrivalは目的地スロットであり、kw_trafficは道路状況キーワードスロットであり、user_travel_typeは外出手段である。
トレーニングサンプル1:ナビゲーションで西二旗へ行く ROUTE user_navi:ナビゲーション kw_go:行く user_route_arrival:西二旗、
トレーニングサンプル2:私が車で西二旗へ行くルート ROUTE kw_go:行く user_route_arrival:西二旗 user_travel_type:車で、
トレーニングサンプル3:ナビゲーションで西二旗に行くと渋滞するか TRAFFI Cuser_navi:ナビゲーション kw_go:行く user_route_arrival:西二旗 kw_traffic:渋滞するか、
トレーニングサンプル4:前方道路状況 TRAFFICkw_traffic:道路状況。
上記4つのサンプルから、ROUTE意図の必要なスロットであるkw_goとuser_route_arrival、マイナースロットであるuser_naviとuser_travel_type、TRAFFIC意図の必要なスロットであるkw_traffic道路状況、マイナースロットであるuser_navi、kw_go及びuser_route_arrivalを抽出することができる。ROUTE意図に対応する2つのサンプルのスロットのカバー占有率がそれぞれ100%と54.5%であるため、ROUTEの最小スロットのカバー占有率は54.5%であり、TRAFFIC意図に対応する2つのサンプルのスロットカバー占有率がそれぞれ100%と50%であるため、TRAFFICの最小スロットの占有率は50%である。同時に、スロット辞書であるuser_navi:{ナビゲーション}、kw_go:{行く}、user_route_arrival:{西二旗}、kw_traffic:{道路状況、渋滞するか}を統計することもできる。
1つの新しい予測サンプルの「ナビゲーションで西二旗へはどう行けばいいか」が現れると、user_navi:ナビゲーション、kw_go:行く、user_route_arrival:西二旗、を含めるすべての可能なスロットをスロット辞書によってマッチングする。スロットにはROUTEの必要なスロットkw_goとuser_route_arrivalが含まれ、user_naviはROUTEマイナースロットであり、スロットのカバー占有率が6/9=66.7%であり、ROUTEの最小カバー占有率54.5%より大きい、予測サンプルが意図ROUTEを満たす。スロットにはTRAFFICの必要なスロットkw_trafficが含まれていないため、予測サンプルが意図ROUTEを満たさない。最後に取得された意図候補知識が{ROUTE}であり、TRAFFICという間違った候補が排除される。分類の意図総量がROUTEとTRAFFICの2つの意図だけで、第1次元がROUTEを表し、第2次元がTRAFFICを表すと仮定すると、出力されたベクトルは{1,0}であり、つまり、質問「ナビゲーションで西二旗へはどう行けばいいか」に対応する外部知識ベクトルは{1,0}である。
これにより、深層学習モデルが外部知識ベクトルを受信した後、低次特徴、前記外部知識ベクトル及び外部特徴ベクトルをさらに特徴融合して、高次特徴を生成することができる。ここで、低次特徴、外部知識ベクトル及び外部特徴ベクトルをスプライシングした後、スプライシングされたベクトルを双方向LSTMし、さらに最大プーリングし、高次特徴を取得することができる。
これにより、深層学習モデルが質問情報の外部知識ベクトルを受信し、低次特徴、外部知識ベクトル及び外部特徴ベクトルを特徴融合して、高次特徴を生成することにより、深層学習モデルが質問情報の高次特徴を生成する時に、質問情報自体の特徴情報、外部モデルで入力された外部特徴ベクトル及び統計して取得された外部知識ベクトルを全面的に考慮するようにし、高次特徴の組み合わせの適切性を向上させ、高次特徴の抽出の正確性を向上させることを役立ち、抽出された高次特徴が質問情報を正確に識別できるようにする。
図5は本出願の実施例の深層学習モデルの概略構成図である。図5に示すように、当該深層学習モデルは、特徴抽出、特徴埋め込み、特徴融合、意図予測及び損失計算という5つの部分を含む。ここで、特徴抽出部分では、質問情報の単語分割の結果、品詞結果及び含まれる命名エンティティなどの質問情報自体の特徴を抽出することを含み、質問情報自体の特徴の抽出は語法分析ツールによって実現でき、現在人気のある事前トレーニングモデル(例えばERNIE)から取得された質問情報の特徴などのいくつかの他の外部特徴をさらに含み、トレーニングサンプルから抽出されたいくつかの知識などのいくつかの他の外部知識特徴をさらに含み、ここで、外部知識特徴の取得は上記関連内容の説明を参照し、ここでは説明を省略する。対話管理プラットフォーム自体に蓄積された大量のデータ、及び他のビッグデータプラットフォームに蓄積されたデータのおかげで、使用される語法分析ツール、及び事前トレーニングモデルは十分にトレーニングされて、優れた基礎特徴抽出能力を有するようになり、ユーザの配置サンプルが少ない場合や偏りがある場合でも、より良い効果を取得できるようにモデルの役に立つ。特徴埋め込み部分では、特徴抽出部分で抽出された特徴に対して特徴埋め込み処理を行って、特徴をネットワークモデルが処理できるベクトル表現形式に変換し、事前トレーニングモデルで出力された特徴及び取得された外部知識特徴に対して、その自体がベクトル表現の特徴であるため、特徴埋め込み部分でさらに処理する必要がない。特徴融合部分では、ベクトル表現の各特徴を融合処理し、特徴を十分に組み合わせて、高次特徴を形成し、例えば、各ベクトル表現の特徴をスプライシングして1つの長いベクトルを取得し、長いベクトルを双方向LSTMし、さらに最大プーリングし、高次特徴を取得する。意図予測部分では、融合された高次特徴に基づいて、質問情報の各意図における確率を取得し、例えば、高次特徴を完全接続層に通過させ、1つのベクトルを取得し、このベクトルの次元が意図数と同じであり、ベクトルにおける各次元にロジスティック関数sigmoidを行って、各意図の確率を取得する。損失計算部分では、現在の質問予測の結果と質問の真の結果との間のギャップに基づいて損失を計算し続ける必要があり、逆伝播(Back Propagation、BP)アルゴリズムによってモデルを継続的に最適化し、最終的にモデルのトレーニングプロセスを完了する必要がある。深層学習モデルは特徴の抽出とモデリングより長いため、サンプル数が多い場合に、異なるサンプルを十分に使用し、カテゴリを効率的にモデリングして、より良い区別正確率を実現することができる。対話管理プラットフォームのデータ蓄積と他のビッグデータのデータ蓄積でトレーニングされた基礎特徴抽出モデルによって、効果の安定性を保証でき、具体的なスキルモデルが小さい場合においても良い効果を取得するようにする。
第1特徴と第2特徴を十分に組み合わせ、モデルの全体的な性能を向上させることを確保するために、本出願の実施例の1つの可能な実現形態では、様々な方式を採用して第1特徴と第2特徴を組み合わせて特徴シーケンスを生成することができる。以下、図6を組み合わせて詳細に説明する。
図6は本出願の第4の実施例に係る対話生成方法のフローチャートであり、図6に示すように、当該対話生成方法は、以下のステップを含むことができる。
ステップ401:質問情報を取得する。
ステップ402:質問情報を少数ショット学習モデルに入力して第1特徴を生成する。
ステップ403:質問情報を深層学習モデルに入力して第2特徴を生成する。
本実施例では、ステップ401〜ステップ403に対する説明は前述実施例における相関内容の記載を参照することができ、ここでは説明を省略する。
ステップ404:予め設定された複数の融合演算子によって第1特徴と第2特徴を組み合わせて、特徴シーケンスを生成し、融合演算子は、スプライシング演算子、内積演算子及び双線形特徴交差積を含む。
本実施例では、少数ショット学習モデルから第1特徴を取得し、及び深層学習モデルから第2特徴を取得した後、予め設定された複数の融合演算子によって第1特徴と第2特徴を組み合わせて、特徴シーケンスを生成することができる。
ここで、融合演算子は、スプライシング演算子、内積演算子及び双線形特徴交差積を含むことができるが、これに限定されない。
つまり、本実施例では、第1特徴と第2特徴を組み合わせる場合、多種の異なる融合演算子によって第1特徴と第2特徴を組み合わせて、異なる特徴間で十分な組み合わせを確保し、組み合わせ特徴の多様性を向上させることができる。
1つの例示として、第1特徴には質問特徴とサポートセット特徴が含まれ、第2特徴には低次特徴と高次特徴が含まれる場合、第1特徴と第2特徴を組み合わせて、各特徴を、異なる融合演算子によって順次に各特徴と組み合わせて、複数の特徴シーケンスを取得することができる。質問特徴を例として、スプライシング演算子、内積演算子及び双線形特徴交差積などの融合演算子をそれぞれ採用して、質問特徴を順次に質問特徴、サポートセット特徴、低次特徴及び高次特徴うちの少なくとも1つの特徴と組み合わせて、複数の特徴シーケンスを取得することができる。
1つの例示として、少数ショット学習モデルで生成された第1特徴と深層学習モデルで生成された第2特徴を組み合わせる場合、異なるレベルから融合して、特徴シーケンスを生成することができる。異なるレベルの融合は、以下の通りである。
(1)下層特徴レベルでは、深層学習モデルにおける埋め込んだ後の特徴表現と少数ショット学習モデルで取得された質問特長表現とカテゴリ表現を、予め設定された複数の融合演算子によって融合し、
(2)中層特徴レベルでは、深層学習モデルにおける融合した後の特徴表現と少数ショット学習モデルにおける関係計算された表現を、予め設定された複数の融合演算子によって融合し、
(3)上層特徴レベルでは、深層学習モデルで最終的に予測された各意図の確率と少数ショット学習モデルで最終的に予測された各意図の確率分布を、予め設定された複数の融合演算子によって融合する。
ステップ405:特徴シーケンスを融合モデルに入力して質問情報に対応する対話情報を生成する。
本実施例では、ステップ405に対する説明は前述実施例におけるステップ105に対する説明を参照することができ、ここでは説明を省略する。
本実施例の対話生成方法は、予め設定された複数の融合演算子によって少数ショット学習モデルで生成された第1特徴、及び深層学習モデルで生成された第2特徴を組み合わせて、特徴シーケンスを生成し、これにより、第1特徴と第2特徴を十分に組み合わせ、融合後の特徴シーケンスの多様性を保証し、生成された対話情報の正確率を向上させることに役立つことができる。
本出願の実施例の1つの可能な実現形態では、本出願の実施例の少数ショット学習モデル、深層学習モデル及び融合モデルを連携トレーニングして1つの統合されたモデルを取得する。具体的に実現する時に、少数ショット学習モデルと深層学習モデルを同一のエンドツーエンドの融合ネットワークに入れ、モデルがサンプルとともに増え、比較的滑らかな結果が得られるように、全体的な学習とトレーニングを行うことができ、以前はサンプル量が多くなるにつれて正確な意図が正しく解析できず、質問理解の正確率が低下するという問題が生じにくく、同時に、3つのモデルを連携トレーニングして1つの統合されたモデルを取得し、サンプルが少ない及びサンプルが多いという場合では単一のモデルによってより良い効果を得ることができ、モデルの安定性を向上させる。したがって、本実施例では、少数ショット学習モデル、深層学習モデル及び融合モデルを連携トレーニングして1つの統合されたモデルを取得し、トレーニング後のモデルがサンプルとともに増え、安定的な結果が得られ、モデルの安定性を向上させる。
図7は少数ショット学習モデルと深層学習モデルおよび融合モデルの連携トレーニングのプロセスの概略図である。図7に示すように、少数ショット学習モデルと深層学習モデルを同じエンドツーエンドのニューラルネットワークに入れ、全体的な学習とトレーニングを行って、少数ショット学習モデルで生成された質問特徴とサポートセット特徴、及び深層学習モデルで生成された低次特徴と高次特徴を、複数の融合演算子によって十分に融合された後、融合後の特徴を融合ネットワークに入力して、最終結果を取得する。ここで、融合ネットワークは多層完全接続層ネットワークによって実現することができ、softmax関数によって最終結果を生成する。モデルを連携トレーニングするプロセスでは、モデルがより良い結果を生成することができるまで、クロスエントロピー損失関数によってモデルを最適化することができる。少数ショット学習モデル、深層学習モデル及び融合モデルに対して全体的な学習とトレーニングを行って、モデルがサンプルとともに増え、効果が徐々に向上すると共に、元々正確に解析できる意図がサンプル量の増加につれて正確に解析できなくなるという問題が生じにくく、単一のモデルでサンプルが少ない場合とサンプルが多い場合の両方においてもより良い効果を取得することができる。
本出願の実施例によれば、本出願は、対話生成装置をさらに提供する。
図8は本出願の第5の実施例に係る対話生成装置の概略構成図である。図8に示すように、当該対話生成装置50は、取得モジュール510と、少数ショット学習モデル520と、深層学習モデル530と、融合モデル540と、第1の入力モジュール550と、第2の入力モジュール560と、組み合わせモジュール570と、生成モジュール580と、を含む。
ここで、取得モジュール510は、質問情報を取得することに用いられる。
少数ショット学習モデル520は、前記質問情報の第1特徴を生成することに用いられる。
深層学習モデル530は、前記質問情報の第2特徴を生成することに用いられる。
融合モデル540は、前記質問情報に対応する対話情報を生成することに用いられる。
第1の入力モジュール550は、前記質問情報を少数ショット学習モデルに入力して、第1特徴を生成することに用いられる。
第2の入力モジュール560は、前記質問情報を深層学習モデルに入力して、第2特徴を生成することに用いられる。
組み合わせモジュール570は、前記第1特徴と前記第2特徴を組み合わせて、特徴シーケンスを生成することに用いられる。
生成モジュール580は、前記特徴シーケンスを融合モデルに入力して、前記質問情報に対応する対話情報を生成することに用いられる。
本出願の実施例の1つの可能な実現形態では、第1特徴は質問特徴とサポートセット特徴とを含み、前記少数ショット学習モデル520は、前記質問情報に対して特徴抽出を行って、前記質問特徴を生成し、及び前記質問特徴に基づいて前記質問情報に対応するサポートセットを取得し、前記質問情報に対応するサポートセットのサポートセット特徴を取得する。
さらに、少数ショット学習モデル520は、複数の候補サポートセットを取得し、各前記候補サポートセットの意図特徴を取得し、前記質問特徴と各前記候補サポートセットの意図特徴に基づいて前記複数の候補サポートセットに対する前記質問特徴の直接得点を生成し、前記複数の候補サポートセットに対する前記質問特徴の直接得点に基づいて、前記複数の候補サポートセットから前記質問情報に対応するサポートセットを選択する。
ここで、候補サポートセットは複数の質問を含み、前記少数ショット学習モデル520は、前記候補サポートセットにおける複数の質問の質問特徴を取得し、前記複数の質問の質問特徴に基づいて前記候補サポートセットの意図特徴を生成する。
本出願の実施例の1つの可能な実現形態では、少数ショット学習モデル520は、前記各候補サポートセットの意図特徴に基づいて前記複数の候補サポートセット間のコンテキスト特徴を生成し、前記質問特徴、前記各候補サポートセットの意図特徴及び前記コンテキスト特徴に基づいて、比較得点を生成し、前記直接得点と前記比較得点に基づいて、前記複数の候補サポートセットから前記質問情報に対応するサポートセットを選択する。
本出願の実施例の1つの可能な実現形態では、前記少数ショット学習モデル520、前記深層学習モデル530及び前記融合モデル540を連携トレーニングして1つの統合されたモデルを取得する。
本出願の実施例の1つの可能な実現形態では、第2特徴は低次特徴と高次特徴とを含み、前記深層学習モデル530は、前記質問情報に対して特徴抽出を行って、前記質問情報の特徴情報を生成し、前記特徴情報に対して特徴埋め込み処理を行って、前記質問情報の前記低次特徴を生成し、前記低次特徴を特徴融合して、前記高次特徴を生成する。
さらに、深層学習モデル530は、前記質問情報の外部特徴ベクトルも受信し、前記外部特徴ベクトルは予め設定されたベクトル表現モデルによって生成され、前記深層学習モデルは前記低次特徴と前記外部特徴ベクトルを特徴融合して、前記高次特徴を生成する。
さらに、深層学習モデル530は、前記質問情報の外部知識ベクトルも受信し、前記外部知識ベクトルは予め設定されたトレーニングサンプルにおける前記質問情報とマッチングするターゲットトレーニングサンプルに対応するベクトル表現であり、前記深層学習モデル530は、前記低次特徴、前記外部知識ベクトル及び前記外部特徴ベクトルを特徴融合して、前記高次特徴を生成する。
本出願の実施例の1つの可能な実現形態では、組み合わせモジュール570は、予め設定された複数の融合演算子によって前記第1特徴と前記第2特徴を組み合わせて、前記特徴シーケンスを生成し、前記融合演算子は、スプライシング演算子、内積演算子及び双線形特徴交差積を含む。
なお、前述対話生成方法の実施例に対する説明は、当該実施例の対話生成装置も適用され、その実現原理は類似しているので、ここでは説明を省略する。
本出願の実施例の対話生成装置は、質問情報を取得し、質問情報を少数ショット学習モデルに入力して第1特徴を生成し、及び質問情報を深層学習モデルに入力して第2特徴を生成し、さらに第1特徴と第2特徴を組み合わせて特徴シーケンスを生成し、特徴シーケンスを融合モデルに入力して質問情報に対応する対話情報を生成し、これにより、少数ショット学習モデル、深層学習モデル、及び融合モデルを連携して質問に対応する対話情報を生成することで、モデルはサンプルが少ない場合とサンプルが多い場合の両方でより良い効果を取得し、閾値を設けて少数ショット学習モデルと深層学習モデルを選択する必要がなく、サンプル量の増加に伴って質問理解の精度が低下するという問題が起こりにくく、モデルの安定性が向上する。
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
本出願の実施例によれば、本出願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本出願によって提供される対話生成方法を実行させる。
図9に示すように、それは本出願の実施例に係る対話生成方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。
図9に示すように、当該電子機器は、1つ又は複数のプロセッサ701と、メモリ702と、高速インターフェース及び低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、部分的な必要な操作(例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図9では、1つのプロセッサ701を例とする。
メモリ702は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、前記少なくとも1つのプロセッサが本出願により提供される対話生成方法を実行できるように、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータが本出願により提供される対話生成方法を実行するためのコンピュータ命令を記憶する。
メモリ702は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例における対話生成方法に対応するプログラム命令/モジュール(例えば、図8に示す取得モジュール510、少数ショット学習モデル520、深層学習モデル530、融合モデル540、第1の入力モジュール550、第2の入力モジュール560、組み合わせモジュール570及び生成モジュール580)のような非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するために用いられる。プロセッサ701は、メモリ702に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施例における対話生成方法を実現する。
メモリ702は、プログラム記憶領域とデータ記憶領域とを含むことができ、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、対話生成方法ことに基づく電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ702は、高速ランダム存取メモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも1つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ702は、プロセッサ701に対して遠隔に設定されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介して対話生成の電子機器に接続されることができる。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
対話生成方法を実行する電子機器は、入力装置703と出力装置704とをさらに含むことができる。プロセッサ701、メモリ702、入力装置703、及び出力装置704は、バス又は他の方式を介して接続することができ、図9では、バスを介して接続することを例とする。
入力装置703は、入力された数字又は文字情報を受信することができ、及び対話生成の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケーターロッド、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置704は、ディスプレイデバイス、補助照明デバイス(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。
本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することを含む。本明細書に使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント−サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。
本出願の実施例の技術案によれば、取得された質問をそれぞれ少数ショット学習モデルと深層学習モデルに入力して第1特徴と第2特徴を生成し、第1特徴と第2特徴を組み合わせて特徴シーケンスを生成し、特徴シーケンスを融合モデルに入力して質問情報に対応する対話情報を生成し、これにより、少数ショット学習モデル、深層学習モデル、及び融合モデルを連携して質問に対応する対話情報を生成することで、モデルはサンプルが少ない場合とサンプルが多い場合の両方でより良い効果を取得し、閾値を設けて少数ショット学習モデルと深層学習モデルを選択する必要がなく、サンプル量の増加に伴って質問理解の精度が低下するという質問が起こりにくく、モデルの安定性が向上する。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。
上記具体的な実施形態は、本出願に対する保護範囲の制限を構成するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれなければならない。

Claims (23)

  1. 対話生成方法であって、
    質問情報を取得するステップと、
    前記質問情報を少数ショット学習モデルに入力して第1特徴を生成するステップと、
    前記質問情報を深層学習モデルに入力して第2特徴を生成するステップと、
    前記第1特徴と前記第2特徴を組み合わせて特徴シーケンスを生成するステップと、
    前記特徴シーケンスを融合モデルに入力して前記質問情報に対応する対話情報を生成するステップと、を含む、
    ことを特徴とする対話生成方法。
  2. 前記第1特徴は質問特徴とサポートセット特徴とを含み、
    前記質問情報を少数ショット学習モデルに入力して第1特徴を生成するステップは、
    前記少数ショット学習モデルが前記質問情報に対して特徴抽出を行って、前記質問特徴を生成するステップと、
    前記少数ショット学習モデルが前記質問特徴に基づいて前記質問情報に対応するサポートセットを取得し、前記質問情報に対応するサポートセットのサポートセット特徴を取得するステップと、を含む、
    ことを特徴とする請求項1に記載の対話生成方法。
  3. 前記少数ショット学習モデルが前記質問特徴に基づいて前記質問情報に対応するサポートセットを取得するステップは、
    前記少数ショット学習モデルが複数の候補サポートセットを取得し、各前記候補サポートセットの意図特徴を取得するステップと、
    前記少数ショット学習モデルが前記質問特徴及び各前記候補サポートセットの意図特徴に基づいて前記複数の候補サポートセットに対する前記質問特徴の直接得点を生成するステップと、
    前記複数の候補サポートセットに対する前記質問特徴の直接得点に基づいて、前記複数の候補サポートセットから前記質問情報に対応するサポートセットを選択するステップと、を含む、
    ことを特徴とする請求項2に記載の対話生成方法。
  4. 前記各候補サポートセットの意図特徴に基づいて前記複数の候補サポートセット間のコンテキスト特徴を生成するステップと、
    前記質問特徴、前記各候補サポートセットの意図特徴及び前記コンテキスト特徴に基づいて、比較得点を生成し、前記直接得点と前記比較得点に基づいて、前記複数の候補サポートセットから前記質問情報に対応するサポートセットを選択するステップと、をさらに含む、
    ことを特徴とする請求項3に記載の対話生成方法。
  5. 前記候補サポートセットは複数の質問を含み、
    前記候補サポートセットの意図特徴は、
    前記候補サポートセットにおける複数の質問の質問特徴を取得するステップ、及び
    前記複数の質問の質問特徴に基づいて前記候補サポートセットの意図特徴を生成するステップによって取得される、
    ことを特徴とする請求項3に記載の対話生成方法。
  6. 前記少数ショット学習モデル、前記深層学習モデル及び前記融合モデルを連携トレーニングして1つの統合されたモデルを取得する、
    ことを特徴とする請求項1に記載の対話生成方法。
  7. 前記第2特徴は低次特徴と高次特徴とを含み、
    前記質問情報を深層学習モデルに入力して第2特徴を生成するステップは、
    前記深層学習モデルが前記質問情報に対して特徴抽出を行って、前記質問情報の特徴情報を生成するステップと、
    前記深層学習モデルが前記特徴情報に対して特徴埋め込み処理を行って、前記質問情報の前記低次特徴を生成するステップと、
    前記深層学習モデルが前記低次特徴を特徴融合して、前記高次特徴を生成するステップと、を含む、
    ことを特徴とする請求項1に記載の対話生成方法。
  8. 前記深層学習モデルが前記質問情報の外部特徴ベクトルも受信し、前記外部特徴ベクトルが予め設定されたベクトル表現モデルによって生成され、
    前記深層学習モデルが前記低次特徴を特徴融合して、前記高次特徴を生成するステップは、
    前記深層学習モデルが前記低次特徴と前記外部特徴ベクトルを特徴融合して、前記高次特徴を生成するステップを含む、
    ことを特徴とする請求項7に記載の対話生成方法。
  9. 前記深層学習モデルが前記質問情報の外部知識ベクトルも受信し、前記外部知識ベクトルが予め設定されたトレーニングサンプルにおける前記質問情報とマッチングするターゲットトレーニングサンプルに対応するベクトル表現であり、
    前記深層学習モデルが前記低次特徴を特徴融合して、前記高次特徴を生成するステップは、
    前記低次特徴、前記外部知識ベクトル及び前記外部特徴ベクトルを特徴融合して、前記高次特徴を生成するステップを含む、
    ことを特徴とする請求項8に記載の対話生成方法。
  10. 前記第1特徴と前記第2特徴を組み合わせて特徴シーケンスを生成するステップは、
    予め設定された複数の融合演算子によって前記第1特徴と前記第2特徴を組み合わせて、前記特徴シーケンスを生成するステップであって、前記融合演算子は、スプライシング演算子、内積演算子及び双線形特徴交差積を含むステップを含む、
    ことを特徴とする請求項1に記載の対話生成方法。
  11. 対話生成装置であって、
    質問情報を取得するための取得モジュールと、
    前記質問情報の第1特徴を生成するための少数ショット学習モデルと、
    前記質問情報の第2特徴を生成するための深層学習モデルと、
    前記質問情報に対応する対話情報を生成するための融合モデルと、
    前記質問情報を少数ショット学習モデルに入力して第1特徴を生成するための第1の入力モジュールと、
    前記質問情報を深層学習モデルに入力して第2特徴を生成するための第2の入力モジュールと、
    前記第1特徴と前記第2特徴を組み合わせて特徴シーケンスを生成するための組み合わせモジュールと、
    前記特徴シーケンスを融合モデルに入力して前記質問情報に対応する対話情報を生成するための生成モジュールと、を含む、
    ことを特徴とする対話生成装置。
  12. 前記第1特徴は質問特徴とサポートセット特徴とを含み、前記少数ショット学習モデルは、前記質問情報に対して特徴抽出を行って、前記質問特徴を生成し、及び前記質問特徴に基づいて前記質問情報に対応するサポートセットを取得し、前記質問情報に対応するサポートセットのサポートセット特徴を取得する、
    ことを特徴とする請求項11に記載の対話生成装置。
  13. 前記少数ショット学習モデルは、複数の候補サポートセットを取得し、各前記候補サポートセットの意図特徴を取得し、前記質問特徴及び各前記候補サポートセットの意図特徴に基づいて前記複数の候補サポートセットに対する前記質問特徴の直接得点を生成し、前記複数の候補サポートセットに対する前記質問特徴の直接得点に基づいて、前記複数の候補サポートセットから前記質問情報に対応するサポートセットを選択する、
    ことを特徴とする請求項12に記載の対話生成装置。
  14. 前記少数ショット学習モデルは、前記各候補サポートセットの意図特徴に基づいて前記複数の候補サポートセット間のコンテキスト特徴を生成し、前記質問特徴、前記各候補サポートセットの意図特徴及び前記コンテキスト特徴に基づいて、比較得点を生成し、前記直接得点と前記比較得点に基づいて、前記複数の候補サポートセットから前記質問情報に対応するサポートセットを選択する、
    ことを特徴とする請求項13に記載の対話生成装置。
  15. 前記候補サポートセットは複数の質問を含み、前記少数ショット学習モデルは、前記候補サポートセットにおける複数の質問の質問特徴を取得し、前記複数の質問の質問特徴に基づいて前記候補サポートセットの意図特徴を生成する、
    ことを特徴とする請求項13に記載の対話生成装置。
  16. 前記少数ショット学習モデル、前記深層学習モデル及び前記融合モデルを連携トレーニングして1つの統合されたモデルを取得する、
    ことを特徴とする請求項11に記載の対話生成装置。
  17. 前記第2特徴は低次特徴と高次特徴とを含み、前記深層学習モデルは、前記質問情報に対して特徴抽出を行って、前記質問情報の特徴情報を生成し、前記特徴情報に対して特徴埋め込み処理を行って、前記質問情報の前記低次特徴を生成し、前記低次特徴を特徴融合して、前記高次特徴を生成する、
    ことを特徴とする請求項11に記載の対話生成装置。
  18. 前記深層学習モデルは前記質問情報の外部特徴ベクトルも受信し、前記外部特徴ベクトルは予め設定されたベクトル表現モデルによって生成され、前記深層学習モデルは前記低次特徴と前記外部特徴ベクトルを特徴融合して、前記高次特徴を生成する、
    ことを特徴とする請求項17に記載の対話生成装置。
  19. 前記深層学習モデルは、前記質問情報の外部知識ベクトルも受信し、前記外部知識ベクトルは予め設定されたトレーニングサンプルにおける前記質問情報とマッチングするターゲットトレーニングサンプルに対応するベクトル表現であり、前記深層学習モデルは、前記低次特徴、前記外部知識ベクトル及び前記外部特徴ベクトルを特徴融合して、前記高次特徴を生成する、
    ことを特徴とする請求項18に記載の対話生成装置。
  20. 前記組み合わせモジュールは、予め設定された複数の融合演算子によって前記第1特徴と前記第2特徴を組み合わせて、前記特徴シーケンスを生成し、前記融合演算子は、スプライシング演算子、内積演算子及び双線形特徴交差積を含む、
    ことを特徴とする請求項11に記載の対話生成装置。
  21. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1〜10のいずれかに記載の対話生成方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
    ことを特徴とする電子機器。
  22. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、前記コンピュータに請求項1〜10のいずれかに記載の対話生成方法を実行させる、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  23. コンピュータプログラムであって、
    前記コンピュータプログラムは、コンピュータに請求項1〜10のいずれかに記載の対話生成方法を実行させる、
    ことを特徴とするコンピュータプログラム。
JP2021049009A 2020-09-21 2021-03-23 対話生成方法、装置、電子機器及び媒体 Active JP7204802B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010991996.2A CN111831813B (zh) 2020-09-21 2020-09-21 对话生成方法、装置、电子设备及介质
CN202010991996.2 2020-09-21

Publications (2)

Publication Number Publication Date
JP2021106016A true JP2021106016A (ja) 2021-07-26
JP7204802B2 JP7204802B2 (ja) 2023-01-16

Family

ID=72918505

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021049009A Active JP7204802B2 (ja) 2020-09-21 2021-03-23 対話生成方法、装置、電子機器及び媒体

Country Status (5)

Country Link
US (1) US20210248471A1 (ja)
EP (1) EP3913521A1 (ja)
JP (1) JP7204802B2 (ja)
KR (1) KR20210119338A (ja)
CN (1) CN111831813B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329475B (zh) * 2020-11-03 2022-05-20 海信视像科技股份有限公司 语句处理方法及装置
CN112449025B (zh) * 2020-12-10 2022-11-08 郑州埃文计算机科技有限公司 一种基于自注意力机制的ip场景预测方法
CN112528005B (zh) * 2020-12-25 2022-08-09 中山大学 基于知识检索图和预训练模型的中文对话知识检索方法
CN112925894B (zh) * 2021-03-26 2022-07-05 支付宝(杭州)信息技术有限公司 对话中标问匹配方法、系统及装置
CN114118101B (zh) * 2021-11-26 2022-12-09 北京百度网讯科技有限公司 对话数据生成方法及装置、设备和介质
CN115146653B (zh) * 2022-07-21 2023-05-02 平安科技(深圳)有限公司 对话剧本构建方法、装置、设备及存储介质
CN116071609B (zh) * 2023-03-29 2023-07-18 中国科学技术大学 基于目标特征动态自适应提取的小样本图像分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018206307A (ja) * 2017-06-09 2018-12-27 エヌ・ティ・ティ レゾナント株式会社 情報処理装置、情報処理方法、及びプログラム
WO2020046807A1 (en) * 2018-08-30 2020-03-05 Google Llc Cross-lingual classification using multilingual neural machine translation

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657036B (zh) * 2018-11-12 2021-02-02 中国科学院自动化研究所 基于类脑语义层次时序记忆推理模型的问答方法、系统
US20200242736A1 (en) * 2019-01-29 2020-07-30 Nvidia Corporation Method for few-shot unsupervised image-to-image translation
CN110134774B (zh) * 2019-04-29 2021-02-09 华中科技大学 一种基于注意力决策的图像视觉问答模型、方法和系统
CN110188864B (zh) * 2019-05-06 2021-07-06 南京大学 基于分布表示和分布度量的小样本学习方法
CN111522965A (zh) * 2020-04-22 2020-08-11 重庆邮电大学 一种基于迁移学习的实体关系抽取的问答方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018206307A (ja) * 2017-06-09 2018-12-27 エヌ・ティ・ティ レゾナント株式会社 情報処理装置、情報処理方法、及びプログラム
WO2020046807A1 (en) * 2018-08-30 2020-03-05 Google Llc Cross-lingual classification using multilingual neural machine translation

Also Published As

Publication number Publication date
KR20210119338A (ko) 2021-10-05
JP7204802B2 (ja) 2023-01-16
EP3913521A1 (en) 2021-11-24
US20210248471A1 (en) 2021-08-12
CN111831813B (zh) 2021-02-05
CN111831813A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
JP7204802B2 (ja) 対話生成方法、装置、電子機器及び媒体
Uc-Cetina et al. Survey on reinforcement learning for language processing
US20200251091A1 (en) System and method for defining dialog intents and building zero-shot intent recognition models
JP7283009B2 (ja) 対話理解モデルの訓練方法、装置、デバイス及び記憶媒体
CN111738016B (zh) 多意图识别方法及相关设备
JP7108675B2 (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN111368046B (zh) 人机对话方法、装置、电子设备及存储介质
KR20210040319A (ko) 엔티티 링킹 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램
JP2021182430A (ja) 意味解析モデルのトレーニング方法及び装置、電子機器並びに記憶媒体
KR102565673B1 (ko) 시멘틱 표현 모델의 생성 방법, 장치, 전자 기기 및 저장 매체
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
US11947578B2 (en) Method for retrieving multi-turn dialogue, storage medium, and electronic device
CN110678882A (zh) 使用机器学习从电子文档选择回答跨距
CN115238045A (zh) 一种生成式事件论元抽取方法、系统及存储介质
Souha et al. Pre-Trained Models for Intent Classification in Chatbot: Comparative Study and Critical Analysis
JP2022076439A (ja) 対話管理
Prajwal et al. Universal semantic web assistant based on sequence to sequence model and natural language understanding
CN114416941A (zh) 融合知识图谱的对话知识点确定模型的生成方法及装置
CN114330285A (zh) 语料处理方法、装置、电子设备及计算机可读存储介质
Ye et al. A natural language-based flight searching system
Kumari et al. Conversational question answering system using rasa framework
CN117521674B (zh) 对抗信息的生成方法、装置、计算机设备和存储介质
Godewithana et al. Intelligent Hybrid Chatbot Solution for Archaeological Sites Tracking
Fang et al. Hagan: Hierarchical attentive adversarial learning for task-oriented dialogue system
Shalyminov Data-efficient methods for dialogue systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220905

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221228

R150 Certificate of patent or registration of utility model

Ref document number: 7204802

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150