JP2023182707A - 深層学習モデルに基づくデータ生成方法、トレーニング方法及び装置 - Google Patents

深層学習モデルに基づくデータ生成方法、トレーニング方法及び装置 Download PDF

Info

Publication number
JP2023182707A
JP2023182707A JP2023170081A JP2023170081A JP2023182707A JP 2023182707 A JP2023182707 A JP 2023182707A JP 2023170081 A JP2023170081 A JP 2023170081A JP 2023170081 A JP2023170081 A JP 2023170081A JP 2023182707 A JP2023182707 A JP 2023182707A
Authority
JP
Japan
Prior art keywords
sample
data
input
deep learning
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023170081A
Other languages
English (en)
Inventor
ハイフン ワン
Haifeng Wang
フア ウー
Hua Wu
ハオ ティエン
Hao Tian
ユウ スン
Yu Sun
ティエン ウー
Tian Wu
ドウ ホン
Dou Hong
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023182707A publication Critical patent/JP2023182707A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

【課題】深層学習モデルを用いて、ユーザ入力データに基づいて生成する回答データの品質を向上させるデータ生成方法、トレーニング方法及び装置を提供する。【解決手段】データ生成方法は、ユーザ入力データに基づいて深層学習モデルの初期入力を確定するステップS201と、第1の機能コンポーネントを呼び出すための第1のトークン及び初期入力に基づいて確定された、第1の機能コンポーネントによって識別できる第1の中間クエリを含むモデルの第1の出力を取得するステップS202と、第1の中間クエリに基づいて第1の機能コンポーネントによって確定された第1の中間結果を取得するステップS203と、初期入力及び第1の中間結果に基づいてモデルに用いられる第2の入力を確定するステップS204と、初期入力に対する回答を生成するために、モデルの第2の出力を取得するステップS205と、を含む。【選択図】図2

Description

発明の詳細な説明
本開示は、人工インテリジェントの技術分野に関し、特に、自然言語処理及び深層学習などの技術分野に関し、具体的に、深層学習モデルに基づくデータ生成方法、深層学習モデルのトレーニング方法、深層学習モデルに基づくデータ生成装置、深層学習モデルのトレーニング装置、電子機器、及びコンピュータ可読記憶媒体に関する。
人工インテリジェントは、コンピュータに人間のいくつかの思惟過程及びインテリジェント的行動(例えば、学習、推理、思考、計画など)を模擬させるように研究する科目であり、ハードウェア面の技術もあれば、ソフトウェア面の技術もある。人工インテリジェントのハードウェア技術は、一般的にセンサ、人工インテリジェント専用チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工インテリジェントソフトウェア技術は主に自然言語処理技術、コンピュータ視覚技術、音声識別技術及び機械学習/深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの方向を含む。
該部分で説明される方法は、必ずしも以前に想定された方法又は採用された方法ではない。特に断りのない限り、該部分に記載されているいずれの方法は、該部分に含まれるだけで従来技術であると考えられるべきではない。同様に、特に断りのない限り、該部分で言及されている課題は、従来の技術で承認されたものであると考えるべきではない。
本開示は、深層学習モデルに基づくデータ生成方法、深層学習モデルのトレーニング方法、深層学習モデルに基づくデータ生成装置、深層学習モデルのトレーニング装置、電子機器、及びコンピュータ可読記憶媒体を提供する。
本開示の一態様によれば、深層学習モデルに基づくデータ生成方法を提供する。深層学習モデルはユーザの入力データに基づいて回答データを生成することができる。データ生成方法は、ユーザからの入力データに基づいて、深層学習モデルに用いられる初期入力を確定することと、深層学習モデルの第1の出力を取得し、ここでは、深層学習モデルが初期入力に基づいて回答を生成するのに深層学習モデルとは異なる第1の機能コンポーネントを呼び出す必要があると確定したことに応答して、第1の出力は第1の機能コンポーネントを呼び出すための第1のトークン及び初期入力に基づいて確定された、第1の機能コンポーネントによって識別できる第1の中間クエリを含むことと、第1の中間クエリに基づいて第1の機能コンポーネントによって確定された第1の中間結果を取得することと、少なくとも初期入力及び第1の中間結果に基づいて、深層学習モデルに用いられる第2の入力を確定することと、初期入力に対する回答を生成するために、深層学習モデルの第2の出力を取得することとを含む。
本開示の別の態様によれば、深層学習モデルのトレーニング方法を提供する。深層学習モデルはユーザの入力データに基づいて回答データを生成するために用いられる。トレーニング方法は、第1のサンプルデータを取得し、第1のサンプルデータは第1のサンプル初期入力及び第1のサンプル出力を含み、ここでは、第1のサンプル初期入力は深層学習モデルとは異なる第1のプリセット機能コンポーネントを呼び出す意図表現を含み、且つ、第1のサンプル出力は第1のプリセット機能コンポーネントを呼び出すための第1のトークン及び第1のプリセット機能コンポーネントによって識別できる第1のサンプル中間入力を含むことと、第2のサンプルデータを取得し、第2のサンプルデータは第2のサンプル初期入力及び第2のサンプル出力を含み、ここでは、第2のサンプル初期入力は深層学習モデルとは異なる任意のプリセット機能コンポーネントを呼び出す意図表現を含まず、且つ、第2のサンプル出力は任意のプリセット機能コンポーネントを呼び出すための対応するトークンを含まないことと、深層学習モデルを利用して第1のサンプル初期入力を処理して、第1の予測出力を取得することと、第1のサンプル出力と第1の予測出力との比較に基づいて、深層学習モデルのパラメータを調整することと、深層学習モデルを利用して第2のサンプル初期入力を処理して、第2の予測出力を取得することと、第2のサンプル出力と第2の予測出力との比較に基づいて、深層学習モデルのパラメータを調整することとを含む。
本開示の別の態様によれば、深層学習モデルに基づくデータ生成装置を提供する。深層学習モデルはユーザの入力データに基づいて回答データを生成することができる。データ生成装置は、ユーザからの入力データに基づいて、深層学習モデルに用いられる初期入力を確定するように構成される第1の確定ユニットと、深層学習モデルの第1の出力を取得し、ここでは、深層学習モデルが初期入力に基づいて回答を生成するのに深層学習モデルとは異なる第1の機能コンポーネントを呼び出す必要があると確定したことに応答して、第1の出力は第1の機能コンポーネントを呼び出すための第1のトークン及び初期入力に基づいて確定された、第1の機能コンポーネントによって識別できる第1の中間クエリを含むように構成される第1の取得ユニットと、第1の中間クエリに基づいて第1の機能コンポーネントによって確定された第1の中間結果を取得するように構成される第2の取得ユニットと、少なくとも初期入力及び第1の中間結果に基づいて、深層学習モデルに用いられる第2の入力を確定するように構成される第2の確定ユニットと、初期入力に対する回答を生成するために、深層学習モデルの第2の出力を取得するように構成される第3の取得ユニットとを含む。
本開示の別の態様によれば、深層学習モデルのトレーニング装置を提供する。深層学習モデルはユーザの入力データに基づいて回答データを生成するために用いられる。トレーニング装置は、第1のサンプルデータを取得し、第1のサンプルデータは第1のサンプル初期入力及び第1のサンプル出力を含み、ここでは、第1のサンプル初期入力は深層学習モデルとは異なる第1のプリセット機能コンポーネントを呼び出す意図表現を含み、且つ、第1のサンプル出力は第1のプリセット機能コンポーネントを呼び出すための第1のトークン及び第1のプリセット機能コンポーネントによって識別できる第1のサンプル中間入力を含むように構成される第4の取得ユニットと、第2のサンプルデータを取得し、第2のサンプルデータは第2のサンプル初期入力及び第2のサンプル出力を含み、ここでは、第2のサンプル初期入力は深層学習モデルとは異なる任意のプリセット機能コンポーネントを呼び出す意図表現を含まず、且つ、第2のサンプル出力は任意のプリセット機能コンポーネントを呼び出すための対応するトークンを含まないように構成される第5の取得ユニットと、深層学習モデルを利用して第1のサンプル初期入力を処理して、第1の予測出力を取得するように構成される第1の処理ユニットと、第1のサンプル出力と第1の予測出力との比較に基づいて、深層学習モデルのパラメータを調整するように構成される第1のパラメータ調整ユニットと、深層学習モデルを利用して第2のサンプル初期入力を処理して、第2の予測出力を取得するように構成される第2の処理ユニットと、第2のサンプル出力と第2の予測出力との比較に基づいて、深層学習モデルのパラメータを調整するように構成される第2のパラメータ調整ユニットとを含む。
本開示の1つ以上の実施例によれば、本開示は、深層学習モデルを利用して、深層学習モデルとは異なる第1の機能コンポーネントを呼び出す必要があるかどうかを決定し、第1の機能コンポーネントを呼び出す必要があると確定した場合、該第1の機能コンポーネントによって識別できる第1の中間クエリを、深層学習モデルを利用して生成し、さらに、第1の中間結果を得るために、第1の中間クエリを利用して第1の機能コンポーネントを呼び出し、最終的に、第1の中間結果に基づいて、深層学習モデルを利用して、ユーザの初期入力に対する結果を生成する。
以上により、理解や生成などのタスクを自身で実行できる深層学習モデルに対して、さらに能力補強を実現し、それによって、最終的に生成された回答の品質を向上させる。さらに、深層学習モデルを利用して、外部機能コンポーネントによって識別できる中間クエリを直接生成することにより、中間クエリ及び中間結果の取得を、ユーザの初期入力における潜在的な意図により適合させ、したがって、モデルが、ユーザのニーズを満たす回答を出力することを可能にする。
理解すべきこととして、該部分に説明される内容は、本開示の実施例の要点又は重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではない。本開示の他の特徴は、以下の明細書によって容易に理解されるであろう。
図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施形態を説明するために用いられる。図示の実施例は例示的目的のみであり、特許請求の範囲を限定するものではない。全ての図面において、同一の符号は、類似しているが、必ずしも同じとは限らない要素を指す。
本開示の実施例による、本明細書で説明される様々な方法を実施することができる例示的なシステムを示す概略図である。 本開示の実施例によるデータ生成方法を示すフローチャート図である。 本開示の実施例による、外部メモリバンク内の記憶クエリを示す概略図である。 本開示の実施例による、外部メモリバンクにおける記憶追加及び記憶削除を示す概略図である。 本開示の実施例による、深層学習モデルに用いられる初期入力を確定することを実現できるフローチャートを示す。 本開示の実施例による、記憶能力補強を示す概略図である。 本開示の実施例による、深層学習モデルが初期入力に基づいて回答を生成する概略図を示す。 本開示の実施例による知識補強を示す概略図である。 本開示の実施例による能力拡張を示す概略図である。 本開示の実施例による、初期入力に対する回答の生成を実現することができるフローチャートを示す。 本開示の実施例による、複数の能力補強を示す概略図である。 本開示の実施例による、複数の能力補強を示す概略図である。 本開示の実施例による、深層学習モデルに用いられる初期入力を確定することを実現できるフローチャートを示す。 本開示の実施例による回答集約提示実現することができる概略図を示す。 本開示の実施例による回答構造化提示実現することができる概略図を示す。 本開示の実施例による対話型提示実現することができる概略図を示す。 本開示の実施例による深層学習モデルのトレーニング方法を示すフローチャートである。 本開示の実施例による、知識融合技術を示す概略図である。 本開示の実施例による深層学習モデルのトレーニング方法を示すフローチャートである。 本開示の実施例による、複数のサンプルサーチ結果にソーティング操作を行うフローチャートを示す。 本開示の実施例による深層学習モデルのトレーニング方法を示すフローチャートである。 本開示の実施例によるデータ生成装置を示す構成ブロック図である。 本開示の実施例による深層学習モデルのトレーニング装置を示す構成ブロック図である。 本開示の実施例を実現するために使用され得る例示的な電子機器を示す構成ブロック図である。
以下、図面に合わせて本開示の例示的な実施例を説明して、それに含まれる本開示の実施例における様々な詳細が理解を助けるためので、それらは単なる例示的なものと考えられるべきである。従って、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能及び構造についての説明を省略している。
本願では、特に明記しない限り、様々な要素を説明するための「第1」、「第2」などの用語は、これらの要素の位置関係、タイミング関係、又は重要性関係を限定することを意図していない。このような用語は、一要素を別の要素から区別するためにのみ使用される。いくつかの例では、第1の要素と第2の要素は、要素の同じ例を指してもよく、場合によっては、コンテキストの説明に基づいて、異なる例を指してもよい。
本開示の様々な例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。コンテキストで別途に明確に示されていない限り、特に要素の数を限定しないなら、要素は一つであってもよいし、複数であってもよい。なお、本開示で使用される用語「及び/又は」は、リストされたアイテムのいずれか及び可能な全ての組み合わせをカバーする。
関連技術では、インテリジェントシステムは、ユーザの入力データに基づいて、対応する回答内容を生成することができる。しかし、現在のインテリジェントシステムは、ユーザの入力データに対する処理能力が弱く、生成される回答内容の品質が劣っている。
上記課題を解決するために、本開示は、深層学習モデルを利用して、深層学習モデルとは異なる第1の機能コンポーネントを呼び出す必要があるかどうかを決定し、第1の機能コンポーネントを呼び出す必要があると確定した場合、該第1の機能コンポーネントによって識別できる第1の中間クエリを、深層学習モデルを利用して生成し、さらに、第1の中間結果を得るために、第1の中間クエリを利用して第1の機能コンポーネントを呼び出し、最終的に、第1の中間結果に基づいて、深層学習モデルを利用して、ユーザの初期入力に対する結果を生成する。
以上により、理解や生成などのタスクを自身で実行できる深層学習モデルに対して、さらに能力補強を実現し、それによって、最終的に生成される回答の品質を向上させる。さらに、深層学習モデルを利用して、外部機能コンポーネントによって識別できる中間クエリを直接生成することにより、中間クエリ及び中間結果の取得を、ユーザの初期入力における潜在的な意図により適合させ、したがって、モデルが、ユーザのニーズを満たす回答を出力することを可能にする。
以下、図面を参照して本開示の実施例について詳細に説明する。
図1は、本開示の実施例による、本明細書に記載された様々な方法及び装置を、その中で実施することができる例示的なシステム100の概略図を示す。図1を参照すると、該システム100は、一つ以上のクライアントデバイス101、102、103、104、105と106、サーバ120、及び一つ以上のクライアントデバイスをサーバ120に結合する一つ以上の通信ネットワーク110を含む。クライアントデバイス101、102、103、104、105と106は、一つ以上のアプリケーションを実行するように構成されることが可能である。
本開示の実施例では、サーバ120は、本開示のデータ生成方法又は深層学習モデルのトレーニング方法の1つ又は複数のサービス又はソフトウェアアプリケーションを実行できるように動作する。例示的な一実施例では、サーバは、インテリジェントシステムをサポートする深層学習モデルを配備することができる。
いくつかの実施例では、サーバ120は、非仮想環境と仮想環境を含むことができる他のサービス又はソフトウェアアプリケーションも提供することができる。いくつかの実施例では、これらのサービスは、webベースのサービス又はクラウドサービスとして提供することができ、例えば、ソフトウェアアズアサービス(SaaS)モデルでクライアントデバイス101、102、103、104、105及び/又は106のユーザに提供される。
図1に示す配置では、サーバ120は、サーバ120により実行される機能を実現する一つ以上のアセンブリを含んでもよい。これらのアセンブリは、一つ以上のプロセッサで実行できるソフトウェアアセンブリ、ハードウェアアセンブリ、又はそれらの組み合わせを含んでもよい。クライアントデバイス101、102、103、104、105及び/又は106を操作するユーザは、これらのアセンブリが提供するサービスを利用するために、一つ以上のクライアントアプリケーションを利用してサーバ120とやり取りをすることができる。様々な異なるシステム配置が可能であり、システム100とは異なってもよいことを理解されたい。したがって、図1は、本明細書に記載された様々な方法を実施するためのシステムの一例であり、制限することを意図していない。
ユーザは、クライアントデバイス101、102、103、104、105、及び/又は106を使用して、インテリジェントシステムに入力することができる。クライアントデバイスは、クライアントデバイスのユーザがクライアントデバイスとやり取りするインターフェースを提供することができる。クライアントデバイスはまた、このインターフェースを介してユーザに情報を出力することができ、例えば、ユーザ入力に対してインテリジェントシステムによって生成された回答をユーザに出力することができる。図1では6つのクライアントデバイスしか図示されていないが、当業者であれば理解できるように、本開示はいかなる数のクライアントデバイスもサポートできる。
クライアントデバイス101、102、103、104、105及び/又は106は、携帯型ハンドヘルドデバイス、汎用コンピュータ(例えば、パーソナルコンピュータやノートパソコン)、ワークステーションコンピュータ、ウェアラブルデバイス、スマートスクリーンデバイス、セルフサービス端末デバイス、サービスロボット、ゲームシステム、シンクライアント、各種のメッセージングデバイス、センサ、又はその他の検知デバイスなどの様々なタイプのコンピュータデバイスを含んでもよい。これらのコンピュータデバイスは、MICROSOFT Windows、APPLE iOS、類UNIXオペレーティングシステム、Linux又は類Linuxオペレーティングシステム(例えば、GOOGLE Chrome OS)などの様々なタイプ及びバージョンのソフトウェアアプリケーションやオペレーティングシステムを実行したり、MICROSOFT Windows Mobile OS、iOS、Windows Phone、Androidなどの各種のモバイルオペレーティングシステムを含んだりすることができる。携帯用ハンドヘルドデバイスには、携帯電話、インテリジェントフォン、タブレット、パーソナルデジタルアシスタント(PDA)などを含んでもよい。ウェアラブルデバイスは、ヘッドマウント型ディスプレイ(例えば、スマートグラス)と他の装置を含んでもよい。ゲームシステムは、様々なハンドヘルド型のゲームデバイス、インターネット対応のゲームデバイスなどを含んでもよい。クライアントデバイスは、例えば、インターネットInternet関連アプリケーション、通信アプリケーション(例えば、電子メールアプリケーション)、ショートメッセージサービス(SMS)アプリケーション、様々なアプリケーションを実行でき、且つ様々な通信プロトコルを使用できる。
ネットワーク110は、当業者に知られている任意のタイプのネットワークであってもよく、それは、データ通信をサポートするために、複数の利用可能なプロトコルのいずれか一つ(TCP/IP、SNA、IPXなどを含むがこれらに限定されない)を使用することができる。例として、一つ以上のネットワーク110は、ローカルエリアネットワーク(LAN)、イーサネットベースのネットワーク、トークンループ、ワイドエリアネットワーク(WAN)、インターネット、仮想ネットワーク、仮想プライベートネットワーク(VPN)、イントラネット、エクストラネット、ブロックチェーンネットワーク、公衆交換電話網(PSTN)、赤外線ネットワーク、無線ネットワーク(例えば、ブルートゥース、WIFI)、及び/又はこれら及び/又はその他のネットワークの任意の組み合わせであってもよい。
サーバ120は、一つ以上の汎用コンピュータ、専用サーバコンピュータ(例えば、PC(パーソナルコンピュータ)サーバ、UNIXサーバ、ミッドレンジサーバ)、ブレードサーバ、大型コンピュータ、サーバクラスタ、又はその他のいかなる適切な配置及び/又は組み合わせを含んでもよい。サーバ120は、仮想オペレーティングシステムを実行する一つ以上の仮想マシン、又は仮想化に関わる他のコンピューティングアーキテクチャ(例えば、サーバの仮想記憶デバイスを維持するために仮想化された論理記憶デバイスの一つ以上のフレキシブルプール)を含んでもよい。様々な実施例では、サーバ120は、以下に説明する機能を提供する一つ以上のサービス又はソフトウェアアプリケーションを実行することができる。
サーバ120における計算ユニットは、上記した任意のオペレーティングシステム及び任意の商用サーバオペレーティングシステムを含む一つ以上のオペレーティングシステムを実行することができる。サーバ120は、HTTPサーバ、FTPサーバ、CGIサーバ、JAVAサーバ、データベースサーバなど、様々な追加のサーバアプリケーション及び/又は中間層アプリケーションのいずれか一つを実行することもできる。
いくつかの実施例では、サーバ120は、クライアントデバイス101、102、103、104、105及び/又は106のユーザから受信したデータフィード及び/又はイベントの更新を分析及び統合するための一つ以上のアプリケーションを含んでもよい。サーバ120は、クライアントデバイス101、102、103、104、105及び/又は106の一つ以上のディスプレイデバイスを介してデータフィード及び/又はリアルタイムイベントを表示する一つ以上のアプリケーションを含んでもよい。
いくつかの実施例では、サーバ120は、分散型システムのサーバであってもよいし、ブロックチェーンを組み込んだサーバであってもよい。サーバ120は、クラウドサーバであってもよいし、人工インテリジェント技術を備えたインテリジェントクラウドコンピューティングサーバやインテリジェントクラウドホストであってもよい。クラウドサーバはクラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストと仮想専用サーバ(VPS、Virtual Private Server)サービスに存在する管理難度が大きく、業務拡張性が弱いという欠陥を解決する。
システム100は、一つ以上のデータベース130を含むこともできる。いくつかの実施例では、これらのデータベースはデータやその他の情報を記憶するために使用できる。例えば、データベース130のうちの一つ以上は、オーディオファイルやビデオファイルのような情報を記憶するために使用できる。データベース130は、さまざまな位置に配置することができる。例えば、サーバ120が使用するデータベースは、サーバ120のローカルにあってもよいし、サーバ120から離れて、ネットワーク又は専用の接続を介してサーバ120と通信してもよい。データベース130は、さまざまなタイプであってもよい。いくつかの実施例では、サーバ120が使用するデータベースは、リレーショナルデータベースであってもよい。これらのデータベースのうちの一つ以上は、命令に応じてデータベースとデータベースからのデータを記憶、更新、検索できる。
いくつかの実施例では、データベース130のうちの一つ以上は、アプリケーションによって使用され、アプリケーションのデータを記憶することもできる。アプリケーションで使用されるデータベースは、キー値リポジトリ、オブジェクトリポジトリ、ファイルシステムでサポートされる汎用リポジトリなど、様々なタイプのデータベースであってもよい。
図1のシステム100は、本開示に基づいて説明した様々な方法及び装置を応用することができるように、様々な方法で構成し操作することができる。
本開示の一態様によれば、深層学習モデルに基づくデータ生成方法を提供する。深層学習モデルはユーザの入力データに基づいて回答データを生成することができる。図2に示すように、データ生成方法は、ユーザからの入力データに基づいて、深層学習モデルに用いられる初期入力を確定するステップS201と、深層学習モデルの第1の出力を取得し、ここでは、深層学習モデルが初期入力に基づいて回答を生成するのに深層学習モデルとは異なる第1の機能コンポーネントを呼び出す必要があると確定したことに応答して、第1の出力は第1の機能コンポーネントを呼び出すための第1のトークン及び初期入力に基づいて確定された、第1の機能コンポーネントによって識別できる第1の中間クエリを含むステップS202と、第1の中間クエリに基づいて第1の機能コンポーネントによって確定された第1の中間結果を取得するステップS203と、少なくとも初期入力及び第1の中間結果に基づいて、深層学習モデルに用いられる第2の入力を確定するステップS204と、初期入力に対する回答を生成するために、深層学習モデルの第2の出力を取得するステップS205とを含む。
したがって、以上により、理解や生成などのタスクを自身で実行できる深層学習モデルに対して、さらに能力補強を実現し、それによって、最終的に生成される回答の品質を向上させる。さらに、深層学習モデルを利用して、外部機能コンポーネントによって識別できる中間クエリを直接生成することにより、中間クエリ及び中間結果の取得を、ユーザの初期入力における潜在的な意図により適合させ、したがって、モデルが、ユーザのニーズを満たす回答を出力することを可能にする。
本開示では、深層学習モデルは、理解生成統合インタラクティブ大規模モデル(理解生成大規模モデル又は統合大規模モデルと略称する)とも呼ばれる。理解生成大規模モデルはエンドツーエンドの特性を持ち、理解生成大規模モデル以外の機能コンポーネントやその他の入力を介さずに、ユーザの入力データに基づいて回答データを直接生成することができる。言い換えれば、理解生成大規模モデル自体に生成機能がある。さらに、理解生成大規模モデルを配置するシステムは、インテリジェントシステムと呼ぶことができる。インテリジェントシステムには、ユーザからの入力データを受信し、最終的に生成された回答をユーザに提供するためのインタラクティブモジュールも含まれてもよい。ユーザとインテリジェントシステムとの1回の会話において、インテリジェントシステムは、それに配置された理解生成大規模モデルを利用して、ユーザと複数回の対話を行うことができる。
理解生成大規模モデルは、例えば、エンコーダ(Encoder)及びデコーダ(Decoder)を有するN層Transformerネットワーク構造、又は統合プリトレーニング言語モデル(Unified pre-trained Language Model,UniLM)ネットワーク構造を採用することができる。理解生成大規模モデルは、他のTransformerネットワーク構造に基づくニューラルネットワークモデルでもよく、ここでは限定されないことを理解されたい。理解生成大規模モデルの入力と出力は、いずれもトークン(token)で構成される。各トークンは、以下で説明するように、一つの単一ワード、文字、単語、特殊記号、又はある外部機能コンポーネントに対応することができる。
本開示で説明されるデータ生成方法で使用される深層学習モデルは、本開示で後述する深層学習モデルのトレーニング方法によってトレーニングされたものであってもよいことを理解されたい。
ステップS201の前に、まずユーザの入力データを取得するようにしてもよい。ユーザの入力データは、例えば、インテリジェントシステムへのユーザ入力であってもよく、例えば、テキスト入力、音声入力、画像入力などを含むことができる。ユーザの入力データは、他のデータ形式を有することもでき、本明細書では限定されないことを理解されたい。ユーザの入力データは、事実類問題であってもよく、特定のタスクを実行する指示であってもよく、雑談内容であってもよい。異なる種類のユーザ入力に対して、インテリジェントシステムはいずれも適切な回答を生成できる。
いくつかの実施例によれば、第1の機能コンポーネントは、ユーザに関連する第1のデータグループセットを記憶することができる外部メモリバンクであってもよい。第1のデータグループセットにおける各データグループは、少なくとも履歴入力データアイテムと、履歴入力データアイテムに対して深層学習モデルによって生成された履歴回答アイテムとを含むことができる。履歴入力データアイテム及び対応する履歴回答アイテムは、例えば、ユーザとインテリジェントシステムとの履歴対話において生成される対話を含んでもよく、現在の会話においてユーザとインテリジェントシステムによって生成される対話を含んでもよいことを理解されたい。これにより、外部メモリバンクを設置することによってユーザとインテリジェントシステムとの長期にわたる履歴対話を記憶し、インテリジェントシステムの記憶能力を向上させ、ユーザ入力に関連する履歴対話を取得することによって、深層学習モデルが履歴対話を参照してユーザへの目標性がより強く、内容がより豊富でより具体的な回答を生成することができ、それにより回答の品質を向上させ、対話のインテリジェント性を向上させ、ユーザ体験を向上させる。
いくつかの実施例によれば、第1のデータグループセットにおける各データグループは、そのセットにける履歴入力データアイテム及び履歴回答アイテムに対応するエントリ時間アイテム(又はタイムスタンプ)をさらに含むことができる。これにより、エントリ時間アイテムを設けることにより、外部メモリバンクにおける履歴対話の検索や削除を行う際に、履歴対話のエントリ時間に応じてより豊富な操作を実現でき、記憶の実効性が向上する。
いくつかの実施例によれば、第1のデータグループセットにおける各データグループは、そのセットにける履歴入力データアイテム及び履歴回答アイテムに対応するテーマアイテムをさらに含むことができる。1つの例示的な一実施例では、記憶の取得時に、現在の対話と同じテーマを有する履歴対話を直接取得するか、又は、より効率的な履歴対話がより効率的に取得されるように、テーマアイテムを類似度計算の根拠の1つとして使用することができる。これにより、テーマアイテムを設けることで、具体的な記憶を抽象的な記憶に変換することができ、外部メモリバンクにおける履歴対話の検索や削除において、履歴対話のテーマに応じて、より豊富な操作を実現することができる。
1つの例示的な実施例では、外部メモリバンクにおけるデータグループは、以下の表1に示されることができる。
Figure 2023182707000002
いくつかの実施例によれば、第1の中間クエリは、入力データに基づくことができる。第1の中間クエリは、ユーザの入力データと一致してもよいし、ユーザの入力データ及びコンテキスト情報を含んでもよく、入力データに基づいて確定された初期入力を、深層学習モデルにより書き換えたものであってもよい。コンテキスト情報は、取得したユーザの入力データの前に、ユーザとインテリジェントシステムとの間で行われた複数の対話を含むことができる。
いくつかの実施例によれば、第1の中間結果は、第1のデータグループセットにおける、入力データとの類似度が第1の閾値より高い履歴入力データアイテムに対応する履歴回答アイテムであってもよい。したがって、第1の中間結果を得るために、外部メモリバンクから現在のユーザ入力に関連する履歴回答アイテムを取得することによって、深層学習モデルは、ユーザとインテリジェントシステムとの履歴対話を参照して、ユーザの現在ラウンドの入力に対する回答生成を行うことができ、それによって、インテリジェントシステムの最終的に出力する回答の品質を向上させる。
いくつかの実施例では、第1の中間結果は、入力データとの類似度が第1の閾値より高い履歴入力データアイテム自体も含むことができる。
いくつかの実施例では、稠密ベクトル類似度を計算することによってユーザの入力データに関連する履歴対話情報を得ることができる。稠密ベクトル類似度は以下のように表すことができる:
Figure 2023182707000003
ここで、
Figure 2023182707000004
はユーザの入力データq、コンテキスト情報c、外部メモリバンクにおける履歴入力データアイテムm、及び履歴回答アイテムmの稠密ベクトルをそれぞれ表し、トレーニングされた埋め込みモデルによって得ることができる。contは2つの部分の内容の組み合わせを表し、スティッチング、加算、ニューラルネットワーク(例えば、多層パーセプトロン)による処理などの方式で実現でき、simは類似度関数を表す。
上述した類似度の算出処理は、ニューラルネットワークによって実現されてもよいことを理解されたい。ユーザの入力データ(又はユーザの入力データとコンテキスト情報の両方、又はユーザの入力データに基づいて得られた第1の中間クエリ)と、外部メモリバンクにおける各履歴入力データアイテム(又は履歴入力データアイテム及び対応する履歴回答アイテムの両方)との類似度を計算することができ、類似度sがプリセット第1の閾値δより大きい、ことを満たす1つ又は複数のデータグループにおける履歴回答アイテム(及びオプションとして、履歴入力データアイテム)を理解生成大規模モデルに返すことができる。いくつかの実施例では、Top Kなどの他の方式によって類似度に基づいて返される必要のある履歴回答アイテムを確定してもよく、ここでは限定されない。
いくつかの実施例では、外部メモリバンクは、以下に説明するように、理解生成大規模モデルと連合して最適化されたものであってもよい。
いくつかの実施例によれば、第1の中間クエリは、入力データに基づくものであってもよく、第1の中間結果は、第1のデータグループセットにおける、入力データとの類似度が第1の閾値より高く、かつタイムスタンプが最新の履歴入力データアイテムに対応する履歴回答アイテムであってもよい。これにより、入力データに関連する複数の履歴回答アイテムが得られたときにタイムスタンプが最新の履歴回答アイテムを返すことで、深層学習モデルが最新の相関記憶に基づいて回答を生成し、記憶の時効性を十分に利用する。
いくつかの実施例では、第1のデータグループセットにおける、入力データとの類似度が第1の閾値より高く、かつタイムスタンプが最新の履歴入力データアイテム自体を深層学習モデルに返してもよい。
いくつかの実施例では、図3に示すように、ユーザとインテリジェントシステム310とは、貝貝というペットとの外出に関する対話を履歴的に2回経験する。インテリジェントシステム310は、例えば上述した、理解生成大規模モデルを配置し、かつユーザと対話することができるシステムであってもよい。現在の対話において、インテリジェントシステム310は、「最近、貝貝を連れて、この前知り合った友達と遊びに行きたい」というユーザ入力を取得し、このユーザ入力に基づいて外部メモリバンク320において記憶取得を行って、タイムスタンプが20XX0812である履歴入力データアイテム「最近、貝貝をペットパークに連れて行きたいのですが、おすすめの場所はありますか?」と対応する履歴回答アイテム「XXランドに歩いてもいいよ、ペットのアトラクションがたくさんあります」、及びタイムスタンプが20XX0817である履歴入力データアイテム「明日、貝貝と一緒に郊外へ行き、新鮮な空気を吸ってみたい」、及び対応する履歴回答アイテム「YYパークはいい選択ですね」を検索できた。さらに、タイムスタンプが最新の履歴対話を深層学習モデルに返すことができ、深層学習モデルはこの履歴対話に基づいて「YY公園に行くのですか、そこでたくさんの友達と知り合いになる」という回答を生成する。インテリジェントシステムは、モデルによる回答生成のために、取得した二つの履歴対話をいずれもモデルに提供することもできることを理解されたい。
上記実施例を通じて、外部メモリバンクを使用することにより、前の会話(例えば、1週間前、1ヶ月前又はより早い)にユーザとインテリジェントシステムとが生成した履歴対話を記録することができ、インテリジェントシステムの記憶能力を向上させ、ユーザの現在の入力に対する回答生成時に、関連する履歴対話を参考として使用し、ユーザへの目標性がより強く、内容がより豊富で、より具体的な回答を生成し、それにより、回答品質を向上させ、対話のインテリジェント性を向上させ、ユーザ体験を向上させることが分かる。
前述の実施例は、外部メモリバンクの検索操作について説明したが、以下、外部メモリバンクにおけるデータグループの追加や削除などの操作について説明する。図4は、例示的な実施例による、外部メモリバンク420におけるデータグループの追加及び削除などの操作を示す概略図である。インテリジェントシステム410は、例えば上述した、理解生成大規模モデルを配置し、かつユーザと対話することができるシステムであってもよい。なお、外部メモリバンクのクエリ操作は、深層学習モデルを利用してユーザの入力データに対する回答データを生成する過程で行われ、追加や削除などの操作は、深層学習モデルによる回答データの生成後に行われる。
いくつかの実施例によれば、データ生成方法は、入力データ及び回答に基づく第1のデータグループと、第1のデータグループセットにおけるいずれかのデータグループとの類似度が第2の閾値より小さいと確定したことに応答して、第1のデータグループを第1のデータグループセットにエンターすることをさらに含むことができる。
いくつかの実施例では、第t-1ラウンドのユーザ入力データut‐1及び深層学習モデルの回答データrt‐1について、第1のデータグループmt‐1=(ut‐1,rt‐1)が外部メモリバンクMにおけるデータグループとの類似度もプリセット第2の閾値により低い場合、mt‐1=(ut‐1,rt‐1)を外部メモリバンクMに追加する。
いくつかの実施例によれば、データ生成方法は、入力データ及び回答に基づく第1のデータグループと、第1のデータグループセットにおける第2のデータグループとの類似度が第3の閾値より高く、かつ第1のデータグループと第2のデータグループが相互に衝突していると確定したことに応答して、第1のデータグループを第1のデータグループセットにエンターし、第2のデータグループを第1のデータグループセットから削除することをさらに含むことができる。
いくつかの実施例では、第t-1ラウンドのユーザの入力データut‐1及び深層学習モデルの回答データrt‐1について、第1のデータグループmt‐1=(ut‐1,rt‐1)が、外部メモリバンクMにおける第2のデータグループm∈Mとの類似度が第3の閾値より高く、かつmt‐1とmとの一致性が衝突すると判断された場合、mを削除し、mt‐1をMに追加する。1つの例示的な実施例では、mt‐1とmの一致性判断(例えば、衝突検出)は、両方の意味ベクトルに基づいてニューラルネットワークを利用して実行されてもよく、他の方式で実施されてもよく、ここでは限定されない。
これにより、上記方式により、外部メモリバンクにデータグループを新たに追加及び削除することを実現し、外部メモリバンクにおけるデータグループ操作の柔軟性を向上させ、外部メモリバンクにおけるデータグループの時効性及び内容の正確性を向上させる。
いくつかの実施例では、図4に示すように、深層学習モデルがユーザ入力に対して回答を生成した後、現在の対話(ユーザ入力及びモデルによって生成された回答を含む)を外部メモリバンクに追加することができ、現在の対話内容が外部メモリバンクにおける履歴対話と衝突した場合、外部メモリバンクにおける履歴対話を削除できる。
いくつかの実施例によれば、データ生成方法は、エントリ時間アイテムに基づいて、時効性が古いデータグループを外部メモリバンクから削除することをさらに含むことができる。いくつかの例示的な実施例では、データグループに対する保留期間を設定し、その期間を超えるデータグループを削除することができ、定期的に又は不定期にデータグループの内容に基づいて時効性検査を行い、検査に合格しなかったデータグループを削除することができ、他の方式で外部メモリバンクから時効性が古いデータグループを削除することも実現できる。これにより、上記方式により、外部メモリバンクにおけるデータグループがすべて古くならないことが保証され、記憶の時効性が向上する。
いくつかの実施例では、インテリジェントシステムは、深層学習モデルの初期入力を構築する段階(すなわち、深層学習モデルを利用して初期入力を処理する前)において、ユーザの現在ラウンドの入力データに対応する履歴対話情報を外部メモリバンクから直接取得し、履歴対話情報に基づいて深層学習モデルの初期入力を確定することができる。
いくつかの実施例によれば、図5に示すように、深層学習モデルに用いられる初期入力を確定するステップS201は、入力データに基づいて、外部メモリバンクから入力データとの類似度が第1の閾値より高い履歴入力データアイテムに対応する履歴回答アイテムを取得するステップS501と、入力データ及び履歴回答アイテムに基づいて、初期入力を確定するステップS502とを含むことができる。ステップS501の動作は、第1の中間結果の取得に関する上記の説明を参照することができ、ここでは説明しないことを理解されたい。これにより、深層学習モデルが回答を生成するたびに、いずれも外部メモリバンクから取得した履歴対話情報を参照できることを保証できる。
いくつかの実施例では、ユーザの入力データと履歴回答アイテムとを直接スティッチングして、深層学習モデルの初期入力を取得することができ、他の方式でユーザの入力データ及び履歴回答アイテムを処理して、深層学習モデルの初期入力を得ることもできるが、ここでは限定されない。
いくつかの例示的な実施例に関連して深層学習モデル及びインテリジェントシステムに対する記憶能力補強の効果を以下でさらに説明する。1つの例示的な実施例では、図6に示すように、外部メモリバンクを備えない対話システム610は、長期記憶を形成することができず、したがって、ユーザが履歴対話の内容についてクエリするときに、該システムは機械的に回答することしかできない。本開示で説明される外部メモリバンクを備えたインテリジェントシステム620は、ユーザ入力に対して、外部メモリバンク630から対応する履歴対話を取得することができ、それによって、ユーザのニーズを満たす回答を生成することができ、深層学習モデル及びインテリジェントシステムの記憶能力の補強を体現する。
いくつかの実施例では、第1の機能コンポーネントは、外部サーチエンジン、検索モデル、アプリケーションプログラミングインターフェースなど、他の機能コンポーネントであってもよい。これらの異なる機能コンポーネントは、それぞれ対応するトークン(token)を有する。ステップS202において、深層学習モデルは、外部の機能コンポーネントを呼び出すか否か(及び/又はどの機能コンポーネントを呼び出すか)を決定するが、決定結果はすなわち、深層学習モデルが出力した結果に、外部の機能コンポーネントの呼び出しに対応するトークンが含まれているか否か(及び/又は、結果に具体的にどの機能コンポーネントに対応するトークンが含まれているか)に体現する。なお、外部サーチエンジン、検索モデル、アプリケーションプログラミングインターフェースといった外部の機能コンポーネントは、コンテキスト情報及び/又は外部メモリバンクを前提とする必要はなく、言い換えれば、これらの外部機能コンポーネントは、深層学習モデル単独で呼び出すことができる。
いくつかの実施例では、Transformerネットワーク構造に基づく深層学習モデルが予測を行うとき、モデルは最初に初期入力を受け取り、第1の出力トークンtoken_1を生成する。次に、モデルはtoken_1を受け取り、第2の出力トークンtoken_2を生成する。モデルが出力したtoken_nがモデル出力の完了を示すまで、深層学習モデルへのループ呼び出しを繰り返す。モデルによって出力された各トークンは特定の外部機能コンポーネントに対応することができ、外部機能コンポーネントを呼び出すか否かの決定結果を体現し、また、特定の外部機能コンポーネントによって識別できる中間クエリを生成するように、特定のマークアップ(markup)の形態であってもよく、また、特定の単一ワード、文字又は単語であってもよく、それにより、ユーザ入力に対する回答を生成し、また、現在の内容がすでに生成されたことを示す特殊記号でもよい。したがって、モデルを利用して決定を自動的に行うことを実現して、次に実行する必要があるタスク(例えば、外部機能コンポーネントの呼び出し又は回答の生成)を確定する。
図7は例示的な実施例による、深層学習モデルが初期入力に基づいて回答を生成する概略図を示す。理解生成大規模モデル710(すなわち、深層学習モデル)の構造は、UniLMであってもよい。まず、ユーザの入力データ(及びオプションとして、コンテキスト情報)に基づくモデルの初期入力を深層学習モデルに入力してモデルが出力した第1のトークンを得、対応する内容は<api1>である。このトークンは、機能コンポーネントAPI1を呼び出す必要があるというモデルの決定を反映している。モデルは、API1によって識別できる第1の中間クエリinput_1を生成するために出力を続けることができる。この過程は、API1によって識別可能で、かつAPI1から所望の結果を取得することができる呼び出し情報を得るために、ユーザの入力データを書き換えることとして理解することもできる。input_1を出力した後、モデルはマークアップ</api1>に対応するトークンを出力でき、API 1に対する第1の中間クエリが既に生成済みと示す。第1の出力は、完全な<api1>input_1</api1>を含むことができる。
いくつかの実施例では、API 1に対応する第1の中間クエリinput_1は、深層学習モデルの繰り返し呼び出しによってワードごとに生成されてもよく、すなわち、毎回、ユーザの入力データ及びinput_1において生成された部分をモデルに入力して、input_1における次の単一ワード、文字、又はマークアップ(markup)を取得する。input_1は、深層学習モデルによって出力された単一トークンを復号することによって得られてもよい。input_1は、他の方式でモデルが出力したトークンから得ることもでき、ここでは限定されない。
第1の中間クエリinput_1が得られた後、input_1を利用してAPI1を呼び出して、第1の中間結果<api1-r>result_1</api1-r>を取得することができる。さらに、ユーザの入力データと第1の中間結果とを組み合わせて、モデルが出力する次のトークンを取得するために、深層学習モデルに用いられる第2の入力を得ることができる。いくつかの実施例では、第2の入力を確定するとき、第1の中間クエリ(又は完全な第1の出力)を組み込むこともでき、図7に示すように、第1の出力<api1>input_1</api1>の下向きの破線の矢印及び第1の中間結果<api1-r>result_1</api1-r>の左側の破線ブロックに示す。この破線ブロックは、第1の中間クエリinput_1であってもよく、完全な第1の出力<api1>input_1</api1>であってもよい。1つの例示的な実施例では、第2の入力は、モデルの初期入力、第1の出力、及び第1の中間結果のスティッチングである。
いくつかの実施例によれば、少なくとも初期入力及び第1の中間結果に基づいて、深層学習モデルに用いられる第2の入力を確定するステップS204は、初期入力、第1の中間結果、及び第1の中間クエリに基づいて、深層学習モデルに用いられる第2の入力を確定することを含むことができる。このように、第1の中間クエリを、深層学習モデルが第2の出力を生成する参照因子とすることにより、モデル決定の正確性をさらに向上させることができ、最終的に生成される回答の品質を向上させることができる。
深層学習モデルによって第2の入力に基づいて生成される第2のトークンは、対応する内容が<api2>であり、このトークンは、機能コンポーネントAPI 2を呼び出す必要があるというモデルの決定を反映している。モデルは、第2の中間クエリinput_2及びマークアップ</api2>に対応するトークンを出力し続けることができる。さらに、input_2を利用してAPI 2を呼び出して第2の中間結果<api2-r>result_2</api2-r>を取得し、ユーザの入力データと、第2の中間結果(及びオプションとして、第2の中間クエリ)とを組み合わせて、深層学習モデルに用いられる第3の入力を得ることができる。1つの例示的な実施例では、第3の入力は、モデルの初期入力、第1の出力、第1の中間結果、第2の出力、及び第2の中間結果のスティッチングである。
深層学習モデルによって第3の入力に基づいて生成される第3のトークンは、外部機能コンポーネントのいずれにも対応せず、したがって、この第3のトークンは、モデルの初期入力(ユーザへの入力データとも理解される)に対する回答の生成を開始するように、モデルに指示することができる。いくつかの実施例では、第3のトークンは、回答中の最初の単一ワード、文字、又は単語、又は、意味情報を有さなく、モデルが次のトークンから回答を生成することを示すための特殊記号であってもよい。次に、モデルは回答をワードごとに生成し、最終的に、回答が生成済みと示す特殊記号を生成する。
なお、異なる外部機能コンポーネントの呼び出しは互いに独立であり、事前設定された順序関係はなく、モデルが出力するトークンによってどの外部機能コンポーネントを呼び出す必要があるかを決定する。したがって、いくつかの例示的な実施例では、モデルは、同じ機能コンポーネントを複数回呼び出すか、又はユーザ入力への理解に基づいて、複数の機能コンポーネントを特定の論理順序で呼び出して特定のタスクを実行するかを決定する可能性がある。
このように、理解生成大規模モデルに異なる意味を有するトークンを出力させることにより、モデルが、ユーザ入力(及びオプションとして、コンテキスト情報)への理解に基づいて、実行する必要があるタスク(例えば、特定の外部機能コンポーネントの呼び出し又は回答の直接生成)及び実行順序を自動的に確定でき、単一の深層学習モデルを用いた自動化理解、推理、決定、生成を実現し、システムのインテリジェント性を向上させる。
いくつかの実施例では、UniLMモデルは、1つのみの入力を有する。したがって、ステップS204において、スティッチングなどの手段によって初期入力と第1の中間結果とを組み合わせて、ユーザ深層学習モデルの第2の入力を得ることができる。
いくつかの実施例では、エンコーダ及びデコーダを有するN層Transformerネットワーク構造を採用する場合、エンコーダの入力はモデルの初期入力であり、エンコーダの出力は初期入力に対する符号化結果であってもよく、デコーダの2つの入力は、それぞれ、エンコーダによって出力される初期入力への符号化結果と、モデルが既に生成したすべてのトークンであり、デコーダの出力は、予測する次のトークンである。従って、ステップS204において、第1の中間結果及び初期入力に対する符号化結果は、それぞれデコーダへの2つの入力として使用されることができる。
いくつかの実施例によれば、第1の機能コンポーネントは、外部サーチエンジンであってもよい。外部サーチエンジンは、汎用サーチエンジンであってもよいし、専門分野にカスタマイズされる知識エンジン又は専門知識ライブラリであってもよく、私有データベースであってもよく、それにより、異なるタイプの知識を獲得し、リアルタイムに知識を更新する。
深層学習モデルによって生成される第1の中間クエリは例えば検索式であってもよく、これにより、外部サーチエンジンを利用して、1つ以上のサーチ結果を得るために、このサーチ式に基づいてサーチすることができる。いくつかの実施例では、サーチエンジンによって返された1つ以上のサーチ結果を直接第1の中間結果としてもよく、これらのサーチ結果を処理して第1の中間結果を得るようにしてもよい。次いで、深層学習モデルの初期入力(例えば、ユーザの入力データ、及びオプションとして、コンテキスト情報)及び第1の中間結果(例えば、1つ以上のサーチ結果)に基づいて深層学習モデルによって処理されるための第2の入力を確定することができる。第2の入力に対して、深層学習モデルは、第2の機能コンポーネントをさらに呼び出す必要があると確定する可能性もあり、以下で説明するように、他の機能コンポーネントを呼び出すことを必要とせず、初期入力に対する回答を直接生成すると確定する可能性もある。
いくつかの実施例では、スティッチングなどの手段によって初期入力と第1の中間結果とを組み合わせて、第2の入力を得ることができ、まず、内容抽出、書き換え、意味ベクトルの計算、又は他の方式によって各サーチ結果を処理し、続いてスティッチングなどの手段によって初期入力と処理されたサーチ結果とを組み合わせて、第2の入力を得ることもできるが、ここでは限定されない。
いくつかの実施例では、トレーニングによって、データをパラメータ化された方式でモデルに完全に内在化し、そのようなモデルを利用して、ユーザ入力に対する回答を直接生成することができる。このメカニズムでは、比較的流行らない事実類情報について、トレーニングデータ中の出現頻度が少ないため、モデルの学習がしっかりでないため、「忘れる」あるいは「記憶が乱れる」場合がある。
これにより、外部サーチエンジンからサーチ結果を取得することにより、各種類の精確な知識、情報及び時効性データを正確かつタイムリーに上位の理解生成大規模モデルに伝達し、理解生成大規模モデルをサーチされた明示的な情報とモデルに内在化された知識と合わせてユーザのニーズに対する満足と回答を共に完成させる。また、理解生成モデルは、第2の入力に含まれる一つ以上のサーチ結果に基づいて最後の回答を生成し、検索された情報に対する整合加工を実現し、それにより、ユーザの意図により合った回答を出力することができ、回答データの品質を向上させる。
いくつかの実施例によれば、第1の機能コンポーネントは、深層学習モデルと連合してトレーニングされた検索モデルである。検索モデルは、リコールモデル及びソーティングモデルをさらに含むことができるエンドツーエンドのTransformer構造に基づく大規模モデルであってもよい。検索モデルは、単一のニューラルネットワークモデル(例えば、エンドツーエンドのTransformer構造に基づく大規模モデル)によって実現することもできる。深層学習モデルと検索モデルとの連合トレーニングについては後述する。
深層学習モデルによって生成される第1の中間クエリは、例えば検索クエリ(query)であってもよく、これにより、1つ以上の検索結果を得るために、深層学習モデルと連合してトレーニングされた検索モデルを利用して検索することができる。検索結果への処理は、サーチエンジンによって返されたサーチ結果の上述の処理を参照することができ、ここでは説明しないことを理解されたい。
これにより、外部検索モデルを用いることで、外部サーチエンジンを用いた上記の利点が実現できる一方で、外部検索モデルと理解生成大規模モデルとが連合して最適化されるため、両者が協調し、外部検索モデルは、より正確で、より回答生成に適切な内容を理解生成大規模モデルに提供でき、理解生成大規模モデルは検索結果をよりよく整合加工することができ、これにより、ユーザの意図により合った品質の高い回答を生成することができる。したがって、外部サーチエンジンや外部検索モデルを用いることで、深層学習モデルやインテリジェントシステムに対する知識補強を実現することができる。
以下、いくつかの例示的な実施例に関連して深層学習モデル及びインテリジェントシステムに対する知識補強の効果をさらに説明する。1つの例示的な実施例では、図8に示すように、知識補強を備えない対話システム810では、内在化された知識が限られており、より知識の強いクエリに遭遇したときに正確な回答ができない。さらに、対話システム810は、知識をリアルタイムで更新することができず、したがって、それが出力する結果は、古くなったり、間違っていたりする可能性がある。本開示で説明される知識補強を有するインテリジェントシステム820は、ユーザ入力に対して外部サーチエンジン/検索モデル830で検索を行うことができ、これにより正確な知識内容を獲得し、知識の正確度を向上させる。ユーザからの「三国時代、魏の君主の息子が書いた有名な詩は何か。」という質問に対して、サーチエンジン/検索モデル830は2つの関連結果を返し、そのうちの1つは三国時代の魏の君主が曹操であり、息子の曹丕と曹植がいたことを示し、もう1つは曹操の息子である曹植の詩作「七歩詩」が有名であることを示している。深層学習モデルは、自身の内在化した知識と結びつけて、外部から得たこれら2つのサーチ結果を融合してから、正確な回答を与える。
また、外部のサーチエンジンや検索モデルの背後にあるデータベース、知識ベース、リソースリポジトリはリアルタイムに更新されるため、サーチや検索によって得られる知識はより時効性が強い。これにより、深層学習モデルとインテリジェントシステムに対する知識増強が示される。
いくつかの実施例によれば、第1の機能コンポーネントは、深層学習モデルによって呼び出すことができる少なくとも1つのアプリケーションプログラミングインターフェース(API)である。異なるAPIは、それぞれ、対応するマークアップ(markup)形式、すなわち、このAPIを呼び出すためのトークンを有する。深層学習モデルの予測時、モデルが特定のAPIに対応するトークン/マークアップを出力するとき、インテリジェントシステムは、このAPIをトリガする必要があることを認識する。次に、モデルは、このAPIによって識別できる中間クエリ(すなわち、このAPIに用いられる入力であり、書き換えられたクエリqueryとも呼ばれる)を出力し続ける。さらに、中間クエリでこのAPIを呼び出して得た中間結果に基づいて、深層学習モデルに再入力するための第2の入力を確定し、モデルによる予測を継続させることができる。第2の入力に関して、深層学習モデルの決定は、第2の機能コンポーネント(サーチエンジン、検索モデル、又は他のAPI)をさらに呼び出す必要がある可能性もあり、他の機能コンポーネントを呼び出すことを必要とせず、初期入力に対する回答を直接生成する可能性もある。
上述のように、単一ラウンドに対するモデルの回答生成過程において、全てのAPI(又は全ての外部機能モジュール)が呼び出されてもよいし、一部のAPIのみが呼び出されてもよく、これらのAPIの呼び出し順序及び呼び出し回数がいずれもモデルによって決定される。
いくつかの実施例では、インテリジェントシステムで使用されるAPIは、科学計算機、フォーム処理ツール、スマートホームコントロールなどを含むことができる。これにより、様々なタスクを実行できるAPIを呼び出すことで、インテリジェントシステムに対する能力拡張を実現する。科学計算機などの外部機能コンポーネントを用いることで、深層学習モデルの論理計算能力が弱いという問題を解決し、インテリジェントシステム全体の論理推理能力を向上させる。キーワードとAPI呼び出し命令のマッピングテーブルを利用してAPIを呼び出す方式より、深層学習モデルを利用して該APIによって識別できる中間クエリを直接生成し、中間クエリ及び中間結果の取得をユーザの初期入力における潜在的な意図により適合させ、最終的に生成された回答の品質を向上させ、システムのインテリジェント性を向上させる。また、理解生成大規模モデルとAPIを組み合わせることで、インテリジェントシステムに自動化された動作実行能力を持たせ、深層学習モデルやインテリジェントシステムに対する能力拡張を実現する。
いくつかの例示的な実施例に関連して深層学習モデル及びインテリジェントシステムに対する能力拡張の効果を以下でさらに説明する。1つの例示的な実施例では、図9に示すように、能力拡張(例えば、外部APIの呼び出し能力)を備えない対話システム910は、完成できるタスクが限られ、気象問い合わせ、数学計算などの外部機能コンポーネントの呼び出しを必要とするタスクを処理することができない。本開示で説明される能力拡張を有するインテリジェントシステム920は、ユーザ入力に対して、呼び出す必要があるAPI 930を確定することができ、さらにこのAPI 930を呼び出し、返された結果を処理することで、ユーザのニーズを満たす回答を生成し、深層学習モデル及びインテリジェントシステムへの能力拡張を示す。
いくつかの実施例によれば、第2の出力は、第2の機能コンポーネントを呼び出すための第2のトークンと、第2の入力に基づいて得られた、第2の機能コンポーネントによって識別できる第2の中間クエリを含むことができる。第2の機能コンポーネントは、第1の機能コンポーネントと同一であってもよいし(すなわち、同一機能コンポーネントが複数回呼び出されてもよい)、又は、第1の機能コンポーネントと異なっていてもよく、ここでは限定されないことを理解されたい。
いくつかの実施例によれば、図10に示すように、初期入力に対する回答を生成するために、深層学習モデルの第2の出力を取得するステップS205は、第2の出力に対して対応する機能呼び出し操作を実行するステップS1001であって、該機能呼び出し操作が、第2の中間クエリに基づいて第2の機能コンポーネントによって確定された第2の中間結果を取得することと、少なくとも第2の入力及び第2の中間結果に基づいて、深層学習モデルに用いられる第3の入力を確定することと、深層学習モデルの第3の出力を取得することとを含むものと、第Nの機能コンポーネントを呼び出すための第Nのトークン及び第Nの入力に基づいて得られた、第Nの機能コンポーネントによって識別できる第Nの中間クエリを深層学習モデルの第Nの出力に含むことに応答して、第N+1の出力に深層学習モデルとは異なる任意の機能コンポーネントを呼び出すための対応するトークンが含まれないと確定されるまで、第Nの出力に対応する機能呼び出し操作を実行し、第N+1の出力を初期入力に対する回答とし、ここでは、Nは2より大きい整数であるステップS1002とを含むことができる。
したがって、上述の方式により、深層学習モデルは、外部機能コンポーネントの呼び出しがもはや必要でないとモデルが確定するまで、外部機能コンポーネントの呼び出しを複数回行うことができる。
いくつかの実施例によれば、第2の機能コンポーネント及び第Nの機能コンポーネントは、それぞれ、外部サーチエンジンと、深層学習モデルと連合してトレーニングされた検索モデルと、深層学習モデルによって呼び出すことができる少なくとも1つのアプリケーションプログラミングインターフェースと、外部メモリバンクとを含む機能コンポーネントグループのうちの一つであってもよく、外部メモリバンクにはユーザに関連する第1のデータグループセットが記憶され、ここでは、第1のデータグループセットにおける各データグループは、少なくとも履歴入力データアイテムと、履歴入力データアイテムに対して深層学習モデルによって生成された履歴回答アイテムとを含む。
いくつかの実施例によれば、第2の出力は、深層学習モデルとは異なる任意の機能コンポーネントを呼び出すための対応するトークンを含なくてもよい。初期入力に対する回答を生成するために、深層学習モデルの第2の出力を取得するステップS205は、第2の出力を、初期入力に対する回答とすることを含むことができる。これにより、モデルが生成する第2の出力が、いずれの機能コンポーネントに対応するトークンも含まない場合、初期入力に対するモデルが出力する最終回答を取得することができる。
いくつかの例示的な実施例に関連して深層学習モデル及びインテリジェントシステムの複数種の能力を補強する効果を以下でさらに説明する。1つの例示的な実施例では、図11に示すように、能力補強を備えない対話システム1110は、モデルに内在化された知識に基づいて生成された回答内容が簡単であり、ユーザ入力に記述されたタスクを完了することができず、したがってユーザニーズを満たすことができない。本開示で説明される能力補強を備えるインテリジェントシステム1120は、ユーザ入力によって示される意図を正確に理解し、さらに、外部メモリバンク1130、サーチエンジン/検索モデル1140、API1150などの外部コンポーネントを利用して、履歴記憶クエリ、文章生成、API呼び出しによるメール送信などの多くのタスクを正確に完成し、かつ、正確な論理で上記タスクを実行することができる。
また、文章を生成する際、モデルは外部のサーチエンジン/検索モデルを利用して明示的な情報を文章の素材として取得し、かつ、内在化された知識を利用して獲得したこれらの素材を抽出、整合、修飾を行い、冒頭、末尾、遷移段落を生成して1つの完全な文章にまとめることができる。図11に示すように、インテリジェントシステム1120が生成する文章の中、「X市は景色の美しい都市です」と「もしX市へ旅行する機会があれば、きっとこの都市が好きになる」という2つの文章は、モデルに内在化された知識に基づいて生成された内容であり、旅行の季節、グルメ、旅行の行き方に関する中間の3つの内容は、それぞれ3つの検索結果から抽出され、検索結果に基づいて修飾されて生成される。これにより、上記方式により、高品質な回答内容を生成することができる。
1つの例示的な実施例では、図12に示すように、能力補強を備えない対話システム1210は、ユーザとの履歴対話を取得できず、したがって、ユーザ入力に記述されたタスクを完了できず、したがって、ユーザのニーズを満たすことができない。比較すると、本開示で説明される能力補強を備えるインテリジェントシステム1220は、ユーザ入力によって示される意図を正確に理解し、外部メモリバンク1230、API 1240、サーチエンジン/検索モデル1250などの外部コンポーネントを利用して、履歴記憶クエリ、API呼び出しによる音楽再生、歌詞調べなどの多くのタスクを正確に完成し、かつ、正確な論理で上記タスクを実行することができる。これにより、深層学習モデル及びインテリジェントシステムの複数の能力の増強が示される。
ステップS201に戻る。いくつかの実施例によれば、初期入力は、入力データのコンテキスト情報を含むことができる。コンテキスト情報は、取得したユーザの入力データの前に、ユーザとインテリジェントシステムとの間で行われた複数の対話を含むことができる。
いくつかの実施例では、コンテキスト情報は、ユーザがインテリジェントシステムとの現在の会話においてインテリジェントシステムと行う複数の会話を含むが、ユーザとインテリジェントシステムの履歴会話において送信された対話は含まない。言い換えれば、ユーザがインテリジェントシステムのアプリケーション又はサービスをシャットダウンした後、コンテキスト情報はそれに応じてクリアされ、ユーザが再びインテリジェントシステムのアプリケーションやサービスを起動すると、コンテキスト情報の記録が再開される。
さらに、深層学習モデルの入力長の上限に制限され、コンテキスト情報は、通常、事前設定された最大符号化可能な長さを有し、記憶能力が限られる。そのため、ユーザがインテリジェントシステムとの対話を複数回行なったり、内容が長い場合、コンテキスト情報の一部が捨てられる可能性がある。
いくつかの実施例によれば、外部メモリバンクから履歴対話情報を取得する際、ユーザの入力データを基に、コンテキスト情報を参照として使用されてもよい。また、履歴回答アイテムに加えて、対応する履歴入力データアイテムを取得してもよい。図13に示すように、深層学習モデルに用いられる初期入力を確定するステップS201は、外部メモリバンクから入力データとコンテキスト情報との類似度が第4の閾値に符合する少なくとも一対の履歴入力データアイテム及び履歴回答アイテムを取得するステップS1301と、入力データと、コンテキスト情報と、少なくとも一対の履歴入力データアイテム及び履歴回答アイテムとに基づいて、深層学習モデルに用いられる初期入力を確定するステップS1302とを含むことができる。これにより、ユーザの入力データとコンテキスト情報の両方を用いて類似度計算を行うことにより、外部メモリバンクからより効果的な履歴対話情報を得ることができ、一方、入力データ、コンテキスト情報、ならびに対応する少なくとも一対の履歴入力データアイテム及び履歴回答アイテムを利用することによって、深層学習モデルによって生成された回答の品質をさらに向上させることができる。
いくつかの実施例では、他の外部機能コンポーネントについて、対応する第1の中間クエリを生成する際に、ユーザの入力データ及びコンテキスト情報の両方を参照として使用してもよい。
本開示の方法を実施する際に、必要に応じて、第1の閾値、第2の閾値、第3の閾値、及び第4の閾値を設定することができることを理解されたい。これらのプリセット閾値の値は、同一であっても異なっていてもよく、ここでは限定されない。
インテリジェントシステムとそれに配置される理解生成大規模モデルは豊かな形で、生成された回答を提示でき、ユーザ体験を向上させるためにユーザと対話することができる。
いくつかの実施例では、対話システムは、単一のサーチ結果から最終的な回答を生成し、不完全な回答又は間違った回答が生じ得る可能性がある。図14に示されるように、本開示のインテリジェントシステムは、サーチ又は検索後にオンライン計算を実行することによって、回答集約提示方法(単一回答集約及び複数回答集約の両方が実現可能である)を実現することができる。
いくつかの実施例では、図15に示すように、検索された内容を集約して提示することに加えて、インテリジェントシステムは、詩、小説、メール、要約報告、作文、マーケティング文書などを書くことのほかに、学科に関連する数学的推理及び常識的推理など、自ら答えを生成することができる。これらの結果に対して、インテリジェントシステムは構造化された提示を行うことができる。
いくつかの実施例では、インテリジェントシステムは、対話型提示を達成するために、ユーザと明確化、能動的誘導、深いトピック質問回答、及びある命令の実行を複数回行うことができる。いくつかの例示的な実施では、図16のA部分に示すように、インテリジェントシステムは、対話のテーマ及び内容をユーザに対して能動的に明確にし、ユーザの所望により合った内容を生成することができ、図16のB部分に示すように、インテリジェントシステムは、ユーザを能動的に誘導し、ユーザの具体的なニーズを掘り起こすことができる。
本開示の別の態様によれば、深層学習モデルのトレーニング方法を提供する。深層学習モデルはユーザの入力データに基づいて回答データを生成するために用いられる。図17に示すように、トレーニング方法は、第1のサンプルデータを取得し、第1のサンプルデータは第1のサンプル初期入力及び第1のサンプル出力を含み、ここでは、第1のサンプル初期入力は深層学習モデルとは異なる第1のプリセット機能コンポーネントを呼び出す意図表現を含み、且つ、第1のサンプル出力は第1のプリセット機能コンポーネントを呼び出すための第1のトークン及び第1のプリセット機能コンポーネントによって識別できる第1のサンプル中間入力を含むステップS1701と、第2のサンプルデータを取得し、第2のサンプルデータは第2のサンプル初期入力及び第2のサンプル出力を含み、ここでは、第2のサンプル初期入力は深層学習モデルとは異なる任意のプリセット機能コンポーネントを呼び出す意図表現を含まず、且つ、第2のサンプル出力は任意のプリセット機能コンポーネントを呼び出すための対応するトークンを含まないステップS1702と、深層学習モデルを利用して第1のサンプル初期入力を処理して、第1の予測出力を取得するステップS1703と、第1のサンプル出力と第1の予測出力との比較に基づいて、深層学習モデルのパラメータを調整するステップS1704と、深層学習モデルを利用して第2のサンプル初期入力を処理して、第2の予測出力を取得するステップS1705と、第2のサンプル出力と第2の予測出力との比較に基づいて、深層学習モデルのパラメータを調整するステップS1706とを含む。
従って、以上のように深層学習モデルをトレーニングすることにより、トレーニング後の深層学習モデルが、特定のプリセット機能コンポーネントを呼び出す必要があるときに、そのプリセット機能コンポーネントに対応するトークンと、このプリセット機能コンポーネントから識別できる中間入力とを出力することができ、かつ、いずれの機能コンポーネントも呼び出す必要がないときに、いずれかのプリセット機能コンポーネントに対応するトークン及び中間入力を含まない出力内容を生成することができ、これにより、理解、決定、生成などのタスクを実行する能力をモデルに持たせるとともに、外部の機能コンポーネントを利用して深層学習モデルを能力補強でき、生成された回答データの品質を向上させる。
いくつかの実施例では、ステップS1701の前に、まず、理解生成大規模モデルに対して言語テキストとアプリオリ知識とのハイブリッドトレーニングを実行してもよい。
理解生成大規模モデルは、大量のテキストデータ(例えば、インターネットデータ)、知識マップ、弱い教師付きデータでトレーニングすることができる。このほかにも、人工的にまとめられた知識をモデルに加えることも重要である。人工的にまとめられたアプリオリ知識は、モデルが言語をよりよく理解し、言語を生成し、決定を下すのを助け、モデルが人間と効率的かつスムーズに対話することを可能にする。具体的なステップは以下を含む。
1) インターネット上のテキストデータを収集し、それに対して低品質、ノイズ除去処理を行い、ビッグデータ中の無効、冗長情報を除去する。
2) アプリオリ知識を融合し、主に3種類の知識を含む:
A、 膨大なインターネットベースの知識マップ: <実体-属性-属性値>又は<実体-関係-実体2>を含む; 例えば、<スターA-身長-172>、<スターA-夫婦-スターB>;
B、 高品質の手動アプリオリ注釈データ: 人手によって各種類のタスクに対してラベル付けを行い、例えば分類ラベルデータ、「XXが新しい男子バスケットボール主席に当選した」は、<「XXが新しい男子バスケットボール主席に当選した」-「スポーツ」とラベル付けする; あるいは、質問回答データ: <「チョコレートを長時間食べると糖尿病になる?」「できない」>;
C、 業界知識: 例えば医療、安全、交通、金融、エネルギー業界の辞書、業界の構造化知識;
3) 図18に示すように、知識融合技術では、上記の3種類の構造化知識1810を、言語化テンプレート1820によって自然言語記述形式(すなわち、自然言語形式のデータ1830)に変換し、続いてインターネットテキストデータと混合学習する。1つの例示的な実施例では、構造化知識<スターA-夫婦-スターB>は、言語化テンプレートによって、「スターAの妻はスターBである」という自然言語形式のデータに変換することができる。混合学習の方式によって、モデルは自然言語をよりよく理解することができ、それによって基礎的な対話、相互作用能力を有する。
いくつかの実施例では、ステップS1701で取得された第1のサンプルデータ及びステップS1702で取得された第2のサンプルデータについて、第1のサンプル初期入力及び第2のサンプル初期入力は、真のユーザデータ又は構築されたデータであってもよく、入力データ(及びオプションとして、コンテキスト情報)を含んでもよい。第1のサンプル初期入力は、深層学習モデルとは異なる第1のプリセット機能コンポーネントを呼び出す意図的表現を含み、すなわち、第1のサンプル初期入力によって記述された内容が、モデルに第1のプリセット機能コンポーネントを呼び出すことを要求又は所望する。第2のサンプル初期入力は、深層学習モデルとは異なる任意のプリセット機能コンポーネントを呼び出す意図的表現を含まず、すなわち、第2のサンプル初期入力によって記述された内容が、モデルに任意のプリセット機能コンポーネントを呼び出すことを要求又は所望しない。第1のサンプル出力及び第2のサンプル出力は、深層学習モデルが出力できると所望する結果、すなわち、真値(ground truth)であってもよい。
いくつかの実施例では、第1のサンプル出力に含まれる第1のトークンは、対応する第1のプリセット機能コンポーネントに対応し、これにより、トレーニングされた深層学習モデルは、このトークンによって第1のプリセット機能コンポーネントを呼び出す必要があることを示す。いくつかの実施例では、モデルが出力する第1のトークンは、この第1のプリセット機能コンポーネントに対応するマークアップ(markup)形式に符号化し、API呼び出し結果を文字列に変換することができ、それにより、トレーニングされたモデルが、テキスト処理の方式で、決定、呼び出し情報生成、及び呼び出し結果の理解を行うことができる。
いくつかの実施例では、第1のサンプル出力に含まれる第1のサンプル中間入力は、外部の第1のプリセット機能コンポーネントによって処理されて、この第1のプリセット機能コンポーネントによって返される結果を得ることができる。第1のプリセット機能コンポーネントが外部メモリバンクである場合、第1のサンプル中間入力は、外部メモリバンクによる類似度計算が可能なユーザの入力データ(及びオプションとしてコンテキスト情報)であってもよい。第1のプリセット機能コンポーネントがサーチエンジンである場合、第1のサンプル中間入力は、サーチエンジンによって識別できる検索式であってもよい。第1のプリセット機能コンポーネントが検索モデルである場合、第1のサンプル中間入力は、検索モデルによって処理することができる検索クエリであってもよい。第1のプリセット機能コンポーネントが特定のAPIである場合、第1のサンプル中間入力は、このAPIに対応するマークアップ(markup)形式を有するように符号化されることができる。このようにして、トレーニングされたモデルは、これらのプリセット機能コンポーネントによって識別できる中間入力を出力する能力を有することができる。
いくつかの実施例では、ステップS1703で得られた深層学習モデルが出力する第1の予測出力は、第1のサンプル出力に近くても、全く異なっていてもよいが、深層学習モデルをトレーニングする目標、すなわち、トレーニングされたモデルが生成する第1の予測出力が、第1のプリセット機能コンポーネントを呼び出すためのトークンと、第1のプリセット機能コンポーネントによって識別でき、第1のサンプル中間入力の機能又は意味と一致する予測中間入力とを含むようにすることである。
いくつかの実施例では、第2のサンプル出力は、任意のプリセット機能コンポーネントを呼び出すための対応するトークンを含まず、したがって、第2のサンプル出力は、第2のサンプル初期入力に対する深層学習モデルの回答であるべきである。ステップS1705で得られた深層学習モデルが出力する第2の予測出力は、第2のサンプル出力に近くてもよいし、全く異なっていてもよいが、深層学習モデルをトレーニングする目標は、トレーニングされたモデルによって生成された第2の予測出力が、任意のプリセット機能コンポーネントを呼び出すためのトークンを含まず、かつ第2のサンプル初期入力に対する高品質回答データを含むようにすることである。
いくつかの実施例では、ステップS1704及びステップS1706において、需要に基づいて対応する損失関数を確定し、サンプル出力と予測出力との差を記述する損失値を計算し、さらに、損失値に基づいて、深層学習モデルのパラメータを調整する。
いくつかの実施例では、第1のサンプルデータは、第1のサンプル目標入力及び第1のサンプル回答をさらに含むことができる。第1のサンプル目標入力は、第1のサンプル初期入力と、第1のサンプル中間入力に基づいて第1のプリセット機能コンポーネントから取得された第1のサンプル中間結果とを含む。いくつかの実施例では、第1のサンプル目標入力は、第1のサンプル中間入力をさらに含むことができる。第1のサンプル回答は、第1のサンプル中間結果を利用して構築された第1のサンプル初期入力に対する真(ground truth)の回答である。トレーニング方法は、深層学習モデルを利用して第1のサンプル目標入力を処理して、第1の予測回答を取得することと、第1のサンプル回答と第1の予測回答との比較に基づいて、深層学習モデルのパラメータを調整することとを含むことができる。
これにより、トレーニング後の深層学習モデルが、外部機能コンポーネントから得られた結果とモデルに内在化した知識と合わせて、ユーザの需要に対する満足と回答を完成でき、最終的に品質の高い回答内容を得ることができる。
いくつかの実施例によれば、図19に示されるように、トレーニング方法は、第3のサンプル初期入力と、サンプルサーチクエリと、複数のサンプルサーチ結果と、第3のサンプル初期入力に対する深層学習モデルの第3のサンプル回答とを含む第3のサンプルデータを取得し、サンプルサーチクエリは、第3のサンプル初期入力に基づいて深層学習モデルによって生成されたサンプル中間入力であり、サンプル中間入力は、深層学習モデルとは異なる検索モデルによって識別可能であり、ここでは、複数のサンプルサーチ結果はサンプルサーチクエリに基づいて検索モデルによって出力された結果であるステップS1907と、複数のサンプルサーチ結果のそれぞれと第3のサンプル回答との一致度に基づいて、複数のサンプルサーチ結果にソーティング操作を行うステップS1908と、ソーティングされた複数のサンプルサーチ結果に基づいて検索モデルをトレーニングするステップS1909とをさらに含むことができる。図19のステップS1901~ステップS1906は、それぞれ図17のステップS1701~ステップS1706と同様であるため、ここでの説明は省略することを理解されたい。
これにより、第3のサンプルデータにおける複数のサンプルサーチ結果のソーティング結果を確定することにより、該ソーティング結果を利用して監督として検索モデルをトレーニングすることにより、理解生成大規模モデルと検索モデルとの連合最適化を実現し、両者が協調できるようにし、外部検索モデルは、より正確で、より回答生成に適する内容を理解生成大規模モデルに提供することができ、それにより、理解生成大規模モデルが、ユーザの意図により適合し、かつ、より品質の高い回答を生成する。
いくつかの実施例では、第3のサンプルデータに含まれるサンプルサーチクエリは、例えば、検索クエリqueryであり、複数のサンプルサーチ結果は、例えば、検索モデルによって使用される検索ライブラリ内の、第3のサンプル初期入力のニーズに合致し、第3のサンプル初期入力に対する第3のサンプル回答を生成するために整合されるための複数の内容であり、第3のサンプル回答は、手動で、複数のサンプルサーチ結果に対して選択、修正、修飾などのステップを実行し後に得られる内容であってもよい。いくつかの実施例では、図17のステップS1701、ステップS1703~ステップS1704を参照して、第3のサンプルデータを利用して深層学習モデルをトレーニングすることにより、深層学習モデルは、上述の選択、修正、修飾などのステップを自動的に実行する能力を有する。
いくつかの実施例では、ステップS1908において、複数のサンプルサーチ結果と第3のサンプル回答との間の内容一致度が、例えば、意味ベクトルに基づく類似度計算に基づいて計算されてもよい。
いくつかの実施例によれば、図20に示すように、複数のサンプルサーチ結果のそれぞれと第3のサンプル回答との一致度に基づいて、複数のサンプルサーチ結果にソーティング操作を行うステップS1908は、複数のサンプルサーチ結果から現在の一致度が最も高い第1のサンプルサーチ結果をスクリーニングするステップS2001と、第3のサンプル回答と第1のサンプルサーチ結果との重複内容を削除して、第3のサンプル回答を更新するステップS2002と、複数のサンプルサーチ結果の残り部分のそれぞれと更新された第3のサンプル回答との一致度に基づいて、複数のサンプルサーチ結果における全てのサンプルサーチ結果のソーティングが完了するまで、残り部分に対してソーティング操作を繰り返すステップS2003とを含むことができる。
このようにして、第3のサンプル回答を生成するための複数のサンプルサーチ結果のソーティングが実現され、これにより、理解生成大規模モデルと検索モデルとの連合最適化を実現することができる。
いくつかの実施例によれば、検索モデルは、ソーティングサブモデル及びリコールサブモデルを含むことができる。ソーティングされた複数のサンプルサーチ結果に基づいて検索モデルをトレーニングするステップS1909は、ソーティングされた複数のサンプルサーチ結果に基づいて、検索モデルのソーティングサブモデルをトレーニングすることと、トレーニングされたソーティングサブモデルを教師モデルとして、リコールサブモデルをトレーニングすることとを含むことができる。これにより、上記の方式により、理解生成大規模モデル、検索モデルにおけるソーティングサブモデル、リコールサブモデルの三者間の連合最適化を実現する。
いくつかの実施例では、ソーティングサブモデルは、エンドツーエンド検索のクロスエンコーダモデル(Cross-Encoder)である。クロスエンコーダモデルの入力はクエリ(query、q)と文書(passage、p)からなり、出力は両者の類似度sim(q,p)となる。リストワイスロス(listwise loss)を監督として使用することができ、これにより、クロスエンコーダモデルが出力するソーティング結果を、複数のサンプルサーチ結果に対して生成されたソーティング結果に近似又は一致させる。
いくつかの実施例では、リコールサブモデルは、バイエンコーダモデル(Bi-Encoder)であってもよい。ここで、1つのエンコーダは、クエリqの特徴ベクトルを生成するために使用され、もう1つのエンコーダは、文書pの特徴ベクトルを生成するために使用される。この2つの特徴ベクトルから、両者間の類似度を計算することができる。ソーティングモデルがトレーニングされた後、モデル蒸留の方式によって、ソーティングモデルを教師モデルとしてリコールモデルに対してトレーニングサンプルを構築し、リコールモデルの最適化目標をソーティングモデルに一致させ、さらに理解生成大規模モデルと検索モデルの連合最適化を実現する。1つの例示的な実施例では、KL-ダイバージェンスを監督として教師モデルとしてのソーティングモデルを利用してリコールモデルをトレーニングするために使用することができる。
いくつかの実施例では、連合トレーニングを行う前にエンドツーエンド検索モデルを単独でトレーニングすることができる。1つの例示的な実施例は、リコールサブモデル及びソーティングサブモデルを連合トレーニングすることができる。
いくつかの実施例によれば、図21に示されるように、トレーニング方法は、第4のサンプルデータを取得し、第4のサンプルデータは第4のサンプル初期入力、外部メモリバンクによって識別できる第4のサンプル中間入力、サンプル記憶結果及び第4のサンプル回答を含み、第4のサンプル中間入力は第4のサンプル初期入力に基づいて確定されるステップS2107と、外部メモリバンクによって第4のサンプル中間入力に基づいて確定された予測記憶結果を取得するステップS2108と、予測記憶結果とサンプル記憶結果との比較に基づいて、外部メモリバンクのパラメータを調整するステップS2109と、少なくとも第4のサンプル初期入力及びサンプル記憶結果に基づいて、深層学習モデルに用いられる第4のサンプル目標入力を確定するステップS2110と、深層学習モデルを利用して第4のサンプル目標入力を処理して、第4の予測回答を取得するステップS2111と、第4のサンプル回答と第4の予測回答との比較に基づいて、深層学習モデルのパラメータを調整するステップS2112とをさらに含むことができる。図21のステップS2101~ステップS2106の操作は、それぞれ図17のステップS1701~ステップS1706の操作と同様であるため、ここでの説明は省略することを理解されたい。これにより、外部メモリバンクと理解生成大規模モデルとの連合トレーニングを実現する。
上述のようにして得られた外部メモリバンクは、外部メモリバンクの取得のために、外部機能コンポーネントとして上述したデータ生成方法において使用することができることを理解されたい。
いくつかの実施例では、記憶クエリ及び理解生成大規模モデルの連合トレーニングのトレーニング目標は、記憶増強の回答生成確率を最大化することであってもよく、
Figure 2023182707000005
ここで、Mは外部メモリバンクであり、cは外部メモリバンクに対応するサンプル中間入力であり、サンプル初期入力及びコンテキスト情報を含み得、mは照会された履歴対話(すなわち、データグループ)であり、rは深層学習モデルによって生成された回答である。対応的に
Figure 2023182707000006
は記憶クエリプロセスであり、
Figure 2023182707000007
は記憶補強の回答生成プロセスである。該トレーニング目標に基づいて外部メモリバンク及び理解生成大規模モデルに対して連合最適化を行うことにより、連合最適化後の外部メモリバンクにユーザ入力との相関性がより高く、回答生成により役立つ履歴対話を提供させ、連合最適化後の理解生成大規模モデルは取得した履歴対話に基づいてユーザ入力に対して品質の高い回答内容を生成することができる。
いくつかの実施例では、上述したように、稠密ベクトル類似度を計算することによって外部メモリバンクからユーザ入力に関する履歴対話情報を取得することができ、具体的にニューラルネットワークを利用して実現できる。ステップS2109では、稠密ベクトル類似度計算用のニューラルネットワークのパラメータを調整して、第4のサンプル初期入力に基づいて確定された第4のサンプル中間入力とサンプル記憶結果との類似度を上げ、それにより、最適化したニューラルネットワーク(外部メモリバンク)は第4のサンプル中間入力に対してサンプル記憶結果を返すことができる。ステップS2112における深層学習モデルへのパラメータ調整は、図17のステップS1704又はステップS1706を参照することができ、ここでは説明しないことを理解されたい。
本開示の別の態様によれば、深層学習モデルに基づくデータ生成装置を提供する。深層学習モデルはユーザの入力データに基づいて回答データを生成することができる。図22に示すように、データ生成装置2200は、ユーザからの入力データに基づいて、深層学習モデルに用いられる初期入力を確定するように構成される第1の確定ユニット2210と、深層学習モデルの第1の出力を取得し、ここでは、深層学習モデルが初期入力に基づいて回答を生成するのに深層学習モデルとは異なる第1の機能コンポーネントを呼び出す必要があると確定したことに応答して、第1の出力は第1の機能コンポーネントを呼び出すための第1のトークン及び初期入力に基づいて確定された、第1の機能コンポーネントによって識別できる第1の中間クエリを含むように構成される第1の取得ユニット2220と、第1の中間クエリに基づいて第1の機能コンポーネントによって確定された第1の中間結果を取得するように構成される第2の取得ユニット2230と、少なくとも初期入力及び第1の中間結果に基づいて、深層学習モデルに用いられる第2の入力を確定するように構成される第2の確定ユニット2240と、初期入力に対する回答を生成するために、深層学習モデルの第2の出力を取得するように構成される第3の取得ユニット2250とを含む。装置2200におけるユニット2210-ユニット2250の操作は、図2のステップS201-ステップS205の操作とそれぞれ類似しており、ここでは説明しないことを理解されたい。
いくつかの実施例によれば、第1の機能コンポーネントは、ユーザに関連する第1のデータグループセットを記憶することができる外部メモリバンクであってもよい。第1のデータグループセットにおける各データグループは、少なくとも履歴入力データアイテムと、履歴入力データアイテムに対して深層学習モデルによって生成された履歴回答アイテムとを含むことができる。
いくつかの実施例によれば、第1のデータグループセットにおける各データグループは、そのセットにける履歴入力データアイテム及び履歴回答アイテムに対応するエントリ時間アイテムをさらに含むことができる。
いくつかの実施例によれば、第1の中間クエリは、入力データに基づくことができる。第1の中間結果は、第1のデータグループセットにおける、入力データとの類似度が第1の閾値より高い履歴入力データアイテムに対応する履歴回答アイテムであってもよい。
いくつかの実施例によれば、第1の中間クエリは、入力データに基づくことができる。第1の中間結果は、第1のデータグループセットにおける、入力データとの類似度が第1の閾値より高く、かつタイムスタンプが最新の履歴入力データアイテムに対応する履歴回答アイテムであってもよい。
いくつかの実施例によれば、データ生成装置は、入力データ及び回答に基づく第1のデータグループと、第1のデータグループセットにおけるいずれかのデータグループとの類似度が第2の閾値より小さいと確定したことに応答して、第1のデータグループを第1のデータグループセットにエンターするように構成される第1のエントリユニットをさらに含むことができる。
いくつかの実施例によれば、データ生成装置は、入力データ及び回答に基づく第1のデータグループと、第1のデータグループセットにおける第2のデータグループとの類似度が第3の閾値より高く、かつ第1のデータグループと第2のデータグループが相互に衝突していると確定したことに応答して、第1のデータグループを第1のデータグループセットにエンターし、第2のデータグループを第1のデータグループセットから削除するように構成される第2のエントリユニットをさらに含むことができる。
いくつかの実施例によれば、データ生成装置は、エントリ時間アイテムに基づいて、時効性が古いデータグループを外部メモリバンクから削除するように構成される削除ユニットをさらに含むことができる。
いくつかの実施例によれば、第1の確定ユニットは、入力データに基づいて、外部メモリバンクから入力データとの類似度が第1の閾値より高い履歴入力データアイテムに対応する履歴回答アイテムを取得するように構成される第1の取得サブユニットと、入力データ及び履歴回答アイテムに基づいて、初期入力を確定するように構成される第1の確定サブユニットとを含むことができる。外部メモリバンクにはユーザに関連する第1のデータグループセットが記憶されることができる。第1のデータグループセットにおける各データグループは、少なくとも履歴入力データアイテムと、履歴入力データアイテムに対して深層学習モデルによって生成された履歴回答アイテムとを含むことができる。
いくつかの実施例によれば、第2の確定ユニットは、初期入力、第1の中間結果、及び第1の中間クエリに基づいて、深層学習モデルに用いられる第2の入力を確定するように構成される第3の確定サブユニットを含むことができる。
いくつかの実施例によれば、第1の機能コンポーネントは、外部サーチエンジンであってもよい。
いくつかの実施例によれば、第1の機能コンポーネントは、深層学習モデルと連合してトレーニングされた検索モデルであってもよい。
いくつかの実施例によれば、第1の機能コンポーネントは、深層学習モデルによって呼び出すことができる少なくとも1つのアプリケーションプログラミングインターフェースであってもよい。
いくつかの実施例によれば、第2の出力は、第2の機能コンポーネントを呼び出すための第2のトークンと、第2の入力に基づいて得られた、第2の機能コンポーネントによって識別できる第2の中間クエリを含むことができる。第3の取得ユニットは、第2の出力に対して対応する機能呼び出し操作を実行するように構成される第3の取得サブユニットであって、該機能呼び出し操作が、第2の中間クエリに基づいて第2の機能コンポーネントによって確定された第2の中間結果を取得することと、少なくとも第2の入力及び第2の中間結果に基づいて、深層学習モデルに用いられる第3の入力を確定することと、深層学習モデルの第3の出力を取得することとを含むものと、第Nの機能コンポーネントを呼び出すための第Nのトークン及び第Nの入力に基づいて得られた、第Nの機能コンポーネントによって識別できる第Nの中間クエリを深層学習モデルの第Nの出力に含むことに応答して、第N+1の出力に深層学習モデルとは異なる任意の機能コンポーネントを呼び出すための対応するトークンが含まれないと確定されるまで、第Nの出力に対応する機能呼び出し操作を実行し、第N+1の出力を初期入力に対する回答とし、ここでは、Nは2より大きい整数であるように構成される呼び出しサブユニットとを含むことができる。
いくつかの実施例によれば、第2の機能コンポーネント及び第Nの機能コンポーネントは、それぞれ、外部サーチエンジンと、深層学習モデルと連合してトレーニングされた検索モデルと、深層学習モデルによって呼び出すことができる少なくとも1つのアプリケーションプログラミングインターフェースと、外部メモリバンクとを含む機能コンポーネントグループのうちの一つであってもよく、外部メモリバンクにはユーザに関連する第1のデータグループセットが記憶され、ここでは、第1のデータグループセットにおける各データグループは、少なくとも履歴入力データアイテムと、履歴入力データアイテムに対して深層学習モデルによって生成された履歴回答アイテムとを含む。
いくつかの実施例によれば、第2の出力は、深層学習モデルとは異なる任意の機能コンポーネントを呼び出すための対応するトークンを含なくてもよい。第3の取得ユニットは、第2の出力を、初期入力に対する回答とするように構成される回答サブユニットを含むことができる。
いくつかの実施例によれば、初期入力は、入力データのコンテキスト情報を含むことができる。
いくつかの実施例によれば、第1の確定ユニットは、外部メモリバンクから入力データとコンテキスト情報との類似度が第4の閾値に符合する少なくとも一対の履歴入力データアイテム及び履歴回答アイテムを取得するように構成される第2の取得サブユニットと、入力データと、コンテキスト情報と、少なくとも一対の履歴入力データアイテム及び履歴回答アイテムとに基づいて、深層学習モデルに用いられる初期入力を確定するように構成される第2の確定サブユニットとを含むことができる。外部メモリバンクにはユーザに関連する第1のデータグループセットが記憶されることができる。第1のデータグループセットにおける各データグループは、少なくとも履歴入力データアイテムと、履歴入力データアイテムに対して深層学習モデルによって生成された履歴回答アイテムとを含むことができる。
本開示の別の態様によれば、深層学習モデルのトレーニング装置を提供する。深層学習モデルはユーザの入力データに基づいて回答データを生成するために用いられる。図23に示すように、トレーニング装置2300は、第1のサンプルデータを取得し、第1のサンプルデータは第1のサンプル初期入力及び第1のサンプル出力を含み、ここでは、第1のサンプル初期入力は深層学習モデルとは異なる第1のプリセット機能コンポーネントを呼び出す意図表現を含み、ここでは、第1のサンプル出力は第1のプリセット機能コンポーネントを呼び出すための第1のトークン及び第1のプリセット機能コンポーネントによって識別できる第1のサンプル中間入力を含むように構成される第4の取得ユニット2310と、第2のサンプルデータを取得し、第2のサンプルデータは第2のサンプル初期入力及び第2のサンプル出力を含み、ここでは、第2のサンプル初期入力は深層学習モデルとは異なる任意のプリセット機能コンポーネントを呼び出す意図表現を含まず、ここでは、第2のサンプル出力は任意のプリセット機能コンポーネントを呼び出すための対応するトークンを含まないように構成される第5の取得ユニット2320と、深層学習モデルを利用して第1のサンプル初期入力を処理して、第1の予測出力を取得するように構成される第1の処理ユニット2330と、第1のサンプル出力と第1の予測出力との比較に基づいて、深層学習モデルのパラメータを調整するように構成される第1のパラメータ調整ユニット2340と、深層学習モデルを利用して第2のサンプル初期入力を処理して、第2の予測出力を取得するように構成される第2の処理ユニット2350と、第2のサンプル出力と第2の予測出力との比較に基づいて、深層学習モデルのパラメータを調整するように構成される第2のパラメータ調整ユニット2360とを含む。装置2300におけるユニット2310-ユニット2360の操作は、図17のステップS1701-ステップS1706の操作とそれぞれ同様であり、ここでは説明しないことを理解されたい。
いくつかの実施例によれば、トレーニング装置は、第3のサンプル初期入力と、サンプルサーチクエリと、複数のサンプルサーチ結果と、第3のサンプル初期入力に対する深層学習モデルの第3のサンプル回答とを含む第3のサンプルデータを取得し、サンプルサーチクエリは、第3のサンプル初期入力に基づいて深層学習モデルによって生成されたサンプル中間入力であり、サンプル中間入力は、深層学習モデルとは異なる検索モデルによって識別可能であり、ここでは、複数のサンプルサーチ結果はサンプルサーチクエリに基づいて検索モデルによって出力された結果であるように構成される第6の取得ユニットと、複数のサンプルサーチ結果のそれぞれと第3のサンプル回答との一致度に基づいて、複数のサンプルサーチ結果にソーティング操作を行うように構成されるソーティングユニットと、ソーティングされた複数のサンプルサーチ結果に基づいて検索モデルをトレーニングするように構成されるトレーニングユニットとをさらに含むことができる。
いくつかの実施例によれば、ソーティングユニットは、複数のサンプルサーチ結果から現在の一致度が最も高い第1のサンプルサーチ結果をスクリーニングするように構成されるスクリーニングサブユニットと、第3のサンプル回答と第1のサンプルサーチ結果との重複内容を削除して、第3のサンプル回答を更新するように構成される削除サブユニットと、複数のサンプルサーチ結果の残り部分のそれぞれと更新された第3のサンプル回答との一致度に基づいて、複数のサンプルサーチ結果における全てのサンプルサーチ結果のソーティングが完了するまで、残り部分に対してソーティング操作を繰り返すように構成されるソーティングサブユニットとを含むことができる。
いくつかの実施例によれば、検索モデルは、ソーティングサブモデル及びリコールサブモデルを含むことができる。トレーニングユニットには、ソーティングされた複数のサンプルサーチ結果に基づいて、検索モデルのソーティングサブモデルをトレーニングするように構成される第1のトレーニングサブユニットと、トレーニングされたソーティングサブモデルを教師モデルとして、リコールサブモデルをトレーニングするように構成される第2のトレーニングサブユニットとを含むことができる。
いくつかの実施例によれば、トレーニング装置は、第4のサンプルデータを取得し、第4のサンプルデータは第4のサンプル初期入力、外部メモリバンクによって識別できる第4のサンプル中間入力、サンプル記憶結果及び第4のサンプル回答を含み、第4のサンプル中間入力は第4のサンプル初期入力に基づいて確定されるように構成される第7の取得ユニットと、外部メモリバンクによって第4のサンプル中間入力に基づいて確定された予測記憶結果を取得するように構成される第8の取得ユニットと、予測記憶結果とサンプル記憶結果との比較に基づいて、外部メモリバンクのパラメータを調整するように構成される第3のパラメータ調整ユニットと、少なくとも第4のサンプル初期入力及びサンプル記憶結果に基づいて、深層学習モデルに用いられる第4のサンプル目標入力を確定するように構成される第3の確定ユニットと、深層学習モデルを利用して第4のサンプル目標入力を処理して、第4の予測回答を取得するように構成される第3の処理ユニットと、第4のサンプル回答と第4の予測回答との比較に基づいて、深層学習モデルのパラメータを調整するように構成される第4のパラメータ調整ユニットとをさらに含むことができる。
本開示の技術案において、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供と開示などの処理は、すべて関連法律法規の規定に適合し、公序良俗に反しない。
本開示の実施例によれば、電子機器、可読記憶媒体及びコンピュータプログラム製品をさらに提供する。
図24を参照して、ここでは、本開示の様々な態様に適用可能なハードウェア装置の一例である、本開示のサーバ又はクライアントとして利用可能な電子機器2400の構成ブロック図について説明する。電子機器は、様々な形態のデジタル電子コンピュータ、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、個人用デジタル補助装置、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器は更に、様々な形態の移動装置、例えば、パーソナルデジタル処理、携帯電話、インテリジェントフォン、ウェアラブル機器とその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係及びこれらの機能は例示的なものに過ぎず、本明細書に説明した及び/又は請求した本開示の実現を制限しない。
図24に示すように、電子機器2400は、計算ユニット2401を含み、それは読み出し専用メモリ(ROM)2402に記憶されたコンピュータプログラム又は記憶ユニット2408からランダムアクセスメモリ(RAM)2403にロードされるコンピュータプログラムによって、種々の適当な動作と処理を実行することができる。RAM 2403において、更に電子機器2400を操作するために必要な様々なプログラムとデータを記憶してよい。計算ユニット2401、ROM 2402及びRAM 2403は、バス2404を介して互いに接続される。入力/出力(I/O)インターフェース2405も、バス2404に接続される。
電子機器2400における複数の部品はI/Oインターフェース2405に接続され、入力ユニット2406、出力ユニット2407、記憶ユニット2408及び通信ユニット2409を含む。入力ユニット2406は、電子機器2400に情報を入力することが可能な任意のタイプの装置であってもよく、入力ユニット2406は、入力された数字又は文字情報と、電子機器のユーザ設定及び/又は機能制御に関するキー信号入力を生成することができ、マウス、キーボード、タッチスクリーン、トラックボード、トラックボール、操作レバー、マイク及び/又はリモコンを含んでもよいが、これらに限定されない。出力ユニット2407は、情報を提示することが可能ないずれかのタイプの装置であってもよく、ディスプレイ、スピーカ、映像/オーディオ出力端末、バイブレータ、及び/又はプリンタを含んでもよいが、これらに限定されない。記憶ユニット2408は磁気ディスク、光ディスクを含んでもよいが、これらに限定されない。通信ユニット2409は、電子機器2400が例えば、インターネットであるコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の装置と情報/データを交換することを可能にし、モデム、ネットワークカード、赤外線通信装置、無線通信送受信機、及び/又はチップセット、例えば、ブルートゥースTM装置、802.11装置、WiFi装置、WiMax装置、セルラー通信装置及び/又は類似物を含んでもよいが、これらに限定されない。
計算ユニット2401は処理及びコンピューティング能力を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット2401のいくつかの例として、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工インテリジェント(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適当なプロセッサ、コントローラ、マイクロコントローラなどを含んでもよいが、これらに限定されない。計算ユニット2401は、前文で説明された各方法及び処理、例えばデータ生成方法又は深層学習モデルのトレーニング方法を実行する。例えば、いくつかの実施例では、データ生成方法又は深層学習モデルのトレーニング方法は、機器可読媒体、例えば記憶ユニット2408に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部の又は全てはROM 2402及び/又は通信ユニット2409を経して電子機器2400にロード及び/又はインストールされてよい。コンピュータプログラムがRAM 2403にロードされて計算ユニット2401によって実行される時、以上で説明されるデータ生成方法又は深層学習モデルのトレーニング方法の一つ又は複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット2401は、他のいかなる適切な方式で(例えば、ファームウェアによって)、データ生成方法又は深層学習モデルのトレーニング方法を実行するように構成されてもよい。
本明細書で上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複雑なプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は、一つ以上のコンピュータプログラムに実施され、該一つ以上のコンピュータプログラムは少なくとも一つのプログラマブルプロセッサを含むプログラマブルシステムで実行し及び/又は解釈してもよく、該プログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、少なくとも一つの出力装置からデータと命令を受信し、データと命令を該記憶システム、該少なくとも一つの入力装置、該少なくとも一つの出力装置に送信してよいこと、を含んでもよい。
本開示の方法を実施するプログラムコードは一つ以上のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行される時に流れ図及び/又はブロック図に規定の機能/操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。
本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、一つ以上のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶機器、磁気記憶機器、又は上記内容のいかなる適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)監視モニタ)、及びキーボードとポインティング装置(例えば、マウスやトラックボール)を備え、ユーザは該キーボードと該ポインティング装置を介してコンピュータに入力してよい。その他の種類の装置は更に、ユーザとのインタラクションを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、いかなる形態(音入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信してよい。
ここで述べたシステムや技術は、バックステージ部材を含む計算システム(例えば、データサーバとして)や、ミドルウェア部材を含む計算システム(例えば、アプリケーションサーバ)や、フロントエンド部材を含む計算システム(例えば、グラフィカルユーザインターフェースやウェブブラウザを有するユーザコンピュータであり、ユーザが、そのグラフィカルユーザインターフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクションを実現できる)、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信(例えば、通信ネットワーク)により相互に接続されてもよい。通信ネットワークの一例は、ローカルネットワーク(LAN)、広域ネットワーク(WAN)、インターネットとブロックチェーンネットワークを含む。
コンピュータシステムは、クライアント側とサーバを含んでもよい。クライアント側とサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互にクライアント側-サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアント側とサーバとの関係を生成する。サーバは、クラウドサーバであってもよく、分散型システムのサーバでも、又はブロックチェーンと組み合わされたサーバであってもよい。
理解すべきこととして、前述した様々な形態のフローを用いて、ステップを改めて順位付け、増加又は削除してよい。例えば、本開示に記載された各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行してもよく、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。
本開示の実施例又は例は図面を参照して説明されたが、上記の方法、システム、及び装置は単なる例示的な実施例又は例であり、本発明の範囲はこれらの実施例又は例によって制限されるものではなく、授権後の特許請求の範囲及びその均等範囲のみによって限定されることを理解されたい。実施例又は例の様々な要素は省略されてもよく、又はそれらの均等要素によって代替されてもよい。なお、各ステップは、本開示で説明した順序とは異なる順序で実行されてもよい。更に、実施例又は例の様々な要素は、様々な方法で組み合わせられてもよい。重要なのは、技術の進化に伴い、ここで説明される多くの要素は、本開示の後に現れる同等の要素に置き換えることができるということである。

Claims (49)

  1. 深層学習モデルに基づくデータ生成方法であって、前記深層学習モデルはユーザの入力データに基づいて回答データを生成することができ、前記データ生成方法は、
    ユーザからの入力データに基づいて、前記深層学習モデルに用いられる初期入力を確定することと、
    前記深層学習モデルの第1の出力を取得し、ここでは、前記深層学習モデルが前記初期入力に基づいて回答を生成するのに前記深層学習モデルとは異なる第1の機能コンポーネントを呼び出す必要があると確定したことに応答して、前記第1の出力は前記第1の機能コンポーネントを呼び出すための第1のトークン及び前記初期入力に基づいて確定された、前記第1の機能コンポーネントによって識別できる第1の中間クエリを含むことと、
    前記第1の中間クエリに基づいて前記第1の機能コンポーネントによって確定された第1の中間結果を取得することと、
    少なくとも前記初期入力及び前記第1の中間結果に基づいて、前記深層学習モデルに用いられる第2の入力を確定することと、
    前記初期入力に対する前記回答を生成するために、前記深層学習モデルの第2の出力を取得することとを含むことを特徴とする深層学習モデルに基づくデータ生成方法。
  2. 前記第1の機能コンポーネントは、前記ユーザに関連する第1のデータグループセットを記憶する外部メモリバンクであり、ここでは、前記第1のデータグループセットにおける各データグループは、少なくとも履歴入力データアイテムと、前記履歴入力データアイテムに対して前記深層学習モデルによって生成された履歴回答アイテムとを含むことを特徴とする請求項1に記載のデータ生成方法。
  3. 前記第1の中間クエリは、前記入力データに基づくものであり、ここでは、前記第1の中間結果は、前記第1のデータグループセットにおける、前記入力データとの類似度が第1の閾値より高い履歴入力データアイテムに対応する履歴回答アイテムであることを特徴とする請求項2に記載のデータ生成方法。
  4. 前記方法は、
    前記入力データ及び前記回答に基づく第1のデータグループと前記第1のデータグループセットにおけるいずれかのデータグループとの類似度が第2の閾値より小さいと確定したことに応答して、前記第1のデータグループを前記第1のデータグループセットにエンターすることをさらに含むことを特徴とする請求項2に記載のデータ生成方法。
  5. 前記方法は、
    前記入力データ及び前記回答に基づく第1のデータグループと、前記第1のデータグループセットにおける第2のデータグループとの類似度が第3の閾値より高く、かつ前記第1のデータグループと前記第2のデータグループが相互に衝突していると確定したことに応答して、前記第1のデータグループを前記第1のデータグループセットにエンターし、前記第2のデータグループを前記第1のデータグループセットから削除することをさらに含むことを特徴とする請求項2に記載のデータ生成方法。
  6. 前記第1のデータグループセットにおける各データグループは、そのセットにける履歴入力データアイテム及び履歴回答アイテムに対応するエントリ時間アイテムをさらに含むことを特徴とする請求項2に記載のデータ生成方法。
  7. 前記第1の中間クエリは、前記入力データに基づくものであり、ここでは、前記第1の中間結果は、前記第1のデータグループセットにおける、前記入力データとの類似度が第1の閾値より高く、かつタイムスタンプが最新の履歴入力データアイテムに対応する履歴回答アイテムであることを特徴とする請求項6に記載のデータ生成方法。
  8. 前記方法は、
    前記エントリ時間アイテムに基づいて、時効性が古いデータグループを前記外部メモリバンクから削除することをさらに含むことを特徴とする請求項6に記載のデータ生成方法。
  9. 前記の、前記深層学習モデルに用いられる初期入力を確定することは、
    前記入力データに基づいて、外部メモリバンクから前記入力データとの類似度が第1の閾値より高い履歴入力データアイテムに対応する履歴回答アイテムを取得することと、
    前記入力データ及び前記履歴回答アイテムに基づいて、前記初期入力を確定することとを含み、ここでは、
    前記外部メモリバンクには前記ユーザに関連する第1のデータグループセットが記憶され、ここでは、前記第1のデータグループセットにおける各データグループは、少なくとも履歴入力データアイテムと、前記履歴入力データアイテムに対して前記深層学習モデルによって生成された履歴回答アイテムとを含むことを特徴とする請求項1に記載のデータ生成方法。
  10. 前記初期入力は、前記入力データのコンテキスト情報を含むことを特徴とする請求項1に記載のデータ生成方法。
  11. 前記の、前記深層学習モデルに用いられる初期入力を確定することは、
    外部メモリバンクから前記入力データと前記コンテキスト情報との類似度が第4の閾値に符合する少なくとも一対の履歴入力データアイテム及び履歴回答アイテムを取得することと、
    前記入力データと、前記コンテキスト情報と、前記少なくとも一対の履歴入力データアイテム及び履歴回答アイテムとに基づいて、前記深層学習モデルに用いられる前記初期入力を確定することとを含み、ここでは、
    前記外部メモリバンクには前記ユーザに関連する第1のデータグループセットが記憶され、ここでは、前記第1のデータグループセットにおける各データグループは、少なくとも履歴入力データアイテムと、前記履歴入力データアイテムに対して前記深層学習モデルによって生成された履歴回答アイテムとを含むことを特徴とする請求項10に記載のデータ生成方法。
  12. 前記第1の機能コンポーネントは、外部サーチエンジンであることを特徴とする請求項9~11のいずれか一項に記載のデータ生成方法。
  13. 前記第1の機能コンポーネントは、前記深層学習モデルと連合してトレーニングされた検索モデルであることを特徴とする請求項9~11のいずれか一項に記載のデータ生成方法。
  14. 前記第1の機能コンポーネントは、前記深層学習モデルによって呼び出すことができる少なくとも1つのアプリケーションプログラミングインターフェースであることを特徴とする請求項9~11のいずれか一項に記載のデータ生成方法。
  15. 前記の、少なくとも前記初期入力及び前記第1の中間結果に基づいて、前記深層学習モデルに用いられる第2の入力を確定することは、
    前記初期入力、前記第1の中間結果、及び前記第1の中間クエリに基づいて、前記深層学習モデルに用いられる第2の入力を確定することを含むことを特徴とする請求項1~11のいずれか一項に記載のデータ生成方法。
  16. 前記第2の出力は、前記深層学習モデルとは異なる任意の機能コンポーネントを呼び出すための対応するトークンを含まず、ここでは、
    前記の、前記初期入力に対する前記回答を生成するために、前記深層学習モデルの第2の出力を取得することは、
    前記第2の出力を、前記初期入力に対する前記回答とすることを含むことを特徴とする請求項1~11のいずれか一項に記載のデータ生成方法。
  17. 前記第2の出力は、第2の機能コンポーネントを呼び出すための第2のトークンと、前記第2の入力に基づいて得られた、前記第2の機能コンポーネントによって識別できる第2の中間クエリを含み、ここでは、
    前記の、前記初期入力に対する前記回答を生成するために、前記深層学習モデルの第2の出力を取得することは、
    前記第2の出力に対して対応する機能呼び出し操作を実行することであって、前記機能呼び出し操作が、
    前記第2の中間クエリに基づいて前記第2の機能コンポーネントによって確定された第2の中間結果を取得することと、
    少なくとも前記第2の入力及び前記第2の中間結果に基づいて、前記深層学習モデルに用いられる第3の入力を確定することと、
    前記深層学習モデルの第3の出力を取得することとを含むものと、
    第Nの機能コンポーネントを呼び出すための第Nのトークン及び第Nの入力に基づいて得られた、前記第Nの機能コンポーネントによって識別できる第Nの中間クエリを前記深層学習モデルの第Nの出力に含むことに応答して、第N+1の出力に前記深層学習モデルとは異なる任意の機能コンポーネントを呼び出すための対応するトークンが含まれないと確定されるまで、前記第Nの出力に対応する機能呼び出し操作を実行し、前記第N+1の出力を前記初期入力に対する前記回答とし、ここでは、Nは2より大きい整数であることとを含むことを特徴とする請求項1~11のいずれか一項に記載のデータ生成方法。
  18. 前記第2の機能コンポーネント及び第Nの機能コンポーネントは、それぞれ、
    外部サーチエンジンと、
    前記深層学習モデルと連合してトレーニングされた検索モデルと、
    前記深層学習モデルによって呼び出すことができる少なくとも1つのアプリケーションプログラミングインターフェースと、
    外部メモリバンクとを含む機能コンポーネントグループのうちの一つであり、前記外部メモリバンクには前記ユーザに関連する第1のデータグループセットが記憶され、ここでは、前記第1のデータグループセットにおける各データグループは、少なくとも履歴入力データアイテムと、前記履歴入力データアイテムに対して前記深層学習モデルによって生成された履歴回答アイテムとを含むことを特徴とする請求項17に記載のデータ生成方法。
  19. 深層学習モデルのトレーニング方法であって、前記深層学習モデルはユーザの入力データに基づいて回答データを生成するために用いられ、前記トレーニング方法は、
    第1のサンプルデータを取得し、前記第1のサンプルデータは第1のサンプル初期入力及び第1のサンプル出力を含み、ここでは、前記第1のサンプル初期入力は前記深層学習モデルとは異なる第1のプリセット機能コンポーネントを呼び出す意図表現を含み、且つ、前記第1のサンプル出力は前記第1のプリセット機能コンポーネントを呼び出すための第1のトークン及び前記第1のプリセット機能コンポーネントによって識別できる第1のサンプル中間入力を含むことと、
    第2のサンプルデータを取得し、前記第2のサンプルデータは第2のサンプル初期入力及び第2のサンプル出力を含み、ここでは、前記第2のサンプル初期入力は前記深層学習モデルとは異なる任意のプリセット機能コンポーネントを呼び出す意図表現を含まず、且つ、前記第2のサンプル出力は任意のプリセット機能コンポーネントを呼び出すための対応するトークンを含まないことと、
    前記深層学習モデルを利用して前記第1のサンプル初期入力を処理して、第1の予測出力を取得することと、
    前記第1のサンプル出力と前記第1の予測出力との比較に基づいて、前記深層学習モデルのパラメータを調整することと、
    前記深層学習モデルを利用して前記第2のサンプル初期入力を処理して、第2の予測出力を取得することと、
    前記第2のサンプル出力と前記第2の予測出力との比較に基づいて、前記深層学習モデルのパラメータを調整することとを含むことを特徴とする深層学習モデルのトレーニング方法。
  20. 前記トレーニング方法は、
    第3のサンプル初期入力と、サンプルサーチクエリと、複数のサンプルサーチ結果と、前記第3のサンプル初期入力に対する前記深層学習モデルの第3のサンプル回答とを含む第3のサンプルデータを取得し、前記サンプルサーチクエリは、前記第3のサンプル初期入力に基づいて前記深層学習モデルによって生成されたサンプル中間入力であり、前記サンプル中間入力は、前記深層学習モデルとは異なる検索モデルによって識別可能であり、ここでは、前記複数のサンプルサーチ結果は前記サンプルサーチクエリに基づいて前記検索モデルによって出力された結果であることと、
    前記複数のサンプルサーチ結果のそれぞれと前記第3のサンプル回答との一致度に基づいて、前記複数のサンプルサーチ結果にソーティング操作を行うことと、
    ソーティングされた前記複数のサンプルサーチ結果に基づいて前記検索モデルをトレーニングすることとをさらに含むことを特徴とする請求項19に記載のトレーニング方法。
  21. 前記の、前記複数のサンプルサーチ結果のそれぞれと前記第3のサンプル回答との一致度に基づいて、前記複数のサンプルサーチ結果にソーティング操作を行うことは、
    前記複数のサンプルサーチ結果から現在の一致度が最も高い第1のサンプルサーチ結果をスクリーニングすることと、
    前記第3のサンプル回答と前記第1のサンプルサーチ結果との重複内容を削除して、前記第3のサンプル回答を更新することと、
    前記複数のサンプルサーチ結果の残り部分のそれぞれと前記更新された第3のサンプル回答との一致度に基づいて、前記複数のサンプルサーチ結果における全てのサンプルサーチ結果のソーティングが完了するまで、前記残り部分に対して前記ソーティング操作を繰り返すこととを含むことを特徴とする請求項20に記載のトレーニング方法。
  22. 前記検索モデルは、ソーティングサブモデルとリコールサブモデルとを含み、前記の、ソーティングされた前記複数のサンプルサーチ結果に基づいて、前記検索モデルをトレーニングすることは、
    ソーティングされた前記複数のサンプルサーチ結果に基づいて、前記検索モデルのソーティングサブモデルをトレーニングすることと、
    トレーニングされた前記ソーティングサブモデルを教師モデルとして、前記リコールサブモデルをトレーニングすることとを含むことを特徴とする請求項20又は21に記載のトレーニング方法。
  23. 前記方法は、
    第4のサンプルデータを取得し、前記第4のサンプルデータは第4のサンプル初期入力、外部メモリバンクによって識別できる第4のサンプル中間入力、サンプル記憶結果及び第4のサンプル回答を含み、前記第4のサンプル中間入力は前記第4のサンプル初期入力に基づいて確定されることと、
    外部メモリバンクによって前記第4のサンプル中間入力に基づいて確定された予測記憶結果を取得することと、
    前記予測記憶結果と前記サンプル記憶結果との比較に基づいて、前記外部メモリバンクのパラメータを調整することと、
    少なくとも前記第4のサンプル初期入力及び前記サンプル記憶結果に基づいて、前記深層学習モデルに用いられる第4のサンプル目標入力を確定することと、
    前記深層学習モデルを利用して前記第4のサンプル目標入力を処理して、第4の予測回答を取得することと、
    前記第4のサンプル回答と前記第4の予測回答との比較に基づいて、前記深層学習モデルのパラメータを調整することとをさらに含むことを特徴とする請求項19~21のいずれか一項に記載のトレーニング方法。
  24. 深層学習モデルに基づくデータ生成装置であって、前記深層学習モデルはユーザの入力データに基づいて回答データを生成することができ、前記データ生成装置は、
    ユーザからの入力データに基づいて、前記深層学習モデルに用いられる初期入力を確定するように構成される第1の確定ユニットと、
    前記深層学習モデルの第1の出力を取得し、ここでは、前記深層学習モデルが前記初期入力に基づいて回答を生成するのに前記深層学習モデルとは異なる第1の機能コンポーネントを呼び出す必要があると確定したことに応答して、前記第1の出力は前記第1の機能コンポーネントを呼び出すための第1のトークン及び前記初期入力に基づいて確定された、前記第1の機能コンポーネントによって識別できる第1の中間クエリを含むように構成される第1の取得ユニットと、
    前記第1の中間クエリに基づいて前記第1の機能コンポーネントによって確定された第1の中間結果を取得するように構成される第2の取得ユニットと、
    少なくとも前記初期入力及び前記第1の中間結果に基づいて、前記深層学習モデルに用いられる第2の入力を確定するように構成される第2の確定ユニットと、
    前記初期入力に対する前記回答を生成するために、前記深層学習モデルの第2の出力を取得するように構成される第3の取得ユニットとを含むことを特徴とする深層学習モデルに基づくデータ生成装置。
  25. 前記第1の機能コンポーネントは、前記ユーザに関連する第1のデータグループセットを記憶する外部メモリバンクであり、ここでは、前記第1のデータグループセットにおける各データグループは、少なくとも履歴入力データアイテムと、前記履歴入力データアイテムに対して前記深層学習モデルによって生成された履歴回答アイテムとを含むことを特徴とする請求項24に記載のデータ生成装置。
  26. 前記第1の中間クエリは、前記入力データに基づくものであり、ここでは、前記第1の中間結果は、前記第1のデータグループセットにおける、前記入力データとの類似度が第1の閾値より高い履歴入力データアイテムに対応する履歴回答アイテムであることを特徴とする請求項25に記載のデータ生成装置。
  27. 前記装置は、
    前記入力データ及び前記回答に基づく第1のデータグループと、前記第1のデータグループセットにおけるいずれかのデータグループとの類似度が第2の閾値より小さいと確定したことに応答して、前記第1のデータグループを前記第1のデータグループセットにエンターするように構成される第1のエントリユニットをさらに含むことを特徴とする請求項25に記載のデータ生成装置。
  28. 前記装置は、
    前記入力データ及び前記回答に基づく第1のデータグループと、前記第1のデータグループセットにおける第2のデータグループとの類似度が第3の閾値より高く、かつ前記第1のデータグループと前記第2のデータグループが相互に衝突していると確定したことに応答して、前記第1のデータグループを前記第1のデータグループセットにエンターし、前記第2のデータグループを前記第1のデータグループセットから削除するように構成される第2のエントリユニットをさらに含むことを特徴とする請求項25に記載のデータ生成装置。
  29. 前記第1のデータグループセットにおける各データグループは、そのセットにける履歴入力データアイテム及び履歴回答アイテムに対応するエントリ時間アイテムをさらに含むことを特徴とする請求項25に記載のデータ生成装置。
  30. 前記第1の中間クエリは、前記入力データに基づくものであり、ここでは、前記第1の中間結果は、前記第1のデータグループセットにおける、前記入力データとの類似度が第1の閾値より高く、かつタイムスタンプが最新の履歴入力データアイテムに対応する履歴回答アイテムであることを特徴とする請求項29に記載のデータ生成装置。
  31. 前記装置は、
    前記エントリ時間アイテムに基づいて、時効性が古いデータグループを前記外部メモリバンクから削除するように構成される削除ユニットをさらに含むことを特徴とする請求項29に記載のデータ生成装置。
  32. 前記第1の確定ユニットは、
    前記入力データに基づいて、外部メモリバンクから前記入力データとの類似度が第1の閾値より高い履歴入力データアイテムに対応する履歴回答アイテムを取得するように構成される第1の取得サブユニットと、
    前記入力データ及び前記履歴回答アイテムに基づいて、前記初期入力を確定するように構成される第1の確定サブユニットとを含み、ここでは、
    前記外部メモリバンクには前記ユーザに関連する第1のデータグループセットが記憶され、ここでは、前記第1のデータグループセットにおける各データグループは、少なくとも履歴入力データアイテムと、前記履歴入力データアイテムに対して前記深層学習モデルによって生成された履歴回答アイテムとを含むことを特徴とする請求項24に記載のデータ生成装置。
  33. 前記初期入力は、前記入力データのコンテキスト情報を含むことを特徴とする請求項24に記載のデータ生成装置。
  34. 前記第1の確定ユニットは、
    外部メモリバンクから前記入力データと前記コンテキスト情報との類似度が第4の閾値に符合する少なくとも一対の履歴入力データアイテム及び履歴回答アイテムを取得するように構成される第2の取得サブユニットと、
    前記入力データと、前記コンテキスト情報と、前記少なくとも一対の履歴入力データアイテム及び履歴回答アイテムとに基づいて、前記深層学習モデルに用いられる前記初期入力を確定するように構成される第2の確定サブユニットとを含み、ここでは、
    前記外部メモリバンクには前記ユーザに関連する第1のデータグループセットが記憶され、ここでは、前記第1のデータグループセットにおける各データグループは、少なくとも履歴入力データアイテムと、前記履歴入力データアイテムに対して前記深層学習モデルによって生成された履歴回答アイテムとを含むことを特徴とする請求項33に記載のデータ生成装置。
  35. 前記第1の機能コンポーネントは、外部サーチエンジンであることを特徴とする請求項32~34のいずれか一項に記載のデータ生成装置。
  36. 前記第1の機能コンポーネントは、前記深層学習モデルと連合してトレーニングされた検索モデルであることを特徴とする請求項32~34のいずれか一項に記載のデータ生成装置。
  37. 前記第1の機能コンポーネントは、前記深層学習モデルによって呼び出すことができる少なくとも1つのアプリケーションプログラミングインターフェースであることを特徴とする請求項32~34のいずれか一項に記載のデータ生成装置。
  38. 前記第2の確定ユニットは、
    前記初期入力、前記第1の中間結果、及び前記第1の中間クエリに基づいて、前記深層学習モデルに用いられる第2の入力を確定するように構成される第3の確定サブユニットを含むことを特徴とする請求項24~34のいずれか一項に記載のデータ生成装置。
  39. 前記第2の出力は、前記深層学習モデルとは異なる任意の機能コンポーネントを呼び出すための対応するトークンを含まず、ここでは、
    前記第3の取得ユニットは、
    前記第2の出力を、前記初期入力に対する前記回答とするように構成される回答サブユニットを含むことを特徴とする請求項24~34のいずれか一項に記載のデータ生成装置。
  40. 前記第2の出力は、第2の機能コンポーネントを呼び出すための第2のトークンと、前記第2の入力に基づいて得られた、前記第2の機能コンポーネントによって識別できる第2の中間クエリを含み、ここでは、
    前記第3の取得ユニットは、
    前記第2の出力に対して対応する機能呼び出し操作を実行するように構成される第3の取得サブユニットを含み、前記機能呼び出し操作が、
    前記第2の中間クエリに基づいて前記第2の機能コンポーネントによって確定された第2の中間結果を取得することと、
    少なくとも前記第2の入力及び前記第2の中間結果に基づいて、前記深層学習モデルに用いられる第3の入力を確定することと、
    前記深層学習モデルの第3の出力を取得することとを含むものと、
    第Nの機能コンポーネントを呼び出すための第Nのトークン及び第Nの入力に基づいて得られた、前記第Nの機能コンポーネントによって識別できる第Nの中間クエリを前記深層学習モデルの第Nの出力に含むことに応答して、第N+1の出力に前記深層学習モデルとは異なる任意の機能コンポーネントを呼び出すための対応するトークンが含まれないと確定されるまで、前記第Nの出力に対応する機能呼び出し操作を実行し、前記第N+1の出力を前記初期入力に対する前記回答とし、ここでは、Nは2より大きい整数であるように構成される呼び出しサブユニットとを含むことを特徴とする請求項24~34のいずれか一項に記載のデータ生成装置。
  41. 前記第2の機能コンポーネント及び第Nの機能コンポーネントは、それぞれ、
    外部サーチエンジンと、
    前記深層学習モデルと連合してトレーニングされた検索モデルと、
    前記深層学習モデルによって呼び出すことができる少なくとも1つのアプリケーションプログラミングインターフェースと、
    外部メモリバンクとを含む機能コンポーネントグループのうちの一つであり、前記外部メモリバンクには前記ユーザに関連する第1のデータグループセットが記憶され、ここでは、前記第1のデータグループセットにおける各データグループは、少なくとも履歴入力データアイテムと、前記履歴入力データアイテムに対して前記深層学習モデルによって生成された履歴回答アイテムとを含むことを特徴とする請求項40に記載のデータ生成装置。
  42. 深層学習モデルのトレーニング装置であって、前記深層学習モデルはユーザの入力データに基づいて回答データを生成するために用いられ、前記トレーニング装置は、
    第1のサンプルデータを取得し、前記第1のサンプルデータは第1のサンプル初期入力及び第1のサンプル出力を含み、ここでは、前記第1のサンプル初期入力は前記深層学習モデルとは異なる第1のプリセット機能コンポーネントを呼び出す意図表現を含み、且つ、前記第1のサンプル出力は前記第1のプリセット機能コンポーネントを呼び出すための第1のトークン及び前記第1のプリセット機能コンポーネントによって識別できる第1のサンプル中間入力を含むように構成される第4の取得ユニットと、
    第2のサンプルデータを取得し、前記第2のサンプルデータは第2のサンプル初期入力及び第2のサンプル出力を含み、ここでは、前記第2のサンプル初期入力は前記深層学習モデルとは異なる任意のプリセット機能コンポーネントを呼び出す意図表現を含まず、且つ、前記第2のサンプル出力は任意のプリセット機能コンポーネントを呼び出すための対応するトークンを含まないように構成される第5の取得ユニットと、
    前記深層学習モデルを利用して前記第1のサンプル初期入力を処理して、第1の予測出力を取得するように構成される第1の処理ユニットと、
    前記第1のサンプル出力と前記第1の予測出力との比較に基づいて、前記深層学習モデルのパラメータを調整するように構成される第1のパラメータ調整ユニットと、
    前記深層学習モデルを利用して前記第2のサンプル初期入力を処理して、第2の予測出力を取得するように構成される第2の処理ユニットと、
    前記第2のサンプル出力と前記第2の予測出力との比較に基づいて、前記深層学習モデルのパラメータを調整するように構成される第2のパラメータ調整ユニットとを含むことを特徴とする深層学習モデルのトレーニング装置。
  43. 前記トレーニング装置は、
    第3のサンプル初期入力と、サンプルサーチクエリと、複数のサンプルサーチ結果と、前記第3のサンプル初期入力に対する前記深層学習モデルの第3のサンプル回答とを含む第3のサンプルデータを取得し、前記サンプルサーチクエリは、前記第3のサンプル初期入力に基づいて前記深層学習モデルによって生成されたサンプル中間入力であり、前記サンプル中間入力は、前記深層学習モデルとは異なる検索モデルによって識別可能であり、ここでは、前記複数のサンプルサーチ結果は前記サンプルサーチクエリに基づいて前記検索モデルによって出力された結果であるように構成される第6の取得ユニットと、
    前記複数のサンプルサーチ結果のそれぞれと前記第3のサンプル回答との一致度に基づいて、前記複数のサンプルサーチ結果にソーティング操作を行うように構成されるソーティングユニットと、
    ソーティングされた前記複数のサンプルサーチ結果に基づいて前記検索モデルをトレーニングするように構成されるトレーニングユニットとをさらに含むことを特徴とする請求項42に記載のトレーニング装置。
  44. 前記ソーティングユニットは、
    前記複数のサンプルサーチ結果から現在の一致度が最も高い第1のサンプルサーチ結果をスクリーニングするように構成されるスクリーニングサブユニットと、
    前記第3のサンプル回答と前記第1のサンプルサーチ結果との重複内容を削除して、前記第3のサンプル回答を更新するように構成される削除サブユニットと、
    前記複数のサンプルサーチ結果の残り部分のそれぞれと前記更新された第3のサンプル回答との一致度に基づいて、前記複数のサンプルサーチ結果における全てのサンプルサーチ結果のソーティングが完了するまで、前記残り部分に対して前記ソーティング操作を繰り返すように構成されるソーティングサブユニットとを含むことを特徴とする請求項43に記載のトレーニング装置。
  45. 前記検索モデルはソーティングサブモデルとリコールサブモデルを含み、ここでは、前記トレーニングユニットは、
    ソーティングされた前記複数のサンプルサーチ結果に基づいて、前記検索モデルのソーティングサブモデルをトレーニングするように構成される第1のトレーニングサブユニットと、
    トレーニングされた前記ソーティングサブモデルを教師モデルとして、前記リコールサブモデルをトレーニングするように構成される第2のトレーニングサブユニットとを含むことを特徴とする請求項43又は44に記載のトレーニング装置。
  46. 前記トレーニング装置は、
    第4のサンプルデータを取得し、前記第4のサンプルデータは第4のサンプル初期入力、外部メモリバンクによって識別できる第4のサンプル中間入力、サンプル記憶結果及び第4のサンプル回答を含み、前記第4のサンプル中間入力は前記第4のサンプル初期入力に基づいて確定されるように構成される第7の取得ユニットと、
    外部メモリバンクによって前記第4のサンプル中間入力に基づいて確定された予測記憶結果を取得するように構成される第8の取得ユニットと、
    前記予測記憶結果と前記サンプル記憶結果との比較に基づいて、前記外部メモリバンクのパラメータを調整するように構成される第3のパラメータ調整ユニットと、
    少なくとも前記第4のサンプル初期入力及び前記サンプル記憶結果に基づいて、前記深層学習モデルに用いられる第4のサンプル目標入力を確定するように構成される第3の確定ユニットと、
    前記深層学習モデルを利用して前記第4のサンプル目標入力を処理して、第4の予測回答を取得するように構成される第3の処理ユニットと、
    前記第4のサンプル回答と前記第4の予測回答との比較に基づいて、前記深層学習モデルのパラメータを調整するように構成される第4のパラメータ調整ユニットとをさらに含むことを特徴とする請求項42~44のいずれか一項に記載のトレーニング装置。
  47. 電子機器であって、前記電子機器は、
    少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサに通信接続されたメモリとを含み、ここで、
    前記メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、少なくとも1つのプロセッサが請求項1~23のいずれか一項に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行されることを特徴とする電子機器。
  48. コンピュータ命令を記憶した非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項1~23のいずれか一項に記載の方法を実行させるために用いられることを特徴とするコンピュータ可読記憶媒体。
  49. コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムは、プロセッサにより実行されると、請求項1~23のいずれか一項に記載の方法を実現するために用いられるコンピュータプログラム製品。
JP2023170081A 2023-03-10 2023-09-29 深層学習モデルに基づくデータ生成方法、トレーニング方法及び装置 Pending JP2023182707A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202310246603.9 2023-03-10
CN202310246603.9A CN115952274B (zh) 2023-03-10 2023-03-10 基于深度学习模型的数据生成方法、训练方法和装置

Publications (1)

Publication Number Publication Date
JP2023182707A true JP2023182707A (ja) 2023-12-26

Family

ID=85903373

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023170081A Pending JP2023182707A (ja) 2023-03-10 2023-09-29 深層学習モデルに基づくデータ生成方法、トレーニング方法及び装置

Country Status (5)

Country Link
US (1) US20240028909A1 (ja)
EP (1) EP4350577A1 (ja)
JP (1) JP2023182707A (ja)
KR (1) KR20230144505A (ja)
CN (1) CN115952274B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541536B (zh) * 2023-05-30 2024-03-01 北京百度网讯科技有限公司 知识增强的内容生成系统、数据生成方法、设备和介质
CN116842156B (zh) * 2023-06-30 2024-05-10 北京百度网讯科技有限公司 数据生成方法及装置、设备和介质
CN117874211A (zh) * 2024-03-13 2024-04-12 蒲惠智造科技股份有限公司 基于saas软件的智能问答方法、系统、介质及电子设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6218057B1 (ja) * 2017-07-14 2017-10-25 Jeインターナショナル株式会社 自動応答サーバー装置、端末装置、応答システム、応答方法、およびプログラム
CN109829038A (zh) * 2018-12-11 2019-05-31 平安科技(深圳)有限公司 基于深度学习的问答反馈方法、装置、设备及存储介质
CN113177419B (zh) * 2021-04-27 2024-04-30 北京小米移动软件有限公司 文本改写方法、装置、存储介质及电子设备
CN113553412B (zh) * 2021-06-30 2023-07-25 北京百度网讯科技有限公司 问答处理方法、装置、电子设备和存储介质
CN114416943B (zh) * 2021-12-29 2023-04-18 北京百度网讯科技有限公司 对话模型的训练方法、装置、电子设备及存储介质
CN114840671A (zh) * 2022-04-29 2022-08-02 北京百度网讯科技有限公司 对话生成方法、模型的训练方法、装置、设备及介质
CN114880449B (zh) * 2022-05-17 2024-05-10 平安科技(深圳)有限公司 智能问答的答复生成方法、装置、电子设备及存储介质
CN114861889B (zh) * 2022-07-04 2022-09-27 北京百度网讯科技有限公司 深度学习模型的训练方法、目标对象检测方法和装置
CN114880441B (zh) * 2022-07-06 2023-02-10 北京百度网讯科技有限公司 视觉内容生成方法、装置、系统、设备和介质
CN115309877B (zh) * 2022-08-03 2023-05-30 北京百度网讯科技有限公司 对话生成方法、对话模型训练方法及装置
CN115455161A (zh) * 2022-09-02 2022-12-09 北京百度网讯科技有限公司 对话处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN115952274B (zh) 2023-06-27
EP4350577A1 (en) 2024-04-10
KR20230144505A (ko) 2023-10-16
CN115952274A (zh) 2023-04-11
US20240028909A1 (en) 2024-01-25

Similar Documents

Publication Publication Date Title
JP7421604B2 (ja) モデル事前訓練方法および装置、テキスト生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
CN110998567B (zh) 用于对话语义分析的知识图谱
US10762892B2 (en) Rapid deployment of dialogue system
EP3230979B1 (en) Method and system for determining user intent in a spoken dialog based on transforming at least one portion of a semantic knowledge graph to a probabilistic state graph
US10249297B2 (en) Propagating conversational alternatives using delayed hypothesis binding
JP2023182707A (ja) 深層学習モデルに基づくデータ生成方法、トレーニング方法及び装置
US10679006B2 (en) Skimming text using recurrent neural networks
CN113168305A (zh) 通过预测用户响应来加快与数字助理的交互
CN115082602B (zh) 生成数字人的方法、模型的训练方法、装置、设备和介质
US20180061393A1 (en) Systems and methods for artifical intelligence voice evolution
JP7204801B2 (ja) ニューラルネットワークに基づくマンマシンインタラクション方法、装置、及び媒体
WO2023221422A1 (zh) 用于文本识别的神经网络及其训练方法、文本识别的方法
CN114254158B (zh) 视频生成方法及其装置、神经网络的训练方法及其装置
CN116303962B (zh) 对话生成方法、深度学习模型的训练方法、装置和设备
CN116501960B (zh) 内容检索方法、装置、设备及介质
US20240104154A1 (en) Ranking of recall data
US20230094828A1 (en) Audio file annotation
US20220075960A1 (en) Interactive Communication System with Natural Language Adaptive Components
CN116541536B (zh) 知识增强的内容生成系统、数据生成方法、设备和介质
CN117648422A (zh) 问答提示系统、问答提示、库构建、模型训练方法和装置
Ethape et al. Smart Automation Using LLM
Patel et al. My Buddy App: Communications between Smart Devices through Voice Assist
US20240112086A1 (en) Automatically linking digital calendar events to activities
US20240054991A1 (en) Spoken query processing for image search
US11893480B1 (en) Reinforcement learning with scheduled auxiliary control

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231024