JP7273108B2 - モデルトレーニング方法、装置、電子デバイス、記憶媒体、プログラム - Google Patents

モデルトレーニング方法、装置、電子デバイス、記憶媒体、プログラム Download PDF

Info

Publication number
JP7273108B2
JP7273108B2 JP2021104044A JP2021104044A JP7273108B2 JP 7273108 B2 JP7273108 B2 JP 7273108B2 JP 2021104044 A JP2021104044 A JP 2021104044A JP 2021104044 A JP2021104044 A JP 2021104044A JP 7273108 B2 JP7273108 B2 JP 7273108B2
Authority
JP
Japan
Prior art keywords
information
model
training
machine
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021104044A
Other languages
English (en)
Other versions
JP2021152961A (ja
Inventor
偉 傑 任
健 飛 王
程 彭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021152961A publication Critical patent/JP2021152961A/ja
Application granted granted Critical
Publication of JP7273108B2 publication Critical patent/JP7273108B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本開示は、コンピュータ技術の分野、特に強化学習、NLP(Natural Language Processing、略して自然言語処理)などの分野の人工知能の分野に関している。
科学技術の発達に伴い、人工知能の多くの製品が徐々に社会の各部分に浸透している。その中、人工知能の最も直接的な応用としての対話システムは、学界や産業界から大きな注目を集めている。
本開示は、モデルトレーニング方法、装置、電子デバイス、記憶媒体、コンピュータプログラムを提供している。
本開示の一態様によれば、モデルトレーニング方法を提供した。ヒューマンマシンインタラクションプロセス中にユーザによって入力された対話情報を取得することと、前記対話情報に基づいて、第1の意図認識モデル、第1の循環ニューラルネットワーク、および第1の名前付きエンティティ認識モデルを使用して、ユーザ意図情報、対話状態情報、およびエンティティ情報を含む対応する予測情報を取得することと、機械がヒューマンマシンインタラクションプロセスに前記機械行為情報に基づいて対応する機械行為を行うように、前記予測情報に基づいて、前記第1の行為決定モデルを使用して、対応する機械行為情報を取得することと、ユーザが前記機械行為に対して入力されたフィードバック情報を取得することと、前記予測情報、前記機械行為情報、および前記フィードバック情報のうちの少なくとも1つをトレーニングデータとしてデータベースに格納することと、前記データベース内のトレーニングデータが予め設定されたデータ量に達することに応答して、前記データベース内のトレーニングデータに基づいて、強化学習アルゴリズムを使用してオンラインでモデル最適化トレーニングを実行することと、を含む。
本開示の他の態様によれば、モデルトレーニング装置を提供した。ヒューマンマシンインタラクションプロセス中にユーザによって入力された対話情報を取得する第1の取得モジュールと、前記対話情報に基づいて、第1の意図認識モデル、第1の循環ニューラルネットワーク、および第1の名前付きエンティティ認識モデルを使用して、ユーザ意図情報、対話状態情報、およびエンティティ情報を含む対応する予測情報を取得する第1の予測モジュールと、機械がヒューマンマシンインタラクションプロセスに前記機械行為情報に基づいて対応する機械行為を行うように、前記予測情報に基づいて、前記第1の行為決定モデルを使用して、対応する機械行為情報を取得する第2の予測モジュールと、ユーザが前記機械行為に対して入力されたフィードバック情報を取得する第2の取得モジュールと、前記予測情報、前記機械行為情報、および前記フィードバック情報のうちの少なくとも1つをトレーニングデータとしてデータベースに格納する記憶モジュールと、前記データベース内のトレーニングデータが予め設定されたデータ量に達することに応答して、前記データベース内のトレーニングデータに基づいて、強化学習アルゴリズムを使用してオンラインでモデル最適化トレーニングを実行する最適化トレーニングモジュールと、を含む。
本開示の他の態様によれば、電子デバイスを提供した。少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを含み、前記メモリは、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに本開示の実施例に記載の方法を実行させる前記少なくとも1つのプロセッサが実行される命令を記憶する。
本開示の他の態様によれば、非一時的なコンピュータ読み取り可能な記憶媒体を提供した。コンピュータに本開示の実施例に記載の方法を実行させるコンピュータ命令を記憶する。
本開示の他の態様によれば、プロセッサによって実行される際に、本開示の実施例に記載の方法を実現するコンピュータプログラムを提供した。
本部分に記載されている内容は、本開示の実施例の肝心な特徴または重要な特徴を限定することを意図するものではなく、また、本開示の範囲を限定することを意図するものでもないことを理解されたい。本開示の他の特徴は、以下の明細書によって容易に理解されるであろう。
添付の図面は、解決案をよりよく理解するために使用されており、本開示を制限するものではない。
図1は、本開示の実施例に適したモデルトレーニング方法および装置のシステムアーキテクチャを例示的に示している。 図2は、本開示の実施例によるモデルトレーニング方法のフローチャートを例示的に示している。 図3は、本開示の実施例によるモデルトレーニングの概略図を例示的に示している。 図4は、本開示の実施例によるモデルトレーニング装置のブロック図を例示的に示している。 図5は、本開示の実施例のモデルトレーニング方法および装置を実現するための電子デバイスのブロック図を例示的に示している。
以下は、理解を容易にするために本開示の実施例の様々な詳細を含む添付の図面を参照して本開示の例示的な実施例を説明し、単なる例示と見なされるべきである。したがって、当業者は、本開示の範囲および精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更および修正を行うことができることを認識すべきである。同様に、明確と簡潔のために、よく知られている機能と構造の説明は、以下の説明では省略されている。
従来の対話システムでは、対話コンテンツは一般に限られた数の対話状態に分割され、いくつかのルールを定義することによって、これらの異なる状態に入るのに必要な条件を決定する。対話プロセスでは、対話システムは、機械学習や人工的に定義されたルールなどの自然言語処理方法によって、ユーザの意図とそれに関与するエンティティを取得し、その後、以前の対話状態と前述の意図とエンティティなどの情報に基づいて、後続の対話状態をトリガーし、最後に後続の対話状態に基づいて、システム決定モデルを使用してフィードバックを行なう。対話システムの実現では、対話システムは、通常、上記のフローに基づいて複数のモジュールに分割される。これらのモジュール(またはモデル)の実現は、通常、オフラインデータトレーニングに基づいて得られ、または人為的に定義されたルールに基づいて完了される。オフラインデータに基づいてトレーニングされたモデルが対話システムに適用されると、対話システムがオンラインになった後、すべてのモデルのパラメータが固定され、更新できない。オフラインデータに基づいてトレーニングされたこれらのモデルは、オンラインユーザが実際に使用する対話から逸脱する可能性があり、その結果、モデルの有効性を保証できない。
また、関連技術では、オフラインデータに基づいて、例えばユーザの言語理解、システムフィードバックなどのモジュール(またはモデル)ようなシステムに含まれる複数のモジュールをトレーニングするのに、オフラインデータに手動でラベリングする必要がある。これにより、大量なラベリングコストが発生する。また、それぞれの人の判断基準は必ずしも同じではないため、ラベリング誤差が大きくなり、モデルの精度が低下する。
この点に関して、本開示の実施例は、改善されたモデルトレーニング方法を提供する。対話システムで使用されるデータモデルに対して、まず、いくつかのオフラインデータに基づいて対応する初級データモデルをトレーニングし、初級データモデルが公開されて使用された後、オンラインデータに基づいて、強化学習アルゴリズムを介して、初級データモデルについてオンライン最適化トレーニングを実施する。そして、このようなオンライン最適化トレーニングは、繰り返し周期的に実行できる。オンラインデータを使用してモデル最適化トレーニングを行なった後、対話システムは、ユーザの実際の使用シーンにより現実的かつ効果的に近づけることができ、より良い対話効果を得ることができる。そして、モデル最適化トレーニングを実行する場合、強化学習アルゴリズムを使用することで、対話システムをヒューマンマシンインタラクション環境でタイムリーにトレーニングして更新することができ、他の人工的に構築されたラベルデータを必要としない(例えば、データのラベリングは不要である)。これにより、対話システムがより正確になる。本開示は、具体的な実施例と組み合わせて以下で詳細に説明される。
本開示の実施例に適したモデルトレーニング方法および装置のシステムアーキテクチャは、以下のように紹介される。
図1は、本開示の実施例に適したモデルトレーニング方法および装置のシステムアーキテクチャを例示的に示している。図1は、当業者が本開示の技術的内容を容易に理解するために、本開示の実施例を適用することができるシステムアーキテクチャの単なる例であるが、それは、本開示の実施例は、他の環境またはシーンに使用できないことを意味していない。
図1に示されるように、システムアーキテクチャ100は、サーバ101、サーバ102、端末装置103、およびデータベース104を含み得る。
具体的には、まず、いくつかのオフラインデータを使用していくつかの初級モデルをトレーニングできる。例えば、初級意図認識モデル、初級循環ニューラルネットワーク、初級名前付きエンティティ認識モデルなどを対話システムで使用されるモデルとし、これらの初級モデルをサーバ102に公開される。
ユーザが端末装置103を使用してヒューマンマシンインタラクションをする場合、サーバ102は、ヒューマンマシンインタラクション中にユーザが入力した対話情報を取得し、取得した対話情報に基づいて例えば初級意図認識モデル、初級循環ニューラルネットワーク、初級名前付きエンティティ認識モデルなどの相応的な初級モデルを使用して対応する予測情報を取得する。この予測情報には、ユーザ意図情報、対話状態情報及びエンティティ情報が含まれ、機械(すなわち、端末装置103)が、ヒューマンマシンインタラクションプロセス中にこの機械行為情報に基づいて対応する機械行為を行うことができるように、この予測情報に基づいて初級行為決定モデルを使用して、対応する機械行為情報を取得する。さらに、サーバ102は、前述の予測情報、機械行為情報、およびフィードバック情報のうちの少なくとも1つをトレーニングデータとしてデータベース104に格納し、データベース104内のトレーニングデータが予め設定されたデータ量に達したことに応答して、データベース104中のトレーニングデータに基づいて強化学習アルゴリズムを使用してオンラインでモデル最適化トレーニングを実行し、最適化されたデータモデルを取得する。さらに、サーバ102は、前述の論理に従って、データベース104に基づいて周期的に新たに取得されたトレーニングデータに基づいて、対話システムで使用されるモデルに対して最適化トレーニングを実行することができる。
また、本開示の実施例によって提供されるモデルトレーニング方法は、サーバ102上および/またはサーバ102と通信的に接続している端末装置103上で実行され得るが、本開示の実施例はこれに限定されない。
図1のサーバ、端末装置、およびデータベースの数は、単なる例示であると理解すべきである。実現のニーズに応じて、サーバ、端末装置、およびデータベースはいくつでも存在できる。
本開示の実施例に適したモデルトレーニング方法およびデバイスの適用シナリオを以下に紹介する。
本開示の実施例で提供されるモデルトレーニング方法および装置は、ヒューマンマシンインタラクションまたはマシンマシンインタラクションに関する任意の対話システムに適用でき、本発明の実施例がこれに限定されないと理解すべきである。
本開示の実施例によれば、本開示は、モデルトレーニング方法を提供している。
図2は、本開示の一実施例によるモデルトレーニング方法のフローチャートを例示的に示している。
図2に示されるように、この方法200は、操作S210~S260を含み得る。
操作S210において、ヒューマンマシンインタラクションプロセス中にユーザによって入力された対話情報が取得される。
操作S220では、対話情報に基づいて、第1の意図認識モデル、第1の循環ニューラルネットワーク、および第1の名前付きエンティティ認識モデルを使用して、対応する予測情報を取得する。ここで、この予測情報は、ユーザ意図情報、対話状態情報、およびエンティティ情報を含んでも良い。
操作S230では、機械がヒューマンマシンインタラクションプロセスで機械行為情報に基づいて対応する機械行為を行うことができるように、予測情報に基づいて、第1の行為決定モデルを使用して、対応する機械行為情報が取得される。
操作S240において、ユーザが機械行為に対して入力されたフィードバック情報が取得される。
操作S250において、予測情報、機械行為情報、およびフィードバック情報のうちの少なくとも1つは、トレーニングデータとしてデータベースに格納される。
操作S260において、データベース内のトレーニングデータが予め設定されたデータ量に達することに応答して、モデル最適化トレーニングは、データベース内のトレーニングデータに基づいて、強化学習アルゴリズムを使用してオンラインで実行される。
なお、操作S210において、対話情報は、ヒューマンマシンインタラクションプロセス中にユーザによって入力された対話コンテンツを含む。操作S220および操作S230において、第1の意図認識モデル、第1の循環ニューラルネットワーク、第1の名前付きエンティティ認識モデル、および第1の行為決定モデルは、履歴対話データを使用してオフライントレーニングによって得られる初級データモデルであり得るか、または前記初級データモデルを基礎として1回以上のオンライン強化学習を実行した後に得られる最適化されたデータモデルであり得るが、本開示の実施例はこれに限定されない。
また、操作S230では、前述の予測情報に基づいて前述の第1行為決定モデルを使用して対応する機械行為情報を取得し、その後、この機械行為情報を、ユーザがヒューマンマシンインタラクションに使用する端末装置に送信することができる。当該端末装置は、この機械行為情報に基づいて対応する機械行為を行なって、ユーザが入力する対話内容に対するフィードバックとする。
本開示の一実施例では、ヒューマンマシンインタラクションプロセス中に、操作S210~操作S230に従って、機械が一連の機械行為を実行した後、システムが最終的にユーザの対話目標情報を完了するかどうかに従って、ユーザは、いくつかのフィードバック情報を与えることができる。例えば、対話が停止したときにユーザの対話目標が最終的に完了した場合、ユーザは現在のボーナスrを10に設定することができる。対話が停止したとき任意の対話の目標が完了しない場合、ユーザは現在のボーナスrを-10に設定できる。また、対話が停止し、且つユーザの対話目標が最終的に完了したが、ユーザが引き続き質問する場合、現在のボーナスrを-1にリセットして、ユーザによる質問の数をできるだけ少なくすることができる。その中、上記のボーナスrは、ユーザが機械行為に対して入力するフィードバック情報である。
なお、本開示の実施例では、上記のフィードバック情報をトレーニングデータの一部とし、モデルのトレーニングに必要なトレーニングデータは手動ラベリングに依存せず、手動ラベリングのコストを節約する。また、手動ラベリングが不要になったため、手動ラベリングによるラベリング誤差を解消し、モデルの精度を向上させることができる。
本開示の実施例を通じて、対話システムで使用される各データモデルについて、いくつかのオフラインデータに基づいて対応する初級データモデルをトレーニングすることができ、初級データモデルが公開されて使用された後、オンラインデータに基づいて強化学習アルゴリズムを介して、初級データモデルに対してオンライン最適化トレーニングを実施する。そして、このようなオンライン最適化トレーニングは、繰り返し周期的に実行できる。オンラインデータを使用してモデル最適化トレーニングを行なった後、対話システムは、ユーザの実際の使用シーンにより現実的かつ効果的に近づけることができ、より良い対話効果を得ることができる。つまり、モデルの有効性を保証することができる。そして、モデル最適化トレーニングが実行されると、強化学習アルゴリズムを使用してモデル最適化トレーニングを実行し、データラベリングに時間をかかる必要がないため、対話システムは、ヒューマンマシンインタラクションプロセス中にタイムリーにトレーニングして更新することができる。つまり、モデルを更新する適時性を保証することができる。そして、強化学習アルゴリズムを使用してモデル最適化トレーニングを実行すると、任意な他の人工的に構築されたラベルデータ(例えばデータラベリングは不要)が不要になるため、データラベリングの人件費を大幅に削減することができるだけでなく、モデルの精度を手動ラベリングレベルから保護できる。また、モデル最適化トレーニングは、オンラインデータ、つまりリアルタイムデータに基づいて行なうため、トレーニングデータの精度を保証し、取得したモデルの精度を保証することができる。
選択的な実施例として、上記データベース内のトレーニングデータに基づいて強化学習アルゴリズムを使用してオンラインでモデル最適化トレーニングを実行し、例えば、以下の操作が含まれ得る。
このデータベースから一部のトレーニングデータをランダムに選択する。
ランダムに選択されたトレーニングデータに基づいて、強化学習アルゴリズムを使用してオンラインでモデル最適化トレーニングを実行する。
なお、本開示の実施例では、上記のデータベースから、すべてのデータではなく一部のトレーニングデータをランダムに選択してモデルの最適化トレーニングを行うことによって、モデル最適化トレーニングプロセスの計算量を減らすことができ、モデルの最適化トレーニング効率を向上させることができる。
また、本開示の実施例では、reinforcementアルゴリズムを強化学習アルゴリズムとして使用することができ、次に、reinforcementアルゴリズムを使用して、関連するモデルをオンラインで最適化トレーニングすることができる。
本開示の一実施例では、モデル最適化トレーニングプロセスにおいて、バックプロパゲーションおよび勾配降下法などの最適化方法を使用することができる。バックプロパゲーショントレーニング法は、loss値(つまり、損失関数)を減らすことを最適化の目標としていることを理解すべきである。勾配降下法は、ランダム勾配降下アルゴリズムを使用して、モデルのパラメーターを勾配の反対方向、つまり総損失が減少する方向に沿って移動し、パラメーターの更新を実現する。
また、本開示の他の実施例では、momentumオプティマイザおよびadamオプティマイザなどの最適化方法を採用してモデル最適化トレーニングを実行する。
別の選択的な実施例として、モデル最適化トレーニングは、データベース内のトレーニングデータに基づいて、強化学習アルゴリズムを使用してオンラインで実行される。例えば、以下の操作が含まれ得る。上記のデータベースのトレーニングデータに基づき、強化学習アルゴリズムを使用して、第1の意図認識モデル、第1の循環ニューラルネットワーク、第1の名前付きエンティティ認識モデル、および第1の行為決定モデルの少なくとも1つのモデルがオンラインでモデル最適化トレーニングされ得る。
本開示の一実施例では、オンラインデータに基づいて対話システムで使用される第1の意図認識モデル、第1の循環ニューラルネットワーク、第1の名前付きエンティティ認識モデル、および第1の行為決定モデルがすべて、最適化トレーニングされ得る。
本開示の他の実施例では、オンラインデータに基づいて第1の意図認識モデル、第1の循環ニューラルネットワーク、および第1の行為決定モデルなど、対話システムで使用されるモデルの一部のみが、最適化およびトレーニングされ得る。
このモデル最適化トレーニングの後、第1の意図認識モデル、第1の循環ニューラルネットワーク、第1の名前付きエンティティ認識モデル、および第1の行為決定モデルに対して、第2の意図認識モデル、第2の循環ニューラルネットワーク、第2の名前付きエンティティ認識モデル、および第2の行為決定モデルを順次に得る。さらに、次のモデル最適化トレーニングの後、第2の意図認識モデル、第2の循環ニューラルネットワーク、第2の名前付きエンティティ認識モデル、および第2の行為決定モデルに対して、第3の意図認識モデル、第3の循環ニューラルネットワーク、第3の名前付きエンティティ認識モデル、および第3の行為決定モデルを順次に得る。逐次類推して上記の操作を繰り返すことにより、第Nの意図認識モデル、第Nの循環ニューラルネットワーク、第Nの名前付きエンティティ認識モデル、および第Nの行為決定モデルを得ることができる。
さらに、選択的な実施例として、この方法は、
第1の意図認識モデルに対して最適化トレーニングを実行する場合、第1の意図認識モデルの完全接続層に対して最適化トレーニングを実行することと、
第1の行為決定モデルに対して最適化トレーニングを実行する場合、第1の行為決定モデルの完全接続層に対して最適化トレーニングを実行することと、のうちの少なくとも1つをさらに含み得る。
本開示の実施例では、第1の意図認識モデルの完全接続層に対して最適化トレーニングを実行する、すなわち、最適化トレーニングプロセス中に、パラメータを調整するようにこのモデルの完全接続層のみを制御し、他の層のパラメーターは変更されないように制御される。完全接続レイヤーに対して最適化トレーニングを実行することにより、意図特徴に対するモデルの認識を最適化できる。
同様に、本開示の実施例では、第1の行為決定モデルの完全接続層に対して最適化トレーニングを実行する、すなわち、最適化トレーニングプロセス中に、パラメータを調整するようにこのモデルの完全接続層のみを制御し、他の層のパラメーターは変更されないように制御される。完全接続レイヤーに対して最適化トレーニングを実行することにより、機械行為特徴に対するモデルの認識を最適化できる。
選択的な実施例として、対話情報に基づいて、第1の意図認識モデル、第1の循環ニューラルネットワーク、および第1の名前付きエンティティ認識モデルを使用して対応する予測情報を取得することは、
対話情報に基づいて、第1の意図認識モデルを使用して、ユーザの意図の確率分布を取得することと、
対話情報に基づいて、第1の循環ニューラルネットワークを使用して、対話状態の確率分布を取得することと、
対話情報に基づいて、第1の名前付きエンティティ認識モデルを使用して、対応するエンティティベクトルを取得することと、のうちの少なくとも1つを含む。
なお、本開示の実施例を実現する過程において、本発明者は、従来技術において、対話システムが、ユーザ言語理解、対話ステータス更新、およびシステムフィードバックという3つのモジュールに分割され、前のモジュールで発生した誤差は後のモジュールで累積され、最終結果を悪化させることを発見した。例えば、ユーザ言語理解モジュールを介してエンティティおよび意図認識を実行する時に出現する誤差は、直接的に結果全体の誤差を招来しており、後続の対話ステータス更新モジュールおよびシステムフィードバックモジュールには、この誤差を修正することができない。これは、従来技術のユーザ言語理解モジュールが出力するものがユーザの意図であり、対話状態更新モデルが出力するものが対話状態であり、システムフィードバックが出力するものが機械が実行すべき機械行為であるためである。
これに対し、本開示の実施例は、第1の意図認識モデルを使用することによってユーザの意図の確率分布を取得するので、ユーザの意図の誤差の蓄積はない。同様に、本開示の実施例は、第1の循環ニューラルネットワークを使用することによって対話状態の確率分布を取得するので、対話状態の誤差の蓄積はない。同様に、本開示の実施例は、第1の名前付きエンティティ認識モデルを使用することによってエンティティベクトルを取得するので、エンティティ認識における誤差の蓄積はない。
同様に、選択的な実施例として、例えば、前述の予測情報に基づいて第1の行為決定モデルを使用して対応する機械行為情報を取得することは、例えば前述の予測情報に基づいて第1の行為決定モデルを使用して対応する機械行為情報の確率分布を取得することを含み得る。これにより、機械行為決定の誤差の蓄積がない。
例示的に、図3は、本開示の実施例によるモデルトレーニングの概略図を例示的に示している。図3に示すように、まず、ユーザの履歴対話データに基づいてオフライントレーニングを行い、初期データモデルを取得し、次に、オフライントレーニングで得られた初期データモデルに対して、リアルタイムで取得したオンライン対話データに基づいてオンラインでモデルトレーニングを実行することができる。
図3に示すように、時間t-1にユーザが入力した対話の内容については、NER304’(予め定義された名前付きエンティティ認識モデル、Named Entity Recognition)を介してエンティティ認識を実行し、対応するエンティティ情報を取得してエンティティデータベースに保存できる。さらに、テンプレートマッチングとキーワードマッチングなどによって、この対話コンテンツにおけるユーザセマンティクスに関連するいくつかのキーエンティティ情報を識別してもよい。さらに、これらのキーエンティティ情報は、エンコーダ301’によって符号化されて、対応する符号化ベクトルを取得し、ut-1として示されることができる。なお、本開示の実施例では、エンコーダ301’は、前トレーニングモデル(BERT(Bidirectional Encoder Representation from transformers)モデル、すなわち、予めトレーニングされた言語表現モデルなど)、畳み込みニューラルネットワークCNN(Convolutional Neural Networks)、長短期記憶ネットワークLSTM(Long short-term Memory)などいずれか1つであり得る。
さらに、前述の符号化ベクトルut-1を、ユーザ意図認識モデルの完全接続層302’に入力することができ、次に、この層の出力結果をユーザ意図認識モデルのsoft max層303’に入力し、ユーザ意図の確率分布結果lt-1を出力する。さらに、soft max層303’の出力結果、すなわち、実際の予測結果と期待される予測結果に対して、クロスエントロピー計算を実行し、得られたクロスエントロピーは、損失関数(すなわち、loss関数)としてモデルの教師ありトレーニングに使用される。これにより、初期データモデル(下記の(2)のBERTモデル、下記の(3)の完全接続層など)を取得する。さらに、初期データモデルをオンラインで公開して使用できる。
また、前述の符号化ベクトルut-1をGRU(Gated Recurrent Unit、循環ゲートユニット)モデル305’に入力して、時刻t-1の対話状態を表す状態ベクトルを出力し、st-1として示されることができる。
また、図3に示すように、時間tにおけるユーザの入力に対して強化学習トレーニングを実行し、処理フローは次のようになる。
(1)対応するエンティティ情報を取得して、エンティティデータベースを更新するように、NER304によってエンティティ認識を実行することができる。
(2)対話コンテンツにおけるユーザセマンティクスに関連するいくつかのキーエンティティ情報は、テンプレートマッチングとキーワードマッチングなどによって識別できる。さらに、これらのキーエンティティ情報は、エンコーダ301によって符号化されて、対応する符号化ベクトルを取得し、uとして示されることができる。なお、本開示の実施例では、エンコーダ301は、前トレーニングモデル(BERTモデルなど)、畳み込みニューラルネットワークCNN、長短期記憶ネットワークLSTMのうちのいずれか1つであり得る。
(3)符号化ベクトルuを初期意図認識モデルの完全接続層302に入力することができ、次にこの層の出力結果を初期意図認識モデルのsoft max層303に入力してユーザ意図の確率分布結果lを得る。なお、ここで、soft max層303の出力結果、すなわち、実際の予測結果と期待される予測結果に対して、クロスエントロピー計算を実行することができ、得られたクロスエントロピーを損失関数(つまり、loss関数)としてモデルの教師ありトレーニングに使用することができる。
(4)GRUモデル305を用いて(2)の符号化ベクトルuを計算し、時刻tにおける対話状態を表す状態ベクトルsを出力する。
(5)(1)で識別されたエンティティ情報に対してone-hotコーディングを実行する。これにより、エンティティ情報をエンティティベクトルとして表し、eで示される。
(6)e、s、lに対してconcatenate操作(接続操作)を実行し、接続ベクトルを取得し、hで示される。
(7)接続ベクトルhを初期行為決定モデルの完全接続層に入力し、この層の出力結果を初期行為決定モデルのsoft max層に入力して、最終的な機械行為の確率分布aを取得する。
なお、この機械行為の確率分布aは、ユーザがヒューマンマシンインタラクションを行う端末装置に送信され、これにより、この端末装置はこの確率分布aに基づいて対応する機械行為を行うことができる。
(8)また、機械による機械行為については、対話が停止したときに、ユーザが期待される対話の目標が完了したと考える場合、例えば、ボーナスrを10に設定できる。対話が停止したときに、ユーザがいずれかの目標が完了していないと考える場合、例えば、ボーナスrを-10に設定できる。また、対話が停止したときに、ユーザが引き続き質問する場合、ボーナスを-1にリセットでき、これにより、ユーザからの質問の回数をできるだけ減らすことができる。
(9)(h、a、r)をトレーニングデータベースに保存する。
(10)トレーニングデータベース内のトレーニングデータが一定量に達することに応答して、トレーニングデータベースからいくつかのトレーニングデータをランダムに選択でき、強化学習のreinforcementアルゴリズムを使用して(2)のBERTモデル、ステップ(4)のGRUモデル、(3)および(7)の完全接続層に対して逆勾配更新を実行する(つまり、バックプロパゲーションおよび勾配降下法を使用して更新する)。
(11)オンラインのモデルを強化学習トレーニングされたモデルに更新する。
なお、(9)~(11)の過程を繰り返すことにより、オンライン強化学習トレーニングを複数回実施することができる。
本開示の実施例によって、ユーザ意図、エンティティ情報、および状態情報を、ともにトレーニングデータとして、モデルのトレーニングおよび予測を実行し、ユーザ意図またはエンティティ情報の認識部分に偏差があっても、モデルの予測中に完全な確率分布を取得できるため、単一のユーザの意図または単一のエンティティへの依存を減らし、対話システム全体に対する単一のモジュールの影響をさらに減らする。
本開示の実施例によれば、本開示は、モデルトレーニング装置をさらに提供する。
図4は、本開示の実施例によるモデルトレーニング装置のブロック図を例示的に示している。
図4に示すように、この装置400は、第1の取得モジュール410、第1の予測モジュール420、第2の予測モジュール430、第2の取得モジュール440、記憶モジュール450、および最適化トレーニングモジュール460を含み得る。
第1の取得モジュール410は、ヒューマンマシンインタラクションプロセスにユーザによって入力された対話情報を取得する。
第1の予測モジュール420は、対話情報に基づいて、第1の意図認識モデル、第1の循環ニューラルネットワーク、および第1の名前付きエンティティ認識モデルを使用して、対応する予測情報を取得する。ここで、予測情報は、ユーザ意図情報、対話ステータス情報およびエンティティ情報を含む。
第2の予測モジュール430は、機械がヒューマンマシンインタラクションに機械行為情報に基づいて対応する機械行為を行うように、予測情報に基づいて、第1の行為決定モデルを使用して対応する機械行為情報を取得する。
第2の取得モジュール440は、機械行為に関してユーザによって入力されたフィードバック情報を取得する。
記憶モジュール450は、予測情報、機械行為情報、およびフィードバック情報のうちの少なくとも1つをトレーニングデータとしてデータベースに格納する。
最適化トレーニングモジュール460は、データベース内のトレーニングデータが予め設定されたデータ量に達したことに応答して、データベース内のトレーニングデータに基づいて、強化学習アルゴリズムを使用してオンラインでモデル最適化トレーニングを実行する。
選択的な実施例として、最適化トレーニングモジュールは、データベースからトレーニングデータをランダムに選択するための選択ユニットと、ランダムに選択されたトレーニングデータに基づいて強化学習アルゴリズムを使用してオンラインでモデル最適化トレーニングを実行する第1の最適化トレーニングユニットとを含む。
選択的な実施例として、最適化トレーニングモジュールは、さらに、データベース内のトレーニングデータに基づいて、強化学習アルゴリズムを使用して、オンラインで第1の意図認識モデル、第1の循環ニューラルネットワーク、第1の名前付きエンティティ認識モデル及び第1の行為決定モデル中の少なくとも1つに対してモデル最適化トレーニングを実行する。
選択的な実施例として、最適化トレーニングモデルは、第1の意図認識モデルが最適化トレーニングされる場合に第1の意図認識モデルの完全接続層に対して最適化トレーニングを実行するための第2の最適化トレーニングユニットと、第1の行為決定モデルが最適化トレーニングされる場合に第1の行為決定モデルの完全接続層に対して最適化トレーニングを実行するための第3の最適化トレーニングユニットとのうちの少なくとも1つを含む。
選択的な実施例として、第1の予測モジュールは、対話情報に基づいて、第1の意図認識モデルを使用してユーザ意図の確率分布を取得するための第1の予測ユニットと、対話情報に基づいて、第1の循環ニューラルネットワークを使用して対話状態の確率分布を取得するための第2の予測ユニットと、対話情報に基づいて、第1の名前付きエンティティ認識を使用して、対応するエンティティベクトルを取得するための第3の予測ユニットとのうちの少なくとも1つを含む。
選択的な実施例として、第2の予測モジュールは、さらに、予測情報に基づいて、第1の行為決定モデルを使用して、対応する機械行為の確率分布を取得する。
なお、本開示の装置実施例は、本開示の方法実施例と同一または類似しており、装置実施例の説明については、方法実施例を参照することができ、ここでは繰り返さない。
本開示の一実施例によれば、本開示は、また、電子デバイス、読み取り可能な記憶媒体、およびコンピュータプログラム製品を提供する。
図5は、本開示の実施例を実施するための例示的な電子デバイス500の概略ブロック図を示す。電子デバイスは、ラップトップコンピューター、デスクトップコンピューター、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピューター、その他の適切なコンピューターなど、各種形式のデジタルコンピューターを表すことを目的としている。電子デバイスは、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、およびその他の同様のコンピューティングデバイスなどのさまざまな形式のモバイルデバイスを表すこともできる。本明細書に示される部品、それらの接続および関係、ならびにそれらの機能は単なる例であり、本明細書に記載および/または要求される本開示の実施を制限することを意図するものではない。
図5に示されるように、電子デバイス500は、読み取り専用メモリ(ROM)502に格納されたコンピュータプログラム、または記憶ユニット508からランダムアクセスメモリ(RAM)503にロードされたコンピュータプログラムに基づいて各種の適切な作動と処理を実行するためのプログラムコンピューティングユニット501を含む。RAM503には、電子デバイス500の操作に必要な様々なプログラムやデータを格納することもできる。コンピューティングユニット501、ROM 502、およびRAM 503は、バス504を介して互いに接続されている。入出力(I/O)インターフェース505もバス504に接続されている。
電子デバイス500の複数の構成要素は、I/Oインターフェース505に接続されており、これには、キーボード、マウスなどの入力ユニット506、様々なタイプのディスプレイ、スピーカーなどの出力ユニット507、磁気ディスク、光ディスクなどの記憶ユニット508、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット509が含まれる。通信ユニット509は、デバイス500が、インターネットのコンピュータネットワークおよび/または様々な電気通信ネットワークなどを介して他のデバイスと情報/データを交換することを可能にする。
コンピューティングユニット501は、処理およびコンピューティング機能を備えた様々な汎用および/または専用の処理コンポーネントであり得る。コンピューティングユニット501のいくつかの例には、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)コンピューティングチップ、デバイス学習モデルアルゴリズムを実行する様々なコンピューティングユニット、デジタル信号プロセッサDSP、および適切なプロセッサ、コントローラ、マイクロコンピュータなどが含まれるが、これらに限定されない。コンピューティングユニット501は、例えばモデルトレーニング方法などの上記の様々な方法およびプロセスを実行する。例えば、いくつかの実施例では、モデルトレーニング方法は、例えば記憶ユニット508の機械読み取り可能な媒体に具体的に含まれるコンピュータソフトウェアプログラムとして実現され得る。いくつかの実施例では、コンピュータプログラムの一部または全部は、ROM502および/または通信ユニット509を介してデバイス500にロードおよび/またはインストールされ得る。コンピュータプログラムがRAM503にロードされ、コンピューティングユニット501によって実行されるとき、上記のモデルトレーニング方法の1つまたは複数のステップを実行することができる。代替的に、他の実施例では、コンピューティングユニット501は、他の任意の適切な方法で(例えば、ファームウェアによって)モデルトレーニング方法を実行するように配置され得る。
本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、専用標準製品(ASSP)、システムオンチップ(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現することができる。これらの様々な実施形態は、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行および/または解釈される1つまたは複数のコンピュータプログラムに実施されることを含み得る。当該プログラム可能なプロセッサは、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令をこのストレージシステム、少なくとも1つの出力デバイス及び少なくとも1つの入力デバイスに送信することができる専用または一般的なプログラマブルプロセッサであり得る。
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語の任意の組み合わせで書くことができる。プログラムコードがプロセッサまたはコントローラによって実行されると、フローチャート及び/又はブロック図で所定された機能及び/又は操作が実施されるように、これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、またはその他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供できる。プログラムコードは、完全に機械で実行するか、一部を機械で実行するか、独立したソフトウェアパッケージとして一部を機械で実行し、一部をリモート機械で実行するか、または完全にリモート機械またはサーバで実行することができる。
本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用、或いは命令実行システム、装置、またはデバイスと組み合わせて使用するプログラムを含むまたは格納することができる有形媒体であり得る。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であり得る。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置、またはデバイス、或いは前述の任意の適切な組み合わせを含み得るが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例には、1つまたは複数のワイヤによる電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラム可能読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光ストレージデバイス、磁気ストレージデバイス、または前述の任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、ここで説明するシステムおよび技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニター))、及びユーザがコンピューターに入力を提供できるキーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)を備えたコンピューターに実施することができる。他のタイプの装置は、ユーザとのインタラクションを提供することに用いられる。例えば、ユーザに提供されるフィードバックは、任意の形式の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であり、任意の形式(音響入力、音声入力、または触覚入力を含む)を用いてユーザからの入力を受信する。
本明細書に記載のシステムおよび技術は、バックエンド部品を含むコンピューティングシステム(例えば、データサーバとして)、またはミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、またはフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェイス又はWebブラウザーを備えたユーザコンピューターであり、ユーザがこのグラフィカルユーザインターフェイス又はこのWebブラウザーによりここで説明するシステムとテクノロジーの実施形態とインタラクションすることができる)、またはそのようなバックグラウンド部品を含む、ミドルウェア部品、またはフロントエンド部品の任意組み合わせのコンピューティングシステム内に実施させる。システムの部品は、デジタルデータ通信の任意の形式または媒体(例えば、通信ネットワーク)を介して相互に接続できる。通信ネットワークの例には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、およびインターネットが含まれる。
コンピュータシステムには、クライアントとサーバを含めることができる。クライアントとサーバは通常、互いに遠く離れており、通常は通信ネットワークを介してインタラクションする。クライアントとサーバの関係は、相応的なコンピューター上で実行され、相互にクライアント-サーバ関係を持つコンピュータープログラムによって生成される。
上記の各種の形式のプロセス、再並べ替え、追加、または削除のステップを使用することができると理解すべきである。例えば、本出願に記載されている各ステップは、並行して、順次に、または異なる順序で実行することができるが、本出願に開示されている技術案の所望の結果が達成できる限り、本明細書にはこれに限定されない。
上記の具体的な実施形態は、本出願の保護範囲を制限するものを構成していない。当業者は、様々な修正、組み合わせ、サブ組み合わせおよび置換が、設計要件および他の要因に従って行うことができることを理解すべきである。本出願の精神と原則の範囲内で行われた変更、同等の交換、および改善は、本開示の保護範囲に含まれるべきである。

Claims (13)

  1. ヒューマンマシンインタラクションプロセス中にユーザによって入力された対話情報を取得することと、
    前記対話情報に基づいて、第1の意図認識モデル、第1の循環ニューラルネットワークおよび第1の名前付きエンティティ認識モデルを使用して、ユーザ意図情報、対話状態情報、およびエンティティ情報を含む対応する予測情報を取得することと、
    機械がヒューマンマシンインタラクションプロセスに機械行為情報に基づいて対応する機械行為を行うように、前記予測情報に基づいて、第1の行為決定モデルを使用して、対応する前記機械行為情報を取得することと、
    ユーザが前記機械行為に対して入力されたフィードバック情報を取得することと、
    前記予測情報、前記機械行為情報および前記フィードバック情報のうちの少なくとも1つをトレーニングデータとしてデータベースに格納することと、
    前記データベース内のトレーニングデータが予め設定されたデータ量に達することに応答して、前記データベース内のトレーニングデータに基づいて、強化学習アルゴリズムを使用してオンラインでモデル最適化トレーニングを実行することと、を含み、
    前記予測情報に基づいて第1の行為決定モデルを使用して対応する機械行為情報を取得することは、
    記予測情報に基づいて前記第1の行為決定モデルを使用して対応する機械行為の確率分布を取得することを含む
    モデルトレーニング方法。
  2. 前記データベース内のトレーニングデータに基づいて、強化学習アルゴリズムを使用してオンラインでモデル最適化トレーニングを実行することは、
    前記データベースからトレーニングデータをランダムに選択することと、
    ランダムに選択されたトレーニングデータに基づいて、強化学習アルゴリズムを使用してオンラインでモデル最適化トレーニングを実行することと、を含む
    請求項1に記載の方法。
  3. 前記データベース内のトレーニングデータに基づいて、強化学習アルゴリズムを使用してオンラインでモデル最適化トレーニングを実行することは、
    前記データベースのトレーニングデータに基づき、強化学習アルゴリズムを使用して、前記第1の意図認識モデル、前記第1の循環ニューラルネットワーク、前記第1の名前付きエンティティ認識モデル、および前記第1の行為決定モデルの少なくとも1つのモデルに対してオンラインでモデル最適化トレーニングを実行する
    請求項1に記載の方法。
  4. 前記第1の意図認識モデルに対して最適化トレーニングを実行する場合、前記第1の意図認識モデルの完全接続層に対して最適化トレーニングを実行することと、
    前記第1の行為決定モデルに対して最適化トレーニングを実行する場合、前記第1の行為決定モデルの完全接続層に対して最適化トレーニングを実行することと、のうちの少なくとも1つをさらに含む
    請求項3に記載の方法。
  5. 前記対話情報に基づいて、第1の意図認識モデル、第1の循環ニューラルネットワークおよび第1の名前付きエンティティ認識モデルを使用して対応する予測情報を取得することは、
    前記対話情報に基づいて、前記第1の意図認識モデルを使用して、ユーザの意図の確率分布を取得することと、
    前記対話情報に基づいて、前記第1の循環ニューラルネットワークを使用して、対話状態の確率分布を取得することと、
    前記対話情報に基づいて、前記第1の名前付きエンティティ認識モデルを使用して、対応するエンティティベクトルを取得することと、のうちの少なくとも1つを含む
    請求項1に記載の方法。
  6. ヒューマンマシンインタラクションプロセス中にユーザによって入力された対話情報を取得する第1の取得モジュールと、
    前記対話情報に基づいて、第1の意図認識モデル、第1の循環ニューラルネットワークおよび第1の名前付きエンティティ認識モデルを使用して、ユーザ意図情報、対話状態情報、およびエンティティ情報を含む対応する予測情報を取得する第1の予測モジュールと、
    機械がヒューマンマシンインタラクションプロセスに機械行為情報に基づいて対応する機械行為を行うように、前記予測情報に基づいて、第1の行為決定モデルを使用して、対応する前記機械行為情報を取得する第2の予測モジュールと、
    ユーザが前記機械行為に対して入力されたフィードバック情報を取得する第2の取得モジュールと、
    前記予測情報、前記機械行為情報および前記フィードバック情報のうちの少なくとも1つをトレーニングデータとしてデータベースに格納する記憶モジュールと、
    前記データベース内のトレーニングデータが予め設定されたデータ量に達することに応答して、前記データベース内のトレーニングデータに基づいて、強化学習アルゴリズムを使用してオンラインでモデル最適化トレーニングを実行する最適化トレーニングモジュールと、を含み、
    前記第2の予測モジュールは
    記予測情報に基づいて前記第1の行為決定モデルを使用して対応する機械行為の確率分布を取得する
    モデルトレーニング装置。
  7. 前記最適化トレーニングモジュールは、
    前記データベースからトレーニングデータをランダムに選択する選択ユニットと、
    ランダムに選択されたトレーニングデータに基づいて、強化学習アルゴリズムを使用してオンラインでモデル最適化トレーニングを実行する第1の最適化トレーニングユニットと、を含む
    請求項6に記載の装置。
  8. 前記最適化トレーニングモジュールは、
    前記データベースのトレーニングデータに基づき、強化学習アルゴリズムを使用して、前記第1の意図認識モデル、前記第1の循環ニューラルネットワーク、前記第1の名前付きエンティティ認識モデルおよび前記第1の行為決定モデルの少なくとも1つのモデルに対してオンラインでモデル最適化トレーニングを実行することに用いられる
    請求項6に記載の装置。
  9. 前記最適化トレーニングモジュールは、
    前記第1の意図認識モデルに対して最適化トレーニングを実行する場合、前記第1の意図認識モデルの完全接続層に対して最適化トレーニングを実行する第2の最適化トレーニングユニットと、
    前記第1の行為決定モデルに対して最適化トレーニングを実行する場合、前記第1の行為決定モデルの完全接続層に対して最適化トレーニングを実行する第3の最適化トレーニングユニットと、のうちの少なくとも1つを含む
    請求項8に記載の装置。
  10. 前記第1の予測モジュールは、
    前記対話情報に基づいて、前記第1の意図認識モデルを使用して、ユーザの意図の確率分布を取得する第1の予測ユニットと、
    前記対話情報に基づいて、前記第1の循環ニューラルネットワークを使用して、対話状態の確率分布を取得する第2の予測ユニットと、
    前記対話情報に基づいて、前記第1の名前付きエンティティ認識モデルを使用して、対応するエンティティベクトルを取得する第3の予測ユニットと、のうちの少なくとも1つを含む
    請求項6に記載の装置。
  11. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを含み、
    前記メモリは、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~5のいずれか一項に記載の方法を実行させる前記少なくとも1つのプロセッサが実行される命令を記憶する
    電子デバイス。
  12. コンピュータに請求項1~5のいずれか一項に記載の方法を実行させるコンピュータ命令を記憶する
    非一時的なコンピュータ読み取り可能な記憶媒体。
  13. プロセッサによって実行される際に、請求項1~5のいずれか一項に記載の方法を実現するコンピュータプログラム。
JP2021104044A 2020-12-25 2021-06-23 モデルトレーニング方法、装置、電子デバイス、記憶媒体、プログラム Active JP7273108B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011573205.0A CN112579758B (zh) 2020-12-25 2020-12-25 模型训练方法、装置、设备、存储介质和程序产品
CN202011573205.0 2020-12-25

Publications (2)

Publication Number Publication Date
JP2021152961A JP2021152961A (ja) 2021-09-30
JP7273108B2 true JP7273108B2 (ja) 2023-05-12

Family

ID=75140115

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021104044A Active JP7273108B2 (ja) 2020-12-25 2021-06-23 モデルトレーニング方法、装置、電子デバイス、記憶媒体、プログラム

Country Status (4)

Country Link
US (1) US20220114343A1 (ja)
EP (1) EP4020326A1 (ja)
JP (1) JP7273108B2 (ja)
CN (1) CN112579758B (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255769B (zh) * 2021-05-26 2024-03-29 北京百度网讯科技有限公司 化合物属性预测模型训练方法和化合物属性预测方法
CN113360618B (zh) * 2021-06-07 2022-03-11 暨南大学 一种基于离线强化学习的智能机器人对话方法及系统
CN113553413A (zh) * 2021-06-30 2021-10-26 北京百度网讯科技有限公司 对话状态的生成方法、装置、电子设备和存储介质
CN114661899A (zh) * 2022-02-15 2022-06-24 北京结慧科技有限公司 一种任务创建方法、装置、计算机设备和存储介质
CN114580543B (zh) * 2022-03-07 2023-09-29 北京百度网讯科技有限公司 模型训练方法、交互日志解析方法、装置、设备及介质
CN114841338B (zh) * 2022-04-06 2023-08-18 北京百度网讯科技有限公司 训练模型参数的方法、决策确定方法、装置及电子设备
CN114912537B (zh) * 2022-05-26 2024-08-02 中国平安人寿保险股份有限公司 模型训练方法和装置、行为预测方法和装置、设备、介质
CN114969290A (zh) * 2022-05-31 2022-08-30 中国电信股份有限公司 对话信息处理方法、装置、电子设备及存储介质
CN115169549B (zh) 2022-06-24 2023-08-22 北京百度网讯科技有限公司 人工智能模型更新方法、装置、电子设备及存储介质
CN116029379B (zh) * 2022-12-31 2024-01-02 中国电子科技集团公司信息科学研究院 空中目标意图识别模型构建方法
CN116186644B (zh) * 2023-02-17 2024-04-19 飞算数智科技(深圳)有限公司 人机交互开发方法、装置、存储介质及电子设备
CN115964115B (zh) * 2023-03-17 2023-06-02 中科航迈数控软件(深圳)有限公司 基于预训练强化学习的数控机床交互方法及相关设备
CN116468071B (zh) * 2023-04-24 2024-04-05 北京百度网讯科技有限公司 模型训练方法、装置、设备及存储介质
CN116759077A (zh) * 2023-08-18 2023-09-15 北方健康医疗大数据科技有限公司 一种基于智能体的医疗对话意图识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015528956A (ja) 2012-07-20 2015-10-01 ベベオ, インコーポレイテッド 会話型相互作用システムの検索入力におけるユーザ意図を推定する方法およびそのためのシステム
JP2019164626A (ja) 2018-03-20 2019-09-26 日本電気株式会社 障害物認識支援装置、障害物認識支援方法、プログラム
WO2020105302A1 (ja) 2018-11-22 2020-05-28 ソニー株式会社 応答生成装置、応答生成方法及び応答生成プログラム
JP2020140210A (ja) 2019-02-28 2020-09-03 ネイバー コーポレーションNAVER Corporation 会話システムにおいて意図が不明確なクエリを処理する方法およびシステム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009025538A (ja) * 2007-07-19 2009-02-05 Nissan Motor Co Ltd 音声対話装置
US10884503B2 (en) * 2015-12-07 2021-01-05 Sri International VPA with integrated object recognition and facial expression recognition
US10176800B2 (en) * 2017-02-10 2019-01-08 International Business Machines Corporation Procedure dialogs using reinforcement learning
JP6805112B2 (ja) * 2017-11-08 2020-12-23 株式会社東芝 対話システム、対話方法および対話プログラム
CN108363690A (zh) * 2018-02-08 2018-08-03 北京十三科技有限公司 基于神经网络的对话语义意图预测方法及学习训练方法
US11397888B2 (en) * 2018-06-14 2022-07-26 Accenture Global Solutions Limited Virtual agent with a dialogue management system and method of training a dialogue management system
CN110046221B (zh) * 2019-03-01 2023-12-22 平安科技(深圳)有限公司 一种机器对话方法、装置、计算机设备及存储介质
CN110211573A (zh) * 2019-05-28 2019-09-06 重庆邮电大学 一种基于神经网络模型的任务驱动型对话决策方法
CN110321418B (zh) * 2019-06-06 2021-06-15 华中师范大学 一种基于深度学习的领域、意图识别和槽填充方法
CN110554774B (zh) * 2019-07-22 2022-11-04 济南大学 一种面向ar的导航式交互范式系统
CN110390108B (zh) * 2019-07-29 2023-11-21 中国工商银行股份有限公司 基于深度强化学习的任务型交互方法和系统
CN110796495A (zh) * 2019-10-31 2020-02-14 北京明略软件系统有限公司 一种实现信息处理的方法、装置、计算机存储介质及终端
CN114625878A (zh) * 2022-03-22 2022-06-14 中国平安人寿保险股份有限公司 意图识别方法、交互系统及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015528956A (ja) 2012-07-20 2015-10-01 ベベオ, インコーポレイテッド 会話型相互作用システムの検索入力におけるユーザ意図を推定する方法およびそのためのシステム
JP2019164626A (ja) 2018-03-20 2019-09-26 日本電気株式会社 障害物認識支援装置、障害物認識支援方法、プログラム
WO2020105302A1 (ja) 2018-11-22 2020-05-28 ソニー株式会社 応答生成装置、応答生成方法及び応答生成プログラム
JP2020140210A (ja) 2019-02-28 2020-09-03 ネイバー コーポレーションNAVER Corporation 会話システムにおいて意図が不明確なクエリを処理する方法およびシステム

Also Published As

Publication number Publication date
CN112579758A (zh) 2021-03-30
EP4020326A1 (en) 2022-06-29
US20220114343A1 (en) 2022-04-14
JP2021152961A (ja) 2021-09-30
CN112579758B (zh) 2024-08-09

Similar Documents

Publication Publication Date Title
JP7273108B2 (ja) モデルトレーニング方法、装置、電子デバイス、記憶媒体、プログラム
EP3568852B1 (en) Training and/or using an encoder model to determine responsive action(s) for natural language input
CN110852438B (zh) 模型生成方法和装置
JP6789303B2 (ja) ニューラルネットワークを用いたテキストセグメントの係り受け解析の生成
US20230048031A1 (en) Data processing method and apparatus
US11227581B2 (en) Systems and methods for generating a response based on task-independent conversational responses or task-specific responses
CN113361285B (zh) 自然语言处理模型的训练方法、自然语言处理方法及装置
JP7079311B2 (ja) 機械読解モデルのトレーニング方法、装置、電子機器及び記憶媒体
KR20210029785A (ko) 활성화 희소화를 포함하는 신경 네트워크 가속 및 임베딩 압축 시스템 및 방법
CN110766142A (zh) 模型生成方法和装置
CN111386537A (zh) 基于注意力的仅解码器的序列转换神经网络
US20230196202A1 (en) System and method for automatic building of learning machines using learning machines
US20200134471A1 (en) Method for Generating Neural Network and Electronic Device
JP2021106016A (ja) 対話生成方法、装置、電子機器及び媒体
CN115552417A (zh) 具有稀疏注意力机制的注意力神经网络
JP2023062080A (ja) アミノ酸における原子座標の決定、トレーニング方法、装置、機器及び媒体
CN114202076A (zh) 深度学习模型的训练方法、自然语言处理方法和装置
CN114492759A (zh) 稀疏注意力神经网络
CN113961679A (zh) 智能问答的处理方法、系统、电子设备及存储介质
CN114358257A (zh) 神经网络剪枝方法及装置、可读介质和电子设备
CN111667069A (zh) 预训练模型压缩方法、装置和电子设备
CN114528387A (zh) 基于对话流自举的深度学习对话策略模型构建方法和系统
CN116842155B (zh) 文本生成方法、文本生成模型的训练方法及装置
JP7462206B2 (ja) 学習装置、学習方法、及び学習プログラム
CN113361712B (zh) 特征确定模型的训练方法、语义分析方法、装置及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210623

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230427

R150 Certificate of patent or registration of utility model

Ref document number: 7273108

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150