JP2022097396A

JP2022097396A - 対話理解モデルの訓練方法、装置、デバイス及び記憶媒体

Info

Publication number: JP2022097396A
Application number: JP2021193599A
Authority: JP
Inventors: ワン、シュオフアン; Shuohuan Wang; パン、チャオ; Chao Pang; スン、ユ; Yu Sun
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-18
Filing date: 2021-11-29
Publication date: 2022-06-30
Anticipated expiration: 2041-11-29
Also published as: CN112507099B; US20220198327A1; CN112507099A; JP7283009B2

Abstract

【課題】自然言語処理、ディープラーニング等の人工知能技術分野に係る対話理解モデルの訓練方法、装置、デバイス、記憶媒体及びプログラム製品を提供する。【解決手段】対話理解モデルの訓練方法は、対話理解訓練データを取得するステップ１０１と、対話理解訓練データを用いて、対話理解事前訓練タスクと汎用事前訓練タスクとの共同訓練を行って、対話理解モデルを得るステップ１０２と、を含む。【選択図】図１

Description

本開示は、コンピュータ技術分野に関し、具体的に自然言語処理、ディープラーニングなどの人工知能の技術分野に関し、特に対話理解モデルの訓練方法、装置、デバイス及び記憶媒体に関する。

自然言語処理（Natural Language Processing、NLP）は、コンピュータ科学、人工知能（Artificial Intelligence、AI）、言語学に関わるクロスオーバー技術で、言語翻訳や質問応答などのタスクを実行するためにコンピュータに自然言語を処理させたり「理解」させたりすることを目的としている。音声インターフェースやチャットボットの台頭により、NLPは情報時代の最も重要な技術の1つとなり、人工知能の重要な構成要素となっている。

自然言語理解（Natural Language Understanding、NLU）はNLPの重要な構成要素であり、NLUの核心の任務は自然言語を機械処理可能な形式化言語に変換し、自然言語とリソース及びサービスとの接続を確立することである。NLUは、インテント（intent）分類とスロット（slot）マーキングの2つのタスクに分解することができる。NLUは一般に、事前訓練されたセマンティック理解モデルに基づいてインテント分類とスロットマーキングを実現する。

関連技術において採用されるセマンティック理解モデルは、一般に、汎用訓練データを用いて汎用事前訓練タスクに基づいて得られる汎用セマンティック理解モデルである。

本開示は、対話理解モデルの訓練方法、装置、デバイス、記憶媒体、及びプログラム製品を提供する。

本開示の一態様によれば、対話理解訓練データを取得し、前記対話理解訓練データを用いて、対話理解事前訓練タスクと汎用事前訓練タスクとの共同訓練を行って対話理解モデルを得ることを含む対話理解モデルの訓練方法を提供する。

本開示の別の態様によれば、対話理解訓練データを取得する第1取得手段と、前記対話理解訓練データを用いて、対話理解事前訓練タスクと汎用事前訓練タスクとの共同訓練を行って対話理解モデルを得る第1訓練手段とを備える対話理解モデルの訓練装置を提供する。

本開示の別の態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに前記態様のいずれか１項に記載された方法を実行させる電子デバイスを提供する。

本開示の別の態様によれば、コンピュータに前記態様のいずれか１項に記載された方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体を提供する。

本開示の別の態様によれば、プロセッサにより実行されると、上記態様のいずれか１項に記載された方法を実施するコンピュータプログラムを含むコンピュータプログラム製品を提供する。

本開示の技術案によれば、対話理解訓練データを採用し、タスク訓練時に対話理解事前訓練タスクの訓練を行うことにより、対話理解タスクに特化したモデルを訓練することができる。

理解すべきなのは、本セクションで説明される内容は、本開示の実施形態の重要な又は肝心な特徴を標識することでもなく、本開示の範囲を制限することでもない。本開示の他の特徴は、以下の明細書により容易に理解されるであろう。

図面は、本技術案をより良く理解するためのものであり、本願に制限されない。
本開示による第1実施形態の概略図である。本開示による第2実施形態の概略図である。本開示による第3実施形態の概略図である。本開示による第4実施形態の概略図である。本開示による第5実施形態の概略図である。本開示による第6実施形態の概略図である。本開示による第7実施形態の概略図である。本開示による第8実施形態の概略図である。本開示による第9実施形態の概略図である。本開示による第10実施形態の概略図である。本開示の実施形態の対話理解モデルの訓練方法、対話理解方法のいずれかを実現するための電子デバイスの概略図である。

以下、図面に基づいて、本出願の例示的な実施例を説明する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

AI技術の急速な発展に伴い、スマートカスタマーサービス、スマートアシスタント、カーナビ、スマートホームなどの多くの製品とアプリが対話型のマンマシンインタラクション方式を導入する試みを始めている。しかし、実際の作業において対話システムの開発は多くの開発者にとって困難な作業である。その中の主要な技術的難点の1つは検索語（Query）理解、すなわち自然言語理解である。Query理解の中心的なタスクは、自然言語を機械処理可能な形式化言語に変換し、自然言語とリソースやサービスとの接続を確立することである。

Query理解の過程は、インテント分類とスロットマーキングに分類される。具体的な形式として、インテント分類とは、あるQueryに対して機械がそのQueryのインテントを与えること、スロットマーキングとは、機械がそのインテントにおいて対応するパラメータ値を与えることである。たとえば、Query=「北京から天津までの乗車券を予約してください」、Query=「北京から天津まで列車で行きたいです」のように、どちらのQueryもユーザが「乗車券を予約したい」ことを表しており、出発地は「北京」、目的地は「天津」である。すなわち、インテント分類は「乗車券を予約する」であり、スロットマーキングは「出発地=北京」と「目的地=天津」を含む。

関連技術では、事前訓練されたセマンティック理解モデルに基づいてインテント分類やスロットマーキングを行うことが可能である。上記のセマンティック理解モデルは、双方向TransformerであるEncoder（Bidirectional Encoder Representations from Transformers，BERT）モデル、知識強化語義表現（Enhanced Representation from kNowledge IntEgration，ERNIE）モデルなどの既存の事前訓練モデルに基づいて実現することができる。BERT、ERNIEを代表とする事前訓練モデルに基づいて、事前訓練（Pre-training）+微調整（Fine-tuning）の方式を採用することにより、NLP技術レベルを大幅に高めることができる。

関連技術では、汎用セマンティック理解モデルは、BERT、ERNIEなどの事前訓練モデルに基づいて実現することもでき、一般的にBERTの[CLS]位置トップレベル表現を使用してドメイン（Domain）又はインテント（Intent）を分類し、その後、各文字の位置を使用して分類してスロット（Slot）マーキングを行う。しかし、汎用セマンティック理解モデルは、汎用的な言語材料（たとえば百科や新聞などのデータ）を用いており、言語材料やモデル構造はもっぱら適合していない。同時にマスク予測タスクなどの汎用事前訓練タスクの目標と対話理解の目標（インテント分類とスロットマーキング）が一致しないことは、事前訓練技術の応用効果を制限し、対話理解の効果を低下させる。

上記の技術が対話理解タスクに適合しなく、対話理解の効果が低いという問題を解決するために、本開示は、対話理解タスクに特化し、対話理解の効果を向上させるために、以下のいくつかの実施形態を提供する。

図1は、本開示に係る第1実施形態の概略図である。本実施形態は、対話理解訓練データを取得する101と、前記対話理解訓練データを用いて、対話理解事前訓練タスクと汎用事前訓練タスクとの共同訓練を行って対話理解モデルを得る102とを含む対話理解モデルの訓練方法を提供する。

101に対応して以下のように説明する。

関連技術では、汎用セマンティック理解モデルは汎用的な言語材料（たとえば百科、ニュースなどのデータ）に基づいて訓練されており、採用されている訓練タスクも汎用的なタスク（たとえばBERTモデルのマスク予測タスク）であるため、対話理解タスクにうまく適合できず、対話理解効果が低下している。

一方、本開示の実施形態では、対話理解タスクに適合したいくつかの対話理解訓練データをもっぱら配置して対話理解タスクに特化したモデルを訓練する。

対話理解事前訓練タスクは、インテント事前訓練タスク、及び/又はスロット事前訓練タスクを含むことができる。対話理解事前訓練タスクの違いにより、出所が異なるの対話理解訓練データを得ることができる。たとえば、インテント事前訓練タスクに対しては、検索エンジンデータに基づいて対話理解訓練データを取得し、スロット事前訓練タスクに対しては、知識マップに基づいて対話理解訓練データを取得することができる。

対話理解訓練データには、言語材料データとラベルデータが含まれてよい。

具体的には、前記対話理解事前訓練タスクにインテント事前訓練タスクが含まれる場合、前記言語材料データに第1検索語が含まれ、前記ラベルデータに前記第1検索語に対応するユーザがクリックしたウェブサイト名が含まれ、及び/又は、前記対話理解事前訓練タスクにスロット事前訓練タスクが含まれる場合、前記言語材料データに第2検索語が含まれ、前記ラベルデータに知識マップにおける前記第2検索語の各文字に対応する上位語が含まれる。

検索エンジンデータとは、検索エンジンに基づいて生成されたデータであり、検索語と、前記検索語に対応するユーザがクリックしたウェブサイト名とを含む。

ユーザが検索語（Query）を検索エンジンに入力し、検索エンジンが例えばウェブサイトリンクなどの検索結果をユーザに返す。ユーザは、検索エンジンから返された検索結果に基づいて自分が必要とする結果を調べ、例えば、調べたいウェブサイトリンクをクリックすることができる。検索エンジンは、1日に億単位のユーザが検索するQueryを生成することができる。これらのQueryは一般に特定のウェブサイトリンクを探すものであり、その言語形態は専有領域のQueryと類似しており、特定のリソースやサービスに対する要求である。Query、特にクライアントのQueryは一般に口語の傾向が激しく、対話理解のための対話理解訓練データとして適している。また、ユーザのクリック行為は強いインテント指向性を持っており、これらQueryのクリック行為に基づいて、弱教師のマーキングデータとすることも可能である。表1は、いくつかのQueryとサイト名との対応関係を示しているため、検索エンジンデータには、例えば表1に示すような検索語とそれに対応するサイト名が含まれる。

したがって、大量の検索エンジンデータを収集した後、TopN（Nは定数、例えば20000）のサイト名を選択し、選択したサイト名に対応する検索語を取得することができる。それに応じて、訓練段階では、対応するインテント事前訓練タスクは、検索語をモデル入力とし、対話理解モデルを用いて検索語に対応するウェブサイト名を予測することを含むことができる。このうち、インテント予測にはCLSビット予測を用いる。インテント事前訓練タスクを訓練することにより、対話理解モデルが事前訓練段階でインテント理解能力を有するようになる。

知識マップ（Knowledge Graph）は図書情報界で知識領域可視化或いは知識領域マッピングマップと呼ばれ、知識発展過程と構造関係を示す一連の各種の異なる図形であり、可視化技術を用いて知識リソース及びそのキャリアを記述し、知識及びそれらの間の相互関係を発掘、分析、構築、作図と表示する。

知識マップはトリプルで多くの知識を格納する。その代表的なトリプル知識の1つが上下関係（isA）であり、これらのデータは単語の上位語を示している。例えばリンゴの上位語は果物で、紅楼夢の上位語は小説、ドラマ、映画などを含む。同じ上位の語は同じカテゴリと考えることができる。上位語の情報は対話理解におけるスロットと強い相関を持つ。例えば「北京」や「上海」の上位語は「場所」である。乗車券を予約するスマートカスタマーサービスの場合、「場所」は「出発地」と「目的地」のスロットになる可能性が高い。天気を調べるスマートスピーカーの場合、「場所」は「都市を調べる」のスロットになる可能性が高い。

したがって、訓練段階において、検索語を取得した後、対応するスロット事前訓練タスクは、検索語をモデル入力として、対話理解モデルを用いて、知識マップにおける検索語の各文字に対応する上位語を予測することを含むことができる。たとえば、検索語の一文字が「北」である場合、知識マップにおいて「北」の下位語が例えば「北京」であり、かつ「北京」の上位語が「場所」であれば、「北」に対応して「場所」というラベルをマーキングすることができる。1つの文字に複数の上位語がある場合は、その文字に対応してすべての上位語をラベルとしてマーキングする。対応するスロット事前訓練タスクは、検索語をモデル入力とし、対話理解モデルを用いて、知識マップにおける検索語の各文字に対応する上位語を予測することを含むことができる。このうち、スロット予測には、複数（対応文字の個数）の二分類予測を用いる。スロット事前訓練タスクを訓練することにより、対話理解モデルが事前訓練段階でスロット解析能力を有するようにする。

理解すべきなのは、区別するために、インテント事前訓練タスクに対応する検索語は第1検索語と呼ばれ、スロット事前訓練タスクに対応する検索語は第2検索語と呼ばれ、第1検索語と第2検索語は同じでも、異なっても良く、すなわち異なる対話理解事前訓練タスクに応じて同じ又は異なる検索語サンプルを採用することができる。もちろん、対話理解前訓練タスクにインテント事前訓練タスクとスロット事前訓練タスクの両方が含まれる場合、複数の対話理解事前訓練タスクを同時に訓練するために、同じ検索語サンプルを入力として用いることが一般的である。

いくつかの実施形態では、検索エンジンデータ及び/又は知識マップに基づいて対話理解訓練データを取得することにより、検索エンジンのユーザ行動及び知識マップの構造化知識に基づいて対話理解モデルの効果を高めることができる。

102に対応して以下に説明する。

現在、モデル訓練の仕事量とコストを下げるために、一般的には既存の事前訓練モデルに基づいて最適化調整を行って自身に必要なモデルを取得し、例えば、事前訓練（pre-training）+微調整（fine-tuning）方式を採用して自身に必要なモデルを取得する。

本開示の実施形態では、既存の事前訓練モデルに基づいてさらに訓練することにより対話理解モデルを得ることもできる。それに応じて、対話理解モデルは、BERTモデル又はERNIEモデルなどのような既存の事前訓練モデル（又は汎用事前訓練モデルと呼ばれる）である汎用事前訓練層を含む。

汎用プリ訓練モデル（又は汎用事前訓練層と呼ばれる）は、例えばBERTモデルのマスク予測タスクなど、独自の汎用事前訓練タスクを持つ。一方、本実施形態では、対話理解タスクを適合させるために、訓練時に、訓練タスクは対話理解事前訓練タスクをさらに含む。そのため、訓練時に、上記の汎用事前訓練タスクと、対話理解タスクに特化した対話理解事前訓練タスクとを含むマルチタスク訓練方式を用いて行う。

いくつかの実施形態では、対話理解訓練データを採用し、タスク訓練時に対話理解事前訓練タスクの訓練を行うことにより、対話理解タスクに特化したモデルを訓練することができる。

説明の便宜上、対話理解訓練データを言語材料データと前記言語材料データに対応するラベルデータに分類する。例えば、前記対話理解事前訓練タスクにインテント事前訓練タスクが含まれる場合、前記言語材料データは第1検索語を含み、前記ラベルデータは前記第1検索語に対応するユーザがクリックしたウェブサイト名を含み、及び/又は、前記対話理解事前訓練タスクにスロット事前訓練タスクが含まれる場合、前記言語材料データは第2検索語を含み、前記ラベルデータは知識マップにおける前記第2検索語の各文字に対応する上位語を含む。

図2は対話理解モデルの構成図を示す。図2を参照すると、対話理解モデルは、入力層201と、入力が入力層201に接続された汎用事前訓練層202と、汎用事前訓練層202の出力が接続された出力層203とを含む。汎用事前訓練層202は、汎用事前訓練モデル構造を採用し、例えば、図2のERNIEモデルを例にする。入力層201は、入力データを入力ベクトルに変換するために使用され、汎用事前訓練層202は、入力ベクトルを処理し、例えば、ERNIEモデルはTransformer構造に基づいて処理し、例えばマルチヘッドアテンション（Multi-Head Attention）及びフィードフォワード（Feed Forward）処理を行う。汎用事前訓練層202の出力は、隠れ層出力ベクトルであり、例えば図2においてそれぞれH₀~H₆で示される。出力層203は、隠れ層出力ベクトルを処理して出力データを得る。タスクによって出力データのタイプが異なる。例えば、本開示の実施形態では、タスクは対話理解タスクであるため、出力データは対話理解タスクに関連するデータであり、例えば、図2を参照すると、出力データは、インテント（Intent）データ及びスロット（Slot）データを含む。

図3に示すように、前記対話理解モデルは、入力層、汎用事前訓練層、及び出力層を含み、前記対話理解訓練データを用いて、対話理解事前訓練タスクと汎用事前訓練タスクとの共同訓練を行って対話理解モデルを得るための流れは、次のものを含むことができる。

301において、前記入力層を用いて、前記言語材料データを入力ベクトルに変換する。

302において、前記汎用事前訓練層を用いて、隠れ層出力ベクトルを得るために前記入力ベクトルを処理する。

ここで、汎用事前訓練層は、上述のマルチヘッドアテンション（Multi-Head Attention）及びフィードフォワード（Feed Forward）処理のような汎用処理を行うことができる。

303において、前記出力層を用いて、前記隠れ層出力ベクトルを処理して予測データを得る。

304において、前記予測データ及び対応するラベルデータに基づいて、前記対話理解事前訓練タスクの損失関数及び前記汎用事前訓練タスクの損失関数を計算し、前記対話理解事前訓練の損失関数と前記汎用事前訓練タスクの損失関数とから総損失関数を算出し、前記総損失関数が予め設定された収束条件を満たした場合に前記対話理解モデルの訓練を終了する。

ここで、各タスクの損失関数は関連技術における損失関数を採用することができる。総損失関数を計算する際には、各タスクの損失関数を直接加算又は重み付け加算して得ることができる。予め設定した収束条件は必要に応じて設定し、或いは関連技術における収束条件を採用することができる。総損失関数が収束条件を満たさない場合には、収束条件を満たすまでモデルパラメータを更新し、収束条件を満たした場合には、そのときのモデルパラメータを最終的なモデルパラメータとして対話理解モデルの訓練を完了する。

本実施形態では、言語材料データとラベルデータに基づいて、対話理解事前訓練タスクの訓練を行ってモデルパラメータを最適化することができる。

301に対応して以下のように説明する。

関連技術において、入力層は、一般に、ワードベクトル（embedding）層と位置ベクトル（embedding）層とを含む。

一方、本実施形態では、対話理解モデルの適合性を向上させ、対話理解能力を向上させるために、入力層に品詞ベクトル層、及び/又は、命名エンティティベクトル層が更に含まれる。

図2に示すように、入力層に品詞ベクトル（embedding）層と命名エンティティベクトル（embedding）層を追加した例を示す。ここで、図2の検索語が「我要看紅楼梦」と仮定すると、品詞ベクトル層のR（代名詞）、V（副詞）、W（動詞）、N（名詞）は異なる品詞ラベルを表し、命名エンティティベクトル層のBは命名エンティティラベルであり、Oは命名エンティティではないことを表す。

いくつかの実施形態では、品詞ベクトル層及び/又は命名エンティティベクトル層を追加することにより、対話理解に有利な品詞、命名エンティティなどのラベルを明示的にモデル化することができ、訓練時により多くの事前知識を導入し、対話理解能力を向上させることができる。

303に対応して以下のように説明する。

以上の分析によれば、対話理解タスクは、複数の（インテント事前訓練タスクとスロット事前訓練タスク）に分けられ、各対話理解タスクは、互いに独立した異なる出力層モデルに対応することができる。例えば、インテント事前訓練タスクは第1出力層モデルに対応し、スロット事前訓練タスクは第2出力層モデルに対応し、第1出力層モデルはインテントデータを入力するために用いられ、第2出力層モデルはスロットデータを出力するために用いられ、第1出力層モデルと第2出力層モデルとは互いに独立しており、すなわち、第1出力層モデルと第2出力層モデルとは共有関係にない。しかし、互いに独立したモデルでは、第1出力層モデルの性能が優れているときに、第2出力層モデルの性能が劣るなど、タスク全体の性能が劣るという問題がある可能性がある。

インテント分類及びスロットマーキングの最適化を同時に達成するために、いくつかの実施形態では、共有された出力層を採用することができる。すなわち、図2を参照すると、出力層203は、前記インテント事前訓練タスク及びスロット事前訓練タスクの共有層であり、当該出力層203の出力データはインテントデータ及びスロットデータを含む。具体的に、図2を参照すると、図2におけるH₁~H₆のように、インテントデータは隠れ層出力ベクトルH₀に対応し、スロットデータは他の隠れ層出力ベクトルに対応する。ここで、出力層は[CLS]ビットを用いてインテント分類を行い、他の隠れ層出力ベクトル（H₁~H₆）は条件付きフィールドCRF（Conditional Random Field、CRF）処理を行ってからスロットマーキングを行う。出力データは、モデルの異なる段階によって異なるタイプのデータであり、たとえば、訓練段階では予測データ（たとえばインテント予測データやスロットマーキングデータ）、応用段階ではタスク処理結果（たとえばインテント分類結果やスロットマーキング結果）である。

いくつかの実施形態では、複数の対話理解事前訓練タスクが出力層を共有することにより、複数の対話理解事前訓練タスクの同期訓練を達成し、対話理解モデルの効果を最適化することができる。

本実施形態では、対話理解訓練データを用いて、タスク訓練時に対話理解事前訓練タスクの訓練を行うことにより、対話理解タスクに特化したモデルを訓練することができる。品詞ベクトル層及び/又は命名エンティティベクトル層を追加することにより、品詞や命名エンティティなどの対話理解に有利なラベルを明示的にモデル化することができ、訓練時により多くの事前知識を導入し、対話理解能力を向上させることができる。検索エンジンデータ及び/又は知識マップに基づいて対話理解訓練データを取得することにより、検索エンジンのユーザ行動及び知識マップの構造化知識に基づいて対話理解モデルの効果を高めることができる。複数の対話理解事前訓練タスクが出力層を共有することにより、対話理解事前訓練タスクを同期的に訓練し、対話理解モデルの効果を最適化することができる。

対話理解は、スマートカスタマーサービス分野、スマートアシスタント分野、カーナビ分野、スマートホーム分野など、様々な分野に分けることができる。理解すべきなのは、上記の領域分割方式は一例であり、他の領域分割方式、例えば、天気領域、音楽領域、映画領域などに分けることを採用してもよい。

上記実施形態に従って訓練により対話理解モデルが得られると、事前訓練（Pre-training）+微調整（Fine-tuning）の考え方に基づいて、上記の対話理解モデルを事前訓練モデル（この場合、上記の対話理解モデルは汎用対話理解モデルと呼ぶことができる）として微調整し、各分野の対話理解モデルを得ることもできる。

図4は、本開示の第4実施形態による概略図である。本実施形態は、対話理解訓練データを取得する401と、前記対話理解訓練データを用いて、対話理解事前訓練タスクと汎用事前訓練タスクとの共同訓練を行って対話理解モデルを得る402と、対話理解の少なくとも1つの分野の各分野における対話理解訓練データを取得する403と、前記各分野における対話理解訓練データを用いて、前記各分野の対話理解モデルを得るために、前記対話理解モデルを微調整する404とを含む対話理解モデルの訓練方法を提供する。

例えば、スマートカスタマーサービスの分野に対応して、スマートカスタマーサービス分野の対話理解訓練データを用いて上記の対話理解モデルを微調整してスマートカスタマーサービス分野の対話理解モデルを得たり、カーナビ分野に対応して、カーナビ分野の対話理解訓練データを用いて上記の対話理解モデルを微調整してカーナビ分野の対話理解モデルを得たりする。

いくつかの実施形態では、上記の対話理解モデルを得た後に汎用対話理解モデルとして良い。後続のタスクにおいて、対話理解の各分野における対話理解訓練データに基づいて汎用対話理解モデルを再度訓練して各分野の対話理解モデルを得ることができる。本開示の実施形態では、汎用事前訓練モデル（pre-training）に基づいて汎用対話理解モデルを訓練する訓練過程をポスト訓練（post-training）と呼び、汎用対話理解モデルに基づいて様々な分野の対話理解モデルを訓練する訓練過程を微調整（fine-tuning）と呼ぶことができる。したがって、本開示のいくつかの実施形態は、pre-training->post-training->fine-tuningを含む全体的な訓練プロセスを提供することができる。

関連技術では、各分野の対話理解モデルを訓練する際に、汎用セマンティック理解モデルに直接基づいて訓練されているが、該当する分野内のデータを収集することが困難であるため、多くの人工によるマーキングが必要であり、コストが大きく、構築が困難である。また、ある分野の対話理解モデルを構築して得た後に、別の分野の対話理解モデルが必要な場合には、新たに汎用セマンティック理解モデルに基づいて訓練を行う必要があり、汎用性が低い。

一方、本開示の実施形態では、図5を参照すると、当該方法は、汎用セマンティック理解モデル（例えばBERTモデル）に基づいて汎用対話理解モデルを訓練する501と、汎用対話理解モデルに基づいて各分野の対話理解モデルを訓練する502とを含む。

本実施形態では、汎用対話理解モデルに基づいて各分野の対話理解モデルを訓練することにより、構築コストを低減し、汎用性を高めることができる。

図6は本開示の第6実施形態による概略図である。本実施形態は、検索語を受信する601と、事前訓練された、上記のいずれかの訓練方法により得られた対話理解モデルを用いて、前記検索語に対応するインテント分類結果及びスロットマーキング結果を確定する602とを含む対話理解方法を提供する。

例えば、ユーザは対話理解システムとインタラクションして検索語「我要看紅楼梦」を入力する。ここで、「紅楼梦」が小説を指すと仮定すると、対話理解システムはこの検索語を受信すると、以前の訓練で得られた対話理解モデルに基づいて対話理解を行い、「小説を検索する」であるインテント分類結果と、「我」、「要」、「看」、「紅」、「楼」、「梦」の順に「O」、「O」、「O」、「B-Book」、「I-Book」、「I-Book」とマーキングされることを含むスロットマーキング結果を得る。「O」は、当該文字がスロットでないことを表し、「B-Book」は、当該文字がスロット「小説」の始まりであることを表し、「I-Book」は、当該文字がスロット「小説」の他の構成要素であることを表す。

上記の流れでは、ユーザと対話理解システムとの間でテキスト、音声などの形式でインタラクションを行うことが可能であり、例えば、ユーザが音声やテキストを用いて検索語を入力するが、本開示では限定しない。

対話理解システムは、クライアント-サーバの形態に基づいて実現することができる。クライアントは、ユーザ端末に配置され、サーバは、対話理解サービスプロバイダのサーバ上に設置することができる。サーバは、通常のサーバ又はクラウドサーバであってもよい。あるいは、オフライン対話理解サービスを実現するために、サーバをユーザ端末にローカルに配置することもできる。本開示はこれを限定しない。ユーザ端末の例は、本開示でも限定されず、例えば、携帯電話、タブレット型パソコン、デジタルアシスタント等であってもよい。クライアントの例は、本開示でも限定されず、例えばAPP、Webページ、プログラムなどであってもよい。

本実施形態では、対話理解モデルを用いて対話理解を行い、かつ、対話理解が上記の訓練方式を用いて得られることにより、対話理解の効果を高めることができる。

図7は本開示の第7実施形態の概略図である。図7に示すように、本実施形態は、第1取得手段701と第1訓練手段702とを含む対話理解モデルの訓練装置700を提供する。第1取得手段701は、対話理解訓練データを取得する。第1訓練手段702は、前記対話理解訓練データを用いて、対話理解事前訓練タスクと汎用事前訓練タスクとの共同訓練を行って対話理解モデルを得る。

いくつかの実施形態では、図8を参照すると、第1取得手段801と第1訓練手段802とを含む対話理解モデルの訓練装置800が提供される。第1取得手段801は、対話理解訓練データを取得する。第1訓練手段802は、前記対話理解訓練データを用いて、対話理解事前訓練タスクと汎用事前訓練タスクとの共同訓練を行って対話理解モデルを得る。ここで、対話理解モデルは、入力層、汎用事前訓練層、及び出力層を含み、前記対話理解訓練データは、言語材料データ及び前記言語材料データに対応するラベルデータを含み、第1訓練手段802は、入力モジュール8021、隠れ層モデル8022、出力モジュール8023、及び収束モジュール8024を含む。入力モジュール8021は、前記入力層を使用して前記言語データを入力ベクトルに変換し、隠れ層モジュール8022は、前記汎用事前訓練層を使用して前記入力ベクトルを処理して隠れ層出力ベクトルを得、出力モジュール8023は、前記出力層を使用して前記隠れ層出力ベクトルを処理して予測データを得、収束モジュール8024は、前記予測データ及び対応するラベルデータに基づいて、前記対話理解事前訓練タスクの損失関数、及び前記汎用事前訓練タスクの損失関数を計算し、前記対話理解事前訓練の損失関数と前記汎用事前訓練タスクの損失関数とから総損失関数を算出し、前記総損失関数が予め設定された収束条件を満たした場合に前記対話理解モデルの訓練を終了する。

いくつかの実施形態では、前記対話理解事前訓練タスクは、インテント事前訓練タスク、及び/又はスロット事前訓練タスクを含む。

いくつかの実施形態では、前記対話理解事前訓練タスクにインテント事前訓練タスクが含まれる場合、前記言語材料データは第1検索語を含み、前記ラベルデータは前記第1検索語に対応するユーザがクリックしたウェブサイト名を含み、及び/又は、前記対話理解事前訓練タスクにスロット事前訓練タスクが含まれる場合、前記言語材料データは第2検索語を含み、前記ラベルデータは知識マップにおける前記第2検索語の各文字に対応する上位語を含む。

いくつかの実施形態では、前記対話理解事前訓練タスクにインテント事前訓練タスク及びスロット事前訓練タスクが含まれる場合、前記出力層は前記インテント事前訓練タスク及び前記スロット事前訓練タスクの共有層であり、前記出力層の出力データはインテントデータ及びスロットデータを含む。

いくつかの実施形態では、前記入力層は、品詞ベクトル層、及び/又は、命名エンティティベクトル層を含む。

いくつかの実施形態では、図9を参照すると、第1取得手段901及び第1訓練手段902を含み、さらに第2取得手段903及び第2訓練手段904を含む対話理解モデルの訓練装置900が提供される。第2取得手段903は、対話理解の少なくとも1つの分野の各分野における対話理解訓練データを取得する。第2訓練手段904は、前記各分野における対話理解訓練データを用いて、前記各分野の対話理解モデルを得るために前記対話理解モデルを微調整する。

本実施形態では、対話理解訓練データを用いて、タスク訓練時に対話理解事前訓練タスクの訓練を行うことで、対話理解タスクに特化したモデルを訓練することができる。品詞ベクトル層及び/又は命名エンティティベクトル層を追加することにより、品詞、命名エンティティなどの対話理解に有利なラベルを明示的にモデル化することができ、訓練時により多くの事前知識を導入し、対話理解能力を向上させることができる。検索エンジンデータ及び/又は知識マップに基づいて対話理解訓練データを取得することにより、検索エンジンのユーザ行動及び知識マップの構造化知識に基づいて対話理解モデルの効果を高めることができる。複数の対話理解事前訓練タスクが出力層を共有することにより、対話理解事前訓練タスクを同期的に訓練し、対話理解モデルの効果を最適化することができる。汎用対話理解モデルに基づく訓練により各分野の対話理解モデルを得ることにより、構築コストの低減と汎用性の向上を図ることができる。

図10は本開示の第10実施形態に係る概略図である。図10に示すように、本実施形態は、受信手段1001と対話理解手段1002とを備える対話理解装置を提供する。受信手段1001は、検索語を受信する。対話理解手段1002は、予め訓練された対話理解モデルを使用して、前記検索語に対応するインテント分類結果及びスロットマーキング結果を確定する。前記対話理解モデルは、上記のいずれかの訓練方法を用いて得られる。

本開示の実施形態によれば、本開示は更に電子デバイス、可読記憶媒体、及びコンピュータプログラム製品を提供する。

図11は、本開示の実施形態を実施するために使用され得る例示的な電子デバイス1100の模式的なブロック図である。電子デバイスは、ラップトップ、デスクトップコンピュータ、ワークベンチ、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような、様々な形態のデジタルコンピュータを表す。電子デバイスは更に、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。本明細書に示す構成要素、それらの接続及び関係、ならびにそれらの機能は、単なる一例であり、本明細書に記載及び/又は要求された本開示の実現を制限することではない。

図11に示すように、デバイス1100は、読み取り専用メモリ(ROM)1102に記憶されたコンピュータプログラム、又は記憶手段1108からランダムアクセスメモリ(RAM)1103にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる演算手段1101を含む。RAM1103には、デバイス1100の動作に必要な各種のプログラムやデータが記憶されてもよい。演算手段1101、ROM1102及びRAM1103は、バス1104を介して接続されている。入出力（I/O）インターフェース1105もバス1104に接続されている。

例えばキーボード、マウス等の入力手段1106と、例えば様々なタイプのディスプレイ、スピーカ等の出力手段1107と、例えば磁気ディスク、光ディスク等の記憶手段1108と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信手段1109を含むデバイス1100の複数の構成要素は、I/Oインターフェース1105に接続される。通信手段1109は、デバイス1100が例えばインターネットのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。

演算手段1101は、処理能力及び演算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってよい。演算手段1101のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット（GPU）、様々な専用の人工知能(AI)演算チップ、機械学習モデルアルゴリズムを実行する様々な演算ユニット、デジタル信号プロセッサ（DSP）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。演算手段1101は、上述した様々な方法及び処理、例えば対話理解モデルの訓練方法や対話理解方法を実行する。例えば、幾つかの実施形態では、対話理解モデルの訓練方法又は対話理解方法は、例えば記憶手段1108のような機械可読媒体に物理的に組み込まれたコンピュータソフトウェアプログラムとして実装されてもよい。幾つかの実施形態では、コンピュータプログラムの一部又は全部は、ROM1102及び/又は通信手段1109を介してデバイス1100にロード及び/又はインストールすることができる。コンピュータプログラムがRAM1103にロードされ、演算手段1101により実行されると、上述した対話理解モデルの訓練方法又は対話理解方法の1つ又は複数のステップを実行することができる。代替的に、他の実施形態では、演算手段1101は、対話理解モデルの訓練方法又は対話理解方法を実行するように、他の任意の適切な方法で（例えば、ファームウェアを介する）構成されてもよい。

本明細書で前述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含んで良い。当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈することができる。当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであって、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を転送することができる。

本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを用いて記述することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供することにより、プログラムコードがプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図に指定された機能/動作を実行するようにすることができる。プログラムコードは、全てがマシン上で実行されても良く、一部がマシン上で実行されても良く、スタンドアロンパッケージとして一部的にマシン上で実行され且つ一部的にリモートマシン上で実行され、或いは全てがリモートマシン又はサーバ上で実行されても良い。

本開示の文脈では、機械可読媒体は、有形の媒体であって、命令実行システム、装置又はデバイスにより使用され、或いは命令実行システム、装置又はデバイスと合わせて使用されるプログラムを含むか記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってよい。機械可読媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体的なシステム、装置又はデバイス、あるいはこれらの任意の適切な組み合わせを含んで良いが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ（EPROM又はフラッシュメモリ）、光ファイバ、携帯型コンパクトディスク読み取り専用メモリ（CD-ROM）、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置（例えば、CRT（陰極線管）又はLCD（液晶ディスプレイ）モニタ）と、ユーザにより入力をコンピュータに提供するキーボード及びポインティングデバイス（例えば、マウス又はトラックボール）と備えるコンピュータ上に実施されてよい。他の種類の装置は、ユーザとのインタラクションを提供するためにも使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であって良く、ユーザからの入力を任意の形式（音声入力、音声入力、又は触覚入力を含む）で受信して良い。

本明細書に記載されたシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる）、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）、ワイド・エリア・ネットワーク（「ＷＡＮ」）、インターネットワークを含む。

コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。サーバはクラウドサーバ、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、従来の物理ホストとVPSサービス（「Virtual Private Server」、或いは「VPS」と略称される）において管理が難しく、ビジネスの拡張性が弱いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の1つであって良い。サーバは、分散システムのサーバであっても良く、ブロックチェーンを組み合わせたサーバであってもよい。

以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本出願に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本出願で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。

上記の具体的な実施形態は本出願の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本出願の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本出願の保護範囲内に含まれるべきである。

Claims

対話理解モデルの訓練方法であって、
対話理解訓練データを取得し、
前記対話理解訓練データを用いて、対話理解事前訓練タスクと汎用事前訓練タスクとの共同訓練を行って対話理解モデルを得る、
ことを含む対話理解モデルの訓練方法。
前記対話理解モデルは、入力層と、汎用事前訓練層と、出力層とを備え、前記対話理解訓練データは、言語材料データと、前記言語材料データに対応するラベルデータとを含み、
前記対話理解訓練データを用いて、対話理解事前訓練タスクと汎用事前訓練タスクとの共同訓練を行って対話理解モデルを得ることは、
前記入力層を用いて、前記言語材料データを入力ベクトルに変換し、
前記汎用事前訓練層を用いて、前記入力ベクトルを処理して隠れ層出力ベクトルを得、
前記出力層を用いて、前記隠れ層出力ベクトルを処理して予測データを得、
前記予測データ及び対応するラベルデータに基づいて、前記対話理解事前訓練タスクの損失関数及び前記汎用事前訓練タスクの損失関数を計算し、前記対話理解事前訓練タスクの損失関数と前記汎用事前訓練タスクの損失関数に基づいて総損失関数を算出し、前記総損失関数が予め設定された収束条件を満たした場合に前記対話理解モデルの訓練を終了する、ことを含む、
請求項1に記載の対話理解モデルの訓練方法。
前記対話理解事前訓練タスクにインテント事前訓練タスクが含まれる場合に、前記言語材料データは第1検索語を含み、前記ラベルデータは、前記第1検索語に対応する、ユーザがクリックしたウェブサイト名を含み、及び/又は、
前記対話理解事前訓練タスクにスロット事前訓練タスクが含まれる場合に、前記言語材料データは第2検索語を含み、前記ラベルデータは、知識マップにおける前記第2検索語の各文字に対応する上位語を含む、
請求項2に記載の対話理解モデルの訓練方法。
前記対話理解事前訓練タスクにインテント事前訓練タスクとスロット事前訓練タスクが含まれる場合に、前記出力層は前記インテント事前訓練タスクと前記スロット事前訓練タスクとの共有層であり、前記出力層の出力データはインテントデータとスロットデータとを含む、
請求項2に記載の対話理解モデルの訓練方法。
前記入力層は、
品詞ベクトル層、及び/又は、
命名エンティティベクトル層を含む、
請求項2に記載の対話理解モデルの訓練方法。
対話理解の少なくとも1つの分野の各分野における対話理解訓練データを取得し、
前記各分野における対話理解訓練データを用いて前記対話理解モデルを微調整して前記各分野における対話理解モデルを得る、
ことを更に含む請求項1～5のいずれか1項に記載の対話理解モデルの訓練方法。
対話理解モデルの訓練装置であって
対話理解訓練データを取得する第1取得手段と、
前記対話理解訓練データを用いて、対話理解事前訓練タスクと汎用事前訓練タスクとの共同訓練を行って対話理解モデルを得る第1訓練手段と、
を備える対話理解モデルの訓練装置。
前記対話理解モデルは、入力層と、汎用事前訓練層と、出力層とを備え、前記対話理解訓練データは、言語材料データと、前記言語材料データに対応するラベルデータとを含み、
前記第1訓練手段は、
前記入力層を用いて前記言語材料データを入力ベクトルに変換する入力モジュールと、
前記汎用事前訓練層を用いて、前記入力ベクトルを処理して隠れ層出力ベクトルを得る隠れ層モジュールと、
前記出力層を用いて前記隠れ層出力ベクトルを処理して予測データを得る出力モジュールと、
前記予測データ及び対応するラベルデータに基づいて、前記対話理解事前訓練タスクの損失関数及び前記汎用事前訓練タスクの損失関数を計算し、前記対話理解事前訓練タスクの損失関数と前記汎用事前訓練タスクの損失関数に基づいて総損失関数を算出し、前記総損失関数が予め設定された収束条件を満たした場合に前記対話理解モデルの訓練を終了する収束モジュールと、
を備える請求項7に記載の対話理解モデルの訓練装置。
前記対話理解事前訓練タスクにインテント事前訓練タスクが含まれる場合に、前記言語材料データは第1検索語を含み、前記ラベルデータは、前記第1検索語に対応する、ユーザがクリックしたウェブサイト名を含み、及び/又は、
前記対話理解事前訓練タスクにスロット事前訓練タスクが含まれる場合に、前記言語材料データは第2検索語を含み、前記ラベルデータは、知識マップにおける前記第2検索語の各文字に対応する上位語を含む、
請求項8に記載の対話理解モデルの訓練装置。
前記対話理解事前訓練タスクにインテント事前訓練タスクとスロット事前訓練タスクが含まれる場合に、前記出力層は前記インテント事前訓練タスクと前記スロット事前訓練タスクとの共有層であり、前記出力層の出力データはインテントデータとスロットデータとを含む、
請求項8に記載の対話理解モデルの訓練装置。
前記入力層は、
品詞ベクトル層、及び/又は、
命名エンティティベクトル層、
を備える請求項8に記載の対話理解モデルの訓練装置。
対話理解の少なくとも1つの分野の各分野における対話理解訓練データを取得する第2取得手段と、
前記各分野における対話理解訓練データを用いて前記対話理解モデルを微調整して前記各分野における対話理解モデルを得る第2訓練手段と、
を更に備える請求項7～11のいずれか1項に記載の対話理解モデルの訓練装置。
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1～6のいずれか１項に記載の対話理解モデルの訓練方法を実行させる電子デバイス。
コンピュータに請求項1～6のいずれか1項に記載の対話理解モデルの訓練方法を実行させるためのコンピュータコマンドが記憶される非一時的なコンピュータ可読記憶媒体。
プロセッサにより実行されると、請求項1～6のいずれか1項に記載の対話理解モデルの訓練方法を実現するプログラム。