JP7517435B2 - Learning device, inference device, their methods, and programs - Google Patents
Learning device, inference device, their methods, and programs Download PDFInfo
- Publication number
- JP7517435B2 JP7517435B2 JP2022545187A JP2022545187A JP7517435B2 JP 7517435 B2 JP7517435 B2 JP 7517435B2 JP 2022545187 A JP2022545187 A JP 2022545187A JP 2022545187 A JP2022545187 A JP 2022545187A JP 7517435 B2 JP7517435 B2 JP 7517435B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- domain
- learning
- term
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000013016 learning Effects 0.000 title claims description 183
- 238000000034 method Methods 0.000 title claims description 54
- 238000002372 labelling Methods 0.000 claims description 119
- 230000007774 longterm Effects 0.000 claims description 75
- 230000006870 function Effects 0.000 claims description 41
- 230000008569 process Effects 0.000 description 37
- 238000012549 training Methods 0.000 description 27
- 230000006978 adaptation Effects 0.000 description 22
- 230000015654 memory Effects 0.000 description 17
- 238000012545 processing Methods 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Description
本発明はラベリング技術に関する。 The present invention relates to labeling technology.
近年、会話や談話の理解を目的に、発話系列を入力として、発話毎に会話や談話の応対シーンを表すラベルを推定する、発話系列ラベリングの技術が提案されている(例えば、非特許文献1)。In recent years, a technology called speech sequence labeling has been proposed for the purpose of understanding conversations and discourse, which takes a speech sequence as input and estimates a label representing the conversation or discourse scene for each utterance (for example, non-patent document 1).
例えば非特許文献1では、コンタクトセンタにおけるオペレータとカスタマとの間の会話を音声認識して得られた発話テキスト系列を入力として、発話毎に対応シーン(オープニング、用件把握、本人確認、対応、クロージングのいずれか)のラベルを推定する、発話系列ラベリングを実現する深層ニューラルネットワーク(以下、ラベリングネットワーク)を開示している。For example, non-patent
非特許文献1のようなラベリングネットワークの学習には、多量のラベル付き教師データが必要である。しかし、新たなドメインでのラベリングを行うたびに、そのドメインにおける多量のラベル付き教師データを収集することは、ラベル付与のコストが膨大にかかることから、困難である。ここで非特許文献2には、過去に適用済みのドメイン(以下、ソースドメイン)のラベル付きデータ(以下、ラベル付き教師データ)と、新規に適用したいドメイン(以下、ターゲットドメイン)のラベルなしデータ(以下、ラベルなし教師データ)とから、新たなドメインでのラベリングを行う教師なしドメイン適応を実現する方法が提案されている。
A large amount of labeled training data is required for learning a labeling network such as that in Non-Patent
しかし、非特許文献2の方法は、ソースドメインのラベル付き教師データとターゲットドメインのラベルなし教師データとを用い、ターゲットドメインに属する単一画像に対応するラベルを推定するラベリングモデルを学習するものである。すなわち、非特許文献2の方法は単一画像の単純な分類問題の教師なしドメイン適応を行うものであり、複数の情報の系列の論理的関係を考慮して当該情報の系列に対応するラベル系列を推定する(例えば、発話テキスト系列に対して対応シーン毎のラベルの系列を推定する)複雑な分類問題の教師なしドメイン適応方法は確立されていない。However, the method of Non-Patent
本発明はこのような点に鑑みてなされたものであり、複数の情報の系列の論理的関係を考慮して当該情報の系列に対応するラベル系列を推定するラベリングモデルの教師なしドメイン適応を行うことを目的とする。 The present invention has been made in consideration of these points, and aims to perform unsupervised domain adaptation of a labeling model that estimates a label sequence corresponding to multiple information sequences by taking into account the logical relationships between the sequences.
論理的関係を持つ複数の情報の系列である入力情報系列を受け取り、前記入力情報系列の論理的関係を考慮した中間特徴系列を得、前記中間特徴系列を出力する論理的関係理解手段と、前記中間特徴系列に基づく第1系列を受け取り、前記入力情報系列に対応するラベル系列の推定ラベル系列を得、前記推定ラベル系列を出力するラベリング手段と、を含むラベリングモデルと、前記中間特徴系列に基づく第2系列を受け取り、前記入力情報系列に含まれる各部分情報がソースドメインに属するか、ターゲットドメインに属するか、を表すドメイン識別情報の推定ドメイン情報を得、前記推定ドメイン情報の系列を出力するドメイン識別モデルと、に対し、学習装置が、ソースドメインに属するラベル付きの学習用情報系列であるラベル付き教師データとターゲットドメインに属するラベルなしの学習用情報系列であるラベルなし教師データとを含む教師データを前記入力情報系列として用い、前記推定ラベル系列の推定精度が高く、前記推定ドメイン情報の系列の推定精度が低くなるように前記ラベリングモデルを学習し、前記推定ドメイン情報の系列の推定精度が高くなるように前記ドメイン識別モデルを学習する敵対的学習を行い、少なくとも前記ラベリングモデルのパラメータを得て出力する。A labeling model including a logical relationship understanding means that receives an input information sequence, which is a sequence of multiple pieces of information having a logical relationship, obtains an intermediate feature sequence that takes into account the logical relationship of the input information sequence, and outputs the intermediate feature sequence; a labeling means that receives a first sequence based on the intermediate feature sequence, obtains an estimated label sequence of a label sequence corresponding to the input information sequence, and outputs the estimated label sequence; and a domain identification model that receives a second sequence based on the intermediate feature sequence, obtains estimated domain information of domain identification information indicating whether each piece of partial information included in the input information sequence belongs to a source domain or a target domain, and outputs the estimated domain information sequence. A learning device uses teacher data including labeled teacher data, which is a labeled learning information sequence belonging to the source domain, and unlabeled teacher data, which is an unlabeled learning information sequence belonging to the target domain, as the input information sequence, and learns the labeling model so that the estimation accuracy of the estimated label sequence is high and the estimation accuracy of the estimated domain information sequence is low, and performs adversarial learning to learn the domain identification model so that the estimation accuracy of the estimated domain information sequence is high, and obtains and outputs at least parameters of the labeling model.
これにより、複数の情報の系列の論理的関係を考慮して当該情報の系列に対応するラベル系列を推定するラベリングモデルの教師なしドメイン適応を行うことができる。This enables unsupervised domain adaptation of a labeling model that estimates a label sequence corresponding to multiple information sequences by taking into account the logical relationships between those sequences.
以下、図面を参照して本発明の実施形態を説明する。各実施形態では、発話テキスト系列(論理的関係を持つ複数の情報の系列)を入力とし、対応シーン(例えば、オープニング、用件把握、本人確認、対応、クロージング)に相当するラベルの系列(ラベル系列)を出力(系列ラベリング)する深層ニューラルネットワークに基づくラベリングモデルを教師なしドメイン適応する例を示す。しかし、これらは一例であって本発明を限定するものではない。すなわち、本発明は、任意の複数の情報の系列の論理的関係を考慮して当該情報の系列に対応する任意のラベル系列を推定するラベリングモデルの教師なしドメイン適応に利用できる。なお、複数の情報の系列の論理的関係にも限定はなく、複数の情報の間に何らかの関係が存在すればよい。論理的関係の例は、文脈(コンテキスト)、単語の係り受けの関係、言語の文法的な関係、音声や動画のフレーム間関係などであるが、これらは本発明を限定しない。また、ラベリングモデルは、深層ニューラルネットワークに基づくモデルに限定されず、入力された情報の系列に対応するラベル系列を推定して出力するモデルであれば、確率モデルや分類器などどのようなモデルであってもよい。 Hereinafter, an embodiment of the present invention will be described with reference to the drawings. In each embodiment, an example of unsupervised domain adaptation of a labeling model based on a deep neural network that takes a spoken text sequence (a sequence of multiple pieces of information having a logical relationship) as input and outputs a sequence of labels (label sequence) corresponding to a corresponding scene (e.g., opening, understanding the subject matter, identity verification, response, closing) (sequence labeling) is shown. However, these are only examples and do not limit the present invention. That is, the present invention can be used for unsupervised domain adaptation of a labeling model that estimates an arbitrary label sequence corresponding to an arbitrary sequence of multiple pieces of information by considering the logical relationship of the sequence of the information. Note that there is no limitation on the logical relationship of the sequence of multiple pieces of information, and it is sufficient that some relationship exists between the multiple pieces of information. Examples of logical relationships include context, dependency relationships between words, grammatical relationships in languages, and inter-frame relationships in audio and video, but these do not limit the present invention. In addition, the labeling model is not limited to a model based on a deep neural network, and any model such as a probability model or a classifier may be used as long as it estimates and outputs a label sequence corresponding to an input sequence of information.
[第1実施形態]
本発明の第1実施形態を説明する。
<学習装置11の機能構成および学習処理>
図1に例示するように、第1実施形態の学習装置11は、学習部11a、および記憶部11b,11cを有し、ソースドメインのラベル付き教師データと、ターゲットドメインのラベルなし教師データを入力とし、学習によってターゲットドメインのラベリングネットワークのパラメータ(モデルパラメータ)を得て出力する。なお、図面では記載の簡略化のため、ソースドメインを「SD」と表記し、ターゲットドメインを「TD」と表記し、ネットワークを「NW」と表記する。ここで例示するソースドメインのラベル付き教師データは、ソースドメインに属するラベル付きの学習用情報系列であり、ソースドメインの発話テキスト系列(論理的関係を持つ複数の情報の系列である入力情報系列)と当該発話テキスト系列に対応する正解ラベル系列とを含む。またここで例示するターゲットドメインのラベルなし教師データは、ターゲットドメインに属するラベルなしの学習用情報系列であり、ターゲットドメインの発話テキスト系列を含むが正解ラベル系列を含まない。さらに後述する損失の結合比率等のスケジュールである学習スケジュールが学習装置11に入力され、学習装置11が当該学習スケジュールに従って学習処理を行ってもよい。また学習装置11が教師なしドメイン適応を実現するためのドメイン識別ネットワークのパラメータを出力してもよい。また図2に例示するように、学習部11aは、例えば、制御部11aa、損失関数計算部11ab、勾配反転部11ac、およびパラメータ更新部11adを有する。また、学習部11aは処理過程で得られた各データを逐一、記憶部11b,11cまたは図示していない一時メモリに格納する。学習部11aは必要に応じて当該データを読み込み、各処理に利用する。
[First embodiment]
A first embodiment of the present invention will be described.
<Functional configuration of the
As illustrated in FIG. 1, the
≪ネットワーク100≫
図3に学習装置11が学習処理で用いるネットワーク100の構成例を示す。図3に例示するネットワーク100は、ラベリングネットワーク150(ラベリングモデル)およびドメイン識別モデル130を有する。
<Network 100>
3 shows an example of the configuration of the
≪ラベリングネットワーク150≫
図3に例示するラベリングネットワーク150は、発話テキスト系列T1,…,TN(論理的関係を持つ複数の情報の系列である入力情報系列)を受け取り(入力とし)、発話テキスト系列T1,…,TNに対応するラベルの系列の推定系列である推定ラベル系列L1,…,LNを得て出力する。ここで、発話テキスト系列T1,…,TNはN個の発話テキストTnの系列である。ただし、例えばnは時間に対応するインデックスであり、n=1,…,Nであり、Nは1以上の整数であり、一般的にはNは2以上の整数である。発話テキストTnは「すみません」や「はい」などの単語であってもよいし、「返信速度が遅くて困っています」などのM(n)個の単語Tn,1,…,Tn,M(n)を含む文章であってもよい。ただし、M(n)は2以上の整数である。また、ここで例示する推定ラベル系列L1,…,LNはN個の推定ラベルLn(ただし、n=1,…,N)の系列である。この例の推定ラベルLnは発話テキストTnに対応し、例えば発話テキストTnの対応シーン(例えば、オープニング、用件把握、本人確認、対応、クロージング)を表す。またここで例示するラベリングネットワーク150は、論理的関係理解層110(論理的関係理解手段)とラベリング層120(ラベリング手段)を有する。
<Labeling Network 150>
The
≪論理的関係理解層110≫
論理的関係理解層110は、発話テキスト系列T1,…,TNを受け取り、発話テキスト系列T1,…,TNの文脈(論理的関係)を考慮した中間特徴系列LF1,…,LFNを得、当該中間特徴系列LF1,…,LFNを出力する。中間特徴系列LF1,…,LFNは、N個の中間特徴LFn(ただし、n=1,…,N)の系列である。中間特徴LFnは発話テキストTnに対応する。図3に例示する論理的関係理解層110は、短期文脈理解ネットワーク111-1,…,111-N(短期論理的関係理解手段)と長期文脈理解ネットワーク112(長期論理的関係理解手段)とを含む。例えば、短期文脈理解ネットワーク111-1,…,111-Nは互いに同一なネットワーク(例えば、パラメータが互いに同一なネットワーク)であり、各短期文脈理解ネットワーク111-nは各n=1,…,N(例えば、各時間)に対応する状態を表す。ここで例示する短期文脈理解ネットワーク111-1,…,111-Nは発話テキスト系列T1,…,TNを受け取る。発話テキスト系列T1,…,TNに含まれる各発話テキストTn(入力情報系列に含まれる各部分情報)を受け取った各短期文脈理解ネットワーク111-n(ただし、n=1,…,N)は、受け取った発話テキストTn内での単語の文脈(例えば、単語単位の短期文脈)を考慮した短期中間特徴SFn(部分情報内での情報の論理的関係を考慮した短期中間特徴)を得、当該短期中間特徴SFnを出力する。これにより、短期文脈理解ネットワーク111-1,…,111-Nからは短期中間特徴の系列SF1,…,SFNが出力される。なお、発話テキストTnが1個の単語のみを含む場合、その発話テキストTn内での単語の文脈は当該1個の単語のみに依存するが、この場合に得られるSFnも単語の文脈を考慮した短期中間特徴である。ただし、これは本発明を限定するものではない。例えば、各短期文脈理解ネットワーク111-nが複数の短期文脈理解ネットワーク111-n1,…,111-nK’(ただし、K’は2以上の整数)に区分されてもよい。例えば、k’=1,…,K’は短期文脈理解ネットワークの層を表すインデックスであり、各短期文脈理解ネットワーク111-nk’は短期文脈理解ネットワークの入力層からk’層目までのネットワークを表す。この場合、各短期文脈理解ネットワーク111-nk’からはk’層目の短期中間特徴SFnk’が出力される。ここで例示する長期文脈理解ネットワーク112は、複数の短期中間特徴の系列SF1,…,SFN(短期中間特徴系列)を受け取り、発話テキスト系列T1,…,TNに含まれる複数の発話テキストTn間の文脈(例えば、文単位の長期文脈または複数の文に渡る長期文脈)を考慮した中間特徴系列LF1,…,LFN(入力情報系列に含まれる複数の部分情報間での論理的関係を考慮した長期中間特徴系列)を得、当該中間特徴系列LF1,…,LFNを出力する。しかし、これは本発明を限定するものではない。例えば、上述のように各短期文脈理解ネットワーク111-nk’からk’層目の短期中間特徴SFnk’が出力される場合、長期文脈理解ネットワーク112にはSFnとしてSFnK’が入力されてもよいし、SFn1,…,SFnK’のうち複数のSFnK’が入力されてもよい。また、長期文脈理解ネットワーク112が複数の長期文脈理解ネットワーク112-1,…,112-K(ただし、Kは2以上の整数)に区分されてもよい。例えば、k=1,…,Kは長期文脈理解ネットワークの層を表すインデックスであり、各長期文脈理解ネットワーク112-kは長期文脈理解ネットワークの入力層からk層目までのネットワークを表す。この場合、各長期文脈理解ネットワーク112-k(ただし、k=1,…,K)は何れか複数の短期中間特徴の系列SFnを受け取り、受け取った系列SFnに対応する複数の発話テキストTn間の文脈を考慮した中間特徴を得て出力してもよい。この場合には、長期文脈理解ネットワーク112-1,…,112-KによってK個の中間特徴系列{LF11,…,LFN1},…,{LF1K,…,LFNK}が出力される。LFnk(ただし、n=1,…,N,k=1,…,K)は、各長期文脈理解ネットワーク112-kから出力されるk層目の各n(例えば、各時間)に対応する中間特徴を表す。
<Logical
The logical relationship understanding
ここで短期文脈理解ネットワーク111-nは、例えば辞書により単語を数値に変換する埋め込み層と、単方向LSTM(long-short term memory、長短期記憶)や双方向LSTM、注意機構等の組み合わせにより構成できる(例えば、非特許文献1等参照)。また長期文脈理解ネットワーク112は、例えば単方向LSTMや双方向LSTM等の組み合わせにより構成できる。Here, the short-term context understanding network 111-n can be configured, for example, by combining an embedding layer that converts words into numerical values using a dictionary, a unidirectional LSTM (long-short term memory), a bidirectional LSTM, an attention mechanism, etc. (For example, see
≪ラベリング層120≫
ラベリング層120は、中間特徴系列LF1,…,LFN(中間特徴系列に基づく第1系列)を受け取り、発話テキスト系列T1,…,TNに対応する推定ラベル系列L1,…,LNを得、当該推定ラベル系列L1,…,LNを出力する。図3に例示するラベリング層120は、ラベル予測ネットワーク120-1,…,120-Nを含む。例えば、ラベル予測ネットワーク120-1,…,120-Nは互いに同一なネットワーク(例えば、パラメータが互いに同一なネットワーク)であり、各ラベル予測ネットワーク120-nは各n=1,…,N(例えば、各時間)に対応する状態を表す。ここで例示するラベル予測ネットワーク120-nは、中間特徴LFnを受け取り、発話テキストTnに対応する推定ラベルLnを得、当該推定ラベルLnを出力する。なお、ラベル予測ネットワーク120-nは、例えば、ソフトマックス関数を活性化関数とする全結合ニューラルネットワーク等により構成できる。また、長期文脈理解ネットワーク112-1,…,112-KからK個の中間特徴系列{LF11,…,LFN1},…,{LF1K,…,LFNK}が出力される場合、ラベル予測ネットワーク120-nは、例えば、中間特徴LFnとしてLFnKを受け取り、発話テキストTnに対応する推定ラベルLnを得、当該推定ラベルLnを出力する。しかし、ラベル予測ネットワーク120-nが中間特徴系列{LF11,…,LFN1},…,{LF1K,…,LFNK}のうち複数の中間特徴LFnkを受け取り、発話テキストTnに対応する推定ラベルLnを得、当該推定ラベルLnを出力してもよい。
<
The
≪ドメイン識別モデル130≫
図3に例示するドメイン識別モデル130は、中間特徴系列LF1,…,LFN(中間特徴系列に基づく第2系列)を受け取り、発話テキスト系列T1,…,TNに含まれる各発話テキストTn(入力情報系列に含まれる各部分情報)がソースドメインに属するかターゲットドメインに属するか(各発話テキストTnがソースドメインのものであるかターゲットドメインのものであるか)を表すドメイン識別情報の推定ドメイン情報Dn(ただし、n=1,…,N)を得、当該推定ドメイン情報の系列D1,…,DNを出力する。ここで例示するドメイン識別モデル130は、N個のドメイン識別ネットワーク130-1,…,130-Nを含む。例えば、ドメイン識別ネットワーク130-1,…,130-Nは互いに同一なネットワーク(例えば、パラメータが互いに同一なネットワーク)であり、各ドメイン識別ネットワーク130-nは各n=1,…,N(例えば、各時間)に対応する状態を表す。例えば各ドメイン識別ネットワーク130-n(ただし、n=1,…,N)は中間特徴LFnを受け取り、推定ドメイン情報Dnを得て出力する。ただし、これは本発明を限定するものではない。例えば、各ドメイン識別ネットワーク130-nに代えて複数のドメイン識別ネットワーク130-nkが存在してもよい。例えば、k=1,…,Kは長期文脈理解ネットワークの層を表すインデックスであり、各ドメイン識別ネットワーク130-nkは各n(例えば、各時間)に対応するネットワークを表す。この場合、各ドメイン識別ネットワーク130-nkは中間特徴LFnk(n∈{1,…,N},k∈{1,…,K})を受け取り、これらを用いて推定ドメイン情報Dnkを得て出力してもよい。Dnk(ただし、n=1,…,N,k=1,…,K)は、各ドメイン識別ネットワーク130-nkから出力される各n(例えば、各時間)に対応する推定ドメイン情報を表す。ドメイン識別ネットワーク130-n(または、ドメイン識別ネットワーク130-nk)は、例えば、ソフトマックス関数を活性化関数とする全結合ニューラルネットワーク等により構成できる。
<<
The
≪学習処理≫
学習処理では、学習装置11の学習部11aに、ソースドメインのラベル付き教師データ(ソースドメインに属するラベル付きの学習用情報系列)と、ターゲットドメインのラベルなし教師データ(ターゲットドメインに属するラベルなしの学習用情報系列)とが入力される。学習部11aは、上述のネットワーク100に対し、ソースドメインのラベル付き教師データとターゲットドメインのラベルなし教師データとを含む教師データを発話テキスト系列T1,…,TNとして用い、推定ラベル系列L1,…,LNの推定精度が高く、推定ドメイン情報の系列D1,…,DNの推定精度が低くなるようにラベリングネットワーク150(ラベリングモデル)を学習し、推定ドメイン情報の系列D1,…,DNの推定精度が高くなるようにドメイン識別モデル130を学習する敵対的学習を行う。すなわち、学習部11aは、上述の教師データが発話テキスト系列T1,…,TNとしてネットワーク100に入力された際にラベリングネットワーク150から出力される推定ラベル系列L1,…,LNとそれらに対応するソースドメインのラベル付き教師データの正解ラベル系列との誤差を表す損失関数(以下、ラベル予測損失)と、ドメイン識別モデル130から出力される推定ドメイン情報の系列D1,…,DNとソースドメインのラベル付き教師データとターゲットドメインのラベルなし教師データとから特定される推定ドメイン情報の正解ラベル系列との誤差を表す損失関数(以下、ドメイン識別損失)とに基づき、ラベリングネットワーク150とドメイン識別モデル130との敵対的学習を行う。なお、ターゲットドメインのラベルなし教師データがネットワーク100に入力された際にラベリングネットワーク150から出力される推定ラベル系列L1,…,LNはラベル予測損失の算出に用いられない。
<Learning process>
In the learning process, labeled teacher data of the source domain (a labeled training information sequence belonging to the source domain) and unlabeled teacher data of the target domain (unlabeled training information sequence belonging to the target domain) are input to the
学習部11aは、例えば誤差逆伝播法を用いてこの敵対的学習を行う。この場合、論理的関係理解層110とドメイン識別モデル130との間(例えば、長期文脈理解ネットワーク112-nとドメイン識別ネットワーク130-nとの間)に勾配反転層141-n(ただし、n=1,…,N)を設け、誤差逆伝播時にのみ勾配反転層141-nで勾配を反転させる。ここで、ラベル予測損失が小さくなるように学習を行うことで、ラベリングネットワーク150での推定ラベル系列L1,…,LNの推定精度が高くなる。また、勾配反転層141-nで誤差逆伝播時にのみ勾配を反転させ、ドメイン識別損失が小さくなるように学習を行うことで、推定ドメイン情報の系列D1,…,DNの推定精度が高くなるようにドメイン識別モデル130を学習し、推定ドメイン情報の系列D1,…,DNの推定精度を低くする中間特徴系列LF1,…,LFNを得る論理的関係理解層110を学習する敵対的学習を行うことができる。この敵対的学習により、推定ラベル系列L1,…,LNを正確に推定できるがドメイン識別モデル130にドメインを推定されない中間特徴系列LF1,…,LFNを生成できるラベリングネットワーク150を学習できる。これにより、ラベリングネットワーク150でドメインへの依存性を抑制しつつラベルの予測に有効な中間特徴系列LF1,…,LFNを獲得でき、教師なしドメイン適応を実現できる。
The
この学習処理は、ラベル予測損失とドメイン識別損失とを線形結合した損失関数を最適化(最小化)することで実現できる。ラベル予測損失とドメイン識別損失との線形結合の結合比率は予め定められていてもよいし、学習部11aに入力される学習スケジュールで指定されてもよい。This learning process can be realized by optimizing (minimizing) a loss function that is a linear combination of the label prediction loss and the domain classification loss. The combination ratio of the linear combination of the label prediction loss and the domain classification loss may be predetermined or may be specified by a learning schedule input to the
学習部11aが学習スケジュールに基づき、学習のステップ数に応じてラベル予測損失とドメイン識別損失の結合比率を変更しながら上述の学習を行ってもよい。例えば学習部11aは、学習の序盤ではラベル予測損失のみを損失関数として学習を行い、学習のステップ数が増えるにつれて徐々に損失関数に占めるドメイン識別損失の割合が大きくなるようにして学習してもよい。さらに、学習部11aは、一定の結合比率で学習が収束するまで行い、結合比率を変更してまた収束するまで学習を行うような学習を、結合比率を学習スケジュールに基づき変更しながら繰り返し実施してもよい。The
また学習部11aが、先に例示したような様々なドメイン識別モデル130および/またはラベリングネットワーク150を複数用意して学習を行い、それぞれの学習で得られたラベリングネットワーク150のうち、ターゲットドメインでのラベリングネットワーク150によるラベル系列の推定精度が最善となるラベリングネットワーク150を後で選択してもよい。
The
学習処理はバッチ学習であってもよいし、ミニバッチ学習であってもよいし、オンライン学習であってもよい。The training process may be batch training, mini-batch training, or online training.
学習部11aは、上述の学習によって得たラベリングネットワーク150のパラメータを記憶部11bに格納し、ドメイン識別モデル130のパラメータ(ドメイン識別ネットワーク130-1,…,130-のパラメータ)を記憶部11cに格納する。学習装置11は、記憶部11bに格納されたラベリングネットワーク150のパラメータを出力する。ラベリングネットワーク150のパラメータは後述の推論処理に用いられる。通常、ドメイン識別モデル130のパラメータは推論処理には用いられないため、学習装置11から出力されなくてもよい。しかし、学習装置11がドメイン識別モデル130のパラメータ(ドメイン識別ネットワーク130-1,…,130-のパラメータ)の少なくとも何れかを出力してもよい。The
図2を用いて上述の学習処理を機能的に例示する。
ステップS11:ソースドメインのラベル付き教師データと、ターゲットドメインのラベルなし教師データとが制御部11aaに入力される。制御部11aaは、ソースドメインのラベル付き教師データとターゲットドメインのラベルなし教師データとを含む教師データを生成する。また制御部11aaは、ネットワーク100のパラメータを初期化する。
ステップS12:損失関数計算部11abは、教師データを発話テキスト系列T1,…,TNとしてネットワーク100に入力し、ラベル予測損失とドメイン識別損失を得、それらを線形結合した損失関数を得る。
ステップS13:パラメータ更新部11adは、誤差逆伝播法に従い、損失関数に基づく情報を逆伝搬し、ドメイン識別モデル130およびラベリング層120のパラメータを更新する。
ステップS14:勾配反転部11acは、ドメイン識別モデル130から逆伝搬された損失関数に基づく情報の勾配を反転させて論理的関係理解層110に逆伝搬させる。ラベリング層120から逆伝搬された損失関数に基づく情報は、そのまま論理的関係理解層110に逆伝搬される。
ステップS15:パラメータ更新部11adは、誤差逆伝播法に従い、逆伝搬された情報を用いて論理的関係理解層110のパラメータを更新する。
ステップS16:制御部11aaは、終了条件(例えば、パラメータの更新回数が所定数に達したなどの条件)を満たしたか否かを判定する。ここで終了条件を満たしていない場合、制御部11aaは処理をステップS12に戻す。一方、終了条件を満たしている場合、制御部11aaはラベリングネットワーク150のパラメータを出力する。必要に応じて制御部11aaがドメイン識別ネットワーク130-1,…,130-Nのパラメータの少なくとも何れかも出力してもよい。
The above-mentioned learning process will be functionally illustrated with reference to FIG.
Step S11: Labeled teacher data of the source domain and unlabeled teacher data of the target domain are input to the control unit 11aa. The control unit 11aa generates teacher data including the labeled teacher data of the source domain and the unlabeled teacher data of the target domain. The control unit 11aa also initializes parameters of the
Step S12: The loss function calculation unit 11ab inputs the training data as spoken text sequences T 1 , . . . , T N to the
Step S13: The parameter update unit 11ad backpropagates information based on the loss function according to the backpropagation method, and updates the parameters of the
Step S14: The gradient inversion unit 11ac inverts the gradient of the information based on the loss function backpropagated from the
Step S15: The parameter update unit 11ad updates the parameters of the logical relationship
Step S16: The control unit 11aa judges whether or not a termination condition (for example, a condition that the number of parameter updates has reached a predetermined number) has been satisfied. If the termination condition has not been satisfied, the control unit 11aa returns the process to step S12. On the other hand, if the termination condition has been satisfied, the control unit 11aa outputs the parameters of the
<推論装置13の機能構成および推論処理>
図4に例示するように、第1実施形態の推論装置13は、推論部13aおよび記憶部13bを有する。記憶部13bには上述のように得られたラベリングネットワーク150のパラメータが格納される。
<Functional configuration and inference processing of the
4, the
≪推論処理≫
推論処理では、推論部13aに推論用の発話テキスト系列(入力情報系列)が入力される。推論部13aは、記憶部13bに格納されたパラメータで特定されるラベリングネットワーク150(ラベリングモデル)に対し、推論用の発話テキスト系列を適用し、推論用の発話テキスト系列に対応するラベル系列の推定ラベル系列を得、推定ラベル系列を出力する。例えば、図5に例示するラベリングネットワーク150の場合、推論部13aは、推論用の発話テキスト系列T1,…,TNを論理的関係理解層110に入力して推論用の発話テキスト系列T1,…,TNに対応する中間特徴系列LF1,…,LFNを得る。例えば、推論部13aは、推論用の発話テキスト系列T1,…,TNを短期文脈理解ネットワーク111-1,…,111-Nにそれぞれ入力し、短期中間特徴の系列SF1,…,SFNを得、短期中間特徴の系列SF1,…,SFNを長期文脈理解ネットワーク112に入力し、中間特徴系列LF1,…,LFNを得る。さらに推論部13aは、中間特徴系列LF1,…,LFNをラベリング層120に入力して発話テキスト系列T1,…,TNに対応する推定ラベル系列L1,…,LNを得て出力する。
Inference processing
In the inference process, an utterance text sequence for inference (input information sequence) is input to the
<第1実施形態の特徴>
本実施形態では、発話テキスト系列T1,…,TNを受け取り、発話テキスト系列T1,…,TNの文脈を考慮した中間特徴系列LF1,…,LFNを得、当該中間特徴系列LF1,…,LFNを出力する論理的関係理解層110と、中間特徴系列LF1,…,LFNを受け取り、発話テキスト系列T1,…,TNに対応する推定ラベル系列L1,…,LNを得、当該推定ラベル系列L1,…,LNを出力するラベリング層120とを含むラベリングネットワーク150と、中間特徴系列LF1,…,LFNを受け取り、発話テキスト系列T1,…,TNに含まれる各発話テキストTnがソースドメインに属するかターゲットドメインに属するかを表すドメイン識別情報の推定ドメイン情報Dnを得、当該推定ドメイン情報の系列D1,…,DNを出力するドメイン識別モデル130とに対し、学習装置11が、ソースドメインのラベル付き教師データとターゲットドメインのラベルなし教師データとを含む教師データを発話テキスト系列T1,…,TNとして用い、推定ラベル系列L1,…,LNの推定精度が高く、推定ドメイン情報の系列D1,…,DNの推定精度が低くなるようにラベリングネットワーク150を学習し、推定ドメイン情報の系列D1,…,DNの推定精度が高くなるようにドメイン識別モデル130を学習する敵対的学習を行った。これにより、ラベリングネットワーク150のドメイン依存性を低減させ、結果として、発話テキスト系列T1,…,TNの文脈を考慮して当該発話テキスト系列に対応するラベル系列L1,…,LNを推定するラベリングネットワーク150の教師なしドメイン適応が可能になる。
<Features of the First Embodiment>
In this embodiment, the
[第2実施形態]
第2実施形態では、複数の発話テキストTn間の文脈(入力情報系列に含まれる複数の部分情報間での論理的関係を考慮した長期中間特徴系列)からドメインを識別するネットワークと、発話テキストTn内での単語の文脈を考慮した短期中間特徴SFn(部分情報内での情報の論理的関係を考慮した短期中間特徴)からドメインを識別するネットワークと、を同時に用いて敵対的に学習させる。これにより、ドメインへの依存性をさらに効率的に除去し、より高い精度でターゲットドメインのラベリングネットワークを学習できる。以下では、第1実施形態との相違点を中心に説明し、第1実施形態と共通する事項については、同じ参照記号を引用して説明を簡略化する。
[Second embodiment]
In the second embodiment, a network for identifying a domain from the context between a plurality of spoken texts Tn (a long-term intermediate feature sequence taking into account the logical relationship between a plurality of pieces of partial information included in an input information sequence) and a network for identifying a domain from short-term intermediate features SFn (short-term intermediate features taking into account the logical relationship between information in a partial information) taking into account the context of words in the spoken text Tn are simultaneously used for adversarial learning. This makes it possible to more efficiently remove domain dependency and learn a labeling network for a target domain with higher accuracy. The following description will focus on the differences from the first embodiment, and the same reference symbols will be used to simplify the description of matters common to the first embodiment.
<学習装置21の機能構成および学習処理>
図6に例示するように、第2実施形態の学習装置21は、学習部21a、および記憶部11b,21c,21dを有し、ソースドメインのラベル付き教師データと、ターゲットドメインのラベルなし教師データを入力とし、学習によってターゲットドメインのラベリングネットワークのパラメータ(モデルパラメータ)を得て出力する。さらに学習スケジュールが学習装置21に入力され、学習装置21が当該学習スケジュールに従って学習処理を行ってもよい。また学習装置21が教師なしドメイン適応を実現するためのドメイン識別ネットワークのパラメータを出力してもよい。また図2に例示するように、学習部21aは、例えば、制御部11aa、損失関数計算部21ab、勾配反転部11ac、およびパラメータ更新部21adを有する。また、学習部21aは処理過程で得られた各データを逐一、記憶部11b,21c,21dまたは図示していない一時メモリに格納する。学習部21aは必要に応じて当該データを読み込み、各処理に利用する。
<Functional configuration of the
As illustrated in FIG. 6, the
≪ネットワーク200≫
図7に学習装置21が学習処理で用いるネットワーク200の構成例を示す。図7に例示するネットワーク200は、ラベリングネットワーク150(ラベリングモデル)およびドメイン識別モデル230を有する。ラベリングネットワーク150は第1実施形態と同一であるため説明を省略し、以下ではドメイン識別モデル230の説明を行う。
<
Fig. 7 shows an example of the configuration of a
≪ドメイン識別モデル230≫
図7に例示するドメイン識別モデル230は、短期文脈ドメイン識別ネットワーク231-1,…,231-N(短期論理的関係ドメイン識別手段)、および長期文脈ドメイン識別ネットワーク232(長期論理的関係ドメイン識別手段)を含む。例えば、短期文脈ドメイン識別ネットワーク231-1,…,231-Nは互いに同一なネットワーク(例えば、パラメータが互いに同一なネットワーク)であり、各短期文脈ドメイン識別ネットワーク231-nは各n=1,…,N(例えば、各時間)に対応する状態を表す。
<<
7 includes short-term context domain identification networks 231-1, ..., 231-N (short-term logically related domain identification means) and a long-term context domain identification network 232 (long-term logically related domain identification means). For example, the short-term context domain identification networks 231-1, ..., 231-N are identical networks (e.g., networks with identical parameters), and each short-term context domain identification network 231-n represents a state corresponding to each n=1, ..., N (e.g., each time).
長期文脈ドメイン識別ネットワーク232は、長期文脈理解ネットワーク112から出力された中間特徴系列LF1,…,LFN(長期中間特徴系列)を受け取り、推定ドメイン情報の系列LD1,…,LDNを得て出力する。ただし、各推定ドメイン情報LDn(ただし、n=1,…,N)は、各発話テキストTnがソースドメインに属するかターゲットドメインに属するかを表すドメイン識別情報の推定情報である。図7に例示する長期文脈ドメイン識別ネットワーク232は、第1実施形態のドメイン識別ネットワーク130-nと異なり、入力された短期中間特徴の系列SF1,…,SFNを連続的に捉えることで(例えば、短期中間特徴の系列SF1,…,SFNを時間方向に連続的に捉えることで)、単語や文章である複数の発話テキストTnを跨いだ文脈(論理的関係)のドメイン依存性をラベリングネットワーク150から取り除くことを目的とする。しかし、これは本発明を限定するものではない。例えば、長期文脈ドメイン識別ネットワーク232に代えて、複数の長期文脈ドメイン識別ネットワーク232-1,…,232-K(ただし、Kは2以上の整数)が存在してもよい。例えば、k=1,…,Kは長期文脈理解ネットワークの層を表すインデックスである。この場合、各長期文脈ドメイン識別ネットワーク232-k(ただし、k=1,…,K)は、長期中間特徴系列LFnk(n∈{1,…,N},k∈{1,…,K})を受け取り、受け取った長期中間特徴系列LFnkに対応する発話テキストTnがソースドメインに属するかターゲットドメインに属するかを表す推定ドメイン情報LDnkを得て出力してもよい。LFnk(ただし、n=1,…,N,k=1,…,K)は、第1実施形態で例示した各長期文脈理解ネットワーク112-kから出力される各n(例えば、各時間)に対応する中間特徴を表す。この場合であっても、複数の発話テキストTnを跨いだ文脈のドメイン依存性をラベリングネットワーク150から取り除くことができる。ここで長期文脈ドメイン識別ネットワーク232は、例えば、単方向LSTMや双方向LSTMと、ソフトマックス関数を活性化関数とする全結合ニューラルネットワーク等の組み合わせによって構成できる。
The long-term context
短期文脈ドメイン識別ネットワーク231-1,…,231-Nは、短期文脈理解ネットワーク111-1,…,111-N(短期論理的関係理解手段)から出力された短期中間特徴の系列SF1,…,SFN(中間特徴系列に基づく第2系列、短期中間特徴系列)を受け取り、推定ドメイン情報の系列SD1,…,SDNを得て出力する。すなわち、各短期文脈ドメイン識別ネットワーク231-n(ただし、n=1,…,N)は、短期文脈理解ネットワーク111-nから出力された短期中間特徴SFnを受け取り、各発話テキストTnがソースドメインに属するかターゲットドメインに属するかを表すドメイン識別情報の推定ドメイン情報SDnを得、当該推定ドメイン情報SDnを出力する。短期文脈ドメイン識別ネットワーク231-nは、長期文脈ドメイン識別ネットワーク232と異なり、短期中間特徴SFnごとに発話テキストTnがソースドメインに属するかターゲットドメインに属するかを推定することで、ドメイン依存性のある特定の単語や文書などの発話テキストTn単体のドメイン依存性を効率的に取り除くことを目的とする。ただし、これは本発明を限定するものではない。例えば、各短期文脈ドメイン識別ネットワーク231-nに代えて、複数の短期文脈ドメイン識別ネットワーク231-n1,…,232-nK’(ただし、K’は2以上の整数)が存在してもよい。例えば、k’=1,…,K’は短期文脈ドメイン識別ネットワークの層を表すインデックスであり、各短期文脈ドメイン識別ネットワーク231-nk’は各n(例えば、各時間)に対応するネットワークを表す。この場合、各短期文脈ドメイン識別ネットワーク231-nk’(ただし、k’=1,…,K’)は、短期中間特徴SFnk’(n∈{1,…,N},k’∈{1,…,K’})を受け取り、受け取った短期中間特徴SFnk’に対応する発話テキストTnがソースドメインに属するかターゲットドメインに属するかを表す推定ドメイン情報SDnk’を得て出力してもよい。ただし、SFnk’は第1実施形態で例示した各短期文脈理解ネットワーク111-nk’から出力される各n(例えば、各時間)に対応する短期中間特徴である。ここで、短期文脈ドメイン識別ネットワーク231-nは、例えば、ソフトマックス関数を活性化関数とする全結合ニューラルネットワーク等の組み合わせによって構成できる。
The short-term context domain identification networks 231-1, ..., 231-N receive the series of short-term intermediate features SF 1 , ..., SF N (a second series based on the intermediate feature series, a short-term intermediate feature series) output from the short-term context understanding networks 111-1, ..., 111-N (short-term logical relation understanding means), and obtain and output a series of estimated domain information SD 1 , ..., SD N. That is, each short-term context domain identification network 231-n (where n=1, ..., N) receives the short-term intermediate features SF n output from the short-term context understanding network 111-n, obtains estimated domain information SD n of domain identification information indicating whether each spoken text T n belongs to the source domain or the target domain, and outputs the estimated domain information SD n . Unlike the long-term context
≪学習処理≫
学習処理では、学習装置21の学習部21aに、ソースドメインのラベル付き教師データ(ソースドメインに属するラベル付きの学習用情報系列)と、ターゲットドメインのラベルなし教師データ(ターゲットドメインに属するラベルなしの学習用情報系列)とが入力される。学習部21aは、上述のネットワーク200に対し、ソースドメインのラベル付き教師データとターゲットドメインのラベルなし教師データとを含む教師データを発話テキスト系列T1,…,TNとして用い、推定ラベル系列L1,…,LNの推定精度が高く、推定ドメイン情報の系列LD1,…,LDNおよびSD1,…,SDNの推定精度が低くなるようにラベリングネットワーク150(ラベリングモデル)を学習し、推定ドメイン情報の系列LD1,…,LDNおよびSD1,…,SDNの推定精度が高くなるようにドメイン識別モデル230を学習する敵対的学習を行う。すなわち、学習部21aは、上述の教師データが発話テキスト系列T1,…,TNとしてネットワーク200に入力された際にラベリングネットワーク150から出力される推定ラベル系列L1,…,LNとそれらに対応するソースドメインのラベル付き教師データの正解ラベル系列との誤差を表す損失関数(以下、ラベル予測損失)と、長期文脈ドメイン識別ネットワーク232から出力される推定ドメイン情報の系列LD1,…,LDNとソースドメインのラベル付き教師データとターゲットドメインのラベルなし教師データとから特定される推定ドメイン情報の正解ラベル系列との誤差を表す損失関数(以下、長期文脈ドメイン識別損失)と、短期文脈ドメイン識別ネットワーク231-1,…,231-Nから出力される推定ドメイン情報の系列SD1,…,SDNとソースドメインのラベル付き教師データとターゲットドメインのラベルなし教師データとから特定される推定ドメイン情報の正解ラベル系列との誤差を表す損失関数(以下、短期文脈ドメイン識別損失)とに基づき、ラベリングネットワーク150とドメイン識別モデル230との敵対的学習を行う。なお、ターゲットドメインのラベルなし教師データがネットワーク200に入力された際にラベリングネットワーク150から出力される推定ラベル系列L1,…,LNはラベル予測損失の算出に用いられない。
<Learning process>
In the learning process, labeled teacher data of the source domain (a labeled training information sequence belonging to the source domain) and unlabeled teacher data of the target domain (unlabeled training information sequence belonging to the target domain) are input to the
学習部21aは、例えば誤差逆伝播法を用いてこの敵対的学習を行う。この場合、長期文脈理解ネットワーク112と長期文脈ドメイン識別ネットワーク232との間に勾配反転層242-n(ただし、n=1,…,N)を設け、短期文脈理解ネットワーク111-nと短期文脈ドメイン識別ネットワーク231-nとの間に勾配反転層241-n(ただし、n=1,…,N)を設け、誤差逆伝播時にのみ勾配反転層242-nおよび241-nで勾配を反転させる。ここで、ラベル予測損失が小さくなるように学習を行うことで、ラベリングネットワーク150での推定ラベル系列L1,…,LNの推定精度が高くなる。また、勾配反転層242-nで誤差逆伝播時にのみ勾配を反転させ、長期文脈ドメイン識別損失が小さくなるように学習を行うことで、推定ドメイン情報の系列LD1,…,LDNの推定精度が高くなるように長期文脈ドメイン識別ネットワーク232を学習し、推定ドメイン情報の系列LD1,…,LDNの推定精度を低くする中間特徴系列LF1,…,LFNを得る長期文脈ドメイン識別ネットワーク232を学習する敵対的学習を行うことができる。さらに、勾配反転層241-nで誤差逆伝播時にのみ勾配を反転させ、短期文脈ドメイン識別損失が小さくなるように学習を行うことで、推定ドメイン情報の系列SD1,…,SDNの推定精度が高くなるように短期文脈ドメイン識別ネットワーク231-1,…,231-Nを学習し、推定ドメイン情報の系列SD1,…,SDNの推定精度を低くする短期中間特徴の系列SF1,…,SFNを得る短期文脈理解ネットワーク111-1,…,111-Nを学習する敵対的学習を行うことができる。これらの敵対的学習により、推定ラベル系列L1,…,LNを正確に推定できるがドメイン識別モデル230にドメインを推定されない中間特徴系列LF1,…,LFNおよび短期中間特徴の系列SF1,…,SFNを生成できるラベリングネットワーク150を学習できる。これにより、ラベリングネットワーク150で、複数の発話テキストTnを跨いだ文脈のドメインへの依存性を抑制しつつラベルの予測に有効な中間特徴系列LF1,…,LFNを獲得でき、かつ、発話テキストTn単位でのドメインへの依存性を抑制しつつラベルの予測に有効な短期中間特徴の系列SF1,…,SFNを獲得でき、より高い精度で教師なしドメイン適応を実現できる。
The
この学習処理は、ラベル予測損失と長期文脈ドメイン識別損失と短期文脈ドメイン識別損失を線形結合した損失関数を最適化(最小化)することで実現できる。ラベル予測損失と長期文脈ドメイン識別損失と短期文脈ドメイン識別損失との線形結合の結合比率は予め定められていてもよいし、学習部21aに入力される学習スケジュールで指定されてもよい。This learning process can be realized by optimizing (minimizing) a loss function that is a linear combination of the label prediction loss, the long-term context domain classification loss, and the short-term context domain classification loss. The combination ratio of the linear combination of the label prediction loss, the long-term context domain classification loss, and the short-term context domain classification loss may be predetermined or may be specified by a learning schedule input to the
学習部21aが学習スケジュールに基づき、学習のステップ数に応じてラベル予測損失と長期文脈ドメイン識別損失と短期文脈ドメイン識別損失との結合比率を変更しながら上述の学習を行ってもよい。例えば学習部21aは、学習の序盤ではラベル予測損失のみを損失関数として学習を行い、学習のステップ数が増えるにつれて徐々に損失関数に占める長期文脈ドメイン識別損失と短期文脈ドメイン識別損失の割合が大きくなるようにして学習してもよい。さらに、学習部21aは、一定の結合比率で学習が収束するまで行い、結合比率を変更してまた収束するまで学習を行うような学習を、結合比率を学習スケジュールに基づき変更しながら繰り返し実施してもよい。The
ドメイン識別モデル230が長期文脈ドメイン識別ネットワーク232および短期文脈ドメイン識別ネットワーク231-1,…,231-Nのいずれか一方のみを有することとしてもよい。The
ドメイン識別モデル230が長期文脈ドメイン識別ネットワーク232のみを有する場合、勾配反転層241-1,…,241-Nが省略され、ラベル予測損失と長期文脈ドメイン識別損失を線形結合した損失関数に基づいて学習処理が行われる。この場合も線形結合の結合比率は予め定められていてもよいし、学習部21aに入力される学習スケジュールで指定されてもよい。また学習部21aが学習スケジュールに基づき、学習のステップ数に応じてラベル予測損失と長期文脈ドメイン識別損失との結合比率を変更しながら上述の学習を行ってもよい。例えば学習部21aは、学習の序盤ではラベル予測損失のみを損失関数として学習を行い、学習のステップ数が増えるにつれて徐々に損失関数に占める長期文脈ドメイン識別損失の割合が大きくなるようにして学習してもよい。さらに、学習部21aは、一定の結合比率で学習が収束するまで行い、結合比率を変更してまた収束するまで学習を行うような学習を、結合比率を学習スケジュールに基づき変更しながら繰り返し実施してもよい。
When the
ドメイン識別モデル230が短期文脈ドメイン識別ネットワーク231-1,…,231-Nのみを有する場合、勾配反転層242-1,…,242-Nが省略され、ラベル予測損失と短期文脈ドメイン識別損失を線形結合した損失関数に基づいて学習処理が行われる。この場合も線形結合の結合比率は予め定められていてもよいし、学習部21aに入力される学習スケジュールで指定されてもよい。また学習部21aが学習スケジュールに基づき、学習のステップ数に応じてラベル予測損失と短期文脈ドメイン識別損失との結合比率を変更しながら上述の学習を行ってもよい。例えば学習部21aは、学習の序盤ではラベル予測損失のみを損失関数として学習を行い、学習のステップ数が増えるにつれて徐々に損失関数に占める短期文脈ドメイン識別損失の割合が大きくなるようにして学習してもよい。さらに、学習部21aは、一定の結合比率で学習が収束するまで行い、結合比率を変更してまた収束するまで学習を行うような学習を、結合比率を学習スケジュールに基づき変更しながら繰り返し実施してもよい。
When the
また、ドメイン識別モデル230が長期文脈ドメイン識別ネットワーク232と、短期文脈ドメイン識別ネットワーク231-1,…,231-Nの一部のみを有することとしてもよい。すなわち、短期文脈ドメイン識別ネットワーク231-1,…,231-Nの一部が省略されてもよい。この場合、省略された短期文脈ドメイン識別ネットワーク231-nに対応する推定ドメイン情報SDnおよびそれに対応する推定ドメイン情報の正解ラベルは短期文脈ドメイン識別損失の計算に用いられない。
Also, the
また学習部21aが、先に例示したような様々なドメイン識別モデル230および/またはラベリングネットワーク150を複数用意して学習を行い、それぞれの学習で得られたラベリングネットワーク150のうち、ターゲットドメインでのラベリングネットワーク150によるラベル系列の推定精度が最善となるラベリングネットワーク150を後で選択してもよい。複数用意されるドメイン識別モデル230は、例えば、上述したような、長期文脈ドメイン識別ネットワーク232および短期文脈ドメイン識別ネットワーク231-1,…,231-Nを含むドメイン識別モデル230、長期文脈ドメイン識別ネットワーク232のみを有するドメイン識別モデル230、短期文脈ドメイン識別ネットワーク231-1,…,231-Nのみを有するドメイン識別モデル230、および第1実施形態のドメイン識別モデル230の少なくとも何れかを含む。
The
学習処理はバッチ学習であってもよいし、ミニバッチ学習であってもよいし、オンライン学習であってもよい。The training process may be batch training, mini-batch training, or online training.
学習部21aは、上述の学習によって得たラベリングネットワーク150のパラメータを記憶部11bに格納し、短期文脈ドメイン識別ネットワーク231-1,…,231-Nのパラメータを記憶部21cに格納し、長期文脈ドメイン識別モデル232のパラメータを記憶部21dに格納する。学習装置21は、記憶部11bに格納されたラベリングネットワーク150のパラメータを出力する。ラベリングネットワーク150のパラメータは推論処理に用いられる。通常、短期文脈ドメイン識別ネットワーク231-1,…,231-Nのパラメータおよび長期文脈ドメイン識別モデル232のパラメータは推論処理には用いられないため、学習装置21から出力されなくてもよい。しかし、学習装置21が短期文脈ドメイン識別ネットワーク231-1,…,231-Nのパラメータおよび長期文脈ドメイン識別モデル232のパラメータの少なくとも何れかを出力してもよい。The
図2を用いて上述の学習処理を機能的に例示する。
ステップS21:ソースドメインのラベル付き教師データと、ターゲットドメインのラベルなし教師データとが制御部11aaに入力される。制御部11aaは、ソースドメインのラベル付き教師データとターゲットドメインのラベルなし教師データとを含む教師データを生成する。また制御部11aaは、ネットワーク200のパラメータを初期化する。
ステップS22:損失関数計算部21abは、教師データを発話テキスト系列T1,…,TNとしてネットワーク200に入力し、前述のように損失関数を得る。
ステップS23:パラメータ更新部21adは、誤差逆伝播法に従い、損失関数に基づく情報を逆伝搬し、ドメイン識別モデル230およびラベリング層120のパラメータを更新する。
ステップS24:勾配反転部11acは、ドメイン識別モデル230から逆伝搬された損失関数に基づく情報の勾配を反転させて論理的関係理解層110に逆伝搬させる。ラベリング層120から逆伝搬された損失関数に基づく情報は、そのまま論理的関係理解層110に逆伝搬される。
ステップS25:パラメータ更新部21adは、誤差逆伝播法に従い、逆伝搬された情報を用いて論理的関係理解層110のパラメータを更新する。
ステップS26:制御部11aaは、終了条件を満たしたか否かを判定する。ここで終了条件を満たしていない場合、制御部11aaは処理をステップS22に戻す。一方、終了条件を満たしている場合、制御部11aaはラベリングネットワーク150のパラメータを出力する。必要に応じて制御部11aaが短期文脈ドメイン識別ネットワーク231-1,…,231-Nのパラメータおよび長期文脈ドメイン識別モデル232のパラメータの少なくとも何れかも出力してもよい。
The above-mentioned learning process will be functionally illustrated with reference to FIG.
Step S21: Labeled teacher data of the source domain and unlabeled teacher data of the target domain are input to the control unit 11aa. The control unit 11aa generates teacher data including the labeled teacher data of the source domain and the unlabeled teacher data of the target domain. The control unit 11aa also initializes parameters of the
Step S22: The loss function calculation unit 21ab inputs the teacher data as the spoken text sequence T 1 , . . . , T N to the
Step S23: The parameter update unit 21ad backpropagates information based on the loss function according to the backpropagation method, and updates the parameters of the
Step S24: The gradient inversion unit 11ac inverts the gradient of the information based on the loss function backpropagated from the
Step S25: The parameter update unit 21ad updates the parameters of the logical relationship
Step S26: The control unit 11aa judges whether or not the termination condition is satisfied. If the termination condition is not satisfied, the control unit 11aa returns the process to step S22. On the other hand, if the termination condition is satisfied, the control unit 11aa outputs the parameters of the
第2実施形態の推論装置13の機能構成および推論処理は第1実施形態と同じであるため、説明を省略する。
The functional configuration and inference processing of the
<第2実施形態の特徴>
本実施形態では、発話テキスト系列T1,…,TNを受け取り、発話テキスト系列T1,…,TNの文脈を考慮した中間特徴系列LF1,…,LFNを得、当該中間特徴系列LF1,…,LFNを出力する論理的関係理解層110と、中間特徴系列LF1,…,LFNを受け取り、発話テキスト系列T1,…,TNに対応する推定ラベル系列L1,…,LNを得、当該推定ラベル系列L1,…,LNを出力するラベリング層120とを含むラベリングネットワーク150と、中間特徴系列LF1,…,LFNを受け取り、発話テキスト系列T1,…,TNに含まれる各発話テキストTnがソースドメインに属するかターゲットドメインに属するかを表すドメイン識別情報の推定ドメイン情報LDnおよびSDnを得、当該推定ドメイン情報の系列LD1,…,LDNおよびSD1,…,SDNを出力するドメイン識別モデル230とに対し、学習装置21が、ソースドメインのラベル付き教師データとターゲットドメインのラベルなし教師データとを含む教師データを発話テキスト系列T1,…,TNとして用い、推定ラベル系列L1,…,LNの推定精度が高く、推定ドメイン情報の系列LD1,…,LDNおよびSD1,…,SDNの推定精度が低くなるようにラベリングネットワーク150を学習し、推定ドメイン情報の系列LD1,…,LDNおよびSD1,…,SDNの推定精度が高くなるようにドメイン識別モデル230を学習する敵対的学習を行った。これにより、発話テキスト系列T1,…,TNの文脈を考慮して当該発話テキスト系列に対応するラベル系列L1,…,LNを推定するラベリングネットワーク150の教師なしドメイン適応が可能になる。
<Features of the second embodiment>
In this embodiment, the
特に本実施形態では、ドメイン識別モデル230が、短期文脈理解ネットワーク111-1,…,111-Nから出力された短期中間特徴の系列SF1,…,SFNを受け取り、推定ドメイン情報の系列SD1,…,SDNを得て出力する短期文脈ドメイン識別ネットワーク231-1,…,231-N、および長期文脈理解ネットワーク112から出力された中間特徴系列LF1,…,LFNを受け取り、推定ドメイン情報の系列LD1,…,LDNを得て出力する長期文脈ドメイン識別ネットワーク232の少なくとも一方を含む。これにより、発話テキストTn単体のドメイン依存性および発話テキストTnを跨いだ文脈のドメイン依存性の少なくとも一方をラベリングネットワーク150から効率的に取り除くことができる。その結果、より高い精度でラベリングネットワーク150の教師なしドメイン適応を行うことができる。
In particular, in this embodiment, the
またドメイン識別モデル230が、少なくとも長期文脈ドメイン識別ネットワーク232を含むことで、複数の発話テキストTnを跨いだ文脈のドメイン依存性をラベリングネットワーク150から効率的に取り除くことができる。その結果、発話テキスト系列T1,…,TNの文脈を考慮して当該発話テキスト系列に対応するラベル系列L1,…,LNを推定するラベリングネットワーク150の教師なしドメイン適応を精度よく行うことができる。
Furthermore, since the
さらにドメイン識別モデル230が、短期文脈ドメイン識別ネットワーク231-1,…,231-Nおよび長期文脈ドメイン識別ネットワーク232の両方を含むことで、発話テキストTn単体のドメイン依存性と複数の発話テキストTnを跨いだ文脈のドメイン依存性とをラベリングネットワーク150から効率的に取り除くことができる。この場合には、より高い精度でラベリングネットワーク150の教師なしドメイン適応を行うことができる。
Furthermore, since the
<実験結果>
以下に上述の実施形態に従って行われた教師なしドメイン適応の実験結果を例示する。以下に実験条件を示す。
(1)発話テキスト系列の模擬データの各発話テキストを5クラスの対応シーンに分類し、各対応シーンを表すラベルを推定する。
(2)ターゲットドメイン(新規ドメイン)を除く5ドメインをソースドメイン(適用済みドメイン)として扱い、ソースドメインのデータのみを用いてラベリングネットワークを学習し、得られたラベリングネットワークと、第1実施形態および第2実施形態に従ってラベリングネットワークを学習し、それぞれで得られたラベリングネットワークを用いて、ターゲットドメインの発話テキスト系列に対する識別性能(ラベリングの正解率)を検証した。
(3)6個のターゲットドメイン(ネット通販、ISP、証券、自治体、携帯電話、PCサポート)に属する60通話分の発話テキスト系列(60通話×6ドメイン=360通話分の模擬データ)について識別性能を検証した。
(4)各発話テキストは100個程度の文を含む。
<Experimental Results>
The following are examples of experimental results of unsupervised domain adaptation performed according to the above-described embodiment. The experimental conditions are as follows.
(1) Classify each utterance text of the simulated data of the utterance text sequence into five classes of corresponding scenes, and estimate a label representing each corresponding scene.
(2) The five domains excluding the target domain (new domain) were treated as source domains (applied domains), and a labeling network was trained using only data from the source domain. The obtained labeling network and the labeling networks obtained in the first and second embodiments were trained, and the recognition performance (labeling accuracy rate) for the spoken text sequence of the target domain was verified using the obtained labeling network.
(3) The classification performance was verified for 60 phone call text sequences (60 calls x 6 domains = 360 phone call simulation data) belonging to six target domains (online shopping, ISP, securities, local government, mobile phone, and PC support).
(4) Each utterance text contains approximately 100 sentences.
図8に実験結果を例示する。図8に例示するように、第1実施形態および第2実施形態のいずれの方法でも、ターゲットドメインにおけるラベル付きデータを用意しなくても、すでに存在するソースドメインのラベル付きデータを用い、高い精度でターゲットドメインに対する教師なしドメイン適応が可能であることが分かる。特に第2実施形態の方法では、より高い精度で教師なしドメイン適応が可能であり、ソースドメインのデータのみで学習する方法に比べて平均3.4%識別精度が向上する。 Figure 8 shows an example of the experimental results. As shown in Figure 8, in both the first and second embodiments, unsupervised domain adaptation to the target domain is possible with high accuracy by using already existing labeled data in the source domain, even if labeled data in the target domain is not prepared. In particular, the method of the second embodiment enables unsupervised domain adaptation with higher accuracy, and the classification accuracy is improved by an average of 3.4% compared to the method of learning only with source domain data.
[ハードウェア構成]
各実施形態における学習装置11,21および推論装置13は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)やRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
[Hardware configuration]
The
図9は、各実施形態における学習装置11,21および推論装置13のハードウェア構成を例示したブロック図である。図9に例示するように、この例の学習装置11,21および推論装置13は、CPU(Central Processing Unit)10a、入力部10b、出力部10c、RAM(Random Access Memory)10d、ROM(Read Only Memory)10e、補助記憶装置10f及びバス10gを有している。この例のCPU10aは、制御部10aa、演算部10ab及びレジスタ10acを有し、レジスタ10acに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部10bは、データが入力される入力端子、キーボード、マウス、タッチパネル等である。また、出力部10cは、データが出力される出力端子、ディスプレイ、所定のプログラムを読み込んだCPU10aによって制御されるLANカード等である。また、RAM10dは、SRAM (Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等であり、所定のプログラムが格納されるプログラム領域10da及び各種データが格納されるデータ領域10dbを有している。また、補助記憶装置10fは、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、所定のプログラムが格納されるプログラム領域10fa及び各種データが格納されるデータ領域10fbを有している。また、バス10gは、CPU10a、入力部10b、出力部10c、RAM10d、ROM10e及び補助記憶装置10fを、情報のやり取りが可能なように接続する。CPU10aは、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置10fのプログラム領域10faに格納されているプログラムをRAM10dのプログラム領域10daに書き込む。同様にCPU10aは、補助記憶装置10fのデータ領域10fbに格納されている各種データを、RAM10dのデータ領域10dbに書き込む。そして、このプログラムやデータが書き込まれたRAM10d上のアドレスがCPU10aのレジスタ10acに格納される。CPU10aの制御部10aaは、レジスタ10acに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM10d上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部10abに順次実行させ、その演算結果をレジスタ10acに格納していく。このような構成により、学習装置11,21および推論装置13の機能構成が実現される。9 is a block diagram illustrating the hardware configuration of the
上述のプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。The above-mentioned program can be recorded on a computer-readable recording medium. An example of a computer-readable recording medium is a non-transitory recording medium. Examples of such recording media include magnetic recording devices, optical disks, magneto-optical recording media, semiconductor memories, etc.
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。上述のように、このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 The distribution of this program is, for example, by selling, transferring, lending, etc., portable recording media such as DVDs and CD-ROMs on which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of a server computer and transferring the program from the server computer to other computers via a network. As described above, a computer that executes such a program, for example, first temporarily stores in its own storage device the program recorded in the portable recording medium or the program transferred from the server computer. Then, when executing the process, the computer reads the program stored in its own storage device and executes the process according to the read program. In addition, as another execution form of this program, the computer may read the program directly from the portable recording medium and execute the process according to the program, and further, each time the program is transferred from the server computer to this computer, the computer may execute the process according to the received program one by one. In addition, the server computer may not transfer the program to this computer, but may execute the above-mentioned process by a so-called ASP (Application Service Provider) type service that realizes the processing function only by issuing an execution instruction and obtaining the result. In this embodiment, the program includes information used for processing by an electronic computer and equivalent to a program (such as data that is not a direct instruction to a computer but has the nature of defining computer processing).
CPU10aだけでなく、GPU(Graphics Processing Unit)を用いて本装置が構成されてもよい。また各実施形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。The device may be configured using not only the
なお、本発明は上述の実施形態に限定されるものではない。例えば、各実施形態では、ターゲットドメインのラベルなし教師データは、ターゲットドメインの発話テキスト系列を含むが正解ラベル系列を含まないこととした。しかしながら、ターゲットドメインのラベルなし教師データの少なくとも一部が正解ラベル系列を含んでいてもよい。この場合、ネットワーク100,200の学習にターゲットドメインのラベルなし教師データの正解ラベル系列を用いてもよいし、用いなくてもよい。
Note that the present invention is not limited to the above-described embodiments. For example, in each embodiment, the unlabeled training data of the target domain includes a speech text sequence of the target domain but does not include a correct label sequence. However, at least a portion of the unlabeled training data of the target domain may include a correct label sequence. In this case, the correct label sequence of the unlabeled training data of the target domain may or may not be used to train the
また、前述のように、上述の実施形態では、説明の明確化のため、論理的関係を持つ複数の情報の系列が発話テキスト系列であり、ラベル系列が各発話の対応シーン(例えば、オープニング、用件把握、本人確認、対応、クロージング)を表すラベルの系列である場合を例示した。しかしながら、これは一例であって、論理的関係を持つ複数の情報の系列として、文章系列、プログラミング言語系列、音声信号系列、動画信号系列など、その他の情報の系列を用いてもよい。また、ラベルの系列として、状況や行動を表すラベル系列、場所や時間を表すラベル系列、品詞を表すラベル系列、プログラム内容を表すラベル系列など、その他のラベル系列を用いてもよい。また、ラベリングモデル等の各モデルが深層ニューラルネットワークに基づくモデルではなく、確率モデルや分類器などに基づく、その他のモデルであってもよい。また、各実施形態の論理的関係理解層110は、発話テキスト系列T1,…,TNを受け取り、発話テキスト系列T1,…,TNの文脈(論理的関係)を考慮した中間特徴系列LF1,…,LFNを得て出力した。しかしながら、論理的関係理解層110が発話テキスト系列T1,…,TNを受け取り、N個未満またはN個を超える中間特徴からなる系列を得て出力してもよい。また、各実施形態のラベリング層120は、中間特徴系列LF1,…,LFN(中間特徴系列に基づく第1系列)を受け取り、発話テキスト系列T1,…,TNに対応する推定ラベル系列L1,…,LNを得て出力した。しかしながら、ラベリング層120が中間特徴系列LF1,…,LFN(中間特徴系列に基づく第1系列)を受け取り、N個未満またはN個を超える推定ラベルの系列を得て出力してもよい。また、各実施形態のドメイン識別モデル130,230は、中間特徴系列LF1,…,LFN(中間特徴系列に基づく第2系列)を受け取り、N個の推定ドメイン情報を得て出力した。しかしながら、実施形態のドメイン識別モデル130,230が中間特徴系列LF1,…,LFN(中間特徴系列に基づく第2系列)を受け取り、N個未満またはN個を超える推定ドメイン情報を得て出力してもよい。
Also, as described above, in the above-mentioned embodiment, for the sake of clarity, the case is illustrated in which the sequence of multiple pieces of information having a logical relationship is a spoken text sequence, and the label sequence is a sequence of labels representing the corresponding scenes of each utterance (for example, opening, understanding the subject, identity verification, response, closing). However, this is only an example, and other information sequences, such as a sentence sequence, a programming language sequence, a voice signal sequence, or a video signal sequence, may be used as the sequence of multiple pieces of information having a logical relationship. Also, other label sequences, such as a label sequence representing a situation or action, a label sequence representing a place or time, a label sequence representing a part of speech, or a label sequence representing program content, may be used as the label sequence. Also, each model, such as the labeling model, may not be a model based on a deep neural network, but may be other models based on a probability model, a classifier, or the like. Also, the logical relationship
また、上述の各種処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。In addition, the various processes described above may not only be executed in chronological order as described, but may also be executed in parallel or individually depending on the processing capacity of the device executing the processes or as necessary. Needless to say, other modifications may be made as appropriate without departing from the spirit of the present invention.
本発明により、例えば、複雑なコンテキストを考慮した系列ラベリング問題に対して、中間特徴のドメイン依存性を効率的に除去することが可能となる。特に第2実施形態で例示したように短期および長期の論理的関係(文脈)それぞれに対して、中間特徴のドメイン依存性を効率的に除去することで、よりターゲットドメインへの適応度が高いラベリングネットワークを学習でき、ターゲットドメインにおけるラベリング精度を向上させることができる。 The present invention makes it possible to efficiently remove the domain dependency of intermediate features, for example, for sequence labeling problems that take complex contexts into account. In particular, by efficiently removing the domain dependency of intermediate features for each of short-term and long-term logical relationships (contexts) as exemplified in the second embodiment, it is possible to learn a labeling network that is more adaptable to the target domain, and improve the labeling accuracy in the target domain.
従来、画像認識に対する教師なしドメイン適応技術は検討されていたが、本発明はこれを初めて言語処理など、複数の情報の系列の論理的関係を考慮して当該情報の系列に対応するラベル系列を推定する問題に適用したものである。この教師なしドメイン適応技術により、例えば、コンタクトセンタ向けビジネスの業界拡大の障壁となっていたラベル付与のコストを大幅に削減することができる。 Unsupervised domain adaptation technology has been considered for image recognition in the past, but this invention is the first to apply it to the problem of estimating a label sequence corresponding to multiple information sequences by considering the logical relationships between the sequences, such as in language processing. This unsupervised domain adaptation technology can significantly reduce the cost of labeling, which has been a barrier to the expansion of the contact center business industry, for example.
特に第2実施形態に例示した方法では、例えば、発話テキスト単位(例えば、通話単位)のドメイン識別ネットワークを、単方向や双方向のLSTMにより文の境界をまたいだ機構として設計することができる。これにより、例えばコンタクトセンタの業界に依存した特定の話の流れのようなものに対するドメイン依存性をとらえ、それをラベリングネットワークから効率的に除去することが可能となり、結果としてターゲットドメインにおけるラベルの推定精度を向上させることができる。In particular, in the method illustrated in the second embodiment, for example, a domain identification network for a spoken text unit (e.g., a call unit) can be designed as a mechanism across sentence boundaries using unidirectional or bidirectional LSTM. This makes it possible to capture domain dependency, such as a specific conversation flow that depends on the industry of a contact center, and to efficiently remove it from the labeling network, thereby improving the estimation accuracy of labels in the target domain.
また、第2実施形態に例示した方法では、例えば、発話テキスト単位(例えば、通話単位)のドメイン識別ネットワークを、発話テキストの境界をまたがない機構として設計することもできる。これにより、例えばコンタクトセンタの業界に依存した特定の単語に起因するドメイン依存性をとらえ、それをラベリングネットワークから効率的に除去することが可能となり、結果としてターゲットドメインにおけるラベルの推定精度を向上させることができる。In addition, in the method illustrated in the second embodiment, for example, a domain identification network for each spoken text (for example, for each call) can be designed as a mechanism that does not cross the boundaries of spoken text. This makes it possible to capture domain dependency caused by specific words that depend on the industry of contact centers, for example, and to efficiently remove them from the labeling network, thereby improving the estimation accuracy of labels in the target domain.
11,21 学習装置
11a,21a 学習部
13 推論装置
13a 推論部
100,200 ネットワーク
110 論理的関係理解層
111-1,…,111-N 短期文脈理解ネットワーク
112 長期文脈理解ネットワーク
120 ラベリング層
120-1,…,120-N ラベル予測ネットワーク
130,230 ドメイン識別モデル
130-1,…,130-N ドメイン識別ネットワーク
231-1,…,231-N 短期文脈ドメイン識別ネットワーク
232 長期文脈ドメイン識別ネットワーク
11, 21
Claims (5)
前記中間特徴系列に基づく第1系列を受け取り、前記入力情報系列に対応するラベル系列の推定ラベル系列を出力するラベリング手段と、
を含むラベリングモデルと、
前記中間特徴系列に基づく第2系列を受け取り、前記入力情報系列に含まれる各情報がソースドメインに属するか、ターゲットドメインに属するか、を表す推定ドメイン情報の系列を出力するドメイン識別モデルと、
に対し、
ソースドメインに属するラベル付きの学習用情報系列であるラベル付き教師データとターゲットドメインに属するラベルなしの学習用情報系列であるラベルなし教師データとを含む教師データを前記入力情報系列として用い、前記推定ラベル系列の推定精度が高く、前記推定ドメイン情報の系列の推定精度が低くなるように前記ラベリングモデルを学習し、前記推定ドメイン情報の系列の推定精度が高くなるように前記ドメイン識別モデルを学習する敵対的学習を行い、前記ラベリングモデルのパラメータを得て出力する学習部を有し、
前記論理的関係理解手段は、
前記入力情報系列に含まれる各情報を受け取り、受け取った情報内での論理的関係を考慮した短期中間特徴を出力する複数の短期論理的関係理解手段と、
複数の短期中間特徴からなる短期中間特徴系列を受け取り、前記入力情報系列に含まれる複数の情報間での論理的関係を考慮した長期中間特徴系列を出力する長期論理的関係理解手段と、を含み、
前記ラベリング手段は、
前記第1系列として前記長期中間特徴系列を受け取り、前記情報系列に対応するラベル系列の推定ラベル系列を出力し、
前記ドメイン識別モデルは、
前記第2系列として前記短期中間特徴系列を受け取り、前記推定ドメイン情報の系列を出力する短期論理的関係ドメイン識別手段を含む、学習装置。 a logical relationship understanding means for receiving an input information sequence, which is a sequence of a plurality of pieces of information having a logical relationship, and outputting an intermediate feature sequence taking into consideration the logical relationship of the input information sequence;
a labeling means for receiving a first sequence based on the intermediate feature sequence and outputting an estimated label sequence of a label sequence corresponding to the input information sequence;
A labeling model including
a domain discrimination model that receives a second sequence based on the intermediate feature sequence and outputs a sequence of estimated domain information indicating whether each piece of information included in the input information sequence belongs to a source domain or a target domain;
Whereas,
a learning unit that uses, as the input information sequence, teacher data including labeled teacher data which is a labeled learning information sequence belonging to a source domain and unlabeled teacher data which is an unlabeled learning information sequence belonging to a target domain, learns the labeling model so that the estimation accuracy of the estimated label sequence is high and the estimation accuracy of the estimated domain information sequence is low, and performs adversarial learning to learn the domain discrimination model so that the estimation accuracy of the estimated domain information sequence is high, and obtains and outputs parameters of the labeling model,
The logical relationship understanding means includes:
a plurality of short-term logical relationship understanding means for receiving each piece of information included in the input information sequence and outputting short-term intermediate features taking into account logical relationships within the received information;
a long-term logical relationship understanding means for receiving a short-term intermediate feature sequence consisting of a plurality of short-term intermediate features, and outputting a long-term intermediate feature sequence taking into consideration a logical relationship between a plurality of pieces of information included in the input information sequence,
The labeling means comprises:
receiving the long-term intermediate feature sequence as the first sequence, and outputting an estimated label sequence of a label sequence corresponding to the information sequence;
The domain identification model is
a short-term logical relation domain identification means for receiving the short-term intermediate feature sequence as the second sequence and outputting the sequence of estimated domain information;
前記中間特徴系列に基づく第1系列を受け取り、前記入力情報系列に対応するラベル系列の推定ラベル系列を出力するラベリング手段と、
を含むラベリングモデルと、
前記中間特徴系列に基づく第2系列を受け取り、前記入力情報系列に含まれる各情報がソースドメインに属するか、ターゲットドメインに属するか、を表す推定ドメイン情報の系列を出力するドメイン識別モデルと、
に対し、
ソースドメインに属するラベル付きの学習用情報系列であるラベル付き教師データとターゲットドメインに属するラベルなしの学習用情報系列であるラベルなし教師データとを含む教師データを前記入力情報系列として用い、前記推定ラベル系列の推定精度が高く、前記推定ドメイン情報の系列の推定精度が低くなるように前記ラベリングモデルを学習し、前記推定ドメイン情報の系列の推定精度が高くなるように前記ドメイン識別モデルを学習する敵対的学習を行い、前記ラベリングモデルのパラメータを得て出力する学習部を有し、
前記論理的関係理解手段は、
前記入力情報系列に含まれる各情報を受け取り、受け取った情報内での論理的関係を考慮した短期中間特徴を出力する複数の短期論理的関係理解手段と、
複数の短期中間特徴からなる短期中間特徴系列を受け取り、前記入力情報系列に含まれる複数の情報間での論理的関係を考慮した長期中間特徴系列を出力する長期論理的関係理解手段と、を含み、
前記ラベリング手段は、
前記第1系列として前記長期中間特徴系列を受け取り、前記情報系列に対応するラベル系列の推定ラベル系列を出力し、
前記ドメイン識別モデルは、
前記第2系列として前記短期中間特徴系列を受け取り、前記推定ドメイン情報の系列を出力する短期論理的関係ドメイン識別手段、および、前記第2系列として前記長期中間特徴系列を受け取り、前記推定ドメイン情報の系列を出力する長期論理的関係ドメイン識別手段を含む、学習装置。 a logical relationship understanding means for receiving an input information sequence, which is a sequence of a plurality of pieces of information having a logical relationship, and outputting an intermediate feature sequence taking into consideration the logical relationship of the input information sequence;
a labeling means for receiving a first sequence based on the intermediate feature sequence and outputting an estimated label sequence of a label sequence corresponding to the input information sequence;
A labeling model including
a domain discrimination model that receives a second sequence based on the intermediate feature sequence and outputs a sequence of estimated domain information indicating whether each piece of information included in the input information sequence belongs to a source domain or a target domain;
Whereas,
a learning unit that uses, as the input information sequence, teacher data including labeled teacher data which is a labeled learning information sequence belonging to a source domain and unlabeled teacher data which is an unlabeled learning information sequence belonging to a target domain, learns the labeling model so that the estimation accuracy of the estimated label sequence is high and the estimation accuracy of the estimated domain information sequence is low, and performs adversarial learning to learn the domain discrimination model so that the estimation accuracy of the estimated domain information sequence is high, and obtains and outputs parameters of the labeling model,
The logical relationship understanding means includes:
a plurality of short-term logical relationship understanding means for receiving each piece of information included in the input information sequence and outputting short-term intermediate features taking into account logical relationships within the received information;
a long-term logical relationship understanding means for receiving a short-term intermediate feature sequence consisting of a plurality of short-term intermediate features, and outputting a long-term intermediate feature sequence taking into consideration a logical relationship between a plurality of pieces of information included in the input information sequence,
The labeling means comprises:
receiving the long-term intermediate feature sequence as the first sequence, and outputting an estimated label sequence of a label sequence corresponding to the information sequence;
The domain identification model is
A learning device comprising: a short-term logical relational domain identification means for receiving the short-term intermediate feature sequence as the second sequence and outputting the estimated domain information sequence; and a long-term logical relational domain identification means for receiving the long-term intermediate feature sequence as the second sequence and outputting the estimated domain information sequence.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/032505 WO2022044243A1 (en) | 2020-08-28 | 2020-08-28 | Training device, inference device, methods therefor, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2022044243A1 JPWO2022044243A1 (en) | 2022-03-03 |
JP7517435B2 true JP7517435B2 (en) | 2024-07-17 |
Family
ID=
Non-Patent Citations (2)
Title |
---|
PURUSHOTHAM, Sanjay ほか,Variational Recurrent Adversarial Deep Domain Adaptation,5th International Conference on Learning Representations[online],2017年,pp.1-15,[retrieved on 2020.12.25], Retrieved from the Internet: <URL: https://openreview.net/pdf?id=rk9eAFcxg> |
増村 亮 ほか,対話コンテキストを考慮したニューラル通話シーン分割,研究報告情報基礎とアクセス技術(IFAT),日本,一般社団法人 情報処理学会,2019年01月31日,vol.2019-IFAT-133, No.5,pp.1-6,ISSN 2188-8884 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11675827B2 (en) | Multimedia file categorizing, information processing, and model training method, system, and device | |
CN110990559B (en) | Method and device for classifying text, storage medium and processor | |
US11556709B2 (en) | Text autocomplete using punctuation marks | |
JP6615736B2 (en) | Spoken language identification apparatus, method thereof, and program | |
CN112101526A (en) | Knowledge distillation-based model training method and device | |
JP6230987B2 (en) | Language model creation device, language model creation method, program, and recording medium | |
CN115545002A (en) | Method, device, storage medium and equipment for model training and business processing | |
US20230315999A1 (en) | Systems and methods for intent discovery | |
CN112527959A (en) | News classification method based on pooling-free convolution embedding and attention distribution neural network | |
WO2022044243A1 (en) | Training device, inference device, methods therefor, and program | |
US11875128B2 (en) | Method and system for generating an intent classifier | |
JP7517435B2 (en) | Learning device, inference device, their methods, and programs | |
CN116308738B (en) | Model training method, business wind control method and device | |
US11816422B1 (en) | System for suggesting words, phrases, or entities to complete sequences in risk control documents | |
WO2023017568A1 (en) | Learning device, inference device, learning method, and program | |
WO2023224862A1 (en) | Hybrid model and system for predicting quality and identifying features and entities of risk controls | |
JP6633556B2 (en) | Acoustic model learning device, speech recognition device, acoustic model learning method, speech recognition method, and program | |
CN115700555A (en) | Model training method, prediction method, device and electronic equipment | |
US11887620B2 (en) | Language model score calculation apparatus, language model generation apparatus, methods therefor, program, and recording medium | |
WO2021217619A1 (en) | Label smoothing-based speech recognition method, terminal, and medium | |
WO2021117089A1 (en) | Model learning device, voice recognition device, method for same, and program | |
CN114358284A (en) | Method, device and medium for training neural network step by step based on category information | |
CN113344590A (en) | Method and device for model training and complaint rate estimation | |
KR102497436B1 (en) | Method for acquiring information related to a target word based on content including a voice signal | |
KR102583799B1 (en) | Method for detect voice activity in audio data based on anomaly detection |