JP7017176B2 - 学習装置、識別装置、それらの方法、およびプログラム - Google Patents
学習装置、識別装置、それらの方法、およびプログラム Download PDFInfo
- Publication number
- JP7017176B2 JP7017176B2 JP2020500533A JP2020500533A JP7017176B2 JP 7017176 B2 JP7017176 B2 JP 7017176B2 JP 2020500533 A JP2020500533 A JP 2020500533A JP 2020500533 A JP2020500533 A JP 2020500533A JP 7017176 B2 JP7017176 B2 JP 7017176B2
- Authority
- JP
- Japan
- Prior art keywords
- task
- language
- inter
- shared
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 36
- 238000006243 chemical reaction Methods 0.000 claims description 128
- 230000006870 function Effects 0.000 claims description 98
- 239000013598 vector Substances 0.000 claims description 57
- 238000005457 optimization Methods 0.000 claims description 14
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 235000011389 fruit/vegetable juice Nutrition 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2134—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
- G06F18/21345—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis enforcing sparsity or involving a domain transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
- G06Q30/015—Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
- G06Q30/016—After-sales
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Resources & Organizations (AREA)
- Computational Linguistics (AREA)
- Marketing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Pure & Applied Mathematics (AREA)
- Development Economics (AREA)
- Computational Mathematics (AREA)
- Finance (AREA)
- Molecular Biology (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Biophysics (AREA)
- Accounting & Taxation (AREA)
Description
ここで、DISCRIMINATE()は、テキストラベル識別器を規定するパラメータθに従い、入力テキストw=(w1,…,wT)に対して、当該入力テキストwに対応する出力ラベルL^を推定して出力する関数である。ただし、wtは1つの単語を表し、t=1,…,Tであり、Tは入力テキストwに含まれる単語数である。なお、本来「L^」の上付き添え字の「^」は「L」の真上に記載すべきであるが、記載表記の制約上「L^」と表記する場合がある。DISCRIMINATE()の役割は2つのコンポートに分けることができる。一つは入力テキストwを潜在ベクトルhに変換する関数INPUTtoHIDDEN()であり、他方は潜在ベクトルhを出力ラベルL^に変換する関数HIDDENtoOUTPUT()である。これらの関数で従来のテキストラベル識別器を定式化すると以下のようになる。
ここで、hは入力テキストの情報が埋め込まれた潜在ベクトルである。θ={θIN,θOUT}であり、θINはINPUTtoHIDDEN()の処理を規定するパラメータであり、θOUTはHIDDENtoOUTPUT()の処理を規定するパラメータである。
[原理]
まず原理を説明する。実施形態の方式では、単語系列を潜在ベクトルに変換する関数と潜在ベクトルを出力ラベルに変換する関数の2つのコンポートにより構成されるテキストラベル識別器について、異なる言語間、および異なるタスク間でパラメータを共有可能とする。実施形態で説明する識別装置はテキストラベル識別器が実装された装置であり、N種類の言語とM種類のタスク(識別タスク)を扱う。なお、本実施形態で取り扱う「タスク」は「識別タスク」であり、入力テキストに対応する分類(クラス)を識別し、その分類に対応するラベルを出力ラベルとして出力するものである。「分類」は特定のカテゴリについて事象を複数個(所定個)に区分けしたものである。例えば、「発話行為」というカテゴリについての事象は、「質問」「回答」「お礼」「謝罪」などの「分類」に区分けされる。「タスク」の例は、入力テキストに対応する発話意図を識別する発話意図識別、入力テキストに対応する発話行為を識別する発話行為識別、入力テキストに対応する話題を識別する話題識別などである。「言語」は入力テキストの言語である。「言語」の例は日本語、中国語、英語などである。NおよびMの少なくとも一方が2以上の整数である。例えば、NおよびMがともに2以上の整数である。識別装置が日本語、英語、中国語の3言語を扱う場合にはN=3であり、話題識別、発話行為推定識別の2タスクを扱う場合はM=2である。
本実施形態の識別装置は、N個のタスク間共有型変換部A(n)(ただし、n=1,…,N)と、M個の言語間共有型変換部B(m)(ただし、m=1,…,M)を有する。タスク間共有型変換部A(n)の数は、識別装置に実装されたテキストラベル推定器が扱える言語の数と一致する。例えば、日本語、英語、中国語の3言語を扱うテキストラベル推定器が実装された識別装置は、日本語、英語、中国語にそれぞれ対応する3つのタスク間共有型変換部A(1),A(2),A(3)を有する。言語間共有型変換部B(m)の数は、識別装置に実装されたテキストラベル推定器が扱えるタスクの数と一致する。例えば、話題識別、発話行為識別の2つのタスクを扱うテキストラベル推定器が実装された識別装置は、2つの言語間共有型変換部B(1),B(2)を有する。
入力:言語nのテキスト(単語系列)
出力:潜在ベクトル(ユニバーサル潜在ベクトル)
タスク間共有型変換部A(n)(ただし、n=1,…,N)は、どのタスクmのテキストラベル識別を行うかにかかわらず、或る言語nの入力テキスト
入力:潜在ベクトル(ユニバーサル潜在ベクトル)
出力:タスクmについての出力ラベル
言語間共有型変換部B(m)(ただし、m=1,…,M)は、潜在ベクトルhを入力とし、すべてのタスクm=1,…,Mについて、当該潜在ベクトルhに対応する出力ラベル
本実施形態の学習装置は、N種類の言語n=1,…,NにおけるM種類のタスクm=1,…,Mについてのテキストとテキストの正解ラベルとの組を含む学習データDを入力とし、学習処理(機械学習)によって、N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換関数α(1),…,α(N)およびM種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数β(1),…,β(M)を規定する最適化パラメータ群を得て(推定して)出力する。タスク間共有型変換関数α(n)のそれぞれは、或る言語nの入力テキストを入力とし、入力テキストの内容に対応するが言語nに依存しない潜在ベクトルをM個の言語間共有型変換関数β(1),…,β(M)に対して出力するものである。また言語間共有型変換関数β(m)のそれぞれは、N個のタスク間共有型変換関数α(1),…,α(N)の何れかから出力された潜在ベクトルを入力とし、或るタスクmについて潜在ベクトルに対応する出力ラベルを出力するものである。
入力:N種類の言語とM種類のタスクに関するテキストとその正解ラベルとの組を含むデータ群(学習データD)
出力:最適化されたパラメータ(最適化パラメータ群)
学習データDは学習データD(n,m)(ただし、n=1,…,N,m=1,…,M)の集合{D(1,1),…,D(N,M)}である。なお、学習データD(n,m)は言語nにおけるタスクmの学習データである。すなわち、学習データD(n,m)は、言語nのテキストと当該言語nのテキストに対するタスクmのテキストラベル識別の正解ラベルとの組を含むデータ群である。すなわち、N種類の言語n=1,…,NとM種類のタスクm=1,…,Mとのすべての組み合わせについての学習データD(n,m)の集合を学習データDとして用いることができる。例えば、1つの言語の1つのタスクについて1000個のテキストと正解ラベルとの組が準備されている場合、2種類の言語と3種類のタスクとの任意の組み合わせに対応する最適化パラメータ群の学習に1000×2×3=6000個の組からなる学習データDを用いることができる。なお、各学習データD(n,m)におけるテキストと正解ラベルとの組の個数は必ずしも同一でなくてもよい。
を得て出力する。ここで、argmaxθγはγを最大にするパラメータ群θを表し、Dは学習データD={D(1,1),…,D(N,M)}を表し、D(n,m)は学習データDに含まれる言語nにおけるタスクmの学習データを表し、|D(n,m)|はD(n,m)に含まれるテキストの個数を表す。wは学習データに含まれるテキストを表し、Lは学習データに含まれる正解ラベルを表し、P^(L|w)が正解確率を表し、Lがwの正解ラベルである場合にP^(L|w)=1であり、Lがwの正解ラベルでない場合にP^(L|w)=0である。ただし、P^(L|w)は
を表す。P(L|w,θ)は、パラメータ群θによって規定されるN個のタスク間共有型変換関数α(1),…,α(N)およびM個の言語間共有型変換関数β(1),…,β(M)を含むテキストラベル識別器に対し、入力テキストとしてwを入力した際に出力ラベルとしてLが出力される予測確率値を表す。logXはXの対数を表す。logの底はどのようなものもよい。logの底の例は「ネイピア数」「10」「2」などである。パラメータ群θは、タスク間共有型変換関数α(n)(ただし、n=1,…,N)を規定するパラメータ
および言語間共有型変換関数β(m)(ただし、m=1,…,M)を規定するパラメータ
を含む。記載表記の制約上、タスク間共有型変換関数α(n)を規定するパラメータを「θn IN」と表記し、言語間共有型変換関数β(m)を規定するパラメータを「θm OUT」と表記するとθ={θ1 IN,…,θN IN,θ1 OUT,…,θM OUT}となる。この最適化を解くためには、様々な手法を利用できるが、例えば誤差逆伝搬法などを利用できる。誤差逆伝搬法は公知の技術であるため、ここでは説明を省略する。
次に、図面を用いて実施形態を説明する。
<構成>
図1に例示するように、本実施形態の識別システム1は学習装置11および識別装置12を有する。図2に例示するように、本実施形態の学習装置11は記憶部111と学習部112と出力部113とを有する。学習部112は更新部112aと演算部112bとを含む。図3に例示するように、識別装置12は入力部121と選択部122とタスク間共有型変換部123-n(「A(n)」)と言語間共有型変換部124-m(「B(m)」)と出力部125とを有する。
学習装置11による学習処理を説明する。学習処理に先立って、学習装置11の記憶部111に学習データD={D(1,1),…,D(N,M)}(N種類の言語n=1,…,NにおけるM種類のタスクm=1,…,Mについてのテキストとテキストの正解ラベルとの組D(n,m)を含む学習データ)が格納される。学習部112は記憶部111から学習データDを読み込み、学習処理(機械学習)によって、N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換関数α(1),…,α(N)およびM種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数β(1),…,β(M)を規定する最適化パラメータ群θ={θ1 IN,…,θN IN,θ1 OUT,…,θM OUT}を得て出力する。この学習処理では、例えば、演算部112bがパラメータ群を更新するための演算(例えば、損失関数の計算)を行う演算処理と、更新部112aが演算部112bの演算結果(例えば、損失関数の関数値)に基づいてパラメータ群を更新するための更新処理とが繰り返される。この学習処理には様々な公知の手法を利用でき、例えば誤差逆伝搬法などを利用できる。出力部113は学習部112から出力された最適化パラメータ群θを出力する。最適化パラメータ群θは識別装置12に入力され、これによってN種類の言語n=1,…,Nに対応するN個のタスク間共有型変換関数α(1),…,α(N)およびM種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数β(1),…,β(M)が規定される。すなわち、タスク間共有型変換部123-nで使用されるタスク間共有型変換関数α(n)がパラメータθn INによって定められ(式(1))、言語間共有型変換部124-mで使用される言語間共有型変換関数β(m)がパラメータθm OUTによって定められる(式(2))。
図4を用い、識別装置12による識別処理を説明する。
まず或る言語n∈{1,…,N}の入力テキストwnが入力部121に入力される。入力テキストwnは、学習データDに含まれたものであってもよいし、学習データDに含まれないものであってもよい(ステップS121)。入力テキストwnは選択部122に送られ、選択部122は入力テキストwnを言語nに対応するタスク間共有型変換部123-nに送る(ステップS122)。タスク間共有型変換部123-nは、入力テキストwnにタスク間共有型変換関数α(n)を適用し、入力テキストwnの内容に対応するが言語nに依存しない潜在ベクトルhを得(式(1)の演算を行ってhを得)、当該潜在ベクトルhをM個の言語間共有型変換部124-1,…,124-Mに対して出力する(ステップS123-n)。M個の言語間共有型変換部124-1,…,124-Mには当該潜在ベクトルhが入力される。各言語間共有型変換部124-m(ただし、m∈{1,…,M})は、タスク間共有型変換部123-n(N個のタスク間共有型変換部123-1,…,123-Nの何れか)から出力された潜在ベクトルhに言語間共有型変換関数β(m)を適用して、タスクmについて潜在ベクトルhに対応する出力ラベルL^mを得(式(2)の演算を行って出力ラベルL^mを得)、当該出力ラベルL^mを出力する(ステップS124-m)。これにより、識別装置12からM個の出力ラベルL^1,…,L^Mが出力される(ステップS125)。
なお、本発明は上述の実施形態に限定されない。例えば、上述の実施形態では学習装置11と識別装置12とが互いに別の装置であったが、これらの装置が一体であってもよい。また上述の実施形態では学習装置11の記憶部111に格納された学習データを用いて機械学習が行われたが、学習装置11がその外部の記憶部に格納された学習データを用いて機械学習を行ってもよい。あるいは、学習装置11の記憶部111の学習データが更新され、学習装置11が更新後の学習データを用いて機械学習を行ってもよい。また、ステップS125ではM個の出力ラベルL^1,…,L^Mが識別装置12から出力されたが、出力ラベルL^1,…,L^Mのうち選択されたタスクmに対応する出力ラベルのみが出力されてもよい。出力ラベルL^1,…,L^Mのうち選択されたタスクmに対応する出力ラベルのみが出力される場合、選択されていないタスクに対応する言語間共有型変換部124-mの処理が省略されてもよい。
11 学習装置
112 学習部
12 識別装置
123-n タスク間共有型変換部
124-m 言語間共有型変換部
Claims (8)
- N種類の言語n=1,…,NにおけるM種類のタスクm=1,…,Mについてのテキストと前記テキストの正解ラベルとの組を含む学習データを入力とし、学習処理によって、前記N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換関数α(1),…,α(N)および前記M種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数β(1),…,β(M)を規定する最適化パラメータ群を得て出力する学習部を有し、
NおよびMの少なくとも一方が2以上の整数であり、
前記タスク間共有型変換関数α(n)のそれぞれは、或る言語nの入力テキストを入力とし、前記入力テキストの内容に対応するが前記言語nに依存しない潜在ベクトルを、M個の前記言語間共有型変換関数β(1),…,β(M)に対して出力するものであり、
前記言語間共有型変換関数β(m)のそれぞれは、N個の前記タスク間共有型変換関数α(1),…,α(N)の何れかから出力された前記潜在ベクトルを入力とし、或るタスクmについて前記潜在ベクトルに対応する出力ラベルを出力するものである、学習装置。 - 請求項1の学習装置であって、
前記学習部は、パラメータ群によって規定されるN個の前記タスク間共有型変換関数α(1),…,α(N)およびM個の前記言語間共有型変換関数β(1),…,β(M)を含むテキストラベル識別器に対し、前記学習データに含まれた前記テキストを前記入力テキストとして入力した際に、前記入力テキストとして入力された前記テキストの正解ラベルが出力される確率を最大化する前記パラメータ群を前記最適化パラメータ群として得て出力する、学習装置。 - 請求項1または2の学習装置であって、
前記学習部は、前記最適化パラメータ群として
を得て出力するものであり、
argmaxθγはγを最大にするパラメータ群θを表し、D={D(1,1),…,D(N,M)}は前記学習データを表し、D(n,m)は言語nにおけるタスクmの学習データを表し、|D(n,m)|はD(n,m)に含まれる前記テキストの個数を表し、wは前記テキストを表し、Lは前記正解ラベルを表し、Lがwの正解ラベルである場合にP^(L|w)=1であり、Lがwの正解ラベルでない場合にP^(L|w)=0であり、P^(L|w)が
であり、P(L|w,θ)は、前記パラメータ群θによって規定されるN個の前記タスク間共有型変換関数α(1),…,α(N)およびM個の前記言語間共有型変換関数β(1),…,β(M)を含むテキストラベル識別器に対し、前記入力テキストとしてwを入力した際に前記出力ラベルとしてLが出力される予測確率値を表す、学習装置。 - N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換部A(n)と、
M種類のタスクm=1,…,Mに対応するM個の言語間共有型変換部B(m)と、
を有し、
NおよびMの少なくとも一方が2以上の整数であり、
N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換関数α(1),…,α(N)およびM種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数β(1),…,β(M)が規定されており、
前記タスク間共有型変換部A(n)のそれぞれは、或る言語nの入力テキストに前記タスク間共有型変換関数α(n)を適用し、前記入力テキストの内容に対応するが前記言語nに依存しない潜在ベクトルを、M個の前記言語間共有型変換部B(1),…,B(M)に対して出力するものであり、
前記言語間共有型変換部B(m)のそれぞれは、N個の前記タスク間共有型変換部A(1),…,A(N)の何れかから出力された前記潜在ベクトルに前記言語間共有型変換関数β(m)を適用し、或るタスクmについて前記潜在ベクトルに対応する出力ラベルを出力するものである、識別装置。 - 学習装置の学習方法であって、
N種類の言語n=1,…,NにおけるM種類のタスクm=1,…,Mについてのテキストと前記テキストの正解ラベルとの組を含む学習データを入力とし、学習処理によって、前記N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換関数α(1),…,α(N)および前記M種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数β(1),…,β(M)を規定する最適化パラメータ群を得て出力する学習ステップを有し、
NおよびMの少なくとも一方が2以上の整数であり、
前記タスク間共有型変換関数α(n)のそれぞれは、或る言語nの入力テキストを入力とし、前記入力テキストの内容に対応するが前記言語nに依存しない潜在ベクトルを、M個の前記言語間共有型変換関数β(1),…,β(M)に対して出力するものであり、
前記言語間共有型変換関数β(m)のそれぞれは、N個の前記タスク間共有型変換関数α(1),…,α(N)の何れかから出力された前記潜在ベクトルを入力とし、或るタスクmについて前記潜在ベクトルに対応する出力ラベルを出力するものである、学習方法。 - 請求項5の学習方法であって、
前記学習ステップは、前記最適化パラメータ群として
を得て出力するものであり、
argmaxθγはγを最大にするパラメータ群θを表し、D={D(1,1),…,D(N,M)}は前記学習データを表し、D(n,m)は言語nにおけるタスクmの学習データを表し、|D(n,m)|はD(n,m)に含まれる前記テキストの個数を表し、wは前記テキストを表し、Lは前記正解ラベルを表し、Lがwの正解ラベルである場合にP^(L|w)=1であり、Lがwの正解ラベルでない場合にP^(L|w)=0であり、P^(L|w)が
であり、P(L|w,θ)は、前記パラメータ群θによって規定される前記タスク間共有型変換関数α(n)および前記言語間共有型変換関数β(m)を含むテキストラベル識別器に対し、前記入力テキストとしてwを入力した際に前記出力ラベルとしてLが出力される予測確率値を表す、学習方法。 - 識別装置の実行する識別方法であって、
前記識別装置は、
N種類の言語のうちの一の言語n(ただしn∈{1,…,N})の入力テキストを受け付ける入力部と、
N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換部A(n)と、
M種類のタスクm=1,…,Mに対応するM個の言語間共有型変換部B(m)と、を有し、
NおよびMの少なくとも一方が2以上の整数であり、
前記識別装置にはまた、
N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換関数α(1),…,α(N)およびM種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数β(1),…,β(M)が規定されており、
前記タスク間共有型変換部A(n)のそれぞれは、或る言語nの入力テキストに前記タスク間共有型変換関数α(n)を適用し、前記入力テキストの内容に対応するが前記言語nに依存しない潜在ベクトルを、M個の前記言語間共有型変換部B(1),…,B(M)に対して出力するもので、
前記言語間共有型変換部B(m)のそれぞれは、N個の前記タスク間共有型変換部A(1),…,A(N)の何れかから出力された前記潜在ベクトルに前記言語間共有型変換関数β(m)を適用し、或るタスクmについて前記潜在ベクトルに対応する出力ラベルを出力するものであって、
前記識別方法は、
前記入力部が言語k(ただしkは1以上N以下の整数)の入力テキストを受け付ける入力ステップと、
前記言語kに対応する前記タスク間共有型変換部A(k)が、前記言語kの入力テキストに前記タスク間共有型変換関数α(k)を適用し、前記言語kの入力テキストの内容に対応するが前記言語kに依存しない潜在ベクトルを前記M個の言語間共有型変換部B(1),…,B(M)に対して出力するタスク間共有型変換ステップと、
前記タスク間共有型変換部A(k)から出力された前記潜在ベクトルに対し、前記M個の言語間共有型変換部B(1),…,B(M)がそれぞれ、前記言語間共有型変換関数β(1),…,β(M)を適用し、M種類のタスクm=1,…,Mについて前記潜在ベクトルに対応する出力ラベルを出力する言語間共有型変換ステップと、
を有する識別方法。 - 請求項1から3の何れかの学習装置または請求項4の識別装置としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018026105 | 2018-02-16 | ||
JP2018026105 | 2018-02-16 | ||
PCT/JP2019/005194 WO2019159995A1 (ja) | 2018-02-16 | 2019-02-14 | 学習装置、識別装置、それらの方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019159995A1 JPWO2019159995A1 (ja) | 2021-02-04 |
JP7017176B2 true JP7017176B2 (ja) | 2022-02-08 |
Family
ID=67618617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020500533A Active JP7017176B2 (ja) | 2018-02-16 | 2019-02-14 | 学習装置、識別装置、それらの方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210012158A1 (ja) |
JP (1) | JP7017176B2 (ja) |
WO (1) | WO2019159995A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016105232A (ja) | 2014-12-01 | 2016-06-09 | 日本電信電話株式会社 | 言語モデル作成装置、言語モデル作成方法、プログラム、および記録媒体 |
JP2016122336A (ja) | 2014-12-25 | 2016-07-07 | クラリオン株式会社 | 意図推定装置、および意図推定システム |
JP2018026098A (ja) | 2016-08-09 | 2018-02-15 | パナソニックIpマネジメント株式会社 | 識別制御方法及び識別制御装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5885499A (ja) * | 1981-11-18 | 1983-05-21 | 株式会社デンソー | 連続音声認識装置 |
US7512273B2 (en) * | 2004-10-21 | 2009-03-31 | Microsoft Corporation | Digital ink labeling |
US7711747B2 (en) * | 2007-04-06 | 2010-05-04 | Xerox Corporation | Interactive cleaning for automatic document clustering and categorization |
US7925505B2 (en) * | 2007-04-10 | 2011-04-12 | Microsoft Corporation | Adaptation of language models and context free grammar in speech recognition |
US9189472B2 (en) * | 2009-03-30 | 2015-11-17 | Touchtype Limited | System and method for inputting text into small screen devices |
US10387430B2 (en) * | 2015-02-26 | 2019-08-20 | International Business Machines Corporation | Geometry-directed active question selection for question answering systems |
-
2019
- 2019-02-14 WO PCT/JP2019/005194 patent/WO2019159995A1/ja active Application Filing
- 2019-02-14 JP JP2020500533A patent/JP7017176B2/ja active Active
- 2019-02-14 US US16/969,283 patent/US20210012158A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016105232A (ja) | 2014-12-01 | 2016-06-09 | 日本電信電話株式会社 | 言語モデル作成装置、言語モデル作成方法、プログラム、および記録媒体 |
JP2016122336A (ja) | 2014-12-25 | 2016-07-07 | クラリオン株式会社 | 意図推定装置、および意図推定システム |
JP2018026098A (ja) | 2016-08-09 | 2018-02-15 | パナソニックIpマネジメント株式会社 | 識別制御方法及び識別制御装置 |
Also Published As
Publication number | Publication date |
---|---|
US20210012158A1 (en) | 2021-01-14 |
WO2019159995A1 (ja) | 2019-08-22 |
JPWO2019159995A1 (ja) | 2021-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10417350B1 (en) | Artificial intelligence system for automated adaptation of text-based classification models for multiple languages | |
US11868733B2 (en) | Creating a knowledge graph based on text-based knowledge corpora | |
Ozdemir et al. | Feature Engineering Made Easy: Identify unique features from your dataset in order to build powerful machine learning systems | |
JP6928371B2 (ja) | 分類器、分類器の学習方法、分類器における分類方法 | |
CN112084327B (zh) | 在保留语义的同时对稀疏标注的文本文档的分类 | |
US10387430B2 (en) | Geometry-directed active question selection for question answering systems | |
Rodrigues et al. | Sequence labeling with multiple annotators | |
US11915104B2 (en) | Normalizing text attributes for machine learning models | |
EP2991003B1 (en) | Method and apparatus for classification | |
CN109783812B (zh) | 基于自注意力机制的中文命名实体识别方法、系统、装置 | |
JP2011501275A (ja) | 異種データセットからの知識移転を伴うテキスト分類 | |
US11157707B2 (en) | Natural language response improvement in machine assisted agents | |
JP6867276B2 (ja) | モデル学習装置、モデル学習方法、および、予測システム | |
WO2014073206A1 (ja) | 情報処理装置、及び、情報処理方法 | |
JP6230987B2 (ja) | 言語モデル作成装置、言語モデル作成方法、プログラム、および記録媒体 | |
WO2017188048A1 (ja) | 作成装置、作成プログラム、および作成方法 | |
US11650996B1 (en) | Determining query intent and complexity using machine learning | |
JP2020135689A (ja) | モデル学習システム、意図解釈システム、モデル学習方法およびモデル学習用プログラム | |
JP7017176B2 (ja) | 学習装置、識別装置、それらの方法、およびプログラム | |
JP7031686B2 (ja) | 画像認識システム、方法およびプログラム、並びにパラメータ学習システム、方法およびプログラム | |
JP2017538226A (ja) | スケーラブルなウェブデータの抽出 | |
JP2016162163A (ja) | 情報処理装置及び情報処理プログラム | |
US20220215287A1 (en) | Self-supervised pretraining through text alignment | |
WO2021017953A1 (en) | Dual monolingual cross-entropy-delta filtering of noisy parallel data | |
CN114358011A (zh) | 命名实体提取方法与装置以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200813 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200813 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211102 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211228 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7017176 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |