JP7017176B2 - 学習装置、識別装置、それらの方法、およびプログラム - Google Patents

学習装置、識別装置、それらの方法、およびプログラム Download PDF

Info

Publication number
JP7017176B2
JP7017176B2 JP2020500533A JP2020500533A JP7017176B2 JP 7017176 B2 JP7017176 B2 JP 7017176B2 JP 2020500533 A JP2020500533 A JP 2020500533A JP 2020500533 A JP2020500533 A JP 2020500533A JP 7017176 B2 JP7017176 B2 JP 7017176B2
Authority
JP
Japan
Prior art keywords
task
language
inter
shared
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020500533A
Other languages
English (en)
Other versions
JPWO2019159995A1 (ja
Inventor
亮 増村
智大 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2019159995A1 publication Critical patent/JPWO2019159995A1/ja
Application granted granted Critical
Publication of JP7017176B2 publication Critical patent/JP7017176B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • G06F18/21345Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis enforcing sparsity or involving a domain transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • G06Q30/015Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
    • G06Q30/016After-sales
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Resources & Organizations (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Development Economics (AREA)
  • Computational Mathematics (AREA)
  • Finance (AREA)
  • Molecular Biology (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Biophysics (AREA)
  • Accounting & Taxation (AREA)

Description

本発明は、テキストから特定のタスクについてテキストラベル識別を行うテキストラベル識別技術に関し、特に複数の言語の複数のタスクをサポートするテキストラベル識別技術に関する。
テキストから特定のタスクについてラベル識別を行うテキストラベル識別技術が知られている。例えば、チャットボットを含む対話システムでは、ユーザの入力テキストから、発話意図識別、発話行為識別、話題識別などの複数のタスクについてテキストラベル識別を行い、その識別結果に基づいてシステムのアクションを決定することが一般的である。従来のテキストラベル識別技術では、対象のタスクごとにテキストラベル識別器を設け、各タスクについてテキストラベル識別を行っていた。例えば、発話行為識別のタスクでは、あらかじめ規定された数の発話行為を表すラベル(例えば30個のラベル)について、入力されたテキストに対応するラベルを識別するテキストラベル識別器が構築され、テキストラベル識別が行われていた。例えば「ジュースはこのお店に売っていますか?」という入力テキストに対して、「質問」というラベルを与える役割を、テキストラベル識別器が担っている。このようなテキストラベル識別器の性能を向上させることは重要であり、前述の対話システムではその性能により、対話の円滑さが左右される。
このようなテキストラベル識別器は、テキストとその正解ラベルとの組を含む学習データを大量に準備して機械学習によって構築することが一般的である。すなわち、テキスト(単語系列)ごとにラベルが付与されたデータを大量に準備しておくことで、テキストラベル識別器を自動で学習する。この学習には様々な機械学習技術を適用可能であり、例えば、深層学習などの機械学習技術を用いることができる。代表的な深層学習方法としては、Recurrent Neural Network(RNN)やConvolutional Neural Network (CNN)などを例示できる(非特許文献1,2等参照)。
RNNやCNNなどの従来のテキストラベル識別器は以下のように定式化される。
Figure 0007017176000001

ここで、DISCRIMINATE()は、テキストラベル識別器を規定するパラメータθに従い、入力テキストw=(w,…,w)に対して、当該入力テキストwに対応する出力ラベルL^を推定して出力する関数である。ただし、wは1つの単語を表し、t=1,…,Tであり、Tは入力テキストwに含まれる単語数である。なお、本来「L^」の上付き添え字の「^」は「L」の真上に記載すべきであるが、記載表記の制約上「L^」と表記する場合がある。DISCRIMINATE()の役割は2つのコンポートに分けることができる。一つは入力テキストwを潜在ベクトルhに変換する関数INPUTtoHIDDEN()であり、他方は潜在ベクトルhを出力ラベルL^に変換する関数HIDDENtoOUTPUT()である。これらの関数で従来のテキストラベル識別器を定式化すると以下のようになる。
Figure 0007017176000002

Figure 0007017176000003

ここで、hは入力テキストの情報が埋め込まれた潜在ベクトルである。θ={θINOUT}であり、θINはINPUTtoHIDDEN()の処理を規定するパラメータであり、θOUTはHIDDENtoOUTPUT()の処理を規定するパラメータである。
従来技術では、特定の言語(例えば、日本語、中国語、英語など)における特定のタスク(識別タスク、例えば、発話意図識別、発話行為識別、話題識別など)に特化した学習データを用い、特定の言語における特定のタスクに特化したテキストラベル識別器を学習していた。つまり、言語およびタスクの少なくとも一方が異なるテキストラベル識別器のパラメータの学習には、互いに完全に相違する学習データが用いられていた。
Suman Ravuri, Andreas Stolcke,"Recurrent Neural Network and LSTM Models for Lexical Utterance Classification," In Proc. INTERSPEECH, pp. 135-139, 2015. Yoon Kim,"Convolutional Neural Networks for Sentence Classification," In Proc. EMNLP, pp. 1746-1751, 2014.
しかし、特定の言語の特定のタスクに特化した学習データを十分に準備することは難しい。そのため、パラメータを十分に学習することができず、性能の低いテキストラベル識別器が構築されてしまう場合があった。これは、言語およびタスクの少なくとも一方が異なるテキストラベル識別器を規定するパラメータが互いに完全に相違していたことに起因する。
本発明はこのような点に鑑みてなされたものであり、複数の言語の複数のタスクについて性能の高いテキストラベル識別を行うことである。
N種類の言語n=1,…,NにおけるM種類のタスクm=1,…,Mについてのテキストとテキストの正解ラベルとの組を含む学習データを入力とし、学習処理によって、N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換関数α(1),…,α(N)およびM種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数β(1),…,β(M)を規定する最適化パラメータ群を得て出力する。ここで、NおよびMは2以上の整数である。タスク間共有型変換関数α(n)のそれぞれは、或る言語nの入力テキストを入力とし、入力テキストの内容に対応するが言語nに依存しない潜在ベクトルを、M個の言語間共有型変換関数β(1),…,β(M)に対して出力するものである。言語間共有型変換関数β(m)のそれぞれは、N個のタスク間共有型変換関数α(1),…,α(N)の何れかから出力された潜在ベクトルを入力とし、或るタスクmについて潜在ベクトルに対応する出力ラベルを出力するものである。
これにより、複数の言語の複数のタスクについて性能の高いテキストラベル識別を行うことができる。
図1は実施形態の識別システムの機能構成を示すブロック図である。 図2は実施形態の学習装置の機能構成を示すブロック図である。 図3は実施形態の識別装置の機能構成を示すブロック図である。 図4は実施形態の識別処理を説明するためのフロー図である。
以下、本発明の実施形態を説明する。
[原理]
まず原理を説明する。実施形態の方式では、単語系列を潜在ベクトルに変換する関数と潜在ベクトルを出力ラベルに変換する関数の2つのコンポートにより構成されるテキストラベル識別器について、異なる言語間、および異なるタスク間でパラメータを共有可能とする。実施形態で説明する識別装置はテキストラベル識別器が実装された装置であり、N種類の言語とM種類のタスク(識別タスク)を扱う。なお、本実施形態で取り扱う「タスク」は「識別タスク」であり、入力テキストに対応する分類(クラス)を識別し、その分類に対応するラベルを出力ラベルとして出力するものである。「分類」は特定のカテゴリについて事象を複数個(所定個)に区分けしたものである。例えば、「発話行為」というカテゴリについての事象は、「質問」「回答」「お礼」「謝罪」などの「分類」に区分けされる。「タスク」の例は、入力テキストに対応する発話意図を識別する発話意図識別、入力テキストに対応する発話行為を識別する発話行為識別、入力テキストに対応する話題を識別する話題識別などである。「言語」は入力テキストの言語である。「言語」の例は日本語、中国語、英語などである。NおよびMの少なくとも一方が2以上の整数である。例えば、NおよびMがともに2以上の整数である。識別装置が日本語、英語、中国語の3言語を扱う場合にはN=3であり、話題識別、発話行為推定識別の2タスクを扱う場合はM=2である。
実施形態で説明する識別装置は、N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換部(タスク間共有型単語系列潜在ベクトル変換部)A(n)と、M種類のタスクm=1,…,Mに対応するM個の言語間共有型変換部(言語間共有型潜在変数出力ラベル変換部)B(m)とを含む。後述する機械学習によって、N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換関数(タスク間共有型変換モデル)α(1),…,α(N)およびM種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数(言語間共有型変換モデル)β(1),…,β(M)が規定されている。タスク間共有型変換部A(n)のそれぞれは、或る言語nの入力テキストにタスク間共有型変換関数α(n)を適用し、入力テキストの内容に対応するが言語nに依存しない潜在ベクトルを、M個の言語間共有型変換部B(1),…,B(M)に対して出力する。言語間共有型変換部B(m)のそれぞれは、N個の前記タスク間共有型変換部A(1),…,A(N)の何れかから出力された潜在ベクトルに言語間共有型変換関数β(m)を適用し(作用させ)、或るタスクmについて潜在ベクトルに対応する出力ラベルを出力する。タスク間共有型変換部A(n)は、同一の言語nを扱うテキストラベル推定器が共用する部位である。例えば、日本語の話題識別と日本語の発話行為識別の両方を扱うテキストラベル識別器は、同一のパラメータによって規定されたタスク間共有型変換関数α(n)を用いる同一のタスク間共有型変換部A(n)を使用する。「潜在ベクトル」は、入力テキストの内容についての情報が埋め込まれたベクトル(例えば、固定長のベクトル)である。「潜在ベクトル」は入力テキストの内容に対応するが、入力テキストの言語には依存しない。すなわち、言語にかかわらず、同じ内容の入力テキストには同じ「潜在ベクトル」が対応する。言語間共有型変換部B(m)は、同一のタスクmを取り扱うテキストラベル識別器が共用する部位である。つまり、英語の話題識別を行うテキストラベル識別器と、日本語の話題識別の両者のテキストラベル識別器とは、互いに同一のパラメータによって規定される言語間共有型変換関数β(m)を用いる同一の言語間共有型変換部B(m)を使用する。N種類の言語とM種類のタスクを扱う場合、従来方式では、言語とタスクの組ごとにテキストラベル識別器を準備する必要があった。すなわち、N*M個の「入力テキストを潜在ベクトルに変換する関数」とN*M個の「潜在ベクトルを出力ラベルに変換する関数」とが必要あった。これに対し、本実施形態の方式では、N個のタスク間共有型変換関数α(1),…,α(N)とM個の言語間共有型変換関数β(1),…,β(M)によって、N種類の言語とM種類のタスクを扱うテキストラベル識別器を構築できる。さらに本実施形態の方式では、N種類の言語とM種類のタスクとのすべての組み合わせについての学習データの集合を用いて機械学習を行うことができるため(詳細は後述)、各言語による各タスクの学習データが少ない場合でも、高い性能のテキストラベル推定器を構築できる。また、十分な学習データが得られる場合には、より一般化されたパラメータを獲得することができるため、従来のように各言語のタスクごとにテキストラベル推定器を構築する場合と比較して、性能の高いテキストラベル推定器を構築できる。
<識別装置>
本実施形態の識別装置は、N個のタスク間共有型変換部A(n)(ただし、n=1,…,N)と、M個の言語間共有型変換部B(m)(ただし、m=1,…,M)を有する。タスク間共有型変換部A(n)の数は、識別装置に実装されたテキストラベル推定器が扱える言語の数と一致する。例えば、日本語、英語、中国語の3言語を扱うテキストラベル推定器が実装された識別装置は、日本語、英語、中国語にそれぞれ対応する3つのタスク間共有型変換部A(1),A(2),A(3)を有する。言語間共有型変換部B(m)の数は、識別装置に実装されたテキストラベル推定器が扱えるタスクの数と一致する。例えば、話題識別、発話行為識別の2つのタスクを扱うテキストラベル推定器が実装された識別装置は、2つの言語間共有型変換部B(1),B(2)を有する。
≪タスク間共有型変換部A(n)≫
入力:言語nのテキスト(単語系列)
出力:潜在ベクトル(ユニバーサル潜在ベクトル)
タスク間共有型変換部A(n)(ただし、n=1,…,N)は、どのタスクmのテキストラベル識別を行うかにかかわらず、或る言語nの入力テキスト
Figure 0007017176000004
を潜在ベクトルhに変換する。ただし、
Figure 0007017176000005
は1つの単語を表し、t=1,…,Tであり、Tは入力テキストwに含まれる単語数である。つまり、タスク間共有型変換部A(n)は言語nごとに構成される。タスク間共有型変換部A(n)では以下の変換を行う。
Figure 0007017176000006
潜在ベクトルhはユニバーサル潜在ベクトルであり、入力テキストwの言語nによらない。ここで
Figure 0007017176000007
は言語nの入力テキストwを扱うテキストラベル識別を行う場合に利用されるパラメータ(モデルパラメータ)であり、対象のタスクmにかかわらず利用されるものである(すなわち、このパラメータは、或る言語nの入力テキストに対する全てのタスクm=1,…,Mのテキストラベル識別において共用される)。記載表記の制約上、以下ではこのパラメータを「θ IN」と表記する場合がある。パラメータθ INは入力テキストwを潜在ベクトルhに変換する関数INPUTtoHIDDEN()の処理を規定するものである。タスク間共有型変換部A(n)は、パラメータθ INによって処理が規定された関数INPUTtoHIDDEN()(パラメータθ INによって規定されたタスク間共有型変換関数α(n))を入力テキストwに適用し、入力テキストwに対応する潜在ベクトルhを得て出力する(式(1))。INPUTtoHIDDEN()にはこの機能を持つ任意の関数を利用でき、例えば非特許文献1のRNNや非特許文献2のCNNの機能を実現するための関数を利用できる。パラメータθ INの学習には、言語nにおけるM種類のタスクm=1,…,Mについてのテキストと当該テキストの正解ラベルとの組を含む学習データが用いられる。すなわち、言語nの全てのタスクm=1,…,Mに対応する学習データを用いてパラメータθ INが学習される。つまり、言語nの入力テキストに対する全てのタスクm=1,…,Mのテキストラベル識別が可能なようにパラメータθ INが学習される。例えば、学習データに含まれる言語nのテキストに対する全てのタスクm=1,…,Mのテキストラベル識別について誤りが最小となるようなパラメータθ INが学習される。例えば、日本語の入力テキストに対する話題識別のタスクも対話行為推定のタスクも適切に行うことができるようなパラメータθ INが学習される。例えば、話題識別のタスクについても対話行為推定のタスクについても誤りが最小となるように学習される。
≪言語間共有型変換部B(m)≫
入力:潜在ベクトル(ユニバーサル潜在ベクトル)
出力:タスクmについての出力ラベル
言語間共有型変換部B(m)(ただし、m=1,…,M)は、潜在ベクトルhを入力とし、すべてのタスクm=1,…,Mについて、当該潜在ベクトルhに対応する出力ラベル
Figure 0007017176000008
を得て出力する。記載表記の制約上、以下ではこの出力ラベルを「L^」と表記する場合がある。前述のとおり、潜在ベクトルhは入力テキストの言語nに非依存である。言語間共有型変換部B(m)は次式に従い出力ラベルL^を推定する。
Figure 0007017176000009
ここで
Figure 0007017176000010
はタスクmのテキストラベル識別を行う場合に利用されるパラメータ(モデルパラメータ)であり、入力テキストwの言語nにかかわらず利用されるものである(すなわち、このパラメータは、すべての言語n=1,…,Nの入力テキストに対する或るタスクmのテキストラベル識別において共用される)。記載表記の制約上、以下ではこのパラメータを「θ OUT」と表記する場合がある。
Figure 0007017176000011
はタスクmのテキストラベル識別で得られた出力ラベルである。記載表記の制約上、以下では出力ラベルを「L^」と表記する場合がある。パラメータθ OUTは潜在ベクトルhを出力ラベルL^に変換する関数HIDDENtoOUTPUT()の処理を規定するものである。言語間共有型変換部B(m)は、パラメータθ OUTによって処理が規定された関数HIDDENtoOUTPUT()(パラメータθ OUTによって規定された言語間共有型変換関数β(n))に潜在ベクトルhを適用し、潜在ベクトルhに対応する出力ラベルL^を得て出力する(式(2))。HIDDENtoOUTPUT()にはこの機能を持つ任意の関数を利用でき、例えば非特許文献1のRNNや非特許文献2のCNNの機能を実現するための関数を利用できる。パラメータθ OUTの学習には、すべての言語n=1,…,Nにおけるタスクmについてのテキストと当該テキストの正解ラベルとの組を含む学習データが用いられる。すなわち、すべての言語n=1,…,Nのタスクmに対応する学習データを用いてパラメータθ OUTが学習される。つまり、すべての言語n=1,…,Nの入力テキストに対するタスクmのテキストラベル識別が可能なようにパラメータθ OUTが学習される。例えば、学習データに含まれるすべての言語n=1,…,Nのテキストに対するタスクmのテキストラベル識別について誤りが最小となるようなパラメータθ OUTが学習される。例えば、日本語の入力テキストに対する話題識別のタスクも英語の入力テキストに対する話題識別のタスクも適切に行うことができるようなパラメータθ OUTが学習される。例えば、日本語の入力テキストに対しても英語の入力テキストに対しても話題識別の誤りが最小となるように学習される。
<学習装置>
本実施形態の学習装置は、N種類の言語n=1,…,NにおけるM種類のタスクm=1,…,Mについてのテキストとテキストの正解ラベルとの組を含む学習データDを入力とし、学習処理(機械学習)によって、N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換関数α(1),…,α(N)およびM種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数β(1),…,β(M)を規定する最適化パラメータ群を得て(推定して)出力する。タスク間共有型変換関数α(n)のそれぞれは、或る言語nの入力テキストを入力とし、入力テキストの内容に対応するが言語nに依存しない潜在ベクトルをM個の言語間共有型変換関数β(1),…,β(M)に対して出力するものである。また言語間共有型変換関数β(m)のそれぞれは、N個のタスク間共有型変換関数α(1),…,α(N)の何れかから出力された潜在ベクトルを入力とし、或るタスクmについて潜在ベクトルに対応する出力ラベルを出力するものである。
入力:N種類の言語とM種類のタスクに関するテキストとその正解ラベルとの組を含むデータ群(学習データD)
出力:最化されたパラメータ(最適化パラメータ群)
学習データDは学習データD(n,m)(ただし、n=1,…,N,m=1,…,M)の集合{D(1,1),…,D(N,M)}である。なお、学習データD(n,m)は言語nにおけるタスクmの学習データである。すなわち、学習データD(n,m)は、言語nのテキストと当該言語nのテキストに対するタスクmのテキストラベル識別の正解ラベルとの組を含むデータ群である。すなわち、N種類の言語n=1,…,NとM種類のタスクm=1,…,Mとのすべての組み合わせについての学習データD(n,m)の集合を学習データDとして用いることができる。例えば、1つの言語の1つのタスクについて1000個のテキストと正解ラベルとの組が準備されている場合、2種類の言語と3種類のタスクとの任意の組み合わせに対応する最適化パラメータ群の学習に1000×2×3=6000個の組からなる学習データDを用いることができる。なお、各学習データD(n,m)におけるテキストと正解ラベルとの組の個数は必ずしも同一でなくてもよい。
本実施形態の学習装置は、パラメータ群θによって規定されるN個のタスク間共有型変換関数α(1),…,α(N)およびM個の言語間共有型変換関数β(1),…,β(M)を含むテキストラベル識別器に対し、学習データDに含まれたテキストを入力テキストとして入力した際に、当該入力テキストとして入力されたテキストの正解ラベルが出力される確率を最大化するパラメータ群θを最適化パラメータ群θ^として得て出力する。なお、「θ^」の上付き添え字「^」は本来「θ」の真上に記載すべきであるが、記載表記の制限上θの右上に記載している。例えば、学習装置は、最適化パラメータ群として
Figure 0007017176000012

を得て出力する。ここで、argmaxθγはγを最大にするパラメータ群θを表し、Dは学習データD={D(1,1),…,D(N,M)}を表し、D(n,m)は学習データDに含まれる言語nにおけるタスクmの学習データを表し、|D(n,m)|はD(n,m)に含まれるテキストの個数を表す。wは学習データに含まれるテキストを表し、Lは学習データに含まれる正解ラベルを表し、P^(L|w)が正解確率を表し、Lがwの正解ラベルである場合にP^(L|w)=1であり、Lがwの正解ラベルでない場合にP^(L|w)=0である。ただし、P^(L|w)は
Figure 0007017176000013

を表す。P(L|w,θ)は、パラメータ群θによって規定されるN個のタスク間共有型変換関数α(1),…,α(N)およびM個の言語間共有型変換関数β(1),…,β(M)を含むテキストラベル識別器に対し、入力テキストとしてwを入力した際に出力ラベルとしてLが出力される予測確率値を表す。logXはXの対数を表す。logの底はどのようなものもよい。logの底の例は「ネイピア数」「10」「2」などである。パラメータ群θは、タスク間共有型変換関数α(n)(ただし、n=1,…,N)を規定するパラメータ
Figure 0007017176000014

および言語間共有型変換関数β(m)(ただし、m=1,…,M)を規定するパラメータ
Figure 0007017176000015

を含む。記載表記の制約上、タスク間共有型変換関数α(n)を規定するパラメータを「θ IN」と表記し、言語間共有型変換関数β(m)を規定するパラメータを「θ OUT」と表記するとθ={θ IN,…,θ IN,θ OUT,…,θ OUT}となる。この最適化を解くためには、様々な手法を利用できるが、例えば誤差逆伝搬法などを利用できる。誤差逆伝搬法は公知の技術であるため、ここでは説明を省略する。
[実施形態]
次に、図面を用いて実施形態を説明する。
<構成>
図1に例示するように、本実施形態の識別システム1は学習装置11および識別装置12を有する。図2に例示するように、本実施形態の学習装置11は記憶部111と学習部112と出力部113とを有する。学習部112は更新部112aと演算部112bとを含む。図3に例示するように、識別装置12は入力部121と選択部122とタスク間共有型変換部123-n(「A(n)」)と言語間共有型変換部124-m(「B(m)」)と出力部125とを有する。
<学習処理>
学習装置11による学習処理を説明する。学習処理に先立って、学習装置11の記憶部111に学習データD={D(1,1),…,D(N,M)}(N種類の言語n=1,…,NにおけるM種類のタスクm=1,…,Mについてのテキストとテキストの正解ラベルとの組D(n,m)を含む学習データ)が格納される。学習部112は記憶部111から学習データDを読み込み、学習処理(機械学習)によって、N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換関数α(1),…,α(N)およびM種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数β(1),…,β(M)を規定する最適化パラメータ群θ={θ IN,…,θ IN,θ OUT,…,θ OUT}を得て出力する。この学習処理では、例えば、演算部112bがパラメータ群を更新するための演算(例えば、損失関数の計算)を行う演算処理と、更新部112aが演算部112bの演算結果(例えば、損失関数の関数値)に基づいてパラメータ群を更新するための更新処理とが繰り返される。この学習処理には様々な公知の手法を利用でき、例えば誤差逆伝搬法などを利用できる。出力部113は学習部112から出力された最適化パラメータ群θを出力する。最適化パラメータ群θは識別装置12に入力され、これによってN種類の言語n=1,…,Nに対応するN個のタスク間共有型変換関数α(1),…,α(N)およびM種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数β(1),…,β(M)が規定される。すなわち、タスク間共有型変換部123-nで使用されるタスク間共有型変換関数α(n)がパラメータθ INによって定められ(式(1))、言語間共有型変換部124-mで使用される言語間共有型変換関数β(m)がパラメータθ OUTによって定められる(式(2))。
<識別処理>
図4を用い、識別装置12による識別処理を説明する。
まず或る言語n∈{1,…,N}の入力テキストwが入力部121に入力される。入力テキストwは、学習データDに含まれたものであってもよいし、学習データDに含まれないものであってもよい(ステップS121)。入力テキストwは選択部122に送られ、選択部122は入力テキストwを言語nに対応するタスク間共有型変換部123-nに送る(ステップS122)。タスク間共有型変換部123-nは、入力テキストwにタスク間共有型変換関数α(n)を適用し、入力テキストwの内容に対応するが言語nに依存しない潜在ベクトルhを得(式(1)の演算を行ってhを得)、当該潜在ベクトルhをM個の言語間共有型変換部124-1,…,124-Mに対して出力する(ステップS123-n)。M個の言語間共有型変換部124-1,…,124-Mには当該潜在ベクトルhが入力される。各言語間共有型変換部124-m(ただし、m∈{1,…,M})は、タスク間共有型変換部123-n(N個のタスク間共有型変換部123-1,…,123-Nの何れか)から出力された潜在ベクトルhに言語間共有型変換関数β(m)を適用して、タスクmについて潜在ベクトルhに対応する出力ラベルL^を得(式(2)の演算を行って出力ラベルL^を得)、当該出力ラベルL^を出力する(ステップS124-m)。これにより、識別装置12からM個の出力ラベルL^,…,L^が出力される(ステップS125)。
[変形例等]
なお、本発明は上述の実施形態に限定されない。例えば、上述の実施形態では学習装置11と識別装置12とが互いに別の装置であったが、これらの装置が一体であってもよい。また上述の実施形態では学習装置11の記憶部111に格納された学習データを用いて機械学習が行われたが、学習装置11がその外部の記憶部に格納された学習データを用いて機械学習を行ってもよい。あるいは、学習装置11の記憶部111の学習データが更新され、学習装置11が更新後の学習データを用いて機械学習を行ってもよい。また、ステップS125ではM個の出力ラベルL^,…,L^が識別装置12から出力されたが、出力ラベルL^,…,L^のうち選択されたタスクmに対応する出力ラベルのみが出力されてもよい。出力ラベルL^,…,L^のうち選択されたタスクmに対応する出力ラベルのみが出力される場合、選択されていないタスクに対応する言語間共有型変換部124-mの処理が省略されてもよい。
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
上記の各装置は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)およびRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、プログラムを用いることなく処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されるのではなく、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。
本発明は、例えば、対話システム等に利用できる。
1 識別システム
11 学習装置
112 学習部
12 識別装置
123-n タスク間共有型変換部
124-m 言語間共有型変換部

Claims (8)

  1. N種類の言語n=1,…,NにおけるM種類のタスクm=1,…,Mについてのテキストと前記テキストの正解ラベルとの組を含む学習データを入力とし、学習処理によって、前記N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換関数α(1),…,α(N)および前記M種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数β(1),…,β(M)を規定する最適化パラメータ群を得て出力する学習部を有し、
    NおよびMの少なくとも一方が2以上の整数であり、
    前記タスク間共有型変換関数α(n)のそれぞれは、或る言語nの入力テキストを入力とし、前記入力テキストの内容に対応するが前記言語nに依存しない潜在ベクトルを、M個の前記言語間共有型変換関数β(1),…,β(M)に対して出力するものであり、
    前記言語間共有型変換関数β(m)のそれぞれは、N個の前記タスク間共有型変換関数α(1),…,α(N)の何れかから出力された前記潜在ベクトルを入力とし、或るタスクmについて前記潜在ベクトルに対応する出力ラベルを出力するものである、学習装置。
  2. 請求項1の学習装置であって、
    前記学習部は、パラメータ群によって規定されるN個の前記タスク間共有型変換関数α(1),…,α(N)およびM個の前記言語間共有型変換関数β(1),…,β(M)を含むテキストラベル識別器に対し、前記学習データに含まれた前記テキストを前記入力テキストとして入力した際に、前記入力テキストとして入力された前記テキストの正解ラベルが出力される確率を最大化する前記パラメータ群を前記最適化パラメータ群として得て出力する、学習装置。
  3. 請求項1または2の学習装置であって、
    前記学習部は、前記最適化パラメータ群として
    Figure 0007017176000016

    を得て出力するものであり、
    argmaxθγはγを最大にするパラメータ群θを表し、D={D(1,1),…,D(N,M)}は前記学習データを表し、D(n,m)は言語nにおけるタスクmの学習データを表し、|D(n,m)|はD(n,m)に含まれる前記テキストの個数を表し、wは前記テキストを表し、Lは前記正解ラベルを表し、Lがwの正解ラベルである場合にP^(L|w)=1であり、Lがwの正解ラベルでない場合にP^(L|w)=0であり、P^(L|w)が
    Figure 0007017176000017

    であり、P(L|w,θ)は、前記パラメータ群θによって規定されるN個の前記タスク間共有型変換関数α(1),…,α(N)およびM個の前記言語間共有型変換関数β(1),…,β(M)を含むテキストラベル識別器に対し、前記入力テキストとしてwを入力した際に前記出力ラベルとしてLが出力される予測確率値を表す、学習装置。
  4. N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換部A(n)と、
    M種類のタスクm=1,…,Mに対応するM個の言語間共有型変換部B(m)と、
    を有し、
    NおよびMの少なくとも一方が2以上の整数であり、
    N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換関数α(1),…,α(N)およびM種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数β(1),…,β(M)が規定されており、
    前記タスク間共有型変換部A(n)のそれぞれは、或る言語nの入力テキストに前記タスク間共有型変換関数α(n)を適用し、前記入力テキストの内容に対応するが前記言語nに依存しない潜在ベクトルを、M個の前記言語間共有型変換部B(1),…,B(M)に対して出力するものであり、
    前記言語間共有型変換部B(m)のそれぞれは、N個の前記タスク間共有型変換部A(1),…,A(N)の何れかから出力された前記潜在ベクトルに前記言語間共有型変換関数β(m)を適用し、或るタスクmについて前記潜在ベクトルに対応する出力ラベルを出力するものである、識別装置。
  5. 学習装置の学習方法であって、
    N種類の言語n=1,…,NにおけるM種類のタスクm=1,…,Mについてのテキストと前記テキストの正解ラベルとの組を含む学習データを入力とし、学習処理によって、前記N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換関数α(1),…,α(N)および前記M種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数β(1),…,β(M)を規定する最適化パラメータ群を得て出力する学習ステップを有し、
    NおよびMの少なくとも一方が2以上の整数であり、
    前記タスク間共有型変換関数α(n)のそれぞれは、或る言語nの入力テキストを入力とし、前記入力テキストの内容に対応するが前記言語nに依存しない潜在ベクトルを、M個の前記言語間共有型変換関数β(1),…,β(M)に対して出力するものであり、
    前記言語間共有型変換関数β(m)のそれぞれは、N個の前記タスク間共有型変換関数α(1),…,α(N)の何れかから出力された前記潜在ベクトルを入力とし、或るタスクmについて前記潜在ベクトルに対応する出力ラベルを出力するものである、学習方法。
  6. 請求項5の学習方法であって、
    前記学習ステップは、前記最適化パラメータ群として
    Figure 0007017176000018

    を得て出力するものであり、
    argmaxθγはγを最大にするパラメータ群θを表し、D={D(1,1),…,D(N,M)}は前記学習データを表し、D(n,m)は言語nにおけるタスクmの学習データを表し、|D(n,m)|はD(n,m)に含まれる前記テキストの個数を表し、wは前記テキストを表し、Lは前記正解ラベルを表し、Lがwの正解ラベルである場合にP^(L|w)=1であり、Lがwの正解ラベルでない場合にP^(L|w)=0であり、P^(L|w)が
    Figure 0007017176000019

    であり、P(L|w,θ)は、前記パラメータ群θによって規定される前記タスク間共有型変換関数α(n)および前記言語間共有型変換関数β(m)を含むテキストラベル識別器に対し、前記入力テキストとしてwを入力した際に前記出力ラベルとしてLが出力される予測確率値を表す、学習方法。
  7. 識別装置の実行する識別方法であって、
    前記識別装置は、
    N種類の言語のうちの一の言語n(ただしn∈{1,…,N})の入力テキストを受け付ける入力部と、
    N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換部A(n)と、
    M種類のタスクm=1,…,Mに対応するM個の言語間共有型変換部B(m)と、を有し、
    NおよびMの少なくとも一方が2以上の整数であり、
    前記識別装置にはまた、
    N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換関数α(1),…,α(N)およびM種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数β(1),…,β(M)が規定されており、
    前記タスク間共有型変換部A(n)のそれぞれは、或る言語nの入力テキストに前記タスク間共有型変換関数α(n)を適用し、前記入力テキストの内容に対応するが前記言語nに依存しない潜在ベクトルをM個の前記言語間共有型変換部B(1),…,B(M)に対して出力するもので、
    前記言語間共有型変換部B(m)のそれぞれは、N個の前記タスク間共有型変換部A(1),…,A(N)の何れかから出力された前記潜在ベクトルに前記言語間共有型変換関数β(m)を適用し、或るタスクmについて前記潜在ベクトルに対応する出力ラベルを出力するものであって、
    前記識別方法は、
    前記入力部が言語k(ただしkは1以上N以下の整数)の入力テキストを受け付ける入力ステップと、
    前記言語kに対応する前記タスク間共有型変換部A(k)が、前記言語kの入力テキストに前記タスク間共有型変換関数α(k)を適用し、前記言語kの入力テキストの内容に対応するが前記言語kに依存しない潜在ベクトルを前記M個の言語間共有型変換部B(1),…,B(M)に対して出力するタスク間共有型変換ステップと、
    前記タスク間共有型変換部A(k)から出力された前記潜在ベクトルに対し、前記M個の言語間共有型変換部B(1),…,B(M)がそれぞれ、前記言語間共有型変換関数β(1),…,β(M)を適用し、M種類のタスクm=1,…,Mについて前記潜在ベクトルに対応する出力ラベルを出力する言語間共有型変換ステップと、
    を有する識別方法。
  8. 請求項1から3の何れかの学習装置または請求項4の識別装置としてコンピュータを機能させるためのプログラム。
JP2020500533A 2018-02-16 2019-02-14 学習装置、識別装置、それらの方法、およびプログラム Active JP7017176B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018026105 2018-02-16
JP2018026105 2018-02-16
PCT/JP2019/005194 WO2019159995A1 (ja) 2018-02-16 2019-02-14 学習装置、識別装置、それらの方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2019159995A1 JPWO2019159995A1 (ja) 2021-02-04
JP7017176B2 true JP7017176B2 (ja) 2022-02-08

Family

ID=67618617

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020500533A Active JP7017176B2 (ja) 2018-02-16 2019-02-14 学習装置、識別装置、それらの方法、およびプログラム

Country Status (3)

Country Link
US (1) US20210012158A1 (ja)
JP (1) JP7017176B2 (ja)
WO (1) WO2019159995A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016105232A (ja) 2014-12-01 2016-06-09 日本電信電話株式会社 言語モデル作成装置、言語モデル作成方法、プログラム、および記録媒体
JP2016122336A (ja) 2014-12-25 2016-07-07 クラリオン株式会社 意図推定装置、および意図推定システム
JP2018026098A (ja) 2016-08-09 2018-02-15 パナソニックIpマネジメント株式会社 識別制御方法及び識別制御装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5885499A (ja) * 1981-11-18 1983-05-21 株式会社デンソー 連続音声認識装置
US7512273B2 (en) * 2004-10-21 2009-03-31 Microsoft Corporation Digital ink labeling
US7711747B2 (en) * 2007-04-06 2010-05-04 Xerox Corporation Interactive cleaning for automatic document clustering and categorization
US7925505B2 (en) * 2007-04-10 2011-04-12 Microsoft Corporation Adaptation of language models and context free grammar in speech recognition
US9189472B2 (en) * 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices
US10387430B2 (en) * 2015-02-26 2019-08-20 International Business Machines Corporation Geometry-directed active question selection for question answering systems

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016105232A (ja) 2014-12-01 2016-06-09 日本電信電話株式会社 言語モデル作成装置、言語モデル作成方法、プログラム、および記録媒体
JP2016122336A (ja) 2014-12-25 2016-07-07 クラリオン株式会社 意図推定装置、および意図推定システム
JP2018026098A (ja) 2016-08-09 2018-02-15 パナソニックIpマネジメント株式会社 識別制御方法及び識別制御装置

Also Published As

Publication number Publication date
US20210012158A1 (en) 2021-01-14
WO2019159995A1 (ja) 2019-08-22
JPWO2019159995A1 (ja) 2021-02-04

Similar Documents

Publication Publication Date Title
US10417350B1 (en) Artificial intelligence system for automated adaptation of text-based classification models for multiple languages
US11868733B2 (en) Creating a knowledge graph based on text-based knowledge corpora
Ozdemir et al. Feature Engineering Made Easy: Identify unique features from your dataset in order to build powerful machine learning systems
JP6928371B2 (ja) 分類器、分類器の学習方法、分類器における分類方法
CN112084327B (zh) 在保留语义的同时对稀疏标注的文本文档的分类
US10387430B2 (en) Geometry-directed active question selection for question answering systems
Rodrigues et al. Sequence labeling with multiple annotators
US11915104B2 (en) Normalizing text attributes for machine learning models
EP2991003B1 (en) Method and apparatus for classification
CN109783812B (zh) 基于自注意力机制的中文命名实体识别方法、系统、装置
JP2011501275A (ja) 異種データセットからの知識移転を伴うテキスト分類
US11157707B2 (en) Natural language response improvement in machine assisted agents
JP6867276B2 (ja) モデル学習装置、モデル学習方法、および、予測システム
WO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
JP6230987B2 (ja) 言語モデル作成装置、言語モデル作成方法、プログラム、および記録媒体
WO2017188048A1 (ja) 作成装置、作成プログラム、および作成方法
US11650996B1 (en) Determining query intent and complexity using machine learning
JP2020135689A (ja) モデル学習システム、意図解釈システム、モデル学習方法およびモデル学習用プログラム
JP7017176B2 (ja) 学習装置、識別装置、それらの方法、およびプログラム
JP7031686B2 (ja) 画像認識システム、方法およびプログラム、並びにパラメータ学習システム、方法およびプログラム
JP2017538226A (ja) スケーラブルなウェブデータの抽出
JP2016162163A (ja) 情報処理装置及び情報処理プログラム
US20220215287A1 (en) Self-supervised pretraining through text alignment
WO2021017953A1 (en) Dual monolingual cross-entropy-delta filtering of noisy parallel data
CN114358011A (zh) 命名实体提取方法与装置以及电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200813

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211228

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220110

R150 Certificate of patent or registration of utility model

Ref document number: 7017176

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150