JP2018097468A - 文分類学習装置、文分類装置、文分類学習方法、及び文分類学習プログラム - Google Patents

文分類学習装置、文分類装置、文分類学習方法、及び文分類学習プログラム Download PDF

Info

Publication number
JP2018097468A
JP2018097468A JP2016239472A JP2016239472A JP2018097468A JP 2018097468 A JP2018097468 A JP 2018097468A JP 2016239472 A JP2016239472 A JP 2016239472A JP 2016239472 A JP2016239472 A JP 2016239472A JP 2018097468 A JP2018097468 A JP 2018097468A
Authority
JP
Japan
Prior art keywords
sentence
classification
learning
label
clue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016239472A
Other languages
English (en)
Inventor
幸徳 本間
Yukinori Homma
幸徳 本間
九月 貞光
Kugatsu Sadamitsu
九月 貞光
京介 西田
Kyosuke Nishida
京介 西田
東中 竜一郎
Ryuichiro Higashinaka
竜一郎 東中
久子 浅野
Hisako Asano
久子 浅野
松尾 義博
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016239472A priority Critical patent/JP2018097468A/ja
Publication of JP2018097468A publication Critical patent/JP2018097468A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文の分類を精度良く推定することができる文分類学習装置、文分類装置、文分類学習方法、及び文分類学習プログラムを提供する。【解決手段】分類ラベルが付与された対象文と、手がかりラベルが付与された、対象文の前後の参考文とを表す複数の学習データ、分類ラベルが定義された分類ラベル集合、及び手がかりラベルが定義された手がかりラベル集合に基づいて、複数の学習データの各々について、各文の素性を要素とする系列データを生成し、複数の学習データの各々について、参考文に付与された手がかりラベルと、各文の素性とに基づいて、各文の重要度を計算し、複数の学習データの各々についての、各文の重要度、対象文に付与された分類ラベル、及び系列データに基づいて分類ラベル推定モデルを学習する。【選択図】図1

Description

本発明は、機械学習によって文を分類する文分類学習装置、文分類装置、文分類学習方法、及び文分類学習プログラムに係り、特に、文書が与えられた際に、学習データに従って文書中の各文に対して分類を示すラベルを付与するための文分類学習装置、文分類装置、文分類学習方法、及び文分類学習プログラムに関する。
文書中の文を分類する際、周囲の文のコンテキスト情報は精度向上のために有効だと考えられる。例えば、対象としている文(以下、対象文という。)を含む段落の見出し、場合分け条件を示す条件文等の「手がかり文」情報は、文を分類する際の精度向上に効果があると考えられる。この場合には、コンテキスト情報を利用するために、対象文の周囲の全ての文から特徴量を抽出し、分類器の入力とする等の手法が考えられる。
Yang, Zichao, et al. "Hierarchical attention networks for document classification." Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2016. Richard Socher, et al. Dynamic pooling and unfolding recursive autoencoders for paraphrase detection. Advances in neural information processing systems, pp. 801-809, 2011.
しかしながら、コンテキスト情報には、文を分類する際に有効な文と有効ではない文とが含まれる。これらの有効な文と有効ではない文と文を同様に扱った場合には、文を分類する際の精度に悪影響がある。
また、分類器の入力とする学習データが少ない場合には、分類に有効だと考えられる上記「見出し」、「条件文」等が有効でない文として扱われてしまい、精度向上に寄与しない場合がある。
本発明は、以上のような事情に鑑みてなされたものであり、文の分類を精度良く推定することができる文分類学習装置、文分類装置、文分類学習方法、及び文分類学習プログラムを提供することを目的とする。
上記目的を達成するために、本発明の文分類学習装置は、分類ラベルが付与された対象文と、手がかりラベルが付与された、前記対象文の前後の参考文とを表す複数の学習データ、前記分類ラベルが定義された分類ラベル集合、及び前記手がかりラベルが定義された手がかりラベル集合に基づいて、前記複数の学習データの各々について、各文の素性を要素とする系列データを生成する系列データ生成部と、前記複数の学習データの各々について、前記参考文に付与された前記手がかりラベルと、各文の素性とに基づいて、各文の重要度を計算する重要度学習部と、前記複数の学習データの各々についての、各文の重要度、前記対象文に付与された前記分類ラベル、及び前記系列データに基づいて、前記系列データから対象文に付与される分類ラベルを推定するための分類ラベル推定モデルを学習する文分類学習部と、を含む。
なお、前記重要度学習部は、前記複数の学習データの各々についての、前記参考文に付与された前記手がかりラベルと、各文の素性とに基づいて、文の素性から前記文に付与される手がかりラベルを推定するための手がかりラベル推定モデルを学習し、前記複数の学習データの各々について、各文に対し、前記手がかりラベル推定モデルを用いて前記文の素性から前記手がかりラベルの各々の確率値を求め、前記手がかりラベルの各々の確率値と、前記文の素性とに基づいて、前記文の重要度を計算するようにしても良い。
また、前記分類ラベル推定モデルは、前記系列データと対象文の素性とから前記対象文に付与される分類ラベルを推定するためのものであるようにしても良い。
上記目的を達成するために、本発明の文分類装置は、入力された、対象文と前記対象文の前後の参考文とを表す適用データについて、各文の素性を要素とする系列データを生成する系列データ生成部と、前記系列データ生成部によって生成された前記系列データと、請求項1〜3の何れか1項記載の文分類学習装置によって学習された分類ラベル推定モデルとに基づいて、前記対象文に付与される分類ラベルを推定するモデル適用部と、を含む。
上記目的を達成するために、本発明の文分類装置は、入力された、対象文と前記対象文の前後の参考文とを表す適用データについて、各文の素性を要素とする系列データを生成する系列データ生成部と、前記系列データ生成部によって生成された前記系列データと、請求項2記載の文分類学習装置によって学習された分類ラベル推定モデルとに基づいて、前記対象文に付与される分類ラベルを推定し、前記系列データ生成部によって生成された前記系列データと、前記文分類学習装置によって学習された手がかり分類ラベル推定モデルとに基づいて、各文に対し、前記文に付与される手がかりラベル、及び前記文の重要度の少なくとも一方を推定するモデル適用部と、を含む。
上記目的を達成するために、本発明の文分類学習方法は、系列データ生成部、重要度学習部、文分類学習部を有する文分類学習装置における文分類学習方法であって、前記系列データ生成部が、分類ラベルが付与された対象文と、手がかりラベルが付与された、前記対象文の前後の参考文とを表す複数の学習データ、前記分類ラベルが定義された分類ラベル集合、及び前記手がかりラベルが定義された手がかりラベル集合に基づいて、前記複数の学習データの各々について、各文の素性を要素とする系列データを生成するステップと、前記重要度学習部が、前記複数の学習データの各々について、前記参考文に付与された前記手がかりラベルと、各文の素性とに基づいて、各文の重要度を計算するステップと、前記文分類学習部が、前記複数の学習データの各々についての、各文の重要度、前記対象文に付与された前記分類ラベル、及び前記系列データに基づいて、前記系列データから対象文に付与される分類ラベルを推定するための分類ラベル推定モデルを学習するステップと、を行う。
上記目的を達成するために、本発明の文分類学習プログラムは、コンピュータを、上記文分類学習装置の各部として機能させるためのプログラムである。
本発明によれば、文の分類を精度良く推定することができることが可能となる。
実施形態に係る文分類学習装置の構成を示す機能ブロック図である。 実施形態に係る文分類装置の構成を示す機能ブロック図である。 実施形態に係る学習時の解析対象の文章の一例を示す模式図である。 実施形態に係る適用時の解析対象の文章の一例を示す模式図である。 実施形態に係る学習処理の流れを示すフローチャートである。 実施形態に係る適用処理の流れを示すフローチャートである。
以下、本発明の実施形態について図面を用いて説明する。
本実施形態に係る文分類装置は、文を分類するための素性として、対象とする文の前後N個からなる(2N+1)個の長さを持つ文系列データを扱う。その際、各文の重要度を推定するモデルを用いる。例えば、上記非特許文献1に開示されているモデルを文分類として適用したモデルを用いることができる。
また、本実施形態に係る文分類装置は、各文の重要度を推定するモデルの学習時に、「見出し」、「必要条件」等の手がかりラベルに対する分類を学習する機能を加える。
これにより、手がかりラベルに関する分類学習は、分類ラベルに関して分類を学習するのと同時に学習できるとともに、事前に独立して学習することができるため、分類ラベルに関する学習データが少量の場合でも、分類に有効な文と有効でない文とを推定し、精度よく分類ラベルの学習が実施できる。また適用時、文分類と共に、文の分類に重要な文とその手がかりラベルを推定することができる。
図1に示すように、文分類学習装置10は、系列データ生成部16A、重要度学習部18、及び、文分類学習部20を有している。また、図1に示すように、文分類学習装置10には、分類ラベル集合記憶部12、手がかりラベル集合記憶部14、手がかりラベル推定モデル記憶部19、及び、分類ラベル推定モデル記憶部22が接続されている。
また、図2に示すように、文分類装置24は、系列データ生成部16B、及び、モデル適用部26を有している。また、図2に示すように、文分類装置24には、分類ラベル集合記憶部12、手がかりラベル集合記憶部14、手がかりラベル推定モデル記憶部19、及び、分類ラベル推定モデル記憶部22が接続されている。
なお、本実施形態における学習データ30は、一例として図3に示すように、分類ラベル42が付与された対象文と、手がかりラベル44が付与された、対象文の前後の参考文とを含んだデータである。本実施形態では、参考文は、対象文の前後N個(例えば、2個)の文である。具体的には、学習データ30は、順序関係がある複数の文からなる文書の集合(HTML文書、XML文書等)から抽出された、対象文と、対象文の前後の参考文とを含んだデータであり、各文に対して、分類ラベル集合及び手がかりラベル集合に含まれる一つまたは複数のラベルが注釈(アノテート)されている。
また、本実施形態における適用データ32は、一例として図4に示すように、予め定めた対象文と、対象文の前後N個(例えば、2個)の参考文とを含んだデータである。具体的には、適用データ32は、順序関係がある複数の文からなる文書の集合(HTML文書、XML文書等)である。
なお、適用データ32には、分類ラベル及び手がかりラベルが付与されておらず、後述するモデル適用部による処理を行うことにより、適用データ32の対象文に分類ラベル48が付与されると共に、各参考文に手がかりラベル50が付与される。
分類ラベル集合記憶部12には、分類ラベルが定義された分類ラベル集合が記憶されている。分類ラベルは、文に対して付与される任意のラベルである。
さらに、手がかりラベル集合記憶部14には、手がかりラベルが定義された手がかりラベル集合が記憶されている。手がかりラベルは、文に対して付与される任意のラベルである。
系列データ生成部16Aは、複数の学習データ30、分類ラベル集合、及び手がかりラベル集合を入力とし、入力した複数の学習データ30、分類ラベル集合、及び手がかりラベル集合に基づいて、複数の学習データ30の各々について、各文の素性を要素とする系列データを生成し、生成した系列データを出力する。
具体的には、系列データ生成部16Aは、複数の学習データ30の各々に対し、文書中の各文について、前後N個ずつの文を含む(2N+1)個の文にそれぞれ対応する素性を要素とする、(2N+1)の長さを持つ系列データを作成する。文書の末尾等、対応する文が存在しない要素については、全て空を表す文(nil)に対応する要素とする。
系列データの各要素は、素性として、例えば、形態素情報、文書メタ情報、及び、対応する分類ラベル及び手がかりラベルを示す情報を含んでいる。形態素情報は、文中の単語情報であり、文書メタ情報は、例えば文書がHTML文書であった場合には、文に紐づくタグ情報(例えば、<h3>、<li>等)である。
重要度学習部18は、系列データ集合を入力し、系列データの各文について、参考文に付与された手がかりラベルと、各文の素性とに基づいて、各文の重要度を計算し、計算された重要度を出力する。
具体的には、重要度学習部18は、各系列データの各要素を入力として、手がかりラベルと各文の素性とに基づいて、文の素性から当該文に付与される手がかりラベルを推定するための手がかりラベル推定モデルを学習する。また、重要度学習部18は、複数の学習データの各々について、各文に対し、手がかりラベル推定モデルを用いて当該文の素性から手がかりラベルの各々の確率値を求め、手がかりラベルの各々の確率値と、当該文の素性とに基づいて、文の重要度を計算する。
ここで、重要度の計算手法の一例について説明する。
まず、i番目の文に対する手がかりラベルの確率値lは、下記(1)式に示す手がかりラベル推定モデルで計算される。ただし、lは各手がかりラベルの確率値を表すベクトルであり、hは、i番目の文素性(ベクトル)であり、σはシグモイド関数であり、W、bは、モデルパラメータを表し、学習により設定される。

…(1)
また、学習データの各文の重要度は、下記(2)式及び下記(3)式で計算される。ただし、aは、系列データのi番目の文に関する重要度であり、W、b、u、W、bは、モデルパラメータを示す。

…(2)

…(3)
また、モデルパラメータの学習においては、確率値lについて、新たに下記の尤度関数Lを設定し、下記(4)式に示す尤度関数を最適化するように、モデルパラメータの学習を行う。ただし、tは、正解ラベルを1とし、他を0としたベクトルを表す。

…(4)
なお、素性と手がかりラベルの確率値とに基づいて重要度を計算する際には、素性及び手がかりラベルの確率値以外の情報を入力としてもよい。例えば、各要素と対象とする文との類似度が考えられる。類似度計算には、上記非特許文献2に開示された技術を用いることができる。
また、重要度の計算に関する学習は、文分類学習部20と独立に実施しても良い。
文分類学習部20は、複数の学習データ30の各々についての、各文の重要度、対象文に付与された分類ラベル、及び系列データに基づいて、系列データから対象文に付与される分類ラベルを推定するための分類ラベル推定モデルを学習し、学習した分類ラベル推定モデルを出力する。分類ラベル推定モデルは、系列データと対象文の素性とから対象文に付与される分類ラベルを推定するためのものである。
具体的には、文分類学習部20は、得られた系列データに対して、系列データを考慮できるモデルを用いて分類ラベル推定モデルの学習を行う。例えば、分類ラベル推定モデルでは、下記(5)式及び下記(6)式に示すように、上記非特許文献1に開示されているモデルと同様に、系列データの各要素に対する重要度がモデルに入力されると共に、対象文の素性hが明に入力される。

…(5)

…(6)
ただし、vは、重要度を考慮した系列データ全体のベクトルを示す。また、pは、文書中のs番目の文について、各分類ラベルに対する推定確率を示す。また、W、W、bは、モデルパラメータを示す。
なお、本実施形態では、文系列データを扱うモデルにおいて、対象文を明に与えるために、分類モデルに対象文特徴量hを直接入力している。
また、モデルパラメータの学習においては、文書から作成されるS個の系列データについて下記の尤度関数Lを設定し、下記(7)式に示す尤度関数を最適化するように、モデルパラメータの学習を行う。ただし、tは、正解ラベルを1とし、他を0としたベクトルを表す。

…(7)
系列データ生成部16Bは、適用データ32、分類ラベル集合、及び手がかりラベル集合を入力とし、系列データ集合を出力とする。
系列データ生成部16Bは、適用データ32に対し、文書中の各文について、前後N個ずつの文を含む(2N+1)個の文にそれぞれ対応する素性を要素とする、(2N+1)の長さを持つ系列データを作成する。文書の末尾等、対応する文が存在しない要素については、全て空を表す文(nil)に対応する要素とする。
系列データの各要素は、素性として、例えば、形態素情報、及び文書メタ情報を含んでいる。形態素情報は、文中の単語情報であり、文書メタ情報は、例えば文書がHTML文書であった場合には、文に紐づくタグ情報(例えば、<h3>、<li>等)である。
モデル適用部26は、系列データ、手がかり分類ラベル推定モデル、及び分類ラベル推定モデルを入力とし、系列データと、学習済の分類ラベル推定モデルとに基づいて、対象文に付与される分類ラベルを推定し、推定された分類ラベルを出力すると共に、系列データと、手がかり分類ラベル推定モデルとに基づいて、各文に対し、文に付与される手がかりラベル、及び文の重要度の少なくとも一方を推定する。
具体的には、モデル適用部26は、得られた系列データに対し、上記(5)式及び上記(6)式に従って、分類ラベル推定モデルを適用し、系列データに対応する対象文に対して最大の確率を示すラベルを分類結果として出力する。
また、モデル適用部26は、系列データと、学習済の手がかり分類ラベル推定モデルとに基づいて、上記(1)式に従って、各文に対し、最大の確率を示す手がかりラベルを推定結果として出力し、上記(2)式及び上記(3)式に従って、文の重要度を推定する。
このように、手がかりラベルに関する分類学習は、分類ラベルに関する分類学習と同時に学習できるとともに、事前に独立して学習することができるため、分類ラベルに関する学習データが少量の場合でも、分類に有効な文及び有効でない文を推定し、精度良く分類ラベルの学習を実施することが実施できる。
なお、本実施形態に係る文分類学習装置10及び文分類装置24は、例えば、CPU(Central Processing Unit)、RAM(Random Access Memory)、各種プログラムを記憶するROM(Read Only Memory)を備えたコンピュータ装置で構成される。また、文分類学習装置10及び文分類装置24を構成するコンピュータは、ハードディスクドライブ、不揮発性メモリ等の記憶部を備えていても良い。本実施形態では、CPUがROM、ハードディスク等の記憶部に記憶されているプログラムを読み出して実行することにより、上記のハードウェア資源とプログラムとが協働し、上述した機能が実現される。
本実施形態に係る文分類学習装置10による学習処理の流れを、図5に示すフローチャートを用いて説明する。本実施形態では、文分類学習装置10に、学習処理の実行を開始するための予め定めた情報が入力されたタイミングで学習処理が開始されるが、学習処理が開始されるタイミングはこれに限らず、例えば、学習データが入力されたタイミングで学習処理が開始されても良い。
ステップS101では、系列データ生成部16Aが、学習データ30を入力する。
ステップS103では、系列データ生成部16Aが、分類ラベル集合記憶部12から分類ラベル集合を読み出すと共に、手がかりラベル集合記憶部14から手がかりラベル集合を読み出すことにより、分類ラベル集合及び手がかりラベル集合を入力する。
ステップS105では、系列データ生成部16Aが、入力した学習データ、分類ラベル集合、及び手がかりラベル集合から、系列データ集合を作成する。
ステップS107では、重要度学習部18が、学習データの各文に付与された手がかりラベルと、各文の素性とに基づいて、手がかりラベル推定モデルを学習する。また、学習データの各文の素性と、学習された手がかりラベル推定モデルとに基づいて、各文の重要度を計算する。
ステップS109では、文分類学習部20が、複数の学習データの各々についての、各文の重要度、対象文に付与された分類ラベル、及び系列データに基づいて、分類ラベル推定モデルを学習する。
ステップS111では、文分類学習部20が、学習した手がかりラベル推定モデルを手がかりラベル推定モデル記憶部19に記憶させると共に、学習した分類ラベル推定モデルを分類ラベル推定モデル記憶部22に記憶させ、本学習処理のプログラムの実行を終了する。
次に、本実施形態に係る文分類装置24による適用処理の流れを、図6に示すフローチャートを用いて説明する。本実施形態では、文分類装置24に、適用処理の実行を開始するための予め定めた情報が入力されたタイミングで適用処理が開始されるが、適用処理が開始されるタイミングはこれに限らず、例えば、適用データが入力されたタイミングで適用処理が開始されても良い。
ステップS201では、系列データ生成部16Bが、適用データ32を入力する。
ステップS203では、系列データ生成部16Bが、分類ラベル集合記憶部12から分類ラベル集合を読み出すと共に、手がかりラベル集合記憶部14から手がかりラベル集合を読み出すことにより、分類ラベル集合及び手がかりラベル集合を入力する。
ステップS205では、系列データ生成部16Bが、入力した適用データ、分類ラベル集合、及び手がかりラベル集合から、系列データ集合を作成する。
ステップS207では、モデル適用部26が、作成された系列データを、学習された分類ラベル推定モデルに適用して、対象文に付与される分類ラベルを推定する。
ステップS209では、モデル適用部26が、推定された分類ラベルを出力し、本適用処理のプログラムの実行を終了する。なお、本実施形態では、推定された分類ラベルを示すデータをディスプレイ等の表示手段に表示させたり、推定された分類ラベルを示すデータを記憶手段に記憶させたりすることにより、推定された分類ラベルを出力する。
このようにして、本実施形態では、分類ラベルが付与された対象文と、手がかりラベルが付与された、対象文の前後の参考文とを表す複数の学習データ、分類ラベルが定義された分類ラベル集合、及び手がかりラベルが定義された手がかりラベル集合に基づいて、複数の学習データの各々について、各文の素性を要素とする系列データを生成する。また、複数の学習データの各々について、参考文に付与された手がかりラベルと、各文の素性とに基づいて、各文の重要度を計算する。さらに、複数の学習データの各々についての、各文の重要度、対象文に付与された分類ラベル、及び系列データに基づいて、系列データから対象文に付与される分類ラベルを推定するための分類ラベル推定モデルを学習する。
また、本実施形態では、入力された、対象文と対象文の前後の参考文とを表す適用データについて、各文の素性を要素とする系列データを生成し、生成された系列データと、学習された分類ラベル推定モデルとに基づいて、対象文に付与される分類ラベルを推定する。
なお、本実施形態では、分類ラベル集合記憶部12、手がかりラベル集合記憶部14、手がかりラベル推定モデル記憶部19、及び分類ラベル推定モデル記憶部22が、文分類学習装置10及び文分類装置24に接続されている場合について説明した。しかし、これに限らず、分類ラベル集合記憶部12、手がかりラベル集合記憶部14、手がかりラベル推定モデル記憶部19、及び分類ラベル推定モデル記憶部22は、文分類学習装置10及び文分類装置24の少なくとも一方に設けられていても良い。
また、本実施形態では、文分類学習装置10及び文分類装置24が別個に設けられている場合について説明した。しかし、これに限らず、文分類学習装置10及び文分類装置24が一体的な装置として構成されていても良い。
また、本実施形態では、文分類装置24が、系列データと、手がかり分類ラベル推定モデルとに基づいて、各文に対し、文に付与される手がかりラベル、及び文の重要度の少なくとも一方を推定する場合について説明した。しかし、各文に手がかりラベル及び重要度を付与する必要がない場合には、各文に手がかりラベル及び重要度を付与する処理を省略しても良い。
また、本実施形態では、図1に示す機能の構成要素の動作をプログラムとして構築し、文分類学習装置10及び文分類装置24として利用されるコンピュータにインストールして実行させるが、これに限らず、ネットワークを介して流通させても良い。
また、構築されたプログラムをハードディスク、CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールしたり、配布したりしても良い。
10 文分類学習装置
12 分類ラベル集合記憶部
14 手がかりラベル集合記憶部
16 系列データ生成部
18 重要度学習部
19 手がかりラベル推定モデル記憶部
20 文分類学習部
22 分類ラベル推定モデル記憶部
24 文分類装置
26 モデル適用部

Claims (7)

  1. 分類ラベルが付与された対象文と、手がかりラベルが付与された、前記対象文の前後の参考文とを表す複数の学習データ、前記分類ラベルが定義された分類ラベル集合、及び前記手がかりラベルが定義された手がかりラベル集合に基づいて、前記複数の学習データの各々について、各文の素性を要素とする系列データを生成する系列データ生成部と、
    前記複数の学習データの各々について、前記参考文に付与された前記手がかりラベルと、各文の素性とに基づいて、各文の重要度を計算する重要度学習部と、
    前記複数の学習データの各々についての、各文の重要度、前記対象文に付与された前記分類ラベル、及び前記系列データに基づいて、前記系列データから対象文に付与される分類ラベルを推定するための分類ラベル推定モデルを学習する文分類学習部と、
    を含む文分類学習装置。
  2. 前記重要度学習部は、前記複数の学習データの各々についての、前記参考文に付与された前記手がかりラベルと、各文の素性とに基づいて、文の素性から前記文に付与される手がかりラベルを推定するための手がかりラベル推定モデルを学習し、
    前記複数の学習データの各々について、各文に対し、前記手がかりラベル推定モデルを用いて前記文の素性から前記手がかりラベルの各々の確率値を求め、前記手がかりラベルの各々の確率値と、前記文の素性とに基づいて、前記文の重要度を計算する
    請求項1記載の文分類学習装置。
  3. 前記分類ラベル推定モデルは、前記系列データと対象文の素性とから前記対象文に付与される分類ラベルを推定するためのものである
    請求項1又は2記載の文分類学習装置。
  4. 入力された、対象文と前記対象文の前後の参考文とを表す適用データについて、各文の素性を要素とする系列データを生成する系列データ生成部と、
    前記系列データ生成部によって生成された前記系列データと、請求項1〜3の何れか1項記載の文分類学習装置によって学習された分類ラベル推定モデルとに基づいて、前記対象文に付与される分類ラベルを推定するモデル適用部と、
    を含む文分類装置。
  5. 入力された、対象文と前記対象文の前後の参考文とを表す適用データについて、各文の素性を要素とする系列データを生成する系列データ生成部と、
    前記系列データ生成部によって生成された前記系列データと、請求項2記載の文分類学習装置によって学習された分類ラベル推定モデルとに基づいて、前記対象文に付与される分類ラベルを推定し、
    前記系列データ生成部によって生成された前記系列データと、前記文分類学習装置によって学習された手がかり分類ラベル推定モデルとに基づいて、各文に対し、前記文に付与される手がかりラベル、及び前記文の重要度の少なくとも一方を推定するモデル適用部と、
    を含む文分類装置。
  6. 系列データ生成部、重要度学習部、文分類学習部を有する文分類学習装置における文分類学習方法であって、
    前記系列データ生成部が、分類ラベルが付与された対象文と、手がかりラベルが付与された、前記対象文の前後の参考文とを表す複数の学習データ、前記分類ラベルが定義された分類ラベル集合、及び前記手がかりラベルが定義された手がかりラベル集合に基づいて、前記複数の学習データの各々について、各文の素性を要素とする系列データを生成するステップと、
    前記重要度学習部が、前記複数の学習データの各々について、前記参考文に付与された前記手がかりラベルと、各文の素性とに基づいて、各文の重要度を計算するステップと、
    前記文分類学習部が、前記複数の学習データの各々についての、各文の重要度、前記対象文に付与された前記分類ラベル、及び前記系列データに基づいて、前記系列データから対象文に付与される分類ラベルを推定するための分類ラベル推定モデルを学習するステップと、
    を含む文分類学習方法。
  7. コンピュータを、請求項1〜3の何れか1項記載の文分類学習装置の各部として機能させるための文分類学習プログラム。
JP2016239472A 2016-12-09 2016-12-09 文分類学習装置、文分類装置、文分類学習方法、及び文分類学習プログラム Pending JP2018097468A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016239472A JP2018097468A (ja) 2016-12-09 2016-12-09 文分類学習装置、文分類装置、文分類学習方法、及び文分類学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016239472A JP2018097468A (ja) 2016-12-09 2016-12-09 文分類学習装置、文分類装置、文分類学習方法、及び文分類学習プログラム

Publications (1)

Publication Number Publication Date
JP2018097468A true JP2018097468A (ja) 2018-06-21

Family

ID=62633528

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016239472A Pending JP2018097468A (ja) 2016-12-09 2016-12-09 文分類学習装置、文分類装置、文分類学習方法、及び文分類学習プログラム

Country Status (1)

Country Link
JP (1) JP2018097468A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069595A (zh) * 2019-03-07 2019-07-30 平安科技(深圳)有限公司 语料标签确定方法、装置、电子设备及存储介质
CN110929033A (zh) * 2019-11-26 2020-03-27 深圳市信联征信有限公司 长文本分类方法、装置、计算机设备及存储介质
CN111488452A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种网页篡改检测方法、检测系统及相关设备
JP2020144569A (ja) * 2019-03-06 2020-09-10 日本電信電話株式会社 モデル学習装置、ラベル推定装置、それらの方法、およびプログラム
KR20220072226A (ko) * 2020-11-25 2022-06-02 연세대학교 산학협력단 문장 데이터 클래스 분류 및 클래스 사전 생성을 위한 신경망 학습 방법

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488452A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种网页篡改检测方法、检测系统及相关设备
JP2020144569A (ja) * 2019-03-06 2020-09-10 日本電信電話株式会社 モデル学習装置、ラベル推定装置、それらの方法、およびプログラム
WO2020179525A1 (ja) * 2019-03-06 2020-09-10 日本電信電話株式会社 モデル学習装置、ラベル推定装置、それらの方法、およびプログラム
JP7222274B2 (ja) 2019-03-06 2023-02-15 日本電信電話株式会社 モデル学習装置、ラベル推定装置、それらの方法、およびプログラム
CN110069595A (zh) * 2019-03-07 2019-07-30 平安科技(深圳)有限公司 语料标签确定方法、装置、电子设备及存储介质
CN110069595B (zh) * 2019-03-07 2023-11-07 平安科技(深圳)有限公司 语料标签确定方法、装置、电子设备及存储介质
CN110929033A (zh) * 2019-11-26 2020-03-27 深圳市信联征信有限公司 长文本分类方法、装置、计算机设备及存储介质
KR20220072226A (ko) * 2020-11-25 2022-06-02 연세대학교 산학협력단 문장 데이터 클래스 분류 및 클래스 사전 생성을 위한 신경망 학습 방법
KR102563376B1 (ko) 2020-11-25 2023-08-02 연세대학교 산학협력단 문장 데이터 클래스 분류 및 클래스 사전 생성을 위한 신경망 학습 방법

Similar Documents

Publication Publication Date Title
CN110287480B (zh) 一种命名实体识别方法、装置、存储介质及终端设备
Yu et al. Learning composition models for phrase embeddings
CN110737758A (zh) 用于生成模型的方法和装置
US10445654B2 (en) Learning parameters in a feed forward probabilistic graphical model
JP2018097468A (ja) 文分類学習装置、文分類装置、文分類学習方法、及び文分類学習プログラム
JP6772213B2 (ja) 質問応答装置、質問応答方法及びプログラム
US20190317986A1 (en) Annotated text data expanding method, annotated text data expanding computer-readable storage medium, annotated text data expanding device, and text classification model training method
US11669740B2 (en) Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition
Hedderich et al. Analysing the noise model error for realistic noisy label data
JP6770709B2 (ja) 機械学習用モデル生成装置及びプログラム。
JP5441937B2 (ja) 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム
WO2017145811A1 (ja) トピック推定装置、トピック推定方法、および記録媒体
JP6759824B2 (ja) 適応的な電子的リーディング支援の提供
JP2016224483A (ja) モデル学習装置、方法、及びプログラム
CN109902286A (zh) 一种实体识别的方法、装置及电子设备
WO2019085118A1 (zh) 基于主题模型的关联词分析方法、电子装置及存储介质
JP2017538226A (ja) スケーラブルなウェブデータの抽出
JP6586055B2 (ja) 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム
Hevapathige et al. A two-phase classifier for automatic answer generation for math word problems
CN113486169A (zh) 基于bert模型的同义语句生成方法、装置、设备及存储介质
Cardenas et al. Improving Topic Coherence Using Entity Extraction Denoising.
JP5503577B2 (ja) データ極性判定装置、方法、及びプログラム
JP2021163477A (ja) 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
JP5824429B2 (ja) スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム
JP5087994B2 (ja) 言語解析方法及びその装置