JP2018092326A - モデル学習装置、ラベル付与装置、方法、及びプログラム - Google Patents
モデル学習装置、ラベル付与装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2018092326A JP2018092326A JP2016234363A JP2016234363A JP2018092326A JP 2018092326 A JP2018092326 A JP 2018092326A JP 2016234363 A JP2016234363 A JP 2016234363A JP 2016234363 A JP2016234363 A JP 2016234363A JP 2018092326 A JP2018092326 A JP 2018092326A
- Authority
- JP
- Japan
- Prior art keywords
- label
- feature
- classification
- domain
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】ドメインごとに、分類ラベルセットが異なる場合でも、他ドメインの学習データを転用することで精度向上を実現するモデルを学習することができる。【解決手段】モデル学習部20が、元ドメイン学習データ21の文字列の各々について元ドメインの分類ラベル毎に得られた、共通ドメインのラベル依存素性と、文字列の各々について得られたラベル非依存素性と、文字列に付与された分類ラベルと、目的ドメイン学習データ23の文字列の各々について目的ドメインの分類ラベル毎に得られた、共通ドメインのラベル依存素性と、文字列の各々について得られた前記ラベル非依存素性と、文字列に付与された分類ラベルと、に基づいて、共通ドメインのラベル依存素性に対するパラメータが、分類ラベルの各々に対して同一となるように、目的ドメイン分類ラベルセット24に含まれる分類ラベルを付与するためのモデルを学習する。【選択図】図2
Description
本発明は、モデル学習装置、ラベル付与装置、方法、及びプログラムに係り、特に、入力された文字列に、分類ラベルを付与するためのモデル学習装置、ラベル付与装置、方法、及びプログラムに関する。
従来より、分類問題において、目的ドメインの学習データが少量しか存在しない場合でも、分類ラベルセットを同一とする他ドメインの学習データを転用することで、低コストでも高い精度を実現する方法が知られている(非特許文献1)。
Hal Daume III and Daniel Marcu. 2006. Domain adaptation for statistical classifiers. Journal of Artificial Intelligence Research, pages 101-126
Mikolov, Tomas, et al. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:1301.3781 (2013).
しかしながら、上記非特許文献1に記載の方法では、分類ラベルセットがドメイン毎に異なる場合、そのまま適用することができない。
本発明は、上記事情を鑑みて成されたものであり、ドメインごとに、分類ラベルセットが異なる場合でも、他ドメインの学習データを転用することで精度向上を実現するモデルを学習することができるモデル学習装置、方法、及びプログラムを提供することを目的とする。
また、入力された文字列に、分類ラベルを精度よく付与することできるラベル付与装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係るモデル学習装置は、目的ドメインの分類ラベルの集合に含まれる分類ラベルを、入力された文字列に付与するためのモデル学習装置であって、元ドメインの分類ラベルの集合に含まれる分類ラベルが付与された、前記文字列の集合からなる元ドメイン学習データに基づいて、前記文字列の各々について、前記元ドメインの分類ラベル毎に、前記文字列と前記分類ラベルとのペアに関する素性を、前記元ドメインのラベル依存素性として抽出する共に、前記元ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製し、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルが付与された、前記文字列の集合からなる目的ドメイン学習データに基づいて、前記文字列の各々について、前記目的ドメインの分類ラベル毎に、前記文字列と前記分類ラベルとのペアに関する素性を、前記目的ドメインのラベル依存素性として抽出する共に、前記目的ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製するラベル依存素性素性化部と、前記元ドメイン学習データに基づいて、前記文字列の各々について、前記文字列に関する素性を、ラベル非依存素性として抽出し、前記目的ドメイン学習データに基づいて、前記文字列の各々について、前記文字列に関する素性を、ラベル非依存素性として抽出するラベル非依存素性素性化部と、前記文字列の各々について前記元ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記ラベル非依存素性と、前記文字列に付与された分類ラベルと、前記文字列の各々について前記目的ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記ラベル非依存素性と、前記文字列に付与された分類ラベルと、に基づいて、前記文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与するためのモデルを学習するモデル学習部と、を含み、前記モデル学習部は、前記モデルにおける、前記文字列について前記元ドメインの分類ラベル毎に得られた前記共通ドメインのラベル依存素性に対するパラメータが、前記分類ラベルの各々に対して同一となり、かつ、前記文字列について前記目的ドメインの分類ラベル毎に得られた前記共通ドメインのラベル依存素性に対するパラメータが、前記分類ラベルの各々に対して同一となるように、前記モデルを学習する。
本発明に係るモデル学習方法は、目的ドメインの分類ラベルの集合に含まれる分類ラベルを、入力された文字列に付与するためのモデル学習装置におけるモデル学習方法であって、ラベル依存素性素性化部が、元ドメインの分類ラベルの集合に含まれる分類ラベルが付与された、前記文字列の集合からなる元ドメイン学習データに基づいて、前記文字列の各々について、前記元ドメインの分類ラベル毎に、前記文字列と前記分類ラベルとのペアに関する素性を、前記元ドメインのラベル依存素性として抽出する共に、前記元ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製し、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルが付与された、前記文字列の集合からなる目的ドメイン学習データに基づいて、前記文字列の各々について、前記目的ドメインの分類ラベル毎に、前記文字列と前記分類ラベルとのペアに関する素性を、前記目的ドメインのラベル依存素性として抽出する共に、前記目的ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製し、ラベル非依存素性素性化部が、前記元ドメイン学習データに基づいて、前記文字列の各々について、前記文字列に関する素性を、ラベル非依存素性として抽出し、前記目的ドメイン学習データに基づいて、前記文字列の各々について、前記文字列に関する素性を、ラベル非依存素性として抽出し、モデル学習部が、前記文字列の各々について前記元ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記ラベル非依存素性と、前記文字列に付与された分類ラベルと、前記文字列の各々について前記目的ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記ラベル非依存素性と、前記文字列に付与された分類ラベルと、に基づいて、文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与するためのモデルを学習することを含み、前記モデル学習部が学習することでは、前記モデルにおける、前記文字列について前記元ドメインの分類ラベル毎に得られた前記共通ドメインのラベル依存素性に対するパラメータが、前記分類ラベルの各々に対して同一となり、かつ、前記文字列について前記目的ドメインの分類ラベル毎に得られた前記共通ドメインのラベル依存素性に対するパラメータが、前記分類ラベルの各々に対して同一となるように、前記モデルを学習する。
本発明に係るラベル付与装置は、目的ドメインの分類ラベルの集合に含まれる分類ラベルを、入力された文字列に付与するためのラベル付与装置であって、予め用意された前記目的ドメインの分類ラベルの集合に基づいて、前記入力された文字列の各々について、前記目的ドメインの分類ラベル毎に、前記文字列と前記分類ラベルとのペアに関する素性を、前記目的ドメインのラベル依存素性として抽出する共に、前記目的ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製するラベル依存素性素性化部と、前記入力された文字列の各々について、前記文字列に関する素性を、ラベル非依存素性として抽出するラベル非依存素性素性化部と、上記のモデル学習装置によって学習された前記モデルと、前記入力された前記文字列の各々について前記目的ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記ラベル非依存素性とに基づいて、前記文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与するモデル適用部とを含んで構成されている。
本発明に係るラベル付与方法は、目的ドメインの分類ラベルの集合に含まれる分類ラベルを、入力された文字列に付与するためのラベル付与装置におけるラベル付与方法であって、ラベル依存素性素性化部が、予め用意された前記目的ドメインの分類ラベルの集合に基づいて、前記入力された文字列の各々について、前記目的ドメインの分類ラベル毎に、前記文字列と前記分類ラベルとのペアに関する素性を、前記目的ドメインのラベル依存素性として抽出する共に、前記目的ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製し、ラベル非依存素性素性化部が、前記入力された文字列の各々について、前記文字列に関する素性を、ラベル非依存素性として抽出し、モデル適用部が、請求項4記載のモデル学習方法によって学習された前記モデルと、前記入力された前記文字列の各々について前記目的ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記ラベル非依存素性とに基づいて、前記文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与する。
本発明に係るプログラムは、コンピュータを、上記のモデル学習装置又はラベル付与装置の各部として機能させるためのプログラムである。
本発明のモデル学習装置、方法、及びプログラムによれば、前記文字列について前記元ドメインの分類ラベル毎に得られた前記共通ドメインのラベル依存素性に対するパラメータが、前記分類ラベルの各々に対して同一となり、かつ、前記文字列について前記目的ドメインの分類ラベル毎に得られた前記共通ドメインのラベル依存素性に対するパラメータが、前記分類ラベルの各々に対して同一となるように、文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与するためのモデルを学習することにより、ドメインごとに、分類ラベルセットが異なる場合でも、他ドメインの学習データを転用することで精度向上を実現するモデルを学習することができる、という効果が得られる。
本発明のラベル付与装置、方法、及びプログラムによれば、入力された文字列に、分類ラベルを精度よく付与することできる、という効果が得られる。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。
まず、本発明の実施の形態における概要を説明する。
本発明の実施の形態は、機械学習における分類問題一般に適用可能な技術である。例えば、自然言語による文字列を入力とする場合、学習データに従い、任意の分類ラベルセットのうち、どのラベルを付与するか決める問題である。
本発明の実施の形態では、具体例として、自然言語文中の文字列に対し、データベース中の各要素をラベルと見なしてラベルの付与を行うことを考える。
例えば、図1に示すように、学習時において、学習対象の元ドメインがおもちゃドメインとし、適用時において、目的ドメインが家電ドメインとする。元ドメインの学習時入力文「本はいくら?」と、元ドメインのデータベースから得られる、学習時入力文のアノテート結果(例えば「本⇒subject-絵本」、「いくら⇒predicate-価格」)と、目的ドメインの学習時入力文「掃除機はいくら?」と、目的ドメインのデータベースから得られる、学習時入力文のアノテート結果(例えば「掃除機⇒subject-掃除機」、「いくら⇒predicate-値段」)と、に基づいて、目的ドメインのラベルを付与するためのモデルを学習する。
そして、学習したモデルを、入力文に適用し、入力文の文字列に、目的ドメインである家電ドメインの分類ラベルを付与することにより、入力文の文字列と、家電ドメインのデータベース内のエントリとの対応を得る。
本発明の実施の形態では、上記の問題について、分類のための手がかりとして用いる素性情報のうち、対象ラベルによって素性の値が変化する素性と、一定である素性に着目する。
また、学習量が多い場合には、転移学習をさせない単独モデルの方が高性能である場合がある。そのため、学習量に応じて転移学習を行う学習済モデルと行わない通常学習済モデルを線形に結合する。これにより、両モデルの利点を活かすことが可能となる。また、分類ラベルセットが異なる他ドメインの学習データを用いることで、目的ドメインにおける分類ラベルの付与精度を向上させる。
<本発明の実施の形態に係るモデル学習装置の構成>
次に、本発明の実施の形態に係るモデル学習装置の構成について説明する。図2に示すように、本発明の実施の形態に係るモデル学習装置100は、CPUと、RAMと、後述するモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このモデル学習装置100は、機能的には図2に示すように入力部10と、演算部20とを備えている。
次に、本発明の実施の形態に係るモデル学習装置の構成について説明する。図2に示すように、本発明の実施の形態に係るモデル学習装置100は、CPUと、RAMと、後述するモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このモデル学習装置100は、機能的には図2に示すように入力部10と、演算部20とを備えている。
入力部10は、元ドメイン学習データ21、元ドメイン分類ラベルセット22、目的ドメイン学習データ23、及び目的ドメイン分類ラベルセット24を受け付ける。元ドメイン学習データ21及び目的ドメイン学習データ23は、例えば、「<subj=絵本>本</subj>は<pred=販売店>どこ/で/買える</pred>の?」というような自然言語文に対して、形態素境界を示すスラッシュ、及びエントリの対応付けが付与された自然言語文の集合である。また、元ドメイン分類ラベルセット22は、元ドメインの分類ラベルの集合であり、例えば、元ドメインのデータベースのエントリを表す分類ラベルの集合である。目的ドメイン分類ラベルセット24は、目的ドメインの分類ラベルの集合であり、例えば、目的ドメインのデータベースのエントリを表す分類ラベルの集合である。ここで、ドメインとは、「おもちゃ」、「家電」、「野球」などのトピックのようなものを表し、元ドメインは例えばおもちゃドメインであり、目的ドメインは家電ドメインである。
演算部20は、元ドメイン学習データ21と、元ドメイン分類ラベルセット22と、目的ドメイン学習データ23と、目的ドメイン分類ラベルセット24と、ラベル依存素性素性化部26と、ラベル非依存素性素性化部28と、モデル学習部30と、学習済モデル32とを含んで構成されている。
ラベル依存素性素性化部26は、元ドメイン学習データ21と、元ドメイン分類ラベルセット22とに基づいて、元ドメイン学習データ21に含まれる自然言語文の文字列の各々について、元ドメインの分類ラベル毎に、当該文字列と当該分類ラベルとのペアに関する素性を、元ドメインのラベル依存素性として抽出する共に、元ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製する。
また、ラベル依存素性素性化部26は、目的ドメイン学習データ23と、目的ドメイン分類ラベルセット24とに基づいて、目的ドメイン学習データ23に含まれる自然言語文の文字列の各々について、目的ドメインの分類ラベル毎に、当該文字列と当該分類ラベルとのペアに関する素性を、目的ドメインのラベル依存素性として抽出する共に、目的ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製する。
具体的には、対象文字列と分類ラベルのペアに関する素性として、表層類似度及び意味類似度を抽出する。
表層類似度は、対象文字列と各ラベルとの編集距離等を類似度として素性化したものであり、例えば、「どこで買える⇔pred:絵本 編集距離=1,文字重複率=0.5,単語一致率=0」というような対象文字列とエントリとの間の編集距離などを算出して、表層類似度を得る。
また、意味類似度は、対象文字列と各ラベルとの意味空間上でのコサイン距離等を類似度とみなし、素性として用いたものである(上記の非特許文献2参照)。例えば、「本⇔subj:絵本 意味類似度=0.5」というような対象文字列とエントリとの間の意味類似度を算出する。なお、意味空間としては、上記非特許文献2に記載の既存のモデル化手法を用いた意味ベクトルモデルを用いればよい。
また、上記の非特許文献1の素性拡張を用いる。具体的には、元ドメインデータ由来のラベル依存素性を、元ドメインのラベル依存素性とすると共に、共通ドメインのラベル依存素性としてコピーして保持する。例えば、元ドメインデータ由来のラベル依存素性が 「subj:絵本に対する意味類似度=0.5」を意味する素性の場合、元ドメインのラベル依存素性として、「source: subj:絵本に対する意味類似度=0.5 」という素性に変換すると共に、共通ドメインのラベル依存素性としてコピーし、「common: subj:絵本に対する意味類似度=0.5 」という素性に変換する。
また、目的ドメインデータ由来のラベル依存素性を、目的ドメインのラベル依存素性とすると共に、共通ドメインのラベル依存素性としてコピーして保持する。例えば、目的ドメインデータ由来の素性が「subj:掃除機に対する意味類似度=0.5」を意味する素性の場合、目的ドメインのラベル依存素性として、「target: subj:掃除機に対する意味類似度=0.5 」という素性に変換すると共に、共通ドメインのラベル依存素性としてコピーし、「common subj:掃除機に対する意味類似度=0.5 」という素性に変換する。
上記のように、元ドメインの素性に、元ドメインを表すヘッダ(例えば、”source:”)を付与し、目的ドメインを表すヘッダ(例えば、”target:”)を付与し、共通ドメインの素性に、共通ドメインを表すヘッダ(例えば、“common:”)を付与する。
ラベル非依存素性素性化部28は、元ドメイン学習データ21に基づいて、元ドメイン学習データ21に含まれる自然言語文の文字列の各々について、当該文字列に関する素性を、元ドメインのラベル非依存素性として抽出すると共に、共通ドメインのラベル非依存素性として複製する。
また、ラベル非依存素性素性化部28は、目的ドメイン学習データ23に基づいて、目的ドメイン学習データ23に含まれる自然言語文の文字列の各々について、当該文字列に関する素性を、目的ドメインのラベル非依存素性として抽出すると共に、共通ドメインのラベル非依存素性として複製する。
具体的には、対象文字列に関する素性として、文字列中の単語や品詞等の形態素情報を抽出する。例えば、文字列「どこで買える」から、「どこ」「で」「買え」「る」を、素性として抽出する。
また、上記の非特許文献1の素性拡張を用いる。具体的には、元ドメインデータ由来のラベル非依存素性を、元ドメインのラベル非依存素性とすると共に、共通ドメインのラベル非依存素性としてコピーして保持する。例えば、元ドメインデータ由来のラベル非依存素性が 「どこ」という単語が出現したことを意味する素性の場合、元ドメインのラベル非依存素性として、「source:どこ」という素性に変換すると共に、共通ドメインのラベル非依存素性としてコピーし、「common:どこ」という素性に変換する。
また、目的ドメインデータ由来のラベル非依存素性を、目的ドメインのラベル非依存素性とすると共に、共通ドメインのラベル非依存素性としてコピーして保持する。例えば、目的ドメインデータ由来のラベル非依存素性が「どこ」という単語が出現したことを意味する素性の場合、目的ドメインのラベル非依存素性として、「target:どこ」という素性に変換すると共に、共通ドメインのラベル非依存素性としてコピーし、「common:どこ」という素性に変換する。
モデル学習部30は、元ドメイン学習データ21の文字列の各々について元ドメインの分類ラベル毎に得られた、共通ドメインのラベル依存素性と、元ドメイン学習データ21の文字列の各々について得られた、共通ドメインのラベル非依存素性と、元ドメイン学習データ21の文字列に付与された分類ラベルと、目的ドメイン学習データ23の文字列の各々について目的ドメインの分類ラベル毎に得られた、共通ドメインのラベル依存素性と、目的ドメイン学習データ23の文字列の各々について得られた共通ドメインのラベル非依存素性と、目的ドメイン学習データ23の文字列に付与された分類ラベルと、に基づいて、文字列に、目的ドメイン分類ラベルセット24に含まれる分類ラベルを付与するためのモデルを学習する。このとき、モデル学習部30は、モデルにおける、元ドメインの分類ラベル毎に得られる共通ドメインのラベル依存素性に対するパラメータが、分類ラベルの各々に対して同一となり、かつ、目的ドメインの分類ラベル毎に得られる共通ドメインのラベル依存素性に対するパラメータが、分類ラベルの各々に対して同一となるように、モデルを学習する。
以下に、本発明の実施の形態におけるモデル学習の原理について説明する。
本実施の形態では、得られた素性を元に、ロジスティック回帰に基づく分類学習を行う。ただし、共通ドメインのラベル依存素性については、各素性タイプ(表層類似度や意味類似度)毎に、各ラベルに対して同一の重みパラメータとなるようにモデルを学習する。これにより分類ラベルが異なるドメインであっても、一部の情報を転移させることが可能となる。
通常のロジスティック回帰の尤度関数は以下の式で表わされる。
・・・(1)
ただし、lは、分類ラベルを表し、全部で|L|ラベル存在する。φは各素性を表し、φ_fは「私」という単語が現れたか否か、というラベル非依存素性で、|F|個存在する。
θはパラメータを表し、θ_flは素性φ_fのラベルlにおける重みパラメータを表し、全部で|F|*|L|個存在する。
本実施の形態では、ラベル依存素性のパラメータを、各ラベルに対して共通のパラメータとするため、以下の推定確率を尤度関数に追加する。
ただし、φ_f(l)は、ラベル依存素性を表し、θ_fは、ラベル依存素性φ_f(l)に関する共通パラメータで、ラベルlに関わりなく同じ重みが付与されている。
また、モデルの学習において、ラベル依存素性の共通パラメータは、以下の式を用いて、更新される。
Δθ_fは、素性関数φ_fについての重みθ_fを更新するための差分であり、p(l’|θ)はラベルl’の事後分布である。
具体的には、以下の式のようにloss functionを設定して微分し、これをパラメータの更新値とする。
ただし、t_lは、正解ラベルのみ1、他は0となる値である。
また、素性φ_fのラベルlにおける重みパラメータθ_flも、共通パラメータと同様に、上記(1)式に対応するloss functionを設定して微分し、更新値とすることにより、学習される。
なお、ラベル非依存素性と合わせた全体の尤度関数は以下となる。
・・・(2)
ただし、Zは正規化項である。上記の尤度関数は一例であり、尤度関数に、ラベル依存素性φ_f(l)と、ラベル依存素性φ_f(l)の重みパラメータθ_flとを掛けて足し合わせた項を更に含めてもよい。
以上説明したように、モデル学習部30は、ラベル依存素性φ_f(l)に関する共通パラメータθ_f、及びラベル非依存素性φ_fの各分類ラベルlにおける重みパラメータθ_flを学習し、学習済モデル32とする。
<本発明の実施の形態に係るラベル付与装置の構成>
次に、本発明の実施の形態に係るラベル付与装置の構成について説明する。図3に示すように、本発明の実施の形態に係るラベル付与装置200は、CPUと、RAMと、後述するラベル付与処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このラベル付与装置200は、機能的には図3に示すように入力部210と、演算部220と、出力部250とを備えている。
次に、本発明の実施の形態に係るラベル付与装置の構成について説明する。図3に示すように、本発明の実施の形態に係るラベル付与装置200は、CPUと、RAMと、後述するラベル付与処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このラベル付与装置200は、機能的には図3に示すように入力部210と、演算部220と、出力部250とを備えている。
入力部210は、テストデータである自然言語文と、目的ドメイン分類ラベルセット24とを受け付ける。
演算部220は、目的ドメイン分類ラベルセット24と、ラベル依存素性素性化部226と、ラベル非依存素性素性化部228と、モデル適用部230と、学習済モデル32と、通常学習済モデル234とを含んで構成されている。
ラベル依存素性素性化部226は、目的ドメイン分類ラベルセット24に基づいて、テキストデータである自然言語文の文字列の各々について、目的ドメインの分類ラベル毎に、当該文字列と分類ラベルとのペアに関する素性を、目的ドメインのラベル依存素性として抽出する共に、目的ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製する。
具体的には、対象文字列と分類ラベルのペアに関する素性として、ラベル依存素性素性化部26と同様に、表層類似度及び意味類似度を抽出する。
ラベル非依存素性素性化部228は、テストデータである自然言語文の文字列の各々について、当該文字列に関する素性を、目的ドメインのラベル非依存素性として抽出すると共に、共通ドメインのラベル非依存素性として複製する。
具体的には、対象文字列に関する素性として、ラベル非依存素性素性化部28と同様に、文字列中の単語や品詞等の形態素情報を抽出する。
通常学習済モデル234は、学習データの文字列について得られたラベル非依存素性と、文字列に付与された分類ラベルとに基づいて、従来手法の教師あり学習を行って得られた、文字列に、目的ドメイン分類ラベルセット24に含まれる分類ラベルを付与すためのモデルであり、例えば、目的ドメインのラベル非依存素性φ_fの各分類ラベルlにおける重みパラメータθ_flである。
モデル適用部230は、学習済モデル32と、通常学習済モデル234と、入力されたテストデータに含まれる文字列の各々について目的ドメインの分類ラベル毎に得られた、共通ドメインのラベル依存素性と、テストデータの文字列の各々について得られた共通ドメインのラベル非依存素性とに基づいて、テストデータに含まれる文字列に、目的ドメイン分類ラベルセット24に含まれる分類ラベルを付与する。
本実施の形態では、モデル適用部230は、学習済モデル32と、入力されたテストデータに含まれる文字列の各々について目的ドメインの分類ラベル毎に得られた、共通ドメインのラベル依存素性と、テストデータの文字列の各々について得られた共通ドメインのラベル非依存素性とに基づいて、テストデータに含まれる文字列の各々に対し、目的ドメイン分類ラベルセット24に含まれる分類ラベルの各々について、上記(2)式に示す尤度関数に従って、当該文字列に当該分類ラベルが付与される確率を求める。また、モデル適用部230は、通常学習済モデル234と、入力されたテストデータに含まれる文字列の各々について得られたラベル非依存素性とに基づいて、テストデータに含まれる文字列の各々に対し、目的ドメイン分類ラベルセット24に含まれる分類ラベルの各々について、上記(1)式に示す尤度関数に従って、当該文字列に当該分類ラベルが付与される確率を求める。
そして、モデル適用部230は、テストデータに含まれる文字列の各々に対し、目的ドメイン分類ラベルセット24に含まれる分類ラベルの各々について、上記(2)式に示す尤度関数に従って求められた確率と、上記(1)式に示す尤度関数に従って求められた確率との重み付き和を算出し、当該文字列に、重み付き和が最大となる分類ラベルを付与する。重みは、学習済モデル32の学習量と通常学習済モデル234の学習量とに合わせて予め任意に指定される。学習済モデル側の重みを1、通常学習済モデルの重みを0とすれば、学習済モデルのみを使った場合に等しく、逆に学習済モデル側の重みを0、通常学習済モデルの重みを1とすれば従来手法と等しい。
<本発明の実施の形態に係るモデル学習装置の作用>
次に、本発明の実施の形態に係るモデル学習装置100の作用について説明する。入力部10において、元ドメイン学習データ21、元ドメイン分類ラベルセット22、目的ドメイン学習データ23、及び目的ドメイン分類ラベルセット24を受け付けると、モデル学習装置100は、図4に示すモデル学習処理ルーチンを実行する。
次に、本発明の実施の形態に係るモデル学習装置100の作用について説明する。入力部10において、元ドメイン学習データ21、元ドメイン分類ラベルセット22、目的ドメイン学習データ23、及び目的ドメイン分類ラベルセット24を受け付けると、モデル学習装置100は、図4に示すモデル学習処理ルーチンを実行する。
ステップS100では、元ドメイン学習データ21と、元ドメイン分類ラベルセット22とに基づいて、元ドメイン学習データ21に含まれる自然言語文の文字列の各々について、元ドメインの分類ラベル毎に、文字列と分類ラベルとのペアに関する素性を、元ドメインのラベル依存素性として抽出する共に、元ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製する。
ステップS102では、目的ドメイン学習データ23と、目的ドメイン分類ラベルセット24とに基づいて、目的ドメイン学習データ23に含まれる自然言語文の文字列の各々について、目的ドメインの分類ラベル毎に、文字列と分類ラベルとのペアに関する素性を、目的ドメインのラベル依存素性として抽出する共に、目的ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製する。
ステップS104では、元ドメイン学習データ21に基づいて、元ドメイン学習データ21に含まれる自然言語文の文字列の各々について、当該文字列に関する素性を、元ドメインのラベル非依存素性として抽出すると共に、共通ドメインのラベル非依存素性として複製する。
ステップS106では、目的ドメイン学習データ23に基づいて、目的ドメイン学習データ23に含まれる自然言語文の文字列の各々について、当該文字列に関する素性を、目的ドメインのラベル非依存素性として抽出すると共に、共通ドメインのラベル非依存素性として複製する。
そして、ステップS108において、元ドメイン学習データ21の文字列の各々について元ドメインの分類ラベル毎に得られた、共通ドメインのラベル依存素性と、元ドメイン学習データ21の文字列の各々について得られた、共通ドメインのラベル非依存素性と、元ドメイン学習データ21の文字列に付与された分類ラベルと、目的ドメイン学習データ23の文字列の各々について目的ドメインの分類ラベル毎に得られた、共通ドメインのラベル依存素性と、目的ドメイン学習データ23の文字列の各々について得られた共通ドメインのラベル非依存素性と、目的ドメイン学習データ23の文字列に付与された分類ラベルと、に基づいて、文字列に、目的ドメイン分類ラベルセット24に含まれる分類ラベルを付与するためのモデルを、学習済モデル32として学習し、モデル学習処理ルーチンを終了する。
<本発明の実施の形態に係るラベル付与装置の作用>
次に、本発明の実施の形態に係るラベル付与装置200の作用について説明する。入力部210において目的ドメインのテストデータである自然言語文と、目的ドメイン分類ラベルセット24を受け付けると、ラベル付与装置200は、図5に示すラベル付与処理ルーチンを実行する。
次に、本発明の実施の形態に係るラベル付与装置200の作用について説明する。入力部210において目的ドメインのテストデータである自然言語文と、目的ドメイン分類ラベルセット24を受け付けると、ラベル付与装置200は、図5に示すラベル付与処理ルーチンを実行する。
まず、ステップS200では、目的ドメイン分類ラベルセット24に基づいて、テキストデータである自然言語文の文字列の各々について、目的ドメインの分類ラベル毎に、当該文字列と分類ラベルとのペアに関する素性を、目的ドメインのラベル依存素性として抽出する共に、目的ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製する。
次に、ステップS202では、テストデータである自然言語文の文字列の各々について、当該文字列に関する素性を、目的ドメインのラベル非依存素性として抽出すると共に、共通ドメインのラベル非依存素性として複製する。
ステップS204では、学習済モデル32と、通常学習済モデル234と、入力された目的ドメインのテストデータに含まれる文字列の各々について目的ドメインの分類ラベル毎に得られた、共通ドメインのラベル依存素性と、文字列の各々について得られた共通ドメインのラベル非依存素性とに基づいて、目的ドメインのテストデータに含まれる文字列に、目的ドメイン分類ラベルセット24に含まれる分類ラベルを付与し、出力部250に出力し処理を終了する。
以上説明したように、本発明の実施の形態に係るモデル学習装置によれば、元ドメイン学習データの文字列について元ドメインの分類ラベル毎に得られた共通ドメインのラベル依存素性に対するパラメータが、分類ラベルの各々に対して同一となり、かつ、目的ドメイン学習データの文字列について目的ドメインの分類ラベル毎に得られた共通ドメインのラベル依存素性に対するパラメータが、分類ラベルの各々に対して同一となるように、目的ドメインの分類ラベルセットに含まれる分類ラベルを付与するためのモデルを学習することにより、ドメインごとに、分類ラベルセットが異なる場合でも、他ドメインの学習データを転用することで精度向上を実現するモデルを学習することができる。
また、本発明の実施の形態に係るラベル付与装置によれば、モデル学習装置により学習された学習済モデルを用いて、入力された文字列に、分類ラベルを精度よく付与することできる。また、学習済モデルと通常学習済モデルとを用いて計算される確率の重み付き和に基づいて、入力された文字列に、分類ラベルを精度よく付与することできる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、学習済モデル32と、通常学習済モデル234とを用いて、分類ラベルを付与する場合を例に説明したが、これに限定されるものではなく、通常学習済モデル234を用いずに、学習済モデル32を用いて、分類ラベルを付与するようにしてもよい。
10、210 入力部
20、220 演算部
21 元ドメイン学習データ
22 元ドメイン分類ラベルセット
23 目的ドメイン学習データ
24 目的ドメイン分類ラベルセット
26 ラベル依存素性素性化部
28 ラベル非依存素性素性化部
30 モデル学習部
32 学習済モデル
100 モデル学習装置
200 ラベル付与装置
226 ラベル依存素性素性化部
228 ラベル非依存素性素性化部
230 モデル適用部
234 通常学習済モデル
250 出力部
20、220 演算部
21 元ドメイン学習データ
22 元ドメイン分類ラベルセット
23 目的ドメイン学習データ
24 目的ドメイン分類ラベルセット
26 ラベル依存素性素性化部
28 ラベル非依存素性素性化部
30 モデル学習部
32 学習済モデル
100 モデル学習装置
200 ラベル付与装置
226 ラベル依存素性素性化部
228 ラベル非依存素性素性化部
230 モデル適用部
234 通常学習済モデル
250 出力部
Claims (7)
- 目的ドメインの分類ラベルの集合に含まれる分類ラベルを、入力された文字列に付与するためのモデル学習装置であって、
元ドメインの分類ラベルの集合に含まれる分類ラベルが付与された、文字列の集合からなる元ドメイン学習データに基づいて、前記文字列の各々について、前記元ドメインの分類ラベル毎に、前記文字列と前記分類ラベルとのペアに関する素性を、前記元ドメインのラベル依存素性として抽出する共に、前記元ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製し、
前記目的ドメインの分類ラベルの集合に含まれる分類ラベルが付与された、前記文字列の集合からなる目的ドメイン学習データに基づいて、前記文字列の各々について、前記目的ドメインの分類ラベル毎に、前記文字列と前記分類ラベルとのペアに関する素性を、前記目的ドメインのラベル依存素性として抽出する共に、前記目的ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製するラベル依存素性素性化部と、
前記元ドメイン学習データに基づいて、前記文字列の各々について、前記文字列に関する素性を、ラベル非依存素性として抽出し、
前記目的ドメイン学習データに基づいて、前記文字列の各々について、前記文字列に関する素性を、ラベル非依存素性として抽出するラベル非依存素性素性化部と、
前記文字列の各々について前記元ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記ラベル非依存素性と、前記文字列に付与された分類ラベルと、前記文字列の各々について前記目的ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記ラベル非依存素性と、前記文字列に付与された分類ラベルと、に基づいて、文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与するためのモデルを学習するモデル学習部と、
を含み、
前記モデル学習部は、前記モデルにおける、前記文字列について前記元ドメインの分類ラベル毎に得られた前記共通ドメインのラベル依存素性に対するパラメータが、前記分類ラベルの各々に対して同一となり、かつ、前記文字列について前記目的ドメインの分類ラベル毎に得られた前記共通ドメインのラベル依存素性に対するパラメータが、前記分類ラベルの各々に対して同一となるように、前記モデルを学習する
モデル学習装置。 - 目的ドメインの分類ラベルの集合に含まれる分類ラベルを、入力された文字列に付与するためのラベル付与装置であって、
予め用意された前記目的ドメインの分類ラベルの集合に基づいて、前記入力された文字列の各々について、前記目的ドメインの分類ラベル毎に、前記文字列と前記分類ラベルとのペアに関する素性を、前記目的ドメインのラベル依存素性として抽出する共に、前記目的ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製するラベル依存素性素性化部と、
前記入力された文字列の各々について、前記文字列に関する素性を、ラベル非依存素性として抽出するラベル非依存素性素性化部と、
請求項1記載のモデル学習装置によって学習された前記モデルと、前記入力された前記文字列の各々について前記目的ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記ラベル非依存素性とに基づいて、前記文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与するモデル適用部と、
を含むラベル付与装置。 - 前記モデル適用部は、前記モデルと、前記入力された前記文字列の各々について前記目的ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記共通ドメインのラベル非依存素性とに基づいて、前記目的ドメインの分類ラベルの集合に含まれる分類ラベル毎に、前記文字列に前記分類ラベルが付与される確率を求め、
前記目的ドメインについて得られた前記ラベル非依存素性に基づいて、前記文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与するための予め学習された通常学習済みモデルと、前記入力された前記文字列の各々について得られた前記ラベル非依存素性とに基づいて、前記目的ドメインの分類ラベルの集合に含まれる分類ラベル毎に、前記文字列に前記分類ラベルが付与される確率を求め、
前記求められた確率の重み付き和に基づいて、前記文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与する請求項2記載のラベル付与装置。 - 目的ドメインの分類ラベルの集合に含まれる分類ラベルを、入力された文字列に付与するためのモデル学習装置におけるモデル学習方法であって、
ラベル依存素性素性化部が、元ドメインの分類ラベルの集合に含まれる分類ラベルが付与された、前記文字列の集合からなる元ドメイン学習データに基づいて、前記文字列の各々について、前記元ドメインの分類ラベル毎に、前記文字列と前記分類ラベルとのペアに関する素性を、前記元ドメインのラベル依存素性として抽出する共に、前記元ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製し、
前記目的ドメインの分類ラベルの集合に含まれる分類ラベルが付与された、前記文字列の集合からなる目的ドメイン学習データに基づいて、前記文字列の各々について、前記目的ドメインの分類ラベル毎に、前記文字列と前記分類ラベルとのペアに関する素性を、前記目的ドメインのラベル依存素性として抽出する共に、前記目的ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製し、
ラベル非依存素性素性化部が、前記元ドメイン学習データに基づいて、前記文字列の各々について、前記文字列に関する素性を、ラベル非依存素性として抽出し、
前記目的ドメイン学習データに基づいて、前記文字列の各々について、前記文字列に関する素性を、ラベル非依存素性として抽出し、
モデル学習部が、前記文字列の各々について前記元ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記ラベル非依存素性と、前記文字列に付与された分類ラベルと、前記文字列の各々について前記目的ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記ラベル非依存素性と、前記文字列に付与された分類ラベルと、に基づいて、文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与するためのモデルを学習する
ことを含み、
前記モデル学習部が学習することでは、前記モデルにおける、前記文字列について前記元ドメインの分類ラベル毎に得られた前記共通ドメインのラベル依存素性に対するパラメータが、前記分類ラベルの各々に対して同一となり、かつ、前記文字列について前記目的ドメインの分類ラベル毎に得られた前記共通ドメインのラベル依存素性に対するパラメータが、前記分類ラベルの各々に対して同一となるように、前記モデルを学習する
モデル学習方法。 - 目的ドメインの分類ラベルの集合に含まれる分類ラベルを、入力された文字列に付与するためのラベル付与装置におけるラベル付与方法であって、
ラベル依存素性素性化部が、予め用意された前記目的ドメインの分類ラベルの集合に基づいて、前記入力された文字列の各々について、前記目的ドメインの分類ラベル毎に、前記文字列と前記分類ラベルとのペアに関する素性を、前記目的ドメインのラベル依存素性として抽出する共に、前記目的ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製し、
ラベル非依存素性素性化部が、前記入力された文字列の各々について、前記文字列に関する素性を、ラベル非依存素性として抽出し、
モデル適用部が、請求項4記載のモデル学習方法によって学習された前記モデルと、前記入力された前記文字列の各々について前記目的ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記ラベル非依存素性とに基づいて、前記文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与する
ラベル付与方法。 - 前記モデル適用部が付与することでは、前記モデルと、前記入力された前記文字列の各々について前記目的ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記共通ドメインのラベル非依存素性とに基づいて、前記目的ドメインの分類ラベルの集合に含まれる分類ラベル毎に、前記文字列に前記分類ラベルが付与される確率を求め、
前記目的ドメインについて得られた前記ラベル非依存素性に基づいて、前記文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与するための予め学習された通常学習済みモデルと、前記入力された前記文字列の各々について得られた前記ラベル非依存素性とに基づいて、前記目的ドメインの分類ラベルの集合に含まれる分類ラベル毎に、前記文字列に前記分類ラベルが付与される確率を求め、
前記求められた確率の重み付き和に基づいて、前記文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与する請求項5記載のラベル付与方法。 - コンピュータを、請求項1に記載のモデル学習装置、又は請求項2若しくは3に記載のラベル付与装置の各部として機能させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016234363A JP2018092326A (ja) | 2016-12-01 | 2016-12-01 | モデル学習装置、ラベル付与装置、方法、及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016234363A JP2018092326A (ja) | 2016-12-01 | 2016-12-01 | モデル学習装置、ラベル付与装置、方法、及びプログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2018092326A true JP2018092326A (ja) | 2018-06-14 |
Family
ID=62566211
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2016234363A Pending JP2018092326A (ja) | 2016-12-01 | 2016-12-01 | モデル学習装置、ラベル付与装置、方法、及びプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2018092326A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115204246A (zh) * | 2021-03-26 | 2022-10-18 | 横河电机株式会社 | 装置、方法以及计算机可读介质 |
-
2016
- 2016-12-01 JP JP2016234363A patent/JP2018092326A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115204246A (zh) * | 2021-03-26 | 2022-10-18 | 横河电机株式会社 | 装置、方法以及计算机可读介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109858030B (zh) | 双向的意图槽值交叉相关的任务型对话理解系统及方法 | |
| CN111814487B (zh) | 一种语义理解方法、装置、设备及存储介质 | |
| CN108765383B (zh) | 基于深度迁移学习的视频描述方法 | |
| CN107273355B (zh) | 一种基于字词联合训练的中文词向量生成方法 | |
| CN111026842A (zh) | 自然语言处理方法、自然语言处理装置及智能问答系统 | |
| CN111078836A (zh) | 基于外部知识增强的机器阅读理解方法、系统、装置 | |
| CN111522965A (zh) | 一种基于迁移学习的实体关系抽取的问答方法及系统 | |
| CN111581954A (zh) | 一种基于语法依存信息的文本事件抽取方法及装置 | |
| JP6062879B2 (ja) | モデル学習装置、方法及びプログラム | |
| CN107315741B (zh) | 双语词典构建方法和设备 | |
| CN109271516B (zh) | 一种知识图谱中实体类型分类方法及系统 | |
| WO2023231576A1 (zh) | 混合语言语音识别模型的生成方法及装置 | |
| CN113705222B (zh) | 槽识别模型训练方法及装置和槽填充方法及装置 | |
| KR20200071877A (ko) | 자율 증강형 반복 학습을 이용한 정보 추출 방법 및 시스템 | |
| CN110851601A (zh) | 基于分层注意力机制的跨领域情感分类系统及方法 | |
| CN111522923A (zh) | 一种多轮任务式对话状态追踪方法 | |
| CN114281982A (zh) | 一种多模态融合技术的图书宣传摘要生成方法和系统 | |
| CN114722833B (zh) | 一种语义分类方法及装置 | |
| CN115147607A (zh) | 一种基于凸优化理论的抗噪声零样本图像分类方法 | |
| JP2016170636A (ja) | 接続関係推定装置、方法、及びプログラム | |
| CN117421420A (zh) | 一种基于软提示学习的中文点击诱饵检测方法 | |
| WO2025050842A1 (zh) | 机器学习任务模板生成方法、训练方法、微调方法及设备 | |
| CN117034921B (zh) | 一种基于用户数据的提示学习训练方法、装置和介质 | |
| CN119623617A (zh) | 一种基于领域知识与多粒度图网络的文档摘要方法 | |
| CN110489348B (zh) | 一种基于迁移学习的软件功能缺陷挖掘方法 |