JP2018092326A - モデル学習装置、ラベル付与装置、方法、及びプログラム - Google Patents

モデル学習装置、ラベル付与装置、方法、及びプログラム Download PDF

Info

Publication number
JP2018092326A
JP2018092326A JP2016234363A JP2016234363A JP2018092326A JP 2018092326 A JP2018092326 A JP 2018092326A JP 2016234363 A JP2016234363 A JP 2016234363A JP 2016234363 A JP2016234363 A JP 2016234363A JP 2018092326 A JP2018092326 A JP 2018092326A
Authority
JP
Japan
Prior art keywords
label
feature
classification
domain
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016234363A
Other languages
English (en)
Inventor
九月 貞光
Kugatsu Sadamitsu
九月 貞光
松尾 義博
Yoshihiro Matsuo
義博 松尾
東中 竜一郎
Ryuichiro Higashinaka
竜一郎 東中
久子 浅野
Hisako Asano
久子 浅野
京介 西田
Kyosuke Nishida
京介 西田
幸徳 本間
Yukinori Homma
幸徳 本間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016234363A priority Critical patent/JP2018092326A/ja
Publication of JP2018092326A publication Critical patent/JP2018092326A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ドメインごとに、分類ラベルセットが異なる場合でも、他ドメインの学習データを転用することで精度向上を実現するモデルを学習することができる。【解決手段】モデル学習部20が、元ドメイン学習データ21の文字列の各々について元ドメインの分類ラベル毎に得られた、共通ドメインのラベル依存素性と、文字列の各々について得られたラベル非依存素性と、文字列に付与された分類ラベルと、目的ドメイン学習データ23の文字列の各々について目的ドメインの分類ラベル毎に得られた、共通ドメインのラベル依存素性と、文字列の各々について得られた前記ラベル非依存素性と、文字列に付与された分類ラベルと、に基づいて、共通ドメインのラベル依存素性に対するパラメータが、分類ラベルの各々に対して同一となるように、目的ドメイン分類ラベルセット24に含まれる分類ラベルを付与するためのモデルを学習する。【選択図】図2

Description

本発明は、モデル学習装置、ラベル付与装置、方法、及びプログラムに係り、特に、入力された文字列に、分類ラベルを付与するためのモデル学習装置、ラベル付与装置、方法、及びプログラムに関する。
従来より、分類問題において、目的ドメインの学習データが少量しか存在しない場合でも、分類ラベルセットを同一とする他ドメインの学習データを転用することで、低コストでも高い精度を実現する方法が知られている(非特許文献1)。
Hal Daume III and Daniel Marcu. 2006. Domain adaptation for statistical classifiers. Journal of Artificial Intelligence Research, pages 101-126 Mikolov, Tomas, et al. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:1301.3781 (2013).
しかしながら、上記非特許文献1に記載の方法では、分類ラベルセットがドメイン毎に異なる場合、そのまま適用することができない。
本発明は、上記事情を鑑みて成されたものであり、ドメインごとに、分類ラベルセットが異なる場合でも、他ドメインの学習データを転用することで精度向上を実現するモデルを学習することができるモデル学習装置、方法、及びプログラムを提供することを目的とする。
また、入力された文字列に、分類ラベルを精度よく付与することできるラベル付与装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係るモデル学習装置は、目的ドメインの分類ラベルの集合に含まれる分類ラベルを、入力された文字列に付与するためのモデル学習装置であって、元ドメインの分類ラベルの集合に含まれる分類ラベルが付与された、前記文字列の集合からなる元ドメイン学習データに基づいて、前記文字列の各々について、前記元ドメインの分類ラベル毎に、前記文字列と前記分類ラベルとのペアに関する素性を、前記元ドメインのラベル依存素性として抽出する共に、前記元ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製し、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルが付与された、前記文字列の集合からなる目的ドメイン学習データに基づいて、前記文字列の各々について、前記目的ドメインの分類ラベル毎に、前記文字列と前記分類ラベルとのペアに関する素性を、前記目的ドメインのラベル依存素性として抽出する共に、前記目的ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製するラベル依存素性素性化部と、前記元ドメイン学習データに基づいて、前記文字列の各々について、前記文字列に関する素性を、ラベル非依存素性として抽出し、前記目的ドメイン学習データに基づいて、前記文字列の各々について、前記文字列に関する素性を、ラベル非依存素性として抽出するラベル非依存素性素性化部と、前記文字列の各々について前記元ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記ラベル非依存素性と、前記文字列に付与された分類ラベルと、前記文字列の各々について前記目的ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記ラベル非依存素性と、前記文字列に付与された分類ラベルと、に基づいて、前記文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与するためのモデルを学習するモデル学習部と、を含み、前記モデル学習部は、前記モデルにおける、前記文字列について前記元ドメインの分類ラベル毎に得られた前記共通ドメインのラベル依存素性に対するパラメータが、前記分類ラベルの各々に対して同一となり、かつ、前記文字列について前記目的ドメインの分類ラベル毎に得られた前記共通ドメインのラベル依存素性に対するパラメータが、前記分類ラベルの各々に対して同一となるように、前記モデルを学習する。
本発明に係るモデル学習方法は、目的ドメインの分類ラベルの集合に含まれる分類ラベルを、入力された文字列に付与するためのモデル学習装置におけるモデル学習方法であって、ラベル依存素性素性化部が、元ドメインの分類ラベルの集合に含まれる分類ラベルが付与された、前記文字列の集合からなる元ドメイン学習データに基づいて、前記文字列の各々について、前記元ドメインの分類ラベル毎に、前記文字列と前記分類ラベルとのペアに関する素性を、前記元ドメインのラベル依存素性として抽出する共に、前記元ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製し、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルが付与された、前記文字列の集合からなる目的ドメイン学習データに基づいて、前記文字列の各々について、前記目的ドメインの分類ラベル毎に、前記文字列と前記分類ラベルとのペアに関する素性を、前記目的ドメインのラベル依存素性として抽出する共に、前記目的ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製し、ラベル非依存素性素性化部が、前記元ドメイン学習データに基づいて、前記文字列の各々について、前記文字列に関する素性を、ラベル非依存素性として抽出し、前記目的ドメイン学習データに基づいて、前記文字列の各々について、前記文字列に関する素性を、ラベル非依存素性として抽出し、モデル学習部が、前記文字列の各々について前記元ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記ラベル非依存素性と、前記文字列に付与された分類ラベルと、前記文字列の各々について前記目的ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記ラベル非依存素性と、前記文字列に付与された分類ラベルと、に基づいて、文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与するためのモデルを学習することを含み、前記モデル学習部が学習することでは、前記モデルにおける、前記文字列について前記元ドメインの分類ラベル毎に得られた前記共通ドメインのラベル依存素性に対するパラメータが、前記分類ラベルの各々に対して同一となり、かつ、前記文字列について前記目的ドメインの分類ラベル毎に得られた前記共通ドメインのラベル依存素性に対するパラメータが、前記分類ラベルの各々に対して同一となるように、前記モデルを学習する。
本発明に係るラベル付与装置は、目的ドメインの分類ラベルの集合に含まれる分類ラベルを、入力された文字列に付与するためのラベル付与装置であって、予め用意された前記目的ドメインの分類ラベルの集合に基づいて、前記入力された文字列の各々について、前記目的ドメインの分類ラベル毎に、前記文字列と前記分類ラベルとのペアに関する素性を、前記目的ドメインのラベル依存素性として抽出する共に、前記目的ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製するラベル依存素性素性化部と、前記入力された文字列の各々について、前記文字列に関する素性を、ラベル非依存素性として抽出するラベル非依存素性素性化部と、上記のモデル学習装置によって学習された前記モデルと、前記入力された前記文字列の各々について前記目的ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記ラベル非依存素性とに基づいて、前記文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与するモデル適用部とを含んで構成されている。
本発明に係るラベル付与方法は、目的ドメインの分類ラベルの集合に含まれる分類ラベルを、入力された文字列に付与するためのラベル付与装置におけるラベル付与方法であって、ラベル依存素性素性化部が、予め用意された前記目的ドメインの分類ラベルの集合に基づいて、前記入力された文字列の各々について、前記目的ドメインの分類ラベル毎に、前記文字列と前記分類ラベルとのペアに関する素性を、前記目的ドメインのラベル依存素性として抽出する共に、前記目的ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製し、ラベル非依存素性素性化部が、前記入力された文字列の各々について、前記文字列に関する素性を、ラベル非依存素性として抽出し、モデル適用部が、請求項4記載のモデル学習方法によって学習された前記モデルと、前記入力された前記文字列の各々について前記目的ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記ラベル非依存素性とに基づいて、前記文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与する。
本発明に係るプログラムは、コンピュータを、上記のモデル学習装置又はラベル付与装置の各部として機能させるためのプログラムである。
本発明のモデル学習装置、方法、及びプログラムによれば、前記文字列について前記元ドメインの分類ラベル毎に得られた前記共通ドメインのラベル依存素性に対するパラメータが、前記分類ラベルの各々に対して同一となり、かつ、前記文字列について前記目的ドメインの分類ラベル毎に得られた前記共通ドメインのラベル依存素性に対するパラメータが、前記分類ラベルの各々に対して同一となるように、文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与するためのモデルを学習することにより、ドメインごとに、分類ラベルセットが異なる場合でも、他ドメインの学習データを転用することで精度向上を実現するモデルを学習することができる、という効果が得られる。
本発明のラベル付与装置、方法、及びプログラムによれば、入力された文字列に、分類ラベルを精度よく付与することできる、という効果が得られる。
元ドメインと、目的ドメインとのデータベースにおけるエントリと文字列との対応関係を説明するための図である。 本発明の実施の形態に係るモデル学習装置の構成を示すブロック図である。 本発明の実施の形態に係るラベル付与装置の構成を示すブロック図である。 本発明の実施の形態に係るモデル学習装置におけるモデル学習処理ルーチンを示すフローチャートである。 本発明の実施の形態に係るラベル付与装置におけるラベル付与処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。
本発明の実施の形態は、機械学習における分類問題一般に適用可能な技術である。例えば、自然言語による文字列を入力とする場合、学習データに従い、任意の分類ラベルセットのうち、どのラベルを付与するか決める問題である。
本発明の実施の形態では、具体例として、自然言語文中の文字列に対し、データベース中の各要素をラベルと見なしてラベルの付与を行うことを考える。
例えば、図1に示すように、学習時において、学習対象の元ドメインがおもちゃドメインとし、適用時において、目的ドメインが家電ドメインとする。元ドメインの学習時入力文「本はいくら?」と、元ドメインのデータベースから得られる、学習時入力文のアノテート結果(例えば「本⇒subject-絵本」、「いくら⇒predicate-価格」)と、目的ドメインの学習時入力文「掃除機はいくら?」と、目的ドメインのデータベースから得られる、学習時入力文のアノテート結果(例えば「掃除機⇒subject-掃除機」、「いくら⇒predicate-値段」)と、に基づいて、目的ドメインのラベルを付与するためのモデルを学習する。
そして、学習したモデルを、入力文に適用し、入力文の文字列に、目的ドメインである家電ドメインの分類ラベルを付与することにより、入力文の文字列と、家電ドメインのデータベース内のエントリとの対応を得る。
本発明の実施の形態では、上記の問題について、分類のための手がかりとして用いる素性情報のうち、対象ラベルによって素性の値が変化する素性と、一定である素性に着目する。
また、学習量が多い場合には、転移学習をさせない単独モデルの方が高性能である場合がある。そのため、学習量に応じて転移学習を行う学習済モデルと行わない通常学習済モデルを線形に結合する。これにより、両モデルの利点を活かすことが可能となる。また、分類ラベルセットが異なる他ドメインの学習データを用いることで、目的ドメインにおける分類ラベルの付与精度を向上させる。
<本発明の実施の形態に係るモデル学習装置の構成>
次に、本発明の実施の形態に係るモデル学習装置の構成について説明する。図2に示すように、本発明の実施の形態に係るモデル学習装置100は、CPUと、RAMと、後述するモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このモデル学習装置100は、機能的には図2に示すように入力部10と、演算部20とを備えている。
入力部10は、元ドメイン学習データ21、元ドメイン分類ラベルセット22、目的ドメイン学習データ23、及び目的ドメイン分類ラベルセット24を受け付ける。元ドメイン学習データ21及び目的ドメイン学習データ23は、例えば、「<subj=絵本>本</subj>は<pred=販売店>どこ/で/買える</pred>の?」というような自然言語文に対して、形態素境界を示すスラッシュ、及びエントリの対応付けが付与された自然言語文の集合である。また、元ドメイン分類ラベルセット22は、元ドメインの分類ラベルの集合であり、例えば、元ドメインのデータベースのエントリを表す分類ラベルの集合である。目的ドメイン分類ラベルセット24は、目的ドメインの分類ラベルの集合であり、例えば、目的ドメインのデータベースのエントリを表す分類ラベルの集合である。ここで、ドメインとは、「おもちゃ」、「家電」、「野球」などのトピックのようなものを表し、元ドメインは例えばおもちゃドメインであり、目的ドメインは家電ドメインである。
演算部20は、元ドメイン学習データ21と、元ドメイン分類ラベルセット22と、目的ドメイン学習データ23と、目的ドメイン分類ラベルセット24と、ラベル依存素性素性化部26と、ラベル非依存素性素性化部28と、モデル学習部30と、学習済モデル32とを含んで構成されている。
ラベル依存素性素性化部26は、元ドメイン学習データ21と、元ドメイン分類ラベルセット22とに基づいて、元ドメイン学習データ21に含まれる自然言語文の文字列の各々について、元ドメインの分類ラベル毎に、当該文字列と当該分類ラベルとのペアに関する素性を、元ドメインのラベル依存素性として抽出する共に、元ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製する。
また、ラベル依存素性素性化部26は、目的ドメイン学習データ23と、目的ドメイン分類ラベルセット24とに基づいて、目的ドメイン学習データ23に含まれる自然言語文の文字列の各々について、目的ドメインの分類ラベル毎に、当該文字列と当該分類ラベルとのペアに関する素性を、目的ドメインのラベル依存素性として抽出する共に、目的ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製する。
具体的には、対象文字列と分類ラベルのペアに関する素性として、表層類似度及び意味類似度を抽出する。
表層類似度は、対象文字列と各ラベルとの編集距離等を類似度として素性化したものであり、例えば、「どこで買える⇔pred:絵本 編集距離=1,文字重複率=0.5,単語一致率=0」というような対象文字列とエントリとの間の編集距離などを算出して、表層類似度を得る。
また、意味類似度は、対象文字列と各ラベルとの意味空間上でのコサイン距離等を類似度とみなし、素性として用いたものである(上記の非特許文献2参照)。例えば、「本⇔subj:絵本 意味類似度=0.5」というような対象文字列とエントリとの間の意味類似度を算出する。なお、意味空間としては、上記非特許文献2に記載の既存のモデル化手法を用いた意味ベクトルモデルを用いればよい。
また、上記の非特許文献1の素性拡張を用いる。具体的には、元ドメインデータ由来のラベル依存素性を、元ドメインのラベル依存素性とすると共に、共通ドメインのラベル依存素性としてコピーして保持する。例えば、元ドメインデータ由来のラベル依存素性が 「subj:絵本に対する意味類似度=0.5」を意味する素性の場合、元ドメインのラベル依存素性として、「source: subj:絵本に対する意味類似度=0.5 」という素性に変換すると共に、共通ドメインのラベル依存素性としてコピーし、「common: subj:絵本に対する意味類似度=0.5 」という素性に変換する。
また、目的ドメインデータ由来のラベル依存素性を、目的ドメインのラベル依存素性とすると共に、共通ドメインのラベル依存素性としてコピーして保持する。例えば、目的ドメインデータ由来の素性が「subj:掃除機に対する意味類似度=0.5」を意味する素性の場合、目的ドメインのラベル依存素性として、「target: subj:掃除機に対する意味類似度=0.5 」という素性に変換すると共に、共通ドメインのラベル依存素性としてコピーし、「common subj:掃除機に対する意味類似度=0.5 」という素性に変換する。
上記のように、元ドメインの素性に、元ドメインを表すヘッダ(例えば、”source:”)を付与し、目的ドメインを表すヘッダ(例えば、”target:”)を付与し、共通ドメインの素性に、共通ドメインを表すヘッダ(例えば、“common:”)を付与する。
ラベル非依存素性素性化部28は、元ドメイン学習データ21に基づいて、元ドメイン学習データ21に含まれる自然言語文の文字列の各々について、当該文字列に関する素性を、元ドメインのラベル非依存素性として抽出すると共に、共通ドメインのラベル非依存素性として複製する。
また、ラベル非依存素性素性化部28は、目的ドメイン学習データ23に基づいて、目的ドメイン学習データ23に含まれる自然言語文の文字列の各々について、当該文字列に関する素性を、目的ドメインのラベル非依存素性として抽出すると共に、共通ドメインのラベル非依存素性として複製する。
具体的には、対象文字列に関する素性として、文字列中の単語や品詞等の形態素情報を抽出する。例えば、文字列「どこで買える」から、「どこ」「で」「買え」「る」を、素性として抽出する。
また、上記の非特許文献1の素性拡張を用いる。具体的には、元ドメインデータ由来のラベル非依存素性を、元ドメインのラベル非依存素性とすると共に、共通ドメインのラベル非依存素性としてコピーして保持する。例えば、元ドメインデータ由来のラベル非依存素性が 「どこ」という単語が出現したことを意味する素性の場合、元ドメインのラベル非依存素性として、「source:どこ」という素性に変換すると共に、共通ドメインのラベル非依存素性としてコピーし、「common:どこ」という素性に変換する。
また、目的ドメインデータ由来のラベル非依存素性を、目的ドメインのラベル非依存素性とすると共に、共通ドメインのラベル非依存素性としてコピーして保持する。例えば、目的ドメインデータ由来のラベル非依存素性が「どこ」という単語が出現したことを意味する素性の場合、目的ドメインのラベル非依存素性として、「target:どこ」という素性に変換すると共に、共通ドメインのラベル非依存素性としてコピーし、「common:どこ」という素性に変換する。
モデル学習部30は、元ドメイン学習データ21の文字列の各々について元ドメインの分類ラベル毎に得られた、共通ドメインのラベル依存素性と、元ドメイン学習データ21の文字列の各々について得られた、共通ドメインのラベル非依存素性と、元ドメイン学習データ21の文字列に付与された分類ラベルと、目的ドメイン学習データ23の文字列の各々について目的ドメインの分類ラベル毎に得られた、共通ドメインのラベル依存素性と、目的ドメイン学習データ23の文字列の各々について得られた共通ドメインのラベル非依存素性と、目的ドメイン学習データ23の文字列に付与された分類ラベルと、に基づいて、文字列に、目的ドメイン分類ラベルセット24に含まれる分類ラベルを付与するためのモデルを学習する。このとき、モデル学習部30は、モデルにおける、元ドメインの分類ラベル毎に得られる共通ドメインのラベル依存素性に対するパラメータが、分類ラベルの各々に対して同一となり、かつ、目的ドメインの分類ラベル毎に得られる共通ドメインのラベル依存素性に対するパラメータが、分類ラベルの各々に対して同一となるように、モデルを学習する。
以下に、本発明の実施の形態におけるモデル学習の原理について説明する。
本実施の形態では、得られた素性を元に、ロジスティック回帰に基づく分類学習を行う。ただし、共通ドメインのラベル依存素性については、各素性タイプ(表層類似度や意味類似度)毎に、各ラベルに対して同一の重みパラメータとなるようにモデルを学習する。これにより分類ラベルが異なるドメインであっても、一部の情報を転移させることが可能となる。
通常のロジスティック回帰の尤度関数は以下の式で表わされる。

・・・(1)
ただし、lは、分類ラベルを表し、全部で|L|ラベル存在する。φは各素性を表し、φ_fは「私」という単語が現れたか否か、というラベル非依存素性で、|F|個存在する。
θはパラメータを表し、θ_flは素性φ_fのラベルlにおける重みパラメータを表し、全部で|F|*|L|個存在する。
本実施の形態では、ラベル依存素性のパラメータを、各ラベルに対して共通のパラメータとするため、以下の推定確率を尤度関数に追加する。
ただし、φ_f(l)は、ラベル依存素性を表し、θ_fは、ラベル依存素性φ_f(l)に関する共通パラメータで、ラベルlに関わりなく同じ重みが付与されている。
また、モデルの学習において、ラベル依存素性の共通パラメータは、以下の式を用いて、更新される。
Δθ_fは、素性関数φ_fについての重みθ_fを更新するための差分であり、p(l’|θ)はラベルl’の事後分布である。
具体的には、以下の式のようにloss functionを設定して微分し、これをパラメータの更新値とする。
ただし、t_lは、正解ラベルのみ1、他は0となる値である。
また、素性φ_fのラベルlにおける重みパラメータθ_flも、共通パラメータと同様に、上記(1)式に対応するloss functionを設定して微分し、更新値とすることにより、学習される。
なお、ラベル非依存素性と合わせた全体の尤度関数は以下となる。

・・・(2)
ただし、Zは正規化項である。上記の尤度関数は一例であり、尤度関数に、ラベル依存素性φ_f(l)と、ラベル依存素性φ_f(l)の重みパラメータθ_flとを掛けて足し合わせた項を更に含めてもよい。
以上説明したように、モデル学習部30は、ラベル依存素性φ_f(l)に関する共通パラメータθ_f、及びラベル非依存素性φ_fの各分類ラベルlにおける重みパラメータθ_flを学習し、学習済モデル32とする。
<本発明の実施の形態に係るラベル付与装置の構成>
次に、本発明の実施の形態に係るラベル付与装置の構成について説明する。図3に示すように、本発明の実施の形態に係るラベル付与装置200は、CPUと、RAMと、後述するラベル付与処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このラベル付与装置200は、機能的には図3に示すように入力部210と、演算部220と、出力部250とを備えている。
入力部210は、テストデータである自然言語文と、目的ドメイン分類ラベルセット24とを受け付ける。
演算部220は、目的ドメイン分類ラベルセット24と、ラベル依存素性素性化部226と、ラベル非依存素性素性化部228と、モデル適用部230と、学習済モデル32と、通常学習済モデル234とを含んで構成されている。
ラベル依存素性素性化部226は、目的ドメイン分類ラベルセット24に基づいて、テキストデータである自然言語文の文字列の各々について、目的ドメインの分類ラベル毎に、当該文字列と分類ラベルとのペアに関する素性を、目的ドメインのラベル依存素性として抽出する共に、目的ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製する。
具体的には、対象文字列と分類ラベルのペアに関する素性として、ラベル依存素性素性化部26と同様に、表層類似度及び意味類似度を抽出する。
ラベル非依存素性素性化部228は、テストデータである自然言語文の文字列の各々について、当該文字列に関する素性を、目的ドメインのラベル非依存素性として抽出すると共に、共通ドメインのラベル非依存素性として複製する。
具体的には、対象文字列に関する素性として、ラベル非依存素性素性化部28と同様に、文字列中の単語や品詞等の形態素情報を抽出する。
通常学習済モデル234は、学習データの文字列について得られたラベル非依存素性と、文字列に付与された分類ラベルとに基づいて、従来手法の教師あり学習を行って得られた、文字列に、目的ドメイン分類ラベルセット24に含まれる分類ラベルを付与すためのモデルであり、例えば、目的ドメインのラベル非依存素性φ_fの各分類ラベルlにおける重みパラメータθ_flである。
モデル適用部230は、学習済モデル32と、通常学習済モデル234と、入力されたテストデータに含まれる文字列の各々について目的ドメインの分類ラベル毎に得られた、共通ドメインのラベル依存素性と、テストデータの文字列の各々について得られた共通ドメインのラベル非依存素性とに基づいて、テストデータに含まれる文字列に、目的ドメイン分類ラベルセット24に含まれる分類ラベルを付与する。
本実施の形態では、モデル適用部230は、学習済モデル32と、入力されたテストデータに含まれる文字列の各々について目的ドメインの分類ラベル毎に得られた、共通ドメインのラベル依存素性と、テストデータの文字列の各々について得られた共通ドメインのラベル非依存素性とに基づいて、テストデータに含まれる文字列の各々に対し、目的ドメイン分類ラベルセット24に含まれる分類ラベルの各々について、上記(2)式に示す尤度関数に従って、当該文字列に当該分類ラベルが付与される確率を求める。また、モデル適用部230は、通常学習済モデル234と、入力されたテストデータに含まれる文字列の各々について得られたラベル非依存素性とに基づいて、テストデータに含まれる文字列の各々に対し、目的ドメイン分類ラベルセット24に含まれる分類ラベルの各々について、上記(1)式に示す尤度関数に従って、当該文字列に当該分類ラベルが付与される確率を求める。
そして、モデル適用部230は、テストデータに含まれる文字列の各々に対し、目的ドメイン分類ラベルセット24に含まれる分類ラベルの各々について、上記(2)式に示す尤度関数に従って求められた確率と、上記(1)式に示す尤度関数に従って求められた確率との重み付き和を算出し、当該文字列に、重み付き和が最大となる分類ラベルを付与する。重みは、学習済モデル32の学習量と通常学習済モデル234の学習量とに合わせて予め任意に指定される。学習済モデル側の重みを1、通常学習済モデルの重みを0とすれば、学習済モデルのみを使った場合に等しく、逆に学習済モデル側の重みを0、通常学習済モデルの重みを1とすれば従来手法と等しい。
<本発明の実施の形態に係るモデル学習装置の作用>
次に、本発明の実施の形態に係るモデル学習装置100の作用について説明する。入力部10において、元ドメイン学習データ21、元ドメイン分類ラベルセット22、目的ドメイン学習データ23、及び目的ドメイン分類ラベルセット24を受け付けると、モデル学習装置100は、図4に示すモデル学習処理ルーチンを実行する。
ステップS100では、元ドメイン学習データ21と、元ドメイン分類ラベルセット22とに基づいて、元ドメイン学習データ21に含まれる自然言語文の文字列の各々について、元ドメインの分類ラベル毎に、文字列と分類ラベルとのペアに関する素性を、元ドメインのラベル依存素性として抽出する共に、元ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製する。
ステップS102では、目的ドメイン学習データ23と、目的ドメイン分類ラベルセット24とに基づいて、目的ドメイン学習データ23に含まれる自然言語文の文字列の各々について、目的ドメインの分類ラベル毎に、文字列と分類ラベルとのペアに関する素性を、目的ドメインのラベル依存素性として抽出する共に、目的ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製する。
ステップS104では、元ドメイン学習データ21に基づいて、元ドメイン学習データ21に含まれる自然言語文の文字列の各々について、当該文字列に関する素性を、元ドメインのラベル非依存素性として抽出すると共に、共通ドメインのラベル非依存素性として複製する。
ステップS106では、目的ドメイン学習データ23に基づいて、目的ドメイン学習データ23に含まれる自然言語文の文字列の各々について、当該文字列に関する素性を、目的ドメインのラベル非依存素性として抽出すると共に、共通ドメインのラベル非依存素性として複製する。
そして、ステップS108において、元ドメイン学習データ21の文字列の各々について元ドメインの分類ラベル毎に得られた、共通ドメインのラベル依存素性と、元ドメイン学習データ21の文字列の各々について得られた、共通ドメインのラベル非依存素性と、元ドメイン学習データ21の文字列に付与された分類ラベルと、目的ドメイン学習データ23の文字列の各々について目的ドメインの分類ラベル毎に得られた、共通ドメインのラベル依存素性と、目的ドメイン学習データ23の文字列の各々について得られた共通ドメインのラベル非依存素性と、目的ドメイン学習データ23の文字列に付与された分類ラベルと、に基づいて、文字列に、目的ドメイン分類ラベルセット24に含まれる分類ラベルを付与するためのモデルを、学習済モデル32として学習し、モデル学習処理ルーチンを終了する。
<本発明の実施の形態に係るラベル付与装置の作用>
次に、本発明の実施の形態に係るラベル付与装置200の作用について説明する。入力部210において目的ドメインのテストデータである自然言語文と、目的ドメイン分類ラベルセット24を受け付けると、ラベル付与装置200は、図5に示すラベル付与処理ルーチンを実行する。
まず、ステップS200では、目的ドメイン分類ラベルセット24に基づいて、テキストデータである自然言語文の文字列の各々について、目的ドメインの分類ラベル毎に、当該文字列と分類ラベルとのペアに関する素性を、目的ドメインのラベル依存素性として抽出する共に、目的ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製する。
次に、ステップS202では、テストデータである自然言語文の文字列の各々について、当該文字列に関する素性を、目的ドメインのラベル非依存素性として抽出すると共に、共通ドメインのラベル非依存素性として複製する。
ステップS204では、学習済モデル32と、通常学習済モデル234と、入力された目的ドメインのテストデータに含まれる文字列の各々について目的ドメインの分類ラベル毎に得られた、共通ドメインのラベル依存素性と、文字列の各々について得られた共通ドメインのラベル非依存素性とに基づいて、目的ドメインのテストデータに含まれる文字列に、目的ドメイン分類ラベルセット24に含まれる分類ラベルを付与し、出力部250に出力し処理を終了する。
以上説明したように、本発明の実施の形態に係るモデル学習装置によれば、元ドメイン学習データの文字列について元ドメインの分類ラベル毎に得られた共通ドメインのラベル依存素性に対するパラメータが、分類ラベルの各々に対して同一となり、かつ、目的ドメイン学習データの文字列について目的ドメインの分類ラベル毎に得られた共通ドメインのラベル依存素性に対するパラメータが、分類ラベルの各々に対して同一となるように、目的ドメインの分類ラベルセットに含まれる分類ラベルを付与するためのモデルを学習することにより、ドメインごとに、分類ラベルセットが異なる場合でも、他ドメインの学習データを転用することで精度向上を実現するモデルを学習することができる。
また、本発明の実施の形態に係るラベル付与装置によれば、モデル学習装置により学習された学習済モデルを用いて、入力された文字列に、分類ラベルを精度よく付与することできる。また、学習済モデルと通常学習済モデルとを用いて計算される確率の重み付き和に基づいて、入力された文字列に、分類ラベルを精度よく付与することできる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、学習済モデル32と、通常学習済モデル234とを用いて、分類ラベルを付与する場合を例に説明したが、これに限定されるものではなく、通常学習済モデル234を用いずに、学習済モデル32を用いて、分類ラベルを付与するようにしてもよい。
10、210 入力部
20、220 演算部
21 元ドメイン学習データ
22 元ドメイン分類ラベルセット
23 目的ドメイン学習データ
24 目的ドメイン分類ラベルセット
26 ラベル依存素性素性化部
28 ラベル非依存素性素性化部
30 モデル学習部
32 学習済モデル
100 モデル学習装置
200 ラベル付与装置
226 ラベル依存素性素性化部
228 ラベル非依存素性素性化部
230 モデル適用部
234 通常学習済モデル
250 出力部

Claims (7)

  1. 目的ドメインの分類ラベルの集合に含まれる分類ラベルを、入力された文字列に付与するためのモデル学習装置であって、
    元ドメインの分類ラベルの集合に含まれる分類ラベルが付与された、文字列の集合からなる元ドメイン学習データに基づいて、前記文字列の各々について、前記元ドメインの分類ラベル毎に、前記文字列と前記分類ラベルとのペアに関する素性を、前記元ドメインのラベル依存素性として抽出する共に、前記元ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製し、
    前記目的ドメインの分類ラベルの集合に含まれる分類ラベルが付与された、前記文字列の集合からなる目的ドメイン学習データに基づいて、前記文字列の各々について、前記目的ドメインの分類ラベル毎に、前記文字列と前記分類ラベルとのペアに関する素性を、前記目的ドメインのラベル依存素性として抽出する共に、前記目的ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製するラベル依存素性素性化部と、
    前記元ドメイン学習データに基づいて、前記文字列の各々について、前記文字列に関する素性を、ラベル非依存素性として抽出し、
    前記目的ドメイン学習データに基づいて、前記文字列の各々について、前記文字列に関する素性を、ラベル非依存素性として抽出するラベル非依存素性素性化部と、
    前記文字列の各々について前記元ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記ラベル非依存素性と、前記文字列に付与された分類ラベルと、前記文字列の各々について前記目的ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記ラベル非依存素性と、前記文字列に付与された分類ラベルと、に基づいて、文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与するためのモデルを学習するモデル学習部と、
    を含み、
    前記モデル学習部は、前記モデルにおける、前記文字列について前記元ドメインの分類ラベル毎に得られた前記共通ドメインのラベル依存素性に対するパラメータが、前記分類ラベルの各々に対して同一となり、かつ、前記文字列について前記目的ドメインの分類ラベル毎に得られた前記共通ドメインのラベル依存素性に対するパラメータが、前記分類ラベルの各々に対して同一となるように、前記モデルを学習する
    モデル学習装置。
  2. 目的ドメインの分類ラベルの集合に含まれる分類ラベルを、入力された文字列に付与するためのラベル付与装置であって、
    予め用意された前記目的ドメインの分類ラベルの集合に基づいて、前記入力された文字列の各々について、前記目的ドメインの分類ラベル毎に、前記文字列と前記分類ラベルとのペアに関する素性を、前記目的ドメインのラベル依存素性として抽出する共に、前記目的ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製するラベル依存素性素性化部と、
    前記入力された文字列の各々について、前記文字列に関する素性を、ラベル非依存素性として抽出するラベル非依存素性素性化部と、
    請求項1記載のモデル学習装置によって学習された前記モデルと、前記入力された前記文字列の各々について前記目的ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記ラベル非依存素性とに基づいて、前記文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与するモデル適用部と、
    を含むラベル付与装置。
  3. 前記モデル適用部は、前記モデルと、前記入力された前記文字列の各々について前記目的ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記共通ドメインのラベル非依存素性とに基づいて、前記目的ドメインの分類ラベルの集合に含まれる分類ラベル毎に、前記文字列に前記分類ラベルが付与される確率を求め、
    前記目的ドメインについて得られた前記ラベル非依存素性に基づいて、前記文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与するための予め学習された通常学習済みモデルと、前記入力された前記文字列の各々について得られた前記ラベル非依存素性とに基づいて、前記目的ドメインの分類ラベルの集合に含まれる分類ラベル毎に、前記文字列に前記分類ラベルが付与される確率を求め、
    前記求められた確率の重み付き和に基づいて、前記文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与する請求項2記載のラベル付与装置。
  4. 目的ドメインの分類ラベルの集合に含まれる分類ラベルを、入力された文字列に付与するためのモデル学習装置におけるモデル学習方法であって、
    ラベル依存素性素性化部が、元ドメインの分類ラベルの集合に含まれる分類ラベルが付与された、前記文字列の集合からなる元ドメイン学習データに基づいて、前記文字列の各々について、前記元ドメインの分類ラベル毎に、前記文字列と前記分類ラベルとのペアに関する素性を、前記元ドメインのラベル依存素性として抽出する共に、前記元ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製し、
    前記目的ドメインの分類ラベルの集合に含まれる分類ラベルが付与された、前記文字列の集合からなる目的ドメイン学習データに基づいて、前記文字列の各々について、前記目的ドメインの分類ラベル毎に、前記文字列と前記分類ラベルとのペアに関する素性を、前記目的ドメインのラベル依存素性として抽出する共に、前記目的ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製し、
    ラベル非依存素性素性化部が、前記元ドメイン学習データに基づいて、前記文字列の各々について、前記文字列に関する素性を、ラベル非依存素性として抽出し、
    前記目的ドメイン学習データに基づいて、前記文字列の各々について、前記文字列に関する素性を、ラベル非依存素性として抽出し、
    モデル学習部が、前記文字列の各々について前記元ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記ラベル非依存素性と、前記文字列に付与された分類ラベルと、前記文字列の各々について前記目的ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記ラベル非依存素性と、前記文字列に付与された分類ラベルと、に基づいて、文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与するためのモデルを学習する
    ことを含み、
    前記モデル学習部が学習することでは、前記モデルにおける、前記文字列について前記元ドメインの分類ラベル毎に得られた前記共通ドメインのラベル依存素性に対するパラメータが、前記分類ラベルの各々に対して同一となり、かつ、前記文字列について前記目的ドメインの分類ラベル毎に得られた前記共通ドメインのラベル依存素性に対するパラメータが、前記分類ラベルの各々に対して同一となるように、前記モデルを学習する
    モデル学習方法。
  5. 目的ドメインの分類ラベルの集合に含まれる分類ラベルを、入力された文字列に付与するためのラベル付与装置におけるラベル付与方法であって、
    ラベル依存素性素性化部が、予め用意された前記目的ドメインの分類ラベルの集合に基づいて、前記入力された文字列の各々について、前記目的ドメインの分類ラベル毎に、前記文字列と前記分類ラベルとのペアに関する素性を、前記目的ドメインのラベル依存素性として抽出する共に、前記目的ドメインのラベル依存素性を、共通ドメインのラベル依存素性として複製し、
    ラベル非依存素性素性化部が、前記入力された文字列の各々について、前記文字列に関する素性を、ラベル非依存素性として抽出し、
    モデル適用部が、請求項4記載のモデル学習方法によって学習された前記モデルと、前記入力された前記文字列の各々について前記目的ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記ラベル非依存素性とに基づいて、前記文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与する
    ラベル付与方法。
  6. 前記モデル適用部が付与することでは、前記モデルと、前記入力された前記文字列の各々について前記目的ドメインの分類ラベル毎に得られた、前記共通ドメインのラベル依存素性と、前記文字列の各々について得られた前記共通ドメインのラベル非依存素性とに基づいて、前記目的ドメインの分類ラベルの集合に含まれる分類ラベル毎に、前記文字列に前記分類ラベルが付与される確率を求め、
    前記目的ドメインについて得られた前記ラベル非依存素性に基づいて、前記文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与するための予め学習された通常学習済みモデルと、前記入力された前記文字列の各々について得られた前記ラベル非依存素性とに基づいて、前記目的ドメインの分類ラベルの集合に含まれる分類ラベル毎に、前記文字列に前記分類ラベルが付与される確率を求め、
    前記求められた確率の重み付き和に基づいて、前記文字列に、前記目的ドメインの分類ラベルの集合に含まれる分類ラベルを付与する請求項5記載のラベル付与方法。
  7. コンピュータを、請求項1に記載のモデル学習装置、又は請求項2若しくは3に記載のラベル付与装置の各部として機能させるためのプログラム。
JP2016234363A 2016-12-01 2016-12-01 モデル学習装置、ラベル付与装置、方法、及びプログラム Pending JP2018092326A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016234363A JP2018092326A (ja) 2016-12-01 2016-12-01 モデル学習装置、ラベル付与装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016234363A JP2018092326A (ja) 2016-12-01 2016-12-01 モデル学習装置、ラベル付与装置、方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2018092326A true JP2018092326A (ja) 2018-06-14

Family

ID=62566211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016234363A Pending JP2018092326A (ja) 2016-12-01 2016-12-01 モデル学習装置、ラベル付与装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2018092326A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115204246A (zh) * 2021-03-26 2022-10-18 横河电机株式会社 装置、方法以及计算机可读介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115204246A (zh) * 2021-03-26 2022-10-18 横河电机株式会社 装置、方法以及计算机可读介质

Similar Documents

Publication Publication Date Title
CN109858030B (zh) 双向的意图槽值交叉相关的任务型对话理解系统及方法
CN111814487B (zh) 一种语义理解方法、装置、设备及存储介质
CN108765383B (zh) 基于深度迁移学习的视频描述方法
CN107273355B (zh) 一种基于字词联合训练的中文词向量生成方法
CN111026842A (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
CN111078836A (zh) 基于外部知识增强的机器阅读理解方法、系统、装置
CN111522965A (zh) 一种基于迁移学习的实体关系抽取的问答方法及系统
CN111581954A (zh) 一种基于语法依存信息的文本事件抽取方法及装置
JP6062879B2 (ja) モデル学習装置、方法及びプログラム
CN107315741B (zh) 双语词典构建方法和设备
CN109271516B (zh) 一种知识图谱中实体类型分类方法及系统
WO2023231576A1 (zh) 混合语言语音识别模型的生成方法及装置
CN113705222B (zh) 槽识别模型训练方法及装置和槽填充方法及装置
KR20200071877A (ko) 자율 증강형 반복 학습을 이용한 정보 추출 방법 및 시스템
CN110851601A (zh) 基于分层注意力机制的跨领域情感分类系统及方法
CN111522923A (zh) 一种多轮任务式对话状态追踪方法
CN114281982A (zh) 一种多模态融合技术的图书宣传摘要生成方法和系统
CN114722833B (zh) 一种语义分类方法及装置
CN115147607A (zh) 一种基于凸优化理论的抗噪声零样本图像分类方法
JP2016170636A (ja) 接続関係推定装置、方法、及びプログラム
CN117421420A (zh) 一种基于软提示学习的中文点击诱饵检测方法
WO2025050842A1 (zh) 机器学习任务模板生成方法、训练方法、微调方法及设备
CN117034921B (zh) 一种基于用户数据的提示学习训练方法、装置和介质
CN119623617A (zh) 一种基于领域知识与多粒度图网络的文档摘要方法
CN110489348B (zh) 一种基于迁移学习的软件功能缺陷挖掘方法