JP2016151981A - 学習装置、学習方法及び学習プログラム - Google Patents

学習装置、学習方法及び学習プログラム Download PDF

Info

Publication number
JP2016151981A
JP2016151981A JP2015030243A JP2015030243A JP2016151981A JP 2016151981 A JP2016151981 A JP 2016151981A JP 2015030243 A JP2015030243 A JP 2015030243A JP 2015030243 A JP2015030243 A JP 2015030243A JP 2016151981 A JP2016151981 A JP 2016151981A
Authority
JP
Japan
Prior art keywords
sentence
word
meaning
rule
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015030243A
Other languages
English (en)
Other versions
JP6435909B2 (ja
Inventor
友哉 岩倉
Tomoya Iwakura
友哉 岩倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2015030243A priority Critical patent/JP6435909B2/ja
Priority to US15/001,436 priority patent/US20160246775A1/en
Publication of JP2016151981A publication Critical patent/JP2016151981A/ja
Application granted granted Critical
Publication of JP6435909B2 publication Critical patent/JP6435909B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

【課題】複数の語義を有する単語をより正しくタイプ分類する規則を得る学習装置、方法及び学習プログラムを提供する。
【解決手段】学習装置301は、対象単語の語義を判別する第1規則を、対象単語と、語義を特定する第1データとを含む第1例文に基づいて学習する第1学習部と、第1例文と文脈が共通し、かつ、対象単語と、タイプを特定する第2データとを含む第2例文における語義を、第1規則に従って判別する第1判別部と、タイプを判別する第2規則を、第2例文における語義と、第2データにより特定されるタイプとの対応に基づいて学習する第2学習部と、対象単語と、タイプを特定する第3データとを含む第3例文における語義を、第1規則に従って判別する第2判別部と、タイプを判別する第3規則を、第2規則を初期値として用い、第3例文における語義と第3例文とに基づいて学習する第3学習部とを有する。
【選択図】図3

Description

本発明は、単語のタイプを判別する技術に関する。
ある特許文献には、例文に含まれる単語が固有表現に該当することを示す正解リストを用いて、固有表現を抽出する規則を生成する装置が開示されている。
但し、ある例文において固有表現に該当する単語が、他の文においても固有表現として用いられるとは限らない。
このように、使われ方が多様な単語を自動的に分類することは、容易ではない。
特開2001−318792号公報 特開2007−323475号公報
本発明の目的は、一側面では、複数の語義を有する単語をより正しくタイプ分類する規則を得ることである。
一態様に係る学習装置は、複数の語義を有し且つ複数のタイプに分類される対象単語について、当該タイプを判別する規則を学習する。また、上記学習装置は、対象単語の語義を判別する第1規則を、対象単語と当該対象単語の語義を特定する第1データとを含む第1例文に基づいて学習する第1学習部と、第1例文と文脈が共通し、且つ対象単語と当該対象単語のタイプを特定する第2データとを含む第2例文における当該対象単語の語義を、第1規則に従って判別する第1判別部と、タイプを判別する第2規則を、第2例文における語義と、第2データにより特定されるタイプとの対応に基づいて学習する第2学習部と、対象単語と当該対象単語のタイプを特定する第3データとを含む第3例文における当該対象単語の語義を、第1規則に従って判別する第2判別部と、タイプを判別する第3規則を、第2規則を初期値として用い、第3例文における語義と第3例文とに基づいて学習する第3学習部とを有する。
一側面としては、複数の語義を有する単語をより正しくタイプ分類する規則が得られる。
図1は、固有表現のタイプを判別する例を示す図である。 図2は、固有表現に該当しない例を示す図である。 図3は、学習装置のモジュール構成例を示す図である。 図4は、学習装置の処理フローを示す図である。 図5は、定義テーブルの例を示す図である。 図6は、第1前処理部のモジュール構成例を示す図である。 図7は、第1前処理フローの例を示す図である。 図8は、第1例文データの例を示す図である。 図9は、第1例文の例を示す図である。 図10は、第1例文の例を示す図である。 図11は、第1例文の例を示す図である。 図12は、第1抽出データの例を示す図である。 図13は、第1規則データの例を示す図である。 図14は、第2前処理部のモジュール構成例を示す図である。 図15は、第2前処理フローの例を示す図である。 図16は、第2例文データの例を示す図である。 図17は、第2抽出データの例を示す図である。 図18は、学習データの例を示す図である。 図19は、第2規則データの例を示す図である。 図20は、第2規則データの例を示す図である。 図21は、メイン処理部のモジュール構成例を示す図である。 図22は、メイン処理フローの例を示す図である。 図23は、第3例文データの例を示す図である。 図24は、第3例文の例を示す図である。 図25は、第3例文の例を示す図である。 図26は、第3例文の例を示す図である。 図27は、メイン処理フローの例を示す図である。 図28は、教師データの例を示す図である。 図29は、第3抽出データの例を示す図である。 図30は、第3規則データの例を示す図である。 図31は、第3例文データの例を示す図である。 図32は、第3例文の例を示す図である。 図33は、教師データの例を示す図である。 図34は、判別装置のモジュール構成例を示す図である。 図35は、適用処理フローの例を示す図である。 図36は、対象文データの例を示す図である。 図37は、適用データの例を示す図である。 図38は、第4抽出データの例を示す図である。 図39は、結果データの例を示す図である。 図40は、出力データの例を示す図である。 図41は、実施の形態2に係る学習装置のモジュール構成例を示す図である。 図42は、コンピュータの機能ブロック図である。
[実施の形態1]
本来「稲の実」を意味する1つの漢字で表される単語「米」は、日本語において「アメリカ合衆国」の略語として用いられることがある。以下では、この単語が「稲の実」の意味の他に、「アメリカ合衆国の政府」という意味でも用いられる状況における例について説明する。この単語が「アメリカ合衆国の政府」の意味で用いられる場合に、この単語は固有表現のタイプ「組織」に該当する。一方、この単語が「稲の実」の意味で用いられる場合に、この単語は固有表現のいずれのタイプにも該当しない。
以下では、「稲の実」を意味する1つの漢字で表される単語「米」が、固有表現のタイプ「組織」に該当するか否かを自動的に判別する例について説明する。尚、判別の対象となる単語を、対象単語という。
対象単語が固有表現のタイプに該当する場合には、固有表現のタイプを示すタグを付した出力文が生成される。他方、対象単語が固有表現のタイプに該当しない場合には、タグは付加されない。
図1に、固有表現のタイプを判別する例を示す。この例における適用対象の文は、上段に示した「米は、日本人と交流する大統領の写真を公開した。」である。本実施の形態では、文に含まれる名詞に着目して処理を行う。
まず、文に含まれる単語のうち名詞について説明する。この適用対象の文は、第1名詞101、第2名詞103、第3名詞105及び第4名詞107の4つの名詞を含んでいる。これらのうち、第1名詞101は、対象単語に該当する。この例における第1名詞101は、「アメリカ合衆国の政府」の意味で用いられている。この第1名詞101は、図示するように1つの漢字で表される。
図1の下段は、上段に示した文に対する判別を行って得られた出力文を示している。図1の下段における第1名詞151には、第1名詞101が組織タイプの固有表現に相当することを示すタグ<組織>及び</組織>が付されている。固有表現のタイプを判別する対象に該当しない単語は変更されない。従って、第2名詞103、第3名詞105及び第4名詞107は、上段と同様である。
尚、第2名詞103は、図示するように3つの漢字で表される「日本人」である。第3名詞105は、図示するように3つの漢字で表される「大統領」である。第4名詞107は、図示するように2つの漢字で表される「写真」である。
次に、図2を用いて、対象単語が固有表現に該当しない場合について説明する。この例における適用対象の文は、上段に示した「米は、日本の主食であって、酒の製造に使われる。」である。この適用対象の文は、第1名詞201、第2名詞203、第3名詞205、第4名詞207及び第5名詞209の5つの名詞を含んでいる。そのうち、第1名詞201は、図1に示した第1名詞101と同様に、対象単語である。この例における第1名詞201は、「稲の実」の意味で用いられている。つまり、この例における第1名詞201は、本来の意味として用いられており、固有表現には該当しない。
図2の下段は、上段に示した文に対する判別を行って得られた出力文を示している。判別対象の単語が、固有表現に該当しない場合には、タグが付されない。従って、第1名詞201は、上段と同様である。固有表現のタイプを判別する対象に該当しない第2名詞203、第3名詞205、第4名詞207及び第5名詞209も、上段と同様である。但し、対象単語が固有表現のタイプに該当しない場合に、固有表現のタイプに該当しない旨を示すタグ<O>と</O>を付すようにしてもよい。
尚、第2名詞203は、図示するように2つの漢字で表される「日本」である。第3名詞205は、図示するように2つの漢字で表される「主食」である。第4名詞207は、図示するように1つの漢字で表される「酒」である。第5名詞209は、図示するように2つの漢字で表される「製造」である。
次に、機械学習を行う学習装置について説明する。図3に、学習装置301のモジュール構成例を示す。学習装置301は、設定部303、定義記憶部305、第1前処理部307、第1文記憶部309、第1規則記憶部311、第2前処理部313、第2規則記憶部315、メイン処理部317及び第3規則記憶部319を有する。
学習装置301は、機械学習によってラベル判別器を生成するコンピュータである。設定部303は、定義データの内容を設定する。定義記憶部305は、定義データを記憶する。第1前処理部307は、第1文記憶部309に記憶される第1例文に基づいて、第1規則データを含む語義判別器を生成する。第1前処理部307により実行される処理を、第1前処理という。第1文記憶部309は、複数の第1例文を含む第1例文データを記憶する。第1規則記憶部311は、第1規則データを記憶する。第2前処理部313は、第1例文から生成される第2例文と、第1規則データとに基づいて、第2規則データを含むラベル判別器を生成するための1回目の機械学習を行う。第2前処理部313により実行される処理を、第2前処理という。第2規則記憶部315は、第2規則データを記憶する。メイン処理部317は、第3例文と、第1規則データと、第2規則データとに基づいて、第2規則データを規則データの初期値として用いて、第3規則データを含むラベル判別器を生成するための2回目の機械学習を行う。メイン処理部317により実行される処理を、メイン処理という。第3規則記憶部319は、第3規則データを記憶する。上述したデータ及び処理の内容については、以下で詳述する。
上述した設定部303、第1前処理部307、第2前処理部313及びメイン処理部317は、ハードウエア資源(例えば、図42)と、以下で述べる処理をプロセッサに実行させるプログラムとを用いて実現される。
上述した定義記憶部305、第1文記憶部309、第1規則記憶部311、第2規則記憶部315及び第3規則記憶部319は、ハードウエア資源(例えば、図42)を用いて実現される。
図4に、学習装置301の処理フローを示す。設定部303は、定義記憶部305に記憶される定義データに、対象単語に関する定義内容を設定する(S401)。設定部303は、例えばユーザインターフェース、記録媒体あるいは通信媒体を介して、定義内容を受け付ける。
図5に、定義テーブルの例を示す。定義テーブルは、対象単語の語義に対応するレコードを有する。定義テーブルのレコードは、対象単語を設定するフィールド、語義を設定するフィールド、リンクデータを設定するフィールド及びラベルを設定するフィールドを有している。リンクデータは、例えば辞書サイトのような既存のデータベースにおいて用語のリンク先を明示するためのデータである。この例は、辞書サイトの記事中において、上述した対象単語を「稲の実」の意味で用いているか、あるいは「アメリカ合衆国の政府」の意味で用いているかによってリンクデータが異なることを前提とする。
図5の例における第1レコードは、辞書サイトにおいて対象単語が「稲の実」の意味として用いられる場合には、「植物」で識別される語義について説明する記事へのリンクデータが、当該対象単語に付加されることを示している。更に、図5の例における第1レコードは、「植物」で識別される語義は、ラベル「O」に対応することを示している。尚、ラベル「O」は、「その他」を意味し、この例では固有表現のタイプ「組織」に該当しないことを意味する。尚、ラベルは、単語を分類するタイプの例である。
図5の例における第2レコードは、辞書サイトにおいて対象単語が「アメリカ合衆国の政府」の意味として用いられる場合には、「政府」で識別される語義について説明する記事へのリンクデータが、当該対象単語に付加されることを示している。更に、図5の例における第2レコードは、「政府」で識別される語義は、ラベル「組織」に対応することを示している。
図4の説明に戻る。第1前処理部307は、第1前処理を実行する(S403)。第1前処理部307は、第1前処理で、第1文記憶部309に記憶される第1例文に基づいて、語義判別器を生成する。具体的には、語義判別器で用いられる第1規則データが求められる。
図6に、第1前処理部307のモジュール構成例を示す。第1前処理部307は、取得部601、第1抽出部603、第1抽出データ記憶部605、特定部607及び第1学習部609を有する。
取得部601は、上述したリンクデータが付加された対象単語を含む第1例文を複数取得する。第1抽出部603は、複数の第1例文の各々から、語義判定の手掛りとなる単語を抽出する。第1抽出データ記憶部605は、語義判定の手掛りとなる単語をまとめた第1抽出データを記憶する。特定部607は、複数の第1例文の各々に含まれるリンクデータに基づいて、夫々の対象単語の語義を特定する。第1学習部609は、複数の第1例文の各々における対象単語の語義と手掛りの単語との対応付けに基づいて、対象単語の語義を判別するための第1規則を学習する。上述したデータ及び処理の内容については、以下で詳述する。
上述した取得部601、第1抽出部603、特定部607及び第1学習部609は、ハードウエア資源(例えば、図42)と、以下で述べる処理をプロセッサに実行させるプログラムとを用いて実現される。
上述した第1抽出データ記憶部605は、ハードウエア資源(例えば、図42)を用いて実現される。
図7に、第1前処理フローの例を示す。取得部601は、第1例文を取得し、第1文記憶部309に記憶する(S701)。取得部601は、Webサイト(例えば、辞書サイト)のデータベースから第1例文を取得するようにしてもよい。あるいは、取得部601は、記録媒体に収められた辞書データベースから第1例文を取得するようにしてもよい。このように、一般的かつ広い範囲の知識を体系化したデータベースから第1例文を取得すれば、適応性が高い語義判別器が生成されることが期待される。但し、取得部601は、他の方法によって第1例文を取得するようにしてもよい。
図8に、第1例文データの例を示す。第1例文データは、第1例文毎にレコードを設けている。レコードには、文IDに対応付けられた第1例文が格納される。
まず、図8に示した第1例文データにおける文ID:D001の第1例文について、図9を用いて説明する。
文ID:D001の第1例文は、第1名詞901、第2名詞903、第3名詞905及び第4名詞907の4つの名詞を含んでいる。そのうち、第1名詞901は、対象単語である。この例における第1名詞901は、「アメリカ合衆国の政府」の意味で用いられている。従って、1つの漢字に、「政府」で識別される語義について説明する記事へのリンクデータ(以下では、「政府」のリンクデータという。)が付加されている。尚、リンクデータの書式は、この例に限定されない。
図9の下段は、リンクデータが除去された第1例文を示している。第1名詞951は、上段に示した第1名詞901からリンクデータが除去され、通常の表記となっている。第2名詞903、第3名詞905及び第4名詞907は、上段の場合と同様である。
この例では、対象単語に相当する第1名詞951を除く、第2名詞903、第3名詞905及び第4名詞907が、語義判定の手掛りとなる単語として抽出される。
尚、第2名詞903は、図示するように3つの漢字で表される「大統領」である。第3名詞905は、図示するように3つの漢字で表される「現職者」である。第4名詞907は、図示するように3つの片仮名文字で表される「オバマ」である。
次に、図8に示した第1例文データにおける文ID:D002の第1例文について、図10を用いて説明する。
文ID:D002の第1例文は、第1名詞1001、第2名詞1003、第3名詞1005、第4名詞1007、第5名詞1009、第6名詞1011及び第7名詞1013の7つの名詞を含んでいる。そのうち、第1名詞1001は、対象単語である。この例における第1名詞1001は、「稲の実」の意味で用いられている。従って、1つの漢字に、「植物」で識別される語義について説明する記事へのリンクデータ(以下では、「植物」のリンクデータという。)が付加されている。
図10の下段は、リンクデータが除去された第1例文を示している。第1名詞1051は、上段に示した第1名詞1001からリンクデータが除去され、通常の表記となっている。第2名詞1003、第3名詞1005、第4名詞1007、第5名詞1009、第6名詞1011及び第7名詞1013は、上段の場合と同様である。
この例では、対象単語に相当する第1名詞1051を除く、第2名詞1003、第3名詞1005、第4名詞1007、第5名詞1009、第6名詞1011及び第7名詞1013が、語義判定の手掛りとなる単語として抽出される。
尚、第2名詞1003は、図示するように1つの漢字で表される「酒」である。第3名詞1005は、図示するように4つの平仮名文字で表される「せんべい」である。第4名詞1007は、図示するように2つの漢字で表される「原料」である。第5名詞1009は、図示するように2つの漢字で表される「主食」である。第6名詞1011は、図示するように2つの漢字で表される「以外」である。第7名詞1013は、図示するように2つの漢字で表される「用途」である。
最後に、図8に示した第1例文データにおける文ID:D003の第1例文について、図11を用いて説明する。
文ID:D003の第1例文は、第1名詞1101及び第2名詞1103の2つの名詞を含んでいる。そのうち、第1名詞1101は、対象単語である。この例における第1名詞1101は、「稲の実」の意味で用いられている。従って、1つの漢字に、「植物」で識別される語義について説明する記事へのリンクデータが付加されている。
図11の下段は、リンクデータが除去された第1例文を示している。第1名詞1151は、上段に示した第1名詞1101からリンクデータが除去され、通常の表記となっている。第2名詞1103は、上段の場合と同様である。
この例では、対象単語に相当する第1名詞1151を除く、第2名詞1103が、語義判定の手掛りとなる単語として抽出される。
尚、第2名詞1103は、図示するように2つの漢字で表される「焼酎」である。以上で、第1例文データについての説明を終える。
図7の説明に戻る。第1抽出部603は、第1文記憶部309に記憶されている第1例文を1つ特定する(S703)。第1抽出部603は、第1例文からリンクデータを除去する(S705)。そして、第1抽出部603は、リンクデータが除去された第1例文に対して形態素解析を行う(S707)。第1抽出部603は、形態素解析の結果から、語義判別の手掛りとなる単語を抽出する(S709)。以下では、語義判別の手掛りとなる単語を、単に手掛かりということもある。
図12に、第1抽出データの例を示す。第1抽出データは、第1例文に対応するレコードを有している。第1抽出データのレコードは、第1例文に含まれる対象単語の語義を設定するためのフィールドと、第1例文に含まれる手掛かりの単語を一又は複数設定するためのフィールドとを有している。この例における手掛かりの単語は、対象単語以外の名詞である。但し、名詞以外の品詞の単語を手掛かりの単語として用いるようにしてもよい。
図12の例における第1レコードは、文ID:D001の第1例文に含まれる対象単語は、「アメリカ合衆国の政府」の意味で用いられていることを示している。更に、図12の例における第1レコードは、語義「アメリカ合衆国の政府」を判別する手掛かりとして、文ID:D001の第1例文から「大統領」「現職者」及び「オバマ」の各名詞が抽出されたことを示している。
図12の例における第2レコードは、文ID:D002の第1例文に含まれる対象単語は、「稲の実」の意味で用いられていることを示している。更に、図12の例における第2レコードは、語義「稲の実」を判別する手掛かりとして、文ID:D002の第1例文から「酒」「せんべい」「原料」「主食」「以外」及び「用途」の各名詞が抽出されたことを示している。
図12の例における第3レコードは、文ID:D003の第1例文に含まれる対象単語は、「稲の実」の意味で用いられていることを示している。更に、図12の例における第3レコードは、語義「稲の実」を判別する手掛かりとして、文ID:D003の第1例文から「焼酎」の名詞が抽出されたことを示している。
図7の説明に戻る。特定部607は、定義記憶部305に記憶されている定義データに基づいて、S703で特定した第1例文に含まれる対象単語の語義を特定する(S711)。つまり、特定部607は、対象単語に付加されているリンクデータに対応する語義を特定する。そして、特定部607は、特定した語義を第1抽出データ記憶部605に設定する。
そして、第1抽出部603は、未処理の第1例文があるか否かを判定する(S713)。未処理の第1例文があると判定した場合には、S703の処理に戻って、上述した処理を繰り返す。
一方、未処理の第1例文がないと判定した場合には、第1学習部609は、語義判別器を生成する(S715)。第1学習部609は、例えばパーセプトロンを用いた機械学習を行う。本実施の形態では、S715において機械学習を行う処理を第1学習処理という。
語義判別器の入力は、第1抽出データにおける手掛りに対応する。そして、語義判別器の出力に、第1抽出データにおける語義を与えれば、手掛りと語義との関連を示す第1スコアが求められる。第1学習処理によって得られた第1規則データは、第1規則記憶部311に記憶される。この例における語義判別器は、第1規則データを有する。
図13に、第1規則データの例を示す。第1規則データは、語義判定の手掛りとなる単語毎のレコードを有している。第1規則データのレコードは、語義判定の手掛りとなる単語を設定するためのフィールドと、当該単語と各語義との組み合わせに付与された第1スコアを設定するためのフィールドとを有している。
尚、第1スコアは、上記組み合わせに係る手掛りと語義とが関連する度合いを示している。第1スコアが正であれば、上記組み合わせに係る手掛りと語義とが同一文に出現する場合が比較的多いことを示している。つまり、第1スコアが正であれば、上記組み合わせに係る手掛りに基づいて、上記組み合わせに係る語義を選択することについて、肯定的であることを意味する。他方、第1スコアが負であれば、上記組み合わせに係る手掛りと語義とが同一文に出現しない場合が比較的多いことを示している。つまり、第1スコアが負であれば、上記組み合わせに係る手掛りに基づいて、上記組み合わせに係る語義を選択することについて、否定的であることを意味する。
図13の例における第1レコードは、手掛り「大統領」と語義「アメリカ合衆国の政府」との組み合わせについて第1スコア「1」が付与されたことを示している。更に、図13の例における第1レコードは、手掛り「大統領」と語義「稲の実」との組み合わせについて第1スコア「−1」が付与されたことを示している。つまり、手掛り「大統領」が出現する文に含まれる対象単語は、「アメリカ合衆国の政府」の意味で用いられている可能性が高く、逆に「稲の実」の意味で用いられている可能性が低いことを示している。
図13の例における第2レコードは、手掛り「オバマ」と語義「アメリカ合衆国の政府」との組み合わせについて第1スコア「1」が付与されたことを示している。更に、図13の例における第2レコードは、手掛り「オバマ」と語義「稲の実」との組み合わせについて第1スコア「−1」が付与されたことを示している。つまり、手掛り「オバマ」が出現する文に含まれる対象単語は、「アメリカ合衆国の政府」の意味で用いられている可能性が高く、逆に「稲の実」の意味で用いられている可能性が低いことを示している。
図13の例における第3レコードは、手掛り「酒」と語義「アメリカ合衆国の政府」との組み合わせについて第1スコア「−1」が付与されたことを示している。更に、図13の例における第3レコードは、手掛り「酒」と語義「稲の実」との組み合わせについて第1スコア「1」が付与されたことを示している。つまり、手掛り「酒」が出現する文に含まれる対象単語は、「アメリカ合衆国の政府」の意味で用いられている可能性が低く、逆に「稲の実」の意味で用いられている可能性が高いことを示している。
図13の例における第4レコードは、手掛り「焼酎」と語義「アメリカ合衆国の政府」との組み合わせについて第1スコア「−1」が付与されたことを示している。更に、図13の例における第4レコードは、手掛り「焼酎」と語義「稲の実」との組み合わせについて第1スコア「1」が付与されたことを示している。つまり、手掛り「焼酎」が出現する文に含まれる対象単語は、「アメリカ合衆国の政府」の意味で用いられている可能性が低く、逆に「稲の実」の意味で用いられている可能性が高いことを示している。
図7に示したS715における第1学習処理を終えると、図4に示したS405の処理に移る。
図4の説明に戻る。第2前処理部313は、第2前処理を実行する(S405)。第2前処理部313は、第2前処理で、第1文記憶部309に記憶されている第1例文から生成される第2例文と、第1規則記憶部311に記憶されている第1規則データとに基づいて、ラベル判別器を生成するための1回目の機械学習を行う。1回目の機械学習によって求められた第2規則データは、第2規則記憶部315に記憶される。
図14に、第2前処理部313のモジュール構成例を示す。第2前処理部313は、第1生成部1401、第2文記憶部1403、第2抽出部1405、第2抽出データ記憶部1407、第1判別部1409、学習データ記憶部1411及び第2学習部1413を有する。
第1生成部1401は、複数の第1例文の各々に含まれるリンクデータを、対象単語を分類するラベルに変換し、対象単語を分類するラベルを含む第2例文を生成する。第2文記憶部1403は、複数の第2例文を含む第2例文データを記憶する。第2抽出部1405は、複数の第2例文の各々から、語義判定の手掛りとなる単語を抽出する。第2抽出データ記憶部1407は、語義判定の手掛りとなる単語をまとめた第2抽出データを記憶する。第1判別部1409は、第1規則データに従って、第2例文の各々から抽出した手掛りの単語に基づいて、当該第2例文に含まれる対象単語の語義を判別する。学習データ記憶部1411は、学習データを記憶する。第2学習部1413は、第2例文における対象単語の語義を定める第1素性と対象単語のラベルとの対応付けに基づいて、ラベルを判別する第2規則を学習する。上述したデータ及び処理の内容については、以下で詳述する。
上述した第1生成部1401、第2抽出部1405、第1判別部1409及び第2学習部1413は、ハードウエア資源(例えば、図42)と、以下で述べる処理をプロセッサに実行させるプログラムとを用いて実現される。
上述した第2文記憶部1403、第2抽出データ記憶部1407及び学習データ記憶部1411は、ハードウエア資源(例えば、図42)を用いて実現される。
図15に、第2前処理フローの例を示す。第1生成部1401は、第1文記憶部309に記憶されている第1例文から、第2例文を生成する(S1501)。生成された第2例文は、第2文記憶部1403に記憶される。具体的には、定義記憶部305に基づいて、第1例文に含まれるリンクデータを、ラベルを示すタグに変換する。
図16に、第2例文データの例を示す。第2例文データは、第2例文毎にレコードを設けている。レコードには、文IDに対応付けられた第2例文が格納される。
図16の例における第1レコードには、図8に示した第1例文データにおける文ID:D001の第1例文から生成された第2例文が設定されている。この例で、「政府」のリンクデータが付加された対象単語が、ラベル「組織」を示すタグが付加された対象単語に変換されている。
図16の例における第2レコードには、図8に示した第1例文データにおける文ID:D002の第1例文から生成された第2例文が設定されている。この例で、「植物」のリンクデータが付加された対象単語が、ラベル「O」を示すタグが付加された対象単語に変換されている。
図16の例における第3レコードには、図8に示した第1例文データにおける文ID:D003の第1例文から生成された第2例文が設定されている。この例で、「植物」のリンクデータが付加された対象単語が、ラベル「O」を示すタグが付加された対象単語に変換されている。
尚、第1生成部1401は、第1例文データに含まれる第1例文のうち、一部の第1例文について第2例文を生成するようにしてもよい。また、第1生成部1401は、第1例文から生成した第2例文以外の第2例文を、第2例文データに加えるようにしてもよい。
第2抽出部1405は、第2文記憶部1403に記憶されている第2例文を1つ特定する(S1503)。第2抽出部1405は、特定した第2例文から、タグで示されているラベルを抽出する(S1505)。抽出されたラベルは、第2抽出データ記憶部1407に記憶される第2抽出データのレコードに設定される。
図17に、第2抽出データの例を示す。第2抽出データは、第2例文に対応するレコードを有している。第2抽出データのレコードは、第2例文に含まれる対象単語に付加されているタグが示すラベルを設定するためのフィールドと、第2例文に含まれる手掛かりの単語を設定するためのフィールドとを有している。第2例文に含まれる手掛かりの単語は、第2例文に含まれる対象単語以外の名詞である。
図17の例における第1レコードでは、文ID:D001の第2例文に含まれる対象単語に付加されているタグから抽出されたラベル「組織」に、文ID:D001の第2例文から抽出された手掛かりの単語「大統領」「現職者」及び「オバマ」が対応付けられている。
図17の例における第2レコードでは、文ID:D002の第2例文に含まれる対象単語に付加されているタグから抽出されたラベル「O」に、文ID:D002の第2例文から抽出された手掛かりの単語「酒」「せんべい」「原料」「主食」「以外」及び「用途」が対応付けられている。
図17の例における第3レコードでは、文ID:D003の第2例文に含まれる対象単語に付加されているタグから抽出されたラベル「O」に、文ID:D003の第2例文から抽出された手掛かりの単語「焼酎」が対応付けられている。
図15の説明に戻る。第2抽出部1405は、S1503で特定した第2例文からラベルを示すタグを除去する(S1507)。第2抽出部1405は、タグが除去された第2例文に対して、形態素解析を行う(S1509)。第2抽出部1405は、形態素解析の結果から、語義判定の手掛りとなる単語を抽出する(S1511)。抽出された手掛りとなる単語は、上述した通り第2抽出データのレコードに設定される。
第1判別部1409は、第1前処理で生成された語義判別器に第2抽出データを適用することによって、第2例文に含まれる対象単語の語義を判別する(S1513)。本実施の形態では、S1513における語義判別処理を第1判別処理という。
語義判別器の入力は、第2抽出データにおける手掛りに対応し、同じく出力は、語義に対応する。第1判別部1409は、第1規則データに従って、各語義に対する第2スコアを算出する。そして、第1判別部1409は、第2スコアの値が大きい方の語義を選択する。選択された語義と当該語義の第2スコアは、学習データ記憶部1411に記憶される学習データのレコードに設定される。
図18に、学習データの例を示す。学習データは、第2例文に対応するレコードを有している。第2例文に対応する1つのレコードは、1つの学習サンプルに相当する。学習データのレコードは、上述した第2抽出データの場合と同様に、第2例文に含まれる対象単語に付加されているタグが示すラベルを設定するためのフィールドを有している。更に、学習データのレコードは、語義判別器によって判別された語義を設定するためのフィールドと、当該語義の判別において得られた第2スコアを設定するためのフィールドとを有している。第2スコアは、当該語義の判別に対する重み(評価の確かさ)を示している。
図18の例における第1レコードでは、文ID:D001の第2例文に含まれる対象単語に付加されているタグから抽出されたラベル「組織」に、当該第2例文の手掛かりに基づいて判別された語義「アメリカ合衆国の政府」と、その判別において得られた第2スコア「2」とが対応付けられている。
図18の例における第2レコードでは、文ID:D002の第2例文に含まれる対象単語に付加されているタグから抽出されたラベル「O」に、当該第2例文の手掛かりに基づいて判別された語義「稲の実」と、その判別において得られた第2スコア「3」とが対応付けられている。
図18の例における第3レコードでは、文ID:D003の第2例文に含まれる対象単語に付加されているタグから抽出されたラベル「O」に、当該第2例文の手掛かりに基づいて判別された語義「稲の実」と、その判別において得られた第2スコア「2」とが対応付けられている。
図15の説明に戻る。S1513における第1判別処理を終えると、第2抽出部1405は、未処理の第2例文があるか否かを判定する(S1515)。未処理の第2例文があると判定した場合には、S1503の処理に戻って、上述した処理を繰り返す。
一方、未処理の第2例文がないと判定した場合には、第2学習部1413は、学習データ記憶部1411に記憶されている学習データに基づいて、ラベル判別器を生成する(S1517)。但し、この時点で生成されるラベル判別器は、未完成である。第2学習部1413は、例えばパーセプトロンを用いた機械学習を行う。本実施の形態では、S1517において機械学習を行う処理を第2学習処理という。
ラベル判別器の入力は、学習データにおける語義に対応し、同じく出力は、学習データにおけるラベルに対応する。そして、学習データをサンプルデータとして第2ネットワークに与え、誤差逆伝播法によって、語義とラベルとの結合の強さ(結合荷重ということもある。)を示す第3スコアを求める。第3スコアを含む第2規則データは、第2規則記憶部315に記憶される。この時点におけるラベル判別器は、第2規則データを有する。尚、第2学習部1413は、第2スコアを学習サンプルの重要度として用いて学習するようにしてもよい。
図19に、第2規則データの例を示す。第2規則データは、対象単語の語義を定める第1素性毎のレコードを有している。尚、第1素性は、対象単語のラベルを判別するための規則に相当する。第2規則データのレコードは、第1素性を設定するためのフィールドと、各ラベルに対する第3スコアを設定するためのフィールドとを有している。
尚、第3スコアは、第1素性とラベルとの関連を示している。第1素性とラベルとの組み合わせに対する第3スコアが正であれば、ある文に含まれる対象単語の語義が第1素性に適合する場合に、当該対象単語に対して当該ラベルを選択することについて、肯定的であることを意味する。他方、第1素性とラベルとの組み合わせに対する第3スコアが負であれば、ある文に含まれる対象単語の語義が第1素性に適合する場合に、当該対象単語に対して当該ラベルを選択することについて、否定的であることを意味する。また、第3スコアの絶対値は、第1素性(つまり、語義)とラベルとの関連の強さを示している。
図19の例における第1レコードは、対象単語の語義が「アメリカ合衆国の政府」であるという第1素性とラベル「組織」との組み合わせについて、第3スコア「3」が付与されたことを示している。更に、図19の例における第1レコードは、対象単語の語義が「アメリカ合衆国の政府」であるという第1素性とラベル「O」との組み合わせについて、第3スコア「−3」が付与されたことを示している。つまり、図19の例における第1レコードは、「アメリカ合衆国の政府」の意味で対象単語を用いている文において、対象単語に対してラベル「組織」を選択すべきであって、ラベル「O」を選択すべきでないという傾向を示している。
図19の例における第2レコードは、対象単語の語義が「稲の実」であるという第1素性とラベル「組織」との組み合わせについて、第3スコア「−3」が付与されたことを示している。更に、図19の例における第2レコードは、対象単語の語義が「稲の実」であるという第1素性とラベル「O」との組み合わせについて、第3スコア「3」が付与されたことを示している。つまり、図19の例における第2レコードは、「稲の実」の意味で対象単語を用いている文において、対象単語にラベル「O」を付与すべきであって、ラベル「組織」を付与すべきでないという傾向を示している。
図20に、別の第2規則データの例を示す。図20の例における第2規則データは、図19の場合とは反対に、「アメリカ合衆国の政府」の意味で対象単語を用いている文において、対象単語に対してラベル「O」を選択すべきであって、ラベル「組織」を選択すべきでないという傾向を示している。更に、図20の例における第2規則データは、「稲の実」の意味で対象単語を用いている文において、対象単語にラベル「組織」を付与すべきであって、ラベル「O」を付与すべきでないという傾向を示している。このような第2規則データは、正しくラベルを判別するためには、適当でない。第2例文における文脈が、第1例文における文脈に反する場合には、このような第2規則データが生成される場合がある。しかし、本実施の形態のように、第1例文から第2例文を生成すれば、第2例文における文脈が、第1例文における文脈と一致するので、図20のような不適切な第2規則データは生成され難い。
図15に示したS1517における第2学習処理を終えると、図4に示したS407の処理に移る。
図4の説明に戻る。メイン処理部317は、メイン処理を実行する(S407)。メイン処理部317は、メイン処理で、第3文記憶部2103に記憶される第3例文と、第1規則記憶部311に記憶されている第1規則データと、第2規則記憶部315に記憶されている第2規則データとに基づいて、ラベル判別器を生成するための2回目の機械学習を行う。2回目の機械学習によって求められた第3規則データは、第3規則記憶部319に記憶される。
図21に、メイン処理部317のモジュール構成例を示す。メイン処理部317は、第1受付部2101、第3文記憶部2103、第2生成部2105、教師データ記憶部2107、第3抽出部2109、第3抽出データ記憶部2111、第2判別部2113及び第3学習部2115を有する。
第1受付部2101は、ラベルを示すタグが付加された対象単語を含む第3例文を受け付ける。第3文記憶部2103は、第3例文データを記憶する。第2生成部2105は、第3例文に含まれる対象単語及び対象単語に連なる単語に関する第2素性を生成する。教師データ記憶部2107は、教師データを記憶する。第3抽出部2109は、複数の第3例文の各々から、語義判定の手掛りとなる単語を抽出する。第3抽出データ記憶部2111は、語義判定の手掛りとなる単語をまとめた第3抽出データを記憶する。第2判別部2113は、第1規則データに従い、第3抽出データに基づいて、当該第3例文に含まれる対象単語の語義を判別する。第3学習部2115は、第3例文に基づく第2素性と、第3例文における語義に関する第3素性と、第3例文におけるラベルと、第2規則データとに基づいて、ラベルを判別する第3規則データを学習する。尚、第3規則データは、第2規則データを基礎として生成される。上述したデータ及び処理の内容については、以下で詳述する。
上述した第1受付部2101、第2生成部2105、第3抽出部2109、第2判別部2113及び第3学習部2115は、ハードウエア資源(例えば、図42)と、以下で述べる処理をプロセッサに実行させるプログラムとを用いて実現される。
上述した第3文記憶部2103、教師データ記憶部2107及び第3抽出データ記憶部2111は、ハードウエア資源(例えば、図42)を用いて実現される。
図22に、メイン処理フローの例を示す。第1受付部2101は、例えば記憶媒体あるいは通信媒体を介して、第3例文を受け付ける(S2201)。受け付けた第3例文は、第3文記憶部2103に記憶される。第3例文として、自動的にラベルを判別したい文(以下、適用対象の文という。)と文脈が近似すると想定される文を用いることによって、ラベル判別の精度が高まると期待される。例えば、適用対象の文と同じ分野の文を第3例文として用い、あるいは適用対象の文と同じ筆者の文を第3例文として用いると、好適な学習結果が得られると考えられる。
図23に、第3例文データの例を示す。第3例文データは、第3例文毎にレコードを設けている。レコードには、文IDに対応付けられた第3例文が格納される。
まず、図23に示した第3例文データにおける文ID:D101の第3例文「米は、日本人の主食であって、酒あるいは焼酎の原料として用いられる。」について、図24を用いて説明する。
文ID:D101の第3例文は、第1名詞2401、第2名詞2403、第3名詞2405、第4名詞2407、第5名詞2409及び第6名詞2411の6つの名詞を含んでいる。そのうち、第1名詞2401は、対象単語である。この例における第1名詞2401は、「稲の実」の意味で用いられている。つまり、第1名詞2401は、固有表現に該当しない。この例において、固有表現に該当しない場合には、ラベルを示すタグは付されない。但し、固有表現に該当しない場合に、固有表現のタイプに該当しない旨を示すタグ<O>と</O>が付されるようにしてもよい。
尚、第2名詞2403は、図示するように3つの漢字で表される「日本人」である。第3名詞2405は、図示するように2つの漢字で表される「主食」である。第4名詞2407は、図示するように1つの漢字で表される「酒」である。第5名詞2409は、図示するように2つの漢字で表される「焼酎」である。第6名詞2411は、図示するように2つの漢字で表される「原料」である。
次に、図23に示した第3例文データにおける文ID:D102の第3例文「<組織>米</組織>は、日本に大統領の親書を送った。」について、図25を用いて説明する。
文ID:D102の第3例文は、第1名詞2531、第2名詞2533、第3名詞2535及び第4名詞2537の4つの名詞を含んでいる。そのうち、第1名詞2531は、対象単語である。この例における第1名詞2531は、「アメリカ合衆国の政府」の意味で用いられている。つまり、第1名詞2531は、固有表現に該当する。固有表現に該当する場合には、ラベル(この例では、固有表現のタイプ)を示すタグが付加される。この例では、第1名詞2531の1つの漢字に、固有表現のタイプ「組織」を示すタグが付加されている。但し、ラベルを示すデータの形式は、この例に示したタグに限定されない。また、第3例文においてラベルを示すデータは、第2例文においてラベルを示すデータと異なる形式であっても構わない。
図25の下段は、タグが除去された第3例文を示している。第1名詞2551は、上段に示した第1名詞2531からタグが除去され、通常の表記となっている。第2名詞2533、第3名詞2535及び第4名詞2537は、上段の場合と同様である。
この例では、対象単語に相当する第1名詞2551を除く、第2名詞2533、第3名詞2535及び第4名詞2537が、語義判定の手掛りとなる単語として抽出される。
尚、第2名詞2533は、図示するように2つの漢字で表される「日本」である。第3名詞2535は、図示するように3つの漢字で表される「大統領」である。第4名詞2537は、図示するように2つの漢字で表される「親書」である。
最後に、図23に示した第3例文データにおける文ID:D103の第3例文「<組織>米</組織>は、日本にオバマ氏の親書を送った。」について、図26を用いて説明する。
文ID:D103の第3例文は、第1名詞2601、第2名詞2603、第3名詞2605及び第4名詞2607の4つの名詞を含んでいる。そのうち、第1名詞2601は、対象単語である。この例における第1名詞2601は、「アメリカ合衆国の政府」の意味で用いられている。つまり、第1名詞2601は、固有表現に該当する。この例では、図25の場合と同様に、第1名詞2601の1つの漢字に、固有表現のタイプ「組織」を示すタグが付加されている。
図26の下段は、タグが除去された第3例文を示している。第1名詞2651は、上段に示した第1名詞2601からタグが除去され、通常の表記となっている。第2名詞2603、第3名詞2605及び第4名詞2607は、上段の場合と同様である。
この例では、対象単語に相当する第1名詞2651を除く、第2名詞2603、第3名詞2605及び第4名詞2607が、語義判定の手掛りとなる単語として抽出される。
尚、第2名詞2603は、図示するように2つの漢字で表される「日本」である。第3名詞2605は、図示するように3つの片仮名文字で表される「オバマ」である。第4名詞2607は、図示するように2つの漢字で表される「親書」である。以上で、第3例文についての説明を終える。
図22の説明に戻る。第2生成部2105は、第3文記憶部2103に記憶されている第3例文を1つ特定する(S2203)。第2生成部2105は、特定した第3例文からラベルを示すタグを除去する(S2205)。第2生成部2105は、タグが除去された第3例文に対して、形態素解析を行う(S2207)。形態素解析を終えると、端子Aを介して、図27に示したS2701の処理に移る。
第2生成部2105は、形態素解析の結果から、単語を1つ特定する(S2701)。例えば、第2生成部2105は、出現順に単語を1つ特定する。第2生成部2105は、特定した単語に対するラベルを特定する(S2703)。具体的には、タグが付加されている単語の場合は、当該タグが示すラベルが特定される。タグが付加されていない単語の場合は、ラベル「O」が割り当てられる。特定されたラベルは、教師データ記憶部2107に記憶される教師データのレコードに設定される。
図28に、教師データの例を示す。教師データは、第3例文の各単語に対応するレコードを有している。この例で、教師データのレコードは、着目する単語のラベルを設定するためのフィールドと、3つの第2素性を設定するためのフィールドと、第3素性を設定するためのフィールドと、第4スコアを設定するためのフィールドとを有している。
第2素性は、着目する単語及び着目する単語に連なる単語を特定する素性である。図28の例で、W(0)は、着目する単語を意味する。同様に、W(1)は、着目する単語の次の単語を意味する。同様に、W(2)は、着目する単語の2つ後の単語を意味する。尚、3つ以上後の単語を特定する第2素性を用いるようにしてもよい。また、着目する単語の1つ前の単語W(−1)を特定する第2素性、着目する単語の2つ前の単語W(−2)を特定する第2素性、あるいは着目する単語の3つ以上前の単語を特定する第2素性を用いるようにしてもよい。また、着目する単語W(0)を特定する第2素性を省くようにしてもよい。
第3素性は、着目する単語W(0)の語義を特定する素性である。但し、着目する単語W(0)が対象単語ではない場合には、第3素性は設定されない。
このように、図28の例では、3つの第2素性と第3素性からなる素性集合が設定される。
第4スコアは、着目する単語の語義の判別において付与されたスコアである。第4スコアは、当該語義の判別に対する重み(評価の確かさ)を示している。つまり、第4スコアは、上述した第2スコアと同種の値である。
図28の例における第1レコードは、文ID:D101の第3例文における1番目の単語に対応するレコードである。つまり、このレコードでは、文ID:D101の第3例文における1番目の単語に着目している。図28の例における第1レコードに設定されているラベルは、「O」であるので、文ID:D101の第3例文における1番目の単語には、固有名詞のタイプを示すラベルが付与されていないことを示している。また、図28の例における第1レコードには、着目する単語W(0)が、文ID:D101の第3例文における1番目の単語と一致するという第2素性と、着目する単語の次の単語W(1)が、文ID:D101の第3例文における2番目の単語と一致するという第2素性と、着目する単語の2つ後の単語W(2)が、文ID:D101の第3例文における3番目の単語と一致するという第2素性とが設定されている。更に、図28の例における第1レコードには、着目する単語W(0)の語義が「稲の実」であるという第3素性と、着目する単語W(0)の語義「稲の実」を判定した際に得られた第4スコア「1」が設定されている。
図28の例における第2レコードは、文ID:D101の第3例文における2番目の単語に対応するレコードである。つまり、このレコードでは、文ID:D101の第3例文における2番目の単語に着目している。図28の例における第2レコードに設定されているラベルは、「O」であるので、文ID:D101の第3例文における2番目の単語には、固有名詞のタイプを示すラベルが付与されていないことを示している。また、図28の例における第2レコードには、着目する単語W(0)が、文ID:D101の第3例文における2番目の単語と一致するという第2素性と、着目する単語の次の単語W(1)が、文ID:D101の第3例文における3番目の単語と一致するという第2素性と、着目する単語の2つ後の単語W(2)が、文ID:D101の第3例文における4番目の単語と一致するという第2素性とが設定されている。文ID:D101の第3例文における2番目の単語は、対象単語ではないので、第3素性と第4スコアとは、設定されていない。
文ID:D101の第3例文における3番目以降の単語に対応するレコードについては、説明を省略する。
図28の例における第3レコードは、文ID:D102の第3例文における1番目の単語に対応するレコードである。つまり、このレコードでは、文ID:D102の第3例文における1番目の単語に着目している。図28の例における第3レコードは、文ID:D102の第3例文における1番目の単語に固有名詞のタイプ「組織」を示すラベルが付与されていることを示している。また、図28の例における第3レコードには、着目する単語W(0)が、文ID:D102の第3例文における1番目の単語と一致するという第2素性と、着目する単語の次の単語W(1)が、文ID:D102の第3例文における2番目の単語と一致するという第2素性と、着目する単語の2つ後の単語W(2)が、文ID:D102の第3例文における3番目の単語と一致するという第2素性とが設定されている。更に、図28の例における第3レコードには、着目する単語W(0)の語義が「アメリカ合衆国の政府」であるという第3素性と、着目する単語W(0)の語義「アメリカ合衆国の政府」を判定した際に得られた第4スコア「1」が設定されている。
文ID:D102の第3例文における2番目以降の単語に対応するレコードについては、説明を省略する。
図28の例における第4レコードは、文ID:D103の第3例文における1番目の単語に対応するレコードである。つまり、このレコードでは、文ID:D103の第3例文における1番目の単語に着目している。図28の例における第4レコードは、文ID:D103の第3例文における1番目の単語に固有名詞のタイプ「組織」を示すラベルが付与されていることを示している。また、図28の例における第4レコードには、着目する単語W(0)が、文ID:D103の第3例文における1番目の単語と一致するという第2素性と、着目する単語の次の単語W(1)が、文ID:D103の第3例文における2番目の単語と一致するという第2素性と、着目する単語の2つ後の単語W(2)が、文ID:D103の第3例文における3番目の単語と一致するという第2素性とが設定されている。更に、図28の例における第4レコードには、着目する単語W(0)の語義が「アメリカ合衆国の政府」であるという第3素性と、着目する単語W(0)の語義「アメリカ合衆国の政府」を判定した際に得られた第4スコア「2」が設定されている。
文ID:D103の第3例文における2番目以降の単語に対応するレコードについては、説明を省略する。
図27の説明に戻る。第2生成部2105は、特定した単語及び連なる単語を特定する第2素性を生成する(S2705)。上述したように、第2素性は、着目する単語に対する位置関係と、その位置における単語自体との対応付けによって定められる。
第3抽出部2109は、S2701において特定した単語が、対象単語であるか否かを判定する(S2707)。S2701において特定した単語が、対象単語ではないと判定した場合には、語義判定を行わないので、そのままS2713の処理に移る。
S2701において特定した単語が、対象単語であると判定した場合には、第3抽出部2109は、形態素解析の結果から、語義判定の手掛りとなる単語を抽出する(S2709)。第3例文に含まれる手掛かりの単語は、第3例文に含まれる対象単語以外の名詞である。手掛りとなる単語は、第3抽出データ記憶部2111に記憶される第3抽出データのレコードに設定される。
図29に、第3抽出データの例を示す。第3抽出データは、第3例文に対応するレコードを有している。第3抽出データのレコードは、第3例文に含まれる手掛かりの単語を設定するためのフィールドを有している。
図29の例における第1レコードには、文ID:D101の第3例文から抽出された手掛かりの単語「日本人」「主食」「酒」「焼酎」及び「原料」が設定されている。
図29の例における第2レコードには、文ID:D102の第3例文から抽出された手掛かりの単語「日本」「大統領」及び「親書」が設定されている。
図29の例における第3レコードには、文ID:D103の第3例文から抽出された手掛かりの単語「日本」「オバマ」及び「親書」が設定されている。
図27の説明に戻る。第2判別部2113は、第1前処理で生成された語義判別器に第3抽出データを適用することによって、S2203で特定した第3例文に含まれる対象単語の語義を判別する(S2711)。本実施の形態では、S2711における語義判別処理を第2判別処理という。
語義判別器の入力は、第3抽出データにおける手掛りに対応し、同じく出力は、語義に対応する。第2判別部2113は、第1規則データに従って、各語義に対する第4スコアを算出する。第4スコアは、語義に対する評価値に相当する。そして、第2判別部2113は、第4スコアの値が大きい方の語義を選択する。選択された語義は、第3素性として教師データ記憶部2107に記憶される教師データのレコードに設定される。また、選択された語義の第4スコアも、教師データ記憶部2107に記憶される教師データのレコードに設定される。
図27の説明に戻る。第2生成部2105は、未処理の単語があるか否かを判定する(S2713)。未処理の単語があると判定した場合には、S2701に戻って、上述した処理を繰り返す。
一方、未処理の単語がないと判定した場合には、第2生成部2105は、未処理の第3例文があるか否かを判定する(S2715)。未処理の第3例文があると判定した場合には、端子Bを介して、図22に示したS2203の処理に戻って、上述した処理を繰り返す。
一方、未処理の第3例文がないと判定した場合には、第3学習部2115は、図15のS1517の第2学習処理で生成されたラベル判別器を更新する(S2717)。このとき、第3学習部2115は、例えばパーセプトロンを用いた機械学習を行う。本実施の形態では、S2717において機械学習を行う処理を第3学習処理という。
ラベル判別器の入力は、教師データにおける素性集合(この例では、3つの第2素性と第3素性)に対応し、同じく出力は、教師データにおけるラベルに対応する。また、第2学習処理で得られた第2規則データが、初期値として用いられる。具体的には、第3学習部2115は、第2規則データにおける第1素性とラベルとの組み合わせに係る第3スコアを、第3素性とラベルとの結合の強さに設定する。そして、教師データをサンプルデータとして、素性集合に含まれる各素性とラベルとの結合の強さを示す第5スコアを求める。第5スコアを含む第3規則データは、第3規則記憶部319に記憶される。この例で、完成したラベル判別器は、第3規則データを有する。尚、第3学習部2115は、第4スコアを第3素性に関する教師サンプルの重要度として用いて学習するようにしてもよい。
図30に、第3規則データの例を示す。第3規則データは、対象単語のラベルを判別するための規則毎のレコードを有している。対象単語のラベルを判別するための規則は、図28に示した教師データの素性集合に含まれる素性、つまり第2素性又は第3素性に相当する。第3規則データのレコードは、対象単語のラベルを判別するための規則を設定するためのフィールドと、対象単語の各ラベルに対する第5スコアを設定するためのフィールドとを有している。
尚、第5スコアは、規則とラベルとの関連を示している。規則とラベルとの組み合わせに対する第5スコアが正であれば、ある文に含まれる対象単語に着目したときに当該規則に適合した場合に、当該文における対象単語に対して当該ラベルを選択することについて、肯定的であることを意味する。他方、規則とラベルとの組み合わせに対する第5スコアが負であれば、ある文に含まれる対象単語に着目したときに当該規則に適合した場合に、当該文における対象単語に対して当該ラベルを選択することについて、否定的であることを意味する。また、第5スコアの絶対値は、規則とラベルとの関連の強さを示している。
図30の例における第1レコードは、対象単語の語義が「アメリカ合衆国の政府」であるという規則とラベル「組織」との組み合わせについて、第5スコア「3」が付与されたことを示している。更に、図30の例における第1レコードは、対象単語の語義が「アメリカ合衆国の政府」であるという規則とラベル「O」との組み合わせについて、第5スコア「−3」が付与されたことを示している。つまり、図30の例における第1レコードは、「アメリカ合衆国の政府」の意味で対象単語を用いている文において、対象単語に対してラベル「組織」を選択すべきであって、ラベル「O」を選択すべきでないという傾向を示している。
図30の例における第2レコードは、対象単語の語義が「稲の実」であるという規則とラベル「組織」との組み合わせについて、第5スコア「−3」が付与されたことを示している。更に、図30の例における第2レコードは、対象単語の語義が「稲の実」であるという規則とラベル「O」との組み合わせについて、第5スコア「3」が付与されたことを示している。つまり、図30の例における第2レコードは、「稲の実」の意味で対象単語を用いている文において、対象単語に対してラベル「O」を選択すべきであって、ラベル「組織」を選択すべきでないという傾向を示している。
図30の例における第3レコードの規則は、例えば図28に示した第1レコードにおける1番目の第2素性に相当する。図30の例における第3レコードは、当該規則とラベル「組織」との組み合わせについて、第5スコア「2」が付与されたことを示している。更に、図30の例における第3レコードは、当該規則とラベル「O」との組み合わせについて、第5スコア「−2」が付与されたことを示している。つまり、図30の例における第3レコードは、着目する単語W(0)が、例えば図24の第1名詞2401に示した漢字1つの名詞「米」と一致する場合には、対象単語に対してラベル「組織」を選択すべきであって、ラベル「O」を選択すべきでないという傾向を示している。
図30の例における第4レコードの規則は、例えば図28に示した第1レコードにおける2番目の第2素性に相当する。図30の例における第4レコードは、当該規則とラベル「組織」との組み合わせについて、第5スコア「2」が付与されたことを示している。更に、図30の例における第4レコードは、当該規則とラベル「O」との組み合わせについて、第5スコア「−2」が付与されたことを示している。つまり、図30の例における第4レコードは、着目する単語の次の単語W(1)が、例えば図24で2番目に示した平仮名文字1つの助詞と一致する場合には、対象単語に対してラベル「組織」を選択すべきであって、ラベル「O」を選択すべきでないという傾向を示している。
図30の例における第5レコードの規則は、例えば図28に示した第3レコードにおける3番目の第2素性に相当する。図30の例における第5レコードは、当該規則とラベル「組織」との組み合わせについて、第5スコア「1」が付与されたことを示している。更に、図30の例における第5レコードは、当該規則とラベル「O」との組み合わせについて、第5スコア「−1」が付与されたことを示している。つまり、図30の例における第5レコードは、着目する単語の2つ後の単語W(2)が、例えば図25の第2名詞2533に示した漢字2つの名詞「日本」と一致する場合には、対象単語に対してラベル「組織」を選択すべきであって、ラベル「O」を選択すべきでないという傾向を示している。
図30の例における第6レコードの規則は、例えば図28に示した第1レコードにおける3番目の第2素性に相当する。図30の例における第6レコードは、当該規則とラベル「組織」との組み合わせについて、第5スコア「−4」が付与されたことを示している。更に、図30の例における第6レコードは、当該規則とラベル「O」との組み合わせについて、第5スコア「4」が付与されたことを示している。つまり、図30の例における第6レコードは、着目する単語の2つ後の単語W(2)が、例えば図24の第2名詞2403に示した漢字3つの名詞「日本人」と一致する場合には、対象単語に対してラベル「O」を選択すべきであって、ラベル「組織」を選択すべきでないという傾向を示している。
ここで、図31に、第3例文データの別の例を示す。図31に示した第3例文データにおける文ID:D201の第3例文「米が、大統領に贈られる。」について、図32を用いて説明する。
文ID:D201の第3例文は、第1名詞3201及び第2名詞3203の2つの名詞を含んでいる。そのうち、第1名詞3201は、対象単語である。この例における第1名詞3201は、「稲の実」の意味で用いられている。つまり、第1名詞3201は、固有表現に該当しない。従って、ラベルを示すタグは付加されない。
尚、第2名詞3203は、図示するように3つの漢字で表される「大統領」である。
図33に、図31に示した文ID:D201の第3例文に基づいて生成される教師データの例を示す。図33の例における第1レコードは、文ID:D201の第3例文における1番目の単語に対応するレコードである。つまり、このレコードでは、文ID:D201の第3例文における1番目の単語に着目している。図33の例における第1レコードに設定されているラベルは、「O」であるので、文ID:D201の第3例文における1番目の単語には、固有名詞のタイプを示すラベルが付与されていないことを示している。また、図33の例における第1レコードには、着目する単語W(0)が、文ID:D201の第3例文における1番目の単語と一致するという第2素性と、着目する単語の次の単語W(1)が、文ID:D201の第3例文における2番目の単語と一致するという第2素性と、着目する単語の2つ後の単語W(2)が、文ID:D201の第3例文における3番目の単語と一致するという第2素性とが設定されている。
更に、図33の例における第1レコードには、着目する単語W(0)の語義が「アメリカ合衆国の政府」であるという第3素性と、着目する単語W(0)の語義「アメリカ合衆国の政府」を判定した際に得られた第4スコア「1」が設定されている。
図33の例における第1レコードでは、ラベル(「O」)と第3素性(語義=「アメリカ合衆国の政府」)とが内容的に整合していない。第3例文における文脈が、語義判別器を生成する際の基礎となった第1例文における文脈に反する場合には、図31乃至図33を用いて上述した例のように、誤った語義判別結果を含む教師データが生成されることがある。そして、教師データの量自体が足りなければ、誤った語義判別結果の影響を受けやすい。従って、誤った語義判別結果が与えられても正しく判別する理想的な規則データを学習することは難しい。しかし、本実施の形態では、自動的に生成された多くの学習データから得られた第2規則データ(図19)を基礎として教師データによる学習を行うので、誤った語義判別結果の影響を受け難い。
尚、図33の例における第2レコードは、文ID:D201の第3例文における2番目の単語に対応するレコードであるが、その説明は省略する。
図4に示したように、S407におけるメイン処理を終えると、学習装置301の処理も終える。以上で学習装置301についての説明を終える。
次に、判別装置について説明する。判別装置は、適用対象の文に含まれる対象単語のラベルを自動的に判別するコンピュータである。図34に、判別装置3401のモジュール構成例を示す。判別装置3401は、第1規則記憶部311、第3規則記憶部319及び適用部3403を有する。
第1規則記憶部311は、学習装置301において生成された第1規則データを記憶している。第3規則記憶部319は、学習装置301において生成された第3規則データを記憶している。
また、適用部3403は、第2受付部3405、第4文記憶部3407、第3生成部3409、第4抽出部3411、第4抽出データ記憶部3413、第3判別部3415、適用データ記憶部3417、第4判別部3419、結果データ記憶部3421、第4生成部3423、第5文記憶部3425及び出力部3427を有する。
適用部3403は、適用対象の文にラベル判別器を適用する。第2受付部3405は、対象単語を含む適用対象の文を受け付ける。第4文記憶部3407は、適用対象の文を記憶する。第3生成部3409は、適用対象の文に含まれる対象単語又は対象単語に連なる単語に関する第4素性を生成する。第4抽出部3411は、適用対象の文から、語義判定の手掛りとなる単語を抽出する。第4抽出データ記憶部3413は、語義判定の手掛りとなる単語をまとめた第4抽出データを記憶する。第3判別部3415は、第1規則データに従い、第4抽出データに基づいて、適用対象の文に含まれる対象単語の語義を判別する。適用データ記憶部3417は、適用対象の文に基づく適用データを記憶する。第4判別部3419は、第3規則データに従って、適用データに基づいて、適用対象の文に含まれる対象単語のラベルを判別する。結果データ記憶部3421は、判別したラベルを含む結果データを記憶する。第4生成部3423は、適用対象の文にラベルを付加して、出力文を生成する。第5文記憶部3425は、出力文を記憶する。出力部3427は、出力文を出力する。上述したデータ及び処理の内容については、以下で詳述する。
上述した判別装置3401、適用部3403、第2受付部3405、第3生成部3409、第4抽出部3411、第3判別部3415、第4判別部3419、第4生成部3423及び出力部3427は、ハードウエア資源(例えば、図42)と、以下で述べる処理をプロセッサに実行させるプログラムとを用いて実現される。
上述した第1規則記憶部311、第3規則記憶部319、第4文記憶部3407、第4抽出データ記憶部3413、適用データ記憶部3417、結果データ記憶部3421及び第5文記憶部3425は、ハードウエア資源(例えば、図42)を用いて実現される。
図35に、適用処理フローの例を示す。第2受付部3405は、例えば記憶媒体、通信媒体あるいは入力装置を介して、適用対象の文を受け付ける(S3501)。受け付けた適用対象の文は、第4文記憶部3407に記憶される。1つの適用対象の文は、1つの適用事例に相当する。
図36に、対象文データの例を示す。対象文データは、適用対象の文毎にレコードを設けている。レコードには、文IDに対応付けて適用対象の文が格納される。
図36の例における第1レコードに格納されている適用対象の文「米は、日本の主食であって、酒の製造に使われる。」(文ID:D301)は、図2の上段に示した文と同じである。
図36の例における第2レコードに格納されている適用対象の文「米は、日本人と交流する大統領の写真を公開した。」(文ID:D302)は、図1の上段に示した文と同じである。
図35の説明に戻る。第3生成部3409は、第4文記憶部3407に記憶されている適用対象の文を1つ特定する(S3502)。第3生成部3409は、特定した適用対象の文に対して、形態素解析を行う(S3503)。
第3生成部3409は、形態素解析の結果から、対象単語又は対象単語に連なる単語を特定する第4素性を生成する(S3505)。第4素性は、教師データにおける第2素性に対応する。この例で、第3生成部3409は、対象単語に着目して、対象単語W(O)を特定する第4素性と、対象単語の次の単語W(1)を特定する第4素性と、対象単語の2つ後の単語W(2)を特定する第4素性とを生成する。第3生成部3409は、生成した第4素性を、適用データ記憶部3417に記憶される適用データのレコードに設定する。
図37に、適用データの例を示す。適用データは、適用対象の文の各単語に対応するレコードを有している。但し、この例では、対象単語に着目し、対象単語以外の単語に対応するレコードは省略する。この例で、適用データのレコードは、適用対象の文のIDを設定するためのフィールドと、着目する単語を設定するためのフィールドと、3つの第4素性を設定するためのフィールドと、第5素性を設定するためのフィールドと、第6スコアを設定するためのフィールドとを有している。
第4素性は、上述したように、着目する単語又は着目する単語に連なる単語を特定する素性である。また、3つの第4素性は、図28に示した教師データにおける3つの第2素性に対応する。
第5素性は、着目する単語の語義を特定する素性である。但し、着目する単語が対象単語ではない場合には、第5素性は設定されない。つまり、第5素性は、図28に示した教師データにおける第3素性に対応する。
このように、図37の例では、3つの第4素性と第5素性からなる素性集合が設定される。
第6スコアは、着目する単語の語義を判別する際に付与されたスコアである。第6スコアは、当該語義の判別に対する重み(評価の確かさ)を示している。つまり、第6スコアは、図28に示した教師データにおける第4スコアに対応する。
図37の例における第1レコードは、文ID:D301の適用対象の文における1番目の単語に対応するレコードである。つまり、このレコードでは、文ID:D301の適用対象の文における1番目の単語に着目している。図37の例における第1レコードには、着目する単語W(0)が、文ID:D301の適用対象の文における1番目の単語と一致するという第4素性と、着目する単語の次の単語W(1)が、文ID:D301の適用対象の文における2番目の単語と一致するという第4素性と、着目する単語の2つ後の単語W(2)が、文ID:D301の適用対象の文における3番目の単語と一致するという第4素性とが設定されている。更に、図37の例における第1レコードには、着目する単語W(0)の語義が「稲の実」であるという第5素性と、着目する単語W(0)の語義「稲の実」を判定した際に得られた第6スコア「2」が設定されている。
図37の例における第2レコードは、文ID:D302の適用対象の文における1番目の単語に対応するレコードである。つまり、このレコードでは、文ID:D302の適用対象の文における1番目の単語に着目している。図37の例における第2レコードには、着目する単語W(0)が、文ID:D302の適用対象の文における1番目の単語と一致するという第4素性と、着目する単語の次の単語W(1)が、文ID:D302の適用対象の文における2番目の単語と一致するという第4素性と、着目する単語の2つ後の単語W(2)が、文ID:D302の適用対象の文における3番目の単語と一致するという第4素性とが設定されている。更に、図37の例における第2レコードには、着目する単語W(0)の語義が「アメリカ合衆国の政府」であるという第5素性と、着目する単語W(0)の語義「アメリカ合衆国の政府」を判定した際に得られた第6スコア「1」が設定されている。
図35の説明に戻る。第4抽出部3411は、形態素解析の結果から、語義判定の手掛りとなる単語を抽出する(S3507)。適用対象の文に含まれる手掛かりの単語は、適用対象の文に含まれる対象単語以外の名詞である。手掛りとなる単語は、第4抽出データ記憶部3413に記憶される第4抽出データのレコードに設定される。
図38に、第4抽出データの例を示す。第4抽出データは、適用対象の文に対応するレコードを有している。第4抽出データのレコードは、適用対象の文に含まれる手掛かりの単語を設定するためのフィールドを有している。適用対象の文に含まれる手掛かりの単語は、適用対象の文に含まれる対象単語以外の名詞である。
図38の例における第1レコードには、文ID:D301の適用対象の文から抽出された手掛かりの単語「日本」「主食」「酒」及び「製造」が設定されている。
図38の例における第2レコードには、文ID:D302の適用対象の文から抽出された手掛かりの単語「日本人」「大統領」及び「写真」が設定されている。
図35の説明に戻る。第3判別部3415は、学習装置301によって生成された語義判別器に第4抽出データを適用することによって、S3502で特定した適用対象の文に含まれる対象単語の語義を判別する(S3509)。本実施の形態では、S3509における語義判別処理を第3判別処理という。
語義判別器の入力は、第4抽出データにおける手掛りに対応し、同じく出力は、語義に対応する。第3判別部3415は、第1規則データに従って、各語義に対する第6スコアを算出する。そして、第3判別部3415は、第6スコアの値が大きい方の語義を選択する。選択された語義は、第5素性として適用データ記憶部3417に記憶される適用データのレコードに設定される。選択された語義の第6スコアも、適用データ記憶部3417に記憶される適用データのレコードに設定される。
第4判別部3419は、学習装置301によって生成されたラベル判別器に適用データを適用することによって、S3502で特定した適用対象の文に含まれる対象単語のラベルを判別する(S3511)。本実施の形態では、S3511におけるラベル判別処理を第4判別処理という。
ラベル判別器の入力は、適用データにおける素性集合(この例では、3つの第4素性と第5素性)に対応し、同じく出力は、ラベルに対応する。第4判別部3419は、第3規則データに従って、各ラベルに対する第7スコアを算出する。単純には、適用データのレコード毎に、第4素性及び第5素性のうち、該当した素性に割り当てられている第5スコア(図30の第3規則データ参照)を合計することによって、第7スコアが算出される。また、第5素性に該当する場合には、第4判別部3419は、第5素性に対応する第6スコアを第5スコアに乗じて、得られた積を加算するようにしてもよい。つまり、第4判別部3419は、第6スコアを各適用事例における第5素性の重要度として用いるようにしてもよい。
算出された各ラベルに対する第7スコアは、結果データ記憶部3421に記憶される結果データのレコードに設定される。そして、第4判別部3419は、第7スコアの値が大きい方のラベルを選択する。選択されたラベルも、結果データ記憶部3421に記憶される結果データのレコードに設定される。
図39に、結果データの例を示す。結果データは、適用対象の文の各単語に対応するレコードを有している。但し、この例では、対象単語に着目し、対象単語以外の単語に対応するレコードは省略する。この例で、結果データのレコードは、文IDを設定するためのフィールドと、着目する単語を設定するためのフィールドと、各ラベルに対して付与された第7スコアを設定するためのフィールドと、選択されたラベルを設定するためのフィールドとを有している。
図39の例における第1レコードは、文ID:D301の適用対象の文に含まれる対象単語に着目した場合に、ラベル「組織」に対して第7スコア「−1」が付与され、ラベル「O」に対して第7スコア「1」が付与されたことを示している。そして、第7スコアの値が大きい方のラベル「O」が選択されたことを示している。
図39の例における第2レコードは、文ID:D302の適用対象の文に含まれる対象単語に着目した場合に、ラベル「組織」に対して第7スコア「3」が付与され、ラベル「O」に対して第7スコア「−3」が付与されたことを示している。そして、第7スコアの値が大きい方のラベル「組織」が選択されたことを示している。
図35の説明に戻る。第4生成部3423は、出力文を生成する(S3513)。具体的には、S3502において特定した適用対象の文に含まれる対象単語のラベルが、「組織」であれば、対象単語に固有表現のタイプ「組織」を示すタグが付加される。一方、S3502において特定した適用対象の文に含まれる対象単語のラベルが、「O」であれば、タグは付加されない。但し、固有表現のタイプに該当しない旨を示すタグ<O>と</O>が付加されるようにしてもよい。
図40に、出力データの例を示す。出力データは、出力文毎にレコードを有している。図40の例における第1レコードには、文ID:D301の適用対象の文に対応する出力文が格納されている。文ID:D301の適用対象の文に対応する出力文は、図2の下段に示した文と同じである。
図40の例における第2レコードには、文ID:D302の適用対象の文に対応する出力文が格納されている。文ID:D302の適用対象の文に対応する出力文は、図1の下段に示した文と同じである。
図35の説明に戻る。第3生成部3409は、未処理の適用対象の文があるか否かを判定する(S3514)。未処理の適用対象の文があると判定した場合には、S3502の処理に戻って、上述した処理を繰り返す。
一方、未処理の適用対象の文がないと判定した場合には、出力部3427は、出力文を出力する(S3515)。出力の形態は、例えば記録媒体への書込み、表示あるいは送信などである。
本実施の形態によれば、自ら判別する対象単語の語義に基づき、複数の語義を有する単語をより正しくタイプ分類する規則が得られる。第2規則データの基礎となる第2例文は、第1規則データの基礎となる第1例文と文脈が共通するので、第2規則データにおいて矛盾が生じにくい面がある。更に、第2規則データを規則データ(結合荷重)の初期値として用いるので、語義に基づくラベル判別の規則が正しく維持されやすい面がある。
更に、第2判別処理(図27:S2711)において判別の基準となった語義の評価値を、第3学習処理(図27:S2717)において、学習における当該語義の重要度として用いるので、語義判別の確からしさを、ラベルの判別に反映できる。
更に、Webサイトから第1例文を取得するので、標準的な第1規則データを得やすい。
更に、固有表現におけるタイプを判別するので、固有表現に係る単語を特定することに役立つ。
[実施の形態2]
上述した実施の形態では、学習装置301とは別に判別装置3401を設ける例を示したが、学習装置301が判別装置3401を兼ねるようにしてもよい。
図41は、実施の形態2に係る学習装置301のモジュール構成例を示す図である。この例では、実施の形態1に係る判別装置3401に設けられていた適用部3403が、学習装置301に設けられている。
適用部3403の構成及び処理は、実施の形態1の場合と同様である。
本実施の形態によれば、適用部3403を有するので、学習装置301において複数の語義を有する単語をより正しくタイプに分類できる。
以上、固有表現のタイプ「組織」を例として説明したが、「人名」や「地名」など他のタイプについても、「組織」の場合と同様である。また、固有表現のタイプは、ラベルによって区別される単語のタイプについての一例である。
単語のタイプは、品詞であってもよい。つまり、ラベルによって品詞を区別するようにしてもよい。
単語のタイプは、読み方(例えば、音読みと訓読み)であってもよい。つまり、ラベルによって読み方を区別するようにしてもよい。
更に、単語のタイプは、単語のイントネーション、発音あるいはアクセントであってもよい。つまり、ラベルによってイントネーション、発音あるいはアクセントを区別するようにしてもよい。
以上、日本語による適用例を示したが、本実施の形態を他の言語に適用してもよい。例えば、中国語、スペイン語、英語、アラビア語あるいはヒンディー語などに適用してもよい。
以上本発明の実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上述の機能ブロック構成はプログラムモジュール構成に一致しない場合もある。
また、上で説明した各記憶領域の構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ、処理の順番を入れ替えることや複数の処理を並列に実行させるようにしても良い。
なお、上で述べた学習装置301及び判別装置3401は、コンピュータ装置であって、図42に示すように、メモリ2501とCPU(Central Processing Unit)2503とハードディスク・ドライブ(HDD:Hard Disk Drive)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
以上述べた本発明の実施の形態をまとめると、以下のようになる。
本実施の形態に係る学習装置は、複数の語義を有し且つ複数のタイプに分類される対象単語について、当該タイプを判別する規則を学習する。また、上記学習装置は、対象単語の語義を判別する第1規則を、対象単語と当該対象単語の語義を特定する第1データとを含む第1例文に基づいて学習する第1学習部と、第1例文と文脈が共通し、且つ対象単語と当該対象単語のタイプを特定する第2データとを含む第2例文における当該対象単語の語義を、第1規則に従って判別する第1判別部と、タイプを判別する第2規則を、第2例文における語義と、第2データにより特定されるタイプとの対応に基づいて学習する第2学習部と、対象単語と当該対象単語のタイプを特定する第3データとを含む第3例文における当該対象単語の語義を、第1規則に従って判別する第2判別部と、タイプを判別する第3規則を、第2規則を初期値として用い、第3例文における語義と第3例文とに基づいて学習する第3学習部とを有する。
このようにすれば、自ら判別する対象単語の語義に基づき、複数の語義を有する単語をより正しくタイプ分類する規則が得られる。第2規則の基礎となる第2例文は、第1規則の基礎となる第1例文と文脈が共通するので、第2規則において矛盾が生じにくい面がある。更に、第2規則を初期値として用いるので、語義に基づくタイプ判別の規則が正しく維持されやすい面がある。
上記学習装置は、対象単語を含む適用対象の文における当該対象単語の語義を、第1規則に従って判別する第3判別部を有するようにしてもよい。更に、上記学習装置は、判別した語義と適用対象の文とに基づいて、第3規則に従って適用対象の文における上記タイプを判別する第4判別部を有するようにしてもよい。
このようにすれば、学習装置において、複数の語義を有する単語をより正しくタイプに分類できる。
上記第3学習部は、上記第2判別部における判別の基準となった語義の評価値を、学習における当該語義の重要度として用いるようにしてもよい。
このようにすれば、語義判別の確からしさを、タイプの判別に反映できる。
上記学習装置は、Webサイトから、第1例文を取得する取得部を有するようにしてもよい。
このようにすれば、標準的な第1規則を得やすい。
上記複数のタイプは、固有表現における1つのタイプを含んでもよい。
このようにすれば、固有表現に係る単語を特定することに役立つ。
なお、上で述べた学習装置における処理をコンピュータに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納されるようにしてもよい。尚、中間的な処理結果は、一般的にメインメモリ等の記憶装置に一時保管される。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
複数の語義を有し且つ複数のタイプに分類される対象単語について、当該タイプを判別する規則を学習する学習装置であって、
対象単語の語義を判別する第1規則を、対象単語と当該対象単語の語義を特定する第1データとを含む第1例文に基づいて学習する第1学習部と、
前記第1例文と文脈が共通し、且つ対象単語と当該対象単語のタイプを特定する第2データとを含む第2例文における当該対象単語の語義を、前記第1規則に従って判別する第1判別部と、
前記タイプを判別する第2規則を、前記第2例文における前記語義と、前記第2データにより特定される前記タイプとの対応に基づいて学習する第2学習部と、
対象単語と当該対象単語の前記タイプを特定する第3データとを含む第3例文における当該対象単語の語義を、前記第1規則に従って判別する第2判別部と、
前記タイプを判別する第3規則を、前記第2規則を初期値として用い、前記第3例文における前記語義と前記第3例文とに基づいて学習する第3学習部と
を有する学習装置。
(付記2)
更に、
対象単語を含む適用対象の文における当該対象単語の語義を、前記第1規則に従って判別する第3判別部と、
判別した前記語義と前記適用対象の文とに基づいて、前記第3規則に従って前記適用対象の文における前記タイプを判別する第4判別部と
を有する付記1記載の学習装置。
(付記3)
前記第3学習部は、前記第2判別部における判別の基準となった前記語義の評価値を、学習における当該語義の重要度として用いる
付記1又は2記載の学習装置。
(付記4)
更に、
Webサイトから、第1例文を取得する取得部
を有する付記1乃至3のいずれか1つ記載の学習装置。
(付記5)
前記複数のタイプは、固有表現における1つのタイプを含む
付記1乃至4のいずれか1つ記載の学習装置。
(付記6)
複数の語義を有し且つ複数のタイプに分類される対象単語について、当該タイプを判別する規則を学習する学習方法であって、
対象単語の語義を判別する第1規則を、対象単語と当該対象単語の語義を特定する第1データとを含む第1例文に基づいて学習し、
前記第1例文と文脈が共通し、且つ対象単語と当該対象単語のタイプを特定する第2データとを含む第2例文における当該対象単語の語義を、前記第1規則に従って判別し、
前記タイプを判別する第2規則を、前記第2例文における前記語義と、前記第2データにより特定される前記タイプとの対応に基づいて学習し、
対象単語と当該対象単語の前記タイプを特定する第3データとを含む第3例文における当該対象単語の語義を、前記第1規則に従って判別し、
前記タイプを判別する第3規則を、前記第2規則を初期値として用い、前記第3例文における前記語義と前記第3例文とに基づいて学習する
処理を含み、コンピュータにより実行される学習方法。
(付記7)
複数の語義を有し且つ複数のタイプに分類される対象単語について、当該タイプを判別する規則を学習する学習方法を、コンピュータに実行させるための学習プログラムであって、
前記学習方法は、
対象単語の語義を判別する第1規則を、対象単語と当該対象単語の語義を特定する第1データとを含む第1例文に基づいて学習し、
前記第1例文と文脈が共通し、且つ対象単語と当該対象単語のタイプを特定する第2データとを含む第2例文における当該対象単語の語義を、前記第1規則に従って判別し、
前記タイプを判別する第2規則を、前記第2例文における前記語義と、前記第2データにより特定される前記タイプとの対応に基づいて学習し、
対象単語と当該対象単語の前記タイプを特定する第3データとを含む第3例文における当該対象単語の語義を、前記第1規則に従って判別し、
前記タイプを判別する第3規則を、前記第2規則を初期値として用い、前記第3例文における前記語義と前記第3例文とに基づいて学習する
処理を含む、学習プログラム。
301 学習装置 303 設定部
305 定義記憶部 307 第1前処理部
309 第1文記憶部 311 第1規則記憶部
313 第2前処理部 315 第2規則記憶部
317 メイン処理部 319 第3規則記憶部
601 取得部 603 第1抽出部
605 第1抽出データ記憶部 607 特定部
609 第1学習部 1401 第1生成部
1403 第2文記憶部 1405 第2抽出部
1407 第2抽出データ記憶部 1409 第1判別部
1411 学習データ記憶部 1413 第2学習部
2101 第1受付部 2103 第3文記憶部
2105 第2生成部 2107 教師データ記憶部
2109 第3抽出部 2111 第3抽出データ記憶部
2113 第2判別部 2115 第3学習部
3401 判別装置 3403 適用部
3405 第2受付部 3407 第4文記憶部
3409 第3生成部 3411 第4抽出部
3413 第4抽出データ記憶部 3415 第3判別部
3417 適用データ記憶部 3419 第4判別部
3421 結果データ記憶部 3423 第4生成部
3425 第5文記憶部 3427 出力部

Claims (5)

  1. 複数の語義を有し且つ複数のタイプに分類される対象単語について、当該タイプを判別する規則を学習する学習装置であって、
    対象単語の語義を判別する第1規則を、対象単語と当該対象単語の語義を特定する第1データとを含む第1例文に基づいて学習する第1学習部と、
    前記第1例文と文脈が共通し、且つ対象単語と当該対象単語のタイプを特定する第2データとを含む第2例文における当該対象単語の語義を、前記第1規則に従って判別する第1判別部と、
    前記タイプを判別する第2規則を、前記第2例文における前記語義と、前記第2データにより特定される前記タイプとの対応に基づいて学習する第2学習部と、
    対象単語と当該対象単語の前記タイプを特定する第3データとを含む第3例文における当該対象単語の語義を、前記第1規則に従って判別する第2判別部と、
    前記タイプを判別する第3規則を、前記第2規則を初期値として用い、前記第3例文における前記語義と前記第3例文とに基づいて学習する第3学習部と
    を有する学習装置。
  2. 更に、
    対象単語を含む適用対象の文における当該対象単語の語義を、前記第1規則に従って判別する第3判別部と、
    判別した前記語義と前記適用対象の文とに基づいて、前記第3規則に従って前記適用対象の文における前記タイプを判別する第4判別部と
    を有する請求項1記載の学習装置。
  3. 前記第3学習部は、前記第2判別部における判別の基準となった前記語義の評価値を、学習における当該語義の重要度として用いる
    請求項1又は2記載の学習装置。
  4. 複数の語義を有し且つ複数のタイプに分類される対象単語について、当該タイプを判別する規則を学習する学習方法であって、
    対象単語の語義を判別する第1規則を、対象単語と当該対象単語の語義を特定する第1データとを含む第1例文に基づいて学習し、
    前記第1例文と文脈が共通し、且つ対象単語と当該対象単語のタイプを特定する第2データとを含む第2例文における当該対象単語の語義を、前記第1規則に従って判別し、
    前記タイプを判別する第2規則を、前記第2例文における前記語義と、前記第2データにより特定される前記タイプとの対応に基づいて学習し、
    対象単語と当該対象単語の前記タイプを特定する第3データとを含む第3例文における当該対象単語の語義を、前記第1規則に従って判別し、
    前記タイプを判別する第3規則を、前記第2規則を初期値として用い、前記第3例文における前記語義と前記第3例文とに基づいて学習する
    処理を含み、コンピュータにより実行される学習方法。
  5. 複数の語義を有し且つ複数のタイプに分類される対象単語について、当該タイプを判別する規則を学習する学習方法を、コンピュータに実行させるための学習プログラムであって、
    前記学習方法は、
    対象単語の語義を判別する第1規則を、対象単語と当該対象単語の語義を特定する第1データとを含む第1例文に基づいて学習し、
    前記第1例文と文脈が共通し、且つ対象単語と当該対象単語のタイプを特定する第2データとを含む第2例文における当該対象単語の語義を、前記第1規則に従って判別し、
    前記タイプを判別する第2規則を、前記第2例文における前記語義と、前記第2データにより特定される前記タイプとの対応に基づいて学習し、
    対象単語と当該対象単語の前記タイプを特定する第3データとを含む第3例文における当該対象単語の語義を、前記第1規則に従って判別し、
    前記タイプを判別する第3規則を、前記第2規則を初期値として用い、前記第3例文における前記語義と前記第3例文とに基づいて学習する
    処理を含む、学習プログラム。
JP2015030243A 2015-02-19 2015-02-19 学習装置、学習方法及び学習プログラム Expired - Fee Related JP6435909B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015030243A JP6435909B2 (ja) 2015-02-19 2015-02-19 学習装置、学習方法及び学習プログラム
US15/001,436 US20160246775A1 (en) 2015-02-19 2016-01-20 Learning apparatus and learning method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015030243A JP6435909B2 (ja) 2015-02-19 2015-02-19 学習装置、学習方法及び学習プログラム

Publications (2)

Publication Number Publication Date
JP2016151981A true JP2016151981A (ja) 2016-08-22
JP6435909B2 JP6435909B2 (ja) 2018-12-12

Family

ID=56693073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015030243A Expired - Fee Related JP6435909B2 (ja) 2015-02-19 2015-02-19 学習装置、学習方法及び学習プログラム

Country Status (2)

Country Link
US (1) US20160246775A1 (ja)
JP (1) JP6435909B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2635902C1 (ru) * 2016-08-05 2017-11-16 Общество С Ограниченной Ответственностью "Яндекс" Способ и система отбора обучающих признаков для алгоритма машинного обучения
US20220277515A1 (en) * 2019-07-19 2022-09-01 Five AI Limited Structure modelling

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10171806A (ja) * 1996-12-13 1998-06-26 Nec Corp 語義曖昧性解消装置及び方法
JP2005327107A (ja) * 2004-05-14 2005-11-24 Fuji Xerox Co Ltd 固有名カテゴリ推定装置及びプログラム
US6975766B2 (en) * 2000-09-08 2005-12-13 Nec Corporation System, method and program for discriminating named entity
JP2010250642A (ja) * 2009-04-17 2010-11-04 Fujitsu Ltd 規則処理方法及び装置
WO2013115154A1 (ja) * 2012-01-30 2013-08-08 日本電気株式会社 同表記異義語識別装置、方法及びプログラム
JP2014089637A (ja) * 2012-10-31 2014-05-15 International Business Maschines Corporation 画像データ中の訳し分けされるべき単語又はフレーズに対応する訳語を決定する方法、並びにそのコンピュータ及びコンピュータ・プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070106657A1 (en) * 2005-11-10 2007-05-10 Brzeski Vadim V Word sense disambiguation
US7869989B1 (en) * 2005-01-28 2011-01-11 Artificial Cognition Inc. Methods and apparatus for understanding machine vocabulary
US8301435B2 (en) * 2006-02-27 2012-10-30 Nec Corporation Removing ambiguity when analyzing a sentence with a word having multiple meanings
JP5751251B2 (ja) * 2010-03-26 2015-07-22 日本電気株式会社 意味抽出装置、意味抽出方法、および、プログラム
US8606568B1 (en) * 2012-10-10 2013-12-10 Google Inc. Evaluating pronouns in context

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10171806A (ja) * 1996-12-13 1998-06-26 Nec Corp 語義曖昧性解消装置及び方法
US6975766B2 (en) * 2000-09-08 2005-12-13 Nec Corporation System, method and program for discriminating named entity
JP2005327107A (ja) * 2004-05-14 2005-11-24 Fuji Xerox Co Ltd 固有名カテゴリ推定装置及びプログラム
JP2010250642A (ja) * 2009-04-17 2010-11-04 Fujitsu Ltd 規則処理方法及び装置
WO2013115154A1 (ja) * 2012-01-30 2013-08-08 日本電気株式会社 同表記異義語識別装置、方法及びプログラム
JP2014089637A (ja) * 2012-10-31 2014-05-15 International Business Maschines Corporation 画像データ中の訳し分けされるべき単語又はフレーズに対応する訳語を決定する方法、並びにそのコンピュータ及びコンピュータ・プログラム

Also Published As

Publication number Publication date
JP6435909B2 (ja) 2018-12-12
US20160246775A1 (en) 2016-08-25

Similar Documents

Publication Publication Date Title
Baldwin et al. Extracting the unextractable: A case study on verb-particles
Sibun et al. Language determination: Natural language processing from scanned document images
US7840521B2 (en) Computer-based method and system for efficient categorizing of digital documents
KR100420096B1 (ko) 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법
Klebanov et al. Supervised word-level metaphor detection: Experiments with concreteness and reweighting of examples
JP2005157524A (ja) 質問応答システムおよび質問応答処理方法
Singh et al. A decision tree based word sense disambiguation system in Manipuri language
JP6217468B2 (ja) 多言語文書分類プログラム及び情報処理装置
Mohamed et al. Arabic Part of Speech Tagging.
CN112527977A (zh) 概念抽取方法、装置、电子设备及存储介质
JP6435909B2 (ja) 学習装置、学習方法及び学習プログラム
JP5213098B2 (ja) 質問応答方法及びシステム
CN104899310B (zh) 信息排序方法、用于生成信息排序模型的方法及装置
CN111291569B (zh) 多类别实体识别模型的训练方法及装置
Dawar et al. Text categorization by content using Naïve Bayes approach
JP2011039576A (ja) 特定情報検出装置、特定情報検出方法および特定情報検出プログラム
Kim et al. Identifying opinion holders in opinion text from online newspapers
KR20080029417A (ko) 시맨틱 웹 어노테이션을 위한 웹 문서의 자동 의미정보추출 방법 및 그 시스템
Hasan et al. Pattern-matching based for Arabic question answering: a challenge perspective
JP3471253B2 (ja) 文書分類方法、文書分類装置、および文書分類プログラムを記録した記録媒体
CN113190659A (zh) 基于多任务联合训练的文言文机器阅读理解方法
Charoenpornsawat et al. Feature-based proper name identification in Thai
Hatzivassiloglou et al. A quantitative evaluation of linguistic tests for the automatic prediction of semantic markedness
CN111858840A (zh) 一种基于概念图的意图识别方法及装置
Yuan et al. Research on News Text Clustering for International Chinese Education

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181016

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181029

R150 Certificate of patent or registration of utility model

Ref document number: 6435909

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees