JP2016151981A

JP2016151981A - 学習装置、学習方法及び学習プログラム

Info

Publication number: JP2016151981A
Application number: JP2015030243A
Authority: JP
Inventors: 友哉岩倉; Tomoya Iwakura
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-02-19
Filing date: 2015-02-19
Publication date: 2016-08-22
Anticipated expiration: 2035-02-19
Also published as: JP6435909B2; US20160246775A1

Abstract

【課題】複数の語義を有する単語をより正しくタイプ分類する規則を得る学習装置、方法及び学習プログラムを提供する。
【解決手段】学習装置３０１は、対象単語の語義を判別する第１規則を、対象単語と、語義を特定する第１データとを含む第１例文に基づいて学習する第１学習部と、第１例文と文脈が共通し、かつ、対象単語と、タイプを特定する第２データとを含む第２例文における語義を、第１規則に従って判別する第１判別部と、タイプを判別する第２規則を、第２例文における語義と、第２データにより特定されるタイプとの対応に基づいて学習する第２学習部と、対象単語と、タイプを特定する第３データとを含む第３例文における語義を、第１規則に従って判別する第２判別部と、タイプを判別する第３規則を、第２規則を初期値として用い、第３例文における語義と第３例文とに基づいて学習する第３学習部とを有する。
【選択図】図３

Description

本発明は、単語のタイプを判別する技術に関する。

ある特許文献には、例文に含まれる単語が固有表現に該当することを示す正解リストを用いて、固有表現を抽出する規則を生成する装置が開示されている。

但し、ある例文において固有表現に該当する単語が、他の文においても固有表現として用いられるとは限らない。

このように、使われ方が多様な単語を自動的に分類することは、容易ではない。

特開２００１−３１８７９２号公報特開２００７−３２３４７５号公報

本発明の目的は、一側面では、複数の語義を有する単語をより正しくタイプ分類する規則を得ることである。

一態様に係る学習装置は、複数の語義を有し且つ複数のタイプに分類される対象単語について、当該タイプを判別する規則を学習する。また、上記学習装置は、対象単語の語義を判別する第１規則を、対象単語と当該対象単語の語義を特定する第１データとを含む第１例文に基づいて学習する第１学習部と、第１例文と文脈が共通し、且つ対象単語と当該対象単語のタイプを特定する第２データとを含む第２例文における当該対象単語の語義を、第１規則に従って判別する第１判別部と、タイプを判別する第２規則を、第２例文における語義と、第２データにより特定されるタイプとの対応に基づいて学習する第２学習部と、対象単語と当該対象単語のタイプを特定する第３データとを含む第３例文における当該対象単語の語義を、第１規則に従って判別する第２判別部と、タイプを判別する第３規則を、第２規則を初期値として用い、第３例文における語義と第３例文とに基づいて学習する第３学習部とを有する。

一側面としては、複数の語義を有する単語をより正しくタイプ分類する規則が得られる。

図１は、固有表現のタイプを判別する例を示す図である。図２は、固有表現に該当しない例を示す図である。図３は、学習装置のモジュール構成例を示す図である。図４は、学習装置の処理フローを示す図である。図５は、定義テーブルの例を示す図である。図６は、第１前処理部のモジュール構成例を示す図である。図７は、第１前処理フローの例を示す図である。図８は、第１例文データの例を示す図である。図９は、第１例文の例を示す図である。図１０は、第１例文の例を示す図である。図１１は、第１例文の例を示す図である。図１２は、第１抽出データの例を示す図である。図１３は、第１規則データの例を示す図である。図１４は、第２前処理部のモジュール構成例を示す図である。図１５は、第２前処理フローの例を示す図である。図１６は、第２例文データの例を示す図である。図１７は、第２抽出データの例を示す図である。図１８は、学習データの例を示す図である。図１９は、第２規則データの例を示す図である。図２０は、第２規則データの例を示す図である。図２１は、メイン処理部のモジュール構成例を示す図である。図２２は、メイン処理フローの例を示す図である。図２３は、第３例文データの例を示す図である。図２４は、第３例文の例を示す図である。図２５は、第３例文の例を示す図である。図２６は、第３例文の例を示す図である。図２７は、メイン処理フローの例を示す図である。図２８は、教師データの例を示す図である。図２９は、第３抽出データの例を示す図である。図３０は、第３規則データの例を示す図である。図３１は、第３例文データの例を示す図である。図３２は、第３例文の例を示す図である。図３３は、教師データの例を示す図である。図３４は、判別装置のモジュール構成例を示す図である。図３５は、適用処理フローの例を示す図である。図３６は、対象文データの例を示す図である。図３７は、適用データの例を示す図である。図３８は、第４抽出データの例を示す図である。図３９は、結果データの例を示す図である。図４０は、出力データの例を示す図である。図４１は、実施の形態２に係る学習装置のモジュール構成例を示す図である。図４２は、コンピュータの機能ブロック図である。

［実施の形態１］
本来「稲の実」を意味する１つの漢字で表される単語「米」は、日本語において「アメリカ合衆国」の略語として用いられることがある。以下では、この単語が「稲の実」の意味の他に、「アメリカ合衆国の政府」という意味でも用いられる状況における例について説明する。この単語が「アメリカ合衆国の政府」の意味で用いられる場合に、この単語は固有表現のタイプ「組織」に該当する。一方、この単語が「稲の実」の意味で用いられる場合に、この単語は固有表現のいずれのタイプにも該当しない。

以下では、「稲の実」を意味する１つの漢字で表される単語「米」が、固有表現のタイプ「組織」に該当するか否かを自動的に判別する例について説明する。尚、判別の対象となる単語を、対象単語という。

対象単語が固有表現のタイプに該当する場合には、固有表現のタイプを示すタグを付した出力文が生成される。他方、対象単語が固有表現のタイプに該当しない場合には、タグは付加されない。

図１に、固有表現のタイプを判別する例を示す。この例における適用対象の文は、上段に示した「米は、日本人と交流する大統領の写真を公開した。」である。本実施の形態では、文に含まれる名詞に着目して処理を行う。

まず、文に含まれる単語のうち名詞について説明する。この適用対象の文は、第１名詞１０１、第２名詞１０３、第３名詞１０５及び第４名詞１０７の４つの名詞を含んでいる。これらのうち、第１名詞１０１は、対象単語に該当する。この例における第１名詞１０１は、「アメリカ合衆国の政府」の意味で用いられている。この第１名詞１０１は、図示するように１つの漢字で表される。

図１の下段は、上段に示した文に対する判別を行って得られた出力文を示している。図１の下段における第１名詞１５１には、第１名詞１０１が組織タイプの固有表現に相当することを示すタグ＜組織＞及び＜／組織＞が付されている。固有表現のタイプを判別する対象に該当しない単語は変更されない。従って、第２名詞１０３、第３名詞１０５及び第４名詞１０７は、上段と同様である。

尚、第２名詞１０３は、図示するように３つの漢字で表される「日本人」である。第３名詞１０５は、図示するように３つの漢字で表される「大統領」である。第４名詞１０７は、図示するように２つの漢字で表される「写真」である。

次に、図２を用いて、対象単語が固有表現に該当しない場合について説明する。この例における適用対象の文は、上段に示した「米は、日本の主食であって、酒の製造に使われる。」である。この適用対象の文は、第１名詞２０１、第２名詞２０３、第３名詞２０５、第４名詞２０７及び第５名詞２０９の５つの名詞を含んでいる。そのうち、第１名詞２０１は、図１に示した第１名詞１０１と同様に、対象単語である。この例における第１名詞２０１は、「稲の実」の意味で用いられている。つまり、この例における第１名詞２０１は、本来の意味として用いられており、固有表現には該当しない。

図２の下段は、上段に示した文に対する判別を行って得られた出力文を示している。判別対象の単語が、固有表現に該当しない場合には、タグが付されない。従って、第１名詞２０１は、上段と同様である。固有表現のタイプを判別する対象に該当しない第２名詞２０３、第３名詞２０５、第４名詞２０７及び第５名詞２０９も、上段と同様である。但し、対象単語が固有表現のタイプに該当しない場合に、固有表現のタイプに該当しない旨を示すタグ＜Ｏ＞と＜／Ｏ＞を付すようにしてもよい。

尚、第２名詞２０３は、図示するように２つの漢字で表される「日本」である。第３名詞２０５は、図示するように２つの漢字で表される「主食」である。第４名詞２０７は、図示するように１つの漢字で表される「酒」である。第５名詞２０９は、図示するように２つの漢字で表される「製造」である。

次に、機械学習を行う学習装置について説明する。図３に、学習装置３０１のモジュール構成例を示す。学習装置３０１は、設定部３０３、定義記憶部３０５、第１前処理部３０７、第１文記憶部３０９、第１規則記憶部３１１、第２前処理部３１３、第２規則記憶部３１５、メイン処理部３１７及び第３規則記憶部３１９を有する。

学習装置３０１は、機械学習によってラベル判別器を生成するコンピュータである。設定部３０３は、定義データの内容を設定する。定義記憶部３０５は、定義データを記憶する。第１前処理部３０７は、第１文記憶部３０９に記憶される第１例文に基づいて、第１規則データを含む語義判別器を生成する。第１前処理部３０７により実行される処理を、第１前処理という。第１文記憶部３０９は、複数の第１例文を含む第１例文データを記憶する。第１規則記憶部３１１は、第１規則データを記憶する。第２前処理部３１３は、第１例文から生成される第２例文と、第１規則データとに基づいて、第２規則データを含むラベル判別器を生成するための１回目の機械学習を行う。第２前処理部３１３により実行される処理を、第２前処理という。第２規則記憶部３１５は、第２規則データを記憶する。メイン処理部３１７は、第３例文と、第１規則データと、第２規則データとに基づいて、第２規則データを規則データの初期値として用いて、第３規則データを含むラベル判別器を生成するための２回目の機械学習を行う。メイン処理部３１７により実行される処理を、メイン処理という。第３規則記憶部３１９は、第３規則データを記憶する。上述したデータ及び処理の内容については、以下で詳述する。

上述した設定部３０３、第１前処理部３０７、第２前処理部３１３及びメイン処理部３１７は、ハードウエア資源（例えば、図４２）と、以下で述べる処理をプロセッサに実行させるプログラムとを用いて実現される。

上述した定義記憶部３０５、第１文記憶部３０９、第１規則記憶部３１１、第２規則記憶部３１５及び第３規則記憶部３１９は、ハードウエア資源（例えば、図４２）を用いて実現される。

図４に、学習装置３０１の処理フローを示す。設定部３０３は、定義記憶部３０５に記憶される定義データに、対象単語に関する定義内容を設定する（Ｓ４０１）。設定部３０３は、例えばユーザインターフェース、記録媒体あるいは通信媒体を介して、定義内容を受け付ける。

図５に、定義テーブルの例を示す。定義テーブルは、対象単語の語義に対応するレコードを有する。定義テーブルのレコードは、対象単語を設定するフィールド、語義を設定するフィールド、リンクデータを設定するフィールド及びラベルを設定するフィールドを有している。リンクデータは、例えば辞書サイトのような既存のデータベースにおいて用語のリンク先を明示するためのデータである。この例は、辞書サイトの記事中において、上述した対象単語を「稲の実」の意味で用いているか、あるいは「アメリカ合衆国の政府」の意味で用いているかによってリンクデータが異なることを前提とする。

図５の例における第１レコードは、辞書サイトにおいて対象単語が「稲の実」の意味として用いられる場合には、「植物」で識別される語義について説明する記事へのリンクデータが、当該対象単語に付加されることを示している。更に、図５の例における第１レコードは、「植物」で識別される語義は、ラベル「Ｏ」に対応することを示している。尚、ラベル「Ｏ」は、「その他」を意味し、この例では固有表現のタイプ「組織」に該当しないことを意味する。尚、ラベルは、単語を分類するタイプの例である。

図５の例における第２レコードは、辞書サイトにおいて対象単語が「アメリカ合衆国の政府」の意味として用いられる場合には、「政府」で識別される語義について説明する記事へのリンクデータが、当該対象単語に付加されることを示している。更に、図５の例における第２レコードは、「政府」で識別される語義は、ラベル「組織」に対応することを示している。

図４の説明に戻る。第１前処理部３０７は、第１前処理を実行する（Ｓ４０３）。第１前処理部３０７は、第１前処理で、第１文記憶部３０９に記憶される第１例文に基づいて、語義判別器を生成する。具体的には、語義判別器で用いられる第１規則データが求められる。

図６に、第１前処理部３０７のモジュール構成例を示す。第１前処理部３０７は、取得部６０１、第１抽出部６０３、第１抽出データ記憶部６０５、特定部６０７及び第１学習部６０９を有する。

取得部６０１は、上述したリンクデータが付加された対象単語を含む第１例文を複数取得する。第１抽出部６０３は、複数の第１例文の各々から、語義判定の手掛りとなる単語を抽出する。第１抽出データ記憶部６０５は、語義判定の手掛りとなる単語をまとめた第１抽出データを記憶する。特定部６０７は、複数の第１例文の各々に含まれるリンクデータに基づいて、夫々の対象単語の語義を特定する。第１学習部６０９は、複数の第１例文の各々における対象単語の語義と手掛りの単語との対応付けに基づいて、対象単語の語義を判別するための第１規則を学習する。上述したデータ及び処理の内容については、以下で詳述する。

上述した取得部６０１、第１抽出部６０３、特定部６０７及び第１学習部６０９は、ハードウエア資源（例えば、図４２）と、以下で述べる処理をプロセッサに実行させるプログラムとを用いて実現される。

上述した第１抽出データ記憶部６０５は、ハードウエア資源（例えば、図４２）を用いて実現される。

図７に、第１前処理フローの例を示す。取得部６０１は、第１例文を取得し、第１文記憶部３０９に記憶する（Ｓ７０１）。取得部６０１は、Ｗｅｂサイト（例えば、辞書サイト）のデータベースから第１例文を取得するようにしてもよい。あるいは、取得部６０１は、記録媒体に収められた辞書データベースから第１例文を取得するようにしてもよい。このように、一般的かつ広い範囲の知識を体系化したデータベースから第１例文を取得すれば、適応性が高い語義判別器が生成されることが期待される。但し、取得部６０１は、他の方法によって第１例文を取得するようにしてもよい。

図８に、第１例文データの例を示す。第１例文データは、第１例文毎にレコードを設けている。レコードには、文ＩＤに対応付けられた第１例文が格納される。

まず、図８に示した第１例文データにおける文ＩＤ：Ｄ００１の第１例文について、図９を用いて説明する。

文ＩＤ：Ｄ００１の第１例文は、第１名詞９０１、第２名詞９０３、第３名詞９０５及び第４名詞９０７の４つの名詞を含んでいる。そのうち、第１名詞９０１は、対象単語である。この例における第１名詞９０１は、「アメリカ合衆国の政府」の意味で用いられている。従って、１つの漢字に、「政府」で識別される語義について説明する記事へのリンクデータ（以下では、「政府」のリンクデータという。）が付加されている。尚、リンクデータの書式は、この例に限定されない。

図９の下段は、リンクデータが除去された第１例文を示している。第１名詞９５１は、上段に示した第１名詞９０１からリンクデータが除去され、通常の表記となっている。第２名詞９０３、第３名詞９０５及び第４名詞９０７は、上段の場合と同様である。

この例では、対象単語に相当する第１名詞９５１を除く、第２名詞９０３、第３名詞９０５及び第４名詞９０７が、語義判定の手掛りとなる単語として抽出される。

尚、第２名詞９０３は、図示するように３つの漢字で表される「大統領」である。第３名詞９０５は、図示するように３つの漢字で表される「現職者」である。第４名詞９０７は、図示するように３つの片仮名文字で表される「オバマ」である。

次に、図８に示した第１例文データにおける文ＩＤ：Ｄ００２の第１例文について、図１０を用いて説明する。

文ＩＤ：Ｄ００２の第１例文は、第１名詞１００１、第２名詞１００３、第３名詞１００５、第４名詞１００７、第５名詞１００９、第６名詞１０１１及び第７名詞１０１３の７つの名詞を含んでいる。そのうち、第１名詞１００１は、対象単語である。この例における第１名詞１００１は、「稲の実」の意味で用いられている。従って、１つの漢字に、「植物」で識別される語義について説明する記事へのリンクデータ（以下では、「植物」のリンクデータという。）が付加されている。

図１０の下段は、リンクデータが除去された第１例文を示している。第１名詞１０５１は、上段に示した第１名詞１００１からリンクデータが除去され、通常の表記となっている。第２名詞１００３、第３名詞１００５、第４名詞１００７、第５名詞１００９、第６名詞１０１１及び第７名詞１０１３は、上段の場合と同様である。

この例では、対象単語に相当する第１名詞１０５１を除く、第２名詞１００３、第３名詞１００５、第４名詞１００７、第５名詞１００９、第６名詞１０１１及び第７名詞１０１３が、語義判定の手掛りとなる単語として抽出される。

尚、第２名詞１００３は、図示するように１つの漢字で表される「酒」である。第３名詞１００５は、図示するように４つの平仮名文字で表される「せんべい」である。第４名詞１００７は、図示するように２つの漢字で表される「原料」である。第５名詞１００９は、図示するように２つの漢字で表される「主食」である。第６名詞１０１１は、図示するように２つの漢字で表される「以外」である。第７名詞１０１３は、図示するように２つの漢字で表される「用途」である。

最後に、図８に示した第１例文データにおける文ＩＤ：Ｄ００３の第１例文について、図１１を用いて説明する。

文ＩＤ：Ｄ００３の第１例文は、第１名詞１１０１及び第２名詞１１０３の２つの名詞を含んでいる。そのうち、第１名詞１１０１は、対象単語である。この例における第１名詞１１０１は、「稲の実」の意味で用いられている。従って、１つの漢字に、「植物」で識別される語義について説明する記事へのリンクデータが付加されている。

図１１の下段は、リンクデータが除去された第１例文を示している。第１名詞１１５１は、上段に示した第１名詞１１０１からリンクデータが除去され、通常の表記となっている。第２名詞１１０３は、上段の場合と同様である。

この例では、対象単語に相当する第１名詞１１５１を除く、第２名詞１１０３が、語義判定の手掛りとなる単語として抽出される。

尚、第２名詞１１０３は、図示するように２つの漢字で表される「焼酎」である。以上で、第１例文データについての説明を終える。

図７の説明に戻る。第１抽出部６０３は、第１文記憶部３０９に記憶されている第１例文を１つ特定する（Ｓ７０３）。第１抽出部６０３は、第１例文からリンクデータを除去する（Ｓ７０５）。そして、第１抽出部６０３は、リンクデータが除去された第１例文に対して形態素解析を行う（Ｓ７０７）。第１抽出部６０３は、形態素解析の結果から、語義判別の手掛りとなる単語を抽出する（Ｓ７０９）。以下では、語義判別の手掛りとなる単語を、単に手掛かりということもある。

図１２に、第１抽出データの例を示す。第１抽出データは、第１例文に対応するレコードを有している。第１抽出データのレコードは、第１例文に含まれる対象単語の語義を設定するためのフィールドと、第１例文に含まれる手掛かりの単語を一又は複数設定するためのフィールドとを有している。この例における手掛かりの単語は、対象単語以外の名詞である。但し、名詞以外の品詞の単語を手掛かりの単語として用いるようにしてもよい。

図１２の例における第１レコードは、文ＩＤ：Ｄ００１の第１例文に含まれる対象単語は、「アメリカ合衆国の政府」の意味で用いられていることを示している。更に、図１２の例における第１レコードは、語義「アメリカ合衆国の政府」を判別する手掛かりとして、文ＩＤ：Ｄ００１の第１例文から「大統領」「現職者」及び「オバマ」の各名詞が抽出されたことを示している。

図１２の例における第２レコードは、文ＩＤ：Ｄ００２の第１例文に含まれる対象単語は、「稲の実」の意味で用いられていることを示している。更に、図１２の例における第２レコードは、語義「稲の実」を判別する手掛かりとして、文ＩＤ：Ｄ００２の第１例文から「酒」「せんべい」「原料」「主食」「以外」及び「用途」の各名詞が抽出されたことを示している。

図１２の例における第３レコードは、文ＩＤ：Ｄ００３の第１例文に含まれる対象単語は、「稲の実」の意味で用いられていることを示している。更に、図１２の例における第３レコードは、語義「稲の実」を判別する手掛かりとして、文ＩＤ：Ｄ００３の第１例文から「焼酎」の名詞が抽出されたことを示している。

図７の説明に戻る。特定部６０７は、定義記憶部３０５に記憶されている定義データに基づいて、Ｓ７０３で特定した第１例文に含まれる対象単語の語義を特定する（Ｓ７１１）。つまり、特定部６０７は、対象単語に付加されているリンクデータに対応する語義を特定する。そして、特定部６０７は、特定した語義を第１抽出データ記憶部６０５に設定する。

そして、第１抽出部６０３は、未処理の第１例文があるか否かを判定する（Ｓ７１３）。未処理の第１例文があると判定した場合には、Ｓ７０３の処理に戻って、上述した処理を繰り返す。

一方、未処理の第１例文がないと判定した場合には、第１学習部６０９は、語義判別器を生成する（Ｓ７１５）。第１学習部６０９は、例えばパーセプトロンを用いた機械学習を行う。本実施の形態では、Ｓ７１５において機械学習を行う処理を第１学習処理という。

語義判別器の入力は、第１抽出データにおける手掛りに対応する。そして、語義判別器の出力に、第１抽出データにおける語義を与えれば、手掛りと語義との関連を示す第１スコアが求められる。第１学習処理によって得られた第１規則データは、第１規則記憶部３１１に記憶される。この例における語義判別器は、第１規則データを有する。

図１３に、第１規則データの例を示す。第１規則データは、語義判定の手掛りとなる単語毎のレコードを有している。第１規則データのレコードは、語義判定の手掛りとなる単語を設定するためのフィールドと、当該単語と各語義との組み合わせに付与された第１スコアを設定するためのフィールドとを有している。

尚、第１スコアは、上記組み合わせに係る手掛りと語義とが関連する度合いを示している。第１スコアが正であれば、上記組み合わせに係る手掛りと語義とが同一文に出現する場合が比較的多いことを示している。つまり、第１スコアが正であれば、上記組み合わせに係る手掛りに基づいて、上記組み合わせに係る語義を選択することについて、肯定的であることを意味する。他方、第１スコアが負であれば、上記組み合わせに係る手掛りと語義とが同一文に出現しない場合が比較的多いことを示している。つまり、第１スコアが負であれば、上記組み合わせに係る手掛りに基づいて、上記組み合わせに係る語義を選択することについて、否定的であることを意味する。

図１３の例における第１レコードは、手掛り「大統領」と語義「アメリカ合衆国の政府」との組み合わせについて第１スコア「１」が付与されたことを示している。更に、図１３の例における第１レコードは、手掛り「大統領」と語義「稲の実」との組み合わせについて第１スコア「−１」が付与されたことを示している。つまり、手掛り「大統領」が出現する文に含まれる対象単語は、「アメリカ合衆国の政府」の意味で用いられている可能性が高く、逆に「稲の実」の意味で用いられている可能性が低いことを示している。

図１３の例における第２レコードは、手掛り「オバマ」と語義「アメリカ合衆国の政府」との組み合わせについて第１スコア「１」が付与されたことを示している。更に、図１３の例における第２レコードは、手掛り「オバマ」と語義「稲の実」との組み合わせについて第１スコア「−１」が付与されたことを示している。つまり、手掛り「オバマ」が出現する文に含まれる対象単語は、「アメリカ合衆国の政府」の意味で用いられている可能性が高く、逆に「稲の実」の意味で用いられている可能性が低いことを示している。

図１３の例における第３レコードは、手掛り「酒」と語義「アメリカ合衆国の政府」との組み合わせについて第１スコア「−１」が付与されたことを示している。更に、図１３の例における第３レコードは、手掛り「酒」と語義「稲の実」との組み合わせについて第１スコア「１」が付与されたことを示している。つまり、手掛り「酒」が出現する文に含まれる対象単語は、「アメリカ合衆国の政府」の意味で用いられている可能性が低く、逆に「稲の実」の意味で用いられている可能性が高いことを示している。

図１３の例における第４レコードは、手掛り「焼酎」と語義「アメリカ合衆国の政府」との組み合わせについて第１スコア「−１」が付与されたことを示している。更に、図１３の例における第４レコードは、手掛り「焼酎」と語義「稲の実」との組み合わせについて第１スコア「１」が付与されたことを示している。つまり、手掛り「焼酎」が出現する文に含まれる対象単語は、「アメリカ合衆国の政府」の意味で用いられている可能性が低く、逆に「稲の実」の意味で用いられている可能性が高いことを示している。

図７に示したＳ７１５における第１学習処理を終えると、図４に示したＳ４０５の処理に移る。

図４の説明に戻る。第２前処理部３１３は、第２前処理を実行する（Ｓ４０５）。第２前処理部３１３は、第２前処理で、第１文記憶部３０９に記憶されている第１例文から生成される第２例文と、第１規則記憶部３１１に記憶されている第１規則データとに基づいて、ラベル判別器を生成するための１回目の機械学習を行う。１回目の機械学習によって求められた第２規則データは、第２規則記憶部３１５に記憶される。

図１４に、第２前処理部３１３のモジュール構成例を示す。第２前処理部３１３は、第１生成部１４０１、第２文記憶部１４０３、第２抽出部１４０５、第２抽出データ記憶部１４０７、第１判別部１４０９、学習データ記憶部１４１１及び第２学習部１４１３を有する。

第１生成部１４０１は、複数の第１例文の各々に含まれるリンクデータを、対象単語を分類するラベルに変換し、対象単語を分類するラベルを含む第２例文を生成する。第２文記憶部１４０３は、複数の第２例文を含む第２例文データを記憶する。第２抽出部１４０５は、複数の第２例文の各々から、語義判定の手掛りとなる単語を抽出する。第２抽出データ記憶部１４０７は、語義判定の手掛りとなる単語をまとめた第２抽出データを記憶する。第１判別部１４０９は、第１規則データに従って、第２例文の各々から抽出した手掛りの単語に基づいて、当該第２例文に含まれる対象単語の語義を判別する。学習データ記憶部１４１１は、学習データを記憶する。第２学習部１４１３は、第２例文における対象単語の語義を定める第１素性と対象単語のラベルとの対応付けに基づいて、ラベルを判別する第２規則を学習する。上述したデータ及び処理の内容については、以下で詳述する。

上述した第１生成部１４０１、第２抽出部１４０５、第１判別部１４０９及び第２学習部１４１３は、ハードウエア資源（例えば、図４２）と、以下で述べる処理をプロセッサに実行させるプログラムとを用いて実現される。

上述した第２文記憶部１４０３、第２抽出データ記憶部１４０７及び学習データ記憶部１４１１は、ハードウエア資源（例えば、図４２）を用いて実現される。

図１５に、第２前処理フローの例を示す。第１生成部１４０１は、第１文記憶部３０９に記憶されている第１例文から、第２例文を生成する（Ｓ１５０１）。生成された第２例文は、第２文記憶部１４０３に記憶される。具体的には、定義記憶部３０５に基づいて、第１例文に含まれるリンクデータを、ラベルを示すタグに変換する。

図１６に、第２例文データの例を示す。第２例文データは、第２例文毎にレコードを設けている。レコードには、文ＩＤに対応付けられた第２例文が格納される。

図１６の例における第１レコードには、図８に示した第１例文データにおける文ＩＤ：Ｄ００１の第１例文から生成された第２例文が設定されている。この例で、「政府」のリンクデータが付加された対象単語が、ラベル「組織」を示すタグが付加された対象単語に変換されている。

図１６の例における第２レコードには、図８に示した第１例文データにおける文ＩＤ：Ｄ００２の第１例文から生成された第２例文が設定されている。この例で、「植物」のリンクデータが付加された対象単語が、ラベル「Ｏ」を示すタグが付加された対象単語に変換されている。

図１６の例における第３レコードには、図８に示した第１例文データにおける文ＩＤ：Ｄ００３の第１例文から生成された第２例文が設定されている。この例で、「植物」のリンクデータが付加された対象単語が、ラベル「Ｏ」を示すタグが付加された対象単語に変換されている。

尚、第１生成部１４０１は、第１例文データに含まれる第１例文のうち、一部の第１例文について第２例文を生成するようにしてもよい。また、第１生成部１４０１は、第１例文から生成した第２例文以外の第２例文を、第２例文データに加えるようにしてもよい。

第２抽出部１４０５は、第２文記憶部１４０３に記憶されている第２例文を１つ特定する（Ｓ１５０３）。第２抽出部１４０５は、特定した第２例文から、タグで示されているラベルを抽出する（Ｓ１５０５）。抽出されたラベルは、第２抽出データ記憶部１４０７に記憶される第２抽出データのレコードに設定される。

図１７に、第２抽出データの例を示す。第２抽出データは、第２例文に対応するレコードを有している。第２抽出データのレコードは、第２例文に含まれる対象単語に付加されているタグが示すラベルを設定するためのフィールドと、第２例文に含まれる手掛かりの単語を設定するためのフィールドとを有している。第２例文に含まれる手掛かりの単語は、第２例文に含まれる対象単語以外の名詞である。

図１７の例における第１レコードでは、文ＩＤ：Ｄ００１の第２例文に含まれる対象単語に付加されているタグから抽出されたラベル「組織」に、文ＩＤ：Ｄ００１の第２例文から抽出された手掛かりの単語「大統領」「現職者」及び「オバマ」が対応付けられている。

図１７の例における第２レコードでは、文ＩＤ：Ｄ００２の第２例文に含まれる対象単語に付加されているタグから抽出されたラベル「Ｏ」に、文ＩＤ：Ｄ００２の第２例文から抽出された手掛かりの単語「酒」「せんべい」「原料」「主食」「以外」及び「用途」が対応付けられている。

図１７の例における第３レコードでは、文ＩＤ：Ｄ００３の第２例文に含まれる対象単語に付加されているタグから抽出されたラベル「Ｏ」に、文ＩＤ：Ｄ００３の第２例文から抽出された手掛かりの単語「焼酎」が対応付けられている。

図１５の説明に戻る。第２抽出部１４０５は、Ｓ１５０３で特定した第２例文からラベルを示すタグを除去する（Ｓ１５０７）。第２抽出部１４０５は、タグが除去された第２例文に対して、形態素解析を行う（Ｓ１５０９）。第２抽出部１４０５は、形態素解析の結果から、語義判定の手掛りとなる単語を抽出する（Ｓ１５１１）。抽出された手掛りとなる単語は、上述した通り第２抽出データのレコードに設定される。

第１判別部１４０９は、第１前処理で生成された語義判別器に第２抽出データを適用することによって、第２例文に含まれる対象単語の語義を判別する（Ｓ１５１３）。本実施の形態では、Ｓ１５１３における語義判別処理を第１判別処理という。

語義判別器の入力は、第２抽出データにおける手掛りに対応し、同じく出力は、語義に対応する。第１判別部１４０９は、第１規則データに従って、各語義に対する第２スコアを算出する。そして、第１判別部１４０９は、第２スコアの値が大きい方の語義を選択する。選択された語義と当該語義の第２スコアは、学習データ記憶部１４１１に記憶される学習データのレコードに設定される。

図１８に、学習データの例を示す。学習データは、第２例文に対応するレコードを有している。第２例文に対応する１つのレコードは、１つの学習サンプルに相当する。学習データのレコードは、上述した第２抽出データの場合と同様に、第２例文に含まれる対象単語に付加されているタグが示すラベルを設定するためのフィールドを有している。更に、学習データのレコードは、語義判別器によって判別された語義を設定するためのフィールドと、当該語義の判別において得られた第２スコアを設定するためのフィールドとを有している。第２スコアは、当該語義の判別に対する重み（評価の確かさ）を示している。

図１８の例における第１レコードでは、文ＩＤ：Ｄ００１の第２例文に含まれる対象単語に付加されているタグから抽出されたラベル「組織」に、当該第２例文の手掛かりに基づいて判別された語義「アメリカ合衆国の政府」と、その判別において得られた第２スコア「２」とが対応付けられている。

図１８の例における第２レコードでは、文ＩＤ：Ｄ００２の第２例文に含まれる対象単語に付加されているタグから抽出されたラベル「Ｏ」に、当該第２例文の手掛かりに基づいて判別された語義「稲の実」と、その判別において得られた第２スコア「３」とが対応付けられている。

図１８の例における第３レコードでは、文ＩＤ：Ｄ００３の第２例文に含まれる対象単語に付加されているタグから抽出されたラベル「Ｏ」に、当該第２例文の手掛かりに基づいて判別された語義「稲の実」と、その判別において得られた第２スコア「２」とが対応付けられている。

図１５の説明に戻る。Ｓ１５１３における第１判別処理を終えると、第２抽出部１４０５は、未処理の第２例文があるか否かを判定する（Ｓ１５１５）。未処理の第２例文があると判定した場合には、Ｓ１５０３の処理に戻って、上述した処理を繰り返す。

一方、未処理の第２例文がないと判定した場合には、第２学習部１４１３は、学習データ記憶部１４１１に記憶されている学習データに基づいて、ラベル判別器を生成する（Ｓ１５１７）。但し、この時点で生成されるラベル判別器は、未完成である。第２学習部１４１３は、例えばパーセプトロンを用いた機械学習を行う。本実施の形態では、Ｓ１５１７において機械学習を行う処理を第２学習処理という。

ラベル判別器の入力は、学習データにおける語義に対応し、同じく出力は、学習データにおけるラベルに対応する。そして、学習データをサンプルデータとして第２ネットワークに与え、誤差逆伝播法によって、語義とラベルとの結合の強さ（結合荷重ということもある。）を示す第３スコアを求める。第３スコアを含む第２規則データは、第２規則記憶部３１５に記憶される。この時点におけるラベル判別器は、第２規則データを有する。尚、第２学習部１４１３は、第２スコアを学習サンプルの重要度として用いて学習するようにしてもよい。

図１９に、第２規則データの例を示す。第２規則データは、対象単語の語義を定める第１素性毎のレコードを有している。尚、第１素性は、対象単語のラベルを判別するための規則に相当する。第２規則データのレコードは、第１素性を設定するためのフィールドと、各ラベルに対する第３スコアを設定するためのフィールドとを有している。

尚、第３スコアは、第１素性とラベルとの関連を示している。第１素性とラベルとの組み合わせに対する第３スコアが正であれば、ある文に含まれる対象単語の語義が第１素性に適合する場合に、当該対象単語に対して当該ラベルを選択することについて、肯定的であることを意味する。他方、第１素性とラベルとの組み合わせに対する第３スコアが負であれば、ある文に含まれる対象単語の語義が第１素性に適合する場合に、当該対象単語に対して当該ラベルを選択することについて、否定的であることを意味する。また、第３スコアの絶対値は、第１素性（つまり、語義）とラベルとの関連の強さを示している。

図１９の例における第１レコードは、対象単語の語義が「アメリカ合衆国の政府」であるという第１素性とラベル「組織」との組み合わせについて、第３スコア「３」が付与されたことを示している。更に、図１９の例における第１レコードは、対象単語の語義が「アメリカ合衆国の政府」であるという第１素性とラベル「Ｏ」との組み合わせについて、第３スコア「−３」が付与されたことを示している。つまり、図１９の例における第１レコードは、「アメリカ合衆国の政府」の意味で対象単語を用いている文において、対象単語に対してラベル「組織」を選択すべきであって、ラベル「Ｏ」を選択すべきでないという傾向を示している。

図１９の例における第２レコードは、対象単語の語義が「稲の実」であるという第１素性とラベル「組織」との組み合わせについて、第３スコア「−３」が付与されたことを示している。更に、図１９の例における第２レコードは、対象単語の語義が「稲の実」であるという第１素性とラベル「Ｏ」との組み合わせについて、第３スコア「３」が付与されたことを示している。つまり、図１９の例における第２レコードは、「稲の実」の意味で対象単語を用いている文において、対象単語にラベル「Ｏ」を付与すべきであって、ラベル「組織」を付与すべきでないという傾向を示している。

図２０に、別の第２規則データの例を示す。図２０の例における第２規則データは、図１９の場合とは反対に、「アメリカ合衆国の政府」の意味で対象単語を用いている文において、対象単語に対してラベル「Ｏ」を選択すべきであって、ラベル「組織」を選択すべきでないという傾向を示している。更に、図２０の例における第２規則データは、「稲の実」の意味で対象単語を用いている文において、対象単語にラベル「組織」を付与すべきであって、ラベル「Ｏ」を付与すべきでないという傾向を示している。このような第２規則データは、正しくラベルを判別するためには、適当でない。第２例文における文脈が、第１例文における文脈に反する場合には、このような第２規則データが生成される場合がある。しかし、本実施の形態のように、第１例文から第２例文を生成すれば、第２例文における文脈が、第１例文における文脈と一致するので、図２０のような不適切な第２規則データは生成され難い。

図１５に示したＳ１５１７における第２学習処理を終えると、図４に示したＳ４０７の処理に移る。

図４の説明に戻る。メイン処理部３１７は、メイン処理を実行する（Ｓ４０７）。メイン処理部３１７は、メイン処理で、第３文記憶部２１０３に記憶される第３例文と、第１規則記憶部３１１に記憶されている第１規則データと、第２規則記憶部３１５に記憶されている第２規則データとに基づいて、ラベル判別器を生成するための２回目の機械学習を行う。２回目の機械学習によって求められた第３規則データは、第３規則記憶部３１９に記憶される。

図２１に、メイン処理部３１７のモジュール構成例を示す。メイン処理部３１７は、第１受付部２１０１、第３文記憶部２１０３、第２生成部２１０５、教師データ記憶部２１０７、第３抽出部２１０９、第３抽出データ記憶部２１１１、第２判別部２１１３及び第３学習部２１１５を有する。

第１受付部２１０１は、ラベルを示すタグが付加された対象単語を含む第３例文を受け付ける。第３文記憶部２１０３は、第３例文データを記憶する。第２生成部２１０５は、第３例文に含まれる対象単語及び対象単語に連なる単語に関する第２素性を生成する。教師データ記憶部２１０７は、教師データを記憶する。第３抽出部２１０９は、複数の第３例文の各々から、語義判定の手掛りとなる単語を抽出する。第３抽出データ記憶部２１１１は、語義判定の手掛りとなる単語をまとめた第３抽出データを記憶する。第２判別部２１１３は、第１規則データに従い、第３抽出データに基づいて、当該第３例文に含まれる対象単語の語義を判別する。第３学習部２１１５は、第３例文に基づく第２素性と、第３例文における語義に関する第３素性と、第３例文におけるラベルと、第２規則データとに基づいて、ラベルを判別する第３規則データを学習する。尚、第３規則データは、第２規則データを基礎として生成される。上述したデータ及び処理の内容については、以下で詳述する。

上述した第１受付部２１０１、第２生成部２１０５、第３抽出部２１０９、第２判別部２１１３及び第３学習部２１１５は、ハードウエア資源（例えば、図４２）と、以下で述べる処理をプロセッサに実行させるプログラムとを用いて実現される。

上述した第３文記憶部２１０３、教師データ記憶部２１０７及び第３抽出データ記憶部２１１１は、ハードウエア資源（例えば、図４２）を用いて実現される。

図２２に、メイン処理フローの例を示す。第１受付部２１０１は、例えば記憶媒体あるいは通信媒体を介して、第３例文を受け付ける（Ｓ２２０１）。受け付けた第３例文は、第３文記憶部２１０３に記憶される。第３例文として、自動的にラベルを判別したい文（以下、適用対象の文という。）と文脈が近似すると想定される文を用いることによって、ラベル判別の精度が高まると期待される。例えば、適用対象の文と同じ分野の文を第３例文として用い、あるいは適用対象の文と同じ筆者の文を第３例文として用いると、好適な学習結果が得られると考えられる。

図２３に、第３例文データの例を示す。第３例文データは、第３例文毎にレコードを設けている。レコードには、文ＩＤに対応付けられた第３例文が格納される。

まず、図２３に示した第３例文データにおける文ＩＤ：Ｄ１０１の第３例文「米は、日本人の主食であって、酒あるいは焼酎の原料として用いられる。」について、図２４を用いて説明する。

文ＩＤ：Ｄ１０１の第３例文は、第１名詞２４０１、第２名詞２４０３、第３名詞２４０５、第４名詞２４０７、第５名詞２４０９及び第６名詞２４１１の６つの名詞を含んでいる。そのうち、第１名詞２４０１は、対象単語である。この例における第１名詞２４０１は、「稲の実」の意味で用いられている。つまり、第１名詞２４０１は、固有表現に該当しない。この例において、固有表現に該当しない場合には、ラベルを示すタグは付されない。但し、固有表現に該当しない場合に、固有表現のタイプに該当しない旨を示すタグ＜Ｏ＞と＜／Ｏ＞が付されるようにしてもよい。

尚、第２名詞２４０３は、図示するように３つの漢字で表される「日本人」である。第３名詞２４０５は、図示するように２つの漢字で表される「主食」である。第４名詞２４０７は、図示するように１つの漢字で表される「酒」である。第５名詞２４０９は、図示するように２つの漢字で表される「焼酎」である。第６名詞２４１１は、図示するように２つの漢字で表される「原料」である。

次に、図２３に示した第３例文データにおける文ＩＤ：Ｄ１０２の第３例文「＜組織＞米＜／組織＞は、日本に大統領の親書を送った。」について、図２５を用いて説明する。

文ＩＤ：Ｄ１０２の第３例文は、第１名詞２５３１、第２名詞２５３３、第３名詞２５３５及び第４名詞２５３７の４つの名詞を含んでいる。そのうち、第１名詞２５３１は、対象単語である。この例における第１名詞２５３１は、「アメリカ合衆国の政府」の意味で用いられている。つまり、第１名詞２５３１は、固有表現に該当する。固有表現に該当する場合には、ラベル（この例では、固有表現のタイプ）を示すタグが付加される。この例では、第１名詞２５３１の１つの漢字に、固有表現のタイプ「組織」を示すタグが付加されている。但し、ラベルを示すデータの形式は、この例に示したタグに限定されない。また、第３例文においてラベルを示すデータは、第２例文においてラベルを示すデータと異なる形式であっても構わない。

図２５の下段は、タグが除去された第３例文を示している。第１名詞２５５１は、上段に示した第１名詞２５３１からタグが除去され、通常の表記となっている。第２名詞２５３３、第３名詞２５３５及び第４名詞２５３７は、上段の場合と同様である。

この例では、対象単語に相当する第１名詞２５５１を除く、第２名詞２５３３、第３名詞２５３５及び第４名詞２５３７が、語義判定の手掛りとなる単語として抽出される。

尚、第２名詞２５３３は、図示するように２つの漢字で表される「日本」である。第３名詞２５３５は、図示するように３つの漢字で表される「大統領」である。第４名詞２５３７は、図示するように２つの漢字で表される「親書」である。

最後に、図２３に示した第３例文データにおける文ＩＤ：Ｄ１０３の第３例文「＜組織＞米＜／組織＞は、日本にオバマ氏の親書を送った。」について、図２６を用いて説明する。

文ＩＤ：Ｄ１０３の第３例文は、第１名詞２６０１、第２名詞２６０３、第３名詞２６０５及び第４名詞２６０７の４つの名詞を含んでいる。そのうち、第１名詞２６０１は、対象単語である。この例における第１名詞２６０１は、「アメリカ合衆国の政府」の意味で用いられている。つまり、第１名詞２６０１は、固有表現に該当する。この例では、図２５の場合と同様に、第１名詞２６０１の１つの漢字に、固有表現のタイプ「組織」を示すタグが付加されている。

図２６の下段は、タグが除去された第３例文を示している。第１名詞２６５１は、上段に示した第１名詞２６０１からタグが除去され、通常の表記となっている。第２名詞２６０３、第３名詞２６０５及び第４名詞２６０７は、上段の場合と同様である。

この例では、対象単語に相当する第１名詞２６５１を除く、第２名詞２６０３、第３名詞２６０５及び第４名詞２６０７が、語義判定の手掛りとなる単語として抽出される。

尚、第２名詞２６０３は、図示するように２つの漢字で表される「日本」である。第３名詞２６０５は、図示するように３つの片仮名文字で表される「オバマ」である。第４名詞２６０７は、図示するように２つの漢字で表される「親書」である。以上で、第３例文についての説明を終える。

図２２の説明に戻る。第２生成部２１０５は、第３文記憶部２１０３に記憶されている第３例文を１つ特定する（Ｓ２２０３）。第２生成部２１０５は、特定した第３例文からラベルを示すタグを除去する（Ｓ２２０５）。第２生成部２１０５は、タグが除去された第３例文に対して、形態素解析を行う（Ｓ２２０７）。形態素解析を終えると、端子Ａを介して、図２７に示したＳ２７０１の処理に移る。

第２生成部２１０５は、形態素解析の結果から、単語を１つ特定する（Ｓ２７０１）。例えば、第２生成部２１０５は、出現順に単語を１つ特定する。第２生成部２１０５は、特定した単語に対するラベルを特定する（Ｓ２７０３）。具体的には、タグが付加されている単語の場合は、当該タグが示すラベルが特定される。タグが付加されていない単語の場合は、ラベル「Ｏ」が割り当てられる。特定されたラベルは、教師データ記憶部２１０７に記憶される教師データのレコードに設定される。

図２８に、教師データの例を示す。教師データは、第３例文の各単語に対応するレコードを有している。この例で、教師データのレコードは、着目する単語のラベルを設定するためのフィールドと、３つの第２素性を設定するためのフィールドと、第３素性を設定するためのフィールドと、第４スコアを設定するためのフィールドとを有している。

第２素性は、着目する単語及び着目する単語に連なる単語を特定する素性である。図２８の例で、Ｗ（０）は、着目する単語を意味する。同様に、Ｗ（１）は、着目する単語の次の単語を意味する。同様に、Ｗ（２）は、着目する単語の２つ後の単語を意味する。尚、３つ以上後の単語を特定する第２素性を用いるようにしてもよい。また、着目する単語の１つ前の単語Ｗ（−１）を特定する第２素性、着目する単語の２つ前の単語Ｗ（−２）を特定する第２素性、あるいは着目する単語の３つ以上前の単語を特定する第２素性を用いるようにしてもよい。また、着目する単語Ｗ（０）を特定する第２素性を省くようにしてもよい。

第３素性は、着目する単語Ｗ（０）の語義を特定する素性である。但し、着目する単語Ｗ（０）が対象単語ではない場合には、第３素性は設定されない。

このように、図２８の例では、３つの第２素性と第３素性からなる素性集合が設定される。

第４スコアは、着目する単語の語義の判別において付与されたスコアである。第４スコアは、当該語義の判別に対する重み（評価の確かさ）を示している。つまり、第４スコアは、上述した第２スコアと同種の値である。

図２８の例における第１レコードは、文ＩＤ：Ｄ１０１の第３例文における１番目の単語に対応するレコードである。つまり、このレコードでは、文ＩＤ：Ｄ１０１の第３例文における１番目の単語に着目している。図２８の例における第１レコードに設定されているラベルは、「Ｏ」であるので、文ＩＤ：Ｄ１０１の第３例文における１番目の単語には、固有名詞のタイプを示すラベルが付与されていないことを示している。また、図２８の例における第１レコードには、着目する単語Ｗ（０）が、文ＩＤ：Ｄ１０１の第３例文における１番目の単語と一致するという第２素性と、着目する単語の次の単語Ｗ（１）が、文ＩＤ：Ｄ１０１の第３例文における２番目の単語と一致するという第２素性と、着目する単語の２つ後の単語Ｗ（２）が、文ＩＤ：Ｄ１０１の第３例文における３番目の単語と一致するという第２素性とが設定されている。更に、図２８の例における第１レコードには、着目する単語Ｗ（０）の語義が「稲の実」であるという第３素性と、着目する単語Ｗ（０）の語義「稲の実」を判定した際に得られた第４スコア「１」が設定されている。

図２８の例における第２レコードは、文ＩＤ：Ｄ１０１の第３例文における２番目の単語に対応するレコードである。つまり、このレコードでは、文ＩＤ：Ｄ１０１の第３例文における２番目の単語に着目している。図２８の例における第２レコードに設定されているラベルは、「Ｏ」であるので、文ＩＤ：Ｄ１０１の第３例文における２番目の単語には、固有名詞のタイプを示すラベルが付与されていないことを示している。また、図２８の例における第２レコードには、着目する単語Ｗ（０）が、文ＩＤ：Ｄ１０１の第３例文における２番目の単語と一致するという第２素性と、着目する単語の次の単語Ｗ（１）が、文ＩＤ：Ｄ１０１の第３例文における３番目の単語と一致するという第２素性と、着目する単語の２つ後の単語Ｗ（２）が、文ＩＤ：Ｄ１０１の第３例文における４番目の単語と一致するという第２素性とが設定されている。文ＩＤ：Ｄ１０１の第３例文における２番目の単語は、対象単語ではないので、第３素性と第４スコアとは、設定されていない。

文ＩＤ：Ｄ１０１の第３例文における３番目以降の単語に対応するレコードについては、説明を省略する。

図２８の例における第３レコードは、文ＩＤ：Ｄ１０２の第３例文における１番目の単語に対応するレコードである。つまり、このレコードでは、文ＩＤ：Ｄ１０２の第３例文における１番目の単語に着目している。図２８の例における第３レコードは、文ＩＤ：Ｄ１０２の第３例文における１番目の単語に固有名詞のタイプ「組織」を示すラベルが付与されていることを示している。また、図２８の例における第３レコードには、着目する単語Ｗ（０）が、文ＩＤ：Ｄ１０２の第３例文における１番目の単語と一致するという第２素性と、着目する単語の次の単語Ｗ（１）が、文ＩＤ：Ｄ１０２の第３例文における２番目の単語と一致するという第２素性と、着目する単語の２つ後の単語Ｗ（２）が、文ＩＤ：Ｄ１０２の第３例文における３番目の単語と一致するという第２素性とが設定されている。更に、図２８の例における第３レコードには、着目する単語Ｗ（０）の語義が「アメリカ合衆国の政府」であるという第３素性と、着目する単語Ｗ（０）の語義「アメリカ合衆国の政府」を判定した際に得られた第４スコア「１」が設定されている。

文ＩＤ：Ｄ１０２の第３例文における２番目以降の単語に対応するレコードについては、説明を省略する。

図２８の例における第４レコードは、文ＩＤ：Ｄ１０３の第３例文における１番目の単語に対応するレコードである。つまり、このレコードでは、文ＩＤ：Ｄ１０３の第３例文における１番目の単語に着目している。図２８の例における第４レコードは、文ＩＤ：Ｄ１０３の第３例文における１番目の単語に固有名詞のタイプ「組織」を示すラベルが付与されていることを示している。また、図２８の例における第４レコードには、着目する単語Ｗ（０）が、文ＩＤ：Ｄ１０３の第３例文における１番目の単語と一致するという第２素性と、着目する単語の次の単語Ｗ（１）が、文ＩＤ：Ｄ１０３の第３例文における２番目の単語と一致するという第２素性と、着目する単語の２つ後の単語Ｗ（２）が、文ＩＤ：Ｄ１０３の第３例文における３番目の単語と一致するという第２素性とが設定されている。更に、図２８の例における第４レコードには、着目する単語Ｗ（０）の語義が「アメリカ合衆国の政府」であるという第３素性と、着目する単語Ｗ（０）の語義「アメリカ合衆国の政府」を判定した際に得られた第４スコア「２」が設定されている。

文ＩＤ：Ｄ１０３の第３例文における２番目以降の単語に対応するレコードについては、説明を省略する。

図２７の説明に戻る。第２生成部２１０５は、特定した単語及び連なる単語を特定する第２素性を生成する（Ｓ２７０５）。上述したように、第２素性は、着目する単語に対する位置関係と、その位置における単語自体との対応付けによって定められる。

第３抽出部２１０９は、Ｓ２７０１において特定した単語が、対象単語であるか否かを判定する（Ｓ２７０７）。Ｓ２７０１において特定した単語が、対象単語ではないと判定した場合には、語義判定を行わないので、そのままＳ２７１３の処理に移る。

Ｓ２７０１において特定した単語が、対象単語であると判定した場合には、第３抽出部２１０９は、形態素解析の結果から、語義判定の手掛りとなる単語を抽出する（Ｓ２７０９）。第３例文に含まれる手掛かりの単語は、第３例文に含まれる対象単語以外の名詞である。手掛りとなる単語は、第３抽出データ記憶部２１１１に記憶される第３抽出データのレコードに設定される。

図２９に、第３抽出データの例を示す。第３抽出データは、第３例文に対応するレコードを有している。第３抽出データのレコードは、第３例文に含まれる手掛かりの単語を設定するためのフィールドを有している。

図２９の例における第１レコードには、文ＩＤ：Ｄ１０１の第３例文から抽出された手掛かりの単語「日本人」「主食」「酒」「焼酎」及び「原料」が設定されている。

図２９の例における第２レコードには、文ＩＤ：Ｄ１０２の第３例文から抽出された手掛かりの単語「日本」「大統領」及び「親書」が設定されている。

図２９の例における第３レコードには、文ＩＤ：Ｄ１０３の第３例文から抽出された手掛かりの単語「日本」「オバマ」及び「親書」が設定されている。

図２７の説明に戻る。第２判別部２１１３は、第１前処理で生成された語義判別器に第３抽出データを適用することによって、Ｓ２２０３で特定した第３例文に含まれる対象単語の語義を判別する（Ｓ２７１１）。本実施の形態では、Ｓ２７１１における語義判別処理を第２判別処理という。

語義判別器の入力は、第３抽出データにおける手掛りに対応し、同じく出力は、語義に対応する。第２判別部２１１３は、第１規則データに従って、各語義に対する第４スコアを算出する。第４スコアは、語義に対する評価値に相当する。そして、第２判別部２１１３は、第４スコアの値が大きい方の語義を選択する。選択された語義は、第３素性として教師データ記憶部２１０７に記憶される教師データのレコードに設定される。また、選択された語義の第４スコアも、教師データ記憶部２１０７に記憶される教師データのレコードに設定される。

図２７の説明に戻る。第２生成部２１０５は、未処理の単語があるか否かを判定する（Ｓ２７１３）。未処理の単語があると判定した場合には、Ｓ２７０１に戻って、上述した処理を繰り返す。

一方、未処理の単語がないと判定した場合には、第２生成部２１０５は、未処理の第３例文があるか否かを判定する（Ｓ２７１５）。未処理の第３例文があると判定した場合には、端子Ｂを介して、図２２に示したＳ２２０３の処理に戻って、上述した処理を繰り返す。

一方、未処理の第３例文がないと判定した場合には、第３学習部２１１５は、図１５のＳ１５１７の第２学習処理で生成されたラベル判別器を更新する（Ｓ２７１７）。このとき、第３学習部２１１５は、例えばパーセプトロンを用いた機械学習を行う。本実施の形態では、Ｓ２７１７において機械学習を行う処理を第３学習処理という。

ラベル判別器の入力は、教師データにおける素性集合（この例では、３つの第２素性と第３素性）に対応し、同じく出力は、教師データにおけるラベルに対応する。また、第２学習処理で得られた第２規則データが、初期値として用いられる。具体的には、第３学習部２１１５は、第２規則データにおける第１素性とラベルとの組み合わせに係る第３スコアを、第３素性とラベルとの結合の強さに設定する。そして、教師データをサンプルデータとして、素性集合に含まれる各素性とラベルとの結合の強さを示す第５スコアを求める。第５スコアを含む第３規則データは、第３規則記憶部３１９に記憶される。この例で、完成したラベル判別器は、第３規則データを有する。尚、第３学習部２１１５は、第４スコアを第３素性に関する教師サンプルの重要度として用いて学習するようにしてもよい。

図３０に、第３規則データの例を示す。第３規則データは、対象単語のラベルを判別するための規則毎のレコードを有している。対象単語のラベルを判別するための規則は、図２８に示した教師データの素性集合に含まれる素性、つまり第２素性又は第３素性に相当する。第３規則データのレコードは、対象単語のラベルを判別するための規則を設定するためのフィールドと、対象単語の各ラベルに対する第５スコアを設定するためのフィールドとを有している。

尚、第５スコアは、規則とラベルとの関連を示している。規則とラベルとの組み合わせに対する第５スコアが正であれば、ある文に含まれる対象単語に着目したときに当該規則に適合した場合に、当該文における対象単語に対して当該ラベルを選択することについて、肯定的であることを意味する。他方、規則とラベルとの組み合わせに対する第５スコアが負であれば、ある文に含まれる対象単語に着目したときに当該規則に適合した場合に、当該文における対象単語に対して当該ラベルを選択することについて、否定的であることを意味する。また、第５スコアの絶対値は、規則とラベルとの関連の強さを示している。

図３０の例における第１レコードは、対象単語の語義が「アメリカ合衆国の政府」であるという規則とラベル「組織」との組み合わせについて、第５スコア「３」が付与されたことを示している。更に、図３０の例における第１レコードは、対象単語の語義が「アメリカ合衆国の政府」であるという規則とラベル「Ｏ」との組み合わせについて、第５スコア「−３」が付与されたことを示している。つまり、図３０の例における第１レコードは、「アメリカ合衆国の政府」の意味で対象単語を用いている文において、対象単語に対してラベル「組織」を選択すべきであって、ラベル「Ｏ」を選択すべきでないという傾向を示している。

図３０の例における第２レコードは、対象単語の語義が「稲の実」であるという規則とラベル「組織」との組み合わせについて、第５スコア「−３」が付与されたことを示している。更に、図３０の例における第２レコードは、対象単語の語義が「稲の実」であるという規則とラベル「Ｏ」との組み合わせについて、第５スコア「３」が付与されたことを示している。つまり、図３０の例における第２レコードは、「稲の実」の意味で対象単語を用いている文において、対象単語に対してラベル「Ｏ」を選択すべきであって、ラベル「組織」を選択すべきでないという傾向を示している。

図３０の例における第３レコードの規則は、例えば図２８に示した第１レコードにおける１番目の第２素性に相当する。図３０の例における第３レコードは、当該規則とラベル「組織」との組み合わせについて、第５スコア「２」が付与されたことを示している。更に、図３０の例における第３レコードは、当該規則とラベル「Ｏ」との組み合わせについて、第５スコア「−２」が付与されたことを示している。つまり、図３０の例における第３レコードは、着目する単語Ｗ（０）が、例えば図２４の第１名詞２４０１に示した漢字１つの名詞「米」と一致する場合には、対象単語に対してラベル「組織」を選択すべきであって、ラベル「Ｏ」を選択すべきでないという傾向を示している。

図３０の例における第４レコードの規則は、例えば図２８に示した第１レコードにおける２番目の第２素性に相当する。図３０の例における第４レコードは、当該規則とラベル「組織」との組み合わせについて、第５スコア「２」が付与されたことを示している。更に、図３０の例における第４レコードは、当該規則とラベル「Ｏ」との組み合わせについて、第５スコア「−２」が付与されたことを示している。つまり、図３０の例における第４レコードは、着目する単語の次の単語Ｗ（１）が、例えば図２４で２番目に示した平仮名文字１つの助詞と一致する場合には、対象単語に対してラベル「組織」を選択すべきであって、ラベル「Ｏ」を選択すべきでないという傾向を示している。

図３０の例における第５レコードの規則は、例えば図２８に示した第３レコードにおける３番目の第２素性に相当する。図３０の例における第５レコードは、当該規則とラベル「組織」との組み合わせについて、第５スコア「１」が付与されたことを示している。更に、図３０の例における第５レコードは、当該規則とラベル「Ｏ」との組み合わせについて、第５スコア「−１」が付与されたことを示している。つまり、図３０の例における第５レコードは、着目する単語の２つ後の単語Ｗ（２）が、例えば図２５の第２名詞２５３３に示した漢字２つの名詞「日本」と一致する場合には、対象単語に対してラベル「組織」を選択すべきであって、ラベル「Ｏ」を選択すべきでないという傾向を示している。

図３０の例における第６レコードの規則は、例えば図２８に示した第１レコードにおける３番目の第２素性に相当する。図３０の例における第６レコードは、当該規則とラベル「組織」との組み合わせについて、第５スコア「−４」が付与されたことを示している。更に、図３０の例における第６レコードは、当該規則とラベル「Ｏ」との組み合わせについて、第５スコア「４」が付与されたことを示している。つまり、図３０の例における第６レコードは、着目する単語の２つ後の単語Ｗ（２）が、例えば図２４の第２名詞２４０３に示した漢字３つの名詞「日本人」と一致する場合には、対象単語に対してラベル「Ｏ」を選択すべきであって、ラベル「組織」を選択すべきでないという傾向を示している。

ここで、図３１に、第３例文データの別の例を示す。図３１に示した第３例文データにおける文ＩＤ：Ｄ２０１の第３例文「米が、大統領に贈られる。」について、図３２を用いて説明する。

文ＩＤ：Ｄ２０１の第３例文は、第１名詞３２０１及び第２名詞３２０３の２つの名詞を含んでいる。そのうち、第１名詞３２０１は、対象単語である。この例における第１名詞３２０１は、「稲の実」の意味で用いられている。つまり、第１名詞３２０１は、固有表現に該当しない。従って、ラベルを示すタグは付加されない。

尚、第２名詞３２０３は、図示するように３つの漢字で表される「大統領」である。

図３３に、図３１に示した文ＩＤ：Ｄ２０１の第３例文に基づいて生成される教師データの例を示す。図３３の例における第１レコードは、文ＩＤ：Ｄ２０１の第３例文における１番目の単語に対応するレコードである。つまり、このレコードでは、文ＩＤ：Ｄ２０１の第３例文における１番目の単語に着目している。図３３の例における第１レコードに設定されているラベルは、「Ｏ」であるので、文ＩＤ：Ｄ２０１の第３例文における１番目の単語には、固有名詞のタイプを示すラベルが付与されていないことを示している。また、図３３の例における第１レコードには、着目する単語Ｗ（０）が、文ＩＤ：Ｄ２０１の第３例文における１番目の単語と一致するという第２素性と、着目する単語の次の単語Ｗ（１）が、文ＩＤ：Ｄ２０１の第３例文における２番目の単語と一致するという第２素性と、着目する単語の２つ後の単語Ｗ（２）が、文ＩＤ：Ｄ２０１の第３例文における３番目の単語と一致するという第２素性とが設定されている。

更に、図３３の例における第１レコードには、着目する単語Ｗ（０）の語義が「アメリカ合衆国の政府」であるという第３素性と、着目する単語Ｗ（０）の語義「アメリカ合衆国の政府」を判定した際に得られた第４スコア「１」が設定されている。

図３３の例における第１レコードでは、ラベル（「Ｏ」）と第３素性（語義＝「アメリカ合衆国の政府」）とが内容的に整合していない。第３例文における文脈が、語義判別器を生成する際の基礎となった第１例文における文脈に反する場合には、図３１乃至図３３を用いて上述した例のように、誤った語義判別結果を含む教師データが生成されることがある。そして、教師データの量自体が足りなければ、誤った語義判別結果の影響を受けやすい。従って、誤った語義判別結果が与えられても正しく判別する理想的な規則データを学習することは難しい。しかし、本実施の形態では、自動的に生成された多くの学習データから得られた第２規則データ（図１９）を基礎として教師データによる学習を行うので、誤った語義判別結果の影響を受け難い。

尚、図３３の例における第２レコードは、文ＩＤ：Ｄ２０１の第３例文における２番目の単語に対応するレコードであるが、その説明は省略する。

図４に示したように、Ｓ４０７におけるメイン処理を終えると、学習装置３０１の処理も終える。以上で学習装置３０１についての説明を終える。

次に、判別装置について説明する。判別装置は、適用対象の文に含まれる対象単語のラベルを自動的に判別するコンピュータである。図３４に、判別装置３４０１のモジュール構成例を示す。判別装置３４０１は、第１規則記憶部３１１、第３規則記憶部３１９及び適用部３４０３を有する。

第１規則記憶部３１１は、学習装置３０１において生成された第１規則データを記憶している。第３規則記憶部３１９は、学習装置３０１において生成された第３規則データを記憶している。

また、適用部３４０３は、第２受付部３４０５、第４文記憶部３４０７、第３生成部３４０９、第４抽出部３４１１、第４抽出データ記憶部３４１３、第３判別部３４１５、適用データ記憶部３４１７、第４判別部３４１９、結果データ記憶部３４２１、第４生成部３４２３、第５文記憶部３４２５及び出力部３４２７を有する。

適用部３４０３は、適用対象の文にラベル判別器を適用する。第２受付部３４０５は、対象単語を含む適用対象の文を受け付ける。第４文記憶部３４０７は、適用対象の文を記憶する。第３生成部３４０９は、適用対象の文に含まれる対象単語又は対象単語に連なる単語に関する第４素性を生成する。第４抽出部３４１１は、適用対象の文から、語義判定の手掛りとなる単語を抽出する。第４抽出データ記憶部３４１３は、語義判定の手掛りとなる単語をまとめた第４抽出データを記憶する。第３判別部３４１５は、第１規則データに従い、第４抽出データに基づいて、適用対象の文に含まれる対象単語の語義を判別する。適用データ記憶部３４１７は、適用対象の文に基づく適用データを記憶する。第４判別部３４１９は、第３規則データに従って、適用データに基づいて、適用対象の文に含まれる対象単語のラベルを判別する。結果データ記憶部３４２１は、判別したラベルを含む結果データを記憶する。第４生成部３４２３は、適用対象の文にラベルを付加して、出力文を生成する。第５文記憶部３４２５は、出力文を記憶する。出力部３４２７は、出力文を出力する。上述したデータ及び処理の内容については、以下で詳述する。

上述した判別装置３４０１、適用部３４０３、第２受付部３４０５、第３生成部３４０９、第４抽出部３４１１、第３判別部３４１５、第４判別部３４１９、第４生成部３４２３及び出力部３４２７は、ハードウエア資源（例えば、図４２）と、以下で述べる処理をプロセッサに実行させるプログラムとを用いて実現される。

上述した第１規則記憶部３１１、第３規則記憶部３１９、第４文記憶部３４０７、第４抽出データ記憶部３４１３、適用データ記憶部３４１７、結果データ記憶部３４２１及び第５文記憶部３４２５は、ハードウエア資源（例えば、図４２）を用いて実現される。

図３５に、適用処理フローの例を示す。第２受付部３４０５は、例えば記憶媒体、通信媒体あるいは入力装置を介して、適用対象の文を受け付ける（Ｓ３５０１）。受け付けた適用対象の文は、第４文記憶部３４０７に記憶される。１つの適用対象の文は、１つの適用事例に相当する。

図３６に、対象文データの例を示す。対象文データは、適用対象の文毎にレコードを設けている。レコードには、文ＩＤに対応付けて適用対象の文が格納される。

図３６の例における第１レコードに格納されている適用対象の文「米は、日本の主食であって、酒の製造に使われる。」（文ＩＤ：Ｄ３０１）は、図２の上段に示した文と同じである。

図３６の例における第２レコードに格納されている適用対象の文「米は、日本人と交流する大統領の写真を公開した。」（文ＩＤ：Ｄ３０２）は、図１の上段に示した文と同じである。

図３５の説明に戻る。第３生成部３４０９は、第４文記憶部３４０７に記憶されている適用対象の文を１つ特定する（Ｓ３５０２）。第３生成部３４０９は、特定した適用対象の文に対して、形態素解析を行う（Ｓ３５０３）。

第３生成部３４０９は、形態素解析の結果から、対象単語又は対象単語に連なる単語を特定する第４素性を生成する（Ｓ３５０５）。第４素性は、教師データにおける第２素性に対応する。この例で、第３生成部３４０９は、対象単語に着目して、対象単語Ｗ（Ｏ）を特定する第４素性と、対象単語の次の単語Ｗ（１）を特定する第４素性と、対象単語の２つ後の単語Ｗ（２）を特定する第４素性とを生成する。第３生成部３４０９は、生成した第４素性を、適用データ記憶部３４１７に記憶される適用データのレコードに設定する。

図３７に、適用データの例を示す。適用データは、適用対象の文の各単語に対応するレコードを有している。但し、この例では、対象単語に着目し、対象単語以外の単語に対応するレコードは省略する。この例で、適用データのレコードは、適用対象の文のＩＤを設定するためのフィールドと、着目する単語を設定するためのフィールドと、３つの第４素性を設定するためのフィールドと、第５素性を設定するためのフィールドと、第６スコアを設定するためのフィールドとを有している。

第４素性は、上述したように、着目する単語又は着目する単語に連なる単語を特定する素性である。また、３つの第４素性は、図２８に示した教師データにおける３つの第２素性に対応する。

第５素性は、着目する単語の語義を特定する素性である。但し、着目する単語が対象単語ではない場合には、第５素性は設定されない。つまり、第５素性は、図２８に示した教師データにおける第３素性に対応する。

このように、図３７の例では、３つの第４素性と第５素性からなる素性集合が設定される。

第６スコアは、着目する単語の語義を判別する際に付与されたスコアである。第６スコアは、当該語義の判別に対する重み（評価の確かさ）を示している。つまり、第６スコアは、図２８に示した教師データにおける第４スコアに対応する。

図３７の例における第１レコードは、文ＩＤ：Ｄ３０１の適用対象の文における１番目の単語に対応するレコードである。つまり、このレコードでは、文ＩＤ：Ｄ３０１の適用対象の文における１番目の単語に着目している。図３７の例における第１レコードには、着目する単語Ｗ（０）が、文ＩＤ：Ｄ３０１の適用対象の文における１番目の単語と一致するという第４素性と、着目する単語の次の単語Ｗ（１）が、文ＩＤ：Ｄ３０１の適用対象の文における２番目の単語と一致するという第４素性と、着目する単語の２つ後の単語Ｗ（２）が、文ＩＤ：Ｄ３０１の適用対象の文における３番目の単語と一致するという第４素性とが設定されている。更に、図３７の例における第１レコードには、着目する単語Ｗ（０）の語義が「稲の実」であるという第５素性と、着目する単語Ｗ（０）の語義「稲の実」を判定した際に得られた第６スコア「２」が設定されている。

図３７の例における第２レコードは、文ＩＤ：Ｄ３０２の適用対象の文における１番目の単語に対応するレコードである。つまり、このレコードでは、文ＩＤ：Ｄ３０２の適用対象の文における１番目の単語に着目している。図３７の例における第２レコードには、着目する単語Ｗ（０）が、文ＩＤ：Ｄ３０２の適用対象の文における１番目の単語と一致するという第４素性と、着目する単語の次の単語Ｗ（１）が、文ＩＤ：Ｄ３０２の適用対象の文における２番目の単語と一致するという第４素性と、着目する単語の２つ後の単語Ｗ（２）が、文ＩＤ：Ｄ３０２の適用対象の文における３番目の単語と一致するという第４素性とが設定されている。更に、図３７の例における第２レコードには、着目する単語Ｗ（０）の語義が「アメリカ合衆国の政府」であるという第５素性と、着目する単語Ｗ（０）の語義「アメリカ合衆国の政府」を判定した際に得られた第６スコア「１」が設定されている。

図３５の説明に戻る。第４抽出部３４１１は、形態素解析の結果から、語義判定の手掛りとなる単語を抽出する（Ｓ３５０７）。適用対象の文に含まれる手掛かりの単語は、適用対象の文に含まれる対象単語以外の名詞である。手掛りとなる単語は、第４抽出データ記憶部３４１３に記憶される第４抽出データのレコードに設定される。

図３８に、第４抽出データの例を示す。第４抽出データは、適用対象の文に対応するレコードを有している。第４抽出データのレコードは、適用対象の文に含まれる手掛かりの単語を設定するためのフィールドを有している。適用対象の文に含まれる手掛かりの単語は、適用対象の文に含まれる対象単語以外の名詞である。

図３８の例における第１レコードには、文ＩＤ：Ｄ３０１の適用対象の文から抽出された手掛かりの単語「日本」「主食」「酒」及び「製造」が設定されている。

図３８の例における第２レコードには、文ＩＤ：Ｄ３０２の適用対象の文から抽出された手掛かりの単語「日本人」「大統領」及び「写真」が設定されている。

図３５の説明に戻る。第３判別部３４１５は、学習装置３０１によって生成された語義判別器に第４抽出データを適用することによって、Ｓ３５０２で特定した適用対象の文に含まれる対象単語の語義を判別する（Ｓ３５０９）。本実施の形態では、Ｓ３５０９における語義判別処理を第３判別処理という。

語義判別器の入力は、第４抽出データにおける手掛りに対応し、同じく出力は、語義に対応する。第３判別部３４１５は、第１規則データに従って、各語義に対する第６スコアを算出する。そして、第３判別部３４１５は、第６スコアの値が大きい方の語義を選択する。選択された語義は、第５素性として適用データ記憶部３４１７に記憶される適用データのレコードに設定される。選択された語義の第６スコアも、適用データ記憶部３４１７に記憶される適用データのレコードに設定される。

第４判別部３４１９は、学習装置３０１によって生成されたラベル判別器に適用データを適用することによって、Ｓ３５０２で特定した適用対象の文に含まれる対象単語のラベルを判別する（Ｓ３５１１）。本実施の形態では、Ｓ３５１１におけるラベル判別処理を第４判別処理という。

ラベル判別器の入力は、適用データにおける素性集合（この例では、３つの第４素性と第５素性）に対応し、同じく出力は、ラベルに対応する。第４判別部３４１９は、第３規則データに従って、各ラベルに対する第７スコアを算出する。単純には、適用データのレコード毎に、第４素性及び第５素性のうち、該当した素性に割り当てられている第５スコア（図３０の第３規則データ参照）を合計することによって、第７スコアが算出される。また、第５素性に該当する場合には、第４判別部３４１９は、第５素性に対応する第６スコアを第５スコアに乗じて、得られた積を加算するようにしてもよい。つまり、第４判別部３４１９は、第６スコアを各適用事例における第５素性の重要度として用いるようにしてもよい。

算出された各ラベルに対する第７スコアは、結果データ記憶部３４２１に記憶される結果データのレコードに設定される。そして、第４判別部３４１９は、第７スコアの値が大きい方のラベルを選択する。選択されたラベルも、結果データ記憶部３４２１に記憶される結果データのレコードに設定される。

図３９に、結果データの例を示す。結果データは、適用対象の文の各単語に対応するレコードを有している。但し、この例では、対象単語に着目し、対象単語以外の単語に対応するレコードは省略する。この例で、結果データのレコードは、文ＩＤを設定するためのフィールドと、着目する単語を設定するためのフィールドと、各ラベルに対して付与された第７スコアを設定するためのフィールドと、選択されたラベルを設定するためのフィールドとを有している。

図３９の例における第１レコードは、文ＩＤ：Ｄ３０１の適用対象の文に含まれる対象単語に着目した場合に、ラベル「組織」に対して第７スコア「−１」が付与され、ラベル「Ｏ」に対して第７スコア「１」が付与されたことを示している。そして、第７スコアの値が大きい方のラベル「Ｏ」が選択されたことを示している。

図３９の例における第２レコードは、文ＩＤ：Ｄ３０２の適用対象の文に含まれる対象単語に着目した場合に、ラベル「組織」に対して第７スコア「３」が付与され、ラベル「Ｏ」に対して第７スコア「−３」が付与されたことを示している。そして、第７スコアの値が大きい方のラベル「組織」が選択されたことを示している。

図３５の説明に戻る。第４生成部３４２３は、出力文を生成する（Ｓ３５１３）。具体的には、Ｓ３５０２において特定した適用対象の文に含まれる対象単語のラベルが、「組織」であれば、対象単語に固有表現のタイプ「組織」を示すタグが付加される。一方、Ｓ３５０２において特定した適用対象の文に含まれる対象単語のラベルが、「Ｏ」であれば、タグは付加されない。但し、固有表現のタイプに該当しない旨を示すタグ＜Ｏ＞と＜／Ｏ＞が付加されるようにしてもよい。

図４０に、出力データの例を示す。出力データは、出力文毎にレコードを有している。図４０の例における第１レコードには、文ＩＤ：Ｄ３０１の適用対象の文に対応する出力文が格納されている。文ＩＤ：Ｄ３０１の適用対象の文に対応する出力文は、図２の下段に示した文と同じである。

図４０の例における第２レコードには、文ＩＤ：Ｄ３０２の適用対象の文に対応する出力文が格納されている。文ＩＤ：Ｄ３０２の適用対象の文に対応する出力文は、図１の下段に示した文と同じである。

図３５の説明に戻る。第３生成部３４０９は、未処理の適用対象の文があるか否かを判定する（Ｓ３５１４）。未処理の適用対象の文があると判定した場合には、Ｓ３５０２の処理に戻って、上述した処理を繰り返す。

一方、未処理の適用対象の文がないと判定した場合には、出力部３４２７は、出力文を出力する（Ｓ３５１５）。出力の形態は、例えば記録媒体への書込み、表示あるいは送信などである。

本実施の形態によれば、自ら判別する対象単語の語義に基づき、複数の語義を有する単語をより正しくタイプ分類する規則が得られる。第２規則データの基礎となる第２例文は、第１規則データの基礎となる第１例文と文脈が共通するので、第２規則データにおいて矛盾が生じにくい面がある。更に、第２規則データを規則データ（結合荷重）の初期値として用いるので、語義に基づくラベル判別の規則が正しく維持されやすい面がある。

更に、第２判別処理（図２７：Ｓ２７１１）において判別の基準となった語義の評価値を、第３学習処理（図２７：Ｓ２７１７）において、学習における当該語義の重要度として用いるので、語義判別の確からしさを、ラベルの判別に反映できる。

更に、Ｗｅｂサイトから第１例文を取得するので、標準的な第１規則データを得やすい。

更に、固有表現におけるタイプを判別するので、固有表現に係る単語を特定することに役立つ。

［実施の形態２］
上述した実施の形態では、学習装置３０１とは別に判別装置３４０１を設ける例を示したが、学習装置３０１が判別装置３４０１を兼ねるようにしてもよい。

図４１は、実施の形態２に係る学習装置３０１のモジュール構成例を示す図である。この例では、実施の形態１に係る判別装置３４０１に設けられていた適用部３４０３が、学習装置３０１に設けられている。

適用部３４０３の構成及び処理は、実施の形態１の場合と同様である。

本実施の形態によれば、適用部３４０３を有するので、学習装置３０１において複数の語義を有する単語をより正しくタイプに分類できる。

以上、固有表現のタイプ「組織」を例として説明したが、「人名」や「地名」など他のタイプについても、「組織」の場合と同様である。また、固有表現のタイプは、ラベルによって区別される単語のタイプについての一例である。

単語のタイプは、品詞であってもよい。つまり、ラベルによって品詞を区別するようにしてもよい。

単語のタイプは、読み方（例えば、音読みと訓読み）であってもよい。つまり、ラベルによって読み方を区別するようにしてもよい。

更に、単語のタイプは、単語のイントネーション、発音あるいはアクセントであってもよい。つまり、ラベルによってイントネーション、発音あるいはアクセントを区別するようにしてもよい。

以上、日本語による適用例を示したが、本実施の形態を他の言語に適用してもよい。例えば、中国語、スペイン語、英語、アラビア語あるいはヒンディー語などに適用してもよい。

以上本発明の実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上述の機能ブロック構成はプログラムモジュール構成に一致しない場合もある。

また、上で説明した各記憶領域の構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ、処理の順番を入れ替えることや複数の処理を並列に実行させるようにしても良い。

なお、上で述べた学習装置３０１及び判別装置３４０１は、コンピュータ装置であって、図４２に示すように、メモリ２５０１とＣＰＵ（Central Processing Unit）２５０３とハードディスク・ドライブ（ＨＤＤ：Hard Disk Drive）２５０５と表示装置２５０９に接続される表示制御部２５０７とリムーバブル・ディスク２５１１用のドライブ装置２５１３と入力装置２５１５とネットワークに接続するための通信制御部２５１７とがバス２５１９で接続されている。オペレーティング・システム（ＯＳ：Operating System）及び本実施例における処理を実施するためのアプリケーション・プログラムは、ＨＤＤ２５０５に格納されており、ＣＰＵ２５０３により実行される際にはＨＤＤ２５０５からメモリ２５０１に読み出される。ＣＰＵ２５０３は、アプリケーション・プログラムの処理内容に応じて表示制御部２５０７、通信制御部２５１７、ドライブ装置２５１３を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ２５０１に格納されるが、ＨＤＤ２５０５に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク２５１１に格納されて頒布され、ドライブ装置２５１３からＨＤＤ２５０５にインストールされる。インターネットなどのネットワーク及び通信制御部２５１７を経由して、ＨＤＤ２５０５にインストールされる場合もある。このようなコンピュータ装置は、上で述べたＣＰＵ２５０３、メモリ２５０１などのハードウエアとＯＳ及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。

以上述べた本発明の実施の形態をまとめると、以下のようになる。

本実施の形態に係る学習装置は、複数の語義を有し且つ複数のタイプに分類される対象単語について、当該タイプを判別する規則を学習する。また、上記学習装置は、対象単語の語義を判別する第１規則を、対象単語と当該対象単語の語義を特定する第１データとを含む第１例文に基づいて学習する第１学習部と、第１例文と文脈が共通し、且つ対象単語と当該対象単語のタイプを特定する第２データとを含む第２例文における当該対象単語の語義を、第１規則に従って判別する第１判別部と、タイプを判別する第２規則を、第２例文における語義と、第２データにより特定されるタイプとの対応に基づいて学習する第２学習部と、対象単語と当該対象単語のタイプを特定する第３データとを含む第３例文における当該対象単語の語義を、第１規則に従って判別する第２判別部と、タイプを判別する第３規則を、第２規則を初期値として用い、第３例文における語義と第３例文とに基づいて学習する第３学習部とを有する。

このようにすれば、自ら判別する対象単語の語義に基づき、複数の語義を有する単語をより正しくタイプ分類する規則が得られる。第２規則の基礎となる第２例文は、第１規則の基礎となる第１例文と文脈が共通するので、第２規則において矛盾が生じにくい面がある。更に、第２規則を初期値として用いるので、語義に基づくタイプ判別の規則が正しく維持されやすい面がある。

上記学習装置は、対象単語を含む適用対象の文における当該対象単語の語義を、第１規則に従って判別する第３判別部を有するようにしてもよい。更に、上記学習装置は、判別した語義と適用対象の文とに基づいて、第３規則に従って適用対象の文における上記タイプを判別する第４判別部を有するようにしてもよい。

このようにすれば、学習装置において、複数の語義を有する単語をより正しくタイプに分類できる。

上記第３学習部は、上記第２判別部における判別の基準となった語義の評価値を、学習における当該語義の重要度として用いるようにしてもよい。

このようにすれば、語義判別の確からしさを、タイプの判別に反映できる。

上記学習装置は、Ｗｅｂサイトから、第１例文を取得する取得部を有するようにしてもよい。

このようにすれば、標準的な第１規則を得やすい。

上記複数のタイプは、固有表現における１つのタイプを含んでもよい。

このようにすれば、固有表現に係る単語を特定することに役立つ。

なお、上で述べた学習装置における処理をコンピュータに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、ＣＤ−ＲＯＭ、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納されるようにしてもよい。尚、中間的な処理結果は、一般的にメインメモリ等の記憶装置に一時保管される。

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）
複数の語義を有し且つ複数のタイプに分類される対象単語について、当該タイプを判別する規則を学習する学習装置であって、
対象単語の語義を判別する第１規則を、対象単語と当該対象単語の語義を特定する第１データとを含む第１例文に基づいて学習する第１学習部と、
前記第１例文と文脈が共通し、且つ対象単語と当該対象単語のタイプを特定する第２データとを含む第２例文における当該対象単語の語義を、前記第１規則に従って判別する第１判別部と、
前記タイプを判別する第２規則を、前記第２例文における前記語義と、前記第２データにより特定される前記タイプとの対応に基づいて学習する第２学習部と、
対象単語と当該対象単語の前記タイプを特定する第３データとを含む第３例文における当該対象単語の語義を、前記第１規則に従って判別する第２判別部と、
前記タイプを判別する第３規則を、前記第２規則を初期値として用い、前記第３例文における前記語義と前記第３例文とに基づいて学習する第３学習部と
を有する学習装置。

（付記２）
更に、
対象単語を含む適用対象の文における当該対象単語の語義を、前記第１規則に従って判別する第３判別部と、
判別した前記語義と前記適用対象の文とに基づいて、前記第３規則に従って前記適用対象の文における前記タイプを判別する第４判別部と
を有する付記１記載の学習装置。

（付記３）
前記第３学習部は、前記第２判別部における判別の基準となった前記語義の評価値を、学習における当該語義の重要度として用いる
付記１又は２記載の学習装置。

（付記４）
更に、
Ｗｅｂサイトから、第１例文を取得する取得部
を有する付記１乃至３のいずれか１つ記載の学習装置。

（付記５）
前記複数のタイプは、固有表現における１つのタイプを含む
付記１乃至４のいずれか１つ記載の学習装置。

（付記６）
複数の語義を有し且つ複数のタイプに分類される対象単語について、当該タイプを判別する規則を学習する学習方法であって、
対象単語の語義を判別する第１規則を、対象単語と当該対象単語の語義を特定する第１データとを含む第１例文に基づいて学習し、
前記第１例文と文脈が共通し、且つ対象単語と当該対象単語のタイプを特定する第２データとを含む第２例文における当該対象単語の語義を、前記第１規則に従って判別し、
前記タイプを判別する第２規則を、前記第２例文における前記語義と、前記第２データにより特定される前記タイプとの対応に基づいて学習し、
対象単語と当該対象単語の前記タイプを特定する第３データとを含む第３例文における当該対象単語の語義を、前記第１規則に従って判別し、
前記タイプを判別する第３規則を、前記第２規則を初期値として用い、前記第３例文における前記語義と前記第３例文とに基づいて学習する
処理を含み、コンピュータにより実行される学習方法。

（付記７）
複数の語義を有し且つ複数のタイプに分類される対象単語について、当該タイプを判別する規則を学習する学習方法を、コンピュータに実行させるための学習プログラムであって、
前記学習方法は、
対象単語の語義を判別する第１規則を、対象単語と当該対象単語の語義を特定する第１データとを含む第１例文に基づいて学習し、
前記第１例文と文脈が共通し、且つ対象単語と当該対象単語のタイプを特定する第２データとを含む第２例文における当該対象単語の語義を、前記第１規則に従って判別し、
前記タイプを判別する第２規則を、前記第２例文における前記語義と、前記第２データにより特定される前記タイプとの対応に基づいて学習し、
対象単語と当該対象単語の前記タイプを特定する第３データとを含む第３例文における当該対象単語の語義を、前記第１規則に従って判別し、
前記タイプを判別する第３規則を、前記第２規則を初期値として用い、前記第３例文における前記語義と前記第３例文とに基づいて学習する
処理を含む、学習プログラム。

３０１学習装置３０３設定部
３０５定義記憶部３０７第１前処理部
３０９第１文記憶部３１１第１規則記憶部
３１３第２前処理部３１５第２規則記憶部
３１７メイン処理部３１９第３規則記憶部
６０１取得部６０３第１抽出部
６０５第１抽出データ記憶部６０７特定部
６０９第１学習部１４０１第１生成部
１４０３第２文記憶部１４０５第２抽出部
１４０７第２抽出データ記憶部１４０９第１判別部
１４１１学習データ記憶部１４１３第２学習部
２１０１第１受付部２１０３第３文記憶部
２１０５第２生成部２１０７教師データ記憶部
２１０９第３抽出部２１１１第３抽出データ記憶部
２１１３第２判別部２１１５第３学習部
３４０１判別装置３４０３適用部
３４０５第２受付部３４０７第４文記憶部
３４０９第３生成部３４１１第４抽出部
３４１３第４抽出データ記憶部３４１５第３判別部
３４１７適用データ記憶部３４１９第４判別部
３４２１結果データ記憶部３４２３第４生成部
３４２５第５文記憶部３４２７出力部

Claims

複数の語義を有し且つ複数のタイプに分類される対象単語について、当該タイプを判別する規則を学習する学習装置であって、
対象単語の語義を判別する第１規則を、対象単語と当該対象単語の語義を特定する第１データとを含む第１例文に基づいて学習する第１学習部と、
前記第１例文と文脈が共通し、且つ対象単語と当該対象単語のタイプを特定する第２データとを含む第２例文における当該対象単語の語義を、前記第１規則に従って判別する第１判別部と、
前記タイプを判別する第２規則を、前記第２例文における前記語義と、前記第２データにより特定される前記タイプとの対応に基づいて学習する第２学習部と、
対象単語と当該対象単語の前記タイプを特定する第３データとを含む第３例文における当該対象単語の語義を、前記第１規則に従って判別する第２判別部と、
前記タイプを判別する第３規則を、前記第２規則を初期値として用い、前記第３例文における前記語義と前記第３例文とに基づいて学習する第３学習部と
を有する学習装置。
更に、
対象単語を含む適用対象の文における当該対象単語の語義を、前記第１規則に従って判別する第３判別部と、
判別した前記語義と前記適用対象の文とに基づいて、前記第３規則に従って前記適用対象の文における前記タイプを判別する第４判別部と
を有する請求項１記載の学習装置。
前記第３学習部は、前記第２判別部における判別の基準となった前記語義の評価値を、学習における当該語義の重要度として用いる
請求項１又は２記載の学習装置。
複数の語義を有し且つ複数のタイプに分類される対象単語について、当該タイプを判別する規則を学習する学習方法であって、
対象単語の語義を判別する第１規則を、対象単語と当該対象単語の語義を特定する第１データとを含む第１例文に基づいて学習し、
前記第１例文と文脈が共通し、且つ対象単語と当該対象単語のタイプを特定する第２データとを含む第２例文における当該対象単語の語義を、前記第１規則に従って判別し、
前記タイプを判別する第２規則を、前記第２例文における前記語義と、前記第２データにより特定される前記タイプとの対応に基づいて学習し、
対象単語と当該対象単語の前記タイプを特定する第３データとを含む第３例文における当該対象単語の語義を、前記第１規則に従って判別し、
前記タイプを判別する第３規則を、前記第２規則を初期値として用い、前記第３例文における前記語義と前記第３例文とに基づいて学習する
処理を含み、コンピュータにより実行される学習方法。
複数の語義を有し且つ複数のタイプに分類される対象単語について、当該タイプを判別する規則を学習する学習方法を、コンピュータに実行させるための学習プログラムであって、
前記学習方法は、
対象単語の語義を判別する第１規則を、対象単語と当該対象単語の語義を特定する第１データとを含む第１例文に基づいて学習し、
前記第１例文と文脈が共通し、且つ対象単語と当該対象単語のタイプを特定する第２データとを含む第２例文における当該対象単語の語義を、前記第１規則に従って判別し、
前記タイプを判別する第２規則を、前記第２例文における前記語義と、前記第２データにより特定される前記タイプとの対応に基づいて学習し、
対象単語と当該対象単語の前記タイプを特定する第３データとを含む第３例文における当該対象単語の語義を、前記第１規則に従って判別し、
前記タイプを判別する第３規則を、前記第２規則を初期値として用い、前記第３例文における前記語義と前記第３例文とに基づいて学習する
処理を含む、学習プログラム。