JP5254888B2

JP5254888B2 - 言語資源情報生成装置、方法、プログラム、および記録媒体

Info

Publication number: JP5254888B2
Application number: JP2009136699A
Authority: JP
Inventors: 早苗藤田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-06-05
Filing date: 2009-06-05
Publication date: 2013-08-07
Anticipated expiration: 2029-06-05
Also published as: JP2010282517A

Description

本発明は、自然言語処理技術に関し、特に自然言語からなる入力データから、辞書やシソーラスなどの言語資源で用いる言語資源情報を生成する言語資源生成技術に関する。

自然言語処理技術は、現在、情報検索システム、評判分析システム、機械翻訳システム、質問応答システム、自動要約システム、固有名詞抽出システムなど、様々なシステムで利用されており、近年におけるＷｅｂやコンピュータの著しい普及により、ますますその重要性が高まってきている。

こうした自然言語処理技術では、様々な言語資源を、知識源や学習データとして用いている。言語資源には、辞書やシソーラス、コーパスなど様々なものが存在する。シソーラスとは、語を意味によって分類したものである。語（語義）は無数に存在するため、全ての語や語義を網羅する言語資源の構築は難しい。そこで、限られた言語資源を用いて、効率的でロバストな処理を実現するため、同じような意味を持つ語の集合を意味クラスとして分類し、意味クラス同士の関係をシソーラスで定義して利用することが、一般的である。

語（語義）に対して正確な意味クラスが付与されている、いわゆる品質精度のよい言語資源（辞書やシソーラスなど）を得るには、人手による作成が望ましいが、作成に要する作業量が膨大となるため、人手で作成するにはコストと人手と時間が非常にかかる。特に、自然言語においては、新語、造語、流行語、外来語など、次々と様々な語が出現する。さらに、人名や作品名、番組名などの固有名詞に至っては無数に存在し、日々新たに発生している。
したがって、このような言語資源に追加すべき全ての対象語について、見出語とその意味クラスとの対応関係を示す言語資源情報を、常時、人手で収集し続けることは困難であるため、なるべく人手を介さず自動的に、あるいは半自動的に言語資源情報を生成することが望まれる。

言語資源情報の生成方法としては、Ｗｅｂ上の文書などの電子化文書（コーパス）を利用する方法がある。この際、どこからどこまでがひと塊の語なのかという判断が難しい。特に、日本語の場合、英語のように単語境界がはっきりしている言語とは異なり、文章が語ごとに分割されていないため、対象語として扱う範囲や登録すべき範囲の選定が難しい。

この問題に対しては、既知の方法として、形態素解析などの自然言語解析技術を用いて、未知語となる部分を字種別にまとめて対象語と見なす、などの方法がある。しかし、この方法は、対象語の抽出には有効であるが、意味クラスなど、複雑で高度な情報を対象語に付与するという言語資源情報の生成には向かない。
そこで、Ｗｅｂ上の辞書などを利用して、対象語に関する言語資源情報の生成を行おうという試みがなされている。

Ｗｅｂ上の文書などの電子化文書（コーパス）を利用して、対象語に関する言語資源情報を生成する技術として、例えば非特許文献１や非特許文献２がある。
非特許文献１では、Ｗｅｂ辞書を利用して、単語間の関連度が強いかどうか、という関係付けをしたものをシソーラスと呼んでいる。また、非特許文献２では、Ｗｅｂ辞書を構成する記事（コーパス）内のリスト構造などを利用して、リストアップされている語の固有表現クラスを推定している。

中山浩太郎,原隆浩, and 西尾章治郎. Wikipediaマイニングによるシソーラス辞書の構築手法. 情報処理学会論文誌, 47(10):2917-2928, 10 2006. Yotaro Watanabe, Masayuki Asahara, and Yuji Matsumoto. A graph-based approach to named entity categorization in wikipedia using conditional random fields. In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning: EMNLP-CoNLL-2007, pages 649-657, 2007.

しかしながら、このような従来技術では、Ｗｅｂ上の文書などの電子化文書（コーパス）から、対象語に関する分類や意味を含む言語資源情報を生成する際、機械学習に基づいて電子化文書からローカルな意味的集合を抽出して各対象語を分類することにより、言語資源情報を生成しているため、意味クラスの推定に用いる既知の学習用データが少ない場合、学習用データと言語資源情報を獲得する入力データとが分野やタイプにおいて異なる場合、付与すべき意味分野のクラス数が多い場合には、生成した言語資源情報の品質精度が低いという問題点があった。

対象語に関する言語資源情報を生成して、既存辞書やシソーラスなどの言語資源を拡張するには、新たに生成する言語資源情報の内容が、既存の辞書やシソーラスとコンセンサスが取れていなければならない。したがって、言語資源情報を生成する際、既知語のデータを学習データ（正解データ）として、対象語の意味クラスを推定することが必要とされる。

これに対して、非特許文献１では、Ｗｅｂ辞書を利用し、単語間の関連度が強いかどうか、という関係付けをしたものをシソーラスと呼んでいるが、ここでいうシソーラスとは、自然言語処理で広く用いられている既存シソーラスとは別個のものであり、単語間の関連度により抽出したローカルな分類に過ぎない。また、非特許文献１では、対象語に関する同義語や多義語の抽出が行われているものの、既存シソーラスのように、ある観点による体系だったシソーラスへのマッピングのような整合処理については行われていない。

一方、非特許文献２では、Ｗｅｂ辞書に記載されている記事（コーパス）内のリスト構造などのフォーマットを利用して、リストアップされている対象語の固有表現クラスを推定し、リンク先に記事が存在する場合には、その記事も利用している。しかし、非特許文献２での分類は、高々１３種程度のクラスへの分類のみであり、既存シソーラスなどのような数千クラスへの分類には対応できていない。

また、非特許文献２のようにコーパスを利用して自動的に拡張する方法では、記事（コーパス）内のフォーマットを利用した機械学習であるため、Ｗｅｂなどから獲得したデータのように、共通したフォーマットを持たないフリー表現からなる入力データの場合、語の区切りの判定が難しい。このため、このようなデータからは、精度よく対象語の意味クラスを特定できないことから、複雑な意味情報を付与するのが難しく、膨大な意味クラスを持つ既存の辞書やシソーラスとのコンセンサスを保持するのは難しい。

さらに、非特許文献２によれば、前述のような機械学習を行っているため、学習データが少ない場合や、学習に利用できるデータ（訓練データ）と、新語を獲得するためのデータ（テストデータ）の分野やタイプが異なる場合には、十分な精度を出すことができない。実際に、新語が含まれるテキストデータは、既存のテキストデータとはタイプが異なる場合が多い。また、分類したい意味クラスの数が多くなればなるほど、機械学習による付与は難しくなるという問題がある。

本発明はこのような課題を解決するためのものであり、Ｗｅｂ上の文書などの電子化文書に基づいて、高い品質精度の言語資源情報を生成することができる言語資源情報生成技術を提供することを目的としている。

このような目的を達成するために、本発明にかかる言語資源情報生成装置は、自然言語からなる入力データに含まれる対象語に対して、シソーラスに記述されている意味クラスのうちから、当該対象語の意味分類を示す意味クラスを選択して付与することにより、当該対象語に関する言語資源情報を生成する言語資源情報生成装置であって、入力データから当該対象語の意味内容を示す文字情報を特徴量として抽出する特徴量抽出部と、意味クラス制限情報データベースに登録されている意味クラス制限条件を参照し、対象語の特徴量に基づいて当該対象語が持つ意味の大分類を特定することにより、シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限する意味クラス制限部と、意味クラス推定情報データベースに登録されている意味クラス推定条件を参照し、対象語の大分類と対応する意味クラスごとに、当該対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値をそれぞれ算出し、これら評価値に基づいて当該対象語との関係度合いが最も大きい意味クラスを、当該対象語に付与する意味クラスとして選択する意味クラス選択部と、意味クラス共起情報データベースに登録されている、シソーラスに記述されている各意味クラス間の共起確率を参照して、意味クラス選択部で選択された意味クラスと他の意味クラスとの間の共起確率を取得し、閾値以上の共起確率を持つ他の意味クラスを当該対象語の意味クラスとして追加する整合性調整部とを備えている。

また、本発明にかかる他の言語資源情報生成装置は、自然言語からなる入力データに含まれる対象語に対して、シソーラスに記述されている意味クラスのうちから、当該対象語の意味分類を示す意味クラスを選択して付与することにより、当該対象語に関する言語資源情報を生成する言語資源情報生成装置であって、入力データから当該対象語の意味内容を示す文字情報を特徴量として抽出する特徴量抽出部と、意味クラス制限情報データベースに登録されている意味クラス制限条件を参照し、対象語の特徴量に基づいて当該対象語が持つ意味の大分類を特定することにより、シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限する意味クラス制限部と、意味クラス推定情報データベースに登録されている意味クラス推定条件を参照し、対象語の大分類と対応する意味クラスごとに、当該対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値をそれぞれ算出し、これら評価値に基づいて当該対象語との関係度合いが最も大きい意味クラスを、当該対象語に付与する意味クラスとして選択する意味クラス選択部と、対象語に付与された意味クラスおよび特徴量に基づき、対象語ごとに当該対象語の上位語を階層的に抽出し、これら対象語の上位語に関する階層構造に基づきシソーラスの意味クラスを細分化する意味クラス細分化部をと備えている。

また、本発明にかかる言語資源情報生成方法は、自然言語からなる入力データに含まれる対象語に対して、シソーラスに記述されている意味クラスのうちから、当該対象語の意味分類を示す意味クラスを選択して付与することにより、当該対象語に関する言語資源情報を生成する言語資源情報生成装置で用いられる言語資源情報生成方法であって、特徴量抽出部が、入力データから当該対象語の意味内容を示す文字情報を特徴量として抽出する特徴量抽出ステップと、意味クラス制限部が、意味クラス制限情報データベースに登録されている意味クラス制限条件を参照し、対象語の特徴量に基づいて当該対象語が持つ意味の大分類を特定することにより、シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限する意味クラス制限ステップと、意味クラス選択部が、意味クラス推定情報データベースに登録されている意味クラス推定条件を参照し、対象語の大分類と対応する意味クラスごとに、当該対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値をそれぞれ算出し、これら評価値に基づいて当該対象語との関係度合いが最も大きい意味クラスを、当該対象語に付与する意味クラスとして選択する意味クラス選択ステップと、整合性調整部が、意味クラス共起情報データベースに登録されている、シソーラスに記述されている各意味クラス間の共起確率を参照して、意味クラス選択部で選択された意味クラスと他の意味クラスとの間の共起確率を取得し、閾値以上の共起確率を持つ他の意味クラスを当該対象語の意味クラスとして追加する整合性調整ステップとを備えている。

また、本発明にかかる他の言語資源情報生成方法は、自然言語からなる入力データに含まれる対象語に対して、シソーラスに記述されている意味クラスのうちから、当該対象語の意味分類を示す意味クラスを選択して付与することにより、当該対象語に関する言語資源情報を生成する言語資源情報生成装置で用いられる言語資源情報生成方法であって、特徴量抽出部が、入力データから当該対象語の意味内容を示す文字情報を特徴量として抽出する特徴量抽出ステップと、意味クラス制限部が、意味クラス制限情報データベースに登録されている意味クラス制限条件を参照し、対象語の特徴量に基づいて当該対象語が持つ意味の大分類を特定することにより、シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限する意味クラス制限ステップと、意味クラス選択部が、意味クラス推定情報データベースに登録されている意味クラス推定条件を参照し、対象語の大分類と対応する意味クラスごとに、当該対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値をそれぞれ算出し、これら評価値に基づいて当該対象語との関係度合いが最も大きい意味クラスを、当該対象語に付与する意味クラスとして選択する意味クラス選択ステップと、意味クラス細分化部が、対象語に付与された意味クラスおよび特徴量に基づき、対象語ごとに当該対象語の上位語を階層的に抽出し、これら対象語の上位語に関する階層構造に基づきシソーラスの意味クラスを細分化する意味クラス細分化ステップとを備えている。

また、本発明にかかるプログラムは、コンピュータに、前述した言語資源情報生成方法の各ステップを実行させるためのプログラムである。
また、本発明にかかる記録媒体は、上記プログラムが記録された記録媒体である。

本発明によれば、多くの意味クラスのうちから、対象語に付与する意味クラスを予め絞り込むことができ、結果として意味クラスの推定精度を向上させることができる。
したがって、本実施の形態によれば、数千の意味クラスを持つ既存シソーラスに対しても、極めて正確に対象語をマッピングすることができ、Ｗｅｂ上の文書などの電子化文書に基づいて、高い品質精度の言語資源情報を生成することが可能となる。

本発明の第１の実施の形態にかかる言語資源情報生成装置の構成を示すブロック図である。本発明の第１の実施の形態にかかる言語資源情報生成装置の要部を示すブロック図である。辞書の構成例である。シソーラスの構成例である。入力データの構成例である。対象語獲得条件の構成例である。図５の入力データからの対象語獲得例である。入力データの他の構成例である。図８の入力データからの対象語獲得例である。入力データの他の構成例である。図１０の入力データからの他の対象語獲得例である。図１０の入力データからの他の対象語獲得例（つづき）である。入力データの他の構成例である。入力データの他の構成例である。入力データの他の構成例である。上位語の抽出例である。特徴量の抽出例である。特徴量の他の抽出例である。特徴量の抽出リスト例である。特徴量の抽出リスト例（つづき）である。意味クラス制限条件の構成例である。意味制限の獲得例である。意味クラス制限条件の他の構成例である。意味クラス推定条件の構成例である。意味クラスごとのスコア計算例である。意味クラス選択結果である。言語資源情報の構成例である。本発明の第２の実施の形態にかかる言語資源情報生成装置の要部を示すブロック図である。意味クラス共起情報の構成例である。本発明の第３の実施の形態にかかる言語資源情報生成装置の要部を示すブロック図である。シソーラス作成結果である。言語資源情報の他の構成例である。

次に、本発明の実施の形態について図面を参照して説明する。
［第１の実施の形態］
まず、図１を参照して、本発明の第１の実施の形態にかかる言語資源情報生成装置について説明する。図１は、本発明の第１の実施の形態にかかる言語資源情報生成装置の構成を示すブロック図である。
この言語資源情報生成装置１００は、全体としてサーバーやパーソナルコンピュータなどの情報処理装置からなり、自然言語データからなる入力データＸから、新語、造語、流行語、外来語などの対象語を選択し、当該対象語に対して意味クラスを付与することにより、言語資源情報生成を生成する機能を有している。

図１に示すように、言語資源情報生成装置１００には、主な機能部として、一般的な情報処理装置と同様に、演算処理部１、記憶部２、入出力インターフェース部３（以下、入出力１／Ｆ部３という）、通信インターフェース部４（以下、通信１／Ｆ部４という）、操作入力部５、および画面表示部６が設けられている。

演算処理部１は、ＣＰＵなどのマイクロプロセッサとその周辺回路からなり、記憶部２に格納されているプログラムを読み出して実行することにより、上記ハードウェアとプログラムとを協動させて各種処理部を実現する。
演算処理部１で実現される主な処理部としては、対象語獲得部１１、特徴量抽出部１２、意味クラス選択部１４、意味クラス細分化部１６がある。

記憶部２は、ハードディスクやメモリなどの記憶装置からなり、演算処理部１で実行するプログラム２４や言語資源情報の生成に用いる各種処理情報を記憶する。プログラム２４は、予め、入出力１／Ｆ部３を介して記録媒体Ｍから読み込まれ、あるいは、通信１／Ｆ部４を介して外部装置（図示せず）から読み込まれ、記憶部２に格納される。

記憶部２で記憶する主な情報としては、辞書２１、シソーラス２２、処理情報ＤＢ２３がある。
辞書２１には、言語資源情報による更新対象となる、１つ以上の単語辞書が格納されている。これら単語辞書には、少なくとも語とこの語の意味に対応する概念を表す意味クラスを含む言語資源情報が複数記述されている。
シソーラス２２には、１つ以上のシソーラスやオントロジーが格納されており、これらシソーラスやオントロジーには、少なくとも単語や意味クラス間の関係が記述されている。但し、これら辞書２１とシソーラス２２は一体化して構成してもよい。

処理情報ＤＢ２３には、演算処理部１における言語資源情報生成処理で用いられる各種の処理情報がデータベース（ＤＢ）として登録されている。この処理情報ＤＢ２３には、主な処理情報として、対象語獲得情報ＤＢ２３Ａ、意味クラス制限情報ＤＢ２３Ｂ、および意味クラス推定情報ＤＢ２３Ｃが登録されている。

対象語獲得情報ＤＢ２３Ａは、入力データＸから対象語を獲得するためのルールなどの対象語獲得条件を記憶するデータベースである。
意味クラス制限情報ＤＢ２３Ｂは、対象語に関する特徴量に基づいて、対象語に対して付与する意味クラスの種類を制限するためのルールや重みなどの意味クラス制限条件を記憶するデータベースである。
意味クラス推定情報ＤＢ２３Ｃは、対象語に関する特徴量に基づいて、対象語に対して意味クラスを付与するためのルールや重みなどの意味クラス推定条件を記憶するデータベースである。

入出力１／Ｆ部３は、専用のデータ入出力回路からなり、ＣＤやＤＶＤ、さらには不揮発性メモリカードなどの記録媒体Ｍとの間で、演算処理部１からの指示に応じて、入力データＸ、言語資源情報Ｙ、辞書、データベースなどの各種データやプログラム２４を入出力する機能を有している。
通信１／Ｆ部４は、専用のデータ入出力回路からなり、ＬＡＮなどの通信回線を介して接続されたサーバーなどの外部装置との間で、演算処理部１からの指示に応じて、入力データＸ、言語資源情報Ｙ、辞書、データベースなどの各種データやプログラム２４を入出力する機能を有している。

操作入力部５は、キーボードやマウスなどの操作入力装置からなり、オペレーターの操作を検出して演算処理部１へ出力する機能を有している。
画面表示部６は、ＬＤＣやＰＣＰなどの画面表示装置からなり、演算処理部１からの指示に応じて入力データＸや言語資源情報Ｙなどの各種データや操作画面を画面表示する機能を有している。

図２は、本発明の第１の実施の形態にかかる言語資源情報生成装置の要部を示すブロック図である。
対象語獲得部１１は、Ｗｅｂ辞書などから獲得した入力データＸを、記憶部２、入出力１／Ｆ部３、通信１／Ｆ部４、操作入力部５などから受け取って、既存の辞書２１に登録すべき対象語を獲得する機能を有している。
特徴量抽出部１２は、対象語獲得部１１で獲得した対象語の意味内容を示す文字情報からなる特徴量（特徴情報）を入力データＸから抽出する機能を有している。

意味クラス制限部１３は、意味クラス制限情報ＤＢ２３Ｂに登録されている意味クラス制限条件を参照し、対象語の特徴量に基づいて当該対象語に付与する意味クラスの大分類を特定することにより、シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限する機能を有している。

意味クラス選択部１４は、意味クラス推定情報ＤＢ２３Ｃに登録されている意味クラス推定条件を参照し、意味クラス制限部１３で特定した対象語の大分類に含まれる意味クラスごとに、当該対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値をそれぞれ算出する機能と、これら評価値に基づいて当該対象語との関係度合いが最も大きい意味クラスを、当該対象語に付与する意味クラスとして選択する機能とを有している。

言語資源情報出力部１５は、意味クラス選択部１４で選択した各対象語の意味クラスを当該対象語にそれぞれ付与した言語資源情報Ｙを、記憶部２、入出力１／Ｆ部３、通信１／Ｆ部４、または画面表示部６へ出力する機能と、この言語資源情報Ｙにより記憶部２の辞書２１やシソーラス２２を更新する機能とを有している。

［第１の実施の形態の動作］
次に、図２を参照して、本発明の第１の実施の形態にかかる言語資源情報生成装置１００の動作について説明する。ここでは、処理対象となる自然言語を日本語とする。但し、対象自然言語については、英語、中国語、スペイン語、ドイツ語、フランス語など、日本語以外の言語でもよい。

図３は、辞書の構成例である。
記憶部２の辞書２１は、見出語ごとにその意味クラスが記述された辞書からなり、例えば対象自然言語を日本語とすると、日本語語彙大系（池原悟,宮崎雅弘,白井諭,横尾昭男,中岩浩巳,小倉健太郎,大山芳史,and 林良彦. 日本語語彙大系. 岩波書店, 1997.）の日本語辞書、ＥＤＲ日本語単語辞書（情報通信機構. EDR電子化辞書日本語単語辞書(改訂版), 2007.）、分類語彙表（国立国語研究所. 分類語彙表CD-ROM(増補改訂版). 大日本図書,2004.）などの既存の辞書が存在する。

図３に示すように、辞書２１に格納される辞書の情報は、見出語と対応する意味クラスだけでなく、品詞情報や、各見出語の語義を定義した定義文、さらには他言語の対訳情報などが付与されていてもよい。例えば、見出語と意味クラスだけでなく、語義ごとの定義文が付与された辞書としては、Ｌｅｘｅｅｄ（笠原要,佐藤浩史,Francis Bond,田中貴秋,藤田早苗,金杉友子,and 天野昭成.「基本語意味データベース:lexeed」の構築. In 2004-NLC-159, pages 75-82, 2004.）や、他言語の対訳情報が付与された辞書としては上記日本語語彙大系の対訳辞書などがある。

また、辞書２１に格納される辞書は１つである必要はなく、複数の辞書を格納してもよい。同じシソーラスに準拠する意味クラスを付与された辞書であれば、統一的に扱うことができるため、例えば前述したＬｅｘｅｅｄと日本語語彙大系を両方格納することが考えられる。

図４は、シソーラスの構成例である。
記憶部２のシソーラス２２には、対象自然言語のシソーラスとして、辞書２１に格納された辞書の意味クラス同士の意味関係が記述されている。シソーラス２２は、対象自然言語を日本語とすると、例えば、辞書２１に対応するシソーラスとしては、前述した日本語語彙大系、ＥＤＲ概念辞書、分類語彙表のほか、檜オントロジー（Francis Bond, Eric Nichols, Sanae Fujita, and Takaaki Tanaka. Acquiring an ontology for a fundamental vocabulary. In Proceedings of the 20th International Conference on Computational Linguistics: COLING-2004, pages 1319-1325, Geneva, 2004.）などの既存のシソーラスが存在する。

但し、シソーラス２２に格納されるシソーラスは１つである必要はなく、複数のシソーラスを格納してもよく、例えば前述した檜オントロジーと日本語語彙大系を両方格納することが考えられる。また、辞書とシソーラスは一体化されていてもよい。

図５は、入力データの構成例である。
入力データＸは、対象自然言語を日本語とすると、例えば、「○○とは、××である。」「○○は、××のことである。」「○○は、××の一種である。」「○○（××のこと）」のような、少なくとも、語とその定義を示す内容を含んでいる。
図５では、入力データＸを区別するために、便宜的にＩＤを付与しているが、ＩＤは必ずしも必要ではない。また、ここではＩＤとして数字を利用しているが、必ずしも数字のみである必要はなく、文字や文字と数字の混合やアルファベット、記号など、数字以外の文字情報を用いてもよい。

図６は、対象語獲得条件の構成例である。
ここでは、入力データＸから対象語を獲得するための対象語獲得条件が、文型を検索する文型検索パターンと当該文型の所定文字位置から得られる見出語および当該見出語に関する定義とからなるルールで構成されており、対象語獲得情報ＤＢ２３Ａに格納されている。
例えば、「○○とは、××である。」という文型については、○○部分の文字が見出語に相当し、××部分の文字が見出語に関する定義に相当することが規定されている。
ここで、○○の部分に（△△）が含まれ、△△が平仮名やカタカナなら読み、英語なら英訳、それ以外なら正式名称や別名、□□：××という形式なら、××は□□で指定されたもの、のようにルールを付加し、より多くの情報を獲得することもできる。

図７は、図５の入力データからの対象語獲得例である。
前述した図６に示したような対象語獲得条件を適用した場合、図５の入力データから図７のような対象語が獲得できる。例えば、図５の最初の例であれば、入力データＸが、「ダルビッシュ有（だるびっしゅゆう、正式氏名：ダルビッシュセファット・ファリード・有）は、北海道日本ハムファイターズに所属するプロ野球選手（投手）である。」という自然言語データ（テキストデータ）となる。この場合、対象語獲得部１１は、入力データＸを受け取って、例えば図６の最初のルールに基づき、見出語「ダルビッシュ有」を対象語として獲得する。

また、図６の対象語獲得条件に加えて、（△△）が含まれ、△△が平仮名ならば読みである、というルールを適用すれば、読み「だるびっしゅゆう」も獲得できる。さらに、「正式氏名：ダルビッシュセファット・ファリード・有」から、正式氏名として、「ダルビッシュセファット・ファリード・有」を獲得することもできる。このほか、「メジャー」のように、対象語がカタカナや平仮名の場合、それ自身を読みとして扱うこともできる。また、読みに曖昧性のない漢字の場合も、その読みをそのまま読みとして利用できる。

ここまでは、対象語獲得情報ＤＢ２３Ａに登録される対象語獲得条件として、図６のような、字面に基づくルールを用いる場合について説明したが、既知の技術である、形態素解析器やチャンカー、構文解析器を実行し、主語らしき部分を対象語として獲得するようなルールを用いてもよい。また、字面に基づくルールと、形態素解析器やチャンカー、構文解析器の実行結果を利用するルールの両方を用いてもよい。

形態素解析器について、対象自然言語を日本語とすると、例えば、茶笙（http://chasen-legacy.sourcefbrge,jp/）や、ＪＵＭＡＮ（http://nlp.kuee.kyoto-u.ac.jp/nl-resource/juman.html）などがある。
チャンカーについては、対象自然言語を日本語とすると、例えば、ＹａｍＣｈａ（http://chasen.org/taku/software/yamcha/）などがある。
構文解析器については、対象自然言語を日本語とすると、例えば、ＫＮＰ（http://nlp.kuee.kyoto-u.ac.jp/nl-resource/knp.html）や、ＣａｂｏＣｈａ（http://chasen.org/taku/software/cabocha/）などがある。

また、図５のような入力データを獲得できる言語資源としては、Ｗｉｋｉｐｅｄｉａ（http:/ja.wikipedia.org/wiki/）のようなＷｅｂ辞書や、電子化辞書、オンライン辞書がある。また、辞書としてまとまっていなくても、Ｗｅｂ中の用語の解説などを抽出し、入力データとしてもよい。この際、図６のようなルールを、Ｗｅｂデータやコーパスから抽出するためのルールとして利用し、図６のようなルールに当てはまる文章を入力データとして抽出してもよい。

図８は、入力データの他の構成例である。
入力データＸが、Ｗｅｂ辞書や電子化辞書のように辞書形式の場合、一般的には、予め多くの見出語が登録されている。図８のように、入力データＸの見出語に（△△）が含まれる場合、分野や詳細化情報などを示すルールを生成し、対象語獲得条件として用いることもできる。

また、定義文や見出語だけでなく、説明文全体や、リンク情報、被リンク情報を含め、入力データとして扱うことができる。例えば、図８において、アンダーラインで示している部分は、辞書中の他の見出語や、他のＷｅｂページ、同一ページ中の他の部分等へリンクされていることを示している。

こうしたリンクは、一般に、語や句など、意味のある集合に対して付与されるため、リンクの張られた部分をひと塊として、あるいはリンクの張られた部分から括弧を取り除くなどの簡単な処理を行うことにより、高い精度で対象語を獲得することができる。つまり、リンクとして切り出した語を、言語資源情報として登録する対象語として抽出することも考えられる。

図９は、図８の入力データからの対象語獲得例である。
図９の場合、「北海道日本ハムファイターズ」や「週間少年サンデー」など、リンクに利用された語を対象語として捉えることができる。このような場合、これらの語を対象語として扱うことになる。

但し、説明文ではなくても、定義文が出てくるページ全体を入力データＸとして抽出する場合や、他のページへのリンクがある場合、リンク先の内容も入力データＸとして利用することも考えられる。さらに、リンク先でリンクされているページの内容も入力データＸとして利用することも考えられる。このように階層的にリンクを辿って入力データＸを収集する場合、元のページから離れるに従いスコアを低くするよう、スコアに重みを付与することで、スコア調整することも考えられる。

また、入力データにおいて、ある形式に則って記述するためのテンプレートなどを利用していれば、どういったテンプレートを利用しているか、あるいは、このテンプレートにはどのような情報を記述できるか、といった情報、筆者（情報発信者）による分類やカテゴリ情報なども入力データとして扱うことができる。

図１０は、入力データの他の構成例である。図１１および図１２は、図１０の入力データからの対象語獲得例である。
前述した図８と同様、図１０においてアンダーラインで示している部分は、辞書中の他の見出語や、他のＷｅｂページ、同一ページ中の他の部分等へリンクされていることを示している。図１１，１２では、図１０の情報以外にも、筆者（情報発信者）によって利用されたテンプレートと、付与されたカテゴリ情報や分類情報を入力データＸとして含んでいる。このようなカテゴリ情報や分類情報を、以下ではＷｅｂカテゴリと呼ぶ。

図１３、図１４、および図１５は、入力データの他の構成例である。
定義文や説明文などがない場合でも、図１３のように、見出語とＷｅｂカテゴリのみを入力データＸとして利用することもできる。また、図１４のように、見出語とテンプレートのみを入力データＸとして利用することもできる。また、図１５のように、各テンプレートに対し、そのテンプレートを利用している見出語をリストアップしたものを入力データＸとして利用することもできる。

［特徴量抽出処理］
次に、演算処理部１の特徴量抽出部１２における特徴量抽出処理について説明する。
特徴量抽出部１２は、入力データＸを受け取り、各対象語に対する特徴量を抽出する。特徴量としては、上位語、定義文、あるいは説明文に含まれるリンク情報、内容語、Ｗｅｂカテゴリ、テンプレートなどがあげられる。さらに、各上位語やリンク情報、内容語等が既知語の場合、これら既知語に付与された意味カテゴリや品詞情報のような様々な情報を、特徴量として抽出することが考えられる。

図１６は、上位語の抽出例である。
前述した図８のような定義文から、図１６に示すような上位語が抽出される。この場合、形態素単位から、名詞句のような比較的長い単位まで、様々な長さで検索することにより、入力データに含まれている各語を上位語として抽出している。なお、定義文からの上位語の抽出方法については、既知の方法を用いればよい（例えば、文献：Eric Nichols, Francis Bond, Takaaki Tanaka, Sanae Fujita, and Daniel Flickinger. Robust Ontology Acquisition from Multiple Sources. In Proceedings of COLING-2006 2nd Workshop on Ontology Learning and Population: Bridging the Gap between Text and Knowledge, pages 10-17, Sydney, 2006.や、文献：鶴丸弘昭,竹下克典,伊丹克企,柳川俊英, and 吉田将. 国語辞典情報を用いたシソーラスの作成について. In 情報処理学会自然言語処理研究会, volume83-16, pages l21-128, 1991.など参照）。

図１７は、特徴量の抽出例である。
前述した図１１，１２において、定義文および説明文中でリンクを示している語を抜き出した場合、図１７に示すような特徴量が抽出される。また、前述した図９は、図８において、定義文中でリンクを示している語を抜き出したものである。こうしたリンク情報を特徴量として利用することも考えられる。

図１８は、特徴量の他の抽出例である。
特徴量として、図１８に示すように、定義文や説明文などに出現する内容語を利用してもよい。但し、図１８では、基本形のみだが、出現形や品詞情報、これらの組み合わせなども抽出してもよい。また、図１３，１４に示したような情報を特徴量として利用してもよい。図９，１７，１８，１３，１４に示したような情報は、特徴量としてそのまま利用してもよい。また、同じような情報源から抽出した特徴量であっても、定義文中のリンクと説明文中のリンクのように、異なる特徴量として扱ってもよい。

また、こうした情報を、形態素解析器やチャンカー等にかけて、形態素単位や句等の単位で特徴量として利用してもよい。さらに、その両方を特徴量として利用してもよい。さらに、そのリンクを示している語や形態素、形態素の組み合わせや、上位語等が既存辞書２１に登録されている（既知語である）場合、既存辞書２１から抽出できる情報（品詞や意味クラス等）も特徴量として抽出してもよい。これらの特徴量は、単独でも組み合わせて利用してもよい。
図１９および図２０は、特徴量の抽出リスト例である。

［意味クラス制限処理］
次に、演算処理部１の意味クラス制限部１３における意味クラス制限処理について説明する。
意味クラス制限部１３は、意味クラス制限情報ＤＢ２３Ｂに登録されている意味クラス制限条件を参照して、対象語に関する特徴量に基づいて、シソーラス２２に記述されている意味クラスのうち、対象語に付与する意味クラスの種類を制限する。

図２１は、意味クラス制限条件の構成例である。
ここでは、シソーラス２２に基づく意味クラスとして、人（Ｐ）、組織（０）、物（Ｎ）、場所（Ｌ）、その他（Ｓ）という大分類が存在するものとし、入力データの分類（タイプ）と、対象語の特徴量に対する文字列比較条件と、この文字列比較条件が成立した際に付与される大分類との組から、意味クラス制限条件が構成されている。この大分類が、各対象語に付与候補となる意味クラスの範囲を制限する意味制限情報となる。

図２２は、意味制限の獲得例である。
図２１の意味クラス制限条件と対象語の特徴量とを用いれば、図２２に示すような意味制限が対象語ごとに獲得できる。このような意味制限を獲得することができれば、「大富豪」がその他（Ｓ）であること、言い替えれば、人物（Ｐ）ではないことがわかるため、人（Ｐ）（〈１７８：富者〉を含む）、組織（０）、物（Ｎ）、場所（Ｌ）の配下の意味クラスについては、意味クラスの選択候補から予め除外しておくことができる。こうした意味クラスの制限は、特に、多義語に対する意味クラス推定の精度向上に対して有効である。また、多くの候補を予め絞ることができるため、計算量の削減になる。

図２３は、意味クラス制限条件の他の構成例である。
意味クラス選択部１４で用いる意味クラス制限条件では、図２２のような大分類を識別するための識別コードを用いて記述してもよいが、図２３に示すように、付与可能な意味クラスを記述してもよい。また、図２２や図２３のような意味制限を組み合わせてもよく、Ｗｅｂカテゴリだけでなく、様々な条件からルールを作成することが考えられる。
このように、意味クラス選択部１４は、意味クラス制限部１３を有し、意味クラス制限情報ＤＢ２３Ｂを利用することで、対象語に対して、より最適な意味クラスを付与できる。但し、意味クラスの絞り込みは、後処理で行うことも考えられる。

［意味クラス選択処理］
次に、演算処理部１の意味クラス選択部１４における意味クラス選択処理について説明する。
意味クラス選択部１４は、意味クラス推定情報ＤＢ２３Ｃに登録されている意味クラス推定条件を参照し、対象語に関する特徴量に基づいて、シソーラス２２に記述されている各意味クラスのうち、意味クラス制限部１３で付与した大分類に属する個々の意味クラスについて評価値を計算し、その評価値が最大になる意味クラスを対象語の意味クラスとして選択する。

図２４は、意味クラス推定条件の構成例である。
ここでは、既存の辞書２１に登録されている既知語の上位語と、既知語に付与されている意味クラスと、これら上位語と意味クラスとの関連度を示すスコア（評価値）、および当該上位語が持つ既知語の数との組から、意味クラス推定条件が構成されている。
例えば、「選手」という上位語を持つ既知語には〈４８：男〉が付与されることが最も多い。「選手」という上位語を持つ語に〈４８：男〉が付与される確率を示すスコアは、７３５８４９という値になっている。同様に、様々な特徴量に対し、意味クラスとの関連をスコア化し、意味クラス推定条件として意味クラス推定情報ＤＢ２３Ｃへ登録しておくことができる。

こうした意味クラス推定情報ＤＢ２３Ｃは、ヒューリスティックに計算してもよいし、各種機械学習手法を用いて計算してもよい。また、評価値はスコアや確率として、高い方がよいとして計算してもよく、コストとして、コストが最小になるように計算してもよい。
機械学習手法としては、例えば、ＣＲＦ（Conditional Random Fields：Jun Suzuki, Erik McDermott, and Hideki Isozaki. Training conditional random fields with multivariate evaluation measures. In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics, pages 217-224, Sydney, Australia, July 2006. Association for Computational Linguistics.）や、ＭＥ（Maximam entropy：Robert Malouf.」 A comparison of algorithms for maximum entropy parameter estimation. In Proceedings of the 6th Conference on Computational Natural Language Learning: CoNLL-2002, Taipei, Taiwan, 2002.：http://tadm.sourceforge.net）、ＳＶＭ（SupPort Vector Machine：Vladimir Naumovich Vapnik. Statistical Learning Theory (Adaptive and Learning Systems for Signal Processing, Communications, and Control). John Wiley & Sons, 1998.）などがある。

但し、意味クラス推定情報ＤＢ２３Ｃとしては、推定方法が異なる複数種の意味クラス推定情報ＤＢで構成してもよく、その場合、各意味クラス推定情報ＤＢを用いて意味クラスを推定し、これら推定結果のうち、より確からしい結果を利用することなどが考えられる。

また、前述した図１９や図２０の特徴量リストでは、簡単化のため特徴量を少なくしているが、これらに示した特徴量以外にも、品詞や基本形、分野情報、Ｗｅｂページの構造（ｈｔｍｌのタグなど）を特徴量として利用するなど、様々な素性を利用することができる。

また、図２４からは、「選手」という上位語を持つ既知語が、辞書２１中に１０６個も存在するが、「アニメ」という上位語を持つ既知語は非常に少なく、２語しか存在しないこともわかる。このように、既知語の例が少ない場合、信頼度が低くなると考えられるため、既知語の数がある閾値を下回る場合には利用しない、あるいは、信頼度係数のようなものを用意して影響を小さくする、といったことも考えられる。

図２５は、意味クラスごとのスコア計算例である。
意味クラス推定情報ＤＢ２３Ｃと特徴量抽出部１２で抽出された特徴量を元にして、対象語に付与した意味クラスごとにスコアを計算できる。なお、図２５のうち、アンダーライン部分は、意味クラス制限部１３によって予め除外される意味クラスであるが、ここでは便宜的に提示している。

図２６は、意味クラス選択結果である。
ここでは、各意味クラスのうち、スコアが高いほど、当該対象語の意味クラスとして相応しいと仮定し、ある一定以上のスコアを有する意味クラスのみを、対象語に対する意味クラスとして選択したものである。図２６の場合、閾値をスコア１０とし、１０以下の意味クラスは除外している。

また、シソーラス２２における意味クラスの上位下位関係を調べ、上位下位関係にある意味クラスが両方残っている場合には、より下位（または、より上位）の意味クラスのみ残してもよい。図２５では、〈９６２：機械〉と〈９８５：計器（度量衡）〉が閾値以上のスコアを有しているが、〈９８５：計器（度量衡）〉が〈９６２：機械〉の下位にあるため、〈９８５：計器（度量衡）〉のみを残している。

また、図２５のようなスコアの計算を行う段階で、より下位（または、より上位）の意味クラスにスコアを集約して計算することも考えられる。また、集約する意味クラスがどの程度離れた階層にあるかによって係数を定め、スコアの集約方法を変化させてもよい。あるいは、一定以上離れた階層や、一定以上上位（下位）すぎる意味クラスは対象外とするなどの方法も考えられる。
また、意味クラスの推定と同様に、同じ上位語などの特徴量を持つ既知語から、対象語の品詞などを推定することもできる。前述した図２６には、意味クラスと同時に品詞も表示している。

図２７は、言語資源情報の構成例である。
ここでは、入力データＸから対象語として獲得した見出語ごとに、意味クラスと品詞が推定され、言語資源情報として付与されている。前述した図３の既存辞書に登録されている情報と比較すると、図２７のアンダーライン部分における、見出語「メジャー」とその意味クラス〈９８５：計器（度量衡）〉の組み合わせは、既存辞書に存在することがわかる。

このように、意味クラス選択部１４によって得た結果と同じ内容が既存辞書に存在する場合、言語資源情報出力部１５において、登録を見合わせることが考えられる。また、推定した意味クラスが、既存辞書に登録されていた意味クラスと近い（親子関係にあるなど）場合にも、登録を見合わせたり、どちらかの意味クラスに集約することが考えられる。
こうして生成した言語資源情報（意味クラス付き）Ｙは、言語資源情報出力部１５により、辞書２１に登録される。

［第１の実施の形態の効果］
このように、本実施の形態は、特徴量抽出部１２により、入力データＸから当該対象語の意味内容を示す文字情報を特徴量として抽出し、意味クラス制限部１３により、意味クラス制限情報ＤＢ２３Ｂに登録されている意味クラス制限条件を参照し、対象語の特徴量に基づいて当該対象語が持つ意味の大分類を特定することにより、シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限し、意味クラス選択部１４により、意味クラス推定条件ＤＢ２Ｃに登録されている意味クラス推定条件を参照して、大分類に含まれる意味クラスごとに、対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値を算出し、これら評価値に基づいて当該対象語との関係度合いが大きい意味クラスを、当該対象語に付与する意味クラスとして選択している。

これにより、多くの意味クラスのうちから、対象語に付与する意味クラスを予め絞り込むことができ、結果として意味クラスの推定精度を向上させることができる。
例えば、「大富豪とは、トランプを使ったゲームの一つである。」という入力データから、対象語である「大富豪」という単語の意味クラスを推定する場合、「大富豪」に対して、〈１７８：富者〉および〈１６７９：ゲーム〉という意味クラスが候補として選択されうる。このとき、この場合の「大富豪」が人ではないということが認識されていれば、〈１７８：富者〉ではなく〈１６７９：ゲーム〉という正しい意味クラスを選択することができる。また、〈１７８：富者〉という意味の「大富豪」が既存の辞書やシソーラスに存在している場合でも、〈１６７９：ゲーム〉の意味の「大富豪」として、新たに登録することができる。

したがって、本実施の形態によれば、数千の意味クラスを持つ既存シソーラスに対しても、極めて正確に対象語をマッピングすることができ、Ｗｅｂ上の文書などの電子化文書に基づいて、高い品質精度の言語資源情報を生成することが可能となる。

［第２の実施の形態］
次に、図２８を参照して、本発明の第２の実施の形態にかかる言語資源情報生成装置１００について説明する。図２８は、本発明の第２の実施の形態にかかる言語資源情報生成装置の要部を示すブロック図であり、前述した図２と同じまたは同等部分には、同一符号を付してある。

本実施の形態では、意味クラス選択部１４に整合性調整部１４Ａを設けた場合について説明する。
整合性調整部１４Ａは、既存の辞書やシソーラスに基づいて、対象語に付与した意味クラスを、既存の辞書やシソーラスとコンセンサスが取れるよう修正、追加、削除等の調整を行う機能を有している。この他の構成および動作については、第１の実施の形態と同様であり、ここでの詳細な説明は省略する。

［第２の実施の形態の動作］
次に、図２８を参照して、本発明の第２の実施の形態にかかる言語資源情報生成装置１００の動作について具体的に説明する。
意味クラス選択部１４は、対象語に対して意味クラスを付与した後、整合性調整部１４Ａにより、既存の辞書２１やシソーラス２２とコンセンサスが取れるよう、対象語の意味クラスについて修正、追加、削除等の調整を行う。

図２９は、意味クラス共起情報の構成例である。
意味クラス共起情報は、ある語に意味クラス（１）が付与されている場合に、意味クラス（２）も付与されている共起確率を示す情報であり、処理情報ＤＢ２３の意味クラス共起情報ＤＢ２３Ｄに登録されている。
整合性調整部１４Ａは、意味クラス共起情報ＤＢ２３Ｄを参照して、意味クラス選択部１４により付与された既付与意味クラスごとに、他の意味クラスとの共起確率を意味クラス共起情報ＤＢ２３Ｄから取得し、これら共起確率を予め設定されている閾値と比較し、意味クラスの追加要否を判定する。ここで、閾値以上の高い共起確率を持つ他の意味クラスがあれば、この意味クラスも当該対象語の意味クラスとして追加付与する。

例えば、前述した図２６の場合、「ダルビッシュ有」に対し、〈２５１：競技者〉という意味クラスは候補として挙げられたものの、十分な重要度や関連性が得られなかったために除外されて、最終的には付与されていない。しかし、図２９に示されているように、任意の単語に〈３６０：選手〉が付与されている場合には、その単語に〈２５１：競技者〉も付与される確率が高いため、「ダルビッシュ有」に対して〈２５１：競技者〉が追加登録される。

図２９では、意味クラス（１）と意味クラス（２）は、共起関係の方向性を考慮して、別個に扱っている。例えば、「牛」や「豚」などのように、〈８４３：肉・卵〉であれば〈５３７：獣〉である確率は高い。しかし、「虎」や「ライオン」など、〈５３７：獣〉であっても〈８４３：肉・卵〉ではない語も多いため、〈５３７：獣〉であれば〈８４３：肉・卵〉である確率は、比較的低くなっている。このため、先に〈５３７：獣〉という意味クラスが付与された場合、〈８４３：肉・卵〉という意味クラスが追加される確率は低くなる。

また、意味クラスや語の出現頻度で足きりをしたり、重みを変えたり、付与基準となる確率の閾値を変更したり、確率の計算方法を変更してもよい。また、整合性調整部１４Ａにおいて、意味クラス選択部１４で付与した元の意味クラス間において共起確率を比較し、閾値未満の場合には、当該意味クラスを削除するようにしてもよい。さらに、前述した意味クラス間の方向性を考慮しなかったり、２つの意味クラス間だけでなく、３つ以上の関係を一度に考慮するよう変更してもよい。

［第２の実施の形態の効果］
このように、本実施の形態では、意味クラス選択部１４に整合性調整部１４Ａを設け、既存の辞書２１やシソーラス２２から得た意味クラスの共起情報に基づいて、対象語の意味クラスについて修正、追加、削除等の調整を行うようにしたので、より高い精度で、既存の辞書２１やシソーラス２２とコンセンサスを取ることが可能となる。

例えば、「やぎは、…（中略）…動物である」という入力データから、対象語である「やぎ」の意味クラスを推定した場合、〈５３５：動物〉という意味クラスを付与するだけで、一見、正解のように見える。しかし、既存の辞書やシソーラスにおいて、「牛」や「羊」などは、〈５３７：獣〉と〈８４３：肉・卵〉の意味クラスが付与されているのであれば、コンセンサスを保つためには、「やぎ」に対しても、〈５３７：獣〉と〈８４３：肉・卵〉の意味クラスを付与すべきである。

本実施の形態によれば、既存の辞書やシソーラスにおいて、〈５３５：動物〉という意味クラスに対して〈５３７：獣〉と〈８４３：肉・卵〉の意味クラスとの共起性が高い場合には、「やぎ」に対しても、〈５３７：獣〉と〈８４３：肉・卵〉の意味クラスが付与される。これにより、既存の辞書やシソーラスとコンセンサスが得られ、自然言語処理する際に、「やぎ」と「牛」や「羊」とを統一的に処理することが可能となる。また、「やぎ」に対して〈８４３：肉・卵〉の意味クラスが付与されていれば、食肉としての意味で「やぎ」を扱うことができる。

［第３の実施の形態］
次に、図３０を参照して、本発明の第３の実施の形態にかかる言語資源情報生成装置１００について説明する。図３０は、本発明の第３の実施の形態にかかる言語資源情報生成装置の要部を示すブロック図であり、前述した図２および図２８と同じまたは同等部分には、同一符号を付してある。

本実施の形態では、演算処理部１に、意味クラス細分化部１６を設けた場合について説明する。
意味クラス細分化部１６は、対象語に付与された意味クラスおよび特徴量に基づき、対象語ごとに当該対象語の上位語を階層的に抽出する機能と、これら対象語の上位語に関する階層構造に基づきシソーラス２２の意味クラスを細分化する機能を有している。この他の構成および動作については、第１の実施の形態と同様であり、ここでの詳細な説明は省略する。

［第３の実施の形態の動作］
次に、図３０を参照して、本発明の第３の実施の形態にかかる言語資源情報生成装置１００の動作について具体的に説明する。図３０は、本発明の第３の実施の形態にかかる言語資源情報生成装置の要部を示すブロック図である。
意味クラス選択部１４により、対象語に対して意味クラスが付与された後、意味クラス細分化部１６は、対象語に付与された意味クラスおよび特徴量に基づいて、各対象語の上位語を階層的に抽出する。上位語の抽出方法については、前述した図１６で説明した既知の方法を用いればよい。

続いて、意味クラス細分化部１６は、これら対象語の上位語に関する階層構造のうち、共通する１つの共通上位語に従属する複数の上位語を細分化上位語として選択し、これら細分化上位語からなる意味カテゴリを、共通上位語の意味カテゴリの配下に加えることにより、意味カテゴリを細分化する。
この際、意味クラス選択部１４において、既存シソーラス２２より詳細な意味クラスを獲得しておき、これら意味クラスを既存シソーラス２２に付与するようにしてもよい。

図３１は、シソーラス作成結果である。
前述した図１６によれば、ＩＤ：１６５３９６「ダルビッシュ有」と、ＩＤ：２２０８８８「伊達公子」、ＩＤ：２９５３「三浦知良」は、「選手」という共通の上位語１を持つことがわかる。したがって、上位語２および上位語３が、上位語「選手」に関する細分化上位語として選択される。
これにより、共通の上位語１の「選手」をキーとし、既存のシソーラス２２における意味クラス〈３６０：選手〉の配下に、上位語２や上位語３に対応する意味クラスを新たに付与することにより、図３１のように、既存のシソーラスの意味クラスの細分化および拡張が行われる。

この際、〈ａ：選手〉は、既シソーラスの〈３６０：選手〉の配下として扱ってもよく、〈３６０：選手〉と同じクラスとして扱ってもよい。但し、ＩＤ：１６５３９６「ダルビッシュ有」の上位語として、「選手」がなく、「野球選手」のみ獲得できていた場合であっても、上位語の一部「野球選手」が共通であれば、〈３６０：選手〉の配下として、「ダルビッシュ有」の上位語３「プロ野球選手」を、意味クラスの細分化に利用することも考えられる。

また、「選手」のように、共通の語が意味クラスとして存在しない場合でも、キーとなる上位語を持つ語が、多く分類される意味クラスの配下として付与することが考えられる。あるいは、〈３６０：選手〉という意味クラス配下に付与するだけでなく、共起しやすい〈２５１：競技者〉配下にも同時に付与することも考えられる。また、例えば、上位語「選手」をキーとした場合、上位語「選手」を持つ対象語が、〈２５１：競技者〉の方に分類される確率の方が、〈３６０：選手〉に分類される確率より高いのであれば、〈２５１：競技者〉配下に付与することも考えられる。

また、本例では、上位語をキーとして説明したが、上位語ではなく、Ｗｅｂカテゴリなど、他の特徴量を利用して、図３１のようなシソーラスを構築することも考えられる。また、上位語とＷｅｂカテゴリの両方を利用することも考えられる。

図３２は、言語資源情報の他の構成例である。
図３２のように、既シソーラスにおける意味クラスの情報と、細分化された意味クラスの情報を両方保存しておくことで、既シソーラスで定義されている意味クラスのみを利用したい場合にも対応できる。また、既シソーラスより詳細な意味クラスを利用したい場合には、細分化した方の情報を利用することができる。また、既シソーラスを拡張するので、既シソーラスを利用したシステムやアプリケーションに容易に適用できる。

［第３の実施の形態の効果］
このように、本実施の形態では、演算処理部１に、意味クラス細分化部１６を設け、対象語に付与された意味クラスおよび特徴量に基づき、対象語ごとに当該対象語の上位語を階層的に抽出し、これら対象語の上位語に関する階層構造に基づきシソーラス２２の意味クラスを細分化するようにしたので、より詳細な分類が必要とされる場合や、時代の変化と共に新たに創出された意味クラスに対応することができる。

これにより、例えば、「ダルビッシュ有は、プロ野球選手である」や、「伊達公子は、プロテニス選手である」、「三浦知良は、プロサッカー選手である」のような入力データから、既存のシソーラスで定義されている意味クラス〈３６０：選手〉が獲得された場合、これら入力データから得られた対象語「ダルビッシュ有」、「伊達公子」、「三浦知良」の特徴量に基づき、〈プロ野球選手〉、〈プロテニス選手〉、〈プロサッカー選手〉のような意味クラスによって、既存のシソーラスを細分化することが可能となる。

［実施の形態の拡張］
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をすることができる。

１０…言語資源情報生成装置、１…演算処理部、１１…対象語獲得部、１２…特徴量抽出部、１３…意味クラス制限部、１４…意味クラス選択部、１５…言語資源情報出力部、１６…意味クラス細分化部、２…記憶部、２１…辞書、２２…シソーラス、２３…処理情報ＤＢ、２３Ａ…対象語獲得情報ＤＢ、２３Ｂ…意味クラス制限情報ＤＢ、２３Ｃ…意味クラス推定情報ＤＢ、２３Ｄ…意味クラス共起情報ＤＢ、２４…プログラム、Ｘ…入力データ、Ｙ…言語資源情報、Ｍ…記録媒体。

Claims

自然言語からなる入力データに含まれる対象語に対して、シソーラスに記述されている意味クラスのうちから、当該対象語の意味分類を示す意味クラスを選択して付与することにより、当該対象語に関する言語資源情報を生成する言語資源情報生成装置であって、
前記入力データから当該対象語の意味内容を示す文字情報を特徴量として抽出する特徴量抽出部と、
意味クラス制限情報データベースに登録されている意味クラス制限条件を参照し、前記対象語の特徴量に基づいて当該対象語が持つ意味の大分類を特定することにより、前記シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限する意味クラス制限部と、
意味クラス推定情報データベースに登録されている意味クラス推定条件を参照し、前記対象語の大分類と対応する意味クラスごとに、当該対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値をそれぞれ算出し、これら評価値に基づいて当該対象語との関係度合いが最も大きい意味クラスを、当該対象語に付与する意味クラスとして選択する意味クラス選択部と、
意味クラス共起情報データベースに登録されている、前記シソーラスに記述されている各意味クラス間の共起確率を参照して、前記意味クラス選択部で選択された前記意味クラスと他の意味クラスとの間の共起確率を取得し、閾値以上の共起確率を持つ他の意味クラスを当該対象語の意味クラスとして追加する整合性調整部と
を備えることを特徴とする言語資源情報生成装置。
自然言語からなる入力データに含まれる対象語に対して、シソーラスに記述されている意味クラスのうちから、当該対象語の意味分類を示す意味クラスを選択して付与することにより、当該対象語に関する言語資源情報を生成する言語資源情報生成装置であって、
前記入力データから当該対象語の意味内容を示す文字情報を特徴量として抽出する特徴量抽出部と、
意味クラス制限情報データベースに登録されている意味クラス制限条件を参照し、前記対象語の特徴量に基づいて当該対象語が持つ意味の大分類を特定することにより、前記シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限する意味クラス制限部と、
意味クラス推定情報データベースに登録されている意味クラス推定条件を参照し、前記対象語の大分類と対応する意味クラスごとに、当該対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値をそれぞれ算出し、これら評価値に基づいて当該対象語との関係度合いが最も大きい意味クラスを、当該対象語に付与する意味クラスとして選択する意味クラス選択部と、
対象語に付与された意味クラスおよび特徴量に基づき、対象語ごとに当該対象語の上位語を階層的に抽出し、これら対象語の上位語に関する階層構造に基づき前記シソーラスの意味クラスを細分化する意味クラス細分化部と
を備えることを特徴とする言語資源情報生成装置。
自然言語からなる入力データに含まれる対象語に対して、シソーラスに記述されている意味クラスのうちから、当該対象語の意味分類を示す意味クラスを選択して付与することにより、当該対象語に関する言語資源情報を生成する言語資源情報生成装置で用いられる言語資源情報生成方法であって、
特徴量抽出部が、前記入力データから当該対象語の意味内容を示す文字情報を特徴量として抽出する特徴量抽出ステップと、
意味クラス制限部が、意味クラス制限情報データベースに登録されている意味クラス制限条件を参照し、前記対象語の特徴量に基づいて当該対象語が持つ意味の大分類を特定することにより、前記シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限する意味クラス制限ステップと、
意味クラス選択部が、意味クラス推定情報データベースに登録されている意味クラス推定条件を参照し、前記対象語の大分類と対応する意味クラスごとに、当該対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値をそれぞれ算出し、これら評価値に基づいて当該対象語との関係度合いが最も大きい意味クラスを、当該対象語に付与する意味クラスとして選択する意味クラス選択ステップと、
整合性調整部が、意味クラス共起情報データベースに登録されている、前記シソーラスに記述されている各意味クラス間の共起確率を参照して、前記意味クラス選択部で選択された前記意味クラスと他の意味クラスとの間の共起確率を取得し、閾値以上の共起確率を持つ他の意味クラスを当該対象語の意味クラスとして追加する整合性調整ステップと
を備えることを特徴とする言語資源情報生成方法。
自然言語からなる入力データに含まれる対象語に対して、シソーラスに記述されている意味クラスのうちから、当該対象語の意味分類を示す意味クラスを選択して付与することにより、当該対象語に関する言語資源情報を生成する言語資源情報生成装置で用いられる言語資源情報生成方法であって、
特徴量抽出部が、前記入力データから当該対象語の意味内容を示す文字情報を特徴量として抽出する特徴量抽出ステップと、
意味クラス制限部が、意味クラス制限情報データベースに登録されている意味クラス制限条件を参照し、前記対象語の特徴量に基づいて当該対象語が持つ意味の大分類を特定することにより、前記シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限する意味クラス制限ステップと、
意味クラス選択部が、意味クラス推定情報データベースに登録されている意味クラス推定条件を参照し、前記対象語の大分類と対応する意味クラスごとに、当該対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値をそれぞれ算出し、これら評価値に基づいて当該対象語との関係度合いが最も大きい意味クラスを、当該対象語に付与する意味クラスとして選択する意味クラス選択ステップと、
意味クラス細分化部が、対象語に付与された意味クラスおよび特徴量に基づき、対象語ごとに当該対象語の上位語を階層的に抽出し、これら対象語の上位語に関する階層構造に基づき前記シソーラスの意味クラスを細分化する意味クラス細分化ステップと
を備えることを特徴とする言語資源情報生成方法。
コンピュータに、請求項３または請求項４に記載の言語資源情報生成方法の各ステップを実行させるためのプログラム。
請求項５に記載のプログラムが記録された記録媒体。