JP5254888B2 - 言語資源情報生成装置、方法、プログラム、および記録媒体 - Google Patents

言語資源情報生成装置、方法、プログラム、および記録媒体 Download PDF

Info

Publication number
JP5254888B2
JP5254888B2 JP2009136699A JP2009136699A JP5254888B2 JP 5254888 B2 JP5254888 B2 JP 5254888B2 JP 2009136699 A JP2009136699 A JP 2009136699A JP 2009136699 A JP2009136699 A JP 2009136699A JP 5254888 B2 JP5254888 B2 JP 5254888B2
Authority
JP
Japan
Prior art keywords
target word
semantic
semantic class
class
thesaurus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009136699A
Other languages
English (en)
Other versions
JP2010282517A (ja
Inventor
早苗 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009136699A priority Critical patent/JP5254888B2/ja
Publication of JP2010282517A publication Critical patent/JP2010282517A/ja
Application granted granted Critical
Publication of JP5254888B2 publication Critical patent/JP5254888B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、自然言語処理技術に関し、特に自然言語からなる入力データから、辞書やシソーラスなどの言語資源で用いる言語資源情報を生成する言語資源生成技術に関する。
自然言語処理技術は、現在、情報検索システム、評判分析システム、機械翻訳システム、質問応答システム、自動要約システム、固有名詞抽出システムなど、様々なシステムで利用されており、近年におけるWebやコンピュータの著しい普及により、ますますその重要性が高まってきている。
こうした自然言語処理技術では、様々な言語資源を、知識源や学習データとして用いている。言語資源には、辞書やシソーラス、コーパスなど様々なものが存在する。シソーラスとは、語を意味によって分類したものである。語(語義)は無数に存在するため、全ての語や語義を網羅する言語資源の構築は難しい。そこで、限られた言語資源を用いて、効率的でロバストな処理を実現するため、同じような意味を持つ語の集合を意味クラスとして分類し、意味クラス同士の関係をシソーラスで定義して利用することが、一般的である。
語(語義)に対して正確な意味クラスが付与されている、いわゆる品質精度のよい言語資源(辞書やシソーラスなど)を得るには、人手による作成が望ましいが、作成に要する作業量が膨大となるため、人手で作成するにはコストと人手と時間が非常にかかる。特に、自然言語においては、新語、造語、流行語、外来語など、次々と様々な語が出現する。さらに、人名や作品名、番組名などの固有名詞に至っては無数に存在し、日々新たに発生している。
したがって、このような言語資源に追加すべき全ての対象語について、見出語とその意味クラスとの対応関係を示す言語資源情報を、常時、人手で収集し続けることは困難であるため、なるべく人手を介さず自動的に、あるいは半自動的に言語資源情報を生成することが望まれる。
言語資源情報の生成方法としては、Web上の文書などの電子化文書(コーパス)を利用する方法がある。この際、どこからどこまでがひと塊の語なのかという判断が難しい。特に、日本語の場合、英語のように単語境界がはっきりしている言語とは異なり、文章が語ごとに分割されていないため、対象語として扱う範囲や登録すべき範囲の選定が難しい。
この問題に対しては、既知の方法として、形態素解析などの自然言語解析技術を用いて、未知語となる部分を字種別にまとめて対象語と見なす、などの方法がある。しかし、この方法は、対象語の抽出には有効であるが、意味クラスなど、複雑で高度な情報を対象語に付与するという言語資源情報の生成には向かない。
そこで、Web上の辞書などを利用して、対象語に関する言語資源情報の生成を行おうという試みがなされている。
Web上の文書などの電子化文書(コーパス)を利用して、対象語に関する言語資源情報を生成する技術として、例えば非特許文献1や非特許文献2がある。
非特許文献1では、Web辞書を利用して、単語間の関連度が強いかどうか、という関係付けをしたものをシソーラスと呼んでいる。また、非特許文献2では、Web辞書を構成する記事(コーパス)内のリスト構造などを利用して、リストアップされている語の固有表現クラスを推定している。
中山浩太郎,原隆浩, and 西尾章治郎. Wikipediaマイニングによるシソーラス辞書の構築手法. 情報処理学会論文誌, 47(10):2917-2928, 10 2006. Yotaro Watanabe, Masayuki Asahara, and Yuji Matsumoto. A graph-based approach to named entity categorization in wikipedia using conditional random fields. In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning: EMNLP-CoNLL-2007, pages 649-657, 2007.
しかしながら、このような従来技術では、Web上の文書などの電子化文書(コーパス)から、対象語に関する分類や意味を含む言語資源情報を生成する際、機械学習に基づいて電子化文書からローカルな意味的集合を抽出して各対象語を分類することにより、言語資源情報を生成しているため、意味クラスの推定に用いる既知の学習用データが少ない場合、学習用データと言語資源情報を獲得する入力データとが分野やタイプにおいて異なる場合、付与すべき意味分野のクラス数が多い場合には、生成した言語資源情報の品質精度が低いという問題点があった。
対象語に関する言語資源情報を生成して、既存辞書やシソーラスなどの言語資源を拡張するには、新たに生成する言語資源情報の内容が、既存の辞書やシソーラスとコンセンサスが取れていなければならない。したがって、言語資源情報を生成する際、既知語のデータを学習データ(正解データ)として、対象語の意味クラスを推定することが必要とされる。
これに対して、非特許文献1では、Web辞書を利用し、単語間の関連度が強いかどうか、という関係付けをしたものをシソーラスと呼んでいるが、ここでいうシソーラスとは、自然言語処理で広く用いられている既存シソーラスとは別個のものであり、単語間の関連度により抽出したローカルな分類に過ぎない。また、非特許文献1では、対象語に関する同義語や多義語の抽出が行われているものの、既存シソーラスのように、ある観点による体系だったシソーラスへのマッピングのような整合処理については行われていない。
一方、非特許文献2では、Web辞書に記載されている記事(コーパス)内のリスト構造などのフォーマットを利用して、リストアップされている対象語の固有表現クラスを推定し、リンク先に記事が存在する場合には、その記事も利用している。しかし、非特許文献2での分類は、高々13種程度のクラスへの分類のみであり、既存シソーラスなどのような数千クラスへの分類には対応できていない。
また、非特許文献2のようにコーパスを利用して自動的に拡張する方法では、記事(コーパス)内のフォーマットを利用した機械学習であるため、Webなどから獲得したデータのように、共通したフォーマットを持たないフリー表現からなる入力データの場合、語の区切りの判定が難しい。このため、このようなデータからは、精度よく対象語の意味クラスを特定できないことから、複雑な意味情報を付与するのが難しく、膨大な意味クラスを持つ既存の辞書やシソーラスとのコンセンサスを保持するのは難しい。
さらに、非特許文献2によれば、前述のような機械学習を行っているため、学習データが少ない場合や、学習に利用できるデータ(訓練データ)と、新語を獲得するためのデータ(テストデータ)の分野やタイプが異なる場合には、十分な精度を出すことができない。実際に、新語が含まれるテキストデータは、既存のテキストデータとはタイプが異なる場合が多い。また、分類したい意味クラスの数が多くなればなるほど、機械学習による付与は難しくなるという問題がある。
本発明はこのような課題を解決するためのものであり、Web上の文書などの電子化文書に基づいて、高い品質精度の言語資源情報を生成することができる言語資源情報生成技術を提供することを目的としている。
このような目的を達成するために、本発明にかかる言語資源情報生成装置は、自然言語からなる入力データに含まれる対象語に対して、シソーラスに記述されている意味クラスのうちから、当該対象語の意味分類を示す意味クラスを選択して付与することにより、当該対象語に関する言語資源情報を生成する言語資源情報生成装置であって、入力データから当該対象語の意味内容を示す文字情報を特徴量として抽出する特徴量抽出部と、意味クラス制限情報データベースに登録されている意味クラス制限条件を参照し、対象語の特徴量に基づいて当該対象語が持つ意味の大分類を特定することにより、シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限する意味クラス制限部と、意味クラス推定情報データベースに登録されている意味クラス推定条件を参照し、対象語の大分類と対応する意味クラスごとに、当該対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値をそれぞれ算出し、これら評価値に基づいて当該対象語との関係度合いが最も大きい意味クラスを、当該対象語に付与する意味クラスとして選択する意味クラス選択部と、意味クラス共起情報データベースに登録されている、シソーラスに記述されている各意味クラス間の共起確率を参照して、意味クラス選択部で選択された意味クラスと他の意味クラスとの間の共起確率を取得し、閾値以上の共起確率を持つ他の意味クラスを当該対象語の意味クラスとして追加する整合性調整部とを備えている。
また、本発明にかかる他の言語資源情報生成装置は、自然言語からなる入力データに含まれる対象語に対して、シソーラスに記述されている意味クラスのうちから、当該対象語の意味分類を示す意味クラスを選択して付与することにより、当該対象語に関する言語資源情報を生成する言語資源情報生成装置であって、入力データから当該対象語の意味内容を示す文字情報を特徴量として抽出する特徴量抽出部と、意味クラス制限情報データベースに登録されている意味クラス制限条件を参照し、対象語の特徴量に基づいて当該対象語が持つ意味の大分類を特定することにより、シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限する意味クラス制限部と、意味クラス推定情報データベースに登録されている意味クラス推定条件を参照し、対象語の大分類と対応する意味クラスごとに、当該対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値をそれぞれ算出し、これら評価値に基づいて当該対象語との関係度合いが最も大きい意味クラスを、当該対象語に付与する意味クラスとして選択する意味クラス選択部と、対象語に付与された意味クラスおよび特徴量に基づき、対象語ごとに当該対象語の上位語を階層的に抽出し、これら対象語の上位語に関する階層構造に基づきシソーラスの意味クラスを細分化する意味クラス細分化部をと備えている
また、本発明にかかる言語資源情報生成方法は、自然言語からなる入力データに含まれる対象語に対して、シソーラスに記述されている意味クラスのうちから、当該対象語の意味分類を示す意味クラスを選択して付与することにより、当該対象語に関する言語資源情報を生成する言語資源情報生成装置で用いられる言語資源情報生成方法であって、特徴量抽出部が、入力データから当該対象語の意味内容を示す文字情報を特徴量として抽出する特徴量抽出ステップと、意味クラス制限部が、意味クラス制限情報データベースに登録されている意味クラス制限条件を参照し、対象語の特徴量に基づいて当該対象語が持つ意味の大分類を特定することにより、シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限する意味クラス制限ステップと、意味クラス選択部が、意味クラス推定情報データベースに登録されている意味クラス推定条件を参照し、対象語の大分類と対応する意味クラスごとに、当該対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値をそれぞれ算出し、これら評価値に基づいて当該対象語との関係度合いが最も大きい意味クラスを、当該対象語に付与する意味クラスとして選択する意味クラス選択ステップと、整合性調整部が、意味クラス共起情報データベースに登録されている、シソーラスに記述されている各意味クラス間の共起確率を参照して、意味クラス選択部で選択された意味クラスと他の意味クラスとの間の共起確率を取得し、閾値以上の共起確率を持つ他の意味クラスを当該対象語の意味クラスとして追加する整合性調整ステップとを備えている。
また、本発明にかかる他の言語資源情報生成方法は、自然言語からなる入力データに含まれる対象語に対して、シソーラスに記述されている意味クラスのうちから、当該対象語の意味分類を示す意味クラスを選択して付与することにより、当該対象語に関する言語資源情報を生成する言語資源情報生成装置で用いられる言語資源情報生成方法であって、特徴量抽出部が、入力データから当該対象語の意味内容を示す文字情報を特徴量として抽出する特徴量抽出ステップと、意味クラス制限部が、意味クラス制限情報データベースに登録されている意味クラス制限条件を参照し、対象語の特徴量に基づいて当該対象語が持つ意味の大分類を特定することにより、シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限する意味クラス制限ステップと、意味クラス選択部が、意味クラス推定情報データベースに登録されている意味クラス推定条件を参照し、対象語の大分類と対応する意味クラスごとに、当該対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値をそれぞれ算出し、これら評価値に基づいて当該対象語との関係度合いが最も大きい意味クラスを、当該対象語に付与する意味クラスとして選択する意味クラス選択ステップと、意味クラス細分化部が、対象語に付与された意味クラスおよび特徴量に基づき、対象語ごとに当該対象語の上位語を階層的に抽出し、これら対象語の上位語に関する階層構造に基づきシソーラスの意味クラスを細分化する意味クラス細分化ステップとを備えている
また、本発明にかかるプログラムは、コンピュータに、前述した言語資源情報生成方法の各ステップを実行させるためのプログラムである。
また、本発明にかかる記録媒体は、上記プログラムが記録された記録媒体である。
本発明によれば、多くの意味クラスのうちから、対象語に付与する意味クラスを予め絞り込むことができ、結果として意味クラスの推定精度を向上させることができる。
したがって、本実施の形態によれば、数千の意味クラスを持つ既存シソーラスに対しても、極めて正確に対象語をマッピングすることができ、Web上の文書などの電子化文書に基づいて、高い品質精度の言語資源情報を生成することが可能となる。
本発明の第1の実施の形態にかかる言語資源情報生成装置の構成を示すブロック図である。 本発明の第1の実施の形態にかかる言語資源情報生成装置の要部を示すブロック図である。 辞書の構成例である。 シソーラスの構成例である。 入力データの構成例である。 対象語獲得条件の構成例である。 図5の入力データからの対象語獲得例である。 入力データの他の構成例である。 図8の入力データからの対象語獲得例である。 入力データの他の構成例である。 図10の入力データからの他の対象語獲得例である。 図10の入力データからの他の対象語獲得例(つづき)である。 入力データの他の構成例である。 入力データの他の構成例である。 入力データの他の構成例である。 上位語の抽出例である。 特徴量の抽出例である。 特徴量の他の抽出例である。 特徴量の抽出リスト例である。 特徴量の抽出リスト例(つづき)である。 意味クラス制限条件の構成例である。 意味制限の獲得例である。 意味クラス制限条件の他の構成例である。 意味クラス推定条件の構成例である。 意味クラスごとのスコア計算例である。 意味クラス選択結果である。 言語資源情報の構成例である。 本発明の第2の実施の形態にかかる言語資源情報生成装置の要部を示すブロック図である。 意味クラス共起情報の構成例である。 本発明の第3の実施の形態にかかる言語資源情報生成装置の要部を示すブロック図である。 シソーラス作成結果である。 言語資源情報の他の構成例である。
次に、本発明の実施の形態について図面を参照して説明する。
[第1の実施の形態]
まず、図1を参照して、本発明の第1の実施の形態にかかる言語資源情報生成装置について説明する。図1は、本発明の第1の実施の形態にかかる言語資源情報生成装置の構成を示すブロック図である。
この言語資源情報生成装置100は、全体としてサーバーやパーソナルコンピュータなどの情報処理装置からなり、自然言語データからなる入力データXから、新語、造語、流行語、外来語などの対象語を選択し、当該対象語に対して意味クラスを付与することにより、言語資源情報生成を生成する機能を有している。
図1に示すように、言語資源情報生成装置100には、主な機能部として、一般的な情報処理装置と同様に、演算処理部1、記憶部2、入出力インターフェース部3(以下、入出力1/F部3という)、通信インターフェース部4(以下、通信1/F部4という)、操作入力部5、および画面表示部6が設けられている。
演算処理部1は、CPUなどのマイクロプロセッサとその周辺回路からなり、記憶部2に格納されているプログラムを読み出して実行することにより、上記ハードウェアとプログラムとを協動させて各種処理部を実現する。
演算処理部1で実現される主な処理部としては、対象語獲得部11、特徴量抽出部12、意味クラス選択部14、意味クラス細分化部16がある。
記憶部2は、ハードディスクやメモリなどの記憶装置からなり、演算処理部1で実行するプログラム24や言語資源情報の生成に用いる各種処理情報を記憶する。プログラム24は、予め、入出力1/F部3を介して記録媒体Mから読み込まれ、あるいは、通信1/F部4を介して外部装置(図示せず)から読み込まれ、記憶部2に格納される。
記憶部2で記憶する主な情報としては、辞書21、シソーラス22、処理情報DB23がある。
辞書21には、言語資源情報による更新対象となる、1つ以上の単語辞書が格納されている。これら単語辞書には、少なくとも語とこの語の意味に対応する概念を表す意味クラスを含む言語資源情報が複数記述されている。
シソーラス22には、1つ以上のシソーラスやオントロジーが格納されており、これらシソーラスやオントロジーには、少なくとも単語や意味クラス間の関係が記述されている。但し、これら辞書21とシソーラス22は一体化して構成してもよい。
処理情報DB23には、演算処理部1における言語資源情報生成処理で用いられる各種の処理情報がデータベース(DB)として登録されている。この処理情報DB23には、主な処理情報として、対象語獲得情報DB23A、意味クラス制限情報DB23B、および意味クラス推定情報DB23Cが登録されている。
対象語獲得情報DB23Aは、入力データXから対象語を獲得するためのルールなどの対象語獲得条件を記憶するデータベースである。
意味クラス制限情報DB23Bは、対象語に関する特徴量に基づいて、対象語に対して付与する意味クラスの種類を制限するためのルールや重みなどの意味クラス制限条件を記憶するデータベースである。
意味クラス推定情報DB23Cは、対象語に関する特徴量に基づいて、対象語に対して意味クラスを付与するためのルールや重みなどの意味クラス推定条件を記憶するデータベースである。
入出力1/F部3は、専用のデータ入出力回路からなり、CDやDVD、さらには不揮発性メモリカードなどの記録媒体Mとの間で、演算処理部1からの指示に応じて、入力データX、言語資源情報Y、辞書、データベースなどの各種データやプログラム24を入出力する機能を有している。
通信1/F部4は、専用のデータ入出力回路からなり、LANなどの通信回線を介して接続されたサーバーなどの外部装置との間で、演算処理部1からの指示に応じて、入力データX、言語資源情報Y、辞書、データベースなどの各種データやプログラム24を入出力する機能を有している。
操作入力部5は、キーボードやマウスなどの操作入力装置からなり、オペレーターの操作を検出して演算処理部1へ出力する機能を有している。
画面表示部6は、LDCやPCPなどの画面表示装置からなり、演算処理部1からの指示に応じて入力データXや言語資源情報Yなどの各種データや操作画面を画面表示する機能を有している。
図2は、本発明の第1の実施の形態にかかる言語資源情報生成装置の要部を示すブロック図である。
対象語獲得部11は、Web辞書などから獲得した入力データXを、記憶部2、入出力1/F部3、通信1/F部4、操作入力部5などから受け取って、既存の辞書21に登録すべき対象語を獲得する機能を有している。
特徴量抽出部12は、対象語獲得部11で獲得した対象語の意味内容を示す文字情報からなる特徴量(特徴情報)を入力データXから抽出する機能を有している。
意味クラス制限部13は、意味クラス制限情報DB23Bに登録されている意味クラス制限条件を参照し、対象語の特徴量に基づいて当該対象語に付与する意味クラスの大分類を特定することにより、シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限する機能を有している。
意味クラス選択部14は、意味クラス推定情報DB23Cに登録されている意味クラス推定条件を参照し、意味クラス制限部13で特定した対象語の大分類に含まれる意味クラスごとに、当該対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値をそれぞれ算出する機能と、これら評価値に基づいて当該対象語との関係度合いが最も大きい意味クラスを、当該対象語に付与する意味クラスとして選択する機能とを有している。
言語資源情報出力部15は、意味クラス選択部14で選択した各対象語の意味クラスを当該対象語にそれぞれ付与した言語資源情報Yを、記憶部2、入出力1/F部3、通信1/F部4、または画面表示部6へ出力する機能と、この言語資源情報Yにより記憶部2の辞書21やシソーラス22を更新する機能とを有している。
[第1の実施の形態の動作]
次に、図2を参照して、本発明の第1の実施の形態にかかる言語資源情報生成装置100の動作について説明する。ここでは、処理対象となる自然言語を日本語とする。但し、対象自然言語については、英語、中国語、スペイン語、ドイツ語、フランス語など、日本語以外の言語でもよい。
図3は、辞書の構成例である。
記憶部2の辞書21は、見出語ごとにその意味クラスが記述された辞書からなり、例えば対象自然言語を日本語とすると、日本語語彙大系(池原悟,宮崎雅弘,白井諭,横尾昭男,中岩浩巳,小倉健太郎,大山芳史,and 林良彦. 日本語語彙大系. 岩波書店, 1997.)の日本語辞書、EDR日本語単語辞書(情報通信機構. EDR電子化辞書 日本語単語辞書(改訂版), 2007.)、分類語彙表(国立国語研究所. 分類語彙表CD-ROM(増補改訂版). 大日本図書,2004.)などの既存の辞書が存在する。
図3に示すように、辞書21に格納される辞書の情報は、見出語と対応する意味クラスだけでなく、品詞情報や、各見出語の語義を定義した定義文、さらには他言語の対訳情報などが付与されていてもよい。例えば、見出語と意味クラスだけでなく、語義ごとの定義文が付与された辞書としては、Lexeed(笠原要,佐藤浩史,Francis Bond,田中貴秋,藤田早苗,金杉友子,and 天野昭成.「基本語意味データベース:lexeed」の構築. In 2004-NLC-159, pages 75-82, 2004.)や、他言語の対訳情報が付与された辞書としては上記日本語語彙大系の対訳辞書などがある。
また、辞書21に格納される辞書は1つである必要はなく、複数の辞書を格納してもよい。同じシソーラスに準拠する意味クラスを付与された辞書であれば、統一的に扱うことができるため、例えば前述したLexeedと日本語語彙大系を両方格納することが考えられる。
図4は、シソーラスの構成例である。
記憶部2のシソーラス22には、対象自然言語のシソーラスとして、辞書21に格納された辞書の意味クラス同士の意味関係が記述されている。シソーラス22は、対象自然言語を日本語とすると、例えば、辞書21に対応するシソーラスとしては、前述した日本語語彙大系、EDR概念辞書、分類語彙表のほか、檜オントロジー(Francis Bond, Eric Nichols, Sanae Fujita, and Takaaki Tanaka. Acquiring an ontology for a fundamental vocabulary. In Proceedings of the 20th International Conference on Computational Linguistics: COLING-2004, pages 1319-1325, Geneva, 2004.)などの既存のシソーラスが存在する。
但し、シソーラス22に格納されるシソーラスは1つである必要はなく、複数のシソーラスを格納してもよく、例えば前述した檜オントロジーと日本語語彙大系を両方格納することが考えられる。また、辞書とシソーラスは一体化されていてもよい。
図5は、入力データの構成例である。
入力データXは、対象自然言語を日本語とすると、例えば、「○○とは、××である。」「○○は、××のことである。」「○○は、××の一種である。」「○○(××のこと)」のような、少なくとも、語とその定義を示す内容を含んでいる。
図5では、入力データXを区別するために、便宜的にIDを付与しているが、IDは必ずしも必要ではない。また、ここではIDとして数字を利用しているが、必ずしも数字のみである必要はなく、文字や文字と数字の混合やアルファベット、記号など、数字以外の文字情報を用いてもよい。
図6は、対象語獲得条件の構成例である。
ここでは、入力データXから対象語を獲得するための対象語獲得条件が、文型を検索する文型検索パターンと当該文型の所定文字位置から得られる見出語および当該見出語に関する定義とからなるルールで構成されており、対象語獲得情報DB23Aに格納されている。
例えば、「○○とは、××である。」という文型については、○○部分の文字が見出語に相当し、××部分の文字が見出語に関する定義に相当することが規定されている。
ここで、○○の部分に(△△)が含まれ、△△が平仮名やカタカナなら読み、英語なら英訳、それ以外なら正式名称や別名、□□:××という形式なら、××は□□で指定されたもの、のようにルールを付加し、より多くの情報を獲得することもできる。
図7は、図5の入力データからの対象語獲得例である。
前述した図6に示したような対象語獲得条件を適用した場合、図5の入力データから図7のような対象語が獲得できる。例えば、図5の最初の例であれば、入力データXが、「ダルビッシュ有(だるびっしゅゆう、正式氏名:ダルビッシュセファット・ファリード・有)は、北海道日本ハムファイターズに所属するプロ野球選手(投手)である。」という自然言語データ(テキストデータ)となる。この場合、対象語獲得部11は、入力データXを受け取って、例えば図6の最初のルールに基づき、見出語「ダルビッシュ有」を対象語として獲得する。
また、図6の対象語獲得条件に加えて、(△△)が含まれ、△△が平仮名ならば読みである、というルールを適用すれば、読み「だるびっしゅゆう」も獲得できる。さらに、「正式氏名:ダルビッシュセファット・ファリード・有」から、正式氏名として、「ダルビッシュセファット・ファリード・有」を獲得することもできる。このほか、「メジャー」のように、対象語がカタカナや平仮名の場合、それ自身を読みとして扱うこともできる。また、読みに曖昧性のない漢字の場合も、その読みをそのまま読みとして利用できる。
ここまでは、対象語獲得情報DB23Aに登録される対象語獲得条件として、図6のような、字面に基づくルールを用いる場合について説明したが、既知の技術である、形態素解析器やチャンカー、構文解析器を実行し、主語らしき部分を対象語として獲得するようなルールを用いてもよい。また、字面に基づくルールと、形態素解析器やチャンカー、構文解析器の実行結果を利用するルールの両方を用いてもよい。
形態素解析器について、対象自然言語を日本語とすると、例えば、茶笙(http://chasen-legacy.sourcefbrge,jp/)や、JUMAN(http://nlp.kuee.kyoto-u.ac.jp/nl-resource/juman.html)などがある。
チャンカーについては、対象自然言語を日本語とすると、例えば、YamCha(http://chasen.org/taku/software/yamcha/)などがある。
構文解析器については、対象自然言語を日本語とすると、例えば、KNP(http://nlp.kuee.kyoto-u.ac.jp/nl-resource/knp.html)や、CaboCha(http://chasen.org/taku/software/cabocha/)などがある。
また、図5のような入力データを獲得できる言語資源としては、Wikipedia(http:/ja.wikipedia.org/wiki/)のようなWeb辞書や、電子化辞書、オンライン辞書がある。また、辞書としてまとまっていなくても、Web中の用語の解説などを抽出し、入力データとしてもよい。この際、図6のようなルールを、Webデータやコーパスから抽出するためのルールとして利用し、図6のようなルールに当てはまる文章を入力データとして抽出してもよい。
図8は、入力データの他の構成例である。
入力データXが、Web辞書や電子化辞書のように辞書形式の場合、一般的には、予め多くの見出語が登録されている。図8のように、入力データXの見出語に(△△)が含まれる場合、分野や詳細化情報などを示すルールを生成し、対象語獲得条件として用いることもできる。
また、定義文や見出語だけでなく、説明文全体や、リンク情報、被リンク情報を含め、入力データとして扱うことができる。例えば、図8において、アンダーラインで示している部分は、辞書中の他の見出語や、他のWebページ、同一ページ中の他の部分等へリンクされていることを示している。
こうしたリンクは、一般に、語や句など、意味のある集合に対して付与されるため、リンクの張られた部分をひと塊として、あるいはリンクの張られた部分から括弧を取り除くなどの簡単な処理を行うことにより、高い精度で対象語を獲得することができる。つまり、リンクとして切り出した語を、言語資源情報として登録する対象語として抽出することも考えられる。
図9は、図8の入力データからの対象語獲得例である。
図9の場合、「北海道日本ハムファイターズ」や「週間少年サンデー」など、リンクに利用された語を対象語として捉えることができる。このような場合、これらの語を対象語として扱うことになる。
但し、説明文ではなくても、定義文が出てくるページ全体を入力データXとして抽出する場合や、他のページへのリンクがある場合、リンク先の内容も入力データXとして利用することも考えられる。さらに、リンク先でリンクされているページの内容も入力データXとして利用することも考えられる。このように階層的にリンクを辿って入力データXを収集する場合、元のページから離れるに従いスコアを低くするよう、スコアに重みを付与することで、スコア調整することも考えられる。
また、入力データにおいて、ある形式に則って記述するためのテンプレートなどを利用していれば、どういったテンプレートを利用しているか、あるいは、このテンプレートにはどのような情報を記述できるか、といった情報、筆者(情報発信者)による分類やカテゴリ情報なども入力データとして扱うことができる。
図10は、入力データの他の構成例である。図11および図12は、図10の入力データからの対象語獲得例である。
前述した図8と同様、図10においてアンダーラインで示している部分は、辞書中の他の見出語や、他のWebページ、同一ページ中の他の部分等へリンクされていることを示している。図11,12では、図10の情報以外にも、筆者(情報発信者)によって利用されたテンプレートと、付与されたカテゴリ情報や分類情報を入力データXとして含んでいる。このようなカテゴリ情報や分類情報を、以下ではWebカテゴリと呼ぶ。
図13、図14、および図15は、入力データの他の構成例である。
定義文や説明文などがない場合でも、図13のように、見出語とWebカテゴリのみを入力データXとして利用することもできる。また、図14のように、見出語とテンプレートのみを入力データXとして利用することもできる。また、図15のように、各テンプレートに対し、そのテンプレートを利用している見出語をリストアップしたものを入力データXとして利用することもできる。
[特徴量抽出処理]
次に、演算処理部1の特徴量抽出部12における特徴量抽出処理について説明する。
特徴量抽出部12は、入力データXを受け取り、各対象語に対する特徴量を抽出する。特徴量としては、上位語、定義文、あるいは説明文に含まれるリンク情報、内容語、Webカテゴリ、テンプレートなどがあげられる。さらに、各上位語やリンク情報、内容語等が既知語の場合、これら既知語に付与された意味カテゴリや品詞情報のような様々な情報を、特徴量として抽出することが考えられる。
図16は、上位語の抽出例である。
前述した図8のような定義文から、図16に示すような上位語が抽出される。この場合、形態素単位から、名詞句のような比較的長い単位まで、様々な長さで検索することにより、入力データに含まれている各語を上位語として抽出している。なお、定義文からの上位語の抽出方法については、既知の方法を用いればよい(例えば、文献:Eric Nichols, Francis Bond, Takaaki Tanaka, Sanae Fujita, and Daniel Flickinger. Robust Ontology Acquisition from Multiple Sources. In Proceedings of COLING-2006 2nd Workshop on Ontology Learning and Population: Bridging the Gap between Text and Knowledge, pages 10-17, Sydney, 2006.や、文献:鶴丸弘昭,竹下克典,伊丹克企,柳川俊英, and 吉田将. 国語辞典情報を用いたシソーラスの作成について. In 情報処理学会自然言語処理研究会, volume83-16, pages l21-128, 1991.など参照)。
図17は、特徴量の抽出例である。
前述した図11,12において、定義文および説明文中でリンクを示している語を抜き出した場合、図17に示すような特徴量が抽出される。また、前述した図9は、図8において、定義文中でリンクを示している語を抜き出したものである。こうしたリンク情報を特徴量として利用することも考えられる。
図18は、特徴量の他の抽出例である。
特徴量として、図18に示すように、定義文や説明文などに出現する内容語を利用してもよい。但し、図18では、基本形のみだが、出現形や品詞情報、これらの組み合わせなども抽出してもよい。また、図13,14に示したような情報を特徴量として利用してもよい。図9,17,18,13,14に示したような情報は、特徴量としてそのまま利用してもよい。また、同じような情報源から抽出した特徴量であっても、定義文中のリンクと説明文中のリンクのように、異なる特徴量として扱ってもよい。
また、こうした情報を、形態素解析器やチャンカー等にかけて、形態素単位や句等の単位で特徴量として利用してもよい。さらに、その両方を特徴量として利用してもよい。さらに、そのリンクを示している語や形態素、形態素の組み合わせや、上位語等が既存辞書21に登録されている(既知語である)場合、既存辞書21から抽出できる情報(品詞や意味クラス等)も特徴量として抽出してもよい。これらの特徴量は、単独でも組み合わせて利用してもよい。
図19および図20は、特徴量の抽出リスト例である。
[意味クラス制限処理]
次に、演算処理部1の意味クラス制限部13における意味クラス制限処理について説明する。
意味クラス制限部13は、意味クラス制限情報DB23Bに登録されている意味クラス制限条件を参照して、対象語に 関する特徴量に基づいて、シソーラス22に記述されている意味クラスのうち、対象語に付与する意味クラスの種類を制限する。
図21は、意味クラス制限条件の構成例である。
ここでは、シソーラス22に基づく意味クラスとして、人(P)、組織(0)、物(N)、場所(L)、その他(S)という大分類が存在するものとし、入力データの分類(タイプ)と、対象語の特徴量に対する文字列比較条件と、この文字列比較条件が成立した際に付与される大分類との組から、意味クラス制限条件が構成されている。この大分類が、各対象語に付与候補となる意味クラスの範囲を制限する意味制限情報となる。
図22は、意味制限の獲得例である。
図21の意味クラス制限条件と対象語の特徴量とを用いれば、図22に示すような意味制限が対象語ごとに獲得できる。このような意味制限を獲得することができれば、「大富豪」がその他(S)であること、言い替えれば、人物(P)ではないことがわかるため、人(P)(〈178:富者〉を含む)、組織(0)、物(N)、場所(L)の配下の意味クラスについては、意味クラスの選択候補から予め除外しておくことができる。こうした意味クラスの制限は、特に、多義語に対する意味クラス推定の精度向上に対して有効である。また、多くの候補を予め絞ることができるため、計算量の削減になる。
図23は、意味クラス制限条件の他の構成例である。
意味クラス選択部14で用いる意味クラス制限条件では、図22のような大分類を識別するための識別コードを用いて記述してもよいが、図23に示すように、付与可能な意味クラスを記述してもよい。また、図22や図23のような意味制限を組み合わせてもよく、Webカテゴリだけでなく、様々な条件からルールを作成することが考えられる。
このように、意味クラス選択部14は、意味クラス制限部13を有し、意味クラス制限情報DB23Bを利用することで、対象語に対して、より最適な意味クラスを付与できる。但し、意味クラスの絞り込みは、後処理で行うことも考えられる。
[意味クラス選択処理]
次に、演算処理部1の意味クラス選択部14における意味クラス選択処理について説明する。
意味クラス選択部14は、意味クラス推定情報DB23Cに登録されている意味クラス推定条件を参照し、対象語に関する特徴量に基づいて、シソーラス22に記述されている各意味クラスのうち、意味クラス制限部13で付与した大分類に属する個々の意味クラスについて評価値を計算し、その評価値が最大になる意味クラスを対象語の意味クラスとして選択する。
図24は、意味クラス推定条件の構成例である。
ここでは、既存の辞書21に登録されている既知語の上位語と、既知語に付与されている意味クラスと、これら上位語と意味クラスとの関連度を示すスコア(評価値)、および当該上位語が持つ既知語の数との組から、意味クラス推定条件が構成されている。
例えば、「選手」という上位語を持つ既知語には〈48:男〉が付与されることが最も多い。「選手」という上位語を持つ語に〈48:男〉が付与される確率を示すスコアは、735849という値になっている。同様に、様々な特徴量に対し、意味クラスとの関連をスコア化し、意味クラス推定条件として意味クラス推定情報DB23Cへ登録しておくことができる。
こうした意味クラス推定情報DB23Cは、ヒューリスティックに計算してもよいし、各種機械学習手法を用いて計算してもよい。また、評価値はスコアや確率として、高い方がよいとして計算してもよく、コストとして、コストが最小になるように計算してもよい。
機械学習手法としては、例えば、CRF(Conditional Random Fields:Jun Suzuki, Erik McDermott, and Hideki Isozaki. Training conditional random fields with multivariate evaluation measures. In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics, pages 217-224, Sydney, Australia, July 2006. Association for Computational Linguistics.)や、ME(Maximam entropy:Robert Malouf.」 A comparison of algorithms for maximum entropy parameter estimation. In Proceedings of the 6th Conference on Computational Natural Language Learning: CoNLL-2002, Taipei, Taiwan, 2002.:http://tadm.sourceforge.net)、SVM(SupPort Vector Machine:Vladimir Naumovich Vapnik. Statistical Learning Theory (Adaptive and Learning Systems for Signal Processing, Communications, and Control). John Wiley & Sons, 1998.)などがある。
但し、意味クラス推定情報DB23Cとしては、推定方法が異なる複数種の意味クラス推定情報DBで構成してもよく、その場合、各意味クラス推定情報DBを用いて意味クラスを推定し、これら推定結果のうち、より確からしい結果を利用することなどが考えられる。
また、前述した図19や図20の特徴量リストでは、簡単化のため特徴量を少なくしているが、これらに示した特徴量以外にも、品詞や基本形、分野情報、Webページの構造(htmlのタグなど)を特徴量として利用するなど、様々な素性を利用することができる。
また、図24からは、「選手」という上位語を持つ既知語が、辞書21中に106個も存在するが、「アニメ」という上位語を持つ既知語は非常に少なく、2語しか存在しないこともわかる。このように、既知語の例が少ない場合、信頼度が低くなると考えられるため、既知語の数がある閾値を下回る場合には利用しない、あるいは、信頼度係数のようなものを用意して影響を小さくする、といったことも考えられる。
図25は、意味クラスごとのスコア計算例である。
意味クラス推定情報DB23Cと特徴量抽出部12で抽出された特徴量を元にして、対象語に付与した意味クラスごとにスコアを計算できる。なお、図25のうち、アンダーライン部分は、意味クラス制限部13によって予め除外される意味クラスであるが、ここでは便宜的に提示している。
図26は、意味クラス選択結果である。
ここでは、各意味クラスのうち、スコアが高いほど、当該対象語の意味クラスとして相応しいと仮定し、ある一定以上のスコアを有する意味クラスのみを、対象語に対する意味クラスとして選択したものである。図26の場合、閾値をスコア10とし、10以下の意味クラスは除外している。
また、シソーラス22における意味クラスの上位下位関係を調べ、上位下位関係にある意味クラスが両方残っている場合には、より下位(または、より上位)の意味クラスのみ残してもよい。図25では、〈962:機械〉と〈985:計器(度量衡)〉が閾値以上のスコアを有しているが、〈985:計器(度量衡)〉が〈962:機械〉の下位にあるため、〈985:計器(度量衡)〉のみを残している。
また、図25のようなスコアの計算を行う段階で、より下位(または、より上位)の意味クラスにスコアを集約して計算することも考えられる。また、集約する意味クラスがどの程度離れた階層にあるかによって係数を定め、スコアの集約方法を変化させてもよい。あるいは、一定以上離れた階層や、一定以上上位(下位)すぎる意味クラスは対象外とするなどの方法も考えられる。
また、意味クラスの推定と同様に、同じ上位語などの特徴量を持つ既知語から、対象語の品詞などを推定することもできる。前述した図26には、意味クラスと同時に品詞も表示している。
図27は、言語資源情報の構成例である。
ここでは、入力データXから対象語として獲得した見出語ごとに、意味クラスと品詞が推定され、言語資源情報として付与されている。前述した図3の既存辞書に登録されている情報と比較すると、図27のアンダーライン部分における、見出語「メジャー」とその意味クラス〈985:計器(度量衡)〉の組み合わせは、既存辞書に存在することがわかる。
このように、意味クラス選択部14によって得た結果と同じ内容が既存辞書に存在する場合、言語資源情報出力部15において、登録を見合わせることが考えられる。また、推定した意味クラスが、既存辞書に登録されていた意味クラスと近い(親子関係にあるなど)場合にも、登録を見合わせたり、どちらかの意味クラスに集約することが考えられる。
こうして生成した言語資源情報(意味クラス付き)Yは、言語資源情報出力部15により、辞書21に登録される。
[第1の実施の形態の効果]
このように、本実施の形態は、特徴量抽出部12により、入力データXから当該対象語の意味内容を示す文字情報を特徴量として抽出し、意味クラス制限部13により、意味クラス制限情報DB23Bに登録されている意味クラス制限条件を参照し、対象語の特徴量に基づいて当該対象語が持つ意味の大分類を特定することにより、シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限し、意味クラス選択部14により、意味クラス推定条件DB2Cに登録されている意味クラス推定条件を参照して、大分類に含まれる意味クラスごとに、対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値を算出し、これら評価値に基づいて当該対象語との関係度合いが大きい意味クラスを、当該対象語に付与する意味クラスとして選択している。
これにより、多くの意味クラスのうちから、対象語に付与する意味クラスを予め絞り込むことができ、結果として意味クラスの推定精度を向上させることができる。
例えば、「大富豪とは、トランプを使ったゲームの一つである。」という入力データから、対象語である「大富豪」という単語の意味クラスを推定する場合、「大富豪」に対して、〈178:富者〉および〈1679:ゲーム〉という意味クラスが候補として選択されうる。このとき、この場合の「大富豪」が人ではないということが認識されていれば、〈178:富者〉ではなく〈1679:ゲーム〉という正しい意味クラスを選択することができる。また、〈178:富者〉という意味の「大富豪」が既存の辞書やシソーラスに存在している場合でも、〈1679:ゲーム〉の意味の「大富豪」として、新たに登録することができる。
したがって、本実施の形態によれば、数千の意味クラスを持つ既存シソーラスに対しても、極めて正確に対象語をマッピングすることができ、Web上の文書などの電子化文書に基づいて、高い品質精度の言語資源情報を生成することが可能となる。
[第2の実施の形態]
次に、図28を参照して、本発明の第2の実施の形態にかかる言語資源情報生成装置100について説明する。図28は、本発明の第2の実施の形態にかかる言語資源情報生成装置の要部を示すブロック図であり、前述した図2と同じまたは同等部分には、同一符号を付してある。
本実施の形態では、意味クラス選択部14に整合性調整部14Aを設けた場合について説明する。
整合性調整部14Aは、既存の辞書やシソーラスに基づいて、対象語に付与した意味クラスを、既存の辞書やシソーラスとコンセンサスが取れるよう修正、追加、削除等の調整を行う機能を有している。この他の構成および動作については、第1の実施の形態と同様であり、ここでの詳細な説明は省略する。
[第2の実施の形態の動作]
次に、図28を参照して、本発明の第2の実施の形態にかかる言語資源情報生成装置100の動作について具体的に説明する。
意味クラス選択部14は、対象語に対して意味クラスを付与した後、整合性調整部14Aにより、既存の辞書21やシソーラス22とコンセンサスが取れるよう、対象語の意味クラスについて修正、追加、削除等の調整を行う。
図29は、意味クラス共起情報の構成例である。
意味クラス共起情報は、ある語に意味クラス(1)が付与されている場合に、意味クラス(2)も付与されている共起確率を示す情報であり、処理情報DB23の意味クラス共起情報DB23Dに登録されている。
整合性調整部14Aは、意味クラス共起情報DB23Dを参照して、意味クラス選択部14により付与された既付与意味クラスごとに、他の意味クラスとの共起確率を意味クラス共起情報DB23Dから取得し、これら共起確率を予め設定されている閾値と比較し、意味クラスの追加要否を判定する。ここで、閾値以上の高い共起確率を持つ他の意味クラスがあれば、この意味クラスも当該対象語の意味クラスとして追加付与する。
例えば、前述した図26の場合、「ダルビッシュ有」に対し、〈251:競技者〉という意味クラスは候補として挙げられたものの、十分な重要度や関連性が得られなかったために除外されて、最終的には付与されていない。しかし、図29に示されているように、任意の単語に〈360:選手〉が付与されている場合には、その単語に〈251:競技者〉も付与される確率が高いため、「ダルビッシュ有」に対して〈251:競技者〉が追加登録される。
図29では、意味クラス(1)と意味クラス(2)は、共起関係の方向性を考慮して、別個に扱っている。例えば、「牛」や「豚」などのように、〈843:肉・卵〉であれば〈537:獣〉である確率は高い。しかし、「虎」や「ライオン」など、〈537:獣〉であっても〈843:肉・卵〉ではない語も多いため、〈537:獣〉であれば〈843:肉・卵〉である確率は、比較的低くなっている。このため、先に〈537:獣〉という意味クラスが付与された場合、〈843:肉・卵〉という意味クラスが追加される確率は低くなる。
また、意味クラスや語の出現頻度で足きりをしたり、重みを変えたり、付与基準となる確率の閾値を変更したり、確率の計算方法を変更してもよい。また、整合性調整部14Aにおいて、意味クラス選択部14で付与した元の意味クラス間において共起確率を比較し、閾値未満の場合には、当該意味クラスを削除するようにしてもよい。さらに、前述した意味クラス間の方向性を考慮しなかったり、2つの意味クラス間だけでなく、3つ以上の関係を一度に考慮するよう変更してもよい。
[第2の実施の形態の効果]
このように、本実施の形態では、意味クラス選択部14に整合性調整部14Aを設け、既存の辞書21やシソーラス22から得た意味クラスの共起情報に基づいて、対象語の意味クラスについて修正、追加、削除等の調整を行うようにしたので、より高い精度で、既存の辞書21やシソーラス22とコンセンサスを取ることが可能となる。
例えば、「やぎは、…(中略)…動物である」という入力データから、対象語である「やぎ」の意味クラスを推定した場合、〈535:動物〉という意味クラスを付与するだけで、一見、正解のように見える。しかし、既存の辞書やシソーラスにおいて、「牛」や「羊」などは、〈537:獣〉と〈843:肉・卵〉の意味クラスが付与されているのであれば、コンセンサスを保つためには、「やぎ」に対しても、〈537:獣〉と〈843:肉・卵〉の意味クラスを付与すべきである。
本実施の形態によれば、既存の辞書やシソーラスにおいて、〈535:動物〉という意味クラスに対して〈537:獣〉と〈843:肉・卵〉の意味クラスとの共起性が高い場合には、「やぎ」に対しても、〈537:獣〉と〈843:肉・卵〉の意味クラスが付与される。これにより、既存の辞書やシソーラスとコンセンサスが得られ、自然言語処理する際に、「やぎ」と「牛」や「羊」とを統一的に処理することが可能となる。また、「やぎ」に対して〈843:肉・卵〉の意味クラスが付与されていれば、食肉としての意味で「やぎ」を扱うことができる。
[第3の実施の形態]
次に、図30を参照して、本発明の第3の実施の形態にかかる言語資源情報生成装置100について説明する。図30は、本発明の第3の実施の形態にかかる言語資源情報生成装置の要部を示すブロック図であり、前述した図2および図28と同じまたは同等部分には、同一符号を付してある。
本実施の形態では、演算処理部1に、意味クラス細分化部16を設けた場合について説明する。
意味クラス細分化部16は、対象語に付与された意味クラスおよび特徴量に基づき、対象語ごとに当該対象語の上位語を階層的に抽出する機能と、これら対象語の上位語に関する階層構造に基づきシソーラス22の意味クラスを細分化する機能を有している。この他の構成および動作については、第1の実施の形態と同様であり、ここでの詳細な説明は省略する。
[第3の実施の形態の動作]
次に、図30を参照して、本発明の第3の実施の形態にかかる言語資源情報生成装置100の動作について具体的に説明する。図30は、本発明の第3の実施の形態にかかる言語資源情報生成装置の要部を示すブロック図である。
意味クラス選択部14により、対象語に対して意味クラスが付与された後、意味クラス細分化部16は、対象語に付与された意味クラスおよび特徴量に基づいて、各対象語の上位語を階層的に抽出する。上位語の抽出方法については、前述した図16で説明した既知の方法を用いればよい。
続いて、意味クラス細分化部16は、これら対象語の上位語に関する階層構造のうち、共通する1つの共通上位語に従属する複数の上位語を細分化上位語として選択し、これら細分化上位語からなる意味カテゴリを、共通上位語の意味カテゴリの配下に加えることにより、意味カテゴリを細分化する。
この際、意味クラス選択部14において、既存シソーラス22より詳細な意味クラスを獲得しておき、これら意味クラスを既存シソーラス22に付与するようにしてもよい。
図31は、シソーラス作成結果である。
前述した図16によれば、ID:165396「ダルビッシュ有」と、ID:220888「伊達公子」、ID:2953「三浦知良」は、「選手」という共通の上位語1を持つことがわかる。したがって、上位語2および上位語3が、上位語「選手」に関する細分化上位語として選択される。
これにより、共通の上位語1の「選手」をキーとし、既存のシソーラス22における意味クラス〈360:選手〉の配下に、上位語2や上位語3に対応する意味クラスを新たに付与することにより、図31のように、既存のシソーラスの意味クラスの細分化および拡張が行われる。
この際、〈a:選手〉は、既シソーラスの〈360:選手〉の配下として扱ってもよく、〈360:選手〉と同じクラスとして扱ってもよい。但し、ID:165396「ダルビッシュ有」の上位語として、「選手」がなく、「野球選手」のみ獲得できていた場合であっても、上位語の一部「野球選手」が共通であれば、〈360:選手〉の配下として、「ダルビッシュ有」の上位語3「プロ野球選手」を、意味クラスの細分化に利用することも考えられる。
また、「選手」のように、共通の語が意味クラスとして存在しない場合でも、キーとなる上位語を持つ語が、多く分類される意味クラスの配下として付与することが考えられる。あるいは、〈360:選手〉という意味クラス配下に付与するだけでなく、共起しやすい〈251:競技者〉配下にも同時に付与することも考えられる。また、例えば、上位語「選手」をキーとした場合、上位語「選手」を持つ対象語が、〈251:競技者〉の方に分類される確率の方が、〈360:選手〉に分類される確率より高いのであれば、〈251:競技者〉配下に付与することも考えられる。
また、本例では、上位語をキーとして説明したが、上位語ではなく、Webカテゴリなど、他の特徴量を利用して、図31のようなシソーラスを構築することも考えられる。また、上位語とWebカテゴリの両方を利用することも考えられる。
図32は、言語資源情報の他の構成例である。
図32のように、既シソーラスにおける意味クラスの情報と、細分化された意味クラスの情報を両方保存しておくことで、既シソーラスで定義されている意味クラスのみを利用したい場合にも対応できる。また、既シソーラスより詳細な意味クラスを利用したい場合には、細分化した方の情報を利用することができる。また、既シソーラスを拡張するので、既シソーラスを利用したシステムやアプリケーションに容易に適用できる。
[第3の実施の形態の効果]
このように、本実施の形態では、演算処理部1に、意味クラス細分化部16を設け、対象語に付与された意味クラスおよび特徴量に基づき、対象語ごとに当該対象語の上位語を階層的に抽出し、これら対象語の上位語に関する階層構造に基づきシソーラス22の意味クラスを細分化するようにしたので、より詳細な分類が必要とされる場合や、時代の変化と共に新たに創出された意味クラスに対応することができる。
これにより、例えば、「ダルビッシュ有は、プロ野球選手である」や、「伊達公子は、プロテニス選手である」、「三浦知良は、プロサッカー選手である」のような入力データから、既存のシソーラスで定義されている意味クラス〈360:選手〉が獲得された場合、これら入力データから得られた対象語「ダルビッシュ有」、「伊達公子」、「三浦知良」の特徴量に基づき、〈プロ野球選手〉、〈プロテニス選手〉、〈プロサッカー選手〉のような意味クラスによって、既存のシソーラスを細分化することが可能となる。
[実施の形態の拡張]
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
10…言語資源情報生成装置、1…演算処理部、11…対象語獲得部、12…特徴量抽出部、13…意味クラス制限部、14…意味クラス選択部、15…言語資源情報出力部、16…意味クラス細分化部、2…記憶部、21…辞書、22…シソーラス、23…処理情報DB、23A…対象語獲得情報DB、23B…意味クラス制限情報DB、23C…意味クラス推定情報DB、23D…意味クラス共起情報DB、24…プログラム、X…入力データ、Y…言語資源情報、M…記録媒体。

Claims (6)

  1. 自然言語からなる入力データに含まれる対象語に対して、シソーラスに記述されている意味クラスのうちから、当該対象語の意味分類を示す意味クラスを選択して付与することにより、当該対象語に関する言語資源情報を生成する言語資源情報生成装置であって、
    前記入力データから当該対象語の意味内容を示す文字情報を特徴量として抽出する特徴量抽出部と、
    意味クラス制限情報データベースに登録されている意味クラス制限条件を参照し、前記対象語の特徴量に基づいて当該対象語が持つ意味の大分類を特定することにより、前記シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限する意味クラス制限部と、
    意味クラス推定情報データベースに登録されている意味クラス推定条件を参照し、前記対象語の大分類と対応する意味クラスごとに、当該対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値をそれぞれ算出し、これら評価値に基づいて当該対象語との関係度合いが最も大きい意味クラスを、当該対象語に付与する意味クラスとして選択する意味クラス選択部と
    意味クラス共起情報データベースに登録されている、前記シソーラスに記述されている各意味クラス間の共起確率を参照して、前記意味クラス選択部で選択された前記意味クラスと他の意味クラスとの間の共起確率を取得し、閾値以上の共起確率を持つ他の意味クラスを当該対象語の意味クラスとして追加する整合性調整部と
    を備えることを特徴とする言語資源情報生成装置。
  2. 自然言語からなる入力データに含まれる対象語に対して、シソーラスに記述されている意味クラスのうちから、当該対象語の意味分類を示す意味クラスを選択して付与することにより、当該対象語に関する言語資源情報を生成する言語資源情報生成装置であって、
    前記入力データから当該対象語の意味内容を示す文字情報を特徴量として抽出する特徴量抽出部と、
    意味クラス制限情報データベースに登録されている意味クラス制限条件を参照し、前記対象語の特徴量に基づいて当該対象語が持つ意味の大分類を特定することにより、前記シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限する意味クラス制限部と、
    意味クラス推定情報データベースに登録されている意味クラス推定条件を参照し、前記対象語の大分類と対応する意味クラスごとに、当該対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値をそれぞれ算出し、これら評価値に基づいて当該対象語との関係度合いが最も大きい意味クラスを、当該対象語に付与する意味クラスとして選択する意味クラス選択部と、
    対象語に付与された意味クラスおよび特徴量に基づき、対象語ごとに当該対象語の上位語を階層的に抽出し、これら対象語の上位語に関する階層構造に基づき前記シソーラスの意味クラスを細分化する意味クラス細分化部
    備えることを特徴とする言語資源情報生成装置。
  3. 自然言語からなる入力データに含まれる対象語に対して、シソーラスに記述されている意味クラスのうちから、当該対象語の意味分類を示す意味クラスを選択して付与することにより、当該対象語に関する言語資源情報を生成する言語資源情報生成装置で用いられる言語資源情報生成方法であって、
    特徴量抽出部が、前記入力データから当該対象語の意味内容を示す文字情報を特徴量として抽出する特徴量抽出ステップと、
    意味クラス制限部が、意味クラス制限情報データベースに登録されている意味クラス制限条件を参照し、前記対象語の特徴量に基づいて当該対象語が持つ意味の大分類を特定することにより、前記シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限する意味クラス制限ステップと、
    意味クラス選択部が、意味クラス推定情報データベースに登録されている意味クラス推定条件を参照し、前記対象語の大分類と対応する意味クラスごとに、当該対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値をそれぞれ算出し、これら評価値に基づいて当該対象語との関係度合いが最も大きい意味クラスを、当該対象語に付与する意味クラスとして選択する意味クラス選択ステップと
    整合性調整部が、意味クラス共起情報データベースに登録されている、前記シソーラスに記述されている各意味クラス間の共起確率を参照して、前記意味クラス選択部で選択された前記意味クラスと他の意味クラスとの間の共起確率を取得し、閾値以上の共起確率を持つ他の意味クラスを当該対象語の意味クラスとして追加する整合性調整ステップと
    を備えることを特徴とする言語資源情報生成方法。
  4. 自然言語からなる入力データに含まれる対象語に対して、シソーラスに記述されている意味クラスのうちから、当該対象語の意味分類を示す意味クラスを選択して付与することにより、当該対象語に関する言語資源情報を生成する言語資源情報生成装置で用いられる言語資源情報生成方法であって、
    特徴量抽出部が、前記入力データから当該対象語の意味内容を示す文字情報を特徴量として抽出する特徴量抽出ステップと、
    意味クラス制限部が、意味クラス制限情報データベースに登録されている意味クラス制限条件を参照し、前記対象語の特徴量に基づいて当該対象語が持つ意味の大分類を特定することにより、前記シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限する意味クラス制限ステップと、
    意味クラス選択部が、意味クラス推定情報データベースに登録されている意味クラス推定条件を参照し、前記対象語の大分類と対応する意味クラスごとに、当該対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値をそれぞれ算出し、これら評価値に基づいて当該対象語との関係度合いが最も大きい意味クラスを、当該対象語に付与する意味クラスとして選択する意味クラス選択ステップと、
    意味クラス細分化部が、対象語に付与された意味クラスおよび特徴量に基づき、対象語ごとに当該対象語の上位語を階層的に抽出し、これら対象語の上位語に関する階層構造に基づき前記シソーラスの意味クラスを細分化する意味クラス細分化ステップ
    備えることを特徴とする言語資源情報生成方法。
  5. コンピュータに、請求項3または請求項4に記載の言語資源情報生成方法の各ステップを実行させるためのプログラム。
  6. 請求項に記載のプログラムが記録された記録媒体。
JP2009136699A 2009-06-05 2009-06-05 言語資源情報生成装置、方法、プログラム、および記録媒体 Expired - Fee Related JP5254888B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009136699A JP5254888B2 (ja) 2009-06-05 2009-06-05 言語資源情報生成装置、方法、プログラム、および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009136699A JP5254888B2 (ja) 2009-06-05 2009-06-05 言語資源情報生成装置、方法、プログラム、および記録媒体

Publications (2)

Publication Number Publication Date
JP2010282517A JP2010282517A (ja) 2010-12-16
JP5254888B2 true JP5254888B2 (ja) 2013-08-07

Family

ID=43539171

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009136699A Expired - Fee Related JP5254888B2 (ja) 2009-06-05 2009-06-05 言語資源情報生成装置、方法、プログラム、および記録媒体

Country Status (1)

Country Link
JP (1) JP5254888B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3683694A4 (en) * 2017-10-26 2020-08-12 Mitsubishi Electric Corporation DEVICE AND METHOD FOR DEDUCTING A SEMANTIC RELATIONSHIP BETWEEN WORDS
CN116760942B (zh) * 2023-08-22 2023-11-03 云视图研智能数字技术(深圳)有限公司 一种全息互动远程会议方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3442422B2 (ja) * 1993-03-15 2003-09-02 株式会社東芝 同義語情報作成装置および方法
JPH07121536A (ja) * 1993-10-21 1995-05-12 Nippon Telegr & Teleph Corp <Ntt> 辞書未登録語属性推定装置
JP3663878B2 (ja) * 1998-01-26 2005-06-22 三菱電機株式会社 未知語概念推定装置及び未知語概念推定処理プログラムを記録したコンピュータ読みとり可能な記録媒体
JP2000231572A (ja) * 1999-02-10 2000-08-22 Nippon Telegr & Teleph Corp <Ntt> 名詞シソ−ラスへの未知語登録方法、その装置及び未知語登録プログラムを記録した記録媒体
JP2001022761A (ja) * 1999-07-05 2001-01-26 Nippon Telegr & Teleph Corp <Ntt> 未知語登録方法および未知語登録装置、並びに未知語登録用プログラムを記録した記録媒体
JP2005326952A (ja) * 2004-05-12 2005-11-24 Nippon Telegr & Teleph Corp <Ntt> 概念辞書への単語登録方法、装置、およびプログラム
JP5117744B2 (ja) * 2007-03-13 2013-01-16 日本電信電話株式会社 単語意味タグ付与装置および方法、プログラム並びに記録媒体
JP4963245B2 (ja) * 2007-03-16 2012-06-27 日本電信電話株式会社 構文・意味解析結果ランキングモデル作成方法および装置、プログラム並びに記録媒体
JP2008242626A (ja) * 2007-03-26 2008-10-09 Mitsubishi Electric Corp 用語登録装置

Also Published As

Publication number Publication date
JP2010282517A (ja) 2010-12-16

Similar Documents

Publication Publication Date Title
Bhatia et al. Automatic labelling of topics with neural embeddings
US9594747B2 (en) Generation of a semantic model from textual listings
JP7251181B2 (ja) 対訳処理方法および対訳処理プログラム
Pecina Lexical association measures and collocation extraction
US10496756B2 (en) Sentence creation system
Kiyoumarsi Evaluation of automatic text summarizations based on human summaries
US20130253916A1 (en) Extracting terms from document data including text segment
Brooke et al. Measuring Interlanguage: Native Language Identification with L1-influence Metrics.
JP7281905B2 (ja) 文書評価装置、文書評価方法及びプログラム
Serigos Using distributional semantics in loanword research: A concept-based approach to quantifying semantic specificity of Anglicisms in Spanish
JP2013174995A (ja) 基本語彙抽出装置、及びプログラム
Uhrig et al. Collocation candidate extraction from dependency-annotated corpora: exploring differences across parsers and dependency annotation schemes
JP6409071B2 (ja) 文の並び替え方法および計算機
JP5254888B2 (ja) 言語資源情報生成装置、方法、プログラム、および記録媒体
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5438603B2 (ja) 感性辞書編集支援システム及びプログラム
KR100559472B1 (ko) 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
Fazly Automatic acquisition of lexical knowledge about multiword predicates
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
JP2011039576A (ja) 特定情報検出装置、特定情報検出方法および特定情報検出プログラム
JP2012003573A (ja) 感性分析システム及びプログラム
JP5145288B2 (ja) 類義語辞書構築装置及び方法、コンピュータプログラム
JP2005326952A (ja) 概念辞書への単語登録方法、装置、およびプログラム
JP4059501B2 (ja) 自然語辞書更新装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111109

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20111110

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20111110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130122

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130416

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130418

R150 Certificate of patent or registration of utility model

Ref document number: 5254888

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160426

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees