JP5366810B2

JP5366810B2 - 自然言語のテキストからオントロジを開発するための、コンピュータによって使用される方法

Info

Publication number: JP5366810B2
Application number: JP2009528700A
Authority: JP
Inventors: ラルベット，フィリップ
Original assignee: アルカテル−ルーセント
Priority date: 2006-09-19
Filing date: 2007-09-17
Publication date: 2013-12-11
Anticipated expiration: 2027-09-17
Also published as: KR101416682B1; CN100576201C; EP1903454A1; FR2906049A1; KR20090069275A; WO2008034802A1; JP2010503937A; US8417512B2; CN101149732A; US20080071521A1

Description

本発明は、一般的にオントロジに関する。本発明は、より詳細には、自然言語のテキストからオントロジを開発するための、コンピュータによって使用される方法に関する。

本説明では、特に指示されない限り、以下の用語は示された意味で使用される。

「オントロジ」：オントロジは系統的な概念の構造化されたセットであり、たとえば、意味関係、または（オブジェクト意味で）構成と継承の関係がある可能性がある関係をグラフにまとめたものである。オントロジの目的は、所与のドメイン内の知識のセットのモデルを作ることである。

「ＯＷＬ」は、ユーザに情報を提供するだけでなく、そのコンテンツを処理しなければならないアプリケーションのために設計されたウェブ・オントロジ言語である。ＯＷＬは、メタデータを記述し、そのメタデータを確実に自動処理するためのグラフ・モデルを示す、ＲＤＦ（ＲｅｓｏｕｒｃｅＤｅｓｃｒｉｐｔｉｏｎＦｒａｍｅｗｏｒｋ）構文に基づくＸＭＬ「方言」である。ＯＷＬは、構造化されたウェブ・オントロジを定義するための手段を提供する。ＯＷＬ言語は、補足語彙および形式的意味のおかげで、たとえばＸＭＬを使用してウェブ・コンテンツを解釈するために、通常より大きい能力を機械に提供する。ＯＷＬは３つの部分言語、ＯＷＬＬｉｔｅ（またはＯＷＬ）ＯＷＬＤＬ、およびＯＷＬＦｕｌｌで構成されており、この表現力が増す。ＯＷＬ−Ｓ（Ｓは「ｓｅｍａｎｔｉｃ（意味の）」の略）は「意味」指向であり、まだ提案として存在するのみで、標準化されていない。

「ウェブ・サービス」は、使用されるオペレーティング・システムおよびプログラミング言語とは無関係に、通信プロトコルを使用して、たとえばＸＭＬに基づいて、アプリケーションまたは他のウェブ・サービスと動的に対話できる標準的なインタフェースを介してインターネット上でアクセス可能なアプリケーションを示す。このようなインタフェースのレベルでは、ウェブ・サービスは、入力データまたは「入力パラメータ」に基づいて結果をもたらす処理作業を含む。ウェブ・サービスを使用するために、その操作のうちの１つが呼び出され、所定の入力データが供給され、出力結果が回復される。

「ＵＭＬ」（ＵｎｉｆｉｅｄＭｏｄｅｌｉｎｇＬａｎｇｕａｇｅ：統一モデリング言語）は、オブジェクトを用いるモデリングのための（言語と言うよりも）表記法を示し、開発の間オブジェクト・システムの構成要素を決定して表すために使用され、また該当する場合にはその文書を生成するために使用される。ＵＭＬは現在ＯＭＧ（ＯｂｊｅｃｔＭａｎａｇｅｍｅｎｔＧｒｏｕｐ）標準である。これはＪｉｍＲｕｍｂａｕｇｈ、ＧｒａｄｙＢｏｏｃｈ、およびＩｖａｒＪａｃｏｂｓｏｎの研究を統合した成果であり、様々な方法で発展してきた。

「セマンティック・ウェブ」は、形式化された知識を発表、調査、そして何よりも処理を自動化するために使用されるワールド・ワイド・ウェブの拡張を示し、セマンティック・ウェブによって処理された文書は、自然言語でのテキストの代わりに、自動的に処理されるべき形式化された情報を含むことを意味する。

「ＸＭＬ」（ｅＸｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ：拡張可能なマーク付け言語）：ＳＧＭＬ（ＳｔａｎｄａｒｄＧｅｎｅｒａｌｉｚｅｄＭａｒｋｕｐＬａｎｇｕａｇｅ）言語が発展したものであり、特にＨＴＭＬ文書設計者によって、データ構造を個人化する目的で、独自のマーカを定義するために使用される。

現代の電気通信技術、特にインターネットによって、ユーザは様々なサービスに迅速にアクセスできるようになった。この分野では、特にセマンティック手法を使用して、既存のサービスを活用してサービスを開発するためのアプリケーションに関する限り、セマンティック・ウェブは大いに拡大中である。この点で、オントロジ、または、より一般的には意味記述が備わっているウェブ・サービスがますます多くなっている。

これに関連して、本発明者は以下の問題に対する解決策を発見するという目的を定めた：自然言語のテキストの意味記述を自動的に（たとえば、意味グラフ、または、言い換えればオントロジを介して）生成する。たとえば、そのテキストは、自然言語で書かれたユーザの問い合わせに対応できる。たとえば、このような問い合わせの意味記述があれば、その問い合わせに対応するウェブ・サービスの検索が容易になる。

現在、この問題に対する自動的解決策はない。ＰｒｏｔｅｇｅまたはＭｉｎｄＭａｎａｇｅｒなどの意味ツール、あるいはＲａｔｉｏｎａｌＲｏｓｅ、ＳｏｆｔｔｅａｍＯｂｊｅｃｔｅｅｒｉｎｇ、ＩＢＭ−ＲａｔｉｏｎａｌＸＤＥ、またはＭｉｃｒｏｓｏｆｔＵＭＬＶｉｓｉｏなどのＵＭＬモデリング・ツールさえも使用して、意味記述を「手動で」確立する手動解決策が知られている。実際、特定の構成のおかげで、ＵＭＬは意味記述に必要なすべての概念要素、つまり、継承、集合または結合の関係、属性、固定観念、基本データ、およびラベル付けされた値、制約などをカバーできる。

しかし、このような解決策は、主な理由として完全に手動であるため十分ではない。したがって実装に時間がかかり、エラーが発生しやすい。さらに、この解決策は主観的であり、結果はユーザ次第である。この結果は、取得された記述法において均一性に欠ける。

したがって、そのテキストに対応するテキスト・データから、自然言語でのテキストの意味記述を自動的に（すなわち、コンピュータによって）生成するための解決策が必要である。

この目的のために、本発明は、自然言語でのテキストのオントロジを開発するための、コンピュータによって使用される方法を提案し、この方法は、
テキストからテキスト・データを受信するステップと、
受信データの文法的分析を介して、テキストから構文と有意味の単語を抽出するステップと、
テキストの有意味の単語のうちの少なくとも一部ごとに、少なくとも１つの電子辞書を用いてその単語の定義を検索するステップと、その定義の構文と有意味の単語を抽出するステップと、およびその定義の基本の語彙グラフをその定義の構文と有意味の単語に基づいて作成するステップと、
テキストの構文に応じて、テキストの少なくとも１つの意味グラフを作成するために、作成された基本の語彙グラフのうちの少なくとも２つを統合するステップとを含む。

本発明の方法の好ましい実施形態は、以下の特徴のうちの１つまたは複数を有する：
本発明の方法は、統合するステップの前に、抽出されたテキストの構文と有意味の単語に基づいてテキストの有意味の単語間の関係を抽出するステップをさらに含み、統合するステップは、テキストの有意味の単語間のこれらの関係に基づく。
抽出する第１ステップが、そのテキストの文法的構造の文法的分析による抽出をさらに含み、前記構造が１つまたは複数の文法グループを含み、１つまたは複数の抽出された文法グループごとに少なくとも１つの意味グラフを作成するために、統合するステップが前記抽出された文法グループにさらに基づく。
本発明の方法が、テキストの有意味の単語ごとに、前記少なくとも１つの辞書を用いてその単語の同義語とそれらの同義語の定義を検索するステップをさらに含み、統合するステップが同義語の定義に応じてさらに行われる。
本発明の方法が、統合するステップの前に、有意味の単語ごとに発見された同義語を、その有意味の単語とその同義語の定義に応じて分類するステップをさらに含み、統合するステップが、同義語の分類結果に応じてさらに行われる。
本発明の方法が、作成された前記少なくとも１つの意味グラフに関連付けられていない構成要素を削除するステップをさらに含む。
それぞれのステップが、テキスト・データを受信するステップとは別に、テキスト・データを受信するステップ後に「オン・ザ・フライ」で行われる。
前記少なくとも１つの意味グラフが、ＯＷＬまたはＲＤＦなどのＸＭＬに基づいて言語に形式化される。
テキスト・データがサービス問い合わせのテキストに対応する。

本発明はウェブ・サービスを検索するための方法を提供し、この方法は、オントロジを開発するために本発明の方法によって作成された前記少なくとも１つの意味グラフを受信するステップと、受信された前記少なくとも１つの意味グラフに応じてウェブ・サービスを検索するステップを含む。

本発明は、さらに、本発明による方法のステップを実行できるように適合されたコンピュータ・プログラムと、コード手段を含む電子データ処理システムに関する。

本発明の他の特徴と諸利点は、例としてのみ与えられた以下の本発明の実施形態の詳細な説明を読み、実施例と添付の図面を参照すれば明らかになるだろう。

本発明の方法の一実施形態の、諸ステップと構成要素を示す流れ図である。自然言語でのユーザ問い合わせのテキストに行われた文法的分析を示す表である。図２の表に示された、文法的分析によって抽出された有意味の単語から得られる基本の語彙グラフのセットである。基本の語彙グラフを統合するステップと、そのグラフに関連付けられていない構成要素を削除するステップの後に得られる、図３のグラフである。

本発明の基本的な発想は、一方では、文法的分析によって生成される情報を使用し、他方では、同義語および定義などの、１つまたは複数の辞書内に発見される要素を使用して、オントロジ（すなわち、意味記述）をテキストのテキスト・データから直接開発することである。より詳細には、本発明の方法は、テキストのテキスト・データを受信する第１ステップを含む。次いで、受信データの文法的分析によって、テキストのテキスト・データから構文と有意味の単語が抽出される。次いで、電子辞書を使用してそれぞれの有意味の単語の定義が検索され、構文と有意味の単語がテキストのテキスト・データから抽出される。次いで、その定義の構文と有意味の単語に基づいて、その定義の基本の語彙グラフが作成される。次いで、テキストの有意味の単語に対応する基本の語彙グラフが統合される。この統合は、テキストの少なくとも１つの意味グラフを作成するために、最初のテキストの構文に応じて行われる。本発明が提供する解決策は体系化されたものであるので、自然言語でのテキストのオントロジの「手動」開発に関連付けられる欠点に対処する。

この処理は、それぞれのモジュールが所与のタスクに割り当てられている、複数の結合されたソフトウェア・モジュールを含むたとえばアシスタントまたはアプリケーションなどの「統合された」電子データ処理ツール内に実装されることが好ましい。

図１は、本発明の方法の一実施形態のステップと構成要素を示す流れ図である。

この図を参照すると、最初に自然言語でのテキストに対応するテキスト・データ１０が受信される。たとえば、このテキストはユーザがＰＣ、携帯情報端末、または移動電話から（たとえばＳＭＳによって）送信する、問い合わせのテキストである。

ステップＳ１００で、受信データ１０の文法的分析によって、構文（図１には図示せず）と有意味の単語２０がテキストから抽出される。文法的分析は、意味（意味論に関する意味；これについては後に説明する）とは独立に、テキスト内の単語の形式機能の分析を含む。このステップは、文法的分析器によって実装できる。このようなツールは市販されている。

このステップは、自然言語でのテキスト１０に関して行われる一般的な文法的分析の様々な態様をグループ化する表を示す、図２に例示されている。問い合わせは、テキスト「ＩｗａｎｔｔｏｏｂｔａｉｎａＦｒｅｎｃｈｔｒａｎｓｌａｔｉｏｎｏｆＣＮＮｎｅｗｓ．（私はＣＮＮニュースのフランス語訳を取得したい）」を含む。分析後、有意味の単語、すなわち「Ｉ（私は）」「ｗａｎｔ（欲しい）」「Ｆｒｅｎｃｈ（フランス語）」「ｔｒａｎｓｌａｔｉｏｎ（訳）」などだけが保持される。これらの単語は、表の左から１列目に置かれる。「ａ」「ｔｈｅ」などの冠詞および接続詞は除外される。次の列では、有意味の単語が特徴付けられる（人称代名詞、動詞など）。最後の２列で、有意味の単語間の関係が強調される。たとえば、「Ｉ」は、（動詞）「Ｗａｎｔ」の主語である。

再び図１を参照すると、本方法は、それぞれの抽出された有意味の単語Ｍ（Ｍは最初のテキストの有意味の単語を示す）の定義４０を検索するステップＳ２００をさらに含む。このステップは、電子辞書３０、一般的には語彙の辞書が必要であり、その辞書から定義が抽出される。

次いで、この定義から構文と有意味の単語ｍが抽出され、その定義の概念４０のための基礎となる。有意味の単語Ｍの定義内に発生する有意味の単語ｍを、単語Ｍ自体から区別する必要がある。定義から構文と有意味の単語を抽出することにより、それらの定義の概念４０が客観化される。これにより、必要ならば定義間の有意味の比較ができるようになり、さらには最初のテキストの有意味の単語Ｍ間に関係を確立できるようになる。このステップの結果は、最初のテキストの第１の意味の安定化である。

ステップＳ３００で、それぞれの定義ごとに、すなわち、オリジナル・テキストの有意味の単語Ｍごとに、それぞれの定義の構文と有意味の単語ｍに基づいて、基本の語彙グラフ５０が作成される。しかし、問い合わせの意味と自明に関連付けられるある種の単語（たとえば、図２の例における「Ｉ」と「Ｗａｎｔ」）は除外されることが好ましい。より一般的には、「Ｉｗａｎｔ（私は欲しい）」「Ｉｗｉｓｈ（私は望む）」「Ｉｎｅｅｄ（私は必要である）」などの問い合わせを特徴付ける表現は例外として、名詞、動詞、形容詞といったすべての「有意味の」単語が維持される。したがって、保持された単語Ｍごとに基本のグラフが構築されるが、このグラフは一般的には単語Ｍの定義の有意味の単語ｍを含む。したがって、ある程度この「基本の」グラフは単語Ｍの「マイクロ−オントロジ」を表す。

本方法は、最初のテキストの、それぞれの有意味の単語Ｍの同義語４５を検索するステップに加えて、それらの同義語の定義を検索するステップをさらに含むことが好ましい。たとえば、同義語検索は、有意味の単語Ｍの定義から、単語の同義語を体系的に検索する形をとることができる。この目的のために、この検索は、定義の辞書３０とは別に辞書３５を使用できる。しかし、単語の定義と同義語を統合して、同じデータベースを使用できる。一般的には、最初のテキストの有意味の単語Ｍと同じ方法で同義語の定義が具体化される。

さらに、単語の同義語は、その単語のそれぞれの定義と、その単語の同義語に応じて分類されることが好ましい。一般的には、分類結果に応じて「主要な」同義語だけが保持される。「主要な」同義語とは、たとえば、定義の概念が、参照する有意味の単語の概念と大部分で同じである同義語を意味する。

したがって、基本のグラフは、参照する有意味の単語Ｍの同義語を含むことができる。

図３は、上記で説明した文法的分析によって抽出された有意味の単語Ｍから得られる基本の語彙グラフを示す（図２の表を参照）。この図を参照すると、基本グラフは単語「Ｆｒｅｎｃｈ」、「Ｔｒａｎｓｌａｔｉｏｎ」、「ＣＮＮ」および「Ｎｅｗｓ」によって表される。分析によりユーザ問い合わせの意味を明らかにした主語と動詞は、この段階では除外される。したがって、最初のテキストの有意味の単語の一部分だけが、実際に基本グラフ作成の対象になりうる。

このグラフは、定義の抽出から生じる関係を示す。この図において、実線で囲まれた単語は最初のテキストの有意味の単語である。点線はオブジェクトの意味の継承関係（言い換えれば、クラスからサブ・クラスへの関係）を示す。たとえば、「Ｆｒｅｎｃｈ」は「Ｌａｎｇｕａｇｅ（言語）」から継承し、「ＣＮＮ」は「ＰｒｏｐｅｒＮａｍｅ（固有名詞）」から継承する。破線は同義語を示し、鎖線は他のタイプの関係を示しており、たとえば「Ｔｅｘｔ（テキスト）」は「ｉｓｗｒｉｔｔｅｎｗｉｔｈ（で書かれた）」というタイプの関係によって「Ｓｏｕｒｃｅ（起点の）」または「Ｔａｒｇｅｔ（目的の）」に関連付けられている。さらに、「Ｓｏｕｒｃｅ」と「Ｔａｒｇｅｔ」は必ず異なっていなければならないことを含意する制約によって、「Ｓｏｕｒｃｅ」と「Ｔａｒｇｅｔ」をマーク付けできる。これは、単純な外部ラベルによって得られる。このようなラベルは体系的には生成されないが、これは使用される定義の豊富さに依存する。

この段階では、できるだけ多くの「マイクロ・オントロジ」を構成する基本グラフしかない。次に説明するように、再び図１を参照すると、テキストの最後のオントロジはこれらの「マイクロ・オントロジ」を統合することによって生じる。

本発明の方法は、作成された基本の語彙グラフ５０のうちの少なくとも２つを統合するステップＳ４００をさらに含み、すなわち、基本グラフの組の統合が体系的に検索される。

必要に応じて、この統合は、最初のテキストの少なくとも１つの意味グラフ６０を作成するために、（文法的分析によって）抽出されたテキストの構文と有意味の単語に応じて行われる。この意味グラフが、必要とされるオントロジの範囲を定める。

上述の通り、文法的分析により最初のテキストの構文と有意味の単語が明らかになるので、テキストの有意味の単語間の関係の存在が表面化する。したがって、言い換えれば、統合は少なくとも最初のテキストの有意味の単語間の表面化された関係の存在に基づいて行われる。

しかし、統合するステップは明確にこれらの関係に基づくことができる、すなわち、その関係が存在するという単なる事実に加えて、その関係の意味を考慮に入れることができる点に留意すべきである。これは、たとえば、統合されたグラフの構成要素（すなわち、概念としての言葉）はより容易に適応できることを意味する。

文法的分析（ステップＳ１００）は、最初のテキストからの文法的構造の抽出と、特に、１つまたは複数の文法的グループ（「文法的グループ」は、名詞補語（「ＣＮＮｎｅｗｓ」）、属性、形容辞（「Ｆｒｅｎｃｈｔｒａｎｓｌａｔｉｏｎ」）などのタイプの、単純な文法的関係によって関連付けられた語句の単語の一部を意味する）をさらに含むことが好ましい。上述の例では、これらのグループには、
「Ｉｗａｎｔ」（グループ１）
「Ｆｒｅｎｃｈｔｒａｎｓｌａｔｉｏｎ」（グループ２）
「ＣＮＮｎｅｗｓ」（グループ３）
がある。次いで、文法的グループごとに少なくとも１つの意味グラフ６０を作成するために、抽出された文法的グループに基づいて統合（ステップＳ４００）が試みられる。そうすると、グループにつき少なくとも１つの意味グラフが得られる。これは、文法的グループが首尾一貫した概念を通常反映するという点でいっそう好都合であり、文法的グループのオブジェクトは相補的または関連付けられている。抽出された文法的構造は、語句、命題などに関連付けられた情報をさらに含むことができる。特に、統合を徐々に進行させるために、文法的グループ間の関連を使用できる。したがって、文法的構造に関する情報が統合の構築を支援する。

同様に、同義語の存在と同義語の定義は、同義語が異なる語彙グラフからの単語間の関係を強調する限り、統合に影響を与えることができる。そうすると、異なる語彙グラフからの単語間の関係が、異なる語彙グラフ間の統合を構築する支援をする。

一実施形態では、問い合わせの文法的構造と、異なる基本の語彙グラフ間の（意味的に）隣接する用語の値の両方を考慮して、統合は非常に単純な方法で行われる。文法的構造に関する限り、ここで文法的グループの構造がより詳細に意味される。（意味的に）隣接する用語の値に関する限り、「隣接」の程度は、隣接する用語間にある可能性がある関係（すなわち、異なる基本の語彙グラフから関連付けられている単語の関係）に依存する。ここでは、これらの基本グラフは、所与の文法的グループを構成する単語で組み立てられている点に留意すべきである。上記で説明した例では、グループ１の「Ｆｒｅｎｃｈｔｒａｎｓｌａｔｉｏｎ」では、文法的構造（２つの単語が名詞−形容辞関係によって関連付けられている）と、たとえば「Ｆｒｅｎｃｈ」側の「ｌａｎｇｕａｇｅ」、および「ｔｒａｎｓｌａｔｉｏｎ」側で「ｔｅｘｔ」に関連付けられている「ｌａｎｇｕａｇｅ」などの、２つの基本の語彙グラフからの用語間の既存の関係との両方が考慮されている（図３参照）。

上記で説明したステップ（Ｓ１００−Ｓ４００）のうちのいくつかは、アルゴリズムの性能の理由で、交互配置ができる点に留意すべきである。たとえば、問い合わせ受信後、構文と有意味の単語２０をテキストから抽出するステップと、その有意味の単語の定義を検索するステップと、およびそれらの定義を分析するステップ（Ｓ２００）が部分的に付随する場合がある。同様に、ある単語の検索が一旦終了すると、それぞれの単語の分析終了を待たずに、対応する基本グラフの構築を開始できる。同じ一連の考えにおいて、２つのグラフが利用可能になるとすぐに統合検索を行うことができる。したがって、これらのステップが必ずしも次々に行われる必要はない。

さらに、一実施形態では、たとえばユーザ問い合わせ１０に応答してテキスト・データを受信するステップの後に、ステップＳ１００−Ｓ４００を（場合によっては、交互配置されることに加えて）「オン・ザ・フライ」で行うことができる。これは、特にユーザから発せられた問い合わせを満たすために提供される。一般的に、ユーザが自分の問い合わせを明確に作成し、次いで、その問い合わせのオントロジ（すなわち、少なくとも１つの意味グラフ６０を含む）が生成され、対応するウェブ・サービスが検索される。

本方法は、作成された意味グラフ６０に関連付けられていない構成要素を削除するステップＳ５００を含むことが好ましい。これにより、有用でないグラフ部分が削除されるので、結局処理が単純化される。次いで、最後の意味グラフ７０が得られる。

前の例に戻って図４を参照すると、特に「Ｆｒｅｎｃｈ」と「Ｔｒａｎｓｌａｔｉｏｎ」に関するグラフが統合されていることが明らかである。図１の表が、「Ｆｒｅｎｃｈ」と「Ｔｒａｎｓｌａｔｉｏｎ」の間の文法的関係の存在を示すことを思い出されたい。したがって、最初のテキストの構文と有意味の単語は、単語「Ｆｒｅｎｃｈ」と「Ｔｒａｎｓｌａｔｉｏｎ」に関するグラフのその後の統合に必要な要素を含んだ。より正確には、一方では、単語「Ｆｒｅｎｃｈ」と「Ｔｒａｎｓｌａｔｉｏｎ」の間の特定の関係（「Ｆｒｅｎｃｈ」は「Ｔｒａｎｓｌａｔｉｏｎ」の形容辞である）と、他方では、「Ｔｒａｎｓｌａｔｉｏｎ」、「Ｔｅｘｔ」および「Ｔａｒｇｅｔｌａｎｇｕａｇｅ」の間の関係（「Ｔａｒｇｅｔｌａｎｇｕａｇｅ」は意味特性）により、単語／概念の「Ｌａｎｇｕａｇｅ」によって「Ｔｒａｎｓｌａｔｉｏｎ」に付随する「Ｆｒｅｎｃｈ」と「Ｔａｒｇｅｔｌａｎｇｕａｇｅ」の間に意味分岐を行うことができるようになった。この点については、この例において以下の「ｔｒａｎｓｌａｔｉｏｎ」の定義が使用されている点に留意すべきである：「言語（目標言語）におけるテキストのバージョンは、書かれたテキストのバージョン（起点言語）とは異なる」。

同様に、「Ｎｅｗｓ」および「ＣＮＮ」に関する概念の間の統合を行うことが可能である。

「Ｉｎｔｅｒｎｅｔｆｏｒｕｍ（インターネット・フォーラム）」または「Ａｃｒｏｎｙｍ（頭字語）」などの関連付けられていない用語も削除されている。

単語間、または概念間に関係が存在することが、必ずしも統合につながらない点にさらに留意されたい。たとえば、「Ｎｅｗｓ」と「Ｔｒａｎｓｌａｔｉｏｎ」の間には関係が存在するにもかかわらず、図４にある２つのグラフは関連付けられていない。

この点については、すべての概念を統合するためにそれぞれの概念を必要以上に（意味的に）拡大しようとしないことが好都合な場合がある。それぞれの概念を必要以上に拡大すると、的を絞りすぎ、個人化されすぎた、単一の最終的なグラフにつながる。的を絞りすぎた問い合わせに対応するウェブ・サービスの確率はほとんどない。したがって、それぞれのウェブ・サービスが問い合わせから得られる１つのグラフに対応する、複数のウェブ・サービスの発見を目的とする方がよい。これは、明らかに最終目的次第である：他のアプリケーションでは、最大限のグラフを統合することが目的の場合がある。最終グラフの細分性のレベルは、経験を考慮して調整および訂正できる。上述の例では、「Ｎｅｗｓ」と「Ｔｒａｎｓｌａｔｉｏｎ」の間の（元の問い合わせにおける）関係が発見される場合があるが、最終グラフを個人化しすぎる場合があるこの関連を作成しないことが好ましい。

最終的に得られる意味グラフ７０は、たとえばＯＷＬまたはＲＤＦなどのＸＭＬに基づいて言語に単純に形式化できる。したがって、上記で説明した方法により、首尾一貫した体系的な意味記述が生成される。

当然、最初の問い合わせ１０が適切に作成され明確であれば、本方法はより効果的であることは明らかである。特に、最初の問い合わせ１０は好都合なことに主語−動詞−補語の形をとることができ、該当する場合には明らかな名詞的補語で修飾できる。

Claims

自然言語のテキスト（１０）のオントロジ（７０）を開発するための、コンピュータによって使用される方法であって、
該テキスト（１０）からテキスト・データを受信するステップと、
該受信データの文法的分析（Ｓ１００）によって、該テキストから構文と有意味の単語Ｍ（２０）を抽出するステップと、
該テキストの該有意味の単語Ｍ（２０）のうちの少なくとも一部の各々について、少なくとも１つの電子辞書（３０）を用いてその有意味の単語Ｍ（２０）の定義（４０）を検索するステップ（Ｓ２００）と、該定義の構文と有意味の単語ｍを抽出するステップと、少なくとも１つの電子辞書（３５）を用いて、該有意味の単語Ｍ（２０）のうちの少なくとも一部の各々の同義語（４５）とそれらの同義語の定義を検索するステップと、及び該有意味の単語Ｍ（２０）のうちの少なくとも一部の各々の定義の該構文と該有意味の単語ｍに基づいて、その定義の基本の語彙グラフ（５０）を作成するステップ（Ｓ３００）とを含み、該基本の語彙グラフ（５０）は、該有意味の単語Ｍ（２０）の少なくとも一部の各々の該同義語を含み、
該テキストの少なくとも１つの意味グラフ（６０）を作成するために、該テキストの該構文及び該同義語の該定義に応じて、作成された該基本の語彙グラフ（５０）のうちの少なくとも２つを統合するステップ（Ｓ４００）とを含む方法。
請求項１に記載の方法において、
該統合するステップ（Ｓ４００）の前に、抽出された該テキストの該構文と該有意味の単語に基づいて、該テキストの該有意味の単語間の関係を抽出するステップをさらに含み、該統合するステップが該テキストの有意味の単語間のこれらの関係に基づく方法。
請求項１に記載の方法において、
該テキストから構文と有意味の単語Ｍ（２０）を抽出するステップが、該テキストの文法的構造の該文法的分析（Ｓ１００）による該抽出をさらに含み、該構造が１つ又は複数の文法的グループを含み、
１つ又は複数の抽出された文法的グループの各々について少なくとも１つの意味グラフ（６０）を作成するために、該統合するステップ（Ｓ４００）が該抽出された文法的グループにさらに基づく方法。
請求項１に記載の方法において、
該統合するステップの前に、
有意味の単語ごとに発見された該同義語を、その有意味の単語とその同義語の該定義に応じて分類するステップをさらに含み、
該統合するステップが、該同義語の該分類結果に応じてさらに行われる方法。
請求項１に記載の方法において、
作成された該少なくとも１つの意味グラフ（６０）に関連付けられていない構成要素を削除するステップ（Ｓ５００）をさらに含む方法。
請求項１に記載の方法において、
それぞれの該ステップ（Ｓ１００〜Ｓ４００）が、該テキスト・データを受信する該ステップとは別に、該テキスト・データを受信する該ステップ後に「オン・ザ・フライ」で行われる方法。
請求項１乃至６のいずれか１項に記載の方法において、
該少なくとも１つの意味グラフ（６０）が、ＯＷＬ又はＲＤＦなどのＸＭＬに基づいて言語に形式化される方法。
請求項１に記載の方法において、
該テキスト・データがサービス問い合わせ（１０）のテキストに対応する方法。
ウェブ・サービスを検索する方法であって、
請求項８に記載の該方法によって作成された該少なくとも１つの意味グラフ（６０）を受信するステップと、
受信された該少なくとも１つの意味グラフに応じてウェブ・サービスを検索するステップを含む方法。
請求項１乃至９のいずれか１項に記載の該方法の該ステップを実行できるように適合された、コンピュータ・プログラム。
請求項１乃至９のいずれか１項に記載の該方法の該ステップを実行できるように適合された、コード手段を含む電子データ処理システム。