JP5366810B2 - 自然言語のテキストからオントロジを開発するための、コンピュータによって使用される方法 - Google Patents

自然言語のテキストからオントロジを開発するための、コンピュータによって使用される方法 Download PDF

Info

Publication number
JP5366810B2
JP5366810B2 JP2009528700A JP2009528700A JP5366810B2 JP 5366810 B2 JP5366810 B2 JP 5366810B2 JP 2009528700 A JP2009528700 A JP 2009528700A JP 2009528700 A JP2009528700 A JP 2009528700A JP 5366810 B2 JP5366810 B2 JP 5366810B2
Authority
JP
Japan
Prior art keywords
text
meaningful
definition
graph
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009528700A
Other languages
English (en)
Other versions
JP2010503937A (ja
Inventor
ラルベット,フィリップ
Original Assignee
アルカテル−ルーセント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アルカテル−ルーセント filed Critical アルカテル−ルーセント
Publication of JP2010503937A publication Critical patent/JP2010503937A/ja
Application granted granted Critical
Publication of JP5366810B2 publication Critical patent/JP5366810B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Description

本発明は、一般的にオントロジに関する。本発明は、より詳細には、自然言語のテキストからオントロジを開発するための、コンピュータによって使用される方法に関する。
本説明では、特に指示されない限り、以下の用語は示された意味で使用される。
「オントロジ」:オントロジは系統的な概念の構造化されたセットであり、たとえば、意味関係、または(オブジェクト意味で)構成と継承の関係がある可能性がある関係をグラフにまとめたものである。オントロジの目的は、所与のドメイン内の知識のセットのモデルを作ることである。
「OWL」は、ユーザに情報を提供するだけでなく、そのコンテンツを処理しなければならないアプリケーションのために設計されたウェブ・オントロジ言語である。OWLは、メタデータを記述し、そのメタデータを確実に自動処理するためのグラフ・モデルを示す、RDF(Resource Description Framework)構文に基づくXML「方言」である。OWLは、構造化されたウェブ・オントロジを定義するための手段を提供する。OWL言語は、補足語彙および形式的意味のおかげで、たとえばXMLを使用してウェブ・コンテンツを解釈するために、通常より大きい能力を機械に提供する。OWLは3つの部分言語、OWL Lite(またはOWL)OWL DL、およびOWL Fullで構成されており、この表現力が増す。OWL−S(Sは「semantic(意味の)」の略)は「意味」指向であり、まだ提案として存在するのみで、標準化されていない。
「ウェブ・サービス」は、使用されるオペレーティング・システムおよびプログラミング言語とは無関係に、通信プロトコルを使用して、たとえばXMLに基づいて、アプリケーションまたは他のウェブ・サービスと動的に対話できる標準的なインタフェースを介してインターネット上でアクセス可能なアプリケーションを示す。このようなインタフェースのレベルでは、ウェブ・サービスは、入力データまたは「入力パラメータ」に基づいて結果をもたらす処理作業を含む。ウェブ・サービスを使用するために、その操作のうちの1つが呼び出され、所定の入力データが供給され、出力結果が回復される。
「UML」(Unified Modeling Language:統一モデリング言語)は、オブジェクトを用いるモデリングのための(言語と言うよりも)表記法を示し、開発の間オブジェクト・システムの構成要素を決定して表すために使用され、また該当する場合にはその文書を生成するために使用される。UMLは現在OMG(Object Management Group)標準である。これはJim Rumbaugh、Grady Booch、およびIvar Jacobsonの研究を統合した成果であり、様々な方法で発展してきた。
「セマンティック・ウェブ」は、形式化された知識を発表、調査、そして何よりも処理を自動化するために使用されるワールド・ワイド・ウェブの拡張を示し、セマンティック・ウェブによって処理された文書は、自然言語でのテキストの代わりに、自動的に処理されるべき形式化された情報を含むことを意味する。
「XML」(eXtensible Markup Language:拡張可能なマーク付け言語):SGML(Standard Generalized Markup Language)言語が発展したものであり、特にHTML文書設計者によって、データ構造を個人化する目的で、独自のマーカを定義するために使用される。
現代の電気通信技術、特にインターネットによって、ユーザは様々なサービスに迅速にアクセスできるようになった。この分野では、特にセマンティック手法を使用して、既存のサービスを活用してサービスを開発するためのアプリケーションに関する限り、セマンティック・ウェブは大いに拡大中である。この点で、オントロジ、または、より一般的には意味記述が備わっているウェブ・サービスがますます多くなっている。
これに関連して、本発明者は以下の問題に対する解決策を発見するという目的を定めた:自然言語のテキストの意味記述を自動的に(たとえば、意味グラフ、または、言い換えればオントロジを介して)生成する。たとえば、そのテキストは、自然言語で書かれたユーザの問い合わせに対応できる。たとえば、このような問い合わせの意味記述があれば、その問い合わせに対応するウェブ・サービスの検索が容易になる。
現在、この問題に対する自動的解決策はない。ProtegeまたはMindManagerなどの意味ツール、あるいはRational Rose、Softteam Objecteering、IBM−Rational XDE、またはMicrosoft UML VisioなどのUMLモデリング・ツールさえも使用して、意味記述を「手動で」確立する手動解決策が知られている。実際、特定の構成のおかげで、UMLは意味記述に必要なすべての概念要素、つまり、継承、集合または結合の関係、属性、固定観念、基本データ、およびラベル付けされた値、制約などをカバーできる。
しかし、このような解決策は、主な理由として完全に手動であるため十分ではない。したがって実装に時間がかかり、エラーが発生しやすい。さらに、この解決策は主観的であり、結果はユーザ次第である。この結果は、取得された記述法において均一性に欠ける。
したがって、そのテキストに対応するテキスト・データから、自然言語でのテキストの意味記述を自動的に(すなわち、コンピュータによって)生成するための解決策が必要である。
この目的のために、本発明は、自然言語でのテキストのオントロジを開発するための、コンピュータによって使用される方法を提案し、この方法は、
テキストからテキスト・データを受信するステップと、
受信データの文法的分析を介して、テキストから構文と有意味の単語を抽出するステップと、
テキストの有意味の単語のうちの少なくとも一部ごとに、少なくとも1つの電子辞書を用いてその単語の定義を検索するステップと、その定義の構文と有意味の単語を抽出するステップと、およびその定義の基本の語彙グラフをその定義の構文と有意味の単語に基づいて作成するステップと、
テキストの構文に応じて、テキストの少なくとも1つの意味グラフを作成するために、作成された基本の語彙グラフのうちの少なくとも2つを統合するステップとを含む。
本発明の方法の好ましい実施形態は、以下の特徴のうちの1つまたは複数を有する:
本発明の方法は、統合するステップの前に、抽出されたテキストの構文と有意味の単語に基づいてテキストの有意味の単語間の関係を抽出するステップをさらに含み、統合するステップは、テキストの有意味の単語間のこれらの関係に基づく。
抽出する第1ステップが、そのテキストの文法的構造の文法的分析による抽出をさらに含み、前記構造が1つまたは複数の文法グループを含み、1つまたは複数の抽出された文法グループごとに少なくとも1つの意味グラフを作成するために、統合するステップが前記抽出された文法グループにさらに基づく。
本発明の方法が、テキストの有意味の単語ごとに、前記少なくとも1つの辞書を用いてその単語の同義語とそれらの同義語の定義を検索するステップをさらに含み、統合するステップが同義語の定義に応じてさらに行われる。
本発明の方法が、統合するステップの前に、有意味の単語ごとに発見された同義語を、その有意味の単語とその同義語の定義に応じて分類するステップをさらに含み、統合するステップが、同義語の分類結果に応じてさらに行われる。
本発明の方法が、作成された前記少なくとも1つの意味グラフに関連付けられていない構成要素を削除するステップをさらに含む。
それぞれのステップが、テキスト・データを受信するステップとは別に、テキスト・データを受信するステップ後に「オン・ザ・フライ」で行われる。
前記少なくとも1つの意味グラフが、OWLまたはRDFなどのXMLに基づいて言語に形式化される。
テキスト・データがサービス問い合わせのテキストに対応する。
本発明はウェブ・サービスを検索するための方法を提供し、この方法は、オントロジを開発するために本発明の方法によって作成された前記少なくとも1つの意味グラフを受信するステップと、受信された前記少なくとも1つの意味グラフに応じてウェブ・サービスを検索するステップを含む。
本発明は、さらに、本発明による方法のステップを実行できるように適合されたコンピュータ・プログラムと、コード手段を含む電子データ処理システムに関する。
本発明の他の特徴と諸利点は、例としてのみ与えられた以下の本発明の実施形態の詳細な説明を読み、実施例と添付の図面を参照すれば明らかになるだろう。
本発明の方法の一実施形態の、諸ステップと構成要素を示す流れ図である。 自然言語でのユーザ問い合わせのテキストに行われた文法的分析を示す表である。 図2の表に示された、文法的分析によって抽出された有意味の単語から得られる基本の語彙グラフのセットである。 基本の語彙グラフを統合するステップと、そのグラフに関連付けられていない構成要素を削除するステップの後に得られる、図3のグラフである。
本発明の基本的な発想は、一方では、文法的分析によって生成される情報を使用し、他方では、同義語および定義などの、1つまたは複数の辞書内に発見される要素を使用して、オントロジ(すなわち、意味記述)をテキストのテキスト・データから直接開発することである。より詳細には、本発明の方法は、テキストのテキスト・データを受信する第1ステップを含む。次いで、受信データの文法的分析によって、テキストのテキスト・データから構文と有意味の単語が抽出される。次いで、電子辞書を使用してそれぞれの有意味の単語の定義が検索され、構文と有意味の単語がテキストのテキスト・データから抽出される。次いで、その定義の構文と有意味の単語に基づいて、その定義の基本の語彙グラフが作成される。次いで、テキストの有意味の単語に対応する基本の語彙グラフが統合される。この統合は、テキストの少なくとも1つの意味グラフを作成するために、最初のテキストの構文に応じて行われる。本発明が提供する解決策は体系化されたものであるので、自然言語でのテキストのオントロジの「手動」開発に関連付けられる欠点に対処する。
この処理は、それぞれのモジュールが所与のタスクに割り当てられている、複数の結合されたソフトウェア・モジュールを含むたとえばアシスタントまたはアプリケーションなどの「統合された」電子データ処理ツール内に実装されることが好ましい。
図1は、本発明の方法の一実施形態のステップと構成要素を示す流れ図である。
この図を参照すると、最初に自然言語でのテキストに対応するテキスト・データ10が受信される。たとえば、このテキストはユーザがPC、携帯情報端末、または移動電話から(たとえばSMSによって)送信する、問い合わせのテキストである。
ステップS100で、受信データ10の文法的分析によって、構文(図1には図示せず)と有意味の単語20がテキストから抽出される。文法的分析は、意味(意味論に関する意味;これについては後に説明する)とは独立に、テキスト内の単語の形式機能の分析を含む。このステップは、文法的分析器によって実装できる。このようなツールは市販されている。
このステップは、自然言語でのテキスト10に関して行われる一般的な文法的分析の様々な態様をグループ化する表を示す、図2に例示されている。問い合わせは、テキスト「I want to obtain a French translation of CNN news.(私はCNNニュースのフランス語訳を取得したい)」を含む。分析後、有意味の単語、すなわち「I(私は)」「want(欲しい)」「French(フランス語)」「translation(訳)」などだけが保持される。これらの単語は、表の左から1列目に置かれる。「a」「the」などの冠詞および接続詞は除外される。次の列では、有意味の単語が特徴付けられる(人称代名詞、動詞など)。最後の2列で、有意味の単語間の関係が強調される。たとえば、「I」は、(動詞)「Want」の主語である。
再び図1を参照すると、本方法は、それぞれの抽出された有意味の単語M(Mは最初のテキストの有意味の単語を示す)の定義40を検索するステップS200をさらに含む。このステップは、電子辞書30、一般的には語彙の辞書が必要であり、その辞書から定義が抽出される。
次いで、この定義から構文と有意味の単語mが抽出され、その定義の概念40のための基礎となる。有意味の単語Mの定義内に発生する有意味の単語mを、単語M自体から区別する必要がある。定義から構文と有意味の単語を抽出することにより、それらの定義の概念40が客観化される。これにより、必要ならば定義間の有意味の比較ができるようになり、さらには最初のテキストの有意味の単語M間に関係を確立できるようになる。このステップの結果は、最初のテキストの第1の意味の安定化である。
ステップS300で、それぞれの定義ごとに、すなわち、オリジナル・テキストの有意味の単語Mごとに、それぞれの定義の構文と有意味の単語mに基づいて、基本の語彙グラフ50が作成される。しかし、問い合わせの意味と自明に関連付けられるある種の単語(たとえば、図2の例における「I」と「Want」)は除外されることが好ましい。より一般的には、「I want(私は欲しい)」「I wish(私は望む)」「I need(私は必要である)」などの問い合わせを特徴付ける表現は例外として、名詞、動詞、形容詞といったすべての「有意味の」単語が維持される。したがって、保持された単語Mごとに基本のグラフが構築されるが、このグラフは一般的には単語Mの定義の有意味の単語mを含む。したがって、ある程度この「基本の」グラフは単語Mの「マイクロ−オントロジ」を表す。
本方法は、最初のテキストの、それぞれの有意味の単語Mの同義語45を検索するステップに加えて、それらの同義語の定義を検索するステップをさらに含むことが好ましい。たとえば、同義語検索は、有意味の単語Mの定義から、単語の同義語を体系的に検索する形をとることができる。この目的のために、この検索は、定義の辞書30とは別に辞書35を使用できる。しかし、単語の定義と同義語を統合して、同じデータベースを使用できる。一般的には、最初のテキストの有意味の単語Mと同じ方法で同義語の定義が具体化される。
さらに、単語の同義語は、その単語のそれぞれの定義と、その単語の同義語に応じて分類されることが好ましい。一般的には、分類結果に応じて「主要な」同義語だけが保持される。「主要な」同義語とは、たとえば、定義の概念が、参照する有意味の単語の概念と大部分で同じである同義語を意味する。
したがって、基本のグラフは、参照する有意味の単語Mの同義語を含むことができる。
図3は、上記で説明した文法的分析によって抽出された有意味の単語Mから得られる基本の語彙グラフを示す(図2の表を参照)。この図を参照すると、基本グラフは単語「French」、「Translation」、「CNN」および「News」によって表される。分析によりユーザ問い合わせの意味を明らかにした主語と動詞は、この段階では除外される。したがって、最初のテキストの有意味の単語の一部分だけが、実際に基本グラフ作成の対象になりうる。
このグラフは、定義の抽出から生じる関係を示す。この図において、実線で囲まれた単語は最初のテキストの有意味の単語である。点線はオブジェクトの意味の継承関係(言い換えれば、クラスからサブ・クラスへの関係)を示す。たとえば、「French」は「Language(言語)」から継承し、「CNN」は「Proper Name(固有名詞)」から継承する。破線は同義語を示し、鎖線は他のタイプの関係を示しており、たとえば「Text(テキスト)」は「is written with(で書かれた)」というタイプの関係によって「Source(起点の)」または「Target(目的の)」に関連付けられている。さらに、「Source」と「Target」は必ず異なっていなければならないことを含意する制約によって、「Source」と「Target」をマーク付けできる。これは、単純な外部ラベルによって得られる。このようなラベルは体系的には生成されないが、これは使用される定義の豊富さに依存する。
この段階では、できるだけ多くの「マイクロ・オントロジ」を構成する基本グラフしかない。次に説明するように、再び図1を参照すると、テキストの最後のオントロジはこれらの「マイクロ・オントロジ」を統合することによって生じる。
本発明の方法は、作成された基本の語彙グラフ50のうちの少なくとも2つを統合するステップS400をさらに含み、すなわち、基本グラフの組の統合が体系的に検索される。
必要に応じて、この統合は、最初のテキストの少なくとも1つの意味グラフ60を作成するために、(文法的分析によって)抽出されたテキストの構文と有意味の単語に応じて行われる。この意味グラフが、必要とされるオントロジの範囲を定める。
上述の通り、文法的分析により最初のテキストの構文と有意味の単語が明らかになるので、テキストの有意味の単語間の関係の存在が表面化する。したがって、言い換えれば、統合は少なくとも最初のテキストの有意味の単語間の表面化された関係の存在に基づいて行われる。
しかし、統合するステップは明確にこれらの関係に基づくことができる、すなわち、その関係が存在するという単なる事実に加えて、その関係の意味を考慮に入れることができる点に留意すべきである。これは、たとえば、統合されたグラフの構成要素(すなわち、概念としての言葉)はより容易に適応できることを意味する。
文法的分析(ステップS100)は、最初のテキストからの文法的構造の抽出と、特に、1つまたは複数の文法的グループ(「文法的グループ」は、名詞補語(「CNN news」)、属性、形容辞(「French translation」)などのタイプの、単純な文法的関係によって関連付けられた語句の単語の一部を意味する)をさらに含むことが好ましい。上述の例では、これらのグループには、
「I want」(グループ1)
「French translation」(グループ2)
「CNN news」(グループ3)
がある。次いで、文法的グループごとに少なくとも1つの意味グラフ60を作成するために、抽出された文法的グループに基づいて統合(ステップS400)が試みられる。そうすると、グループにつき少なくとも1つの意味グラフが得られる。これは、文法的グループが首尾一貫した概念を通常反映するという点でいっそう好都合であり、文法的グループのオブジェクトは相補的または関連付けられている。抽出された文法的構造は、語句、命題などに関連付けられた情報をさらに含むことができる。特に、統合を徐々に進行させるために、文法的グループ間の関連を使用できる。したがって、文法的構造に関する情報が統合の構築を支援する。
同様に、同義語の存在と同義語の定義は、同義語が異なる語彙グラフからの単語間の関係を強調する限り、統合に影響を与えることができる。そうすると、異なる語彙グラフからの単語間の関係が、異なる語彙グラフ間の統合を構築する支援をする。
一実施形態では、問い合わせの文法的構造と、異なる基本の語彙グラフ間の(意味的に)隣接する用語の値の両方を考慮して、統合は非常に単純な方法で行われる。文法的構造に関する限り、ここで文法的グループの構造がより詳細に意味される。(意味的に)隣接する用語の値に関する限り、「隣接」の程度は、隣接する用語間にある可能性がある関係(すなわち、異なる基本の語彙グラフから関連付けられている単語の関係)に依存する。ここでは、これらの基本グラフは、所与の文法的グループを構成する単語で組み立てられている点に留意すべきである。上記で説明した例では、グループ1の「French translation」では、文法的構造(2つの単語が名詞−形容辞関係によって関連付けられている)と、たとえば「French」側の「language」、および「translation」側で「text」に関連付けられている「language」などの、2つの基本の語彙グラフからの用語間の既存の関係との両方が考慮されている(図3参照)。
上記で説明したステップ(S100−S400)のうちのいくつかは、アルゴリズムの性能の理由で、交互配置ができる点に留意すべきである。たとえば、問い合わせ受信後、構文と有意味の単語20をテキストから抽出するステップと、その有意味の単語の定義を検索するステップと、およびそれらの定義を分析するステップ(S200)が部分的に付随する場合がある。同様に、ある単語の検索が一旦終了すると、それぞれの単語の分析終了を待たずに、対応する基本グラフの構築を開始できる。同じ一連の考えにおいて、2つのグラフが利用可能になるとすぐに統合検索を行うことができる。したがって、これらのステップが必ずしも次々に行われる必要はない。
さらに、一実施形態では、たとえばユーザ問い合わせ10に応答してテキスト・データを受信するステップの後に、ステップS100−S400を(場合によっては、交互配置されることに加えて)「オン・ザ・フライ」で行うことができる。これは、特にユーザから発せられた問い合わせを満たすために提供される。一般的に、ユーザが自分の問い合わせを明確に作成し、次いで、その問い合わせのオントロジ(すなわち、少なくとも1つの意味グラフ60を含む)が生成され、対応するウェブ・サービスが検索される。
本方法は、作成された意味グラフ60に関連付けられていない構成要素を削除するステップS500を含むことが好ましい。これにより、有用でないグラフ部分が削除されるので、結局処理が単純化される。次いで、最後の意味グラフ70が得られる。
前の例に戻って図4を参照すると、特に「French」と「Translation」に関するグラフが統合されていることが明らかである。図1の表が、「French」と「Translation」の間の文法的関係の存在を示すことを思い出されたい。したがって、最初のテキストの構文と有意味の単語は、単語「French」と「Translation」に関するグラフのその後の統合に必要な要素を含んだ。より正確には、一方では、単語「French」と「Translation」の間の特定の関係(「French」は「Translation」の形容辞である)と、他方では、「Translation」、「Text」および「Target language」の間の関係(「Target language」は意味特性)により、単語/概念の「Language」によって「Translation」に付随する「French」と「Target language」の間に意味分岐を行うことができるようになった。この点については、この例において以下の「translation」の定義が使用されている点に留意すべきである:「言語(目標言語)におけるテキストのバージョンは、書かれたテキストのバージョン(起点言語)とは異なる」。
同様に、「News」および「CNN」に関する概念の間の統合を行うことが可能である。
「Internet forum(インターネット・フォーラム)」または「Acronym(頭字語)」などの関連付けられていない用語も削除されている。
単語間、または概念間に関係が存在することが、必ずしも統合につながらない点にさらに留意されたい。たとえば、「News」と「Translation」の間には関係が存在するにもかかわらず、図4にある2つのグラフは関連付けられていない。
この点については、すべての概念を統合するためにそれぞれの概念を必要以上に(意味的に)拡大しようとしないことが好都合な場合がある。それぞれの概念を必要以上に拡大すると、的を絞りすぎ、個人化されすぎた、単一の最終的なグラフにつながる。的を絞りすぎた問い合わせに対応するウェブ・サービスの確率はほとんどない。したがって、それぞれのウェブ・サービスが問い合わせから得られる1つのグラフに対応する、複数のウェブ・サービスの発見を目的とする方がよい。これは、明らかに最終目的次第である:他のアプリケーションでは、最大限のグラフを統合することが目的の場合がある。最終グラフの細分性のレベルは、経験を考慮して調整および訂正できる。上述の例では、「News」と「Translation」の間の(元の問い合わせにおける)関係が発見される場合があるが、最終グラフを個人化しすぎる場合があるこの関連を作成しないことが好ましい。
最終的に得られる意味グラフ70は、たとえばOWLまたはRDFなどのXMLに基づいて言語に単純に形式化できる。したがって、上記で説明した方法により、首尾一貫した体系的な意味記述が生成される。
当然、最初の問い合わせ10が適切に作成され明確であれば、本方法はより効果的であることは明らかである。特に、最初の問い合わせ10は好都合なことに主語−動詞−補語の形をとることができ、該当する場合には明らかな名詞的補語で修飾できる。

Claims (11)

  1. 自然言語のテキスト(10)のオントロジ(70)を開発するための、コンピュータによって使用される方法であって、
    該テキスト(10)からテキスト・データを受信するステップと、
    該受信データの文法的分析(S100)によって、該テキストから構文と有意味の単語M(20)を抽出するステップと、
    該テキストの該有意味の単語M(20)のうちの少なくとも一部の各々について、少なくとも1つの電子辞書(30)を用いてその有意味の単語M(20)の定義(40)を検索するステップ(S200)と、該定義の構文と有意味の単語mを抽出するステップと、少なくとも1つの電子辞書(35)を用いて、該有意味の単語M(20)のうちの少なくとも一部の各々の同義語(45)とそれらの同義語の定義を検索するステップと、及び該有意味の単語M(20)のうちの少なくとも一部の各々の定義の該構文と該有意味の単語mに基づいて、その定義の基本の語彙グラフ(50)を作成するステップ(S300)とを含み、該基本の語彙グラフ(50)は、該有意味の単語M(20)の少なくとも一部の各々の該同義語を含み、
    該テキストの少なくとも1つの意味グラフ(60)を作成するために、該テキストの該構文及び該同義語の該定義に応じて、作成された該基本の語彙グラフ(50)のうちの少なくとも2つを統合するステップ(S400)とを含む方法。
  2. 請求項1に記載の方法において、
    該統合するステップ(S400)の前に、抽出された該テキストの該構文と該有意味の単語に基づいて、該テキストの該有意味の単語間の関係を抽出するステップをさらに含み、該統合するステップが該テキストの有意味の単語間のこれらの関係に基づく方法。
  3. 請求項1に記載の方法において、
    該テキストから構文と有意味の単語M(20)を抽出するステップが、該テキストの文法的構造の該文法的分析(S100)による該抽出をさらに含み、該構造が1つ又は複数の文法的グループを含み、
    1つ又は複数の抽出された文法的グループの各々について少なくとも1つの意味グラフ(60)を作成するために、該統合するステップ(S400)が該抽出された文法的グループにさらに基づく方法。
  4. 請求項1に記載の方法において、
    該統合するステップの前に、
    有意味の単語ごとに発見された該同義語を、その有意味の単語とその同義語の該定義に応じて分類するステップをさらに含み、
    該統合するステップが、該同義語の該分類結果に応じてさらに行われる方法。
  5. 請求項1に記載の方法において、
    作成された該少なくとも1つの意味グラフ(60)に関連付けられていない構成要素を削除するステップ(S500)をさらに含む方法。
  6. 請求項1に記載の方法において、
    それぞれの該ステップ(S100〜S400)が、該テキスト・データを受信する該ステップとは別に、該テキスト・データを受信する該ステップ後に「オン・ザ・フライ」で行われる方法。
  7. 請求項1乃至6のいずれか1項に記載の方法において、
    該少なくとも1つの意味グラフ(60)が、OWL又はRDFなどのXMLに基づいて言語に形式化される方法。
  8. 請求項1に記載の方法において、
    該テキスト・データがサービス問い合わせ(10)のテキストに対応する方法。
  9. ウェブ・サービスを検索する方法であって、
    請求項8に記載の該方法によって作成された該少なくとも1つの意味グラフ(60)を受信するステップと、
    受信された該少なくとも1つの意味グラフに応じてウェブ・サービスを検索するステップを含む方法。
  10. 請求項1乃至9のいずれか1項に記載の該方法の該ステップを実行できるように適合された、コンピュータ・プログラム。
  11. 請求項1乃至9のいずれか1項に記載の該方法の該ステップを実行できるように適合された、コード手段を含む電子データ処理システム。
JP2009528700A 2006-09-19 2007-09-17 自然言語のテキストからオントロジを開発するための、コンピュータによって使用される方法 Expired - Fee Related JP5366810B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0653814 2006-09-19
FR0653814A FR2906049A1 (fr) 2006-09-19 2006-09-19 Procede, mis en oeuvre par ordinateur, de developpement d'une ontologie a partir d'un texte en langage naturel
PCT/EP2007/059795 WO2008034802A1 (en) 2006-09-19 2007-09-17 Method, used by computers, for developing an ontology from a text in natural language

Publications (2)

Publication Number Publication Date
JP2010503937A JP2010503937A (ja) 2010-02-04
JP5366810B2 true JP5366810B2 (ja) 2013-12-11

Family

ID=37900527

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009528700A Expired - Fee Related JP5366810B2 (ja) 2006-09-19 2007-09-17 自然言語のテキストからオントロジを開発するための、コンピュータによって使用される方法

Country Status (7)

Country Link
US (1) US8417512B2 (ja)
EP (1) EP1903454A1 (ja)
JP (1) JP5366810B2 (ja)
KR (1) KR101416682B1 (ja)
CN (1) CN100576201C (ja)
FR (1) FR2906049A1 (ja)
WO (1) WO2008034802A1 (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2105847A1 (en) * 2008-03-27 2009-09-30 Alcatel Lucent Device and method for automatically generating ontologies from term definitions contained into a dictionary
US20100175054A1 (en) * 2009-01-06 2010-07-08 Katarina Matusikova System and method for transforming a uml model into an owl representation
FR2944633A1 (fr) * 2009-04-15 2010-10-22 Alcatel Lucent Procede d'assistance au developpement ou a l'utilisation d'un systeme complexe.
KR101306667B1 (ko) * 2009-12-09 2013-09-10 한국전자통신연구원 지식 그래프 정제 장치 및 방법
CN101763342B (zh) * 2009-12-31 2012-07-04 中兴通讯股份有限公司 生成计算机代码的方法及自然语言解释中心和应用控制端
US9713774B2 (en) 2010-08-30 2017-07-25 Disney Enterprises, Inc. Contextual chat message generation in online environments
US9684885B2 (en) * 2011-01-17 2017-06-20 Infosys Technologies, Ltd. Method and system for converting UBL process diagrams to OWL
US9552353B2 (en) 2011-01-21 2017-01-24 Disney Enterprises, Inc. System and method for generating phrases
US9245253B2 (en) 2011-08-19 2016-01-26 Disney Enterprises, Inc. Soft-sending chat messages
US9176947B2 (en) * 2011-08-19 2015-11-03 Disney Enterprises, Inc. Dynamically generated phrase-based assisted input
CN102591988B (zh) * 2012-01-16 2014-10-15 西安电子科技大学 基于语义图的短文本分类方法
US9165329B2 (en) 2012-10-19 2015-10-20 Disney Enterprises, Inc. Multi layer chat detection and classification
KR101286296B1 (ko) * 2012-11-29 2013-07-15 김건오 워드그래프 관리 방법 및 시스템
US10303762B2 (en) 2013-03-15 2019-05-28 Disney Enterprises, Inc. Comprehensive safety schema for ensuring appropriateness of language in online chat
US10742577B2 (en) 2013-03-15 2020-08-11 Disney Enterprises, Inc. Real-time search and validation of phrases using linguistic phrase components
US9519461B2 (en) 2013-06-20 2016-12-13 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on third-party developers
US9633317B2 (en) 2013-06-20 2017-04-25 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on a natural language intent interpreter
US9594542B2 (en) * 2013-06-20 2017-03-14 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on training by third-party developers
US10474961B2 (en) 2013-06-20 2019-11-12 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on prompting for additional user input
CN103473222A (zh) * 2013-09-16 2013-12-25 中央民族大学 一种藏语语义本体创建及词汇扩充方法
US9547641B2 (en) * 2013-09-26 2017-01-17 International Business Machines Corporation Domain specific salient point translation
WO2015093651A1 (en) * 2013-12-19 2015-06-25 Twinword Inc. Method and system for managing a wordgraph
US9390196B2 (en) * 2014-06-03 2016-07-12 International Business Machines Corporation Adjusting ranges of directed graph ontologies across multiple dimensions
CN106372053B (zh) * 2015-07-22 2020-04-28 华为技术有限公司 句法分析的方法和装置
CN106980624B (zh) * 2016-01-18 2021-03-26 阿里巴巴集团控股有限公司 一种文本数据的处理方法和装置
JP6784084B2 (ja) * 2016-07-27 2020-11-11 富士通株式会社 符号化プログラム、符号化装置、符号化方法、及び検索方法
CN110709828A (zh) * 2017-06-08 2020-01-17 北京嘀嘀无限科技发展有限公司 使用条件随机域模型确定文本属性的系统及方法
TWI705338B (zh) * 2018-06-14 2020-09-21 大陸商北京嘀嘀無限科技發展有限公司 使用條件隨機域模型確定文本屬性的系統及方法
CN108984666B (zh) * 2018-06-29 2022-05-13 阿里巴巴集团控股有限公司 数据处理方法、数据处理装置和服务器
FR3087555A1 (fr) * 2018-10-18 2020-04-24 Meremind Dispositif de traitement automatique de texte par ordinateur
US11934441B2 (en) 2020-04-29 2024-03-19 International Business Machines Corporation Generative ontology learning and natural language processing with predictive language models

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5995922A (en) * 1996-05-02 1999-11-30 Microsoft Corporation Identifying information related to an input word in an electronic dictionary
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6778970B2 (en) * 1998-05-28 2004-08-17 Lawrence Au Topological methods to organize semantic network data flows for conversational applications
JP2003228580A (ja) * 2002-02-04 2003-08-15 Celestar Lexico-Sciences Inc 文献知識管理装置、文献知識管理方法、プログラム、および、記録媒体
EP1460562A1 (en) * 2002-12-23 2004-09-22 Definiens AG Computerized method and system for searching for text passages from text documents
US7546234B1 (en) * 2003-01-08 2009-06-09 Xambala, Inc. Semantic processing engine
GB2412451A (en) * 2004-03-26 2005-09-28 Magenta Corp Ltd Automated text analysis
WO2006013233A1 (fr) * 2004-07-01 2006-02-09 France Telecom Procede et dispositif de traitement automatique d’un langage

Also Published As

Publication number Publication date
KR101416682B1 (ko) 2014-07-08
CN100576201C (zh) 2009-12-30
EP1903454A1 (en) 2008-03-26
FR2906049A1 (fr) 2008-03-21
KR20090069275A (ko) 2009-06-30
WO2008034802A1 (en) 2008-03-27
JP2010503937A (ja) 2010-02-04
US8417512B2 (en) 2013-04-09
CN101149732A (zh) 2008-03-26
US20080071521A1 (en) 2008-03-20

Similar Documents

Publication Publication Date Title
JP5366810B2 (ja) 自然言語のテキストからオントロジを開発するための、コンピュータによって使用される方法
US12050874B2 (en) System for knowledge acquisition
Gangemi et al. Semantic web machine reading with FRED
KR101139903B1 (ko) 자연어 문서들에서 전체 부분 관계들을 인식하는 시만틱 프로세서
US8041697B2 (en) Semi-automatic example-based induction of semantic translation rules to support natural language search
US20050138556A1 (en) Creation of normalized summaries using common domain models for input text analysis and output text generation
KR101709055B1 (ko) 오픈 웹 질의응답을 위한 질문분석 장치 및 방법
EP1835417A1 (en) Web service with associated lexical tree
Kumar et al. Automated ontology generation from a plain text using statistical and NLP techniques
KR101016110B1 (ko) 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출시스템 및 그 방법
Bourahma et al. Syntactic parsing of simple Arabic nominal sentence using the NooJ linguistic platform
JP2008077512A (ja) 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
Jolly et al. Anatomizing lexicon with natural language Tokenizer Toolkit 3
JP4635585B2 (ja) 質問応答システム、質問応答方法及び質問応答プログラム
Mutawa et al. An HPSG approach to Arabic nominal sentences
Room Chomsky Hierarchy
Osenova et al. Bulgarian-english question answering: Adaptation of language resources
Reitter et al. Hybrid natural language processing in a customer-care environment
Hakenberg et al. Molecular event extraction from Link Grammar parse trees in the BioNLP’09 Shared Task
Huang et al. Asian language processing: current state-of-the-art
Vagelatos et al. Implementing the NLP infrastructure for Greek Biomedical Data Mining
Simov et al. An XML architecture for shallow and deep processing
Gupta et al. Automatic Creation of an Ontological Knowledge Base from Grid and Cloud-based Wikipages
Gupta Web services query matchmaking with automated knowledge acquisition
Nugues et al. Partial Parsing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100630

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120704

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121004

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121012

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130514

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130813

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130910

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees