JP2010225135A

JP2010225135A - 多義性解消方法とそのシステム

Info

Publication number: JP2010225135A
Application number: JP2010010883A
Authority: JP
Inventors: Jianqiang Li; ジェンチャンリイ; Yu Zhao; ユウジャオ; Bo Liu; ボリウ
Original assignee: NEC China Co Ltd
Current assignee: NEC China Co Ltd
Priority date: 2009-03-20
Filing date: 2010-01-21
Publication date: 2010-10-07
Anticipated expiration: 2030-01-21
Also published as: JP5078173B2; CN101840397A

Abstract

【課題】包含される語義特徴に従ってオントロジまたは階層的分類スキーマ中の目標語彙について語義曖昧性解消を実行する語義曖昧性解消方法およびシステムを提供する。
【解決手段】この語義曖昧性解消方法は、複数の異なる語義{w₁, w₂, …w_n}を有する目標語彙ｗを入力し、関連するオントロジから、目標語彙とその概念文脈を含む概念を抽出し、抽出した概念文脈に基づいて目標語彙の各語義w_j ( j = 1, 2, …n )をスコアリングし、語義のスコアに従って目標語彙の適切な語義を選択する。これにより、目標語彙の文脈（すなわち概念文脈）が語義曖昧性解消に考慮に入れられるので、語義曖昧性解消結果の精度が向上する。
【選択図】図１

Description

本発明は、一般に自然言語処理に関し、特に、語義理解および語義曖昧性解消の方法およびシステムに関する。

語義曖昧性解消とは、特定の文脈環境中の複数の意味を持つ語彙について適切な意味を決定することであり、自然言語処理、情報検索、情報抽出、オントロジ統合および他の幅広い分野に適用することができる。

現在の語義曖昧性解消方法は、通常、本文あるいは文中の目標語彙について実施される。
一般に、目標語彙の本文の文脈環境は、語義を区別するための特徴空間を構成し、それは、目標語彙に隣接する語彙、固定整合、あるいは文構造解析から取得することができる他の文法の特徴を含んでいる。

既存の語義曖昧性解消方法は、語義を区別するためにテキストの文脈環境からの文法的な特徴を主に使用する。
オントロジあるいは階層構造のコンテキスト／カテゴリに現れる目標語彙について語義曖昧性解消を実行する場合、理想的な効果を達成するのは困難である。
以下、関連技術分野おいて開発されているいくつかの既存の技術について簡単に説明する。

キルガーリフＡ.、ローゼンツヴァイクＪ.等による「英語のＳＥＮＳＥＶＡＬのための、フレームワークおよび結果、コンピュータおよび人文学、３４」(ページ１５−４８、２０００発行)（Kilgarriff. A, Rosenzweig. J, etc, entitled
“Framework and Results for English SENSEVAL, Computers and the Humanities, 34”
(pages 15-48, published in 2000)）（非特許文献１）は、いくつかの語義曖昧性解消方法を開示している。この非特許文献１の方法では、まず文法的な解析に基づいてテキストの文脈構造から目標語彙の対応する文法的な特徴を取得する。それは、主に、目標語彙から一定の距離を有するウィンドー内の共起語彙、固定整合、文構造などの解析を含んでいる。その後、統計方法によって目標語彙の語義を識別する目的を達成する。

さらに、特開２００２−０８２９４３号公報（特許文献１）は、ウェブページにおける固有表現についての語義曖昧性解消方法を開示している。
この方法の利点は、目標語彙を含むウェブページ中の文法的な特徴に加えて、目標語彙を含むウェブページとハイパーリンク関係を有するウェブページの文法的な特徴を、固有表現の語義曖昧性解消を達成するために考慮に入れることである。
図１は、語義曖昧性解消システムの構造上のブロック図を示す。また、図２は、図１に示すシステムの使用により実行された語義曖昧性解消の一例を示す。

図１に示すように、語義曖昧性解消システム１００は、２つの部分、すなわち、主な処理部分としての記憶部分とテキスト文脈ベースの語義曖昧性解消部分から成る。
テキスト文脈ベースの語義曖昧性解消部は語彙入力手段１０１、テキスト文脈抽出手段１０２、テキスト文脈ベース語義スコアリング手段１０３および語義選択手段１０４を含む。
図２に示す例を参照すると、テキスト文脈抽出を行なう場合、テキスト文脈抽出手段１０２は、目標語彙を含むウェブページとハイパーリンク関係を有するウェブページの文法的な特徴と共に、目標語彙"bass"を含んでいるウェブページの文法的な特徴も考慮し、その結果として、完全なテキスト文脈を取得する。
例えば、図２に示すように、共起語彙“ｇｏ”、“ｆｉｓｈ”及び“ｓｅａ”が取得される。共起語彙を取得した後、テキスト文脈ベース語義スコアリング手段１０３は、その共起語彙に基づいて、辞書中の目標語彙"bass"の語義毎にスコアを与える。例えば、テキスト文脈ベース語義スコアリング手段１０３は、テキストの文脈中のすべての共起語彙と辞書中の目標語彙の各語義の定義間の相関度を計算することにより、各語義に対するスコアを計算する。その後、語義選択手段１０４は、より高い類似度スコアを持つ語義を、適切な語義として選択する。図２の例において、語義選択手段１０４は、目標語彙"bass"についての１つの語義"a kind of fish"を最終語義として選択する。
この語義曖昧性解消方法の問題点は、テキストの文脈から得られた共起語彙はすべて、最終的な語義スコアリングにおいて同じ重みを有することである。共起語彙"go"は、語義スコアリングに余り貢献しないだけでなく、最終的な語彙曖昧性解消結果に対してマイナスの効果さえ有する。しかしながら、語義曖昧性解消結果に対する異なる共起語彙の影響は、考慮に入れられない。

特開２００２−０８２９４３号公報

キルガーリフＡ.、ローゼンツヴァイクＪ.等による「英語のＳＥＮＳＥＶＡＬのための、フレームワークおよび結果、コンピュータおよび人文学、３４」(ページ１５−４８、２０００発行)（Kilgarriff.A, Rosenzweig. J, etc, entitled "Framework and Results for English SENSEVAL,Computers and the Humanities, 34" (pages 15-48, published in 2000)）

上述したように、既存の語義曖昧性解消方法は、異なる語義を区別するためにテキストの文脈における目標語彙の文法的な特徴を主に使用する。これらの方法を、オントロジあるいは階層的分類構造において目標語彙について語義曖昧性解消を実行するために使用する場合、目標語彙の文法的な特徴だけを考慮するので、オントロジあるいは階層的分類スキーマに含まれる大量の語義特徴が利用されず、語義曖昧性解消結果および精度について満足な結果が得られない。

本発明は、上記のような既存の語義曖昧性解消方法におけるいくつかの問題点を解決するために提案されたものである。
本発明の原理によれば、まず、関連するオントロジあるいは階層的分類スキーマから目標語彙を含む概念と、その概念と他の概念間の語義的な関係を決定する（すなわち、概念的文脈の抽出）。その後、辞書中の目標語彙の全ての語義を、目標語彙の概念文脈に含まれる語義特徴に従って、スコア付けしてソートする。スコア付けとソートの結果は、語義曖昧性解消の主要な基準として使用される。

本発明による目標語彙の概念文脈からの語義特徴に基づく語義曖昧性解消方法は、複数の異なる語義{w₁, w₂, …w_n}を有する目標語彙ｗを入力するステップと、関連するオントロジから、目標語彙とその概念文脈を含む概念を抽出するステップと、抽出した概念文脈に基づいて目標語彙の各語義w_j ( j = 1, 2, …n )をスコアリングするステップと、語義のスコアに従って目標語彙の適切な語義を選択するステップとを有する。

本発明による目標語彙の概念文脈からの語義特徴に基づく語義曖昧性解消システムは、複数の異なる語義{w₁,
w₂, …w_n}を有する目標語彙ｗを入力する語彙入力手段と、関連するオントロジから、目標語彙とその概念文脈を含む概念を抽出する概念的文脈抽出手段と、抽出した概念文脈に基づいて目標語彙の各語義w_j ( j = 1, 2, …n )をスコアリングする概念的文脈ベース語義スコアリング手段と、語義のスコアに従って目標語彙の適切な語義を選択する語義選択手段とを備える。

本発明によれば、オントロジあるいは階層構造に包含される語彙の語義特徴に従って、オントロジあるいは階層的分類構造における語彙について語義曖昧性解消を実行する語義曖昧性解消方法が提供される。
文脈（すなわち、概念文脈）における目標語彙の関連語義特徴を考慮するため、語義曖昧性解消の精度が顕著に向上する。

本発明の他の効果と特徴は、以下の詳細な説明と図面を併せて参照することにより、明らかとなるであろう。ただし、本発明は図面に示す例や特定の実施例に限定されないことに留意されたい。

本発明は、以下に示す本発明の実施例の詳細な説明と添付図面からさらに明確に理解されるであろう。なお、添付図面では、類似の部品は同一の参照番号を使用して示している。
関連技術による語義曖昧性解消システム１００の構成例を示すブロック図である。図１に示されるシステム１００の動作原理の具体例を示す概略図である。本発明の実施の形態による語義曖昧性解消システム３００の構成例を示すブロック図である。図３に示されるシステム３００の動作処理を説明するフローチャートである。概念的文脈ベース語義スコアリング手段の内部構成の例を示すブロック図である。概念的文脈ベース語義スコアリング手段の内部構成の他の例を示すブロック図である。図３に示すシステム３００の動作原理の例を示す概略図である。本発明による概念的文脈ベースの語義曖昧性解消方法を関連技術におけるテキスト文脈ベースの語義曖昧性解消方法と組み合わせた場合の構成を示すブロック図である。

図３は、本発明の実施の形態による語義曖昧性解消システム３００の構成を示すブロック図である。
図１に示されるシステム１００のように、システム３００もまた２つの部分（すなわち、記憶部分と、概念的文脈ベースの語義曖昧性解消部分）から成る。
図３に示すように、本発明の中心的な構成要素として、概念的文脈ベースの語義曖昧性解消部分は、語彙入力手段３０１と、概念的文脈抽出手段３０２と、概念的文脈ベース語義スコアリング手段３０３および語義選択手段３０４を含んでいる。概念的文脈ベースの語義曖昧性解消部分の各構成要素と協力するために、記憶部分は複数記憶装置３０５〜３０９を含んでいる。

図４は、図３に示すシステム３００の動作処理を説明するフローチャートである。
処理４００はステップ４０１から開始し、語彙入力手段３０１が目標語彙ｗ（複数の語義を有する目標語彙ｗ）を入力する。
ステップ４０２において、概念的文脈抽出手段３０２は、関連するオントロジ（例えば階層的分類スキーマ）から、目標語彙ｗを含んでいる概念およびオントロジにおける対応する概念の文脈を抽出する。
ここで、目標語彙と関連するオントロジデータ、あるいは階層的分類スキーマは、オントロジ／階層的分類スキーマ記憶装置３０５に格納される。

当業者にとって広く知られているように、オントロジは特定分野の明示的な公式の記述であり、その分野に包含されるカテゴリ（例えば、コンピュータ・セキュリティ製品の分野における「ファイアウォール」は、その分野における抽象概念カテゴリである）、エンティティ（例えば、特定のファイアウォール製品）、属性記述（例えばファイアウォールの様々な属性パラメータ）、対応するカテゴリ、エンティティおよび属性間の関係（例えば、特定のファイアウォール製品はファイアウォール概念のインスタンスであり、また、ファイアウォールはコンピュータ・セキュリティ製品の一種である）等を含む。
階層的分類スキーマは広く利用されている明示的でかつ非公式なオントロジである（例えば、Ｙａｈｏｏディレクトリ、ＯＤＰなどの解放ディレクトリ）。
これらの公式あるいは非公式のオントロジを実際のアプリケーション、特にコンピュータ処理工程に適用する場合、一般的に、概念、エンティティ、属性等の自然言語記述名に包含される語彙について語義曖昧性解消を実行することが望ましい。
具体的な適用例としては、情報検索の工程における検索語彙の拡張、２つのオントロジの統合等を含む。
ここで、カテゴリ、エンティティおよび属性は、「概念」と総称する。

図４に戻ると、ステップ４０３において、抽出された概念コンテキストに基づいて、概念的文脈ベース語義スコアリング手段３０３が、辞書中の目標語彙の語義{w1, w2, …wn}ごとにスコア付けを行う。
すべての語義について得点を取得した後、ステップ４０４において、語義選択手段３０４は、すべての語義から目標語彙に適切な語義を選択する。
これにより、処理４００が終了する。

本発明による語義曖昧性解消システム３００の動作原理をさらに説明するために、概念的文脈ベース語義スコアリング手段に含まれる主要な構成要素について以下に説明する。

（概念的文脈抽出手段）
図３に示すように、概念的文脈抽出手段３０２は、関連するオントロジあるいは階層的分類スキーマから、目標語彙ｗを含む概念及びオントロジあるいは階層的分類スキーマにおけるその概念的な文脈を抽出するために使用される。
目標語彙を含む概念及び目標語彙の概念とオントロジにおけるその他の概念間の種々の意味的な関係は、目標語彙の「概念的文脈」から成る。
概念コンテキストは、語義曖昧性解消に用いる大量の文法的かつ語義的な特徴を含んでいる。

文法的な特徴は、例えば、目標語彙と同じ概念に出現する他の共起語彙によって構成されるコンテキスト語彙表を含む。
例えば、概念「語義ネットワーク」において、「語義」と「ネットワーク」の語彙は、互いに概念語彙を形成する。

語義的な特徴は、ある種の関係（例えば、兄弟関係、子概念、父親概念等）において目標語彙を含む概念と関連する他のすべての概念に包含される。
例えば、概念「インターネット・ネットワーク」の子概念として概念「インターネット・ネットワーク」と概念「語義ネットワーク」を含む階層的概念ツリーがあると仮定する。
また、そのツリーは、概念「インターネット・ネットワーク」からの比較的遠い距離の概念「衣服」を含んでいる。
概念「インターネット・ネットワーク」中の語彙について語義曖昧性解消を実行する場合、「語義ネットワーク」および「衣服」は、両方とも概念文脈情報と見ることができる。
しかしながら、概念「インターネット・ネットワーク」からの距離が異なるため、それらは最終的な語義スコアリングにおいて異なる重みが与えられる。
異なる重みの割り当ては、主に、目標語彙を含む概念と対応する文脈の概念間の語義的な距離／関係に依存する。
概念に関する重みの利用については、後に詳細に説明する。

（概念的文脈ベース語義スコアリング手段）
概念的文脈ベース語義スコアリング手段３０３は、目標語彙の概念文脈に包含される語義的特徴に従って、辞書中の目標語彙の各語義にスコアを与える。
抽出した概念文脈に基づいて、語義的特徴を利用して辞書中に定義された目標語彙の複数の語義にスコア付けする方法については、多くの種類の方法が考えられる。
ここで、語義的特徴を利用して語義をスコア付けする２つの例を、図５および図６を参照して説明する。
言うまでもなく、図５と図６に示す語義スコアリング方法は、例として示すだけであり、本発明の範囲を制限するものではない。
本発明の説明を読めば、当業者は、本発明に適用することができる語義的特徴に基づく他の語義スコアリング方法を容易に思いつくはずである。

まず、図５は、概念的文脈ベース語義スコアリング手段３０３の構成例の詳細を示している。
図に示されるように、概念的文脈ベース語義スコアリング手段３０３は、例えば、共起語彙検索ユニット５０１、重み決定ユニット５０２、相関度計算ユニット５０３および重み付けユニット５０４を含んでいる。
この例において、目標語彙と共存する文脈語彙（すなわち、隣接する概念において現れる）は、概念文脈中の様々な語義的な関係に基づいて異なる重みが与えられる。これにより、概念文脈中の語義特徴に基づく語義の高品質なスコア付けが実現する。
これは、図２に示すような、共存する全ての語彙に通常同じ重みを与える関連技術におけるこれまでの方法とは明らかに相違する。

具体的には、概念名の中に現れる目標語彙ｗについて、共起語彙検索ユニット５０１は、まず、その概念文脈から、共起語彙｛ａ１、ａ２、…、ａｍ｝をすべて検索する。
ここで、各共起語彙ａｉ（ｉ＝１、２、…、ｍ）は、オントロジ中の目標語彙に隣接する概念において現れる語彙である。
共起語彙検索ユニット５０１によって検索されたｍ個の共起語彙ａｉ（ｉ＝１、２、…、ｍ）に対して、語義スコア付けアルゴリズムが下記処理によって実行される。
（Ａ）各共起語彙ａｉについて、重み決定ユニット５０２が、一定の語義パス長の計算を使用して、最終的な語義曖昧性解消処理に使用される語彙ａｉの対応する重みＷ（ａｉ）を取得する。
（Ｂ）辞書中の目標語彙ｗの各語義ｗｊ（ｊ＝１、２、…、ｎ）の定義に基づいて、相関度計算ユニット５０３が、語義ｗｊと各共起語彙ａｉ間の相関度Ｒ（ｗｊ／ａｉ）を計算する。
より具体的には、相関度の計算は以下のアルゴリズムを採用することができる。
（１）辞書中の共起語彙ａｉの各語義a_i ^l (l =1, 2, …r)について、語義ｗｊと語義a_i ^lの間の相関度R(w_j/ a_i ^l)を計算する。
（２）語義ｗｊと共起語彙ａｉの間の相関度として、語義ｗｊと共起語彙ａｉの全ての語義間の全ての相関度の合計を計算する。
すなわち、

（Ｃ）その後、重み付けユニット５０４が、各語義ｗｊとすべての共起語彙間の相関度を

として計算する。

各語義ｗｊについて重み付けユニット５０４によって計算された相関度Rank（ｗｊ）は、語義ｗｊのスコアとして使用され、語義スコア記憶装置３０８に格納される。

図６は、概念的文脈ベース語義スコアリング手段３０３の他の構成例の詳細を示している。
この具体例においては、語義スコアリングの目的は、概念文脈の階層構造／グラフ構造と語義辞書に示された語義参照階層間のマッチング計算（グラフマッチング）によって達成される。
図６に示されるように、この具体例において、概念的文脈ベース語義スコアリング手段３０３は、概念サブ階層抽出ユニット６０１と、語義参照階層抽出ユニット６０２および相関度マッチングユニット６０３を含んでいる。

図６に示す語義スコアリング方法によれば、まず、概念サブ階層抽出ユニット６０１が、関連するオントロジから、目標語彙ｗを中心としかつ目標語彙の概念文脈に対応するサブ階層を抽出する。
目標語彙の概念文脈は通常オントロジあるいは階層的分類スキーマの部分集合である。また、目標語彙はその部分集合の中心に位置する。
その後、語義参照階層抽出ユニット６０２が、辞書から、いくつかの語義参照階層を抽出する。各語義参照階層は、目標語彙の語義ｗｊの１つに対応している。
語義の定義を提供する辞書は、通常、語義間の階層関係を記述する１つ以上の階層を包含する。一般に、１つの語義に対する定義は１つ以上の階層に存在する。
階層を２つの側面から総合し、相関度マッチングユニット６０３は、オントロジから抽出された目標語彙の概念文脈に対応するサブ階層と各語義ｗｊに対応する各語義参照階層間のグラフマッチングを実行し、それらのトポロジー構造における相関度を、語義ｗｊのスコアとして、計算する。

図７は、本発明による語義曖昧性解消システムの動作原理の概要を示す。
図２に示す関連技術と比較して、本発明による語義曖昧性解消システムは、関連するオントロジから目標語彙に対応する概念文脈を抽出し、その概念文脈に基づいて目標語彙の各語義に対するスコアを計算する。
語義スコアリング方法の詳細については、図５あるいは図６に示される方法を参照することができる。
図７の例において、"go
away"における"go"と"saltwater bass"は、概念文脈中においてある語義関係を有するけれども、それらの間の語義パス長は比較的長い。その結果として、語義スコアリング処理においてその語義により低い重みを与える。
これにより、語義曖昧性解消におけるマイナスの効果を削除することができる。

その後、概念的文脈ベース語義スコアリング手段３０３によって計算された語義のスコアは、語義スコア記憶装置３０８に格納される。例えば、３つの語義を有する目標語彙ｗについて、３つの語義のスコアが、０．８６、０．４３および０．２８のようにそれぞれ計算される。

（語義選択手段）
語義選択手段３０４は、対応する概念的文脈における目標語彙の異なる語義のスコアに従って目標語彙にとって適切な語義を選択する。
ここで、語義選択手段３０４は、多くの種類の語義選択方策に基づいて語義選択を実行することができる。
例えば、語義選択手段３０４は、最も高いスコアを有する語義だけを目標語彙の正確な語義として選択することが可能である。
あるいは、語義選択手段３０４は、スコアが一定のしきい値を越える多数の語義を、目標語彙の正確な語義として選択することも可能である。
さらに、語義選択手段３０４は、ある方策によって動的に語義を選択することも可能である。
例えば、目標語彙が辞書中で有する語義が多いほど、正確な語義として選択されることが多く、一方、目標語彙が辞書中に有する語義が少ないほど、正確な語義として選択されることが少ない。

語義選択手段３０４によって選択された語義は、概念文脈に関して目標語彙について確定した語義として、選択語義記憶装置３０９に格納される。

本発明による概念的文脈ベースの語義曖昧性解消方式は、語義曖昧性解消結果の精度をさらに向上するために、関連技術中の既存のテキスト文脈ベースの語義曖昧性解消方式と組み合わせて使用することが可能である。
図８は、本発明による概念的文脈ベースの語義曖昧性解消方法を関連技術におけるテキスト文脈ベースの語義曖昧性解消方法と組み合わせた場合の構成を示すブロック図である。

図８において、図３に示す本発明による概念的文脈ベースの語義曖昧性解消システムの基本的な構成に加えて、このシステムは、さらにテキスト文脈ベース語義スコアリング手段８０１および統合スコアリング手段８０２を含む。
テキスト文脈ベース語義スコアリング手段８０１は、これまでのテキスト文脈ベースの語義曖昧性解消方法を使用することにより、各語義ｗｊ（ｊ＝１、２、…、ｎ）についてスコアを計算する。
各語義ｗｊ（ｊ＝１、２、…、ｎ）について、統合スコアリング手段８０２は、概念的文脈ベース語義スコアリング手段３０３によって計算されたスコアを第１スコア結果Ｒａｎｋ１（ｗｊ）として取得し、テキスト文脈ベース語義スコアリング手段８０１によって計算されたスコアを第２スコア結果Ｒａｎｋ２（ｗｊ）として取得し、語義ｗｊの統合スコアを
Rank(w_j) = θRank1(w_j)
+ (1−θ) Rank2(w_j)
と計算する。ここで、θは所定の重みであり、0<θ<1である。
統合スコアRank(w_j)は、次の語義選択のために語義スコア記憶装置３０８に格納される。

以上、本発明による語義曖昧性解消方法およびシステムの特定の実施の形態について、添付図面を参照して説明した。
本発明は、包含される語義情報に従って関連するオントロジあるいは階層的分類スキーマに含まれる目標語彙について語義曖昧性解消を実行する方法を提供する。
対応する文脈（すなわち、概念文脈）における目標語彙の関連語義特徴も、語義曖昧性解消において考慮するので、語義曖昧性解消の精度が顕著に向上する。

上記では、添付図面を参照して本発明の特定の実施例について説明してきたが、本発明は図面に示した特定の構成やプロセスに限定されるものではない。上記では、説明を簡潔にするため、既知の方法および技術の詳細は省略している。また、上記の実施例では、いくつかの具体的なステップを例示したが、本発明の方法および処理は説明および図示に使用した特定のステップに限定されないため、当該技術に精通する当業者であれば、本発明の精神を一旦理解した後に、様々な変形、変更、追加を行い、またステップの順序を入れ替えることが可能である。

本発明の各要素は、ハードウェア、ソフトウェア、ファームウェア、またはその組み合わせとして実装し、そのシステム、サブシステム、コンポーネント、もしくはサブコンポーネント内で利用することができる。ソフトウェアとして実装された場合、本発明の各要素は、必要なタスクを実行するためのプログラムもしくはコードセクションとなる。これらのプログラムまたはコードセクションは、機械読取り可能な媒体に格納することも、あるいは、搬送波で搬送されるデータ信号を介して伝送媒体もしくは通信リンク上で伝送することもできる。「機械読取り可能な媒体」には、情報を格納または伝送できるあらゆる媒体が含まれる。機械読取り可能な媒体の例としては、電子回路、半導体記憶装置、ＲＯＭ、フラッシュメモリ、ＥＲＯＭ、フロッピーディスク、ＣＤ−ＲＯＭ、光ディスク、ハードディスク、光ファイバー媒体、ＲＦリンク等が挙げられる。コードセクションは、インターネットやイントラネット等のコンピュータネットワークを介してダウンロードすることができる。

本発明は、その精神および本質的な特徴から逸脱することなく、他の様々な形式で実装することができる。例えば、実施例で説明したアルゴリズムは、システムアーキテクチャが本発明の基本精神から逸脱しない限り、変更が可能である。したがって、上記の実施例は、あらゆる観点において限定的なものではなく、例示的なものとみなされる。本発明の範囲は、上記の説明よりもむしろ付記した請求項により定義されるため、請求項の範囲に入るあらゆる変形またはその等価物は本発明の範囲に含まれる。

１００：語義曖昧性解消システム
１０１：語彙入力手段
１０２：テキスト文脈抽出手段
１０３：テキスト文脈ベース語義スコアリング手段
１０４：語義選択手段
３００：語義曖昧性解消システム
３０１：語彙入力手段
３０２：概念的文脈抽出手段
３０３：概念的文脈ベース語義スコアリング手段
３０４：語義選択手段
３０５：オントロジ／階層的分類スキーマ記憶装置
３０８：語義スコア記憶装置
３０９：選択語義記憶装置
５０１：共起語彙検索ユニット
５０２：重み決定ユニット
５０３：相関度計算ユニット
５０４：重み付けユニット
６０１：概念サブ階層抽出ユニット
６０２：語義参照階層抽出ユニット
６０３：相関度マッチングユニット
８０１：テキスト文脈ベース語義スコアリング手段
８０２：統合スコアリング手段

Claims

目標語彙の概念文脈からの語義特徴に基づく語義曖昧性解消方法であって、
複数の異なる語義{w₁, w₂,
…w_n}を有する目標語彙ｗを入力するステップと、
関連するオントロジから、目標語彙とその概念文脈を含む概念を抽出するステップと、
抽出した概念文脈に基づいて目標語彙の各語義w_j ( j = 1, 2, …n )をスコアリングするステップと、
語義のスコアに従って目標語彙の適切な語義を選択するステップと
を有することを特徴とする語義曖昧性解消方法。
前記オントロジが階層的分類スキーマを有することを特徴とする請求項１に記載の語義曖昧性解消方法。
前記目標語彙の各語義w_j ( j = 1, 2, …n )をスコアリングするステップが、
抽出した概念文脈の語義的な関係に基づいて目標語彙ｗに関する共起語彙{a₁, a₂, …a_m}をオントロジ内で検索し（各共起語彙ａｉ（ｉ＝１、２、…、ｍ）は、オントロジ内の目標語彙に隣接する概念に現れる語彙である）、
各共起語彙ａｉに対して、オントロジの階層における共起語彙ａｉと目標語彙間の語義パス長の距離によって重みW(a_i)を付与し、
辞書に与えられた目標語彙の異なる語義の定義に基づいて、各語義w_jおよび各共起語彙a_i ( i = 1, 2, …m )について、相関度R(w_j/a_i)を計算し、
目標語彙の各語義ｗｊ毎に、全ての共起語彙{a₁, a₂, …a_m}に関する総相関値Rank(w_j)を、語義ｗｊのスコアとして、以下のように計算する

ことを特徴とする請求項１に記載の語義曖昧性解消方法。
語義ｗｊと共起語彙ａｉ間の相関度Ｒ（ｗｊ／ａｉ）を計算するステップが、
辞書中の共起語彙a_iの各語義a_i ^l (l =1, 2,
…r)について、語義w_jと語義a_i ^l間の相関度R(w_j/ a_i ^l)を計算し、
語義w_jと共起語彙a_i間の相関度R(w_j/a_i)を、

と計算することを特徴とする請求項３に記載の語義曖昧性解消方法。
前記目標語彙の各語義w_j ( j = 1, 2, …n )をスコアリングするステップが、
オントロジから、目標語彙を中心としかつ目標語彙の概念文脈に対応するサブ階層を抽出し、
辞書から、目標語彙の語義w_jの１つに対応するいくつかの語義参照階層を抽出し、
オントロジから抽出された目標語彙の概念文脈に対応するサブ階層と各語義w_jに対応する各語義参照階層間のグラフマッチングを実行し、それらのトポロジー構造における相関度を、語義w_jのスコアとして、計算することを特徴とする請求項１に記載の語義曖昧性解消方法。
概念文脈に基づいて計算された目標語彙の各語義w_j( j = 1, 2, …n)のスコアを、第１スコア結果Rank1(w_j)として取得し、
各語義w_j( j = 1, 2, …n)について、既存のテキスト文脈ベースの方法を用いて、第２スコア結果Rank2(w_j)を計算し、
語義ｗｊの統合スコアを、
Rank(w_j) = θRank1(w_j)
+ (1−θ) Rank2(w_j)
と計算する（ここで、θは所定の重みであり、0<θ<1である）
ことを特徴とする請求項１に記載の語義曖昧性解消方法。
前記目標語彙の適切な語義を選択するステップが、
スコアが所定の閾値を越える１つ以上の語義を、適切語義として選択することを特徴とする請求項１に記載の語義曖昧性解消方法。
選択された語義の数が、辞書中の語義の合計数に比例することを特徴とする請求項７に記載の語義曖昧性解消方法。
目標語彙の概念文脈からの語義特徴に基づく語義曖昧性解消システムであって、
複数の異なる語義{w₁, w₂,
…w_n}を有する目標語彙ｗを入力する語彙入力手段と、
関連するオントロジから、目標語彙とその概念文脈を含む概念を抽出する概念的文脈抽出手段と、
抽出した概念文脈に基づいて目標語彙の各語義w_j ( j = 1, 2, …n )をスコアリングする概念的文脈ベース語義スコアリング手段と、
語義のスコアに従って目標語彙の適切な語義を選択する語義選択手段と
を備えることを特徴とする語義曖昧性解消システム。
前記概念的文脈ベース語義スコアリング手段が、
抽出した概念文脈の語義的な関係に基づいて目標語彙ｗに関する共起語彙{a₁, a₂, …a_m}（各共起語彙ａｉ（ｉ＝１、２、…、ｍ）は、オントロジ内の目標語彙に隣接する概念に現れる語彙）をオントロジ内で検索する共起語彙検索ユニットと、
各共起語彙ａｉに対して、オントロジの階層における共起語彙ａｉと目標語彙間の語義パス長の距離によって重みW(a_i)を付与する重み決定ユニットと、
辞書に与えられた目標語彙の異なる語義の定義に基づいて、各語義w_jおよび各共起語彙a_i ( i = 1, 2, …m )について、相関度R(w_j/a_i)を計算する相関度計算ユニットと、
目標語彙の各語義ｗｊ毎に、全ての共起語彙{a₁, a₂, …a_m}に関する総相関値Rank(w_j)を、語義ｗｊのスコアとして、以下のように計算する重み付けユニット

とを含むことを特徴とする請求項９に記載の語義曖昧性解消システム。
前記概念的文脈ベース語義スコアリング手段が、
オントロジから、目標語彙を中心としかつ目標語彙の概念文脈に対応するサブ階層を抽出する概念サブ階層抽出ユニットと、
辞書から、目標語彙の語義w_jの１つに対応するいくつかの語義参照階層を抽出する語義参照階層抽出ユニットと、
オントロジから抽出された目標語彙の概念文脈に対応するサブ階層と各語義w_jに対応する各語義参照階層間のグラフマッチングを実行し、それらのトポロジー構造における相関度を、語義w_jのスコアとして、計算する相関度マッチングユニットと
を含むことを特徴とする請求項９に記載の語義曖昧性解消システム。
既存のテキスト文脈ベースの方法を用いて、目標語彙の各語義w_j( j = 1, 2, …n)をスコアリングするテキスト文脈ベース語義スコアリング手段と、
各語義w_j( j = 1, 2, …n)について、前記概念的文脈ベース語義スコアリング手段によって第１スコア結果Rank1(w_j)として計算されたスコアと、前記テキスト文脈ベース語義スコアリング手段によって第２スコア結果Rank2(w_j)として計算されたスコアを入力し、語義ｗｊの統合スコアを、
Rank(w_j) = θRank1(w_j)
+ (1−θ) Rank2(w_j)
と計算する（ここで、θは所定の重みであり、0<θ<1である）統合スコアリング手段とを備えることを特徴とする請求項９に記載の語義曖昧性解消システム。