JP2010225135A - 多義性解消方法とそのシステム - Google Patents

多義性解消方法とそのシステム Download PDF

Info

Publication number
JP2010225135A
JP2010225135A JP2010010883A JP2010010883A JP2010225135A JP 2010225135 A JP2010225135 A JP 2010225135A JP 2010010883 A JP2010010883 A JP 2010010883A JP 2010010883 A JP2010010883 A JP 2010010883A JP 2010225135 A JP2010225135 A JP 2010225135A
Authority
JP
Japan
Prior art keywords
meaning
vocabulary
target vocabulary
semantic
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010010883A
Other languages
English (en)
Other versions
JP5078173B2 (ja
Inventor
Jianqiang Li
ジェンチャン リイ
Yu Zhao
ユウ ジャオ
Bo Liu
ボ リウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Publication of JP2010225135A publication Critical patent/JP2010225135A/ja
Application granted granted Critical
Publication of JP5078173B2 publication Critical patent/JP5078173B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 包含される語義特徴に従ってオントロジまたは階層的分類スキーマ中の目標語彙について語義曖昧性解消を実行する語義曖昧性解消方法およびシステムを提供する。
【解決手段】 この語義曖昧性解消方法は、複数の異なる語義{w1, w2, …wn}を有する目標語彙wを入力し、関連するオントロジから、目標語彙とその概念文脈を含む概念を抽出し、抽出した概念文脈に基づいて目標語彙の各語義wj ( j = 1, 2, …n )をスコアリングし、語義のスコアに従って目標語彙の適切な語義を選択する。これにより、目標語彙の文脈(すなわち概念文脈)が語義曖昧性解消に考慮に入れられるので、語義曖昧性解消結果の精度が向上する。
【選択図】 図1

Description

本発明は、一般に自然言語処理に関し、特に、語義理解および語義曖昧性解消の方法およびシステムに関する。
語義曖昧性解消とは、特定の文脈環境中の複数の意味を持つ語彙について適切な意味を決定することであり、自然言語処理、情報検索、情報抽出、オントロジ統合および他の幅広い分野に適用することができる。
現在の語義曖昧性解消方法は、通常、本文あるいは文中の目標語彙について実施される。
一般に、目標語彙の本文の文脈環境は、語義を区別するための特徴空間を構成し、それは、目標語彙に隣接する語彙、固定整合、あるいは文構造解析から取得することができる他の文法の特徴を含んでいる。
既存の語義曖昧性解消方法は、語義を区別するためにテキストの文脈環境からの文法的な特徴を主に使用する。
オントロジあるいは階層構造のコンテキスト/カテゴリに現れる目標語彙について語義曖昧性解消を実行する場合、理想的な効果を達成するのは困難である。
以下、関連技術分野おいて開発されているいくつかの既存の技術について簡単に説明する。
キルガーリフ A.、ローゼンツヴァイク J.等による「英語のSENSEVALのための、フレームワークおよび結果、コンピュータおよび人文学、34」(ページ15−48、2000発行)(Kilgarriff. A, Rosenzweig. J, etc, entitled
“Framework and Results for English SENSEVAL, Computers and the Humanities, 34”
(pages 15-48, published in 2000))(非特許文献1)は、いくつかの語義曖昧性解消方法を開示している。この非特許文献1の方法では、まず文法的な解析に基づいてテキストの文脈構造から目標語彙の対応する文法的な特徴を取得する。それは、主に、目標語彙から一定の距離を有するウィンドー内の共起語彙、固定整合、文構造などの解析を含んでいる。その後、統計方法によって目標語彙の語義を識別する目的を達成する。
さらに、特開2002−082943号公報(特許文献1)は、ウェブページにおける固有表現についての語義曖昧性解消方法を開示している。
この方法の利点は、目標語彙を含むウェブページ中の文法的な特徴に加えて、目標語彙を含むウェブページとハイパーリンク関係を有するウェブページの文法的な特徴を、固有表現の語義曖昧性解消を達成するために考慮に入れることである。
図1は、語義曖昧性解消システムの構造上のブロック図を示す。また、図2は、図1に示すシステムの使用により実行された語義曖昧性解消の一例を示す。
図1に示すように、語義曖昧性解消システム100は、2つの部分、すなわち、主な処理部分としての記憶部分とテキスト文脈ベースの語義曖昧性解消部分から成る。
テキスト文脈ベースの語義曖昧性解消部は語彙入力手段101、テキスト文脈抽出手段102、テキスト文脈ベース語義スコアリング手段103および語義選択手段104を含む。
図2に示す例を参照すると、テキスト文脈抽出を行なう場合、テキスト文脈抽出手段102は、目標語彙を含むウェブページとハイパーリンク関係を有するウェブページの文法的な特徴と共に、目標語彙"bass"を含んでいるウェブページの文法的な特徴も考慮し、その結果として、完全なテキスト文脈を取得する。
例えば、図2に示すように、共起語彙“go”、“fish”及び“sea”が取得される。共起語彙を取得した後、テキスト文脈ベース語義スコアリング手段103は、その共起語彙に基づいて、辞書中の目標語彙"bass"の語義毎にスコアを与える。例えば、テキスト文脈ベース語義スコアリング手段103は、テキストの文脈中のすべての共起語彙と辞書中の目標語彙の各語義の定義間の相関度を計算することにより、各語義に対するスコアを計算する。その後、語義選択手段104は、より高い類似度スコアを持つ語義を、適切な語義として選択する。図2の例において、語義選択手段104は、目標語彙"bass"についての1つの語義"a kind of fish"を最終語義として選択する。
この語義曖昧性解消方法の問題点は、テキストの文脈から得られた共起語彙はすべて、最終的な語義スコアリングにおいて同じ重みを有することである。共起語彙"go"は、語義スコアリングに余り貢献しないだけでなく、最終的な語彙曖昧性解消結果に対してマイナスの効果さえ有する。しかしながら、語義曖昧性解消結果に対する異なる共起語彙の影響は、考慮に入れられない。
特開2002−082943号公報
キルガーリフ A.、ローゼンツヴァイク J.等による「英語のSENSEVALのための、フレームワークおよび結果、コンピュータおよび人文学、34」(ページ15−48、2000発行)(Kilgarriff.A, Rosenzweig. J, etc, entitled "Framework and Results for English SENSEVAL,Computers and the Humanities, 34" (pages 15-48, published in 2000))
上述したように、既存の語義曖昧性解消方法は、異なる語義を区別するためにテキストの文脈における目標語彙の文法的な特徴を主に使用する。これらの方法を、オントロジあるいは階層的分類構造において目標語彙について語義曖昧性解消を実行するために使用する場合、目標語彙の文法的な特徴だけを考慮するので、オントロジあるいは階層的分類スキーマに含まれる大量の語義特徴が利用されず、語義曖昧性解消結果および精度について満足な結果が得られない。
本発明は、上記のような既存の語義曖昧性解消方法におけるいくつかの問題点を解決するために提案されたものである。
本発明の原理によれば、まず、関連するオントロジあるいは階層的分類スキーマから目標語彙を含む概念と、その概念と他の概念間の語義的な関係を決定する(すなわち、概念的文脈の抽出)。その後、辞書中の目標語彙の全ての語義を、目標語彙の概念文脈に含まれる語義特徴に従って、スコア付けしてソートする。スコア付けとソートの結果は、語義曖昧性解消の主要な基準として使用される。
本発明による目標語彙の概念文脈からの語義特徴に基づく語義曖昧性解消方法は、複数の異なる語義{w1, w2, …wn}を有する目標語彙wを入力するステップと、関連するオントロジから、目標語彙とその概念文脈を含む概念を抽出するステップと、抽出した概念文脈に基づいて目標語彙の各語義wj ( j = 1, 2, …n )をスコアリングするステップと、語義のスコアに従って目標語彙の適切な語義を選択するステップとを有する。
本発明による目標語彙の概念文脈からの語義特徴に基づく語義曖昧性解消システムは、複数の異なる語義{w1,
w2, …wn}を有する目標語彙wを入力する語彙入力手段と、関連するオントロジから、目標語彙とその概念文脈を含む概念を抽出する概念的文脈抽出手段と、抽出した概念文脈に基づいて目標語彙の各語義wj ( j = 1, 2, …n )をスコアリングする概念的文脈ベース語義スコアリング手段と、語義のスコアに従って目標語彙の適切な語義を選択する語義選択手段とを備える。
本発明によれば、オントロジあるいは階層構造に包含される語彙の語義特徴に従って、オントロジあるいは階層的分類構造における語彙について語義曖昧性解消を実行する語義曖昧性解消方法が提供される。
文脈(すなわち、概念文脈)における目標語彙の関連語義特徴を考慮するため、語義曖昧性解消の精度が顕著に向上する。
本発明の他の効果と特徴は、以下の詳細な説明と図面を併せて参照することにより、明らかとなるであろう。ただし、本発明は図面に示す例や特定の実施例に限定されないことに留意されたい。
本発明は、以下に示す本発明の実施例の詳細な説明と添付図面からさらに明確に理解されるであろう。なお、添付図面では、類似の部品は同一の参照番号を使用して示している。
関連技術による語義曖昧性解消システム100の構成例を示すブロック図である。 図1に示されるシステム100の動作原理の具体例を示す概略図である。 本発明の実施の形態による語義曖昧性解消システム300の構成例を示すブロック図である。 図3に示されるシステム300の動作処理を説明するフローチャートである。 概念的文脈ベース語義スコアリング手段の内部構成の例を示すブロック図である。 概念的文脈ベース語義スコアリング手段の内部構成の他の例を示すブロック図である。 図3に示すシステム300の動作原理の例を示す概略図である。 本発明による概念的文脈ベースの語義曖昧性解消方法を関連技術におけるテキスト文脈ベースの語義曖昧性解消方法と組み合わせた場合の構成を示すブロック図である。
図3は、本発明の実施の形態による語義曖昧性解消システム300の構成を示すブロック図である。
図1に示されるシステム100のように、システム300もまた2つの部分(すなわち、記憶部分と、概念的文脈ベースの語義曖昧性解消部分)から成る。
図3に示すように、本発明の中心的な構成要素として、概念的文脈ベースの語義曖昧性解消部分は、語彙入力手段301と、概念的文脈抽出手段302と、概念的文脈ベース語義スコアリング手段303および語義選択手段304を含んでいる。概念的文脈ベースの語義曖昧性解消部分の各構成要素と協力するために、記憶部分は複数記憶装置305〜309を含んでいる。
図4は、図3に示すシステム300の動作処理を説明するフローチャートである。
処理400はステップ401から開始し、語彙入力手段301が目標語彙w(複数の語義を有する目標語彙w)を入力する。
ステップ402において、概念的文脈抽出手段302は、関連するオントロジ(例えば階層的分類スキーマ)から、目標語彙wを含んでいる概念およびオントロジにおける対応する概念の文脈を抽出する。
ここで、目標語彙と関連するオントロジデータ、あるいは階層的分類スキーマは、オントロジ/階層的分類スキーマ記憶装置305に格納される。
当業者にとって広く知られているように、オントロジは特定分野の明示的な公式の記述であり、その分野に包含されるカテゴリ(例えば、コンピュータ・セキュリティ製品の分野における「ファイアウォール」は、その分野における抽象概念カテゴリである)、エンティティ(例えば、特定のファイアウォール製品)、属性記述(例えばファイアウォールの様々な属性パラメータ)、対応するカテゴリ、エンティティおよび属性間の関係(例えば、特定のファイアウォール製品はファイアウォール概念のインスタンスであり、また、ファイアウォールはコンピュータ・セキュリティ製品の一種である)等を含む。
階層的分類スキーマは広く利用されている明示的でかつ非公式なオントロジである(例えば、Yahooディレクトリ、ODPなどの解放ディレクトリ)。
これらの公式あるいは非公式のオントロジを実際のアプリケーション、特にコンピュータ処理工程に適用する場合、一般的に、概念、エンティティ、属性等の自然言語記述名に包含される語彙について語義曖昧性解消を実行することが望ましい。
具体的な適用例としては、情報検索の工程における検索語彙の拡張、2つのオントロジの統合等を含む。
ここで、カテゴリ、エンティティおよび属性は、「概念」と総称する。
図4に戻ると、ステップ403において、抽出された概念コンテキストに基づいて、概念的文脈ベース語義スコアリング手段303が、辞書中の目標語彙の語義{w1, w2, …wn}ごとにスコア付けを行う。
すべての語義について得点を取得した後、ステップ404において、語義選択手段304は、すべての語義から目標語彙に適切な語義を選択する。
これにより、処理400が終了する。
本発明による語義曖昧性解消システム300の動作原理をさらに説明するために、概念的文脈ベース語義スコアリング手段に含まれる主要な構成要素について以下に説明する。
(概念的文脈抽出手段)
図3に示すように、概念的文脈抽出手段302は、関連するオントロジあるいは階層的分類スキーマから、目標語彙wを含む概念及びオントロジあるいは階層的分類スキーマにおけるその概念的な文脈を抽出するために使用される。
目標語彙を含む概念及び目標語彙の概念とオントロジにおけるその他の概念間の種々の意味的な関係は、目標語彙の「概念的文脈」から成る。
概念コンテキストは、語義曖昧性解消に用いる大量の文法的かつ語義的な特徴を含んでいる。
文法的な特徴は、例えば、目標語彙と同じ概念に出現する他の共起語彙によって構成されるコンテキスト語彙表を含む。
例えば、概念「語義ネットワーク」において、「語義」と「ネットワーク」の語彙は、互いに概念語彙を形成する。
語義的な特徴は、ある種の関係(例えば、兄弟関係、子概念、父親概念等)において目標語彙を含む概念と関連する他のすべての概念に包含される。
例えば、概念「インターネット・ネットワーク」の子概念として概念「インターネット・ネットワーク」と概念「語義ネットワーク」を含む階層的概念ツリーがあると仮定する。
また、そのツリーは、概念「インターネット・ネットワーク」からの比較的遠い距離の概念「衣服」を含んでいる。
概念「インターネット・ネットワーク」中の語彙について語義曖昧性解消を実行する場合、「語義ネットワーク」および「衣服」は、両方とも概念文脈情報と見ることができる。
しかしながら、概念「インターネット・ネットワーク」からの距離が異なるため、それらは最終的な語義スコアリングにおいて異なる重みが与えられる。
異なる重みの割り当ては、主に、目標語彙を含む概念と対応する文脈の概念間の語義的な距離/関係に依存する。
概念に関する重みの利用については、後に詳細に説明する。
(概念的文脈ベース語義スコアリング手段)
概念的文脈ベース語義スコアリング手段303は、目標語彙の概念文脈に包含される語義的特徴に従って、辞書中の目標語彙の各語義にスコアを与える。
抽出した概念文脈に基づいて、語義的特徴を利用して辞書中に定義された目標語彙の複数の語義にスコア付けする方法については、多くの種類の方法が考えられる。
ここで、語義的特徴を利用して語義をスコア付けする2つの例を、図5および図6を参照して説明する。
言うまでもなく、図5と図6に示す語義スコアリング方法は、例として示すだけであり、本発明の範囲を制限するものではない。
本発明の説明を読めば、当業者は、本発明に適用することができる語義的特徴に基づく他の語義スコアリング方法を容易に思いつくはずである。
まず、図5は、概念的文脈ベース語義スコアリング手段303の構成例の詳細を示している。
図に示されるように、概念的文脈ベース語義スコアリング手段303は、例えば、共起語彙検索ユニット501、重み決定ユニット502、相関度計算ユニット503および重み付けユニット504を含んでいる。
この例において、目標語彙と共存する文脈語彙(すなわち、隣接する概念において現れる)は、概念文脈中の様々な語義的な関係に基づいて異なる重みが与えられる。これにより、概念文脈中の語義特徴に基づく語義の高品質なスコア付けが実現する。
これは、図2に示すような、共存する全ての語彙に通常同じ重みを与える関連技術におけるこれまでの方法とは明らかに相違する。
具体的には、概念名の中に現れる目標語彙wについて、共起語彙検索ユニット501は、まず、その概念文脈から、共起語彙{a1、a2、…、am}をすべて検索する。
ここで、各共起語彙ai(i=1、2、…、m)は、オントロジ中の目標語彙に隣接する概念において現れる語彙である。
共起語彙検索ユニット501によって検索されたm個の共起語彙ai(i=1、2、…、m)に対して、語義スコア付けアルゴリズムが下記処理によって実行される。
(A)各共起語彙aiについて、重み決定ユニット502が、一定の語義パス長の計算を使用して、最終的な語義曖昧性解消処理に使用される語彙aiの対応する重みW(ai)を取得する。
(B)辞書中の目標語彙wの各語義wj(j=1、2、…、n)の定義に基づいて、相関度計算ユニット503が、語義wjと各共起語彙ai間の相関度R(wj/ai)を計算する。
より具体的には、相関度の計算は以下のアルゴリズムを採用することができる。
(1)辞書中の共起語彙aiの各語義ai l (l =1, 2, …r)について、語義wjと語義ai lの間の相関度R(wj/ ai l)を計算する。
(2)語義wjと共起語彙aiの間の相関度として、語義wjと共起語彙aiの全ての語義間の全ての相関度の合計を計算する。
すなわち、
Figure 2010225135
(C)その後、重み付けユニット504が、各語義wjとすべての共起語彙間の相関度を
Figure 2010225135
として計算する。
各語義wjについて重み付けユニット504によって計算された相関度Rank(wj)は、語義wjのスコアとして使用され、語義スコア記憶装置308に格納される。
図6は、概念的文脈ベース語義スコアリング手段303の他の構成例の詳細を示している。
この具体例においては、語義スコアリングの目的は、概念文脈の階層構造/グラフ構造と語義辞書に示された語義参照階層間のマッチング計算(グラフマッチング)によって達成される。
図6に示されるように、この具体例において、概念的文脈ベース語義スコアリング手段303は、概念サブ階層抽出ユニット601と、語義参照階層抽出ユニット602および相関度マッチングユニット603を含んでいる。
図6に示す語義スコアリング方法によれば、まず、概念サブ階層抽出ユニット601が、関連するオントロジから、目標語彙wを中心としかつ目標語彙の概念文脈に対応するサブ階層を抽出する。
目標語彙の概念文脈は通常オントロジあるいは階層的分類スキーマの部分集合である。また、目標語彙はその部分集合の中心に位置する。
その後、語義参照階層抽出ユニット602が、辞書から、いくつかの語義参照階層を抽出する。各語義参照階層は、目標語彙の語義wjの1つに対応している。
語義の定義を提供する辞書は、通常、語義間の階層関係を記述する1つ以上の階層を包含する。一般に、1つの語義に対する定義は1つ以上の階層に存在する。
階層を2つの側面から総合し、相関度マッチングユニット603は、オントロジから抽出された目標語彙の概念文脈に対応するサブ階層と各語義wjに対応する各語義参照階層間のグラフマッチングを実行し、それらのトポロジー構造における相関度を、語義wjのスコアとして、計算する。
図7は、本発明による語義曖昧性解消システムの動作原理の概要を示す。
図2に示す関連技術と比較して、本発明による語義曖昧性解消システムは、関連するオントロジから目標語彙に対応する概念文脈を抽出し、その概念文脈に基づいて目標語彙の各語義に対するスコアを計算する。
語義スコアリング方法の詳細については、図5あるいは図6に示される方法を参照することができる。
図7の例において、"go
away"における"go"と"saltwater bass"は、概念文脈中においてある語義関係を有するけれども、それらの間の語義パス長は比較的長い。その結果として、語義スコアリング処理においてその語義により低い重みを与える。
これにより、語義曖昧性解消におけるマイナスの効果を削除することができる。
その後、概念的文脈ベース語義スコアリング手段303によって計算された語義のスコアは、語義スコア記憶装置308に格納される。例えば、3つの語義を有する目標語彙wについて、3つの語義のスコアが、0.86、0.43および0.28のようにそれぞれ計算される。
(語義選択手段)
語義選択手段304は、対応する概念的文脈における目標語彙の異なる語義のスコアに従って目標語彙にとって適切な語義を選択する。
ここで、語義選択手段304は、多くの種類の語義選択方策に基づいて語義選択を実行することができる。
例えば、語義選択手段304は、最も高いスコアを有する語義だけを目標語彙の正確な語義として選択することが可能である。
あるいは、語義選択手段304は、スコアが一定のしきい値を越える多数の語義を、目標語彙の正確な語義として選択することも可能である。
さらに、語義選択手段304は、ある方策によって動的に語義を選択することも可能である。
例えば、目標語彙が辞書中で有する語義が多いほど、正確な語義として選択されることが多く、一方、目標語彙が辞書中に有する語義が少ないほど、正確な語義として選択されることが少ない。
語義選択手段304によって選択された語義は、概念文脈に関して目標語彙について確定した語義として、選択語義記憶装置309に格納される。
本発明による概念的文脈ベースの語義曖昧性解消方式は、語義曖昧性解消結果の精度をさらに向上するために、関連技術中の既存のテキスト文脈ベースの語義曖昧性解消方式と組み合わせて使用することが可能である。
図8は、本発明による概念的文脈ベースの語義曖昧性解消方法を関連技術におけるテキスト文脈ベースの語義曖昧性解消方法と組み合わせた場合の構成を示すブロック図である。
図8において、図3に示す本発明による概念的文脈ベースの語義曖昧性解消システムの基本的な構成に加えて、このシステムは、さらにテキスト文脈ベース語義スコアリング手段801および統合スコアリング手段802を含む。
テキスト文脈ベース語義スコアリング手段801は、これまでのテキスト文脈ベースの語義曖昧性解消方法を使用することにより、各語義wj(j=1、2、…、n)についてスコアを計算する。
各語義wj(j=1、2、…、n)について、統合スコアリング手段802は、概念的文脈ベース語義スコアリング手段303によって計算されたスコアを第1スコア結果Rank1(wj)として取得し、テキスト文脈ベース語義スコアリング手段801によって計算されたスコアを第2スコア結果Rank2(wj)として取得し、語義wjの統合スコアを
Rank(wj) = θRank1(wj)
+ (1−θ) Rank2(wj)
と計算する。ここで、θは所定の重みであり、0<θ<1である。
統合スコアRank(wj)は、次の語義選択のために語義スコア記憶装置308に格納される。
以上、本発明による語義曖昧性解消方法およびシステムの特定の実施の形態について、添付図面を参照して説明した。
本発明は、包含される語義情報に従って関連するオントロジあるいは階層的分類スキーマに含まれる目標語彙について語義曖昧性解消を実行する方法を提供する。
対応する文脈(すなわち、概念文脈)における目標語彙の関連語義特徴も、語義曖昧性解消において考慮するので、語義曖昧性解消の精度が顕著に向上する。
上記では、添付図面を参照して本発明の特定の実施例について説明してきたが、本発明は図面に示した特定の構成やプロセスに限定されるものではない。上記では、説明を簡潔にするため、既知の方法および技術の詳細は省略している。また、上記の実施例では、いくつかの具体的なステップを例示したが、本発明の方法および処理は説明および図示に使用した特定のステップに限定されないため、当該技術に精通する当業者であれば、本発明の精神を一旦理解した後に、様々な変形、変更、追加を行い、またステップの順序を入れ替えることが可能である。
本発明の各要素は、ハードウェア、ソフトウェア、ファームウェア、またはその組み合わせとして実装し、そのシステム、サブシステム、コンポーネント、もしくはサブコンポーネント内で利用することができる。ソフトウェアとして実装された場合、本発明の各要素は、必要なタスクを実行するためのプログラムもしくはコードセクションとなる。これらのプログラムまたはコードセクションは、機械読取り可能な媒体に格納することも、あるいは、搬送波で搬送されるデータ信号を介して伝送媒体もしくは通信リンク上で伝送することもできる。「機械読取り可能な媒体」には、情報を格納または伝送できるあらゆる媒体が含まれる。機械読取り可能な媒体の例としては、電子回路、半導体記憶装置、ROM、フラッシュメモリ、EROM、フロッピーディスク、CD−ROM、光ディスク、ハードディスク、光ファイバー媒体、RFリンク等が挙げられる。コードセクションは、インターネットやイントラネット等のコンピュータネットワークを介してダウンロードすることができる。
本発明は、その精神および本質的な特徴から逸脱することなく、他の様々な形式で実装することができる。例えば、実施例で説明したアルゴリズムは、システムアーキテクチャが本発明の基本精神から逸脱しない限り、変更が可能である。したがって、上記の実施例は、あらゆる観点において限定的なものではなく、例示的なものとみなされる。本発明の範囲は、上記の説明よりもむしろ付記した請求項により定義されるため、請求項の範囲に入るあらゆる変形またはその等価物は本発明の範囲に含まれる。
100:語義曖昧性解消システム
101:語彙入力手段
102:テキスト文脈抽出手段
103:テキスト文脈ベース語義スコアリング手段
104:語義選択手段
300:語義曖昧性解消システム
301:語彙入力手段
302:概念的文脈抽出手段
303:概念的文脈ベース語義スコアリング手段
304:語義選択手段
305:オントロジ/階層的分類スキーマ記憶装置
308:語義スコア記憶装置
309:選択語義記憶装置
501:共起語彙検索ユニット
502:重み決定ユニット
503:相関度計算ユニット
504:重み付けユニット
601:概念サブ階層抽出ユニット
602:語義参照階層抽出ユニット
603:相関度マッチングユニット
801:テキスト文脈ベース語義スコアリング手段
802:統合スコアリング手段

Claims (12)

  1. 目標語彙の概念文脈からの語義特徴に基づく語義曖昧性解消方法であって、
    複数の異なる語義{w1, w2,
    …wn}を有する目標語彙wを入力するステップと、
    関連するオントロジから、目標語彙とその概念文脈を含む概念を抽出するステップと、
    抽出した概念文脈に基づいて目標語彙の各語義wj ( j = 1, 2, …n )をスコアリングするステップと、
    語義のスコアに従って目標語彙の適切な語義を選択するステップと
    を有することを特徴とする語義曖昧性解消方法。
  2. 前記オントロジが階層的分類スキーマを有することを特徴とする請求項1に記載の語義曖昧性解消方法。
  3. 前記目標語彙の各語義wj ( j = 1, 2, …n )をスコアリングするステップが、
    抽出した概念文脈の語義的な関係に基づいて目標語彙wに関する共起語彙{a1, a2, …am}をオントロジ内で検索し(各共起語彙ai(i=1、2、…、m)は、オントロジ内の目標語彙に隣接する概念に現れる語彙である)、
    各共起語彙aiに対して、オントロジの階層における共起語彙aiと目標語彙間の語義パス長の距離によって重みW(ai)を付与し、
    辞書に与えられた目標語彙の異なる語義の定義に基づいて、各語義wjおよび各共起語彙ai ( i = 1, 2, …m )について、相関度R(wj/ai)を計算し、
    目標語彙の各語義wj毎に、全ての共起語彙{a1, a2, …am}に関する総相関値Rank(wj)を、語義wjのスコアとして、以下のように計算する
    Figure 2010225135
    ことを特徴とする請求項1に記載の語義曖昧性解消方法。
  4. 語義wjと共起語彙ai間の相関度R(wj/ai)を計算するステップが、
    辞書中の共起語彙aiの各語義ai l (l =1, 2,
    …r)について、語義wjと語義ai l間の相関度R(wj/ ai l)を計算し、
    語義wjと共起語彙ai間の相関度R(wj/ai)を、
    Figure 2010225135
    と計算することを特徴とする請求項3に記載の語義曖昧性解消方法。
  5. 前記目標語彙の各語義wj ( j = 1, 2, …n )をスコアリングするステップが、
    オントロジから、目標語彙を中心としかつ目標語彙の概念文脈に対応するサブ階層を抽出し、
    辞書から、目標語彙の語義wjの1つに対応するいくつかの語義参照階層を抽出し、
    オントロジから抽出された目標語彙の概念文脈に対応するサブ階層と各語義wjに対応する各語義参照階層間のグラフマッチングを実行し、それらのトポロジー構造における相関度を、語義wjのスコアとして、計算することを特徴とする請求項1に記載の語義曖昧性解消方法。
  6. 概念文脈に基づいて計算された目標語彙の各語義wj ( j = 1, 2, …n)のスコアを、第1スコア結果Rank1(wj)として取得し、
    各語義wj ( j = 1, 2, …n)について、既存のテキスト文脈ベースの方法を用いて、第2スコア結果Rank2(wj)を計算し、
    語義wjの統合スコアを、
    Rank(wj) = θRank1(wj)
    + (1−θ) Rank2(wj)
    と計算する(ここで、θは所定の重みであり、0<θ<1である)
    ことを特徴とする請求項1に記載の語義曖昧性解消方法。
  7. 前記目標語彙の適切な語義を選択するステップが、
    スコアが所定の閾値を越える1つ以上の語義を、適切語義として選択することを特徴とする請求項1に記載の語義曖昧性解消方法。
  8. 選択された語義の数が、辞書中の語義の合計数に比例することを特徴とする請求項7に記載の語義曖昧性解消方法。
  9. 目標語彙の概念文脈からの語義特徴に基づく語義曖昧性解消システムであって、
    複数の異なる語義{w1, w2,
    …wn}を有する目標語彙wを入力する語彙入力手段と、
    関連するオントロジから、目標語彙とその概念文脈を含む概念を抽出する概念的文脈抽出手段と、
    抽出した概念文脈に基づいて目標語彙の各語義wj ( j = 1, 2, …n )をスコアリングする概念的文脈ベース語義スコアリング手段と、
    語義のスコアに従って目標語彙の適切な語義を選択する語義選択手段と
    を備えることを特徴とする語義曖昧性解消システム。
  10. 前記概念的文脈ベース語義スコアリング手段が、
    抽出した概念文脈の語義的な関係に基づいて目標語彙wに関する共起語彙{a1, a2, …am}(各共起語彙ai(i=1、2、…、m)は、オントロジ内の目標語彙に隣接する概念に現れる語彙)をオントロジ内で検索する共起語彙検索ユニットと、
    各共起語彙aiに対して、オントロジの階層における共起語彙aiと目標語彙間の語義パス長の距離によって重みW(ai)を付与する重み決定ユニットと、
    辞書に与えられた目標語彙の異なる語義の定義に基づいて、各語義wjおよび各共起語彙ai ( i = 1, 2, …m )について、相関度R(wj/ai)を計算する相関度計算ユニットと、
    目標語彙の各語義wj毎に、全ての共起語彙{a1, a2, …am}に関する総相関値Rank(wj)を、語義wjのスコアとして、以下のように計算する重み付けユニット
    Figure 2010225135
    とを含むことを特徴とする請求項9に記載の語義曖昧性解消システム。
  11. 前記概念的文脈ベース語義スコアリング手段が、
    オントロジから、目標語彙を中心としかつ目標語彙の概念文脈に対応するサブ階層を抽出する概念サブ階層抽出ユニットと、
    辞書から、目標語彙の語義wjの1つに対応するいくつかの語義参照階層を抽出する語義参照階層抽出ユニットと、
    オントロジから抽出された目標語彙の概念文脈に対応するサブ階層と各語義wjに対応する各語義参照階層間のグラフマッチングを実行し、それらのトポロジー構造における相関度を、語義wjのスコアとして、計算する相関度マッチングユニットと
    を含むことを特徴とする請求項9に記載の語義曖昧性解消システム。
  12. 既存のテキスト文脈ベースの方法を用いて、目標語彙の各語義wj ( j = 1, 2, …n)をスコアリングするテキスト文脈ベース語義スコアリング手段と、
    各語義wj ( j = 1, 2, …n)について、前記概念的文脈ベース語義スコアリング手段によって第1スコア結果Rank1(wj)として計算されたスコアと、前記テキスト文脈ベース語義スコアリング手段によって第2スコア結果Rank2(wj)として計算されたスコアを入力し、語義wjの統合スコアを、
    Rank(wj) = θRank1(wj)
    + (1−θ) Rank2(wj)
    と計算する(ここで、θは所定の重みであり、0<θ<1である)統合スコアリング手段とを備えることを特徴とする請求項9に記載の語義曖昧性解消システム。
JP2010010883A 2009-03-20 2010-01-21 多義性解消方法とそのシステム Expired - Fee Related JP5078173B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200910129454A CN101840397A (zh) 2009-03-20 2009-03-20 词义消歧方法和系统
CN200910129454.8 2009-03-20

Publications (2)

Publication Number Publication Date
JP2010225135A true JP2010225135A (ja) 2010-10-07
JP5078173B2 JP5078173B2 (ja) 2012-11-21

Family

ID=42743773

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010010883A Expired - Fee Related JP5078173B2 (ja) 2009-03-20 2010-01-21 多義性解消方法とそのシステム

Country Status (2)

Country Link
JP (1) JP5078173B2 (ja)
CN (1) CN101840397A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013020431A (ja) * 2011-07-11 2013-01-31 Nec Corp 多義語抽出システム、多義語抽出方法、およびプログラム
JP2014191777A (ja) * 2013-03-28 2014-10-06 Nippon Hoso Kyokai <Nhk> 語義解析装置、及びプログラム
CN111191458A (zh) * 2019-12-20 2020-05-22 中国科学院软件研究所 一种基于上下文的语义匹配方法和系统
KR20210097374A (ko) * 2020-01-30 2021-08-09 (주)나라지식정보 어휘 관계 및 글로서리 그래프를 이용한 다의어의 의미 추출 장치 및 방법

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682042B (zh) * 2011-03-18 2014-07-02 日电(中国)有限公司 概念识别设备和方法
CN102306144B (zh) * 2011-07-18 2013-05-08 南京邮电大学 一种基于语义词典的词语消歧方法
US20150006155A1 (en) * 2012-03-07 2015-01-01 Mitsubishi Electric Corporation Device, method, and program for word sense estimation
CN104699763B (zh) * 2015-02-11 2017-10-17 中国科学院新疆理化技术研究所 多特征融合的文本相似性度量系统
CN104731771A (zh) * 2015-03-27 2015-06-24 大连理工大学 一种基于词向量的缩写词歧义消除系统及方法
CN107291685B (zh) * 2016-04-13 2020-10-13 北京大学 语义识别方法和语义识别系统
CN105955993B (zh) * 2016-04-19 2020-09-25 北京百度网讯科技有限公司 搜索结果排序方法和装置
CN107515877B (zh) * 2016-06-16 2021-07-20 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN106407180B (zh) * 2016-08-30 2021-01-01 北京奇艺世纪科技有限公司 一种实体消歧方法及装置
CN108572960A (zh) * 2017-03-08 2018-09-25 富士通株式会社 地名消岐方法和地名消岐装置
EP3596623B1 (en) * 2017-03-17 2023-10-18 Uilicious Private Limited Systems, methods and computer readable media for ambiguity resolution in instruction statement interpretation
CN108304368B (zh) 2017-04-20 2022-02-08 腾讯科技(深圳)有限公司 文本信息的类型识别方法和装置及存储介质和处理器
CN109298796B (zh) * 2018-07-24 2022-05-24 北京捷通华声科技股份有限公司 一种词联想方法及装置
CN112836057B (zh) * 2019-11-22 2024-03-26 华为技术有限公司 知识图谱的生成方法、装置、终端以及存储介质
CN115599903B (zh) * 2021-07-07 2024-06-04 腾讯科技(深圳)有限公司 对象标签获取方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0018645D0 (en) * 2000-07-28 2000-09-13 Tenara Limited Dynamic personalization via semantic networks
CA2536265C (en) * 2003-08-21 2012-11-13 Idilia Inc. System and method for processing a query
CN101295294A (zh) * 2008-06-12 2008-10-29 昆明理工大学 基于信息增益改进贝叶斯词义消歧方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013020431A (ja) * 2011-07-11 2013-01-31 Nec Corp 多義語抽出システム、多義語抽出方法、およびプログラム
JP2014191777A (ja) * 2013-03-28 2014-10-06 Nippon Hoso Kyokai <Nhk> 語義解析装置、及びプログラム
CN111191458A (zh) * 2019-12-20 2020-05-22 中国科学院软件研究所 一种基于上下文的语义匹配方法和系统
KR20210097374A (ko) * 2020-01-30 2021-08-09 (주)나라지식정보 어휘 관계 및 글로서리 그래프를 이용한 다의어의 의미 추출 장치 및 방법
KR102479163B1 (ko) 2020-01-30 2022-12-20 (주)나라지식정보 어휘 관계 및 글로서리 그래프를 이용한 다의어의 의미 추출 장치 및 방법

Also Published As

Publication number Publication date
JP5078173B2 (ja) 2012-11-21
CN101840397A (zh) 2010-09-22

Similar Documents

Publication Publication Date Title
JP5078173B2 (ja) 多義性解消方法とそのシステム
Bhatia et al. Automatic labelling of topics with neural embeddings
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
US9613004B2 (en) NLP-based entity recognition and disambiguation
US9665643B2 (en) Knowledge-based entity detection and disambiguation
Zhou et al. Resolving surface forms to wikipedia topics
Eisa et al. Existing plagiarism detection techniques: A systematic mapping of the scholarly literature
US20100185623A1 (en) Topical ranking in information retrieval
US8812504B2 (en) Keyword presentation apparatus and method
JP5057474B2 (ja) オブジェクト間の競合指標計算方法およびシステム
WO2010109594A1 (ja) 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
Tan et al. Query Rewrite for Null and Low Search Results in eCommerce.
JP4945015B2 (ja) 文書検索システム、文書検索プログラム、および文書検索方法
JPWO2015125209A1 (ja) 情報構造化システム及び情報構造化方法
Moumtzidou et al. Discovery of environmental nodes in the web
Belliardo et al. Leave no Place Behind: Improved Geolocation in Humanitarian Documents
US20080033953A1 (en) Method to search transactional web pages
Lu et al. Entity identification on microblogs by CRF model with adaptive dependency
Kundi et al. A review of text summarization
Ren et al. Role-explicit query extraction and utilization for quantifying user intents
Zhang et al. An adaptive method for organization name disambiguation with feature reinforcing
Xin et al. Casie: Canonicalize and informative selection of the openie system
Guo et al. Deep natural language processing for linkedin search
CN112214511A (zh) 一种基于wtp-wcd算法的api推荐方法

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120507

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120806

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120827

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120827

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150907

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees