JP3166646B2 - 語義曖昧性解消装置 - Google Patents

語義曖昧性解消装置

Info

Publication number
JP3166646B2
JP3166646B2 JP35263396A JP35263396A JP3166646B2 JP 3166646 B2 JP3166646 B2 JP 3166646B2 JP 35263396 A JP35263396 A JP 35263396A JP 35263396 A JP35263396 A JP 35263396A JP 3166646 B2 JP3166646 B2 JP 3166646B2
Authority
JP
Japan
Prior art keywords
word
meaning
interest
probability
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP35263396A
Other languages
English (en)
Other versions
JPH10171806A (ja
Inventor
航 李
純一 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP35263396A priority Critical patent/JP3166646B2/ja
Publication of JPH10171806A publication Critical patent/JPH10171806A/ja
Application granted granted Critical
Publication of JP3166646B2 publication Critical patent/JP3166646B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、語義曖昧性解消装
置に関し、特に、音声合成システム、OCR(Optical
Charactor Reader;光学的文字読み取り)システム、
仮名漢字変換システム、機械翻訳システム、テキスト分
類システム等の情報処理システムに用いて好適な知識獲
得、知識利用技術に関する。
【0002】
【従来の技術】語義の曖昧性解消とは、異なる語義(意
味)をもつ単語の、ある文脈における語義を特定するこ
とである。
【0003】自然言語には、異なる語義をもつ単語が数
多く存在する。例えば、英単語「bank」には、「銀
行」の意味もあるし、これとは別に「河岸」の意味もあ
る。
【0004】このため、英語を日本語に自動翻訳する機
械翻訳システムにおいては、例えば単語「bank」
の、ある文脈における語義を特定し、日本語に翻訳する
必要がある。この問題が、語義曖昧性解消の問題であ
る。
【0005】また、Yarowsky(ヤロウスキ)が指摘した
ように、自然言語処理の数多くの問題は語義曖昧性解消
の問題に帰着することができる。例えば文献(1)(David
Yarowsky, One Sense per Collocation, in Pr
oceedings of ARPA HumanLanguage Technology Wo
rkshop, Princeton, 1993)参照。
【0006】また、例えば、テキストを入力し、そのテ
キストを読み上げる音声合成システムでは、異なる読み
をもつ日本語(単語)の同形異音語について、該単語の
テキストの各文における読みを決めなければならない。
同じ表記の「市場」は、文脈によっては、「いちば」と
読むべきであるし、あるいは「しじょう」と読むべきで
ある。この場合、読みを語義と見なせば、この問題は、
語義曖昧性解消の問題に帰着する。
【0007】さらに、文章を含む画像データを取り込
み、文章(文字情報)を記号データ(コード)に変換す
るOCR(光学的文字読み取り)システムでは、読み込
んだ単語の画像から形の類似した単語を検索し、類似し
た単語の候補から、もっともらしい単語を一つ選択して
出力する必要がある。
【0008】例えば、日本語では、漢字単語の「入口」
と、「人口」は極めて類似した形をもつ。ある日本語の
テキストに「入口」が挿入されており、OCRシステム
がそのテキストを読み込む時、単語の形から、候補とし
て、「入口」と「人口」を選んだとする。この時、OC
Rシステムは、さらにその周りの文脈をみて、この単語
が「入口」であると「認識」する必要がある。この問題
も語義曖昧性解消の問題に帰着する。
【0009】そして、仮名漢字変換システムにおいて
は、ユーザが入力した平仮名を漢字に変換する必要があ
る。日本語には、仮名表記が共通で漢字表記が異なる単
語が数多く存在する。例えば、仮名の「かてい」は、
「仮定」、「過程」、「家庭」と「課程」等の漢字単語
に変換できる。
【0010】ユーザが入力した「かてい」から、その意
図する漢字単語を候補として先に提示することができれ
ば、ユーザの作業の負担が軽減することになる。入力さ
れた仮名からその漢字を推定することも、上記した語義
曖昧性解消問題に帰着する。
【0011】さらに、テキストに現れるキーワードをみ
てそのテキストにラベルをつけ、分類する問題(技術)
がある、例えば、キーワード「ベース」、「ヒット」と
「ピッチャー」の現れるテキストに、「野球」のラベル
を付ける。あるラベル、例えば「野球」を付けることを
一つの語義とみなし、付けないことをもう一つの語義と
みなすことができる。さらに、テキストに現れるキーワ
ードの集合をラベルの「周り」の文脈とみなすこともで
きる。このように、テキストに現れるキーワードをみ
て、ラベルをつけるかどうかを判断する問題も、語義曖
昧性解消問題に帰着する。
【0012】従来では、例えば、Yarowskyは、決定リス
トを使った語義曖昧性解消法を提案した。例えば文献
(2)(David Yarowsky, Decision Lists for Lexic
al Ambiguity Resolution:Application to Accent
Restoration in Spanish and French, Proceedin
gs of the 32nd Annual Meeting of the Assoc
iation for Computational Linguistics, 1994, p
age 88-95)参照。
【0013】また、Yarowskyは、確率的なアプローチに
よる語義曖昧性解消方法を提案している。例えば文献
(3)(David Yarowsky, Word-Sense Disambiguation
UsingStatistical Models of Roget's Categories
Trained on Large Corpora, in Proceedings o
f 14th International Conference on Computatio
nal Linguistics, France, 1992)参照。
【0014】具体的には、ベイズの定理(Bayesian th
eorem)を使って、周りの文脈の証拠の下での各語義出
現の条件つき確率を計算し、確率の最も高い語義を採用
する。
【0015】Yarowskyは、さらに周りの文脈の証拠は互
いに独立であると仮定している。例えば、「bank」
の語義曖昧性を解消する時、周りの文脈に現れる「mo
ney」と「loan」が互いに独立な証拠であると
し、ベーズの定理を使ってそれらの証拠の下での各語義
出現の条件つき確率を計算し、「bank」の語義を決
める。
【0016】
【発明が解決しようとする課題】しかしながら、この従
来の方法の問題点は、独立という仮定が強すぎることで
ある。
【0017】すなわち、周りの文脈における証拠は、普
通、互いに独立ではなく、依存関係にある。例えば、証
拠としての「money」と「loan」は共起しやす
い。その両者が共に現れたら、「bank」のこの文脈
における語義が「銀行」である確率がさらに高くなる。
【0018】このため、証拠が互いに独立であるとする
のではなく、それらの間の依存関係をも考慮し、語義曖
昧性解消を行う必要がある。
【0019】一方、機械学習の分野では、鈴木らは確率
依存森(あるいは、Dendroid分布ともいう)の
学習アルゴリズムを開発されている。例えば文献
(4)(鈴木譲、大嶽康隆、平沢茂一、「記述長最小基準
と状態分割の立場からみた確率モデルの選択方法につい
て」、情報処理学会論文誌、Vol.33, No.11, 1992)
参照。
【0020】この鈴木らのアルゴリズムは、効率的で、
理論的な基礎がしっかりしたものである。鈴木らは、こ
のアルゴリズムをアンケート調査結果の分析に適用して
いるが、しかし、このアルゴリズムを、他の応用問題に
対してどのように適用すればよいかは明確ではなかっ
た。
【0021】上記したように、周りの文脈における証拠
が互いに独立であるとするのではなく、証拠の間に依存
関係があるとし、依存関係にある証拠の下での語義の曖
昧性を解消する必要がある。
【0022】したがって、本発明は、上記事情に鑑みて
なされたものであって、その目的は、上記問題点を解消
すべく確率的アプローチにより語義曖昧性を解消する装
置及び方法を提供することにある。
【0023】
【課題を解決するための手段】前記目的を達成するた
め、本発明は、各語義ごとに、周りの文脈に現れる証拠
を確率依存森として学習し、証拠間の依存関係を確率依
存森における依存関係として学習し、さらに、ベーズの
定理を使って依存関係にある周りの文脈の証拠の下での
各語義の出現の条件付き確率を計算し、条件付きの確率
の最も大きい語義を採用することによって語義曖昧性解
消を行うようにしたものである。
【0024】本発明の語義曖昧性解消装置は、注目単語
の語義が記されたテキストを記憶するテキスト記憶部
と、統計情報を記憶する統計情報記憶部と、前記テキス
ト記憶部から注目単語の語義が記されたテキストを入力
し、入力されたテキストにおける、注目単語の各語義の
出現確率、注目単語の語義ごとの周りの文脈に現れる証
拠の出現確率、注目単語の語義ごとの周りの文脈に現れ
る二つの証拠の間の共起確率、注目単語の語義ごとの周
りの文脈に現れる二つの証拠の間の相互情報量という4
種類の統計情報を計算し、計算できた4種類の統計情報
を前記統計情報記憶部に記憶する統計処理部と、注目単
語の語義が曖昧なテキストを入力する入力部と、注目単
語の語義を出力する出力部と、前記入力部から、注目単
語の語義が曖昧なテキストを入力し、入力されたテキス
トにおける、注目単語の周りの文脈に現れる証拠を特定
し、特定できた注目単語の語義ごとの周りの文脈に現れ
る証拠に関する4種類の統計情報を前記統計情報記憶部
から読み込み、読み込んだ4種類の統計情報を基に、注
目単語の語義ごとの周りの文脈に現れる証拠からなる確
率依存森を学習し、学習できた注目単語の語義ごとの周
りの分脈に現れる証拠からなる確率依存森を基に、注目
単語の各語義の周りの文脈の条件の下での条件つき確率
を計算し、計算できた条件つき確率のもっとも高い注目
単語の語義を前記出力部に出力する語義曖昧性解消部
と、を備えることを特徴とする。
【0025】
【発明の実施の形態】本発明の実施の形態について以下
に説明する。本発明は、その好ましい実施の形態におい
て、注目単語の語義が記されたテキストを記憶するテキ
スト記憶部(図1の1)と、統計情報を記憶する統計情
報記憶部(図1の3)と、統計処理部(図1の2)と、
注目単語の語義が曖昧なテキストを入力する入力部(図
1の6)と、注目単語の語義を出力する出力部(図1の
6)と、語義曖昧性解消部(図1の5)と、を備えて構
成されている。
【0026】統計処理部(図1の2)は、テキスト記憶
部(図1の1)から注目単語の語義が記されたテキスト
を入力し、入力されたテキストにおける、(a)注目単
語の各語義の出現確率、(b)注目単語の語義ごとの周
りの文脈に現れる証拠の出現確率、(c)注目単語の語
義ごとの周りの文脈に現れる二つの証拠の間の共起確
率、及び、(d)注目単語の語義ごとの周りの文脈に現
れる二つの証拠の間の相互情報量、の4種類の統計情報
を計算し、計算された前記4種類の統計情報を統計情報
記憶部(図1の3)に記憶する。
【0027】語義曖昧性解消部(図1の5)は、入力部
(図1の4)から、注目単語の語義が曖昧なテキストを
入力し、入力されたテキストにおける、注目単語の周り
の文脈に現れる証拠を特定し、特定できた注目単語の語
義ごとの周りの文脈に現れる証拠に関する4種類の統計
情報を統計情報記憶部(図1の3)から読み込み、読み
込んだ4種類の統計情報を基に、注目単語の語義ごとの
周りの文脈に現れる証拠からなる確率依存を学習し、学
習できた注目単語の語義ごとの周りの分脈に現れる証拠
からなる確率依存森を基に、注目単語の各語義の周りの
文脈の条件の下での条件つき確率を計算し、計算できた
条件つき確率のもっとも高い注目単語の語義を出力部
(図1の6)に出力する。
【0028】上記した本発明の実施の形態について更に
詳細に説明すべく、本発明の実施例について図面を参照
して以下に説明する。
【0029】
【実施例】本発明の一実施例について説明する。本発明
の実施例に係る語義曖昧性解消装置は、日本語音声合成
システムにおける同形異音語を読み分けるものである。
ここでは、注目する同形異音語が注目単語で、同形異音
語の異なる読みが語義である。
【0030】図1は本発明の一実施例の語義曖昧性解消
装置の構成の一例を示す図である。図1を参照すると、
本発明の一実施例の語義曖昧性解消装置は、テキスト記
憶部1、統計処理部2、統計情報記憶部3、入力部4、
語義曖昧性解消部5、出力部6を備える。
【0031】統計処理部2は、テキスト記憶部1から注
目する同形異音語の読みの記されたテキストを入力す
る。
【0032】図2は、本発明の一実施例として、注目す
る同形異音語の読みの記されたテキストの一例を示す図
である。図2には、「米」が注目する同形異音語で、そ
の各文における読み(べい、こめ)が記されている。
【0033】統計処理部2は、まず、注目する同形異音
語に対応する確率変数を設ける。その確率変数は注目す
る同形異音語の各読みを値とする。図2に示す例では、
「米」が注目する同形異音語であるので、確率変数「X
米」を設ける。この確率変数X米のとる値は、「こめ」
と「べい」である。
【0034】統計処理部2は、次に、周りの文脈に現れ
る一つの証拠に対して、一つの確率変数を設ける。この
確率変数は、「1」と「0」を値とする。この場合、値
「1」は、対応する証拠が現れることを意味し、値
「0」は、対応する証拠が現れないことを意味する。
【0035】本実施例の語義曖昧性解消装置では、注目
する同形異音語の周りの文脈に現れる単語を証拠として
いる。ある単語が現れれば、その証拠が現れるとし、そ
の単語が現れなければ、その証拠が現れないとする。
【0036】図2に示す例では、「米」の周りの文脈
に、「生産」、「流通」、「市場」、「政府」、「国」
という5つの単語が現れたので、証拠は5つある。
【0037】さらに、5つの証拠に対応する5つの確率
変数を設ける。この場合、確率変数は、「X生産」、
「X流通」、「X市場」、「X政府」、「X国」であ
る。
【0038】統計処理部2は、次に、以下の4種類の統
計情報を計算し、計算できた統計情報を統計情報記憶部
3に記憶する。
【0039】第1種の統計情報は、注目する同形異音語
の各読みの出現確率である。各読みの出現確率は各読み
の出現度数を基に計算する(次式(1)参照)。
【0040】P(X=i)=f(X=i)/f …(1)
【0041】ここで、P(X=i)は、読みがiである
時の出力確率である。またf(X=i)は読みがiであ
る時の出力度数で、fは全データの数である。
【0042】図2に示す例では、 P(X米=こめ)=0.6 P(X米=べい)=0.4 となる。
【0043】第2種の統計情報は、注目する同形異音語
の読みごとの、周りの文脈に現れる各証拠の出現確率で
ある。すなわち、同形異音語の読みごとの、周りの文脈
に現れる証拠に対応する確率変数が「1」と「0」であ
る確率である。
【0044】例えば、図2に示す例で、読みが「こ
め」、あるいは「べい」である時の確率変数「X生産」
が「1」、あるいは「0」である確率である。
【0045】 P(X=i)=(f(X=i)+0.5)/(f+1)…(2)
【0046】P(X=i)は証拠に対応する確率変数が
iである確率である。f(X=i)は証拠に対応する確
率変数がiである度数である。fはその読みの全データ
の数である。
【0047】読みが「こめ」、あるいは「べい」である
時の、図2に示す例における確率変数が「1」、あるい
は「0」である度数は、図3に示すようなものとなるの
で、それぞれの確率変数が「1」、あるいは「0」であ
る確率の推定値は、図4に示すようなものとなる。
【0048】第3種の統計情報は、注目する同形異音語
の読みごとの、周りの文脈に現れる二つの証拠間の共起
確率である。すなわち、同形異音語の読みごとの、周り
の文脈に現れる二つの証拠に対応する二つの確率変数が
それぞれ「1」あるいは「0」である確率である。例え
ば、読みが「こめ」、あるいは「べい」である時の確率
変数「X生産」が「1」で、「X流通」が「0」である
確率等である。
【0049】
【0050】ここで、P(X=i、Y=j)は、二つの
証拠に対応する確率変数Xがiで、確率変数Yがjであ
る共起確率である。またf(X=i、Y=j)は、二つ
の証拠に対応する確率変数Xがiで、確率変数Yがjで
ある度数である。fはその読みの全データの数である。
【0051】読みが「こめ」、あるいは「べい」である
時の、図2に示した例における二つの確率変数の共起度
数は、図5に示したようなものとなり、したがって二つ
の確率変数の共起確率の推定値は、図6に示すようなも
のとなる。
【0052】次に第4種の統計情報は、注目する同形異
音語の読みごとの、周りの文脈に現れる二つの証拠の間
の相互情報量である。すなわち、注目する同形異音語の
読みごとの、周りの文脈に現れる二つの証拠に対応する
二つの確率変数の間の相互情報量である。例えば、読み
が「こめ」、あるいは「べい」である時の、(X生産、
X流通)と(X生産、X国)等の間の相互情報量であ
る。これは、第2種の統計情報と第3種の統計情報を基
に計算する。具体的には、確率変数XとYの間の相互情
報量MI(X、Y)は、次式(4)に従って計算する。
【0053】
【数1】
【0054】図2に示した例における、読みが「こ
め」、あるいは「べい」である時の確率変数の間の相互
情報量は、図7に示すようなものとなる。
【0055】統計処理部2は、上記4種類の統計情報を
計算した後、これらを統計情報記憶部3に記憶する。
【0056】語義曖昧性解消部5の処理では、入力部4
が注目する同形異音語の読みが曖昧なテキストを入力す
る。図8に示すのは、その一例である。
【0057】語義曖昧性解消部5は、入力部4からのテ
キスト入力を受け取り、注目する同形異音語の読みを判
断する。例えば、注目する同形異音語が「米」である場
合、その読みが「こめ」か「べい」かを判断する。以下
では語義曖昧性解消部5の処理について説明する。
【0058】まず、語義曖昧性解消部5は注目する同形
異音語の周りの文脈に現れる証拠を特定する。例えば、
「米」が「こめ」、あるいは「米」である時の周りの文
脈に現れる証拠を特定する。
【0059】次に、それらの証拠に対応する確率変数を
用意する。さらに、統計情報記憶部3から、読みごとの
周りの文脈に現れる証拠に関する第2、3、4種類の統
計情報を読み込む。すなわち、読みごとの周りの文脈に
現れる証拠に対応する確率変数に関する第2、3、4種
類の統計情報を読み込む。これと同時に、統計情報記憶
部3から、各読みの出現確率も読み込む。
【0060】語義曖昧性解消部5は、次に、注目する同
形異音語の読みごとの、周りの文脈に現れる証拠からな
る確率依存森を学習する。すなわち、注目する同形異音
語の読みごとの周りの文脈に現れる証拠に対応する確率
変数からなる確率依存森を学習する。以下ではそのアル
ゴリズムを示す。
【0061】すべての確率変数ペアに対してその相互情
報量を降順にソートする。さらに、各確率変数をグラフ
の節点と対応させる。相互情報量の大きい順に節点と節
点を結んでいく。その際、相互情報量がある値以上でな
いと辺を結ばない、また、ループを形成するような辺を
結ばない。最終的には、グラフが完成する。図9は、こ
の処理フローを説明するための流れ図である。詳しい学
習アルゴリズムは以下の通りである。
【0062】1.T={}
【0063】2.すべての確率変数ペアに対してその相
互情報量を検索し、降順でそれをソートし、キューQに
格納する(ステップ101)。
【0064】3.確率変数の集合{X1}、…、{X
k}の集合をVSとおく(ステップ102)。
【0065】
【数2】
【0066】図10に、確率依存森を学習する過程を模
式的に示す。注意すべき点は、注目する同形異音語の読
みごとに、このような確率依存森を学習することであ
る。
【0067】図11は、図2に示した例に対して、学習
できた確率依存森を示す図である。図11を参照する
と、確率依存森では、ノードが確率変数を表し、リンク
が確率的依存関係を表す。すなわち、二つのノードがつ
ながっていれば、それらの表す確率変数が依存関係にあ
る。例えば、図11において、確率変数X流通とX市場
とは依存関係にある。また、二つのノードがつながって
いなければ、これらのノードの表す確率変数は互いに独
立関係にある。
【0068】語義曖昧性解消部5は、次に統計情報記憶
部3から参照した、注目同形異音語の読みごとの周りの
文脈に現れる証拠に対応する確率変数に関する第2種、
第3種の統計情報を基に、読みごとの確率依存森のノー
ドとリンクにおける確率の値を計算する。
【0069】まず、確率依存森の中の各確率依存木のル
ートノードを決め、そのルートからその確率依存木の他
のノードへのリンクの方向をつける。それから、ルート
ノードにその確率変数の出現確率の値を付与する。
【0070】図11に示す例の場合、ノードX流通とX
生産がルートであるので、ノードX流通に、P(X流通
=1)とP(X流通=0)の値を付与し、ノードX生産
にP(X生産=1)とP(X生産=0)の値を付与す
る。
【0071】次に、有向リンクに条件つき確率の値を付
与する。例えば、X流通からX市場へのリンクにP(X
市場=1|X流通=0)、P(X市場=1|X流通=
1)等の条件つき確率の値を付与する。
【0072】これは、 P(X市場=1|X流通=1)=P(X市場=1、X流通
=1)/P(X流通=1) のように計算する。
【0073】語義曖昧性解消部5は、次に、注目する同
形異音語の語義ごとの確率依存森における確率を参照
し、ベーズの定理を使って、各読みの周りの文脈の条件
下で条件つき確率を計算する。具体的には、以下のよう
に計算する。
【0074】
【数3】
【0075】語義曖昧性解消部5は、次に、条件つき確
率P(X米=こめ|X生産=1、X流通=1、X市場=
1)と、P(X米=べい|X生産=1、X流通=1、X
市場=1)の比較を行う。前者が大きければ、読みが
「こめ」だとし、後者が大きければ、読みが「べい」だ
とする。
【0076】語義曖昧性解消部5は、次に、注目する同
形異音語の読みを出力部6に出力する。
【0077】
【発明の効果】以上説明したように、本発明の語義曖昧
性解消装置によれば、注目単語の周りの文脈に現れる証
拠の間の依存関係を考慮して曖昧性解消を行うように構
成したことにより、高精度且つ高性能の曖昧性解消を実
現することができる。
【図面の簡単な説明】
【図1】本発明の一実施例の語義曖昧性解消装置の構成
を示す図である。
【図2】本発明の一実施例を説明するための図であり、
読みの記されたテキストの例を示す図である。
【図3】本発明の一実施例を説明するための図であり、
読みごとの証拠の出現度数の例を示す図である。
【図4】本発明の一実施例を説明するための図であり、
読みごとの証拠の出現確率の例を示す図である。
【図5】本発明の一実施例を説明するための図であり、
読みごとの二つの証拠の共起度数の例を示す図である。
【図6】本発明の一実施例を説明するための図であり、
読みごとの二つの証拠の共起確率の例を示す図である。
【図7】本発明の一実施例を説明するための図であり、
読みごとの二つの証拠の相互情報量の例を示す図であ
る。
【図8】本発明の一実施例を説明するための図であり、
入力テキストの一例を示す図である。
【図9】本発明の一実施例における、確率依存森の学習
アルゴリズムを説明するための流れ図である。
【図10】本発明の一実施例を説明するための図であ
り、確率つき依存森の学習過程を示す図である。
【図11】本発明の一実施例を説明するための図であ
り、学習できた確率依存森の例を示す図である。
【符号の説明】
1 テキスト記憶部 2 統計処理部 3 統計情報記憶部 4 入力部 5 語義曖昧性解消部 6 出力部
フロントページの続き (56)参考文献 福本文代、辻井潤一、「コーパスに基 づく動詞の多義解消」、電子情報通信学 会技術研究報告、Vol.94、No. 292(NLC94 22−25・27−31)、p. 15−p.22(1994) (58)調査した分野(Int.Cl.7,DB名) G06F 17/20 - 17/28 JICSTファイル(JOIS)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】注目単語の語義が記されたテキストを記憶
    するテキスト記憶部と、 統計情報を記憶する統計情報記憶部と、 前記テキスト記憶部から注目単語の語義が記されたテキ
    ストを入力し、入力されたテキストにおける、 (a)注目単語の各語義の出現確率、 (b)注目単語の語義ごとの周りの文脈に現れる証拠の
    出現確率、 (c)注目単語の語義ごとの周りの文脈に現れる二つの
    証拠の間の共起確率、及び、 (d)注目単語の語義ごとの周りの文脈に現れる二つの
    証拠の間の相互情報量、 の4種類の統計情報を計算し、計算された前記4種類の
    統計情報を前記統計情報記憶部に記憶する統計処理部
    と、 注目単語の語義が曖昧なテキストを入力する入力部と、 注目単語の語義を出力する出力部と、 前記入力部から、注目単語の語義が曖昧なテキストを入
    力し、 入力されたテキストにおける、注目単語の周りの文脈に
    現れる証拠を特定し、 特定できた注目単語の語義ごとの周りの文脈に現れる証
    拠に関する前記4種類の統計情報を前記統計情報記憶部
    から読み込み、 読み込んだ前記4種類の統計情報を基に、注目単語の語
    義ごとの周りの文脈に現れる証拠からなる確率依存森を
    学習し、 学習できた注目単語の語義ごとの周りの分脈に現れる証
    拠からなる確率依存森を基に、注目単語の各語義の周り
    の文脈の条件の下での条件付き確率を計算し、計算でき
    た条件き確率のもっとも高い注目単語の語義を前記出
    力部に出力する語義曖昧性解消部と、 を備えることを特徴とする語義曖昧性解消装置。
JP35263396A 1996-12-13 1996-12-13 語義曖昧性解消装置 Expired - Fee Related JP3166646B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP35263396A JP3166646B2 (ja) 1996-12-13 1996-12-13 語義曖昧性解消装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP35263396A JP3166646B2 (ja) 1996-12-13 1996-12-13 語義曖昧性解消装置

Publications (2)

Publication Number Publication Date
JPH10171806A JPH10171806A (ja) 1998-06-26
JP3166646B2 true JP3166646B2 (ja) 2001-05-14

Family

ID=18425386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35263396A Expired - Fee Related JP3166646B2 (ja) 1996-12-13 1996-12-13 語義曖昧性解消装置

Country Status (1)

Country Link
JP (1) JP3166646B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407717A (zh) * 2021-05-28 2021-09-17 数库(上海)科技有限公司 消除新闻中行业词歧义的方法、装置、设备和存储介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020036059A (ko) * 2000-11-07 2002-05-16 옥철영 사전 뜻풀이말에서 추출된 의미정보를 기반으로하는 의미중의성 해결 방법
JP4758919B2 (ja) * 2007-01-22 2011-08-31 日本放送協会 音声認識装置及び音声認識プログラム
US8112402B2 (en) 2007-02-26 2012-02-07 Microsoft Corporation Automatic disambiguation based on a reference resource
JP6009396B2 (ja) * 2013-04-24 2016-10-19 日本電信電話株式会社 発音付与方法とその装置とプログラム
JP6435909B2 (ja) * 2015-02-19 2018-12-12 富士通株式会社 学習装置、学習方法及び学習プログラム
JP6584361B2 (ja) * 2016-04-26 2019-10-02 日本放送協会 キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム
JP7116309B2 (ja) 2018-10-10 2022-08-10 富士通株式会社 コンテキスト情報生成方法、コンテキスト情報生成装置およびコンテキスト情報生成プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
福本文代、辻井潤一、「コーパスに基づく動詞の多義解消」、電子情報通信学会技術研究報告、Vol.94、No.292(NLC94 22−25・27−31)、p.15−p.22(1994)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407717A (zh) * 2021-05-28 2021-09-17 数库(上海)科技有限公司 消除新闻中行业词歧义的方法、装置、设备和存储介质
CN113407717B (zh) * 2021-05-28 2022-12-20 数库(上海)科技有限公司 消除新闻中行业词歧义的方法、装置、设备和存储介质

Also Published As

Publication number Publication date
JPH10171806A (ja) 1998-06-26

Similar Documents

Publication Publication Date Title
Wieting et al. From paraphrase database to compositional paraphrase model and back
JP4065936B2 (ja) 機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム
Harabagiu et al. Topic themes for multi-document summarization
Malouf Markov models for language-independent named entity recognition
Kanakaraddi et al. Survey on parts of speech tagger techniques
US8131539B2 (en) Search-based word segmentation method and device for language without word boundary tag
US5267156A (en) Method for constructing a knowledge base, knowledge base system, machine translation method and system therefor
Chang et al. Incremental cue phrase learning and bootstrapping method for causality extraction using cue phrase and word pair probabilities
US20060031061A1 (en) Performing machine translation using a unified language model and translation model
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
US5285386A (en) Machine translation apparatus having means for translating polysemous words using dominated codes
JP2008033931A (ja) テキストを追補する方法、クエリーに応答してテキストを取得する方法、およびシステム
CN111274829B (zh) 一种利用跨语言信息的序列标注方法
Kumar et al. A study of spell checking techniques for indian languages
US7752033B2 (en) Text generation method and text generation device
JP3166646B2 (ja) 語義曖昧性解消装置
Noshin Jahan et al. Bangla real-word error detection and correction using bidirectional lstm and bigram hybrid model
Lahbari et al. Toward a new arabic question answering system.
Shafi et al. UNLT: Urdu natural language toolkit
US8489384B2 (en) Automatic translation method
Tukur et al. Tagging part of speech in hausa sentences
Ekbal et al. Web-based Bengali news corpus for lexicon development and POS tagging
Kim et al. Unsupervised named entity classification models and their ensembles
Onyenwe et al. Toward an effective igbo part-of-speech tagger
Asghar et al. A novel parts of speech (pos) tagset for morphological, syntactic and lexical annotations of saraiki language

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20010206

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080309

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090309

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090309

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100309

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees