JP3663878B2 - 未知語概念推定装置及び未知語概念推定処理プログラムを記録したコンピュータ読みとり可能な記録媒体 - Google Patents

未知語概念推定装置及び未知語概念推定処理プログラムを記録したコンピュータ読みとり可能な記録媒体 Download PDF

Info

Publication number
JP3663878B2
JP3663878B2 JP01253098A JP1253098A JP3663878B2 JP 3663878 B2 JP3663878 B2 JP 3663878B2 JP 01253098 A JP01253098 A JP 01253098A JP 1253098 A JP1253098 A JP 1253098A JP 3663878 B2 JP3663878 B2 JP 3663878B2
Authority
JP
Japan
Prior art keywords
word
concept
unknown
similarity
neighborhood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP01253098A
Other languages
English (en)
Other versions
JPH11212975A (ja
Inventor
勇之 相川
克志 鈴木
山彦 伊藤
誠 今村
修 森口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP01253098A priority Critical patent/JP3663878B2/ja
Publication of JPH11212975A publication Critical patent/JPH11212975A/ja
Application granted granted Critical
Publication of JP3663878B2 publication Critical patent/JP3663878B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、既存のシソーラスには含まれない未知語の概念を推定する未知語の概念推定に関する。例えば、大規模な文書情報からなる電子化コーパスから得られる統計的な情報に基づいて、未知語が属すべき概念を既存のシソーラス中から探索して推定する未知語概念推定方法、未知語概念推定装置及び未知語概念推定処理プログラムを記録したコンピュータ読み取り可能な記録媒体に関するものである。
【0002】
【従来の技術】
機械翻訳や文書検索などの自然言語処理技術において、意味的な情報を扱うための情報としてシソーラスが利用される。シソーラスとは、単語間の上位下位関係や同義関係を単語の概念に基づいて記述したものである。その一例として、「EDR電子化辞書仕様説明書」(日本電子化辞書研究所、1993年)に開示されるEDR概念辞書や、「上位/下位関係シソーラスISAMAP1の作成」(田中穂積、仁科喜久子著、情報処理学会自然言語処理研究会、Vol.64、No.4、pp.25-45、1987年(以下、文献1と呼ぶ))に開示されたISAMAPがある。これらのシソーラスは人間の手で構築されたものの一例である。しかし、大規模なシソーラスを人手で構築する場合には、大変な労力が必要となる。
【0003】
一方、自動的にシソーラスを構築する技術がある。例えば、コーパスから得られる統計情報を利用して単語間の類似度を計算し、クラスタリングすることにより、自動的にシソーラスを構築するものである。これは近年の電子化文書の増加にともない、大量の文書情報からなる電子化コーパスが利用可能となったため実現されたものである。このような技術として、例えば、特開平8−263495号公報に開示された自動クラスタリング装置がある。
【0004】
しかし、単語間の類似度を計算してクラスタリングする手法は、現在の技術水準では精度が低いため、必ずしも実用的ではなかった。また、クラスタリングにかかる計算コストは非常に大きいため、数万語からなる通常の自然言語処理用辞書のすべての単語をクラスタリングすることは困難であった。
【0005】
これらに対するシソーラスの構築法として、人手で作成された既存のシソーラスを利用して、そのシソーラスには含まれていない概念をもつ単語、すなわち未知語が、シソーラス上のどの概念に相当するかを推定し、配置するという手法が「コーパスに基づくシソーラス-統計情報を用いた既存のシソーラスへの未知語の配置」(浦本直彦、情報処理学会論文誌、Vol.37、No.12、P.2182-2189、1996年(以下、文献2と呼ぶ))に開示されている。
【0006】
以下、図35から図39を用いて文献2に開示される未知語の概念推定の概要を説明する。図35は、文献2の未知語概念推定装置の構成を示すブロック図である。図35において、1は大量の文書情報からなるコーパスである。2は単語間の上位下位関係や同義関係を単語の概念に基づいて単語で記述したシソーラスである。すなわち、シソーラスのノードは概念を表す単語でなる。3は未知語を入力する未知語入力部である。ここで未知語とは、コーパス1に含まれる単語のうち既存のシソーラス2に含まれない単語である。
【0007】
4は、コーパス1を形態素解析し、さらに係り受け解析し、関係データ統計情報を抽出して出力する関係データ統計情報抽出部である。5は、出力された関係データ統計情報を記憶する関係データ統計情報記憶部である。6は、記憶された関係データ統計情報を読み出すと共に、その関係データ統計情報に基づいて未知語入力部3から入力された未知語とシソーラス2中の単語との類似度を計算して出力する単語間類似度計算部である。7は、未知語が属するシソーラス2中の部分(エリア)を推定し、出力する推定エリア抽出部である。単語間類似度計算部6により計算された類似度が閾値以上である単語をシソーラス2から抽出し、これらの単語で連結されたエリアを未知語が属するエリアの推定結果として出力する。
【0008】
8は、シソーラス2および関係データ統計情報記憶部5に記憶された関係データ統計情報に基づいてシソーラス2の視点を抽出し、視点情報として出力する視点抽出部である。視点とは、単語をシソーラス2上に配置するための分類基準であり、シソーラスの単語(下位の概念を持つもの)一つ一つに与えられるものである。9は視点抽出部8により抽出された視点情報を記憶する視点情報記憶部である。10は、推定エリア抽出部7により出力された複数のエリアを視点情報を用いて評価し、評価値が最大のエリアを選択するエリア評価部である。11は、エリア評価部10で最適と判定されたエリアを出力するエリア出力部である。
【0009】
つぎに、動作について説明する。図36は、文献2の処理手順を示すフローチャートである。まず、ステップS1では、前処理として関係データ統計情報の抽出を行なう。図37は、S1の処理手順を詳細に示したフローチャートである。ステップS11で、関係データ統計情報抽出部4はコーパス1を形態素解析し、ステップS12で、その形態素解析結果を用いて係り受け解析する。さらに、ステップS13で、係り受け解析結果を計数して関係データ統計情報12を得る。そして得られた関係データ統計情報12を関係データ統計情報記憶部5に記憶する。図38に関係データ統計情報12の例を示す。関係データ統計情報12は、単語1(12a)、単語間の関係を示す関係マーカ(12b)、単語2(12c)、コーパス中の出現頻度(12d)からなる。
【0010】
もう一つの前処理として、ステップS2では、視点抽出部8が視点情報13の抽出を行なう。関係データ統計情報記憶部5からシソーラス2の各単語に対する関係データ統計情報12を得て、その中からシソーラス2の各単語の概念を特徴づける情報を視点情報13として抽出する。図39に視点情報13の一例を示す。図39において、13aはシソーラス2に含まれている単語、13bは関係マーカ、13cは単語13aと共起関係のある単語、13dは位置情報である。
【0011】
ステップS3では、未知語入力部3が未知語を入力する。ステップS4では、単語間類似度計算部6が、入力された未知語とシソーラス2中のすべての単語との類似度を計算する。関係データ統計情報12を元に式(1)に基づいて類似度を計算し、類似度が閾値以上となるシソーラス2中の単語すべてにマークをつける。
【0012】
【数1】
Figure 0003663878
【0013】
ステップS5では、推定エリア抽出部7が推定エリアを抽出する。ステップS4でマークされた単語のうち、シソーラス2上で連結する部分をまとめあげて、ひとつのエリアとして抽出する。これを未知語の概念が属すると推定される推定エリアとして出力する。通常複数の単語がマークされ、それらの単語がいくつかのエリアにまとめ上げられる。
【0014】
最後に、ステップS6では、エリア評価部10がステップS5で出力された複数のエリアを評価し、未知語が配置されるべき最適なエリアを選択する。ステップS7では、推定エリア出力部11がステップS6で選択されたエリアを出力し、処理を終了する。
【0015】
以上説明したように、文献2に示される従来技術では、コーパスに対して形態素解析および係り受け解析を行ない、この解析結果をもとに関係データなる統計情報を抽出する。さらに、抽出した統計情報およびシソーラスをもとに視点情報を抽出する。未知語が入力されると、関係データに基づいて未知語とシソーラス中の全単語との類似度を計算し、類似度が所定の閾値以上の単語が連結するシソーラス上の部分をエリアとしてまとめ上げる。視点情報を利用して複数のエリアから未知語の概念が属すると推定される最適なエリアを選択し、未知語が属するシソーラス上のエリア、すなわち未知語の概念を推定する。
【0016】
【発明が解決しようとする課題】
しかし、文献2に開示されるような従来の手法には、以下に示すように、解決すべきいくつかの課題があった。
【0017】
まず、単語間の類似度を計算するための統計情報として、係り受け解析の結果を使用している点にあった。通常、係り受け解析には多くの曖昧性が存在し、すべての曖昧性を自動的に処理して正しい解析結果を得ることは困難である。そのため、精度の良い統計情報を得られるような、正しい係り受け解析結果をもつコーパスを作成するためには、何らかの形で人間の手で修正する必要があり、大きな開発コストがかかるという問題点があった。また、人手による修正を経て開発されたコーパスはすでに存在するが、その数は少ないため応用範囲が非常に限られたものとなるという問題点があった。さらに、自動的な係り受け解析のみでは精度が低いため、そこから得られる統計情報の精度は悪く、未知語の概念推定を行なうのに十分な精度が得られないという問題点があった。
【0018】
また、使用する統計情報には適切な重み付けがなく、類似度計算に寄与する語も寄与しない語も同等に扱っているため、十分な概念推定の精度が得られないという問題点があった。コーパスを係り受け解析し、その結果を計数して得た単純な統計情報には、単語間の類似度判定や概念推定には適さないノイズとみなされる情報も含まれている。このようなノイズを含んだ統計情報を使用しているため類似度計算の精度が低下する。その結果、概念推定の精度が悪化するという問題点があった。
【0019】
また、類似度の計算方法が複雑であることに加え、未知語とシソーラス上のすべての単語との類似度を計算してからエリアを推定するため、エリアの推定に要する計算量が大きいという問題点があった。特に、大規模なシソーラスを用いた場合、計算量が大きくなり実行効率が悪いという問題点があった。
【0020】
また、入力された未知語がシソーラス中の単語と完全に同義である場合にも、推定エリアとして類似単語からなるエリア情報が出力されるのみであるため、類義語と同義語との区別がつかず、得られるシソーラスが、同義語のみ処理対象とするような処理には利用できないという問題点もあった。
【0021】
さらに、概念推定できるのは、シソーラス中にすでに存在する概念のみであるという問題点があった。すなわち、入力された未知語がシソーラス中に存在するどの概念とも異なる新たな概念をもつ語である場合でも、類似した概念をもつ単語の集合が示されるだけであり、シソーラス中に新たな概念を作成することはできなかった。
【0022】
この発明は上記のような問題点を解決するためになされたもので、統計情報として係り受け解析結果を必要とせず、自動的な処理が可能であると共に、多種多様な文書情報に対する未知語の概念推定に費やす開発コストを小さくすることを目的とする。
【0023】
また、未知語の概念推定精度を向上させると共に、未知語の概念推定処理を高速化することを目的とする。さらに、未知語の概念推定において同義概念と類義概念とを精度良く区別すると共に、既存のシソーラスに存在しない新たな概念を推定することを目的とする。
【0024】
この発明に係る未知語概念推定装置は、複数の単語の概念間の関係を記述したシソーラスには含まれない新たな単語(未知語)の概念を推定するために、大量の電子化文書情報からなるコーパスを解析する未知語概念推定装置であって、
上記コーパスの各文書において各単語の前後に現れる単語を近傍単語とし、その近傍単語の出現頻度を上記各単語ごとに計算し、その結果を近傍単語統計情報として出力する近傍単語統計情報抽出手段と、
上記未知語の近傍単語統計情報と上記シソーラスの概念の近傍単語統計情報との類似度を計算して出力する単語間類似度計算手段と、
上記シソーラスの概念間の関係を示すリンク情報を辿って、上記未知語との類似度が所定の閾値以上となる上記シソーラスの概念を探索し、その探索結果を類似概念の候補として出力する類似概念探索手段と、
上記類似概念の候補の類似度を評価して最適な類似概念を選択して出力する類似概念評価手段と、
を備えたものである。
【0025】
また、次の発明に係る未知語概念推定装置は、上記単語間類似度計算手段が、上記未知語と上記シソーラスの概念のいずれかが機能語である場合に、該機能語の近傍単語統計情報について上記類似度の計算を省略するものである。
【0026】
また、次の発明に係る未知語概念推定装置は、上記単語間類似度計算手段が、上記未知語の前後の単語の出現パターンが品詞間の係り受けパターンに合致する場合に、上記計算した類似度に重み付けをして出力するものである。
【0027】
また、次の発明に係る未知語概念推定装置は、上記単語間類似度計算手段が、未知語の概念の推定に寄与しない所定のストップワードに上記近傍単語が該当する場合に、該近傍単語の近傍単語統計情報について上記類似度の計算を省略するものである。
【0028】
また、次の発明に係る未知語概念推定装置は、上記単語間類似度計算手段が、上記近傍単語が頻出単語に該当する場合に、該近傍単語の近傍単語統計情報について上記類似度の計算を省略するものである。
【0029】
また、次の発明に係る未知語概念推定装置は、上記単語間類似度計算手段が、上記計算した類似度に上記未知語とその上記近傍単語との単語間距離に応じた重み付けをして出力するものである。
【0030】
また、次の発明に係る未知語概念推定装置は、上記単語間類似度計算手段が、上記未知語と上記シソーラスの概念との間に共通する上記近傍単語の個数に基づいて上記類似度を決定するものである。
【0031】
また、次の発明に係る未知語概念推定装置は、上記類似概念探索手段が、予め定められた上位概念となる上記シソーラスの概念から上記リンク情報を辿るものである。
【0032】
また、次の発明に係る未知語概念推定装置は、上記類似概念評価手段が出力した上記類似概念の近傍単語統計情報と上記未知語の近傍単語統計情報とから、上記未知語と上記類似概念とが、上記コーパスにおいて互いに近傍に出現する関係である共起関係にあるか否かを決定し、上記未知語と共起関係にない上記類似概念を同義概念として出力する共起判定手段をさらに備えるものである。
【0033】
また、次の発明に係る未知語概念推定装置は、上記類似概念評価手段が出力した複数の上記類似概念のうち、上記未知語との類似度がほぼ同じ類似概念が存在する場合に、上記未知語が該類似概念と共通の上位概念を有する概念であると判断する新義語挿入判定手段をさらに備えるものである。
【0036】
【発明の実施の形態】
実施の形態1.
以下、本発明の実施の形態1について説明する。図1は実施の形態1における未知語概念推定装置の構成を示すブロック図である。図1において、101は大量の文書情報からなるコーパスである。102は単語間の上位下位関係や同義関係を単語の概念に基づいて記述したシソーラスである。ここでは簡単のため、シソーラスのノードは概念を表す単語でなる場合について説明する。103は、未知語を入力する未知語入力部である。ここで未知語とは、コーパス101に含まれる単語のうち既存のシソーラス102に含まれない単語である。104は、コーパス101を形態素解析し、各単語の前後に現れる近傍単語の頻度を抽出して近傍単語統計情報を出力する近傍単語統計情報抽出部である。105は、出力された近傍単語統計情報を記憶する近傍単語統計情報記憶部である。
【0037】
106は、記憶された近傍単語統計情報を読み出すと共に、その近傍単語統計情報に基づいて、入力された未知語とシソーラス102中のノード(概念を表す単語)との類似度を計算して出力する単語間類似度計算部である。107は、シソーラス102のノードを単語間類似度計算部106に出力すると共に、単語間類似度計算部106により計算された類似度に基づき、シソーラス102のもつノードのリンク情報をたどりながら近傍単語統計情報を用いて入力された未知語と類似する概念を探索し、類似概念の候補を出力する類似概念探索部である。108は、類似概念探索部107で探索された類似概念の候補を入力未知語との類似度に基づいて評価し、最適な類似概念を選択して出力する類似概念評価部である。109は、類似概念評価部108で最適と判定された類義概念を出力する類似概念出力部である。
【0038】
図2は、本発明の実施の形態1における未知語概念推定装置の処理手順を示すフローチャートである。以下、図1および図2を参照しつつ、適宜他の詳細図面を参照しながら、動作について詳細に説明する。
【0039】
まず、未知語の概念推定に先立って前処理を行う。ステップS10は、近傍単語統計情報抽出ステップである。ステップS10において、近傍単語統計情報抽出部104は、コーパス101を形態素解析して近傍単語統計情報を抽出し、その近傍単語統計情報を近傍単語統計情報記憶部105に記憶する。ステップS10は前処理であり、ひとつのコーパスに対して一度だけ処理すればよい。詳細な処理については後述する。
【0040】
ステップS20は、未知語入力ステップである。ステップS20において、未知語入力部103は、図示しない未知語抽出手段によってコーパス101から抽出された未知語を単語間類似度計算部106に入力する。
【0041】
未知語の抽出については、特開昭63−163962号公報に開示される前後の字種情報を手がかりにする手法や、「nグラム統計によるコーパスからの未知語抽出」(森信介、長尾眞、電子情報通信学会 言語理解とコミュニケーション研究会、95-8、1995年)に開示される前後の文字の統計情報を用いる手法など様々な公知技術がある。未知語抽出手段として、いかなる未知語抽出手法を用いても、本発明の特徴を損なうものではない。
【0042】
また、抽出された未知語については、未知語入力部103からすべてを自動的に入力して以降の処理を行なってもよいし、本装置を使用する人間が必要とする未知語を選択しながら入力してもよい。この場合、未知語のリストを表示して、その中から人間が選択して入力するメニュー表示方式などが考えられる。
【0043】
ステップS30は、類似概念探索ステップである。ステップS30において、類似概念探索部107は、シソーラス102の上位概念から下位概念へのノードのリンク情報をたどりながら、入力された未知語と類似する類似概念のノードを探索する。ステップS30では、その探索処理において、単語間類似度計算ステップS40を繰り返し呼び出して実行する。詳細な処理方法については後述する。
【0044】
ステップS40は、単語間類似度計算ステップである。ステップS40において、単語間類似度計算部106は、近傍単語統計情報記憶部105に記憶された近傍単語統計情報を読み出すと共に、その近傍単語統計情報に基づいて、入力部103から入力された未知語と類似概念探索部107から入力されたシソーラス102中のノードとの類似度を計算し、その類似度を類似概念探索部107に出力する。詳細な処理方法については後述する。
【0045】
ステップS50は、類似概念評価ステップである。ステップS50において、類似概念評価部108は、類似概念探索部107により出力された類似概念の候補を単語間類似度計算部106で計算した未知語との類似度に基づいて評価し、最適な類似概念を選択して出力する。詳細な処理方法については後述する。
【0046】
ステップS60は、類似概念出力ステップである。ステップS60において、類似概念出力部109は、類似概念評価部108により最適と判定された類似概念を出力し、処理を終了する。このとき、出力結果を反映して、自動的にシソーラス102を更新してもよいし、出力結果を画面に表示し、本装置を操作する人間がシソーラス102の更新を行なってもよい。
【0047】
以下、図3から図10を用いて、近傍単語統計情報抽出ステップS10の詳細な処理について説明する。図3は近傍単語統計情報抽出部104の詳細な構成を示すブロック図である。図3において、104aはコーパス101を形態素解析し、その形態素解析結果を出力する形態素解析部、104bは形態素解析結果から近傍単語情報を抽出して出力する近傍単語情報抽出部、104cは近傍単語情報から近傍単語の頻度を計数して近傍単語統計情報を出力する近傍単語情報計数部である。なお、104dおよび104eは中間データであり、それぞれ形態素解析結果および近傍単語情報である。104fは、近傍単語統計情報である。
【0048】
図4はステップS10の処理を詳細に示すフローチャートである。ステップS101は形態素解析ステップである。ステップS101では、形態素解析部104aが、文書情報からなるコーパス101を形態素解析する。形態素解析は、例えば「未登録語を含む日本語文の形態素解析」(吉村賢治、武内美津乃、津田健蔵、首藤公昭、情報処理学会論文誌、Vol.30、No.3、1989年)に開示されるコスト最小法に基づいて行う。図5に形態素解析結果104dの一例を示す。
【0049】
ステップS102は、形態素解析結果から近傍単語情報を抽出する近傍単語抽出ステップである。ステップS102では、近傍単語情報抽出部104bが、形態素解析結果から近傍単語情報104eを抽出する。近傍単語情報には、少なくとも単語およびその単語の品詞情報が格納されている。単語間の距離が2までの単語を近傍単語情報として抽出した場合の近傍単語情報104eの一例を図6に示す。図6では、第1フィールド(左端)の単語に対してコーパス101中で前後に出現する2語ずつの近傍単語(全部で4語)を第2フィールド以降に示している。“x”は特殊な記号であり、その単語が文頭や文末にある場合など、前後が2語に満たない場合に、後の処理がしやすいようフィールド数をそろえるために挿入してある。
【0050】
なお、活用語に関して終止形に統一しているが、計算機の内部形式としては語幹のみでもよい。また、図6の例では前後2語を抽出しているが、コーパス101中において、一つの文書に含まれる単語数が多い場合には、単語間の距離を3または5などとしてもよい。さらに、一つ一つの文書に含まれるすべての単語を近傍単語として処理してもよい。
【0051】
ステップS103は、近傍単語情報計数ステップである。ステップS103では、近傍単語情報計数部104cが近傍単語情報104eに基づき近傍単語の頻度を計数して近傍単語統計情報104fを求め、近傍単語統計情報記憶部105に記憶する。近傍単語統計情報には、少なくとも単語およびその単語の品詞情報が記憶されている。近傍単語統計情報104fの一例を図7に示す。図7では、第1フィールドの単語に対する近傍単語統計情報を第2フィールドに示している。数字は、コーパス101中において、その単語が第1フィールドの単語の近傍に現れた回数を表わす。また、図7はコーパス101全体から得られた近傍単語統計情報であり、図5に示した例より大量の文書から得られた近傍単語統計情報である。
【0052】
つぎに、図2における類似概念探索ステップS30から類似概念出力ステップS60までの詳細な処理手順を、図1を参照しつつ図8および図9を用いて説明する。ステップS201において、単語間類似度計算部106は、未知語入力部103によって入力された入力未知語Wuを初期化し、類似概念探索部107は、シソーラス探索開始ノードであるルートノードNrを初期化する。ここでは説明を簡単にするため、シソーラス102として図9に示すシソーラスを使用し、入力未知語は「CS放送」であり、ルートノードは「放送」であるとする。したがってこの場合、単語間類似度計算部106は入力未知語Wuを「CS放送」で初期化し、類似概念探索部107はルートノードNrを「放送」で初期化する。
【0053】
ステップS202において、類似概念探索部107は、シソーラス102のノードのリンク情報によりルートノードNrの下位概念の集合Nbを得る。図9の例では、「ラジオ放送」および「テレビ放送」が下位概念として得られる。
【0054】
つぎに、ステップS203において、単語間類似度計算部106が入力未知語WuとステップS202において得られた下位概念の集合Nbの各要素との類似度を計算し、結果を類似概念探索部107に出力する。類似度は、近傍単語統計情報記憶部105に記憶された近傍単語統計情報に基づいて計算される。すなわち、図10に示すように、近傍単語統計情報記憶部105から入力未知語Wuの「CS放送」、シソーラス102中のノード「ラジオ放送」および「テレビ放送」のそれぞれの近傍単語統計情報を読み出し、それぞれの近傍単語統計情報の類似性を計算する。
【0055】
このような統計量の類似性を計算する手法として、様々なものが考えられるが、例えば各近傍単語の頻度をベクトルと考え、内積値の小さい方が類似性が高いとする手法がある。このとき、単語により出現頻度が異なるので、ベクトルの長さが1となるよう正規化して用いる。この他にも、相互情報量を用いて類似性を計算する手法がある。いずれの手法を用いたとしても、近傍単語の頻度情報を用いて単語間類似度の計算をするのであれば、本発明の特徴を何ら損なうものではない。
【0056】
ステップS204では、類似概念探索部107が、ステップS203における類似度計算結果が閾値以上のノード集合Nnを抽出する。ステップS205では、閾値以上のノード集合Nnの要素となっている各ノードに下位概念が存在するかどうかを判定する。ここでは、「CS放送」と「ラジオ放送」との類似度は閾値以下で、「CS放送」と「テレビ放送」との類似度が閾値以上だったとする。このとき、閾値以上のノード集合Nnの要素は「テレビ放送」のみであり、下位概念としては「VHF放送」、「UHF放送」および「衛星放送」の3つである。したがって、ステップS205の判定はYESとなり、ステップS206に進む。
【0057】
ステップS206では、閾値以上のノード集合Nnの要素である各ノードを新たなルートノードNrとして設定する。ステップS202からステップS206までを繰り返し処理し、処理結果として得られるノードの和集合を類似概念評価部108に出力する。ここでは、順に「衛星放送」、「BS放送」とたどって処理が進む。なお、閾値以上のノード集合Nnが複数の要素をもつ場合は、各要素について順に処理する。
【0058】
図9のシソーラス102の例では、Nnが「BS放送」となったとき、もう下位概念がないので、ステップS205でNoとなり、ステップS207に進む。ステップS207では、類似概念評価部108が、再起処理における出力結果の和集合の各要素を評価し、類似度に基づいて最適と判定されたノードを類似概念ノード出力部109に出力する。例えば、S202からS206までの再帰処理の結果、複数のノード「VHF放送」と「BS放送」が出力され、「BS放送」の方が「VHF放送」よりも類似度が高い場合、入力未知語「CS放送」の類似概念として、類似度の高い「BS放送」が最適と判定される。すなわち、入力未知語「CS放送」の概念はシソーラス102のノード「BS放送」と類似であると推定される。その後、ステップS208で、類似概念ノード出力部109が、判定されたノード(類似概念)を出力し、処理を終了する。
【0059】
以上のように、本実施の形態に係る未知語概念推定装置によれば、単語間類似度計算部で用いる統計情報として、形態素解析結果から抽出する近傍単語統計情報を用いることにより、係り受け解析を必要とせず、自動的な未知語の概念推定処理を実現できる。また、自動的な処理が可能であることにより、人手による大量の修正作業が不要となり、多種多様な文書情報に対する未知語の概念推定に費やす開発コストを小さくすることができると共に、未知語概念推定処理の適用範囲を広げることができる。
【0060】
なお、本実施の形態における未知語概念推定装置の処理動作を実行させるためのプログラム、データ、記憶情報などをフロッピーディスク、CD−ROMなどのコンピュータ読み取り可能な記録媒体に記憶して動作させてもよく、同様の効果を得られる。
【0061】
また、本実施の形態では、シソーラスのノードは概念を表す単語でなる場合について説明したが、シソーラスは単語間の上位下位関係や同義関係を単語の概念に基づいて記述したものであればよく、これに限定されるものではない。例えば、シソーラスのノードが抽象的な概念を表す中間概念であっても良く、同様の効果を得られる。
【0062】
例えば、本実施の形態における図9は、シソーラスのノードとして単語そのものが用いられている。すなわち、ノード=単語=概念という形式となっている。このような形式をとるシソーラスもあるが(文献1)、必ずしもシソーラスのノードが表層的な単語と一対一に関係しているとは限らない。表層的な単語と一対一に対応していない抽象的な概念を表す中間概念がある。
【0063】
本実施の形態における単語間類似度計算では、実際にコーパスに出現した表層的な単語に基づいた統計情報を利用する場合について説明したが、中間概念に対しては、例えば、その各下位概念に対応する表層的な単語の集合により計算する。
【0064】
シソーラスは基本的にis−aと呼ばれる上位下位関係を基本として構成される。is−a関係以外にも、全体と部分の関係を表わすpart−ofと呼ばれる関係もあるが、ここでは説明を簡単にするために、is−a階層についてシソーラスにおける単語と概念との関係を説明する。
【0065】
ある中間概念Ciで利用する表層単語の情報は、中間概念Ciの全下位概念に対応する単語Wjの統計情報の和を使用する。こうすることにより、直接表層的な単語との関係をもたない中間概念についても、本発明における単語間類似度計算を適用できる。なお、本発明は、単語間の関係を示すリンク情報を用いて未知語の概念を推定するものであるので、必ずしもis−a関係に基づくシソーラスに限られるものではないことは言うまでもない。
【0066】
実施の形態2.
以下、本発明の実施の形態2について説明する。実施の形態2の全体構成および全体の処理手順については実施の形態1とまったく同様なため省略する。実施の形態2において特徴的な部分である近傍単語統計情報抽出部104および近傍単語統計情報抽出ステップS10の内部で実行される機能語除去ステップについて詳しく説明する。
【0067】
図11は、本実施の形態における近傍単語統計情報抽出部104の詳細な構成を示すブロック図である。図11において、前述の実施の形態と同一または相当部分に同一符号を付し、説明を省略する。301は、近傍単語情報から機能語に関する部分を除去する機能語除去部である。301a、301bおよび301cは中間データであり、それぞれ形態素解析結果、近傍単語情報、機能語除去後の近傍単語情報である。
【0068】
図12は、図2におけるステップS10の処理手順を詳細に説明するフローチャートである。ステップS101、ステップS102、およびステップS103では、それぞれ図4における各ステップとまったく同じ処理を行なう。ステップS301では、機能語除去部301が、ステップS102の処理結果である近傍単語情報301bから機能語に関する部分を除去し、近傍単語情報301cを出力する。
【0069】
図13に形態素解析結果301a、近傍単語情報301b、および機能語除去後の近傍単語情報301cの一例を示す。機能語除去部301は、近傍単語情報301bにおける品詞情報301pを用いて機能語の除去を行ない、さらに前後の語をつめて機能語除去後の近傍単語情報として、近傍単語情報301cを出力する。例えば、機能語の品詞情報を格納した図示しない機能語品詞辞書を参照し、近傍単語情報301bから機能語を除去する。
【0070】
前述のように、本発明では入力未知語とノードとの類似度を計算する際に、コーパス中における入力未知語およびノード(概念を表す単語)の近傍に出現する単語を用いる。ところが、実質的な意味内容に乏しい単語である限定詞、前置詞、接続詞、感動詞などの機能語は、名詞や動詞などの内容語と異なり、あらゆる単語の近傍に出現する可能性がある。そのため、これらの機能語は特定の単語との関連が薄く、近傍単語統計情報により単語間類似度を計算する際のノイズとなる。したがって、これらの機能語に相当する品詞をもつ単語を近傍単語情報301bから除去することにより、近傍単語情報301cに含まれるノイズが減少して、その近傍単語情報301cから求められる近傍単語統計情報に含まれるノイズも減少する。その結果、単語間類似度計算の精度が高くなり、未知語の概念推定精度が向上する。
【0071】
以上のように、本実施の形態に係る未知語概念推定装置によれば、前述の実施の形態における効果に加え、品詞情報に基づいて近傍単語情報から機能語を除去することにより、単語間類似度計算の精度が高くなり、未知語の概念推定精度を向上することができる。
【0072】
なお、本実施の形態における未知語概念推定装置の処理動作を実行させるためのプログラム、データ、記憶情報などをフロッピーディスク、CD−ROMなどのコンピュータ読み取り可能な記録媒体に記憶して動作させてもよく、同様の効果を得られる。
【0073】
また、前述の実施の形態と同様に、シソーラスのノードは概念を表す単語でなる場合について説明したが、シソーラスは単語間の上位下位関係や同義関係を単語の概念に基づいて記述したものであればよく、これに限定されるものではない。例えば、シソーラスのノードが抽象的な概念を表す中間概念であっても良く、同様の効果を得られる。
【0074】
さらに、近傍単語情報から機能語を除去する場合について説明したが、類似度を計算する際に用いる近傍単語統計情報に機能語が含まれていなければよく、これに限定されるものではない。例えば、近傍単語情報計数部の出力である近傍単語統計情報から機能語を削除しても同様の効果を得られる。
【0075】
実施の形態3.
以下、本発明の実施の形態3について説明する。実施の形態3の全体構成および全体の処理手順については実施の形態1とまったく同様なため省略する。実施の形態3において特徴的な部分である近傍単語統計情報抽出部104および近傍単語統計情報抽出ステップS10の内部で実行される係り受け重み付けステップについて詳しく説明する。
【0076】
図14は、本実施の形態における近傍単語統計情報抽出部104の詳細な構成を示すブロック図である。図14において、前述の実施の形態と同一または相当部分に同一符号を付し、説明を省略する。302は、形態素解析結果および品詞間のパターンに従って近傍単語情報に重み付けを行なう係り受け重み付け処理部である。312は、係り受けしやすい品詞間のパターンを記憶する係り受けパターン記憶部である。302a、302bおよび302cは中間データであり、それぞれ形態素解析結果、近傍単語情報、係り受け重み付け後の近傍単語情報である。
【0077】
図15は、図2におけるステップS10の処理手順を詳細に説明するフローチャートである。ステップS101、ステップS102、およびステップS103では、それぞれ図4における各ステップとまったく同じ処理を行なう。ステップS302では、係り受けパターン重み付け部302が、形態素解析結果302aを用い係り受けパターン記憶部312に記憶されたパターンに従って、ステップS102の処理結果である近傍単語情報302bに重み付けを行ない、近傍単語情報302cを出力する。
【0078】
図16に形態素解析結果302a、近傍単語情報302b、および近傍単語情報302cの一例を示す。なお、図16は前述の機能語除去部の処理を施したものである。例えば、近傍単語情報302bが「副詞、形容詞、名詞」という係り受けパターンにマッチする場合、形容詞の「速い」と名詞の「車」との間には係り受け関係があり、副詞の「とても」と名詞の「車」との係り受け関係より、強い関係である。この場合、図16において、係り受け重み付け処理部302は、係り受け関係の強さに応じて単語間に適切な重み付けをし、近傍単語情報302cを出力する。
【0079】
すなわち、係り受け関係が存在する可能性のある形容詞の「速い」と名詞の「車」に適切な強さの重み付けをすることにより、係り受け関係の強さを表現する。なお、重み付けの値として一律の値としてもよいし、各係り受けパターンごとに係り受けパターン記憶部312に記憶しておき、この値を用いてもよい。
【0080】
前述のように、本発明では入力未知語とノードとの類似度を計算する際に、コーパス中における入力未知語およびノード(概念を表す単語)の近傍に出現する単語を用いるが、係り受け重み付け処理により、係り受け関係の強さに応じた近傍単語統計情報302cに重み付けをすることにより、係り受け関係の強さが類似度計算に反映される。その結果、単語間類似度計算の精度が高くなり、未知語の概念推定精度が向上する。
【0081】
以上のように、本実施の形態に係る未知語概念推定装置によれば、前述の実施の形態における効果に加え、係り受けしやすい品詞間の係り受けパターンに基づいて、係り受け関係の強さに応じて近傍単語情報に重み付けをすることにより、単語間類似度計算の精度が高くなり、未知語の概念推定精度を向上することができる。
【0082】
なお、本実施の形態における未知語概念推定装置の処理動作を実行させるためのプログラム、データ、記憶情報などをフロッピーディスク、CD−ROMなどのコンピュータ読み取り可能な記録媒体に記憶して動作させてもよく、同様の効果を得られる。
【0083】
また、前述の実施の形態と同様に、シソーラスのノードは概念を表す単語でなる場合について説明したが、シソーラスは単語間の上位下位関係や同義関係を単語の概念に基づいて記述したものであればよく、これに限定されるものではない。例えば、シソーラスのノードが抽象的な概念を表す中間概念であっても良く、同様の効果を得られる。
【0084】
さらに、近傍単語情報に係り受け重み付け処理を施す場合について説明したが、類似度を計算する際に用いる近傍単語統計情報に係り受け重み付け処理が施されていればよく、これに限定されるものではない。例えば、近傍単語情報計数部の出力である近傍単語統計情報に係り受け重み付け処理を施しても同様の効果を得られる。
【0085】
実施の形態4.
以下、本発明の実施の形態4について説明する。実施の形態4の全体構成および全体の処理手順については実施の形態1とまったく同様なため省略する。実施の形態3において特徴的な部分である近傍単語統計情報抽出部104および近傍単語統計情報抽出ステップS10の内部で実行されるストップワード削除ステップについて詳しく説明する。
【0086】
図17は、本実施の形態における近傍単語統計情報抽出部104の詳細な構成を示すブロック図である。図17において、前述の実施の形態と同一または相当部分に同一符号を付し、説明を省略する。303は、近傍単語情報からストップワードを除去するストップワード除去部である。313は、ストップワードを記憶するストップワード辞書である。ここでストップワードとは、単語間類似度の計算に寄与しない単語のことである。303a、303bおよび303cは中間データであり、それぞれ形態素解析結果、近傍単語情報、ストップワード除去後の近傍単語情報である。
【0087】
図18は、図2におけるステップS10の処理手順を詳細に説明するフローチャートである。ステップS101、ステップS102、およびステップS103では、それぞれ図4における各ステップとまったく同じ処理を行なう。ステップS303では、ストップワード除去部303がストップワード辞書313を参照しつつ、ステップS102の処理結果である近傍単語情報303bからストップワードを除去し、近傍単語情報304cを出力する。
【0088】
前述のように、本発明では入力未知語とノードとの類似度を計算する際に、コーパス中における入力未知語およびノード(概念を表す単語)の近傍に出現する単語を用いる。ところが、非常に一般的で、頻繁に用いられるため、あらゆる単語の近傍に出現する可能性のある単語は、特定の単語との関連が薄く近傍単語統計情報により単語間類似度を計算する際のノイズとなる。形式名詞の「もの」や「こと」などは、その一例である。また、ある特定の分野のコーパスにおいて、非常に一般的で、頻繁に用いられる単語もある。例えば、情報処理に関する文章中では、「コンピュータ」などの単語である。
【0089】
そこで、これらの単語をストップワードとして記憶したストップワード辞書313を用いて、近傍単語統計情報を抽出する際に、近傍単語情報303bからストップワードを除去する。これにより、近傍単語情報303cに含まれるノイズが減少して、その近傍単語情報303cから求められる近傍単語統計情報に含まれるノイズも減少する。その結果、単語間類似度計算の精度が高くなり、未知語の概念推定精度も向上する。
【0090】
以上のように、本実施の形態に係る未知語概念推定装置によれば、前述の実施の形態における効果に加え、ストップワード辞書に基づいて近傍単語情報からストップワードを除去することにより、単語間類似度計算の精度が高くなり、未知語の概念推定精度を向上することができる。
【0091】
なお、本実施の形態における未知語概念推定装置の処理動作を実行させるためのプログラム、データ、記憶情報などをフロッピーディスク、CD−ROMなどのコンピュータ読み取り可能な記録媒体に記憶して動作させてもよく、同様の効果を得られる。
【0092】
また、前述の実施の形態と同様に、シソーラスのノードは概念を表す単語でなる場合について説明したが、シソーラスは単語間の上位下位関係や同義関係を単語の概念に基づいて記述したものであればよく、これに限定されるものではない。例えば、シソーラスのノードが抽象的な概念を表す中間概念であっても良く、同様の効果を得られる。
【0093】
さらに、近傍単語情報からストップワードを除去する場合について説明したが、類似度を計算する際に用いる近傍単語統計情報にストップワードが含まれていなければよく、これに限定されるものではない。例えば、近傍単語情報計数部の出力である近傍単語統計情報からストップワードを削除しても同様の効果を得られる。
【0094】
実施の形態5.
以下、本発明の実施の形態5について説明する。実施の形態5の全体構成および全体の処理手順については実施の形態1とまったく同様なため省略する。実施の形態5において特徴的な部分である近傍単語統計情報抽出部104および近傍単語統計情報抽出ステップS10の内部で実行される頻出単語削除ステップについて詳しく説明する。
【0095】
図19は、本実施の形態における近傍単語統計情報抽出部104の詳細な構成を示すブロック図である。図19において、前述の実施の形態と同一または相当部分に同一符号を付し、説明を省略する。304は、近傍単語情報から頻出単語を除去する頻出単語除去部である。頻出単語とは、コーパス中の出現頻度が著しく高いものであり、例えば、頻度値によって決定される。304a、304bおよび304cは中間データであり、それぞれ形態素解析結果、近傍単語情報、係り受け重み付け後の近傍単語情報である。
【0096】
図20は、図2におけるステップS10の処理手順を詳細に説明するフローチャートである。ステップS101、ステップS102、およびステップS103では、それぞれ図4における各ステップとまったく同じ処理を行なう。ステップS304では、頻出単語除去部304が、ステップS102の処理結果である近傍単語情報304bから頻出単語を除去し、近傍単語情報304cを出力する。例えば、頻出単語を格納した図示しない頻出単語記憶部を参照し、近傍単語情報304bから頻出単語を除去する。
【0097】
前述のように、本発明では入力未知語とノードとの類似度を計算する際に、コーパス中における入力未知語およびノード(概念を表す単語)の近傍に出現する単語を用いる。ところが頻出単語は、コーパス中に非常に頻繁に出現し、あらゆる単語の近傍に出現する可能性がある。そのため、これらの頻出単語は特定の単語との関連が薄く、近傍単語統計情報により単語間類似度を計算する際のノイズとなる。
【0098】
そこで、近傍単語統計情報を抽出する際に、近傍単語情報304bから頻出単語を除去することにより、近傍単語情報304cに含まれるノイズが減少し、その近傍単語情報304cから求められる近傍単語統計情報に含まれるノイズも減少する。その結果、単語間類似度計算の精度が高くなり、未知語の概念推定精度も向上する。
【0099】
以上のように、本実施の形態に係る未知語概念推定装置によれば、前述の実施の形態における効果に加え、近傍単語情報から頻出単語を除去することにより、単語間類似度計算の精度が高くなり、未知語の概念推定精度を向上することができる。
【0100】
なお、本実施の形態における未知語概念推定装置の処理動作を実行させるためのプログラム、データ、記憶情報などをフロッピーディスク、CD−ROMなどのコンピュータ読み取り可能な記録媒体に記憶して動作させてもよく、同様の効果を得られる。
【0101】
また、前述の実施の形態と同様に、シソーラスのノードは概念を表す単語でなる場合について説明したが、シソーラスは単語間の上位下位関係や同義関係を単語の概念に基づいて記述したものであればよく、これに限定されるものではない。例えば、シソーラスのノードが抽象的な概念を表す中間概念であっても良く、同様の効果を得られる。
【0102】
さらに、近傍単語情報から頻出単語を除去する場合について説明したが、類似度を計算する際に用いる近傍単語統計情報に頻出単語が含まれていなければよく、これに限定されるものではない。例えば、近傍単語情報計数部の出力である近傍単語統計情報から頻出単語を削除しても同様の効果を得られる。
【0103】
実施の形態6.
以下、本発明の実施の形態6について説明する。実施の形態6の全体構成および全体の処理手順については実施の形態1とまったく同様なため省略する。実施の形態6において特徴的な部分である近傍単語統計情報抽出部104および近傍単語統計情報抽出ステップS10の内部で実行される単語間距離重み付けステップについて詳しく説明する。
【0104】
図21は、本実施の形態における近傍単語統計情報抽出部104の詳細な構成を示すブロック図である。図21において、前述の実施の形態と同一または相当部分に同一符号を付し、説明を省略する。305は、形態素解析結果の単語間距離に従って、近傍単語情報に重み付けを行なう単語間距離重み付け処理部である。305a、305bおよび305cは中間データであり、それぞれ形態素解析結果、近傍単語情報、単語間距離重み付け後の近傍単語情報である。
【0105】
図22は、図2におけるステップS10の処理手順を詳細に説明するフローチャートである。ステップS101、ステップS102、およびステップS103では、それぞれ図4における各ステップとまったく同じ処理を行なう。ステップS305では、単語間距離重み付け処理部305が、形態素解析結果の単語間距離に従って、ステップS102の処理結果である近傍単語情報305bに重み付けを行い、近傍単語情報305cを出力する。
【0106】
前述のように、本発明では入力未知語とノードとの類似度を計算する際に、コーパス中における入力未知語およびノード(概念を表す単語)の近傍に出現する単語を用いる。一般に単語間の関連の強さは単語間の距離と相関関係があるので、単語間距離重み付け処理によって関連の弱い遠くの近傍単語よりも関連の強い近くの近傍単語を優先して近傍単語情報に重み付けすることにより、単語間の関連(共起関係)の強さが類似度計算に反映される。その結果、単語間類似度計算の精度が高くなり、未知語の概念推定精度が向上する。
【0107】
以上のように、本実施の形態に係る未知語概念推定装置によれば、前述の実施の形態における効果に加え、単語間の距離に従って近傍単語情報に重み付けすることにより、単語間類似度計算の精度が高くなり、未知語の概念推定精度を向上することができる。
【0108】
なお、本実施の形態における未知語概念推定装置の処理動作を実行させるためのプログラム、データ、記憶情報などをフロッピーディスク、CD−ROMなどのコンピュータ読み取り可能な記録媒体に記憶して動作させてもよく、同様の効果を得られる。
【0109】
また、前述の実施の形態と同様に、シソーラスのノードは概念を表す単語でなる場合について説明したが、シソーラスは単語間の上位下位関係や同義関係を単語の概念に基づいて記述したものであればよく、これに限定されるものではない。例えば、シソーラスのノードが抽象的な概念を表す中間概念であっても良く、同様の効果を得られる。
【0110】
さらに、近傍単語情報に単語間距離重み付け処理を施す場合について説明したが、類似度を計算する際に用いる近傍単語統計情報に単語間距離重み付け処理が施されていればよく、これに限定されるものではない。例えば、近傍単語情報計数部の出力である近傍単語統計情報に単語間距離重み付け処理を施しても同様の効果を得られる。
【0111】
実施の形態7.
以下、本発明の実施の形態7について説明する。図23は実施の形態7における未知語概念推定装置の構成を示すブロック図である。図23において、前述の実施の形態と同一または相当部分に同一符号を付し、説明を省略する。401は、近傍単語統計情報記憶部105に記憶された近傍単語統計情報を読み出すと共に、その近傍単語統計情報に基づいて、入力された未知語とシソーラス102のノード(概念を表す単語)との類似度を共通単語数により計算して出力する共通単語数計算部である。
【0112】
図24は、本発明の実施の形態7における未知語概念推定装置の処理手順を示すフローチャートである。以下、図23および図24を参照しつつ、適宜他の詳細図面を参照しながら、動作について詳細に説明する。
【0113】
まず、未知語の概念推定に先立って前処理を行う。ステップS10は、近傍単語統計情報抽出ステップである。ステップ10において、近傍単語統計情報抽出部104は、コーパス101を形態素解析して近傍単語統計情報を抽出し、近傍単語統計情報記憶部105に記憶する。ステップS10は前処理であり、ひとつのコーパスに対して一度だけ処理すればよい。
【0114】
図25に、本実施の形態における近傍単語統計情報抽出部104の詳細な構成を示すブロック図を示す。また、図26に、そのステップS10における処理手順を表すフローチャートを示す。ステップS10は、実施の形態1とほぼ同様な処理であるが、後の処理で共通単語数により類似度を計算するため、近傍単語統計情報が不要である。そのため近傍単語統計情報抽出部104は、図25および図26に示すように、近傍単語情報計数部104cのない構成とする。形態素解析部104aおよび近傍単語情報抽出部104bについては、図3に示したものと同様である。
【0115】
ここでは、説明を簡単にするため、近傍単語統計情報記憶部105については、実施の形態1と同様のものを使用する。この場合、頻度情報が不要なので、仮に頻度1をすべての単語の組合せに付す。図27に近傍単語統計情報401aの一例を示す。なお、近傍単語統計情報記憶部105を使用するかわりに、図27に示した記憶内容から頻度情報を削除し、メモリ容量を節約した近傍単語情報記憶部を使用してもよい。
【0116】
つぎに、実施の形態1と同様にステップS20およびステップS30を実行する。処理の内容については実施の形態1とまったく同様な処理なので説明を省略する。
【0117】
ステップS401は、共通単語数計算ステップである。ステップS401において、共通単語数計算部401は、近傍単語統計情報記憶部105に記憶された近傍単語統計情報401aをもとに、入力された未知語とシソーラス102中のノードとの共通単語数により類似度を計算する。すなわち、近傍単語統計情報401aをもとに、未知語の近傍単語とノードの近傍単語とで共通する単語の数によって未知語とノードとの類似度を計算する。
【0118】
例えば、未知語の近傍単語が「とても、車、大きい」であり、ノードの近傍単語が「とても、赤い、大きい」である場合、近傍単語が共通する(1)か共通しない(0)かは{1、0、1}であり、未知語の近傍単語に対するノードの近傍単語の共通単語数は2となる。こうして得られた共通単語数によって類似度を計算する。
【0119】
このように、ビット演算による類似度計算の処理が可能となるため、例えば、前述の実施の形態1における類似度計算処理のように頻度ベクトルの内積や相互情報量などを計算するのに対して高速に処理できる。
【0120】
以降、実施の形態1と同様に、ステップS50およびステップS60を実行し、未知語概念推定処理を終了する。処理内容については、実施の形態1とまったく同様なので説明を省略する。
【0121】
以上のように、本実施の形態に係る未知語概念推定装置によれば、前述の実施の形態における効果に加え、近傍単語統計情報を抽出する際に近傍単語情報計数ステップを省き、単語間類似度の計算に、内積や相互情報量といった計算量の大きな値ではなく、高速なビット演算を利用可能な共通単語数を使用することにより、未知語概念推定処理を高速化することができる。
【0122】
なお、本実施の形態における未知語概念推定装置の処理動作を実行させるためのプログラム、データ、記憶情報などをフロッピーディスク、CD−ROMなどのコンピュータ読み取り可能な記録媒体に記憶して動作させてもよく、同様の効果を得られる。
【0123】
また、前述の実施の形態と同様に、シソーラスのノードは概念を表す単語でなる場合について説明したが、シソーラスは単語間の上位下位関係や同義関係を単語の概念に基づいて記述したものであればよく、これに限定されるものではない。例えば、シソーラスのノードが抽象的な概念を表す中間概念であっても良く、同様の効果を得られる。
【0124】
実施の形態8.
以下、本発明の実施の形態8について説明する。図28は実施の形態8における未知語概念推定装置の構成を示すブロック図である。図28において、前述の実施の形態と同一または相当部分に同一符号を付し、説明を省略する。402は、類似概念探索部109が探索を開始する開始ノードを指定する開始概念指定部である。
【0125】
全体の処理手順については実施の形態1とまったく同様なため説明を省略し、本実施の形態において特徴的な部分である開始概念指定部402および開始概念指定ステップS402について詳しく説明する。
【0126】
図29は、図2における類似概念探索ステップS30から類似概念出力ステップS60までを詳細に説明したフローチャートである。以下、図28および図29を参照しつつ、適宜他の詳細図面を参照しながら、動作について詳細に説明する。
【0127】
図29に示すフローチャートにおいて、まず、前述のステップS201の処理に先立って、ステップS402で開始概念を設定する。例えば、対象分野が限定されたコーパスを使用する場合に、本装置を使用する人間が、そのコーパスの特徴を表す上位概念のノードを探索開始ノードとして指定する。
【0128】
ステップS201で、単語間類似度計算部106が入力未知語Wuを初期化すると共に、類似概念探索部107は開始概念指定部402によって指定された探索開始ノードをルートノードNrに初期化する。こうすることにより、関連のないノードを探索する必要がなくなり、類似概念探索部109の探索空間を小さくすることができるため、概念推定処理を高速化することができる。
【0129】
以降、実施の形態1と同様の処理手順で動作し、未知語概念推定処理を終了する。処理内容については、実施の形態1とまったく同様なので説明を省略する。
【0130】
以上のように、本実施の形態に係る未知語概念推定装置によれば、前述の実施の形態における効果に加え、対象分野が限定されたコーパスを使用する場合に、そのコーパスの特徴を表す上位概念のノードを探索開始ノードとして設定することにより、関連のないノードを探索する必要がなくなり、探索空間を小さくすることができるため、未知語概念推定処理を高速化することができる。
【0131】
なお、本実施の形態における未知語概念推定装置の処理動作を実行させるためのプログラム、データ、記憶情報などをフロッピーディスク、CD−ROMなどのコンピュータ読み取り可能な記録媒体に記憶して動作させてもよく、同様の効果を得られる。
【0132】
また、前述の実施の形態と同様に、シソーラスのノードは概念を表す単語でなる場合について説明したが、シソーラスは単語間の上位下位関係や同義関係を単語の概念に基づいて記述したものであればよく、これに限定されるものではない。例えば、シソーラスのノードが抽象的な概念を表す中間概念であっても良く、同様の効果を得られる。
【0133】
実施の形態9.
以下、本発明の実施の形態9について説明する。図30は実施の形態9における未知語概念推定装置の構成を示すブロック図である。図30において、前述の実施の形態と同一または相当部分に同一符号を付し、説明を省略する。501は、近傍単語統計情報記憶部105に記憶された近傍単語統計情報を読み出すと共に、近傍単語統計情報に基づいて、入力未知語と、類似概念評価部108から出力された類似概念のノード(概念を表す単語)とが共起関係(コーパス中で互いに近傍に出現する)にあるかどうかにより同義性を判定し、判定結果に応じてその類似概念のノードを類似概念ノード出力部109または同義概念ノード出力部502に出力する共起判定部である。502は、同義と判定されたノードを同義概念として出力する同義概念ノード出力部である。
【0134】
全体の処理手順については実施の形態1とまったく同様なため説明を省略し、本実施の形態において特徴的な部分である共起判定部501および共起判定ステップS501について詳しく説明する。
【0135】
図31は、図2における類似概念探索ステップS30から類似概念出力ステップS60までを詳細に説明したフローチャートである。図8に示したフローチャートとの違いは、類似概念評価ステップS207の後に、共起判定ステップS501以降の処理が加わっていることである。
【0136】
共起判定ステップS501では、共起判定部501が近傍単語統計情報記憶部105に記憶された近傍単語統計情報を読み出すと共に、近傍単語統計情報に基づいて、入力未知語とステップ207の結果得られた類似概念のノードとが強い共起関係にあるかどうかを判定する。強い共起関係にあると判定された場合には、同義語同士は共起しにくいという性質に基づいて、入力未知語は上記類似概念のノードとは同義性をもたないと判断され、類義概念ノード出力部109に送信される。ステップS208で、類似概念ノード出力部109がそのノードを類似概念として出力して処理を終了する。
【0137】
一方、共起関係にないと判定された場合には、入力未知語は上記類似概念のノードと同義性をもつと判断され、同義概念ノード出力部502に送信される。ステップS502で、同義概念ノード出力部502がそのノードを同義概念ノードとして出力して処理を終了する。
【0138】
以上のように、本実施の形態に係る未知語概念推定装置によれば、前述の実施の形態における効果に加え、同義語同士は共起しにくいという性質に基づいて、近傍単語統計情報を用いて未知語とノード(概念を表す単語)との共起関係の強さを調べて未知語とノードとの同義性を判定することにより、同義概念と類義概念とを精度良く区別して未知語の概念を推定することができる。
【0139】
なお、本実施の形態における未知語概念推定装置の処理動作を実行させるためのプログラム、データ、記憶情報などをフロッピーディスク、CD−ROMなどのコンピュータ読み取り可能な記録媒体に記憶して動作させてもよく、同様の効果を得られる。
【0140】
また、前述の実施の形態と同様に、シソーラスのノードは概念を表す単語でなる場合について説明したが、シソーラスは単語間の上位下位関係や同義関係を単語の概念に基づいて記述したものであればよく、これに限定されるものではない。例えば、シソーラスのノードが抽象的な概念を表す中間概念であっても良く、同様の効果を得られる。
【0141】
実施の形態10.
以下、本発明の実施の形態10について説明する。図32は実施の形態10における未知語概念推定装置の構成を示すブロック図である。図32において、前述の実施の形態と同一または相当部分に同一符号を付し、説明を省略する。601は、類似概念評価部108から入力未知語との類似度が強いノード(概念)が複数出力された場合に、それらの類似度が同等かどうかを調べ、同等であるとき、シソーラスに基づいて入力未知語の概念となる新たな概念の挿入位置を判定して出力し、それ以外の場合に類似概念を出力する新語義挿入判定部である。602は、新たに挿入すべきと判定されたノードを新語義として出力する新語義ノード出力部である。
【0142】
全体の処理手順については実施の形態1とまったく同様なため説明を省略し、本実施の形態において特徴的な部分である新語義挿入判定部601および新語義挿入判定ステップS601について詳しく説明する。
【0143】
図33は、図2における類似概念探索ステップS30から類似概念出力ステップS60までを詳細に説明したフローチャートである。図8に示したフローチャートとの違いは、類似概念評価ステップS207の後に、新語義挿入判定ステップS601以降の処理が加わっていることである。
【0144】
類似ノード評価ステップS207の評価結果から入力未知語との類似度が強いノードが複数出力された場合に、新語義挿入判定ステップS601では、新語義挿入判定部601がそれらの類似度が同等かどうかを調べる。同等であるとき、入力未知語はそれらのノードの概念の中間に位置する新たな概念をもつと判断し、シソーラス102に基づいてその新たな概念の挿入位置を判定して新語義ノード出力部602に送信する。
【0145】
このとき新語義ノードは、類似概念評価部108が出力した複数の概念が共有する上位概念の下位概念の位置に挿入されると判断する。図34に新概念を挿入する位置を示す。すなわち、未知語概念Cuは、概念C1および概念C2と同等に強い類似性をもつとき、概念C1と概念C2が共有する上位概念C3の直接の下位概念として概念ノードCuに挿入されると判断される。その後、ステップS602で、新語義ノード出力部603がその新語義ノードを出力して処理を終了する。
【0146】
一方、入力未知語との類似度が同じくらい強いノードが複数ない場合、または類似度が同等でない場合には、ステップS208の処理に移り、類似概念評価部108によって最適と判定されたノードを類似概念ノード出力部109が類似概念として出力して処理を終了する。
【0147】
以上のように、本実施の形態に係る未知語概念推定装置によれば、前述の実施の形態における効果に加え、入力未知語とシソーラスの複数のノードの概念とが同等に強い類似性をもつとき、入力未知語は新たな概念であると特定できることから、入力未知語とシソーラスの複数のノードの概念との類似性の強さを判定することにより、入力未知語が新たな概念をもつものであっても未知語の概念を推定できる。さらに、この推定結果を用いることにより、シソーラス上の適切な位置に新たな概念のノードを配置することができる。
【0148】
なお、本実施の形態における未知語概念推定装置の処理動作を実行させるためのプログラム、データ、記憶情報などをフロッピーディスク、CD−ROMなどのコンピュータ読み取り可能な記録媒体に記憶して動作させてもよく、同様の効果を得られる。
【0149】
また、前述の実施の形態と同様に、シソーラスのノードは概念を表す単語でなる場合について説明したが、シソーラスは単語間の上位下位関係や同義関係を単語の概念に基づいて記述したものであればよく、これに限定されるものではない。例えば、シソーラスのノードが抽象的な概念を表す中間概念であっても良く、同様の効果を得られる。
【0150】
【発明の効果】
以上のように、この発明の未知語概念推定方法によれば、単語間類似度計算に用いる統計情報として近傍単語統計情報を用いることにより、係り受け解析を必要とせず、自動的な未知語の概念推定処理を実現できる。また、自動的な処理が可能であることにより、人手による大量の修正作業が不要となり、多種多様な文書情報に対する未知語の概念推定に費やす開発コストを小さくすることができると共に、未知語概念推定処理の適用範囲を広げることができる。
【0151】
また、次の発明の未知語概念推定方法によれば、前述の効果に加え、品詞情報に基づいて近傍単語統計情報から機能語を除去することにより、単語間類似度計算の精度が高くなり、未知語の概念推定精度を向上することができる。
【0152】
また、次の発明の未知語概念推定方法によれば、前述の効果に加え、係り受けしやすい品詞間の係り受けパターンに基づいて、係り受け関係の強さに応じて近傍単語統計情報に重み付けをすることにより、単語間類似度計算の精度が高くなり、未知語の概念推定精度を向上することができる。
【0153】
また、次の発明の未知語概念推定方法によれば、前述の効果に加え、近傍単語統計情報からストップワードを除去することにより、単語間類似度計算の精度が高くなり、未知語の概念推定精度を向上することができる。
【0154】
また、次の発明の未知語概念推定方法によれば、前述の効果に加え、近傍単語統計情報から頻出単語を除去することにより、単語間類似度計算の精度が高くなり、未知語の概念推定精度を向上することができる。
【0155】
また、次の発明の未知語概念推定方法によれば、前述の効果に加え、単語間の距離に従って近傍単語統計情報に重み付けすることにより、単語間類似度計算の精度が高くなり、未知語の概念推定精度を向上することができる。
【0156】
また、次の発明の未知語概念推定方法によれば、前述の効果に加え、単語間類似度の計算に高速なビット演算を利用可能な共通単語数を使用することにより、未知語概念推定処理を高速化することができる。
【0157】
また、次の発明の未知語概念推定方法によれば、前述の効果に加え、対象分野が限定されたコーパスを使用する場合に、そのコーパスの特徴を表す上位概念のノードを探索開始ノードとして設定することにより、関連のないノードを探索する必要がなくなり、探索空間を小さくすることができるため、未知語概念推定処理を高速化することができる。
【0158】
また、次の発明の未知語概念推定方法によれば、前述の効果に加え、同義語同士は共起しにくいという性質に基づいて、近傍単語統計情報を用いて未知語とシソーラスのノードの概念との共起関係の強さを調べて未知語とノードの概念との同義性を判定することにより、同義概念と類義概念とを精度良く区別して未知語の概念を推定することができる。
【0159】
また、次の発明の未知語概念推定方法によれば、前述の効果に加え、入力未知語とシソーラスの複数のノードの概念とが同等に強い類似性をもつとき、入力未知語は新たな概念であると特定できることから、入力未知語とシソーラスの複数のノードの概念との類似性の強さを判定することにより、入力未知語が新たな概念をもつものであっても未知語の概念を推定できる。さらに、この推定結果を用いることにより、シソーラス上の適切な位置に新たな概念のノードを配置することができる。
【図面の簡単な説明】
【図1】 この発明の実施の形態1における未知語概念推定装置の構成を示すブロック図。
【図2】 この発明の実施の形態1における未知語概念推定装置の処理の流れを示すフローチャート。
【図3】 この発明の実施の形態1における近傍単語統計情報抽出部の詳細な構成を示すブロック図。
【図4】 この発明の実施の形態1における近傍単語統計情報抽出ステップの詳細な処理の流れを示すフローチャート。
【図5】 この発明の実施の形態1における近傍単語統計情報抽出ステップの説明に供する形態素解析結果の一例を示すデータ。
【図6】 この発明の実施の形態1における近傍単語統計情報抽出ステップの説明に供する近傍単語情報の一例を示すデータ。
【図7】 この発明の実施の形態1における近傍単語統計情報抽出ステップの説明に供する近傍単語統計情報の一例を示すデータ。
【図8】 この発明の実施の形態1における類似概念探索ステップの詳細な処理の流れを示すフローチャート。
【図9】 この発明の実施の形態1における類似概念探索ステップの説明に供するシソーラスの一例を示すデータ。
【図10】 この発明の実施の形態1における類似概念探索ステップの説明に供する近傍単語統計情報の一例を示すデータ。
【図11】 この発明の実施の形態2における近傍単語統計情報抽出部の詳細な構成を示すブロック図。
【図12】 この発明の実施の形態2における近傍単語統計情報抽出ステップの詳細な処理の流れを示すフローチャート。
【図13】 この発明の実施の形態2における近傍単語統計情報抽出ステップの説明に供する形態素解析結果、近傍単語情報および近傍単語統計情報の一例を示すデータ。
【図14】 この発明の実施の形態3における近傍単語統計情報抽出部の詳細な構成を示すブロック図。
【図15】 この発明の実施の形態3における近傍単語統計情報抽出ステップの詳細な処理の流れを示すフローチャート。
【図16】 この発明の実施の形態3における近傍単語統計情報抽出ステップの説明に供する形態素解析結果、近傍単語情報および近傍単語統計情報の一例を示すデータ。
【図17】 この発明の実施の形態4における近傍単語統計情報抽出部の詳細な構成を示すブロック図。
【図18】 この発明の実施の形態4における近傍単語統計情報抽出ステップの詳細な処理の流れを示すフローチャート。
【図19】 この発明の実施の形態5における近傍単語統計情報抽出部の詳細な構成を示すブロック図。
【図20】 この発明の実施の形態5における近傍単語統計情報抽出ステップの詳細な処理の流れを示すフローチャート。
【図21】 この発明の実施の形態6における近傍単語統計情報抽出部の詳細な構成を示すブロック図。
【図22】 この発明の実施の形態6における近傍単語統計情報抽出ステップの詳細な処理の流れを示すフローチャート。
【図23】 この発明の実施の形態7における未知語概念推定装置の構成を示すブロック図。
【図24】 この発明の実施の形態7における未知語概念推定装置の処理の流れを示すフローチャート。
【図25】 この発明の実施の形態7における近傍単語統計情報抽出部の詳細な構成を示すブロック図。
【図26】 この発明の実施の形態7における近傍単語統計情報抽出ステップの詳細な処理の流れを示すフローチャート。
【図27】 この発明の実施の形態7における近傍単語統計情報の一例を示すデータ。
【図28】 この発明の実施の形態8における未知語概念推定装置の構成を示すブロック図。
【図29】 この発明の実施の形態8における類似概念探索ステップの詳細な処理の流れを示すフローチャート。
【図30】 この発明の実施の形態9における未知語概念推定装置の構成を示すブロック図。
【図31】 この発明の実施の形態9における類似概念探索ステップの詳細な処理の流れを示すフローチャート。
【図32】 この発明の実施の形態10における未知語概念推定装置の構成を示すブロック図。
【図33】 この発明の実施の形態10における類似概念探索ステップの詳細な処理の流れを示すフローチャート。
【図34】 この発明の実施の形態10における新語義挿入の説明に供する略線図。
【図35】 従来技術の未知語概念推定装置の構成を示すブロック図。
【図36】 従来技術の未知語概念推定装置の処理の流れを示すフローチャート。
【図37】 従来技術の未知語概念推定装置における前処理の詳細な処理の流れを示すフローチャート。
【図38】 従来技術の未知語概念推定装置における関係データ統計情報の一例を示すデータ。
【図39】 従来技術の未知語概念推定装置における視点情報の一例を示すデータ。
【符号の説明】
1、101 コーパス 2、102 シソーラス
3、103 未知語入力部 4 関係データ統計情報抽出部
5 関係データ統計情報記憶部 6、106 単語間類似度計算部
7 推定エリア抽出部 8 視点抽出部
9 視点情報記憶部 10 エリア評価部
11 推定エリア出力部 104 近傍単語統計情報抽出部
104a 形態素解析部 104b 近傍単語情報抽出部
104c 近傍単語情報計数部 105 近傍単語統計情報記憶部
107 類似概念探索部 108 類似概念評価部
109 類似概念ノード出力部 301 機能語除去部
302 係り受け重み付け処理部 312 係り受けパターン記憶部
303 ストップワード除去部 313 ストップワード辞書
304 頻出単語除去部 305 単語間距離重み付け処理部
401 共通単語数計算部 402 開始概念指定部
501 共起判定部 502 同義概念ノード出力部
601 新語義挿入判定部 602 新語義ノード出力部

Claims (10)

  1. 複数の単語の概念間の関係を記述したシソーラスには含まれない新たな単語(未知語)の概念を推定するために、大量の電子化文書情報からなるコーパスを解析する未知語概念推定装置において、
    上記コーパスの各文書において各単語の前後に現れる単語を近傍単語とし、その近傍単語の出現頻度を上記各単語ごとに計算し、その結果を近傍単語統計情報として出力する近傍単語統計情報抽出手段と、
    上記未知語の近傍単語統計情報と上記シソーラスの概念の近傍単語統計情報との類似度を計算して出力する単語間類似度計算手段と、
    上記シソーラスの概念間の関係を示すリンク情報を辿って、上記未知語との類似度が所定の閾値以上となる上記シソーラスの概念を探索し、その探索結果を類似概念の候補として出力する類似概念探索手段と、
    上記類似概念の候補の類似度を評価して最適な類似概念を選択して出力する類似概念評価手段と、
    を備えることを特徴とする未知語概念推定装置。
  2. 上記単語間類似度計算手段は、上記未知語と上記シソーラスの概念のいずれかが機能語である場合に、該機能語の近傍単語統計情報について上記類似度の計算を省略することを特徴とする請求項1に記載の未知語概念推定装置。
  3. 上記単語間類似度計算手段は、上記未知語の前後の単語の出現パターンが品詞間の係り受けパターンに合致する場合に、上記計算した類似度に重み付けをして出力することを特徴とする請求項1に記載の未知語概念推定装置。
  4. 上記単語間類似度計算手段は、未知語の概念の推定に寄与しない所定のストップワードに上記近傍単語が該当する場合に、該近傍単語の近傍単語統計情報について上記類似度の計算を省略することを特徴とする請求項1に記載の未知語概念推定装置。
  5. 上記単語間類似度計算手段は、上記近傍単語が頻出単語に該当する場合に、該近傍単語の近傍単語統計情報について上記類似度の計算を省略することを特徴とする請求項1に記載の未知語概念推定装置。
  6. 上記単語間類似度計算手段は、上記計算した類似度に上記未知語とその上記近傍単語との単語間距離に応じた重み付けをして出力することを特徴とする請求項1に記載の未知語概念推定装置。
  7. 上記単語間類似度計算手段は、上記未知語と上記シソーラスの概念との間に共通する上記近傍単語の個数に基づいて上記類似度を決定することを特徴とする請求項1に記載の未知語概念推定装置。
  8. 上記類似概念探索手段は、予め定められた上位概念となる上記シソーラスの概念から上記リンク情報を辿ることを特徴とする請求項1に記載の未知語概念推定装置。
  9. 上記類似概念評価手段が出力した上記類似概念の近傍単語統計情報と上記未知語の近傍単語統計情報とから、上記未知語と上記類似概念とが、上記コーパスにおいて互いに近傍に出現する関係である共起関係にあるか否かを決定し、上記未知語と共起関係にない上記類似概念を同義概念として出力する共起判定手段をさらに備えたことを特徴とする請求項1に記載の未知語概念推定装置。
  10. 上記類似概念評価手段が出力した複数の上記類似概念のうち、上記未知語との類似度がほぼ同じ類似概念が存在する場合に、上記未知語が該類似概念と共通の上位概念を有する概念であると判断する新義語挿入判定手段をさらに備えたことを特徴とする請求項1に記載の未知語概念推定装置。
JP01253098A 1998-01-26 1998-01-26 未知語概念推定装置及び未知語概念推定処理プログラムを記録したコンピュータ読みとり可能な記録媒体 Expired - Fee Related JP3663878B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP01253098A JP3663878B2 (ja) 1998-01-26 1998-01-26 未知語概念推定装置及び未知語概念推定処理プログラムを記録したコンピュータ読みとり可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01253098A JP3663878B2 (ja) 1998-01-26 1998-01-26 未知語概念推定装置及び未知語概念推定処理プログラムを記録したコンピュータ読みとり可能な記録媒体

Publications (2)

Publication Number Publication Date
JPH11212975A JPH11212975A (ja) 1999-08-06
JP3663878B2 true JP3663878B2 (ja) 2005-06-22

Family

ID=11807897

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01253098A Expired - Fee Related JP3663878B2 (ja) 1998-01-26 1998-01-26 未知語概念推定装置及び未知語概念推定処理プログラムを記録したコンピュータ読みとり可能な記録媒体

Country Status (1)

Country Link
JP (1) JP3663878B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008084686A1 (ja) * 2007-01-12 2008-07-17 Nec Corporation プロトコル翻訳システム、プロトコル翻訳方法およびプロトコル翻訳プログラム
US20100076938A1 (en) * 2007-01-12 2010-03-25 Nec Corporation Protocol mismatch detection system, protocol mismatch detection method, and protocol mismatch detection program
CA2734756C (en) 2008-08-29 2018-08-21 Primal Fusion Inc. Systems and methods for semantic concept definition and semantic concept relationship synthesis utilizing existing domain definitions
JP5254888B2 (ja) * 2009-06-05 2013-08-07 日本電信電話株式会社 言語資源情報生成装置、方法、プログラム、および記録媒体
WO2011013229A1 (ja) * 2009-07-30 2011-02-03 株式会社東芝 行動推薦装置

Also Published As

Publication number Publication date
JPH11212975A (ja) 1999-08-06

Similar Documents

Publication Publication Date Title
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
US6173251B1 (en) Keyword extraction apparatus, keyword extraction method, and computer readable recording medium storing keyword extraction program
CN108595433A (zh) 一种新词发现方法及装置
Chang et al. An unsupervised iterative method for Chinese new lexicon extraction
CN107092675B (zh) 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法
CN112163425A (zh) 基于多特征信息增强的文本实体关系抽取方法
CN102214189B (zh) 基于数据挖掘获取词用法知识的系统及方法
CN110008474B (zh) 一种关键短语确定方法、装置、设备及存储介质
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
CN109033066A (zh) 一种摘要形成方法及装置
JP2006065387A (ja) テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム
CN117371534B (zh) 一种基于bert的知识图谱构建方法及系统
CN112650836B (zh) 基于句法结构元素语义的文本分析方法、装置及计算终端
JP3663878B2 (ja) 未知語概念推定装置及び未知語概念推定処理プログラムを記録したコンピュータ読みとり可能な記録媒体
JP2006227823A (ja) 情報処理装置及びその制御方法
CN112528640A (zh) 一种基于异常子图检测的领域术语自动抽取方法
CN109684463B (zh) 基于权值比较与挖掘的跨语言译后前件扩展方法
JP5145288B2 (ja) 類義語辞書構築装置及び方法、コンピュータプログラム
KR100559472B1 (ko) 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법
Campelo et al. A model for geographic knowledge extraction on web documents
JP2002297660A (ja) 文字列類似度算出方法、装置、プログラム及び記録媒体
Liu et al. Recognition of collocation frames from sentences
Roche et al. AcroDef: A quality measure for discriminating expansions of ambiguous acronyms
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
JP2005326952A (ja) 概念辞書への単語登録方法、装置、およびプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040203

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040331

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20040720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050321

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080408

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090408

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees