JPH11212975A - 未知語概念推定方法、未知語概念推定装置及び未知語概念推定処理プログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents
未知語概念推定方法、未知語概念推定装置及び未知語概念推定処理プログラムを記録したコンピュータ読み取り可能な記録媒体Info
- Publication number
- JPH11212975A JPH11212975A JP10012530A JP1253098A JPH11212975A JP H11212975 A JPH11212975 A JP H11212975A JP 10012530 A JP10012530 A JP 10012530A JP 1253098 A JP1253098 A JP 1253098A JP H11212975 A JPH11212975 A JP H11212975A
- Authority
- JP
- Japan
- Prior art keywords
- word
- concept
- words
- statistical information
- nearby
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
理が可能であると共に未知語の概念推定に費やす開発コ
ストを小さくすること、未知語概念推定の精度を向上さ
せると共に処理を高速化すること、及び同義概念と類義
概念とを精度良く区別すると共に既存シソーラスにない
新たな概念を推定することを目的とする。 【解決手段】 コーパスから各単語の前後に現れる近傍
単語に応じて近傍単語統計情報を抽出する近傍単語統計
情報抽出ステップと、近傍単語統計情報を記憶する近傍
単語統計情報記憶ステップと、近傍単語統計情報に基づ
いて未知語とシソーラスの概念との類似度を計算する単
語間類似度計算ステップと、類似度に基づいて未知語と
類似するシソーラスの概念を探索する類似概念探索ステ
ップと、最適な類似概念を選択する類似概念評価ステッ
プとを有し、単語間類似度計算ステップと類似概念探索
ステップとを再帰的に実行して未知語の概念を推定す
る。
Description
スには含まれない未知語の概念を推定する未知語の概念
推定に関する。例えば、大規模な文書情報からなる電子
化コーパスから得られる統計的な情報に基づいて、未知
語が属すべき概念を既存のシソーラス中から探索して推
定する未知語概念推定方法、未知語概念推定装置及び未
知語概念推定処理プログラムを記録したコンピュータ読
み取り可能な記録媒体に関するものである。
技術において、意味的な情報を扱うための情報としてシ
ソーラスが利用される。シソーラスとは、単語間の上位
下位関係や同義関係を単語の概念に基づいて記述したも
のである。その一例として、「EDR電子化辞書仕様説
明書」(日本電子化辞書研究所、1993年)に開示される
EDR概念辞書や、「上位/下位関係シソーラスISA
MAP1の作成」(田中穂積、仁科喜久子著、情報処理
学会自然言語処理研究会、Vol.64、No.4、pp.25-45、19
87年(以下、文献1と呼ぶ))に開示されたISAMA
Pがある。これらのシソーラスは人間の手で構築された
ものの一例である。しかし、大規模なシソーラスを人手
で構築する場合には、大変な労力が必要となる。
がある。例えば、コーパスから得られる統計情報を利用
して単語間の類似度を計算し、クラスタリングすること
により、自動的にシソーラスを構築するものである。こ
れは近年の電子化文書の増加にともない、大量の文書情
報からなる電子化コーパスが利用可能となったため実現
されたものである。このような技術として、例えば、特
開平8−263495号公報に開示された自動クラスタ
リング装置がある。
タリングする手法は、現在の技術水準では精度が低いた
め、必ずしも実用的ではなかった。また、クラスタリン
グにかかる計算コストは非常に大きいため、数万語から
なる通常の自然言語処理用辞書のすべての単語をクラス
タリングすることは困難であった。
て、人手で作成された既存のシソーラスを利用して、そ
のシソーラスには含まれていない概念をもつ単語、すな
わち未知語が、シソーラス上のどの概念に相当するかを
推定し、配置するという手法が「コーパスに基づくシソ
ーラス-統計情報を用いた既存のシソーラスへの未知語
の配置」(浦本直彦、情報処理学会論文誌、Vol.37、N
o.12、P.2182-2189、1996年(以下、文献2と呼ぶ))
に開示されている。
開示される未知語の概念推定の概要を説明する。図35
は、文献2の未知語概念推定装置の構成を示すブロック
図である。図35において、1は大量の文書情報からな
るコーパスである。2は単語間の上位下位関係や同義関
係を単語の概念に基づいて単語で記述したシソーラスで
ある。すなわち、シソーラスのノードは概念を表す単語
でなる。3は未知語を入力する未知語入力部である。こ
こで未知語とは、コーパス1に含まれる単語のうち既存
のシソーラス2に含まれない単語である。
係り受け解析し、関係データ統計情報を抽出して出力す
る関係データ統計情報抽出部である。5は、出力された
関係データ統計情報を記憶する関係データ統計情報記憶
部である。6は、記憶された関係データ統計情報を読み
出すと共に、その関係データ統計情報に基づいて未知語
入力部3から入力された未知語とシソーラス2中の単語
との類似度を計算して出力する単語間類似度計算部であ
る。7は、未知語が属するシソーラス2中の部分(エリ
ア)を推定し、出力する推定エリア抽出部である。単語
間類似度計算部6により計算された類似度が閾値以上で
ある単語をシソーラス2から抽出し、これらの単語で連
結されたエリアを未知語が属するエリアの推定結果とし
て出力する。
情報記憶部5に記憶された関係データ統計情報に基づい
てシソーラス2の視点を抽出し、視点情報として出力す
る視点抽出部である。視点とは、単語をシソーラス2上
に配置するための分類基準であり、シソーラスの単語
(下位の概念を持つもの)一つ一つに与えられるもので
ある。9は視点抽出部8により抽出された視点情報を記
憶する視点情報記憶部である。10は、推定エリア抽出
部7により出力された複数のエリアを視点情報を用いて
評価し、評価値が最大のエリアを選択するエリア評価部
である。11は、エリア評価部10で最適と判定された
エリアを出力するエリア出力部である。
は、文献2の処理手順を示すフローチャートである。ま
ず、ステップS1では、前処理として関係データ統計情
報の抽出を行なう。図37は、S1の処理手順を詳細に
示したフローチャートである。ステップS11で、関係
データ統計情報抽出部4はコーパス1を形態素解析し、
ステップS12で、その形態素解析結果を用いて係り受
け解析する。さらに、ステップS13で、係り受け解析
結果を計数して関係データ統計情報12を得る。そして
得られた関係データ統計情報12を関係データ統計情報
記憶部5に記憶する。図38に関係データ統計情報12
の例を示す。関係データ統計情報12は、単語1(12
a)、単語間の関係を示す関係マーカ(12b)、単語
2(12c)、コーパス中の出現頻度(12d)からな
る。
は、視点抽出部8が視点情報13の抽出を行なう。関係
データ統計情報記憶部5からシソーラス2の各単語に対
する関係データ統計情報12を得て、その中からシソー
ラス2の各単語の概念を特徴づける情報を視点情報13
として抽出する。図39に視点情報13の一例を示す。
図39において、13aはシソーラス2に含まれている
単語、13bは関係マーカ、13cは単語13aと共起
関係のある単語、13dは位置情報である。
語を入力する。ステップS4では、単語間類似度計算部
6が、入力された未知語とシソーラス2中のすべての単
語との類似度を計算する。関係データ統計情報12を元
に式(1)に基づいて類似度を計算し、類似度が閾値以
上となるシソーラス2中の単語すべてにマークをつけ
る。
推定エリアを抽出する。ステップS4でマークされた単
語のうち、シソーラス2上で連結する部分をまとめあげ
て、ひとつのエリアとして抽出する。これを未知語の概
念が属すると推定される推定エリアとして出力する。通
常複数の単語がマークされ、それらの単語がいくつかの
エリアにまとめ上げられる。
10がステップS5で出力された複数のエリアを評価
し、未知語が配置されるべき最適なエリアを選択する。
ステップS7では、推定エリア出力部11がステップS
6で選択されたエリアを出力し、処理を終了する。
来技術では、コーパスに対して形態素解析および係り受
け解析を行ない、この解析結果をもとに関係データなる
統計情報を抽出する。さらに、抽出した統計情報および
シソーラスをもとに視点情報を抽出する。未知語が入力
されると、関係データに基づいて未知語とシソーラス中
の全単語との類似度を計算し、類似度が所定の閾値以上
の単語が連結するシソーラス上の部分をエリアとしてま
とめ上げる。視点情報を利用して複数のエリアから未知
語の概念が属すると推定される最適なエリアを選択し、
未知語が属するシソーラス上のエリア、すなわち未知語
の概念を推定する。
されるような従来の手法には、以下に示すように、解決
すべきいくつかの課題があった。
計情報として、係り受け解析の結果を使用している点に
あった。通常、係り受け解析には多くの曖昧性が存在
し、すべての曖昧性を自動的に処理して正しい解析結果
を得ることは困難である。そのため、精度の良い統計情
報を得られるような、正しい係り受け解析結果をもつコ
ーパスを作成するためには、何らかの形で人間の手で修
正する必要があり、大きな開発コストがかかるという問
題点があった。また、人手による修正を経て開発された
コーパスはすでに存在するが、その数は少ないため応用
範囲が非常に限られたものとなるという問題点があっ
た。さらに、自動的な係り受け解析のみでは精度が低い
ため、そこから得られる統計情報の精度は悪く、未知語
の概念推定を行なうのに十分な精度が得られないという
問題点があった。
けがなく、類似度計算に寄与する語も寄与しない語も同
等に扱っているため、十分な概念推定の精度が得られな
いという問題点があった。コーパスを係り受け解析し、
その結果を計数して得た単純な統計情報には、単語間の
類似度判定や概念推定には適さないノイズとみなされる
情報も含まれている。このようなノイズを含んだ統計情
報を使用しているため類似度計算の精度が低下する。そ
の結果、概念推定の精度が悪化するという問題点があっ
た。
に加え、未知語とシソーラス上のすべての単語との類似
度を計算してからエリアを推定するため、エリアの推定
に要する計算量が大きいという問題点があった。特に、
大規模なシソーラスを用いた場合、計算量が大きくなり
実行効率が悪いという問題点があった。
単語と完全に同義である場合にも、推定エリアとして類
似単語からなるエリア情報が出力されるのみであるた
め、類義語と同義語との区別がつかず、得られるシソー
ラスが、同義語のみ処理対象とするような処理には利用
できないという問題点もあった。
中にすでに存在する概念のみであるという問題点があっ
た。すなわち、入力された未知語がシソーラス中に存在
するどの概念とも異なる新たな概念をもつ語である場合
でも、類似した概念をもつ単語の集合が示されるだけで
あり、シソーラス中に新たな概念を作成することはでき
なかった。
ためになされたもので、統計情報として係り受け解析結
果を必要とせず、自動的な処理が可能であると共に、多
種多様な文書情報に対する未知語の概念推定に費やす開
発コストを小さくすることを目的とする。
と共に、未知語の概念推定処理を高速化することを目的
とする。さらに、未知語の概念推定において同義概念と
類義概念とを精度良く区別すると共に、既存のシソーラ
スに存在しない新たな概念を推定することを目的とす
る。
念推定方法は、大量の電子化文書情報からなるコーパス
に含まれる単語のうち、単語間の上位下位関係や同義関
係等を単語の概念に基づいて記述した既存のシソーラス
に含まれない単語、即ち、未知語の概念を推定するもの
であって、コーパスから各単語の前後に現れる近傍単語
に応じて近傍単語統計情報を抽出する近傍単語統計情報
抽出ステップと、近傍単語統計情報を記憶する近傍単語
統計情報記憶ステップと、記憶した近傍単語統計情報を
読み出すと共にその近傍単語統計情報に基づいて未知語
とシソーラスの概念との類似度を計算する単語間類似度
計算ステップと、単語間類似度計算ステップで計算され
た類似度に基づいてシソーラスの単語間の関係を示すリ
ンク情報をたどりながら未知語と類似する概念を探索し
て類似概念の候補を出力する類似概念探索ステップと、
類似概念の候補を未知語との類似度に基づいて評価し最
適な類似概念を選択して出力する類似概念評価ステップ
とを有し、単語間類似度計算ステップと類似概念探索ス
テップとを再帰的に実行して未知語の概念を推定するも
のである。
は、近傍単語統計情報抽出ステップにおいて、品詞情報
に基づいて近傍単語統計情報から機能語を除去する機能
語除去ステップを有するものである。
は、近傍単語統計情報抽出ステップにおいて、係り受け
しやすい品詞間のパターンに基づいて近傍単語統計情報
に重み付けを行う係り受け重み付けステップを有するも
のである。
は、近傍単語統計情報抽出ステップにおいて、概念推定
に寄与しない所定のストップワードを近傍単語統計情報
から除去するストップワード除去ステップを有するもの
である。
は、近傍単語統計情報抽出ステップにおいて、コーパス
中の出現頻度に応じた頻出単語を近傍単語統計情報から
除去する頻出単語除去ステップを有するものである。
は、近傍単語統計情報抽出ステップにおいて、単語間の
距離に従って近傍単語統計情報に重み付けを行う単語間
距離重み付けステップを有するものである。
は、単語間類似度計算ステップにおいて類似度を計算す
る際に、近傍単語の共通単語数に基づいて計算するもの
である。
は、類似概念探索ステップに先立って類似概念探索を開
始するシソーラスの概念をあらかじめ指定する開始概念
指定ステップを有するものである。
は、近傍単語統計情報に基づいて、未知語とその未知語
のシソーラス上の類似概念との共起関係の強さにより同
義性を判定する共起判定ステップを有し、判定結果に基
づいて類似概念と同義概念とを区別して未知語の概念を
推定するものである。
は、類似概念評価ステップにおいて未知語との類似度が
同じくらい強い概念が複数ある場合に、シソーラスに基
づいて未知語の概念となる新たな概念の挿入位置を判定
する新語義挿入判定ステップを有するものである。
置は、大量の電子化文書情報からなるコーパスに含まれ
る単語のうち、単語間の上位下位関係や同義関係等を単
語の概念に基づいて記述した既存のシソーラスに含まれ
ない単語、即ち、未知語の概念を推定するものであっ
て、コーパスから各単語の前後に現れる近傍単語に応じ
て近傍単語統計情報を抽出する近傍単語統計情報抽出手
段と、近傍単語統計情報を記憶する近傍単語統計情報記
憶手段と、記憶した近傍単語統計情報を読み出すと共に
その近傍単語統計情報に基づいて未知語とシソーラスの
概念との類似度を計算する単語間類似度計算手段と、単
語間類似度計算手段で計算された類似度に基づいてシソ
ーラスの単語間の関係を示すリンク情報をたどりながら
未知語と類似する概念を探索して類似概念の候補を出力
する類似概念探索手段と、類似概念の候補を未知語との
類似度に基づいて評価し最適な類似概念を選択して出力
する類似概念評価手段とを備え、単語間類似度計算手段
と類似概念探索手段とを再帰的に動作させて未知語の概
念を推定するものである。
理プログラムを記録したコンピュータ読み取り可能な記
録媒体は、大量の電子化文書情報からなるコーパスに含
まれる単語のうち、単語間の上位下位関係や同義関係等
を単語の概念に基づいて記述した既存のシソーラスに含
まれない単語、即ち、未知語の概念を推定するものであ
って、コーパスから各単語の前後に現れる近傍単語に応
じて近傍単語統計情報を抽出する近傍単語統計情報抽出
手順と、近傍単語統計情報を記憶する近傍単語統計情報
記憶手順と、記憶した近傍単語統計情報を読み出すと共
にその近傍単語統計情報に基づいて未知語とシソーラス
の概念との類似度を計算する単語間類似度計算手順と、
単語間類似度計算手段で計算された類似度に基づいてシ
ソーラスの単語間の関係を示すリンク情報をたどりなが
ら未知語と類似する概念を探索して類似概念の候補を出
力する類似概念探索手順と、類似概念の候補を未知語と
の類似度に基づいて評価し最適な類似概念を選択して出
力する類似概念評価手順とを有し、単語間類似度計算手
順と類似概念探索手順とを再帰的に実行して未知語の概
念を推定するものである。
施の形態1について説明する。図1は実施の形態1にお
ける未知語概念推定装置の構成を示すブロック図であ
る。図1において、101は大量の文書情報からなるコ
ーパスである。102は単語間の上位下位関係や同義関
係を単語の概念に基づいて記述したシソーラスである。
ここでは簡単のため、シソーラスのノードは概念を表す
単語でなる場合について説明する。103は、未知語を
入力する未知語入力部である。ここで未知語とは、コー
パス101に含まれる単語のうち既存のシソーラス10
2に含まれない単語である。104は、コーパス101
を形態素解析し、各単語の前後に現れる近傍単語の頻度
を抽出して近傍単語統計情報を出力する近傍単語統計情
報抽出部である。105は、出力された近傍単語統計情
報を記憶する近傍単語統計情報記憶部である。
読み出すと共に、その近傍単語統計情報に基づいて、入
力された未知語とシソーラス102中のノード(概念を
表す単語)との類似度を計算して出力する単語間類似度
計算部である。107は、シソーラス102のノードを
単語間類似度計算部106に出力すると共に、単語間類
似度計算部106により計算された類似度に基づき、シ
ソーラス102のもつノードのリンク情報をたどりなが
ら近傍単語統計情報を用いて入力された未知語と類似す
る概念を探索し、類似概念の候補を出力する類似概念探
索部である。108は、類似概念探索部107で探索さ
れた類似概念の候補を入力未知語との類似度に基づいて
評価し、最適な類似概念を選択して出力する類似概念評
価部である。109は、類似概念評価部108で最適と
判定された類義概念を出力する類似概念出力部である。
知語概念推定装置の処理手順を示すフローチャートであ
る。以下、図1および図2を参照しつつ、適宜他の詳細
図面を参照しながら、動作について詳細に説明する。
を行う。ステップS10は、近傍単語統計情報抽出ステ
ップである。ステップS10において、近傍単語統計情
報抽出部104は、コーパス101を形態素解析して近
傍単語統計情報を抽出し、その近傍単語統計情報を近傍
単語統計情報記憶部105に記憶する。ステップS10
は前処理であり、ひとつのコーパスに対して一度だけ処
理すればよい。詳細な処理については後述する。
ある。ステップS20において、未知語入力部103
は、図示しない未知語抽出手段によってコーパス101
から抽出された未知語を単語間類似度計算部106に入
力する。
63962号公報に開示される前後の字種情報を手がか
りにする手法や、「nグラム統計によるコーパスからの
未知語抽出」(森信介、長尾眞、電子情報通信学会 言
語理解とコミュニケーション研究会、95-8、1995年)に
開示される前後の文字の統計情報を用いる手法など様々
な公知技術がある。未知語抽出手段として、いかなる未
知語抽出手法を用いても、本発明の特徴を損なうもので
はない。
語入力部103からすべてを自動的に入力して以降の処
理を行なってもよいし、本装置を使用する人間が必要と
する未知語を選択しながら入力してもよい。この場合、
未知語のリストを表示して、その中から人間が選択して
入力するメニュー表示方式などが考えられる。
である。ステップS30において、類似概念探索部10
7は、シソーラス102の上位概念から下位概念へのノ
ードのリンク情報をたどりながら、入力された未知語と
類似する類似概念のノードを探索する。ステップS30
では、その探索処理において、単語間類似度計算ステッ
プS40を繰り返し呼び出して実行する。詳細な処理方
法については後述する。
ップである。ステップS40において、単語間類似度計
算部106は、近傍単語統計情報記憶部105に記憶さ
れた近傍単語統計情報を読み出すと共に、その近傍単語
統計情報に基づいて、入力部103から入力された未知
語と類似概念探索部107から入力されたシソーラス1
02中のノードとの類似度を計算し、その類似度を類似
概念探索部107に出力する。詳細な処理方法について
は後述する。
である。ステップS50において、類似概念評価部10
8は、類似概念探索部107により出力された類似概念
の候補を単語間類似度計算部106で計算した未知語と
の類似度に基づいて評価し、最適な類似概念を選択して
出力する。詳細な処理方法については後述する。
である。ステップS60において、類似概念出力部10
9は、類似概念評価部108により最適と判定された類
似概念を出力し、処理を終了する。このとき、出力結果
を反映して、自動的にシソーラス102を更新してもよ
いし、出力結果を画面に表示し、本装置を操作する人間
がシソーラス102の更新を行なってもよい。
統計情報抽出ステップS10の詳細な処理について説明
する。図3は近傍単語統計情報抽出部104の詳細な構
成を示すブロック図である。図3において、104aは
コーパス101を形態素解析し、その形態素解析結果を
出力する形態素解析部、104bは形態素解析結果から
近傍単語情報を抽出して出力する近傍単語情報抽出部、
104cは近傍単語情報から近傍単語の頻度を計数して
近傍単語統計情報を出力する近傍単語情報計数部であ
る。なお、104dおよび104eは中間データであ
り、それぞれ形態素解析結果および近傍単語情報であ
る。104fは、近傍単語統計情報である。
フローチャートである。ステップS101は形態素解析
ステップである。ステップS101では、形態素解析部
104aが、文書情報からなるコーパス101を形態素
解析する。形態素解析は、例えば「未登録語を含む日本
語文の形態素解析」(吉村賢治、武内美津乃、津田健
蔵、首藤公昭、情報処理学会論文誌、Vol.30、No.3、19
89年)に開示されるコスト最小法に基づいて行う。図5
に形態素解析結果104dの一例を示す。
近傍単語情報を抽出する近傍単語抽出ステップである。
ステップS102では、近傍単語情報抽出部104b
が、形態素解析結果から近傍単語情報104eを抽出す
る。近傍単語情報には、少なくとも単語およびその単語
の品詞情報が格納されている。単語間の距離が2までの
単語を近傍単語情報として抽出した場合の近傍単語情報
104eの一例を図6に示す。図6では、第1フィール
ド(左端)の単語に対してコーパス101中で前後に出
現する2語ずつの近傍単語(全部で4語)を第2フィー
ルド以降に示している。“x”は特殊な記号であり、そ
の単語が文頭や文末にある場合など、前後が2語に満た
ない場合に、後の処理がしやすいようフィールド数をそ
ろえるために挿入してある。
るが、計算機の内部形式としては語幹のみでもよい。ま
た、図6の例では前後2語を抽出しているが、コーパス
101中において、一つの文書に含まれる単語数が多い
場合には、単語間の距離を3または5などとしてもよ
い。さらに、一つ一つの文書に含まれるすべての単語を
近傍単語として処理してもよい。
テップである。ステップS103では、近傍単語情報計
数部104cが近傍単語情報104eに基づき近傍単語
の頻度を計数して近傍単語統計情報104fを求め、近
傍単語統計情報記憶部105に記憶する。近傍単語統計
情報には、少なくとも単語およびその単語の品詞情報が
記憶されている。近傍単語統計情報104fの一例を図
7に示す。図7では、第1フィールドの単語に対する近
傍単語統計情報を第2フィールドに示している。数字
は、コーパス101中において、その単語が第1フィー
ルドの単語の近傍に現れた回数を表わす。また、図7は
コーパス101全体から得られた近傍単語統計情報であ
り、図5に示した例より大量の文書から得られた近傍単
語統計情報である。
プS30から類似概念出力ステップS60までの詳細な
処理手順を、図1を参照しつつ図8および図9を用いて
説明する。ステップS201において、単語間類似度計
算部106は、未知語入力部103によって入力された
入力未知語Wuを初期化し、類似概念探索部107は、
シソーラス探索開始ノードであるルートノードNrを初
期化する。ここでは説明を簡単にするため、シソーラス
102として図9に示すシソーラスを使用し、入力未知
語は「CS放送」であり、ルートノードは「放送」であ
るとする。したがってこの場合、単語間類似度計算部1
06は入力未知語Wuを「CS放送」で初期化し、類似
概念探索部107はルートノードNrを「放送」で初期
化する。
部107は、シソーラス102のノードのリンク情報に
よりルートノードNrの下位概念の集合Nbを得る。図
9の例では、「ラジオ放送」および「テレビ放送」が下
位概念として得られる。
間類似度計算部106が入力未知語WuとステップS2
02において得られた下位概念の集合Nbの各要素との
類似度を計算し、結果を類似概念探索部107に出力す
る。類似度は、近傍単語統計情報記憶部105に記憶さ
れた近傍単語統計情報に基づいて計算される。すなわ
ち、図10に示すように、近傍単語統計情報記憶部10
5から入力未知語Wuの「CS放送」、シソーラス10
2中のノード「ラジオ放送」および「テレビ放送」のそ
れぞれの近傍単語統計情報を読み出し、それぞれの近傍
単語統計情報の類似性を計算する。
として、様々なものが考えられるが、例えば各近傍単語
の頻度をベクトルと考え、内積値の小さい方が類似性が
高いとする手法がある。このとき、単語により出現頻度
が異なるので、ベクトルの長さが1となるよう正規化し
て用いる。この他にも、相互情報量を用いて類似性を計
算する手法がある。いずれの手法を用いたとしても、近
傍単語の頻度情報を用いて単語間類似度の計算をするの
であれば、本発明の特徴を何ら損なうものではない。
07が、ステップS203における類似度計算結果が閾
値以上のノード集合Nnを抽出する。ステップS205
では、閾値以上のノード集合Nnの要素となっている各
ノードに下位概念が存在するかどうかを判定する。ここ
では、「CS放送」と「ラジオ放送」との類似度は閾値
以下で、「CS放送」と「テレビ放送」との類似度が閾
値以上だったとする。このとき、閾値以上のノード集合
Nnの要素は「テレビ放送」のみであり、下位概念とし
ては「VHF放送」、「UHF放送」および「衛星放
送」の3つである。したがって、ステップS205の判
定はYESとなり、ステップS206に進む。
集合Nnの要素である各ノードを新たなルートノードN
rとして設定する。ステップS202からステップS2
06までを繰り返し処理し、処理結果として得られるノ
ードの和集合を類似概念評価部108に出力する。ここ
では、順に「衛星放送」、「BS放送」とたどって処理
が進む。なお、閾値以上のノード集合Nnが複数の要素
をもつ場合は、各要素について順に処理する。
「BS放送」となったとき、もう下位概念がないので、
ステップS205でNoとなり、ステップS207に進
む。ステップS207では、類似概念評価部108が、
再起処理における出力結果の和集合の各要素を評価し、
類似度に基づいて最適と判定されたノードを類似概念ノ
ード出力部109に出力する。例えば、S202からS
206までの再帰処理の結果、複数のノード「VHF放
送」と「BS放送」が出力され、「BS放送」の方が
「VHF放送」よりも類似度が高い場合、入力未知語
「CS放送」の類似概念として、類似度の高い「BS放
送」が最適と判定される。すなわち、入力未知語「CS
放送」の概念はシソーラス102のノード「BS放送」
と類似であると推定される。その後、ステップS208
で、類似概念ノード出力部109が、判定されたノード
(類似概念)を出力し、処理を終了する。
概念推定装置によれば、単語間類似度計算部で用いる統
計情報として、形態素解析結果から抽出する近傍単語統
計情報を用いることにより、係り受け解析を必要とせ
ず、自動的な未知語の概念推定処理を実現できる。ま
た、自動的な処理が可能であることにより、人手による
大量の修正作業が不要となり、多種多様な文書情報に対
する未知語の概念推定に費やす開発コストを小さくする
ことができると共に、未知語概念推定処理の適用範囲を
広げることができる。
定装置の処理動作を実行させるためのプログラム、デー
タ、記憶情報などをフロッピーディスク、CD−ROM
などのコンピュータ読み取り可能な記録媒体に記憶して
動作させてもよく、同様の効果を得られる。
ードは概念を表す単語でなる場合について説明したが、
シソーラスは単語間の上位下位関係や同義関係を単語の
概念に基づいて記述したものであればよく、これに限定
されるものではない。例えば、シソーラスのノードが抽
象的な概念を表す中間概念であっても良く、同様の効果
を得られる。
ソーラスのノードとして単語そのものが用いられてい
る。すなわち、ノード=単語=概念という形式となって
いる。このような形式をとるシソーラスもあるが(文献
1)、必ずしもシソーラスのノードが表層的な単語と一
対一に関係しているとは限らない。表層的な単語と一対
一に対応していない抽象的な概念を表す中間概念があ
る。
は、実際にコーパスに出現した表層的な単語に基づいた
統計情報を利用する場合について説明したが、中間概念
に対しては、例えば、その各下位概念に対応する表層的
な単語の集合により計算する。
上位下位関係を基本として構成される。is−a関係以
外にも、全体と部分の関係を表わすpart−ofと呼
ばれる関係もあるが、ここでは説明を簡単にするため
に、is−a階層についてシソーラスにおける単語と概
念との関係を説明する。
報は、中間概念Ciの全下位概念に対応する単語Wjの
統計情報の和を使用する。こうすることにより、直接表
層的な単語との関係をもたない中間概念についても、本
発明における単語間類似度計算を適用できる。なお、本
発明は、単語間の関係を示すリンク情報を用いて未知語
の概念を推定するものであるので、必ずしもis−a関
係に基づくシソーラスに限られるものではないことは言
うまでもない。
2について説明する。実施の形態2の全体構成および全
体の処理手順については実施の形態1とまったく同様な
ため省略する。実施の形態2において特徴的な部分であ
る近傍単語統計情報抽出部104および近傍単語統計情
報抽出ステップS10の内部で実行される機能語除去ス
テップについて詳しく説明する。
統計情報抽出部104の詳細な構成を示すブロック図で
ある。図11において、前述の実施の形態と同一または
相当部分に同一符号を付し、説明を省略する。301
は、近傍単語情報から機能語に関する部分を除去する機
能語除去部である。301a、301bおよび301c
は中間データであり、それぞれ形態素解析結果、近傍単
語情報、機能語除去後の近傍単語情報である。
処理手順を詳細に説明するフローチャートである。ステ
ップS101、ステップS102、およびステップS1
03では、それぞれ図4における各ステップとまったく
同じ処理を行なう。ステップS301では、機能語除去
部301が、ステップS102の処理結果である近傍単
語情報301bから機能語に関する部分を除去し、近傍
単語情報301cを出力する。
語情報301b、および機能語除去後の近傍単語情報3
01cの一例を示す。機能語除去部301は、近傍単語
情報301bにおける品詞情報301pを用いて機能語
の除去を行ない、さらに前後の語をつめて機能語除去後
の近傍単語情報として、近傍単語情報301cを出力す
る。例えば、機能語の品詞情報を格納した図示しない機
能語品詞辞書を参照し、近傍単語情報301bから機能
語を除去する。
ードとの類似度を計算する際に、コーパス中における入
力未知語およびノード(概念を表す単語)の近傍に出現
する単語を用いる。ところが、実質的な意味内容に乏し
い単語である限定詞、前置詞、接続詞、感動詞などの機
能語は、名詞や動詞などの内容語と異なり、あらゆる単
語の近傍に出現する可能性がある。そのため、これらの
機能語は特定の単語との関連が薄く、近傍単語統計情報
により単語間類似度を計算する際のノイズとなる。した
がって、これらの機能語に相当する品詞をもつ単語を近
傍単語情報301bから除去することにより、近傍単語
情報301cに含まれるノイズが減少して、その近傍単
語情報301cから求められる近傍単語統計情報に含ま
れるノイズも減少する。その結果、単語間類似度計算の
精度が高くなり、未知語の概念推定精度が向上する。
概念推定装置によれば、前述の実施の形態における効果
に加え、品詞情報に基づいて近傍単語情報から機能語を
除去することにより、単語間類似度計算の精度が高くな
り、未知語の概念推定精度を向上することができる。
定装置の処理動作を実行させるためのプログラム、デー
タ、記憶情報などをフロッピーディスク、CD−ROM
などのコンピュータ読み取り可能な記録媒体に記憶して
動作させてもよく、同様の効果を得られる。
ラスのノードは概念を表す単語でなる場合について説明
したが、シソーラスは単語間の上位下位関係や同義関係
を単語の概念に基づいて記述したものであればよく、こ
れに限定されるものではない。例えば、シソーラスのノ
ードが抽象的な概念を表す中間概念であっても良く、同
様の効果を得られる。
る場合について説明したが、類似度を計算する際に用い
る近傍単語統計情報に機能語が含まれていなければよ
く、これに限定されるものではない。例えば、近傍単語
情報計数部の出力である近傍単語統計情報から機能語を
削除しても同様の効果を得られる。
3について説明する。実施の形態3の全体構成および全
体の処理手順については実施の形態1とまったく同様な
ため省略する。実施の形態3において特徴的な部分であ
る近傍単語統計情報抽出部104および近傍単語統計情
報抽出ステップS10の内部で実行される係り受け重み
付けステップについて詳しく説明する。
統計情報抽出部104の詳細な構成を示すブロック図で
ある。図14において、前述の実施の形態と同一または
相当部分に同一符号を付し、説明を省略する。302
は、形態素解析結果および品詞間のパターンに従って近
傍単語情報に重み付けを行なう係り受け重み付け処理部
である。312は、係り受けしやすい品詞間のパターン
を記憶する係り受けパターン記憶部である。302a、
302bおよび302cは中間データであり、それぞれ
形態素解析結果、近傍単語情報、係り受け重み付け後の
近傍単語情報である。
処理手順を詳細に説明するフローチャートである。ステ
ップS101、ステップS102、およびステップS1
03では、それぞれ図4における各ステップとまったく
同じ処理を行なう。ステップS302では、係り受けパ
ターン重み付け部302が、形態素解析結果302aを
用い係り受けパターン記憶部312に記憶されたパター
ンに従って、ステップS102の処理結果である近傍単
語情報302bに重み付けを行ない、近傍単語情報30
2cを出力する。
語情報302b、および近傍単語情報302cの一例を
示す。なお、図16は前述の機能語除去部の処理を施し
たものである。例えば、近傍単語情報302bが「副
詞、形容詞、名詞」という係り受けパターンにマッチす
る場合、形容詞の「速い」と名詞の「車」との間には係
り受け関係があり、副詞の「とても」と名詞の「車」と
の係り受け関係より、強い関係である。この場合、図1
6において、係り受け重み付け処理部302は、係り受
け関係の強さに応じて単語間に適切な重み付けをし、近
傍単語情報302cを出力する。
のある形容詞の「速い」と名詞の「車」に適切な強さの
重み付けをすることにより、係り受け関係の強さを表現
する。なお、重み付けの値として一律の値としてもよい
し、各係り受けパターンごとに係り受けパターン記憶部
312に記憶しておき、この値を用いてもよい。
ードとの類似度を計算する際に、コーパス中における入
力未知語およびノード(概念を表す単語)の近傍に出現
する単語を用いるが、係り受け重み付け処理により、係
り受け関係の強さに応じた近傍単語統計情報302cに
重み付けをすることにより、係り受け関係の強さが類似
度計算に反映される。その結果、単語間類似度計算の精
度が高くなり、未知語の概念推定精度が向上する。
概念推定装置によれば、前述の実施の形態における効果
に加え、係り受けしやすい品詞間の係り受けパターンに
基づいて、係り受け関係の強さに応じて近傍単語情報に
重み付けをすることにより、単語間類似度計算の精度が
高くなり、未知語の概念推定精度を向上することができ
る。
定装置の処理動作を実行させるためのプログラム、デー
タ、記憶情報などをフロッピーディスク、CD−ROM
などのコンピュータ読み取り可能な記録媒体に記憶して
動作させてもよく、同様の効果を得られる。
ラスのノードは概念を表す単語でなる場合について説明
したが、シソーラスは単語間の上位下位関係や同義関係
を単語の概念に基づいて記述したものであればよく、こ
れに限定されるものではない。例えば、シソーラスのノ
ードが抽象的な概念を表す中間概念であっても良く、同
様の効果を得られる。
処理を施す場合について説明したが、類似度を計算する
際に用いる近傍単語統計情報に係り受け重み付け処理が
施されていればよく、これに限定されるものではない。
例えば、近傍単語情報計数部の出力である近傍単語統計
情報に係り受け重み付け処理を施しても同様の効果を得
られる。
4について説明する。実施の形態4の全体構成および全
体の処理手順については実施の形態1とまったく同様な
ため省略する。実施の形態3において特徴的な部分であ
る近傍単語統計情報抽出部104および近傍単語統計情
報抽出ステップS10の内部で実行されるストップワー
ド削除ステップについて詳しく説明する。
統計情報抽出部104の詳細な構成を示すブロック図で
ある。図17において、前述の実施の形態と同一または
相当部分に同一符号を付し、説明を省略する。303
は、近傍単語情報からストップワードを除去するストッ
プワード除去部である。313は、ストップワードを記
憶するストップワード辞書である。ここでストップワー
ドとは、単語間類似度の計算に寄与しない単語のことで
ある。303a、303bおよび303cは中間データ
であり、それぞれ形態素解析結果、近傍単語情報、スト
ップワード除去後の近傍単語情報である。
処理手順を詳細に説明するフローチャートである。ステ
ップS101、ステップS102、およびステップS1
03では、それぞれ図4における各ステップとまったく
同じ処理を行なう。ステップS303では、ストップワ
ード除去部303がストップワード辞書313を参照し
つつ、ステップS102の処理結果である近傍単語情報
303bからストップワードを除去し、近傍単語情報3
04cを出力する。
ードとの類似度を計算する際に、コーパス中における入
力未知語およびノード(概念を表す単語)の近傍に出現
する単語を用いる。ところが、非常に一般的で、頻繁に
用いられるため、あらゆる単語の近傍に出現する可能性
のある単語は、特定の単語との関連が薄く近傍単語統計
情報により単語間類似度を計算する際のノイズとなる。
形式名詞の「もの」や「こと」などは、その一例であ
る。また、ある特定の分野のコーパスにおいて、非常に
一般的で、頻繁に用いられる単語もある。例えば、情報
処理に関する文章中では、「コンピュータ」などの単語
である。
して記憶したストップワード辞書313を用いて、近傍
単語統計情報を抽出する際に、近傍単語情報303bか
らストップワードを除去する。これにより、近傍単語情
報303cに含まれるノイズが減少して、その近傍単語
情報303cから求められる近傍単語統計情報に含まれ
るノイズも減少する。その結果、単語間類似度計算の精
度が高くなり、未知語の概念推定精度も向上する。
概念推定装置によれば、前述の実施の形態における効果
に加え、ストップワード辞書に基づいて近傍単語情報か
らストップワードを除去することにより、単語間類似度
計算の精度が高くなり、未知語の概念推定精度を向上す
ることができる。
定装置の処理動作を実行させるためのプログラム、デー
タ、記憶情報などをフロッピーディスク、CD−ROM
などのコンピュータ読み取り可能な記録媒体に記憶して
動作させてもよく、同様の効果を得られる。
ラスのノードは概念を表す単語でなる場合について説明
したが、シソーラスは単語間の上位下位関係や同義関係
を単語の概念に基づいて記述したものであればよく、こ
れに限定されるものではない。例えば、シソーラスのノ
ードが抽象的な概念を表す中間概念であっても良く、同
様の効果を得られる。
を除去する場合について説明したが、類似度を計算する
際に用いる近傍単語統計情報にストップワードが含まれ
ていなければよく、これに限定されるものではない。例
えば、近傍単語情報計数部の出力である近傍単語統計情
報からストップワードを削除しても同様の効果を得られ
る。
5について説明する。実施の形態5の全体構成および全
体の処理手順については実施の形態1とまったく同様な
ため省略する。実施の形態5において特徴的な部分であ
る近傍単語統計情報抽出部104および近傍単語統計情
報抽出ステップS10の内部で実行される頻出単語削除
ステップについて詳しく説明する。
統計情報抽出部104の詳細な構成を示すブロック図で
ある。図19において、前述の実施の形態と同一または
相当部分に同一符号を付し、説明を省略する。304
は、近傍単語情報から頻出単語を除去する頻出単語除去
部である。頻出単語とは、コーパス中の出現頻度が著し
く高いものであり、例えば、頻度値によって決定され
る。304a、304bおよび304cは中間データで
あり、それぞれ形態素解析結果、近傍単語情報、係り受
け重み付け後の近傍単語情報である。
処理手順を詳細に説明するフローチャートである。ステ
ップS101、ステップS102、およびステップS1
03では、それぞれ図4における各ステップとまったく
同じ処理を行なう。ステップS304では、頻出単語除
去部304が、ステップS102の処理結果である近傍
単語情報304bから頻出単語を除去し、近傍単語情報
304cを出力する。例えば、頻出単語を格納した図示
しない頻出単語記憶部を参照し、近傍単語情報304b
から頻出単語を除去する。
ードとの類似度を計算する際に、コーパス中における入
力未知語およびノード(概念を表す単語)の近傍に出現
する単語を用いる。ところが頻出単語は、コーパス中に
非常に頻繁に出現し、あらゆる単語の近傍に出現する可
能性がある。そのため、これらの頻出単語は特定の単語
との関連が薄く、近傍単語統計情報により単語間類似度
を計算する際のノイズとなる。
に、近傍単語情報304bから頻出単語を除去すること
により、近傍単語情報304cに含まれるノイズが減少
し、その近傍単語情報304cから求められる近傍単語
統計情報に含まれるノイズも減少する。その結果、単語
間類似度計算の精度が高くなり、未知語の概念推定精度
も向上する。
概念推定装置によれば、前述の実施の形態における効果
に加え、近傍単語情報から頻出単語を除去することによ
り、単語間類似度計算の精度が高くなり、未知語の概念
推定精度を向上することができる。
定装置の処理動作を実行させるためのプログラム、デー
タ、記憶情報などをフロッピーディスク、CD−ROM
などのコンピュータ読み取り可能な記録媒体に記憶して
動作させてもよく、同様の効果を得られる。
ラスのノードは概念を表す単語でなる場合について説明
したが、シソーラスは単語間の上位下位関係や同義関係
を単語の概念に基づいて記述したものであればよく、こ
れに限定されるものではない。例えば、シソーラスのノ
ードが抽象的な概念を表す中間概念であっても良く、同
様の効果を得られる。
する場合について説明したが、類似度を計算する際に用
いる近傍単語統計情報に頻出単語が含まれていなければ
よく、これに限定されるものではない。例えば、近傍単
語情報計数部の出力である近傍単語統計情報から頻出単
語を削除しても同様の効果を得られる。
6について説明する。実施の形態6の全体構成および全
体の処理手順については実施の形態1とまったく同様な
ため省略する。実施の形態6において特徴的な部分であ
る近傍単語統計情報抽出部104および近傍単語統計情
報抽出ステップS10の内部で実行される単語間距離重
み付けステップについて詳しく説明する。
統計情報抽出部104の詳細な構成を示すブロック図で
ある。図21において、前述の実施の形態と同一または
相当部分に同一符号を付し、説明を省略する。305
は、形態素解析結果の単語間距離に従って、近傍単語情
報に重み付けを行なう単語間距離重み付け処理部であ
る。305a、305bおよび305cは中間データで
あり、それぞれ形態素解析結果、近傍単語情報、単語間
距離重み付け後の近傍単語情報である。
処理手順を詳細に説明するフローチャートである。ステ
ップS101、ステップS102、およびステップS1
03では、それぞれ図4における各ステップとまったく
同じ処理を行なう。ステップS305では、単語間距離
重み付け処理部305が、形態素解析結果の単語間距離
に従って、ステップS102の処理結果である近傍単語
情報305bに重み付けを行い、近傍単語情報305c
を出力する。
ードとの類似度を計算する際に、コーパス中における入
力未知語およびノード(概念を表す単語)の近傍に出現
する単語を用いる。一般に単語間の関連の強さは単語間
の距離と相関関係があるので、単語間距離重み付け処理
によって関連の弱い遠くの近傍単語よりも関連の強い近
くの近傍単語を優先して近傍単語情報に重み付けするこ
とにより、単語間の関連(共起関係)の強さが類似度計
算に反映される。その結果、単語間類似度計算の精度が
高くなり、未知語の概念推定精度が向上する。
概念推定装置によれば、前述の実施の形態における効果
に加え、単語間の距離に従って近傍単語情報に重み付け
することにより、単語間類似度計算の精度が高くなり、
未知語の概念推定精度を向上することができる。
定装置の処理動作を実行させるためのプログラム、デー
タ、記憶情報などをフロッピーディスク、CD−ROM
などのコンピュータ読み取り可能な記録媒体に記憶して
動作させてもよく、同様の効果を得られる。
ラスのノードは概念を表す単語でなる場合について説明
したが、シソーラスは単語間の上位下位関係や同義関係
を単語の概念に基づいて記述したものであればよく、こ
れに限定されるものではない。例えば、シソーラスのノ
ードが抽象的な概念を表す中間概念であっても良く、同
様の効果を得られる。
け処理を施す場合について説明したが、類似度を計算す
る際に用いる近傍単語統計情報に単語間距離重み付け処
理が施されていればよく、これに限定されるものではな
い。例えば、近傍単語情報計数部の出力である近傍単語
統計情報に単語間距離重み付け処理を施しても同様の効
果を得られる。
7について説明する。図23は実施の形態7における未
知語概念推定装置の構成を示すブロック図である。図2
3において、前述の実施の形態と同一または相当部分に
同一符号を付し、説明を省略する。401は、近傍単語
統計情報記憶部105に記憶された近傍単語統計情報を
読み出すと共に、その近傍単語統計情報に基づいて、入
力された未知語とシソーラス102のノード(概念を表
す単語)との類似度を共通単語数により計算して出力す
る共通単語数計算部である。
未知語概念推定装置の処理手順を示すフローチャートで
ある。以下、図23および図24を参照しつつ、適宜他
の詳細図面を参照しながら、動作について詳細に説明す
る。
を行う。ステップS10は、近傍単語統計情報抽出ステ
ップである。ステップ10において、近傍単語統計情報
抽出部104は、コーパス101を形態素解析して近傍
単語統計情報を抽出し、近傍単語統計情報記憶部105
に記憶する。ステップS10は前処理であり、ひとつの
コーパスに対して一度だけ処理すればよい。
統計情報抽出部104の詳細な構成を示すブロック図を
示す。また、図26に、そのステップS10における処
理手順を表すフローチャートを示す。ステップS10
は、実施の形態1とほぼ同様な処理であるが、後の処理
で共通単語数により類似度を計算するため、近傍単語統
計情報が不要である。そのため近傍単語統計情報抽出部
104は、図25および図26に示すように、近傍単語
情報計数部104cのない構成とする。形態素解析部1
04aおよび近傍単語情報抽出部104bについては、
図3に示したものと同様である。
語統計情報記憶部105については、実施の形態1と同
様のものを使用する。この場合、頻度情報が不要なの
で、仮に頻度1をすべての単語の組合せに付す。図27
に近傍単語統計情報401aの一例を示す。なお、近傍
単語統計情報記憶部105を使用するかわりに、図27
に示した記憶内容から頻度情報を削除し、メモリ容量を
節約した近傍単語情報記憶部を使用してもよい。
20およびステップS30を実行する。処理の内容につ
いては実施の形態1とまったく同様な処理なので説明を
省略する。
ップである。ステップS401において、共通単語数計
算部401は、近傍単語統計情報記憶部105に記憶さ
れた近傍単語統計情報401aをもとに、入力された未
知語とシソーラス102中のノードとの共通単語数によ
り類似度を計算する。すなわち、近傍単語統計情報40
1aをもとに、未知語の近傍単語とノードの近傍単語と
で共通する単語の数によって未知語とノードとの類似度
を計算する。
車、大きい」であり、ノードの近傍単語が「とても、赤
い、大きい」である場合、近傍単語が共通する(1)か
共通しない(0)かは{1、0、1}であり、未知語の
近傍単語に対するノードの近傍単語の共通単語数は2と
なる。こうして得られた共通単語数によって類似度を計
算する。
の処理が可能となるため、例えば、前述の実施の形態1
における類似度計算処理のように頻度ベクトルの内積や
相互情報量などを計算するのに対して高速に処理でき
る。
50およびステップS60を実行し、未知語概念推定処
理を終了する。処理内容については、実施の形態1とま
ったく同様なので説明を省略する。
概念推定装置によれば、前述の実施の形態における効果
に加え、近傍単語統計情報を抽出する際に近傍単語情報
計数ステップを省き、単語間類似度の計算に、内積や相
互情報量といった計算量の大きな値ではなく、高速なビ
ット演算を利用可能な共通単語数を使用することによ
り、未知語概念推定処理を高速化することができる。
定装置の処理動作を実行させるためのプログラム、デー
タ、記憶情報などをフロッピーディスク、CD−ROM
などのコンピュータ読み取り可能な記録媒体に記憶して
動作させてもよく、同様の効果を得られる。
ラスのノードは概念を表す単語でなる場合について説明
したが、シソーラスは単語間の上位下位関係や同義関係
を単語の概念に基づいて記述したものであればよく、こ
れに限定されるものではない。例えば、シソーラスのノ
ードが抽象的な概念を表す中間概念であっても良く、同
様の効果を得られる。
8について説明する。図28は実施の形態8における未
知語概念推定装置の構成を示すブロック図である。図2
8において、前述の実施の形態と同一または相当部分に
同一符号を付し、説明を省略する。402は、類似概念
探索部109が探索を開始する開始ノードを指定する開
始概念指定部である。
まったく同様なため説明を省略し、本実施の形態におい
て特徴的な部分である開始概念指定部402および開始
概念指定ステップS402について詳しく説明する。
ップS30から類似概念出力ステップS60までを詳細
に説明したフローチャートである。以下、図28および
図29を参照しつつ、適宜他の詳細図面を参照しなが
ら、動作について詳細に説明する。
ず、前述のステップS201の処理に先立って、ステッ
プS402で開始概念を設定する。例えば、対象分野が
限定されたコーパスを使用する場合に、本装置を使用す
る人間が、そのコーパスの特徴を表す上位概念のノード
を探索開始ノードとして指定する。
106が入力未知語Wuを初期化すると共に、類似概念
探索部107は開始概念指定部402によって指定され
た探索開始ノードをルートノードNrに初期化する。こ
うすることにより、関連のないノードを探索する必要が
なくなり、類似概念探索部109の探索空間を小さくす
ることができるため、概念推定処理を高速化することが
できる。
作し、未知語概念推定処理を終了する。処理内容につい
ては、実施の形態1とまったく同様なので説明を省略す
る。
概念推定装置によれば、前述の実施の形態における効果
に加え、対象分野が限定されたコーパスを使用する場合
に、そのコーパスの特徴を表す上位概念のノードを探索
開始ノードとして設定することにより、関連のないノー
ドを探索する必要がなくなり、探索空間を小さくするこ
とができるため、未知語概念推定処理を高速化すること
ができる。
定装置の処理動作を実行させるためのプログラム、デー
タ、記憶情報などをフロッピーディスク、CD−ROM
などのコンピュータ読み取り可能な記録媒体に記憶して
動作させてもよく、同様の効果を得られる。
ラスのノードは概念を表す単語でなる場合について説明
したが、シソーラスは単語間の上位下位関係や同義関係
を単語の概念に基づいて記述したものであればよく、こ
れに限定されるものではない。例えば、シソーラスのノ
ードが抽象的な概念を表す中間概念であっても良く、同
様の効果を得られる。
9について説明する。図30は実施の形態9における未
知語概念推定装置の構成を示すブロック図である。図3
0において、前述の実施の形態と同一または相当部分に
同一符号を付し、説明を省略する。501は、近傍単語
統計情報記憶部105に記憶された近傍単語統計情報を
読み出すと共に、近傍単語統計情報に基づいて、入力未
知語と、類似概念評価部108から出力された類似概念
のノード(概念を表す単語)とが共起関係(コーパス中
で互いに近傍に出現する)にあるかどうかにより同義性
を判定し、判定結果に応じてその類似概念のノードを類
似概念ノード出力部109または同義概念ノード出力部
502に出力する共起判定部である。502は、同義と
判定されたノードを同義概念として出力する同義概念ノ
ード出力部である。
まったく同様なため説明を省略し、本実施の形態におい
て特徴的な部分である共起判定部501および共起判定
ステップS501について詳しく説明する。
ップS30から類似概念出力ステップS60までを詳細
に説明したフローチャートである。図8に示したフロー
チャートとの違いは、類似概念評価ステップS207の
後に、共起判定ステップS501以降の処理が加わって
いることである。
部501が近傍単語統計情報記憶部105に記憶された
近傍単語統計情報を読み出すと共に、近傍単語統計情報
に基づいて、入力未知語とステップ207の結果得られ
た類似概念のノードとが強い共起関係にあるかどうかを
判定する。強い共起関係にあると判定された場合には、
同義語同士は共起しにくいという性質に基づいて、入力
未知語は上記類似概念のノードとは同義性をもたないと
判断され、類義概念ノード出力部109に送信される。
ステップS208で、類似概念ノード出力部109がそ
のノードを類似概念として出力して処理を終了する。
は、入力未知語は上記類似概念のノードと同義性をもつ
と判断され、同義概念ノード出力部502に送信され
る。ステップS502で、同義概念ノード出力部502
がそのノードを同義概念ノードとして出力して処理を終
了する。
概念推定装置によれば、前述の実施の形態における効果
に加え、同義語同士は共起しにくいという性質に基づい
て、近傍単語統計情報を用いて未知語とノード(概念を
表す単語)との共起関係の強さを調べて未知語とノード
との同義性を判定することにより、同義概念と類義概念
とを精度良く区別して未知語の概念を推定することがで
きる。
定装置の処理動作を実行させるためのプログラム、デー
タ、記憶情報などをフロッピーディスク、CD−ROM
などのコンピュータ読み取り可能な記録媒体に記憶して
動作させてもよく、同様の効果を得られる。
ラスのノードは概念を表す単語でなる場合について説明
したが、シソーラスは単語間の上位下位関係や同義関係
を単語の概念に基づいて記述したものであればよく、こ
れに限定されるものではない。例えば、シソーラスのノ
ードが抽象的な概念を表す中間概念であっても良く、同
様の効果を得られる。
態10について説明する。図32は実施の形態10にお
ける未知語概念推定装置の構成を示すブロック図であ
る。図32において、前述の実施の形態と同一または相
当部分に同一符号を付し、説明を省略する。601は、
類似概念評価部108から入力未知語との類似度が強い
ノード(概念)が複数出力された場合に、それらの類似
度が同等かどうかを調べ、同等であるとき、シソーラス
に基づいて入力未知語の概念となる新たな概念の挿入位
置を判定して出力し、それ以外の場合に類似概念を出力
する新語義挿入判定部である。602は、新たに挿入す
べきと判定されたノードを新語義として出力する新語義
ノード出力部である。
まったく同様なため説明を省略し、本実施の形態におい
て特徴的な部分である新語義挿入判定部601および新
語義挿入判定ステップS601について詳しく説明す
る。
ップS30から類似概念出力ステップS60までを詳細
に説明したフローチャートである。図8に示したフロー
チャートとの違いは、類似概念評価ステップS207の
後に、新語義挿入判定ステップS601以降の処理が加
わっていることである。
果から入力未知語との類似度が強いノードが複数出力さ
れた場合に、新語義挿入判定ステップS601では、新
語義挿入判定部601がそれらの類似度が同等かどうか
を調べる。同等であるとき、入力未知語はそれらのノー
ドの概念の中間に位置する新たな概念をもつと判断し、
シソーラス102に基づいてその新たな概念の挿入位置
を判定して新語義ノード出力部602に送信する。
108が出力した複数の概念が共有する上位概念の下位
概念の位置に挿入されると判断する。図34に新概念を
挿入する位置を示す。すなわち、未知語概念Cuは、概
念C1および概念C2と同等に強い類似性をもつとき、
概念C1と概念C2が共有する上位概念C3の直接の下
位概念として概念ノードCuに挿入されると判断され
る。その後、ステップS602で、新語義ノード出力部
603がその新語義ノードを出力して処理を終了する。
強いノードが複数ない場合、または類似度が同等でない
場合には、ステップS208の処理に移り、類似概念評
価部108によって最適と判定されたノードを類似概念
ノード出力部109が類似概念として出力して処理を終
了する。
概念推定装置によれば、前述の実施の形態における効果
に加え、入力未知語とシソーラスの複数のノードの概念
とが同等に強い類似性をもつとき、入力未知語は新たな
概念であると特定できることから、入力未知語とシソー
ラスの複数のノードの概念との類似性の強さを判定する
ことにより、入力未知語が新たな概念をもつものであっ
ても未知語の概念を推定できる。さらに、この推定結果
を用いることにより、シソーラス上の適切な位置に新た
な概念のノードを配置することができる。
定装置の処理動作を実行させるためのプログラム、デー
タ、記憶情報などをフロッピーディスク、CD−ROM
などのコンピュータ読み取り可能な記録媒体に記憶して
動作させてもよく、同様の効果を得られる。
ラスのノードは概念を表す単語でなる場合について説明
したが、シソーラスは単語間の上位下位関係や同義関係
を単語の概念に基づいて記述したものであればよく、こ
れに限定されるものではない。例えば、シソーラスのノ
ードが抽象的な概念を表す中間概念であっても良く、同
様の効果を得られる。
定方法によれば、単語間類似度計算に用いる統計情報と
して近傍単語統計情報を用いることにより、係り受け解
析を必要とせず、自動的な未知語の概念推定処理を実現
できる。また、自動的な処理が可能であることにより、
人手による大量の修正作業が不要となり、多種多様な文
書情報に対する未知語の概念推定に費やす開発コストを
小さくすることができると共に、未知語概念推定処理の
適用範囲を広げることができる。
れば、前述の効果に加え、品詞情報に基づいて近傍単語
統計情報から機能語を除去することにより、単語間類似
度計算の精度が高くなり、未知語の概念推定精度を向上
することができる。
れば、前述の効果に加え、係り受けしやすい品詞間の係
り受けパターンに基づいて、係り受け関係の強さに応じ
て近傍単語統計情報に重み付けをすることにより、単語
間類似度計算の精度が高くなり、未知語の概念推定精度
を向上することができる。
れば、前述の効果に加え、近傍単語統計情報からストッ
プワードを除去することにより、単語間類似度計算の精
度が高くなり、未知語の概念推定精度を向上することが
できる。
れば、前述の効果に加え、近傍単語統計情報から頻出単
語を除去することにより、単語間類似度計算の精度が高
くなり、未知語の概念推定精度を向上することができ
る。
れば、前述の効果に加え、単語間の距離に従って近傍単
語統計情報に重み付けすることにより、単語間類似度計
算の精度が高くなり、未知語の概念推定精度を向上する
ことができる。
れば、前述の効果に加え、単語間類似度の計算に高速な
ビット演算を利用可能な共通単語数を使用することによ
り、未知語概念推定処理を高速化することができる。
れば、前述の効果に加え、対象分野が限定されたコーパ
スを使用する場合に、そのコーパスの特徴を表す上位概
念のノードを探索開始ノードとして設定することによ
り、関連のないノードを探索する必要がなくなり、探索
空間を小さくすることができるため、未知語概念推定処
理を高速化することができる。
れば、前述の効果に加え、同義語同士は共起しにくいと
いう性質に基づいて、近傍単語統計情報を用いて未知語
とシソーラスのノードの概念との共起関係の強さを調べ
て未知語とノードの概念との同義性を判定することによ
り、同義概念と類義概念とを精度良く区別して未知語の
概念を推定することができる。
れば、前述の効果に加え、入力未知語とシソーラスの複
数のノードの概念とが同等に強い類似性をもつとき、入
力未知語は新たな概念であると特定できることから、入
力未知語とシソーラスの複数のノードの概念との類似性
の強さを判定することにより、入力未知語が新たな概念
をもつものであっても未知語の概念を推定できる。さら
に、この推定結果を用いることにより、シソーラス上の
適切な位置に新たな概念のノードを配置することができ
る。
よれば、単語間類似度計算に用いる統計情報として近傍
単語統計情報を用いることにより、係り受け解析を必要
とせず、自動的な未知語の概念推定処理を実現できる。
また、自動的な処理が可能であることにより、人手によ
る大量の修正作業が不要となり、多種多様な文書情報に
対する未知語の概念推定に費やす開発コストを小さくす
ることができると共に、未知語概念推定処理の適用範囲
を広げることができる。
ログラムを記録したコンピュータ読み取り可能な記録媒
体によれば、単語間類似度計算に用いる統計情報として
近傍単語統計情報を用いることにより、係り受け解析を
必要とせず、自動的な未知語の概念推定処理を実現でき
る。また、自動的な処理が可能であることにより、人手
による大量の修正作業が不要となり、多種多様な文書情
報に対する未知語の概念推定に費やす開発コストを小さ
くすることができると共に、未知語概念推定処理の適用
範囲を広げることができる。
推定装置の構成を示すブロック図。
推定装置の処理の流れを示すフローチャート。
計情報抽出部の詳細な構成を示すブロック図。
計情報抽出ステップの詳細な処理の流れを示すフローチ
ャート。
計情報抽出ステップの説明に供する形態素解析結果の一
例を示すデータ。
計情報抽出ステップの説明に供する近傍単語情報の一例
を示すデータ。
計情報抽出ステップの説明に供する近傍単語統計情報の
一例を示すデータ。
索ステップの詳細な処理の流れを示すフローチャート。
索ステップの説明に供するシソーラスの一例を示すデー
タ。
探索ステップの説明に供する近傍単語統計情報の一例を
示すデータ。
統計情報抽出部の詳細な構成を示すブロック図。
統計情報抽出ステップの詳細な処理の流れを示すフロー
チャート。
統計情報抽出ステップの説明に供する形態素解析結果、
近傍単語情報および近傍単語統計情報の一例を示すデー
タ。
統計情報抽出部の詳細な構成を示すブロック図。
統計情報抽出ステップの詳細な処理の流れを示すフロー
チャート。
統計情報抽出ステップの説明に供する形態素解析結果、
近傍単語情報および近傍単語統計情報の一例を示すデー
タ。
統計情報抽出部の詳細な構成を示すブロック図。
統計情報抽出ステップの詳細な処理の流れを示すフロー
チャート。
統計情報抽出部の詳細な構成を示すブロック図。
統計情報抽出ステップの詳細な処理の流れを示すフロー
チャート。
統計情報抽出部の詳細な構成を示すブロック図。
統計情報抽出ステップの詳細な処理の流れを示すフロー
チャート。
念推定装置の構成を示すブロック図。
念推定装置の処理の流れを示すフローチャート。
統計情報抽出部の詳細な構成を示すブロック図。
統計情報抽出ステップの詳細な処理の流れを示すフロー
チャート。
統計情報の一例を示すデータ。
念推定装置の構成を示すブロック図。
探索ステップの詳細な処理の流れを示すフローチャー
ト。
念推定装置の構成を示すブロック図。
探索ステップの詳細な処理の流れを示すフローチャー
ト。
概念推定装置の構成を示すブロック図。
念探索ステップの詳細な処理の流れを示すフローチャー
ト。
挿入の説明に供する略線図。
すブロック図。
れを示すフローチャート。
処理の詳細な処理の流れを示すフローチャート。
係データ統計情報の一例を示すデータ。
点情報の一例を示すデータ。
シソーラス 3、103 未知語入力部 4 関係デー
タ統計情報抽出部 5 関係データ統計情報記憶部 6、106
単語間類似度計算部 7 推定エリア抽出部 8 視点抽出
部 9 視点情報記憶部 10 エリア
評価部 11 推定エリア出力部 104 近傍
単語統計情報抽出部 104a 形態素解析部 104b 近
傍単語情報抽出部 104c 近傍単語情報計数部 105 近傍
単語統計情報記憶部 107 類似概念探索部 108 類似
概念評価部 109 類似概念ノード出力部 301 機能
語除去部 302 係り受け重み付け処理部 312 係り
受けパターン記憶部 303 ストップワード除去部 313 スト
ップワード辞書 304 頻出単語除去部 305 単語
間距離重み付け処理部 401 共通単語数計算部 402 開始
概念指定部 501 共起判定部 502 同義
概念ノード出力部 601 新語義挿入判定部 602 新語義
ノード出力部
Claims (12)
- 【請求項1】 大量の電子化文書情報からなるコーパス
に含まれる単語のうち、単語間の上位下位関係や同義関
係等を単語の概念に基づいて記述した既存のシソーラス
に含まれない単語、即ち、未知語の概念を推定する未知
語概念推定方法において、上記コーパスから各単語の前
後に現れる近傍単語に応じて近傍単語統計情報を抽出す
る近傍単語統計情報抽出ステップと、上記近傍単語統計
情報を記憶する近傍単語統計情報記憶ステップと、上記
記憶した近傍単語統計情報を読み出すと共に当該近傍単
語統計情報に基づいて上記未知語と上記シソーラスの概
念との類似度を計算する単語間類似度計算ステップと、
上記単語間類似度計算ステップで計算された上記類似度
に基づいて上記シソーラスの単語間の関係を示すリンク
情報をたどりながら上記未知語と類似する概念を探索し
て類似概念の候補を出力する類似概念探索ステップと、
上記類似概念の候補を上記未知語との上記類似度に基づ
いて評価し最適な類似概念を選択して出力する類似概念
評価ステップとを有し、上記単語間類似度計算ステップ
と上記類似概念探索ステップとを再帰的に実行して上記
未知語の概念を推定することを特徴とする未知語概念推
定方法。 - 【請求項2】 上記近傍単語統計情報抽出ステップにお
いて、品詞情報に基づいて上記近傍単語統計情報から機
能語を除去する機能語除去ステップを有することを特徴
とする請求項1に記載の未知語概念推定方法。 - 【請求項3】上記近傍単語統計情報抽出ステップにおい
て、係り受けしやすい品詞間のパターンに基づいて上記
近傍単語統計情報に重み付けを行う係り受け重み付けス
テップを有することを特徴とする請求項1に記載の未知
語概念推定方法。 - 【請求項4】 上記近傍単語統計情報抽出ステップにお
いて、概念推定に寄与しない所定のストップワードを上
記近傍単語統計情報から除去するストップワード除去ス
テップを有することを特徴とする請求項1に記載の未知
語概念推定方法。 - 【請求項5】 上記近傍単語統計情報抽出ステップにお
いて、上記コーパス中の出現頻度に応じた頻出単語を上
記近傍単語統計情報から除去する頻出単語除去ステップ
を有することを特徴とする請求項1に記載の未知語概念
推定方法。 - 【請求項6】 上記近傍単語統計情報抽出ステップにお
いて、単語間の距離に従って上記近傍単語統計情報に重
み付けを行う単語間距離重み付けステップを有すること
を特徴とする請求項1に記載の未知語概念推定方法。 - 【請求項7】 上記単語間類似度計算ステップにおいて
類似度を計算する際に、近傍単語の共通単語数に基づい
て計算することを特徴とする請求項1に記載の未知語概
念推定方法。 - 【請求項8】 上記類似概念探索ステップに先立って、
類似概念探索を開始する上記シソーラスの概念をあらか
じめ指定する開始概念指定ステップを有することを特徴
とする請求項1に記載の未知語概念推定方法。 - 【請求項9】 上記近傍単語統計情報に基づいて上記未
知語と当該未知語の上記シソーラス上の類似概念との共
起関係の強さにより同義性を判定する共起判定ステップ
を有し、上記判定結果に基づいて類似概念と同義概念と
を区別して上記未知語の概念を推定することを特徴とす
る上記請求項1に記載の未知語概念推定方法。 - 【請求項10】 上記類似概念評価ステップにおいて上
記未知語との類似度が同じくらい強い概念が複数ある場
合に、上記シソーラスに基づいて上記未知語の概念とな
る新たな概念の挿入位置を判定する新語義挿入判定ステ
ップを有することを特徴とする請求項1に記載の未知語
概念推定方法。 - 【請求項11】 大量の電子化文書情報からなるコーパ
スに含まれる単語のうち、単語間の上位下位関係や同義
関係等を単語の概念に基づいて記述した既存のシソーラ
スに含まれない単語、即ち、未知語の概念を推定する未
知語概念推定装置において、上記コーパスから各単語の
前後に現れる近傍単語に応じて近傍単語統計情報を抽出
する近傍単語統計情報抽出手段と、上記近傍単語統計情
報を記憶する近傍単語統計情報記憶手段と、上記記憶し
た近傍単語統計情報を読み出すと共に当該近傍単語統計
情報に基づいて上記未知語と上記シソーラスの概念との
類似度を計算する単語間類似度計算手段と、上記単語間
類似度計算手段で計算された上記類似度に基づいて上記
シソーラスの単語間の関係を示すリンク情報をたどりな
がら上記未知語と類似する概念を探索して類似概念の候
補を出力する類似概念探索手段と、上記類似概念の候補
を上記未知語との上記類似度に基づいて評価し最適な類
似概念を選択して出力する類似概念評価手段とを備え、
上記単語間類似度計算手段と上記類似概念探索手段とを
再帰的に動作させて上記未知語の概念を推定することを
特徴とする未知語概念推定装置。 - 【請求項12】 大量の電子化文書情報からなるコーパ
スに含まれる単語のうち、単語間の上位下位関係や同義
関係等を単語の概念に基づいて記述した既存のシソーラ
スに含まれない単語、即ち、未知語の概念を推定する未
知語概念推定処理プログラムを記録したコンピュータ読
み取り可能な記録媒体において、上記コーパスから各単
語の前後に現れる近傍単語に応じて近傍単語統計情報を
抽出する近傍単語統計情報抽出手順と、上記近傍単語統
計情報を記憶する近傍単語統計情報記憶手順と、上記記
憶した近傍単語統計情報を読み出すと共に当該近傍単語
統計情報に基づいて上記未知語と上記シソーラスの概念
との類似度を計算する単語間類似度計算手順と、上記単
語間類似度計算手段で計算された上記類似度に基づいて
上記シソーラスの単語間の関係を示すリンク情報をたど
りながら上記未知語と類似する概念を探索して類似概念
の候補を出力する類似概念探索手順と、上記類似概念の
候補を上記未知語との上記類似度に基づいて評価し最適
な類似概念を選択して出力する類似概念評価手順とを有
し、上記単語間類似度計算手順と上記類似概念探索手順
とを再帰的に実行して上記未知語の概念を推定すること
を特徴とする未知語概念推定処理プログラムを記録した
コンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP01253098A JP3663878B2 (ja) | 1998-01-26 | 1998-01-26 | 未知語概念推定装置及び未知語概念推定処理プログラムを記録したコンピュータ読みとり可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP01253098A JP3663878B2 (ja) | 1998-01-26 | 1998-01-26 | 未知語概念推定装置及び未知語概念推定処理プログラムを記録したコンピュータ読みとり可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11212975A true JPH11212975A (ja) | 1999-08-06 |
JP3663878B2 JP3663878B2 (ja) | 2005-06-22 |
Family
ID=11807897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP01253098A Expired - Fee Related JP3663878B2 (ja) | 1998-01-26 | 1998-01-26 | 未知語概念推定装置及び未知語概念推定処理プログラムを記録したコンピュータ読みとり可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3663878B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008084687A1 (ja) * | 2007-01-12 | 2008-07-17 | Nec Corporation | プロトコル不一致検出システム、プロトコル不一致検出方法およびプロトコル不一致検出プログラム |
WO2008084686A1 (ja) * | 2007-01-12 | 2008-07-17 | Nec Corporation | プロトコル翻訳システム、プロトコル翻訳方法およびプロトコル翻訳プログラム |
JP2010282517A (ja) * | 2009-06-05 | 2010-12-16 | Nippon Telegr & Teleph Corp <Ntt> | 言語資源情報生成装置、方法、プログラム、および記録媒体 |
WO2011013229A1 (ja) * | 2009-07-30 | 2011-02-03 | 株式会社東芝 | 行動推薦装置 |
JP2014179114A (ja) * | 2008-08-29 | 2014-09-25 | Primal Fusion Inc | 既存の領域定義を活用した意味概念定義および意味概念関係の統合のためのシステムおよび方法 |
-
1998
- 1998-01-26 JP JP01253098A patent/JP3663878B2/ja not_active Expired - Fee Related
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008084687A1 (ja) * | 2007-01-12 | 2008-07-17 | Nec Corporation | プロトコル不一致検出システム、プロトコル不一致検出方法およびプロトコル不一致検出プログラム |
WO2008084686A1 (ja) * | 2007-01-12 | 2008-07-17 | Nec Corporation | プロトコル翻訳システム、プロトコル翻訳方法およびプロトコル翻訳プログラム |
JP5246415B2 (ja) * | 2007-01-12 | 2013-07-24 | 日本電気株式会社 | プロトコル翻訳システム、プロトコル翻訳方法およびプロトコル翻訳プログラム |
JP2014179114A (ja) * | 2008-08-29 | 2014-09-25 | Primal Fusion Inc | 既存の領域定義を活用した意味概念定義および意味概念関係の統合のためのシステムおよび方法 |
JP2016131048A (ja) * | 2008-08-29 | 2016-07-21 | プライマル フュージョン インコーポレイテッド | 既存の領域定義を活用した意味概念定義および意味概念関係の統合のためのシステムおよび方法 |
US9595004B2 (en) | 2008-08-29 | 2017-03-14 | Primal Fusion Inc. | Systems and methods for semantic concept definition and semantic concept relationship synthesis utilizing existing domain definitions |
US10803107B2 (en) | 2008-08-29 | 2020-10-13 | Primal Fusion Inc. | Systems and methods for semantic concept definition and semantic concept relationship synthesis utilizing existing domain definitions |
JP2010282517A (ja) * | 2009-06-05 | 2010-12-16 | Nippon Telegr & Teleph Corp <Ntt> | 言語資源情報生成装置、方法、プログラム、および記録媒体 |
WO2011013229A1 (ja) * | 2009-07-30 | 2011-02-03 | 株式会社東芝 | 行動推薦装置 |
Also Published As
Publication number | Publication date |
---|---|
JP3663878B2 (ja) | 2005-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chang et al. | An unsupervised iterative method for Chinese new lexicon extraction | |
Curran et al. | Scaling context space | |
CN108595433A (zh) | 一种新词发现方法及装置 | |
CN102214189B (zh) | 基于数据挖掘获取词用法知识的系统及方法 | |
CN110008474B (zh) | 一种关键短语确定方法、装置、设备及存储介质 | |
Ismailov et al. | A comparative study of stemming algorithms for use with the Uzbek language | |
Ye et al. | Unknown Chinese word extraction based on variety of overlapping strings | |
JP2011118689A (ja) | 検索方法及びシステム | |
CN110853625A (zh) | 语音识别模型分词训练方法、系统、移动终端及存储介质 | |
CN112650836B (zh) | 基于句法结构元素语义的文本分析方法、装置及计算终端 | |
JP3361563B2 (ja) | 形態素解析装置及びキーワード抽出装置 | |
Giri | MTStemmer: A multilevel stemmer for effective word pre-processing in Marathi | |
JP4065346B2 (ja) | 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH10207910A (ja) | 関連語辞書作成装置 | |
JPH11212975A (ja) | 未知語概念推定方法、未知語概念推定装置及び未知語概念推定処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
KR100559472B1 (ko) | 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법 | |
KR100617319B1 (ko) | 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법 | |
JP5145288B2 (ja) | 類義語辞書構築装置及び方法、コンピュータプログラム | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
Muhammad et al. | EUTS: extractive Urdu text summarizer | |
Ahmed et al. | Gold dataset for the evaluation of bangla stemmer | |
JP2005202924A (ja) | 対訳判断装置、方法及びプログラム | |
CN114444491A (zh) | 新词识别方法和装置 | |
JP4015661B2 (ja) | 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体 | |
Chang et al. | Topic segmentation for short texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040203 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040331 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20040720 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050308 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050321 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080408 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090408 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |