JP2010129025A - 単語関係判定装置及びプログラム - Google Patents

単語関係判定装置及びプログラム Download PDF

Info

Publication number
JP2010129025A
JP2010129025A JP2008305972A JP2008305972A JP2010129025A JP 2010129025 A JP2010129025 A JP 2010129025A JP 2008305972 A JP2008305972 A JP 2008305972A JP 2008305972 A JP2008305972 A JP 2008305972A JP 2010129025 A JP2010129025 A JP 2010129025A
Authority
JP
Japan
Prior art keywords
verb
noun
relationship
variation
noun group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008305972A
Other languages
English (en)
Other versions
JP5277914B2 (ja
Inventor
Hiroshi Masuichi
博 増市
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2008305972A priority Critical patent/JP5277914B2/ja
Publication of JP2010129025A publication Critical patent/JP2010129025A/ja
Application granted granted Critical
Publication of JP5277914B2 publication Critical patent/JP5277914B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】動詞について上位下位の関係性を精度良く判定する。
【解決手段】単語関係判定装置10は、第1の動詞と第2の動詞を判定対象として設定し、複数の文から第1の動詞に関して所与の条件に合致する1又は複数の名詞を含む第1の名詞群を取得し、複数の文から第2の動詞に関して所与の条件に合致する1又は複数の名詞を含む第2の名詞群を取得し、複数の名詞を各名詞が有する概念の上位下位の関係に基づいて木構造に表した名詞シソーラスにおける第1の名詞群のばらつきと第2の名詞群のばらつきとの比較に基づいて、第1の動詞と第2の動詞とが上位下位の関係にあるか否かを判定する。
【選択図】図1

Description

本発明は、単語関係判定装置及びプログラムに関する。
単語間の概念(意味)に基づく階層関係を記述したシソーラスは、テキスト検索の際の入力キーワードの補充、拡張や、文書分類を行う際のキーワードの正規化等で重要な役割を果たしており貴重な言語情報である。
シソーラスは人的に作成されることが一般的であるが、シソーラスの構築には高い一貫性、整合性が要求され人的作業では処理負荷が大きく、シソーラスを機械的に構築するための技術が必要とされてきている。
そこで、下記の特許文献1に記載されているように、2つの単語のそれぞれの近傍に出現する単語の頻度に基づいて両単語の距離を算出し、算出した距離に基づくクラスタリングを行って、シソーラスを機械的に構築する技術を提案しているものがある。
特開2000―231572号公報
動詞についてのシソーラスを構築する場合には、上位下位の関係にある動詞の近傍に出現する単語は極めて近い頻度分布を持つことが多く、動詞についての上位下位の判定を動詞の近傍に出現する単語の頻度分布に基づいて行うと精度良く判定できないことがある。
本発明の目的の一つは、動詞について上位下位の関係性を精度良く判定できる単語関係判定装置及びプログラムを提供することにある。
上記目的を達成するために、請求項1に記載の単語関係判定装置の発明は、第1の動詞と第2の動詞を判定対象として設定する設定手段と、複数の文から前記第1の動詞に関して所与の条件に合致する1又は複数の名詞を含む第1の名詞群を取得する第1名詞群取得手段と、前記複数の文から前記第2の動詞に関して前記所与の条件に合致する1又は複数の名詞を含む第2の名詞群を取得する第2名詞群取得手段と、複数の名詞を当該各名詞が有する概念の上位下位の関係に基づいて木構造に表した名詞シソーラスにおける前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとの比較に基づいて、前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する判定手段と、を含むことを特徴とする。
また、請求項2に記載の発明は、請求項1に記載の単語関係判定装置において、前記判定手段は、前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとに予め定められた以上の差がある場合に、ばらつきの大きい方に関する動詞を上位、他方に関する動詞を下位の概念にあると判定することを特徴とする。
また、請求項3に記載の発明は、請求項2に記載の単語関係判定装置において、前記所与の条件は、複数の条件を含み、前記判定手段は、前記複数の条件のいずれかに基づいて取得された第1の名詞群のばらつきと第2の名詞群のばらつきとに予め定められた以上の差がある場合に、ばらつきの大きい方に関する動詞を上位、他方に関する動詞を下位の関係にあると判定することを特徴とする。
また、請求項4に記載の発明は、請求項1乃至3のいずれかに記載の単語関係判定装置において、前記所与の条件は、前記設定手段により対象に設定された動詞と係り受けの関係にある名詞という条件、前記対象に設定された動詞の近傍に出現する名詞という条件、前記対象に設定された動詞に因果関係を表す表現を介して係る文節に含まれる名詞という条件のうち少なくとも1つを含むことを特徴とする。
また、請求項5に記載の発明は、請求項1乃至4のいずれかに記載の単語関係判定装置において、前記名詞シソーラスにおける名詞群のばらつきは、当該名詞群に含まれる名詞の各組の前記名詞シソーラスにおけるホップ数に基づいて算出されることを特徴とする。
また、請求項6に記載の発明は、請求項1乃至5のいずれかに単語関係判定装置において、前記第1及び第2の名詞群に基づいて前記第1の動詞と前記第2の動詞の類否を判定する類否判定手段をさらに含み、前記類否判定手段により類似と判定された場合に、前記判定手段により前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定することを特徴とする。
また、請求項7に記載の発明は、請求項6に記載の単語関係判定装置において、前記類否判定手段は、前記第1及び第2の名詞群に含まれる各名詞を前記名詞シソーラスにおける予め定められた基準の概念に変換するとともに、当該変換した第1及び第2の名詞群に含まれる基準の概念の頻度に基づいて、前記第1の動詞と第2の動詞の類否を判定することを特徴とする。
また、請求項8に記載の発明は、請求項6又は7に記載の単語関係判定装置において、前記類否判定手段により類似と判定され、かつ、前記判定手段により上位下位の関係にないと判定された前記第1の動詞と前記第2の動詞は、同義語の関係にあると判定することを特徴とする。
また、請求項9に記載の単語関係判定装置の発明は、第1の動詞と第2の動詞を判定対象として設定する設定手段と、複数の文から前記第1の動詞に因果関係を表す表現を介して係る文節に含まれる1又は複数の名詞を含む第1の名詞群を取得する第1名詞群取得手段と、前記複数の文から前記第2の動詞に因果関係を表す表現を介して係る文節に含まれる1又は複数の名詞を含む第2の名詞群を取得する第2名詞群取得手段と、前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとの比較に基づいて、前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する判定手段と、を含むことを特徴とする。
また、請求項10に記載のプログラムの発明は、第1の動詞と第2の動詞を判定対象として設定する設定ステップと、複数の文から前記第1の動詞に関して所与の条件に合致する1又は複数の名詞を含む第1の名詞群を取得する第1名詞群取得ステップと、前記複数の文から前記第2の動詞に関して前記所与の条件に合致する1又は複数の名詞を含む第2の名詞群を取得する第2名詞群取得ステップと、複数の名詞を当該各名詞が有する概念の上位下位の関係に基づいて木構造に表した名詞シソーラスにおける前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとの比較に基づいて、前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する判定ステップと、をコンピュータに実行させることを特徴とする。
また、請求項11に記載のプログラムの発明は、第1の動詞と第2の動詞を判定対象として設定する設定ステップと、複数の文から前記第1の動詞に因果関係を表す表現を介して係る文節に含まれる1又は複数の名詞を含む第1の名詞群を取得する第1名詞群取得ステップと、前記複数の文から前記第2の動詞に因果関係を表す表現を介して係る文節に含まれる1又は複数の名詞を含む第2の名詞群を取得する第2名詞群取得ステップと、前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとの比較に基づいて、前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する判定ステップと、をコンピュータに実行させることを特徴とする。
請求項1及び10に記載の発明によれば、第1の動詞と第2の動詞のそれぞれについて取得された名詞群の概念上での分布を用いて、各動詞の上位下位の判定を精度良く行える。
請求項2に記載の発明によれば、概念上での分布が広い方を上位、他方を下位として判定できる。
請求項3に記載の発明によれば、1つの条件では上位下位の判定ができない場合でも、他の条件により動詞間の上位下位の関係が判定できる。
請求項4に記載の発明によれば、動詞と関連性の高い名詞群を取得できる。
請求項5に記載の発明によれば、名詞間のばらつきを名詞シソーラスにおける客観的な距離に換算して算出できる。
請求項6に記載の発明によれば、類似かつ抽出された名詞群の概念上の分布が異なる動詞を上位下位の関係にあると判定できる。
請求項7に記載の発明によれば、動詞に関して得られた名詞群についての頻度分析を名詞の概念毎に行うことができる。
請求項8に記載の発明によれば、同義語を判定できる。
請求項9及び11に記載の発明によれば、動詞と因果関係性のある名詞群に基づいて、動詞間の上位下位の判定が行える。
以下、本発明を実施するための好適な実施の形態(以下、実施形態という)を、図面に従って説明する。
図1には、本実施形態に係る単語関係判定装置10の機能ブロック図を示した。図1に示されるように、単語関係判定装置10は、テキストデータ格納部12、名詞シソーラス格納部14、判定対象動詞設定部16、係り受け名詞抽出部18、類否判定部20、第1判定部22、因果関係名詞抽出部24、及び第2判定部26を含む。上記の各部の機能は、CPU等の制御手段、メモリ等の記憶手段、外部デバイスとデータを送受信する入出力手段等を備えたコンピュータが、コンピュータ読み取り可能な情報記憶媒体に格納されたプログラムを読み込み実行することで実現されるものとしてよい。なお、プログラムは情報記憶媒体によってコンピュータたる単語関係判定装置10に供給されることとしてもよいし、インターネット等のデータ通信ネットワークを介して供給されることとしてもよい。
テキストデータ格納部12は、磁気ディスク等の記憶装置を含み構成され、1又は複数の文を含む文書情報を1又は複数格納している。文書情報は、文字列データを含むデータファイルとして構成されることとしてよい。
名詞シソーラス格納部14は、名詞を対象として構築された名詞シソーラスを格納するものであり、名詞シソーラスとは、名詞を上位下位の関係により階層化した木構造により表される情報である。図2には名詞シソーラスの一例を示す。
図2に示されるように、名詞シソーラスは、ルートから順次、上位概念、その上位概念に対する下位概念という関係により接続された木構造であり、本実施形態においては、名詞シソーラスの一部の階層を基準概念として選択している。この基準概念は概念毎に個別に選択されてもよいし、ルートからの階層の深さにより選択されてもよい。基準概念を用いた処理の詳細については後述する。
判定対象動詞設定部16は、互いの関係性を判定する対象となる1組の動詞を設定する。以下、判定対象動詞設定部16により設定される組の対を動詞A及び動詞Bとする。判定対象動詞設定部16は、利用者からの入力を受け付けて判定対象の動詞を設定してもよいし、予め用意された動詞のリストの中から動詞の組を選択し、当該選択した動詞を判定対象に設定することとしてもよい。
係り受け名詞抽出部18は、判定対象動詞設定部16により設定された組の動詞のそれぞれに対して係り受けの関係にある名詞を抽出する。係り受け名詞抽出部18は、判定対象動詞設定部16により設定された動詞(動詞A、動詞B)を含む文を、テキストデータ格納部12に格納されたテキストデータから検索し、検索された文に対して形態素解析、構文解析を行った後に、上記設定された動詞に係る文節を特定する。そして、係り受け名詞抽出部18は、当該特定した文節のうち、文節の終わりが「が」、「を」、「で」、「に」のいずれかの格助詞である場合に、その格助詞の前の名詞を抽出する。係り受け名詞抽出部18は、上記抽出した名詞を格助詞の語毎に、当該名詞の出現頻度とともに記録する。係り受け名詞抽出部18は、動詞Aと動詞Bのそれぞれについて上記処理を行う。
類否判定部20は、動詞Aと動詞Bとが類似であるか否かを判定する。ここでの類似とは、動詞Aと動詞Bとが類義語の関係にあることとする。本実施形態においては、類否判定部20は、判定対象の動詞(動詞A又は動詞B)について係り受け名詞抽出部18により抽出された名詞群に含まれる全ての名詞を、名詞シソーラス格納部14に格納された名詞シソーラスに基づいて、上位にある基準概念の語に変換する。例えば、図2に示された名詞シソーラスによれば、「ブルドック」という語は、上位に基準概念の「動物」があるので、「動物」に変換される。類否判定部20は、動詞Aと動詞Bのそれぞれについて得られた名詞群について上記基準概念のへの変換処理を行う。
類否判定部20は、上記処理により基準概念の語に変換された名詞群(基準概念名詞群とする)に基づいて、動詞A、動詞Bのそれぞれについて、特徴ベクトルを生成する。以下、本実施形態における特徴ベクトルの生成処理について説明する。
まず、動詞Aにつき格助詞「が」、「を」、「で」、「に」についてそれぞれ抽出された基準概念名詞群をそれぞれGA1、GA2、GA3、GA4とする。ここで、GA1={wi|i=1〜n}、nはGA1に含まれる異なる単語の数とし、wiの出現頻度がNA1wiとすれば、出現比率RA1wiは、GA1の要素数をNA1とした場合に、RA1wi=NA1wi/NA1として算出される。そして、GA1について、特徴ベクトルGA1=(RA1w1,RA1w2,・・・,RA1wn)となる。また、GA2,GA3,GA4についても同様の処理に基づいて特徴ベクトルを生成する。そして、特徴ベクトルGA1,GA2,GA3,GA4を連結して動詞Aの特徴ベクトルRAをRA=(RA1w1,RA1w2,・・・,RA1wn,RA2w1,RA2w2,・・・,RA2wn,RA3w1,RA3w2,・・・,RA3wn,RA4w1,RA4w2,・・・,RA4wn)として生成する。動詞Bについても同様にして特徴ベクトルRBを生成する。RAとRBはそれぞれベクトルの長さを1に正規化し、以下特徴ベクトルRA,RBとは正規化後のベクトルであるとする。
類否判定部20は、上記生成した動詞Aと動詞Bのそれぞれの特徴ベクトルRAと特徴ベクトルRBとの内積を算出し、算出された内積の大きさに基づいて動詞Aと動詞Bとの類否を判定する。具体的には、類否判定部20は、特徴ベクトルRAと特徴ベクトルRBの内積RA・RBが閾値T1(0<T1<1)よりも大きい場合には、動詞Aと動詞Bとが類似であると判定することとする。閾値T1は予め定めておくこととしてよい。
第1判定部22は、判定対象に設定された動詞Aと動詞Bとが上位下位概念の関係にあるか否かを判定する。第1判定部22は、類否判定部20により判定対象とする動詞Aと動詞Bが類似と判定された場合に、上記の上位下位概念の判定をすることとする。そして、第1判定部22は、まず動詞A及び動詞Bについて係り受け名詞抽出部18により抽出されたそれぞれの名詞群の名詞シソーラス格納部14に格納された名詞シソーラス上での分布距離を算出し、当該算出された分布距離に基づいて動詞A及び動詞Bの上位下位の関係性を判定する。以下、本実施形態における第1判定部22の具体的な処理を説明する。
まず、第1判定部22は、格助詞の「が」について抽出された集合GA1から1組の名詞を抽出し、その抽出された組の名詞の名詞シソーラス上での距離を取得する。本実施形態における名詞シソーラス上での距離とは、名詞シソーラス上で一方の名詞から他方の名詞に到達するまでのホップ数であるとする。ホップ数は、例えば1の名詞が他の名詞と直接のリンクで繋がっているとすると1、他の名詞を介して接続されていると2とする。具体的に図2に示した名詞シソーラスにおいては、「ブルドック」と「犬」はホップ数1、「ブルドック」と「猫」はホップ数が3となる。第1判定部22は、GA1に含まれる名詞の全ての組についてホップ数を取得し、そのホップ数の平均値をGA1に関する名詞シソーラス上での距離MA1とする。第1判定部22は、同様に他の集合GA2〜GA4についても名詞シソーラス上での距離MA2〜MA4を算出し、動詞Aの名詞シソーラス上での分布を示すベクトルMA=(MA1,MA2,MA3,MA4)を得る。第1判定部22は、動詞Bについても同様の処理を行い動詞Bの名詞シソーラス上での分布を示すベクトルMBを得る。
次に、第1判定部22は、ベクトルMAとベクトルMBとのベクトル間距離‖MA−MB‖を算出し、この値が予め定められた閾値T2(T2>0)よりも大きい場合には、動詞Aと動詞Bとには上位下位の関係性があると判定し、そうでなかった場合には上位下位の関係性が不明であると判定する。上記基準により上位下位の関係性があると判定された場合には、ベクトルのノルムが大きい方が上位概念、小さい方が下位概念にあると判定する。これは、上位概念の語の方が下位概念の語に比べて広範に用いられ、分布に広がりがあると考えられるためである。
因果関係名詞抽出部24は、第1判定部22により動詞Aと動詞Bとの上位下位の関係性が不明であると判定された場合に、動詞A又は動詞Bを含む文をテキストデータ格納部12から抽出すると共に、当該抽出された文のうち「〜ので」、「〜ために」、「〜という理由で」等の因果関係を表す表現が、動詞A又動詞Bよりも前にある文を検索する。そして、因果関係名詞抽出部24は、上記検索された文において、上記因果関係を表す表現よりも前に出現する文節に含まれる名詞を抽出して名詞群(因果関係名詞群)を得る。因果関係名詞抽出部24は、動詞Aそして動詞Bのそれぞれについて因果関係名詞群を抽出することとし、動詞Aについて抽出された因果関係名詞群の集合をHA、動詞Bについて抽出された因果関係名詞群の集合をHBとする。
第2判定部26は、因果関係名詞抽出部24により各動詞について抽出される因果関係名詞群に基づいて、再度動詞Aと動詞Bとの上位下位の関係性を判定する。以下、第2判定部26により行われる判定の具体的な処理を説明する。
第2判定部26は、動詞Aについて抽出された因果関係名詞群の集合HAの名詞シソーラス上での分布距離を算出する。第2判定部26は、HAに含まれる名詞の全ての組に対して名詞シソーラス上でのホップ数を取得し、当該取得したホップ数の平均値をHAの名詞シソーラス上での分布距離LAとして算出する。第2判定部26は、動詞Bについて抽出された因果関係名詞群の集合HBについても同様にしてHBの名詞シソーラス上での分布距離LBを算出する。そして、第2判定部26は、LAとLBとの差を求め、求められた差が予め定められた閾値T3(T3>0)よりも大きい場合には、動詞Aと動詞Bとに上位下位の関係性があると判定し、そうでなければ動詞Aと動詞Bとが同義語であると判定する。上記基準により上位下位の関係性があると判定された場合には、分布距離が大きい方が上位概念、小さい方が下位概念にあると判定する。
単語関係判定装置10は、以上説明した類否判定部20、第1判定部22、第2判定部26の3つの判定結果に基づいて、判定対象の1組の動詞についての上位下位の関係性を判定する。単語関係判定装置10は、さらに他の動詞の組についても順次同様の判定処理を実行することにより、複数の動詞の上位下位の概念を得て動詞シソーラスが構築される。
次に、図3に示したフローチャートを参照しながら、単語関係判定装置10による動詞の上位下位概念の判定処理の流れを説明する。
図3に示されるように、単語関係判定装置10は、判定の対象とする動詞の組の入力を受け(S101)、格納されたテキストデータから受け付けた動詞の組の各々について係り受けの関係にある名詞群を抽出する(S102)。次に、単語関係判定装置10は、抽出した名詞群の各名詞を名詞シソーラスの基準概念に変換し(S103)、変換した基準概念の語に基づいて各動詞の特徴ベクトルを生成して判定の対象とする動詞の組の類似性を判定する(S104)。
単語関係判定装置10は、動詞が類似すると判定する場合には(S104:Y)、さらに各動詞について抽出された名詞群の名詞シソーラスにおける分布距離を算出する(S105)。単語関係判定装置10は、算出した分布距離が閾値以上か否かを判定し(S106)、閾値以上と判定する場合には(S106:Y)、分布距離の広がりが大きい方を上位、他方を下位と判定する(S107)。また、単語関係判定装置10は、閾値未満と判定する場合には(S106:N)、判定対象の各動詞について因果関係を表す表現により関連する名詞からなる因果関係名詞群を抽出すると共に(S108)、抽出した因果関係名詞群の名詞シソーラスにおける分布距離が閾値以上か否かを判定する(S109)。ここで、閾値以上と判定される場合には(S109:Y)、分布距離の大きい方を上位、他方を下位と判定する(S107)。一方で、閾値未満と判定される場合には(S109:N)、動詞は同義語であると判定する(S110)。なお、S104において、類似でないと判定された場合には(S104:N)、動詞の組は上位下位の関係性にないと判定し(S111)、処理を終了する。
次に、具体例として、(1)「許可する」と「読む」、(2)「許可する」と「認可する」、(3)「読む」と「熟読する」の3例についての単語関係判定装置10による判定例を示す。
図4A乃至Dには、テキストデータから抽出された、各動詞について係り受け関係にある名詞及びその名詞の出現頻度の一例を示した。図4A,図4B,図4C,図4Dはそれぞれ「許可する」、「読む」、「認可する」、「熟読する」について抽出された名詞及び出現頻度を示している。
また、図5A乃至Dには、各動詞について抽出された名詞を基準概念に変換した場合の各基準概念の語の頻度を、格助詞毎に表したテーブルを示す。図5A,図5B,図5C,図5Dはそれぞれ「許可する」、「読む」、「認可する」、「熟読する」についてのテーブルを示している。
まず、(1)「許可する」と「読む」の関係の判定について説明する。図5A、図5Bに示されるように、「許可する」と「読む」とでは、「許可する」につき格助詞「が」に関して得られた基準概念の語句は「地域」、「集団」、「役割」等の出現頻度が高く、格助詞「を」については「操作」、「生産」等の出現頻度が高い。一方で、「読む」につき格助詞「が」に関して得られた基準概念の語句は、「人称」に出現頻度が集中し、また、格助詞「を」については「文具」に出現頻度が集中しており、「許可する」と「読む」とでは基準概念の語句についての頻度分布が大きくなる。従って、「許可する」と「読む」についての基準概念の語句の頻度分布に基づく特徴ベクトルの内積値は小さくなり、類似性無しと判定される。従って、「許可する」と「読む」については上位下位の判定は行われない。
次に、(2)「許可する」と「認可する」の関係の判定について説明する。図5A,図5Cに示されるように、両動詞ともに格助詞「が」に関して得られた基準語句は「地域」、「集団」、「役割」等の出現頻度が高く、また、格助詞「を」に関しては「操作」、「生産」等の出現頻度が高いという共通した傾向が見られる。従って、「許可する」と「認可する」についての基準概念の語句の頻度分布に基づく特徴ベクトルの内積値は大きくなり、類似性有りと判定される。
そこで、第1判定部22は、「許可する」と「認可する」についての図4A,図4Cに示される各名詞についての名詞シソーラスにおける平均距離を算出し、両者の上位下位の関係性を判定する。具体的には、「許可する」と「認可する」とでは、「認可する」が行政等に関して用いられる傾向があるのに対して、「許可する」はより広範に用いられており、両者の名詞シソーラスにおける平均距離は、「許可する」の方が「認可する」よりも大きくなる。従って、「許可する」と「認可する」とには上位下位の関係があり、「許可する」が上位、「認可する」が下位の関係があると判定される。
次に、(3)「読む」と「熟読する」の関係の判定について説明する。図5B、図5Dに示されるように、両者とも格助詞については同様の頻度分布を有しており、類否判定部20では両者に類似性があると判定される。そして、第1判定部22では、両者について抽出された名詞群の名詞シソーラスにおける平均距離についても両名詞群には分布に大きな差異がないため、算出される平均距離にも差が出ず、両者の上位下位の関係性については不明と判定される。
そこで、因果関係名詞抽出部24では、「読む」と「熟読する」を含む文のうち「〜ので」、「〜ために」、「〜という理由で」等の因果関係表現を含む文を抽出し、抽出された文のうち因果関係表現よりも前に出現する名詞をさらに抽出する。例えば、「読む」については、「試験のために、参考書を読んだ」、「知識を得るために、本を読んだ」、「暇という理由で本を読んだ」という文が抽出されたとすると、こうして抽出された文から「試験」、「知識」、「暇」という因果関係名詞群が得られる。一方で、「熟読する」については、例えば「試験のために、参考書を熟読した」、「テストのために、教科書を熟読した」、「暗記が必要なので、本を熟読した」という文が抽出されたとすると、こうして抽出された文から「試験」、「テスト」、「暗記」という因果関係名詞群が得られる。第2判定部26は、各動詞についてそれぞれ得られた因果関係名詞群の名詞シソーラスにおける平均距離を算出し、上記の例では「熟読する」という行為の原因は「試験」、「テスト」等の一部の意味範疇の名詞に集中し、一方の「読む」については行為の原因は多岐に渡っているから、両因果関係名詞群の名詞シソーラスにおける平均距離は、「読む」の方が「熟読する」よりも大きくなる。従って、「読む」と「熟読する」は第2判定部26により「読む」が上位、「熟読する」が下位にあると判定される。
本発明は、上記の実施形態に限定されるものではなく、例えば、類否判定部20により類似と判定された動詞の組に対して、第2判定部26による判定のみを行って上位下位の判定を行うこととしても構わない。また、類否判定部20、第1判定部22では、係り受け名詞抽出部18により抽出された判定対象の動詞と係り受けの関係にある名詞を用いて判定しているが、上記判定に用いる名詞は判定対象の動詞と文中で共起関係にある名詞を用いることとしても構わない。さらに、第1判定部22と第2判定部26においては、それぞれ係り受け名詞抽出部18と因果関係名詞抽出部24により抽出された名詞群について、要素の共通度に基づいて上位下位の判定を行うとともに、両名詞群の包含関係に基づいてどちらが上位かを判定することとしてもよい。その他にも、動詞シソーラス中に存在しない動詞をテキストデータから検索するとともに、当該検索した動詞について動詞シソーラス中の各動詞との判定を行い、上位下位、同義語の判定が行われた場合に、当該検索した動詞を動詞シソーラスに追加することとしてもよい。
本実施形態に係る単語関係判定装置の機能ブロック図である。 名詞シソーラスの一例を示す図である。 動詞の上位下位概念の判定処理のフローチャートである。 「許可する」について係り受け関係にある名詞及びその名詞の出現頻度の一例を示した図である。 「読む」について係り受け関係にある名詞及びその名詞の出現頻度の一例を示した図である。 「認可する」について係り受け関係にある名詞及びその名詞の出現頻度の一例を示した図である。 「熟読する」について係り受け関係にある名詞及びその名詞の出現頻度の一例を示した図である。 「許可する」について各基準概念の語の頻度を、格助詞毎に表したテーブルを示す図である。 「読む」について各基準概念の語の頻度を、格助詞毎に表したテーブルを示す図である。 「認可する」について各基準概念の語の頻度を、格助詞毎に表したテーブルを示す図である。 「熟読する」について各基準概念の語の頻度を、格助詞毎に表したテーブルを示す図である。
符号の説明
10 単語関係判定装置、12 テキストデータ格納部、14 名詞シソーラス格納部、16 判定対象動詞設定部、18 係り受け名詞抽出部、20 類否判定部、22 第1判定部、24 因果関係名詞抽出部、26 第2判定部。

Claims (11)

  1. 第1の動詞と第2の動詞を判定対象として設定する設定手段と、
    複数の文から前記第1の動詞に関して所与の条件に合致する1又は複数の名詞を含む第1の名詞群を取得する第1名詞群取得手段と、
    前記複数の文から前記第2の動詞に関して前記所与の条件に合致する1又は複数の名詞を含む第2の名詞群を取得する第2名詞群取得手段と、
    複数の名詞を当該各名詞が有する概念の上位下位の関係に基づいて木構造に表した名詞シソーラスにおける前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとの比較に基づいて、前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する判定手段と、を含む
    ことを特徴とする単語関係判定装置。
  2. 前記判定手段は、前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとに予め定められた以上の差がある場合に、ばらつきの大きい方に関する動詞を上位、他方に関する動詞を下位の概念にあると判定する
    ことを特徴とする請求項1に記載の単語関係判定装置。
  3. 前記所与の条件は、複数の条件を含み、
    前記判定手段は、前記複数の条件のいずれかに基づいて取得された第1の名詞群のばらつきと第2の名詞群のばらつきとに予め定められた以上の差がある場合に、ばらつきの大きい方に関する動詞を上位、他方に関する動詞を下位の関係にあると判定する
    ことを特徴とする請求項2に記載の単語関係判定装置。
  4. 前記所与の条件は、前記設定手段により対象に設定された動詞と係り受けの関係にある名詞という条件、前記対象に設定された動詞の近傍に出現する名詞という条件、前記対象に設定された動詞に因果関係を表す表現を介して係る文節に含まれる名詞という条件のうち少なくとも1つを含む
    ことを特徴とする請求項1乃至3のいずれかに記載の単語関係判定装置。
  5. 前記名詞シソーラスにおける名詞群のばらつきは、当該名詞群に含まれる名詞の各組の前記名詞シソーラスにおけるホップ数に基づいて算出される
    ことを特徴とする請求項1乃至4のいずれかに記載の単語関係判定装置。
  6. 前記第1及び第2の名詞群に基づいて前記第1の動詞と前記第2の動詞の類否を判定する類否判定手段をさらに含み、
    前記類否判定手段により類似と判定された場合に、前記判定手段により前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する
    ことを特徴とする請求項1乃至5のいずれかに単語関係判定装置。
  7. 前記類否判定手段は、前記第1及び第2の名詞群に含まれる各名詞を前記名詞シソーラスにおける予め定められた基準の概念に変換するとともに、当該変換した第1及び第2の名詞群に含まれる基準の概念の頻度に基づいて、前記第1の動詞と第2の動詞の類否を判定する
    ことを特徴とする請求項6に記載の単語関係判定装置。
  8. 前記類否判定手段により類似と判定され、かつ、前記判定手段により上位下位の関係にないと判定された前記第1の動詞と前記第2の動詞は、同義語の関係にあると判定する
    ことを特徴とする請求項6又は7に記載の単語関係判定装置。
  9. 第1の動詞と第2の動詞を判定対象として設定する設定手段と、
    複数の文から前記第1の動詞に因果関係を表す表現を介して係る文節に含まれる1又は複数の名詞を含む第1の名詞群を取得する第1名詞群取得手段と、
    前記複数の文から前記第2の動詞に因果関係を表す表現を介して係る文節に含まれる1又は複数の名詞を含む第2の名詞群を取得する第2名詞群取得手段と、
    前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとの比較に基づいて、前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する判定手段と、を含む
    ことを特徴とする単語関係判定装置。
  10. 第1の動詞と第2の動詞を判定対象として設定する設定ステップと、
    複数の文から前記第1の動詞に関して所与の条件に合致する1又は複数の名詞を含む第1の名詞群を取得する第1名詞群取得ステップと、
    前記複数の文から前記第2の動詞に関して前記所与の条件に合致する1又は複数の名詞を含む第2の名詞群を取得する第2名詞群取得ステップと、
    複数の名詞を当該各名詞が有する概念の上位下位の関係に基づいて木構造に表した名詞シソーラスにおける前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとの比較に基づいて、前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する判定ステップと、をコンピュータに実行させることを特徴とするプログラム。
  11. 第1の動詞と第2の動詞を判定対象として設定する設定ステップと、
    複数の文から前記第1の動詞に因果関係を表す表現を介して係る文節に含まれる1又は複数の名詞を含む第1の名詞群を取得する第1名詞群取得ステップと、
    前記複数の文から前記第2の動詞に因果関係を表す表現を介して係る文節に含まれる1又は複数の名詞を含む第2の名詞群を取得する第2名詞群取得ステップと、
    前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとの比較に基づいて、前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する判定ステップと、をコンピュータに実行させることを特徴とするプログラム。
JP2008305972A 2008-12-01 2008-12-01 単語関係判定装置及びプログラム Expired - Fee Related JP5277914B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008305972A JP5277914B2 (ja) 2008-12-01 2008-12-01 単語関係判定装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008305972A JP5277914B2 (ja) 2008-12-01 2008-12-01 単語関係判定装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2010129025A true JP2010129025A (ja) 2010-06-10
JP5277914B2 JP5277914B2 (ja) 2013-08-28

Family

ID=42329339

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008305972A Expired - Fee Related JP5277914B2 (ja) 2008-12-01 2008-12-01 単語関係判定装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5277914B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0736897A (ja) * 1993-07-22 1995-02-07 Sharp Corp 文書分類装置
JPH11296552A (ja) * 1998-04-13 1999-10-29 Ricoh Co Ltd 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000129025A (ja) * 1998-10-22 2000-05-09 Nobumasa Nakaso 接着剤内蔵発泡シートとその製造方法
JP2001331515A (ja) * 2000-05-23 2001-11-30 Sigmatics Inc 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0736897A (ja) * 1993-07-22 1995-02-07 Sharp Corp 文書分類装置
JPH11296552A (ja) * 1998-04-13 1999-10-29 Ricoh Co Ltd 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000129025A (ja) * 1998-10-22 2000-05-09 Nobumasa Nakaso 接着剤内蔵発泡シートとその製造方法
JP2001331515A (ja) * 2000-05-23 2001-11-30 Sigmatics Inc 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG199800553003; 浦本 直彦: 'コーパスに基づくシソーラス-統計情報を用いた既存のシソーラスへの未知語の配置' 情報処理学会論文誌 第37巻 第12号 第37巻 第12号, 19961215, 2182〜2189, 社団法人情報処理学会 *
CSNJ199800002001; 伊藤 山彦,相川 勇之,鈴木 克志: 'コーパスからの同義語の獲得(2) -スパース性への対処-' 第56回(平成10年前期)全国大会講演論文集(2) , 19980319, p.2-241-p.2-242, 社団法人情報処理学会 *
JPN6013000596; 浦本 直彦: 'コーパスに基づくシソーラス-統計情報を用いた既存のシソーラスへの未知語の配置' 情報処理学会論文誌 第37巻 第12号 第37巻 第12号, 19961215, 2182〜2189, 社団法人情報処理学会 *
JPN6013000598; 伊藤 山彦,相川 勇之,鈴木 克志: 'コーパスからの同義語の獲得(2) -スパース性への対処-' 第56回(平成10年前期)全国大会講演論文集(2) , 19980319, p.2-241-p.2-242, 社団法人情報処理学会 *

Also Published As

Publication number Publication date
JP5277914B2 (ja) 2013-08-28

Similar Documents

Publication Publication Date Title
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
CN104252533B (zh) 搜索方法和搜索装置
US10496756B2 (en) Sentence creation system
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
US20150205860A1 (en) Information retrieval device, information retrieval method, and information retrieval program
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
Ojha et al. Training & evaluation of POS taggers in Indo-Aryan languages: A case of Hindi, Odia and Bhojpuri
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
US8296319B2 (en) Information retrieving apparatus, information retrieving method, information retrieving program, and recording medium on which information retrieving program is recorded
CN107168953A (zh) 海量文本中基于词向量表征的新词发现方法及系统
JP5504097B2 (ja) 意味的に類似している語対を二項関係に分類する二項関係分類プログラム、方法及び装置
JP2017201478A (ja) キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム
Mangairkarasi et al. Semantic based text summarization using universal networking language
JP2001331515A (ja) 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品
JPH1196177A (ja) 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体
Fudholi et al. Ontology-based information extraction for knowledge enrichment and validation
JP5277914B2 (ja) 単語関係判定装置及びプログラム
JP2004272352A (ja) 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体
Li et al. Chinese frame identification using t-crf model
Kutuzov Russian word sense induction by clustering averaged word embeddings
Reddy et al. POS Tagger for Kannada Sentence Translation
Oostdijk et al. Constructing a broad-coverage lexicon for text mining in the patent domain
JP5308918B2 (ja) キーワード抽出方法、キーワード抽出装置およびキーワード抽出プログラム
Hathout et al. Acquisition and enrichment of morphological and morphosemantic knowledge from the French Wiktionary
JP2008129662A (ja) 情報抽出装置、情報抽出方法、情報抽出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130506

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5277914

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees