JP2002334077A - 対義度検出装置、その方法、そのプログラム及びそのプログラムが記録された記録媒体 - Google Patents

対義度検出装置、その方法、そのプログラム及びそのプログラムが記録された記録媒体

Info

Publication number
JP2002334077A
JP2002334077A JP2001140307A JP2001140307A JP2002334077A JP 2002334077 A JP2002334077 A JP 2002334077A JP 2001140307 A JP2001140307 A JP 2001140307A JP 2001140307 A JP2001140307 A JP 2001140307A JP 2002334077 A JP2002334077 A JP 2002334077A
Authority
JP
Japan
Prior art keywords
degree
similarity
attribute
vector
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001140307A
Other languages
English (en)
Inventor
Kaname Kasahara
要 笠原
Kentaro Ogura
健太郎 小倉
Kibo Inago
希望 稲子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2001140307A priority Critical patent/JP2002334077A/ja
Publication of JP2002334077A publication Critical patent/JP2002334077A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 与えられる2単語の相互に反対の意味を持つ
程度を対義度として検出する。 【解決手段】 属性ベクトル保持手段11は、与えられ
る第1及び第2の単語のそれぞれに対する第1及び第2
の属性ベクトルを概念ベース12に蓄積されたものから
選択し、類似度計算手段13は、第1及び第2の属性ベ
クトルを用いて、第1及び第2の単語同士の類似の程度
である類似度を求め、差ベクトル計算手段14は、第1
及び第2の属性ベクトルにおける同一属性についての差
異の程度を要素にもつ差ベクトルを求め、対義度計算手
段13は、差ベクトルにおける要素のばらつきと類似度
のいずれもが大きくなった場合に大きくなるような値を
対義度として求めるので、与えられる2単語の相互に反
対の意味を持つ程度を対義度として検出できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキストデータを
用いた情報処理技術に関わり、特に、単語の関連性を用
いた自然言語処理、情報検索に適用可能な対義度検出装
置、その方法、そのプログラム及びそのプログラムが記
録された記録媒体に関する。
【0002】
【従来の技術】近年では、コンピュータやインターネッ
トの社会への普及に伴い、WWWや電子メール等のテキ
ストデータがコンピュータネットワーク上に日々蓄積さ
れている。これらのテキストデータは、人類の歴史上か
つてない規模の知識の宝庫とも言えるが、その規模の大
きさのゆえに、利用者がその中から有用な情報を探し出
したり加工したりすることが困難となりつつある。その
ための技術として、情報検索等のテキストに関する情報
処理技術が現在利用されているが、これらの技術ではテ
キストデータが文字列、あるいは単語の列として処理さ
れている。人間のようにテキストデータ中の言葉の意味
を考えていないので、必ずしも利用者の意図に沿った情
報処理が行えていない。そこで、人間が単語の意味や単
語間の関連性を考慮してテキストを処理するように、コ
ンピュータでも単語の関連性を判別する技術が必要とな
っている。
【0003】その方法としては現在、国語辞典中に記載
されている単語間の関係の記述やアンケート調査等で収
集した単語間の関係を電子的に電子辞書が利用されてい
る。そのような電子辞書としてはWordNet(英
語)やEDR(日本語)が挙げられる。これらには、単
語間の関係として、類義、対義、上位、下位等の単語間
の関係が記述されており、例えば対義の関係にある「大
きい」と「小さい」を参照して、ユーザの「大きくない
果物」という検索要素を「小さい果物」と変形して情報
を探すことも可能である。
【0004】しかし、上記の電子辞書は、作成に膨大な
時間的/金銭的なコストを要する。また国語辞典中の関
連語の記述を利用する場合であっても、典型的な関連語
が記述されているにとどまるため、単語間の関連性につ
いて、何らかの自動生成を可能とする技術が要望されて
いる。その一つとして、2つの単語が似ているかどうか
を判定する技術(特許第3095097「類似性判別装
置」)を挙げる。これは、国語辞書の語義文中の単語の
出現頻度、あるいはテキストコーパス中の単語の共起頻
度に基づく値を要素とした単語のベクトル表現に対し
て、単語同士が似ている度合いを表す類似度を検索する
方法である。上記技術を利用することにより、任意の単
語について類義関係にある単語を検索することが可能で
ある。
【0005】
【発明が解決しようとする課題】上記の通り単語の関連
性判別は、類義性については、すでに自動的に判定する
技術が考案されている一方対義関係は、上記で例示した
ような情報検索での検索条件の詳細化や、エキスパート
システム等の推論システムにおいて、「〜ではない」と
いう否定の知識を利用する際に重要な関係である。
【0006】しかし、対義関係、すなわち2つの単語が
相互に反対の意味を持つ関係は、自動的に判定する技術
は存在しない。
【0007】そこで本発明は、上記の従来の課題に鑑み
てなされたものであり、その目的とするところは、与え
られる2単語の相互に反対の意味を持つ程度を対義度と
して検出する対義度検出装置、その方法、そのプログラ
ム及びそのプログラムが記録された記録媒体を提供する
ことにある。
【0008】
【課題を解決するための手段】上記従来の課題を解決す
るために、請求項1の本発明は、単語と該単語が有する
属性ごとの重要度とを要素にもつ属性ベクトルが蓄積さ
れるデータベースと、与えられる第1及び第2の単語の
それぞれに対する第1及び第2の属性ベクトルを前記デ
ータベースに蓄積されたものから選択する属性ベクトル
選択手段と、前記第1及び第2の属性ベクトルを用いて
前記第1及び第2の単語同士の類似の程度である類似度
を求める類似度計算手段と、前記第1及び第2の属性ベ
クトルにおける同一属性についての差異の程度を要素に
もつ差ベクトルを求める差ベクトル計算手段と、前記差
ベクトルにおける要素のばらつきと前記類似度のいずれ
もが大きくなった場合に大きくなるような値を対義度と
して求める対義度計算手段とを備える対義度検出装置を
もって解決手段とする。
【0009】請求項2の本発明は、前記差ベクトル計算
手段は、前記同一属性の要素同士の差の絶対値を差ベク
トルの要素とすることを特徴とする請求項1記載の対義
度検出装置をもって解決手段とする。
【0010】請求項3の本発明は、前記差ベクトル計算
手段は、前記同一属性の中の、属性として類似しかつ対
義である2属性についての差異の程度を差ベクトルの要
素とすることを特徴とする請求項1記載の対義度検出装
置をもって解決手段とする。
【0011】請求項4の本発明は、前記差ベクトル計算
手段は、類似しかつ対義である2属性が予めシソーラス
の同一の分類に属性として含まれている場合には、該2
属性についての差異の程度を差ベクトルの要素とするこ
とを特徴とする請求項1記載の対義度検出装置をもって
解決手段とする。
【0012】請求項5の本発明は、前記類似度計算手段
は、前記類似度として、前記第1及び第2の属性ベクト
ルの要素同士の積の総和を求めることを特徴とする請求
項1ないし4のいずれかに記載の対義度検出装置をもっ
て解決手段とする。
【0013】請求項6の本発明は、前記対義度計算手段
は、前記対義度として、前記差ベクトルの要素の中の最
大値と類似度との積を求めることを特徴とする請求項1
ないし5のいずれかに記載の対義度検出装置をもって解
決手段とする。
【0014】請求項7の本発明は、単語と該単語が有す
る属性ごとの重要度とを要素にもつ属性ベクトルがデー
タベースに蓄積されるときの対義度検出方法であって、
与えられる第1及び第2の単語のそれぞれに対する第1
及び第2の属性ベクトルを前記データベースに蓄積され
たものから選択する属性ベクトル選択ステップと、前記
第1及び第2の属性ベクトルを用いて前記第1及び第2
の単語同士の類似の程度である類似度を求める類似度計
算ステップと、前記第1及び第2の属性ベクトルにおけ
る同一属性についての差異の程度を要素にもつ差ベクト
ルを求める差ベクトル計算ステップと、前記差ベクトル
における要素のばらつきと前記類似度のいずれもが大き
くなった場合に大きくなるような値を対義度として求め
る対義度計算ステップとを備える対義度検出方法をもっ
て解決手段とする。
【0015】請求項8の本発明は、前記差ベクトル計算
ステップでは、前記同一属性の要素同士の差の絶対値を
差ベクトルの要素とすることを特徴とする請求項7記載
の対義度検出方法をもって解決手段とする。
【0016】請求項9の本発明は、前記差ベクトル計算
ステップでは、前記同一属性の中の、属性として類似し
かつ対義である2属性についての差異の程度を差ベクト
ルの要素とすることを特徴とする請求項7記載の対義度
検出方法をもって解決手段とする。
【0017】請求項10の本発明は、前記差ベクトル計
算ステップでは、類似しかつ対義である2属性が予めシ
ソーラスの同一の分類に属性として含まれている場合に
は、該2属性についての差異の程度を差ベクトルの要素
とすることを特徴とする請求項7記載の対義度検出方法
をもって解決手段とする。
【0018】請求項11の本発明は、前記類似度計算ス
テップでは、前記類似度として、前記第1及び第2の属
性ベクトルの要素同士の積の総和を求めることを特徴と
する請求項7ないし10のいずれかに記載の対義度検出
方法をもって解決手段とする。
【0019】請求項12の本発明は、前記対義度計算ス
テップでは、前記対義度として、前記差ベクトルの要素
の中の最大値と類似度との積を求めることを特徴とする
請求項7ないし11のいずれかに記載の対義度検出方法
をもって解決手段とする。
【0020】請求項13の本発明は、単語と該単語が有
する属性ごとの重要度とを要素にもつ属性ベクトルがデ
ータベースに蓄積されるときの対義度検出プログラムで
あって、与えられる第1及び第2の単語のそれぞれに対
する第1及び第2の属性ベクトルを前記データベースに
蓄積されたものから選択する属性ベクトル選択ステップ
と、前記第1及び第2の属性ベクトルを用いて前記第1
及び第2の単語同士の類似の程度である類似度を求める
類似度計算ステップと、前記第1及び第2の属性ベクト
ルにおける同一属性についての差異の程度を要素にもつ
差ベクトルを求める差ベクトル計算ステップと、前記差
ベクトルにおける要素のばらつきと前記類似度のいずれ
もが大きくなった場合に大きくなるような値を対義度と
して求める対義度計算ステップとを備える対義度検出プ
ログラムをもって解決手段とする。
【0021】請求項14の本発明は、前記差ベクトル計
算ステップでは、前記同一属性の要素同士の差の絶対値
を差ベクトルの要素とすることを特徴とする請求項13
記載の対義度検出プログラムをもって解決手段とする。
【0022】請求項15の本発明は、前記差ベクトル計
算ステップでは、前記同一属性の中の、属性として類似
しかつ対義である2属性についての差異の程度を差ベク
トルの要素とすることを特徴とする請求項13記載の対
義度検出プログラムをもって解決手段とする。
【0023】請求項16の本発明は、前記差ベクトル計
算ステップでは、類似しかつ対義である2属性が予めシ
ソーラスの同一の分類に属性として含まれている場合に
は、該2属性についての差異の程度を差ベクトルの要素
とすることを特徴とする請求項13記載の対義度検出プ
ログラムをもって解決手段とする。
【0024】請求項17の本発明は、前記類似度計算ス
テップでは、前記類似度として、前記第1及び第2の属
性ベクトルの要素同士の積の総和を求めることを特徴と
する請求項13ないし16のいずれかに記載の対義度検
出プログラムをもって解決手段とする。
【0025】請求項18の本発明は、前記対義度計算ス
テップでは、前記対義度として、前記差ベクトルの要素
の中の最大値と類似度との積を求めることを特徴とする
請求項13ないし17のいずれかに記載の対義度検出プ
ログラムをもって解決手段とする。
【0026】請求項19の本発明は、単語と該単語が有
する属性ごとの重要度とを要素にもつ属性ベクトルがデ
ータベースに蓄積されるときの対義度検出プログラムが
記録された記録媒体であって、与えられる第1及び第2
の単語のそれぞれに対する第1及び第2の属性ベクトル
を前記データベースに蓄積されたものから選択する属性
ベクトル選択ステップと、前記第1及び第2の属性ベク
トルを用いて前記第1及び第2の単語同士の類似の程度
である類似度を求める類似度計算ステップと、前記第1
及び第2の属性ベクトルにおける同一属性についての差
異の程度を要素にもつ差ベクトルを求める差ベクトル計
算ステップと、前記差ベクトルにおける要素のばらつき
と前記類似度のいずれもが大きくなった場合に大きくな
るような値を対義度として求める対義度計算ステップと
を備える対義度検出プログラムが記録された記録媒体を
もって解決手段とする。
【0027】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。
【0028】[第1の実施の形態]]図1は、本発明の第
1の実施の形態の対義度検出装置1の構成を示す図であ
る。対義度検出装置1は、属性ベクトル保持手段11、
概念ベース12、類似度計算手段13、差ベクトル計算
手段14、対義度計算手段15を備える。
【0029】図2は、概念ベース12を示す図である。
概念ベース12は、関連性を判定する対象となる複数の
単語と、その単語それぞれに対応して単語の特徴(属
性)の重要さの程度を表す数値である重要度を要素とす
るベクトル(「属性ベクトル」)より構成されるデータ
ベースである。
【0030】属性ベクトルの要素と対応する個々の属性
は、単語の特徴を表わす語や、シソーラスの分類カテゴ
リ、あるいは、主成分分析などの何らかの統計処理手段
を用いて計算された成分等、単語の特徴を表現でき、個
々の単語について属性の重みを決定できるものであれば
どのようなものであっても構わない。
【0031】また、単語の属性に対応する重要度として
は、その単語にとって重要である程度が高い属性ほど大
きな値を取る数値であればどのようなものであっても構
わない。
【0032】例えば、個々の単語について、人手で属性
ベクトルの重要度を設定することや、国語辞典やテキス
トデータを用いて、単語の出現頻度に基づいて自動的に
設定された値であってもかまわない。
【0033】属性ベクトル保持手段11は、与えられる
第1及び第2の単語のそれぞれに対する第1及び第2の
属性ベクトルを概念ベース12に蓄積されたものから選
択するブロックである。
【0034】類似度計算手段13は、第1及び第2の属
性ベクトルを用いて第1及び第2の単語同士の類似の程
度である類似度を求めるブロックである。
【0035】差ベクトル計算手段14は、第1及び第2
の属性ベクトルにおける同一属性についての差異の程度
を要素にもつ差ベクトルを求めるブロックである。
【0036】対義度計算手段15は、差ベクトルにおけ
る要素のばらつきと類似度のいずれもが大きくなった場
合に大きくなるような値を対義度として求めるブロック
である。
【0037】次に、第1の実施の形態の作用を説明す
る。図3は、第1の実施の形態の作用を示すフローチャ
ートである。対義度検出装置1には、2つの単語1、単
語2が入力される。この単語は、概念ベース12に含ま
れる単語であれば、どのような単語であっても構わな
い。
【0038】属性ベクトル保持手段11は、単語1と単
語2が読み込まれる(ステップS1)と、それぞれ対応
する属性ベクトルを概念ベース12より読み取り、属性
ベクトル1、属性ベクトル2として保持する(ステップ
S2,3)。
【0039】類似度計算手段13は、属性ベクトル保持
手段11によって取得された属性ベクトル1と属性ベク
トル2を比較し、2つの属性ベクトルの類似の程度を表
す類似度を計算する(ステップS4)。
【0040】類似度としては、2つの属性ベクトルのユ
ークリッド距離の逆数や、2つの属性ベクトルのなす角
度の余弦(コサイン)等、2つの属性ベクトルの類似の
程度が高い程、値が大きくなるような数値を与える尺度
であれば、どのようなものであっても構わない。その場
合、同一の属性ベクトルの場合に類似度の値が最大とな
る。
【0041】差ベクトル計算手段14は、属性ベクトル
保持手段11によって取得された属性ベクトル1と属性
ベクトル2を比較し、2つの属性ベクトル中の同一の属
性に対する重要度がどの程度異なっているか、すなわ
ち、差異の程度を表す差ベクトルを計算する(ステップ
S5)。
【0042】差ベクトルとしては、2つの属性ベクトル
の同一の属性に対する重要度の差の絶対値を要素とする
ベクトルや、2つの属性ベクトルの同一の属性に対する
重要度の積に−1を乗じた値を要素とするベクトル等、
2つの属性ベクトル中の同一の属性に対する重要度の差
が大きくなる程大きくなる数値を要素としたベクトルで
あればどのようなものであってもよい。
【0043】対義度計算手段15は、類似度計算手段1
3で得られた類似度と差ベクトル計算手段14で得られ
た差ベクトルより、単語1と単語2の関連性の程度を表
す対義度を計算する(ステップS6)。
【0044】対義度の計算法としては、類似度と差ベク
トル中の最大の要素の値の積や、類似度と差ベクトル中
の値の大きな要素の平均等、類似度と差ベクトルを用い
て単語1と単語2が相互に反対の関係である語である程
対義語の値が大きくなるようなものであればどのような
計算方法でもよい。
【0045】対義度検出装置1は、対義度計算手段15
で計算された対義度を単語1と単語2の関連する程度と
して出力する(ステップS7)。
【0046】ここで、例を示しながら、第1の実施の形
態の作用を更に詳細に説明する。
【0047】最初に、概念ベース12について説明す
る。概念ベース12は、対象とする単語とそれに対する
属性の重要度を要素とした属性ベクトルから成る。
【0048】単語としては、「上流」、「下流」、「水
流」、「山脈」、「下積み」が含まれている。 属性
は、対象とする単語の性質を区別するための特徴に関す
るものであれば、単語であっても、記号であっても構わ
ない。
【0049】ここでは、単語個々に対して、属性「自
然」、「高さ」、「大きさ」、「重さ」、「上下」、
「堅さ」という属性に対する重要度からなる属性ベクト
ルが与えられる。 例えば、「上流」の属性ベクトル
は、(0.401, 0.229, 0.172, -0.401, 0.516, 0.574)
となる。それぞれの属性の重要度の値は、他の属性の重
要度と比べてその属性がどの程度単語の特徴として重要
であるかの程度を考慮して付与されている。
【0050】重要度を付与する方法としては、人手によ
って行う方法でも、国語辞典や新聞記事等のテキスト情
報を用いて自動的に付与する方法であっても構わない。
この例では、重要度の正の大きな値程属性の正の性質が
深く、重要度が負の値で小さい程属性の負の性質が深く
なるように数値が付与されている。
【0051】次に、図3のフローチャートに従い、例を
示しながら作用を説明する。ここでは、単語1として
「上流」、単語2として「下流」とする。両方の単語
は、概念ベースに含まれている。
【0052】まず、単語1「上流」、単語2「下流」を
読み込む(ステップS1)。
【0053】次に、属性ベクトル保持手段11は、概念
ベース12より単語1「上流」の属性ベクトル(0.401,
0.229, 0.172, -0.401, 0.516, 0.574)を読み込む
(ステップS2)。また、属性ベクトル保持手段11は
続けて、概念ベース12より単語2「下流」の属性ベク
トル(0.347, 0.173, 0.173, -0.463, -0.520, 0.578)
を読み込む(ステップS3)。
【0054】類似度計算手段13は、「上流」の属性ベ
クトルと「下流」の属性ベクトルより、類似度を計算す
る(ステップS4)。ここでは、2つの属性ベクトルの
同一属性の重要度(要素)同士を掛け合わせ、その結果
を足したものを類似度とする。したがって、類似度は、
0.458となる。
【0055】 類似度=0.401×0.347+0.229×0.173+0.172×0.173+(-0.401)×(-0.463) ×0.516×(-0.520)+0.574×0.578 =0.458 差ベクトル計算手段14では、属性ベクトル1と属性ベ
クトル2より差ベクトルを計算する(ステップS5)。
ここでは、2つの属性ベクトルの同一属性の重要度を差
の絶対値を差ベクトルの要素とする。したがって、差ベ
クトルは、次のようになる。
【0056】 差ベクトル=(|0.401-0.347|,|0.229-0.173|,|0.172-0.173|, |-0.401-(-0.463)|,|0.516-(-0.520)|,|0.574-0.578|) =(0.054,0.056,0.001,0.062,1.036,0.004) 対義度計算手段15は、類似度計算手段13で計算され
た類似度0.458と、差ベクトル計算手段14で計算され
た差ベクトル(0.054, 0.056, 0.056, 0.001, 0.062, 1.
036, 0.004)より対義度を計算する(ステップS6)。
【0057】ここでは対義度を、類似度と、差ベクトル
の要素の中の最大値との積とする。差ベクトル中の要素
の最大値は1.036であり、類似度は0.458であるので、対
義度は0.458×1.036=0.744となる。
【0058】最後に、関連性判別結果として対義度0.44
6を出力する(ステップS7)。
【0059】同様にして、「上流」に対して概念ベース
12に含まれている「水流」、「山脈」、「下積み」の
対義度を計算すると、それぞれ0.429, 0.422, -0.929と
なる。例えば、これらの数値を比較すると、「上流」と
「下流」の対義度0.744が最大となり、概念ベース12
に含まれる単語の中で「上流」に対して対義度が最大と
なる単語は「下流」となる。
【0060】[第2の実施の形態]]図4は、本発明の第
2の実施の形態の対義度検出装置1Aの構成を示す図で
ある。対義度検出装置1Aは、属性ベクトル保持手段1
1、概念ベース12A、類似度計算手段13、差ベクト
ル計算手段14A、対義度計算手段15、シソーラス1
6を備える。なお、第1の実施の形態と同一構成には同
一符号を付して説明を略す。
【0061】第2の実施の形態では、概念ベース12と
は異なる概念ベース12Aを利用する。さらに、関連性
判別に利用するシソーラス16を追加し、差ベクトル計
算手段14に代えて差ベクトル計算手段14Aを構成し
ている。
【0062】対義度検出装置1Aでは、対義度検出装置
1に対し、概念ベース12の属性を分類したシソーラス
16が追加されており、差ベクトル計算手段14Aは、
属性ベクトル、属性ベクトル2及びシソーラス16に基
づいて差ベクトルを計算する。ここでは、シソーラス1
6中の分類ごとに、そこに含まれる属性について属性ベ
クトル1と属性ベクトル2の重要度を取り出し、これら
重要度を総合した値を要素とするベクトルを差ベクトル
とする。
【0063】図5は、概念ベース12Aを示す図であ
る。概念ベース12Aに含まれる単語は、概念ベース1
2の単語と同様であるが、属性ベクトルの要素となる重
要度には負の値がない。このような概念ベースは、テキ
ストデータより単語の出現頻度に基づいて属性ベクトル
を生成するときに得られる。
【0064】図6は、シソーラス16を示す図である。
シソーラス16は、概念ベース12に含まれる属性ベク
トルの属性について、同じ内容の属性を同一のカテゴリ
に分類して分類名が付与されたデータである。シソーラ
ス16では、属性として類似しかつ対義である2属性が
予め同一カテゴリに分類されている。この例では、類似
しかつ対義である属性「上」と「下」が分類名「位置」
が指す分類に入り、それ以外の属性は個別に1つずつ分
類されている。なお、分類名は、各々の分類を識別でき
るならば、単語であっても数字や記号であっても構わな
い。
【0065】差ベクトル計算手段14Aは、属性ベクト
ル1と属性ベクトル2についての同一属性が、シソーラ
ス16に分類された、類似しかつ対義である2属性に一
致する場合には、該2属性についての差異の程度を差ベ
クトルに含ませるようになっている。
【0066】次に、第2の実施の形態の作用を説明す
る。図7は、第2の実施の形態の作用を示すフローチャ
ートである。ここでは、単語1を「上流」、単語2を
「下流」とする。両方の単語は、概念ベース12Aに含
まれている。まず、単語1「上流」、単語「下流」を読
み込む(ステップS11)。
【0067】次に、属性ベクトル保持手段11は、概念
ベース12Aより、単語1「上流」の属性ベクトル(0.
152, 0.380, 0.304, 0.608, 0.000, 0.608, 0.000)を
読み込む(ステップS12)。また、属性ベクトル保持
手段11は続けて、概念ベース12Aより、単語2「下
流」の属性ベクトル(0.076, 0.383, 0.306, 0.000,0.6
13, 0.613, 0.000)を読み込む(ステップS13)。
【0068】類似度計算手段13は、「上流」の属性ベ
クトルと「下流」の属性ベクトルより、類似度を計算す
る(ステップS4)。ここでは、2つの属性ベクトルの
同一の属性の重要度を掛け合わせて、その結果を足した
もの、つまり積の総和を類似度とする。類似度は、次の
ように0.623となる。
【0069】 類似度=0.152×0.076+0.380×0.383+0.304×0.306+0.608×0.000 +0.000×0.613+0.608×0.613+0.000×0.000 =0.623 差ベクトル計算手段14Aでは、属性ベクトル1、属性
ベクトル2及びシソーラス16より差ベクトルを計算す
る(ステップS15)。
【0070】ここで差ベクトルは、シソーラスの分類
「山」、「水」、「移動」、「位置」ごとに設定された
値を要素としたベクトルとし、その値は、ただ1つの属
性を保有する分類では0とする。また、類似しかつ対義
である2属性を保有する分類では、2つの属性ベクトル
の対応する属性の重要度の和の積とする。
【0071】差ベクトル計算手段14Aは、シソーラス
16では、類似しかつ対義である2属性が含まれる分類
は「位置」であり、その2属性「上」と「下」が、属性
ベクトル1及び属性ベクトル2における同一属性「山
地」、「水」、「流れ」、「上」、「下」、「階級」、
「職業」に含まれるので、「位置」を属性としたときの
要素を差ベクトルの要素とする。
【0072】差ベクトル計算手段14Aは、要素の値
を、属性ベクトル1中の属性「上」の重要度0.608と
「下」の重要度0.000の和0.608と、属性ベクトル2中の
属性「上」の重要度0と「下」の重要度0.613の和0.613
の積0.373とする。
【0073】 差ベクトル=(0,0,0,(0.608+0.00)×(0.000+0.613)) (0,0,0,0.373) 対義度計算手段15は、類似度計算手段13で計算され
た類似度0.623と、差ベクトル計算手段5で計算された
差ベクトル(0,0,0,0.373)より対義度を計算する(ステ
ップS6)。
【0074】ここでは対義度を、類似度と、差ベクトル
の要素の中の最大値との積とする。差ベクトル中の要素
の最大値は0.373であり、類似度は0.623であるので、対
義度は0.373×0.623=0.232となる。
【0075】最後に、対義度検出装置1Aは、関連性判
別結果として対義度0.232を出力する(ステップS
7)。
【0076】同様にして、「上流」に対して、概念ベー
ス12Aに含まれている「水流」、「山脈」、「下積
み」の対義度を計算すると、それぞれ0.207, 0.141, 0.
127となる。例えば、これらの数値を比較すると、「上
流」と「下流」の対義度0.232が最大となり、概念ベー
ス12Aに含まれる単語の中で「上流」に対して対義度
が最大となる単語は「下流」となる。
【0077】なお、上記説明した処理を実行する本発明
に係る対義度検出プログラムは、半導体メモリ、磁気デ
ィスク、光ディスク、光磁気ディスク、磁気テープなど
のコンピュータ読み取り可能な記録媒体に記録したり、
インターネットなどの通信網を介して伝送させて、広く
流通させることができる。
【0078】
【発明の効果】以上説明したように、本発明によれば、
与えられる第1及び第2の単語のそれぞれに対する第1
及び第2の属性ベクトルをデータベースに蓄積されたも
のから選択し、第1及び第2の属性ベクトルを用いて、
第1及び第2の単語同士の類似の程度である類似度を求
め、第1及び第2の属性ベクトルにおける同一属性につ
いての差異の程度を要素にもつ差ベクトルを求め、差ベ
クトルにおける要素のばらつきと類似度のいずれもが大
きくなった場合に大きくなるような値を対義度として求
めるので、与えられる2単語の相互に反対の意味を持つ
程度を対義度として検出できる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の対義度検出装置1
の構成を示す図である。
【図2】概念ベース12を示す図である。
【図3】第1の実施の形態の作用を示すフローチャート
である。
【図4】本発明の第2の実施の形態の対義度検出装置1
Aの構成を示す図である。
【図5】概念ベース12Aを示す図である。
【図6】第2の実施の形態の作用を示すフローチャート
である。
【図7】シソーラス16を示す図である。
【符号の説明】
1,1A 対義度検出装置 11 属性ベクトル保持手段 12,12A 概念ベース 13 類似度計算手段 14,14A 差ベクトル計算手段 15 対義度計算手段 16 シソーラス
フロントページの続き (72)発明者 稲子 希望 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5B075 ND03 NK06 NK32 PR06 QM08 UU01 5B091 AA15 CC02 CC04 CC16

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】 単語と該単語が有する属性ごとの重要度
    とを要素にもつ属性ベクトルが蓄積されるデータベース
    と、 与えられる第1及び第2の単語のそれぞれに対する第1
    及び第2の属性ベクトルを前記データベースに蓄積され
    たものから選択する属性ベクトル選択手段と、 前記第1及び第2の属性ベクトルを用いて前記第1及び
    第2の単語同士の類似の程度である類似度を求める類似
    度計算手段と、 前記第1及び第2の属性ベクトルにおける同一属性につ
    いての差異の程度を要素にもつ差ベクトルを求める差ベ
    クトル計算手段と、 前記差ベクトルにおける要素のばらつきと前記類似度の
    いずれもが大きくなった場合に大きくなるような値を対
    義度として求める対義度計算手段とを備える対義度検出
    装置。
  2. 【請求項2】 前記差ベクトル計算手段は、前記同一属
    性の要素同士の差の絶対値を差ベクトルの要素とするこ
    とを特徴とする請求項1記載の対義度検出装置。
  3. 【請求項3】 前記差ベクトル計算手段は、前記同一属
    性の中の、属性として類似しかつ対義である2属性につ
    いての差異の程度を差ベクトルの要素とすることを特徴
    とする請求項1記載の対義度検出装置。
  4. 【請求項4】 前記差ベクトル計算手段は、類似しかつ
    対義である2属性が予めシソーラスの同一の分類に属性
    として含まれている場合には、該2属性についての差異
    の程度を差ベクトルの要素とすることを特徴とする請求
    項1記載の対義度検出装置。
  5. 【請求項5】 前記類似度計算手段は、前記類似度とし
    て、前記第1及び第2の属性ベクトルの要素同士の積の
    総和を求めることを特徴とする請求項1ないし4のいず
    れかに記載の対義度検出装置。
  6. 【請求項6】 前記対義度計算手段は、前記対義度とし
    て、前記差ベクトルの要素の中の最大値と類似度との積
    を求めることを特徴とする請求項1ないし5のいずれか
    に記載の対義度検出装置。
  7. 【請求項7】 単語と該単語が有する属性ごとの重要度
    とを要素にもつ属性ベクトルがデータベースに蓄積され
    るときの対義度検出方法であって、 与えられる第1及び第2の単語のそれぞれに対する第1
    及び第2の属性ベクトルを前記データベースに蓄積され
    たものから選択する属性ベクトル選択ステップと、 前記第1及び第2の属性ベクトルを用いて前記第1及び
    第2の単語同士の類似の程度である類似度を求める類似
    度計算ステップと、 前記第1及び第2の属性ベクトルにおける同一属性につ
    いての差異の程度を要素にもつ差ベクトルを求める差ベ
    クトル計算ステップと、 前記差ベクトルにおける要素のばらつきと前記類似度の
    いずれもが大きくなった場合に大きくなるような値を対
    義度として求める対義度計算ステップとを備える対義度
    検出方法。
  8. 【請求項8】 前記差ベクトル計算ステップでは、前記
    同一属性の要素同士の差の絶対値を差ベクトルの要素と
    することを特徴とする請求項7記載の対義度検出方法。
  9. 【請求項9】 前記差ベクトル計算ステップでは、前記
    同一属性の中の、属性として類似しかつ対義である2属
    性についての差異の程度を差ベクトルの要素とすること
    を特徴とする請求項7記載の対義度検出方法。
  10. 【請求項10】 前記差ベクトル計算ステップでは、類
    似しかつ対義である2属性が予めシソーラスの同一の分
    類に属性として含まれている場合には、該2属性につい
    ての差異の程度を差ベクトルの要素とすることを特徴と
    する請求項7記載の対義度検出方法。
  11. 【請求項11】 前記類似度計算ステップでは、前記類
    似度として、前記第1及び第2の属性ベクトルの要素同
    士の積の総和を求めることを特徴とする請求項7ないし
    10のいずれかに記載の対義度検出方法。
  12. 【請求項12】 前記対義度計算ステップでは、前記対
    義度として、前記差ベクトルの要素の中の最大値と類似
    度との積を求めることを特徴とする請求項7ないし11
    のいずれかに記載の対義度検出方法。
  13. 【請求項13】 単語と該単語が有する属性ごとの重要
    度とを要素にもつ属性ベクトルがデータベースに蓄積さ
    れるときの対義度検出プログラムであって、 与えられる第1及び第2の単語のそれぞれに対する第1
    及び第2の属性ベクトルを前記データベースに蓄積され
    たものから選択する属性ベクトル選択ステップと、 前記第1及び第2の属性ベクトルを用いて前記第1及び
    第2の単語同士の類似の程度である類似度を求める類似
    度計算ステップと、 前記第1及び第2の属性ベクトルにおける同一属性につ
    いての差異の程度を要素にもつ差ベクトルを求める差ベ
    クトル計算ステップと、 前記差ベクトルにおける要素のばらつきと前記類似度の
    いずれもが大きくなった場合に大きくなるような値を対
    義度として求める対義度計算ステップとを備える対義度
    検出プログラム。
  14. 【請求項14】 前記差ベクトル計算ステップでは、前
    記同一属性の要素同士の差の絶対値を差ベクトルの要素
    とすることを特徴とする請求項13記載の対義度検出プ
    ログラム。
  15. 【請求項15】 前記差ベクトル計算ステップでは、前
    記同一属性の中の、属性として類似しかつ対義である2
    属性についての差異の程度を差ベクトルの要素とするこ
    とを特徴とする請求項13記載の対義度検出プログラ
    ム。
  16. 【請求項16】 前記差ベクトル計算ステップでは、類
    似しかつ対義である2属性が予めシソーラスの同一の分
    類に属性として含まれている場合には、該2属性につい
    ての差異の程度を差ベクトルの要素とすることを特徴と
    する請求項13記載の対義度検出プログラム。
  17. 【請求項17】 前記類似度計算ステップでは、前記類
    似度として、前記第1及び第2の属性ベクトルの要素同
    士の積の総和を求めることを特徴とする請求項13ない
    し16のいずれかに記載の対義度検出プログラム。
  18. 【請求項18】 前記対義度計算ステップでは、前記対
    義度として、前記差ベクトルの要素の中の最大値と類似
    度との積を求めることを特徴とする請求項13ないし1
    7のいずれかに記載の対義度検出プログラム。
  19. 【請求項19】 単語と該単語が有する属性ごとの重要
    度とを要素にもつ属性ベクトルがデータベースに蓄積さ
    れるときの対義度検出プログラムが記録された記録媒体
    であって、 与えられる第1及び第2の単語のそれぞれに対する第1
    及び第2の属性ベクトルを前記データベースに蓄積され
    たものから選択する属性ベクトル選択ステップと、 前記第1及び第2の属性ベクトルを用いて前記第1及び
    第2の単語同士の類似の程度である類似度を求める類似
    度計算ステップと、 前記第1及び第2の属性ベクトルにおける同一属性につ
    いての差異の程度を要素にもつ差ベクトルを求める差ベ
    クトル計算ステップと、 前記差ベクトルにおける要素のばらつきと前記類似度の
    いずれもが大きくなった場合に大きくなるような値を対
    義度として求める対義度計算ステップとを備える対義度
    検出プログラムが記録された記録媒体。
JP2001140307A 2001-05-10 2001-05-10 対義度検出装置、その方法、そのプログラム及びそのプログラムが記録された記録媒体 Pending JP2002334077A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001140307A JP2002334077A (ja) 2001-05-10 2001-05-10 対義度検出装置、その方法、そのプログラム及びそのプログラムが記録された記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001140307A JP2002334077A (ja) 2001-05-10 2001-05-10 対義度検出装置、その方法、そのプログラム及びそのプログラムが記録された記録媒体

Publications (1)

Publication Number Publication Date
JP2002334077A true JP2002334077A (ja) 2002-11-22

Family

ID=18986935

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001140307A Pending JP2002334077A (ja) 2001-05-10 2001-05-10 対義度検出装置、その方法、そのプログラム及びそのプログラムが記録された記録媒体

Country Status (1)

Country Link
JP (1) JP2002334077A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012032886A (ja) * 2010-07-28 2012-02-16 Fujitsu Ltd 検索装置、検索プログラム、および検索方法
EP3107003A1 (en) 2015-06-17 2016-12-21 Panasonic Intellectual Property Management Co., Ltd. Method for assigning semantic information to word through learning using text corpus

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012032886A (ja) * 2010-07-28 2012-02-16 Fujitsu Ltd 検索装置、検索プログラム、および検索方法
EP3107003A1 (en) 2015-06-17 2016-12-21 Panasonic Intellectual Property Management Co., Ltd. Method for assigning semantic information to word through learning using text corpus
US10007659B2 (en) 2015-06-17 2018-06-26 Panasonic Intellectual Property Management Co., Ltd. Method for assigning semantic information to word through learning using text corpus
US10325023B2 (en) 2015-06-17 2019-06-18 Panasonic Intellectual Property Management Co., Ltd. Method for assigning semantic information to word through learning using text corpus

Similar Documents

Publication Publication Date Title
US9613024B1 (en) System and methods for creating datasets representing words and objects
Capelle et al. Semantics-based news recommendation
Zhao et al. Topical keyphrase extraction from twitter
US8051080B2 (en) Contextual ranking of keywords using click data
US7783629B2 (en) Training a ranking component
US8849787B2 (en) Two stage search
US8543380B2 (en) Determining a document specificity
US20130173604A1 (en) Knowledge-based entity detection and disambiguation
Spina et al. Discovering filter keywords for company name disambiguation in twitter
JP5391632B2 (ja) ワードと文書の深さの決定
CN109408802A (zh) 一种提升句向量语义的方法、系统及存储介质
Zhang et al. STCS lexicon: Spectral-clustering-based topic-specific Chinese sentiment lexicon construction for social networks
CN110232185A (zh) 面向金融行业软件测试基于知识图谱语义相似度计算方法
Mohammadi et al. Context-specific recommendation system for predicting similar pubmed articles
Sulthana et al. Context based classification of Reviews using association rule mining, fuzzy logics and ontology
CN114201598B (zh) 文本推荐方法及文本推荐装置
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN114116997A (zh) 知识问答方法、装置、电子设备及存储介质
CN114491232B (zh) 信息查询方法、装置、电子设备和存储介质
JP2002334077A (ja) 対義度検出装置、その方法、そのプログラム及びそのプログラムが記録された記録媒体
Prathyusha et al. Normalization Methods for Multiple Sources of Data
CN113722484A (zh) 基于深度学习的谣言检测方法、装置、设备及存储介质
WO2013150633A1 (ja) 文書処理システム、及び、文書処理方法
TW201416890A (zh) 文章資訊提供方法以及系統
CN112559768B (zh) 一种短文本图谱化及推荐方法