JP4314271B2 - 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体 - Google Patents
単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP4314271B2 JP4314271B2 JP2006353983A JP2006353983A JP4314271B2 JP 4314271 B2 JP4314271 B2 JP 4314271B2 JP 2006353983 A JP2006353983 A JP 2006353983A JP 2006353983 A JP2006353983 A JP 2006353983A JP 4314271 B2 JP4314271 B2 JP 4314271B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- vector
- words
- distance
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
H.Schutze,Dimensions of Meaning,Proc.of Supercomputing’92,pp.786−796,1992. 別所克人,内山俊郎,片岡良治:単語・意味属性間共起に基づく概念ベースの拡張方式,情報処理学会研究報告,Vol.SIG−ICS 144,pp.29−34,2006. 日本語情報処理、電子通信学会編著、監修:長尾真、執筆:森健一ほか、電子情報通信学会、1984.5 カルバック・ライブラー距離算出処理 On Information and Sufficiency /S.Kullback,R.A.Leibler Annals of Mathematical Statistics,Vol.22,No.1.(Mar.,1951),pp.79−86.
(2)請求項2,7に記載の発明によれば、単語と、成分に対応づけられた意味情報の対に対して算出した頻度であるベクトルを用いているので、より精度の高い関連度を算出することができる。
(3)請求項3,4,5,8,9,10に記載の発明によれば、2つの単語のベクトルの一致度合いが大きすぎたり小さすぎたりする場合であっても、距離値を補正することができ、精度の高い上位・下位関係の判定を行うことができる。
v(Y):=(y1,y2,・・・,yN)
このとき、XからYへのカルバック・ライブラー距離P(X‖Y)を、
q:v(X)で成分の値がDより大きく、v(Y)で成分の値がD以下である成分の個数
r:v(X)で成分の値がD以下で、v(Y)で成分の値がDより大きい成分の個数
v(X),v(Y)の一致する度合いtの一例として、
f(t)=g・(t−u) 2 +1 (g>0,0<u<1)…(3)
をとり、XとYの補正したカルバック・ライブラー距離P’(X‖Y)を、
P’(X‖Y)=f(t)・P(X‖Y)…(4)
として算出する。補正したカルバック・ライブラー距離P’(X‖Y)では、前記tが大きすぎたり、小さすぎたりした場合、距離値が補正前より大きくなる。従って、Yが指定されたとき、下位概念でないXの検出が抑制されるようになり、Xが指定されたとき、上位概念でないYの検出が抑制されるようになる。
t=sim(X,Y) (sim(X,Y)はv(X),v(Y)の内積)…(6)
とおいた上で、同様に説明される。
Claims (12)
- 単語間の関連度を算出する単語間関連度算出装置であって、
テキストを形態素解析し、処理に必要な単語を特定する形態素解析手段と、
前記形態素解析手段の解析結果から、任意の単語の対に対し、前記テキストにおける一つの所定の範囲、又は、複数の所定の範囲のそれぞれにおいて、前記対が共起する事象を、すべての所定の範囲にわたって計数した頻度を算出し、各単語に対し、各成分の値が、前記単語と、前記成分に対応づけられた単語の対に対し算出された前記頻度であるベクトルを生成するベクトル生成手段と、
前記ベクトル生成手段によって生成されたベクトルを、該ベクトルの各成分を全成分の和で割った相対頻度を成分とするベクトルに変換する相対頻度算出手段と、
単語の対に対し、一方の単語に対応する前記相対頻度算出手段で変換されたベクトルと、他方の単語に対応する前記相対頻度算出手段で変換されたベクトルとのカルバック・ライブラー距離を単語間関連度として算出するカルバック・ライブラー距離算出手段と
を備えたことを特徴とする単語間関連度算出装置。 - 単語間の関連度を算出する単語間関連度算出装置であって、
単語と前記単語の意味情報の組の集合を格納する辞書と、
テキストを形態素解析し、処理に必要な単語を特定する形態素解析手段と、
前記形態素解析手段の解析結果から、前記辞書内の任意の単語と任意の意味情報の対に対し、前記テキストにおける一つの所定の範囲、又は、複数の所定の範囲のそれぞれにおいて、前記対が共起する事象を、すべての所定の範囲にわたって計数した頻度を算出し、各単語に対し、各成分の値が、前記単語と、前記成分に対応づけられた意味情報の対に対し算出された前記頻度であるベクトルを生成するベクトル生成手段と、
前記ベクトル生成手段によって生成されたベクトルを、該ベクトルの各成分を全成分の和で割った相対頻度を成分とするベクトルに変換する相対頻度算出手段と、
単語の対に対し、一方の単語に対応する前記相対頻度算出手段で変換されたベクトルと、他方の単語に対応する前記相対頻度算出手段で変換されたベクトルとのカルバック・ライブラー距離を単語間関連度として算出するカルバック・ライブラー距離算出手段と
を備えたことを特徴とする単語間関連度算出装置。 - 前記カルバック・ライブラー距離算出手段は、
前記対の2つの単語のうち、一方の単語のベクトルの成分の値と、他方の単語のベクトルの対応する成分の値がともにある値より大きい成分の個数を、少なくとも一方の単語のベクトルの成分の値が前記ある値より大きい成分の個数で割った値tを引数とする関数f(t)=g・(t−u) 2 +1(g、uは定数)を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正する
ことを特徴とする請求項1または2に記載の単語間関連度算出装置。 - 前記カルバック・ライブラー距離算出手段は、
前記対の2つの単語のうち、一方の単語のベクトルの成分の値と、他方の単語のベクトルの対応する成分の値がともにある値より大きい成分における、より小さい値の和tを引数とする関数f(t)=g・(t−u) 2 +1(g、uは定数)を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正する
ことを特徴とする請求項1または2に記載の単語間関連度算出装置。 - 前記カルバック・ライブラー距離算出手段は、
前記対の2つの単語のベクトルの内積tを引数とする関数f(t)=g・(t−u) 2 +1(g、uは定数)を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正する
ことを特徴とする請求項1または2に記載の単語間関連度算出装置。 - 単語間の関連度を算出する単語間関連度算出方法であって、
形態素解析手段が、テキストを形態素解析し、処理に必要な単語を特定する形態素解析ステップと、
ベクトル生成手段が、前記形態素解析手段の解析結果から、任意の単語の対に対し、前記テキストにおける一つの所定の範囲、又は、複数の所定の範囲のそれぞれにおいて、前記対が共起する事象を、すべての所定の範囲にわたって計数した頻度を算出し、各単語に対し、各成分の値が、前記単語と、前記成分に対応づけられた単語の対に対し算出された前記頻度であるベクトルを生成するベクトル生成ステップと、
相対頻度算出手段が、前記ベクトル生成手段によって生成されたベクトルを、該ベクトルの各成分を全成分の和で割った相対頻度を成分とするベクトルに変換する相対頻度算出ステップと、
カルバック・ライブラー距離算出手段が、単語の対に対し、一方の単語に対応する前記相対頻度算出手段で変換されたベクトルと、他方の単語に対応する前記相対頻度算出手段で変換されたベクトルとのカルバック・ライブラー距離を単語間関連度として算出するカルバック・ライブラー距離算出ステップと
を備えたことを特徴とする単語間関連度算出方法。 - 単語間の関連度を算出する単語間関連度算出方法であって、
形態素解析手段が、テキストを形態素解析し、処理に必要な単語を特定する形態素解析ステップと、
ベクトル生成手段が、前記形態素解析手段の解析結果から、単語と前記単語の意味情報の組の集合を格納した辞書内の任意の単語と任意の意味情報の対に対し、前記テキストにおける一つの所定の範囲、又は、複数の所定の範囲のそれぞれにおいて、前記対が共起する事象を、すべての所定の範囲にわたって計数した頻度を算出し、各単語に対し、各成分の値が、前記単語と、前記成分に対応づけられた意味情報の対に対し算出された前記頻度であるベクトルを生成するベクトル生成ステップと、
相対頻度算出手段が、前記ベクトル生成手段によって生成されたベクトルを、該ベクトルの各成分を全成分の和で割った相対頻度を成分とするベクトルに変換する相対頻度算出ステップと、
カルバック・ライブラー距離算出手段が、単語の対に対し、一方の単語に対応する前記相対頻度算出手段で変換されたベクトルと、他方の単語に対応する前記相対頻度算出手段で変換されたベクトルとのカルバック・ライブラー距離を単語間関連度として算出するカルバック・ライブラー距離算出ステップと
を備えたことを特徴とする単語間関連度算出方法。 - 前記カルバック・ライブラー距離算出ステップは、
前記対の2つの単語のうち、一方の単語のベクトルの成分の値と、他方の単語のベクトルの対応する成分の値がともにある値より大きい成分の個数を、少なくとも一方の単語のベクトルの成分の値が前記ある値より大きい成分の個数で割った値tを引数とする関数f(t)=g・(t−u) 2 +1(g、uは定数)を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正する
ことを特徴とする請求項6または7に記載の単語間関連度算出方法。 - 前記カルバック・ライブラー距離算出ステップは、
前記対の2つの単語のうち、一方の単語のベクトルの成分の値と、他方の単語のベクトルの対応する成分の値がともにある値より大きい成分における、より小さい値の和tを引数とする関数f(t)=g・(t−u) 2 +1(g、uは定数)を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正する
ことを特徴とする請求項6または7に記載の単語間関連度算出方法。 - 前記カルバック・ライブラー距離算出ステップは、
前記対の2つの単語のベクトルの内積tを引数とする関数f(t)=g・(t−u) 2 +1(g、uは定数)を、前記カルバック・ライブラー距離に乗じることによって、該距離値を補正する
ことを特徴とする請求項6または7に記載の単語間関連度算出方法。 - 請求項6ないし10のいずれか1項に記載の単語間関連度算出方法の各ステップをコンピュータに実行させるためのプログラムとしたことを特徴とする単語間関連度算出プログラム。
- 請求項11に記載のプログラムを当該コンピュータが読み取りできる記録媒体に記録したことを特徴とする単語間関連度算出プログラムを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006353983A JP4314271B2 (ja) | 2006-12-28 | 2006-12-28 | 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006353983A JP4314271B2 (ja) | 2006-12-28 | 2006-12-28 | 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008165473A JP2008165473A (ja) | 2008-07-17 |
JP4314271B2 true JP4314271B2 (ja) | 2009-08-12 |
Family
ID=39694891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006353983A Active JP4314271B2 (ja) | 2006-12-28 | 2006-12-28 | 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4314271B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5131923B2 (ja) * | 2008-11-11 | 2013-01-30 | 日本電信電話株式会社 | 単語間関連度判定装置、単語間関連度判定方法、プログラムおよび記録媒体 |
JP5018817B2 (ja) * | 2009-03-27 | 2012-09-05 | 沖電気工業株式会社 | 情報処理装置、関連度計算方法、データ検索方法、及びプログラム |
-
2006
- 2006-12-28 JP JP2006353983A patent/JP4314271B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2008165473A (ja) | 2008-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI512507B (zh) | A method and apparatus for providing multi-granularity word segmentation results | |
US11055338B2 (en) | Dynamic facet tree generation | |
JP6187877B2 (ja) | 同義語抽出システム、方法および記録媒体 | |
JP6955963B2 (ja) | 検索装置、類似度算出方法、およびプログラム | |
US11625537B2 (en) | Analysis of theme coverage of documents | |
WO2014002775A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
JP2014120053A (ja) | 質問応答装置、方法、及びプログラム | |
JPWO2014002774A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
JP2006338342A (ja) | 単語ベクトル生成装置、単語ベクトル生成方法およびプログラム | |
JP6867963B2 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
JP2001331515A (ja) | 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品 | |
JP4314271B2 (ja) | 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体 | |
JP5284761B2 (ja) | 文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体 | |
JP2009277099A (ja) | 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
JP4499003B2 (ja) | 情報処理方法及び装置及びプログラム | |
JP5916016B2 (ja) | 同義判定装置、同義学習装置、及びプログラム | |
KR20160086255A (ko) | 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법 | |
JP5364529B2 (ja) | 辞書登録装置、文書ラベル判定システムおよび辞書登録プログラム | |
JPWO2009113289A1 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP5106431B2 (ja) | 機械翻訳装置、プログラム及び方法 | |
CN110598209B (zh) | 用于提取关键词的方法、系统及存储介质 | |
Alian et al. | Unsupervised learning blocking keys technique for indexing Arabic entity resolution | |
JP2011243166A (ja) | テキスト要約装置、テキスト要約方法及びテキスト要約プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080519 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090512 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090518 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120522 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4314271 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130522 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140522 Year of fee payment: 5 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |