JP4426479B2 - 単語階層関係解析装置及びそれに用いる方法、単語階層関係解析プログラム - Google Patents
単語階層関係解析装置及びそれに用いる方法、単語階層関係解析プログラム Download PDFInfo
- Publication number
- JP4426479B2 JP4426479B2 JP2005042814A JP2005042814A JP4426479B2 JP 4426479 B2 JP4426479 B2 JP 4426479B2 JP 2005042814 A JP2005042814 A JP 2005042814A JP 2005042814 A JP2005042814 A JP 2005042814A JP 4426479 B2 JP4426479 B2 JP 4426479B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- matrix
- explanatory
- extended
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
Marti A.Hearst, "Automatic Acquisition of Hyponyms from Large Text Corpora" Proceedings of the Fourteenth International Conference on Computational Linguistics, July.1992 鶴丸弘昭、竹下克典、伊丹克企、柳川俊英、吉田将、"国語辞典情報を用いたシソーラスの作成について"情報処理学会研究報告、1991−NL−83
前記出現頻度検出手段により検出された出現頻度に基づき、見出し語wiに関する説明文中において見出し語wjが現れる出現確率P(wj (1)|wi)を全てのi、jについて求める確率算出手段と、
前記解析対象文中に含まれている総単語数をmとし、前記確率算出手段により算出された出現確率P(wj (1)|wi)を用いて、j行目でi列目の要素がP(wj (1)|wi)となるm行m列の行列Aを作成する行列作成手段と、
見出し語の説明文中に出現する単語を、次の見出し語とする説明文を2次説明文とし、この2次説明文中に出現する単語を、次の見出し語とする説明文を3次説明文とし、以下再帰的に説明文を無限に展開した拡張説明文について重みα1,α2,・・・,αn,・・・を用いた行列Cを
C=α1A+α2A2+・・・+αnAn+・・・とし、この拡張説明文の行列Cを、右辺第1項から任意に定める項までを計算することにより、近似的に求める拡張説明文行列算出手段と、
前記拡張説明文行列算出手段により得られた拡張説明文の行列Cにおいて、見出し語wi,wjについてのC(wj,wi)とその対称の成分C(wi,wj)についての大小関係に基づき単語wi,wjの上位下位関係を判定する判定手段と
を具備することを特徴とする。
解析対象文中に含まれている複数の単語に一意的に1から始まる整数をIDとして付し、IDが整数iである見出し語wiに関する説明文中においてIDが整数jである見出し語wjが現れる出現頻度N(wj (1)|wi)を全てのi、jについて求める出現頻度検出手段、
前記出現頻度検出手段により検出された出現頻度に基づき、見出し語wiに関する説明文中において見出し語wjが現れる出現確率P(wj (1)|wi)を全てのi、jについて求める確率算出手段、
前記解析対象文中に含まれている総単語数をmとし、前記確率算出手段により算出された出現確率P(wj (1)|wi)を用いて、j行目でi列目の要素がP(wj (1)|wi)となるm行m列の行列Aを作成する行列作成手段、
見出し語の説明文中に出現する単語を、次の見出し語とする説明文を2次説明文とし、この2次説明文中に出現する単語を、次の見出し語とする説明文を3次説明文とし、以下再帰的に説明文を無限に展開した拡張説明文について重みα1,α2,・・・,αn,・・・を用いた行列Cを
C=α1A+α2A2+・・・+αnAn+・・・とし、この拡張説明文の行列Cを、右辺第1項から任意に定める項までを計算することにより、近似的に求める拡張説明文行列算出手段、
前記拡張説明文行列算出手段により得られた拡張説明文の行列Cにおいて、見出し語wi,wjについてのC(wj,wi)とその対称の成分C(wi,wj)についての大小関係に基づき単語wi,wjの上位下位関係を判定する判定手段
として機能させることを特徴とする。
1.Web検索エンジンを用いて、ある見出し語を含むWebページを網羅的に取得する。
2.取得したページにおけるHTMLのタグ構造を利用してページのレイアウトを解析し、見出し語を含む領域(段落)を抽出し、これを見出し語に対する説明文とする。
・判定B:(見出し語を部分的に説明している)
・判定C:(見出し語を説明していない)
この3段階で判定し、さらに用語の語義や分野に応じて分類をする。
<単語間の上位下位関係の指標>
ある単語を説明するとき、「〜の種類」「〜のひとつ」というような表現をするのが一般的である。ここで「〜」は見出し語の上位語にあたる。例えば、「ライオン」の説明文では「ネコ科の哺乳類」と表現する.つまり説明文中において「哺乳類」という単語の出現頻度が高い。しかし、見出し語「哺乳類」を説明するとき「ライオン」という単語を説明に用いることは少ない。つまり、説明文において「ライオン」の出現頻度が低い。このことから説明文に出現する単語は、見出し語の上位語の出現頻度が高い。この例では、「哺乳類」が「ライオン」の上位語であると推定できる。つまり、見出し語wiの説明文中における見出し語wjの出現頻度と,見出し語wjの説明文中における見出し語wiの出現頻度を比較することが単語間の上位下位関係を推定する1つの指標であると考えられる。
説明文における単語の出現頻度を比較することで見出し語の上位語を推定することは可能である。ただ、本発明で用いる事典コーパスはWebから集めてきた説明文であるため、各説明文における信頼性の水準に差が生じている。そこで、ある見出し語の説明文中に出現する単語も説明文を持つ、と考えることで説明文を再帰的に展開する手法を利用する。例えば「ROM」の説明文中に見出し語「RAM」が出現していたとする。また「RAM」の説明文では「記憶装置」が出現していたとする。このとき、説明文を展開することで「ROM」の上位語として「記憶装置」を推定することが可能となる。
C=α1A+α2A2+・・・+αnAn+・・・ (3)
を定義する。αnはn次説明文の全体に対する重みである。拡張説明文の行列Cの要素にあたるC(wj,wi)の値は、見出し語wiの拡張した説明文中に見出し語wjが出現する確率を表している。
拡張説明文という手法は本来、単語間の類似度を算出する手法として提案された。見出し語wiから見出し語wjを想起する確率は、
d=C(wj,wi)−C(wi,wj) (5)
を計算し,dの値が正であればwjはwiの上位の語であると推定し、負であればwjはwiの下位の語であると推定することにする。
本発明では、式(1)を用いて式(0)に示した確率行列Aを計算し、式(3)に示した拡張説明文の行列Cを算出するときにおける各n次説明文の重みの付け方についで二種類の方法を提案する。
式(3)においてn次説明文までを考慮するのではなく、低次の説明文のみを用いて、単語と単語の上位下位関係を推定する。低次の説明文を特徴量と考えて、最適な重みを線形判別分析により学習し、拡張説明文の行列Cを計算する。これは見出し語数を増やし大規模にモデルを試すときに生じる計算量の問題に対処するためである。この学習、評価法については後述の「評価実験」の項において説明する。
1次説明文ほどその見出し語を直接的に表現しているという考えから1次説明文に最も高い重みを与え、nの値に応じて指数的に減少するような重みを考える。aを定数とするとき、式(3)は、
C=b(aA+a2A2+・・・+anAn+・・・) (6)
C=abA(I−aA)-1 (8)
となり、上記(8)式により拡張説明文の行列Cを計算する。なお、Iは単位行列を示すものである。
C=(1−a)A(I−aA)-1 (8’)
となり、上記(8’)式により拡張説明文の行列Cを計算することもできる。
語彙中の語と語の上位下位関係を語に対応する説明文を用いて推定をおこなう。このとき説明文の質による推定精度を確認するために、事典コーパスにおいて説明文が人手によってA、B、Cと判定されているIT用語に限定し、その中の語の上位下位関係を推定する。今回はその見出し語に対応する複数の説明文すべてをまとめて、1つの説明文と考える。表1に、使用したIT用語の説明文の判定別データを示す。この表1においては、二人の判定が一致した場合に、単独に、A判定、B判定、C判定として分類しており、A、Bが共存する欄は判定がAとBに割れた場合を示し、A、B、Cが共存する欄は全ての判定データを示す。判評価用としてはJICST科学技術シソーラス1999年度版(約43000 語を記述)(JST(JICST)科学技術シソーラス1999年版、http://jois.jst.go.jp/jois/html/thesaurus_index.htm.)を用いる。その中で表2のように、IT用語中の二つの見出し語の上位下位関係の判定がされているものを抽出し、利用した。JICSTシソーラスに記述されていないIT用語の上位下位関係については、今回は評価を行っていない。
まず、式(5)をn次説明文まで用いて、以下のように展開する。
d=C(wj,wi)−C(wi,wj)
=α1{P(wj (1)|wi)−P(wi (1)|wj)}
+α2{P(wj (2)|wi)−P(wi (2)|wj)} (9)
+・・・・
+αn{P(wj (n)|wi)−P(wi (n)|wj)}
z=α1x1+α2x2+・・・・+αpxp (10)
という線形結合zの値によって判別ができるように係数αiを決定する手法である。
JS=SB/SW (12)
(処理1) 既述の情報源であるJICSTシソーラスについて、対象とする語彙に含まれる語のうち上位下位関係が判明している語の組をnp組用意する。なお、用意する語の組は、対象とする語彙のうち、ごく一部であってもよい。
(処理2) i番目の組に含まれる語の上位の語について、当該上位の語が含まれていた元の語彙におけるIDをwx、また、i番目の組に含まれる語の下位の語について、当該下位の語が含まれていた元の語彙におけるIDをwyとし、ベクトルziを式(0)におけるAを用いて、
上記のようにして学習して得られた重みαiを用いて、JICSTシソーラスから得られた評価用セットの正解率を算出する。評価用セッ卜における見出し語の組に対して式(9)を計算し、値が正であったものを全ての見出し語の組(評価用セッ卜のデータ数)で割ったものを正解率式(13)とした。
上述の線形判別法により推定した重みについて以下の手順1〜手順5を実行して、重みの検証を行った。
(手順1) 1次説明文(A)と2次説明文(A2)を計算し、JICSTシソーラスにおける学習用データを用いて、その重みαiをフィッシャーの線形判別法を用いて学習する。
(手順2) 学習した重みαiを用いて、JICSTシソーラスから得られた評価用セットにおける正解率を計算する。
(手順3) 4回のクロスバリデーション(交叉検定)をおこない、正解率の平均値を求める。
(手順4) 3次説明文を特徴量として増やし、同様の学習、評価を繰り返す。
(手順5) 以後、判定A,判定B,判定Cの説明文毎に、展開した説明文を特徴量として増加させながら重みを学習し、評価を行う。
指数重みを用いる場合には、上記式(8)或いは式(8’)の定数aの値を変化させながら拡張説明文の行列Cを算出する。そして、式(5)から計算できるdの値とJICSTシソーラスからの見出し語間の正しい上位下位関係を示すデータを比較するために式(13)を用いて正解率を算出する。そのときの正解率の遷移を図4に示す。
2 確率算出手段
3 行列作成手段
4 拡張説明文行列算出手段
5 判定手段
Claims (8)
- 解析対象文中に含まれている複数の単語に一意的に1から始まる整数をIDとして付し、IDが整数iである見出し語wiに関する説明文中においてIDが整数jである見出し語wjが現れる出現頻度N(wj (1)|wi)を全てのi、jについて求める出現頻度検出手段と、
前記出現頻度検出手段により検出された出現頻度に基づき、見出し語wiに関する説明文中において見出し語wjが現れる出現確率P(wj (1)|wi)を全てのi、jについて求める確率算出手段と、
前記解析対象文中に含まれている総単語数をmとし、前記確率算出手段により算出された出現確率P(wj (1)|wi)を用いて、j行目でi列目の要素がP(wj (1)|wi)となるm行m列の行列Aを作成する行列作成手段と、
見出し語の説明文中に出現する単語を、次の見出し語とする説明文を2次説明文とし、この2次説明文中
に出現する単語を、次の見出し語とする説明文を3次説明文とし、以下再帰的に説明文を無限に展開した拡張説明文について重みα1,α2,・・・,αn,・・・を用いた行列Cを
C=α1A+α2A2+・・・+αnAn+・・・とし、この拡張説明文の行列Cを、右辺第1項から任意に定める項までを計算することにより、近似的に求める拡張説明文行列算出手段と、
前記拡張説明文行列算出手段により得られた拡張説明文の行列Cにおいて、見出し語wi,wjについてのC(wj,wi)とその対称の成分C(wi,wj)についての大小関係に基づき単語wi,wjの上位下位関係を判定する判定手段と
を具備することを特徴とする単語階層関係解析装置。 - 前記拡張説明文行列算出手段は、C=α1A+α2A2+・・・+αnAn+・・・の計算に代えて、0<a<1の間で任意に定められる定数aを用いてC=(1−a)(I−aA)−1なる行列Cを計算することにより拡張説明文の行列Cを求めることを特徴とする請求項1に記載の単語階層関係解析装置。
- 前記判定手段は、C(wj,wi)とその対称の成分C(wi,wj)の差分dを求め、このdの符号が正の場合には単語wjが上位語であると判定し、このdの符号が負の場合には単語wiが上位語であると判定することを特徴とする請求項1または2に記載の単語階層関係解析装置。
- 前記拡張説明文行列算出手段は、予め定められた重みα1,α2,・・・,αn,・・・を設定する重み設定部を具備することを特徴とする請求項1に記載の単語階層関係解析装置。
- コンピュータを、
解析対象文中に含まれている複数の単語に一意的に1から始まる整数をIDとして付し、IDが整数iである見出し語wiに関する説明文中においてIDが整数jである見出し語wjが現れる出現頻度N(wj (1)|wi)を全てのi、jについて求める出現頻度検出手段、
前記出現頻度検出手段により検出された出現頻度に基づき、見出し語wiに関する説明文中において見出し語wjが現れる出現確率P(wj (1)|wi)を全てのi、jについて求める確率算出手段、
前記解析対象文中に含まれている総単語数をmとし、前記確率算出手段により算出された出現確率P(wj (1)|wi)を用いて、j行目でi列目の要素がP(wj (1)|wi)となるm行m列の行列Aを作成する行列作成手段、
見出し語の説明文中に出現する単語を、次の見出し語とする説明文を2次説明文とし、この2次説明文中に出現する単語を、次の見出し語とする説明文を3次説明文とし、以下再帰的に説明文を無限に展開した拡張説明文について重みα1,α2,・・・,αn,・・・を用いた行列Cを
C=α1A+α2A2+・・・+αnAn+・・・とし、この拡張説明文の行列Cを、右辺第1項から任意に定める項までを計算することにより、近似的に求める拡張説明文行列算出手段、
前記拡張説明文行列算出手段により得られた拡張説明文の行列Cにおいて、見出し語wi,wjについてのC(wj,wi)とその対称の成分C(wi,wj)についての大小関係に基づき単語wi,wjの上位下位関係を判定する判定手段
として機能させることを特徴とする単語階層関係解析プログラム。 - コンピュータを、C=α1A+α2A2+・・・+αnAn+・・・の計算に代えて、0<a<1の間で任意に定められる定数aを用いてC=(1−a)(I−aA)−1なる行列Cを計算することにより拡張説明文の行列Cを求める拡張説明文行列算出手段として機能させることを特徴とする請求項5に記載の単語階層関係解析プログラム。
- コンピュータを、C(wj,wi)とその対称の成分C(wi,wj)の差分dを求め、このdの符号が正の場合には単語wjが上位語であると判定し、このdの符号が負の場合には単語wiが上位語であると判定する判定手段として機能させることを特徴とする請求項5または6に記載の単語階層関係解析プログラム。
- コンピュータを、予め定められた重みα1,α2,・・・,αn,・・・を設定する重み設定手段として機能させることを特徴とする請求項5に記載の単語階層関係解析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005042814A JP4426479B2 (ja) | 2005-02-18 | 2005-02-18 | 単語階層関係解析装置及びそれに用いる方法、単語階層関係解析プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005042814A JP4426479B2 (ja) | 2005-02-18 | 2005-02-18 | 単語階層関係解析装置及びそれに用いる方法、単語階層関係解析プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006228042A JP2006228042A (ja) | 2006-08-31 |
JP4426479B2 true JP4426479B2 (ja) | 2010-03-03 |
Family
ID=36989362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005042814A Expired - Fee Related JP4426479B2 (ja) | 2005-02-18 | 2005-02-18 | 単語階層関係解析装置及びそれに用いる方法、単語階層関係解析プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4426479B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009265736A (ja) * | 2008-04-22 | 2009-11-12 | Sharp Corp | 電子機器、その制御方法およびコンピュータプログラム |
JP5936698B2 (ja) * | 2012-08-27 | 2016-06-22 | 株式会社日立製作所 | 単語意味関係抽出装置 |
-
2005
- 2005-02-18 JP JP2005042814A patent/JP4426479B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006228042A (ja) | 2006-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Stein et al. | Intrinsic plagiarism analysis | |
Collins-Thompson et al. | A language modeling approach to predicting reading difficulty | |
Jabbar et al. | Empirical evaluation and study of text stemming algorithms | |
US8321418B2 (en) | Information processor, method of processing information, and program | |
Ehsan et al. | Candidate document retrieval for cross-lingual plagiarism detection using two-level proximity information | |
WO2014002172A1 (ja) | 文脈解析装置および文脈解析方法 | |
Atia et al. | Increasing the accuracy of opinion mining in Arabic | |
US11669740B2 (en) | Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition | |
Alsallal et al. | Intrinsic plagiarism detection using latent semantic indexing and stylometry | |
CN109508460B (zh) | 基于主题聚类的无监督作文跑题检测方法及系统 | |
CN113196277A (zh) | 用于检索自然语言文档的系统 | |
JP6558863B2 (ja) | モデル作成装置、推定装置、方法、及びプログラム | |
CN113196278A (zh) | 训练自然语言检索系统的方法、检索系统以及对应的用途 | |
Hussein | Visualizing document similarity using n-grams and latent semantic analysis | |
Aida et al. | A comprehensive analysis of PMI-based models for measuring semantic differences | |
Al-Azzawy et al. | Arabic words clustering by using K-means algorithm | |
Wong et al. | isentenizer-: Multilingual sentence boundary detection model | |
JP4979637B2 (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
Ou et al. | Unsupervised citation sentence identification based on similarity measurement | |
US7536369B2 (en) | XML-based architecture for rule induction system | |
JP4426479B2 (ja) | 単語階層関係解析装置及びそれに用いる方法、単語階層関係解析プログラム | |
Forsyth | Automatic readability detection for modern standard Arabic | |
Mekala et al. | A survey on authorship attribution approaches | |
Liu et al. | Learning conditional random fields with latent sparse features for acronym expansion finding | |
Pinzhakova et al. | Feature Similarity-based Regression Models for Authorship Verification. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080331 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081007 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090915 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091208 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091210 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4426479 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121218 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121218 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131218 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |