JPH11143875A - 単語自動分類装置及び単語自動分類方法 - Google Patents

単語自動分類装置及び単語自動分類方法

Info

Publication number
JPH11143875A
JPH11143875A JP9306966A JP30696697A JPH11143875A JP H11143875 A JPH11143875 A JP H11143875A JP 9306966 A JP9306966 A JP 9306966A JP 30696697 A JP30696697 A JP 30696697A JP H11143875 A JPH11143875 A JP H11143875A
Authority
JP
Japan
Prior art keywords
word
clusters
noun
verb
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9306966A
Other languages
English (en)
Inventor
Ko Ri
航 李
Naoki Abe
直樹 安倍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Real World Computing Partnership
Original Assignee
NEC Corp
Real World Computing Partnership
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, Real World Computing Partnership filed Critical NEC Corp
Priority to JP9306966A priority Critical patent/JPH11143875A/ja
Publication of JPH11143875A publication Critical patent/JPH11143875A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 より精度が高くかつ効率的な単語分類を実現
することである。 【解決手段】 本発明の単語自動分類装置は、統計処理
部1、単語自動分類部2を備える。統計処理部1は、文
章を入力し、単語と単語の特定の文脈における共起頻度
を統計する。その後、単語自動分類部2は、統計処理部
1から単語と単語の共起頻度を入力し、確率モデルの推
定問題として単語の分類を行ない、単語分類を出力す
る。単語の自動分類問題を二つの単語集合の分割の直積
上に定義される確率モデルの推定問題として捉え、各単
語対の発生確率をクラスタ対の発生確率にそれぞれの単
語の条件付き確率を乗じた確率と定義する確率モデルの
中から、情報量基準を用いて確率モデルを選択し、ボト
ムアップ的に二つの単語集合に対して交互にクラスタリ
ングを行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、機械翻訳システ
ム、自然言語インタフェース等の自然言語処理システム
における知識獲得、知識利用のために用いられる単語自
動分類装置、該単語自動分類装置を有する機械翻訳装置
及び自然言語処理装置、記録媒体、並びに単語自動分類
方法に関するものである。
【0002】
【従来の技術】機械翻訳などの自然言語処理システムで
は、しばしばシソーラスを用いることにより性能向上す
ることが可能である。シソーラスとは、通常特定の品
詞、たとえば名詞、に属する言葉の集合を、意味、或は
用法の類似する単語を通常クラスタと称されるグループ
にまとめることにより分類するものである。また、シソ
ーラスは、クラスタ間の包含関係を含めて、再帰的な構
造を有し、通常木構造として表現される。例えば、分類
語彙表はシソーラスの一例である(分類語彙表、国立国
語研究所、秀英出版、第29版、1993)。
【0003】自然言語処理においては、分類語彙表のよ
うな汎用的なシソーラスだけでなく、応用分野に特化し
たシソーラスの需要も大きい。しかし、人手による各分
野のシソーラスの作成は多くの労力を要し、現実的には
非常に困難である。そのために、すでに電子化されてい
る文章における単語と単語の共起を基に自動的にシソー
ラスを作成する試みが成されている。ここでの基本的な
考え方は、共通の単語と共起する単語は意味的に類似す
る傾向があるということである。例えば、動詞「飲む」
の前に目的語として「ワイン」や「ビール」等の単語が
よく現れるが、「ボール」や「米」等の単語はほとんど
現れない。従って、これらの共起データを基に「ワイ
ン」と「ビール」を同じクラスタに分類することができ
るはずである。ここで、いかに精度よく、しかも計算効
率的に単語の自動分類を実現するか、ひいてはシソーラ
スを作成するかが、重要な課題となる。
【0004】従来この種の研究において、単語と単語の
共起頻度を基に単語を自動分類する発明が幾つかある。
例えば、ペレイラらによって(F. Pereira, N. Tishby,
L. Lee, Distributional Clustering of English Word
s, Proceedings of Annual Meeting of Association fo
r Computational Linguistics, pp.183-190, 1992.)、
単語の分類を熱力学における自由エネルギー最小化の手
法を用いて行うことが提案されている(以下、第1の従
来技術と呼ぶ)。しかし、この第1の従来技術では、単
語の分類に多くの処理時間を必要とし、現実的な場面に
用いることが困難である。
【0005】また、ブラウンらによって(Peter F. Brow
n, Vincent J. Della Pietra, Peter V. deSouza, Jeni
fer C. Lai and Robert L. Mercer, Class-based n-gra
m Models of Natural Language, Computational Lingui
stics, vol.18, no.4, pp.283-298, 1992.) 、単語の分
類を単語クラスタ上の相互情報量の最大化手法を用いて
行うことが提案されている(以下、第2の従来技術と呼
ぶ)。しかし、この第2の従来技術では、特定の入力共
起頻度データに過度に依存する形で単語分類する、いわ
ゆる「過学習」の現象が生じ、分類の精度がよくないと
いう問題点があった。
【0006】また、特願平7−065716号公報に
は、共起頻度データに基づく単語分類問題を二つの単語
集合の分割の直積上に定義される確率モデルの選択問
題、つまり統計的推定問題として捉えることと、情報理
論や数理統計学の分野で提案されている情報量基準を用
いることを主な特徴とする単語自動分類システム(以
下、第3の従来技術と呼ぶ)が開示されている。
【0007】
【発明が解決しようとする課題】しかしながら、上記し
た第3の従来技術には以下に述べる幾つかの問題点があ
る。共起頻度データに基づく単語分類の基本的な考え
は、共起頻度データの統計的パターンの類似する単語を
まとめることである。ところが前記第3の従来技術にお
いて採用されている確率モデルは、同じクラスタに分類
された単語が等しい確率で生起されるという仮定をもつ
ので、共起パターンは類似するが絶対頻度が異なる単語
を異なるクラスタに分類する傾向があるという問題点が
生ずる。さらに、この発明では片方の単語集合を固定
し、もう片方の単語集合にある単語だけを分類するよう
にしていたので、分類の精度に悪い影響を与えることが
あった。また、アルゴリズムとしては、シミュレーテッ
ド・アニーリングを用いており、処理速度上にも問題が
生ずる。
【0008】本発明の目的は、上記した問題点を解消
し、精度のよいかつ効率的な単語分類の実現を可能とす
る単語自動分類装置、該単語自動分類装置を有する機械
翻訳装置及び自然言語処理装置、並びに単語自動分類方
法を提供することである。
【0009】
【課題を解決するための手段】本発明では、上記した問
題点を以下のようにして克服する。第一に、二つの単語
集合の分割の直積上に定義される確率モデルにおける一
様分布の仮定を取り除いた。即ち、両方とも同一クラス
タ積に属する単語の対が一様分布で発生するのではな
く、それぞれの単語の単独の発生確率に一定の共起度を
乗じた確率により発生するとする。これにより、単語の
絶対頻度に影響されず単語の共起頻度データの統計的パ
ターンの近さに基づく分類が可能となる。第二に、両単
語集合における単語を交互に分類することにより、単語
分類精度の向上を図る。第三に、トップダウン的に単語
分類を行うのではなく、ボトムアップに単語の分類を行
い、情報量基準による分類の計算を効率的に行う。
【0010】以下に本発明の特徴を具体的に述べる。本
発明に係る単語自動分類装置は、文章を入力とし、任意
の単語集合対について、両単語集合に属する単語間の入
力文章における共起頻度を統計し、共起頻度データを作
成する統計処理部と、該統計処理部により計算された前
記共起頻度データに基づき、複数の単語クラスタを併合
する操作を再帰的に交互に両集合について行ない、分類
された両単語集合のシソーラスを出力する単語自動分類
部を具備して構成され、該単語自動分類部は、各単語対
の発生確率を、それらが属する単語クラスタ対の共起確
率に各単語の条件付き確率を乗じた確率として定義する
確率モデルから発生されたものであるとし、前記両単語
集合における単語の分類問題を前記確率モデルの推定問
題として捉え、記述長最小原理等の情報量基準を用い
て、再帰的に併合する際の最も効果的な複数の単語クラ
スタを判定した後、前記シソーラスを出力することを特
徴とする。
【0011】さらに、前記単語自動分類装置において、
前記単語自動分類部は、前記複数の単語クラスタを併合
する操作において、名詞クラスタの集合と動詞クラスタ
の集合をそれぞれ初期化し、マージと呼ばれるアルゴリ
ズムにて前記名詞クラスタの集合と前記動詞クラスタの
集合を更新し、更新が終了した後、過去の名詞クラスタ
及び動詞クラスタの集合を木構造に変換し、それぞれ名
詞のシソーラス及び動詞のシソーラスとして出力する。
【0012】さらに、前記単語自動分類装置において、
前記確率モデルは、名詞クラスタ及び動詞クラスタをそ
れぞれCn,Cvとし、P(n|Cn)を名詞クラスタ
Cnに分類された単語nの条件付き確率とし、P(v|
Cv)を動詞クラスタCvに分類された単語vの条件付
き確率とし、P(Cn,Cv)を名詞クラスタ及び動詞
クラスタ対の共起確率とした場合、P(n|Cn)にP
(v|Cv)を乗算したものにP(Cn,Cv)を乗算
して生成される。
【0013】又、本発明に係る機械翻訳装置は、文章を
入力とし、任意の単語集合対について、両単語集合に属
する単語間の入力文章における共起頻度を統計し、共起
頻度データを作成する統計処理部と、該統計処理部によ
り計算された前記共起頻度データに基づき、複数の単語
クラスタを併合する操作を再帰的に交互に両集合につい
て行ない、分類された両単語集合のシソーラスを出力す
る単語自動分類部を有する単語自動分類装置を具備して
構成され、前記単語自動分類部は、各単語対の発生確率
を、それらが属する単語クラスタ対の共起確率に各単語
の条件付き確率を乗じた確率として定義する確率モデル
から発生されたものであるとし、前記両単語集合におけ
る単語の分類問題を前記確率モデルの推定問題として捉
え、記述長最小原理等の情報量基準を用いて、再帰的に
併合する際の最も効果的な複数の単語クラスタを判定し
た後、前記シソーラスを出力することを特徴とする。
【0014】さらに、前記機械翻訳装置において、前記
単語自動分類部は、前記複数の単語クラスタを併合する
操作において、名詞クラスタの集合と動詞クラスタの集
合をそれぞれ初期化し、マージと呼ばれるアルゴリズム
にて前記名詞クラスタの集合と前記動詞クラスタの集合
を更新し、更新が終了した後、過去の名詞クラスタ及び
動詞クラスタの集合を木構造に変換し、それぞれ名詞の
シソーラス及び動詞のシソーラスとして出力する。
【0015】さらに、前記機械翻訳装置において、前記
確率モデルは、名詞クラスタ及び動詞クラスタをそれぞ
れCn,Cvとし、P(n|Cn)を名詞クラスタCn
に分類された単語nの条件付き確率とし、P(v|C
v)を動詞クラスタCvに分類された単語vの条件付き
確率とし、P(Cn,Cv)を名詞クラスタ及び動詞ク
ラスタ対の共起確率とした場合、P(n|Cn)にP
(v|Cv)を乗算したものにP(Cn,Cv)を乗算
して生成される。
【0016】又、本発明に係る自然言語処理装置は、文
章を入力とし、任意の単語集合対について、両単語集合
に属する単語間の入力文章における共起頻度を統計し、
共起頻度データを作成する統計処理部と、該統計処理部
により計算された前記共起頻度データに基づき、複数の
単語クラスタを併合する操作を再帰的に交互に両集合に
ついて行ない、分類された両単語集合のシソーラスを出
力する単語自動分類部を有する単語自動分類装置を具備
して構成され、前記単語自動分類部は、各単語対の発生
確率を、それらが属する単語クラスタ対の共起確率に各
単語の条件付き確率を乗じた確率として定義する確率モ
デルから発生されたものであるとし、前記両単語集合に
おける単語の分類問題を前記確率モデルの推定問題とし
て捉え、記述長最小原理等の情報量基準を用いて、再帰
的に併合する際の最も効果的な複数の単語クラスタを判
定した後、前記シソーラスを出力することを特徴とす
る。
【0017】さらに、前記自然言語処理装置において、
前記単語自動分類部は、前記複数の単語クラスタを併合
する操作において、名詞クラスタの集合と動詞クラスタ
の集合をそれぞれ初期化し、マージと呼ばれるアルゴリ
ズムにて前記名詞クラスタの集合と前記動詞クラスタの
集合を更新し、更新が終了した後、過去の名詞クラスタ
及び動詞クラスタの集合を木構造に変換し、それぞれ名
詞のシソーラス及び動詞のシソーラスとして出力する。
【0018】さらに、前記自然言語処理装置において、
前記確率モデルは、名詞クラスタ及び動詞クラスタをそ
れぞれCn,Cvとし、P(n|Cn)を名詞クラスタ
Cnに分類された単語nの条件付き確率とし、P(v|
Cv)を動詞クラスタCvに分類された単語vの条件付
き確率とし、P(Cn,Cv)を名詞クラスタ及び動詞
クラスタ対の共起確率とした場合、P(n|Cn)にP
(v|Cv)を乗算したものにP(Cn,Cv)を乗算
して生成される。
【0019】又、本発明に係る単語自動分類方法は、文
章を入力とし、任意の単語集合対について、両単語集合
に属する単語間の入力文章における共起頻度を統計し、
共起頻度データを作成する統計処理ステップと、該統計
処理部により計算された前記共起頻度データに基づき、
複数の単語クラスタを併合する操作を再帰的に交互に両
集合について行ない、分類された両単語集合のシソーラ
スを出力する単語自動分類ステップを有し、各単語対の
発生確率を、それらが属する単語クラスタ対の共起確率
に各単語の条件付き確率を乗じた確率として定義する確
率モデルから発生されたものであるとし、前記両単語集
合における単語の分類問題を前記確率モデルの推定問題
として捉え、記述長最小原理等の情報量基準を用いて、
前記単語自動分類ステップにて再帰的に併合する際の最
も効果的な複数の単語クラスタを判定することを特徴と
する。
【0020】さらに、前記単語自動分類方法において、
前記複数の単語クラスタを併合する操作において、名詞
クラスタの集合と動詞クラスタの集合をそれぞれ初期化
し、マージと呼ばれるアルゴリズムにて前記名詞クラス
タの集合と前記動詞クラスタの集合を更新し、更新が終
了した後、過去の名詞クラスタ及び動詞クラスタの集合
を木構造に変換し、それぞれ名詞のシソーラス及び動詞
のシソーラスとして出力する。
【0021】さらに、前記単語自動分類方法において、
前記確率モデルは、名詞クラスタ及び動詞クラスタをそ
れぞれCn,Cvとし、P(n|Cn)を名詞クラスタ
Cnに分類された単語nの条件付き確率とし、P(v|
Cv)を動詞クラスタCvに分類された単語vの条件付
き確率とし、P(Cn,Cv)を名詞クラスタ及び動詞
クラスタ対の共起確率とした場合、P(n|Cn)にP
(v|Cv)を乗算したものにP(Cn,Cv)を乗算
して生成される。
【0022】又、本発明に係る記憶媒体は、任意の単語
集合対について、両単語集合に属する単語間の特定の文
脈における共起頻度データから分類された両単語集合の
シソーラスを得るためのプログラムを有する記録媒体に
おいて、単語クラスタ対の共起確率に各単語の条件付き
確率を乗じて得られる前記各単語対の発生確率を前記共
起頻度データのパラメータとして格納することを特徴と
する。
【0023】又、本発明に係る記憶媒体は、名詞クラス
タの集合と動詞クラスタの集合をそれぞれ初期化し、マ
ージと呼ばれるアルゴリズムにて前記名詞クラスタの集
合と前記動詞クラスタの集合を更新し、更新が終了した
後、過去の名詞クラスタ及び動詞クラスタの集合を木構
造に変換し、それぞれ名詞のシソーラス及び動詞のシソ
ーラスを得るためのプログラムを格納することを特徴と
する。
【0024】
【発明の実施の形態】以下、本発明の単語自動分類装置
の一実施の形態について述べる。図1にその構成を示
す。単語自動分類装置は、図1に示すように統計処理部
1、単語自動分類部2を備えて構成される。統計処理部
1は、文章を入力とし、特定の二つの単語集合に属する
単語間の特定の文脈における共起頻度を統計し、この二
つの単語集合における単語間の共起頻度データを作成す
る。その後、単語自動分類部2が、統計処理部1から共
起頻度行列の入力受け、両単語集合について単語の分類
を行ない、それぞれの単語集合を対象とした単語の階層
的分類(シソーラス)を出力する。図2に統計処理部1
が作成する共起頻度行列の例を示す。
【0025】図2の例では、対象とする二つの単語集合
は名詞の集合と動詞の集合とした。また、二つの単語集
合に属する単語間の共起頻度行列は、ある文章データか
ら統計された動詞とその目的語の共起の頻度データであ
る。通常、意味の類似する単語は近い共起頻度の統計的
パターンをもつ。従って、共起パターンの近さから単語
を自動的に分類することができる。図3と図4は、単語
自動分類部が出力する名詞集合と動詞集合における単語
のシソーラスの例を示す。
【0026】単語自動分類部は、二つの単語集合におけ
る単語の分類を以下のように再帰的に行う。一般性を失
わず、前者の単語集合が名詞の集合、後者の単語集合が
動詞の集合であるとする。処理の最初においては、両単
語集合中のそれぞれの単語が一つのクラスタを形成す
る。まず、名詞集合におけるクラスタに対して数回クラ
スタリングを行なう。ここでは、単語集合における二つ
以上のクラスタを一つのクラスタにまとめることをクラ
スタリングと言う。次に、名詞集合で得られたクラスタ
を固定したまま、動詞集合におけるクラスタに対して同
様に数回クラスタリングを行う。このように、名詞集合
と動詞集合に対して、交互にクラスタリングを行い、こ
れ以上できないところまで処理していく。最終的に名詞
のシソーラスと動詞のシソーラスが得られる。クラスタ
リングはシソーラスの観点からみればボトムアップに行
われている。
【0027】上記クラスタリンブを行う際、現段階にあ
るクラスタの中から、二つ以上のクラスタを選び一つの
クラスタにまとめるが、どのクラスタ同士がもっとも類
似していて、まとめるべきかの判断がクラスタリングの
際のもっとも重要な事項となる。
【0028】以下に、二つ以上のクラスタをまとめる方
法について詳細に述べる。本発明では、まず、二つの単
語集合の単語間の共起頻度データが、二つの単語集合に
対する特定の分割による直積上に定義される確率モデル
から生成されたものであるとする。同じ状況では、様々
な分割が可能であるので、二つの単語集合に対する一つ
の分割が決まれば、上記確率モデルの一つが決まること
になる。本発明では、入力の共起頻度データをもっとも
良く説明でき、かつほどほど単純な上記確率モデルを一
つ選び、そのモデルに対応するクラスタリングを単語分
類の結果とする。
【0029】本発明で用いるボトムアップのクラスタリ
ングにおいては、処理中の各段階において、例えば名詞
集合に対して、現在あるクラスタの内、どちらのクラス
タをまとめれば、共起頻度データをもっともよく説明で
きるかを判断することになる。
【0030】本分類方式で用いる確率モデルを以下に定
義する。この確率モデルは、二つの単語集合の分割の直
積上に定義されるものであり、さらに、同じクラスタに
属する単語対が一様に発生するのではなく、それぞれ異
なる確率で発生することを特徴とする。
【0031】ここでは、名詞集合と動詞集合間の共起デ
ータ、つまり名詞・動詞の対(n,v)が以下の数1に
示すような確率モデルによって生成されるとし、その確
率モデルの推定問題としてクラスタリングの問題を定式
化する。
【0032】
【数1】 前記数1でCnとCvはそれぞれ名詞クラスタと動詞ク
ラスタを表す。P(n|Cn)は名詞クラスタCnに分
類された単語nの発生条件つき確率(生起条件つき確
率)を表し、P(v|Cv)は動詞クラスタCvに分類
された単語vの発生条件つき確率(生起条件つき確率)
を表し、P(Cn,Cv)は名詞クラスタCnと動詞ク
ラスタCvの共起確率を表す。名詞集合に対する一つの
クラスタリングが決まれば、名詞クラスタCnも決ま
る。動詞集合に対しても同様なことが言える。
【0033】次に確率モデルを選択する基準が問題とな
るが、本発明では、MDL基準という情報量基準を用い
て、共起頻度データをもっとも良く説明でき、かつほど
ほど単純な上記確率モデルを一つ選ぶ。
【0034】MDL基準(MDL原理ともいう)は、数
理統計学や情報理論における確率モデルを推定するため
の基準であり、入力されたデータを基に、複数の確率モ
デルの中から最適なモデルを選択する基準を与えるもの
である。具体的には、MDL基準は「モデル記述長」と
呼ばれる量と「データ記述長」と呼ばれる量の和が最小
にするようなモデルが最適なモデルであると主張する
(J. Rissanen, Modeling by Shortest Data Descripti
on, Automatica, Vol.14, 1978)(J. Rissanen,Univer
sal Coding, Information, Prediction, and estimatio
n,IEEE Trans. on IT, Vol. IT-30, 1984)。近年、M
DL基準による確率モデルの推定に関する研究が盛んに
なってきている。また、理論的にも、MDL基準による
確率モデルの推定は多くの望ましい性質を持つことも明
かにされてきている。
【0035】まず、一つの確率モデルが与えらると、モ
デル記述長とそのモデルによるデータ記述長は以下の数
2に示すように計算される。ここで、第1の項はデータ
記述長で、第2の項はモデル記述長である。また、nは
名詞を表し、Nは名詞集合を表す。vは動詞を表し、V
は動詞集合を表す。kは上記確率モデルにおける自由パ
ラメータの数、Sはデータのサイズを表す。aは正の定
数で、通常重みと呼ばれる。
【0036】
【数2】 次に、シソーラス作成、即ち再帰的な単語クラスタリン
グのアルゴリズムについて述べる。ここでは便宜的にこ
のアルゴリズムを「クラスタリング」と呼ぶ。クラスタ
リングでは、名詞集合と動詞集合に対して交互に単語分
類を行う。また、前記MDL基準を適用するにあたっ
て、モデル記述長に重みを掛けて、単語クラスタリング
の際、この重みの値を徐々に上げて行く。
【0037】以下、前記クラスタリング(N,V,
〈a〉)について述べる。Nは名詞集合、Vは動詞集合
を表す。さらに、〈a〉は一連の重み係数からなる長さ
Tのベクトルである。名詞クラスタの集合CN(CN=
{{n}|nはNに属する})と動詞クラスタの集合C
V(CV={{v}|vはVに属する})をそれぞれ以
下のように初期化する。
【0038】まず、t=1〜Tに対して、以下の手順
(ステップ1〜ステップ3)を繰り返す。マージ(C
N,CV,a(t) )によりCNを更新する(ステップ
1)。次に、マージ(CV,CN,a(t) )によりCV
を更新する(ステップ2)。次に、もしCN及びCVも
不変であったならば、過去のCNの経歴を木構造に変換
して、これを名詞のシソーラスとして出力する。また、
同様に過去のCVの経歴を木構造に変換して動詞のシソ
ーラスとして出力する(ステップ3)。
【0039】一回のクラスタリングは以下のマージと呼
ばれるアルゴリズムによって行う。逆の場合もほとんど
同様なので、ここでは、動詞のクラスタを固定して、名
詞のクラスタを更新する場合についてのみ説明する。そ
れぞれの名詞クラスタに対して一つの頻度ベクトルが対
応する。この頻度ベクトルのそれぞれの要素は、その名
詞クラスタと一つの動詞クラスタとの共起頻度である。
名詞のクラスタをマージする場合と、マージしない場合
のモデルにおいて、動詞のクラスタは固定しているとす
る。この手順では、名詞クラスタ集合CNの中の名詞ク
ラスタを最大R(Rは正の定数)個マージする。
【0040】次に、マージ(CN,CV,a)について
述べる。まず、名詞クラスタ集合CN中の任意の二つの
名詞クラスタについて、それらがマージされる場合の記
述長の減少を計算し、記述長の減少の大きい順に名詞ク
ラスタ対(以下マージと呼ぶ)をソートする。次に、記
述長減少の最も大きいマージをR個選び、記述長減少の
最大のマージを実行した場合の記述長の減少を計算し、
この処理をR回繰り返す。記述長が本当に減少するので
あれば、そのマージを採用する。尚、データ記述長とモ
デル記述長のa倍の和を記述長とする。最後に、現時点
の名詞クラスタ集合CNを出力し終了する。
【0041】
【発明の効果】本発明によれば、従来発明の問題点を解
決し、より精度が高くかつ効率的な単語分類を実現でき
る。
【0042】まず、同じクラスタ対に属する単語対が一
様分布で発生するのではなく、各単語はクラスタ対が発
生したという条件のもとで一定の条件付き確率で発生す
るとしたので、単語の絶対頻度に影響されず単語の共起
頻度データの統計的パターンの近さに基づく分類が可能
となった。また、ボトムアップに単語の分類を行うこと
によって単語分類が効率的になる。
【0043】また、情報量基準で確率モデルを選択する
ことにより、たとえばブラウンらの発明による相互情報
量の最大化によるクラスタリング法の課題である過学習
の問題を克服することが可能になる。
【図面の簡単な説明】
【図1】本発明の単語自動分類装置の構成を示した図で
ある。
【図2】共起頻度データの一実施例を示した図である。
【図3】名詞のシソーラスの一実施例を示した図であ
る。
【図4】動詞のシソーラスの一実施例を示した図であ
る。
【符号の説明】
1 統計処理部 2 単語自動分類部

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 文章を入力とし、任意の単語集合対につ
    いて、両単語集合に属する単語間の入力文章における共
    起頻度を統計し、共起頻度データを作成する統計処理部
    と、該統計処理部により計算された前記共起頻度データ
    に基づき、複数の単語クラスタを併合する操作を再帰的
    に交互に両集合について行ない、分類された両単語集合
    のシソーラスを出力する単語自動分類部を具備して構成
    され、該単語自動分類部は、各単語対の発生確率を、そ
    れらが属する単語クラスタ対の共起確率に各単語の条件
    付き確率を乗じた確率として定義する確率モデルから発
    生されたものであるとし、前記両単語集合における単語
    の分類問題を前記確率モデルの推定問題として捉え、記
    述長最小原理等の情報量基準を用いて、再帰的に併合す
    る際の最も効果的な複数の単語クラスタを判定した後、
    前記シソーラスを出力することを特徴とする単語自動分
    類装置。
  2. 【請求項2】 前記単語自動分類部は、前記複数の単語
    クラスタを併合する操作において、名詞クラスタの集合
    と動詞クラスタの集合をそれぞれ初期化し、マージと呼
    ばれるアルゴリズムにて前記名詞クラスタの集合と前記
    動詞クラスタの集合を更新し、更新が終了した後、過去
    の名詞クラスタ及び動詞クラスタの集合を木構造に変換
    し、それぞれ名詞のシソーラス及び動詞のシソーラスと
    して出力することを特徴とする請求項1記載の単語自動
    分類装置。
  3. 【請求項3】 前記確率モデルは、名詞クラスタ及び動
    詞クラスタをそれぞれCn,Cvとし、P(n|Cn)
    を名詞クラスタCnに分類された単語nの条件付き確率
    とし、P(v|Cv)を動詞クラスタCvに分類された
    単語vの条件付き確率とし、P(Cn,Cv)を名詞ク
    ラスタ及び動詞クラスタ対の共起確率とした場合、P
    (n|Cn)にP(v|Cv)を乗算したものにP(C
    n,Cv)を乗算して生成されることを特徴とする請求
    項1又は2記載の単語自動分類装置。
  4. 【請求項4】 知識獲得のための単語自動分類装置を有
    する機械翻訳装置において、前記単語自動分類装置は、
    文章を入力とし、任意の単語集合対について、両単語集
    合に属する単語間の入力文章における共起頻度を統計
    し、共起頻度データを作成する統計処理部と、該統計処
    理部により計算された前記共起頻度データに基づき、複
    数の単語クラスタを併合する操作を再帰的に交互に両集
    合について行ない、分類された両単語集合のシソーラス
    を出力する単語自動分類部を具備して構成され、該単語
    自動分類部は、各単語対の発生確率を、それらが属する
    単語クラスタ対の共起確率に各単語の条件付き確率を乗
    じた確率として定義する確率モデルから発生されたもの
    であるとし、前記両単語集合における単語の分類問題を
    前記確率モデルの推定問題として捉え、記述長最小原理
    等の情報量基準を用いて、再帰的に併合する際の最も効
    果的な複数の単語クラスタを判定した後、前記シソーラ
    スを出力することを特徴とする機械翻訳装置。
  5. 【請求項5】 前記単語自動分類部は、前記複数の単語
    クラスタを併合する操作において、名詞クラスタの集合
    と動詞クラスタの集合をそれぞれ初期化し、マージと呼
    ばれるアルゴリズムにて前記名詞クラスタの集合と前記
    動詞クラスタの集合を更新し、更新が終了した後、過去
    の名詞クラスタ及び動詞クラスタの集合を木構造に変換
    し、それぞれ名詞のシソーラス及び動詞のシソーラスと
    して出力することを特徴とする請求項4記載の機械翻訳
    装置。
  6. 【請求項6】 前記確率モデルは、名詞クラスタ及び動
    詞クラスタをそれぞれCn,Cvとし、P(n|Cn)
    を名詞クラスタCnに分類された単語nの条件付き確率
    とし、P(v|Cv)を動詞クラスタCvに分類された
    単語vの条件付き確率とし、P(Cn,Cv)を名詞ク
    ラスタ及び動詞クラスタ対の共起確率とした場合、P
    (n|Cn)にP(v|Cv)を乗算したものにP(C
    n,Cv)を乗算して生成されることを特徴とする請求
    項4又は5記載の機械翻訳装置。
  7. 【請求項7】 知識獲得のための単語自動分類装置を有
    する自然言語処理装置において、前記単語自動分類装置
    は、文章を入力とし、任意の単語集合対について、両単
    語集合に属する単語間の入力文章における共起頻度を統
    計し、共起頻度データを作成する統計処理部と、該統計
    処理部により計算された前記共起頻度データに基づき、
    複数の単語クラスタを併合する操作を再帰的に交互に両
    集合について行ない、分類された両単語集合のシソーラ
    スを出力する単語自動分類部を具備して構成され、該単
    語自動分類部は、各単語対の発生確率を、それらが属す
    る単語クラスタ対の共起確率に各単語の条件付き確率を
    乗じた確率として定義する確率モデルから発生されたも
    のであるとし、前記両単語集合における単語の分類問題
    を前記確率モデルの推定問題として捉え、記述長最小原
    理等の情報量基準を用いて、再帰的に併合する際の最も
    効果的な複数の単語クラスタを判定した後、前記シソー
    ラスを出力することを特徴とする自然言語処理装置。
  8. 【請求項8】 前記単語自動分類部は、前記複数の単語
    クラスタを併合する操作において、名詞クラスタの集合
    と動詞クラスタの集合をそれぞれ初期化し、マージと呼
    ばれるアルゴリズムにて前記名詞クラスタの集合と前記
    動詞クラスタの集合を更新し、更新が終了した後、過去
    の名詞クラスタ及び動詞クラスタの集合を木構造に変換
    し、それぞれ名詞のシソーラス及び動詞のシソーラスと
    して出力することを特徴とする請求項7記載の自然言語
    処理装置。
  9. 【請求項9】 前記確率モデルは、名詞クラスタ及び動
    詞クラスタをそれぞれCn,Cvとし、P(n|Cn)
    を名詞クラスタCnに分類された単語nの条件付き確率
    とし、P(v|Cv)を動詞クラスタCvに分類された
    単語vの条件付き確率とし、P(Cn,Cv)を名詞ク
    ラスタ及び動詞クラスタ対の共起確率とした場合、P
    (n|Cn)にP(v|Cv)を乗算したものにP(C
    n,Cv)を乗算して生成されることを特徴とする請求
    項7又は8記載の自然言語処理装置。
  10. 【請求項10】 文章を入力とし、任意の単語集合対に
    ついて、両単語集合に属する単語間の入力文章における
    共起頻度を統計し、共起頻度データを作成する統計処理
    ステップと、該統計処理部により計算された前記共起頻
    度データに基づき、複数の単語クラスタを併合する操作
    を再帰的に交互に両集合について行ない、分類された両
    単語集合のシソーラスを出力する単語自動分類ステップ
    を有し、各単語対の発生確率を、それらが属する単語ク
    ラスタ対の共起確率に各単語の条件付き確率を乗じた確
    率として定義する確率モデルから発生されたものである
    とし、前記両単語集合における単語の分類問題を前記確
    率モデルの推定問題として捉え、記述長最小原理等の情
    報量基準を用いて、前記単語自動分類ステップにて再帰
    的に併合する際の最も効果的な複数の単語クラスタを判
    定することを特徴とする単語自動分類方法。
  11. 【請求項11】 前記複数の単語クラスタを併合する操
    作において、名詞クラスタの集合と動詞クラスタの集合
    をそれぞれ初期化し、マージと呼ばれるアルゴリズムに
    て前記名詞クラスタの集合と前記動詞クラスタの集合を
    更新し、更新が終了した後、過去の名詞クラスタ及び動
    詞クラスタの集合を木構造に変換し、それぞれ名詞のシ
    ソーラス及び動詞のシソーラスとして出力することを特
    徴とする請求項10記載の単語自動分類方法。
  12. 【請求項12】 前記確率モデルは、名詞クラスタ及び
    動詞クラスタをそれぞれCn,Cvとし、P(n|C
    n)を名詞クラスタCnに分類された単語nの条件付き
    確率とし、P(v|Cv)を動詞クラスタCvに分類さ
    れた単語vの条件付き確率とし、P(Cn,Cv)を名
    詞クラスタ及び動詞クラスタ対の共起確率とした場合、
    P(n|Cn)にP(v|Cv)を乗算したものにP
    (Cn,Cv)を乗算して生成されることを特徴とする
    請求項10又は11記載の単語自動分類方法。
  13. 【請求項13】 任意の単語集合対について、両単語集
    合に属する単語間の特定の文脈における共起頻度データ
    から分類された両単語集合のシソーラスを得るためのプ
    ログラムを有する記録媒体において、単語クラスタ対の
    共起確率に各単語の条件付き確率を乗じて得られる前記
    各単語対の発生確率を前記共起頻度データのパラメータ
    として格納することを特徴とする記録媒体。
  14. 【請求項14】 名詞クラスタの集合と動詞クラスタの
    集合をそれぞれ初期化し、マージと呼ばれるアルゴリズ
    ムにて前記名詞クラスタの集合と前記動詞クラスタの集
    合を更新し、更新が終了した後、過去の名詞クラスタ及
    び動詞クラスタの集合を木構造に変換し、それぞれ名詞
    のシソーラス及び動詞のシソーラスを得るためのプログ
    ラムを格納することを特徴とする記録媒体。
JP9306966A 1997-11-10 1997-11-10 単語自動分類装置及び単語自動分類方法 Pending JPH11143875A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9306966A JPH11143875A (ja) 1997-11-10 1997-11-10 単語自動分類装置及び単語自動分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9306966A JPH11143875A (ja) 1997-11-10 1997-11-10 単語自動分類装置及び単語自動分類方法

Publications (1)

Publication Number Publication Date
JPH11143875A true JPH11143875A (ja) 1999-05-28

Family

ID=17963418

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9306966A Pending JPH11143875A (ja) 1997-11-10 1997-11-10 単語自動分類装置及び単語自動分類方法

Country Status (1)

Country Link
JP (1) JPH11143875A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002005131A1 (fr) * 2000-07-06 2002-01-17 Iiga Co., Ltd Dispositif de recherche
JP2002056010A (ja) * 2000-06-09 2002-02-20 Trw Inc 語彙探索及び分類システム及び方法
US6591248B1 (en) 1998-11-27 2003-07-08 Nec Corporation Banner advertisement selecting method
JP2008058341A (ja) * 2006-08-29 2008-03-13 Nippon Hoso Kyokai <Nhk> 単語分類装置及び音声認識装置及び単語分類プログラム
JP2010015395A (ja) * 2008-07-03 2010-01-21 Kddi Corp 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム
JP2013089086A (ja) * 2011-10-19 2013-05-13 Nippon Telegr & Teleph Corp <Ntt> 話題推薦装置及び方法及びプログラム
CN110442767A (zh) * 2019-07-31 2019-11-12 腾讯科技(深圳)有限公司 一种确定内容互动平台标签的方法、装置及可读存储介质
US10643152B2 (en) 2017-03-30 2020-05-05 Fujitsu Limited Learning apparatus and learning method

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6591248B1 (en) 1998-11-27 2003-07-08 Nec Corporation Banner advertisement selecting method
JP2002056010A (ja) * 2000-06-09 2002-02-20 Trw Inc 語彙探索及び分類システム及び方法
WO2002005131A1 (fr) * 2000-07-06 2002-01-17 Iiga Co., Ltd Dispositif de recherche
JP2008058341A (ja) * 2006-08-29 2008-03-13 Nippon Hoso Kyokai <Nhk> 単語分類装置及び音声認識装置及び単語分類プログラム
JP2010015395A (ja) * 2008-07-03 2010-01-21 Kddi Corp 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム
JP2013089086A (ja) * 2011-10-19 2013-05-13 Nippon Telegr & Teleph Corp <Ntt> 話題推薦装置及び方法及びプログラム
US10643152B2 (en) 2017-03-30 2020-05-05 Fujitsu Limited Learning apparatus and learning method
CN110442767A (zh) * 2019-07-31 2019-11-12 腾讯科技(深圳)有限公司 一种确定内容互动平台标签的方法、装置及可读存储介质
CN110442767B (zh) * 2019-07-31 2023-08-18 腾讯科技(深圳)有限公司 一种确定内容互动平台标签的方法、装置及可读存储介质

Similar Documents

Publication Publication Date Title
CN110609899B (zh) 一种基于改进bert模型的特定目标情感分类方法
CN110413986A (zh) 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
US7275029B1 (en) System and method for joint optimization of language model performance and size
CN111090736B (zh) 问答模型的训练方法、问答方法、装置及计算机存储介质
CN107704892A (zh) 一种基于贝叶斯模型的商品编码分类方法以及系统
CN107273352B (zh) 一种基于Zolu函数的词嵌入学习模型及训练方法
CN111859961A (zh) 一种基于改进TopicRank算法的文本关键词抽取方法
JPH11143875A (ja) 単語自動分類装置及び単語自動分類方法
CN107886132B (zh) 一种求解音乐流量预测的时间序列分解方法及系统
CN111737467B (zh) 一种基于分段卷积神经网络的对象级情感分类方法
CN111091001B (zh) 一种词语的词向量的生成方法、装置及设备
CN110377753B (zh) 基于关系触发词与gru模型的关系抽取方法及装置
CN112925912A (zh) 文本处理方法、同义文本召回方法及装置
CN112668838A (zh) 一种基于自然语言解析的评分标准词库建立方法及装置
CN109934347A (zh) 扩展问答知识库的装置
CN116910599A (zh) 数据聚类方法、系统、电子设备及存储介质
CN110705277A (zh) 一种基于循环神经网络的中文词义消岐方法
CN109885668A (zh) 一种可扩展的领域人机对话系统状态跟踪方法及设备
CN111339287B (zh) 摘要生成方法及装置
JP3266106B2 (ja) 文章自動分類装置及び方法
CN114357152A (zh) 信息处理方法、装置、计算机可读存储介质和计算机设备
JP3889663B2 (ja) 分類装置、分類方法、分類プログラム及びそのプログラムを記録した記録媒体
CN110569331A (zh) 一种基于上下文的关联性预测方法、装置及存储设备
CN107977360A (zh) 一种影视剧本中人物阵营的识别和划分方法
CN115618968B (zh) 新意图发现方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20020306