JPH0689302A

JPH0689302A - 辞書メモリ

Info

Publication number: JPH0689302A
Application number: JP4239257A
Authority: JP
Inventors: Hiroyuki Kaji; 博行梶
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1992-09-08
Filing date: 1992-09-08
Publication date: 1994-03-29
Also published as: US5652898A

Abstract

(57)【要約】【目的】語と語の関連度知識の学習とそれを利用した
自然言語処理を高速に行う辞書メモリを提供する。【構成】語の出現情報を記憶するワードユニット１を
語に対応させて設け，語と語の関連度を記憶するリンク
２でワードユニット間を接続したネットワークを構成す
る。ワードユニットは語の出現情報に基づいて語の活性
度を決定し，リンクが活性度及び語と語の関連度に基づ
いて語の期待度を決定し，ワードユニットが入力レジス
タ４中の語の尤度をその期待度を加味して決定する。次
に，最尤ワード選択部３が選択した語がそれに対応する
ワードユニットによって出力レジスタ５にセットされ
る。また，リンクは語の尤度と活性度に基づいて語と語
の関連度を更新する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は自然言語処理用の辞書メ
モリに係わり，特に，語と語の関連度とテキスト中の語
の出現情報を記憶，更新する機能を有する辞書メモリに
関する。

【０００２】

【従来の技術】自然言語の意味のあるテキストは意味的
に関連のある語から構成される。従って，同一テキスト
中に共起する語は限定されている。このことを利用して
テキスト処理の精度が向上できることはよく知られてい
る。例えば，機械翻訳システムにおいて語と語の共起関
係を利用して訳語を選択する方法が特開昭６３−１３２
３７９号公報に開示されている。仮名漢字変換における
同音異語の選択，音声認識における語の同定，テキスト
のスペル誤りの訂正などにも同様の考え方が利用されて
いる。共起関係を利用したテキスト処理は，共起し得る
語の組を記憶した共起関係辞書を用意しておき，ある語
に関して複数の候補がある場合に，各候補と該語の近傍
に出現する語の組が共起関係辞書に含まれるかどうかを
チェックすることによって実現されている。

【０００３】語と語の共起関係を利用する上での他の問
題点として，共起関係知識をどのようにして獲得してい
くかということがある。これに関しては，例えば特開平
２−４２５７２号公報に，文を構文解析し，依存関係が
成立する語の組を共起関係辞書に登録する方法が開示さ
れている。この方法によればテキストから自動的に共起
関係知識を学習することができる。

【０００４】

【発明が解決しようとする課題】上記の特開昭６３−１
３２３７９号の方法においては，広い範囲の文脈を見よ
うとすると，多くの語の組についてチェックしなければ
ならず，処理時間が増大するという問題がある。

【０００５】また特開平２−４２５７２号公報に開示さ
れる方法においては，獲得される語の組が依存関係とい
う強い関係が成立するものに限定される上に，構文的に
曖昧でないという条件が加わるので，学習の効率が低い
という問題がある。

【０００６】本発明の目的は，共起関係知識を利用した
テキスト処理を高速化するとともに，共起関係知識の学
習効率を高めた自然言語処理用辞書メモリを提供するこ
とである。

【０００７】

【課題を解決するための手段】上記目的を達成するた
め，本発明では，自然言語の各語に対応させたワードユ
ニットとワードユニット間を接続するリンクとからなる
ネットワークを構成する。外部の自然言語処理システム
とのインタフェースとして語とその尤度を格納する入力
レジスタ，および出力レジスタを設ける。ワードユニッ
トには，先行文脈および後続文脈中の語の出現情報を記
憶する語出現情報記憶手段と，先行文脈および後続文脈
中の出現情報に基づいて語の活性度を決定する活性度決
定手段と，外部から与えられる暫定尤度を語の期待度に
基づいて補正して尤度を決定する尤度決定手段をもたせ
る。リンクには，語と語の関連度を記憶する関連度記憶
手段と，語の活性度および語と語の関連度から語の期待
度を決定する期待度決定手段と，語の活性度に基づいて
語と語の関連度を更新する関連度更新手段をもたせる。
さらに，ワードユニットが出力する尤度の最大値を求め
る最尤ワード選択手段を設け，全てのワードユニットと
接続させる。

【０００８】

【作用】入力レジスタに語の候補とそれぞれの暫定尤度
がセットされると，各手段が次のように動作する。活性
度決定手段が，語出現情報記憶手段に記憶されている情
報に基づいて，その時点における語の活性度を決定す
る。次に，期待度決定手段が，語の活性度および語と語
の関連度に基づいて語の期待度を決定する。さらに，尤
度決定手段が暫定尤度と期待度に基づいて語の尤度を決
定する。この結果を受けて，最尤ワード選択手段が尤度
最大の語を選択する。このようにして，先行文脈および
後続文脈中の語の出現情報を利用して，最大尤度の語が
選択され，出力レジスタにセットされる。さらに，関連
度更新手段が語の活性度に基づいて語と語の関連度を更
新する。これは，選択された語とその時点で活性度の高
い語との関連度を強める処理であり，関連度に語と語の
共起関係に関する知識が集積されていくことになる。な
お，以上の動作において，全てのワードユニットが並列
に動作し，同じく全てのリンクが並列に動作する。従っ
て，辞書メモリによる最尤ワードの決定，関連度の学習
とも高速に実現される。

【０００９】

【実施例】本発明の１実施例の辞書メモリを以下に説明
する。図１はその全体構成を示す図である。主要な要素
はワードユニット１とリンク２である。ワードユニット
は，対象とする自然言語の語彙数Ｎと同数設けられ，そ
れぞれ一つの語に対応している。リンクの総数はＮ×Ｎ
個であって，任意のワードユニット間がリンクで接続さ
れている。また，一つの最尤ワード選択部３が設けら
れ，全てのワードユニットと接続されている。他の構成
要素としてｐ個の入力レジスタ４とｑ個の出力レジスタ
５がある。ｐは辞書メモリに入力する語の候補の数，ｑ
は辞書メモリが出力する語の数であり，これらの値は辞
書メモリを使用する自然言語処理システムに応じて設定
すればよい。以上の構成要素，すなわちワードユニット
１，リンク２，最尤ワード選択部３，入力レジスタ４，
および出力レジスタ５はタイミング信号発生部６ととも
に共通バス７に接続されている。

【００１０】ワードユニット１は，図２に示すように，
ワードレジスタ１１，（ｓ＋ｔ＋１）個の尤度レジスタ
１２と暫定尤度入力部１３，活性度決定部１４，期待度
マージ部１５，尤度決定部１６，ワード出力部１７，尤
度レジスタシフト部１８から構成される。ｓおよびｔは
語の尤度決定に利用する後続文脈および先行文脈の範囲
を示すパラメータであり，それらの値は辞書メモリを使
用する自然言語処理システムに応じて設定すればよい。
第ｉワードユニットには第（１，ｉ），第（２，ｉ），
…，第（Ｎ，ｉ）の合計Ｎ個のリンクからの期待度が入
力となる。第ｉワードユニットからは尤度が最尤ワード
選択部に出力され，活性度が第（ｉ，１），第（ｉ，
２），…，第（ｉ，Ｎ）の合計Ｎ個のリンクに出力され
る。

【００１１】リンク２は，図３に示すように，関連度レ
ジスタ２１と期待度決定部２２，関連度更新部２３から
構成される。第（ｉ，ｊ）リンクには第ｉワードユニッ
トからの活性度が入力となり，第（ｉ，ｊ）リンクから
は期待度が第ｊワードユニットに出力される。

【００１２】入力レジスタ４は図４（ａ）に示すように
入力ワード４１とその暫定尤度４２を格納する部分から
なる。出力レジスタ５も同様で，図４（ｂ）に示すよう
に出力ワード５１とその尤度５２を格納する部分からな
る。

【００１３】タイミング信号発生部６は，本辞書メモリ
を使用する外部のシステムとのデータ授受および辞書メ
モリ各部の動作のタイミングを制御する。外部から入力
レジスタに語の候補とそれらの暫定尤度が格納される
と，辞書メモリの各部は図５に示す順序で動作する。こ
の動作の間，入力レジスタおよび出力レジスタへの外部
からのアクセスは禁止される。図５に示す１サイクルの
動作が終了すると，入力レジスタおよび出力レジスタへ
の外部からのアクセスが可となる。外部のシステムは出
力レジスタに格納されている語と尤度を読み取り処理を
続ければよい。

【００１４】以下，辞書メモリの各部の動作を説明す
る。

【００１５】（１）暫定尤度入力部１３１サイクル中にｐ回動作を繰り返すが，第ｉ回目には次
のように動作する。第ｉ入力レジスタの入力ワード４１
を読み込み，ワードレジスタ１１と比較する。一致して
いれば，第ｉ入力レジスタの暫定尤度４２を読み込み，
第（−ｓ）尤度レジスタ１２に格納する。一致しなけれ
ば何もしない。なお，特殊な動作として，第ｉ入力レジ
スタの入力ワード４１が「９９９９」であるときには，
第（−ｓ）から第ｔの全ての尤度レジスタ１２の値を０
にする。これは，辞書メモリ中の語出現情報をリセット
する手段として設けられている。

【００１６】（２）活性度決定部１４後続文脈中の語出現情報，すなわち第（−ｓ），…，第
（−１）尤度レジスタの値，および先行文脈中の語出現
情報，すなわち第１，…，第ｔ尤度レジスタの値に基づ
いて活性度を算出し，リンクに出力する。活性度の算出
方法は種々考えられるが，本実施例では活性度を次式で
算出する。ここに，Ｐｒ（ｉ）は第ｉ尤度レジスタの値
を表す。また，ｄは定数である。

【００１７】（１−（ｓ−１）・ｄ）・Ｐｒ（−ｓ）＋（１−（ｓ−２）・ｄ）・Ｐｒ（−ｓ＋１） … ＋（１−ｄ）・Ｐｒ（−２）＋Ｐｒ（−１）＋Ｐｒ（１）＋（１−ｄ）・Ｐｒ（２） … ＋（１−（ｔ−２）・ｄ）・Ｐｒ（ｔ−１）＋（１−（ｔ−１）・ｄ）・Ｐｒ（ｔ）（３）期待度決定部２２入力側ワードユニットが出力する活性度と関連度レジス
タ２１に記憶されている関連度に基づいて出力側ワード
ユニットに対応する語の期待度を算出し，ワードユニッ
トに出力する。期待度の算出方法は種々考えられるが，
本実施例では，活性度と関連度の積を期待度とする。

【００１８】（４）期待度マージ部１５入力側の各リンクからの期待度を統合して，自ワードユ
ニットに対応する語の期待度を求め，尤度決定部に出力
する。期待度の統合方法は種々考えられるが，本実施例
では，各リンクからの期待度の最大値を求めるものとす
る。

【００１９】（５）尤度決定部１６期待度マージ部１５が出力する期待度に基づいて，第０
尤度レジスタ１２の値を補正，更新すると同時に，更新
した尤度を最尤ワード選択部３に出力する。尤度の補正
方法は種々考えられるが，本実施例では，第０尤度レジ
スタの値と期待度との積を第０尤度レジスタの新しい値
とする。

【００２０】（６）最尤ワード選択部３最大の尤度を出力しているワードユニットのユニット番
号を決定し，該ユニット番号を共通バス７を通じて，全
ワードユニットおよび全リンクに送信する。

【００２１】（７）ワード出力部１７１サイクル中にｑ回動作するが，第ｉ回目には次のよう
に動作する。最尤ワード選択部３から受け取ったユニッ
ト番号が自ワードユニットのユニット番号であるかどう
かチェックする。自ワードユニットのユニット番号であ
れば，ワードレジスタ１１の値と第０尤度レジスタ１２
の値を第ｉ出力レジスタの出力ワード５１と尤度５２に
それぞれ出力した上で，最尤ワード選択部３への出力を
０に変更する。自ユニットのユニット番号でなければ何
もしない。

【００２２】（８）関連度更新部２３１サイクル中にｑ回動作するが，第ｉ回目には次のよう
に動作する。最尤ワード選択部３から受け取ったユニッ
ト番号が自リンクの出力側ワードユニットのユニット番
号であるかどうかチェックする。自リンクの出力側ワー
ドユニットのユニット番号であれば，入力側ワードユニ
ットから出力されている活性度と第ｉ出力レジスタの尤
度５２に基づいて関連度を更新する。関連度の新しい値
の算出方法は種々考えられるが，本実施例では，入力側
ワードユニットの活性度と出力レジスタの尤度との積を
それまでの関連度の値に加算するものとする。

【００２３】（９）尤度レジスタシフト部１８第（ｔ−１）尤度レジスタの値を第ｔ尤度レジスタに，
第（ｔ−２）尤度レジスタの値を第（ｔ−１）尤度レジ
スタに，…，第（−ｓ）尤度レジスタの値を第（−ｓ＋
１）尤度レジスタにというように尤度レジスタの内容を
シフトする。ただし，第１尤度レジスタには第０尤度レ
ジスタの値をそのままシフトさせるのでなく，最尤ワー
ドの尤度を基準に正規化した値を格納するものとする。
すなわち，（第０尤度レジスタの値）／（第１出力レジ
スタの尤度の値）を格納する。また，第（−ｓ）尤度レ
ジスタの値は０にする。

【００２４】以上のように辞書メモリの各部が動作する
ことによって，入力レジスタよりｓサイクル遅れて，語
の候補とそれらの尤度が出力レジスタに格納される。

【００２５】本発明の辞書メモリはさまざまの自然言語
処理システムに利用できる。以下にその例を示す。

【００２６】第１の例は音声認識システムである。音声
波形の処理，特徴抽出を経て音韻認識の結果を音韻ラテ
ィスの形で得る。音韻列表記を見出しとする単語辞書を
参照して音韻ラティスを単語ラティスに変換する。単語
ラティス中の単語には，音韻ラティス中の音韻に付され
た尤度に基づいて算出された尤度が付されている。音声
認識システムは，単語ラティスに含まれる単語とその尤
度を，時間軸に沿った順序で，本発明の辞書メモリに入
力する。辞書メモリは，入力された単語の尤度を先行あ
るいは後続の語との関連度に基づいて補正し，出力す
る。音声認識システムは，辞書メモリの出力に応じて単
語ラティス中の単語の尤度を更新した上で，単語ラティ
スから最尤の単語列を選択する。

【００２７】第２の例は機械翻訳システムの訳語選択へ
の利用である。機械翻訳システムのソース言語解析部が
原文を解析し，原文中間表現を得る。原文中間表現で
は，ソース言語の単語が構成要素になっている。機械翻
訳システムのトランスファ部は，対訳辞書と構造変換規
則を用いて，原文中間表現を訳文中間表現に変換する。
ここで，通常，対訳辞書は一つのソース言語の単語に対
して複数のターゲット言語の訳語候補を示している。そ
こで，原文中間表現中の単語ごとに，順次，訳語候補を
本発明の辞書メモリに入力する。暫定尤度は全て１とし
て入力して構わない。辞書メモリは，原文中間表現中の
単語ごとに，順次，訳語候補の尤度を出力するので，機
械翻訳システムのトランスファ部は尤度の高い訳語候補
を選択する。このようにして訳文中間表現が得られる
と，機械翻訳システムのターゲット言語生成部が訳文中
間表現から訳文を生成する。

【００２８】第３の例は，自然言語文の構文解析におけ
る曖昧生解消への利用である。ここで利用する辞書メモ
リはｓ＝０，ｔ＝１とする。また，構文解析プログラム
は語の係り先の候補を全て求める方法を採用しているも
のとする。語ｗの係り先候補がｗ１，ｗ２，…，ｗｎで
あるとする。構文解析プログラムは，まず，辞書メモリ
に「９９９９」を入力し，次のサイクルで「ｗ」を入力
し，次のサイクルで「ｗ１，ｗ２，…，ｗｎ」を入力す
る。このようにすれば，ｗだけが活性度の高い状態でｗ
１，ｗ２，…，ｗｎの尤度が決定されることになるの
で，ｗ１，ｗ２，…，ｗｎのうちｗとの関連度が高い語
が出力される。構文解析プログラムはこの結果に基づい
てｗの係り先を決定することができる。

【００２９】

【発明の効果】本発明によれば，語と語の共起関係知識
を語の関連度という形でテキストから自動的に獲得する
とともに，獲得した知識を利用して，自然言語処理にお
いて生じる語の曖昧性を解消する処理を高速に行うこと
ができる。

【図面の簡単な説明】

【図１】辞書メモリの全体構成図である。

【図２】ワードユニットの構成図である。

【図３】リンクの構成図である。

【図４】入力レジスタ及び出力レジスタの構成図であ
る。

【図５】１サイクルの動作の順序を示す図である。

【符号の説明】

１・・・ワードユニット、１１・・・ワードレジスタ、
１２・・・尤度レジスタ、１３・・・暫定尤度入力部、
１４・・・活性度決定部、１５・・・期待度マージ部、
１６・・・尤度決定部、１７・・・ワード出力部、１８
・・・尤度レジスタシフト部、２・・・リンク、２１・
・・関連度レジスタ、２２・・・期待度決定部、２３・
・・関連度更新部、３・・・最尤ワード選択部、４・・
・入力レジスタ、４１・・・入力ワード、４２・・・暫
定尤度、５・・・出力レジスタ、５１・・・出力ワー
ド、５２・・・尤度、６・・・タイミング信号発生部、
７・・・共通バス

Claims

【特許請求の範囲】

【請求項１】語と語の関連度を記憶する手段とテキスト
中の語の出現情報を記憶する手段とを含むことを特徴と
する辞書メモリ。
【請求項２】請求項１記載の辞書メモリであって，テキ
スト中の語の出現情報に基づいて語の活性度を決定する
手段を含むことを特徴とする辞書メモリ。
【請求項３】請求項２記載の辞書メモリであって，より
近傍の文脈中に出現する語であるほど活性度を高くする
ことを特徴とする辞書メモリ。
【請求項４】請求項２または３記載の辞書メモリであっ
て，語と語の関連度は同一テキスト中に共起する可能性
の大きさを表す情報であって，テキスト中に語が出現す
ると，該語と他の語との関連度をその時点における語の
活性度に基づいて更新する手段を含むことを特徴とする
辞書メモリ。
【請求項５】請求項２，３または４記載の辞書メモリで
あって，語と語の関連度と語の活性度に基づいて語の尤
度を決定する手段を含むことを特徴とする辞書メモリ。
【請求項６】請求項２，３または４記載の辞書メモリで
あって，テキスト中に出現する語の候補を入力する手段
と，語と語の関連度と語の活性度に基づいて各候補の尤
度を決定する手段と，各候補の尤度を出力する手段を含
むことを特徴とする辞書メモリ。
【請求項７】請求項２，３または４記載の辞書メモリで
あって，テキスト中に出現する語の候補をそれぞれの尤
度とともに入力する手段と，語と語の関連度と語の活性
度に基づいて各候補の尤度を補正する手段と，各候補の
補正された尤度を出力する手段を含むことを特徴とする
辞書メモリ。
【請求項８】請求項２，３または４記載の辞書メモリで
あって，テキスト中に出現する語の候補を入力する手段
と，語と語の関連度と語の活性度に基づいて各候補の尤
度を決定し，最大尤度の語を選択する手段と，選択され
た最大尤度の語を出力する手段を含むことを特徴とする
辞書メモリ。
【請求項９】請求項２，３または４記載の辞書メモリで
あって，テキスト中に出現する語の候補をそれぞれの尤
度とともに入力する手段と，語と語の関連度と語の活性
度に基づいて各候補の尤度を補正し，最大尤度の語を選
択する手段と，選択された最大尤度の語を出力する手段
を含むことを特徴とする辞書メモリ。
【請求項１０】語に対応して設けられ，テキスト中の該
対応する語の出現情報を記憶する手段を有するワードユ
ニットと，語の対に対応して設けられ，該対をなす語と
語の関連度を記憶する手段を有するリンクとから構成さ
れるネットワーク構造をなすことを特徴とする辞書メモ
リ。