JP2771976B2

JP2771976B2 - 言語解析装置

Info

Publication number: JP2771976B2
Application number: JP62200325A
Authority: JP
Inventors: 紀子小山; 裕美斎藤; 公人武田; 茂美中里
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1987-08-11
Filing date: 1987-08-11
Publication date: 1998-07-02
Anticipated expiration: 2013-07-02
Also published as: JPS6442770A

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）本発明は言語表記の変換機能およびその言語の解析処
理機能を備えた言語解析装置に関する。（従来の技術）近時、日本語文章を解析して他国語言語に翻訳する機
械翻訳システムの研究開発が盛んに進められている。こ
の種の機械翻訳システムの多くは、日本語文章の入力手
段やその編集処理機能の一部として仮名漢字変換機能を
備えている。そしてこの仮名漢字変換された日本語文章
について、その言語を構造解析や意味解析し、その解析
結果に従って英語等の他国語に翻訳処理するものとなっ
ている。しかして上記仮名漢字変換処理は、仮名文字列で示さ
れる第１の言語表記を見出しとして仮名・漢字混じりの
文字列で示される第２の言語表記を格納した仮名・漢字
変換辞書を用いて行われる。また前述した言語解析処理
は、言語表記を見出しとしてその品詞や意味等の知識情
報を格納した解析辞書を用いて行われる。これらの各辞
書は、共に或る表記を見出しとして多の表記や知識情報
を格納して格納されるものであるが、その用途（使用目
的）の違いから専らそれぞれ独立に作成され、システム
内に別個に構築されていることが多い。またこの種のシステムでは仮名・漢字変換辞書を用い
て日本語文章の入力処理を行った後、前記解析辞書を用
いて言語解析を実行して翻訳処理することが多い。しか
しこのような辞書過程を辿るに際して、仮名・漢字変換
辞書を用いた日本語入力処理においてはその辞書検索に
成功し、仮名漢字変換結果が求められたのに、その後の
言語解析処理においてはその辞書項目の違い等に起因し
て辞書検索に失敗する虞れがあった。つまり前述した如
く仮名・漢字変換辞書と解析辞書とがそれぞれ独立に構
築される為、一方の辞書に登録された言語情報が他方の
辞書にとっては未登録言語となっている可能性が高かっ
た。そこで一方の辞書に言語情報を登録した場合、その
項目情報を他方の辞書にも同時に登録することが考えら
れているが、その為には辞書を構築する為の膨大なメモ
リ容量を必要とする等の問題が生じた。この為、システ
ムの効果的な運用を図ることが非常に難しかった。（発明が解決しようとする問題点）このように従来のシステムにあっては、仮名・漢字変
換辞書と解析辞書とがそれぞれ独立に構築されているの
で、その辞書項目の違い等に起因して言語解析処理に行
き詰まりが生じる虞れがある等の不具合があった。本発明はこのような事情を考慮してなされたもので、
その目的とするところは、辞書構築の為の無駄なメモリ
容量を必要とせず、言語表記の変換処理とその解析処理
とを効果的に実行することのできる言語解析装置を提供
することにある。［発明の構成］（問題点を解決するための手段）本発明は、第１の言語表記、当該第１の言語表記を見
出しとする、当該第１の言語表記に対応した当該第１の
言語表記と同一種類の言語の第２の言語表記、当該第２
の言語表記を見出しとする、当該第２の言語表記に対応
した当該第２の言語表記とは種類の異なる言語の第３の
言語表記、及び上記第２の言語表記に対応した言語解析
用の知識情報が、種々の前記第１の言語表記について、
それぞれ対応付けて記憶された辞書記憶手段と、任意の
第１の言語表記の系列が与えられた場合に、当該第１の
言語表記の系列により上記辞書記憶手段を検索すること
で、当該第１の言語表記の系列を対応する上記第２の言
語表記の系列に変換すると共に当該第２の言語表記の系
列をなす各語毎に前記知識情報を取得する第１の変換手
段と、少なくとも上記第１の変換手段によって変換され
た上記第２の言語表記の系列をなす各語により上記辞書
記憶手段を検索して、当該第２の言語表記の系列の各語
毎に対応する上記第３の言語表記を取得すると共に、当
該第２の言語表記の系列の各語に対応する知識情報をも
とに当該第２の言語表記の系列に対する言語解析処理を
行い、その解析処理結果及び上記取得した各第３の言語
表記に従って当該第２の言語表記の系列を対応する第３
の言語表記の系列に変換する第２の変換手段とを備えた
ことを特徴とする。（作用）本発明によれば、辞書記憶手段には、第１の言語表記
（例えば仮名表記）、当該第１の言語表記を見出しとす
る、当該第１の言語表記に対応した当該第１の言語表記
と同一種類の言語の第２の言語表記（例えば、漢字混じ
り表記）、当該第２の言語表記を見出しとする、当該第
２の言語表記に対応した当該第２の言語表記とは種類の
異なる言語の第３の言語表記（例えば英語の対応訳
語）、及び上記第２の言語表記に対応した言語解析用の
知識情報（例えば品詞情報）が、種々の上記第１の言語
表記について、それぞれ対応付けて記憶されているた
め、第１の変換手段による変換処理では、第１の言語表
記により辞書記憶部を検索することにより、当該第１の
言語表記を見出しとする第２の言語表記、及び当該第２
の言語表記に対応した知識情報を取得することができ
る。また、第２の変換手段による言語解析処理では、得ら
れた第２の言語表記により同じ辞書記憶部を検索するこ
とにより、当該第２の言語表記を見出しとする対応する
第３の言語表記を取得すると共に、当該第２の言語表記
の系列の各語に対応する知識情報をもとに当該第２の言
語表記の系列に対する言語解析処理を行い、その解析処
理結果及び取得した各第３の言語表記に従って当該第２
の言語表記の系列を対応する種類の異なる言語の第３の
言語表記の系列に変換する。このように本発明においては、第１の変換手段によっ
て第１の言語表記から変換される（当該第１の言語表記
と同一種類の言語の）第２の言語表記が、第１の言語表
記に対する変換情報としてだけでなく、当該第２の言語
表記に対応した（当該第２の言語表記とは種類の異なる
言語の）第３の言語表記の見出しとして、辞書記憶部に
格納され、且つこれら第１乃至第３の言語表記に対応し
て、当該第２の言語表記に対応した言語解析用の知識情
報も辞書記憶部に格納されているため、１つの辞書構造
でありながら、表記変換辞書と解析辞書を実現すること
が可能となる。しかも両辞書は、第２の言語表記を通し
てその辞書項目データを相互に共有して構築されている
ので、表記変換時（第１の変換手段による変換時）に参
照した項目データを、言語解析時に参照することが可能
となり、辞書項目のずれがなくなる。更に、辞書項目デ
ータが共有されるので、上記両辞書を構築するための辞
書記憶部のメモリ容量が少なくて済み、辞書検索に要す
る処理時間の短縮化を図り得る。また、表記変換処理で
用いられた辞書項目データをそのまま言語解析処理に用
いることも可能なので、その処理に要する手間の低減を
図ることも可能となる。（実施例）以下、図面を参照して本発明の一実施例につき説明す
る。本発明に係る言語解析装置は、例えば日本語文章を入
力し、これを英語文章に翻訳する日本翻訳システム等に
適用されるもので、概略的には第１図に示すように構成
される。尚、ここでは日本語文章を読みの情報である仮
名文字列として入力し、これを仮名漢字変換した後、言
語解析して英語に翻訳するものとして説明する。第１図において、１は文字情報や各種の制御情報等を
入力する為のキーボード等からなる入力部である。編集
制御部２はこの入力部１から与えられる入力文章情報に
対して後述する処理を施し、その処理データ等を適宜CR
Tディスプレイ等からなる表示部３にて表示している。
オペレータは、この表示部３に表示される処理データを
モニタしながら前記入力部１から適宜処理制御情報を入
力することになる。さてこのシステムでは、前記入力部１から読み情報と
して入力される仮名文字列からなる日本語文章を仮名漢
字変換部４にて仮名漢字変換処理し、この仮名漢字変換
によって求められた仮名・漢字混じりの日本語文章を翻
訳部５にて言語解析し、その解析結果に従って英語文章
に翻訳処理するように構成されている。しかして上記仮名漢字変換部４が入力仮名文字列を仮
名・漢字混じりの日本語文章に変換処理するときに用い
る仮名・漢字変換辞書（仮名を第１の言語表記とし漢字
を第２の言語表記とする表記変換辞書）、および前記翻
訳部５が日本語文章を言語解析する際に用いる解析辞書
（言語解析時に使用される品詞情報等の知識を格納した
辞書）は、本装置では辞書記憶部６として上記仮名漢字
変換部４および翻訳部５に対して共用化されている。仮名漢字変換辞書検索用マッピング・テーブル（第１
のテーブル）７は上記辞書記憶部６に格納された辞書項
目の情報を前記仮名漢字変換部４が容易に検索し得るよ
うに、その言語表記の読みを順にソートして並べ、各読
み毎にその項目データが辞書記憶部６のどこに格納され
ているかをポインタによって示すものとなっている。こ
の第１のテーブル７を参照することによって仮名漢字変
換部４は前記辞書記憶部６を読みの順に検索処理し得る
ようになっている。一方、翻訳知識辞書検索用マッピング・テーブル（第
２のテーブル）８は上記辞書記憶部６に格納された辞書
項目の情報を前記翻訳部５が容易に検索し得るように、
仮名漢字混じりの見出し語を順にソートして並べ、各見
出し語毎にその項目データが辞書記憶部６のどこに格納
されているかをポインタによって示すものとなってい
る。前記仮名漢字変換部４の前記第１のテーブル７の参
照と同様に、この第２のテーブル７を参照することによ
って前記翻訳語５は前記辞書記憶部６を見出し語の順に
検索処理し得るようになっている。第２図は前記第１および第２のテーブル7,8にそれぞ
れ所定の順序で格納された読出し語（第１の言語表記）
と、その見出し語に対してポインタによって結ばれた辞
書記憶部６の項目データの関係を模式的に示すものであ
る。このような第１および第２のテーブル7,8によっ
て、前記辞書記憶部６に格納された複数の項目データ
は、前記仮名漢字変換部４および翻訳部５がそれぞれ都
合の良い形態で辞書検索し得るものとなっている。尚、ここでは辞書記憶部６の各項目は、仮名漢字混じ
りの表記6a,その読みを示す仮名表記6b,その品詞の情報
6c,およびその対応訳語6dとにより構成されている。前
記第１のテーブル７は上記読みを示す仮名表記6bを見出
しとして前記仮名漢字変換部４が辞書記憶部６を検索し
得るように構成されており、また前記第２のテーブル８
は上記仮名漢字混じり表記6aを見出しとして前記翻訳部
５が辞書記憶部６を検索し得るように構成されている。そしてこの辞書記憶部６に新たな項目データを追加登
録した場合、これに伴って前記第１および第２のテーブ
ル7,8にその項目データを検索する為のテーブル情報が
それぞれ追加登録されることになる。第３図はこのように構成された本装置における処理手
続の流れを示すもので、この処理手続を前記入力部１か
ら、例えば『かれはしょうねんである。』なる文字列を与えた場合を例に説明する。入力部１から文字列が与えられると、編集制御部２は
先ず仮名漢字変換部４を起動して上記入力文字列（読み
を示す仮名文字列）を仮名漢字変換する（ステップ
ａ）。この仮名漢字変換は、前述した第１のテーブル７
を介して辞書記憶部６を検索し、読みに対応した仮名漢
字混じりの表記を求めることによって行われる。この仮
名漢字変換によって前記入力文字列は『彼は少年である。』なる仮名漢字混じり表記の文字列に変換される。この
際、その仮名漢字変換結果に対して前記辞書記憶部６か
ら前述した品詞の情報6cやその対応訳語6d等が同時に求
められる。そして上記仮名漢字変換結果と品詞等の情報
は、翻訳部５に与えられる。しかる後、この仮名漢字変換結果に対して、前記編集
制御部２にて適宜文字列の訂正・挿入・削除等の編集処
理が行われる（ステップｂ）。具体的には、上記文字列
末尾の『ある』を『す』に訂正する等の処理が適宜実行
される。以上の仮名漢字変換手続を経た後、入力文字列の全て
に対して仮名漢字変換処理が終了したか否か、つまり入
力文の最後まで処理が進められたか否かを確認し（ステ
ップｃ）、文の途中である場合には現在処理中の文字列
が前記編集処理によって新たに挿入された語であるか、
また訂正された語であるかを判定する（ステップｄ）。
そして挿入・訂正された語である場合には、その語につ
いて前記翻訳部５にて辞書記憶部６を検索する（ステッ
プｅ）。つまりこの場合には、前述した編集処理によっ
て『である』が『です』に訂正され、この『です』につ
いては前述した仮名漢字変換処理時において辞書検索が
なされていないので、これについて翻訳部５にて辞書記
憶部６を検索して翻訳処理に必要な品詞の情報6c等を求
める。以上の処理手続を語に対するポインタを進めながら
（ステップｆ）、入力文章の全ての語について順に実行
する。この結果、前述した仮名漢字変換処理時および翻
訳部５による辞書検索によって、入力文章の全ての後に
ついてその解析処理・翻訳処理に必要な品詞6c等の情報
がそれぞれ求められることになる。そして文の終りが検出されたとき（ステップｃ）、翻
訳部５は上述した如く辞書記憶部６から検索抽出された
情報に基いてその文章構造等を解析し、その解析結果に
従って前述した日本語文章を英語文に翻訳処理している
（ステップｇ）。この解析・翻訳処理によって、『He is ａ boy.』なる英語翻訳結果が求められる。このように本装置にあっては、仮名漢字変換処理に用
いる辞書と、翻訳処理に用いる辞書とが共用されている
ので、仮名漢字変換処理時に求められた辞書検索結果を
そのまま用いて翻訳処理を実行することができる。そし
て仮名漢字変換処理時に求められていなかった語につい
てのみ、翻訳処理時に辞書検索すれば良いので、その処
理効率が非常に良い。また上述したように辞書記憶部が
共用化されているので、従来のように仮名漢字変換処理
時には辞書検索に成功したが、翻訳処理時には辞書検索
に失敗する等の不具合を招来する虞れがない。しかも１
つの辞書を共用するので、辞書を構築する為のメモリ容
量が少なくて良い等の効果も奏せられる。尚、本発明は上述した実施例に限定されるものではな
い。ここでは辞書記憶部６を検索する為にそれぞれマッ
ピング・テーブルを用いたが、その辞書構造を一方の検
索順序に合せて作成しておけば、マッピング・テーブル
の一方を省略することが可能である。またマッピング・
テーブルが単にソート順の制御を行うだけでなく、仮名
漢字混じりの見出し後を持ち、その他の情報を記憶した
辞書本体との間で相互に対応関係を持つものであっても
良い。更にはマッピング・テーブルの構造・形式も特に
限定されない。またここでは日英翻訳を例に説明したが、これに限定
されるものでないことは云うまでもない。また表記の変
換処理や、言語の解析処理のアルゴリズムも種々変形可
能なものであり、言語解析の処理単位も後に限定されな
い。その後、本発明はその要旨を逸脱しない範囲で種々
変形して実施することができ、種々の言語解析処理に応
用可能である。［発明の効果］以上説明したように本発明によれば、言語表記変換用
の辞書と言語解析用の知識辞書とが、その内容を共用化
されているので内容項目のずれを生じることがない。し
かも記憶容量の低減を図ることができ、その辞書検索の
容易化、検索所要時間の短縮化を図ることができる。ま
た辞書内容の修正処理も一括して行うことができ、辞書
内容項目のずれの発生を効果的に防止することができる
等の実用上多大なる効果が奏せられる。

【図面の簡単な説明】図は本発明の一実施例を示すもので、第１図は実施例装
置の要部概略構成図、第２図は辞書記憶部とマッピング
・テーブルとの対応関係を模式的に示す図、第３図は実
施例装置における処理手続の流れを示す図である。１……入力部、２……編集制御部、３……出力部、４…
…仮名漢字変換部、５……翻訳部、６……辞書記憶部、
７……仮名漢字変換辞書検索用マッピングテーブル（第
１のテーブル）、８……翻訳知識辞書検索用マッピング
テーブル（第２のテーブル）。

───────────────────────────────────────────────────── フロントページの続き (72)発明者中里茂美東京都青梅市末広町２丁目９番地株式会社東芝青梅工場内 (56)参考文献特開昭63−273165（ＪＰ，Ａ) 特開昭62−197865（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 17/27 G06F 17/28

Claims

(57)【特許請求の範囲】１．第１の言語表記、当該第１の言語表記を見出しとす
る、当該第１の言語表記に対応した当該第１の言語表記
と同一種類の言語の第２の言語表記、当該第２の言語表
記を見出しとする、当該第２の言語表記に対応した当該
第２の言語表記とは種類の異なる言語の第３の言語表
記、及び前記第２の言語表記に対応した言語解析用の知
識情報が、種々の前記第１の言語表記について、それぞ
れ対応付けて記憶された辞書記憶手段と、任意の第１の言語表記の系列が与えられた場合に、当該
第１の言語表記の系列により前記辞書記憶手段を検索す
ることで、当該第１の言語表記の系列を対応する前記第
２の言語表記の系列に変換すると共に当該第２の言語表
記の系列をなす各語毎に前記知識情報を取得する第１の
変換手段と、少なくとも前記第１の変換手段によって変換された前記
第２の言語表記の系列をなす各語により前記辞書記憶手
段を検索して、当該第２の言語表記の系列の各語毎に対
応する前記第３の言語表記を取得すると共に、当該第２
の言語表記の系列の各語に対応する前記知識情報をもと
に当該第２の言語表記の系列に対する言語解析処理を行
い、その解析処理結果及び前記取得した各第３の言語表
記に従って当該第２の言語表記の系列を対応する第３の
言語表記の系列に変換する第２の変換手段とを具備する
ことを特徴とする言語解析装置。２．前記第１の変換手段による変換時に前記第１の言語
表記から前記辞書記憶手段を検索するためのマッピング
情報が登録された第１のマッピングテーブル、及び前記
第２の変換手段による変換時に前記第２の言語表記から
前記辞書記憶手段を検索するためのマッピング情報が登
録された第２のマッピングテーブルの少なくとも一方を
更に具備することを特徴とする特許請求の範囲第１項記
載の言語解析装置。