JPH03242759A

JPH03242759A - 日本語文書推敲支援装置

Info

Publication number: JPH03242759A
Application number: JP2040503A
Authority: JP
Inventors: Genichiro Kikui; 玄一郎菊井; Yoshihiko Hayashi; 良彦林
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1990-02-21
Filing date: 1990-02-21
Publication date: 1991-10-29

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野コこの発明は、日本語文書を入力として処理する日本語文
書処理システムにおいて、すでに人力された日本語文書
の曖昧さをへらしたり誤りの訂正を行うなど不適性表現
の書換え、いわゆる推敲（スイコウ）作業を効率的に支
援する日本語文書推敲支援制御装置に関する。

［従来の技術］従来の日本語文書処理システムにおける文書推敲支援に
関する技術は、誤字脱字の検出や用語の統一に代表され
る単語レベルの推敲支援技術が主であった。文レベルの
推敲支援技術については、推敲を必要とする不適性表現
の存在可能性を検出し、適切な警告メツセージを出力す
るための技術が提案されている（特願昭６３−２１５６
１５参照）。

一方、言語表現の構造を木構造で表し、その木構造を変
形することで別の言語表現を得る技術が提案されている
。この技術において、入力は、言語表現から一意に決定
された木構造に限定されている。

〔発明が解決しようとする課題〕

上記のように従来の文書推敲支援技術では、誤字脱字な
どの単語レベルの誤りの訂正を支援するか、表層的な特
徴から可読性を評価するか、文レベルの不適性表現の存
在可能性を示すかに留まっており、文レベルの不適性表
現に対する書換え候補を提示するような技術は実現され
ていない。文しヘルの不適性表現に対して書換え候補を
提示するためには、木構造で表される元の文の構造を別
の構造に変換する処理が必要となる。

これを実現するために、従来の技術である木構造変形を
用いることが考えられるが、これに対する人力は一つの
木構造に限定されているため、言語表現に対応する解析
木構造を一意に決定しなければならない。ところが、現
時点において、自然言語の言語表現の構造を自動的に一
意に決定する一ｉ的な手法は確立しておらず、また、限
定された分野の文を対象として提案されている手法も、
前後の文の解析結果や辞典に載っているような知識をも
とに多大な計算コストを要して行う処理である。従って
、自動的に解析木構造を一意に決定して木構造変形する
方式でユーザーに快適な推敲支援環境を提供することは
困難である。

また、木構造の複数の候補の１つずつを人間（ユーザー
）が見て正しいものであるか否かを判断し、つまりあら
かしめユーザーに問い合わせて木構造を一意に決定した
後に木構造変形を行うことが考えられるが、木構造変形
によっても変化しない部分構造の多義も一意決定の対象
となって不必要な問い合わせが発生してしまう。これは
、ある部分構造が書き換えによって変化するか否かが、
書き換え規則適用前には明らかでないことによる。

従って、ユーザーにあらかじめ多義を解消させる方式に
よっても、やはり、快適な推敲支援環境を提供すること
ができない。

さらに、複数の解析木構造を別々に木構造変形し、これ
らを、書き換え候補として提示することが考えられるが
、この方式では書き換え候補に重複が生ずることがあり
、快適な推敲支援環境の提供とはならない。ここで、書
き換え候補に重複が生ずるのは、先述の通り解析多義に
は木構造変形によって変化しない部分の多義も含まれて
おり、この部分のみ異なる木構造は変形後この部分のみ
異なる木構造となり、従ってこれらの木構造は同し文字
列となることによる。この発明の目的は、文レベルの不
適性表現に対する書換え候補の提示機能を持つ日本語文
書処理システムにおいて、適当な計算コストで、かつ、
ユーザーにとって快適な推敲支援環境を実現するために
必要な日本語文書推敲支援装置を提供することにある。

［課題を解決するための手段］この発明の日本語文書推敲支援装置においては、対象と
する日本語文書を構成する各文に対する、曖昧性が複数
の木構造によって表現された係り受け解析結果を人力と
し、これら各々の木構造を変形することで書き換え候補
を出力する木構造変形部と、木構造の表す文字列を作成
する文字列作成部と、木構造変形部で変形された各木構
造に対応して文字列作成部を呼び出す文字列作成制御部
と、文字列作成部で作成された各文字列をもとに共通の
文字列を表している複数の係り受け木構造を一つのグル
ープにまとめる木構造併合部とを備えてい［作　用コ日本語文書推敲支援装置には、推敲対象の日本語文書を
構成する各日本文に対して、係り受け解析を行った文書
が入力される。その係り受け解析結果は、多義に対応す
る複数の木構造である。

この発明においては、まず、複数の木構造を別々に木構
造変形部に入力することで木構造変形し、複数の木構造
を得る。次に、文字列作成制御部が、変形された木構造
を文字列作成部に渡しその結果得られた各木構造の表現
している文字列を各木構造と組にする。さらに、木構造
併合部が、同一の文字列を持つ木構造を一つのグループ
にまとめ、出力装置が各グループにつき１つの文字列と
必要に応してグループ内の木構造を出力する。

以上により、この発明によれば、多義が解消されていな
い解析結果を人力としてユーザーへの問い合わせを行う
ことなく、かつ、重複のない書き換え候補が出力できる
。

〔実施例〕

以下この発明の一実施例を図面に基づき詳細に説明する
。

第１図はこの発明の日本文推敲支援装置の一実施例を示
すブロック図である。入力部１からは、推敲対象の日本
語文書を構成する各日本文に対して、係り受け解析処理
を行った結果が人力されるものとする。ここで、解析多
義が存在する場合は１文に対して複数の木構造が人力さ
れる。通常、日本語処理システムには、このような係り
受け解析処理が具備されておりこの処理の結果が入力さ
れる。

木構造変形部２は一個の木構造を別の木構造に変形する
装置であり、入力部１から次々に渡される木構造をあら
かしめ定められた変形規則により変形し、変形結果メモ
リ３に人力された順に書き込む。木構造変形部２は既存
技術たとえば（文法記述用ソフトウェアＧＲＡＤＥ　：
情報処理学会自然言語処理研究会３８−３　；１９８６
）を用いることによって容易に実現することができるた
め動作の詳細は省略する。

文字列作成制御部４は、変形結果メモリ３に書き込まれ
た木構造を文字列作成部５に転送し、文字列作成部５で
作られた文字列を木構造と組にして木構造管理テーブル
６に書き込む。

文字列作成部５は、木構造を入力としてもとの言語表現
を作成するもので、−船釣な木構造探索である上昇型左
優先（ボトムアンプ、レフトツウライト）探索で容易に
実現することができるので動作の詳細は省略する。

木構造併合部７は、木構造管理テーブル６中の木構造と
文字列との組で文字列の等しいもの同士を１グループと
するグループ分けをおこなう。出力部８は、木構造管理
テーブル６のグループ分けに基づき、グループごとに一
つの文字列を出力すると共に必要に応じてその各文字列
と対応する木構造を出力する。この出力された文字列か
らユーザーは正しいものを選択する。

以下、例を用いて具体的に説明する。

入力の例を第２図（ａ）（ｂ）に示す。第２図ｆａ）は
日本文「Ａは高価なメモリを増設したＢのように実行で
きない。」を係り受け解析した結果、「高価な」が「メ
モリ」に掛かる場合の木構造を表現しており、第２図（
ロ）は同じ文を解析した結果「高価な」が「Ｂのように
」に掛かる場合の木構造を表している。

第２図（ａ）（ロ）において、節点番号［２−１］は節
点を識別する番号を示し、多節点番号［２−２］はその
節点の子節点の番号を示す、ここで、ある節点の子節点
とは、ある節点に対応する文節に掛かる（依存する）文
節を表す節点のことである。

節点が複数の子節点を持つ場合には、複数の節点番号が
入力文における文節の出現順に与えられる。

節点情報［２−３］は品詞や字面などその節点の持つ情
報を示すが、煩雑さを避けるため以下の説明ではその節
点の表している字面のみを記す。たとえば、第２図（ａ
）において、節点番号が５の節点には、節点番号が６の
節点、すなわち「高価な」なる文節が掛かっており、節
点番号５の字面は「メモリを」である。

また、木構造変形部２では次の変形規則に従って、木構
造変形を行うものとする。

「〜は」という節点と「〜のように」という節点がｒ〜
ない」という節点を親とする時、「〜のように」の節点
を「〜と違いＪという節点に書き換える。

第２図（ａ）（ロ）の木構造を入力として、木構造変形
部２の処理を行った時の変形結果メモリ３の内容を第３
図に示す。第３図において、アドレス［３−１］はメモ
リ上のアドレスを示し、節点番号［３−２］、多節点番
号［３−３コ、節点情報［３−４］は、それぞれ第２図
（ａ）（ｂ）の節点番号［２−１コ、多節点番号［２−
２］、節点情報［２−３コと同様である。

ここで、第２図（ａ）の木構造は第３図におけるアドレ
ス１００から始まる木構造［３−４］に対応し、第２図
（ｂ）の木構造は第３図におけるアドレス１０６から始
まる木構造［３−５］に対応する。

第２図と第３１とで対応する木構造は、節点番号３の節
点情報が第２図で「Ｂのように」なっていたものが、第
３図で「Ｂと違いＪ［３６］に書き換えられている他は
等しい。

文字列作成制御部４の説明に先立ち、木構造管理テーブ
ル６の構成と例を第４図に示す。木構造管理テーブル６
は、アドレス［４−１］、文字列［４−２］、グループ
番号［４−３］からなり、ルーコード（行）が一つの木
構造に対応するテーブルである。なお、第４図における
例（テーブルの内容）は次に説明する文字列作成制御部
４の処理結果である。

まず１をＯ，ＪをＬｋを０としくステップＳ、）、次に
ｌをｆｌしくステップＳ２）、変形結果メモリ３のアド
レス１のレコードを読み込む（ステップＳ３）、その時
、ファイルの終了（ｅｏｆ　：ｅｎｄｏｆ　ｆｉｌｅ）
かをチエツクしくステップＳ、）、ファイル終了であれ
ば、処理を終了とし、ファイル終了でなければ、読み込
んだレコードの節点番号が１かをチエツクしくステップ
Ｓ、）、１でなければＳ２に戻る。第３図の例では最初
に記憶されている木構造の最初のアドレスが１００であ
るから、メモリ３のアドレスｌでは節点番号が１となら
ず、ｉが＋１され、同様のことが繰返され、１＝１００
になると、その時メモリ３から読み出されたレコードの
節点番号が１となり、その時の１＝１００を木構造管理
テーブル６のｊ＝１番号のレコードの木構造アドレス欄
に書き込む（ステップＳ、）。

次にｋをその時のｉの値１００に設定しくステップＳ？
）、そのｋを＋１しくステップＳｓ）、変形結果メモリ
３のアドレスに＝１０１のレコードを読み込み（ステッ
プＳ、）、ファイル終了かをチエツクしくステップ５Ｉ
０）、終了でなければ読み込んだレコードの節点番号が
１かをチエツクしくステップＳＩ＋）、この例ではアド
レス１０１のレコードの節点番号は２であるからステッ
プＳ８へ戻り、ｋが＋１され、同様のことが繰返され、
この例ではに＝１０６まで次々とメモリ３が読み出され
、ｋ＝１０６で節点番号がｌとなり、この時、それまで
に読み出された変形結果メモリ３中のアドレス１−１０
０から（ｋ−１）−１０５までの木構造を文字列作成部
５に与えて文字列を作成させる（ステップＳ１□）、こ
れにより作成された文字列を木構造管理テーブル６のｊ
＝１番目のレコードの文字列欄に書き込む（ステップＳ
、３）。次にｊをｆｌし、１をｋの値とし、つまり、こ
の例ではｊ−２，１＝１０６として（ステップＳ＋４）
、ステップＳ３に戻る。従って第３図の変形結果メモリ
３のアドレス１０６から読み出すことが同様に行われる
。その結果、アドレス１０６〜１１１の木構造について
その先頭アドレス１０６及び文字列が木構造管理テーブ
ル６の２番目のレコードの木構造アドレス欄及び文字列
欄にそれぞれ書き込まれる。

次に木構造併合部７の動作を第６図を参照して説明する
。まずｉをｌとし、ｊを１としくステップＳ＋）、木構
造管理テーブル６のｉ＝１番目のレコードのグループ番
号欄にｊ＝１を書く　（ステップＳ２）、１を＋１しく
ステップＳ、）、木構造管理テーブル６の既にグループ
番号を付与した１番目のレコードからｉ＝２番目のレコ
ードまでを走査して、その中に１番目のレコードと同一
の文字列があるかを調べる（ステップＳ、）、同一文字
列がある場合は、そのｉ番目のレコードの文字列と同し
文字列のレコードのグループ番号ｋをｉ番目のレコード
の文字列に対するグループ番号欄に書き込む。第４図の
例ではｉ＝２番目のレコードの文字列は１番目のレコー
ドの文字列と同しであるから、２番目のレコードのグル
ープ番号欄にｋｇ　　１が書き込まれる（ステップＳｓ
）。次にステップＳ３に戻る。ステップＳ、でｉ番目の
レコードの文字列が既にグループ番号を付けた文字列の
何れとも一致しないと、ｊが＋１され（ステップＳ、）
、ステップＳ！に戻る。このようにして木構造管理テー
ブル６の文字列は同一のものは同一のグループ番号が付
けられ、第４図の例では第７図に示すようになる。

出力部８は、木構造管理テーブル６において、グループ
番号毎に一つの文字列を出力し、必要に応して各アドレ
ス部によって示される木構造を変形結果メモリ３から読
みだして出力して後処理に利用する。また出力された文
字列から正しいものをユーザーが選択する。

たとえは、第７図に示すような木構造管理テーブルから
は、「Ａは高価なメモリを増設したＢと違う高速実行出
来ない」という文字列を出力し、この文字列に対応する
木構造として、第３図に示す変形結果メモリ内でアドレ
スｌＯＯから始まる木構造と、アドレス１０６から始ま
る木構造を出力する。

［発明の効果１以上説明したように、この発明によれば、文しヘルの不
適性表現に対する書換候補の提示機能を持つ日本語文書
処理ソステムにおいて、低い計算コストで、ユーザーに
とって快適な推敲支援環境を実現するために必要な日本
語文書推敲支援環境が提供できる。すなわち、多義が解
消されていない解析結果を入力としているため、これら
複数の木構造を容易に作ることができ、正しいかどうか
などのユーザーへの問い合わせを行うことなく、ユーザ
ーにとって快適であり、かつユーザーは特に訓練されて
いる必要がなく、かつ、グループ分けしてグループにつ
いて１つの文字列を出力するため重複のない書き換え候
補が提示できる。

【図面の簡単な説明】

第１図はこの発明の一実施例である日本語文書推敲支援
装置の概略構成を示すブロック図、第２図（ａ）（ｂ）
は同−文に対し入力される複数の木構造を示す図、第３
図は、第２図に示した木構造を変形した時の変形結果メ
モリ３の内容を示す図、第４図は文字列作成制御部４の
処理が終了した時の木構造管理テーブル６の内容を示す
図、第５図は文字列作成制御部４の処理プロセスを示す
流れ図、第６図は木構造併合部７の処理プロセスを示す
流れ図、第７図は木構造併合部７の処理が終了した時の
木構造管理テーブル６の内容を示す図である。１　人力部、２：木構造変形部、３：変形結果メモリ、
４：文字列作成制御部、５：文字列作成部、６：木構造
管理テーブル、７：木構造併合部、８：出力部、Ｉ２−
１コ　・節点番号、［２−２］二子節点番号、［２−３
］　：節点情報、［３−１］二節点番号、［３−２］　
　：多節点番号、［３−３］：節点情報、Ｅ３−４Ｅ　
ニーつの木構造を示す領域、［３−５］　　ニーつの木
構造を示す領域、［４−１］　　二本構造アドレス、［
４−２］　　：文字列、［４−３］　　ニゲループ番号
。本　１　図

Claims

【特許請求の範囲】

（１）対象とする日本語文書を構成する各文に対する、
曖昧性が複数の木構造によって表現された係り受け解析
結果を入力とし、これら各々の木構造を変形することで
書き換え候補を出力する木構造変形部と、木構造の表す文字列を作成する文字列作成部と、上記木
構造変形部で変形された各木構造に対応して上記文字列
作成部を呼び出す文字列作成制御部と、上記文字列作成部で作成された文字列をもとに共通の文
字列を表している複数の係り受け木構造を一つのグルー
プにまとめる木構造併合部とを有することを特徴とする
日本語文書推敲支援装置。