JPH03242759A - 日本語文書推敲支援装置 - Google Patents

日本語文書推敲支援装置

Info

Publication number
JPH03242759A
JPH03242759A JP2040503A JP4050390A JPH03242759A JP H03242759 A JPH03242759 A JP H03242759A JP 2040503 A JP2040503 A JP 2040503A JP 4050390 A JP4050390 A JP 4050390A JP H03242759 A JPH03242759 A JP H03242759A
Authority
JP
Japan
Prior art keywords
tree structure
character string
tree
tree structures
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2040503A
Other languages
English (en)
Inventor
Genichiro Kikui
玄一郎 菊井
Yoshihiko Hayashi
良彦 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2040503A priority Critical patent/JPH03242759A/ja
Publication of JPH03242759A publication Critical patent/JPH03242759A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野コ この発明は、日本語文書を入力として処理する日本語文
書処理システムにおいて、すでに人力された日本語文書
の曖昧さをへらしたり誤りの訂正を行うなど不適性表現
の書換え、いわゆる推敲(スイコウ)作業を効率的に支
援する日本語文書推敲支援制御装置に関する。
[従来の技術] 従来の日本語文書処理システムにおける文書推敲支援に
関する技術は、誤字脱字の検出や用語の統一に代表され
る単語レベルの推敲支援技術が主であった。文レベルの
推敲支援技術については、推敲を必要とする不適性表現
の存在可能性を検出し、適切な警告メツセージを出力す
るための技術が提案されている(特願昭63−2156
15参照)。
一方、言語表現の構造を木構造で表し、その木構造を変
形することで別の言語表現を得る技術が提案されている
。この技術において、入力は、言語表現から一意に決定
された木構造に限定されている。
〔発明が解決しようとする課題〕
上記のように従来の文書推敲支援技術では、誤字脱字な
どの単語レベルの誤りの訂正を支援するか、表層的な特
徴から可読性を評価するか、文レベルの不適性表現の存
在可能性を示すかに留まっており、文レベルの不適性表
現に対する書換え候補を提示するような技術は実現され
ていない。文しヘルの不適性表現に対して書換え候補を
提示するためには、木構造で表される元の文の構造を別
の構造に変換する処理が必要となる。
これを実現するために、従来の技術である木構造変形を
用いることが考えられるが、これに対する人力は一つの
木構造に限定されているため、言語表現に対応する解析
木構造を一意に決定しなければならない。ところが、現
時点において、自然言語の言語表現の構造を自動的に一
意に決定する一i的な手法は確立しておらず、また、限
定された分野の文を対象として提案されている手法も、
前後の文の解析結果や辞典に載っているような知識をも
とに多大な計算コストを要して行う処理である。従って
、自動的に解析木構造を一意に決定して木構造変形する
方式でユーザーに快適な推敲支援環境を提供することは
困難である。
また、木構造の複数の候補の1つずつを人間(ユーザー
)が見て正しいものであるか否かを判断し、つまりあら
かしめユーザーに問い合わせて木構造を一意に決定した
後に木構造変形を行うことが考えられるが、木構造変形
によっても変化しない部分構造の多義も一意決定の対象
となって不必要な問い合わせが発生してしまう。これは
、ある部分構造が書き換えによって変化するか否かが、
書き換え規則適用前には明らかでないことによる。
従って、ユーザーにあらかじめ多義を解消させる方式に
よっても、やはり、快適な推敲支援環境を提供すること
ができない。
さらに、複数の解析木構造を別々に木構造変形し、これ
らを、書き換え候補として提示することが考えられるが
、この方式では書き換え候補に重複が生ずることがあり
、快適な推敲支援環境の提供とはならない。ここで、書
き換え候補に重複が生ずるのは、先述の通り解析多義に
は木構造変形によって変化しない部分の多義も含まれて
おり、この部分のみ異なる木構造は変形後この部分のみ
異なる木構造となり、従ってこれらの木構造は同し文字
列となることによる。この発明の目的は、文レベルの不
適性表現に対する書換え候補の提示機能を持つ日本語文
書処理システムにおいて、適当な計算コストで、かつ、
ユーザーにとって快適な推敲支援環境を実現するために
必要な日本語文書推敲支援装置を提供することにある。
[課題を解決するための手段] この発明の日本語文書推敲支援装置においては、対象と
する日本語文書を構成する各文に対する、曖昧性が複数
の木構造によって表現された係り受け解析結果を人力と
し、これら各々の木構造を変形することで書き換え候補
を出力する木構造変形部と、木構造の表す文字列を作成
する文字列作成部と、木構造変形部で変形された各木構
造に対応して文字列作成部を呼び出す文字列作成制御部
と、文字列作成部で作成された各文字列をもとに共通の
文字列を表している複数の係り受け木構造を一つのグル
ープにまとめる木構造併合部とを備えてい[作 用コ 日本語文書推敲支援装置には、推敲対象の日本語文書を
構成する各日本文に対して、係り受け解析を行った文書
が入力される。その係り受け解析結果は、多義に対応す
る複数の木構造である。
この発明においては、まず、複数の木構造を別々に木構
造変形部に入力することで木構造変形し、複数の木構造
を得る。次に、文字列作成制御部が、変形された木構造
を文字列作成部に渡しその結果得られた各木構造の表現
している文字列を各木構造と組にする。さらに、木構造
併合部が、同一の文字列を持つ木構造を一つのグループ
にまとめ、出力装置が各グループにつき1つの文字列と
必要に応してグループ内の木構造を出力する。
以上により、この発明によれば、多義が解消されていな
い解析結果を人力としてユーザーへの問い合わせを行う
ことなく、かつ、重複のない書き換え候補が出力できる
〔実施例〕
以下この発明の一実施例を図面に基づき詳細に説明する
第1図はこの発明の日本文推敲支援装置の一実施例を示
すブロック図である。入力部1からは、推敲対象の日本
語文書を構成する各日本文に対して、係り受け解析処理
を行った結果が人力されるものとする。ここで、解析多
義が存在する場合は1文に対して複数の木構造が人力さ
れる。通常、日本語処理システムには、このような係り
受け解析処理が具備されておりこの処理の結果が入力さ
れる。
木構造変形部2は一個の木構造を別の木構造に変形する
装置であり、入力部1から次々に渡される木構造をあら
かしめ定められた変形規則により変形し、変形結果メモ
リ3に人力された順に書き込む。木構造変形部2は既存
技術たとえば(文法記述用ソフトウェアGRADE :
情報処理学会自然言語処理研究会38−3 ;1986
)を用いることによって容易に実現することができるた
め動作の詳細は省略する。
文字列作成制御部4は、変形結果メモリ3に書き込まれ
た木構造を文字列作成部5に転送し、文字列作成部5で
作られた文字列を木構造と組にして木構造管理テーブル
6に書き込む。
文字列作成部5は、木構造を入力としてもとの言語表現
を作成するもので、−船釣な木構造探索である上昇型左
優先(ボトムアンプ、レフトツウライト)探索で容易に
実現することができるので動作の詳細は省略する。
木構造併合部7は、木構造管理テーブル6中の木構造と
文字列との組で文字列の等しいもの同士を1グループと
するグループ分けをおこなう。出力部8は、木構造管理
テーブル6のグループ分けに基づき、グループごとに一
つの文字列を出力すると共に必要に応じてその各文字列
と対応する木構造を出力する。この出力された文字列か
らユーザーは正しいものを選択する。
以下、例を用いて具体的に説明する。
入力の例を第2図(a)(b)に示す。第2図fa)は
日本文「Aは高価なメモリを増設したBのように実行で
きない。」を係り受け解析した結果、「高価な」が「メ
モリ」に掛かる場合の木構造を表現しており、第2図(
ロ)は同じ文を解析した結果「高価な」が「Bのように
」に掛かる場合の木構造を表している。
第2図(a)(ロ)において、節点番号[2−1]は節
点を識別する番号を示し、多節点番号[2−2]はその
節点の子節点の番号を示す、ここで、ある節点の子節点
とは、ある節点に対応する文節に掛かる(依存する)文
節を表す節点のことである。
節点が複数の子節点を持つ場合には、複数の節点番号が
入力文における文節の出現順に与えられる。
節点情報[2−3]は品詞や字面などその節点の持つ情
報を示すが、煩雑さを避けるため以下の説明ではその節
点の表している字面のみを記す。たとえば、第2図(a
)において、節点番号が5の節点には、節点番号が6の
節点、すなわち「高価な」なる文節が掛かっており、節
点番号5の字面は「メモリを」である。
また、木構造変形部2では次の変形規則に従って、木構
造変形を行うものとする。
「〜は」という節点と「〜のように」という節点がr〜
ない」という節点を親とする時、「〜のように」の節点
を「〜と違いJという節点に書き換える。
第2図(a)(ロ)の木構造を入力として、木構造変形
部2の処理を行った時の変形結果メモリ3の内容を第3
図に示す。第3図において、アドレス[3−1]はメモ
リ上のアドレスを示し、節点番号[3−2]、多節点番
号[3−3コ、節点情報[3−4]は、それぞれ第2図
(a)(b)の節点番号[2−1コ、多節点番号[2−
2]、節点情報[2−3コと同様である。
ここで、第2図(a)の木構造は第3図におけるアドレ
ス100から始まる木構造[3−4]に対応し、第2図
(b)の木構造は第3図におけるアドレス106から始
まる木構造[3−5]に対応する。
第2図と第31とで対応する木構造は、節点番号3の節
点情報が第2図で「Bのように」なっていたものが、第
3図で「Bと違いJ[36]に書き換えられている他は
等しい。
文字列作成制御部4の説明に先立ち、木構造管理テーブ
ル6の構成と例を第4図に示す。木構造管理テーブル6
は、アドレス[4−1]、文字列[4−2]、グループ
番号[4−3]からなり、ルーコード(行)が一つの木
構造に対応するテーブルである。なお、第4図における
例(テーブルの内容)は次に説明する文字列作成制御部
4の処理結果である。
まず1をO,JをLkを0としくステップS、)、次に
lをflしくステップS2)、変形結果メモリ3のアド
レス1のレコードを読み込む(ステップS3)、その時
、ファイルの終了(eof :endof file)
かをチエツクしくステップS、)、ファイル終了であれ
ば、処理を終了とし、ファイル終了でなければ、読み込
んだレコードの節点番号が1かをチエツクしくステップ
S、)、1でなければS2に戻る。第3図の例では最初
に記憶されている木構造の最初のアドレスが100であ
るから、メモリ3のアドレスlでは節点番号が1となら
ず、iが+1され、同様のことが繰返され、1=100
になると、その時メモリ3から読み出されたレコードの
節点番号が1となり、その時の1=100を木構造管理
テーブル6のj=1番号のレコードの木構造アドレス欄
に書き込む(ステップS、)。
次にkをその時のiの値100に設定しくステップS?
)、そのkを+1しくステップSs)、変形結果メモリ
3のアドレスに=101のレコードを読み込み(ステッ
プS、)、ファイル終了かをチエツクしくステップ5I
0)、終了でなければ読み込んだレコードの節点番号が
1かをチエツクしくステップSI+)、この例ではアド
レス101のレコードの節点番号は2であるからステッ
プS8へ戻り、kが+1され、同様のことが繰返され、
この例ではに=106まで次々とメモリ3が読み出され
、k=106で節点番号がlとなり、この時、それまで
に読み出された変形結果メモリ3中のアドレス1−10
0から(k−1)−105までの木構造を文字列作成部
5に与えて文字列を作成させる(ステップS1□)、こ
れにより作成された文字列を木構造管理テーブル6のj
=1番目のレコードの文字列欄に書き込む(ステップS
、3)。次にjをflし、1をkの値とし、つまり、こ
の例ではj−2,1=106として(ステップS+4)
、ステップS3に戻る。従って第3図の変形結果メモリ
3のアドレス106から読み出すことが同様に行われる
。その結果、アドレス106〜111の木構造について
その先頭アドレス106及び文字列が木構造管理テーブ
ル6の2番目のレコードの木構造アドレス欄及び文字列
欄にそれぞれ書き込まれる。
次に木構造併合部7の動作を第6図を参照して説明する
。まずiをlとし、jを1としくステップS+)、木構
造管理テーブル6のi=1番目のレコードのグループ番
号欄にj=1を書く (ステップS2)、1を+1しく
ステップS、)、木構造管理テーブル6の既にグループ
番号を付与した1番目のレコードからi=2番目のレコ
ードまでを走査して、その中に1番目のレコードと同一
の文字列があるかを調べる(ステップS、)、同一文字
列がある場合は、そのi番目のレコードの文字列と同し
文字列のレコードのグループ番号kをi番目のレコード
の文字列に対するグループ番号欄に書き込む。第4図の
例ではi=2番目のレコードの文字列は1番目のレコー
ドの文字列と同しであるから、2番目のレコードのグル
ープ番号欄にkg  1が書き込まれる(ステップSs
)。次にステップS3に戻る。ステップS、でi番目の
レコードの文字列が既にグループ番号を付けた文字列の
何れとも一致しないと、jが+1され(ステップS、)
、ステップS!に戻る。このようにして木構造管理テー
ブル6の文字列は同一のものは同一のグループ番号が付
けられ、第4図の例では第7図に示すようになる。
出力部8は、木構造管理テーブル6において、グループ
番号毎に一つの文字列を出力し、必要に応して各アドレ
ス部によって示される木構造を変形結果メモリ3から読
みだして出力して後処理に利用する。また出力された文
字列から正しいものをユーザーが選択する。
たとえは、第7図に示すような木構造管理テーブルから
は、「Aは高価なメモリを増設したBと違う高速実行出
来ない」という文字列を出力し、この文字列に対応する
木構造として、第3図に示す変形結果メモリ内でアドレ
スlOOから始まる木構造と、アドレス106から始ま
る木構造を出力する。
[発明の効果1 以上説明したように、この発明によれば、文しヘルの不
適性表現に対する書換候補の提示機能を持つ日本語文書
処理ソステムにおいて、低い計算コストで、ユーザーに
とって快適な推敲支援環境を実現するために必要な日本
語文書推敲支援環境が提供できる。すなわち、多義が解
消されていない解析結果を入力としているため、これら
複数の木構造を容易に作ることができ、正しいかどうか
などのユーザーへの問い合わせを行うことなく、ユーザ
ーにとって快適であり、かつユーザーは特に訓練されて
いる必要がなく、かつ、グループ分けしてグループにつ
いて1つの文字列を出力するため重複のない書き換え候
補が提示できる。
【図面の簡単な説明】
第1図はこの発明の一実施例である日本語文書推敲支援
装置の概略構成を示すブロック図、第2図(a)(b)
は同−文に対し入力される複数の木構造を示す図、第3
図は、第2図に示した木構造を変形した時の変形結果メ
モリ3の内容を示す図、第4図は文字列作成制御部4の
処理が終了した時の木構造管理テーブル6の内容を示す
図、第5図は文字列作成制御部4の処理プロセスを示す
流れ図、第6図は木構造併合部7の処理プロセスを示す
流れ図、第7図は木構造併合部7の処理が終了した時の
木構造管理テーブル6の内容を示す図である。 1 人力部、2:木構造変形部、3:変形結果メモリ、
4:文字列作成制御部、5:文字列作成部、6:木構造
管理テーブル、7:木構造併合部、8:出力部、I2−
1コ ・節点番号、[2−2]二子節点番号、[2−3
] :節点情報、[3−1]二節点番号、[3−2] 
 :多節点番号、[3−3]:節点情報、E3−4E 
ニーつの木構造を示す領域、[3−5]  ニーつの木
構造を示す領域、[4−1]  二本構造アドレス、[
4−2]  :文字列、[4−3]  ニゲループ番号
。 本 1 図

Claims (1)

    【特許請求の範囲】
  1. (1)対象とする日本語文書を構成する各文に対する、
    曖昧性が複数の木構造によって表現された係り受け解析
    結果を入力とし、これら各々の木構造を変形することで
    書き換え候補を出力する木構造変形部と、 木構造の表す文字列を作成する文字列作成部と、上記木
    構造変形部で変形された各木構造に対応して上記文字列
    作成部を呼び出す文字列作成制御部と、 上記文字列作成部で作成された文字列をもとに共通の文
    字列を表している複数の係り受け木構造を一つのグルー
    プにまとめる木構造併合部とを有することを特徴とする
    日本語文書推敲支援装置。
JP2040503A 1990-02-21 1990-02-21 日本語文書推敲支援装置 Pending JPH03242759A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2040503A JPH03242759A (ja) 1990-02-21 1990-02-21 日本語文書推敲支援装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2040503A JPH03242759A (ja) 1990-02-21 1990-02-21 日本語文書推敲支援装置

Publications (1)

Publication Number Publication Date
JPH03242759A true JPH03242759A (ja) 1991-10-29

Family

ID=12582358

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2040503A Pending JPH03242759A (ja) 1990-02-21 1990-02-21 日本語文書推敲支援装置

Country Status (1)

Country Link
JP (1) JPH03242759A (ja)

Similar Documents

Publication Publication Date Title
JP6175900B2 (ja) 翻訳装置、方法、及びプログラム
JP2732563B2 (ja) 機械翻訳方法及び装置
JP2003085016A (ja) スキーマ生成装置、データ処理装置及びその方法並びにプログラム
JPH0261763A (ja) 機械翻訳装置
JPS6318458A (ja) 感情情報抽出装置
JPH03242759A (ja) 日本語文書推敲支援装置
Hastings Design and implementation of a speech recognition database query system
JPH0689166A (ja) 部品処理記述展開方式
JPS6190272A (ja) 辞書機能を用いた翻訳方式
JP3051747B2 (ja) 機械翻訳方法及び機械翻訳システム
JPS63136265A (ja) 機械翻訳装置
JPH06325082A (ja) 機械翻訳装置
JPH05250413A (ja) テキストデータ検索装置
JPH0728821A (ja) テキスト処理装置
JPH0267633A (ja) 知識ベース構築支援方式
JPS63198162A (ja) 文章生成用文脈処理装置
JPS62209618A (ja) 推論方式
JPS63263563A (ja) 文字変換装置
JPH02129758A (ja) 日本語文推敲処理装置
JP2004086919A (ja) 機械翻訳システム
JPH04273534A (ja) プリコンパイル方式
JPH01216474A (ja) 重複表現処理装置
JPS62282329A (ja) 情報処理装置
JPH01169671A (ja) 機械翻訳装置
JPH01231167A (ja) 日本語文章処理方式