JPH0531186B2

JPH0531186B2 -

Info

Publication number: JPH0531186B2
Application number: JP61314279A
Authority: JP
Inventors: Shigeki Kuga; Masahiro Wada; Toshuki Tanaka; Taro Morishita; Nobuo Nakamura
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1986-12-26
Filing date: 1986-12-26
Publication date: 1993-05-11
Also published as: JPS63163956A

Description

【発明の詳細な説明】〈産業上の利用分野〉本発明は、日本語文章の中から、形態素解析を
行うことにより、数字に関連する部分を抽出し、
確認及び校正を行い易くする文書作成・校正支援
装置に関するものである。

〈従来の技術〉現在、日本語ワードプロセツサが実用化されて
おり、それに関連した、日本語の入出力、編集、
かな漢字変換アルゴリズム、辞書の技術などの基
本技術が確立している。

また、日本語処理技術では、形態素解析、構文
解析、意味解析などの基本的な技術が知られてい
る。

言葉を処理するためのコード体系が何種類か制
定されており、数字を外の文字と区別すること
は、日本語に限らず、既知の事実として確立して
いる。

欧米では、ワードプロセツサが早くから発展し
たため関連技術が進んでおり、スペルのチエツ
ク、コレクトの機能を持つた装置が実用化されて
いる。

欧米の言葉が単語単位に句切られて記述される
のに比べ、日本語は句切りのない漢字仮名交り文
で記述されるのが通常であり、正書法が徹底して
いないため、解析が難しく自動化する装置は実用
化されていない。

従来、正確な日本語を扱うことが要求される場
合、複数の人が対になり読み合わせをして問題の
ある点を抽出したり、あるいは校正の専門的な知
識を持つた人が逐次照合を加え、校正する方法な
どが用いられている。

最近、このような校正作業を支援するための装
置が開発されつつある。それらの装置は、大きく
分けると２つの方式に分類できる。

一つは、前者に対するものであり、漢字仮名交
りの文章を解析して音声に変換し、機械との間
で、音声を介した読み合わせを行うことのできる
校正装置である。

今一つは、後者に対するもので、校正の自動化
あるいは校正の専門化の支援を行うことを目的と
したものである。この装置は前者の装置に比べ、
より高度の技術が要求されるため、概念の提案が
あるのみで該装置を構成する手段、校正の具体的
な手段の報告は少ない。

また、その他の技術として、言語処理研究の中
では、KWIC（Key Word In Context）に関する
技術は一般的である。

言語処理以外では、ワークステーシヨンに関連
した技術は確立しており、作業の効率を上げるた
めのマルチウインンドウを用いた装置が実用化さ
れている。

〈発明が解決しようとする問題点〉近年日本語のワードプロセツサが普及し、該装
置で作成した文書が多くなつている。ワードプロ
セツサでは、入力の簡便なかな漢字変換方式（以
下特に断りがない場合、ローマ字漢字変換方式を
含む）を採用した機種が多くなつている。

かな漢字変換のアルゴリズムは、かなを漢字に
変換する過程で単語辞書、文法などの言語的な裏
付けのある情報との照合が行われるため、確率的
な基盤に基づいてはいるが、ある程度の妥当性が
確かめられている。

ところが、数字のそのものの部分では、照合す
べき辞書のたぐいが無く、入力された数字がその
まま受理されて文章が作成されていく。従つて、
数字そのものの部分は、単語の部分より、低い精
度の正確さしか有していない。

又、18歳未満、18歳以下のように数字の前後に
助数詞などが接続した場合は、それらを含めて校
正を行う必要があり、数字のみを抽出する方法で
は不十分であつた。

上述のごとく、最近開発されつつある校正機能
を持つた装置の場合も数字の部分を重点的に確
認、校正する機能は報告されていない。

たとえば、音声読み上げの機能を持つた装置で
は、文章を逐一かな文字列に分解・変換し、音声
合成装置で読み上げるため、数字の部分に対して
も厳重な確認が可能でるが、処理速度が遅いとい
う欠点があつた。

又、該装置では音声合成装置、スピーカーなど
の付加装置が必要であり、コスト高になるという
欠点があつた。

又、該装置では、言語と音声に関する処理が必
要であり、処理が複雑になるとともにプログラム
の容量が増大するという欠点があつた。

又、音声を用いる騒音が問題になり、その解消
のためにヘンドフオンが必要になつたり、それを
装着する手間がかかつたりする欠点があつた。

一方、形態素、構文、意味解析を用いる方式で
は、数字の間違いを校正する機能は報告されてお
らず、従来通り、文中から数字の部分を抽出し、
確認の後、校正を行わねばならず、作業者の負
担、時間が強要されるという欠点があつた。

又、両方式に共通する問題として、文書の中
で、数字が大きな意味をなす場合が、多いが、数
字の部分を取り出して確認を行うという機能は報
告されておらず、数字部分のみの確認を行う場
合、作業の効率を落とすという欠点があつた。

本発明の方式は、文章の中から数字に関連した
部分を形態素解析によつて抽出し、確認が行い易
い形で表示するとともに、装置の使用者が簡単に
校正できるようにし、かかる問題を解決しようと
するものである。

〈問題点を解決するための手段〉本発明は、日本語の文章を記憶する記憶手段
と、単語情報を格納した単語辞書と、単語間の接
続情報を格納した接続辞書と、文節が成立するた
めの必須の条件を格納した文法辞書と、前記単語
辞書を用いて、前記記憶手段にて記憶された文章
から単語を切り出し、前記接続辞書及び前記文法
辞書を参照して、該切り出された単語から構成さ
れる文節を取り出す取出手段と、前記取出手段に
て取り出された文節の中に数字を含む文節を抽出
する抽出手段と、前記抽出手段にて抽出された文
節を他の文節と区別して表示する表示手段と、前
記表示手段にて区別して表示された文節中の数字
を変更する変更手段とを備えるものである。

〈作用〉入力手段により計算機などに入力された日本語
の中から、形態素解析を行い、数字に関係する形
態素の部分を抽出するとともに、他の文章の部分
と区別が付くように表示し、数字に関連した部分
の正誤の確認が行い易くするように作用する。

抽出された部分をカーソルなどのポインテイン
グデバイスで指示したとき、数位部分をキーとす
るKWICを作成し、別の場所に表示することによ
り、数字に関連した部分の正誤の確認を更に、行
い易くするように作用する。

文章中に数字の部分が複数個存在する場合は、
文章中の他の部分と数字部分を区別した情報を利
用して、抽出された部分のみの指示を可能とする
機能を付加し、更に数字の部分の正誤の確認を行
い易くするように作用する。

上記の確認作業において、もし、抽出された部
分に間違いのあることが確認された場合は、原文
あるいはKWIC中の間違いの部分を入力編集機能
を用いて修正し、文章を校正するように作用す
る。

以上のような、確認、修正機能を用いて、数字
の部分を効率良く、校正し、前述の問題点を改良
するように作用する。

〈実施例〉以下図に基づいて本発明を詳細に説明する。第
１図は本発明に係わる日本語文章校正装置のブロ
ツク構成図である。

図において１は日本語の文字列を入力・編集す
る手段である。

２は該入力手段により入力された日本語の文字
列を記憶する手段である。入力手段は通常キーボ
ードが用いられるが逐次的に入力を行なわない
で、たとえばフロツピーデイスク、磁気テープな
どのように入力した日本語の文字列を記憶する外
部記憶手段で代用することも可能である。即ち、
１が省略された構成も存在しうる。

３は上記２に蓄積された日本語の文字・記号列
を形態素解析するための辞書を記憶する手段であ
る。

４は同様の目的のために使用するもので文法、
その他の辞書を記憶する手段である。

５は２に蓄えられた文字列の中から、数字の部
分を抽出したり、途中結果を記憶したり、表示の
司令などを行つたりする制御手段である。該制御
手段には制御によつて得られる結果を記憶する手
段を含む。

６は入力された文字列、照合の途中結果、校正
すべき文字列、KWICなどを表示するCRTなど
の表示の手段である。

７は６によつて表示されたKWICの中に誤りが
あつた場合、その修正結果を原文中に正しく反映
するための校正手段である。

第２図は１によつて入力された文字列の例であ
り、５の制御手段により、６に表示された状態を
表している。この文章を８とする。また、この文
章は間違いであり、正しくは「昭和62年度の総売
上高は１兆円の予定である。」であるとする。即
ち、数字の「61」は誤りであり、「62」が正しい
ものとする。正しく校正された後の文章は８と区
別して９とする。

第３図は本発明に係わる表示の例を示してい
る。本図は文章８の中から数字の部分１０を抽出
し、他と区別して表示した結果の例を示してい
る。

第４図はKWICを用いた本発明の別の表示の例
であり、１０の中で最初に出現する数字列にカー
ソルのようなポインテイングデバイスを合わせた
ときの状態の例を示している。図中、KWICの中
のキーワードに該当する部分を１１、KWICの全
体を１２とする。

第５図は単語辞書の内容の例を示している。１
３は見出しであり、１４は自立語あるいは付属語
の区別を表す情報であり、１５は品詞または分類
の情報である。１４の付は付属語であり、自は自
立語であることを示している。

第６図は文法の例を示している。１６は文節の
条件を表したものである。［］はその中の要
素が文節が成立するための必須の条件であること
を示している。その他の要旨は省略されることが
ありうる。

第７図は形態素を組み上げて文節を形成するた
めの情報を表したものである。１７は先行する形
態素、１８は後続する形態素、１９はこれらの形
態素をつないだときの文字列が文節の終了条件を
満足するか否かの情報を示すものである。

第８図は数字列を抽出し他と区別して表示する
ための情報を示している。２０は文字であり、２
１は表示画面の中のその文字の存在する行の位置
を示し、２２は列の位置を示している。又、２３
は数字列か否かを区別するための情報である。２
４は数字列の開始と終了点を記述し、KWICなど
を作成するとき利用するための情報である。他と
区別がつけば何であつても構わないが、説明を分
かりやすくするため、数字列の開始点をＳ、終了
点をＥとしておく。

第９図は表示装置の特定の位置２５がＭ，Ｎの
行、列の番号で記述できることを示したものであ
る。

第１０図は本発明の該略フロー図である。第２
図の例文、８を用いて、以下に詳しく述べる。

まず、入力・編集手段１により入力された「61
年度の総売上高は１兆円の予定である。」という
文が、入力文字記憶装置２に蓄積される。２６は
この処理ブロツクである。

各入力文字列は単語辞書、文法と照合され形態
素の要素が決定される。２７は単語辞書照合の処
理ブロツクである。ここでは、単語辞書検索の結
果まず、「昭和」が名詞の場合と、前置助数詞の
場合のあることが分かる。次に「61」に処理が進
む。文字コードからこれが数字であることが分か
る。そこで、文法的な照合を加える。この処理ブ
ロツクを２８とする。２７，２８により辞書、文
法の双方の照合に成功する場合と失敗する場合が
生ずる。失敗する場合は、エラー処理３５が行わ
れ、次文字の処理に移る。処理２８では、第７図
を用い、先行する形態素の要素と後続する形態素
の要素間の接続の可否を調べる。今の場合、名詞
の場合は「昭和」で文節が終了し、前置助数詞の
場合は昭和61」までが仮の文字列になる。次に、
「年度」の処理に進む。おなじような処理を行う
ことでこれが助数詞であり、「61」との接続が可
能であることが分かる。次に「の」の処理に移
る。その結果、「昭和61年度の」が一つの文節で
あることが分かる。名詞の「昭和」の場合は「昭
和」で文節が切れ、「61年度の」は次の文節にな
る。このような場合、最長一致法が知られてお
り、文節数を少なくし、文字列が１番長い候補を
選択する。これにより「昭和61年度の」が選択さ
れる。この文節を決定する処理ブロツクを２９と
する。

入力文字列のコードの照合順序は、特に固定さ
れたものはなく、いずれの文字から行つても本発
明に影響はない。ここでは、通常文章を読むとき
の順序、「昭和６１ …」で考えている。

２７，２８，２９により、「昭和…」の「昭」
の文字の処の２４にＳの記号が付けられ、「年度」
の「度」の文字の２４にＥの記号が付けられ、
「昭和61年度」が一つの数字列であることが分か
る。

同様にして「１兆円」が一つの数字列であるこ
とが分かる。

３０は形態素解析処理の終了の判断を行うため
の処理ブロツクである。後続する文字があれば、
その文字を制御装置に呼び込み、形態素解析のた
めの準備を行う。この処理は、後続文字が無くな
るまで繰り返される。

後続する文字列が存在する場合は該文字列を呼
び込み、スタツクにセツトする。この処理ブロツ
クを３１とする。

３２は文字判断処理の終了後、第８図に示した
情報が保存されたスタツクの結果をもとに、原文
中の数字列を他と区別して表示する処理ブロツク
である。

３３は数字列を抽出して表示する別の方法であ
る。すなわち、数字列をキーとしたKWICを生成
する処理ブロツクである。

３４は数字列を確認し、間違いがあれば修正・
編集を行う処理ブロツクである。この中で、数字
の「61」は「62」と修正される。

確認の終了後、一連の作業を終了することがで
きる。

次に、上記の説明以外の実現手段の例について
述べる。

第８図で数字とその他の文字との区別を記述す
る情報と数字列の開始と終了を表す情報を区別し
て２３，２４に保存したがこれを共用した構成も
考えられる。

又、上の説明では原文中の数字列を抽出した後
で、KWICを作成するようにしたが、この順序に
はとらわれないで良い。すなわち、原文中の数字
部分のみを抽出して、KWICの生成、表示は行わ
ない方法、あるいは、KWICを生成してから原文
中の数字列抽出する方法などもありうる。

抽出された、数字例の表示は、全部一様に表示
する方法、カーソルなどで指示された部分のみを
表示する方法などが考えられ、いずれの方法を採
用しても本発明に影響はない。

又、数字の校正は、原文中の抽出された数字部
分に対し直接に行う方法、KWICの中のキーワー
ドに対し行い、その結果を原文中に取り込む方法
などが考えられ、いずれの方法を採用しても本発
明に影響はない。

又、上の説明では算用数字の例を示しているが
漢数字の場合やアラビヤ数字などにも同じ手段が
適用できる。

又、第５図の単語辞書は付属品、自立語を一つ
の構成にしているが、これは説明を簡単にするた
めであり、通常の形態素解析のように自立語、接
辞、付属品などを区別した構成にしても本発明に
影響は無い。

〈発明の効果〉本発明の効果は、数字が重要な意味を持つ、文
書の中から、数字部分のみを抽出し、確認・校正
を行いやすくできる点にある。

又、本発明によれば、数字部分が確実に抽出さ
れるため、校正の精度を高めるという点で効果が
ある。

又、数字だけでなく前置助数詞、助数詞、後置
助数詞などを含めた数字列を抽出することができ
るので、数字の校正の精度を更に向上させる点で
効果がある。

又、原文中から数字の部分を抽出する手間が省
けるため、校正の処理時間の短縮、校正を行う人
の精神的負担や疲労を軽減という点で効果があ
る。

又、音声読み上げ装置、スピーカー、音声合成
装置などの特別な装置を必要としないとういう利
点がある。

又、ヘツドフオンなどの特別な装置の装着が不
必要であり、装着の手間及び装置購入が省略でき
るという利点がある。

又、言語処理、音声処理などの複雑な処理が不
必要であり、処理のプログラム作成、メンテナン
ス、記憶容量の点で効果がある。

又、簡単な処理で実行することができるため、
処理速度が速いという点で効果がある。

又、音声のような騒音の原因になる要素を含ん
でいないため周囲への影響を考えないで機械の設
置や作業ができるという点で効果がある。

【図面の簡単な説明】

第１図は本発明装置の構成ブロツク図、第２図
は入力手段により入力された文字列の例を示す
図、第３図は表示の例を示す図、第４図はKWIC
を用いた表示の例を示す図、第５図は単語辞書の
内容の例を示す図、第６図は文法の例を示す図、
第７図は文節成立条件の例を示す図、第８図は数
字列抽出スタツク情報の例を示す図、第９図は表
示装置の特定点の指定方法の例を示す図、第１０
図は本発明の概略フロー図である。１……入力・編集手段、２……入力文字記憶手
段、３……辞書記憶手段、４……文法記憶手段、
５……制御手段、６……表示手段、７……校正手
段、８……誤りを含んだ例文、９……正しい例
文、１０……文章中の数字の部分、１１……
KWIC中のキーワード、１２……KWIC全体、１
３……単語辞書中の見出し、１４……単語辞書中
の自立語、付属語区別情報、１５……単語辞書中
の品詞、区別情報、１６……文節成立条件、１７
……先行形態素、１８……後続形態素、１９……
文節終了条件、２０……画面表示用の文字スタツ
ク、２１……画面表示用の行位置スタツク、２２
……画面表示用の列位置スタツク、２３……画面
表示用の数判定スタツク、２４……数字列判定情
報スタツク、２５……表示装置上の特定な位置、
２６……入力文字列蓄積処理ブロツク、２７……
単語辞書照合処理ブロツク、２８……文法照合処
理ブロツク、２９……文節決定照合処理ブロツ
ク、３０……形態素解析終了処理ブロツク、３１
……次文字処理ブロツク、３２……数字列抽出、
表示処理ブロツク、３３……数字列KWIC表示処
理ブロツク、３４……校正処理ブロツク、３５…
…エラー処理ブロツク。

Claims

【特許請求の範囲】１日本語の文章を記憶する記憶手段と、単語情報を格納した単語辞書と、単語間の接続情報を格納した接続辞書と、文節が成立するための必須の条件を格納した文
法辞書と、前記単語辞書を用いて、前記記憶手段にて記憶
された文章から単語を切り出し、前記接続辞書及
び前記文法辞書を参照して、該切り出された単語
から構成される文節を取り出す取出手段と、前記取出手段にて取り出された文節の中に数字
を含む文節を抽出する抽出手段と、前記抽出手段にて抽出された文節を他の文節と
区別して表示する表示手段と、前記表示手段にて区別して表示された文節中の
数字を変更する変更手段とを備えることを特徴と
する文書作成・校正支援装置。