JPH02187857A

JPH02187857A - 自然言語テキスト処理方法

Info

Publication number: JPH02187857A
Application number: JP1296001A
Authority: JP
Inventors: Geoffrey D Nunberg; ジェフリー　ディー　ヌンバーグ; H Tayloe Stansbury; エイチ　テイロー　スタンズバリー; Curtis Abbott; カーティス　アボット; Brian C Smith; ブライアン　シー　スミス
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1988-11-21
Filing date: 1989-11-14
Publication date: 1990-07-24
Also published as: EP0370778A2; EP0370778A3; DE68928693T2; US5111398A; DE68928693D1; EP0370778B1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上利用分野〕本発明は、自然言語テキストを、句読法（ｐｕｎｃｔｕ
ａｔｉｏｎ）を考慮して処理するための方法に関し、更
に詳細には、自然言語テキストの句読構造についての情
報を含むデータ構造に関する。

〔従来の技術〕

自然言語に対する従来のデータ処理法は、通例、テ；１
；ストを一連のコードとして取り扱う。使用されるコー
ドとしては、英字及び数字のコード、並びに句読符号コ
ード、並びにスペース、タブ及びキャリッジリターンの
ようなキャリッジ操作を示すギヤリッジ制御コードがあ
る。印字またはデイスプレィによってテキストが呈示さ
れると、これらのコードは英数字並びに他の符号及び記
号の配置を制御する。

テキスト編集、書類レイアウト及びページ書式作成を容
易にするいくつかの非印字文字が、ゼロックス（Ｘｅｒ
ｏ）＜）社から市販のビューポイント・ドキュメント・
エディタ（ＶｉｅｗＰｏｉｎｔ　Ｄｏｃｕｍｅｎｔ　Ｅ
ｄｉｔｏｒ）を説明している「テキスト・エデイティン
グ」（Ｔｅｘｔ　Ｅｄｉｔｉｎｇ）、ＶＰシリーズ・レ
ファレンス・ライブラリ（ＶＰ　５ｅｒｉｅｓ　Ｒｅｆ
ｅｒｅｎｎｃｅ　Ｌｉｂｒａｒｙ）、バージョン１．０
　（Ｖｅｒｓｉｏｎ　１．０　）　　（ゼロックス社、
１９８５年、４７〜５６頁）の５２〜５６頁に記載され
ている。ユーザは、例えば書類の書式作成及びレイアウ
トに用いるため、これらの文字を編集中に用いることが
できる。前述の文字としては、スペース、タブ、及び新
段落文字のような特殊の書式作成文字がある。前述の文
字としては、また、ページ書式文字、フィールド境界文
字、及びフレームアンカを含む構造文字がある。

前記のビューポイント・ドキュメント・エディタはまた
、ユーザが、これら非印字文字に対応のコードに基づい
てテキストの単位を選択してこれに対して操作すること
を可能にする。例えば、「テキスト・エデイティング」
の４７〜５２頁に記載されているように、多重マウス・
ボタン・クリックを用いて、テキストを、文字、語、文
または段落の単位として選択することができる。エディ
タは、テキストを語または文として解釈するために特殊
の規則を用いる。この規則は、テキスト文字の各グルー
プを語として取り扱い、そして、後続スペース及び先行
スペースの存在または不在に応してスペースを含む。こ
の規則は、句読符号によって境界づけされた各一連の語
及び記号を文として取り扱い、そして、後続句読符号の
後及び前記文の最初の文字の前におけるスペースの存在
または不在に応じてスペースを含む。

〔発明が解決しようとする課題〕

本発明は、自然言語テキストの自律的句読構造（ａｕｔ
ｏｎｏｍｏｕｓ　ｐｕｎｃｔｕａｔｉｏｎａｌ　５ｔｒ
ｕｃｔｕｅｒ）を示すデータを含むデータ構造を提供す
ることを目的とするものであり、このデータ構造を種々
の仕方に用いて自然言語テキストを処理することができ
る。

本発明はまたテキスト型の文法を用いて自然言語テキス
トを処理する方法を提供することを目的とするものであ
る。

〔課題を解決するだめの手段〕

本発明の一つの態様は、自然言語テキストの句読法に対
する従来の取り上げ方における周知の問題に関するもの
である。従来のシステムは、ビューポイント・ドキュメ
ント・エディタについて前述したように、テキスト内の
一連の文字中にある句読符号コード、スペース・コード
、キャリッジ制御コード及び他のコードを含んでいる。

テキストの処理中、語、文、行、段落またはページ間の
区切り点のようなテキストの構造的特徴は、句読符号及
び他のコードの順次的位置から推定される。

しかし、従来のアルゴリズムにおいては、テキストの構
造についての誤った推論がなされる場合がしばしばある
。

一例を挙げると、選択を外側へ成長させるための多重ク
リソキングがある。選択は、例えば、文字で始まり、語
へ、文へ、及び段落へ成長する。

前掲の「テキスト・エデイティング」の５２頁に指摘さ
れているように、多重クリソキングの結果は望ましくな
い場合があり、この場合には、ユーザは他の選択方法を
用いることが必要となる。ユーザが、テキストの変形と
いう結果となる選択に対する操作を要求する場合でも、
ユーザは、正しい句読法、スペースあけ、大文字使用等
に対するいつくかの追加の操作を行うことが必要となる
。

これら追加の操作はテキストの操作を複雑にする。

本発明のこの態様は、従来のアルゴリズムについて底に
横たわっていた問題を認識したということに基づいてい
る。従来のアルゴリズムは、テキストの呈示に関するコ
ードまたは他のデータを、テキスト語、文、行、段落、
またはページのような単位に分割するだめの基礎として
用いている。

従来のアルゴリズムは、テキストの語、文、段落、また
は他の単位の境界を見付けるために特殊化したサーチル
ーチンを用いている。ところが、これは、２つに理由の
ために失敗することがしばしばある。即ち、第１の理由
としては、句読法の若干の弁別用符号が不明確であり、
サーチルーチンで見付けられる境界が正しくない場合が
ある。例えば、略語の末尾のピリオドが文の末尾のピリ
オドと間違えられる場合がある。第２の理由としでは、
ユーザが行うことのできる変更の結果、書類が不正確ま
たは不明確に句読つけされ、これも同様に、見付けられ
る境界が正しくなくなる場合がある。

例えば、文の末尾のピリオドが脱落すると、文が間違っ
て句読つけされ、この文を後続の文から弁別することが
できなくなる場合がある。このような間違いがあると、
編集効率が低下し、また、テキストが間違って句読つけ
されたものになってしまう場合がある。

この態様はまた、この難点に対処するための一つの方法
が、テキストの自律的句読構造を示すデータを含んでい
るデータ構造を使用することである、ということを見い
出したということに基づいている。この句読構造は意識
上自律的であり、テキスト内の１つまたは複数の句読特
徴の分布及びこれらの間の依存関係をテキストの倍量的
内容を参照することなしに定義する。データ構造がこの
ようであると、ユーザの操作により、句読的に正しい一
つの構造から他の構造に確実に導くことが容易である。

また、未構造化テキストからこのようなデータ構造を生
成すること、及びこのデータを呈示することができる。

換言すれば、比較的簡単な一組の規則を用い、テキスト
の呈示と自律的句読データ構造との間でいずれの方向に
も変形を行うことができる。

プログラミング言語は、従来、句読構造を有するものと
して取り扱われている。このような言語におけるコード
は、従来、構造エディタで編集することができる。例え
ば、エンボス（ＥｎνＯＳ）社（カリフォルニア州、マ
ウンテン・ビュー市、サン・アントニオ街１１５７）か
ら市販のリスプ（Ｌｉｓρ）の一つのバージョンは５Ｅ
ｄｉｔを含んでいる。

このＳＥｄ　ｉ　ｔは、Ｌｉ５ｐプログラミング言語の
２つの変種、即ち、インタリスプ（Ｉｎｔｅｒｌｉｓｐ
）及びコモンリスプ（Ｃｏｍｍｏｎ　Ｌｉ５ｐ）に対し
て句読構造を編集することができる。これについては、
ゼロックスＬＩＳＰリリース・ノート、リリック・リリ
ース（Ｘｅｒｏｘ　　ＬＩＳＰ　　Ｒｅ１ｅａｓｅ　　
Ｎｏｔｅｓ、　　Ｌｙｒｉｃ　　Ｒｅ１ｅａｓｅ）（ゼ
ロックス社、１９８７年、２１〜２３頁）及び付録Ｂに
記載されている。デイクソン、エム（Ｄｉｘｏｎ、　Ｍ
、）によれば、ｒｓＥｄｉｔ二Ｉｎｔｅｒｌｉｓｐ−Ｄ
に対する拡張可能構造化データ・エディタＪ　　（１９
８６年６月１７日、セクション１〜４）であり、これに
はＳＥｄ　ｉ　ｔについての追加の特徴が記載されてい
る。これについては本明細書において参照として説明す
る。しかし、Ｌｉ５ｐ及び他のプログラミング言語は、
厳格に定義された比較的簡単な構文的構造を持つように
設計されている。また、このような構文的構造は、呈示
に対して要求される句読法に対して厳格に定義された明
確な関係を持つ。他方、自然言語はこのような設計なし
に、本発明以前に、発展してきており、自然言語を、該
自然言語がかかる句読構造を有しているかのように取り
扱うことができる、とは知られてなかった。

本発明の緊密に関連している一つの態様は、前述の一組
の規則を得るために使用される方法から得られる。テキ
ストがどのようにして、各々が倍量的内容とは独立であ
る語、句、節、引用語句、括弧入り語句、文、段落等の
ような単位に分割されるかということを定義する一組の
規則に従う自然言語テキストの句読構造を得ることがで
きるということが見いだされた。かかるテキスト間のネ
スティング関係は、句読特徴を定義する関係を示す構造
データとして定義することが可能である。

低レベルにあるテキスト単位は、構造データにより、高
レベルにあるテキスト単位にリンクされ得、その中に、
構造データが前記リンクされたテキスト単位の倍量的内
容を参照することなしに１つまたは複数の句読特徴の分
布及び依存性を定義する、ということがネストされる。

更に他の特徴として、テキスト単位が倍量的内容とは独
立にテキスト型に分類される場合に、このテキスト型に
依存して規則を作ることができる。

詳述すると、テキスト型の文法を提供することができ、
この文法においては、各規則は単位のテキスト型を示し
、このテキスト型に、所定のテキスト型のテキスト単位
が分割される。テキスト型についてのこのような文法を
、自然言語テキストの処理に種々の仕方で用いることが
できる。

テキスト型の文法は、例えば、呈示コードを含むテキス
トと、このテキスト及びその句読構造を呈示する自律的
句読データ構造との間で変形する際に用いることができ
る。この文法を用い、呈示コード付きバージョンをテキ
スト単位及びそのネスティング関係に分解することがで
きる。また、この文法のテキスト型を、自律的句読デー
タ構造からどのような呈示コードを呈示のためにテキス
トに挿入すべきかを決定する際に用いることができる。

構造コードを、各テキスト単位のテキスト型を示すため
に含ませることができ、テキスト単位はそのネスティン
グ関係に従って編成される。

テキスト単位が系列をなしている場合には、前記の代わ
りに構造データを並列系列として含ませることができ、
各構造単位はテキスト単位の一つに対応し、且つその構
造データを含む。また、この文法を、データ構造を変更
する際に用い、変更済みデータ構造が正しいままになっ
ているようにすることができる。

本発明の更に他の態様は、本発明にかかる自律的句読デ
ータ構造を、自然言語テキストを処理するだめに種々の
仕方で用いるこモができる、ということが認められたと
いうことに基づいている。

テキストデータを検索するためにプロセッサがデータ構
造にアクセスすることができ、次いでこのプロセッサは
、構造データに従って句読コードを含むことにより、一
連のコードを発生することができる。この一連のコード
を発生する前に、このプロセッサは、句読特徴に関する
情報をデータ構造を通じて伝播することができる。この
プロセッサは、前記一連のコードに基づいてユーザにテ
キストを表示することができ、そして、ユーザは、マウ
ス付きキーボー１ζを介して、または他の入力装置を介
して、テキストの選択部分を示す選択データを含む信号
を提供することができる。この選択データを、次いで、
テキストデータ上にマツピングして前記選択部分を識別
することができる。

ユーザはまた、前記選択部分に対して行うべき操作を示
すデータを提供することができ、これに応答して、前記
プロセッサは前記指示された操作を行ってデータ構造内
のテキストデータを変形し、他方、このデータ構造を自
律的句読データ構造として保持する。次いで、プロセッ
サは前記変形されたテキストデータを検索し、そして、
この変形済みテキストデータ内の構造データに従って句
読符号コード付きの変形されたテキストを発生する。

このオペレーションデータをもって、ユーザは、テキス
ト内の操作を行うべき位置を示す位置データを提供する
ことができる。これに応答して、プロセッサはこの位置
データをテキストデータ上にマツピングして対応の位置
を識別し、この位置において操作を行う。

本発明の前記及び他の目的、特徴及び利点は、以下に図
面を参照しで行う本発明の実施例についての詳細な説明
から明らかになる。

〔実施例〕

先ず、本明細書において用いる用語の意味について説明
する。

「テキストＪ　（ｔｅｘｔ）とは、−並びの書いた語、
通例、シーケンスを意味する。

［書いた語Ｊ　（ｗｒｉｔＬｅｎ　ｗｏｒｄ）とは、文
字、コード等のような個別素子の形式で記録された語を
意味する。記録された連続音声のような連続形式に記録
された語は、従って、書いた語ではない。テキストは、
従って、各々が少なくとも１つの個別素子を持つぎ口ま
たはそれ以上の語である。

「自然言語テキストＪ　（ｎａｔｕｒａｌ　ｌａｎｇｕ
ａｇｅ　ｔｅｘｔ）とは、例えば英語のような、一つの
自然言語のテキストを意味する。

「テキストの単位Ｊ　（ｕｎｉｔ　ｏｆ　ｔｅｘｔ）と
は、テキストを分割することのできる一つの単位である
。

［テキスト型ｊ　（ｔｅｘｔｕａｌ　ｔｙｐｅ）とは、
構文的または意味論的の意義を有するが、辞書的の意義
を有していないカテゴリのテキストの単位である。

英語においては、ｒ　語Ｊ　（ｗｏｒｄ）、「句Ｊ　（
ｐｈｒａｓｅ）、「節Ｊ　（ｃｌａｕｓｅ）、「引用語
句Ｊ　（ｑｕｏｔａｔｉｏｎ）、［挿入語句Ｊ　（ｐａ
ｒｅｎｔｈｅｔｉｃａｌ）　、ｒ文Ｊ　（ｓｅｎｔｅｎ
ｃｅ）、及び「段落Ｊ　（ｐａｒａｇｒａｐｈ）はテキ
スト単位のカテゴリであり、これは、通例、構文的また
は意味論的の意義を有するが、辞書的の意義を有してい
ない。これに対して、テキスト単位の若干のカテゴリは
、構文的または意味論的の意義に加えて、更に辞書的の
意義を有す。即ち、これらは、テキストの辞書的素子の
分布及びそれらの間の依存性に関するものであるからで
ある。これらの辞書的カテゴリとしては「述語Ｊ　（ｐ
ｒｅｄｉｃａｔｅ）　、ｒ名詞」（ｌｏｕｎ）、「形容
詞コ（ａｄｊｅｃｔｉｖｅ）　、ｒ単数」（ｓｉｎｇｕ
ｌａｒ）、［複数Ｊ　（ｐｌｕｒａｌ）、「所有格」（
ｐｏｓｓｅｓｓｉｖｅ）、「過去時制Ｊ　（ｐａｓｔ　
ｔｅｎｓｅ）、「主語Ｊ　（ｓｕｂｊｅｃｔ）　、ｒ目
的語Ｊ　（ｏｂｊｅｃｔ）、等がある。

一般に、これらのような辞書的カテゴリは、語に適用可
能な接辞並びに他の語形変化的及び派生的プロセスに関
するものである。また、「行Ｊ　（ｌｉｎｅ）及びＵペ
ージコ（ｐａｇｅ）のようなテキスト単位の若干の非辞
書的カテゴリは、通例、構文的または意味論的の意義を
有しておらず、まして辞書的の意義も有していない。テ
キスト型の特殊のトークンまたは事例を、本明細書にお
いては、テキストの他の単位から区別するため、「テキ
スト型単位」（ｔｅｘｔｕａｌ　ｔｙｐｅ　ｕｎｉｔ）
と呼ぶ。

「テキスト型規則Ｊ　（ｔｅｘｔｕａｌ　ｔｙｐｅ　ｒ
ｕｌｅ）とは、適用可能性がテキスト型に応じて定まる
規則である。換言すれば、テキストがテキスト型単位に
分割される場合、一つのテキスト型規則が、成るテキス
ト型の事例である単位に適用されるが、他の型の単位に
は適用されない。

「テキスト型の文法」輸ｒａｍｒａｅｒ　ｏｆ　ｔｅｘ
ｔｕａｌｔｙｐｅｓ）とは、一組のテキスト型規則であ
り、その各々の規則は、それぞれのテキスト型の任意の
テキスト型単位に対し、その単位を分割することのでき
るテキスト型単位のテキスト型を示す。更に、「テキス
ト型の文法」は、テキスト型単位のうちの全てかつ唯一
の許容可能区画部分を定義する。

テキストの［句読特徴Ｊ　（ｐｕｎｃｔｕａｔｉｏｎａ
ｌ　ｆｅａｔｕｒｅ）とは、１つまたは複数のテキスト
型単位に関係し、そして関係のテキスト型単位の構文的
または意味論的の意義に応じて定まる特徴である。例え
ば、一つの句読特徴は、テキスト型単位のグループ分け
、１つのテキスト型単位の他のテキスト型栄位内へのネ
スティング、テキスト型単位相互間の分割、テキスト型
単位の区切り、またはテキスト型単位のハイライト化ま
たは他の強調を示す。英語において句読特徴として通例
用いられる特徴としては、コンマ、ピリオド、セミコロ
ン、コロン、ダッシュ、引用符号、丸括弧、角括弧、下
線、等を含むスペース及び句読符号のような非英数字タ
イボグラフィ特徴、ケース及びフォントのような英数字
素子の特徴、並びにキャリッジリターン、タブ、センタ
リング、及びインデンチルジョンのような書式の特徴が
ある。

テキストの［句読構造Ｊ　（ｐｕｎｃＬｕａｔｉｏｎａ
ｌ　５ｔｒｕｃｔｕｒｅ）とは、テキストの句読特徴を
含んでいる構造である。視察及び編集のために通例呈示
されるテキストは、句読符号コードのようなデータを含
むデータ構造を基礎としており、句読構造を示している
。

ユーザが、例えば交円の節を区切る句読特徴を変更する
ことによって、かかる句読構造を変更する場合には、ユ
ーザはまた、この節または他の節を区切る他の句読特徴
を変更することが必要になるということを見出す。これ
は、句読符号コード及びかかるデータによって示された
句読構造が、テキストの辞書的内容に参照することなし
に変更されるとは限らないからである。換言すれば、テ
キスト内の語に対する参照が、句読構造の変更の意味の
あいまいさを解釈するためにしばしば必要となる。

これに対して、「自律的句読構造ｊ　（ａｕｔｏｎｏｍ
ｏｕｓｐｕｎｃｔｕａｔｉｏｎａｌ　５ｔｒｕｃｔｕｒ
ｅ）とは、テキスト内の句読特徴の分布、及びこれら句
読特徴間の依存性を、テキストの辞書的内容を参照する
ことなしに、定義するのに十分である句読構造である。

換言すれば、自律的句読構造は、テキスト句読符号内の
どこに、スペース及び他の句読特徴が、テキスト内の語
とは独立に、挿入されるかを示すものである。

［自律的句読文法、Ｊ　（ａｕｔｏｎｏｍｏｕｓ　ｐｕ
ｎｃｔｕａｔｉｏｎａｌｇｒａｍｍｅｒ）とは、テキス
ト型を自律的句読構造によって関係付けすることが可能
なテキスト型の文法である。換言すれば、テキストが自
律的テキスト句読文法に従う仕方で分割される場合、テ
キスト内のテキスト単位を、句読特徴の分布及びその依
存性をテキストの辞書的内容に参照することなしに定義
する自律的句読構造によって、関係付けすることができ
る。

データ構造において、［テキストデータＪ　（ｔｅｘｔ
ｄａｔａ）とは、自然言語テキストを呈示するデータを
意味する。テキストデータは、英数字コード、句読符号
コード、大文字化コード、制御コード等を含む標準の印
字またはデイスプレィのコードを用いてエンコードされ
ることがしばしばある。テキストデータは、しかし、色
々な他の方法でエンコードされる。例えば、テキストデ
ータはビットマツプとしてエンコードされる。

テキストデータを含んでいるデータ構造において、「構
造データＪ　（ｓｔｒｕｃｔｕｒｅ　ｄａｔａ）または
「構造コードＪ　（ｓｔｒｕｃｔｕｒｅ　ｃｏｄｅ）と
いう語は、テキストデータによって呈示される自然言語
テキストの句読特徴を示すデータを意味する。［自律的
句読データ構造Ｊ　（ａｕｔｏｎｏｍｏｕｓ　ｐｕｎｃ
ｔｕａｔｉｏｎａｌ　ｄａｔａｓ　ｔｒｕｃ　ｔｕｒｅ
）は、対応のテキストの自律的句読構造を示す構造デー
タを含むテキストデータを有す。

次に、図面を参照して、本発明の一般的特徴について説
明する。

第１図ないし第４図は本発明の一般的特徴を示す図であ
る。第１図は本発明にかかるデータ構造に対する編集操
作の実行手順を示す流れ線図である。第２図は本発明に
かかるデータ構造を作る方法の一般的段階を示す流れ図
である。第３図はかかるデータ構造を用いる方法の一般
的段階を示す流れ図である。第４図はかかるデータ構造
を含む装置の一般的構成部材を示すブロック線図である
。

第１図の編集操作はデータ構造１０で始まる。

このデータ構造は、リンクされた複数のデータ単位とし
て図式的に表現されており、そのうちの若干の単位はテ
キスト型を示し、他の単位はテキストデータを示す。デ
ータ構造ｌＯは、自然言語文“５ｈｅｅｐ、　ｆｏｒ　
ｅｘａｍｐｌｅ、　ｒｕｍｉｎａｔｅ　　（例えば、羊
ははんすうする）を表現している。文データ単位１２は
データ単位１４．１６及び１８にリンクしており、これ
らデータ単位はそれぞれテキスト型語、コンマ補間、及
び語を示す。語データ単位１４及び１８は、語″５ｂｅ
ｅｐ　”対するテキストデータ単位２２、及び語″ｒｕ
ｍｉｎａｔｅ″に対するテキストデータ単位２８にそれ
ぞれリンクしている。

他方、コンマ補間データ単位１６は語データ単位２４及
び２６にリンクし、これら語データ単位は、語“ｆｏｒ
　”に対するテキストデータ単位３２、及び語“ｅｘａ
ｍｐｌｅ　”に対するテキストデータ単位３４にそれぞ
れリンクしている。即ち、データ構造１０はテキストデ
ータ及び構造データを含んでいる。後述するように、第
１図は、構造データは文″５ｈｅｅｐ、ｆｏｒ　ｅｘａ
ｍｐｌｅ、　ｒｕｍｉｎａｔｅ　″の自律的句読構造を
示している、ということを示すものである。

テキストを編集するためには、ユーザは、編集されるテ
キストを見ることができるべきである。

第１図に示す予備的段階はボックス４０内に示す文、即
ち、”　５ｈｅｅｐ、　ｆｏｒ　ｅｘａｍｐｌｅ、　ｒ
ｕｍｉｎａｔｅ″を表示することである。これは、テキ
スト型の文法を基礎とする一組の規則を適用し、どの句
読特徴をテキスト内に挿入するかを決定することによっ
てなされる。例えば、文の最初の語が大文字で始よって
いるということを規則が示すならば、図示のように、語
″５ｈｅｅｐ”を大Ｘ字で始める。同様に、規則の示す
ところに従い、文の中央部に、コンマを互いに間隔を開
けて補間する。しかし、規則はまた、コンマ補間内の相
隣る語がスペースで分離されているということを示す。

それで、スペースをｆｏｒ　”とｅｘａｍｐｌｅ　”と
の間に挿入する。

最後に、文のＨｅの語の後にピリオドがあるということ
を規則が示すならば、図示のように、ピリオドをｒｕｍ
ｉｎａｔｅ”の後に挿入する。

テキストが表示されると、ユーザは、このテキストの一
部を選択し、この部分に対して行うべき操作を指示し、
また要すればこの操作のための位置を指示することによ
り、このテキストを修飾することができる。ボックス４
２は、ユーザが語“ｆｏｒ　ｅｘａｍｐｌｅ　　”を選
択した後の同じ文を示すものである。選択は、選択の始
まりと終わりとを指示するマウス・クリックを含む任意
の適当する方法で行うことができる。選択の後、選択さ
れた語はハイライト化領域４４内に表れ、これにより、
ユーザは、選択を識別し、そして選択が正しくなされた
ということを確認することができる。ボックス４６は更
に操作選択４７を示す。この操作選択は、ユーザがこの
選択に対して移動操作を行うことを要求したものである
。ボックス４６はまたポインタ４８を示す。このポイン
タで、ユーザは前記要求した移動操作のための位置を示
している。

このようにして、ユーザは、語″ｆｏｒ　ｅｘａｍｐｌ
ｅを文の中央部から始まりへ移動させることを要求した
。

ボックス４６に示すユーザの要求に応答し、装置は、コ
ンマ補間データ単位１６を文データ単位１２から生ずる
最初のデータ単位とすることにより、データ構造１０を
修飾する。その結果としてデータ構造５０が生じ、その
文データ単位５２は文データ単位１２に対応し、コンマ
補間データ単位５４はデータ単位１６に対応し、語デー
タ単位５６．５８．６２及び６４はデータ単位１４．１
８．２４及び２６にそれぞれ対応し、テキストデータ単
位６６．６８．７２及び７４はデータ単位２２．２８．
３２、及び３４にそれぞれ対応する。換言すれば、デー
タ構造５０内のデータ単位はデータ構造１０内のデータ
単位と同じであるが、これらの間にあって句読構造を示
す構造に対応しているリンクは、データ構造５０を自律
的句読データ構造として保持するという仕方で変更され
てる。そこで今、構造データは文″Ｆｏｒ　ｅｘａｍｐ
ｌｅ。

５ｈｅｅｐ　ｒｕｍｉｎａｔｅ　’を示している。

データ構造５０から、装置は、再び、ボックス８０内に
示すデイスプレィのための文を得ることができる。再び
、規則は、今は“ｆｏｒ　″である文の最初の語の大文
字使用を要求するであろう（ｍａｙ）。

この規則はまた、文の始まりにおけるコンマ補間をコン
マ及びスペースで行うべきこと、並びにコンマ補間内の
語をスペースで分離すべきこと、を指示するであろう（
ｍａｙ）。即ち、これらの句読特徴を図示のように挿入
する。ここに、「であろう」（ｍａｙ）　という言葉は
また、交円の語をスペースで分離すべきことを示す。即
ち、図示のように、５ｈｅｅｐ″と“劃ｍ１ｎａｔｅ　
”との間にスペースを挿入する。ｇｆ＆に、ピリオドを
、図示のように、文の最後の語の後に挿入する。

第１図に示す方法の結果、正しく句読点付けされた文を
得るためには、ユーザによるこれ以上の操作は不要とな
る。これに対して、大部分の従来のテキストエディタに
おいては、ユーザは、操作を要求した後にテキストを点
検し、大文字使用、句読符号、及びスペースあけについ
てのいくつかの変更を行うことが必要である。これらの
変更が必要となるのは、基礎となっているデータ構造が
、従来は、テキストの自律的句読構造を示す構造データ
を含んでいないからである。従って、ユーザがデータ構
造の変更を行なうと、句読問題が導入され、これは、テ
キストの意味論的内容に参照することなしには解決する
ことができない。他方、データ構造が自律的句読構造を
示す構造データを含んでいる場合、及びデータ構造が該
データ構造を自律的として保持するように修飾される場
合には、装置はなお、特徴が変更された後も正しい句読
法を供給することができる。

第２図は、テキストに対する自律的句読構造を示す構造
データを有するデータ構造を作るための方法の一般的段
階を示すものである。テキストは、キーボード入力装置
または記憶済みテキストファイルを含む任意の人力源か
ら得ることができる。

テキストの自律的句読構造はボックス９０において得ら
れる。次いで、この構造を示す構造データが、ボックス
９２において、テキストを表現するテキストデータに含
まれる。これらの段階の各々を行なうための特殊の方法
については後で詳細に説明する。

第３図は、第２図の方法で作られたデータ構造を使用す
るための方法の一般的段階を示すものである。ボックス
１００における段階では、前記データー構造にアクセス
し、そしてこれから、前記構造データを含むテキストデ
ータを検索する。次いで、ボックス１０２の段階におい
て、前記テキストデータからテキストを再生し、前記構
造データによって示される句読特徴に従ってこれに句読
点付けする。この再生済みテキストはボックス１０４に
おいてユーザに呈示され、第１図について前述したよう
に、ユーザがこれを編集することを可能にする。

ボックス１０６において、ユーザから信号が受信される
。次いで、第３図の方法は、ボックス１０８において、
前記ユーザから受信された信号が適切な編集用信号であ
るかどうかに基づいて、分岐する。編集用信号の例とし
ては、テキストの位置または部分を選択する信号、選択
された位置において追加されるべき文字を示す信号、ま
たはテキストの選択された部分に対して行なうべき何ら
かの他の操作を要求する信号がある。データ構造に適用
される編集用信号を受信したら、ボックス１１０の段階
において、これに従ってデータ構造を修飾し、該データ
構造を自律的句読データ構造として保持する。データ構
造を修飾した後、この方法は、ボックス１００の段階へ
戻って修飾済みテキストデータを検索し、この修飾済み
テキストを再生して表示することができる。他方、ユー
ザからの信号が適切な編集用信号でない場合には、ボッ
クス１０６においてユーザから更に他の信号を受信する
ために戻る前に、故障を示す信号がボックス１１２にお
いて提供される。

第４図は、自律的句読構造を示す構造データを有するデ
ータ構造を含む装置１２０の一般的構成部材を示すもの
である。装置１２０は中央処理装置（ＣＰＵ）１２２を
有しており、このＣＰＵは、ユーザにテキストを呈示す
るためにデイスプレィ１２４を制御し、そしてまたキー
ボード１２６及びマウス１２８を介してユーザ信号を受
信する。

ＣＰＵ１２２はまた、プリンタ、ネットワーク、等のよ
うな他の入出力装置１３０を介して信号を送受すること
ができる。

ＣＰＵ１２２は、プログラムメモリ１４．０及びデータ
メモリ１６０を含むメモリからデータを検索し、及びこ
れにデータを記憶させることができる。プログラムメモ
リ１４０は主編集ルーチン１４２を含んでおり、このル
ーチンは編集中に複数のサブルーチンを呼び出す。選択
サブルーチン１４４は、表示されたテキストの位置また
は部分を示すユーザ信号に応答し、この信号を、データ
構造の対応の位置または部分上にマンピングする。

選択サブルーチン１４４はまた、対応の位置をカーソル
で指示させるか、または対応の部分を反転させるかもし
くはハイライト化し、ユーザがこの選択を目で見ること
のできるようにすることができる。オペレーションサブ
ルーチン１４６は、操作を指示するユーザ信号に応答し
、要求された操作を行なう。要求された操作が、移動ま
たはコピー操作が行なうであろうように、テキスト内の
位置を要求する場合には、位置を示す信号に対してユー
ザを促し、そして位置マンピングザブルーチン１４８を
呼び出すことができ、このサブルーチンは、位置信号を
データ構造内の対応の位置にマツピングする。同様に、
オペレーションサブルーチン１４６は、修飾サブルーチ
ン１５０を呼び出して必要に応じてデータ構造の修飾を
行わせ、要求された操作を行なわせることができる。修
飾サブルーチン１．５０は、修飾されたデータ構造が自
律的句読データ構造に保持されることをモ育実にする。

修飾が完了したら、再生サブルーチン１５２を呼び出し
、データ構造にアクセスさせてこれからテキストデータ
を検索させ、そしてこれからテキストを再生させること
ができる。入出カサブルーチン１５４を呼び出し、再生
されたテキストの表示を操作させ、または他の入出力操
作を行なわせることができる。

データメモリ１６０は、自律的句読構造を示す構造デー
タを含むテキストデータを有するデータ構造１６２を含
んでいる。データメモリ１６０はまた、現在の選択を示
す選択データ１６４のような他の一時的記憶値を含むこ
ともできる。

以上、本発明の一般的特徴を説明した。次に、本発明の
実施について詳細に説明する。

次に、自律的句読構造について説明する。

第２図のボックス９０の段階において、テキストに対す
る自律的句読構造が得られる。この型の句読構造は、前
述したように、句読特徴の分布及び依存性を、テキスト
の辞書的内容とは独立に定義する。しかし、この型の句
読構造は、テキストが句読符号及び他の句読特徴を含ん
でおったとしても、通例の自然言語テキストには明示的
でない。

このような句読構造を明示的にするための方法を開発す
るためには、自律的句読構造のモデルを持つことが有用
である。第１図におけるデータ構造１０及び５０は、各
々が、かかる構造の１つのモデルを特徴づける若干の特
徴を共有している。

各々は、最高レベルにある単一のノードを含む複数のレ
ベルのノード、文データ単位１２及び５２を有す。低い
レベルにある各ノードは、文データ単位１２及び５２に
それぞれリンクされている語データ単位１８及び５８の
ような、次の高いレベルにある唯一のノードにリンクさ
れている。かかる構造は、最高レベルにあるノードに対
応する最外テキスト型単位を持つものとして説明するこ
とができる。低レベルのノードに対応する他のテキスト
型単位の各々は、それ自体により、または等しいレベル
のネスティングにある１つまたは複数の他のテキスト型
単位をもって、他のテキスト型単位内にネストされる。

このモデルを、本明細書においては、「ネスティング・
モデルＪ　（ｎｅｓｔｉｎｇｍｏｄｅｌ）と呼ぶ。

このネスティング・モデルは、１対のノード間の各リン
クが１つまたは複数の句読特徴の分布及び依存性をノー
ドの辞書的内容とは独立に定義するならば、自律的句読
構造として実施することができる。例えば、データ構造
１０内のデータ単位１２と１６との間のリンク、及びデ
ータ構造５０内のデータ単位５２と５４との間のリンク
は、各々が、文字のコンマ補間の回りの句読特徴の分布
及び依存性を、前記コンマ補間内の語または交円の他の
語を顧慮せずに、定義する。

第５図は、ネスティング・モデルの実施を詳細に示し、
何故にリンクが句読特徴の分布及び依存性を定義するこ
とができるかを示すものである。

ごの実施において、データ単位１２０．１２２及び１２
４の各々はテキスト型単位に対応し、そして各々は、そ
のテキスト型単位、及び他のテキスト型単位に対するそ
のリンクに関連するデータのある複数のフィールドを含
んでいる。図示の４つのフィールドは、アクセスして内
容を検索するのに用いることのできるデータ単位の識別
子フィールド、対応のテキスト型単位のテキスト型を示
すテキスト型フィールド、このデータ単位の親の識別子
を示す親フィールド、及びこのデータ単位の子の識別子
を示すフィールドである。

データ単位１２０はデータ単位１２２及び１２４の各々
にリンクされる。このリンクは、第５図に、データ単位
の親及び子のフィールドの内容として示されている。デ
ータ単位１２２及び１２４の識別子はそれぞれＢ１及び
Ｂ２であり、ごれら識別子はデータ単位１２０の子フィ
ールド内に、Ｂ１が８２に先立つという順序で示されて
いる。これに対して、データ単位１２０の識別子はＡで
あり、この識別子は、データ単位１２２及び１２４の各
々の親フィールド内に示されている。他方、データ単位
１２０の親フィールドは値ＮＩＬを有しており、この値
は、このデータ単位は親を持っていないが最外テキスト
型単位である、ということを示している。データ単位１
２２及び１２４の子フィールドは低レベルのデータ単位
の識別子（図示せず）を有している。

それぞれのテキスト型フィールド内に示されているデー
タ単位１２０．１２２、及び１２４の型は、それぞれ文
、語、及びコンマ補間である。英語文法と一致する修飾
の間に、Ｂ２をＢ１の前に移動、Ｂ１をＢ２の後に移動
、及びＢ１を８２内に移動、がある。第５図に示すよう
に、これら修飾の各々は、データ単位の親フィールド及
び子フィールド内の値を変更することによってなされる
。

最初の２つの修飾は、その各々はＡとその子との間のリ
ンクのオーダを単に変更するものであるが、データ単位
１２０の子フィールド内の識別子を再配置することによ
り、どのリンクも変更せずに、行なうことができる。第
３の修飾、即ち、Ｂ１のＢ２内への移動は、一つのリン
クを他のリンクで置き替えることを必要とする。これを
行なうには、Ｂ１をデータ単位１２００子フイールドか
ら削除し、Ａをデータ単位１２２の親フィールドから削
除する。次に、Ｂ１をデータ単位１２４の子フィ−ルド
に加え、Ｂ２をデータ単位１２２の親フィールドに挿入
する。即ち、これらの修飾は、テキストの語とは独立で
あるリンク済みデータ単位内の値を変更することによっ
てなされる。これらの値は、テキスト型フィールド内の
値のような、これもテキスト内の語とは独立である他の
値とともに、辞書的内容への参照なしに句読特徴の分布
及び依存性を定義する。従って、第５図に示すデータ構
造は自律的句読構造を有している。

第６図は、自律的句読構造を有するネスティングモデル
の他の実施を示すものであり、本例においては２つの並
列データシーケンス１３０及び１３２がある。データシ
ーケンス１３０は、データシーケンス１３２内のテキス
ト型単位のテキスト型を示すデリミタを含んでいる。デ
ータシーケンス１３２内のテキスト型単位の始まりは、
データシーケンス１３０内に、文（Ｓ）、語（Ｗ）、ま
たはコンマ補間（ＣＩ）のような、そのテキスト型によ
って示される。テキスト型単位の終わりは、同様に、ｓ
’　、ｗ’　またはＣビのような、アポストロフィ付き
のテキスト型によって示される。

第６図におけるテキスト型単位は第５図のテキスト型単
位に対応している。即ち、文Ａは語Ｂ１及びコンマ補間
Ｃ１を含み、語Ｂ１はテキストセグメントＣ１を含み、
コンマ補間Ｂ２は語Ｃ２及びＣ３を含み、そしてこれら
はテキストセグメントＤ１及びＢ２をそれぞれ含んでい
る。データの順序的性質のため、修飾を行なうことは第
５図のデータ単位におけるよりも困難であるが、句読特
徴を修飾することはできる。例えば、Ｂ１及びＢ２の順
序を変更することは、各データシーケンス内のＢｌに対
応するデータをＢ２に対応するデータの後に移動するこ
とにより、可能である。同様に、Ｂ２のデリミタの内側
の対応のデータを移動することにより、Ｂ１を８２内に
移動させることができる。また要すれば、データシーケ
ンス１３０及び１３２を結合して単一のデータシーケン
スとすることができる。いずれの場合も、構造データは
、辞書的内容への参照なしに句読特徴の分布及び依存性
を定義することができる。従って、第６図も自律的句読
データ構造を示すものである。

ネスティングモデルは、第５図及び第６図に示す方法に
加えて、更に他の方法で実施することができる。また、
自律的句読構造の他のモデルを開発することができる。

従って、一般に、「自律的句読構造Ｊ　（ａｕｔｏｎｏ
ｍｏｕｓ　ｐｕｎｃｔｕａｔｉｏｎａｌ　５ｔｒｕｔｕ
ｒｅ）という語は句読構造の任意のモデルの全ての実施
にわたるものであり、ここに、構造データは辞書的内容
への参照なしに句読特徴の分布及び依存性を定義する。

構造データは、第５図におけるリンクとして、第６図に
おけるデリミタとして、または他の任意の適切な仕方で
機能することができる。

次に、自律的句読文法について説明する。

テキストに対する明示的な自律的句読構造を見向けるた
めの一つの方法は、自律的句読文法を用いて、テキスト
を、かかる構造によって互いに関連させることのできる
単位に分解することである。

自律的句読構造のネスティングモデルから考えると、自
律的句読文法は、各テキスト型に対し、このテキスト型
内にネストさせることのできるテキスト型の許容可能パ
ターンを示すテキスト型規則を含む。従って、自律的句
読文法を構成するための一つの方法は、一組のテキスト
型を識別し、そして、この組内の各テキスト型に対し、
その内部にネストさせることのできるテキスト型のパタ
ーンを、そしてまた、順序が問題となる場合にはどの順
序に従属テキスト型が表れるかを、識別することである
。

自律的句読文法の目的は句読構造を得ることであるから
、この一組のテキスト型を、好ましくは、特定の自然言
語内の大部分の共通句読特徴の分布及び依存性にわたる
ように選択する。換言すれば、この一組のテキスト型は
、呈示コード付きテキストと、大部分の句読特徴を説明
する自律的句読構造付きデータ構造との間で、いずれの
方向の変形にも用いることのできる一組のテキスト型規
則を認容すべきである。例えば、英語においては、有用
な一組の基礎的テキスト型は、書類（ｄｏｃ）　、段落
（ｐａｒａ）、文（ｓｅｎｔ）、節、句、及び語を含ん
でいる。更に、段落、文及び節は、括弧（ｐａｒａｐａ
ｒｅｎ。

ｓｅｎ　ｔｐａｒｅｎ　、またはｃｌａｕｓｅｐａｒｅ
ｎ）内に、または引用符号（ｐａｒａｑｕｏｔｅ＋　５
ｅｎｎｔｑｕｏｔｅ、またはｃｌａｕｓｅｑｕｏｔｅ）
内にあることができる。ある場合には、語ではない−続
きの文字は未構成ストリング（ｕｎｓｔｒｕｃｔｕｒｅ
ｄ）として取り扱われる。（未構成テキスト型はフラッ
トテキストを含むことのできるようになっている。かか
るテキストの内部構造は無視することができる。）前述
したコンマ補間のような追加のテキスト型を加え、コロ
ン、セミコロン、コンマ、ダッシュ、等のような句読特
徴の分布及び依存性をより完全に包含するようにするこ
とができる。

理想的には、許容可能な全ての句読特徴を包含し、完全
な自律的句読文法を提供するが、前述の基礎的テキスト
型は英語テキストの最も一般的な句読特徴を包含する。

これらのテキスト型を基礎とする一組のテキスト型規則
の例を次に示す。

１、　ｄｏｃ　　：：＝　（＜ｐａｒａ　ｌ　ｐａｒａ
ｑｕｏｔｅ　ｌ　ｕｎｓｔｒｕｃｔｕｒｅｄ＞＜ｐａｒ
ａ　ｌ　ｐａｒａｐａｒｅｎ　ｌ　ｐａｒａｑｕｏｔｅ
ｕｎｓｔｒｕｔｕｒｅｄ）　　本）ＩＬ２、　　ｐａｒａ　　　：：＝　　（ｓｅｎｔｌｓｅｎ
ｔｑｕｏｔｅ＞　　　＜５ｅｎｔｌｓｅｎｔｐａｒｅｎ
ｓｅｎ　ｔｑｕｏ　ｔｅ）　　車〕ＩＬ３．５ｅｎｔ　　：：＝ｃｌａｕｓｅ＊４、　　ｃｌａ
ｕｓｅ：：＝ｐｈｒａｓｅ本５、　　ｐｈｒａｓｅ：　
：＝　（ｗｏｒｄ　ｌ　ｃｌａｕｓｅｑｕｏｔｅ　Ｉ　
５ｅｎｔｑｕｏｔｅ＞（ｗｏｒｄ　　ｌ　　ｃｌａｕｓ
ｅｐａｒｅｎ　　ｌ　　ｃｌａｕｓｅｑｕｏｔｅｓｅｎ
ｔｑｕｏｔｅ＞　　ネ〕ＩＬ６、　　ｗｏｒｄ　　：：＝ｃｈａｒ本７、　　ｕｎｓ
ｔｒｕｃｔｕｒｅｄ：：＝ｃｈａｒ本８、　ｐａｒａｐ
ａｒｅｒｚ：＝　　（ｐａｒａ　　ｌ　　ｐａｒａｑｕ
ｏｔｅ＞　　本９、　５ｅｎｔｐａｒｅｎ：：＝　　（
ｓｅｎｔ　　１５ｅｎｔｑｕｏｔｅ）　　本１０、ｃＩ
ａｕｓｅｐａｒｅｎ：：＝ｃｌａｕｓｅ車１１、ｐａｒ
ａｑｕｏｔｅ　　：：＝　　（＜ｐａｒａ　　ｌ　　ｐ
ａｒａｑｕｏｔｅ＞　　　＜ｐａｒａｐａｒａｐａｒｅ
ｎ　ｌ　ｐａｒａｑｕｏｔｅ＞　本〕ｌＬ１２．５ｅｎｔｑｕｏｔｅ　　：：＝　　（＜５ｅｎｔ
　　ｌ　　５ｅｎｔｑｕｏｔｅ＞　　　＜５ｅｎｔｓｅ
ｎｔｐａｒｅｎ　　ｌ　５ｅｎｔｑｕｏｔｅ＞　　本）
ＩＬ１３、ｃｌａｕｓｅｑｕｏｔｅ：：＝ｃｌａｕｓｅ本こ
れらの規則において、「＊」印は、どんなテキスト型の
前文も定義済みテキスト型内で任意の回数繰り返すこと
ができるということを意味する。

ｒ（ＸＩＹ）Ｊは、テキスト型単位をＸまたはＹで表す
と、これは所定の位置に受入れ可能であるということを
意味する。即ち、縦線は「または」（ｏｒ）を意味する
。ｒｃｈａｒＪは、句読特徴を示すものを除き、任意の
型の文字を意味する。２つの名辞の並置は、定義済みテ
キスト型の発生内で、第１のものは第２のものの前に発
生するということを意味する。そして、ｒＮ　Ｉ　ＬＪ
は、定義済みテキスト型が空ストリングに匹敵すること
ができるということを意味する。例えば、規則３は、文
は任意の数の節を含むことができるということを意味す
る。同様に、規則９は、括弧内の文は任意の数の文の発
生または文を引用符内に含むことができるということを
意味する。規則１は、後に何が続こうと、書類は括弧内
の段落で始まることはできないということを明示的に意
味する。即ち、書類は、空ストリングまたは２つの名辞
の系列として定義され、第１の名辞は、段落、引用符内
の段落、または未構成ストリングの文字であり、第２の
名辞は、段落、括弧内の段落、引用符内の段落、または
未構成ストリングであるからである。

前述の一組の規則は英語に適用可能なものであるが、こ
れは、英語に適用可能な規則の唯一の組ではない。更に
、これは、英語に適用されるが英語句読法に関する標準
的な著書において明示的に教示またはリストされてない
複数の規則がある。

例えば、規則１．２及び５は、書類、段落、または句の
それぞれの始まりにおける括弧入りの段落、文、または
節の出現を明示的に禁止している。−般に、この及び他
のかかる組の規則は、自然言語中に生ずる句読法の実際
のパターンを検討することにより、経験的に得られるも
のである。かかる規則は言語についての有能な著者の間
では暗黙の知識事項となっているが、かかる規則は意識
的な意見として明白になっておらず、または許容されて
もおらず、また、標準的なハンドブックまたは他の文献
において、または教室において教示されていない。かか
る規則は、前記のように、組織的−な、厳密な、定言的
方法で陳述する場合に特に有用となる。

前述した大部分の規則は、文、節、句及び語のような、
段落のレベルより下のテキスト型に適用される。これら
の段落内テキスト型は、大部分の句読特徴の分布及び依
存性を定義するのに用いることができるので、特に重要
なものである。また、一般に、これらのような段落内テ
キスト型は、ジャンルとは無関係であり、散文、韻文、
及び他の型の英語テキストに適用されるということが認
められている。かかる組のテキスト型を特定のジャンル
に更に適合させるには、韻文、ブレット記事、ブロック
引用文、等におけるように、行のようなジャンル特有の
型を加えることができる。更にまた、これら及び類似の
段落内テキスト型を用い、英語内の種々の句読様式に、
及び英語外の自然言語に対するテキスト型の適切な文法
を得ることができる。

自律的句読文法が得られたら、これを用いて自然言語テ
キストを色々な仕方で処理することができる。次に、編
集に適用可能なこのような文法のいくつかの用法につい
て検討する。

次に、編集における自律的句読文法の使用について説明
する。

自律的句読文法を用い、所定のテキスト型に適用可能な
規則を見付け、次いで、この規則をこのテキスト型単位
に適用することができる。従って、自律的句読文法を利
用するエディタは、規則を検索してテキスト型単位に適
用する１つまたは複数のサブルーチンを含む。しかし、
これらサブルーチンは編集環境を介してアクセスされ、
この編集環境はまた適切なユーザ・インタフェース提供
する。

編集環境について説明すると、自律的句読文法を用いる
編集環境は、色々な仕方で実施することができる。第７
図は、編集環境の一例の一般的操作を示すものである。

第８図は、第７図の操作が先在構造エディタ（ＳＥｄ　
ｉ　ｔ）を用いてどのようにして提供されるかを詳細に
示すものである。第９図は、第８図の構成を用いる編集
の前のステップを示すものである。

３つのデータ構造が第７図の編集環境における役割をな
す。自律的句読データ構造１４０は、自然言語テキスト
を表現し、且つ、前述のような自律的句読構造を示す構
造データを有す。テキストデータ構造１４２は、文字コ
ード、句読符号コード、スペースコード、キャリッジ制
御コード、及び自律的句読データ構造１４０によって表
現されるテキストを呈示するのに必要な他のコードを含
むコードのシーケンスである。ユーザ信号１４４は、選
択信号、操作信号、及び位置信号のような、テキストに
対して行なうべき編集操作を示す一組の信号である。

第７図にはまた、これらデータ構造をリンクする操作を
示す。ユーザ信号１４４によって要求される編集操作は
、自律的句読データ構造１４０を修飾することによって
行なわれる。次いで、テキストデータ構造１４２の修飾
済みバージョンが自律的句読データ構造１４０から再生
される。デイスプレィが、このテキストデータ構造１４
２に基づいて、通例の仕方で、ユーザに提供され、これ
により、ユーザは他のユーザ信号１４４を提供せしめら
れる。

本発明を実施する一つの方法は、第７図に示す全ての機
能を行なうためのソフトウェアを書き込むことである。

しかし、これらの機能を行なう際に先在ソフトウェアを
用いることができ、従って、本発明はまた、先在ソフト
ウェアのどれかを用いて実施することができる。例えば
、第８図は、エンボス（Ｉｉｎｖｏｓ）社から市販のリ
スプ・プログラミング言語に対するエディタである５Ｅ
ｄｉｔを用いる実施を示すものである。５Ｅｄｉｔは、
前述の特徴を実施するために簡単に修飾することのでき
るデータ構造を提供するので、特ζこ有用である。

第８図におけるシステム１５０は、第７図について前述
したもののようなユーザ信号を提供する通例の制御器で
あるキーボード／マウス制御器１５２を含んでいる。こ
れら信号は通例のリスプ・ソフトウェア１５４によって
受信される。このリスプ・ソフトウェアは、どのデイス
プレィ・ウィンドーに各ユーザ信号を導くかを決定する
ウィンドー・マネジャーを含んでいる。リスプ・ソフト
ウェア１５４はまた、各ウィンドーへ導かれた信号を取
り扱うための、及び、適切な場合に、第７図について前
述したもののようなテキスト、または他のデータをデイ
スプレィ制御器１５６へ送って適切なウィンドーに表示
するためのソフトウェアを含んでいる。

システム１５０はまたＳＥｄ　ｉ　ｔソフトウェア１６
０を含んでいる。この５ＩＥｄ　ｉ　ｔソフトウェアは
、ユーザ信号が５Ｅｄｉｔウインドーへ導かれる場合に
リスプ・ソフトウェア１５４によって呼び出されるソフ
トウェアのサブシステムである。例えば、ユーザは、先
ず、５Ｅｄｉｔウインドーを開くことを要求する信号を
提供する。この場合、リスプ・ソフトウェア１５４は５
Ｅｄｉｔソフトウエア１６０を呼び出し、該５Ｅｄｉｔ
ウインドーに対して必要なパラメータを提供する。−旦
５Ｅｄｉｔウィンドーが開くと、ユーザがこのウィンド
ー内にマウス・クリックを提供するときに、リスプ・ソ
フトウェア１５４はＳ！Ｅｄ　ｔ　ｔソフトウェア１６
０を呼び出してこのマウス・クリックを取り扱う。同様
に、活性カーソルが５Ｅｄｉｔウインドー内にあり、そ
してユーザがキーボード・ストロークを提供するときに
、リスプ・ソフトウェア１５４はＳＥｄ　ｉ　ｔソフト
ウェア１６０を呼び出してこれらストロークを取り扱う
。

ユーザが自律的句読テキスト編集のための５Ｅｄｉｔウ
インドーを要求すると、５Ｅｄｉｔは同様に自律的句読
テキストエディタ１６２を呼び出して、編集に必要なパ
ラメータを提供し、及びこのウィンドー内での編集に関
するユーザ信号を取り扱う。エディタ１６２は、ＳＥｄ
　ｉ　ｔソフトウェア１６０が自律的句読データ構造１
６４にアクセスするという要求をもって応答して、この
データ構造を修飾し、または編集操作に関するデータを
検索する。エディタ１６２はまた、５Ｅｄｉｔウインド
ー内に表示されるものを５Ｅｄｉｔソフトウェア１６０
が変更することを要求する。この場合、５Ｅｄｉｔ、ソ
フトウェア１６０はリスプ・ソフトウェア１５４を呼び
出す。

例えば、ユーザが左マウスをクリックさせて５Ｅｄｉｔ
ウインドー内での「選択」または「点」を意味すると、
キーボード／マウス制御器１５２は対応するユーザ信号
をリスプ・ソフトウェア１５４に提供し、このリスプ・
ソフトウェアはこの左マウスのクリックの指示及びポイ
ンタの現在のＸ、ｙ位置をＳＥｄ　ｉ　ｔソフトウェア
１６０に提供する。

次いで、５Ｅｄｉｔソフトウエア１６０は、その通例の
操作を行なって、前記ｘ、　　ｙ位置に対応するデータ
構造１６４内のノードを識別し、前記ポインタの前記ノ
ードのデイスプレィ領域内の位置を決定する。次いで、
５Ｅｄｉｔ　１６０はこのデータをもってエディタ１６
２を呼び出し、そしてエディタ１６２はこのデータを処
理し、そしてこれに応答して、データ構造１６４内のテ
キストの選択された部分、またはテキスト内の挿入点位
置を指示する。次いで、５ＩＥｄ　ｆ　Ｌはこのデータ
を用いて、前記選択を強調し、またはデータ構造１６４
から再生されたテキスト内の位置を示す脱字記号をフラ
ッシュさせる。次いで、リスプ・ソフトウェア１５４は
、この再生テキストをデイスプレィ制御器１５６に提供
して表示する。選択が行なわれた場合には、ユーザ信号
によって要求された操作がこの選択に対して行なわれる
。挿入点が指示された場合には、１＆’Ｍのキーストロ
ークからの選択または文字のコピーがこの点に挿入され
る。

第８図にはまた、句読型の文法１６６、即ちデータ構造
１６４に対して操作する際にエディタ１６２が従う一組
の規則が示されている。５ＥｉｄＬソフトウエア１６０
はまた、ユーザ・インタフェースを文法１６６に提供し
、エディテ１６２が従う規則をユーザが修飾することの
できるようにする。これは、例えば、異なる組の文字、
異なる言語、または言語内の異なる派生言語を取り扱う
ため゛にエディタ１６２をセットアツプさせるのに有用
である。

第８図における自律的句読テキストエディタ１６２及び
テキスト型の文法１６６は、ＳＥｄ　ｉ　ｔを実行する
ゼロックス１１８６型人工知能ワークステーションにお
いて実行することのできる［トロロップＪ　（Ｔｒｏｌ
ｌｏｐｅ）と称するリスプ・コードにおいて実施されて
いる。第９図に、編集の前に実施されるコードによって
行なわれるステップを示す。

図示のように、これらステップのうちの多くはリンクを
作り、このリンクを介して、エディタ１６２が５Ｅｄｉ
ｔ　ｌ　６０を呼び出し、または５Ｅｄｉｔ　　１６０
がエディタ１６２を呼び出す。

第９図のステップはボックス１８０における値の初期設
定で始まる。これは、キャラクタ名の５Ｅｄｉｔリスト
を拡張する若干の値を初期設定することにより、及び、
自律的句読テキストデータ構造１６４内のノードを、提
示すべき一連のテキスト内に含めるためのデータに再現
する際の再生中の使用のためのデイフォルト仕様をセン
トアップすることによって行なわれる。

ボックス１８２内のステップは、自律的句読テキストデ
ータ構造１６４のノードを定義する複数の５Ｅｄｒｔパ
ラメータをセントすることによって行なわれる。

ボックス１８４内のステップは、同様に、編集すべき書
類を、該書類を編集するためのテキスト型の文法１６６
をセントアップすることにより、初期設定する。−例を
前に示しである前記文法自体に加えて、編集を管理する
規則は、テキスト再生中に使用される一組の再現規則、
及び自律的句読データ構造１６４の修飾を管理する一組
の操作規則を含む。このステップはまた、規則及び文法
を、ユーザによってこれらを簡単に編集することのでき
る形式から、ソフトウェアによってこれらをより簡単に
使用することのできる形式に変換する。

ボックス１８６内のステップは、編集のために用いる特
定のウィンドー（以降、［トロロソプ・ウィンドーＪ　
（Ｔｒｏｌｌｏｐｅ　ｉｗｉｎｄｏｗ）と呼ぶ）のため
のタイトル・バー・メニューをセットアツプすることに
より、初期設定を完了する。このメニューは、トロロソ
プ書類をセーブすること、または文法、再現、もしくは
操作規則を編集することをユーザに許すことを要求する
ためのアイテムのような複数のアイテムを含むことがで
きる。このメニュー内の一つのアイテムを選択すると、
トロロソププット（ＴｒｏｌｌｏｐｅＰｕｔ）　、エデ
イツトルール（Ｅｄｉｔ−Ｒｕｌｅ）　、またはチェイ
ンジフォント（ＣｈａｎｇｅＦｏｎ　ｔ）のような、適
切な機能に対する呼出しへ通ずる。

この時点で、このシステムは編集を開始する準備が整う
。ウィンドーがセットアツプされ、そして、ビットマツ
プが提示されてトロロップ・エディタの可用性を示して
いるということを提示する。

次いで、このシステムは、ボックス１８６と１８８との
間の破線で示すように、トロロツプ編集を要求するユー
ザ信号を待つ。ユーザは、適切に名前が呼ばれる機能を
呼び出すことにより、かかる信号を提供する。この要求
はまた、編集すべきトロロンプ書類を包含しているファ
イルに対するファイル名を含んでいる。ボックス１８０
ないし１８６内のステップは、トロロソブがシステムに
ロードされるときに行なわれる。その後は、これらステ
ップを、ユーザが新しいトロロソプ・ウィンドーを開く
ためにトロロソプを呼び出すたびごとに、操り返す必要
はない。ボックス１８８で始まるステップだけが、新し
いトロロップ・ウィンドーのために必要である。

ボックス１８８におけるユーザ呼出しを受は取ると、ボ
ックス１９０における試験で、ユーザ要求がファイル名
を含んでいたかどうかを測定する。

含んでいた場合には、ボックス１９２において、ファイ
ルを読み込む。含んでいなかった場合には、システムは
第９図の後続のステップにおいてデイフォルト値を用い
る。

第９図における残りのステップは、読み込まれたファイ
ルからのパラメータで、またはデイフォルト値で実行さ
れる。ボックス１９４において、複数のＳＥｄ　ｉ　ｔ
パラメータを設定することにより、トロロツプに対する
編集環境がセントアップされる。ボックス１９６におい
て、複数の他の５Ｅｄｉｔパラメータを設定することに
より、要求されたトロロソプ鯛集セツションに対する文
脈がセットアツブされる。

最後に、ボックス１９８において、５Ｅｄｉｔプロセス
の一例をセットアンプする。そして、この５Ｅｄｉｔプ
ロセスはトロロップ・ウィンドーをセットアツプし、こ
のウィンドーへ向けられたユーザからの後続の入力を取
り扱う。

この時点でユーザはトロロソプ・ウィンドー内で編集す
ることができる。ユーザによって要求される編集操作は
、自律的句読データ構造の修飾となる。ファイルがボッ
クス１９２において読み込まれていなかった場合には、
データ構造１６４は、書類の開発のためのシードの役を
なす単純構造を持つ。この構造は、第５図に示すものの
ようなフィールドを含む単一ノードで始まり、書類は、
同じフィールドを有する追加のノードを追加することに
よって開発される。フィールドの若干は５Ｅｄｉｔによ
って使用され、かかるフィールドとしては、親フィール
ド、子フィールド、機能がマウス・クリックから、この
クリックが生じたノード内の領域へ進むことを指示する
フィールド、等がある。

他のフィールドはＳＥｄ　ｉ　ｔによって使用されず、
かかるフィールドとしては、テキスト型フィールド、テ
キスト型に関係するノードの特徴に対する特徴フィール
ド、テキスト・シーケンスを再生しながらノードを変換
するための再生規則を示す再現規則フィールド、ノード
内に含まれるテキスト、及びＳＥｄ　ｉ　ｔには関係し
ないがトロロップにのみ関係する他の情報がある。

次に、自律的句読データ構造１６４の修飾を要求するユ
ーザ信号が自律的句読文法に従ってどのようにして取り
汲われるかを詳細に検討する。

第１０図はデータ構造１６４を修飾する際の一般的ステ
ップを示すものであり、これには、その自律的句読構造
を保持するステップが含まれている。ユーザが、操作を
要求する信号を提供するときに、ボックス２００におい
て修飾が開始する。

ホックス２０２のステップにおいて、前記要求された１
Ｍ作を行なうための操作規則を探す。何も見つからない
場合には、故障が発生し、ボックス２００において他の
要求を受は取るために戻る前に、ボックス２０４におい
てユーザへ信号が送られる。規則が見つかった場合には
、ボックス２０６のステップがこの規則に適用される。

これには、データ構造１６４を修飾することが含まれて
いる。

次いで、ボックス２１０のステップにおいて、データ構
造１６４が自律的句読文法１６６をなお満足しているか
どうかが測定される。満足していない場合には、故障が
発生し、そしてボックス２１２においてユーザへ信号が
送られる。次いで、ボックス２１４において、ボックス
２０６においてなされた修飾が取り消され、ボツス２０
０において他の要求を受は取る前にデータ構造１６４を
その前の状態に戻す。しかし、データ構造１６４が文法
１６６をなお満足している場合には、提示のための修飾
済みテキストが変更済みデータ構造に基づいて提供され
、そして、ボックス２００において他の要求を受は取る
ために戻る前にボックス２１６において前記修飾済みテ
キストがユーザに提示される。

第１０図の一最的ステップは、データ構造１６４を修飾
するトロロンプ機能によって実行される。

−ＩＱに、５Ｅｄｉｔはこれらトロロソプ機能を呼び出
し、選択を要求するか、もしくはトロロツプ・ウィンド
ー内の入力点を指示するマウス・クリックを操作する際
に、または現在の選択もしくは入力点がトロロソプ・ウ
ィンドー内にあるときに文字コードを操作する際に、該
ＳＥｄ　ｉ　ｔを援助させる。

ボックス１８２において編集ノードを生成する際にセン
トアップされる５ＩＥｄｉｔパラメータとボックス１９
６における編集環境との間に、複数のトロロソプ機能を
呼び出すための操作がある。詳述すると、文字がトロロ
ツプ・ウィンドー内の挿入点にタイプされると、本明細
書において翻訳文字機能と呼ぶ一つの機能が呼び出され
る。これは、第１０図に従うデータ構造１６４の修飾と
なるユーザからの信号である。

第１１図は、翻訳文字機能が呼び出されるときに行なわ
れるステップを示すものであり、特にこれらステップは
文法１６６及び関連の操作規則に関係する。一般に、第
１１図のステップは第１０図のステップに対応するが、
更にいくつかの細部を示すものである。

ボックス２２０のステップにおいて、要求された操作を
示す文字コードを有する５Ｅｄｉｔから翻訳文字機能へ
の呼出しを受は取る。これに応答して、翻訳文字機能は
、現在の脱字記号位置を見付け、そして、ボックス２２
２において、その挿入点及び挿入ノードがあったらこれ
を決定する。次いで、翻訳文字機能は、本明細書におい
て操作機能と呼ぶ他の機能を呼び出す。

操作機能は、文字コードがどれかの操作規則に対応する
かどうかを測定する。操作機能が、現在の脱字記号位置
がノードを有しているということを測定した場合には、
この操作機能は、先ず、テキスト型とノードの特徴とを
有する操作マクロを呼び出す。この特徴は、例えば、引
用語句内のネスティングのレベルを示す値である。そし
て、このマクロは、整合する特徴を有するテキスト型に
対する規則を探す操作規則を通って進むために規則発見
機能を呼び出す。かかる規則を発見したら、規則発見機
能は、指定された文字コードに対して実施すべき機能、
及びこの機能に対するデータを示す前記規則の部分を検
索する。次いで、この部分に、受は取られた文字コード
でアクセスし、該文字コードに対する機能及びデータを
得る。

操作機能が前述の呼出しから操作を得られない場合には
、該機能は再び操作マクロを呼び出す。

しかし、今度は、全てのテキスト型及びノードの特徴に
適用可能なより一般的規則を求める。操作マクロに応答
して規則発見機能がかかる規則を発見した場合には、該
操作マクロは操作を有する部分を検索し、そしてこの部
分にアクセスして、特定の文字コードに対する機能及び
データを得る。

他方、操作機能が、現在の脱字記号位置がノードを有し
ていないということを測定した場合には、該機能は操作
マクロを呼び出し、全てのテキスト型に適用可能であっ
て特徴を持っていない規則を求める。操作マクロに応答
して規則発見機能がかかる規則を発見した場合には、該
機能は、前述と同じように、操作を有する部分を検索し
、そしてこの部分にアクセスして、文字コードに対する
機能及びデータを得る。

ボックス２２４におけるステップは、操作機能が１つま
たは複数の機能を首尾よくリターンさせたかどうかに基
づいて分岐する。リターンさせなかった場合には、ボッ
クス２３０における試験により、ノードが親ノードを有
しているかどうかを測定する。有している場合には、再
帰的呼出しが行なわれ、この現ノードに基づいて操作規
則を探す。しかし、有していない場合には、ボックス２
３２において故障の信号が発せられる。

操作機能が１つまたは複数の機能をリターンさせた場合
には、これら機能は、ボックス２３４において試行機能
に対する呼出しを介して操作される。各機能は、ノード
を開く機能、ノードを分割する機能、選択をマージする
機能、選択を削除する機能、ノード特徴を変更する機能
、及び後退する機能のような、いくつかのトロロソプ機
能のいずれかである。一般に、これら機能の各々は、現
在の挿入点または選択の型に応じて、並びに操作規則か
ら得られるノードに及びデータに応じて定まり、これら
機能は前述の機構によって選択される。試行機能は、第
１Ｉ図における後続のステップにおいて示すように、機
能を実行しようと試みる。

ＵＮＤＣＩ−Ｌ　Ｉ　ＳＴ　（アンドウリスト）という
名の５ＨｄｉＬスタツクを用い、逆機能、または試行機
能に応答して実行される機能の効果を取り消すために実
行される取消事象を記憶する。このスタックは、ボック
ス２４０において、新しい一連の取消事象の開始を示す
値でマーク付けされる。

ボックス２５０における試験で始まる反復ループが、ボ
ックス２３４における操作機能からの呼出しで受は取っ
た機能を実行しようと試み、該機能を、該機能が受は取
られた順序で操作する。ボックス２５２のステップにお
いて、次の機能を実行することができるかどうかが試験
される。これは、一般に、若干のパラメータがこの機能
と整合するということを確かめるために該パラメータを
検査することを含んでいる。整合しない場合には、シス
テムは、ボックス２５４において、取消スタックからマ
ーカまでの取消事象を実行し、ボックス２５６において
、故障の信号を発する。これについては後で更に説明す
る。しかし、機能を実行することができる場合には、ボ
ックス２５８のステップにおいて、これが実行され、そ
してまた、１つまたは複数の適切な取消事象がスタック
にロードされる。

上に掲げたトロロソブ機能は、一般に、挿入、取替え分
割、マージ削除、または変更の諸特徴のような、取り消
すことのできる１つまたは複数の機能を呼び出す。取り
消すことのできるこれら機能のうちの一つへ通ずる中間
機能もまた呼び出される。取り消すことにできる機能の
各々は、基本操作を呼び出して該機能自体を実行するこ
とに加えて、取消事象をスタックにロードする。基本操
作の結果、文法１６６と整合しないデータ構造となった
場合には、取消事象を後で実行し、データ構造１６４を
その前の状態ヘリスドアすることができる。或いはまた
、操作が首尾よく完了した場合、そしてユーザが、再考
の後、この操作は望ましくなかったと決定した場合には
、ユーザは、例えば取消キーを押すことにより、取消操
作を呼び出すことができる。これに応答して、取消スタ
ックからの取消事象が実行され、前の操作を取り消す。

各基本操作はまた、該操作によって変更された最高ノー
ドを示すデータを記憶するために機能を呼び出すことが
できる。

全ての機能が実行されたら、ボックス２６０における試
験により、試行機能がボックス２３４において呼び出さ
れたときにスタックがマーク付けされて一連の取消事象
の始まりを示すようになっていたかどうかを測定する。

マーク付けされてなかった場合には、試行機能は、デー
タ構造のノードを検査する他のトロロップ機能を呼び出
すことによって該試行機能のそれまでの結果を検査し、
ボックス１６２においてこれらがなお文法１６６と整合
しているということを確認する。ノードを検査するため
にこの機能によって行なわれるステップについでは後で
詳細に説明する。ノードが文法１６６に整合している場
合には、ボックス２６４のステップにおいて、５Ｅｄｉ
ｔ機能を呼び出すことにより、最も最近のマーカ以後の
取消事象を単一の事象に統合する。この時点で、ボック
ス２６６のステップにおいて、値Ｔまたは「真」をリタ
ーンさせ、ボックス２３４における呼出しで受は取られ
た機能の首尾よい完了を示す。

結果が文法１６６に整合していない場合には、ボックス
２５４のステップにおいて、スタックに対して取消事象
を行なう。これは、スタックに最も最近に押しつけられ
た事象から始め、最も最近のスタックマーカが見つかる
まで継続する。マーカが見つかったら、ボックス２５６
のステップにおいて故障の信号を発し、そして不首尾の
試行を示す値ＮＩＬをリターンさせ、ボックス２３４に
おける呼出しで受は取られた機能を実施する。

第１２図は、ノード及びその子が文法１６６に整合する
かどうかを再帰的に検査する際に行なわれるステップを
示すものである。検査機能に対する呼出しは、ボックス
２８０示すように、検査すべき変更済みノードを含んで
いる。呼出しが他のプロシージャから来る場合には、検
査機能に対する呼出しは最高レベルの変更済みノードを
含む可能性がある。呼出しが検査機能からの再帰的呼出
しである場合には、これは、最初に検査機能を呼出した
他のプロシージャから受は取られた変更済みノードの派
生ノードの一つを含んでいる。

検査機能はノード検査機能を呼び出し、ボックス２８２
において、これとともに呼び出されたノードが非空文字
ストリングを有するテキスト担持リーフノードであるか
どうかを検査する。そうである場合には、かかるノード
は常に文法１６６を満足するので、及びかかるノードは
これから生ずる子ノードを有していないので、それ以上
の検査の必要はない。従って、ボックス２８４のステッ
プにおいて、値「真」がリターンさせられ。これまでの
結果は宜Ｌ７いということを示す。この値が試行機能ヘ
リターンさせられる場合には、第１１図におけるステッ
プがボックス２６４のステップと共に再び始まる。

ノードがテキスト担持リーフノードでない場合には、検
査機能は、ノードの子とともに整合機能を呼び出すこと
により、及びノードに適用可能であってパターンとして
提供される文法規則を呼び出すことにより、ボックス２
８６において継続する。或いはまた、この規則は、文法
が内面化されるときに計算される最小確定的有限状態マ
シンを用いて提供される。しかし、実施される整合機能
は、スタックを基礎とするバンクトランキングを採用し
、原子名のアルファベントについての正規の表現である
パターンに対してノードを整合させる。

実施に際しては、整合機能は２つのリストで開始する。

その一方のリストは子ノードのリストであり、他方のリ
ストはパターンの素子のリストである。整合機能がノー
ドまたはパターン素子の操作を完了すると、該機能は、
次のノードへ、または次のパターン素子へ進み、前記２
つのリストで再び開始する。

整合機能が、ノードまたはパターン素子の操作の開始時
またはその後で、２つのリストで開始するときには、該
機能は先ず、何等かのノードが子ノードのリスト上に残
っているかどうかを試験する。残っていない場合には、
前記機能は値「真」をリターンさせ、残りのパターン素
子のリストが空ストリングと整合することができる場合
にのみ、整合があることを示す。ノードのリストが空で
あり、そして残りのパターン素子が空ストリングに整合
することができない場合には、整合機能はＮＩＬをリタ
ーンさせ、整合に対する故障を示す。

ノードが残っている場合には、整合機能は、次に、何等
かのパターンがパターン素子のリスト上に残っているか
どうかを試験する。残っていない場合には、整合機能は
、前から据え置かれているパターンのスタックからパタ
ーン素子のリストを取る。パターンが据え置かれていな
い場合には、整合機能はＮＩＬをリターンさせ、故障を
示す。

パターンリストもノードリストも空でない場合には、整
合機能は進行し、パターンリストをノードリストに整合
させようと試みる。次のパターン素子に星印が付されて
いる場合には、整合機能はそれ自体を再帰的に呼出しく
据置きパターンスタックを用いて）、星印付きパターン
シーケンスを、ゼロまたはそれ以上の回数、ノードシー
ケンスの次々に続く部分と整合させようと試みる。ノー
ドは、星印付きパターン素子と整合させられるにつれて
ノードリストから除去されるが、各星印付きパターン素
子は、整合に失敗するまで、パターンリスト上に留まっ
ている。次のパターン素子が［オアＪ　（ｏｒ）である
場合には、整合機能はそれ自体を再帰的に呼び出しくこ
こでも据置きパターンスタックを用いる）、「オア」選
言技のどれかをノードリスト上のノードに対して整合さ
せようと試み、この選言技のどれをもノードと整合させ
ることに失敗するとＮＩＬをリターンさせる。しかし、
さもない場合には、「オア」パターン及び整合済みノー
ドをそれぞれのリストから除去する。

最後に、次のパターン素子がテキスト型名である場合に
は、整合機能は、パターンがノードの型に等しくないな
らば、ＮＩＬをリターンさせる。しかし、さもない場合
には、残りのノード及びパターンを整合させ始める。こ
のようにして、整合機能はノードのリスト及びパターン
素子のリストを通って進み、最後に、これらを整合させ
ることができるかどうかを示す値をリターンさせる。

整合機能が、整合がないということを示すと、ボックス
２８８のステップはＮＩＬをリターンさせ、この構造が
許容不能であるということを示す。

この値が試行機能ヘリターンさせられると、第１１図の
ステップがボックス２５４のステップで再び始まる。し
かし、現在のノードが文法１６６に合致し、従って整合
がある場合であっても、その子ノードにおいて変更がな
されている可能性があり、従って、子を検査することが
必要である。

ボックス２９０において、検査機能は、現在ノードの子
に適用される文法特徴を獲得する。次いで、ボックス２
９２のステップにおいて、現在ノードの芥子を順々に操
作する反復ループが開始する。ボックス２９４の試験に
おいて、次の子が変更されていたかどうかが測定され、
変更されていなかった場合には、検査機能はボックス２
９２の試験へ戻る。次の子が変更されていた場合には、
検査機能はボックス２９６においてこの変形済み子を提
供し、そしてボックス２９８において再帰的呼出しを行
い、この再帰的呼出しがこの変更済み子とともにボック
ス２８０において第１２図のステップに入るようにする
。呼出し検査機能は、次いで、再帰的に呼び出された検
査機能によってリターンさせられた結果に基づいてボッ
クス３００において分岐し、ＮＩＬを受は取ったら、ボ
ックス３０２において値ＮＩＬをリターンさせる。前述
したように、この値が試行機能ヘリターンさせられると
、第１１図のステップがボックス２５４で再び始まる。

試行機能が値「真」を受は取ると、該機能はボックス２
９２における試験へ戻る。全ての子が操作されて文法に
整合することが解ると、ボックス３０４のステップにお
いて値「真」がリターンさせられる。前述したように、
この値が試行機能ヘリターンさせられると、第１１図の
ステップがボックス２６４において再び始まる。

第１１図の機能が完了すると、データ構造１６４は、ユ
ーザからの文字コードに応答して修飾されている。次に
、どのようにして、変更済みデータ構造が、自律的句読
文法に従って、ユーザに対するデイスプレィのためのシ
ーケンスに変換されるかを検討する。

自律的句読データ構造からのテキスト再生について説明
する。

通例の操作の一部として、ＳＨｄ　ｉ　ｔは、データ構
造１６４から、デイスプレィのためのテキストのシーケ
ンスを再生する。これを行なうため、ＳＥｄ　ｉ　ｔは
データ構造１６４における各ノードに関するいくつかの
トロロップ機能を呼び出す。第１３図は、再生の準備と
して自律的句読構造を通して情報を伝播させる一般的ス
テップを示すものである。第１４図は、次いで再生を行
なうステップを示すものである。

第１３図に示すようなシーケンスを用いて、データ構造
１６４内で情報を下方及び上方へ伝播させることができ
る。下方へ伝播させられる情報は、例えば、１重及び２
重の引用符号の適切な交替を容易にするため、引用符号
内のネスティングのレベルを示す１つまたは複数の特徴
値である。上方へ伝播させられる情報は、例えば、後続
の行切れ目の挿入を容易にするために幅を示す。

第１３図のシーケンスは、ボックス３１０における現在
ノードの特徴値を獲得することで始まる。

このステップは、ＳＥｄ　ｉ　を機能書式機能を介する
、これもデータ構造１６４の走査を必要とするＳＥｄ　
ｉ　ｔによるトロロソプ機能に対する呼出しで開始され
る。従って、これら書式機能は、特徴値伝播のだめの有
用なビヒクルである。トロロツプ機能はノードの再現規
則、即ち、テキストシーケンスの再生中にどのようにし
てこれを再現させるかということを管理する規則を検索
する。再現規則を持っていない場合には、デイフォルト
再現規則が提供される。或いはまた、第１３図のシーケ
ンスが再帰的に呼び出される場合には、後述するように
、適切な特徴値が再帰的呼出しにおいて提供される。

ボックス３１２における試験において、特徴値が伝播さ
れていない子ノードを現在ノードが持っているかどうか
が測定される。

各子ノード対し、ボックス３１４のステップにおいてそ
の特徴値が獲得される。これを行なうため、子が唯一の
、最初、最後、または中央の子であるかどうかに基づい
て次の子に対して伝播規則を見付ける。唯一の子に対し
、伝播の全ての形式、即ち、下左方、下方、及び下右方
が適用される。

いくつかの子のうちの最初の子に対しては、下左方及び
下方のみが適用される。い（つかの子のうちの最後の子
に対しては、下方及び下右方のみが適用される。そして
、中央の子に対しては、下方のみが適用される。次いで
、適切な伝播規則を用い、子ノードにおいてターンオン
すべき特徴値のリストを獲得する。このリストは、親の
特徴値、及び親の再現規則においてターンオンさせられ
る再現特徴値をリスト上に押すことによって生成される
。伝播規則に従う値のみを前記リスト上に押す。次いで
、親に対してターンオンさせられる再現特徴をリストか
ら除去する。

ボックス３１６におけるステップはボックス３１４から
の特徴値を提供し、ボックス３１８におけるステップは
第１３図におけるステップのシーケンスに対して再帰的
呼出しを行う。各再帰的呼出しはボックス３１８におい
て提供される特徴を受は取ることによって始まり、そし
て、子ノードがなかったら、前述のように継続する。

再帰的呼出しを通じて、第１３図のシーケンスは、開始
ノードの子孫である全てのノードを走査し、特徴値をデ
ータ構造１６４において下方へ伝播させる。所定のノー
ドの全ての子が走査されたら、ボックス３２０のステッ
プにおいて、ノードの幅、または再生中に有用である他
の全てのパラメータが計算される。ノードの幅はその子
の幅に応じて定まるから、このステップにおいて情報が
データ構造１６４内で上方へ伝播させられる。ボックス
３２０におけるステップが完了すると、第１３図のステ
ップのシーケンスは、これを呼び出したプロシージ中へ
戻る。

データ構造１６４内での下方及び上方への情報の伝播は
、句読特徴相互間の関係の故に有用である。例えば、２
つまたはそれ以上の引用文がネスティング関係になって
いる場合には、外側の引用文は２重引用符号によって境
界付けされ、次の引用文は１重引用符号によって境界付
けされ、以下同様になされて、２重及び１重の引用符号
間の交替が行なわれる。従って、直接引用文から間接弓
用文への引用符号なしの変更は、その引用文内にネスト
される引用文の句読に影響を与える。同様に、ノードの
幅は行切れ目に影響を与える。予備走査はデータ構造１
６４の全てを常に包含するとは限らない。しかし、前の
操作によって修飾された部分のみを包含することはでき
る。

第１４図は、データ構造１６４からのデイスプレィのた
めのテキストシーケンスの再生中に実行されるステップ
を示すものである。第１４図の再生機能は、データ構造
１６４のノードを含む呼出しで入力され、また、ノード
の子を示す開始インデックスを含む場合がある。

ボックス３３２のステップにおいて、開始インテックス
がボックス３３０において受は入れられたかどうかが測
定される。受は入られてなかった場合には、再生操作が
ノートの全ての子に影響を与え、そしてどんな句読特徴
でも子の前のテキストシーケンスに挿入される。従って
、ボックス３３４のステップにおいて、現在ノードの再
現規則にアクセスし、ノードの最初の子の前に現れるべ
きコードのストリングを検索し、そしてこのストリング
をテキストシーケンスに印字する。再現規則がストリン
グの前に何も含んでいない場合には、句読特徴をノード
の子の前に挿入する必要はない。再生機能は、印字機能
に対する呼出しをもって印字し、この呼出しをもって規
則からストリングを提供する。印字機能は、次いで、ス
トリング内のアイテムを通って進み、このアイテムがス
トリングであるか、数であるか、またはキャリッジリタ
ーンであるかに基づいて適切なＳＥｄ　ｉ　を呼出しを
提供する。

ボックス３４０のステップにおいて、現在ノードが、テ
キストを包含しているリーフノードであるかどうか、が
測定される。このようなり−フノードである場合には、
このノードは子を有しておらず、そしてその内容をテキ
ストシーケンスに直接食ませることができる。このよう
であるならば、ノードの内容はボックス３４２において
テキストシーケンスに印字される。再生機能はボックス
３４０における試験のためのノード機能を呼び出し、ボ
ックス３４２のステップに対し、ノードのテキストを獲
得し、次いでこのテキストをもって印字機能を呼び出す
。ノードの特徴または書式が、その最初の文字を大文字
化すべきことを示すならば、適切なステップが取られる
。

ボックス３４０の試験において、ノードがテキスト付き
リーフでないと決定されると、第１４図の再生機能がこ
のノードの子に対して反復ループを開始する。ボックス
３４４の試験において、操作すべき子が残っているかど
うかが測定される。

残っている場合には、ボックス３４６の試験において、
次の子が開始インデックスの後であるかどうかが測定さ
れる。そうでない場合には、これはスキップオーバされ
、そして、開始インデックスの後である子に到達するま
でループが反復する。

ボックス３５０の試験において、子が最初の子であると
決定された場合には、ボックス３５２のステップにおい
て子ノードが提供され、そしてボックス３５４のステッ
プにおいて第１４図の機能に対する再帰的呼出しが行な
われる。この呼出しは開始インデックスで行なわれる。

子ノードがこの再帰的呼出しによって操作された後、こ
の機能はボックス３４４において他の反復ループを開始
するために戻る。

ボックス３５０の試験において子が最初の子でないと決
定された場合には、ボックス３５６のステップにおいて
現在ノードの分離符号ストリングがその再現規則から印
字される。次いで、現在の子が、後に行切れ目が挿入さ
れる可能性のある型である場合には、ボックス３５８の
ステップにおいて、行切れ目が必要であるかどうかが測
定され、必要であるならば行切れ目が挿入される。前述
のように、再現機能は、現在ノードの分離符号ストリン
グがある場合にはこれをもって印字機能を呼び出してボ
ックス３５６のステップを実施する。

分離符号ストリングは、例えば、語の間のスペースであ
る。再現機能は、行切れ目が必要であるかどうかを測定
し、必要である場合にはこれを挿入する。次いで、前述
のように、ボックス３５２０’）ステップにおいて、ボ
ックス３５４のステップによる再帰的呼出しに対して子
ノードを提供する。

現在ノードの全ての子が操作されたら、ボックス３６０
のステップにおいて現在ノードの再現規則の後ストリン
グがテキストシーケンスに印字される。前述のように、
再現機能は、現在ノードの後ストリングがあったらこれ
をもって印字機能を呼び出してボックス３６０のステッ
プを実施する。

このステップが完了したら、第１４図の機能は、これを
呼び出したプロシージャへ戻る。

第１４図の機能は通例の５Ｅｄｉｔ操作によって局所化
され、データ構造１６４の一部のみに対して操作するよ
うになる。ＳＥｄ　ｉ　ｔは再現すべき部分を識別し、
そして適切な開始インデックスをもって適切なノードを
呼び出してこの部分を再現する。

ＳＥｄ　ｉ　ｔは、データ構造１６４内の何処に変更が
なされたかに基づいて再現すべき部分を識別する。

５Ｅｄｉｔは、ユーザが指示している場所に対応するデ
ータ構造１６４内のノードを識別するため、テキストシ
ーケンスとデータ構造１６４との間で前後にマツピング
することのできることが必要である。通例の５Ｅｄｉｔ
操作は、データ構造１６４の各ノードと対応のテキスト
シーケンスの部分との間の関係のトラックを保持する。

しかし、これに加えて、トロロップ機能がＳＥｄ　ｉ　
ｔによって呼び出され、挿入点または選択を適切な仕方
で識別するのを助ける。これら機能は、点または選択に
対するノードを決定するに際して、前ストリング、分離
ストリング、及び後ストリングの位置を考慮にいれる。

データ構造１６４のノードのみがこの実施における５Ｅ
ｄｉｔ操作の目的となり得る。

この実施は、自律的句読文法の使用を容易にするいくつ
かの追加の特徴を有している。

次に、色々な特徴について説明する。

前述した特徴はエディタの基本的機能であるが、更に、
自律的句読文法及び関連の操作及び再現規則を編集する
ことができること、並びに、データ構造１６４を、編集
中に用いるよりも小形の形式にセーブすることのできる
ことが望ましい。前記のように、この実施はタイトル・
バー・メニューを介してこれら特徴を提供する。

タイトル・バー・メニュー内の一つの編集オプションの
選択に応答して、ＳＥｄ　ｉ　ｔウィンドーがセットア
ツプされ、その中で、文法、再現規則、または操作規則
を編集することができる。文法を編集する際には、検査
機能が呼び出され、現存のデータ構造が新しい文法を満
足するかどうかを検査する。満足しない場合には、ユー
ザは文法を編集するための他の機会を与えられる。

タイトル・バー・メニューにおける一つのセーブ・オプ
ションの選択に応答して、データ構造は、トロロツプに
よる、または他のエディタＴＩＥｄ　ｉ　ｔによる読出
し可能な形式にセーブされる。トロロソブによる読出し
可能な形式は外部テキスト解析表現（Ｔ’ＡＲ）と呼ば
れる。このリスト書式が受入られると、これは編集に適
当するデータ構造に変換される。編集データ構造の各ノ
ードは内部ＴＡＲを含み、この内部ＴＡＲはトロロップ
編集において用いられる追加の情報を含んでいる。

次に、自律的句読文法の利点及び他の用途について説明
する。

編集において自律的句読文法を用いると格別の利点が得
られる。その若干の例を挙げると次の通りである。

（Ａ）データ構造は、何等かの修飾があると、その後、
文法とのコンプライアンスについて検査されるので、ユ
ーザは、多くの不注意のタイボグラフィ的またはテキス
ト的誤りをなすことを防止される。このような誤りは、
この防止がないと、修正を必要とすることになるもので
ある。即ら、例えば、適性の数のスペースが語と文との
間に自動的に挿入される。また、各文は自動的に大文字
で始まる。また、ユーザは括弧、引用符号、または類似
の対をなす符号を不平衡または不適正に交番させること
がなくなる。

（Ｂ）選択機構はデータ構造内のノードの選択を許すの
みである。従って、エディタは、語、句、節、括弧入り
語句、引用語句、及び文のようなテキスト単位を適正に
選択し、構造的に無意味な選択を行なうように用いられ
ることがない。

（Ｃ）ユーザは、句読法を後で整頓することの必要なし
に、選択に対しての操作を行なうことができる。節の移
動を第１図に示しであるが、他の多くの例がある。交円
の最初の語が削除されると、新しい最初の語が自動的に
大文字化される。スペーシング、句読符号、及び大文字
化を修正するマージ操作及び分割操作を介して、２つの
文のような２つのテキスト単位を結合して１つのテキス
ト単位にすることも、または１つのテキスト単位を２つ
のテキスト単位に分割することもできる。テキスト単位
は不適切な型の挿入点へ移動させられる可能性があり、
この場合には、可能ならば、介在構造単位の挿入または
削除により、正しい構造に改造する。例えば、句を段落
挿入点へ移動させる場合には、介在する段落または文テ
キスト単位を挿入し、これにより、この挿入語句が単文
段落となり、従って句読付けされるようにすることがで
きる。ネストされた引用語句を、１重及び２重の引用符
間の適正な交替を得るために句読符号を修正することな
しに、及び終わりの引用符号内のピリオドのような句読
符号の位置を修正することなしに、コピーまたは移動す
ることができる。

しかし、編集は、自然言語テキストを処理する際の自律
的句読文法の唯一の用途ではない。自律的句読文法はま
た、例えば、自然言語テキストをテキスト単位に解析ま
たは分析するために用いられる。例えば、未構成テキス
ト内の文字をファイルから１つずつ読み出し、その各々
を編集用挿入信号として順々に処理して、テキストに対
応するデータ構造を構築することができる。自然言語テ
キストは明示的な自律的句読構造を有していないから、
自然言語テキストを分析する際の重要なステップは、句
読構造内の曖昧さを解決することである。その自律的句
読構造を示すため、テキストを、構造データを含むトリ
ー状データ構造に変換するか、または構造データをもっ
て注解することができる。

構造構築用文法と呼ばれる特別の一組の規則を開発して
テキストを自律的句読データ構造に変換することができ
る。例えば、構造構築用文法をキーボード上の入力動作
からマツピングし、データ構造内のテキスト単位にマウ
スすることができる。

換言すれば、文法の終端記号は、テキスト型の文法にお
けるようにアルファベットの文字を抽出することにでは
なしに、入力動作に対応し、一方、非終端記号はテキス
ト型の文法の非終端記号に対応する。従って、この文法
の規則は、入力動作からどのようにしてデータ構造を構
築するかを示すものである。次いで、この仕様をパーサ
発生技術とともに用いてエディタのための状態マシンを
生成することができる。

次に、その他の事項について説明する。

本発明の範囲内で多くの変形を行なうことができる。例
えば、システムに対するユーザインクフエースは普通の
エディタである必要はなく、句読誤りを識別するために
正しい句読法または句読検査インタフェースを学ぶ者を
援助するための教育ユーザインタフェースであってもよ
い。本発明は色々な仕方で実施することができ、例えば
、プログラミング言語とともに用いることもできる拡張
可能構造エディタとともに実施することができる。

本発明に関係する他の方法は、テキスト型に従って分析
されたテキストのパース・トリー状表現を、語及び句読
特徴を含むテキストの線形ストリングに変換するための
、規則を基礎とする方法である。一つの組の規則は、各
テキスト型の例をどのようにしてテキスト及び埋設句読
特徴の局所的に正しいストリングに変換するかを示す。

第２の組の規則は、線形において作られた句読特徴がど
のようにして局所的に（即ち、並列に）対話し、結局は
全体的に正しい結果を作るかを示す。

例えば、いくつかのテキスト型に対する第１の型の可能
性ある規則がある。即し、語は、スペースが後に続く構
成文字のシーケンスとして線形化される。句は、コンマ
が後に続く構成要素のシーケンスとして線形化される。

文は、「大文字化特徴」が先行し且つピリオド及びスペ
ースが後に続く構成要素のシーケンスとして線形化され
る。第１の組の規則によって導入される句読特徴は、実
際の句読符号から弁別され。そして、これら特徴は「実
現規則」を与えられ、この「実現規則」は、一般に、句
読符号をもって実現を規定するが、く即ち、コンマ特徴
はコンマ記号をもって実現される）、他の仕方で働くこ
ともできる。−例を挙げると前述の「大文字化特徴」が
あり、これは、最初の語におけるその右の文字に対する
最初のアルファベット文字を大文字化するこによって実
現される。即ち、第１及び第２の組の規則を順々に適用
することに加え、実現規則は、デイスプレィへ送るか、
またはファイルに格納することを都合よ（行なうことの
できる文字のストリングを得るため、句読特徴に適用さ
れることが必要である。

第２の組の規則は、第１の組の規則によって生じたスト
リング内の句読特徴の対相互間の対話を管理する。句読
特徴相互間の全ての対話には２つの基本的種類がある。

即ら、併置対のうらの一方が消える吸収、及び２つの句
読特徴の順序が逆転する転換がある。例えば、コンマ及
びピリオドが併置されていると、コンマが消える。右の
引用語句及びピリオドがこの順序で併置されていると、
これらは転換されるべきである。同様に、転換規則は、
コンマ、セミコロン、ピリオド、等のような符号が後に
続くスペースに適用される。自律的句読文法から引き出
されたパース・トリーからの正しく句読つけされたテキ
ス［・の発生を、これらの考えの使用によって大幅に筒
車化及び組織化することができる。さらにまた、第１の
組の規則によって引き出された句読特徴に自由選択的に
指向性を与えることができ、これにより、これらはその
左または右のトークンに［こびりつ＜　Ｊ　（ｓｔｉｃ
ｋ）ようになる。このようにして、どこに行切れ目を入
れるかを決定することについての問題が組織化される。

例えば、右の括弧が左の語にこびりついている場合には
、語とその後に続く右の括弧との間で行が切れないとい
うことが解る。

以上、本発明をその種々の実施例について説明したが、
本発明の範囲内で更に他の態様、変形、変更及び拡張が
可能である。即ち、本発明は前述の説明たまは図面に限
定されるものではなく、本発明の範囲は特許請求の範囲
に記載のごとくである。

【図面の簡単な説明】

第１図は本発明にかかる自律的句読構造を有するデータ
構造に適用可能な編集方法を示す略図、第２図は本発明
にかかる自律的句読構造を示す構造データ有するデータ
構造を作る一般的ステップを示すフローチャート、第３
図は本発明にかかる自律的向゛読データ構造を用いる一
般的ステップを示すフローチャート、第４図は本発明に
かかる自律的句読データ構造を含んでいる装置のブロッ
ク線図、第５図は本発明にかかる自律的句読データ構造
の一実施例におけるデータ単位を示す略図、第６図は本
発明にかかる自律的句読データ構造の他の実施例におけ
るデータシーケンスを示す略図、第７図は本発明にかか
るテキスト編集中の操作及びデータ構造を示す流れ図、
第８図は本発明の一実施例におけるソフトウェアとデー
タ構造との間の関係を示すブロック線図、第９図は第８
図の実施例に対してどのようにして編集をセットアツプ
するかを示すフローチャート、第１０図は本発明にかか
る自律的句読データ構造を修飾する一般的ステップを示
すフローチャート、第１１図は第１０図の実施例方法を
詳細に示すフローチャート、第１２図は第１１図におけ
る検査結果に整合する文法のステップを示すフローチャ
ート、第１３図は本発明にかかるテキストシーケンスを
再生するための準備における自律的句読データ構造を介
する情報伝播の一般的ステップを示すフローチャート、
第１４図は本発明にかかる自律的句読データ構造からテ
キストシーケンスを再生する一般的ステップを示すフロ
ーチャートである。ＦＩＧ、　２ＦＩＧ、　３ −ｆ２−−−−−−−−−−−＝−−−＝”−＋ヒーー
竺立二＝二１−８０ＦＩＧ、　４ＦＩＧ、　５ＦＩＧ、　８

Claims

【特許請求の範囲】１、自然言語テキストを表現するテキストデータ内に構
造データを含ませるステップを有し、前記構造データは
前記テキストの自律的句読構造を示している自然言語テ
キスト処理方法。２、自律的句読構造を獲得するため、一組の規則を自然
言語テキストに適用するステップを更に有している請求
項１記載の自然言語テキスト処理方法。３、一組の規則はテキスト型の文法であり、前記一組の
規則を適用するステップは自然言語テキストをテキスト
単位に分析するサブステップを有し、各前記単位は前記
テキスト型の一つをそれぞれ有しており、テキストデー
タ内に構造データを含ませるステップは、各前記テキス
ト単位に対し、そのテキスト型を示す構造コードを含ま
せるサブステップを有している請求項２記載の自然言語
テキスト処理方法。