JPH02187857A - 自然言語テキスト処理方法 - Google Patents

自然言語テキスト処理方法

Info

Publication number
JPH02187857A
JPH02187857A JP1296001A JP29600189A JPH02187857A JP H02187857 A JPH02187857 A JP H02187857A JP 1296001 A JP1296001 A JP 1296001A JP 29600189 A JP29600189 A JP 29600189A JP H02187857 A JPH02187857 A JP H02187857A
Authority
JP
Japan
Prior art keywords
text
punctuation
data
box
editing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1296001A
Other languages
English (en)
Inventor
Geoffrey D Nunberg
ジェフリー ディー ヌンバーグ
H Tayloe Stansbury
エイチ テイロー スタンズバリー
Curtis Abbott
カーティス アボット
Brian C Smith
ブライアン シー スミス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH02187857A publication Critical patent/JPH02187857A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上利用分野〕 本発明は、自然言語テキストを、句読法(punctu
ation)を考慮して処理するための方法に関し、更
に詳細には、自然言語テキストの句読構造についての情
報を含むデータ構造に関する。
〔従来の技術〕
自然言語に対する従来のデータ処理法は、通例、テ;1
;ストを一連のコードとして取り扱う。使用されるコー
ドとしては、英字及び数字のコード、並びに句読符号コ
ード、並びにスペース、タブ及びキャリッジリターンの
ようなキャリッジ操作を示すギヤリッジ制御コードがあ
る。印字またはデイスプレィによってテキストが呈示さ
れると、これらのコードは英数字並びに他の符号及び記
号の配置を制御する。
テキスト編集、書類レイアウト及びページ書式作成を容
易にするいくつかの非印字文字が、ゼロックス(Xer
o)<)社から市販のビューポイント・ドキュメント・
エディタ(ViewPoint Document E
ditor)を説明している「テキスト・エデイティン
グ」(Text Editing)、VPシリーズ・レ
ファレンス・ライブラリ(VP 5eries Ref
erennce Library)、バージョン1.0
 (Version 1.0 )  (ゼロックス社、
1985年、47〜56頁)の52〜56頁に記載され
ている。ユーザは、例えば書類の書式作成及びレイアウ
トに用いるため、これらの文字を編集中に用いることが
できる。前述の文字としては、スペース、タブ、及び新
段落文字のような特殊の書式作成文字がある。前述の文
字としては、また、ページ書式文字、フィールド境界文
字、及びフレームアンカを含む構造文字がある。
前記のビューポイント・ドキュメント・エディタはまた
、ユーザが、これら非印字文字に対応のコードに基づい
てテキストの単位を選択してこれに対して操作すること
を可能にする。例えば、「テキスト・エデイティング」
の47〜52頁に記載されているように、多重マウス・
ボタン・クリックを用いて、テキストを、文字、語、文
または段落の単位として選択することができる。エディ
タは、テキストを語または文として解釈するために特殊
の規則を用いる。この規則は、テキスト文字の各グルー
プを語として取り扱い、そして、後続スペース及び先行
スペースの存在または不在に応してスペースを含む。こ
の規則は、句読符号によって境界づけされた各一連の語
及び記号を文として取り扱い、そして、後続句読符号の
後及び前記文の最初の文字の前におけるスペースの存在
または不在に応じてスペースを含む。
〔発明が解決しようとする課題〕
本発明は、自然言語テキストの自律的句読構造(aut
onomous punctuational 5tr
uctuer)を示すデータを含むデータ構造を提供す
ることを目的とするものであり、このデータ構造を種々
の仕方に用いて自然言語テキストを処理することができ
る。
本発明はまたテキスト型の文法を用いて自然言語テキス
トを処理する方法を提供することを目的とするものであ
る。
〔課題を解決するだめの手段〕
本発明の一つの態様は、自然言語テキストの句読法に対
する従来の取り上げ方における周知の問題に関するもの
である。従来のシステムは、ビューポイント・ドキュメ
ント・エディタについて前述したように、テキスト内の
一連の文字中にある句読符号コード、スペース・コード
、キャリッジ制御コード及び他のコードを含んでいる。
テキストの処理中、語、文、行、段落またはページ間の
区切り点のようなテキストの構造的特徴は、句読符号及
び他のコードの順次的位置から推定される。
しかし、従来のアルゴリズムにおいては、テキストの構
造についての誤った推論がなされる場合がしばしばある
一例を挙げると、選択を外側へ成長させるための多重ク
リソキングがある。選択は、例えば、文字で始まり、語
へ、文へ、及び段落へ成長する。
前掲の「テキスト・エデイティング」の52頁に指摘さ
れているように、多重クリソキングの結果は望ましくな
い場合があり、この場合には、ユーザは他の選択方法を
用いることが必要となる。ユーザが、テキストの変形と
いう結果となる選択に対する操作を要求する場合でも、
ユーザは、正しい句読法、スペースあけ、大文字使用等
に対するいつくかの追加の操作を行うことが必要となる
これら追加の操作はテキストの操作を複雑にする。
本発明のこの態様は、従来のアルゴリズムについて底に
横たわっていた問題を認識したということに基づいてい
る。従来のアルゴリズムは、テキストの呈示に関するコ
ードまたは他のデータを、テキスト語、文、行、段落、
またはページのような単位に分割するだめの基礎として
用いている。
従来のアルゴリズムは、テキストの語、文、段落、また
は他の単位の境界を見付けるために特殊化したサーチル
ーチンを用いている。ところが、これは、2つに理由の
ために失敗することがしばしばある。即ち、第1の理由
としては、句読法の若干の弁別用符号が不明確であり、
サーチルーチンで見付けられる境界が正しくない場合が
ある。例えば、略語の末尾のピリオドが文の末尾のピリ
オドと間違えられる場合がある。第2の理由としでは、
ユーザが行うことのできる変更の結果、書類が不正確ま
たは不明確に句読つけされ、これも同様に、見付けられ
る境界が正しくなくなる場合がある。
例えば、文の末尾のピリオドが脱落すると、文が間違っ
て句読つけされ、この文を後続の文から弁別することが
できなくなる場合がある。このような間違いがあると、
編集効率が低下し、また、テキストが間違って句読つけ
されたものになってしまう場合がある。
この態様はまた、この難点に対処するための一つの方法
が、テキストの自律的句読構造を示すデータを含んでい
るデータ構造を使用することである、ということを見い
出したということに基づいている。この句読構造は意識
上自律的であり、テキスト内の1つまたは複数の句読特
徴の分布及びこれらの間の依存関係をテキストの倍量的
内容を参照することなしに定義する。データ構造がこの
ようであると、ユーザの操作により、句読的に正しい一
つの構造から他の構造に確実に導くことが容易である。
また、未構造化テキストからこのようなデータ構造を生
成すること、及びこのデータを呈示することができる。
換言すれば、比較的簡単な一組の規則を用い、テキスト
の呈示と自律的句読データ構造との間でいずれの方向に
も変形を行うことができる。
プログラミング言語は、従来、句読構造を有するものと
して取り扱われている。このような言語におけるコード
は、従来、構造エディタで編集することができる。例え
ば、エンボス(EnνOS)社(カリフォルニア州、マ
ウンテン・ビュー市、サン・アントニオ街1157)か
ら市販のリスプ(Lisρ)の一つのバージョンは5E
ditを含んでいる。
このSEd i tは、Li5pプログラミング言語の
2つの変種、即ち、インタリスプ(Interlisp
)及びコモンリスプ(Common Li5p)に対し
て句読構造を編集することができる。これについては、
ゼロックスLISPリリース・ノート、リリック・リリ
ース(Xerox  LISP  Re1ease  
Notes、  Lyric  Re1ease)(ゼ
ロックス社、1987年、21〜23頁)及び付録Bに
記載されている。デイクソン、エム(Dixon、 M
、)によれば、rsEdit二Interlisp−D
に対する拡張可能構造化データ・エディタJ  (19
86年6月17日、セクション1〜4)であり、これに
はSEd i tについての追加の特徴が記載されてい
る。これについては本明細書において参照として説明す
る。しかし、Li5p及び他のプログラミング言語は、
厳格に定義された比較的簡単な構文的構造を持つように
設計されている。また、このような構文的構造は、呈示
に対して要求される句読法に対して厳格に定義された明
確な関係を持つ。他方、自然言語はこのような設計なし
に、本発明以前に、発展してきており、自然言語を、該
自然言語がかかる句読構造を有しているかのように取り
扱うことができる、とは知られてなかった。
本発明の緊密に関連している一つの態様は、前述の一組
の規則を得るために使用される方法から得られる。テキ
ストがどのようにして、各々が倍量的内容とは独立であ
る語、句、節、引用語句、括弧入り語句、文、段落等の
ような単位に分割されるかということを定義する一組の
規則に従う自然言語テキストの句読構造を得ることがで
きるということが見いだされた。かかるテキスト間のネ
スティング関係は、句読特徴を定義する関係を示す構造
データとして定義することが可能である。
低レベルにあるテキスト単位は、構造データにより、高
レベルにあるテキスト単位にリンクされ得、その中に、
構造データが前記リンクされたテキスト単位の倍量的内
容を参照することなしに1つまたは複数の句読特徴の分
布及び依存性を定義する、ということがネストされる。
更に他の特徴として、テキスト単位が倍量的内容とは独
立にテキスト型に分類される場合に、このテキスト型に
依存して規則を作ることができる。
詳述すると、テキスト型の文法を提供することができ、
この文法においては、各規則は単位のテキスト型を示し
、このテキスト型に、所定のテキスト型のテキスト単位
が分割される。テキスト型についてのこのような文法を
、自然言語テキストの処理に種々の仕方で用いることが
できる。
テキスト型の文法は、例えば、呈示コードを含むテキス
トと、このテキスト及びその句読構造を呈示する自律的
句読データ構造との間で変形する際に用いることができ
る。この文法を用い、呈示コード付きバージョンをテキ
スト単位及びそのネスティング関係に分解することがで
きる。また、この文法のテキスト型を、自律的句読デー
タ構造からどのような呈示コードを呈示のためにテキス
トに挿入すべきかを決定する際に用いることができる。
構造コードを、各テキスト単位のテキスト型を示すため
に含ませることができ、テキスト単位はそのネスティン
グ関係に従って編成される。
テキスト単位が系列をなしている場合には、前記の代わ
りに構造データを並列系列として含ませることができ、
各構造単位はテキスト単位の一つに対応し、且つその構
造データを含む。また、この文法を、データ構造を変更
する際に用い、変更済みデータ構造が正しいままになっ
ているようにすることができる。
本発明の更に他の態様は、本発明にかかる自律的句読デ
ータ構造を、自然言語テキストを処理するだめに種々の
仕方で用いるこモができる、ということが認められたと
いうことに基づいている。
テキストデータを検索するためにプロセッサがデータ構
造にアクセスすることができ、次いでこのプロセッサは
、構造データに従って句読コードを含むことにより、一
連のコードを発生することができる。この一連のコード
を発生する前に、このプロセッサは、句読特徴に関する
情報をデータ構造を通じて伝播することができる。この
プロセッサは、前記一連のコードに基づいてユーザにテ
キストを表示することができ、そして、ユーザは、マウ
ス付きキーボー1ζを介して、または他の入力装置を介
して、テキストの選択部分を示す選択データを含む信号
を提供することができる。この選択データを、次いで、
テキストデータ上にマツピングして前記選択部分を識別
することができる。
ユーザはまた、前記選択部分に対して行うべき操作を示
すデータを提供することができ、これに応答して、前記
プロセッサは前記指示された操作を行ってデータ構造内
のテキストデータを変形し、他方、このデータ構造を自
律的句読データ構造として保持する。次いで、プロセッ
サは前記変形されたテキストデータを検索し、そして、
この変形済みテキストデータ内の構造データに従って句
読符号コード付きの変形されたテキストを発生する。
このオペレーションデータをもって、ユーザは、テキス
ト内の操作を行うべき位置を示す位置データを提供する
ことができる。これに応答して、プロセッサはこの位置
データをテキストデータ上にマツピングして対応の位置
を識別し、この位置において操作を行う。
本発明の前記及び他の目的、特徴及び利点は、以下に図
面を参照しで行う本発明の実施例についての詳細な説明
から明らかになる。
〔実施例〕
先ず、本明細書において用いる用語の意味について説明
する。
「テキストJ (text)とは、−並びの書いた語、
通例、シーケンスを意味する。
[書いた語J (writLen word)とは、文
字、コード等のような個別素子の形式で記録された語を
意味する。記録された連続音声のような連続形式に記録
された語は、従って、書いた語ではない。テキストは、
従って、各々が少なくとも1つの個別素子を持つぎ口ま
たはそれ以上の語である。
「自然言語テキストJ (natural langu
age text)とは、例えば英語のような、一つの
自然言語のテキストを意味する。
「テキストの単位J (unit of text)と
は、テキストを分割することのできる一つの単位である
[テキスト型j (textual type)とは、
構文的または意味論的の意義を有するが、辞書的の意義
を有していないカテゴリのテキストの単位である。
英語においては、r 語J (word)、「句J (
phrase)、「節J (clause)、「引用語
句J (quotation)、[挿入語句J (pa
renthetical) 、r文J (senten
ce)、及び「段落J (paragraph)はテキ
スト単位のカテゴリであり、これは、通例、構文的また
は意味論的の意義を有するが、辞書的の意義を有してい
ない。これに対して、テキスト単位の若干のカテゴリは
、構文的または意味論的の意義に加えて、更に辞書的の
意義を有す。即ち、これらは、テキストの辞書的素子の
分布及びそれらの間の依存性に関するものであるからで
ある。これらの辞書的カテゴリとしては「述語J (p
redicate) 、r名詞」(loun)、「形容
詞コ(adjective) 、r単数」(singu
lar)、[複数J (plural)、「所有格」(
possessive)、「過去時制J (past 
tense)、「主語J (subject) 、r目
的語J (object)、等がある。
一般に、これらのような辞書的カテゴリは、語に適用可
能な接辞並びに他の語形変化的及び派生的プロセスに関
するものである。また、「行J (line)及びUペ
ージコ(page)のようなテキスト単位の若干の非辞
書的カテゴリは、通例、構文的または意味論的の意義を
有しておらず、まして辞書的の意義も有していない。テ
キスト型の特殊のトークンまたは事例を、本明細書にお
いては、テキストの他の単位から区別するため、「テキ
スト型単位」(textual type unit)
と呼ぶ。
「テキスト型規則J (textual type r
ule)とは、適用可能性がテキスト型に応じて定まる
規則である。換言すれば、テキストがテキスト型単位に
分割される場合、一つのテキスト型規則が、成るテキス
ト型の事例である単位に適用されるが、他の型の単位に
は適用されない。
「テキスト型の文法」輸ramraer of tex
tualtypes)とは、一組のテキスト型規則であ
り、その各々の規則は、それぞれのテキスト型の任意の
テキスト型単位に対し、その単位を分割することのでき
るテキスト型単位のテキスト型を示す。更に、「テキス
ト型の文法」は、テキスト型単位のうちの全てかつ唯一
の許容可能区画部分を定義する。
テキストの[句読特徴J (punctuationa
l feature)とは、1つまたは複数のテキスト
型単位に関係し、そして関係のテキスト型単位の構文的
または意味論的の意義に応じて定まる特徴である。例え
ば、一つの句読特徴は、テキスト型単位のグループ分け
、1つのテキスト型単位の他のテキスト型栄位内へのネ
スティング、テキスト型単位相互間の分割、テキスト型
単位の区切り、またはテキスト型単位のハイライト化ま
たは他の強調を示す。英語において句読特徴として通例
用いられる特徴としては、コンマ、ピリオド、セミコロ
ン、コロン、ダッシュ、引用符号、丸括弧、角括弧、下
線、等を含むスペース及び句読符号のような非英数字タ
イボグラフィ特徴、ケース及びフォントのような英数字
素子の特徴、並びにキャリッジリターン、タブ、センタ
リング、及びインデンチルジョンのような書式の特徴が
ある。
テキストの[句読構造J (puncLuationa
l 5tructure)とは、テキストの句読特徴を
含んでいる構造である。視察及び編集のために通例呈示
されるテキストは、句読符号コードのようなデータを含
むデータ構造を基礎としており、句読構造を示している
ユーザが、例えば交円の節を区切る句読特徴を変更する
ことによって、かかる句読構造を変更する場合には、ユ
ーザはまた、この節または他の節を区切る他の句読特徴
を変更することが必要になるということを見出す。これ
は、句読符号コード及びかかるデータによって示された
句読構造が、テキストの辞書的内容に参照することなし
に変更されるとは限らないからである。換言すれば、テ
キスト内の語に対する参照が、句読構造の変更の意味の
あいまいさを解釈するためにしばしば必要となる。
これに対して、「自律的句読構造j (autonom
ouspunctuational 5tructur
e)とは、テキスト内の句読特徴の分布、及びこれら句
読特徴間の依存性を、テキストの辞書的内容を参照する
ことなしに、定義するのに十分である句読構造である。
換言すれば、自律的句読構造は、テキスト句読符号内の
どこに、スペース及び他の句読特徴が、テキスト内の語
とは独立に、挿入されるかを示すものである。
[自律的句読文法、J (autonomous pu
nctuationalgrammer)とは、テキス
ト型を自律的句読構造によって関係付けすることが可能
なテキスト型の文法である。換言すれば、テキストが自
律的テキスト句読文法に従う仕方で分割される場合、テ
キスト内のテキスト単位を、句読特徴の分布及びその依
存性をテキストの辞書的内容に参照することなしに定義
する自律的句読構造によって、関係付けすることができ
る。
データ構造において、[テキストデータJ (text
data)とは、自然言語テキストを呈示するデータを
意味する。テキストデータは、英数字コード、句読符号
コード、大文字化コード、制御コード等を含む標準の印
字またはデイスプレィのコードを用いてエンコードされ
ることがしばしばある。テキストデータは、しかし、色
々な他の方法でエンコードされる。例えば、テキストデ
ータはビットマツプとしてエンコードされる。
テキストデータを含んでいるデータ構造において、「構
造データJ (structure data)または
「構造コードJ (structure code)と
いう語は、テキストデータによって呈示される自然言語
テキストの句読特徴を示すデータを意味する。[自律的
句読データ構造J (autonomous punc
tuational datas truc ture
)は、対応のテキストの自律的句読構造を示す構造デー
タを含むテキストデータを有す。
次に、図面を参照して、本発明の一般的特徴について説
明する。
第1図ないし第4図は本発明の一般的特徴を示す図であ
る。第1図は本発明にかかるデータ構造に対する編集操
作の実行手順を示す流れ線図である。第2図は本発明に
かかるデータ構造を作る方法の一般的段階を示す流れ図
である。第3図はかかるデータ構造を用いる方法の一般
的段階を示す流れ図である。第4図はかかるデータ構造
を含む装置の一般的構成部材を示すブロック線図である
第1図の編集操作はデータ構造10で始まる。
このデータ構造は、リンクされた複数のデータ単位とし
て図式的に表現されており、そのうちの若干の単位はテ
キスト型を示し、他の単位はテキストデータを示す。デ
ータ構造lOは、自然言語文“5heep、 for 
example、 ruminate  (例えば、羊
ははんすうする)を表現している。文データ単位12は
データ単位14.16及び18にリンクしており、これ
らデータ単位はそれぞれテキスト型語、コンマ補間、及
び語を示す。語データ単位14及び18は、語″5be
ep ”対するテキストデータ単位22、及び語″ru
minate″に対するテキストデータ単位28にそれ
ぞれリンクしている。
他方、コンマ補間データ単位16は語データ単位24及
び26にリンクし、これら語データ単位は、語“for
 ”に対するテキストデータ単位32、及び語“exa
mple ”に対するテキストデータ単位34にそれぞ
れリンクしている。即ち、データ構造10はテキストデ
ータ及び構造データを含んでいる。後述するように、第
1図は、構造データは文″5heep、for exa
mple、 ruminate ″の自律的句読構造を
示している、ということを示すものである。
テキストを編集するためには、ユーザは、編集されるテ
キストを見ることができるべきである。
第1図に示す予備的段階はボックス40内に示す文、即
ち、” 5heep、 for example、 r
uminate″を表示することである。これは、テキ
スト型の文法を基礎とする一組の規則を適用し、どの句
読特徴をテキスト内に挿入するかを決定することによっ
てなされる。例えば、文の最初の語が大文字で始よって
いるということを規則が示すならば、図示のように、語
″5heep”を大X字で始める。同様に、規則の示す
ところに従い、文の中央部に、コンマを互いに間隔を開
けて補間する。しかし、規則はまた、コンマ補間内の相
隣る語がスペースで分離されているということを示す。
それで、スペースをfor ”とexample ”と
の間に挿入する。
最後に、文のHeの語の後にピリオドがあるということ
を規則が示すならば、図示のように、ピリオドをrum
inate”の後に挿入する。
テキストが表示されると、ユーザは、このテキストの一
部を選択し、この部分に対して行うべき操作を指示し、
また要すればこの操作のための位置を指示することによ
り、このテキストを修飾することができる。ボックス4
2は、ユーザが語“for example  ”を選
択した後の同じ文を示すものである。選択は、選択の始
まりと終わりとを指示するマウス・クリックを含む任意
の適当する方法で行うことができる。選択の後、選択さ
れた語はハイライト化領域44内に表れ、これにより、
ユーザは、選択を識別し、そして選択が正しくなされた
ということを確認することができる。ボックス46は更
に操作選択47を示す。この操作選択は、ユーザがこの
選択に対して移動操作を行うことを要求したものである
。ボックス46はまたポインタ48を示す。このポイン
タで、ユーザは前記要求した移動操作のための位置を示
している。
このようにして、ユーザは、語″for exampl
eを文の中央部から始まりへ移動させることを要求した
ボックス46に示すユーザの要求に応答し、装置は、コ
ンマ補間データ単位16を文データ単位12から生ずる
最初のデータ単位とすることにより、データ構造10を
修飾する。その結果としてデータ構造50が生じ、その
文データ単位52は文データ単位12に対応し、コンマ
補間データ単位54はデータ単位16に対応し、語デー
タ単位56.58.62及び64はデータ単位14.1
8.24及び26にそれぞれ対応し、テキストデータ単
位66.68.72及び74はデータ単位22.28.
32、及び34にそれぞれ対応する。換言すれば、デー
タ構造50内のデータ単位はデータ構造10内のデータ
単位と同じであるが、これらの間にあって句読構造を示
す構造に対応しているリンクは、データ構造50を自律
的句読データ構造として保持するという仕方で変更され
てる。そこで今、構造データは文″For examp
le。
5heep ruminate ’を示している。
データ構造50から、装置は、再び、ボックス80内に
示すデイスプレィのための文を得ることができる。再び
、規則は、今は“for ″である文の最初の語の大文
字使用を要求するであろう(may)。
この規則はまた、文の始まりにおけるコンマ補間をコン
マ及びスペースで行うべきこと、並びにコンマ補間内の
語をスペースで分離すべきこと、を指示するであろう(
may)。即ち、これらの句読特徴を図示のように挿入
する。ここに、「であろう」(may) という言葉は
また、交円の語をスペースで分離すべきことを示す。即
ち、図示のように、5heep″と“劃m1nate 
”との間にスペースを挿入する。gf&に、ピリオドを
、図示のように、文の最後の語の後に挿入する。
第1図に示す方法の結果、正しく句読点付けされた文を
得るためには、ユーザによるこれ以上の操作は不要とな
る。これに対して、大部分の従来のテキストエディタに
おいては、ユーザは、操作を要求した後にテキストを点
検し、大文字使用、句読符号、及びスペースあけについ
てのいくつかの変更を行うことが必要である。これらの
変更が必要となるのは、基礎となっているデータ構造が
、従来は、テキストの自律的句読構造を示す構造データ
を含んでいないからである。従って、ユーザがデータ構
造の変更を行なうと、句読問題が導入され、これは、テ
キストの意味論的内容に参照することなしには解決する
ことができない。他方、データ構造が自律的句読構造を
示す構造データを含んでいる場合、及びデータ構造が該
データ構造を自律的として保持するように修飾される場
合には、装置はなお、特徴が変更された後も正しい句読
法を供給することができる。
第2図は、テキストに対する自律的句読構造を示す構造
データを有するデータ構造を作るための方法の一般的段
階を示すものである。テキストは、キーボード入力装置
または記憶済みテキストファイルを含む任意の人力源か
ら得ることができる。
テキストの自律的句読構造はボックス90において得ら
れる。次いで、この構造を示す構造データが、ボックス
92において、テキストを表現するテキストデータに含
まれる。これらの段階の各々を行なうための特殊の方法
については後で詳細に説明する。
第3図は、第2図の方法で作られたデータ構造を使用す
るための方法の一般的段階を示すものである。ボックス
100における段階では、前記データー構造にアクセス
し、そしてこれから、前記構造データを含むテキストデ
ータを検索する。次いで、ボックス102の段階におい
て、前記テキストデータからテキストを再生し、前記構
造データによって示される句読特徴に従ってこれに句読
点付けする。この再生済みテキストはボックス104に
おいてユーザに呈示され、第1図について前述したよう
に、ユーザがこれを編集することを可能にする。
ボックス106において、ユーザから信号が受信される
。次いで、第3図の方法は、ボックス108において、
前記ユーザから受信された信号が適切な編集用信号であ
るかどうかに基づいて、分岐する。編集用信号の例とし
ては、テキストの位置または部分を選択する信号、選択
された位置において追加されるべき文字を示す信号、ま
たはテキストの選択された部分に対して行なうべき何ら
かの他の操作を要求する信号がある。データ構造に適用
される編集用信号を受信したら、ボックス110の段階
において、これに従ってデータ構造を修飾し、該データ
構造を自律的句読データ構造として保持する。データ構
造を修飾した後、この方法は、ボックス100の段階へ
戻って修飾済みテキストデータを検索し、この修飾済み
テキストを再生して表示することができる。他方、ユー
ザからの信号が適切な編集用信号でない場合には、ボッ
クス106においてユーザから更に他の信号を受信する
ために戻る前に、故障を示す信号がボックス112にお
いて提供される。
第4図は、自律的句読構造を示す構造データを有するデ
ータ構造を含む装置120の一般的構成部材を示すもの
である。装置120は中央処理装置(CPU)122を
有しており、このCPUは、ユーザにテキストを呈示す
るためにデイスプレィ124を制御し、そしてまたキー
ボード126及びマウス128を介してユーザ信号を受
信する。
CPU122はまた、プリンタ、ネットワーク、等のよ
うな他の入出力装置130を介して信号を送受すること
ができる。
CPU122は、プログラムメモリ14.0及びデータ
メモリ160を含むメモリからデータを検索し、及びこ
れにデータを記憶させることができる。プログラムメモ
リ140は主編集ルーチン142を含んでおり、このル
ーチンは編集中に複数のサブルーチンを呼び出す。選択
サブルーチン144は、表示されたテキストの位置また
は部分を示すユーザ信号に応答し、この信号を、データ
構造の対応の位置または部分上にマンピングする。
選択サブルーチン144はまた、対応の位置をカーソル
で指示させるか、または対応の部分を反転させるかもし
くはハイライト化し、ユーザがこの選択を目で見ること
のできるようにすることができる。オペレーションサブ
ルーチン146は、操作を指示するユーザ信号に応答し
、要求された操作を行なう。要求された操作が、移動ま
たはコピー操作が行なうであろうように、テキスト内の
位置を要求する場合には、位置を示す信号に対してユー
ザを促し、そして位置マンピングザブルーチン148を
呼び出すことができ、このサブルーチンは、位置信号を
データ構造内の対応の位置にマツピングする。同様に、
オペレーションサブルーチン146は、修飾サブルーチ
ン150を呼び出して必要に応じてデータ構造の修飾を
行わせ、要求された操作を行なわせることができる。修
飾サブルーチン1.50は、修飾されたデータ構造が自
律的句読データ構造に保持されることをモ育実にする。
修飾が完了したら、再生サブルーチン152を呼び出し
、データ構造にアクセスさせてこれからテキストデータ
を検索させ、そしてこれからテキストを再生させること
ができる。入出カサブルーチン154を呼び出し、再生
されたテキストの表示を操作させ、または他の入出力操
作を行なわせることができる。
データメモリ160は、自律的句読構造を示す構造デー
タを含むテキストデータを有するデータ構造162を含
んでいる。データメモリ160はまた、現在の選択を示
す選択データ164のような他の一時的記憶値を含むこ
ともできる。
以上、本発明の一般的特徴を説明した。次に、本発明の
実施について詳細に説明する。
次に、自律的句読構造について説明する。
第2図のボックス90の段階において、テキストに対す
る自律的句読構造が得られる。この型の句読構造は、前
述したように、句読特徴の分布及び依存性を、テキスト
の辞書的内容とは独立に定義する。しかし、この型の句
読構造は、テキストが句読符号及び他の句読特徴を含ん
でおったとしても、通例の自然言語テキストには明示的
でない。
このような句読構造を明示的にするための方法を開発す
るためには、自律的句読構造のモデルを持つことが有用
である。第1図におけるデータ構造10及び50は、各
々が、かかる構造の1つのモデルを特徴づける若干の特
徴を共有している。
各々は、最高レベルにある単一のノードを含む複数のレ
ベルのノード、文データ単位12及び52を有す。低い
レベルにある各ノードは、文データ単位12及び52に
それぞれリンクされている語データ単位18及び58の
ような、次の高いレベルにある唯一のノードにリンクさ
れている。かかる構造は、最高レベルにあるノードに対
応する最外テキスト型単位を持つものとして説明するこ
とができる。低レベルのノードに対応する他のテキスト
型単位の各々は、それ自体により、または等しいレベル
のネスティングにある1つまたは複数の他のテキスト型
単位をもって、他のテキスト型単位内にネストされる。
このモデルを、本明細書においては、「ネスティング・
モデルJ (nestingmodel)と呼ぶ。
このネスティング・モデルは、1対のノード間の各リン
クが1つまたは複数の句読特徴の分布及び依存性をノー
ドの辞書的内容とは独立に定義するならば、自律的句読
構造として実施することができる。例えば、データ構造
10内のデータ単位12と16との間のリンク、及びデ
ータ構造50内のデータ単位52と54との間のリンク
は、各々が、文字のコンマ補間の回りの句読特徴の分布
及び依存性を、前記コンマ補間内の語または交円の他の
語を顧慮せずに、定義する。
第5図は、ネスティング・モデルの実施を詳細に示し、
何故にリンクが句読特徴の分布及び依存性を定義するこ
とができるかを示すものである。
ごの実施において、データ単位120.122及び12
4の各々はテキスト型単位に対応し、そして各々は、そ
のテキスト型単位、及び他のテキスト型単位に対するそ
のリンクに関連するデータのある複数のフィールドを含
んでいる。図示の4つのフィールドは、アクセスして内
容を検索するのに用いることのできるデータ単位の識別
子フィールド、対応のテキスト型単位のテキスト型を示
すテキスト型フィールド、このデータ単位の親の識別子
を示す親フィールド、及びこのデータ単位の子の識別子
を示すフィールドである。
データ単位120はデータ単位122及び124の各々
にリンクされる。このリンクは、第5図に、データ単位
の親及び子のフィールドの内容として示されている。デ
ータ単位122及び124の識別子はそれぞれB1及び
B2であり、ごれら識別子はデータ単位120の子フィ
ールド内に、B1が82に先立つという順序で示されて
いる。これに対して、データ単位120の識別子はAで
あり、この識別子は、データ単位122及び124の各
々の親フィールド内に示されている。他方、データ単位
120の親フィールドは値NILを有しており、この値
は、このデータ単位は親を持っていないが最外テキスト
型単位である、ということを示している。データ単位1
22及び124の子フィールドは低レベルのデータ単位
の識別子(図示せず)を有している。
それぞれのテキスト型フィールド内に示されているデー
タ単位120.122、及び124の型は、それぞれ文
、語、及びコンマ補間である。英語文法と一致する修飾
の間に、B2をB1の前に移動、B1をB2の後に移動
、及びB1を82内に移動、がある。第5図に示すよう
に、これら修飾の各々は、データ単位の親フィールド及
び子フィールド内の値を変更することによってなされる
最初の2つの修飾は、その各々はAとその子との間のリ
ンクのオーダを単に変更するものであるが、データ単位
120の子フィールド内の識別子を再配置することによ
り、どのリンクも変更せずに、行なうことができる。第
3の修飾、即ち、B1のB2内への移動は、一つのリン
クを他のリンクで置き替えることを必要とする。これを
行なうには、B1をデータ単位1200子フイールドか
ら削除し、Aをデータ単位122の親フィールドから削
除する。次に、B1をデータ単位124の子フィ−ルド
に加え、B2をデータ単位122の親フィールドに挿入
する。即ち、これらの修飾は、テキストの語とは独立で
あるリンク済みデータ単位内の値を変更することによっ
てなされる。これらの値は、テキスト型フィールド内の
値のような、これもテキスト内の語とは独立である他の
値とともに、辞書的内容への参照なしに句読特徴の分布
及び依存性を定義する。従って、第5図に示すデータ構
造は自律的句読構造を有している。
第6図は、自律的句読構造を有するネスティングモデル
の他の実施を示すものであり、本例においては2つの並
列データシーケンス130及び132がある。データシ
ーケンス130は、データシーケンス132内のテキス
ト型単位のテキスト型を示すデリミタを含んでいる。デ
ータシーケンス132内のテキスト型単位の始まりは、
データシーケンス130内に、文(S)、語(W)、ま
たはコンマ補間(CI)のような、そのテキスト型によ
って示される。テキスト型単位の終わりは、同様に、s
’ 、w’ またはCビのような、アポストロフィ付き
のテキスト型によって示される。
第6図におけるテキスト型単位は第5図のテキスト型単
位に対応している。即ち、文Aは語B1及びコンマ補間
C1を含み、語B1はテキストセグメントC1を含み、
コンマ補間B2は語C2及びC3を含み、そしてこれら
はテキストセグメントD1及びB2をそれぞれ含んでい
る。データの順序的性質のため、修飾を行なうことは第
5図のデータ単位におけるよりも困難であるが、句読特
徴を修飾することはできる。例えば、B1及びB2の順
序を変更することは、各データシーケンス内のBlに対
応するデータをB2に対応するデータの後に移動するこ
とにより、可能である。同様に、B2のデリミタの内側
の対応のデータを移動することにより、B1を82内に
移動させることができる。また要すれば、データシーケ
ンス130及び132を結合して単一のデータシーケン
スとすることができる。いずれの場合も、構造データは
、辞書的内容への参照なしに句読特徴の分布及び依存性
を定義することができる。従って、第6図も自律的句読
データ構造を示すものである。
ネスティングモデルは、第5図及び第6図に示す方法に
加えて、更に他の方法で実施することができる。また、
自律的句読構造の他のモデルを開発することができる。
従って、一般に、「自律的句読構造J (autono
mous punctuational 5trutu
re)という語は句読構造の任意のモデルの全ての実施
にわたるものであり、ここに、構造データは辞書的内容
への参照なしに句読特徴の分布及び依存性を定義する。
構造データは、第5図におけるリンクとして、第6図に
おけるデリミタとして、または他の任意の適切な仕方で
機能することができる。
次に、自律的句読文法について説明する。
テキストに対する明示的な自律的句読構造を見向けるた
めの一つの方法は、自律的句読文法を用いて、テキスト
を、かかる構造によって互いに関連させることのできる
単位に分解することである。
自律的句読構造のネスティングモデルから考えると、自
律的句読文法は、各テキスト型に対し、このテキスト型
内にネストさせることのできるテキスト型の許容可能パ
ターンを示すテキスト型規則を含む。従って、自律的句
読文法を構成するための一つの方法は、一組のテキスト
型を識別し、そして、この組内の各テキスト型に対し、
その内部にネストさせることのできるテキスト型のパタ
ーンを、そしてまた、順序が問題となる場合にはどの順
序に従属テキスト型が表れるかを、識別することである
自律的句読文法の目的は句読構造を得ることであるから
、この一組のテキスト型を、好ましくは、特定の自然言
語内の大部分の共通句読特徴の分布及び依存性にわたる
ように選択する。換言すれば、この一組のテキスト型は
、呈示コード付きテキストと、大部分の句読特徴を説明
する自律的句読構造付きデータ構造との間で、いずれの
方向の変形にも用いることのできる一組のテキスト型規
則を認容すべきである。例えば、英語においては、有用
な一組の基礎的テキスト型は、書類(doc) 、段落
(para)、文(sent)、節、句、及び語を含ん
でいる。更に、段落、文及び節は、括弧(parapa
ren。
sen tparen 、またはclausepare
n)内に、または引用符号(paraquote+ 5
enntquote、またはclausequote)
内にあることができる。ある場合には、語ではない−続
きの文字は未構成ストリング(unstructure
d)として取り扱われる。(未構成テキスト型はフラッ
トテキストを含むことのできるようになっている。かか
るテキストの内部構造は無視することができる。)前述
したコンマ補間のような追加のテキスト型を加え、コロ
ン、セミコロン、コンマ、ダッシュ、等のような句読特
徴の分布及び依存性をより完全に包含するようにするこ
とができる。
理想的には、許容可能な全ての句読特徴を包含し、完全
な自律的句読文法を提供するが、前述の基礎的テキスト
型は英語テキストの最も一般的な句読特徴を包含する。
これらのテキスト型を基礎とする一組のテキスト型規則
の例を次に示す。
1、 doc  ::= (<para l para
quote l unstructured><par
a l paraparen l paraquote
unstrutured)  本) IL 2、  para   ::=  (sentlsen
tquote>   <5entlsentparen
sen tquo te)  車〕 IL 3.5ent  ::=clause*4、  cla
use::=phrase本5、  phrase: 
:= (word l clausequote I 
5entquote>(word  l  claus
eparen  l  clausequotesen
tquote>  ネ〕 IL 6、  word  ::=char本7、  uns
tructured::=char本8、 parap
arerz:=  (para  l  paraqu
ote>  本9、 5entparen::=  (
sent  15entquote)  本10、cI
auseparen::=clause車11、par
aquote  ::=  (<para  l  p
araquote>   <paraparapare
n l paraquote> 本〕lL 12.5entquote  ::=  (<5ent
  l  5entquote>   <5entse
ntparen  l 5entquote>  本)
IL 13、clausequote::=clause本こ
れらの規則において、「*」印は、どんなテキスト型の
前文も定義済みテキスト型内で任意の回数繰り返すこと
ができるということを意味する。
r(XIY)Jは、テキスト型単位をXまたはYで表す
と、これは所定の位置に受入れ可能であるということを
意味する。即ち、縦線は「または」(or)を意味する
。rcharJは、句読特徴を示すものを除き、任意の
型の文字を意味する。2つの名辞の並置は、定義済みテ
キスト型の発生内で、第1のものは第2のものの前に発
生するということを意味する。そして、rN I LJ
は、定義済みテキスト型が空ストリングに匹敵すること
ができるということを意味する。例えば、規則3は、文
は任意の数の節を含むことができるということを意味す
る。同様に、規則9は、括弧内の文は任意の数の文の発
生または文を引用符内に含むことができるということを
意味する。規則1は、後に何が続こうと、書類は括弧内
の段落で始まることはできないということを明示的に意
味する。即ち、書類は、空ストリングまたは2つの名辞
の系列として定義され、第1の名辞は、段落、引用符内
の段落、または未構成ストリングの文字であり、第2の
名辞は、段落、括弧内の段落、引用符内の段落、または
未構成ストリングであるからである。
前述の一組の規則は英語に適用可能なものであるが、こ
れは、英語に適用可能な規則の唯一の組ではない。更に
、これは、英語に適用されるが英語句読法に関する標準
的な著書において明示的に教示またはリストされてない
複数の規則がある。
例えば、規則1.2及び5は、書類、段落、または句の
それぞれの始まりにおける括弧入りの段落、文、または
節の出現を明示的に禁止している。−般に、この及び他
のかかる組の規則は、自然言語中に生ずる句読法の実際
のパターンを検討することにより、経験的に得られるも
のである。かかる規則は言語についての有能な著者の間
では暗黙の知識事項となっているが、かかる規則は意識
的な意見として明白になっておらず、または許容されて
もおらず、また、標準的なハンドブックまたは他の文献
において、または教室において教示されていない。かか
る規則は、前記のように、組織的−な、厳密な、定言的
方法で陳述する場合に特に有用となる。
前述した大部分の規則は、文、節、句及び語のような、
段落のレベルより下のテキスト型に適用される。これら
の段落内テキスト型は、大部分の句読特徴の分布及び依
存性を定義するのに用いることができるので、特に重要
なものである。また、一般に、これらのような段落内テ
キスト型は、ジャンルとは無関係であり、散文、韻文、
及び他の型の英語テキストに適用されるということが認
められている。かかる組のテキスト型を特定のジャンル
に更に適合させるには、韻文、ブレット記事、ブロック
引用文、等におけるように、行のようなジャンル特有の
型を加えることができる。更にまた、これら及び類似の
段落内テキスト型を用い、英語内の種々の句読様式に、
及び英語外の自然言語に対するテキスト型の適切な文法
を得ることができる。
自律的句読文法が得られたら、これを用いて自然言語テ
キストを色々な仕方で処理することができる。次に、編
集に適用可能なこのような文法のいくつかの用法につい
て検討する。
次に、編集における自律的句読文法の使用について説明
する。
自律的句読文法を用い、所定のテキスト型に適用可能な
規則を見付け、次いで、この規則をこのテキスト型単位
に適用することができる。従って、自律的句読文法を利
用するエディタは、規則を検索してテキスト型単位に適
用する1つまたは複数のサブルーチンを含む。しかし、
これらサブルーチンは編集環境を介してアクセスされ、
この編集環境はまた適切なユーザ・インタフェース提供
する。
編集環境について説明すると、自律的句読文法を用いる
編集環境は、色々な仕方で実施することができる。第7
図は、編集環境の一例の一般的操作を示すものである。
第8図は、第7図の操作が先在構造エディタ(SEd 
i t)を用いてどのようにして提供されるかを詳細に
示すものである。第9図は、第8図の構成を用いる編集
の前のステップを示すものである。
3つのデータ構造が第7図の編集環境における役割をな
す。自律的句読データ構造140は、自然言語テキスト
を表現し、且つ、前述のような自律的句読構造を示す構
造データを有す。テキストデータ構造142は、文字コ
ード、句読符号コード、スペースコード、キャリッジ制
御コード、及び自律的句読データ構造140によって表
現されるテキストを呈示するのに必要な他のコードを含
むコードのシーケンスである。ユーザ信号144は、選
択信号、操作信号、及び位置信号のような、テキストに
対して行なうべき編集操作を示す一組の信号である。
第7図にはまた、これらデータ構造をリンクする操作を
示す。ユーザ信号144によって要求される編集操作は
、自律的句読データ構造140を修飾することによって
行なわれる。次いで、テキストデータ構造142の修飾
済みバージョンが自律的句読データ構造140から再生
される。デイスプレィが、このテキストデータ構造14
2に基づいて、通例の仕方で、ユーザに提供され、これ
により、ユーザは他のユーザ信号144を提供せしめら
れる。
本発明を実施する一つの方法は、第7図に示す全ての機
能を行なうためのソフトウェアを書き込むことである。
しかし、これらの機能を行なう際に先在ソフトウェアを
用いることができ、従って、本発明はまた、先在ソフト
ウェアのどれかを用いて実施することができる。例えば
、第8図は、エンボス(Iinvos)社から市販のリ
スプ・プログラミング言語に対するエディタである5E
ditを用いる実施を示すものである。5Editは、
前述の特徴を実施するために簡単に修飾することのでき
るデータ構造を提供するので、特ζこ有用である。
第8図におけるシステム150は、第7図について前述
したもののようなユーザ信号を提供する通例の制御器で
あるキーボード/マウス制御器152を含んでいる。こ
れら信号は通例のリスプ・ソフトウェア154によって
受信される。このリスプ・ソフトウェアは、どのデイス
プレィ・ウィンドーに各ユーザ信号を導くかを決定する
ウィンドー・マネジャーを含んでいる。リスプ・ソフト
ウェア154はまた、各ウィンドーへ導かれた信号を取
り扱うための、及び、適切な場合に、第7図について前
述したもののようなテキスト、または他のデータをデイ
スプレィ制御器156へ送って適切なウィンドーに表示
するためのソフトウェアを含んでいる。
システム150はまたSEd i tソフトウェア16
0を含んでいる。この5IEd i tソフトウェアは
、ユーザ信号が5Editウインドーへ導かれる場合に
リスプ・ソフトウェア154によって呼び出されるソフ
トウェアのサブシステムである。例えば、ユーザは、先
ず、5Editウインドーを開くことを要求する信号を
提供する。この場合、リスプ・ソフトウェア154は5
Editソフトウエア160を呼び出し、該5Edit
ウインドーに対して必要なパラメータを提供する。−旦
5Editウィンドーが開くと、ユーザがこのウィンド
ー内にマウス・クリックを提供するときに、リスプ・ソ
フトウェア154はS!Ed t tソフトウェア16
0を呼び出してこのマウス・クリックを取り扱う。同様
に、活性カーソルが5Editウインドー内にあり、そ
してユーザがキーボード・ストロークを提供するときに
、リスプ・ソフトウェア154はSEd i tソフト
ウェア160を呼び出してこれらストロークを取り扱う
ユーザが自律的句読テキスト編集のための5Editウ
インドーを要求すると、5Editは同様に自律的句読
テキストエディタ162を呼び出して、編集に必要なパ
ラメータを提供し、及びこのウィンドー内での編集に関
するユーザ信号を取り扱う。エディタ162は、SEd
 i tソフトウェア160が自律的句読データ構造1
64にアクセスするという要求をもって応答して、この
データ構造を修飾し、または編集操作に関するデータを
検索する。エディタ162はまた、5Editウインド
ー内に表示されるものを5Editソフトウェア160
が変更することを要求する。この場合、5Edit、ソ
フトウェア160はリスプ・ソフトウェア154を呼び
出す。
例えば、ユーザが左マウスをクリックさせて5Edit
ウインドー内での「選択」または「点」を意味すると、
キーボード/マウス制御器152は対応するユーザ信号
をリスプ・ソフトウェア154に提供し、このリスプ・
ソフトウェアはこの左マウスのクリックの指示及びポイ
ンタの現在のX、y位置をSEd i tソフトウェア
160に提供する。
次いで、5Editソフトウエア160は、その通例の
操作を行なって、前記x、  y位置に対応するデータ
構造164内のノードを識別し、前記ポインタの前記ノ
ードのデイスプレィ領域内の位置を決定する。次いで、
5Edit 160はこのデータをもってエディタ16
2を呼び出し、そしてエディタ162はこのデータを処
理し、そしてこれに応答して、データ構造164内のテ
キストの選択された部分、またはテキスト内の挿入点位
置を指示する。次いで、5IEd f Lはこのデータ
を用いて、前記選択を強調し、またはデータ構造164
から再生されたテキスト内の位置を示す脱字記号をフラ
ッシュさせる。次いで、リスプ・ソフトウェア154は
、この再生テキストをデイスプレィ制御器156に提供
して表示する。選択が行なわれた場合には、ユーザ信号
によって要求された操作がこの選択に対して行なわれる
。挿入点が指示された場合には、1&’Mのキーストロ
ークからの選択または文字のコピーがこの点に挿入され
る。
第8図にはまた、句読型の文法166、即ちデータ構造
164に対して操作する際にエディタ162が従う一組
の規則が示されている。5EidLソフトウエア160
はまた、ユーザ・インタフェースを文法166に提供し
、エディテ162が従う規則をユーザが修飾することの
できるようにする。これは、例えば、異なる組の文字、
異なる言語、または言語内の異なる派生言語を取り扱う
ため゛にエディタ162をセットアツプさせるのに有用
である。
第8図における自律的句読テキストエディタ162及び
テキスト型の文法166は、SEd i tを実行する
ゼロックス1186型人工知能ワークステーションにお
いて実行することのできる[トロロップJ (Trol
lope)と称するリスプ・コードにおいて実施されて
いる。第9図に、編集の前に実施されるコードによって
行なわれるステップを示す。
図示のように、これらステップのうちの多くはリンクを
作り、このリンクを介して、エディタ162が5Edi
t l 60を呼び出し、または5Edit  160
がエディタ162を呼び出す。
第9図のステップはボックス180における値の初期設
定で始まる。これは、キャラクタ名の5Editリスト
を拡張する若干の値を初期設定することにより、及び、
自律的句読テキストデータ構造164内のノードを、提
示すべき一連のテキスト内に含めるためのデータに再現
する際の再生中の使用のためのデイフォルト仕様をセン
トアップすることによって行なわれる。
ボックス182内のステップは、自律的句読テキストデ
ータ構造164のノードを定義する複数の5Edrtパ
ラメータをセントすることによって行なわれる。
ボックス184内のステップは、同様に、編集すべき書
類を、該書類を編集するためのテキスト型の文法166
をセントアップすることにより、初期設定する。−例を
前に示しである前記文法自体に加えて、編集を管理する
規則は、テキスト再生中に使用される一組の再現規則、
及び自律的句読データ構造164の修飾を管理する一組
の操作規則を含む。このステップはまた、規則及び文法
を、ユーザによってこれらを簡単に編集することのでき
る形式から、ソフトウェアによってこれらをより簡単に
使用することのできる形式に変換する。
ボックス186内のステップは、編集のために用いる特
定のウィンドー(以降、[トロロソプ・ウィンドーJ 
(Trollope iwindow)と呼ぶ)のため
のタイトル・バー・メニューをセットアツプすることに
より、初期設定を完了する。このメニューは、トロロソ
プ書類をセーブすること、または文法、再現、もしくは
操作規則を編集することをユーザに許すことを要求する
ためのアイテムのような複数のアイテムを含むことがで
きる。このメニュー内の一つのアイテムを選択すると、
トロロソププット(TrollopePut) 、エデ
イツトルール(Edit−Rule) 、またはチェイ
ンジフォント(ChangeFon t)のような、適
切な機能に対する呼出しへ通ずる。
この時点で、このシステムは編集を開始する準備が整う
。ウィンドーがセットアツプされ、そして、ビットマツ
プが提示されてトロロップ・エディタの可用性を示して
いるということを提示する。
次いで、このシステムは、ボックス186と188との
間の破線で示すように、トロロツプ編集を要求するユー
ザ信号を待つ。ユーザは、適切に名前が呼ばれる機能を
呼び出すことにより、かかる信号を提供する。この要求
はまた、編集すべきトロロンプ書類を包含しているファ
イルに対するファイル名を含んでいる。ボックス180
ないし186内のステップは、トロロソブがシステムに
ロードされるときに行なわれる。その後は、これらステ
ップを、ユーザが新しいトロロソプ・ウィンドーを開く
ためにトロロソプを呼び出すたびごとに、操り返す必要
はない。ボックス188で始まるステップだけが、新し
いトロロップ・ウィンドーのために必要である。
ボックス188におけるユーザ呼出しを受は取ると、ボ
ックス190における試験で、ユーザ要求がファイル名
を含んでいたかどうかを測定する。
含んでいた場合には、ボックス192において、ファイ
ルを読み込む。含んでいなかった場合には、システムは
第9図の後続のステップにおいてデイフォルト値を用い
る。
第9図における残りのステップは、読み込まれたファイ
ルからのパラメータで、またはデイフォルト値で実行さ
れる。ボックス194において、複数のSEd i t
パラメータを設定することにより、トロロツプに対する
編集環境がセントアップされる。ボックス196におい
て、複数の他の5Editパラメータを設定することに
より、要求されたトロロソプ鯛集セツションに対する文
脈がセットアツブされる。
最後に、ボックス198において、5Editプロセス
の一例をセットアンプする。そして、この5Editプ
ロセスはトロロップ・ウィンドーをセットアツプし、こ
のウィンドーへ向けられたユーザからの後続の入力を取
り扱う。
この時点でユーザはトロロソプ・ウィンドー内で編集す
ることができる。ユーザによって要求される編集操作は
、自律的句読データ構造の修飾となる。ファイルがボッ
クス192において読み込まれていなかった場合には、
データ構造164は、書類の開発のためのシードの役を
なす単純構造を持つ。この構造は、第5図に示すものの
ようなフィールドを含む単一ノードで始まり、書類は、
同じフィールドを有する追加のノードを追加することに
よって開発される。フィールドの若干は5Editによ
って使用され、かかるフィールドとしては、親フィール
ド、子フィールド、機能がマウス・クリックから、この
クリックが生じたノード内の領域へ進むことを指示する
フィールド、等がある。
他のフィールドはSEd i tによって使用されず、
かかるフィールドとしては、テキスト型フィールド、テ
キスト型に関係するノードの特徴に対する特徴フィール
ド、テキスト・シーケンスを再生しながらノードを変換
するための再生規則を示す再現規則フィールド、ノード
内に含まれるテキスト、及びSEd i tには関係し
ないがトロロップにのみ関係する他の情報がある。
次に、自律的句読データ構造164の修飾を要求するユ
ーザ信号が自律的句読文法に従ってどのようにして取り
汲われるかを詳細に検討する。
第10図はデータ構造164を修飾する際の一般的ステ
ップを示すものであり、これには、その自律的句読構造
を保持するステップが含まれている。ユーザが、操作を
要求する信号を提供するときに、ボックス200におい
て修飾が開始する。
ホックス202のステップにおいて、前記要求された1
M作を行なうための操作規則を探す。何も見つからない
場合には、故障が発生し、ボックス200において他の
要求を受は取るために戻る前に、ボックス204におい
てユーザへ信号が送られる。規則が見つかった場合には
、ボックス206のステップがこの規則に適用される。
これには、データ構造164を修飾することが含まれて
いる。
次いで、ボックス210のステップにおいて、データ構
造164が自律的句読文法166をなお満足しているか
どうかが測定される。満足していない場合には、故障が
発生し、そしてボックス212においてユーザへ信号が
送られる。次いで、ボックス214において、ボックス
206においてなされた修飾が取り消され、ボツス20
0において他の要求を受は取る前にデータ構造164を
その前の状態に戻す。しかし、データ構造164が文法
166をなお満足している場合には、提示のための修飾
済みテキストが変更済みデータ構造に基づいて提供され
、そして、ボックス200において他の要求を受は取る
ために戻る前にボックス216において前記修飾済みテ
キストがユーザに提示される。
第10図の一最的ステップは、データ構造164を修飾
するトロロンプ機能によって実行される。
−IQに、5Editはこれらトロロソプ機能を呼び出
し、選択を要求するか、もしくはトロロツプ・ウィンド
ー内の入力点を指示するマウス・クリックを操作する際
に、または現在の選択もしくは入力点がトロロソプ・ウ
ィンドー内にあるときに文字コードを操作する際に、該
SEd i tを援助させる。
ボックス182において編集ノードを生成する際にセン
トアップされる5IEditパラメータとボックス19
6における編集環境との間に、複数のトロロソプ機能を
呼び出すための操作がある。詳述すると、文字がトロロ
ツプ・ウィンドー内の挿入点にタイプされると、本明細
書において翻訳文字機能と呼ぶ一つの機能が呼び出され
る。これは、第10図に従うデータ構造164の修飾と
なるユーザからの信号である。
第11図は、翻訳文字機能が呼び出されるときに行なわ
れるステップを示すものであり、特にこれらステップは
文法166及び関連の操作規則に関係する。一般に、第
11図のステップは第10図のステップに対応するが、
更にいくつかの細部を示すものである。
ボックス220のステップにおいて、要求された操作を
示す文字コードを有する5Editから翻訳文字機能へ
の呼出しを受は取る。これに応答して、翻訳文字機能は
、現在の脱字記号位置を見付け、そして、ボックス22
2において、その挿入点及び挿入ノードがあったらこれ
を決定する。次いで、翻訳文字機能は、本明細書におい
て操作機能と呼ぶ他の機能を呼び出す。
操作機能は、文字コードがどれかの操作規則に対応する
かどうかを測定する。操作機能が、現在の脱字記号位置
がノードを有しているということを測定した場合には、
この操作機能は、先ず、テキスト型とノードの特徴とを
有する操作マクロを呼び出す。この特徴は、例えば、引
用語句内のネスティングのレベルを示す値である。そし
て、このマクロは、整合する特徴を有するテキスト型に
対する規則を探す操作規則を通って進むために規則発見
機能を呼び出す。かかる規則を発見したら、規則発見機
能は、指定された文字コードに対して実施すべき機能、
及びこの機能に対するデータを示す前記規則の部分を検
索する。次いで、この部分に、受は取られた文字コード
でアクセスし、該文字コードに対する機能及びデータを
得る。
操作機能が前述の呼出しから操作を得られない場合には
、該機能は再び操作マクロを呼び出す。
しかし、今度は、全てのテキスト型及びノードの特徴に
適用可能なより一般的規則を求める。操作マクロに応答
して規則発見機能がかかる規則を発見した場合には、該
操作マクロは操作を有する部分を検索し、そしてこの部
分にアクセスして、特定の文字コードに対する機能及び
データを得る。
他方、操作機能が、現在の脱字記号位置がノードを有し
ていないということを測定した場合には、該機能は操作
マクロを呼び出し、全てのテキスト型に適用可能であっ
て特徴を持っていない規則を求める。操作マクロに応答
して規則発見機能がかかる規則を発見した場合には、該
機能は、前述と同じように、操作を有する部分を検索し
、そしてこの部分にアクセスして、文字コードに対する
機能及びデータを得る。
ボックス224におけるステップは、操作機能が1つま
たは複数の機能を首尾よくリターンさせたかどうかに基
づいて分岐する。リターンさせなかった場合には、ボッ
クス230における試験により、ノードが親ノードを有
しているかどうかを測定する。有している場合には、再
帰的呼出しが行なわれ、この現ノードに基づいて操作規
則を探す。しかし、有していない場合には、ボックス2
32において故障の信号が発せられる。
操作機能が1つまたは複数の機能をリターンさせた場合
には、これら機能は、ボックス234において試行機能
に対する呼出しを介して操作される。各機能は、ノード
を開く機能、ノードを分割する機能、選択をマージする
機能、選択を削除する機能、ノード特徴を変更する機能
、及び後退する機能のような、いくつかのトロロソプ機
能のいずれかである。一般に、これら機能の各々は、現
在の挿入点または選択の型に応じて、並びに操作規則か
ら得られるノードに及びデータに応じて定まり、これら
機能は前述の機構によって選択される。試行機能は、第
1I図における後続のステップにおいて示すように、機
能を実行しようと試みる。
UNDCI−L I ST (アンドウリスト)という
名の5HdiLスタツクを用い、逆機能、または試行機
能に応答して実行される機能の効果を取り消すために実
行される取消事象を記憶する。このスタックは、ボック
ス240において、新しい一連の取消事象の開始を示す
値でマーク付けされる。
ボックス250における試験で始まる反復ループが、ボ
ックス234における操作機能からの呼出しで受は取っ
た機能を実行しようと試み、該機能を、該機能が受は取
られた順序で操作する。ボックス252のステップにお
いて、次の機能を実行することができるかどうかが試験
される。これは、一般に、若干のパラメータがこの機能
と整合するということを確かめるために該パラメータを
検査することを含んでいる。整合しない場合には、シス
テムは、ボックス254において、取消スタックからマ
ーカまでの取消事象を実行し、ボックス256において
、故障の信号を発する。これについては後で更に説明す
る。しかし、機能を実行することができる場合には、ボ
ックス258のステップにおいて、これが実行され、そ
してまた、1つまたは複数の適切な取消事象がスタック
にロードされる。
上に掲げたトロロソブ機能は、一般に、挿入、取替え分
割、マージ削除、または変更の諸特徴のような、取り消
すことのできる1つまたは複数の機能を呼び出す。取り
消すことのできるこれら機能のうちの一つへ通ずる中間
機能もまた呼び出される。取り消すことにできる機能の
各々は、基本操作を呼び出して該機能自体を実行するこ
とに加えて、取消事象をスタックにロードする。基本操
作の結果、文法166と整合しないデータ構造となった
場合には、取消事象を後で実行し、データ構造164を
その前の状態ヘリスドアすることができる。或いはまた
、操作が首尾よく完了した場合、そしてユーザが、再考
の後、この操作は望ましくなかったと決定した場合には
、ユーザは、例えば取消キーを押すことにより、取消操
作を呼び出すことができる。これに応答して、取消スタ
ックからの取消事象が実行され、前の操作を取り消す。
各基本操作はまた、該操作によって変更された最高ノー
ドを示すデータを記憶するために機能を呼び出すことが
できる。
全ての機能が実行されたら、ボックス260における試
験により、試行機能がボックス234において呼び出さ
れたときにスタックがマーク付けされて一連の取消事象
の始まりを示すようになっていたかどうかを測定する。
マーク付けされてなかった場合には、試行機能は、デー
タ構造のノードを検査する他のトロロップ機能を呼び出
すことによって該試行機能のそれまでの結果を検査し、
ボックス162においてこれらがなお文法166と整合
しているということを確認する。ノードを検査するため
にこの機能によって行なわれるステップについでは後で
詳細に説明する。ノードが文法166に整合している場
合には、ボックス264のステップにおいて、5Edi
t機能を呼び出すことにより、最も最近のマーカ以後の
取消事象を単一の事象に統合する。この時点で、ボック
ス266のステップにおいて、値Tまたは「真」をリタ
ーンさせ、ボックス234における呼出しで受は取られ
た機能の首尾よい完了を示す。
結果が文法166に整合していない場合には、ボックス
254のステップにおいて、スタックに対して取消事象
を行なう。これは、スタックに最も最近に押しつけられ
た事象から始め、最も最近のスタックマーカが見つかる
まで継続する。マーカが見つかったら、ボックス256
のステップにおいて故障の信号を発し、そして不首尾の
試行を示す値NILをリターンさせ、ボックス234に
おける呼出しで受は取られた機能を実施する。
第12図は、ノード及びその子が文法166に整合する
かどうかを再帰的に検査する際に行なわれるステップを
示すものである。検査機能に対する呼出しは、ボックス
280示すように、検査すべき変更済みノードを含んで
いる。呼出しが他のプロシージャから来る場合には、検
査機能に対する呼出しは最高レベルの変更済みノードを
含む可能性がある。呼出しが検査機能からの再帰的呼出
しである場合には、これは、最初に検査機能を呼出した
他のプロシージャから受は取られた変更済みノードの派
生ノードの一つを含んでいる。
検査機能はノード検査機能を呼び出し、ボックス282
において、これとともに呼び出されたノードが非空文字
ストリングを有するテキスト担持リーフノードであるか
どうかを検査する。そうである場合には、かかるノード
は常に文法166を満足するので、及びかかるノードは
これから生ずる子ノードを有していないので、それ以上
の検査の必要はない。従って、ボックス284のステッ
プにおいて、値「真」がリターンさせられ。これまでの
結果は宜L7いということを示す。この値が試行機能ヘ
リターンさせられる場合には、第11図におけるステッ
プがボックス264のステップと共に再び始まる。
ノードがテキスト担持リーフノードでない場合には、検
査機能は、ノードの子とともに整合機能を呼び出すこと
により、及びノードに適用可能であってパターンとして
提供される文法規則を呼び出すことにより、ボックス2
86において継続する。或いはまた、この規則は、文法
が内面化されるときに計算される最小確定的有限状態マ
シンを用いて提供される。しかし、実施される整合機能
は、スタックを基礎とするバンクトランキングを採用し
、原子名のアルファベントについての正規の表現である
パターンに対してノードを整合させる。
実施に際しては、整合機能は2つのリストで開始する。
その一方のリストは子ノードのリストであり、他方のリ
ストはパターンの素子のリストである。整合機能がノー
ドまたはパターン素子の操作を完了すると、該機能は、
次のノードへ、または次のパターン素子へ進み、前記2
つのリストで再び開始する。
整合機能が、ノードまたはパターン素子の操作の開始時
またはその後で、2つのリストで開始するときには、該
機能は先ず、何等かのノードが子ノードのリスト上に残
っているかどうかを試験する。残っていない場合には、
前記機能は値「真」をリターンさせ、残りのパターン素
子のリストが空ストリングと整合することができる場合
にのみ、整合があることを示す。ノードのリストが空で
あり、そして残りのパターン素子が空ストリングに整合
することができない場合には、整合機能はNILをリタ
ーンさせ、整合に対する故障を示す。
ノードが残っている場合には、整合機能は、次に、何等
かのパターンがパターン素子のリスト上に残っているか
どうかを試験する。残っていない場合には、整合機能は
、前から据え置かれているパターンのスタックからパタ
ーン素子のリストを取る。パターンが据え置かれていな
い場合には、整合機能はNILをリターンさせ、故障を
示す。
パターンリストもノードリストも空でない場合には、整
合機能は進行し、パターンリストをノードリストに整合
させようと試みる。次のパターン素子に星印が付されて
いる場合には、整合機能はそれ自体を再帰的に呼出しく
据置きパターンスタックを用いて)、星印付きパターン
シーケンスを、ゼロまたはそれ以上の回数、ノードシー
ケンスの次々に続く部分と整合させようと試みる。ノー
ドは、星印付きパターン素子と整合させられるにつれて
ノードリストから除去されるが、各星印付きパターン素
子は、整合に失敗するまで、パターンリスト上に留まっ
ている。次のパターン素子が[オアJ (or)である
場合には、整合機能はそれ自体を再帰的に呼び出しくこ
こでも据置きパターンスタックを用いる)、「オア」選
言技のどれかをノードリスト上のノードに対して整合さ
せようと試み、この選言技のどれをもノードと整合させ
ることに失敗するとNILをリターンさせる。しかし、
さもない場合には、「オア」パターン及び整合済みノー
ドをそれぞれのリストから除去する。
最後に、次のパターン素子がテキスト型名である場合に
は、整合機能は、パターンがノードの型に等しくないな
らば、NILをリターンさせる。しかし、さもない場合
には、残りのノード及びパターンを整合させ始める。こ
のようにして、整合機能はノードのリスト及びパターン
素子のリストを通って進み、最後に、これらを整合させ
ることができるかどうかを示す値をリターンさせる。
整合機能が、整合がないということを示すと、ボックス
288のステップはNILをリターンさせ、この構造が
許容不能であるということを示す。
この値が試行機能ヘリターンさせられると、第11図の
ステップがボックス254のステップで再び始まる。し
かし、現在のノードが文法166に合致し、従って整合
がある場合であっても、その子ノードにおいて変更がな
されている可能性があり、従って、子を検査することが
必要である。
ボックス290において、検査機能は、現在ノードの子
に適用される文法特徴を獲得する。次いで、ボックス2
92のステップにおいて、現在ノードの芥子を順々に操
作する反復ループが開始する。ボックス294の試験に
おいて、次の子が変更されていたかどうかが測定され、
変更されていなかった場合には、検査機能はボックス2
92の試験へ戻る。次の子が変更されていた場合には、
検査機能はボックス296においてこの変形済み子を提
供し、そしてボックス298において再帰的呼出しを行
い、この再帰的呼出しがこの変更済み子とともにボック
ス280において第12図のステップに入るようにする
。呼出し検査機能は、次いで、再帰的に呼び出された検
査機能によってリターンさせられた結果に基づいてボッ
クス300において分岐し、NILを受は取ったら、ボ
ックス302において値NILをリターンさせる。前述
したように、この値が試行機能ヘリターンさせられると
、第11図のステップがボックス254で再び始まる。
試行機能が値「真」を受は取ると、該機能はボックス2
92における試験へ戻る。全ての子が操作されて文法に
整合することが解ると、ボックス304のステップにお
いて値「真」がリターンさせられる。前述したように、
この値が試行機能ヘリターンさせられると、第11図の
ステップがボックス264において再び始まる。
第11図の機能が完了すると、データ構造164は、ユ
ーザからの文字コードに応答して修飾されている。次に
、どのようにして、変更済みデータ構造が、自律的句読
文法に従って、ユーザに対するデイスプレィのためのシ
ーケンスに変換されるかを検討する。
自律的句読データ構造からのテキスト再生について説明
する。
通例の操作の一部として、SHd i tは、データ構
造164から、デイスプレィのためのテキストのシーケ
ンスを再生する。これを行なうため、SEd i tは
データ構造164における各ノードに関するいくつかの
トロロップ機能を呼び出す。第13図は、再生の準備と
して自律的句読構造を通して情報を伝播させる一般的ス
テップを示すものである。第14図は、次いで再生を行
なうステップを示すものである。
第13図に示すようなシーケンスを用いて、データ構造
164内で情報を下方及び上方へ伝播させることができ
る。下方へ伝播させられる情報は、例えば、1重及び2
重の引用符号の適切な交替を容易にするため、引用符号
内のネスティングのレベルを示す1つまたは複数の特徴
値である。上方へ伝播させられる情報は、例えば、後続
の行切れ目の挿入を容易にするために幅を示す。
第13図のシーケンスは、ボックス310における現在
ノードの特徴値を獲得することで始まる。
このステップは、SEd i を機能書式機能を介する
、これもデータ構造164の走査を必要とするSEd 
i tによるトロロソプ機能に対する呼出しで開始され
る。従って、これら書式機能は、特徴値伝播のだめの有
用なビヒクルである。トロロツプ機能はノードの再現規
則、即ち、テキストシーケンスの再生中にどのようにし
てこれを再現させるかということを管理する規則を検索
する。再現規則を持っていない場合には、デイフォルト
再現規則が提供される。或いはまた、第13図のシーケ
ンスが再帰的に呼び出される場合には、後述するように
、適切な特徴値が再帰的呼出しにおいて提供される。
ボックス312における試験において、特徴値が伝播さ
れていない子ノードを現在ノードが持っているかどうか
が測定される。
各子ノード対し、ボックス314のステップにおいてそ
の特徴値が獲得される。これを行なうため、子が唯一の
、最初、最後、または中央の子であるかどうかに基づい
て次の子に対して伝播規則を見付ける。唯一の子に対し
、伝播の全ての形式、即ち、下左方、下方、及び下右方
が適用される。
いくつかの子のうちの最初の子に対しては、下左方及び
下方のみが適用される。い(つかの子のうちの最後の子
に対しては、下方及び下右方のみが適用される。そして
、中央の子に対しては、下方のみが適用される。次いで
、適切な伝播規則を用い、子ノードにおいてターンオン
すべき特徴値のリストを獲得する。このリストは、親の
特徴値、及び親の再現規則においてターンオンさせられ
る再現特徴値をリスト上に押すことによって生成される
。伝播規則に従う値のみを前記リスト上に押す。次いで
、親に対してターンオンさせられる再現特徴をリストか
ら除去する。
ボックス316におけるステップはボックス314から
の特徴値を提供し、ボックス318におけるステップは
第13図におけるステップのシーケンスに対して再帰的
呼出しを行う。各再帰的呼出しはボックス318におい
て提供される特徴を受は取ることによって始まり、そし
て、子ノードがなかったら、前述のように継続する。
再帰的呼出しを通じて、第13図のシーケンスは、開始
ノードの子孫である全てのノードを走査し、特徴値をデ
ータ構造164において下方へ伝播させる。所定のノー
ドの全ての子が走査されたら、ボックス320のステッ
プにおいて、ノードの幅、または再生中に有用である他
の全てのパラメータが計算される。ノードの幅はその子
の幅に応じて定まるから、このステップにおいて情報が
データ構造164内で上方へ伝播させられる。ボックス
320におけるステップが完了すると、第13図のステ
ップのシーケンスは、これを呼び出したプロシージ中へ
戻る。
データ構造164内での下方及び上方への情報の伝播は
、句読特徴相互間の関係の故に有用である。例えば、2
つまたはそれ以上の引用文がネスティング関係になって
いる場合には、外側の引用文は2重引用符号によって境
界付けされ、次の引用文は1重引用符号によって境界付
けされ、以下同様になされて、2重及び1重の引用符号
間の交替が行なわれる。従って、直接引用文から間接弓
用文への引用符号なしの変更は、その引用文内にネスト
される引用文の句読に影響を与える。同様に、ノードの
幅は行切れ目に影響を与える。予備走査はデータ構造1
64の全てを常に包含するとは限らない。しかし、前の
操作によって修飾された部分のみを包含することはでき
る。
第14図は、データ構造164からのデイスプレィのた
めのテキストシーケンスの再生中に実行されるステップ
を示すものである。第14図の再生機能は、データ構造
164のノードを含む呼出しで入力され、また、ノード
の子を示す開始インデックスを含む場合がある。
ボックス332のステップにおいて、開始インテックス
がボックス330において受は入れられたかどうかが測
定される。受は入られてなかった場合には、再生操作が
ノートの全ての子に影響を与え、そしてどんな句読特徴
でも子の前のテキストシーケンスに挿入される。従って
、ボックス334のステップにおいて、現在ノードの再
現規則にアクセスし、ノードの最初の子の前に現れるべ
きコードのストリングを検索し、そしてこのストリング
をテキストシーケンスに印字する。再現規則がストリン
グの前に何も含んでいない場合には、句読特徴をノード
の子の前に挿入する必要はない。再生機能は、印字機能
に対する呼出しをもって印字し、この呼出しをもって規
則からストリングを提供する。印字機能は、次いで、ス
トリング内のアイテムを通って進み、このアイテムがス
トリングであるか、数であるか、またはキャリッジリタ
ーンであるかに基づいて適切なSEd i を呼出しを
提供する。
ボックス340のステップにおいて、現在ノードが、テ
キストを包含しているリーフノードであるかどうか、が
測定される。このようなり−フノードである場合には、
このノードは子を有しておらず、そしてその内容をテキ
ストシーケンスに直接食ませることができる。このよう
であるならば、ノードの内容はボックス342において
テキストシーケンスに印字される。再生機能はボックス
340における試験のためのノード機能を呼び出し、ボ
ックス342のステップに対し、ノードのテキストを獲
得し、次いでこのテキストをもって印字機能を呼び出す
。ノードの特徴または書式が、その最初の文字を大文字
化すべきことを示すならば、適切なステップが取られる
ボックス340の試験において、ノードがテキスト付き
リーフでないと決定されると、第14図の再生機能がこ
のノードの子に対して反復ループを開始する。ボックス
344の試験において、操作すべき子が残っているかど
うかが測定される。
残っている場合には、ボックス346の試験において、
次の子が開始インデックスの後であるかどうかが測定さ
れる。そうでない場合には、これはスキップオーバされ
、そして、開始インデックスの後である子に到達するま
でループが反復する。
ボックス350の試験において、子が最初の子であると
決定された場合には、ボックス352のステップにおい
て子ノードが提供され、そしてボックス354のステッ
プにおいて第14図の機能に対する再帰的呼出しが行な
われる。この呼出しは開始インデックスで行なわれる。
子ノードがこの再帰的呼出しによって操作された後、こ
の機能はボックス344において他の反復ループを開始
するために戻る。
ボックス350の試験において子が最初の子でないと決
定された場合には、ボックス356のステップにおいて
現在ノードの分離符号ストリングがその再現規則から印
字される。次いで、現在の子が、後に行切れ目が挿入さ
れる可能性のある型である場合には、ボックス358の
ステップにおいて、行切れ目が必要であるかどうかが測
定され、必要であるならば行切れ目が挿入される。前述
のように、再現機能は、現在ノードの分離符号ストリン
グがある場合にはこれをもって印字機能を呼び出してボ
ックス356のステップを実施する。
分離符号ストリングは、例えば、語の間のスペースであ
る。再現機能は、行切れ目が必要であるかどうかを測定
し、必要である場合にはこれを挿入する。次いで、前述
のように、ボックス3520’)ステップにおいて、ボ
ックス354のステップによる再帰的呼出しに対して子
ノードを提供する。
現在ノードの全ての子が操作されたら、ボックス360
のステップにおいて現在ノードの再現規則の後ストリン
グがテキストシーケンスに印字される。前述のように、
再現機能は、現在ノードの後ストリングがあったらこれ
をもって印字機能を呼び出してボックス360のステッ
プを実施する。
このステップが完了したら、第14図の機能は、これを
呼び出したプロシージャへ戻る。
第14図の機能は通例の5Edit操作によって局所化
され、データ構造164の一部のみに対して操作するよ
うになる。SEd i tは再現すべき部分を識別し、
そして適切な開始インデックスをもって適切なノードを
呼び出してこの部分を再現する。
SEd i tは、データ構造164内の何処に変更が
なされたかに基づいて再現すべき部分を識別する。
5Editは、ユーザが指示している場所に対応するデ
ータ構造164内のノードを識別するため、テキストシ
ーケンスとデータ構造164との間で前後にマツピング
することのできることが必要である。通例の5Edit
操作は、データ構造164の各ノードと対応のテキスト
シーケンスの部分との間の関係のトラックを保持する。
しかし、これに加えて、トロロップ機能がSEd i 
tによって呼び出され、挿入点または選択を適切な仕方
で識別するのを助ける。これら機能は、点または選択に
対するノードを決定するに際して、前ストリング、分離
ストリング、及び後ストリングの位置を考慮にいれる。
データ構造164のノードのみがこの実施における5E
dit操作の目的となり得る。
この実施は、自律的句読文法の使用を容易にするいくつ
かの追加の特徴を有している。
次に、色々な特徴について説明する。
前述した特徴はエディタの基本的機能であるが、更に、
自律的句読文法及び関連の操作及び再現規則を編集する
ことができること、並びに、データ構造164を、編集
中に用いるよりも小形の形式にセーブすることのできる
ことが望ましい。前記のように、この実施はタイトル・
バー・メニューを介してこれら特徴を提供する。
タイトル・バー・メニュー内の一つの編集オプションの
選択に応答して、SEd i tウィンドーがセットア
ツプされ、その中で、文法、再現規則、または操作規則
を編集することができる。文法を編集する際には、検査
機能が呼び出され、現存のデータ構造が新しい文法を満
足するかどうかを検査する。満足しない場合には、ユー
ザは文法を編集するための他の機会を与えられる。
タイトル・バー・メニューにおける一つのセーブ・オプ
ションの選択に応答して、データ構造は、トロロツプに
よる、または他のエディタTIEd i tによる読出
し可能な形式にセーブされる。トロロソブによる読出し
可能な形式は外部テキスト解析表現(T’AR)と呼ば
れる。このリスト書式が受入られると、これは編集に適
当するデータ構造に変換される。編集データ構造の各ノ
ードは内部TARを含み、この内部TARはトロロップ
編集において用いられる追加の情報を含んでいる。
次に、自律的句読文法の利点及び他の用途について説明
する。
編集において自律的句読文法を用いると格別の利点が得
られる。その若干の例を挙げると次の通りである。
(A)データ構造は、何等かの修飾があると、その後、
文法とのコンプライアンスについて検査されるので、ユ
ーザは、多くの不注意のタイボグラフィ的またはテキス
ト的誤りをなすことを防止される。このような誤りは、
この防止がないと、修正を必要とすることになるもので
ある。即ら、例えば、適性の数のスペースが語と文との
間に自動的に挿入される。また、各文は自動的に大文字
で始まる。また、ユーザは括弧、引用符号、または類似
の対をなす符号を不平衡または不適正に交番させること
がなくなる。
(B)選択機構はデータ構造内のノードの選択を許すの
みである。従って、エディタは、語、句、節、括弧入り
語句、引用語句、及び文のようなテキスト単位を適正に
選択し、構造的に無意味な選択を行なうように用いられ
ることがない。
(C)ユーザは、句読法を後で整頓することの必要なし
に、選択に対しての操作を行なうことができる。節の移
動を第1図に示しであるが、他の多くの例がある。交円
の最初の語が削除されると、新しい最初の語が自動的に
大文字化される。スペーシング、句読符号、及び大文字
化を修正するマージ操作及び分割操作を介して、2つの
文のような2つのテキスト単位を結合して1つのテキス
ト単位にすることも、または1つのテキスト単位を2つ
のテキスト単位に分割することもできる。テキスト単位
は不適切な型の挿入点へ移動させられる可能性があり、
この場合には、可能ならば、介在構造単位の挿入または
削除により、正しい構造に改造する。例えば、句を段落
挿入点へ移動させる場合には、介在する段落または文テ
キスト単位を挿入し、これにより、この挿入語句が単文
段落となり、従って句読付けされるようにすることがで
きる。ネストされた引用語句を、1重及び2重の引用符
間の適正な交替を得るために句読符号を修正することな
しに、及び終わりの引用符号内のピリオドのような句読
符号の位置を修正することなしに、コピーまたは移動す
ることができる。
しかし、編集は、自然言語テキストを処理する際の自律
的句読文法の唯一の用途ではない。自律的句読文法はま
た、例えば、自然言語テキストをテキスト単位に解析ま
たは分析するために用いられる。例えば、未構成テキス
ト内の文字をファイルから1つずつ読み出し、その各々
を編集用挿入信号として順々に処理して、テキストに対
応するデータ構造を構築することができる。自然言語テ
キストは明示的な自律的句読構造を有していないから、
自然言語テキストを分析する際の重要なステップは、句
読構造内の曖昧さを解決することである。その自律的句
読構造を示すため、テキストを、構造データを含むトリ
ー状データ構造に変換するか、または構造データをもっ
て注解することができる。
構造構築用文法と呼ばれる特別の一組の規則を開発して
テキストを自律的句読データ構造に変換することができ
る。例えば、構造構築用文法をキーボード上の入力動作
からマツピングし、データ構造内のテキスト単位にマウ
スすることができる。
換言すれば、文法の終端記号は、テキスト型の文法にお
けるようにアルファベットの文字を抽出することにでは
なしに、入力動作に対応し、一方、非終端記号はテキス
ト型の文法の非終端記号に対応する。従って、この文法
の規則は、入力動作からどのようにしてデータ構造を構
築するかを示すものである。次いで、この仕様をパーサ
発生技術とともに用いてエディタのための状態マシンを
生成することができる。
次に、その他の事項について説明する。
本発明の範囲内で多くの変形を行なうことができる。例
えば、システムに対するユーザインクフエースは普通の
エディタである必要はなく、句読誤りを識別するために
正しい句読法または句読検査インタフェースを学ぶ者を
援助するための教育ユーザインタフェースであってもよ
い。本発明は色々な仕方で実施することができ、例えば
、プログラミング言語とともに用いることもできる拡張
可能構造エディタとともに実施することができる。
本発明に関係する他の方法は、テキスト型に従って分析
されたテキストのパース・トリー状表現を、語及び句読
特徴を含むテキストの線形ストリングに変換するための
、規則を基礎とする方法である。一つの組の規則は、各
テキスト型の例をどのようにしてテキスト及び埋設句読
特徴の局所的に正しいストリングに変換するかを示す。
第2の組の規則は、線形において作られた句読特徴がど
のようにして局所的に(即ち、並列に)対話し、結局は
全体的に正しい結果を作るかを示す。
例えば、いくつかのテキスト型に対する第1の型の可能
性ある規則がある。即し、語は、スペースが後に続く構
成文字のシーケンスとして線形化される。句は、コンマ
が後に続く構成要素のシーケンスとして線形化される。
文は、「大文字化特徴」が先行し且つピリオド及びスペ
ースが後に続く構成要素のシーケンスとして線形化され
る。第1の組の規則によって導入される句読特徴は、実
際の句読符号から弁別され。そして、これら特徴は「実
現規則」を与えられ、この「実現規則」は、一般に、句
読符号をもって実現を規定するが、く即ち、コンマ特徴
はコンマ記号をもって実現される)、他の仕方で働くこ
ともできる。−例を挙げると前述の「大文字化特徴」が
あり、これは、最初の語におけるその右の文字に対する
最初のアルファベット文字を大文字化するこによって実
現される。即ち、第1及び第2の組の規則を順々に適用
することに加え、実現規則は、デイスプレィへ送るか、
またはファイルに格納することを都合よ(行なうことの
できる文字のストリングを得るため、句読特徴に適用さ
れることが必要である。
第2の組の規則は、第1の組の規則によって生じたスト
リング内の句読特徴の対相互間の対話を管理する。句読
特徴相互間の全ての対話には2つの基本的種類がある。
即ら、併置対のうらの一方が消える吸収、及び2つの句
読特徴の順序が逆転する転換がある。例えば、コンマ及
びピリオドが併置されていると、コンマが消える。右の
引用語句及びピリオドがこの順序で併置されていると、
これらは転換されるべきである。同様に、転換規則は、
コンマ、セミコロン、ピリオド、等のような符号が後に
続くスペースに適用される。自律的句読文法から引き出
されたパース・トリーからの正しく句読つけされたテキ
ス[・の発生を、これらの考えの使用によって大幅に筒
車化及び組織化することができる。さらにまた、第1の
組の規則によって引き出された句読特徴に自由選択的に
指向性を与えることができ、これにより、これらはその
左または右のトークンに[こびりつ< J (stic
k)ようになる。このようにして、どこに行切れ目を入
れるかを決定することについての問題が組織化される。
例えば、右の括弧が左の語にこびりついている場合には
、語とその後に続く右の括弧との間で行が切れないとい
うことが解る。
以上、本発明をその種々の実施例について説明したが、
本発明の範囲内で更に他の態様、変形、変更及び拡張が
可能である。即ち、本発明は前述の説明たまは図面に限
定されるものではなく、本発明の範囲は特許請求の範囲
に記載のごとくである。
【図面の簡単な説明】
第1図は本発明にかかる自律的句読構造を有するデータ
構造に適用可能な編集方法を示す略図、第2図は本発明
にかかる自律的句読構造を示す構造データ有するデータ
構造を作る一般的ステップを示すフローチャート、第3
図は本発明にかかる自律的向゛読データ構造を用いる一
般的ステップを示すフローチャート、第4図は本発明に
かかる自律的句読データ構造を含んでいる装置のブロッ
ク線図、第5図は本発明にかかる自律的句読データ構造
の一実施例におけるデータ単位を示す略図、第6図は本
発明にかかる自律的句読データ構造の他の実施例におけ
るデータシーケンスを示す略図、第7図は本発明にかか
るテキスト編集中の操作及びデータ構造を示す流れ図、
第8図は本発明の一実施例におけるソフトウェアとデー
タ構造との間の関係を示すブロック線図、第9図は第8
図の実施例に対してどのようにして編集をセットアツプ
するかを示すフローチャート、第10図は本発明にかか
る自律的句読データ構造を修飾する一般的ステップを示
すフローチャート、第11図は第10図の実施例方法を
詳細に示すフローチャート、第12図は第11図におけ
る検査結果に整合する文法のステップを示すフローチャ
ート、第13図は本発明にかかるテキストシーケンスを
再生するための準備における自律的句読データ構造を介
する情報伝播の一般的ステップを示すフローチャート、
第14図は本発明にかかる自律的句読データ構造からテ
キストシーケンスを再生する一般的ステップを示すフロ
ーチャートである。 FIG、 2 FIG、 3 −f2−−−−−−−−−−−=−−−=”−+ヒーー
竺立二=二1−80 FIG、 4 FIG、 5 FIG、 8

Claims (1)

  1. 【特許請求の範囲】 1、自然言語テキストを表現するテキストデータ内に構
    造データを含ませるステップを有し、前記構造データは
    前記テキストの自律的句読構造を示している自然言語テ
    キスト処理方法。 2、自律的句読構造を獲得するため、一組の規則を自然
    言語テキストに適用するステップを更に有している請求
    項1記載の自然言語テキスト処理方法。 3、一組の規則はテキスト型の文法であり、前記一組の
    規則を適用するステップは自然言語テキストをテキスト
    単位に分析するサブステップを有し、各前記単位は前記
    テキスト型の一つをそれぞれ有しており、テキストデー
    タ内に構造データを含ませるステップは、各前記テキス
    ト単位に対し、そのテキスト型を示す構造コードを含ま
    せるサブステップを有している請求項2記載の自然言語
    テキスト処理方法。
JP1296001A 1988-11-21 1989-11-14 自然言語テキスト処理方法 Pending JPH02187857A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US274158 1988-11-21
US07/274,158 US5111398A (en) 1988-11-21 1988-11-21 Processing natural language text using autonomous punctuational structure

Publications (1)

Publication Number Publication Date
JPH02187857A true JPH02187857A (ja) 1990-07-24

Family

ID=23047025

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1296001A Pending JPH02187857A (ja) 1988-11-21 1989-11-14 自然言語テキスト処理方法

Country Status (4)

Country Link
US (1) US5111398A (ja)
EP (1) EP0370778B1 (ja)
JP (1) JPH02187857A (ja)
DE (1) DE68928693T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06103264A (ja) * 1991-02-13 1994-04-15 Nec Corp 文書編集装置

Families Citing this family (131)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5530863A (en) * 1989-05-19 1996-06-25 Fujitsu Limited Programming language processing system with program translation performed by term rewriting with pattern matching
US5640552A (en) * 1990-05-29 1997-06-17 Franklin Electronic Publishers, Incorporated Method and apparatus for providing multi-level searching in an electronic book
US5259766A (en) * 1991-12-13 1993-11-09 Educational Testing Service Method and system for interactive computer science testing, anaylsis and feedback
JP3220560B2 (ja) * 1992-05-26 2001-10-22 シャープ株式会社 機械翻訳装置
GB9217886D0 (en) * 1992-08-21 1992-10-07 Canon Res Ct Europe Ltd Method and apparatus for parsing natural language
US5331554A (en) * 1992-12-10 1994-07-19 Ricoh Corporation Method and apparatus for semantic pattern matching for text retrieval
US5475588A (en) * 1993-06-18 1995-12-12 Mitsubishi Electric Research Laboratories, Inc. System for decreasing the time required to parse a sentence
US5715449A (en) * 1994-06-20 1998-02-03 Oceania, Inc. Method for generating structured medical text through user selection of displayed text and rules
US5701452A (en) * 1995-04-20 1997-12-23 Ncr Corporation Computer generated structure
US5729659A (en) * 1995-06-06 1998-03-17 Potter; Jerry L. Method and apparatus for controlling a digital computer using oral input
US5794177A (en) * 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
GB2305746B (en) * 1995-09-27 2000-03-29 Canon Res Ct Europe Ltd Data compression apparatus
US6684188B1 (en) * 1996-02-02 2004-01-27 Geoffrey C Mitchell Method for production of medical records and other technical documents
EP0805402B1 (en) * 1996-04-30 2002-08-07 Oki Electric Industry Co., Ltd. Document conversion system for processing typographie effects
US5966686A (en) * 1996-06-28 1999-10-12 Microsoft Corporation Method and system for computing semantic logical forms from syntax trees
US6498921B1 (en) * 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US5836771A (en) * 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
US5937400A (en) * 1997-03-19 1999-08-10 Au; Lawrence Method to quantify abstraction within semantic networks
US6973423B1 (en) * 1997-07-02 2005-12-06 Xerox Corporation Article and method of automatically determining text genre using surface features of untagged texts
US6505150B2 (en) * 1997-07-02 2003-01-07 Xerox Corporation Article and method of automatically filtering information retrieval results using test genre
US6216131B1 (en) * 1998-02-06 2001-04-10 Starfish Software, Inc. Methods for mapping data fields from one data set to another in a data processing environment
US7711672B2 (en) * 1998-05-28 2010-05-04 Lawrence Au Semantic network methods to disambiguate natural language meaning
US8396824B2 (en) * 1998-05-28 2013-03-12 Qps Tech. Limited Liability Company Automatic data categorization with optimally spaced semantic seed terms
US20070294229A1 (en) * 1998-05-28 2007-12-20 Q-Phrase Llc Chat conversation methods traversing a provisional scaffold of meanings
US6279018B1 (en) * 1998-12-21 2001-08-21 Kudrollis Software Inventions Pvt. Ltd. Abbreviating and compacting text to cope with display space constraint in computer software
US6321372B1 (en) * 1998-12-23 2001-11-20 Xerox Corporation Executable for requesting a linguistic service
US6243669B1 (en) 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6223150B1 (en) * 1999-01-29 2001-04-24 Sony Corporation Method and apparatus for parsing in a spoken language translation system
US6442524B1 (en) 1999-01-29 2002-08-27 Sony Corporation Analyzing inflectional morphology in a spoken language translation system
US6282507B1 (en) 1999-01-29 2001-08-28 Sony Corporation Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
US6356865B1 (en) * 1999-01-29 2002-03-12 Sony Corporation Method and apparatus for performing spoken language translation
US6278968B1 (en) 1999-01-29 2001-08-21 Sony Corporation Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6266642B1 (en) 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
US6374224B1 (en) 1999-03-10 2002-04-16 Sony Corporation Method and apparatus for style control in natural language generation
US6629087B1 (en) * 1999-03-18 2003-09-30 Nativeminds, Inc. Methods for creating and editing topics for virtual robots conversing in natural language
EP1266313A2 (en) 1999-03-19 2002-12-18 Trados GmbH Workflow management system
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US6360252B1 (en) * 1999-09-20 2002-03-19 Fusionone, Inc. Managing the transfer of e-mail attachments to rendering devices other than an original e-mail recipient
US7293074B1 (en) 1999-09-20 2007-11-06 Fusionone, Inc. Performing server actions using template with field that can be completed without obtaining information from a user
US6928448B1 (en) 1999-10-18 2005-08-09 Sony Corporation System and method to match linguistic structures using thesaurus information
US6778949B2 (en) 1999-10-18 2004-08-17 Sony Corporation Method and system to analyze, transfer and generate language expressions using compiled instructions to manipulate linguistic structures
US6535886B1 (en) * 1999-10-18 2003-03-18 Sony Corporation Method to compress linguistic structures
US6721697B1 (en) * 1999-10-18 2004-04-13 Sony Corporation Method and system for reducing lexical ambiguity
US6671757B1 (en) 2000-01-26 2003-12-30 Fusionone, Inc. Data transfer and synchronization system
US8156074B1 (en) 2000-01-26 2012-04-10 Synchronoss Technologies, Inc. Data transfer and synchronization system
US8620286B2 (en) 2004-02-27 2013-12-31 Synchronoss Technologies, Inc. Method and system for promoting and transferring licensed content and applications
US7127450B1 (en) 2000-05-02 2006-10-24 International Business Machines Corporation Intelligent discard in information access system
US6711561B1 (en) * 2000-05-02 2004-03-23 Iphrase.Com, Inc. Prose feedback in information access system
US6745181B1 (en) 2000-05-02 2004-06-01 Iphrase.Com, Inc. Information access method
US8478732B1 (en) 2000-05-02 2013-07-02 International Business Machines Corporation Database aliasing in information access system
US6704728B1 (en) * 2000-05-02 2004-03-09 Iphase.Com, Inc. Accessing information from a collection of data
US6941513B2 (en) 2000-06-15 2005-09-06 Cognisphere, Inc. System and method for text structuring and text generation
US8290768B1 (en) 2000-06-21 2012-10-16 International Business Machines Corporation System and method for determining a set of attributes based on content of communications
US9699129B1 (en) 2000-06-21 2017-07-04 International Business Machines Corporation System and method for increasing email productivity
US6408277B1 (en) 2000-06-21 2002-06-18 Banter Limited System and method for automatic task prioritization
US7895334B1 (en) 2000-07-19 2011-02-22 Fusionone, Inc. Remote access communication architecture apparatus and method
US8073954B1 (en) 2000-07-19 2011-12-06 Synchronoss Technologies, Inc. Method and apparatus for a secure remote access system
US6782384B2 (en) * 2000-10-04 2004-08-24 Idiom Merger Sub, Inc. Method of and system for splitting and/or merging content to facilitate content processing
US7818435B1 (en) 2000-12-14 2010-10-19 Fusionone, Inc. Reverse proxy mechanism for retrieving electronic content associated with a local network
US7644057B2 (en) 2001-01-03 2010-01-05 International Business Machines Corporation System and method for electronic communication management
US8615566B1 (en) 2001-03-23 2013-12-24 Synchronoss Technologies, Inc. Apparatus and method for operational support of remote network systems
US7136846B2 (en) 2001-04-06 2006-11-14 2005 Keel Company, Inc. Wireless information retrieval
US7203866B2 (en) 2001-07-05 2007-04-10 At & T Corp. Method and apparatus for a programming language having fully undoable, timed reactive instructions
US7734958B1 (en) 2001-07-05 2010-06-08 At&T Intellectual Property Ii, L.P. Method and apparatus for a programming language having fully undoable, timed reactive instructions
TW511007B (en) * 2001-08-30 2002-11-21 Ulead Systems Inc System and method editing and processing character string
US7343372B2 (en) * 2002-02-22 2008-03-11 International Business Machines Corporation Direct navigation for information retrieval
US7526424B2 (en) * 2002-03-20 2009-04-28 Microsoft Corporation Sentence realization model for a natural language generation system
EP1567928A4 (en) * 2002-09-03 2008-04-30 X1 Technologies Llc DEVICES AND METHOD FOR FINDING DATA
US8856093B2 (en) 2002-09-03 2014-10-07 William Gross Methods and systems for search indexing
US7539940B2 (en) * 2002-10-09 2009-05-26 Microsoft Corporation System and method for converting between text formatting or markup language formatting and outline structure
US20040117724A1 (en) * 2002-12-03 2004-06-17 Microsoft Corporation Extensible schema for ink
US6829602B2 (en) * 2002-12-12 2004-12-07 Microsoft Corporation System and method for using a compressed trie to estimate like predicates
US7958443B2 (en) 2003-02-28 2011-06-07 Dictaphone Corporation System and method for structuring speech recognized text into a pre-selected document format
US20050187913A1 (en) 2003-05-06 2005-08-25 Yoram Nelken Web-based customer service interface
US8495002B2 (en) * 2003-05-06 2013-07-23 International Business Machines Corporation Software tool for training and testing a knowledge base
US7328156B2 (en) * 2003-07-17 2008-02-05 International Business Machines Corporation Computational linguistic statements for providing an autonomic computing environment
WO2005010715A2 (en) 2003-07-21 2005-02-03 Fusionone, Inc. Device message management system
GB2405728A (en) * 2003-09-03 2005-03-09 Business Integrity Ltd Punctuation of automated documents
US7861269B1 (en) 2003-09-03 2010-12-28 Microsoft Corporation EPG data
US7634509B2 (en) 2003-11-07 2009-12-15 Fusionone, Inc. Personal information space management system and method
WO2005050474A2 (en) 2003-11-21 2005-06-02 Philips Intellectual Property & Standards Gmbh Text segmentation and label assignment with user interaction by means of topic specific language models and topic-specific label statistics
US7945914B2 (en) * 2003-12-10 2011-05-17 X1 Technologies, Inc. Methods and systems for performing operations in response to detecting a computer idle condition
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US20100262621A1 (en) * 2004-03-05 2010-10-14 Russ Ross In-context exact (ice) matching
WO2005091170A1 (ja) * 2004-03-18 2005-09-29 Nec Corporation テキストマイニング装置、その方法及びプログラム
US9542076B1 (en) 2004-05-12 2017-01-10 Synchronoss Technologies, Inc. System for and method of updating a personal profile
CN1998224A (zh) 2004-05-12 2007-07-11 富盛旺公司 高级联络识别系统
TWI258678B (en) * 2004-12-21 2006-07-21 High Tech Comp Corp Search method, and computer readable medium thereof
JP2006276915A (ja) * 2005-03-25 2006-10-12 Fuji Xerox Co Ltd 翻訳処理方法、文書翻訳装置およびプログラム
JP4170325B2 (ja) * 2005-08-05 2008-10-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 辞書の妥当性を評価する装置、方法およびプログラム
US20070143310A1 (en) * 2005-12-16 2007-06-21 Vigen Eric A System and method for analyzing communications using multi-dimensional hierarchical structures
RU2488735C2 (ru) * 2006-08-21 2013-07-27 Вестерн Пайпвей, Ллс Системы и способ для восстановления трубопровода
US8521506B2 (en) * 2006-09-21 2013-08-27 Sdl Plc Computer-implemented method, computer software and apparatus for use in a translation system
EP2080120A2 (en) * 2006-10-03 2009-07-22 Qps Tech. Limited Liability Company Mechanism for automatic matching of host to guest content via categorization
US8397157B2 (en) * 2006-10-20 2013-03-12 Adobe Systems Incorporated Context-free grammar
WO2008052239A1 (en) * 2006-11-03 2008-05-08 Appen Pty Limited Email document parsing method and apparatus
WO2008151466A1 (en) 2007-06-14 2008-12-18 Google Inc. Dictionary word and phrase determination
WO2008151465A1 (en) * 2007-06-14 2008-12-18 Google Inc. Dictionary word and phrase determination
US20090164493A1 (en) * 2007-12-24 2009-06-25 Johnsgard Todd J Apparatus and methods for editing content on a wireless device
US8181111B1 (en) 2007-12-31 2012-05-15 Synchronoss Technologies, Inc. System and method for providing social context to digital activity
JP5423398B2 (ja) * 2008-01-10 2014-02-19 日本電気株式会社 機械翻訳装置および機械翻訳方法
US20090198488A1 (en) * 2008-02-05 2009-08-06 Eric Arno Vigen System and method for analyzing communications using multi-placement hierarchical structures
CA2680304C (en) * 2008-09-25 2017-08-22 Multimodal Technologies, Inc. Decoding-time prediction of non-verbalized tokens
US20100153425A1 (en) * 2008-12-12 2010-06-17 Yury Tulchinsky Method for Counting Syllables in Readability Software
US8352855B2 (en) 2009-01-02 2013-01-08 Apple Inc. Selection of text in an unstructured document
US8219386B2 (en) * 2009-01-21 2012-07-10 King Fahd University Of Petroleum And Minerals Arabic poetry meter identification system and method
US9262403B2 (en) 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
GB2468278A (en) * 2009-03-02 2010-09-08 Sdl Plc Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation
US8280718B2 (en) * 2009-03-16 2012-10-02 Xerox Corporation Method to preserve the place of parentheses and tags in statistical machine translation systems
US8255006B1 (en) 2009-11-10 2012-08-28 Fusionone, Inc. Event dependent notification system and method
US20110116514A1 (en) * 2009-11-13 2011-05-19 Kirshenbaum Evan R Communication system with nestable delimited streams
US8688435B2 (en) 2010-09-22 2014-04-01 Voice On The Go Inc. Systems and methods for normalizing input media
US8943428B2 (en) 2010-11-01 2015-01-27 Synchronoss Technologies, Inc. System for and method of field mapping
US9128929B2 (en) 2011-01-14 2015-09-08 Sdl Language Technologies Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself
US8442998B2 (en) * 2011-01-18 2013-05-14 Apple Inc. Storage of a document using multiple representations
US10073827B2 (en) * 2012-06-07 2018-09-11 Robert Kevin Houston Method and system to generate a process flow diagram
US20140006937A1 (en) * 2012-06-29 2014-01-02 Nokia Corporation Character function user interface
US9659058B2 (en) 2013-03-22 2017-05-23 X1 Discovery, Inc. Methods and systems for federation of results from search indexing
US9880983B2 (en) 2013-06-04 2018-01-30 X1 Discovery, Inc. Methods and systems for uniquely identifying digital content for eDiscovery
US10346550B1 (en) 2014-08-28 2019-07-09 X1 Discovery, Inc. Methods and systems for searching and indexing virtual environments
US10042613B2 (en) * 2016-08-19 2018-08-07 International Business Machines Corporation System, method, and recording medium for validating computer documentation
WO2018093904A1 (en) 2016-11-17 2018-05-24 Goldman Sachs & Co. LLC System and method for coupled detection of syntax and semantics for natural language understanding and generation
US10346547B2 (en) * 2016-12-05 2019-07-09 Integral Search International Limited Device for automatic computer translation of patent claims
US11899904B2 (en) * 2017-04-12 2024-02-13 Microsoft Technology Licensing, Llc. Text input system with correction facility
US10606943B2 (en) 2017-10-09 2020-03-31 International Business Machines Corporation Fault injection in human-readable information
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US10733389B2 (en) * 2018-09-05 2020-08-04 International Business Machines Corporation Computer aided input segmentation for machine translation
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
CN110598190B (zh) * 2019-09-06 2024-03-08 湖南天河国云科技有限公司 一种基于区块链的链上文本数据确权方法
CN113095072A (zh) * 2019-12-23 2021-07-09 华为技术有限公司 文本处理方法及装置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6024622A (ja) * 1983-07-21 1985-02-07 Toshiba Corp 文書作成装置
JPS60157639A (ja) * 1984-01-27 1985-08-17 Hitachi Ltd プログラム編集方法
JPS6170251U (ja) * 1984-10-12 1986-05-14
JPS61157971A (ja) * 1984-12-28 1986-07-17 Matsushita Electric Ind Co Ltd 文書編集装置
JPS61278970A (ja) * 1985-06-03 1986-12-09 Hitachi Ltd 自然言語処理装置における構文解析結果の表示及び校正のための制御方法
JPS62245368A (ja) * 1986-04-17 1987-10-26 Nec Corp 文章編集装置
JPS62263568A (ja) * 1986-05-12 1987-11-16 Matsushita Electric Ind Co Ltd ワ−ドプロセツサ
JPS6382541A (ja) * 1986-09-26 1988-04-13 Seiko Epson Corp 文書編集装置
JPS63187361A (ja) * 1987-01-30 1988-08-02 Hitachi Ltd 数式編集装置
JPS63193263A (ja) * 1987-02-06 1988-08-10 Nippon Telegr & Teleph Corp <Ntt> 文書処理装置
JPS63290966A (ja) * 1987-05-23 1988-11-28 Toyota Autom Loom Works Ltd 非接触型速度検出装置
JPS63291161A (ja) * 1987-05-22 1988-11-29 Matsushita Electric Ind Co Ltd 表示装置
JPH0240764A (ja) * 1988-07-22 1990-02-09 Internatl Business Mach Corp <Ibm> 文書処理方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5853787B2 (ja) * 1979-08-30 1983-12-01 シャープ株式会社 電子辞典
JPS5840684A (ja) * 1981-09-04 1983-03-09 Hitachi Ltd 自然言語間の自動翻訳方式
US4597057A (en) * 1981-12-31 1986-06-24 System Development Corporation System for compressed storage of 8-bit ASCII bytes using coded strings of 4 bit nibbles
JPS58175074A (ja) * 1982-04-07 1983-10-14 Toshiba Corp 構文分析方式
US4674065A (en) * 1982-04-30 1987-06-16 International Business Machines Corporation System for detecting and correcting contextual errors in a text processing system
JPS58201175A (ja) * 1982-05-20 1983-11-22 Kokusai Denshin Denwa Co Ltd <Kdd> 機械翻訳方式
JPS61105671A (ja) * 1984-10-29 1986-05-23 Hitachi Ltd 自然言語処理装置
DE3682880D1 (de) * 1985-11-28 1992-01-23 Canon Kk Dokumentverarbeitungssystem.
JPS62163173A (ja) * 1986-01-14 1987-07-18 Toshiba Corp 機械翻訳方法
AU597320B2 (en) * 1986-03-31 1990-05-31 Wang Laboratories, Inc. Text editor for multidimensional or multidirectional text
US4773009A (en) * 1986-06-06 1988-09-20 Houghton Mifflin Company Method and apparatus for text analysis
GB2198565A (en) * 1986-11-28 1988-06-15 Sharp Kk Translation apparatus
JPS63305463A (ja) * 1987-06-05 1988-12-13 Hitachi Ltd 自然言語処理方式
EP0361570B1 (en) * 1988-09-15 1997-08-06 Océ-Nederland B.V. A system for grammatically processing a sentence composed in natural language
JPH0289161A (ja) * 1988-09-26 1990-03-29 Sharp Corp 文書処理装置
JP2534360B2 (ja) * 1988-09-26 1996-09-11 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 接続方法、ノ―ド接続方法、デ―タ処理方法、及び木内にノ―ドを挿入する方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6024622A (ja) * 1983-07-21 1985-02-07 Toshiba Corp 文書作成装置
JPS60157639A (ja) * 1984-01-27 1985-08-17 Hitachi Ltd プログラム編集方法
JPS6170251U (ja) * 1984-10-12 1986-05-14
JPS61157971A (ja) * 1984-12-28 1986-07-17 Matsushita Electric Ind Co Ltd 文書編集装置
JPS61278970A (ja) * 1985-06-03 1986-12-09 Hitachi Ltd 自然言語処理装置における構文解析結果の表示及び校正のための制御方法
JPS62245368A (ja) * 1986-04-17 1987-10-26 Nec Corp 文章編集装置
JPS62263568A (ja) * 1986-05-12 1987-11-16 Matsushita Electric Ind Co Ltd ワ−ドプロセツサ
JPS6382541A (ja) * 1986-09-26 1988-04-13 Seiko Epson Corp 文書編集装置
JPS63187361A (ja) * 1987-01-30 1988-08-02 Hitachi Ltd 数式編集装置
JPS63193263A (ja) * 1987-02-06 1988-08-10 Nippon Telegr & Teleph Corp <Ntt> 文書処理装置
JPS63291161A (ja) * 1987-05-22 1988-11-29 Matsushita Electric Ind Co Ltd 表示装置
JPS63290966A (ja) * 1987-05-23 1988-11-28 Toyota Autom Loom Works Ltd 非接触型速度検出装置
JPH0240764A (ja) * 1988-07-22 1990-02-09 Internatl Business Mach Corp <Ibm> 文書処理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06103264A (ja) * 1991-02-13 1994-04-15 Nec Corp 文書編集装置

Also Published As

Publication number Publication date
EP0370778A2 (en) 1990-05-30
EP0370778A3 (en) 1991-11-21
DE68928693T2 (de) 1998-12-10
US5111398A (en) 1992-05-05
DE68928693D1 (de) 1998-07-09
EP0370778B1 (en) 1998-06-03

Similar Documents

Publication Publication Date Title
JPH02187857A (ja) 自然言語テキスト処理方法
JP3960562B2 (ja) 機械翻訳の学習方法
US5895446A (en) Pattern-based translation method and system
Alexa et al. A review of software for text analysis
Berwick Principle-based parsing
US5848385A (en) Machine translation system using well formed substructures
JP4330285B2 (ja) 機械翻訳用辞書登録装置、機械翻訳用辞書登録方法、機械翻訳装置、機械翻訳方法及び記録媒体
US5999896A (en) Method and system for identifying and resolving commonly confused words in a natural language parser
US5200893A (en) Computer aided text generation method and system
KR900009120B1 (ko) 기계번역장치
US20070011160A1 (en) Literacy automation software
WO2020100553A1 (ja) 質問応答データ生成装置および質問応答データ生成方法
Miller Lightweight structure in text
EP0118187B1 (en) Menu-based natural language understanding system
JP2001515616A (ja) 自動自然言語翻訳
Komen Cesax: Coreference editor for syntactically annotated XML corpora
Phillips et al. GPSGP—a parser for generalized phrase structure grammars
JPH02112068A (ja) テキスト簡略表示方式
US7389220B2 (en) Correcting incomplete negation errors in French language text
JP2001503540A (ja) アノテートされたテキストの自動翻訳
Dale 1 A rule‐based approach to computer‐assisted copy‐editing
JPS61278970A (ja) 自然言語処理装置における構文解析結果の表示及び校正のための制御方法
Hastings Design and implementation of a speech recognition database query system
Dale et al. Two investigations into intelligent text processing
Morris et al. A constraint-based editor for linguistic scholars