JPH076020A - ハイフネーション規則に関する有限状態符号化システム - Google Patents

ハイフネーション規則に関する有限状態符号化システム

Info

Publication number
JPH076020A
JPH076020A JP6072035A JP7203594A JPH076020A JP H076020 A JPH076020 A JP H076020A JP 6072035 A JP6072035 A JP 6072035A JP 7203594 A JP7203594 A JP 7203594A JP H076020 A JPH076020 A JP H076020A
Authority
JP
Japan
Prior art keywords
hyphenation
state
input
string
rules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6072035A
Other languages
English (en)
Other versions
JP3599775B2 (ja
Inventor
M Kaplan Ronald
エム カプラン ロナルド
J Calteunen Lauri
ジェイ カルテュネン ラウリ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH076020A publication Critical patent/JPH076020A/ja
Application granted granted Critical
Publication of JP3599775B2 publication Critical patent/JP3599775B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/191Automatic line break hyphenation

Abstract

(57)【要約】 【目的】 ハイフネーション検査及びハイフネーション
生成のためのFST構造の中に予め知られていることを
必要としない潜在的に無限な単語の一覧表を符号化する
手段を備えるハイフネーション規則に関する有限状態符
号化システムを提供する。 【構成】 入力ストリングにおけるハイフンについての
妥当な位置は、ハイフネーション規則の組のコンパイレ
ーションによって決定された状態−遷移データ構造を有
する有限状態変換器を介して入力ストリングの記号を読
み込みそして処理することによって決定される。符号化
システムの出力は、ハイフンで結ばれたストリングを含
むことができるか、或いはハイフンで結ばれたストリン
グを受け入れてかつハイフネーション規則の組により入
力されたハイフネーションが適当かどうかの表示を出力
することができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、有限状態機械(FSM
s)及び有限状態変換器(FSTs)の分野に関する。
より特定的には、文字のハイフンが付いていないストリ
ングからハイフンで結んだストリングを発生しかつ適当
なハイフネーションについてハイフンで結んだストリン
グを試験する有限状態変換器に関する。
【0002】
【従来の技術】“Compact Hyphenation Point Data”と
題する米国特許出願第07/739,798号は、単語についての
ハイフネーションの一覧表により単語にハイフンを付け
るためのFSTsの使用を記載している。それには、ハ
イフネーションFSTの動作を示す指向グラフが示され
ている。外見上、FSMは、記号のストリングを包含し
ている入力テープを読込み、かストリングがFSMによ
って許容されるストリングの組であるかどうかを決定す
す機械として考えることができる。例えば、ストリング
の組は、辞書における単語であり得、その場合に入力ス
トリングは、適当な綴りについて検査される単語であり
得、入力記号は、アルファベットの文字(letter)(語
内句読点を可能的に含んでおり)、そしてFSMは、辞
書における単語のそれぞれを許容する。辞書の単語は、
FSMの動作を規定するデータ構造に一般的に符号化さ
れる。単語の一覧表をそのようなFSMデータ構造に変
形する処理は、“Encoding FSM Data Structures”と題
された米国特許出願第07/739,798号及び米国特許出願第
07/855,129号に記載されている。
【0003】FSMは、有限状態機械なので、その動作
は、その一つが初期状態である有限数の状態、及び現行
状態から次の状態への遷移を記述しかつどの状態が最終
状態であるかを示しているデータ構造によって記述され
うる。FSMの動作は、しばしば有向グラフによって示
される。この有向グラフは、円で表される状態、遷移の
方向を示している矢頭を有するアーク(弧)で表される
遷移、及び遷移アークとして区分される(それらの)遷
移に導くテープ記号からなる。初期状態は、慣例により
0または1に区分され、最終状態は、円内の円により示
される。テープ記号は、通常、しかし必ずしもそうであ
る必要はないが、読み取られる入力ストリングの英文等
の文字(letter)または句読文字である。次に、FSM
の動作は、初期状態に等しい現行状態で始まり、入力ス
トリングの第1の記号を読み取り、その区分に第1の記
号を含む遷移を用いて、もし可能ならば初期状態から新
たな状態に移る機械として、有向グラフに関して記述し
うる。続いて、FSMは、入力ストリングの次の記号に
移り、入力ストリングの各後続の記号について処理を繰
り返す。全ストリングを読み取った後、もしFSMが初
期状態であるならば、入力ストリングは、FSMによっ
て許容されるストリングの組にあると言える。さもなく
ば、そうとは言えない。入力ストリングは、一度に一つ
の記号が読み取られるので、入力ストリングは、FSM
に送り込まれたテープとして考えられうる。確定的FS
Mにおいて、各状態から所与の入力記号について多くて
一つの遷移が存在する。非確定的FSMにおいて、ある
状態は、所与の入力記号について一つ以上の遷移を有し
うる。また、あるFSMsにおいて、空文字(ヌル文
字)は、入力ストリングから読み取りうる。効果とし
て、遷移は取られるが、入力テープを進めない;これ
は、標識“0”によって指定される。
【0004】有限状態変換器(FST)は、FSTがス
トリングの対を受け入れるかまたは拒否する点を除い
て、FSMに類似している。当然のこととなる理由につ
いて、これらは、しばしば入力テープまたはストリン
グ、及び出力テープまたはストリングと呼ばれている。
FSTも有向グラフによって記述されうるが、各遷移が
入力記号及び出力記号対によって区分されるもの(有向
グラフ)による。あるFSTsの使用は、L. Karttune
n, Finite-State Constraints, International Confere
nce on Current Issues in Computational Linguistic
s, June 10-14, 1991 で論ぜられている。FSTは、受
け入れられるべき入力−出力ストリング対の組を指定す
る規則の組を実行するために用いうる。これらの対は、
例えば、互いに対になった単語の単数及び複数形であり
うる。米国特許出願第07/739,798号に記述されたFST
は、単語についてのハイフネーション点及びハイフンで
結ばれた単語のハイフンの正当性を決定するために用い
られる。上記で用いられた用語において、入力ストリン
グは、検査されるべき単語であり、出力ストリングは、
適当なハイフネーション点に埋め込まれたハイフンを有
する単語である。受け入れられたストリング対の組は、
それぞれが基本語及びハイフンで結んだ単語からなるス
トリング対の組である。
【0005】一つの応用において、挿入されたハイフン
を有する単語は、FSTによって検査される。入力テー
プは、ハイフンなしの単語であり、出力テープは、ハイ
フンを有する単語である。もしFSTが、その単語及び
単語のその特定のハイフネーションを受け入れるべく符
号化されるならば、それは受け入れられる。別の応用に
おいて、単語は、FSTへの入力であり、そしてFST
は、ハイフンによって示されたハイフネーション点を有
する単語である出力ストリングを示す。もし一つ以上の
ハイフネーションが受け入れられるならば、一つ以上の
出力ストリングが示される。以下、FSTの一例を図1
を参照して説明する。図1は、ハイフネーションFST
の状態及び遷移を表している有向グラフ10である。有
向グラフ10において、一つの状態から別の状態への各
遷移は、指向性アークによって示される、そして遷移の
原因となる入力−出力記号対によって区分される。例え
ば、もしFSTが状態1であるならば、そして入力記号
及び出力記号が両方とも“D”ならば、状態2への遷移
が行われる。FSTにおいて、遷移の標識は、記号対で
あり、入力記号、コロン、及び出力記号として書かれる
(即ち、“D:D”)。速記表記法において、もし入力
及び出力記号が同じであれば、標識は、状態2及び3の
間で“R”と区分された遷移のように、単一の記号とし
て示される。標識“D:D”は、“D”に短縮されうる
が、説明のために完全な表記で残された。FSTでは要
求されないけれども、指向グラフ10は、ほとんどの記
号対が入力ストリングの特性を出力ストリングの同じ特
性に適合させることを示す。単語がハイフンで結ばれる
場合、単語の文字は変わらないので、これはハイフネー
ションFSTにおいて一般に期待されることである。
【0006】ある記号及びある状態に関して、遷移が存
在せず、指向グラフ10を用いているFSTのように、
記号“D”以外に状態1からの遷移が存在しない。それ
ゆえに、“D”で始まっていない単語は、FSTによっ
て受け入れられない。表1は、指向グラフ10によって
表されるFSTによって受け入れられた入力−出力対を
示す。
【0007】
【表1】 (入力ストリング, 出力ストリング) dip, dip dipped, dip−ped dipper, dip−per dipping, dip−ping dips, dips drip, drip dripped, drip−ped dripper, drip−per dripping,dirip−ping drips, drips drop, drop dropped, drop−ped dropper, drop−per dropping,drop−ping drops, drops 最終状態及び遷移の配置により、上記対のみがFSTに
よって受け入れられる。図1において、上述したよう
に、記号“0”(空記号)は入力ストリングから読み込
まれ、かつ“−”は出力ストリングから読み込まれるこ
とを示す“0:−”と区分された遷移のような、空記号
(ヌル記号)を示すために用いられる。空記号は、記号
を読み込まないこと及びテープを進行させないことに等
しい。
【0008】FSTを用いる方法は、二つある。一つの
応用において、出力ストリングは、知られており、入力
及び出力ストリングは、一度に一つの記号を読み込み、
入力及び出力テープを進行させ(空記号が読み込まれた
ときを除く)、そして受け入れられたあらゆる遷移を取
る。別の応用において、出力ストリングは、知られてお
らず、入力ストリングは、読み込まれ、そして、取られ
た遷移の経路(path)に沿って出会った出力記号は、出
力される。
【0009】
【発明が解決しようとする課題】しかしながら、図1に
示す指向グラフから明らかなように、ハイフネーション
FSTは、表1の入力欄(column)の単語の有限一覧表
(finite list )についてのハイフンで結ばれた出力ス
トリングを提供するだけである。対(hello, hell-o )
は、有向なハイフネーションを示しうるけれども、唯一
の有効な遷移は、D:Dであり、FSTは、状態1でブ
ロックされうるので、FSTによって受け入れられる対
ではありえない。“h”で始まっている入力ストリング
について、初期状態から最終状態まで有向グラフ10を
貫通する経路は、不可能なので、対(hello, hell-o )
は、FSTによって拒否される。表1の小さな一覧表
は、実用的なハイフネーション機械について有用ではな
いけれども、単語の更に大きな一覧表が、FSTの状態
遷移構造に符号化されうる。しかしながら、大きな数の
単語及びハイフネーション対を受け入れているFSTで
も、FSM構造を符号化することにより多数の問題が発
生しうるので、ワードプロセッサ(文書処理装置)に組
み込まれうるような、英単語をハイフンで結ぶハイフネ
ーション機械を必要とする応用では受け入れられない。
第1に、有効な単語の網羅的かつ決定的な一覧表が存在
せず、新しい単語が毎日創作されている。第2に、基本
の単語の連結を介して単語が使用者によって創作される
ドイツ語やフィンランド語のような、他の言語における
応用に関して、単語一覧表は、潜在的に無限であり、予
め知られていない。
【0010】必要なのは、予め知られていることを必要
としない潜在的に無限な単語の一覧表を、ハイフネーシ
ョン検査及びハイフネーション生成のためのFST構造
の中に、符号化する手段である。本発明の目的は、上記
従来のハイフネーションFSTにおける問題点に鑑み、
ハイフネーション検査及びハイフネーション生成のため
のFST構造の中に予め知られていることを必要としな
い潜在的に無限な単語の一覧表を符号化する手段を備え
るハイフネーション規則に関する有限状態符号化システ
ムを提供することにある。
【0011】
【課題を解決するための手段】上述した本発明の目的
は、入力ストリングから入力記号を読み取る入力手段
と、入力手段に連結され、初期状態、現行状態、及び状
態遷移データ構造によって特徴付けられ、現行状態が入
力ストリングの少なくとも一つの入力記号及び状態遷移
データ構造の遷移によって決定され、状態遷移データ構
造がハイフネーション規則の組によって決定される有限
状態機械と、有限状態機械に連結され、入力ストリング
のハイフネーション位置を指示し、ハイフネーションが
有限状態機械の状態遷移によって決定されるハイフネー
ション指示手段とを備え、ハイフネーション位置がハイ
フネーション規則の組に従うハイフネーション位置決定
装置によって達成される。本発明におけるハイフネーシ
ョン規則の組は、無限数のストリングに適用可能な少な
くとも一つの規則を備えることが好ましい。本発明にお
けるハイフネーション規則の組は、更に、他の規則によ
って扱われない有限数のストリングに適用可能な少なく
とも一つの規則を備えることが好ましい。
【0012】本発明におけるハイフネーション規則の組
は、更に、他の規則によって扱われない有限数のストリ
ングに適用可能な少なくとも一つの規則を備え、他の規
則に否定規則が付け加えられ、否定規則を含んでいる他
の規則は、有限数のストリングのハイフネーションを扱
わないことが好ましい。本発明における入力ストリング
は、言語の単語であることが好ましい。本発明における
言語は、英語であることが好ましい。本発明における言
語は、フィンランド語であってもよい。本発明における
入力ストリングは、文書処理プログラムで用いられる文
書の単語であり、ハイフネーション標識は、文書処理プ
ログラムのラインブレーク位置決定プロセッサに連結さ
れてもよい。本発明におけるハイフネーション標識は、
ハイフネーション位置にハイフンが散在する入力ストリ
ングから記号を包含しているストリングを出力するよう
に構成してもよい。本発明における入力ストリングは、
少なくとも一つの提案されたハイフネーション位置に少
なくとも一つのハイフンを含み、ハイフネーション標識
は、提案されたハイフネーション位置がハイフネーショ
ン規則の組に従うか否かを示すことが好ましい。
【0013】本発明における状態遷移データ構造は、デ
ータ構造へのハイフネーション規則の組の自動コンパイ
ルによって生成されたデータ構造であることが好まし
い。本発明における状態遷移データ構造は、データ構造
へのハイフネーション規則の組の手動コンパイルによっ
て生成されたデータ構造であってもよい。上述した本発
明の目的は、状態遷移構造にハイフネーション規則の組
をコンパイルし、ハイフネーション規則のそれぞれが、
表現に対応付けられた基準の組に適合するストリングの
少なくとも一つの許されたハイフン位置または禁止され
たハイフン位置を示す表現によって特徴付けられ、少な
くともハイフネーション規則の一つが入力ストリングの
非束縛な組についての少なくとも一つのハイフン位置を
符号化し、状態遷移構造により有限状態機械をプログラ
ミングし、有限状態機械を初期状態にリセットし、入力
ストリングの記号及び状態遷移構造により有限状態機械
の少なくとも一つの現行状態を変更し、変更段階で生じ
た一つの状態から別の状態への遷移によりハイフン位置
標識を出力する段階を具備する入力ストリングをハイフ
ン付けする方法によっても達成される。本発明における
ハイフン位置標識を出力する段階は、更に、ハイフン位
置にハイフンが散在する入力ストリングの記号を出力す
る段階を具備することが好ましい。
【0014】本発明における入力ストリングは、提案さ
れたハイフン位置に少なくとも一つのハイフンを備え、
ハイフン位置標識を出力する段階は、更に、提案された
ハイフン位置が入力ストリングについてのハイフン位置
に対応するか否かの標識を出力する段階を具備すること
が好ましい。上記方法によって出力ストリングが生成さ
れてもよい。上述した本発明の目的は、ハイフネーショ
ン規則の組を生成し、少なくともハイフネーション規則
の一つが入力ストリングの非束縛な組についての少なく
とも一つのハイフン位置を符号化し、ハイフネーション
規則のリストに対応する状態遷移構造を発生し、状態遷
移構造が、入力ストリングの特定の記号の入力に続いて
現行状態から次に状態への複数の遷移のいずれが取られ
るかを示すデータを備えており、データが該入力ストリ
ングのハイフン位置をも示し、状態遷移構造により該有
限状態機械をプログラミングする段階を具備する方法に
よって発生した有限状態機械によっても達成される。
【0015】
【作用】本発明によるハイフネーションFSTの一つの
実施例において、単語は、制約のない単語の組について
の状態遷移図符号化ハイフネーション規則を有するFS
Tに入力され、FSTは、受け入れられたハイフンの位
置を示す。FSTの状態遷移構造は、制約のない単語の
組に適用される規則、及び一つ以上の単語の有限の組に
適用される規則を含むハイフネーション規則の組を表わ
す。FSM状態遷移構造は、サブストリングのどこにハ
イフンが入るかを示しているハイフネーション規則の組
からコンパイルまたは生成される。一度、ハイフネーシ
ョン規則の組が有向グラフに変換されたならば、有向グ
ラフは、米国特許出願第07/855,129号に教示
されているように、コンパクト符号化形式でアクセスで
きる。コンパクト符号化形式は、その間の状態及び遷移
で実施された多数の規則を符号化するための一つの手段
を提供する。しかしながら、有向グラフの状態及び遷移
を記憶するあらゆる手段が本願発明に作用するので、コ
ンパクト符号化形式は本願の発明に必要ない。ハイフネ
ーション規則が無限に多くのストリングに適用できるの
で、対応するFSTは、状態遷移の環状に囲んでいるパ
スを有する。
【0016】本願発明によるハイフネーションFSMの
一つの実施例において、有向グラフは、機械可読状態及
び遷移データとしてメモリに記憶され、ストリングプロ
セッサは、入力ストリングを状態及び遷移データに適用
する。入力ストリングの適用の結果は、入力ストリング
及び受け入れ可能なハイフンポイントを反映している出
力ストリングか或いは入力ストリングのハイフンが正確
に配置されたかどうかを示す標識のいずれかである。本
願発明の性質及び利点の更なる理解は、他の明細書の部
分及び添付された図面を参照することによって認識され
うる。
【0017】
【実施例】以下、添付した図面を参照して、本発明のハ
イフネーション規則に関する有限状態符号化システムの
実施例を説明する。図2は、ハイフネーションFST
(図3参照)の有向グラフ20を示す。有向グラフ20
は、この例について選択された、ハイフン配置の任意の
規則について符号化する:ハイフンは、ハイフンが最初
の二文字の前でないならば、サブストリング“PE”の
前及びサブストリング“ING”の前でストリングに位
置付けられる。正式に言うならば、FSTは、許された
位置で出力ストリングに加えられたハイフンを除いて、
出力ストリングが入力ストリングと同じであるような全
ての入力−出力ストリング対を受け入れる。表2は、ハ
イフン配置の規則の形式的表現を示す。
【0018】
【表2】 アルファベット a b c d e f g h i j k l m n o p q r s t u v w x y z %- 0:%- ; 組 Ltr= a b c d e f g h i j k l m n o p q r s t u v w x y z %- ; 規則 “規則 1” !サブストリング“PE”の前にハイフンを位置付けする !しかし、最初の文字の間ではない. 0:%- <=> # : [Ltr Ltr*]/0: Ltr _p e/0: ; “規則 2” !サブストリング“ING”の前にハイフンを位置付けする !しかし、最初の文字の間ではない. 0:%- <=> # : [Ltr Ltr*]/0: Ltr _i[n g]/0: ; この規則の形式的表現は、ゼロックスによって創作され
た、二段階規則コンパイラーにより用いられる。「アル
ファベット」部分は、FSTで用いられる入力:出力記
号対を列挙する。アルファベットにおける最初の記号対
は、“a:a”であり、“a”と短縮される。この記号
対は、“a”の入力記号及び“a”の出力記号を示す。
最後の対“0:%−”は、空(ヌル)入力及びハイフン
出力文字の記号対である(“%”は、“−”が制御文字
でないことを示すために用いれる)。
【0019】「組」部分は、組Ltrの全てのメンバー
(これらは記号対でもある)を簡潔に参照すべく用いら
れる、組Ltr の構成要素を列挙する。「規則」部分は、
二重引用符(“ ”)における規則名及び感嘆符(!)
で先行された注釈を伴って、規則それ自体を列挙する。
規則は、英語についての適当なハイフネーション規則を
反映していないが、しかし例の明晰さのため及び、本発
明は、これら英語や他の言語だけでなく任意のハイフネ
ーション規則のいずれの組に対しても適用可能であるこ
とを示すために選択された。例えば、規則2は、英語に
おける“ing”の尾部についての適当な規則ではな
い。有向グラフ10(図1参照)が“ing”の尾部を
適当に符号化するが、それは、三つの単語:dippi
ng, dripping,及びdroppingだけ
についてである。例から明らかなように、有向グラフ2
0は、入力ストリングの潜在的に無限の組を符号化す
る。有向グラフ20を用いているFSTへの入力ストリ
ングは、後述の例で示すように、どの言語における有効
な単語である必要さえない。規則に基づいたハイフネー
ションFSTは、長い単語が基本単語を互いに連結する
ことによって創作されるフィンランド語やドイツ語のよ
うな言語において特に有用である。基本単語を結合する
全ての異なる方法の事前指定を要求する単語−一覧表指
向FSTに対抗して、規則に基づいたシステムでは、基
本単語についての規則のみが符号化される必要がある。
【0020】表3は、有向グラフ20の代替え表現であ
る、二段階規則コンパイラーによって生成された状態−
遷移データ構造を示す。
【0021】
【表3】 a e g i n p #:0 0:− 1: 1 1 1 1 1 1 2 2: 3 3 3 3 3 3 2 3: 4 4 4 4 4 4 2 4: 4 4 4 9 4 10 2 5 5. 7 6 6. 4 7. 8 8. 4 9: 4 4 4 9 11 10 2 5 10: 4 4 9 4 10 2 5 11: 4 4 9 4 10 2 5 (同等クラス: ((a b c d f h j k l m o q r s t u v w x y z -) (e )(g )(i )(n )(p )(#:0 ) (0: )) 規則1及び規則2の交差点についての状態遷移 表3において、現行状態は、最終状態に対して“:”及
び非最終状態に対して“.”を伴って、左側のコラム
(列)に列挙されている。コラム(列)は、記号対によ
り見出し付けされ、所与の記号対についての所与の状態
からの遷移は、記号コラム(列)及び状態ロー(行)の
交差点での状態数によって示されている。例えば、表3
は、状態4が最終状態であることを示し、かつもしFS
Tが記号対“i”(i:i)を読み込むならば、FST
の現行状態が状態4から状態9に変更すべきであること
を示す。文字(character )#は、単語の開始の標識で
あり、コラム#:0は、単語の開始での遷移を示す。:
0なので、入力ストリングの#は、出力ストリングに繰
り越さない。
【0022】表3は、現行状態が知られており、かつ遷
移された状態が、入力−出力記号対についてのコラム
(列)のもとでその現行状態について列挙されているの
で、示された状態−遷移図により符号化されたFSTの
作用(action)を決定するのに用いることができる。こ
の例の平易さから、記号対の多くは、同一挙動の原因と
なる。例えば、記号対a:a及びb:bは、規則に示さ
れていないので、それらは、ことなるように取り扱われ
ておらず、従って、これら二つの対のコラム(列)は、
同等である。表3の表示を簡略化するために、同値クラ
スが用いられる。特定の同値クラスは、表3の下部に列
挙してある。第1の同値クラスは、全てのしかしアルフ
ァベットの五つの文字を含んでおり、かつ同値クラスの
最初の文字によって識別される−−それゆえに、“a”
とレッテルを付けられたコラム(列)は、列挙された同
値クラスにおける他の記号対のいずれか一つに対応付け
られた遷移を決定するために用いられるべきである。所
与の記号対についての状態から遷移が許されないなら
ば、表3におけるそのエントリー(入力)は、空白のま
まに残しておく。例えば、現行の状態が状態5であるな
らば、記号対e:eについて遷移は、許されない。
【0023】図2は、表3の状態−遷移図を反映してい
る有向グラフ20を示している。上記したように、レッ
テル“a”は、同値クラス“a”における各記号対につ
いての遷移を網羅(カバー)する。入力ストリング“d
ipped”を有する有向グラフ20を用いているFS
Tの動作について説明する。FSTは、状態1で開始
(スタート)し、そして“#”単語マーカーの始まりで
ある、入力ストリングの最初の文字を読み取る。入力記
号“#”についての唯一の可能な遷移は、状態1から状
態2へである。出力ストリングは、もしそれが読み出さ
れたならば、前に進められない、そしてもしそれがFS
Tによって出力されるならば、状態1から状態2への遷
移の“#:0”レッテルによって示されているように、
それ(出力ストリング)は、記号を含んでいない。状態
2において、FSTは、次の入力記号、“d”(それは
要求されてはいないけれども、この例では解釈不感性が
想定されている)を読み込む。唯一の可能な遷移は、状
態2から状態3へである。“d”とレッテルを付けられ
た遷移は明白に示されていないが、“d”は同値クラス
“a”の中なので、“a”とレッテルを付けられた遷移
(状態1から状態2ヘ)が取られる。
【0024】第2の文字、“i”、を読み取るために、
FSTは、状態3から状態4への遷移を取る。第3の文
字、“p”、を読み取るために、FSTは、状態4から
状態10への遷移、または状態4から状態5への遷移、
入力ストリングから“p”を使い切らない、そして次に
状態6へ、“p”を使う、が可能である。有向グラフ2
0は、確定的なFSTであるけれども、二つの可能な経
路(パス:paths )が状態4で利用可能である。異なる
可能な経路の記録を辿るために、許された経路は、それ
らが通過する「状態」(the states)によって識別され
る。それゆえに、第3の文字を読み取った後、入力スト
リングについて許された経路は、1−2−3−4−1
0、または1−2−3−4−5−6で始まらなければな
らない。第4の文字、“p”、を読み取るために、1−
2−3−4−5−6の経路は、ブロックされる、それは
状態6からの“p”の遷移が存在しないからであり、そ
れゆえに1−2−3−4−10の経路が唯一の実行可能
な選択である。状態10から、状態5への遷移は、唯一
の許された遷移であり、状態6への遷移を伴う。この時
点において、唯一の許された経路は、1−2−3−4−
10−5−6で始まる。
【0025】現行状態が状態6である間に、第5の文
字、“e”は、読み取られ、そして許される遷移は、状
態4へである。第6のかつ最後の文字、“d”、を読み
取るために、状態4からそれ自体への遷移及び状態5へ
の遷移を取る。しかしながら、状態5への遷移は、文字
を使い果たさず、かつ“d”についての状態5からの遷
移は存在しないので、その経路は許されない。それゆえ
に、入力ストリング“dipped”についての唯一の
許される最後の経路は、1−2−3−4−10−5−6
−4−4である。状態4は、最終状態なので、この経路
は、FSTで受け入れられる経路である。出力は、もし
知られていないならば、経路をもどりかつ各遷移のレッ
テルの出力記号部分を調べることによって見出すことが
できる。この場合、経路についての出力記号は、次のよ
うである(出力記号は括弧内):1(0)2(d)3
(i)4(p)10(−)5(p)6(e)4(d)4
換言すれば、入力ストリング“dipped”を包含し
ている唯一の入力−出力ストリング対は、ストリング対
(dipped,dip−ped)である。勿論、もし
出力ストリングが予め知られているならば、可能な出力
記号を読み取ることは、経路を延長することの追加の必
要条件でありうる。例えば、入力−出力ストリング対
(dipped,dip−ped)は、FSTによって
受け入れられるべきではない。FSTが状態3でブロッ
クし、記号対“i:e”について遷移が存在せず、そし
て代替え経路が存在しなゆえに、この対の記号について
経路が存在しないので、この対の非受入は、図2から自
明である。
【0026】状態4から状態10,5,6,そして状態
4に戻っるような、有向グラフ20におけるループのた
めに、無限の数のストリング対が受け入れられる。例え
ば、(dipped,dip−ped)は、経路1−2
−3−4−10−5−6−4−10−5−6−4がその
ストリング対について許され、そしてそれが最終状態で
終わるので、明らかに受け入れられる。多くの他の入力
ストリングは、有向グラフ20を用いているFSTによ
って受け入れられる。それらの中には、例えば、任意の
入力ストリング“clepelings”を含んでお
り、これは、有向グラフ20を用いているFSTによっ
て処理されうるストリングがいかに所定の単語に限定さ
れていないかを示す。FSTは、状態1で開始し、前回
の例のように、状態1から状態2への遷移を取り、入力
ストリングの最初の文字“c”を読み込む。“c”は、
同類クラス“a”なので、唯一の許される経路は、状態
2から状態3への“a”とレッテルを付された遷移を有
するそれである。第2の文字、“l”、これも同類クラ
ス“a”である、を読み取るために、唯一の許される経
路は、状態3から状態4への遷移を含む。
【0027】第3の文字、“e”については、二つの経
路が許される。状態4から、状態4自体への遷移が許さ
れ、そして状態5への遷移が許される。しかしながら、
状態5への経路についての入力記号は、ヌル(ゼロ)で
あり、そして状態5は、入力記号“e”についての遷移
を有していないので、この経路は、ブロックされて、経
路1−2−3−4−4だけを残す。第4の文字は、
“p”なので、状態10及び状態5への、二つの経路が
許される。状態5への遷移の後、状態6への遷移が続
き、許された経路は、部分経路1−2−3−4−4−1
0及び1−2−3−4−4−5−6のいずれかで始ま
る。第5の文字、“e”、を読み取るために、第1の経
路は、状態10から状態5への遷移を許し、それは
“e”遷移を有していないので、次にブロックされる。
第2の経路(1−2−3−4−4−5−6)は、状態6
から状態4への許される経路を有しており、それは、そ
の唯一許される遷移である。それゆえに、この点で許さ
れる経路は、1−2−3−4−4−5−6−4である。
第6の文字、“l”、を読み取るために、状態5への他
の許される遷移が“l”遷移の欠落によってブロックさ
れるので、遷移は、状態4からそれ自身へでなければな
らない。第7の文字、“i”、を読み取るために、遷移
は、状態4から状態9へ、或いは状態5そして状態7へ
でなければならない。それゆえに、この点への許される
経路は、1−2−3−4−4−5−6−4−4−9、及
び1−2−3−4−4−5−6−4−4−5−7であ
る。
【0028】第8の文字、“n”、を読み取るために、
上記第1の許される経路は、状態9から状態11へ或い
は状態5(ブロックされる)への遷移を必要とし、第2
の許される経路は、状態7から状態8への遷移を必要と
する。第9の文字、“g”、を読み取るために、上記第
1の経路(1−2−3−4−4−5−6−4−4−9−
11)は、失敗する。なぜならば、状態11が“g”遷
移を有さず、状態8までの経路、及びそこから状態4へ
の遷移だけを残すからである。この点で、許される経路
は、1−2−3−4−4−5−6−4−4−5−7−8
−4である。第10の文字、“s”、を読み取るため
に、状態5への遷移及び状態5からの遷移がブロックさ
れるので、唯一の許される経路は、状態4から状態4へ
である。それゆえに、入力ストリングについての最終経
路は、1−2−3−4−4−5−6−4−4−5−7−
8−4−4である。状態4が最終状態なので、入力スト
リングは、許されるストリング対の入力ストリングであ
る。換言すると、ハイフネーションFSTは、それが処
理できるあるものとしてストリングを認識する。この許
される経路についての出力ストリングは、“cle−p
el−ings”であるべく容易に決定され、それは規
則1及び2の両方により適当にハイフンで結ばれてい
る。
【0029】図3は、ストリング対を処理するのに有向
グラフ20を用いる本願発明による有限状態変換器(F
ST)システム30の一つの実施例のブロック図であ
る。FSTシステム30は、入力バッファ32a、入力
バッファ32b、FST34、及び出力バッファ36を
備えている。FST34は、中央処理装置38、及びメ
モリ40を備えている。メモリ40は、現行状態記憶場
所42及び状態−遷移データ構造44を備えている。入
力バッファ32a、32bは、CPU38の入力に連結
されており、CPU38に、入力ストリング及び出力ス
トリングをそれぞれ供給する。出力バッファ36は、C
PU38の出力に連結れている。データバスも現行状態
記憶場所42及び状態−遷移データ構造44をCPU3
8に連結する。ある実施例において、ハイフネーション
FSTシステム30は、入力バッファ32aに入力した
ストリングから全ての非要求ハイフンを取り除きかつ変
更されたストリングを入力バッファ32aに挿入するこ
とによって、入力バッファ32bの内容から入力バッフ
ァ32aの内容を生成する手段を備えている。
【0030】FST34が動作するとき、それは、入力
バッファ32aに記憶された入力テープ、及び出力バッ
ファ32bに記憶された出力テープを読み取る。現行状
態は、現行状態記憶場所42に記憶された値によって示
され、CPU38は、新しい状態を決定すべくデータ構
造44の状態−遷移データを読み取る。もしFST34
が非確定的FSTであるならば、記憶場所42は、調査
されているあらゆる多重経路を説明すべく、一つ以上の
現行状態についての割り当てられた空間を有しうる。状
態−遷移データの例は、表3に示されたデータである。
入力及び出力テープを読み取ったあと、FST34は、
テープを読み取り終えたときの現行状態が最終状態がど
うかを示している、従って入力−出力ストリング対がF
ST34によって受け入れられるかどうかを示している
妥当性ビットを出力する。図3から明らかなように、そ
のような規則を符号化する異なるデータ構造44を用い
ることにより、FST34は、図3のそれらとは異なる
規則の組についてプログラムされうる。図4は、本発明
によるFSTシステム30’の別の実施例のブロック図
である。FSTシステム30’は、入力バッファ32a
に類似の入力バッファ32’、FST34に類似のFS
T34’、及び出力バッファ36’を備えている。FS
T34’は、入力バッファ32’からの入力ストリング
を受け取るべく、かつ出力バッファ36’に出力ストリ
ングを出力すべく連結される。
【0031】FST34’が出力記号に関する許容可能
な経路についてのその探索を制限しないことを除いて、
FST34’の動作は、FST34のそれに類似であ
る。その代わり、もし入力バッファ32’から入力され
た入力ストリングについて妥当な経路が見出されたなら
ば、その経路に対応付けられた出力ストリングは、出力
バッファ36’に出力される。もしFSTが、所与の入
力ストリングについての多重出力ストリングを許すべく
プログラムされるならば、出力バッファ36’は、多重
出力ストリングに対する容量を有する。上述した記載
は、例示的なものであり、限定的なものではない。本発
明の多くの変更は、この開示をリビューすることにより
当業者にとって明らかになるであろう。従って、本発明
の範囲は、上述した記載に関して決定されるべきではな
く、その代わり、それの完全なる同等な範囲に沿って、
添付のクレームに関して決定されるべきである。
【0032】
【発明の効果】本発明の入力ストリングのハイフネーシ
ョン位置を決定するハイフネーション位置決定装置は、
入力ストリングから入力記号を読み取る入力手段と、入
力手段に連結され、初期状態、現行状態、及び状態遷移
データ構造によって特徴付けられ、現行状態が該入力ス
トリングの少なくとも一つの入力記号及び状態遷移デー
タ構造の遷移によって決定され、状態遷移データ構造が
ハイフネーション規則の組によって決定される有限状態
機械と、有限状態機械に連結され、入力ストリングのハ
イフネーション位置を指示し、ハイフネーションが有限
状態機械の状態遷移によって決定されるハイフネーショ
ン指示手段とを備え、ハイフネーション位置がハイフネ
ーション規則の組に従うので、予め知られていることを
必要としない潜在的に無限な単語の一覧表を、ハイフネ
ーション検査及びハイフネーション生成のためのFST
構造の中に、符号化する。本発明のハイフネーション位
置決定装置は、ハイフネーション規則の組が、無限数の
ストリングに適用可能な少なくとも一つの規則を備え
る。本発明のハイフネーション位置決定装置は、ハイフ
ネーション規則の組が、更に、他の規則によって扱われ
ない有限数のストリングに適用可能な少なくとも一つの
規則を備える。
【0033】本発明のハイフネーション位置決定装置
は、ハイフネーション規則の組が、更に、他の規則によ
って扱われない有限数のストリングに適用可能な少なく
とも一つの規則を備え、他の規則に否定規則が付け加え
られ、否定規則を含んでいる他の規則は、有限数のスト
リングのハイフネーションを扱わない。本発明のハイフ
ネーション位置決定装置は、入力ストリングが、言語の
単語である。本発明のハイフネーション位置決定装置
は、言語が英語である。本発明のハイフネーション位置
決定装置は、言語がフィンランド語である。本発明のハ
イフネーション位置決定装置は、入力ストリングが、文
書処理プログラムで用いられる文書の単語であり、ハイ
フネーション標識が、文書処理プログラムのラインブレ
ーク位置決定プロセッサに連結される。本発明のハイフ
ネーション位置決定装置は、ハイフネーション標識が、
ハイフネーション位置にハイフンが散在する入力ストリ
ングから記号を包含しているストリングを出力する。本
発明のハイフネーション位置決定装置は、入力ストリン
グが、少なくとも一つの提案されたハイフネーション位
置に少なくとも一つのハイフンを含み、ハイフネーショ
ン標識が、提案されたハイフネーション位置が記ハイフ
ネーション規則の組に従うか否かを示す。
【0034】本発明のハイフネーション位置決定装置
は、状態遷移データ構造が、データ構造へのハイフネー
ション規則の組の自動コンパイルによって生成されたデ
ータ構造である。本発明のハイフネーション位置決定装
置は、状態遷移データ構造は、データ構造へのハイフネ
ーション規則の組の手動コンパイルによって生成された
データ構造である。本発明の入力ストリングにハイフン
を付す方法は、状態遷移構造にハイフネーション規則の
組をコンパイルし、ハイフネーション規則のそれぞれ
が、表現に対応付けられた基準の組に適合するストリン
グの少なくとも一つの許されたハイフン位置または禁止
されたハイフン位置を示す表現によって特徴付けられ、
少なくともハイフネーション規則の一つが入力ストリン
グの非束縛な組についての少なくとも一つのハイフン位
置を符号化し、状態遷移構造により有限状態機械をプロ
グラミングし、有限状態機械を初期状態にリセットし、
入力ストリングの記号及び状態遷移構造により有限状態
機械の少なくとも一つの現行状態を変更し、変更段階で
生じた一つの状態から別の状態への遷移によりハイフン
位置標識を出力する段階を具備するので、予め知られて
いることを必要としない潜在的に無限な単語の一覧表
を、ハイフネーション検査及びハイフネーション生成の
ためのFST構造の中に、符号化する。
【0035】本発明の入力ストリングにハイフンを付す
方法は、ハイフン位置標識を出力する段階が、更に、ハ
イフン位置にハイフンが散在する入力ストリングの記号
を出力する段階を具備する。本発明の入力ストリングに
ハイフンを付す方法は、入力ストリングが、提案された
ハイフン位置に少なくとも一つのハイフンを備え、ハイ
フン位置標識を出力する段階が、更に、提案されたハイ
フン位置が入力ストリングについてのハイフン位置に対
応するか否かの標識を出力する段階を具備する。本発明
における出力ストリングは、本発明の入力ストリングに
ハイフンを付す方法によって生成される。本発明の有限
状態機械は、ハイフネーション規則の組を生成し、少な
くとも該ハイフネーション規則の一つが入力ストリング
の非束縛な組についての少なくとも一つのハイフン位置
を符号化し、ハイフネーション規則のリストに対応する
状態遷移構造を発生し、状態遷移構造が、入力ストリン
グの特定の記号の入力に続いて現行状態から次に状態へ
の複数の遷移のいずれが取られるかを示すデータを備え
ており、データが該入力ストリングのハイフン位置をも
示し、状態遷移構造により有限状態機械をプログラミン
グする段階を具備する方法によって発生されるので、予
め知られていることを必要としない潜在的に無限な単語
の一覧表を、ハイフネーション検査及びハイフネーショ
ン生成のためのFST構造の中に、符号化する。
【図面の簡単な説明】
【図1】単語の有限の組についてのハイフネーションF
ST符号化の有向グラフを示す概略図である。
【図2】単語の無限の組についてのハイフネーション規
則の組及び符号化を表しているハイフネーションFST
の有向グラフを示す概略図である。
【図3】適当なハイフネーションについてハイフンで結
ばれた単語を検査すべく図2の有向グラフにより入力ス
トリングを処理するストリングプロセッサのブロック図
である。
【図4】示されたハイフネーション位置を有する単語を
生成すべく図2の有向グラフにより入力ストリングを処
理するストリングプロセッサのブロック図である。
【符号の説明】
10,20 有向グラフ 30,30’ 有限状態変換器(FST)システム 32a,32b,32’ 入力バッファ 34,34’ FST 36,36’ 出力バッファ 38 中央処理装置(CPU) 40 メモリ 42 現行状態記憶場所 44 状態−遷移データ構造
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ラウリ ジェイ カルテュネン アメリカ合衆国 カリフォルニア州 94062 レッドウッド シティー ジェフ ァーソン アベニュー 3950

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】 入力ストリングのハイフネーション位置
    を決定するハイフネーション位置決定装置であって、前
    記入力ストリングから入力記号を読み取る入力手段と、
    前記入力手段に連結され、初期状態、現行状態、及び状
    態遷移データ構造によって特徴付けられ、該現行状態が
    前記入力ストリングの少なくとも一つの入力記号及び該
    状態遷移データ構造の遷移によって決定され、該状態遷
    移データ構造がハイフネーション規則の組によって決定
    される有限状態機械と、前記有限状態機械に連結され、
    前記入力ストリングのハイフネーション位置を指示し、
    該ハイフネーションが該有限状態機械の状態遷移によっ
    て決定されるハイフネーション指示手段とを備え、前記
    ハイフネーション位置が前記ハイフネーション規則の組
    に従うことを特徴とするハイフネーション位置決定装
    置。
  2. 【請求項2】 前記ハイフネーション規則の組は、無限
    数のストリングに適用可能な少なくとも一つの規則を備
    えることを特徴とする請求項1に記載の装置。
  3. 【請求項3】 前記ハイフネーション規則の組は、更
    に、他の規則によって扱われない有限数のストリングに
    適用可能な少なくとも一つの規則を備えることを特徴と
    する請求項2に記載の装置。
  4. 【請求項4】 前記ハイフネーション規則の組は、更
    に、他の規則によって扱われない有限数のストリングに
    適用可能な少なくとも一つの規則を備え、該他の規則に
    否定規則が付け加えられ、当該否定規則を含んでいる該
    他の規則は、該有限数のストリングのハイフネーション
    を扱わないことを特徴とする請求項2に記載の装置。
  5. 【請求項5】 前記入力ストリングは、言語の単語であ
    ることを特徴とする請求項1に記載の装置。
  6. 【請求項6】 前記言語は、英語であることを特徴とす
    る請求項5に記載の装置。
  7. 【請求項7】 前記言語は、フィンランド語であること
    を特徴とする請求項5に記載の装置。
  8. 【請求項8】 前記入力ストリングは、文書処理プログ
    ラムで用いられる文書の単語であり、前記ハイフネーシ
    ョン標識は、該文書処理プログラムのラインブレーク位
    置決定プロセッサに連結されることを特徴とする請求項
    1に記載の装置。
  9. 【請求項9】 前記ハイフネーション標識は、ハイフネ
    ーション位置にハイフンが散在する前記入力ストリング
    から記号を包含しているストリングを出力することを特
    徴とする請求項1に記載の装置。
  10. 【請求項10】 前記入力ストリングは、少なくとも一
    つの提案されたハイフネーション位置に少なくとも一つ
    のハイフンを含み、前記ハイフネーション標識は、該提
    案されたハイフネーション位置が前記ハイフネーション
    規則の組に従うか否かを示すことを特徴とする請求項1
    に記載の装置。
  11. 【請求項11】 前記状態遷移データ構造は、前記デー
    タ構造への前記ハイフネーション規則の組の自動コンパ
    イルによって生成されたデータ構造であることを特徴と
    する請求項1に記載の装置。
  12. 【請求項12】 前記状態遷移データ構造は、前記デー
    タ構造への前記ハイフネーション規則の組の手動コンパ
    イルによって生成されたデータ構造であることを特徴と
    する請求項1に記載の装置。
  13. 【請求項13】 入力ストリングにハイフンを付す方法
    であって、状態遷移構造にハイフネーション規則の組を
    コンパイルし、該ハイフネーション規則のそれぞれが、
    表現に対応付けられた基準の組に適合するストリングの
    少なくとも一つの許されたハイフン位置または禁止され
    たハイフン位置を示す表現によって特徴付けられ、少な
    くとも該ハイフネーション規則の一つが入力ストリング
    の非束縛な組についての少なくとも一つのハイフン位置
    を符号化し、該状態遷移構造により有限状態機械をプロ
    グラミングし、該有限状態機械を初期状態にリセット
    し、該入力ストリングの記号及び該状態遷移構造により
    該有限状態機械の少なくとも一つの現行状態を変更し、
    該変更段階で生じた一つの状態から別の状態への遷移に
    よりハイフン位置標識を出力する段階を具備することを
    特徴とする方法。
  14. 【請求項14】 前記ハイフン位置標識を出力する段階
    は、更に、ハイフン位置にハイフンが散在する前記入力
    ストリングの前記記号を出力する段階を具備することを
    特徴とする請求項13に記載の方法。
  15. 【請求項15】 前記入力ストリングは、提案されたハ
    イフン位置に少なくとも一つのハイフンを備え、前記ハ
    イフン位置標識を出力する段階は、更に、該提案された
    ハイフン位置が該入力ストリングについてのハイフン位
    置に対応するか否かの標識を出力する段階を具備するこ
    とを特徴とする請求項13に記載の方法。
  16. 【請求項16】 請求項13の方法によって生成された
    出力ストリング。
  17. 【請求項17】 ハイフネーション規則の組を生成し、
    少なくとも該ハイフネーション規則の一つが入力ストリ
    ングの非束縛な組についての少なくとも一つのハイフン
    位置を符号化し、該ハイフネーション規則のリストに対
    応する状態遷移構造を発生し、該状態遷移構造が、入力
    ストリングの特定の記号の入力に続いて現行状態から次
    に状態への複数の遷移のいずれが取られるかを示すデー
    タを備えており、該データが該入力ストリングのハイフ
    ン位置をも示し、該状態遷移構造により該有限状態機械
    をプログラミングする段階を具備する方法によって発生
    した有限状態機械。
JP7203594A 1993-04-21 1994-04-11 ハイフネーション規則に関する有限状態符号化システム Expired - Fee Related JP3599775B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US5102493A 1993-04-21 1993-04-21
US08/051024 1993-04-21

Publications (2)

Publication Number Publication Date
JPH076020A true JPH076020A (ja) 1995-01-10
JP3599775B2 JP3599775B2 (ja) 2004-12-08

Family

ID=21968893

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7203594A Expired - Fee Related JP3599775B2 (ja) 1993-04-21 1994-04-11 ハイフネーション規則に関する有限状態符号化システム

Country Status (2)

Country Link
US (1) US5737621A (ja)
JP (1) JP3599775B2 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233544B1 (en) * 1996-06-14 2001-05-15 At&T Corp Method and apparatus for language translation
CA2226233C (en) * 1997-01-21 2006-05-09 At&T Corp. Systems and methods for determinizing and minimizing a finite state transducer for speech recognition
US6523031B1 (en) * 1997-11-21 2003-02-18 International Business Machines Corporation Method for obtaining structured information exists in special data format from a natural language text by aggregation
US6742164B1 (en) * 1999-09-01 2004-05-25 International Business Machines Corporation Method, system, and program for generating a deterministic table to determine boundaries between characters
US6626960B1 (en) * 1999-09-01 2003-09-30 International Business Machines Corporation Method, system, and program for generating a table to determine boundaries between characters
US6965858B2 (en) * 2000-04-03 2005-11-15 Xerox Corporation Method and apparatus for reducing the intermediate alphabet occurring between cascaded finite state transducers
US6704728B1 (en) 2000-05-02 2004-03-09 Iphase.Com, Inc. Accessing information from a collection of data
US6711561B1 (en) * 2000-05-02 2004-03-23 Iphrase.Com, Inc. Prose feedback in information access system
US6714905B1 (en) * 2000-05-02 2004-03-30 Iphrase.Com, Inc. Parsing ambiguous grammar
US8478732B1 (en) 2000-05-02 2013-07-02 International Business Machines Corporation Database aliasing in information access system
US6408277B1 (en) 2000-06-21 2002-06-18 Banter Limited System and method for automatic task prioritization
US9699129B1 (en) 2000-06-21 2017-07-04 International Business Machines Corporation System and method for increasing email productivity
US8290768B1 (en) 2000-06-21 2012-10-16 International Business Machines Corporation System and method for determining a set of attributes based on content of communications
US7644057B2 (en) 2001-01-03 2010-01-05 International Business Machines Corporation System and method for electronic communication management
US7401290B2 (en) 2001-03-05 2008-07-15 Adobe Systems Incorporated Inhibiting hypenation clusters in automated paragraphs layouts
US7136846B2 (en) 2001-04-06 2006-11-14 2005 Keel Company, Inc. Wireless information retrieval
US7343372B2 (en) * 2002-02-22 2008-03-11 International Business Machines Corporation Direct navigation for information retrieval
US8234115B2 (en) 2002-03-29 2012-07-31 At&T Intellectual Property Ii, L.P. Systems and methods for determining the N-best strings
US20050187913A1 (en) * 2003-05-06 2005-08-25 Yoram Nelken Web-based customer service interface
US8495002B2 (en) * 2003-05-06 2013-07-23 International Business Machines Corporation Software tool for training and testing a knowledge base
EP2054172B1 (en) * 2006-08-21 2014-01-22 Western Slope Utilities, Inc. Systems and methods for pipeline rehabilitation installation
US8996994B2 (en) * 2008-01-16 2015-03-31 Microsoft Technology Licensing, Llc Multi-lingual word hyphenation using inductive machine learning on training data
US7949679B2 (en) * 2008-03-05 2011-05-24 International Business Machines Corporation Efficient storage for finite state machines

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3439341A (en) * 1965-08-09 1969-04-15 Lockheed Aircraft Corp Hyphenation machine
US3537076A (en) * 1967-11-28 1970-10-27 Ibm Automatic hyphenation scheme
US4028677A (en) * 1975-07-16 1977-06-07 International Business Machines Corporation Digital reference hyphenation matrix apparatus for automatically forming hyphenated words
US4181972A (en) * 1976-05-03 1980-01-01 Burroughs Corporation Means and methods for automatic hyphenating words
US4092729A (en) * 1976-12-28 1978-05-30 International Business Machines Corporation Apparatus for automatically forming hyphenated words
US4285049A (en) * 1978-10-11 1981-08-18 Operating Systems, Inc. Apparatus and method for selecting finite success states by indexing
US4241402A (en) * 1978-10-12 1980-12-23 Operating Systems, Inc. Finite state automaton with multiple state types
US4450520A (en) * 1981-03-11 1984-05-22 University Of Illinois Foundation Method and system for matching encoded characters
US4574363A (en) * 1982-07-13 1986-03-04 International Business Machines Corporation Mixed mode enhanced resolution hyphenation function for a text processing system
US4783811A (en) * 1984-12-27 1988-11-08 Texas Instruments Incorporated Method and apparatus for determining syllable boundaries
US4811400A (en) * 1984-12-27 1989-03-07 Texas Instruments Incorporated Method for transforming symbolic data
US5450598A (en) * 1985-12-27 1995-09-12 Xerox Corporation Finite state machine data storage where data transition is accomplished without the use of pointers
US5553283A (en) * 1987-05-26 1996-09-03 Xerox Corporation Stored mapping data with information for skipping branches while keeping count of suffix endings
US5560037A (en) * 1987-12-28 1996-09-24 Xerox Corporation Compact hyphenation point data

Also Published As

Publication number Publication date
JP3599775B2 (ja) 2004-12-08
US5737621A (en) 1998-04-07

Similar Documents

Publication Publication Date Title
JPH076020A (ja) ハイフネーション規則に関する有限状態符号化システム
Purdom A sentence generator for testing parsers
EP0424032B1 (en) Naturel language processing apparatus
US5418718A (en) Method for providing linguistic functions of English text in a mixed document of single-byte characters and double-byte characters
JP2000311166A (ja) 自然言語入力データからプロセッサ使用可能データを生成する装置及びその方法
US20060149543A1 (en) Construction of an automaton compiling grapheme/phoneme transcription rules for a phoneticizer
JPH04271443A (ja) データベース構築方法及び装置
US6944588B2 (en) Method and apparatus for factoring unambiguous finite state transducers
JPH0211934B2 (ja)
CN116360794A (zh) 数据库语言解析方法、装置、计算机设备及存储介质
US6965858B2 (en) Method and apparatus for reducing the intermediate alphabet occurring between cascaded finite state transducers
KR100474823B1 (ko) 자연어의품사태깅장치및그방법
JPH02224132A (ja) メッセージパーサの自動発生システム
JPH06131500A (ja) 文字認識装置
JPS59201172A (ja) 曖味さ解析方式
JP3433827B2 (ja) 句構造抽出装置
JP2704945B2 (ja) 重複表現処理装置
JP2807236B2 (ja) 形態素解析方法
JPH09198236A (ja) 命令順序決定方法および装置
JPH0546370A (ja) プログラム生成装置
JPS5918730B2 (ja) 仮名・漢字変換装置
JPS6033663A (ja) 構文解析方式
JPH0715691B2 (ja) 自動翻訳装置
JPS61150037A (ja) 構文解析エラ−情報出力処理方式
Parkes et al. Phrase Structure Languages and Turing Machines

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040119

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040415

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040915

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees