JPH0727530B2 - 複合ワードのためのスペリング援助方法 - Google Patents

複合ワードのためのスペリング援助方法

Info

Publication number
JPH0727530B2
JPH0727530B2 JP63062108A JP6210888A JPH0727530B2 JP H0727530 B2 JPH0727530 B2 JP H0727530B2 JP 63062108 A JP63062108 A JP 63062108A JP 6210888 A JP6210888 A JP 6210888A JP H0727530 B2 JPH0727530 B2 JP H0727530B2
Authority
JP
Japan
Prior art keywords
word
spelling
compound
compound word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63062108A
Other languages
English (en)
Other versions
JPS63254559A (ja
Inventor
ルドルフ・アーノルド・フリーシユ
アントニオ・ザモラ
Original Assignee
インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン filed Critical インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン
Publication of JPS63254559A publication Critical patent/JPS63254559A/ja
Publication of JPH0727530B2 publication Critical patent/JPH0727530B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 A.産業上の利用分野 本発明はデータ処理技法に関するものであり、更に詳し
くいえば、複合ワードに対するスペリング(つづり)援
助を行うための方法に関するものである。
B.従来の技術 テキスト処理又はワード処理システムは独立形のアプリ
ケーシヨンおよび分散処理形のアプリケーシヨンの両方
とも開発されてきた。本願におけるテキスト処理および
ワード処理という用語は、書かれたテキストを構成する
英数文字のストリングの作成、編集、伝送および印刷の
ために主として使われるデータ処理を対象として使用さ
れる。ワード処理のための特定の分散処理システムが19
85年9月30日出願の米国特許出願781862号に開示されて
いる。この特許出願の図面および明細書は、例えば本発
明が適用されるホスト・システムの参照例として、本願
に組込まれている。
スペリングの検証および援助は今やパーソナル・コンピ
ュータでさえワード処理パツケージの必須の構成要素で
あると考えられる。スペリングの検証は文章のうちのミ
ススペリング(つづり誤り)をハイライトするというプ
ロセスであり、一方スペリングの援助はミススペリング
を置換し得る一組の正しくつづられたワードを表示する
ことである。これらのプログラムにより与えられる援助
のレベルはコンピュータの能力およびソフトウエアの複
雑さに依存する。
一般に、すべてのスペリング検証プログラムは正しくつ
づられたワードの辞書を参照することによつて働く。即
ち、1978年発行の「情報時代の眺望、ASIS年次会議議事
録(the Information Age in Perspective、Proceeding
of the ASIS Annual Meeting)」、第15巻、第364〜36
7頁のA.ザロマ氏「大データ・ベースにおけるスペリン
グ・エラーの制御(Control of Spelling Errors in La
rge Data Base)」という記事、1980年発行の「情報科
学のためのアメリカ社会誌(Journal of the American
Society for Information Science)」、第51〜57頁の
A.ザロマ氏の「大データ・ベースにおけるスペリング・
エラーの自動的検出および訂正(Automatic Detection
and Correction of Spelling Errors in a Large Data
Base)」という記事、1984年発行の「ACMのコミユニケ
ーシヨン(Communications of the ACM)」、第358〜36
8頁のJ.J.ポロツクおよびA.ザロマ氏の「科学的および
学術的テキストの自動的なスペリング訂正(Automatic
Spelling Correction in Scientific and Scholarly Te
xt)」という記事、1980年発行の「ACMのコメユニケー
シヨン(Communication of the ACM)」、第676〜687頁
のJ.J.ピーターソン氏の「スペリング・エラーを検出お
よび訂正するためのコンピユータ・プログラム(Comput
er Programs for Detecting and Correcting Spelling
Errors)」という記事が知られている。対話式スペリン
グ検証は必要な応答時間を得るために辞書をハツシユ・
コードとしてコード化することによつてサポート可能で
あるが、このような辞書は、ハツシユ・コードからワー
ドが再構成され得ないため、スペリングの援助をサポー
トするのに使用し得ない。最新のソフトウエアは、スペ
リング援助の候補として辞書からワードを供給するに必
要な可逆性を持つようおよび所望の速度を得るようワー
ドの発生頻度を考慮した圧縮辞書を使用している。米国
特許第4355371号および第4328561号を参照してほしい。
スペリング援助の候補を与えるために使用される基本的
な技法は、ワード・リスト(又はその一部分)を走査
し、そのリストにおける各ワードと良好指数(figure o
f merit)を関連づけ、多数のワードに最良の良好指数
を置換候補として与えることである。良好指数は、1つ
のワードを他のワードに変えるために如何に多くのエラ
ー動作が必要とされるかを決定する連系類似性測定法を
使うことによつて得ることができる。前述の2つの米国
特許および1975年発行の「ACMの議事録(Journal of th
e ACM)」、第177〜183頁のR.ローランスおよびR.A.ワ
グナ氏の「ストリング対ストリング訂正問題の拡張(An
Extension of the String−to−String Correction Pr
oblem)」という記事を参照してほしい。
スペリング援助技法はそれが英語に対するものと同じ容
易さでもつてすべての言語に展開するものではなかつ
た。英語の言語学上の単純性および強い経済的な市場要
素が英語の技法の急速な発展の原因である。英語に対す
るスペリング援助技法は多少の変更でもつて他の言語に
対しても使用可能であるが、言語学的に処理の難かしく
同じ技法を使用し得ないフインランド語のような言語も
ある。又、その技法の大部分を使用可能であるが特別の
複合ワードの処理を必要とするドイツ語のような言語も
ある。
ワードの膠着は英語における非常に活動的なワード形成
機構とはならないため、複合ワードの大部分をコンピユ
ータ化ワード・リストに含ませることは可能である。こ
れは、非常に大きい結合および複合の可能性があるた
め、他のドイル語的言語に対しては事実上不可能であ
る。例えば、或るものがドイル語のための複合ワードの
大きなリストを作るためのものである場合、これは大量
の記憶装置を必要とするのみならず、そのリストの走査
の結果としてつづり誤りの複合ワードに対する適当な候
補が検索されること又は正しくつづられた複合ワードが
それと一致することを保証するものでもない。
複合ワードはドイツ語的言語では普通に発生するもので
ある。一般に、ドイツ語的言語は北方ドイツ語形と西方
ドイツ語形に分けられる。前者の主要言語はデンマーク
語、アイスランド語、ノルウエイ語、スウエーデン語で
あり、後者はアフリカ語、英語、ドイツ語を含むもので
ある。
複合ワードの概念は、 (A)salt water sugar cube、snow removal equipmen
t repair facility、のような単純なワード・シーケン
ス (B)mother−in−law、able−bodied、のような必要
なハイフンによつて結合されたワード・シーケンス (C)homemaker、housewife、Gesundheitsamt、のよう
な互いに直接膠着したワード・シーケンスによつて形成
される。上記(B)又は(C)によつて形成された複合
ワードのコンポーネント即ち成分ワードが(B)におけ
る“bodied"又は(C)における“Gesundheits"のよう
なそれ自体によつて1つのワードをして使用され得ない
ことに注意することが重要である。英語におけるワード
結合の語形論的機構は1984年発行の「言語・通信ライブ
ラリ(Language and Communication Library)」第7巻
におけるR.P.ボタ氏の「語形論的機構:総合的言語結合
の語彙分析(Morphological Mechanisms:Lexicalist An
alysis of Synthetic Compounding)」に開示されてい
る。
本願では、「複合ワード」の概念は上記(C)により形
成された複合ワードに制限される。それは、本発明が内
部区切りを持たない複合ワードに対するスペリング援助
を与えるという問題だけを扱うためである。ここに示さ
れる方法は一般にはドイツ語的言語に適応可能であるけ
れども、それらがそれらに制限されるものではないこと
に注意すべきである。
C.発明が解決しようとする問題点 従つて、本発明の目的は、複合ワードのスペリングに関
してユーザを援助するための方法を提供することであ
る。
本発明のもう1つの目的は、ユーザによるつづりの誤つ
た複合ワードの入力に応答して、正しくつづられた複合
ワードの例を発生するための方法を提供することであ
る。
本発明の更にもう1つの目的は、組織的且つ効果的なワ
ード分析アルゴリズムを繰返し適用することによつてお
よび誤つてつづられた複合ワードと同様の適当な候補の
複合ワードを出力することによつて複合ワードを分析し
且つ正しくつづるための方法を提供することである。
D.問題点を解決するための手段 前記の本発明の目的は、本願に開示された複合ワードの
ためのスペリング援助方法によつて達成される。本発明
は誤つてつづられた複合ワードに対する正しくつづられ
た候補を与えるための技法(スペリング援助)である。
この技法は、特定の位置的特徴を満すコンポーネント
(成分ワード)を持つた複合ワードのサブストリングを
識別し、然る後、前に識別されたサブストリングの前、
間又は後に発生する任意の認識されないサブストリング
に対する正しくつづられた候補を与えることにより成
る。最後のステツプとして、これら候補のワードはすべ
てのコンポーネントがその複合ワードにおけるそれの位
置により必要とされる位置的特徴を持つた有効な複合ワ
ードを得るようその認識されたサブストリングと結合さ
れる。言語の語形論的特徴が考察される。
本発明の基本的な点は、各コンポーネントの位置的特徴
を考慮した組織的且つ効果的なワード分析アルゴリズム
の多重適用および有効な位置的特徴を持つたコンポーネ
ントを得るために単純なワードに対するスペリング援助
の使用により、誤つてつづられた複合ワードを分析する
ことである。
E.実施例 複合ワードのスペリング検証に関する初期の作業は複合
ワードのスペリング援助に適合した辞書の基本的特徴を
与えた。辞書はワードのリストより成り、各ワードはそ
のワードが(1)独立コンポーネント、(2)複合ワー
ドのフロント(前部)・コンポーネント、(3)複合ワ
ードの中間コンポーネント、(4)複合ワードのバツク
(後部)・コンポーネント、であるかを表わすコードと
関連づけられる。これら4つの属性は独立しているの
で、15の可能なコードのいずれかが1つの辞書ワードと
関連づけられ、それの複合特性を表わす。これらのコー
ドに加えて、言語依存の変形を指定するために種々のコ
ード・セツトが使用可能である。
このコード化体系の重要点は、接頭辞又は接尾辞であつ
て独立のワードではないいくつかのワードを含むことで
ある。このようなワードは適正な複合ワードの構造部分
を除いて援助候補として与えられない。このようなワー
ドの例は接頭辞“un"(例えば、unknown)、接頭辞“ne
ss"(例えば、brightness)、ドイツ語の挿入辞“ge"
(例えば、aufgerufen)である。
特定のシーケンスで結合される時に変更されるワードは
異つた形で辞書に入れられる。このようなワードはフー
ゲン文字(結合形態素)即ちいくつかのワード膠着の接
合点で挿入される文字シーケンスの発生によつて作られ
る。例えば、ドイツ語で独立コンポーネント又はバツク
・コンポーネントとなり得るワード“Achtung"はそれが
フロント又は中間コンポーネントとして使用される時に
はワード“Achtungs"に変形される。これらの結合形態
素(この場合は、“s"を持つたワードを辞書に包含する
ことは解複合処理の信頼性およびその速度の両方を改良
するものである。
(イ)複合ワードの分解 1つの複合ワードの各コンポーネントの識別はワード検
証およびスペリング援助の実施のためには最も重要なス
テツプである。ワードの分解は複合ワードの初期サブス
トリングであるワードに対して辞書を調べることによつ
て始まる。各ワードが見つけられると、それがフロント
・コンポーネントであることを確認するためにその複合
属性がチエツクされる。もしそうでない場合、そのワー
ドは候補コンポーネントとして拒絶され、辞書における
探索が続く。候補の初期コンポーネントすべてが識別さ
れてしまうと、その複合ワードの残り部分が辞書に対し
て同じサブストリング一致手順を回帰的に行わされる
が、複合属性は中間又はバツク・コンポーネント(後者
は複合ワードの残り部分が辞書におけるワードと正確に
一致する場合だけ)のものでなければならない。
多くの不明瞭なケース(sun−sport、suns−pots)は辞
書に見られる複合属性に基づく分解処理によつて解決さ
れるであろうが、或るワードは2組以上の受付け可能な
コンポーネントを持つことがある。その処理は回帰的で
あり且つ辞書への一定のアクセスを必要とするので、1
つのワードを解複合するに必要とされるコンピユータ・
タイムは複合ワードの分岐の程度に依存する。その分岐
の程度は複合ワードの長さおよび辞書におけるコンポー
ネントの長さに比例する。分岐の程度および実行時間
は、フロント又は中間コンポーネントであつて且つ多く
のワードにおいてサブストリングとして多く見受けられ
る短いワードを辞書から除くことによつて減少可能であ
る。これらのワードを辞書から除くことは、かなり少数
の他のワードと結合して生ずるだけの短いワードにとつ
て実用的である。それはそのコンポーネントを含むすべ
ての複合ワードを辞書に加えることによつて達成され
る。
並列(juxtaposition)は複合ワードを作るための唯一
の方法というわけではない。前述のように、コンポーネ
ント間で結合形態素が生ずることがある。語句のエント
リとして結合形態素を持つたコンポーネントを含むこと
によつて、複合ワードの分解は同じ機構でもつて達せら
れる。しかし、挿入文字に加えて、或るドイツ語的言語
は複合の時コンポーネント・インターフエースにおける
文字を省略する。一般に、文字省略により形成されたワ
ードの分解は、辞書の検索で十分な辞書ワードが見つけ
られなかつた時にコンポーネント境界で適用される言語
特有の手順によつて達成される。或る言語では、文字省
略はインターフエースの前後の文字によつて厳密に定義
される。(例えば、ノルウエイ語およびスウエーデン語
では、接合点の前のコンポーネントが2つの同じ子音で
終り且つ接合点の後のコンポーネントが同じ子音で始ま
る場合、複合の時にこれらの1つがいつも省略され
る)。これはドイツ語でも、例えば、ワード“Schiff"
および“Fahrt"が結合されて“Schiffahrt"を形成する
時に生ずる。
或る言語では、文字省略は文法的従属性を持つている。
例えば、アフリカーンズ語は、結合形態素“s"に続いて
“s"で始まるもう1つのワードを含むワード形成のため
の文字省略構造を持つている。ドイツ語とは違つて、こ
れらワード形成のうちの或るものは複数を表わそうとす
る時に独立ワードとして生じ得るものである。解複合ア
ルゴリズムは適当なコードが辞書にある場合にそのよう
な文字省略に対処することができる。一旦その文字省略
が認識されると、複合ワードの残り部分が先行のコンポ
ーネントの最終文字で始まりそして正規のプロセスで継
続することを表示する必要があるだけである。
1つの複合ワードのコンポーネントの識別は、スペリン
グを検証する方法を与えるのみならず、正しくハイフン
接続することも可能にする。一般に、2つのコンポーネ
ントの境界でハイフン接続することが望ましく、そして
それら文字が文字省略された場合、それらを回復させる
ことが必要である。従つて、ワード“Schiffahrt"はそ
れがハイフン付加される時、追加の“f"が加えられて、
“Schiff−fahrt"となる。ワード分解から得られる情報
はそのワードに対する主要な分解点を与える。これらは
各ワード・コンポーネントに対して辞書で得られる内部
ハイフン付加点でもつて補われる。
(ロ)本発明の方法の概説 複合ワードのスペリング援助のための初期の原形は1つ
の複合ワードの誤つてつづられたコンポーネントの始め
および終りをユーザに識別させ、然る後コンピユータ・
システムが他の任意の分離したワードに関して置換候補
を与えるものである。候補の1つを選択した時、コンピ
ユータ・システムは誤つてつづられたコンポーネントを
置換しそして正しい複合ワードを構成した。システムは
それの人的要素が不十分であるため扱い難いものであつ
た。
十分に自動化されたものは非複合ワードに対するスペリ
ング援助機構と同じ人的インターフエースを持つという
利点を有する。そのスペリング援助のアルゴリズムはそ
れがコンポーネントを識別する必要があるため解複合ア
ルゴリズムを使用する。それで3つのフエーズで進行す
る。まず、1つの複合ワードの未知コンポーネントがそ
の未知コンポーネントに先行又は後続するコンポーネン
トを指定することによつて識別される。次に、スペリン
グ援助が呼出され、その未知コンポーネントに最も類似
する正しいつづりのワードのリストを検索する。最後
に、フロント・コンポーネント、スペリング援助リスト
からの候補置換およびバツク・コンポーネントを使つて
最適の複合ワードが発生される。
更に詳しくいえば、第1フエーズは、矛盾があるかどう
かワード属性をチエツクしながら、複合ワードの初期サ
ブストリングであるワードを辞書で見つけることによつ
て始まる。そのアルゴリズムは、起り得るコンポーネン
ト接合点における文字省略パターンを考慮するために言
語特有の語形論上の変形を使用する。しかし、未知コン
ポーネントに遭遇すると、解複合アルゴリズムは終了す
るが、援助アルゴリズムは更に続く。それは複合ワード
の残り部分の1文字をスキツプし、辞書に対してサブス
トリング比較手順を試みる。これが成功しない場合、も
う1つの文字がスキツプされ、そしてバツク・コンポー
ネントがみつかるか或いはそれ以上の取扱うべき文字が
なくなるまで、残りのストリングが処理される。
従つて、第1フエーズは、0又は1以上のコンポーネン
トより成るストリングが先行又は後続する1つの未知コ
ンポーネントを分離する。先行のストリングがコンポー
ネントを持たない場合、未知コンポーネントは複合ワー
ドの始まりにある。バツク・ストリングがコンポーネン
トを持たない場合、未知コンポーネントは複合ワードの
終りにある。さもなければ、それは複合ワード内に組込
まれる。
第2フエーズはアーギユメントとして未知コンポーネン
トを持つた単純ワードに関して通常のスペリング援助を
使用する。スペリング候補およびそれらの対応する複合
属性のリストは辞書から得られる。
第3フエーズは複合フラツグにより表わされた拘束事項
に合致した複合ワードを発生し、その結果生じた複合ワ
ードはストリング類似性測定法を使つて入力ワードに並
べられる。この方法により並べられた複合ワードのリス
トがユーザに与えられる。
(ハ)複合ワード・スペリング援助プログラム この項では、複合ワードに対するスペリング援助を行う
ために使用されるアルゴリズムの詳細を説明する。ドイ
ツ語に対するいくつかの言語特有の特徴がこのアルゴリ
ズムに含まれている。
ステツプ1:入力ワード(それに対するスペリング援助が
要求されているもの)を調べ、そのワードが正しくつづ
られているかどうかを判定する。それが肯定されれば、
メツセージを表示する。
ステツプ2:入力ワードに対する単純なスペリング援助を
呼出し、候補およびそれらの良好指数を得る。この指数
が少くとも1つの候補に対して指定の範囲内にある(そ
の候補と入力ワードとの間に非常に良好な調和がある)
場合、それら候補を表示する。
ステツプ3:上限および下限(予めセツトされた)に対す
る入力ワードの長さをチエツクする。長さがその範囲外
である時、単純なスペリング援助候補を表示する。それ
ら候補がない場合、メツセージを表示する。
ステツプ4:入力ワードの第1文字を大文字におよび他の
すべての文字を小文字に変更する。この時点から先は、
これは“入力ワード”と考えられる。
ステツプ5:入力ワード(今や大文字の第1文字を有す
る)をそれが有効複合ワードであるかどうかを知るため
に調べる。入力ワードが有効複合ワードである場合、そ
のワードを候補リストに入れ、最後のステツプヘ進む。
ステツプ6:入力ワードを調べる。それが必要な文字省略
(elision)を除いて正しくつづられている場合、必要
とされる文字省略を行い、そのワードを候補リストに入
れ、最後のステツプへ進む。
ステツプ7:入力ワードをそれの最後の文字を除いて調べ
る。それが正しくつづられている場合、そのワードを候
補リストに入れ、最後のステツプへ進む。
ステツプ8:入力ワードをそれの最後の文字を除いて調べ
る。それが必要な文字省略を除いて正しくつづられてい
る場合、必要とされる文字省略を行い、そのワードを候
補リストに入れ、最後のステツプへ進む。
ステツプ9:入力ワードを辞書と比較し、1つ又はそれ以
上の有効なコンポーネント・シーケンスを含むすべての
可能な初期ストリングを得る(これらは「フロントワー
ド」と呼ばれる)。
ステツプ10:ステツプ9の結果として得られたフロント
ワードを選択する。
ステツプ11:1つ又はそれ以上の有効なコンポーネント・
シーケンスを含むすべての可能な末尾ストリングを得る
(これらは「バツクワード」と呼ばれる)。これは入力
ストリングの残りに関して有効な検証が得られるまで文
字のステツプを含むものである。
ステツプ12:第1のバックワードを選択し、フロントワ
ード・バツクワードの対を形成する。
ステツプ13:フロントワード・バツクワードの対によつ
て区切られた文字(これは未知コンポーネントである)
に対して単純なスペリング援助を呼出す。スペリング援
助から得られた候補は「援助ワード」と呼ばれる。
ステツプ14:未知のワードが予めセツトされた最小長よ
りも小さく且つフロントワードおよびバツクワードとも
無効でない場合、フロントワードおよびバツクワードを
連結させ、良好指数を得て、候補リストに記入する。フ
ロントワード又はバツクワードのいずれかが無効である
場合、ステツプ16へ進む。未知のワードが最小長に等し
いか又はそれを越える場合および援助ワードがみつから
ない場合、ステツプ16へ進む。さもなければ、次のステ
ツプへ進む。
ステツプ15:フロントワード、各援助ワードおよびバツ
クワードを連結させ、各々に対する良好指数を評価し、
候補リストに記入する。
ステツプ16:未知のワードがそれの第1文字として文字
省略文字を既に持つている場合、ステツプ18へ進む。
ステツプ17:文字省略の可能性に関してフロントワード
・未知のワードの接合点を調べる。この可能性がある場
合、その省略された文字を回復させる必要があり、その
修正されたワードに関してステツプ13−16を繰返えす。
この可能性がない場合、次のステツプへ進む。
ステツプ18:このフロントワードに対するもう1つのバ
ツクワードがある場合、新しいフロントワード・バツク
ワードの対を形成し、ステツプ13−18を繰返えす。さも
なければ、次のステツプへ進む。
ステツプ19:もう1つのフトントワードがある場合、こ
のフロントワードに対してステツプ11−19を繰返えす。
ステツプ20:候補が見つからない場合および入力ワード
の最初の2文字がケース(大文字又は小文字)を除いて
同じである場合、入力ワードの第2文字を除去し、ステ
ツプ5−20を繰返えす。(これはスペリング援助が要求
されている元のワードの最初の2文字に対してのみ行わ
れる。これが一旦行われると、繰返えしはない)。
ステツプ21:必要な文字省略に対するすべての候補を調
べ、言語により必要とされるようにそれらを作る。
ステツプ22:単純なスペリング援助又は複合スペリング
援助から候補が得られない場合、メツセージを表示す
る。さもなければ、良好指数により等級づけられた候補
を表示する。
(ニ)結果の検討 スペリング援助アルゴリズムはそれの付属手順の性能に
依存する。それは、特に解複合手順、単純ワードに対す
るスペリング援助手順および辞書に記憶された複合化に
対するコードによつて影響される。解複合手順に関して
は、タイプIエラー(正しくつづられたワードにフラツ
グをつける)およびタイプIIエラー(誤つてつづられた
ワードにフラツグをつけない)が見られたが、エラー率
はそのプロセスに固有の他のいつくかの制限に比べて小
さい。
ハイフン接続に関しては、結果は極めて満足すべきもの
であつた。見つけられた唯一の制限は複合ワードの多重
分解の可能性であつた。(例えば、ドイツ語の“Staube
cken"は“Stau+Becken"又は“Staub+Ecken"に分解可
能である)。
複合ワードに関しては、スペリング検査およびハイフン
接続は基本的には分析手順であるが、スペリング援助は
複合ワード合成を扱つている。従つて、発生されたワー
ドの適合性を判断するには、統語上のおよび意味上の基
準を使う必要がある。想像されるように、複合ワード・
スペリング支援は正しい置換候補を見つける効率に関し
ては単純ワードに対するスペリング援助よりも低いが、
後者に比べて更に重要なことはそれが意味的には無意味
な置換候補を発生し得ることである。(例えば、“chur
ch−goer"は意味があるが、“kitchen−goer"は意味が
ない)。
そのアルゴリズムは大量のドイツ語のテスト文献から取
出された約225個のつづり誤りのあるドイツ語複合ワー
ドに関してテストされた。これらのつづり誤りのワード
のうち、約85%は2つのコンポーネントを持ち、14%は
3つのコンポーネントを持ち、1%は4つのコンポーネ
ントを持つていた。候補として発生されたワードの分析
はその結果が単純ワードに対するスペリング援助(単純
援助)の効率に完全に依存することを示した。複合ワー
ドの未知コンポーネントに対して正しい候補が発生され
なかつた場合、正しい複合ワードを発生することは可能
ではなかつた。更に、単純援助により与えられた候補の
いくつかが辞書では適当な複合属性を持つている時、意
味のない複合ワードが発生され、構造的に不適当なもの
であつた。それらの結果は次のように量化された。即
ち、単純援助がYのうちの正しい候補Xを持つたリスト
を与えた場合、複合スペリング援助はほぼその比率の2
乗(即ち、(X/Y)2)の正しい候補を与えた。意味のな
い候補の数は、ドイツ語に関してワード処理の分野では
許し難いものであるけれども、かなり大きいものであつ
た。
出力候補を更に調べると、意味のないワードのうち重要
な形は、複合ワード・コンポーネントでもあるその言語
に良く見受けられる短かい文字シーケンスの発生のため
(例えば、ドイツ語の“ges")元のワードよりも多くの
コンポーネントを持つていることが示された。しかし、
このような候補は、それらの効果尺度が悪い(入力ワー
ドに対する類似性が低い)ため、候補リストの終末部で
生じた。
アルゴリズムはこれらの結果に基いて修正された。第1
ステツプとして、置換候補におけるコンポーネントの数
に関する制限が設けられた。その数は複合ワードの長さ
の関数である。置換候補を発生するのに必要とされる良
好指数に関しても更に制限が課せられた。結局、プログ
ラムにより与えられる候補の最大数は減少した。これら
の改良の結果、意味的には無意味の候補の数は複合ワー
ド・スペリング援助機能の効率に実用上の影響を与える
ことなく20%以上も減少した。
(ホ)動作の更に詳しい説明 本発明は種々の言語における複合ワードに対してスペリ
ング援助を与えるための技法である。基本的なケースに
対する技法は次の4つの部分から成る。
(1).スペリング援助が要求された複合ワードの分析 a.前述の解剖アルゴリズムを使つて、是認し得る位置的
特性(複合フラツグとも呼ばれる)を持つた非複合ワー
ドにより形成された有効なフロント・サブワードを見つ
ける。
b.前述の解剖アルゴリズムを使つて、是認し得る位置的
特性(複合フラツグとも呼ばれる)を持つた非複合ワー
ドにより形成された有効なバツク・サブワードを見つけ
る。
c.フロント・サブワードおよびバツク・サブワードの間
の文字から形成された文字ストリングによつて形成さ
れ、更にその言語がこの特性を持つ場合にはこのサブス
トリングにフロント文字を加えることにより形成された
サブワードを得る。
(2).上記(1)cで得られたサブワードに対する置
換候補を見つけ、このサブワードを単純ワードとして取
扱い、このサブワードに必要な位置的特性を考察して満
足させ、調和の良さに関してこれら候補を評価し、語形
論的および音標的基準に従つて最良の候補を選択する。
(3).上記(1)aで得られた前部サブワード、上記
(2)で得られた単純ワード候補および上記(1)bで
得られた後部サブワードの連結によつて複合ワードに対
するスペリング援助候補を形成する。
(4).上記(3)の各候補に対する調和の良さを評価
し、最良の候補を選択する。
註:特に、(1)aのフロント・サブワード又は(2)
のバツク・サブワードのどちらか(両方ではない)が無
効(unll)ワードっであつてもよい。即ち、フロント・
サブストリング又はバツク・サブストリングのどちらか
が存在しないケースは上記の技法によつてカバーされ
る。
可能なフロント・サブワードおよびバツク・サブワード
を得るために使用される解剖アルゴリズムはトリーのプ
レオーダ(pre−order)走査に基いており、米国特許出
願25041号に開示されている。その解剖アルゴリズムは
前述の技法を通して繰返し使用される。
例えば、英文“installations for repair of snow rem
oving equipment"を考えると、ワード複合化を使う言語
では、これは次のようになる。
“snowremovingequipmentrepairinstallations"このワ
ードが次のようにつづりを誤つていたものと仮定する。
“snowremovingequopmentrepairinstallations" 第1文字および第2文字から始めると、フロント・サブ
ワードに関して第2図のツリーが得られる。バツク・サ
ブワード“snow"、“snowremoving"、“snowre"、“sno
wmoving"、“removing"、“re"、“moving"、“now"、
“nowre"、“nowremoving"、“nowmoving"がこれらツリ
ーから得られる。
フロント・サブワード“snowremoving"に関しては、解
剖アルゴリズムを、最初に入力されたワードの残り即ち
ストリング“equopmentrepairinstallations"、“quopm
entrepairinstallations"、“uopmentrepairinstallati
ons"等を連続して適用することによつて、可能な後部サ
ブストリングが得られ、第3図のツリーを得る。
バツク・サブワード“repair"、“repairinstallation
s"、“repairinstallation"等はこのツリーから得られ
る。フロント・サブワード“snowremoving"およびバツ
ク・サブワード“repairinstallations"に関しては、単
純ワード・スペリング援助アルゴリズムがサブストリン
グ“equopment"、“quopment"“uopment"、・・・・、
“equopmen"、“quopmen"、“uopmen"、・・・・等に関
して走らされる。従つて、その他のものの間では、単純
ワード候補“equipment"、“equip"、“quip"“meant"
が得られる。
従つて、フロント・サブワード“snowremoving"および
バツク・サブワード“repairinstallations"に対して
は、複合ワード・スペリング援助アルゴリズムはその他
のものの中から次の候補を生じる。
#1−“snowremovingequipmentrepairinstallations" #2−“snowremovingequiprepairinstallations" #3−“snowremovingquiprepairinstallations" #4−“snowremovingmeantrepairinstallations" このプロセスがフロントおよびバツク・サブストリング
の他の組合せに対しても繰返えされる。
例えば、フロント・サブストリング“snowremoving"お
よびバツク・サブストリング“repairinstallation"は
他のものから複合ワード・スペリング援助候補を発生す
る。
#5−“snowremovingequipmentrepairinstallation" #6−“snowremovingequiprepairinstallation" #7−“snowremovingquiprepairinstallation" #8−“snowremovingmeantrepairinstallation" フロント・サブストリング“nowremoving"を使つて、候
補#9〜#16が得られる。
#9−“nowremovingequipmentrepairinstallations" #10−“nowremovingequiprepairinstallations" #11−“nowremovingquiprepairinstallations" #12−“nowremovingmeantrepairinstallations" #13−“nowremovingequipmentrepairinstallation" #14−“nowremovingequiprepairinstallation" #15−“nowremovingequiprepairinstallation" #16−“nowremovingmeantrepairinstallation" 結局、それら候補は調和の良さに関してランクづけされ
る。第1の方法では、候補#1が最良であり(1文字の
置換)、#5および#9がそれに続く(1文字の置換お
よび1文字の削除)。
この方法は、スペリング援助されるべき複合ワードの中
間でも有効なサブストリングが見つけられる場合にも一
般化し得るものである。元のワードが次のようにつづり
誤りしている場合を考察する。
“snowrimuvingequipmentriloepairinstallations" この場合、得られるフロント・サブストリングは、“sn
ow"および“now"であり、中間の構成要素は“equipmen
t"、“equip"、“quip"および“men"であり、可能なバ
ツク・サブストリングは第4図のツリーから得られる。
見つけられたフロント・サブストリングと中間サブスト
リングとの間で前述のように形成されたサブストリング
に対しておよび見つけられた中間サブストリングとバツ
ク・サブストリングとの間で前述のように形成されたサ
ブストリングに対して、単純ワードスペリング援助が行
われる。そこで、複合ワード・スペリング援助候補が適
正に連結される。
上記の基本的な場合に関して、PL/1と同様の疑似コード
でプログラムすることができる。便宜上、このコードで
は次のような条件が与えられる。
1.見つけられたフロント・サブワードは、スペリング援
助されるべき又は“無効”ストリングとなる複合ワード
の第1文字でもつて始まらなければならない。
2.見つけられたバツク・サブワードは、スペリング援助
されるべき複合ワードの最後の文字又はその最後の文字
の前の文字で終らなければならず、最長のそのようなサ
ブワードでなければならない。最後の文字で終るバツク
・サブワードが見つかつた場合、最後の文字の前の文字
で終るバツク・サブワードに関するそれ以上のサーチは
行われない。
3.スペリング援助されるべき単純ワードは、見つけられ
たフロントおよびバツク・サブストリングの間のサブス
トリングによつて形成される。しかし、フロント・サブ
ワードの終りで文字挿入が起り得る場合、(例えばドイ
ツ語的な言語の語形論上の特徴)見つけられたフロント
およびバツク・サブストリングの間のサブストリングに
より形成された単純ワードに適正な文字を前置させるこ
とによつて次の単純ワードがされ、このワードに関する
単純ワード・スペリング援助候補が得られる。必要に応
じて、この前置はフロント・サブストリング、単純ワー
ド・スペリング援助候補、および複合ワード・スペリン
グ援助候補の形成のためのバツク・サブストリングの連
結中に除去される。
4.フロント・サブワード、バツク・サブワードおよび単
純ワード・スペリング援助を介してスペリング援助され
るべきワードは一定の最小数の文字を含まなければなら
ない。
擬似コードに関してこれらの条件を課することは本発明
の搬用性の制限と考えるべきものではない。特に、条件
4は、最小値が1にセツトされ得るので、完全に一般的
である。
第1図の流れ図を使つて本発明を更に詳しく説明する。
この流れ図の目的は1つの複合ワードにおける未知のコ
ンポーネントを識別することおよびその複合ワードの構
造内でスペリング候補を与えることである。ステージ10
1は一連のテキストから又はスペリング援助を要求する
プログラムから複合ワードを得る最初のステツプであ
る。この時点で、複合ワードのすべての初期コンポーネ
ントが辞書の参照によつて識別される。ステージ20で
は、一致しないままの文字があるかどうかを知るための
チエツクが行われる。完全な複合ワードが一致した場
合、それが正しいものとみなされ、ステージ25で終る。
そうでない場合、ステージ30において、フロント・コン
ポーネントが見つかつたかどうかを知るためのチエツク
が行われる。それが見つからなかつた場合、ステージ35
で未知のコンポーネントの開始が1にセツトされる。OR
IGは未知のコンポーネントの始めを識別するのに使用可
能なプログラムである。フロント・コンポーネントが見
つかつた場合、ステージ40においてORIGがそれらの長さ
に等しくセツトされる。ENDGは未知のコンポーネントの
終りを識別するもので可変である。ステージ50におい
て、それはまずORIGに等しくセツトされるが、認識可能
な後部コンポーネントが見つかるまで又は複合ワードの
終りが到達するまでのその後のステツプで増分される。
ステージ60は認識可能なバツク・コンポーネントの位置
を見つけようとしてENDGを増分する。ステージ70はバツ
ク・コンポーネントと一致するように十分な文字がその
複合ワードに残つていることを確認するためのチエツク
を行う。十分な文字が残つていない場合、ENDGがストリ
ングの終りを指すようにセツトされ、スペリング候補が
ステージ110に関して形成され、ステージ75で終る。ス
テージ80はENDGにより指示された位置から始まる何らか
の有効なバツク・コンポーネントを識別しようとして辞
書を引くものである。複合ワードの残り部分が完全に一
致しなかつた場合、有効なバツク・コンポーネントは見
つからず(ステージ90)、もう一つの文字をスキツプし
てもう一度試みるためにステージ60に戻る。ステージ10
0は有効なバツク・コンポーネントが見つかつた時に実
行される。この時点で、ORIGおよびENDGにより制限され
た未知のコンポーネントに対する一組のスペリング候補
が得られ、ステツプ110でそれらが前部およびバツク・
コンポーネントに組込まれ、一組の複合ワード・スペリ
ング候補を作り出す。それらの候補は、フロント・コン
ポーネント、候補およびバツク・コンポーネントを並置
することによつて形成される。適当な複合フラツグ、省
略、および結合文字に関するチエツクが行われる。プロ
セスはステージ60に戻ることによつて継続する。
(ヘ)結論 本発明はつづりの誤つた複合ワードに対する正しくつづ
られた候補を与えるための実用的な方法を与えるもので
ある。正しくつづられた候補に関するサーチのための臨
界的要件は次のようなことである。
1.つづりの誤つたワード内の各構成ワードの位置を考慮
して、複合ワードの正当なコンポーネントと成り得るす
べてのワードをそのつづりの誤つたワード内効果的に識
別すること。
2.可能な文字省略を考慮して、つづりの誤つた複合ワー
ド内で見つかつた可能な構成コンポーネント間のおよび
そのようなワードと識別されてない文字ストリングとの
間のすべての正当な結合の能率的な(即ち、速い動作、
少ない資源による)識別。
3.可能な正しくつづられた複合ワード候補内のそれら候
補の位置を考慮して、誤つてつづられたワード内で見つ
かつた可能な正当なコンポーネント間の文字ストリング
を置換するために単純ワード候補の能率的な(即ち、速
い動作、少ない資源による)識別。
4.有効な候補として与えるための正当な複合ワードを形
成する構成ワードの組合わせだけの能率的な識別。
本発明は次のようなものを使つてこれら正しくつづられ
た候補を与えるための実用的な方法を与える。即ち、一
組の受付け可能な接頭辞および接尾辞を持つた豊富な構
成ワード辞書、その辞書における各ワードに対する豊富
な量の複合フラツグ、誤つてつづられた複合ワード内の
構成ワードの位置を考慮してその誤つてつづられた複合
ワードに含まれた可能な正当な構成ワードを見つけるよ
うその誤つてつづられた複合ワードを調べるための能率
的な方法、可能なコンポーネント間の位置的な有効性に
関して各単純ワード候補を調べるための能率的な方法、
受付け不能なワード組合わせをえりわけるためにおよび
言語により必要とされる場合の文字省略を行うために複
合ワード候補を調べるための能率的な方法が使用され
る。
【図面の簡単な説明】
第1図は本発明による複合ワード・スペリング援助のた
めの流れ図、第2図はツリーの例を示す図、第3図は更
に複雑なツリーの例を示す図、第4図は第3のツリーを
示す図、である。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】入力装置、出力表示装置、及び複数のワー
    ドをエントリとして有する辞書データベースを含み、該
    辞書データベースの各エントリが複合ワードを形成する
    ときに他のエントリと結合する態様を示すコードと関連
    して貯蔵されているコンピュータを使用して、複合ワー
    ドにおけるスペリング・エラーのあるコンポーネントを
    識別し、該複合ワードの正しいスペリングの候補を表示
    するためのコンピュータによるスペリング援助方法にお
    いて、 テキストにおける1つの複合ワードをコンピュータへ入
    力させ、 入力された前記複合ワードのフロント・コンポーネント
    を辞書データベースにおける複数のエントリと比較し、
    複合ワードの初期サブストリングとなりうることを示す
    コードを有し且つ前記入力された複合ワードの初期サブ
    ストリングであるエントリのすべてを識別させ、 前記初期サブストリングの各々について前記入力された
    複合ワードの残余のサブストリングを識別して、前記初
    期サブストリングに続くサブストリングを保持させ、 前記残余のサブストリングの各々を辞書データベースに
    おける複数のエントリと比較し、該サブストリングが前
    記入力された複合ワード中で他のコンポーネントと結合
    されている態様と符合するコードを有するエントリのす
    べてを識別し、これを未知コンポーネントに対し適性あ
    る置換候補として指定させ、 前記入力された複合ワードの前記未知のコンポーネント
    を前記適性ある置換候補と置換することにより前記入力
    された複合ワードに対するスペリング援助の候補のリス
    トを生成し、これを前記出力表示装置に表示させる、 ことを特徴とする複合ワードのためのコンピュータによ
    るスペリング援助方法。
JP63062108A 1987-03-27 1988-03-17 複合ワードのためのスペリング援助方法 Expired - Lifetime JPH0727530B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US30793 1987-03-27
US07/030,793 US4873634A (en) 1987-03-27 1987-03-27 Spelling assistance method for compound words

Publications (2)

Publication Number Publication Date
JPS63254559A JPS63254559A (ja) 1988-10-21
JPH0727530B2 true JPH0727530B2 (ja) 1995-03-29

Family

ID=21856072

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63062108A Expired - Lifetime JPH0727530B2 (ja) 1987-03-27 1988-03-17 複合ワードのためのスペリング援助方法

Country Status (4)

Country Link
US (1) US4873634A (ja)
EP (1) EP0283685B1 (ja)
JP (1) JPH0727530B2 (ja)
DE (1) DE3866138D1 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5560037A (en) * 1987-12-28 1996-09-24 Xerox Corporation Compact hyphenation point data
US5167011A (en) * 1989-02-15 1992-11-24 W. H. Morris Method for coodinating information storage and retrieval
US5157759A (en) * 1990-06-28 1992-10-20 At&T Bell Laboratories Written language parser system
NL9101285A (nl) * 1991-07-23 1993-02-16 Oce Nederland Bv Inrichting en werkwijze voor het bepalen van gegevens van samengestelde woorden.
DE4135261C1 (ja) * 1991-10-25 1993-03-18 International Business Machines Corp., Armonk, N.Y., Us
US5625554A (en) * 1992-07-20 1997-04-29 Xerox Corporation Finite-state transduction of related word forms for text indexing and retrieval
US5867812A (en) * 1992-08-14 1999-02-02 Fujitsu Limited Registration apparatus for compound-word dictionary
JPH0877173A (ja) * 1994-09-01 1996-03-22 Fujitsu Ltd 文字列修正システムとその方法
US5940847A (en) * 1995-06-07 1999-08-17 Microsoft Corporation System and method for automatically correcting multi-word data entry errors
JP3272288B2 (ja) * 1997-12-24 2002-04-08 日本アイ・ビー・エム株式会社 機械翻訳装置および機械翻訳方法
US6424983B1 (en) 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
US6760887B1 (en) 1998-12-31 2004-07-06 International Business Machines Corporation System and method for highlighting of multifont documents
US7031002B1 (en) 1998-12-31 2006-04-18 International Business Machines Corporation System and method for using character set matching to enhance print quality
US6718519B1 (en) 1998-12-31 2004-04-06 International Business Machines Corporation System and method for outputting character sets in best available fonts
US7103532B1 (en) 1998-12-31 2006-09-05 International Business Machines Corp. System and method for evaluating character in a message
US6813747B1 (en) 1998-12-31 2004-11-02 International Business Machines Corporation System and method for output of multipart documents
US6539118B1 (en) 1998-12-31 2003-03-25 International Business Machines Corporation System and method for evaluating character sets of a message containing a plurality of character sets
US7039637B2 (en) 1998-12-31 2006-05-02 International Business Machines Corporation System and method for evaluating characters in an inputted search string against a character table bank comprising a predetermined number of columns that correspond to a plurality of pre-determined candidate character sets in order to provide enhanced full text search
US7191114B1 (en) 1999-08-27 2007-03-13 International Business Machines Corporation System and method for evaluating character sets to determine a best match encoding a message
US6626960B1 (en) * 1999-09-01 2003-09-30 International Business Machines Corporation Method, system, and program for generating a table to determine boundaries between characters
US6671856B1 (en) 1999-09-01 2003-12-30 International Business Machines Corporation Method, system, and program for determining boundaries in a string using a dictionary
GB2355554A (en) * 1999-10-21 2001-04-25 Int Computers Ltd Searching for items in an electronic catalogue
US6556973B1 (en) * 2000-04-19 2003-04-29 Voxi Ab Conversion between data representation formats
SE519636C2 (sv) * 2000-07-06 2003-03-25 Hapax Information Systems Ab Förfarande och anordning för analys av sammansatta ord
US20040205675A1 (en) * 2002-01-11 2004-10-14 Thangaraj Veerappan System and method for determining a document language and refining the character set encoding based on the document language
US20040030540A1 (en) * 2002-08-07 2004-02-12 Joel Ovil Method and apparatus for language processing
JP4001283B2 (ja) * 2003-02-12 2007-10-31 インターナショナル・ビジネス・マシーンズ・コーポレーション 形態素解析装置および自然言語処理装置
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
TW200823813A (en) * 2006-11-30 2008-06-01 Inventec Corp Method and apparatus for learning english vocabulary and computer accessible storage media to store program thereof
US8630841B2 (en) 2007-06-29 2014-01-14 Microsoft Corporation Regular expression word verification
CN102859515B (zh) * 2010-02-12 2016-01-13 谷歌公司 复合词拆分
WO2012170817A1 (en) * 2011-06-10 2012-12-13 Google Inc. Augmenting statistical machine translation with linguistic knowledge
US8713433B1 (en) 2012-10-16 2014-04-29 Google Inc. Feature-based autocorrection
US8612213B1 (en) 2012-10-16 2013-12-17 Google Inc. Correction of errors in character strings that include a word delimiter
CN103870537B (zh) * 2013-12-03 2017-02-01 山东金质信息技术有限公司 一种标准检索智能分词方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2555792A1 (de) * 1975-12-11 1977-06-23 Eichhorn Friedrich Prof Dr Verfahren zur qualitaetssicherung der schweissverbindungen beim elektrischen widerstandspunktschweissen
JPS5335434A (en) * 1976-09-13 1978-04-01 Lexicon Corp Information processor
US4342085A (en) * 1979-01-05 1982-07-27 International Business Machines Corporation Stem processing for data reduction in a dictionary storage file
JPS5657168A (en) * 1979-10-16 1981-05-19 Canon Inc Word display system of language learning machine
US4355371A (en) * 1980-03-25 1982-10-19 International Business Machines Corporation Instantaneous alpha content prescan method for automatic spelling error correction
US4471459A (en) * 1981-09-30 1984-09-11 System Development Corp. Digital data processing method and means for word classification by pattern analysis
US4499553A (en) * 1981-09-30 1985-02-12 Dickinson Robert V Locating digital coded words which are both acceptable misspellings and acceptable inflections of digital coded query words
US4597057A (en) * 1981-12-31 1986-06-24 System Development Corporation System for compressed storage of 8-bit ASCII bytes using coded strings of 4 bit nibbles
US4453217A (en) * 1982-01-04 1984-06-05 Bell Telephone Laboratories, Incorporated Directory lookup method and apparatus
JPS6126176A (ja) * 1984-07-17 1986-02-05 Nec Corp 言語処理用辞書
US4701851A (en) * 1984-10-24 1987-10-20 International Business Machines Corporation Compound word spelling verification
US4672571A (en) * 1984-10-24 1987-06-09 International Business Machines Corporation Compound word suitability for spelling verification
US4777617A (en) * 1987-03-12 1988-10-11 International Business Machines Corporation Method for verifying spelling of compound words

Also Published As

Publication number Publication date
DE3866138D1 (de) 1991-12-19
EP0283685B1 (en) 1991-11-13
EP0283685A3 (en) 1988-11-23
US4873634A (en) 1989-10-10
EP0283685A2 (en) 1988-09-28
JPS63254559A (ja) 1988-10-21

Similar Documents

Publication Publication Date Title
JPH0727530B2 (ja) 複合ワードのためのスペリング援助方法
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
KR100594512B1 (ko) 지식 창조 능력을 가지는 문서 의미 분석/선택 시스템 및그 방법
US8015175B2 (en) Language independent stemming
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
US5680628A (en) Method and apparatus for automated search and retrieval process
US6466901B1 (en) Multi-language document search and retrieval system
US8280721B2 (en) Efficiently representing word sense probabilities
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
Naseer et al. Assas-Band, an affix-exception-list based Urdu stemmer
JP3231004B2 (ja) データベースアクセス装置およびその方法
EP0316743B1 (en) Method for removing enclitic endings from verbs in romance languages
Pouliquen et al. Automatic construction of multilingual name dictionaries
KR20170107808A (ko) 원문문장을 번역 소단위들로 분할하고 소번역단위들의 번역어순을 결정하는 번역어순패턴 데이터 구조, 이를 생성하기 위한 명령어들을 저장한 컴퓨터 판독가능한 저장매체 및 이를 가지고 번역을 수행하는 컴퓨터 판독가능한 저장매체에 저장된 번역 프로그램
JP2002503849A (ja) 漢字文における単語区分方法
JP3139658B2 (ja) 文書表示方式
US20040054677A1 (en) Method for processing text in a computer and a computer
EP3203384A1 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
JP3419748B2 (ja) 辞書作成装置および方法と辞書作成プログラムを記録した記録媒体
JPH10177575A (ja) 語句抽出装置および方法、情報記憶媒体
Angkawattanawit et al. Thai Q-Cor: integrating word approximation and soundex for Thai query correction
Yunus et al. Analysis of translated query in Quranic Malay and English translation documents with stemmer
Frisch et al. Spelling assistance for compound words
Lebbos Arabic information extraction methods a survey
Ruch Information retrieval and spelling correction: an inquiry into lexical disambiguation