JPH0454261B2 - - Google Patents

Info

Publication number
JPH0454261B2
JPH0454261B2 JP62259880A JP25988087A JPH0454261B2 JP H0454261 B2 JPH0454261 B2 JP H0454261B2 JP 62259880 A JP62259880 A JP 62259880A JP 25988087 A JP25988087 A JP 25988087A JP H0454261 B2 JPH0454261 B2 JP H0454261B2
Authority
JP
Japan
Prior art keywords
dictionary
input
keyword
storage area
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62259880A
Other languages
English (en)
Other versions
JPS63157262A (ja
Inventor
Zamora Antonio
Mitsucheru Zamora Erena
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPS63157262A publication Critical patent/JPS63157262A/ja
Publication of JPH0454261B2 publication Critical patent/JPH0454261B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Description

【発明の詳細な説明】
A 産業上の利用分野 本願で開示する本発明は、広義ではデータ処理
に関し、具体的にはデータ処理の言語アプリケー
シヨンに関する。 B 従来技術 テキスト処理ワード処理システムは、独立型ア
プリケーシヨン用のものと分散処理アプリケーシ
ヨン用のものが開発されてきた。テキスト処理お
よびワード処理という用語は、本明細書では、書
込みテキストを構成する英数字文字ストリングの
作成、編集、通信または印刷あるいはそれらの組
合せに主として使用されるデータ処理システムを
示すものとして同義的に使用する。ワード・プロ
セツシング用の特定の分散処理システムが、1985
年9月30日に出願された同時係属の米国特許出願
番号第781862号に開示されている。それは、本発
明がその中で適用できる上位システムの例であ
る。 これまでの論文では、特定のミススペル・ワー
ドに対して最もよく適合する候補ワードのリスト
を見つけるために検査する必要のある候補ワード
の数を減らすための手順が記載されている。ある
技術では長さが1文字分以下しか異なつていず、
同じ頭文字をもつワードだけを調べる。別の技術
では、辞書の各ワードにそのワードの文字の混同
性に基づいた大きさの値を割り当てるベクトル取
出し手法を使用し、ミススペル・ワードの特定の
大きさ範囲内のワードだけを検索する。これらの
技術は、標準的オフイス環境で性能を向上させる
ために曖昧な文字または無言の第1文字の2重指
標づけによつて補完されてきた(たとえば、
PHONOGRAPHを“P”と“F”の項に登録
し、KNIGHTを“K”と“N”の項に登録す
る)。 こうしたスペリング支援技術とは別に、文字ス
トリング間の類似性を決定する統計方法が開発さ
れ、集積回路として実施さえされている。
SOUNDEXシステムなどの方法は類似した音声
特性をもつクラスタ名に使つて候補フアイル・エ
ントリーを作成し、それを後で手でふるい分けし
て検索が行なわれてきた。 C 発明が解決しようとする問題点 これらの方法は候補ワードのセツトをもたらす
が、それらは言語の形態的および音声的成分を統
合しない。そのため、それらが作成する候補は不
適切で、ありそうもない順序でランク付けされる
ことがある。 本発明の目的は、ワード・ストリングの類似性
をランク付けして入力ワードのスペルの誤りがな
いようにする改良された技術を提供することにあ
る。 D 問題点を解決するための手段 これらの目的は、本明細書に開示されたワード
の類似性をランク付けする形態的音声的方法によ
つて実現される。同義語生成、言語学的分析、文
書の特徴付けなど多様な辞書アプリケーシヨンに
適用できる、ワード類似性をランク付けするため
のコンピユータによる方法を開示する。この方法
は、入力ワード・ストリングを、文字の重複化、
子音/母音の転位、子音/子音の転位など、入力
ワードのいくつかのタイプの誤りがあつても変化
しないキー・ワードに変形することに基づいてい
る。特定のマツピング技術は、その後のランク付
け手順中に検出できる類似性をもつキーを生成す
る形態的マツピングである。このマツピングは、
入力ワードの独自の子音が元来の順序で並び、そ
の後に入力ワードの独自の母音が同様に元来の順
序で続くように定義される。こうして、生成され
たキーは、子音/母音の転移または文字の重複が
あつても変化しない。キーの子音をアルフアベツ
ト順に並べ、その後にキーの母音をアルフアベツ
ト順に並べると、キーの有用性がさらに改良され
る。こうして生成されたマツピングは、子音/子
音の転位ならびに子音/母音の転位および文字の
重複によつて変わらない。次いで、類似性の複合
測度を利用してキー・ワードをランク付けするラ
ンク付け技術を適用する。まず、入力誘導キー・
ワードを辞書誘導キー・ワードに変換するのに必
要な基本処理の数を測定し(その数が多いほど、
ワードの類似性は低くなる)、次に突き合わされ
る各キー・ワード対の同一文字セグメントの長さ
を測定する(その長さが長いほど、類似性は高く
なる)ことによつて、辞書誘導キー・ワードに対
する入力ワードの類似性をランク付けするスコ
ア・システムが開発されている。このシステムは
入力ワードのミススペルを無視する。 本発明の顕著な特徴は:(1)ストリングの類似性
の織別に特に価値がある形態的キーの選択、(2)ワ
ードの類似性の基準として2つのワードの形態的
キー・セツトと音声的キー・セツト間の最小距離
測定値の使用である。このことは、2つのワード
を類似させる特徴が、こうした特徴が形態的であ
るかそれとも音声的であるかに関係なく考慮され
ることを意味している。 E 実施例 ミススペル・ストリングまたは音声ストリング
がある場合、辞書から獲得できる最も関連のある
候補は最も低い音声上のまたは形態上の特性をも
つものであることが判明している。2つのストリ
ングの間の近似性の決定は、第1図に示すように
行われる。すなわち、第1図において、比較すべ
き2つのストリングS1、S2が、それぞれステツ
プ1,2で用意される。例えば、S1は、辞書記
憶域内の辞書ワードであり、S2は、入力された
文字ストリングである。2つのストリングS1、
S2は、それぞれステツプ2,4でマツピングさ
れ、ステツプ5,6でのキーワードK1,K2とし
て用意される。こうして用意された2つのキーワ
ードK1,K2は、ステツプ7で類似性のランキン
グ付けをされる。 マツピング マツピングとは、1つのストリングを他の表現
(「キー」と呼ばれる)に変形する過程のことであ
る。本発明では、3つの重要なマツピングの型式
を認める。(1)空マツピングとはあるストリングを
変更することなく複写することである。(2)形態的
マツピングとはあるストリングをその構造上の特
性に基づいて変形するものである。(3)音声的マツ
ピングとは、入力ストリングの成分によつて表わ
される音に基づいて実行するものである。類似性
のランク付け手順は、これら3つのどのマツピン
グによつて作成されたキーにも適用できる。 マツピングの意味 マツピング変形は、本発明で記載する類似性測
定の基礎的原理を変更せずに、文字の表現方法を
変更する可能性がある。英字を表わすのに使用さ
れるコンピユータ・コードはASCII、EBCDICま
たは他の内部コードに応じて異なる。しかし、基
本的に不変なのは、ワードを表わす文字を子音ま
たは母音に区分する方法である。母音は、
“AEIOU”、文字“Y”および、それらの文字に、
多くの欧州言語で使用されている鋭アクセント記
号(´)、抑アクセント記号(`)、曲アクセント
記号(^)鼻音化記号(〜)、分音記号(¨)そ
の他の区別記号のついた表記を含む。ノルウエー
語のスラツシユ付きのO(φ)や合字“AE”()
または“OE”()などの文字も母音と考えられ
る。子音は英語のアルフアベツトの残りの文字、
スペイン語のテイルドつきN(n)、フランス語
のセデイーユ(〓)、アイスランド語のソーン文
字(〓)およびスラツシユつきのD(〓)を含む。
ギリシヤ文字およびキリル文字のセツトでは、母
音は有声文字に関連するものであり、残り文字は
子音である。 マツピングはある文字列に対する処理のセツト
として指定でき、元のストリングに類似している
または類似していない新しい文字列が得られる。
処理セツトは、(母音など)文字のいくつかのラ
ンク付けの選択およびそれらの再配置に関するも
のも、また文字列を文字、音声コード、コンピユ
ータ・コードなどの他の列へ変形することに関す
るものもある。こうした変形は、特殊または一般
的な「書直し規則」として表現できる。規則
“SS”→“S”は特定のストリング“SS”が
“S”で置き換えられられることを示しており、
“##”→“#”などの規則は隣接するすべての
重複文字を単一文字で置き換えることを示す。 形態的マツピング 形態的マツピングの目的は、入力ストリング中
の、文字の重複などある種の型式の誤りがあつて
も変化しないキーを作成することである。こうし
た各種変形のキーは、ランク付け手順中に検出さ
れる類似声を有する。 例 1 入力中の固有の子音がその元の順序に並び、そ
の後に固有の母音が同様に元の順序で続くように
マツピングを定義する場合、次に示すキーが作成
される。 入力ストリング キー DETERMINE DTRMNEI DETREMINE DTRMNEI DETERRMINE DTRMNEI DETEMRINE DTMRNEI 生成されたキーから分かるように、このマツピ
ングは子音/母音の転位または文字の重複があつ
ても同じキーを生成するが、子音/子音の転位が
あると異なるキーを作成する。 例 2 入力中の固有の子音がアルフアベツト順に並
び、その後に固有の母音が同様にアルフアベツト
順に続くようにマツピングを定義する場合、次に
示すキーが作成される。 入力ストリング キー DETERMINE DMNRTEI DETREMINE DMNRTEI DETERRMINE DMNRTEI DETEMRINE DMNRTEI このマツピングは子音/母音の転位、子音/子
音の転位および文字の重複によつて変わらない。 音声的マツピング 音声的マツピングは類似の音声に対して変化し
ないキーを作成する。音声的キーは、テキスト−
会話規則の適用によつて入力ストリングから構成
できる。さらに、発音の精度を低下することによ
つて、類似の音声を共有するワードのセツトを増
加させることができる。1対多および多対1マツ
ピングの両方とも実行できる(たとえば、“X”
→“KS”や“PH”→“F”)。マツピング手順は
様々な方法で実現され、無音文字を検出し除去す
ることができる。 例 3 “CC”は“KS”を生成し、“X”は“KS”を
生成し、“CE”は“SE”を生成し、他の文字は
自分自身にマツプされ、すべての重複文字は単一
文字に還元されるようにマツピングを定義する。 入力ストリング キー ACCESS AKSES AXES AKSES EXCESS EKSES ワード“EXCESS”は簡単な置換によつて中
間の“EKSSESS”を生成し、最後に重複文字を
取り除いた後キー“EKSES”となる。 類似性のランク付け 2つのストリングの間の類似性とは、あるスト
リングを別のストリングに変換するのに必要な処
理として測定できる特性である。4種の基本処理
がストリングの変換に使用である。すなわち、置
換、転位、挿入および削除である。ストリング
“ABCD”は2つの異なる置換によつてストリン
グ“ABXX”に、最初の2文字の転位によつて
“BACD”に、1文字の削除によつて“ABD”
に、1文字の挿入によつて“ABXCD”に変換さ
れる。転位は1つの削除と1つの挿入から成るも
のと考えてもよいが、一般には1つの基本処理と
考えられている。 あるストリングを別のストリングに変換するの
に必要な基本処理の数(NBO)は、一方のスト
リングの文字を他方のストリングに対して反復し
て検査することによつて、得ることができる。文
字が異なる場合、同じ文字が見つかるまで走査を
続けることによつて、誤りが置換、挿入、削除ま
たは転位の1つであるかどうかを決定することが
できる。比較される文字が再び同期されるとき、
最短ストリングの終端に到達するまで処理を繰り
返し、長い方のストリングに文字が残つている場
合、それは挿入誤りと考えられる。 ストリングの類似性のもう一つの測度は、それ
らの共通サブストリングの長さである。すなわ
ち、ストリング“PERFORMACE”とワード
“PERFORMANCE”は、長さ8
(“PERFORMA”)の1つの共通サブストリング
と長さ2(“CE”)の他のサブストリングをもつ。
ワード“PERFORMABLE”は、ストリング
“PERFORMACE”と長さ8および長さ1のサブ
ストリングが共通している。加重係数を共通サブ
ストリング長さと関連付け、可能な最大値に対し
て正規化することによつて、不等部分の断片化と
位置を表わすスコア機能を設計できる。これによ
つてストリング“PERFORMANCE”、
“PREFORMANCE”、“PERFROMANCE”な
どの類似性のランク付けができる。 2つのストリングで発生する共通サブストリン
グに基づく類似性の一つの測度は、次のように構
成できる。X1+X2…≦最小(L1,L2)となるよ
うに長さX1,X2,…の共通サブストリングを含
む長さL1とL2の2つのストリングがある場合、
それらの類似性の測度(M)は、サブストリング
長さの2乗を合計し、L1またはL2のどちらか小
さい方の2乗で割り、1からその商を引くこと、
すなわち、M=1−((X1*X1+X2*X2+
…)/(最小(L1,L2)*最小(L1,L2)))、
によつて得られる。Mは0と1の間の分数値であ
り、ワードはMが0に近いほど類似している。 Mは、それだけでは、ストリング類似性測度と
しては不十分であるが、それはMが可能な最大の
共通サブストリングに比較した共通サブストリン
グの大きさを表わしているだけだからである。し
かし、NBOとMの合計が2つのストリングを比
較する均一測度として利用でき、この合計が0に
近くなるほど、ストリングは類似する。 ストリング類似性測度は、入力ストリング(空
マツピング)またはそれから誘導されたキーに対
して適用できる。ワード・マツピングと類似性ラ
ンク付けの合成効果として引き出される類似性
は、あるワードを別のワードに変更するのに必要
な基本変形処理の数をカウントし、それらのワー
ドの共通サブストリングを決定することによつて
示される。以下に示す例は空マツピング、例1の
形態的キーおよび例3の音声的キーに対するもの
である。
【表】
【表】
【表】 例として使つたワードはそれらの表面構造はか
なり異なつているが、マツピングによつて(基本
処理の数が小さいことおよび共通サブストリング
がより長いことによつて表わされる)より良いス
コアをもたらすストリングの形態的または音声的
構造上の類似性が引き出される。実際問題とし
て、スコア機構はいくつかのキーの結果を検討し
て形態または音声上最も近い隣接キーを決定し最
良のスコアをもつ候補を選択することができる。 本発明をマツピング機能とスコア機構の特定の
組合わせに関して説明してきたが、当業者には当
然のことならが、また本発明の範囲を逸脱するこ
となく、本発明の精神を英語以外の言語にも適用
でき、様々なコンピユータ言語で他のマツピング
機能とスコア機構を用いて実現できる。 F 発明の効果 以上説明したように、本願発明は、音声的及び
形態的な手法に基づき入力ストリングを適切なキ
ーワードに変換して、そのキーワードどうしにつ
いて類似性を比較するようにしたので、入力ワー
ドに幾つかのタイプの誤りがあつても高い精度で
類似性を決定することを可能ならしめる、という
効果を奏する。
【図面の簡単な説明】
図面は、本発明に基づく2つのストリング間の
類似性の決定方法を示す流れ図である。

Claims (1)

  1. 【特許請求の範囲】 1 辞書記憶域内の辞書ワードに対する入力ワー
    ド・ストリング中の入力ワードの類似性をランク
    付けする方法であつて、 (a) 上記入力ワード・ストリングから第1の入力
    ワードを読み取り、該第1の入力ワードの子音
    を第1の記憶域に書き込むとともに、該第1の
    入力ワードの母音を第2の記憶域に書き込む段
    階と、 (b) 上記第1の記憶域にある重複した子音を取り
    除くとともに、上記第2の記憶域にある重複し
    た母音を除去する段階と、 (c) 上記第1の記憶域にある子音をアルフアベツ
    ト順に配列するとともに、上記第2の記憶域に
    ある母音をアルフアベツト順に配列する段階
    と、 (d) 上記第1の記憶域にあるアルフアベツト順の
    子音と、上記第2の記憶域にあるアルフアベツ
    ト順の母音とを連結して入力キーワードを形成
    する段階と、 (e) 上記辞書記憶域内から辞書ワードを読み取
    り、該辞書ワードの子音を第3の記憶域に書き
    込むとともに、該第辞書ワードの母音を第4の
    記憶域に書き込む段階と、 (f) 上記第3の記憶域にある重複した子音を取り
    除くとともに、上記第4の記憶域にある重複し
    た母音を除去する段階と、 (g) 上記第3の記憶域にある子音をアルフアベツ
    ト順に配列するとともに、上記第4の記憶域に
    ある母音をアルフアベツト順に配列する段階
    と、 (h) 上記第3の記憶域にあるアルフアベツト順の
    子音と、上記第4の記憶域にあるアルフアベツ
    ト順の母音とを連結して辞書キーワードを形成
    する段階と、 (i) 上記入力キーワードを上記辞書キーワードと
    比較して、上記入力キーワードを上記辞書キー
    ワードに一致するようにするために必要な上記
    入力キーワード中の変更処理の数をカウントし
    て、該カウント値を第1のスコアとする段階
    と、 (j) 上記入力キーワードを上記辞書キーワードと
    比較して、上記入力キーワード及び上記辞書キ
    ーワードにおける同一文字セグメントの長さを
    測定してその測定値を第2のスコアとする段階
    と、 (k) 上記第1及び第2のスコアを組み合わせて上
    記辞書ワードに対する上記入力ワードの類似性
    のランクをあらわすスコアを生成する段階を有
    する、 辞書記憶域内の辞書ワードに対する入力ワー
    ド・ストリング中の入力ワードの類似性をランク
    付けする方法。 2 辞書記憶域内の辞書ワードに対する入力ワー
    ド・ストリング中の入力ワードの類似性のランク
    付けする方法であつて、 (a) 上記入力ワード・ストリングから第1の入力
    ワードを読み取り、該第1の入力ワードの子音
    を第1の記憶域に書き込むとともに、該第1の
    入力ワードの母音を第2の記憶域に書き込む段
    階と、 (b) 上記第1の記憶域にある隣接する重複した子
    音を取り除くとともに、上記第2の記憶域にあ
    る隣接する重複した母音を除去する段階と、 (c) 上記第1の記憶域にある子音と、上記第2の
    記憶域にある母音とを連結して入力キーワード
    を形成する段階と、 (d) 上記辞書記憶域内から辞書ワードを読み取
    り、該辞書ワードの子音を第3の記憶域に書き
    込むとともに、該第辞書ワードの母音を第4の
    記憶域に書き込む段階と、 (e) 上記第3の記憶域にある隣接する重複した子
    音を取り除くとともに、上記第4の記憶域にあ
    る隣接する重複した母音を除去する段階と、 (f) 上記第3の記憶域にある子音と、上記第4の
    記憶域にある母音とを連結して辞書キーワード
    を形成する段階と、 (g) 上記入力キーワードを上記辞書キーワードと
    比較して、上記入力キーワードを上記辞書キー
    ワードに一致するようにするために必要な上記
    入力キーワード中の変更処理の数をカウントし
    て、該カウント値を第1のスコアとする段階
    と、 (h) 上記入力キーワードを上記辞書キーワードと
    比較して、上記入力キーワード及び上記辞書キ
    ーワードにおける同一文字セグメントの長さを
    測定してその測定値を第2のスコアとする段階
    と、 (i) 上記第1及び第2のスコアを組み合わせて上
    記辞書ワードに対する上記入力ワードの類似性
    のランクをあらわすスコアを生成する段階を有
    する、 辞書記憶域内の辞書ワードに対する入力ワー
    ド・ストリング中の入力ワードの類似性をランク
    付けする方法。 3 形態的/音声的技法を使用して辞書記憶域内
    の辞書ワードに対する入力ワード・ストリング中
    の入力ワードの類似性をランク付けする方法であ
    つて、 (a) 入力ワード・ストリングから第1のワードを
    読取り、入力キーワードを作成する段階と、 (b) 上記辞書記憶域から辞書ワードを読取り、辞
    書キーワードを作成する段階と、 (c) 上記入力キーワードを上記辞書キーワードに
    一致させるのに必要な変更処理の数である第1
    のスコアと、上記入力キーワード及び上記辞書
    キーワード中の同一文字の数を数えることによ
    つて生成された第2のスコアとを組み合わせる
    ことによつて、形態的スコアを生成する段階
    と、 (d) 上記入力ワードの文字を、一組の書換え規則
    で表現された対応する音声的文字で置き換える
    ことによつて入力音声キーワードを作成する段
    階と、 (e) 上記辞書ワードの文字を、一組の書換え規則
    で表現された対応する音声的文字で置き換える
    ことによつて辞書音声キーワードを作成する段
    階と、 (f) 上記入力音声キーワードを上記辞書音声キー
    ワードに一致させるのに必要な変更である第3
    のスコアと、上記入力音声キーワード及び上記
    辞書音声キーワード中の同一文字の数を数える
    ことによつて生成された第4のスコアとを組み
    合わせることによつて、音声的スコアを生成す
    る段階と、 (g) 上記入力ワードと上記辞書ワードの間の相違
    の程度として、上記形態的スコアと上記音声的
    スコアのうちの小さい方を選択する段階を有す
    る、 辞書記憶域内の辞書ワードに対する入力ワー
    ド・ストリング中の入力ワードの類似性をランク
    付けする方法。
JP62259880A 1986-12-16 1987-10-16 ワードの類似性をランク付けする方法 Granted JPS63157262A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US94212386A 1986-12-16 1986-12-16
US942123 1986-12-16

Publications (2)

Publication Number Publication Date
JPS63157262A JPS63157262A (ja) 1988-06-30
JPH0454261B2 true JPH0454261B2 (ja) 1992-08-28

Family

ID=25477608

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62259880A Granted JPS63157262A (ja) 1986-12-16 1987-10-16 ワードの類似性をランク付けする方法

Country Status (3)

Country Link
EP (1) EP0271664B1 (ja)
JP (1) JPS63157262A (ja)
DE (1) DE3751359D1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0494573A1 (en) * 1991-01-08 1992-07-15 International Business Machines Corporation Method for automatically disambiguating the synonymic links in a dictionary for a natural language processing system
DE4213533C2 (de) * 1992-04-22 1996-01-25 Ibm Verfahren und Computersystem zum Zerlegen von zusammengesetzten Wörtern
US5606690A (en) * 1993-08-20 1997-02-25 Canon Inc. Non-literal textual search using fuzzy finite non-deterministic automata
EP0639814B1 (en) * 1993-08-20 2000-06-14 Canon Kabushiki Kaisha Adaptive non-literal textual search apparatus and method
JP3113814B2 (ja) * 1996-04-17 2000-12-04 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 情報検索方法及び情報検索装置
KR100421530B1 (ko) * 2001-03-06 2004-03-09 김시환 정보 검색 방법
GB2391647A (en) * 2002-08-07 2004-02-11 Sharp Kk Generating a List of Terms and a Thesaurus from Input Terms
JP4333516B2 (ja) 2004-08-05 2009-09-16 ソニー株式会社 記録制御装置および方法、並びにプログラム
WO2007144199A1 (de) 2006-06-16 2007-12-21 Omikron Data Quality Gmbh Verfahren zum automatischen bewerten der ähnlichkeit von zwei zeichenketten, die in einem computer gespeichert sind
US8244521B2 (en) 2007-01-11 2012-08-14 Microsoft Corporation Paraphrasing the web by search-based data collection
US9300322B2 (en) 2014-06-20 2016-03-29 Oracle International Corporation Encoding of plain ASCII data streams

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4580241A (en) * 1983-02-18 1986-04-01 Houghton Mifflin Company Graphic word spelling correction using automated dictionary comparisons with phonetic skeletons

Also Published As

Publication number Publication date
EP0271664A2 (en) 1988-06-22
EP0271664B1 (en) 1995-06-21
JPS63157262A (ja) 1988-06-30
DE3751359D1 (de) 1995-07-27
EP0271664A3 (en) 1991-11-27

Similar Documents

Publication Publication Date Title
US4833610A (en) Morphological/phonetic method for ranking word similarities
Karimi et al. Machine transliteration survey
KR100318762B1 (ko) 외래어 음차표기의 음성적 거리 계산방법
US9110980B2 (en) Searching and matching of data
JPS6211932A (ja) 情報検索方法
AU2007268059A1 (en) Method and apparatus for multilingual spelling corrections
Jiampojamarn et al. Transliteration generation and mining with limited training resources
EP2162838B1 (en) Phonetic search using normalized string
JP2010519655A (ja) 名前照合システムの名前インデックス付け
Naseem et al. A novel approach for ranking spelling error corrections for Urdu
JPH0454261B2 (ja)
Freihat et al. Towards an optimal solution to lemmatization in Arabic
Medhat et al. A hybrid cross-language name matching technique using novel modified Levenshtein Distance
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
Chaudhuri Reversed word dictionary and phonetically similar word grouping based spell-checker to Bangla text
Robertson et al. Searching for historical word-forms in a database of 17th-century English text using spelling-correction methods
JP4486324B2 (ja) 類似単語検索装置、この方法、このプログラム、および情報検索システム
Vīksna et al. Multilingual slavic named entity recognition
Yousef Cross language duplicate record detection in big data
Ren et al. A hybrid approach to automatic Chinese text checking and error correction
JP2002132789A (ja) 文書検索方法
Sulaiman et al. The effectiveness of a Jawi stemmer for retrieving relevant Malay documents in Jawi characters
Rani et al. Post-processing methodology for word level Telugu character recognition systems using Unicode Approximation Models
CN1323004A (zh) 汉语盲文到汉字的自动转换方法
Kiawkaew et al. A Practical Technique for Thai-English Word Mapping Using Phonetic Rules: Person Name Matching Case Study