JPH07113925B2

JPH07113925B2 - 文字表記結果の対応関係判定システム

Info

Publication number: JPH07113925B2
Application number: JP63215194A
Authority: JP
Inventors: 悦子大深
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1988-08-31
Filing date: 1988-08-31
Publication date: 1995-12-06
Anticipated expiration: 2010-12-06
Also published as: JPH0264867A

Description

【発明の詳細な説明】 A.産業上の利用分野本発明は、同一または異なる文字表記法による表記結果
同士の対応関係を判定するシステムに関し、さらに詳し
くは文字表記結果を音素列に変換し、音素レベルでの相
違度を計算することによつて文字表記結果の対応関係を
判定するシステムに関する。ここでいう対応関係は、対
応する・しない（対応関係あり・なし）という２値的に
判定されるものであつてもよいし、相違度に応じてより
細かく、例えば、対応関係強・弱・なしのように判定さ
れるものであつてもよい。

B.従来技術およびその問題点日本語のカナ等の音標文字による表記を使つて、外来語
を表記する場合、複数の表記のしかたがあることが多
い。原表記結果“interview"を例にとると、その表記に
は、 interview インタビュ、インタヴュ、インタビュウ、インタヴュウインタビュー、インタヴューインタービュー、インターヴューなどがある。これらの複数の表記結果は、すべて同一御
“interview"を表わしているが、例えば“インタビー
ン”は、これを表わしていない。

このような、表記結果同士が同一語を表わしているかど
うかの判定を求められている場として、日本語ワードプ
ロセツサにおける校正システムや情報検索システムがあ
る。

従来の校正システムでは、田中他「科学技術文献抄録に
おける片仮名列の解析」（計量国語学Vol.14、No.1、19
83）でも指摘されているように、＜原表記結果−カナ表
記結果＜対を登録する辞書式が使われていた。また従来
の情報検索においても、辞書式が、特開昭62−11932号
公報に開示されている。

しかし、辞書式には、次のような問題点がある。

・新造語、派生語、固有名詞をすべて辞書に登録する必
要があるので、辞書を作る手間がかかり、継続的更新が
必要である。

・カナ表記が定まらない場合は、すべてのカナ表記を網
羅しなければならない。

一方、カナ表記結果同士の対応関係判定を行なう方法と
して、カナ表記結果のうち、上記公報で示唆されている
ような対応関係にあるものすべてを、辞書の１つのエン
トリーにおさめる方法の他に、統一表記を使うやり方も
ある。統一表記を得る方法は、後藤他「片仮名表記をと
る技術用語における表記の多様性」（三田図書館情報学
会大会、1985）の論文に開示されている。

これは処理対象のカナ列に対して、その先頭文字列から
逐次、交換規則（例えば、長音符合、促音削除、拗音の
大文字化、ｆ音→ｈ音、Ｖ音→ｂ音の書き換えなど）を
適用して、統一表記結果を得る。そしてこの統一表記結
果同士の一致、不一致によつてカナ列同士の対応関係あ
り・なしの判定を行なうものである。

この方式には、次の問題点がある。

同一語を表わす表記群を、互いに異なる語と判断したい
ためには、なるべく多くの変換規則を設定する必要があ
るが、これによつて、異なる語を同一とみなしてしまう
確率が高くなる。

たとえば「オータナチブ」と「オルタナチブ」は、とも
に“alternative"を表わしている。これを統一するため
に（‘ル’→長音）という変換規則を追加すると、これ
は長音符合削除の規則と組み合わさつて（‘ル’→長音
→削除）となる。従つて、これを「バックル」に適用す
ると「バック」となり、この２つを区別できなくなる。

C.問題点を解決するための手段本発明は上記問題点に鑑みなされたもので、比較対象の
文字表記結果を音素列に変換する手段と、音素レベルで
の相異度を計算する手段と、音素レベルでの相違度にも
とづいて文字表記結果同士の対応関係を判定する手段を
備えたことを特徴とする。

例えばカタカナ表記については、カタカナ表記結果を日
本語で用いる音素からなる音素列に変換する手段が用意
される。なお本明細書でいう日本語で用いる音素とは、
ヨミに促音、長音、拗音の概念を含めたもののことであ
る。

英語表記については、英語表記結果を英語で用いる音素
から音素列に変換する手段が用意される。カタカナ表記
結果と英語表記結果の対応関係を判定したい場合には、
英語で用いる各音素について対応する日本語の１または
複数の音素を生成するテーブル手段が用意される。

D.実施例 D1.英語表記−カナ表記間の対応関係判定システム以下、本発明を英語表記−カナ表記間の対応関係判定シ
ステムに即して説明する。まず、同システムにより行な
われる一連の処理の流れを第１図に示す。D2〜D8で、第
１図に示された各手段の詳細を説明することにする。

D2.日本語音素列生成手段カタカナ表記結果を、例えばキーボードから文字コ
ードの形で入力する。

各文字ごとに表１をひいて対応する音素列を得る。

（例「プレイヤー」→音素列:pureiy）促音（ツ）長音（−）、拗音（ヤ、ユ、ヨ）は単独で使
われないので、音素とみなさない。直前の音素を‘X'と
すると、促音、長音はＸの長さという形で、拗音はＸの
拗音要素という形で扱う。

（D4参照）表記は、Ｘ_ツ→、Ｘ−→、Ｘ_ヤ→X_ja、Ｘ_ユ→X_ja、Ｘ_ヨ→X_joとする。

で得た音素列の左から右へ、次に述べる変換規則
を適用して統一音素列を得る。

変換規則の主なものを次に挙げる。

1.母音にはさまれた長音削除規則例Ｋ ui→Ｋｉui 2.半母音（ｙ、ｗ）の変換規則語頭以外のｗ→ｕ例 san!doｗci→san!doｕci 語頭以外のｙ→ｉ例 Purei ａ→Purei ａ 3.二重母音の変換規則先行母音をv₁、後続母音をv₂とすると、母音列v₁v₂は表
２によつて変換される。

ここに空白：無変換 :v＋長音符合（）：省略可能例 ao→ao ei→ ua→ｕ、、ua、ａ 4.撥音（ン）に関する規則・ナ行、マ行の前の撥音削除（後藤他の上掲論文に開
示）例チャンネル→チャネル・パ行、バ行の前のム（mu）→ン（n!）例ラムプ→ランプ 5.無声化しやすい母音に関する規則・kis→kus 例テキスト→テクスト（tekisuto）（tekusuto）例「プレイヤー」で得られた統一音素列を、与えられたカタカナ表
記結果の日本語音素列としてメモリ中の作業域に、一
旦、格納する。

D3.英語音素列生成手段英語表記結果を、例えばキーボードから文字コード
の形で入力する。

英語のつづりから音素列を得る。

このアルゴリズムは既存で、例えば Elovitz他“Letter−to−Sound Rules for Automatic T
ranslation of English Text to Phonetics"（IEEE Tra
ns.Vol.ASSP−24、No.6、1976）などに開示されている
ので、詳細は、これらの文献を参照されたい。

本明細書では、英語音素として表３に示したたものを使
う。

で得られた音素列を、与えられた英語表記の英語
音素列として、メモリ中の作業域に一旦、格納する。

D4.英語音素、日本語音素対応テーブル手段音素の表現形式英語音素と日本語音素の比較をするため、音素の表現形
式を次のように定める。

子音音素（ｃ）≡Rc＋F1＋F2 母音音素（ｖ）≡Rv＋F1＋F3＋F4 Ｒ_（ｃ）：子音に属する音素に対応する、日本語でのヨ
ミＲ_（ｖ）：母音に属する音素に対応する、日本語でのヨ
ミ日本語における促音、長音、拗音のｊ音は、ヨミに含め
ない例「キャッ」を例にとると、日本語音素列:kjで Rc＝ｋ、Rv＝ａとなる。

F1:1つの音素に対応する、日本語でのヨミが複数ある場
合の優先順位 F2:拗音（ｊ音）の有無 F3:促音であるかないかを表わす。

F4:長音であるかないかを表わす「キャッ」を例にとると子音音素＝Rc（ヨミ:k）＋F1（優先順位：）＋F2（拗音:j）母音音素＝Rv（ヨミ:a）＋F1（優先順位：）＋F3（促音:6）＋F4（長音:0） D3で得た英語音素列を入力とする。

英語音素列を、表４よりで説明した表現形式に変
換する。

なお、表４の項目で＠：音素の種類（c:子音、v:母音）＋v:子音の次に母音がない場合、カタカナ表記上つける
母音を表わす。例えばcatの/t/は、日本語ではト＝toと
表わされるので＋ｖ＝‘o'となる。

母音音素のF2:先行子音に拗音要素を付加することを表
わす。英語、日本語音素レベル比較の際、先行子音のF2
に加えて用いられる。

英語音素列の各音素と、で得た交換結果を対にし
て、メモリの作業域に一旦、格納する。

例“cup" 英語音素列:KX UH PXとなり、これらの音素の変換結
果は以下のようになる。

音素：変換結果 PX:〔Rc（Ｐ）＋F1（）＋F2（拗音:0）〕 D5.英語音素列の変換結果調整手段 D4で得た英語音素列変換結果を、音韻環境、つづ
りによつて調整する。以下、２つの調整項目について説
明する。

（１）音素に対応する日本語でのヨミに関する調整その
音素の前後の音韻環境、対応するつづりを考慮した調整
規則によりヨミの優先順位（F1）、拗音の可能性（F2）
を変更する。

以下に、調整規則の主なものを述べる。

規則は、音素：条件→条件を満たした場合とるべきアク
ション、の形で表現する。

MX:後続音素がPX、BX、MXである→F1（ヨミ:n!）＝０例：“lamp" はカナ表記では「ランプ」となる。

NX:後続音素がTX、DX、NXである→F1（ヨミ:n!）＝０例：“tent" はカナ表記では「テント」となる。

EE:対応するつづりが‘e'である→F1（ヨミ:e）＝０例：“meter"のカナ表記は「メーター」となる AE:先行音素がKX又はGXであり、かつ後続音素がPX、B
X、TX、DX、KX、GX、RXである→F2＝２先行音素がKX又はGXであり、かつ後続音素が（PX、BX、TX、DX、KX、GX、RX）以外の子音
である→F2＝１ UH:対応するつづりが‘a'である→ F1（ヨミ:a）＝０例 “China"のカナ表記は「チャイナ」でUHを‘a'と読
む。

対応するつづりが‘o'である→ F1（ヨミ:o）＝０例 “action"のカナ表記は「アクション」でUHを‘o'
と読む。

AA:後続音素がのばす音‘ー’である→ F1（ヨミ:a）＝０例 “part" のカナ表記は「パート」でAAを‘a'と読む。

（２）子音の直前あるいは語尾に位置する母音音素の長
さに関する調整日本語において母音の長さは、単語を区別するための重
要な要素である。ここでは、その母音の長さについて、
以下に述べる調整規則により、母音長の調整値（A1とす
る）を計算する。この値は、D6音素レベル相違度計算に
おいて、F3（促音の有無）、F4（長音の有無）比較に使
う。

説明のために、対象となる単語の音素列を・・・vcv₂・
・・（v:調整すべき母音音素、c:後続子音音素、v₂:cに
後続する母音音素）と表わす。

後続子音音素（ｃ）がPX、TX、KXの場合以上である→A1＝０後続子音音素（ｃ）が（PX、TX、KX）以外の場合英語音素と、で調整した変換結果および母音長の
調整値（A1）を対にして、メモリ中の作業域に格納す
る。

D6.音素レベル相違度計算手段 D2、で得た日本語音素列（以下Ｊ音素列とい
う）、およびD5で得た、調整済みの英語音素列変換結
果（以下、Ｅ音素列）を入力とする。

Ｊ音素列とＥ音素列の相違度を以下に述べる手順に
従つて計算する。最初にチャンクという概念を説明する −０チャンクの概念本明細書で使うチャンクとは、この音素列を各子音の先
頭で区切つて作った固まりを表わす。

例１ “alternative" 英語音素列はAW−LXTXERNX UHTXIXVXとなる。

例２「オータナティブ」日本語音素列は、tanatibuとなる。子音は左から順に
ｔ、ｎ、ｔ、ｂなので|ta|na|ti|buと５つのチャンク
に分けられる。

例３「キーウイ」の場合は子音が１つ（ｋ）なので、
１チャンクとなる。

−１音素レベル相違度計算の概略Ｊ音素列とＥ音素列に対してチャンク数マッチングを行ない、チャンク数が一致した
ものに関して第１マッチング（子音部のヨミRc）第２マッチングを順に行ない、該当する項目に与えられたペナルテイー
の総和を相違度とする。

最初に、チャンク数マッチングを行なう。

（Ｉ）両音素列のチヤンク数が２以上異なる場合、これらの音素列をもつ表記結果は不一致とみなす。（相
違度＝100×両音素列のチヤンク数の差）（II）両音素列のチャンク数が１異なる場合、チャン
ク数が１多い方をＸ音素列、もう一方をＸ′音素列とす
ると、Ｘ音素列のどのチャンクがＸ′音素列と対応しな
いかを、以下の方法で決定する。Ｘ音素列の第１チャン
クから１つずつ順番にぬいて作つたチャンク列と、Ｘ′
音素列のチャンク列とに、第１マッチングを行なう。Ｘ
音素列から第ｉチャンクをぬいて作つたチャンク列のと
き、Ｘ′音素列のチャンク列と子音部が一致したとみな
されたとき（第１マッチングのペナルティーについて
は、後述する。）、第ｉチャンクを“対応しないチャン
ク”とみなす。

例えば“Keys"（第１チャンク:KXEE第２チャンク:ZX）
と「キー」「第１チャンク:K）の場合、“Keys"の第
２チャンク（ZX）が“対応しないチャンク”となる。

“対応しないチャンク”がない場合は、両表記は不一致
とみなす（相違度＝100） “対応しないチャンク”がある場合、その子音部が表５
に記載されている場合は、Ｘ音素列から“対応しないチ
ャンク”をぬいたものとＸ′音素列について第２マッチ
ングを行なう。相違度は、第１マッチングでのペナルテ
イー総和＋表５の該当ペナルテイー＋第２マツチングで
のペナルテイー総和になる。

“対応しないチャンク”があつてかつその子音部が表５
に記載されていない場合は、両表記は不一致とみなす。
（相違度＝100）（III）チャンク数が一致する場合、第１マッチングを行なう。各チャンクの子音が一致する
とみなされたものについてのみ第２マッチングを行な
う。

相違度は、第１マッチングでのペナルテイーの総和＋第
２マッチングでのペナルテイーの総和となる。

以下に第１マッチング、第２マッチングを説明する。

−２第１マッチングＪ音素列の子音部のヨミ（JRcとかく）と、Ｅ音素列の
子音部のヨミ候補（ERci）を第１チャンクから順に比較
する。ERciは表４のＲ（yomi）で与えられる。

例「キャット」従つてＥ音素列の第１チャンクの子音部（KX）のヨミ候
補は ERc₁＝ｋ、ERc₂＝ｇ、ERc₃＝ｃ第２チャンクの子音部（TX）のヨミ候補は ERc₁＝ｔ、ERc₂＝ｃとなる。

なお、国語審議会報告「外来語の表記」によると、ティ（ti）→チ（ci）、ディ（di）→ジ（zi）と表わす
ことになる。従つてティのときはJRc＝ｔまたはｃ、デ
ィのときはJRc＝ｄまたはｚとみなして比較する。

1.JRcがＥ音素列の該当チャンク子音部のヨミ候補ERci
中にない場合、（ｉ） JRcとERc₁が単数−複数（ｔ−ｃ、ｄ−ｚ）の
関係のとき、ペナルティー（＋２）で一致するとみな
す。

例「キャット」と“cats"の第２チャンクの子音部はJRc
＝ｔ、ERc₁＝ｃとなり、ｔとｃはペナルティー２で一致
する。

（ii） JRcとERc₁が有声−無声の関係のとき例「レディース」と“ladies"の第３チャンクの子音部
は、JRc＝ｓ、ERc₁＝ｚで上記の関係である。

（ａ）JRc、ERc₁の少なくとも一方において、この子音音素が有声音ならば直前または直後子音が無声
音、この子音音素が無声音ならば直前または直後子音が有声
音のとき、ペナルティー→＋１とする。

これは直前／直後子音の有声、無声によつて該当子音の
有声無声が変わることがあるからである。

例「レディース」のＪ音素例＝redsuでｄは有声音、
ｓは無声音なので、このｓと“ladies"の第３チャンク
のERc₁＝ｚはペナルティー（＋１）で一致する。

（ｂ）（ａ）以外はペナルテイー→＋３とする。

（iii）（ｉ）（ii）に該当しないものは子音が違う
とみなす。（相違度＝100） 2.JRcがERci中にある場合 JRc＝ERcmとすると、（ｉ）ERcmの優先順位（F1）が０あるいは１のときペナ
ルテイー→０（ii）ERcmの優先順位が２のとき（iii）ERcmの優先順位が３以上のとき、 −３第２マッチング −２ですべてのチャンクの子音が一致したとみなされ
た場合、Ｊ音素列、Ｅ音素列について、次の３項目のマッチング
を行なう。

（ａ）母音部のヨミ（Rv）（ｂ）抑音の有無（F2）（ｃ）各チャンク最後の母音音素の長さ（F3、F4）（ａ）母音部のヨミ（Rv）のマッチング第１チャンクから順にＪ音素列の母音部のヨミ（JRv）
とＥ音素列の母音部を構成する音素ｊのヨミ候補（ERvj
k）を比較する。

説明のためJRv＝v₁v₂…v_n（v_iは日本語音素） n:JRvを構成する音素数、m:ERvを構成する音素数とす
る。

各ERvjのヨミ候補から任意に１つずつ選んで音素列を作り、v₁から順番にev_x列と比較していく。ヨミのう
ち省略可能なもの（JRvの（）で囲まれた音素、ev_jk
＝０のもの）は、対応するヨミが相手の音素列に見つか
らなければないものとして扱う。また、Ｅ音素列のチャ
ンクが子音で終わつている場合は表４のtvの母音を補つ
て比較する。

各ev_x列につき、JRvのdx番目の音素まで一致するヨミが
見つかつたとし、最大のdxをｄとする。

例「キーウイ」（ｋui）と“key"（KXEE）の比較にお
いて、JRv＝iui（v₁＝ｉ、v₂＝ｕ、v₃＝ｉ、ｎ＝３）、 ERv＝EE となりである。

従つてJRvとev₁の比較においては v₁＝ev₁₁よりd₁＝１、 JRvとev₂の比較においては v₁≠ev₁₂よりd₂＝０、同様にしてdn＝０よつてｄ＝最大のdx＝d₁＝１以上のようにして、JRvのヨミと一致するERvjのヨミ候
補（ev_jkとする）が見つかるごとに、ev_jkの優先順位と
表６よりペナルテイーを求め、それを相違度に加算す
る。

ただし、D5−−（１）の調整によつて、優先順位が０
のものが、該当音素の別候補として存在している場合、
ペナルティーは（表６の値＋１）とする。

また、ｄ＝ｎとなるev_xが複数ある場合は、最小のペナ
ルティーをここでのペナルティーとする。

マッチング終了時に、以下の条件を満たす場合は、該当
するペナルティーを加算する。

（ｉ）２＜ｎの場合・ｄ＝０のとき（ｎ×３）のペナルティーを加算する・ｄ＞０のとき（（ｎ−ｄ）×２）のペナルテイーを加
算する（ii）ｄ＝ｎかつ、マッチングに使われなかつたＥ音
素がある場合（余つたＥ音素数×２）のペナルティー上記の例、「キーウイ」（ｋui）と “key"（KXEE）では、 v₁＝ev₁₁＝ｉかつev₁₁の優先順位＝１よりペナルティー
０であるが、ｄ＝１、ｎ＝３より（ｉ）ｄ＜ｎかつｄ＞
０を満たし、（３−１）×２＝４のペナルティーが加算
される。従つてペナルティー合計は４となる。

（ｂ）拗音の有無（F2）のマッチングＪ音素列とＥ音素列の対応チャンクにおいて、拗音の有
無（F2）により表７のとおりペナルティーを定める。

（ｃ）各チャンク最後の母音音素の長さ（F3、F4）の
マッチング（１）Ｊ音素列の母音音素の長さ（Ｋとする）の定義Ｋ≡F4−F3 （２）Ｅ音素列の母音音素の長さ（Ａとする）の定義Ａ≡A₁＋A₂ A₁:音韻環境、つづりによる調整値（D5−−（２）） A₂:表４のF3、F4から表８によつて与えられる値（ｃ）ペナルティー計算表９によつてペナルティーを与える。

ただし、日本語のカナ表記上、ティーをテー、ディをデ
ーと書くことがあるのでtiとｔ、diとｄの組み合わ
せには、ペナルティーを与えないで得た相違度をメモリの作業域に格納する。

D7 文字表記レベルでの対応関係判定手段 D6で得た相違度を入力とする。

適用ケースによつて適当なしきい値を定める。

例えば、これを３とすると相違度＜３ならば両表記結果は対応するとみなす。

相違度＝３ならば両表記結果は対応の可能性があるとみ
なす。

相違度＞３ならば両表記結果は対応しないとみなす。

のように対応関係判定を行なう。

出力は、例えばユーザへの表示の形で行なう、具体
的な例としては校正システムにおいて「同一語に対する
複数表記結果が存在しています」という表示を出す、な
どが考えられる。適用例はD17、D18を参照されたい。

D8.判定の具体例（英語表記結果とカナ表記結果の比
較）例1:カナ表記結果「ファジー」と英語表記結果“fuzzy"
の対応関係判定を行なう。

1.「ファジー」をD2.日本語音素列生成手段によりＪ音
素列＝hazに変換する。

2.“haz”をD4−の表現形式に変換する。

音素ヨミ(Rc/v)： F1 ： F2 ： F3 ： F4 (拗音) (長音) (促音) ｈ Rc＝ｈ：：０：ａ Rv＝ａ：：：０：０ｚ Rc＝ｚ：：０： Rv＝ｉ：：：０：６ 3.“fuzzy"をD3英語音素列生成手段によりＥ音素列＝FX
UHZXEEに変換する。

4.D4英語恩素、日本語恩素対応テーブル手段により、表
４を使つてD4−の表現形式に変換する。

音素ヨミ(Rcv)： F1 ： F2 ： F3 ： F4 (拗音) (促音) (長音) FX Rc＝h ：：０： Rc＝b ：：０： UH Rv＝a ：：：２：１ Rv＝o ：：：０：１ Rv＝u ：：：１：０ Rv＝e ：：：？：？ Rv＝ia：：：？：？ ZX Rc＝z ：：０： Rc＝s ：：０： EE Rv＝i ：：：１：３ Rv＝ia：：：？：？ Rv＝ie：：：０：２ Rv＝e ：：：２：１ 5.4で得た変換結果をD5英語音素列の変換結果調整手段
によつて以下のように変更する。

D5−−（１）該当項目なし D5−−（２）の該当母音はUH、EEである。

UH:D5−−（２）−（１）（ii）よりA1＝０ EE:D5−−（２）−（１）（ii）よりA1＝０ 6.2で得た「ファジー」の表現と、４、５で得た“fuzz
y"の表現を使い、D6音素レベル相違度計算手段により以
下のように相違度を計算する。

（ｉ）チャンクへの分割「ファジー」→｛ha｝｛ｚ｝ “fuzzy"→｛FXUH｝｛ZXEE｝チャンク数は、２で一致しているので第１マッチングを
行なう。

（ii）第１マッチング・チャンク:hとFX である。

（JRc＝ERc₁）かつ（ERc₁の優先順位＝１）なのでペナ
ルティーは０となる。

・チャンク2:ZとZX である。

同様にしてペナルティーは０となる。

相違度＝０＋０＝０で子音部が一致していることがわか
つた。

次に第２マツチングを行なう。

（iii）第２マツチング・チャンク1:aとUH （ａ）ヨミ（Rv）のマッチング JRv＝ａ、である。

（JRv＝ERv₁₁）かつ（ERv₁₁の優先順位＝１）なので、
ペナルテイーは０となる。

（ｂ）拗音の有無（F2）のマッチング F2（ha）＝０、F2（FXUH）＝より、ペナルテイーは０となる。

（ｃ）母音音素の長さ（F3、F4）のマツチングＫ（ａ）＝０Ａ（UH:a）＝A1＋A2＝０＋（１−２）＝−１表９のＫ＝０かつ|A|≦１の条件に該当するので、ペナ
ルティーは０となる。

・チャンク2:とEE （ａ）ヨミ（Rv）のマッチング JRv＝ｉ、である。

（JRv＝ERv₁₁）かつ（ERv₁₁の優先順位＝１）なので、
ペナルティーは０となる。

（ｂ）拗音の有無（F2）のマッチング F2（zi）＝０、F2（ZXEE）＝０よりペナルティーは０となる。

（ｃ）母音音素の長さ（F3、F4）のマツチングＫ（）＝６Ａ（EE:i）A1＋A2＝０＋（３−１）＝２表９のＫ≠０かつ|K−A|≦４の条件に該当するので、ペ
ナルティーは０となる。

以上より、相違度＝０である。

7.D7文字表記レベルでの対応関係判定手段により「ファ
ジー」と“fuzzy"は対応すると判定される。

例2:英語表記結果“cup"に対して、カナ表記結果１「カップ」、２「コップ」、３「カー
プ」の３つを入力した場合の判定を行なう。

1.“cup"のＥ音素列は｛KXUH｝｛PX｝（｛｝はチャン
クを表わす）となる。表４より変換結果音素ヨミ(Rcv)： F1 ： F2 ： F3 ： F4 (拗音) (促音) (長音) KX Rc＝h ：：０： Rc＝g ：：０： Rc＝c ：：０： UH Rv＝a ：：：２：１ Rv＝o ：：：０：１ Rv＝u ：：１：１：０ Rv＝e ：：：？：？ Rv＝ia：：：？：？ PX Rc＝P ：：０：を得る。

2.調整規則を使つて１の変換結果を変更する。

D5−−（１）：該当項目なし D5−−（２）：対象となる母音音素はUH （１）（iii）よりA1＝−１ 3.カナ表記結果１「カップ」と“cup"の相違度を求め
る。

Ｊ音素列は｛ｋ｝｛pu｝（｛｝はチヤンクを表わ
す）（ｉ）チャンク数は２で等しいので、第１マツチング
を行なう。

（ii）第１マッチング・チャンク1:kとKXのマッチングによりペナルティー０・チャンク2:pとPXのマッチングによりペナルティー０（iii）第２マッチング・チャンク1:とUH （ａ）ヨミ（Rv）のマッチング JRv＝ERv₁₁（UH:a）でペナルティー０（ｂ）拗音の有無（F2）のマッチング F2（ｋ）＝F2（KXUH）＝０でペナルティー０（ｃ）母音音素の長さ（F3、F4）のマツチングＫ（）＝−６Ａ（UH:a）＝A1＋A2＝−１＋（１−２）＝−２表９のＫ≠０かつ|K−A|≦４の条件に該当し、ペナルテ
ィー０・チャンク2: Ｅ音素列第２チャンク｛PX｝が子音で終わつているの
で、D4より＋ｖの母音を補足して比較する。

従つて、Ｊ母音音素＝ｕとＥ補足母音音素（＋ｖ）＝ｕ
を比較することになり、（ａ）、（ｂ）、（ｃ）とも一
致し、ペナルティー０となる。

以上より相違度（“cup"−「カップ」）＝０となる。

43カナ表記結果２「コップ」と“cup"の相違度を求め
る。

Ｊ音素列は｛ｋ｝｛pu｝（｛｝はチヤンクを表わ
す）（ｉ）チャンク数は２で、一致する。

（ii）第１マッチング 3.の場合と同様にしてペナルティー０となる（iii）第２マッチング 3.の場合と比べると、チャンク１の母音部（）が違う
だけなので“”と“UH"の比較について述べる。

（ａ）ヨミ（Rv）のマッチング JRv＝ERv₁₂（UH:o）でERv₁₂の優先順位が２のためペナ
ルティーは＋１となる。

（ｂ）拗音の有無（F2）のマッチング F2（ｋ）＝F2（KXUH）＝０よりペナルティーは０とな
る。

（ｃ）母音音素の長さ（F3、F4）のマッチングＫ（）＝−６Ａ（UH:o）＝A1＋A2＝−１＋（１−０）＝０表９のＫ≠０かつ|K−A|＝６の条件に該当し、ペナルテ
ィーは＋１となる。

以上より相違度（“cup"−「コップ」）＝＋１＋１＝２
となる。

5.カナ表記結果３「カープ」と“cup"の相違度を求め
る。

Ｊ音素列は｛ｋ｝｛pu｝（｛｝はチャンクを表わ
す）（ｉ）チャンク数は２で、一致する。

（ii）第１マッチング 3.の場合と同様にして、ペナルティー０となる。

（iii）第２マッチング 3.の場合と比べて、チャンク１の母音部（）が違うだ
けなので“”と“UH"の比較について述べる。

（ａ）ヨミ（Rv）のマッチング JRv＝ERv₁₁（UH:a）で、ペナルテイー０（ｂ）拗音の有無（F2）のマッチング F2（ｋ）＝F2（KXUH）＝０で、ペナルティー０（ｃ）母音音素の長さ（F3、F4）のマッチングＫ（）＝＋６Ａ（UH:a）＝A1＋A2＝−１＋（１−２）＝−２表９のＫ≠０かつ|K−A|＞７（ii）（ａ）に該当し、ペ
ナルティーは＋３となる。

以上より相違度（“cup"−「カップ」）＝３となる。

6.D7のしきい値を使つて“cup"と上記３つのカナ表記と
の対応関係判定を行なうと、「カップ」、「コップ」は
対応する “cup"と「カープ」は対応の可能性がある（似ている）
となる。

D9.辞書との併用原音とかけはなれたヨミを生じさせる表記が定着した外
来語、例えば“salad"と「サラダ」、“dollar"と「ド
ル」の場合は、辞書を併用することによつて精度を上げ
ることができる。このような外来語は、既に日本語であ
るという意識の強いものであり、数も限られているた
め、このような辞書を用意するのは、容易である。

D10.カナ表記間の対応関係判定システムカタカナ表記−ひらがな表記、カタカナ表記−カタカナ
表記間の対応関係判定について述べる。ひらがなとカナ
カタは一対一対対応であるので、カタカナ表記間の対応
関係判定についてのみ、第２図、第３図を使つて説明す
る。

第２図、第３図の違いは、関連ヨミ対応手段の有無であ
る。対応関係判定の対象となる両音素列で、拗音の有
無、母音音素のヨミ（促音、長音の違いは無視する）で
一致しないものがあるとき、これを使う。

以下、D11〜D15で、第２図に示された各手段の詳細を説
明する。

D11.日本語音素列生成手段 D2と同様に行なう。

D12.関連ヨミ対応手段 D11で得た日本語音素列のどちらか一方を入力とす
る。

の日本語音素列のうち、表10のX1に一致し、かつ
＜条件＞を満たすものがあるとき、関連ヨミ（X2）を対
応させる。

ｘがｊ以外の日本語音素（列）を表わすとすると、D4−
で述べた表現形式のＲ、Fiとの関係は、次のとおりで
ある。

ｘ→ヨミ（Ｒ）＝ｘ、F2（拗音）＝０、F3（促音）＝
０、F4（長音）＝０ →ヨミ（Ｒ）＝ｘ、F2（拗音）＝０、F3（促音）＝
０、F4（長音）＝６ →ヨミ（Ｒ）＝ｘ、F2（拗音）＝０、F3（促音）＝
６、F4（長音）＝０Ｘをｘ、、のどれかを表わすとすると Xj→ヨミ（Ｒ）＝ｘ、F2（拗音）＝３、F3＝F3（Ｘ）、
F4＝F4（Ｘ）例「レポート」（｛re｝｛ｐ｝｛to｝）の‘e'が表
10のｅ→ｉ（F1＝２）＜３チャンク以上から構成されてお
り、かつ‘e'の後続子音がｋ、ｔ、ｐ、ｓ、ｈである。
＞に該当するため、‘i'を関連ヨミとみなし、変換結果は
次のようになる。

で得た結果をメモリの作業域に格納する。

D13.音素レベル相違度計算手段 D11で得た日本語音素列（Ｊ音素列という）とD12
で得た日本語音素列（Ｊ′音素列という）を入力とす
る。

Ｊ音素列、Ｊ′音素列の相違度を、以下の手順に従
つて計算する。

最初にチャンク数マッチングを行なう（Ｉ）チャンク数が２以上異なる場合、（II）チヤン
ク数が１異なる場合の処理は、D6−−１の（Ｉ）（I
I）と同様。

（III）チャンク数が一致している場合、（１）第１マッチング D6−−２と同様に行なう。

（２）第２マッチング（１）の第１マッチングで、すべてのチャンクの子音部
が一致したとみなされた場合、Ｊ音素列、Ｊ′音素列に
ついて次の３項目のマッチングを行なう。相違度は該当
項目のペナルテイーの総和とする。

（ａ）母音部のヨミ（Rv）のマッチングマッチングのし
かたはD6−−３−（ａ）と同様。（Ｊ′RvがERvに当
たる。）ペナルテイーは、表６のかわりに表11を使う。

（ｂ）拗音の有無（F2）のマッチングD6−−３−
（ｂ）と同様（ｃ）各チャンク最後の母音音素の長さ（F3、F4）のマ
ッチングＪ音素列の各チャンク最後の母音音素の長さをＫ、Ｊ′
音素列の各チャンク最後の母音音素の長さをＫ′とする
とき（Ｋ、Ｋ′の定義は、D6−−３−（ｃ）と同様
（F4−F3）とする）、Ｋ、Ｋ′の組み合わせによるペナ
ルテイーを表12のように定める。

で得た相違度をメモリの作業域に格納する。

D14.文字表記レベルでの対応関係判定手段D7と同様に行
なう。

D15.対応関係判定の具体例（カナ表記結果同士の比較）カナ表記結果「レポート」と「リポート」の対応関係判
定を行なう。

1.上記のカナ表記結果を、D11日本語音素生成手段によ
り音素列に変換する。

「レポート」のＪ音素列＝repto 「リポート」のＪ′音素列＝ripto 2.J音素列（repto）をD4−の表現形式に変換する。

音素ヨミ(Rc/v)： F1 ： F2 ： F3 ： F4 (拗音) (促音) (長音) ｒ Rc＝ｒ：：０：ｅ Rv＝ｅ：：：０：０ｐ Rc＝ｐ：：０： Rv＝ｏ：：：０：６ｔ Rc＝ｔ：：０：ｏ Rv＝ｏ：：：０：０ 3.2と同様にしてＪ′音素列（ripto）をD4−の表現形式に変換す
る。

4.J′音素列にD12関連ヨミ対応手段を適用すると、該当
音素は“i"のみである。従つて以下の結果を得る。

音素ヨミ(Rc/v)： F1 ： F2 ： F3 ： F4 (促音) (拗音) (長音) ｉｉ：：：０：０ｉｅ：：：０：０その他の音素はＪ音素列と同じ。

5.2と４で得た結果についてD13音素レベル相違計算手段
により相違度を計算する。

Ｊ音素列のチャンクは｛re｝｛ｐ｝｛to｝Ｊ′音素列〃｛ri｝｛ｐ｝｛to｝となり、第１チャンクの母音音素“e"と“i"のみ異なつ
ているため、この２つのマッチングについてのみ述べ
る。

Ｊ音素ｅはＪ′音素ｉの関連ヨミｅ（優先順位＝２）と
一致しているため、表11よりペナルテイは＋２である。

以上より相違度（「レポート」−「リポート」）＝２と
なる。

6.D14文字表記レベルでの対応関係判定手段より、「レ
ポート」と「リポート」は“対応する”と判定する。

D16.他の文字表記への拡張以上、本発明をカナ表記間および英語表記−カナ表記間
の対応関係判定システムについて説明したが、他の表
記、例えば仏語表記−カナ表記間の同様のシステムに本
発明を適用することも可能である。その場合、上記の英
語音素列生成手段に代えて仏語音素列生成手段を準備す
る必要があるが、仏語つづりから仏語発音記号列を生成
するアルゴリズムは知られているので、準備は容易であ
る。

またカナと同様に、発音を基に作られた文字としてハン
グル文字があるが、本発明の思想をそのまま適用すれ
ば、英語表記−ハングル表記間対応関係判定システムを
作成することも可能である D17.適用例…日本語ワードプロセツサにおける校正シ
ステムの一機能日本語ワードプロセツサの校正システムに、本発明を適
用して、外来語表記のばらつき検出を行なう例を第４図
を使つて説明する。

第４図の符号：説明 1:ユーザはキーボードを使つてコンピユータに、日本語
テキストを入力する。

2:システムは、入力されたテキストより、カタカナ列
（カタカナ表記結果）、アルフアベツト列（ここでは英
語表記結果とする）をとり出す。

3:2で得た表記結果の任意の２つの組み合わせ中、アル
フアベツト列−アルフアベツト列の組み合わせを除いた
ものすべての対に対して、４〜６に従つて相違度計算を
行なう。

4:チャンク数マッチングを行なう。ペナルテイーの総和
を相違度とする。

5:4で一致したとみなされるものについてのみ、第１マ
ッチングを行なう。相違度にペナルテイーを加算する。

6:5で一致したとみなされるものについてのみ、第２マ
ッチングを行なう。相違度にペナルテイーを加算する。

7:相違度が、あらかじめ定めたしきい値以下なら、これ
らの表記結果は、同一語の表記のばらつきであると判定
する。

8:7で表記のばらつきと判定された表記結果対につい
て、デイスプレイ装置を通じて、例えば文字表示の色を
変えることによつて、ユーザに警告する。

9:ユーザは、警告に従つて、必要であれば表記結果を統
一する。

10:システムは、修正されたテキストを例えばデイスクD
1に書き込み、保存する。

D18.適用例…情報検索システム本発明の文献検索システムへの適用例を第５図を使つて
説明する。ただし、入力キーワードがカタカナ表記か英
語表記の場合にのみ、本発明を適用した効果が得られる
ので、以下、キーワードがこれらの表記のどちらかで書
かれていると仮定する。

第５図の符号：説明 11:ユーザはキーボードよりコンピユータに、検索した
い文献のキーワードを入力する。（Ｉ−KWDとする） 12:システムは文献データベースD2から、各文献のキー
ワードを読み込む。これをＰ−KWDij;i:文献番号、j:キ
ーワード番号とする） 13:P−KWDijとＩ−KWDの相違度を計算する。

14:相違度があらかじめ定めたしきい値以下なら、この
対は対応するとみなす。

15:対応するとみなされたキーワード（Ｐ−KWDij）をも
つ文献（ｉ）の情報を、文献データベースから読み込
む。

16:デイスプレイ端末に15で得た情報を表示する。

従来のシステムでは、Ｉ−KWDと完全に一致したＰ−KWD
ijしか許さなかつたため、キーワードに表記のばらつき
がある場合、それらをすべて文献キーワードに含むか、
ユーザに統一表記で入力するよう要請するしかなかつ
た。しかし、このシステムでは、カナ、英語表記間のば
らつきについて相違度が計算できるので、ユーザは例え
ば入力キーワード「フアジ」で文献キーワード「フアジ
ー」、「ハジ」、“fuzzy"などをもつ文献を得ることが
できる。

E.効果本発明によれば、辞書を用いた従来の文字表記結果対応
関係判定システムと比較して、・あらかじめ外来語表記辞書を作る必要がない・新造語、派生語、固有名詞の辞書への登録といつた継
続的更新の必要がないという長所がある。

さらに、本発明をカナ表記結果同士の判定システムに限
つて適用した場合でも、従来の統一表記間での対応関係
（一致・不一致）を判定するシステムに比べて・適当なしきい値を設定することにより、表記のばらつ
きと判定するものの範囲を変えることができる。

・また、より対応関係の強いものから順に表示できるという長所がある。

【図面の簡単な説明】

第１図は、本発明を適用した英語表記−カナ表記間の対
応関係判定システムの実施例を示すための図、第２図および第３図は、本発明を適用した、カナ表記間
の対応関係判定システムの実施例を示すための図、第４図は、本発明の日本語ワードプロセツサにおける校
正システムへの適用例を説明するための図、第５図は、本発明の情報検索システムへの適用例を説明
するための図である。

Claims

【特許請求の範囲】

【請求項１】第一の文字表記法による表記結果と第二の
文字表記法による表記結果の対応関係を判定するシステ
ムであって、（ａ）第一の文字表記法による表記結果を第一の音素群
から選んだ音素からなる音素列に変換する手段と、（ｂ）第二の文字表記法による表記結果を第２の音素群
から選んだ音素からなる音素列に変換する手段と、（ｃ）上記第二の音素群の各音素に対応する第一の音素
群のなかの一又は複数の音素を生成するためのテーブル
手段と、（ｄ）上記（ａ）の手段を使って上記第一の文字表記法
による表記結果を変換して得られた音素列と、上記
（ｂ）及び（ｃ）の手段を使って上記第二の文字表記法
による表記結果を変換して得られた一又は複数の音素列
とを比較して、上記第一の音素群レベルでの相違度を計
算する手段と、（ｅ）上記第一の音素群レベルでの相違度に基づいて、
上記第一の文字表記法による表記結果と上記第二の文字
表記法による表記結果の対応関係を判定する手段とを備えたことを特徴とする文字表記結果の対応関係判
定システム。
【請求項２】第一の文字表記法による表記結果と第二の
文字表記法による表記結果の対応関係を判定するシステ
ムであって、（ａ）第一の文字表記法による表記結果を一群の音素か
ら選んだ音素からなる音素列に変換する手段と、（ｂ）第二の文字表記法による表記結果を一群の音素か
ら選んだ音素からなる音素列に変換する手段と、（ｃ）上記一群の少なくとも一部を占めるサブ・グルー
プの音素毎に、当該音素と関連性を持つ上記一群の音素
の中の一又は複数の音素を生成するためのテーブル手段
と、（ｄ）上記（ａ）の手段を使って上記第一の文字表記法
による表記結果を変換して得られた音素列と、上記
（ｂ）及び（ｃ）の手段を使って上記第二の文字表記法
による表記結果を変換して得られた一又は複数の音素列
とを比較して、上記一群の音素レベルでの相違度を計算
する手段と、（ｅ）上記一群の音素レベルでの相違度に基づいて、上
記第一の文字表記法による表記結果と上記第二の文字表
記法による表記結果の対応関係を判定する手段とを備えたことを特徴とする文字表記結果の対応関係判
定システム。
【請求項３】同一の文字表記法（カタカナ表記とひらが
な表記とは同一の文字表記法とする）による第一の表記
結果と第二の表記結果の対応関係を判定するシステムで
あって、（ａ）上記文字表記法による表記結果を一群の音素から
選んだ音素からなる音素列に変換する手段と、（ｂ）上記一群の少なくとも一部を占めるサブ・グルー
プの音素毎に、当該音素と関連性を持つ上記一群の音素
の中の一または複数の音素を生成するためのテーブル手
段と、（ｃ）上記（ａ）の手段を使って上記第一の表記結果を
変換して得られた音素列と、上記（ａ）及び（ｂ）の手
段を使って上記第二の表記結果を変換して得られた一又
は複数の音素列とを比較して、上記一群の音素レベルで
の相違度を計算する手段と、（ｄ）上記一群の音素レベルでの相違度に基づいて、上
記第一の表記結果と上記第二の表記結果の対応関係を判
定する手段とを備えたことを特徴とする文字表記結果の対応関係判
定システム。
【請求項４】第一の文字表記法による表記結果と第二の
文字表記法による表記結果の対応関係を判定するシステ
ムであって、（ａ）第一の文字表記法による表記結果を一群の音素か
ら選んだ音素からなる音素列に変換する手段と、（ｂ）第二の文字表記法による表記結果を一群の音素か
ら選んだ音素からなる音素列に変換する手段と、（ｃ）上記（ａ）の手段を使って上記第一の文字表記法
により表記結果を変換して得られた音素列と、上記
（ｂ）の手段を使って上記第二の文字表記法による表記
結果を変換して得られた音素列とを比較して、上記一群
の音素レベルでの相違度を計算する手段と、（ｄ）上記一群の音素レベルでの相違度に基づいて、上
記第一の文字表記法による表記結果と上記第二の文字表
記法による表記結果の対応関係を判定する手段とを備えたことを特徴とする文字表記結果の対応関係判
定システム。
【請求項５】同一の文字表記法（カタカナ表記とひらが
な表記とは同一の文字表記法とする）による表記結果同
士の対応関係を判定するためのシステムであって、（ａ）上記文字表記法による表記結果を一群の音素から
選んだ音素からなる音素列に変換する手段と、（ｂ）上記（ａ）の手段を使って表記結果を変換して得
られた音素列同士を比較して、上記一群の音素レベルで
の相違度を計算する手段と、（ｃ）上記一群の音素レベルでの相違度に基づいて、上
記文字表記法による表記結果同士の対応関係を判定する
手段とを備えたことを特徴とする文字表記結果の対応関係判
定システム。