JPH07113925B2 - 文字表記結果の対応関係判定システム - Google Patents

文字表記結果の対応関係判定システム

Info

Publication number
JPH07113925B2
JPH07113925B2 JP63215194A JP21519488A JPH07113925B2 JP H07113925 B2 JPH07113925 B2 JP H07113925B2 JP 63215194 A JP63215194 A JP 63215194A JP 21519488 A JP21519488 A JP 21519488A JP H07113925 B2 JPH07113925 B2 JP H07113925B2
Authority
JP
Japan
Prior art keywords
notation
phoneme
result
character
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63215194A
Other languages
English (en)
Other versions
JPH0264867A (ja
Inventor
悦子 大深
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP63215194A priority Critical patent/JPH07113925B2/ja
Publication of JPH0264867A publication Critical patent/JPH0264867A/ja
Publication of JPH07113925B2 publication Critical patent/JPH07113925B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 A.産業上の利用分野 本発明は、同一または異なる文字表記法による表記結果
同士の対応関係を判定するシステムに関し、さらに詳し
くは文字表記結果を音素列に変換し、音素レベルでの相
違度を計算することによつて文字表記結果の対応関係を
判定するシステムに関する。ここでいう対応関係は、対
応する・しない(対応関係あり・なし)という2値的に
判定されるものであつてもよいし、相違度に応じてより
細かく、例えば、対応関係強・弱・なしのように判定さ
れるものであつてもよい。
B.従来技術およびその問題点 日本語のカナ等の音標文字による表記を使つて、外来語
を表記する場合、複数の表記のしかたがあることが多
い。原表記結果“interview"を例にとると、その表記に
は、 interview インタビュ、インタヴュ、 インタビュウ、インタヴュウ インタビュー、インタヴュー インタービュー、インターヴュー などがある。これらの複数の表記結果は、すべて同一御
“interview"を表わしているが、例えば“インタビー
ン”は、これを表わしていない。
このような、表記結果同士が同一語を表わしているかど
うかの判定を求められている場として、日本語ワードプ
ロセツサにおける校正システムや情報検索システムがあ
る。
従来の校正システムでは、田中他「科学技術文献抄録に
おける片仮名列の解析」(計量国語学Vol.14、No.1、19
83)でも指摘されているように、<原表記結果−カナ表
記結果<対を登録する辞書式が使われていた。また従来
の情報検索においても、辞書式が、特開昭62−11932号
公報に開示されている。
しかし、辞書式には、次のような問題点がある。
・新造語、派生語、固有名詞をすべて辞書に登録する必
要があるので、辞書を作る手間がかかり、継続的更新が
必要である。
・カナ表記が定まらない場合は、すべてのカナ表記を網
羅しなければならない。
一方、カナ表記結果同士の対応関係判定を行なう方法と
して、カナ表記結果のうち、上記公報で示唆されている
ような対応関係にあるものすべてを、辞書の1つのエン
トリーにおさめる方法の他に、統一表記を使うやり方も
ある。統一表記を得る方法は、後藤他「片仮名表記をと
る技術用語における表記の多様性」(三田図書館情報学
会大会、1985)の論文に開示されている。
これは処理対象のカナ列に対して、その先頭文字列から
逐次、交換規則(例えば、長音符合、促音削除、拗音の
大文字化、f音→h音、V音→b音の書き換えなど)を
適用して、統一表記結果を得る。そしてこの統一表記結
果同士の一致、不一致によつてカナ列同士の対応関係あ
り・なしの判定を行なうものである。
この方式には、次の問題点がある。
同一語を表わす表記群を、互いに異なる語と判断したい
ためには、なるべく多くの変換規則を設定する必要があ
るが、これによつて、異なる語を同一とみなしてしまう
確率が高くなる。
たとえば「オータナチブ」と「オルタナチブ」は、とも
に“alternative"を表わしている。これを統一するため
に(‘ル’→長音)という変換規則を追加すると、これ
は長音符合削除の規則と組み合わさつて(‘ル’→長音
→削除)となる。従つて、これを「バックル」に適用す
ると「バック」となり、この2つを区別できなくなる。
C.問題点を解決するための手段 本発明は上記問題点に鑑みなされたもので、比較対象の
文字表記結果を音素列に変換する手段と、音素レベルで
の相異度を計算する手段と、音素レベルでの相違度にも
とづいて文字表記結果同士の対応関係を判定する手段を
備えたことを特徴とする。
例えばカタカナ表記については、カタカナ表記結果を日
本語で用いる音素からなる音素列に変換する手段が用意
される。なお本明細書でいう日本語で用いる音素とは、
ヨミに促音、長音、拗音の概念を含めたもののことであ
る。
英語表記については、英語表記結果を英語で用いる音素
から音素列に変換する手段が用意される。カタカナ表記
結果と英語表記結果の対応関係を判定したい場合には、
英語で用いる各音素について対応する日本語の1または
複数の音素を生成するテーブル手段が用意される。
D.実施例 D1.英語表記−カナ表記間の対応関係判定システム 以下、本発明を英語表記−カナ表記間の対応関係判定シ
ステムに即して説明する。まず、同システムにより行な
われる一連の処理の流れを第1図に示す。D2〜D8で、第
1図に示された各手段の詳細を説明することにする。
D2.日本語音素列生成手段 カタカナ表記結果を、例えばキーボードから文字コ
ードの形で入力する。
各文字ごとに表1をひいて対応する音素列を得る。
(例「プレイヤー」→音素列:pureiy) 促音(ツ)長音(−)、拗音(ヤ、ユ、ヨ)は単独で使
われないので、音素とみなさない。直前の音素を‘X'と
すると、促音、長音はXの長さという形で、拗音はXの
拗音要素という形で扱う。
(D4参照) 表記は、 X→、X−→、 X→Xja、X→Xja、 X→Xjoとする。
で得た音素列の左から右へ、次に述べる変換規則
を適用して統一音素列を得る。
変換規則の主なものを次に挙げる。
1.母音にはさまれた長音削除規則 例 K ui→Kui 2.半母音(y、w)の変換規則 語頭以外のw→u 例 san!doci→san!doci 語頭以外のy→i 例 Purei a→Purei a 3.二重母音の変換規則 先行母音をv1、後続母音をv2とすると、母音列v1v2は表
2によつて変換される。
ここに 空白:無変換 :v+長音符合 ( ):省略可能 例 ao→ao ei→ ua→u、、ua、a 4.撥音(ン)に関する規則 ・ナ行、マ行の前の撥音削除(後藤他の上掲論文に開
示) 例 チャンネル→チャネル ・パ行、バ行の前のム(mu)→ン(n!) 例 ラムプ→ランプ 5.無声化しやすい母音に関する規則 ・kis→kus 例 テキスト→テクスト (tekisuto)(tekusuto) 例 「プレイヤー」 で得られた統一音素列を、与えられたカタカナ表
記結果の日本語音素列としてメモリ中の作業域に、一
旦、格納する。
D3.英語音素列生成手段 英語表記結果を、例えばキーボードから文字コード
の形で入力する。
英語のつづりから音素列を得る。
このアルゴリズムは既存で、例えば Elovitz他“Letter−to−Sound Rules for Automatic T
ranslation of English Text to Phonetics"(IEEE Tra
ns.Vol.ASSP−24、No.6、1976)などに開示されている
ので、詳細は、これらの文献を参照されたい。
本明細書では、英語音素として表3に示したたものを使
う。
で得られた音素列を、与えられた英語表記の英語
音素列として、メモリ中の作業域に一旦、格納する。
D4.英語音素、日本語音素対応テーブル手段 音素の表現形式 英語音素と日本語音素の比較をするため、音素の表現形
式を次のように定める。
子音音素(c)≡Rc+F1+F2 母音音素(v)≡Rv+F1+F3+F4 R(c):子音に属する音素に対応する、日本語でのヨ
ミ R(v):母音に属する音素に対応する、日本語でのヨ
ミ 日本語における促音、長音、拗音のj音は、ヨミに含め
ない 例「キャッ」を例にとると、 日本語音素列:kjで Rc=k、Rv=aとなる。
F1:1つの音素に対応する、日本語でのヨミが複数ある場
合の優先順位 F2:拗音(j音)の有無 F3:促音であるかないかを表わす。
F4:長音であるかないかを表わす 「キャッ」を例にとると 子音音素=Rc(ヨミ:k)+F1(優先順位:) +F2(拗音:j) 母音音素=Rv(ヨミ:a)+F1(優先順位:) +F3(促音:6)+F4(長音:0) D3で得た英語音素列を入力とする。
英語音素列を、表4よりで説明した表現形式に変
換する。
なお、表4の項目で @:音素の種類(c:子音、v:母音) +v:子音の次に母音がない場合、カタカナ表記上つける
母音を表わす。例えばcatの/t/は、日本語ではト=toと
表わされるので+v=‘o'となる。
母音音素のF2:先行子音に拗音要素を付加することを表
わす。英語、日本語音素レベル比較の際、先行子音のF2
に加えて用いられる。
英語音素列の各音素と、で得た交換結果を対にし
て、メモリの作業域に一旦、格納する。
例“cup" 英語音素列:KX UH PXとなり、これらの音素の変換結
果は以下のようになる。
音素:変換結果 PX:〔Rc(P)+F1()+F2(拗音:0)〕 D5.英語音素列の変換結果調整手段 D4で得た英語音素列変換結果を、音韻環境、つづ
りによつて調整する。以下、2つの調整項目について説
明する。
(1)音素に対応する日本語でのヨミに関する調整その
音素の前後の音韻環境、対応するつづりを考慮した調整
規則によりヨミの優先順位(F1)、拗音の可能性(F2)
を変更する。
以下に、調整規則の主なものを述べる。
規則は、音素:条件→条件を満たした場合とるべきアク
ション、の形で表現する。
MX:後続音素がPX、BX、MXである→F1(ヨミ:n!)=0 例:“lamp" はカナ表記では「ランプ」となる。
NX:後続音素がTX、DX、NXである→F1(ヨミ:n!)=0 例:“tent" はカナ表記では「テント」となる。
EE:対応するつづりが‘e'である→F1(ヨミ:e)=0 例:“meter"のカナ表記は「メーター」となる AE:先行音素がKX又はGXであり、かつ後続音素がPX、B
X、TX、DX、KX、GX、RXである→F2=2 先行音素がKX又はGXであり、かつ 後続音素が(PX、BX、TX、DX、KX、GX、RX)以外の子音
である→F2=1 UH:対応するつづりが‘a'である→ F1(ヨミ:a)=0 例 “China"のカナ表記は「チャイナ」でUHを‘a'と読
む。
対応するつづりが‘o'である→ F1(ヨミ:o)=0 例 “action"のカナ表記は「アクション」でUHを‘o'
と読む。
AA:後続音素がのばす音‘ー’である→ F1(ヨミ:a)=0 例 “part" のカナ表記は「パート」でAAを‘a'と読む。
(2)子音の直前あるいは語尾に位置する母音音素の長
さに関する調整 日本語において母音の長さは、単語を区別するための重
要な要素である。ここでは、その母音の長さについて、
以下に述べる調整規則により、母音長の調整値(A1とす
る)を計算する。この値は、D6音素レベル相違度計算に
おいて、F3(促音の有無)、F4(長音の有無)比較に使
う。
説明のために、対象となる単語の音素列を・・・vcv2
・・(v:調整すべき母音音素、c:後続子音音素、v2:cに
後続する母音音素)と表わす。
後続子音音素(c)がPX、TX、KXの場合 以上である→A1=0 後続子音音素(c)が(PX、TX、KX)以外の場合 英語音素と、で調整した変換結果および母音長の
調整値(A1)を対にして、メモリ中の作業域に格納す
る。
D6.音素レベル相違度計算手段 D2、で得た日本語音素列(以下J音素列とい
う)、およびD5で得た、調整済みの英語音素列変換結
果(以下、E音素列)を入力とする。
J音素列とE音素列の相違度を以下に述べる手順に
従つて計算する。最初にチャンクという概念を説明する −0 チャンクの概念 本明細書で使うチャンクとは、この音素列を各子音の先
頭で区切つて作った固まりを表わす。
例1 “alternative" 英語音素列はAW−LXTXERNX UHTXIXVXとなる。
子音は左から順にLX、TX、NX、TX、VXなのでAW−|LX|TX
ER|NXUH|TXIX|VXと6つのチャンクに分けられる。
例2 「オータナティブ」 日本語音素列は、tanatibuとなる。子音は左から順に
t、n、t、bなので|ta|na|ti|buと5つのチャンク
に分けられる。
例3 「キーウイ」の場合は子音が1つ(k)なので、
1チャンクとなる。
−1 音素レベル相違度計算の概略 J音素列とE音素列に対して チャンク数マッチングを行ない、チャンク数が一致した
ものに関して 第1マッチング (子音部のヨミRc) 第2マッチング を順に行ない、該当する項目に与えられたペナルテイー
の総和を相違度とする。
最初に、チャンク数マッチングを行なう。
(I) 両音素列のチヤンク数が2以上異なる場合、 これらの音素列をもつ表記結果は不一致とみなす。(相
違度=100×両音素列のチヤンク数の差) (II) 両音素列のチャンク数が1異なる場合、チャン
ク数が1多い方をX音素列、もう一方をX′音素列とす
ると、X音素列のどのチャンクがX′音素列と対応しな
いかを、以下の方法で決定する。X音素列の第1チャン
クから1つずつ順番にぬいて作つたチャンク列と、X′
音素列のチャンク列とに、第1マッチングを行なう。X
音素列から第iチャンクをぬいて作つたチャンク列のと
き、X′音素列のチャンク列と子音部が一致したとみな
されたとき(第1マッチングのペナルティーについて
は、後述する。)、第iチャンクを“対応しないチャン
ク”とみなす。
例えば“Keys"(第1チャンク:KXEE第2チャンク:ZX)
と「キー」「第1チャンク:K)の場合、“Keys"の第
2チャンク(ZX)が“対応しないチャンク”となる。
“対応しないチャンク”がない場合は、両表記は不一致
とみなす(相違度=100) “対応しないチャンク”がある場合、その子音部が表5
に記載されている場合は、X音素列から“対応しないチ
ャンク”をぬいたものとX′音素列について第2マッチ
ングを行なう。相違度は、第1マッチングでのペナルテ
イー総和+表5の該当ペナルテイー+第2マツチングで
のペナルテイー総和になる。
“対応しないチャンク”があつてかつその子音部が表5
に記載されていない場合は、両表記は不一致とみなす。
(相違度=100) (III) チャンク数が一致する場合、 第1マッチングを行なう。各チャンクの子音が一致する
とみなされたものについてのみ第2マッチングを行な
う。
相違度は、第1マッチングでのペナルテイーの総和+第
2マッチングでのペナルテイーの総和となる。
以下に第1マッチング、第2マッチングを説明する。
−2第1マッチング J音素列の子音部のヨミ(JRcとかく)と、E音素列の
子音部のヨミ候補(ERci)を第1チャンクから順に比較
する。ERciは表4のR(yomi)で与えられる。
例 「キャット」 従つてE音素列の第1チャンクの子音部(KX)のヨミ候
補は ERc1=k、ERc2=g、ERc3=c 第2チャンクの子音部(TX)のヨミ候補は ERc1=t、ERc2=c となる。
なお、国語審議会報告「外来語の表記」によると、 ティ(ti)→チ(ci)、ディ(di)→ジ(zi)と表わす
ことになる。従つてティのときはJRc=tまたはc、デ
ィのときはJRc=dまたはzとみなして比較する。
1.JRcがE音素列の該当チャンク子音部のヨミ候補ERci
中にない場合、 (i) JRcとERc1が単数−複数(t−c、d−z)の
関係のとき、ペナルティー(+2)で一致するとみな
す。
例「キャット」と“cats"の第2チャンクの子音部はJRc
=t、ERc1=cとなり、tとcはペナルティー2で一致
する。
(ii) JRcとERc1が有声−無声 の関係のとき 例「レディース」と“ladies"の第3チャンクの子音部
は、JRc=s、ERc1=zで上記の関係である。
(a)JRc、ERc1の少なくとも一方において、 この子音音素が有声音ならば直前または直後子音が無声
音、 この子音音素が無声音ならば直前または直後子音が有声
音 のとき、ペナルティー→+1とする。
これは直前/直後子音の有声、無声によつて該当子音の
有声無声が変わることがあるからである。
例「レディース」のJ音素例=redsuでdは有声音、
sは無声音なので、このsと“ladies"の第3チャンク
のERc1=zはペナルティー(+1)で一致する。
(b)(a)以外はペナルテイー→+3とする。
(iii) (i)(ii)に該当しないものは子音が違う
とみなす。(相違度=100) 2.JRcがERci中にある場合 JRc=ERcmとすると、 (i)ERcmの優先順位(F1)が0あるいは1のときペナ
ルテイー→0 (ii)ERcmの優先順位が2のとき (iii)ERcmの優先順位が3以上のとき、 −3 第2マッチング −2ですべてのチャンクの子音が一致したとみなされ
た場合、 J音素列、E音素列について、次の3項目のマッチング
を行なう。
(a)母音部のヨミ(Rv) (b)抑音の有無(F2) (c)各チャンク最後の母音音素の長さ(F3、F4) (a) 母音部のヨミ(Rv)のマッチング 第1チャンクから順にJ音素列の母音部のヨミ(JRv)
とE音素列の母音部を構成する音素jのヨミ候補(ERvj
k)を比較する。
説明のためJRv=v1v2…vn(viは日本語音素) n:JRvを構成する音素数、m:ERvを構成する音素数とす
る。
各ERvjのヨミ候補から任意に1つずつ選んで音素列 を作り、v1から順番にevx列と比較していく。ヨミのう
ち省略可能なもの(JRvの( )で囲まれた音素、evjk
=0のもの)は、対応するヨミが相手の音素列に見つか
らなければないものとして扱う。また、E音素列のチャ
ンクが子音で終わつている場合は表4のtvの母音を補つ
て比較する。
各evx列につき、JRvのdx番目の音素まで一致するヨミが
見つかつたとし、最大のdxをdとする。
例「キーウイ」(kui)と“key"(KXEE)の比較にお
いて、JRv=iui(v1=i、v2=u、v3=i、n=3)、 ERv=EE となり である。
従つてJRvとev1の比較においては v1=ev11よりd1=1、 JRvとev2の比較においては v1≠ev12よりd2=0、 同様にしてdn=0 よつてd=最大のdx=d1=1 以上のようにして、JRvのヨミと一致するERvjのヨミ候
補(evjkとする)が見つかるごとに、evjkの優先順位と
表6よりペナルテイーを求め、それを相違度に加算す
る。
ただし、D5−−(1)の調整によつて、優先順位が0
のものが、該当音素の別候補として存在している場合、
ペナルティーは(表6の値+1)とする。
また、d=nとなるevxが複数ある場合は、最小のペナ
ルティーをここでのペナルティーとする。
マッチング終了時に、以下の条件を満たす場合は、該当
するペナルティーを加算する。
(i) 2<nの場合 ・d=0のとき(n×3)のペナルティーを加算する ・d>0のとき((n−d)×2)のペナルテイーを加
算する (ii) d=nかつ、マッチングに使われなかつたE音
素がある場合(余つたE音素数×2)のペナルティー 上記の例、「キーウイ」(kui)と “key"(KXEE)では、 v1=ev11=iかつev11の優先順位=1よりペナルティー
0であるが、d=1、n=3より(i)d<nかつd>
0を満たし、(3−1)×2=4のペナルティーが加算
される。従つてペナルティー合計は4となる。
(b) 拗音の有無(F2)のマッチング J音素列とE音素列の対応チャンクにおいて、拗音の有
無(F2)により表7のとおりペナルティーを定める。
(c) 各チャンク最後の母音音素の長さ(F3、F4)の
マッチング (1)J音素列の母音音素の長さ(Kとする)の定義 K≡F4−F3 (2)E音素列の母音音素の長さ(Aとする)の定義 A≡A1+A2 A1:音韻環境、つづりによる調整値(D5−−(2)) A2:表4のF3、F4から表8によつて与えられる値 (c)ペナルティー計算 表9によつてペナルティーを与える。
ただし、日本語のカナ表記上、ティーをテー、ディをデ
ーと書くことがあるのでtiとt、diとdの組み合わ
せには、ペナルティーを与えない で得た相違度をメモリの作業域に格納する。
D7 文字表記レベルでの対応関係判定手段 D6で得た相違度を入力とする。
適用ケースによつて適当なしきい値を定める。
例えば、これを3とすると 相違度<3ならば両表記結果は対応するとみなす。
相違度=3ならば両表記結果は対応の可能性があるとみ
なす。
相違度>3ならば両表記結果は対応しないとみなす。
のように対応関係判定を行なう。
出力は、例えばユーザへの表示の形で行なう、具体
的な例としては校正システムにおいて「同一語に対する
複数表記結果が存在しています」という表示を出す、な
どが考えられる。適用例はD17、D18を参照されたい。
D8.判定の具体例(英語表記結果とカナ表記結果の比
較) 例1:カナ表記結果「ファジー」と英語表記結果“fuzzy"
の対応関係判定を行なう。
1.「ファジー」をD2.日本語音素列生成手段によりJ音
素列=hazに変換する。
2.“haz”をD4−の表現形式に変換する。
音素 ヨミ(Rc/v): F1 : F2 : F3 : F4 (拗音) (長音) (促音) h Rc=h : : 0 : a Rv=a : : : 0 : 0 z Rc=z : : 0 : Rv=i : : : 0 : 6 3.“fuzzy"をD3英語音素列生成手段によりE音素列=FX
UHZXEEに変換する。
4.D4英語恩素、日本語恩素対応テーブル手段により、表
4を使つてD4−の表現形式に変換する。
音素ヨミ(Rcv): F1 : F2 : F3 : F4 (拗音) (促音) (長音) FX Rc=h : : 0 : Rc=b : : 0 : UH Rv=a : : : 2 : 1 Rv=o : : : 0 : 1 Rv=u : : : 1 : 0 Rv=e : : : ? : ? Rv=ia: : : ? : ? ZX Rc=z : : 0 : Rc=s : : 0 : EE Rv=i : : : 1 : 3 Rv=ia: : : ? : ? Rv=ie: : : 0 : 2 Rv=e : : : 2 : 1 5.4で得た変換結果をD5英語音素列の変換結果調整手段
によつて以下のように変更する。
D5−−(1)該当項目なし D5−−(2)の該当母音はUH、EEである。
UH:D5−−(2)−(1)(ii)よりA1=0 EE:D5−−(2)−(1)(ii)よりA1=0 6.2で得た「ファジー」の表現と、4、5で得た“fuzz
y"の表現を使い、D6音素レベル相違度計算手段により以
下のように相違度を計算する。
(i) チャンクへの分割 「ファジー」→{ha}{z} “fuzzy"→{FXUH}{ZXEE} チャンク数は、2で一致しているので第1マッチングを
行なう。
(ii) 第1マッチング ・チャンク:hとFX である。
(JRc=ERc1)かつ(ERc1の優先順位=1)なのでペナ
ルティーは0となる。
・チャンク2:ZとZX である。
同様にしてペナルティーは0となる。
相違度=0+0=0で子音部が一致していることがわか
つた。
次に第2マツチングを行なう。
(iii) 第2マツチング ・チャンク1:aとUH (a)ヨミ(Rv)のマッチング JRv=a、 である。
(JRv=ERv11)かつ(ERv11の優先順位=1)なので、
ペナルテイーは0となる。
(b)拗音の有無(F2)のマッチング F2(ha)=0、F2(FXUH) =より、ペナルテイーは0となる。
(c)母音音素の長さ(F3、F4)のマツチング K(a)=0 A(UH:a)=A1+A2=0+(1−2)=−1 表9のK=0かつ|A|≦1の条件に該当するので、ペナ
ルティーは0となる。
・チャンク2:とEE (a)ヨミ(Rv)のマッチング JRv=i、 である。
(JRv=ERv11)かつ(ERv11の優先順位=1)なので、
ペナルティーは0となる。
(b)拗音の有無(F2)のマッチング F2(zi)=0、F2(ZXEE) =0よりペナルティーは0となる。
(c)母音音素の長さ(F3、F4)のマツチング K()=6 A(EE:i)A1+A2=0+(3−1)=2 表9のK≠0かつ|K−A|≦4の条件に該当するので、ペ
ナルティーは0となる。
以上より、相違度=0である。
7.D7文字表記レベルでの対応関係判定手段により「ファ
ジー」と“fuzzy"は対応すると判定される。
例2:英語表記結果“cup"に対して、 カナ表記結果1「カップ」、2「コップ」、3「カー
プ」の3つを入力した場合の判定を行なう。
1.“cup"のE音素列は{KXUH}{PX}({ }はチャン
クを表わす)となる。表4より変換結果 音素ヨミ(Rcv): F1 : F2 : F3 : F4 (拗音) (促音) (長音) KX Rc=h : : 0 : Rc=g : : 0 : Rc=c : : 0 : UH Rv=a : : : 2 : 1 Rv=o : : : 0 : 1 Rv=u : : 1 : 1 : 0 Rv=e : : : ? : ? Rv=ia: : : ? : ? PX Rc=P : : 0 : を得る。
2.調整規則を使つて1の変換結果を変更する。
D5−−(1):該当項目なし D5−−(2):対象となる母音音素はUH (1)(iii)よりA1=−1 3.カナ表記結果1「カップ」と“cup"の相違度を求め
る。
J音素列は{k}{pu}({ }はチヤンクを表わ
す) (i) チャンク数は2で等しいので、第1マツチング
を行なう。
(ii) 第1マッチング ・チャンク1:kとKXのマッチングによりペナルティー0 ・チャンク2:pとPXのマッチングによりペナルティー0 (iii) 第2マッチング ・チャンク1:とUH (a)ヨミ(Rv)のマッチング JRv=ERv11(UH:a)でペナルティー0 (b)拗音の有無(F2)のマッチング F2(k)=F2(KXUH)=0でペナルティー0 (c)母音音素の長さ(F3、F4)のマツチング K()=−6 A(UH:a)=A1+A2=−1+(1−2)=−2 表9のK≠0かつ|K−A|≦4の条件に該当し、ペナルテ
ィー0 ・チャンク2: E音素列第2チャンク{PX}が子音で終わつているの
で、D4より+vの母音を補足して比較する。
従つて、J母音音素=uとE補足母音音素(+v)=u
を比較することになり、(a)、(b)、(c)とも一
致し、ペナルティー0となる。
以上より相違度(“cup"−「カップ」)=0となる。
43カナ表記結果2「コップ」と“cup"の相違度を求め
る。
J音素列は{k}{pu}({ }はチヤンクを表わ
す) (i) チャンク数は2で、一致する。
(ii) 第1マッチング 3.の場合と同様にしてペナルティー0となる (iii) 第2マッチング 3.の場合と比べると、チャンク1の母音部()が違う
だけなので“”と“UH"の比較について述べる。
(a) ヨミ(Rv)のマッチング JRv=ERv12(UH:o)でERv12の優先順位が2のためペナ
ルティーは+1となる。
(b) 拗音の有無(F2)のマッチング F2(k)=F2(KXUH)=0よりペナルティーは0とな
る。
(c) 母音音素の長さ(F3、F4)のマッチング K()=−6 A(UH:o)=A1+A2=−1+(1−0)=0 表9のK≠0かつ|K−A|=6の条件に該当し、ペナルテ
ィーは+1となる。
以上より相違度(“cup"−「コップ」)=+1+1=2
となる。
5.カナ表記結果3「カープ」と“cup"の相違度を求め
る。
J音素列は{k}{pu}({ }はチャンクを表わ
す) (i)チャンク数は2で、一致する。
(ii)第1マッチング 3.の場合と同様にして、ペナルティー0となる。
(iii)第2マッチング 3.の場合と比べて、チャンク1の母音部()が違うだ
けなので“”と“UH"の比較について述べる。
(a)ヨミ(Rv)のマッチング JRv=ERv11(UH:a)で、ペナルテイー0 (b)拗音の有無(F2)のマッチング F2(k)=F2(KXUH)=0で、ペナルティー0 (c)母音音素の長さ(F3、F4)のマッチング K()=+6 A(UH:a)=A1+A2=−1+(1−2)=−2 表9のK≠0かつ|K−A|>7(ii)(a)に該当し、ペ
ナルティーは+3となる。
以上より相違度(“cup"−「カップ」)=3となる。
6.D7のしきい値を使つて“cup"と上記3つのカナ表記と
の対応関係判定を行なうと、「カップ」、「コップ」は
対応する “cup"と「カープ」は対応の可能性がある(似ている)
となる。
D9.辞書との併用 原音とかけはなれたヨミを生じさせる表記が定着した外
来語、例えば“salad"と「サラダ」、“dollar"と「ド
ル」の場合は、辞書を併用することによつて精度を上げ
ることができる。このような外来語は、既に日本語であ
るという意識の強いものであり、数も限られているた
め、このような辞書を用意するのは、容易である。
D10.カナ表記間の対応関係判定システム カタカナ表記−ひらがな表記、カタカナ表記−カタカナ
表記間の対応関係判定について述べる。ひらがなとカナ
カタは一対一対対応であるので、カタカナ表記間の対応
関係判定についてのみ、第2図、第3図を使つて説明す
る。
第2図、第3図の違いは、関連ヨミ対応手段の有無であ
る。対応関係判定の対象となる両音素列で、拗音の有
無、母音音素のヨミ(促音、長音の違いは無視する)で
一致しないものがあるとき、これを使う。
以下、D11〜D15で、第2図に示された各手段の詳細を説
明する。
D11.日本語音素列生成手段 D2と同様に行なう。
D12.関連ヨミ対応手段 D11で得た日本語音素列のどちらか一方を入力とす
る。
の日本語音素列のうち、表10のX1に一致し、かつ
<条件>を満たすものがあるとき、関連ヨミ(X2)を対
応させる。
xがj以外の日本語音素(列)を表わすとすると、D4−
で述べた表現形式のR、Fiとの関係は、次のとおりで
ある。
x→ヨミ(R)=x、F2(拗音)=0、F3(促音)=
0、F4(長音)=0 →ヨミ(R)=x、F2(拗音)=0、F3(促音)=
0、F4(長音)=6 →ヨミ(R)=x、F2(拗音)=0、F3(促音)=
6、F4(長音)=0 Xをx、、のどれかを表わすとすると Xj→ヨミ(R)=x、F2(拗音)=3、F3=F3(X)、
F4=F4(X) 例 「レポート」({re}{p}{to})の‘e'が表
10の e→i(F1=2)<3チャンク以上から構成されてお
り、かつ‘e'の後続子音がk、t、p、s、hである。
> に該当するため、‘i'を関連ヨミとみなし、変換結果は
次のようになる。
で得た結果をメモリの作業域に格納する。
D13.音素レベル相違度計算手段 D11で得た日本語音素列(J音素列という)とD12
で得た日本語音素列(J′音素列という)を入力とす
る。
J音素列、J′音素列の相違度を、以下の手順に従
つて計算する。
最初にチャンク数マッチングを行なう (I) チャンク数が2以上異なる場合、(II)チヤン
ク数が1異なる場合の処理は、D6−−1の(I)(I
I)と同様。
(III) チャンク数が一致している場合、 (1)第1マッチング D6−−2と同様に行なう。
(2)第2マッチング (1)の第1マッチングで、すべてのチャンクの子音部
が一致したとみなされた場合、J音素列、J′音素列に
ついて次の3項目のマッチングを行なう。相違度は該当
項目のペナルテイーの総和とする。
(a)母音部のヨミ(Rv)のマッチングマッチングのし
かたはD6−−3−(a)と同様。(J′RvがERvに当
たる。)ペナルテイーは、表6のかわりに表11を使う。
(b)拗音の有無(F2)のマッチングD6−−3−
(b)と同様 (c)各チャンク最後の母音音素の長さ(F3、F4)のマ
ッチング J音素列の各チャンク最後の母音音素の長さをK、J′
音素列の各チャンク最後の母音音素の長さをK′とする
とき(K、K′の定義は、D6−−3−(c)と同様
(F4−F3)とする)、K、K′の組み合わせによるペナ
ルテイーを表12のように定める。
で得た相違度をメモリの作業域に格納する。
D14.文字表記レベルでの対応関係判定手段D7と同様に行
なう。
D15.対応関係判定の具体例(カナ表記結果同士の比較) カナ表記結果「レポート」と「リポート」の対応関係判
定を行なう。
1.上記のカナ表記結果を、D11日本語音素生成手段によ
り音素列に変換する。
「レポート」のJ音素列=repto 「リポート」のJ′音素列=ripto 2.J音素列(repto)をD4−の表現形式に変換する。
音素 ヨミ(Rc/v): F1 : F2 : F3 : F4 (拗音) (促音) (長音) r Rc=r: : 0 : e Rv=e: : : 0 : 0 p Rc=p: : 0 : Rv=o: : : 0 : 6 t Rc=t: : 0 : o Rv=o: : : 0 : 0 3.2と同様にして J′音素列(ripto)をD4−の表現形式に変換す
る。
4.J′音素列にD12関連ヨミ対応手段を適用すると、該当
音素は“i"のみである。従つて以下の結果を得る。
音素 ヨミ(Rc/v): F1 : F2 : F3 : F4 (促音) (拗音) (長音) i i : : : 0 : 0 i e : : : 0 : 0 その他の音素はJ音素列と同じ。
5.2と4で得た結果についてD13音素レベル相違計算手段
により相違度を計算する。
J音素列のチャンクは{re}{p}{to} J′音素列 〃 {ri}{p}{to} となり、第1チャンクの母音音素“e"と“i"のみ異なつ
ているため、この2つのマッチングについてのみ述べ
る。
J音素eはJ′音素iの関連ヨミe(優先順位=2)と
一致しているため、表11よりペナルテイは+2である。
以上より相違度(「レポート」−「リポート」)=2と
なる。
6.D14文字表記レベルでの対応関係判定手段より、「レ
ポート」と「リポート」は“対応する”と判定する。
D16.他の文字表記への拡張 以上、本発明をカナ表記間および英語表記−カナ表記間
の対応関係判定システムについて説明したが、他の表
記、例えば仏語表記−カナ表記間の同様のシステムに本
発明を適用することも可能である。その場合、上記の英
語音素列生成手段に代えて仏語音素列生成手段を準備す
る必要があるが、仏語つづりから仏語発音記号列を生成
するアルゴリズムは知られているので、準備は容易であ
る。
またカナと同様に、発音を基に作られた文字としてハン
グル文字があるが、本発明の思想をそのまま適用すれ
ば、英語表記−ハングル表記間対応関係判定システムを
作成することも可能である D17.適用例…日本語ワードプロセツサにおける校正シ
ステムの一機能 日本語ワードプロセツサの校正システムに、本発明を適
用して、外来語表記のばらつき検出を行なう例を第4図
を使つて説明する。
第4図の符号:説明 1:ユーザはキーボードを使つてコンピユータに、日本語
テキストを入力する。
2:システムは、入力されたテキストより、カタカナ列
(カタカナ表記結果)、アルフアベツト列(ここでは英
語表記結果とする)をとり出す。
3:2で得た表記結果の任意の2つの組み合わせ中、アル
フアベツト列−アルフアベツト列の組み合わせを除いた
ものすべての対に対して、4〜6に従つて相違度計算を
行なう。
4:チャンク数マッチングを行なう。ペナルテイーの総和
を相違度とする。
5:4で一致したとみなされるものについてのみ、第1マ
ッチングを行なう。相違度にペナルテイーを加算する。
6:5で一致したとみなされるものについてのみ、第2マ
ッチングを行なう。相違度にペナルテイーを加算する。
7:相違度が、あらかじめ定めたしきい値以下なら、これ
らの表記結果は、同一語の表記のばらつきであると判定
する。
8:7で表記のばらつきと判定された表記結果対につい
て、デイスプレイ装置を通じて、例えば文字表示の色を
変えることによつて、ユーザに警告する。
9:ユーザは、警告に従つて、必要であれば表記結果を統
一する。
10:システムは、修正されたテキストを例えばデイスクD
1に書き込み、保存する。
D18.適用例…情報検索システム 本発明の文献検索システムへの適用例を第5図を使つて
説明する。ただし、入力キーワードがカタカナ表記か英
語表記の場合にのみ、本発明を適用した効果が得られる
ので、以下、キーワードがこれらの表記のどちらかで書
かれていると仮定する。
第5図の符号:説明 11:ユーザはキーボードよりコンピユータに、検索した
い文献のキーワードを入力する。(I−KWDとする) 12:システムは文献データベースD2から、各文献のキー
ワードを読み込む。これをP−KWDij;i:文献番号、j:キ
ーワード番号とする) 13:P−KWDijとI−KWDの相違度を計算する。
14:相違度があらかじめ定めたしきい値以下なら、この
対は対応するとみなす。
15:対応するとみなされたキーワード(P−KWDij)をも
つ文献(i)の情報を、文献データベースから読み込
む。
16:デイスプレイ端末に15で得た情報を表示する。
従来のシステムでは、I−KWDと完全に一致したP−KWD
ijしか許さなかつたため、キーワードに表記のばらつき
がある場合、それらをすべて文献キーワードに含むか、
ユーザに統一表記で入力するよう要請するしかなかつ
た。しかし、このシステムでは、カナ、英語表記間のば
らつきについて相違度が計算できるので、ユーザは例え
ば入力キーワード「フアジ」で文献キーワード「フアジ
ー」、「ハジ」、“fuzzy"などをもつ文献を得ることが
できる。
E.効果 本発明によれば、辞書を用いた従来の文字表記結果対応
関係判定システムと比較して、 ・あらかじめ外来語表記辞書を作る必要がない ・新造語、派生語、固有名詞の辞書への登録といつた継
続的更新の必要がない という長所がある。
さらに、本発明をカナ表記結果同士の判定システムに限
つて適用した場合でも、従来の統一表記間での対応関係
(一致・不一致)を判定するシステムに比べて ・適当なしきい値を設定することにより、表記のばらつ
きと判定するものの範囲を変えることができる。
・また、より対応関係の強いものから順に表示できる という長所がある。
【図面の簡単な説明】
第1図は、本発明を適用した英語表記−カナ表記間の対
応関係判定システムの実施例を示すための図、 第2図および第3図は、本発明を適用した、カナ表記間
の対応関係判定システムの実施例を示すための図、 第4図は、本発明の日本語ワードプロセツサにおける校
正システムへの適用例を説明するための図、 第5図は、本発明の情報検索システムへの適用例を説明
するための図である。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】第一の文字表記法による表記結果と第二の
    文字表記法による表記結果の対応関係を判定するシステ
    ムであって、 (a)第一の文字表記法による表記結果を第一の音素群
    から選んだ音素からなる音素列に変換する手段と、 (b)第二の文字表記法による表記結果を第2の音素群
    から選んだ音素からなる音素列に変換する手段と、 (c)上記第二の音素群の各音素に対応する第一の音素
    群のなかの一又は複数の音素を生成するためのテーブル
    手段と、 (d)上記(a)の手段を使って上記第一の文字表記法
    による表記結果を変換して得られた音素列と、上記
    (b)及び(c)の手段を使って上記第二の文字表記法
    による表記結果を変換して得られた一又は複数の音素列
    とを比較して、上記第一の音素群レベルでの相違度を計
    算する手段と、 (e)上記第一の音素群レベルでの相違度に基づいて、
    上記第一の文字表記法による表記結果と上記第二の文字
    表記法による表記結果の対応関係を判定する手段 とを備えたことを特徴とする文字表記結果の対応関係判
    定システム。
  2. 【請求項2】第一の文字表記法による表記結果と第二の
    文字表記法による表記結果の対応関係を判定するシステ
    ムであって、 (a)第一の文字表記法による表記結果を一群の音素か
    ら選んだ音素からなる音素列に変換する手段と、 (b)第二の文字表記法による表記結果を一群の音素か
    ら選んだ音素からなる音素列に変換する手段と、 (c)上記一群の少なくとも一部を占めるサブ・グルー
    プの音素毎に、当該音素と関連性を持つ上記一群の音素
    の中の一又は複数の音素を生成するためのテーブル手段
    と、 (d)上記(a)の手段を使って上記第一の文字表記法
    による表記結果を変換して得られた音素列と、上記
    (b)及び(c)の手段を使って上記第二の文字表記法
    による表記結果を変換して得られた一又は複数の音素列
    とを比較して、上記一群の音素レベルでの相違度を計算
    する手段と、 (e)上記一群の音素レベルでの相違度に基づいて、上
    記第一の文字表記法による表記結果と上記第二の文字表
    記法による表記結果の対応関係を判定する手段 とを備えたことを特徴とする文字表記結果の対応関係判
    定システム。
  3. 【請求項3】同一の文字表記法(カタカナ表記とひらが
    な表記とは同一の文字表記法とする)による第一の表記
    結果と第二の表記結果の対応関係を判定するシステムで
    あって、 (a)上記文字表記法による表記結果を一群の音素から
    選んだ音素からなる音素列に変換する手段と、 (b)上記一群の少なくとも一部を占めるサブ・グルー
    プの音素毎に、当該音素と関連性を持つ上記一群の音素
    の中の一または複数の音素を生成するためのテーブル手
    段と、 (c)上記(a)の手段を使って上記第一の表記結果を
    変換して得られた音素列と、上記(a)及び(b)の手
    段を使って上記第二の表記結果を変換して得られた一又
    は複数の音素列とを比較して、上記一群の音素レベルで
    の相違度を計算する手段と、 (d)上記一群の音素レベルでの相違度に基づいて、上
    記第一の表記結果と上記第二の表記結果の対応関係を判
    定する手段 とを備えたことを特徴とする文字表記結果の対応関係判
    定システム。
  4. 【請求項4】第一の文字表記法による表記結果と第二の
    文字表記法による表記結果の対応関係を判定するシステ
    ムであって、 (a)第一の文字表記法による表記結果を一群の音素か
    ら選んだ音素からなる音素列に変換する手段と、 (b)第二の文字表記法による表記結果を一群の音素か
    ら選んだ音素からなる音素列に変換する手段と、 (c)上記(a)の手段を使って上記第一の文字表記法
    により表記結果を変換して得られた音素列と、上記
    (b)の手段を使って上記第二の文字表記法による表記
    結果を変換して得られた音素列とを比較して、上記一群
    の音素レベルでの相違度を計算する手段と、 (d)上記一群の音素レベルでの相違度に基づいて、上
    記第一の文字表記法による表記結果と上記第二の文字表
    記法による表記結果の対応関係を判定する手段 とを備えたことを特徴とする文字表記結果の対応関係判
    定システム。
  5. 【請求項5】同一の文字表記法(カタカナ表記とひらが
    な表記とは同一の文字表記法とする)による表記結果同
    士の対応関係を判定するためのシステムであって、 (a)上記文字表記法による表記結果を一群の音素から
    選んだ音素からなる音素列に変換する手段と、 (b)上記(a)の手段を使って表記結果を変換して得
    られた音素列同士を比較して、上記一群の音素レベルで
    の相違度を計算する手段と、 (c)上記一群の音素レベルでの相違度に基づいて、上
    記文字表記法による表記結果同士の対応関係を判定する
    手段 とを備えたことを特徴とする文字表記結果の対応関係判
    定システム。
JP63215194A 1988-08-31 1988-08-31 文字表記結果の対応関係判定システム Expired - Lifetime JPH07113925B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63215194A JPH07113925B2 (ja) 1988-08-31 1988-08-31 文字表記結果の対応関係判定システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63215194A JPH07113925B2 (ja) 1988-08-31 1988-08-31 文字表記結果の対応関係判定システム

Publications (2)

Publication Number Publication Date
JPH0264867A JPH0264867A (ja) 1990-03-05
JPH07113925B2 true JPH07113925B2 (ja) 1995-12-06

Family

ID=16668241

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63215194A Expired - Lifetime JPH07113925B2 (ja) 1988-08-31 1988-08-31 文字表記結果の対応関係判定システム

Country Status (1)

Country Link
JP (1) JPH07113925B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10334122A (ja) * 1997-03-31 1998-12-18 Fujitsu F I P Kk 類似名検索システムおよび記録媒体

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4953431B2 (ja) * 2006-11-28 2012-06-13 ヤフー株式会社 品詞バリエーション生成装置
WO2022029848A1 (ja) * 2020-08-03 2022-02-10 日本電信電話株式会社 判定装置、判定方法、および、判定プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
「発明」Vol.76,No.8(1979−8)P.72−75

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10334122A (ja) * 1997-03-31 1998-12-18 Fujitsu F I P Kk 類似名検索システムおよび記録媒体

Also Published As

Publication number Publication date
JPH0264867A (ja) 1990-03-05

Similar Documents

Publication Publication Date Title
Shaffer Control processes in typing
Van Berkel et al. Triphone Analysis: A Combined Method for the Correction of Orthographical and Typographical Errors.
Alghamdi et al. Automatic restoration of arabic diacritics: a simple, purely statistical approach
Hasegawa-Johnson et al. Grapheme-to-phoneme transduction for cross-language ASR
JP5231698B2 (ja) 日本語の表意文字の読み方を予測する方法
JP4738847B2 (ja) データ検索装置および方法
Arısoy et al. A unified language model for large vocabulary continuous speech recognition of Turkish
Bugert et al. Generalizing cross-document event coreference resolution across multiple corpora
Elovitz et al. Automatic translation of English text to phonetics by means of letter-to-sound rules
Samudravijaya Indian language speech label (ILSL): a de facto national standard
Tufiş et al. DIAC+: A professional diacritics recovering system
KR100542757B1 (ko) 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
Zupan et al. How to tag non-standard language: Normalisation versus domain adaptation for slovene historical and user-generated texts
Dutta Word-level language identification using subword embeddings for code-mixed Bangla-English social media data
JPH07113925B2 (ja) 文字表記結果の対応関係判定システム
KR100793378B1 (ko) 외래어 발음 유사성 비교 및 추천 단어 방법 및 그 시스템
L’haire FipsOrtho: A spell checker for learners of French
KR101777141B1 (ko) 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법
Haverals et al. Data-driven syllabification for Middle Dutch
Lyes et al. Building a pronunciation dictionary for the Kabyle language
JP2022515048A (ja) 音声認識の訓練および採点のための音訳
Kaalep et al. You can’t suggest that?!: Comparisons and improvements of speller error models
WO2023228313A1 (ja) 言語処理方法、言語処理装置及びプログラム
CN1323004A (zh) 汉语盲文到汉字的自动转换方法
Hussein et al. How to identify elliptical poems within a digital corpus of auditory poetry