JPH07200615A

JPH07200615A - 言語抽出方法

Info

Publication number: JPH07200615A
Application number: JP5352484A
Authority: JP
Inventors: Noriko Yoshii; 典子吉井
Original assignee: Individual
Current assignee: Individual
Priority date: 1993-12-28
Filing date: 1993-12-28
Publication date: 1995-08-04

Abstract

(57)【要約】【目的】外国語の単語において、発音が近似して綴り
が異なる単語を、簡易に抽出する方法を得る。【構成】発音が似通ったカタカナ文字と外国語文字ど
うしを、発音の近似度に基づいて対称表にまとめ、これ
らを検索式の要素として発音近似単語の抽出を行なう。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】英仏独語等の外国語の単語はその
発音と近似した発音をする他の綴りの単語が多数ある。
このためにとかく日本人にとってはその区別の困難さに
より日常の経済活動等において支障を来たすことがあ
る。本発明はこの問題を緩和するために近似発音単語を
簡易にチェックする方法を提供しようとするものであ
る。

【０００２】

【従来の技術】従来この問題の対処法として、外国語の
単語をすべてカタカナ文字に置換え、カタカナ文字のみ
において近似比較検索する方法が取られてきた。しかし
ながらこの方法は、外国語の単語をカタカナ文字に置換
える初期作業に置いて誤差が生じ易い欠点がある。また
上記欠点の対応策として、外国語の単語を一文字ごとに
全アルファベット等に置換える試みもあるが、この方法
は作業量の膨大さと所謂抽出ノイズの多大さが問題とな
る。

【０００３】

【課題を解決するための手段】本発明は発音が近似して
綴りの異なる外国語の単語を機械的に抽出するために、
カタカナ文字と外国文字を予めそれらの発音に基づいて
対称表にまとめておき、これらを検索式の要素として用
いることにより、その目的を達成しようをするものであ
る。

【０００４】

【作用】この構成は次の通りである。アルファベット等
で綴られた外国語のある単語の読み方をカタカナ文字で
表記する。つまりふりがなを付ける事になる。このふり
がなのカタカナ文字を清音、濁音、拗音、長音の単位で
区切る。更にこの各カタカナ文字単位を、後に述べる対
称表から取り出した対応アルファベット文字単位に置換
える。これにより発音が近似して綴りが異なる多数の単
語が作成される。作成された多数の単語を、チェックす
べき単語群の中に検索式等を用いて投入する。検索の実
行により発音が近似して綴りの異なる単語が単語群の中
から自動的に抽出される。

【０００５】上記の対称表とは、「カタカナ直音４８文
字、およびこれらから派生する濁音、拗音、長音」と、
これらが有する発音に近似した発音を有する「アルファ
ベット２６文字およびその結合綴り」とを互に対応させ
て集合した表である。

【０００６】

【実施例】本発明の詳しい説明を具体例に従い述べる。
いま仮に「ＪＵＬＹＢＯＮ」という外国語の単語があ
り、この単語が有する読み方と近似する読み方を有する
他の綴りの単語を、デ−タベ−ス等の単語群の中から抽
出したい場合を想定してみる。１．先ず「ＪＵＬＹＢＯＮ」を発音してみる。そしてこ
れをカタカナ文字で「ジュリ−ボン」と表記する。２．「ジュリ−ボン」を直音、濁音、拗音、長音単位に
区切る。（１）「ジュ」（拗音）、（２）「リ−」（長音）、
（３）「ボ」（濁音）、（４）「ン」（直音）３．対称表より対応するアルファベット文字および綴り
を取り出す。（１）「ジュ」ＪＵ、ＤＵ、ＳＵ、ＪＥ、ＧＥ、Ｊ
Ａ、ＪＯ（２）「リ−」ＬＥＡ、ＲＩ、ＬＩ、ＬＹ、ＲＹ（３）「ボ」ＢＯ、ＰＯ、ＶＯ、ＰＯＲ（４）「ン」Ｍ、Ｎ、ＮＥ、ＭＵ、ＮＵ４．上記のアルファベット文字および綴りを、順列組み
合せに従って置換配列し、発音が近似して綴りの異なる
単語を可能な限り多数作成する。（例）ＪＵＲＹＶＯＭ、ＤＵＬＩＰＯＮＥ、ＪＥＬＹＢ
ＯＭ‥‥‥ ５．作成した単語を要素にして検索式を作成し、これを
デ−タ−ベ−ス等の単語群に投入し、機械検索を行い目
的の単語を抽出する。

【０００７】上記は一例であるが、この方法はほとんど
の外国語の近似発音単語の抽出作業に対して有効であ
る。なぜならばあらゆる外国語の単語はカタカナ文字に
より表記することが可能であり、かつ対称表は直音、濁
音、拗音、長音のすべてを備えているからである（対称
表の全体は量が多いために表示せず）。

【０００８】この方法をより効果的に用いるために次の
提案がある。上記の例は対称表の構成として（１）「ジ
ュ」のカタカナ拗音表記に対してＤＵ、ＳＵ、ＪＥ、Ｇ
Ｅ、ＪＡ、ＪＯの６個のアルファベット文字綴りを供給
したが、この供給個数は任意に選択できることが好まし
い。つまり対称表の各カタカナ文字にはできる限り多く
の近似発音アルファベット文字および綴りを対応させて
おく。そして実際に置換供給するときは、その中から選
択的に行う。このとき対称表の構成を次の様にしておけ
ば運用において有効である。

【０００９】カタカナ文字に対応するアルファベット文
字をできる限り多く用意し、このアルファベット文字に
それに対応するカタカナ文字の発音に近似した度合いに
応じて数値表示をしておく。そして置換供給にあたって
は必要度に応じて数値表示を基に供給個数を制御する。
この方法により抽出作業を、抽出目的とする単語に近似
させたい程度に応じ、自在に調整して行うことができる
ものである。

【００１０】

【発明の効果】以上述べたように、本発明は発音が近似
するが綴りの異なる外国語の単語を単語群から抽出する
ときに、検索したい基本となる単語にカタカナ文字でふ
りがなを記すだけで、後は作業テ−ブルに添った機械的
作業により容易に行なわれるものである。また対称表は
カタカナ文字と外国文字とを近似許容範囲を大きく設定
して対応させたものであるから、多少変則的な綴りの単
語でも洩らすことなく抽出できるものである。更に近似
許容範囲の設定が大きいといっても、外国語の単語を一
文字づつを全部置換えて検索する場合に較べ、その検索
作業量と検索ノイズは大幅に小さいものである。本発明
は上記のような長所を有するので経済、学術活動等にお
いて実用性の高いものである。

Claims

【特許請求の範囲】

【請求項１】検索しようとする外国語の単語の読み方
を、カタカナ文字により清音、濁音、拗音、長音で表記
し、更にこの各カタカナ文字を発音が近似する外国語の
文字と置換えて綴りの異なる発音近似単語を多数作成
し、これらの単語を検索式の要素として、単語群から綴
りが異なり発音が近似する外国語の単語を抽出する方
法。