JPH07200615A - 言語抽出方法 - Google Patents
言語抽出方法Info
- Publication number
- JPH07200615A JPH07200615A JP5352484A JP35248493A JPH07200615A JP H07200615 A JPH07200615 A JP H07200615A JP 5352484 A JP5352484 A JP 5352484A JP 35248493 A JP35248493 A JP 35248493A JP H07200615 A JPH07200615 A JP H07200615A
- Authority
- JP
- Japan
- Prior art keywords
- words
- word
- katakana
- spelling
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 外国語の単語において、発音が近似して綴り
が異なる単語を、簡易に抽出する方法を得る。 【構成】 発音が似通ったカタカナ文字と外国語文字ど
うしを、発音の近似度に基づいて対称表にまとめ、これ
らを検索式の要素として発音近似単語の抽出を行なう。
が異なる単語を、簡易に抽出する方法を得る。 【構成】 発音が似通ったカタカナ文字と外国語文字ど
うしを、発音の近似度に基づいて対称表にまとめ、これ
らを検索式の要素として発音近似単語の抽出を行なう。
Description
【0001】
【産業上の利用分野】英仏独語等の外国語の単語はその
発音と近似した発音をする他の綴りの単語が多数ある。
このためにとかく日本人にとってはその区別の困難さに
より日常の経済活動等において支障を来たすことがあ
る。本発明はこの問題を緩和するために近似発音単語を
簡易にチェックする方法を提供しようとするものであ
る。
発音と近似した発音をする他の綴りの単語が多数ある。
このためにとかく日本人にとってはその区別の困難さに
より日常の経済活動等において支障を来たすことがあ
る。本発明はこの問題を緩和するために近似発音単語を
簡易にチェックする方法を提供しようとするものであ
る。
【0002】
【従来の技術】従来この問題の対処法として、外国語の
単語をすべてカタカナ文字に置換え、カタカナ文字のみ
において近似比較検索する方法が取られてきた。しかし
ながらこの方法は、外国語の単語をカタカナ文字に置換
える初期作業に置いて誤差が生じ易い欠点がある。また
上記欠点の対応策として、外国語の単語を一文字ごとに
全アルファベット等に置換える試みもあるが、この方法
は作業量の膨大さと所謂抽出ノイズの多大さが問題とな
る。
単語をすべてカタカナ文字に置換え、カタカナ文字のみ
において近似比較検索する方法が取られてきた。しかし
ながらこの方法は、外国語の単語をカタカナ文字に置換
える初期作業に置いて誤差が生じ易い欠点がある。また
上記欠点の対応策として、外国語の単語を一文字ごとに
全アルファベット等に置換える試みもあるが、この方法
は作業量の膨大さと所謂抽出ノイズの多大さが問題とな
る。
【0003】
【課題を解決するための手段】本発明は発音が近似して
綴りの異なる外国語の単語を機械的に抽出するために、
カタカナ文字と外国文字を予めそれらの発音に基づいて
対称表にまとめておき、これらを検索式の要素として用
いることにより、その目的を達成しようをするものであ
る。
綴りの異なる外国語の単語を機械的に抽出するために、
カタカナ文字と外国文字を予めそれらの発音に基づいて
対称表にまとめておき、これらを検索式の要素として用
いることにより、その目的を達成しようをするものであ
る。
【0004】
【作用】この構成は次の通りである。アルファベット等
で綴られた外国語のある単語の読み方をカタカナ文字で
表記する。つまりふりがなを付ける事になる。このふり
がなのカタカナ文字を清音、濁音、拗音、長音の単位で
区切る。更にこの各カタカナ文字単位を、後に述べる対
称表から取り出した対応アルファベット文字単位に置換
える。これにより発音が近似して綴りが異なる多数の単
語が作成される。作成された多数の単語を、チェックす
べき単語群の中に検索式等を用いて投入する。検索の実
行により発音が近似して綴りの異なる単語が単語群の中
から自動的に抽出される。
で綴られた外国語のある単語の読み方をカタカナ文字で
表記する。つまりふりがなを付ける事になる。このふり
がなのカタカナ文字を清音、濁音、拗音、長音の単位で
区切る。更にこの各カタカナ文字単位を、後に述べる対
称表から取り出した対応アルファベット文字単位に置換
える。これにより発音が近似して綴りが異なる多数の単
語が作成される。作成された多数の単語を、チェックす
べき単語群の中に検索式等を用いて投入する。検索の実
行により発音が近似して綴りの異なる単語が単語群の中
から自動的に抽出される。
【0005】上記の対称表とは、「カタカナ直音48文
字、およびこれらから派生する濁音、拗音、長音」と、
これらが有する発音に近似した発音を有する「アルファ
ベット26文字およびその結合綴り」とを互に対応させ
て集合した表である。
字、およびこれらから派生する濁音、拗音、長音」と、
これらが有する発音に近似した発音を有する「アルファ
ベット26文字およびその結合綴り」とを互に対応させ
て集合した表である。
【0006】
【実施例】本発明の詳しい説明を具体例に従い述べる。
いま仮に「JULYBON」という外国語の単語があ
り、この単語が有する読み方と近似する読み方を有する
他の綴りの単語を、デ−タベ−ス等の単語群の中から抽
出したい場合を想定してみる。 1.先ず「JULYBON」を発音してみる。そしてこ
れをカタカナ文字で「ジュリ−ボン」と表記する。 2.「ジュリ−ボン」を直音、濁音、拗音、長音単位に
区切る。 (1)「ジュ」(拗音)、(2)「リ−」(長音)、
(3)「ボ」(濁音)、 (4)「ン」(直音) 3.対称表より対応するアルファベット文字および綴り
を取り出す。 (1)「ジュ」 JU、DU、SU、JE、GE、J
A、JO (2)「リ−」 LEA、RI、LI、LY、RY (3)「ボ」 BO、PO、VO、POR (4)「ン」 M、N、NE、MU、NU 4.上記のアルファベット文字および綴りを、順列組み
合せに従って置換配列し、発音が近似して綴りの異なる
単語を可能な限り多数作成する。 (例)JURYVOM、DULIPONE、JELYB
OM‥‥‥ 5.作成した単語を要素にして検索式を作成し、これを
デ−タ−ベ−ス等の単語群に投入し、機械検索を行い目
的の単語を抽出する。
いま仮に「JULYBON」という外国語の単語があ
り、この単語が有する読み方と近似する読み方を有する
他の綴りの単語を、デ−タベ−ス等の単語群の中から抽
出したい場合を想定してみる。 1.先ず「JULYBON」を発音してみる。そしてこ
れをカタカナ文字で「ジュリ−ボン」と表記する。 2.「ジュリ−ボン」を直音、濁音、拗音、長音単位に
区切る。 (1)「ジュ」(拗音)、(2)「リ−」(長音)、
(3)「ボ」(濁音)、 (4)「ン」(直音) 3.対称表より対応するアルファベット文字および綴り
を取り出す。 (1)「ジュ」 JU、DU、SU、JE、GE、J
A、JO (2)「リ−」 LEA、RI、LI、LY、RY (3)「ボ」 BO、PO、VO、POR (4)「ン」 M、N、NE、MU、NU 4.上記のアルファベット文字および綴りを、順列組み
合せに従って置換配列し、発音が近似して綴りの異なる
単語を可能な限り多数作成する。 (例)JURYVOM、DULIPONE、JELYB
OM‥‥‥ 5.作成した単語を要素にして検索式を作成し、これを
デ−タ−ベ−ス等の単語群に投入し、機械検索を行い目
的の単語を抽出する。
【0007】上記は一例であるが、この方法はほとんど
の外国語の近似発音単語の抽出作業に対して有効であ
る。なぜならばあらゆる外国語の単語はカタカナ文字に
より表記することが可能であり、かつ対称表は直音、濁
音、拗音、長音のすべてを備えているからである(対称
表の全体は量が多いために表示せず)。
の外国語の近似発音単語の抽出作業に対して有効であ
る。なぜならばあらゆる外国語の単語はカタカナ文字に
より表記することが可能であり、かつ対称表は直音、濁
音、拗音、長音のすべてを備えているからである(対称
表の全体は量が多いために表示せず)。
【0008】この方法をより効果的に用いるために次の
提案がある。上記の例は対称表の構成として(1)「ジ
ュ」のカタカナ拗音表記に対してDU、SU、JE、G
E、JA、JOの6個のアルファベット文字綴りを供給
したが、この供給個数は任意に選択できることが好まし
い。つまり対称表の各カタカナ文字にはできる限り多く
の近似発音アルファベット文字および綴りを対応させて
おく。そして実際に置換供給するときは、その中から選
択的に行う。このとき対称表の構成を次の様にしておけ
ば運用において有効である。
提案がある。上記の例は対称表の構成として(1)「ジ
ュ」のカタカナ拗音表記に対してDU、SU、JE、G
E、JA、JOの6個のアルファベット文字綴りを供給
したが、この供給個数は任意に選択できることが好まし
い。つまり対称表の各カタカナ文字にはできる限り多く
の近似発音アルファベット文字および綴りを対応させて
おく。そして実際に置換供給するときは、その中から選
択的に行う。このとき対称表の構成を次の様にしておけ
ば運用において有効である。
【0009】カタカナ文字に対応するアルファベット文
字をできる限り多く用意し、このアルファベット文字に
それに対応するカタカナ文字の発音に近似した度合いに
応じて数値表示をしておく。そして置換供給にあたって
は必要度に応じて数値表示を基に供給個数を制御する。
この方法により抽出作業を、抽出目的とする単語に近似
させたい程度に応じ、自在に調整して行うことができる
ものである。
字をできる限り多く用意し、このアルファベット文字に
それに対応するカタカナ文字の発音に近似した度合いに
応じて数値表示をしておく。そして置換供給にあたって
は必要度に応じて数値表示を基に供給個数を制御する。
この方法により抽出作業を、抽出目的とする単語に近似
させたい程度に応じ、自在に調整して行うことができる
ものである。
【0010】
【発明の効果】以上述べたように、本発明は発音が近似
するが綴りの異なる外国語の単語を単語群から抽出する
ときに、検索したい基本となる単語にカタカナ文字でふ
りがなを記すだけで、後は作業テ−ブルに添った機械的
作業により容易に行なわれるものである。また対称表は
カタカナ文字と外国文字とを近似許容範囲を大きく設定
して対応させたものであるから、多少変則的な綴りの単
語でも洩らすことなく抽出できるものである。更に近似
許容範囲の設定が大きいといっても、外国語の単語を一
文字づつを全部置換えて検索する場合に較べ、その検索
作業量と検索ノイズは大幅に小さいものである。本発明
は上記のような長所を有するので経済、学術活動等にお
いて実用性の高いものである。
するが綴りの異なる外国語の単語を単語群から抽出する
ときに、検索したい基本となる単語にカタカナ文字でふ
りがなを記すだけで、後は作業テ−ブルに添った機械的
作業により容易に行なわれるものである。また対称表は
カタカナ文字と外国文字とを近似許容範囲を大きく設定
して対応させたものであるから、多少変則的な綴りの単
語でも洩らすことなく抽出できるものである。更に近似
許容範囲の設定が大きいといっても、外国語の単語を一
文字づつを全部置換えて検索する場合に較べ、その検索
作業量と検索ノイズは大幅に小さいものである。本発明
は上記のような長所を有するので経済、学術活動等にお
いて実用性の高いものである。
Claims (1)
- 【請求項1】 検索しようとする外国語の単語の読み方
を、カタカナ文字により清音、濁音、拗音、長音で表記
し、更にこの各カタカナ文字を発音が近似する外国語の
文字と置換えて綴りの異なる発音近似単語を多数作成
し、これらの単語を検索式の要素として、単語群から綴
りが異なり発音が近似する外国語の単語を抽出する方
法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5352484A JPH07200615A (ja) | 1993-12-28 | 1993-12-28 | 言語抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5352484A JPH07200615A (ja) | 1993-12-28 | 1993-12-28 | 言語抽出方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH07200615A true JPH07200615A (ja) | 1995-08-04 |
Family
ID=18424389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5352484A Pending JPH07200615A (ja) | 1993-12-28 | 1993-12-28 | 言語抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH07200615A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0749076A1 (en) * | 1995-06-12 | 1996-12-18 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for expanding character strings similar to a question character string |
KR100916816B1 (ko) * | 2008-03-14 | 2009-09-14 | 엔에이치엔(주) | 일본어 앨리어스 데이터베이스를 이용하여 장음 및 촉음에대한 오류를 줄이고 일본어 입력기 사용 시 단자 찾기기능을 제공하는 방법 및 시스템 |
JP2014176582A (ja) * | 2013-03-15 | 2014-09-25 | Nitto Denko Corp | 聴力検査装置、聴力検査方法および聴力検査用単語作成方法 |
-
1993
- 1993-12-28 JP JP5352484A patent/JPH07200615A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0749076A1 (en) * | 1995-06-12 | 1996-12-18 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for expanding character strings similar to a question character string |
US5835892A (en) * | 1995-06-12 | 1998-11-10 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for expanding similar character strings |
KR100916816B1 (ko) * | 2008-03-14 | 2009-09-14 | 엔에이치엔(주) | 일본어 앨리어스 데이터베이스를 이용하여 장음 및 촉음에대한 오류를 줄이고 일본어 입력기 사용 시 단자 찾기기능을 제공하는 방법 및 시스템 |
JP2014176582A (ja) * | 2013-03-15 | 2014-09-25 | Nitto Denko Corp | 聴力検査装置、聴力検査方法および聴力検査用単語作成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Den Besten et al. | The verbal complex in continental West Germanic | |
DE602005001840T2 (de) | System und Verfahren zur Verdeutlichung nicht diakritisierter arabischer Wörter in einem Text | |
Cuetos | Writing processes in a shallow orthography | |
WO1990007149A1 (en) | Keyboard express typing system | |
Schreier | /h/insertion as a ‘camouflage archaism’? Dialect contact, colonial lag and the feature pool in South Atlantic English | |
JPH07200615A (ja) | 言語抽出方法 | |
US20070061143A1 (en) | Method for collating words based on the words' syllables, and phonetic symbols | |
Papakitsos et al. | An application of software engineering for reading linear-B script | |
Anthony | The teaching of cognates | |
Eastlack | Iberochange: a program to simulate systematic sound change in Ibero-Romance | |
Greenberg | In defense of Amerind | |
Dhindsa et al. | English to Hindi transliteration system using combination-based approach | |
Knowles | Converting a corpus into a relational database: SEC becomes MARSEC | |
Bakamidis et al. | “Phonemia” a phoneme transcription system for speech synthesis in Modern Greek | |
JPH0969109A (ja) | 文書検索方法及び文書検索装置 | |
五百蔵高浩 et al. | A Corpus-based Approach to Patterns of English Consonant Clusters | |
Van | Building a syllable database to solve the problem of Khmer word segmentation | |
Somathasan | An innovative method for the study of complex word in English: A Linguistic Approach | |
Van Nam et al. | Building a Syllable Database to Solve the Problem of Khmer Word Segmentation | |
Parry | Late Hebrew Forms in 1QIsaa | |
Rahman et al. | Extending grammar annotation standards to spontaneous speech | |
Gibson | Reading with roots | |
KR20150076587A (ko) | 다언어로 찾는 중국어 사전 | |
Irwin | The Codification of Dictionary Traditions in Japanese Loanword Epenthetic Vowels | |
Kawakami et al. | Differential cognitive processing of Kanji and Kana words: do orthographic and semantic codes function in parallel in word matching task |