JPH07200615A - 言語抽出方法 - Google Patents

言語抽出方法

Info

Publication number
JPH07200615A
JPH07200615A JP5352484A JP35248493A JPH07200615A JP H07200615 A JPH07200615 A JP H07200615A JP 5352484 A JP5352484 A JP 5352484A JP 35248493 A JP35248493 A JP 35248493A JP H07200615 A JPH07200615 A JP H07200615A
Authority
JP
Japan
Prior art keywords
words
word
katakana
spelling
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5352484A
Other languages
English (en)
Inventor
Noriko Yoshii
典子 吉井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP5352484A priority Critical patent/JPH07200615A/ja
Publication of JPH07200615A publication Critical patent/JPH07200615A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 外国語の単語において、発音が近似して綴り
が異なる単語を、簡易に抽出する方法を得る。 【構成】 発音が似通ったカタカナ文字と外国語文字ど
うしを、発音の近似度に基づいて対称表にまとめ、これ
らを検索式の要素として発音近似単語の抽出を行なう。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】英仏独語等の外国語の単語はその
発音と近似した発音をする他の綴りの単語が多数ある。
このためにとかく日本人にとってはその区別の困難さに
より日常の経済活動等において支障を来たすことがあ
る。本発明はこの問題を緩和するために近似発音単語を
簡易にチェックする方法を提供しようとするものであ
る。
【0002】
【従来の技術】従来この問題の対処法として、外国語の
単語をすべてカタカナ文字に置換え、カタカナ文字のみ
において近似比較検索する方法が取られてきた。しかし
ながらこの方法は、外国語の単語をカタカナ文字に置換
える初期作業に置いて誤差が生じ易い欠点がある。また
上記欠点の対応策として、外国語の単語を一文字ごとに
全アルファベット等に置換える試みもあるが、この方法
は作業量の膨大さと所謂抽出ノイズの多大さが問題とな
る。
【0003】
【課題を解決するための手段】本発明は発音が近似して
綴りの異なる外国語の単語を機械的に抽出するために、
カタカナ文字と外国文字を予めそれらの発音に基づいて
対称表にまとめておき、これらを検索式の要素として用
いることにより、その目的を達成しようをするものであ
る。
【0004】
【作用】この構成は次の通りである。アルファベット等
で綴られた外国語のある単語の読み方をカタカナ文字で
表記する。つまりふりがなを付ける事になる。このふり
がなのカタカナ文字を清音、濁音、拗音、長音の単位で
区切る。更にこの各カタカナ文字単位を、後に述べる対
称表から取り出した対応アルファベット文字単位に置換
える。これにより発音が近似して綴りが異なる多数の単
語が作成される。作成された多数の単語を、チェックす
べき単語群の中に検索式等を用いて投入する。検索の実
行により発音が近似して綴りの異なる単語が単語群の中
から自動的に抽出される。
【0005】上記の対称表とは、「カタカナ直音48文
字、およびこれらから派生する濁音、拗音、長音」と、
これらが有する発音に近似した発音を有する「アルファ
ベット26文字およびその結合綴り」とを互に対応させ
て集合した表である。
【0006】
【実施例】本発明の詳しい説明を具体例に従い述べる。
いま仮に「JULYBON」という外国語の単語があ
り、この単語が有する読み方と近似する読み方を有する
他の綴りの単語を、デ−タベ−ス等の単語群の中から抽
出したい場合を想定してみる。 1.先ず「JULYBON」を発音してみる。そしてこ
れをカタカナ文字で「ジュリ−ボン」と表記する。 2.「ジュリ−ボン」を直音、濁音、拗音、長音単位に
区切る。 (1)「ジュ」(拗音)、(2)「リ−」(長音)、
(3)「ボ」(濁音)、 (4)「ン」(直音) 3.対称表より対応するアルファベット文字および綴り
を取り出す。 (1)「ジュ」 JU、DU、SU、JE、GE、J
A、JO (2)「リ−」 LEA、RI、LI、LY、RY (3)「ボ」 BO、PO、VO、POR (4)「ン」 M、N、NE、MU、NU 4.上記のアルファベット文字および綴りを、順列組み
合せに従って置換配列し、発音が近似して綴りの異なる
単語を可能な限り多数作成する。 (例)JURYVOM、DULIPONE、JELYB
OM‥‥‥ 5.作成した単語を要素にして検索式を作成し、これを
デ−タ−ベ−ス等の単語群に投入し、機械検索を行い目
的の単語を抽出する。
【0007】上記は一例であるが、この方法はほとんど
の外国語の近似発音単語の抽出作業に対して有効であ
る。なぜならばあらゆる外国語の単語はカタカナ文字に
より表記することが可能であり、かつ対称表は直音、濁
音、拗音、長音のすべてを備えているからである(対称
表の全体は量が多いために表示せず)。
【0008】この方法をより効果的に用いるために次の
提案がある。上記の例は対称表の構成として(1)「ジ
ュ」のカタカナ拗音表記に対してDU、SU、JE、G
E、JA、JOの6個のアルファベット文字綴りを供給
したが、この供給個数は任意に選択できることが好まし
い。つまり対称表の各カタカナ文字にはできる限り多く
の近似発音アルファベット文字および綴りを対応させて
おく。そして実際に置換供給するときは、その中から選
択的に行う。このとき対称表の構成を次の様にしておけ
ば運用において有効である。
【0009】カタカナ文字に対応するアルファベット文
字をできる限り多く用意し、このアルファベット文字に
それに対応するカタカナ文字の発音に近似した度合いに
応じて数値表示をしておく。そして置換供給にあたって
は必要度に応じて数値表示を基に供給個数を制御する。
この方法により抽出作業を、抽出目的とする単語に近似
させたい程度に応じ、自在に調整して行うことができる
ものである。
【0010】
【発明の効果】以上述べたように、本発明は発音が近似
するが綴りの異なる外国語の単語を単語群から抽出する
ときに、検索したい基本となる単語にカタカナ文字でふ
りがなを記すだけで、後は作業テ−ブルに添った機械的
作業により容易に行なわれるものである。また対称表は
カタカナ文字と外国文字とを近似許容範囲を大きく設定
して対応させたものであるから、多少変則的な綴りの単
語でも洩らすことなく抽出できるものである。更に近似
許容範囲の設定が大きいといっても、外国語の単語を一
文字づつを全部置換えて検索する場合に較べ、その検索
作業量と検索ノイズは大幅に小さいものである。本発明
は上記のような長所を有するので経済、学術活動等にお
いて実用性の高いものである。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 検索しようとする外国語の単語の読み方
    を、カタカナ文字により清音、濁音、拗音、長音で表記
    し、更にこの各カタカナ文字を発音が近似する外国語の
    文字と置換えて綴りの異なる発音近似単語を多数作成
    し、これらの単語を検索式の要素として、単語群から綴
    りが異なり発音が近似する外国語の単語を抽出する方
    法。
JP5352484A 1993-12-28 1993-12-28 言語抽出方法 Pending JPH07200615A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5352484A JPH07200615A (ja) 1993-12-28 1993-12-28 言語抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5352484A JPH07200615A (ja) 1993-12-28 1993-12-28 言語抽出方法

Publications (1)

Publication Number Publication Date
JPH07200615A true JPH07200615A (ja) 1995-08-04

Family

ID=18424389

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5352484A Pending JPH07200615A (ja) 1993-12-28 1993-12-28 言語抽出方法

Country Status (1)

Country Link
JP (1) JPH07200615A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0749076A1 (en) * 1995-06-12 1996-12-18 Matsushita Electric Industrial Co., Ltd. Method and apparatus for expanding character strings similar to a question character string
KR100916816B1 (ko) * 2008-03-14 2009-09-14 엔에이치엔(주) 일본어 앨리어스 데이터베이스를 이용하여 장음 및 촉음에대한 오류를 줄이고 일본어 입력기 사용 시 단자 찾기기능을 제공하는 방법 및 시스템
JP2014176582A (ja) * 2013-03-15 2014-09-25 Nitto Denko Corp 聴力検査装置、聴力検査方法および聴力検査用単語作成方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0749076A1 (en) * 1995-06-12 1996-12-18 Matsushita Electric Industrial Co., Ltd. Method and apparatus for expanding character strings similar to a question character string
US5835892A (en) * 1995-06-12 1998-11-10 Matsushita Electric Industrial Co., Ltd. Method and apparatus for expanding similar character strings
KR100916816B1 (ko) * 2008-03-14 2009-09-14 엔에이치엔(주) 일본어 앨리어스 데이터베이스를 이용하여 장음 및 촉음에대한 오류를 줄이고 일본어 입력기 사용 시 단자 찾기기능을 제공하는 방법 및 시스템
JP2014176582A (ja) * 2013-03-15 2014-09-25 Nitto Denko Corp 聴力検査装置、聴力検査方法および聴力検査用単語作成方法

Similar Documents

Publication Publication Date Title
Den Besten et al. The verbal complex in continental West Germanic
DE602005001840T2 (de) System und Verfahren zur Verdeutlichung nicht diakritisierter arabischer Wörter in einem Text
WO1990007149A1 (en) Keyboard express typing system
Schreier /h/insertion as a ‘camouflage archaism’? Dialect contact, colonial lag and the feature pool in South Atlantic English
JPH07200615A (ja) 言語抽出方法
US20070061143A1 (en) Method for collating words based on the words' syllables, and phonetic symbols
Papakitsos et al. An application of software engineering for reading linear-B script
Eastlack Iberochange: a program to simulate systematic sound change in Ibero-Romance
Greenberg In defense of Amerind
Dhindsa et al. English to Hindi transliteration system using combination-based approach
Knowles Converting a corpus into a relational database: SEC becomes MARSEC
Al-Onaizan et al. Named entity translation
Bakamidis et al. “Phonemia” a phoneme transcription system for speech synthesis in Modern Greek
五百蔵高浩 et al. A Corpus-based Approach to Patterns of English Consonant Clusters
Van Building a syllable database to solve the problem of Khmer word segmentation
Van Nam et al. Building a Syllable Database to Solve the Problem of Khmer Word Segmentation
Thwin et al. Proposed Myanmar Word Tokenizer Based on LIPIDIPIKAR Treatise
Utka Towards the Development of Language Analysis Tools for the Written Latgalian
Rahman et al. Extending grammar annotation standards to spontaneous speech
CN114185441A (zh) 全部汉词简易无重码普适输入法
Gibson Reading with roots
KR20150076587A (ko) 다언어로 찾는 중국어 사전
Irwin The Codification of Dictionary Traditions in Japanese Loanword Epenthetic Vowels
Kawakami et al. Differential cognitive processing of Kanji and Kana words: do orthographic and semantic codes function in parallel in word matching task
Chayen Automatic Conversion of Place Names in English Orthography to Hebrew Phonetic Representation. The Jerusalem Carta Atlas Project