JPH0644295A - カタカナ語異表記展開方式 - Google Patents

カタカナ語異表記展開方式

Info

Publication number
JPH0644295A
JPH0644295A JP5098955A JP9895593A JPH0644295A JP H0644295 A JPH0644295 A JP H0644295A JP 5098955 A JP5098955 A JP 5098955A JP 9895593 A JP9895593 A JP 9895593A JP H0644295 A JPH0644295 A JP H0644295A
Authority
JP
Japan
Prior art keywords
rule
different
notation
katakana
expansion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5098955A
Other languages
English (en)
Other versions
JP3268611B2 (ja
Inventor
Yoshitane Nishimura
美苗 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP09895593A priority Critical patent/JP3268611B2/ja
Publication of JPH0644295A publication Critical patent/JPH0644295A/ja
Application granted granted Critical
Publication of JP3268611B2 publication Critical patent/JP3268611B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 一般性の高い異表記のみをルール化し、妥当
性の低い異表記の生成を抑制する。 【構成】 入力手段は、カタカナ語を文字列として入力
する。形態素解析辞書は、前記入力手段により入力され
た文字列から形態素を抽出し、語の形態を解析するのに
用いられる。異表記展開手段は、異表記展開ルールと前
記形態素解析辞書とを用いてカタカナ語を異表記に展開
する。

Description

【発明の詳細な説明】
【0001】
【技術分野】本発明は、カタカナ語異表記展開方式に関
し、より詳細には、カタカナ語を辞書情報と異表記展開
ルールの双方を用いて異表記に展開する異表記展開方式
に関する。例えば、文書データベースのキーワード検索
や形態素解析における辞書引き方法に適用されるもので
ある。
【0002】
【従来技術】本発明に係る従来技術を記載した公知文献
としては、例えば、特開平3−15980号公報に「文
字列検索のための異表記及び同義語展開方法」が提案さ
れている。この公報のものは、カタカナ異表記テーブル
を用いて、全ての可能な異表記を生成するものである。
すなわち、カタカナ語についてカタカナ表記変換テーブ
ルに基づいて、全ての可能な異表記を生成する。例え
ば、変換ルールテーブルには見出し「フォー」の展開結
果として、「フォー」「フォ」「ホー」「ホ」があるの
で、たとえば、「フォートラン」という語に対しては
「フォートラン」「フォトラン」「ホートラン」「ホト
ラン」の四種類が生成されることになる。
【0003】ところが、この語については「フォートラ
ン」以外の表記は実際の文書において見ない。ゆえに展
開生成されたすべての表記を検索語として検索を行なう
のは非効率的である。また、例えば、「バ」を「バ」ま
たは「ヴァ」に展開するルールがあるとするとこのルー
ルを用いた場合、「バ」の含まれる全ての語にこのルー
ルが適用され、以下のような実際にはない例を生成する
ことになる。 アルバイト → アルヴァイト アルバム → アルヴァム アンバランス → アンヴァランス グローバル → グローヴァル 白バイ → 白ヴァイ デバッグ → デヴァッグ
【0004】また、異表記ルールに位置情報、文字数条
件が含まれないところから実際には現われない異表記
や、他の語との衝突も発生する。例えば、長音記号の揺
れに関するルールを位置に無関係に適用すると以下のよ
うな例を生成することになる。 ターミナル → タミナル チャージ → チャジ カー → カ
【0005】
【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、一般性の高い異表記のみをルール化し、そうで
ない異表記は辞書の記述に頼ることで、妥当性の低い異
表記の生成を抑制すること、また、全ての異表記を同等
に扱うのではなく、異表記を実際に使われる頻度を反映
するように点数をつけることにより、生成した異表記を
効率的に利用できるようにすること、さらに、変換ルー
ルのセットを複数回適用することにより、より多くの必
要な異表記を生成するようにしたカタカナ語異表記展開
方式を提供することを目的としてなされたものである。
【0006】
【構成】本発明は、上記目的を達成するために、(1)
カタカナ語を文字列として入力する入力手段と、異表記
展開ルールと、前記入力手段により入力された文字列か
ら形態素を抽出し、語の形成を解析するのに用いられる
形態素解析辞書と、前記異表記展開ルールと形態素解析
辞書とを用いて、前記カタカナ語を異表記に展開する異
表記展開手段とから成ること、更には、(2)前記カタ
カナ語の表記の揺れに関して、一般性の高い揺れは、ル
ール化し、一般性の低い揺れは、辞書の登録語に個々に
記述し、双方を用いることにより異表記の生成数を減ら
すことのできるようにしたこと、更には、(3)前記
(2)において、文字位置や文字数を考慮したルールを
設定することによりルールの適用される語を限定し、異
表記の生成数を減らすことのできるようにしたこと、或
いは、(4)カタカナ語の異表記を異表記展開ルールに
従って生成し、生成された異表記に実際の出現頻度を反
映する点数をつけること、更には、(5)前記(4)に
おいて、前記カタカナ語に対して異表記展開ルールセッ
トを複数回適用すること、更には、(6)前記(4)に
おいて、前記異表記展開ルールに、変換結果の起こりや
すさを反映させる手段を設けたことを特徴としたもので
ある。以下、本発明の実施例に基づいて説明する。
【0007】図1は、本発明によるカタカナ語異表記展
開方式の一実施例を説明するための構成図で、図中、1
は入力手段、2は形態素解析辞書、3は異表記展開ルー
ル、4は異表記展開手段である。入力手段1により入力
された文字列がカタカナ語である場合に、形態素解析辞
書2と異表記展開ルール3とを用いて、異表記展開手段
4により異表記展開を行う。
【0008】図2は、カタカナ語の異表記展開処理のフ
ローチャートである。以下、各ステップに従って順に説
明する。まず、フラグf1の値を0にする(step1)。
入力されたカタカナ語が辞書に登録されているかどうか
を調べる(step2)。登録されていたら、その語の辞書
情報に特殊異表記があるか調べる(step3、図4辞書記
述例参照)。もしあれば、その異表記を記憶部に記憶す
る(step4)。元のカタカナ語と、辞書引きの結果得ら
れた異表記がある場合はそれも記憶部から取り、次のst
ep5に送る。これらの語に対してはまだ一般異表記展開
ルールを適用していないので(step5)、適用できる一
般異表記展開ルールがあるかどうか調べる(step6、図
5,6,7ルールの例参照)。step6において適用でき
るルールがなければ(step6)、異表記展開処理を終わ
る。
【0009】step5において適用できるルールがあれ
ば、そのルールに従って異表記展開を実行し、これを記
憶部に記憶する(step7)。記憶するとき、すでに記憶
部に記憶されている語と一致するかをチェックし、一致
しない表記のみを記憶する。一般ルールの適用がされた
ことを示すためにフラグf1の値を1にする。step9で
f1の値が1で、一般ルールを適用して新たに得た表記
があることがわかる。あらたに得た表記をstep2に送
り、これらの表記により辞書再示行なう。未登録語の場
合、step5に進み、一般異表記展開ルールがすでに適用
されているので異表記展開処理を終わる。
【0010】step3において、ユーザーの入力したカタ
カナ語が辞書に登録されておらず、未登録語と判断され
た場合、その未登録語が一般ルールによって異表記に展
開できるかどうかをstep6において調べる(step5,
6)。適用できるルールがない場合は、異表記展開処理
を終わる。step6において、適用できるルールがある場
合は、それに従って異表記展開を行ない、その結果を記
憶部に記憶する(step7)。この時、これまでに記憶部
に記憶されている語と一致するかをチェックし、一致し
ないもののみを記憶する。step8でフラグf1の値を1
にする。step9でf1の値が1で、一般ルールを適用し
て新たに得た表記があることがわかる。新たに得たこの
表記をstep2に送り、辞書引きを再度行なう。
【0011】再度未登録語だった場合、step5に進む。
すでに一般ルールを適用したので、再びルールを適用す
ることはせず、元のカタカナ語と、一般ルール適用の結
果得た表記のみを得て異表記展開処理を終わる。step2
において、一般異表記展開ルールによって得られた新た
な表記により辞書引きした結果、辞書登録語であれば、
その辞書情報に特別表記があるかどうかを調ベる(step
3)。あればそれを記憶する(step4)。この時、記憶
部に記憶されている語と一致するかをチェックし、一致
しないもののみを記憶する。ここで記憶した語にはルー
ルの適用が済んでいないので(step5)、step6に進
み、適用できる一般異表記展開ルールがあるかどうかを
調べる(step6、図5,6,7ルールの例参照)。
【0012】一般異表記展開ルールがあれば、そのルー
ルに従って異表記展開を実行し、これを記憶部に記憶す
る。この時、記憶部に記憶されている語と一致しないも
ののみを記憶する。f1の値をさらに1増やして2にす
る(step8)、step9で、f1の値が1でなくなるの
で、これ以上の異表記展開は行なわず、異表記展開処理
を終わる。
【0013】以下に、具体的な実施例について説明す
る。すなわち、カタカナ語の異表記展開の具体的な実施
例について説明する。辞書には、図4に示すように「ド
ライバー」と「ドライヴァー」が登録されているとす
る。 例1 「ドライバー」の場合 辞書引きの結果、異表記に「ドライヴァー」があるの
で、これを記憶する(step1,2,3)。「ドライバー」
と「ドライヴァー」に対してルールによる展開が可能か
どうか調べる(step6)。語末の長音記号省略のルール
(図5)で記述されている条件に合致するので、これに
より長音記号を省略し、「ドライバ」と「ドライヴァ」
を得る。f1を1にする(step8)。step9においてf
1の値が1なので、step2に戻り、異表記展開によって
得た「ドライバ」と「ドライヴァ」による辞書引きを行
なう。これらの二語は辞書未登録語なので、step5に進
む。一般異表記展開ルールはすでに適用済みなので、異
表記展開処理を終わる。元のカタカナ語「ドライバー」
と辞書によって得られた「ドライヴァー」、ルールによ
って得られた「ドライバ」、「ドライヴァ」が展開結果
となる。
【0014】例2 「ドライヴァー」の場合 辞書引きの結果、「ドライヴァ」が未知語になるので、
「ドライヴァ」が一般表記展開ルールで展開できるか調
べる(step5,6)、「ドライヴァ」が2文字以上で、
最後の字がア段なので、長音記号付加のルールが適用で
きる(図5)。「ドライヴァー」を得る。f1を1にす
る。step9においてf1の値が1なので、step2に戻
り、一般異表記展開ルールにより得られた「ドライヴァ
ー」により、辞書引きを行なう。「ドライヴァー」が登
録されているので、その異表記の有無を調べる(step
3)。「ドライバー」があるのでこれを記憶する(step
4)。step5に進み、辞書から得た「ドライバー」に対
してルールの適用がすんでいないので、これに対して適
用できるルールがあるかどうかを調ベる(step6)。
「ドライバー」が3文字以上で、最後の字がア段なの
で、長音記号削除のルールが適用できる(図5)。「ド
ライバ」を得る。step8でf1を1増やして2にする。
step9でf1=1が成り立たなくなるので、異表記号展
開処理を終わる。元のカタカナ語「ドライヴァ」とルー
ルによって得られた「ドライヴァー」、辞書情報により
得られた「ドライバー」、ルールによって得られた「ド
ライバ」が展開結果となる。
【0015】例3 「ドライバ」の場合 辞書引きの結果、「ドライバ」が未知語になるので、
「ドライバ」が一般異表記展開ルールで展開できるか調
べる(step5,6)。「ドライバ」が2文字以上で、最
後の字がア段なので、長音記号付加のルールが適用でき
る(図5)。「ドライバー」を得る(step7)。step8
でf1を1にする。step9においてf1の値が1なので
step2に戻り、一般異表記展開ルールにより得られた
「ドライバー」により辞書引きを行なう(step2)。
「ドライバー」が登録されているので、その異表記の有
無を調ベる(step3)。「ドライヴァー」があるのでこ
れを記憶する(step4)。step5に進み、辞書から得た
「ドライヴァー」に対して、一般異表記展開ルールの適
用がすんでいないので、これに対して適用できるルール
があるかどうか調ベる(step6)。「ドライヴァー」が
3文字以上で、最後の字がア段なので、長音記号削除の
ルールが適用できる(step5)。「ドライヴァ」を得
る。step8でf1を1増やして2にする。step9でf1
=1が成り立たなくなるので、異表記展開処理を終わ
り、元のカタカナ語「ドライバ」とルールによって得ら
れた「ドライバー」、辞書情報により得られた「ドライ
ヴァー」、ルールによって得られた「ドライヴァ」が展
開結果となる。
【0016】以上説明した実施例は、カタカナ語の出現
頻度の高い異表記を文字位置や文字数、前後の文字種類
などの条件を記述できるルールによって生成するもので
あった。そして、従来技術に見られるようなこのような
問題を次のように回避する。まず、一般性の高い異表記
のみをルール化し、そうでない異表記は辞書の記述に頼
る。また、異表記展開生成ルールに、注目する文字の語
中の位置(語頭、語未など)や前後の文字の指定、ある
いは語の長さを指定することによりルールの適用される
場合を制限する。前述した実施例においては、異表記展
開の対象となるカタカナ語を制限したので、異表記を生
成する語は制限された。しかし、異表記を生成した場
合、一語について、その異表記の数が多いことがある。
さらにそれらの異表記の中には、実際の使用頻度が低い
ものもある。例えば「エレベーター」という語において
は「ベー」と語未の長音記号「ー」が異なる表記を持
つ。さらに、「ベー」の異表記は複数ある。これらの複
数の異表記を全て取り入れて「エレベーター」の異表記
を生成させると、その結果として例えば表1のように9
通りの表記が得られる。
【0017】
【表1】
【0018】これらのうち、「エレヴェイター」や「エ
レヴエーター」の使われる可能性は「エレベータ」や
「エレヴェーター」より低い。さらに前述の実施例にお
いては、変換ルールをカタカナ語に一度のみ適用する。
生成された表記には変換ルールを適用しないので必要な
異表記が得られない場合がある。例えば「エレベータ
ー」という語においては「ベ」「ヴェ」の揺れを表すル
ールと語未の長音記号「ー」が削除されるルールが適用
されると「エレヴェーター」と「エレベータ」を得る。
しかし、この生成結果に対しては変換ルールを適用しな
いので、「ベ」を「ヴェ」と表記し、語未の長音記号
「ー」を持たない「エレヴェータ」を得ることができな
い。
【0019】図8は、本発明によるカタカナ語異表記展
開方式の他の実施例を説明するための構成図で、図中、
11は入力手段、12は異表記生成手段、13は異表記
生成ルール、14は記憶部、15は出力手段である。入
力手段11により入力されたカタカナ語の異表記が異表
記展開手段12により生成される。異表記展開手段は生
成を行なうために異表記展開ルール13を参照する。生
成された異表記は、記憶部14に蓄えられる。異表記展
開が終わると、得られた結果は出力手段15により出力
される。
【0020】図9は、異表記展開生成ルールの記述例を
示す図である。異表記展開生成ルールはそのルールの適
用された結果の出現頻度を表すようなペナルティ値を持
つ。ペナルティの値は必要に応じで変えることができ
る。例えば異表記をある分野にあわせて生成させる必要
がある時、その分野の表記の傾向に従って、ペナルティ
の値を変えることができる。具体的には、ある分野で、
英語の”v”に対応する音を、常に日本語の「バ」行で
表しているならば、「バ行」を「ヴ」を使って表すとい
うルールのペナルティを上げる。一方「ヴ」を「バ行」
に置き換えるルールのペナルティは低めにする。また、
ある分野で「ア段+長音記号」で終るの語の異表記とし
て長音記号を省略している表記が多くある場合は、語未
の長音記号を削除するルールのペナルティを低くする。
一方、語未に長音記号を付加するルールは副作用のある
場合もあるので、ペナルティを高くしておく。
【0021】図10は、カタカナ語の異表記展開生成処
理のフローチャートである。以下、各ステップに従って
順に説明する。まず、step1で入力されたカタカナ語k
のペナルティ値kpを0にセットする。また、ルールセ
ットの適用回数を示すカウンタiを0にセットする。適
用回数を例えば2回とすると、カウンタiの値は0なの
で、step3を経てstep4に進む。異表記展開生成ルール
セットの第一番目のルールから一つずつルールを参照
し、カタカナ語kがそのルールの条件満たすかどうか調
ベる(step4,5)。満たさない場合は、次のルールに
進む(step5,4)。条件を満たす場合、ルールに従っ
て異表記k’を生成し、記憶部に記憶する。また、ルー
ルの持つペナルティ値を異表記k'のペナルティk'pと
して記憶部に記憶する(step6)。展開生成ルールがあ
る間この処理(step4,5,6)を続ける。
【0022】ルールセットの終りに達したら、ルールセ
ットの参照位置を第一番目のルールに戻しておく。step
3において、生成展開対象語が他もあれば、step4に進
んでルールセットとの参照を第一番目ルールから行な
い、生成展開処理を続ける。step3において、生成対象
語が他にない場合には、step7に進みルールセットがカ
タカナ語kに一回適応されたことを示すためにカウンタ
iの値を1増やして1にする。step2に戻り、カウンタ
ーiの値があらかじめ決められたルールセット適用回数
2回に達していないことがわかるので、記憶部に記憶さ
れた異表記k’を一つずつ対象して、ルールの参照を、
ルールセットの第一番目にルールから再び行なう(step
3,4)。ルールに合致したら、異表記k’’を生成す
る。またルールの持つペナルティ値を、展開対象表記
k’の持っていたペナルティk'pに加算し、異表記
k’’のペナルティk’’pとし、記憶部に記憶する
(step5,6)。
【0023】記憶部に記憶されたいた異表記k’の全て
に対してルールを適用したら、step7で、カウンタiの
値を1増やして2にする。step2に戻り、あらかじめ決
めたルールセット適用回数2回にiの値が達しているこ
とがわかるのでstep8に進み、得られた表記同士の比較
を行なう。もし同じ表記があったら、記憶部から削除
し、重複がないようにする。この時、複数の同一表記が
異なるペナルティを持っている可能性がある。その場
合、ペンルティの値のうち、最小の値あるいは最大の値
など、あらかじめ定めた基準で、最終的なペナルティ値
を決定する。例えば元表記kの妥当性を最も高くしてお
きたい場合、すなわち、そのペナルティの値を最も小さ
くしておきたい場合は、最小値を最終的なペナルティ値
とする。ルールセットを複数回適用することで、元表記
kと同じ表記が、ペナルティ付きで生成される場合があ
るので、最小値をとることで、元表記のペナルティを保
持することができる。 (以下余白)
【0024】以下、具体的な実施例について説明する。
すなわち、カタカナ語の異表記展開の具体的な実施例に
ついて説明する。展開の条件は次のように設定する。 .図9に示すようなルールとそのペナルティを用い
る。 .ルールの適用回数は2回とする。 .同一表記が現われた場合はペナルティは最小値をと
る。 例1 元表記が「ドライバー」の場合 step1で入力された「ドライバー」のペナルティ値kp
をゼロにセットする。ルールセットの適用回数を示すカ
ウンタiを0にする。異表記展開生成ルールを一つずつ
参照し、「ドライバー」がそのルールの条件を満たす場
合、そのルールに従って異表記を生成し、記憶部に記憶
する(step4,5,6)。以下の表2に生成結果、ペナ
ルティ、適用されたルールを示す。
【0025】
【表2】
【0026】ルールセットの終りに達したら、step3に
戻り、生成対象語は「ドライバー」の他にはないのでst
ep7に進み、ルールセットが「ドライバー」に一回適応
されたことを示すためにカウンタiの値を1増やして1
にする。step2に戻り、カウンタiの値があらかじめ決
めたルールにセット適用回数2回に達していないので、
記憶部に記憶された異表記を一つずつ対象にして、ルー
ルの適用を再び行なう(step3,4,5)。ルールに合
致したら、生成、ペナルティの加算を行なって記憶する
(step6)。以下の表3に生成結果、ペナルティ、適用
されたルールを示す。
【0027】
【表3】
【0028】異表記全てに対して二度目のルール適用が
終ったら、step7で、カウンタiの値を1増やして2に
する。step2に戻り、あらかじめ決めたルールセット適
用回数2回にiの値が達しているので step8に進み、
得られた表記同士の比較を行なう。同じ表記があった
ら、記憶部から削除し、重複がないようにする。この時
同一の表記のペナルティの値の異なる場合には小さな方
の値を取る。例えば、「ドライバー」と言う表記は元表
記を含めて4個あり、それらのペナルティは、0,5ま
たは16である。このうち、最小の0をこの表記のペナ
ルティとする。同様にして他の同一の表記についても重
複をなくしてペナルティを決定する。以下の表4のよう
な表記とペナルティが最終結果として得られる。
【0029】
【表4】
【0030】例2 「ドライヴァ」の場合 使用ルール、ペナルティ、ルールの適用回数、ペナルテ
ィの決定の仕方は例1の場合と同じにする。第1回目の
ルールの適用で以下の表5の結果を得る。
【0031】
【表5】
【0032】上記異表記に対して、二度目のルール適用
した結果、以下の表6を得る。
【0033】
【表6】
【0034】ここで得られた同一表記は図10のstep8
で削除される。同一表記で異なるペナルティがある場合
は、その内の最小値を最終ペナルティ値とするので、元
表記「ドライヴァ」と同一表記で、ペナルティが8また
は16のも生成されたが最終的に「ドライヴァ」のペナ
ルティ値は0のままである。以下の表7に最終結果を示
す。
【0035】
【表7】
【0036】
【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。 (1)請求項1に対応する効果;異表記展開ルールを用
いるので、全ての表記の揺れを辞書に記述する必要がな
い。 (2)請求項2に対応する効果;異表記展開ルールを一
般性の高いものに限定するので、異表記の生成数を減ら
すことができる。 (3)請求項3に対応する効果;文字位置や文字数を考
慮した異表記展開ルールを設定することによりルールの
適用を制限するので、異表記の生成される数を減らすこ
とができる。 (4)請求項4に対応する効果;異表記が複数生成され
る場合でも、それらに付けられている点数より妥当度の
高い異表記から順に異表記を参照できるので、異表記を
利用するときに効率的に利用できる。 (5)請求項5に対応する効果;異表記展開生成ルール
セットを複数回適用することにより、より多くの異表記
を生成することができる。 (6)請求項6に対応する効果;用途に応じて異表記の
起こりやすさの度合を設定できる。例えば情報処理分野
の文書においては、語未の長音記号を表記しない傾向が
ある。これらに対する文書の検索時に検索者の指示した
検索語がカタカナ語である場合、異表記展開を行なう。
検索語が長音記号で終わる場合、長音記号削除のルール
によって長音記号を削除した表記を得る。このルールの
ペナルティを低く設定しておけば、展開生成によって得
られた複数の異表記中でも長音記号を持たない表記を優
先して取り上げ、検索に使うことができる。
【図面の簡単な説明】
【図1】 本発明によるカタカナ異表記展開方式の一実
施例を説明するための構成図である。
【図2】 本発明によるカタカナ異表記展開方式の動作
を説明するためのフローチャートを示す図である。
【図3】 本発明の特殊異表記を持つ語の例を示す図で
ある。
【図4】 本発明の辞書記述例を示す図である。
【図5】 本発明のルールの例(1)を示す図である。
【図6】 本発明のルールの例(2)を示す図である。
【図7】 本発明のルールの例(3)を示す図である。
【図8】 本発明によるカタカナ異表記展開方式の他の
実施例を説明するための構成図である。
【図9】 本発明による異表記展開生成ルールの記述例
を示す図である。
【図10】 本発明によるカタカナ語の異表記展開生成
処理のフローチャートである。
【符号の説明】
1…入力手段、2…形態素解析辞書、3…異表記展開ル
ール、4…異表記展開手段、11…入力手段、12…異
表記生成手段、13…異表記生成ルール、14…記憶
部、15…出力手段。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 カタカナ語を文字列として入力する入力
    手段と、異表記展開ルールと、前記入力手段により入力
    された文字列から形態素を抽出し、語の形成を解析する
    のに用いられる形態素解析辞書と、前記異表記展開ルー
    ルと形態素解析辞書とを用いて、前記カタカナ語を異表
    記に展開する異表記展開手段とから成ることを特徴とす
    るカタカナ語異表記展開方式。
  2. 【請求項2】 前記カタカナ語の表記の揺れに関して、
    一般性の高い揺れは、ルール化し、一般性の低い揺れ
    は、辞書の登録語に個々に記述し、双方を用いることに
    より異表記の生成数を減らすことのできるようにしたこ
    とを特徴とする請求項1記載のカタカナ語異表記展開方
    式。
  3. 【請求項3】 文字位置や文字数を考慮したルールを設
    定することによりルールの適用される語を限定し、異表
    記の生成数を減らすことのできるようにしたことを特徴
    とする請求項2記載のカタカナ語異表記展開方式。
  4. 【請求項4】 カタカナ語の異表記を異表記展開ルール
    に従って生成し、生成された異表記に実際の出現頻度を
    反映する点数をつけることを特徴とするカタカナ語異表
    記展開方式。
  5. 【請求項5】 前記カタカナ語に対して異表記展開ルー
    ルセットを複数回適用することを特徴とする請求項4記
    載のカタカナ語異表記展開方式。
  6. 【請求項6】 前記異表記展開ルールに、変換結果の起
    こりやすさを反映させる手段を設けたことを特徴とする
    請求項4記載のカタカナ語異表記展開方式。
JP09895593A 1992-05-07 1993-04-01 カタカナ語異表記展開方式 Expired - Fee Related JP3268611B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP09895593A JP3268611B2 (ja) 1992-05-07 1993-04-01 カタカナ語異表記展開方式

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP14326392 1992-05-07
JP4-143263 1992-05-07
JP09895593A JP3268611B2 (ja) 1992-05-07 1993-04-01 カタカナ語異表記展開方式

Publications (2)

Publication Number Publication Date
JPH0644295A true JPH0644295A (ja) 1994-02-18
JP3268611B2 JP3268611B2 (ja) 2002-03-25

Family

ID=26440045

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09895593A Expired - Fee Related JP3268611B2 (ja) 1992-05-07 1993-04-01 カタカナ語異表記展開方式

Country Status (1)

Country Link
JP (1) JP3268611B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1074205A (ja) * 1996-08-30 1998-03-17 Matsushita Electric Ind Co Ltd 類似名称検索装置
JP2006309469A (ja) * 2005-04-27 2006-11-09 Sharp Corp 検索装置、検索方法、プログラム、及びコンピュータ読み取り可能な記録媒体
US7345389B2 (en) 2004-05-24 2008-03-18 Alps Electric Co., Ltd. Motor, motor having encoder, and multi-direction input device
JP2009087162A (ja) * 2007-10-01 2009-04-23 Toshiba Corp 構造化文書検索システム及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1074205A (ja) * 1996-08-30 1998-03-17 Matsushita Electric Ind Co Ltd 類似名称検索装置
US7345389B2 (en) 2004-05-24 2008-03-18 Alps Electric Co., Ltd. Motor, motor having encoder, and multi-direction input device
JP2006309469A (ja) * 2005-04-27 2006-11-09 Sharp Corp 検索装置、検索方法、プログラム、及びコンピュータ読み取り可能な記録媒体
JP2009087162A (ja) * 2007-10-01 2009-04-23 Toshiba Corp 構造化文書検索システム及びプログラム
JP4550876B2 (ja) * 2007-10-01 2010-09-22 株式会社東芝 構造化文書検索システム及びプログラム

Also Published As

Publication number Publication date
JP3268611B2 (ja) 2002-03-25

Similar Documents

Publication Publication Date Title
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
JP3695191B2 (ja) 翻訳支援装置及びその方法並びにコンピュータ可読記録媒体
JP5113750B2 (ja) 定義の抽出
WO2012095696A2 (en) Text segmentation with multiple granularity levels
KR101841824B1 (ko) 텍스트 분할 프로그램, 텍스트 분할 장치, 및 텍스트 분할 방법
US20210342534A1 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
KR101694179B1 (ko) 모음 제거 기반 인덱스 생성 방법 및 장치
JPH09282331A (ja) 文書類似判定装置および文書類似判定方法
JPH0644295A (ja) カタカナ語異表記展開方式
JP4102153B2 (ja) インターネットを利用した文字認識の後処理装置
JP3309174B2 (ja) 文字認識方法及び装置
WO2010026804A1 (ja) 近似照合装置、近似照合方法、プログラム及び記録媒体
US20040054677A1 (en) Method for processing text in a computer and a computer
JP2010097239A (ja) 辞書作成装置、辞書作成方法、および辞書作成プログラム
JP4682627B2 (ja) 文書検索装置および方法
JPH11110408A (ja) 情報検索装置および方法
JP2003337821A (ja) テキスト要約方法、装置、およびテキスト要約プログラム
JP3043596B2 (ja) キーワード抽出装置
JP2006163830A (ja) 文字認識装置、文字認識方法、および文字認識プログラム
JP2009086911A (ja) 固有表現抽出装置、その方法、プログラム及び記録媒体
JPH0652151A (ja) 共起学習装置及びこれを用いたかな漢字変換装置
JPH11259482A (ja) 複合名詞の機械翻訳方式
JP2005234800A (ja) 用例機械翻訳装置及び用例翻訳コンピュータプログラム、並びに用例検索装置及び用例検索コンピュータプログラム
JPH0954781A (ja) 文書検索システム
JPH04330565A (ja) 自然言語処理システム

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080118

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090118

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100118

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees