JPH04119469A - 辞書作成支援装置 - Google Patents

辞書作成支援装置

Info

Publication number
JPH04119469A
JPH04119469A JP2239498A JP23949890A JPH04119469A JP H04119469 A JPH04119469 A JP H04119469A JP 2239498 A JP2239498 A JP 2239498A JP 23949890 A JP23949890 A JP 23949890A JP H04119469 A JPH04119469 A JP H04119469A
Authority
JP
Japan
Prior art keywords
dictionary
different
description
notation
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2239498A
Other languages
English (en)
Other versions
JP3006798B2 (ja
Inventor
Shinichiro Kamei
亀井 眞一郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2239498A priority Critical patent/JP3006798B2/ja
Publication of JPH04119469A publication Critical patent/JPH04119469A/ja
Application granted granted Critical
Publication of JP3006798B2 publication Critical patent/JP3006798B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は計算機によって人間の言葉を処理する自然言語
処理装置に関するものであり、特に計算機上に機械処理
用の辞書を作成する際に用いる辞書作成支援装置に関す
るものである。
〔従来の技術〕
従来、ある単語の辞書を作成する際には、その単語の表
記とは別の異表記は辞書作成者が一つ一つ考えて入力し
ていた。例えば、「取り扱う」という単語の辞書を作成
する際には、送りがなの表記のみが異なる「取扱う」と
いう異表記も辞書に入力しなければならないが、そのよ
うな異表記の入力に対しては単に辞書作成者がそのよう
な異表記に気づくかどうかに委ねられねおり、辞書作成
支援装置による支援は存在しなかった。
〔発明が解決しようとする課題〕
上述した従来の辞書作成法では、単語の表記の点で辞書
の質を保証することが難かしいという欠点がある。
計算機によって自然言語を処理する場合、計算機は処理
しようとする単語の辞書をその表記を手がかりにして検
索する。つまり、単語の表記、すなわち辞書の見出しは
この理由で処理過程の第一段階で重要な役割を果たす。
辞書の質が表記の点で保証されないと、第一段階で処理
につまづいてしまう。計算機による辞書検索は表記に厳
密に従って行なわれるから、異表記のような表記のゆれ
が辞書に登録されていないと辞書を引くことができない
例えば、辞書の見出しとして「取り扱う」のみが登録さ
れており「取扱う」が登録されていないとすると、「取
扱う」という表記を処理できない。
このことを想定して人間の辞書作成者はあらかじめいろ
いらな表記の違いを忘れずに登録しておかなければなら
ないが、これは辞書作成者にとって大きな負担である。
人間にとって「取り扱う」 「取扱う」といった異表記
は日常その違いを意識することはあまりなく、シたがっ
て辞書作成の際にも異表記登録を忘れやすい。しかし、
それでは辞書の質を保証できず、機械による自然言語処
理の質を向」ニさせる上で障害となっていた。
〔課題を解決するための手段〕
本発明の装置は、日本語、英語などの自然言語の辞書を
計算機上に作成するときに用いる辞書作成支援装置にお
いて、 単語の表記のゆれ、すなわち異表記に関する知識を格納
した異表記知識ベースと、 辞書作成者が登録しようとしている語の表記に関して、
異表記知識ベースを検索して、その語の異表記を推定す
る異表記推定部と、 推定した異表記を表示する異表記表示装置とを存してい
る。
〔実施例〕
次に、本発明について図面を参照して説明する。
第1図は本発明の一実施例を示すブロック図である。
第1図において、表記入力装置1はキーボードのような
文字の入力装置、異表記知識ベース2は単語の表記に対
してありうる異表記の可能性にっいての知識を格納した
知識ベース、異表記推論部3は表記入力装置1から入力
された単語の表記を受けとり、それを入力として異表記
知識ベース2を検索し、入力された表記に対してありう
る異表記を合成し、その異表記を、デイスプレィのよう
な表示装置である異表記表示装置4に出力する。
次に例を用いて本装置の動作を詳しく説明する。
本発明は、日本語、英語などどのような言語についても
適用できるがここでは日本語を例にとって説明する。
第2図は、異表記知識ベース2に格納されている異表記
に関する知識の例である。
第2図における左の欄には、異表記がありうる表記の条
件が記しである。例えば、第1行目の条件は単語の表記
の中にヴア、ヴイ、ヴ、ヴ工。
ヴオのいずれかが含まれているとき、その表記には異表
記がありうることを示している。この条件にあてはまる
例としては「ヴァイオリン」。
「・、コセ゛イオラ」、「クリスマスイヴ」、「ベート
−ヴエン」 「ヴオイス」が挙げられる。
第2図の右の欄には、異表記がありうるときに元の表記
を変化させて異表記を合成するための規則が記しである
。例えば、第2図の第1行目の条件に当てはまる表記に
対しては、その表記のヴア、ヴイ、ヴ、ヴエ、ヴオをそ
れぞれバ、ビ。
ブ、べ、ボに変えた表記が、考えうる異表記であること
が記されている。
「ヴァイオリン」に対して「バイオリン」。
「ヴィオラ」に対して「ビオラ」、「クリスマスイヴ」
に対して「クリスマスイブ」、「ベートーヴエン」に対
して「ベート−ベン」、「ヴオイス」に対して「ボイス
」がそれぞれ異表記となりうろことを意味している。
このような異表記に関する知識の例としては他に、「コ
ンピュータ」に対する「コンピューター」のような末尾
の長音記号の有無の例がある。外来語をカタカナ表記す
る場合、末尾がア段の音であるときには長音記号を付け
る表記と付けない表記とが両方ともありうる。この例と
しては「メーター」と「メータ」、「データー」と「デ
ータ」などがある。
また、漢字表記の送りがなに関しても異表記の存在を予
測することができる。例えば、「取り扱う」のように表
記が「漢字子ひらがな十漢字+ひらがな」という構成に
なっているとき、漢字と漢字にはさまれた最初のひらが
なは表記されない傾向がある。「取り扱う」の例でいえ
ば「取扱う」という異表記がありうる。
このように、表記の特徴からその表記に対してありうる
異表記を推定するための知識が異表記知識ベース2に格
納しである。
第3図は第1図中の異表記推論部3の動作を示したフロ
ーチャートである。次にこのフローチャートに沿って具
体的に本発明の詳細な説明する。
例えば、「取り扱う」という単語の表記が表記入力装置
1を通じて入力された場合を考える。異表記推論部3は
その「取り扱う」という表記に対して異表記がありうる
かどうかを調べるため異表記知識ベース2を検索する。
第2図に示したように、異表記知識ベース2に格納され
ている条件から「漢字+ひらがな十漢字+ひらがな」と
いう構成をもつ表記は異表記をもちうろことがわかる。
この条件の場合、ありうる異表記は漢字と漢字とにはさ
まれた最初のひらがなを取り去った表記であることが異
表記知識ベース2かられかる。
そこで、異表記推論部3は、「取り扱う」という表記の
中の文字を操作してその中のひらがな「す」を取り去り
、「取扱う」という文字列を合成する。この文字列が最
初の「取り扱う」という表記に対する異表記でありうる
。異表記推論部3はその合成した異表記は異表記表示装
置4に送られ表示される。
辞書作成者は単語「取り扱う」を辞書に登録しようとし
ているのであるが、そのとき本発明の辞書作成支援装置
を用いると、表記「取り扱う」に対して異表記として「
取扱う」がありうることが示されるのでそのような異表
記の存在について注意を喚起される。そして、実際にそ
の示された「取扱う」を元の表記「取り扱う」の異表記
として認めるときには辞書に異表記として登録する。
〔発明の効果〕
以上説明したように本発明では、単語の辞書を作成する
際に単語の表記からその異表記を推定して表示するので
、「取り扱う」 「取扱う」といったおくりがなの違い
による異表記や「コンピュータ」 「コンピューター」
といった長音記号の有無による異表記などの入力のし忘
れを大幅に減少させることができる。
このように、辞書入力者に対して異表記の存在に関する
注意を促すことで、辞書の質を表記の点で高めることが
できる。ひいては機械による自然言語処理全体の質を向
上させることができるという効果がある。
【図面の簡単な説明】
第1図は本発明の一実施例を示すプロ、ツク図、第2図
は第1図中に記した異表記知識ベース2に格納されてい
る異表記に間する知識の例を示す一〇 − 図、第3図は第1図中に記した異表記推論部3の動作を
示すフローチャートである。 1・・・表記入力装置、2・・・異表記知識ベース、3
・・・異表記推論部、4・・・異表記表示装置。

Claims (1)

  1. 【特許請求の範囲】 日本語、英語などの自然言語の辞書を計算機上に作成す
    るときに用いる辞書作成支援装置において、 単語の表記のゆれ、すなわち異表記に関する知識を格納
    した異表記知識ベースと、 辞書作成者が登録しようとしている語の表記に関して、
    異表記知識ベースを検索して、その語の異表記を推定す
    る異表記推定部と、 推定した異表記を表示する異表記表示装置とを有するこ
    とを特徴とする辞書作成支援装置。
JP2239498A 1990-09-10 1990-09-10 辞書作成支援装置 Expired - Fee Related JP3006798B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2239498A JP3006798B2 (ja) 1990-09-10 1990-09-10 辞書作成支援装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2239498A JP3006798B2 (ja) 1990-09-10 1990-09-10 辞書作成支援装置

Publications (2)

Publication Number Publication Date
JPH04119469A true JPH04119469A (ja) 1992-04-20
JP3006798B2 JP3006798B2 (ja) 2000-02-07

Family

ID=17045681

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2239498A Expired - Fee Related JP3006798B2 (ja) 1990-09-10 1990-09-10 辞書作成支援装置

Country Status (1)

Country Link
JP (1) JP3006798B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06332934A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 電子辞書引き装置
JP2006221532A (ja) * 2005-02-14 2006-08-24 Nec Corp 異表記展開方法、辞書登録方法および言語解析方法ならびにプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6211932A (ja) * 1985-07-10 1987-01-20 Hitachi Ltd 情報検索方法
JPH0267684A (ja) * 1988-09-02 1990-03-07 Hitachi Ltd 校正支援方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6211932A (ja) * 1985-07-10 1987-01-20 Hitachi Ltd 情報検索方法
JPH0267684A (ja) * 1988-09-02 1990-03-07 Hitachi Ltd 校正支援方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06332934A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 電子辞書引き装置
JP2006221532A (ja) * 2005-02-14 2006-08-24 Nec Corp 異表記展開方法、辞書登録方法および言語解析方法ならびにプログラム

Also Published As

Publication number Publication date
JP3006798B2 (ja) 2000-02-07

Similar Documents

Publication Publication Date Title
JPH04119469A (ja) 辞書作成支援装置
JP3677016B2 (ja) 外国語電子辞書検索装置
JP3285149B2 (ja) 外国語電子辞書検索方法及び装置
JPS6037510B2 (ja) ロ−マ字漢字変換方式
JPH0350668A (ja) 文字処理装置
JP4191805B2 (ja) 校正支援機能を有する文字列変換装置および方法
Al Moaiad et al. Python Solutions to Address Natural Language Challenges
JP3048793B2 (ja) 文字変換装置
JPH03129568A (ja) 文書処理装置
JP3273778B2 (ja) 仮名漢字変換装置及び仮名漢字変換方法
JPH10198664A (ja) 日本語入力システム及び日本語入力プログラムを記録した媒体
JPH0212369A (ja) 日本語処理装置
JP2005135444A (ja) 校正支援機能を有する文字列変換装置および方法
JPH07129566A (ja) かな漢字変換処理装置
JPH03208163A (ja) 文字処理装置
JPS6132171A (ja) 付属語キ−群を持つ文書作成装置
JPH08241315A (ja) 文書処理装置の単語登録機構
JPH0232460A (ja) 文書処理装置
JPH0410059A (ja) 外国語電子辞書検索方式
JP2001167093A (ja) 外国語電子辞書の生成、検索のための方法および装置
JPH0546344A (ja) 日本語入力装置
JPH07219954A (ja) 日本語文校正装置
JPH0310369A (ja) 辞書作成支援装置
JP2000020511A (ja) 日本語入力装置および方法
JPH0378078A (ja) 日本語文章処理装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071126

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081126

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081126

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091126

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees