JP3006798B2 - Dictionary creation support device - Google Patents

Dictionary creation support device

Info

Publication number
JP3006798B2
JP3006798B2 JP2239498A JP23949890A JP3006798B2 JP 3006798 B2 JP3006798 B2 JP 3006798B2 JP 2239498 A JP2239498 A JP 2239498A JP 23949890 A JP23949890 A JP 23949890A JP 3006798 B2 JP3006798 B2 JP 3006798B2
Authority
JP
Japan
Prior art keywords
notation
different
dictionary
word
handle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2239498A
Other languages
Japanese (ja)
Other versions
JPH04119469A (en
Inventor
眞一郎 亀井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2239498A priority Critical patent/JP3006798B2/en
Publication of JPH04119469A publication Critical patent/JPH04119469A/en
Application granted granted Critical
Publication of JP3006798B2 publication Critical patent/JP3006798B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は計算機によって人間の言葉を処理する自然言
語処理装置に関するものであり、特に計算機上に機械処
理用の辞書を作成する際に用いる辞書作成支援装置に関
するものである。
Description: BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a natural language processing apparatus for processing human words by a computer, and more particularly to a dictionary used when creating a dictionary for machine processing on a computer. The present invention relates to a creation support device.

〔従来の技術〕[Conventional technology]

従来、ある単語の辞書を作成する際には、その単語の
表記とは別の異表記は辞書作成者が一つ一つ考えて入力
していた。例えば、「取り扱う」という単語の辞書を作
成する際には、送りがなの表記のみが異なる「取扱う」
という異表記も辞書に入力しなければならないが、その
ような異表記の入力に対しては単に辞書作成者がそのよ
うな異表記に気づくかどうかに委ねられており、辞書作
成支援装置による支援は存在しなかった。
Conventionally, when a dictionary of a certain word is created, a different notation different from the notation of the word has been considered and input by the dictionary creator one by one. For example, when creating a dictionary of the word "handle", the only difference is the "handle"
Must be entered in the dictionary, but it is up to the dictionary creator to notice whether or not such a notation is entered. Did not exist.

〔発明が解決しようとする課題〕[Problems to be solved by the invention]

上述した従来の辞書作成法では、単語の表記の点で辞
書の質を保証することが難かしいという欠点がある。
The conventional dictionary creation method described above has a drawback that it is difficult to guarantee the quality of the dictionary in terms of word notation.

計算機によって自然言語を処理する場合、計算機は処
理しようとする単語の辞書をその表記を手がかりにして
検索する。つまり、単語の表記、すなわち辞書の見出し
はこの理由で処理過程の第一段階で重要な役割を果た
す。
When a computer processes a natural language, the computer searches a dictionary of words to be processed using the notation as a clue. That is, word notation, or dictionary headings, plays an important role in the first step of the process for this reason.

辞書の質が表記の点で保証されないと、第一段階で処
理につまづいてしまう。計算機による辞書検索は表記に
厳密に従って行なわれるから、異表記のような表記のゆ
れが辞書に登録されていないと辞書を引くことができな
い。
If the quality of the dictionary is not guaranteed in terms of notation, the first step will be to stumbling. Since the dictionary search by the computer is performed strictly according to the notation, the dictionary cannot be looked up unless the fluctuation of the notation such as a different notation is registered in the dictionary.

例えば、辞書の見出しとして「取り扱う」のみが登録
されており「取扱う」が登録されていないとすると、
「取扱う」という表記を処理できない。
For example, if only "Handle" is registered as a dictionary heading and "Handle" is not registered,
The notation "handle" cannot be processed.

このことを想定して人間の辞書作成者はあらかじめい
ろいらな表記の違いを忘れずに登録しておかなければな
らないが、これは辞書作成者にとって大きな負担であ
る。
Assuming this, a human dictionary creator must remember in advance various differences in notation, but this is a heavy burden on the dictionary creator.

人間にとって「取り扱う」「取扱う」といった異表記
は日常その違いを意識することはあまりなく、したがっ
て辞書作成の際にも異表記登録を忘れやすい。しかし、
それでは辞書の質を保証できず、機械による自然言語処
理の質を向上させる上で障害となっていた。
Different notations such as "handling" and "handling" are not often noticed by human beings, so it is easy to forget to register different notations when creating a dictionary. But,
Then, the quality of the dictionary could not be guaranteed, and this was an obstacle to improving the quality of natural language processing by machines.

〔課題を解決するための手段〕[Means for solving the problem]

本発明の装置は、日本語,英語などの自然言語の辞書
を計算機上に作成するときに用いる辞書作成支援装置に
おいて、単語の表記から考えられる異表記を合成するた
めの規則についての知識を格納した異表記知識ベース
と、辞書作成者が登録しようとしている語の表記に対
し、前記異表記知識ベースに格納された規則を適用し
て、その単語の異表記を推定する異表記推論部と、推定
した異表記を表示する異表記表示装置とを有している。
The device of the present invention is a dictionary creation support device used when creating a dictionary of a natural language such as Japanese or English on a computer, and stores knowledge about rules for synthesizing different notations conceivable from word notations. Heterogeneous knowledge base, and to the notation of the word that the dictionary creator is going to register, by applying the rules stored in the hemimorphic knowledge base, a notation inference unit that estimates the notation of the word, A different notation display device for displaying the estimated different notation.

〔実施例〕〔Example〕

次に、本発明について図面を参照して説明する。 Next, the present invention will be described with reference to the drawings.

第1図は本発明の一実施例を示すブロック図である。 FIG. 1 is a block diagram showing one embodiment of the present invention.

第1図において、表記入力装置1はキーボードのよう
な文字の入力装置、異表記知識ベース2は単語の表記に
対してありうる異表記の可能性についての知識を格納し
た知識ベース、異表記推論部3は表記入力装置1から入
力された単語の表記を受けとり、それを入力として異表
記知識ベース2を検索し、入力された表記に対してあり
うる異表記を合成し、その異表記を、ディスプレイのよ
うな表示装置である異表記表示装置4に出力する。
In FIG. 1, a notation input device 1 is a character input device such as a keyboard, a different notation knowledge base 2 is a knowledge base storing knowledge of possible different notations for a word notation, and a different notation inference. The unit 3 receives the notation of the word input from the notation input device 1, searches the different notation knowledge base 2 by using the input as an input, synthesizes a possible different notation with the input notation, and converts the different notation into Output to the different notation display device 4 which is a display device such as a display.

次に例を用いて本装置の動作を詳しく説明する。 Next, the operation of the present apparatus will be described in detail using an example.

本発明は、日本語,英語などどのような言語について
も適用できるがここでは日本語を例にとって説明する。
The present invention can be applied to any language such as Japanese and English.

第2図は、異表記知識ベース2に格納されている異表
記に関する知識の例である。
FIG. 2 is an example of knowledge about a different notation stored in the different notation knowledge base 2.

第2図における左の欄には、異表記がありうる表記の
条件が記してある。例えば、第1行目の条件は単語の表
記の中にヴァ,ヴィ,ヴ,ヴェ,ヴォのいずれかが含ま
れているとき、その表記には異表記がありうることを示
している。この条件にあてはまる例としては「ヴァイオ
リン」,「ヴィオラ」,「クリスマスイヴ」,「ベート
ーヴェン」「ヴォイス」が挙げられる。
The left column in FIG. 2 describes the conditions of the notation that may have different notations. For example, the condition on the first line indicates that when any of the word expressions includes any of va, vi, ve, ve, and vo, the notation may have a different notation. Examples that meet this condition are "violin", "viola", "Christmas eve", "Beethoven" and "voice".

第2図の右の欄には、異表記がありうるときに元の表
記を変化させて異表記を合成するための規則が記してあ
る。例えば、第2図の第1行目の条件に当てはまる表記
に対しては、その表記のヴァ,ヴィ,ヴ,ヴェ,ヴォを
それぞれバ,ビ,ブ,ベ,ボに変えた表記が、考えうる
異表記であることが記されている。
In the right column of FIG. 2, rules for synthesizing the different notation by changing the original notation when there is a different notation are described. For example, for the notation that satisfies the conditions on the first line of FIG. It is described that it is a different notation.

「ヴァイオリン」に対して「バイオリン」,「ヴィオ
ラ」に対して「ビオラ」,「クリスマスイヴ」に対して
「クリスマスイブ」,「ベートーヴェン」に対して「ベ
ートーベン」,「ヴォイス」に対して「ボイス」がそれ
ぞれ異表記となりうることを意味している。
“Violin” for “Violin”, “Viola” for “Viola”, “Christmas Eve” for “Christmas Eve”, “Beethoven” for “Beethoven”, “Voice” for “Voice” ] Means that each can be a different notation.

このような異表記に関する知識の例としては他に、
「コンピュータ」に対する「コンピューター」のような
末尾の長音記号の有無の例がある。外来語をカタカナ表
記する場合、末尾がア段の音であるときには長音記号を
付ける表記と付けない表記とが両方ともありうる。この
例としては「メーター」と「メータ」,「データー」と
「データ」などがある。
Other examples of knowledge about such notation are:
There is an example of the presence or absence of a ending long syllabary such as "computer" for "computer". When a foreign word is written in katakana, there may be both a notation with a prolonged sign and a notation with no long letter when the sound ends with a letter A. Examples of this are "meter" and "meter", "data" and "data", and the like.

また、漢字表記の送りがなに関しても異表記の存在を
予測することができる。例えば、「取り扱う」のように
表記が「漢字+ひらがな+漢字+ひらがな」という構成
になっているとき、漢字と漢字にはさまれた最初のひら
がなは表記されない傾向がある。「取り扱う」の例でい
えば「取扱う」という異表記がありうる。
In addition, it is possible to predict the presence of a different notation for a kanji notation. For example, when the notation is “Kanji + Hiragana + Kanji + Hiragana” such as “handle”, the first hiragana sandwiched between the kanji and the kanji tends not to be written. Speaking of the example of "handle", there may be a different notation of "handle".

このように、表記の特徴からその表記に対してありう
る異表記を推定するための知識が異表記知識ベース2に
格納してある。
In this way, knowledge for estimating a possible different notation for the notation from the features of the notation is stored in the different notation knowledge base 2.

第3図は第1図中の異表記推論部3の動作を示したフ
ローチャートである。次にこのフローチャートに沿って
具体的に本発明の動作を説明する。
FIG. 3 is a flowchart showing the operation of the variant notation inference unit 3 in FIG. Next, the operation of the present invention will be specifically described with reference to this flowchart.

例えば、「取り扱う」という単語の表記が表記入力装
置1を通じて入力された場合を考える。異表記推論部3
はその「取り扱う」という表記に対して異表記がありう
るかどうかを調べるため異表記知識ベース2を検索す
る。
For example, consider a case where the notation of the word “handle” is input through the notation input device 1. Different notation inference part 3
Searches the different notation knowledge base 2 to see if there is a different notation for the notation "handle".

第2図に示したように、異表記知識ベース2に格納さ
れている条件から「漢字+ひらがな+漢字+ひらがな」
という構成をもつ表記は異表記をもちうることがわか
る。この条件の場合、ありうる異表記は漢字と漢字とに
はさまれた最初のひらがなを取り去った表記であること
が異表記知識ベース2からわかる。
As shown in FIG. 2, "kanji + hiragana + kanji + hiragana"
It can be understood that the notation having the configuration of can have a different notation. Under this condition, it can be seen from the different notation knowledge base 2 that the possible different notation is a notation in which the first hiragana sandwiched between the kanji characters is removed.

そこで、異表記推論部3は、「取り扱う」という表記
の中の文字を操作してその中のひらがな「り」を取り去
り、「取扱う」という文字列を合成する。この文字列が
最初の「取り扱う」という表記に対する異表記でありう
る。異表記推論部3が合成した異表記は異表記表示装置
4に送られ表示される。
Therefore, the different notation inference unit 3 operates the characters in the notation “handle”, removes the hiragana “ri” in the notation, and synthesizes the character string “handle”. This string may be a variant of the first notation "handle". The different notation synthesized by the different notation inference unit 3 is sent to the different notation display device 4 and displayed.

辞書作成者は単語「取り扱う」を辞書に登録しようと
しているのであるが、そのとき本発明の辞書作成支援装
置を用いると、表記「取り扱う」に対して異表記として
「取扱う」がありうることが示されるのでそのような異
表記の存在について注意を喚起される。そして、実際に
その示された「取扱う」を元の表記「取り扱う」の異表
記として認めるときには辞書に異表記として登録する。
The dictionary creator is trying to register the word "handle" in the dictionary. At this time, if the dictionary creation support device of the present invention is used, there is a possibility that the word "handle" is different from the notation "handle". You will be alerted to the presence of such variants. Then, when the indicated "handle" is actually recognized as a different notation of the original notation "handle", it is registered as a different notation in the dictionary.

〔発明の効果〕〔The invention's effect〕

以上説明したように本発明では、単語の辞書を作成す
る際に単語の表記からその異表記を推定して表示するの
で、「取り扱う」「取扱う」といったおくりがなの違い
による異表記や「コンピュータ」「コンピューター」と
いった長音記号の有無による異表記などの入力のし忘れ
を大幅に減少させることができる。
As described above, in the present invention, when a dictionary of words is created, the different notation is estimated and displayed from the word notation. It is possible to greatly reduce forgetting to input a different notation due to the presence or absence of a prolonged symbol such as "computer".

このように、辞書入力者に対して異表記の存在に関す
る注意を促すことで、辞書の質を表記の点で高めること
ができる。ひいては機械による自然言語処理全体の質を
向上させることができるという効果がある。
In this way, by alerting the dictionary entry person about the presence of the different notation, the quality of the dictionary can be improved in terms of notation. As a result, there is an effect that the quality of the whole natural language processing by the machine can be improved.

【図面の簡単な説明】[Brief description of the drawings]

第1図は本発明の一実施例を示すブロック図、第2図は
第1図中に記した異表記知識ベース2に格納されている
異表記に間する知識の例を示す図、第3図は第1図中に
記した異表記推論部3の動作を示すフローチャートであ
る。 1……表記入力装置、2……異表記知識ベース、3……
異表記推論部、4……異表記表示装置。
FIG. 1 is a block diagram showing an embodiment of the present invention, FIG. 2 is a diagram showing an example of knowledge between different notations stored in a different notation knowledge base 2 shown in FIG. FIG. 4 is a flowchart showing the operation of the variant notation inference unit 3 shown in FIG. 1 ... notation input device, 2 ... different notation knowledge base, 3 ...
Different notation inference unit, 4... Different notation display device.

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】日本語,英語などの自然言語の辞書を計算
機上に作成するときに用いる辞書作成支援装置におい
て、 単語の表記から考えられる異表記を合成するための規則
についての知識を格納した異表記知識ベースと、 辞書作成者が登録しようとしている語の表記に対し、前
記異表記知識ベースに格納された規則を適用して、その
単語の異表記を推定する異表記推論部と、 推定した異表記を表示する異表記表示装置とを有するこ
とを特徴とする辞書作成支援装置。
1. A dictionary creation support device used when creating a dictionary of a natural language such as Japanese or English on a computer, wherein knowledge about rules for synthesizing different notations considered from word notations is stored. A variant notation knowledge base, and a variant notation inference unit for applying the rules stored in the variant notation knowledge base to the notation of the word that the dictionary creator intends to register, and estimating the variant notation of the word; And a different notation display device for displaying the different notation.
JP2239498A 1990-09-10 1990-09-10 Dictionary creation support device Expired - Fee Related JP3006798B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2239498A JP3006798B2 (en) 1990-09-10 1990-09-10 Dictionary creation support device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2239498A JP3006798B2 (en) 1990-09-10 1990-09-10 Dictionary creation support device

Publications (2)

Publication Number Publication Date
JPH04119469A JPH04119469A (en) 1992-04-20
JP3006798B2 true JP3006798B2 (en) 2000-02-07

Family

ID=17045681

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2239498A Expired - Fee Related JP3006798B2 (en) 1990-09-10 1990-09-10 Dictionary creation support device

Country Status (1)

Country Link
JP (1) JP3006798B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06332934A (en) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd Device for referring to electronic dictionary
JP4760043B2 (en) * 2005-02-14 2011-08-31 日本電気株式会社 Language analysis method and program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2515726B2 (en) * 1985-07-10 1996-07-10 株式会社日立製作所 Information retrieval method and device
JPH0267684A (en) * 1988-09-02 1990-03-07 Hitachi Ltd Calibration supporting system and dictionary retrieving system

Also Published As

Publication number Publication date
JPH04119469A (en) 1992-04-20

Similar Documents

Publication Publication Date Title
JP3006798B2 (en) Dictionary creation support device
JPH0619959A (en) Proper noun specifying processing system
JPS6210763A (en) Kana to kanji conversion system
JP2633978B2 (en) Kana-Kanji conversion method
JP3034970B2 (en) Document reading support device
JP2570681B2 (en) Word processor
JPS613267A (en) Kana to kanji conversion processor
JPH1063651A (en) Chinese language input device
JPH06332934A (en) Device for referring to electronic dictionary
JP3019447B2 (en) Foreign Katakana Notation Conversion Method
JPS60122429A (en) Monosyllable voice input system
JP3216725B2 (en) Sentence structure analyzer
JP2001142893A (en) Information disclosing device and sentence disclosing method
JPH04232997A (en) System for displaying result of recognition in speech recognition device
JP2692362B2 (en) Dictionary creation support device
JPH0310369A (en) Dictionary preparation backup device
JPH10261049A (en) Character recognizing device
JP2002183129A (en) Word registering method
JP2000020511A (en) Japanese input device and its method
JPH08185324A (en) System and method for processing information
JPH01116875A (en) Japanese word processor
JPH06195325A (en) Japanese language processor
JPH05266065A (en) Machine translation system
JPH0683862A (en) Document preparing device
JPH0736884A (en) Input device for character recognition

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071126

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081126

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081126

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091126

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees