JPH0432966A - 辞書作成装置 - Google Patents

辞書作成装置

Info

Publication number
JPH0432966A
JPH0432966A JP2133590A JP13359090A JPH0432966A JP H0432966 A JPH0432966 A JP H0432966A JP 2133590 A JP2133590 A JP 2133590A JP 13359090 A JP13359090 A JP 13359090A JP H0432966 A JPH0432966 A JP H0432966A
Authority
JP
Japan
Prior art keywords
dictionary
morphemes
input
morpheme
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2133590A
Other languages
English (en)
Inventor
Hideo Ito
秀夫 伊東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2133590A priority Critical patent/JPH0432966A/ja
Publication of JPH0432966A publication Critical patent/JPH0432966A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 狡恵分災 本発明は、辞書作成装置に関し、より詳細には、機械翻
訳や仮名漢字変換に用いられる辞書作成装置に関する。
従氷艮亙 一般に、自然言語処理においては、その対象言語の諸費
情報の蓄積である辞書を必要とする。ところが以下のよ
うな問題がある。
まず、収集の問題としては、必要とされる諸費情報の範
囲は明確でなく、十分とされる諸費情報の量は膨大であ
るため、諸費情報の収集は困難である。
次に、選択の問題としては、たとえ諸費情報が収集され
たとしても、対象となる状況に対してどの諸費情報を使
用すべきかを選択することは困難である。
さらに、管理の問題としては、たとえ諸費情報が収集さ
れたとしても、その有効範囲や期間は不断に変化するた
め、諸費情報の有効性の維持管理は困難である。
このような問題に対処するために、十分な範囲を対象と
せず、必要な範囲のみを対象として辞書を作成又は調整
することが重要となる。
従来においては、多大なコストをかけて上記諸量情報の
収集の問題に対処し、ユーザの援助によって上記選択の
問題に対処している(管理の問題はほとんど対処されて
いない)。しかし、この方法には多大なコストがかかる
ことやユーザの負担が大きいことなどの問題がある。
また従来においては、例えば仮名漢字変換や機械翻訳に
おける分野別辞書のように、対象とする領域を限定する
ことで上記諸費情報の収集の問題及び選択の問題に対処
している。しかし、この方法によって実用的な効果を得
るためには、領域の限定範囲を極度に狭くすることが必
要であり、したがって対象範囲がその限定範囲に含まれ
る保証がない場合、このような辞書を多数用意せねばな
らず、多大なコストがかかるという問題がある。
また、どのように限定範囲を定めればよいかが明確でな
いという問題もある。また、そのような狭い限定範囲に
おいては、上記管理の問題が発生しやすいという問題も
ある。
例えば、特開昭60−147868号公報に記載されて
いるものは、分野別又は個人用の既存の資料を利用して
最適な漢字辞書を作成する辞書作成装置に関するもので
、既存の文章に含まれる漢字部分の出現回数をカウント
することで、その文章又はそれに類する文章に対し、同
音異義語の使用順位を調整した辞書を作成するものであ
る。しかし、一般に自然言語は漢字のみで構成されるも
のではなく、漢字部分と漢字以外の部分を合わせた全体
、もしくは1語としてのひとまとまりを考慮して処理を
行わなくてはならない。
例えば、「むし歯」という単語が既存の文章中で使用さ
れていた場合、この技術では漢字部分にのみ注目するた
め「むし歯」というひとまとまりでは処理されず、既成
辞書中に「むし歯」が存在していても、読み「ム、シ、
バ、ムシ、シバ、ムシバ」に対する同音異義語の使用順
位を正しく調整することができない。また、漢字仮名変
換辞書により漢字部分の「歯」の読みを得る場合でも、
rむしl#Jという1まとまりで処理されないため、「
ハ」ではなく「バ」であるという結果を得るのは非常に
困難である。
目     的 本発明は、上述のごとき実情に鑑みてなされたもので、
辞書の調整や作成を自動的に行うことで収集の問題を解
決し、対象領域に属する既存文章の分析結果を基に行う
ことで選択と管理の問題を解決し、既存文章の分析を漢
字部分だけでなく全形態素に対して行うことで語として
のまとまりを考慮した処理を可能にするようにした辞書
作成装置を提供することを目的としてなされたものであ
る。
碧−一エ収 本発明は、上記目的を達成するために、(1)既存の文
章を入力するための入力部と1文章を形態素に分割する
形態素解析部と、既成の辞書と、前記入力部より入力さ
れた文章を前記形態素解析部によって形態素に分割した
結果をもとに、前記辞書の内容をその使用目的に対して
最適になるように調整する辞書調整部とを具備したこと
、或いは、(2)既存の文章を入力するための人力部と
、文章を形態素に分割する形態素解析部と、前記入力部
より入力された文章を前記形態素解析部によって形態素
に分割した結果をもとに辞書を自動作成する辞書作成部
とを具備したことを特徴としたものである。以下、本発
明の実施例に基づいて説明する。
第1図は、本発明による辞書作成装置の一実施例を説明
するための構成図で5図中、1は入力部。
2は形態素解析部、3は辞書調整部、4は既成辞書であ
る。
既存の文章を入力部1に入力し、入力された文章を形態
素解析部2により形態素に分割する。該形態素解析部2
により形態素に分割された結果に基づいて既成辞書4の
内容を使用目的に適合するように辞書調整部3で調整し
、辞書を作成する。
以下に具体的な入力文に基づいて説明する。既成文章と
して[とてもむし歯が痛む」が入力部1に入力された場
合、この入力文は形態素解析部2に送られる。形態素解
析部2は1次のようにして前記入力文を「とても/むし
歯/が/痛む」という形態素に分割する。まず、第3図
に示すような形態素リストを検索し、入力中に下記の第
1表のような表記/品詞の組(形態素と呼ぶ)の候補が
含まれることがわかる。
この際、活用語は語幹部分のみ形態素リストに登録し、
一方活用語尾を品詞毎に別に持ち、入力とのマツチング
の際には、これらを連接したものをマツチング対象とす
ることで、形態素リストの圧縮と検索効率向上を図って
もよい。
次に、第4図に示すような品詞間の連接表をもとに、上
記形態素の連接可能性を全て調べる。この場合は とても(副詞) むし歯(名詞) が(格助詞) 痛む(ま行五段動詞) という連接のみが可能であるが、複数の連接可能性があ
る場合は1品詞間の連接しやすさ、形態索長5字種、全
体の文節数、文節に含まれる形態素数などの情報を用い
て入力を覆う最も適当な連接の組を選択する。
このようにして、入力を形態素の列に変換した結果は辞
書調整部3に送られる。辞書調整部3ば、上記形態素毎
に表記の情報を利用し、第5図に示すような既成辞書4
中の該当エントリを検索する。
そして、仮名漢字変換においてエントリ(漢字とは限ら
ない。助詞、助動詞など平仮名のエントリも含む)の選
択に使用される任意の情報を、変換率が最適になるよう
に調節する。例えば、使用度や連接度などを単位量だけ
増加させる。
ここで使用度とは例えば使用頻度などそのエントリ単独
に関する使用されやすさを表す測度であり、連接度とは
そのエントリが前後のどのような種類のエントリと連接
しやすいかを表す測度である。
以上のようにして、既存の文章の形態素解析の結果をも
とに、既存辞書を仮名漢字変換率を最適にするように調
節することができる。
なお、第1図に点数で示したように、形態素解析部が使
用する形態素リストは既成の辞書で兼用してもよい。す
なわち、仮名漢字変換のための品詞分類と形態素解析の
ための品詞分類を同一にし。
第4図に示す連接表は、その品詞分類に対して作成され
ていればよい。
第6図は、第1図に基づく分類による辞書作成装置の動
作を説明するためのフローチャートである。以下、各ス
テップに従って順次説明する。
柑旦:既存の文章を入力する。
1見4:入力された文章を形態素リストを検索し、表記
を品詞の組の候補を生成する。
配μえ:品詞間の連接表をもとに連接可能性を調べる。
些刊:最も適当な連接の組を決定する。
射μ場:連接の組を構成する形態素を1つ抽出する。
射徂己:既成辞書の該当エントリを検索する。
1見程:エントリに関する情報を調整する。
仕刊:最後の形態素かどうか判断する。最後の形態素で
あれば終了し、そうでなければ5tep5に戻る。
第2図は、辞書調整部を有しない辞書作成装置の構成図
で、図中、5は入力部、6は形態素解析部、7は辞書作
成部である。すなわち、既成の辞書を調節するのではな
く、新たに仮名漢字変換用辞書を作成するためには、次
のよつにすればよい。
既存の文章を入力部5に入力し、入力された文章を形態
素解析部6により形態素の列に分割する。
ただし、形態素解析部6で使用する品詞分類は、目的と
する仮名漢字変換で使用するものと同一もしくは対応づ
けが可能なものとする。
次に、辞書作成部7は形態素の読み(平仮名)を得るた
めに、非平板名−平板名変換を行う。非平板名−平板名
変換(今後単に仮名変換と呼ぶ)とは、漢字・カタカナ
・数字・記号などが入力中にあると、それに対応する読
みを平板名列として出力するものである。
例えば、「平成4年のバルセロナ」という入力に対して
形態素解析部をした結果、以下の第2表に示すような形
態素列が得られた場合、仮名変換の結果は第3表のよう
に各形態素に対する読みが平仮名で与えられたものが出
力される。
前記仮名変換は、各形態素の表記またはその一部をキー
として、第5図のような既存の仮名漢字変換辞書、また
は第7図のようなカタカナ・記号・数字の読み対応表5
または第8図のような単漢字音訓表、または第9図のよ
うな漢字仮名変換表を検索して対応する読みを得ること
で行う。
次に、辞書作成部7は、各形態素が入力の既存文章中に
何回現れたかをその使用度としてカウントする。
最後に、辞書作成部7は、以上までで得られた形態素毎
の表記、品詞、読み、使用度を、第5図のような仮名漢
字変換辞書の形式にして出力する。
また、辞書を作成する場合、まったく新規に作成するの
ではなく、一般に使用頻度が高い日常語や基本語の辞書
を共通辞書として用意し、入力文章に対し辞書を作成す
る場合は、その共通の辞書にマージするようにしてもよ
い。
あるいは、同種類の入力文章を数回に分けて入力する場
合、旧辞書に含まれない形態素に対しては単にエントリ
として加え、旧辞書にすでに含まれている形態素に対し
ては旧辞書中の使用度と今回カウントされた使用度を加
算するようにして、旧辞書を成長させるようにしてもよ
い。
第10図は、第2図に基づく本発明による辞書作成装置
の動作を説明するためのフローチャートである。以下、
各ステップに従って順次説明する柑旦:既存の文章を入
力する。
射μ4二人力された文章を形態素リストを検索し、表記
と品詞の組の候補を生成する。
射四刺:品詞間の連接表をもとに連接可能性を調へる。
射」鎮:最も適当な連接の組を決定する。
射」扱:連接の組を構成する形態素を1つ抽出する。
1月則:前記形態素に関し、非平板名・平仮名変換を行
い「読み」の情報を得る。
1μj:形態素の出現回数を基に使用度を求める。
射」碍:前記5tep7までで得られた情報を形態素毎
に記憶装置に保存する。
射四捜:最終の形態素かどうか判断する。最後の形態素
でなければ5tep5に戻る。
扛吐烈: s t e p 9において最後の形態素で
あれば前記5tep8までで得られた情報を辞書の形式
にして出力する。
本発明の実施例では仮名漢字変換辞書の調整や作成につ
いて説明したが、機械翻訳用辞書、漢字仮名変換辞書な
ど、辞書を具備した自然言語処理装置ならば、適宜変形
して実施することができる。
また、既存文章の入力方式、形態素解析の方式、辞書内
容と検索方式に関して限定するものではない。要するに
、既存文章を利用し、それを形態素に分割し、その情報
を利用して辞書を調整、作成する場合に適用できる。
効   果 以上の説明から明らかなように、本発明によると、辞書
の調整や作成を自動的に行うことで、対象言語の諸費情
報の蓄積である辞書に関する収集の問題、選択の問題、
管理の問題を解決することができるとともに、既存文章
の利用効率を漢字部分のみ利用する場合に比較して大幅
に向上することができる。
【図面の簡単な説明】
第1図は、本発明による辞書作成装置の一実施例を説明
するための構成図、第2図は、辞書調整部を有しない辞
書作成部の例を示す構成図、第3図は1表記と品詞と示
す図、第4図は、品詞間の連接を示す図、第5図は、既
成辞書の内容を示す図、第6図は、第1図に基づく辞書
作成装置の動作を説明するためのフローチャート、第7
図は、カタカナ・記号・数字の読みの対応を示す図、第
8図は、単漢字の音訓を示す図、第9図は、漢字仮名変
換を示す図、第10図は、第2図に基づく辞書作成装置
の動作を説明するためのフローチャートである。 1・・・入力部、2・・・形態素解析部、3・・・#書
調整部、4・・・既成辞書。 特許出願人  株式会社 リ コ

Claims (1)

  1. 【特許請求の範囲】 1、既存の文章を入力するための入力部と、文章を形態
    素に分割する形態素解析部と、既成の辞書と、前記入力
    部より入力された文章を前記形態素解析部によって形態
    素に分割した結果をもとに、前記辞書の内容をその使用
    目的に対して最適になるように調整する辞書調整部とを
    具備したことを特徴とする辞書作成装置。 2、既存の文章を入力するための入力部と、文章を形態
    素に分割する形態素解析部と、前記入力部より入力され
    た文章を前記形態素解析部によって形態素に分割した結
    果をもとに辞書を自動作成する辞書作成部とを具備した
    ことを特徴とする辞書作成装置。
JP2133590A 1990-05-23 1990-05-23 辞書作成装置 Pending JPH0432966A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2133590A JPH0432966A (ja) 1990-05-23 1990-05-23 辞書作成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2133590A JPH0432966A (ja) 1990-05-23 1990-05-23 辞書作成装置

Publications (1)

Publication Number Publication Date
JPH0432966A true JPH0432966A (ja) 1992-02-04

Family

ID=15108369

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2133590A Pending JPH0432966A (ja) 1990-05-23 1990-05-23 辞書作成装置

Country Status (1)

Country Link
JP (1) JPH0432966A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7007233B1 (en) 1999-03-03 2006-02-28 Fujitsu Limited Device and method for entering a character string
US11531816B2 (en) 2018-07-20 2022-12-20 Ricoh Company, Ltd. Search apparatus based on synonym of words and search method thereof

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7007233B1 (en) 1999-03-03 2006-02-28 Fujitsu Limited Device and method for entering a character string
US11531816B2 (en) 2018-07-20 2022-12-20 Ricoh Company, Ltd. Search apparatus based on synonym of words and search method thereof

Similar Documents

Publication Publication Date Title
KR100453227B1 (ko) 번역 지원 시스템에서의 유사 문장 검색 방법
US4864503A (en) Method of using a created international language as an intermediate pathway in translation between two national languages
US20080040095A1 (en) System for Multiligual Machine Translation from English to Hindi and Other Indian Languages Using Pseudo-Interlingua and Hybridized Approach
Papageorgiou et al. A Unified POS Tagging Architecture and its Application to Greek.
Dror et al. Morphological Analysis of the Qur'an
JPH05120324A (ja) 言語処理方式
JPH0432966A (ja) 辞書作成装置
Nässelqvist The Question of Punctuation in John 1: 3–4: Arguments from Ancient Colometry
Güngör Lexical and morphological statistics for Turkish
Meftouh et al. Modeling Arabic Language using statistical methods
Anto et al. Text to speech synthesis system for English to Malayalam translation
Kumar et al. Bilingual Parallel Corpora: A Major Resource for Developing Computational Tools for Automatic Processing of Hindi-Dogri Language Pair
Hartikainen et al. Large lexica for speech-to-speech translation: from specification to creation.
JPH03105465A (ja) 複合語抽出装置
Freigang Automation of translation: past, presence, and future
Myint et al. Morpheme-Based Myanmar Word Segmenter
Khan et al. An expert system driven approach to generating natural language in romanized urdu from english documents
Sidwell Editor-Translator’s Preface
JP2994080B2 (ja) 訳語選択方式
Uzun et al. Web-based acquisition of subcategorization frames for Turkish
Utka Towards the Development of Language Analysis Tools for the Written Latgalian
JP3921904B2 (ja) 翻訳文検索装置
Arkhangelskiy Electronic corpora of the albanian, kalmyk, lezgian, and ossetic languages
Kotorova et al. Lexicographic Documentation of an Endangered Language: The Case of Ket
JPS59103136A (ja) カナ漢字変換処理装置