JPH0417064A - 共起辞書保守方式 - Google Patents

共起辞書保守方式

Info

Publication number
JPH0417064A
JPH0417064A JP2119813A JP11981390A JPH0417064A JP H0417064 A JPH0417064 A JP H0417064A JP 2119813 A JP2119813 A JP 2119813A JP 11981390 A JP11981390 A JP 11981390A JP H0417064 A JPH0417064 A JP H0417064A
Authority
JP
Japan
Prior art keywords
dictionary
occurrence
word
heading
word data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2119813A
Other languages
English (en)
Inventor
Kiyoshi Mitsubori
潔 三堀
Hiroyuki Nakajima
弘之 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2119813A priority Critical patent/JPH0417064A/ja
Publication of JPH0417064A publication Critical patent/JPH0417064A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、共起辞書保守方式に関し、特に、機械翻訳処
理などの自然言語処理で用いる単語データ辞書において
、単語間の関係を表わす共起関係を登録する共起辞書を
生成し保守する共起辞書保守方式に関するものである。
〔従来の技術〕
機械翻訳処理などの自然言語処理システムにおいては、
単語データ辞書が重要な構成要素となる。
単語データ辞書は、例えば、第1言語(ソース言語)お
よび第2言語(ターゲット言語)の単語とその属性情報
(品詞、意味コード、格フレームなど)、第」−言語の
単語と第2言語の単語の間の対訳関係、更には第1言語
あるいは第2言語における弔語の共起関係などの辞書情
報を含んで構成される。単語データ辞書の作成は、従来
、人手により行っていたが膨大な労力を必要とするとい
う問題がある。したがって、機械による辞書情報の自動
作成が所望される。自動作成を行える可能性の高い、辞
書情報としては、単語の関係を示す共起関係の情報があ
る。例えば、特開昭62−232076号公報には、文
の解析関係から語の共起関係を抽出して知識ベースに蓄
積する方式が示されている。
ところで、このような自然言語処理で用いる単語データ
辞書においては、従来、特に、共起関係自体に見出しを
持たせるようにはしていない。単語の共起関係を単語デ
ータ辞書中に持たせる場合には、単語に関する甲語デー
タの部分データとして共起関係を示す単語データを、各
単語レコードの単語データ部に登録して持たせるように
している。
第5図は1単語データ辞書を作成し保守する辞書エディ
タの従来のシステム構成の例を示すブロック図である。
第5図を参照して辞書エディタの概略構成を説明すると
、辞書エディタ51は、見出し指定部52.辞書入出力
部53.データ表示部54から構成されており、甲語デ
ータ辞書55に登録する単語データに対する校正2編集
処理を行う。例えば、単語データを単語データ辞書に登
録する場合、見出し指定部52により登録する単語デー
タと共に当該単語の見出しを指定し、辞書人出環部53
の処理により、データ表示部54において、登録する甲
語データの内容を確認してから、単語データ辞書55に
対するアクセスを行い登録する処理を行う。また、1語
の間の関係を示す共起関係を辞書に登録する場合にも、
同様にして、見出し指定部52により単語間の共起関係
を指定し、データ表示部54により指定した内容を確認
して登録する。
第6図は、単語データ辞書の単語しコードに登録してい
る共起関係の一例を説明する図である。
第6図に示す単語データ辞書の単語レコード61は、単
語の見出し「割り当て」に対する単語データの部分デー
タとして[ファイル/ allocateJ と「人/
assignJとの共起関係が登録されている。
このような中1語レコード61に登録されてる甲語デー
タから単語の間の共起関係を参照する場合には、次によ
うな処理を行う必要がある。例えば、「ファイル」と「
割り当て」の共起関係を参照するには、一方の甲語「割
り当て]の見出しから単語しコード61を読み出し、こ
の単語データ部に登録されている単語データの各々の部
分データの「ファイル/allocateJ 、  r
人/ assign J y −を順次に読み出し、他
方の゛単語「ファイル」が共起関係として登録されてい
る郡語データ「ファイル/ allocate Jをサ
ーチし、共起関係を参照することになる。これにより、
例えば「ファイルを割り当てる」という文における[割
り当てJの対応訳語としてrallocateJ を得
る。
ところで、単語「割り当て」の見出しから単語レコード
61を読み出す場合、見出しとして登録されている「割
り当て」の見出し指定を正確に行う必要がある。例えば
、第7図に示すように、辞書から甲語レコードを読み出
す場合の見出しの指定を「割り当」、「割当て」などと
曖昧な指定を行うと、対象とする甲語レコード61を見
つけられなくなる。
〔発明が解決しようとする課題〕
上述のように従来における甲語データ辞書では、共起関
係を単語のデータの部分データとして甲語レコードに傍
録しているだけであるため、共起関係を検索するには、
核となる甲語に対する単語レコードを一度検索して、登
録されている中詰データを求め、この単語データの中か
ら共起関係の情報を探さなければならない。このため、
共起関係を参照する場合の処理時間が長くかがるという
問題がある。
本発明は、上記のような問題点を解決するためのなされ
たものである。
本発明の目的は、機械翻訳処理などの自然言語処理で用
いる単語データ辞書において、単語間の関係を表わす共
起関係を登録する共起辞書を生成し保守する場合に、高
速に共起関係を検索できる共起辞書保守方式を提供する
ことにある。
〔課題を解決するための手段〕 上記目的を達成するため、本発明の共起辞書保守方式は
、自然言語処理で用いる甲語データ辞書において、略語
間の関係を表わす共起関係を登録する共起辞書を生成し
保守する共起辞書保守方式であって、1文中から単語の
組を抽出し、その1語の組の単語データの見出しの組を
1つの共起関係見出しとして、当該1語データの組と共
に共起辞書に登録し、共起辞書から共起関係を有する単
語データの組を読み出す場合、単語データの見出しの組
からなる共起関係見出しにより、共起辞書に登録した目
的の単語データの組を一度に読み出すことを特徴とする
〔作用〕
これによれば、単語データ辞書に共起辞書として、鉄車
語間の関係を表わす共起関係を登録する場合、1文中か
ら単語の組を抽出し、その単語の組の単語データの見出
しの組を1つの共起関係見出しとして、当該単語データ
の組と共に共起辞書に登録する。また、このように登録
した共起辞書から共起関係を有する単語データの組を読
み出す場合、単語データの見出しの組からなる共起関係
見出しにより、共起辞書に登録した目的の甲1語データ
の組を一度に読み出す。すなわち、共起関係を構成する
各単語の組の見出しを、共起関係見出しとして用いて、
各単語の間の共起関係を登録し、検索を行う。ここでは
り1語の組(見出しの組)の共起関係自体が見出しとな
るので、例えば、辞書エディタにより共起関係を登録し
ている共起辞書の保守を行う場合に、共起関係のアクセ
スが1度に行えるで作業能率が向上する。
〔実施例〕
以下、本発明の一実施例を図面を用いて具体的に説明す
る。
第1図は、本発明の一実施例にかかる貼語データ辞書を
作成し保守する辞書エディタを構成するシステム構成の
ブロック図である。第1図において、1はデータ処理装
置である。データ処理装置1には、見出し解析部3.辞
書入出力部4が備えられる。また、データ処理装置1の
見出し解析部3には、見出し指定部2となる入力装置が
接続され、データ処理装置1の辞書入出力部4にデータ
表示部5となるデイスプレィ装置が接続されている。更
に、データ処理装置1には、単語データ辞書を格納する
辞書ファイル6が接続される。辞書ファイル6には、各
々の単語データに対する基本辞書11と、単語の間の共
起関係を示す共起辞書12とが登録されている。
このように構成されているシステム構成の辞書エティタ
において、見出し解析部3が、見出し指定部2から入力
された文に対して、1文中から単語の組を抽出し、その
単語の組の単語データの見出しの組を1つの共起関係見
出しとして、共起辞書12に登録する。この時、共起関
係見出しは、辞書入出力部4に与えられ、辞書入出力部
4は辞書ファイル6の基本辞書11をアクセスし、当該
する単語データの組と共に共起辞書12に登録される。
見出し解析の処理結果の共起関係見出し。
登録される内容などは、辞書入出力部4の制御によりデ
ータ表示部5で表示される。
また、共起辞書から共起関係を有する甲.語データの組
を読み出す場合には、入力装置となっている見出し指定
部2から嘔語データの見出しの組からなる共起関係見出
しを入力すると、見出し解析部3を通して辞書入出力部
4に共起関係見出しが与えられ、これにより、辞書入出
力部4が共起辞書ゴー2に登録した目的の嘔語データの
組を一度に読み出すことができる。このような共起関係
見出しの指定は、共起辞書12を作成する場合と同様に
、見出し指定部2から文を入力することにより、見出し
解析部3により共起関係見出しを作成して指定するよう
にしてもよい。
第2図は、文による見出し指定方法の一例を説明する図
ある。
共起関係を参照する時は、共起を構成する単語の組を見
出しく共起関係見出し)として指定することにより1度
に参照できるが、ここでの見出し解析部3を用いること
により、文章の中の文により、そのまま共起関係見出し
を作成して、共起関係を参照する。例えば、「ファイル
」と「割り当て」との共起関係を指定するとき、第2図
に示すように、「ファイル」と「割り当て」を正確に指
定しなくても、見出し指定部2から見出し解析部3に対
して、「ファイルを割当る」という文21。
「ファイル割り当て」という文22,または「ファイル
の割当て」という文23を見出しとして指定することに
より、見出し解析部3が処理を行い、「ファイル」と「
割り当て」に分割し、共起関係見出しとして、2つの単
語の見出しの組からなる共起関係見出し「割り当て11
フアイル」を作成する。なお、ここでの共起関係見出し
とする2つの単語の見出しの組は区切り記号「11」を
介して結合され、それぞれの単語の単独の見出しと区別
しておく。このように見出し解析部3により作成した共
起関係見出しにより、辞書人出刃部4を介して超超辞書
12をアクセスする。
したがって、共起関係見出しを指定する時には、見出し
解析部3を用いることにより、見出しの単語の語形、変
化形や送り仮名等の細かいことは気にせず、利用できる
第3図は、見出し解析部の処理フローの例を示すフロー
チャートである。
この見出し解析部の処理では、まず、ステップ31にお
いて単語形態素解析を行い、次のステップ32において
、単語の語幹取得を行う。次に、ステップ33において
、取得した単語の語幹を結合して、これを見出しとする
処理を行う。例えば、前述の「ファイルを割当る」では
、単語形態素解析により「ファイルを/割当る」と文節
に分割し、各文節「ファイルを」 「割当る」から、語
幹[ファイル」 「割り当て」を取得し、各々の語幹の
間に区切り記号「11」を加えて、取得した語幹を結合
して[割り当て11フアイル」とし、これを共起関係見
出しとする。
第4図は、共起辞書のデータ構成の一例を説明する図で
ある。
共起辞書12は、第4図に示すように、複数の単語の組
の見出し部41と、それに対応して単語の組の単語デー
タを登録する単語データ部42から構成されている。機
械翻訳に用いる日本語英語辞書の共起辞書として、見出
し「割り当て11フアイル」に対してrallocat
e、 fileJが登録されており、また、別の見出し
[割り当て11人」に対してはrassign、 pe
rsonJが登録されている。
このように、本実施例によれば、単語データ辞書に共起
辞書として、鉄車語間の関係を表わす共起関係を登録す
る場合、1文中から単語の組を抽出し、その嘔語の組の
単語データの見出しの組を1つの共起関係見出しとして
、当該単語データの組と共に共起辞書に登録する。すな
わち、共起関係を構成する各単語の組の見出し自体を、
共起関係見出しとして用いる。単語の組の共起関係見出
しには、各単語間の区切りを示す区切り記号(フィール
ド)を設けて、共起関係のない単純な単語データの見出
しと区別する。共起関係を構成する各単語を区別できる
ようにしている。
また、辞書エディタからの入力時には、見出しの指定を
文の形で行えるように、辞書エディタには見出し解析部
が設けられる。見出し解析部では、各々の単語データに
対して共起辞書に共起関係を登録する時1文の形で指定
された見出しの解析を行い、文中から雫語の組を抽出し
、各単語を区切り記号を介して連結させて共起関係見出
しを作成する。これにより、自然な文の形での共起関係
見出しの指定を行うことが可能となり、また、共起辞書
では、共起関係自体を見出しとすることにより、共起関
係を1度の検索によって探し出せるようになる。
以上、本発明を実施例にもとづき具体的に説明したが、
本発明は、前記実施例に限定されるものではなく、その
要旨を逸脱しない範囲において種々変更可能であること
は言うまでもない。
〔発明の効果〕
以上、説明したように、本発明によれば、共起関係見出
しにより、共起関係のアクセスが一度に行えるため、共
起辞書アクセス速度の向上が図かれる。また、辞書エデ
ィタからの見出し指定が自然な形の文で行なえるため、
マン・マシン・インタフェースの向上が図かれる等の効
果がある。
【図面の簡単な説明】
第1図は、本発明の一実施例にかかる咽語データ辞書を
作成し保守する辞書エディタを構成するシステム構成の
ブロック図、 第2図は、文による見出し指定方法の一例を説明する図
、 第3図は、見出し解析部の処理フローの例を示すフロー
チャート、 第4図は、共起辞書のデータ構成の一例を説明八 /14 する図、 第5@は、単語データ辞書を作成し保守する辞書エディ
タの従来のシステム構成の例を示すブロック図、 第6図は、単語データ辞書の略語レコードに登録してい
る共起関係の一例を説明する図、第7図は、従来の見出
し指定方法の一例を説明する図である。 図中、1・・・データ処理装置、2・・見出し指定部、
3・・・見出し解析部、4・・・辞書入出力部、5・・
データ表示部、6 ・辞書ファイル、11・・・基本辞
書、12・共起辞書、51・辞書エディタ、52・・・
見出し指定部、53・・・辞書入出力部、54・・・デ
ータ表示部、55・・・貼語データ辞書、61・・・単
語レコード。

Claims (1)

    【特許請求の範囲】
  1. 1、自然言語処理で用いる単語データ辞書において、単
    語間の関係を表わす共起関係を登録する共起辞書を生成
    し保守する共起辞書保守方式であって、1文中から単語
    の組を抽出し、その単語の組の単語データの見出しの組
    を1つの共起関係見出しとして、当該単語データの組と
    共に共起辞書に登録し、共起辞書から共起関係を有する
    単語データの組を読み出す場合、単語データの見出しの
    組からなる共起関係見出しにより、共起辞書に登録した
    目的の単語データの組を一度に読み出すことを特徴とす
    る共起辞書保守方式。
JP2119813A 1990-05-11 1990-05-11 共起辞書保守方式 Pending JPH0417064A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2119813A JPH0417064A (ja) 1990-05-11 1990-05-11 共起辞書保守方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2119813A JPH0417064A (ja) 1990-05-11 1990-05-11 共起辞書保守方式

Publications (1)

Publication Number Publication Date
JPH0417064A true JPH0417064A (ja) 1992-01-21

Family

ID=14770875

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2119813A Pending JPH0417064A (ja) 1990-05-11 1990-05-11 共起辞書保守方式

Country Status (1)

Country Link
JP (1) JPH0417064A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5608623A (en) * 1993-05-14 1997-03-04 Sharp Kabushiki Kaisha Special cooccurrence processing method and apparatus
US5690258A (en) * 1995-09-13 1997-11-25 Aprica Kassai Kabushikikaisha Baby carrier

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5608623A (en) * 1993-05-14 1997-03-04 Sharp Kabushiki Kaisha Special cooccurrence processing method and apparatus
US5690258A (en) * 1995-09-13 1997-11-25 Aprica Kassai Kabushikikaisha Baby carrier

Similar Documents

Publication Publication Date Title
Hale Research on Tibeto-Burman Languages
US5311429A (en) Maintenance support method and apparatus for natural language processing system
KR101130444B1 (ko) 기계번역기법을 이용한 유사문장 식별 시스템
Omar et al. The machine translation of literature: Implications for translation pedagogy
US20090070317A1 (en) Patent claim and specification analysis
Bergenholtz et al. A new perspective on the access process
US5289376A (en) Apparatus for displaying dictionary information in dictionary and apparatus for editing the dictionary by using the above apparatus
van Keulen et al. Corpus Linguistics and Textual History
JPH0417064A (ja) 共起辞書保守方式
JP2960936B2 (ja) 係り受け解析装置
Kaczmarek et al. Computer-assisted sign language translation: a study of translators’ practice to specify CAT software
Herawati et al. Communication Strategies Used by The Eighth Grade Students of SMP N 1 Surakarta in Developing Speaking Skill
JPH0877196A (ja) 文書情報抽出装置
Maksetova et al. LINGUISTIC PROBLEMS OF ENGLISH LEXICOGRAPHY
JPS60157659A (ja) 日本語解析方式
CN1553381A (zh) 多语种对应目录式语言数据库及同步电脑互译、交流方法
JPH0251765A (ja) 用語集自動作成方式
JP2000250913A (ja) 実例型自然言語翻訳方法、対訳用例集作成方法および装置とそのプログラムを記録した記録媒体
JPH0561902A (ja) 機械翻訳システム
Otten et al. Intermediate languages for automatic language processing
JPH0490052A (ja) 文書内容検索装置
Agung et al. TRANSLATION PERFORMANCE OF GOOGLE TRANSLATE AND DEEPL IN TRANSLATING INDONESIAN SHORT STORIES INTO ENGLISH
Roxas et al. Philippine language resources: trends and directions
TW517195B (en) Learning method and system for new vocabularies in computer
Miličević Creation and Some Ideas for Classroom Use of an Electronic Corpus of the Dialect of Bunjevci